CN113515657A

CN113515657A - 一种跨模态多视角目标检索方法及装置

Info

Publication number: CN113515657A
Application number: CN202110761048.4A
Authority: CN
Inventors: 刘安安; 张晨宇; 李文辉; 宋丹; 张勇东
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-10-19
Anticipated expiration: 2041-07-06
Also published as: CN113515657B

Abstract

本发明公开了一种跨模态多视角目标检索方法及装置，方法包括：基于三维模型的多视角序列，利用CNN提取2D图像特征和三维模型的多视角序列特征；利用最大池化将三维模型的多视角序列特征融合成一个三维全局特征；通过鉴别器对2D图像特征和三维全局特征进行全局的特征分布对齐；将所有类别划分成小部分簇，并将不同模态相同簇的中心特征对齐，挖掘簇级别的语义信息；不断增加簇的个数进行迭代训练，逐渐细化簇级别的语义信息；当簇的个数和类别总数相同时，将每个簇中心特征切割成M块进行局部的特征分布对齐，挖掘显著性特征外的信息。装置包括：处理器和存储器。本发明提高了跨模态三维多视角目标检索的准确性。

Description

一种跨模态多视角目标检索方法及装置

技术领域

本发明涉及多视角序列，以及跨模态检索领域，尤其涉及一种跨模态多视角目标检索方法及装置。

背景技术

随着三维建模技术以及相关应用的成熟，多视角目标数据已经得到了急剧的增长，如何有效地检索所需的多视角目标变得越来越重要。传统的多视角物体检索方法通常利用神经网络提取带有标签的多视角特征，然后计算多视角查询目标和检索库中所有目标特征之间的相似度。但是这样的操作需要大量带有标签的多视角目标用于训练，并且用于查询的多视角目标日常也不易获得。人们更倾向于用简单的2D图像来检索多视角目标，为此衍生了跨模态多视角目标检索任务。此任务为使用带有标签的2D图像(源域数据)来检索不带有标签的多视角目标(目标域数据)。

由于多视角目标缺少标签并且源域和目标域存在数据分布的巨大差异，研究人员经常采用无监督域适应策略来解决此类检索问题。早期的方法^[1-5]利用MMD(最大均值差异)来对齐源域和目标域数据的条件和概率分布，这在减小域的分布差异上取得了很好的效果。最近，一些方法使用源域分类器来预测目标域数据伪标签并用于减小两个域之间的差异^[6-10]。代表性的方法MSTN(动态语义对齐网络)^[7]即通过对齐类别中心特征来保持两个域数据的语义一致性。

尽管该些方法取得了一定的作用，但在跨域多视角目标任务中要学习到鲁棒性特征仍有两个缺陷：

1)源域分类器预测的部分错误伪标签干扰了目标域类别中心特征的生成，因此会误导数据对齐过程。在域适应的初始阶段，源域分类器并不能很好的分类目标域样本，因此一些目标域样本不可避免地被错误分类，导致生成不精确的目标域类别中心并且误导对齐过程。因此如果只是使用类别中心特征分布对齐很难较好的对齐两个域的数据分布。

2)源域和目标域特征中包含的语义信息并没有被完全探索。现存的方法普遍使用全局特征来对齐特征分布。然而，发明人认为特征的不同维度可能代表不同的语义，直接用全局特征来执行对齐过程会让模型只注意到特征中显著部分并忽略一些其他有用的特征，因此限制了性能的提升。

发明内容

本发明提供了一种跨模态多视角目标检索方法及装置，本发明基于一个类别-簇的策略，即：通过将多个类别样本融合成一个簇，并且由类别中心对齐转换为簇中心对齐来实现语义一致性，解决了目标域样本错误伪标签的问题；利用类别-簇和全局-局部的思想对2D图像和三维模型特征进行渐进式的对齐，提高了跨模态三维多视角目标检索的准确性，详见下文描述：

第一方面，一种跨模态多视角目标检索方法，所述方法包括以下步骤：

基于三维模型的多视角序列，利用CNN提取2D图像特征和三维模型的多视角序列特征；

利用最大池化将三维模型的多视角序列特征融合成一个三维全局特征；

通过鉴别器对2D图像特征和三维全局特征进行全局的特征分布对齐；

将所有类别划分成小部分簇，并将不同模态相同簇的中心特征对齐，挖掘簇级别的语义信息；

不断增加簇的个数进行迭代训练，逐渐细化簇级别的语义信息；当簇的个数和类别总数相同时，将每个簇中心特征切割成M块进行局部的特征分布对齐，挖掘显著性特征外的信息。

其中，所述将所有类别划分成小部分簇，并将不同模态相同簇的中心特征对齐具体为：

利用2D图像标签计算出所有2D图像的类别中心特征；将所有的类别中心特征进行聚类分组，分成N组簇；

利用簇标签，计算出2D图像和三维模型所有簇的簇中心特征；将2D图像和三维模型所有簇的簇中心特征进行分布对齐。

进一步地，所述方法包括：将类别中心特征对齐转化为簇中心特征对齐，每个簇包含多个类别。

其中，所述不断增加簇的个数进行迭代训练，逐渐细化簇级别的语义信息具体为：根据最大训练迭代次数将三维模型训练分为若干个阶段；每过一个阶段，将每个簇中的类别再次通过聚类划分为N个包含更少类别的簇；针对新的簇，再次执行簇中心特征对齐。

进一步地，所述将每个簇中心特征切割成M块进行局部的特征分布对齐具体为：将每个簇中心的全局特征按维度方向等间隔切割成M个局部特征；在执行2D图像和三维模型的簇中心全局特征分布对齐时保证M个局部特征分布的对齐。

其中，所述簇中心的计算公式为：

其中，j＝1,...,N，N为簇的个数，n_j为第j个簇所包含的全部样本个数，

为源域第j个簇中第m个样本的特征，

为目标域第j个簇中第m个样本的特征。

第二方面，一种跨模态多视角目标检索装置，所述装置包括：所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明通过将多个类别融合成一个簇的策略，极大的缓解了源域分类器预测的错误目标域伪标签对模型造成的负面影响，使得模型更加鲁棒；在训练过程中不断增加簇的数量，细化簇中的类别，可以引导模型朝着更加准确的方向梯度下降；

2、本发明通过将整体特征按照维度方向等间隔划分成多个局部块并执行块对齐的策略，使得模型在关注特征显著性部分的同时关注其他语义信息，让两个域的数据分布对齐的更加紧密；

3、随着训练的不断进行，不断增加簇的数量，让每个簇中包含的类别逐渐减少直到只包含一个类别，此时簇和类别等价；为了解决特征语义信息探索不完整，提出全局-局部的策略，将特征按维度方向等间隔划分成M个局部块，在执行全局特征分布对齐的同时对齐M个块，即保证显著性特征对齐的同时挖掘其他有用的信息。

附图说明

图1为一种跨模态多视角目标检索方法的流程图；

图2为跨模态多视角目标检索的网络结构图；

图3为一种跨模态多视角目标检索装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种跨模态多视角目标检索方法，参见图1，该方法包括以下步骤：

101：利用相机阵列对三维模型进行映射，生成三维模型的多视角序列；

102：基于三维模型的多视角序列，利用CNN(卷积神经网络)提取2D图像特征和三维模型的多视角序列特征；

103：利用最大池化将三维模型的多视角序列特征融合成一个三维全局特征；

104：利用鉴别器使得2D图像特征和三维全局特征进行全局的特征分布对齐；

现有技术中仅通过类别中心来对齐两个域的特征分布，很少关注错误伪标签对类别中心对齐带来的负面影响，于是本方法将类别中心对齐转化为簇中心对齐，每个簇包含多个类别，放宽了模型对伪标签精度的要求，缓解了错误伪标签的负面影响。

105：将所有类别划分成小部分簇，并将不同模态相同簇的中心特征进行对齐，挖掘簇级别的语义信息；

其中，该步骤包括：

利用簇标签，计算出2D图像和三维模型所有簇的簇中心特征；将2D图像和三维模型所有簇的簇中心特征进行分布对齐，挖掘簇级别的语义信息。

106：随着训练迭代的增加，不断增加簇的个数直到和类别总数相同，逐渐细化簇级别的语义信息；

其中，该步骤包括：

根据最大训练迭代次数将三维模型训练分为若干个阶段；每过一个阶段，将每个簇中的类别再次通过聚类划分为N个包含更少类别的簇；

针对新的簇，再次执行簇中心特征分布对齐。

现有技术对齐特征分布用的都是整体特征，这样会让模型过分关注特征中显著的语义信息，忽略其他的语义信息。本方法提出将整体特征转化为多个局部块的策略，在对齐整体特征的同时对齐局部块特征，挖掘更多的语义信息。

107：在簇的个数和类别总数相同时，将每个簇中心特征切割成M块进行局部的特征分布对齐，挖掘显著性特征外的信息。

其中，该步骤包括：

将每个簇中心的全局特征等间隔切割成M个局部特征；在执行2D图像和三维模型的簇中心全局特征分布对齐时保证M个局部特征分布的对齐。

综上所述，本发明实施例基于一个类别-簇的策略，即：通过将多个类别样本融合成一个簇，并且由类别中心对齐转换为簇中心对齐来实现语义一致性，解决了目标域样本错误伪标签的问题。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用相机阵列对三维模型进行映射，生成三维模型的多视角序列；

其中，本发明实施例在三维模型周围设置12个虚拟相机，每个虚拟相机相隔30°，围绕三维模型的质心在同一个平面均匀摆放。根据每个虚拟相机所在角度提取每一个角度的模型视图，生成模型多视角序列视图。

202：利用CNN提取2D图像特征和三维模型的多视角序列特征；

其中，本发明实施例采用AlexNet模型作为模型的基本框架，该框架包含5个卷积层和3个全连接层。为了提取稠密的簇中心特征，本发明实施例在最后一个全连接层前加了一个256维度的瓶颈层，并将此层特征作为2D图像特征。

将最后一个卷积层的输出作为三维模型多视角序列图像的特征

其中P为虚拟相机的个数，f_t ^j(i)∈R^H×W×C，H、W、C分别代表视图特征的高、宽、通道数，R为特征向量，f_t ^j(i)为第j个三维模型的第i个视角的特征。

203：利用最大池化将三维模型多视角序列特征融合成一个三维全局特征；

其中，本发明实施例按照MVCNN^[11]的方式，采用在所有视图的特征上进行最大池化操作，使得所有视图特征融合成一个特征描述符：

然后将三维模型的特征描述符经过3个全连接层和1个瓶颈层得到最终的三维全局特征。

204：利用鉴别器使得2D图像特征和三维全局特征进行全局的特征分布对齐；

其中，本发明实施例以一种对抗的方式训练一个鉴别器D，让源域和目标域所有样本的整体数据分布进行对齐。具体实现时，就是通过训练基本框架和鉴别器D，使得鉴别器D无法分辨出提取出的样本特征是来自于源域还是目标域。

鉴别器D包含3层MLP(多层感知机)，将2D图像特征和三维全局特征映射为1维的概率分布，代表输入样本属于源域或者目标域的概率值。

通过将输出概率值与0.5进行一致性约束，使得模型无法分辨出2D图像和三维模型的特征分布，即实现了全局特征分布对齐。

205：将所有类别划分成小部分簇，并将不同模态相同簇的中心特征进行对齐，挖掘簇级别的语义信息；

其中，本发明实施例按照现有的方法计算每个类别的中心特征，然后根据类别相似性对所有类别特征进行聚类，划分成N个簇，每个簇包含多个类别。然后通过平均每个簇中的所有样本特征，可以计算出每个簇的簇中心特征。将现有的类中心特征对齐操作转化为簇中心特征对齐，这样模型就可以依然学习到有用的语义信息尽管存在一些错误的伪标签，极大地放宽了模型对于错误伪标签的约束。

簇中心计算公式为：

为源域第j个簇中第m个样本的特征，

为目标域第j个簇中第m个样本的特征。

206：随着训练迭代的增加，不断增加簇的个数直到和类别总数相同，逐渐细化簇级别的语义信息；

在进行簇中心特征对齐训练一定次数后，本发明实施例进一步对每一个簇进行细分，使得簇中包含的类别更少，簇的个数更多。以这样一种渐进式的训练方式训练，模型会逐渐学习到更准确的语义信息。在本方法中，本发明实施例按照最大训练次数的0.1倍进行分阶段训练，每个阶段簇中的类别数目固定，每过一个阶段，簇被细分一次直至簇的个数等于类别的个数。

207：在簇的个数和类别总数相同时，将每个簇中心特征切割成M块进行局部的特征分布对齐，挖掘显著性特征外的信息。

在特征对齐过程中，为了让模型注意到显著性特征外的信息，将特征按维度方向等间隔划分成M个局部块，并且对齐整体特征分布的同时对齐局部块的特征分布。

基于同一发明构思，本发明实施例还提供了一种跨模态多视角目标检索装置，参见图3，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例中的以下方法步骤：

在一种实施方式中，将所有类别划分成小部分簇，并将不同模态相同簇的中心特征对齐具体为：

在一种实施方式中，方法包括：将类别中心特征对齐转化为簇中心特征对齐，每个簇包含多个类别。

其中，不断增加簇的个数进行迭代训练，逐渐细化簇级别的语义信息具体为：

针对新的簇，再次执行簇中心特征对齐。

在一种实施方式中，将每个簇中心特征切割成M块进行局部的特征分布对齐具体为：

将每个簇中心的全局特征按维度方向等间隔切割成M个局部特征；在执行2D图像和三维模型的簇中心全局特征分布对齐时保证M个局部特征分布的对齐。

其中，簇中心的计算公式为：

为源域第j个簇中第m个样本的特征，

为目标域第j个簇中第m个样本的特征。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

参考文献：

[1]Baochen Sun,Jiashi Feng,and Kate Saenko.2016.Return ofFrustratingly EasyDomain Adaptation..InAAAI.2058–2065.

[2]Baochen Sun and Kate Saenko.2016.Deep CORAL:Correlation AlignmentforDeep Domain Adaptation..InECCV Workshops(3),Vol.9915.443–450.

[3]Jindong Wang,Wenjie Feng,Yiqiang Chen,Han Yu,Meiyu Huang,andPhilip S.Yu.2018.Visual Domain Adaptation with Manifold EmbeddedDistributionAlignment.CoRR(2018)

[4]Jing Zhang,Wanqing Li,and Philip Ogunbona.2017.Joint GeometricalandStatistical Alignment for Visual Domain Adaptation..InCVPR.5150–5158.

[5]Mingsheng Long,Han Zhu,Jianmin Wang,and MichaelI.Jordan.2017.DeepTransfer Learning with Joint Adaptation Networks..InICML,Vol.70.2208–2217.

[6]Yuting Su,Yuqian Li,Weizhi Nie,Dan Song,and An-An Liu.2020.JointHetero-geneous Feature Learning and Distribution Alignment for 2D Image-Based3DObject Retrieval.IEEE Trans.Circuits Syst.Video Technol.30,10(2020),3765–3776.

[7]Shaoan Xie,Zibin Zheng,Liang Chen,and Chuan Chen.2018.LearningSemanticRepresentations for Unsupervised Domain Adaptation..InICML,Vol.80.5419–5428.

[8]Heyu Zhou,An-An Liu,and Weizhi Nie.2019.Dual-level EmbeddingAlignmentNetwork for 2D Image-Based 3D Object Retrieval..InACMMultimedia.1667–1675.

[9]Heyu Zhou,Weizhi Nie,Wenhui Li,Dan Song,and An-AnLiu.2020.HierarchicalInstance Feature Alignment for 2D Image-Based 3D ShapeRetrieval.InIJCAI.839–845.

[10]Heyu Zhou,Weizhi Nie,Dan Song,Nian Hu,Xuanya Li,and An-AnLiu.2020.Semantic Consistency Guided Instance Feature Alignment for 2D Image-Based3D Shape Retrieval.InACM Multimedia.925–933

[11]Hang Su,Subhransu Maji,Evangelos Kalogerakis,and Erik G.Learned-Miller.2015.Multi-view Convolutional Neural Networks for 3D ShapeRecognition.InICCV.945–953

Claims

1.一种跨模态多视角目标检索方法，其特征在于，所述方法包括以下步骤：

通过鉴别器对2D图像特征和三维全局特征进行全局的特征分布对齐；将所有类别划分成小部分簇，并将不同模态相同簇的中心特征对齐，挖掘簇级别的语义信息；

2.根据权利要求1所述的一种跨模态多视角目标检索方法，其特征在于，所述将所有类别划分成小部分簇，并将不同模态相同簇的中心特征对齐具体为：

3.根据权利要求2所述的一种跨模态多视角目标检索方法，其特征在于，所述方法包括：将类别中心特征对齐转化为簇中心特征对齐，每个簇包含多个类别。

4.根据权利要求1所述的一种跨模态多视角目标检索方法，其特征在于，所述不断增加簇的个数进行迭代训练，逐渐细化簇级别的语义信息具体为：

针对新的簇，再次执行簇中心特征对齐。

5.根据权利要求1所述的一种跨模态多视角目标检索方法，其特征在于，所述将每个簇中心特征切割成M块进行局部的特征分布对齐具体为：

6.根据权利要求1所述的一种跨模态多视角目标检索方法，其特征在于，所述簇中心的计算公式为：

为源域第j个簇中第m个样本的特征，

为目标域第j个簇中第m个样本的特征。

7.一种跨模态多视角目标检索装置，其特征在于，所述装置包括：所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-6中的任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-6中的任一项所述的方法步骤。