CN113779287B

CN113779287B - 基于多阶段分类器网络的跨域多视角目标检索方法及装置

Info

Publication number: CN113779287B
Application number: CN202111024481.6A
Authority: CN
Inventors: 张静; 马明升; 李文辉; 刘安安; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2023-09-15
Anticipated expiration: 2041-09-02
Also published as: CN113779287A

Abstract

本发明公开了一种基于多阶段分类器网络的跨域多视角目标检索方法及装置，相比于传统方法过度依赖静态的具有较高复杂度学习器，本发明考虑了不同样本间可转移性的差异，通过在网络中加入多个中间分类器，在训练中根据样本不同阶段特征动态地判断样本是否“容易”转移。通过样本在不同分类器前特征进行相似性度量来计算置信度分数这一策略判断各分类器的预测一致性，并得到准确的目标伪标签；同时在保证输入类别多样性的前提下重新对目标样本筛选以训练从源域到目标域的多阶段分类器。在针对多视图表示的三维模型跨域检索上，通过融合不同分类器前的特征以获取样本特征的全局表示。基于以上操作能够在传统检索指标上获得更好的性能，提升检索效果。

Description

基于多阶段分类器网络的跨域多视角目标检索方法及装置

技术领域

本发明涉及域适应与深度学习技术领域，尤其涉及一种基于多阶段分类器网络的跨域多视角目标检索及装置。

背景技术

随着三维模型的应用日益广泛以及三维模型建模技术的快速发展，产生了海量的三维模型数据。如何在大量重复的三维模型数据中进行模型数据库的管理以及有效的检索逐渐成为人们的需求，高效的三维模型检索算法成为了当下研究的热点。

当前深度神经网络在二维图像上的分类识别技术已经十分成熟，通过大量有标记的二维图像上学习到的知识来跨域检索三维模型成了许多学者研究的热点。其中基于视图的三维模型检索方法将三维模型转化为二维投影视图，以多视图特征融合的全局描述子通过深度神经网络来进行分类或检索是当下最热门的研究方向之一。例如：有的方法在网络最后一个池化层对多视图特征进行融合以获得信息更为丰富的特征；有的方法在前者基础上对视图增加了分组操作；还有的方法通过图卷积网络将视图聚合。由于深度神经网络针对二维图像的处理技术比较成熟，大量带有真实标签的二维图像数据能使网络充分地进行预训练，因此基于视图的三维模型检索方法取得了比较好的效果。

在域适应研究领域，比较流行的方法通常利用静态的具有较高复杂度的基础学习器，这些学习器具有由深度和广度架构带来的良好的可迁移能力。然而，它们没有考虑不同目标样本的可转移性。具体来说有些“简单”通过较为浅层的网络便可准确对其进行预测，而通过较深的网络其预测结果不一定优于通过浅层网络的预测；而浅层网络无法对“困难”样本进行预测，这时便需要通过深层网络对“困难”样本进行预测。而大多数数据集同时包含“简单”样本与“困难”样本。

目前针对这种情况。动态推断输入样本复杂性的自适应网络结构受到越来越多的关注。例如：在网络不同深度添加分类器，这样便可以在训练的不同阶段对样本进行预测。这种网络可以在浅深度分类器对“简单”样本进行准确推理，在深度分类器对“困难”样本进行准确推理。

发明内容

本发明提供了一种基于多阶段分类器网络的跨域多视角目标检索方法及装置，本发明相对于传统的基于静态神经网络的跨域多视角目标检索算法，充分考虑了不同视角视图可迁移性不同的情况，实现了检索准确率的较大提升，详见下文描述：

第一方面，一种基于多阶段分类器网络的跨域多视角目标检索方法，所述方法包括：

将源域二维图像数据与目标域三维模型数据一同输入进多分类器网络中进行训练；选择带有高置信度伪标签的目标数据，利用目标数据再次训练多分类器网络获得更好的域适应性能；

利用再次训练后的新多分类器网络M′分别对源域及目标域的数据提取特征，获取源域数据集的全部样本在第n个分类器前的特征集合表示；

目标域每个样本都包含若干张二维视图，在新多分类器网络的前一层对属于同一样本的视图特征进行融合，获取单个目标域样本的特征；将新多分类器网络的前特征向量计算得到的矩阵进行相加，将样本的不同细粒度特征进行融合，实现对跨域多视角目标的检索。

第二方面，一种基于多阶段分类器网络的跨域多视角目标检索装置，所述装置包括：

处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

第三方面，一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。

本发明所提出的基于多阶段分类器网络的跨域多视角目标检索及装置相比于传统的基于静态的具有较高复杂度的网络的方法具有如下的有益效果：

1、本发明充分考虑了不同样本的可转移性，凭借多分类器网络的结构能够充分考虑样本在不同阶段不同深度的特征，在训练过程中对具有高置信度伪标签目标域样本进行筛选，通过重新筛选的样本进一步对网络进行训练优化；

2、本发明在检索时通过将不同阶段分类器的出口特征进行融合，得到富含多尺度不同深度的全局特征表示，使得常规检索指标性能得到进一步提升；

3、在实际的面向多视图表示的三维模型数据、且数据没有标签信息的应用场景下，采用本发明提出的技术方案进行检索，能够在最近邻(Nearest neighbor，NN)等检索指标上获得更好的性能，提升了检索效果。

附图说明

图1为多分类器网络的结构示意图；

图2为多分类器网络分类器的结构示意图；

图3为block的结构示意图；

图4为网络训练的流程图；

图5为一种基于多阶段分类器网络的跨域多视角目标检索装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于多阶段分类器网络的跨域多视角目标检索方法，参见图1-图3，该方法包括以下步骤：

步骤1)将源域二维图像数据与目标域三维模型数据一同输入进多分类器网络中进行训练；选择带有高置信度伪标签的目标数据，利用目标数据再次训练多分类器网络获得更好的域适应性能；

步骤2)利用再次训练后的新多分类器网络M′分别对源域及目标域的数据提取特征，获取源域数据集的全部样本在第n个分类器前的特征集合表示；

步骤3)目标域每个样本都包含若干张二维视图，在新多分类器网络的前一层对属于同一样本的视图特征进行融合，获取单个目标域样本的特征；

步骤4)将新多分类器网络的前特征向量计算得到的矩阵进行相加，将样本的不同细粒度特征进行融合，实现对跨域多视角目标的检索。

综上所述，本发明实施例通过上述步骤1)—4)充分考虑了三维模型不同视角视图可迁移性不同的情况，实现了检索准确率的较大提升。

实施例2

下面结合具体的计算公式、图1-图3、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

本方法采用的网络具有横向纵向两个维度，其中横向是深度维度，纵向是尺度维度。横向上通过常规卷积，保持特征维度不变，在较低尺度维度情况下保持图像的细粒度特征；纵向上通过stride卷积，使得特征维度减小从而获得高阶特征，以便连接分类器(参见图2)进行分类，各层之间引入稠密连接。通过分类器个数将网络划分为相应个数的block(参见图3)。具体操作步骤如下：

步骤一：遵循大多数有监督学习的设置，对于源域给定真实标签的二维图像样本在多分类器网络/>的每个分类器上进行经验风险最小化计算，公式如下：

其中，D_s代表源域，N_s是源域样本的数量，L(·,·)是交叉熵损失函数，N是分类器的数量，f_n(θ_n)代表第n个分类器，是第n个分类器对于样本/>的预测，/>是样本/>的真实标签，θ_n是第n个分类器的参数。

与此同时为了使每个分类器具有适应能力，在每个出口上施加二元域鉴别器以计算域对抗性损失。将给定的源样本标记为0，目标样本则标记为1，其中域鉴别器可以用标准交叉熵损失训练为：

其中，D_t代表目标域，D_n(·)是第n个域鉴别器，F_n(x；θ_n)表示第n个分类器前样本x的特征，N_t是目标域样本总视图数量。

在此步骤，本发明实施例将源域二维图像数据与目标域三维模型数据(即多视角的二维视图数据)一同输入进多分类器网络M中进行训练，其中使用随机梯度下降方法(Stochastic Gradient Descent，SGD)对式(2)损失函数进行优化，源域样本与目标域样本按照相同数量的批次进行采样，当源域数据全部训练完一次记作一次迭代(epoch)。

步骤二：当多分类器网络M得到充分训练后，选择带有高置信度伪标签的目标数据，然后利用重新选择的数据再次训练网络M获得更好的域适应性能；

具体做法是对于给定的目标样本x_j∈D_t，通过二维多视图数据的集合来表示目标样本，其中V_nums表示目标域单个样本所含视图数量。计算每个视图/>在所有分类器的预测平均值/>作为该样本视图在模型上的平均预测，并用余弦相似度来衡量每个分类器预测结果与平均预测之间的一致性。

为了避免出现样本难以分辨导致其预测概率均匀分布在各类别的情况，通过该数据在每个分类器出口平均预测的最大值max(avg_j)来乘以模型的平均预测以确保较难分辨的结果具有低的置信度。单一视图的置信度分数的公式如下：

在得到每张视图的置信分数之后，就可以按值对分数集进行排序，并选择带有高置信度伪标签的视图样本来进行后续的类别平衡自训练。

然而在易于转移的类别中，样本的置信度分数可能相对较高，忽略难转移类别的样本会导致预测不平衡。

为了缓解这个问题，本方法采用新的类别平衡策略，即：通过计算目标类别累计的置信度分数t_c来进行样本选择，t_c的计算表达式如下：

其中，表示目标域中所有伪标签为c类的视图样本集合，N_c是/>中的样本数量。

为了确保目标域低置信度类别下的样本仍然可以被选择用于目标的自训练，本方法采用线性方法从构建的目标自训练集T中决定为c类选择的目标样本数量。

以类别c为条件的数量阈值γ_c定义为：

其中，λ是比例系数。如果c类目标自训练子集T_c中的样本总数小于阈值γ_c，将目标样本的视图数据带入T_c中，其大小将增加1。

自训练集选择可以表述为如下：

其中，是决策函数，|·|是取模运算。

在获得集合T后，将T中的样本视图随机分配给不同的分类器，分类器的出口表示为n_j，为样本/>的标签，则属于/>的视图与其具有相同标签。

那么自训练目标损失函数可以表示为如下：

其中，|T|表示参与自训练的样本视图数目。

优化目标损失函数来不断更新网络，以得到最终检索模型M′。其中总的损失函数如下：

L＝L_s+αL_d+βL_t

(8)

其中，α与β是比例系数。优化器采用方法的是SGD，而最终的检索模型表示为

步骤三：当网络经过充分的自训练之后得到网络模型利用M′分别对源域D_s及目标域D_t的数据提取特征，源域数据集的全部样本在第n个分类器前的特征集合表示为/>而目标域每个样本/>都包含若干张二维视图/>其中/>的视图表示为/>

为了能更好表示该样本的全局特征，在分类器的前一层对属于同一样本的视图特征进行融合，单个目标域样本的特征可以表示为：

其中，mix(·)表示特征融合函数。

因此目标域的全部样本在第n个分类器前的特征可以表示为通过两个域的特征表示，对不同分类器前的源域目标域特征进行相似度度量，闵可夫斯基距离的表达式为：

其中，X、Y表示不同的特征向量；N表示特征向量的维度。由于多分类器网络的不同分类器所在的网络深度不同，因此不同分类器前一层的特征向量细粒度程度不同。

为了减少误差情况，进一步将网络不同分类器前特征向量计算得到的矩阵进行相加，以此最大程度地将样本的不同细粒度特征进行融合：

其中，ε_n是比例系数。

上式计算得到的相似度矩阵D_P便是本方法得到的最终结果，评价在目标域上检索效果的指标均是由D_P计算得到。在得到相似度矩阵之后，通过其计算常见的三维模型检索评价指标来对检索效果进行评价，常见的评价指标有：

(1)最近邻(Nearest neighbor，NN)，表示检索列表中第一个检索结果的检索精度。

(2)第一层级(First tier，FT)，表示前T个检索结果的检索精度，T表示整个数据集中相关样本的个数。

(3)第二层级(Second tier，ST)，表示前2T个检索结果的检索精度。

(4)F度量(F_measure)，联合评价检索结果的精准率和召回率

(5)折损累计增益(Discounted cumulative gain，DCG)，对检索结果排名靠前的样本赋予较大的权重，从而综合评测。

(6)平均归一化修正检索排序(Average normalized modified retrieval，ANMRR)是一种基于排序的度量，考虑了检索对象中相关对象的排序信息。

实施例3

下面结合具体的算例对实施例1和2中的方案进行可行性验证，详见下文描述：

以本发明方法完成从MI3DOR数据集中的二维真实图像到三维数据集的检索。其中MI3DOR的二维真实图像数据集包含21个类别，每类1000个样本，共计21000个样本，数据集划分为训练集和测试集，各占50％；其三维模型数据集包含21个类别，共计7690个样本，样本类别分布不完全均衡，训练集包括3842个样本，测试集包含3848个样本，每个样本包含12张不同角度的相机视图。

训练过程中，采用上述二维真实图像的训练集与三维模型数据集的训练集来进行模型的训练(具体见流程图4)。

步骤1：每个批次送入网络的源域二维样本数量与目标域样本视图数量都设定为b＝48，通过式(1)计算源域样本在网络的每个分类器上的输出与其真实标签/>的交叉熵损失并求和得到总的源域交叉熵损失函数，同时给每次送入网络的源域数据标记为0，目标域视图数据标记为1，通过式(2)计算每个分类器上的二分类交叉熵损失函数并求和作为总的域鉴别损失函数，使分类器具有域鉴别能力。两个损失函数通过随机梯度下降法进行优化，从而找到最优的模型参数，使得模型收敛。其中优化器的学习率lr设置为0.005，超参数α设置为1。

步骤2：当模型得到充分地预训练之后，开始进行网络的自训练过程。源域与目标域的输入批次大小仍设置为b＝48。将目标域样本中的视图样本送入网络，得到其在不同分类器处的输出/>计算得到该视图样本在网络上的平均预测

通过式(3)计算置信分数当目标域视图数据全部计算完置信分数之后，通过式(4)计算每个类别的类置信分数t_c，通过式(5)来计算每个类的阈值λ_c，其中比例因子λ设置为1。之后通过式(6)对目标域每个类的自训练子集T_c进行构建，此步骤充分考虑了不同角度视图之间的可转移性，并从全局考虑为不同转移难度的类平衡地分配了样本。然后将构建好的自训练集U中的样本/>随机分配到不同的分类器，联合(7)与式(8)，使用随机梯度下降法来进行优化，其中优化器的学习率lr仍设置为0.005，比例系数α与β设置为1。此步骤当目标域视图数据全部送入网络后，便得到重新构建的自训练数据集T，此时将自训练集T与源域数据D_s构建的新的源域数据D_s′和源域数据D_s与目标域数据D_t构建的新目标域数据D_t′一同送入网络进行步骤一的训练。此步骤中来自D_s的采样大小/>其中[·]表示取整函数，则来自T的采样大小b_T＝b-b_s，若/>则按/>进行采样。新目标域的构建方法与新源域的构建方法相同。当T中的数据全部训练完一遍时，便再次进行步骤二的自训练，重新构建新的自训练集U′重复上述步骤不断训练直至模型收敛，得到最终的模型

步骤3：当得到收敛的模型之后，使用M′分别对源域数据D_s与目标域数据D_t进行特征提取。其中目标域的样本均包含12个不同视角的视图，通过式(9)对目标域单个样本进行视图融合，为了得到最直观的特征表示同时减少计算，选取12个视图中固定位置的四张视图进行特征融合，融合方式采用在分类器前一层进行特征的最大池化。由此可以得到源域样本与目标域样本在第n个分类器前的特征表示/>与/>通过式(10)来计算对应的相似度矩阵。

为了可以充分融合不同细粒度的特征，使得特征的表示更具有普遍性全局性，同时相应减少计算成本，分别提取最后三个分类器前的源域与目标域样本的特征表示，并计算其对应的相似度矩阵几个相似度矩阵维度相同均为10500*3842，因此可通过式(11)进行计算得到最终的相似度矩阵D_P，其中比例系数ε_n设置为1:1:2。最后通过相似度矩阵D_P计算NN、FT、ST、F_measure、DCG、ANMRR六个常用指标来对检索效果进行评价。

最终检索效果如下表：

表1本方法在上述六项指标的表现

值得注意的是，上述检索指标中只有ANMRR值越小表示算法性能越好，其他检索指标均为越大表示算法性能越好。

综上所述，本发明实施例相对于传统的基于静态神经网络的跨域多视角检索算法，充分考虑了多视角在不同视角视图可迁移性不同的情况，实现了检索准确率的较大提升。

实施例4

一种基于多阶段分类器网络的跨域多视角目标检索装置，参见图5，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行上述实施例1和2中的以下方法步骤：

获取再次训练后的新多分类器网络M′，利用新多分类器网络M′分别对源域及目标域的数据提取特征，获取源域数据集的全部样本在第n个分类器前的特征集合表示；

目标域每个样本都包含若干张二维视图，在新多分类器网络的前一层对属于同一样本的视图特征进行融合，获取单个目标域样本的特征；将新多分类器网络的前特征向量计算得到的矩阵进行相加，将样本的不同细粒度特征进行融合。

在一种实施方式中，选择带有高置信度伪标签的目标数据具体为：

对于给定的目标样本，通过二维多视图数据的集合来表示目标样本，计算每个视图在所有分类器的预测平均值作为该样本视图的平均预测，并用余弦相似度来衡量每个分类器预测结果与平均预测之间的一致性；

单一视图的置信度分数计算如下：

在一种实施方式中，还包括：通过计算目标类别累计的置信度分数t_c来进行样本选择；

在一种实施方式中，利用目标数据再次训练多分类器网络中使用的自训练目标损失函数如下：

其中，|T|表示参与自训练的样本视图数目。

在一种实施方式中，单个目标域样本的特征为：

其中，mix(·)表示特征融合函数；目标域的全部样本在第n个分类器前的特征表示为

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多阶段分类器网络的跨域多视角目标检索方法，其特征在于，所述方法包括：

通过再次训练后的新多分类器网络分别对源域及目标域的数据提取特征，获取源域数据集的全部样本在第n个分类器前的特征集合表示；

2.根据权利要求1所述的一种基于多阶段分类器网络的跨域多视角目标检索方法，其特征在于，所述选择带有高置信度伪标签的目标数据具体为：

单一视图的置信度分数计算如下：

其中，avg_j为预测平均值，为每个视图，max为最大值，θ_n是第n个分类器的参数，N是分类器的数量，f_n代表第n个分类器。

3.根据权利要求1所述的一种基于多阶段分类器网络的跨域多视角目标检索方法，其特征在于，所述方法还包括：通过计算目标类别累计的置信度分数t_c来进行样本选择；

4.根据权利要求2所述的一种基于多阶段分类器网络的跨域多视角目标检索方法，其特征在于，所述利用目标数据再次训练多分类器网络中使用的自训练目标损失函数如下：

其中，|T|表示参与自训练的样本视图数目，为样本，V_nums表示目标域单个样本所含视图数量，n_j为分类器的出口，/>为样本/>的标签。

5.根据权利要求4所述的一种基于多阶段分类器网络的跨域多视角目标检索方法，其特征在于，所述单个目标域样本的特征为：

6.一种基于多阶段分类器网络的跨域多视角目标检索装置，其特征在于，所述装置包括：

处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。