CN115640418B

CN115640418B - 基于残差语义一致性跨域多视角目标网站检索方法及装置

Info

Publication number: CN115640418B
Application number: CN202211671546.0A
Authority: CN
Inventors: 郝彤; 刘安安; 张晨宇; 孙金生
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-07
Anticipated expiration: 2042-12-26
Also published as: CN115640418A

Abstract

本发明公开了一种基于残差语义一致性跨域多视角目标网站检索方法及装置，方法包括：当检测融合特征和融合前二维图像残差特征为一致性分布，构建单峰分布约束；计算二维图像的类别中心特征和多视角目标的类别中心特征，分别映射到概率空间中得到类别中心概率分布，利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性；以二维图像类别中心为基准，探索与二维图像和多视角目标在概率空间中的语义一致性；通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练，提升二维图像残差特征和多视角目标残差特征间的语义一致性约束；将最终约束结果应用在网站检索中，输出检索结果。装置包括：处理器和存储器。

Description

基于残差语义一致性跨域多视角目标网站检索方法及装置

技术领域

本发明涉及跨域多视角目标网站检索领域，尤其涉及一种基于残差语义一致性跨域多视角目标网站检索方法及装置。

背景技术

近些年，随着虚拟现实、数字娱乐、计算机设计等领域的快速发展，多视角数据得到了爆发式的增长，如何管理及检索这些数据成为了一个急需解决的任务。当前的多视角目标网站大都需要用户提前获取一个多视角目标，然后才能实现对目标数据的检索，这种以多视角目标去检索的方式限制了网站的实用性。现实生活中，人们更倾向于使用随处可见的二维图像而不是获取困难的多视角目标作为搜寻对象。此外，当前已有的网站检索引擎都较多依赖于大量带标签数据的监督学习，然而对多视角目标打标签是一件十分耗时和昂贵的任务。在这种情况下，利用二维图像检索多视角目标的无监督跨域检索场景应运而生，简称为无监督跨域多视角目标检索。

无监督跨域多视角目标网站检索的目标是在用户输入一个二维图像查询样本后，检索引擎能够返回一系列和查询样本相似的多视角目标，其对应的科学问题为如何在特征空间中匹配相同类别的带标签二维图像特征和不含标签的多视角目标特征。为了缓解二维图像和多视角目标之间的巨大数据分布差异，通常的做法是利用对抗学习或者信息熵来对齐二维图像和多视角目标的全局数据分布。然而这类方法的主要限制在于学习域不变表征的同时忽略了类别中的语义信息，例如，多视角飞机的特征可能会被映射到汽车图像特征附近，导致了网站检索错误。这个问题经常被许多工作利用多视角目标伪标签引导的类级别对齐来缓解。然而，该类方法经常受到伪标签噪声的问题，如果没有充分的筛选过滤措施常常会导致匹配偏差。

为了消除噪声伪标签带来的匹配偏差问题，类别中心作为一个鲁棒的语义表征，经常被利用作为一个额外的监督信号来引导匹配过程。通常的策略就是约束二维图像和多视角目标相同类别特征中心间的一致性。然而，这类方法面临着以下四个问题：

1）原有方法都是直接编码具有复杂背景和干扰的查询图像和多视角目标，然而由于多视角目标缺乏标签，所以任何噪声和干扰的引入都会对多视角目标的特征学习产生误导，进而降低网站的检索精度；

2）原有方法通常直接利用带噪声的伪标签来辅助训练，忽略了带标签二维图像特征所包含的隐式信息，通过利用带标签二维图像特征和无标签多视角目标特征的交互，可以大幅度减弱直接利用强硬伪标签所带来的检索网站匹配偏差问题；

3）常规的类别中心特征一致性对齐损失已经被证明是一个次优解，指出仅仅在特征空间中维持特征间的一致性可能会扰乱原有的数据结构，因此降低了数据表征能力进而影响网站检索精度；

4）仅仅约束二维图像和多视角目标类别中心特征间的一致性会严重忽视样本中的多样性，使得检索网站倾向于过拟合，进而降低利用新样本检索多视角目标的准确度。

发明内容

本发明提供了一种基于残差语义一致性跨域多视角目标网站检索方法及装置，本发明将残差图像作为输入，减少冗余背景信息的引入；通过改进双线性池化，融合二维图像-多视角目标特征，并设计了一个分布一致性检测器来对融合特征进行检测及约束，利用二维图像残差特征隐式信息帮助多视角目标特征的学习；同时利用JS散度探索二维图像类别中心和多视角目标类别中心，二维图像，多视角目标间在概率空间中的语义一致性，避免直接约束造成的特征结构损坏，同时提高了网站的检索精度，满足了实际应用中的多种需要，详见下文描述：

第一方面，一种基于残差语义一致性跨域多视角目标网站检索方法，所述方法包括：

将残差作为输入，利用卷积神经网络提取二维图像残差特征和多视角目标残差特征；

基于二维图像残差特征和多视角目标残差特征，利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征；

构建分布一致性检测器，检测融合特征和融合前二维图像残差特征是否为一致性分布，如果是，构建单峰分布约束；否则构建双峰分布约束；

计算二维图像的类别中心特征和多视角目标的类别中心特征，分别映射到概率空间中得到类别中心概率分布，利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性；

以二维图像类别中心为基准，探索与二维图像和多视角目标在概率空间中的语义一致性；

通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练，提升二维图像残差特征和多视角目标残差特征间的语义一致性约束；将最终约束结果应用在网站检索中，输出最终的检索结果。

第二方面，一种基于残差语义一致性跨域多视角目标网站检索装置，所述装置包括：

提取模块，用于将残差作为输入，利用卷积神经网络提取二维图像残差特征和多视角目标残差特征；

计算融合特征模块，用于基于二维图像残差特征和多视角目标残差特征，利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征；

构建与检测模块，用于构建分布一致性检测器，检测融合特征和融合前二维图像残差特征是否为一致性分布，如果是，构建单峰分布约束；否则构建双峰分布约束；

第一语义一致性模块，用于计算二维图像的类别中心特征和多视角目标的类别中心特征，分别映射到概率空间中得到类别中心概率分布，利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性；

第二语义一致性模块，用于以二维图像类别中心为基准，探索与二维图像和多视角目标在概率空间中的语义一致性；

提升模块，用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练，提升二维图像残差特征和多视角目标残差特征间的语义一致性约束；

检索模块，用于将最终约束结果应用在网站检索中，输出最终的检索结果。

第三方面、一种基于残差语义一致性跨域多视角目标网站检索装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面的方法步骤。

第四方面、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面的任方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明利用变分编码器-解码器结构生成尽可能相似的输入样本，并将其和原始输入样本相减得到残差样本，探索网站检索所需的最少必要信息，有效的避免了原始输入复杂背景以及噪声带来的干扰问题，提升了网站检索的鲁棒性；

2、本发明通过改进型双线性池化将每一个二维图像残差特征和所有多视角目标残差特征融合，并设计一个分布一致性检测器来判断融合前后是否为同分布，若为同分布，则融合特征的概率分布应符合单峰分布；若非同分布，则融合特征的概率分布应符合双峰分布；通过改进型双线性池化探索二维图像残差特征的隐式信息，可以从数据本身挖掘二维图像和多视角目标的关联信息，大幅度缓解由于噪声伪标签引起的检索网站匹配偏差问题；

3、本发明通过将类别中心特征映射到概率空间中，并利用JS（Jenson’s Shannon）散度构建语义一致性，有效的缓解了常规特征一致性约束导致的原有特征结构损坏的问题，提高了检索网站的数据表征能力；

4、本发明通过探索二维图像类别中心与二维图像、多视角目标的语义一致性，极大缓解了检索网站对多样性样本缺乏关注导致的低可靠性问题，使得检索网站更加鲁棒；其中二维图像类别中心与二维图像之间的语义一致性构建能够有效增强检索网站编码器的鉴别性特征表达能力；二维图像类别中心与多视角目标之间的语义一致性构建能够有效增强检索网站编码器的域不变特征表达能力；

5、本发明通过构建检索网站的特征编码器与分类器之间的对抗训练，有效的将概率空间中的语义一致性约束聚焦在特征空间中，提升了二维图像残差特征和多视角目标残差特征之间的语义相关性，进而提升网站检索多视角目标的精度。

附图说明

图1为一种基于残差语义一致性跨域多视角目标网站检索方法的流程图；

图2为基于残差语义一致性跨域多视角目标网站检索方法的网络结构图；

图3为多视角目标检索网站主页面；

图4为基于飞机图像检索到的结果页面；

图5为一种基于残差语义一致性跨域多视角目标网站检索装置的结构示意图；

图6为一种基于残差语义一致性跨域多视角目标网站检索装置的另一结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于残差语义一致性跨域多视角目标网站检索方法，参见图1，该方法主要包括以下步骤：

101：利用变分编码器生成二维图像和多视角目标隐式表征，利用解码器解码隐式表征至输入空间生成尽可能相似的二维图像和多视角目标，通过原始输入X与生成输入G(X)相减得到输入残差；

其中，该步骤101包括：

1）将多视角目标按照不同角度进行映射，生成多视角目标的图像序列，其中P为多视角目标的视角数量；

2）利用变分编码器编码二维图像和多视角目标图像序列的隐式表征，利用解码器解码隐式表征生成和原始输入尽可能相似的样本，同时保证KL散度的互信息约束来增强编码解码的一致性；

其中，尽可能相似的样本为：原始二维图像和生成的二维图像类似；原始多视角目标和生成的多视角目标尽可能相似。将原始二维图像和原始多视角目标统称为原始输入X。将生成的二维图像和生成的多视角目标统称为生成输入G(X)。

3）将原始输入与生成输入相减得到二维图像残差以及多视角目标残差图像序列。

其中，本发明实施例采用的输入是2个分支，1个分支是二维图像，另一个分支是多视角目标。本发明实施例第一步是重建2个分支的图像获得输入残差，所以二维图像残差和多视角目标残差图像序列均是检索系统的最终输入。

102：将步骤101的结果作为输入，利用卷积神经网络CNN提取二维图像残差特征和多视角目标残差特征；

其中，该步骤102包括：

利用卷积神经网络CNN从上述步骤101中二维图像残差以及多视角目标残差图像序列中获取到二维图像残差特征和多视角目标残差图像序列特征，其中为二维图像的残差特征，为多视角目标第i个视角图像的残差特征。

利用视图池化将多视角目标残差图像序列特征融合为一个全局残差特征。

现有方法仅仅是利用分类器对于多视角目标的伪标签作为参考，严重忽视了包含大量隐式信息的二维图像残差特征。为此，本发明实施例创新性的提出将二维图像残差特征和多视角目标残差特征融合的方式，进一步地利用二维图像残差特征隐式信息来辅助多视角目标的迁移适应，大幅度缓解由于噪声伪标签引起的检索网站的匹配偏差问题。

103：基于二维图像残差特征和多视角目标残差特征，利用改进型双线性池化计算二维图像-二维图像、二维图像-多视角目标的融合特征和；

其中，该步骤103包括：

利用双线性池化将步骤102中获得的每一个二维图像残差特征分别和所有二维图像残差特征、多视角目标残差特征融合，得到个融合特征、，特征维度为，其中N为批量大小。

为了降低融合特征的高维特性，本发明实施例改进性地采用2个映射层来模拟双线性池化操作，将其输出维度降低为，其中，最后通过额外的输出映射层将其映射为原有维度d。

104：构建分布一致性检测器，检测融合特征、和融合前二维图像残差特征是否为一致性分布，若为一致性分布，则该融合特征概率分布符合单峰分布，构建单峰分布约束；若非一致性分布，则为融合特征概率分布构建双峰分布约束。

其中，该步骤104包括：

利用2个线性映射层和1个线性判断层来构建分布一致性检测器，判断两个输入残差特征是否为同类分布。

对于融合特征和融合前的二维图像残差特征，将其输入到分布一致性检测器，当输出得分>0.5时，则判断两者同分布，即融合的两个特征属于同一类别，则该融合特征概率分布应当符合单峰分布。若输出得分<=0.5，则判断两者非同分布，即融合的两个特征属于异类，则该融合特征概率分布应当符合双峰分布。

对于概率分布属于单峰分布即概率分布仅存在一个最大值，可以用传统的交叉熵损失来约束优化。概率分布属于双峰分布即存在且仅有2个最大概率值，为此，本发明实施例改进性地设计了一个基于掩码的交叉熵损失来约束优化。

现有技术仅通过常规的类别中心对齐方法在特征空间中直接约束语义一致性，扰乱了数据特征原有结构。于是本方法改进性地提出将类别中心映射到概率空间中，并利用JS散度构建语义一致性，然后利用对抗学习将语义约束转移至特征空间中，有效避免了直接约束导致的原有结构损坏问题，提高了检索网站的数据表征能力。

105：计算二维图像的类别中心特征和多视角目标的类别中心特征，将其映射到概率空间中得到类别中心概率分布和，并利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性；

其中，该步骤105包括：

1）利用二维图像标签计算出所有二维图像的类别中心特征；利用分类器对多视角目标分配伪标签，进而利用多视角目标伪标签计算出所有多视角目标的类别中心特征；

2）将二维图像和多视角目标中所有类别中心特征通过分类器获取类别中心的概率分布和；

3）在概率空间中，利用JS散度构建二维图像类别中心和多视角目标类别中心的概率分布语义一致性，增强编码器的语义特征表达能力。

现有技术仅仅通过类别中心来挖掘语义一致性，忽略了样本级别的多样性信息，这样容易让检索网站过拟合，鲁棒性低。本发明实施例提出探索二维图像类别中心与二维图像、多视角目标间的语义关系，增强检索网站特征编码器的鉴别性特征表达能力及域不变特征表达能力，进一步改善检索网站的鲁棒性。

106：以二维图像类别中心为基准，探索其与二维图像和多视角目标在概率空间中的语义一致性；

其中，该步骤106包括：

在概率空间中，利用JS散度构建二维图像类别中心和其相同标签的所有二维图像的概率分布语义一致性，增强编码器的鉴别性特征表达能力；

在概率空间中，利用JS散度构建二维图像类别中心和其伪标签相同且置信度大于固定阈值的所有多视角目标的概率分布语义一致性，增强编码器的域不变特征表达能力。

以上所述都是在概率空间中约束语义一致性，然而该发明所属任务跨域多视角目标检索目的在于特征空间中的检索，故本发明实施例提出利用对抗学习将语义约束从概率空间转移至特征空间，提升二维图像残差特征与多视角目标残差特征间的语义一致性，进而提升网站检索多视角目标的精度。

107：通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练，提升二维图像残差特征与多视角目标残差特征间的语义一致性约束；

其中，该步骤107包括：

分类器致力于最小化语义相似性的同时，使得特征提取器致力于最大化语义相似性，形成特征提取器和分类器对抗局面，当分类器和特征提取器达到平衡时，二维图像残差特征与多视角目标残差特征间的语义一致性得到最大提升，来进一步地提升基于特征的多视角目标的网站检索精度。

108：将步骤107的最终约束结果应用在网站检索中，输出最终的检索结果。

其中，该步骤108包括：

利用跨域多视角目标检索数据库训练101-107检索方法，将训练好的方法形成检索程序；

利用检索程序计算数据库中所有多视角的目标特征并保存在网站后端；

网站前端获取查询图像，并将其传输至网站后端；网站后端接收到查询图像，并将其输入到检索程序中处理得到查询图像特征；

网站后端将获得的查询图像特征和数据库中所有多视角目标特征进行距离计算并排序，得到查询图像的多视角目标检索结果序列，并将检索结果其传输至前端；网站前端将其展示给用户。

综上所述，本发明实施例利用变分编码器-解码器结构生成尽可能相似的输入样本G(X)，并将其和原始输入样本X相减得到残差样本X-G(X)，探索网站检索学习所需的最少必要信息，来缓解原有方法直接编码原始输入导致复杂背景和噪声被引入的问题；通过利用改进型双线性池化计算二维图像-二维图像和二维图像-多视角目标融合特征和，进而构建分布一致性检测器，检测融合特征、和融合前二维图像残差特征是否为一致性分布，然后利用不同分布设计不同的概率约束，充分利用二维图像残差特征的隐式信息来辅助多视角目标的特征学习，来缓解噪声为标签带来的检索网站匹配偏差问题；通过在概率空间中挖掘二维图像和多视角目标类别中心概率分布和间的语义一致性，来缓解常规约束在特征空间会扰乱原有特征结构的弊端；挖掘二维图像类别中心和二维图像、多视角目标间的语义一致性，来增强检索网站编码器鉴别性特征表达能力和域不变特征表达能力，解决了检索网站忽略多样性样本的低鲁棒问题；最后利用对抗学习将概率空间中的语义一致性聚焦在特征空间中，提升了二维图像残差特征与多视角目标残差特征间的语义关系，增强了网站的检索能力。

实施例2

下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用变分编码器生成二维图像和多视角目标隐式表征，利用解码器解码隐式表征至输入空间生成尽可能相似的二维图像和多视角目标，通过原始输入与生成输入相减得到输入残差；

其中，本发明实施例围绕多视角目标质心平台，在其周围放置12个虚拟相机，每个相机间隔30°。根据每个虚拟相机获取一个视角图像，生成多视角目标图像序列。

其中，本发明实施例利用变分编码器-解码器结构作为检索网站的残差生成模型，该残差生成模型由参数组成的编码器包括：两个初始卷积以及两个残差卷积块，用于产生潜在变量z的后验分布；由参数组成的解码器包括：两个残差卷积模块以及两个反卷积模块，用于产生数据似然估计。

其中，本发明实施例利用变分编码器编码二维图像和多视角目标图像序列的隐式表征，利用解码器解码隐式表征生成和原始输入尽可能相似的样本：

（1）

（2）

将原始输入样本与生成输入样本相减得到二维图像残差样本以及多视角目标残差图像序列。

（3）

在上述过程中，本发明实施例对编码器和解码器的输出进行约束如下：

其中，为促使编码器解耦隐式表征的先验知识，为测量后验分布和先验分布差异程度的KL散度，为平衡重建损失和先验约束的超参数。整体约束可以看作为编码解码过程中的数据边缘似然估计，目的在于重建输入样本过程中同时保证KL散度的互信息约束。

202：利用卷积神经网络CNN提取二维图像残差特征和多视角目标残差特征；

其中，本发明实施例采用AlexNet框架作为本发明实施例的特征编码器，该模型包含5个卷积层和3个全连接层。为了获取语义集中度高的样本特征，本发明实施例在第2个全连接层后拼接一个瓶颈层，维度为256维，并将此瓶颈层得到的特征作为二维图像残差特征。

本发明实施例将最后一个卷积层得到的特征图作为每一个多视角目标的残差图像序列特征，为多视角目标的第i个视图特征，P为多视角目标的视角个数。

本发明实施例利用视图池化技术将残差图像序列特征融合成一个特征描述图：

（5）

然后将该特征描述图通过2个全连接层和1个瓶颈层获得最终的多视角目标残差特征。

203：利用改进型双线性池化计算二维图像-二维图像和二维图像-多视角目标的融合特征和；

首先，对于第i个二维图像残差特征，本发明实施例通过一个可训练的矩阵来计算该二维图像残差特征和所有二维图像残差特征的融合特征：

（6）

其中，为偏置项，d为融合前特征维度，为可训练矩阵参数，为第i个二维图像残差特征，为维第j个二维图像残差特征，c为转置符号，N为当前训练批次样本数，为表示融合后生成N个特征维度为的融合特征。为了降低直接双线性池化造成的特征高维特性，本发明实施例根据现有技术中所说的，其中，，为映射输出维度，将上述融合特征表达替换为：

其中，为值为1且维度为的列向量，为Hadamard乘积，，为参数量为的可训练矩阵，为可训练偏置项。

在上述计算中，输出维度的通常范围是，虽然相比于优化前获得了大幅度降低，但是其维度仍然远高于输入特征，为了继续降低输出维度，本发明实施例针对上述公式进行改进，提出利用一个可训练映射矩阵来取代，大幅度降低输出特征的维度，则上述表达可更改为：

对于二维图像-多视角目标融合特征，将上述公式中的第j个二维图像中残差特征改为第j个多视角目标残差特征，即：

（9）

204：构建分布一致性检测器，检测融合特征、和融合前二维图像残差特征是否为一致性分布，若为一致性分布，则该融合特征概率分布符合单峰分布，构建单峰分布约束；若非一致性分布，则为融合特征概率分布构建双峰分布约束；

首先，针对任何一个融合样本，将其与融合前二维图像残差特征同时输入到分布一致性检测器中，判断二者特征是否仍属于同分布特征。

其中，分布一致性检测器包括2个线性映射层和1个线性判断层。计算两个输入特征分布一致性得分具体为：

（10）

进一步地，对于匹配得分的融合特征，本发明实施例认为融合的两个残差特征、属于相同类别，则融合特征概率分布应符合单峰分布。相反，对于的融合特征，本发明实施例认为融合前两个残差特征属于不同类别，则融合特征概率分布应符合双峰分布。

进一步地，概率分布属于单峰分布是指，融合特征的概率分布有且仅有一个最大值，则可以利用传统的交叉熵损失来约束其分布：

（11）

其中，为x的概率分布，y为融合前二维图像样本标签，为交叉熵计算，为单峰分布约束，目的在于让融合特征概率分布的熵最小化。

进一步地，概率分布属于双峰分布是指，融合特征是由两个不同类别的特征融合而成，则融合特征的概率分布应该有且仅有两个最大值，则本发明实施例创新性的设计了一个基于掩码的交叉熵损失来约束其分布：

（12）

（13）

其中，为双峰分布约束，为融合前的2个不同特征的类别标签，为的独热编码，为点积，表示在融合特征概率分布中将第一个类别标签的值置为0，为交叉熵计算；为融合特征的概率分布；为表示在融合特征概率分布中将第二个类别标签的值置为0对于二维图像和多视角目标融合的情况中，多视角目标样本不含真实标签，本发明实施例利用融合特征概率分布中除去后最大的概率索引作为其第2个类别标签，即。

例如，对于类别为1的二维图像（即）和一个未知类别的多视角目标进行融合，得到融合特征，其概率分布为（假设总共有5个类别），则：

即完成了融合特征概率分布中将类别为的概率值设为0，则（第4个位置的0.38概率值最大）。

205：计算二维图像和多视角目标所有类别的中心特征，改进性地将其映射到概率空间中得到类别中心概率分布，并利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性；

首先，利用二维图像标签计算出所有二维图像的类别中心特征；利用分类器对多视角目标分配伪标签，进而利用多视角目标伪标签计算出所有多视角目标的类别中心特征：

（14）

其中，为D域的第k个类别中心特征（D域指二维图像或者多视角目标），是属于D域第k个类别的所有样本，为来自D域的第i个样本的特征。

进一步地，将二维图像和多视角目标所有类别中心特征通过分类器获取类别中心的概率分布。

（15）

其中，为线性分类器，为来自D域的第k个类别中心的概率分布。

进一步地，本发明实施例提出利用JS散度构建类别中心间的语义一致性约束：

（16）

其中，为二维图像和多视角目标第k个类别中心概率分布，O为避免梯度消失的尺度系数，K为类别总数，为类别中心语义一致性约束。该模块目的在于让二维图像和多视角目标的相同类别中心在概率空间中的分布应尽可能地保持一致，同时避免直接约束导致原有特征结构信息被干扰的风险。

206：以二维图像类别中心为基准，探索其与二维图像和多视角目标在概率空间中的语义一致性；

为了让检索网站特征编码器更加关注样本的核心语义，本发明实施例构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束：

（17）

其中，为所有二维图像样本，为第i个二维图像的概率分布，表示二维图像第k个类别中心的概率分布，表示第i个二维图像必须属于第k个类别，S为二维图像域，为二维图像类别中心与所有二维图像间的语义一致性约束。

为了让检索网站编码器学习到域不变特征表示，本发明实施例同时构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束：

（18）

其中，为所有多视角目标，为第j个多视角目标的概率分布，为第j个多视角目标的伪标签，为伪标签筛选阈值，为第j个多视角目标属于第k个类别的概率值，为二维图像类别中心与所有多视角目标间的语义一致性约束。

207：通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练，提升二维图像残差特征与多视角目标残差特征间的语义一致性约束；

其中，以上的语义约束聚焦在概率空间中的语义探索，为了提升检索特征间的语义关系，本发明实施例摆脱了原有直接最小化损失更新梯度的策略，创新性地提出了利用对抗学习策略来优化梯度。目的在于让分类器致力于最小化语义相似性的同时，特征提取器最大化语义相似性，当二者达到一个平衡时，二维图像残差特征与多视角目标残差特征间的语义一致性会得到最大提升，进一步地提升基于特征的多视角目标网站检索性能。

因此，上述语义一致性约束形式由：

（19）

转变为：

（20）

208：将201-207所得的检索方法应用在网站检索中，输出最终的检索结果。

其中，该步骤208包括：

利用跨域多视角目标检索数据库训练201-207检索方法，将训练好的检索方法形成检索程序Q，当得到一个输入X时，返回输入的特征Q(X)：

通过检索程序计算数据库中所有的多视角目标特征Q(X_T)，并将其保存在后端；

网站前端获取查询图像，并将其传输至网站后端；网站后端接收到查询图像X_s，并将其输入到检索程序中处理得到查询图像特征Q(X_s)；

网站后端将获得的查询图像特征Q(X_s)和数据库中所有多视角目标特征Q(X_T)进行距离计算并排序，得到查询图像的多视角目标检索结果序列，并将检索结果传输至前端；网站前端将其展示给用户。

综上所述，本发明实施例通过上述步骤201-208利用变分编码器-解码器结构生成尽可能相似的输入样本，并将其和原始输入样本相减得到残差样本，探索网站检索学习所需的最少必要信息，有效的避免了原始输入复杂背景以及噪声带来的干扰问题，提升了网站检索的鲁棒性。

实施例3

下面结合具体的算例对实施例1和2中的方案进行可行性验证，详见下文描述：

1、网站检索介绍

本发明实例构建了一个跨域多视角目标网站检索来评估实例的可行性，如图3所示，前端页面主要包含：搜索框，检索按钮以及结果展示三个部分。后端包含已经用跨域多视角目标检索数据库训练好的本发明实例检索程序，以及两个常用的跨域多视角目标检索数据库（MI3DOR，MI3DOR-2）的测试数据。网站检索可以实现在前端页面通过搜索框选中一个二维图像，点击检索按钮将二维图像发送给后端，后端接收图像并将其输入到检索程序中，检索程序计算二维图像特征，并进行对数据库里所有多视角目标特征的检索，并将检索到的结果发送至网站检索前端，由前端通过结果展示部分来展示检索结果。

2、数据集：

本发明实施例在两个常用的跨域多视角目标检索数据集（MI3DOR-1，MI3DOR-2）来训练提出的检索方法。MI3DOR-1是跨域多视角目标检索领域中最常用的数据集，包含有21000张二维图像和7690个多视角目标，总共21个类别。MI3DOR-2数据集包含有40个类别，训练集中包含有3182个多视角目标和19294个图像，测试集中包含有400个二维图像和800个多视角目标。

3、网站检索测试

本发明实施例采用飞机图像作为查询图像，上传查询图像并点击检索后，网站返还检索结果如图4所示。可以看到，本发明实施例可以有效的检索到和飞机相关的多视角目标，并给出正确排序，充分证明了本发明实施例的有效性。

4、综合评价

本发明实施例在两个常用数据库的所有样例上测试，对提出的检索方法进行评价。其中本发明施例采用检索领域常见的6个指标，包含有最近邻（NN）、第一梯队正确率（FT）、第二梯队正确率（ST）、F分数（F）、累计收益（DCG）、及平均归一化检索秩（ANMRR）。除ANMRR外，其余指标都是值越高，性能越好。

表1展示了本发明实施例和流行的对比方法在MI3DOR-1数据集上的检索性能对比。从结果可以看出，本发明实施例在大多数评价指标上优于所有对比方法。具体来讲，本发明实施例在FT、ST、DCG和ANMRR上取得了0.676，0.813，0.694，0.311的指标结果，都明显优于所有对比方法的最高当前指标值（0.652，0.791，0.683，0.331）。虽然在NN指标上，本发明实施例低于CCS+IST方法，但在MI3DOR-2数据集上本发明实施例在所有指标上都远优于CCS+IST，这正说明了本发明实施例在不同数据集上都有较好的泛化能力。

表2展示了本发明实施例和流行方法在MI3DOR-2数据集上的检索性能对比，其中在所有指标上都远优于所有对比方法，展示了本发明实施例的性能优越性。

表1 在MI3DOR-1数据集上的性能对比

表2 在MI3DOR-2数据集上的性能对比

实施例4

一种基于残差语义一致性跨域多视角目标网站检索装置，参见图5，该装置包括：

综上所述，本发明实施例通过在概率空间中挖掘二维图像和多视角目标类别中心概率分布和间的语义一致性，来缓解常规约束在特征空间会扰乱原有特征结构的弊端；挖掘二维图像类别中心和二维图像、多视角目标间的语义一致性，来增强检索网站编码器鉴别性特征表达能力和域不变特征表达能力，解决了检索网站忽略多样性样本的低鲁棒问题；最后利用对抗学习将概率空间中的语义一致性聚焦在特征空间中，提升了二维图像残差特征与多视角目标残差特征间的语义关系，增强了网站检索能力。

实施例5

一种基于残差语义一致性跨域多视角目标网站检索装置，参见图6，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行实施例1中的以下方法步骤：

其中，利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征具体为：

对于第i个二维图像残差特征，和所有二维图像特征的融合特征为：

其中，“”为Hadamard乘积，为第j个二维图像残差特征，为第i个二维图像残差特征，U、V为参数量为的可训练矩阵，W为参数量为的可训练映射矩阵，b为可训练偏置项，N为当前训练批次样本数，d为融合前输入特征维度，表示融合后生成N个特征维度为d的融合特征，c为转置，N为当前训练批次样本数；d₂为中间映射维度；为第i个二维图像和当前批次所有二维图像的融合特征；

将第j个二维图像残差特征改为第j个多视角目标残差特征，即：

其中，为第i个二维图像和当前批次所有多视角目标的融合特征。

其中，构建分布一致性检测器，检测融合特征和融合前二维图像残差特征是否为一致性分布具体为：

分布一致性检测器包括2个线性映射层和1个线性判断层，计算两个输入特征分布一致性得分为：

其中，为第i个二维图像残差特征，表示匹配得分向量维度为1；

匹配得分的融合特征，符合单峰分布；利用交叉熵损失来约束分布，用于使融合特征的概率分布熵最小化；

匹配得分的融合特征，利用基于掩码的交叉熵损失来约束双峰分布：

其中，为双峰分布约束，为融合前的2个不同样本的类别标签，为的独热编码，为点积，表示在融合特征概率分布中将第一个类别标签的值置为0；为交叉熵计算；为融合特征的概率分布；为表示在融合特征概率分布中将第二个类别标签的值置为0。

进一步地，利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性为：

其中，分别为二维图像和多视角目标第k个类别中心概率分布，“O”为避免梯度消失的尺度系数，K为类别总数，为类别中心语义一致性约束；为线性分类器，G为特征提取器，JS为散度。

其中，以二维图像类别中心为基准，探索与二维图像和多视角目标在概率空间中的语义一致性为：

构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束：

其中，为所有二维图像样本，为第i个二维图像的概率分布，表示第i个二维图像必须属于第k个类别，S为二维图像；为第i个二维图像样本和对应的标签；

构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束：

其中，为所有多视角目标，为第j个多视角目标的概率分布，为第j个多视角目标的伪标签，为伪标签筛选阈值，为第j个多视角目标属于第k个类别的概率值，S为二维图像，T为多视角目标。

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。

基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。

该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。

这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。

计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。

本发明实施例对各器件的型号除做特殊说明的以外，其它器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于残差语义一致性跨域多视角目标网站检索方法，其特征在于，所述方法包括：将残差作为输入，利用卷积神经网络提取二维图像残差特征和多视角目标残差特征；

通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练，提升二维图像残差特征和多视角目标残差特征间的语义一致性约束；将最终约束结果应用在网站检索中，输出最终的检索结果；

其中，将残差作为输入为：

1)将多视角目标x_t按照不同角度进行映射，生成多视角目标的图像序列

其中P为多视角目标的视角数量；

2)利用变分编码器编码二维图像x_s和多视角目标图像序列v_t的隐式表征z_s(t)，利用解码器解码隐式表征z_s(t)生成和原始输入尽可能相似的样本g_s(t)，同时保证KL散度的互信息约束来增强编码解码的一致性；

其中，尽可能相似的样本g_s(t)为：原始二维图像和生成的二维图像类似；原始多视角目标和生成的多视角目标尽可能相似；

将原始二维图像和原始多视角目标统称为原始输入X；将生成的二维图像和生成的多视角目标统称为生成输入G(X)；

其中，将最终约束结果应用在网站检索中，输出最终的检索结果为：

2.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法，其特征在于，所述利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征具体为：

其中，

为Hadamard乘积，

为第j个二维图像残差特征，f_i ^s为第i个二维图像残差特征，U、V为参数量为

的可训练矩阵，W为参数量为

的可训练映射矩阵，b为可训练偏置项，N为当前训练批次样本数，d为融合前输入特征维度，R^N×d表示融合后生成N个特征维度为d的融合特征，c为转置，N为当前训练批次样本数；d₂为中间映射维度；f_i ^s，s为第i个二维图像和当前批次所有二维图像的融合特征；

将第j个二维图像残差特征

改为第j个多视角目标残差特征

，即：

其中，f_i ^s，t为第i个二维图像和当前批次所有多视角目标的融合特征。

3.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法，其特征在于，所述构建分布一致性检测器，检测融合特征和融合前二维图像残差特征是否为一致性分布具体为：

分布一致性检测器包括2个线性映射层MLP_in-1，MLP_in-2和1个线性判断层MLP_out，计算两个输入特征分布一致性得分为：

其中，f_i ^s为第i个二维图像残差特征，R^1×1表示匹配得分向量P_match维度为1；

匹配得分P_match＞0.5的融合特征，符合单峰分布；利用交叉熵损失来约束分布，用于使融合特征的概率分布熵最小化；

匹配得分P_match≤0.5的融合特征，利用基于掩码的交叉熵损失来约束双峰分布：

其中，L_double为双峰分布约束，y₁，y₂为融合前的2个不同样本的类别标签，onehot(y₁)为y1的独热编码，

为点积

表示在融合特征概率分布中将第一个类别标签y₁的值置为0；l为交叉熵计算；

为融合特征

的概率分布；

为表示在融合特征概率分布中将第二个类别标签y₂的值置为0，

为融合特征。

4.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法，其特征在于，所述利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性为：

其中，

分别为二维图像和多视角目标第k个类别中心概率分布，“O”为避免梯度消失的尺度系数，K为类别总数，L_SP-TP为类别中心语义一致性约束；F_C为线性分类器，G为特征提取器，JS为散度。

5.根据权利要求4所述的一种基于残差语义一致性跨域多视角目标网站检索方法，其特征在于，所述以二维图像类别中心为基准，探索与二维图像和多视角目标在概率空间中的语义一致性为：

构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束L_SP-SI：

其中，n_s为所有二维图像样本，

为第i个二维图像的概率分布，y_i＝＝k表示第i个二维图像必须属于第k个类别，S为二维图像；x_i，y_i为第i个二维图像样本和对应的标签；

构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束L_SP-TI：

其中，n_T为所有多视角目标，

为第j个多视角目标的概率分布，

为第j个多视角目标的伪标签，τ为伪标签筛选阈值，

为第j个多视角目标属于第k个类别的概率值，S为二维图像，T为多视角目标。

6.一种基于残差语义一致性跨域多视角目标网站检索装置，其特征在于，所述装置用于执行权利要求1所述的方法步骤，所述装置包括：

7.一种基于残差语义一致性跨域多视角目标网站检索装置，其特征在于，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。