CN115640418A - 基于残差语义一致性跨域多视角目标网站检索方法及装置 - Google Patents

基于残差语义一致性跨域多视角目标网站检索方法及装置 Download PDF

Info

Publication number
CN115640418A
CN115640418A CN202211671546.0A CN202211671546A CN115640418A CN 115640418 A CN115640418 A CN 115640418A CN 202211671546 A CN202211671546 A CN 202211671546A CN 115640418 A CN115640418 A CN 115640418A
Authority
CN
China
Prior art keywords
dimensional image
view target
residual
distribution
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211671546.0A
Other languages
English (en)
Other versions
CN115640418B (zh
Inventor
郝彤
刘安安
张晨宇
孙金生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Normal University
Original Assignee
Tianjin Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Normal University filed Critical Tianjin Normal University
Priority to CN202211671546.0A priority Critical patent/CN115640418B/zh
Publication of CN115640418A publication Critical patent/CN115640418A/zh
Application granted granted Critical
Publication of CN115640418B publication Critical patent/CN115640418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于残差语义一致性跨域多视角目标网站检索方法及装置,方法包括:当检测融合特征和融合前二维图像残差特征为一致性分布,构建单峰分布约束;计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出检索结果。装置包括:处理器和存储器。

Description

基于残差语义一致性跨域多视角目标网站检索方法及装置
技术领域
本发明涉及跨域多视角目标网站检索领域,尤其涉及一种基于残差语义一致性跨域多视角目标网站检索方法及装置。
背景技术
近些年,随着虚拟现实、数字娱乐、计算机设计等领域的快速发展,多视角数据得到了爆发式的增长,如何管理及检索这些数据成为了一个急需解决的任务。当前的多视角目标网站大都需要用户提前获取一个多视角目标,然后才能实现对目标数据的检索,这种以多视角目标去检索的方式限制了网站的实用性。现实生活中,人们更倾向于使用随处可见的二维图像而不是获取困难的多视角目标作为搜寻对象。此外,当前已有的网站检索引擎都较多依赖于大量带标签数据的监督学习,然而对多视角目标打标签是一件十分耗时和昂贵的任务。在这种情况下,利用二维图像检索多视角目标的无监督跨域检索场景应运而生,简称为无监督跨域多视角目标检索。
无监督跨域多视角目标网站检索的目标是在用户输入一个二维图像查询样本后,检索引擎能够返回一系列和查询样本相似的多视角目标,其对应的科学问题为如何在特征空间中匹配相同类别的带标签二维图像特征和不含标签的多视角目标特征。为了缓解二维图像和多视角目标之间的巨大数据分布差异,通常的做法是利用对抗学习或者信息熵来对齐二维图像和多视角目标的全局数据分布。然而这类方法的主要限制在于学习域不变表征的同时忽略了类别中的语义信息,例如,多视角飞机的特征可能会被映射到汽车图像特征附近,导致了网站检索错误。这个问题经常被许多工作利用多视角目标伪标签引导的类级别对齐来缓解。然而,该类方法经常受到伪标签噪声的问题,如果没有充分的筛选过滤措施常常会导致匹配偏差。
为了消除噪声伪标签带来的匹配偏差问题,类别中心作为一个鲁棒的语义表征,经常被利用作为一个额外的监督信号来引导匹配过程。通常的策略就是约束二维图像和多视角目标相同类别特征中心间的一致性。然而,这类方法面临着以下四个问题:
1)原有方法都是直接编码具有复杂背景和干扰的查询图像和多视角目标,然而由于多视角目标缺乏标签,所以任何噪声和干扰的引入都会对多视角目标的特征学习产生误导,进而降低网站的检索精度;
2)原有方法通常直接利用带噪声的伪标签来辅助训练,忽略了带标签二维图像特征所包含的隐式信息,通过利用带标签二维图像特征和无标签多视角目标特征的交互,可以大幅度减弱直接利用强硬伪标签所带来的检索网站匹配偏差问题;
3)常规的类别中心特征一致性对齐损失已经被证明是一个次优解,指出仅仅在特征空间中维持特征间的一致性可能会扰乱原有的数据结构,因此降低了数据表征能力进而影响网站检索精度;
4)仅仅约束二维图像和多视角目标类别中心特征间的一致性会严重忽视样本中的多样性,使得检索网站倾向于过拟合,进而降低利用新样本检索多视角目标的准确度。
发明内容
本发明提供了一种基于残差语义一致性跨域多视角目标网站检索方法及装置,本发明将残差图像作为输入,减少冗余背景信息的引入;通过改进双线性池化,融合二维图像-多视角目标特征,并设计了一个分布一致性检测器来对融合特征进行检测及约束,利用二维图像残差特征隐式信息帮助多视角目标特征的学习;同时利用JS散度探索二维图像类别中心和多视角目标类别中心,二维图像,多视角目标间在概率空间中的语义一致性,避免直接约束造成的特征结构损坏,同时提高了网站的检索精度,满足了实际应用中的多种需要,详见下文描述:
第一方面,一种基于残差语义一致性跨域多视角目标网站检索方法,所述方法包括:
将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出最终的检索结果。
第二方面,一种基于残差语义一致性跨域多视角目标网站检索装置,所述装置包括:
提取模块,用于将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
计算融合特征模块,用于基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建与检测模块,用于构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
第一语义一致性模块,用于计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
第二语义一致性模块,用于以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
提升模块,用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;
检索模块,用于将最终约束结果应用在网站检索中,输出最终的检索结果。
第三方面、一种基于残差语义一致性跨域多视角目标网站检索装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面的方法步骤。
第四方面、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面的任方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明利用变分编码器-解码器结构生成尽可能相似的输入样本,并将其和原始输入样本相减得到残差样本,探索网站检索所需的最少必要信息,有效的避免了原始输入复杂背景以及噪声带来的干扰问题,提升了网站检索的鲁棒性;
2、本发明通过改进型双线性池化将每一个二维图像残差特征和所有多视角目标残差特征融合,并设计一个分布一致性检测器来判断融合前后是否为同分布,若为同分布,则融合特征的概率分布应符合单峰分布;若非同分布,则融合特征的概率分布应符合双峰分布;通过改进型双线性池化探索二维图像残差特征的隐式信息,可以从数据本身挖掘二维图像和多视角目标的关联信息,大幅度缓解由于噪声伪标签引起的检索网站匹配偏差问题;
3、本发明通过将类别中心特征映射到概率空间中,并利用JS(Jenson’s Shannon)散度构建语义一致性,有效的缓解了常规特征一致性约束导致的原有特征结构损坏的问题,提高了检索网站的数据表征能力;
4、本发明通过探索二维图像类别中心与二维图像、多视角目标的语义一致性,极大缓解了检索网站对多样性样本缺乏关注导致的低可靠性问题,使得检索网站更加鲁棒;其中二维图像类别中心与二维图像之间的语义一致性构建能够有效增强检索网站编码器的鉴别性特征表达能力;二维图像类别中心与多视角目标之间的语义一致性构建能够有效增强检索网站编码器的域不变特征表达能力;
5、本发明通过构建检索网站的特征编码器与分类器之间的对抗训练,有效的将概率空间中的语义一致性约束聚焦在特征空间中,提升了二维图像残差特征和多视角目标残差特征之间的语义相关性,进而提升网站检索多视角目标的精度。
附图说明
图1为一种基于残差语义一致性跨域多视角目标网站检索方法的流程图;
图2为基于残差语义一致性跨域多视角目标网站检索方法的网络结构图;
图3为多视角目标检索网站主页面;
图4为基于飞机图像检索到的结果页面;
图5为一种基于残差语义一致性跨域多视角目标网站检索装置的结构示意图;
图6为一种基于残差语义一致性跨域多视角目标网站检索装置的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于残差语义一致性跨域多视角目标网站检索方法,参见图1,该方法主要包括以下步骤:
101:利用变分编码器生成二维图像和多视角目标隐式表征
Figure 511852DEST_PATH_IMAGE001
,利用解码器解码隐式表征
Figure 163414DEST_PATH_IMAGE001
至输入空间生成尽可能相似的二维图像和多视角目标,通过原始输入X与生成输入G(X)相减得到输入残差;
其中,该步骤101包括:
1)将多视角目标
Figure 116720DEST_PATH_IMAGE002
按照不同角度进行映射,生成多视角目标的图像序列
Figure 246350DEST_PATH_IMAGE003
,其中P为多视角目标的视角数量;
2)利用变分编码器编码二维图像
Figure 998405DEST_PATH_IMAGE004
和多视角目标图像序列
Figure 492971DEST_PATH_IMAGE005
的隐式表征
Figure 494425DEST_PATH_IMAGE001
,利用解码器解码隐式表征
Figure 863965DEST_PATH_IMAGE001
生成和原始输入尽可能相似的样本
Figure 470526DEST_PATH_IMAGE006
,同时保证KL散度的互信息约束来增强编码解码的一致性;
其中,尽可能相似的样本
Figure 198311DEST_PATH_IMAGE006
为:原始二维图像和生成的二维图像类似;原始多视角目标和生成的多视角目标尽可能相似。将原始二维图像和原始多视角目标统称为原始输入X。将生成的二维图像和生成的多视角目标统称为生成输入G(X)。
3)将原始输入
Figure 890323DEST_PATH_IMAGE007
与生成输入
Figure 96177DEST_PATH_IMAGE006
相减得到二维图像残差
Figure 52851DEST_PATH_IMAGE008
以及多视角目标残差图像序列
Figure 154799DEST_PATH_IMAGE009
其中,本发明实施例采用的输入是2个分支,1个分支是二维图像,另一个分支是多视角目标。本发明实施例第一步是重建2个分支的图像获得输入残差,所以二维图像残差
Figure 130845DEST_PATH_IMAGE008
和多视角目标残差图像序列
Figure 78073DEST_PATH_IMAGE009
均是检索系统的最终输入。
102:将步骤101的结果作为输入,利用卷积神经网络CNN提取二维图像残差特征
Figure 157762DEST_PATH_IMAGE010
和多视角目标残差特征
Figure 227349DEST_PATH_IMAGE011
其中,该步骤102包括:
利用卷积神经网络CNN从上述步骤101中二维图像残差
Figure 893954DEST_PATH_IMAGE008
以及多视角目标残差图像序列
Figure 910451DEST_PATH_IMAGE009
中获取到二维图像残差特征
Figure 346112DEST_PATH_IMAGE010
和多视角目标残差图像序列特征
Figure 291327DEST_PATH_IMAGE012
,其中
Figure 710807DEST_PATH_IMAGE010
为二维图像的残差特征,
Figure 327734DEST_PATH_IMAGE013
为多视角目标第i个视角图像的残差特征。
利用视图池化将多视角目标残差图像序列特征
Figure 352321DEST_PATH_IMAGE014
融合为一个全局残差特征
Figure 29290DEST_PATH_IMAGE011
现有方法仅仅是利用分类器对于多视角目标的伪标签作为参考,严重忽视了包含大量隐式信息的二维图像残差特征。为此,本发明实施例创新性的提出将二维图像残差特征和多视角目标残差特征融合的方式,进一步地利用二维图像残差特征隐式信息来辅助多视角目标的迁移适应,大幅度缓解由于噪声伪标签引起的检索网站的匹配偏差问题。
103:基于二维图像残差特征
Figure 637864DEST_PATH_IMAGE010
和多视角目标残差特征
Figure 792902DEST_PATH_IMAGE011
,利用改进型双线性池化计算二维图像-二维图像、二维图像-多视角目标的融合特征
Figure 937575DEST_PATH_IMAGE015
Figure 785446DEST_PATH_IMAGE016
其中,该步骤103包括:
利用双线性池化将步骤102中获得的每一个二维图像残差特征
Figure 382780DEST_PATH_IMAGE010
分别和所有二维图像残差特征、多视角目标残差特征
Figure 341509DEST_PATH_IMAGE011
融合,得到
Figure 570715DEST_PATH_IMAGE017
个融合特征
Figure 323907DEST_PATH_IMAGE015
Figure 470855DEST_PATH_IMAGE016
,特征维度为
Figure 967695DEST_PATH_IMAGE018
,其中N为批量大小。
为了降低融合特征的高维特性,本发明实施例改进性地采用2个映射层来模拟双线性池化操作,将其输出维度
Figure 86961DEST_PATH_IMAGE018
降低为
Figure 745476DEST_PATH_IMAGE019
,其中
Figure 815938DEST_PATH_IMAGE020
,最后通过额外的输出映射层将其映射为原有维度d。
104:构建分布一致性检测器,检测融合特征
Figure 116469DEST_PATH_IMAGE015
Figure 90241DEST_PATH_IMAGE016
和融合前二维图像残差特征
Figure 185236DEST_PATH_IMAGE010
是否为一致性分布,若为一致性分布,则该融合特征概率分布符合单峰分布,构建单峰分布约束;若非一致性分布,则为融合特征概率分布构建双峰分布约束。
其中,该步骤104包括:
利用2个线性映射层和1个线性判断层来构建分布一致性检测器,判断两个输入残差特征是否为同类分布。
对于融合特征
Figure 41197DEST_PATH_IMAGE016
和融合前的二维图像残差特征
Figure 584567DEST_PATH_IMAGE010
,将其输入到分布一致性检测器,当输出得分>0.5时,则判断两者同分布,即融合的两个特征属于同一类别,则该融合特征概率分布应当符合单峰分布。若输出得分<=0.5,则判断两者非同分布,即融合的两个特征属于异类,则该融合特征概率分布应当符合双峰分布。
对于概率分布属于单峰分布即概率分布仅存在一个最大值,可以用传统的交叉熵损失来约束优化。概率分布属于双峰分布即存在且仅有2个最大概率值,为此,本发明实施例改进性地设计了一个基于掩码的交叉熵损失来约束优化。
现有技术仅通过常规的类别中心对齐方法在特征空间中直接约束语义一致性,扰乱了数据特征原有结构。于是本方法改进性地提出将类别中心映射到概率空间中,并利用JS散度构建语义一致性,然后利用对抗学习将语义约束转移至特征空间中,有效避免了直接约束导致的原有结构损坏问题,提高了检索网站的数据表征能力。
105:计算二维图像的类别中心特征
Figure 209583DEST_PATH_IMAGE021
和多视角目标的类别中心特征
Figure 475479DEST_PATH_IMAGE022
,将其映射到概率空间中得到类别中心概率分布
Figure 756419DEST_PATH_IMAGE023
Figure 664332DEST_PATH_IMAGE024
,并利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
其中,该步骤105包括:
1)利用二维图像标签计算出所有二维图像的类别中心特征
Figure 347118DEST_PATH_IMAGE021
;利用分类器对多视角目标分配伪标签,进而利用多视角目标伪标签计算出所有多视角目标的类别中心特征
Figure 282450DEST_PATH_IMAGE022
2)将二维图像和多视角目标中所有类别中心特征通过分类器获取类别中心的概率分布
Figure 113003DEST_PATH_IMAGE023
Figure 496711DEST_PATH_IMAGE024
3)在概率空间中,利用JS散度构建二维图像类别中心和多视角目标类别中心的概率分布语义一致性,增强编码器的语义特征表达能力。
现有技术仅仅通过类别中心来挖掘语义一致性,忽略了样本级别的多样性信息,这样容易让检索网站过拟合,鲁棒性低。本发明实施例提出探索二维图像类别中心与二维图像、多视角目标间的语义关系,增强检索网站特征编码器的鉴别性特征表达能力及域不变特征表达能力,进一步改善检索网站的鲁棒性。
106:以二维图像类别中心为基准,探索其与二维图像和多视角目标在概率空间中的语义一致性;
其中,该步骤106包括:
在概率空间中,利用JS散度构建二维图像类别中心和其相同标签的所有二维图像的概率分布语义一致性,增强编码器的鉴别性特征表达能力;
在概率空间中,利用JS散度构建二维图像类别中心和其伪标签相同且置信度大于固定阈值的所有多视角目标的概率分布语义一致性,增强编码器的域不变特征表达能力。
以上所述都是在概率空间中约束语义一致性,然而该发明所属任务跨域多视角目标检索目的在于特征空间中的检索,故本发明实施例提出利用对抗学习将语义约束从概率空间转移至特征空间,提升二维图像残差特征与多视角目标残差特征间的语义一致性,进而提升网站检索多视角目标的精度。
107:通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征与多视角目标残差特征间的语义一致性约束;
其中,该步骤107包括:
分类器致力于最小化语义相似性的同时,使得特征提取器致力于最大化语义相似性,形成特征提取器和分类器对抗局面,当分类器和特征提取器达到平衡时,二维图像残差特征与多视角目标残差特征间的语义一致性得到最大提升,来进一步地提升基于特征的多视角目标的网站检索精度。
108:将步骤107的最终约束结果应用在网站检索中,输出最终的检索结果。
其中,该步骤108包括:
利用跨域多视角目标检索数据库训练101-107检索方法,将训练好的方法形成检索程序;
利用检索程序计算数据库中所有多视角的目标特征并保存在网站后端;
网站前端获取查询图像,并将其传输至网站后端;网站后端接收到查询图像,并将其输入到检索程序中处理得到查询图像特征;
网站后端将获得的查询图像特征和数据库中所有多视角目标特征进行距离计算并排序,得到查询图像的多视角目标检索结果序列,并将检索结果其传输至前端;网站前端将其展示给用户。
综上所述,本发明实施例利用变分编码器-解码器结构生成尽可能相似的输入样本G(X),并将其和原始输入样本X相减得到残差样本X-G(X),探索网站检索学习所需的最少必要信息,来缓解原有方法直接编码原始输入导致复杂背景和噪声被引入的问题;通过利用改进型双线性池化计算二维图像-二维图像和二维图像-多视角目标融合特征
Figure 96320DEST_PATH_IMAGE015
Figure 704018DEST_PATH_IMAGE016
,进而构建分布一致性检测器,检测融合特征
Figure 959550DEST_PATH_IMAGE015
Figure 439292DEST_PATH_IMAGE016
和融合前二维图像残差特征
Figure 893408DEST_PATH_IMAGE010
是否为一致性分布,然后利用不同分布设计不同的概率约束,充分利用二维图像残差特征
Figure 875270DEST_PATH_IMAGE010
的隐式信息来辅助多视角目标的特征学习,来缓解噪声为标签带来的检索网站匹配偏差问题;通过在概率空间中挖掘二维图像和多视角目标类别中心概率分布
Figure 680415DEST_PATH_IMAGE023
Figure 405926DEST_PATH_IMAGE024
间的语义一致性,来缓解常规约束在特征空间会扰乱原有特征结构的弊端;挖掘二维图像类别中心和二维图像、多视角目标间的语义一致性,来增强检索网站编码器鉴别性特征表达能力和域不变特征表达能力,解决了检索网站忽略多样性样本的低鲁棒问题;最后利用对抗学习将概率空间中的语义一致性聚焦在特征空间中,提升了二维图像残差特征与多视角目标残差特征间的语义关系,增强了网站的检索能力。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用变分编码器生成二维图像和多视角目标隐式表征
Figure 714547DEST_PATH_IMAGE001
,利用解码器解码隐式表征至输入空间生成尽可能相似的二维图像和多视角目标,通过原始输入与生成输入相减得到输入残差;
其中,本发明实施例围绕多视角目标质心平台,在其周围放置12个虚拟相机,每个相机间隔30°。根据每个虚拟相机获取一个视角图像,生成多视角目标图像序列。
其中,本发明实施例利用变分编码器-解码器结构作为检索网站的残差生成模型,该残差生成模型由参数
Figure 428163DEST_PATH_IMAGE025
组成的编码器包括:两个初始卷积以及两个残差卷积块,用于产生潜在变量z的后验分布
Figure 189446DEST_PATH_IMAGE026
;由参数
Figure 718647DEST_PATH_IMAGE027
组成的解码器包括:两个残差卷积模块以及两个反卷积模块,用于产生数据似然估计
Figure 147354DEST_PATH_IMAGE028
其中,本发明实施例利用变分编码器编码二维图像和多视角目标图像序列的隐式表征
Figure 471019DEST_PATH_IMAGE029
,利用解码器解码隐式表征生成和原始输入尽可能相似的样本:
Figure 985177DEST_PATH_IMAGE030
(1)
Figure 616272DEST_PATH_IMAGE031
(2)
将原始输入样本与生成输入样本相减得到二维图像残差样本以及多视角目标残差图像序列。
Figure 837169DEST_PATH_IMAGE032
(3)
在上述过程中,本发明实施例对编码器和解码器的输出进行约束如下:
Figure 659632DEST_PATH_IMAGE033
其中,
Figure 395506DEST_PATH_IMAGE034
为促使编码器解耦隐式表征的先验知识,
Figure 266510DEST_PATH_IMAGE035
为测量后验分布
Figure 404231DEST_PATH_IMAGE028
和先验分布
Figure 630551DEST_PATH_IMAGE036
差异程度的KL散度,
Figure 56984DEST_PATH_IMAGE037
为平衡重建损失和先验约束的超参数。整体约束可以看作为编码解码过程中的数据边缘似然估计,目的在于重建输入样本过程中同时保证KL散度的互信息约束。
202:利用卷积神经网络CNN提取二维图像残差特征
Figure 528416DEST_PATH_IMAGE010
和多视角目标残差特征
Figure 723906DEST_PATH_IMAGE011
其中,本发明实施例采用AlexNet框架作为本发明实施例的特征编码器,该模型包含5个卷积层和3个全连接层。为了获取语义集中度高的样本特征,本发明实施例在第2个全连接层后拼接一个瓶颈层,维度为256维,并将此瓶颈层得到的特征作为二维图像残差特征
Figure 888171DEST_PATH_IMAGE010
本发明实施例将最后一个卷积层得到的特征图作为每一个多视角目标的残差图像序列特征
Figure 867864DEST_PATH_IMAGE012
Figure 142987DEST_PATH_IMAGE013
为多视角目标的第i个视图特征,P为多视角目标的视角个数。
本发明实施例利用视图池化技术将残差图像序列特征融合成一个特征描述图:
Figure 458562DEST_PATH_IMAGE038
(5)
然后将该特征描述图通过2个全连接层和1个瓶颈层获得最终的多视角目标残差特征
Figure 262570DEST_PATH_IMAGE011
现有方法仅仅是利用分类器对于多视角目标的伪标签作为参考,严重忽视了包含大量隐式信息的二维图像残差特征。为此,本发明实施例创新性的提出将二维图像残差特征和多视角目标残差特征融合的方式,进一步地利用二维图像残差特征隐式信息来辅助多视角目标的迁移适应,大幅度缓解由于噪声伪标签引起的检索网站的匹配偏差问题。
203:利用改进型双线性池化计算二维图像-二维图像和二维图像-多视角目标的融合特征
Figure 725912DEST_PATH_IMAGE015
Figure 476831DEST_PATH_IMAGE016
首先,对于第i个二维图像残差特征
Figure 207764DEST_PATH_IMAGE039
,本发明实施例通过一个可训练的矩阵来计算该二维图像残差特征和所有二维图像残差特征的融合特征:
Figure 385936DEST_PATH_IMAGE040
(6)
其中,
Figure 336574DEST_PATH_IMAGE041
为偏置项,d为融合前特征维度,
Figure 687921DEST_PATH_IMAGE042
为可训练矩阵参数,
Figure 712509DEST_PATH_IMAGE043
为第i个二维图像残差特征,
Figure 123899DEST_PATH_IMAGE044
为维第j个二维图像残差特征,c为转置符号,N为当前训练批次样本数,
Figure 797719DEST_PATH_IMAGE045
为表示融合后生成N个特征维度为
Figure 890440DEST_PATH_IMAGE018
的融合特征。为了降低直接双线性池化造成的特征高维特性,本发明实施例根据现有技术中所说的
Figure 97430DEST_PATH_IMAGE046
,其中
Figure 414142DEST_PATH_IMAGE047
Figure 11477DEST_PATH_IMAGE048
Figure 970205DEST_PATH_IMAGE019
为映射输出维度,将上述融合特征表达替换为:
Figure 467920DEST_PATH_IMAGE049
其中,
Figure 221113DEST_PATH_IMAGE050
为值为1且维度为
Figure 368060DEST_PATH_IMAGE019
的列向量,
Figure 802584DEST_PATH_IMAGE051
为Hadamard乘积,
Figure 718587DEST_PATH_IMAGE052
Figure 642681DEST_PATH_IMAGE053
为参数量为
Figure 710213DEST_PATH_IMAGE054
的可训练矩阵,
Figure 10745DEST_PATH_IMAGE041
为可训练偏置项。
在上述计算中,输出维度
Figure 718938DEST_PATH_IMAGE019
的通常范围是
Figure 813933DEST_PATH_IMAGE055
,虽然
Figure 935472DEST_PATH_IMAGE019
相比于优化前
Figure 210334DEST_PATH_IMAGE018
获得了大幅度降低,但是其维度仍然远高于输入特征,为了继续降低输出维度,本发明实施例针对上述公式进行改进,提出利用一个可训练映射矩阵
Figure 100929DEST_PATH_IMAGE056
来取代
Figure 570088DEST_PATH_IMAGE050
,大幅度降低输出特征的维度,则上述表达可更改为:
Figure 913344DEST_PATH_IMAGE057
对于二维图像-多视角目标融合特征
Figure 555678DEST_PATH_IMAGE016
,将上述公式中的第j个二维图像中残差特征
Figure 504043DEST_PATH_IMAGE044
改为第j个多视角目标残差特征
Figure 645568DEST_PATH_IMAGE058
,即:
Figure 210541DEST_PATH_IMAGE059
(9)
204:构建分布一致性检测器,检测融合特征
Figure 390987DEST_PATH_IMAGE015
Figure 193858DEST_PATH_IMAGE016
和融合前二维图像残差特征
Figure 67136DEST_PATH_IMAGE010
是否为一致性分布,若为一致性分布,则该融合特征概率分布符合单峰分布,构建单峰分布约束;若非一致性分布,则为融合特征概率分布构建双峰分布约束;
首先,针对任何一个融合样本
Figure 119405DEST_PATH_IMAGE060
,将其与融合前二维图像残差特征
Figure 539760DEST_PATH_IMAGE039
同时输入到分布一致性检测器中,判断二者特征是否仍属于同分布特征。
其中,分布一致性检测器包括2个线性映射层
Figure 993875DEST_PATH_IMAGE061
和1个线性判断层
Figure 38055DEST_PATH_IMAGE062
。计算两个输入特征分布一致性得分具体为:
Figure 46462DEST_PATH_IMAGE063
(10)
进一步地,对于匹配得分
Figure 771972DEST_PATH_IMAGE064
的融合特征,本发明实施例认为融合的两个残差特征
Figure 576199DEST_PATH_IMAGE043
Figure 791280DEST_PATH_IMAGE044
属于相同类别,则融合特征概率分布应符合单峰分布。相反,对于
Figure 755825DEST_PATH_IMAGE065
的融合特征,本发明实施例认为融合前两个残差特征属于不同类别,则融合特征概率分布应符合双峰分布。
进一步地,概率分布属于单峰分布是指,融合特征的概率分布有且仅有一个最大值,则可以利用传统的交叉熵损失来约束其分布:
Figure 81764DEST_PATH_IMAGE066
(11)
其中,
Figure 510472DEST_PATH_IMAGE067
为x的概率分布,y为融合前二维图像样本标签,
Figure 834137DEST_PATH_IMAGE068
为交叉熵计算,
Figure 112409DEST_PATH_IMAGE069
为单峰分布约束,目的在于让融合特征
Figure 179722DEST_PATH_IMAGE070
概率分布的熵最小化。
进一步地,概率分布属于双峰分布是指,融合特征是由两个不同类别的特征融合而成,则融合特征的概率分布应该有且仅有两个最大值,则本发明实施例创新性的设计了一个基于掩码的交叉熵损失来约束其分布:
Figure 462936DEST_PATH_IMAGE071
(12)
Figure 19819DEST_PATH_IMAGE072
(13)
其中,
Figure 958956DEST_PATH_IMAGE073
为双峰分布约束,
Figure 626698DEST_PATH_IMAGE074
为融合前的2个不同特征的类别标签,
Figure 469145DEST_PATH_IMAGE075
Figure 462509DEST_PATH_IMAGE076
的独热编码,
Figure 420101DEST_PATH_IMAGE077
为点积,
Figure 94796DEST_PATH_IMAGE078
表示在融合特征概率分布中将第一个类别标签
Figure 352602DEST_PATH_IMAGE076
的值置为0,
Figure 985709DEST_PATH_IMAGE068
为交叉熵计算;
Figure 397973DEST_PATH_IMAGE079
为融合特征
Figure 673097DEST_PATH_IMAGE070
的概率分布;
Figure 723092DEST_PATH_IMAGE080
为表示在融合特征概率分布中将第二个类别标签
Figure 792679DEST_PATH_IMAGE081
的值置为0对于
Figure 990443DEST_PATH_IMAGE082
二维图像和多视角目标融合的情况中,多视角目标样本不含真实标签
Figure 803678DEST_PATH_IMAGE081
,本发明实施例利用融合特征概率分布中除去
Figure 469365DEST_PATH_IMAGE076
后最大的概率索引作为其第2个类别标签,即
Figure 709853DEST_PATH_IMAGE083
例如,对于类别为1的二维图像(即
Figure 598175DEST_PATH_IMAGE084
)和一个未知类别的多视角目标进行融合,得到融合特征
Figure 949522DEST_PATH_IMAGE082
,其概率分布为
Figure 36426DEST_PATH_IMAGE085
(假设总共有5个类别),则:
Figure 884034DEST_PATH_IMAGE086
Figure 56390DEST_PATH_IMAGE087
完成了融合特征概率分布中将类别为
Figure 211427DEST_PATH_IMAGE076
的概率值设为0,则
Figure 90522DEST_PATH_IMAGE088
(第4个位置的0.38概率值最大)。
现有技术仅通过常规的类别中心对齐方法在特征空间中直接约束语义一致性,扰乱了数据特征原有结构。于是本方法改进性地提出将类别中心映射到概率空间中,并利用JS散度构建语义一致性,然后利用对抗学习将语义约束转移至特征空间中,有效避免了直接约束导致的原有结构损坏问题,提高了检索网站的数据表征能力。
205:计算二维图像和多视角目标所有类别的中心特征
Figure 938392DEST_PATH_IMAGE089
,改进性地将其映射到概率空间中得到类别中心概率分布
Figure 332464DEST_PATH_IMAGE090
,并利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
首先,利用二维图像标签计算出所有二维图像的类别中心特征;利用分类器对多视角目标分配伪标签,进而利用多视角目标伪标签计算出所有多视角目标的类别中心特征:
Figure 730341DEST_PATH_IMAGE091
(14)
其中,
Figure 526259DEST_PATH_IMAGE089
为D域的第k个类别中心特征(D域指二维图像或者多视角目标),
Figure 545030DEST_PATH_IMAGE092
是属于D域第k个类别的所有样本,
Figure 364082DEST_PATH_IMAGE093
为来自D域的第i个样本的特征。
进一步地,将二维图像和多视角目标所有类别中心特征通过分类器获取类别中心的概率分布。
Figure 860922DEST_PATH_IMAGE094
(15)
其中,
Figure 776926DEST_PATH_IMAGE095
为线性分类器,
Figure 402817DEST_PATH_IMAGE090
为来自D域的第k个类别中心的概率分布。
进一步地,本发明实施例提出利用JS散度构建类别中心间的语义一致性约束:
Figure 771481DEST_PATH_IMAGE096
(16)
其中,
Figure 72012DEST_PATH_IMAGE097
为二维图像和多视角目标第k个类别中心概率分布,O为避免梯度消失的尺度系数,K为类别总数,
Figure 780205DEST_PATH_IMAGE098
为类别中心语义一致性约束。该模块目的在于让二维图像和多视角目标的相同类别中心在概率空间中的分布应尽可能地保持一致,同时避免直接约束导致原有特征结构信息被干扰的风险。
现有技术仅仅通过类别中心来挖掘语义一致性,忽略了样本级别的多样性信息,这样容易让检索网站过拟合,鲁棒性低。本发明实施例提出探索二维图像类别中心与二维图像、多视角目标间的语义关系,增强检索网站特征编码器的鉴别性特征表达能力及域不变特征表达能力,进一步改善检索网站的鲁棒性。
206:以二维图像类别中心为基准,探索其与二维图像和多视角目标在概率空间中的语义一致性;
为了让检索网站特征编码器更加关注样本的核心语义,本发明实施例构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束:
Figure 875200DEST_PATH_IMAGE099
(17)
其中,
Figure 731161DEST_PATH_IMAGE100
为所有二维图像样本,
Figure 292109DEST_PATH_IMAGE101
为第i个二维图像的概率分布,
Figure 917126DEST_PATH_IMAGE023
表示二维图像第k个类别中心的概率分布,
Figure 448601DEST_PATH_IMAGE102
表示第i个二维图像必须属于第k个类别,S为二维图像域,
Figure 729541DEST_PATH_IMAGE103
为二维图像类别中心与所有二维图像间的语义一致性约束。
为了让检索网站编码器学习到域不变特征表示,本发明实施例同时构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束:
Figure 106296DEST_PATH_IMAGE104
(18)
其中,
Figure 851398DEST_PATH_IMAGE105
为所有多视角目标,
Figure 989993DEST_PATH_IMAGE106
为第j个多视角目标的概率分布,
Figure 820545DEST_PATH_IMAGE107
为第j个多视角目标的伪标签,
Figure 469833DEST_PATH_IMAGE108
为伪标签筛选阈值,
Figure 272704DEST_PATH_IMAGE109
为第j个多视角目标属于第k个类别的概率值,
Figure 145982DEST_PATH_IMAGE110
为二维图像类别中心与所有多视角目标间的语义一致性约束。
以上所述都是在概率空间中约束语义一致性,然而该发明所属任务跨域多视角目标检索目的在于特征空间中的检索,故本发明实施例提出利用对抗学习将语义约束从概率空间转移至特征空间,提升二维图像残差特征与多视角目标残差特征间的语义一致性,进而提升网站检索多视角目标的精度。
207:通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征与多视角目标残差特征间的语义一致性约束;
其中,以上的语义约束聚焦在概率空间中的语义探索,为了提升检索特征间的语义关系,本发明实施例摆脱了原有直接最小化损失更新梯度的策略,创新性地提出了利用对抗学习策略来优化梯度。目的在于让分类器致力于最小化语义相似性的同时,特征提取器最大化语义相似性,当二者达到一个平衡时,二维图像残差特征与多视角目标残差特征间的语义一致性会得到最大提升,进一步地提升基于特征的多视角目标网站检索性能。
因此,上述语义一致性约束形式由:
Figure 932672DEST_PATH_IMAGE111
(19)
转变为:
Figure 621536DEST_PATH_IMAGE112
(20)
208:将201-207所得的检索方法应用在网站检索中,输出最终的检索结果。
其中,该步骤208包括:
利用跨域多视角目标检索数据库训练201-207检索方法,将训练好的检索方法形成检索程序Q,当得到一个输入X时,返回输入的特征Q(X):
通过检索程序计算数据库中所有的多视角目标特征Q(XT),并将其保存在后端;
网站前端获取查询图像,并将其传输至网站后端;网站后端接收到查询图像Xs,并将其输入到检索程序中处理得到查询图像特征Q(Xs);
网站后端将获得的查询图像特征Q(Xs)和数据库中所有多视角目标特征Q(XT)进行距离计算并排序,得到查询图像的多视角目标检索结果序列,并将检索结果传输至前端;网站前端将其展示给用户。
综上所述,本发明实施例通过上述步骤201-208利用变分编码器-解码器结构生成尽可能相似的输入样本,并将其和原始输入样本相减得到残差样本,探索网站检索学习所需的最少必要信息,有效的避免了原始输入复杂背景以及噪声带来的干扰问题,提升了网站检索的鲁棒性。
实施例3
下面结合具体的算例对实施例1和2中的方案进行可行性验证,详见下文描述:
1、网站检索介绍
本发明实例构建了一个跨域多视角目标网站检索来评估实例的可行性,如图3所示,前端页面主要包含:搜索框,检索按钮以及结果展示三个部分。后端包含已经用跨域多视角目标检索数据库训练好的本发明实例检索程序,以及两个常用的跨域多视角目标检索数据库(MI3DOR,MI3DOR-2)的测试数据。网站检索可以实现在前端页面通过搜索框选中一个二维图像,点击检索按钮将二维图像发送给后端,后端接收图像并将其输入到检索程序中,检索程序计算二维图像特征,并进行对数据库里所有多视角目标特征的检索,并将检索到的结果发送至网站检索前端,由前端通过结果展示部分来展示检索结果。
2、数据集:
本发明实施例在两个常用的跨域多视角目标检索数据集(MI3DOR-1,MI3DOR-2)来训练提出的检索方法。MI3DOR-1是跨域多视角目标检索领域中最常用的数据集,包含有21000张二维图像和7690个多视角目标,总共21个类别。MI3DOR-2数据集包含有40个类别,训练集中包含有3182个多视角目标和19294个图像,测试集中包含有400个二维图像和800个多视角目标。
3、网站检索测试
本发明实施例采用飞机图像作为查询图像,上传查询图像并点击检索后,网站返还检索结果如图4所示。可以看到,本发明实施例可以有效的检索到和飞机相关的多视角目标,并给出正确排序,充分证明了本发明实施例的有效性。
4、综合评价
本发明实施例在两个常用数据库的所有样例上测试,对提出的检索方法进行评价。其中本发明施例采用检索领域常见的6个指标,包含有最近邻(NN)、第一梯队正确率(FT)、第二梯队正确率(ST)、F分数(F)、累计收益(DCG)、及平均归一化检索秩(ANMRR)。除ANMRR外,其余指标都是值越高,性能越好。
表1展示了本发明实施例和流行的对比方法在MI3DOR-1数据集上的检索性能对比。从结果可以看出,本发明实施例在大多数评价指标上优于所有对比方法。具体来讲,本发明实施例在FT、ST、DCG和ANMRR上取得了0.676,0.813,0.694,0.311的指标结果,都明显优于所有对比方法的最高当前指标值(0.652,0.791,0.683,0.331)。虽然在NN指标上,本发明实施例低于CCS+IST方法,但在MI3DOR-2数据集上本发明实施例在所有指标上都远优于CCS+IST,这正说明了本发明实施例在不同数据集上都有较好的泛化能力。
表2展示了本发明实施例和流行方法在MI3DOR-2数据集上的检索性能对比,其中在所有指标上都远优于所有对比方法,展示了本发明实施例的性能优越性。
表1 在MI3DOR-1数据集上的性能对比
Figure 341230DEST_PATH_IMAGE114
表2 在MI3DOR-2数据集上的性能对比
Figure 323093DEST_PATH_IMAGE116
实施例4
一种基于残差语义一致性跨域多视角目标网站检索装置,参见图5,该装置包括:
提取模块,用于将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
计算融合特征模块,用于基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建与检测模块,用于构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
第一语义一致性模块,用于计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
第二语义一致性模块,用于以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
提升模块,用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;
检索模块,用于将最终约束结果应用在网站检索中,输出最终的检索结果。
综上所述,本发明实施例通过在概率空间中挖掘二维图像和多视角目标类别中心概率分布
Figure 597079DEST_PATH_IMAGE117
Figure 384907DEST_PATH_IMAGE118
间的语义一致性,来缓解常规约束在特征空间会扰乱原有特征结构的弊端;挖掘二维图像类别中心和二维图像、多视角目标间的语义一致性,来增强检索网站编码器鉴别性特征表达能力和域不变特征表达能力,解决了检索网站忽略多样性样本的低鲁棒问题;最后利用对抗学习将概率空间中的语义一致性聚焦在特征空间中,提升了二维图像残差特征与多视角目标残差特征间的语义关系,增强了网站检索能力。
实施例5
一种基于残差语义一致性跨域多视角目标网站检索装置,参见图6,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行实施例1中的以下方法步骤:
将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出最终的检索结果。
其中,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征具体为:
对于第i个二维图像残差特征,和所有二维图像特征的融合特征为:
Figure 395326DEST_PATH_IMAGE119
其中,“
Figure 344827DEST_PATH_IMAGE051
”为Hadamard乘积,
Figure 637268DEST_PATH_IMAGE120
为第j个二维图像残差特征,
Figure 697628DEST_PATH_IMAGE121
为第i个二维图像残差特征,U、V为参数量为
Figure 329598DEST_PATH_IMAGE122
的可训练矩阵,W为参数量为
Figure 715580DEST_PATH_IMAGE123
的可训练映射矩阵,b为可训练偏置项,N为当前训练批次样本数,d为融合前输入特征维度,
Figure 964158DEST_PATH_IMAGE124
表示融合后生成N个特征维度为d的融合特征,c为转置,N为当前训练批次样本数;d2为中间映射维度;
Figure 527077DEST_PATH_IMAGE125
为第i个二维图像和当前批次所有二维图像的融合特征;
将第j个二维图像残差特征
Figure 810291DEST_PATH_IMAGE120
改为第j个多视角目标残差特征
Figure 367174DEST_PATH_IMAGE126
,即:
Figure 306311DEST_PATH_IMAGE127
其中,
Figure 974053DEST_PATH_IMAGE128
为第i个二维图像和当前批次所有多视角目标的融合特征。
其中,构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布具体为:
分布一致性检测器包括2个线性映射层
Figure 377352DEST_PATH_IMAGE129
和1个线性判断层
Figure 541355DEST_PATH_IMAGE130
,计算两个输入特征分布一致性得分为:
Figure 764526DEST_PATH_IMAGE131
其中,
Figure 501538DEST_PATH_IMAGE121
为第i个二维图像残差特征,
Figure 697027DEST_PATH_IMAGE132
表示匹配得分向量
Figure 595713DEST_PATH_IMAGE133
维度为1;
匹配得分
Figure 10907DEST_PATH_IMAGE134
的融合特征,符合单峰分布;利用交叉熵损失来约束分布,用于使融合特征的概率分布熵最小化;
匹配得分
Figure 286031DEST_PATH_IMAGE135
的融合特征,利用基于掩码的交叉熵损失来约束双峰分布:
Figure 132764DEST_PATH_IMAGE137
Figure 405614DEST_PATH_IMAGE139
其中,
Figure 337797DEST_PATH_IMAGE140
为双峰分布约束,
Figure 416612DEST_PATH_IMAGE141
为融合前的2个不同样本的类别标签,
Figure 819649DEST_PATH_IMAGE142
Figure 60138DEST_PATH_IMAGE143
的独热编码,
Figure 745197DEST_PATH_IMAGE144
为点积,
Figure 299806DEST_PATH_IMAGE145
表示在融合特征概率分布中将第一个类别标签
Figure 121132DEST_PATH_IMAGE143
的值置为0;
Figure 798101DEST_PATH_IMAGE068
为交叉熵计算;
Figure 704877DEST_PATH_IMAGE146
为融合特征
Figure 558782DEST_PATH_IMAGE147
的概率分布;
Figure 500194DEST_PATH_IMAGE148
为表示在融合特征概率分布中将第二个类别标签
Figure 285747DEST_PATH_IMAGE149
的值置为0。
进一步地,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性为:
Figure 679819DEST_PATH_IMAGE150
其中,
Figure 638548DEST_PATH_IMAGE151
分别为二维图像和多视角目标第k个类别中心概率分布,“O”为避免梯度消失的尺度系数,K为类别总数,
Figure 136263DEST_PATH_IMAGE152
为类别中心语义一致性约束;
Figure 623876DEST_PATH_IMAGE153
为线性分类器,G为特征提取器,JS为散度。
其中,以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性为:
构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束
Figure 770824DEST_PATH_IMAGE154
Figure 470927DEST_PATH_IMAGE155
其中,
Figure 386930DEST_PATH_IMAGE156
为所有二维图像样本,
Figure 311024DEST_PATH_IMAGE157
为第i个二维图像的概率分布,
Figure 414109DEST_PATH_IMAGE158
表示第i个二维图像必须属于第k个类别,S为二维图像;
Figure 153788DEST_PATH_IMAGE159
为第i个二维图像样本和对应的标签;
构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束
Figure 189877DEST_PATH_IMAGE160
Figure 284872DEST_PATH_IMAGE162
其中,
Figure 78516DEST_PATH_IMAGE163
为所有多视角目标,
Figure 182738DEST_PATH_IMAGE164
为第j个多视角目标的概率分布,
Figure 807754DEST_PATH_IMAGE107
为第j个多视角目标的伪标签,
Figure 775448DEST_PATH_IMAGE108
为伪标签筛选阈值,
Figure 118705DEST_PATH_IMAGE165
为第j个多视角目标属于第k个类别的概率值,S为二维图像,T为多视角目标。
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
本发明实施例对各器件的型号除做特殊说明的以外,其它器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述方法包括:
将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出最终的检索结果。
2.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征具体为:
Figure 175701DEST_PATH_IMAGE001
其中,“
Figure 722220DEST_PATH_IMAGE002
”为Hadamard乘积,
Figure 771079DEST_PATH_IMAGE003
为第j个二维图像残差特征,
Figure 719444DEST_PATH_IMAGE004
为第i个二维图像残差特征,U、V为参数量为
Figure 386267DEST_PATH_IMAGE005
的可训练矩阵,W为参数量为
Figure 747979DEST_PATH_IMAGE006
的可训练映射矩阵,b为可训练偏置项,N为当前训练批次样本数,d为融合前输入特征维度,
Figure 397266DEST_PATH_IMAGE007
表示融合后生成N个特征维度为d的融合特征,c为转置,N为当前训练批次样本数;d2为中间映射维度;
Figure 465716DEST_PATH_IMAGE008
为第i个二维图像和当前批次所有二维图像的融合特征;
将第j个二维图像残差特征
Figure 745519DEST_PATH_IMAGE003
改为第j个多视角目标残差特征
Figure 765165DEST_PATH_IMAGE009
,即:
Figure 483722DEST_PATH_IMAGE010
其中,
Figure 468996DEST_PATH_IMAGE011
为第i个二维图像和当前批次所有多视角目标的融合特征。
3.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布具体为:
分布一致性检测器包括2个线性映射层
Figure 654121DEST_PATH_IMAGE012
和1个线性判断层
Figure 163993DEST_PATH_IMAGE013
,计算两个输入特征分布一致性得分为:
Figure 420662DEST_PATH_IMAGE015
其中,
Figure 401387DEST_PATH_IMAGE004
为第i个二维图像残差特征,
Figure 819730DEST_PATH_IMAGE016
表示匹配得分向量
Figure 79548DEST_PATH_IMAGE017
维度为1;
匹配得分
Figure 936646DEST_PATH_IMAGE018
的融合特征,符合单峰分布;利用交叉熵损失来约束分布,用于使融合特征的概率分布熵最小化;
匹配得分
Figure 771877DEST_PATH_IMAGE019
的融合特征,利用基于掩码的交叉熵损失来约束双峰分布:
Figure 829963DEST_PATH_IMAGE020
Figure 42989DEST_PATH_IMAGE021
其中,
Figure 641461DEST_PATH_IMAGE022
为双峰分布约束,
Figure 721412DEST_PATH_IMAGE023
为融合前的2个不同样本的类别标签,
Figure 747137DEST_PATH_IMAGE024
Figure 951853DEST_PATH_IMAGE025
的独热编码,
Figure 790234DEST_PATH_IMAGE026
为点积,
Figure 662375DEST_PATH_IMAGE027
表示在融合特征概率分布中将第一个类别标签
Figure 593422DEST_PATH_IMAGE025
的值置为0;
Figure 973850DEST_PATH_IMAGE028
为交叉熵计算;
Figure 976441DEST_PATH_IMAGE029
为融合特征
Figure 437509DEST_PATH_IMAGE030
的概率分布;
Figure 70616DEST_PATH_IMAGE031
为表示在融合特征概率分布中将第二个类别标签
Figure 453187DEST_PATH_IMAGE032
的值置为0,
Figure 427178DEST_PATH_IMAGE033
为融合特征。
4.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性为:
Figure 336229DEST_PATH_IMAGE034
其中,
Figure 609078DEST_PATH_IMAGE035
分别为二维图像和多视角目标第k个类别中心概率分布,“O”为避免梯度消失的尺度系数,K为类别总数,
Figure 541262DEST_PATH_IMAGE036
为类别中心语义一致性约束;
Figure 761022DEST_PATH_IMAGE037
为线性分类器,G为特征提取器,JS为散度。
5.根据权利要求4所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性为:
构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束
Figure 960797DEST_PATH_IMAGE038
Figure 998023DEST_PATH_IMAGE039
其中,
Figure 151924DEST_PATH_IMAGE040
为所有二维图像样本,
Figure 175375DEST_PATH_IMAGE041
为第i个二维图像的概率分布,
Figure 731121DEST_PATH_IMAGE042
表示第i个二维图像必须属于第k个类别,S为二维图像;
Figure 939248DEST_PATH_IMAGE043
为第i个二维图像样本和对应的标签;
构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束
Figure 81910DEST_PATH_IMAGE044
Figure 643472DEST_PATH_IMAGE046
其中,
Figure 647201DEST_PATH_IMAGE047
为所有多视角目标,
Figure 963912DEST_PATH_IMAGE048
为第j个多视角目标的概率分布,
Figure 30088DEST_PATH_IMAGE049
为第j个多视角目标的伪标签,
Figure 956194DEST_PATH_IMAGE050
为伪标签筛选阈值,
Figure 548849DEST_PATH_IMAGE051
为第j个多视角目标属于第k个类别的概率值,S为二维图像,T为多视角目标。
6.一种基于残差语义一致性跨域多视角目标网站检索装置,其特征在于,所述装置包括:
提取模块,用于将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
计算融合特征模块,用于基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建与检测模块,用于构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
第一语义一致性模块,用于计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
第二语义一致性模块,用于以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
提升模块,用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;
检索模块,用于将最终约束结果应用在网站检索中,输出最终的检索结果。
7.一种基于残差语义一致性跨域多视角目标网站检索装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
CN202211671546.0A 2022-12-26 2022-12-26 基于残差语义一致性跨域多视角目标网站检索方法及装置 Active CN115640418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211671546.0A CN115640418B (zh) 2022-12-26 2022-12-26 基于残差语义一致性跨域多视角目标网站检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211671546.0A CN115640418B (zh) 2022-12-26 2022-12-26 基于残差语义一致性跨域多视角目标网站检索方法及装置

Publications (2)

Publication Number Publication Date
CN115640418A true CN115640418A (zh) 2023-01-24
CN115640418B CN115640418B (zh) 2023-04-07

Family

ID=84949839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211671546.0A Active CN115640418B (zh) 2022-12-26 2022-12-26 基于残差语义一致性跨域多视角目标网站检索方法及装置

Country Status (1)

Country Link
CN (1) CN115640418B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953780A (zh) * 2023-03-10 2023-04-11 清华大学 一种基于多视角信息融合的多维光场复杂场景图构建方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
US20190371080A1 (en) * 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
CN113240012A (zh) * 2021-05-14 2021-08-10 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN113421269A (zh) * 2021-06-09 2021-09-21 南京瑞易智能科技有限公司 一种基于双分支深度卷积神经网络的实时语义分割方法
CN113515657A (zh) * 2021-07-06 2021-10-19 天津大学 一种跨模态多视角目标检索方法及装置
CN114201960A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于情感属性挖掘的图像情感分析方法
CN114863194A (zh) * 2022-07-11 2022-08-05 北京邮电大学 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190371080A1 (en) * 2018-06-05 2019-12-05 Cristian SMINCHISESCU Image processing method, system and device
CN110322446A (zh) * 2019-07-01 2019-10-11 华中科技大学 一种基于相似性空间对齐的域自适应语义分割方法
CN113240012A (zh) * 2021-05-14 2021-08-10 天津大学 一种基于二维图像的无监督多视角三维目标检索方法及装置
CN113421269A (zh) * 2021-06-09 2021-09-21 南京瑞易智能科技有限公司 一种基于双分支深度卷积神经网络的实时语义分割方法
CN113515657A (zh) * 2021-07-06 2021-10-19 天津大学 一种跨模态多视角目标检索方法及装置
CN114201960A (zh) * 2021-11-23 2022-03-18 上海大学 一种基于情感属性挖掘的图像情感分析方法
CN114863194A (zh) * 2022-07-11 2022-08-05 北京邮电大学 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIUANAN: "Self-Supervised Auxiliary Domain Alignment for Unsupervised 2D Image-Based 3D Shape Retrieval" *
宣瑞晟: "基于语义一致生成对抗网络的跨模态检索" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953780A (zh) * 2023-03-10 2023-04-11 清华大学 一种基于多视角信息融合的多维光场复杂场景图构建方法

Also Published As

Publication number Publication date
CN115640418B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
Yuan et al. Exploring a fine-grained multiscale method for cross-modal remote sensing image retrieval
CN111476294A (zh) 一种基于生成对抗网络的零样本图像识别方法及系统
CN114330354B (zh) 一种基于词汇增强的事件抽取方法、装置及存储介质
CN111027576B (zh) 基于协同显著性生成式对抗网络的协同显著性检测方法
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
CN115017358A (zh) 一种多模态交互的跨模态检索方法及系统
CN118132803B (zh) 一种零样本视频时刻检索方法、系统、设备及介质
CN113704392A (zh) 文本中实体关系的抽取方法、装置、设备及存储介质
CN113868459A (zh) 模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
Abdar et al. A review of deep learning for video captioning
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN117011737A (zh) 一种视频分类方法、装置、电子设备和存储介质
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
Nam et al. A survey on multimodal bidirectional machine learning translation of image and natural language processing
CN115640418B (zh) 基于残差语义一致性跨域多视角目标网站检索方法及装置
CN117891939A (zh) 粒子群算法结合cnn卷积神经网络的文本分类方法
CN117217807B (zh) 一种基于多模态高维特征的不良资产估值方法
Chen et al. Enhancing visual question answering through ranking-based hybrid training and multimodal fusion
Chen et al. Multiscale Salient Alignment Learning for Remote Sensing Image-Text Retrieval
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN116503127A (zh) 模型训练方法、检索方法及相关装置
Huang et al. Cross-Modal Remote Sensing Image-Audio Retrieval with Adaptive Learning for Aligning Correlation
CN117351382A (zh) 视频对象定位方法及其装置、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
OL01 Intention to license declared
OL01 Intention to license declared