CN115640418A - 基于残差语义一致性跨域多视角目标网站检索方法及装置 - Google Patents
基于残差语义一致性跨域多视角目标网站检索方法及装置 Download PDFInfo
- Publication number
- CN115640418A CN115640418A CN202211671546.0A CN202211671546A CN115640418A CN 115640418 A CN115640418 A CN 115640418A CN 202211671546 A CN202211671546 A CN 202211671546A CN 115640418 A CN115640418 A CN 115640418A
- Authority
- CN
- China
- Prior art keywords
- dimensional image
- view target
- residual
- distribution
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000009826 distribution Methods 0.000 claims abstract description 167
- 230000004927 fusion Effects 0.000 claims abstract description 76
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000011176 pooling Methods 0.000 claims description 19
- 230000002902 bimodal effect Effects 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012733 comparative method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001076939 Artines Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于残差语义一致性跨域多视角目标网站检索方法及装置,方法包括:当检测融合特征和融合前二维图像残差特征为一致性分布,构建单峰分布约束;计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出检索结果。装置包括:处理器和存储器。
Description
技术领域
本发明涉及跨域多视角目标网站检索领域,尤其涉及一种基于残差语义一致性跨域多视角目标网站检索方法及装置。
背景技术
近些年,随着虚拟现实、数字娱乐、计算机设计等领域的快速发展,多视角数据得到了爆发式的增长,如何管理及检索这些数据成为了一个急需解决的任务。当前的多视角目标网站大都需要用户提前获取一个多视角目标,然后才能实现对目标数据的检索,这种以多视角目标去检索的方式限制了网站的实用性。现实生活中,人们更倾向于使用随处可见的二维图像而不是获取困难的多视角目标作为搜寻对象。此外,当前已有的网站检索引擎都较多依赖于大量带标签数据的监督学习,然而对多视角目标打标签是一件十分耗时和昂贵的任务。在这种情况下,利用二维图像检索多视角目标的无监督跨域检索场景应运而生,简称为无监督跨域多视角目标检索。
无监督跨域多视角目标网站检索的目标是在用户输入一个二维图像查询样本后,检索引擎能够返回一系列和查询样本相似的多视角目标,其对应的科学问题为如何在特征空间中匹配相同类别的带标签二维图像特征和不含标签的多视角目标特征。为了缓解二维图像和多视角目标之间的巨大数据分布差异,通常的做法是利用对抗学习或者信息熵来对齐二维图像和多视角目标的全局数据分布。然而这类方法的主要限制在于学习域不变表征的同时忽略了类别中的语义信息,例如,多视角飞机的特征可能会被映射到汽车图像特征附近,导致了网站检索错误。这个问题经常被许多工作利用多视角目标伪标签引导的类级别对齐来缓解。然而,该类方法经常受到伪标签噪声的问题,如果没有充分的筛选过滤措施常常会导致匹配偏差。
为了消除噪声伪标签带来的匹配偏差问题,类别中心作为一个鲁棒的语义表征,经常被利用作为一个额外的监督信号来引导匹配过程。通常的策略就是约束二维图像和多视角目标相同类别特征中心间的一致性。然而,这类方法面临着以下四个问题:
1)原有方法都是直接编码具有复杂背景和干扰的查询图像和多视角目标,然而由于多视角目标缺乏标签,所以任何噪声和干扰的引入都会对多视角目标的特征学习产生误导,进而降低网站的检索精度;
2)原有方法通常直接利用带噪声的伪标签来辅助训练,忽略了带标签二维图像特征所包含的隐式信息,通过利用带标签二维图像特征和无标签多视角目标特征的交互,可以大幅度减弱直接利用强硬伪标签所带来的检索网站匹配偏差问题;
3)常规的类别中心特征一致性对齐损失已经被证明是一个次优解,指出仅仅在特征空间中维持特征间的一致性可能会扰乱原有的数据结构,因此降低了数据表征能力进而影响网站检索精度;
4)仅仅约束二维图像和多视角目标类别中心特征间的一致性会严重忽视样本中的多样性,使得检索网站倾向于过拟合,进而降低利用新样本检索多视角目标的准确度。
发明内容
本发明提供了一种基于残差语义一致性跨域多视角目标网站检索方法及装置,本发明将残差图像作为输入,减少冗余背景信息的引入;通过改进双线性池化,融合二维图像-多视角目标特征,并设计了一个分布一致性检测器来对融合特征进行检测及约束,利用二维图像残差特征隐式信息帮助多视角目标特征的学习;同时利用JS散度探索二维图像类别中心和多视角目标类别中心,二维图像,多视角目标间在概率空间中的语义一致性,避免直接约束造成的特征结构损坏,同时提高了网站的检索精度,满足了实际应用中的多种需要,详见下文描述:
第一方面,一种基于残差语义一致性跨域多视角目标网站检索方法,所述方法包括:
将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出最终的检索结果。
第二方面,一种基于残差语义一致性跨域多视角目标网站检索装置,所述装置包括:
提取模块,用于将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
计算融合特征模块,用于基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建与检测模块,用于构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
第一语义一致性模块,用于计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
第二语义一致性模块,用于以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
提升模块,用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;
检索模块,用于将最终约束结果应用在网站检索中,输出最终的检索结果。
第三方面、一种基于残差语义一致性跨域多视角目标网站检索装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面的方法步骤。
第四方面、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面的任方法步骤。
本发明提供的技术方案的有益效果是:
1、本发明利用变分编码器-解码器结构生成尽可能相似的输入样本,并将其和原始输入样本相减得到残差样本,探索网站检索所需的最少必要信息,有效的避免了原始输入复杂背景以及噪声带来的干扰问题,提升了网站检索的鲁棒性;
2、本发明通过改进型双线性池化将每一个二维图像残差特征和所有多视角目标残差特征融合,并设计一个分布一致性检测器来判断融合前后是否为同分布,若为同分布,则融合特征的概率分布应符合单峰分布;若非同分布,则融合特征的概率分布应符合双峰分布;通过改进型双线性池化探索二维图像残差特征的隐式信息,可以从数据本身挖掘二维图像和多视角目标的关联信息,大幅度缓解由于噪声伪标签引起的检索网站匹配偏差问题;
3、本发明通过将类别中心特征映射到概率空间中,并利用JS(Jenson’s Shannon)散度构建语义一致性,有效的缓解了常规特征一致性约束导致的原有特征结构损坏的问题,提高了检索网站的数据表征能力;
4、本发明通过探索二维图像类别中心与二维图像、多视角目标的语义一致性,极大缓解了检索网站对多样性样本缺乏关注导致的低可靠性问题,使得检索网站更加鲁棒;其中二维图像类别中心与二维图像之间的语义一致性构建能够有效增强检索网站编码器的鉴别性特征表达能力;二维图像类别中心与多视角目标之间的语义一致性构建能够有效增强检索网站编码器的域不变特征表达能力;
5、本发明通过构建检索网站的特征编码器与分类器之间的对抗训练,有效的将概率空间中的语义一致性约束聚焦在特征空间中,提升了二维图像残差特征和多视角目标残差特征之间的语义相关性,进而提升网站检索多视角目标的精度。
附图说明
图1为一种基于残差语义一致性跨域多视角目标网站检索方法的流程图;
图2为基于残差语义一致性跨域多视角目标网站检索方法的网络结构图;
图3为多视角目标检索网站主页面;
图4为基于飞机图像检索到的结果页面;
图5为一种基于残差语义一致性跨域多视角目标网站检索装置的结构示意图;
图6为一种基于残差语义一致性跨域多视角目标网站检索装置的另一结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于残差语义一致性跨域多视角目标网站检索方法,参见图1,该方法主要包括以下步骤:
其中,该步骤101包括:
其中,尽可能相似的样本为:原始二维图像和生成的二维图像类似;原始多视角目标和生成的多视角目标尽可能相似。将原始二维图像和原始多视角目标统称为原始输入X。将生成的二维图像和生成的多视角目标统称为生成输入G(X)。
其中,本发明实施例采用的输入是2个分支,1个分支是二维图像,另一个分支是多视角目标。本发明实施例第一步是重建2个分支的图像获得输入残差,所以二维图像残差和多视角目标残差图像序列均是检索系统的最终输入。
其中,该步骤102包括:
现有方法仅仅是利用分类器对于多视角目标的伪标签作为参考,严重忽视了包含大量隐式信息的二维图像残差特征。为此,本发明实施例创新性的提出将二维图像残差特征和多视角目标残差特征融合的方式,进一步地利用二维图像残差特征隐式信息来辅助多视角目标的迁移适应,大幅度缓解由于噪声伪标签引起的检索网站的匹配偏差问题。
其中,该步骤103包括:
104:构建分布一致性检测器,检测融合特征、和融合前二维图像残差特征是否为一致性分布,若为一致性分布,则该融合特征概率分布符合单峰分布,构建单峰分布约束;若非一致性分布,则为融合特征概率分布构建双峰分布约束。
其中,该步骤104包括:
利用2个线性映射层和1个线性判断层来构建分布一致性检测器,判断两个输入残差特征是否为同类分布。
对于融合特征和融合前的二维图像残差特征,将其输入到分布一致性检测器,当输出得分>0.5时,则判断两者同分布,即融合的两个特征属于同一类别,则该融合特征概率分布应当符合单峰分布。若输出得分<=0.5,则判断两者非同分布,即融合的两个特征属于异类,则该融合特征概率分布应当符合双峰分布。
对于概率分布属于单峰分布即概率分布仅存在一个最大值,可以用传统的交叉熵损失来约束优化。概率分布属于双峰分布即存在且仅有2个最大概率值,为此,本发明实施例改进性地设计了一个基于掩码的交叉熵损失来约束优化。
现有技术仅通过常规的类别中心对齐方法在特征空间中直接约束语义一致性,扰乱了数据特征原有结构。于是本方法改进性地提出将类别中心映射到概率空间中,并利用JS散度构建语义一致性,然后利用对抗学习将语义约束转移至特征空间中,有效避免了直接约束导致的原有结构损坏问题,提高了检索网站的数据表征能力。
其中,该步骤105包括:
3)在概率空间中,利用JS散度构建二维图像类别中心和多视角目标类别中心的概率分布语义一致性,增强编码器的语义特征表达能力。
现有技术仅仅通过类别中心来挖掘语义一致性,忽略了样本级别的多样性信息,这样容易让检索网站过拟合,鲁棒性低。本发明实施例提出探索二维图像类别中心与二维图像、多视角目标间的语义关系,增强检索网站特征编码器的鉴别性特征表达能力及域不变特征表达能力,进一步改善检索网站的鲁棒性。
106:以二维图像类别中心为基准,探索其与二维图像和多视角目标在概率空间中的语义一致性;
其中,该步骤106包括:
在概率空间中,利用JS散度构建二维图像类别中心和其相同标签的所有二维图像的概率分布语义一致性,增强编码器的鉴别性特征表达能力;
在概率空间中,利用JS散度构建二维图像类别中心和其伪标签相同且置信度大于固定阈值的所有多视角目标的概率分布语义一致性,增强编码器的域不变特征表达能力。
以上所述都是在概率空间中约束语义一致性,然而该发明所属任务跨域多视角目标检索目的在于特征空间中的检索,故本发明实施例提出利用对抗学习将语义约束从概率空间转移至特征空间,提升二维图像残差特征与多视角目标残差特征间的语义一致性,进而提升网站检索多视角目标的精度。
107:通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征与多视角目标残差特征间的语义一致性约束;
其中,该步骤107包括:
分类器致力于最小化语义相似性的同时,使得特征提取器致力于最大化语义相似性,形成特征提取器和分类器对抗局面,当分类器和特征提取器达到平衡时,二维图像残差特征与多视角目标残差特征间的语义一致性得到最大提升,来进一步地提升基于特征的多视角目标的网站检索精度。
108:将步骤107的最终约束结果应用在网站检索中,输出最终的检索结果。
其中,该步骤108包括:
利用跨域多视角目标检索数据库训练101-107检索方法,将训练好的方法形成检索程序;
利用检索程序计算数据库中所有多视角的目标特征并保存在网站后端;
网站前端获取查询图像,并将其传输至网站后端;网站后端接收到查询图像,并将其输入到检索程序中处理得到查询图像特征;
网站后端将获得的查询图像特征和数据库中所有多视角目标特征进行距离计算并排序,得到查询图像的多视角目标检索结果序列,并将检索结果其传输至前端;网站前端将其展示给用户。
综上所述,本发明实施例利用变分编码器-解码器结构生成尽可能相似的输入样本G(X),并将其和原始输入样本X相减得到残差样本X-G(X),探索网站检索学习所需的最少必要信息,来缓解原有方法直接编码原始输入导致复杂背景和噪声被引入的问题;通过利用改进型双线性池化计算二维图像-二维图像和二维图像-多视角目标融合特征和,进而构建分布一致性检测器,检测融合特征、和融合前二维图像残差特征是否为一致性分布,然后利用不同分布设计不同的概率约束,充分利用二维图像残差特征的隐式信息来辅助多视角目标的特征学习,来缓解噪声为标签带来的检索网站匹配偏差问题;通过在概率空间中挖掘二维图像和多视角目标类别中心概率分布和间的语义一致性,来缓解常规约束在特征空间会扰乱原有特征结构的弊端;挖掘二维图像类别中心和二维图像、多视角目标间的语义一致性,来增强检索网站编码器鉴别性特征表达能力和域不变特征表达能力,解决了检索网站忽略多样性样本的低鲁棒问题;最后利用对抗学习将概率空间中的语义一致性聚焦在特征空间中,提升了二维图像残差特征与多视角目标残差特征间的语义关系,增强了网站的检索能力。
实施例2
下面结合具体的实例、计算公式对实施例1中的方案进行进一步地介绍,详见下文描述:
其中,本发明实施例围绕多视角目标质心平台,在其周围放置12个虚拟相机,每个相机间隔30°。根据每个虚拟相机获取一个视角图像,生成多视角目标图像序列。
其中,本发明实施例利用变分编码器-解码器结构作为检索网站的残差生成模型,该残差生成模型由参数组成的编码器包括:两个初始卷积以及两个残差卷积块,用于产生潜在变量z的后验分布;由参数组成的解码器包括:两个残差卷积模块以及两个反卷积模块,用于产生数据似然估计。
将原始输入样本与生成输入样本相减得到二维图像残差样本以及多视角目标残差图像序列。
在上述过程中,本发明实施例对编码器和解码器的输出进行约束如下:
其中,为促使编码器解耦隐式表征的先验知识,为测量后验分布和先验分布差异程度的KL散度,为平衡重建损失和先验约束的超参数。整体约束可以看作为编码解码过程中的数据边缘似然估计,目的在于重建输入样本过程中同时保证KL散度的互信息约束。
其中,本发明实施例采用AlexNet框架作为本发明实施例的特征编码器,该模型包含5个卷积层和3个全连接层。为了获取语义集中度高的样本特征,本发明实施例在第2个全连接层后拼接一个瓶颈层,维度为256维,并将此瓶颈层得到的特征作为二维图像残差特征。
本发明实施例利用视图池化技术将残差图像序列特征融合成一个特征描述图:
现有方法仅仅是利用分类器对于多视角目标的伪标签作为参考,严重忽视了包含大量隐式信息的二维图像残差特征。为此,本发明实施例创新性的提出将二维图像残差特征和多视角目标残差特征融合的方式,进一步地利用二维图像残差特征隐式信息来辅助多视角目标的迁移适应,大幅度缓解由于噪声伪标签引起的检索网站的匹配偏差问题。
其中,为偏置项,d为融合前特征维度,为可训练矩阵参数,为第i个二维图像残差特征,为维第j个二维图像残差特征,c为转置符号,N为当前训练批次样本数,为表示融合后生成N个特征维度为的融合特征。为了降低直接双线性池化造成的特征高维特性,本发明实施例根据现有技术中所说的,其中,,为映射输出维度,将上述融合特征表达替换为:
在上述计算中,输出维度的通常范围是,虽然相比于优化前获得了大幅度降低,但是其维度仍然远高于输入特征,为了继续降低输出维度,本发明实施例针对上述公式进行改进,提出利用一个可训练映射矩阵来取代,大幅度降低输出特征的维度,则上述表达可更改为:
204:构建分布一致性检测器,检测融合特征、和融合前二维图像残差特征是否为一致性分布,若为一致性分布,则该融合特征概率分布符合单峰分布,构建单峰分布约束;若非一致性分布,则为融合特征概率分布构建双峰分布约束;
进一步地,对于匹配得分的融合特征,本发明实施例认为融合的两个残差特征、属于相同类别,则融合特征概率分布应符合单峰分布。相反,对于的融合特征,本发明实施例认为融合前两个残差特征属于不同类别,则融合特征概率分布应符合双峰分布。
进一步地,概率分布属于单峰分布是指,融合特征的概率分布有且仅有一个最大值,则可以利用传统的交叉熵损失来约束其分布:
进一步地,概率分布属于双峰分布是指,融合特征是由两个不同类别的特征融合而成,则融合特征的概率分布应该有且仅有两个最大值,则本发明实施例创新性的设计了一个基于掩码的交叉熵损失来约束其分布:
其中,为双峰分布约束,为融合前的2个不同特征的类别标签,为的独热编码,为点积,表示在融合特征概率分布中将第一个类别标签的值置为0,为交叉熵计算;为融合特征的概率分布;为表示在融合特征概率分布中将第二个类别标签的值置为0对于二维图像和多视角目标融合的情况中,多视角目标样本不含真实标签,本发明实施例利用融合特征概率分布中除去后最大的概率索引作为其第2个类别标签,即。
现有技术仅通过常规的类别中心对齐方法在特征空间中直接约束语义一致性,扰乱了数据特征原有结构。于是本方法改进性地提出将类别中心映射到概率空间中,并利用JS散度构建语义一致性,然后利用对抗学习将语义约束转移至特征空间中,有效避免了直接约束导致的原有结构损坏问题,提高了检索网站的数据表征能力。
首先,利用二维图像标签计算出所有二维图像的类别中心特征;利用分类器对多视角目标分配伪标签,进而利用多视角目标伪标签计算出所有多视角目标的类别中心特征:
进一步地,将二维图像和多视角目标所有类别中心特征通过分类器获取类别中心的概率分布。
进一步地,本发明实施例提出利用JS散度构建类别中心间的语义一致性约束:
其中,为二维图像和多视角目标第k个类别中心概率分布,O为避免梯度消失的尺度系数,K为类别总数,为类别中心语义一致性约束。该模块目的在于让二维图像和多视角目标的相同类别中心在概率空间中的分布应尽可能地保持一致,同时避免直接约束导致原有特征结构信息被干扰的风险。
现有技术仅仅通过类别中心来挖掘语义一致性,忽略了样本级别的多样性信息,这样容易让检索网站过拟合,鲁棒性低。本发明实施例提出探索二维图像类别中心与二维图像、多视角目标间的语义关系,增强检索网站特征编码器的鉴别性特征表达能力及域不变特征表达能力,进一步改善检索网站的鲁棒性。
206:以二维图像类别中心为基准,探索其与二维图像和多视角目标在概率空间中的语义一致性;
为了让检索网站特征编码器更加关注样本的核心语义,本发明实施例构建二维图像类别中心与相同类别的所有二维图像间的语义一致性约束:
为了让检索网站编码器学习到域不变特征表示,本发明实施例同时构建二维图像类别中心与相同类别的所有多视角目标间的语义一致性约束:
以上所述都是在概率空间中约束语义一致性,然而该发明所属任务跨域多视角目标检索目的在于特征空间中的检索,故本发明实施例提出利用对抗学习将语义约束从概率空间转移至特征空间,提升二维图像残差特征与多视角目标残差特征间的语义一致性,进而提升网站检索多视角目标的精度。
207:通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征与多视角目标残差特征间的语义一致性约束;
其中,以上的语义约束聚焦在概率空间中的语义探索,为了提升检索特征间的语义关系,本发明实施例摆脱了原有直接最小化损失更新梯度的策略,创新性地提出了利用对抗学习策略来优化梯度。目的在于让分类器致力于最小化语义相似性的同时,特征提取器最大化语义相似性,当二者达到一个平衡时,二维图像残差特征与多视角目标残差特征间的语义一致性会得到最大提升,进一步地提升基于特征的多视角目标网站检索性能。
因此,上述语义一致性约束形式由:
转变为:
208:将201-207所得的检索方法应用在网站检索中,输出最终的检索结果。
其中,该步骤208包括:
利用跨域多视角目标检索数据库训练201-207检索方法,将训练好的检索方法形成检索程序Q,当得到一个输入X时,返回输入的特征Q(X):
通过检索程序计算数据库中所有的多视角目标特征Q(XT),并将其保存在后端;
网站前端获取查询图像,并将其传输至网站后端;网站后端接收到查询图像Xs,并将其输入到检索程序中处理得到查询图像特征Q(Xs);
网站后端将获得的查询图像特征Q(Xs)和数据库中所有多视角目标特征Q(XT)进行距离计算并排序,得到查询图像的多视角目标检索结果序列,并将检索结果传输至前端;网站前端将其展示给用户。
综上所述,本发明实施例通过上述步骤201-208利用变分编码器-解码器结构生成尽可能相似的输入样本,并将其和原始输入样本相减得到残差样本,探索网站检索学习所需的最少必要信息,有效的避免了原始输入复杂背景以及噪声带来的干扰问题,提升了网站检索的鲁棒性。
实施例3
下面结合具体的算例对实施例1和2中的方案进行可行性验证,详见下文描述:
1、网站检索介绍
本发明实例构建了一个跨域多视角目标网站检索来评估实例的可行性,如图3所示,前端页面主要包含:搜索框,检索按钮以及结果展示三个部分。后端包含已经用跨域多视角目标检索数据库训练好的本发明实例检索程序,以及两个常用的跨域多视角目标检索数据库(MI3DOR,MI3DOR-2)的测试数据。网站检索可以实现在前端页面通过搜索框选中一个二维图像,点击检索按钮将二维图像发送给后端,后端接收图像并将其输入到检索程序中,检索程序计算二维图像特征,并进行对数据库里所有多视角目标特征的检索,并将检索到的结果发送至网站检索前端,由前端通过结果展示部分来展示检索结果。
2、数据集:
本发明实施例在两个常用的跨域多视角目标检索数据集(MI3DOR-1,MI3DOR-2)来训练提出的检索方法。MI3DOR-1是跨域多视角目标检索领域中最常用的数据集,包含有21000张二维图像和7690个多视角目标,总共21个类别。MI3DOR-2数据集包含有40个类别,训练集中包含有3182个多视角目标和19294个图像,测试集中包含有400个二维图像和800个多视角目标。
3、网站检索测试
本发明实施例采用飞机图像作为查询图像,上传查询图像并点击检索后,网站返还检索结果如图4所示。可以看到,本发明实施例可以有效的检索到和飞机相关的多视角目标,并给出正确排序,充分证明了本发明实施例的有效性。
4、综合评价
本发明实施例在两个常用数据库的所有样例上测试,对提出的检索方法进行评价。其中本发明施例采用检索领域常见的6个指标,包含有最近邻(NN)、第一梯队正确率(FT)、第二梯队正确率(ST)、F分数(F)、累计收益(DCG)、及平均归一化检索秩(ANMRR)。除ANMRR外,其余指标都是值越高,性能越好。
表1展示了本发明实施例和流行的对比方法在MI3DOR-1数据集上的检索性能对比。从结果可以看出,本发明实施例在大多数评价指标上优于所有对比方法。具体来讲,本发明实施例在FT、ST、DCG和ANMRR上取得了0.676,0.813,0.694,0.311的指标结果,都明显优于所有对比方法的最高当前指标值(0.652,0.791,0.683,0.331)。虽然在NN指标上,本发明实施例低于CCS+IST方法,但在MI3DOR-2数据集上本发明实施例在所有指标上都远优于CCS+IST,这正说明了本发明实施例在不同数据集上都有较好的泛化能力。
表2展示了本发明实施例和流行方法在MI3DOR-2数据集上的检索性能对比,其中在所有指标上都远优于所有对比方法,展示了本发明实施例的性能优越性。
表1 在MI3DOR-1数据集上的性能对比
表2 在MI3DOR-2数据集上的性能对比
实施例4
一种基于残差语义一致性跨域多视角目标网站检索装置,参见图5,该装置包括:
提取模块,用于将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
计算融合特征模块,用于基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建与检测模块,用于构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
第一语义一致性模块,用于计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
第二语义一致性模块,用于以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
提升模块,用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;
检索模块,用于将最终约束结果应用在网站检索中,输出最终的检索结果。
综上所述,本发明实施例通过在概率空间中挖掘二维图像和多视角目标类别中心概率分布和间的语义一致性,来缓解常规约束在特征空间会扰乱原有特征结构的弊端;挖掘二维图像类别中心和二维图像、多视角目标间的语义一致性,来增强检索网站编码器鉴别性特征表达能力和域不变特征表达能力,解决了检索网站忽略多样性样本的低鲁棒问题;最后利用对抗学习将概率空间中的语义一致性聚焦在特征空间中,提升了二维图像残差特征与多视角目标残差特征间的语义关系,增强了网站检索能力。
实施例5
一种基于残差语义一致性跨域多视角目标网站检索装置,参见图6,该装置包括:处理器和存储器,存储器中存储有程序指令,处理器调用存储器中存储的程序指令以使装置执行实施例1中的以下方法步骤:
将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出最终的检索结果。
其中,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征具体为:
对于第i个二维图像残差特征,和所有二维图像特征的融合特征为:
其中,“”为Hadamard乘积,为第j个二维图像残差特征,为第i个二维图像残差特征,U、V为参数量为的可训练矩阵,W为参数量为的可训练映射矩阵,b为可训练偏置项,N为当前训练批次样本数,d为融合前输入特征维度,表示融合后生成N个特征维度为d的融合特征,c为转置,N为当前训练批次样本数;d2为中间映射维度;为第i个二维图像和当前批次所有二维图像的融合特征;
其中,构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布具体为:
其中,为双峰分布约束,为融合前的2个不同样本的类别标签,为的独热编码,为点积,表示在融合特征概率分布中将第一个类别标签的值置为0;为交叉熵计算;为融合特征的概率分布;为表示在融合特征概率分布中将第二个类别标签的值置为0。
进一步地,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性为:
其中,以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性为:
这里需要指出的是,以上实施例中的装置描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件,具体实现时,本发明实施例对执行主体不做限制,根据实际应用中的需要进行选择。
存储器2和处理器1之间通过总线3传输数据信号,本发明实施例对此不做赘述。
基于同一发明构思,本发明实施例还提供了一种计算机可读存储介质,存储介质包括存储的程序,在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
这里需要指出的是,以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的,本发明实施例在此不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例的流程或功能。
计算机可以是通用计算机、专用计算机、计算机网络、或者其它可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
本发明实施例对各器件的型号除做特殊说明的以外,其它器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述方法包括:
将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;将最终约束结果应用在网站检索中,输出最终的检索结果。
2.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征具体为:
其中,“”为Hadamard乘积,为第j个二维图像残差特征,为第i个二维图像残差特征,U、V为参数量为的可训练矩阵,W为参数量为的可训练映射矩阵,b为可训练偏置项,N为当前训练批次样本数,d为融合前输入特征维度,表示融合后生成N个特征维度为d的融合特征,c为转置,N为当前训练批次样本数;d2为中间映射维度;为第i个二维图像和当前批次所有二维图像的融合特征;
3.根据权利要求1所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布具体为:
5.根据权利要求4所述的一种基于残差语义一致性跨域多视角目标网站检索方法,其特征在于,所述以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性为:
6.一种基于残差语义一致性跨域多视角目标网站检索装置,其特征在于,所述装置包括:
提取模块,用于将残差作为输入,利用卷积神经网络提取二维图像残差特征和多视角目标残差特征;
计算融合特征模块,用于基于二维图像残差特征和多视角目标残差特征,利用改进型双线性池化分别计算二维图像-二维图像、二维图像-多视角目标的融合特征;
构建与检测模块,用于构建分布一致性检测器,检测融合特征和融合前二维图像残差特征是否为一致性分布,如果是,构建单峰分布约束;否则构建双峰分布约束;
第一语义一致性模块,用于计算二维图像的类别中心特征和多视角目标的类别中心特征,分别映射到概率空间中得到类别中心概率分布,利用JS散度构建二维图像和多视角目标类别中心间概率分布的语义一致性;
第二语义一致性模块,用于以二维图像类别中心为基准,探索与二维图像和多视角目标在概率空间中的语义一致性;
提升模块,用于通过分类器最小化语义相似性以及特征提取器最大化语义相似性形成对抗训练,提升二维图像残差特征和多视角目标残差特征间的语义一致性约束;
检索模块,用于将最终约束结果应用在网站检索中,输出最终的检索结果。
7.一种基于残差语义一致性跨域多视角目标网站检索装置,其特征在于,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行权利要求1-5中的任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211671546.0A CN115640418B (zh) | 2022-12-26 | 2022-12-26 | 基于残差语义一致性跨域多视角目标网站检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211671546.0A CN115640418B (zh) | 2022-12-26 | 2022-12-26 | 基于残差语义一致性跨域多视角目标网站检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115640418A true CN115640418A (zh) | 2023-01-24 |
CN115640418B CN115640418B (zh) | 2023-04-07 |
Family
ID=84949839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211671546.0A Active CN115640418B (zh) | 2022-12-26 | 2022-12-26 | 基于残差语义一致性跨域多视角目标网站检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115640418B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953780A (zh) * | 2023-03-10 | 2023-04-11 | 清华大学 | 一种基于多视角信息融合的多维光场复杂场景图构建方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110322446A (zh) * | 2019-07-01 | 2019-10-11 | 华中科技大学 | 一种基于相似性空间对齐的域自适应语义分割方法 |
US20190371080A1 (en) * | 2018-06-05 | 2019-12-05 | Cristian SMINCHISESCU | Image processing method, system and device |
CN113240012A (zh) * | 2021-05-14 | 2021-08-10 | 天津大学 | 一种基于二维图像的无监督多视角三维目标检索方法及装置 |
CN113421269A (zh) * | 2021-06-09 | 2021-09-21 | 南京瑞易智能科技有限公司 | 一种基于双分支深度卷积神经网络的实时语义分割方法 |
CN113515657A (zh) * | 2021-07-06 | 2021-10-19 | 天津大学 | 一种跨模态多视角目标检索方法及装置 |
CN114201960A (zh) * | 2021-11-23 | 2022-03-18 | 上海大学 | 一种基于情感属性挖掘的图像情感分析方法 |
CN114863194A (zh) * | 2022-07-11 | 2022-08-05 | 北京邮电大学 | 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
-
2022
- 2022-12-26 CN CN202211671546.0A patent/CN115640418B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190371080A1 (en) * | 2018-06-05 | 2019-12-05 | Cristian SMINCHISESCU | Image processing method, system and device |
CN110322446A (zh) * | 2019-07-01 | 2019-10-11 | 华中科技大学 | 一种基于相似性空间对齐的域自适应语义分割方法 |
CN113240012A (zh) * | 2021-05-14 | 2021-08-10 | 天津大学 | 一种基于二维图像的无监督多视角三维目标检索方法及装置 |
CN113421269A (zh) * | 2021-06-09 | 2021-09-21 | 南京瑞易智能科技有限公司 | 一种基于双分支深度卷积神经网络的实时语义分割方法 |
CN113515657A (zh) * | 2021-07-06 | 2021-10-19 | 天津大学 | 一种跨模态多视角目标检索方法及装置 |
CN114201960A (zh) * | 2021-11-23 | 2022-03-18 | 上海大学 | 一种基于情感属性挖掘的图像情感分析方法 |
CN114863194A (zh) * | 2022-07-11 | 2022-08-05 | 北京邮电大学 | 科技资讯跨媒体检索特征映射网络训练方法、检索方法及装置 |
Non-Patent Citations (2)
Title |
---|
LIUANAN: "Self-Supervised Auxiliary Domain Alignment for Unsupervised 2D Image-Based 3D Shape Retrieval" * |
宣瑞晟: "基于语义一致生成对抗网络的跨模态检索" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115953780A (zh) * | 2023-03-10 | 2023-04-11 | 清华大学 | 一种基于多视角信息融合的多维光场复杂场景图构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115640418B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
Yuan et al. | Exploring a fine-grained multiscale method for cross-modal remote sensing image retrieval | |
CN111476294A (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN111027576B (zh) | 基于协同显著性生成式对抗网络的协同显著性检测方法 | |
CN113657425A (zh) | 基于多尺度与跨模态注意力机制的多标签图像分类方法 | |
CN115017358A (zh) | 一种多模态交互的跨模态检索方法及系统 | |
CN118132803B (zh) | 一种零样本视频时刻检索方法、系统、设备及介质 | |
CN113704392A (zh) | 文本中实体关系的抽取方法、装置、设备及存储介质 | |
CN113868459A (zh) | 模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置 | |
CN116933051A (zh) | 一种用于模态缺失场景的多模态情感识别方法及系统 | |
Abdar et al. | A review of deep learning for video captioning | |
CN115658934A (zh) | 一种基于多类注意力机制的图文跨模态检索方法 | |
CN117011737A (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
Nam et al. | A survey on multimodal bidirectional machine learning translation of image and natural language processing | |
CN115640418B (zh) | 基于残差语义一致性跨域多视角目标网站检索方法及装置 | |
CN117891939A (zh) | 粒子群算法结合cnn卷积神经网络的文本分类方法 | |
CN117217807B (zh) | 一种基于多模态高维特征的不良资产估值方法 | |
Chen et al. | Enhancing visual question answering through ranking-based hybrid training and multimodal fusion | |
Chen et al. | Multiscale Salient Alignment Learning for Remote Sensing Image-Text Retrieval | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN116503127A (zh) | 模型训练方法、检索方法及相关装置 | |
Huang et al. | Cross-Modal Remote Sensing Image-Audio Retrieval with Adaptive Learning for Aligning Correlation | |
CN117351382A (zh) | 视频对象定位方法及其装置、存储介质、程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |