CN109784405B - 基于伪标签学习和语义一致性的跨模态检索方法及系统 - Google Patents

基于伪标签学习和语义一致性的跨模态检索方法及系统 Download PDF

Info

Publication number
CN109784405B
CN109784405B CN201910038843.3A CN201910038843A CN109784405B CN 109784405 B CN109784405 B CN 109784405B CN 201910038843 A CN201910038843 A CN 201910038843A CN 109784405 B CN109784405 B CN 109784405B
Authority
CN
China
Prior art keywords
text
data
image
space
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910038843.3A
Other languages
English (en)
Other versions
CN109784405A (zh
Inventor
徐功文
王义华
石林
张志军
赵莉
李晓梅
张娟
吴永春
胡顺泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN201910038843.3A priority Critical patent/CN109784405B/zh
Publication of CN109784405A publication Critical patent/CN109784405A/zh
Application granted granted Critical
Publication of CN109784405B publication Critical patent/CN109784405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于伪标签学习和语义一致性的跨模态检索方法及系统,所述方法包括:接收图像数据集和文本数据集,其中包括已标记的图像文本对以及未标记的图像数据;学习从图像空间投影到文本空间的投影矩阵,将所述未标记的图像数据投影到文本空间;计算已标记文本的类中心;根据未标记图像数据的投影数据与文本数据的类中心的相似度,为这些图像数据分配伪标签,并且将与其距离最近的类中心相应的文本数据作为对应的文本模态;将已标记的和分配伪标签的图像数据,以及对应的文本数据作为训练数据集,学习图像和文本投影到公共语义空间的投影矩阵;执行跨模态检索。本发明在训练数据集中引入未标记数据,能够获取更有效的投影矩阵。

Description

基于伪标签学习和语义一致性的跨模态检索方法及系统
技术领域
本公开属于跨模态检索技术领域,尤其涉及一种基于伪标签学习和语义一致性的跨模态检索方法及系统。
背景技术
随着信息技术的进步,多模态数据量不断增加。多模态数据无处不在,人类使用互联网共享个人文本、音频、图像和视频信息。多模态数据是指用不同的模态描述同一对象/概念的数据。特定对象/概念的多模态数据的不同成分存在于不同的模态中,但是在高语义级别上相关联。多模态数据广泛存在于日常生活中,因此对多模态数据的检测和分析是一个重要的研究领域。多模态数据检索方法不同于传统的数据检索方法从同一模态数据中挖掘信息。在跨模态检索中,一个模态中的对象可以用于其他模态中的数据检索。例如,当考虑“飞机”的图像时,可以检索“飞机”的文本、图像、音频记录和视频记录。根据人们的需求,可以实现不同媒体文件之间的检索。
一种好的跨模态检索方法可以显著缩短检索时间,减少工作量,有效地提高信息检索的查准率和查全率。检索的输入和输出数据具有不同的模态,这些数据的低层特征是异构的,且各自的数据结构是复杂的并且变化很大,诸如图像、音频记录和视频记录之类的多模态数据是半结构化的或非结构化的,这使得很难通过低级特征来描述高级语义。另外,由于不同模态数据特征值的维数也不一样,因此很难用现有的方法比较不同模态下的数据。因此在多模态数据上进行检索时,需要设定异构数据的统一表示。也就是说,当将多模态数据投影到同构空间上时,可以使用相同的距离度量(例如,使用欧几里德度量或汉明度量)对其进行比较。近年来在跨模态检索方向有了大量的研究成果。有研究引入了共享子空间的概念,允许不同模态数据在同一子空间中一致地表示以便相互检索。典型相关性分析(CCA)是一种经典的统一表示法,在计算生物学、金融分析和信息检索等领域有着广泛的应用。众多的方法用来在一个共同的子空间中最大化训练数据对之间的相似性。核典型相关分析(KCCA)用于研究图像与文本之间的相关性。基于局部相关性保持的支持向量机(LCPSVM)提出了一种保持类间局部相关性的方法,它充分结合了类间边际最大化和类数据的局部相关保持的思想。以上方法通常是获得一组线性映射矩阵,并将具有异构特征的数据投影到相同的语义空间。
然而,仅仅考虑训练集中的数据点之间的相关性是不够的。在跨模态检索中,期望检索到的数据在语义上类似于查询的图像/文本数据。因此,在语义上相似的多模态数据会被预期在共享子空间中形成簇。为此,使用监督类信息或通过聚类获得的监督信息,在公共子空间中对语义上相似的多模态数据进行聚类。
联合表示学习(JRL)方法同时考虑语义信息和相关性,是半监督学习方式;具有联合图正则化的异构度量学习(JGRHML)则使用联合图正则化来检索不同模态之间的信息;跨模态相关传播(CMCP)在检索中同时使用正相关和负相关信息;最近邻异构相似性度量(HSNN)是一种利用最近邻度量异构相似性的方法。
上述描述的各种方法,或者没有考虑未标记数据,或者对每个文本/图像检索任务只学习一组投影,文本检索图像和图像检索文本都基于同一种投影机制,基于这种映射机制往往可以在两个检索任务中获得一个折中的性能,很难在其中一种任务中得到最佳性能。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于伪标签学习和语义一致性的跨模态检索方法及系统,本发明一方面针对不同的检索任务采用不同的投影,学习到了两组投影,分别应用于文本检索图像和图像检索文本;另一方面充分利用了未标记数据,,通过伪标签学习方法为其添加伪标签,将添加了伪标签的和已标记图像文本对均用作训练数据集,进行投影矩阵的训练,提高了跨媒体检索的精确度。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种基于伪标签学习和语义一致性的跨模态检索方法,包括以下步骤:
接收图像数据集和文本数据集,其中包括已标记的图像文本对以及未标记的图像数据;
学习从图像空间投影到文本空间的投影矩阵,将所述未标记的图像数据投影到文本空间;
计算已标记文本的类中心;
根据未标记图像数据的投影数据与文本数据的类中心的相似度,为这些图像数据分配伪标签,并且将与其距离最近的类中心相应的文本数据作为对应的文本模态;
将已标记的和分配伪标签的图像数据,以及对应的文本数据作为训练数据集,学习图像和文本投影到公共语义空间的投影矩阵;
接收测试图像或文本,根据投影矩阵转换到公共语义空间,在公共语义空间查找与该测试图像或文本相似性最高的投影数据,该投影矩阵相应的另一模态数据即为检索结果。
进一步地,通过以下公式学习从图像空间投影到文本空间的投影矩阵:
Figure GDA0002585723110000031
其中,Il和Tl分别表示成对的已标记图像和文本特征,V是图像空间到公共语义空间的投影矩阵,λ是调整系数,
Figure GDA0002585723110000032
是Frobenius范数。
进一步地,计算已标记文本的类中心包括:
Figure GDA0002585723110000033
其中,
Figure GDA0002585723110000034
表示所有已标记文本数据
Figure GDA0002585723110000035
特征的中值,
Figure GDA0002585723110000036
进一步地,所述未标记图像数据的投影数据与文本数据的类中心的相似度计算方法为:
计算未标记图像数据投影到文本数据空间的类中心;
基于投影数据的各个类中心与已标记文本的类中心的距离,为各类图像数据分配伪标签。
进一步地,所述训练数据集中语义相似性矩阵S=[Sl;Su],其中,Sl为已标记图像文本对相应的语义相似性矩阵,Su为具有伪标签的图像文本对相应的语义相似性矩阵,
Figure GDA0002585723110000037
其中,
Figure GDA0002585723110000038
其中,
Figure GDA0002585723110000039
表示未标记图像数据
Figure GDA00025857231100000310
的投影数据和已标记文本数据的第i个类中心之间的相似度,
Figure GDA00025857231100000311
Iu表示未标记图像数据集合;
Figure GDA00025857231100000312
表示未标记图像
Figure GDA00025857231100000313
投影到文本空间的投影数据;
Figure GDA00025857231100000314
表示已标记文本数据的第i个类中心;γ表示核系数。
进一步地,检索任务为根据图像检索文本时,通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵:
Figure GDA00025857231100000315
检索任务为根据文本检索图像时,通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵:
Figure GDA00025857231100000316
其中,I和T分别为训练数据集中的图像数据和文本数据,V是图像空间到公共语义空间的投影矩阵,W是文本空间到公共语义空间的投影矩阵,
Figure GDA0002585723110000041
是Frobenius范数,η1和η2是正则化项的非负平衡参数,0≤λ≤1是平衡参数。
进一步地,采用梯度下降法求解所述目标函数。
进一步地,所述在公共语义空间查找与该测试图像或文本相似性最高的投影数据包括:计算测试图像或文本的投影数据与训练数据集中每个另一模态投影数据特征之间的距离,获取距离最小的投影数据。
一个或多个实施例提供了一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于伪标签学习和语义一致性的跨模态检索方法。
一个或多个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的基于伪标签学习和语义一致性的跨模态检索方法。
以上一个或多个技术方案存在以下有益效果:
本发明的检索方法针对图像检索文本,和文本检索图像两类检索任务,学习了不同的投影矩阵,检索更具针对性,保证了对于不同的检索任务都能够取得较好的检索效果;
本发明的检索方法在学习投影矩阵的过程中,充分考虑了标记样本和未标记样本的语义信息,为未标记样本学习伪标签。相比于其他方法,能够利用更多的信息,学习更有效的投影矩阵。有标记数据意味着高成本和不易获取,而未标记数据可以以相对较低的成本容易地获取,并且未标记数据可以通过提高分类的精确度来提高检索模型的鲁棒性,验证实验表明,该方法能够获得较好的检索效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为现有的伪标签学习方法流程图;
图2为本发明实施例一提供的基于伪标签学习和语义一致性的跨模态检索方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
伪标签方法
现有的深度学习模型主要集中于训练预处理和细节调整。训练方法的预处理属于非监督学习范畴,微调方法属于监督学习范畴。一方面,大量的未标记预训练数据影响识别结果。另一方面,利用附加的标记训练数据,微调可以提高识别精确度。
据此,用于训练有标记和未标记数据的伪标签方法得到了充分的发展。在监督学习里面,给定一个神经网络,在训练过程中,卷积神经网络和自动编码器都包含了一个分类器;当输入的样本有标记时,需要最小化模型输出和样本标记的交叉熵。当输入的样本没有标记时,就需要用到伪标签。
Figure GDA0002585723110000051
根据上述定义确定伪标签yi'。在训练这个模型之前,我们定义如下的损失函数。
L=∑L(fi,yi)+α(t)∑L(fi,yi')
其中y和f表示监督学习过程的输入和输出。标签y′是伪标签,α是权重系数,t是当前的迭代次数。因此,在这种半监督学习方法中,未标记数据和标记数据都可以同时用于训练。
伪标签的主要思想如下。首先,在标记数据上训练学习模型。然后,使用上述方法应用生成模型来标记未标记的数据,并创建伪标签。然后将所有数据组合到一个新的数据集中,用于训练模型。上述过程如图1所示。
实施例一
在多模态数据检索中,不同模态数据之间的相似度不能直接测量。为了将某一模态的数据与其他模态数据相关联,我们使用有标记和无标记的数据学习投影矩阵。本实施例公开了一种基于伪标签学习和语义一致性的跨模态检索方法,如图2所示,包括以下步骤:
步骤1:接收图像数据集和文本数据集,其中包括已标记的图像和文本对以及未标记的图像数据;
训练集中的图像-文本对具有特殊的语义信息,称为类标签。这种语义信息可以作为学习子空间的第三维,并用于获得共享子空间中语义相似但不同的模态数据之间的相似性度量。本实施例还利用了类标签来获得数据点之间更好的相似性度量,与以往的方法不同,共享子空间的维数是根据类的个数来设置的。
假设给定的训练数据集G={(ik,tk)}k=1…n,包含n对数据示例。用ik∈Rp和tk∈Rq表示图像和文本数据的低层特征。参数p和q是ik和tk的维数。矩阵I=[i1,…in]T∈RnXp和T=[t1,…tn]T∈RnXq分别是训练数据集中对应于文本和图像数据的特征矩阵。假设训练数据集G中有c个类,语义相似性矩阵是S=[s1,…sn]T∈RnXc,该矩阵的第i行对应于ik和tk的语义向量。如果ik和tk在同一个j类中,sk的第j值被设置为1;否则,它被设置为0。
定义I=[Il,Iu]T∈RnXp和T=[Tl]T∈RnXq。Il和Iu在图像中表示标记和未标记的数据,而Tl在文本中表示标记的数据。
步骤2:学习从图像空间投影到文本空间的投影矩阵,将未标记的图像数据投影到文本空间;
在学习文本数据类中心之前,我们使用以下等式来学习用于将图像空间投影到文本空间上的投影矩阵。
Figure GDA0002585723110000061
其中,Il表示图像数据,Tl表示与Il语义相同文本数据,V是图像空间到公共语义空间的投影矩阵,λ是调整参数,
Figure GDA0002585723110000062
是Frobenius范数。当图像数据
Figure GDA0002585723110000063
被投影到文本特征空间上时,使用以下等式来表示数据:
Figure GDA0002585723110000064
其中,
Figure GDA0002585723110000065
表示未标记图像数据
Figure GDA0002585723110000066
投影到文本空间的投影数据。
步骤3:计算已标记文本的类中心;
考虑到样本数据集中的数据可能分布不均匀,而且可能与平均值存在显著偏差,我们使用中值特征向量作为类中心。在实验中,具有相同标签的数据具有相似的特征。这些特征可以被看作是同一类的语义。数据投影后,利用中值特征向量近似地表示迭代操作后的类标签。因此,已标记文本的Tl类中心
Figure GDA0002585723110000067
可以计算如下:
Figure GDA0002585723110000068
然后,根据上述计算得到了类矩阵
Figure GDA0002585723110000069
步骤4:根据未标记的图像数据的投影数据与文本数据的类中心的相似度,为这些图像数据分配伪标签,并且将与其距离最近的类中心相应的文本数据作为对应的文本模态;
所述步骤4具体包括:
将未标记图像数据Iu采用步骤2得到的投影矩阵均投影至文本空间,得到投影数据T'u
对得到的未标记图像数据的投影数据T'u进行聚类:
Figure GDA0002585723110000071
基于投影数据的各类中心与步骤3得到的已标记文本的类中心位置,为各类图像数据分配伪标签。
然后,将与未标记的图像数据Iu距离最近的类中心
Figure GDA0002585723110000072
相应的文本数据作为对应的文本模态T'u,即,用文本模态T'u替换未标记的图像数据Iu,选择
Figure GDA0002585723110000073
中最相似的元素作为元素
Figure GDA0002585723110000074
通过以上步骤,我们得到了未标记数据Iu的伪标签,以及以文本模态表示的相应的数据T'u。这为消除语义鸿沟提供了一种有效的途径。
步骤5:将已标记的和分配伪标签的图像数据,以及对应的文本数据作为训练数据集,学习图像和文本投影到公共语义空间的投影矩阵;
学习投影矩阵之前,还要学习训练数据集中图像和文本数据之间的语义相似矩阵。现在T'u和Tl在共同的空间中。Su是未标记图像数据Iu(即T'u)和中心
Figure GDA0002585723110000075
(即有标签的文本数据)的相似性。Su的元素
Figure GDA0002585723110000076
计算如下。
Figure GDA0002585723110000077
其中,
Figure GDA0002585723110000078
表示未标记图像数据
Figure GDA0002585723110000079
的投影数据和已标记文本数据的第i个类中心之间的相似度,
Figure GDA00025857231100000710
Iu表示未标记图像数据集合;
Figure GDA00025857231100000711
表示未标记图像
Figure GDA00025857231100000712
投影到文本空间的投影数据;
Figure GDA00025857231100000713
表示已标记文本数据的第i个类中心。γ是核系数,在该发明中设为8。至此,得到了一个新的语义特征相似矩阵S=[Sl;Su]。
具体地,基于训练数据集G,用优化目标函数来学习投影矩阵V∈RcXp和W∈RcXq。V是图像的投影矩阵,W是文本的投影矩阵。图像和文本数据被投影到相同的语义空间上,在该语义空间中可以计算投影数据之间的距离。
优化目标函数框架可以如下公式表示。
Figure GDA0002585723110000081
其中,f作为目标函数,C(V,W)用于相关分析相关项,以确保共享投影空间中的成对紧密性和特征一致性。L(V,S)是线性回归项,用于获取共同潜空间中语义相似的多模态数据的聚类,并确保语义一致性。R(V,W)是控制投影矩阵V和W的正则化项,它有助于避免模型与训练集数据过度拟合。
本发明针对不同的检索任务,学习不同的目标函数。因此,目标函数可以分别表示如下。
下式是完成图像检索文本任务时的目标函数:
Figure GDA0002585723110000082
下式是完成文本检索图像任务时的目标函数:
Figure GDA0002585723110000083
其中η1和η2是正则化项的非负平衡参数,0≤λ≤1也是平衡参数。
在无约束优化中得到了V和W的解。函数f(I,W)是非凸函数,仅具有局部最优解。但是当固定其中一个值时,另一个的解将是凸问题的解,所以可以使用梯度下降法交替计算它们。
偏导数计算如下。
Figure GDA0002585723110000084
Figure GDA0002585723110000085
通常用交替迭代法来解决这个问题。交替迭代法会终止于收敛。下面的算法详细描述了交替迭代过程。
输入:图像特征矩阵I=[Il,Iu]T∈RnXp;文本特征矩阵T=[Tl,Tu]T∈RnXq;语义特征矩阵S=[Sl;Su]。
初始化:V(v),W(w),v←0,w←0;λ,η12,ε,μ。其中ε是收敛条件参数,μ是梯度下降步长。
重复
重复
设置fv_1=f(V(v),W(w));
更新
Figure GDA0002585723110000091
设置fv_2=f(V(v+1),W(w)),v←v+1;
直到fv_1-fv_2<=ε
重复
设置fv_1=f(V(v),W(w));
更新
Figure GDA0002585723110000092
设置fv_2=f(V(v),W(w+1)),w←w+1;
直到fv_1-fv_2<=ε
直到收敛或者达到迭代的最大次数
输出:投影矩阵V(v),W(w)
在上述算法中,V和W可以使用交替的迭代更新方法来求解。当条件匹配时,终止求解过程。与其他方法不同的是,该算法在更新V和W时,充分考虑了未标记样本数据的语义信息。
存储训练数据与其在公共语义空间中投影数据的映射关系。
步骤6:接收测试图像或文本,根据投影矩阵转换到公共语义空间,在公共语义空间查找与该测试图像或文本相似性最高的投影数据,该投影矩阵相应的另一模态数据即为检索结果。
利用投影矩阵V和W,可以在同一空间中分析图像和文本数据,从而可以计算不同模态数据点之间的距离。目前最广泛使用的距离度量是欧几里得距离,也就是欧氏距离。如下式所示。
Figure GDA0002585723110000093
数据集和实验设置
在下面的验证实验中,使用Wikipedia、Pascal Sentence和INRIA-Websearch数据集来验证本方法与其他方法的性能。
Wikipedia:它包含10个类别,里面包含2866个文本图像对。其中2173个样本对用于训练,693个样本对用于测试。图像视觉特征采用128维SIFT视觉单词袋,文本特征选取10维潜在狄利克雷分配(LDA)。基于相同的特征数据,对本发明提出的算法的性能进行了评价,并与其他算法进行了比较。另一个Wikipedia数据集具有4096维卷积神经网络(CNN)视觉特征和100维LDA文本特征。前者我们命名为WiKi128,后来称为WiKi4096。
Pascal Sentence:在这个数据集中有1000个文本-图像对和20个类。每个类包含50对数据。在我们的方法中,每个类选择30对作为训练集,其余的组成测试集。因此,总共有600个训练实例和400个测试实例。对于图像数据,使用CNN视觉特征。对于文本特性,先通过300个词根获得文本的BoW表示,然后通过LDA计算出文本在100个潜在主题中的概率分布。
根据数据类标签来构造语义特征,Wikipedia和Pascal Sentence数据集的维度分别为10和20。
INRIA-Websearch:在这个数据集中有71743个图像文本对,分为353类。CNN的视觉特征是4096维。我们选择了前100个类别,在实验中选用了14698对。
利用欧几里德距离度量同构空间中文本和图像数据之间的距离。设计查询结果的平均精确度均值(mAP)度量来评估不同检索方法的性能。首先定义AP如下。
Figure GDA0002585723110000101
其中R是查询结果的数目。如果第k个示例与查询项一致,则rel(k)=1;否则,rel(k)=0。P(k)量化最好的k个结果的准确性。mAP是通过对所有类的AP值进行平均来获得的。3.2本方法与当前先进方法的对比实验
在我们的验证实验中,将本发明的mAP性能与下面四种最新方法进行比较。这四种最新方法的简要描述如下。
JGRHML利用联合图正则化方法在不同类型的媒介中进行检索。HSNN是一种测量最近邻的异质相似性的方法。CMCP同时使用正相关和负相关。JRL同时考虑语义信息和相关性。
表1列出本发明提出的算法和其他四种最新方法的mAP得分。与其他方法相比,本发明提出的算法具有更好的性能,尤其在T2I检索方面。
表1.检索性能比较--MAP(%)值(I2T:图像检索文本,T2I:文本检索图像)
Figure GDA0002585723110000102
Figure GDA0002585723110000111
实施例二
本实施例的目的是提供一种计算机系统。
一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
接收图像数据集和文本数据集,其中包括已标记的图像文本对以及未标记的图像数据;
学习从图像空间投影到文本空间的投影矩阵,将所述未标记的图像数据投影到文本空间;
计算已标记文本的类中心;
根据未标记图像数据的投影数据与文本数据的类中心的相似度,为这些图像数据分配伪标签,并且将与其距离最近的类中心相应的文本数据作为对应的文本模态;
将已标记的和分配伪标签的图像数据,以及对应的文本数据作为训练数据集,学习图像和文本投影到公共语义空间的投影矩阵;
接收测试图像或文本,根据投影矩阵转换到公共语义空间,在公共语义空间查找与该测试图像或文本相似性最高的投影数据,该投影矩阵相应的另一模态数据即为检索结果。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
接收图像数据集和文本数据集,其中包括已标记的图像文本对以及未标记的图像数据;
学习从图像空间投影到文本空间的投影矩阵,将所述未标记的图像数据投影到文本空间;
计算已标记文本的类中心;
根据未标记图像数据的投影数据与文本数据的类中心的相似度,为这些图像数据分配伪标签,并且将与其距离最近的类中心相应的文本数据作为对应的文本模态;
将已标记的和分配伪标签的图像数据,以及对应的文本数据作为训练数据集,学习图像和文本投影到公共语义空间的投影矩阵;
接收测试图像或文本,根据投影矩阵转换到公共语义空间,在公共语义空间查找与该测试图像或文本相似性最高的投影数据,该投影矩阵相应的另一模态数据即为检索结果。
以上实施例二和三中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
以上一个或多个实施例具有以下技术效果:
本发明的检索方法在学习投影矩阵的过程中,充分考虑了标记样本和未标记样本的语义信息,为未标记样本学习伪标签。相比于其他方法,能够利用更多的信息,学习更有效的投影矩阵,验证实验表明,该方法能够获得较好的检索效果。
本领域技术人员应该明白,上述本申请的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本申请不限制于任何特定的硬件和软件的结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然结合附图对本申请的具体实施方式进行了描述,但并非对本申请保护范围的限制,所属领域技术人员应该明白,在本申请的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims (10)

1.一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,包括以下步骤:
接收图像数据集和文本数据集,其中包括已标记的图像文本对以及未标记的图像数据;
学习从图像空间投影到文本空间的投影矩阵,将所述未标记的图像数据投影到文本空间;
计算已标记文本的类中心;
根据未标记图像数据的投影数据与文本数据的类中心的相似度,为这些图像数据分配伪标签,并且将与其距离最近的类中心相应的文本数据作为对应的文本模态;
将已标记的和分配伪标签的图像数据,以及对应的文本数据作为训练数据集,学习图像和文本投影到公共语义空间的投影矩阵;
接收测试图像或文本,根据投影矩阵转换到公共语义空间,在公共语义空间查找与该测试图像或文本相似性最高的投影数据,该投影矩阵相应的另一模态数据即为检索结果。
2.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,通过以下公式学习从图像空间投影到文本空间的投影矩阵:
Figure FDA0002585723100000011
其中,Il和Tl分别表示成对的已标记图像和文本特征,V是图像空间到公共语义空间的投影矩阵,λ是调整系数,
Figure FDA0002585723100000012
是Frobenius范数。
3.如权利要求2所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,计算已标记文本的类中心包括:
Figure FDA0002585723100000013
其中,
Figure FDA0002585723100000014
表示所有已标记文本数据
Figure FDA0002585723100000015
特征的中值,
Figure FDA0002585723100000016
4.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,所述未标记图像数据的投影数据与文本数据的类中心的相似度计算方法为:
计算未标记图像数据投影到文本数据空间的类中心;
基于投影数据的各个类中心与已标记文本的类中心的距离,为各类图像数据分配伪标签。
5.如权利要求3所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,所述训练数据集中语义相似性矩阵S=[Sl;Su],其中,Sl为已标记图像文本对相应的语义相似性矩阵,Su为具有伪标签的图像文本对相应的语义相似性矩阵,
Figure FDA0002585723100000021
其中,
Figure FDA0002585723100000022
其中,
Figure FDA0002585723100000023
表示未标记图像数据
Figure FDA0002585723100000024
的投影数据和已标记文本数据的第i个类中心之间的相似度,
Figure FDA0002585723100000025
Iu表示未标记图像数据集合;
Figure FDA0002585723100000026
表示未标记图像
Figure FDA0002585723100000027
投影到文本空间的投影数据;
Figure FDA0002585723100000028
表示已标记文本数据的第i个类中心;γ表示核系数。
6.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,检索任务为根据图像检索文本时,通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵:
Figure FDA0002585723100000029
检索任务为根据文本检索图像时,通过求解下面的目标函数学习图像和文本投影到公共语义空间的投影矩阵:
Figure FDA00025857231000000210
其中,I和T分别为训练数据集中的图像数据和文本数据,V是图像空间到公共语义空间的投影矩阵,W是文本空间到公共语义空间的投影矩阵,
Figure FDA00025857231000000211
是Frobenius范数,η1和η2是正则化项的非负平衡参数,0≤λ≤1也是平衡参数。
7.如权利要求6所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,采用梯度下降法求解所述目标函数。
8.如权利要求1所述的一种基于伪标签学习和语义一致性的跨模态检索方法,其特征在于,所述在公共语义空间查找与该测试图像或文本相似性最高的投影数据包括:计算测试图像或文本的投影数据与训练数据集中每个另一模态投影数据特征之间的距离,获取距离最小的投影数据。
9.一种计算机系统,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-8任一项所述的基于伪标签学习和语义一致性的跨模态检索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8任一项所述的基于伪标签学习和语义一致性的跨模态检索方法。
CN201910038843.3A 2019-01-16 2019-01-16 基于伪标签学习和语义一致性的跨模态检索方法及系统 Active CN109784405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910038843.3A CN109784405B (zh) 2019-01-16 2019-01-16 基于伪标签学习和语义一致性的跨模态检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910038843.3A CN109784405B (zh) 2019-01-16 2019-01-16 基于伪标签学习和语义一致性的跨模态检索方法及系统

Publications (2)

Publication Number Publication Date
CN109784405A CN109784405A (zh) 2019-05-21
CN109784405B true CN109784405B (zh) 2020-09-08

Family

ID=66500706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910038843.3A Active CN109784405B (zh) 2019-01-16 2019-01-16 基于伪标签学习和语义一致性的跨模态检索方法及系统

Country Status (1)

Country Link
CN (1) CN109784405B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110443273B (zh) * 2019-06-25 2022-06-14 武汉大学 一种用于自然图像跨类识别的对抗零样本学习方法
CN110647904B (zh) * 2019-08-01 2022-09-23 中国科学院信息工程研究所 一种基于无标记数据迁移的跨模态检索方法及系统
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110597878B (zh) * 2019-09-16 2023-09-15 广东工业大学 一种多模态数据的跨模态检索方法、装置、设备及介质
CN111914950B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于深度对偶变分哈希的无监督跨模态检索模型训练方法
CN113111161B (zh) * 2021-04-09 2023-09-08 北京语言大学 一种跨媒体关联分析方法
CN113553399B (zh) * 2021-07-16 2022-05-27 山东建筑大学 基于模糊语言近似概念格的文本搜索方法及系统
CN114219047B (zh) * 2022-02-18 2022-05-10 深圳大学 一种基于伪标签筛选的异构域自适应方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN106844518A (zh) * 2016-12-29 2017-06-13 天津中科智能识别产业技术研究院有限公司 一种基于子空间学习的不完整跨模态检索方法
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107885854A (zh) * 2017-11-14 2018-04-06 山东师范大学 一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
CN108595546A (zh) * 2018-04-09 2018-09-28 武汉科技大学 基于半监督的跨媒体特征学习检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN106844518A (zh) * 2016-12-29 2017-06-13 天津中科智能识别产业技术研究院有限公司 一种基于子空间学习的不完整跨模态检索方法
CN106934055A (zh) * 2017-03-20 2017-07-07 南京大学 一种基于不充分模态信息的半监督网页自动分类方法
CN107273517A (zh) * 2017-06-21 2017-10-20 复旦大学 基于图嵌入学习的图文跨模态检索方法
CN107885854A (zh) * 2017-11-14 2018-04-06 山东师范大学 一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法
CN107958216A (zh) * 2017-11-27 2018-04-24 沈阳航空航天大学 基于半监督的多模态深度学习分类方法
CN108595546A (zh) * 2018-04-09 2018-09-28 武汉科技大学 基于半监督的跨媒体特征学习检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Cross-Media Joint Representation With Sparse and Semisupervised Regularization;Xiaohua Zhai et al.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20140630;第24卷(第6期);参见第965-978页 *
基于协同矩阵分解的单标签跨模态检索;李新卫等;《计算机技术与发展》;20181130;第28卷(第11期);参见第99-102页 *

Also Published As

Publication number Publication date
CN109784405A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109784405B (zh) 基于伪标签学习和语义一致性的跨模态检索方法及系统
Tian et al. Contrastive representation distillation
Li et al. Twin contrastive learning for online clustering
Liu et al. Cross-modality binary code learning via fusion similarity hashing
Dehghani et al. Fidelity-weighted learning
Wu et al. Structured deep hashing with convolutional neural networks for fast person re-identification
Wu et al. Semi-supervised nonlinear hashing using bootstrap sequential projection learning
US20170200066A1 (en) Semantic Natural Language Vector Space
CN110192203A (zh) 用于多个自然语言处理(nlp)任务的联合多任务神经网络模型
Zhang et al. Semi-supervised multi-view discrete hashing for fast image search
Wang et al. Facilitating image search with a scalable and compact semantic mapping
US20210056127A1 (en) Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
Zhai et al. Parametric local multiview hamming distance metric learning
Xie et al. Cross-modal self-taught hashing for large-scale image retrieval
Cheng et al. Semi-supervised multi-graph hashing for scalable similarity search
Li Tag relevance fusion for social image retrieval
Yan et al. Biomedical literature classification with a CNNs-based hybrid learning network
Kolouri et al. Joint dictionaries for zero-shot learning
Li et al. Hashing with dual complementary projection learning for fast image retrieval
US20220366260A1 (en) Kernelized Classifiers in Neural Networks
Li et al. Fusing semantic aspects for image annotation and retrieval
Song et al. Deep and fast: Deep learning hashing with semi-supervised graph construction
Liu et al. Weakly-paired deep dictionary learning for cross-modal retrieval
Wang et al. Noise-robust deep cross-modal hashing
Wang et al. Deep hashing with active pairwise supervision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant