CN112199520A - 基于细粒度相似性矩阵的跨模态哈希检索算法 - Google Patents

基于细粒度相似性矩阵的跨模态哈希检索算法 Download PDF

Info

Publication number
CN112199520A
CN112199520A CN202010990707.7A CN202010990707A CN112199520A CN 112199520 A CN112199520 A CN 112199520A CN 202010990707 A CN202010990707 A CN 202010990707A CN 112199520 A CN112199520 A CN 112199520A
Authority
CN
China
Prior art keywords
hash
text
image
loss
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010990707.7A
Other languages
English (en)
Other versions
CN112199520B (zh
Inventor
张玥杰
全家琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010990707.7A priority Critical patent/CN112199520B/zh
Publication of CN112199520A publication Critical patent/CN112199520A/zh
Application granted granted Critical
Publication of CN112199520B publication Critical patent/CN112199520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9014Indexing; Data structures therefor; Storage structures hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于跨模态数据检索技术领域,具体为一种基于细粒度相似性矩阵的跨模态哈希检索算法。本发明算法主要针对图像检索文本与文本检索图像两个任务,包括:哈希码推理:利用图像‑文本对的标签信息构筑细粒度相似性矩阵,使哈希码保留图像‑文本数据项之间的细粒度相似性信息;构造一个自编码器,使哈希码尽可能保留标签中的语义信息;哈希函数学习:训练两个哈希函数,分别将图像和文本映射至哈希码,哈希码学习所用到的目标函数包含哈希码映射损失、带权重的相似性保留损失、及分类损失。本发明在图像搜索文本和文本搜索图像两个任务中都具有比较高的检索精度。

Description

基于细粒度相似性矩阵的跨模态哈希检索算法
技术领域
本发明属于跨模态检索技术领域,具体涉及基于细粒度相似性矩阵的跨模态哈希检索算法。
背景技术
随着社交媒体的快速发展,每天都有大量的多媒体数据产生,包括文本、图像、视频等。受限于高昂的计算复杂度和存储复杂度,对这些大规模多媒体数据实施精确的最近邻检索变得十分困难。为解决该问题,提出许多的替代方法,其中近似最近邻检索由于其较高检索精度与较低计算开销得到越来越多的关注。在各种近似最近邻检索方法中,哈希算法是目前最具潜力的方法。哈希算法的目标是把高维数据映射至低维海明空间中,在此海明空间中哈希码保留原始数据的相似性信息,因此可利用这些哈希码在海明空间中进行检索。
不同模态的原始数据处在不同分布上,它们之间存在异质性即语义鸿沟,而如何缩小语义鸿沟是一个比较具有挑战性的问题。为缩小语义鸿沟,有必要充分挖掘原始数据的相似性信息。最近,由于深度学习的巨大成功,深度哈希算法正得到越来越多研究者的关注。深度神经网络能够帮助哈希算法获得数据更好的特征表示,且其强大的拟合能力能够拟合更好的非线性哈希函数。在许多公开的大规模数据集上,深度哈希算法都能以更简短的哈希码获得更好的检索精度。
然而,大部分的深度哈希算法是以一种端到端的方式来同时完成哈希码推理和哈希函数学习两项任务,而这种端到端的方式有三个主要缺陷。首先,端到端的训练方式无法灵活地更换哈希函数,每一次更换哈希函数都要重新训练哈希码和哈希函数。其次,这种端到端的方法会交替训练哈希码和哈希函数,这会使得哈希码和哈希函数的训练过程互相影响,最终可能会使得学习到的哈希码和哈希都变差。最后,为构建图像和文本数据项之间的相似性关系,大部分的算法都是采用逐对式(Pairwise)和三元组式(Triplet-wise)的相似性计算方式,其数量级分别为
Figure BDA0002690799120000011
Figure BDA0002690799120000012
其中n表示数据项的数目。由于计算资源的限制,大多数深度哈希算法只能以小批量(mini-batch)方式进行训练,这使得它们每次都只能保持局部相似性而无法保持全局相似性,从而降低检索精度。为解决这些问题,出现一些两阶段的深度哈希算法。本发明所关注的正是这种两阶段的哈希算法。
目前的两阶段跨模态哈希算法仍然存在两个方面的不足之处。首先,第一个阶段中为学习哈希码所构建的相似性矩阵过于粗粒度,也就是说两个数据项只要共享一个语义类别就令其相似性为1,否则为0,而这样的构建方式无法表现出数据项在原始空间中丰富的相似性信息。另外,在第二个阶段中,目前绝大部分的两阶段哈希算法都是基于多分类的方式,而哈希码的学习目标是为了保留在海明空间中的相似性,所学习到的哈希码不一定能够满足分类的需求。并且哈希码的每一位都没有明显的语义信息,那些对分类任务来说是噪声的位甚至会影响分类的准确率。
发明内容
本发明为解决现有跨模态哈希算法无法挖掘数据项在原始空间丰富的相似性信息,提出一种基于细粒度相似性矩阵的跨模态哈希检索算法,该算法同时改进分类的哈希函数学习方式。
本发明提供的基于细粒度相似性矩阵的跨模态哈希检索算法,包含图像-文本对的哈希码推理与图像-文本对的哈希函数学习两个步骤,其中:
步骤1、图像-文本对的哈希码推理:一方面利用图像-文本对的标签信息构筑细粒度相似性矩阵S,用来使得推理出来的哈希码保留图像和文本数据项之间的细粒度相似性信息;另一方面利用自编码器使得哈希码尽可能保留标签中的语义信息;结合这两个目标设计损失函数,并利用交替方向乘子法[1]优化损失函数,求解适合这些图像-文本数据项的哈希码;
步骤2、图像和文本的哈希函数学习:这一阶段训练两个哈希函数,分别将图像和文本映射至合适的哈希码上,利用第一个阶段推理得到的图像-文本对的最优哈希码设计损失函数,目标是使得图像和文本经过哈希函数映射至海明空间后能够保持其在原始空间的相似性;
进一步,步骤1中所述哈希码推理的具体流程为,直接利用图像的标签信息构建数据项之间的细粒度相似性性Sij,其表达式为:
Figure BDA0002690799120000021
其中,li=[li1,...,lic]是每一个图像-文本对数据项的标签,每个标签包含c个语义类别,Sij>0表示第i个数据项与第j个数据项具有相似性,即它们的标签至少共享一个类别,而共享的类别越多,Sij的值也越接近1,Sij=-1表示第i幅图像与第j幅图像不相似,即它们的标签不共享任何一个类别。
由于哈希码之间的海明距离可表示其相似性,且海明距离可由哈希码的点积转换得到,因此利用哈希码的点积来重建数据项之间的相似性,把之前定义的相似性转换到合适的范围,即-1到1:
Figure BDA0002690799120000022
之后,为使哈希码能够保留标签的语义信息,定义一个自编码器,其中编码器把标签映射为哈希码,解码器把哈希码映射回标签:
Figure BDA0002690799120000031
其中,
Figure BDA0002690799120000032
为所有数据项的哈希码堆叠而成的矩阵,k为哈希码的长度,
Figure BDA0002690799120000033
是图像-文本对数据项的标签矩阵;
Figure BDA0002690799120000034
是自编码器的权值参数矩阵。结合相似性矩阵和自编码器的重建损失,第一阶段总体的目标函数定义如下:
Figure BDA0002690799120000035
s.t.B∈{-1,1}n×k,LW=B (3)
其中,S为细粒度相似性矩阵,||·||F表示矩阵的Frobenius范数,α为控制自编码器损失的权重参数。这里,将自编码的损失拆分成两个部分,则第一个阶段整体的目标函数定义如下:
Figure BDA0002690799120000036
s.t.B∈{-1,1}n×k (4)
其中,α和λ为控制自编码器损失的权重参数。由于哈希码的离散约束,上式本质上是一个混合整数规划问题(Mixed Integer Programming,MIP)。为避免松弛带来的量化误差,这里直接对目标函数进行优化。
首先,把B的约束条件拆成两个部分B∈Sb和B∈Sp,其中Sb和Sp分别表示[-1,1]n×k
Figure BDA0002690799120000037
然后,引入两个变量Z1和Z2,分别吸收这两个新的约束条件,即B=Z1,Z1∈Sb以及B=Z2,Z2∈So
之后,利用交替方向乘子法的优化算法构造如下增广拉格朗日函数,并利用迭代的方式求解。
Figure BDA0002690799120000038
其中,Tr(·)表示求矩阵的迹,δS(Z)(δSb(Z)、δSp(Z))是指示函数,若Z∈S,则其值为0,否则为+∞;Y1和Y2是两个对偶变量;ρ1和ρ2是两个惩罚系数。然后,利用交替优化的方式更新这些需要求解的变量。
(1)更新B:固定除B之外的所有变量,可得到如下目标函数:
Figure BDA0002690799120000041
该子问题可通过LBFGS-B算法求解,其中梯度定义如下:
Figure BDA0002690799120000042
(2)更新Z:固定除Z之外的所有变量,通过近端最小化算法[3]更新Z1和Z2
Figure BDA0002690799120000043
其中,
Figure BDA0002690799120000044
Figure BDA0002690799120000045
是两个投影函数,
Figure BDA0002690799120000046
把大于1和小于-1的数投影到1和-1上,而
Figure BDA0002690799120000047
对Z2正则化以使其满足
Figure BDA0002690799120000048
(3)更新Y:固定除Y之外的所有变量,在对偶问题上使用梯度上升法[4]
Y1=Y11(B-Z1),Y2=Y22(B-Z2) (9)
(4)更新W:固定除W之外的所有变量,对W求导并令导数为0:
αWBTB+λLTLW=αLTB+λLTB, (10)
这是一个西尔维斯特方程,可通过Bartels-Stewart算法高效求解。
进一步,步骤2中所述图像和文本的哈希函数学习的具体流程为:对于图像利用深度卷积神经网络提取特征,并使用一个全连接层将特征映射至k维输出空间中,最后通过一个符号函数sign映射至海明空间中第一个阶段学习到的哈希码,这里深度卷积神经网络使用CNN-F[2],进行特征提取和哈希码映射。将CNN-F网络的最后一层替换为包含k个节点的全连接层,即图像经过神经网络后输出一个k维向量,用函数可表示为fx(x;θx)∈{-1,1}k,其中θx是神经网络的参数;与图像类似,对于文本利用一个简单的多层感知机完成特征的提取和映射。其中多层感知机包含3个全连接层,分别含有512,512以及k个节点,即文本经过多层感知机后输出一个k维向量,用函数可表示为fy(y;θy)∈{-1,1}k,θy是多层感知机的参数。
在k维输出空间中,期望图像和文本数据项的表示能够接近第一个阶段学习到的哈希码,并保留这些数据项在原始空间的相似性信息,因此设计映射损失
Figure BDA0002690799120000049
和带权重的相似性保留损失
Figure BDA00026907991200000410
另外,由于第一个阶段学习到的哈希码保留了标签的语义信息,因此额外添加一个分类损失
Figure BDA0002690799120000051
使得映射得到的哈希码具有更好的可区分性;具体为:
Figure BDA0002690799120000052
Figure BDA0002690799120000053
Figure BDA0002690799120000054
Figure BDA0002690799120000055
其中,β1和β2为控制不同损失项的重要性的参数。在映射损失
Figure BDA0002690799120000056
和分类损失
Figure BDA0002690799120000057
中,Fu表示神经网络最后一层全连接层的输出,u为x或y,x表示图像,y表示文本;V为从F映射至类别的权值参数。另外,在两阶段的方法中引入带权重的交叉熵损失函数
Figure BDA0002690799120000058
其中,
Figure BDA0002690799120000059
Figure BDA00026907991200000510
是普通粗粒度定义方式的相似性矩阵,
Figure BDA00026907991200000511
Figure BDA00026907991200000512
中的元素,即两个数据项的标签至少共享一个语义类别,则其相似度
Figure BDA00026907991200000513
就为1,表示该样本对为正样本对;否则为
Figure BDA00026907991200000514
就为0,表示该样本对为负样本对。同时,在交叉熵损失中为不同的数据对设计不同的权重W,代表其在损失中具有不同程度的重要性。具体来说,对于正样本对,相似性越高就分配更高的权重,使得它们在更新的时候能够更加敏感。对于负样本对,给那些难学习的负样本对分配更高的比重来突出它们。权重W的定义如下:
Figure BDA00026907991200000515
其中,
Figure BDA00026907991200000516
最后,当需要为一个新的数据项生成哈希码时,只需将该数据项通过对应的哈希函数,即对应的神经网络,利用符号函数sign映射至海明空间:
Figure BDA00026907991200000517
其中,xq表示图片,
Figure BDA00026907991200000518
表示xq映射而成的哈希码;yq表示文本,
Figure BDA00026907991200000519
表示yq映射而成的哈希码。第二阶段的损失函数通过小批量的梯度下降算法以反向传播[5]的方式更新参数。
本发明提供基于细粒度相似性矩阵的跨模态哈希检索算法,包括:
步骤一、所述图像-文本对哈希码推理,利用标签构建细粒度相似性矩阵,结合细粒度相似性矩阵和自编码器设计损失函数,通过交替方向乘子法优化求解,从而推理到一组能较好保持数据项在原始空间相似性及标签中隐藏语义信息的哈希码。
步骤二、所述图像和文本的哈希函数学习,学习两个哈希函数分别将图像和文本映射至合适的哈希码上,而这些哈希码在海明空间中能够保持数据项在原始空间中的相似性。
本发明的优点主要体现为:
首先,第一个阶段中,本发明设计细粒度相似性矩阵,能够表示数据项在原始空间中丰富的相似性信息,从而使得哈希码更具区分性,更加完整地保留相似性信息;另外,自编码器的使用能够让哈希码保留标签的语义信息,交替方向乘子法的优化算法能够避免松弛方式所带来的量化误差。
其次,第二个阶段中,本发明改进基于多分类的哈希函数学习方式,设计映射损失、相似性保留损失和分类损失,其中相似性保留损失为两个阶段的哈希算法引入交叉熵损失,并利用细粒度相似性为交叉熵损失中的每一项分配不同的权重,以表示不同重要性。
最后,本发明基于公开数据集FIRFLICKR-25K、NUS-WIDE、及MS-COCO取得当前主流的检索精度。
附图说明
图1是本发明的框架图。
具体实施方式
由背景技术可知,现有基于两阶段的跨模态哈希算法存在两个主要缺陷。其一,目前的两阶段哈希算法都使用粗粒度相似性矩阵,无法挖掘到数据项在原始空间中丰富的相似性信息。其二,绝大部分两阶段哈希算法使用多分类方式训练哈希码,可能得不到最佳的哈希函数。因此,本实施例针对以上两个问题,分别使用细粒度定义方式的相似性矩阵,并重新设计哈希函数的训练方式来解决上述两个问题。
本实施例中,在第二个阶段的哈希函数学习中,对于图片模态,采用ImageNet上预训练的CNN-F网络。保持前面五个卷积层convl~conv5以及接下来的两个全连接层fc6~fc7不变,将第八层全连接层替换成一个包含k个节点的新的全连接层,使得神经网络的输出维度与哈希码长度一致,以便于后续将神经网络的输出映射到海明空间中。对于文本模态,首先使用词袋模型将文本转换成向量表示,接着使用一个多层感知机将文本向量映射到与哈希码维度相同的公共的表示空间中,便于后续将多层感知机的输出映射到海明空间中。
本实施例中,对于损失函数中的超参数,通过实验确定其取值:α=λ=1,ρ1=ρ2=0.01,β2=10,
Figure BDA0002690799120000061
其中k为哈希码长度,c为标签中语义类别数目。此外,对于MIRFlickr-25K数据集,剩余的超参数设置为γ1=1,γ2=0.05;对于NUS-WIDE数据集,剩余的超参数设置为γ1=0.5,γ2=0.1;对于MS-COCO数据集,剩余的超参数设置为γ1=0.1,γ2=0.5。为了训练第二个阶段中的神经网络,本实施例使用Adam[6]优化器来进行梯度下降优化,并且将学习率设置为10-3~10-4,每次用于梯度下降的样本数设置为64。
本实施例中,选取三个公共数据集对算法进行验证,包括MIRFlickr-25K、NUS-WIDE、及MS-COCO。
MIRFlickr-25K包含25,000幅Flickr.com上收集的图像,每幅图像都有一些语义标注,并且属于24个语义类别中的一个或多个。选取出现次数最多的20个语义标注,这样只留下了20,015个图像-文本对,随机选取2,000个作为查询数据集,剩下的18,015个作为本地数据库。在数据库中随机选取10,000个数据对作为训练数据集,其中文本使用1,386维的词袋向量表示。
NUS-WIDE也是一个从Flickr.com上收集的数据集,包含共计269,648幅图像,同样每幅图像具有一些语义标注,并且属于81个语义类别中的一个或多个。仅选择那些属于出现频率最高的21个类别的数据对,每一个类别中随机选择100个数据对作为查询数据集,剩下的作为本地数据库。在本地数据库中针对每一个类别随机选择500个数据对作为训练数据集,其中文本向量使用1,000维的词袋向量表示。
MS-COCO是一个常用于图像理解任务的数据集,包含122,218幅图像,分别属于80个语义类别。随机选择117,218个数据对作为数据集。在其中随机选取5,000个数据对作为查询数据集,剩下的作为本地数据库。在本地数据库中随机选取10,000个数据对作为训练数据集,其中文本使用2,000维的词袋向量表示。
本实施例中,选择平均检索精度(MAP)作为评价指标。考察图像检索文本任务和文本检索图像任务的MAP指标。对于三个数据集,均考察前500个检索结果的MAP。表1未使用CNN-F在MIRFlickr-25K、NUS-WIDE和MS-COCO上的MAP实验结果。
表1
Figure BDA0002690799120000071
Figure BDA0002690799120000081
表1中,I→T表示图像检索文本任务,T→I表示文本检索文本图像任务,同时,为方便观察,计算两个任务MAP结果的和,用“SUM”表示。从上述实验结果可看到,本实施例在NUS-WIDE和MS-COCO数据集上的两个任务的检索精度都优于其它方法,而在MIRFlickr-25K数据集上,本实施例在图像检索文本任务的检索精度上优于其它方法。这表明本实施例确实能够通过细粒度定义方式的相似性信息使得哈希码在海明空间上保持更加丰富的相似性关系,并且第二个阶段为训练哈希函数设计的方法确实能够发挥更好的效果。
综上所述,本发明尝试挖掘原始数据项之间更加丰富的相似性关系,使得哈希码在海明空间中更具可区分性,即保留更多的相似性关系。同时,由于哈希码的推理并未利用到原始数据,因此本发明尝试利用自编码器使得哈希码尽可能保留标签中的语义信息。进一步,本发明为改进第二个阶段中哈希函数的学习方式,提出一种不同的哈希函数学习策略,同时引入带权重的交叉熵损失使得最终的哈希码保留第一个阶段中挖掘到的细粒度相似性信息。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
参考文献:
[1]Boyd,S.,Parikh,N.,Chu,E.K.,Peleato,B.,&Eckstein,J.(2010).Distributed Optimization and Statistical Learning via the AlternatingDirection Method of Multipliers.Foundations&Trends in Machine Learning,3(1),1-122.
[2]Chatfield,K.,Simonyan,K.,Vedaldi,A.,&Zisserman,A.(2014).Return ofthe Devil in the Details:Delving Deep into Convolutional Nets.BMVC.
[3]Parikh,&Neal.(2014).Proximal algorithms.Foundations&Trends inOptimization,1(3),127-239.
[4]Curry,&Haskell,B..(1994).The method of steepest descent fornonlinear minimization problems.Quart.appl.math,2(3),258-261.
[5]Goodfellow,Ian;Bengio,Yoshua;Courville,Aaron(2016).″6.5 Back-Prooagation and Other Differentiation Algorithms″.Deep Learning.MITPress.pp.200-220.
[6]Kingma,D.P.,&Ba,J.(2015).Adam:A Method for StochasticOptimization.ICLR,1-13.

Claims (4)

1.一种基于细粒度相似性矩阵的面向跨模态检索的哈希算法,其特征在于,具体步骤为:
步骤1、图像-文本对的哈希码推理:一方面利用图像-文本对的标签信息构筑细粒度相似性矩阵S,用来使得推理出来的哈希码保留图像和文本数据项之间的细粒度相似性信息;另一方面利用自编码器使得哈希码尽可能保留标签中的语义信息;结合这两个目标设计损失函数,并利用交替方向乘子法优化损失函数,求解适合这些图像-文本数据项的哈希码;
步骤2、图像和文本的哈希函数学习:这一阶段训练两个哈希函数,分别将图像和文本映射至合适的哈希码上,利用第一个阶段推理得到的图像-文本对的最优哈希码设计损失函数,目标是使得图像和文本经过哈希函数映射至海明空间后能够保持其在原始空间的相似性。
2.根据权利要求1所述的哈希算法,其特征在于,步骤1中所述哈希码推理的具体流程为:直接利用图像的标签信息构建数据项之间的细粒度相似性性Sij,其表达式为:
Figure RE-FDA0002809518130000011
其中,li=[li1,…,lic]是每一个图像-文本对数据项的标签,每个标签包含c个语义类别,Sij>0表示第i个数据项与第j个数据项具有相似性,即它们的标签至少共享一个类别,而共享的类别越多,Sij的值也越接近1,Sij=-1表示第i幅图像与第j幅图像不相似,即它们的标签不共享任何一个类别;
利用哈希码的点积来重建数据项之间的相似性,把之前定义的相似性转换到合适的范围,即-1到1:
Figure RE-FDA0002809518130000012
之后,为使哈希码能够保留标签的语义信息,定义一个自编码器,其中编码器把标签映射为哈希码,解码器把哈希码映射回标签:
Figure RE-FDA0002809518130000013
其中,
Figure RE-FDA0002809518130000014
为所有数据项的哈希码堆叠而成的矩阵,k为哈希码的长度,
Figure RE-FDA0002809518130000015
是图像-文本对数据项的标签矩阵;
Figure RE-FDA0002809518130000016
是自编码器的权值参数矩阵;结合相似性矩阵和自编码器的重建损失,第一阶段总体的目标函数定义如下:
Figure RE-FDA0002809518130000017
s.t.B∈{-1,1}n×k,LW=B (3)
其中,S为细粒度相似性矩阵,‖·‖F表示矩阵的Frobenius范数,α为控制自编码器损失的权重参数;这里,将自编码的损失拆分成两个部分,则第一个阶段整体的目标函数定义如下:
Figure RE-FDA0002809518130000021
s.t.B∈{-1,1}n×k (4)
其中,α和λ为控制自编码器损失的权重参数;由于哈希码的离散约束,上式本质上是一个混合整数规划问题。
3.根据权利要求2所述的哈希算法,其特征在于,对于所述混合整数规划问题,为避免松弛带来的量化误差,直接对目标函数进行优化,具体为:
首先,把B的约束条件拆成两个部分B∈Sb和B∈Sp,其中Sb和Sp分别表示[-1,1]n×k
Figure RE-FDA0002809518130000022
然后,引入两个变量Z1和Z2,分别吸收这两个新的约束条件,即B=Z1,Z1∈Sb以及B=Z2,Z2∈Sp
之后,利用交替方向乘子法的优化算法构造如下增广拉格朗日函数,并利用迭代的方式求解:
Figure RE-FDA0002809518130000023
其中,Tr(·)表示求矩阵的迹,δS(Z)(δSb(Z)、δSp(Z))是指示函数,若Z∈S,则其值为0,否则为+∞;Y1和Y2是两个对偶变量;ρ1和ρ2是两个惩罚系数;然后,利用交替优化的方式更新这些需要求解的变量:
(1)更新B:固定除B之外的所有变量,得到如下目标函数:
Figure RE-FDA0002809518130000024
该子问题通过LBFGS-B算法求解,其中梯度定义如下:
Figure RE-FDA0002809518130000025
(2)更新Z:固定除Z之外的所有变量,通过近端最小化算法更新Z1和Z2
Figure RE-FDA0002809518130000031
其中,
Figure RE-FDA0002809518130000032
Figure RE-FDA0002809518130000033
是两个投影函数,
Figure RE-FDA0002809518130000034
把大于1和小于-1的数投影到1和-1上,而
Figure RE-FDA0002809518130000035
对Z2正则化以使其满足
Figure RE-FDA0002809518130000036
(3)更新Y:固定除Y之外的所有变量,在对偶问题上使用梯度上升法:
Y1=Y11(B-Z1),Y2=Y22(B-Z2) (9)
(4)更新W:固定除W之外的所有变量,对W求导并令导数为0:
αWBTB+λLTLW=αLTB+λLTB, (10)
这是一个西尔维斯特方程,通过Bartels-Stewart算法高效求解。
4.根据权利要求3所述的哈希算法,其特征在于,步骤2中所述图像和文本的哈希函数学习的具体流程为:
对于图像,利用深度卷积神经网络提取特征,并使用一个全连接层将特征映射至k维输出空间中,最后通过一个符号函数sign映射至海明空间中第一个阶段学习到的哈希码;这里深度卷积神经网络使用CNN-F,进行特征提取和哈希码映射;将CNN-F网络的最后一层替换为包含k个节点的全连接层,即图像经过神经网络后输出一个k维向量,用函数表示为fx(x;θx)∈{-1,1}k,其中θx是神经网络的参数;
对于文本,利用一个简单的多层感知机完成特征的提取和映射;其中多层感知机包含3个全连接层,分别含有512,512以及k个节点,即文本经过多层感知机后输出一个k维向量,用函数表示为fy(y;θy)∈{-1,1}k,θy是多层感知机的参数;
在k维输出空间中,期望图像和文本数据项的表示能够接近第一个阶段学习到的哈希码,并保留这些数据项在原始空间的相似性信息,为此,设计映射损失
Figure RE-FDA0002809518130000037
和带权重的相似性保留损失
Figure RE-FDA0002809518130000038
另外,由于第一个阶段学习到的哈希码保留了标签的语义信息,为此,额外添加一个分类损失
Figure RE-FDA0002809518130000039
使得映射得到的哈希码具有更好的可区分性;具体为:
Figure RE-FDA00028095181300000310
Figure RE-FDA00028095181300000311
Figure RE-FDA00028095181300000312
Figure RE-FDA00028095181300000313
其中,β1和β2为控制不同损失项的重要性的参数;在映射损失
Figure RE-FDA00028095181300000314
和分类损失
Figure RE-FDA00028095181300000315
中,Fu表示神经网络最后一层全连接层的输出,u为x或y,x表示图像,y表示文本;V为从F映射至类别的权值参数;在两阶段的方法中引入带权重的交叉熵损失函数
Figure RE-FDA00028095181300000316
其中,
Figure RE-FDA00028095181300000317
Figure RE-FDA0002809518130000041
Figure RE-FDA0002809518130000042
是普通粗粒度定义方式的相似性矩阵,
Figure RE-FDA0002809518130000043
Figure RE-FDA0002809518130000044
中的元素,即两个数据项的标签至少共享一个语义类别,则其相似度
Figure RE-FDA0002809518130000045
就为1,表示该样本对为正样本对;否则为
Figure RE-FDA0002809518130000046
就为0,表示该样本对为负样本对;W为在交叉熵损失中为不同的数据对设计的不同权重,代表其在损失中具有不同程度的重要性;具体来说,对于正样本对,相似性越高就分配更高的权重,使得它们在更新的时候能够更加敏感;对于负样本对,给那些难学习的负样本对分配更高的比重来突出它们;权重W的定义如下:
Figure RE-FDA0002809518130000047
其中,
Figure RE-FDA0002809518130000048
最后,当需要为一个新的数据项生成哈希码时,将该数据项通过对应的哈希函数,即对应的神经网络,利用符号函数sign映射至海明空间:
Figure RE-FDA0002809518130000049
其中,xq表示图片,
Figure RE-FDA00028095181300000410
表示xq映射而成的哈希码;yq表示文本,
Figure RE-FDA00028095181300000411
表示yq映射而成的哈希码;第二阶段的损失函数通过小批量的梯度下降算法以反向传播的方式更新参数。
CN202010990707.7A 2020-09-19 2020-09-19 基于细粒度相似性矩阵的跨模态哈希检索算法 Active CN112199520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010990707.7A CN112199520B (zh) 2020-09-19 2020-09-19 基于细粒度相似性矩阵的跨模态哈希检索算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010990707.7A CN112199520B (zh) 2020-09-19 2020-09-19 基于细粒度相似性矩阵的跨模态哈希检索算法

Publications (2)

Publication Number Publication Date
CN112199520A true CN112199520A (zh) 2021-01-08
CN112199520B CN112199520B (zh) 2022-07-22

Family

ID=74015237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010990707.7A Active CN112199520B (zh) 2020-09-19 2020-09-19 基于细粒度相似性矩阵的跨模态哈希检索算法

Country Status (1)

Country Link
CN (1) CN112199520B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905599A (zh) * 2021-03-18 2021-06-04 南京邮电大学 基于端到端的分布式深度哈希检索方法
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN113051417A (zh) * 2021-04-20 2021-06-29 南京理工大学 一种细粒度图像检索方法及系统
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113221658A (zh) * 2021-04-13 2021-08-06 卓尔智联(武汉)研究院有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113886607A (zh) * 2021-10-14 2022-01-04 哈尔滨工业大学(深圳) 基于图神经网络的哈希检索方法、装置、终端及存储介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN116629272A (zh) * 2023-07-24 2023-08-22 山东大学 自然语言控制的文本生成方法及系统
CN116662490A (zh) * 2023-08-01 2023-08-29 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置
CN116704249A (zh) * 2023-06-07 2023-09-05 唯思电子商务(深圳)有限公司 基于视觉大模型的相似背景图像归类方法
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116704249B (zh) * 2023-06-07 2024-05-24 唯思电子商务(深圳)有限公司 基于视觉大模型的相似背景图像归类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766455A (zh) * 2018-11-15 2019-05-17 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN110069666A (zh) * 2019-04-03 2019-07-30 清华大学 基于近邻结构保持的哈希学习方法和装置
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110489585A (zh) * 2019-07-08 2019-11-22 南京邮电大学 基于监督学习的分布式图像搜索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110122A (zh) * 2018-06-22 2019-08-09 北京交通大学 基于多层语义深度哈希算法的图像-文本跨模态检索
CN109766455A (zh) * 2018-11-15 2019-05-17 南京邮电大学 一种有鉴别的全相似性保留哈希跨模态检索方法
CN110069666A (zh) * 2019-04-03 2019-07-30 清华大学 基于近邻结构保持的哈希学习方法和装置
CN110309331A (zh) * 2019-07-04 2019-10-08 哈尔滨工业大学(深圳) 一种基于自监督的跨模态深度哈希检索方法
CN110489585A (zh) * 2019-07-08 2019-11-22 南京邮电大学 基于监督学习的分布式图像搜索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杜佳宁: "基于潜在语义学习的跨模态哈希检索算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
赵晓乐: "面向胸部CT图像—文本的跨模态哈希检索技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990297A (zh) * 2021-03-10 2021-06-18 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN112990297B (zh) * 2021-03-10 2024-02-02 北京智源人工智能研究院 多模态预训练模型的训练方法、应用方法及装置
CN112905599A (zh) * 2021-03-18 2021-06-04 南京邮电大学 基于端到端的分布式深度哈希检索方法
CN112905599B (zh) * 2021-03-18 2022-10-14 南京邮电大学 基于端到端的分布式深度哈希检索方法
CN113221658A (zh) * 2021-04-13 2021-08-06 卓尔智联(武汉)研究院有限公司 图像处理模型的训练方法、装置、电子设备及存储介质
CN113051417A (zh) * 2021-04-20 2021-06-29 南京理工大学 一种细粒度图像检索方法及系统
CN113051417B (zh) * 2021-04-20 2021-11-16 南京理工大学 一种细粒度图像检索方法及系统
CN113191445A (zh) * 2021-05-16 2021-07-30 中国海洋大学 基于自监督对抗哈希算法的大规模图像检索方法
CN113434671A (zh) * 2021-06-23 2021-09-24 平安国际智慧城市科技股份有限公司 数据处理方法、装置、计算机设备及存储介质
CN113935329A (zh) * 2021-10-13 2022-01-14 昆明理工大学 基于自适应特征识别与去噪的非对称文本匹配方法
CN113886607B (zh) * 2021-10-14 2022-07-12 哈尔滨工业大学(深圳) 基于图神经网络的哈希检索方法、装置、终端及存储介质
CN113886607A (zh) * 2021-10-14 2022-01-04 哈尔滨工业大学(深圳) 基于图神经网络的哈希检索方法、装置、终端及存储介质
CN114186084B (zh) * 2021-12-14 2022-08-26 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN114186084A (zh) * 2021-12-14 2022-03-15 山东大学 在线多模态哈希检索方法、系统、存储介质及设备
CN115578680A (zh) * 2022-09-09 2023-01-06 北京理工大学 一种视频理解方法
CN116704249A (zh) * 2023-06-07 2023-09-05 唯思电子商务(深圳)有限公司 基于视觉大模型的相似背景图像归类方法
CN116704249B (zh) * 2023-06-07 2024-05-24 唯思电子商务(深圳)有限公司 基于视觉大模型的相似背景图像归类方法
CN116629272A (zh) * 2023-07-24 2023-08-22 山东大学 自然语言控制的文本生成方法及系统
CN116629272B (zh) * 2023-07-24 2023-10-10 山东大学 自然语言控制的文本生成方法及系统
CN116662490A (zh) * 2023-08-01 2023-08-29 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置
CN116662490B (zh) * 2023-08-01 2023-10-13 山东大学 融合层次化标签信息的去混淆文本哈希算法和装置
CN116955675A (zh) * 2023-09-21 2023-10-27 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络
CN116955675B (zh) * 2023-09-21 2023-12-12 中国海洋大学 基于细粒度相似关系对比学习的哈希图像检索方法及网络

Also Published As

Publication number Publication date
CN112199520B (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN112199520B (zh) 基于细粒度相似性矩阵的跨模态哈希检索算法
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
US11748613B2 (en) Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning
Che et al. A novel approach for learning label correlation with application to feature selection of multi-label data
CN103729428B (zh) 一种大数据分类方法及系统
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN109325231A (zh) 一种多任务模型生成词向量的方法
Jin et al. Cold-start active learning for image classification
Li et al. Multi-view clustering via adversarial view embedding and adaptive view fusion
Xing et al. An adaptive fuzzy c-means clustering-based mixtures of experts model for unlabeled data classification
Diallo et al. Auto-attention mechanism for multi-view deep embedding clustering
Zhu et al. Auto-encoder based for high spectral dimensional data classification and visualization
Sood et al. Neunets: An automated synthesis engine for neural network design
CN114201960A (zh) 一种基于情感属性挖掘的图像情感分析方法
CN116956228A (zh) 一种技术交易平台的文本挖掘方法
CN116894120A (zh) 一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法
Guo et al. End-to-end variational graph clustering with local structural preservation
Zhang et al. Information block multi-head subspace based long short-term memory networks for sentiment analysis
CN114817581A (zh) 基于融合注意力机制和DenseNet网络的跨模态哈希检索方法
Zhao et al. Modified generative adversarial networks for image classification
Alali A novel stacking method for multi-label classification
Emami et al. Condensed Gradient Boosting
Zhang et al. Soft Hybrid Knowledge Distillation against deep neural networks
CN116721278B (zh) 基于胶囊网络的高光谱图像协同主动学习分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant