CN112199520B - 基于细粒度相似性矩阵的跨模态哈希检索算法 - Google Patents
基于细粒度相似性矩阵的跨模态哈希检索算法 Download PDFInfo
- Publication number
- CN112199520B CN112199520B CN202010990707.7A CN202010990707A CN112199520B CN 112199520 B CN112199520 B CN 112199520B CN 202010990707 A CN202010990707 A CN 202010990707A CN 112199520 B CN112199520 B CN 112199520B
- Authority
- CN
- China
- Prior art keywords
- hash
- image
- text
- similarity
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 66
- 238000013507 mapping Methods 0.000 claims abstract description 22
- 230000014759 maintenance of location Effects 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 2
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 2
- 230000003190 augmentative effect Effects 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 abstract description 8
- 238000009448 modified atmosphere packaging Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 235000021438 curry Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 235000019837 monoammonium phosphate Nutrition 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/41—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9014—Indexing; Data structures therefor; Storage structures hash tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明属于跨模态数据检索技术领域,具体为一种基于细粒度相似性矩阵的跨模态哈希检索算法。本发明算法主要针对图像检索文本与文本检索图像两个任务,包括:哈希码推理:利用图像‑文本对的标签信息构筑细粒度相似性矩阵,使哈希码保留图像‑文本数据项之间的细粒度相似性信息;构造一个自编码器,使哈希码尽可能保留标签中的语义信息;哈希函数学习:训练两个哈希函数,分别将图像和文本映射至哈希码,哈希码学习所用到的目标函数包含哈希码映射损失、带权重的相似性保留损失、及分类损失。本发明在图像搜索文本和文本搜索图像两个任务中都具有比较高的检索精度。
Description
技术领域
本发明属于跨模态检索技术领域,具体涉及基于细粒度相似性矩阵的跨模态哈希检索算法。
背景技术
随着社交媒体的快速发展,每天都有大量的多媒体数据产生,包括文本、图像、视频等。受限于高昂的计算复杂度和存储复杂度,对这些大规模多媒体数据实施精确的最近邻检索变得十分困难。为解决该问题,提出许多的替代方法,其中近似最近邻检索由于其较高检索精度与较低计算开销得到越来越多的关注。在各种近似最近邻检索方法中,哈希算法是目前最具潜力的方法。哈希算法的目标是把高维数据映射至低维海明空间中,在此海明空间中哈希码保留原始数据的相似性信息,因此可利用这些哈希码在海明空间中进行检索。
不同模态的原始数据处在不同分布上,它们之间存在异质性即语义鸿沟,而如何缩小语义鸿沟是一个比较具有挑战性的问题。为缩小语义鸿沟,有必要充分挖掘原始数据的相似性信息。最近,由于深度学习的巨大成功,深度哈希算法正得到越来越多研究者的关注。深度神经网络能够帮助哈希算法获得数据更好的特征表示,且其强大的拟合能力能够拟合更好的非线性哈希函数。在许多公开的大规模数据集上,深度哈希算法都能以更简短的哈希码获得更好的检索精度。
然而,大部分的深度哈希算法是以一种端到端的方式来同时完成哈希码推理和哈希函数学习两项任务,而这种端到端的方式有三个主要缺陷。首先,端到端的训练方式无法灵活地更换哈希函数,每一次更换哈希函数都要重新训练哈希码和哈希函数。其次,这种端到端的方法会交替训练哈希码和哈希函数,这会使得哈希码和哈希函数的训练过程互相影响,最终可能会使得学习到的哈希码和哈希都变差。最后,为构建图像和文本数据项之间的相似性关系,大部分的算法都是采用逐对式(Pairwise)和三元组式(Triplet-wise)的相似性计算方式,其数量级分别为和其中n表示数据项的数目。由于计算资源的限制,大多数深度哈希算法只能以小批量(mini-batch)方式进行训练,这使得它们每次都只能保持局部相似性而无法保持全局相似性,从而降低检索精度。为解决这些问题,出现一些两阶段的深度哈希算法。本发明所关注的正是这种两阶段的哈希算法。
目前的两阶段跨模态哈希算法仍然存在两个方面的不足之处。首先,第一个阶段中为学习哈希码所构建的相似性矩阵过于粗粒度,也就是说两个数据项只要共享一个语义类别就令其相似性为1,否则为0,而这样的构建方式无法表现出数据项在原始空间中丰富的相似性信息。另外,在第二个阶段中,目前绝大部分的两阶段哈希算法都是基于多分类的方式,而哈希码的学习目标是为了保留在海明空间中的相似性,所学习到的哈希码不一定能够满足分类的需求。并且哈希码的每一位都没有明显的语义信息,那些对分类任务来说是噪声的位甚至会影响分类的准确率。
发明内容
本发明为解决现有跨模态哈希算法无法挖掘数据项在原始空间丰富的相似性信息,提出一种基于细粒度相似性矩阵的跨模态哈希检索算法,该算法同时改进分类的哈希函数学习方式。
本发明提供的基于细粒度相似性矩阵的跨模态哈希检索算法,包含图像-文本对的哈希码推理与图像-文本对的哈希函数学习两个步骤,其中:
步骤1、图像-文本对的哈希码推理:一方面利用图像-文本对的标签信息构筑细粒度相似性矩阵S,用来使得推理出来的哈希码保留图像和文本数据项之间的细粒度相似性信息;另一方面利用自编码器使得哈希码尽可能保留标签中的语义信息;结合这两个目标设计损失函数,并利用交替方向乘子法[1]优化损失函数,求解适合这些图像-文本数据项的哈希码;
步骤2、图像和文本的哈希函数学习:这一阶段训练两个哈希函数,分别将图像和文本映射至合适的哈希码上,利用第一个阶段推理得到的图像-文本对的最优哈希码设计损失函数,目标是使得图像和文本经过哈希函数映射至海明空间后能够保持其在原始空间的相似性;
进一步,步骤1中所述哈希码推理的具体流程为,直接利用图像的标签信息构建数据项之间的细粒度相似性性Sij,其表达式为:
其中,li=[li1,...,lic]是每一个图像-文本对数据项的标签,每个标签包含c个语义类别,Sij>0表示第i个数据项与第j个数据项具有相似性,即它们的标签至少共享一个类别,而共享的类别越多,Sij的值也越接近1,Sij=-1表示第i幅图像与第j幅图像不相似,即它们的标签不共享任何一个类别。
由于哈希码之间的海明距离可表示其相似性,且海明距离可由哈希码的点积转换得到,因此利用哈希码的点积来重建数据项之间的相似性,把之前定义的相似性转换到合适的范围,即-1到1:
之后,为使哈希码能够保留标签的语义信息,定义一个自编码器,其中编码器把标签映射为哈希码,解码器把哈希码映射回标签:
s.t.B∈{-1,1}n×k,LW=B (3)
其中,S为细粒度相似性矩阵,||·||F表示矩阵的Frobenius范数,α为控制自编码器损失的权重参数。这里,将自编码的损失拆分成两个部分,则第一个阶段整体的目标函数定义如下:
s.t.B∈{-1,1}n×k (4)
其中,α和λ为控制自编码器损失的权重参数。由于哈希码的离散约束,上式本质上是一个混合整数规划问题(Mixed Integer Programming,MIP)。为避免松弛带来的量化误差,这里直接对目标函数进行优化。
然后,引入两个变量Z1和Z2,分别吸收这两个新的约束条件,即B=Z1,Z1∈Sb以及B=Z2,Z2∈So。
之后,利用交替方向乘子法的优化算法构造如下增广拉格朗日函数,并利用迭代的方式求解。
其中,Tr(·)表示求矩阵的迹,δS(Z)(δSb(Z)、δSp(Z))是指示函数,若Z∈S,则其值为0,否则为+∞;Y1和Y2是两个对偶变量;ρ1和ρ2是两个惩罚系数。然后,利用交替优化的方式更新这些需要求解的变量。
(1)更新B:固定除B之外的所有变量,可得到如下目标函数:
该子问题可通过LBFGS-B算法求解,其中梯度定义如下:
(2)更新Z:固定除Z之外的所有变量,通过近端最小化算法[3]更新Z1和Z2:
(3)更新Y:固定除Y之外的所有变量,在对偶问题上使用梯度上升法[4]:
Y1=Y1+ρ1(B-Z1),Y2=Y2+ρ2(B-Z2) (9)
(4)更新W:固定除W之外的所有变量,对W求导并令导数为0:
αWBTB+λLTLW=αLTB+λLTB, (10)
这是一个西尔维斯特方程,可通过Bartels-Stewart算法高效求解。
进一步,步骤2中所述图像和文本的哈希函数学习的具体流程为:对于图像利用深度卷积神经网络提取特征,并使用一个全连接层将特征映射至k维输出空间中,最后通过一个符号函数sign映射至海明空间中第一个阶段学习到的哈希码,这里深度卷积神经网络使用CNN-F[2],进行特征提取和哈希码映射。将CNN-F网络的最后一层替换为包含k个节点的全连接层,即图像经过神经网络后输出一个k维向量,用函数可表示为fx(x;θx)∈{-1,1}k,其中θx是神经网络的参数;与图像类似,对于文本利用一个简单的多层感知机完成特征的提取和映射。其中多层感知机包含3个全连接层,分别含有512,512以及k个节点,即文本经过多层感知机后输出一个k维向量,用函数可表示为fy(y;θy)∈{-1,1}k,θy是多层感知机的参数。
在k维输出空间中,期望图像和文本数据项的表示能够接近第一个阶段学习到的哈希码,并保留这些数据项在原始空间的相似性信息,因此设计映射损失和带权重的相似性保留损失另外,由于第一个阶段学习到的哈希码保留了标签的语义信息,因此额外添加一个分类损失使得映射得到的哈希码具有更好的可区分性;具体为:
其中,β1和β2为控制不同损失项的重要性的参数。在映射损失和分类损失中,Fu表示神经网络最后一层全连接层的输出,u为x或y,x表示图像,y表示文本;V为从F映射至类别的权值参数。另外,在两阶段的方法中引入带权重的交叉熵损失函数其中, 是普通粗粒度定义方式的相似性矩阵,为中的元素,即两个数据项的标签至少共享一个语义类别,则其相似度就为1,表示该样本对为正样本对;否则为就为0,表示该样本对为负样本对。同时,在交叉熵损失中为不同的数据对设计不同的权重W,代表其在损失中具有不同程度的重要性。具体来说,对于正样本对,相似性越高就分配更高的权重,使得它们在更新的时候能够更加敏感。对于负样本对,给那些难学习的负样本对分配更高的比重来突出它们。权重W的定义如下:
本发明提供基于细粒度相似性矩阵的跨模态哈希检索算法,包括:
步骤一、所述图像-文本对哈希码推理,利用标签构建细粒度相似性矩阵,结合细粒度相似性矩阵和自编码器设计损失函数,通过交替方向乘子法优化求解,从而推理到一组能较好保持数据项在原始空间相似性及标签中隐藏语义信息的哈希码。
步骤二、所述图像和文本的哈希函数学习,学习两个哈希函数分别将图像和文本映射至合适的哈希码上,而这些哈希码在海明空间中能够保持数据项在原始空间中的相似性。
本发明的优点主要体现为:
首先,第一个阶段中,本发明设计细粒度相似性矩阵,能够表示数据项在原始空间中丰富的相似性信息,从而使得哈希码更具区分性,更加完整地保留相似性信息;另外,自编码器的使用能够让哈希码保留标签的语义信息,交替方向乘子法的优化算法能够避免松弛方式所带来的量化误差。
其次,第二个阶段中,本发明改进基于多分类的哈希函数学习方式,设计映射损失、相似性保留损失和分类损失,其中相似性保留损失为两个阶段的哈希算法引入交叉熵损失,并利用细粒度相似性为交叉熵损失中的每一项分配不同的权重,以表示不同重要性。
最后,本发明基于公开数据集FIRFLICKR-25K、NUS-WIDE、及MS-COCO取得当前主流的检索精度。
附图说明
图1是本发明的框架图。
具体实施方式
由背景技术可知,现有基于两阶段的跨模态哈希算法存在两个主要缺陷。其一,目前的两阶段哈希算法都使用粗粒度相似性矩阵,无法挖掘到数据项在原始空间中丰富的相似性信息。其二,绝大部分两阶段哈希算法使用多分类方式训练哈希码,可能得不到最佳的哈希函数。因此,本实施例针对以上两个问题,分别使用细粒度定义方式的相似性矩阵,并重新设计哈希函数的训练方式来解决上述两个问题。
本实施例中,在第二个阶段的哈希函数学习中,对于图片模态,采用ImageNet上预训练的CNN-F网络。保持前面五个卷积层convl~conv5以及接下来的两个全连接层fc6~fc7不变,将第八层全连接层替换成一个包含k个节点的新的全连接层,使得神经网络的输出维度与哈希码长度一致,以便于后续将神经网络的输出映射到海明空间中。对于文本模态,首先使用词袋模型将文本转换成向量表示,接着使用一个多层感知机将文本向量映射到与哈希码维度相同的公共的表示空间中,便于后续将多层感知机的输出映射到海明空间中。
本实施例中,对于损失函数中的超参数,通过实验确定其取值:α=λ=1,ρ1=ρ2=0.01,β2=10,其中k为哈希码长度,c为标签中语义类别数目。此外,对于MIRFlickr-25K数据集,剩余的超参数设置为γ1=1,γ2=0.05;对于NUS-WIDE数据集,剩余的超参数设置为γ1=0.5,γ2=0.1;对于MS-COCO数据集,剩余的超参数设置为γ1=0.1,γ2=0.5。为了训练第二个阶段中的神经网络,本实施例使用Adam[6]优化器来进行梯度下降优化,并且将学习率设置为10-3~10-4,每次用于梯度下降的样本数设置为64。
本实施例中,选取三个公共数据集对算法进行验证,包括MIRFlickr-25K、NUS-WIDE、及MS-COCO。
MIRFlickr-25K包含25,000幅Flickr.com上收集的图像,每幅图像都有一些语义标注,并且属于24个语义类别中的一个或多个。选取出现次数最多的20个语义标注,这样只留下了20,015个图像-文本对,随机选取2,000个作为查询数据集,剩下的18,015个作为本地数据库。在数据库中随机选取10,000个数据对作为训练数据集,其中文本使用1,386维的词袋向量表示。
NUS-WIDE也是一个从Flickr.com上收集的数据集,包含共计269,648幅图像,同样每幅图像具有一些语义标注,并且属于81个语义类别中的一个或多个。仅选择那些属于出现频率最高的21个类别的数据对,每一个类别中随机选择100个数据对作为查询数据集,剩下的作为本地数据库。在本地数据库中针对每一个类别随机选择500个数据对作为训练数据集,其中文本向量使用1,000维的词袋向量表示。
MS-COCO是一个常用于图像理解任务的数据集,包含122,218幅图像,分别属于80个语义类别。随机选择117,218个数据对作为数据集。在其中随机选取5,000个数据对作为查询数据集,剩下的作为本地数据库。在本地数据库中随机选取10,000个数据对作为训练数据集,其中文本使用2,000维的词袋向量表示。
本实施例中,选择平均检索精度(MAP)作为评价指标。考察图像检索文本任务和文本检索图像任务的MAP指标。对于三个数据集,均考察前500个检索结果的MAP。表1未使用CNN-F在MIRFlickr-25K、NUS-WIDE和MS-COCO上的MAP实验结果。
表1
表1中,I→T表示图像检索文本任务,T→I表示文本检索文本图像任务,同时,为方便观察,计算两个任务MAP结果的和,用“SUM”表示。从上述实验结果可看到,本实施例在NUS-WIDE和MS-COCO数据集上的两个任务的检索精度都优于其它方法,而在MIRFlickr-25K数据集上,本实施例在图像检索文本任务的检索精度上优于其它方法。这表明本实施例确实能够通过细粒度定义方式的相似性信息使得哈希码在海明空间上保持更加丰富的相似性关系,并且第二个阶段为训练哈希函数设计的方法确实能够发挥更好的效果。
综上所述,本发明尝试挖掘原始数据项之间更加丰富的相似性关系,使得哈希码在海明空间中更具可区分性,即保留更多的相似性关系。同时,由于哈希码的推理并未利用到原始数据,因此本发明尝试利用自编码器使得哈希码尽可能保留标签中的语义信息。进一步,本发明为改进第二个阶段中哈希函数的学习方式,提出一种不同的哈希函数学习策略,同时引入带权重的交叉熵损失使得最终的哈希码保留第一个阶段中挖掘到的细粒度相似性信息。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。
参考文献:
[1]Boyd,S.,Parikh,N.,Chu,E.K.,Peleato,B.,&Eckstein,J.(2010).Distributed Optimization and Statistical Learning via the AlternatingDirection Method of Multipliers.Foundations&Trends in Machine Learning,3(1),1-122.
[2]Chatfield,K.,Simonyan,K.,Vedaldi,A.,&Zisserman,A.(2014).Return ofthe Devil in the Details:Delving Deep into Convolutional Nets.BMVC.
[3]Parikh,&Neal.(2014).Proximal algorithms.Foundations&Trends inOptimization,1(3),127-239.
[4]Curry,&Haskell,B..(1994).The method of steepest descent fornonlinear minimization problems.Quart.appl.math,2(3),258-261.
[5]Goodfellow,Ian;Bengio,Yoshua;Courville,Aaron(2016).″6.5 Back-Prooagation and Other Differentiation Algorithms″.Deep Learning.MITPress.pp.200-220.
[6]Kingma,D.P.,&Ba,J.(2015).Adam:A Method for StochasticOptimization.ICLR,1-13.
Claims (3)
1.一种基于细粒度相似性矩阵的面向跨模态检索的哈希算法,其特征在于,具体步骤为:
步骤1、图像-文本对的哈希码推理:一方面利用图像-文本对的标签信息构筑细粒度相似性矩阵S,用来使得推理出来的哈希码保留图像和文本数据项之间的细粒度相似性信息;另一方面利用自编码器使得哈希码保留标签中的语义信息;结合这两个目标设计损失函数,并利用交替方向乘子法优化损失函数,求解这些图像-文本数据项的哈希码;
步骤2、图像和文本的哈希函数学习:这一阶段训练两个哈希函数,分别将图像和文本映射至哈希码上,利用第一个阶段推理得到的图像-文本对的最优哈希码设计损失函数,目标是使得图像和文本经过哈希函数映射至海明空间后能够保持其在原始空间的相似性;
步骤1中所述哈希码推理的具体流程为:
直接利用图像的标签信息构建数据项之间的细粒度相似性性Sij,其表达式为:
其中,li=[li1,…,lic]是每一个图像-文本对数据项的标签,每个标签包含c个语义类别,Sij>0表示第i个数据项与第j个数据项具有相似性,它们的标签至少共享一个类别,Sij=-1表示第i幅图像与第j幅图像不相似,它们的标签不共享任何一个类别;
利用哈希码的点积来重建数据项之间的相似性,把之前定义的相似性转换到-1到1的范围:
之后,为使哈希码能够保留标签的语义信息,定义一个自编码器,其中编码器把标签映射为哈希码,解码器把哈希码映射回标签:
其中,S为细粒度相似性矩阵,‖·‖F表示矩阵的Frobenius范数,α为控制自编码器损失的权重参数;这里,将自编码的损失拆分成两个部分,则第一个阶段整体的目标函数定义如下:
其中,α和λ为控制自编码器损失的权重参数;由于哈希码的离散约束,上式本质上是一个混合整数规划问题。
2.根据权利要求1所述的哈希算法,其特征在于,对于所述混合整数规划问题,为避免松弛带来的量化误差,直接对目标函数进行优化,具体为:
然后,引入两个变量Z1和Z2,分别吸收这两个新的约束条件,B=Z1,Z1∈Sb以及B=Z2,Z2∈Sp;
之后,利用交替方向乘子法的优化算法构造如下增广拉格朗日函数,并利用迭代的方式求解:
其中,Tr(·)表示求矩阵的迹,δS(Z)(δSb(Z)、δSp(Z))是指示函数,若Z∈S,则其值为0,否则为+∞;Y1和Y2是两个对偶变量;ρ1和ρ2是两个惩罚系数;然后,利用交替优化的方式更新这些需要求解的变量:
(1)更新B:固定除B之外的所有变量,得到如下目标函数:
该目标函数通过LBFGS-B算法求解,其中梯度定义如下:
(2)更新Z:固定除Z之外的所有变量,通过近端最小化算法更新Z1和Z2:
(3)更新Y:固定除Y之外的所有变量,在对偶问题上使用梯度上升法:
Y1=Y1+ρ1(B-Z1),Y2=Y2+ρ2(B-Z2) (9)
(4)更新W:固定除W之外的所有变量,对W求导并令导数为0:
αWBTB+λLTLW=αLTB+λLTB, (10)
这是一个西尔维斯特方程,通过Bartels-Stewart算法高效求解。
3.根据权利要求2所述的哈希算法,其特征在于,步骤2中所述图像和文本的哈希函数学习的具体流程为:
对于图像,利用深度卷积神经网络提取特征,并使用一个全连接层将特征映射至k维输出空间中,最后通过一个符号函数sign映射至海明空间中第一个阶段学习到的哈希码;这里深度卷积神经网络使用CNN-F,进行特征提取和哈希码映射;将CNN-F网络的最后一层替换为包含k个节点的全连接层,图像经过神经网络后输出一个k维向量,用函数表示为fx(x;θx)∈{-1,1}k,其中θx是神经网络的参数;
对于文本,利用一个简单的多层感知机完成特征的提取和映射;其中多层感知机包含3个全连接层,分别含有512,512以及k个节点,文本经过多层感知机后输出一个k维向量,用函数表示为fy(y;θy)∈{-1,1}k,θy是多层感知机的参数;
其中,β1和β2为控制不同损失项的重要性的参数;在映射损失和分类损失中,Fu表示神经网络最后一层全连接层的输出,u为x或y,x表示图像,y表示文本;V为从F映射至类别的权值参数;在两阶段的方法中引入带权重的交叉熵损失函数其中, 是普通粗粒度定义方式的相似性矩阵,为中的元素,两个数据项的标签至少共享一个语义类别,则其相似度就为1,表示图像-文本对为正样本对;否则为就为0,表示图像-文本对为负样本对;W为在交叉熵损失中为不同的数据对设计的不同权重,代表其在损失中具有不同程度的重要性;具体来说,对于正样本对,相似性越高就分配更高的权重;对于负样本对,给那些难学习的负样本对分配更高的比重来突出它们;权重W的定义如下:
最后,当需要为一个新的数据项生成哈希码时,将该数据项通过对应的哈希函数,利用符号函数sign映射至海明空间:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010990707.7A CN112199520B (zh) | 2020-09-19 | 2020-09-19 | 基于细粒度相似性矩阵的跨模态哈希检索算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010990707.7A CN112199520B (zh) | 2020-09-19 | 2020-09-19 | 基于细粒度相似性矩阵的跨模态哈希检索算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112199520A CN112199520A (zh) | 2021-01-08 |
CN112199520B true CN112199520B (zh) | 2022-07-22 |
Family
ID=74015237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010990707.7A Active CN112199520B (zh) | 2020-09-19 | 2020-09-19 | 基于细粒度相似性矩阵的跨模态哈希检索算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199520B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990297B (zh) * | 2021-03-10 | 2024-02-02 | 北京智源人工智能研究院 | 多模态预训练模型的训练方法、应用方法及装置 |
CN112905599B (zh) * | 2021-03-18 | 2022-10-14 | 南京邮电大学 | 基于端到端的分布式深度哈希检索方法 |
CN113221658A (zh) * | 2021-04-13 | 2021-08-06 | 卓尔智联(武汉)研究院有限公司 | 图像处理模型的训练方法、装置、电子设备及存储介质 |
CN113051417B (zh) * | 2021-04-20 | 2021-11-16 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113191445B (zh) * | 2021-05-16 | 2022-07-19 | 中国海洋大学 | 基于自监督对抗哈希算法的大规模图像检索方法 |
CN113434671B (zh) * | 2021-06-23 | 2024-06-07 | 平安国际智慧城市科技股份有限公司 | 数据处理方法、装置、计算机设备及存储介质 |
CN113935329B (zh) * | 2021-10-13 | 2022-12-13 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
CN113886607B (zh) * | 2021-10-14 | 2022-07-12 | 哈尔滨工业大学(深圳) | 基于图神经网络的哈希检索方法、装置、终端及存储介质 |
CN114329031B (zh) * | 2021-12-13 | 2024-09-24 | 南京航空航天大学 | 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法 |
CN114186084B (zh) * | 2021-12-14 | 2022-08-26 | 山东大学 | 在线多模态哈希检索方法、系统、存储介质及设备 |
CN114781535A (zh) * | 2022-05-05 | 2022-07-22 | 安徽大学 | 联合矩阵分解和双向映射网络的多标签分类方法及系统 |
CN115578680B (zh) * | 2022-09-09 | 2023-06-02 | 北京理工大学 | 一种视频理解方法 |
CN116704249B (zh) * | 2023-06-07 | 2024-05-24 | 唯思电子商务(深圳)有限公司 | 基于视觉大模型的相似背景图像归类方法 |
CN116629272B (zh) * | 2023-07-24 | 2023-10-10 | 山东大学 | 自然语言控制的文本生成方法及系统 |
CN116662490B (zh) * | 2023-08-01 | 2023-10-13 | 山东大学 | 融合层次化标签信息的去混淆文本哈希算法和装置 |
CN116955675B (zh) * | 2023-09-21 | 2023-12-12 | 中国海洋大学 | 基于细粒度相似关系对比学习的哈希图像检索方法及网络 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766455A (zh) * | 2018-11-15 | 2019-05-17 | 南京邮电大学 | 一种有鉴别的全相似性保留哈希跨模态检索方法 |
CN110069666A (zh) * | 2019-04-03 | 2019-07-30 | 清华大学 | 基于近邻结构保持的哈希学习方法和装置 |
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110489585A (zh) * | 2019-07-08 | 2019-11-22 | 南京邮电大学 | 基于监督学习的分布式图像搜索方法 |
-
2020
- 2020-09-19 CN CN202010990707.7A patent/CN112199520B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110122A (zh) * | 2018-06-22 | 2019-08-09 | 北京交通大学 | 基于多层语义深度哈希算法的图像-文本跨模态检索 |
CN109766455A (zh) * | 2018-11-15 | 2019-05-17 | 南京邮电大学 | 一种有鉴别的全相似性保留哈希跨模态检索方法 |
CN110069666A (zh) * | 2019-04-03 | 2019-07-30 | 清华大学 | 基于近邻结构保持的哈希学习方法和装置 |
CN110309331A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学(深圳) | 一种基于自监督的跨模态深度哈希检索方法 |
CN110489585A (zh) * | 2019-07-08 | 2019-11-22 | 南京邮电大学 | 基于监督学习的分布式图像搜索方法 |
Non-Patent Citations (2)
Title |
---|
基于潜在语义学习的跨模态哈希检索算法研究;杜佳宁;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200215;第3章第3.3节 * |
面向胸部CT图像—文本的跨模态哈希检索技术研究;赵晓乐;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200415;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112199520A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112199520B (zh) | 基于细粒度相似性矩阵的跨模态哈希检索算法 | |
CN113822494B (zh) | 风险预测方法、装置、设备及存储介质 | |
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
Cong et al. | A review of convolutional neural network architectures and their optimizations | |
Hussain et al. | A deep neural network and classical features based scheme for objects recognition: an application for machine inspection | |
CN110110122A (zh) | 基于多层语义深度哈希算法的图像-文本跨模态检索 | |
CN112119412A (zh) | 具有注意力的图神经网络 | |
CN103729428B (zh) | 一种大数据分类方法及系统 | |
CN113553440B (zh) | 一种基于层次推理的医学实体关系抽取方法 | |
CN109189862A (zh) | 一种面向科技情报分析的知识库构建方法 | |
Raschka | Machine Learning Q and AI: 30 Essential Questions and Answers on Machine Learning and AI | |
Jin et al. | Cold-start active learning for image classification | |
Li et al. | Multi-view clustering via adversarial view embedding and adaptive view fusion | |
Sepahvand et al. | Teacher–student knowledge distillation based on decomposed deep feature representation for intelligent mobile applications | |
Chen et al. | Extensible Cross-Modal Hashing. | |
CN116894120A (zh) | 一种基于动态多专家知识蒸馏的无监督跨模态哈希检索方法 | |
CN114201960A (zh) | 一种基于情感属性挖掘的图像情感分析方法 | |
Rani et al. | Deep learning with big data: an emerging trend | |
CN117954081A (zh) | 一种基于图Transformer的智能医疗问诊方法及系统 | |
Zhang et al. | Soft Hybrid Knowledge Distillation against deep neural networks | |
CN116956228A (zh) | 一种技术交易平台的文本挖掘方法 | |
US20240087683A1 (en) | Classification using a machine learning model trained with triplet loss | |
Zhang et al. | Information block multi-head subspace based long short-term memory networks for sentiment analysis | |
Zhao et al. | Modified generative adversarial networks for image classification | |
Guo et al. | End-to-end variational graph clustering with local structural preservation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |