CN112199520B

CN112199520B - 基于细粒度相似性矩阵的跨模态哈希检索算法

Info

Publication number: CN112199520B
Application number: CN202010990707.7A
Authority: CN
Inventors: 张玥杰; 全家琦
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-09-19
Filing date: 2020-09-19
Publication date: 2022-07-22
Anticipated expiration: 2040-09-19
Also published as: CN112199520A

Abstract

本发明属于跨模态数据检索技术领域，具体为一种基于细粒度相似性矩阵的跨模态哈希检索算法。本发明算法主要针对图像检索文本与文本检索图像两个任务，包括：哈希码推理：利用图像‑文本对的标签信息构筑细粒度相似性矩阵，使哈希码保留图像‑文本数据项之间的细粒度相似性信息；构造一个自编码器，使哈希码尽可能保留标签中的语义信息；哈希函数学习：训练两个哈希函数，分别将图像和文本映射至哈希码，哈希码学习所用到的目标函数包含哈希码映射损失、带权重的相似性保留损失、及分类损失。本发明在图像搜索文本和文本搜索图像两个任务中都具有比较高的检索精度。

Description

基于细粒度相似性矩阵的跨模态哈希检索算法

技术领域

本发明属于跨模态检索技术领域，具体涉及基于细粒度相似性矩阵的跨模态哈希检索算法。

背景技术

随着社交媒体的快速发展，每天都有大量的多媒体数据产生，包括文本、图像、视频等。受限于高昂的计算复杂度和存储复杂度，对这些大规模多媒体数据实施精确的最近邻检索变得十分困难。为解决该问题，提出许多的替代方法，其中近似最近邻检索由于其较高检索精度与较低计算开销得到越来越多的关注。在各种近似最近邻检索方法中，哈希算法是目前最具潜力的方法。哈希算法的目标是把高维数据映射至低维海明空间中，在此海明空间中哈希码保留原始数据的相似性信息，因此可利用这些哈希码在海明空间中进行检索。

不同模态的原始数据处在不同分布上，它们之间存在异质性即语义鸿沟，而如何缩小语义鸿沟是一个比较具有挑战性的问题。为缩小语义鸿沟，有必要充分挖掘原始数据的相似性信息。最近，由于深度学习的巨大成功，深度哈希算法正得到越来越多研究者的关注。深度神经网络能够帮助哈希算法获得数据更好的特征表示，且其强大的拟合能力能够拟合更好的非线性哈希函数。在许多公开的大规模数据集上，深度哈希算法都能以更简短的哈希码获得更好的检索精度。

然而，大部分的深度哈希算法是以一种端到端的方式来同时完成哈希码推理和哈希函数学习两项任务，而这种端到端的方式有三个主要缺陷。首先，端到端的训练方式无法灵活地更换哈希函数，每一次更换哈希函数都要重新训练哈希码和哈希函数。其次，这种端到端的方法会交替训练哈希码和哈希函数，这会使得哈希码和哈希函数的训练过程互相影响，最终可能会使得学习到的哈希码和哈希都变差。最后，为构建图像和文本数据项之间的相似性关系，大部分的算法都是采用逐对式(Pairwise)和三元组式(Triplet-wise)的相似性计算方式，其数量级分别为

和

其中n表示数据项的数目。由于计算资源的限制，大多数深度哈希算法只能以小批量(mini-batch)方式进行训练，这使得它们每次都只能保持局部相似性而无法保持全局相似性，从而降低检索精度。为解决这些问题，出现一些两阶段的深度哈希算法。本发明所关注的正是这种两阶段的哈希算法。

目前的两阶段跨模态哈希算法仍然存在两个方面的不足之处。首先，第一个阶段中为学习哈希码所构建的相似性矩阵过于粗粒度，也就是说两个数据项只要共享一个语义类别就令其相似性为1，否则为0，而这样的构建方式无法表现出数据项在原始空间中丰富的相似性信息。另外，在第二个阶段中，目前绝大部分的两阶段哈希算法都是基于多分类的方式，而哈希码的学习目标是为了保留在海明空间中的相似性，所学习到的哈希码不一定能够满足分类的需求。并且哈希码的每一位都没有明显的语义信息，那些对分类任务来说是噪声的位甚至会影响分类的准确率。

发明内容

本发明为解决现有跨模态哈希算法无法挖掘数据项在原始空间丰富的相似性信息，提出一种基于细粒度相似性矩阵的跨模态哈希检索算法，该算法同时改进分类的哈希函数学习方式。

本发明提供的基于细粒度相似性矩阵的跨模态哈希检索算法，包含图像-文本对的哈希码推理与图像-文本对的哈希函数学习两个步骤，其中：

步骤1、图像-文本对的哈希码推理：一方面利用图像-文本对的标签信息构筑细粒度相似性矩阵S，用来使得推理出来的哈希码保留图像和文本数据项之间的细粒度相似性信息；另一方面利用自编码器使得哈希码尽可能保留标签中的语义信息；结合这两个目标设计损失函数，并利用交替方向乘子法^[1]优化损失函数，求解适合这些图像-文本数据项的哈希码；

步骤2、图像和文本的哈希函数学习：这一阶段训练两个哈希函数，分别将图像和文本映射至合适的哈希码上，利用第一个阶段推理得到的图像-文本对的最优哈希码设计损失函数，目标是使得图像和文本经过哈希函数映射至海明空间后能够保持其在原始空间的相似性；

进一步，步骤1中所述哈希码推理的具体流程为，直接利用图像的标签信息构建数据项之间的细粒度相似性性S_ij，其表达式为：

其中，l_i＝[l_i1，...，l_ic]是每一个图像-文本对数据项的标签，每个标签包含c个语义类别，S_ij＞0表示第i个数据项与第j个数据项具有相似性，即它们的标签至少共享一个类别，而共享的类别越多，S_ij的值也越接近1，S_ij＝-1表示第i幅图像与第j幅图像不相似，即它们的标签不共享任何一个类别。

由于哈希码之间的海明距离可表示其相似性，且海明距离可由哈希码的点积转换得到，因此利用哈希码的点积来重建数据项之间的相似性，把之前定义的相似性转换到合适的范围，即-1到1：

之后，为使哈希码能够保留标签的语义信息，定义一个自编码器，其中编码器把标签映射为哈希码，解码器把哈希码映射回标签：

其中，

为所有数据项的哈希码堆叠而成的矩阵，k为哈希码的长度，

是图像-文本对数据项的标签矩阵；

是自编码器的权值参数矩阵。结合相似性矩阵和自编码器的重建损失，第一阶段总体的目标函数定义如下：

s.t.B∈{-1，1}^n×k，LW＝B (3)

其中，S为细粒度相似性矩阵，||·||_F表示矩阵的Frobenius范数，α为控制自编码器损失的权重参数。这里，将自编码的损失拆分成两个部分，则第一个阶段整体的目标函数定义如下：

s.t.B∈{-1，1}^n×k (4)

其中，α和λ为控制自编码器损失的权重参数。由于哈希码的离散约束，上式本质上是一个混合整数规划问题(Mixed Integer Programming，MIP)。为避免松弛带来的量化误差，这里直接对目标函数进行优化。

首先，把B的约束条件拆成两个部分B∈S_b和B∈S_p，其中S_b和S_p分别表示[-1，1]^n×k和

然后，引入两个变量Z₁和Z₂，分别吸收这两个新的约束条件，即B＝Z₁，Z₁∈S_b以及B＝Z₂，Z₂∈S_o。

之后，利用交替方向乘子法的优化算法构造如下增广拉格朗日函数，并利用迭代的方式求解。

其中，Tr(·)表示求矩阵的迹，δ_S(Z)(δ_Sb(Z)、δ_Sp(Z))是指示函数，若Z∈S，则其值为0，否则为+∞；Y₁和Y₂是两个对偶变量；ρ₁和ρ₂是两个惩罚系数。然后，利用交替优化的方式更新这些需要求解的变量。

(1)更新B：固定除B之外的所有变量，可得到如下目标函数：

该子问题可通过LBFGS-B算法求解，其中梯度定义如下：

(2)更新Z：固定除Z之外的所有变量，通过近端最小化算法^[3]更新Z₁和Z₂：

其中，

和

是两个投影函数，

把大于1和小于-1的数投影到1和-1上，而

对Z₂正则化以使其满足

(3)更新Y：固定除Y之外的所有变量，在对偶问题上使用梯度上升法^[4]：

Y₁＝Y₁+ρ₁(B-Z₁)，Y₂＝Y₂+ρ₂(B-Z₂) (9)

(4)更新W：固定除W之外的所有变量，对W求导并令导数为0：

αWB^TB+λL^TLW＝αL^TB+λL^TB， (10)

这是一个西尔维斯特方程，可通过Bartels-Stewart算法高效求解。

进一步，步骤2中所述图像和文本的哈希函数学习的具体流程为：对于图像利用深度卷积神经网络提取特征，并使用一个全连接层将特征映射至k维输出空间中，最后通过一个符号函数sign映射至海明空间中第一个阶段学习到的哈希码，这里深度卷积神经网络使用CNN-F^[2]，进行特征提取和哈希码映射。将CNN-F网络的最后一层替换为包含k个节点的全连接层，即图像经过神经网络后输出一个k维向量，用函数可表示为f^x(x；θ_x)∈{-1，1}^k，其中θ_x是神经网络的参数；与图像类似，对于文本利用一个简单的多层感知机完成特征的提取和映射。其中多层感知机包含3个全连接层，分别含有512，512以及k个节点，即文本经过多层感知机后输出一个k维向量，用函数可表示为f^y(y；θ_y)∈{-1，1}^k，θ_y是多层感知机的参数。

在k维输出空间中，期望图像和文本数据项的表示能够接近第一个阶段学习到的哈希码，并保留这些数据项在原始空间的相似性信息，因此设计映射损失

和带权重的相似性保留损失

另外，由于第一个阶段学习到的哈希码保留了标签的语义信息，因此额外添加一个分类损失

使得映射得到的哈希码具有更好的可区分性；具体为：

其中，β₁和β₂为控制不同损失项的重要性的参数。在映射损失

和分类损失

中，F^u表示神经网络最后一层全连接层的输出，u为x或y，x表示图像，y表示文本；V为从F映射至类别的权值参数。另外，在两阶段的方法中引入带权重的交叉熵损失函数

其中，

是普通粗粒度定义方式的相似性矩阵，

为

中的元素，即两个数据项的标签至少共享一个语义类别，则其相似度

就为1，表示该样本对为正样本对；否则为

就为0，表示该样本对为负样本对。同时，在交叉熵损失中为不同的数据对设计不同的权重W，代表其在损失中具有不同程度的重要性。具体来说，对于正样本对，相似性越高就分配更高的权重，使得它们在更新的时候能够更加敏感。对于负样本对，给那些难学习的负样本对分配更高的比重来突出它们。权重W的定义如下：

其中，

最后，当需要为一个新的数据项生成哈希码时，只需将该数据项通过对应的哈希函数，即对应的神经网络，利用符号函数sign映射至海明空间：

其中，x_q表示图片，

表示x_q映射而成的哈希码；y_q表示文本，

表示y_q映射而成的哈希码。第二阶段的损失函数通过小批量的梯度下降算法以反向传播^[5]的方式更新参数。

本发明提供基于细粒度相似性矩阵的跨模态哈希检索算法，包括：

步骤一、所述图像-文本对哈希码推理，利用标签构建细粒度相似性矩阵，结合细粒度相似性矩阵和自编码器设计损失函数，通过交替方向乘子法优化求解，从而推理到一组能较好保持数据项在原始空间相似性及标签中隐藏语义信息的哈希码。

步骤二、所述图像和文本的哈希函数学习，学习两个哈希函数分别将图像和文本映射至合适的哈希码上，而这些哈希码在海明空间中能够保持数据项在原始空间中的相似性。

本发明的优点主要体现为：

首先，第一个阶段中，本发明设计细粒度相似性矩阵，能够表示数据项在原始空间中丰富的相似性信息，从而使得哈希码更具区分性，更加完整地保留相似性信息；另外，自编码器的使用能够让哈希码保留标签的语义信息，交替方向乘子法的优化算法能够避免松弛方式所带来的量化误差。

其次，第二个阶段中，本发明改进基于多分类的哈希函数学习方式，设计映射损失、相似性保留损失和分类损失，其中相似性保留损失为两个阶段的哈希算法引入交叉熵损失，并利用细粒度相似性为交叉熵损失中的每一项分配不同的权重，以表示不同重要性。

最后，本发明基于公开数据集FIRFLICKR-25K、NUS-WIDE、及MS-COCO取得当前主流的检索精度。

附图说明

图1是本发明的框架图。

具体实施方式

由背景技术可知，现有基于两阶段的跨模态哈希算法存在两个主要缺陷。其一，目前的两阶段哈希算法都使用粗粒度相似性矩阵，无法挖掘到数据项在原始空间中丰富的相似性信息。其二，绝大部分两阶段哈希算法使用多分类方式训练哈希码，可能得不到最佳的哈希函数。因此，本实施例针对以上两个问题，分别使用细粒度定义方式的相似性矩阵，并重新设计哈希函数的训练方式来解决上述两个问题。

本实施例中，在第二个阶段的哈希函数学习中，对于图片模态，采用ImageNet上预训练的CNN-F网络。保持前面五个卷积层convl～conv5以及接下来的两个全连接层fc6～fc7不变，将第八层全连接层替换成一个包含k个节点的新的全连接层，使得神经网络的输出维度与哈希码长度一致，以便于后续将神经网络的输出映射到海明空间中。对于文本模态，首先使用词袋模型将文本转换成向量表示，接着使用一个多层感知机将文本向量映射到与哈希码维度相同的公共的表示空间中，便于后续将多层感知机的输出映射到海明空间中。

本实施例中，对于损失函数中的超参数，通过实验确定其取值：α＝λ＝1，ρ₁＝ρ₂＝0.01，β₂＝10，

其中k为哈希码长度，c为标签中语义类别数目。此外，对于MIRFlickr-25K数据集，剩余的超参数设置为γ₁＝1，γ₂＝0.05；对于NUS-WIDE数据集，剩余的超参数设置为γ₁＝0.5，γ₂＝0.1；对于MS-COCO数据集，剩余的超参数设置为γ₁＝0.1，γ₂＝0.5。为了训练第二个阶段中的神经网络，本实施例使用Adam^[6]优化器来进行梯度下降优化，并且将学习率设置为10^-3～10^-4，每次用于梯度下降的样本数设置为64。

本实施例中，选取三个公共数据集对算法进行验证，包括MIRFlickr-25K、NUS-WIDE、及MS-COCO。

MIRFlickr-25K包含25,000幅Flickr.com上收集的图像，每幅图像都有一些语义标注，并且属于24个语义类别中的一个或多个。选取出现次数最多的20个语义标注，这样只留下了20,015个图像-文本对，随机选取2,000个作为查询数据集，剩下的18,015个作为本地数据库。在数据库中随机选取10,000个数据对作为训练数据集，其中文本使用1,386维的词袋向量表示。

NUS-WIDE也是一个从Flickr.com上收集的数据集，包含共计269,648幅图像，同样每幅图像具有一些语义标注，并且属于81个语义类别中的一个或多个。仅选择那些属于出现频率最高的21个类别的数据对，每一个类别中随机选择100个数据对作为查询数据集，剩下的作为本地数据库。在本地数据库中针对每一个类别随机选择500个数据对作为训练数据集，其中文本向量使用1,000维的词袋向量表示。

MS-COCO是一个常用于图像理解任务的数据集，包含122,218幅图像，分别属于80个语义类别。随机选择117,218个数据对作为数据集。在其中随机选取5,000个数据对作为查询数据集，剩下的作为本地数据库。在本地数据库中随机选取10,000个数据对作为训练数据集，其中文本使用2,000维的词袋向量表示。

本实施例中，选择平均检索精度(MAP)作为评价指标。考察图像检索文本任务和文本检索图像任务的MAP指标。对于三个数据集，均考察前500个检索结果的MAP。表1未使用CNN-F在MIRFlickr-25K、NUS-WIDE和MS-COCO上的MAP实验结果。

表1

表1中，I→T表示图像检索文本任务，T→I表示文本检索文本图像任务，同时，为方便观察，计算两个任务MAP结果的和，用“SUM”表示。从上述实验结果可看到，本实施例在NUS-WIDE和MS-COCO数据集上的两个任务的检索精度都优于其它方法，而在MIRFlickr-25K数据集上，本实施例在图像检索文本任务的检索精度上优于其它方法。这表明本实施例确实能够通过细粒度定义方式的相似性信息使得哈希码在海明空间上保持更加丰富的相似性关系，并且第二个阶段为训练哈希函数设计的方法确实能够发挥更好的效果。

综上所述，本发明尝试挖掘原始数据项之间更加丰富的相似性关系，使得哈希码在海明空间中更具可区分性，即保留更多的相似性关系。同时，由于哈希码的推理并未利用到原始数据，因此本发明尝试利用自编码器使得哈希码尽可能保留标签中的语义信息。进一步，本发明为改进第二个阶段中哈希函数的学习方式，提出一种不同的哈希函数学习策略，同时引入带权重的交叉熵损失使得最终的哈希码保留第一个阶段中挖掘到的细粒度相似性信息。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

参考文献：

[1]Boyd，S.，Parikh，N.，Chu，E.K.，Peleato，B.，&Eckstein，J.(2010).Distributed Optimization and Statistical Learning via the AlternatingDirection Method of Multipliers.Foundations&Trends in Machine Learning，3(1)，1-122.

[2]Chatfield，K.，Simonyan，K.，Vedaldi，A.，&Zisserman，A.(2014).Return ofthe Devil in the Details：Delving Deep into Convolutional Nets.BMVC.

[3]Parikh，&Neal.(2014).Proximal algorithms.Foundations&Trends inOptimization，1(3)，127-239.

[4]Curry，&Haskell，B..(1994).The method of steepest descent fornonlinear minimization problems.Quart.appl.math，2(3)，258-261.

[5]Goodfellow，Ian；Bengio，Yoshua；Courville，Aaron(2016).″6.5 Back-Prooagation and Other Differentiation Algorithms″.Deep Learning.MITPress.pp.200-220.

[6]Kingma，D.P.，&Ba，J.(2015).Adam：A Method for StochasticOptimization.ICLR，1-13.

Claims

1.一种基于细粒度相似性矩阵的面向跨模态检索的哈希算法，其特征在于，具体步骤为：

步骤1、图像-文本对的哈希码推理：一方面利用图像-文本对的标签信息构筑细粒度相似性矩阵S，用来使得推理出来的哈希码保留图像和文本数据项之间的细粒度相似性信息；另一方面利用自编码器使得哈希码保留标签中的语义信息；结合这两个目标设计损失函数，并利用交替方向乘子法优化损失函数，求解这些图像-文本数据项的哈希码；

步骤2、图像和文本的哈希函数学习：这一阶段训练两个哈希函数，分别将图像和文本映射至哈希码上，利用第一个阶段推理得到的图像-文本对的最优哈希码设计损失函数，目标是使得图像和文本经过哈希函数映射至海明空间后能够保持其在原始空间的相似性；

步骤1中所述哈希码推理的具体流程为：

直接利用图像的标签信息构建数据项之间的细粒度相似性性S_ij，其表达式为：

其中，l_i＝[l_i1,…,l_ic]是每一个图像-文本对数据项的标签，每个标签包含c个语义类别，S_ij>0表示第i个数据项与第j个数据项具有相似性，它们的标签至少共享一个类别，S_ij＝-1表示第i幅图像与第j幅图像不相似，它们的标签不共享任何一个类别；

利用哈希码的点积来重建数据项之间的相似性，把之前定义的相似性转换到-1到1的范围：

其中，

为所有数据项的哈希码堆叠而成的矩阵，k为哈希码的长度，

是图像-文本对数据项的标签矩阵；

是自编码器的权值参数矩阵；结合相似性矩阵和自编码器的重建损失，第一阶段总体的目标函数定义如下：

其中，S为细粒度相似性矩阵，‖·‖_F表示矩阵的Frobenius范数，α为控制自编码器损失的权重参数；这里，将自编码的损失拆分成两个部分，则第一个阶段整体的目标函数定义如下：

其中，α和λ为控制自编码器损失的权重参数；由于哈希码的离散约束，上式本质上是一个混合整数规划问题。

2.根据权利要求1所述的哈希算法，其特征在于，对于所述混合整数规划问题，为避免松弛带来的量化误差，直接对目标函数进行优化，具体为：

首先，把B的约束条件拆成两个部分B∈S_b和B∈S_p,其中S_b和S_p分别表示[-1，1]^n×k和

然后，引入两个变量Z₁和Z₂，分别吸收这两个新的约束条件，B＝Z₁,Z₁∈S_b以及B＝Z₂,Z₂∈S_p；

之后，利用交替方向乘子法的优化算法构造如下增广拉格朗日函数，并利用迭代的方式求解：

其中，Tr(·)表示求矩阵的迹，δ_S(Z)(δ_Sb(Z)、δ_Sp(Z))是指示函数，若Z∈S，则其值为0，否则为+∞；Y₁和Y₂是两个对偶变量；ρ₁和ρ₂是两个惩罚系数；然后，利用交替优化的方式更新这些需要求解的变量：

(1)更新B:固定除B之外的所有变量，得到如下目标函数：

该目标函数通过LBFGS-B算法求解，其中梯度定义如下：

(2)更新Z:固定除Z之外的所有变量，通过近端最小化算法更新Z₁和Z₂：

其中，

和

是两个投影函数，

把大于1和小于-1的数投影到1和-1上，而

对Z₂正则化以使其满足

(3)更新Y:固定除Y之外的所有变量，在对偶问题上使用梯度上升法：

Y₁＝Y₁+ρ₁(B-Z₁)，Y₂＝Y₂+ρ₂(B-Z₂) (9)

(4)更新W:固定除W之外的所有变量，对W求导并令导数为0：

αWB^TB+λL^TLW＝αL^TB+λL^TB， (10)

这是一个西尔维斯特方程，通过Bartels-Stewart算法高效求解。

3.根据权利要求2所述的哈希算法，其特征在于，步骤2中所述图像和文本的哈希函数学习的具体流程为：

对于图像，利用深度卷积神经网络提取特征，并使用一个全连接层将特征映射至k维输出空间中，最后通过一个符号函数sign映射至海明空间中第一个阶段学习到的哈希码；这里深度卷积神经网络使用CNN-F，进行特征提取和哈希码映射；将CNN-F网络的最后一层替换为包含k个节点的全连接层，图像经过神经网络后输出一个k维向量，用函数表示为f^x(x；θ_x)∈{-1,1}^k，其中θ_x是神经网络的参数；

对于文本，利用一个简单的多层感知机完成特征的提取和映射；其中多层感知机包含3个全连接层，分别含有512，512以及k个节点，文本经过多层感知机后输出一个k维向量，用函数表示为f^y(y；θ_y)∈{-1,1}^k，θ_y是多层感知机的参数；

在k维输出空间中，设计映射损失