CN107729513B

CN107729513B - 基于语义对齐的离散监督跨模态哈希检索方法

Info

Publication number: CN107729513B
Application number: CN201711004530.3A
Authority: CN
Inventors: 姚涛; 孔祥维; 付海燕
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2020-12-01
Anticipated expiration: 2037-10-25
Also published as: CN107729513A

Abstract

本发明公开了一种基于语义对齐的离散哈希（Discrete Semantic Alignment Hahing，DSAH）方法实现跨模态检索。在训练过程中，首先利用图像的属性与本模态对齐语义信息，缩小异构鸿沟；然后，为了减少内存开销和训练时间，利用协同滤波学习一个潜在语义空间，直接构建哈希码和标签之间的内在联系；最后，为了减少量化误差，提出一种离散优化方法，得到性能更好的哈希函数。在线检索过程，首先利用哈希函数将测试集中样本映射到二值空间，然后计算查询样本的二值码与被检索异构样本间的汉明距离，并按从小到大排序返回排序靠前的样本。在两个具有代表性的多模态数据集上的实验结果证明了DSAH的优越性能。

Description

基于语义对齐的离散监督跨模态哈希检索方法

技术领域：

本发明属于多媒体检索技术领域，涉及一种跨模态哈希检索方法，尤其涉及基于语义对齐的离散监督跨模态哈希检索方法。

背景技术：

在Web2.0时代，人们可以通过网络上传各种模态的数据，例如图像、文本和视频等。利用各种模态的数据表示信息，可以让网民更直观、更容易的获取自己所需要的信息。虽然这些不同模态的信息的表示不同，但它们可能包含相同的语义信息，因此，对于用户提交的检索内容，搜索引擎返回多种模态的数据能更生动、更形象的描述用户的检索意图，可以提升网络用户的体验。

不同模态样本的表示是不同的，例如文本通常用BOW或类似的方法表示，而图像通常用底层特征表示，例如GIST特征、SIFT特征等。一方面，对于文本模态而言，文本的关键词是含有语义信息的，例如：老虎、蓝天和女孩等；而对图像模态而言，底层特征一般是通过无监督的方式直接从图像中提取的，因此不包含语义信息，这会导致底层特征非常相似的两幅图像可能包含不同的语义概念，反之底层特征非常不相似的两幅图像可能含有相同的语义概念。甚至一副含有确切语义概念的图像，例如“一只黑色的小狗和两只白色的山羊在草地上奔跑”，对于计算机视觉领域仍然是一个挑战。另一方面，对于文本模态而言，一个受过良好教育的以英语为母语的人大概掌握了17000个单词；而图像的底层特征例如SIFT特征，由于SIFT特征点的表示是连续的，所以图像表示的数量是无数的。因此，会造成图文两种模态的表示与高层语义之间的鸿沟是不同的。但是，已有的哈希方法通常直接把各模态的特征表示放到一个统一的框架，学习各模态的哈希函数，而忽视各模态特征与高层语义之间的语义鸿沟不同的问题（参见文献 [1-5] ）。因此需要研究一种新方法来解决此问题。

其次，监督跨媒体哈希方法利用含有语义概念的标签学习哈希函数，由于标签含有高层语义信息，因此通常可以取得优于无监督跨媒体哈希算法的性能。大部分监督跨媒体哈希算法一般通过以下两种方法学习哈希函数：（1）利用样本的标签信息构建样本间相似度矩阵，使哈希码间的相似度逼近样本间相似度矩阵（参见文献 [5] ）；（2）利用标签构造正（负）样本对，通过最小化正样本对间的汉明距离、最大化负样本对的汉明距离学习哈希函数（参见文献 [1-3] ）。但是样本间相似度矩阵的尺寸为

，其中

为训练样本的数量（构建正、负样本对与构建样本间相似矩阵类似，最多可以构建

个正、负样本对），随着样本数量的增加，无论是构建两两样本间相似度矩阵还是构造正、负样本对都会导致较大的内存开销和计算复杂度，限制了算法的应该用，因此需要研究一种新方法来解决此问题。

此外，在哈希方法中，由于哈希码的二值约束，如何优化目标函数通常是一项挑战性的工作。通常，大部分哈希算法在优化过程中会放松哈希码的离散约束，得到连续解，然后通过量化连续解得到哈希码（参见文献 [5] ）。但是量化操作会引入量化误差，会破坏样本的局部结构。文献[6]提出首先通过PCA降维得到样本的连续表示，再学习一个正交旋转矩阵最小化量化误差，得到性能更好的哈希函数。量化相关哈希把哈希函数学习和量化操作纳入一个学习框架，并提出一种联合学习方法得到一个最优解（参见文献 [7]）。但是上述方法都没有直接学习离散的哈希码，导致了算法性能的下降，因此需要研究一种新方法来解决此问题。

发明内容：

本发明的目的在于克服上述已有技术的不足而提供一种基于语义对齐的离散监督跨模态哈希检索方法。本发明的方法首先利用含有语义信息的属性表示图像，使文本和图像模态对齐语义信息，缩小异构鸿沟；其次为了减少训练的计算复杂度和内存开销，提出直接利用标签学习样本的哈希码；最后为了减小量化误差，提出一种离散优化算法，直接得到哈希码的离散解。

本发明的目的可以通过如下措施来达到：基于语义对齐的离散监督跨模态哈希检索方法，其特征在于其由两部分组成：离线训练过程和在线检索过程；所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习；所述的在线检索过程，首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示，然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间，最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离，并根据距离从小到大排序返回排序靠前的样本；所述的离线训练过程，首先提取训练集中文本模态样本和图像模态样本的表示，然后将基于矩阵分解的协同滤波引入学习哈希码，并为文本和图像模态学习哈希函数；具体实现包括以下子步骤:

步骤1.1：训练集中样本包括文本模态样本和图像模态样本，提取训练集中样本的表示，其包含以下子步骤：

步骤1.1.1：利用词包模型提取训练集中文本模态样本的BOW特征；

步骤1.1.2：将训练集中图像模态样本送入在ImageNet上训练好的CNN网络，并将CNN网络Fc8层的输出作为语义属性表示训练图像样本；

步骤1.2：引入基于矩阵分解的协同滤波方法，直接利用样本的标签学习哈希码；具体而言，利用基于矩阵分解的协同滤波算法学习两个低维矩阵，来估计标签矩阵，其中一个矩阵为潜在语义矩阵，用

表示，

表示训练样本总的类别数目，

表示哈希码的长度；另外一个矩阵为样本的哈希码，用

表示，

表示训练样本的数量；算法期望如果第

个训练样本属于第

类，

的值应该小；反之，如果第

个训练样本不属于第

类，

的值应该大；因此，第

个训练样本和第

个潜在语义概念间的关联可以用来预测标签矩阵，关系预测损失的定义如下：

其中，

表示Frobenius范数，

为所有样本的标签矩阵，

表示第

个样本的标签，

，

表示第

个样本不属于第

类，

表示第

个样本属于第

类，用矩阵形式表示，可写为：

其中，

为正则项，

为权重参数；

步骤1.3：在得到训练文本和图像样本特征表示的基础上，利用线性映射作为哈希函数，其定义如下：

其中

、

分别表示训练集中文本和图像模态样本的特征描述，

，

，

表示文本模态特征的维数，

、

分别表示文本和图像模态的哈希函数，

表示符号函数，当输入为正值时输出为1，输入为负值时输出为-1；哈希函数学习的损失如下：

其中，

、

和

为权重参数；

步骤1.4：因此DSAH算法目标函数定义为：

步骤1.5：求解步骤1.4中目标函数，得到图像和文本模态的哈希函数；提出一种迭代优化算法得到一组局部最优解，其包含以下子步骤：

步骤1.5.1：固定

，

和

，求解

：当

，

和

固定时，这个问题变为简单的线性回归问题，这个问题存在闭合解，可以通过对求

偏导为0得到：

步骤1.5.2：固定

，

和

，求解

：当

，

和

固定时，与求解

类似，这个问题也存在闭合解，可以通过对变量

求偏导为0得到：

与求解

类似，可以通过下式得到

：

步骤1.5.3：固定

，

和

，求解

：当

，

和

固定时，步骤1.4中目标函数可以写为：

本发明提出一种离散优化方法，可以直接得到问题的离散解；展开上式并舍弃与

无关的项，上式可写为：

其中

，

表示矩阵的迹；本发明提出固定哈希码的其他位每次只求解一位的方法，直接得到哈希码的离散解；令

表示哈希码的第

位，

表示

除了第

位由其他位组成的矩阵；类似的，

表示

的第

列，

表示

除了第

位由其他位组成的矩阵；

表示的第

列，

表示

除了第

位由其他位组成的矩阵；去除常数项，目标函数变为：

当

和

的符号不同时，上式取值最小，因此：

步骤1.5.4：判断是否是最大迭代次数或最近两次迭代的损失差小于0.1，如果不是则跳转到步骤1.5.1继续迭代；如果是，则停止迭代，得到两个模态的哈希函数。

为了进一步实现本发明的目的，所述的在线检索过程，利用测试集中包含的文本和图像模态样本测试算法的检索性能，具体实现包含以下子步骤：

步骤2.1：利用词包模型提取测试集中文本模态样本的BOW特征，把测试集中图像模态样本送入在ImageNet上训练好的CNN网络，并把Fc8层输出的1000类分类得分作为语义属性表示图像模态的样本；

步骤2.2：分别利用离线训练过程中为文本和图像模态学习的哈希函数，得到测试集中文本和图像模态样本的哈希码；

步骤2.3：把测试集中文本或图像模态样本作为查询样本，分别计算查询样本哈希码与测试集中图像或文本模态样本哈希码的汉明距离，并根据距离从小到大排序返回排序靠前的样本。

本发明与已有技术相比可产生如下积极效果：

（1）利用含有语义信息的属性表示图像，使文本和图像模态对齐语义信息，缩小异构鸿沟，提升了算法的性能；

（2）直接利用标签学习样本的哈希码，减少了训练的计算复杂度和内存开销；

（3）提出了一种离散优化算法，可以直接得到哈希码的离散解，减小量化误差，提升了算法的性能。

附图说明：

图1为本发明的流程示意图。

具体实施方式：下面对本发明的具体实施方式再详细说明：

本发明的数据集被划分为训练集和测试集，训练集用于训练各模态的哈希函数，测试集用于测试算法的性能；

参见图1，基于语义对齐的离散监督跨模态哈希检索方法，其特征在于其由两部分组成：离线训练过程和在线检索过程；所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习；所述的在线检索过程，首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示，然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间，最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离，并根据距离从小到大排序返回排序靠前的样本。

所述的离线训练过程，首先提取训练集中文本模态样本和图像模态样本的表示，然后将基于矩阵分解的协同滤波引入学习哈希码，并为文本和图像模态学习哈希函数；具体实现包括以下子步骤:

步骤1.2：为了减少监督哈希算法的运算量，引入基于矩阵分解协同的协同滤波方法，直接利用样本的标签学习哈希码；具体而言，本发明利用基于矩阵分解的协同滤波算法学习两个低维矩阵，来估计标签矩阵，其中一个矩阵为潜在语义矩阵，用

表示，

表示训练样本总的类别数目，

表示哈希码的长度；另外一个矩阵为样本的哈希码，用

表示，

表示训练样本的数量；算法期望如果第

个训练样本属于第

类，

的值应该小；反之，如果第

个训练样本不属于第

类，

的值应该大；因此，第

个训练样本和第

其中，

表示Frobenius范数，

为所有样本的标签矩阵，

，

表示第

个样本的标签，

表示第

个样本不属于第

类，

表示第

个样本属于第

类，用矩阵形式表示，可写为：

其中，

为正则项，

为权重参数；哈希码直接通过标签矩阵得到，由于标签矩阵含有高层语义信息，因此哈希码具有很好的区分性能；

其中

、

分别表示训练集中文本和图像模态样本的特征描述，

，

，

表示文本模态特征的维数，

、

分别表示文本和图像模态的哈希函数，

其中，

、

和

为权重参数。

步骤1.4：因此DSAH算法目标函数定义为：

步骤1.5：求解步骤1.4中目标函数，得到图像和文本模态的哈希函数；但是目标函数含有四个变量是非凸的，因此本发明提出一种迭代优化算法得到一组局部最优解，其包含以下子步骤：

步骤1.5.1：固定

，

和

，求解

：当

，

和

偏导为0得到：

步骤1.5.2：固定

，

和

，求解

：当

，

和

固定时，与求解

类似，这个问题也存在闭合解，可以通过对变量

求偏导为0得到：

与求解

类似，可以通过下式得到

：

步骤1.5.3：固定

，

和

，求解

：当

，

和

固定时，步骤1.4中目标函数可以写为：

由于的离散约束，所以这个问题是NP难问题。大部分已有的方法选择放松离散约束得到问题的一个连续解，再通过量化连续解得到离散解。但是由于量化操作引入了量化误差，再由连续解学习哈希函数会导致哈希函数性能的下降。因此本发明提出一种离散优化方法，可以直接得到问题的离散解。展开上式并舍弃与无关的项，DSAH算法的目标函数可写为：

其中

，

表示矩阵的迹；本发明提出通过固定哈希码的其他位每次只求解一位的方法，直接得到哈希码的离散解；具体而言，令

表示哈希码的第

位，

表示

除了第

位由其他位组成的矩阵；类似的，

表示

的第

列，

表示

除了第

位由其他位组成的矩阵；

表示的第

列，

表示

除了第

位由其他位组成的矩阵；去除常数项，目标函数变为：

通过观察可以发现：当

和

的符号不同时，上式的取值最小，因此：

所述的在线检索过程，利用测试集中包含的文本和图像模态样本测试算法的检索性能，具体实现包含以下子步骤：

本实施例的数据集为Mirflickr25K[8]和NUS-WIDE数据集[9]，这两个数据集由图像和文本模态样本对构成，其中文本模态样本用BOW特征表示，而图像模态样本用CNN特征（Fc7层的输出）表示。

为了对齐文本模态和图像模态的语义信息，本发明方法利用图像模态的语义属性表示图像模态样本，具体而言，利用CNN网络的Fc8层的1000类分类得分作为图像模态的语义属性。对于Mirflickr25K数据集，本实施例随机选取75%的样本对构成训练集，剩余的25%样本对构成测试集，用来测试本发明方法的检索性能；对于NUS-WIDE数据集，本实施例随机选取99%的样本对构成训练集，剩余的1%样本对构成测试集，用来测试本发明方法的检索性能。

本实施例用平均精确率（mean Average Precision，mAP）来评估算法的检索性能。在两个数据集上文本检索图像和图像检索文本两个任务上哈希码长从16比特变化到64比特的实验结果公布在表1中。由于本发明方法利用了图像模态的语义属性与文本模态对齐语义信息和离散优化，本实验的平均准确率要明显优于文献[10-15]的结果。具体而言，在MirFlickr25K数据集上，本发明算法与最好对比算法的实验结果相比在文本检索图像和图像检索文本两个任务上分别得到了3.10%和2.64%的检索性能提升；在NUS-WIDE数据集上，本发明方法与最好对比算法的实验结果相比在文本检索图像和图像检索文本两个任务上分别得到了9.83%和11.26%的检索性能提升。证明了本发明提出方法的有效性。

表1在Mirflickr25K和NUS-WIDE数据集上的实验结果

应当理解的是，本说明书未详细阐述的部分都属于现有技术。上述针对较佳实施例的描述较细致，但不能因此认为是对本发明专利保护范围的限制，本发明的请求保护范围应以所附权利要求为准。

参考文献：

[1] BRONSTEIN M, BRONSTEIN A, MICHEL F, et al. Data fusion throughcross-modality metric learning using similarity-sensitive hashing [C]. IEEEConference on Computer Vision and Pattern Recognition, San Francisco, CA,USA, 2010: 3594-3601.

[2]ZHEN Y, YEUNG D, Co-regularized hashing for multimodal data [C].Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA,2012: 1385-1393.

[3]KUMAR S, UDUPA R. Learning hash functions for cross-viewsimilarity search [C]. International Joint Conference on ArtificialIntelligence, Barcelona, Catalonia, Spain, 2011:1360-1366.

[4]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, Columbus, OH, USA, 2014: 2075-2082..

[5] ZHANG D, LI W. Large-scale supervised multimodal hashing withsemantic correlation maximization [C]. AAAI Conference on ArtificialIntelligence, Québec City, Québec, Canada, 2014: 2177-2183.

[6]WU B, YANG Q, ZHENG W. Quantized correlation hashing for fastcross-modal search [C]. International Joint Conference on ArtificialIntelligence, Canberra, ACT, Australia, 2015: 25-31.

[7]GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: Aprocrustean approach to Learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2916-2929.

[8] HUISKES M, LEW M. The MIR flickr retrieval evaluation[C]. ACMInternational Conference on Multimedia Information Retrieval, 2008: 39-43.

[9] CHUA T, TANG J, HONG R, et al. Nuswide: A real-world web imagedatabase from national university of singapore [C]. ACM Conference on Imageand Video Retrieval, Santorini Island, Greece, 2009: 48-56.

[10] Zhang D, Li W J. Large-scale supervised multimodal hashing withsemantic correlation maximization [C],AAAI Conference on ArtificialIntelligence, 2014, pp. 2177-2183.

[11] Kumar S, Udupa R. Learning hash functions for cross viewsimilarity search [J], International Joint Conference on ArtificialIntelligence, 2011:1360-1365.

[12] Song J, Yang Y, Yang Y, Huang Z, Shen H. T. Inter-media hashingfor large-scale retrieval from heterogenous data sources. ACM InternationalConference on Management of Data, 2013:785-796.

[13] Ding G, Guo, Y, Zhou J. Collective matrix factorization hashingfor multimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, 2014: 2083–2090.

[14] Tang J, Wang K, Shao L. Supervised matrix factorization hashingfor cross-modal retrieval [J]. IEEE Transactions on Image Processing, 2016:3157:3166.

[15] Ma D, Liang J, Kong. X, He R. Frustratingly easy cross-modalhashing [C].ACM international conference on Multimedia, 2016: 237–241.

Claims

1.基于语义对齐的离散监督跨模态哈希检索方法，其特征在于：其由两部分组成：离线训练过程和在线检索过程；所述的离线训练过程包括提取训练集中文本模态样本BOW特征、提取训练集中图像模态样本的语义属性以及哈希函数的学习；所述的在线检索过程，首先利用BOW算法或CNN提取测试集中文本模态样本的特征或图像模态样本的语义属性表示，然后通过哈希函数将测试集中文本模态样本或图像模态样本映射到二值空间，最后计算测试集中文本模态样本或图像样本的哈希码与被检索异构样本哈希码的汉明距离，并根据距离从小到大排序返回排序靠前的样本；所述的离线训练过程，首先提取训练集中文本模态样本和图像模态样本的表示，然后将基于矩阵分解的协同滤波引入学习哈希码，并为文本和图像模态学习哈希函数；具体实现包括以下子步骤：