CN107256271A

CN107256271A - 基于映射字典学习的跨模态哈希检索方法

Info

Publication number: CN107256271A
Application number: CN201710496980.2A
Authority: CN
Inventors: 姚涛; 孔祥维; 付海燕
Original assignee: Ludong University
Current assignee: Ludong University
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-10-17
Anticipated expiration: 2037-06-27
Also published as: CN107256271B

Abstract

本发明公开了一种基于映射字典学习的跨模态哈希检索方法。其通过网络收集图像和文本样本建立跨媒体检索数据集，并将数据集分为训练集和测试集；利用BOW算法提取图像和文本的特征；利用映射字典学习分别为图像和文本模态学习一个共享子空间，并同时学习各模态的哈希函数；通过学习一个正交旋转矩阵，最小化量化误差；利用图像和文本模态的哈希函数和正交旋转矩阵计算测试样本的哈希码；将一个模态的测试样本集作为查询，另一模态的训练集作为被检索数据集，计算查询样本与被检索样本的汉明距离并排序，返回排序靠前的样本。本发明具有检索的准确率高，容易应用于大规模数据集，并且实现简单等特点，因此有广阔的应用前景和巨大的市场价值。

Description

基于映射字典学习的跨模态哈希检索方法

技术领域：

本发明涉及跨模态哈希检索方法，尤其涉及基于映射字典学习的跨模态哈希检索方法。

背景技术：

随着计算机网络和信息技术的快速发展，网络上的媒体数据量急剧增长，媒体的表示形式也呈现出多模态性(图像，文本，声音，视频等)。例如:在微博上传照片时，通常会同时上传一段文字描述照片的内容或用一些标签标注图像的内容；在微信的朋友圈分享时，往往也是图文并茂；购物网站，例如淘宝，京东等，在描述产品信息时通常既用图片，又用文字。这些多模态数据虽然表现形式不同，但它们之间存在语义关联。跨媒体检索的目的就是挖掘不同媒体之间存在的语义关系，并按语义关系进行排序，返回跟查询存在较强语义关系的不同模态的数据。随着媒体数据量的急速增长和模态的多样化，传统的检索方法已经不能满足当前跨媒体检索的需求。如何在海量数据中检索不同模态的数据成为一个巨大的挑战。

哈希方法是解决大数据问题的一种有效的方法，它不仅能大大节省存储空间，而且计算效率也大幅提高。例如一张图片用5,000维的BOW（Bag Of Words）表示，假设每维用double数据类型表示，即每维占用8Bytes的存储空间，则需要5,000×8Bytes=40,000Bytes的存储空间。而哈希方法是把样本映射汉明空间，例如用32bits(8bits=1Byte)来表示一张图片，仅需要4Bytes的存储空间，大大节省了存储空间，占用的存储空间仅为原始特征空间的万分之一。在检索过程中，因为样本用二值码表示，因此在计算样本间的距离时，只需要做简单的异或操作即可，大大提升了计算的效率，使检索的时间复杂度远低于传统方法。

由于哈希方法的高效性和节省内存，最近引起了越来越多的关注。跨模态哈希的目标是为不同模态的样本学习一个共享的汉明空间，在这个空间可以实现跨媒体检索（参见文献 [1-5，7，8，10] ）。基于相似敏感哈希的跨模态度量学习方法(Cross-modalityMetric learning using Similarity Sensitive Hashing，CMSSH)通过最小化不同模态的相似样本之间的汉明距离，最大化不同模态的不相似样本间的汉明距离，学习哈希函数（参见文献[1]）。典型相关分析(Canonical Correlation Analysis，CCA) （参见文献[6]）哈希方法，把CCA引入跨媒体哈希方法，提出最大化模态间的相关性，学习一组哈希函数（参见文献[10]）。跨视角哈希(Cross-View Hashing，CVH)把谱哈希扩展到跨模态检索，通过最小化加权距离，保持相似样本模态内和模态间的相似性（参见文献[2]）。多模态潜在二值嵌入(Multi-modal Latent Binary Embedding，MLBE)提出一个概率生成模型，通过保持多模态样本模态内和模态间的相似度来学习哈希函数（参见文献[8]）。协同矩阵分解哈希方法(Collective Matrix Factorization Hashing，CMFH)利用协同矩阵分解保持模态间的相似性，为样本对学习同一表示（参见文献[3]）。基于聚类联合矩阵分解哈希(Cluster-basedJoint Matrix Factorization Hashing，CJMFH)提出了首先对各个模态进行聚类运算，再利用矩阵分解同时保持模态内、模态间和基于聚类的相似性（参见文献[7]）。以上方法虽然取得了令人满意的结果，但是学习到的哈希码不包含任何语义信息，限制了算法的性能。稀疏哈希(Latent Semantic Sparse Hashing，LSSH)为了缩小图像和文本之间的语义鸿沟，利用稀疏表示学习图像的一些显著结构，利用矩阵分解为文本学习一个潜在的语义空间，并保持模态间的语义相似性（参见文献[4]）。稀疏多模态哈希(Sparse Multi-ModalHashing，SMMH)提出利用稀疏表示为图像和文本学习一个共享语义空间，保持模态间的相似性（参见文献[5]）。这类方法利用稀疏表示，使哈希码包含语义信息，提升了算法的性能。但是这类算法通常存在以下问题，限制了算法的应用。1)在字典学习算法中，因为稀疏约束项的存在，导致训练和测试过程算法的复杂度高。2)这些哈希算法没有为各模态学习哈希函数。测试样本，通常需要首先解决一个Lasso问题，得到样本的稀疏表示，然后通过量化得到样本的哈希码(如文献[4])，而不能像其他哈希算法直接利用哈希函数得到样本的哈希码。3)样本表示是稀疏的，导致哈希码的-1和1分配不均匀。

针对以上问题，本发明申请提出一种基于映射字典学习的跨模态哈希检索方法。在字典学习过程中，放松了稀疏约束项，不仅降低了时间复杂度和平衡了哈希码的分布，而且在字典学习过程中得到了哈希函数。对于哈希问题的求解，现存的大部分跨模态哈希算法一般先得到问题的连续最优解，再通过量化得到样本的哈希码。但是，这些算法没有考虑量化损失对算法性能的影响。本发明申请通过最小化量化误差，学习一个正交的旋转矩阵，进一步提升算法的性能。

发明内容：

本发明的目的在于克服上述已有技术的不足，提供一种基于映射字典学习的跨模态哈希检索方法。

本发明的目的可以通过如下措施来达到：基于映射字典学习的跨模态哈希检索方法，其特征在于其通过计算机装置实现如下步骤：

1）步骤S1，通过网络收集图像和文本样本，并建立跨媒体检索的图像和文本数据集，并将图像和文本数据集分为训练集和测试集；

2）步骤S2，分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征；

3）步骤S3，利用训练集的图像和文本样本，通过映射字典学习为图像和文本模态学习一个共享子空间，并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数；

其包含以下步骤：

步骤S31，用分别表示图像和文本模态的特征描述，其中，分别表示图像和文本模态特征空间的维数，表示样本对的数量；表示第个由图像、文本模态描述构成的样本对；分别表示图像和文本模态的字典，分别表示图像和文本模态的哈希函数，分别表示图像和文本模态的哈希码，其中表示哈希码的长度；和分别表示第个图像、文本样本的哈希码；

根据上述所述的变量，利用训练集中样本的特征构建目标函数：

其中为待定权重参数；一般设置，表明两个模态同等重要；参数是模态间相似性保持的权重，设置；参数是正则化项的权重，设置；表示字典的第个字典原子，表示字典的第个字典原子；

步骤S32，求解步骤S31中的目标函数，得到图像和文本模态的哈希函数；

所述步骤S32进一步包含以下步骤：

步骤S321,为图像和文本两个模态分别引入一个中间变量和，此时目标函数可写为：

其中，参数为待定权重参数，此参数也具有一定的鲁棒性，设置；

步骤S322,初始化字典、哈希函数和、系数矩阵和，并设置最大迭代次数；

步骤S323, 固定其他变量求解，则目标函数可以写为：

其中const 表示常数，令：，则可以得到闭合解：

其中，表示单位矩阵；

同理：

步骤S324,固定其他变量求解，则目标函数可写为：

展开上式并对求导，令其导数为零，可以得到闭合解：

同理：

步骤S325，固定其他变量求解则目标函数可写为：

该目标函数通过ADMM算法进行计算；

同理，用求解的相同方法得到；

步骤S326，判断迭代次数是否小于最大迭代次数，若是，则跳转到步骤S32继续迭代过程；若不是，则停止迭代，得到图像和文本模态的哈希函数、；

4）步骤S4，为图像和文本样本学习一个正交旋转矩阵，最小化量化误差；

所述步骤S4中为图像和文本样本学习一个正交旋转矩阵的方法，具体包含以下步骤：

步骤S41，通过学习一个旋转矩阵最小化量化误差，量化损失函数定义为：

其中，为占位符，可以是或，表示符号函数；，表示的均值；

步骤S42，求解步骤S41中的量化损失函数，所述步骤S42进一步包含以下步骤：

步骤S421，初始化旋转矩阵及最大迭代次数，最大迭代次数一般可设置为50；

步骤S422，固定，求:

步骤S423，固定，求:

由奇异值分解（SVD）的方法求解，即：

则：

步骤S424，判断是否是最大迭代次数，如果不是则跳转到S422继续迭代；如果是，则停止迭代，得到正交旋转矩阵；

步骤S5，利用图像和文本模态的哈希函数和学习的正交旋转矩阵，通过下式计算所有样本的哈希码：

6）步骤S6，将一个模态的测试集样本作为查询样本，而另一模态的训练集样本作为被检索数据集；计算查询样本与被检索样本的汉明距离，并按照汉明距离进行排序，并返回排序靠前的样本；

所述的查询样本与被检索样本的相似度可以利用汉明距离度量，汉明距离越小说明查询样本与被检索样本的相似度越高，反之亦然。

为了进一步实现本发明的目的，所述的步骤S1 包括从网络上的社交、购物网站分别收集图像和文本样本，并由在同一网页出现的图像和文本构成图像和文本样本对，建立跨媒体检索图像和文本数据集；所述的将图像和文本数据集分为训练集和测试集，随机选择99%的样本对构成训练数据集，剩余的1%构成测试数据集。

为了进一步实现本发明的目的，所述的步骤S2中对图像使用由SIFT（Scale-Invariant Feature Transform）特征作为视觉单词的BOW模型提取特征，对文本使用传统的BOW模型提取特征。

本发明同已有技术相比可产生如下积极效果：

1.利用映射字典学习不仅使哈希码含有语义信息，而且将传统字典学习的计算复杂度由降低到，其中为训练样本的数量。

2.通过学习一个正交旋转矩阵，最小化量化误差，得到了性能更好的哈希函数，并且正交旋转矩阵不会破坏目标函数解的最优性。

3.算法学习了哈希函数，图像和文本样本的哈希码可以通过哈希函数和正交旋转矩阵直接得到，这与现存的基于字典学习的哈希算法不同。

4.本发明检索的准确率高，实现简单，容易应用于大规模数据集，易于在实际中应用，具有广阔的应用前景和巨大的市场价值。

附图说明：

图1为本发明的流程示意图。

具体实施方式：下面结合附图对本发明的具体实施方式做详细说明：

虽然本发明指定了图像和文本两个模态，但是算法很容易的扩展到其他模态和多于两个模态的情况。为了方便描述，本发明只考虑图像和文本两个模态。

参见图1，基于映射字典学习的跨模态哈希检索方法，其通过计算机装置实现如下步骤：

步骤S1，通过网络收集图像和文本样本，并建立跨媒体检索的图像和文本数据集，并将图像和文本数据集分为训练集和测试集；

所述的步骤S1 包括从网络上的社交、购物等网站分别收集图像和文本样本，并由在同一网页出现的图像和文本构成图像和文本样本对，建立跨媒体检索图像和文本数据集；所述的将图像和文本数据集分为训练集和测试集，随机选择99%的样本对构成训练数据集，剩余的1%构成测试样本样本集。

步骤S2，分别利用图像和文本的BOW算法提取训练集和测试集的图像和文本的特征；

对图像使用由SIFT（Scale-Invariant Feature Transform）特征作为视觉单词的BOW模型提取特征，对文本使用传统的BOW模型提取特征。

步骤S3，利用训练集的图像和文本样本，通过映射字典学习为图像和文本模态学习一个共享子空间，并通过保持两个模态的模态间相似度学习图像和文本模态的哈希函数；

所述步骤S3进一步包含以下步骤：

步骤S31，用分别表示图像和文本模态的特征描述，其中，分别表示图像和文本模态特征空间的维数，表示样本对的数量。表示第个由图像、文本模态描述构成的样本对。分别表示图像和文本模态的字典，分别表示图像和文本模态的哈希函数，分别表示图像和文本模态的哈希码，其中表示哈希码的长度。

根据上述所述的变量，利用训练集中的样本的特征构建目标函数：

其中为参数为待定权重参数。一般设置，表明两个模态同等重要；。参数是模态间相似性保持的权重，可以设置。参数是正则化项的权重，可以设置。表示字典的第个字典原子，表示字典的第个字典原子。

步骤S32，求解步骤S31中的目标函数，得到图像和文本模态的哈希函数。

所述步骤S32进一步包含以下步骤：

步骤S321, 为了更容易求解目标函数，为图像和文本两个模态分别引入一个中间变量，和，即字典的系数矩阵，则目标函数可写为：

其中，参数为待定权重参数，此参数也具有一定的鲁棒性，可以设。

步骤S322,初始化字典、哈希函数和、系数矩阵和，并设置最大迭代次数。

步骤S323, 固定其他变量求解，则目标函数可以写为：

其中const 表示常数，令：，则可以得到闭合解：

其中，表示单位矩阵。

同理：

步骤S324,固定其他变量求解，则目标函数可写为：

展开上式并对求导，令其导数为零，可以得到闭合解：

同理：

步骤S325，固定其他变量求解则目标函数可写为：

该目标函数通过ADMM算法（该算法参见参考文献[11]）进行计算；

同理，用求解的相同方法得到，在此不累述。

步骤S326，判断迭代次数是否小于最大迭代次数，若是，则跳转到步骤S32继续迭代过程；若不是，则停止迭代，得到图像和文本模态的哈希函数、。

步骤S4，直接量化图像和文本模态训练样本的表示、得到哈希码，会带来量化误差，会破坏样本的结构。因此本发明提出通过为图像和文本样本学习一个正交旋转矩阵，最小化量化误差。

步骤S41，本发明提出通过学习一个旋转矩阵最小化量化误差，量化损失函数定义为：

其中，为占位符，可以是或，表示符号函数。。

步骤S421，初始化旋转矩阵及最大迭代次数，最大迭代次数一般可设置为50。

步骤S422，固定，求:

步骤S423，固定，求:

此问题为典型的Orthogonal Procrustes Problem，由奇异值分解（SVD）的方法求解，即：

则：

步骤S424，判断是否是最大迭代次数，如果不是则跳转到S422继续迭代；如果是，则停止迭代，得到正交旋转矩阵。

步骤S6，将一个模态的测试集样本作为查询样本，而另一模态的训练集作为被检索数据集。计算查询样本与被检索样本的汉明距离，并按照汉明距离进行排序，并返回排序靠前的样本。

为了证明本发明提出方法的有效性，下面将本发明应用于一个跨媒体数据库，该数据库包含186577个样本对，可以划分为10个语义类。其中图像用500维的BOW向量表示，而文本用1000维的BOW向量表示。选取99%的样本构成训练集，剩余的1%的样本构成测试集。将本发明应用于此数据库，具体步骤如下：

1) 提取数据集中图像和文本数据的特征，每副图像提取500维的BOW向量，而每段文本提取1000维的BOW向量，并分别构建图像和文本的特征矩阵；

2）通过最小化目标函数保持数据的相似性，得到图像和文本模态的哈希函数；

3）通过学习一个旋转矩阵最小化量化误差；

4）利用图像和文本的哈希函数和学习的正交旋转矩阵计算查询数据的哈希码；

5）一个模态的测试集作为查询样本，而另一模态的训练集作为被检索样本。给定一个查询样本，计算与被检索数据集中所有样本的相似度，并排序，返回排序靠前的数据。

综上所述，本发明提出的基于映射字典学习的跨媒体检索方法，检索的准确率高，容易应用于大规模数据集，实现简单等特点。本发明提出的方法有效的缩小了异构数据间的语义鸿沟，易于在实际中应用，具有广阔的应用前景和巨大的市场价值。

以上仅仅是对本发明的优选实施方式进行描述，其它优选实施方式在此不一一累述，且并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通工程技术人员对本发明的技术方案作出的各种变形和改进，均应落于本发明的权利要求书确定的保护范围内。

参考文献

[1] Bronstein M, Bronstein A, Michel F, et al. Data fusion throughcross-modality metric learning using similarity-sensitive hashing [C]. IEEEConference on Computer Vision and Pattern Recognition, 2010: 3594-3601.

[2]KUMAR S, UDUPA R. Learning hash functions for cross-view similaritysearch [C]. International Joint Conference on Artificial Intelligence, 2011:1360-1366.

[3]DING G, GUO Y, ZHOU J. Collective matrix factorization hashing formultimodal data [C]. IEEE Conference on Computer Vision and PatternRecognition, 2014: 2075-2082.

[4]ZHOU J, DING G, GUO Y. Latent semantic sparse hashing for cross-modalsimilarity search [C].ACM SIGIR Conference on Research and Development inInformation Retrieval, 2014: 415-424.

[5]ZHUANG Y, WANG Y, WU F, et al. Supervised coupled dictionary learningwith group structures for multi-modal retrieval [C]. AAAI Conference onArtificial Intelligence, 2013:1070-1076.

[6]Hotelling H.Relations between two sets of variates.Biometrika[J],1936,28(28):321-377.

[7]RAFAILIDIS D, CRESTANI F. Cluster-based joint matrix factorizationhashing for cross-modal retrieval [C]. ACM SIGIR Conference on Research andDevelopment in Information Retrieval. 2016: 781-784.

[8]ZHEN Y, YEUNG D. A probabilistic model for multimodal hash functionlearning [C]. ACM Conference on Knowledge Discovery and Data Mining, 2012:940-948.

[9]李武军,周志华.大数据哈希学习:现状与趋势.科学通报[J],2015,60(5-6):485-490

[10] GONG Y, LAZEBNIK S, GORDO A, et al. Iterative quantization: Aprocrustean approach to Learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12):2916-2929.

[11]GU S, ZHANG L, ZUO W, et al. Projective dictionary pair learning forpattern classification [C]. Advances in Neural Information ProcessingSystems, 2014: 793-801。

Claims

1.基于映射字典学习的跨模态哈希检索方法，其特征在于其通过计算机装置实现如下步骤：

其包含以下步骤：

所述步骤S32进一步包含以下步骤：

步骤S323, 固定其他变量求解，则目标函数可以写为：

其中const 表示常数，令：，则可以得到闭合解：

其中，表示单位矩阵；

同理：

步骤S324,固定其他变量求解，则目标函数可写为：

展开上式并对求导，令其导数为零，可以得到闭合解：

同理：

步骤S325，固定其他变量求解则目标函数可写为：

该目标函数通过ADMM算法进行计算；

同理，用求解的相同方法得到；

步骤S422，固定，求:

步骤S423，固定，求:

由奇异值分解（SVD）的方法求解，即：

则：

2.根据权利要求1所述的基于映射字典学习的跨模态哈希检索方法，其特征在于所述的步骤S1 包括从网络上的社交、购物网站分别收集图像和文本样本，并由在同一网页出现的图像和文本构成图像和文本样本对，建立跨媒体检索图像和文本数据集；所述的将图像和文本数据集分为训练集和测试集，随机选择99%的样本对构成训练数据集，剩余的1%构成测试数据集。

3.根据权利要求1所述的基于映射字典学习的跨模态哈希检索方法，其特征在于所述的步骤S2中对图像使用由SIFT（Scale-Invariant Feature Transform）特征作为视觉单词的BOW模型提取特征，对文本使用传统的BOW模型提取特征。