CN109670071B

CN109670071B - 一种序列化多特征指导的跨媒体哈希检索方法和系统

Info

Publication number: CN109670071B
Application number: CN201811228921.8A
Authority: CN
Inventors: 彭宇新; 叶钊达
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2021-10-08
Anticipated expiration: 2038-10-22
Also published as: CN109670071A

Abstract

本发明涉及一种序列化多特征指导的跨媒体哈希方法和系统。该方法包括以下步骤：1.建立图像和文本的数据库，分别提取图像和文本在多种尺度下的特征。2.将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络，并计算图像和文本的哈希码。3.通过尺度间关联约束函数和媒体间、媒体内哈希约束函数对网络参数进行优化，实现尺度间关联挖掘和哈希函数的学习。4.在检索阶段，提取查询图像或文本的不同尺度特征，并按步骤2中相同的方法，生成对应的哈希码，实现跨媒体哈希检索。本发明能够挖掘不同媒体间多种尺度之间的关联关系以实现哈希函数的学习，比现有方法达到更高的检索准确率。

Description

一种序列化多特征指导的跨媒体哈希检索方法和系统

技术领域

本发明涉及图像和文本之间的跨媒体哈希检索，具体涉及一种序列化多特征指导的跨媒体哈希检索方法和系统。

背景技术

跨媒体检索是一种高度灵活的检索方式，用户可以使用任意一种媒体，检索其他媒体类型的相关数据。随着互联网数据的增加，检索效率逐渐成为实际应用中的重要需求。跨媒体哈希检索是指将多媒体数据映射到统一汉明空间中，利用较短的汉明编码，既能大大提升跨媒体检索速度，又能极大地压缩所需的存储空间，具有重要的应用价值。

传统文本或图像哈希检索方法在面对跨媒体检索任务时，遇到了“异构鸿沟”的难题，即不同媒体类型的数据分布在不同特征空间中，无法直接进行相似性度量。现有方法往往通过关联学习，突破“异构鸿沟”带来的检索难题。例如Song等人提出IMH方法(Song,Jing-kuan,et al.Inter-media hashing for large-scale retrieval fromheterogeneous data sources.Proceedings of the 2013ACM SIGMOD InternationalConference on Management of Data,2013)，通过保持媒体内和媒体间的一致性，实现哈希函数学习。但该方法是无监督方法，没有使用额外的指导信息，因此检索准确性有限。有监督方法利用标注信息，通常能取得更高的准确率。例如Lin等人提出的SePH方法(Lin,Zi-jia,et al.Semantics-preserving hashing for cross-view retrieval.Proceedingsof the IEEE conference on computer vision and pattern recognition.2015)，通过约束汉明空间编码分布和语义空间标签分布的KL散度，实现更好的哈希函数学习。此外，一些方法利用深度学习，在跨媒体哈希检索任务中取得了更好的结果。例如Jiang等人提出了DCMH方法(Jiang,Qing-Yuan,et al.Deep Cross-Modal Hashing.Proceedings of theIEEE conference on computer vision and pattern recognition,2017)，联合了特征学习和哈希函数学习，设计了统一的深度哈希模型，实现了更好的检索准确性。

然而，上述方法都没有充分利用媒体中不同尺度特征的信息，例如图像中的纹理、物体、场景信息，文本中的句子、单词信息，而这些图像、文本不同尺度的特征中蕴含着丰富的互补信息，能用于提高哈希检索的准确率。对此，本发明提出了序列化多特征指导的跨媒体哈希检索方法，利用循环神经网络建模不同媒体内多种尺度的信息，并通过尺度特征关联挖掘，取得了更好的检索准确率。

发明内容

本发明提出了一种序列化多特征指导的跨媒体哈希检索方法，能够学习不同媒体间多种尺度之间的关联关系，比现有方法达到更高的检索准确率。

为达到以上目的，本发明采用的技术方案如下：

一种序列化多特征指导的跨媒体哈希检索方法，包括以下步骤：

(1)建立图像和文本的数据库，分别提取图像和文本在多种尺度下的特征；

(2)将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络，并计算图像和文本的哈希码；

(3)通过尺度间关联约束函数和媒体间、媒体内哈希约束函数对网络参数进行优化，实现尺度间关联挖掘和哈希函数的学习；

(4)在检索阶段，提取待查询图像或文本的不同尺度特征，并按步骤(2)中相同的方法，生成对应的哈希码，通过哈希码实现跨媒体哈希检索。

进一步，上述方法中，步骤(1)中的图像特征向量具体为：VGG-19网络的POOL-5、FC-6、FC-7层特征，分别代表底层基元尺度特征、中层概念尺度特征和高层语义尺度特征；文本特征具体为：文本词袋特征和使用主成份分析方法对每一句的词袋特征降维拼接得到的句子词袋特征，分别代表单词尺度特征和句子尺度特征。

进一步，上述方法中，步骤(2)采用了基于循环神经网络的深度模型，将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络计算哈希码。其中同一尺度的特征可以多次输入网络，且每一个尺度的特征都会对应生成一定长度的哈希码，其长度由预先的参数定义，最终的哈希码为上述流程得到的哈希码拼接得到。特别的，图像和文本第k个输入的尺度特征生成的哈希码长度需要保持一致，以便于实现尺度间关联的挖掘。

进一步，上述方法中，步骤(3)采用的尺度间关联约束函数为：

其中，loss_corr表示尺度间关联约束总损失，h_t(x),h_i(y)分别指文本和图像所有尺度特征生成的完整的文本哈希码和图像哈希码，

指第k个输入的尺度特征生成的文本、图像哈希码。其中F_corr表示尺度间关联约束函数，有着如下定义：F_corr(x,y)＝1-cos(x,y)。其中x,y分别表示图像和文本媒体数据生成的哈希码，cos表示余弦距离函数。

进一步，上述方法中，步骤(3)中采用的媒体间、媒体内哈希约束函数定义如下：

Loss_inter＝∑J(h_i(x),h_t(x⁺),h_t(x^-))+J(h_t(x),h_i(x⁺),h_i(x^-))

Loss_intra＝∑J(h_i(x),h_i(x⁺),h_i(x^-))+J(h_t(x),h_t(x⁺),h_t(x^-))

其中Loss_inter表示媒体间哈希约束函数，Loss_intra表示媒体内哈希约束函数。h_t(x),h_i(x)分别指生成的文本哈希码和图像哈希码。而x⁺和x^-分别表示和x有着相同标签和不同标签的图像或者文本。J(·)表示三元损失函数：

J(h(x),h(x⁺),h(x^-))＝max(0,m_t+‖h(x)-h(x⁺)‖²-‖h(x)-h(x^-)‖²)

其中h(·)表示哈希函数，m_t是边界阈值参数。x,x⁺,x^-表示多媒体数据，其中x,x⁺有着相同语义标签，x,x^-有着不同的语义标签。

进一步，上述方法中，步骤(4)中检索的方法为：在检索阶段，提取待查询图像或者文本的多尺度下的特征，采用步骤(2)中相同的方法，得到查询哈希码。查询哈希码在使用同样方法构建的图像、文本哈希索引数据库中，使用汉明距离作为度量方式，实现跨媒体哈希检索。

与上面方法对应的，本发明还提供一种序列化多特征指导的跨媒体哈希检索系统，其包括：

特征提取模块，负责建立图像和文本的数据库，分别提取图像和文本在多种尺度下的特征；

哈希码计算模块，负责将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络，并计算图像和文本的哈希码；

关联挖掘和学习模块，负责通过尺度间关联约束函数和媒体间、媒体内哈希约束函数对网络参数进行优化，实现尺度间关联挖掘和哈希函数的学习；

检索模块，负责在检索阶段，调用所述特征提取模块提取待查询图像或文本的不同尺度特征，并调用所述哈希码计算模块生成对应的哈希码，通过哈希码实现跨媒体哈希检索。

本发明的效果在于：与现有方法相比，本方法考虑到媒体内多种尺度特征包含着大量互补信息，而且不同媒体的尺度特征之间又存在关联关系。本方法充分利用了这些尺度特征，并挖掘这些关联关系，因此能取得更好的检索准确率。

本方法之所以具有上述发明效果，其原因在于：本方法利用循环神经网络，对媒体内的不同尺度的特征进行建模。利用多种尺度特征同时指导哈希码的生成，增加了生成哈希码的多样性。尺度特征通过循环神经网络实现信息共享，降低了单一特征异常对结果的影响，增加了哈希码的鲁棒性。其次，本方法通过对多种尺度特征之间的关联进行挖掘，优化了哈希函数的学习，取得了更好的检索性能。

附图说明

图1是本发明的序列化多特征指导的跨媒体哈希检索方法流程图。

图2是本发明的网络结构图。

图3是本发明的网络结构细节展开图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细描述。

本发明的序列化多特征指导的跨媒体哈希检索方法，其流程如图1所示，包含以下步骤：

(1)建立图像和文本的数据库，分别提取图像和文本在多种尺度下的特征。

图像特征向量具体为：VGG-19网络的POOL-5、FC-6、FC-7层特征，分别代表底层基元尺度特征、中层概念尺度特征和高层语义尺度特征；文本特征具体为：文本词袋特征和使用主成份分析方法对每一句的词袋特征降维拼接的句子词袋特征，分别代表单词尺度特征和句子尺度特征。

(2)将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络，并计算图像和文本的哈希码。

深度哈希方法如图2所示。本发明设计了一种多尺度特征指导的哈希函数学习方法。将图像和文本多种尺度下的特征按照设计的顺序输入网络结构，实现哈希函数的学习。在本实施例中，对图像而言，依次输入FC-7、FC-6、POOL-5和FC-7特征。对文本而言，依次输入文本词袋特征、句子词袋特征、文本词袋特征、句子词袋特征。需要注意的是，同样的特征可以根据需求输入多次。由于网络的记忆结构，即使多次输入相同的特征，根据网络里隐含的不同记忆内容，能够生成不同的哈希码，并不会产生冗余。

图3展示了网络利用多种尺度特征计算哈希码的具体细节，其中RNN表示循环神经网络。网络模型会结合输入的某一尺度特征与网络中的记忆内容生成哈希码。本发明通过将前一个网络节点的输出作为下一个网络节点的输入，以此控制该尺度特征生成哈希码的长度。特别的，图像和文本第k个输入的尺度特征生成的哈希码长度需要保持一致，以便于实现尺度间关联的挖掘。

(3)通过尺度间关联约束函数和媒体间、媒体内哈希约束函数对网络参数进行优化，实现尺度间关联挖掘和哈希函数的学习。

该步骤具体是指在网络训练过程中，使用约束函数实现匹配特征之间尺度关联的挖掘，以及媒体内、媒体间的语义关联保持以提升训练效果。涉及到的约束函数有：

(a)尺度间关联约束函数：

其中h_t(x),h_i(y)分别指图像和文本所有尺度特征生成的完整的文本哈希码和图像哈希码，

指第k个输入的尺度特征生成的文本、图像哈希码。其中F_corr表示尺度间关联约束函数，定义为：F_corr(x,y)＝1-cos(x,y)。其中x,y分别表示图像和文本生成的哈希码，cos表示余弦距离函数。

(b)媒体间、媒体内哈希约束定义为如下损失函数：

Loss_inter＝∑J(h_i(x),h_t(x⁺),h_t(x^-))+J(h_t(x),h_i(x⁺),h_i(x^-))

Loss_intra＝∑J(h_i(x),h_i(x⁺),h_i(x^-))+J(h_t(x),h_t(x⁺),h_t(x^-))

J(h(x),h(x⁺),h(x^-))＝max(0,m_t+‖h(x)-h(x⁺)‖²-‖h(x)-h(x^-)‖²)

h(·)表示哈希函数，m_t是边界阈值参数。x,x⁺,x^-表示多媒体数据，其中x,x⁺有着相同语义标签，x,x^-有着不同的语义标签。

(4)在检索阶段，提取查询图像或者文本的多尺度下的特征，采用步骤(2)中相同的方法，得到查询哈希码。查询哈希码在使用同样方法构建的图像、文本哈希索引数据库中，使用汉明距离作为度量方式，实现跨媒体哈希检索。

下面的实验结果表明，与现有方法相比，本发明的序列化多尺度跨媒体哈希检索方法能够取得更高的检索准确率。

本实施例采用Wikipedia数据集进行实验，该数据集由文献“On the role ofcorrelation and abstraction in cross-modal multimedia retrieval”(作者JoseCosta Pereira,Emanuele Coviello,Gabriel Doyle,Nikhil Rasiwasia,Gert RGLanckriet,Roger Levy和Nuno Vasconcelos)提出，其中共有10类，2866个图像/文本对数据。我们测试了以下3种方法作为实验对比：

现有方法一：文献“Deep cross-modal hashing”(作者Qing-Yuan Jiang和Wu-JunLi)中的DCMH方法。

现有方法二：文献“Semantics-preserving hashing for cross-viewretrieval”(作者Zi-jia Lin,Gui-guang Ding,Ming-qing Hu和Jian-min Wang)中的SePH方法。

现有方法三：文献“Data fusion through cross-modality metric learningusing similarity-sensitive hashing”(作者Michael M Bronstein,Alexander MBronstein,Fabrice Michel和Nikos Paragios)中的CMSSH方法。

本发明：本实施例的方法。

实验采用MAP指标来评测哈希检索的质量。MAP指标是一种常见的检索结果统计指标，其定义如下：

其中R是数据库中正样本的总数，R_k表示前k个返回结果中正样本的数目，rel_k表示第k个返回结果是否为正样本，是正样本则为1，否则为0。

上述公式定义了单一查询的AP值，MAP指标是所有查询AP的平均值。

实验评测了上述方法在哈希检索编码长度为64比特情况下，图像检索文本和文本检索图像两个任务上的结果，如表1所示：

表1.本发明的对比实验结果

MAP	图像检索文本	文本检索图像
			现有方法一	0.508	0.788
现有方法二	0.533	0.792
			现有方法三	0.157	0.206
本发明	0.539	0.846

从表1可以看出，本发明在跨媒体哈希准确率上有较大提高。三种现有方法都没有充分使用不同尺度特征的信息，也未考虑到尺度特征信息之间的关联。本发明通过循环神经网络结构建模多种尺度特征信息，并利用约束函数挖掘不同媒体尺度特征之间的关联，增强了哈希函数的多样性和鲁棒性，因此能取得更好的检索准确率。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种序列化多特征指导的跨媒体哈希检索方法，包括以下步骤：

(4)在检索阶段，提取待查询图像或文本的不同尺度特征，并按步骤(2)中相同的方法生成对应的哈希码，通过哈希码实现跨媒体哈希检索；

其中，步骤(2)中采用基于循环神经网络的深度模型，将图像、文本的不同尺度特征按设定的顺序分别输入到两路循环神经网络，计算哈希码；其中同一尺度的特征能够多次输入网络，且每一个尺度的特征都会对应生成一定长度的哈希码，其长度由预先的参数定义，最终的哈希码为上述步骤得到的哈希码拼接得到；图像和文本第k个输入的尺度特征生成的哈希码长度需要保持一致，以便于实现尺度间关联的挖掘；

步骤(3)中采用的尺度间关联约束函数为：

其中，loss_corr表示尺度间关联约束总损失，h_t(x),h_i(y)分别指图像和文本所有尺度特征生成的完整的文本哈希码和图像哈希码；h_t ^k(x),h_i ^k(y)指第k个输入的尺度特征生成的文本、图像哈希码；F_corr表示尺度间关联约束函数，定义为：F_corr(x,y)＝1-cos(x,y)，其中x,y分别表示图像和文本生成的哈希码，cos表示余弦距离函数。

2.如权利要求1所述的方法，其特征在于，步骤(1)中的图像特征向量为：VGG-19网络的POOL-5、FC-6、FC-7层特征，分别代表底层基元尺度特征、中层概念尺度特征和高层语义尺度特征；文本特征为：文本词袋特征和使用主成份分析方法对每一句的词袋特征降维拼接的句子词袋特征，分别代表单词尺度特征和句子尺度特征。

3.如权利要求1所述方法，其特征在于，步骤(3)中采用的媒体间、媒体内哈希约束函数定义如下：

Loss_inter＝∑J(h_i(x),h_t(x⁺),h_t(x^-))+J(h_t(x),h_i(x⁺),h_i(x^-))，

Loss_intra＝∑J(h_i(x),h_i(x⁺),h_i(x^-))+J(h_t(x),h_t(x⁺),h_t(x^-))，

其中Loss_inter表示媒体间哈希约束函数，Loss_intra表示媒体内哈希约束函数；h_t(x),h_i(x)分别指生成的文本哈希码和图像哈希码；x⁺和x^-分别表示和x有着相同标签和不同标签的图像或者文本；J(·)表示三元损失函数：

J(h(x),h(x⁺),h(x^-))＝max(0,m_t+‖h(x)-h(x⁺)‖²-‖h(x)-h(x^-)‖²)，

其中，h(·)表示哈希函数；m_t是边界阈值参数；x,x⁺,x^-表示多媒体数据，其中x,x⁺有着相同语义标签，x,x^-有着不同的语义标签。

4.如权利要求1所述方法，其特征在于，步骤(4)中检索的方法为：在检索阶段，提取查询图像或者文本的多尺度下的特征，采用步骤(2)中相同的方法得到查询哈希码；查询哈希码在使用同样方法构建的图像、文本哈希索引数据库中实现跨媒体哈希检索。

5.如权利要求4所述方法，其特征在于，步骤(4)利用所述哈希索引数据库，使用汉明距离作为度量方式，实现跨媒体哈希检索。

6.一种采用权利要求1～5中任一权利要求所述方法的序列化多特征指导的跨媒体哈希检索系统，其特征在于，包括：

检索模块，负责在检索阶段，调用所述特征提取模块提取待查询图像或文本的不同尺度特征，并调用所述哈希码计算模块生成对应的哈希码，通过计算哈希码汉明距离实现跨媒体哈希检索。