CN108170755B

CN108170755B - 基于三元组深度网络的跨模态哈希检索方法

Info

Publication number: CN108170755B
Application number: CN201711402277.7A
Authority: CN
Inventors: 邓成; 陈兆佳; 李超; 杨二昆; 杨延华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-04-07
Anticipated expiration: 2037-12-22
Also published as: CN108170755A

Abstract

本发明提出了一种基于三元组深度网络的跨模态哈希检索方法，用于解决现有跨模态哈希检索方法中存在的检索精率低的技术问题。实现步骤为：对数据进行预处理，将数据分成训练数据和查询数据；获取图像训练数据和文本训练数据的哈希码；采用三元组监督信息建立目标损失函数；对目标损失函数进行顺序迭代优化；计算图像查询数据和文本查询数据的哈希码；获取查询数据的检索结果。本发明提供的方案采用三元组信息构建目标损失函数，增加语义信息，同时加入模态内的损失函数，增加方法的判别性，能够有效地提高跨模态检索的精度。本发明可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。

Description

基于三元组深度网络的跨模态哈希检索方法

技术领域

本发明属于计算机视觉技术领域，涉及大规模的图像数据和文本数据之间的互相检索，具体是一种基于三元组深度网络的跨模态哈希检索方法，可用于物联网信息检索、电子商务以及移动设备等的图片与文本互搜索服务。

背景技术

随着互联网技术和社交网站的飞速发展，每天都会产生海量的多媒体数据，比如文本，图像，视频和音频等，实现跨模态数据之间的互相检索已经成为信息检索领域中的研究热点。哈希方法法是一种非常有效的信息检索方法，具有低耗内存和快速检索的优点。哈希方法可以分成单模态哈希方法，多模态哈希方法和跨模态哈希方法。单模态哈希方法的查询数据和检索结果属于同一模态，数据特征来自同构特征空间。多模态哈希方法的查询数据和检索结果属于同一模态，数据特征来自异质特征空间。跨模态哈希方法的查询数据和检索结果属于不同模态，数据特征来自异质特征空间。跨模态哈希检索方法的核心思想是将不同模态的数据投影到一个通用的汉明空间，在这个空间中得到不同模态数据的哈希码，其中哈希码之间的汉明距离与原始数据之间的语义相似性相对应，然后通过计算哈希码之间的汉明距离返回检索结果。跨模态哈希方法可以分为无监督方法和有监督方法，无监督跨模态哈希方法主要通过挖掘和保持多模态数据的潜在相关性来获得哈希编码，而有监督跨模态哈希方法旨在利用训练数据类标信息的语义相似性，来提高哈希检索的检索精度。浅层的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程分开，导致两个过程不能很好的兼容。而深度的有监督跨模态哈希检索方法将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中，提取多层抽象特征并能有效地捕捉不同模态数据之间的异质关联，提高检索精度。跨模态哈希检索技术的关键在于对不同模态数据的关系进行建模，难点就是跨越语义鸿沟，所以如何设计高精度的跨模态哈希检索方法是现阶段亟待解决的问题。当前，研究人员已经提出一些深度的有监督跨模态哈希检索方法。

例如Qing-Yuan Jiang和Wu-Jun Li在2017年的Computer Vision and PatternRecognition会议中发表了名为“Deep Cross-Modal Hashing”的文章，公开了一种基于深度学习的跨模态哈希检索方法，文中提出将特征提取过程和哈希码学习过程结合在一个端对端的深度网络中，实现两个过程的兼容，提高检索精度。由于该方法使用成对监督信息建立目标损失函数，仅描述两个数据之间的成对关系缺乏丰富的语义信息，而且该方法只考虑模态间的相似性而忽略了模态内的相似性，检索精度还有待提高。

发明内容

本发明的目的在于针对上述已有技术的不足，提出基于三元组深度网络的跨模态哈希检索方法，用于解决现有跨模态哈希检索方法中存在的检索精度低的技术问题。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)对数据进行预处理：

确定两种模态的数据：图像数据和文本数据，提取文本数据的Bag-of-words特征，保留图像数据的原始像素特征，并将图像数据分成图像训练数据和图像查询数据，将文本数据分成文本训练数据和文本查询数据；

(2)获取图像训练数据和文本训练数据的哈希码：

将文本训练数据的Bag-of-words特征输入文本深度网络，得到文本训练数据哈希码，同时将图像训练数据的原始像素特征输入图像深度网络，得到图像训练数据哈希码；

(3)采用三元组监督信息建立目标损失函数J：

(3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码，不相似的文本训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立图像文本模态间的三元组损失函数J₁；

(3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码，不相似的图像训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立文本图像模态间的三元组损失函数J₂；

(3c)将图像文本模态间的三元组损失函数J₁与文本图像模态间的三元组损失函数J₂相加，得到模态间的三元组损失函数J_inter；

(3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码，不相似的图像训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立图像模态内的三元组损失函数J₃；

(3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码，不相似的文本训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立文本模态内的三元组损失函数J₄；

(3g)将图像模态内的三元组损失函数J₃与文本模态内的三元组损失函数J₄相加，得到模态内的三元组损失函数J_intra；

(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数J_re，并将图正则化损失函数J_re与模态间的三元组损失函数J_inter和模态内的三元组损失函数J_intra相加，得到目标损失函数J；

(4)对目标损失函数J进行顺序迭代优化：

对目标损失函数J进行顺序迭代优化，得到文本深度网络参数w_x、图像深度网络参数w_y和图正则化损失函数J_re中训练数据的统一哈希码B；

(5)计算图像查询数据和文本查询数据的哈希码；

(5a)将文本查询数据的Bag-of-words特征输入文本深度网络，得到文本查询数据哈希码

其中，x_q表示一个文本查询数据，w_x表示文本深度网络参数；

(5b)将图像查询数据的原始像素特征输入图像深度网络，得到图像查询数据哈希码

其中，y_q表示一个图像查询数据，w_y表示图像深度网络参数；

(6)获取查询数据检索结果：

计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θ_yx，同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θ_xy，并按照由小到大的顺序对θ_yx和θ_xy分别进行排序，得到多个与查询数据距离较小的训练数据作为检索结果。

本发明与现有技术相比，具有以下优点：

本发明使用一个端对端的深度网络将特征提取过程和哈希码学习过程结合在同一个框架中，实现两个过程的兼容，提出使用三元组监督信息构建目标损失函数，描述三个数据之间的相互关系以保留更丰富的语义信息，同时加入模态内的损失函数，增加目标损失函数的判别性，明显提高了跨模态哈希检索的精度。

附图说明

图1为本发明的实现流程图；

图2为本发明与现有跨模态哈希检索方法在MIRFlicker25k数据库下的准确率-召回率实验结果曲线对比图，其中，图2(a)为编码长度取16位的图像查询文本准确率-召回率曲线图，图2(b)为编码长度为16位的文本查询图像准确率-召回率曲线图；

图3为本发明与现有跨模态哈希检索方法在MIRFlickr25k数据库下的准确率实验结果曲线对比图，其中，图3(a)为编码长度取32位的图像查询文本准确率曲线图，图3(b)为编码长度取32位的文本查询图像准确率曲线图；

图4为本发明与现有跨模态哈希检索方法在NUSWIDE数据库下的准确率-召回率实验结果曲线对比图，其中，图4(a)为编码长度取16位的图像查询文本准确率-召回率曲线图，图4(b)为编码长度取16位的文本查询图像准确率-召回率曲线图；

图5为本发明与现有跨模态哈希检索方法在NUSWIDE数据库下的准确率实验结果曲线对比图，其中，图5(a)为编码长度取32位的图像查询文本准确率曲线图，图5(b)为编码长度取32位的文本查询图像准确率曲线图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步详细描述，

参照图1，本发明包括如下步骤：

步骤1)对数据进行预处理：

确定两种模态的数据：图像数据和文本数据，使用word2vec方法提取文本数据的Bag-of-words特征将文本表示成向量形式便于计算机处理，提取图像数据的原始像素特征保留图像的原始信息；并将80％的图像数据作为图像训练数据，其余作为图像查询数据；将与图像训练数据相对应的文本数据作为文本训练数据，其余作为文本查询数据；

步骤2)获取图像训练数据和文本训练数据的哈希码：

步骤3)采用三元组监督信息建立目标损失函数J。三元组监督信息描述锚点数据，正例数据和负例数据三个数据

之间的相互关系，其中锚点数据与正例数据之间具有相同的类标，锚点数据与负例数据之间具有不同的类标，我们利用三元组对数似然函数增加锚点数据与正例数据之间的相似性同时减少锚点数据与负例数据之间的相似性：

步骤3a)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码，不相似的文本训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立图像文本模态间的三元组损失函数J₁，其表达式为：

其中，x表示文本模态；y表示图像模态；

表示三元组；q_m，p_m，n_m分别表示锚点数据，正例数据和负例数据；

表示图像深度网络输出的图像训练数据哈希码；

表示文本深度网络输出的文本训练数据哈希码；k表示哈希码长度；N表示数据个数；M表示三元组个数；

表示图像锚点训练数据和文本正例训练数据之间的汉明距离；

表示图像锚点训练数据和文本负例训练数据之间的汉明距离；σ(x)表示sigmoid函数

超参数α表示一个阈值参数；

其中w_x和w_y分别表示文本深度网络参数和图像深度网络的网络参数。

步骤3b)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码，不相似的图像训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立文本图像模态间的三元组损失函数J₂，其表达式为：

其中，

表示文本锚点训练数据和图像正例训练数据之间的汉明距离；

表示文本锚点训练数据和图像负例训练数据之间的汉明距离；

步骤3c)将图像文本模态间的三元组损失函数J₁与文本图像模态间的三元组损失函数J₂相加，得到模态间的三元组损失函数J_inter；

步骤3d)随机选择部分图像训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的图像训练数据哈希码作为正例数据哈希码，不相似的图像训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立图像模态内的三元组损失函数J₃，其表达式为：

其中，

表示图像锚点训练数据和图像正例训练数据之间的汉明距离；

步骤3f)随机选择部分文本训练数据哈希码作为三元组监督信息中锚点数据哈希码，并将与三元组监督信息中锚点数据哈希码相似的文本训练数据哈希码作为正例数据哈希码，不相似的文本训练数据哈希码作为负例数据哈希码，采用锚点数据哈希码与正例数据哈希码和负例数据哈希码，分别计算锚点数据和正例数据之间的汉明距离

和锚点数据和负例数据之间的汉明距离

并利用

和

建立文本模态内的三元组损失函数J₄，其表达式为：

其中，

表示文本锚点训练数据和文本正例训练数据之间的汉明距离；

表示文本锚点训练数据和文本负例训练数据之间的汉明距离；

步骤3g)将图像模态内的三元组损失函数J₃与文本模态内的三元组损失函数J₄相加，得到模态内的三元组损失函数J_intra；

步骤3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数J_re，其表达式为：

其中，S表示相似矩阵；

表示统一的哈希码；L表示拉普拉斯矩阵；B^x表示文本训练数据哈希码；B^y表示图像训练数据哈希码；γ，η和β表示平衡参数；Z表示元素全为1的矩阵；

表示矩阵的F范数；tr(·)表示矩阵的迹；将图正则化损失函数J_re与模态间的三元组损失函数J_inter和模态内的三元组损失函数J_intra相加，得到目标损失函数J；

步骤4)对目标损失函数J进行顺序迭代优化：

步骤4a)固定目标损失函数J中的文本深度网络参数w_x和图像深度网络参数w_y，并令

得到图正则化损失函数J_re中训练数据的统一哈希码B：

其中，I表示单位矩阵；

步骤4b)固定图正则化损失函数J_re中训练数据的统一哈希码B和图像深度网络参数w_y，对第i个文本训练数据的哈希码G_*i求偏导可得：

使用后向传播方法学习文本深度网络参数w_x，其中，

表示第i个文本训练数据与图像正例训练数据之间的汉明距离；

表示第i个文本训练数据与图像负例训练数据之间的汉明距离；

表示第i个文本训练数据与文本正例训练数据之间的汉明距离；

表示第i个文本训练数据与文本负例训练数据之间的汉明距离；

步骤4c)固定图正则化损失函数J_re中训练数据的统一哈希码B和文本深度网络参数w_x，对第i个图像训练数据的哈希码F_*i求导可得：

使用后向传播方法学习图像深度网络参数w_y，其中，

表示第i个图像训练数据与文本正例训练数据之间的汉明距离；

表示第i个图像训练数据与文本负例训练数据之间的汉明距离；

表示第i个图像训练数据与图像正例训练数据之间的汉明距离；

表示第i个图像训练数据与图像负例训练数据之间的汉明距离；

步骤4d)令迭代次数加一，返回步骤4a)继续迭代直至最大迭代次数或目标损失函数J小于预先设置的损失常数。

步骤5)计算图像查询数据和文本查询数据的哈希码；

步骤5a)将文本查询数据的Bag-of-words特征输入文本深度网络，得到文本查询数据哈希码

其中，x_q表示一个文本查询数据；

步骤5b)将图像查询数据的原始像素特征输入图像深度网络，得到图像查询数据哈希码

其中，y_q表示一个图像查询数据；

步骤6)获取查询数据检索结果：

计算图像查询数据哈希码和文本训练数据哈希码之间的汉明距离θ_yx，同时计算文本查询数据哈希码和图像训练数据哈希码之间的汉明距离θ_xy，并按照有小到大的顺序对θ_yx和θ_xy分别进行排序，得到多个与查询数据距离较小的训练数据作为检索结果。

以下结合仿真实验，对本发明的技术效果作进一步说明。

1.仿真条件和内容：

本发明的仿真是在NVIDIA GTX TITAN X GPU服务器上，运用开源的深度学习工具箱MatConvNet进行的实验仿真。仿真实验中的参数为：阈值参数α等于编码长度的一半；平衡参数γ＝100，η＝50，β＝1。

对本发明与现有的深度跨模态哈希(Deep Cross-Modal Hashing，DCMH)进行仿真对比。

仿真1：在编码长度取16位时，对MIRFlickr25k数据库画出准确率-召回率曲线，如图2所示；在编码长度取32位时，对MIRFlickr25k数据库画出准确率曲线，如图3所示。

仿真2：在编码长度取16位时，对NUSWIDE数据库画出准确率-召回率曲线，如图4所示；在编码长度取32位时，对NUSWIDE数据库画出准确率曲线，如图5所示。

2.仿真结果分析：

图2(a)为在MIRFlickr25k数据库下编码长度取16位的图像查询文本的准确率-召回率曲线图，横轴表示召回率，纵轴表示准确率。图中可见，本发明结果曲线与坐标轴所围的面积比DCMH方法大，表示在编码长度取16位时，本发明的图像检索文本性能良好。

图2(b)为在MIRFlickr25k数据库下编码长度取16位的文本查询图像的准确率-召回率曲线图，横轴表示召回率，纵轴表示准确率。图中可见，本发明结果曲线与坐标轴所围的面积比DCMH方法大，表示在编码长度取16位时，本发明的文本检索图像性能良好。

图3(a)为在MIRFlickr25k数据库下编码长度取32位的图像查询文本的准确率曲线图，横轴表示返回的检索数据的个数，纵轴表示准确率。图中可见，本发明的图像查询文本的准确率完全高于DCMH方法，表示在编码长度取32位时，本发明的图像检索文本性能良好。

图3(b)为在MIRFlickr25k数据库下编码长度取32位的文本查询图像的准确率曲线图，横轴表示返回的检索数据的个数，纵轴表示准确率。图中可见，本发明的文本查询图像的准确率和DCMH方法基本持平，表示在编码长度取32位时，两者的文本检索图像性能差不多。

图4(a)为在NUSWIDE数据库下编码长度取16位的图像查询文本的准确率-召回率曲线图，横轴表示召回率，纵轴表示准确率。图中可见，本发明结果曲线与坐标轴所围的面积比DCMH方法大，表示在编码长度取16位时，本发明的图像检索文本性能良好。

图4(b)为在NUSWIDE数据库下编码长度取16位的文本查询图像的准确率-召回率曲线图，横轴表示召回率，纵轴表示准确率。图中可见，本发明结果曲线与坐标轴所围的面积比DCMH方法大，表示在哈希码长度取16位时，本发明的文本检索图像性能良好。

图5(a)为在NUSWIDE数据库下编码长度取32位的图像查询文本的准确率曲线图，横轴表示返回的检索数据的个数，纵轴表示准确率。图中可见，本发明的图像查询文本的准确率完全高于DCMH方法，表示在编码长度取32位时，本发明的图像检索文本性能良好。

图5(b)为在NUSWIDE数据库下编码长度取32位的文本查询图像的准确率曲线图，横轴表示返回的检索数据的个数，纵轴表示准确率。图中可见，本发明的文本查询图像的准确率完全高于DCMH方法，表示在编码长度取32位时，本发明的文本检索图像性能良好。

从以上的仿真结果可见，采用本发明进行跨模态检索的精度高于现有方法进行跨模态检索的精度。所以，与现有技术相比，本发明能够有效利用三元组深度网络提高跨模态检索的精度。

Claims

1.一种基于三元组深度网络的跨模态哈希检索方法，其特征在于，包括如下步骤：

(1)对数据进行预处理：

(2)获取图像训练数据和文本训练数据的哈希码：

(3)采用三元组监督信息建立目标损失函数J：

和锚点数据和负例数据之间的汉明距离

并利用

和

建立图像文本模态间的三元组损失函数J₁：

其中，x表示文本模态；y表示图像模态；

表示图像深度网络输出的图像训练数据哈希码；

超参数α表示一个阈值参数；

其中w_x和w_y分别表示文本深度网络参数和图像深度网络的网络参数；

和锚点数据和负例数据之间的汉明距离

并利用

和

建立文本图像模态间的三元组损失函数J₂：

其中，

和锚点数据和负例数据之间的汉明距离

并利用

和

建立图像模态内的三元组损失函数J₃：

其中，

和锚点数据和负例数据之间的汉明距离

并利用

和

建立文本模态内的三元组损失函数J₄：

其中，

(3h)利用步骤(2)得到的图像训练数据哈希码和文本训练数据哈希码计算图正则化损失函数J_re，并将图正则化损失函数J_re与模态间的三元组损失函数J_inter和模态内的三元组损失函数J_intra相加，得到目标损失函数J，其中，J_re的表达式为：

s.t.B＝B^x＝B^y∈{-1,1}^k×N

其中，S表示相似矩阵；

表示矩阵的F范数；tr(·)表示矩阵的迹；

(4)对目标损失函数J进行顺序迭代优化：

(5)计算图像查询数据和文本查询数据的哈希码；

其中，x_q表示一个文本查询数据；

其中，y_q表示一个图像查询数据；

(6)获取查询数据检索结果：

2.根据权利要求1所述的基于三元组深度网络的跨模态哈希检索方法，其特征在于，步骤(4)所述的对目标损失函数J进行顺序迭代优化：

(4a)固定目标损失函数J中的文本深度网络参数w_x和图像深度网络参数w_y，并令

得到图正则化损失函数J_re中训练数据的统一哈希码B：

其中，

表示图像深度网络输出的图像训练数据哈希码；

表示文本深度网络输出的文本训练数据哈希码；L表示拉普拉斯矩阵；I表示单位矩阵；β和γ表示平衡参数；

(4b)固定图正则化损失函数J_re中训练数据的统一哈希码B和图像深度网络参数w_y，使用后向传播方法学习文本深度网络参数w_x；对第i个文本训练数据的哈希码G_*i求偏导可得：

其中，M表示三元组个数；σ(x)表示sigmoid函数

表示第i个文本训练数据与文本负例训练数据之间的汉明距离；超参数α表示一个阈值；

表示统一的哈希码；γ和η表示平衡参数；Z表示元素全为1的矩阵；

(4c)固定图正则化损失函数J_re中训练数据的统一哈希码B和文本深度网络参数w_x，使用后向传播法方学习图像深度网络参数w_y；对第i个图像训练数据的哈希码F_*i求导可得：

其中，

(4d)令迭代次数加一，返回步骤(4a)继续迭代直至最大迭代次数或目标损失函数J小于预先设置的损失常数。