CN107871014A

CN107871014A - 一种基于深度融合哈希的大数据跨模态检索方法及系统

Info

Publication number: CN107871014A
Application number: CN201711184981.XA
Authority: CN
Inventors: 王建民; 龙明盛; 曹越; 刘斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-11-23
Filing date: 2017-11-23
Publication date: 2018-04-03

Abstract

本发明提供一种基于深度融合哈希的大数据跨模态检索方法，包括：识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码；计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离；在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果。本发明提供的基于深度融合哈希的大数据跨模态检索方法及系统，通过捕获视觉数据和自然语言之间的内在交叉对应关系，从而在端到端深度学习架构中生成图像和语句的紧凑哈希码，提高了跨模态检索的准确率。

Description

一种基于深度融合哈希的大数据跨模态检索方法及系统

技术领域

本发明涉及计算机数据管理技术领域，更具体地，涉及一种基于深度融合哈希的大数据跨模态检索方法及系统。

背景技术

随着信息技术的飞速发展，搜索引擎和社交网络中高维度多媒体数据不断增加，如何在这些海量的高维度大数据中进行高效的跨模态近似最近邻搜索成为一个重要且迫切的问题。跨模态检索即使用一种模态的数据作为查询条件，返回另一种模态的相关结果，例如用语句检索图像或用图像检索语句。高效跨模态近似最近邻搜索的一个有力的解决方案是哈希方法(Hashing)，它将高维数据压缩成紧凑的二进制码，因而大大提高其存储效率和检索效率。但是，由于不同模态的异构性，以及低级特征与高级语义之间的语义差距，高质量和高计算效率的跨模态哈希仍然是一个巨大的挑战。

在过去，研究人员曾经提出过许多种传统跨模态哈希方法，大多数方法在哈希函数学习过程中利用跨模态的共享结构，在同构汉明空间中压缩跨模态数据。但是，这种基于浅层架构的跨模态哈希方法不能有效地利用不同模态数据之间的相关关系来降低不同的模态之间的异构性。另外，最新的基于深度学习的跨模态方法表明，深度学习方法可以比浅层学习方法更有效地捕获不同模态之间数据的关联关系，这些深度模型已经成功应用于图像标注和图像检索。

但是，这些技术并不能有效捕捉图像的空间依赖性和语句的时间动态性，也就无法学习强大的特征表示和跨模态嵌入，不能减轻不同模态的异构性，因而无法生成用于跨模态检索的高质量、紧凑的哈希编码，从而不能在跨模态检索中取得较好的效果。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度融合哈希的大数据跨模态检索方法及系统，所述方法包括：

S1、识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码，或

若待检索数据的数据类型为语句，则将待检索的语句输入到训练后的语句哈希网络中，获取所述待检索的语句对应的语句二进制码，其中，所述图像哈希网络和所述语句哈希网络分别对应预设的深度视觉-语义融合网络中的图像模态和语句模态，所述深度视觉-语义融合网络用于捕获视觉数据和自然语言之间的内在交叉对应关系；

S2、计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或

计算所述待检索语句对应的语句二进制码和检索库中每一张图像对应的二进制码的第二汉明距离；

S3、在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果，或

在所述检索库中选取第二汉明距离最小的预设数量的图像作为待检索数据的数据类型为语句的检索结果。

其中，步骤S1之前所述方法还包括：

将深度卷积神经网络CNN和深度循环神经网络RNN进行特征融合，以构建所述深度视觉-语义融合网络；

基于所述深度视觉-语义融合网络的融合模态表征，构建所述图像哈希网络，以模拟所述深度视觉-语义融合网络的图像模态，并构建所述语句哈希网络，以模拟所述深度视觉-语义融合网络的语句模态；

基于预设的损失函数，对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络进行训练，所述损失函数包括余弦最大间隔损失函数和逐位最大间隔损失函数。

其中，所述将深度卷积神经网络CNN和深度循环神经网络RNN进行特征融合，以构建所述深度视觉-语义融合网络，具体包括：

将CNN视觉输入的特征空间在RNN中每个时间序列对应的长短期记忆网络LSTM的第二层中映射，以使所述深度视觉-语义融合网络在每一个时间序列都产生一个对应的融合特征编码。

其中，所述基于所述深度视觉-语义融合网络的融合模态表征，构建所述图像哈希网络，以模拟所述深度视觉-语义融合网络的图像模态，具体包括：

基于预设的平方损失函数，使得所述图像哈希网络生成的每一张图像对应的哈希码均能近似于所述深度视觉-语义融合网络生成的所述融合特征编码中的图像模态，并且

基于预设的平方损失函数，使得所述语句哈希网络生成的每一条语句对应的哈希码均能近似于所述深度视觉-语义融合网络生成的所述融合特征编码中的语句模态。

其中，所述基于预设的损失函数，对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络进行训练，所述损失函数包括余弦最大间隔损失函数和逐位最大间隔损失函数，具体包括：

将训练样本集中所有训练图像语句对分别输入所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络中，得到所述深度视觉-语义融合网络生成的融合编码、所述图像哈希网络生成的图像模态以及所述语句哈希网络生成的语句模态；

基于预设的损失函数和所述深度视觉-语义融合网络生成的融合编码、所述图像哈希网络生成的图像模态以及所述语句哈希网络生成的语句模态，分别计算所述损失函数对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络的梯度；

基于所述损失函数对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络的梯度，分别对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络进行训练。

其中，步骤S2包括：

将所述检索库中的所有图像语句对拆分为图像和语句，并将所述图像输入所述图像哈希网络中，语句输入所述语句哈希网络中，得到检索库中每一张图像对应的图像特征和每一条语句对应的语句特征；

将所述检索库中每一张图像对应的图像特征和每一条语句对应的语句特征进行二值化，得到所述检索库中每一张图像对应的二进制码和所述检索库中每一条语句对应的二进制码；

基于汉明码计算式，若待检索数据的数据类型为图像，则计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或

若待检索数据的数据类型为语句，则计算所述待检索语句对应的语句二进制码和检索库中每一张图像对应的二进制码的第二汉明距离。

其中，所述余弦最大间隔损失函数具体为：

其中，所述L为所述余弦最大间隔损失函数，所述μ_c＞0是预设的控制最大间隔的参数，所述S_ij用于表示两个对象之间的相似性，S_ij＝1代表两个对象相似，S_ij＝-1代表两个对象不相似，h_i、h_j代表两个对象的融合特征编码，||.||为向量的欧几里得范数。

根据本发明的第二方面，提供一种基于深度融合哈希的大数据跨模态检索系统，包括：

量化模块，用于识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码，或

若待检索数据的数据类型为语句，则将待检索的语句输入到训练后的语句哈希网络中，获取所述待检索的语句对应的语句二进制码，其中，所述图像哈希网络和所述语句哈希网络分别对应预设的深度视觉-语义融合网络中的图像模态和语句模态；

测距模块，用于计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或

检索模块，用于在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果，或

根据本发明的第三方面，提供一种计算机程序产品，包括程序代码，所述程序代码用于执行上述所述的基于深度融合哈希的大数据跨模态检索方法。

根据本发明的第四方面，提供一种非暂态计算机可读存储介质，用于存储如前所述的计算机程序。

本发明提供的基于深度融合哈希的大数据跨模态检索方法及系统，通过捕获视觉数据和自然语言之间的内在交叉对应关系，在端到端深度学习架构中生成图像和语句的紧凑哈希码，从而使得跨模态检索的异构性减轻，故而提高了跨模态检索的准确率。

附图说明

图1是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索方法流程图；

图2是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索的总体架构图；

图3是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索的总体流程图；

图4是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索系统结构图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

在本发明中，术语“第一”、“第二”仅用于描述区别，而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上，除非另有明确的限定。

图1是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索方法流程图，如图1所示，所述方法包括：

现有技术中，一般有两类方法对跨模态进行检索，一种是传统的跨模态哈希方法，采用在哈希函数学习过程中利用跨模态的共享结构，在同构汉明空间中压缩跨模态数据。

但是上述现有技术提供的方法采用基于浅层架构的跨模态哈希方法不能有效地利用不同模态数据之间的相关关系来降低不同的模态之间的异构性，从而导致跨模态检索准确率较低。

另一种是基于深度学习的跨模态方法，该方法表面度学习方法可以比浅层学习方法更有效地捕获不同模态之间数据的关联关系，这些深度模型已经成功应用于图像标注和图像检索。

但是基于深度学习的跨模态方法并不能有效捕捉图像的空间依赖性和语句的时间动态性，也就无法学习强大的特征表示和跨模态嵌入，不能减轻不同模态的异构性，因而无法生成用于跨模态检索的高质量、紧凑的哈希编码。

同时，最新的深度哈希方法已经在许多图像数据集上取得了最好的效果，但是这些方法也仅限于单模态检索。

针对上述现有技术中存在的问题，本发明实施例提供了一种大规模数据跨模态检索方法，通过捕获视觉数据和自然语言之间的内在交叉对应关系，从而在端到端深度学习架构中生成图像和语句的紧凑哈希码。

具体的，S1中，在进行跨模态检索时，首先需要识别待进行检索数据的数据类型，一般的可以将数据类型分为两大类，分别是图像和语句，那么对于跨模态检索，则需要通过待检索的图像检索出对应的语句，通过待检索的语句检索出对应的图像。

进一步的，将待检索的数据根据数据类型选择性的输入图像哈希网络或语句哈希网络中，需要说明的是，所述图像哈希网络和语句哈希网络是对应预设的深度视觉-语义融合网络中的图像模态和语句模态。

而所述深度视觉-语义融合网络是本发明实施例根据视觉数据和自然语言之间的内在交叉对应关系所建立的神经网络，但建立的深度视觉-语义融合网络需要双模态对象，即图像和语句对来联合进行嵌入，但是，在检索时只有一种模态的数据，因此融合网络不能直接应用于跨模态检索。

并且，所述深度视觉-语义融合网络不提供将每个单模态输入映射到融合空间的机制。

那么针对于单模态输入时的跨模态检索，则需要单独应对于输入图像或输入语句两种情形下使用的单一哈希网络，那么本发明实施例则提供了图像哈希网络和语句哈希网络来分别模拟预设的深度视觉-语义融合网络中的图像模态和语句模态。

S1中，通过直接将单模态的输入到对应的哈希网络中，则可以将单模态输入映射到由融合网络学习的融合空间中，从而生成高质量的二进制哈希码。

S2中，对于待检索数据的数据类型，采用两种汉明距离的计算方式，即计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或

可以理解的是，本发明实施例提供的第一汉明距离和第二汉明距离仅用于表示两种汉明距离计算的区别，而不是表示第一汉明距离和第二汉明距离值的差异。

进一步的，通过第一汉明距离和第二汉明距离值的大小，能够选择预设数量的图像或语句作为检索结果。

图2是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索的总体架构图，图3是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索的总体流程图，结合本发明实施例提供的图2与图3，本发明实质上提供了一种基于深度哈希的跨模态检索方法，若输入的待检索数据为图片，则可以对应检索出相似的语句，若输入的待检索数据为语句，则可以检索出相似的图片。具体的过程和网络架构如图2和图3所示，需要说明的是，图2中所述模态相关哈希网络即本发明实施例提供的图像哈希网络和语句哈希网络。

在上述实施例的基础上，步骤S1之前所述方法还包括：

可以理解的是，在进行跨模态检索之前，本发明实施例需要构建检索过程需要的所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络，并对上述网络进行训练。

具体的，所述将深度卷积神经网络CNN和深度循环神经网络RNN进行特征融合，以构建所述深度视觉-语义融合网络，具体包括：

需要说明的是，本发明实施例提供的深度视觉-语义融合网络主要包括三部分，深度卷积神经网络CNN部分，CNN部分将每个图片输入x_i映射为固定长度的向量表征，以AlexNet为例，AlexNet包含5层卷积层conv1-conv5和三层全连接层fc6-fc8，每个全连接层学习一个非线性映射其中是图像x_i在第l层的隐含表征：1≤l≤8，W^l和b^l分别是第l层的权重和偏置参数，a^l是激活函数，在本发明中对所有隐藏层使用的激活函数均为整流线性单元函数(ReLU)，ReLU为：a^l(x)＝max(0,x)。

需要说明的是，在本发明实施例中，AlexNet的fc8全连接层中的多项对率回归分类器替换为特征提取层，以将fc7全连接层输出的图像特征映射到K维向量中。

本发明实施例提供的深度视觉-语义融合网络还包括深度循环神经网络RNN部分，RNN部分负责处理时序数据，可以理解的是，所述时序数据即为语句，以LSTM为例，所述LSTM通过依次计算下列等式：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

g_t＝σ(W_xcx_t+W_hch_t-1+b_c)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙φ(c_t)

将每个语句在时间t上的输入x_t和前一单位时间t-1的隐藏状态h_t-1映射到输出z_t上，同时更新隐藏状态。

其中，x_t为输入，输出z_t＝h_t,i_t,f_t,o_t,g_t,c_t,h_t分别是第t时刻的输入门、遗忘门、输出门、输入调整门、记忆门和隐藏状态。为S型(sigmoid)函数，可将实数值映射到[0,1]范围内。是双曲正切函数，将实数值映射到[-1,1]。

需要说明的是，为了避免符号混淆，后面我们将使用y_it代表第i条数据在LSTM单元t时间的输入x_t，同时对LSTM中的符号加上上标y，即代表第i条数据在LSTM单元t时间的隐藏表征h_t，而代表第i条数据在LSTM单元t时间的输出。

本发明实施例提供的深度视觉-语义融合网络还包括融合层部分，所述融合层将深度卷积网络和深度循环网络融合成到统一的深度视觉-语义嵌入模型中。

其中，所述深度视觉-语义嵌入模型即本发明实施例所述的深度视觉-语义融合网络。

具体的，融合层首先将计算后的视觉输入x_i的特征空间表征h_i ^x融合到每个时间序列对应的LSTM模型的第二层。那么对于时序数据中第t个状态的融合层的隐藏表征可以使用如下公式计算：

其中，f(·)函数是通过将代入上一节中LSTM更新公式得到的第二层LSTM在时间t上对x_t的映射。

需要说明的是，为了减少融合层的隐藏表征h_it与最终的二进制哈希码u_i和v_i之间的差距，我们使用双曲正切激活函数a(x)＝tanh(x)来映射隐藏表征h_it到[-1,1]范围内。

可以理解的是，通过上述融合层能够将视觉嵌入和语句嵌入融合到一个统一的嵌入空间中。然而，每个时间t产生了一个联合嵌入h_it，而需求的是每个图像语句对仅产生一个融合编码。

针对上述需求，本发明实施例通过通过加权平均来生成每个图像-语句对的融合编码h_i：

其中，π_it∈{-1,0}是指示变量，如果在第i个图像-语句对的时间t中存在字(word)，则π_it＝1，否则π_it＝0。需要说明的是，由于语句是可变长度的，一些语句的单词数量会比LSTM中的状态数T少，所以会出现π_it＝0的情况。

通过本发明实施例提供的深度视觉-语义融合网络，能够捕获图像上的空间依赖关系和语句上的时间动态性，同时也能捕捉跨模态汉明融合空间中的交叉关系。

在上述实施例的基础上，所述基于所述深度视觉-语义融合网络的融合模态表征，构建所述图像哈希网络，以模拟所述深度视觉-语义融合网络的图像模态，具体包括：

可以理解的是，由于深度视觉-语义融合网络不提供将每个单模态输入映射到融合空间，那么需要单独构建一个能将单模态输入映射到融合空间的网络。

在本发明实施例中，提供了一种图像哈希网络和一种语句哈希网络，分别对应融合特征编码中的图像模态和融合特征编码中的语句模态。

具体的，本发明实施例提供的图像哈希网络是用于学习图像模态的哈希函数，类似于融合网络中的卷积神经网络模块，本发明实施例直接从AlexNet复制conv1-fc7层，并将原始AlexNet的fc8全连接层中的多项对率回归分类器替换为哈希层，其目的是将fc7全连接层输出的图像特征映射到K维哈希码u_i。

进一步的，为了保证哈希网络产生的哈希码u_i位于融合空间中，我们使用如下平方损失函数来使得每一张训练图像x_i的哈希码u_i和其对应的融合特征h_i相近。

同样的，本发明实施例提供的语句哈希网络是用于学习语句模态的哈希函数，它类似于融合网络的LSTM模块，但没有图像输入分支。此外，我们将LSTM的输出层中的多项对率回归分类器替换为将输入语句y_i的特征表示转换为哈希码v_i的哈希层。同样的，为了保证哈希码v_i位于融合空间中，我们使用如下平方损失函数来使得相同的训练语句y_i的哈希码v_i和其对于的联合嵌入h_i在每个时间t下都相似：

可以理解的是，本发明实施例提供的图像哈希网络和语句哈希网络在进行检索时是单模态输入，并将单模态输入映射到融合空间，但在训练时，可以使用双模态对象对其进行训练，在训练结束后再用单模态输入进行编码。

本发明实施例分别使用图像哈希网络和文本哈希网络来获得图像或语句的哈希码，又通过定义的两个平方损失函数来让生成的哈希码位于视觉-语义融合空间中，以保证各个模态紧凑哈希码的质量。

在上述实施例的基础上，所述基于预设的损失函数，对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络进行训练，所述损失函数包括余弦最大间隔损失函数和逐位最大间隔损失函数，具体包括：

所述余弦最大间隔损失函数具体为：

可以理解的是，本发明实施例提供的余弦最大间隔损失函数是为了使学习到的联合视觉-语义嵌入最大限度地保留不同模态的相似度信息。

在本发明实施例中，提出以下标准：对于每对对象(o_i,o_j,S_ij)，如果S_ij＝1，那么o_i和o_j是相似的，则它们不同模态的哈希码u_i、v_j或v_i、u_j也需相似，这相当于要求它们的联合视觉-语义融合特征hi和h_j应该相似。

对应的，如果S_ij＝-1，那么代表o_i和o_j是不相似的，则它们的联合视觉-语义融合特征h_i和h_j应该也不相似。

本发明实施例提供了余弦距离：来度量h_i和h_j之间的相似程度，其中||.||为向量的欧几里得范数，h_i·h_j是内积，那么可以用：

来保证其联合视觉-语义融合特征之间的相似性，其中，所述L为所述余弦最大间隔损失函数，所述μ_c＞0是预设的控制最大间隔的参数，所述S_ij用于表示两个对象之间的相似性，S_ij＝1代表两个对象相似，S_ij＝-1代表两个对象不相似，h_i、h_j代表两个对象的融合特征编码，||.||为向量的欧几里得范数。

优选的，本发明实施例采用μ_c＝0.5，当μ_c＝0.5时使得相似的图像-语句对的余弦相似性比不相似的图像-语句对更高。

需要说明的是，与支持向量机SVM类似，最大间隔损失函数增强了对异常值的鲁棒性。由于矢量长度在不同的模态中是非常多样的，并且可能产生许多错误的距离度量，例如欧几里得距离以及损失函数例如平方损失，而余弦最大间隔损失函数与矢量长度无关，因此在跨模态相关的分析问题上特别有效。

本发明实施例定义了一个余弦最大间隔损失函数，使学习到的视觉-语义最大限度地保留不同模态间的相似度信息。同时，由于最大间隔思想的特性，该损失函数对离群点具有很好的鲁棒性。

另一方面，本发明实施例提供的逐位最大间隔损失函数对于每个图像语句对o_i＝(x_i,y_i)，为了减少其融合特征h_i与其特定模态的二进制哈希码u_i和v_i之间的差距，我们要求融合特征h_i接近于其二值化后的向量sgn(h_i)∈{-1,1}^K，这相当于最小化|||h_i|-1||²。然而，由于这样的平方损失对离群点不够鲁棒,因此，我们将最大间隔思想引入到损失函数中，提出一个新的逐位最大间隔损失函数：

其中，μ_b＞0是控制最大间隔的参数，优选的，本发明实施例提供的μ_b＝0.5，采用此损失函数会使得联合嵌入的第k位h_ik尽量远离对应的超平面h_ik＝0，因此本发明实施例称之为逐位最大间隔损失函数。通过最小化逐位最大间隔损失函数，可以减少将哈希码二进制化过程中的量化误差，从而使得我们的模型能够生成高质量二进制哈希码。

进一步的，通过上述实施例提供的各个损失函数，包括：余弦最大间隔损失函数L、逐位最大间隔损失函数Q、平方损失函数L_x和L_y构成了本发明实施例最终的损失函数：

本发明实施例定义了一个逐位最大间隔损失函数，使得图像特征或语句特征的每一位都接近其二值化后的值，减少了其量化误差，从而使得我们能够获得高质量二进制哈希码。类似于余弦最大间隔损失函数，该损失函数对离群点也具有很好的鲁棒性。

进一步的，本发明实施例提供的训练过程为:

首先获取所有训练图像语句对，以及图像语句对之间的相关关系，然后记当前训练轮数为Epoch_current，所述Epoch_current的初始值为0，最大训练轮数为Epoch_max。每一次训练对Epoch_current进行一次更新，更新式为：Epoch_current＝Epoch_current+1，若更新后Epoch_current＜Epoch_max，则代表尚未训练结束，那么将从训练集获取一批本轮训练尚未使用过的图像语句对以及这些图像语句对之间的相关关系，对象数量为批次数量(batchsize)，并将其标记为已使用。

将图像语句对记为O，O＝{o₁,o₂,...,o_n}，图像语句对之间的相关关系记为S,S＝{S_ij|1＜i,j≤n},S_ij＝1代表o_i和o_j为语义相关，而S_ij＝-1代表o_i和o_j语义无关。若|S|＝0，则代表本轮训练中所有图像均已经被使用过，则记为一轮训练结束。

将图像语句对O分别传入深度视觉-语义融合网络、图像哈希网络以及语句哈希网络，得到融合特征编码h_i以及各个模态的编码u_i和v_i。

最后求解各层的残差，使用标准的反向传播算法对融合网络和哈希网络进行训练，为了符号简洁，我们根据总的损失函数定义了如下逐个数据点的损失函数：

为了提高收敛稳定性，我们让哈希网络的损失函数在训练期间对融合网络的更新不产生影响。由此，我们可以推导出逐点损失O_i对于(即融合网络中卷积神经网络第l层第k个神经元的参数)的梯度：

其中是第l层中输入激活函数前的输出值。是第l层中第k个单元在网络输出中对于点x_i的逐点残差项。对于输出层的第k个单元，我们可以通过测量网络的激活与真实值的差异，并用它来定义残差为如下形式：

其中l代表LSTM的输出层，是第l层激活函数的导数，Ⅱ为指示函数，Ⅱ(A)＝1等价于A为真，反之Ⅱ(A)＝0等价于A为假。对于第l-1层的第k个单元，我们基于该层的所有单元k'＝1,...,n_l-1的误差的加权平均值来计算残差计算方式如下，这与标准反向传播算法一致。

其中，n_l-1为第l-1层的神经元数。因此，融合网络中的所有层的残差都可以通过标准反向传播算法进行求解，并由此更新融合网络中的参数。

对于哈希网络，我们也可以分别推导出逐点损失函数o_i对于图像哈希网络和语句哈希网络第l层第k个神经元的参数和的梯度。

推导式如下：

其中，是第l层中输入激活函数前的输出值，是第l层中第k个单元在网络输出中对于点x_i的逐点残差项。语句哈希与此类似，不再赘述。由此，我们可以推导出哈希网络的残差公式如下：

其中l_u、l_v分别是图像哈希网络和文本哈希网络的输出层，分别是图像哈希网络和文本哈希网络的输出层激活函数的导数。对于其它层中的隐藏单元，我们可以基于标准反向传播算法根据后一层的残差计算其残差。

对上述残差更新公式的计算复杂度进行分析如下，将可用于训练的相似对S的数量表示为|S|，可用于训练的双模态对象的数量表示为N，则其整体计算复杂度为O(|S|+N)。

在上述实施例的基础上，步骤S2包括：

可以理解的是，检索是基于检索库中已有的图像和语句数据进行检索，那么首先需要对检索库中的数据进行特征提取，在本发明实施例中，从数据库中获得所有图像语句对，对于其中的每一张图像，将其输入到图像哈希网络得到图像的特征表示，二值化后得到图像二进制码；对于其中的每一条语句，将其输入到语句哈希网络得到语句的特征表示，二值化后得到语句二进制码。

那么基于汉明码计算式，若待检索数据的数据类型为图像，则计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或

具体的检索过程可以检索前k个近邻，然后取出汉明距离最小的k个语句或图像作为检索结果。

可以理解的是，若待检索数据的数据类型为图像，则取出汉明距离最小的k个语句作为检索结果，若待检索数据的数据类型为语句，则取出汉明距离最小的k个图像作为检索结果，上述汉明距离分别对应本发明实施例提供的第一汉明距离和第二汉明距离。

图4是本发明实施例提供的一种基于深度融合哈希的大数据跨模态检索系统结构图，如图4所示，一种基于深度融合哈希的大数据跨模态检索系统，包括：量化模块1、测距模块2以及检索模块3，其中：

量化模块1用于识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码，或

测距模块2用于计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或

检索模块3用于在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果，或

具体的，根据本发明实施例提供的基于深度融合哈希的大数据跨模态检索系统，通过量化模块1利用CNN和RNN捕获图像上的空间依赖关系和语句上的时间动态性，同时也能捕捉跨模态数据在融合空间中的关联关系，减轻了不同模态的异构性，从而使得测距模块2和检索模块3在保证了时间效率的基础上，能大大提高跨模态检索的准确率。

本发明提供的基于深度融合哈希的大数据跨模态检索系统，通过捕获视觉数据和自然语言之间的内在交叉对应关系，从而在端到端深度学习架构中生成图像和语句的紧凑哈希码，提高了跨模态检索的准确率。

本发明实施例提供一种基于深度融合哈希的大数据跨模态检索系统，包括：至少一个处理器；以及与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行上述各方法实施例所提供的方法，例如包括：S1、识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码，或若待检索数据的数据类型为语句，则将待检索的语句输入到训练后的语句哈希网络中，获取所述待检索的语句对应的语句二进制码，其中，所述图像哈希网络和所述语句哈希网络分别对应预设的深度视觉-语义融合网络中的图像模态和语句模态；S2、计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或计算所述待检索语句对应的语句二进制码和检索库中每一张图像对应的二进制码的第二汉明距离；S3、在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果，或在所述检索库中选取第二汉明距离最小的预设数量的图像作为待检索数据的数据类型为语句的检索结果。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：S1、识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码，或若待检索数据的数据类型为语句，则将待检索的语句输入到训练后的语句哈希网络中，获取所述待检索的语句对应的语句二进制码，其中，所述图像哈希网络和所述语句哈希网络分别对应预设的深度视觉-语义融合网络中的图像模态和语句模态；S2、计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或计算所述待检索语句对应的语句二进制码和检索库中每一张图像对应的二进制码的第二汉明距离；S3、在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果，或在所述检索库中选取第二汉明距离最小的预设数量的图像作为待检索数据的数据类型为语句的检索结果。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：S1、识别待检索数据的数据类型，若待检索数据的数据类型为图像，则将待检索的图像输入到训练后的图像哈希网络中，获取所述待检索的图像对应的图像二进制码，或若待检索数据的数据类型为语句，则将待检索的语句输入到训练后的语句哈希网络中，获取所述待检索的语句对应的语句二进制码，其中，所述图像哈希网络和所述语句哈希网络分别对应预设的深度视觉-语义融合网络中的图像模态和语句模态；S2、计算所述待检索图像对应的图像二进制码和检索库中每一条语句对应的二进制码的第一汉明距离，或计算所述待检索语句对应的语句二进制码和检索库中每一张图像对应的二进制码的第二汉明距离；S3、在所述检索库中选取第一汉明距离最小的预设数量的语句作为待检索数据的数据类型为图像的检索结果，或在所述检索库中选取第二汉明距离最小的预设数量的图像作为待检索数据的数据类型为语句的检索结果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度融合哈希的大数据跨模态检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S1之前所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述将深度卷积神经网络CNN和深度循环神经网络RNN进行特征融合，以构建所述深度视觉-语义融合网络，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述深度视觉-语义融合网络的融合模态表征，构建所述图像哈希网络，以模拟所述深度视觉-语义融合网络的图像模态，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述基于预设的损失函数，对所述深度视觉-语义融合网络、所述图像哈希网络以及所述语句哈希网络进行训练，所述损失函数包括余弦最大间隔损失函数和逐位最大间隔损失函数，具体包括：

6.根据权利要求1所述的方法，其特征在于，步骤S2包括：

7.根据权利要求3所述的方法，其特征在于，所述余弦最大间隔损失函数具体为：

<mrow> <mi>L</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&Element;</mo> <mi>S</mi> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>&mu;</mi> <mi>c</mi> </msub> <mo>-</mo> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mfrac> <mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> </mrow> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>h</mi> <mi>j</mi> </msub> <mo>|</mo> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

其中，所述L为所述余弦最大间隔损失函数，所述μ_c＞0是预设的控制最大间隔的参数，所述S_ij用于表示两个对象之间的相似性，S_ij＝1代表两个对象相似，S_ij＝-1代表两个对象不相似，h_i、h_j代表两个对象的融合特征编码，||·||为向量的欧几里得范数。

8.一种基于深度融合哈希的大数据跨模态检索系统，其特征在于，包括：

9.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至7任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。