CN114238746A

CN114238746A - 跨模态检索方法、装置、设备及存储介质

Info

Publication number: CN114238746A
Application number: CN202111562892.0A
Authority: CN
Inventors: 韩磊; 朱杰; 甄树勇; 王硕飞; 朱庚华; 郭小璇; 高珊珊; 陈沛宇
Original assignee: Hebei Meteorological Technology Equipment Center
Current assignee: Hebei Meteorological Technology Equipment Center
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-03-25

Abstract

本发明提供一种跨模态检索方法、装置、设备及存储介质，该方法包括：获取待检索数据，待检索数据为文本或图像；将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码，其中，神经网络模型包括文本网络和图像网络，文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码，图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码；基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。本发明可以提高跨模态检索性能。

Description

跨模态检索方法、装置、设备及存储介质

技术领域

本发明涉及计算机软件技术领域，尤其涉及一种跨模态检索方法、装置、设备及存储介质。

背景技术

随着互联网中多媒体数据的爆炸式增长，跨模态检索逐渐成为人工智能领域的热点问题之一。跨模态检索是指使用一种模态的样本数据作为查询去检索另一种模态的数据，即查询数据与被检索数据属于两种不同的模态，因此，跨模态检索的关键在于打破不同模态数据之间的语义鸿沟，从而将不同模态的数据映射到相同的特征空间中。

目前，大部分跨模态检索方法以近似最近邻搜索方法为基础，通过计算不同模态数据特征的相似性来进行排序。但是，这些方法存在存储数据量过大和检索效率低的问题。跨模态哈希检索的出现解决了以上两个问题，跨模态哈希检索首先将不同模态数据映射为相同特征空间内的哈希码，然后通过哈希码之间的异或操作计算数据之间的相似性，并按照相似性对检索结果进行排序。

然而，目前的跨模态哈希检索方法通常基于两种假设，第一，相似的文本描述的图像内容也相似。第二，相同类别的图像有着较好的全局相似性。但是，真实数据集中的数据往往不能满足以上两种假设，因此，导致了跨模态哈希检索性能的降低。

发明内容

本发明实施例提供了一种跨模态检索方法、装置、设备及存储介质，以解决目前检索性能较低的问题。

第一方面，本发明实施例提供了一种跨模态检索方法，包括：

获取待检索数据，待检索数据为文本或图像；

将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码，其中，神经网络模型包括文本网络和图像网络，文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码，图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码；

基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。

在一种可能的实现方式中，神经网络模型的整体目标函数中包括文本模态内全局一致性损失函数、模态间局部与全局一致性损失函数以及分类对抗损失函数；

文本模态内全局一致性损失函数用于使类别相同的文本的特征之间保持一致性，以及使类别相同的文本生成的哈希码之间保持一致性；

模态间局部与全局一致性损失函数用于使图像的全局哈希码和局部哈希码均与图像对应的文本的哈希码保持一致性，以及使类别相同的图像所生成的全局哈希码与局部哈希码保持一致性；

分类对抗损失函数包括图像的分类对抗损失函数和文本的分类对抗损失函数，图像的分类对抗损失函数用于使类别相同的图像所生成的全局哈希码以及局部哈希码保持一致性，文本的分类对抗损失函数用于使类别相同的文本所生成的哈希码保持一致性。

在一种可能的实现方式中，神经网络模型的整体目标函数为：

J＝J_tg+J_gl+J_vc+J_tc；

其中，

J_tg表示文本模态内全局一致性损失函数，J_gl表示模态间局部与全局一致性损失函数，J_vc表示图像的分类对抗损失函数，J_tc表示文本的分类对抗损失函数，H^t1、H^t2和H^t分别表示不同文本的文本哈希码，B^t1和B^t2分别表示输入两个文本对后生成的K位二进制矩阵，H^vg和H^vl分别代表文本对应图像的全局哈希码和文本对应图像的局部哈希码，B^vg和B^vl分别代表图像的全局二进制码和图像的局部二进制码，L^vc代表利用H^vgl进行分类的结果，L代表图像的真实类别，L^tc代表利用H^t进行分类的结果，H^vgl表示图像的全局局部哈希码。

J＝w₁J_tg+w₂J_gl+w₃J_vc+w₃J_tc；

其中，

J_tg表示文本模态内全局一致性损失函数，J_gl表示模态间局部与全局一致性损失函数，J_vc表示图像的分类对抗损失函数，J_tc表示文本的分类对抗损失函数，H^t1、H^t2和H^t分别表示不同文本的文本哈希码，B^t1和B^t2分别表示输入两个文本对后生成的K位二进制矩阵，H^vg和H^vl分别代表文本对应图像的全局哈希码和文本对应图像的局部哈希码，B^vg和B^vl分别代表图像的全局二进制码和图像的局部二进制码，L^vc代表利用H^vgl进行分类的结果，L代表图像的真实类别，L^tc代表利用H^t进行分类的结果，H^vgl表示图像的全局局部哈希码，w₁、w₂和w₃分别表示损失函数的权重。

在一种可能的实现方式中，将待检索数据输入至训练好的神经网络模型之前，还包括：

选取跨模态数据集并将其分成训练数据集和测试数据集；其中，跨模态数据集包括多个文本和图像对以及分别与其对应的类别信息；

基于误差反向传播算法、整体目标函数和训练数据集对神经网络模型进行训练，当整体目标函数收敛且经过测试数据集测试通过后，得到训练好的神经网络模型。

在一种可能的实现方式中，图像网络包括图像特征生成模块和图像哈希生成模块，图像特征生成模块用于提取图像的全局特征和局部特征，图像哈希生成模块用于根据图像的全局特征和局部特征生成相应的哈希码；

文本网络包括文本特征生成模块、文本哈希生成模块和基于词袋模型的输入层，文本特征生成模块用于提取文本的全局特征，文本哈希生成模块用于根据文本的全局特征生成相应的哈希码。

在一种可能的实现方式中，图像特征生成模块包括用于生成图像的全局特征的第一全连接层和用于生成图像的局部特征的第二全连接层，图像哈希生成模块包括用于生成图像的全局特征哈希码的第三全连接层、用于生成图像的局部特征哈希码的第四全连接层、用于生成图像的全局局部哈希码的第五全连接层和用于对其进行分类的第六全连接层；

文本特征生成模块包括用于提取文本的全局特征的第七全连接层，文本哈希生成模块包括用于将文本的全局特征映射为文本的全局特征哈希码的第八全连接层以及用于对文本的全局特征哈希码进行分类的第九全连接层。

第二方面，本发明实施例提供了一种跨模态检索装置，包括：

获取数据模块，用于获取待检索数据，待检索数据为文本或图像；

哈希生成模块，用于将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码，其中，神经网络模型包括文本网络和图像网络，文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码，图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码；

跨模态检索模块，用于基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上第一方面或第一方面的任一种可能的实现方式所述方法的步骤。

本发明实施例提供一种跨模态检索方法、装置、设备及存储介质，首先获取待检索数据，然后将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码。最后，基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。

由于在跨模态检索中使用训练好的神经网络模型，不仅可以提取文本特征，而且还可以提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成对应的哈希码，得到较好的跨模态哈希码，从而提高了检索性能。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A和图1B是本发明实施例提供的示例图；

图2是本发明实施例提供的跨模态检索方法的实现流程图；

图3是本发明实施例提供的神经网络结构示意图；

图4A-4C是本发明实施例提供的采用不同算法从图像到文本的查询的PR曲线图；

图4D-4F是本发明实施例提供的采用不同算法从文本到图像的查询的PR曲线图；

图5是本发明实施例提供的跨模态检索装置的结构示意图；

图6是本发明实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图通过具体实施例来进行说明。

如图1所示的图像，在真实的数据集中往往不能满足如背景技术所描述的两种假设，虽然图1A中的两幅图像对应的文本相似，但是图像从视觉角度相似性却较低，图1B中的两幅图像都属于男孩类别，但是两幅图像的内容却只能部分匹配，从而导致检索的性能降低。

为了解决现有技术问题，本发明实施例提供了一种跨模态检索方法、装置设备和存储介质。下面首先对本发明实施例所提供的跨模态检索方法进行介绍。

跨模态检索方法的执行主体，可以是跨模态检索装置，该跨模态检索装置可以是具有处理器和存储器的电子设备，本发明实施例不作具体限定。

参见图2，其示出了本发明实施例提供的跨模态检索方法的实现流程图，详述如下：

步骤S210、获取待检索数据。

其中，待检索数据可以为文本或图像。如图像作为查询数据，文本作为被检索数据；或者文本作为查询数据，图像作为被检索数据。此处不做限定，用户根据实际检索需求选取待检索数据的类型。

步骤S220、将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码。

其中，神经网络模型包括文本网络和图像网络。文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码。图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码。

发明人在检索的过程中发现，第一，由于图像模态数据的不确定性特点，导致文本相似的图像数据未必相似。第二，相同类别的图像未必一定保持全局特征一致性，也有可能保持局部一致性。但是，文本具有高层语义信息，即相似的文本具有相似的语义信息。因此，本发明通过将文本作为引导跨模态哈希码生成的基础，利用图像的局部信息、图像的全局信息和文本的全局信息之间的对应关系，生成跨模态哈希码。

在一些实施例中，为了实现以文本特征作为引导，将图像的局部特征与全局特征嵌入到文本特征空间中，便于获得较好的跨模态哈希码，设置了神经网络模型的整体目标函数。

可选的，神经网络模型的整体目标函数中包括文本模态内全局一致性损失函数、模态间局部与全局一致性损失函数以及分类对抗损失函数。

第一、文本模态内全局一致性损失函数用于使类别相同的文本的特征之间保持一致性，以及使类别相同的文本生成的哈希码之间保持一致性。

具体的，为了使两个类别相似的文本被映射到相同的哈希空间后具有较强的相似性，文本模态内全局一致性损失函数可以表示为：

其中，H^t1∈R^K×r、H^t2∈R^K×r、B^t1＝sign(H^t1)、B^t2＝sign(H^t2)，r代表输入的文本对数。B^t1和B^t2分别代表输入文本对后生成的K位二进制码矩阵，H^t1与H^t2代表文本对输入文本网络后所生成的文本哈希码。

其中，J_pair(H^t1,H^t2)是希望使类别相同的文本特征保持一致，公式如下：

具体的，

文本哈希码相似性的负对数似然。

希望使生成的文本哈希码与对应的二进制码尽量相似。

第二、模态间局部与全局一致性损失函数用于使图像的全局哈希码和局部哈希码均与图像对应的文本的哈希码保持一致性，以及使类别相同的图像所生成的全局哈希码与局部哈希码保持一致性。

具体的，在跨模态检索中，两个类别相似文本对应的图像对，往往内容不同，导致无法准确实现图像哈希码的模态内相似性度量。但是，通常情况下，图像与对应文本之间有着全局或者局部的对应关系。本发明采用模态间局部与全局一致性损失函数，将文本作为引导信息，利用文本内容能够对应图像的局部信息或全局信息的特点，提高跨模态检索的性能，公式为：

其中，H^t∈R^K×m代表文本的哈希码，H^vg∈R^K×m和H^vl∈R^K×m分别代表文本对应图像的全局哈希码和文本对应图像的局部哈希码。B^vg＝sign(H^vg)和B^vl＝sign(H^vl)为图像的全局和局部二进制码，m为输入的图像-文本对的数量。

其中，J_pair(H^t,H^vg)和J_pair(H^t,H^vl)表示希望使图像的全局哈希码和局部哈希码都与文本哈希码相似，即将文本信息作为引导，实现文本哈希码与图像的全局哈希码和局部哈希码同时匹配。

和

表示希望使生成的图像全局哈希码与图像局部哈希码逼近对应的二进制码。

第三、分类对抗损失函数包括图像的分类对抗损失函数和文本的分类对抗损失函数，图像的分类对抗损失函数用于使类别相同的图像所生成的全局哈希码以及局部哈希码保持一致性，文本的分类对抗损失函数用于使类别相同的文本所生成的哈希码保持一致性。

由于类别相同的图像在全局和局部特征之间存在差异性，因此，难于构造图像的全局和局部类别一致性衡量标准。但是，图像的全局哈希码H^vg和局部哈希码H^vl拥有相同的类别信息，两者融合后生成的全局-局部哈希码可以更好的表示图像类别。文本模态内全局一致性损失函数可以表示为：

J_c＝J_vc+J_tc；

其中，图像的分类对抗损失函数

文本的分类对抗损失函数

一方面，本发明通过对抗的方式训练图像特征生成模块G_I和图像哈希生成模块D_I，对于图像集v，通过G_I可以生成图像全局特征F^vg和图像局部特征F^vl，即{F^vg，F^vl}＝G_I(v)，D_I将F^vg和F^vl映射为全局特征哈希码H^vg和局部特征哈希码H^vl，接下来，将H^vg和H^vl进行连接，通过全连接层映射为全局-局部哈希码H^vgl，即{H^vg，H^vl，H^vgl}＝D_I(F^vg，F^vl)。

在训练的过程中需要基于以下两条准则，首先，D_I希望H^vgl可以用于准确的判断类别，因此需要最小化图像的分类对抗损失函数。其次，G_I希望发现更多的不能使H^vgl准确分类的图像，因此需要最大化图像的分类对抗损失函数。其中，L^vc代表利用H^vgl进行分类的结果，L代表图像的真实类别。

另一方面，本发明通过对抗的方式训练文本特征生成模块G_T和文本哈希模块D_T组成，对于文本集t，G_T可以生成文本特征F^t，即{F^t}＝G_T(t)，D_t将F^t映射为文本特征哈希码H^t，即{H^t}＝D_T(F^t)。其中，L^tc代表利用H^t进行分类的结果。其对抗方式与图像网络相同。

最终，神经网络的整体目标函数如下：

J＝J_tg+J_gl+J_vc+J_tc；

在一些实施例中，为了使得跨模态检索的结果更加准确，提供了另一种神经网络的整体目标函数如下：

J＝w₁J_tg+w₂J_gl+w₃J_vc+w₃J_tc；

通过给文本模态内全局一致性损失函数、模态间局部与全局一致性损失函数以及分类对抗损失函数分别赋予不同的权重，可使跨模态检索得到的哈希码更加准确，从而使得检索结果与查询的数据更加相似。

在一些实施例中，需要选取跨模态数据集并将其分成训练数据集和测试数据集，对神经网络进行训练。其中，跨模态数据集包括多个文本和图像对以及分别与其对应的类别信息。

通过采用误差反向传播算法与迭代优化的方式，采用训练数据集对神经网络进行训练，直至整体目标函数收敛。并采用测试数据集测试训练好的神经网络，根据测试结果，可看出训练的神经网络的输出结果与真实结果之间的相似性。

具体的训练过程如下：

其中，

在训练阶段，我们首先优化J_tg+J_tc，用于更新文本特征生成模块G_T的参数

和文本哈希模块D_T的参数

然后，在固定

和

前提下，将文本哈希码作为引导，通过优化J_gl+J_vc，用于更新图像特征生成模块G_I的参数

和图像哈希生成模块D_I参数

需要说明的是，

都是图像特征生成模块G_I、图像哈希生成模块D_I、文本特征生成模块G_T和文本哈希模块D_T中需要优化的参数，此处就不在赘述。

如此，即可实现以文本为引导，将图像的局部特征与全局特征嵌入到文本特征空间中，可以获得较好的跨模态哈希码。

在一些实施例中，如图3所示，图像网络包括图像特征生成模块和图像哈希生成模块，图像特征生成模块用于提取图像的全局特征和局部特征，图像哈希生成模块用于根据图像的全局特征和局部特征生成相应的哈希码。

参照图3，图像网络方面，示例性的，可以在DCMH网络结构的基础上，即5个卷积层conv1-conv5与2个全连接层fc6-fc7，还增加了提取图像的局部特征的全连接层、局部特征哈希码全连接层和全局局部哈希码全连接层。生成图像的全局特征的全连接层fc7和用于生成图像的局部特征的全连接层fc8和fc9，图像哈希生成模块包括用于生成图像的全局特征哈希码的第三全连接层fc11、用于生成图像的局部特征哈希码的第四全连接层fc10、用于生成图像的全局局部哈希码的第五全连接层fc12和用于对其进行分类的第六全连接层fc13。

以外，本实施例还采用了一种极大激活卷积(Maximum activations ofconvolutions,MAC)的方法用于提取卷积特征，首先从conv5层提取特征映射，然后将不同特征映射的最大响应值连接，作为图像的卷积特征，这种特征可以较好的反映对象内容。卷积特征经过两个全连接层fc8-fc9之后生成图像的局部特征，其中，fc8层和fc9层的维度分别为2635和512。然后通过fc10层生成图像的局部特征哈希码。将图像的全局特征哈希码与局部特征哈希码连接，输入全连接层fc12，可以得到融合图像全局和局部特征的全局局部哈希码。fc13层用于对图像的全局-局部哈希码进行分类。

参照图3，示例性的，文本特征生成模块可以采用词袋模型将文本表示为向量，作为网络输入，然后通过两个全连接层fc1和fc2用于提取文本的全局特征，其中，fc1层和fc2层的维度分别为8192和5138，fc2为第七全连接层。fc3层为第八全连接层将文本全局特征映射为文本全局特征哈希码，fc4层为第九全连接层作为分类层用于对文本的全局特征哈希码进行分类。

其中，第三全连接层fc11、第四全连接层fc10、第五全连接层fc12和第八全连接层fc3的激活函数均为tanh，第六全连接层fc13和第九全连接层fc4的激活函数均为sigmoid，第一全连接层fc7、第二全连接层fc9和第七全连接层fc2的激活函数均为relu。

步骤S230、基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。

根据神经网络输出的待检索数据的哈希码，然后通过哈希码之间的异或操作计算数据之间的相似性，并按照相似性对检索结果进行排序，得到跨模态检索结果。

本发明提供的跨模态检索方法，首先获取待检索数据，然后将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码。最后，基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。

正如背景技术中所说的，传统的跨模态哈希检索方法通常基于两种假设，第一，相似的文本描述的图像内容也相似。第二，相同类别的图像有着较好的全局相似性。但是，真实数据往往不能满足以上两种假设，因此，导致了跨模态哈希检索模型性能的降低。本发明实施例提出了一种基于文本引导对抗哈希的跨模态检索方法(Text-guided AdversarialHashing for Cross-Modal Retrieval，TAH)，此方法在构建的神经网络的基础上，将文本哈希码作为训练图像网络的基础，并将图像的局部特征与全局特征结合用于表示图像内容，此外，还针对性的提出了文本模态内全局一致性损失、模态间局部与全局一致性损失和分类对抗损失用于训练跨模态网络。实验证明，TAH可以在三个数据集中取得良好的检索性能。

通过构建的神经网络的基础上，将文本哈希码作为训练图像网络的基础，并将图像的局部特征与全局特征结合用于表示图像内容，此方法以文本特征作为引导，将图像的局部特征与全局特征嵌入到文本特征空间中，可以获得较好的跨模态哈希码，从而可以提高检索性能。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

下面以示例性实验说明本发明实施例提供的跨模态检索方法的性能。

为了便于记录，将本发明实施例提供的跨模态检索方法简称为TAH法，此处将TAH法与CCA法、SePH法、DCMH法、SSAH法、MDCH法和DSSAH法在MIRFLICKR-25K、IAPR TC-12和NUS-WIDE三个数据集中的检索性能进行比较。

其中，MIRFLICKR-25K数据集中包含25000幅从Flicker网站上收集到的图像，每一幅图像都有对应的文本描述，这些图像和分本对共分为24个类别。为了与其他算法进行比对，我们将文本表示为维度为1386的词袋模型BoW向量，作为文本网络的输入。

IAPR TC-12包含了属于255个类别的2000个图像-文本对，每一幅图像由三种不同的语言进行描述。本文只采用了英文的描述文本。文本的BoW向量维度为2912。

NUS-WIDE数据集包含了269648个图像-文本对，其中的图像由现实世界的拍照获得。每一个图像-文本对可以属于一个或者多个类别。实验中，我们采用包含21个最常见类别的195834幅图像用于训练和测试。文本在输入阶段被表示为1000维的BoW向量。

将上述数据集中的数据分为三部分，即查询集合、检索集合和训练集合。检索过程中，以查询集合中包含的图像-文本对为基础，对图像集中除查询集合以外的数据(检索集合)进行检索。此外，算法从检索集合中提取出一部分数据作为训练集合，用于训练跨模态神经网络。其中，MIRFLICKR-25K数据集和IAPR TC-12数据集的查询集合样本数量为2000，训练集合样本数量为10000。而NUS-WIDE数据集中的查询集合样本数量为2100，训练集合样本数量为10500。在训练过程中，批的大小被设置为64。此外，我们采用常用的两种性能衡量标准用于衡量算法的性能，即平均精度均值(Mean Average Precision，MAP)和精准率-召回率曲线(Precision-Recall Curve,PR)。

表1为TAH与其它优秀算法的MAP值的比对中，分别为在哈希码长度为16位、32位和64位情况下的MAP值比较，其中的“I→T”代表查询集合为图像模态，而检索集合为文本模态。与此相反的是“T→I”表示查询集合为文本模态，而检索集合为图像模态。从MAP值的比对结果中可以发现，TAH在不同哈希码长度的情况下，在所有图像库中均能得到最好的检索效果。

与其它五种采用深度学习的方式提取特征的方法不同，CCA和SePH采用人工设计的特征用于表示图像，因此，CCA和SePH的检索性能低于其他方法。DCMH可以使不同模态内部的特征保持语义一致性，但是，没有考虑到相同类别的图像未必拥有相似特征的问题，而TAH则充分考虑到了图像的这个特性，利用文本作为引导，生成了更好的跨模态哈希码，因此，TAH比DCMH的MAP高出6％左右。SSAH在DCMH的基础上，利用标签信息和设计的对抗性网络，得到了较好检索性能，但是，SSAH仍然没有考虑到相同类别图像间的差异性，因此，性能仍然低于TAH。注意力机制是最常见的一类用于发现不同模态内重要特征的方法，MDCH利用注意力机制、模态间损失和模态内损失用于训练跨模态网络，但是与TAH相比，没有考虑不同模态数据的局部信息，因此，检索性能低于TAH。与DCMH、SSAH和MDCH方法不同，DSSAH方法考虑到同类别图像之间的差异性，利用对抗性机制和模态间的语义一致性生成了除TAH之外最好的MAP值。

表一

从表中可以看出，TAH在三个数据集中的检索性能要优于六种优秀的跨模态哈希检索方法。

为了验证TAH的有效性，我们将Vgg16和Vgg19代替TAH中用于提取图像的特征的CNN-F网络，结果如表二所示。通过比对可以发现，TAH_Vgg19可以取得最好的检索效果，比TAH的MAP值高出约0.3％，而TAH_Vgg16的MAP最低。实验结果说明，在TAH的网络框架下，采用不同的网络结构会对检索结果产生影响。

表二

此外，还分析了使用三种不同损失的组合对于TAH方法的MAP值影响，需要说明的是，TAH的设计初衷为将文本特征作为引导，用于训练跨模态网络，因此，在表三中列举的所有情况下，都需使用了J_tg。需要注意的是，表二中的J_tg+J_gl+J_c即为文本提出的TAH方法。通过比对可以发现，当采用的损失函数为J_tg+J_c或者J_tg+J_gl时的MAP值都低于J_tg+J_gl+J_c，说明J_tg、J_gl和J_c都对训练跨模态网络起到了积极的作用。此外，采用损失函数为J_tg+J_gl时的MAP值要高于J_tg+J_c的情况，说明在TAH在训练过程中，J_gl的作用要大于J_c。最后，我们尝试通过给损失赋权重的方式，用于提高MAP值，即将损失设定为w₁J_tg+w₂J_gl+w₃J_c，其中，w₁、w₂和w₃分别代表三种损失的权重，当w₁＝0.7、w₂＝0.2、w₃＝0.1的时候可以得到最优的MAP值。

表三

此外，图4A至图4F中还比较了TAH与上述6种不同算法在MIRFLICKR-25K数据集、IAPR TC-12数据集和NUS-WIDE数据集的PR曲线，其中，图4A至图4C为图像到文本的查询，而图4D至图4F为文本到图像的查询。可以发现，随着召回率的不断增加，所有算法的准确率也在不断降低。此外，TAH在不同召回率情况下均能获得最好的检索性能。

本发明实施例提出了一种TAH方法用于生成更加合理的跨模态哈希码。与传统的跨模态哈希方法不同，TAH将图像特征映射到文本的特征空间中，并将图像的局部特征、全局特征与对抗性机制相结合，用于保证图像的类似相似性。实验证明，TAH在三个数据集中的检索性能要优于六种优秀的跨模态哈希检索方法。

基于上述实施例提供的跨模态检索方法，相应地，本发明还提供了应用于该跨模态检索方法的跨模态检索装置的具体实现方式。请参见以下实施例。

如图5所示，提供了一种跨模态检索装置500，该装置500包括：

获取数据模块510，用于获取待检索数据，待检索数据为文本或图像；

哈希生成模块520，用于将待检索数据输入至训练好的神经网络模型，以得到神经网络输出的待检索数据的哈希码，其中，神经网络模型包括文本网络和图像网络，文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码，图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码；

跨模态检索模块530，用于基于待检索数据的哈希码，在待检索数据集中对待检索数据进行跨模态检索。

J＝J_tg+J_gl+J_vc+J_tc；

其中，

J＝w₁J_tg+w₂J_gl+w₃J_vc+w₃J_tc；

其中，

在一种可能的实现方式中，哈希生成模块520，还用于：

图6是本发明实施例提供的电子设备的示意图。如图6所示，该实施例的电子设备6包括：处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62。所述处理器60执行所述计算机程序62时实现上述各个变压器升高座及套管的监测方法实施例中的步骤，例如图2所示的步骤210至步骤230。或者，所述处理器60执行所述计算机程序62时实现上述各装置实施例中各模块的功能，例如图4所示模块410至430的功能。

示例性的，所述计算机程序62可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器61中，并由所述处理器60执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序62在所述电子设备6中的执行过程。例如，所述计算机程序62可以被分割成图5所示的模块510至530。

所述电子设备6可包括，但不仅限于，处理器60、存储器61。本领域技术人员可以理解，图6仅仅是电子设备6的示例，并不构成对电子设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器61可以是所述电子设备6的内部存储单元，例如电子设备6的硬盘或内存。所述存储器61也可以是所述电子设备6的外部存储设备，例如所述电子设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器61还可以既包括所述电子设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/电子设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/电子设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个跨模态检索方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括是电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种跨模态检索方法，其特征在于，包括：

获取待检索数据，所述待检索数据为文本或图像；

将所述待检索数据输入至训练好的神经网络模型，以得到所述神经网络输出的所述待检索数据的哈希码，其中，所述神经网络模型包括文本网络和图像网络，所述文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码，所述图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码；

基于所述待检索数据的哈希码，在所述待检索数据集中对所述待检索数据进行跨模态检索。

2.如权利要求1所述的一种跨模态检索方法，其特征在于，所述神经网络模型的整体目标函数中包括文本模态内全局一致性损失函数、模态间局部与全局一致性损失函数以及分类对抗损失函数；

所述文本模态内全局一致性损失函数用于使类别相同的文本的特征之间保持一致性，以及使类别相同的文本生成的哈希码之间保持一致性；

所述模态间局部与全局一致性损失函数用于使图像的全局哈希码和局部哈希码均与图像对应的文本的哈希码保持一致性，以及使类别相同的图像所生成的全局哈希码与局部哈希码保持一致性；

所述分类对抗损失函数包括图像的分类对抗损失函数和文本的分类对抗损失函数，所述图像的分类对抗损失函数用于使类别相同的图像所生成的全局哈希码以及局部哈希码保持一致性，所述文本的分类对抗损失函数用于使类别相同的文本所生成的哈希码保持一致性。

3.如权利要求1或2任一项所述的一种跨模态检索方法，其特征在于，所述整体目标函数为：

J＝J_tg+J_gl+J_vc+J_tc；

其中，

4.如权利要求1或2任一项所述的一种跨模态检索方法，其特征在于，所述整体目标函数为：

J＝w₁J_tg+w₂J_gl+w₃J_vc+w₃J_tc；

其中，

J_tg表示文本模态内全局一致性损失函数，J_gl表示模态间局部与全局一致性损失函数，J_vc表示图像的分类对抗损失函数，J_tc表示文本的分类对抗损失函数，H^t1、H^t2和H^t分别表示不同文本的文本哈希码，B^t1和B^t2分别表示输入两个文本对后生成的K位二进制矩阵，H^vg和H^vl分别代表文本对应图像的全局哈希码和文本对应图像的局部哈希码，B^vg和B^vl分别代表图像的全局二进制码和图像的局部二进制码，L^vc代表利用H^vgl进行分类的结果，L代表图像或文本的真实类别，L^tc代表利用H^t进行分类的结果，H^vgl表示图像的全局局部哈希码，w₁、w₂和w₃分别表示损失函数的权重。

5.如权利要求1所述的一种跨模态检索方法，其特征在于，所述将所述待检索数据输入至训练好的神经网络模型之前，还包括：

选取跨模态数据集并将其分成训练数据集和测试数据集；其中，所述跨模态数据集包括多个文本和图像对以及与其对应的类别信息；

基于误差反向传播算法、所述整体目标函数和所述训练数据集对所述神经网络模型进行训练，当所述整体目标函数收敛且经过测试数据集测试通过后，得到训练好的神经网络模型。

6.如权利要求1所述的一种跨模态检索方法，其特征在于，所述图像网络包括图像特征生成模块和图像哈希生成模块，所述图像特征生成模块用于提取图像的全局特征和局部特征，所述图像哈希生成模块用于根据图像的全局特征和局部特征生成相应的哈希码；

所述文本网络包括文本特征生成模块、文本哈希生成模块和基于词袋模型的输入层，所述文本特征生成模块用于提取文本的全局特征，所述文本哈希生成模块用于根据文本的全局特征生成相应的哈希码。

7.如权利要求6所述的一种跨模态检索方法，其特征在于，所述图像特征生成模块包括用于生成图像的全局特征的第一全连接层和用于生成图像的局部特征的第二全连接层，所述图像哈希生成模块包括用于生成图像的全局特征哈希码的第三全连接层、用于生成图像的局部特征哈希码的第四全连接层、用于生成图像的全局局部哈希码的第五全连接层和用于对其进行分类的第六全连接层；

所述文本特征生成模块包括用于提取文本的全局特征的第七全连接层，所述文本哈希生成模块包括用于将文本的全局特征映射为文本的全局特征哈希码的第八全连接层以及用于对所述文本的全局特征哈希码进行分类的第九全连接层。

8.一种跨模态检索装置，其特征在于，包括：

获取数据模块，用于获取待检索数据，所述待检索数据为文本或图像；

哈希生成模块，用于将所述待检索数据输入至训练好的神经网络模型，以得到所述神经网络输出的所述待检索数据的哈希码，其中，所述神经网络模型包括文本网络和图像网络，所述文本网络用于提取文本的全局特征，并根据文本的全局特征生成相应的哈希码，所述图像网络用于提取图像的全局特征和局部特征，并根据图像的全局特征和局部特征生成相应的哈希码；

跨模态检索模块，用于基于所述待检索数据的哈希码，在所述待检索数据集中对所述待检索数据进行跨模态检索。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。