CN111914950B

CN111914950B - 基于深度对偶变分哈希的无监督跨模态检索模型训练方法

Info

Publication number: CN111914950B
Application number: CN202010846633.XA
Authority: CN
Inventors: 张勇东; 李攀登; 谢洪涛
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2021-04-16
Anticipated expiration: 2040-08-20
Also published as: CN111914950A

Abstract

本发明公开了一种基于图像检索文本的跨模态检索模型训练方法、基于文本检索图像的跨模态检索模型训练方法、及基于深度对偶变分哈希的无监督跨模态检索模型训练方法。解决了跨模态检索精确度低的技术问题，提高了跨模态检索的精确性。

Description

基于深度对偶变分哈希的无监督跨模态检索模型训练方法

技术领域

本发明涉及跨模态检索技术领域，尤其涉及一种基于图像检索文本的跨模态检索模型训练方法、基于文本检索图像的跨模态检索模型训练方法、及基于深度对偶变分哈希的无监督跨模态检索模型训练方法。

背景技术

随着信息技术的飞速发展，检索引擎和社交网络中图像、文本等多媒体数据呈爆炸式增长。多媒体数据数量的增长，相应的也增加了多媒体数据检索的难度。如何从海量的多媒体数据中精确地检索到所需的结果，是当前检索领域的重点研究课题。

跨模态检索是指通过一个模态的数据检索另一个模态的数据的检索技术。常见的跨模态检索有以图搜文本、以文本搜图等。目前，最常使用的跨模态检索方法是哈希方法，它可以将高维数据压缩成二进制码，并在汉明空间内检索最近邻的对象作为检索结果。

在跨模态检索中，同一目标的不同模态数据扮演着互补的角色，但是目前哈希方法不能有效地利用不同模态数据之间的关联性，导致不能得到高精度的检索结果。

发明内容

本申请实施例通过提供一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法，旨在提高跨模态检索的精确性。

为实现上述目的，本申请实施例提供了一种基于图像检索文本的跨模态检索模型训练方法，包括：

获取图像文本对的训练集；

对每一图像文本对，提取初始图像特征与初始文本特征；

将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征，得到具有语义保留的图像二进制码；

将所述具有语义保留的图像二进制码进行解码重构为中间文本特征；

将所述初始图像特征通过文本变分映射嵌入所述中间文本特征，得到具有视觉引导的文本二进制码；

将所述具有视觉引导的文本二进制码解码重构为最终图像特征；

根据所述初始图像特征和最终图像特征的一致性定义一致性损失函数，并根据所述一致性损失函数优化模型。

在一实施例中，所述将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征，得到具有语义保留的图像二进制码，包括：

通过所述视觉变分映射获取所述初始文本特征的高斯文本潜变量；

将所述高斯文本潜变量与所述初始图像特征级连，并送入所述视觉变分映射的哈希层，以得到所述具有语义保留的图像二进制码，获取所述具有的语义保留的图像二进制码的函数为：

其中，B^I为具有语义保留的图像二进制码；tanh为双曲正切函数；α为超参数；h₁是哈希函数；F^I为初始图像特征；z^T为高斯文本潜变量；

是哈希层参数；n是图像的数量；K是二进制码维度。

在一实施例中，所述基于图像检索文本的跨模态检索模型训练方法还包括：

根据所述初始文本特征和所述中间文本特征的一致性、及所述高斯文本潜变量的后验分布与先验分布的一致性，定义基于视觉变分映射的变分损失函数，并根据所述基于视觉变分映射的变分损失函数优化所述视觉变分映射，所述基于视觉变分映射的变分损失函数为：

其中，

为基于视觉变分映射的变分损失函数；

是文本变分映射的编码器E_T的参数；

是文本解码器D_T的参数；

是数学期望；P_data(F^I,F^T)是数据分布特征；

是在F^T下z^T的后验概率分布；

是在z^T，F^I下F^T的后验概率分布；P(z^T)是z^T的分布；D_KL用于计算KL散度。

为实现上述目的，本申请实施例还提出一种基于文本检索图像的跨模态检索模型训练方法，包括：

获取图像文本对的训练集；

对每一图像文本对，提取初始图像特征与初始文本特征；

将所述初始图像特征通过文本变分映射嵌入所述初始文本特征，得到具有视觉引导的文本二进制码；

将所述具有视觉引导的文本二进制码进行解码重构为中间图像特征；

将所述初始文本特征通过视觉变分映射嵌入所述中间图像特征，得到具有语义保留的图像二进制码；

将所述具有语义保留的图像二进制码解码重构为最终文本特征；

根据所述初始文本特征和最终文本特征的一致性，优化模型。

在一实施例中，所述将所述初始图像特征通过文本变分映射嵌入所述初始文本特征，得到具有视觉引导的文本二进制码，包括：

通过所述文本变分映射获取所述初始图像特征的高斯图像潜变量；

将所述高斯图像潜变量与初始文本特征级连，并送入所述文本变分映射的哈希层，以得到所述具有视觉引导的文本二进制码，获取所述具有视觉引导的文本二进制码的函数为：

其中，B^T为具有视觉引导的文本二进制码；tanh为双曲正切函数；α为超参数；h₂是哈希函数；F^T为初始文本特征；z^I为高斯图像潜变量；

是哈希层参数；n是图像的数量；K是二进制码维度。

在一实施例中，所述基于文本检索图像的跨模态检索模型训练方法还包括：

根据所述初始图像特征和所述中间图像特征的一致性、及所述高斯图像潜变量的后验分布与先验分布的一致性，定义基于文本变分映射的变分损失函数，并根据所述基于文本变分映射的变分损失函数优化所述文本变分映射，所述基于文本变分映射的变分损失函数为：

其中，

为基于文本变分映射的变分损失函数；

是视觉变分映射的编码器E_I的参数；

是图像解码器D_I的参数；

是数学期望；P_data(F^T,F^I)是数据分布特征；

是在F^I下z^I的后验概率分布；

是在z^I，F^T下F^I的后验概率分布；P(z^I)是z^I的分布；D_KL用于计算KL散度。

为实现上述目的，本申请实施例还提出一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法，其特征在于，包括如上述任一项所述的基于图像检索文本的跨模态检索模型训练方法训练，及如上述任一项所述的基于文本检索图像的跨模态检索模型训练方法训练，其中，

所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括：

根据基于视觉变分映射的变分损失函数及基于文本变分映射的变分损失函数，定义变分目标函数，并根据所述变分目标函数同时优化视觉变分映射和文本变分映射，所述变分目标函数为：

其中，

为变分目标函数；

为基于视觉变分映射的变分损失函数；

是文本变分映射的编码器E_T的参数；

是文本解码器D_T的参数；

为基于文本变分映射的变分损失函数；

是视觉变分映射的编码器E_I的参数；

是图像解码器D_I的参数。

在一实施例中，所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法，还包括：

将所述视觉变分映射和所述文本变分映射组成对偶学习框架，基于初始图像特征和最终图像特征的一致性、及初始文本特征和最终文本特征的一致性，定义循环一致性损失函数，并根据所述循环一致性损失函数优化模型，所述循环一致性损失函数为：

其中，

为循环一致性损失函数；

是数学期望；P_data(F^T,F^I)是数据分布特征；

是在F^I下z^I的后验概率分布；D_I是图像解码器；F^T1是中间文本特征；

是在F^T下z^T的后验概率分布；D_T是文本解码器；F^I1是中间图特征。

获取所述训练集中同一类型的图像文本对；

获取所述同一类型的图像文本对中所有初始图像特征和所有文本特征之间的第一相似性关系；

获取所述同一类型的图像文本对所对应的所有文本二进制码与所有图像二进制码之间的第二相似性关系；

根据所述第一相似性关系和所述第二相似性关系的一致性，定义跨模态语义损失函数，并根据所述跨模态语义损失函数优化模型。

在一实施例中，所述基于深度对偶变分哈希的无监督跨模态检索模型训练方法，所述跨模态语义损失函数为：

S＝λS^I+(1-λ)S^T，

其中，

为跨模态语义损失函数；S是图像相似度矩阵S^I和文本相似度矩阵S^T的线性叠加；λ是超参数；Ψ_IT＝cos(B^I,B^T)；

用于学习模态间的语义相似性关系；Ψ_II＝cos(B^I,B^I)；

用于学习图像模态内的语义相似性关系；Ψ_TT＝cos(B^T,B^T)；

用于学习文本模态内的语义相似性关系；

根据所述变分目标函数、所述循环一致性损失函数及所述跨模态语义损失函数获得最终目标函数，并根据所述最终目标函数优化模型，所述最终目标函数为：

其中，

为最终目标函数；

为变分目标函数；

为循环一致性损失函数；

为跨模态语义损失函数；μ₁和μ₂为超参数。

本申请的基于图像检索文本的跨模态检索模型训练方法，通过视觉变分映射将初始文本特征嵌入初始图像特征，以得到具有语义保留的图像二进制码，再通过文本变分映射将初始图像特征嵌入解码图像二进制码得到的中间文本特征，得到具有视觉引导的文本二进制码，再解码该文本二进制码而得到了最终图像特征，最后根据初始图像特征和最终图像特征的一致性优化模型，如此，可使训练后得到的模型能够充分融合多模态数据信息，进而在进行跨模态检索时，能够生成高精度的图像二进制码，从而能够提高基于图像检索文本的跨模态检索的精确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明基于图像检索文本的跨模态检索模型训练方法一实施例的流程示意图；

图2为本发明基于文本检索图像的跨模态检索模型训练方法一实施例的流程示意图；

图3为本发明基于深度对偶变分哈希的无监督跨模态检索模型训练方法一实施例的流程示意图。

图4为本发明基于深度对偶变分哈希的无监督跨模态检索模型训练方法的整体框架图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明提出一种基于图像检索文本的跨模态检索模型训练方法，旨在提高以图像检索文本的跨模态检索的精确性。

如图1所示，在一实施例中，本发明的基于图像检索文本的跨模态检索模型训练方法，包括：

S110、获取图像文本对的训练集。

具体而言，该图像文本对的训练集是指该训练集的中图像文本指向同一对象，而呈一一对应的关系，即一对图像文本对中的图像与文本在跨模态检索中，能够相互检索出彼此。

S120、对每一图像文本对，提取初始图像特征与初始文本特征。

具体而言，图像文本对是对应的图像和文本组成，因此，可分别提取图像文本中图像的初始图像特征F^I、及文本的初始文本特征F^T，该初始图像特征和初始文本特征是指图像文本对中的图像和文本未经编译前的特征。具体地，可通过卷积神经网络(如Alexnet网络)提取初始图像特征F^I，通过词嵌入方法(例如词袋模型)提取初始文本特征F^T。

S130、将所述初始文本特征通过视觉变分映射嵌入所述初始图像特征，得到具有语义保留的图像二进制码。

具体而言，在得到一个图像文本对中的初始图像特征F^I和初始文本特征F^T后，可通过视觉变分映射将初始文本特征F^T嵌入到初始图像特征F^I中，进而得到具有语义保留的图像二进制码B^I。如此，可使图像模态数据的特征和文本模态数据的特征相互融合，以使生成的具有语义保留的图像二进制码B^I更具鉴别力。

S140、将所述具有语义保留的图像二进制码进行解码重构为中间文本特征。

具体而言，在得到上述具有语义保留的图像二进制码B^I后，可通过设置于视觉变分映射后的文本解码器D_T，将该具有语义保留的图像二进制码B^I解码重构为中间文本特征F^T1。由于具有语义保留的图像二进制码B^I通过将初始文本特征F^T嵌入到初始图像特征F^I得到，因此，解码得到的中间文本特征F^T1与初始文本特征F^T具有一致性。

S150、将所述初始图像特征通过文本变分映射嵌入所述中间文本特征，得到具有视觉引导的文本二进制码。

具体而言，在得到重构后的中间文本特征F^T1后，基于该中间文本特征F^T1和初始文本特征F^T具有一致性的特点，可通过文本变分映射将初始图像特征F^I嵌入到中间文特征F^T1中，以得到具有视觉引导的文本二进制码B^T。该具有视觉引导的文本二进制码B^T，进一步地融合了图像模态和文本模态的数据特征。

S160、将所述具有视觉引导的文本二进制码解码重构为最终图像特征。

具体而言，在得到具有视觉引导的文本二进制码B^T后，可通过设置于文本变分映射后的图像解码器D_I，将该具有视觉引导的文本二进制码B^T解码重构为最终图像特征F^I2。由于该具有视觉引导的文本二进制码B^T通过将初始图像特征F^I嵌入中间文本特征F^T1中得到，因此，理论上解码所得到最终图像特征F^I2与初始图像特征F^I之间应该具有一致性。

S170、根据所述初始图像特征和最终图像特征的一致性定义一致性损失函数，并根据所述一致性损失函数优化模型。

具体而言，基于最终图像特征F^I2与初始图像特征F^I之间一致性，可定义一致性损失函数。由于该一致性损失函数基于最终图像特征F^I2与初始图像特征F^I之间的一致性得到，因此可用于优化模型中的视觉变分映射，进而优化模型(基于图像检索文本的跨模态检索模型)。可以理解，通过该一致性损失函数反向优化视觉变分映射，能够提高视觉变分映射所生成的图像二进制码的精度。如此，在使用基于图像检索文本的跨模态检索模型进行图像到文本的跨模态检索时，能够生成高精度的图像二进制码以用于检索，从而能够检索到更符合期望的结果，而提高基于图像检索文本的跨模态检索的精确性。

具体地，所述一致性损失函数为：

其中，

为一致性损失函数；

是数学期望；P_data(F^I,F^T)是数据分布特征；

是在F^I下z^I的后验概率分布；F^T为初始文本特征；F^I为初始图像特征；z^I为初始图像特征F^I在文本变分映射中的高斯图像潜变量；F^T1为中间文本特征。

可以理解，本申请的基于图像检索文本的跨模态检索模型训练方法，通过视觉变分映射将初始文本特征嵌入初始图像特征，以得到具有语义保留的图像二进制码，再通过文本变分映射将初始图像特征嵌入解码图像二进制码得到的中间文本特征，得到具有视觉引导的文本二进制码，再解码该文本二进制码而得到了最终图像特征，最后根据初始图像特征和最终图像特征的一致性优化模型，如此，可使训练后得到的模型能够充分融合多模态数据信息，进而在进行跨模态检索时，生成高精度的图像二进制码，从而能够提高基于图像检索文本的跨模态检索的精确性。

S131、通过所述视觉变分映射获取所述初始文本特征的高斯文本潜变量。

具体而言，视觉变分映射中的编码器将初始文本特征F^T通过全连接层嵌入到高维空间，以得到高斯文本潜变量z^T。

S132、将所述高斯文本潜变量与所述初始图像特征级连，并送入所述视觉变分映射的哈希层，以得到所述具有语义保留的图像二进制码，获取所述具有的语义保留的图像二进制码的函数为：

是哈希层参数；n是图像的数量；K是二进制码维度。

具体而言，通过将高斯文本潜变量z^T与初始图像特征F^I级连，能够充分融合多模态信息，最后通过视觉变分映射的哈希层对多模态特征进行编码，而得到具有语义保留的图像二进制码B^I。

值得说明的是，基于与得到图像二进制码B^I基本相同方式，可以通过文本变分映射得到初始图像特征F^I的高斯图像潜变量z^I，并将该高斯图像潜变量z^I与中间文本特征F^T1级连，再经过文本变分映射的哈希层编码而得到具有视觉引导的文本二进制码。

其中，

为基于视觉变分映射的变分损失函数；

是文本变分映射的编码器E_T的参数；

是文本解码器D_T的参数；

是数学期望；P_data(F^I,F^T)是数据分布特征；

是在F^T下z^T的后验概率分布；

具体而言，在基于视觉变分映射的变分损失函数中，前者为重构损失，可保证文本特征编码前解码后的一致性，后者为KL散度损失，能够保证生成的高斯文本潜变量z^T的后验分布和先验分布的一致性。通过基于视觉变分映射的变分损失函数，能够进一步捕获文本模态的流形结构，提升图像二进制码对重要互补信息的敏感程度，进而提高多模态数据信息的融合程度，以获得精度更高的图像二进制码，进而提高跨模态检索的精度。

值得说明的是，变分映射模型及其后的解码器(如视觉变分映射和文本解码器D_T，文本变分映射和图像解码器D_I)构成了条件自编码器结构(CVAE)。由于CVAE等其他方法生成的图像很容易模糊和缺乏多样性。因此，我们只在特征空间执行编码和解码操作,以避免模型难以收敛。此外，上述基于视觉变分映射的变分损失函数与CVAE的目标函数之间的主要区别是基于视觉变分映射的变分损失函数的潜在嵌入只与单模态文本特征有关，这样能够减少模型训练的难度。

此外，本发明还提出一种基于文本检索图像的跨模态检索模型训练方法，旨在提高以文本检索图像的跨模态检索的精确性。

如图2所示，在一实施例中，本发明的基于文本检索图像的跨模态检索模型训练方法，包括如下步骤：

S210、获取图像文本对的训练集。

具体而言，该图像文本对的训练集是指该训练集的中图像文本对呈一一对应的关系，即一对图像文本对中的图像与文本在跨模态检索中，能够相互检索出彼此。

S220、对每一图像文本对，提取初始图像特征与初始文本特征。

S230、将所述初始图像特征通过文本变分映射嵌入所述初始文本特征，得到具有视觉引导的文本二进制码。

具体而言，在得到一个图像文本对中的初始图像特征F^I和初始文本特征F^T后，可通过文本变分映射将初始图像特征F^I嵌入到初始文本特征F^T中，进而得到具有视觉引导的文本二进制码B^T。如此，可使图像模态数据的特征和文本模态数据的特征相互融合，以使生成的具有视觉引导的文本二进制码B^T更具鉴别力。

S240、将所述具有视觉引导的文本二进制码进行解码重构为中间图像特征。

具体而言，在得到上述具有视觉引导的文本二进制码B^T后，可通过设置于文本变分映射的图像解码器D_I，将该具有视觉引导的文本二进制码B^T解码重构为中间图像特征F^I1。由于具有视觉引导的文本二进制码B^T通过将初始图像特征F^I嵌入初始文本特征F^T得到，因此，解码得到的中间图像特征F^I1与初始图像特征F^I具有一致性。

S250、将所述初始文本特征通过视觉变分映射嵌入所述中间图像特征，得到具有语义保留的图像二进制码。

具体而言，在得到重构后的中间图像特征F^I1后，基于该中间图像特征F^I1和初始图像特征F^I具有一致性的特点，可通过视觉变分映射将初始文本特征F^T嵌入到中间图像特征F^I1中，以得到具有语义保留的图像二进制码B^I。该具有语义保留的图像二进制码B^I，进一步地融合了图像模态和文本模态的数据特征。

S260、将所述具有语义保留的图像二进制码解码重构为最终文本特征。

具体而言，在得到具有语义保留的图像二进制码B^I后，可通过设置于视觉变分映射后的文本解码器D_T，将该具有语义保留的图像二进制码B^I解码重构为最终文本特征F^T2。由于该最终文本特征F^T2通过将初始文本特征F^T嵌入中间图像特征F^I1中得到，因此，理论上解码所得到最终文本特征F^T2与初始文本特征F^T之间应该具有一致性。

S270、根据所述初始文本特征和最终文本特征的一致性定义一致性损失函数，并根据所述一致性损失函数优化模型。

具体而言，基于最终文本特征F^T2与初始文本特征F^T之间一致性，可定义一致性损失函数。由于该一致性损失函数基于最终文本特征F^T2与初始文本特征F^T之间的一致性得到，因此可用于优化模型中的文本变分映射，进而优化模型(基于文本检索图像的跨模态检索模型)。可以理解，通过该一致性损失函数反向优化文本变分映射，能够提高文本变分映射所生成的文本二进制码的精度。如此，在使用基于文本检索图像的跨模态检索模型进行文本到图像的跨模态检索时，能够生成高精度的文本二进制码以用于检索，从而能够检索到更符合期望的结果，而提高了基于文本检索图像的跨模态检索的精确性。

具体地，所述一致性损失函数为：

其中，

为一致性损失函数；

是数学期望；P_data(F^T,F^I)是数据分布特征；

是在F^T下z^T的后验概率分布；F^T为初始文本特征；F^I为初始图像特征；z^T为初始文本特征F^T在视觉变分映射中的高斯文本潜变量；F^I1为中间图像特征。

可以理解，本申请的基于文本检索图像的跨模态检索模型训练方法，通过文本变分映射将初始图像特征嵌入初始文本特征，以得到具有视觉引导的文本二进制码，再通过视觉变分映射将初始文本特征嵌入解码文本二进制码得到的中间图像特征，得到具有语义保留的图像二进制码，再解码该图像二进制码而得到了最终文本特征，最后根据初始文本特征和最终文本特征的一致性优化模型，如此，可使训练后得到的模型能够充分融合多模态数据信息，进而在进行跨模态检索时，生成高精度的文本二进制码，从而能够提高基于文本检索图像的跨模态检索的精确性。

S231、通过所述文本变分映射获取所述初始图像特征的高斯图像潜变量。

具体而言，文本变分映射中的编码器将初始图像特征F^I通过全连接层嵌入到高维空间，以得到高斯图像潜变量z^I。

S232、将所述高斯图像潜变量与初始文本特征级连，并送入所述文本变分映射的哈希层，以得到所述具有视觉引导的文本二进制码，获取所述具有视觉引导的文本二进制码的函数为：

是哈希层参数；n是图像的数量；K是二进制码维度。

具体而言，通过将高斯图像潜变量z^I与初始文本特征F^T级连，能够充分融合多模态信息，最后通过文本变分映射的哈希层对多模态特征进行编码，而得到具有视觉引导的文本二进制码B^T。

值得说明的是，基于与得到文本二进制码B^T基本相同方式，可以通过视觉变分映射得到初始文本特征F^T的高斯文本潜变量z^T，并将该高斯文本潜变量z^T与中间图像特征F^I1级连，再经过视觉变分映射的哈希层编码而得到具有语义保留的文本二进制码。

其中，

为基于文本变分映射的变分损失函数；

是视觉变分映射的编码器E_I的参数；

是图像解码器D_I的参数；

是数学期望；P_data(F^T,F^I)是数据分布特征；

是在F^I下z^I的后验概率分布；

具体而言，在基于文本变分映射的变分损失函数中，前者为重构损失，可保证图像特征编码前解码后的一致性，后者为KL散度损失，能够保证生成的高斯图像潜变量z^I的后验分布和先验分布的一致性。通过基于文本变分映射的变分损失函数，能够进一步捕获图像模态的流形结构，提升文本二进制码对重要互补信息的敏感程度，进而提高多模态数据信息的融合程度，以获得精度更高的文本二进制码，进而提高跨模态检索的精度。

值得说明的是，变分映射模型及其后的解码器(如视觉变分映射和文本解码器D_T，文本变分映射和图像解码器D_I)构成了条件自编码器结构(CVAE)。由于CVAE等其他方法生成的文本很容易模糊和缺乏多样性。因此，我们只在特征空间执行编码和解码操作,以避免模型难以收敛。此外，上述基于文本变分映射的变分损失函数与CVAE的目标函数之间的主要区别是基于文本变分映射的变分损失函数的潜在嵌入只与单模态图像特征有关，这样能够减少模型训练的难度。

此外，本发明还提出一种基于深度对偶变分哈希的无监督跨模态检索模型训练方法，以提高跨模态检索的精度。

如图3所示，在一实施例中，本发明的基于深度对偶变分哈希的无监督跨模态检索模型训练方法包括上述任一实施例所述的基于图像检索文本的跨模态检索模型训练方法训练，及如上述任一实施例所述的基于文本检索图像的跨模态检索模型训练方法训练，其中，

根据基于视觉变分映射的变分损失函数及基于文本变分映射的变分损失函数，定义变分目标函数，并根据所述变分目标函数以同时优化视觉变分映射和文本变分映射，所述变分目标函数为：

其中，

为变分目标函数；

为基于视觉变分映射的变分损失函数；

是文本变分映射的编码器E_T的参数；

是文本解码器D_T的参数；

为基于文本变分映射的变分损失函数；

是视觉变分映射的编码器E_I的参数；

是图像解码器D_I的参数。

可以理解，本申请的基于深度对偶变分哈希的无监督跨模态检索模型训练方法通过结合基于图像检索文本的跨模态检索模型训练方法和基于文本检索图像的跨模态检索模型训练方法，能够同时提高模型(该模型为基于深度对偶变分哈希的无监督跨模态检索模型，该模型通过结合基于图像检索文本的跨模态检索模型和基于文本检索图像的跨模态检索模型得到)在跨模态检索中，基于图片检索文本和基于文本检索图本的精确性。并且，通过上述变分目标函数，模型能够进一步捕获其他模态数据的流形结构，进而提高二进制码对其他模态互补信息的敏感性，以进一步提高跨模态检索的精度。

在一实施例中，上述基于深度对偶变分哈希的无监督跨模态检索模型训练方法还包括：将所述视觉变分映射和所述文本变分映射组成对偶学习框架，基于初始图像特征和最终图像特征的一致性、及初始文本特征和最终文本特征的一致性，定义循环一致性损失函数，并根据所述循环一致性损失函数优化模型，所述循环一致性损失函数为：

其中，

为循环一致性损失函数；

是数学期望；P_data(F^T,F^I)是数据分布特征；

具体而言，由于视觉变分映射和文本解码器D_T组成的CVAE能够将初始图像特征F^I重建为中间文本特征F^T1，而文本变分映射和图像解码器D_I组成的CVAE能够将初始文本特征F^T重建为中间图像特征F^I1，基于对偶学习，我们可将重建后的中间文本(图像)特征，再次输入文本变分映射和图像解码器D_I(视觉变分映射和文本解码器D_T)组成的CVAE，得到二次重建的最终图像(文本)特征。也就是说，文本变分映射和视觉变分映射能够组成对偶学习框架，从而使模型(基于深度对偶变分哈希的无监督跨模态检索模型)能够在多模态上实现闭环训练，进而能够进一步帮助两个变分映射互相学习，达到更好的检索效果。

如图3所示，在一实施例中，上述基于深度对偶变分哈希的无监督跨模态检索模型训练方法，还包括：

S310、获取所述训练集中同一类型的图像文本对。

具体而言，训练集中同一类型的图像文本对是指属于同一类别的图像文本对，如，当多个图像文本对的描述均与音乐相关时，则可认为这多个图像文本对均属于音乐类。其他类别还包括但不限于战争、生物、运动等。

S320、获取所述同一类型的图像文本对中所有初始图像特征和所有文本特征之间的第一相似性关系。

具体而言，在确定同一类型的图像文本对后，获取同一类别的图像文本对中所有图像文本对的初始图像特征F^I和初始文本特征F^T的第一相似性关系。具体地，对于同一批次n个初始图像特征F^I，我们首先对特征进行L2归一化，然后计算特征之间的内积得到大小为n*n的图像相似性矩阵S^I。再以同样的方式得到n个文本相似性矩阵S^T。矩阵中数值越大，我们认为该批次两个数据越相似。通过两个相似度矩阵，我们可以得到同一类型的n个初始图像特征F^I和n个初始文本特征F^T的模态间的第一相似性关系。

S330、获取所述同一类型的图像文本对所对应的所有的文本二进制码与所有具有图像二进制码之间的第二相似性关系。

具体而言，通过文本变分映射和视觉变分映射，我们可以得到同一类型的n个图像文本对所对应的n个文本二进制码B^T和n个图像二进制码B^I。进而建立n个文本二进制码B^T的文本相似性矩阵，及n个图像二进制码B^I的图像相似性矩阵，再通过上述文本二进制码B^T的文本相似性矩阵和图像二进制码B^I的图像相似性矩阵，得到文本二进制码B^T与图像二进制码B^I的模态间的第二相似性关系。

S340、根据所述第一相似性关系和所述第二相似性关系的一致性，定义跨模态语义损失函数，并根据所述跨模态语义损失函数优化模型。

具体而言，由于初始图像特征F^I和图像二进制码B^I，初始文本特征F^T和文本二进制码B^T之间存在对应关系，因此图像二进制码B^I与文本二进制码B^T之间的第二相似性关系，应与初始文本特征F^T和初始图像特征F^I的第一相似性关系保持一致，因此可以基于该一致性，定义跨模态语义损失函数，并根据该跨模态语义损失函数优化模型。这样，模型通过学习相似性关系，使得多媒体数据越相似，数据生成的二进制码在汉明空间中距离越小，越容易检索到符合期望的结果，即可以进一步提高跨模态检索的精度。

具体地，所述跨模态语义损失函数为：

S＝λS^I+(1-λ)S^T，

其中，

是模态间语义函数；S是图像相似度矩阵S^I和文本相似度矩阵S^T的线性叠加；λ是超参数；Ψ_IT＝cos(B^I,B^T)；

用于学习模态间的语义相似性关系；Ψ_II＝cos(B^I,B^I)；

用于学习图像模态内的语义相似性关系；Ψ_TT＝cos(B^T,B^T)；

用于学习文本模态内的语义相似性关系。

在一实施例中，上述基于深度对偶变分哈希的无监督跨模态检索模型训练方法，还包括：

其中，

为最终目标函数；

为变分目标函数；

为循环一致性损失函数；

为跨模态语义损失函数；μ₁和μ₂为超参数。

可以理解，通过上述最终目标函数，能够系统性的训练模型，以提升模型的跨模态检索精度。

结合图4所示，本发明的基于深度对偶变分哈希的无监督跨模态检索模型训练方法的对模型的训练流程如下：

1.获取训练集D；

2.从所述训练集中在一个批次内采样n个图像-文本对；

3.根据n个图像特征计算相似度矩阵S^I，n个文本特征计算相似度矩阵S^T，然后将两个相似度矩阵叠加起来得到总的相似度矩阵S；

4.模型计算二进制码B^I和B^T、中间图像特征F^I1、最终图像特征F^I2，中间文本特征F^T1、及最终文本特征F^T2；

5.计算变分损失，循环一致性损失，和跨模态语义损失；

6.通过反向传播更新模型的全部参数。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。