CN116431847A

CN116431847A - 基于多重对比和双路对抗的跨模态哈希检索方法及设备

Info

Publication number: CN116431847A
Application number: CN202310700719.5A
Authority: CN
Inventors: 梁美玉; 曹晓雯; 于洋; 鲁康康; 余家良
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-07-14
Anticipated expiration: 2043-06-14
Also published as: CN116431847B

Abstract

本申请提供一种基于多重对比和双路对抗的跨模态哈希检索方法及设备，能够对图像模态的图像信息和文本模态的文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；对图像推理特征和文本推理特征进行模态间、模态内和全局局部的多重对比哈希学习和双路对抗学习，得到二进制哈希码，通过多重对比学习进行全局局部、模态内和模态间的语义匹配和融合，并通过双路对抗学习机制更好地对齐不同模态哈希码的语义分布，产生更高质量和更具判别性的二进制哈希码作为跨模态检索的统一哈希表示。使用二进制哈希码，可以快速实现跨模态检索；此外，哈希码占用的内存空间也显著减少，且哈希码具有唯一性，以此确保跨模态检索的高效性和准确性。

Description

基于多重对比和双路对抗的跨模态哈希检索方法及设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种基于多重对比和双路对抗的跨模态哈希检索方法及设备。

背景技术

随着深度学习技术的蓬勃发展和日趋成熟，基于深度语义学习的跨模态检索方法得到了广泛的使用。但是相关技术中有监督的深度哈希检索方法极度依赖模态的标签信息，大量的人工标注会产生很大的时间代价。而直接利用实值进行跨模态检索的方法在检索过程耗时久，匹配速度慢，造成跨模态检索模型冗余和性能下降。

发明内容

有鉴于此，本申请的目的在于提出一种基于多重对比和双路对抗的跨模态哈希检索方法及设备用于提高跨模态数据的检索速度和检索准确性。

基于上述目的，本申请的第一方面提供了一种基于多重对比和双路对抗的跨模态哈希检索方法，包括：

获取图像模态的图像信息和文本模态的文本信息；

对所述图像信息和所述文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；

对所述图像推理特征和所述文本推理特征进行模态间、模态内和全局局部的多重对比哈希学习，得到连续哈希码；

对所述连续哈希码进行双路对抗学习，得到二进制哈希码。

本申请的第二方面提供了一种基于多重对比和双路对抗的跨模态哈希检索装置，包括：

模态信息获取模块，被配置为：获取图像模态的图像信息和文本模态的文本信息；

跨模态特征学习模块，被配置为：对所述图像信息和所述文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；

多重对比模块，被配置为：对所述图像推理特征和所述文本推理特征进行模态间、模态内和全局局部的联合对比哈希学习，得到连续哈希码；

双路对抗模块，被配置为：对所述连续哈希码进行二值离散，得到二进制哈希码。

本申请的第三方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本申请第一方面提供的所述的方法。

本申请的第四方面提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行本申请第一方面提供的所述方法。

从上面所述可以看出，本申请提供的基于多重对比和双路对抗的跨模态哈希检索方法及设备，能够对图像模态的图像信息和文本模态的文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；对图像推理特征和文本推理特征进行模态间、模态内和全局局部的多重对比哈希学习，得到连续哈希码；对连续哈希码进行双路对抗学习，得到二进制哈希码，基于多重对比学习机制挖掘更多上下文信息进行全局和局部、模态内和模态间的语义匹配和融合，并通过双路对抗学习机制更好地对齐不同模态哈希码的语义分布，产生更高质量和更具判别性的二进制哈希码作为跨模态检索的统一哈希表示。通过使用这种二进制哈希码，可以快速实现跨模态检索；此外，哈希码占用的内存空间也显著减少，且哈希码具有唯一性，以此确保跨模态检索的高效性和准确性。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例基于多重对比和双路对抗的跨模态哈希检索方法的流程图；

图2为本申请实施例跨模态检索的双向对抗和多重对比哈希网络模型的示意图；

图3为本申请实施例特征学习的流程图；

图4为本申请实施例多重对比学习的流程图；

图5为本申请实施例双路对抗学习的示意图；

图6为本申请实施例基于多重对比和双路对抗的跨模态哈希检索装置的结构示意图；

图7为本申请实施例电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

基于上述背景技术的描述，相关技术中还存在如下的情况：

相关技术中包括有监督的跨模态深度哈希方法利用标签包含的语义信息约束生成哈希函数。包括：首先利用实例的多标签来计算原始数据的语义相似度。随后，引入了一种存储库机制来保留多标签语义相似性约束，并在整个训练批次中强制学习哈希表示的独特性。为了尽可能减小不同语义空间下存在的异构鸿沟，首先建立了亲和矩阵，在此基础上利用分解、保存语义相似信息等技术构建了一个统一的语义空间，在该空间下对不同模态的数据完成深度语义匹配。还可以利用两个生成对抗网络最大化跨模态间的语义相关性和一致性，同时利用多标签信息捕捉更高级的语义信息。相关技术中还存在非对称的对抗哈希方法，通过生成多标签哈希图谱尽可能地保留多标签语义信息，并通过新的三元组边际损失函数来保持汉明空间下的跨模态语义一致性。对于深度对抗离散哈希方法，可以充分利用多标签的语义信息，通过对抗网络和加权余弦三元组损失函数挖掘跨模态语义相关性，并且使用离散哈希策略尽可能减少哈希码的量化损失。

上述相关技术均属于有监督的深度哈希检索方法，此类方法极度依赖模态的标签信息，大量的人工标注会产生很大的时间代价。

相关技术中还可以侧重于实值语义匹配的跨模态检索，根据联合矩阵计算数据点的语义相似度，通过计算给定模态的数据点和另一模态所有数据点的语义相似度，返回检索结果。但是，实值的跨模态检索方法在检索过程耗时久，匹配速度慢，造成跨模态检索模型冗余和性能下降。

本申请实施例提供的基于多重对比和双路对抗的跨模态哈希检索方法及设备，为了保留原始数据的相似性结构和哈希码的信息，在细粒度跨模态特征学习的基础上，利用多重对比学习网络和双路对抗学习网络，充分学习图文数据之间的深度语义，完成跨模态哈希检索。所述方法能够对图像模态的图像信息和文本模态的文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；对图像推理特征和文本推理特征进行模态间、模态内和全局局部的多重对比哈希学习，得到连续哈希码；对连续哈希码进行双路对抗学习，得到二进制哈希码，基于多重对比学习机制挖掘更多上下文信息进行全局和局部、模态内和模态间的语义匹配和融合，并通过双路对抗学习机制更好地对齐不同模态哈希码的语义分布，产生更高质量和更具判别性的二进制哈希码作为跨模态检索的统一哈希表示。通过使用这种二进制哈希码，可以快速实现跨模态检索；此外，哈希码占用的内存空间也显著减少，且哈希码具有唯一性，以此确保跨模态检索的高效性和准确性。结合附图及实施例进行说明。

在一些实施例中，如图1和图2所示，一种基于多重对比和双路对抗的跨模态哈希检索方法，包括：

步骤101：获取图像模态的图像信息和文本模态的文本信息。

具体实施时，模态是指事物的一种表现形式，是对事物某特定角度的描述。多模态通常包含两个或者两个以上的模态形式，是指从多个视角出发对事物进行描述。多模态指的是多种模态的信息，包括：文本、图像、视频、音频等模态。不同模态的数据之间可以进行转换，例如把视频数据转为图像数据，把音频数据转为文本数据。多模态研究的是视觉语言问题，其任务是关于图像和文字的分类、问答、匹配、排序、定位、检索等问题。而本申请基于多重对比和双路对抗的跨模态哈希检索方法主要处理对象为图像模态的图像信息和文本模态的文本信息。即可以根据文本信息跨模态检索到语义相同的图像信息，也可以根据图像信息跨模态检索到语义相同的文本信息；甚至根据其余模态的信息同时跨模态的检索到对应文本信息和图像信息。所以如图2所示，首先需要获取图像模态的图像信息和文本模态的文本信息。

步骤102：对图像信息和文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征。

具体实施时，细粒度跨模态特征学习方法采用基于目标检测的细粒度图像特征提取方法对图像信息进行目标特征提取，获取图像目标区域的空间和内容信息；采用基于自注意力感知的文本特征提取方法学习文本信息的上下文语义特征，获取更全面和细粒度的文本语义信息；充分考虑公共语义空间中多模态信息的语义相关性，结合语义共享与融合的跨模态注意力机制学习图像、文本的细粒度语义信息，以此在公共语义空间中，完成不同模态信息的语义融合，获取图像和文本的显著性语义推理特征，得到图像推理特征和文本推理特征。

具体地，如图2所示，对于图像模态的图像信息，首先基于Faster-RCNN技术对图像进行区域特征学习，经过连接层堆栈处理后将图像输入语义推理模块。对图像的区域特征向量序列进行高级语义推理，最大程度挖掘图像区域之间的语义相关性。对于文本模态的文本信息，为了获得紧凑丰富的文本模态语义特征向量，基于BERT深度语言模型对文本集进行语义推导，然后输入到语义推理模块中。最后，通过全连接层的映射，将图像和文本模式的特征向量映射到统一的语义空间。利用共享TE (Transformer Encoders)加速跨模态语义融合过程，最终获得细粒度语义推理后的多模态特征向量，即为细粒度的图像推理特征和文本推理特征。

步骤103：对图像推理特征和文本推理特征进行模态间、模态内和全局局部的多重对比哈希学习，得到连续哈希码。

具体实施时，多重对比学习网络通过模态间、模态内、全局局部的多层次联合对比学习，挖掘更全面的图文语义关联，得到连续哈希码。

具体地，如图2所示，在多重对比和双向对抗的跨模态哈希学习网络中，将语义共享的跨模态特征学习网络进行特征学习获得的细粒度的图像推理特征和文本推理特征作为哈希学习层的输入。多重对比学习网络通过模态间、模态内、全局-局部的多层次联合对比学习，挖掘更全面的图文语义关联，生成高判别性和高质量的连续哈希码H_v和H_t，将真实值转换为哈希表示的哈希值，哈希训练占用的内存空间也显著减少，且哈希码具有唯一性，以此确保跨模态检索的高效性和准确性。

步骤104：对连续哈希码进行双路对抗学习，得到二进制哈希码。

具体实施时，如图2所示，双路对抗网络通过图像和文本的双路博弈，矫正跨模态多重对比损失函数，得到更准确的跨模态语义特征，并通过在统一空间下完成哈希函数映射，得到更具判别性和更高质量的二进制哈希码，从而充分保持哈希码的多标签语义相似度和跨模态语义不变性，进而提高检索的准确性。

需要说明的是，基于多重对比和双路对抗的跨模态哈希检索方法是基于如图2所示的跨模态检索的双向对抗和多重对比哈希网络模型（DATCH）实现的。

其中，多重对比学习指的是在模态间、模态内和全局局部三个层面进行对比学习，拉近相近语义数据的距离，疏离不同语义的数据点之间的距离。

双路对抗学习是指设置图像和文本两个判别器，双向博弈，学习出一个更完备和健壮的统一语义空间。

跨模态哈希检索指的是在不同模态的数据之间，如图像和文本之间，利用哈希码表示数据特征，通过哈希码的语义相似性实现不同模态间的信息检索。

综上所述，本申请实施例提供的基于多重对比和双路对抗的跨模态哈希检索方法，为了保留原始数据的相似性结构和哈希码的信息，在细粒度跨模态特征学习的基础上，利用多重对比学习网络和双路对抗学习网络，充分学习图文数据之间的深度语义，完成跨模态哈希检索。所述方法能够对图像模态的图像信息和文本模态的文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；对图像推理特征和文本推理特征进行模态间、模态内和全局局部的多重对比哈希学习，得到连续哈希码；对连续哈希码进行双路对抗学习，得到二进制哈希码，基于多重对比学习机制挖掘更多上下文信息进行全局和局部、模态内和模态间的语义匹配和融合，并通过双路对抗学习机制更好地对齐不同模态哈希码的语义分布，产生更高质量和更具判别性的二进制哈希码作为跨模态检索的统一哈希表示。通过使用这种二进制哈希码，可以快速实现跨模态检索；此外，哈希码占用的内存空间也显著减少，且哈希码具有唯一性，以此确保跨模态检索的高效性和准确性。

在一些实施例中，如图3所示，对图像信息和文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征，包括：

步骤301：对图像信息进行特征提取，得到图像语义信息。

在一些实施例中，步骤301包括：

步骤3011：根据图像信息确定多个图像区域；

步骤3012：对每个图像区域进行区域特征学习，得到图像特征表示；

步骤3013：根据预设的边界框坐标矩阵确定每个图像区域的归一化坐标和归一化面积，得到归一化特征表示；

步骤3014：将同一图像区域的图像特征表示和归一化特征表示进行联合，得到图像语义信息。

具体实施时，在语义共享的跨模态特征学习网络层中，对于图像特征学习，可以选用Faster-RCNN网络对图像信息中的图像

进行区域特征学习，采用从每个图像区域中提取的自下而上的特征作为图像特征表示，记为/>

，其中，p表示图像区域的个数，/>

为零向量，用于后期的语义推理。为了在后续的图像视觉推理过程中包含空间感知要素，使用边界框坐标矩阵协同调节视觉推理的早期处理过程，首先计算图像中每个区域的归一化坐标和归一化面积，具体过程如下所示：

其中，

分别为各个边界框的宽、高，/>

、/>

、/>

、/>

是边界框的坐标值。然后将c与特征/>

连接起来，最后通过Linear-ReLU-Linear全连接层映射，从而获得包含空间感知的自下而上的视觉特征/>

=/>

，该视觉特征即为视觉特征图像语义信息。

步骤302：对文本信息进行语义推导，得到文本语义信息。

在一些实施例中，步骤302包括：

步骤3021：根据文本信息确定多个单词；

步骤3022：根据Transformer编码器对每个单词进行语义学习，得到单词语义；

步骤3023：根据不同单词的单词语义确定单词间的语义信息，并整合语义信息，得到文本语义信息。

具体实施时，对于文本特征学习，使用BERT模型提取文本信息中文本

的词嵌入表示，基于多层Transformer编码器处理句子中的单词，并通过强大的自注意力机制挖掘单词之间的语义关系，并根据语义关系进行语义推导，最终将得到的文本词向量表示作为文本语义信息：/>

，q是每张图片对应标题中单词的个数，/>

包含了q个单词之间的语义信息。

步骤303：对图像语义信息和文本语义信息进行跨模态语义融合，得到细粒度的图像推理特征和细粒度的文本推理特征。

在一些实施例中，步骤303包括：

步骤3031：将图像语义信息输入Transformer编码器，得到注意力矩阵；

步骤3032：对注意力矩阵进行归一化处理，得到自注意力感知图像特征；

步骤3033：根据预设的Transformer编码器堆栈层进行自注意力感知图像特征和文本语义信息的语义推理和跨模态语义融合，得到图像推理特征和文本推理特征。

具体实施时，在此基础上，基于Transformer Encoder(TE)对包含空间感知的图像语义信息

（包括所有的/>

）和基于自注意力的文本语义信息/>

（包括所有的/>

）进行细粒度语义推理。以图像模态的非共享TE推理模块，即图2中的TE（TEs表示TE堆栈层）为例，基于TE的工作原理，说明细粒度图像语义推理的过程。以单个图像的包含空间感知特征的视觉特征/>

=/>

，作为TE的输入向量，进而生成注意力矩阵：

其中，

，/>

，/>

；

=p+1,/>

用于缓解softmax函数的梯度消失问题，以防内积产生更大的值。其中，/>

=

=每个区域特征的向量维数。/>

、/>

和/>

均为在训练DATCH模型过程中生成的参数矩阵。生成的注意力矩阵首先进行归一化，然后通过前馈神经网络FFN，并采用ReLU函数激活，最后再次进行归一化处理，从而生成自注意力感知图像特征/>

，/>

中的每一个向量都保存了p个区域的语义信息。

为了后续哈希码生成的一致性和连续性，对自注意力感知图像特征

和基于自注意力的文本特征即文本语义信息/>

使用全连接层映射到公共语义空间，随后使用共享的TE堆栈层加强不同模态信息的语义约束，为后续的双路对抗哈希学习提供高质量的语义推理特征。在每一次推理步骤中p个图像区域的特征信息都会通过TE的自注意力机制更新，同样地，文本的词向量也会通过TE的自注意力机制完成更新。为了实现图文信息的语义共享和融合，上述图文特征信息的更新通过共享的TE堆栈层来完成，在共享期间，自注意力层会通过共享图文信息完成神经网络的参数更新，每次更新完后的CLS特征，即/>

和/>

都代表着跨模态语义融合后的特征信息。因此，用最后一个TE层输出中的/>

和/>

分别代表图像模态和文本模态的语义推理特征，即用最后一个TE层输出中的/>

表示细粒度的图像推理特征，并记为/>

；用最后一个TE层输出中的/>

表示细粒度的文本推理特征，并记为/>

。

在一些实施例中，如图4所示，对图像推理特征和文本推理特征进行模态间、模态内和全局局部的多重对比学习，得到连续哈希码，包括：

步骤401：对图像推理特征和文本推理特征进行模态间的对比学习，以对齐图像推理特征和文本推理特征，得到模态间对比损失。

具体实施时，模态间对比学习的目标是缩短匹配图像文本对的特征距离，同时扩大不匹配的图像文本对的特征距离，最大化匹配的图像和文本之间的互信息。匹配图像文本对是指语义相同文本和图像，示例性的，若图像为柳树图像，文本为柳树，则文本和图像匹配，构成一个匹配图像文本对；若图像为柳树图像，文本为杨树，则文本和图像不匹配，构成一个不匹配图像文本对。具体实施时，根据细粒度的图像推理特征

生成图片实例/>

；根据细粒度的文本推理特征生成文本实例/>

。则从图像到文本的InfoNCE损失如下所示：

其中，

是温度超参数，/>

表示和/>

不匹配的负文本样本集合，/>

=/>

，其中/>

和/>

是两个投影头，分别将图像特征表示和文本特征表示映射到了InfoNCE损失函数的语义空间。为了保存负文本样本集合/>

，使用一个大队列来保存最近的/>

个文本表示/>

。类似地，从文本到图像的InfoNCE损失如下所示：

其中，

=/>

,其中/>

和/>

是两个投影头，分别将图像特征表示和文本特征表示映射到了InfoNCE损失函数的语义空间。/>

表示和T不匹配的负图像样本集合，为了保存负文本样本集合/>

，使用一个大队列来保存最近的

个特征表示/>

。因此，定义的模态间对比损失为：

+/>

]

通过最小化模态间对比损失

，促进图像特征和文本特征在公共语义空间中很好地对齐，促使特征融合。

步骤402：对图像推理特征和文本推理特征进行模态内的对比学习，以确定同一模态内的语义差异，得到模态内对比损失。

具体实施时，模态内对比学习的目标是学习同一个模态内正负样本的语义差异。对图像模态而言，在随机数据增强下生成两个图片实例

。可以通过图像到图像的对比损失/>

最大化/>

之间的语义一致性，则定义/>

=/>

。对文本模态而言，定义/>

，文本到文本的对比损失使用/>

，且/>

=

。因此，通过最小化模态内对比损失来学习模态内特征表示的语义一致性，得到模态内对比损失：

+/>

]。

步骤403：对图像推理特征和文本推理特征进行全局局部的对比学习，以确定全局信息和局部信息之间的互信息，得到全局局部对比损失。

具体实施时，局部互信息最大化的目标是最大化样本全局表示和每个局部区域之间的互信息。以图像特征为例，

作为一个实例对。具体而言，将/>

看作/>

的正例，使用同批次中的其他图像的区域特征表示来构建负例。类似地，/>

被认为是/>

的正例，而来自其他批次文本的单词特征表示则是负例。通过最小化全局局部对比损失来最大化全局信息和局部信息之间的平均互信息，全局局部对比损失如下所示：

其中，

=/>

，/>

=/>

，/>

和/>

分别表示批次内图像负样本和单词负样本特征表示。/>

最大化鼓励模型从全局表示中预测局部表示，这迫使模型也捕获细粒度的信息，进而有利于联合表示学习，为后续映射生成高质量的哈希码打下了坚实的基础。

步骤404：根据模态间对比损失、模态内对比损失和全局局部对比损失确定跨模态多重对比损失。

具体实施时，用于训练多重对比网络的跨模态多重对比损失如下所示：

步骤405：根据跨模态多重对比损失对图像推理特征和文本推理特征进行哈希映射，得到连续哈希码。

具体实施时，根据使用跨模态多重对比损失多重对比网络对图像推理特征和文本推理特征进行哈希映射学习，得到连续哈希码连续哈希码H_v和H_t，其中，H_v为图像模态的图像连续哈希码，H_t为文本模态的文本连续哈希码。

在一些实施例中，连续哈希码包括图像连续哈希码和文本连续哈希码；如图5所示，对连续哈希码进行双路对抗学习，得到二进制哈希码，包括：

步骤501：将图像连续哈希码作为预设图像模态判别器的真实输入，将文本连续哈希码作为图像模态判别器的混淆输入，训练图像模态判别器。

步骤502：将图像连续哈希码作为预设文本模态判别器的混淆输入，将文本连续哈希码作为文本模态判别器的真实输入，训练文本模态判别器。

步骤503：根据训练好的文本模态判别器和图像连续哈希码进行双路对抗学习，并对学习结果进行二值化处理，得到二进制哈希码。

具体实施时，为了生成跨模态的模态不变表示，首先为每个模态设计两个判别器

和/>

。对于图像模态判别器/>

，将文本网络作为图像哈希码的生成器，从图像特征进行哈希映射得到的哈希码被认为是真实的图像哈希码，而从文本特征进行哈希映射得到的哈希码被标记为假图像哈希码。图像模态判别器的目标是区分输入的图像哈希码是否为真，文本模态判别器/>

的作用与/>

类似。使用两个分别具有参数/>

和/>

的三层多层感知器（MLP）来实现两个判别器。在双路对抗的博弈学习中，图像哈希网络尝试生成文本连续哈希码混淆文本模态判别器，文本哈希网络试图生成图像连续哈希码混淆图像模态判别器。将双路对抗损失标记为/>

，/>

表示所有图像和文本实例的模态分类的交叉熵损失。则双路对抗损失/>

如下式所示：

其中，

表示图像或文本模态的对抗损失，即/>

表示图像模态的对抗损失，/>

表示文本模态的对抗损失，/>

,/>

表示第i个图像或文本实例的连续哈希码表示。

由于二进制哈希量化过程中不可避免地会产生误差，为了尽量减少错误并防止信息丢失，需要进行哈希码的量化学习，使二进制哈希码尽可能地保持原始特征空间中的信息，设计模态内语义一致性损失函数如下式所示：

其中，

,/>

，/>

分别是图像哈希层和文本哈希层的网络参数，根据训练好的文本模态判别器和图像连续哈希码进行双路对抗学习，然后经过/>

函数的离散二值计算，得到二进制哈希码B_v和B_t，其中，B_v为图像模态的二进制哈希码，B_t为文本模态的二进制哈希码。

综上所述，跨模态检索的双向对抗和多重对比哈希网络模型（DATCH）的总体目标函数如式下所示：

然后，DATCH模型最终通过下式进行优化，式中

表示语义共享的跨模态特征学习网络的所有参数。

。

所有网络参数都是基于反向传播算法学习的。首先，初始化所有超参数；然后训练对抗哈希网络：固定哈希层的参数，训练判别器；固定判别器的参数，训练哈希层，迭代直到模型收敛或达到最大epoch数，一个epoch表示：所有的数据送入网络中，并完成了一次前向计算和反向传播的过程。具体的，DATCH模型训练过程的优化算法为：

输入：训练集S；

输出：二进制图像哈希码B _v，二进制文本哈希码B _t，网络参数

，/>

，/>

；

① 初始化参数：超参数

,学习率：lr，批大小：bs，最大迭代次数：/>

；

② repeat；

③ for t iteration do；

④ 使用梯度下降算法更新

：

⑤ 使用梯度上升算法更新

：

⑥ 使用反向传播算法更新

：

⑦ end for；

⑧ 更新B _v，B _t；

⑨ e=e+1；

⑩ 直到模型收敛或者e=Epo，输出B _v，B _t。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种基于多重对比和双路对抗的跨模态哈希检索装置。

参考图6，所述基于多重对比和双路对抗的跨模态哈希检索装置，包括：

模态信息获取模块10，被配置为：获取图像模态的图像信息和文本模态的文本信息；

跨模态特征学习模块20，被配置为：对图像信息和文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征；

多重对比模块30，被配置为：对图像推理特征和文本推理特征进行模态间、模态内和全局局部的联合对比哈希学习，得到连续哈希码；

双路对抗模块40，被配置为：对连续哈希码进行二值离散，得到二进制哈希码。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于多重对比和双路对抗的跨模态哈希检索方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于多重对比和双路对抗的跨模态哈希检索方法。

图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于多重对比和双路对抗的跨模态哈希检索方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的XX方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围（包括权利要求）被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多重对比和双路对抗的跨模态哈希检索方法，其特征在于，包括：

获取图像模态的图像信息和文本模态的文本信息；

对所述连续哈希码进行双路对抗学习，得到二进制哈希码。

2.根据权利要求1所述的方法，其特征在于，所述对所述图像信息和所述文本信息进行跨模态语义融合，得到图像推理特征和文本推理特征，包括：

对所述图像信息进行特征提取，得到图像语义信息；

对所述文本信息进行语义推导，得到文本语义信息；

对所述图像语义信息和所述文本语义信息进行跨模态语义融合，得到细粒度的所述图像推理特征和细粒度的所述文本推理特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述图像推理特征和所述文本推理特征进行模态间、模态内和全局局部的多重对比学习，得到连续哈希码，包括：

对所述图像推理特征和所述文本推理特征进行模态间的对比学习，以对齐所述图像推理特征和所述文本推理特征，得到模态间对比损失；

对所述图像推理特征和所述文本推理特征进行模态内的对比学习，以确定同一模态内的语义差异，得到模态内对比损失；

对所述图像推理特征和所述文本推理特征进行全局局部的对比学习，以确定全局信息和局部信息之间的互信息，得到全局局部对比损失；

根据所述模态间对比损失、所述模态内对比损失和所述全局局部对比损失确定跨模态多重对比损失；

根据所述跨模态多重对比损失对所述图像推理特征和所述文本推理特征进行哈希映射，得到所述连续哈希码。

4.根据权利要求1所述的方法，其特征在于，所述连续哈希码包括图像连续哈希码和文本连续哈希码；

所述对所述连续哈希码进行双路对抗学习，得到二进制哈希码，包括：

将所述图像连续哈希码作为预设图像模态判别器的真实输入，将所述文本连续哈希码作为所述图像模态判别器的混淆输入，训练所述图像模态判别器；

将所述图像连续哈希码作为预设文本模态判别器的混淆输入，将所述文本连续哈希码作为所述文本模态判别器的真实输入，训练所述文本模态判别器；

根据训练好的文本模态判别器和图像连续哈希码进行双路对抗学习，并对学习结果进行二值化处理，得到所述二进制哈希码。

5.根据权利要求2所述的方法，其特征在于，所述对所述图像信息进行特征提取，得到图像语义信息，包括：

根据所述图像信息确定多个图像区域；

对每个所述图像区域进行区域特征学习，得到图像特征表示；

根据预设的边界框坐标矩阵确定每个所述图像区域的归一化坐标和归一化面积，得到归一化特征表示；

将同一图像区域的所述图像特征表示和所述归一化特征表示进行联合，得到所述图像语义信息。

6.根据权利要求2所述的方法，其特征在于，所述对所述文本信息进行语义推导，得到文本语义信息，包括：

根据所述文本信息确定多个单词；

根据Transformer编码器对每个所述单词进行语义学习，得到单词语义；

根据不同单词的单词语义确定单词间的语义信息，并整合所述语义信息，得到所述文本语义信息。

7.根据权利要求2所述的方法，其特征在于，所述对所述图像语义信息和所述文本语义信息进行跨模态语义融合，得到细粒度的所述图像推理特征和细粒度的所述文本推理特征，包括：

将所述图像语义信息输入Transformer编码器，得到注意力矩阵；

对所述注意力矩阵进行归一化处理，得到自注意力感知图像特征；

根据预设的Transformer编码器堆栈层进行所述自注意力感知图像特征和所述文本语义信息的语义推理和跨模态语义融合，得到细粒度的所述图像推理特征和细粒度的所述文本推理特征。

8.一种基于多重对比和双路对抗的跨模态哈希检索装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。