CN113971209B

CN113971209B - 一种基于注意力机制增强的无监督跨模态检索方法

Info

Publication number: CN113971209B
Application number: CN202111578275.XA
Authority: CN
Inventors: 刘寒松; 王永; 王国强; 刘瑞; 翟贵乾
Original assignee: Sonli Holdings Group Co Ltd
Current assignee: Sonli Holdings Group Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-19
Anticipated expiration: 2041-12-22
Also published as: CN113971209A

Abstract

本发明属于人工智能智慧社区应用技术领域，涉及一种基于注意力机制增强的无监督跨模态检索方法，先增强图像的视觉语义特征，再聚合不同模态的特征信息,并将融合后的多模态特征映射到同一语义特征空间,然后基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习，对齐不同模态的语义特征，最后将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量，减少了不同模态之间的异质语义鸿沟问题，增强了不同模态特征间的依赖关系，从而缩小不同模态数据之间的语义差距，能够更鲁棒地表征不同模态之间的语义共性特征。

Description

一种基于注意力机制增强的无监督跨模态检索方法

技术领域

本发明属于人工智能智慧社区应用技术领域，涉及一种基于注意力机制增强的无监督跨模态检索方法，能够有效的处理智慧社区中大规模图像和文本间的跨模态检索。

背景技术

跨模态检索是将一个模态的数据去寻找查询另一个模态中与之相关的数据，例如，用一段文本描述去检索图像数据库中与文本描述相关的图像。在日常生活中这种技术经常被使用，例如百度搜图，淘宝购物等。传统的跨模态检索分为基于监督的跨模态检索以及基于无监督的跨模态检索。由于深度神经网络在计算机视觉领域取得的显著效果，深度跨模态检索已经成为当下研究的主流。随着互联网以及多媒体的高速发展，多媒体数据呈现爆炸性的增长，跨模态哈希因为其特有的检索效率快以及存储花费少的特点，受到研究者们越来越多的关注。跨模态哈希检索是将不同模态的数据，映射到同一个二进制空间中，然后进行汉明距离的计算，从而进行多模态数据的检索。

然而，由于不同模态的数据之间必定存在不同模态数据介质的语义差异，即异质语义鸿沟问题。为实现不同模态数据间的异质检索，基于监督的跨模态哈希方法已经取得的很大进展，但是这些方法都需要大量人工标注的标签，很难泛化于现实世界的海量跨模态数据检索中。因此，为避免费时和昂贵的数据标注，越来越多的研究集中在基于无监督学习的跨模态哈希方法，这是因为其能够减少训练过程中对于标签的依赖，并且能够取得相当的性能。目前，无监督跨模态哈希方法有深度联合语义重建哈希、深度语义对齐哈希、联合分布相似性哈希等，其中，深度联合语义重建哈希通过将不同模态生成的哈希码分别重建对应的单模态相似性矩阵以及利用动态加权融合的方式形成多模态的相似性矩阵与原始特征生成的相同矩阵做损失计算，从而减少不同模态之间的异质语义鸿沟问题；深度语义对齐哈希，利用图像和文本的之间的共现信息引入一种对称损失，保持模态内和模态间哈希码的一致性；联合分布相似性哈希利用图像和文本单模态的相似性矩阵之间的数据分布关系，形成多模态相似性矩阵监督哈希码的生成。但是这些方法有一个不可忽略的问题就是从图像和文本得到的语义信息不对等，使得不同模态之间的异质语义鸿沟问题间接性增大，从而导致检索不同模态数据的失败。因此，亟需设计一种新的基于无监督学习的跨模态图像-文本检索方法。

发明内容

本发明的目的在于克服现有无监督跨模态检索技术中的不足，提出一种基于注意力机制增强的无监督跨模态检索方法。

为实现上述目的，本发明所述基于注意力机制增强的无监督跨模态检索方法，具体包括以下步骤：

（1）对图像数据和文本数据做预处理，把图像数据尺寸大小变为224

224，将图片切割成九个大小一样的图像块；对于文本数据，将其变成对应维度的词向量；

（2）分别对步骤（1）处理好的图像和文本数据进行特征提取，将处理好的图像输入注意力机制网络中，利用自注意力模块进行特征提取，获取图像特征，并形成图像特征向量集合；文本数据利用线性层进一步特征提取，形成文本特征向量集合；

（3）将步骤（2）提取到的图像和文本特征向量集合输入到多模态的特征融合模块，即先将提取到的图像和文本特征向量集合在512维的中间维度上进行融合得到多模态特征，再经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系，然后将融合之后的特征重新分配到图像和文本特征向量集合，得到同一语义空间的图像和文本特征向量集合；

（4）以步骤（3）得到的同一语义空间的图像和文本特征为基础生成对抗网络，使图像特征和文本特征经过对抗学习过程向同一语义特征空间进行对齐，提高跨模态数据检索的性能；

（5）将经过对抗学习之后的图像特征和文本特征分别生成各自模态的哈希码，进行模态内特征与其哈希码相似性度量学习以及模态间特征与其哈希码相似性度量学习，训练生成跨模态检索模型；

（6）将不同模态的数据都输入到步骤（5）得到的跨模态检索模型中并生成其对应的哈希码，然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算之间的汉明距离，若汉明距离小于所设定的阈值，则得到检索数据，否则则跳过，直至检索完成，得到所需要的目标图像或文本数据。

本发明所述步骤（1）的具体过程为：

（11）将图像数据预处理为224

224大小、三通道的数据，然后分为九个大小一样的图像块输入进网络，提取全局特征，将文本数据处理成统一维度的词向量袋；

（12）将图像利用注意力机制增强图像特征的表达能力，文本数据利用全连接层以及哈希层进行下一步学习。

本发明所述步骤（2）中得到的图像特征向量集合为

，其中

代表图像提取得到特征的维度，

代表图像数据的数量，

代表图像中第

个图像提取得到的特征；文本特征向量集合为

，

代表提取得到文本特征的维度，

代表文本数据的数量，

代表第

个文本数据提取得到的特征,其中，为实现跨模态数据之间的对应关系，采用

。

本发明所述步骤（3）具体过程为：

（31）对步骤（2）中获得的图像特征向量集合

和文本特征向量集合为

，在特征提取过程中，将图像特征和文本特征分别得到512维度的特征，其中图像特征集合为

，其中

代表变换之后的维度，即512维，

代表图像数据的数量；文本特征集合为

,其中

代表变换之后的维度，即512维，N代表文本数据的数量，然后

和

进行融合，得到融合之后的特征向量

；

（32）将步骤（31）融合得到的特征向量经过空间注意力和通道注意力模块将融合后的多模态特征映射到同一语义特征空间

，增强不同模态数据间的依赖关系，其中

代表向量的维度，

代表不同模态中的第

个特征，N代表图像数据的数量或者文本数据的数量，在该步骤中，在空间和通道上采用并联注意力的方式；

（33）将

和

融合成1024维度的特征向量集合后通过一个全连接层将其变成512维度的特征向量集合

，其中

代表图像特征的维度，

代表图像的数量，

代表第

个图像数据；同样的，将

和

融合成1024维度的特征向量集合后利用一个全连接层得到512维度的特征向量集合

，其中

代表文本特征的维度，N代表文本的数量，

代表第

个文本数据。

本发明所述步骤（4）的具体过程为：

（41）将

与

同时输入到判别器进行对抗学习，将融合得到的同一特征向量集合作为真值去判断辨别图像特征向量集合，使得生成的图像特征向量集合与融合之后的同一特征向量集合更加相似，；

（42）将

与

同时输入到判别器进行对抗学习，使得生成的文本特征更好的和同一语义特征相接近。

本发明所述步骤（5）的具体过程为：将步骤（41）和步骤（42）中经过对抗学习获得的图像特征和文本特征，通过哈希层分别生成对应的哈希码，其中图像的哈希编码集合为

，文本的哈希编码集合为

，其中N代表图像或者文本的数量，K代表哈希码的长度，然后进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量学习，将图像单独计算每一张图像与其他图像的余弦距离，计算单模态的相似性矩阵；同时，单独计算每个文本和其它文本的余弦距离，计算文本模态的相似性矩阵，然后将其融合达到一个跨模态的相似性矩阵，通过利用哈希码来重构对应的图像和文本模态的相似性矩阵、跨模态的相似矩阵以及矩阵之间的误差，来达到相似性度量学习的目的。

本发明为利用图像的全局信息有效表征图像语义信息，先采用注意力机制模块增强图像的视觉语义特征，生成更具判别力的视觉特征，再通过跨模态融合模块聚合不同模态的特征信息,并经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系，减少不同模态之间的异质语义鸿沟问题，然后基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习，对齐不同模态的语义特征，最后将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量。

本发明与现有技术相比，具有以下优点：

1、现有技术中的基于监督的跨模态检索，都是基于人工标签的，为了避免费时和昂贵的数据标注，而且现有的无监督的跨模态检索中图像特征都是基于深度卷积神经网络进行提取，忽略了图像结构中的全局相关性信息，以至其视觉语义信息不鲁棒，从而影响了跨模态检索的性能，本发明利用注意力机制增强图像特征的表达能力，尤其使用自注意力模型对图像的全局特征进行表征，丰富了图像的视觉语义信息。

2、现有技术的无监督跨模态检索方法，基本上都是利用图像和文本等模态内自身所具有的语义特征信息，然而不同模态数据间的异质语义鸿沟问题严重制约了跨模态数据检索的性能，本发明利用跨模态融合模块将不同模态的数据特征映射到同一语义特征空间，并将其与原始图像特征和文本特征进行生成对抗学习，从而缩小不同模态数据之间的语义差距，能够更鲁棒地表征不同模态之间的语义共性特征。

附图说明

图1为本发明的工作流程示意框架图。

图2为本发明用于图像特征增强的自注意力模块图。

图3为本发明所述多模态融合模块跨模态特征融合示意图。

图4为本发明所述跨模态检索模型结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的说明。

实施例：

本发明实施例的工作流程如图1所示，主要包括以下七个部分：

224，将图片切割成九块；对于文本数据，将其变成对应维度的词向量；

本实施例所述方法可有效提高无监督跨模态检索中的准确率和召回率，性能较为优越，尤其使用于大型跨模态数据场景，例如百度搜图，淘宝、京东的搜索购物等，下面展开具体说明：

对于步骤（1），首对图像数据和文本数据做预处理，把图像数据尺寸大小变为224

224，将图片切割成九个大小一样的小块输送到网络中；对于文本数据，将其变成统一维度的词向量，例如在常用数据集MIRflickr中，把对应的文本变成1386维的词向量。

对于步骤（2），候选目标的提取分为对处理好的图像数据进行提取以及对于处理好的文本数据进行提取两部分来完成：

（21）对于图像特征的提取，利用注意力机制增强图像特征的表达能力，即利用如图2所示的自注意力模块增强图像特征的表达能力，注意力机制通过将图像分为九个大小一样的小块后输送进网络，通过注意力机制建立每个小块之间的联系，从而更好的提取图像全局特征，得到的图像特征向量集合为

，其中

代表图像提取得到特征的维度，

代表图像数据的数量，

代表图像中第

个图像提取得到的特征；

（22）对于文本特征的提取，利用一个线性层和一个哈希层进行特征的提取，文本特征向量集合为

，

代表提取得到文本特征的维度，

代表文本数据的数量，

代表第

个文本数据提取得到的特征。

对于步骤（3），如图3中所示，跨模态融合的具体过程如下：

（31）先对图像提取来的特征集合

通过一个线性层变成512维度的特征特征向量集合

,其中d代表原先图像特征的维度，

代表变换之后的维度，即512维，N代表图像数据的数量；同时，将对文本提取来的特征集合

通过一个线性层变成512维度的特征向量集合

，这样，图像和文本模态的特征集合都处于相同的维度，从而有利于不同模态特征的融合；

（32）如图3中多模态特征融合模块所示，在特征训练阶段，将图像特征变化之后的特征集合

和文本特征变化之后的特征集合

，聚合成一个1024维度的特征集合后通过一个全连接层变成512维度的特征集合

，其中

代表变换之后的维度，即512维，N代表多模态数据的数量，此时，在通过上采样操作将融合之后的特征变成512通道、7

7大小的图片，然后经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间

,增强不同模态特征间的依赖关系，其中

代表向量的维度，

代表不同模态中的第

个特征，N代表数据的数量，本实施例所加的注意力机制，是通过并联通道和空间上独自使用注意力机制然后再融合的策略，同样也可以通过串联通道和空间上独自使用自主一然后再融合的策略，两种方式都能取得不错的融合效果；

步骤（33）将融合之后的特征

分别与原先的图像特征和文本特征相融合，使不同模态的特征可以在保留自己特性的同时，还能更好的利用不同模态之间的共性，增加了互补性，减少了冗余性，步骤（32）操作之后，融合之后的特征是512通道、7

7大小的类似图像特征，同样的，通过一个全连接层将其变成512维度的特征向量集合，然后再与图像特征融合成1024维度的特征向量集合，继而通过一个全连接层将其变成512维度的特征向量集合

，其中

代表图像特征的维度，

代表图像的数量，

代表第

个图像数据，然后在网络中进行下一步操作；对于文本，同样也是，将512维度的融合特征与文本特征融合，得到一个1024维度的特征向量集合，同样利用一个全连接层得到一个512维度的特征向量集合

，其中

代表文本特征的维度，N代表文本的数量，

代表第

个文本数据，然后进行下一步操作。

对于步骤（4），如图4中基于对抗学习的语义对齐模块所示，为了进一步减少不同模态之间的异质语义鸿沟问题，利用上述步骤（3）融合之后得到的同一语义特征与原先的图像特征以及文本特征，做对抗学习，以此来得到更加相似的不同模态的特征，使得不同模态的特征有自己的特性，同时也尽可能的相似，具体为：

（41）将

与

同时输入到判别器进行对抗学习，融合得到的同一特征向量集合作为真值去判断辨别图像特征向量集合，使得生成的图像特征向量集合与融合之后的同一特征向量集合更加相似，从而提高检索的性能，其损失计算公式为：

，

其中，

代表图像的数量，

代表用于判别图像的判别器，

为平衡判别器的参数；

（42）将

与

同时输入到判别器中，融合得到的同一特征向量集合作为真值去判断辨别文本特征向量集合，使得生成的文本特征向量集合与融合之后的同一特征向量集合更加相似，从而提高检索的性能，其损失计算公式为：

，

其中，

代表图像的数量，

代表用于判别文本的判别器，

为平衡判别器的参数；

步骤（43）基于无监督的跨模态检索都是利用不同模态自身内在的特征学习生成哈希码，对于步骤（41）和步骤（42）的对抗训练将不同模态的特征映射到同一语义特征空间，利用不同模态生成的哈希码，通过计算他们之间的相似距离，重构单独模态的相似性矩阵来促进高质量哈希码的生成。

对于步骤（5），如图4中哈希码学习及相似性度量模块所示，具体为：

（51），将步骤（41）对抗学习后的图像特征通过哈希层进行哈希编码，从而得到图像的哈希码

，其中

代表图像哈希码的长度，

代表图像的数量，通过计算图像中每个图像的哈希码与其它图像的哈希码之间的余弦距离，得到由哈希码得到的单模态的相似性矩阵

，同时与加权融合得到的跨模态相似性矩阵S做损失计算，监督图像哈希码的生成，其中，对于图像生成的哈希码重构而成的相似性矩阵与原先加权融合得到的跨模态相似性矩阵S的语义损失计算为：

，

其中

为平衡范围参数，使模型训练更加灵活；

（52）将步骤（42）对抗学习后的文本特征通过哈希层进行哈希编码，从而得到文本的哈希码

，其中

代表图像哈希码的长度，

代表文本的数量,通过计算文本中每个文本的哈希码与其它文本的哈希码之间的余弦距离，得到由哈希码得到的单模态的相似性矩阵

，同时与加权融合特征得到的跨模态相似性矩阵做损失计算，监督文本哈希码的生成,其中，对于文本生成的哈希码重构而成的相似性矩阵与原先加权融合得到的跨模态相似性矩阵S的语义损失计算为：

，

其中

为范围平衡参数，使模型训练更加灵活。

对于步骤（51）、步骤（52）进行哈希码学习中，模态间语义对齐的总损失计算公式为：

，即：

，

其中，

代表由图像、文本或者他们混合之后重建的相似性矩阵，与原先通过特征生成的矩阵做损失计算，称为模态间损失，同时，

是一个范围平衡参数，更加有利于模型的训练，同样的还有图像和文本哈希码重建之后，分别和自身相对应的特征构造的相似性矩阵进行损失计算，称为模态内损失，本实施例共计分为两部分，一部分为图像哈希码与自身特征的损失：

，

其中，

代表是由图像特征向量构建而成的单模态相似性矩阵，

代表是由图像哈希码构建而成的单模态相似性矩阵，其中

为范围平衡参数，使模型训练更加灵活，另一部分为文本哈希码与自身特征的损失：

，

总的模态内损失为

，即：

，

其中，

代表图像或者文本模态,F代表是由特征向量构建而成的单模态相似性矩阵，

代表是由哈希码构建而成的单模态相似性矩阵，

为范围平衡参数，使模型的训练更加灵活。

步骤（6）网络训练好模型之后，将查询数据库的每一个数据都生成其对应的哈希码，然后通过计算查询图像或者查询文本与对应不同模态查询数据库中的每一个元素计算他们之间的汉明距离，如果他们的汉明距离小于所设定的阈值，就把它检索出来，如果不符合就跳过，直至检索完成，检索到的就是所需要的目标图像或文本数据。

本实施例提出的基于注意力机制增强的无监督跨模检索方法中，为有效利用图像的全局信息丰富图像语义特征，采用注意力机制模块增强图像的视觉语义信息，生成更具判别力的视觉特征；其次，为了减少不同模态之间的异质语义鸿沟问题，通过跨模态融合模块聚合不同模态的特征信息,并经过空间注意力和通道注意力将融合后的多模态特征映射到同一语义特征空间,增强不同模态特征间的依赖关系；再次，基于生成对抗网络对图像模态和文本模态特征分别与多模态融合后的同一语义特征进行对抗学习，对齐不同模态的语义特征；最后，将生成对抗网络对齐后的不同模态特征分别生成哈希码,并进行模态内特征与其哈希码相似性度量学习与模态间特征与其哈希码相似性度量。

本实施例所提出的基于注意力机制增强的无监督跨模态检索方法优于现有同类相关方法，尤其在不同模态存在较大语义鸿沟问题时的性能表现更为显著。

以上公开的仅为本发明的具体实施例，根据本发明提供的技术思想，本领域的技术人员能思及的变化，都应落入本发明的保护范围内。