CN113779282B

CN113779282B - 基于自注意力和生成对抗网络的细粒度跨媒体检索方法

Info

Publication number: CN113779282B
Application number: CN202111334768.9A
Authority: CN
Inventors: 姚亚洲; 孙泽人; 陈涛; 张传一; 沈复民
Original assignee: Nanjing Code Geek Technology Co ltd
Current assignee: Nanjing Code Geek Technology Co ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-01-28
Anticipated expiration: 2041-11-11
Also published as: CN113779282A

Abstract

本发明涉及细粒度跨媒体检索技术领域，公开了一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，包括：提取媒体数据的卷积神经网络和循环神经网络；将卷积神经网络和循环神经网络输入进公共语义空间学习模块，提取与媒体数据类别无关的语义特征A1；将公共语义空间学习模块中的语义特征A1输入进媒体判别器；将生成器和媒体判别器进行对抗学习，得到训练后的语义特征A2；将语义特征A2与公共语义空间学习模块中的语义特征A1进行相似性度量，根据度量的结果检索其对应的数据。本发明用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时，使得同一类别标签下不同媒体数据的特征尽可能相似。

Description

基于自注意力和生成对抗网络的细粒度跨媒体检索方法

技术领域

本发明涉及细粒度跨媒体检索技术领域，具体地说，是一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时，使得同一类别标签下不同媒体数据的特征尽可能相似。

背景技术

细粒度跨媒体检索一直以来都是一项具有挑战性的任务，主要难点如下;

（1）细粒度子类别物体之间的差距很小，在类别标签的弱监督下很难找到这些细粒度子类别的判别性区域，因此很难将其区分；

（2）不同媒体类型数据的特征通常具有不一致的分布和表示形式，所以它们之间存在着巨大的媒体鸿沟，即异质性差异。因此，需要评估跨媒体数据的语义相似性。

（3）现有技术提出一个统一的深度公共语义空间学习模块生成器交叉网络(CrossNet)，该公共语义空间学习模块使用同一个特征提取网络同时学习4种类型的媒体数据。相较于图像，视频和音频数据，文本数据具有一些独特的性质，这使得其很难被规范化为与其他媒体相同的二维矩阵输入。若直接使用卷积神经网络处理本发明所使用的文本输入数据，可能导致单词间存在的序列特征的丢失，并且为了描述细粒度目标，文本数据往往包含较多词汇，这些词汇中存在大量与目标物体无关的信息，若没有很好的注意力机制辅助文本特征的提取，特征提取网络将很难训练出与目标物体相关的文本特征。而且，该算法没有对上述第一个难点做出相应的处理措施。所以，此方法用于执行细粒度跨媒体检索的任务时，检索结果仍有待提高。

为了解决上述类型媒体数据特征提取的问题以及跨媒体检索存在的最大的异质性差异的问题，亟需一种技术方案，此技术方案既能有效地学习细粒度子类别之间的细小差距，又能有效地缩小跨媒体数据之间的异质性差异。本发明使用生成对抗网络来完成这一规范化过程，在保证分类准确率的同时，使得同一类别标签下不同媒体数据的特征尽可能相似。

发明内容

本发明的目的在于提供一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，实用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时，使得同一类别标签下不同媒体数据的特征尽可能相似。

本发明通过下述技术方案实现：一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，包括以下步骤：

步骤S1.根据生成器中基于自注意力机制的特征提取器提取媒体数据的卷积神经网络和循环神经网络；

步骤S2.预设公共语义空间学习模块，将卷积神经网络和循环神经网络输入进公共语义空间学习模块，在公共语义空间学习模块中提取与媒体数据类别无关的语义特征A1；

步骤S3.预设媒体判别器，将公共语义空间学习模块中的语义特征A1输入进媒体判别器，根据媒体判别器验证语义特征A1和媒体数据类别是否有关，如果是，返回步骤S2，如果否，进入步骤S4；

步骤S4.将生成器和媒体判别器进行对抗学习，对语义特征A1进行对抗性训练，得到训练后的语义特征A2；

步骤S5.将语义特征A2与公共语义空间学习模块中的语义特征A1进行相似性度量，根据度量的结果检索其对应的数据；

预设基于细粒度的分类约束条件、距离约束条件和排序约束条件，上述步骤S1-步骤S5遵循约束条件。

在本技术方案中，首先采用基于自注意力机制的两个特征提取器来提取四种媒体数据的特征。在自注意力机制的作用下，该网络能够有效学习细粒度子类别之间的判别性差异。由于细粒度跨媒体检索任务在检索过程中需要缩小不同媒体类型的子物种的类内距离，扩大相同媒体类型的不同子物种的类间距离，若直接对每一种媒体使用普通的卷积神经网络来提取特征会导致特征的不一致性，因此需要使用规范化机制来达到这一目的。

为了更好地实现本发明，进一步地，步骤S1包括：

媒体数据包括图像数据、视频数据、音频特征数据和文本数据；

根据图像数据、视频数据和音频特征数据的卷积神经网络获取定位目标的指定部分；

根据文本数据的循环神经网络获取定位目标的描述单词特征。

在本技术方案中，基于自注意力机制的文本特征提取算法是使用一个循环神经网络来更好地解析文本数据的时序关系，将循环神经网络提取到的序列特征与自注意力机制提取的重要特征结合在一起，可以更好地提取文本特征。

为了更好地实现本发明，进一步地，步骤S2包括：

在卷积神经网络中随机选取注意力区域中任意一张局部注意力区域，对其进行剪裁和放大后将其输入进公共语义空间学习模块；

在循环神经网络中通过线性叠加降低特征维度，将循环神经网络提取到的媒体数据的描述单词特征与自注意力机制提取到的重要特征结合在一起输入进公共语义空间学习模块。

在本技术方案中，两个网络同时提取了四种媒体数据的低层次特征之后，将它们全部输入进公共语义空间学习模块，在这个空间中的数据特征弥合了四种媒体数据的异质性差异，只分别提取出它们的高层次语义特征，这些特征与媒体类别无关，从而可以对这些特征进行相似性度量，为了验证该空间的特征与媒体类型无关，将公共语义空间学习模块的特征输入进媒体判别器让其分辨。

为了更好地实现本发明，进一步地，步骤S2还包括：

在公共语义空间学习模块中设置媒体数据类型的不区分规则和媒体数据类型的区别语义规则；

在公共语义空间学习模块中整合媒体数据基于细粒度划分的异质性差异，并分别提取出媒体数据的高层次语义特征，获取语义特征A1。

在本技术方案中，生成器的目的是为了生成让媒体判别器辨别不出来的特征，而媒体判别器是为了尽可能地分辨出生成器生成的特征属于哪一种媒体类型。生成器和媒体判别器进行对抗学习，当媒体判别器不能够分辨出该空间的特征属于何种媒体类型时，就认定公共特征空间学习完成。

为了更好地实现本发明，进一步地，步骤S3包括：

根据全连接层设置媒体判别器；

根据交叉熵损失函数、非线性函数、媒体类型标签和输入的媒体类型对媒体判别器的分类损失进行定义；

根据媒体判别器的分类损失验证公共语义空间学习模块中的特征是否与媒体类型的特征无关。

在本技术方案中，为了和生成器进行对抗训练，还构造了一个媒体判别器以验证公共表示空间中的特征是否与媒体类型的特征无关。

为了更好地实现本发明，进一步地，步骤S4包括：

在对抗学习中，媒体判别器根据最大最小博弈规则对媒体类型进行分辨，当媒体判别器不能够分辨出公共语义空间学习模块的特征属于何种媒体类型时，判定公共特征空间的对抗学习完成，得到训练后的语义特征A2。

在本技术方案中，媒体判别器和生成器对抗训练时，在最小化生成器的损失的同时，最大化媒体判别器的损失来获得此算法的最优模型。

为了更好地实现本发明，进一步地，步骤S5中的相似性度量包括：

将语义特征A2与公共语义空间学习模块中的语义特征A1作余弦值的相似性度量。

在本技术方案中，将生成的特征与搜索库中的特征作余弦值的相似性度量，便可以检索到与其语义相似的数据。

为了更好地实现本发明，进一步地，约束条件包括：

根据分类约束条件学习媒体数据的细粒度语义特征。

在本技术方案中，分类约束条件是指为了使公共特征空间的特征能够充分学习到各种媒体类型的语义特征。

为了更好地实现本发明，进一步地，距离约束条件包括：

根据距离约束条件确定媒体数据的语义特征的相似度。

在本技术方案中，距离约束条件是由于不同媒体数据的特征之间存在异质性差距，为了缩小这样的差距，在学习到了公共语义空间学习模块之后，对于该空间的特征使用距离约束来缩小不同媒体相同子类别的样本之间的特征，即使用距离约束条件缩小类内差距。

为了更好地实现本发明，进一步地，排序约束条件包括：

根据排序约束条件预测输入的媒体数据的样本之间的相对距离。

在本技术方案中，根据排序约束条件预测输入媒体数据样本之间的相对距离确保相同子类的媒体数据的样本特征的紧密性，不同子类的媒体数据样本特征的稀疏性

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明用于学习细粒度子类别之间的细小差距、缩小跨媒体数据之间的异质性差异、保证分类准确率的同时，使得同一类别标签下不同媒体数据的特征尽可能相似。

（2）本发明针对文本数据的序列特性容易被遗漏或者混淆的特性以及跨媒体之间存在的异质性差距的特性，借助基于自注意力机制的长短期记忆网络准确地找到目标物体的描述语句。

（3）本发明使用基于自注意力机制的卷积神经网络和局部注意区域学习跨媒体数据的细粒度特征，借助生成对抗网络学习四种媒体类型的公共语义空间。

（4）本发明在多个复杂且具有挑战性的数据集上的实验充分验证了基于自注意力机制对于提取细粒度特征的有效性。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法的流程图。

图2是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中基于自注意力机制的文本特征提取算法的示意图。

图3是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中基于自注意力机制的卷积神经网络的示意图。

图4是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中多种方法在PKU FG-XMedia数据集上的双媒体检索对比图。

图5是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中PKU FG-XMedia实验数据集上的多媒体检索对比图。

图6是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中PKU Xmedia数据集上的双媒体检索对比图。

图7是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中PKU Xmedia实验数据集上的多媒体检索对比图。

图8是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中维基百科数据集上的双媒体检索对比图。

图9是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中NUS-WIDE数据集上的双媒体检索对比图。

图10是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中双媒体任务中每个约束条件的影响示意图。

图11是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中多媒体任务中每个约束条件的影响示意图。

图12是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中双媒体模式下算法中每个模块的影响示意图。

图13是本发明所提供的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法中多媒体任务中每个模块的影响示意图。

具体实施方式

实施例1：

本实施例的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，如图1所示，使用特征提取器提取图像数据、视频数据和音频数据特征的卷积神经网络，使用特征提取器提取文本数据的循环神经网络。

本实施例提出一种基于自注意力机制和生成对抗网络的细粒度跨媒体检索方法，针对文本数据的序列特性容易被遗漏或者混淆的特性以及跨媒体之间存在的异质性差距的特性，借助基于自注意力机制的长短期记忆网络准确地找到目标物体的描述语句；再使用基于自注意力机制的卷积神经网络和局部注意区域学习跨媒体数据的细粒度特征，接着借助生成对抗网络学习四种媒体类型的公共语义空间学习模块。多个复杂且具有挑战性的数据集上的实验充分验证了基于自注意力机制对于提取细粒度特征的有效性。步骤S1使用两个基于自注意力机制的特征提取器，一个是用来提取图像、视频、音频特征的卷积神经网络，另外一个是用来提取文本数据的循环神经网络。步骤S2将它们全部输入进公共语义空间学习模块，只分别提取出它们的与媒体类别无关的高层次语义特征，从而对这些特征进行相似性度量。步骤S3将公共语义空间学习模块，的特征输入进媒体判别器让其分辨，来验证该空间的特征与媒体类型无关。步骤S4用生成器和媒体判别器进行对抗学习。步骤S5将生成的特征与公共语义空间学习模块中的特征作余弦值的相似性度量，便可以检索到与其语义相似的数据。

本实施例共同考虑了三个约束条件，以更好地学习公共语义空间学习模块：（1）分类约束条件：学习各种媒体类型的细粒度语义特征；（2）距离约束条件：确保类内样本特征尽量靠近，即当样本属于同一种物种子类别，但是不属于同一个媒体种类时，样本的特征能够尽量相似；（3）排序约束：预测输入样本之间的相对距离，确保相同子类样本特征的能够更加靠近，不同子类样本的特征具有稀疏性。

实施例2：

本实施例在实施例1的基础上做进一步优化，在本实施例中，在实施例1中说明了生成器由两个基于自注意力机制的特征提取器组成，媒体数据包括图像数据、视频数据、音频特征数据和文本数据，所以这两个特征提取器一个是用来提取图像、视频、音频特征的卷积神经网络，还有一个是用来提取文本数据的循环神经网络。其中，基于自注意力机制的卷积神经网络能够精确定位目标的某些特定部分，比如一只鸟的眼睛或者喙等，从而学习到子类别之间的细粒度特征并对他们加以区分。基于自注意力机制的循环神经网络能够将自注意力机制对于获取重要特征的准确性和循环神经网络对于序列数据的把控性相结合，在众多描述单词中找到最重要的特征。在本实施例中运用了基于自注意力机制的文本特征提取算法的循环神经网络和基于自注意力机制的卷积神经网络。

基于自注意力机制的文本特征提取算法是使用一个循环神经网络来更好地解析文本数据的时序关系，将循环神经网络提取到的序列特征与自注意力机制提取的重要特征结合在一起，可以更好地提取文本特征。

如图2所示，该算法由文本、字符嵌入、长期记忆网络和自注意力机制实现，自注意力机制包括自注意力权重和嵌入式文本矩阵。

基于自注意力机制的文本特征提取算法如下：

给定一个含有n个单词的句子，则该句子的词嵌入矩阵E表示为：

；

其中，

代表该句子的第i个单词的词嵌入表示向量。E是一个大小为n×媒体判别器的矩阵，包含了n个单词的词嵌入向量。由于E中的每个词向量都有依赖关系，于是采用一个双向的卷积神经网络（LSTM）来获取一个句子中的相邻单词之间的依赖关系。

假设双向的卷积神经网络（LSTM）的隐藏层的大小为u，则隐藏层的输出数据

可以表示为：

H是双向LSTM的所有的隐藏层输出结果的集合，表示为：

；

所以H的大小是n×2u。

由于本实施例所使用细粒度特征需要更复杂的语义信息来表示，描述文本中包含较多的单词，因此输入双向的卷积神经网络（LSTM）的序列数据长度较长。为了保证双向的卷积神经网络（LSTM）中的长短期记忆不会消失或者混淆，本实施例希望用更高维度的特征向量来表征每个字符，这导致了后续线性层在降低特征维度时需要更多网络深度及参数，从而难以快速收敛。因此本实施例在权重特征提取之前先行采用线性叠加（avera生成器 esum）来降低特征维度。维度降低后用

表示，大小为n×u。

自注意力机制旨在学习一个权重矩阵，该权重矩阵可以将句子中和目标有关的单词权重增加，与目标无关的单词权重减轻，也就是说让最后提取出来的特征更集中于特定的区域。自注意力机制将整个卷积神经网络（LSTM）隐藏状态

作为输入，然后输出权重矩阵M，M表示如下：

；

这里

是一个维度为

的权重矩阵，

是一个大小为

×u的矩阵参数，其中

是一个可以设置为任意值的超参数。生成器(x)是可以按照需求更改的激活函数。因为

的大小是n×u，M的大小是n。

将卷积神经网络（LSTM）的隐藏状态

与权重矩阵M相乘可以得到嵌入式文本矩阵L，将其表示为：

；

L便是经由文本处理通道得到的文本数据的低层次特征。之后再经由几个全连接层调整其维度与其他三种媒体类型的特征一致，将其表示为

。

如图3所示，由于自注意力机制能够精准定位目标中具有辨识度的部分，此处采用基于自注意力机制的卷积神经网络来提取图像数据、视频数据和音频数据数据的特征。在得到具有辨识度的局部注意力区域之后，将其进行裁剪放大之后再次输入进网络进行细粒度局部区域的学习。

由于该网络对于图像数据、视频数据和音频数据的处理操作相同，以下均以图像作为输入进行讲解，具体步骤如下：

对于给定的图像数据

，将其输入进卷积神经网络特征提取，提取到的特征映射

表示为：

；

其中，

是此卷积神经网络的参数。接着将

经过一个1×1的卷积层得到局部注意力区域

，将其表示为：

；

其中，

为1×1的卷积层的参数，

为此映射函数，

由

可知，

是经过

降维得到，降维之后通道数为

。据Hu所说，

的每一个通道均代表物体的某个部分，例如：鸟的眼睛、车的车轮、房屋的屋檐等。在得到

和

之后，使用基于自注意力的池化层将两者相结合，即将

与

的每个通道数据按元素相乘，具体的示意图如图3所示，计算过程如下：

，然后将所有的

经过池化和降维以及拼接操作获得最后的特征矩阵

，这也是后来公共特征空间的输入。

为了让网络学习到细粒度的特征，本实施例将

得到的局部注意力区域进行裁剪放大，而后再次输入进图3中的卷积神经网络，在经过公共特征学习模块和分类器之后对其进行类别预测。

为了避免背景干扰，本实施例随机选取

（n=1，2，…，k）中任意一张局部注意力区域

来学习细粒度特征。首先对其进行归一化处理，得到的归一化结果

为：

；

图3中的裁剪掩码

可以由下式得到：

；

从上式可以看出，当该点的值大于某个阈值Tc时，则为1，反之为0。其中，Tc∈[0, 1]。然后找出最小的包围框将所有的“1”框注出来，可以得到局部注意力裁剪图，将其放大至原输入数据大小，最终得到的局部注意力放大图为

。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在实施例1的基础上做进一步优化，在本实施例中，两个网络同时提取了四种媒体数据的低层次特征之后，将它们全部输入进公共语义空间学习模块，在这个空间中的数据特征弥合了四种媒体数据的异质性差异，只分别提取出它们的高层次语义特征，这些特征与媒体类别无关，从而可以对这些特征进行相似性度量，为了验证该空间的特征与媒体类型无关，将公共语义空间学习模块的特征输入进媒体判别器让其分辨。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例4：

本实施例在实施例1的基础上做进一步优化，生成器的目的是为了生成让媒体判别器辨别不出来的特征，而媒体判别器是为了尽可能地分辨出生成器生成的特征属于哪一种媒体类型。生成器和媒体判别器进行对抗学习，当媒体判别器不能够分辨出该空间的特征属于何种媒体类型时，就认定公共特征空间学习完成。与传统的单一媒体检索不同，本实施例所研究的细粒度跨媒体检索任务存在异质性差异。为弥合不同媒体之间存在的异质性差异，需要进行公共语义空间学习模块学习，在这个空间中可以将包含相同语义信息的样本表示为相似的“特征”。由于不同媒体之间的异质性差距可能很大，将跨媒体表示域集中到一个统一的表示域是一项挑战。因此，本实施例在生成器和媒体判别器之间构建了对抗训练机制，以驱动公共语义空间学习模块的学习。生成器用来生成语义表示，并使这些语义表示独立于媒体类型的类型，而媒体判别器试图区分语义表示的媒体类型。这两个主要部分通过对抗来引导公共表示空间的学习，从而有效地增强了跨媒体语义的一致性并提高了检索准确性。

跨媒体类型的公共语义空间学习模块中的特征应该同时具有三个属性：（1）语义上有所区别，这样可以有效地增强不同媒体类型数据的语义一致性。（2）媒体类型上不加以区分，这样可以有效地缩小异质性差异，即媒体鸿沟。媒体判别器在区分生成器生成的“特征”的媒体类型，而特征生成器生成的“特征”则缩小了不同媒体类型之间的表示差异，以混淆媒体判别器，也是二者的学习对抗训练过程。（3）相似性度量原则，公共语义空间学习模块是能够进行相似性度量的。

生成器以

作为输入，可以同时学习四种媒体数据的特征。处理文本的网络提取出来的文本低层次特征表示为：

；

图像数据、视频数据和音频数据经过了基于自注意力机制的卷积神经网络，提取出来的三种媒体类型的特征

表示如下：

；

同时从基于自注意力机制的卷积神经网络中还得到了三种媒体类型数据的局部注意力放大图

。为了能够学习到细粒度子类别之间具有辨识度的局部特征，此处将得到的

也输入进卷积神经网络进行训练，得到的特征

如下：

；

因为特征

和

通常具有不一致的分布，因此无法将它们直接进行比较。为了使不同媒体类型的样本特征具有可比性，在特征提取器之后添加一个公共语义空间学习模块。公共语义空间学习模块由多层全连接层和激励函数组成一个非线性映射，该投影函数由

表示。公共语义空间学习模块旨在找到一个公共子空间

，在公共子空间

中，提取到的四种媒体类型的特征将表示成：

；此处

是映射函数

的参数。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例5：

本实施例在实施例1的基础上做进一步优化，在本实施例中为了和生成器进行对抗训练，还构造了一个媒体判别器以验证公共表示空间中的特征是否与媒体类型的特征无关。媒体判别器由多个全连接层构成，旨在区分生成器中公共语义空间学习模块的特征属于哪种媒体类型。以

作为生成器的输入，将此媒体判别器的分类损失定义为：

；

其中，

为交叉熵损失函数，

是参数为

的非线性函数，用来预测

、

、

和

分别属于哪一种媒体类型，

为四个输入数据的 one-hot媒体类型标签。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例6：

本实施例在实施例1的基础上做进一步优化，在本实施例中媒体判别器和生成器对抗训练时，在最小化生成器的损失的同时，最大化媒体判别器的损失来获得此算法的最优模型，此过程也被称为最小最大博弈规则。在上述理论的基础上，就可以将一些参数分配到每个损失函数里面并且将对抗阶段的损失函数

定义为：

；

其中，

是训练阶段正损失函数和负损失函数之间平衡参数，是一个正值。

是处理图像、视频和音频的特征提取器的参数，

是处理文本数据的特征提取器的参数，

是公共语义空间学习模块的参数。由于这两个损失函数的优化目标相反，因此两个并发子过程的对抗过程可以定义为：

；

；

其中，参数

将

最小化，而参数

使

最大化，这就是此模型的对抗训练过程。目标是寻找

和

以达到

的鞍点。在此鞍点处，

可以让

最小，而

可以让

最大。在这两个公式的基础上，参数的更新过程如下所示：

；

；

；

；

其中，

是学习率。上述公式的参数更新可以通过随机梯度下降（Stochastic Gradient Descent，SGD）算法实现。Pytorch框架可以很方便地实现随机梯度下降（Stochastic Gradient Descent，SGD）算法，它可以自动计算梯度并更新参数。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例7：

本实施例在实施例1的基础上做进一步优化，在本实施例中将生成的特征与搜索库中的特征作余弦值的相似性度量，便可以检索到与其语义相似的数据。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例8：

本实施例在实施例1的基础上做进一步优化，分类约束条件是指为了使公共特征空间的特征能够充分学习到各种媒体类型的语义特征。在公共语义空间学习模块的最后一个全连接层会接一个

函数作为一个分类器，最终会输出一组概率值，从此概率值可以判断公共语义空间学习模块将该样本预测为哪一类。经过分类器之后，

和

表示成

。另外，此处将上述得到的注意力放大图在公共特征空间的特征

输入分类器，得到对应的结果，然后将其与原图的特征

以各一半的权重结合为

，从而判断其所属类别，定义分类损失

如下：

；

其中，

分别表示原始图像、视频、音频和文本特征，

和

分别表示注意力放大图的特征，以上都是最后一个全连接层的输出数据。

为交叉熵损失函数，

为数据集的子类别数，定义

如下：

。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例9：

本实施例在实施例1的基础上做进一步优化，距离约束条件是由于不同媒体数据的特征之间存在异质性差距，为了缩小这样的差距，在学习到了公共语义空间学习模块之后，对于该空间的特征使用距离约束来缩小不同媒体相同子类别的样本之间的特征，即缩小类内差距。为了方便表达，此处仅以两种方式（图像和视频）为例，图像和视频的样本特征之间的距离公式如

所示：

；

每两种媒体之间会计算一个

，最后将这6个距离相加得到

，公式如下所示。

越小，则不同媒体类型的子物种类内差距越小。

。距离损失旨在最小化子类别内方差。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例10：

本实施例在实施例1的基础上做进一步优化，

排序约束条件应用的排序损失可以扩大不同细粒度子类别特征之间的距离。其定义如下：

；

在上式中，

和

是两个属于相同子类别的样本，而

和

分别来自两个子类别。例如，

和

是同属于“黑脚信天翁”图像数据和视频数据，

是“黑背信天翁”的一个样本，

是属于“灰背信天翁”的样本。值得注意的是，这些设置和媒体类型无关，也就是说

和

的位置可以是任何媒体类型的样本。然后使用

描述方差，该方差由欧几里得距离度量。

和

表示边界阈值，本实施例中将其设置为1和0.5。

本实施例的其他部分与实施例1相同，故不再赘述。

此外，基于上述实施例，本发明选用实验运行环境为linux4.15.0、GeForceRTX2080Ti和CUDA10.2，实验语言为Python3.6进行了如下操作：

首先进行数据集处理：为了规范化数据集，本发明做了如下操作：对于图像，将其大小调整为448×448，对于文本：遵循Conneau将其转换成一个n×d的矩阵，d是符号嵌入维度，本发明取值为100。另外将所有的文本语句长度固定成448个字符，所以每段文本的矩阵大小是448×100。如果语句的字符数量不足448，就在行上面补充0；如果字符长度超过了448，就在第448个字符处裁剪掉后面的字符。因为文本数据集中每一段文本描述文本中的字符数都没有超过448，所以不会有信息丢失。对于每个视频数据，等间隔地从中提取出25帧图像作为视频数据。原数据集中的音频数据已经用短时傅里叶变换处理过，现音频以语谱图呈现。

其次进行算法细节处理：首先将四种媒体类型的实例样本同时输入进生成器，图像、视频和音频数据直接同时输入进同一个基于自注意力机制的卷积神经网络，本发明中使用到的特征提取器是ResNet50网络。检索阶段与训练阶段不同，训练时，为了防止过拟合，随机抽取一个注意力区域裁剪为局部注意力放大图来辅助训练，但是在检索阶段，为了检索结果的稳定性，此处将所有的注意力区域相加平均之后再输入网络。为了获得更好的性能，对其进行了一些修改：输入数据大小是448×448，在ResNet50的最后一个卷积层后面再接一个内核大小为14、步长为1的平均池化层。此处需要说明的是，ResNet50可以被替换成任何其他的有效的卷积神经网络，例如Alex Net和VGG Net。文本数据输入进基于自注意力机制的循环神经网络网络。为了更好的学习文本的序列特征，采用的循环神经网络网络是双向卷积神经网络，隐藏层的维度为2048。经过了两个特征提取网络之后，提取到的低层次特征会一起输入公共语义学习模块。在三个约束条件和媒体判别器的共同作用下得到公共语义空间学习模块。在训练阶段，学习率从0.001开始，每三个epoch降低0.5倍，1个epoch等于使用训练集中的全部样本训练一次。检索时，将框架的最后一个全连接层的输出作为四种媒体类型的公共语义表示形式。然后采用第二章介绍的余弦距离来衡量不同媒体数据之间的相似度，最后根据此相似性返回检索结果。

最后进行检索任务设置：为了证明本算法的有效性，以下两个任务会用来评估不同方法的细粒度跨媒体检索性能，即双媒体细粒度跨媒体检索和多媒体细粒度跨媒体检索。双媒体细粒度跨媒体检索：查询是任何一种媒体类型的实例，而检索结果是另一种媒体类型的实例。例如，如果查询是“加州海鸥”的图像，则结果可以是“加州海鸥”的文本实例，表示为“I→T”，所以双媒体细粒度跨媒体检索任务共有12个，分别是“I→T”，“I→V”，“I→A”，“T→I”，“T→V”，“T→A”，“V→I”，“V→T”，“V→A”，“A→I”，“A→T”和“A→V”。多媒体细粒度跨媒体检索：查询是任何媒体类型的一个实例，而检索结果是所有媒体类型的数据。例如，如果查询是“加州海鸥”的图像，则结果将是图像，视频、音频和文本类型的“加州海鸥”的数据，表示为“I→all”，所以多媒体细粒度跨媒体检索总共有4个任务，分别为“I→all”，“T→all”，“V→all”和“A→all”。

通过上述操作进行结果分析：首先是对PKUFG-XMedia数据集（细粒度跨媒体数据集）的分析，在数据集上，CFFCE是基于实体级公共特征空间的细粒度跨媒体检索算法，FGCN是反馈图卷积网络算法，

MHTN是模态对抗混合传输网络算法，如图4所示，横列是各种跨媒体检索算法，如MHTH检索算法、ACMR是基于对抗训练的跨模态搜索检索算法、JRL检索算法、GSPH检索算法、CMDN检索算法、SCAN检索算法、GXN检索算法，竖列的I、V、A、T分别代表图像视频音频文本特征。

如图4所示，表示了多种方法在PKU FG-XMedia数据集上的双媒体检索对比结果；如图5所示，可以看到PKU FG-XMedia实验数据集上的多媒体检索对比结果。从图4可以看出，本方法提在12种双媒体检索任务中表现出来的性能均显著优于一般的跨媒体检索方法和最近所提出的细粒度跨媒体检索算法FG Cross Net。尤其在与本方法有关的任务中，本方法的均值平均精度得分比FG Cross Net的得分高出约12个百分点。因为FG Cross Net采用同一个卷积神经网络来同时提取四种媒体数据的特征，丢失了文本的序列特性。而本发明使用基于自注意力机制的文本特征提取分支来保留文本单词之间的序列特性并采用自注意力机制加大与目标有关信息的权重，从而可以更好地提取文本特征。因此在所有与文本相关的检索任务中，本发明方法的均值平均精度得分大大超过了FG Cross Net和其他跨媒体检索算法。图5显示了多媒体细粒度跨媒体检索模式下的均值平均精度得分，其变化趋势与双媒体检索相同。从上述表可知，无论是双媒体检索的12个任务还是多媒体检索的4个任务，本发明算法皆取得最高的性能，主要是因为：1）构建了生成对抗网络，以学习所有四种媒体数据的公共语义空间学习模块，从而可以减少不同媒体之间的异质性差距。2）构造了一个基于自注意力机制的文本特征提取分支来捕获文本的序列特征，该特征可以让学习过程集中于文本数据中更重要的组成部分。

如图6和图7所示，展示了不同算法在PKUXmedia数据集上的实验均值平均精度得分，由于SCAN和GXN是早期提出的跨媒体检索方法，并且由于篇幅限制，此后的实验不显示这两种方法的检索性能。从以下图表中可以看出，在此非细粒度的数据集上，本发明所提算法的性能依旧维持最佳。不同于细粒度数据集，粗粒度数据集中的不同类别数据之间差异较大。以图像为例，粗粒度数据集中的鸟类和虫类的整体视觉外观差异巨大，而细粒度数据集中同属于鸟类的“灰背信天翁”和“黑脚信天翁”的区别仅仅在于背和脚的颜色。因此，SAGA网络能更好地学习粗粒度子类的特征。从以下的图表可以清晰看出，所提出的算法在12个双媒体检索任务上均优于其他所有跨媒体检索算法。并且对于效果最好的FG CrossNet方法，本发明算法执行的所有任务的性能均有所提高。实验结果表明，生成对抗网络模型在学习公共语义空间的有效性。

如图8所示，展示了不同算法在维基百科数据集上进行实验的均值平均精度得分。和PKUXmedia一样，维基百科也是用于粗粒度检索的数据集。由于维基百科数据集只有图像和文本数据，因此只在此数据集上进行了“I→T”和“T→I”两种检索任务。该实验结果也表明了使用生成对抗网络模型构建公共语义空间的有效性以及自注意力机制在文本特征提取时的有效性。

如图9所示，展示了在NUS-WIDE数据集上不同算法的检索均值平均精度得分。NUS-WIDE也是粗粒度数据集，可以看出SAGA算法仍然保持最高的检索性能。说明SAGA不仅能够精确地检索用户所需信息，还能尽可能地返回更多的有效数据以满足用户需求。

为了验证算法中每个约束条件的影响，本发明进行了消融实验。实验数据集采用的是PKUFG-Xmedia，如图10和图11所示，实验结果显示在图10和图11中。从图10和图11中可以观察到：“分类约束”用来训练本发明的框架，在12种双媒体检索任务和4种多媒体检索任务中，该方法的检索性能相对较低。这表明分类约束可以在语义类别的帮助下学习细粒度子类别的特征，但是效果不佳。“+距离约束”表示在分类约束的基础上再加上距离约束。与双媒体模式下平均mAP只有0.41的分类约束相比，此项提高了3.4%，在多媒体模式下提高了4.1%，因此具有更好的检索性能。这是因为该距离约束尽量拉拢同一子类别的特征使具有相同语义的特征更加靠近。“+排序约束”表示在分类约束和距离约束的基础上再加上排序约束。可以看到，加上排序约束之后，其性能均达到最佳。双媒体检索模式下的检索性能提高了1.9%，多媒体检索模式下提高了3.5%，排序约束将不同子类别的特征尽量分离，这也有效地提高了检索性能。

如图12和图13所示，新提出的细粒度跨媒体检索算法有两个新的子模块：基于自注意力机制的文本特征提取算法和生成对抗网络。每个子模块的性能都应该进行评估。图12和图13以递增的方式展示了两种检索模式下不同子模块组合的均值平均精度得分，图12和图13中的第二行展示了不包含两种模块的基本框架的检索性能。第三行展示了当使用基于自注意力机制的文本特征提取算法替换原先的文本处理分支时的均值平均精度得分。可以看出，在添加了此分支之后，所有检索任务的性能都有了明显的提高。第四行展示了构建生成对抗结构之后的均值平均精度得分。与仅使用基于自注意力机制的文本特征提取器的结果相比，它在很大程度上提高了检索性能。总之，新提出的每个子模块都有其作用和优势，并且将所有子模块结合在一起可以带来最佳的检索性能。可见，当所有模块结合时检索性能最佳。

以上，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，其特征在于，包括以下步骤：步骤S1.根据生成器中基于自注意力机制的特征提取器提取媒体数据的卷积神经网络和循环神经网络；所述媒体数据包括图像数据、视频数据、音频特征数据和文本数据；根据图像数据、视频数据和音频特征数据的卷积神经网络获取定位目标的指定部分；根据文本数据的循环神经网络获取定位目标的描述单词特征；步骤S2.预设公共语义空间学习模块，将卷积神经网络和循环神经网络输入进公共语义空间学习模块，在公共语义空间学习模块中提取与媒体数据类别无关的语义特征A1；在公共语义空间学习模块中设置媒体数据类型的不区分规则和媒体数据类型的区别语义规则和相似性度量规则；在公共语义空间学习模块中整合媒体数据基于细粒度划分的异质性差异，并分别提取出媒体数据的高层次语义特征，获取语义特征A1；在卷积神经网络中随机选取注意力区域中任意一张局部注意力区域，对其进行剪裁和放大后将其输入进公共语义空间学习模块；对于给定的图像数据

，将其输入进卷积神经网络特征提取，提取到的特征映射

表示为：

，其中，

是此卷积神经网络的参数；接着将

经过一个1×1的卷积层得到局部注意力区域

，将其表示为：

，其中，

为1×1的卷积层的参数，

为此映射函数，

由

可知，

是经过

降维得到，降维之后通道数为k；

在得到

和

之后，使用基于自注意力的池化层将两者相结合，即将

与

的每个通道数据按元素相乘，计算过程如下：

，然后将所有的

经过池化和降维以及拼接操作获得最后的特征矩阵

；在循环神经网络中通过线性叠加降低特征维度，将循环神经网络提取到的媒体数据的描述单词特征与自注意力机制提取到的重要特征结合在一起输入进公共语义空间学习模块；步骤S3.预设媒体判别器，将公共语义空间学习模块中的语义特征A1输入进媒体判别器，根据媒体判别器验证语义特征A1和媒体数据类别是否有关，如果是，返回步骤S2，如果否，进入步骤S4；步骤S4.将生成器和媒体判别器进行对抗学习，对语义特征A1进行对抗性训练，得到训练后的语义特征A2；步骤S5.将语义特征A2与公共语义空间学习模块中的语义特征A1进行相似性度量，根据度量的结果检索其对应的数据；将语义特征A2与公共语义空间学习模块中的语义特征A1作余弦值的相似性度量；预设基于细粒度的分类约束条件、距离约束条件和排序约束条件，上述步骤S1-步骤S5遵循所述约束条件；根据分类约束条件学习媒体数据的细粒度语义特征；根据距离约束条件确定媒体数据的语义特征的相似度；根据排序约束条件预测输入的媒体数据的样本之间的相对距离。

2.根据权利要求1所述的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，其特征在于，所述步骤S3包括：根据全连接层设置媒体判别器；根据交叉熵损失函数、非线性函数、媒体类型标签和输入的媒体类型对媒体判别器的分类损失进行定义；根据媒体判别器的分类损失验证公共语义空间学习模块中的特征是否与媒体类型的特征无关。

3.根据权利要求1所述的一种基于自注意力和生成对抗网络的细粒度跨媒体检索方法，其特征在于，所述步骤S4包括：在对抗学习中，媒体判别器根据最大最小博弈规则对媒体类型进行分辨，当媒体判别器不能够分辨出公共语义空间学习模块的特征属于何种媒体类型时，判定公共特征空间的对抗学习完成，得到训练后的语义特征A2。