CN113792167B

CN113792167B - 一种基于注意力机制和模态依赖的跨媒体交叉检索方法

Info

Publication number: CN113792167B
Application number: CN202111334294.8A
Authority: CN
Inventors: 姚亚洲; 孙泽人; 陈涛; 张传一; 沈复民
Original assignee: Nanjing Code Geek Technology Co ltd
Current assignee: Nanjing Code Geek Technology Co ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-02-15
Anticipated expiration: 2041-11-11
Also published as: CN113792167A

Abstract

本发明涉及跨媒体检索技术技术领域，公开了一种基于注意力机制和模态依赖的跨媒体交叉检索方法，包括以下步骤：步骤S1.根据提取器获取媒体类型数据，媒体类型数据包括文本数据、图像数据、音频数据和视频数据；步骤S2.基于文本卷积网络、图像卷积网络、三元组损失函数、判别损失函数和分类损失函数对文本数据和图像数据创建图像文本网络；步骤S3.基于注意力机制、交叉熵损失函数、中心损失函数、四元组损失函数和分布损失函数对图像数据、音频数据和视频数据创建图像音频网络；步骤S4.对图像文本网络和图像音频网络训练后进行跨媒体交叉检索。本发明通过注意力机制与模态依赖进行细粒度跨媒体检索。

Description

一种基于注意力机制和模态依赖的跨媒体交叉检索方法

技术领域

本发明涉及跨媒体检索技术领域，具体地说，是一种基于注意力机制和模态依赖的跨媒体交叉检索方法，用于保留图像文本语义特征的同时消除语义鸿沟并学习三种媒体特征，能够提升四种媒体相互检索的性能。

背景技术

近年来，随着多媒体数据的快速增长，丰富多元的数据充斥着人们的生活，图像、文本、音频和视频等多媒体数据已经成为了人们认识世界的主要方式。海量的多媒体数据之间的相关性在不断提高，同时用户对多媒体数据的检索需求也变得非常灵活，不仅需要满足于单一类型数据的检索，还需要能够从海量的数据中快速精准地检索出自己感兴趣的数据。因此，细粒度跨媒体检索的研究应用广泛，在信息检索方面，丰富了用户获取信息的多样性，同时提高了用户获取信息的效率。在模式识别、人机交互方面，使人和机器之间交流和互动更加的方便和快捷。在教育、医学航空等领域，机器可以通过跨媒体检索去教授人学习不同细粒度物体的图像音频等特征。

现有的传统方法往往是通过标签信息学习媒体间和媒体内的关系，从而进行细粒度跨媒体检索。这种方法所存在很多缺陷：

1、媒体鸿沟问题，不同媒体类型的数据样本的特征表示差别巨大，因此直接度量它们之间的相似性是一个非常困难的问题。

2、语义鸿沟问题，计算机的特征表示与人们理解的不一致的问题，从而导致低层特征和高层语义之间的差异。

3、细粒度级别导致的类间差异小、类内差异大的问题会导致跨媒体检索的性能不高。

4、文本和音频、视频之间的检索与文本和图像之间的检索相比，准确率更低。这是由于文本和音频、视频之间的相关性比较低所导致的。当检索的媒体类型较多时，将不同媒体的特征映射到一个公共空间中可能会损失媒体特征的一些信息。为了解决上述问题，亟需一种技术方案，能够通过注意力机制与模态依赖进行细粒度跨媒体检索。

发明内容

本发明的目的在于提供一种基于注意力机制和模态依赖的跨媒体交叉检索方法，实现通过注意力机制与模态依赖进行细粒度跨媒体检索的功能，可以保留原始语义特征、消除媒体鸿沟、提升检索性能。

本发明通过下述技术方案实现：一种基于注意力机制和模态依赖的跨媒体交叉检索方法，包括以下步骤：

步骤S1.根据提取器获取媒体类型数据，媒体类型数据包括文本数据、图像数据、音频数据和视频数据；

步骤S2.基于文本卷积网络、图像卷积网络、三元组损失函数、判别损失函数和分类损失函数对文本数据和图像数据创建图像文本网络；

步骤S3.基于注意力机制、交叉熵损失函数、中心损失函数、四元组损失函数和分布损失函数对图像数据、音频数据和视频数据创建图像音频网络；

步骤S4.对图像文本网络和图像音频网络训练后进行跨媒体交叉检索。

在本技术方案中，以图像数据作为中间媒介，分别设计了图像文本网络和图像音视频网络，并基于这两个网络进行跨媒体检索。另提出了基于关键帧的视频去噪方法，通过对视频数据集中的数据进行样本选择从而获得干净的数据集。同时针对不同的跨媒体检索任务，在细粒度级别和粗粒度级别的数据集上进行了大量的对比实验，充分验证了所提方法的有效性。

为了更好地实现本发明，进一步地，步骤S2中的文本卷积网络包括句子分类卷积神经网络。

本技术方案提出了一种注意力机制与模态依赖的细粒度跨媒体检索方法。首先为图像和文本设计了一个深度监督网络，在保留图像文本语义特征的同时消除媒体鸿沟。其次为图像、音频和视频设计了一个公共网络，并针对细粒度精细特征的难以提取的问题，引入了注意力机制，从而同时学习三种媒体特征，并通过四种损失函数对网络进行优化。最后在跨媒体度量时采用图像作为中间模态，同时寻找图像和文本的公共空间以及图像和音频、视频的公共空间，深入挖掘媒体数据内和媒体数据间的潜在关联，进而在文本和音频、视频之间的检索时依赖图像模态，促进四种媒体之间的相互检索。

为了更好地实现本发明，进一步地，文本卷积网络和图像卷积网络设置方法包括：

在文本卷积网络和图像卷积网络中各选取一个子网络；

在两个子网络后端连接具有线性整流激活函数的全连接层，并对两个子网络使用端到端的训练方式进行训练；

设置全连接层的隐藏单元数；

设置两个子网络共享最后一层全连接层的权值；

根据两个子网络的输出结果获取相似的特征表示，并将媒体类型的样本特征存入公共空间模块中。

本技术方案针对文本数据，选用为句子做分类的卷积神经网络网络，并在每个子网络后连接两个具有线性整流激活函数的全连接层。

为了更好地实现本发明，进一步地，步骤S2中的图像卷积网络包括预训练后的双线性卷积神经网络。

本技术方案保证这两个子网络能够学习到图像和文本的公共空间，强制这两个子网络共享最后一层全连接层的权值，从而生成尽可能相似的特征表示。

为了更好地实现本发明，进一步地，步骤S2还包括：

根据三元组损失函数使得相同类别的媒体类型的样本特征呈正相关，不同类别的样本特征呈负相关；

根据判别损失函数对媒体类型的样本特征进行识别；

根据分类损失函数对媒体类型的样本特征进行分类。

本技术方案针对图像数据，选用预训练后的双线性卷积神经网络。

为了更好地实现本发明，进一步地，步骤S3中的添加注意力机制的方法包括：

根据SE模块获取每个媒体类型特征的重要程度，并根据重要程度的结果为每个媒体类型特征对应的每个特征通道赋予不同的权值；

根据每个特征通道被赋予的不用的权值获取媒体类型特征图；

通过压缩操作、激励操作和重标定操作对媒体类型特征图进行重标定，并添加注意力机制。

本技术方案在原网络的基础上，引入了注意力机制。本方法利用特征压缩与激发网络（Squeeze-and-Excitation Networks）提出的SE模块来添加注意力机制，SE模块通过自动学习的方式获取每个特征的重要程度，并根据重要程度的结果为每个通道赋予不同的权值，从而让网络重点关注对当前任务有效的特征，并抑制一些不重要的特征。

为了更好地实现本发明，进一步地，压缩操作的方式为：

压缩操作使用全局平均池化的方法将媒体类型特征图中的二维特征压缩为一个实数，获取特征通道的统计信息。

本技术方案通过压缩（Squeeze）操作对特征进行压缩。该操作通过全局平均池化的方法将二维特征压缩为一个实数，从而获得通道的统计信息。

为了更好地实现本发明，进一步地，激励操作的方式为：

激励操作为每个特征通道分配一个对应的权重值；

通过全连接层和非线性层学习通道间的相关性，并输出分配的权重值。

本技术方案中激励（Excitation）操作为每个特征通道分配一个对应的权重值。

为了更好地实现本发明，进一步地，重标定操作的方式为：

重标定操作对特征通道的维度进行重新标定，并在特征通道维度上引入注意力机制。

在本技术方案中，重标定（Reweight）操作，对通道维度进行重新标定。根据激励（Excitation）操作得到对应的权重值后通过乘法操作，与对应的通道原始特征相乘。

为了更好地实现本发明，进一步地，步骤S3中使用交叉熵损失函数的方法为：

通过对文本数据、图像数据、音频数据和视频数据的交叉熵损失值取对应样本的个数的均值，获取交叉熵损失函数。

在本技术方案中，通过最小化交叉熵损失函数得到词汇表单词的概率分布，并据此获得生成语句。

为了更好地实现本发明，进一步地，步骤S3中使用中心损失函数的方法为：

使用中心损失函数对媒体类型的样本所属的类别进行区分，不区分媒体类型。

在本技术方案中，中心损失函数只对样本所属类别进行区分，不区分其媒体类型。

为了更好地实现本发明，进一步地，步骤S3中使用四元组损失函数的方法为：

根据四元组损失函数对不同的媒体类型进行区分。

根据四元组损失函数来优化网络。

为了更好地实现本发明，进一步地，步骤S3中使用分布损失函数的方法为：

使用分布损失函数获取任意两种媒体类型的所有类别的分布差异之和。

在本技术方案中，分布损失函数是任意两种媒体的所有类别的分布差异之和，可以找出相同类别的两种媒体数据的样本。

为了更好地实现本发明，进一步地，步骤S4中对图像文本网络的训练方式包括：

选择优化器，通过最小化交叉熵损失函数和判别损失函数训练图像文本网络模型，对网络模型训练的参数学习率和最大周期进行设置；

根据三元组损失函数、判别损失函数和分类损失函数对图像文本网络模型进行约束，设置学习率和最大周期。

在本技术方案中，对于图像文本网络，训练分两步（1）选择Adam优化器，通过最小化交叉熵损失函数和判别损失函数训练网络；（2）在三个约束条件下微调网络。

为了更好地实现本发明，进一步地，步骤S4中对图像音频网络的训练方式包括：

预设数据集；

选用在数据集上预训练后的图像音频网络模型，并仅用图像数据对图像音频网络模型进行训练；

使用图像数据、音频数据和视频数据共同对网络模型进行训练，并使用交叉熵损失函数微调网络；

利用三个约束条件对网络进行微调，设置学习率和最大周期。

在本技术方案中，对于图像音视频网络，训练分三步，（1）选用在ImageNet 数据集上预训练后的网络模型，并仅用图像数据对网络进行训练。（2）使用图像、音频和视频数据共同对网络进行训练，并使用交叉熵损失函数微调网络。（3）利用三种约束对网络进行微调。

本发明与现有技术相比，具有以下优点及有益效果：

（1）本发明为图像和文本设计了一个深度监督网络，在保留图像文本语义特征的同时消除媒体鸿沟；

（2）本发明为图像、音频和视频设计了一个公共网络，引入了注意力机制，可以同时学习三种媒体特征并通过四种损失函数对网络进行优化；

（3）本发明采用图像作为中间模态，深入挖掘媒体数据内和媒体数据间的潜在关联，在文本、音频和视频之间检索时依赖图像模态，促进四种媒体之间的相互检索；

（4）本发明提出一种基于关键帧的视频去噪方法，通过对视频数据集中的数据进行样本选择从而获得干净的数据集。

附图说明

本发明结合下面附图和实施例做进一步说明，本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明所提供的一种注意力机制与模态依赖的细粒度跨媒体检索方法的流程图。

图2为本发明所提供的一种不同方法在细粒度跨媒体数据集（PKU FG-XMedia数据集）上的双模态细粒度跨媒体检索结果示意图。

图3为本发明所提供的不同方法在细粒度跨媒体数据集（PKU FG-XMedia数据集）上的多模态细粒度跨媒体检索结果示意图。

图4为为本发明所提供的在在Wikipedia数据集上所有算法的检索结果对比示意图。

图5为为本发明所提供的在Pascal Sentences数据集上所有算法的检索结果对比示意图。

图6为为本发明所提供的在NUS-WIDE数据集上所有算法的检索结果对比示意图。

图7为为本发明所提供的在XMedia数据集上所有算法的检索结果对比示意图。

图8为为本发明所提供的细粒度跨媒体数据集（PKU FG-XMedia数据集）去噪前后的双模态细粒度跨媒体检索结果示意图。

具体实施方式

实施例1：

本实施例的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，如图1所示，在本实施例中，提出了一种注意力机制与模态依赖的细粒度跨媒体检索方法。首先为图像和文本设计了一个深度监督网络，在保留图像文本语义特征的同时消除媒体鸿沟。其次为图像、音频和视频设计了一个公共网络，并针对细粒度精细特征的难以提取的问题，引入了注意力机制，从而同时学习三种媒体特征，并通过四种损失函数对网络进行优化。最后在跨媒体度量时采用图像作为中间模态，同时寻找图像和文本的公共空间以及图像和音频、视频的公共空间，深入挖掘媒体数据内和媒体数据间的潜在关联，进而在文本和音频、视频之间的检索时依赖图像模态，促进四种媒体之间的相互检索。

实施例2：

本实施例在实施例1的基础上做进一步优化，在本实施例中，针对文本数据，选用为句子做分类的卷积神经网络网络，并在每个子网络后连接两个具有线性整流激活函数的全连接层。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例3：

本实施例在实施例1的基础上做进一步优化，在本实施例中，由于文本和图像之间的相关程度比文本和音频、视频的相关程度更大，因此为图像和文本设计了一个网络。在每个子网络后连接两个具有线性整流（ReLU）激活函数的全连接层，隐藏单元数分别为2048和1024，且都采用端到端的训练方式。为了保证这两个子网络能够学习到图像和文本的公共空间，强制这两个子网络共享最后一层全连接层的权值，从而生成尽可能相似的特征表示。

本实施例中的图像音视频网络网络采用50层的残差网络（ResNet50）作为基础模型，经过预处理后的图像、音频和视频四种媒体数据同时经过卷积层、池化层等，并通过注意力层增强重要的特征，从而获得更精细的三种媒体的特征表示，之后通过交叉熵损失、中心损失、四元组损失和分布损失来优化网络。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例4：

本实施例在实施例1的基础上做进一步优化，在本实施例中，针对图像数据，选用预训练后的双线性卷积神经网络。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例5：

本实施例在实施例1的基础上做进一步优化，在本实施例中，通过分类损失、判别损失、三元组损失进一步学习不同媒体数据在标签空间和公共空间内的相关性，其中分类损失用于分类约束，使得网络能对标签空间内的样本信息进行分类，判别损失使得网络能对公共空间内的样本特征的进行识别，三元组损失使得相同类别的样本在公共空间中的特征尽可能相近，不同类别的样本特征尽可能相距较远。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例6：

本实施例在实施例1的基础上做进一步优化，在本实施例中，在原网络的基础上，引入了注意力机制。本方法利用特征压缩与激发网络（Squeeze-and-ExcitationNetworks）提出的SE模块来添加注意力机制，SE模块通过自动学习的方式获取每个特征的重要程度，并根据重要程度的结果为每个通道赋予不同的权值，从而让网络重点关注对当前任务有效的特征，并抑制一些不重要的特征。该网络经过卷积操作后获得宽为W、高为H、特征通道数为C的特征图，并通过压缩、激励、重标定（Squeeze、Excitation、Reweight）三个操作来对获取的特征进行重标定。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例7：

本实施例在实施例6的基础上做进一步优化，压缩（Squeeze）操作对特征进行压缩。该操作通过全局平均池化的方法将二维特征(H×W)压缩为一个实数，从而获得通道的统计信息z，其中z的第C个元素的计算公式如下：

；

其中，

指卷积层的输出表示，经过该操作，C个通道被压缩为C个一维实数，由于全局信息被压缩为一个通道描述器，所以在某种程度上，该一维实数具有全局的感受；

指输入的二维特征压缩成一维的结果。

本实施例的其他部分与实施例6相同，故不再赘述。

实施例8：

本实施例在实施例6的基础上做进一步优化，激励（Excitation）操作为每个特征通道分配一个对应的权重值。为捕捉通道之间依赖关系，该部分通过采用两个全连接层组成一个bottleneck结构，bottleneck结构是一层网络结构的瓶颈层，用bottleneck结构来实现，且其中第一个全连接层降维至1/r，r为超参数，本方法取16，第二个全连接层的个数为C，之后通过Sigmoid ，Sigmoid是激活函数的一种；获得特征通道对应的权重值s，计算公式如下：

；

其中，W1和W2为两个全连接层的参数，表示利用线性整流（ReLU）函数进行线性激活函数操作。

、

和

是公式推导的过程，这三个都代表的是特征通道对应的权重值；该操作为此模块的核心，通过全连接层和非线性层学习通道间的相关性并输出对应的权重值。

本实施例的其他部分与实施例6相同，故不再赘述。

实施例9：

本实施例在实施例6的基础上做进一步优化，重标定（Reweight）操作，对通道维度进行重新标定。根据激励（Excitation）操作得到对应的权重值后通过乘法操作，与对应的通道原始特征相乘，并获得输出

：

；

其中，

为；该操作对应

操作，

和

两个都是自定义的公式名称，代表的是重新标定的结果-即原始特征×权重值的结果；最终获得

，从而完成在通道维度上引入注意力机制的方法。

该模型通过四种损失函数来优化网络，包括交叉熵损失函数、中心损失函数、四元组损失函数和分布损失函数。总损失函数如下：

；

其中，L为总损失函数，

为交叉熵损失函数，

为中心损失函数，

为四元组损失函数，

为分布损失函数。

本实施例的其他部分与实施例6相同，故不再赘述。

实施例10：

本实施例在实施例1的基础上做进一步优化，在本实施例中，交叉熵损失函数定义如下：

;

其中N是训练样本的个数，

和

分别为图像、文本、视频、音频的交叉熵损失。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例11：

本实施例在实施例1的基础上做进一步优化,在本实施例中，中心损失函数定义如下：

；

其中

为第j个样本的特征，

为第j个样本所属类别的中心特征，中心损失函数只对样本所属类别进行区分，不区分其媒体类型。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例12：

本实施例在实施例1的基础上做进一步优化，在本实施例中，四元组损失函数定义如下：

；

其中

和

表示不同媒体类型的四个输入，其中a、p属于相同的类别，d表示L2距离，L2距离即欧式距离，是一种距离计算公式，a1、a2表示边界阈值，是用来平衡公式中的两项而人工设置的超参数，分别设置为1和0.5。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例13：

本实施例在实施例1的基础上做进一步优化，在本实施例中，分布损失函数

是任意两种媒体的所有类别的分布差异之和，该函数定义如下：

；

其中c表示类别，M表示类别总数，

为具有相同类别的两种媒体数据的样本分布

和

的最大均值差异：

。

本实施例采用双线性卷积神经网络（BCNN）作为视频数据集去噪的基础网络，该网络是细粒度分类领域中的主流网络之一。假设每个视频表示为

，其中n为25。方法步骤如下：

（1）利用图像数据集对该网络进行训练，从而获得能够对图像准确分类的网络。

（2）将原始的视频数据集输入到训练后的网络中，得到每个视频中每帧图像的预测概率

，其中c表示数据集的类别数，然后通过如下公式计算每个视频中不同类别的总概率值：

；

（3）选出概率值最大的类别作为该视频的类别。

（4）对视频中预测为该类别的视频帧按照预测概率进行排序，并从预测准确结果的每个视频图片中选择10帧作为新的视频数据集样本。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例14：

本实施例在实施例1的基础上做进一步优化，在本实施例中，对于图像文本网络，训练分两步（1）选择Adam优化器，通过最小化交叉熵损失函数和判别损失函数训练网络，学习率设置为0.001，最大周期设置为200；（2）在三个约束条件下微调网络，学习率设置为0.0001，最大周期设置为100。

本实施例的其他部分与实施例1相同，故不再赘述。

实施例15：

本实施例在实施例1的基础上做进一步优化，在本实施例中，对于图像音视频网络，训练分三步，（1）选用在ImageNet 数据集上预训练后的网络模型，并仅用图像数据对网络进行训练。（2）使用图像、音频和视频数据共同对网络进行训练，并使用交叉熵损失函数微调网络。（3）利用三种约束对网络进行微调，学习率设置为0.001，每3个周期下降0.5倍。

本实施例中的数据集是指使用细粒度级别的细粒度跨媒体数据集（PKU FG-XMedia）数据集以及粗粒度级别的维基百科图像文本数据集（Wikipedia数据集）、PascalSentences数据集、NUS-WIDE数据集和XMedia数据集。从而证明本发明所提方法对细粒度和粗粒度领域同样适用。细粒度跨媒体数据集（PKU FG-XMedia）数据集是目前细粒度跨媒体检索领域方向上唯一的数据集。包含了图像、视频、文本和音频四种媒体类型。维基百科图像文本数据集（Wikipedia数据集）、Pascal Sentence和多标签分类数据集（NUS-WIDE数据集）是目前粗粒度跨媒体检索广泛使用的数据集，包含图像、文本两种媒体类型；XMedia数据集包含图像、文本、视频、音频、3D模型5种媒体类型，拥有10万多个媒体实例。

本实施例中的评价指标是指本实例采用平均精度均值mAP评价跨媒体检索性能，并在多模态细粒度跨媒体检索和双模态细粒度跨媒体检索两种检索任务上对跨媒体检索结果进行评估。

本实施例中的对比方法是指为了验证本方法的有效性，实例将该方法与其他九种优秀的跨媒体检索算法进行了对比，对比算法包括FGCrossNet、MHTN、ACMR、JRL、GSPH、CMDN、CCA、Multimodal DBN 以及Corr-AE，这些算法都是国外已发表的论文中提出的算法名称。

本实施例的其他部分与实施例1相同，故不再赘述。

此外，基于上述实施例，本发明给出了三种验证方法，方法一为基于细粒度跨媒体检索，具体操作如下：

如图2所示，图2给出了本方法及现有方法在细粒度跨媒体数据集（PKU FG-XMedia数据集）上的双模态细粒度跨媒体检索结果，从表中可以观察到，Proposed为本文的目标算法网络，在所有双模态细粒度跨媒体检索任务中都取得了最好的检索准确率，其中文本与音视频之间的检索率相比于其他方法提升较高，从而验证了本方法的有效性。如图3所示，图3给出了本方法及现有方法在细粒度跨媒体数据集（PKU FG-XMedia数据集）上的多模态细粒度跨媒体检索结果，从结果可得，本方法超出了对比方法，获得了最高mAP值，平均检索精度提高10%左右。本方法在细粒度跨媒体数据集（PKU FG-XMedia数据集）上进行了四种检索任务（I→All，V→All，T→All，A→All）。

根据上述结果，可以观察到本方法与先进的跨媒体算法相比仍然保持较高的优势，主要有以下结论：（1）与现有的深度学习方法相比，本方法利用了不同媒体的特征和不同媒体的相关性，解决了不同媒体间的媒体鸿沟差异问题。2）对于传统方法，主要受限于以线性投影为主的框架，从而不能充分挖掘媒体间复杂的双向关系。3）对于对多种媒体共同建模的方法，取得了一定的检索效果，主要是因为这些方法充分利用了类标签信息对媒体进行联合学习，从而提供了更多的互补信息。

方法二为基于粗粒度跨媒体检索，具体操作如下：

为了验证本方法的有效性，同时在粗粒度数据集上进行了对比实验。如图4到图7所示，为本方法及现有方法分别在Wikipedia、Pascal Sentence、NUS-WIDE和XMedia数据集上的跨媒体检索结果。

根据实验结果可以观察到，在粗粒度数据集上，对于适合多种媒体场景的方法，MHTN 、FGCrossNet、JRL、ACMR及本发明所提方法等都取得了很好的效果。其中本方法与其他对比方法相比获得了有效的提升，主要原因如下：

（1）图像文本网络的共享权值进一步学习了媒体间的相关性。

（2）图像音视频网络通过同一网络同时学习三种媒体相似的特征表示。

（3）以图像作为中间媒介的跨媒体检索方法，充分利用了不同媒体间的互补信息。

上述结果验证了本方法同样适用于粗粒度跨媒体检索。

方法三为基于关键帧的视频去噪分析，具体操作如下：

为了证明去噪方法的有效性，在其他指标都保持一致的前提下，分别在去噪前和去噪后的视频数据集上进行实验比较。如图8所示的实验结果可得，视频数据集去噪后与视频相关的跨媒体检索任务都得到了明显提升，这是因为通常视频中的噪声数据会对输入数据的整体特征产生影响，造成样本偏移等情况，影响网络的泛化性能。基于关键帧的视频去噪方法通过样本选择的方法去除部分有噪声的数据并获得更具代表性的干净的数据集，从而使噪声对网络的影响降到最低。进一步提高了跨媒体检索的准确度，同时验证了该方法的有效性。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，所述方法包括以下步骤：

文本卷积网络包括句子分类卷积神经网络，图像卷积网络包括预训练后的双线性卷积神经网络；

根据判别损失函数对媒体类型的样本特征进行识别；

根据分类损失函数对媒体类型的样本特征进行分类；

添加注意力机制的方法包括根据SE模块获取每个媒体类型特征的重要程度，并根据重要程度的结果为每个媒体类型特征对应的每个特征通道赋予不同的权值；

根据每个特征通道被赋予的不同的权值获取媒体类型特征图；

通过压缩操作、激励操作和重标定操作对媒体类型特征图进行重标定，并添加注意力机制；

使用交叉熵损失函数的方法为通过对文本数据、图像数据、音频数据和视频数据的交叉熵损失值取对应样本的个数的均值，获取交叉熵损失函数；

使用中心损失函数的方法为使用中心损失函数对媒体类型的样本所属的类别进行区分，不区分媒体类型；

使用四元组损失函数的方法为根据四元组损失函数对不同的媒体类型进行区分；

使用分布损失函数的方法为使用分布损失函数获取任意两种媒体类型的所有类别的分布差异之和；

2.根据权利要求1所述的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，所述文本卷积网络和图像卷积网络设置方法包括：在文本卷积网络和图像卷积网络中各选取一个子网络；在两个子网络后端连接具有线性整流激活函数的全连接层，并对两个子网络使用端到端的训练方式进行训练；设置全连接层的隐藏单元数；设置两个子网络共享最后一层全连接层的权值；根据两个子网络的输出结果获取相似的特征表示，并将媒体类型的样本特征存入公共空间模块中。

3.根据权利要求1所述的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，所述压缩操作的方式为：压缩操作使用全局平均池化的方法将媒体类型特征图中的二维特征压缩为一个实数，获取特征通道的统计信息。

4.根据权利要求1所述的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，所述激励操作的方式为：激励操作为每个特征通道分配一个对应的权重值；通过全连接层和非线性层学习通道间的相关性，并输出分配的权重值。

5.根据权利要求1所述的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，所述重标定操作的方式为：重标定操作对特征通道的维度进行重新标定，并在特征通道维度上引入注意力机制。

6.根据权利要求1所述的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，步骤S4中对图像文本网络的训练方式包括：选择优化器，通过最小化交叉熵损失函数和判别损失函数训练图像文本网络模型，对网络模型训练的参数学习率和最大周期进行设置；根据三元组损失函数、判别损失函数和分类损失函数对图像文本网络模型进行约束，设置学习率和最大周期。

7.根据权利要求1所述的一种基于注意力机制和模态依赖的跨媒体交叉检索方法，其特征在于，步骤S4中对图像音频网络的训练方式包括：预设数据集；选用在数据集上预训练后的图像音频网络模型，并仅用图像数据对图像音频网络模型进行训练；使用图像数据、音频数据和视频数据共同对网络模型进行训练，并使用交叉熵损失函数微调网络；利用三个约束条件对网络进行微调，设置学习率和最大周期。