CN112241468A

CN112241468A - 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质

Info

Publication number: CN112241468A
Application number: CN202010718382.7A
Authority: CN
Inventors: 漆舒汉; 王轩; 丁洛; 张加佳; 廖清; 刘洋; 夏文; 蒋琳
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2021-01-19

Abstract

本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质，该跨模态视频检索方法包括视频编码步骤、文本编码步骤和联合嵌入步骤，本发明通过有监督训练的形式，充分利用训练多模态数据中的语义信息进行训练，同时引入多头目自注意力机制，捕捉视频和文本内部的细微交互，有选择性地关注多模态数据的关键信息来增强模型的表征能力，更好地挖掘数据语义，保证数据在原始空间和在共享子空间中距离的一致性。本发明的有益效果是：通过实验证明，本发明既可以有效保持数据在原始空间相似性，又能提高检索的准确率。

Description

一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质

技术领域

本发明涉及视频技术领域，尤其涉及一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质。

背景技术

随着多媒体数据的爆炸式增长，传统的单模态检索已经难以满足人们在多媒体领域下的检索需求，用户迫切希望能够利用其中一种模态数据作为查询对象来检索具有相似语义的另一种模态数据内容，例如用图像检索文本、文本检索图像或视频等，即跨模态检索。

跨模态检索需要同时处理不同模态的数据，这些数据在内容上具有一定的相似性，但是其底层特征是异构的，难以直接计算它们的相似度，即存在“语义鸿沟问题”。将不同模态数据映射到公共子空间的方法在跨模态检索中被大量使用，因为它能建立起“语义鸿沟”的桥梁。在这个公共子空间中，两点之间的距离反映了其映射之前两个模态数据的相似性。

跨模态视频检索性能好坏主要取决于所学的共享空间的质量。通常假设共享空间的质量在于其是否能有效保留不同模态原始数据内部隐含的语义信息。例如，两个不同模态数据之间的语义是相似的，那么他们在共享空间中的距离就较小，若两个不同模态数据之间的语义不相似，那么他们在共享空间中的距离就较大。为了提高表示数据的共享空间质量，通常采用基于深度学习的方法生成从多模态数据到共享空间位置的映射函数，并且在优化模型时要求在共享空间中表示的向量要与原始特征满足特定的统计分布规律。

基于深度学习的跨模态视频检索主要有几点问题：1)将原始数据特征空间映射至共享空间是一个NP难题；2)如何在特征映射时保持数据之间的语义相似性。3)如何对异构多模态数据之间的关系进行建模。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法。

本发明提供了一种基于多头目自注意力机制的跨模态视频检索方法，包括如下步骤：

视频编码步骤：对于给定的视频模态数据进行视频模态特征提取，利用特征向量{v₁,v₂...v_n}来描述视频，v_t表示视频的第t帧的特征，n表示视频的帧数，计算视频的多级特征

表示视频全局特征编码，

表示视频上下文特征编码，

表示视频局部特征编码；

文本编码步骤：给定一个长度为m的文本s，用独热编码表示文本s 的每个单词，生成一个独热编码向量序列{w₁,w₂,.....,w_m}，其中w_t表示第t 个单词的向量，计算文本的多级特征φ(s)＝[f_s ⁽¹⁾,f_s ⁽²⁾,f_s ⁽³⁾]，f_s ⁽¹⁾是文本全局特征编码，f_s ⁽²⁾是文本上下文特征编码，f_s ⁽³⁾是文本局部特征编码；

联合嵌入步骤：将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)通过仿射转换映射到一个共享空间中，得到共享空间的视频特征向量f(v)和f(s)，从而生成向量表示。

作为本发明的进一步改进，在所述视频编码步骤中，对于给定的视频模态数据，每0.5秒抽取一帧，对于每一帧，采用ResNet-152版本的深度残差网络提取视频模态特征，并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化；选取深度残差网络的倒数第二层作为图片数据的编码，维度为2018维，随后，利用特征向量{v₁,v₂...v_n}来描述视频，这里v_t表示视频的第t帧的特征，n表示视频的帧数。

作为本发明的进一步改进，在所述视频编码步骤中，采用多头目注意力机制和平均池化相结合的方式计算视频全局特征编码，视频全局特征编码

用

来表示平均池化的编码结果，

v_t表示视频的第t帧的特征，视频的编码由视频中的每个帧的加权平均获得，即

在所述视频编码步骤中，视频上下文特征编码

在所述视频编码步骤中，视频局部特征编码

作为本发明的进一步改进，在所述文本编码步骤中，文本全局特征编码f_s ⁽¹⁾是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的，将基于双向GRU的文本编码表示为 f_s ⁽²⁾，将基于Bi-GRU-CNN的文本编码为f_s ⁽³⁾。

作为本发明的进一步改进，在所述联合嵌入步骤中，将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)利用全连接后加上批量正则层映射到一个共享空间中，

参数W_v和W_s分别是视频侧和文本侧的全连接的参数，各自的参数是b_v和b_s。。

作为本发明的进一步改进，该跨模态视频检索方法还包括训练步骤，在所述训练步骤中，将视频特征向量f(v)和f(s)输入基于三元组的排序损失函数进行训练。

本发明还提供了一种基于多头目自注意力机制的跨模态视频检索系统，包括：

视频编码模块：用于对于给定的视频模态数据进行视频模态特征提取，利用特征向量{v₁,v₂...v_n}来描述视频，v_t表示视频的第t帧的特征，n表示视频的帧数，计算视频的多级特征

表示视频全局特征编码，

表示视频上下文特征编码，

表示视频局部特征编码；

文本编码模块：给定一个长度为m的文本s，用独热编码表示文本s 的每个单词，生成一个独热编码向量序列{w₁,w₂,.....,w_m}，其中w_t表示第t 个单词的向量，计算文本的多级特征φ(s)＝[f_s ⁽¹⁾,f_s ⁽²⁾,f_s ⁽³⁾]，f_s ⁽¹⁾是文本全局特征编码，f_s ⁽²⁾是文本上下文特征编码，f_s ⁽³⁾是文本局部特征编码；

联合嵌入模块：用于将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)通过仿射转换映射到一个共享空间中，得到共享空间的视频特征向量f(v)和f(s)，从而生成向量表示。

作为本发明的进一步改进，在所述视频编码模块中，对于给定的视频模态数据，每0.5秒抽取一帧，对于每一帧，采用ResNet-152版本的深度残差网络提取视频模态特征，并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化；选取深度残差网络的倒数第二层作为图片数据的编码，维度为2018维，随后，利用特征向量{v₁,v₂...v_n}来描述视频，这里v_t表示视频的第t帧的特征，n表示视频的帧数；

在所述视频编码模块中，采用多头目注意力机制和平均池化相结合的方式计算视频全局特征编码，视频全局特征编码

用

来表示平均池化的编码结果，

在所述视频编码模块中，视频上下文特征编码

在所述视频编码模块中，视频局部特征编码

作为本发明的进一步改进，在所述文本编码模块中，文本全局特征编码f_s ⁽¹⁾是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的，将基于双向GRU的文本编码表示为 f_s ⁽²⁾，将基于Bi-GRU-CNN的文本编码为f_s ⁽³⁾；

在所述联合嵌入模块中，将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)利用全连接后加上批量正则层映射到一个共享空间中，

参数W_v和W_s分别是视频侧和文本侧的全连接的参数，各自的参数是b_v和b_s；

该跨模态视频检索系统还包括训练模块，在所述训练步骤中，将视频特征向量f(v)和f(s)输入基于三元组的排序损失函数进行训练。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的跨模态视频检索方法的步骤。

本发明的有益效果是：通过实验证明，本发明既可以有效保持数据在原始空间相似性，又能提高检索的准确率。

附图说明

图1是本发明的基于多头目注意力机制的跨模态视频检索框架图。

具体实施方式

本发明公开了一种基于多头目自注意力机制的跨模态视频检索方法，本发明主要针对如何充分挖掘多模态数据内部的语义信息，生成高效向量的问题。通过有监督训练的形式，充分利用训练多模态数据中的语义信息进行训练，同时引入多头目自注意力机制，捕捉视频和文本内部的细微交互，有选择性地关注多模态数据的关键信息来增强模型的表征能力，更好地挖掘数据语义，保证数据在原始空间和在共享子空间中距离的一致性。在训练模型时使用有监督的机器学习方法，采用基于三元组的排序损失函数，引入正样本在每个batch中的次序，更好地修正了排序误差。对于两种不同的模态，我们利用两个结构相似的网络进行特征提取，特征主要分为三个部分：全局特征，时间特征，局部特征，三个特征进行串联，然后利用联合嵌入模块，将学习到的特征映射到共享空间中，可以生成高质量的向量表示。考虑近似样本点对在共享空间与原始空间距离一致的原则，原始空间近似样本点对映射到共享空间之后，向量尽量距离较小。通过实验证明，本发明既可以有效保持数据在原始空间相似性，又能提高检索的准确率。下面进行具体说明：

1、相关概念和问题定义：

假设训练集O＝{o_i＝[x_i,y_i,c_i]，i＝1,2,...,n}，其中视频模态特征集为

文本模态特征集为

类标集为

如果{x_i,y_i}属于第j类，则c_ji＝1，否则c_ji＝0。样本对

给出了视频模态和文本模态间的语义对应关系。设测试集为 T＝{o_t＝[x_t,y_t],t＝1,...,m}，其中

和

是两种不同模态样本。跨模态检索问题的目标就是学习到一种跨模态的相似性度量sim(□)对于给定的查询词x_q∈X，返回最相似的另外一种模态样本：

sim(□)中的□表示视频x与文本y之间的差值，sim(□)表示视频与文本之间的曼哈顿距离。

2、框架描述

本发明在提取多模态数据特征中利用了全局特征、时间特征和局部特征。在提取多模态数据全局特征中，利用多头目自注意力机制，可以自动学习多模态数据中的重要部分，过滤掉非重要部分；同时，利用平均池化方法，捕捉数据中重复出现的特征。在提取多模态数据上下文语义特征中，利用双向神经网络(GRU)，提取多模态数据时间序列。在捕捉多模态数据局部特征中，利用多个不同卷积核的一维卷积神经网络(CNN)，捕捉多模态数据中相邻特征之间的交互。本发明充分提取了多模态数据中多个层次的数据特征，挖掘出数据语义信息。然后利用联合嵌入模块，将学习到的特征映射到共享空间中，可以生成高质量的向量表示。

2.1、模型概览

本发明提出的对于视频和句子(文本)的处理方法类似，是一个对称的网络，即视频编码层和句子编码层具有相似的结构。对于给定的视频V 和句子(文本)S，假设经过视频编码层和句子编码层，我们将视频和句子分别编码为φ(v)和φ(s)，本发明模型框架如图1所示，每种模态数据都通过了数层的编码，将编码结果结合起来，以一种由粗到细的方式来描述这两种模态。这样的方法允许我们设计一个相似的编码网络来处理两种不同的数据模态。接着通过联合嵌入模块实现两种模态数据特征的融合，最后通过改进的基于三元组的排序损失函数进行训练。

2.2、视频编码模块(视频编码步骤)

对于给定的视频模态数据，我们每0.5秒抽取一帧。对于每一帧，我们利用深度残差网络(Deep Residual NetWork)进行特征提取。

本发明中采用ResNet-152版本的残差网络提取视频模态特征，并采用该网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化。本发明选取网络的倒数第二层(即除去最后一层SoftMax分类层)作为图片数据的编码，维度为2018维。随后，我们就可以利用特征向量{v₁,v₂...v_n}来描述视频，这里v_t表示视频的第t帧的特征，n表示视频的帧数。

2.2.1、视频全局特征编码

本发明采用多头目注意力机制和平均池化相结合的方式计算视频的全局编码。

平均池化的方法在视频跨模态检索中被广泛使用，从定义上讲，意味着汇集捕获在视频内容中重复出现的视觉模态。这些模态往往是全局性的。我们用

来表示这个平均池化的编码结果：

注意力机制的原理就是为不同特征表示计算权重，并通过加权求和的方式得到最终的特征表示，以此来体现视频中不同帧的重要程度。在本发明中，本发明采用的都头目自注意力机制通过两个偏置项为0的单层多层感知机(MLP)和一个SoftMax层来实现的：

α＝softmax(w₂ tanh(w₁φ(v)))

多头目自注意力机制最终得到的值是每一帧的权重，权重的大小表示对隐含层向量的选择倾向，可以自动学习视频中的重要部分，过滤掉非重要部分。最终，视频的编码由视频中的每个帧的加权平均获得：

通过结合视频内容中重复出现的视觉特征和视频中的重要部分特征，我们可以得到视频全局特征编码：

2.2.2、视频上下文特征编码

双向GRU(Bi-GRU)对于提取具有时间顺序的数据特征有一定效果。我们假设这样一个网络对于视频时间信息的建模也是有效的。我们采用双向Bi-GRU，其参数比LSTM少，因此只需要较少的训练数据。一个Bi-GRU 由两个分离的GRU层组成，即前向GRU层和一个反向的GRU。前向GRU 将每帧视频的特征按照正常的先后顺序输入，而反向GRU按照反向的顺序输入。用

和

表示在相应的时间步t＝1..n的隐含状态，隐含状态可以用下面公式表示：

这里的

和

分别表示前向和后向GRU，通过

和

来传递时间t的状态。通过

和

我们可以得到GRU在时刻t的输出。根据经验，将前向GRU和后向GRU中的隐藏向量大小设置为512。因此，h_t的大小为1024。将所有的输出结合，我们可以得到一个特征表示队列 H＝{h₁,h₂,....,h_n}，维度是1024*n。通过平均池化，我们可以得到视频上下文特征编码如下：

2.2.3、视频局部特征编码

前一层对Bi-GRU在每一步的输出权重都一样。为了增强有助于区分视频细微差别的局部模态数据，我们在Bi-GRU的基础上构建了卷积网络。特别地，我们采用了原本为句子分类而发展的一维CNN。

我们CNN的输入是上一节Bi-GRU模块生成的特征列表H。用Conv1d_k,r表示一维卷积模块，它包含r＝512个大小为k的滤波器。将H通过Conv1d_k,r可以产生n*k个特征。用RELU激活函数进行非线性变换，增强模型的拟合能力。因为每个视频的帧数n不一样，我们利用max pooling将特征列表H转换为固定长度为r的向量c_k。我们用下面公式表示：

c_k＝max pooling(ReLU(Conv1d_k,r(H)))

一个k＝2的卷积核可以用作求两个在H中的相邻行之间的交互，同样的，k表示相邻的k个视频帧之间的交互。我们用卷积核k＝2，3，4，5生成多个范围的特征表示。它们的输出被串联起来，形成基于Bi-GRU-CNN 的编码。

f_v ⁽³⁾＝[c₂,c₃,c₄,c₅]

由于

是通过特定的编码策略在不同的层次上依次得到的，我们认为三个编码结果是互补的，存在一定的冗余是合理的。因此，将三层的输出串联起来，得到输入视频的多级编码。

事实上，这种连接操作虽然简单，但却是一种常见的功能组合。

2.3、文本编码模块(文本编码步骤)

上述编码网络经过细微修改后，同样适用于文本。给定一个长度为 m的句子(文本)s，我们用独热编码表示它的每个单词。因此，可以生成一个独热编码向量序列{w₁,w₂,.....,w_m}，其中w_t表示第t个单词的向量。全局编码f_s ⁽¹⁾是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的。

对于基于biGRU的编码，首先将每个单词与一个单词嵌入矩阵相乘，将其转换为一个密集的向量。我们使用由word2vec模型初始化矩阵，该模型将word2vec训练到包含3000万张Flickr图片的英语标记上。剩下的部分与视频部分基本相同。我们将基于双向GRU的句子编码表示为f_s ⁽²⁾。类似地，我们将基于Bi-GRU-CNN的句子编码为 f_s ⁽³⁾。这里，我们使用三个1-d卷积块，k＝2,3,4。将在文本编码层的所有编码结果串联起来，得到句子的多级编码：

φ(s)＝[f_s ⁽¹⁾,f_s ⁽²⁾,f_s ⁽³⁾]

φ(s)和φ(v)没有直接的关系，他们不直接进行比较。在视频文本相似度计算中，需要将向量投影到公共空间中，然后给出学习算法。

2.4、联合嵌入模块(联合嵌入步骤)

对于编码后得到的视频特征φ(v)和文本特征φ(s)，将它们通过仿射转换映射到一个共享空间中。通常的做法是利用全连接层进行映射。经过一些理论研究，本发明采用在全连接后加上批量正则层，因为这样效果更好。通过下面的变换，我们可以将得到共享空间的视频特征向量f(v)和f(s)：

f(v)＝BN(W_vφ(v)+b_v)

f(s)＝BN(W_sφ(s)+b_s)

这里的参数W_v和W_s分别是视频侧和文本侧的全连接的参数，各自的参数是b_v和b_s。

3、总体目标及优化算法(训练步骤)

基于排序的三元组损失函数如下所示：

L(v,s；θ)＝L(r_v)[max(0,α-S_θ(v,s)+S_θ(v,s^-))]

+L(r_s)[max(0,α-S_θ(v,s)+S_θ(v^-,s))]

其中α是距离常数，这里的s^-和v^-分别表示一个相对于视频v的句子负样本，相对于句子v的视频负样本，这两个负样本不是随机选取的，是根据每一个batch中最相似的非样本对选择。

L(.)为不同秩的加权函数。对于视频嵌入v,r_v是所有跟v比较的句子中的秩。同样，对于一个文本嵌入s r_s是所有比较的视频中匹配视频嵌入v 的秩。损失是基于在检索结果中正确匹配的相对排名的基于权重的惩罚。如果正匹配在列表中名列前茅，那么L(.)将把一小部分重量分配给损失，而不会使损失造成太大的损失。然而，如果一个正匹配不是排在最前面， L(.)将分配一个大得多的权重给损失，这最终会将正匹配的对推到最前面。

整个算法过程描述如下：

在实际测试阶段，对于多模态内容特征使用上述的模型计算出他们在隐空间的向量表示。根据该向量表示可以检索出与它语义相近的另外一种模态数据。

1、实验设置

我们在两个基准数据集上进行了实验:MSR-VTT和MSVD和 MPIIMD以评估本发明提出的框架的性能。

MSR-VTT是一个大型的视频描述数据集。这个数据集包含10,000 个视频剪辑。数据集分为6513个训练视频、2990个测试视频和497 个验证集视频，每个视频有20句话的描述。就句子的数量和词汇量而言，这是最大的视频字幕数据集之一。

MSVD数据集包含1970个Youtube剪辑，每个视频都有大约40个句子的注释。我们只使用英语描述。为了公平的比较，我们使用了与大多数方法相同的分割，1200个训练视频，验证用视频100个，测试用视频670 个。

MPIIMD数据集包含54000个句子和72部高清电影，我们根据官方提供的方法对数据集进行切分，利用ResNetXt-101进行特征提取。

本发明与以下三种现有的跨模态视频检索方法进行了对比：

DeViSE：深度语义联合嵌入模型(A deep visual-semantic embedding) 利用不同模态特征所构成的潜在因子模型进行联合矩阵分解，来学习hinge loss的排序问题。

VSE++：视觉语义嵌入方法(Visual-Semantic Embeddings)是一种有监督跨模态检索算法，它将视频层和文本层进行编码，得到一个联合嵌入层，第一个在跨模态检索中用了硬负样本编码的方法。

W2VV：词向量转换成语义向量(word2vis)是一种基于多尺度句子矢量化和多层感知器学习预测文本输入的深度视觉特征的深度神经网络结构，已经成功地应用于图像(视频)字幕检索和视频字幕生成。

W2VV_rmil：W2VV的改进版本，原始的W2VV用的是MSE损失函数，该算法用了基于排序损失的MSE损失函数。

本实验采用中位序数(Median Rank,MedR)以及top K召回率(Recall rate attop K,R@K)作为准确率评价指标。中位序数指所有检索样本对应的被检索样本在检索结果中的序数的中位数，其值越低，代表模型的准确率越高；top K召回率，举例而言如V2S任务中的top5召回率，指使用视频检索文本时，视频对应的文本出现在检索结果前5位的比率，其值越高，代表模型准确率越高。

2、实验结果

表格1.在MSRVTT数据集上文本检索视频的结果

表格2.在MSRVTT数据集上视频检索文本的结果

表格3在MSVD和MPIIMD数据集上视频检索文本的mAP结果

从实验结果中还可以看出，本发明在MSRVTT、MSVD和MPIIMD 三个数据集上都比大多数方法的检索性能高，这说明发明提出的方法能够较好地提取多模态数据特征，使得多模态数据的语义表示更优。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于多头目自注意力机制的跨模态视频检索方法，其特征在于，包括如下步骤：

表示视频全局特征编码，

表示视频上下文特征编码，

表示视频局部特征编码；

文本编码步骤：给定一个长度为m的文本s，用独热编码表示文本s的每个单词，生成一个独热编码向量序列{w₁,w₂,.....,w_m}，其中w_t表示第t个单词的向量，计算文本的多级特征φ(s)＝[f_s ⁽¹⁾,f_s ⁽²⁾,f_s ⁽³⁾]，f_s ⁽¹⁾是文本全局特征编码，f_s ⁽²⁾是文本上下文特征编码，f_s ⁽³⁾是文本局部特征编码；

2.根据权利要求1所述的跨模态视频检索方法，其特征在于，在所述视频编码步骤中，对于给定的视频模态数据，每0.5秒抽取一帧，对于每一帧，采用ResNet-152版本的深度残差网络提取视频模态特征，并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化；选取深度残差网络的倒数第二层作为图片数据的编码，维度为2018维，随后，利用特征向量{v₁,v₂...v_n}来描述视频，这里v_t表示视频的第t帧的特征，n表示视频的帧数。

3.根据权利要求1所述的跨模态视频检索方法，其特征在于，在所述视频编码步骤中，采用多头目注意力机制和平均池化相结合的方式计算视频全局特征编码，视频全局特征编码

用

来表示平均池化的编码结果，

其中α＝softmax(ω₂tanh(ω₁φ(v)^T))ω₂和ω₁是全连接层参数，α_t为第t帧的权重；

在所述视频编码步骤中，视频上下文特征编码

n为视频的帧数，h_t为视频上下文对第t帧的交互值；

在所述视频编码步骤中，视频局部特征编码

其中，c_t表示某帧的前后t帧对该帧的影响。

4.根据权利要求1所述的跨模态视频检索方法，其特征在于，在所述文本编码步骤中，文本全局特征编码f_s ⁽¹⁾是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的，将基于双向GRU的文本编码表示为f_s ⁽²⁾，将基于Bi-GRU-CNN的文本编码为f_s ⁽³⁾。

5.根据权利要求1所述的跨模态视频检索方法，其特征在于，在所述联合嵌入步骤中，将编码后得到的视频的多级特征φ(v)和文本的多级特征φ(s)利用全连接后加上批量正则层映射到一个共享空间中，

BN表示Batch Normalization层，参数W_v和W_s分别是视频侧和文本侧的全连接的参数，视频侧和文本侧各自的参数是b_v和b_s。

6.根据权利要求1至5任一项所述的跨模态视频检索方法，其特征在于，该跨模态视频检索方法还包括训练步骤，在所述训练步骤中，将视频特征向量f(v)和f(s)输入基于三元组的排序损失函数进行训练。

7.一种基于多头目自注意力机制的跨模态视频检索系统，其特征在于，包括：

表示视频全局特征编码，

表示视频上下文特征编码，

表示视频局部特征编码；

文本编码模块：给定一个长度为m的文本s，用独热编码表示文本s的每个单词，生成一个独热编码向量序列{w₁,w₂,.....,w_m}，其中w_t表示第t个单词的向量，计算文本的多级特征φ(s)＝[f_s ⁽¹⁾,f_s ⁽²⁾,f_s ⁽³⁾]，f_s ⁽¹⁾是文本全局特征编码，f_s ⁽²⁾是文本上下文特征编码，f_s ⁽³⁾是文本局部特征编码；

8.根据权利要求7所述的跨模态视频检索系统，其特征在于，在所述视频编码模块中，对于给定的视频模态数据，每0.5秒抽取一帧，对于每一帧，采用ResNet-152版本的深度残差网络提取视频模态特征，并采用深度残差网络在ImageNet数据集上进行预训练的参数对网络参数进行初始化；选取深度残差网络的倒数第二层作为图片数据的编码，维度为2018维，随后，利用特征向量{v₁,v₂...v_n}来描述视频，这里v_t表示视频的第t帧的特征，n表示视频的帧数；

用

来表示平均池化的编码结果，

在所述视频编码模块中，视频上下文特征编码

n为视频的帧数，h_t为视频上下文对第t帧的交互值；

在所述视频编码模块中，视频局部特征编码

其中，c₂、c₃、c₄、c₅表示某帧的前后t帧对该帧的影响。

9.根据权利要求8所述的跨模态视频检索系统，其特征在于，在所述文本编码模块中，文本全局特征编码f_s ⁽¹⁾是通过对序列中所有独热编码向量求平均和对独热编码进行自注意力机制求得的特征串联后得到的，将基于双向GRU的文本编码表示为f_s ⁽²⁾，将基于Bi-GRU-CNN的文本编码为f_s ⁽³⁾；

BN表示Batch Normalization层，参数W_v和W_s分别是视频侧和文本侧的全连接的参数，视频侧和文本侧各自的参数是b_v和b_s；该跨模态视频检索系统还包括训练模块，在所述训练步骤中，将视频特征向量f(v)和f(s)输入基于三元组的排序损失函数进行训练。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－6中任一项所述的跨模态视频检索方法的步骤。