CN111309971A

CN111309971A - 一种基于多级编码的文本到视频的跨模态检索方法

Info

Publication number: CN111309971A
Application number: CN202010060690.5A
Authority: CN
Inventors: 董建锋; 叶金德; 章磊敏; 林昶廷; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2020-06-19
Anticipated expiration: 2040-01-19
Also published as: CN111309971B

Abstract

本发明公开了一种基于多级编码的文本到视频的跨模态检索方法，该方法包括：首先获取视频和文本的初步特征，然后通过两个多级编码网络分支分别对两种模态的全局、时序和局部信息进行编码；对于视频端提取音频特征，对于文本端提取句子特征；最后将编码的多个特征进行多级特征融合，得到鲁棒的视频和文本表达。通过全连接层将两个模态的特征映射到一个统一公共空间中，利用公共空间算法学习两个模态之间的关系，通过端到端的方式训练模型，自动学习文本和视频的匹配关系，从而实现文本到视频的跨模态检索。本发明是一种无概念的方法，不需复杂的概念检测操作，就能实现跨模态检索，并且利用了深度学习技术，在很大程度上提高了检索的性能和效率。

Description

一种基于多级编码的文本到视频的跨模态检索方法

技术领域

本发明涉及视频跨模态检索技术领域，尤其涉及一种基于多级编码的文本到视频的跨模态检索方法。

背景技术

近年来，由于互联网和移动智能设备的普及以及通信和多媒体技术的迅速发展，每天都会有海量的多媒体数据被创造并上传至互联网，不同模态的数据，如文字、图像和视频等正在以爆炸性的速度在增长，而这些多媒体数据也已经成为现代人们获取信息的最主要来源。随着5G时代的到来，因其更快的传输速度、更大的带宽和更低的时延等特点，将会进一步的加快多媒体数据的增长，特别是对于视频数据来说，人们将更容易地上传和共享自己所创造的视频，可以预见的是，未来互联网上的视频数据存储量将会非常巨大。面对如此庞大的多媒体数据，如何从中快速且准确地检索出用户所需求的视频是一个艰巨的挑战。文本到视频的跨模态检索就是缓解这个挑战的关键技术之一。

现有的文本到视频的跨模态检索假设所有的视频没有任何文本标注，用户通过自然语句描述其查询需求，检索模型通过计算文本和视频的跨模态相关度返回与查询相关度较高的视频。该检索模式的核心是计算文本和视频的跨模态相关度。现有文本到视频的跨模态检索方法以基于概念建模为主，从文本查询和视频中分别提取相关概念，并通过两种模态数据之间的概念匹配计算跨模态相关度。但这种基于概念的检索方法存在以下不足：一、文本和视频具有非常丰富的内容，一般很难通过若干概念充分地描述其内容从而导致信息的丢失；二、检索模型的性能取决于文本和视频的概念提取器，但如何构建有效的概念提取器并不容易；三、由于这类检索方法依赖于复杂的概念建模与概念匹配，其检索效率比较低。

发明内容

本发明针对现有技术的不足，采用了一种无需概念建模的方法，提出了多级深度编码网络，首次使用具有相似架构的多层编码网络同时对句子和视频进行量化编码和表示学习。通过将编码后的特征映射到公共空间，计算它们在公共空间的相关度，实现文本到视频的跨模态检索。

本发明的目的是通过以下技术方案来实现的：一种基于多级编码的文本到视频的跨模态检索方法，包括以下步骤：

(1)利用不同的特征提取方法分别对视频和文本的特征进行提取，得到这两种模态数据的初始特征；并获得视频的音频特征及文本的BERT特征。

(2)对在步骤(1)中得到的视频视觉特征进行多级编码；通过对视频的全局、时序和局部三个等级的编码，以此获得具有更强表示的视觉特征。

(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个视觉特征进行多级特征融合。

(4)以并行的方式，采用与步骤(2)中相似的网络结构，对在步骤(1)中得到的文本初始特征进行多级编码，包括文本的全局、时序和局部三个等级的编码。

(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个特征进行多级特征融合。

(6)将步骤(3)和步骤(5)中经过多级特征融合后的视频和文本特征分别映射到公共空间中，利用公共空间学习算法来学习两个模态之间的相关度，最后以端到端的方式训练模型。

(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索。

进一步地，所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤：

(1-1)利用预训练的深度卷积神经网络对输入的视频帧进行视觉特征提取，获得视频的初始特征。

(1-2)利用预训练的VGGish模型对视频的音频进行特征提取，得到视频的音频特征。

(1-3)利用独热编码(one-hot)对文本中的每个单词进行编码，获得文本的初始特征。

(1-4)利用在大规模无标注语料上预训练的BERT(Bidirectional EncoderRepresentations from Transformers)模型，提取包含丰富语义信息的句子特征，即文本的BERT特征。

进一步地，所述步骤(2)中对在步骤(1)中获得的视频视觉特征进行多级编码的方法包括如下步骤：

(2-1)视频的全局信息编码。步骤(1)已获得视频的初始特征，通过对这些视频帧的特征做均值操作，就能获得一个视频的全局编码特征。

(2-2)视频的时序信息编码。由于视频是一系列图像序列组成的，具有前后顺序，也就是说视频具有时序性，因此获取视频的时序信息也是十分重要的。我们利用双向GRU(bi-GRU)来对步骤(1-1)得到的视频初始特征进行编码，获得bi-GRU每个时刻的隐藏状态，通过对这些隐藏状态做均值操作，获得一个包含视频时序信息的特征向量。

(2-3)视频的局部信息增强编码。前述步骤已经获取视频的全局特征，同样的视频的局部特征也是含有丰富的信息。因此我们利用1维卷积神经网络(1-dCNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作，以此增强视频的局部信息。

(3)通过上述三个等级的编码以及视频音频特征的提取，我们分别获得了视频的全局、时序、局部和音频特征，通过对这四个特征进行多级特征融合来获得输入视频最终的多级编码特征。

所述步骤(4)中以类似的方式对在步骤(1)中获取的文本特征进行多级编码，它与视频的多级编码并行执行，具体方法包括如下步骤：

(4-1)文本的全局信息编码。步骤(1-3)中已经利用one-hot对文本中的每个单词进行了编码，使用与视频同样的方法，对每个单词的特征向量做均值操作，获取文本的一个全局特征。

(4-2)文本的时序信息编码。同样地，文本也含有时序信息。首先对文本的one-hot向量做词嵌入操作，获得每个单词的词嵌入编码。之后利用步骤(2-2)中提到的bi-GRU对文本的时序信息进行编码。

(4-3)文本的局部信息增强编码。对于在步骤(4-2)中获得的文本特征，类似地，我们采用步骤(2-3)中基于biGRU-CNN的方法对文本特征进行编码，得到文本局部信息增强的特征。

(5)使用与步骤(3)一样的方法，对上述得到的三个文本特征及步骤(1-4)得到的文本的BERT特征进行多级特征融合，以获得文本最终的特征。

进一步地，所述步骤(6)利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下：

(6-1)将从步骤(3)和(5)中经过多级特征融合得到的视频和文本的特征分别通过全连接层映射到一个统一的公共空间进行表达，并且在全连接层之后使用批归一化(BN)层。

(6-2)通过定义的三元排序损失，以端到端的方式训练模型，使模型自动学习两个模态之间的相关性。

进一步地，所述步骤(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索包括如下步骤：

(7-1)将输入的文本查询和所有候选视频通过训练好的模型映射到一个公共空间。

(7-2)计算文本查询和所有候选视频在公共空间的相似度，并根据相似度对候选视频进行排序，并返回检索结果。

本发明的有益效果是：本发明提出了多级深度编码网络，首次使用具有相似架构的多层编码网络同时对句子和视频进行量化编码和表示学习，将编码的多个特征进行多级特征融合，挖掘特征之间的关系，从而得到鲁棒的视频和文本表达。由于两个模态的特征不能直接比较，通过全连接层将它们的特征映射到一个统一公共空间中，利用公共空间算法来学习两个模态之间的关系，通过端到端的方式训练模型，自动学习文本和视频的匹配关系，从而实现文本到视频的跨模态检索。本发明是一种无概念的方法，不需复杂的概念检测操作，就能实现跨模态检索，并且利用了深度学习技术，在很大程度上提高了检索的性能和效率。

附图说明

图1为本发明的面向视频的多级编码网络结构示意图；

图2为本发明的面向文本的多级编码网络结构示意图；

图3为本发明的基于多级特征融合的公共空间学习模型的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明提出了一种基于多级编码的文本到视频的跨模态检索方法，包括：

(1)利用不同的特征提取方法分别提取视频和文本这两种模态的特征。

(1-1)对于给定的一个视频，我们预先指定每隔0.5秒从视频中均匀提取出n个视频帧。然后使用在ImageNet数据集上训练好的卷积神经网络(CNN)模型，比如ResNet模型，提取每帧的深度特征。这样，视频就可以由一系列特征向量{v₁，v₂，...，v_n}来描述，其中v_t表示第t帧的特征向量。

(1-2)由于视频中除了视觉信息之外，还有音频的相关信息对模型对视频内容的理解也有一定帮助，因此我们还对视频音频特征进行编码，让模型能更好地捕获音频方面的信息。

首先我们提取数据集中视频的音频数据，然后通过梅尔频率倒谱系数(MFCC)提取包含音频更多信息的MFCC特征数据。最后MFCC特征输入到在AudioSet数据集上预训练的VGGish模型中，提取音频每秒128维的特征，将这些特征均值化得到音频的最终特征

(1-3)给定长度为m的句子s，我们用独热编码(one-hot)来编码每个单词。因此，可生成一个独热编码向量序列{w₁，w₂，...，w_m}，其中w_t表示第t个单词的one-hot向量。这就初步提取了文本的特征。

(1-4)由于句子中单词与单词之间的联系十分的密切，因此对理解句子中各单词之间的上下文关系就显得尤为重要。BERT是目前自然语言处理领域最先进也是最流行的语言模型，它能通过在其他大规模无标注语料库中预训练来学习文本中丰富语义信息。因此我们利用在Wikipedia和BookCorpus两个大型语料库中预训练的BERT模型提取句子级别的特征

通过上述步骤的特征提取，我们分别得到了视频和文本的初始特征，但这些特征只是简单的通过CNN模型和独热编码分别提取视频和文本的初始特征，其中包含的内容信息比较粗略，因此我们对这些特征进行进一步的编码处理，以获得更加精细的特征信息。

(2)多级编码网络对在步骤(1)中得到的视频视觉特征进行多级编码，以获得更强大的特征表述，网络结构如图1所示。首先是获取视频的全局特征，这是第一级特征；然后利用双向循环神经网络对特征向量{v₁，v₂，...，v_n}进行编码以得到含有时序信息的特征，这是第二级特征；之后利用1维卷积神经网络(1-d CNN)对含有时序信息的特征进行局部信息的增强得到第三级特征。经过这三个等级的编码后，将得到的三个特征以及音频特征进行多级特征融合得到视频最终的特征，具体步骤如下：

(2-1)首先我们对视频全局信息进行编码。由于步骤(1)中已经利用预训练的CNN模型提取了视频每帧的特征，因此我们首先对这些特征采用均值操作(average pooling)，也就是简单地平均每个视频帧的特征来获取视频的全局特征。根据定义，均值操作可以捕获重复出现在视频内容中的视觉模式，这些模式往往是全局的。我们用

来表示此级别的编码特征。视频帧的均值操作公式如下：

其中n为视频帧的个数，v_t为第t帧的深度特征。

(2-2)由于视频本质就是一组图像序列组成，因此我们还可以对它们进行时序上的编码，步骤如下：

已知双向循环神经网络能有效地利用给定序列的过去和未来的上下文信息。因此，我们利用这样的网络对视频时序信息进行建模。我们采用双向GRU(bi-GRU)网络，因其参数少于双向LSTM，因此只需较少的训练数据。双向GRU由两个独立的GRU层组成，即前向GRU和后向GRU。前向GRU按正常顺序编码视频帧的特征，即从前往后的顺序；而后向GRU以相反的顺序编码视频帧特征。令

和

表示指定时间步t＝1,2，...，n的相应隐藏状态。两种隐藏状态生成为：

其中

和

表示的是前向GRU和后向GRU，其上一时间步的信息分别由

和

承载。拼接当前时间步的

和

我们就获得了双向GRU在t时刻的输出

根据经验我们设置前向和后向GRU的隐藏状态大小为512维。因此，h_t的大小是1,024维。将所有输出放在一起，我们得到一个特征映射H＝{h₁，h₂，...，h_n}，大小为1024×n维。将基于bi-GRU的编码表示为

它是通过沿着行维度在H上应用均值操作来获得的，即

其中n为视频帧的个数，h_t是时间步为t时的隐藏状态。

(2-3)由于之前只是获取了视频全局特征，因此我们还要对其局部信息进行增强，以获得视频数据中更多的信息。对视频局部信息增强的编码步骤如下：

为了增强有助于区分视频之间微妙差异的局部模式，我们在双向GRU之上构建卷积网络。特别地，我们采用最初为句子分类开发的1-d CNN来进行进一步编码。

1-d CNN的输入是由步骤(2-2)中的双向GRU模块生成的特征映射H。我们用Conv1d_k，r表示1-d卷积块，其包含大小为k的r＝512个滤波器，其中k≥2。在零填充之后将H输入到Conv1d_k，r中产生一个n×r的特征图，之后再在特征图上应用激活函数ReLU。当n随视频变化时，我们进一步采用最大池化(max pooling)以将特征图压缩为固定长度为r的向量c_k。我们将上述过程表达为：

c_k＝max-pooling(ReLU(Convld_k,r(H)))

由于k＝2的滤波器允许H中的两个相邻行彼此交互，而较大k的滤波器意味着同时利用更多相邻行。为了生成多尺度表示，我们分别在视频的时序特征上应用了k＝2，3，4，5这四个1-d卷积块，拼接它们的输出以生成基于biGRU-CNN的编码，即：

其中||表示特征的拼接。

(3)

是通过特定编码策略在不同级别上顺序获得的，它们分别表示了视频的音频特征、全局、时序、局部特征，我们认为这四个编码结果彼此互补且互相联系，为挖掘特征之间的关联性，我们通过多级特征融合的方法获取视频端最终的特征，如图3所示，其步骤如下：

我们将上述得到的四个特征分别拼接任意两个特征，之后将这些特征作为一个多层感知机的输入，以此来量化四个特征之间的关系，最后将多层感知机的输出进行平均池化得到视频端一个最终的特征，表示为：

其中MLP_θ表示一个多层感知机，||表示两个不同的特征的拼接，(i＜j)表示不考虑两个特征的前后顺序，

(4)利用并行的方式，采用与步骤(2)中类似的模型结构，如图2所示，对在步骤(1)中得到的文本特征进行多级编码，同样经过全局、时序和局部三个等级的编码，将得到的三个特征以及BERT提取的特征进行多级特征融合，得到最终的文本特征表示，具体步骤如下；

(4-1)获取文本的全局特征。步骤(1-3)中已经利用one-hot对文本中的每个单词进行了编码，使用与视频同样的方法，对每个单词的特征向量做均值操作，得到文本的一个全局特征，用

表示。

(4-2)文本由一组单词序列组成，因此文本同样含有时序信息。所以可以同样利用双向GRU对文本进行时序编码。首先因为使用在步骤(1-3)中所述的one-hot对文本编码的特征向量维度会比较大且稀疏，还有就是单词与单词之间彼此独立没有联系。所以我们通过将文本的one-hot向量与一个词嵌入(word embedding)矩阵相乘，将每个单词特征转换为密集向量且使每个词之间建立联系，这里我们使用在3000万Flickr图像的标签上训练word2vec模型。之后的步骤与步骤(2-2)对视频进行时序编码的步骤一样，我们将词嵌入编码后的每个单词特征输入到双向GRU中，最后获得文本的时序特征，用

表示。

(4-3)对于在步骤(4-2)中获得的文本特征，类似地，我们采用步骤(2-3)中基于biGRU-CNN的方法对文本特征进行编码，我们分别用到k＝2，3，4，5这四个1-d卷积块，得到文本局部信息增强的特征

(5)同样地，我们对前述步骤得到的文本的四个特征做多级特征融合，如图3所示，得到文本端的最终特征，表示为：

(6)通过步骤(3)和(5)我们就获得了视频和文本的多级编码特征

和

由于

和

之间没有相关，因此它们不能直接进行比较。对于视频特征与文本特征的相似度计算，需要将它们特征向量映射到统一的公共空间中才能进行计算。因此，我们利用公共空间学习算法来学习两个模态之间的相关度，最后以端到端的方式训练模型，使得模型能够自动学习文本和视频两个模态数据之间的关系，以此实现文本到视频的跨模态检索。步骤如下：

(6-1)在给定编码的视频的特征向量

和文本的特征向量

我们通过全连接(FC)层将它们映射到一个公共空间中。此外，我们在FC层之后另外使用批归一化(BN)层，这有助于模型的性能提升。最终，视频v和句子s在公共空间中的视频特征向量f(v)和文本特征向量f(s)为：

其中W_v和W_s是FC层的仿射矩阵参数，b_v和b_s为偏置项。

(6-2)除了用于提取视频特征的预训练的图像卷积网络参数是固定的之外，视频和文本的多级编码网络参数和公共空间学习网络参数都是以端到端的方式一起训练的。我们将所有可训练参数记为θ，用S_θ(v，s)表示视频v和文本s相似度，其用f(v)和f(s)之间的余弦相似度来计算。

我们使用三元排序损失(marginal ranking loss)，它通过最难负样本(hardestnegative sample)来惩罚模型。具体地说，一个相关视频-句子对的损失函数L(v，s；θ)定义为：

L(v，s；θ)＝max(0，α+S_θ(v，s^-)-S_θ(v，s))

+max(0，α+S_θ(v^-，s)-S_θ(v，s))

其中α是边际常数(margin)，设为0.2，s^-和v^-分别表示与视频v的不相关的句子示例和与句子s的不相关的视频示例。这两个不相关的样本不是随机抽样的，而是会选择当前小批量数据中模型预测最相似但实际为不相关的句子和视频。

(6-3)我们通过最小化三元排序损失函数在训练集上的值以端到端的方式训练模型。我们采用基于Adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法，批量数据(mini-batch)的大小设为64，初始学习率为0.0001，最大训练周期设为50。在训练过程中，如果验证集上的性能在两个连续的周期后没有提升，则将学习率除以2；如果连续10个训练周期验证集上的性能都没有提升，则停止训练。

(7)通过步骤(6)对模型的训练，模型已经学习到了视频和文本之间的相互的联系。给定一个文本查询，模型从一个候选视频集中找出与文本查询的相关视频，并将其作为检索结果。步骤如下：

(7-1)将给定的文本查询和所有候选视频通过步骤(6)训练好的模型映射一个到公共空间，文本s表示成f(s)，视频v表示成f(v)。

(7-2)计算文本查询和所有候选视频在公共空间的余弦相似度，然后根据余弦相似度对所有候选视频进行降序排序，并将排序靠前的视频作为检索结果返回，以此实现文本到视频的跨模态检索。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种基于多级编码的文本到视频的跨模态检索方法，其特征在于，包括：

(1)利用不同的特征提取方法分别对视频和文本的特征进行提取，得到两种模态数据的初始特征；并获得视频的音频特征及文本的BERT特征。

(2)对在步骤(1)中得到的视频初始特征进行多级编码，包括视频的全局、时序和局部三个等级的编码。

(3)将步骤(1)获得的视频的音频特征和步骤(2)获得的视频的三个等级特征进行多级特征融合。

(4)以并行的方式，对在步骤(1)中得到的文本初始特征进行多级编码，包括文本的全局、时序和局部三个等级的编码。

(5)将步骤(1)获得的文本的BERT特征和步骤(4)获得的文本的三个等级特征进行多级特征融合。

2.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(1)中分别提取视频和文本特征的方法包括如下步骤：

(1-3)利用独热编码对文本中的每个单词进行编码，获得文本的初始特征。

(1-4)利用在大规模无标注语料上预训练的BERT模型，提取包含丰富语义信息的句子特征，即文本的BERT特征。

3.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(2)中对在步骤(1)中获得的视频初始特征进行多级编码的方法包括如下步骤：

(2-1)视频的全局信息编码。通过对视频帧的初始特征做均值操作，获得一个视频的全局编码特征。

(2-2)视频的时序信息编码。利用双向GRU(bi-GRU)对视频初始特征进行编码，获得bi-GRU每个时刻的隐藏状态，通过对这些隐藏状态做均值操作，获得一个包含视频时序信息的特征向量。

(2-3)视频的局部信息增强编码。利用1维卷积神经网络(1-d CNN)对步骤(2-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作，得到视频局部信息增强的特征。

4.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(3)中将步骤(1)获得的视频的音频特征f_v ⁽¹⁾和步骤(2)获得的视频的全局特征f_v ⁽²⁾、时序特征f_v ⁽³⁾、局部特征f_v ⁽⁴⁾进行多级特征融合，将这四个特征分别拼接任意两个特征，之后将这些特征作为一个多层感知机的输入，以此来量化四个特征之间的关系，最后将多层感知机的输出进行平均池化得到视频端的最终特征

表示为：

5.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(4)中对在步骤(1)中获取的文本初始特征进行多级编码的方法包括如下步骤：

(4-1)文本的全局信息编码。对每个单词的特征向量做均值操作，获取文本的一个全局特征。

(4-2)文本的时序信息编码。首先对文本的one-hot向量做词嵌入操作，获得每个单词的词嵌入编码。然后利用双向GRU(bi-GRU)对文本词嵌入特征进行编码，获得bi-GRU每个时刻的隐藏状态，通过对这些隐藏状态做均值操作，获得一个包含文本时序信息的特征向量。

(4-3)文本的局部信息增强编码。利用1维卷积神经网络(1-d CNN)对步骤(4-2)中bi-GRU每个时刻输出的隐藏状态进行卷积操作，得到文本局部信息增强的特征。

6.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(5)中将步骤(1)获得的文本的BERT特征f_s ⁽¹⁾和步骤(4)获得的文本的全局特征f_s ⁽²⁾、时序特征f_s ⁽³⁾、局部特征f_s ⁽⁴⁾进行多级特征融合，将这四个特征分别拼接任意两个特征，之后将这些特征作为一个多层感知机的输入，以此来量化四个特征之间的关系，最后将多层感知机的输出进行平均池化得到文本端的最终特征

表示为：

7.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(6)利用公共空间学习算法来学习两个模态之间的相关性并训练模型的方法如下：

(6-2)通过三元排序损失，以端到端的方式训练模型，使模型自动学习两个模态之间的相关性。

8.根据权利要求7所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(6-2)中三元排序损失通过最难负样本来惩罚模型；一个相关视频-句子对的损失函数L(v,s；θ)定义为：

L(v,s；θ)＝max(0,α+S_θ(v,s^-)-S_θ(v,s))+max(0,α+S_θ(v^-,)-S_θ(v,s))

其中α是边际常数(margin)，s^-和v^-分别表示与视频v的不相关的句子示例和与句子s的不相关的视频示例；这两个不相关的样本不是随机抽样的，而是会选择当前小批量数据中模型预测最相似但实际为不相关的句子和视频；S_θ(v,s)表示视频v和文本s相似度，其用f(v)和f(s)之间的余弦相似度来计算。

9.根据权利要求1所述的基于多级编码的文本到视频的跨模态检索方法，其特征在于，所述步骤(7)利用步骤(6)训练得到的模型实现文本到视频的跨模态检索包括如下步骤：