CN111191075B

CN111191075B - 基于双重编码与联合的跨模态检索方法、系统及存储介质

Info

Publication number: CN111191075B
Application number: CN201911426231.8A
Authority: CN
Inventors: 肖菁; 崔晓桃
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2023-03-31
Anticipated expiration: 2039-12-31
Also published as: CN111191075A

Abstract

本发明公开了一种基于双重编码与联合的跨模态检索方法、系统及装置。该方法一种基于双重编码与双重联合嵌入学习的跨模态检索算法，通过神经网络对视频的多种特征进行提取、编码，对文字特征进行多层编码，并学习训练出两个联合视频文本嵌入的网络模型，通过两个模型获取文本到视频检索结果或视频到文本检索的结果。通过使用本发明中的方法，能够减少视频特征和自然语言描述的文本之间的语义差异，有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系，最终提高视频和文本相互之间检索的精确度。本发明可广泛应用于视频处理技术领域内。

Description

基于双重编码与联合的跨模态检索方法、系统及存储介质

技术领域

本发明涉及视频处理技术领域，尤其是一种基于双重编码与联合的跨模态检索方法、系统、装置及存储介质。

背景技术

模态：是指一种数据的来源或者存在形式，比如文本、音频、图像、视频等。

跨模态：有些数据的存在形式不同，但都是描述同一事物或事件的。

跨模态检索：给定一个检索模态实例,检索另一个跟其实例语义相似或一致的另一模态实例。

随着互联网与信息技术的发展，数据的形式种类越来越多，比较常见的多媒体数据包括文本数据、图像数据、视频数据以及音频数据。互联网上视频的快速增长使得使用自然语言查询搜索视频内容成为一项重大挑战。与简单的图像相比，视频是由连续多帧相互关联的图像序列组成的，因此视频流有时间的推进与空间的变化，具有动态特征；其次，视频还可能包含来自多种形式的信息，例如声音、场景、字幕等。这些信息不仅使视频内容更丰富，也使得视频文本跨模态检索更具有挑战性。对同一个事件的描述，会有不同来源的多种媒体数据，在视频和文本的跨模态检索中，给定视频，应该检索到最相关的描述文本；给定文本，应查询到最相关的视频。由于视频和文本属于不同的模态，如何把这有效地选择、编码视频和文本的特征，如何把特征投影到公共的空间，如何最大化对应视频与文本的相关性成为了该领域重点研究的问题。

目前，关于跨模态检索的研究分为两大类别：图像文本检索、视频文本检索。在图像文本检索方面，规范相关分析(Canonical Correlation Analysis，简称CCA)将不同维度的数据映射到相同的子空间，然后使训练的文本和图像特征相关联起来；难分样本改善视觉语义联合嵌入方法(Visual-Semantic Embeddings with Hard Negatives，简称VSE++)基于三元组损失函数中最难负样本与正样本之间的冲突修改了的成对排名损失函数，并在图文检索任务中取得了一定成效。与图文检索类似，大多数视频文本检索的方法都使用共享子空间，深层视频和合成文本联合建模方法(Jointly Modeling Deep Video andCompositional Text，简称JMDV)依赖树结构模型通过从给定句子中提取的主语、动词、宾语三元组，然后通过递归神经网络聚合为句子级矢量，使用最小二乘损失训练联合嵌入，以将句子表示和视频表示投影到联合空间中。基于句子矢量化和多层感知器的深度视觉编码网络(Word2VisualVec，简称W2VV)提出了一种名为Word2VisualVec的方法，用于视频到句子匹配任务，使用均方损失将向量化的句子投影到视觉特征空间中。

但以上所提及的方法大部分与图像和文本检索方法非常相似，从图文检索中改进而来，并且主要关注损失函数。但是，此类忽视了视频的特性，无法利用视频中已包含的互补性信息，如时空信息、声音信息，这限制了检索系统的健壮性，检索结果精确度不够高，不能满足现实的需求。

发明内容

本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一，为此，本发明实施例的目的在于提供一种鲁棒性好，精确度高的基于双重编码与联合的跨模态检索方法、系统及存储介质。

为了达到上述技术目的，本发明实施例所采取的技术方案包括：

第一方面，本发明实施例提供了一种基于双重编码与联合的跨模态检索方法，包括以下步骤：

获取训练集视频；

通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量以及词嵌入向量；

将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码；

对所述词嵌入向量进行编码；

通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型；

通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型；

根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。

另外，根据本发明上述实施例的基于双重编码与联合的跨模态检索方法，还具有以下附加的技术特征：所述视频各帧特征向量具体包括外观特征向量、活动特征向量和声音特征向量。

进一步地，所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果，其步骤具体包括：获取查询目标和待检索视频，所述查询目标为文本语句或视频片段；当查询目标为文本语句，通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配，得到待检索视频中所述文本语句对应的视频片段；当查询目标为视频片段，通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配，得到待检索视频中所述视频片段对应的文本内容。

进一步地，所述相似度为余弦相似度。

进一步地，所述将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码这一步骤，其具体包括：通过平均池化层将所述外观特征向量转化为所述静态特征；通过平均池化层将所述活动特征向量和所述声音特征向量转化为所述动态特征；通过非线性嵌入函数对所述静态特征和所述动态特征进行编码。

进一步地，所述对所述词嵌入向量进行编码这一步骤，其具体包括：通过双向门控循环单元对所述词嵌入向量进行编码，得到上下文语义信息；通过卷积神经网络对所述词嵌入向量进行编码，得到隐藏局部特征。

进一步地，通过成对排名损失函数以及最大边距损失函数对所述静态文本嵌入模型和所述动态文本嵌入模型参数进行训练。

第二方面，本发明实施例提出了一种基于双重编码与联合的跨模态检索系统，包括：

特征提取模块，用于获取训练集视频和用于通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量以及词嵌入向量；

特征编码模块，用于将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码和用于对所述词嵌入向量进行编码；

公共空间学习模块，用于通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型和用于通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型；

检索模块，用于根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。

第三方面，本发明实施例提供了一种基于双重编码与联合的跨模态检索系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行时，使得所述至少一个处理器实现所述的基于双重编码与联合的跨模态检索方法。

第四方面，本发明实施例提供了一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于实现所述的基于双重编码与联合的跨模态检索方法。

本发明的优点和有益效果：本发明所提供的技术方案通过双重编码和双重联合嵌入学习的跨模态检索方法，能够有效利用视频中文本特征以及视频各帧的静态特征和动态特征构建两个联合嵌入模型，减少视频特征和自然语言描述的文本之间的语义差异，有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系，最终提高视频和文本相互之间检索的精确度。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员来说，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1为本发明一种基于双重编码与联合的跨模态检索方法具体实施例的流程示意图；

图2为本发明一种基于双重编码与联合的跨模态检索方法具体实施例的结构示意图；

图3为本发明一种基于双重编码与联合的跨模态检索方法具体实施例的跨模态检索算法的结构示意图；

图4为本发明一种基于双重编码与联合的跨模态检索方法具体实施例在MSR-VTT数据集上通过视频检索文字的结果示意图；

图5为本发明一种基于双重编码与联合的跨模态检索方法具体实施例在MSR-VTT数据集上通过文字检索视频的结果示意图；

图6为本发明一种基于双重编码与联合的跨模态检索方法具体实施例在MSVD数据集上通过视频检索文字的结果示意图；

图7为本发明一种基于双重编码与联合的跨模态检索方法具体实施例在MSVD数据集上通过文字检索视频的结果示意图；

图8为本发明一种基于双重编码与联合的跨模态检索方法具体实施例与其他算法在MSR-VTT数据集上的结果对比图；

图9为本发明一种基于双重编码与联合的跨模态检索方法具体实施例与其他算法在MSVD数据集上视频检索文本的结果对比图；

图10为本发明一种基于双重编码与联合的跨模态检索方法具体实施例与其他算法在MSVD数据集上文本检索视频的结果对比图；

图11为本发明一种基于双重编码与联合的跨模态检索方法具体实施例与其他算法在LSMDC数据集上的结果对比图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

首先将参照附图描述根据本发明实施例提出的基于双重编码与联合的跨模态检索方法。参照图1，本发明实施例中基于双重编码与联合的跨模态检索方法主要包括以下步骤：

S01、获取训练集视频；具体的，在本实施例中选择了三个在跨模态检索(视频-文本)领域中公开的测试数据集包括：

(1)MSR-VTT：MSR-VTT是最大的公共多字幕数据集。它包含10k的Youtube视频剪辑，每个视频剪辑包含20句不同的描述。为了对比公平，我们遵循其他算法对数据集的划分方法，6513个视频用于训练，2990个视频用于测试，497个视频用于验证集。对于视频特征，选择2048维的2D特征、1024维的3D特征以及1024维的声音特征；对于文本特征，选择300维的文本特征作为模型的输入。

(2)MSVD：MSVD数据集是来自Microsoft Research Video Description Corpus(YouTube2Text)，该数据集已用于动作识别和视频描述生成任务等多个任务，包含1970个视频，每个视频的描述大概40条描述，描述的语言多种多样，包含英文、法文等，但实验中仅使用英文描述。数据集的划分与先前描述生成的实验中使用的设置一致，1200个视频用于训练，100个视频在验证集中，670个视频用于测试。

(3)LSMDC：LSMDC集包含从202部电影中提取的118,081个短视频剪辑。每个视频都有一个字幕，作为该视频的描述。该数据集用于大型电影描述挑战，测试时给定句子查询，从1,000个测试视频中检索相应的视频。

S02、通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量以及词嵌入向量；具体的，在本实施例中对视频特征和视频中的文本特征的提取进行区分。

S021、从训练集的视频中提取视频各帧特征向量，所述视频各帧特征向量包括：外观特征向量、活动特征向量和声音特征向量。

视频特征提取是将视频转换为特征，由于视频对比图片，增加了时序、声音、场景等特征，对于不同的特征使用不同的特征提取方法。本算法在视频特征提取模块，提取视频的外观特征、活动特征、声音特征，若视频为无声音视频，则不提取声音特征，特征提取的结果为对应的特征向量。步骤S021可以进一步细化为：

S0211、获取外观特征向量；使用ImageNet预训练的Resnet-152提取外观特征。在视频中提取帧，并将所提取的帧的图像缩放到224x224并作为输入，输入到ImageNet预训练好的Resnet-152模型中，其倒数第二个全连接的权重特征作为外观特征的输出，嵌入的尺寸为2048。Resnet-152由5个bottleneck组成，其中bottleneck先通过一个1x1的卷积减少通道数，使得中间卷积的通道数减少为原来1/4；中间的普通卷积做完卷积后输出通道数等于输入通道数；第三个卷积用于增加(恢复)通道数，使得bottleneck的输出通道数等于bottleneck的输入通道数。Resnet-152网络能有效地避免梯度消失。

S0212、获取活动特征向量；使用Kinetics预训练的I3D模型以间隔16帧的频率提取活动特征，通过时间平均聚合来表示视频的特征，形成1024维向量。I3D是由C3D改进而来，由8层卷积、5层池化层、2层全连接组成，其中卷积层和全连接层后面加BatchNormalization。

S0213、获取声音特征向量：使用SoundNet CNN提取音频特征，它提供音频的1024维特征。SoundNet CNN由8个conv1d以及2个池化层堆叠而成。

经过视频特征提取得到一系列特征向量{v₁,v₂,...,v_n}，其中v_t代表视频第t帧的特征向量。

S022、将对应视频的文字描述(英文)中的每个词语转化为词嵌入向量。使用Google News训练的word2vec的词嵌入。word2vec是有一个隐藏层的全连接神经网络,用来预测给定单词的关联度大的单词，经过文本特征提取模块，每一句文本描述由一系列特征向量{w₁,w₂,...,w_m}来描述，其中w_t代表文本句子中第t个单词的词嵌入向量。

S03：将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码；具体的，经过特征提取模块，每个视频由一系列特征向量{v₁,v₂,...,v_n}表示，对应视频的每一句文本描述由一系列词嵌入向量{w₁,w₂,...,w_m}表示，对特征向量{v₁,v₂,...,v_n}进行编码处理；把特征提取模块中提取出来的视频各帧特征向量通过平均池化层(mean pooling)得到特征向量f(v)，其中

即v属于d_v维的欧式空间：

其中提取后的外观特征经过平均池化层编码后的特征向量为视频的静态特征，提取后活动特征与声音特征分别经过平均池化层编码后的特征向量拼接作为视频的动态特征；再使用非线性嵌入函数对视频特征进行编码，参照图2，通过一个门嵌入(GatedEmbedding)的组块，对特征向量进行进一步的编码：

其中，

是可学习参数，σ是sigmoid激活函数，符号°是元素乘法(Hadamard product)。f(v)的右边第一项是一个线性完全连接层(FClayer)，第二项是一个上下文选通函数，运用sigmoid激活函数将其输出范围在0到1之间，作用是调整线性层的输出。

S04：对所述词嵌入向量进行编码；具体的、对词嵌入向量{w₁,w₂,...,w_m}分别进行编码处理。卷积神经网络(CNN)和循环神经网络(RNN)结构在自然语言处理领域各有优势，CNN能提取到文本中的隐藏局部特征，RNN能够提取出文本中的上下文信息。在本实例中，为提高文本的编码效果，将RNN和CNN进行结合对文本进行特征编码。

对于一个长度为m的句子s，文本特征模块提取文本特征后得到一系列词向量{w₁,w₂,...,w_m}，其中w_t代表文本句子中第t个单词的词嵌入向量，对于描述的句子使用两层编码。

第一层是基于双向门控循环单元(BiGRU)编码，隐藏状态为：

在公式(3)和公式(4)中，

和/>

分别代表前向和后向的门控循环单元(GRU)。每个单词经过BiGRU后的输出为/>

一个句子描述的特征可表示为H＝{h₁,h₂,...,h_m}，对H使用均值池来获得最终关注文本上下文信息的特征表示f(s_context)，即：

第二层是第一层编码的加深，在BiGRU层提取文本的上下文语义信息后，为捕获更深层的隐含文本特征，增强网络的表能力，在BiGRU之上构建了卷积网络：

c_k＝max-pooling(ReLU(Conv1d_k,r(H))) (6)

f(s_local)＝[c₂,c₃](7)

公式(6)中，Conv1d_k,r是一个512(r＝512)个大小为k(k＝2,3)滤波器的一维卷积块。通过在特征图上应用线性整流函数(ReLU)激活功能引入非线性，进一步应用最大池将特征映射压缩到一个长度为512的向量c_k上。如公式(7)所示，关注文本局部信息的特征表示f(s_local)由的k＝2和k＝3两个c_k接拼而成。

S05：通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型；

S06：通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型；

参照图3具体的，在步骤S05和步骤S06中，将步骤S03中的得到视频静态特征和S04步骤中的得到两组文本特征映射到一个公共空间，将步骤S03中得到的视频动态特征和S04步骤中的得到两组文本特征映射到一个公共空间，使用相同的损失函数训练静态-文本嵌入模型和动态-文本嵌入模型。

为了目标函数尽可能地使配对的视频-文本的相似度大于所有否定对的相似度，本实施例采用优化后的成对排名损失函数和最大边距排名损失(max-margin rankingloss)训练模型对静态-文本嵌入模型和动态-文本嵌入模型参数进行训练，则单个特征的损失函数定义为：

公式(8)中α是一个边际常数(margin constant)，S(s,v)是文本描述s视频v之间的相似性得分，(s,v)表示正样本对，(s′,v′)表示负样本对，其中v′是所有与s不匹配的视频，而s′是所有与v不匹配的描述文本，s′和v′并不是随机选择的样本，而是选择当前批处理中最相似但否定的句子和视频，[x]₊表示max(x,0)。

在本实施例中由于文本特征编码使用了两层编码，这两层文本编码与视频特征编码共同映射到公共空间后，会形成两对跨模态特征，文本上下文特征与视频特征形成(f(s_context),f(v))，文本局部特征和视频特征(f(s_local),f(v))，因此对最大边距排名损失函数(max-margin ranking loss)进行改进，以更好地训练优化网络参数,如公式(9)所示：

公式(9)中

f(v))+(1-λ)S(f(s_local),f(v))是以λ作为权衡权重的综合得分，f(v)为视频静态特征或者动态特征。

S07、根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果；具体的本实施例在检索时，根据给定的一个查询语句，数据集中的每个视频分别在静态-文本和动态-文本嵌入空间中计算其与查询语句的相似性得分，并使用最终的相似性得分之和排行。相反，给定查询视频，在两个嵌入空间中计算其与数据集中的所有句子的相似性得分，并使用相似性得分的总和进行最终排名，最后得到文本到视频检索与视频到文本检索的结果。

其次，本发明实施例提出的一种基于双重编码与联合的跨模态检索系统。

所述系统具体包括：特征提取模块，用于获取训练集视频和用于通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量以及词嵌入向量；特征编码模块，用于将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码和用于对所述词嵌入向量进行编码；公共空间学习模块，用于通过编码后的静态特征和编码后的词嵌入向量训练得到静态文本嵌入模型和用于通过编码后的动态特征和编码后的词嵌入向量训练得到动态文本嵌入模型；检索模块，用于根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果。

可见，上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例同时提供了一种基于双重编码与联合的跨模态检索系统，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

具体的，在运行环境为6核，Intel Xeon E5-2620处理器，64GB内存，Titan X显卡，Ubuntu 16.04操作系统中，如图4所示，展示了基于双重编码与双重联合嵌入学习的跨模态检索算法在MSR-VTT数据集上视频检索文字返回前5个文本的例子，第一段视频内容为一男子在盘子内放置一些食物，相应的本实施例方法查询目标视频得到5个文本分别是(中文翻译)：一男子一边交谈一边将食物放在盘子中；一男子将盘中的食物聚在一起；一男子用盘子端上一些鸡蛋、胡萝卜和卷心菜；一男子正准备食物；某人正准备正餐；第二段视频及检索结果示例不做赘述。如图5所示，展示了基于双重编码与双重联合嵌入学习的跨模态检索算法在MSR-VTT数据集上文字检索视频返回前5个视频的例子，其中第一段文字内容为(中文翻译)：一个小女孩抱着宠物狗躺在沙发上，通过本实施例检索出对应视频片段(框中部分)，第二段文本检索视频示例在此不做赘述。如图6所示，展示了基于双重编码与双重联合嵌入学习的跨模态检索算法在MSVD数据集上视频检索文字返回前5个文本的例子，其中第一段视频内容为一女子在雨中的树下舞蹈，通过本实施例方法检索到对应的文本内容(中文翻译)：一女子在雨中的大树下舞蹈；一女子在雨中舞蹈；一女子在雨天舞蹈；一女孩在雨天舞蹈；一女子在雨天的大树旁舞蹈；另一段视频和其检索得到的文本内容不做赘述。如图7所示，展示了基于双重编码与双重联合嵌入学习的跨模态检索算法在MSVD数据集上文字检索视频返回前5个视频的例子，第一段目标文字内容为(中文翻译)：一男子打开了一盒披萨，通过本实施例在五段视频片段中检索出对应的视频片段(框中部分)，另一示例在此不做赘述。

通过本实施例分别在MSR-VTT,MSVD,LSMDC2017三个数据集上与其他算法的R@k(k＝1,5,10)、Med r、MeanR值作对比。具体的，R@k(k＝1,5,10)计算在查询样本中，在前k(k＝1,5,10)个检索中找到正确答案的测试样本的百分比；Median rank(Med r)计算排名中第一个相关结果的中位数；Mean Rank(Meand)计算所有正确结果的平均排名；综上所述，越高的R@k，与越低的Med r和MeanR表明检索的结果越好。所述其他算法包括难分样本改善视觉语义联合嵌入模型(Visual-Semantic Embeddings with Hard Negatives，简称VSE++)双重深度编码网络(Dual Deep Encoding Network,简称Dual Encoding)，基于句子矢量化和多层感知器的深度视觉编码网络(Word2VisualVec,简称W2VV)，ours则指代本实施例所提供的技术方案。如图8所示，展示了本实施例与其他算法在MSR-VTT数据集上的结果，其中，VSE是基于视觉语义嵌入与多模态神经语言模型；Mithunetal.是基于多模态线索的视频文本检索联合嵌入学习；如图9所示，展示了本实施例与其他算法在MSVD数据集上视频检索文本的结果，其中，JMET是联合建模、嵌入与翻译模型，LJRV是基于网络图像搜索学习的视频和句子的联合模型；如图10展示了本实施例与其他算法在MSVD数据集上文本检索视频的结果；如图11所示，展示了本实施例与其他算法在LSMDC数据集上的结果，Kaufman et al.是基于时间镶嵌的视频注释模型；CT-SAN是基于概念词检测的视频字幕检索模型；Miech etal.是基于观看亿万级视频片段学习文本视频嵌入模型，从四个对比结果可以看出，本实施例的R@k均要高于其他方法或模型，Med r和Meand也均要低于其他方法或模型，可直接反应出通过本实施例所得到的匹配结果要明显由于其他方法或模型。

从对比结果可以看出，相比于现有技术，本发明方案所具有的优点有：

1)本发明方案基于双重编码与双重联合嵌入学习的跨模态检索算法,设计了一种新的编码模式，能够有效地利用文本的上下文特征和局部特征，同时利用视频不同的线索特征，构建两个联合嵌入空间，并通过改进后的双向最大边距排名损失函数，有针对性地互补地捕获、学习、优化视频和文本之间的潜在信息与联系，最终提高视频和文本相互之间检索的精确度；

2)本发明方案同时提出的跨模态检索算法具有很好的鲁棒性，相较于现有技术在跨模态检索领域中有比较好的效果。

同理，上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于双重编码与联合的跨模态检索方法，其特征在于，包括以下步骤：

获取训练集视频；

通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量{v₁，v₂，...，v_n}以及词嵌入向量{w₁，w₂，...，w_m}；其中v_t代表视频第t帧的特征向量，w_t代表文本句子中第t个单词的词嵌入向量；

对所述特征向量{v₁，v₂，...，v_n}进行编码处理，将编码处理后的记过通过平均池化层得到特征向量f(v)；

其中，v属于d_v维的欧式空间；

将所述视频各帧特征向量划分为静态特征及动态特征，所述静态特征为外观特征经过所述平均池化层编码后的特征向量；所述动态特征为活动特征与声音特征分别经过平均池化层编码后的特征向量；

通过门嵌入对所述静态特征和动态特征进行二次编码，二次编码的过程满足如下公式：

其中，

是可学习参数，σ是sigmoid激活函数，符号/>

是元素乘法；

对所述词嵌入向量进行编码；所述词嵌入向量的编码过程包括：基于双向门控循环单元编码以及对双向门控循环单元编码结果进行加深；

所述双向门控循环单元的隐藏状态为：

其中，

和/>

分别代表前向和后向的门控循环单元，双向门控循环单元的输出为

文本上下文信息的特征表示f(s_context)满足如下公式：

加深过程中的卷积神经网络为：

c_k＝max-pooling(ReLU(Conv1d_k，r(H)))

其中，Conv1d_k，r是一个由512个大小为k(k＝2，3)滤波器的一维卷积块；加深后得到的特征表示f(s_local)满足如下公式：

f(s_local)＝[c₂，c₃]

2.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于：所述视频各帧特征向量具体包括：外观特征向量、活动特征向量和声音特征向量。

3.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于，所述根据所述静态文本嵌入模型和所述动态文本嵌入模型获取文本到视频检索结果或视频到文本检索的结果，其步骤具体包括：

获取查询目标和待检索视频，所述查询目标为文本语句或视频片段；

当查询目标为文本语句，通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配，得到待检索视频中所述文本语句对应的视频片段；

当查询目标为视频片段，通过所述静态文本嵌入模型和所述动态文本嵌入模型进行相似度匹配，得到待检索视频中所述视频片段对应的文本内容。

4.根据权利要求3所述的基于双重编码与联合的跨模态检索方法，其特征在于，所述相似度为余弦相似度。

5.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于：所述将所述视频各帧特征向量划分为静态特征及动态特征，并对所述静态特征和动态特征进行编码，其步骤具体包括：

通过平均池化层将所述外观特征向量转化为所述静态特征；

通过平均池化层将所述活动特征向量和所述声音特征向量转化为所述动态特征；

通过非线性嵌入函数对所述静态特征和所述动态特征进行编码。

6.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于，所述对所述词嵌入向量进行编码，其步骤具体包括：

通过双向门控循环单元对所述词嵌入向量进行编码，得到上下文语义信息；

通过卷积神经网络对所述词嵌入向量进行编码，得到隐藏局部特征。

7.根据权利要求1所述的基于双重编码与联合的跨模态检索方法，其特征在于，通过成对排名损失函数以及最大边距损失函数对所述静态文本嵌入模型和所述动态文本嵌入模型参数进行训练。

8.基于双重编码与联合的跨模态检索系统，其特征在于，包括：

特征提取模块，用于获取训练集视频和用于通过待训练的特征模型对所述训练集视频进行特征提取，得到视频各帧特征向量{v₁，v₂，...，v_n}以及词嵌入向量{w₁，w₂，...，w_m}；其中v_t代表视频第t帧的特征向量，w_t代表文本句子中第t个单词的词嵌入向量；

特征编码模块，用于对所述特征向量{v₁，v₂，...，v_n}进行编码处理，将编码处理后的记过通过平均池化层得到特征向量f(v)；

其中，v属于d_v维的欧式空间；

所述特征编码模块，还用于将所述视频各帧特征向量划分为静态特征及动态特征；所述静态特征为外观特征经过所述平均池化层编码后的特征向量；所述动态特征为活动特征与声音特征分别经过平均池化层编码后的特征向量；

所述特征编码模块，还用于通过门嵌入对所述静态特征和动态特征进行二次编码，二次编码的过程满足如下公式：

其中，

是可学习参数，σ是sigmoid激活函数，符号/>

是元素乘法；

所述特征编码模块，还用于对所述词嵌入向量进行编码；所述词嵌入向量的编码过程包括：

基于双向门控循环单元编码以及对双向门控循环单元编码结果进行加深；

所述双向门控循环单元的隐藏状态为：

其中，

和/>

文本上下文信息的特征表示f(s_context)满足如下公式：

加深过程中的卷积神经网络为：

c_k＝max-pooling(ReLU(Conv1d_k，r(H)))

f(s_local)＝[c₂，c₃]

9.基于双重编码与联合的跨模态检索系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

10.当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7中任一项所述的基于双重编码与联合的跨模态检索方法。