CN116628261A

CN116628261A - 基于多语义空间的视频文本检索方法、系统、设备及介质

Info

Publication number: CN116628261A
Application number: CN202310616620.7A
Authority: CN
Inventors: 尚凡华; 刘红英; 杨琳琳; 罗如意; 刘园园; 冯伟
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-22

Abstract

本发明公开了一种基于多语义空间的视频文本检索方法、系统、设备及介质：视频特征编码得到视频特征和多个视频语义子空间；文本特征编码得到文本特征和多个文本语义子空间；跨模态子空间学习降低两个模态间的语义鸿沟同模态子空间学习得到语义不同的子空间；同模态和跨模态两类损失同时作用于视频文本检索任务；通过子空间融合匹配，加权融合多个语义空间的相似度分数，来充分利用多个语义子空间实现视频和文本之间的互相检索；检索系统包括特征编码模块、子空间学习模块，包括跨模态子空间学习模块和同模态子空间学习模块。本发明通过同模态子空间保持差异性且跨模态子空间保持一致性的方式，来自适应地学习并表示不同模态数据的语义子空间。

Description

基于多语义空间的视频文本检索方法、系统、设备及介质

技术领域

本发明属于计算机视觉和语言领域，主要涉及视频和文本之间的相互检索，更具体的说，是涉及一种基于多语义空间的视频文本检索方法、系统、设备及介质。

背景技术

多媒体检索的研究已经发展了很长一段时间，但在过去的一段时间里学者们在研究单个模态数据的检索。在单模态数据检索场景下，用户通过输入文本内容来检索想要的其他文本内容或者输入一张图片去检索与这张图片相似的其他图片。但是，在互联网高速发展的今天，单模态数据检索很难满足用户日益增长的数据检索需求。所以，近年来多个模态之间的数据检索方法逐渐被研究人员关注。随着短视频的发展，文本与视频的检索在跨模态检索领域中成为了研究的焦点。

视频和文本之间的相互检索本质上是两个模态数据语义之间的检索。视频和文本数据的语义都非常丰富，比如视频中的背景、音乐、人物、动作等多种不同语义，文本中的动词、名词、多义词和语气词等多种不同的语义。因此，在文本检索视频的时候相当于多种不同的文本语义信息同时去匹配多种不同的视频语义信息。将视频和文本分别表示成单独的向量进行检索，等价于将视频和文本的多种语义都融合到一个公共向量空间中计算相似度来匹配。由于视频和文本语义的复杂性和多样性，所以通过单个向量检索的方式做精准的匹配是非常困难的。MEE和HGR分别是从视频多语义和文本多语义出发，将视频和文本编码成指定语义上的公共空间进行匹配，这样可以一定程度上缓解在复杂、多样的语义场景下视频和文本相互检索问题。但是要想通过人工的方式找到合适的语义特征进行表示，是需要经验并花费不少时间的。此外，想要让视频和文本多语义空间进行匹配需要分别考虑视频的某个语义空间与文本的某个语义空间是否可以匹配，如果明显不能匹配的语义空间被我们强制进行匹配的话，最终的效果可能会变的更差。

发明内容

本发明的目的是为了克服现有技术中的不足，提出了一种基于多语义空间的视频文本检索方法、系统、设备及介质，不仅可以自适应的生成多个差异化的语义子空间，还可以通过多语义空间融合的方式来充分利用这些子空间提升视频和文本匹配的效果。语义子空间生成和匹配通过模型训练的过程来降低两个模态之间的语义鸿沟，进而保持跨模态空间的一致性。但是，对于同模态的语义空间需要保持差异。自适应生成的语义子空间的特点：同模态之间保持差异性，跨模态之间保持一致性。这种方式不需要人工去挖掘并表示视频或者文本不同的语义信息，并且可以根据实际的应用场景非常灵活的设置语义子空间的数量和子空间匹配的方法来提高检索性能。

本发明的目的是通过以下技术方案实现的。

一种基于多语义空间的视频文本检索方法，包括以下过程：

第一步：特征编码

①视频特征编码，得到视频特征v^feat和多个视频语义子空间

先对视频中的帧按照时间顺序进行采样，然后使用在ImageNet数据集上预训练的CNN模型对采样出来的每一张图片都提取对应的特征向量，每个提取的特征向量都是2048维，然后将两个提取的特征向量拼接成一个4096维的特征向量，得到的视频帧级特征表示为一个特征序列{v₁,v₂,...,v_n}，其中v_i表示n帧视频中第i帧视频的特征向量，然后使用注意力池化进一步得到视频帧级聚合特征v^f；

将视频帧级特征序列{v₁,v₂,...,v_n}通过双向门控循环单元提取视频的序列特征，双向门控循环单元输出的隐藏状态序列记为其中/>表示双向门控循环单元第j个时间步的隐藏状态，然后使用注意力池化进一步得到视频序列聚合特征v^s；

将视频的帧级聚合特征v^f与序列聚合特征v^s拼接得到视频最终的特征表示v^feat；使用k个全连接层将视频特征映射成k个视频语义子空间，记为：

②文本特征编码，得到文本特征t^feat和多个文本语义子空间

通过预训练现有的双编码模型得到预训练词向量矩阵，文本中的单词通过预训练词向量矩阵转换为词向量，文本就变成了词向量，记作：{t₁,t₂,...,t_m}；词向量通过双向门控循环单元得到词向量序列，两者分别通过注意力池化得到词向量聚合特征以及词向量序列聚合特征，将文本的词向量聚合特征与词向量序列聚合特征拼接得到文本特征的最终表示t^feat，接着使用k个全连接层映射成k个文本语义子空间，记为：

第二步：子空间学习

①跨模态子空间学习

余弦相似度函数计算不同模态向量之间的距离，使得相似的跨模态样本之间的距离更近，不相似的跨模态样本之间的距离更远，得出单个语义子空间跨模态匹配的损失函数，进而得到k个子空间跨模态匹配损失函数L_cross，视频和文本跨模态子空间学习通过k个子空间跨模态匹配的损失函数挖掘正负样本；

②同模态子空间学习

将视频和文本的语义子空间分别转换成概率分布，对同模态的多个语义子空间分布，分别两两计算KL散度并令差异之和最大，得到视频最大化语义空间差异的损失函数和文本最大化语义空间差异的损失函数/>

视频和文本利用上述跨模态匹配损失函数L_cross进行跨模态语义子空间一致性优化降低两个模态间的语义鸿沟，利用上述损失函数和/>进行同模态语义差异性优化，得到语义不同的子空间；同模态和跨模态两类损失同时作用于视频文本检索任务，得出加权损失函数L；

第三步：子空间融合匹配

通过加权融合多个语义子空间的相似度分数，来充分利用多个语义子空间实现视频和文本之间的互相检索。

第一步中所述视频帧级聚合特征v^f

其中，v^f是视频帧级聚合特征，γ_i表示第i帧视频帧级聚合权重，表示的是视频帧级注意力权重，ReLU是激活函数；

双向门控循环单元第j个时间步的隐藏状态表示为：

其中，Concat表示向量拼接；和/>分别表示正向和反向门控循环单元；/>和/>分别表示正向和反向GRU在第j时间步的隐藏状态；

视频序列聚合特征v^s表示为：

其中，v^s是视频序列聚合特征，β_i表示第i帧视频序列的聚合权重，表示的是视频序列注意力权重；

视频最终的特征表示v^feat如下：

v^feat＝Concat(v^f,v^s)

第二步中所述单个语义子空间跨模态匹配的损失函数：

其中，表示的是第i个语义子空间匹配的损失函数，D表示的是语料库词典的大小；/>和/>分别表示与视频/>相关和不相关的文本，也分别称为是视频/>第i个语义子空间的正、负样本；/>和/>分别表示与文本/>相关和不相关的视频，也分别称为是文本/>第i个语义子空间的正、负样本；S表示的是余弦相似度函数；α表示距离常量；

第二步中所述k个子空间跨模态匹配损失函数表示为：

第二步中视频的第i个语义子空间的概率分布表示为其中Softmax函数将一个向量的各个值转换成概率分布，同理得到文本的第i个语义子空间的概率分布/>

第二步中所述视频最大化语义空间差异的损失函数为：

第二步中所述文本最大化语义空间差异的损失函数为：

第二步中所述加权损失函数L表示为：

其中，w_cross表示的是跨模态语义子空间一致性优化的权重，w_same表示的是同模态语义子空间差异性优化的权重。

第三步中相似度分数融合表示如下：

其中，μ_o表示的是某个语义子空间相似度的权重，并且满足S表示余弦相似度函数；在对相似度矩阵/>求加权和之前将相似度矩阵执行归一化操作。

一种基于自适应多语义空间表示的视频文本检索系统，包括：

(1)特征编码模块，包括视频特征编码模块和文本特征编码模块；

所述视频特征编码模块用于获取每帧视频的特征向量，通过双向门控循环单元提取视频的序列特征，使用注意力池化分别得到视频的帧级聚合特征v^f与序列聚合特征v^s，拼接得到视频最终的特征表示v^feat，然后使用k个全连接层将视频特征映射成k个视频语义子空间，记为：

所述文本特征编码模块用于将文本变成词向量，通过双向门控循环单元得到词向量序列，两者分别通过注意力池化得到词向量聚合特征以及词向量序列聚合特征，拼接得到文本特征的最终表示t^feat，接着使用k个全连接；层映射成k个文本语义子空间，记为：

(2)子空间学习模块，包括跨模态子空间学习模块和同模态子空间学习模块；

所述跨模态子空间学习模块利用k个子空间的跨模态匹配损失函数L_cross进行跨模态语义子空间一致性优化降低两个模态间的语义鸿沟；

所述同模态子空间学习模块利用视频最大化语义空间差异的损失函数和文本最大化语义空间差异的/>进行同模态语义差异性优化，得到语义不同的子空间；

同模态和跨模态两类损失同时作用于视频文本检索任务，得出加权损失函数L；

(3)子空间融合匹配模块通过加权融合多个语义空间的相似度分数，来充分利用多个语义子空间实现视频和文本之间的互相检索。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的基于多语义空间的视频文本检索方法。

一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述的基于多语义空间的视频文本检索方法。

与现有技术相比，本发明的技术方案所带来的有益效果是：

视频文本检索本质上是视频和文本两个模态数据语义之间的相互检索。本发明为了对视频和文本的多种语义进行高效的表达，提出了一种基于自适应多语义空间表示的视频文本检索方法(Adaptive Semantic Subspace Representation，ASSR)，共享多语义空间特征提取网络，通过同模态子空间之间保持差异性且跨模态子空间之间保持一致性的方式，来自适应地学习并表示不同模态数据的语义子空间。此外，本发明还通过多语义子空间融合匹配的方式来对视频和文本进行检索，从而提高检索性能。

附图说明

图1为本发明基于多语义空间的视频文本检索方法框架图。

图2为语义空间的数量对检索性能的影响。

具体实施方式

下面结合附图对本发明作进一步的描述。

如图1所示，本发明基于多语义空间的视频文本检索方法，具体实现过程：

第一步：特征编码

①视频特征编码，得到视频特征v^feat和多个视频语义子空间

对于视频，先对视频中的帧按照时间顺序进行采样，然后使用在ImageNet数据集上预训练的卷积神经网络模型(简称“CNN模型”)，对采样出来的每一张图片都提取对应的特征向量，每个提取的特征向量都是2048维，然后将两个提取的特征向量拼接成一个4096维的特征向量，这样就完成了视频帧级特征的提取。其中，CNN模型包括ResNeXt-101和ResNet-152，可采用Concat操作拼接两个2048维向量；例如有A张图片，分别用ResNeXt-101和ResNet-152对每张图片都提取一个2048维特征向量，Concat操作拼接为一个4096维向量，这样A张图片得到A个4096维特征向量。

由预训练模型得到的视频帧级特征表示为一个特征序列{v₁,v₂,...,v_n}，其中v_i表示n帧视频中第i帧视频的特征向量。然后使用注意力池化进一步将视频特征向量聚合为一个固定长度的特征，注意力池化的公式如下：

其中，v^f是视频帧级聚合特征，γ_i表示第i帧视频帧级聚合权重，表示的是视频帧级注意力权重，ReLU是激活函数。

此外，将视频帧级特征序列{v₁,v₂,...,v_n}可通过双向门控循环单元(biGRU)提取视频的序列特征，双向门控循环单元第j个时间步的隐藏状态表示为：

其中，Concat表示向量拼接；和/>分别表示正向和反向门控循环单元；/>和/>分别表示正向和反向GRU在第j时间步的隐藏状态。

将双向门控循环单元输出的隐藏状态序列记为与视频帧级特征向量聚合一样使用注意力池化的方式将H_v池化为一个固定长度特征，具体表示如下：

其中，v^s是视频序列聚合特征，β_i表示第i帧视频序列的聚合权重，表示的是视频序列注意力权重。

最后，将视频的帧级聚合特征v^f与序列聚合特征v^s拼接得到视频最终的特征表示v^frat，v^feat＝Concat(v^f,v^s)。得到了视频最终的特征表示之后，使用k个全连接层将视频特征映射成k个视频语义子空间，记为：其中第i个语义子空间的表示/>表示为：

其中，表示的是第i个全连接层。

②文本特征编码，得到文本特征t^feat和多个文本语义子空间

对于文本特征，本发明通过预训练现有的双编码(Dual Encoding，DE)模型得到预训练词向量矩阵，文本中的单词通过预训练词向量矩阵转换为词向量，文本就变成了词向量，记作：{t₁,t₂,...,t_m}，其中t_i表示文本中第i个单词的词向量。文本特征编码除了得到文本的词向量与视频不一样以外，其他的部分与视频是一致的。词向量通过双向门控循环单元得到词向量序列，两者分别通过注意力池化得到词向量聚合特征以及词向量序列聚合特征，将文本的词向量聚合特征与词向量序列聚合特征拼接得到文本特征的最终表示t^feat，接着使用k个全连接层映射成k个文本语义子空间，记为：其中第i个文本语义子空间表示为/>

第二步：子空间学习

特征编码将视频和文本都映射到k个语义子空间中，将视频和文本子空间记为：和/>为使多个语义空间的内容就可以从多个维度的语义来表达视频或者文本，本发明通过跨模态语义空间学习来降低模态间的语义鸿沟，同时保持同模态的语义子空间的差异性。本发明相比于使用人工定义和表示多语义空间模型更加灵活，多个语义子空间的语义匹配过程交给神经网络学习即可。

①跨模态子空间学习

本发明的视频和文本跨模态子空间学习通过k个子空间跨模态匹配的损失函数挖掘正负样本。具体来说，在给定某个模态数据的向量(或/>)，对于与该模态相似的另一个模态数据向量(正样本)之间的距离，在公共空间中应该更近，相反的，与其不相似的向量(负样本)在公共空间中应该离得更远。余弦相似度函数计算不同模态向量之间的距离，使得相似的跨模态样本之间的距离更近，不相似的跨模态样本之间的距离更远，得出单个语义子空间跨模态匹配的损失函数：

其中，表示的是第i个语义子空间匹配的损失函数，D表示的是语料库词典的大小；/>和/>分别表示与视频/>相关和不相关的文本，也分别称为是视频/>第i个语义子空间的正、负样本；/>和/>分别表示与文本/>相关和不相关的视频，也分别称为是文本/>第i个语义子空间的正、负样本；S表示的是余弦相似度函数；α表示距离常量。

进而得到k个子空间跨模态匹配损失函数L_cross，表示为：

②同模态子空间学习

为了实现同模态语义子空间的差异性，利用KL散度度量概率分布差异性的方式来实现。具体来说，先将视频和文本的语义子空间分别转换成概率分布，如视频的第i个语义子空间的概率分布可以表示为：其中Softmax函数可以将一个向量的各个值转换成概率分布，同理可以得到文本的第i个语义子空间的概率分布/>

因为同一个模态中的所有语义空间需要两两都有差异，所以对于同模态的多个语义子空间分布，需要分别两两计算KL散度并令差异之和最大，所以视频最大化语义空间差异的损失函数为：

同理可以得到文本最大化语义空间差异的损失函数

视频和文本利用上述跨模态匹配损失函数L_cross(L_cross约束视频文本检索神经网络)进行跨模态语义子空间一致性优化可以降低两个模态间的语义鸿沟，利用上述损失函数和/>进行同模态语义差异性优化，可以得到语义不同的子空间。同模态和跨模态两类损失同时作用于视频文本检索任务，得出加权损失函数L表示为：

其中，w_cross表示的是跨模态语义子空间一致性优化的权重，w_same表示的是同模态语义子空间差异性优化的权重。加权损失函数L用来衡量跨模态损失与同模态损失的重要性。

第三步：子空间融合匹配

视频文本检索本质上是视频和文本两个模态数据语义之间的相互检索。通过上述子空间学习与匹配操作可实现直接选择一组子空间来对视频和文本进行匹配，但是具体选择哪个子空间来作为最终的检索空间是很难选择的。所以既然不知道如何选择一组最好的子空间，为什么不使用所有的子空间来实现匹配呢。最终，通过加权融合多个语义子空间的相似度分数，来充分利用多个语义子空间实现视频和文本之间的互相检索，其中相似度分数融合表示如下：

其中，μ_i表示的是某个语义子空间相似度的权重，并且满足S表示余弦相似度函数。这里需要注意的是，在对相似度矩阵/>求加权和之前需要将相似度矩阵执行归一化操作，避免某个子空间产生的相似度分数过大或过小而影响融合的效果。

其中，加权融合是先计算第i个视频语义子空间与第i个文本语义子空间的相似性换句话说就是第i个视频语义子空间与第i个文本语义子空间的匹配程度，并赋以不同匹配子空间不同的权重(μ_i)，最后得到多个语义空间的相似度分数(Sim(s_v,s_t))来实现视频和文本两个模态数据语义之间的相互检索。

基于上述原理过程，本发明提出一种基于自适应多语义空间表示的视频文本检索系统，包括如下内容：

基于上述原理过程，本发明提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的基于多语义空间的视频文本检索方法。

基于上述原理过程，本发明提出一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，实现上述的基于多语义空间的视频文本检索方法。

实施例1

在MSR-VTT数据集上验证ASSR方法性能。将ASSR方法的性能与经典的视频文本检索模型MEE、CE、TCE、W2V++、HGR、DE以及SFEM进行比较。在对ASSR方法进行视频文本检索：

划分数据集：ASSR方法在MSR-VTT数据集上采用Official，Test1k-Miech和Test1k-Yu三种不同划分集合。

ASSR方法参数配置：对于MSR-VTT数据的Official和Test1k-Miech划分集合，本发明公共子空间的数量设置为2，每个语义空间的维度设为1024。损失函数中的α参数都设置为0.1，门控循环单元模块隐状态的维度设置为512(双向门控循环单元的隐状态的维度为1024)。跨模态损失函数的权重w_cross设置为0.5，同模态损失函数的权重w_same设为5.0。对于Test1k-Miech划分集合来说，与另外两种划分集合不同的超参包括每个语义空间的维度和损失函数中的α参数，分别设置为2048和0.15，其他参数设置与另外两种划分集合相同。

表1 ASSR方法在MSR-VTT的三种不同划分数据集上与对比算法之间的性能比较

从表1中的结果可以发现，ASSR方法在三种不同划分集合上的综合检索性能胜过所有对比算法。ASSR方法编码模块只是使用了简单的双向门控循环单元和注意力池化，相比现有对比算法中的DE和SFEM模型，编码模块非常简单。但ASSR的性能却比复杂的模型具有更好的检索性能。这说明对于跨模态检索任务来说，视频和文本的多子空间表达和融合检索可以提升检索性能。所以，对于跨模态检索任务来说，有效的子空间生成不一定需要非常复杂的特征编码器来对视频和文本进行表达。即使采用比较简单的编码结构，恰当使用子空间学习及融合方法也可以提高跨模态子空间的表达能力，进而提高跨模态检索的性能。

实施例2

在TGIF数据集上验证ASSR方法性能。在TGIF数据集来说训练和验证集中，一个GIF只有一条文本描述与之对应，而测试集一个GIF却有三条文本描述与之对应，所以相比MSR-VTT来说难度更大一点。选择的对比算法包括Order、DeViSE、VSE++、Corr-AE、PVSE、DE和SFEM。TGIF数据集上ASSR方法的参数配置与MSR-VTT数据的Official和Test1k-Miech划分集合的参数配置相同。

表2 ASSR方法在TGIF数据集上与对比算法之间的性能比较

从表2中的结果可以发现，ASSR方法在TGIF数据集上相比DE的提升是非常明显的。ASSR方法相比SFEM，结构非常简单，但是得益于ASSR优秀的子空间表达能力，让简单的方法也能够具备强悍的检索性能。此外，由于TGIF训练和验证数据中一个GIF只对应一条文本描述，但是测试集每个GIF却有三条文本描述。因此，可以说明ASSR方法可以在训练数据不足的情况下，通过充分挖掘子空间的表示能力进而提高ASSR方法的检索性能。从ASSR方法设计的思想来看，跨模态公共空间的表达方式及其优化方法会直接影响ASSR方法的检索效果。此外，当编码能力足够强时，再充分挖掘公共空间的表达，可以进一步提升ASSR方法的检索性能，相当于将ASSR的思想基础上使用更加强大的特征提取器。

实施例3

在MSVD数据集上验证ASSR方法性能。由于在MSVD数据集上实验过的很多对比算法对数据集中的文本采样是不确定的。所以为了公平的比较算法之间的性能差异，没有对MSVD中的文本描述进行采样，而是使用全量的文本描述重新跑了开源的DE和SFEM代码。ASSR和对比算法(DE和SFEM)使用的数据集和特征是完全一样的，将三种算法的性能进行对比。

表3 ASSR方法在MSVD数据集上与对比算法之间的性能比较

由表3可知，ASSR方法在MSVD数据集上，绝大部分指标相比于DE模型是更有优势的，但是对于SFEM来说文本检索视频的提升会比视频检索文本更明显一些。具体来说，对于文本检索视频，在R@1、R@5、R@10以及MedR指标上，ASSR相比DE分别提升了0.5％、2.4％、1.8％和16.7％，比SFEM分别提升了0.9％、2.0％、2.1％和16.7％。对于视频检索文本来说，ASSR相比DE在R@1、R@5、R@10以及MedR指标上，分别提升了12.4％、2.9％、1.0％和20％。而相比于SFEM，只在R@10上提升了1.1％。ASSR相比于DE和SFEM在文本检索视频的R@K总和上分别提升了1.8％和1.9％。ASSR相比于DE在视频检索文本的R@K总和上提升了3.9％，相比于ASSR没有提升。ASSR相比DE在视频和文本相互检索的综合指标SumR上分别提升了2.9％和0.5％。

表4同模态损失函数实验结果。

实施例4

为了体现出本发明所设计的语义子空间和特征提取在视频文本检索的有效性，我们在MSR-VTT的Official划分集合上讨论了同模态损失函数的使用以及子空间数量对ASSR方法性能的影响。

表4中展示了是否使用同模态损失函数的实验结果。从实验结果可以看出，使用了同模态的损失函数之后无论是文本检索视频还是视频检索文本的性能都有明显的提升。这说明同模态损失函数让同模态的多个子空间存在差异性有利于多个子空间融合检索，进而提高了跨模态检索的性能。此外，从未使用同模态损失函数的实验结果来看，其综合指标SumR比表1中对比算法DE的结果要更好，这说明了多个语义空间的融合匹配本身就可以提高ASSR方法的检索性能，而增加同模态的损失函数可以在此基础上进一步提高检索性能。子空间数量对ASSR方法性能影响的实验结果如图2所示。从图中可以看出子空间数量对性能的影响没有明显的规律，既不是越多越好，也不是越少越好。在当前实验中每个模态使用两个语义空间时效果是最好的。子空间数量对性能影响之所以没有明显的规律，是因为子空间的数量受到ASSR方法结构以及参数的影响。所以要想通过子空间融合的方式得到一个比较好的实验结果，需要综合各种因素多次调参实验。

综上所述，为了不需要人工的选择和挖掘视频与文本的多语义表达，本发明提出了一种基于自适应的多语义空间表达的视频文本检索方法。自适应的多语义子空间表示ASSR方法仅需要比较简单的结构，就可以获得比较好的检索结果，这说明了多语义子空间表达的有效性。我们验证了子空间数量对本发明检索性能的影响，以及使用同模态子空间差异性优化的损失函数对本发明检索性能的影响。本发明具有让不同模态子空间之间保持一致性且同模态子空间之间存在差异性的特点。

尽管上面结合附图对本发明的功能及工作过程进行了描述，但本发明并不局限于上述的具体功能和工作过程，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可以做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于多语义空间的视频文本检索方法，其特征在于，包括以下过程：

第一步：特征编码

①视频特征编码，得到视频特征v^feat和多个视频语义子空间

先对视频中的帧按照时间顺序进行采样，然后使用在ImageNet数据集上预训练的CNN模型对采样出来的每一张图片都提取对应的特征向量，每个提取的特征向量都是2048维，然后将两个提取的特征向量拼接成一个4096维的特征向量，得到的视频帧级特征表示为一个特征序列{v₁，v₂，...，v_n}，其中v_i表示n帧视频中第i帧视频的特征向量，然后使用注意力池化进一步得到视频帧级聚合特征v^f；

将视频帧级特征序列{v₁，v₂，...，v_n}通过双向门控循环单元提取视频的序列特征，双向门控循环单元输出的隐藏状态序列记为其中/>表示双向门控循环单元第j个时间步的隐藏状态，然后使用注意力池化进一步得到视频序列聚合特征v^s；

②文本特征编码，得到文本特征t^feat和多个文本语义子空间

通过预训练现有的双编码模型得到预训练词向量矩阵，文本中的单词通过预训练词向量矩阵转换为词向量，文本就变成了词向量，记作：{t₁，t₂，...，t_m}；词向量通过双向门控循环单元得到词向量序列，两者分别通过注意力池化得到词向量聚合特征以及词向量序列聚合特征，将文本的词向量聚合特征与词向量序列聚合特征拼接得到文本特征的最终表示t^feat，接着使用k个全连接层映射成k个文本语义子空间，记为：

第二步：子空间学习

①跨模态子空间学习

②同模态子空间学习

第三步：子空间融合匹配

2.根据权利要求1所述的基于多语义空间的视频文本检索方法，其特征在于，第一步中所述视频帧级聚合特征v^f

双向门控循环单元第j个时间步的隐藏状态表示为：

视频序列聚合特征v^s表示为：

视频最终的特征表示v^feat如下：

v^feat＝Concat(v^f，v^s)

3.根据权利要求1所述的基于多语义空间的视频文本检索方法，其特征在于，第二步中所述单个语义子空间跨模态匹配的损失函数：

其中，表示的是第i个语义子空间匹配的损失函数，D表示的是语料库词典的大小；和/>分别表示与视频/>相关和不相关的文本，也分别称为是视频/>第i个语义子空间的正、负样本；/>和/>分别表示与文本/>相关和不相关的视频，也分别称为是文本/>第i个语义子空间的正、负样本；S表示的是余弦相似度函数；α表示距离常量；

第二步中所述k个子空间跨模态匹配损失函数表示为：

4.根据权利要求1所述的基于多语义空间的视频文本检索方法，其特征在于，第二步中视频的第i个语义子空间的概率分布表示为其中Softmax函数将一个向量的各个值转换成概率分布，同理得到文本的第i个语义子空间的概率分布/>

5.根据权利要求1所述的基于多语义空间的视频文本检索方法，其特征在于，第二步中所述视频最大化语义空间差异的损失函数为：

第二步中所述文本最大化语义空间差异的损失函数为：

第二步中所述加权损失函数L表示为：

6.根据权利要求1所述的基于多语义空间的视频文本检索方法，其特征在于，第三步中相似度分数融合表示如下：

其中，μ_i表示的是某个语义子空间相似度的权重，并且满足S表示余弦相似度函数；在对相似度矩阵/>求加权和之前将相似度矩阵执行归一化操作。

7.一种基于自适应多语义空间表示的视频文本检索系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于多语义空间的视频文本检索方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序被处理器执行时，实现权利要求1至6中任一项所述的基于多语义空间的视频文本检索方法。