CN114048351A

CN114048351A - 一种基于时空关系增强的跨模态文本-视频检索方法

Info

Publication number: CN114048351A
Application number: CN202111312233.1A
Authority: CN
Inventors: 石楚豪; 韩宁; 陈静静; 陈浩; 张�浩
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-02-15

Abstract

本发明提供了一种基于时空关系增强的跨模态文本‑视频检索方法，包括以下步骤：利用在大规模数据集上预训练InceptionResNetV2模型、I3D模型、ResNet‑101模型来分别提取视频全局特征和视频局部对象特征，将两种特征通过仿射变换映射到同一维度后，输入到多层时空Transformer模块中进行进一步的时空关系交互，得到视频特征；将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列，然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征，再将词嵌入向量特征输入到预先训练的BERT模型中得到文本特征；将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比；能够提高文本‑视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。

Description

一种基于时空关系增强的跨模态文本-视频检索方法

技术领域

本发明主要涉及人工智能技术领域，尤其涉及视频检索的技术领域，具体为一种多媒体信息检索方法。

背景技术

跨模态文本-视频检索算法旨在给定查询文本或视频的情况下，检索到与查询内容相关的视频或文本，结果按照与查询的相似程度排序。

近年来，随着多媒体数据(如视频、图像和文本)呈指数级增长，这一现象增加了对跨模态检索更高效且准确的需求。但由于视频连续帧之间呈现的时序变化，以及视频中对象之间附加的动态关系，使得视频数据不同于静态图像，导致现有的视频检索技术无法区分具有相同视觉成分，但视觉成分关系不同的视频。

跨模态文本-视频检索技术现有的研究遵循一个趋势：在获取文本和视频特征嵌入的基础上测量文本与视频的相似性。一般情况下，视频特征获取，先是对连续视频流进行帧采样得到一系列视频帧，然后将视频帧输入到2D或3D卷积神经网络(ConvolutionalNeural Network,CNN)中提取全局级别的视频特征；或是将视频帧通过预先训练好的卷积神经网络(Graph Convolutional Network,GCN)得到一系列的局部级别的区域特征，再将区域特征输入到图卷积网络中提取特征。基于根据特征表示的粒度大小，现有的工作大致可分为基于全局特征和基于细粒度特征的方法。

基于全局特征的方法，如图1所示：该方法通常使用全局特征来分别表示整个视频和查询语句，但忽略了视频和文本中的局部细节。对于视频中只有一个或几个对象且对象之间没有复杂交互的简单场景中，该方法性能表现不错。但对于涉及到复杂的更真实的场景时，这些方法的性能通常不令人满意。

基于细粒度特征的方法则注重视频或文本的局部细节，通过检测视频和文本中的对象来进行文本和视频模态的语义对齐，如图2所示：通过对细粒度的文本和视频模态之间交互建模，跨模态文本-视频检索的性能得到了显著提高，但现有的研究只是通过图卷积神经网络捕捉简单的视频对象关系或利用注意力机制(attention mechanism)作为一个跨模态交互模块来实现不同模态之间的语义对齐。由于基于图卷积神经网络的视频对象关系建模是人为手工制作的，严重依赖于专家知识和经验，这种方法可能无法有效的挖掘和建模更高级别的细粒度视觉关系。同时，对于基于注意力机制的交互模型，虽然能选择性地将视频和文本中的关键信息进行对齐，但忽略了视频中细粒度的关系信息。

上述这些视频特征没有充分利用视频不同帧之间以及帧内不同区域对象之间的复杂时空关系，导致它们无法区分具有相同视觉成分但视觉成分关系不同的视频。

发明内容

现有技术中对于跨模态文本-视频检索任务，方法大都基于不同神经网络提取的单一的视频(文本)特征并进行相似度对比，从而得到和查询条件相似度最高的视频或文本；但不管是基于提取全局视频特征的方法，或是基于视频不同帧内对象提取细粒度局部特征进行特征对齐的方法，这些方法都没有充分利用视频内对象之间的空间和时序关系，从而无法实现高准确度和高普适性的跨模态文本-视频检索方法。

本发明主要提供了一种基于时空关系增强的跨模态文本-视频检索方法，用以解决上述现有技术中提出的无法实现高准确度和高普适性的跨模态文本-视频检索方法的问题。

本发明解决上述技术问题采用的技术方案为：

一种基于时空关系增强的跨模态文本-视频检索方法，其中，所述跨模态文本-视频检索方法包括以下步骤：(1)在视频方面，利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征，将两种特征通过仿射变换映射到同一维度后，输入到多层时空Transformer模块中进行进一步的时空关系交互，得到时空关系增强后的视频特征；

(2)对于文本方面，将查询语句先利用分词器将完整语句分解成由单独的词组成的词序列，然后将词序列输入WordPiece模型中得到初步的词嵌入向量特征，再将词嵌入向量特征输入到预先训练的BERT模型中得到包含语句上下文信息的文本特征；

(3)最后将视频模态的两种特征和文本模态中的特征分别映射到两个共同嵌入子空间中进行相似度对比，文本和视频相关，相似度高，反之则相似度低，以此来检索相关视频。

与现有技术相比，本发明的有益效果为：

视频中细粒度的时空关系特征通过多层时空Transformer模块对视频中的局部对象之间的时空关系进行学习，捕获到了更高级的细粒度关系信息。

本发明利用视频中的全局视觉信息和细粒度关系信息，大大提高了跨模态文本-视频检索任务的准确度，并且本发明不仅适用于简单语义的查询条件，对于包含更复杂语义的查询，同样能实现精准检索，增强了对于复杂关系的视频检索任务的鲁棒性，从而在整体上提高了跨模态文本-视频检索性能。

以下将结合附图与具体的实施例对本发明进行详细的解释说明。

附图说明

图1为现有技术中基于全局特征的方法流程示意图；

图2为现有技术中基于细粒度特征的方法流程示意图；

图3为本发明的方法流程示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明主要提供了一种基于时空关系增强的跨模态文本-视频检索方法，本方法对视频中帧内和帧间的对象之间关系进行细粒度的时空建模，捕获了更高级别的时空关系特征；同时将视频的时空关系特征和视频全局特征分别作为关系嵌入学习和视频嵌入学习映射到共同嵌入空间与文本嵌入学习分别进行相似度的比较。两者结合能够极大提高文本-视频检索的准确度以及对复杂对象关系视频检索的鲁棒性。

本发明包括一个视觉时空关系增强模型，通过时空Transformer模型处理视频特征，用于高效的文本-视频检索；所述Transformer由三部分组成：多头自注意力(multi-head self-attention,MSA)子模块、多层感知机(multi-layer perceptron,MLP)子模块以及层正规化(layer normalization,LN)子模块；上述模型通过对视频中不同对象之间的时空关系进行交互建模，极大增强视频特征的表达能力。

Transformer首先将输入特征X(矩阵维度n×d)线性转化为三个不同的部分：查询(query)Q，键(key)K，值(value)V，然后在Q，K，V上应用点乘注意力机制，具体表达式为：Q＝W_QX，K＝W_KX，V＝W_VX；

MSA(Q,K,V)＝Concat(head₁,…,head_M)W^O,

其中，W_Q、W_K、W_V是模型中要训练的参数，Concat()为特征级联操作。

在多头自注意力子模块后接入MLP层，用于特征变化和非线性处理，具体表达式为：MLP(X)＝GELU(XW₁+b₁)W₂+b₂；

其中GELU为一种激活函数，W₁、W₂、b₁、b₂为模型中要训练的参数。

LN层在Transformer用于稳定训练和更快收敛，也是Transformer中的关键部分，具体表达式为：

其中μ和η分别是输入特征x的均值和标准差，⊙是矩阵对位相乘，γ和β分别是训练学习的参数。

如图3所示，在本发明的视频处理方面，对视频全局特征和视频局部特征分别进行时空建模处理，所述跨模态文本-视频检索方法包括以下主要步骤：(1)在视频方面，利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征，将两种特征通过仿射变换映射到同一维度后，输入到多层时空Transformer模块中进行进一步的时空关系交互，得到时空关系增强后的视频特征；

在本发明实施例中，设O和q分别表示一个视频数据集和一个查询语句，查询语句中包括对于要查询的视频内容的相关描述。文本-视频检索的目标是，给定一个查询语句q，需要从视频数据集O中找到内容上与之最相关的视频o，所述跨模态文本-视频检索方法主要包括以下工作流程：

(1)视频嵌入向量学习；对于一个视频o，首先对其进行采样得到一个包含T个视频帧的长序列，分别使用预训练的2D卷积神经网络提取外观特征，使用预训练的3D卷积神经网络获得其运动特征；然后将这两个特征合并起来，得到最终的全局视频特征Fg；再将全局视频特征Fg输入到标准的多层Transformer模块中沿特征的时间维度进行视频帧特征之间的时序交互，最终得到时空关系增强后的全局视频特征Fg。

(2)对象关系嵌入向量学习；对于包含T个视频帧的长序列，采用预训练的FasterRCNN模型来检测每个帧内的对象区域，对于每个视频帧，提取N个对象区域

其中y^t是第t个局部对象区域的特征，然后将Y^t输入到时空Transformer中，分别沿时间维度和空间维度对特征进行交互和融合；具体表达式如下：

其中l＝1,2,…,L表示时空Transformer的总层数，最终得到细粒度视频关系特征Fr。

(3)文本嵌入向量学习；对于查询文本部分，利用在大规模数据集上预训练的BERT模型对查询语句进行编码，该模型能学习查询语句中各个词之间的上下文关系。BERT包括12层Transformer模块。将查询语句输入到BERT中，最终得到全局文本特征Ft。

(4)联合嵌入向量学习；提取到视频和文本两种模态的特征后，最终的目的是要进行两种模态间的相似度比较，让语义内容相近的视频特征和文本特征在联合嵌入空间中距离相近(相似度高)，而语义内容不同的两个特征距离远(相似度低)。为了实现上述效果，采用基于排序的三元损失函数来训练视频特征Fg、Fr和文本特征Ft。基于排序的三元损失函数表达式具体为：

其中δ为人为事先设定的间距参数，S(V_i,T_i)表示视频V_i和文本T_i之间的相似度，具体表达式为：

S(V_i,T_i)＝λ·cosine(F_r,F_t)+(1-λ)·cosine(F_g,F_t)；

其中λ为人为事先设定好的权重因子，Fr、Fg、Ft分别表示细粒度视频关系特征、全局视频特征、全局文本特征，cosine(,)为余弦相似度计算，具体表达式为：

在本发明的实际测试阶段，对于需要查询的视频和文本使用本发明的模型分别计算出它们在联合嵌入空间的特征向量。根据该特征向量可以检索出与它语义相近的另一种模态的对应特征。

1.实验设置

在两个基准数据集上进行了实验测试：MSR-VTT和MSVD，用以评估本发明提出的模型性能。

MSR-VTT数据集包含10000个视频片段，每个视频片段和20个不同的描述文本匹配。在两种不同的分割方式上进行测试：1)7K Data Split的训练集包含7010个视频片段，测试集包含1000个视频片段；2)9k Data Split的训练集集包含9000个视频片段，测试集包含1000个视频片段。

MSVD数据集包含1970个Youtube视频片段，每个视频都有大约40个描述句子与之对应。本实验中使用了普遍使用的分割方法，1200个视频片段用于训练，100个视频片段用于验证，670个视频用于测试。

2.评价指标

实验采用了中位序数(Median Rank,MedR)以及topK召回率(Recall rate at topK,R@K)作为模型检索准确率的评价指标。中位序数衡量正样本在检索返回的样本中的排序的中位数，值越低代表模型的准确率越高。topK召回率衡量正样本在检索返回的样本中位于前K个样本内的比例，值越高代表模型的准确率越高。

3.实验结果

表1在MSR-VTT数据集上的结果比对

表2在MSVD数据集上的结果比对

如上表1-2所示，本发明的模型在两个数据集上都比大多方法的检索性能优越，这说明本发明的模型能利用视频中细粒度的时空关系特征增强了视频的全局特征表达。

模型首次提出对视频中细粒度的时空关系特征通过多层时空Transformer模块对视频中的局部对象之间的时空关系进行学习，捕获到了更高级的细粒度关系信息。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的示例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时空关系增强的跨模态文本-视频检索方法，其特征在于，所述跨模态文本-视频检索方法包括以下步骤：(1)在视频方面，利用在大规模数据集上预训练的InceptionResNetV2模型、I3D模型、ResNet-101模型来分别提取视频全局特征和视频局部对象特征，将两种特征通过仿射变换映射到同一维度后，输入到多层时空Transformer模块中进行进一步的时空关系交互，得到时空关系增强后的视频特征；

2.根据权利要求1所述的跨模态文本-视频检索方法，其特征在于，所述时空Transformer包括多头自注意力子模块、多层感知机子模块以及层正规化子模块，且在时空Transformer中还包括：将输入特征X线性转化为三个不同的部分：查询Q，键K，值V，然后在Q，K，V上应用点乘注意力机制，具体表达式为：

在多头自注意力子模块后接入多层感知机子模块，用于特征变化和非线性处理，具体表达式为：MLP(X)＝GELU(XW₁+b₁)W₂+b₂；

LN层在Transformer用于稳定训练和更快收敛，具体表达式为：

3.根据权利要求1所述的跨模态文本-视频检索方法，其特征在于，所述跨模态文本-视频检索方法还包括以下具体步骤：

(1)视频嵌入向量学习；对于一个视频o，首先对其进行采样得到一个包含T个视频帧的长序列，分别使用预训练的2D卷积神经网络提取外观特征，使用预训练的3D卷积神经网络获得其运动特征；然后将这两个特征合并起来，得到最终的全局视频特征Fg；再将全局视频特征Fg输入到标准的多层Transformer模块中沿特征的时间维度进行视频帧特征之间的时序交互，最终得到时空关系增强后的全局视频特征Fg；

(2)对象关系嵌入向量学习；对于包含T个视频帧的长序列，采用预训练的Faster RCNN模型来检测每个帧内的对象区域，对于每个视频帧，提取N个对象区域

(3)文本嵌入向量学习；对于查询文本部分，利用在大规模数据集上预训练的BERT模型对查询语句进行编码，该模型能学习查询语句中各个词之间的上下文关系，BERT包括12层Transformer模块；将查询语句输入到BERT中，最终得到全局文本特征Ft。

(4)联合嵌入向量学习；提取到视频和文本两种模态的特征后，采用基于排序的三元损失函数来训练视频特征Fg、Fr和文本特征Ft。基于排序的三元损失函数表达式具体为：

S(V_i,T_i)表示视频V_i和文本T_i之间的相似度，具体表达式为：S(V_i,T_i)＝λ·cosine(F_r,F_t)+(1-λ)·cosine(F_g,F_t)；cosine(,)为余弦相似度计算，表达式为：