CN114048350A

CN114048350A - 一种基于细粒度跨模态对齐模型的文本-视频检索方法

Info

Publication number: CN114048350A
Application number: CN202111312220.4A
Authority: CN
Inventors: 韩宁; 陈静静; 陈浩; 张�浩; 曾雅文; 石楚豪
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-02-15

Abstract

本发明提供了一种基于细粒度跨模态对齐模型的文本‑视频检索方法，所述文本‑视频检索方法包括以下步骤：(1)视频嵌入特征学习，通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征；(2)文本嵌入特征学习，通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征；(3)联合嵌入学习，通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型，利用损失函数，将关键的视频语义单元特征与短语级文本语义特征对齐，并优化对应的文本和视频特征；本发明利用图自编码器在跨模态文本‑视频检索中进行文本‑视频两种模态间的细粒度交互建模，实现更好的跨模态检索性能。

Description

一种基于细粒度跨模态对齐模型的文本-视频检索方法

技术领域

本发明主要涉及信息检索的技术领域，具体为一种基于细粒度跨模态对齐模型的文本-视频检索方法。

背景技术

近年来，随着社交媒体平台(Facebook、Twitter)和视频分享平台(YouTube、TikTok)的普及，网络中多媒体数据(图像、文本、音频、视频)呈指数级增长，人们迫切需求一种根据查询内容高效地检索不同模态数据的技术。

跨模态文本-视频检索技术旨在根据用户查询的文本(视频)检索与其查询语义内容最相似的视频(文本)。该技术主要面临的问题是由于文本和视频两种不同模态之间的异构性，妨碍了不同模态之间的对齐。

该技术现有的方法一般模式是学习一个公共学习空间，在公共学习空间中直接测量模型学习到的全局或局部的文本和视频特征之间的距离，作为文本和视频间的相似度，相似度越高则表示视频和查询文本的内容越相关，反之亦然。但这些方法只是粗略地捕捉了不同模态之间的对应关系，无法捕捉视频和文本之间的细粒度交互。对于简单的只包含单个动作/事件的检索情景下能够实现精确检索，但对于更真实的复杂情景下的检索效果差强人意。

为了更好地捕捉这种细粒度的对齐关系，该技术领域近期研究了基于跨模态交互的检索方法。这些方法大都基于各种不同的注意力机制来对齐视频和文本之间的语义内容。虽然这些方法可以发现不同模态间细粒度的对应关系，从而实现性能的提升，但由于视频和文本之间存在天然的异构性差异，现有的基于注意力机制的方法可能无法很好地捕捉到和查询文本对应的视频子动作/子事件片段。并且，现有研究在很大程度上忽视了跨模态学习中视频子动作/子事件片段与句子短语之间的细粒度交互作用。从而，针对涉及到多个连贯的子动作/子事件片段的现实情景下，其检索性能往往是不能令人满意的。

发明内容

在检索复杂语义内容的情景下，视频包含了一系列具有复杂相互关系的组成对象，并且视频中的对象往往在其对应的查询文本中表现出不同程度的重要性，因此，对基于查询文本语义内容的细粒度视频特征建模是十分关键的；相比于查询文本，视频通常包含更为丰富和直观的语义内容，因为视频比对应文本包含更多的无意义的语义内容，仅简单的使用模型提取每一帧的帧级特征然后将帧级特征聚合成视频特征的做法会导致严重的信息冗余。

本发明主要提供了一种基于细粒度跨模态对齐模型的文本-视频检索方法，用于在视频和文本两种模态之间挖掘和增强有意义的语义信息，以解决现有技术中冗余无用的语义信息，从而实现了更好的跨模态检索性能的目的。

为实现上述目的，本发明采用的技术方案为：

一种基于细粒度跨模态对齐模型的文本-视频检索方法，其特征在于，所述文本-视频检索方法包括以下步骤：

(1)视频嵌入特征学习，通过视频嵌入特征学习模块在多个不同粒度等级上提取视频语义单元特征；

(2)文本嵌入特征学习，通过文本嵌入特征学习模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征；

(3)联合嵌入学习，通过联合嵌入学习模块将基于图自编码器的链接预测策略整合进本模型，利用损失函数，将关键的视频语义单元特征与短语级文本语义特征对齐，并优化对应的文本和视频特征。

进一步的，所述视频嵌入特征学习包括以下步骤：

1)首先是对视频的预处理，给定一个视频V，以预先指定的采样频率从视频V中进行均匀采样，得到一个视频帧序列，表示为{v₁,v₂,…,v_N}，其中下标N表示该序列中视频帧的长度；使用预先训练的I3D模型来提取视频的帧级特征表示，具体来说，将一个视频帧的前连续四帧和后连续四帧构成的视频子片段输入到I3D模型中，输出的最终特征作为当前视频帧的特征表示；最终将视频帧序列{v₁,v₂,…,v_N}处理成视频片段特征表示，表示为

其中f_t是第t帧的维度为d_v的一维特征向量；

2)然后是视频特征向量的聚类，采用K-means算法将原始的视频帧进行聚类，其中K为视频中可能出现子动作/子事件的最大数目；具体为，使用Calinski-Harbasz评分来评估通过视频特征生成的簇，分值越高则代表聚类越好；按时序来分割每个视频特征

即将每个视频帧特征f_t分配到簇

的其中一个；利用视频帧的时间戳对簇进行排序，得到排序后的簇，用于后续的解码；

3)为了进一步将簇的特征表达C_i转换为同一维度的向量用于跨模态的对齐；对每个簇特征表达采用平均池化操作，并将池化后的结果视为簇特征

接一个线性映射，具体表达式为：

其中

是视频每个簇的嵌入特征，

是可学习的变换矩阵，

是偏置项，最后视频片段的嵌入特征表示是所有语义单元表示的集合

进一步的，所述文本嵌入特征学习包括以下步骤：给定一个包含M个词{w₁,w₂,…,w_M}的查询文本Q，首先用现成的StanfordCoreNLP工具包，将查询文本Q拆解成一串短语

为了对每个短语s_j中词之间的上下文关系进行建模，将这一连串的短语输入到一个预训练的BERT语言表征模型，取其最后一层的768维的隐藏态来表示整个短语的信息，记作

然后用一个门控模块来将短语表征

转换成嵌入特征

最终查询文本的嵌入特征表示是所有短语特征的集合

进一步的，所述步骤三中具体包括以下步骤：

首先定义无向二分图为G＝{V,E,X}，其中V＝{x₁,x₂,…,x_n}表示所有视觉和文本语义单元的节点集合，E是节点间链接权重集合，可以用一个邻接矩阵A＝[a_ij]∈R^n×n来表示，X是所有节点的特征矩阵，即

表示级联操作，n表示节点的数量，d_*表示X的维度，在一般的链接预测问题中，图中链接的权重由输入数据决定；相比之下，图的权重是根据节点特征之间的语义相似度进行初始化的；用于更新节点的特征表达，并获取图G＝{V,E,X}的链接权重；图自编码器由一个两层的图卷积编码器和一个内积解码器构成；编码器能对齐视觉和文本语义单元，并获得关系增强后的视频和文本特征用于文本-视频检索。

进一步的，所述图卷积编码器的具体运行方法如下：

图卷积网络以图为输入，对其进行计算，并返回每个对象节点更新后的特征作为输出；对于二分图G，采用一个非线性变换操作将输入特征X映射到一个交互空间中；通过内积相似度来构造图的边关系：

图卷积网络由几层相同构造的网络叠加在一起构成，单个图卷积层以定义为：

堆叠多层图卷积网络的表达式为：

网络的最终输出是Z^1:L＝[Z¹,…,Z^L]；最后一层图卷积网络的输出

作为节点表征。

进一步的，所述内积解码器的具体运行方法如下：

内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接；编码器生成的表征已经包含丰富的内容和结构信息，可采用简单的内积解码器，通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重；重构后的邻接矩阵

可表示为：

进一步的，还包括：重构损失函数，采用交叉熵损失函数来测量自编码器的近似误差；通过测量

和A之间的差值来最小化重构损失，公式为：

最终采用更新后的邻接矩阵

来获得关系增强后的视频和文本特征表示

进一步的，所述联合嵌入学习包括以下步骤：

通过跨模态对齐方法生成的对齐后的视频和文本特征表示

在其之上使用自注意力池化操作来得到最终的视频和文本嵌入表示，该操作由两个全连接层、一个tanh激活函数和在

上进行的softmax激活函数构成，从而获得池化后的视频和文本特征；生成后的视频特征

和文本特征

表达式如下：

采用基于排序的三元损失函数来优化联合嵌入学习的性能；由于采用视频到文本的检索以及文本到视频的检索，因此损失函数的输入由两个三元组组成，即(T,O,O_{_})和(O,T,T_{_})，三元组的第一个元素是一个视频(O)或一个文本查询(T)，接下来的是一个正样例和一个来自不同模态的负样例，公式为：

用于训练该模型的整体损失函数为基于排序的三元损失函数

与重构损失函数

之和，如以下公式：

与现有技术相比，本发明的有益效果为：

从视频和文本句子的细粒度交互建模的角度出发，利用图自编码器在跨模态文本-视频检索中进行文本-视频两种模态间的细粒度交互建模，从而更好的利用视频中的细粒度对象和动作信息，实现更好的跨模态检索性能。

以下将结合附图与具体的实施例对本发明进行详细的解释说明。

附图说明

图1为本发明的模型运行流程示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供的一种基于细粒度跨模态对齐模型的文本-视频检索方法，对视频中的片段部分和文本句子中的短语部分之间进行交互式建模从而实现跨模态细粒度的对齐，进而提高跨模态文本-视频检索的性能。

本发明基于图自编码器(Graph Auto-Encoder,GAE)，将视频中片段单元和文本中短语短文的交互建模转换成一个链接预测问题(link prediction problem)，以获得视频和文本之间显式关系并增强对齐后的特征表示，以实现细粒度的跨模态对齐。

如图1所示，所述文本-视频检索方法提出的跨模态对齐模型包括：视频嵌入特征学习模块，用于在多个不同粒度等级上提取视频语义单元特征；文本嵌入特征学习模块，该模块利用预训练的自然语言处理模型(BERT)从查询文本中提取一组短语级的文本语义特征；联合嵌入学习模块，该模块将基于图自编码器的链接预测策略整合进本模型，利用损失函数，将关键的视频语义单元特征与短语级文本语义特征对齐，并优化对应的文本和视频特征。

本发明的文本-视频检索方法具体包括以下步骤：

在本发明中，所述视频嵌入特征学习包括以下步骤：

其中f_t是第t帧的维度为d_v的一维特征向量；

即将每个视频帧特征f_t分配到簇

接一个线性映射，具体表达式为：

其中

是视频每个簇的嵌入特征，

是可学习的变换矩阵，

在本发明中，所述文本嵌入特征学习包括以下步骤：给定一个包含M个词{w₁,w₂,…,w_M}的查询文本Q，首先用现成的StanfordCoreNLP工具包，将查询文本Q拆解成一串短语

然后用一个门控模块来将短语表征

最终查询文本的嵌入特征表示是所有短语特征的集合

在本发明中，视频嵌入学习和文本嵌入学习生成了两个集合，形成了多对多的视觉和文本语义单元对；为了实现自适应的挖掘有价值的信息并抑制无用的信息，将跨模态交互建模看作链接预测问题来处理；具体来说，设计一个基于图自编码器的无向二分图，用于多对多的视觉和文本语义单元的对齐；该图有助于挖掘视觉和文本语义单元之间的显示关系，并进一步精准地捕捉跨模态的语义对齐。

利用图自编码器进行跨模态对齐，包括以下步骤：

所述图卷积编码器和内积解码器的具体运行流程如下：

1)图卷积编码器旨在通过构造好的二分图结构来将原始的视频和文本特征转换成关系增强后的视频和文本特征；图卷积网络(Graph Convolutional Network,GCN)以图为输入，对其进行计算，并返回每个对象节点更新后的特征作为输出；对于二分图G，采用一个非线性变换操作将输入特征X映射到一个交互空间中；为了动态地挖掘视觉语义单元的关联短语(或是短语的关联视觉语义单元)，通过内积相似度来构造图的边关系：A＝φ(X)φ(X)^T⊙M'；

其中A表示初始化的邻接矩阵，φ表示用于学习连接异构节点的边链接权重的非线性变换操作，M'∈{0,1}^n×n是用于构造二分图的掩码矩阵，⊙是矩阵逐元素相乘操作。图卷积网络能由几层相同构造的网络叠加在一起构成；单个图卷积层可以定义为：

其中

是加入了环边的邻接矩阵，

是其对应的对角度矩阵，其元素

是每层的可学习权重矩阵，σ为一个非线性激活函数，

是每层输出的特征矩阵。

为了提取多层的图特征矩阵，堆叠多层图卷积网络，如表达式所示：

其中

是第l层图卷积网络的输出，

是第l层输出特征的维度，

参数矩阵将

的维度映射到

上。网络的最终输出是

其中图卷积网络的层数L定为2。最终用最后一层图卷积网络的输出

作为节点表征。

2)内积解码器用于重构邻接矩阵并且动态地挖掘视觉和文本语义单元之间有价值的链接；编码器生成的表征已经包含丰富的内容和结构信息，可采用简单的内积解码器，通过重构邻接矩阵来预测视觉和文本语义单元之间的链接权重；重构后的邻接矩阵

可表示为：

其中

是二分图重构后的邻接矩阵，M'∈{0,1}^n×n是用于构造二分图的掩码矩阵，⊙是逐元素矩阵乘操作。

3)重构损失函数；为了有效地表示增强后的视频和文本特征Z^L，需要保证重构后的邻接矩阵

与初始化的邻接矩阵A具有一致性；因此，采用交叉熵损失函数来测量自编码器的近似误差；这一方法通过测量

和A之间的差值来最小化重构损失，公式为：

综上所述，算法1概括了图自编码器的整个过程；最终采用更新后的邻接矩阵

来获得关系增强后的视频和文本特征表示

所述基于跨模态细粒度对齐模型的文本-视频检索的算法如下所示：

在本发明中，视频和文本特征的联合嵌入学习旨在对其特征进行相似度对比。

所述联合嵌入学习包括以下步骤：

通过跨模态对齐方法生成的对齐后的视频和文本特征表示

和文本特征

表示成如下：

其中K是视觉语义单元的数目，J是短语的数目，⊙是逐元素矩阵相乘操作；在此基础上，采用基于排序的三元损失函数来优化联合嵌入学习的性能；由于采用视频到文本的检索以及文本到视频的检索，因此损失函数的输入由两个三元组组成，即(T,O,O_{_})和(O,T,T_{_})，三元组的第一个元素是一个视频(O)或一个文本查询(T)，接下来的是一个正样例和一个来自不同模态的负样例，公式为：

其中

表示余弦相似度计算，δ为一个大于0小于1的实值；用于训练该模型的整体损失函数为基于排序的三元损失函数

与重构损失函数

之和，如以下公式：

其中λ是一个权衡参数。

在本发明的实际测试阶段，对于需要查询的视频和文本使用本发明的模型分别计算出它们在联合嵌入空间的特征向量；根据该特征向量可以检索出与它语义相近的另一种模态的对应特征。

1、实验设置

在三个基准数据集上进行了实验测试：MSR-VTT，YouCook2以及VATEX，用以评估本发明提出的模型性能。

MSR-VTT数据集包含10000个视频片段，每个视频片段和20个不同的描述文本匹配。在三种不同的分割方式上进行测试：1)Full test set的测试集包含2990个视频片段；2)1k-Miech test set的测试集包含1000个视频片段；3)1k-Yu test set的测试包含1000个视频片段。

YouCook2数据集包含2000个烹饪教学视频，并将其分割为14000个视频片段，每个视频片段有与之对应的描述文本，其中3350个视频片段用于测试。

VATEX数据集是一个多语种数据集，包含了25991个视频片段用于训练，3000个视频片段用于验证，6000个视频片段用于测试，每个视频片段有对应的10个英文描述文本和10个中文描述文本。

2、评价指标

实验采用了中位序数(Median Rank,MedR)以及topK召回率(Recall rate at topK,R@K)作为模型检索准确率的评价指标。中位序数衡量正样本在检索返回的样本中的排序的中位数，值越低代表模型的准确率越高。topK召回率衡量正样本在检索返回的样本中位于前K个样本内的比例，值越高代表模型的准确率越高。

3、实验结果

表1在MSR-VTT数据集上的检索结果比对

表2在YouCook2数据集上的检索结果比对

表3在VATEX数据及上的检索结果比对

从实验结果能看出，本发明的模型在三个数据集上都超过了大多方法的检索性能，这表明了本发明提出的模型对视频语义单元和句子短语之间进行细粒度的对齐和交互建模是有效的，从而实现更好的跨模态文本-视频检索性能。

最后应说明的是：以上示例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的示例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或等同替换；而一切不脱离发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。