CN114429119B

CN114429119B - 一种基于多交叉注意力的视频与字幕片段检索方法

Info

Publication number: CN114429119B
Application number: CN202210054069.7A
Authority: CN
Inventors: 王洪星; 傅豪; 荆铭; 冯超; 张小洪
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2024-05-28
Anticipated expiration: 2042-01-18
Also published as: CN114429119A

Abstract

本发明公开了一种基于多交叉注意力的视频与字幕片段检索方法，包括得到给定视频V的特征矩阵E_v；提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s；计算E_q与E_v，E_q与E_s之间的关联关系，得到和将和转化为q^(v)和q^(s)；计算最终每个片段与查询语句之间的匹配度；训练前述模型，将新视频数据输入训练后的模型得到概率P^st和P^ed，根据P^st和P^ed中概率值的大小排序，找出P^st和P^ed的值均大的N个片段作为查找的片段。该方法既能处理多个模态数据之间的关系，又可以实现双向注意力引导，从而保证先进的视频‑片段检索性能。

Description

一种基于多交叉注意力的视频与字幕片段检索方法

技术领域

本发明涉及视频-语言理解技术领域，具体涉及一种基于多交叉注意力的视频与字幕片段检索方法。

背景技术

随着视频拍摄设备的普及，互联网上视频的数量呈现爆炸式的增长。对于只对原始视频的特定部分感兴趣的用户而言，浏览整个视频是耗时费力的，视频片段检索成为迫切需求。现有方法大多关注语句查询与视频视觉信息的匹配，较少利用视频附带的字幕等文字信息。基于视频与字幕的片段检索要求同时理解查询、视频、字幕三种模态之间的关系，是一个非常具有挑战性的任务。

为了完成视频与字幕片段检索任务，一个直接的方法是新增一个额外的模块来对查询语句和字幕之间的关系进行建模。由于缺少对视频与字幕关系的建模，该种方法的能力有限。为此，跨模态编码学习成为当前研究的主要关注点，但目前的方法主要着眼于语句层面浅层次的查询关系建模，不能有效实现更细粒度的单词级跨模态深层关系学习，限制了视频与字幕片段检索的性能。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了基于多交叉注意力的视频与字幕片段检索方法，具备能够很好的对查询语句-视频和查询语句-字幕在单词-片段级别进行细粒度建模，提高了视频与字幕片段检索的性能。

(二)技术方案

为了解决上述问题，本发明设计了一个新的多交叉注意力来完成视频与字幕片段检索任务。为实现上述所说的有效对查询语句-视频和查询语句-字幕在单词-片段级别进行细粒度建模，本发明采用的具体技术方案如下：

一种基于多交叉注意力的视频与字幕片段检索方法，包括如下步骤：

S1：对视频片段和其对应字幕检索进行如下定义；

定义q＝{w₁,w₂,...,w_m}为一个查询语句，m表示查询语句q中的单词总数；

给定视频V，将视频拆分为n个不相交的片段{c₁,c₂,...,c_n},每个片段有与该片段对应的字幕信息；

最终检索到的片段即可以被表示为{c_st,c_st+1,...,c_ed},其中c_st,c_ed分别表示检索的开始片段和结束片段；

S2：提取V中n个片段的外观特征和动作特征，并将每个片段的外观特征和动作特征整合得到V的特征矩阵E_v；

S3：提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s；

S4：计算E_q与E_v,E_q与E_s之间的关联关系，得到第一种查询语句特征序列给定视频特征序列/>给定视频所对应的字幕特征序列/>和第二种查询语句特征序列/>

S5：对S4所得的单词级别的和/>分别对应的转化为句子级别特征向量q^(v)和q^(s)；

S6：计算最终每个片段与查询语句之间的匹配度，得到每个视频片段是最终检索结果的首个片段和末尾片段的概率；

S7：以深度学习的方式来训练S2-S6中的模型，使所述S2-S6中的模型均为最优模型；

S8：对于新视频数据，依次执行步骤S2-S6，得到概率P^st和P^ed，根据P^st和P^ed中概率值的大小排序，找出P^st和P^ed的值均大的N个片段作为查找的片段。

作为优选，所述S2中得到V的特征矩阵e_v的过程如下：

使用预训练的ResNet-152模型来提取V每帧的外观特征，使用预训练的I3D模型来提取V的动作特征，然后将n个片段的外观特征和动作特征进行整合，整合后得到V的特征矩阵E_v，

作为优选，所述S3提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s的步骤如下：

S31：在现有数据集上对RoBERTa模型进行训练，得到预训练的RoBERTa模型；

S32：使用S31获得的预训练的RoBERTa模型提取查询语句每个单词的特征向量，将所有单词的特征向量整合，即得到整个查询语句的特征矩阵E_q，其中m为查询语句中的单词总数，d为特征矩阵的维度；

使用S31获得的预训练的RoBERTa模型提取每个片段对应的字幕的特征向量，对一个片段内的所有字幕的特征向量取平均值得到该片段所对应字幕的特征矩阵，将所有片段所对应字幕的特征矩阵整合，即得到V所以对应字幕的特征矩阵E_s，其中n为给定视频中片段的总数，d为特征矩阵的维度。

作为优选，所述计算E_q与E_v,E_q与E_s之间的关联关系的过程如下：

S41：构建交叉注意力模块，所述交叉注意力模块包括两个自注意力单元SA-1和SA-2，还包括三个引导注意力单元GA-1，GA-2和GA-3；

交叉注意力模块表示为：

[X^*,Y^*]＝CA(X,Y) (1)

其中，X^*和Y^*分别为X和Y对应的输出，CA(*,*)表示交叉注意力模块；

定义X和Y分别是查询语句、视频片段和视频片段所对应的字幕中的任意两种，首先分别将X和Y输入到两个自注意力单元SA-1，SA-2得到增强后的特征X1和Y1；

再将<X1,Y1>输入到GA-1中，得到X2＝GA-1(X1,X2)；

再将<Y1,X2>输入到GA-2中，得到Y2＝GA-2(Y1,X2)；

再将<X2,Y2>输入到GA-3中，得到X3＝GA-3(X2,Y2)；

最终所述交叉注意力模块的输出为<X3,Y2>；

S42：使用S41构建的Cross-Attention模块分别计算E_q与E_v,E_q与E_s之间的关联关系；

其中，分别表示经过Cross-Attention模块输出的第一种查询语句特征序列和给定视频的特征序列；/>分别表示经过Cross-Attention模块输出的给定视频所对应的字幕特征序列和第二种查询语句特征序列。

作为优选，所述S5中将和/>分别对应的转化为q^(v)和q^(s)的过程如下：

S51：构建两个Query Attention Aggregation模块，每个所述Query AttentionAggregation模块均为两层的多层感知机；

S52：将使用S51构建的一个Query Attention Aggregation模块将转换为句子级别的特征向量/>其公式如下：

其中是查询语句中每个单词对应的权重；

使用S51构建的另一个Query Attention Aggregation模块将转换为对应的特征向量

作为优选，所述S6计算每个片段与查询语句之间的匹配度的过程如下：

S61：使用公式(6)计算查询语句与每个片段之间的匹配度

S62：将S输入到2个1D卷积层和一个softmax层来生成对应的P^st和P^ed，和P^st和P^ed分别表示每个视频片段是最终检索结果的首个片段和末尾片段的概率。

作为优选，所述S7中训练S2-S6中的模型的过程如下：

获取多个训练样本，每个训练样本由一个三元组<查询语句，视频，视频对应的字幕>和对应的标注构成，该标注是二元组<t^st,t^ed>，t^st和t^ed分别表示与查询语句最匹配的片段的开始和结束，损失函数可以定义为：

其中，P^st(i)和P^ed(i)分别表示P^st和P^ed向量中的第i维的值；

将带标注的训练样本作为输入，通过最小化所述损失函数对S2-S6中的模型进行训练，直到收敛或达到最大迭代轮数，保存训练完成为最优模型。

相对于现有技术，本发明至少具有如下优点：

本发明提出的多交叉注意力的视频与字幕片段检索方法过将多个自注意力网络和引导注意力网络有机的结合在一起，从而实现了既能处理多个模态数据之间的关系，又可以实现双向注意力引导。上述多交叉注意力网络探索更加细粒度的单词-片段之间的匹配关系以便于解决这类三种模态之间的复杂关系。

附图说明

为了更清楚地说明本发明实施例和现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1是本发明方法流程简图。

图2是关于视频与字幕片段检索示意图。

图3中(a)是自注意力单元的示意图、(b)是引导注意力单元的示意图，(c)是本发明交叉注意力模块示意图；其中，Self-Attention表示自注意力单元，Guided-Attention表示引导注意力单元，Proposed Cross-Attention是本发明给出的交叉注意力模块。

图4是多交叉注意力模型的结构图；其中Feature Extraction表示特征提取阶段，Multiple Cross-Attention表示多交叉注意力阶段；Multi-Modal Matching andRetrieval多模态特征匹配与片段检索阶段。

图5是采用本发明方法检索的结果示例图。

图6是本发明所提注意力交叉模块的主要变体示意图；包含有对称自注意力Sym-SA,对称引导注意力交叉Sym-GA，对称自注意力与引导注意力交叉Sym-SGA，三种不同深度的非对称自注意力与引导注意力交叉分别记为：Asym-SGA-SA，Asym-SGA-SGA和Asym-SGA2-SGA。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明，如图1-4所示，基于多交叉注意力的视频与字幕片段检索方法其特征在于，包括如下步骤：

S1：对视频片段和其对应字幕检索进行如下定义；将视频片段和其对应字幕检索任务转化为查询语句与视频片段的匹配度问题。

定义q＝{w₁,w₂,...,w_m}为一个查询语句，m表示查询语句q中的单词总数；视频与字幕片段检索的目标在于根据该查询语句从给定的视频V中(或给定的视频V中字幕中)检索出与查询语句匹配的视频片段。

给定视频V，将视频拆分为n个不相交的片段{c₁,c₂,...,c_n},每个片段有与该片段对应的字幕信息。

最终检索到的片段即可以被表示为{c_st,c_st+1,...,c_ed},其中c_st,c_ed分别表示检索的开始片段和结束片段。

S2：提取V中n个片段的外观特征和动作特征，并将每个片段的外观特征和动作特征整合得到V的特征矩阵E_v，得到E_v的过程如下：

使用预训练的ResNet-152模型来提取V每帧的外观特征，使用预训练的I3D模型来提取V的动作特征，然后将n个片段的外观特征和动作特征进行整合，整合后得到V的特征矩阵E_v，所述ResNet-152模型和I3D模型均为现有的神经网络模型，ResNet-152模型和I3D模型均可以采用现有数据集进行预训练，例如可以采用ImageNet数据集对ResNet-152模型进行预训练，采用Kinetics-600数据集对I3D模型进行预训练，预训练过程均为现有方法。

S3：提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s，具体步骤如下：

采用RoBERTa模型来提取字幕文本特征和查询文本特征，RoBERTa模型为现有的模型，RoBERTa模型的训练过程也为现有方法。

S4：计算E_q与E_v,E_q与E_s之间的关联关系，得到第一种查询语句特征序列给定视频特征序列/>给定视频所对应的字幕特征序列/>和第二种查询语句特征序列/>通过分别计算查询文本-视频关联特征和查询文本-字幕关联特征，从而增强关联程度高的重要信息，并减少弱关联的次要信息。

所述计算E_q与E_v,E_q与E_s之间的关联关系的过程如下：

交叉注意力模块表示为：

[X^*,Y^*]＝CA(X,Y) (1)

其中，X^*和Y^*分别为X和Y对应的输出，CA(*,*)表示交叉注意力模块。

再将<X1,Y1>输入到GA-1中，得到X2＝GA-1(X1,X2)；

再将<Y1,X2>输入到GA-2中，得到Y2＝GA-2(Y1,X2)；

再将<X2,Y2>输入到GA-3中，得到X3＝GA-3(X2,Y2)；

最终所述交叉注意力模块的输出为<X3,Y2>。

所述自注意力单元和引导注意力单元的结构为现有结构，针对视频与字幕片段检测任务的特性进行Cross-Attention模型设计，以便能够充分的查询语句，视频片段和视频片段对应的字幕三者之间的关联关系。

Cross-Attention模块是一个互引导Cross-Attention模块。该模块是通过交互式地链接两类注意力单元。第一类注意力单元称为自注意力单元，对于给定的输入，它通过与输入自身进行匹配来进行重建输入的特征，使得在输出的特征中增强重要信息，削弱次要信息。第二类注意力单元称为引导注意力单元，它的特点为能够接受两个不同模态作为输入，从而能够在另外模态的引导下进行特定的特征增强和削弱。在本发明中设计了Cross-Attention模块，它使用自注意力单元来探索模态内关联；使用引导注意力单元来探索跨模态关联。

自注意力单元只适用于单一模态的情况，而虽然引导注意力单元能够跨模态使用，但是它的注意力引导是单向的。因此，本发明为视频与字幕片段检索专门设计Cross-Attention模块。该发明通过交互式的将上述两类模块进行有机结合，从而达到具有获取双向注意力引导的作用。

其中，分别表示经过Cross-Attention模块输出的第一种查询语句特征序列和给定视频特征序列，这一过程记为Query-Video Cross-Attention；

分别表示经过Cross-Attention模块输出的给定视频所对应的字幕特征序列和第二种查询语句特征序列，这一过程记为Query-SubtitleCross-Attention。

通过该步骤获得的特征序列包含了查询语句每个单词与视频片段之间的细粒度关联关系，含有相当丰富的语义信息。因此，它将会有利于查询语句-视频和查询语句-字幕之间的匹配和检索。

S5：对S4所得的单词级别的和/>分别对应的转化为句子级别特征向量q^(v)和q^(s)，的具体过程如下：通过聚合单词级别的特征向量为统一的一个句子级别的向量，来解决句子长短不一问题，且能便于后续计算匹配度。

S51：构建两个Query Attention Aggregation模块，每个所述Query AttentionAggregation模块均为两层的多层感知机；对于输入的查询语句而言，上述步骤S4已经将单词-片段关系嵌入到特征矩阵和/>中。然而，单词级别特征的作用在于进行细粒度的关系匹配，最终我们仍然需要把其转换为语句级别的特征向量用于最终的匹配。因此，本发明将每个查询语句内的所有单词的特征向量聚合为一个语句级别的特征向量。最直接的方法可以使用平均池化或者LSTM等序列化建模模型。但是这些方法很强调查询语句中的关键单词。因此，本发明选择搭建两个两层的多层感知机来实现。

其中是查询语句中每个单词对应的权重；

使用S51构建的另一个Query Attention Aggregation模块将转换为对应的特征向量/> 转化为q^(s)的过程使用的公式与公式(4)和公式(5)相同，只是输入和输出不同。

S6：计算最终每个片段与查询语句之间的匹配度，得到每个视频片段是最终检索结果的首个片段和末尾片段的概率；通过整合查询语句-视频输出的特征向量和查询语句-字幕对应的特征向量可得出最终的匹配度。由于检索结果可以包含多个片段，因此本发明分别采用两个神经网络来预测检索结果对应片段索引的开始和结束。

计算每个片段与查询语句之间的匹配度的过程如下：

S61：使用公式(6)计算查询语句与每个片段之间的匹配度

S7：以深度学习的方式来训练S2-S6中的模型，使所述S2-S6中的模型均为最优模型；通过约束目标函数，本发明所提的神经网络模型会收敛。对于新输入的视频和查询语句，按照所述步骤S1-S6计算对应的开始和结束索引。

训练S2-S6中的模型的过程如下：

获取多个训练样本，每个训练样本由一个三元组<查询语句，视频，视频对应的字幕>和对应的标注构成，该标注是二元组<t^st,t^ed>(标注可以人工进行标注)，t^st和t^ed分别表示与查询语句最匹配的片段的开始和结束，损失函数可以定义为：

其中，P^st(i)和P^ed(i)分别表示P^st和P^ed向量中的第i维的值；

本发明的核心思想是去深入的探索查询语句-视频和查询语句-字幕关系。为了实现这一目的，本发明通过使用自注意力单元和引导注意力单元的有机结合，设计了一个新的Cross-Attention模块，该模块能够对两种不同模态数据进行双向建模。基于此，本发明引入了一个新的多交叉注意力神经网络，用于发掘查询语句-视频和查询语句-字幕内的单词-片段之间的关系。通过在一个非常具有挑战性的TVR数据集上大量的实验验证了本发明说提出方法具有良好的性能和优势。

图2对于输入的查询语句“House tells the person on the phone who topage.”视频与字幕片段检索的目的是去定位于查询语句最匹配的视频片段。最匹配的片段已经被高亮标记出来。

本发明将大规模TVR数据集作为实验数据，该数据包含了21793条视频，并人工对这些视频标注了大约10.9万查询语句和对应的片段。实验基于公开的90％的训练数据进行模型训练，基于公开的10％的验证集进行测试。表1对比了随机方法Random和三种现有视频片段检索方法MCN，ExCL，XML的“R@K,IoU@σ”与“mIoU”性能，其中，“R@K,IoU@σ”表示前K个检索片段包含有IoU匹配值大于σ的检索情况占比；“mIoU”表示所有测试查询返回的第一检索结果的IoU平均值。在大部分情形下，本发明所提方法取得了最好的性能。

表1本发明方法与现有方法的性能对比(％)

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多交叉注意力的视频与字幕片段检索方法，其特征在于，包括如下步骤：

S1：对视频片段和其对应字幕检索进行如下定义；

计算E_q与E_v,E_q与E_s之间的关联关系的过程如下：

交叉注意力模块表示为：

[X^*,Y^*]＝CA(X,Y) (1)

再将<X1,Y1>输入到GA-1中，得到X2＝GA-1(X1,X2)；

再将<Y1,X2>输入到GA-2中，得到Y2＝GA-2(Y1,X2)；

再将<X2,Y2>输入到GA-3中，得到X3＝GA-3(X2,Y2)；

最终所述交叉注意力模块的输出为<X3,Y2>；

其中，分别表示经过Cross-Attention模块输出的第一种查询语句特征序列和给定视频的特征序列；/>分别表示经过Cross-Attention模块输出的给定视频所对应的字幕特征序列和第二种查询语句特征序列；

S5：对S4所得的单词级别的和/>分别对应的转化为句子级别特征向量q^(v)和q^(s)，转化过程为：

其中是查询语句中每个单词对应的权重；

使用S51构建的另一个Query Attention Aggregation模块将转换为对应的特征向量/>

计算每个片段与查询语句之间的匹配度的过程如下：

S61：使用公式(6)计算查询语句与每个片段之间的匹配度

S62：将S输入到2个1D卷积层和一个softmax层来生成对应的P^st和P^ed，和P^st和P^ed分别表示每个视频片段是最终检索结果的首个片段和末尾片段的概率；

S7：以深度学习的方式来训练S2-S6中的模型，使所述S2-S6中的模型均为最优模型，训练S2-S6中的模型的过程如下：

其中，P^st(i)和P^ed(i)分别表示P^st和P^ed向量中的第i维的值；

将带标注的训练样本作为输入，通过最小化所述损失函数对S2-S6中的模型进行训练，直到收敛或达到最大迭代轮数，保存训练完成为最优模型；

2.如权利要求1所述的基于多交叉注意力的视频与字幕片段检索方法，其特征在于：所述S2中得到V的特征矩阵E_v的过程如下：

3.如权利要求1或2所述的基于多交叉注意力的视频与字幕片段检索方法，其特征在于：所述S3提取查询语句对应的特征矩阵E_q和V所对应字幕的特征矩阵E_s的步骤如下：