CN114925232A

CN114925232A - 一种文段问答框架下跨模态的时域视频定位方法

Info

Publication number: CN114925232A
Application number: CN202210606624.2A
Authority: CN
Inventors: 俞俊; 郭宇轩; 彭玺
Original assignee: Sichuan University; Hangzhou Dianzi University
Current assignee: Sichuan University; Hangzhou Dianzi University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-19
Anticipated expiration: 2042-05-31
Also published as: CN114925232B

Abstract

本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先，把文本数据和视频数据的特征送入相同的编码器进行初步提取，并映射至相同维度。再对文本特征进行自动分割，将一些较长的句子分割为语义完整的短句，使之能与视觉特征进行更充分的融合。然后，将分割后的句子特征与视觉特征进行基于注意力机制的全局‑局部的跨模态融合，得到融合特征。其次，将融合特征视为文段问答框架中的文章，引入上下文‑查询注意力机制再次进行特征融合。最后，将最终的特征送入条件文段预测器中得到匹配的时间片段。本发明通过优化参数设置，利用适当的训练技巧，实现了更高准确率的时域视频定位方法。

Description

一种文段问答框架下跨模态的时域视频定位方法

技术领域

本发明涉及时域视频定位领域，特别是涉及基于端到端是，非基于锚点的文本视频时序定位方法。

背景技术

时域视频定位是一种针对给定问题从未经剪辑的视频中定位一个目标片段的任务，近年来受到了研究界越来越多的关注。与时间动作定位任务不同，文本视频时序定位任务更灵活，因为它可以通过自然语言定位复杂的活动，而不受预定义动作类别的限制。同时，它更具挑战性，因为它需要对文本和视频两种模态进行语义对齐，准确理解文本和视觉特征。

根据现有方法的特点可以做出以下分类。早期的模型通常采用两阶段架构，即首先扫描整个视频，通过滑动窗口策略或备选策略生成网络预切的各种候选片段，然后根据跨模式匹配模块产生的排名分数对候选片段进行排序。然而由于重叠候选段的冗余计算太多，这样的扫描和定位非常耗时，且单个成对段查询匹配也可能忽略上下文视频信息。

考虑到上述问题，出现了以端到端的方式解决文本视频时序定位任务。这种端到端模型不需要预先切割候选矩作为模型的输入。相反，在每个时间步结束的多尺度候选框由LSTM顺序或卷积神经网络分层维护，这种端到端方法称为基于锚点的方法。一些其他的端到端方法预测每个视频最小单元作为目标片段的起点和终点的概率，或者根据提供的视频和句子查询的多模态特征直接回归目标片段的起点和终点坐标。这些方法不依赖于任何候选方案生成过程，称为非基于锚点的方法。

本发明是端到端和非基于锚点的方法。文段问答框架将视频中提取出的视觉特征视为一篇文章也即上下文，并类比使用自然语言处理(NLP)领域处理文段问答问题的方法—给出查询并从上下文中定位相关的文段，来解决时域视频定位问题。相比传统文段问答框架下的方法直接将对原始视频的编码的特征用于定位，本发明使用更充分融合后的特征作为上下文，这更接近自然语言意义上的文章。本方法在时域视频定位任务上实现了更高准确率。

发明内容

本发明针对现有技术的不足，提供了一种文段问答框架下跨模态的时域视频定位方法。该方法自动划分句子语义成分并通过全局-局部跨模态交互提取到原始图像和句子更为完整的交互特征，比起传统的直接提取视频特征作为文章信息送入文段问答框架的方法，经由上述步骤得到的融合特征更接近于真实的文章信息。实验结果表明，该方法能够的到更为准确的时域视频定位结果。

一种文段问答框架下跨模态的时域视频定位方法，其步骤如下：

步骤1.数据集获取；从现有的公开文本视频时序定位任务数据集中，选择ActivityNet及Charades数据集；

步骤2.数据处理；对于步骤1中获取的数据集，对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征；对未剪辑的视频数据，对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB视觉特征；

步骤3.定义文段问答框架下跨模态的时域视频定位模型，该模型包括编码器、序列查询注意力、局部-全局/视频-文本交互、上下文-查询注意力以及条件文段预测器五个模块；以步骤2处理后的视频和文本训练数据作为输入；

步骤4.损失函数；损失函数的作用是用来校正模型定位的片段与真实视频片段之间的误差；此处采用查询可分注意力损失函数、定位损失函数两种损失函数；

步骤5.定义Adam优化器，给模型设定一个学习率，初始学习率设定为0.0001，同时采用学习率预热机制，使模型更加稳定，同时加快收敛速度；同时采用梯度裁剪来有效控制梯度消失问题；

步骤6.网络训练与测试，训练步骤3中的时域视频定位模型，训练的同时在各数据集提供的测试集上进行评估，评估采用的是mIoU，以及召回率为1时IoU为0.7时的准确率。

进一步的，时域视频定位模型具体：采用LGI作为基准模型，并引入文段问答框架，同时修改基准模型的编码器和定位，最后添加上下文-查询注意力模块和条件文段预测器模块。

进一步的，步骤3所述的编码器模块具体实现如下：

对于拥有L个词的文本词嵌入输入，首先使用全连接层统一文本词嵌入与初步视觉特征的维度；再使用两个bi-LSTM获取文本词嵌入的单词级语义特征和句子级语义特征，其中单词级语义特征第l个位置的特征

由两LSTM对应位置的隐层状态值连接(Concatenate)得到，句子级语义特征

由两个LSTM最后的隐层状态值连接得到；

对于由步骤2中CNN处理后得到的初步视觉特征和处理得到的语义特征统一到指定维度，再通过相同的bi-LSTM得到对应更细致的视觉特征和语义特征。

进一步的，步骤3所述的上下文-查询注意力模块具体实现如下：将编码器模块得到的语义特征和局部-全局/视频-文本交互模块得到的跨模态特征进行基于注意力机制的融合，融合后的特征为：

V^q＝FFN([R；A；R⊙A；R⊙B])

其中：

其中，A、B分别是上下文对查询以及查询对上下文的注意力权重，E表示单词级语义特征；R表示局部-全局/视频-文本交互模块最终输出的特征；S表示上下文特征和语义特征之间的相似度得分

S_r，S_c分别由相似度得分S通过softmax层对行及列作归一化后得，⊙代表矩阵元素间相乘，T表示转置。

进一步的，条件文段预测器模块具体实现如下：

该模块使用两个堆叠的Uni-LSTM处理上下文-查询注意力模块融合得到的特征V^q，后边界LSTM接收前边界LSTM的输出故受其限制，最终两个隐层状态被送入前馈层计算第t个特征，根据该特征计算起始处和结束处的置信度得分

其中，

分别代表第t个特征作为起始和终止边界的得分，

为V^q中的第t个融合特征，h为LSTM的隐层，W_s/e、b_s/e为前馈层的权重矩阵和偏置，起始和终止边界的计算公式如下：

P_s＝softmax(S^s)

P_e＝softmax(S^e)。

进一步的，步骤4中的查询可分注意力损失函数如下式：

其中

是联合了n步最终的查询注意力权重矩阵，||·||_F是矩阵的F范数，I表示单位矩阵；λ表示矩阵系数。

进一步的，所述的定位损失函数如下式：

其中f_CE为交叉熵损失函数，Y_s和Y_e是起始边界和终止边界的真实值，P_s和P_e起始和终止边界的预测值。

进一步的，步骤6所述评估指标如下：

IoU(交并比)被广泛运用在文本视频时序定位任务方法中来测量真实值和预测值之间的相似性。mIoU(平均交并比)是计算所有样本的预测值与真实值的平均交并比来评估结果的指标；本方法还采用了召回率为1时IoU为0.7的准确率。综合这两个指标能够有效的评测模型定位的准确率。

本发明的有益效果如下：

本发明提供了一种文段问答框架下跨模态的时域视频定位方法，该方法自动划分句子语义成分使视觉和语义特征的融合更为细致，并通过全局-局部跨模态交互提取出更为完整的交互特征，比起传统的直接提取视频特征作为文章信息送入文段问答框架的方法，经由上述步骤得到的融合特征更合理，更接近于真实的文章信息，因此更适合原本属于NLP领域的方法。适当的采取一些训练技巧，选择理想的网络参数、优化算法以及学习率的设置，提高了最终时域视频定位结果的准确度。

附图说明

图1是本发明流程图。

图2是本发明的网络框架示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明公开了一种文段问答框架下跨模态的时域视频定位方法。首先，把文本数据和视频数据的特征送入相同的编码器进行初步提取，并映射至相同维度。再对文本特征进行自动分割，将一些较长的句子分割为语义完整的短句，使之能与视觉特征进行更充分的融合。然后，将分割后的句子特征与视觉特征进行基于注意力机制的全局-局部的跨模态融合，得到融合后的特征。其次，将融合后的特征视为文段问答框架中的文章，这比直接对视频内容进行编码的到的特征更接近自然语言意义上的文章，引入上下文-查询注意力机制再次进行特征融合。最后，将最终的特征送入条件文段预测器中得到匹配的时间片段。同时，通过优化参数设置，利用适当的训练技巧，实现了更高准确率的时域视频定位方法。

如图1所示，一种文段问答框架下跨模态的时域视频定位方法，具体包括如下步骤：

步骤1.数据集获取，从现有的公开文本视频时序定位任务数据集中，选择ActivityNet及Charades数据集。

Charades-STA是建立在Charades的基础上的，它最初是为视频活动识别而收集的，由9848个描述人类日常室内活动的视频组成。基于Charades，Gao等人使用半自动管道构Charades-STA，该管道首先从视频描述中解析活动标签，并将描述与指示时间间隔的原始标签对齐。因此，生成的(描述、区间)对可以看作是时域视频定位的句子查询及目标片段对。

ActivityNet。ActivityNet字幕最初用于密集视频字幕，该数据集中的句子段对自然可用于时域视频定位任务。ActivityNet将视频与一系列临时注释的句子描述对齐。平均而言，20k个视频中的每个视频包含3.65个时间定位的句子，总共有100k个句子。每个句子的平均长度为13.48个单词。句子长度也是正态分布的。由于官方测试集被保留用于竞赛，大多数TSGV工作将两个可用的验证子集“val1”和“val2”合并为测试集。

步骤2.数据处理；对于步骤1中获取的数据集，对文本数据使用300维的GloVe向量初始化每一个单词得到语义特征；对未剪辑的视频数据，对其中每一帧进行下采样并使用预训练好的3D卷积网络提取其RGB初步视觉特征；

步骤3.如图2所示为文段问答框架下跨模态的时域视频定位网络框架图由五个部分组成，分别为编码器、序列查询注意力模块、局部-全局/视频-文本交互模块、上下文-查询注意力模块、条件文段预测器。以步骤2处理后的视觉特征以及语义特征作为输入，所有网络的隐层维度均为512，卷积核的大小为7。

本发明采用LGI作为基准模型，并引入文段问答框架，同时修改基准模型的编码器和定位，最后添加上下文-查询注意力模块和条件文段预测器模块。

进一步的，编码器模块具体实现如下：

对于拥有L个词的文本词嵌入(Word Embedding)输入，首先使用全连接层统一与视觉特征的维度。再使用两个bi-LSTM获取单词级和句子级的特征，其中单词级第l个位置的特征

由两LSTM对应位置的隐层状态值连接(Concatenate)得到，句子级特征

由两个LSTM最后的隐层状态值连接得到。

对于由步骤2中CNN处理后得到的初步视觉特征，同样使用全连接层统一与语义特征的维度，再通过相同的bi-LSTM得到对应更细致的视觉特征。

序列查询注意力模块：

对于长度为L的句子的单词级语义特征

及句子级特征

该模块通过n步最终提取出N个自动划分后的短句特征{e⁽¹⁾,...,e^(N)}。对于其中每一步，引导向量

通过嵌入连接了经线性变换后的句子级特征以及上一步的特征

得出，具体公式如下：

其中

和

是可学习得到的嵌入矩阵(embeddingmatrices)，ReLU为激活函数。当前的特征e⁽ⁿ⁾是令单词特征的注意力矩阵

通过softmax层得到。具体公式如下：

其中

是查询注意力层中的可学习得到的嵌入矩阵，

第l个单词在第n步的置信度。通过该模块的处理，可以将原句子划分为更细粒度的短句，使后续跨模态的特征融合更细致有效。

局部-全局/视频-文本交互模块：

首先对使用由两个时序卷积层组成的残差模块(ResBlock)建模局部的上下文信息，并使对应元素相乘，这里使用了大小为15的卷积核以获得长程的理解，具体公式如下：

其中

是可学习得到的短句级融合的嵌入矩阵，⊙是对应元素相乘。

代表了第i个融合后的跨模态特征，

代表第n个短句的语义特征。

获取了N个短句局部语义特征{M⁽¹⁾,…,M^(N)}后，再考虑短句语义间更全局的上下文时序关系。首先通过注意力池化(Attentive Pooling)聚合上阶段得到的所有短句局部语义特征。再使用非局部模块(NLBlock)获取全局上下文信息，具体的公式如下：

c＝softmax(MLP_satt([e⁽¹⁾,…,e^(N)]))

其中MLP_satt是含有

维隐层的多层感知机，

是所有短句语义特征的权重向量。

是通过注意力池化得到的聚合特征。

是通过局部-全局/视频-文本交互模块得到的最终的特征。

是非局部模块中可学习得到的矩阵。通过上个模块得到的划分后的短句语义特征，本模块使这些特征被充分理解，并使两种模态的信息在全局和局部层面充分交互。

上下文-查询注意力模块：

本模块是自然语言处理领域中针对文段问答问题提出的模块。在经过上述模块的处理后得到充分融合的跨模态上下文特征，此时的特征比以往方法直接编码视频不进一步处理得到的特征更接近真实的文章，也更适用于文段问答框架。

首先计算上下文特征和语义特征之间的相似度得分

随后计算又上下文对查询A及查询对上下文的注意力权重B，具体公式如下：

其中S_r，S_c分别由相似度得分S通过softmax层对行及列作归一化后得到。最终上下文-查询的注意力由下面公式得出：

V^q＝FFN([R；A；R⊙A；R⊙B])

条件文段预测器：

该预测器使用两个堆叠的Uni-LSTM处理之前融合后的特征，后边界LSTM接收前边界LSTM的输出故受其限制，最终两个隐层状态被送入前馈层计算第t个特征作为起始处和结束处的置信度得分，具体公式如下：

分别代表t时刻作为起始和终止边界的得分，

为V^q中的第t个融合特征，W_s/e、b_s/e为前馈层的权重矩阵和偏置。最终边界的计算公式如下：

P_s＝softmax(S^s)

P_e＝softmax(S^e)

步骤4.定义损失函数。本方法使用了两种损失函数，其中查询可分注意力损失函数如下式：

其中

是联合了n步最终的查询注意力权重矩阵，||·||_F是矩阵的F范数。该损失函数帮助序列查询注意力模块将长句更精准地划分为合适的短句。

定位损失函数如下式：

其中f_CE为交叉熵损失函数，Y_s和Y_e是起始和终止边界的真实值，P_s和P_e起始和终止边界的预测值。

步骤5.定义Adam优化器，给模型设定一个合理的学习率，初始学习率设定为0.0001，同时采用学习率预热机制，使模型更加稳定，同时加快收敛速度；同时采用梯度裁剪来有效控制梯度消失问题；步骤6.网络训练与测试，使用大小为16的批量大小进行训练，总共进行20个训练批次数。根据查询可分注意力函数和定位损失函数利用步骤5定义的Adam优化器进行梯度更新，其中学习率设置为0.0001，梯度裁剪参数为1.0，另外还使用了0.2的dropout防止模型过拟合。

网络训练与测试，训练步骤3中的模型，在训练的同时在各数据集提供的测试集上进行评估，评估采用的是平均IoU(交并比)，以及召回率为1时IoU为0.7时的准确率。IoU被广泛运用在文本视频时序定位任务方法中来测量真实值和预测值之间的相似性。mIoU(平均交并比)是计算所有样本的预测值与真实值的平均交并比来评估结果的指标；本方法还采用了召回率为1时IoU为0.7的准确率。综合这两个指标能够有效的评测模型定位的准确率。

实验采用的对比模型是最近在ActivityNet和Charades数据集上表现优异的LGI模型。实验指标对比如下表1。

表1本发明与LGI模型指标对比图