CN111814844A

CN111814844A - 一种基于位置编码融合的密集型视频描述方法

Info

Publication number: CN111814844A
Application number: CN202010563286.XA
Authority: CN
Inventors: 王瀚漓; 杨思璇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-03-17
Filing date: 2020-06-19
Publication date: 2020-10-23
Anticipated expiration: 2040-06-19
Also published as: CN111814844B

Abstract

本发明涉及一种基于位置编码融合的密集型视频描述方法，该方法对待描述视频进行序列特征图提取，计算视频帧序列的绝对位置编码及上下文之间的相对位置编码，在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码，计算图像相似度，对序列特征图进行重编码，基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列，基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比，本发明具有事件定位能力强、描述准确性高等优点。

Description

一种基于位置编码融合的密集型视频描述方法

技术领域

本发明涉及计算机视觉技术领域，具体是涉及视频描述技术领域，尤其是涉及一种基于位置编码融合的密集型视频描述方法。

背景技术

传统的视频描述任务致力于实现视频的视觉感知和自然语言表达，将计算机视觉和自然语言处理有机地结合起来。与先前的视频摘要任务相比，视频描述不仅需要从视频中生成动作概念，而且需要生成完整的描述性语句。然而，复杂的长视频自动描述成为视频描述任务的瓶颈。通常，一条长视频包含多个子事件，且子事件之间具有强逻辑关联，甚至在时间域上重叠，而目前的主流视频描述模型只能集中关注一个或两个主要动作。近年来，随着大型活动数据集的引入，训练能够处理复杂视频的模型成为可能。

与密集型图像描述任务类似，密集型视频描述任务要求定位多条事件的发生，确定各事件的时域节点并分别生成完整描述。大多数现有的方法将该任务分成两个子任务：事件时域定位和事件自动描述，如CN110072142A。由于事件个体之间存在着不可分割的逻辑关系，因此构建模型需要考虑上下文的信息推理。早期研究通过使用滑动窗口实现事件的时域定位，这种方法建立在冗余迭代的基础上，缺乏与上下文的语义联系。一些工作基于递归神经网络(Recursive Neural Networks，RNNs)的相关模型在自然语言处理任务中的显著性，对视频中的帧序列进行编码并分析其相关性。虽然RNNs对于短事件定位的效果颇佳，但此类网络固有的长期依赖性(Long-term Dependency)增加了长事件定位的难度。目前，一些工作提出基于自注意力机制的转换器(Transformer)模型实现事件时域定位和视频描述，证实了其在训练上的显著并行性和学习长期依赖的潜力。现有的架构仅考虑了视频转化的图像序列中的绝对位置嵌入，在学习图像序列的相似度与事件定位时考虑了绝对位置的影响，而忽略了帧之间的相对位置偏差。然而，图像之间的相对位置偏差对于视频帧的自注意力机制及事件定位是必不可少的信息。通常认为，视频帧的所在位置及相对位置编码包含丰富的信息而现有的工作并没有充分利用绝对和相对位置信息学习事件的时域定位，事件定位与事件描述的性能仍具有较大的上升空间。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷而提供一种事件定位能力强、描述准确性高的基于位置编码融合的密集型视频描述方法。

本发明的目的可以通过以下技术方案来实现：

一种基于位置编码融合的密集型视频描述方法，该方法对待描述视频进行序列特征图提取，计算视频帧序列的绝对位置编码及上下文之间的相对位置编码，在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码，计算图像相似度，对序列特征图进行重编码，基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列，基于注意力机制对已定位的子事件特征图序列按序解码成自然语言描述。

进一步地，所述序列特征图提取具体为：

对所述待描述视频进行图像序列采样，对每帧图像进行特征提取，生成对应的特征图和光流图并拼接，得到序列特征图。

进一步地，所述绝对位置编码基于每帧图像在序列中的发生次序获得，表示为：

式中，ord表示图像在序列中的顺序标量，i表示特征图通道，d_x表示图像特征的维度，

为图像特征的奇数通道添加余弦型绝对位置编码，

为图像特征的偶数通道添加正弦型绝对位置编码。

进一步地，所述位置偏差编码

为第i帧图像与第j帧图像的位置偏差。

进一步地，所述自注意力机制编码模型基于多头自注意力机制获取每一帧图像与上下文的图像相似度，最后获得的重编码为多个独立头部输出的加权和。

进一步地，所述图像相似度的计算式为：

式中，

表示图像x_i、x_j的特征向量，W_query、W_key、W_value表示一组自注意力机制相关的参数矩阵，U为位置编码融合权重矩阵，d_x表示图像特征的维度，

为绝对位置编码，

为位置偏差编码，s_i,j为图像相似度。

进一步地，采用基于卷积神经网络的事件定位模型对视频中的子事件进行初始定位，获得子事件的时域节点与置信度得分，根据预设的置信度阈值筛选可描述事件，基于所述时域节点得到精确的事件边界后，采用掩码模块在序列特征图上提取事件特征图序列。

进一步地，所述事件定位模型中的事件边界点回归定位采用锚点偏移机制，基于真实标签事件的分布设置一组锚点，每个与真实事件标签关联的锚点以长度l_a和锚点中心c_a表示，目标事件锚点以事件长度l_p和事件中心c_p表示，对目标事件锚点进行训练回归优化，获得事件的时域节点，表达式为：

式中，

为事件中心点偏移，

为事件长度偏移；

根据回归定位后的时域节点获取事件边界{Start_p,End_p}：

Start_p＝c_p-l_p/2，End_p＝c_p+l_p/2。

进一步地，采用基于自注意力机制与联合注意力机制的自动描述解码模型获得所述自然语言描述。

进一步地，所述自动描述解码模型中，在每个时间步，利用联合注意力机制计算目标事件与上下文的相关性得分，同时利用自注意力机制与掩码机制生成合适单词，在下一时间步，目标事件中已被描述的特征信息被掩码，掩码的特征序列以及已生成的单词序列作为下一时间步的输入，循环输出单词，直至所有子事件被完整描述。

与现有技术相比，本发明具有如下有益效果：

(1)本发明在密集型视频描述任务加入相对位置编码机制，将视频序列的每帧图像与上下文位置偏差信息融入视频特征序列，有助于提高自注意力机制学习图像间相关度的性能，进一步提高事件定位的能力。

(2)本发明将相对位置信息与绝对位置信息同时嵌入在视频特征序列中，有助于模型同时关注图像序列的不同位置信息，有效地提高事件定位的准确性，进一步提高描述的准确度及与上下文事件的关联度。

(3)本发明可以视具体情况扩增多种不同机制的位置编码，包括学习位置编码、对数型位置编码以及其他改进的相对位置编码机制，不仅限于示例的融合方法，在提高模型对密集型视频的事件定位及事件描述的性能上具有潜在提升空间。

(4)本发明的位置编码融合机制具有良好的可移植性，可应用于大多数采用基于自注意力机制的机器模型中，例如机器翻译任务、目标检测任务的现有模型等。

附图说明

图1为本发明的原理框架示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于位置编码融合的密集型视频描述方法，该方法对待描述视频进行序列特征图提取，计算视频帧序列的绝对位置编码与上下文之间的相对位置编码，在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码，计算图像相似度，对序列特征图进行重编码，基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列，基于注意力机制对已定位的子事件特征图序列按序解码成自然语言描述。

如图1所述，上述视频描述方法采用的原理框架包括视频预处理模块、自注意力机制编码模型、事件定位模型和自动描述解码模型，具体实现视频描述的过程包括以下步骤：

步骤1：构建视频预处理模块，包括抽帧处理和图像特征提取网络，抽帧处理采用每0.5秒/帧的采样频率进行图像采样，图像特征提取网络对每帧图像提取视觉图像特征及光流特征，生成对应的特征图和光流图并拼接，得到序列特征图。

本实施例中，分别采用ResNet-101网络的一维压平层(Flatten layer)提取图像特征，采用BN-Inception网络对每5帧连续图像提取光流图，这两个网络都在ActivityNet大型动作数据集上进行预训练，特征提取过程中继续微调。

步骤2：构建视频图像序列的绝对位置与相对位置编码器。在提取视频图像特征图序列基础上，增加了序列的位置信息与上下文的位置关联信息。

根据每帧图像在序列中的发生次序，得到各自的绝对位置编码，具体表示为：

式中，ord表示图像在序列中的顺序标量，i表示特征图通道，d_x表示图像特征的维度。

为图像特征的奇数通道添加余弦型绝对位置编码，

为图像特征的偶数通道添加正弦型绝对位置编码，从而使每帧图像的每个通道得到位置编码矩阵，并融合到原本的特征图序列中。

根据每帧图像在序列中与其他图像的位置偏差，为每帧图像的特征图嵌入一个相对位置编码

以表示其在序列中与其它图像的相对位置偏移，Pos_i-j ^rel代表第j帧图像x_j对于当前帧图像x_i的相对距离，

是一个无需训练的正弦信号相对位置矩阵。

图像序列特征图、绝对位置编码、相对位置编码作为自注意力机制编码模型的输入，在自注意力机制模型中加权融合，不断根据训练反馈的损失优化权值。

步骤3：构建视频图像序列位置编码加权融合机制，具体实施时将该机制嵌入自注意力机制，与自注意力机制一同训练，学习其与上下文的相关度得分并归一化加权重编码，使重编码后的特征序列融合上下文的加权信息。编码模型基于多头自注意力机制获取每一帧与上下文的相似度，图像序列特征图及对应位置编码作为输入到点积注意力机制中获取相关度得分。其中，图像序列特征图作为自注意力机制的输入，由于数据集内视频长度不一致，模型设置最大序列窗口长度为500，以满足最大图像序列长度。

自注意力编码中，图像相似度得分表达式为：

相似度得分经归一化：

重编码后的序列特征为

相似度得分与图像特征加权求和重编码：

给定一组长度为L的视频序列输入X＝{x₁,...,x_L}，对于每帧图像

定义有三个注意力机制的重要的相关向量q_i,k_i,

分别为：

其中，W_query、W_key、W_value表示一组自注意力机制相关的参数矩阵，在训练中更新，

表示图像x_i的特征向量。

给定视频图像特征图序列、绝对位置编码序列、相对位置编码序列，输入自注意力编码器，生成图像相似度得分并更新融合机制权重。对于加入位置编码融合机制的自注意力模型，图像相似度得分为：

其中，U为模型训练中更新的位置编码融合权重矩阵。

为使模型同时注意到序列多个位置，所述自注意力机制编码模型基于多头自注意力机制获取每一帧图像与上下文的图像相似度，这种机制通过多个独立的表示子空间提高注意力的容量和准确度。每个头部利用相同的输入独立训练自注意力模块的参数矩阵W_query、W_key、W_value，独立获得注意力编码。最后获得的重编码为多个独立头部输出的加权和。本实施例中，在编码器模型中创建2层、8头的自注意力机制，第1层自注意力的输出作为第2层自注意力机制的输入，即：

Y¹＝MHA(X)

Y²＝MHA(Y¹)

式中，MHA(·)表示多头自注意力机制，Y¹表示第1层输出，Y²表示第2层输出，X为图像序列特征。每个头以相同的图像序列特征作为输入，独立地训练和更新各自的参数矩阵，最后的输出为所有独立头部的加权和，为此另外添加一个权重矩阵W_o，其权值在训练中被更新，加权公式为：

步骤4，构建基于卷积神经网络的事件定位模型，以步骤3的输出作为网络的输入，对重编码后的特征序列解码预测子事件，获取多条子事件的时域节点及置信度得分，根据预设的分数阈值进行事件筛选。

基于卷积神经网络的事件定位模型训练时，对预测事件建议输出置信度得分P∈[0,1]和两项偏移值：事件中心点偏移

和事件长度偏移

事件定位模型的事件边界点回归定位采用锚点偏移机制，模型基于真实标签事件的分布设置一组锚点，每个与真实事件关联的锚点以长度l_a和锚点中心c_a表示。通过ActivityNet Captions数据集训练回归优化目标事件锚点的事件长度l_p和事件中心c_p，获取事件的时域节点，其表达式为：

根据回归定位后的时域节点得到事件边界{Start_p,End_p}：

Start_p＝c_p-l_p/2,End_p＝c_p+l_p/2

事件定位模型输出事件的时域节点与置信度得分，根据预设的置信度阈值筛选可描述事件，掩码模块基于事件的时域节点在图像特征序列上提取事件特征图，作为自动描述解码模型的输入。

步骤5，构建基于注意力机制的自动描述解码模型，训练时以训练集的真实事件标签作为解码模型的输入。所述自动描述解码模型中，在每个时间步，利用联合注意力机制计算目标事件与上下文的相关性得分，同时利用自注意力机制与掩码机制使模型在每个时间步更为关注应当被描述的事件内容，生成合适单词，在下一时间步，目标事件中已被描述的特征信息被掩码，部分掩码的特征序列以及已生成的单词序列作为下一时间步的输入，循环输出单词，直至所有子事件被完整描述。

每个时间步t，对当前单词及已生成单词采取自注意力机制，获取单词序列间的相关度得分：

同时，在每个时间步t，采取掩码方式提取事件图像特征图序列，其表达式为：

Prop_t＝Masking(Y,(start,end))

所述自动描述解码模型中，多头自注意力机制独立接受目标事件序列与上下文学习目标事件与背景信息相似度，利用上下文信息影响每个时间步的模型关注机制。目标事件特征图与上下文经多头联合注意力机制重编码后，对事件特征进行解码，基于已生成的单词序列获得当前单词的概率向量：

Probability(t|t-1,...,1)＝Softmax(FF(MHA(Prop^t,α_t)))

式中，FF(·)为前馈网络，MHA(·)为多头自注意力机制。基于单词概率向量中的概率最大值生成当前时间步的单词。

实际模型训练中，每一步均采用残差连接与前向网络简化参数更新步骤。

整个模型训练时以数据集的真实描述单词作为输入进行训练，采取端到端的训练方式，每个时间步生成的单词与真实描述比较计算损失函数，采用随机梯度下降法(SGD)优化参数矩阵降低损失。

本实施例中，采用随机梯度下降法定义4种独立的损失函数，在训练中不断优化各模块的参数：

(1)事件定位回归损失函数L_reg

(2)事件定位得分损失函数L_prop

(3)事件分类预测损失函数L_pred

(4)事件描述损失函数L_cap

总损失函数L定义为：

其中，λ_i,i∈{1,2,3,4}为端到端训练中调节各损失函数所占总体权重的超参数。

为了验证本发明的性能，设计了以下两组实验。

实验一：基于绝对位置编码(Abs-only)、相对位置编码(Rel-only)、位置编码融合(Fusion)三种不同机制，对包含2层子网络和8个独立头部的事件建议模型与描述模型单独训练。前述三种机制的实验在ActivityNet Captions数据集上的METEOR评分进行了测试和结果对比，2019年的新版本测试方式与2018年的旧版本测试方式都将被采用。

表1不同位置编码机制在ActivityNet Captions上的结果对比

	METEOR(2018)	METEOR(2019)
			Abs-only	9.5600	6.6200
Rel-only	10.3252	7.1615
			Fusion	10.3635	7.2181

在表1中比较了不同位置编码机制下模型的性能。基于相对位置的模型获得了10.3252(2018)和7.1615(2019)的METEOR得分，优于原始仅采用绝对位置编码的模型。而基于本发明的位置编码融合实验结果分别是10.3635(2018)和7.2181(2019)，在两项指标上均获最高得分。

实验二：基于本发明的实验与DEM、DVC、MFT、Bi-LSTM和End-to-End Trans主流算法进行了比较，如表2。显然，与主流模型相比，本实验取得了具竞争力的结果。

表2实验与ActivityNet Captions上主流算法的结果对比

	METEOR(2018)	METEOR(2019)
			DEM	4.8200	-
DVC	6.9300	-
			MFT	7.0800	-
Bi-LSTM	9.6000	5.4200
			End-to-end Trans	9.5600	6.6220
Fusion(Our Model)	10.3635	7.2181

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由本发明所确定的保护范围内。

Claims

1.一种基于位置编码融合的密集型视频描述方法，其特征在于，该方法对待描述视频进行序列特征图提取，计算视频帧序列的绝对位置编码及上下文之间的相对位置编码，在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码，计算图像相似度，对序列特征图进行重编码，基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列，基于注意力机制对已定位的子事件特征图序列按序解码成自然语言描述。

2.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述序列特征图提取具体为：

3.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述绝对位置编码基于每帧图像在序列中的发生次序获得，表示为：

为图像特征的奇数通道添加余弦型绝对位置编码，

为图像特征的偶数通道添加正弦型绝对位置编码。

4.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述位置偏差编码

为第i帧图像与第j帧图像的位置偏差。

5.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述自注意力机制编码模型基于多头自注意力机制获取每一帧图像与上下文的图像相似度，最后获得的重编码为多个独立头部输出的加权和。

6.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述图像相似度的计算式为：

式中，

为绝对位置编码，

为位置偏差编码，s_i,j为图像相似度。

7.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，采用基于卷积神经网络的事件定位模型对视频中的子事件进行初始定位，获得子事件的时域节点与置信度得分，根据预设的置信度阈值筛选可描述事件，基于所述时域节点得到精确的事件边界后，采用掩码模块在序列特征图上提取事件特征图序列。

8.根据权利要求7所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述事件定位模型中的事件边界点回归定位采用锚点偏移机制，基于真实标签事件的分布设置一组锚点，每个与真实事件标签关联的锚点以长度l_a和锚点中心c_a表示，目标事件锚点以事件长度l_p和事件中心c_p表示，对目标事件锚点进行训练回归优化，获得事件的时域节点，表达式为：

式中，

为事件中心点偏移，

为事件长度偏移；

根据回归定位后的时域节点获取事件边界{Start_p,End_p}：

Start_p＝c_p-l_p/2，End_p＝c_p+l_p/2。

9.根据权利要求1所述的基于位置编码融合的密集型视频描述方法，其特征在于，采用基于自注意力机制与联合注意力机制的自动描述解码模型获得所述自然语言描述。

10.根据权利要求9所述的基于位置编码融合的密集型视频描述方法，其特征在于，所述自动描述解码模型中，在每个时间步，利用联合注意力机制计算目标事件与上下文的相关性得分，同时利用自注意力机制与掩码机制生成合适单词，在下一时间步，目标事件中已被描述的特征信息被掩码，掩码的特征序列以及已生成的单词序列作为下一时间步的输入，循环输出单词，直至所有子事件被完整描述。