CN113392717A

CN113392717A - 一种基于时序特征金字塔的视频密集描述生成方法

Info

Publication number: CN113392717A
Application number: CN202110558847.1A
Authority: CN
Inventors: 俞俊; 余宙; 韩男佳
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2021-09-14
Anticipated expiration: 2041-05-21
Also published as: CN113392717B

Abstract

本发明公开了一种基于时序特征金字塔的视频密集描述方法。在变换网络模型框架下，对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征，然后使用多个检测头对不同分辨率的特征进行检测，实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后，本发明进一步地利用特征融合方式对不同分辨率的视频特征进行融合，从而为事件生成更具针对性的描述。本发明方法相比于其他方法取得了更高的准确率和召回率，同时，描述生成解码器根据融合之后的特征也生成了更高质量的描述语句，这证明了该方法的普适通用性，可在其他多模态任务中充分发挥价值。

Description

一种基于时序特征金字塔的视频密集描述生成方法

技术领域

本发明属于视频处理领域，具体涉及一种基于时序特征金字塔 (TemporalFeature Pyramid)的视频密集描述生成方法(Dense Video Captioning，DVC)。

背景技术

视频密集描述是一项多媒体领域的新兴任务，该任务旨在根据提供的未经剪辑的原始视频，进行事件定位并生成描述语句。具体来讲是输入一个视频文件，通过模型后先定位出视频中哪些时间区间(包括开始时刻和结束时刻)中存在事件。例如,视频的第2秒到第12秒之间的区间存在着某个事件，视频的第21秒到第33秒之间的区间也存在着某个事件等一系列可能包含事件的时间片段信息。对于每一个可能包含事件的时间片段，例如第2秒到第12秒之间，视频密集描述模型还需要描述该时间片段内发生的事件的内容。为了得到更准确的预测，机器需要理解给定视频和文本的内在含义，并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像，视频可以被理解为具有时序连贯性的图像，如何利用好视频中的时序信息，在时间维度进行建模也是研究视频领域的关键。

近年来，深度学习受到科研机构、工业界的高度关注，发展至今已收获诸多优秀的网络模型和各种有效的训练方法。随着学术研究的深入，跨模态任务逐渐成为一个主流的研究方向。同时跨模态更符合真实的生活场景，具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体，结合自然语言，形成了视频-文本的跨模态研究方向，视频密集描述就是其中一个较为重要的方向，在定位事件的同时实现准确地描述，让计算机根据输入的视频自动定位出视频中包含的事件的开始和结束位置并以恰当的语言描述这些视频中发生的事件是一个值得深入探索的研究问题。

多年来，在跨媒体研究领域中，人们已经认识到获取模态间关联关系的重要性，并使用注意力机制尝试挖掘模态间丰富的关联关系。也有部分研究开始注意到模态内信息的交互，在融合前通过自注意力机制或是不同的线性层，获取模态内特征之间的关联关系。由于跨媒体信息的理解需要建立在对单个模态内部信息充分利用的基础上，无论是图像文本或者视频，都存在更多值得挖掘的有效信息，对模态内信息的建模无疑有助于加深单个模态的理解进而增强最终融合特征的表达能力。

在实际应用方面，视频密集描述算法具有广泛的应用场景。在娱乐场景下，如YouTube,爱奇艺，腾讯视频等视频软件中，根据用户的历史数据，可以快速查找到最新视频中用户感兴趣的片段。在安保系统中也具有十分良好的研究前景及重要的研究意义。

综上所述,视频密集描述是一个值得深入研究的课题，本专利拟从该任务中几个关键点切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的视频密集描述系统。

自然语言的描述一般来自不同的标注者，具有较高的自由度，不具备统一固定的句子结构。同时，自然场景下的视频载体主题多样，内容复杂富于变化，帧与帧间可能具有较高的相似性和冗余度，而这使得视频密集描述面临巨大的挑战。具体而言，主要存在如下两方面的难点：

(1)由于视频密集描述任务中，事件检测一直是一个必不可少的环节，而现有方法在获得视频特征之后，往往使用单一的检测器对视频中发生的事件进行检测和定位。同时为了进行更加准确的定位，一般采用视频的细粒度特征。但是单一的检测器很难应对视频密集描述任务中持续时间差异巨大的不同事件，导致只能对持续时间在特定范围内的事件进行较好的检测。另外，由于长持续时间的事件在定位时需要蕴含更多全局信息的粗粒度特征，单一的细粒度特征反而会导致其定位的不准确。因此，如何让模型能够兼顾不同持续时长的事件对特征分辨率的不同需求，生成更准确的候选时间片段，是视频密集描述任务中的难点问题，也是影响结果性能的重要原因。

(2)在检测出包含事件的时间片段之后，视频密集描述任务还要求对片段内包含的事件生成描述语句，现有方法生成描述语句时普遍基于视频的单一分辨率特征。这种方式忽略了不同分辨率特征对事件描述的不同作用。另外，生成描述时也往往采用循环神经网络，受限于循环神经网络自身递归的特性，描述生成模块难以在训练时并行计算，在一定程度上降低了训练的效率。

发明内容

针对现有技术中存在的不足，本发明提供了一种基于时序特征金字塔的视频密集描述方法。本发明提出一种基于时序特征金字塔 (Temporal Feature Pyramid)的视频密集描述生成方法(Dense Video Captioning，DVC)。核心方法为提出的多层次时序特征金字塔模型，用来解决不同持续时间的事件的检测问题，并在视频密集描述这一跨模态深度学习任务中验证该模型的优越性。本方法提出在变换网络模型(Transformer)框架下，对视频进行编码的同时利用局部注意力机制获取不同分辨率的特征，然后使用多个检测头对不同分辨率的特征进行检测，实现对不同持续时间的事件的全面覆盖。在检测出可能包含事件的时间片段之后，本发明进一步地利用特征融合方式对不同分辨率的视频特征进行融合，从而为事件生成更具针对性的描述。实验中将未经剪辑的视频输入基于时序特征金字塔的视频密集描述模型，在候选时间片段模块预测出时间片段之后，可以发现相比于其他方法取得了更高的准确率和召回率，同时，描述生成解码器根据融合之后的特征也生成了更高质量的描述语句，这证明了该方法的普适通用性，可在其他多模态任务中充分发挥价值。

本发明主要包含两点：

1、借助局部注意力机制将基于不同分辨率的多个检测头同时用于事件检测，有效覆盖了视频密集描述任务中不同持续时间的事件，充分发掘视频的内在信息，得到更高准确率和召回率的候选时间片段集合。

2、提出了基于特征融合的描述生成解码器，将不同分辨率的特征进行融合，使得底层细粒度特征也可以获得高层粗粒度特征的全局语义信息。解码器在获得同时具备细节信息和全局信息的特征以后，可以充分理解视频的上下文信息和时序相关性，生成更具针对性的描述文本。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤(1)、数据预处理，对视频和文本数据提取特征：

首先对视频V进行预处理和特征提取：

对于一段未经剪辑的视频V，以a帧为单位将其切分成t个块，对于一块中的a帧图像使用Kinetics数据集上预训练好的I3D模型对其提取特征，同时对于相应的光流图以同样的方式提取特征，然后将这两种特征在时间维度上对齐之后合并在一起，并经过一个可训练的嵌入矩阵后，得到代表整个视频的特征向量X。

其次提取文本信息的特征：

对于一个给定的句子Y，去除句子中的标点符号，然后把句子中的每一个单词放入GloVe模型以获取词嵌入特征，然后使用一个嵌入矩阵自适应地学习不同维度的相应权重，即可得到代表整个句子的特征向量Y。

步骤(2)、通过基于局部注意力机制的视频特征编码器进行特征编码：

所述的视频特征编码器由L个注意力模块组成，每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN。对于视频特征X，将其输入视频特征编码器中，得到不同分辨率的特征集合

以下将阐述具体过程。

首先将视频特征X视为X⁰，然后依次输入到第1个注意力模块的自注意力子模块MHA和前馈网络子模块FFN中。在自注意力子模块中，采用局部注意力机制限制每个位置的元素的感受野，使得输出特征中每个位置的元素仅由输入特征中相邻位置的元素重构得到，形成了类似卷积神经网络中的局部感受野机制。前馈网络子模块则用于对输出特征进行再次映射，得到第1个注意力模块的输出

将

作为第2个注意力模块的输入，如此循环，直到得到第L个注意力模块的输出

为止。

步骤(3)、构建基于特征金字塔结构的候选片段生成模块；

如图1所示，首先将不同注意力模块的输出特征输入到不同的检测头中，对于第l(1≤l≤L)个检测头，其输出为

对于Q^l中的每一个元素

根据视频特征的采样间隔，得到对应的开始和结束时刻以及相应的置信度分数。另外，由于视频特征编码器中较低层次的注意力模块输出的特征分辨率较低，而较高层次的注意力模块输出的特征分辨率较高，所以基于编码器第l注意力模块输出特征的第l个检测头负责预测持续时间位于ξ_l-1～ξ_l之间的事件。

在模型的训练阶段，候选片段生成模块的输出分为两个部分，第一部分是预测的事件中心位置和事件持续时间长度，这一部分影响了预测的时间片段的开始和结束时刻。对于每一个标注的事件，选择一个中心位置及anchor尺寸最匹配的输出特征中的元素

用于计算损失L_reg。此处，使用回归损失函数衡量预测值与实际值之间的偏差。第二部分是预测的置信度，代表当前时间片段中包含事件的可能性。将用于计算回归损失的元素

视为正样本，其余均视为负样本，对所有样本计算分类损失L_cls。最后，将两个损失相加，得到事件检测阶段第l个检测头的全部损失

将所有检测的损失函数相加，就能够得到事件检测阶段的损失Loss_prop。

在测试阶段，不同的检测头生成了不同的候选时间片段集合之后，将所有的时间片段合并在一起，按相应的置信分数由高到低进行排序。然后采用非极大值抑制算法，对这些时间片段进行筛选，得到置信分数高于设定置信阈值且相互之间重叠程度低于设定重叠阈值的时间片段集合。对于每一个保留下来的时间片段，本文认为其中存在某个特定的事件，因此将位于该时间片段内的视觉特征输入解码器中生成相应的描述语句。

步骤(4)、构建基于特征融合的描述生成解码器；

如图2所示，对于候选时间片段生成模块生成的每一个时间片段，在视频的原始特征X⁰上，屏蔽位于开始和结束时刻之外的特征并将其输入视频特征编码器中，得到不同分辨率的视频特征集合 X_cap，并在此基础上，进行特征融合操作。为尽可能地降低模型的复杂度，采用对应位置相加的方式实现特征融合。将经过融合操作的特征输入解码器中，输出预测的描述语句中的单词，最后计算预测单词分布与实际单词之间的损失，并将损失函数通过反向传播算法对模型的参数进行更新。在经过若干次迭代之后，模型就能够为每个时间片段中包含的事件生成具有针对性的描述语句了。

步骤(1)视频与文本的预处理方式，具体实现如下：

1-1.对于视频中第k×a帧到第(k+1)×a帧之间的所有帧，将其输入I3D模型中，得到输出的特征向量x′_k。另外，对第k×a 帧到第(k+1)×a帧提取光流图，并将光流图输入I3D模型中，得到输出的特征向量x″_k。将x′_k与x″_k拼接在一起，得到特征向量x_k(1≤k≤t)。用同样的方式对整个视频中的帧进行处理并使用一个可训练的嵌入矩阵进行映射后，得到代表整个视频的特征向量 X＝{x₁，x₂，...，x_t}。

1-2.对于某条标注描述语句中的第b(1≤b≤n)个单词，根据其在词表中的位置，将其转换为One-Hot编码，然后输入GloVe模型以压缩特征维度，然后使用一个嵌入矩阵自适应地学习不同维度的相应权重，即可得到代表该词的特征向量y_b。用同样的方式对句子中的每一个单词进行处理，得到代表整个句子的特征向量 Y＝{y₁，y₂，...，y_n}。

步骤(2)基于局部注意力机制的视频特征编码器由L个注意力模块组成，每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN。

2-1.自注意力子模块MHA负责对输入特征进行重构，公式如下：

Z＝MHA(X^l，X^l，X^l)＝[head₁，head₂，...，head_h]W^o 公式(1)

其中，X^l代表第l个注意力模块的输入特征，W^O是用于对输出特征进行映射的矩阵，

是三个不同的用于处理输入特征的参数矩阵，MASK则是一个屏蔽矩阵，⊙代表矩阵中对应位置元素相乘的操作，Q、K、V分别为

2-2.前馈网络子模块FFN负责对自注意力子模块的输出特征进行再次映射，公式如下：

X^l+1＝FFN(Z)＝max(0，FW₁+b₁)W₂+b₂ 公式(4)

其中，W₁、W₂为两个参数矩阵，b₁、b₂为两个偏置参数。

步骤(3)基于特征金字塔结构的候选片段生成模块：

3-1.对于编码器第l个注意力模块的输出特征，使用第l个检测头Ω^(l)检测可能包含事件的时间片段，得到输出值

对于Q^l中的每一个元素

通过以下方式，得到最终预测的时间片段的中心位置c_i′和持续长度h_i′以及相应的置信度o_i′。

c_i′＝p_i+sigmoid(c_i) 公式(6)

h_i′＝a_i·exp(h_i) 公式(7)

o_i′＝sigmoid(o_i) 公式(8)

其中，a_i为第i个anchor的持续时长，p_i为预测

时的中心点位置。

3-2.将标注数据集中的不同事件划分到不同的检测头中进行检测，具体过程如下所示。

其中，

代表数据集中第j个标注事件的持续时间，只有持续时间位于ξ_l-1与ξ_l之间的标注事件，才会由第l个检测头负责检测。

3-3.对第l个检测头的输出值，使用损失函数衡量与实际值之间的偏差，如下所示。

其中，α₁、α₂是两个不同的权重系数，用于调节两个损失函数在训练过程中的比重。

将所有检测头的损失函数相加，就能够得到事件检测阶段的损失Loss_prop，如下所示。

步骤(4)在得到可能包含事件的时间片段之后，使用基于特征融合的描述生成解码器为每个时间片段中包含的事件生成描述语句，具体如下：

4-1.将经过屏蔽的视频特征输入用于描述生成阶段的视频特征编码器后，能够得到编码器的输出特征集合X_cap：

4-2.将

视为F^(L)，并通过以下方式进行特征融合操作，生成 F^(L-1)：

其中，

表示矩阵中对应位置元素相加的操作。之后，用同样的方式自上而下生成与X_cap对应的融合特征集合F：

F＝{F⁽¹⁾，F⁽²⁾，...，F^(L)} 公式(14)

4-3.解码器第l个注意力模块

接受来自对应层次的融合特征F^(l)，如下所示：

其中，

包含了三个子模块，分别是自注意力子模块φ(·)、多端注意力子模块

前馈网络子模块FFN(·)，如下所示。

φ(Y^(l))＝LN(MHA(Y^(l)，(Y^(l)，(Y^(l))+(Y^(l)) 公式(16)

其中，LN(·)代表层间正则化操作(Layer Normalization)。

本发明有益效果如下：

本发明涉及一种基于时序特征金字塔结构的视频密集描述算法，在前有方法的基础上，考虑了不同持续时间的事件对特征分辨率的不同需求，使用多个检测头同时对视频中可能存在的事件进行检测，使得生成的时间片段集合具有更高的准确率和召回率。进一步地，本发明还利用特征融合的方式，为细粒度特征赋予恰当的全局语义信息，使得解码器能够生成更具针对性的描述语句。

本发明参数量尚可，效果显著，有利于更高效的分布式训练，有利于部署于内存受限的特定硬件。

附图说明

图1：基于金字塔结构的候选时间片段生成模块

图2：基于特征融合的描述生成解码器

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1，2所示，本发明提供一种基于时序特征金字塔的视频密集描述生成方法。

步骤(1)所述的是视频和文本的特征抽取方式，具体如下：

1-1.对于视频的处理，以64帧为单位，将一个完整的视频切分成若干个块，即a＝64。

1-2.对于文本的处理，先将句子中的标点符号去掉，并将首字母转换为小写字母，放入训练好的GolVe模型中，得到句子的特征表达。

步骤(2)基于局部注意力机制的视频特征编码器负责对视频特征进行编码，具体如下：

2-1.自注意力模块的注意力头数量为8，即h＝8。将X^l输入自注意力模块后，计算出不同维度的注意力权重，并经过一个 softmax函数对权重进行归一化操作，然后根据归一化后的权重对输入特征进行重构。

2-2.前馈网络模块由两个全连接的线性层组成，每个线性层输出的特征会进行Dropout操作，Dropout的程度为总参数的10％。

步骤(3)基于金字塔结构的候选片段生成模块负责生成可能包含事件的时间片段，具体如下：

3-1.对于编码器第l(1≤l≤L)个注意力模块的输出特征，使用第l个检测头进行检测。检测头中用于检测的锚点数量为128个，锚点的尺寸由K-means算法在数据集中根据所有标注事件的持续时间聚类得到。

3-2.使用3个检测头同时检测视频中可能发生的事件，即 L＝3。不同检测头负责检测不同持续时间的事件，划分阈值ξ₀、ξ₁、ξ₂、ξ₃分别设置为0、12、36、408秒。

3-3.使用损失函数衡量预测值与真实值之间的偏差，调节正负样本权重的参数α₁、α₂分别被设置为1和100。

步骤(4)基于特征融合的描述生成解码器用于为事件生成相应的描述语句。

4-1.用于描述生成阶段的编码器和解码器中注意力模块的数量均为3。为避免不同任务之间的差异性对模型效果的影响，我们单独设置了一个与事件检测阶段构造相同但参数独立训练的视频特征编码器。

4-2.在得到编码器输出特征集合之后，由于特征之间的尺寸相同，直接使用对应位置相加的方式进行特征融合。

4-3.解码器的不同子模块之间使用残差连接，前馈网络子模块中每个线性层输出的特征会进行Dropout操作，Dropout的程度为总参数的10％。

Claims

1.一种基于时序特征金字塔的视频密集描述方法，其特征在于，步骤如下：

步骤(1)、数据预处理，对视频和文本数据提取特征：

首先对视频V进行预处理和特征提取：

对于一段未经剪辑的视频V，以a帧为单位将其切分成t个块，对于一块中的a帧图像使用Kinetics数据集上预训练好的I3D模型对其提取特征，同时对于相应的光流图以同样的方式提取特征，然后将这两种特征在时间维度上对齐之后合并在一起，并经过一个可训练的嵌入矩阵后，得到代表整个视频的特征向量X；

其次提取文本信息的特征：

对于一个给定的句子Y，去除句子中的标点符号，然后把句子中的每一个单词放入GloVe模型以获取词嵌入特征，然后使用一个嵌入矩阵自适应地学习不同维度的相应权重，即可得到代表整个句子的特征向量Y；

所述的视频特征编码器由L个注意力模块组成，每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN；对于视频特征X，将其输入视频特征编码器中，得到不同分辨率的特征集合

以下将阐述具体过程；

首先将视频特征X视为X⁰，然后依次输入到第1个注意力模块的自注意力子模块MHA和前馈网络子模块FFN中；在自注意力子模块中，采用局部注意力机制限制每个位置的元素的感受野，使得输出特征中每个位置的元素仅由输入特征中相邻位置的元素重构得到，形成了类似卷积神经网络中的局部感受野机制；前馈网络子模块则用于对输出特征进行再次映射，得到第1个注意力模块的输出

将

为止；

步骤(3)、构建基于特征金字塔结构的候选片段生成模块；

首先将不同注意力模块的输出特征输入到不同的检测头中，对于第l(1≤l≤L)个检测头，其输出为

对于Q^l中的每一个元素

根据视频特征的采样间隔，得到对应的开始和结束时刻以及相应的置信度分数；基于编码器第l注意力模块输出特征的第l个检测头负责预测持续时间位于ξ_l-1～ξ_l之间的事件；

在模型的训练阶段，候选片段生成模块的输出分为两个部分，第一部分是预测的事件中心位置和事件持续时间长度，这一部分影响了预测的时间片段的开始和结束时刻；对于每一个标注的事件，选择一个中心位置及anchor尺寸最匹配的输出特征中的元素

用于计算损失L_reg；此处，使用回归损失函数衡量预测值与实际值之间的偏差；第二部分是预测的置信度，代表当前时间片段中包含事件的可能性；将用于计算回归损失的元素

视为正样本，其余均视为负样本，对所有样本计算分类损失L_cls；最后，将两个损失相加，得到事件检测阶段第l个检测头的全部损失

将所有检测的损失函数相加，就能够得到事件检测阶段的损失Loss_prop；

在测试阶段，不同的检测头生成了不同的候选时间片段集合之后，将所有的时间片段合并在一起，按相应的置信分数由高到低进行排序；然后采用非极大值抑制算法，对这些时间片段进行筛选，得到置信分数高于设定置信阈值且相互之间重叠程度低于设定重叠阈值的时间片段集合；对于每一个保留下来的时间片段，本文认为其中存在某个特定的事件，因此将位于该时间片段内的视觉特征输入解码器中生成相应的描述语句；

步骤(4)、构建基于特征融合的描述生成解码器；

对于候选时间片段生成模块生成的每一个时间片段，在视频的原始特征X⁰上，屏蔽位于开始和结束时刻之外的特征并将其输入视频特征编码器中，得到不同分辨率的视频特征集合X_cap，并在此基础上，进行特征融合操作；为尽可能地降低模型的复杂度，采用对应位置相加的方式实现特征融合；将经过融合操作的特征输入解码器中，输出预测的描述语句中的单词，最后计算预测单词分布与实际单词之间的损失，并将损失函数通过反向传播算法对模型的参数进行更新；在经过若干次迭代之后，模型就能够为每个时间片段中包含的事件生成具有针对性的描述语句了。

2.根据权利要求1所述的一种基于时序特征金字塔的视频密集描述方法，其特征在于，步骤(1)视频与文本的预处理方式，具体实现如下：

1-1.对于视频中第k×a帧到第(k+1)×a帧之间的所有帧，将其输入I3D模型中，得到输出的特征向量x′_k；另外，对第k×a帧到第(k+1)×a帧提取光流图，并将光流图输入I3D模型中，得到输出的特征向量x″_k；将x′_k与x″_k拼接在一起，得到特征向量x_k(1≤k≤t)；用同样的方式对整个视频中的帧进行处理并使用一个可训练的嵌入矩阵进行映射后，得到代表整个视频的特征向量X＝{x₁，x₂，...，x_t}；

1-2.对于某条标注描述语句中的第b(1≤b≤n)个单词，根据其在词表中的位置，将其转换为One-Hot编码，然后输入GloVe模型以压缩特征维度，然后使用一个嵌入矩阵自适应地学习不同维度的相应权重，即可得到代表该词的特征向量y_b；用同样的方式对句子中的每一个单词进行处理，得到代表整个句子的特征向量Y＝{y₁，y₂，...，y_n}。

3.根据权利要求2所述的一种基于时序特征金字塔的视频密集描述方法，其特征在于，步骤(2)基于局部注意力机制的视频特征编码器由L个注意力模块组成，每个注意力模块包括一个自注意力子模块MHA和一个前馈网络子模块FFN；

2-1.自注意力子模块MHA负责对输入特征进行重构，公式如下：

Z＝MHA(X^l，X^l，X^l)＝[head₁，head₂，...，head_h]W^o 公式(1)