CN110933518B

CN110933518B - 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Info

Publication number: CN110933518B
Application number: CN201911266940.4A
Authority: CN
Inventors: 赵洲; 许亦陈; 肖舒文
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-10-02
Anticipated expiration: 2039-12-11
Also published as: CN110933518A

Abstract

本发明公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法。1)针对一组视频，切割构建视频片段。利用全卷积神经网络，提取视频每个镜头的视觉特征。2)利用局部自注意力机制，学习视频片段中所有镜头之间的语义关系，并生成视频镜头的视觉特征。3)利用查询相关的全局注意力机制，学习视频不同片段之间的语义关系，并生成面向查询的视频镜头的视觉特征。4)计算视频镜头和用户查询之间的相似度得分，用来生成查询相关的视频摘要。相比于一般视频摘要解决方案，本发明利用卷积多层注意力机制，能够更准确地反映查询相关的视频视觉特征，产生更加符合的视频摘要。本发明在视频摘要中所取得的效果相比于传统方法更好。

Description

一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

技术领域

本发明涉及视频摘要生成，尤其涉及一种利用卷积多层注意力网络来生成与查询相关的视频摘要的方法。

背景技术

自动化的视频摘要技术广泛应用于诸多领域，例如运动识别，监视视频分析，基于个人生活日志视频的可视日记创建，以及视频站点的视频预览。

现有的视频摘要方法侧重于寻找最多样化和最具代表性的视觉内容，缺少对用户偏好的考虑。它可以分为两个领域：(1)通用视频摘要(2)面向查询的视频摘要。通用视频摘要通过选择长视频的亮点，并删除视频冗余内容来生成原始视频的紧凑版本；面向查询的视频摘要不仅删除视频的多余部分，找到视频中的关键帧或镜头，而且挑选出与用户查询相关的视频片段。面向查询的视频摘要相较于通用视频摘要的优越性主要体现在以下三点：首先，视频摘要需要考虑用户的主观性，因为不同的用户查询可能会收到不同的视频摘要；其次，通用视频摘要方法的性能评估通常是为了测量时间重叠，从而难以捕获摘要和原始视频之间的语义相似性；第三，文本查询可以为任务带来更多的语义信息。

近期面向查询的视频摘要的相关研究主要采取序列标记的思路，采用基于顺序结构的模型，例如长短期记忆网络(LSTM，Long Short-Term Memory)(Hochreiter andSchmidhuber,1997)。对于视频的每个时间步长，模型都会输出一个二进制分数，以判定此框架是否重要以及是否与给定查询相关。但是，顺序模型通常会逐步执行计算，当视频长度增加时，模型的计算时间也会变长。而且，由于梯度消失的问题，当视频太长时，顺序模型不能轻易处理视频之间的长距离关系。在(Rochan，Ye，and Wang 2018)中，使用完全卷积网络进行编码与解码，以解决视频摘要任务，这表明卷积网络可以生成高质量的视频摘要。

发明内容

为了克服现有技术中缺少对于用户主观性的考虑，针对于目前较少评估摘要与原始视频之间的语义相似性，并且文本查询会带来额外的语义信息的情况，本发明采用一种利用卷积多层注意力网络(CHAN)来生成面向查询的视频摘要，该方法由两部分组成：特征编码网络和查询相关性计算模块。在特征编码网络中，本发明结合局部自注意力机制和查询相关的全局注意力机制的卷积网络来学习每个镜头的视觉特征，并生成视频的融合特征表达。编码后的视觉特征通过计算视频镜头的查询相关性得分，生成面向查询的视频摘要。

本发明所采用的具体技术方案是：

1.构建卷积多层注意力网络，所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制；对于输入的视频及查询语句，利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达；

1.1对于输入的视频，构建视频片段；

1.2对于步骤1.1形成的视频片段，首先利用残差神经网络提取视频片段的视觉特征，然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达；

1.3利用步骤1.2得到的视频片段的镜头级别的视觉特征表达，通过局部自注意力机制，得到每一个视频片段的局部自注意力特征表达；

1.4利用步骤1.2得到的视频片段的镜头级别的视觉特征表达，结合输入的查询语句，通过全局注意力机制，得到每一个视频片段的全局注意力特征表达；

1.5根据步骤1.2得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达，得到查询相关的视频片段的融合特征表达，进一步生成查询相关的视频的融合特征表达；

2.根据步骤1得到的查询相关的视频的融合特征表达，结合查询语句的嵌入特征，得到视频镜头的查询相关性得分；根据给定的查询相关性的基本事实注释，对步骤1构建的卷积多层注意力网络进行训练，固定训练好的参数，得到卷积多层注意力网络模型；

3.将一段待处理的视频构建成视频片段，与查询语句一起输入到卷积多层注意力网络模型中，得到视频镜头的查询相关性得分，将得分最高的视频镜头作为查询相关的视频摘要。

本发明具备的有益效果：

(1)本发明率先提出利用自注意机制，解决面向查询的视频摘要任务。该方法可以从时序的角度以及视频特征的每个维度，学习视频相同片段内不同帧的相对语义关系，生成具有代表性的视频特征表达。

(2)本发明在特征编码时，利用全卷积网络以减少时间序列的维数和视频视觉特征的维数，从而减少模型中的参数数量。

(3)本发明通过计算视频镜头与查询语句之间的查询相关性得分，处理视频和文本查询之间的语义关系，以保证所生成的视频摘要与查询语句之间的语义相关性。

(4)本发明的模型在包含视频描述信息的数据集上训练，以对视觉内容和文本信息之间的语义关系进行建模，然后解决视频摘要的生成问题。这使模型可以获取足够的语义信息，从而生成高质量的视频摘要。

附图说明

图1是本发明所使用的对于生成面向查询的视频摘要的卷积多层注意力网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用卷积多层注意力网络机制来生成面向查询的视频摘要的方法包括如下步骤：

步骤一、对于输入的视频，构建视频片段。

对于所给视频，使用名为“核时间分割”(Kemel Temporal Segmentation，Potapovetal.2014)的算法，构建视频片段，得到视频镜头序列(s₁，s₂，...，s_n)，其中n为视频的镜头数。

步骤二、利用残差神经网络提取视频片段的视觉特征，然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达。

将每一个视频片段输入到预训练的残差神经网络中，得到每个视频片段的视觉特征

其v_ki表示第k个视频片段中第i个镜头的视觉特征，s_k代表第k个视频片段内的镜头数；

将

中的每一个元素使用一维全卷积神经网络进行编码，并按照如下公式进行空洞卷积处理，得到第k个视频片段中所有镜头的输出：

其中，2k+1为过滤器的尺寸，f为过滤器，d为空洞因子；

通过时间轴上的池化层处理，得到第k个视频片段的镜头级别的视觉特征表达

t为输出特征序列的长度。

步骤三、采用局部自注意力机制，得到每一个视频片段的局部自注意力特征表达。

根据视频片段的镜头级别的视觉特征表达，按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量

其中，

为第k个视频片段内第i个元素的特征向量，

为第k个视频片段内第j个元素的特征向量，P与W₁、W₂为可训练的d_c阶的实参数矩阵，d_c为特征向量

的维数，b为d_c阶的实偏置向量，tanh(·)为反正切函数；视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×d_c，其中t为输出特征序列的长度；

计算视频片段内第i个元素和第j个元素的注意力权重：

计算第k个视频片段的局部自注意力特征表达

计算公式如下：

其中，⊙表示矩阵按位相乘。

步骤四、通过全局注意力机制，得到每一个视频片段的全局注意力特征表达。

根据视频片段的镜头级别的视觉特征表达和由两个概念(c1，c2)组成的查询语句q，得到查询相关的视频片段级别的视觉特征表达

n为视频的片段数；

的计算公式如下：

其中，

表示第k个视频片段对特定查询的聚合特征表达；v^T与W₁、W₂为可训练的参数矩阵，b为偏置向量，h^c为查询的概念表达，

为第k个视频片段内第i个元素的视觉特征表达；

计算每一个视频片段的全局注意力特征表达

的计算公式如下：

其中，v^T与W₁ ^g、W₂ ^g为可训练的参数矩阵，b为偏置向量，

为第j个视频片段对特定查询的聚合特征表达，即查询相关的视频片段级别的视觉特征表达

中的第j个元素。

步骤五、获取查询相关的视频的融合特征表达。

根据视频片段的镜头级别的视觉特征表达、视频片段的局部自注意力特征表达和视频片段的全局注意力特征表达，得到查询相关的视频片段的融合特征表达

其中

则查询相关的视频的融合特征表达为

步骤六、根据查询相关的视频的融合特征表达，结合查询语句的嵌入特征，得到视频镜头的查询相关性得分；根据给定的查询相关性的基本事实注释，对卷积多层注意力网络进行训练，得到卷积多层注意力网络模型。

获取查询概念c的嵌入特征f_c，根据f_c和

按照如下公式得到第k个视频片段每一个镜头与概念c之间基于距离的相似度d_i：

其中W_f与W_c是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵；

对于由两个概念(c1，c2)组成的查询q，共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度d_i1和d_i2；对于d_i1和d_i2，通过多层感知器得到第i个镜头与查询q之间的两个相关性得分，取平均数作为第i个镜头的查询相关性得分s_i；

由于一段视频包含n个视频片段，根据得到的每一个视频片段中所有镜头的查询相关性得分，构成视频镜头的查询相关性得分s＝{s₁，s₂，...，s_N}，其中N为视频中的镜头总数；

根据给定的查询相关性的基本事实注释

对卷积多层注意力网络进行训练，损失函数L_summ的公式如下：

随后将损失最小化，得到与查询相关性最强的视频镜头，输出查询相关的视频摘要。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在(Sharghi，Laurel和Gong 2017)中提出的针对查询的视频摘要数据集上进行实验验证。数据集包含4个视频，其中包含不同的日常生活场景，每个视频持续3到5个小时。数据集提供一组用于用户查询的概念，其中概念总数为48；数据集中有46个查询，每个查询由两个概念组成，查询共有四种场景，即1)查询中的所有概念都出现在同一视频中；2)查询中的所有概念都出现在视频中但不是同一张照片；3)查询中的一些概念出现在视频中；4)查询中的所有概念都没有出现在视频中。数据集提供了标注于视频镜头上的注释，每个镜头标记了几个概念。随后本发明对于针对查询的视频摘要数据集进行如下预处理：

1)将视频采样为1fps，然后将所有帧的大小调整为244×244。随后利用在ImageNet数据库中预训练好的ResNet获取每一帧的2048维的视觉特征表达。

2)以5秒作为视频的一个镜头，并计算出同一镜头中每一帧的平均值，作为镜头级别的特征表达。

3)利用KTS算法(Kernel Temporal Segmentation，Potapovetal.2014)，将视频分成小片段，视频中的片段数不超过20并且同一片段内的镜头数不超过200。

4)对于每个查询中的概念单词，使用Glove向量(Pennington，Socher和Manning2014)提取其概念的单词级别表达。

为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了precision、recall及F1 score来对于本发明的效果进行评价。将本发明与其他针对查询的视频摘要方法进行比较，包括以下四个方法：SeqDPP method(Gong et al.2014)，SH-DPP(Sharghi,Gong,and Shah 2016)，QC-DPP(Sharghi,Laurel,and Gong 2017)，TPAN(Wei etal.2018)。对于本发明提出的CHAN(Convolutional Hierarchical Attention Network)分为以下3类进行测试，CHAN w/o Local Att(不包含局部自注意力模块)，CHAN w/o GlobalAtt(不包含查询相关的全局注意力模块)，CHAN(既包含局部自注意力模块也包含查询相关的全局注意力模块)。对于实验中的全卷积神经网络，第一层输出通道的维数为256，第二层输出通道的维数为512。在局部自注意力模块和查询相关的全局注意力模块，视频的特征向量维数d_c设置为256。在训练过程中，使用Adamoptimizer(Kingma and Ba 2014)将损失最小化，初始学习率为0.0001，衰减率为0.8。将批数据集大小(batch size)设置为5。获得相似度得分后，我们通过选择得分最高的视频镜头来创建与查询相关的视频摘要。按照具体实施方式中描述的步骤，所得的实验结果如表1-表2所示：

表1本发明针对于面向查询的视频摘要的数据集与不同方法的比较结果

表2本发明生成面向查询的视频摘要的消融实验结果

Model	Pre	Rec	F1
				CHAN w/o Local Att	42.72	49.04	43.26
CHAN w/o Global Att	37.62	43.17	38.09
				CHAN	46.40	53.13	46.94