CN109889923B

CN109889923B - 利用结合视频描述的分层自注意力网络总结视频的方法

Info

Publication number: CN109889923B
Application number: CN201910153049.3A
Authority: CN
Inventors: 赵洲; 王昕然
Original assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Current assignee: Hangzhou Yizhi Intelligent Technology Co ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2021-03-26
Anticipated expiration: 2039-02-28
Also published as: CN109889923A

Abstract

本发明公开了一种利用结合视频描述的分层自注意力网络解决视频总结任务的方法，主要包括如下步骤：1)设计一种分层自注意力网络模型与增强标题生成器模型来获取视频中所有帧的综合重要程度分数并提高重要程度分数准确度；2)训练得到最终的分层自注意力网络模型，利用该模型生成视频总结任务的答案。相比于一般的视频总结任务解决方案，本发明利用了视频描述信息，能够更好地完成视频总结任务。本发明在视频总结任务中所取得的效果相比于传统的方法更好。

Description

利用结合视频描述的分层自注意力网络总结视频的方法

技术领域

本发明涉及视频总结任务，尤其涉及一种利用结合视频描述的分层自注意力网络总结视频的方法。

背景技术

视频总结任务是一项十分有挑战性的任务，目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频，给出该视频中的关键帧，完成对于该视频的总结任务。目前视频总结任务的研究仍处于探索阶段。对于视频总结任务的研究可以应用于众多领域之中。

目前已有的视频总结任务解决方法一般是关注解决视频总结任务的多样性与代表性问题，对于视频中含有的语义信息关注较少。传统的视频总结任务解决方法，主要是利用手工调节的启发式方法来选取视频中的重要帧或视频的重要片段。这种方法挑出的视频总结片段不能与视频的主题紧密帖合。

为了解决上述问题，本发明利用结合视频描述的分层自注意力网络来解决视频总结任务，提高视频总结任务形成视频摘要总结片段的准确性。

发明内容

本发明的目的在于解决现有技术中的问题，为了克服现有技术对于视频总结任务无法提供较为准确的视频摘要总结片段的问题，本发明提供一种利用结合视频描述的分层自注意力网络总结视频的方法。本发明所采用的具体技术方案是：

利用结合视频描述的分层自注意力网络总结视频的方法，包含如下步骤：

1.设计一种分层自注意力网络模型，利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数。

2.设计一种增强标题生成器模型，利用该增强标题生成器模型结合步骤1中获取的视频中所有视频分段的重要程度分数，获取对于视频的自然语言描述。

3.设计相应梯度函数对步骤2设计的增强标题生成器模型进行训练，将训练后得到的步骤2对应的视频中所有视频帧的综合重要程度分数返回给步骤1设计的分层自注意力网络模型，设计损失函数对步骤1设计的分层自注意力网络模型进行训练，利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果。

上述步骤可具体采用如下实现方式：

对于视频总结任务的视频帧，利用训练好的ResNet网络获取视频中的帧表达特征

其中N代表视频中含有的视频帧个数。利用内核时间分割方法将视频进行分割，获得视频总结任务中视频的K个分段{S₁,S₂,...,S_K}。

将视频分段S_K中含有的视频帧表达

输入到1维卷积神经网络中，获取视频分段S_K视频帧的卷积输出表达

对于视频分段S_K中的第i帧与第j帧对应的输出表达 o_i与o_j，按照如下公式计算得到相关度向量f(o_i,o_j)，

f(o_i,o_j)＝P^(f)tanh([W₁o_i+W₂o_j+b])

其中，P^(f)、W₁、W₂为可训练的参数矩阵，b为可训练的偏置向量。利用如上公式，对视频分段S_K所有视频帧的卷积输出表达两两计算获得相关度向量，得到相关度矩阵

对视频分段S_K中的第i帧与第j帧，按照如下公式计算得到视频分段S_K中的第i帧针对于第j帧的注意力分数向量γ_ij，

其中，exp()代表以自然底数e为底数的指数运算。利用得到的视频分段S_K中的第i帧针对于第j帧的注意力分数向量γ_ij，按照如下公式计算得到视频分段S_K中的第j帧的注意力分数s_j，

其中，d_C代表视频分段S_K中的第i帧针对于第j帧的注意力分数向量γ_ij的维度。

利用如上方法计算获得视频分段S_K中所有帧的注意力分数

及视频中所有帧的注意力分数{s₁,s₂,...,s_N}，利用得到的视频分段S_K中所有帧的注意力分数

与视频分段S_K中视频帧表达

按照如下公式计算得到视频分段S_K的分段级别特征

按照如上方法计算得到视频中所有分段的分段级别表达

将得到的视频中所有分段的分段级别表达

输入到1维卷积神经网络中，获取视频中所有分段的卷积输出表达

对于得到的视频第i分段的卷积输出表达

与视频第j分段的卷积输出表达

按照如下公式计算得到相关度向量

其中，P^(s)、W₁ ^(s)、

代表可训练的参数矩阵，b^(s)代表可训练的偏置向量。利用如上公式，对所有视频分段的卷积输出表达两两计算获得相关度向量，得到视频分段相关度矩阵M^(s)。利用得到的视频分段相关度矩阵M^(s)，分别加上正向位置矩阵M^fw与负向位置矩阵M^bw，得到正向视频分段相关度矩阵M^(s)fw与负向视频分段相关度矩阵 M^(s)bw，正向位置矩阵M^fw与负向位置矩阵M^bw的元素

与

取值如下，

利用得到的正向视频分段相关度矩阵M^(s)fw与负向视频分段相关度矩阵M^(s)bw，按照如下公式计算得到视频分段S_K的视频分段级别正向综合特征

与负向综合特征

其中，

代表正向视频分段相关度矩阵M^(s)fw中对应于第i视频分段与第j视频分段的向量，

代表负向视频分段相关度矩阵M^(s)bw中对应于第i视频分段与第j视频分段的向量。

将得到的视频分段S_K的视频分段级别正向综合特征

与负向综合特征

进行连接操作，得到视频分段S_K的综合特征表达

利用如上计算方法，得到视频中所有视频分段的综合特征表达

利用得到的视频分段S_K的综合特征表达

按照如下公式计算得到视频分段S_K的重要程度分数

其中

为可训练的参数矩阵，

为可训练的参数偏置向量，σ()代表sigmoid函数计算。利用如上方法计算得到视频中所有视频分段的重要程度分数

将得到的视频中所有帧的注意力分数{s₁,s₂,...,s_N}与视频中各帧所在的视频分段得到重要程度分数相乘，得到视频中所有帧的综合重要程度分数

利用得到的视频中所有视频分段的重要程度分数

与视频中所有视频分段的综合特征表达

将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达

将得到的视频中所有分段的重要程度综合特征表达

依次输入到LSTM网络中，获得LSTM网络每次循环的状态输出h^(w)，利用LSTM网络第t次循环的状态输出

与第K视频分段的重要程度综合特征表达

按照如下公式计算得到对于第K视频分段的注意力分数

其中，W_g与W_h为可训练的权重矩阵，b^(w)为可训练的偏置向量、 P^(w)为提前设置好的参数向量。利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数

利用得到的针对于第t次循环所有视频分段的注意力分数

与视频中所有分段的重要程度综合特征表达

按照如下公式计算得到针对于第t次循环的上下文向量c_t，

利用得到的针对于第t次循环的上下文向量c_t，结合LSTM网络第t次循环的状态输出

利用如下公式得到第t次循环增强标题生成器模型的输出单词w_t，

其中，w_1:t-1代表前t-1次循环增强标题生成器模型的输出单词，θ代表增强标题生成器模型的所有参数集合。

利用如下公式作为增强标题生成器模型的梯度函数，

其中Q_t为第t次循环对应的预测回报函数，按照如下公式计算，

其中N代表视频中含有的视频帧个数，函数R()代表按照BLEU 函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小。

按照如上计算公式作为增强标题生成器模型的梯度函数，对于增强标题生成器模型进行训练，将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型，利用返回的视频中所有视频帧的综合重要程度分数

与标注的视频中所有视频帧的重要程度分数{s₁,s₂,...,s_N}，按照如下公式计算分层自注意力网络模型的损失函数L_sup(θ)，

利用如上公式对于分层自注意力网络模型进行梯度下降训练，利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数，将综合重要程度分数高的视频帧取出作为视频总结任务的结果。

附图说明

图1是根据本发明的一实施例的用于解决视频总结任务的结合视频描述的分层自注意力网络的整体示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

如图1所示，本发明利用结合视频描述的分层自注意力网络总结视频的方法包括如下步骤：

1)设计一种分层自注意力网络模型，利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数；

2)设计一种增强标题生成器模型，利用该增强标题生成器模型结合步骤1)中获取的视频中所有视频分段的重要程度分数，获取对于视频的自然语言描述；

3)设计相应梯度函数对步骤2)设计的增强标题生成器模型进行训练，将训练后得到的步骤2)对应的视频中所有视频帧的综合重要程度分数返回给步骤1)设计的分层自注意力网络模型，设计损失函数对步骤1)设计的分层自注意力网络模型进行训练，利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果。

所述步骤1)，其具体步骤为:

将视频分段S_K中含有的视频帧表达

f(o_i,o_j)＝P^(f)tanh([W₁o_i+W₂o_j+b])

利用如上方法计算获得视频分段S_K中所有帧的注意力分数

与视频分段S_K中视频帧表达

按照如下公式计算得到视频分段S_K的分段级别特征

按照如上方法计算得到视频中所有分段的分段级别表达

将得到的视频中所有分段的分段级别表达

对于得到的视频第i分段的卷积输出表达

与视频第j分段的卷积输出表达

按照如下公式计算得到相关度向量

其中，P^(s)、W₁ ^(s)、

与

取值如下，

与负向综合特征

其中，

将得到的视频分段S_K的视频分段级别正向综合特征

与负向综合特征

进行连接操作，得到视频分段S_K的综合特征表达

利用得到的视频分段S_K的综合特征表达

按照如下公式计算得到视频分段S_K的重要程度分数

其中

为可训练的参数矩阵，

所述步骤2)，其具体步骤为:

利用得到的视频中所有视频分段的重要程度分数

与视频中所有视频分段的综合特征表达

将得到的视频中所有分段的重要程度综合特征表达

与第K视频分段的重要程度综合特征表达

按照如下公式计算得到对于第K视频分段的注意力分数

利用得到的针对于第t次循环所有视频分段的注意力分数

与视频中所有分段的重要程度综合特征表达

按照如下公式计算得到针对于第t次循环的上下文向量c_t，

所述步骤3)，其具体步骤为:

利用如下公式作为增强标题生成器模型的梯度函数，

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明在ActivityNet实验数据集上进行训练，在SumMe实验数据集与TVSum实验数据集上进行测试实验。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，分别采用了无监督的方法与有监督的方法来对于本发明的效果进行评价，并且针对于无监督的方法与有监督的方法均采用F分数的评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤，所得的实验结果如表1-2所示，本方法表示为HSAN：

表1本发明针对于无监督方法的测试结果

表2本发明针对于有监督方法的测试结果。

Claims

1.利用结合视频描述的分层自注意力网络总结视频的方法，用于解决视频总结任务，其特征在于，包括如下步骤：

3)设计相应梯度函数对步骤2)设计的增强标题生成器模型进行训练，将训练后得到的步骤2)对应的视频中所有视频帧的综合重要程度分数返回给步骤1)设计的分层自注意力网络模型，设计损失函数对步骤1)设计的分层自注意力网络模型进行训练，利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果；

其中，所述步骤1)具体为：

其中N代表视频中含有的视频帧个数；利用内核时间分割方法将视频进行分割，获得视频总结任务中视频的K个分段{S₁,S₂,...,S_K}；

将视频分段S_K中含有的视频帧表达

对于视频分段S_K中的第i帧与第j帧对应的输出表达o_i与o_j，按照如下公式计算得到相关度向量f(o_i,o_j)，

f(o_i,o_j)＝P^(f)tanh([W₁o_i+W₂o_j+b])

其中，P^(f)、W₁、W₂为可训练的参数矩阵，b为可训练的偏置向量；利用如上公式，对视频分段S_K所有视频帧的卷积输出表达两两计算获得相关度向量，得到相关度矩阵

其中，exp()代表以自然底数e为底数的指数运算；利用得到的视频分段S_K中的第i帧针对于第j帧的注意力分数向量γ_ij，按照如下公式计算得到视频分段S_K中的第j帧的注意力分数s_j，

其中，d_C代表视频分段S_K中的第i帧针对于第j帧的注意力分数向量γ_ij的维度；

利用如上方法计算获得视频分段S_K中所有帧的注意力分数

与视频分段S_K中视频帧表达

按照如下公式计算得到视频分段S_K的分段级别特征

按照如上方法计算得到视频中所有分段的分段级别表达

将得到的视频中所有分段的分段级别表达

对于得到的视频第i分段的卷积输出表达

与视频第j分段的卷积输出表达

按照如下公式计算得到相关度向量

其中，P^(s)、W₁ ^(s)、

代表可训练的参数矩阵，b^(s)代表可训练的偏置向量；利用如上公式，对所有视频分段的卷积输出表达两两计算获得相关度向量，得到视频分段相关度矩阵M^(s)；利用得到的视频分段相关度矩阵M^(s)，分别加上正向位置矩阵M^fw与负向位置矩阵M^bw，得到正向视频分段相关度矩阵M^(s)fw与负向视频分段相关度矩阵M^(s)bw，正向位置矩阵M^fw与负向位置矩阵M^bw的元素