CN109889923B - 利用结合视频描述的分层自注意力网络总结视频的方法 - Google Patents

利用结合视频描述的分层自注意力网络总结视频的方法 Download PDF

Info

Publication number
CN109889923B
CN109889923B CN201910153049.3A CN201910153049A CN109889923B CN 109889923 B CN109889923 B CN 109889923B CN 201910153049 A CN201910153049 A CN 201910153049A CN 109889923 B CN109889923 B CN 109889923B
Authority
CN
China
Prior art keywords
video
segments
frames
segment
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910153049.3A
Other languages
English (en)
Other versions
CN109889923A (zh
Inventor
赵洲
王昕然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN201910153049.3A priority Critical patent/CN109889923B/zh
Publication of CN109889923A publication Critical patent/CN109889923A/zh
Application granted granted Critical
Publication of CN109889923B publication Critical patent/CN109889923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种利用结合视频描述的分层自注意力网络解决视频总结任务的方法,主要包括如下步骤:1)设计一种分层自注意力网络模型与增强标题生成器模型来获取视频中所有帧的综合重要程度分数并提高重要程度分数准确度;2)训练得到最终的分层自注意力网络模型,利用该模型生成视频总结任务的答案。相比于一般的视频总结任务解决方案,本发明利用了视频描述信息,能够更好地完成视频总结任务。本发明在视频总结任务中所取得的效果相比于传统的方法更好。

Description

利用结合视频描述的分层自注意力网络总结视频的方法
技术领域
本发明涉及视频总结任务,尤其涉及一种利用结合视频描述的分层自注意力网络总结视频的方法。
背景技术
视频总结任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频,给出该视频中的关键帧,完成对于该视频的总结任务。目前视频总结任务的研究仍处于探索阶段。对于视频总结任务的研究可以应用于众多领域之中。
目前已有的视频总结任务解决方法一般是关注解决视频总结任务的多样性与代表性问题,对于视频中含有的语义信息关注较少。传统的视频总结任务解决方法,主要是利用手工调节的启发式方法来选取视频中的重要帧或视频的重要片段。这种方法挑出的视频总结片段不能与视频的主题紧密帖合。
为了解决上述问题,本发明利用结合视频描述的分层自注意力网络来解决视频总结任务,提高视频总结任务形成视频摘要总结片段的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频总结任务无法提供较为准确的视频摘要总结片段的问题,本发明提供一种利用结合视频描述的分层自注意力网络总结视频的方法。本发明所采用的具体技术方案是:
利用结合视频描述的分层自注意力网络总结视频的方法,包含如下步骤:
1.设计一种分层自注意力网络模型,利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数。
2.设计一种增强标题生成器模型,利用该增强标题生成器模型结合步骤1中获取的视频中所有视频分段的重要程度分数,获取对于视频的自然语言描述。
3.设计相应梯度函数对步骤2设计的增强标题生成器模型进行训练,将训练后得到的步骤2对应的视频中所有视频帧的综合重要程度分数返回给步骤1设计的分层自注意力网络模型,设计损失函数对步骤1设计的分层自注意力网络模型进行训练,利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果。
上述步骤可具体采用如下实现方式:
对于视频总结任务的视频帧,利用训练好的ResNet网络获取视频中的帧表达特征
Figure GDA0002835676620000021
其中N代表视频中含有的视频帧个数。利用内核时间分割方法将视频进行分割,获得视频总结任务中视频的K个分段{S1,S2,...,SK}。
将视频分段SK中含有的视频帧表达
Figure GDA0002835676620000031
输入到1维卷积神经网络中,获取视频分段SK视频帧的卷积输出表达
Figure GDA0002835676620000032
对于视频分段SK中的第i帧与第j帧对应的输出表达 oi与oj,按照如下公式计算得到相关度向量f(oi,oj),
f(oi,oj)=P(f)tanh([W1oi+W2oj+b])
其中,P(f)、W1、W2为可训练的参数矩阵,b为可训练的偏置向量。利用如上公式,对视频分段SK所有视频帧的卷积输出表达两两计算获得相关度向量,得到相关度矩阵
Figure GDA0002835676620000033
对视频分段SK中的第i帧与第j帧,按照如下公式计算得到视频分段SK中的第i帧针对于第j帧的注意力分数向量γij
Figure GDA0002835676620000034
其中,exp()代表以自然底数e为底数的指数运算。利用得到的视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,按照如下公式计算得到视频分段SK中的第j帧的注意力分数sj
Figure GDA0002835676620000035
Figure GDA0002835676620000036
其中,dC代表视频分段SK中的第i帧针对于第j帧的注意力分数向量γij的维度。
利用如上方法计算获得视频分段SK中所有帧的注意力分数
Figure GDA0002835676620000041
及视频中所有帧的注意力分数{s1,s2,...,sN},利用得到的视频分段SK中所有帧的注意力分数
Figure GDA0002835676620000042
与视频分段SK中视频帧表达
Figure GDA0002835676620000043
按照如下公式计算得到视频分段SK的分段级别特征
Figure GDA0002835676620000044
Figure GDA0002835676620000045
按照如上方法计算得到视频中所有分段的分段级别表达
Figure GDA0002835676620000046
将得到的视频中所有分段的分段级别表达
Figure GDA0002835676620000047
输入到1维卷积神经网络中,获取视频中所有分段的卷积输出表达
Figure GDA0002835676620000048
对于得到的视频第i分段的卷积输出表达
Figure GDA0002835676620000049
与视频第j分段的卷积输出表达
Figure GDA00028356766200000410
按照如下公式计算得到相关度向量
Figure GDA00028356766200000411
Figure GDA00028356766200000412
其中,P(s)、W1 (s)
Figure GDA00028356766200000413
代表可训练的参数矩阵,b(s)代表可训练的偏置向量。利用如上公式,对所有视频分段的卷积输出表达两两计算获得相关度向量,得到视频分段相关度矩阵M(s)。利用得到的视频分段相关度矩阵M(s),分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵 M(s)bw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素
Figure GDA00028356766200000414
Figure GDA00028356766200000415
取值如下,
Figure GDA00028356766200000416
Figure GDA0002835676620000051
利用得到的正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵M(s)bw,按照如下公式计算得到视频分段SK的视频分段级别正向综合特征
Figure GDA0002835676620000052
与负向综合特征
Figure GDA0002835676620000053
Figure GDA0002835676620000054
Figure GDA0002835676620000055
Figure GDA0002835676620000056
Figure GDA0002835676620000057
其中,
Figure GDA0002835676620000058
代表正向视频分段相关度矩阵M(s)fw中对应于第i视频分段与第j视频分段的向量,
Figure GDA0002835676620000059
代表负向视频分段相关度矩阵M(s)bw中对应于第i视频分段与第j视频分段的向量。
将得到的视频分段SK的视频分段级别正向综合特征
Figure GDA00028356766200000510
与负向综合特征
Figure GDA00028356766200000511
进行连接操作,得到视频分段SK的综合特征表达
Figure GDA00028356766200000512
利用如上计算方法,得到视频中所有视频分段的综合特征表达
Figure GDA00028356766200000513
利用得到的视频分段SK的综合特征表达
Figure GDA00028356766200000514
按照如下公式计算得到视频分段SK的重要程度分数
Figure GDA00028356766200000515
Figure GDA00028356766200000516
其中
Figure GDA00028356766200000517
为可训练的参数矩阵,
Figure GDA00028356766200000518
为可训练的参数偏置向量,σ()代表sigmoid函数计算。利用如上方法计算得到视频中所有视频分段的重要程度分数
Figure GDA00028356766200000519
将得到的视频中所有帧的注意力分数{s1,s2,...,sN}与视频中各帧所在的视频分段得到重要程度分数相乘,得到视频中所有帧的综合重要程度分数
Figure GDA0002835676620000061
利用得到的视频中所有视频分段的重要程度分数
Figure GDA0002835676620000062
与视频中所有视频分段的综合特征表达
Figure GDA0002835676620000063
将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达
Figure GDA0002835676620000064
将得到的视频中所有分段的重要程度综合特征表达
Figure GDA0002835676620000065
依次输入到LSTM网络中,获得LSTM网络每次循环的状态输出h(w),利用LSTM网络第t次循环的状态输出
Figure GDA0002835676620000066
与第K视频分段的重要程度综合特征表达
Figure GDA0002835676620000067
按照如下公式计算得到对于第K视频分段的注意力分数
Figure GDA0002835676620000068
Figure GDA0002835676620000069
其中,Wg与Wh为可训练的权重矩阵,b(w)为可训练的偏置向量、 P(w)为提前设置好的参数向量。利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数
Figure GDA00028356766200000610
利用得到的针对于第t次循环所有视频分段的注意力分数
Figure GDA00028356766200000611
与视频中所有分段的重要程度综合特征表达
Figure GDA00028356766200000612
按照如下公式计算得到针对于第t次循环的上下文向量ct
Figure GDA00028356766200000613
Figure GDA00028356766200000614
利用得到的针对于第t次循环的上下文向量ct,结合LSTM网络第t次循环的状态输出
Figure GDA00028356766200000615
利用如下公式得到第t次循环增强标题生成器模型的输出单词wt
Figure GDA0002835676620000071
其中,w1:t-1代表前t-1次循环增强标题生成器模型的输出单词,θ代表增强标题生成器模型的所有参数集合。
利用如下公式作为增强标题生成器模型的梯度函数,
Figure GDA0002835676620000072
其中Qt为第t次循环对应的预测回报函数,按照如下公式计算,
Figure GDA0002835676620000073
其中N代表视频中含有的视频帧个数,函数R()代表按照BLEU 函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小。
按照如上计算公式作为增强标题生成器模型的梯度函数,对于增强标题生成器模型进行训练,将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型,利用返回的视频中所有视频帧的综合重要程度分数
Figure GDA0002835676620000074
与标注的视频中所有视频帧的重要程度分数{s1,s2,...,sN},按照如下公式计算分层自注意力网络模型的损失函数Lsup(θ),
Figure GDA0002835676620000075
利用如上公式对于分层自注意力网络模型进行梯度下降训练,利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数,将综合重要程度分数高的视频帧取出作为视频总结任务的结果。
附图说明
图1是根据本发明的一实施例的用于解决视频总结任务的结合视频描述的分层自注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用结合视频描述的分层自注意力网络总结视频的方法包括如下步骤:
1)设计一种分层自注意力网络模型,利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数;
2)设计一种增强标题生成器模型,利用该增强标题生成器模型结合步骤1)中获取的视频中所有视频分段的重要程度分数,获取对于视频的自然语言描述;
3)设计相应梯度函数对步骤2)设计的增强标题生成器模型进行训练,将训练后得到的步骤2)对应的视频中所有视频帧的综合重要程度分数返回给步骤1)设计的分层自注意力网络模型,设计损失函数对步骤1)设计的分层自注意力网络模型进行训练,利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果。
所述步骤1),其具体步骤为:
对于视频总结任务的视频帧,利用训练好的ResNet网络获取视频中的帧表达特征
Figure GDA0002835676620000091
其中N代表视频中含有的视频帧个数。利用内核时间分割方法将视频进行分割,获得视频总结任务中视频的K个分段{S1,S2,...,SK}。
将视频分段SK中含有的视频帧表达
Figure GDA0002835676620000092
输入到1维卷积神经网络中,获取视频分段SK视频帧的卷积输出表达
Figure GDA0002835676620000093
对于视频分段SK中的第i帧与第j帧对应的输出表达 oi与oj,按照如下公式计算得到相关度向量f(oi,oj),
f(oi,oj)=P(f)tanh([W1oi+W2oj+b])
其中,P(f)、W1、W2为可训练的参数矩阵,b为可训练的偏置向量。利用如上公式,对视频分段SK所有视频帧的卷积输出表达两两计算获得相关度向量,得到相关度矩阵
Figure GDA0002835676620000094
对视频分段SK中的第i帧与第j帧,按照如下公式计算得到视频分段SK中的第i帧针对于第j帧的注意力分数向量γij
Figure GDA0002835676620000095
其中,exp()代表以自然底数e为底数的指数运算。利用得到的视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,按照如下公式计算得到视频分段SK中的第j帧的注意力分数sj
Figure GDA0002835676620000101
Figure GDA0002835676620000102
其中,dC代表视频分段SK中的第i帧针对于第j帧的注意力分数向量γij的维度。
利用如上方法计算获得视频分段SK中所有帧的注意力分数
Figure GDA0002835676620000103
及视频中所有帧的注意力分数{s1,s2,...,sN},利用得到的视频分段SK中所有帧的注意力分数
Figure GDA0002835676620000104
与视频分段SK中视频帧表达
Figure GDA0002835676620000105
按照如下公式计算得到视频分段SK的分段级别特征
Figure GDA0002835676620000106
Figure GDA0002835676620000107
按照如上方法计算得到视频中所有分段的分段级别表达
Figure GDA0002835676620000108
将得到的视频中所有分段的分段级别表达
Figure GDA0002835676620000109
输入到1维卷积神经网络中,获取视频中所有分段的卷积输出表达
Figure GDA00028356766200001010
对于得到的视频第i分段的卷积输出表达
Figure GDA00028356766200001011
与视频第j分段的卷积输出表达
Figure GDA00028356766200001012
按照如下公式计算得到相关度向量
Figure GDA00028356766200001013
Figure GDA00028356766200001014
其中,P(s)、W1 (s)
Figure GDA00028356766200001015
代表可训练的参数矩阵,b(s)代表可训练的偏置向量。利用如上公式,对所有视频分段的卷积输出表达两两计算获得相关度向量,得到视频分段相关度矩阵M(s)。利用得到的视频分段相关度矩阵M(s),分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵 M(s)bw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素
Figure GDA0002835676620000111
Figure GDA0002835676620000112
取值如下,
Figure GDA0002835676620000113
Figure GDA0002835676620000114
利用得到的正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵M(s)bw,按照如下公式计算得到视频分段SK的视频分段级别正向综合特征
Figure GDA0002835676620000115
与负向综合特征
Figure GDA0002835676620000116
Figure GDA0002835676620000117
Figure GDA0002835676620000118
Figure GDA0002835676620000119
Figure GDA00028356766200001110
其中,
Figure GDA00028356766200001111
代表正向视频分段相关度矩阵M(s)fw中对应于第i视频分段与第j视频分段的向量,
Figure GDA00028356766200001112
代表负向视频分段相关度矩阵M(s)bw中对应于第i视频分段与第j视频分段的向量。
将得到的视频分段SK的视频分段级别正向综合特征
Figure GDA00028356766200001113
与负向综合特征
Figure GDA00028356766200001114
进行连接操作,得到视频分段SK的综合特征表达
Figure GDA00028356766200001115
利用如上计算方法,得到视频中所有视频分段的综合特征表达
Figure GDA0002835676620000121
利用得到的视频分段SK的综合特征表达
Figure GDA0002835676620000122
按照如下公式计算得到视频分段SK的重要程度分数
Figure GDA0002835676620000123
Figure GDA0002835676620000124
其中
Figure GDA0002835676620000125
为可训练的参数矩阵,
Figure GDA0002835676620000126
为可训练的参数偏置向量,σ()代表sigmoid函数计算。利用如上方法计算得到视频中所有视频分段的重要程度分数
Figure GDA0002835676620000127
将得到的视频中所有帧的注意力分数{s1,s2,...,sN}与视频中各帧所在的视频分段得到重要程度分数相乘,得到视频中所有帧的综合重要程度分数
Figure GDA0002835676620000128
所述步骤2),其具体步骤为:
利用得到的视频中所有视频分段的重要程度分数
Figure GDA0002835676620000129
与视频中所有视频分段的综合特征表达
Figure GDA00028356766200001210
将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达
Figure GDA00028356766200001211
将得到的视频中所有分段的重要程度综合特征表达
Figure GDA00028356766200001212
依次输入到LSTM网络中,获得LSTM网络每次循环的状态输出h(w),利用LSTM网络第t次循环的状态输出
Figure GDA00028356766200001213
与第K视频分段的重要程度综合特征表达
Figure GDA00028356766200001214
按照如下公式计算得到对于第K视频分段的注意力分数
Figure GDA00028356766200001215
Figure GDA00028356766200001216
其中,Wg与Wh为可训练的权重矩阵,b(w)为可训练的偏置向量、 P(w)为提前设置好的参数向量。利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数
Figure GDA00028356766200001217
利用得到的针对于第t次循环所有视频分段的注意力分数
Figure GDA0002835676620000131
与视频中所有分段的重要程度综合特征表达
Figure GDA0002835676620000132
按照如下公式计算得到针对于第t次循环的上下文向量ct
Figure GDA0002835676620000133
Figure GDA0002835676620000134
利用得到的针对于第t次循环的上下文向量ct,结合LSTM网络第t次循环的状态输出
Figure GDA0002835676620000135
利用如下公式得到第t次循环增强标题生成器模型的输出单词wt
Figure GDA0002835676620000136
其中,w1:t-1代表前t-1次循环增强标题生成器模型的输出单词,θ代表增强标题生成器模型的所有参数集合。
所述步骤3),其具体步骤为:
利用如下公式作为增强标题生成器模型的梯度函数,
Figure GDA0002835676620000137
其中Qt为第t次循环对应的预测回报函数,按照如下公式计算,
Figure GDA0002835676620000138
其中N代表视频中含有的视频帧个数,函数R()代表按照BLEU 函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小。
按照如上计算公式作为增强标题生成器模型的梯度函数,对于增强标题生成器模型进行训练,将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型,利用返回的视频中所有视频帧的综合重要程度分数
Figure GDA0002835676620000141
与标注的视频中所有视频帧的重要程度分数{s1,s2,...,sN},按照如下公式计算分层自注意力网络模型的损失函数Lsup(θ),
Figure GDA0002835676620000142
利用如上公式对于分层自注意力网络模型进行梯度下降训练,利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数,将综合重要程度分数高的视频帧取出作为视频总结任务的结果。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityNet实验数据集上进行训练,在SumMe实验数据集与TVSum实验数据集上进行测试实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,分别采用了无监督的方法与有监督的方法来对于本发明的效果进行评价,并且针对于无监督的方法与有监督的方法均采用F分数的评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-2所示,本方法表示为HSAN:
Figure GDA0002835676620000151
表1本发明针对于无监督方法的测试结果
Figure GDA0002835676620000152
表2本发明针对于有监督方法的测试结果。

Claims (2)

1.利用结合视频描述的分层自注意力网络总结视频的方法,用于解决视频总结任务,其特征在于,包括如下步骤:
1)设计一种分层自注意力网络模型,利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数;
2)设计一种增强标题生成器模型,利用该增强标题生成器模型结合步骤1)中获取的视频中所有视频分段的重要程度分数,获取对于视频的自然语言描述;
3)设计相应梯度函数对步骤2)设计的增强标题生成器模型进行训练,将训练后得到的步骤2)对应的视频中所有视频帧的综合重要程度分数返回给步骤1)设计的分层自注意力网络模型,设计损失函数对步骤1)设计的分层自注意力网络模型进行训练,利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果;
其中,所述步骤1)具体为:
对于视频总结任务的视频帧,利用训练好的ResNet网络获取视频中的帧表达特征
Figure FDA0002835676610000011
其中N代表视频中含有的视频帧个数;利用内核时间分割方法将视频进行分割,获得视频总结任务中视频的K个分段{S1,S2,...,SK};
将视频分段SK中含有的视频帧表达
Figure FDA0002835676610000012
输入到1维卷积神经网络中,获取视频分段SK视频帧的卷积输出表达
Figure FDA0002835676610000021
对于视频分段SK中的第i帧与第j帧对应的输出表达oi与oj,按照如下公式计算得到相关度向量f(oi,oj),
f(oi,oj)=P(f)tanh([W1oi+W2oj+b])
其中,P(f)、W1、W2为可训练的参数矩阵,b为可训练的偏置向量;利用如上公式,对视频分段SK所有视频帧的卷积输出表达两两计算获得相关度向量,得到相关度矩阵
Figure FDA0002835676610000022
对视频分段SK中的第i帧与第j帧,按照如下公式计算得到视频分段SK中的第i帧针对于第j帧的注意力分数向量γij
Figure FDA0002835676610000023
其中,exp()代表以自然底数e为底数的指数运算;利用得到的视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,按照如下公式计算得到视频分段SK中的第j帧的注意力分数sj
Figure FDA0002835676610000024
Figure FDA0002835676610000025
其中,dC代表视频分段SK中的第i帧针对于第j帧的注意力分数向量γij的维度;
利用如上方法计算获得视频分段SK中所有帧的注意力分数
Figure FDA0002835676610000026
及视频中所有帧的注意力分数{s1,s2,...,sN},利用得到的视频分段SK中所有帧的注意力分数
Figure FDA0002835676610000027
与视频分段SK中视频帧表达
Figure FDA0002835676610000028
按照如下公式计算得到视频分段SK的分段级别特征
Figure FDA0002835676610000031
Figure FDA0002835676610000032
按照如上方法计算得到视频中所有分段的分段级别表达
Figure FDA0002835676610000033
将得到的视频中所有分段的分段级别表达
Figure FDA0002835676610000034
输入到1维卷积神经网络中,获取视频中所有分段的卷积输出表达
Figure FDA0002835676610000035
对于得到的视频第i分段的卷积输出表达
Figure FDA0002835676610000036
与视频第j分段的卷积输出表达
Figure FDA0002835676610000037
按照如下公式计算得到相关度向量
Figure FDA0002835676610000038
Figure FDA0002835676610000039
其中,P(s)、W1 (s)
Figure FDA00028356766100000310
代表可训练的参数矩阵,b(s)代表可训练的偏置向量;利用如上公式,对所有视频分段的卷积输出表达两两计算获得相关度向量,得到视频分段相关度矩阵M(s);利用得到的视频分段相关度矩阵M(s),分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵M(s)bw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素
Figure FDA00028356766100000311
Figure FDA00028356766100000312
取值如下,
Figure FDA00028356766100000313
Figure FDA00028356766100000314
利用得到的正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵M(s)bw,按照如下公式计算得到视频分段SK的视频分段级别正向综合特征
Figure FDA0002835676610000041
与负向综合特征
Figure FDA0002835676610000042
Figure FDA0002835676610000043
Figure FDA0002835676610000044
Figure FDA0002835676610000045
Figure FDA0002835676610000046
其中,
Figure FDA0002835676610000047
代表正向视频分段相关度矩阵M(s)fw中对应于第i视频分段与第j视频分段的向量,
Figure FDA0002835676610000048
代表负向视频分段相关度矩阵M(s)bw中对应于第i视频分段与第j视频分段的向量;
将得到的视频分段SK的视频分段级别正向综合特征
Figure FDA0002835676610000049
与负向综合特征
Figure FDA00028356766100000410
进行连接操作,得到视频分段SK的综合特征表达
Figure FDA00028356766100000411
利用如上计算方法,得到视频中所有视频分段的综合特征表达
Figure FDA00028356766100000412
利用得到的视频分段SK的综合特征表达
Figure FDA00028356766100000413
按照如下公式计算得到视频分段SK的重要程度分数
Figure FDA00028356766100000414
Figure FDA00028356766100000415
其中
Figure FDA00028356766100000416
为可训练的参数矩阵,
Figure FDA00028356766100000417
为可训练的参数偏置向量,σ()代表sigmoid函数计算;利用如上方法计算得到视频中所有视频分段的重要程度分数
Figure FDA00028356766100000418
将得到的视频中所有帧的注意力分数{s1,s2,...,sN}与视频中各帧所在的视频分段得到重要程度分数相乘,得到视频中所有帧的综合重要程度分数
Figure FDA00028356766100000419
其中,所述步骤2)具体为:
利用得到的视频中所有视频分段的重要程度分数
Figure FDA0002835676610000051
与视频中所有视频分段的综合特征表达
Figure FDA0002835676610000052
将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达
Figure FDA0002835676610000053
将得到的视频中所有分段的重要程度综合特征表达
Figure FDA0002835676610000054
依次输入到LSTM网络中,获得LSTM网络每次循环的状态输出h(w),利用LSTM网络第t次循环的状态输出
Figure FDA0002835676610000055
与第K视频分段的重要程度综合特征表达
Figure FDA0002835676610000056
按照如下公式计算得到对于第K视频分段的注意力分数
Figure FDA0002835676610000057
Figure FDA0002835676610000058
其中,Wg与Wh为可训练的权重矩阵,b(w)为可训练的偏置向量、P(w)为提前设置好的参数向量;利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数
Figure FDA0002835676610000059
利用得到的针对于第t次循环所有视频分段的注意力分数
Figure FDA00028356766100000510
与视频中所有分段的重要程度综合特征表达
Figure FDA00028356766100000511
按照如下公式计算得到针对于第t次循环的上下文向量ct
Figure FDA00028356766100000512
Figure FDA00028356766100000513
利用得到的针对于第t次循环的上下文向量ct,结合LSTM网络第t次循环的状态输出
Figure FDA00028356766100000514
利用如下公式得到第t次循环增强标题生成器模型的输出单词wt
Figure FDA00028356766100000515
其中,w1:t-1代表前t-1次循环增强标题生成器模型的输出单词,θ代表增强标题生成器模型的所有参数集合。
2.根据权利要求1所述的利用结合视频描述的分层自注意力网络总结视频的方法,其特征在于,所述步骤3)具体为:
利用如下公式作为增强标题生成器模型的梯度函数,
Figure FDA0002835676610000061
其中Qt为第t次循环对应的预测回报函数,按照如下公式计算,
Figure FDA0002835676610000062
其中N代表视频中含有的视频帧个数,函数R()代表按照BLEU函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小,
按照如上计算公式作为增强标题生成器模型的梯度函数,对于增强标题生成器模型进行训练,将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型,利用返回的视频中所有视频帧的综合重要程度分数
Figure FDA0002835676610000063
与标注的视频中所有视频帧的重要程度分数{s1,s2,...,sN},按照如下公式计算分层自注意力网络模型的损失函数Lsup(θ),
Figure FDA0002835676610000064
利用如上公式对于分层自注意力网络模型进行梯度下降训练,利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数,将综合重要程度分数高的视频帧取出作为视频总结任务的结果。
CN201910153049.3A 2019-02-28 2019-02-28 利用结合视频描述的分层自注意力网络总结视频的方法 Active CN109889923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910153049.3A CN109889923B (zh) 2019-02-28 2019-02-28 利用结合视频描述的分层自注意力网络总结视频的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910153049.3A CN109889923B (zh) 2019-02-28 2019-02-28 利用结合视频描述的分层自注意力网络总结视频的方法

Publications (2)

Publication Number Publication Date
CN109889923A CN109889923A (zh) 2019-06-14
CN109889923B true CN109889923B (zh) 2021-03-26

Family

ID=66930086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910153049.3A Active CN109889923B (zh) 2019-02-28 2019-02-28 利用结合视频描述的分层自注意力网络总结视频的方法

Country Status (1)

Country Link
CN (1) CN109889923B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413838B (zh) * 2019-07-15 2021-06-22 上海交通大学 一种无监督视频摘要模型及其建立方法
CN110933518B (zh) * 2019-12-11 2020-10-02 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111277892B (zh) 2020-01-20 2022-03-22 北京百度网讯科技有限公司 用于选取视频片段的方法、装置、服务器和介质
CN111526434B (zh) * 2020-04-24 2021-05-18 西北工业大学 基于转换器的视频摘要方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104683885A (zh) * 2015-02-04 2015-06-03 浙江大学 一种基于近邻保持重构的视频关键帧摘要提取方法
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
WO2018127627A1 (en) * 2017-01-06 2018-07-12 Nokia Technologies Oy Method and apparatus for automatic video summarisation
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108804578A (zh) * 2018-05-24 2018-11-13 南京理工大学 基于一致性片段生成的无监督视频摘要方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467610B2 (en) * 2010-10-20 2013-06-18 Eastman Kodak Company Video summarization using sparse basis function combination

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104683885A (zh) * 2015-02-04 2015-06-03 浙江大学 一种基于近邻保持重构的视频关键帧摘要提取方法
WO2018127627A1 (en) * 2017-01-06 2018-07-12 Nokia Technologies Oy Method and apparatus for automatic video summarisation
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN108804578A (zh) * 2018-05-24 2018-11-13 南京理工大学 基于一致性片段生成的无监督视频摘要方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Hierarchical Neural Abstractive Summarization with Self-Attention Mechanism;Pin Jiang,Yahong Han;《2018 3rd International Conference on Automation, Mechanical Control and Computational Engineering (AMCCE 2018)》;20180131;全文 *
Yiming Qian;Matthew Kyan.Interactive user oriented visual attention based video summarization and exploration framework.《2014 IEEE 27th Canadian Conference on Electrical and Computer Engineering (CCECE)》.2014, *
基于时空信息和深度学习的视频总结和标题生成;郭招;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180228;全文 *

Also Published As

Publication number Publication date
CN109889923A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
Wang et al. Temporal segment networks for action recognition in videos
Jiang et al. Modeling multimodal clues in a hybrid deep learning framework for video classification
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
Messina et al. Transformer reasoning network for image-text matching and retrieval
Sharma et al. Deep learning approaches for question answering system
Yao et al. Describing videos by exploiting temporal structure
US11862145B2 (en) Deep hierarchical fusion for machine intelligence applications
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110046248B (zh) 用于文本分析的模型训练方法、文本分类方法和装置
Chen et al. Automatic social signal analysis: Facial expression recognition using difference convolution neural network
CN110032630A (zh) 话术推荐设备、方法及模型训练设备
CN113934887B (zh) 一种基于语义解耦的无提议时序语言定位方法
CN109711465A (zh) 基于mll和asca-fr的图像字幕生成方法
Wang et al. Cross-modal dynamic networks for video moment retrieval with text query
Li et al. Theme-aware visual attribute reasoning for image aesthetics assessment
Shen et al. Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description.
Fu et al. Learning semantic-aware spatial-temporal attention for interpretable action recognition
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN105701516B (zh) 一种基于属性判别的自动图像标注方法
CN110705490A (zh) 视觉情感识别方法
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
Huijuan et al. Coarse-to-fine speech emotion recognition based on multi-task learning
Galanopoulos et al. Are all combinations equal? Combining textual and visual features with multiple space learning for text-based video retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant