CN109889923B - 利用结合视频描述的分层自注意力网络总结视频的方法 - Google Patents
利用结合视频描述的分层自注意力网络总结视频的方法 Download PDFInfo
- Publication number
- CN109889923B CN109889923B CN201910153049.3A CN201910153049A CN109889923B CN 109889923 B CN109889923 B CN 109889923B CN 201910153049 A CN201910153049 A CN 201910153049A CN 109889923 B CN109889923 B CN 109889923B
- Authority
- CN
- China
- Prior art keywords
- video
- segments
- frames
- segment
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 10
- 239000011159 matrix material Substances 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 48
- 230000014509 gene expression Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 208000037584 hereditary sensory and autonomic neuropathy Diseases 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种利用结合视频描述的分层自注意力网络解决视频总结任务的方法,主要包括如下步骤:1)设计一种分层自注意力网络模型与增强标题生成器模型来获取视频中所有帧的综合重要程度分数并提高重要程度分数准确度;2)训练得到最终的分层自注意力网络模型,利用该模型生成视频总结任务的答案。相比于一般的视频总结任务解决方案,本发明利用了视频描述信息,能够更好地完成视频总结任务。本发明在视频总结任务中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及视频总结任务,尤其涉及一种利用结合视频描述的分层自注意力网络总结视频的方法。
背景技术
视频总结任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频,给出该视频中的关键帧,完成对于该视频的总结任务。目前视频总结任务的研究仍处于探索阶段。对于视频总结任务的研究可以应用于众多领域之中。
目前已有的视频总结任务解决方法一般是关注解决视频总结任务的多样性与代表性问题,对于视频中含有的语义信息关注较少。传统的视频总结任务解决方法,主要是利用手工调节的启发式方法来选取视频中的重要帧或视频的重要片段。这种方法挑出的视频总结片段不能与视频的主题紧密帖合。
为了解决上述问题,本发明利用结合视频描述的分层自注意力网络来解决视频总结任务,提高视频总结任务形成视频摘要总结片段的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频总结任务无法提供较为准确的视频摘要总结片段的问题,本发明提供一种利用结合视频描述的分层自注意力网络总结视频的方法。本发明所采用的具体技术方案是:
利用结合视频描述的分层自注意力网络总结视频的方法,包含如下步骤:
1.设计一种分层自注意力网络模型,利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数。
2.设计一种增强标题生成器模型,利用该增强标题生成器模型结合步骤1中获取的视频中所有视频分段的重要程度分数,获取对于视频的自然语言描述。
3.设计相应梯度函数对步骤2设计的增强标题生成器模型进行训练,将训练后得到的步骤2对应的视频中所有视频帧的综合重要程度分数返回给步骤1设计的分层自注意力网络模型,设计损失函数对步骤1设计的分层自注意力网络模型进行训练,利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果。
上述步骤可具体采用如下实现方式:
对于视频总结任务的视频帧,利用训练好的ResNet网络获取视频中的帧表达特征其中N代表视频中含有的视频帧个数。利用内核时间分割方法将视频进行分割,获得视频总结任务中视频的K个分段{S1,S2,...,SK}。
将视频分段SK中含有的视频帧表达输入到1维卷积神经网络中,获取视频分段SK视频帧的卷积输出表达对于视频分段SK中的第i帧与第j帧对应的输出表达 oi与oj,按照如下公式计算得到相关度向量f(oi,oj),
f(oi,oj)=P(f)tanh([W1oi+W2oj+b])
对视频分段SK中的第i帧与第j帧,按照如下公式计算得到视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,
其中,exp()代表以自然底数e为底数的指数运算。利用得到的视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,按照如下公式计算得到视频分段SK中的第j帧的注意力分数sj,
其中,dC代表视频分段SK中的第i帧针对于第j帧的注意力分数向量γij的维度。
利用如上方法计算获得视频分段SK中所有帧的注意力分数及视频中所有帧的注意力分数{s1,s2,...,sN},利用得到的视频分段SK中所有帧的注意力分数与视频分段SK中视频帧表达按照如下公式计算得到视频分段SK的分段级别特征
按照如上方法计算得到视频中所有分段的分段级别表达将得到的视频中所有分段的分段级别表达输入到1维卷积神经网络中,获取视频中所有分段的卷积输出表达对于得到的视频第i分段的卷积输出表达与视频第j分段的卷积输出表达按照如下公式计算得到相关度向量
其中,P(s)、W1 (s)、代表可训练的参数矩阵,b(s)代表可训练的偏置向量。利用如上公式,对所有视频分段的卷积输出表达两两计算获得相关度向量,得到视频分段相关度矩阵M(s)。利用得到的视频分段相关度矩阵M(s),分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵 M(s)bw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素与取值如下,
将得到的视频分段SK的视频分段级别正向综合特征与负向综合特征进行连接操作,得到视频分段SK的综合特征表达利用如上计算方法,得到视频中所有视频分段的综合特征表达利用得到的视频分段SK的综合特征表达按照如下公式计算得到视频分段SK的重要程度分数
其中为可训练的参数矩阵,为可训练的参数偏置向量,σ()代表sigmoid函数计算。利用如上方法计算得到视频中所有视频分段的重要程度分数将得到的视频中所有帧的注意力分数{s1,s2,...,sN}与视频中各帧所在的视频分段得到重要程度分数相乘,得到视频中所有帧的综合重要程度分数
利用得到的视频中所有视频分段的重要程度分数与视频中所有视频分段的综合特征表达将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达将得到的视频中所有分段的重要程度综合特征表达依次输入到LSTM网络中,获得LSTM网络每次循环的状态输出h(w),利用LSTM网络第t次循环的状态输出与第K视频分段的重要程度综合特征表达按照如下公式计算得到对于第K视频分段的注意力分数
其中,Wg与Wh为可训练的权重矩阵,b(w)为可训练的偏置向量、 P(w)为提前设置好的参数向量。利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数利用得到的针对于第t次循环所有视频分段的注意力分数与视频中所有分段的重要程度综合特征表达按照如下公式计算得到针对于第t次循环的上下文向量ct,
其中,w1:t-1代表前t-1次循环增强标题生成器模型的输出单词,θ代表增强标题生成器模型的所有参数集合。
利用如下公式作为增强标题生成器模型的梯度函数,
其中Qt为第t次循环对应的预测回报函数,按照如下公式计算,
其中N代表视频中含有的视频帧个数,函数R()代表按照BLEU 函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小。
按照如上计算公式作为增强标题生成器模型的梯度函数,对于增强标题生成器模型进行训练,将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型,利用返回的视频中所有视频帧的综合重要程度分数与标注的视频中所有视频帧的重要程度分数{s1,s2,...,sN},按照如下公式计算分层自注意力网络模型的损失函数Lsup(θ),
利用如上公式对于分层自注意力网络模型进行梯度下降训练,利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数,将综合重要程度分数高的视频帧取出作为视频总结任务的结果。
附图说明
图1是根据本发明的一实施例的用于解决视频总结任务的结合视频描述的分层自注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用结合视频描述的分层自注意力网络总结视频的方法包括如下步骤:
1)设计一种分层自注意力网络模型,利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数;
2)设计一种增强标题生成器模型,利用该增强标题生成器模型结合步骤1)中获取的视频中所有视频分段的重要程度分数,获取对于视频的自然语言描述;
3)设计相应梯度函数对步骤2)设计的增强标题生成器模型进行训练,将训练后得到的步骤2)对应的视频中所有视频帧的综合重要程度分数返回给步骤1)设计的分层自注意力网络模型,设计损失函数对步骤1)设计的分层自注意力网络模型进行训练,利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果。
所述步骤1),其具体步骤为:
对于视频总结任务的视频帧,利用训练好的ResNet网络获取视频中的帧表达特征其中N代表视频中含有的视频帧个数。利用内核时间分割方法将视频进行分割,获得视频总结任务中视频的K个分段{S1,S2,...,SK}。
将视频分段SK中含有的视频帧表达输入到1维卷积神经网络中,获取视频分段SK视频帧的卷积输出表达对于视频分段SK中的第i帧与第j帧对应的输出表达 oi与oj,按照如下公式计算得到相关度向量f(oi,oj),
f(oi,oj)=P(f)tanh([W1oi+W2oj+b])
对视频分段SK中的第i帧与第j帧,按照如下公式计算得到视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,
其中,exp()代表以自然底数e为底数的指数运算。利用得到的视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,按照如下公式计算得到视频分段SK中的第j帧的注意力分数sj,
其中,dC代表视频分段SK中的第i帧针对于第j帧的注意力分数向量γij的维度。
利用如上方法计算获得视频分段SK中所有帧的注意力分数及视频中所有帧的注意力分数{s1,s2,...,sN},利用得到的视频分段SK中所有帧的注意力分数与视频分段SK中视频帧表达按照如下公式计算得到视频分段SK的分段级别特征
按照如上方法计算得到视频中所有分段的分段级别表达将得到的视频中所有分段的分段级别表达输入到1维卷积神经网络中,获取视频中所有分段的卷积输出表达对于得到的视频第i分段的卷积输出表达与视频第j分段的卷积输出表达按照如下公式计算得到相关度向量
其中,P(s)、W1 (s)、代表可训练的参数矩阵,b(s)代表可训练的偏置向量。利用如上公式,对所有视频分段的卷积输出表达两两计算获得相关度向量,得到视频分段相关度矩阵M(s)。利用得到的视频分段相关度矩阵M(s),分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵 M(s)bw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素与取值如下,
将得到的视频分段SK的视频分段级别正向综合特征与负向综合特征进行连接操作,得到视频分段SK的综合特征表达利用如上计算方法,得到视频中所有视频分段的综合特征表达利用得到的视频分段SK的综合特征表达按照如下公式计算得到视频分段SK的重要程度分数
其中为可训练的参数矩阵,为可训练的参数偏置向量,σ()代表sigmoid函数计算。利用如上方法计算得到视频中所有视频分段的重要程度分数将得到的视频中所有帧的注意力分数{s1,s2,...,sN}与视频中各帧所在的视频分段得到重要程度分数相乘,得到视频中所有帧的综合重要程度分数
所述步骤2),其具体步骤为:
利用得到的视频中所有视频分段的重要程度分数与视频中所有视频分段的综合特征表达将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达将得到的视频中所有分段的重要程度综合特征表达依次输入到LSTM网络中,获得LSTM网络每次循环的状态输出h(w),利用LSTM网络第t次循环的状态输出与第K视频分段的重要程度综合特征表达按照如下公式计算得到对于第K视频分段的注意力分数
其中,Wg与Wh为可训练的权重矩阵,b(w)为可训练的偏置向量、 P(w)为提前设置好的参数向量。利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数利用得到的针对于第t次循环所有视频分段的注意力分数与视频中所有分段的重要程度综合特征表达按照如下公式计算得到针对于第t次循环的上下文向量ct,
其中,w1:t-1代表前t-1次循环增强标题生成器模型的输出单词,θ代表增强标题生成器模型的所有参数集合。
所述步骤3),其具体步骤为:
利用如下公式作为增强标题生成器模型的梯度函数,
其中Qt为第t次循环对应的预测回报函数,按照如下公式计算,
其中N代表视频中含有的视频帧个数,函数R()代表按照BLEU 函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小。
按照如上计算公式作为增强标题生成器模型的梯度函数,对于增强标题生成器模型进行训练,将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型,利用返回的视频中所有视频帧的综合重要程度分数与标注的视频中所有视频帧的重要程度分数{s1,s2,...,sN},按照如下公式计算分层自注意力网络模型的损失函数Lsup(θ),
利用如上公式对于分层自注意力网络模型进行梯度下降训练,利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数,将综合重要程度分数高的视频帧取出作为视频总结任务的结果。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityNet实验数据集上进行训练,在SumMe实验数据集与TVSum实验数据集上进行测试实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,分别采用了无监督的方法与有监督的方法来对于本发明的效果进行评价,并且针对于无监督的方法与有监督的方法均采用F分数的评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-2所示,本方法表示为HSAN:
表1本发明针对于无监督方法的测试结果
表2本发明针对于有监督方法的测试结果。
Claims (2)
1.利用结合视频描述的分层自注意力网络总结视频的方法,用于解决视频总结任务,其特征在于,包括如下步骤:
1)设计一种分层自注意力网络模型,利用该分层自注意力网络模型获得视频中所有视频分段的重要程度分数与视频中所有帧的综合重要程度分数;
2)设计一种增强标题生成器模型,利用该增强标题生成器模型结合步骤1)中获取的视频中所有视频分段的重要程度分数,获取对于视频的自然语言描述;
3)设计相应梯度函数对步骤2)设计的增强标题生成器模型进行训练,将训练后得到的步骤2)对应的视频中所有视频帧的综合重要程度分数返回给步骤1)设计的分层自注意力网络模型,设计损失函数对步骤1)设计的分层自注意力网络模型进行训练,利用训练出的分层自注意力网络模型获取视频中的重要帧作为视频总结任务的结果;
其中,所述步骤1)具体为:
对于视频总结任务的视频帧,利用训练好的ResNet网络获取视频中的帧表达特征其中N代表视频中含有的视频帧个数;利用内核时间分割方法将视频进行分割,获得视频总结任务中视频的K个分段{S1,S2,...,SK};
将视频分段SK中含有的视频帧表达输入到1维卷积神经网络中,获取视频分段SK视频帧的卷积输出表达对于视频分段SK中的第i帧与第j帧对应的输出表达oi与oj,按照如下公式计算得到相关度向量f(oi,oj),
f(oi,oj)=P(f)tanh([W1oi+W2oj+b])
对视频分段SK中的第i帧与第j帧,按照如下公式计算得到视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,
其中,exp()代表以自然底数e为底数的指数运算;利用得到的视频分段SK中的第i帧针对于第j帧的注意力分数向量γij,按照如下公式计算得到视频分段SK中的第j帧的注意力分数sj,
其中,dC代表视频分段SK中的第i帧针对于第j帧的注意力分数向量γij的维度;
利用如上方法计算获得视频分段SK中所有帧的注意力分数及视频中所有帧的注意力分数{s1,s2,...,sN},利用得到的视频分段SK中所有帧的注意力分数与视频分段SK中视频帧表达按照如下公式计算得到视频分段SK的分段级别特征
按照如上方法计算得到视频中所有分段的分段级别表达将得到的视频中所有分段的分段级别表达输入到1维卷积神经网络中,获取视频中所有分段的卷积输出表达对于得到的视频第i分段的卷积输出表达与视频第j分段的卷积输出表达按照如下公式计算得到相关度向量
其中,P(s)、W1 (s)、代表可训练的参数矩阵,b(s)代表可训练的偏置向量;利用如上公式,对所有视频分段的卷积输出表达两两计算获得相关度向量,得到视频分段相关度矩阵M(s);利用得到的视频分段相关度矩阵M(s),分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向视频分段相关度矩阵M(s)fw与负向视频分段相关度矩阵M(s)bw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素与取值如下,
将得到的视频分段SK的视频分段级别正向综合特征与负向综合特征进行连接操作,得到视频分段SK的综合特征表达利用如上计算方法,得到视频中所有视频分段的综合特征表达利用得到的视频分段SK的综合特征表达按照如下公式计算得到视频分段SK的重要程度分数
其中为可训练的参数矩阵,为可训练的参数偏置向量,σ()代表sigmoid函数计算;利用如上方法计算得到视频中所有视频分段的重要程度分数将得到的视频中所有帧的注意力分数{s1,s2,...,sN}与视频中各帧所在的视频分段得到重要程度分数相乘,得到视频中所有帧的综合重要程度分数
其中,所述步骤2)具体为:
利用得到的视频中所有视频分段的重要程度分数与视频中所有视频分段的综合特征表达将各个视频分段的重要程度分数与综合特征表达分别相乘得到视频中所有分段的重要程度综合特征表达将得到的视频中所有分段的重要程度综合特征表达依次输入到LSTM网络中,获得LSTM网络每次循环的状态输出h(w),利用LSTM网络第t次循环的状态输出与第K视频分段的重要程度综合特征表达按照如下公式计算得到对于第K视频分段的注意力分数
其中,Wg与Wh为可训练的权重矩阵,b(w)为可训练的偏置向量、P(w)为提前设置好的参数向量;利用如上方法计算得到针对于第t次循环所有视频分段的注意力分数利用得到的针对于第t次循环所有视频分段的注意力分数与视频中所有分段的重要程度综合特征表达按照如下公式计算得到针对于第t次循环的上下文向量ct,
其中,w1:t-1代表前t-1次循环增强标题生成器模型的输出单词,θ代表增强标题生成器模型的所有参数集合。
2.根据权利要求1所述的利用结合视频描述的分层自注意力网络总结视频的方法,其特征在于,所述步骤3)具体为:
利用如下公式作为增强标题生成器模型的梯度函数,
其中Qt为第t次循环对应的预测回报函数,按照如下公式计算,
其中N代表视频中含有的视频帧个数,函数R()代表按照BLEU函数计算增强标题生成器模型生成的输出单词与视频对应的描述文本单词之间的差别大小,
按照如上计算公式作为增强标题生成器模型的梯度函数,对于增强标题生成器模型进行训练,将训练后的增强标题生成器模型对应的视频中所有视频帧的综合重要程度分数返回给分层自注意力网络模型,利用返回的视频中所有视频帧的综合重要程度分数与标注的视频中所有视频帧的重要程度分数{s1,s2,...,sN},按照如下公式计算分层自注意力网络模型的损失函数Lsup(θ),
利用如上公式对于分层自注意力网络模型进行梯度下降训练,利用训练好的分层自注意力网络模型输出视频中所有视频帧的综合重要程度分数,将综合重要程度分数高的视频帧取出作为视频总结任务的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910153049.3A CN109889923B (zh) | 2019-02-28 | 2019-02-28 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910153049.3A CN109889923B (zh) | 2019-02-28 | 2019-02-28 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109889923A CN109889923A (zh) | 2019-06-14 |
CN109889923B true CN109889923B (zh) | 2021-03-26 |
Family
ID=66930086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910153049.3A Active CN109889923B (zh) | 2019-02-28 | 2019-02-28 | 利用结合视频描述的分层自注意力网络总结视频的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109889923B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413838B (zh) * | 2019-07-15 | 2021-06-22 | 上海交通大学 | 一种无监督视频摘要模型及其建立方法 |
CN110933518B (zh) * | 2019-12-11 | 2020-10-02 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
CN111277892B (zh) | 2020-01-20 | 2022-03-22 | 北京百度网讯科技有限公司 | 用于选取视频片段的方法、装置、服务器和介质 |
CN111526434B (zh) * | 2020-04-24 | 2021-05-18 | 西北工业大学 | 基于转换器的视频摘要方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104683885A (zh) * | 2015-02-04 | 2015-06-03 | 浙江大学 | 一种基于近邻保持重构的视频关键帧摘要提取方法 |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
WO2018127627A1 (en) * | 2017-01-06 | 2018-07-12 | Nokia Technologies Oy | Method and apparatus for automatic video summarisation |
CN108647255A (zh) * | 2018-04-23 | 2018-10-12 | 清华大学 | 基于注意力回归的视频时序句子定位方法及装置 |
CN108804578A (zh) * | 2018-05-24 | 2018-11-13 | 南京理工大学 | 基于一致性片段生成的无监督视频摘要方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8467610B2 (en) * | 2010-10-20 | 2013-06-18 | Eastman Kodak Company | Video summarization using sparse basis function combination |
-
2019
- 2019-02-28 CN CN201910153049.3A patent/CN109889923B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104683885A (zh) * | 2015-02-04 | 2015-06-03 | 浙江大学 | 一种基于近邻保持重构的视频关键帧摘要提取方法 |
WO2018127627A1 (en) * | 2017-01-06 | 2018-07-12 | Nokia Technologies Oy | Method and apparatus for automatic video summarisation |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108647255A (zh) * | 2018-04-23 | 2018-10-12 | 清华大学 | 基于注意力回归的视频时序句子定位方法及装置 |
CN108804578A (zh) * | 2018-05-24 | 2018-11-13 | 南京理工大学 | 基于一致性片段生成的无监督视频摘要方法 |
Non-Patent Citations (3)
Title |
---|
A Hierarchical Neural Abstractive Summarization with Self-Attention Mechanism;Pin Jiang,Yahong Han;《2018 3rd International Conference on Automation, Mechanical Control and Computational Engineering (AMCCE 2018)》;20180131;全文 * |
Yiming Qian;Matthew Kyan.Interactive user oriented visual attention based video summarization and exploration framework.《2014 IEEE 27th Canadian Conference on Electrical and Computer Engineering (CCECE)》.2014, * |
基于时空信息和深度学习的视频总结和标题生成;郭招;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180228;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109889923A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109889923B (zh) | 利用结合视频描述的分层自注意力网络总结视频的方法 | |
Wang et al. | Temporal segment networks for action recognition in videos | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
Messina et al. | Transformer reasoning network for image-text matching and retrieval | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
Gao et al. | Tall: Temporal activity localization via language query | |
Sharma et al. | Deep learning approaches for question answering system | |
Yao et al. | Describing videos by exploiting temporal structure | |
US11862145B2 (en) | Deep hierarchical fusion for machine intelligence applications | |
Chen et al. | Automatic social signal analysis: Facial expression recognition using difference convolution neural network | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
Li et al. | Theme-aware visual attribute reasoning for image aesthetics assessment | |
CN110032630A (zh) | 话术推荐设备、方法及模型训练设备 | |
Wang et al. | Cross-modal dynamic networks for video moment retrieval with text query | |
CN113934887B (zh) | 一种基于语义解耦的无提议时序语言定位方法 | |
CN108595546B (zh) | 基于半监督的跨媒体特征学习检索方法 | |
Fu et al. | Learning semantic-aware spatial-temporal attention for interpretable action recognition | |
WO2022262098A1 (zh) | 一种基于图神经网络的视频情感语义分析方法 | |
CN110705490A (zh) | 视觉情感识别方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
Chauhan et al. | Analysis of Intelligent movie recommender system from facial expression | |
Korban et al. | A multi-modal transformer network for action detection | |
Galanopoulos et al. | Are all combinations equal? Combining textual and visual features with multiple space learning for text-based video retrieval | |
Li et al. | Cross2Self-attentive bidirectional recurrent neural network with BERT for biomedical semantic text similarity | |
Bao et al. | Question generation with doubly adversarial nets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |