CN110933518B - 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 - Google Patents

一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 Download PDF

Info

Publication number
CN110933518B
CN110933518B CN201911266940.4A CN201911266940A CN110933518B CN 110933518 B CN110933518 B CN 110933518B CN 201911266940 A CN201911266940 A CN 201911266940A CN 110933518 B CN110933518 B CN 110933518B
Authority
CN
China
Prior art keywords
video
query
attention
shot
feature expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911266940.4A
Other languages
English (en)
Other versions
CN110933518A (zh
Inventor
赵洲
许亦陈
肖舒文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911266940.4A priority Critical patent/CN110933518B/zh
Publication of CN110933518A publication Critical patent/CN110933518A/zh
Application granted granted Critical
Publication of CN110933518B publication Critical patent/CN110933518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法。1)针对一组视频,切割构建视频片段。利用全卷积神经网络,提取视频每个镜头的视觉特征。2)利用局部自注意力机制,学习视频片段中所有镜头之间的语义关系,并生成视频镜头的视觉特征。3)利用查询相关的全局注意力机制,学习视频不同片段之间的语义关系,并生成面向查询的视频镜头的视觉特征。4)计算视频镜头和用户查询之间的相似度得分,用来生成查询相关的视频摘要。相比于一般视频摘要解决方案,本发明利用卷积多层注意力机制,能够更准确地反映查询相关的视频视觉特征,产生更加符合的视频摘要。本发明在视频摘要中所取得的效果相比于传统方法更好。

Description

一种利用卷积多层注意力网络机制生成面向查询的视频摘要 的方法
技术领域
本发明涉及视频摘要生成,尤其涉及一种利用卷积多层注意力网络来生成与查询相关的视频摘要的方法。
背景技术
自动化的视频摘要技术广泛应用于诸多领域,例如运动识别,监视视频分析,基于个人生活日志视频的可视日记创建,以及视频站点的视频预览。
现有的视频摘要方法侧重于寻找最多样化和最具代表性的视觉内容,缺少对用户偏好的考虑。它可以分为两个领域:(1)通用视频摘要(2)面向查询的视频摘要。通用视频摘要通过选择长视频的亮点,并删除视频冗余内容来生成原始视频的紧凑版本;面向查询的视频摘要不仅删除视频的多余部分,找到视频中的关键帧或镜头,而且挑选出与用户查询相关的视频片段。面向查询的视频摘要相较于通用视频摘要的优越性主要体现在以下三点:首先,视频摘要需要考虑用户的主观性,因为不同的用户查询可能会收到不同的视频摘要;其次,通用视频摘要方法的性能评估通常是为了测量时间重叠,从而难以捕获摘要和原始视频之间的语义相似性;第三,文本查询可以为任务带来更多的语义信息。
近期面向查询的视频摘要的相关研究主要采取序列标记的思路,采用基于顺序结构的模型,例如长短期记忆网络(LSTM,Long Short-Term Memory)(Hochreiter andSchmidhuber,1997)。对于视频的每个时间步长,模型都会输出一个二进制分数,以判定此框架是否重要以及是否与给定查询相关。但是,顺序模型通常会逐步执行计算,当视频长度增加时,模型的计算时间也会变长。而且,由于梯度消失的问题,当视频太长时,顺序模型不能轻易处理视频之间的长距离关系。在(Rochan,Ye,and Wang 2018)中,使用完全卷积网络进行编码与解码,以解决视频摘要任务,这表明卷积网络可以生成高质量的视频摘要。
发明内容
为了克服现有技术中缺少对于用户主观性的考虑,针对于目前较少评估摘要与原始视频之间的语义相似性,并且文本查询会带来额外的语义信息的情况,本发明采用一种利用卷积多层注意力网络(CHAN)来生成面向查询的视频摘要,该方法由两部分组成:特征编码网络和查询相关性计算模块。在特征编码网络中,本发明结合局部自注意力机制和查询相关的全局注意力机制的卷积网络来学习每个镜头的视觉特征,并生成视频的融合特征表达。编码后的视觉特征通过计算视频镜头的查询相关性得分,生成面向查询的视频摘要。
本发明所采用的具体技术方案是:
1.构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1对于输入的视频,构建视频片段;
1.2对于步骤1.1形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3利用步骤1.2得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4利用步骤1.2得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
1.5根据步骤1.2得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2.根据步骤1得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3.将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。
本发明具备的有益效果:
(1)本发明率先提出利用自注意机制,解决面向查询的视频摘要任务。该方法可以从时序的角度以及视频特征的每个维度,学习视频相同片段内不同帧的相对语义关系,生成具有代表性的视频特征表达。
(2)本发明在特征编码时,利用全卷积网络以减少时间序列的维数和视频视觉特征的维数,从而减少模型中的参数数量。
(3)本发明通过计算视频镜头与查询语句之间的查询相关性得分,处理视频和文本查询之间的语义关系,以保证所生成的视频摘要与查询语句之间的语义相关性。
(4)本发明的模型在包含视频描述信息的数据集上训练,以对视觉内容和文本信息之间的语义关系进行建模,然后解决视频摘要的生成问题。这使模型可以获取足够的语义信息,从而生成高质量的视频摘要。
附图说明
图1是本发明所使用的对于生成面向查询的视频摘要的卷积多层注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用卷积多层注意力网络机制来生成面向查询的视频摘要的方法包括如下步骤:
步骤一、对于输入的视频,构建视频片段。
对于所给视频,使用名为“核时间分割”(Kemel Temporal Segmentation,Potapovetal.2014)的算法,构建视频片段,得到视频镜头序列(s1,s2,...,sn),其中n为视频的镜头数。
步骤二、利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达。
将每一个视频片段输入到预训练的残差神经网络中,得到每个视频片段的视觉特征
Figure GDA0002611021610000031
其vki表示第k个视频片段中第i个镜头的视觉特征,sk代表第k个视频片段内的镜头数;
Figure GDA0002611021610000032
中的每一个元素使用一维全卷积神经网络进行编码,并按照如下公式进行空洞卷积处理,得到第k个视频片段中所有镜头的输出:
Figure GDA0002611021610000033
其中,2k+1为过滤器的尺寸,f为过滤器,d为空洞因子;
通过时间轴上的池化层处理,得到第k个视频片段的镜头级别的视觉特征表达
Figure GDA0002611021610000041
t为输出特征序列的长度。
步骤三、采用局部自注意力机制,得到每一个视频片段的局部自注意力特征表达。
根据视频片段的镜头级别的视觉特征表达,按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量
Figure GDA0002611021610000042
Figure GDA0002611021610000043
其中,
Figure GDA0002611021610000044
为第k个视频片段内第i个元素的特征向量,
Figure GDA0002611021610000045
为第k个视频片段内第j个元素的特征向量,P与W1、W2为可训练的dc阶的实参数矩阵,dc为特征向量
Figure GDA0002611021610000046
的维数,b为dc阶的实偏置向量,tanh(·)为反正切函数;视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc,其中t为输出特征序列的长度;
计算视频片段内第i个元素和第j个元素的注意力权重:
Figure GDA0002611021610000047
计算第k个视频片段的局部自注意力特征表达
Figure GDA0002611021610000048
计算公式如下:
Figure GDA0002611021610000049
其中,⊙表示矩阵按位相乘。
步骤四、通过全局注意力机制,得到每一个视频片段的全局注意力特征表达。
根据视频片段的镜头级别的视觉特征表达和由两个概念(c1,c2)组成的查询语句q,得到查询相关的视频片段级别的视觉特征表达
Figure GDA00026110216100000410
n为视频的片段数;
Figure GDA00026110216100000411
的计算公式如下:
Figure GDA00026110216100000412
Figure GDA00026110216100000413
Figure GDA00026110216100000414
其中,
Figure GDA0002611021610000051
表示第k个视频片段对特定查询的聚合特征表达;vT与W1、W2为可训练的参数矩阵,b为偏置向量,hc为查询的概念表达,
Figure GDA0002611021610000052
为第k个视频片段内第i个元素的视觉特征表达;
计算每一个视频片段的全局注意力特征表达
Figure GDA0002611021610000053
Figure GDA0002611021610000054
的计算公式如下:
Figure GDA0002611021610000055
Figure GDA0002611021610000056
Figure GDA0002611021610000057
其中,vT与W1 g、W2 g为可训练的参数矩阵,b为偏置向量,
Figure GDA0002611021610000058
为第j个视频片段对特定查询的聚合特征表达,即查询相关的视频片段级别的视觉特征表达
Figure GDA0002611021610000059
中的第j个元素。
步骤五、获取查询相关的视频的融合特征表达。
根据视频片段的镜头级别的视觉特征表达、视频片段的局部自注意力特征表达和视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达
Figure GDA00026110216100000510
其中
Figure GDA00026110216100000511
则查询相关的视频的融合特征表达为
Figure GDA00026110216100000512
Figure GDA00026110216100000513
步骤六、根据查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对卷积多层注意力网络进行训练,得到卷积多层注意力网络模型。
获取查询概念c的嵌入特征fc,根据fc
Figure GDA00026110216100000514
按照如下公式得到第k个视频片段每一个镜头与概念c之间基于距离的相似度di
Figure GDA00026110216100000515
其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵;
对于由两个概念(c1,c2)组成的查询q,共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2;对于di1和di2,通过多层感知器得到第i个镜头与查询q之间的两个相关性得分,取平均数作为第i个镜头的查询相关性得分si
由于一段视频包含n个视频片段,根据得到的每一个视频片段中所有镜头的查询相关性得分,构成视频镜头的查询相关性得分s={s1,s2,...,sN},其中N为视频中的镜头总数;
根据给定的查询相关性的基本事实注释
Figure GDA0002611021610000061
对卷积多层注意力网络进行训练,损失函数Lsumm的公式如下:
Figure GDA0002611021610000062
随后将损失最小化,得到与查询相关性最强的视频镜头,输出查询相关的视频摘要。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在(Sharghi,Laurel和Gong 2017)中提出的针对查询的视频摘要数据集上进行实验验证。数据集包含4个视频,其中包含不同的日常生活场景,每个视频持续3到5个小时。数据集提供一组用于用户查询的概念,其中概念总数为48;数据集中有46个查询,每个查询由两个概念组成,查询共有四种场景,即1)查询中的所有概念都出现在同一视频中;2)查询中的所有概念都出现在视频中但不是同一张照片;3)查询中的一些概念出现在视频中;4)查询中的所有概念都没有出现在视频中。数据集提供了标注于视频镜头上的注释,每个镜头标记了几个概念。随后本发明对于针对查询的视频摘要数据集进行如下预处理:
1)将视频采样为1fps,然后将所有帧的大小调整为244×244。随后利用在ImageNet数据库中预训练好的ResNet获取每一帧的2048维的视觉特征表达。
2)以5秒作为视频的一个镜头,并计算出同一镜头中每一帧的平均值,作为镜头级别的特征表达。
3)利用KTS算法(Kernel Temporal Segmentation,Potapovetal.2014),将视频分成小片段,视频中的片段数不超过20并且同一片段内的镜头数不超过200。
4)对于每个查询中的概念单词,使用Glove向量(Pennington,Socher和Manning2014)提取其概念的单词级别表达。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了precision、recall及F1 score来对于本发明的效果进行评价。将本发明与其他针对查询的视频摘要方法进行比较,包括以下四个方法:SeqDPP method(Gong et al.2014),SH-DPP(Sharghi,Gong,and Shah 2016),QC-DPP(Sharghi,Laurel,and Gong 2017),TPAN(Wei etal.2018)。对于本发明提出的CHAN(Convolutional Hierarchical Attention Network)分为以下3类进行测试,CHAN w/o Local Att(不包含局部自注意力模块),CHAN w/o GlobalAtt(不包含查询相关的全局注意力模块),CHAN(既包含局部自注意力模块也包含查询相关的全局注意力模块)。对于实验中的全卷积神经网络,第一层输出通道的维数为256,第二层输出通道的维数为512。在局部自注意力模块和查询相关的全局注意力模块,视频的特征向量维数dc设置为256。在训练过程中,使用Adamoptimizer(Kingma and Ba 2014)将损失最小化,初始学习率为0.0001,衰减率为0.8。将批数据集大小(batch size)设置为5。获得相似度得分后,我们通过选择得分最高的视频镜头来创建与查询相关的视频摘要。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1本发明针对于面向查询的视频摘要的数据集与不同方法的比较结果
Figure GDA0002611021610000071
表2本发明生成面向查询的视频摘要的消融实验结果
Model Pre Rec F1
CHAN w/o Local Att 42.72 49.04 43.26
CHAN w/o Global Att 37.62 43.17 38.09
CHAN 46.40 53.13 46.94

Claims (5)

1.一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于包括如下步骤:
1)构建卷积多层注意力网络,所述卷积多层注意力网络包括全卷积神经网络、局部自注意力机制和全局注意力机制;对于输入的视频及查询语句,利用卷积多层注意力网络机制生成查询相关的视频的融合特征表达;
1.1)对于输入的视频,构建视频片段;
1.2)对于步骤1.1)形成的视频片段,首先利用残差神经网络提取视频片段的视觉特征,然后通过全卷积神经网络获取每一个视频片段的镜头级别的视觉特征表达;
1.3)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,通过局部自注意力机制,得到每一个视频片段的局部自注意力特征表达;
1.4)利用步骤1.2)得到的视频片段的镜头级别的视觉特征表达,结合输入的查询语句,通过全局注意力机制,得到每一个视频片段的全局注意力特征表达;
步骤1.4)所述的全局注意力机制的计算步骤如下:
1.4.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达和由两个概念(c1,c2)组成的查询语句q,得到查询相关的视频片段级别的视觉特征表达
Figure FDA0002611021600000011
n为视频的片段数;
Figure FDA0002611021600000012
的计算公式如下:
Figure FDA0002611021600000013
Figure FDA0002611021600000014
Figure FDA0002611021600000015
其中,
Figure FDA0002611021600000016
表示第k个视频片段对特定查询的聚合特征表达;vT与W1、W2为可训练的参数矩阵,b为偏置向量,hc为查询的概念表达,
Figure FDA0002611021600000017
为第k个视频片段内第i个元素的视觉特征表达,t为输出特征序列的长度;
1.4.2)计算每一个视频片段的全局注意力特征表达
Figure FDA0002611021600000018
Figure FDA0002611021600000019
的计算公式如下:
Figure FDA00026110216000000110
Figure FDA0002611021600000021
Figure FDA0002611021600000022
其中,vT
Figure FDA0002611021600000023
为可训练的参数矩阵,b为偏置向量,
Figure FDA0002611021600000024
为第j个视频片段对特定查询的聚合特征表达,即查询相关的视频片段级别的视觉特征表达
Figure FDA0002611021600000025
中的第j个元素;
1.5)根据步骤1.2)得到的视频片段的镜头级别的视觉特征表达、步骤1.3)得到的视频片段的局部自注意力特征表达和步骤1.4)得到的视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达,进一步生成查询相关的视频的融合特征表达;
2)根据步骤1)得到的查询相关的视频的融合特征表达,结合查询语句的嵌入特征,得到视频镜头的查询相关性得分;根据给定的查询相关性的基本事实注释,对步骤1)构建的卷积多层注意力网络进行训练,固定训练好的参数,得到卷积多层注意力网络模型;
3)将一段待处理的视频构建成视频片段,与查询语句一起输入到卷积多层注意力网络模型中,得到视频镜头的查询相关性得分,将得分最高的视频镜头作为查询相关的视频摘要。
2.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤1.2)具体为:
将每一个视频片段输入到预训练的残差神经网络中,得到每个视频片段的视觉特征
Figure FDA0002611021600000026
其vki表示第k个视频片段中第i个镜头的视觉特征,sk代表第k个视频片段内的镜头数;
Figure FDA0002611021600000027
中的每一个元素使用一维全卷积神经网络进行编码,并按照如下公式进行空洞卷积处理,得到第k个视频片段中所有镜头的输出:
Figure FDA0002611021600000028
其中,2k+1为过滤器的尺寸,f为过滤器,d为空洞因子;
通过时间轴上的池化层处理,得到第k个视频片段的镜头级别的视觉特征表达
Figure FDA00026110216000000314
t为输出特征序列的长度。
3.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,步骤1.3)所述的局部自注意力机制的计算步骤如下:
1.3.1)根据步骤1.2)获得的视频片段的镜头级别的视觉特征表达,按照如下公式获得视频片段内第i个元素和第j个元素的对齐分数向量
Figure FDA0002611021600000031
Figure FDA0002611021600000032
其中,
Figure FDA0002611021600000033
为第k个视频片段内第i个元素的特征向量,
Figure FDA0002611021600000034
为第k个视频片段内第j个元素的特征向量,P与W1、W2为可训练的dc阶的实参数矩阵,dc为特征向量
Figure FDA0002611021600000035
的维数,b为dc阶的实偏置向量,tanh(·)为反正切函数;视频片段内第i个元素和第j个元素的对齐分数矩阵规模为t×t×dc,其中t为输出特征序列的长度;
1.3.2)计算视频片段内第i个元素和第j个元素的注意力权重:
Figure FDA0002611021600000036
1.3.3)计算第k个视频片段的局部自注意力特征表达
Figure FDA0002611021600000037
计算公式如下:
Figure FDA0002611021600000038
其中,⊙表示矩阵按位相乘。
4.如权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤1.5)具体为:
根据视频片段的镜头级别的视觉特征表达、视频片段的局部自注意力特征表达和视频片段的全局注意力特征表达,得到查询相关的视频片段的融合特征表达
Figure FDA0002611021600000039
其中
Figure FDA00026110216000000310
则查询相关的视频的融合特征表达为
Figure FDA00026110216000000311
Figure FDA00026110216000000312
其中tk表示第k个视频片段的融合特征表达序列的长度。
5.根据权利要求1所述的利用卷积多层注意力网络机制生成面向查询的视频摘要的方法,其特征在于,所述的步骤2)具体为:
获取查询概念c的嵌入特征fc,根据fc
Figure FDA00026110216000000313
按照如下公式得到第k个视频片段每一个镜头与概念c之间基于距离的相似度di
Figure FDA0002611021600000041
其中Wf与Wc是将视频视觉特征与概念的文本特征投射到同一向量空间的参数矩阵;
对于由两个概念(c1,c2)组成的查询q,共得到第k个视频片段每一个镜头与查询q之间基于距离的相似度di1和di2;对于di1和di2,通过多层感知器得到第i个镜头与查询q之间的两个相关性得分,取平均数作为第i个镜头的查询相关性得分si
由于一段视频包含n个视频片段,根据得到的每一个视频片段中所有镜头的查询相关性得分,构成视频镜头的查询相关性得分s={s1,s2,…,sN},其中N为视频中的镜头总数;
根据给定的查询相关性的基本事实注释
Figure FDA0002611021600000042
对卷积多层注意力网络进行训练,损失函数Lsumm的公式如下:
Figure FDA0002611021600000043
CN201911266940.4A 2019-12-11 2019-12-11 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 Active CN110933518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911266940.4A CN110933518B (zh) 2019-12-11 2019-12-11 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911266940.4A CN110933518B (zh) 2019-12-11 2019-12-11 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Publications (2)

Publication Number Publication Date
CN110933518A CN110933518A (zh) 2020-03-27
CN110933518B true CN110933518B (zh) 2020-10-02

Family

ID=69860013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911266940.4A Active CN110933518B (zh) 2019-12-11 2019-12-11 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Country Status (1)

Country Link
CN (1) CN110933518B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
CN111930999B (zh) * 2020-07-21 2022-09-30 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法
CN112016406B (zh) * 2020-08-07 2022-12-02 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
CN112733498B (zh) * 2020-11-06 2024-04-16 北京工业大学 一种改进中文自动文本摘要自注意力计算的方法
CN112488111B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN113139468B (zh) * 2021-04-24 2023-04-11 西安交通大学 融合局部目标特征与全局特征的视频摘要生成方法
CN114390365B (zh) * 2022-01-04 2024-04-26 京东科技信息技术有限公司 用于生成视频信息的方法和装置
CN115269913A (zh) * 2022-07-01 2022-11-01 深圳先进技术研究院 一种基于注意力片段提示的视频检索方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109857906A (zh) * 2019-01-10 2019-06-07 天津大学 基于查询的无监督深度学习的多视频摘要方法
CN110366050A (zh) * 2018-04-10 2019-10-22 北京搜狗科技发展有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170220869A1 (en) * 2016-02-02 2017-08-03 Verizon Patent And Licensing Inc. Automatic supercut creation and arrangement
US10171879B2 (en) * 2016-10-04 2019-01-01 International Business Machines Corporation Contextual alerting for broadcast content
GB2558582A (en) * 2017-01-06 2018-07-18 Nokia Technologies Oy Method and apparatus for automatic video summarisation
CN106980683B (zh) * 2017-03-30 2021-02-12 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
US10192584B1 (en) * 2017-07-23 2019-01-29 International Business Machines Corporation Cognitive dynamic video summarization using cognitive analysis enriched feature set
CN107766447B (zh) * 2017-09-25 2021-01-12 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN109889923B (zh) * 2019-02-28 2021-03-26 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109919114A (zh) * 2019-03-14 2019-06-21 浙江大学 一种基于互补注意力机制循环卷积解码的视频描述方法
CN110287374B (zh) * 2019-06-14 2023-01-03 天津大学 一种基于分布一致性的自注意力视频摘要方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110366050A (zh) * 2018-04-10 2019-10-22 北京搜狗科技发展有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN108647255A (zh) * 2018-04-23 2018-10-12 清华大学 基于注意力回归的视频时序句子定位方法及装置
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109857906A (zh) * 2019-01-10 2019-06-07 天津大学 基于查询的无监督深度学习的多视频摘要方法
CN110362674A (zh) * 2019-07-18 2019-10-22 中国搜索信息科技股份有限公司 一种基于卷积神经网络的微博新闻摘要抽取式生成方法

Also Published As

Publication number Publication date
CN110933518A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110933518B (zh) 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
US11657230B2 (en) Referring image segmentation
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
CN111400591A (zh) 资讯信息推荐方法、装置、电子设备及存储介质
Mei et al. Patch based video summarization with block sparse representation
Anuranji et al. A supervised deep convolutional based bidirectional long short term memory video hashing for large scale video retrieval applications
CN110163117B (zh) 一种基于自激励判别性特征学习的行人重识别方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
Zhang et al. Learning implicit class knowledge for RGB-D co-salient object detection with transformers
CN114358188A (zh) 特征提取模型处理、样本检索方法、装置和计算机设备
CN111984820B (zh) 一种基于双自注意力胶囊网络的视频摘要方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN113111836B (zh) 基于跨模态哈希学习的视频解析方法
CN111814844A (zh) 一种基于位置编码融合的密集型视频描述方法
Cheng et al. Stack-VS: Stacked visual-semantic attention for image caption generation
Xing et al. Ventral & dorsal stream theory based zero-shot action recognition
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN110659392B (zh) 检索方法及装置、存储介质
Zha et al. Deep position-sensitive tracking
Sun et al. Learning deep semantic attributes for user video summarization
CN117332117A (zh) 一种基于跨模态对应匹配和数据集解偏置的视频片段检索方法及系统
CN117238034A (zh) 一种基于时空Transformer的人体姿态估计方法
CN111126056A (zh) 一种识别触发词的方法及装置
Huang et al. Modeling Multiple Aesthetic Views for Series Photo Selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant