CN111460979A - 一种基于多层时空框架的关键镜头视频摘要方法 - Google Patents

一种基于多层时空框架的关键镜头视频摘要方法 Download PDF

Info

Publication number
CN111460979A
CN111460979A CN202010237689.5A CN202010237689A CN111460979A CN 111460979 A CN111460979 A CN 111460979A CN 202010237689 A CN202010237689 A CN 202010237689A CN 111460979 A CN111460979 A CN 111460979A
Authority
CN
China
Prior art keywords
video
information
layer
shot
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010237689.5A
Other languages
English (en)
Inventor
滕国伟
周杏发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202010237689.5A priority Critical patent/CN111460979A/zh
Publication of CN111460979A publication Critical patent/CN111460979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Abstract

本发明公开了一种基于多层时空框架的关键镜头视频摘要方法,属于视频处理技术领域,用来解决视频摘要的技术问题;包括:1)提取深度特征,使用在Image数据集上训练好的ResNet152卷积神经网络提取每帧的深度特征,获得视频深度语义信息;2)视频镜头分割,使用核函数时间分割中的基于核函数的变化点检测算法按照场景不同将视频分割成不同镜头,以视频镜头为基本单元参与到视频摘要网络中训练;3)视频镜头特征语义编码,使用全卷积神经网络对每个镜头帧间进行语义编码,获得每个镜头深度语义信息;4)摘要网络获取关键镜头,通过双向长短期记忆网络进行特征语义解码,回归视频镜头重要性评分,通过KL散度与数据集注释建立损失函数进行训练学习优化。

Description

一种基于多层时空框架的关键镜头视频摘要方法
技术领域
本发明涉及一种基于多层时空框架的关键镜头视频摘要方法,属于视频处理技术领域。
背景技术
近年来,数字技术的发展使得视频成为网络上非常重要的信息资源,与此同时,视频数据的爆炸式增长也给人们带来了一些困扰。根据2019年YouTube数据分析报告可知,平均每分钟有超过300小时的视频被上传,每个月有超过32.5亿小时的视频在YouTube上被浏览。所以,如何高效地浏览、管理和检索视频资源成为近年来的热点研究。
视频摘要技术应运而生,可以从冗长的原始视频中提取出关键部分,生成简明紧凑的视频摘要。在理想情况下,视频摘要保留了原始视频所有的关键信息,并尽可能地减少冗余信息,可以在最短的时间内为用户提供最大的目标视频信息。实际上,有好几种方法可以缩短视频的长度,比如有视频关键帧提取、关键镜头选择和视频浓缩等。视频摘要技术还有许多其他的实际应用,如视频检索、事件检测和电影预告等。
发明内容
本发明针对提高快速获取视频重要信息的能力,提出了一种基于多层时空框架的关键镜头视频摘要方法,该方法为了学习视频与关键镜头之间复杂的语义结构关系,采用了多层分而治之的策略,将视频摘要任务分解成视频帧深度特征提取、视频镜头分割、视频镜头特征语义编码(Encode)和视频镜头深度特征解码(Decode)生成关键镜头。时空结构的层次化建模具有较高的性能和效率,利用KL散度能进行较好的损失优化。实验结果表明,本发明方法在两个基准数据集(SumMe和TvSum)上优于几种最先进的视频摘要算法。
为达到以上目的,本发明采用如下技术方案:
一种基于多层时空框架的关键镜头视频摘要方法,具体操作步骤如下:
1)提取深度特征,使用在Image数据集上训练好的ResNet152卷积神经网络(CNN)提取每帧的深度特征,获得视频深度语义信息;
2)视频镜头分割,使用核函数时间分割(KTS)中的基于核函数的变化点检测算法按照场景不同将视频分割成不同镜头,以视频镜头为基本单元参与到视频摘要网络中训练;
3)视频镜头特征语义编码,使用全卷积神经网络对每个镜头帧间进行语义编码,获得每个镜头深度语义信息;
4)摘要网络获取关键镜头,通过双向长短期记忆网络进行特征语义解码,回归视频镜头重要性评分,通过KL散度与数据集注释建立损失函数进行训练学习优化。
所述步骤2)中的视频镜头分割,具体步骤如下:
核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头。首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:
Figure BDA0002431549140000021
为描述符间的核函数;让
Figure BDA0002431549140000022
为核函数K(.,.)的特征空间;记
Figure BDA0002431549140000023
Figure BDA0002431549140000024
为相关映射图,
Figure BDA0002431549140000025
为特征空间
Figure BDA0002431549140000026
的正则化,最小化下面的目标。
Figure BDA0002431549140000027
其中s为变化点的个数,m(s,n)为误差项,Fs,n为段内核方差
Figure BDA0002431549140000028
之和。
Figure BDA0002431549140000029
其中μp为段内均值。
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数。
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法式(2)对目标进行最小化,迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
所述视频镜头特征语义编码和特征语义解码,具体如下:
视频镜头特征语义编码使用全卷积神经网络FCNN模型主要由二维卷积、池化和激活模块组成;视频帧通过等比例采样获得各个镜头的数据,第一层卷积使用64通道的3*3卷积核进行卷积,再通过正则化处理防止梯度消失,使用激活函数ReLU和池化处理;
特征语义解码使用长短期记忆网络LSTM是递归神经网络的延伸,它弥补了普通的递归神经网络无法长期记忆的缺陷;LSTM的关键在于长期记忆细胞的状态,信息的添加或删除通过一种叫做门的结构来实现,门能够实现选择性地让信息通过,主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的;Sigmoid层输出是一个向量,输出的每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重或者占比,比如0表示“不让任何信息通过”,1表示“让所有的信息通过”;LSTM通过三个门结构来实现信息的保存和控制,这三个门分别为:遗忘门、输入门、输出门。
所述遗忘门、输入门、输出门具体如下:
遗忘门决定细胞状态丢失的信息量,该门会读取ht-1和xt,输出一个在0和1之间的数值给每个在细胞状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”;
ft=σ(Wf·[ht-1,xt]+bf) (3)
其中σ为Sigmoid型激活函数,ht-1表示上一个记忆细胞的输出,xt表示的是当前细胞的输入;
输入门决定细胞状态新增的信息量,实现这个门需要包括两个步骤:首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容
Figure BDA0002431549140000031
在下一步,把这两部分联合起来,对细胞的状态进行一个更新,把旧细胞状态与ft相乘,丢弃掉确定需要丢弃的信息,接着加上
Figure BDA0002431549140000032
这就是新的候选值,决定更新每个状态的程度进行变化:
it=σ(Wi·[ht-1,xt]+bi) (4)
Figure BDA0002431549140000033
其中Ct为当前的时刻新的细胞状态;
输出门决定最终的输出信息,首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去,接着把细胞状态通过tanh进行处理,得到一个在-1到1之间的值,并将它和Sigmoid门的输出相乘,最终输出信息ht
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot×tanh(Ct) (8)
Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成,双向LSTM能同时编码从前到后的信息和从后到前的信息,能在过去和未来的方向上建立更好的长期依赖关系,前向和反向LSTM在编码信息的过程中相互独立;
Figure BDA0002431549140000034
其中ρ为Softmax型激活函数,
Figure BDA0002431549140000035
为前向LSTM的输出,
Figure BDA0002431549140000036
为后向LSTM的输出,首先全连接层将
Figure BDA0002431549140000037
Figure BDA0002431549140000038
组合为
Figure BDA0002431549140000039
然后全连接层将组合向量输入到非线性映射层;最后Softmax层输出一个重要性分数。
与现有技术相比,本发明具有如下的优点:
1)提出了一种新颖的端到端关键镜头视频摘要网络(SVSN),联合KL散度的有监督多层时空视频摘要框架,学习视频与关键镜头之间复杂的语义结构关系获得重要视频镜头内容;
2)对视频镜头进行重要度评分,而不是对每一帧进行重要度评分,不仅大大减少了冗余信息和保留视频动态信息,还采用分而治之策略提高运算效率和精度;
3)使用全卷积神经网络对每个镜头进行深度编码分层处理提高效率,使用长短期记忆网络更能够建模出镜头之间时间上和空间上的关系;
附图说明
图1为本发明一种基于多层时空框架的关键镜头视频摘要方法的流程图。
图2为本发明神经网络算法的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明做进一步详细的说明。
本发明实施例中提供一种基于多层时空框架的关键镜头视频摘要方法,流程如图1所示,首先对处理的视频进行分层处理,通过ResNet152卷积神经网络和核函数时间分割算法(KTS)对视频进行分层;第二层处理以每个场景镜头为基本处理单元,通过全卷积神经网络进行编码(Encode)获得场景帧间的时空语义信息;最后一层通过双向长短期记忆网络进行解码(Decode)获得各镜头分数信息;使用KL散度建立损失函数,进行学习优化网络参数,选出关键镜头达到预测效果。
如图1所示,一种基于多层时空框架的关键镜头视频摘要方法,具体操作步骤如下:
1)使用残差神经网络(ResNet152)提取待处理视频每帧ft(f1,f2…fn)的深度特征(2048维度的特征向量);
2)使用核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头St(S1,S2…Sm);
核函数时间分割KTS方法是按照场景不同将视频分割成不同镜头;首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:
Figure BDA0002431549140000041
为描述符间的核函数;让
Figure BDA0002431549140000042
为核函数K(.,.)的特征空间;记
Figure BDA0002431549140000043
Figure BDA0002431549140000044
为相关映射图,
Figure BDA0002431549140000045
为特征空间
Figure BDA0002431549140000046
的正则化,最小化下面的目标:
Figure BDA0002431549140000047
其中s为变化点的个数,m(s,n)为误差项,Fs,n为段内核方差
Figure BDA0002431549140000048
之和;
Figure BDA0002431549140000049
其中μp为段内均值;
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数;
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法式(2)对目标进行最小化,迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
3)以视频镜头为基本单元进行处理,通过全卷积神经网络(FCNN)对每个镜头进行编码,得到1024维的特征向量st(s1,s2…sm);
4)使用双向长短期记忆网络(BiLSTM)对每个镜头的特征向量进行解码获得每个镜头重要性评分pt(p1,p2…pm);预测的镜头重要性评分pt通过背包算法选择最重要的镜头作为摘要视频(原视频帧数的15%),最后通过KL散度与数据集注释建立损失函数,学习优化网络变量。
本实施例中,全卷积神经网络(FCNN)模型主要由二维卷积、池化和激活等模块组成。视频帧通过等比例采样获得各个镜头的数据(1*32*2048),第一层卷积使用64通道的3*3卷积核进行卷积,再通过正则化处理防止梯度消失,使用激活函数(ReLU)和池化(Pooling)处理,本实施例中FCNN模型使用了10层卷积处理输出(1*1024)的特征数据。
长短期记忆网络(LSTM)是递归神经网络的延伸,它弥补了普通的递归神经网络无法长期记忆的缺陷。LSTM的关键在于长期记忆细胞的状态,信息的添加或删除通过一种叫做门的结构来实现,门可以实现选择性地让信息通过,主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的。Sigmoid层输出(是一个向量)每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重(或者占比),比如0表示“不让任何信息通过”,1表示“让所有的信息通过”。LSTM通过三个门结构来实现信息的保存和控制,这三个门分别为:遗忘门、输入门、输出门。
遗忘门决定细胞状态丢失的信息量,该门会读取ht-1和xt,输出一个在0和1之间的数值给每个在细胞状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”。
ft=σ(Wf·[ht-1,xt]+bf) (3)
其中σ为Sigmoid型激活函数,ht-1表示上一个记忆细胞的输出,xt表示的是当前细胞的输入。
输入门决定细胞状态新增的信息量,实现这个门需要包括两个步骤:首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容
Figure BDA0002431549140000061
在下一步,把这两部分联合起来,对细胞的状态进行一个更新,把旧细胞状态与ft相乘,丢弃掉确定需要丢弃的信息,接着加上
Figure BDA0002431549140000062
这就是新的候选值,决定更新每个状态的程度进行变化。
it=σ(Wi·[ht-1,xt]+bi) (4)
Figure BDA0002431549140000063
其中Ct为当前的时刻新的细胞状态。
输出门决定最终的输出信息。首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去。接着把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和Sigmoid门的输出相乘,最终输出信息ht
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot×tanh(Ct) (8)
如图2所示Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成,双向LSTM能同时编码从前到后的信息和从后到前的信息,能在过去和未来的方向上建立更好的长期依赖关系,前向和反向LSTM在编码信息的过程中相互独立。
Figure BDA0002431549140000064
其中ρ为Softmax型激活函数,
Figure BDA0002431549140000065
为前向LSTM的输出,
Figure BDA0002431549140000066
为后向LSTM的输出,首先全连接层将
Figure BDA0002431549140000067
Figure BDA0002431549140000068
组合为
Figure BDA0002431549140000069
然后全连接层将组合向量输入到非线性映射层;最后Softmax层输出一个重要性分数。

Claims (4)

1.一种基于多层时空框架的关键镜头视频摘要方法,其特征在于,具体操作步骤如下:
1)提取深度特征,使用在Image数据集上训练好的ResNet152卷积神经网络CNN提取每帧的深度特征,获得视频深度语义信息;
2)视频镜头分割,使用核函数时间分割KTS中的基于核函数的变化点检测算法,按照场景不同将视频分割成不同镜头,以视频镜头为基本单元参与到视频摘要网络中训练;
3)视频镜头特征语义编码,使用全卷积神经网络对每个镜头帧间进行语义编码,获得每个镜头深度语义信息;
4)摘要网络获取关键镜头,通过双向长短期记忆网络进行特征语义解码,回归视频镜头重要性评分,通过KL散度与数据集注释建立损失函数进行训练学习优化。
2.根据权利要求1所述的基于多层时空框架的关键镜头视频摘要方法,其特征在于,所述步骤2)中的视频镜头分割,具体步骤如下:
核函数时间分割KTS方法是按照场景不同将视频分割成不同镜头;首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:
Figure FDA0002431549130000011
为描述符间的核函数;让
Figure FDA0002431549130000012
为核函数K(.,.)的特征空间;记
Figure FDA0002431549130000013
Figure FDA0002431549130000014
为相关映射图,
Figure FDA0002431549130000015
为特征空间
Figure FDA0002431549130000016
的正则化,最小化下面的目标:
Figure FDA0002431549130000017
其中s为变化点的个数,m(s,n)为误差项,Fs,n为段内核方差
Figure FDA0002431549130000018
之和;
Figure FDA0002431549130000019
其中μp为段内均值;
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数;
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法式(2)对目标进行最小化,迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
3.根据权利要求1所述的基于多层时空框架的关键镜头视频摘要方法,其特征在于,所述视频镜头特征语义编码和特征语义解码,具体如下:
视频镜头特征语义编码使用全卷积神经网络FCNN模型主要由二维卷积、池化和激活模块组成;视频帧通过等比例采样获得各个镜头的数据,第一层卷积使用64通道的3*3卷积核进行卷积,再通过正则化处理防止梯度消失,使用激活函数ReLU和池化处理;
特征语义解码使用长短期记忆网络LSTM是递归神经网络的延伸,它弥补了普通的递归神经网络无法长期记忆的缺陷;LSTM的关键在于长期记忆细胞的状态,信息的添加或删除通过一种叫做门的结构来实现,门能够实现选择性地让信息通过,主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的;Sigmoid层输出是一个向量,输出的每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重或者占比,比如“0”表示“不让任何信息通过”,“1”表示“让所有的信息通过”;LSTM通过三个门结构来实现信息的保存和控制,这三个门分别为:遗忘门、输入门、输出门。
4.根据权利要求3所述的基于多层时空框架的关键镜头视频摘要方法,其特征在于,所述遗忘门、输入门、输出门具体如下:
遗忘门决定细胞状态丢失的信息量,该门会读取ht-1和xt,输出一个在0和1之间的数值给每个在细胞状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”;
ft=σ(Wf·[ht-1,xt]+bf) (3)
其中σ为Sigmoid型激活函数,ht-1表示上一个记忆细胞的输出,xt表示的是当前细胞的输入;
输入门决定细胞状态新增的信息量,实现这个门需要包括两个步骤:首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容
Figure FDA0002431549130000021
在下一步,把这两部分联合起来,对细胞的状态进行一个更新,把旧细胞状态与ft相乘,丢弃掉确定需要丢弃的信息,接着加上
Figure FDA0002431549130000022
这就是新的候选值,决定更新每个状态的程度进行变化:
it=σ(Wi·[ht-1,xt]+bi) (4)
Figure FDA0002431549130000023
Figure FDA0002431549130000024
其中Ct为当前的时刻新的细胞状态;
输出门决定最终的输出信息,首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去,接着把细胞状态通过tanh进行处理,得到一个在-1到1之间的值,并将它和Sigmoid门的输出相乘,最终输出信息ht
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot×tanh(Ct) (8)
Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成,双向LSTM能同时编码从前到后的信息和从后到前的信息,能在过去和未来的方向上建立更好的长期依赖关系,前向和反向LSTM在编码信息的过程中相互独立;
Figure FDA0002431549130000031
其中ρ为Softmax型激活函数,
Figure FDA0002431549130000032
为前向LSTM的输出,
Figure FDA0002431549130000033
为后向LSTM的输出,首先全连接层将
Figure FDA0002431549130000034
Figure FDA0002431549130000035
组合为
Figure FDA0002431549130000036
然后全连接层将组合向量输入到非线性映射层;最后Softmax层输出一个重要性分数。
CN202010237689.5A 2020-03-30 2020-03-30 一种基于多层时空框架的关键镜头视频摘要方法 Pending CN111460979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010237689.5A CN111460979A (zh) 2020-03-30 2020-03-30 一种基于多层时空框架的关键镜头视频摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010237689.5A CN111460979A (zh) 2020-03-30 2020-03-30 一种基于多层时空框架的关键镜头视频摘要方法

Publications (1)

Publication Number Publication Date
CN111460979A true CN111460979A (zh) 2020-07-28

Family

ID=71683354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010237689.5A Pending CN111460979A (zh) 2020-03-30 2020-03-30 一种基于多层时空框架的关键镜头视频摘要方法

Country Status (1)

Country Link
CN (1) CN111460979A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016406A (zh) * 2020-08-07 2020-12-01 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
CN112052841A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置
CN112446342A (zh) * 2020-12-07 2021-03-05 北京邮电大学 关键帧识别模型训练方法、识别方法及装置
CN112487241A (zh) * 2020-11-26 2021-03-12 哈尔滨工程大学 一种基于卷积神经网络的视频摘要方法
CN113657533A (zh) * 2021-08-24 2021-11-16 河海大学 一种面向时空场景构建的多元时间序列分割聚类方法
WO2022042638A1 (en) * 2020-08-27 2022-03-03 International Business Machines Corporation Deterministic learning video scene detection
CN114979801A (zh) * 2022-05-10 2022-08-30 上海大学 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
CN115002559A (zh) * 2022-05-10 2022-09-02 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统
CN115731498A (zh) * 2022-12-01 2023-03-03 石家庄铁道大学 一种联合强化学习和对比学习的视频摘要生成方法
CN117376502A (zh) * 2023-12-07 2024-01-09 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法
CN110287374A (zh) * 2019-06-14 2019-09-27 天津大学 一种基于分布一致性的自注意力视频摘要方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DANILA POTAPOV等: "Category-Specific Video Summarization", 《ECCV 2014》 *
江俊杰: "面向解码器视觉注意力机制的视频摘要研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016406A (zh) * 2020-08-07 2020-12-01 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
CN112016406B (zh) * 2020-08-07 2022-12-02 青岛科技大学 一种基于全卷积网络的视频关键帧提取方法
GB2613742A (en) * 2020-08-27 2023-06-14 Ibm Deterministic learning video scene detection
WO2022042638A1 (en) * 2020-08-27 2022-03-03 International Business Machines Corporation Deterministic learning video scene detection
US11450111B2 (en) 2020-08-27 2022-09-20 International Business Machines Corporation Deterministic learning video scene detection
CN112052841A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置
CN112052841B (zh) * 2020-10-12 2021-06-29 腾讯科技(深圳)有限公司 一种视频摘要的生成方法以及相关装置
CN112487241A (zh) * 2020-11-26 2021-03-12 哈尔滨工程大学 一种基于卷积神经网络的视频摘要方法
CN112446342A (zh) * 2020-12-07 2021-03-05 北京邮电大学 关键帧识别模型训练方法、识别方法及装置
CN112446342B (zh) * 2020-12-07 2022-06-24 北京邮电大学 关键帧识别模型训练方法、识别方法及装置
CN113657533A (zh) * 2021-08-24 2021-11-16 河海大学 一种面向时空场景构建的多元时间序列分割聚类方法
CN113657533B (zh) * 2021-08-24 2023-11-14 河海大学 一种面向时空场景构建的多元时间序列分割聚类方法
CN114979801A (zh) * 2022-05-10 2022-08-30 上海大学 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
CN115002559A (zh) * 2022-05-10 2022-09-02 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统
CN115002559B (zh) * 2022-05-10 2024-01-05 上海大学 基于门控多头位置注意力机制的视频摘要算法及系统
CN115731498A (zh) * 2022-12-01 2023-03-03 石家庄铁道大学 一种联合强化学习和对比学习的视频摘要生成方法
CN117376502A (zh) * 2023-12-07 2024-01-09 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统
CN117376502B (zh) * 2023-12-07 2024-02-13 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Similar Documents

Publication Publication Date Title
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN109446923B (zh) 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN115002559B (zh) 基于门控多头位置注意力机制的视频摘要算法及系统
CN111860162A (zh) 一种视频人群计数系统及方法
CN112669325A (zh) 一种基于主动式学习的视频语义分割方法
CN111526434B (zh) 基于转换器的视频摘要方法
CN111104555B (zh) 基于注意力机制的视频哈希检索方法
CN111488932B (zh) 一种基于帧率感知的自监督视频时-空表征学习方法
CN113807318B (zh) 一种基于双流卷积神经网络和双向gru的动作识别方法
CN115731498B (zh) 一种联合强化学习和对比学习的视频摘要生成方法
CN111046298B (zh) 推送应用程序的方法、装置、计算机设备和存储介质
CN111984820A (zh) 一种基于双自注意力胶囊网络的视频摘要方法
Hou et al. Confidence-guided self refinement for action prediction in untrimmed videos
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116662604A (zh) 一种基于分层Transformer的视频摘要方法
CN114979801A (zh) 基于双向卷积长短期记忆网络的动态视频摘要算法及系统
El Abyad et al. Deep Video Hashing Using 3DCNN with BERT.
CN113313030A (zh) 基于运动趋势特征的人体行为识别方法
CN114817627A (zh) 基于多面视频表示学习的文本到视频的跨模态检索方法
CN113298017A (zh) 一种针对视频行为检测的行为提议生成方法
Maraghi et al. Class-incremental learning on video-based action recognition by distillation of various knowledge
Patil et al. Video content classification using deep learning
Jin et al. C2F: An effective coarse-to-fine network for video summarization
JP7378172B2 (ja) 効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置
CN116069973B (zh) 一种基于语义自挖掘的视频摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728

RJ01 Rejection of invention patent application after publication