CN111460979A - 一种基于多层时空框架的关键镜头视频摘要方法 - Google Patents
一种基于多层时空框架的关键镜头视频摘要方法 Download PDFInfo
- Publication number
- CN111460979A CN111460979A CN202010237689.5A CN202010237689A CN111460979A CN 111460979 A CN111460979 A CN 111460979A CN 202010237689 A CN202010237689 A CN 202010237689A CN 111460979 A CN111460979 A CN 111460979A
- Authority
- CN
- China
- Prior art keywords
- video
- information
- layer
- shot
- gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 31
- 230000011218 segmentation Effects 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 11
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 8
- 230000007787 long-term memory Effects 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 4
- 238000005457 optimization Methods 0.000 claims abstract description 3
- 230000004913 activation Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000002441 reversible effect Effects 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000008034 disappearance Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000001413 cellular effect Effects 0.000 claims 1
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000002347 injection Methods 0.000 abstract 1
- 239000007924 injection Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Abstract
本发明公开了一种基于多层时空框架的关键镜头视频摘要方法,属于视频处理技术领域,用来解决视频摘要的技术问题;包括:1)提取深度特征,使用在Image数据集上训练好的ResNet152卷积神经网络提取每帧的深度特征,获得视频深度语义信息;2)视频镜头分割,使用核函数时间分割中的基于核函数的变化点检测算法按照场景不同将视频分割成不同镜头,以视频镜头为基本单元参与到视频摘要网络中训练;3)视频镜头特征语义编码,使用全卷积神经网络对每个镜头帧间进行语义编码,获得每个镜头深度语义信息;4)摘要网络获取关键镜头,通过双向长短期记忆网络进行特征语义解码,回归视频镜头重要性评分,通过KL散度与数据集注释建立损失函数进行训练学习优化。
Description
技术领域
本发明涉及一种基于多层时空框架的关键镜头视频摘要方法,属于视频处理技术领域。
背景技术
近年来,数字技术的发展使得视频成为网络上非常重要的信息资源,与此同时,视频数据的爆炸式增长也给人们带来了一些困扰。根据2019年YouTube数据分析报告可知,平均每分钟有超过300小时的视频被上传,每个月有超过32.5亿小时的视频在YouTube上被浏览。所以,如何高效地浏览、管理和检索视频资源成为近年来的热点研究。
视频摘要技术应运而生,可以从冗长的原始视频中提取出关键部分,生成简明紧凑的视频摘要。在理想情况下,视频摘要保留了原始视频所有的关键信息,并尽可能地减少冗余信息,可以在最短的时间内为用户提供最大的目标视频信息。实际上,有好几种方法可以缩短视频的长度,比如有视频关键帧提取、关键镜头选择和视频浓缩等。视频摘要技术还有许多其他的实际应用,如视频检索、事件检测和电影预告等。
发明内容
本发明针对提高快速获取视频重要信息的能力,提出了一种基于多层时空框架的关键镜头视频摘要方法,该方法为了学习视频与关键镜头之间复杂的语义结构关系,采用了多层分而治之的策略,将视频摘要任务分解成视频帧深度特征提取、视频镜头分割、视频镜头特征语义编码(Encode)和视频镜头深度特征解码(Decode)生成关键镜头。时空结构的层次化建模具有较高的性能和效率,利用KL散度能进行较好的损失优化。实验结果表明,本发明方法在两个基准数据集(SumMe和TvSum)上优于几种最先进的视频摘要算法。
为达到以上目的,本发明采用如下技术方案:
一种基于多层时空框架的关键镜头视频摘要方法,具体操作步骤如下:
1)提取深度特征,使用在Image数据集上训练好的ResNet152卷积神经网络(CNN)提取每帧的深度特征,获得视频深度语义信息;
2)视频镜头分割,使用核函数时间分割(KTS)中的基于核函数的变化点检测算法按照场景不同将视频分割成不同镜头,以视频镜头为基本单元参与到视频摘要网络中训练;
3)视频镜头特征语义编码,使用全卷积神经网络对每个镜头帧间进行语义编码,获得每个镜头深度语义信息;
4)摘要网络获取关键镜头,通过双向长短期记忆网络进行特征语义解码,回归视频镜头重要性评分,通过KL散度与数据集注释建立损失函数进行训练学习优化。
所述步骤2)中的视频镜头分割,具体步骤如下:
核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头。首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:为描述符间的核函数;让为核函数K(.,.)的特征空间;记 为相关映射图,为特征空间的正则化,最小化下面的目标。
其中μp为段内均值。
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数。
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法式(2)对目标进行最小化,迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
所述视频镜头特征语义编码和特征语义解码,具体如下:
视频镜头特征语义编码使用全卷积神经网络FCNN模型主要由二维卷积、池化和激活模块组成;视频帧通过等比例采样获得各个镜头的数据,第一层卷积使用64通道的3*3卷积核进行卷积,再通过正则化处理防止梯度消失,使用激活函数ReLU和池化处理;
特征语义解码使用长短期记忆网络LSTM是递归神经网络的延伸,它弥补了普通的递归神经网络无法长期记忆的缺陷;LSTM的关键在于长期记忆细胞的状态,信息的添加或删除通过一种叫做门的结构来实现,门能够实现选择性地让信息通过,主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的;Sigmoid层输出是一个向量,输出的每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重或者占比,比如0表示“不让任何信息通过”,1表示“让所有的信息通过”;LSTM通过三个门结构来实现信息的保存和控制,这三个门分别为:遗忘门、输入门、输出门。
所述遗忘门、输入门、输出门具体如下:
遗忘门决定细胞状态丢失的信息量,该门会读取ht-1和xt,输出一个在0和1之间的数值给每个在细胞状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”;
ft=σ(Wf·[ht-1,xt]+bf) (3)
其中σ为Sigmoid型激活函数,ht-1表示上一个记忆细胞的输出,xt表示的是当前细胞的输入;
输入门决定细胞状态新增的信息量,实现这个门需要包括两个步骤:首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容在下一步,把这两部分联合起来,对细胞的状态进行一个更新,把旧细胞状态与ft相乘,丢弃掉确定需要丢弃的信息,接着加上这就是新的候选值,决定更新每个状态的程度进行变化:
it=σ(Wi·[ht-1,xt]+bi) (4)
其中Ct为当前的时刻新的细胞状态;
输出门决定最终的输出信息,首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去,接着把细胞状态通过tanh进行处理,得到一个在-1到1之间的值,并将它和Sigmoid门的输出相乘,最终输出信息ht;
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot×tanh(Ct) (8)
Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成,双向LSTM能同时编码从前到后的信息和从后到前的信息,能在过去和未来的方向上建立更好的长期依赖关系,前向和反向LSTM在编码信息的过程中相互独立;
与现有技术相比,本发明具有如下的优点:
1)提出了一种新颖的端到端关键镜头视频摘要网络(SVSN),联合KL散度的有监督多层时空视频摘要框架,学习视频与关键镜头之间复杂的语义结构关系获得重要视频镜头内容;
2)对视频镜头进行重要度评分,而不是对每一帧进行重要度评分,不仅大大减少了冗余信息和保留视频动态信息,还采用分而治之策略提高运算效率和精度;
3)使用全卷积神经网络对每个镜头进行深度编码分层处理提高效率,使用长短期记忆网络更能够建模出镜头之间时间上和空间上的关系;
附图说明
图1为本发明一种基于多层时空框架的关键镜头视频摘要方法的流程图。
图2为本发明神经网络算法的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明做进一步详细的说明。
本发明实施例中提供一种基于多层时空框架的关键镜头视频摘要方法,流程如图1所示,首先对处理的视频进行分层处理,通过ResNet152卷积神经网络和核函数时间分割算法(KTS)对视频进行分层;第二层处理以每个场景镜头为基本处理单元,通过全卷积神经网络进行编码(Encode)获得场景帧间的时空语义信息;最后一层通过双向长短期记忆网络进行解码(Decode)获得各镜头分数信息;使用KL散度建立损失函数,进行学习优化网络参数,选出关键镜头达到预测效果。
如图1所示,一种基于多层时空框架的关键镜头视频摘要方法,具体操作步骤如下:
1)使用残差神经网络(ResNet152)提取待处理视频每帧ft(f1,f2…fn)的深度特征(2048维度的特征向量);
2)使用核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头St(S1,S2…Sm);
核函数时间分割KTS方法是按照场景不同将视频分割成不同镜头;首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:为描述符间的核函数;让为核函数K(.,.)的特征空间;记 为相关映射图,为特征空间的正则化,最小化下面的目标:
其中μp为段内均值;
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数;
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法式(2)对目标进行最小化,迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
3)以视频镜头为基本单元进行处理,通过全卷积神经网络(FCNN)对每个镜头进行编码,得到1024维的特征向量st(s1,s2…sm);
4)使用双向长短期记忆网络(BiLSTM)对每个镜头的特征向量进行解码获得每个镜头重要性评分pt(p1,p2…pm);预测的镜头重要性评分pt通过背包算法选择最重要的镜头作为摘要视频(原视频帧数的15%),最后通过KL散度与数据集注释建立损失函数,学习优化网络变量。
本实施例中,全卷积神经网络(FCNN)模型主要由二维卷积、池化和激活等模块组成。视频帧通过等比例采样获得各个镜头的数据(1*32*2048),第一层卷积使用64通道的3*3卷积核进行卷积,再通过正则化处理防止梯度消失,使用激活函数(ReLU)和池化(Pooling)处理,本实施例中FCNN模型使用了10层卷积处理输出(1*1024)的特征数据。
长短期记忆网络(LSTM)是递归神经网络的延伸,它弥补了普通的递归神经网络无法长期记忆的缺陷。LSTM的关键在于长期记忆细胞的状态,信息的添加或删除通过一种叫做门的结构来实现,门可以实现选择性地让信息通过,主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的。Sigmoid层输出(是一个向量)每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重(或者占比),比如0表示“不让任何信息通过”,1表示“让所有的信息通过”。LSTM通过三个门结构来实现信息的保存和控制,这三个门分别为:遗忘门、输入门、输出门。
遗忘门决定细胞状态丢失的信息量,该门会读取ht-1和xt,输出一个在0和1之间的数值给每个在细胞状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”。
ft=σ(Wf·[ht-1,xt]+bf) (3)
其中σ为Sigmoid型激活函数,ht-1表示上一个记忆细胞的输出,xt表示的是当前细胞的输入。
输入门决定细胞状态新增的信息量,实现这个门需要包括两个步骤:首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容在下一步,把这两部分联合起来,对细胞的状态进行一个更新,把旧细胞状态与ft相乘,丢弃掉确定需要丢弃的信息,接着加上这就是新的候选值,决定更新每个状态的程度进行变化。
it=σ(Wi·[ht-1,xt]+bi) (4)
其中Ct为当前的时刻新的细胞状态。
输出门决定最终的输出信息。首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去。接着把细胞状态通过tanh进行处理(得到一个在-1到1之间的值)并将它和Sigmoid门的输出相乘,最终输出信息ht。
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot×tanh(Ct) (8)
如图2所示Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成,双向LSTM能同时编码从前到后的信息和从后到前的信息,能在过去和未来的方向上建立更好的长期依赖关系,前向和反向LSTM在编码信息的过程中相互独立。
Claims (4)
1.一种基于多层时空框架的关键镜头视频摘要方法,其特征在于,具体操作步骤如下:
1)提取深度特征,使用在Image数据集上训练好的ResNet152卷积神经网络CNN提取每帧的深度特征,获得视频深度语义信息;
2)视频镜头分割,使用核函数时间分割KTS中的基于核函数的变化点检测算法,按照场景不同将视频分割成不同镜头,以视频镜头为基本单元参与到视频摘要网络中训练;
3)视频镜头特征语义编码,使用全卷积神经网络对每个镜头帧间进行语义编码,获得每个镜头深度语义信息;
4)摘要网络获取关键镜头,通过双向长短期记忆网络进行特征语义解码,回归视频镜头重要性评分,通过KL散度与数据集注释建立损失函数进行训练学习优化。
2.根据权利要求1所述的基于多层时空框架的关键镜头视频摘要方法,其特征在于,所述步骤2)中的视频镜头分割,具体步骤如下:
核函数时间分割KTS方法是按照场景不同将视频分割成不同镜头;首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:为描述符间的核函数;让为核函数K(.,.)的特征空间;记 为相关映射图,为特征空间的正则化,最小化下面的目标:
其中μp为段内均值;
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数;
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法式(2)对目标进行最小化,迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
3.根据权利要求1所述的基于多层时空框架的关键镜头视频摘要方法,其特征在于,所述视频镜头特征语义编码和特征语义解码,具体如下:
视频镜头特征语义编码使用全卷积神经网络FCNN模型主要由二维卷积、池化和激活模块组成;视频帧通过等比例采样获得各个镜头的数据,第一层卷积使用64通道的3*3卷积核进行卷积,再通过正则化处理防止梯度消失,使用激活函数ReLU和池化处理;
特征语义解码使用长短期记忆网络LSTM是递归神经网络的延伸,它弥补了普通的递归神经网络无法长期记忆的缺陷;LSTM的关键在于长期记忆细胞的状态,信息的添加或删除通过一种叫做门的结构来实现,门能够实现选择性地让信息通过,主要是通过一个Sigmoid的神经层和一个逐点相乘的操作来实现的;Sigmoid层输出是一个向量,输出的每个元素都是一个在0和1之间的实数,表示让对应信息通过的权重或者占比,比如“0”表示“不让任何信息通过”,“1”表示“让所有的信息通过”;LSTM通过三个门结构来实现信息的保存和控制,这三个门分别为:遗忘门、输入门、输出门。
4.根据权利要求3所述的基于多层时空框架的关键镜头视频摘要方法,其特征在于,所述遗忘门、输入门、输出门具体如下:
遗忘门决定细胞状态丢失的信息量,该门会读取ht-1和xt,输出一个在0和1之间的数值给每个在细胞状态Ct-1中的数字,1表示“完全保留”,0表示“完全舍弃”;
ft=σ(Wf·[ht-1,xt]+bf) (3)
其中σ为Sigmoid型激活函数,ht-1表示上一个记忆细胞的输出,xt表示的是当前细胞的输入;
输入门决定细胞状态新增的信息量,实现这个门需要包括两个步骤:首先一个叫做“input gate layer”的Sigmoid层决定哪些信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容在下一步,把这两部分联合起来,对细胞的状态进行一个更新,把旧细胞状态与ft相乘,丢弃掉确定需要丢弃的信息,接着加上这就是新的候选值,决定更新每个状态的程度进行变化:
it=σ(Wi·[ht-1,xt]+bi) (4)
其中Ct为当前的时刻新的细胞状态;
输出门决定最终的输出信息,首先运行一个Sigmoid层来确定细胞状态的哪个部分将输出出去,接着把细胞状态通过tanh进行处理,得到一个在-1到1之间的值,并将它和Sigmoid门的输出相乘,最终输出信息ht;
ot=σ(Wo·[ht-1,xt]+bo) (7)
ht=ot×tanh(Ct) (8)
Bi-LSTM由前向LSTM、反向LSTM、全连接层和非线性映射层组成,双向LSTM能同时编码从前到后的信息和从后到前的信息,能在过去和未来的方向上建立更好的长期依赖关系,前向和反向LSTM在编码信息的过程中相互独立;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237689.5A CN111460979A (zh) | 2020-03-30 | 2020-03-30 | 一种基于多层时空框架的关键镜头视频摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010237689.5A CN111460979A (zh) | 2020-03-30 | 2020-03-30 | 一种基于多层时空框架的关键镜头视频摘要方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111460979A true CN111460979A (zh) | 2020-07-28 |
Family
ID=71683354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010237689.5A Pending CN111460979A (zh) | 2020-03-30 | 2020-03-30 | 一种基于多层时空框架的关键镜头视频摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460979A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016406A (zh) * | 2020-08-07 | 2020-12-01 | 青岛科技大学 | 一种基于全卷积网络的视频关键帧提取方法 |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
CN112446342A (zh) * | 2020-12-07 | 2021-03-05 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
CN112487241A (zh) * | 2020-11-26 | 2021-03-12 | 哈尔滨工程大学 | 一种基于卷积神经网络的视频摘要方法 |
CN113657533A (zh) * | 2021-08-24 | 2021-11-16 | 河海大学 | 一种面向时空场景构建的多元时间序列分割聚类方法 |
WO2022042638A1 (en) * | 2020-08-27 | 2022-03-03 | International Business Machines Corporation | Deterministic learning video scene detection |
CN114979801A (zh) * | 2022-05-10 | 2022-08-30 | 上海大学 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
CN115002559A (zh) * | 2022-05-10 | 2022-09-02 | 上海大学 | 基于门控多头位置注意力机制的视频摘要算法及系统 |
CN115731498A (zh) * | 2022-12-01 | 2023-03-03 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
CN117376502A (zh) * | 2023-12-07 | 2024-01-09 | 翔飞(天津)智能科技有限公司 | 一种基于ai技术的视频制作系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN110110140A (zh) * | 2019-04-19 | 2019-08-09 | 天津大学 | 基于注意力扩展编解码网络的视频摘要方法 |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
-
2020
- 2020-03-30 CN CN202010237689.5A patent/CN111460979A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN110110140A (zh) * | 2019-04-19 | 2019-08-09 | 天津大学 | 基于注意力扩展编解码网络的视频摘要方法 |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Non-Patent Citations (2)
Title |
---|
DANILA POTAPOV等: "Category-Specific Video Summarization", 《ECCV 2014》 * |
江俊杰: "面向解码器视觉注意力机制的视频摘要研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016406A (zh) * | 2020-08-07 | 2020-12-01 | 青岛科技大学 | 一种基于全卷积网络的视频关键帧提取方法 |
CN112016406B (zh) * | 2020-08-07 | 2022-12-02 | 青岛科技大学 | 一种基于全卷积网络的视频关键帧提取方法 |
GB2613742A (en) * | 2020-08-27 | 2023-06-14 | Ibm | Deterministic learning video scene detection |
WO2022042638A1 (en) * | 2020-08-27 | 2022-03-03 | International Business Machines Corporation | Deterministic learning video scene detection |
US11450111B2 (en) | 2020-08-27 | 2022-09-20 | International Business Machines Corporation | Deterministic learning video scene detection |
CN112052841A (zh) * | 2020-10-12 | 2020-12-08 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
CN112052841B (zh) * | 2020-10-12 | 2021-06-29 | 腾讯科技(深圳)有限公司 | 一种视频摘要的生成方法以及相关装置 |
CN112487241A (zh) * | 2020-11-26 | 2021-03-12 | 哈尔滨工程大学 | 一种基于卷积神经网络的视频摘要方法 |
CN112446342A (zh) * | 2020-12-07 | 2021-03-05 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
CN112446342B (zh) * | 2020-12-07 | 2022-06-24 | 北京邮电大学 | 关键帧识别模型训练方法、识别方法及装置 |
CN113657533A (zh) * | 2021-08-24 | 2021-11-16 | 河海大学 | 一种面向时空场景构建的多元时间序列分割聚类方法 |
CN113657533B (zh) * | 2021-08-24 | 2023-11-14 | 河海大学 | 一种面向时空场景构建的多元时间序列分割聚类方法 |
CN114979801A (zh) * | 2022-05-10 | 2022-08-30 | 上海大学 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
CN115002559A (zh) * | 2022-05-10 | 2022-09-02 | 上海大学 | 基于门控多头位置注意力机制的视频摘要算法及系统 |
CN115002559B (zh) * | 2022-05-10 | 2024-01-05 | 上海大学 | 基于门控多头位置注意力机制的视频摘要算法及系统 |
CN115731498A (zh) * | 2022-12-01 | 2023-03-03 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
CN117376502A (zh) * | 2023-12-07 | 2024-01-09 | 翔飞(天津)智能科技有限公司 | 一种基于ai技术的视频制作系统 |
CN117376502B (zh) * | 2023-12-07 | 2024-02-13 | 翔飞(天津)智能科技有限公司 | 一种基于ai技术的视频制作系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460979A (zh) | 一种基于多层时空框架的关键镜头视频摘要方法 | |
CN109446923B (zh) | 基于训练特征融合的深度监督卷积神经网络行为识别方法 | |
CN115002559B (zh) | 基于门控多头位置注意力机制的视频摘要算法及系统 | |
CN111860162A (zh) | 一种视频人群计数系统及方法 | |
CN112669325A (zh) | 一种基于主动式学习的视频语义分割方法 | |
CN111526434B (zh) | 基于转换器的视频摘要方法 | |
CN111104555B (zh) | 基于注意力机制的视频哈希检索方法 | |
CN111488932B (zh) | 一种基于帧率感知的自监督视频时-空表征学习方法 | |
CN113807318B (zh) | 一种基于双流卷积神经网络和双向gru的动作识别方法 | |
CN115731498B (zh) | 一种联合强化学习和对比学习的视频摘要生成方法 | |
CN111046298B (zh) | 推送应用程序的方法、装置、计算机设备和存储介质 | |
CN111984820A (zh) | 一种基于双自注意力胶囊网络的视频摘要方法 | |
Hou et al. | Confidence-guided self refinement for action prediction in untrimmed videos | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116662604A (zh) | 一种基于分层Transformer的视频摘要方法 | |
CN114979801A (zh) | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 | |
El Abyad et al. | Deep Video Hashing Using 3DCNN with BERT. | |
CN113313030A (zh) | 基于运动趋势特征的人体行为识别方法 | |
CN114817627A (zh) | 基于多面视频表示学习的文本到视频的跨模态检索方法 | |
CN113298017A (zh) | 一种针对视频行为检测的行为提议生成方法 | |
Maraghi et al. | Class-incremental learning on video-based action recognition by distillation of various knowledge | |
Patil et al. | Video content classification using deep learning | |
Jin et al. | C2F: An effective coarse-to-fine network for video summarization | |
JP7378172B2 (ja) | 効率的なキーフレーム選択報酬関数を備えた教師なし映像要約方法および装置 | |
CN116069973B (zh) | 一种基于语义自挖掘的视频摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200728 |
|
RJ01 | Rejection of invention patent application after publication |