CN114979801A - 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 - Google Patents
基于双向卷积长短期记忆网络的动态视频摘要算法及系统 Download PDFInfo
- Publication number
- CN114979801A CN114979801A CN202210504819.6A CN202210504819A CN114979801A CN 114979801 A CN114979801 A CN 114979801A CN 202210504819 A CN202210504819 A CN 202210504819A CN 114979801 A CN114979801 A CN 114979801A
- Authority
- CN
- China
- Prior art keywords
- video
- convlstm
- frame
- time
- dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002457 bidirectional effect Effects 0.000 title claims abstract description 40
- 230000015654 memory Effects 0.000 title claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000007774 longterm Effects 0.000 claims abstract description 17
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims 1
- 230000007787 long-term memory Effects 0.000 abstract description 6
- 230000006403 short-term memory Effects 0.000 abstract description 6
- 230000002123 temporal effect Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 240000000972 Agathis dammara Species 0.000 description 1
- 229920002871 Dammar gum Polymers 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统,包括如下步骤:使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征;使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数。本发明提出了端到端的基于双向卷积长短期记忆动态视频摘要网络,具有监督的编码器‑解码器视频摘要框架,可以学习视频中复杂的时空语义结构关系。
Description
技术领域
本发明涉及视频处理技术领域,具体地,涉及一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统。
背景技术
随着大数据时代的到来,数字信息技术的发展使得视频成为人们获取信息的重要方式,但是,视频数据的指数型增长也为人们带来了一些困扰。面对海量视频,人们观看视频需要耗费大量时间,无法高效地捕获感兴趣的内容,而且视频数据的存储和管理压力也越来越大。所以,如何高效地浏览、检索和管理视频资源成为近年来亟需解决的热点研究课题。
视频摘要技术应运而生,是解决上述问题的有效方法,它从冗长的原始视频中提取出关键帧或关键镜头,生成简明紧凑的视频摘要。在理想情况下,视频摘要应满足两个主要目标:首先,摘要应保留原始视频的代表性结构和多样性信息,并尽可能地减少冗余,可以在最短的时间内为用户提供最大的目标视频信息;其次,摘要应与人类理解保持一致,即摘要能概括原始视频的主要内容,保留人类认为重要的信息。
公开号为CN105357594B的专利文献公开了一种基于集群及H264的视频浓缩算法的海量视频摘要生成方法,包括如下步骤:选取原始视频,并对其进行切割,得到n个长度近似相等的片段,编码格式为H264,其中n为自然数;对切割后的各片段进行视频解码,根据运动估计以及背景图来获取前景目标,并通过基于稀疏光流的误报删除及漏检修复算法,对各片段的检测率进行完善,并更新背景图;将单个包含运动信息的片段视作浓缩单元,进行压缩,压缩完成后进行拼接,生成一段完整的视频摘要。但是该专利文献与本申请的技术方案不同。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于双向卷积长短期记忆网络的动态视频摘要算法及系统。
根据本发明提供的一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下步骤:
步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
优选的,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。
优选的,使用ConvLSTM对每一帧的特征图进行时空建模具体为:
采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,…,XT}到所述ConvLSTM中,其中Xt为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,…,T;
所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出;
在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中;
输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,…,HT},细胞状态序列{C1,C2,…,CT},其中,Ct为t时刻的细胞状态,Ht为t时刻的隐藏层状态。
优选的,具体计算公式如下:
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
优选的,所述步骤2中,所述ConvLSTM包括前向LSTM和后向LSTM;
所述前向LSTM在过去方向上建立长期依赖关系,所述后向LSTM在未来方向上建立长期依赖关系;
所述前向LSTM和所述后向LSTM在编码信息的过程中相互独立。
优选的,所述步骤3具体为:
优选的,
优选的,所述步骤4具体为:
采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
优选的,
本发明还提供一种基于双向卷积长短期记忆网络的动态视频摘要系统,包括如下模块:
模块M1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
模块M2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
模块M3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
模块M4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种新颖的端到端的基于双向卷积长短期记忆动态视频摘要网络(CLSN),具有监督的编码器-解码器视频摘要框架,可以学习视频中复杂的时空语义结构关系;
2、本发明首次将ConvLSTM应用到视频摘要的领域,可以联合考虑视频帧内的空间结构信息和视频帧间的长短期依赖关系,将视频的空间特征和时间特征进行有机融合,更加有效地学习视频的时空语义信息,使生成的摘要更贴近人类理解,克服了独立分析视频时间特征和空间特征而导致生成摘要缺乏故事性、逻辑性的问题;
3、本发明在SumMe和TVSum两个基准数据集上进行了大量的实验,在SumMe数据集上,规范设置分数达到了49.71%,增强设置分数达到了51.09%;在TVSum数据集上,规范设置分数达到了61.63%,增强设置分数达到了62.35%,实验结果证明了本发明优于其他同类型视频摘要方法。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于双向卷积长短期记忆网络的动态视频摘要算法的流程图;
图2为本发明CLSN网络框架结构图;
图3为本发明的基于双向卷积长短期记忆网络的动态视频摘要算法的步骤流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1~3所示,本实施例提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下步骤:
步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;ConvLSTM为LSTM的扩展,ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构;
使用ConvLSTM对每一帧的特征图进行时空建模具体为:
采用了ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,…,XT}到ConvLSTM中,其中Xt为ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,…,T;
ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出;
在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中;
输入的特征图序列经过ConvLSTM的运算得到隐藏层状态序列{H1,H2,…,HT},细胞状态序列{C1,C2,…,CT},其中,Ct为t时刻的细胞状态,Ht为t时刻的隐藏层状态;
具体计算公式如下:
其中Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积;
ConvLSTM包括前向LSTM和后向LSTM;
前向LSTM在过去方向上建立长期依赖关系,后向LSTM在未来方向上建立长期依赖关系;
前向LSTM和后向LSTM在编码信息的过程中相互独立。
步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;将和拼接为双向隐藏状态向量并输入全连接层,然后,经过非线性映射层输出该帧t时刻的重要性分数yt,其中,为t时刻前向LSTM的输出,为t时刻后向LSTM的输出;
步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数;
采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频;
实施例2:
本实施例提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,包括如下模块:
模块M1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
模块M2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
模块M3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
模块M4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
实施例3:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,具体操作步骤如下:
步骤S1,提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤S2,视频帧的时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
步骤S3,重要性分数回归,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
步骤S4,生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释(Ground Truth)的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
视频帧时空语义建模和生成动态视频摘要,具体步骤如下:
在以往的各种研究中已经证明了LSTM在时间相关性建模任务中的稳定性和有效性,但它包含了大量的空间数据冗余,为解决该问题,本实施例采用了ConvLSTM作为核心单元,同步对视频中的时空关系进行建模。ConvLSTM是LSTM的扩展,将CNN与LSTM在模型底层结合,专门为时空序列设计的深度学习模块,在输入到状态和状态到状态的转换中都具有卷积结构,可以有效地提取视频帧内的空间结构信息。
输入视频帧中提取出的特征图序列{X1,X2,…,XT}到ConvLSTM中,其中Xt为ConvLSTM中时间步t时刻的输入,T为视频帧的数量。ConvLSTM通过输入门、遗忘门和输出门来实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出。在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中。输入的特征图经过ConvLSTM的运算可以得到隐藏层状态{H1,H2,…,HT},细胞状态{C1,C2,…,CT},具体计算公式如下:
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
在视频中,对视频帧的时空建模不仅需要考虑过去时刻的视频帧,还需要考虑未来时刻视频帧的影响,所以本实施例设计了双向的ConvLSTM模型能在过去和未来的方向上建立更好的长期依赖关系。前向和后向ConvLSTM在编码信息的过程中相互独立。将和拼接为双向隐藏状态向量并输入全连接层,然后,经过非线性映射层输出该帧的重要性分数yt。
本实施例期望生成动态的视频摘要,所以需要根据帧级重要性分数获取视频中的关键镜头。本实施例采用核时间分割(Kernel Temporal Segmentation,KTS)方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si。然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%。最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
本实施例的目的在于提供一种新颖的动态视频摘要方法,可以精准快速地提取视频中重要片段和内容,本实施例提出了一种基于双向卷积长短期记忆网络的动态视频摘要算法,将视频摘要任务视作序列到序列的结构性预测问题,设计了一个基于双向ConvLSTM的动态视频摘要网络(CLSN),这是一个联合考虑视频时空语义信息的视频摘要框架,可以同步对视频帧内的空间结构信息和视频帧间的长短期依赖关系进行时空建模,有利于生成更符合人类理解的高质量摘要,相比于由关键帧组成的摘要,动态视频摘要由关键镜头组成,以短视频的形式呈现给用户,不仅能最大化地代表原始视频,还能更好的表达视频动态语义。
实施例4:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例中提供一种基于双向卷积长短期记忆网络的动态视频摘要算法,算法流程如图1所示。
首先将原始视频划分成视频帧,通过InceptionResNetV2编码器提取视频帧的深度语义信息进行编码得到每一帧的空间特征图;然后将特征图输入双向卷积长短期记忆网络(Bi-ConvLSTM)解码器,对视频特征图的时空语义结构关系进行建模;接着,根据获取的视频时空语义信息回归得到每一帧的重要性分数,并根据帧级重要性分数计算镜头级重要性分数;最后,通过背包算法选择关键镜头组成动态摘要视频。训练过程中通过计算均方误差来最小化摘要视频与数据集注释的信息差,以优化网络参数,得到高质量的摘要视频。
如图2所示,一种基于双向卷积长短期记忆网络的动态视频摘要算法,具体操作步骤如下:
步骤S1,使用在Image数据集上训练好的InceptionResNetV2神经网络提取待处理视频每一帧的深度空间特征图{X1,X2,…,XT},特征图的尺寸为1536×8×8,其中深度为1536,长度与宽度均为8;
步骤S2,以视频帧特征图序列{X1,X2,…,XT}输入双向卷积长短期记忆网络(Bi-ConvLSTM)对视频每一帧的特征图进行时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系,并在ConvLSTM底层进行时空特征的有机融合,以此对视频帧进行重要性分数回归,获得每一帧的重要性分数{y1,y2,…,yT};
步骤S3,使用核函数时间分割方法(Kernel Temporal Segmentation,KTS)检测场景变化点将原始视频分割为若干个不相交的镜头{S1,S2,…,SK},根据得到的帧级重要性分数计算镜头级重要性分数{s1,s2,…,sK};
步骤S4,利用背包算法选择关键镜头生成动态摘要,并保证摘要的长度不超过原始视频的15%;
步骤S5,建立算法选择的关键镜头与数据集真实值注释(Ground Truth)之间的均方误差损失函数,进行有监督迭代训练,不断优化网络参数。
在以往的各种研究中已经证明了LSTM在时间相关性建模任务中的稳定性和有效性,但它包含了大量的空间数据冗余,为解决该问题,本实施例采用了ConvLSTM作为核心单元,同步对视频中的时空关系进行建模。ConvLSTM是LSTM的扩展,将CNN与LSTM在模型底层结合,专门为时空序列设计的深度学习模块,在输入到状态和状态到状态的转换中都具有卷积结构,可以有效地提取视频帧内的空间结构信息。
输入视频帧中提取出的特征图序列{X1,X2,…,XT}到ConvLSTM中,其中Xt为ConvLSTM中时间步t时刻的输入,T为视频帧的数量。ConvLSTM通过输入门、遗忘门和输出门来实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出。在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中。输入的特征图经过ConvLSTM的运算可以得到隐藏层状态{H1,H2,…,HT},细胞状态{C1,C2,…,CT},具体计算公式如下:
其中,Wxi,Whi,Wci,Wxf,Whf,Wcf,Wxc,Whc,Wxo,Who和Wco是所述ConvLSTM中待训练的权重参数,bi,bf,bc和bo是所述ConvLSTM中待训练的偏置项,tanh是双曲正切函数,σ是sigmoid函数,“*”代表卷积操作,“☉”代表哈达玛乘积。
在视频中,对视频帧的时空建模不仅需要考虑过去时刻的视频帧,还需要考虑未来时刻视频帧的影响,所以本实施例设计了双向的ConvLSTM模型能在过去和未来的方向上建立更好的长期依赖关系。前向和后向ConvLSTM在编码信息的过程中相互独立。将和拼接为双向隐藏状态向量并输入全连接层,然后,经过非线性映射层输出该帧的重要性分数yt:
本实施例期望生成动态的视频摘要,所以需要根据帧级重要性分数获取视频中的关键镜头。本实施例采用核时间分割(Kernel Temporal Segmentation,KTS)方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%。最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
本发明提出了一种新颖的端到端的基于双向卷积长短期记忆动态视频摘要网络,具有监督的编码器-解码器视频摘要框架,可以学习视频中复杂的时空语义结构关系。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (10)
1.一种基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,包括如下步骤:
步骤1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
步骤2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
步骤3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
步骤4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
2.根据权利要求1所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤2中,所述ConvLSTM为LSTM的扩展,所述ConvLSTM将CNN与LSTM在模型底层结合,形成时空序列的深度学习模块,在输入到状态和状态到状态的转换中均具有卷积结构。
3.根据权利要求2所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,使用ConvLSTM对每一帧的特征图进行时空建模具体为:
采用了所述ConvLSTM作为核心单元,同步对视频中的时空关系进行建模,输入视频帧中提取出的特征图序列{X1,X2,…,XT}到所述ConvLSTM中,其中Xt为所述ConvLSTM中时间为t时刻的输入,T为视频帧的数量,t=1,2,…,T;
所述ConvLSTM通过输入门、遗忘门和输出门实现信息的保存和控制,用it表示输入门的输出,ft表示遗忘门的输出,ot表示输出门的输出;
在t时刻时,输入门控制了Xt中有多少信息保存到细胞状态Ct,遗忘门控制了上一时刻的细胞状态Ct-1中有多少信息保留到当前时刻Ct中,输出门控制了当前细胞状态Ct中有多少信息输出到当前输出值Ht中;
输入的特征图序列经过所述ConvLSTM的运算得到隐藏层状态序列{H1,H2,…,HT},细胞状态序列{C1,C2,…,CT},其中,Ct为t时刻的细胞状态,Ht为t时刻的隐藏层状态。
5.根据权利要求4所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤2中,所述ConvLSTM包括前向LSTM和后向LSTM;
所述前向LSTM在过去方向上建立长期依赖关系,所述后向LSTM在未来方向上建立长期依赖关系;
所述前向LSTM和所述后向LSTM在编码信息的过程中相互独立。
8.根据权利要求7所述的基于双向卷积长短期记忆网络的动态视频摘要算法,其特征在于,所述步骤4具体为:
采用核时间分割方法检测场景变化点,将原始视频分割为若干个不相交的镜头,并根据帧级重要性分数计算镜头级重要性分数si,然后,根据背包算法选择关键镜头,并限制摘要的长度不超过原视频的15%,最后,将算法选择的关键镜头按顺序拼接组成动态摘要视频。
10.一种基于双向卷积长短期记忆网络的动态视频摘要系统,其特征在于,包括如下模块:
模块M1:提取视频帧深度空间特征,使用在Image数据集上训练好的InceptionResNetV2网络作为编码器提取每帧的深度空间特征,生成特征图,获取视频深度空间语义信息;
模块M2:对视频帧进行时空语义建模,使用双向ConvLSTM对每一帧的特征图进行前向和后向的时空建模,同时捕获特征图内的空间结构信息和视频时序上的长短期依赖关系;
模块M3:回归重要性分数,将视频帧的时空语义信息通过全连接层和非线性映射层回归生成帧级重要性分数;
模块M4:生成动态视频摘要,根据背包算法选择关键镜头并生成动态摘要,建立与数据集真实值注释的均方误差损失函数,进行有监督的迭代训练,不断优化网络参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210504819.6A CN114979801A (zh) | 2022-05-10 | 2022-05-10 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210504819.6A CN114979801A (zh) | 2022-05-10 | 2022-05-10 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114979801A true CN114979801A (zh) | 2022-08-30 |
Family
ID=82981155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210504819.6A Pending CN114979801A (zh) | 2022-05-10 | 2022-05-10 | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114979801A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731498A (zh) * | 2022-12-01 | 2023-03-03 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110334718A (zh) * | 2019-07-09 | 2019-10-15 | 方玉明 | 一种基于长短期记忆的二维视频显著性检测方法 |
CN111091045A (zh) * | 2019-10-25 | 2020-05-01 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
CN112468888A (zh) * | 2020-11-26 | 2021-03-09 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN114020964A (zh) * | 2021-11-15 | 2022-02-08 | 上海大学 | 一种利用记忆网络和门控循环单元实现视频摘要的方法 |
EP3961490A1 (en) * | 2020-08-25 | 2022-03-02 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method and apparatus for video clip extraction, and storage medium |
-
2022
- 2022-05-10 CN CN202210504819.6A patent/CN114979801A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107484017A (zh) * | 2017-07-25 | 2017-12-15 | 天津大学 | 基于注意力模型的有监督视频摘要生成方法 |
CN108024158A (zh) * | 2017-11-30 | 2018-05-11 | 天津大学 | 利用视觉注意力机制的有监督视频摘要提取方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN110287374A (zh) * | 2019-06-14 | 2019-09-27 | 天津大学 | 一种基于分布一致性的自注意力视频摘要方法 |
CN110334718A (zh) * | 2019-07-09 | 2019-10-15 | 方玉明 | 一种基于长短期记忆的二维视频显著性检测方法 |
CN111091045A (zh) * | 2019-10-25 | 2020-05-01 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
CN111460979A (zh) * | 2020-03-30 | 2020-07-28 | 上海大学 | 一种基于多层时空框架的关键镜头视频摘要方法 |
EP3961490A1 (en) * | 2020-08-25 | 2022-03-02 | Beijing Xiaomi Pinecone Electronics Co., Ltd. | Method and apparatus for video clip extraction, and storage medium |
CN112468888A (zh) * | 2020-11-26 | 2021-03-09 | 广东工业大学 | 基于gru网络的视频摘要生成方法与系统 |
CN114020964A (zh) * | 2021-11-15 | 2022-02-08 | 上海大学 | 一种利用记忆网络和门控循环单元实现视频摘要的方法 |
Non-Patent Citations (4)
Title |
---|
CHINGSHUN LIN等: "Sports video summarization with limited labeling datasets based on 3D neural networks", 《2019 16TH IEEE INTERNATIONAL CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE (AVSS)》 * |
HONGMEI SONG等: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV)》 * |
SHAMIT LAL等: "Online Video Summarization Predicting Future To Better Summarize Present", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 * |
XINGJIAN SHI等: "Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting", 《NIPS"15: PROCEEDINGS OF THE 28TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731498A (zh) * | 2022-12-01 | 2023-03-03 | 石家庄铁道大学 | 一种联合强化学习和对比学习的视频摘要生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388900B (zh) | 基于多特征融合和时空注意力机制相结合的视频描述方法 | |
CN110175580B (zh) | 一种基于时序因果卷积网络的视频行为识别方法 | |
WO2021164326A1 (zh) | 一种视频处理方法、装置、设备及计算机可读存储介质 | |
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111460979A (zh) | 一种基于多层时空框架的关键镜头视频摘要方法 | |
US11868738B2 (en) | Method and apparatus for generating natural language description information | |
CN115002559B (zh) | 基于门控多头位置注意力机制的视频摘要算法及系统 | |
CN110674673A (zh) | 一种关键视频帧抽取方法、装置和存储介质 | |
CN109213896B (zh) | 基于长短期记忆网络强化学习的水下视频摘要生成方法 | |
CN113011320B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
KR20230062429A (ko) | 문장 기반 스케치 추천 방법 및 장치 | |
Li et al. | Learning hierarchical video representation for action recognition | |
WO2023109361A1 (zh) | 用于视频处理的方法、系统、设备、介质和产品 | |
CN115171014B (zh) | 视频处理方法、装置、电子设备及计算机可读存储介质 | |
CN115359492A (zh) | 文本图像匹配模型训练方法、图片标注方法、装置、设备 | |
CN114979801A (zh) | 基于双向卷积长短期记忆网络的动态视频摘要算法及系统 | |
Zhang et al. | SOR-TC: Self-attentive octave ResNet with temporal consistency for compressed video action recognition | |
CN111723934B (zh) | 图像处理方法及系统、电子设备及存储介质 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
CN116069973B (zh) | 一种基于语义自挖掘的视频摘要生成方法 | |
CN116662604A (zh) | 一种基于分层Transformer的视频摘要方法 | |
US11756300B1 (en) | Method and apparatus for summarization of unsupervised video with efficient key frame selection reward functions | |
Hari et al. | Human face based approach for video summarization | |
Xu et al. | Deep Neural Network‐Based Sports Marketing Video Detection Research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220830 |