CN107729821B - 一种基于一维序列学习的视频概括方法 - Google Patents
一种基于一维序列学习的视频概括方法 Download PDFInfo
- Publication number
- CN107729821B CN107729821B CN201710888621.1A CN201710888621A CN107729821B CN 107729821 B CN107729821 B CN 107729821B CN 201710888621 A CN201710888621 A CN 201710888621A CN 107729821 B CN107729821 B CN 107729821B
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- neural network
- sequence
- dimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤:获取用于训练视频概括模型的视频数据集,并定义算法目标;对视频数据集中的时空语义结构进行序列特征建模;基于视频序列特征建立逐帧分数预测模型;使用所述预测模型预测输入视频中的关键片段。本发明适用于真实视频场景中的视频概括,面对各类复杂情况具有较佳的效果和鲁棒性。
Description
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于一维序列学习的视频概括方法。
背景技术
21世纪初以来,随着视频数据的海量增长,自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务,其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准,其挑战性在于如何建模复杂和多层次的时间维度的语义结构。
现有的视频摘要方法可以分为以下两类:1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准,例如代表性、多样性和重要性,并用它们的组合来模拟真实的视频概括标准;2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达,并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模,模型的时间和空间复杂度较高。一方面,模型需要学习的参数很多,导致模型可能不稳定;另一方面,模型的运行时间较长。
发明内容
为解决上述问题,本发明的目的在于提供一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略,利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构,并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度,对真实未加工视频中的复杂情况有更稳定的性能。
为实现上述目的,本发明的技术方案为:
一种基于一维序列学习的视频概括方法,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
进一步的,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain;
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。
进一步的,步骤S2具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
S22、将S21中得到的视频空间语义特征v作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射
进一步的,步骤S3中具体包括:
S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;
S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
S34、神经网络x→y使用欧几里得损失函数,表示为
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
进一步的,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:
S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;
S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
本发明的基于一维序列学习的视频概括方法,相比于现有的视频概括方法,具有以下有益效果:
首先,本发明从时间序列建模的角度解决视频概括问题,引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构。
其次,本发明的视频概括方法基于三种不同的深度神经网络建立模型,不同的神经网络能够建模不同种类和层次的空间和时间语义结构。另外,时空特征表达和逐帧重要性分数预测被统一在一个端到端的框架里,提高了方法的最终效果。
本发明的基于一维序列学习的视频概括方法,在智能视频分析系统里具有良好的应用价值,能够有效提高视频概括的效率和准确度。例如,在视频类网站里,本发明的视频概括方法可以快速和准确地用视频片段概括原始视频中的重要内容,为用户快速浏览视频提供方便。
附图说明
图1为本发明的基于一维序列学习的视频概括方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,基于一维序列学习的视频概括方法,包括以下步骤:
首先,获取用于训练视频概括模型的视频数据集。其中,用于训练人群数量预测模型的监控图像数据集,包括视频Xtrain,人工标注的逐帧重要性分数Ytrain;
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,T是视频帧的数量。
其次,对视频数据集中的样本视频的时空语义结构进行序列特征建模。具体的,其包括如下步骤:
之后,基于视频序列特征建立逐帧分数预测模型。具体包括:
第一步,建立一维全卷积神经网络(FCN),将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;
第三步,以串联形式拼接步骤S21、S22、S31、S32步骤所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
第四步,神经网络x→y使用欧几里得损失函数,表示为
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
最后,使用所述预测模型预测输入视频中的关键片段。具体包括:
第一步,根据帧间光流的绝对值,将视频分割为不重叠的片段;
第二步,使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
上述实施例中,本发明的视频概括方法首先将视频的时间语义结构和空间语义结构联合建模为时空特征表达。在此基础上,将原问题转化为一维序列学习问题,并基于一维全卷积神经网络建立逐帧重要性分数预测模型。最后,利用训练好的逐帧重要性分数预测模型来估计新的视频中的重要片段。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种应用于未加工视频的视频概括方法算法。本发明引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构,从而进行准确的视频概括并降低算法复杂度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于一维序列学习的视频概括方法,其特征在于,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain,并定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型,具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征υ={υ1,υ2,…,υT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
2.如权利要求1所述的基于一维序列学习的视频概括方法,其特征在于,步骤S3中具体包括:
S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;
S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
S34、神经网络x→y使用欧几里得损失函数,表示为
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
3.如权利要求2所述的基于一维序列学习的视频概括方法,其特征在于,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:
S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;
S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710888621.1A CN107729821B (zh) | 2017-09-27 | 2017-09-27 | 一种基于一维序列学习的视频概括方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710888621.1A CN107729821B (zh) | 2017-09-27 | 2017-09-27 | 一种基于一维序列学习的视频概括方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107729821A CN107729821A (zh) | 2018-02-23 |
CN107729821B true CN107729821B (zh) | 2020-08-11 |
Family
ID=61206942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710888621.1A Active CN107729821B (zh) | 2017-09-27 | 2017-09-27 | 一种基于一维序列学习的视频概括方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107729821B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921032B (zh) * | 2018-06-04 | 2022-04-29 | 创意信息技术股份有限公司 | 一种新的基于深度学习模型的视频语义提取方法 |
CN109543643B (zh) * | 2018-11-30 | 2022-07-01 | 电子科技大学 | 基于一维全卷积神经网络的载波信号检测方法 |
CN110110140A (zh) * | 2019-04-19 | 2019-08-09 | 天津大学 | 基于注意力扩展编解码网络的视频摘要方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102427507A (zh) * | 2011-09-30 | 2012-04-25 | 北京航空航天大学 | 一种基于事件模型的足球视频集锦自动合成方法 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
-
2017
- 2017-09-27 CN CN201710888621.1A patent/CN107729821B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102427507A (zh) * | 2011-09-30 | 2012-04-25 | 北京航空航天大学 | 一种基于事件模型的足球视频集锦自动合成方法 |
CN104113789A (zh) * | 2014-07-10 | 2014-10-22 | 杭州电子科技大学 | 一种基于深度学习的视频摘要在线生成方法 |
CN106971010A (zh) * | 2017-05-12 | 2017-07-21 | 深圳市唯特视科技有限公司 | 一种适用于文本查询的视频摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
End-to-end Learning of Driving Models from Large-scale Video Datasets;Huazhe Xu 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170909;第2530-2538页 * |
Video Summarization with Long Short-Term Memory;Ke Zhang 等;《ECCV 2016》;20161231;第766-782页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107729821A (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363716B (zh) | 一种基于条件生成对抗网络复合降质图像高质量重建方法 | |
CN110929622B (zh) | 视频分类方法、模型训练方法、装置、设备及存储介质 | |
WO2021143264A1 (zh) | 图像处理方法、装置、服务器和存储介质 | |
CN107729821B (zh) | 一种基于一维序列学习的视频概括方法 | |
US11495055B1 (en) | Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network | |
CN111079507B (zh) | 一种行为识别方法及装置、计算机装置及可读存储介质 | |
WO2021184754A1 (zh) | 视频对比方法、装置、计算机设备和存储介质 | |
CN113239825B (zh) | 一种复杂场景下高精度烟草甲虫检测方法 | |
CN110782448A (zh) | 渲染图像的评价方法及装置 | |
CN112597824A (zh) | 行为识别方法、装置、电子设备和存储介质 | |
WO2023036157A1 (en) | Self-supervised spatiotemporal representation learning by exploring video continuity | |
CN113177470A (zh) | 行人轨迹预测方法、装置、设备及存储介质 | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及系统 | |
CN110807369B (zh) | 基于深度学习和注意力机制的短视频内容智能分类方法 | |
CN111914938A (zh) | 一种基于全卷积二分支网络的图像属性分类识别方法 | |
CN114333062B (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
CN113806564B (zh) | 多模态信息性推文检测方法及系统 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
CN112784902B (zh) | 一种模态有缺失数据的图像分类方法 | |
CN108597172A (zh) | 一种森林火灾识别方法、装置、电子设备及存储介质 | |
CN115082840B (zh) | 基于数据组合和通道相关性的动作视频分类方法和装置 | |
Huang et al. | Edge device-based real-time implementation of CycleGAN for the colorization of infrared video | |
CN110826397A (zh) | 一种基于高阶低秩多模态注意力机制的视频描述方法 | |
CN117011741A (zh) | 视频检测模型的训练方法、装置、设备及存储介质 | |
CN114663802A (zh) | 基于特征时空约束的监控视频跨模态视频迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |