CN107729821B - 一种基于一维序列学习的视频概括方法 - Google Patents

一种基于一维序列学习的视频概括方法 Download PDF

Info

Publication number
CN107729821B
CN107729821B CN201710888621.1A CN201710888621A CN107729821B CN 107729821 B CN107729821 B CN 107729821B CN 201710888621 A CN201710888621 A CN 201710888621A CN 107729821 B CN107729821 B CN 107729821B
Authority
CN
China
Prior art keywords
video
frame
neural network
sequence
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710888621.1A
Other languages
English (en)
Other versions
CN107729821A (zh
Inventor
黄思羽
李玺
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710888621.1A priority Critical patent/CN107729821B/zh
Publication of CN107729821A publication Critical patent/CN107729821A/zh
Application granted granted Critical
Publication of CN107729821B publication Critical patent/CN107729821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤:获取用于训练视频概括模型的视频数据集,并定义算法目标;对视频数据集中的时空语义结构进行序列特征建模;基于视频序列特征建立逐帧分数预测模型;使用所述预测模型预测输入视频中的关键片段。本发明适用于真实视频场景中的视频概括,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于一维序列学习的视频概括方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于一维序列学习的视频概括方法。
背景技术
21世纪初以来,随着视频数据的海量增长,自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务,其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准,其挑战性在于如何建模复杂和多层次的时间维度的语义结构。
现有的视频摘要方法可以分为以下两类:1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准,例如代表性、多样性和重要性,并用它们的组合来模拟真实的视频概括标准;2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达,并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模,模型的时间和空间复杂度较高。一方面,模型需要学习的参数很多,导致模型可能不稳定;另一方面,模型的运行时间较长。
发明内容
为解决上述问题,本发明的目的在于提供一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略,利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构,并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度,对真实未加工视频中的复杂情况有更稳定的性能。
为实现上述目的,本发明的技术方案为:
一种基于一维序列学习的视频概括方法,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
进一步的,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。
进一步的,步骤S2具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
Figure BDA0001420591690000021
S22、将S21中得到的视频空间语义特征v作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射
Figure BDA0001420591690000022
进一步的,步骤S3中具体包括:
S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
Figure BDA0001420591690000023
Figure BDA0001420591690000031
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出
Figure BDA0001420591690000032
作为一维全卷积神经网络的输出;
S32、对S31中的输出
Figure BDA0001420591690000036
进行升采样得到
Figure BDA0001420591690000033
使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射
Figure BDA0001420591690000034
S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
S34、神经网络x→y使用欧几里得损失函数,表示为
Figure BDA0001420591690000035
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
进一步的,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:
S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;
S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
本发明的基于一维序列学习的视频概括方法,相比于现有的视频概括方法,具有以下有益效果:
首先,本发明从时间序列建模的角度解决视频概括问题,引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构。
其次,本发明的视频概括方法基于三种不同的深度神经网络建立模型,不同的神经网络能够建模不同种类和层次的空间和时间语义结构。另外,时空特征表达和逐帧重要性分数预测被统一在一个端到端的框架里,提高了方法的最终效果。
本发明的基于一维序列学习的视频概括方法,在智能视频分析系统里具有良好的应用价值,能够有效提高视频概括的效率和准确度。例如,在视频类网站里,本发明的视频概括方法可以快速和准确地用视频片段概括原始视频中的重要内容,为用户快速浏览视频提供方便。
附图说明
图1为本发明的基于一维序列学习的视频概括方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,基于一维序列学习的视频概括方法,包括以下步骤:
首先,获取用于训练视频概括模型的视频数据集。其中,用于训练人群数量预测模型的监控图像数据集,包括视频Xtrain,人工标注的逐帧重要性分数Ytrain
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,T是视频帧的数量。
其次,对视频数据集中的样本视频的时空语义结构进行序列特征建模。具体的,其包括如下步骤:
第一步,将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络(2D CNN),提取每帧的空间语义特征v={v1,v2,...,vT};此神经网络表示为映射
Figure BDA0001420591690000051
第二步,将得到的视频空间语义特征v作为序列输入长短期记忆神经网络(LSTM),进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT};此神经网络表示为映射
Figure BDA0001420591690000052
之后,基于视频序列特征建立逐帧分数预测模型。具体包括:
第一步,建立一维全卷积神经网络(FCN),将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
Figure BDA0001420591690000053
Figure BDA0001420591690000054
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出
Figure BDA0001420591690000059
作为一维全卷积神经网络的输出;
第二步,对S31中的输出
Figure BDA0001420591690000055
进行升采样得到
Figure BDA0001420591690000056
使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射
Figure BDA0001420591690000057
第三步,以串联形式拼接步骤S21、S22、S31、S32步骤所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
第四步,神经网络x→y使用欧几里得损失函数,表示为
Figure BDA0001420591690000058
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
最后,使用所述预测模型预测输入视频中的关键片段。具体包括:
第一步,根据帧间光流的绝对值,将视频分割为不重叠的片段;
第二步,使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
上述实施例中,本发明的视频概括方法首先将视频的时间语义结构和空间语义结构联合建模为时空特征表达。在此基础上,将原问题转化为一维序列学习问题,并基于一维全卷积神经网络建立逐帧重要性分数预测模型。最后,利用训练好的逐帧重要性分数预测模型来估计新的视频中的重要片段。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种应用于未加工视频的视频概括方法算法。本发明引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构,从而进行准确的视频概括并降低算法复杂度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于一维序列学习的视频概括方法,其特征在于,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain,并定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型,具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征υ={υ1,υ2,…,υT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
Figure FDA0002395893220000011
S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射
Figure FDA0002395893220000012
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
2.如权利要求1所述的基于一维序列学习的视频概括方法,其特征在于,步骤S3中具体包括:
S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
Figure FDA0002395893220000021
Figure FDA0002395893220000022
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出
Figure FDA0002395893220000023
作为一维全卷积神经网络的输出;
S32、对S31中的输出
Figure FDA0002395893220000024
进行升采样得到
Figure FDA0002395893220000025
使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射
Figure FDA0002395893220000026
S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
S34、神经网络x→y使用欧几里得损失函数,表示为
Figure FDA0002395893220000027
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
3.如权利要求2所述的基于一维序列学习的视频概括方法,其特征在于,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:
S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;
S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
CN201710888621.1A 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法 Active CN107729821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710888621.1A CN107729821B (zh) 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710888621.1A CN107729821B (zh) 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法

Publications (2)

Publication Number Publication Date
CN107729821A CN107729821A (zh) 2018-02-23
CN107729821B true CN107729821B (zh) 2020-08-11

Family

ID=61206942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710888621.1A Active CN107729821B (zh) 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法

Country Status (1)

Country Link
CN (1) CN107729821B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921032B (zh) * 2018-06-04 2022-04-29 创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN109543643B (zh) * 2018-11-30 2022-07-01 电子科技大学 基于一维全卷积神经网络的载波信号检测方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
End-to-end Learning of Driving Models from Large-scale Video Datasets;Huazhe Xu 等;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20170909;第2530-2538页 *
Video Summarization with Long Short-Term Memory;Ke Zhang 等;《ECCV 2016》;20161231;第766-782页 *

Also Published As

Publication number Publication date
CN107729821A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN110929622B (zh) 视频分类方法、模型训练方法、装置、设备及存储介质
WO2021143264A1 (zh) 图像处理方法、装置、服务器和存储介质
CN107729821B (zh) 一种基于一维序列学习的视频概括方法
US11495055B1 (en) Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network
CN111079507B (zh) 一种行为识别方法及装置、计算机装置及可读存储介质
WO2021184754A1 (zh) 视频对比方法、装置、计算机设备和存储介质
CN113239825B (zh) 一种复杂场景下高精度烟草甲虫检测方法
CN110782448A (zh) 渲染图像的评价方法及装置
CN112597824A (zh) 行为识别方法、装置、电子设备和存储介质
WO2023036157A1 (en) Self-supervised spatiotemporal representation learning by exploring video continuity
CN113177470A (zh) 行人轨迹预测方法、装置、设备及存储介质
CN113850135A (zh) 一种基于时间移位框架的动态手势识别方法及系统
CN110807369B (zh) 基于深度学习和注意力机制的短视频内容智能分类方法
CN111914938A (zh) 一种基于全卷积二分支网络的图像属性分类识别方法
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN113806564B (zh) 多模态信息性推文检测方法及系统
CN113657272B (zh) 一种基于缺失数据补全的微视频分类方法及系统
CN112784902B (zh) 一种模态有缺失数据的图像分类方法
CN108597172A (zh) 一种森林火灾识别方法、装置、电子设备及存储介质
CN115082840B (zh) 基于数据组合和通道相关性的动作视频分类方法和装置
Huang et al. Edge device-based real-time implementation of CycleGAN for the colorization of infrared video
CN110826397A (zh) 一种基于高阶低秩多模态注意力机制的视频描述方法
CN117011741A (zh) 视频检测模型的训练方法、装置、设备及存储介质
CN114663802A (zh) 基于特征时空约束的监控视频跨模态视频迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant