CN107729821A - 一种基于一维序列学习的视频概括方法 - Google Patents

一种基于一维序列学习的视频概括方法 Download PDF

Info

Publication number
CN107729821A
CN107729821A CN201710888621.1A CN201710888621A CN107729821A CN 107729821 A CN107729821 A CN 107729821A CN 201710888621 A CN201710888621 A CN 201710888621A CN 107729821 A CN107729821 A CN 107729821A
Authority
CN
China
Prior art keywords
video
frame
mrow
mtr
mtd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710888621.1A
Other languages
English (en)
Other versions
CN107729821B (zh
Inventor
黄思羽
李玺
张仲非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710888621.1A priority Critical patent/CN107729821B/zh
Publication of CN107729821A publication Critical patent/CN107729821A/zh
Application granted granted Critical
Publication of CN107729821B publication Critical patent/CN107729821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。具体包括如下步骤:获取用于训练视频概括模型的视频数据集,并定义算法目标;对视频数据集中的时空语义结构进行序列特征建模;基于视频序列特征建立逐帧分数预测模型;使用所述预测模型预测输入视频中的关键片段。本发明适用于真实视频场景中的视频概括,面对各类复杂情况具有较佳的效果和鲁棒性。

Description

一种基于一维序列学习的视频概括方法
技术领域
本发明属于计算机视觉领域,特别地涉及一种基于一维序列学习的视频概括方法。
背景技术
21世纪初以来,随着视频数据的海量增长,自动视频分析技术得到广泛的关注和研究。视频概括是其中一项重要和具有挑战性的任务,其目标是用视频中的片段准确概括视频中的重要内容。视频概括算法需要从人类标注的视频摘要里发掘其中潜藏的概括标准,其挑战性在于如何建模复杂和多层次的时间维度的语义结构。
现有的视频摘要方法可以分为以下两类:1、基于手工设定的视频概括标准。这类方法手工设定各类视频概括标准,例如代表性、多样性和重要性,并用它们的组合来模拟真实的视频概括标准;2、直接从标注数据中学习视频概括标准。这类方法先对视频建模其时空语义结构的特征表达,并基于这些特征表达直接从人类标注的数据中学习视频概括标准。现有的方法直接对视频的时间和空间语义进行联合建模,模型的时间和空间复杂度较高。一方面,模型需要学习的参数很多,导致模型可能不稳定;另一方面,模型的运行时间较长。
发明内容
为解决上述问题,本发明的目的在于提供一种基于一维序列学习的视频概括方法,用于概括给定视频的主要内容并输出其中的关键视频片段。本方法采用分治的策略,利用三种不同的深度神经网络分别建模多层次的空间和时间语义结构,并将这些神经网络融合在一个端到端的学习框架里。本方法拥有更低的时间和空间复杂度,对真实未加工视频中的复杂情况有更稳定的性能。
为实现上述目的,本发明的技术方案为:
一种基于一维序列学习的视频概括方法,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
进一步的,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。
进一步的,步骤S2具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
S22、将S21中得到的视频空间语义特征v作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射
进一步的,步骤S3中具体包括:
S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;
S32、对S31中的输出进行升采样得到使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射
S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
S34、神经网络x→y使用欧几里得损失函数,表示为
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
进一步的,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:
S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;
S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
本发明的基于一维序列学习的视频概括方法,相比于现有的视频概括方法,具有以下有益效果:
首先,本发明从时间序列建模的角度解决视频概括问题,引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构。
其次,本发明的视频概括方法基于三种不同的深度神经网络建立模型,不同的神经网络能够建模不同种类和层次的空间和时间语义结构。另外,时空特征表达和逐帧重要性分数预测被统一在一个端到端的框架里,提高了方法的最终效果。
本发明的基于一维序列学习的视频概括方法,在智能视频分析系统里具有良好的应用价值,能够有效提高视频概括的效率和准确度。例如,在视频类网站里,本发明的视频概括方法可以快速和准确地用视频片段概括原始视频中的重要内容,为用户快速浏览视频提供方便。
附图说明
图1为本发明的基于一维序列学习的视频概括方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
参考图1,在本发明的较佳实施例中,基于一维序列学习的视频概括方法,包括以下步骤:
首先,获取用于训练视频概括模型的视频数据集。其中,用于训练人群数量预测模型的监控图像数据集,包括视频Xtrain,人工标注的逐帧重要性分数Ytrain
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,T是视频帧的数量。
其次,对视频数据集中的样本视频的时空语义结构进行序列特征建模。具体的,其包括如下步骤:
第一步,将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络(2D CNN),提取每帧的空间语义特征v={v1,v2,...,vT};此神经网络表示为映射
第二步,将得到的视频空间语义特征v作为序列输入长短期记忆神经网络(LSTM),进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT};此神经网络表示为映射
之后,基于视频序列特征建立逐帧分数预测模型。具体包括:
第一步,建立一维全卷积神经网络(FCN),将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;
第二步,对S31中的输出进行升采样得到使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射
第三步,以串联形式拼接步骤S21、S22、S31、S32步骤所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
第四步,神经网络x→y使用欧几里得损失函数,表示为
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
最后,使用所述预测模型预测输入视频中的关键片段。具体包括:
第一步,根据帧间光流的绝对值,将视频分割为不重叠的片段;
第二步,使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
上述实施例中,本发明的视频概括方法首先将视频的时间语义结构和空间语义结构联合建模为时空特征表达。在此基础上,将原问题转化为一维序列学习问题,并基于一维全卷积神经网络建立逐帧重要性分数预测模型。最后,利用训练好的逐帧重要性分数预测模型来估计新的视频中的重要片段。
通过以上技术方案,本发明实施例基于深度学习技术发展了一种应用于未加工视频的视频概括方法算法。本发明引入一维全卷积神经网络建模视频帧序列中的复杂多层次语义上下文结构,从而进行准确的视频概括并降低算法复杂度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于一维序列学习的视频概括方法,其特征在于,包括以下步骤:
S1、获取用于训练模型的视频数据集,所述视频数据集包括多个样本视频,并定义算法目标;
S2、对视频数据集中的样本视频的时空语义结构进行序列特征建模,得到序列特征模型;
S3、通过所述序列特征模型,基于样本视频的序列特征建立逐帧分数预测模型;
S4、使用所述逐帧分数预测模型预测输入视频中的关键片段。
2.如权利要求1所述的基于一维序列学习的视频概括方法,其特征在于,步骤S1中,所述的视频数据集包括视频Xtrain以及人工标注的逐帧重要性分数Ytrain
定义算法目标为:预测视频x={x1,x2,...,xT}中的关键视频片段,即x的子集xkey∈x,x1,x2,...,xT分别表示视频的每一帧,T是视频帧的数量。
3.如权利要求2所述的基于一维序列学习的视频概括方法,其特征在于,步骤S2具体包括:
S21、将视频x={x1,x2,...,xT}中的每一帧图像分别输入二维深度卷积神经网络,提取每帧的空间语义特征v={v1,v2,...,vT},v1,v2,...,vT分别对应每一帧的空间语义特征;此神经网络表示为映射
S22、将S21中得到的视频空间语义特征υ作为序列输入长短期记忆神经网络,进一步建模其时序语义结构得到h={h1,h2,...,ht,...,hT},h1,h2,...,hT分别对应每一帧的时间语义特征;此神经网络表示为映射
4.如权利要求3所述的基于一维序列学习的视频概括方法,其特征在于,步骤S3中具体包括:
S31、建立一维全卷积神经网络,将S22中得到的h={h1,h2,...,ht,...,hT}作为其输入:
<mrow> <msubsup> <mover> <mi>z</mi> <mo>^</mo> </mover> <mi>i</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>:</mo> <mi>i</mi> <mo>+</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mover> <mo>=</mo> <mrow> <mi>d</mi> <mi>e</mi> <mi>f</mi> </mrow> </mover> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>h</mi> <mi>i</mi> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>+</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow>
其中W(l,f,j)和b(l,f,j)是卷积滤波器的参数连接l-1层的第j个特征图和l层的第f个特征图,φ是激活函数,Fl是l层特征图的数目,h是一维全卷积神经网络第0层的特征图z(0),第L个卷积层的输出作为一维全卷积神经网络的输出;
S32、对S31中的输出进行升采样得到使其维度与原输入视频x的帧数T一致,y={y1,y2,...,yT}表示逐帧重要性分数序列;S31和S32的神经网络统一表示为映射
S33、以串联形式拼接步骤S21、S22、S31、S32所述的神经网络,其结构可以表示为从视频x到逐帧重要性分数y的映射x→y;
S34、神经网络x→y使用欧几里得损失函数,表示为
其中y是神经网络的输出,ygt是人工标注的逐帧重要性分数,使用随机梯度下降和反向传播算法在损失函数L下训练整个神经网络。
5.如权利要求4所述的基于一维序列学习的视频概括方法,其特征在于,步骤S4中,使用所述逐帧分数预测模型预测输入视频中的关键片段具体包括:
S41、根据帧间光流的绝对值,将视频分割为不重叠的片段;
S42、使用0/1背包算法,选取拥有最大重要性分数且时间总长度小于某阈值的片段xkey∈x作为输入视频的关键片段。
CN201710888621.1A 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法 Active CN107729821B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710888621.1A CN107729821B (zh) 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710888621.1A CN107729821B (zh) 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法

Publications (2)

Publication Number Publication Date
CN107729821A true CN107729821A (zh) 2018-02-23
CN107729821B CN107729821B (zh) 2020-08-11

Family

ID=61206942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710888621.1A Active CN107729821B (zh) 2017-09-27 2017-09-27 一种基于一维序列学习的视频概括方法

Country Status (1)

Country Link
CN (1) CN107729821B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN109543643A (zh) * 2018-11-30 2019-03-29 电子科技大学 基于一维全卷积神经网络的载波信号检测方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427507A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种基于事件模型的足球视频集锦自动合成方法
CN104113789A (zh) * 2014-07-10 2014-10-22 杭州电子科技大学 一种基于深度学习的视频摘要在线生成方法
CN106971010A (zh) * 2017-05-12 2017-07-21 深圳市唯特视科技有限公司 一种适用于文本查询的视频摘要生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAZHE XU 等: "End-to-end Learning of Driving Models from Large-scale Video Datasets", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
KE ZHANG 等: "Video Summarization with Long Short-Term Memory", 《ECCV 2016》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921032A (zh) * 2018-06-04 2018-11-30 四川创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN108921032B (zh) * 2018-06-04 2022-04-29 创意信息技术股份有限公司 一种新的基于深度学习模型的视频语义提取方法
CN109543643A (zh) * 2018-11-30 2019-03-29 电子科技大学 基于一维全卷积神经网络的载波信号检测方法
CN109543643B (zh) * 2018-11-30 2022-07-01 电子科技大学 基于一维全卷积神经网络的载波信号检测方法
CN110110140A (zh) * 2019-04-19 2019-08-09 天津大学 基于注意力扩展编解码网络的视频摘要方法

Also Published As

Publication number Publication date
CN107729821B (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN113486190B (zh) 一种融合实体图像信息和实体类别信息的多模态知识表示方法
CN107330100A (zh) 基于多视图联合嵌入空间的图像‑文本双向检索方法
CN112541501B (zh) 一种基于视觉语言建模网络的场景文字识别方法
CN109902798A (zh) 深度神经网络的训练方法和装置
CN107292912A (zh) 一种基于多尺度对应结构化学习的光流估计方法
CN107292247A (zh) 一种基于残差网络的人体行为识别方法及装置
CN109359564A (zh) 一种图像场景图生成方法及装置
CN108985298B (zh) 一种基于语义一致性的人体衣物分割方法
CN107437246A (zh) 一种基于端到端全卷积神经网络的共同显著性检测方法
CN110378208A (zh) 一种基于深度残差网络的行为识别方法
WO2020177214A1 (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN104240256A (zh) 一种基于层次化稀疏建模的图像显著性检测方法
CN108090472A (zh) 基于多通道一致性特征的行人重识别方法及其系统
CN106815563A (zh) 一种基于人体表观结构的人群数量预测方法
CN107729821A (zh) 一种基于一维序列学习的视频概括方法
CN110047081A (zh) 胸部x光图像的实例分割方法、装置、设备及介质
CN106649663A (zh) 一种基于紧凑视频表征的视频拷贝检测方法
CN110334718A (zh) 一种基于长短期记忆的二维视频显著性检测方法
CN112329780A (zh) 一种基于深度学习的深度图像语义分割方法
CN107301376A (zh) 一种基于深度学习多层刺激的行人检测方法
CN105957124A (zh) 具有重复场景元素的自然图像颜色编辑方法及装置
CN110647632A (zh) 基于机器学习的图像与文本映射技术
CN110442618A (zh) 融合专家信息关联关系的卷积神经网络评审专家推荐方法
Ji et al. Design and development of a maintenance and virtual training system for ancient Chinese architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant