CN106844573A - 基于流形排序的视频摘要方法 - Google Patents

基于流形排序的视频摘要方法 Download PDF

Info

Publication number
CN106844573A
CN106844573A CN201710007317.1A CN201710007317A CN106844573A CN 106844573 A CN106844573 A CN 106844573A CN 201710007317 A CN201710007317 A CN 201710007317A CN 106844573 A CN106844573 A CN 106844573A
Authority
CN
China
Prior art keywords
video
point
frame
ranking
manifold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710007317.1A
Other languages
English (en)
Other versions
CN106844573B (zh
Inventor
冀中
马亚茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201710007317.1A priority Critical patent/CN106844573B/zh
Publication of CN106844573A publication Critical patent/CN106844573A/zh
Application granted granted Critical
Publication of CN106844573B publication Critical patent/CN106844573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明涉及视频处理、分类,为利用数据之间的内在流形结构,从数据的全局特征计算数据之间的相似性,构造基于流形排序算法的视频摘要。本发明采用的技术方案是,基于流形排序的视频摘要方法,首先提取视频帧的视觉特征,并把视频帧看作空间中的点,然后利用流形排序算法对数据点进行排序;流形排序描述为以下过程:首先根据数据构造一个带权重的网络,将一个正的排序分数分配给与查询相关的点,将零排序分数分配给剩下的待排序的点;然后,所有的点通过权重网络将他们的分数传递给与他们邻近的点,重复这一传播过程直到整个网络达到稳定状态,此时所有的点均获得他们最后的排序分数。本发明主要应用于视频处理、分类场合。

Description

基于流形排序的视频摘要方法
技术领域
本发明涉及视频处理、分类,具体讲,涉及基于流形排序的视频摘要方法。
背景技术
随着信息技术的快速发展,图像和视频等多媒体数据大量涌现,成为人们获取信息的重要途径之一。然而,由于视频数量的剧增,降低了用户浏览的效率,这就需要一种技术能够有效地管理视频数据,使用户更加有效地获取他们想要的信息。视频摘要定义为一组静止的或运动图片序列,它以一种简洁的方式将视频的主要内容呈现出来。
目前视频摘要技术主要从视频的冗余性,重要性和覆盖率三个方面考虑。冗余性指视频中存在多余的信息,在提取视频摘要时需要设计去除视频冗余信息的方法。重要性指提取视频摘要时需要提取视频的主要内容。覆盖性指设计视频摘要方法时要考虑提取的关键帧能够代表视频的主要内容,使视频摘要尽可能地覆盖视频的重要内容。
视频摘要技术主要有两种模式:基于关键帧的静态视频摘要和基于视频梗概的动态视频摘要。静态视频摘要模式通过一系列的关键帧组成相应的语义单元,概括表示镜头的内容。静态视频摘要生成摘要的速度比较快,表达形式直观简洁。动态视频摘要模式则是由小视频片段组成,保持了视频内容随时间变化的固有特征,易于用户的理解。
目前常用的视频摘要技术主要有基于聚类的方法,帧间最小相似度的方法,最小重构误差的方法以及基于对象或事件检测的方法。其中,基于聚类的视频摘要把视频中的帧看作是特征空间中的点,把每类中距离聚类中心点最近的点看作关键帧,形成静态视频摘要。由于聚类方法在数据分析领域大量使用,研究较为成熟,因此成为了一种常用的视频摘要方法。此外,聚类方法能够满足提取视频的全局特征,满足了视频摘要的覆盖率标准。但是,这种全局聚类不易对视频内容的重要性做出判断,较难满足重要性标准。另外,由于语义鸿沟的存在,要准确地实现有意义的聚类也较为困难。帧间最小相似度的方法目的是使关键帧之间的相似度最小,例如序列决定点过程(sequential determinal pointprocess,seqDPP)相似度方法是其中的一个代表性方法。它可以用来生成低冗余度的视频摘要。最小重构误差的方法目的是使原始视频帧与关键帧插值得到的重构误差最小。基于对象或事件检测的方法使用视频中的语义信息来生成摘要,常用的信息有对象、动作、事件等。例如,对于体育视频,可以检测进球,犯规等重要事件,进行排序,组成摘要。
以上方法仅从视频摘要的某一个标准出发(如冗余性标准或重要性标准),而未综合考虑三个标准,使得视频摘要的效果并未达到理想效果。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于流形排序的视频摘要方法。由于传统的视频摘要方法主要利用欧式距离计算帧之间的相似性,忽略了视频的帧间数据的内在低维流形结构。本发明利用数据之间的内在流形结构,从数据的全局特征计算数据之间的相似性,对于现实世界的许多数据来讲,这种方法明显优于基于数据的局部欧氏距离的相似性计算方法,并同时结合视频的重要性、覆盖率以及冗余性三个标准,构造基于流形排序算法的视频摘要。本发明采用的技术方案是,基于流形排序的视频摘要方法,首先提取视频帧的视觉特征,并把视频帧看作空间中的点,然后利用流形排序算法对数据点进行排序;流形排序描述为以下过程:首先根据数据构造一个带权重的网络,将一个正的排序分数分配给与查询相关的点,将零排序分数分配给剩下的待排序的点;然后,所有的点通过权重网络将他们的分数传递给与他们邻近的点,重复这一传播过程直到整个网络达到稳定状态,此时所有的点均获得他们最后的排序分数。
流形排序的具体过程如下:
给定数据点集X={x1,x2,...,xn},xi∈Rm,假定x1作为查询帧,则其余的帧为待排序的帧,f:X→R表示排序函数,它分配每一个点xi相应的排序值,1≤i≤n,f=[f1,f2,...fn]T,此外,定义每一个数据点的初始排序分数y=[y1,y2,...,yn]T,若第j帧为查询帧则yj=1,否则yj=0,1≤j≤n,流形排序的代价函数如下:
式中,第一项是邻近点变化成本,是平滑性条件,第二项是初始分数分配变化成本,两者之间用参数μ来平衡之间的关系,其中,Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j,D是对角矩阵,且D中的元素通过排序算法得到近似解为:f*=β(1-αS)-1y,其中α+β=1,S=D-1/2WD-1/2
其次计算视频帧的重要性,首先根据每一帧与其余各帧之间的相似性权重Wij,计算其与视频的平均相似向量I,并将其归一化,具体计算过程如下:
最后,计算视频的覆盖率,具体计算公式如下:
其中,Cov(S,V)表示摘要集S与原视频集V的相似性,d(xi,g)表示两者之间的欧式距离。
本发明的特点及有益效果是:
本发明主要是针对现有的视频摘要技术采用的方法主要是在欧式空间计算视频帧之间的关系并没有考虑视频数据特征之间内在的低维流形结构这一特点,设计适用于视频数据特点的视频摘要方法,使之在有限的数据信息下,充分地利用数据的特有性质。其优势主要体现在:
(1)新颖性:首次把流形排序算法引入到视频摘要技术中,并在此基础上消除视频的冗余信息,不仅考虑视频的冗余性,而且同时考虑了视频帧的重要性和摘要集的覆盖率等标准,设计了适用于视频数据特征的摘要方法。
(2)有效性:通过主观和客观实验证明了,与目前的某些视频摘要方法相比较,本发明设计的基于流形排序的视频摘要方法性能相对有所提高,因此更适用于视频摘要问题中。
(3)实用性:简单可行,可以用在多媒体邻域中的视频信息管理、视频预览,视频推荐等相关的领域。
附图说明:
图1是本发明的基于流形排序算法的视频摘要技术的流程图。
具体实施方式
本发明涉及一种面向多媒体信息检索领域的视频摘要技术,它针对多媒体视频数据的冗余性等特点,利用视频数据的性质,对现有的视频摘要技术的不足进行了改进,设计适用于视频数据特点的基于流形排序的视频摘要技术,提高了用户浏览视频的效率。
本发明所提供的方法在分析单视频摘要技术存在的缺陷的基础上,引入流形排序算法来计算视频帧之间的相关性,并同时考虑视频摘要中的冗余性、重要性和覆盖率三个标准,设计了适用于视频数据结构的视频摘要技术。下面将从三个方面阐述该技术方案。
为了去除视频数据之间的冗余性,首先提出了视频帧之间的相关性测量。流形排序算法是常用的排序算法,它根据数据内在的流形结构对数据进行排序。在流形排序算法中一般认为1)邻近的点更可能具有相同的排序分数;2)点在同一结构中(一般指的是一个类别或一个流形)更可能有相同的排序分数。基于此,流形排序可以简单地描述为以下过程:首先根据数据构造一个带权重的网络图,将一个正的排序分数分配给与查询相关的点,将零排序分数分配给剩下的待排序的点。然后,所有的点通过权重网络将他们的分数传递给与他们邻近的点,重复这一传播过程直到整个网络达到稳定状态,此时所有的点均获得他们最后的排序分数。本发明首先提取视频帧的视觉特征,并把视频帧看作空间中的点,然后利用流形排序算法对数据点进行排序。流形排序的具体过程如下:
给定数据点集X={x1,x2,...,xn},xi∈Rm,假定x1作为查询帧,则其余的帧为待排序的帧。f:X→R表示排序函数,它分配每一个点xi(1≤i≤n)相应的排序值,f=[f1,f2,...fn]T。此外,本发明还定义了每一个数据点的初始排序分数y=[y1,y2,...,yn]T,若第j帧为查询帧则yj=1,否则yj=0,(1≤j≤n)。流形排序的代价函数如下:
式中,第一项是邻近点变化成本,是平滑性条件。第二项是初始分数分配变化成本,两者之间用参数μ来平衡之间的关系。其中,Wij表示在权重网络图中第i个点和第j个点之间的权重系数,且Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j,D是对角矩阵,且通过排序算法可得到近似解为:f*=β(1-αS)-1y,其中α+β=1,S=D-1/2WD-1/2,W是带权重图的权重矩阵。
其次计算视频帧的重要性。观察可以发现,一个视频中重复出现的帧,一般认为是视频中的重要内容。基于此,计算视频的每帧的重要性。首先根据每一帧与其余各帧之间的相似性权重Wij,计算其与视频的平均相似向量I,并将其归一化。具体计算过程如下:
最后,计算视频的覆盖率。本发明中通过计算视频摘要集与原视频集之间的相似性,来衡量视频摘要的覆盖率,一般认为两者之间相似性越大,说明视频摘要的覆盖率越大。具体计算公式如下:
其中,Cov(S,V)表示摘要集S与原视频集V的相似性,d(xi,g)表示两者之间的欧式距离。
该方案在满足冗余性、重要性两个标准下尽可能最大化摘要集和原视频集之间的相似性,即最大化覆盖率,从而生成视频摘要。
下面结合附图和实例进一步详细说明本发明。
图1描述了所提出的基于流形排序算法的视频摘要流程图,假设视频帧集合为X={x1,x2,...,xn},xi∈Rm表示视频帧的视觉特征信息。S表示摘要集,C表示候选摘要集,V表示视频集,且S∪C=V。
1)初始化摘要集,根据公式(4)选取视频摘要集的第一帧,则原视频中剩余的帧作为该视频的候选摘要集C。
2)并将该帧作为流形排序的查询帧,C集中的帧作为待排序的帧,利用流形排序的方法获取C中与该帧相关性较强的帧,并删除相关性大于一定阈值的帧,剩余的帧构成C1集合。
3)根据视频帧的重要性度量公式(2)获得每一帧的重要性.利用公式(3)计算摘要集的覆盖率Cov(S,V),结合视频帧的重要性I和覆盖率Cov(S,V)在C1中选取下一个帧构成摘要集,具体如下:
其中ρ∈(0,1)是平衡前后两项的权重系数。
4)将上一步选取的关键帧作为下一个查询帧,候选摘要集变为C=V\S,迭代2、3步直到C1的元素少于一定的阈值(比如阈值设定为10),此时完成视频的关键帧的提取。

Claims (2)

1.一种基于流形排序的视频摘要方法,其特征是,首先提取视频帧的视觉特征,并把视频帧看作空间中的点,然后利用流形排序算法对数据点进行排序;流形排序描述为以下过程:首先根据数据构造一个带权重的网络,将一个正的排序分数分配给与查询相关的点,将零排序分数分配给剩下的待排序的点;然后,所有的点通过权重网络将他们的分数传递给与他们邻近的点,重复这一传播过程直到整个网络达到稳定状态,此时所有的点均获得他们最后的排序分数。
2.如权利要求1所述的基于流形排序的视频摘要方法,其特征是,流形排序的具体过程如下:
给定数据点集X={x1,x2,...,xn},xi∈Rm,假定x1作为查询帧,则其余的帧为待排序的帧,f:X→R表示排序函数,它分配每一个点xi相应的排序值,1≤i≤n,f=[f1,f2,...fn]T,此外,定义每一个数据点的初始排序分数y=[y1,y2,...,yn]T,若第j帧为查询帧则yj=1,否则yj=0,1≤j≤n,流形排序的代价函数如下:
J = 1 / 2 ( Σ i , j = 1 n W i j | | 1 D i i f i - 1 D j j f j | | 2 + μ Σ i = 1 n | | f i - y i | | 2 ) - - - ( 1 )
式中,第一项是邻近点变化成本,是平滑性条件,第二项是初始分数分配变化成本,两者之间用参数μ来平衡之间的关系,其中,Wij=exp(-||xi-xj||2/(2σ2)),i≠j;Wij=0,i=j,D是对角矩阵,且D中的元素通过排序算法得到近似解为:f*=β(1-αS)-1y,其中
其次计算视频帧的重要性,首先根据每一帧与其余各帧之间的相似性权重Wij,计算其与视频的平均相似向量I,并将其归一化,具体计算过程如下:
I ( i ) = 1 / n ( Σ j = 1 n W i j ) , i = 1 , 2 , ... , n - - - ( 2 )
最后,计算视频的覆盖率,具体计算公式如下:
C o v ( S , V ) = 1 - 1 n Σ i = 1 n min x i ∈ V , g ∈ S d ( x i , g ) - - - ( 3 )
其中,Cov(S,V)表示摘要集S与原视频集V的相似性,d(xi,g)表示两者之间的欧式距离。
CN201710007317.1A 2017-01-05 2017-01-05 基于流形排序的视频摘要获取方法 Active CN106844573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710007317.1A CN106844573B (zh) 2017-01-05 2017-01-05 基于流形排序的视频摘要获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710007317.1A CN106844573B (zh) 2017-01-05 2017-01-05 基于流形排序的视频摘要获取方法

Publications (2)

Publication Number Publication Date
CN106844573A true CN106844573A (zh) 2017-06-13
CN106844573B CN106844573B (zh) 2020-02-14

Family

ID=59118561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710007317.1A Active CN106844573B (zh) 2017-01-05 2017-01-05 基于流形排序的视频摘要获取方法

Country Status (1)

Country Link
CN (1) CN106844573B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437083A (zh) * 2017-08-16 2017-12-05 上海荷福人工智能科技(集团)有限公司 一种自适应池化的视频行为识别方法
CN112580563A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 视频摘要的生成方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750712A (zh) * 2012-06-07 2012-10-24 中山大学 一种基于局部时空流形学习的运动目标分割方法
CN106127785A (zh) * 2016-06-30 2016-11-16 重庆大学 基于流形排序和随机游走的图像显著性检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750712A (zh) * 2012-06-07 2012-10-24 中山大学 一种基于局部时空流形学习的运动目标分割方法
CN106127785A (zh) * 2016-06-30 2016-11-16 重庆大学 基于流形排序和随机游走的图像显著性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JINHUI TANG,ET AL.: "Structure-sensitive manifold ranking for video concept detection", 《PROCEEDING MM’07 OF THE 15TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
刘利,等.: "基于流形学习的图像检索研究进展", 《北京交通大学学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437083A (zh) * 2017-08-16 2017-12-05 上海荷福人工智能科技(集团)有限公司 一种自适应池化的视频行为识别方法
CN107437083B (zh) * 2017-08-16 2020-09-22 广西荷福智能科技有限公司 一种自适应池化的视频行为识别方法
CN112580563A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 视频摘要的生成方法、装置、电子设备和存储介质
CN112580563B (zh) * 2020-12-25 2024-02-06 北京百度网讯科技有限公司 视频摘要的生成方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106844573B (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
US10140575B2 (en) Sports formation retrieval
Wang et al. Event driven web video summarization by tag localization and key-shot identification
Ma et al. Who, where, and what to wear? extracting fashion knowledge from social media
CN103559206B (zh) 一种信息推荐方法及系统
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
CN108898145A (zh) 一种结合深度学习的图像显著目标检测方法
Jiang et al. Context-based concept fusion with boosted conditional random fields
Dang et al. Heterogeneity image patch index and its application to consumer video summarization
Han et al. Personalized video summarization with human in the loop
CN102799637A (zh) 一种电视节目内部自动生成主要人物摘要的方法
CN108920577A (zh) 电视智能推荐方法
CN101668176A (zh) 一种基于人际社交图的多媒体内容点播与分享方法
CN104252616B (zh) 人脸标注方法、装置及设备
CN107943990A (zh) 基于带权重的原型分析技术的多视频摘要方法
CN105046720B (zh) 基于人体运动捕捉数据字符串表示的行为分割方法
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
Xu et al. Graph-based topic-focused retrieval in distributed camera network
Chen et al. Name-face association in web videos: A large-scale dataset, baselines, and open issues
CN110351580A (zh) 基于非负矩阵分解的电视节目专题推荐方法及系统
CN106844573A (zh) 基于流形排序的视频摘要方法
CN106993240A (zh) 基于稀疏编码的多视频摘要方法
Wang et al. Deep learning for scene-independent crowd analysis
Mansourian et al. Multi-task learning for joint re-identification, team affiliation, and role classification for sports visual tracking
Chen [Retracted] Semantic Analysis of Multimodal Sports Video Based on the Support Vector Machine and Mobile Edge Computing
CN110738099A (zh) 一种基于自适应双分支网络的低分辨率行人再识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant