CN102184242B - 跨摄像头视频摘要提取方法 - Google Patents

跨摄像头视频摘要提取方法 Download PDF

Info

Publication number
CN102184242B
CN102184242B CN 201110126198 CN201110126198A CN102184242B CN 102184242 B CN102184242 B CN 102184242B CN 201110126198 CN201110126198 CN 201110126198 CN 201110126198 A CN201110126198 A CN 201110126198A CN 102184242 B CN102184242 B CN 102184242B
Authority
CN
China
Prior art keywords
video
camera lens
camera
network
lens
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110126198
Other languages
English (en)
Other versions
CN102184242A (zh
Inventor
刘安安
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN 201110126198 priority Critical patent/CN102184242B/zh
Publication of CN102184242A publication Critical patent/CN102184242A/zh
Application granted granted Critical
Publication of CN102184242B publication Critical patent/CN102184242B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及视频处理、内容分析和检索。为用户提供一个精简但内容完整的视频提纲,本发明采取的技术方案是,跨摄像头视频摘要提取方法,包括下列步骤:(1)预处理:视频镜头分割、关键帧提取及显著性表示;(2)跨摄像头视频镜头网络构建和分析;(3)基于用户需求的跨摄像头视频摘要生成;本发明主要应用于视频处理、内容分析和检索。

Description

跨摄像头视频摘要提取方法
技术领域
本发明涉及视频处理、内容分析和检索,具体讲涉及跨摄像头视频摘要提取方法。
背景技术
视频摘要技术可以有效去除不包含显著视频语义事件的视频片段并压缩用户感兴趣的视频片段,从而将长时的视频数据的主要内容用精简的视频片段进行表征,对于实现快速视频浏览、检索和降低存储需求具有重要意义。现有的视频摘要技术多是针对单目摄像头采集的视频内容进行自动分析。但是当面对带有重叠区域的多摄像头采集的海量视频时,仅仅将现有技术应用于各个独立摄像头采集视频进行视频摘要时忽略了各摄像头采集视频内容的时间和空间的关联特性以及内容的重复性,因此现有方法并不能有效去除多摄像头冗余视频内容。
发明内容
为克服现有技术的不足,并为用户提供一个精简但内容完整的视频提纲,本发明采取的技术方案是,跨摄像头视频摘要提取方法,包括下列步骤:
(1)预处理:视频镜头分割、关键帧提取及显著性表示:
利用图像的视觉特征和无监督聚类方法将各摄像头采集的视频分别进行镜头分割和关键帧提取;通过背景建模和运动区域提取衡量各镜头的运动强度,保留运动强度足够明显的镜头作为视频摘要的候选;提取视频关键帧的颜色、纹理和形状特征并构建数学模型来计算候选镜头各独立特征的重要性,最后采用线性方式融合多特征重要性,从而形成视频镜头显著性表示;
(2)跨摄像头视频镜头网络构建和分析:
以跨摄像头视频镜头网络来表征所提取的各视频的候选镜头的时间和空间的关联,其中,每个节点Sij及视频片段表示第i个摄像头采集的视频中的第j个镜头,各节点数值表示镜头显著性,节点间的连线表示二者相关联,并且关联强度由两镜头的相似性度量,在上述视频镜头分割及显著性表示的基础上,得到所需构建网络的各节点及其重要性,跨摄像头视频镜头网络构建和分析的核心问题转化为相似镜头集团的发现,由如下两步骤实现:
1)节点间关联强度的计算:计算并融合镜头间的两类相似性从而度量两个镜头的相似性:a.时序关联性:不同视频中时序相近的镜头更可能包含视觉相近的视频内容,因而相似性越高;b.视觉相似性:具有相近低层视觉描述的镜头相似度越高;
2)跨摄像头视频镜头网络解耦:采用自顶向下的网络集团分析法进行跨摄像头视频镜头网络分解;
(3)基于用户需求的跨摄像头视频摘要生成:
视频摘要提取方法为:对于包含n个镜头的镜头集团Cs,最终生成的视频摘要是否包含某个镜头由标记向量x={x1,...,xi...,xn}表示,其中xi为1时表示该镜头被保留,xi为0时表示该镜头被去除,定义上述多目标优化问题目标函数为:
x * = arg max x { - α 1 · n ( f 1 ( x ) ) + α 2 · n ( f 2 ( x ) ) }
s . t . f ( x ) ≤ F max s ( x ) ≥ S min
其中:
Figure BDA00000613423600023
表示摘要总长,Fi表示镜头i对应帧数;
Figure BDA00000613423600024
表示视频内容显著度,Si表示镜头i显著性;Fmax和Smin分别表示视频摘要生成时限定的最大长度和最小显著性;n(·)表示归一化操作,本发明不失一般性的采用向量线性归一化;系数αi用于满足不同需求的动态摘要生成,由用户自由指定,上述多目标优化问题为典型的整数规划问题,采用整数规划算法求解。
本发明具有以下技术效果:
本发明可以有效去除跨摄像头所采集的带有重叠区域的视频中不包含显著视频语义事件的视频片段,并压缩用户感兴趣的潜在视频片段,从而将长时的视频数据的主要内容用精简而完备的视频摘要进行表征,对于实现快速视频浏览、检索和降低存储需求具有重要意义。
附图说明
图1时空关联的多视角视频镜头网络。
图2基于自顶向下网络集团发现的跨摄像头视频镜头网络解耦。
具体实施方式
充分利用具有重叠覆盖区域的多摄像头视频内容,通过各视角监控视频内容的关联最大程度的去除冗余视频内容。拟提出的多视角视频摘要方法包括如下三个关键问题:
(1)预处理:视频镜头分割、关键帧提取及重要性表示:
视频摘要技术处理的基础对象是视频镜头,因此需要将无结构的视频数据分割成不同镜头,并采用各镜头中最能代表给镜头视觉内容的关键帧来代表该镜头主要特征,不失一般性的,本发明采用图像的视觉特征和无监督聚类方法实现视频镜头分割和关键帧提取[1]。在此基础上,通过背景建模和运动区域提取衡量各镜头的运动强度,从而保留运动强度足够明显的镜头作为视频摘要的候选,具体可以参考文献[3]。最后,提取视频镜头各帧图像的颜色、纹理和形状等低层视觉特征,然后通过高斯模型计算各独立特征的重要性,最后通过线性方法实现多特征重要性的融合。本发明中,主要采用的颜色特征包括:颜色直方图[4];纹理特征包括:Gabor特征[5];形状特征包括:方向梯度直方图[6]。
(2)跨摄像头视频镜头网络构建分析:
跨摄像头视频摘要技术的核心是充分利用具有时空关联的视频信息实现相似视频镜头的匹配,因此如何组织和分析跨摄像头视频镜头成为该问题研究的关键。为了保持和充分利用独立视频在时间序列上的视觉内容关联性以及各视频在相近时间段的视觉内容相似性,本发明提出时空关联的跨摄像头视频镜头网络来表征上面所提取的各视频的候选镜头,如图1所示。
其中,每个节点Sij及图中的阴影视频片段表示第i个视角视频中的第j个镜头;各节点数值表示镜头重要性;节点间的连线表示二者相关联,并且关联强度由两镜头的相似性度量。在上述所介绍的镜头分割和镜头重要性评价基础上,可以得到所需构建网络的各节点及其重要性,因此多视角视频镜头网络分析的核心问题转化为相似镜头集团的发现,由如下两步骤实现:
1)节点间关联强度的计算:为了度量镜头的相似性,拟计算并融合镜头间的两类相似性从而度量两个镜头间的相似性:
a.时序关联性:该特性用来度量两个镜头在时间维上的重合度,不同视频中视频镜头的重合度越高,则镜头更可能包含视觉相近的视频内容,具体计算公式如下:
Similarity < S im , , S jn > = Min ( T im End , T jn End ) - Max ( T im Start , T jn Start ) Max ( T im End , T jn End ) - Min ( T im Start , T jn Start )
其中,
Figure BDA00000613423600032
分别表示镜头Sim和Sjn的起始帧和终止帧;Min和Max分别表示取最小值和最大值操作。注:如果相似度值小于0,则将其修正为0,表明两个镜头在时序上完全不关联。
b.视觉相似性:该特性用来度量两个镜头在视觉内容上的相似性,具有相近低层视觉描述的镜头相似度越高。为了简化镜头相似间相似性的计算,本发明中采用两个镜头各自关键帧间的相似性来代表镜头相似性,各种能够表征某种视觉特性的图像特征都可以用来计算两个关键帧的相似性,本发明中不失一般性的,采用图像的HSV空间的512维归一化灰度直方图H={h1,h2,...,hn}和128维梯度直方图E={e1,e2,...,en}来表征图像特征,并采用线性融合方式计算二者相似度,具体计算公式如下:
Similarity(Sim,Sjn)=w1SimilarityH+w2SimilarityE
Similarity H = &Sigma; t = 1 512 min ( h im , t , h jn , t )
Similarity E = &Sigma; k = 1 128 min ( e im , k , e jn , k )
其中,Similarity表示两镜头相似度计算;wi表示不同特征相似度线性融合的权重,不失一般性的,本发明中采用等权重分配;SimilarityH和SimilarityE分别表示颜色直方图和梯度直方图两个特征的相似度;him,t和hjn,t分别表示镜头Sim和Sjn的关键帧的第t维颜色直方图特征;eim,k和ejn,k分别表示镜头Sim和Sjn的关键帧的第t维梯度直方图特征。
2)跨摄像头视频镜头网络解耦:上述跨摄像头视频镜头网络构建方法往往使得该网络结构过于复杂,不利于视频摘要的提取,因此需要通过该网络连通性分析提取网络的代表性集团作为后续视频摘要生成的候选视频镜头。本发明中借鉴文献[7]的方法,采用自顶向下的网络解耦方法,先检测网络中的子团,然后再通过对K团特性的分析实现网络集团的划分。该方法由以下两步组成:
●子团的检测
定义一个网络中所有最大完全子图为子团(Clique)。由于子团不可能是其他更大的子团的子集,所以通过降序的方法指定子团的大小并在网络中搜索存在的子团。指定子团的尺寸后,将重复选择一个节点,提取所有包含该节点的符合该尺寸的子团,然后在网络中删除该节点及与其相连的边。直到网络中已无任何节点,降低子团的尺寸,重复上述操作检测改变尺度后的所有的子团。其中,对于尺度为s并且包含节点v的子团的检测通过如下方法实现:
1)首先,构建点集A,满足其中所有节点相互链接,初始A仅包含点v。其次,构建另一个点集B,满足其中每个节点与A中任意节点相连,但不一定与B中所有节点相连,初始B仅包含v的邻居。
2)选择点集B中的节点w并加入A中,将B更新为A中已有成员的公共邻居。通过递归的方法,我们将A扩大使其尺寸达到规定尺度s。
3)如果在A达到尺寸s前B已为空集,或者A与B的并集是已经提取的子团的子集,则递归停止,重新检查其他潜在的子团。如果递归过程中A的尺寸达到s,则一个新的子团被发现。保留该子团,重新检测其他潜在的子团。
●K团-集团的发现
一个复杂网络的基本组成是节点(Node),由于部分节点之间的关联远大于与网络中其他节点的关联,这些节点组成了集团(Community)。一个复杂的集团中往往仍存在大量相互重叠的子结构,我们将这些存在公共节点的全连通的基本单元称为K团(K-clique),其中K表示一个团中节点的数目。因此,我们定义K团-集团(K-clique-communiy)为:一个集团为若干K团的集合,并且满足其中所有K团可以通过邻近K团连通。
在提取了所有规定尺寸的子团基础上,可以构建子团的重叠矩阵。在这个对称矩阵中,每一行(或列)对应一个团,矩阵中对角线外每个元素表示两个子团的公共节点的个数,对角线元素表示一个子团的尺寸。对于指定的K,K团-集团等价于若干连通的子团,并且满足:临近且连通的子团的公共节点至少有k-1个。因此,去掉重叠矩阵对角线外小于k-1的元素,并去掉对角线上小于k的元素,用1替换剩下所有元素。然后,通过连通性分析,我们即获得了该网络中所有K团-集团。
该方法可以直接用于无向无权图的集团发现。但是通常的网络往往是有权图,因此可以制定阈值Th2从而将有权图转换为无权图。增大Th2往往使得集团尺寸变小。另一个重要的参数则是K团的尺寸k,增大k同样可以使得集团表小,但集团将更加紧致。为了更好的分析整个网络结构的统计特性,需要根据实验统计经验性参数,本发明参考性参数为:Th2=0.6,k=8。
网络解耦例子如图2所示,其中,网络解耦后的不同镜头集团用虚线区域表示。
(3)基于用户需求的多视角视频动态摘要
从直观角度可知,理想的跨摄像头视频摘要应当满足如下2个条件:1)最小化视频摘要长度;2)最大化视频内容显著性。因此,跨摄像头视频摘要问题转化为最小化视频摘要长度以及最大化视频内容显著性两个约束条件下的最优化问题。此外,为了满足用户需求的多样性,应当使得上述各目标的权重动态可调,因此所需构建最优化问题应该能够通过参数的调节实现动态视频摘要的生成。因此,跨摄像头视频摘要提取方法为:
对于包含n个镜头的镜头集团Cs,最终生成的视频摘要是否包含某个镜头由向量x={x1,...,xi...,xn},其中xi为1时表示该镜头被保留,xi为0时表示该镜头被去除。因此,定义上述视频摘要提取的目标函数为:
x * = arg max x { - &alpha; 1 &CenterDot; n ( f 1 ( x ) ) + &alpha; 2 &CenterDot; n ( f 2 ( x ) ) }
s . t . f ( x ) &le; F max s ( x ) &GreaterEqual; S min
其中:
Figure BDA00000613423600053
表示摘要总长,Fi表示镜头i对应帧数;
Figure BDA00000613423600054
表示视频内容显著度,Si表示镜头i显著性;Fmax和Smin分别表示视频摘要生成时限定的最大长度和最小显著性;n(·)表示归一化操作,本发明不失一般性的采用向量线性归一化;系数αi用于满足不同需求的动态摘要生成,由用户自由指定。上述多目标优化问题为典型的整数规划问题,所以可以采用整数规划算法求解[2]
[1]Zhuang,Y.,Rui,Y.,Huang,T.S.,and Mehrotra,S.Adaptive Key FrameExtraction using Unsupervised Clustering.In Proceedings of ICIP(1).1998,866-870.
[2]J.E.Beasley,editor.Advances in Linear and Integer Programming.Oxford Science,1996.
[3]Anan Liu*,Jintao Li,Yongdong Zhang,Yan Song,Sheng Tang,Zhaoxuan Yang,AnInnovative Model of Tempo and Its Application in Action Scene Detection for MovieAnalysis,Proceeding of IEEE Workshop on Applications of Computer Vision(WACV2008),America,2008,pp:1~6.
[4]M.Stricker,M.Orengo,Similarity of Color Images,SPIE Storage and Retrievalfor Image and Video Databases,1995.
[5]W.Y.Ma,B.S.Manjunath,A Comparison of Wavelet Transform Features for TextureImage Annotation,IEEE International Conference on Image Processing,1995.
[6]N.Dalal,B.Triggs,Histograms of Oriented Gradients for Human Detection,International Conference on Computer Vision and Pattern Recognition,2005.
[7]G.Palla,I.Derényi,I.Farkas,et al,Uncovering the Overlapping CommunityStructure of Complex Networks in Nature and Society,Nature,2005,435(7043):814~818.

Claims (1)

1.一种跨摄像头视频摘要提取方法,其特征是,包括下列步骤:
(1)预处理:视频镜头分割、关键帧提取及显著性表示:
利用图像的视觉特征和无监督聚类方法将各摄像头采集的视频分别进行镜头分割和关键帧提取;通过背景建模和运动区域提取衡量各镜头的运动强度,保留运动强度足够明显的镜头作为视频摘要的候选;提取视频关键帧的颜色、纹理和形状特征并构建数学模型来计算候选镜头各独立特征的重要性,最后采用线性方式融合多特征重要性,从而形成视频镜头显著性表示;
(2)跨摄像头视频镜头网络构建和分析:
以跨摄像头视频镜头网络来表征所提取的各视频的候选镜头的时间和空间的关联,其中,每个节点Sij及视频片段表示第i个摄像头采集的视频中的第j个镜头,各节点数值表示镜头显著性,节点间的连线表示二者相关联,并且关联强度由两镜头的相似性度量,在上述视频镜头分割及显著性表示的基础上,得到所需构建网络的各节点及其重要性,跨摄像头视频镜头网络构建和分析的核心问题转化为相似镜头集团的发现,由如下两步骤实现:
1)节点间关联强度的计算:计算并融合镜头间的两类相似性从而度量两个镜头的相似性:a.时序关联性:不同视频中时序相近的镜头更可能包含视觉相近的视频内容,因而相似性越高;b.视觉相似性:具有相近低层视觉描述的镜头相似度越高;
2)跨摄像头视频镜头网络解耦:采用自顶向下的网络集团分析法进行跨摄像头视频镜头网络分解;
(3)基于用户需求的跨摄像头视频摘要生成:
视频摘要提取方法为:对于包含n个镜头的镜头集团Cs,最终生成的视频摘要是否包含某个镜头由标记向量x={x1,...,xi...,xn}表示,其中xi为1时表示该镜头被保留,xi为0时表示该镜头被去除,定义多目标优化问题目标函数为:
x * = arg max x { - a 1 &CenterDot; n ( f 1 ( x ) ) + a 2 &CenterDot; n ( f 2 ( x ) ) }
s . t . f ( x ) &le; F max s ( x ) &GreaterEqual; S min
其中:
Figure FDA00002908907200013
表示摘要总长,Fi表示镜头i对应帧数;
Figure FDA00002908907200014
表示视频内容显著度,Si表示镜头i显著性;Fmax和Smin分别表示视频摘要生成时限定的最大长度和最小显著性;n(·)表示归一化操作,采用向量线性归一化;系数αi用于满足不同需求的动态摘要生成,由用户自由指定,上述多目标优化问题为典型的整数规划问题,采用整数规划算法求解。
CN 201110126198 2011-05-16 2011-05-16 跨摄像头视频摘要提取方法 Expired - Fee Related CN102184242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110126198 CN102184242B (zh) 2011-05-16 2011-05-16 跨摄像头视频摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110126198 CN102184242B (zh) 2011-05-16 2011-05-16 跨摄像头视频摘要提取方法

Publications (2)

Publication Number Publication Date
CN102184242A CN102184242A (zh) 2011-09-14
CN102184242B true CN102184242B (zh) 2013-08-14

Family

ID=44570419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110126198 Expired - Fee Related CN102184242B (zh) 2011-05-16 2011-05-16 跨摄像头视频摘要提取方法

Country Status (1)

Country Link
CN (1) CN102184242B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523536B (zh) * 2011-12-15 2014-04-02 清华大学 视频语义可视化方法
CN103312938B (zh) * 2012-03-16 2016-07-06 富士通株式会社 视频处理装置、视频处理方法以及设备
CN104021544B (zh) * 2014-05-07 2018-11-23 中国农业大学 一种温室蔬菜病害监控视频关键帧提取方法即提取系统
CN105100688B (zh) * 2014-05-12 2019-08-20 索尼公司 图像处理方法、图像处理装置和监视系统
CN104156423B (zh) * 2014-08-06 2017-09-29 山东财经大学 基于整数规划的多尺度视频关键帧提取方法
CN104504733A (zh) * 2014-12-31 2015-04-08 云智视像科技(上海)有限公司 一种基于运动目标检测的视频摘要方法和系统
CN105681749A (zh) * 2016-01-12 2016-06-15 上海小蚁科技有限公司 用于预览视频的方法、装置、系统和计算机可读介质
CN106326844A (zh) * 2016-08-15 2017-01-11 刘知迪 一种智能监控画面记录系统及其应用
CN107240124B (zh) * 2017-05-19 2020-07-17 清华大学 基于时空约束的跨镜头多目标跟踪方法及装置
CN107391647B (zh) * 2017-07-12 2021-05-04 武汉大学 复合域视角下进行词嵌入扩展的专利检索方法及系统
CN110366050A (zh) * 2018-04-10 2019-10-22 北京搜狗科技发展有限公司 视频数据的处理方法、装置、电子设备及存储介质
CN110347870A (zh) * 2019-06-19 2019-10-18 西安理工大学 基于视觉显著性检测与层次聚类法的视频摘要化生成方法
CN110413838B (zh) * 2019-07-15 2021-06-22 上海交通大学 一种无监督视频摘要模型及其建立方法
CN111625683B (zh) * 2020-05-07 2023-05-23 山东师范大学 基于图结构差异分析的视频摘要自动生成方法及系统
CN114025141B (zh) * 2022-01-05 2022-07-05 凯新创达(深圳)科技发展有限公司 一种画面调整播放方法、画面调整播放装置

Also Published As

Publication number Publication date
CN102184242A (zh) 2011-09-14

Similar Documents

Publication Publication Date Title
CN102184242B (zh) 跨摄像头视频摘要提取方法
Yildizer et al. Integrating wavelets with clustering and indexing for effective content-based image retrieval
Gao et al. [Retracted] AGTH‐Net: Attention‐Based Graph Convolution‐Guided Third‐Order Hourglass Network for Sports Video Classification
Chen et al. Semantic event detection via multimodal data mining
Han et al. Personalized video summarization with human in the loop
Chen et al. Face annotation for family photo album management
Serrano-Talamantes et al. Self organizing natural scene image retrieval
Mishra et al. Image mining in the context of content based image retrieval: a perspective
CN111723692B (zh) 基于卷积神经网络语义分类的标签特征的近重复视频检测方法
Bao et al. Efficient region-aware large graph construction towards scalable multi-label propagation
Yang et al. A multimedia semantic retrieval mobile system based on HCFGs
Gornale et al. Analysis and detection of content based video retrieval
Fei et al. New fusional framework combining sparse selection and clustering for key frame extraction
Liu et al. Multimedia image and video retrieval based on an improved HMM
Mahum et al. A generic framework for generation of summarized video clips using transfer learning (SumVClip)
CN108805183A (zh) 一种融合局部聚合描述符和局部线性编码的图像分类方法
Khodaskar et al. Image mining: an overview of current research
Li et al. PFYOLOv4: An improved small object pedestrian detection algorithm
Duan et al. Stereoscopic video clip matching algorithm based on incidence matrix of similar key frames
Xu et al. Sheep Counting Method Based on Multiscale Module Deep Neural Network
Luo et al. Research and Application of Content-based Image Hash Retrieval Algorithm
Ye et al. A parallel top-n video big data retrieval method based on multi-features
Nasreen et al. Parallelizing Multi-featured Content Based Search and Retrieval of Videos through High Performance Computing
Zhu et al. Joint model for human body part instance segmentation and densepose estimation
Rho Efficient object-based distributed image search in wireless visual sensor networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130814