CN100391263C - 一种利用视频的运动矢量判断运动起因的方法 - Google Patents
一种利用视频的运动矢量判断运动起因的方法 Download PDFInfo
- Publication number
- CN100391263C CN100391263C CNB2005100307788A CN200510030778A CN100391263C CN 100391263 C CN100391263 C CN 100391263C CN B2005100307788 A CNB2005100307788 A CN B2005100307788A CN 200510030778 A CN200510030778 A CN 200510030778A CN 100391263 C CN100391263 C CN 100391263C
- Authority
- CN
- China
- Prior art keywords
- motion
- motion vector
- correlation
- vector
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属多媒体技术领域,具体是一种利用视频的运动矢量判断运动起因的方法。本发明提出对运动起因进行判断的必要性,然后根据视频的运动矢量在空间中的分布特性(包括方向和模值)、运动矢量之间的相互关系特性(包括方向关系和模值关系),构造了一个34维的运动特征矢量H,然后采用基于向量机的多类分类方法,对运动起因进行判断。本发明方法具有速度快、精度高、鲁棒性好等优点,非常适用于视频信息检索、视频内容分析、视频监控等。
Description
技术领域
本发明属多媒体技术领域,具体涉及一种利用视频的运动矢量判断运动起因的方法。
背景技术
日益先进的多媒体技术产生了丰富的多媒体内容,迅猛扩张的互联网便利了多媒体内容的迅速传播,因此基于内容的多媒体检索技术变得十分重要。在基于内容的多媒体检索技术中,视频的运动信息从某种程度上有助于逾越底层特征和高层语义之间的鸿沟。
视频中的运动通常由物体运动和相机运动组合而成,可能仅由物体运动或相机运动引起,也可能由物体运动和相机运动共同作用而引起。通常,物体运动会造成局部运动,而相机运动则会引起全局运动。
因而视频中运动起因可以分为四类:物体和相机均为静止,即完全没有运动;物体运动,相机静止;物体静止,相机运动;物体和相机都在运动。
传统的视频运动分析算法通常假设物体运动或者相机运动主导了视频运动,而忽略了运动起因的分析。在这种不合理的假设下,视频运动分析算法会被不明原因的运动所误导,从而造成算法性能的恶化。目前,大量的视频运动分析算法集中于相机运动分析,如文[1][2],以及运动分割,如文[3][4]。
文[5]提出通过分析图像帧序列的时空特性来刻画物体和相机运动模型。但是,在视频背景或者物体运动非常杂乱的情况下,分析时间序列上的运动模型是十分困难的。
文[6][7]利用运动矢量间的方向相互关系来分析压缩视频流中的相机运动,但是假设了相机运动主导了视频运动。
发明内容
本发明的目的在于提出一种有效判别视频中运动起因的方法。
本发明提出的判断视频中运动起因的方法,是一种利用压缩视频流(例如MPEG-1/2/4)中的运动矢量判断运动起因的方法。对于活动图像序列那样的原始视频数据,可以先利用视频编码技术中常用的块匹配运动估计方法,估计出运动矢量,然后再用本发明提出的方法分析运动起因。
前面,我们曾提到传统的视频运动分析算法基于一种不恰当的假设。为了解决这个问题,本发明先进行视频运动起因判断,确定视频运动的组成,进而针对特定的运动采用特定的运动分析算法。例如,若视频运动被确定为由物体运动和相机运动组成,则先进行运动区域分割,将物体运动和相机运动在空间域中分离,对物体运动的部分采用物体运动分析算法,对相机运动的部分采用相机运动分析算法。因此,判断运动起因能够有效地避免不恰当的后续运动分析,例如,用相机运动分析算法去分析含有物体运动和相机运动的复合视频运动,就不会获得准确的分析结果。于是,提出一个更加合理的视频运动分析流程,见附图1。
通过观察,我们发现由不同起因造成的运动矢量场具有不同的特点:
(1)如果物体和相机都静止,则运动矢量场中的大部分运动矢量的模值都等于或接近于零。
(2)如果物体运动而相机静止,则运动矢量场中的部分区域的运动矢量的模值不为零。
(3)如果物体静止而相机运动,则运动矢量场的分布存在一定的规律。例如,如果相机平动,则矢量场中的大部分运动矢量具有相同的方向和模值,且运动矢量之间相互平行;如果相机缩放运动,则矢量场中的运动矢量具有不同的方向和模值,且运动矢量之间相互远离或者靠近。
(4)如果物体和相机都运动,则运动矢量场的分布比较杂乱,不存在明显的分布规律。
运动矢量有方向和模值两个属性,相应地,运动矢量间的相互关系也应当包括方向关系和模值关系两个方面。在本发明中我们定义了运动矢量间的方向关系和模值关系。
考虑到运动矢量场和运动起因的对应关系,以及运动矢量间的相互关系,本发明提出了一种有效的判断运动起因的方法。此方法根据运动矢量模值分布、运动矢量方向分布、运动矢量模值相互关系分布、和运动矢量方向相互关系分布来描述运动矢量场,构造出一个34维的运动特征矢量,然后利用支持向量机对运动特征矢量进行分类来分析运动起因。
具体步骤如下:
(1)定义运动矢量相互关系,确定运动矢量相互关系类型。
假设有两个运动矢量VA=(dxA,dyA),VB=(dxB,dyB),位于图像帧的PA=(xA,yA),PB=(xB,yB)位置,位置A到位置B的矢量为VAB=((xB-xA),(yB-yA)),α是VA和VAB之间的夹角,π-β是VB和VAB之间的夹角,α是VA的模值,b是VB的模值。VA和VB之间的模值相互关系RAB定义为:
将VA和VB之间的方向相互关系分为四类:靠近、远离、平行、旋转。见附图2,如果VA和VB在VAB的同一侧,则运动矢量间的方向相互关系可以分为三种:
-若α+β<π-Tpara,则VA和VB之间的方向相互关系为靠近;
-若α+β>π+Tpara,则VA和VB之间的方向相互关系为远离;
-否则,VA和VB之间的方向相互关系为平行。
如果VA和VB在VAB的异侧,则运动矢量间的方向相互关系也可以分为三种:
-若α+β<Tclose。,则VA和VB之间的方向相互关系为靠近;
-若α+β>Tfar,则VA和VB之间的方向相互关系为远离;
-否则,VA和VB之间的方向相互关系为旋转。
在本方法中,通过实验来确定阈值Tpara、Tclose和Tfar的取值,Tpara位于[π/18,π/9]内,Tclose位于[11π/36,13π/36]内,Tfar位于[49π/36,51π/36]内。
(2)提取运动矢量场特征,构造一个34维的运动特征矢量H。
假定一个图像帧中的宏块数为N,帧内编码的宏块数为Nnmv,具有微小运动的宏块数为Nsmv。当宏块的运动矢量模值小于Tsmall时,称此宏块具有微小运动。去除掉帧内编码宏块和微小运动宏块之后,剩下的宏块称为有效宏块,数量为Nα=N-Nnmv-Nsmv。则运动特征矢量的前两维定义如下:
用一个二维直方图来表示运动矢量的分布情况,其中一维代表运动矢量的方向,另一维代表运动矢量的模值。将运动矢量的方向划分为四个槽:向右、向上、向左和向下。将运动矢量模值归一化到区间(0,1),将此区间也划分为四个槽,(0,0.25]、(0.25,0.5]、(0.5,0.75]和(0.75,1)。这样共有4×4,共计16个槽。统计每个槽的运动矢量的个数,得到一个二维直方图。将此二维直方图进行归一化,得到的结果为运动矢量直方图。将运动矢量直方图的16个槽所对应的数值作为H[3]~H[18]的值。
再用一个二维直方图来表示运动矢量相互关系的分布情况,其中一维表示运动矢量的方向相互关系,另一维表示运动矢量的模值相互关系。将运动矢量的方向相互关系划分为四个槽:靠近、远离、平行和旋转。将运动矢量的模值相互关系取值区间(0,1)划分为四个槽:(0,0.25]、(0.25,0.5]、(0.5,0.75]和(0.75,1)。这样共有4×4,共计16个槽。统计落入每个槽的运动矢量对的个数,得到一个二维直方图。将此二维直方图进行归一化,得到的结果为运动矢量相互关系直方图。将运动矢量相互关系直方图的16个槽所对应的数值作为H[19]~H[34]的值。
至此,我们构造了一个34维的运动特征矢量H=H[1]、H[2]…H[34]。
(3)利用支持向量机对运动特征矢量进行分类,判断运动起因。
为了有效的进行运动起因判断,我们采用了支持向量机进行有监督的学习。
支持向量机基于结构风险最小化理论的一种分类方法[8],在图像分类、物体识别、文本分类等诸多领域中取得了较好的结果。给定一组训练样本和其所对属的类别,此方法能够找到最优分界面,使得分类间隔最大,从而取得较好的分类效果。
在本方法中,我们将视频运动起因划分为四个类:物体和相机都静止;物体静止,相机运动;物体运动,相机静止;物体和相机都运动。
本发明采用了一个基于支持向量机的多类分类方法[9]来判断运动起因。整个过程分为训练阶段和测试阶段。训练阶段利用支持向量机对训练样本进行学习,建立运动起因模型;测试阶段利用运动起因模型判断运动特征矢量所对应的运动起因。
本发明方法具有速度快、精度高、鲁棒性好等优点,非常适合于视频信息检索、视频内容分析、视频监控等。
附图说明
图1是本发明提出的视频运动分析流程图。
图2是任意两个运动矢量方向间的可能相互关系。其中:
(a)两个运动矢量在同侧,相互靠近
(b)两个运动矢量在同侧,相互平行
(c)两个运动矢量在同侧,相互远离
(e)两个运动矢量在异侧,相互靠近
(f)两个运动矢量在异侧,相互远离
(g)两个运动矢量在异侧,相互旋转
图3是一个具体的运动矢量场。黑色块为帧内编码宏块。
图4是与图3相对应的运动矢量特征的直方图表示。其中,横轴表示维数,纵轴表示每一维的数值。
图5是一个具体的运动矢量直方图。
图6是一个具体的运动矢量相互关系直方图。
具体实施方式
1、运动矢量场特征提取
以一个具体的运动矢量场为例,来说明特征提取方法。
在此,我们处理的是MPEG-1压缩视频流,运动矢量直接取自MPEG-1压缩视频流。附图3是一个运动矢量场,由15×22个运动矢量所组成,每个运动矢量有方向和模值两个属性。计算总宏块数N=330,帧内编码宏块数Nnmv=9,具有微小运动的宏块数Nsmv=7,所以
Nα=N-Nnmv-Nsmv=330-9-7=314
为了计算运动矢量直方图,我们将运动矢量方向区间具体定义为[-0.25π,1.75π],则向右、向上、向左、和向下分别对应于区间[-0.25π,0.25π]、(0.25π,0.75π]、(0.75π,1.25π]、和(1.25π,1.75π]。通过统计,我们得到如图5所示的二维直方图。可见,共有16个数值,按照横轴顺序对应于图4中的H[3]~H[18]。
类似的,计算运动矢量相互关系直方图。运动矢量对共有NαX(Nα-1)个。通过统计,我们得到如图6所示的二维直方图。可见,共有16个数值,按照横轴顺序对应于图4种的H[19]~H[34]。
至此,我们就得到了一个34维的运动特征矢量,如图4。
2、判断运动起因
为了利用支持向量机进行有监督的学习,我们对视频数据进行了标注。在标注阶段,由于人工编辑产生的视频运动不能简单的被看作是物体运动和镜头运动的组合,我们抛弃了人工编辑所产生的P帧。训练和测试数据的帧数列在表1中。
表1训练数据和测试数据的帧数
视频运动起因 | 用于训练的P帧数 | 用于测试的P帧数 |
静止 | 642 | 440 |
相机运动 | 913 | 495 |
物体运动 | 1057 | 362 |
相机和物体都运动 | 1091 | 485 |
合计 | 3703 | 1782 |
对所有的P帧提取运动特征矢量,得到一组训练样本和一组测试样本。把训练样本用支持向量机进行建模,得到运动起因模型。利用运动起因模型判断测试样本的运动起因,我们得到如表2所示的实验结果。可见,所建立的运动起因模型可以有效地判断出测试样本的运动起因。因此,本发明所提出的运动起因判断方法是可行且有效的。
表2运动起因判断结果
视频运动起因 | 精确度 | 召回率 |
静止 | 0.9886 | 0.9841 |
相机运动 | 0.8974 | 0.8485 |
物体运动 | 0.9458 | 0.9641 |
相机和物体都运动 | 0.8580 | 0.8969 |
参考资料
[1]Y.-P.Tan,D.D.Saur,S.R.Kulkarni,and P.J.Ramadge,“Rapid Estimation of CameraMotion from Compressed Video with Application to Video annotation”,IEEE Trans.on Circand Syst.for Video Techn.,Vol.10,No.1,2000,pp.133-146.
[2]R.Ewerth,M.Schwalb,P.Tessmann,and B.Freisleben,“Estimation of Arbitrary CameraMotion in MPEG Videos”,Proceedings of the 17th International Conference on PatternRecognition,Vol.1,2004,pp.512-515
[3]Haifeng Xu,Younis,A.A.,Kabuka,M.R.,Automatic moving object extraction forcontent-based applications,Circuits and Systems for Video Technology,IEEE Transactionson Volume 14,Issue 6,June 2004,pp.796-812
[4]Ogale,A.S.,Fermuller,C.,Aloimonos,Y.,Motion segmentation using occlusions,IEEETrans.on PAMI,Vol.27,Issue 6,Jun 2005,pp.988-992
[5]C.-W.Ngo,T.-C.Pong,and H.-J.Zhang,”Motion Analysis and Segmentation ThroughSpatio-Temporal Slices Processing”,IEEE Trans.on Image Processing,Vol.12,No.3,2003,pp.341-355.
[6]X.Xue,X.Zhu,Y.Xiao and L.Wu,Using mutual relationship between motion vectors forqualitative camera motion classification in MPEG video,Proc.of SPIE:SecondInternational Conference on Image and Graphics,Vol.4875,pp.853-860,Anhui,China,Aug.,2002.
[7]X.Zhu,A.K.Elmagarmid,X.Xue,L.Wu,and A.C.Catlin,InsightVideo:Toward HierarchicalVideo Content Organization for Efficient Browsing,Summarization and Retrieval,IEEETrans.on Multimedia,Vol.7,No.4,Aug.2005,pp.648-666.
[8]C.C.Chang,and C.J.Lin,LibSVM:a library for support vector machines,2004.
[9]C.-W.Hsu and C.-J.Lin.A comparison of methods for multi-class support vector machines.Technical report,Department of Computer Science and Information Engineering,NationalTaiwan University,Taipei,Taiwan,2001.
Claims (1)
1.一种利用视频的运动矢量判断运动起因的方法,其特征在于具体步骤如下:
(1)定义运动矢量相互关系,确定运动矢量相互关系类型
假设有两个运动矢量VA=(dxA,dyA),VB=(dxB,dyB),位于图像帧的PA=(xA,yA),PB=(xB,yB)位置,位置A到位置B的矢量为VAB=((xB-xA),(yB,yA)),α是VA和VAB之间的夹角,π-β是VB和VAB之间的夹角,a是VA的模值,b是VB的模值;VA和VB之间的模值相互关系RAB定义为:
将VA和VB之间的方向相互关系分为四类:靠近、远离、平行、旋转;如果VA和VB在VAB的同一侧,则运动矢量间的方向相互关系分为三种:
-若α+β<π-Tpara,则VA和VB之间的方向相互关系为靠近;
-若α+β>π+Tpara,则VA和VB之间的方向相互关系为远离;
-否则,VA和VB之间的方向相互关系为平行;
如果VA和VB在VAB的异侧,则运动矢量间的方向相互关系也分为三种:
-若α+β<Tclose,则VA和VB之间的方向相互关系为靠近;
-若α+β>Tfar,则VA和VB之间的方向相互关系为远离;
-否则,VA和VB之间的方向相互关系为旋转;
Tpara位于[π/18,π/9]内,Tclose位于[11π/36,13π/36]内,Tfar位于[49π/36,51π/36]内;
(2)提取运动矢量场特征,构造一个34维的运动特征矢量H;
假定一个图像帧中的宏块数为N,帧内编码的宏块数为Nnmv,具有微小运动的宏块数为Nsmv;则运动特征矢量的前两维定义如下:
用一个二维直方图来表示运动矢量的分布情况,其中一维代表运动矢量的方向,另一维代表运动矢量的模值;将运动矢量的方向划分为四个槽:向右、向上、向左和向下;将运动矢量模值归一化到区间(0,1),将此区间划分为四个槽:(0,0.25]、(0.25,0.5]、(0.5,0.75]和(0.75,1),这样共有16个槽;统计每个槽的运动矢量的个数,得到一个二维直方图;将此二维直方图进行归一化,得到的结果为运动矢量直方图;将运动矢量直方图的16个槽所对应的数值作为H[3]~H[18]的值;
再用一个二维直方图来表示运动矢量相互关系的分布情况,其中一维表示运动矢量的方向相互关系,另一维表示运动矢量的模值相互关系;将运动矢量的方向相互关系划分为四个槽:靠近、远离、平行和旋转;将运动矢量的模值相互关系取值区间(0,1)划分为四个槽:(0,0.25]、(0.25,0.5]、(0.5,0.75]和(0.75,1);这样共有16个槽;统计落入每个槽的运动矢量对的个数,得到一个二维直方图;将此二维直方图进行归一化,得到的结果为运动矢量相互关系直方图;将运动矢量相互关系直方图的16个槽所对应的数值作为H[19]~H[34]的值;
至此,我们构造了一个34维的运动特征矢量H=H[1]、H[2]…H[34];
(3)判断运动起因
利用基于支持向量机的多类分类方法来判断运动起因。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100307788A CN100391263C (zh) | 2005-10-27 | 2005-10-27 | 一种利用视频的运动矢量判断运动起因的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100307788A CN100391263C (zh) | 2005-10-27 | 2005-10-27 | 一种利用视频的运动矢量判断运动起因的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1809159A CN1809159A (zh) | 2006-07-26 |
CN100391263C true CN100391263C (zh) | 2008-05-28 |
Family
ID=36840812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100307788A Expired - Fee Related CN100391263C (zh) | 2005-10-27 | 2005-10-27 | 一种利用视频的运动矢量判断运动起因的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100391263C (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101102504B (zh) * | 2007-07-24 | 2010-09-08 | 中兴通讯股份有限公司 | 一种结合视频编码器的混合运动检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1293782A (zh) * | 1999-02-01 | 2001-05-02 | 皇家菲利浦电子有限公司 | 视频序列描述符和使用该描述符的影像检索系统 |
CN1334534A (zh) * | 2000-07-21 | 2002-02-06 | Lg电子株式会社 | 使用渐进直方图搜索多媒体的方法 |
CN1466105A (zh) * | 2002-11-07 | 2004-01-07 | 复旦大学 | 压缩视频流中主要运动的定性判断方法 |
US20040223052A1 (en) * | 2002-09-30 | 2004-11-11 | Kddi R&D Laboratories, Inc. | Scene classification apparatus of video |
-
2005
- 2005-10-27 CN CNB2005100307788A patent/CN100391263C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1293782A (zh) * | 1999-02-01 | 2001-05-02 | 皇家菲利浦电子有限公司 | 视频序列描述符和使用该描述符的影像检索系统 |
CN1334534A (zh) * | 2000-07-21 | 2002-02-06 | Lg电子株式会社 | 使用渐进直方图搜索多媒体的方法 |
US20040223052A1 (en) * | 2002-09-30 | 2004-11-11 | Kddi R&D Laboratories, Inc. | Scene classification apparatus of video |
CN1466105A (zh) * | 2002-11-07 | 2004-01-07 | 复旦大学 | 压缩视频流中主要运动的定性判断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1809159A (zh) | 2006-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Almeida et al. | Comparison of video sequences with histograms of motion patterns | |
Ayed et al. | MapReduce based text detection in big data natural scene videos | |
Liu et al. | Key frame extraction of online video based on optimized frame difference | |
CN101577824B (zh) | 基于邻近i帧dc图像相似度的压缩域关键帧提取方法 | |
CN1851710A (zh) | 嵌入式多媒体基于关键帧的视频检索的实现方法 | |
Abd-Almageed | Online, simultaneous shot boundary detection and key frame extraction for sports videos using rank tracing | |
Jadhav et al. | Video summarization using higher order color moments (VSUHCM) | |
Fan et al. | Fuzzy color distribution chart-based shot boundary detection | |
Mahum et al. | A generic framework for generation of summarized video clips using transfer learning (SumVClip) | |
CN100391263C (zh) | 一种利用视频的运动矢量判断运动起因的方法 | |
Kaur et al. | Content-Based Video and Image Retrieval in the Modern Era: Apprehensions and Scope | |
CN103020094A (zh) | 视频播放次数统计方法 | |
Bekhet et al. | Video Matching Using DC-image and Local | |
Wang et al. | Detecting video texts using spatial-temporal wavelet transform | |
Cvetkovic et al. | Video summarization using color features and efficient adaptive threshold technique | |
Mehrabi et al. | Fast content access and retrieval of JPEG compressed images | |
Ma et al. | A rapid and robust method for shot boundary detection and classification in uncompressed MPEG video sequences | |
Wu et al. | A fast gradual shot boundary detection method based on SURF | |
CN1245701C (zh) | 压缩视频流中主要运动的定性判断方法 | |
Jiang et al. | A scene change detection framework based on deep learning and image matching | |
Jian et al. | Application of approximate string matching in video retrieval | |
Asatryan et al. | Improved algorithm for video shot detection | |
Gornale et al. | Extraction of Key Frame from Random Videos Based On Discrete Cosine Transformation | |
Liu et al. | A fast CU partition algorithm based on the coding cost in screen content coding | |
Ahmadzade et al. | Video summarization by an innovative method in shot detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080528 Termination date: 20141027 |
|
EXPY | Termination of patent right or utility model |