CN100391263C

CN100391263C - 一种利用视频的运动矢量判断运动起因的方法

Info

Publication number: CN100391263C
Application number: CNB2005100307788A
Authority: CN
Inventors: 薛向阳; 许源; 密聪杰; 朱兴全
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2005-10-27
Filing date: 2005-10-27
Publication date: 2008-05-28
Anticipated expiration: 2025-10-27
Also published as: CN1809159A

Abstract

本发明属多媒体技术领域，具体是一种利用视频的运动矢量判断运动起因的方法。本发明提出对运动起因进行判断的必要性，然后根据视频的运动矢量在空间中的分布特性(包括方向和模值)、运动矢量之间的相互关系特性(包括方向关系和模值关系)，构造了一个34维的运动特征矢量H，然后采用基于向量机的多类分类方法，对运动起因进行判断。本发明方法具有速度快、精度高、鲁棒性好等优点，非常适用于视频信息检索、视频内容分析、视频监控等。

Description

一种利用视频的运动矢量判断运动起因的方法

技术领域

本发明属多媒体技术领域，具体涉及一种利用视频的运动矢量判断运动起因的方法。

背景技术

日益先进的多媒体技术产生了丰富的多媒体内容，迅猛扩张的互联网便利了多媒体内容的迅速传播，因此基于内容的多媒体检索技术变得十分重要。在基于内容的多媒体检索技术中，视频的运动信息从某种程度上有助于逾越底层特征和高层语义之间的鸿沟。

视频中的运动通常由物体运动和相机运动组合而成，可能仅由物体运动或相机运动引起，也可能由物体运动和相机运动共同作用而引起。通常，物体运动会造成局部运动，而相机运动则会引起全局运动。

因而视频中运动起因可以分为四类：物体和相机均为静止，即完全没有运动；物体运动，相机静止；物体静止，相机运动；物体和相机都在运动。

传统的视频运动分析算法通常假设物体运动或者相机运动主导了视频运动，而忽略了运动起因的分析。在这种不合理的假设下，视频运动分析算法会被不明原因的运动所误导，从而造成算法性能的恶化。目前，大量的视频运动分析算法集中于相机运动分析，如文[1][2]，以及运动分割，如文[3][4]。

文[5]提出通过分析图像帧序列的时空特性来刻画物体和相机运动模型。但是，在视频背景或者物体运动非常杂乱的情况下，分析时间序列上的运动模型是十分困难的。

文[6][7]利用运动矢量间的方向相互关系来分析压缩视频流中的相机运动，但是假设了相机运动主导了视频运动。

发明内容

本发明的目的在于提出一种有效判别视频中运动起因的方法。

本发明提出的判断视频中运动起因的方法，是一种利用压缩视频流(例如MPEG-1/2/4)中的运动矢量判断运动起因的方法。对于活动图像序列那样的原始视频数据，可以先利用视频编码技术中常用的块匹配运动估计方法，估计出运动矢量，然后再用本发明提出的方法分析运动起因。

前面，我们曾提到传统的视频运动分析算法基于一种不恰当的假设。为了解决这个问题，本发明先进行视频运动起因判断，确定视频运动的组成，进而针对特定的运动采用特定的运动分析算法。例如，若视频运动被确定为由物体运动和相机运动组成，则先进行运动区域分割，将物体运动和相机运动在空间域中分离，对物体运动的部分采用物体运动分析算法，对相机运动的部分采用相机运动分析算法。因此，判断运动起因能够有效地避免不恰当的后续运动分析，例如，用相机运动分析算法去分析含有物体运动和相机运动的复合视频运动，就不会获得准确的分析结果。于是，提出一个更加合理的视频运动分析流程，见附图1。

通过观察，我们发现由不同起因造成的运动矢量场具有不同的特点：

(1)如果物体和相机都静止，则运动矢量场中的大部分运动矢量的模值都等于或接近于零。

(2)如果物体运动而相机静止，则运动矢量场中的部分区域的运动矢量的模值不为零。

(3)如果物体静止而相机运动，则运动矢量场的分布存在一定的规律。例如，如果相机平动，则矢量场中的大部分运动矢量具有相同的方向和模值，且运动矢量之间相互平行；如果相机缩放运动，则矢量场中的运动矢量具有不同的方向和模值，且运动矢量之间相互远离或者靠近。

(4)如果物体和相机都运动，则运动矢量场的分布比较杂乱，不存在明显的分布规律。

运动矢量有方向和模值两个属性，相应地，运动矢量间的相互关系也应当包括方向关系和模值关系两个方面。在本发明中我们定义了运动矢量间的方向关系和模值关系。

考虑到运动矢量场和运动起因的对应关系，以及运动矢量间的相互关系，本发明提出了一种有效的判断运动起因的方法。此方法根据运动矢量模值分布、运动矢量方向分布、运动矢量模值相互关系分布、和运动矢量方向相互关系分布来描述运动矢量场，构造出一个34维的运动特征矢量，然后利用支持向量机对运动特征矢量进行分类来分析运动起因。

具体步骤如下：

(1)定义运动矢量相互关系，确定运动矢量相互关系类型。

假设有两个运动矢量V_A＝(dx_A，dy_A)，V_B＝(dx_B，dy_B)，位于图像帧的P_A＝(x_A，y_A)，P_B＝(x_B，y_B)位置，位置A到位置B的矢量为V_AB＝((x_B-x_A)，(y_B-y_A))，α是V_A和V_AB之间的夹角，π-β是V_B和V_AB之间的夹角，α是V_A的模值，b是V_B的模值。V_A和V_B之间的模值相互关系R_AB定义为：

R_{AB} = \frac{\min (a, b)}{\max (a, b)}

将V_A和V_B之间的方向相互关系分为四类：靠近、远离、平行、旋转。见附图2，如果V_A和V_B在V_AB的同一侧，则运动矢量间的方向相互关系可以分为三种：

-若α+β＜π-T_para，则V_A和V_B之间的方向相互关系为靠近；

-若α+β＞π+T_para，则V_A和V_B之间的方向相互关系为远离；

-否则，V_A和V_B之间的方向相互关系为平行。

如果V_A和V_B在V_AB的异侧，则运动矢量间的方向相互关系也可以分为三种：

-若α+β＜T_close。，则V_A和V_B之间的方向相互关系为靠近；

-若α+β＞T_far，则V_A和V_B之间的方向相互关系为远离；

-否则，V_A和V_B之间的方向相互关系为旋转。

在本方法中，通过实验来确定阈值T_para、T_close和T_far的取值，T_para位于[π/18，π/9]内，T_close位于[11π/36，13π/36]内，T_far位于[49π/36，51π/36]内。

(2)提取运动矢量场特征，构造一个34维的运动特征矢量H。

假定一个图像帧中的宏块数为N，帧内编码的宏块数为N_nmv，具有微小运动的宏块数为N_smv。当宏块的运动矢量模值小于T_small时，称此宏块具有微小运动。去除掉帧内编码宏块和微小运动宏块之后，剩下的宏块称为有效宏块，数量为N_α＝N-N_nmv-N_smv。则运动特征矢量的前两维定义如下：

H [1] = \frac{N_{nmv}}{N}

H [2] = \frac{N_{smv}}{N}

用一个二维直方图来表示运动矢量的分布情况，其中一维代表运动矢量的方向，另一维代表运动矢量的模值。将运动矢量的方向划分为四个槽：向右、向上、向左和向下。将运动矢量模值归一化到区间(0，1)，将此区间也划分为四个槽，(0，0.25]、(0.25，0.5]、(0.5，0.75]和(0.75，1)。这样共有4×4，共计16个槽。统计每个槽的运动矢量的个数，得到一个二维直方图。将此二维直方图进行归一化，得到的结果为运动矢量直方图。将运动矢量直方图的16个槽所对应的数值作为H[3]～H[18]的值。

再用一个二维直方图来表示运动矢量相互关系的分布情况，其中一维表示运动矢量的方向相互关系，另一维表示运动矢量的模值相互关系。将运动矢量的方向相互关系划分为四个槽：靠近、远离、平行和旋转。将运动矢量的模值相互关系取值区间(0，1)划分为四个槽：(0，0.25]、(0.25，0.5]、(0.5，0.75]和(0.75，1)。这样共有4×4，共计16个槽。统计落入每个槽的运动矢量对的个数，得到一个二维直方图。将此二维直方图进行归一化，得到的结果为运动矢量相互关系直方图。将运动矢量相互关系直方图的16个槽所对应的数值作为H[19]～H[34]的值。

至此，我们构造了一个34维的运动特征矢量H＝H[1]、H[2]…H[34]。

(3)利用支持向量机对运动特征矢量进行分类，判断运动起因。

为了有效的进行运动起因判断，我们采用了支持向量机进行有监督的学习。

支持向量机基于结构风险最小化理论的一种分类方法[8]，在图像分类、物体识别、文本分类等诸多领域中取得了较好的结果。给定一组训练样本和其所对属的类别，此方法能够找到最优分界面，使得分类间隔最大，从而取得较好的分类效果。

在本方法中，我们将视频运动起因划分为四个类：物体和相机都静止；物体静止，相机运动；物体运动，相机静止；物体和相机都运动。

本发明采用了一个基于支持向量机的多类分类方法[9]来判断运动起因。整个过程分为训练阶段和测试阶段。训练阶段利用支持向量机对训练样本进行学习，建立运动起因模型；测试阶段利用运动起因模型判断运动特征矢量所对应的运动起因。

本发明方法具有速度快、精度高、鲁棒性好等优点，非常适合于视频信息检索、视频内容分析、视频监控等。

附图说明

图1是本发明提出的视频运动分析流程图。

图2是任意两个运动矢量方向间的可能相互关系。其中：

(a)两个运动矢量在同侧，相互靠近

(b)两个运动矢量在同侧，相互平行

(c)两个运动矢量在同侧，相互远离

(e)两个运动矢量在异侧，相互靠近

(f)两个运动矢量在异侧，相互远离

(g)两个运动矢量在异侧，相互旋转

图3是一个具体的运动矢量场。黑色块为帧内编码宏块。

图4是与图3相对应的运动矢量特征的直方图表示。其中，横轴表示维数，纵轴表示每一维的数值。

图5是一个具体的运动矢量直方图。

图6是一个具体的运动矢量相互关系直方图。

具体实施方式

1、运动矢量场特征提取

以一个具体的运动矢量场为例，来说明特征提取方法。

在此，我们处理的是MPEG-1压缩视频流，运动矢量直接取自MPEG-1压缩视频流。附图3是一个运动矢量场，由15×22个运动矢量所组成，每个运动矢量有方向和模值两个属性。计算总宏块数N＝330，帧内编码宏块数N_nmv＝9，具有微小运动的宏块数N_smv＝7，所以

H [0] = \frac{N_{nmv}}{N} = \frac{9}{330} \approx 0.0272727

H [1] = \frac{N_{smv}}{N} = \frac{7}{330} \approx 0.0212121

N_α＝N-N_nmv-N_smv＝330-9-7＝314

为了计算运动矢量直方图，我们将运动矢量方向区间具体定义为[-0.25π，1.75π]，则向右、向上、向左、和向下分别对应于区间[-0.25π，0.25π]、(0.25π，0.75π]、(0.75π，1.25π]、和(1.25π，1.75π]。通过统计，我们得到如图5所示的二维直方图。可见，共有16个数值，按照横轴顺序对应于图4中的H[3]～H[18]。

类似的，计算运动矢量相互关系直方图。运动矢量对共有N_αX(N_α-1)个。通过统计，我们得到如图6所示的二维直方图。可见，共有16个数值，按照横轴顺序对应于图4种的H[19]～H[34]。

至此，我们就得到了一个34维的运动特征矢量，如图4。

2、判断运动起因

为了利用支持向量机进行有监督的学习，我们对视频数据进行了标注。在标注阶段，由于人工编辑产生的视频运动不能简单的被看作是物体运动和镜头运动的组合，我们抛弃了人工编辑所产生的P帧。训练和测试数据的帧数列在表1中。

表1训练数据和测试数据的帧数

视频运动起因	用于训练的P帧数	用于测试的P帧数
视频运动起因	用于训练的P帧数	用于测试的P帧数	静止	642	440
相机运动	913	495	静止	642	440
相机运动	913	495	物体运动	1057	362
相机和物体都运动	1091	485	物体运动	1057	362
相机和物体都运动	1091	485	合计	3703	1782

对所有的P帧提取运动特征矢量，得到一组训练样本和一组测试样本。把训练样本用支持向量机进行建模，得到运动起因模型。利用运动起因模型判断测试样本的运动起因，我们得到如表2所示的实验结果。可见，所建立的运动起因模型可以有效地判断出测试样本的运动起因。因此，本发明所提出的运动起因判断方法是可行且有效的。

表2运动起因判断结果

视频运动起因	精确度	召回率
视频运动起因	精确度	召回率	静止	0.9886	0.9841

相机运动	0.8974	0.8485
相机运动	0.8974	0.8485	物体运动	0.9458	0.9641
相机和物体都运动	0.8580	0.8969	物体运动	0.9458	0.9641

参考资料

[1]Y.-P.Tan，D.D.Saur，S.R.Kulkarni，and P.J.Ramadge，“Rapid Estimation of CameraMotion from Compressed Video with Application to Video annotation”，IEEE Trans.on Circand Syst.for Video Techn.，Vol.10，No.1，2000，pp.133-146.

[2]R.Ewerth，M.Schwalb，P.Tessmann，and B.Freisleben，“Estimation of Arbitrary CameraMotion in MPEG Videos”，Proceedings of the 17^th International Conference on PatternRecognition，Vol.1，2004，pp.512-515

[3]Haifeng Xu，Younis，A.A.，Kabuka，M.R.，Automatic moving object extraction forcontent-based applications，Circuits and Systems for Video Technology，IEEE Transactionson Volume 14，Issue 6，June 2004，pp.796-812

[4]Ogale，A.S.，Fermuller，C.，Aloimonos，Y.，Motion segmentation using occlusions，IEEETrans.on PAMI，Vol.27，Issue 6，Jun 2005，pp.988-992

[5]C.-W.Ngo，T.-C.Pong，and H.-J.Zhang，”Motion Analysis and Segmentation ThroughSpatio-Temporal Slices Processing”，IEEE Trans.on Image Processing，Vol.12，No.3，2003，pp.341-355.

[6]X.Xue，X.Zhu，Y.Xiao and L.Wu，Using mutual relationship between motion vectors forqualitative camera motion classification in MPEG video，Proc.of SPIE：SecondInternational Conference on Image and Graphics，Vol.4875，pp.853-860，Anhui，China，Aug.，2002.

[7]X.Zhu，A.K.Elmagarmid，X.Xue，L.Wu，and A.C.Catlin，InsightVideo：Toward HierarchicalVideo Content Organization for Efficient Browsing，Summarization and Retrieval，IEEETrans.on Multimedia，Vol.7，No.4，Aug.2005，pp.648-666.

[8]C.C.Chang，and C.J.Lin，LibSVM：a library for support vector machines，2004.

[9]C.-W.Hsu and C.-J.Lin.A comparison of methods for multi-class support vector machines.Technical report，Department of Computer Science and Information Engineering，NationalTaiwan University，Taipei，Taiwan，2001.

Claims

1.一种利用视频的运动矢量判断运动起因的方法，其特征在于具体步骤如下：

(1)定义运动矢量相互关系，确定运动矢量相互关系类型

假设有两个运动矢量V_A＝(dx_A，dy_A)，V_B＝(dx_B，dy_B)，位于图像帧的P_A＝(x_A，y_A)，P_B＝(x_B，y_B)位置，位置A到位置B的矢量为V_AB＝((x_B-x_A)，(y_B，y_A))，α是V_A和V_AB之间的夹角，π-β是V_B和V_AB之间的夹角，a是V_A的模值，b是V_B的模值；V_A和V_B之间的模值相互关系R_AB定义为：

R_{AB} = \frac{\min (a, b)}{\max (a, b)}

将V_A和V_B之间的方向相互关系分为四类：靠近、远离、平行、旋转；如果V_A和V_B在V_AB的同一侧，则运动矢量间的方向相互关系分为三种：

-若α+β＜π-T_para，则V_A和V_B之间的方向相互关系为靠近；

-若α+β＞π+T_para，则V_A和V_B之间的方向相互关系为远离；

-否则，V_A和V_B之间的方向相互关系为平行；

如果V_A和V_B在V_AB的异侧，则运动矢量间的方向相互关系也分为三种：

-若α+β＜T_close，则V_A和V_B之间的方向相互关系为靠近；

-若α+β＞T_far，则V_A和V_B之间的方向相互关系为远离；

-否则，V_A和V_B之间的方向相互关系为旋转；

T_para位于[π/18，π/9]内，T_close位于[11π/36，13π/36]内，T_far位于[49π/36，51π/36]内；

(2)提取运动矢量场特征，构造一个34维的运动特征矢量H；

假定一个图像帧中的宏块数为N，帧内编码的宏块数为N_nmv，具有微小运动的宏块数为N_smv；则运动特征矢量的前两维定义如下：

H [1] = \frac{N_{nmv}}{N}

H [2] = \frac{N_{smv}}{N}

用一个二维直方图来表示运动矢量的分布情况，其中一维代表运动矢量的方向，另一维代表运动矢量的模值；将运动矢量的方向划分为四个槽：向右、向上、向左和向下；将运动矢量模值归一化到区间(0，1)，将此区间划分为四个槽：(0，0.25]、(0.25，0.5]、(0.5，0.75]和(0.75，1)，这样共有16个槽；统计每个槽的运动矢量的个数，得到一个二维直方图；将此二维直方图进行归一化，得到的结果为运动矢量直方图；将运动矢量直方图的16个槽所对应的数值作为H[3]～H[18]的值；

再用一个二维直方图来表示运动矢量相互关系的分布情况，其中一维表示运动矢量的方向相互关系，另一维表示运动矢量的模值相互关系；将运动矢量的方向相互关系划分为四个槽：靠近、远离、平行和旋转；将运动矢量的模值相互关系取值区间(0，1)划分为四个槽：(0，0.25]、(0.25，0.5]、(0.5，0.75]和(0.75，1)；这样共有16个槽；统计落入每个槽的运动矢量对的个数，得到一个二维直方图；将此二维直方图进行归一化，得到的结果为运动矢量相互关系直方图；将运动矢量相互关系直方图的16个槽所对应的数值作为H[19]～H[34]的值；

至此，我们构造了一个34维的运动特征矢量H＝H[1]、H[2]…H[34]；

(3)判断运动起因

利用基于支持向量机的多类分类方法来判断运动起因。