CN1245701C

CN1245701C - 压缩视频流中主要运动的定性判断方法

Info

Publication number: CN1245701C
Application number: CN 02145117
Authority: CN
Inventors: 肖友能; 薛向阳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2002-11-07
Filing date: 2002-11-07
Publication date: 2006-03-15
Anticipated expiration: 2022-11-07
Also published as: CN1466105A

Abstract

本发明是一种视频流中的主要运动的定性判断方法。它根据视频流中的运动信息(运动矢量或光流)在空间中的分布特性、运动矢量(或光流)之间的相对关系特性，首先构造4个直方图：运动矢量模值直方图、方向直方图、相对关系直方图和法向矢量的相对关系直方图，然后根据这些直方图对视频中的主要运动进行分类，这些类型包括：向上、向下、向左、向右、放大、缩小、旋转。该方法具有速度快、精度高、鲁棒性好等优点，非常适合于视频信息检索等方面的应用。

Description

压缩视频流中主要运动的定性判断方法

技术领域

本发明属视频技术领域，具体涉及一种定性判断视频流中的主要运动类型的方法。

背景技术

随着网络和多媒体技术的不断发展，信息检索技术正变得越来越重要。文本检索技术已经在Internet上取得成功应用，图像、视频和音频等其它媒体信息的检索还处于研究和探索阶段。对视频来说，数据量特别大，因此，如何为海量的视频数据建立高效索引并提供检索能力成为目前视频信息检索领域的关键问题。

有许多研究人员研究了如何从视频中提取运动信息，大量研究主要集中在如何精确分析相机的运动参数。IBM的QBIC系统将整个视频序列中的镜头分为相机运动和目标运动两大类，在进行检索时，用户须指出要检索相机运动类的镜头还是目标运动类的镜头，以实现基于内容的检索；文[1]提出一种根据相邻帧光流分布来估计相机运动的方法，该方法将光流在平面空间上划分为九个区域，并根据区域内光流分布来得到相机运动参数；文[2]提出将光流场分成平行和旋转两部分，并试图用合适方法从整个光流场中减去旋转分量，再从剩下的平行分量的强度和方向来计算相机运动参数。还有不少学者提出了在压缩域上直接分析运动的方法。例如，文[3]提出一种相机运动估算的快速方法，该方法不需要对视频流进行解压，通过将2维直流(即DCT变换中的DC系数)图像沿水平轴或垂直轴投影，变换成1维数据，然后在这个1维数据上估算相机运动。该方法仅适用于MJPEG格式的视频。文[4]提出一种在压缩域中定量分析相机运动的方法，该方法建立了一个6参数相机运动的透射变换模型，这些参数分别代表相机的缩放因子、水平移动因子，上下移动因子和旋转因子或它们的组合运动，利用P帧中运动向量信息可以求解上述参数，从而判断出相机的运动；文[5]提出一种在压缩域中定性分析相机运动的方法，首先将输入的运动向量与上、下、左、右、上左、下左、上右、下右八个方向的单位向量相比较，找出占优势的方向，在其对应的计数器上加1，在某一帧中如果八个计数器中的最大值是次大值的两倍，则认为相机朝值最大计数值所代表的方向运动，否则再用缩放检测器来检测相机是否在作缩放运动。但是，该方法不能检测旋转运动，对于相机聚焦中心点不在图象帧中央区域时，会出现判断失误。

大量研究表明，直接在象素域上分析运动或通过光流方程分析运动都是非常耗时的过程[4，6]，很难达到实时。

引用资料：

1.Xiong W，Lee J M.Efficient scene change detection and camera motion annotation for videoclassification.Computer Vision And Image Understanding，71(2)：166-181.

2.Srinivasan M V，Venkatesh S.Hosie R.Qualitative estimation of camera motion parametersfrom video sequences.Pattern Recognition，1997，30(4)：593-606.

3.Kim H，Kwon T H，Kim W M.A fast algorithm for detection of camera motion.In：ProcSPIE Real-Time Imaging，III，San Jose California，1998：78-87.

4.Tan Y P，Saur D D，Kulkami S R.Rapid estimation of camera motion from compressedvideo with application to video annotation.IEEE Trans Circuits and Systems for VideoTechnology，2000，10(1)：133-146.

5.Kobla V，Doermann D S，Rosenfeld A.Compressed domain video segmentation.Center forAutomation Research Maryland University，Technical Report：CAR-TR-829(CS-TR-3688)，1996.

6.Ardizzone E，Cascia M L，Avanzato A.Video indexing using MPEG motion compensationvectors.In：Proc IEEE Conf.on Multimedia Computing and Systems，Florence Italy，1999725-729.

发明内容

本发明的目的在于提出一种实时、快速，而且较为正确的定性分析视频中主要运动的方法。

本发明提出的视频中主要运动定性分析方法，是基于视频中运动信息(运动矢量或光流)在空间中的分布特性、运动矢量(或光流)之间的相对关系特性的一种分析方法，具体来说，首先是构造4个直方图，即：运动矢量模值直方图、运动矢量方向直方图、运动矢量相对关系直方图和垂直于运动矢量的法向矢量的相对关系直方图，然后根据这4个直方图对视频中主要运动进行分类，这些类型为：向上、向下、向左、向右、放大、缩小、旋转。有时视频中会出现多个物体运动、物体和相机同时运动等复杂情形，从运动矢量场上无法寻找出特定的规律，本方法将之归结为“未知”类型的运动。此外，视频中没有运动的，称为“静止”。

下面对本发明内容进一步描述如下。

1、构造运动矢量模值直方图

假定一个图像帧中宏块数目为N，在MPEG-1视频流中，并不是每个宏块都有运动矢量。首先统计没有运动矢量的宏块数目N_mmv。假设运动矢量为(dx，dy)，则其模值的平方为：r²＝dx*dx+dy*dy。统计所有r²≤TH1的那些运动矢量的数目，用N_mmv表示。对N_mmv和N_smell以外的运动矢量，求它们的均值μ和方差σ。统计那些与均值之差大于门限TH2的运动矢量，设它们的总数为N_loc。我们估计视频中的主要运动时，一般假定视频中没有局部运动或局部运动是可以忽略的。因此，包含在N_loc中的运动矢量认为是由局部运动或噪声引起的，不予以考虑。令N_mv＝N_mmv+N_loc，记

Hm [0] = \frac{N_{mv}}{N},

表示没有考虑运动矢量宏块在帧中所占比例。记

Hm [1] = \frac{N_{smell}}{N},

表示运动矢量模值小于规定门限的宏块在帧中所占比例。在本方法中，根据试验经验，可取TH2＝1.4σ～1.6σ、可取TH1＝1～2.5。我们将帧中不包括在N_mv和N_smell中的运动矢量叫有效运动矢量，接下来的三个直方图都是对有效运动矢量进行处理得到的。

2、构造运动矢量方向直方图

将360度化分为4个区域，运动矢量的方向直方图Ha共有四个槽，即：用Ha[0](即槽I)表示落在[-45°，45°)范围内运动矢量的数目，用Ha[1](即槽II)表示落在[45°，135°)范围内运动矢量的数目，Ha[2]、Ha[3]依次类推。对图像帧中每个有效运动矢量的方向进行统计，并进行规一化处理，就得到方向直方图Ha。

3、构造运动矢量之间的相对关系直方图

假设一副图像中任意两个宏块A和B的运动矢量分别为

{\overset{&RightArrow;}{V}}_{A} = ({dx}_{A}, {dy}_{A})

和

{\overset{&RightArrow;}{V}}_{B} = ({dx}_{B}, {dy}_{B}),

设宏块A和B在图像帧中位置分别为P_A＝(x_A，y_A)和P_B＝(x_B，y_B)，块A到块B的矢量为

{\overset{&RightArrow;}{V}}_{AB} = ((x_{B} - x_{A}), (y_{B} - y_{A})) .

附图1给出运动矢量之间可能的相对关系：平行、靠近、远离和旋转共4种情形。设α为矢量在端点A处与水平方向的角度，β为矢量在端点B处与水平方向的角度。

对附图1(a)，(b)，(c)来说，两个运动矢量都在

的同一侧，运动矢量之间的关系可以进一步分成三种：

1如果α+β＜180-TH3，则认为两个运动矢量的关系是靠近。

2如果α+β＞180+TH3，则认为两个运动矢量的关系是远离。

3否则认为它们的关系是平行。

对附图1(d)，(e)，(f)来说，两个运动矢量在的两侧，运动矢量之间的关系也可以进一步分成三种：

1.如果α+β＜TH4，则认为两个运动矢量的关系是靠近。

2.如果α+β＞TH5，则认为两个运动矢量的关系是远离。

3.否则认为它们的关系是旋转

对一幅图像帧来说，它有N_norm个有效运动矢量，从这N_norm个运动矢量中任取两个运动矢量组成运动矢量对，判断它们属于附图1中哪一种关系，共做

次计算，然后统计符合上述各种关系的直方图，并进行规一化处理，就得到运动矢量之间相对关系直方图，用Hr表示。显然，Hr有四个槽，这里约定：Hr[0]表示靠近、Hr[1]表示远离、Hr[2]表示旋转、Hr[3]表示平行。在本方法中，根据试验经验：可取TH3＝10～20，，TH4＝50～70，TH5＝220～280。这里，TH3：表示两个运动矢量同侧时，方向接近程度的门限，TH4：表示两个运动矢量异侧时，方向接近程度的门限，TH5：表示两个运动矢量同侧时，方向远离程度的门限。

4、构造法向矢量的相对关系直方图

该直方图主要用于进一步确认视频中是否有“旋转”运动类型。将每个有效运动矢量(dx，dy)用其法向矢量(-dy，dx)替代，然后用3节中给出的方法计算法向运动矢量之间的相对关系直方图。这里用Hvr表示，显然Hvr也有四个槽，这里约定Hvr[0]表示靠近、Hvr[1]表示远离、Hvr[2]表示旋转、Hvr[3]表示平行。

以上共得到的4个直方图为，Hm(2维)、Ha(4维)、Hr(4维)和Hvr(4维)。基于这四个直方图，用非常简单的分类方法实现视频中主要运动类型的定性分析。具体步骤如下：

(1)基于模值直方图Hm[0]，判断是否是“未知(unknown)”类型：如果Hm[0]＞TH6，则认为视频中主要运动类型是无法判定的，即为“未知”；否则转步骤(2)。

(2)基于模值直方图Hm[1]判断是否是“静止(still)”类型：如果Hm[1]＞TH7，则认为视频中主要运动类型是“静止”；否则转步骤(3)。

(3)基于模值直方图Hm[0]和Hm[1]联合判断是否是“未知(unknown)”和“静止(still)”类型：

令HmSum＝Hm[0]+Hm[1]，

如果HmSum＞TH8，则再作进一步判断：

如果Hm[0]＞Hm[1]，则认为视频中主要运动类型是无法判断的，即“未知”；

否则，则认为视频中主要运动类型是“静止”；

否则，转步骤(4)。

(4)基于相对关系直方图Hr，判断是否是“放大(zoom in)”、“缩小(zoom out)”、“旋转(rotate)”类型：从Hr中找出最大者，用Hr[k]表示，再找出次大者，用Hr[j]表示，如果

\frac{Hr [j]}{Hr [k]} < TH 9,

则认为视频中主要运动类型为：

k＝0，表示“放大”；

k＝1，表示“缩小”；

k＝2，表示可能是“旋转”，转步骤(6)；

k＝3，则转步骤(5)。

(5)基于模值直方图Ha，判断是否是“向下(tilt down)”、“向上(tilt up)”、“向左(panleft)”和“向右(pan right)”类型：从Ha中找出最大者，用Ha[k]表示：

k＝0，表示“向右运动”；

k＝1，表示“向下运动”；

k＝2，表示“向左运动”；

k＝3，表示“向上运动”。

(6)基于法向矢量的相对关系直方图Hvr，判断是否是真的在作“旋转(rotate)”运动：

从Hvr找出最大者，用Hvr[k]表示：如果k＝0或k＝1，则表示视频中主要运动类型是“旋转”，否则认为视频中主要运动类型是无法判断的，即“未知”。

这里，TH6：表示运动类型为未知的运动矢量在整幅图像中所占比例的门限，TH7：表示运动类型为静止的运动矢量在整幅图像中所占比例的门限，TH8：表示运动类型为未知或静止的运动矢量在整幅图像中所占比例的门限，TH9：表示两个运动矢量之间相对关系直方图中，次大者与最大者比值的门限。

在上述方法中，根据经验，4个门限TH6、TH7、TH8和TH9可以分别取为：TH6＝0.5～0.65，TH7＝0.45～0.65，TH8＝0.5～0.85，TH9＝0.85～0.95。

本发明方法主要应用于视频信息检索，因此我们不明确区分视频中主要运动是因相机动作引起、物体运动引起、还是两者同时运动所引起的。从人们的主观感受或经验来看，有时也很难区分导致视频中出现主要运动的原因。因此，我们着重考虑视频中出现的、占主要成分的相对运动的类型，不计算精确的运动参数。新方法主要依据运动信息的方向分布特性和运动矢量(或光流)之间的相对关系来判断主要运动类型，因为本方法只处理运动信息，所以可以直接工作在有运动矢量信息的视频流上，不需要对视频数据进行完全译码，因此可以达到很高的速度。下面，以MPEG-1格式的视频流为例，进一步详细阐述了本方法的实施方式。在MPEG-1格式的视频流中的运动信息就是运动矢量，特别声明，本方法的应用范围不仅限于MPEG-1格式的视频流，它适用于一切可以从中提取出运动信息的视频流中。

附图说明

附图1是一帧中任意两个运动矢量之间的可能的相对关系。其图1(a)为两运动矢量同侧、靠近，图1(b)为两运动矢量同侧、平行，图1(c)为同侧、远离，图1(d)为异侧、靠近，图1(e)为异侧、远离，图1(f)为异侧、旋转。

具体实施方式

下面以MPEG-1/2格式的视频流为例，进一步描述本发明方法。

构造运动矢量模值直方图、运动矢量方向直方图、运动矢量之间相对关系直方图、法向矢量的相对关系直方图的步骤同前所述。根据这些直方图对视频中主要运动类型的定性分析步骤也同前所述，本例中，各个门限的具体取值如下：TH1＝1.5σ，TH2＝2，TH3＝15，TH4＝60，TH5＝250，TH6＝0.55，TH7＝0.5，TH8＝0.8，TH9＝0.9。由此获得的视频中主要运动类型的分析，精确度高，速度快。

Claims

1、一种视频中主要运动的定性判断方法，其特征在于首先构造4个直方图：运动矢量模值直方图、运动矢量方向直方图、运动矢量之间相对关系直方图和垂直于运动矢量的法向矢量的相对关系直方图，然后根据这4个直方图对视频中主要运动进行分类，这些类型为：向上、向下、向左、向右、放大、缩小、旋转；其中：

运动矢量模值直方图Hm[I]为二维：

Hm [0] = \frac{N_{mv}}{N}, Hm [1] = \frac{N_{small}}{N},

其中N为一个图像帧中宏块数目，N_small为运动矢量(dx，dy)的模值平方：r²＝dx*dx+dy*dy小于门限TH1的所有运动矢量的数目，N_mv＝N_nmv+N_loc，这里N_nmv为图像帧中没有运动矢量的宏块数目，设μ和σ为对N_nmv和N_small以外的运动矢量的均值和方差，则N_loc为均值之差大于门限TH2的运动矢量总数目；

运动矢量方向直方图Ha[I]为4维：Ha[0]、Ha[1]、Ha[2]、Ha[3]，分别表示[-45°，45°)、[45°，135°)、[135°，225°)、[225°，345°)范围内运动矢量的数目；

运动矢量之间相对关系直方图Hr[I]为4维：Hr[0]、Hr[1]、Hr[2]、Hr[3]，分别表示两个运动矢量之间关系为靠近、远离、旋转、平行；对于两个运动矢量都在

同一侧，两个运动矢量的关系为：

(1)当α+β＜180-TH3时，为靠近Hr[0]，

(2)当α+β＞180+TH3时，为远离Hr[1]，

(3)否则为平行Hr[3]；

对于两个运动矢量都在

的两侧，两个运动矢量的关系为：

(1)当α+β＜TH4时，为靠近Hr[0]，

(2)当α+β＞TH5时，为远离Hr[1]，

(3)否则为旋转Hr[2]；

法向矢量的相对关系直方图Hvr[I]为4维：Hvr[0]、Hvr[1]、Hvr[2]、Hvr[3]，分别表示两个运动矢量的法矢量之间的关系为靠近、远离、旋转、平行；对于两个运动矢量都在

同一侧，两个运动矢量的关系为：

(1)当α+β＜180-TH3时，为靠近Hvr[0]，

(2)当α+β＞180+TH3时，为远离Hvr[1]，

(3)否则为平行Hvr[3]；

对于两个运动矢量都在的两侧，两个运动矢量的关系为：

(1)当α+β＜TH4时，为靠近Hvr[0]，

(2)当α+β＞TH5时，为远离Hvr[1]，

(3)否则为旋转Hvr[2]；

这里为一幅图像中任意的宏块A到宏块B的矢量，α为矢量在A端处与水平方向的夹角，β为矢量在B端处与水平方向的夹角，TH3：表示两个运动矢量同侧时，方向接近程度的门限，TH4：表示两个运动矢量异侧时，方向接近程度的门限，TH5：表示两个运动矢量同侧时，方向远离程度的门限。

2、根据权利要求1所述的方法，其特征在于具体步骤如下：

(1)如果Hm[0]＞TH6，则认为视频中主要运动类型是无法判定的，即为“未知”，否则转步骤(2)；

(2)如果Hm[1]＞TH7，则认为视频中主要运动类型是“静止”，否则转步骤(3)；

(3)令HmSum＝Hm[0]+Hm[1]，

如果HmSum＞TH8，则再作进一步判断：

否则，则认为视频中主要运动类型是“静止”；

否则，转步骤(4)；

(4)从Hr中找出最大者，用Hr[k]表示，再找出次大者，用Hr[j]表示，如果

\frac{Hr [j]}{Hr [k]} < TH 9,

则认为视频中主要运动类型为：

k＝0，表示“放大”；

k＝1，表示“缩小”；

k＝2，表示可能是“旋转”，转步骤(6)；

k＝3，则转步骤(5)；

(5)从Ha中找出最大者，用Ha[k]表示：

k＝0，表示“向右运动”；

k＝1，表示“向下运动”；

k＝2，表示“向左运动”；

k＝3，表示“向上运动”；

(6)从Hvr找出最大者，用Hvr[k]表示：如果k＝0或k＝1，则表示视频中主要运动类型是“旋转”，否则认为视频中主要运动类型是无法判断的，即“未知”；

TH6：表示运动类型为未知的运动矢量在整幅图像中所占比例的门限，TH7：表示运动类型为静止的运动矢量在整幅图像中所占比例的门限，TH8：表示运动类型为未知或静止的运动矢量在整幅图像中所占比例的门限，TH9：表示两个运动矢量之间相对关系直方图中，次大者与最大者比值的门限。

3、根据权利要求1所述的方法，其特征在于取TH2＝1.4σ～1.6σ，取TH1＝1～2.5。

4、根据权利要求1所述的方法，其特征在于取TH3＝10～20，TH4＝50～70，TH5＝260～280。

5、根据权利要求2所述的方法，其特征在于取TH6＝0.5～0.65，TH7＝0.45～0.65，TH8＝0.5～0.85，TH9＝0.85～0.95。