CN100411443C

CN100411443C - 估计图像序列中的主要运动的方法

Info

Publication number: CN100411443C
Application number: CNB028258886A
Authority: CN
Inventors: 弗朗索瓦丝·勒克莱尔; 西尔万·马雷克
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-12-19
Filing date: 2002-12-12
Publication date: 2008-08-13
Anticipated expiration: 2022-12-12
Also published as: JP2005513929A; AU2002364646A1; KR100950617B1; WO2003055228A1; KR20040068291A; FR2833797A1; FR2833797B1; CN1608380A; JP4880198B2; US20050163218A1; EP1468568A1; MXPA04005991A

Abstract

一种方法，用于执行与图像相关的运动矢量场的计算(1)，对于具有坐标xi，yi的象素，定义了具有分量ui，vi的一个或多个运动矢量，所述方法的特征在于还执行以下步骤：-根据简化的参数表示来建立运动的模型(2)：ui＝tx+k.xi；vi＝ty+k.yi。其中，tx，ty是表示运动的平动分量的矢量的分量，k是代表运动的变焦分量的散度因数，-在由平面(x，u)和(y，v)所限定的两个运动表示空间的每一个中进行鲁棒线性回归(3)，以给出回归直线，其中x，y，u和v分别表示变量xi、yi、ui和vi的轴，-根据回归直线在原点处的斜率和纵坐标来计算参数tx，ty和k(4，5)。其应用涉及关键图像的选择，用于视频索引或产生元数据。

Description

估计图像序列中的主要运动的方法

技术领域

本发明涉及一种用于估计视频镜头(shot)中的主要运动的方法和设备。更具体地，该方法基于对在使用运动补偿的压缩方案中与视频一起发送的运动场的分析。在MPEG-1、MPEG-2和MPEG-4视频压缩标准中实现了这种方案。

背景技术

已知运动分析依赖于根据从MPEG类型压缩视频流中得到的运动矢量，对运动模型的估计，运动模型通常是仿射的：

\{\begin{matrix} u (x_{i} + y_{i}) = a x_{i} + b y_{i} + c \\ v (x_{i} + y_{i}) = d x_{i} + e y_{i} + f \end{matrix}

这里，u和v是表示运动场的位置(x_i，y_i)处的矢量

的分量。运动模型的仿射参数a、b、c、d、e和f的估计依赖于最小平方差技术。M.A Smith和T.Kanade的文章“Video Skimming and Characterizationthrough the Combination of Image and Language Understanding”(Proceedings of IEEE 1998International Workshop on Content-BasedAccess of Image and Video Databases，61和70页)描述了这种方法。这篇文章的作者使用运动的仿射模型的参数以及场的矢量的空间分量的均值u和v，对明显的运动进行标识和分类。例如，为了确定运动是否是变焦，利用以下条件验证存在矢量场的会聚点(x₀，y₀)，从而使得u(x₀，y₀)＝0且v(x₀，y₀)＝0：

|\begin{matrix} a & b \\ d & e \end{matrix}| &NotEqual; 0

分析矢量分量的均值u和v，以测试平摇镜头(panning shot)的假设。

还已知运动分析方法直接使用了从MPEG视频流中得到的矢量场，而不包含对运动模型的识别。O.N.Gerek和Y.Altunbasak的文章“Key Frame Selection from MPEG Video Data”(proceedings of theVisual Communications and Image Processing’97 congress，920～925页)描述了这种方法。该方法在于，对于与MPEG二进制序列图像相关的每一个运动场，构造矢量场的两个直方图，一个表示作为其方向的函数的矢量的存在，而第二个表示其幅度的函数。图1和图2表示了这种直方图的示例：图1示出了图像中的明显运动是变焦的结构，而在图2中，主要运动是平摇。

然后，对于两个直方图中的每一个，将与直方图的每一类(或“bin”)中的运动矢量的数目相关的变化的阈值设置用于识别“变焦”和“平摇”类型的主要运动的出现。

例如Gerek和Altunbasak所提出的方法提供了有关主要运动的分类的纯量化信息，而通常还需要有关运动幅度的量化估计。例如Smith和Kanade所提出的基于估计运动的参数模型的方法提供了这种量化信息，但通常是非常不可靠的。特别地，这些方法没有考虑到在已处理视频场景中、跟随在不同明显运动之后的多个物体的出现。对与次要物体相关的矢量的考虑容易明显地歪曲主要运动的模型参数的最小二乘估计。这里将次要物体定义为占据的图像区域比至少一个其它物体所占据的小的目标，该物体与占据了图像中最大区域的主要运动相关联。此外，即使在图像运动中出现单一物体，充当运动分析基础的压缩视频流的矢量也不会始终反映图像的明显实际运动的事实。具体地，针对在运动补偿之后使要发送的信息量最小来计算这些矢量，而不是估计图像象素的物理运动。

基于从压缩流中得到的矢量的运动模型的可靠估计需要使用鲁棒方法，根据与并未跟随主要运动的次要物体相关的运动矢量以及不与图像主要物体的物理运动相对应的矢量的计算来自动地估计。

在与压缩视频流的使用不同的情况中已经提出了估计主要运动的参数模型的鲁棒方法。一个示例是P.Bouthemy、M.Gelgon和F.Ganansia的、标题是“A unified approach to shot change detection andcamera motion characterization”的文章，发表在IEEE journal Circuitsand Systems for Video Technology volume 9 No.7，1999年10月，1030～1044页。这些方法具有实现起来非常复杂的缺点。

发明内容

这里提出的本发明的目的在于减少上述用于估计主要运动的多类方法的缺点。

本发明的主题是一种方法，用于通过执行与图像相关的运动矢量场的计算来检测图像序列中的主要运动，对于具有坐标xi，yi的象素，定义了具有分量ui，vi的一个或多个运动矢量，所述方法的特征在于还执行以下步骤：

-根据简化的参数表示来建立运动的模型：

ui＝tx+k.xi

vi＝ty+k.yi

其中，tx，ty是表示运动的平动分量的矢量的分量，

k是代表运动变焦分量的散度因数，

-在由平面(x，u)和(y，v)所限定的两个运动表示空间的每一个中进行鲁棒线性回归，以给出回归直线，其中x，y，u和v分别表示变量xi、yi、ui和vi的轴，

-根据回归直线在原点处的纵坐标和斜率来计算参数tx，ty和k。

根据一种实现模式，鲁棒回归是一种最小平方中值方法，该方法在于在一组直线j中搜索提供了残差平方的中值组中最小的一个，r_i，j是相对于直线j，具有坐标xi，ui或yi，vi的第i个采样的残差：

\min_{j} (\underset{i}{med} r_{i, j}^{2})

根据一种实现模式，将搜索残差的最小平方中值应用于预定数目的直线，通过在所考虑的运动的表示空间中随机抽取的一对采样来确定每一条直线。

根据一种实现模式，在鲁棒线性回归之后，执行第二非鲁棒线性回归，可以改进运动模型参数的估计。第二线性回归排除了表示空间中其从第一鲁棒回归得到的回归残差超过预定阈值的点。

根据一种实现模式，该方法执行在每个表示空间中所计算得到的回归直线的方向系数的等同性测试，该测试基于残差平方和的比较，首先通过执行每个表示空间中的分离回归，然后通过对两个表示空间中的采样组执行全局斜率回归来获得所述残差，并且在测试是肯定的情况下，通过在每个表示空间中获得的回归直线的方向系数的算术平均值来估计模型的参数k。

本发明还涉及一种实现该方法的设备。

通过利用视频图像中的主要运动的非常简单但足够逼真的参数模型，该方法允许以减少的成本实现运动模型的识别的鲁棒方法。更准确地，本发明所述方法的主要优点在于使用了运动矢量的分量表示的明智空间，可以将运动模型的参数识别减少为双线性回归。

附图说明

在利用非限制性的示例和有关附图所给出的以下说明中，将会使本发明的其它特点和优点更加显而易见，其中：

-图1，与“变焦”相对应的理论运动矢量场，

-图2，与背景的主要运动是“平摇”类型的场景相对应的理论运动矢量场，其中还包括了遵循不同于主要运动的运动的次要物体，

-图3，本发明所使用的运动矢量表示空间的图示，

-图4，以本发明中所使用的变焦运动为中心的变焦运动的理论矢量的分布，

-图5，本发明中所使用的表示空间中的图像的全局倾斜平动运动的理论矢量的分布，

-图6，本发明中所使用的表示空间中的平动和变焦的组合运动的理论矢量的分布，

-图7，本发明中所使用的表示空间中的静态场景(零运动)的理论矢量的分布，

-图8，检测主要运动的方法的流程图。

具体实施方式

图像序列中的主要运动的特性包括明显的主要运动的参数模型的识别。在利用从压缩视频流中得到的运动矢量场的情况下，该模型必需表示二维图像平面中的明显运动。通过把投影近似到三维空间中的物体的运动的图像平面上来获得这样的模型。作为示例，在文献中通常采用以上所示有6个参数(a，b，c，d，e，f)的仿射模型。

基本上，所提出的方法在于当编码准则使用如MPEG-1，MPEG-2和MPEG-4标准等运动补偿技术时，根据视频流中所提供的运动矢量场，标识运动的该参数模型，从而执行其解码。但是，本发明所述的方法也适用于通过根据组成被处理的视频序列的图像的独立处理所计算出来的运动矢量场。

在本发明的上下文中，从具有四个参数(t_x，t_y，k，θ)的简化线性模型中推导出所采用的运动模型，我们将此模型称作SLM(表示简化线性模型的缩写)，其定义如下：

[\begin{matrix} u_{i} \\ v_{i} \end{matrix}] = [\begin{matrix} t_{x} \\ t_{y} \end{matrix}] + [\begin{matrix} k & - θ \\ θ & k \end{matrix}] [\begin{matrix} x_{i} - x_{g} \\ y_{i} - y_{g} \end{matrix}]

其中：

(u_i，v_i)^t：与坐标为(x_i，y_i)^t的图像平面像素相关的明显运动矢量的分量，

(x_g，y_g)^t：参考点的坐标，用于对摄像机拍出的二维图像的三维场景的近似；将该参考点认为是图像中坐标为(0，0)^t的点，

(t_x，t_y)^t：表示运动的平动分量的矢量，

k：散度因数，表示运动的变焦分量，

θ：关于摄像机轴的运动的旋转角度。

客观查找用于识别视频序列中由移动和例如光学变焦之类的摄像机的光学变换所引起的主要运动。具体地，这包括识别摄像机的运动，从统计上来说，这些运动是最普遍的视频文件组成部分，主要根据平动运动、变焦运动、二者相结合以及没有运动，即静态或静止镜头来进行分类。没有考虑在实际中很少观察到的摄像机旋转效果：因此，在假设θ≈0的前提下，本模型受到三个参数(t_x，t_y，k)的约束。

于是，得到了矢量分量及其在图像中的空间位置之间的两个线性关系：

\{\begin{matrix} u_{i} = t_{x} + k . x_{i} \\ v_{i} = t_{y} + k . y_{i} \end{matrix}

这种运动的简化参数表示的优点在于：可以通过运动的表示空间的线性回归u_i＝f(x_i)和v_i＝f(y_i)来估计分别描述了运动模型中的两个平动分量和变焦参数的参数t_x，t_y和k。因此，如图3所示，这些空间中的运动矢量场的表示通常给出了分布在斜率为k的直线附近的一簇点。

用于估计简化运动模型的参数的过程基于在每个运动表示空间中应用鲁棒型线性回归。例如，线性回归是一种通过使每个点到其拟合直线的距离的平方和最小来确定对一簇点的最佳拟合直线的数学运算。在本发明的情况下，利用鲁棒统计估计技术来实现这种运算，从而保证相对于数据中异常值的出现的不敏感度。具体地，主要运动的模型的估计必需忽略以下几点：

-图像中出现多个物体，其中某些遵循不同于主要运动的次要运动，

-不表示物体的实际运动的运动矢量的出现。具体地，视频压缩流中传输的运动矢量的计算目的是为了使运动补偿后残余信息最小，而不是以提供组成图像场景的物体的真实运动为目的。

图8描述了用于估计序列中主要运动的方法的多个步骤。随后更加准确地描述这些步骤中的每一个。

第一步骤1执行与所处理的视频序列图像相关的运动矢量场的归一化。假设在本算法使用前已经利用运动估计器求出了这些矢量场。与所谓的“块匹配”方法中一样，可以针对图像像素的矩形块来执行运动估计，或提供一种稠(dense)矢量场，其中针对图像的每个像素来估计矢量。本发明优选地但并不局限于处理由视频编码器计算得到所使用的矢量场，并出于解码目的，在压缩视频流中传输矢量场的情况。在所使用的编码方案符合MPEG-1或MPEG-2标准之一的典型情况下，相对于其到当前图像的时间距离是可变的参考帧，对于当前图像，以每个矩形块一个矢量的速度来估计运动矢量。此外，对于双向预知的所谓“B”帧，对于同一个块可以求出两个运动矢量，一个从当前图像指向之前的参考帧，另一个从当前图像指向之后的参考帧。因此，归一化矢量场的步骤是不可缺少的，以便在随后的步骤中处理在相等持续时间的时间间隔上计算得到的、指向相同方向的矢量。V.Kobla和D.Doermann的文章“Compressed domain video indexingtechniques using DCT and motion vector information in MPEG video”(Proceedings of the SPIE vol.3022，1997，200～211页)中第3.2节提供了一种执行这种归一化的典型方法。还可以使用基于MPEG矢量计算间隔上的运动线性近似的其它简单技术。

参考数字为2的第二步骤执行了上述运动表示空间的构造。分别用两个空间u_i＝f(x_i)和v_i＝f(y_i)内的点来表示分量为(u_i，v_i)^t、位置为(x_i，y_i)^t的运动场的每个矢量

。

每对点(x_i，u_i)和(y_i，v_i)与运动场的矢量表示相对应，可以相对于每个空间的回归直线对每对点(x_i，u_i)和(y_i，v_i)进行建模：

\{\begin{matrix} u_{i} = a_{0} . x_{i} + b_{0} + ϵ_{ui} \\ v_{i} = a_{1} . y_{i} + b_{1} + ϵ_{vi} \end{matrix}

其中，

(a₀，b₀)是在空间u_i＝f(x_i)中计算得到的回归直线参数；ε_ui是相应的残余误差。

(a₁，b₁)是在空间v_i＝f(y_i)中计算得到的回归直线参数；ε_vi是相应的残余误差。

图3示出了根据归一化运动矢量场构造这两个空间之后所获得的点簇。

在每个表示空间中线性回归完成时所获得的参数(a₀，b₀)和(a₁，b₁)提供了对主要运动模型参数的估计。因此，斜率a₀和a₁对应于表征变焦分量的散度因数k的二重估计，而在原点处的纵坐标b₀和b₁对应于对平动分量t_x和t_y的估计。

图4到图7示出了几个可能配置的示例。

-图4是居中变焦情况下的数据分布，

-图5是倾斜平动运动情况下的数据分布，

-图6是偏心变焦(将变焦和平动相结合的运动)情况下的数据分布，

-图7是没有运动情况下的数据分布。

接下来的步骤3针对每个运动表示空间，进行鲁棒线性回归，其目的是从对应于图像中次要物体的运动或对应于与其相关的不表达像素真实运动的矢量中分离出代表真实的主要运动的数据点。

存在几类鲁棒估计的方法。根据本发明的优选实施例，按照以下方式计算回归直线，以便满足最小平方中值准则。P.Meer、D.Mintz和A.Rosenfeld的文章“Robust Regression Methods for Computer Vision：A Review”(公布在International Journal of Computer Vision，volume 6No.1，1991，59～70页)的第3段更完整地描述了以下简要介绍的计算方法。

令r_i，j为运动表示空间内第i个采样的残差，在该空间中，试图估计回归参数集E_j(回归直线的斜率和截距)，计算E_j，从而满足以下准则：

\min_{E_{j}} (\underset{i}{med} r_{i, j}^{2})

根据所考虑的表示空间，残差r_i，j对应于与参数为E_j的回归直线的第i个采样建模相关的残留误差ε_ui或ε_vi。这种非线性最小化问题的解决方案需要在所有可能的直线中寻找由E_j定义的直线。为了限制计算量，将这种查找局限于p条回归直线的有限集，从正在研究的表示空间的采样中随机抽取的p对点定义该有限集。对于p条直线中的每一条，都按照识别显示了中值残差平方的方式来计算并分类残差的平方。估计回归直线，以便得到最小的残差平方中值。

只从中值残差的平方中选择回归直线，而不是残差集合，这给出了回归过程的鲁棒本质。具体地，这可以忽略残差的极值，其易于与异常数据点相对应，从而使回归出错。

例如，通过测试p＝12条直线，p对中至少有一对包含两个非异常采样的概率，也就是说表示主要运动的概率非常接近于1。假设如果异常采样的比例小于50％，与包含至少一个异常采样的点对相比，不包含异常采样的点对提供了能够更好地拟合采样簇的回归直线，并因此显示了更小的残差平方中值。因此，几乎可以肯定通过两个非异常采样决定了最后得到的回归直线，从而保证此方法对于异常采样的鲁棒性。

之后，将在每个表示空间中通过鲁棒估计所获得的回归直线用于识别异常采样点。出于此目的，假设非异常采样服从高斯分布，并且将其绝对值的残差超过鲁棒估计

的K倍的所有采样标记为异常采样，作为对应于最佳回归直线的残差平方的中值函数，计算与非异常采样相关的残差标准差的鲁棒估计

有利地，将K值固定为2.5。

但是，在此步骤3中，习惯上最后对每个表示空间的采样执行非鲁棒的线性回归，而不包括识别为异常值的采样。这些回归提供参数(a₀，b₀)和(a₁，b₁)的改进估计，这些参数将在随后的方法中用到。

接下来的步骤4执行了对每个表示空间的回归直线的线性测试。该测试的目的是验证每个空间的点簇实际上近似沿直线分布，这不能保证回归直线的例行出现。

在每个表示空间中，通过将从有关非异常采样的线性回归中得到的残差标准差与预定阈值进行比较来执行线性测试。阈值依赖于本方法步骤1中应用于运动矢量的临时归一化。归一化之后，在每个矢量表示对应于两个分离交叉帧的时间间隔的位移情况下，即对于50Hz的传输是40ms，有利地，可以将这个阈值固定在6。如果在两个表示空间中执行的至少一个线性测试失败，则认为对应于当前图像的运动域不能可靠地估计主要运动模型。于是，设置表示主要运动估计过程失败的标志，并处理下一图像。

在相反的情况下，进入接下来的步骤5，该步骤在于验证给出了运动模型中散度因数k的二重估计的斜率a₀和a₁差别不明显。两个回归斜率的等同性测试是已知的问题，用一些统计方法可以解决；例如可以查阅C.R Rao在由Wiley出版(第二版)的“Linear StatisticalInference and its Applications”一书中关于偏差分析的章节。按照传统方式，通过计算有关运动矢量场的两个表示空间的非异常采样点集的全局回归斜率来执行该测试。然后，构成与数据集的全局斜率估计相关的残差平方和，与相关于独立回归的残差平方和的两个空间上的总和的比率，所述独立回归只与非异常采样相关。将该比率与预定的阈值相比；如果比率大于阈值，则两个运动表示空间中回归斜率相等的假设不是统计有效的。于是，设置表示主要运动估计过程失败的标志，并处理下一图像。在测试结果是肯定的情况下，利用在每个表示空间中获得的回归斜率a₀和a₁的算术平均值来估计主要运动模型中的散度因数k的值。分别由从表示空间的线性回归中得到的截距b₀和b₁的值来估计参数t_x和t_y。

在认为运动模型有效的情况下，即，如果成功通过了步骤4和5中所执行的测试，则在接下来的参考数字为6的步骤期间执行主要运动的分类。

使用所估计参数的矢量θ＝(k，t_x，t_y)^t，以便决定将主要运动分类到其中的类别，即：

-静态，

-纯平动，

-纯变焦，

-平动和变焦相结合。

分类算法基于模型参数的无效性测试，根据下表：

根据一种简单技术，可以通过简单地将其绝对值与一个阈值相比较来执行模型参数估计的无效测试。也可以使用基于对数据分布的统计建模的更复杂方法，在此统计构架中，发表于IEEE journal Circuitsand Systems for Video Technology volume 9 No.7，1999年10月，第1030页到第1044页的P.Bouthemy，M.Gelgon和F.Ganansia的文章“Aunified approach to shot change detection and camera motioncharacterization”中提出了一种根据似然测试来确定模型参数无效性的典型算法。

本发明的应用涉及根据关键图像的选择的视频索引。

具体地，视频索引过程通常在预处理中开始，试图将视频流中要处理的信息量限制为从序列中选择的一组关键图像。只在这些关键图像中执行视频索引处理，尤其是可视特征的提取，每个关键图像表示了一段视频的内容。理想地，这组关键图像应该能构成视频的详细概要，并且应当避免关键图像的可视内容之间的冗余，从而可以使索引过程的计算负担最小化。用于估计每个视频镜头中的主要运动的方法可以通过使其适合主要运动而优化每个镜头中涉及这些准则的关键图像的选择。例如，可以总计根据镜头内的参数t_x(或t_y)而估计的图像水平(或垂直)平动，也可以一旦总和超过图像宽度(或高度)时，对新的关键图像进行采样。

所述方法也可以用于元数据的产生。在视频拍摄期间，主要运动通常与摄像机的运动一致。某些导演用特殊的摄像机运动序列，从而向观众表达某些感情或感觉。本发明所述的方法可以检测视频中的这些特殊序列，并因此提供了与导演在某些视频部分中所制造的气氛相关的元数据。

主要运动检测的另一个应用是检测或有助于检测镜头中断。具体地，序列的主要运动属性的突然变化只能由镜头的中断引起。

最后，本发明所述的方法允许在每个图像中对主要运动的支持的识别。在主要运动的意义中，这种支持实际上与其相关矢量没有被识别为异常值的像素集一致。主要运动支持的常识提供了对遵循此运动的物体的分割。可以使用此分割，从而执行图像的组成物体的独立索引，以允许处理有关物体而不是全部图像的局部要求，或者在基于视频压缩算法的物体的构架中使用，例如在MPEG-4视频压缩标准中所规定的那些。

Claims

1. 一种方法，用于通过执行与图像相关的运动矢量场的计算(1)来估计图像序列中的主要运动，对于具有坐标xi，yi的象素，定义了具有分量ui，vi的一个或多个运动矢量，所述方法的特征在于还执行以下步骤：

-根据简化的参数表示来建立运动的模型(2)：

ui＝tx+k.xi

vi＝ty+k.yi

其中，tx，ty是表示运动的平动分量的矢量的分量，

k是代表运动变焦分量的散度因数，

-在由平面(x，u)和(y，v)所限定的两个运动表示空间的每一个中进行鲁棒线性回归(3)，以给出回归直线，其中x，y，u和v分别表示变量xi、yi、ui和vi的轴，

-根据回归直线在原点处的纵坐标和斜率来计算参数tx，ty和k(4，5)。

2. 根据权利要求1所述的方法，其特征在于所述鲁棒回归(3)是一种最小平方中值方法，该方法在于在一组直线j中搜索提供了残差平方的中值组中最小的一个，r_i，j是相对于直线j，具有坐标xi，ui或yi，vi的第i个采样的残差。

3. 根据权利要求1所述的方法，其特征在于在鲁棒线性回归(3)之后，执行第二非鲁棒线性回归，可以改进运动模型参数的估计。

4. 根据权利要求3所述的方法，其特征在于第二线性回归排除了表示空间中其从第一鲁棒回归得到的回归残差超过预定阈值的点。

5. 根据权利要求1所述的方法，其特征在于执行在每个表示空间(4)中所计算得到的回归直线的方向系数的等同性测试(5)，该测试基于残差平方和的比较，首先通过执行每个表示空间中的分离回归，然后通过对两个表示空间中的采样组执行全局斜率回归来获得所述残差，并且在测试是肯定的情况下，通过在每个表示空间中获得的回归直线的方向系数的算术平均值来估计模型的参数k。

6. 根据权利要求1所述的方法，其特征在于根据tx、ty和k的值，将主要运动划分为以下类别之一：平动、缩放、平动和缩放的结合以及静态图像。

7. 根据权利要求1所述的方法，其特征在于由使用运动补偿的压缩算法所考虑的视频序列的编码来得到运动矢量场，所述压缩算法如与MPEG-1、MPEG-2或MPEG-4压缩标准相一致的算法等。

8. 一种用于选择镜头中的关键图像的方法，其特征在于其针对与所述镜头相对应的图像序列，实现了权利要求1所述的步骤，作为在先图像上、与计算得到的参数tx、ty或k相关的信息总和的函数来选择图像，作为关键图像。