CN1433640A

CN1433640A - 用于子画面生成的全局运动估计

Info

Publication number: CN1433640A
Application number: CN01810756A
Authority: CN
Inventors: K·帕努索庞; 陈学敏
Original assignee: General Instrument Corp
Current assignee: Arris Technology Inc
Priority date: 2000-06-06
Filing date: 2001-05-24
Publication date: 2003-07-30
Also published as: CA2410501A1; US7084877B1; EP1287702B1; AU2001264992A1; TW511379B; KR20030014689A; EP1287702A2; WO2001095632A3; CN1574965A; WO2001095632A2; CA2410501C; CN1578465A

Abstract

一种自动的子画面生成系统，其采用第一阶预测来作初始估计，对异常画面(outlier)采用延迟排除、对隔行扫描视频源采用基于场的子画面生成方法。初始估计的较高阶预测可用来处理更复杂的运动。本发明对现有MPEG－4方案中没有得到处理的异常画面及快速运动等问题进行处理。自动子画面生成可在输入图像上通过执行拍摄检测(例如，拍摄全景或缩放)而提供，以便提供形成子画面中共享同一场景的一组连续图像。用以形成子画面的运动参数数据的初始估计可通过使用至少两先前输入图像的运动参数数据而得到改善。延迟的异常画面排除可通过排除误差在连续子画面迭代中增加的像素而以两个步骤执行。对于隔行扫描的输入图像而言，子画面及运动参数组可于每个场分开编码及传送。

Description

用于子画面生成的全局运动估计

发明背景

本发明涉及子画面生成与3D运动估计，以及全局运动估计的新开发技术。

1.介绍

子画面系表示整个可见场景的静止画面。一幅子画面可通过亮度、色度、与灰度阿尔法数据的二维空间数组表示。

实际上，子画面是从计算机动画绘图产生，或在多个部分的静态背景上所得到的自然图像集。就此意义来说，子画面具有与摄影测量法的图像镶嵌、图像处理、及计算机绘图相同的意义。

例如，如图9所示，子画面950可从连续图像910和930形成。子画面950的每个特征可与来自输入图像(例如某些帧)910和930的相应特征对准。运动参数描述与输入图像特征最匹配的子画面的弯曲。子画面可能必须使序列中的每个输入帧作不同的弯曲，这例如是起因于摄像机运动或对象的运动。

例如，树对象912″是基于来自第一输入图像910的树对象912。房子对象914″是分别基于来自第一及第二输入图像910和930的房子对象914和914′。树对象916″基于第二输入图像930的树对象916′。

而且，如果子画面是个序列中的背景对象，由于前景物件或摄像机运动(例如移动摄像)，该背景对象在某些帧中不是全部可见，则整个子画面可通过收集输入帧的相关像素而在序列上将它逐渐更新获得。

子画面已在例如视频游戏、交互式广告、虚拟旅行等的各种不同应用中变得很流行。子画面可提供有效途径来实现场景导航。在任何角度上的任何一部分景象可通过适当弯曲及裁剪子画面而构造出来。因此，它在网络广告中使用得越来越多。例如，子画面可用来显示汽车的内部结构，而且用户可通过旋转可见角度来对它进行检视及/或缩放。

另一范例是通过使用子画面来传送股市行情指示器，而不用活动视频，根据我们的研究，其可减少20倍以上的数据量。标志符(例如，站台标识、广告或类似物)亦可当作子画面传送。

子画面在新图像中可被再次访问，该子画面中的场景具有冗余性或者说具有很容易被重新编码的部分，所以子画面从编码效率的观点来看是非常有益的。因此，MPEG-4(国际标准的ISO/IEC 14496-2最后草拟″Information Technology-Coding of audio-visual obiects，Part2：visual，″MPEG98/N2502，1998年12月)已通过将它们收入到其视频部分，对子画面编码工具进行标准化。静态子画面只可提供子画面部份(sprite piece)的弯曲结果，而动态子画面(DS)与全局运动补偿(GMC)允许将弯曲结果与先前译码的视频对象平面(VOP)混合及局部调整。子画面部份基本上是一幅图像，但是其源自于图像镶嵌(例如，镶嵌部份)。

静态子画面已用于MPEG-4视觉版本1，而且DS和GMC可预期包含在版本2中。根据版本1语法，静态子画面部份可立即在序列的起始位置上或在低延时模式下逐部份作为一般内部VOP被编码。全局运动参数(于预期的运动模型可多达8个)亦在每个VOP上编码。但是，子画面部份与全局运动参数不属于MPEG-4编码器，而是用作MPEG-4编码器的输入。

虽然MPEG-4图像可提供子画面的编码工具，但是它对应如何生成子画面没有作出规定。在MPEG-4图像确认模型版本9.1(信息部分)的信息部分中(ISO/IEC 14496-2 MPEG-4 Video Verification ModelVersion9.1，MPEG98/M3100，Feb.1998)，只提供了参考算法的简短描述。

因此，有必要提供一种改进的全局运动估计技术来生成离线子画面。该技术应该对在MPEG-4(可参考MPEG98/M31002，及由J.Konrad和F.Dufaux于1998年2月所作标题″Improved global motion estimationfor N3″的文章，ISO/IEC JTC1/SC29/WG11 MPEG98/M3096)的核心实验所提出的参考算法进行扩充。

最初MPEG-4方法采用预期全局运动估计的迭代非线性最小化算法。此迭代算法严重依赖初始估计的质量。

因此，希望改进子画面编码的效率并允许源序列具有更多的灵活性，比如可通过提供新工具，例如自动子画面生成系统、初始估计的第一阶预测、异常画面排除的延迟删除、及隔行扫描视频源的基于场的子画面生成等。

希望提供一项技术来根据预先弯曲及递归技术确定更为精确的初始估计。

希望使用一种有效的异常画面排除方法而改善子画面生成与运动参数的精确性。

在控制与未受控制的情况下，同时希望改善子画面生成与运动参数的质量。受控制情况是在正常环境中预期的理想状况，例如，景象没有噪声、视频图像于不同的帧之间较慢运动。

本发明可提供具有上述及其他优点的一种系统。

发明概述

本发明系有关于子画面生成与3-D运动估计、及全局运动估计的最新技术。

因为就局部而言，由MPEG-4提出的子画面生成算法的全局运动估计技术容易受到异常画面与快速运动问题的影响，所以其未能实际使用。

本发明可通过提供一个完全自动子画面生成系统、一种初始估计的第一阶预测、异常画面排除的延迟删除、及用于隔行扫描视频源的基于场的子画面生成来处理上述及其他令人关注的问题。

作为选择，初始估计的较高阶预测可用来处理更复杂的运动。

本发明对于生成子画面很有用，例如，3D序列、股市行情指示器、交互式广告及多种其他用途。

特别是，自动子画面生成可通过在输入图像上执行拍摄检测而提供，以便提供一组共享相同静态背景的连续图像来形成子画面。该拍摄检测可检测摇动拍摄，在此情况下运动参数的初始估计中块匹配是开启的；或检测缩放，在此情况下初始估计的块匹配是关闭。

从一连串输入图像形成子画面的运动参数数据的初始估计可根据在初始输入图像之前的至少两幅输入图像的运动参数而提供，例如，通过使用该两预先输入图像(至少两幅)的运动参数的线性预测或非线的预测来进行估计。在一特殊具体实施例中，运动参数S_n的初始估计可根据下式提供：S_n＝S_n-1+(S_n-1-S_n-2)，其中S_n-1是在初始输入图像之前的一输入图像的运动参数，而且S_n-2是下一个在前的输入图像的运动参数。

在进一步具体实施例中，延迟的异常画面排除可通过提供对运动参数数据的至少第一及第二连续估计而实现，用以提供在子画面与初始输入图像之间的对准。在初始输入图像像素与子画面像素之间的至少第一及第二误差可分别根据至少第一及第二估计而决定。第二估计可基于第一误差而通过更新第一估计而获得。第二误差超出它们第一误差的像素可从生成子画面中考虑排除。

在另一具体实施例中，用以从包含隔行扫描的第一及第二场的一连串输入图像中生成子画面数据的方法包括下列步骤：为输入图像的第一及第二场中分别生成第一及第二场子画面，其带有分开的运动参数数据组，及从第二场子画面及用以传输给至少一译码器的相关运动参数数据而分开对第一场子画面及其相关的运动参数数据进行编码。

用以在译码器上处理子画面数据的相应方法包括下列步骤：接收从编码器传送的数据，其中数据包括一编码的第一场子画面及其相关运动参数数据；及一分开编码的第二场子画面及其相关运动参数数据。第一及第二场子画面可在编码器上分别从至少一初始输入图像的隔行扫描第一及第二场而生成。该方法进一步包括下列步骤：对该编码的第一场子画面及其相关运动参数数据进行译码，以提供第一场子画面输出；对该编码的第二场子画面及其相关运动参数数据进行译码，以提供第二场子画面输出；并组合该第一场子画面输出及第二场子画面输出，以形成一组合的子画面输出，例如，可用于电视或计算机监视器显示。

附图说明

图1显示根据本发明中所描述的子画面生成装置。

图2系描述全局运动估计方法的流程图。

图3显示根据本发明而描述自动子画面生成系统。

图4系描述异常画面范例。

图5(a)系描述使用截除二次方程式(TQ)异常画面排除方法结果的一非对齐图像。

图5(b)系描述使用截除二次方程式(TQ)异常画面排除方法结果的一异常画面。

图6系根据本发明而描述延迟删除算法。

图7系根据本发明而的描述全局运动估计的方法。

图8系所描述子画面译码器。

图9系所描述子画面的构造。

图10系根据本发明而描述用以处理隔行扫描视频源的编码器与译码器。

发明详述

本发明涉及生成子画面图像。

2.子画面生成与全局运动估计

本节对有关MPEG-4编码器子画面生成作一概述。MPEG-4编码器的必要输入是子画面部份与运动参数。此运动参数包括作为特殊情况下(有关转换运动模型)的传统运动向量(如同在MPEG-2)。MPEG-4编码器可通过使用内部编码模式而压缩该子画部份。任何时间实例的图像可根据运动参数而通过弯曲子画面部份的1、2、3、或4角落(因运动模型而定)的子画面曲线(子画面参考点)表示。

子画面部份与运动参数密切相关，因此，可在子画面生成中同时被确定。子画面部份可根据全局运动参数将新图像弯曲及根据混合方法而将它在目前子画面上更新而建立。一个主要问题是如何找到每个图像的运动参数。此问题会在图像对准问题的一般情况中发生。最佳解是使在对准(新图像)与对准(子画面)图像之间的相关性最大的运动(弯曲)参数。只使用转换运动的图像对准的一种统计方法是由W.K.Pratt在1974年5月，IEEE Trans.Aerospace Electronics and Systems，第AES-10册的第353-358页的名称″Correlation techniques of imageregistration″中提供。

需要在3D空间中作完全几何变换的三维空间(3D)运动允许整个范围内的运动，例如，在两图像之间的旋转、缩放、与剪截。对3D运动估计方法的一个概述可参考T.S.Huang、和A.N.Netravali在1997年7月的Proc.IEEE，第82册，第252-268页名为″Motion and structure fromfeature correspondences：A review″的文章。

对于自然的图像而言，MPEG-4子画面编码是适于包含静态背景与经历摄像机运动的一图像序列。既然任意形状的编码可因相关的阿尔法平面而定，允许将输入分成数个对象，所以此情况可有效用于MPEG-4；因此，有时运动部分可分成另一对象，并从子画面排除。在此假设下，一个新图像部分会受到来自一部分先前图像或子画面的变形，因此子画面的像素是在专利案号MPEG98/M3100及在1997年微软研究技术报告，1997年由H.Y.Shum和R.Szeliski所提出，名称为″Panoramic image mosaics″中所讨论通过平面透视变换(向前弯曲)而与遮盖图像的像素有关，如下所示：

x^{'} = \frac{m [0] x + m [1] y + m [2]}{m [6] x + m [7] y + m [8]}

y^{'} = \frac{m [3] x + m [4] y + m [5]}{m [6] x + m [7] y + m [8]}

其中m[0]到m[8]是预期系数(m[8]根据平面情况被设成1)，并且(x，y)及(x′，y′)分别是弯曲图像与子画面的像素坐标。反向弯曲用来描述在遮盖图像像素与子画面像素之间的关系，即，

x = \frac{(m [4] m [8] - m [5] m [7]) x^{'} + (m [2] m [7] - m [1] m [8]) y^{'} + m [1] m [5] - m [2] m [4]}{(m [3] m [7] - m [4] m [6]) x^{'} + (m [1] m [6] - m [0] m [7]) y^{'} + m [0] m [4] - m [1] m [3]}

y = \frac{(m [5] m [6] - m [3] m [8]) x^{'} + (m [0] m [8] - m [2] m [6]) y^{'} + m [2] m [3] - m [0] m [5]}{(m [3] m [7] - m [4] m [6]) x^{'} + (m [1] m [6] - m [0] m [7]) y^{'} + m [0] m [4] - m [1] m [3]}

平面透视变换的透视系数是描述在遮盖图像与子画面之间变形的参数。全局运动估计可在子画面上尝试找到遮盖图像的最佳对准(运动参数)，其接着可决定变形与预期系数。只要遮盖图像是经由反向弯曲而变换，它便可混合到目前的子画面中，以建立一更新的子画面。反向弯曲通常可取代向前弯曲，以避免由于将向前弯曲目前子画面延伸而造成更新子画面中的孔洞。本发明可应用于向前或反向弯曲。

混合是离线子画面生成的最后处理步骤。混合可接受两路输入并根据一加权因子而将他们一起混合。加权因子是在任何位置上指定两输入之间的混合比率。在MPEG-4中，它是用于子画面中任何像素的一个整数变量，而且它可通过定义的常数而增加，例如每当它对应像素更新时的常数。通过使用相等加权将新图像不断增加(更新)到子画面，单幅图像的噪声便可排除。注意，在线子画面编码处理的混合可通过使用新的VOP与子画面而构成一更新的子画面。在此情况中，混合因素是在0与1之间的(混合因子在静态子画面中始终是1)的一浮点小数常数。

3.MPEG-4预期的运动估计算法

MPEG-4中有关子画面生成的研究由核心实验N3进行。两全局运动估计算法(MPEG98/M3096及C.Gu，T.Markoc，R.Szeliski和M.C.Lee，名称″Results report on core experiment N3-Sprite generation″，ISO/IEC JTC1/SC29/WG11 MPEG96/M1350，1996年9月)已在N3展开研究，并且广泛应用于子画面编码的核心实验中。M1350建议在MPEG-4VM(M3100)的附录中形成一个参考算法。M3096建议是根据M3100的改进方法。在下列各单元中描述这两算法的细节。

3.MPEG96/M1350建议

图1系根据本发明而显示的离线子画面生成装置100的一个概述。

装置100基于MPEG-4VM(基于M1350)，但是建议采用运动估计功能110的新算法。图1的所有组件需要被用来生成子画面部份。运动估计功能110可接收遮盖数据、VOP数据、与帧存储140中的数据。弯曲功能120可根据VOP数据与运动估计功能110的输出而提供弯曲。混合功能130可根据VOP数据、弯曲功能的输出、及帧存储而提供混合，以提供子画面。特别是，混合功能130可通过将当前VOP(在一适当弯曲之后)混合到现有子画面部份而更新子画面部份。

类似于前面部分所讨论的弯曲与混合方法也可在此过程中采用。因为在MPEG-4采用的预期运动模型是非线性运动估计，其可通过找到输入图像的最适宜变形参数而尝试减少在输入图像与子画面之间的误差，必须依赖一种非线性最小化技术。MPEG-4VM的预期运动估计核心处理称为″Levenberg-Marquardt″(LM)的一种非线性最小化技术(可参考W.H.Press，S.A.Teukolsky，W.T.Vetterling和B.P.Flannery，″Numerical recipes in C″，Cambridge Univ.Press，1992)，其本质上是一迭代算法。LM技术可根据X²优点功能(虽然X²未在VM中使用)而通过在最陡峭下降与反向Hessian方法之间适当调整它的算法而有效解决非线性最小均方问题。LM尝试解决以下正态方程。

Δm＝A^-1b

其中A是具有下列组件的一近似海森伯矩阵(Hessian matrix)

a_{kl} = \underset{i}{Σ} \frac{&PartialD; e_{i}}{{&PartialD; n}_{k}} \frac{{&PartialD; e}_{i}}{{&PartialD; n}_{i}} .

b是具有下列组件的加权梯度向量

b_{k} = - \underset{i}{Σ} e_{i} \frac{{&PartialD; e}_{i}}{{&PartialD; n}_{k}}

一高斯角锥可与LM同时使用，以加速处理过程。在角锥水平之间的运动参数可通过下式描述其关系：

m₆＝m₆/2，m₇＝m₇/2，m₂＝m₂*2，m₅＝m₅*2

2.2MPEG96/M1350建议

图2显示对MPEG-4VM预期运动估计的一个改进。

此技术是以使用三步骤搜寻块匹配算法(块210)进行初始估计而开始，用来估计转换的运动参数。此估计是在粗略(最低)分辨率上执行。从初始估计获得的运动参数可开始LM算法，该LM算法可从粗略分辨率开始递归执行并改进在较佳(较高)分辨率(方块220、280)上的结果。每个阶段的结果是在32次迭代(方块250-270)之后的结果。然而，只要更新的参数小于一预设临界值(方块240)，迭代便可停止。

异常画面的效果可通过例如″截除二次方程式″(方块230)的一种异常画面排除方法而减轻。它可根据该阶段的LM决定的运动参数而将输入图像与子画面对齐，然后计算两对象内每个像素的误差(在此情况是二次方程式函数)。促成该图像10％最高误差的任何像素可从随后的减小化过程排除。截除二次方程式处理可在每个分辨率的第一迭代上实施。

3.建议的修改技术

根据本发明，本节描述对预期运动估计的修改，以改善在未受控制情况中的性能。当在场景中高速运动时，例如快速摇动拍摄情况下，这种情况便可能发生。所建议的修改技术是使用LM来减少在子画面与输入图像之间的不同帧中的差别。初始估计的高精度对于LM涵盖全程最小值是必不可少的。第一单元(3.1)将更详细讨论此问题。

还要描述对MPEG-4VM进行修改以改善初始估计精度。第二单元(3.2)还将讨论在未受控制情况下的另一问题，该情况下在场景中存在噪声。第二单元将显示TQ方法不适用于异常画面排除，并提出一种较佳的选择。第三单元(3.3)将讨论处理隔行扫描视频源一种方法。此问题尚未在核心实验N3中研究。

从自然图像序列中生成在线子画面需要可自动创建适用于子画面输入序列的一个预处理阶段。

图3中显示本发明的自动子画面生成系统的示意图。此系统包括拍摄检测(块310)，以便将共享相同静态背景的图像聚集起来，如此可适用于子画面生成。一次拍摄中含有来自同一摄像机对相同景象(不必是静态)的一个图像序列。子画面部份可在系统接收一适当输入图像时而每次自动更新。当在相同景象有足够的数据时，子画面便可使用；否则，此序列便认为不适合于子画面编码。一个好的拍摄检测算法可指定在该拍摄中的运动特征(例如，缩放、摇动)，所以全局运动估计可适当(例如，当有一摇动/缩放运动时，可启动/关闭初始估计的块匹配)调整它的参数。可使用任何已知的拍摄检测方法。

当前景对象(例如，在背景中作不同移动的一对象)存在于场景中时，可能需要一种自动遮盖处理过程(块310)。遮盖可从在前景与背景(假设在前景与背景的颜色是明显不同)之间的色距差别而合成，其类似蓝屏技术(可参考在1998年9月17日由K.Panusopone和X.Chen所申请的美国专利案号09/156,790名称″Modified Chroma Keyed TechniqueFor Simple Shape Coding for Digital Video″)。在这种情况中，需要采用覆盖前景的所有背景。

注意，可用数据可由两方块310和340使用。图3每次只考虑一次拍摄，所以拍摄检测只使用可用数据(在相同拍摄中的所有图像是可用的数据)来检测相同的拍摄。

相同拍摄决定块320可使用先前可用数据的知识来分析输入帧，以决定该输入帧是否属于相同的拍摄。此分析包括计算相关参数。

一个″足够数据″决定块350可保持追踪图像序列的持续时间。子画面的有用输入应该足够长，以便在子画面找出明显的趋势。

子画面生成块340在图1中描述。

3.1初始估计

MPEG-4 VM预期运动估计是在连续图像之中有一小变形假设下进行的。在此情况中，LM可适度收敛以将最近图像的运动参数当作一初始估计。若要维持此假设，输入序列只需要慢速运动。但是这会造成摄影师的明显不方便。当最后参数是实质不同于初始估计时，我们的实验便可确定重复使用先前运动参数不会导致使用LM来得到满意结果。此问题的解决是要使用过去运动历史决定初始估计。随着此方法，只要运动在相同图案中发生，初始估计便接近最后的参数，而不管参数在连续图像之间的如何不同。

任何类型(以自相关性为基础)的线性预测(例如，差分脉码调制DPCM)或非线性预测(例如，样条内插)可用来决定初始估计。最简单的第二阶预测可依下列数学描述：

S_n＝ S_n-1+( S_m-1- S_m-2)

S_n＝[m[0] m[1] m[2] m[3] m[4] m[5] m[6] m[7] m[8]]′

其中

是第n图像的运动参数，且上标″t″表示一转置。此第二阶预测不同于重复使用的过去运动参数，它增加了前一帧图像及前两帧图像运动参数之间的残差。第二阶预测是摄像机在大致相同速度上操作假设下进行的。当运动不跟随先前两图像图案时，此预测的缺点便会在不寻常情况下发生，在此情况下，预测的初始估计可能比重复使用作参数所获得的估计更坏。

因为当连续图像对在例如缩放情况下转换的其他参数中具有一强运动时，它可选取一个完全不相关的初始估计，所以块匹配(例如在M3096中使用的块匹配)不适于初始估计。然而，当输入序列经历到例如在运动连续镜头的一不可预测的摇镜时，建议采用块匹配。

3.2异常画面排除

很难保证所有自然输入图像的所有背景是静态的。因为在一树上运动的叶子或在拍摄期间人们转动他们头部而发生的一个异常画面会不利于LM处理。如果异常画面在场景中是主要部份，那么异常画面的影响会较严重，例如，来自异常画面的误差与来子其余场景的误差相比较会特别强。通过异常画面排除，LM性能可明显得到改善，因为来自异常画面的误差可被排除。而且，当运动参数几乎是最适宜时，异常画面便会带来一较大误差。

图4系描述一异常画面的实例。例如，除了在图像1(400)的眼睛410、415是闭合，而在图像2(450)的眼睛410′、415′是睁开之外，在400和450显示的两脸部图像是相同的。当运动参数是最适宜时，睁开的眼睛410′、415′因此是异常画面。

TQ利用上述原理工作，以选择性排除出现最高10％误差的所有像素。也就是说，根据图2，目前VOP可通过从先前VOP(在最粗略分辨率下)或先前阶段(较粗略分辨率)获得的弯曲参数而弯曲。目前VOP的所有像素误差然后可分类，而且生成高10％误差的像素被申明为异常画面。

然而，当运动参数不是接近最适宜时，此直接的技术性能较差。在这种情况下，TQ的问题是在场景的某一重要特征不正确对齐，而且类似于一异常画面。

本发明可通过使用异常画面排除的延迟删除而克服此问题。

图5(a)和5(b)显示截除二次方程式方法中所存在问题示例。例如，假设分别具有符号′T′515、525的两连续帧510、520，如图5(a)所示，它们没有对齐。图5(b)的图像550为显示弯曲参数为零(假设没有先前信息可用)情况下的异常画面。不幸地是，在这里图5(b)中的所有细节将可根据TQ而被排除，因此，其余细节将不能决定正确的全局运动。

通常，异常画面像素是随机出现的，与噪声类似，这表示它们与较好的运动参数有较差的匹配，而它不可能在一重要特征中发生。也就是说，不一致现象不应该在一个重要特征中发生，比如，对于一条直线，其通常生成较低的误差，并有较好的匹配(更多次迭代)。只有一些决定性特征足以决定最佳运动参数，认识到这一点是重要的。在实施中，尽可能多使用测试数据，因为决定性特征非常不容易被识别。测试数据不仅包含决定性特征与异常画面，而且包含例如一简单背景的无意义数据，其始终可很好匹配，而无需显示有关最佳运动参数的任何信息。当只允许出现很少误差时，无意义数据将占据大量剩余的测试数据。这种情况的最后结果将不会类似于最佳的运动参数。当允许更多误差时，便可获得较好的结果，而且无意义数据与重要特征的比率可更为平衡。当然，如果误差太大，而且异常画面变成是一个因子时，性能便会开始降低。

图6显示根据本发明而描述的一种延迟排除处理。在此，异常画面排除的效率可通过增加延迟排除处理而得到改善。特别是，更可靠信息可使用二次通过(或更多)处理，以取代一次通过的误差处理。

在第一次迭代(610)中，采用了LM最小化技术，而且误差(e1)可对于每个像素进行计算。在块620中，提供比预设临界值更多误差的像素可能被标志成异常画面。在另一迭代(630)之后，这些像素可重新被检查，而如果这些像素是重要特征，以允许它们可更好地对齐。在块640中，在二次通过具有较高误差的像素会类似于噪声，并且被申明成异常画面。在块650，异常画面可被排除。

注意，根据这一概念，其他结构可使用例如根据三个或多个阶段的延迟删除等更复杂方法实施，以指定一异常画面等。随着三个或多个更新阶段，在效率与复杂度之间存在一种权衡。

3.3隔行扫描视频源的子画面生成

目前，MPEG-4只以帧格式来处理子画面部份。在目前MPEG-4语法下，有两可能方法可对隔行扫描输入图像当作子画面进行编码。第一方法可通过将视频源变为逐行扫描以形成单帧输入，并进行通常的子画面生成过程。第二方法可基于每个场而形成两个子画面，然后将两帧子画面组合，以生成一帧子画面。这两个解决方法具有用以编码的子画面部份及用以传送的一组参数。然而，这些方法在许多情况不会得到最佳效果。

图10显示根据本发明而描述的用以处理隔行扫描视频源的一种编码器1000及译码器1050(例如，在译码器族群中)。在此，可修改MPEG-4语法，以便例如在子画面生成与编码功能1010和1030上处理作为两独立输入(用于每个场)的隔行扫描视频源。在编码之后，可在多路器1020中复用，然后在网络1040上传送，两场子画面及相关运动参数数据可在解复用器1060上解复用，并且在译码功能1070和1080中译码。

各场子画面可从相应功能1070和1080输出，并且在一显示引擎1090上组合，以形成子画面输出，例如在显示器1095中输出。

注意，编码器1000及译码器1050是以简化形式显示。而且，虽然功能1010和1030，与1070和1080分开描述，但它们在实际中可利用一般软件及/或硬件实现，本领域中的专业人员应该能够理解。

在此具体实施例中，两子画面部份可分开编码，而且两组运动参数必须都被传送及解码。然而，该子画面的性能相比其他两种MPEG-4方法要较好一些，比如，对于复杂运动，其中相同帧的两场可能具有一不同变形(运动参数)。

4.子画面生成的指标

关于子画面生成，我们从实验中收集了数个观察结果。这些观察结果是成功子画面生成的指标。

1.初始估计是减小处理量的最重要因素。一个较好的初始估计具有较高机会获得最佳子画面运动参数。

2.摄像机的速度应该是常数(以任何速度)，因为我们的初始估计是基于线性预测模型(距离误差)。

3.更复杂预测模型(例如，速度误差)可适用于摄像机速度的高度复杂功能情形。

4.因为在对预测模型预测可靠初始估计之前，它需要填充相关的过去历史记录，所以摄像机的速度或方向的变化可以一逐渐变化的速率(例如，从其余位置到操作速度)实现。

5.当目前图像经历到缩放、裁剪、或旋转时，根据块匹配(例如，M3096)的初始估计效果不好，但是它通常对于复杂摇镜的情况有帮助。裁剪是将一矩形改变成一平行四边形的效果。

6.异常画面排除可有助于保留场景的重要特征。没有可靠异常画面排除，就不容易将精确细节(例如，本文)对齐。

7.将第一通过的最后运动参数当作第二通过的初始估计的二次通过系统，可略微得到改善(小于1分贝，PSNR)。较高阶系统(例如，三、四)预期可在此二次通过系统上生成可以忽略的改善。

8.通过任何输入图像误差对准所生成子画面中具有相同效果，而不管误差发生的阶数。此更普通的项中亦是如此，例如，发生(VOP数目)的阶数。

图7系根据本发明处理而显示的全局运动估计。

该处理基于图2，但不同的是在块710、715和720。

明确地说，在块710上，可得到运动参数的改良初始估计。使用8个运动参数(例如，先前讨论的m[0]至m[8])的线性预测、或可使用块匹配。或者可使用非线性预测。而且，这些运动参数不是部分的MPEG-4子画面编码，而该MPEG-4子画面编码系使用从运动参数取得的4个角落位置。

在块715上，子画面的最初两次迭代能以较高像素分辨率进行。

在块600，可执行图6的延迟异常画面排除。

图8显示子画面的译码器800，其包括I-VOPs的一个形状/结构译码器810、一个形状/结构译码器830、及S-VOPs(子画面VOPs)的一弯曲向量译码器、子画面缓冲器820、及用以提供重建取样的一个弯曲功能850。

5.模拟结果

在所建议的系统中允许改变的参数是块匹配的搜寻范围、及误差截除的临界值。其他变量保持为常数，亦即，迭代次数、停止的临界值、像素分辨率(例如，128×128、256×256和512×512)的量/水平，以便在建议的系统与M3096之间作出清楚的比较。所有输入序列可被剪下或遮盖，以排除前景物件。可通过跳过一固定数量的图像而仿真一种未受控制的情况，以建立一种更严重的变形。

测试可对各种不同的目标应用(例如，股市行情指示器、货币行情指示器)进行，以获得由本发明所生成的最后子画面部份。子画面亦可通过MPEG-4编码器而与它们相关运动参数共同编码，以描述建议系统的编码效率。这些测试证明了本发明的成功之处。

6.结论

此备忘录系描述子画面生成的以MPEG-4为基础的全局运动估计的改善技术。所建议的技术在不受控制情况中可比目前MPEG-4方法执行得更好，而该不受控制情况更可能实际发生。VM全局运动估计的数个主要解决方法已被建议，亦即，初始估计技术、异常画面排除的延迟删除、及隔行扫描视频源的子画面生成。所建议的技术可满足目前MPEG-4编码器需求，而且也可为MPEG-4版本2的GMC和DS提供可靠运动参数。

虽然本发明通过各种不同具体的实施例进行描述，但是可以理解，在本发明所申明的权利要求范围内，可对本发明作各种不同改造与修改。

Claims

1.一种从至少一幅初始输入图像中生成子画面的方法，其包含下列步骤：

提供运动参数数据的一初始估计，其可根据在该初始输入图像之前的至少两输入图像的运动参数数据，而在该子画面与该初始输入图像之间提供对准。

2.如权利要求1中所述的方法，其中：

该初始估计基于一个线性函数，其为所述的在该初始输入图像之前的至少两输入图像的运动参数数据的函数。

3.如权利要求1中所述的方法，其中：

该初始估计基于一个非线性函数，其为所述的在该初始输入图像之前的至少两输入图像的运动参数数据的函数。

4.如权利要求1中所述的方法，其中：

该初始估计S_n可根据下式而提供：S_n＝S_n-1+(S_n-1-S_n-2)，其中S_n-1是在该初始输入图像之前的一幅输入图像的运动参数数据，而且S_n-2是下一个在前的输入图像的运动参数数据。

5.如权利要求1中所述的方法，其中：

所述在该初始输入图像之前的至少两输入图像的子画面是不同于该初始输入图像的子画面。

6.一种用以从多个输入图像中生成子画面的方法，其包含下列步骤：

在该输入图像上执行拍摄检测以提供一组连续图像，其可共享形成该子画面中使用的同一场景。

7.如权利要求6中所述的方法，其中：

该场景是一静态背景。

8.如权利要求6中所述的方法，其中：

该拍摄检测可检测缩放和摇动拍摄中的至少一种。

9.如权利要求6中所述的方法，其进一步包含下列步骤：

提供对运动参数数据的一个初始估计，当检测到摇动时，其可通过使用块匹配而在该子画面与初始输入图像之间提供对准。

10.如权利要求6中所述的方法，其进一步包含下列步骤：

11.如权利要求6中所述的方法，其中：

该拍摄检测包含场景检测。

12.一种用以从至少一幅初始输入图像中生成子画面的方法，其包含下列步骤：

提供对运动参数数据的至少第一及第二连续估计，用以在该子画面与该初始输入图像之间提供对准；

分别根据该至少第一及第二估计而决定在该初始输入图像的像素与该子画面图像素之间的至少第一及第二误差；

其中该第二估计可根据该第一误差而通过更新该第一估计获得；以及

从生成该子画面考虑，排除第二误差超过其第一误差的像素。

13.如权利要求12中所述的方法，其进一步包含下列步骤：

在该初始输入图像及/或该子画面中指定像素，其中该第一误差超过当作可能的异常画面的一临界值；

对指定为可能异常画面的像素，其中至少可以获得该第二误差。

14.如权利要求12中所述的方法，其中：

该第一和第二误差可通过使用Levenberg-Marquardt最小化技术而确定。

15.一种用以从包含隔行扫描的第一及第二场的至少一幅初始输入图像而生成子画面数据的方法，其包含下列步骤：

以至少一幅输入图像的该第一及第二场的分开运动参数数据分别生成分开的第一及第二场子画面；及

从该第二场子画面及其相关运动参数数据分别将该第一场子画面及其相关运动参数数据编码，用以传输给至少一个译码器。

16.如权利要求15中所述的方法，其中：

在该至少一个译码器上的显示引擎将传输至此的该第一场子画面与第二场子画面组合，以形成一组合的子画面输出。

17.一种用以在译码器上处理子画面数据的方法，其包含下列步骤：

接收从编码器传送来的数据，该数据包含经过编码的第一场子画面及其相关运动参数数据、以及经过分开编码的第二场子画面及其相关运动参数数据；

其中该第一及第二场子画面可在该编码器上分别从至少一幅初始输入图像的隔行扫描的第一及第二场生成；

将该编码的第一场子画面及其相关运动参数数据译码，以提供第一场子画面输出；

将该编码的第二场子画面及其相关运动参数数据译码，以提供第二场子画面输出；及

将该第一场子画面输出与该第二场子画面输出组合，以形成一个组合的子画面输出。

18.一种用以从至少一幅初始输入图像生成子画面的装置，其包括：

提供对运动参数数据初始估计的装置，用以根据在该初始输入图像之前的至少两输入图像的运动参数数据，而在该子画面与该初始输入图像之间提供对准。

19.一种可从多个输入图像中生成子画面的装置，其包含：

用以在该输入图像上执行拍摄检测的装置，以提供一组连续图像，该连续图像可共享在形成该子画面中使用的同一场景。

20.一种用以从至少一幅初始输入图像中生成子画面的装置，其包括：

提供对运动参数数据的至少第一及第二连续估计的装置，用以提供在该子画面与该初始输入图像之间的对准；

根据该至少第一及第二估计而分别确定在该初始输入图像像素与该子画面图像素之间的至少第一及第二误差之装置；

其中该第二估计可通过根据第一误差将该第一估计更新而获得；及

从生成该子画面考虑而排除第二误差超过其第一误差的像素的装置。

21.一种用以从包含隔行扫描的第一及第二场的至少一幅初始输入图像中生成子画面数据的装置，其包括：

以该至少一幅输入图像的第一及第二场的分开运动参数数据用于分别生成分开的第一及第二场子画面的装置。

22.一种用以处理子画面数据的译码器，其包含：

用以接收从编码器传送来数据的装置，该数据包含经过编码的第一场子画面及其相关的运动参数数据、以及经过分开编码的第二场子画面及其相关的运动参数数据；

用以将该编码的第一场子画面及其相关的运动参数数据译码之装置，以提供第一场子画面输出；

用以将该编码的第二场子画面及其相关的运动参数数据译码之装置，以提供第二场子画面输出；及

一显示引擎，用以将该第一场子画面输出及第二场子画面输出组合，以形成一组合的子画面输出。