CN101036390B

CN101036390B - 一种利用可变形网格进行运动估计的方法

Info

Publication number: CN101036390B
Application number: CN200580031076XA
Authority: CN
Inventors: 纳塔莉·卡马; 斯特凡娜·帕特克斯; 纳塔莉·洛朗-沙特内
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2004-09-15
Filing date: 2005-09-06
Publication date: 2010-06-16
Anticipated expiration: 2025-09-06
Also published as: WO2006030103A1; CN101036390A; EP1790169A1; WO2006030103A8; JP4870081B2; JP2008514073A; US20070291845A1; US8761250B2

Abstract

本发明涉及一种图像运动域分析的方法，使用第一网格估计，检测第一网格中缺陷域，以及在所述域安置一条断裂线，然后生成第二网格，其包括非缺陷的部分和两个子网格，该非缺陷的部分由在缺陷部分之外的第一网格的网格单元组成，而两个子网格在包括断裂线的区域重叠。每个子网格包括各自的网格单元，该网格单元由节点限定，这些位于缺陷区边界的节点包括与非缺陷的区共享的节点，和不属于非缺陷的区的其它节点，断裂线位于共享非缺陷的区的两个子网格的各自节点之间。所述第二网格用来估计所涉及的图像组运动域。

Description

一种利用可变形网格进行运动估计的方法

技术领域

本发明涉及移动图像的数字处理，尤其涉及一种在图像序列的连续图像之间进行运动估计的方法。

背景技术

大多数视频编码技术(尤其MPEG-1，2，4和ITU-T H26x)借助于图像分块划分的平移表示运动。这种运动模式产生很多问题。在很大程度上，它是在用现有视频编码技术解码时通常可见到的块效应的起因，并且这种运动模式还提供了并不适用于某些运动类型(缩放、旋转等等)的表现模式。

已经提出了其它运动表现模式来减少这些缺陷。尤其是在这些模式中使用了活动网格。在这种表现模式中，通过位于图像网格节点上定义的一组值的方式来表现运动。基于存储在该网格节点上的值，通过插值技术推导图像上任何一点的运动向量。传统地，使用拉格朗日内插法，即分配给图像上一点的运动向量是对于邻近节点所计算的向量的仿射函数。

因此，有可能用基于网格的运动补偿模式替换MPEG视频编码器的运动补偿模式或其它模式。也有可能使用网格来解相关视频序列的运动和结构信息，以获得分析合成类型的编码技术。

由于对运动信息的更有效的编码，这些活动网格一方面提供了更多的运动模式，另一面提供了提高编码效率的可能性，尤其当使用层次网格时(参见WO00/14969实施例)。

虽然可变形网格限定了运动域的连续表现，但是通常视频序列的实际运动实际上是不连续的。因此，当各种平面和对象在场景中重叠时，出现隐藏区和暴露区，产生不连续线条。

使用球状网格对这些非自然信号建模，如与根据组成场景的视频对象分割的网格相反，在不修改表现模式的情况下带来了难以解决的难点。问题是通过确定非连续区来消除这个视觉衰退以及将其限制在分析阶段。

现有的，这种类型的实际运动区干扰导致在网格表现中的网格单元倒置。

现有处理技术能够用来解决这个问题。其中一个技术是利用经验校正来处理，并且包括应用运动向量，例如通过计算形成的，检测那些有缺陷的节点，然后改正其值。另外一种技术是每次迭代给节点增加期望位移的一部分的重复处理，这样不会出现倒置，并且一直继续迭代直到处理结束。

一旦执行了运动估计，现有处理技术就见效。由于运动向量的校正独立于其对于使预测误差最小化的贡献，因此，结果是次优选的。

通过在优化过程中考虑非倒置的限制，实现优化运动域的改进。为了这个目的，通过将增大的拉格朗日量增加至二次预测误差来使运动估计适应，使得当网格单元面积接近于零时有可能来校正网格单元变形。这个技术实际上有可能确定最优化方案，但，其条件是这个技术代表了连续域。然而，视频序列通常是非连续的。

另外一种在WO 01/43446中介绍的技术，识别非连续域，这样通过监测目标的出现和消失，重构该非连续域。第一运动估计是在两个连续时刻t1和t2执行的，没有阻止网格单元倒置。借助于几何标准在第一次计算时正确定出倒置位置，检测到非连续区域。然后实现在时刻t1和t2之间的新的运动估计，同时从优化标准中排除缺陷区域(至少包括一个倒置)的贡献，使得在被考虑的两个图像之间的预测误差最小。这种再优化有可能确定连续域的(容许t1和t2之间的双向单射)最优运动向量，并且这样来避免前一最优化中获得的由非连续区产生的运动向量值的干扰。缺陷区域构成图像压缩的频率或者空间近似对象，并且通过跟踪视频目标，将缺陷区域从优化方法中排除。

各种已知技术通过将基于连续区域计算的运动加入到非连续域中，尽力实现非连续运动域的连续。这样将导致错误运动和非连续域的很差的暂时结构预测，因此编码花费超高。

目标在于排除非连续域的技术在这些区域内不使用任何运动，并将它们不同编码。但是，在大量非连续区域的情况下，有很多区域要不同编码，在对这些流的头部进行编码涉及较高费用。而且，在可变编码框架下，这种技术相对昂贵点。

发明内容

本发明的目的是借助于2D网格对视频序列的运动进行估计，并将该运动以非连续方式表现，从而最佳地表现实际的运动域。

因此，本发明提出了一种对移动数字图像序列进行运动估计的方法，包括：

生成要应用于所述图像序列中的参考图像的第一网格，所述第一网格包括由节点限定的网格单元；

通过为图像的每个点分配位移值而估计包括所述参考图像的图像组中的第一位移域，所述位移值根据分配给所述第一网格的、用于限定所述点所属的网格单元的节点的值计算得到；

通过分析所述第一位移域，检测所述第一网格中的至少一个非连续域，每个所述非连续域包括满足所述图像组中的网格单元变形准则的至少一个网格单元；

在检测到的每个非连续域中，确定在所述图像组中出现的至少一条断裂线；

生成要应用于所述参考图像的第二网格，所述第二网格包括由所述第一网格的、不属于非连续域的网格单元构成规则部分，以及对于检测到的至少一个非连续域包括至少两个子网格；所述的至少两个子网格在包括从所述非连续域确定的所述断裂线的区域中重叠；所述至少两个子网格中的每一个包括各自的网格单元，所述网格单元由包括以下节点的节点来限定，即，位于所述非连续域的边界处、并共同属于所述规则部分的节点，以及不属于所述规则部分的其它节点；所述断裂线位于同属于所述规则部分的、所述两个子网格的各自节点之间；以及

通过给位于所检测到的非连续域的每个点分配位移值，估计所述图像组中的第二位移域；其中所述位移值根据分配给用于限定所述第二网格的、所述点所属的选中的网格单元的节点的值计算得到，所述选中的网格单元由所述点相对于在所述非连续域中确定的所述断裂线的位置而被决定。

该方法执行全局最优化来确定运动。没有先验的约束条件加在待优化的准则上，且一方面还避免了频繁出现在运动图像中的非连续域的计算。由于断裂线以可靠方式添加了标签，因此可以优化执行的运动估计，包括在非连续域中。在此之后，视频编码器能够使用估计的运动。在这个框架下，允许很好地预测图像序列，甚至在网格的非连续域，且改进了视频序列编码的成本。为了连续解码，表示估计运动的参数将会传送给解码器，或者记录在内存中。

运动估计方法与层次网格的使用相适应，位移域估计受到从网格的最低层次等级(1)到最高层次等级(nivFin)的影响。所述非连续域被检测为一组最高的层次等级的、满足所述网格单元的变形准则的相邻的网格单元；以及所述非连续域在较高的层次等级被定义为由至少一个网格单元构成，该至少一个网格单元包括至少一个最高层次等级的、满足所述网格单元变形准则的网格单元。

有利地，从最高的层次等级nivFin开始生成所述第二网格的所述两个子网格，在其之后，在层次的渐次反退过程中生成较高等级的网格单元，对于每个子网格和1＜n≤nivFin，从层次等级n至与其紧邻的较高层次等级n-1的反退过程包括以下步骤：

a：将以等级n在先定义的所述子网格的每个网格单元与以等级n-1生成的所述子网格的新网格单元相结合；

b：取n’＝n；

c：如果不能用已以等级n’生成的所述子网格的网格单元来实现等级为n’-1的所述新网格单元，则生成所述子网格的等级为n’的至少一个新网格单元来完成等级为n’-1的所述新网格单元；以及

d：如果n’＜nivFin，n’以单位1进行增加，并且从步骤c重复执行。

在该方法的优选实施方式中，为所述规则部分的节点，以及所述第二网格的每个子网格的其它节点分配各自的深度值。被分配给为检测到的非连续域而生成的子网格的其它节点的值，由所述子网格相对于在所述非连续域中确定的断裂线的位置决定。估计所述第二位移域的步骤包括：对于属于所述第二网格的规则部分的网格单元和子网格的至少一个网格单元的各个图像点，为包括所述点的每个网格单元计算深度值的加权和，该深度值分别分配给限定所述网格单元的节点；以及选择所计算的加权和为最大的网格单元，用以给所述点分配位移值。

这些深度值的使用有可能说明共存于图像组的几个平面的存在。当有两个以上平面时，相对深度值必须传递给解码器用于运动合成。

本发明的另一个方面在于包括一种用于对移动数字图像序列进行运动估计的装置，其包括适于实施上述定义的所述的方法的装置，以及本发明还包括一种安装于用于处理移动图像的装置的计算机程序，包括用于当所述装置的处理单元执行程序时，实施上述运动估计方法的步骤的指令。

本发明还提供了一种视频编码器，包括用于估计移动数字图像序列中的运动的装置，以及用于构建包括所述运动估计的装置生成的运动参数的输出流的装置，其中用于进行运动估计的运动被设置成根据上述定义的方法来进行操作。

本发明的另一个方面还包括表示移动数字图像序列的信号，包括运动参数，所述运动参数对于包括参考图像的图像组包括：

第一运动参数，用于在将应用到所述参考图像的第一网格中，指示构成图像组中的至少一个非连续域的网格单元；

第二运动参数，用于在每个非连续域定位至少一条断裂线；以及

第三运动参数，用于描述分配给第二网格的将应用于所述参考图像的节点的位移值；所述第二网格包括：由所述第一网格的不属于非连续域的网格单元构成的规则部分，以及对于检测到的至少一个非连续域包括至少两个子网格；所述的至少两个子网格在包括从所述非连续域确定的所述断裂线的区域中重叠；所述至少两个子网格中的每一个包括各自的网格单元，所述网格单元由包括以下节点的节点来限定，即，位于所述非连续域的边界处、并共同属于所述规则部分的节点，以及不属于所述规则部分的其它节点；所述断裂线位于同属于所述规则部分的、所述两个子网格的各自节点之间。

运动参数进一步包括用于指示分别分配给所述规则部分的节点和所述第二网格的每个子网格的其它节点的深度值的参数。

本发明还包括在运动解码侧实现、在视频解码器或者其它用于处理移动图像的装置中执行。

因此本发明提出了一种对移动数字图像序列进行运动解码的方法，所述方法利用包括由节点限定的网格单元的图像网格来实现，包括以下步骤：

对于包括参考图像的图像组，接收包括例如上述定义的运动参数的输入流；

基于第一和第二运动参数生成所述第二网格；以及

通过给所述第二网格的每个节点分配基于第三运动参数获得的位移值，和给位于所检测到的非连续域中的每个点分配位移值，生成图像组中的位移域，其中所述位移值根据分配给用于限定所述第二网格的、所述点所属的选中的网格单元的节点的值计算得到，所述选中的网格单元由所述点相对于在所述非连续域中确定的所述断裂线的位置而被决定。

本发明的其它方面在于提供一种用于移动数字图像序列进行运动解码的装置，包括适于实施如上述定义的方法的装置；还提供了种安装于用于处理移动图像的装置的计算机程序，包括：当所述装置的处理单元执行程序时，用于实施权上的运动解码方法的步骤的指令。

本发明进一步提供了这样一种视频解码器，其包括运动解码装置和运动合成装置，所述视频解码器根据所述运动合成装置生成的位移域，用于构建运动数字图像序列，所述运动解码装置被设置成根据上述的方法进行操作。

附图说明

结合附图，本发明的其它特征和优点将会在下文描述中出现，但不限于实施例。

图1是图像层次网格化的示意图；

图2是网格单元倒置现象的示意图；

图3是本发明运动估计方法的流程图；

图4至图7是本发明实施例使用的重置网格处理的示意图；

图8是一旦非连续域已在最高等级确定后，非连续域在层次网格的较高等级的定义的示意图；

图9a-d，10a-d，11a-d和12a-c是本发明实施例的较高等级层次网格中网格生成示意图；

图13和14是本发明视频编码器和视频解码器的简单示意图。

具体实施方式

考虑数字图像序列I(x，y，t)，其中x和y指图像域内像素的坐标，t是离散时间，这里假定t随序列的每一个新图像增加1。与像素相关的I(x，y，t)值通常是亮度值。

运动估计包括：对图像I(x，y，t)中每个坐标为(x，y)的点，生成位移向量D(x，y，t)＝(d_x，d_y)，从而可能从图像I(x，y，t-1)构造一个以移位的图像I’(x，y，t)＝I(x-d_x，y-d_x，t-1)，该移位的图像与I(x，y，t)非常近似。

计算是在估计范围Ω内执行的，包括确定位移域D(x，y，t)，使得函数Ф(t)最小化：

Φ (t) = \underset{(x, y) &Element; Ω}{Σ} ρ (I (x - d_{x}, y - d_{y}, t - 1), I (x, y, t)) - - - (1)

其中，ρ(A，B)是度量，最通用的形式是ρ(A，B)＝(A-B)²。

图像网格的使用有可能减少未知数目。仅搜寻位于网格节点i的点的位移向量D(x_i[t]，y_i[t]，t)。而远离这些节点时，位移域D(x，y，t)是插值的，例如根据仿射过程：

D (x, y, t) = \underset{i}{Σ} w_{i} (x, y, t) D (x_{i} [t], y_{j} [t], t) - - - (2)

其中权重w_i(x，y，t)表示点(x，y)的坐标，点(x，y)相对于在时间t图像中节点i的位置而被表述。

传统的网格是三角形的网格，其中认为每个点(x，y)属于一个三角形，这个三角形顶点是网格的节点i，j，k，并在时间t时各自的坐标为(x_i[t]，y_i[t])，(x_j[t]，y_j[t])和(x_k[t]，y_k[t])。在时间t点(x，y)的插值权重是三角形重心坐标，为：

W_i(x，y，t)＝0如果i’≠i，j，k (3)

W_{i} (x, y, t) = \frac{x_{j} [t] y_{k} [t] - x_{k} [t] y_{j} [t] + (y_{j} [t] - y_{k} [t]) x - (x_{j} [t] - x_{k} [t]) y}{π_{i, j, k} (t)} - - - (4)

W_{j} (x, y, t) = \frac{x_{k} [t] y_{j} [t] - x_{i} [t] y_{k} [t] + (y_{k} [t] - y_{i} [t]) x - (x_{k} [t] - x_{i} [t]) y}{π_{i, j, k} (t)} - - - (5)

W_{k} (x, y, t) = \frac{x_{i} [t] y_{j} [t] - x_{j} [t] y_{i} [t] + (y_{i} [t] - y_{j} [t]) x - (x_{i} [t] - x_{j} [t]) y}{π_{i, j, k} (t)} - - - (6)

其中，π_i，j，k[t]＝x_j[t]y_k[t]-x_k[t]+y_j[t]+x_k[t]y_i[t]-x_i[t]y_k[t]+x_i[t]y_j[t]-x_i[t]y_i[t]是在时间t的三角形向量乘积。

计算是基于一组连续图像序列进行的，一般以约十个图像顺序进行。网格定义在组的第一个图像(t＝0)上，通常是等边三角形网格。通过最小化函数Ф(1)，来估计位移向量D(x_i[1]，y_i[1]，1)，例如应用高斯-赛德尔迭代方法梯度下降过程或类似类型。通过公式(x_i[1]，y_i[1])＝(x_i[0]，y_i[0])+D(x_i[1]，y_i[1]，1)推导在时间1的网格节点i的位置。重复该过程，直到该组最后一个图像(t＝2，3，4，等)：通过最小化函数Ф(t)，估计位移向量D(x_i[t]，y_i[t])，t)，然后计算在时间t网格节点的位置：

(x_i[t]，y_i[t])＝(x_i[t-1]，y_i[t-1])+D(x_i[t]，y_i[t]，t)

借助分层次的网格有利地执行运动估计，从而以本质上为公知的方式确保系统具有更好的收敛性。需要某些高等级的网格用于如实地表示图像内的运动。但在强烈运动情况下，如果直接应用到高等级的网格，则先前的最小化技术有可能是不收敛的。而且，使用非常高等级的网格会导致系统不稳定，这是因为需要过于太多的参数。

图1显示了示例性的分层次网格。层次表现包括几个表现等级。最低等级30(图中为等级0)具有粗糙的域，只有三个节点来定义网格。沿着更高的等级32、33和35，域逐渐变得越来越密集，并且网格节点的数目增加。运动质量随着等级变化，低等级30表示场景的主要运动，高等级细化了该主要运动以表示局部运动。层次网格的等级数目是估计阶段可调的参数，其根据待估计的序列变化。

在通过层次网格进行运动估计的技术中，在图像上产生层次网格的几个等级，从最低等级30开始进行运动估计，然后转到接下来的等级，基于在先等级上估计的位移值中推导的节点位移值，开始梯度下降：两个等级所共有的节点接收与刚被估计的向量相同的初始位移向量，并且在较高等级增加的节点接收通过空间内插计算得到的初始位移向量。在迭代的最后，将最高的等级估计的位移向量进行量化，并将其传送至解码器。

通过层次网格进行运动估计的技术与多分辨率估计技术相结合，其中一个技术对基于起始图像构建的、经过过滤和分样的图像层起作用。然后，在以合适分辨率等级取样的图像基础上执行层次网格等级的运动估计。

基于网格的运动估计技术的普遍问题是网格单元倒置。这个问题如图2所示的，其中我们看到在两个连续时刻上的图像网格(图左边部分)，即，在形成初步三角形网格的顶点的节点i，j，k处，在这两个时刻之间估计的示例性的位移向量。这个三角形倒置是由节点k从经过节点i和j的直线的一侧移动到另一侧引起的。

通常，三角形i，j，k的倒置相应于向量乘积π_i，j， k[t]符号的改变。这种非自然信号大大地干扰了运动估计。它们通常是由于拍摄场景中的各种平面上的目标的相对运动产生的。由于单一的三角形倒置(经过零面积三角形)，图2的图示非常简单，在实际应用时，重叠通常出现在非连续区域，该区域在图像中有一定程度的扩张。

对于层次网格，较高等级比低等级必然更有可能产生网格单元倒置。

为了处理网格单元倒置问题，本发明对非连续域加标签，以及对它们包含的断裂线加标签。借助于多个子网格，在非连续域对图像重新划分网格，并将其锁定到断裂线任一侧的初始网格。在非连续域生成的多个子网格延伸至断裂线外，这样它们相互重叠。这些子网格甚至可以在非连续域向外伸出。借助于内插公式如公式(2)，为了估计位于非连续域图像点的位移，参考一个子网格中的节点，作为点相对于断裂线的位置的函数而对其进行选择。因此，子网格有可能解决图像序列中存在的各种平面的问题，它们的使用依懒于目标在场景中出现或消失。

本发明能管理运动非连续域，不会使这些域有缺陷或者在编码的时候丢弃它们。当检测到有重叠或者暴露时，其原理是局部切断仅产生非连续的网格，并改变网格成所谓的“非流形(non-manifold)”网格。非流行网格是一种它的边能被两个以上的网格单元共享的网格。其使得有可能在视频序列中进行运动估计，以及对非连续运动域进行建模。优点是因此有可能在编码时以与连续域相同的方式考虑非连续域。

图3显示了本发明运动估计方法的流程图。

第一步骤9包括：在待编码视频序列的图像上定义初始网格。然后在步骤10，对一组(T)连续图像中的运动域执行估计。借助优先地分层次的网格，可以采用现有的方式执行这种估计，例如根据上述解释的过程。在这种计算过程中，一些三角形网格单元可能大大地倒置或者变形。

因此，该方法包括步骤11用于检测初始网格的非连续域。

每个非连续域包括在最高的层次等级定义的一组邻近的、降级的(degenerate)网格单元。它们至少包括在运动估计10过程中倒置的三角形。这些三角形根据向量乘积π_i，j，k[t]容易检定，该向量乘积根据最高的层次等级的网格的各种三角形和在连续时刻t＝0，1，2，...，T-1，T在步骤10中已计算出(待最小化的函数中位移内插)得到。这些三角形能够在向量乘积π_i，j，k[t]都是正的情况下初始定向。然后，通过负的向量乘积显示网格单元倒置。概括来说，检测包括在非连续域内面积(等于向量乘积π_i，j，k[t]的绝对值得一半)接近于零的三角形网格单元i，j，k，即对于至少一个时刻t，面积小于预先定义的阈值。

检测降级的三角形(包括在非连续域)更加普遍地包括对在时间0的图像和时间T的图像之间的三角形变形的研究。如果网格变形超过一定的阈值，认为这个网格要降级。

一组邻近的、降级的网格形成一个非连续域。在这个区域出现运动非连续。该区域是在最高的层次等级定义的，并且其构成的三角形网格(或者界定该区域的节点)形成传送给解码器的一部分参数。非连续域的等高线也能够用样条函数(spline)表示。

如果在步骤11中没有检测到非连续域(测试12)，运动估计方法在步骤20结束，其中将会被量化以传送到视频解码器的运动参数被传送。在这个情况下，这些参数在步骤10中获得，并且这些参数增加了指示，用于发出没有检测到非连续域(连续运动)的信号。

如果在一组图像中检测到一个或多个非连续域，首先确定每个检测到的非连续域中的断裂线(步骤13)。

断裂线定位于在上述区域产生非连续的目标的等高线上。在下文中，将会详细描述非连续域中的单个断裂线的情况。可观察到，处理过程概括来说就是一个域或者相同域中的几条断裂线。

将目标的等高线进行定向，以定义出内部区域(前景区域)和外部区域(背景区域)。步骤13中在本质上为公知的处理可应用于寻找等高线。如果已经存在用于分割图像序列的蒙板(mask)，则基于这些蒙板得到等高线。但是，对于大多数序列，不存在分割蒙板。

在这种情况下，图像能通过“平均移动”技术，例如通过林科曼修(Dorin Comaniciu)和皮特米尔(Peter Meer)在论文“平均移动：面向特征空间分析的加强方法”(模式分析和机械智能IEEE会报，24卷第5期2002年5月第603页至第619页)中描述的技术来预先分割。因此，膨胀和形态学侵蚀的连续性有可能消除小分割域。目标的等高线最终从分割的图像中得到。

检测凸点技术也能应用在步骤13中。凸点主要位于目标的等高线上。凸点列没有定义完整的等高线，增加一个基于这些点的链接改进凸点步骤是合适的。图像I的凸点相应于图像I中属于高频域的像素。为了检测这些点，有可能使用小波原理。小波变化是对图像多分辨率的表现，其有可能在各种分辨率1/2，1/4等处表述图像。因此，在每个分辨率等级2j(j≤1)，小波变化以一组尺寸为2k+j*2l+j的图像形式表示尺寸为n*m＝2k*2l(k，lZ)的图像Im，即，低等级图像A₂ ^j·Im；表示高的垂直频率的图像细节D₁ ²j·Im，即水平等高线；表示高的水平频率的图像细节D² ₂j·Im，即垂直等高线；以及表示高对角线频率的图像细节

即转角。

通过在每一个方向(A₂ ⁰·Im＝Im)中，以两个因素中的一个进行子采样后进行过滤，从A₂ ^j+1·Im获得三个图像细节中的每一个。为了检测到图像的凸点，首先使用小波基础和最小分辨率等级2^r(r＜＝-1)。一旦执行了小波变化，三个图像细节

和

中的每一个穿程，以构建小波系数树。该树是基于所谓“零树”方法，在图像编码领域是公知的。这样，有可能将尺寸为2^k+r×2^l+r的显著图放置于正确位置，显著图反映分辨率2^r的每个小波系数的有效值。因此，有显著特征的系数对应显示高频率的Im域。特别地，在分辨率2^r的有效模数的小波系数对应沿着一个特定方向(水平、垂直或者倾斜的)的图像A₂ ^r+1·Im的等高线。零树方法显示了每一个在分辨率为2^r的小波系数在图像Im中对应尺寸为2^-r×2^-r的空间域。基于构建的显著图，因此有可能从Im的2^-r×2^-r像素中选择最代表这个域的像素。

一旦这些凸点在非连续域中已经确定，将它们连接在一起，以形成断裂线。为了这个目的，有可能使用公知的点连接、内插或者多项式近似法(牛顿、样条函数、Tchebicheff、最小平方等等)技术。

应当指出在步骤13中，断裂线是在图像组中每个图像中确定的。考虑到与解码器进行通信，这些断裂线的位置是步骤13中传送的运动参数的一部分。

该方法的步骤14中，步骤11中检测到的非连续区形成对非流形的对象进行的网格重置。在最高的层次等级首先执行该网格重置。

图4显示了示例性的非连续空间域Z，在这是由初始三角形网格的8个邻近网格单元组成。在图像组的第一个图像上进行网格定义过程中，这个网格是等边三角形构建而来的。图4显示了一条定向断裂线L，该断裂线在步骤13中在空间域Z内确定。

步骤14采用的新网格包括由初始网格属于非连续域的三角形构成的规则部分。在每个包括断裂线L的非连续域Z，生成两个沿着非连续域Z边界线的属于规则部分的子网格。每一个子网格分配给断裂线的一侧，并且该子网格包括初始网格的节点，这些节点位于沿着非连续域Z的边界线的一边。

因此，图5和图6中虚线三角形分别表现了在图4中的非连续域中生成的两个子网格。在本实施例中，图4中表示为a、b、c、d、e和f的初始网格节点属于图5所示的“左”子网格(即隶属于断裂线L的左侧初始网格，左侧和右侧是相对于为断裂线L确定的方位而定义的)，并且图4中表示为a、f、g、h、i和j的初始网格节点属于图6所示的“右”子网格。

两个子网格共有一些作为非连续域的边界的初始网格节点，在这为节点a和f。

图5所示实施例中，左子网格包括8个新节点a’-h’，和16个新三角形(a，a’，h’)、(a，b，a’)、(b，b’，a’)、(b，c，b’)、(d，c’，b’)、(d，e，c’)、(e，d’，c’)、(e，f，d’)、(f，e’，d’)、(d’，e’，f’)、(c’，d’，f’)、(c’，f’，g’)、(b’，c’，g’)、(a’，b’，g’)和(a’，g’，h’)。

图6所示实施例中，右子网格包括8个新节点a”-h”和16个新三角形(a，h”，a”)、(j，a，a”)、(i，j，a”)、(i，a”，b”)、(i，b”，c”)、(h，i，c”)、(h，c”，d”)、(g，h，d”)、(f，g，d”)、(f，d”，e”)、(c”，e”，d”)、(c”，f”，e”)、(b”，f”，c”)、(b”，g”，f”)、(a”，g”，b”)、和(a”，h”，g”)。

在新子网格中生成的其它节点在第一个图像具有的位置与初始网格节点的位置相同。在图5和图6中这些节点被偏移以方便理解附图。

在非连续线L穿过的非连续域Z的边界上的节点是边界节点，其仅随初始网格移动。这些边界节点为以下三种类型：

左边界节点，仅作为左子网格的基础，在图4-6中为节点b、c、d和e；

右边界节点，仅作为右子网格的基础，在图4-6中为节点g、h、i和j；以及

共享边界节点，作为两个子网格的基础，在图4-6中为节点a和f。

当断裂线L穿过至少一个边界节点作为顶点的三角形时，根据其位置相对于定向线的关系，将这些节点识别为左边界或右边界节点。对于断裂线在其终止的三角形，例如有可能将位于断裂线L穿过的边缘上的节点识别为左边界节点和右边界节点，并将第三个节点识别为共享边界节点(如图4-6所示)。另一种可能性是通过外插值的方法延长断裂线，直到断裂线碰到三角形的边缘，以及将位于该边缘的节点识别为共享边界节点，而根据其位置相对于定向线的关系将第三节点识别为左边界或者右边界节点。

为了考虑视频序列中可能产生的暴露，新网格单元延伸超过非连续域Z，如图5和6所示。规则部分的网格单元和子网格的网格单元重叠。

为了避免在重构图像过程中的冲突，在节点使用z型缓冲器产生的z字形(z-order)处理，z型缓冲器的使用在三维图象合成技术领域中是众所周知的。通过给每个子网格的一些新节点分配深度值z，分配给这个子网格正值或负值，来完成对在这里使用的非流行网格的适应处理。

预留的初始网格节点深度值z＝0。通常值z＞0对应于在前景中的目标，以及值z＜0对应于在背景中的目标。z的符号是根据断裂线L的方位给定的。根据断裂线L的方向，来定位等高线对应于断裂线的前景目标(例如，当目标沿断裂线方向移动时，定位在断裂线右边)。因此，在图4-7的情况下，图7中阴影部分属于断裂线L构成其等高线的目标。

上述节点的值z使通过内插技术(例如仿射)来计算网格单元每个点的z值成为可能。在通过几个网格重构的点的重构过程中，计算这个点在其它不同的网格单元处的z值，并且比较这些值，这样保留具有最大z值的网格单元。这样有可能对于前景(相对于背景)中的目标是有利的。

当在非连续域出现几条断裂线时，在序列图像的相应部分有两个以上平面。检测断裂线有可能定位各种平面，并为这些平面分配不同的z值。然后上述过程使得选择相关网格单元用以重构图像的每个点成为可能。选定节点z值，以最好地构建采用了网格单元的图像。借助于迭代条件模式(ICM)选择算法进行定位，以将初始图像和重构图像之间的均方误差最小化。当非连续域有几条断裂线时，确定用于相应子网格的z值形成了待传送给解码器的运动参数的一部分。

一旦以最高的等级重构网格，断裂线L表示的非连续沿着较高等级返回，直到在一定等级消失。只要在网格等级存在非连续，在该等级定义的非连续域进行重构网格，目的在于重构低等级网格来维护网格层次。

非连续域通过层次返回包括两步骤：确定每个等级的非连续域，以及确定在域边界节点上实施的约束条件。使nivFin成为网格最高的等级，在该等级上初始地重构网格。对于小于或等于nivFin的等级n，如果检测到非连续域，通过等级为n的闭合区域的网格单元的一组父网格定义等级为n-1的非连续域，如图8所示。

两个子网格共享的边界节点的约束条件通过层次返回，例如根据以下算法。对于构成等级为n的共享边界节点的节点m，

如果m在等级n-1有一父节点p，p成为等级n-1共享边界节点；

否则，令A作为边界，断裂线L穿过该边界穿进等级n-1的三角形，网格节点q位于该边界的对面。断裂线L人为地伸长到节点

q，这个节点变成等级n-1的共享边界节点。

建立低于已重构网格的等级n的层次等级n-1的新网格有三种类型：

1.图9a-d：断裂线L完全穿过网格ABC，该网格ABC属于等级n-1非连续域；

右边的边界节点为C和B，在等级n-1生成新节点A’。等级n-1的新网格A’BC具有作为子网格的、等级为n的网格A’E’D’、E’CF、D’FB和E’D’F，其中F是边线B-C的中心，以及D’和E’为通过以等级n重新构建右边的网格而生成的节点。网格A’E’D’属于等级n，尽管该网格不是在以等级n重构网格过程中生成的，但该网格一定是在较高等级n-1时生成。同样地，对于对折的左边，边界节点是A，通过在等级n-1进行网格重构产生节点B’、C’和F’。等级为n-1的新网格单元A B’C’具有作为子网格单元的、等级为n的AED、EC’F’、EDF’和DF’B’，其中D和F各自为边线A-B和A-C的中心。

2、图10a-d：断裂线L穿过属于等级为n-1的、非连续域的网格单元ABC，在节点C终止。

本情况与情况1相似，不同点在于节点C成为共享边界节点。在右边进行等级n-1的网格重构，C和B(例如)是边界节点，且产生节点A’。等级为n-1的新网格单元A’BC具有作为子网格单元的、等级为n的网格单元A’E’D’、E’CF、D’FB和E’D’F，包括在以等级n重新构建网格时增加的网格单元A’E’D’。对于对折是左边，C和A是边界节点，并且产生节点B’。等级为n-1的新网格单元AB’C具有作为子网格单元的、等级为n的网格单元AED、ECF’、EF’D和DF’B。

3、图11a-d：断裂线L没有完全穿过等级为n-1的网格单元ABC。

在等级n，断裂线人为地延伸到与边缘E-F相对的节点C(断裂线在进入网格单元时穿过边缘E-F)，因此回到图10a-d的情况；或者延伸到与进入边缘相反的边缘(图11a所示E-F)。然后E和F是等级n的共享边界节点。当考虑较高的网格层次等级时，断裂线延伸向节点或者边线(与刚从较高等级n所示的情况相似)。在图11d中，等高线已被延伸至节点C。为了重新构建右边网格，C和B是边界节点，以及产生节点A’。等级为n-1的网格单元AB’C具有作为子网格的、等级为n的网格A’ED’、ED’F、EFC和D’FB。网格单元A’ED’属于等级n，即使该网格单元不是在以等级n重新构建网格时产生的，但是该网格单元一定是在较高等级n-1时产生。对于重新构建左边网格，C和A是边界节点，并且建立节点B’。等级为n-1的网格ACB’具有作为子网格的、等级为n的网格AED、ECF、EDF和DFB’。应当注意在本例中，网格单元A’BC和ACB’共享等级为n的网格ECF。

当断裂线完全包括在网格单元中时，在较高的等级该断裂线消失。在当前等级采用的用于创建新网格的新节点是由较高的等级的父网格的重心坐标定义的。因此，这些节点将会具有受到较高的等级的网格节点影响的全局运动。

图12a-c显示了断裂线消失的情况。在等级n，断裂线延伸至节点B和C，因此，该断裂线成为共享边界节点。对于右边重新构建网格引入节点E’和D’，对于顶部引入节点F’。在等级n-1，等高线完全包括在网格单元ABC中。对于右边，引入节点A’来形成网格单元A’BC。对于左边0不引入节点，重新构建网格产生初始网格单元ABC。网格单元A’BC限于随初始网格单元ABC移动，以使得等级n-1的点A和A’实际上相同。在等级n，存在点A’并由等级为n-1的网格ABC的重心坐标定义。

重新构建网格的过程与几何多重网格(geometric multi-grid)方法相似，有时用于运动估计，以获得连续层次等级节点之间的加权，以防止较低网格的变形。在本例中，节点加权能够通过以下获得：(1)如果高等级节点是低等级节点的直接子节点，加权为1；(2)如果高等级节点是从几个低节点中产生，加权对应于高等级节点相对低等级节点的重心加权平均值。

一旦在所有层次等级完成了新网格，步骤15中对一组图像重新估计运动。该重新估计能和在步骤10中那样执行，例如借助于上述公式(1)-(6)，并预防由新网格的一些三角形重构的像素。由于新网格的一些三角形网格单元重叠，因此存在不定性。

为了解决非连续域中的不定性，在每个时间t定义显示蒙板(visibilitymask)。在前面说明的实施例中，这个蒙板对应于图7阴影部分。其是t时刻由位于非连续域内(即不属于在新网格中重新使用的初始网格的网格单元)，并位于例如在t时刻确定的、定向的断裂线L的右边的点构成。非连续域内的点能够由右边子网格三角形来重构，或者左边子网格三角形来重构。对这样的点，如果点属于蒙板，则在应用公式(3)-(5)中采用的三角形i、j和k是右边子网格的三角形，否则是左边子网格的三角形。

由于子网格过多，因此在非连续域外的一些点也存在不定性。为了解决不定性，使用先前指示的值z，以确定溢出非连续域的子网格是位于前景还是背景中。因此，对于位于非连续域外但属于子网格三角形的点，我们计算与包括该点的网格的每个三角形有关的z值，以及选择应用公式(3)-(5)给定的最大z值。

为了提高步骤15中最小化算法的收敛性问题，有可能在初始网格预留的节点，将位移向量初始化为在第一估计10中获得的值，来进行梯度下降。

在重新进行运动估计15的过程中，可能会出现的情况是，在时刻t，在重新构建网格的步骤14中增加的节点之一不会重新构成图像中的任一点。在这种情况下，最小化函数(1)不会给这个节点提供任何位移向量。然后通过对用于相同子网格的邻近节点获得的向量进行内插来产生位移向量。

最后，当图像组包括至少一个非连续域时，在步骤20传送的运动参数包括：

(a)属于非连续域的初始网格的网格单元的指示；

(b)对于每一个非连续域，在图像组中的每个图像中的至少一条断裂线的位置；

(c)如果非连续域包括一条以上断裂线，与在非连续域产生的各种子网格相关的、指定目标的相对深度的z值指示；

(d)步骤15计算的网格节点的位移向量。

如上所述的运动估计尤其可用于视频编码应用中。图13所示为实施本发明的解码器的简单示意图。这种编码器对视频流图像数字序列(模块36)进行运动估计，并且另一方面根据视频编码领域已知的各种技术执行纹理编码(模块37)。在本发明的编码器中，模块36根据参见图3描述的方法进行操作。在模块39将运动参数和纹理编码信息一起插入编码器的数字输出流之前，编码器传送的运动参数(a)-(d)形成模块38编码的对象。

携带有这种输出流的信号在通信信道上被传输或者广播。也能形成记录介质如光盘、磁带等等上的记录对象。

参见图14，与这种编码器相适应的解码器接收类似编码器输出流的输入流，并将该流中运动参数和纹理参数分离(模块40)。模块41和42各自处理这些信息来解码编码视频序列连续组图像的运动和纹理。合成模块43处理经过解码的运动和经过解码的纹理来重构视频图像。

运动解码模块41进行如下操作：首先在序列中对一组图像进行精确定位，像传统的解码器那样。基于按照惯例决定的初始网格，模块41根据上述信息(a)确定非连续域。在此之后，根据它们位于一组图像的第一帧图像(b)中的位置，将断裂线置于这些非连续域。然后，通过对非连续域重构网格(根据参照图3-12先前描述的步骤14中执行的处理)，模块41重新产生非流行网格。分配给非流行网格节点的量化的位移向量显示在编码流中。为了确定在每个时刻t的图像位移域，根据与先前描述的步骤15中编码器使用的相同过程，以及根据点相对于断裂线的位置(b)(如果该点位于非连续域)和根据指示深度(c)的z值，模块41识别三角形网格单元来对每个点进行位移向量合成。

根据图13的编码器或根据图14的解码器能够以特定的电子电路方式实现。但是，它们经常以软件的形式来实现。然后，上述描述的方法步骤由视频编码或者解码装置的处理器执行的程序指令来控制。编码时，这个装置例如能为计算机、摄像机、电视继电器、记录装置等等。解码时，这个装置例如为计算机、记录介质阅读器、电视信号接收器、图像显示器等等。

Claims

1.一种对移动数字图像序列进行运动估计的方法，包括：

2.根据权利要求1所述的方法，其中所述非连续域由所述断裂线分成分别与所述两个子网格关联的两部分，且对于位于所述非连续域并属于多个网格单元的点，选择与所述非连续域的、具有所述点的一部分相关联的子网格的网格单元。

3.根据权利要求1或2所述的方法，其中所述第一网格和第二网格为分层次的网格，从网格最低的层次等级至最高的层次等级进行位移域估计；其中所述非连续域被检测为一组最高的层次等级的、满足所述网格单元的变形准则的相邻的网格单元；以及所述非连续域在较高的层次等级被定义为由至少一个网格单元构成，该至少一个网格单元包括至少一个最高层次等级的、满足所述网格单元变形准则的网格单元。

4.根据权利要求1或2中任一项所述的方法，其中，从最高的层次等级nivFin开始生成所述第二网格的所述两个子网格，在其之后，在层次的渐次反退过程中生成较高等级的网格单元，对于每个子网格和1＜n≤nivFin，从层次等级n至与其紧邻的较高层次等级n-1的反退过程包括以下步骤：

b：取n’＝n；

5.根据权利要求1或2中任一项所述的方法，其中，为所述规则部分的节点，以及所述第二网格的每个子网格的其它节点分配各自的深度值；被分配给为检测到的非连续域而生成的子网格的其它节点的值，由所述子网格相对于在所述非连续域中确定的断裂线的位置决定；以及估计所述第二位移域的步骤包括：对于属于所述第二网格的规则部分的网格单元和子网格的至少一个网格单元的各个图像点，为包括所述点的每个网格单元计算深度值的加权和，该深度值分别分配给限定所述网格单元的节点；以及选择所计算的加权和为最大的网格单元，用以给所述点分配位移值。

6.一种用于估计移动数字图像序列中的运动的装置，包括适于实施权利要求1-5任一所述的方法的装置(36)。

7.一种视频编码器，包括：用于估计移动数字图像序列中的运动的装置(36)，以及用于构建包括所述运动估计的装置生成的运动参数的输出流的装置(38-39)，其中用于进行运动估计的运动被设置成根据权利要求1-5中任一项所述的方法来进行操作。

8.根据权利要求7所述的视频编码器，其中，包括在所述输出流中的所述运动参数包括：

用于指示构成每个检测到的非连续域的所述第一网格的网格单元的参数；

在每个检测到的非连续域中确定的断裂线的位置参数；以及

用于描述分配给所述第二网格的节点的位移值的参数，所述位移值在对所述第二位移域的估计中获得。

9.根据权利要求8所述的视频编码器，其中，包括在所述输出流中的所述运动参数进一步包括：

用于指示分别分配给所述规则部分的节点和所述运动估计装置生成的第二网格的每个子网格的其它节点的深度值的参数。

10.一种对移动数字图像序列进行运动解码的方法，所述方法利用包括由节点限定的网格单元的图像网格来实现，包括以下步骤：

对于包括参考图像的图像组，接收包括运动参数的输入流；所述运动参数包括：

第三运动参数，用于描述分配给第二网格的将应用于所述参考图像的节点的位移值；所述第二网格包括：由所述第一网格的不属于非连续域的网格单元构成的规则部分，以及对于检测到的至少一个非连续域包括至少两个子网格；所述的至少两个子网格在包括从所述非连续域确定的所述断裂线的区域中重叠；所述至少两个子网格中的每一个包括各自的网格单元，所述网格单元由包括以下节点的节点来限定，即，位于所述非连续域的边界处、并共同属于所述规则部分的节点，以及不属于所述规则部分的其它节点；所述断裂线位于同属于所述规则部分的、所述两个子网格的各自节点之间；

基于第一和第二运动参数生成所述第二网格；以及

11.根据权利要求10所述的方法，其中所述非连续域由所述断裂线分成分别与所述两个子网格关联的两部分，且对于位于所述非连续域并属于多个网格单元的点，选择与所述非连续域的、具有所述点的一部分相关联的子网格的网格单元。

12.根据权利要求10或11所述的方法，其中所述输入流中的所述运动参数进一步包括：为所述规则部分的节点，以及所述第二网格的每个子网格的其它节点分配各自的深度值；被分配给子网格中对应于非连续域的其它节点的值，由所述子网格相对于在所述非连续域中确定的断裂线的位置决定；以及生成所述位移域的步骤包括：对于属于所述第二网格的规则部分的网格单元和子网格的至少一个网格单元的各个图像点，为包括所述点的每个网格单元计算深度值的加权和，该深度值分别分配给限定所述网格单元的节点；以及选择所计算的加权和为最大的网格单元，用以给所述点分配位移值。

13.一种用于对移动数字图像序列进行运动解码的装置，包括适于实施如权利要求10-12所述方法的装置(41)。

14.一种视频解码器，包括运动解码装置(41)和运动合成装置(43)，所述视频解码器根据所述运动合成装置生成的位移域，用于构建运动数字图像序列，所述运动解码装置被设置成根据权利要求10-12中任意一项所述的方法进行操作。