CN108141606B

CN108141606B - 用于全局运动估计和补偿的方法和系统

Info

Publication number: CN108141606B
Application number: CN201680044802.XA
Authority: CN
Inventors: 陈成就; 刘忠
Original assignee: Versitech Ltd
Current assignee: Versitech Ltd
Priority date: 2015-07-31
Filing date: 2016-08-01
Publication date: 2022-03-01
Anticipated expiration: 2036-08-01
Also published as: US20180218511A1; WO2017020807A1; CN108141606A; US10453207B2

Abstract

提出了一种用于全局运动估计和补偿的方法和系统。该系统对包含参考深度图和当前深度图的两个深度图以及它们的相关联纹理图像（如果可得到的话）进行操作。该系统执行四个主要步骤，它们是特征检测（步骤1）、全局运动补偿（GMC）（步骤2）、主要移动对象（MMO）检测和它们的被表示为主要运动参数（MMP）的运动参数的估计（步骤3）、以及宏块或其它编码/预测单元的局部运动补偿（LMC）（步骤4）。该系统的输出是全局运动参数（GMP）、主要移动对象（MMO）和MMP、局部运动矢量（LMV）和编码模式。

Description

用于全局运动估计和补偿的方法和系统

技术领域

本发明涉及在一个或多个视点处拍摄的深度图的序列(即多视点深度视频)的用于其高效压缩的时间和空间预测，所述深度图的序列即深度视频。

背景技术

深度图是记录可观察到的场景点距相机的光学点的距离的图像(或视频，如果以有规律的时间间隔拍摄的话)。它们通过指定它们在场景中的深度向在同一位置处拍摄的彩色图像或视频中的相关联的彩色像素提供附加信息。深度图的一个应用是从彩色图像或视频(也被称为纹理)合成新的场景视图。还可以在邻近的空间位置处拍摄深度图以形成多视点深度图像或视频。与纹理或彩色视频一起，可以合成在成像位置周围的新虚拟视图。参见S.C.Chan等人的“Image-based rendering and synthesis”,IEEE Signal ProcessingMagazine,vol.24,pp.22-33(2007)和Z.Y.Zhu等人的“Object-based rendering and 3Dreconstruction using a moveable image-based system”,IEEE Trans.CircuitsSyst.Video Techno.,vol.22(10),pp.1405-1419(2012)，它们二者被通过引用整体地结合于本文中。图1中示出合成场景及其相关联的深度图的立体视图的示例。

深度图在许多应用中是重要的，尤其对于从彩色(或纹理)视频生成多个新的视图以用于立体和自动立体显示器中的3D内容的视图合成和显示而言是重要的。现有技术水平的编码算法(诸如HEVC-3D)通常依赖于使用深度和纹理视频二者用于帧间和视点间预测的基于块的运动估计和补偿技术。参见在奥地利维也纳且(2013年8月)的第五届关于3D视频编码扩展的联合协作组会议(JCT-3V)的会议记录中的G.Tech等人的“3D-HEVC draft textl”，文档JCT3V-EIOOJ。

相机位置没有被明确地估计以用于补偿并且这样的全局相机运动预测/补偿的实现通常需要相当多的乘法，其使得实时实现复杂。在相机位置和焦点中的改变下，能够在时间上(帧间)和/或在空间上(视图内)从邻近的深度图像获得场景中的静止和主要移动对象的一组运动描述符是重要的。归因于全局相机运动补偿和主要对象运动参数的经改进的预测将导致减少的要被编码的预测残差，并且因此导致更好的编码效率。这还大大减少了用于在宏块或预测单元中对运动矢量进行编码所需的位，因为考虑到只被仅编码一次的全局运动预测子(predictor)，仅需要短的局部运动校正。

因此多视点深度图图像和视频的高效压缩对于它们的高效存储和传输而言是重要的。

如科技文章中的现有技术水平的编码算法通常依赖于使用深度和纹理视频二者的基于块的运动估计和补偿技术。相机位置没有被明确地估计以用于补偿并且这样的全局相机补偿的实现通常需要相当多的乘法，其使得实时实现复杂。在相机位置和焦点中的改变下，能够在时间上(帧间)和/或在空间上(视图内)从邻近的深度图像高效地获得场景中的静止和移动对象的一组运动描述符是重要的。通过使用这些运动模型参数，可以大大减少在每个宏块或编码单元中用于对预测残差和附加运动矢量进行编码的位，这改进了编码效率。

发明内容

本发明涉及用以促进深度视频中静止或几乎静止对象的帧间全局相机运动预测和补偿的高效估计和实现的仿射相机模型的使用。其还涉及用于在具有或者不具有纹理视频的帮助的情况下从深度视频的连续帧估计相关联的全局运动模型参数(GMP)的高效方法。该方法执行具有显著降低的算法复杂度的全局相机补偿以促进实时或硬件实现。

本发明进一步提供了用于在具有或者不具有纹理视频的帮助的情况下从深度视频的连续帧估计和压缩场景中的主要移动对象(MMO)的运动模型参数(MMP)的高效方法。其将GMP和适当的MMP用作预测子来执行宏块或其它预测单元的局部运动估计和变形校正。这显著减少了局部运动矢量的范围并且因此减少了局部运动矢量所需的位。它还允许在具有或不具有来自纹理视频的帮助的情况下的多视点深度视频的视点间预测和补偿。

本发明的另一重要特征是可以仅使用深度视频来实现好的预测性能。因此，深度编码可以独立于彩色视频的编码而完成。因此，深度编解码器可以支持用于使用已解码视频来执行视图合成的视频压缩标准的所有现有硬件和软件。

替代地，编解码器可以利用彩色视频来进一步在增加的存储器存储的情况下改进被估计参数的准确度。此外，可以在纹理和深度编解码器之间选择性地交换运动模型参数，以在减少宏块或其它预测单元的局部运动矢量的范围和因此所需的位的同时改进运动估计的性能。

本发明还涉及用以在具有或不具有彩色视频的帮助的情况下实现上面的目的的一系列高效算法，并且它可以通过仅将已解码视频帧用于视图合成来与不同彩色视频压缩标准一起工作。

用于执行本发明的系统包括四个主要步骤，即(1)特征检测，(2)全局运动补偿(GMC)，(3)主要移动对象检测和(4)它们的被表示为主要运动参数(MMP)的运动参数的估计，以及宏块或其它编码/预测单元的局部运动补偿(LMC)。该系统的输出是全局运动参数(GMP)、主要移动对象(MMO)和MMP、局部运动矢量(LMV)和编码模式。

附图说明

参考附图，通过优选实施例的以下详细描述可以更充分地理解本发明，其中：

图1(a)和(b)分别是在左视点处拍摄的纹理和深度图，图1(c)和1(d)分别是在右视点处拍摄的纹理和深度图；

图2是本发明的系统的示意性概观；

图3(a)是参考深度图并且图3(b)是当前深度图；

图4(a)是当前深度图的边缘图并且图4(b)是所提取的叠加在当前深度图上的特征点；

图5是示出用于使输入与SOPOT系数相乘的结构的框图；

图6(a)示出当前深度图中所估计的全局运动并且图6(b)示出使用GMP和高效的无乘法器(multiplier-less)双线性插值所估计的深度图；

图7(a)示出参考深度图中所估计的具有包围盒的主要移动对象并且图7(b)示出当前深度图中的对应包围区；以及

图8(a)示出左视图中的深度图输入，图8(b)示出右视图中的深度图，图8(c)示出所估计的叠加在左视图上的全局运动，图8(d)示出从图8(a)包裹(wrap)的深度图，图8(e)示出使用默认帧差分计算的预测掩模(mask)的称赞，并且图8(f)示出使用当前深度图和经补偿的深度图计算的预测掩模的称赞。

具体实施方式

图2中示出了所提出的用于全局和主要对象运动估计、补偿和深度压缩的系统的概观。给定包含参考深度图和当前深度图的两个深度图以及其相关联的纹理图像(如果可得到的话)，该系统执行四个主要步骤，它们是特征检测(步骤1)、全局运动补偿(GMC)(步骤2)、主要移动对象(MMO)检测和它们的被表示为主要运动参数(MMP)的运动参数的估计(步骤3)，以及宏块或其它编码/预测单元的局部运动补偿(LMC)(步骤4)。如图2中所示，该系统的输出是全局运动参数(GMP)、主要移动对象(MMO)和MMP、局部运动矢量(LMV)和编码模式。

步骤1——特征检测

在该步骤中，通过使用新颖的基于Ramer-Douglas-Peucker(RDP)的方法来提取当前深度图和纹理图像(如果可得到的话)上的提取特征点。所提出的基于RDP的方法高效地利用经修改的RDP算法用于特征检测。然后将所有全局运动参数(GMP)设置成默认值，这意味着通过将默认GMP应用于图像而将不会保留实际影响。如果所提取的特征点数足够，则该系统将经受全局运动补偿步骤(步骤2)。否则，它将跳过步骤2并且直接转到步骤3以用于主要对象参数估计和局部运动补偿。

步骤2——全局运动补偿(GMC)

在步骤2中，在具有或不具有纹理图像的情况下从输入深度图进行GMP的估计，并且GMC是针对当前深度图执行的。首先，基于在步骤I中提取的特征点、使用常规模板匹配方法来获得参考深度图和纹理图像(如果可得到的话)中的对应特征点。然后，通过在深度图和纹理图像的特征点的同时帮助下(如果纹理图像可得到的话)或者仅在深度图的特征点的帮助下(如果纹理图像不可得到的话)使用MSAC方法来估计GMP。参见P.H.Torr等人的“MLESAC:A new robust estimator with application to estimating imagegeometry”,Computer Vision and Image Understanding,vol.78,pp.138-156(2000)，其被通过引用整体地合并在本文中。利用GMP，下一步骤是对参考深度图执行GMC以用于估计当前深度图的深度值。它涉及使用GMP对成像坐标的更新以及在位于已更新分数坐标处的深度值的插值。这样的GMC的实现通常需要相当多的乘法，其使得实时实现复杂。为了缓解该问题，本发明提供一种用于GMC的新公式化，其允许成像坐标的无乘法器更新和深度值的无乘法器双线性插值。如果GMP的有效性(eff_rec)大于默认帧差分方案的有效性(eff_ori)，则将仅接受全局补偿。否则，再次将GMP设置成默认值。

步骤3——主要移动对象检测和主要运动参数估计

在该步骤中，检测主要移动对象(MMO)并估计它们的运动参数。首先通过标识当前深度图与来自参考图像的经补偿深度图之间的差异来检测MMO。

然后估计对应于MMO的MMP。为了改进压缩率，使用一组有代表性的主要运动参数(MMP)来表示MMO的运动，所述主要运动参数包括竖直和水平移位以及深度尺度(scale)。因此，可以高效地补偿具有多种可能运动类型(包括平移、旋转和放大/缩小)的对象。直到步骤3为止，可以获得使用深度图估计的GMP和MMP列表。如果对应的纹理视频可得到，则还可以获得以类似方式使用纹理视频估计的GMP和MMP的另一列表。该系统允许在纹理视频和深度视频之间交换所获得的GMP和MMP。

4)步骤4——局部运动补偿(LMC)

利用所估计的GMP和MMP以及所检测到的MMO，可以从参考深度图有效地补偿当前深度图的大部分深度值。然而，该补偿可以进一步通过将当前深度图分成不重叠块和执行所提出的局部运动校正(LMC)来细化。更准确地说，基于不连续(discontinuity)察觉运动估计(DME)准则和局部变形校正(LDC)来完成LMC。可以估计LMV并且将其用于局部校正。此外，将测量用于LMV的编码和局部补偿之后的残差的位并且将其与帧内模式中的位进行比较以用于帧内/帧间模式决策。

全局运动模型

在Hartley等人的“Multiple view geometry in computer vision”,CambridgeUniversity Press(2003)中用相机模型来描述具有笛卡尔坐标(X,Y,Z)的3D观察点与其在2D图像平面(x,y)上的投影之间的关系。此外，它还描述了当将相机移动到另一位置时原始投影的2D图像点(x,y)与其新的投影点(x',y')的关系。通常在用于相机标定的计算机视觉以及涉及相机运动的应用中使用该模型。

通常在计算机视觉中使用八参数模型，其描述归因于相机运动的两个图像坐标之间的透视变换。可以进一步将其简化成具有更少参数的模型以适合各种应用。

该创新描述了用以从深度视频估计且高效实现简化的运动模型以用于通过从已经被压缩的那些深度图预测当前深度图像帧(即帧间预测)的对深度图的高效压缩的方法。这是可行的，因为邻近时刻处的深度图中的改变非常经常来自于相机移动和移动的对象。所描述的方法可以在具有或不具有纹理视频的帮助下从深度视频来执行，并且在涉及诸如深度视频的稳定化等的深度视频的其它应用中也是有用的。

通常按照对应图像坐标(x,y)的齐次坐标来定义该模型。图像点p的齐次坐标可以被写为

并且它描述了在通过w进行缩放(scaling)之后与(x,y)相同的一组点，即

八参数模型(其也被称为透视模型)通过使用以下线性变换来描述原始图像点(x,y,1)的齐次坐标以及其在新相机位置处的对应图像点：

因注意到w″＝m₆x+m₇y+1，可以通过使(x″,y″)除以w″以获得以下投影变换来获得点(x,y)在新的相机位置处的新笛卡尔图像坐标(x′,y′)

如果m₆＝m₇＝0，则(2)简化成仿射模型，其也被称为六参数模型，

此外，通过设置m₀＝m₄＝1和m₁＝m₃＝m₆＝m₇＝0，透视模型简化成具有两个参数的纯平移模型，其被频繁用在在视频编码中。

如果仅考虑平移、图像平面旋转和变焦(缩放)，则可以进一步将投影模型简化成以下四参数模型或相似模型，其中

m₅＝b且m₆＝m₇＝0：

在这里a、b、s和

分别是水平移位、竖直移位、尺度和图像平面旋转参数。

在该作品中，我们将介绍用于在具有或不具有纹理视频的情况下从深度图估计仿射模型的高效方法。我们还将描述用于以显著降低的算法复杂度来实现仿射变换的高效方法。通过使用该变换，深度图像帧的深度值可以从邻近时刻中的其它来预测。更具体地，假设d_R(x,y)是参考帧中的位置(x,y)处的深度值，其已经被编码或压缩。下标R表示来自参考深度图像帧的像素值。此外，假设d_C(x,y)是将被预测用于压缩的当前深度图的位置(x,y)处的深度值。使用从当前和参考深度图估计的运动模型(1)或简化模型(3)，可以将d_R(x,y)用作d_C(x′,y′)的预测子，在这里(x,y)和(x′,y′)通过(1)或其简化形式而相关。

对于静止或几乎静止的对象，预测误差或残差e(x′,y′)＝d_C(x′,y′)-d_R(x,y)通常将是小的，因为相机运动模型通常可以对来自几何关系的改变有效地建模。

在移动对象或相机运动模型中存在建模误差的情况下，可能需要通过将某一校正位移/运动矢量(Δx,Δy)添加到(x,y)来调整(x,y)，以便最小化预测残差e(x′,y′)的某度量D(e(x′,y′))，

可能的失真度量包括例如绝对差

D(e(x′,y′))＝|d_C(x′,y′)-d_R(x+Δx,y+Δy)| (6)

或平方差

D(e(x′,y′))＝(d_C(x′,y′)-d_R(x+Δx,y+Δy))² (7)

为了减少在压缩/编码应用中描述校正运动矢量Δx、Δy的信息，可以将深度图像分成块以使得每个块内部的像素可以共享单个校正运动矢量。于是上面的失真度量D将由每个块内部的像素的失真的适当总和组成。

因为预测残差通常将假设比原始深度像素值小得多的幅值，所以逼近这些残差所需的位数通常将比它们的原始值相当地小，这导致更紧凑的二进制表示并且因此导致数据压缩。

运动模型参数的估计

例如给定如图3中所示的两个深度图像输入，目的是标识分别在两个深度图中的一组对应点(x_i,y_i)和

i＝1,…,n，在这里n是对应点的数目，以使得可以使用(3)来估计模型参数。

更准确地说，在两个坐标中使用模型预测

中的误差分别是

可以借助于建模误差e_i＝[e_i,x,e_i,y]^T的某一失真度量ρ(e_i)来测量失真。通过最小化所有对应点的总失真度量D(m)，可以获得模型参数m_j，j＝0至5。

在这里m＝[m₀,...,m₅]^T是参数矢量。因为误差是模型参数的线性函数，所以如果

则D(m)是变量的二次函数并且m＝[m₀,...,m₅]^T可以被求解为二次最小二乘问题，其可以通过求解6个变量中的线性方程组来求解。

所描述的方法目的在于估计运动模型参数。它由以下步骤组成：特征点提取、用于在两个图像中找到对应点的特征匹配、以及运动模型参数的鲁棒估计。

A.高效特征点提取

给定两个深度图，目的是获得当前深度图中的一组特征点(x_i,y_i)，i＝1,…,n，以使得可以在参考深度图中标识它们的对应的特征点

i＝1,…,n。为了强调，如果纹理视频是可得到的，则还应该从当前纹理图像提取特征点以在参考纹理图像中建立对应。还应该包括特征对应以用于GMP的估计。

存在许多在纹理图像中提取特征点的方法，诸如基于强度基于参数的方法和基于轮廓的方法。基于强度的方法通常依赖于特定测量矩阵用于特征提取。参见C.Schmid等人的“Evaluation of interest point detectors”,International Journal of computervision,vol.37,pp.151-172(2000)，其被通过引用整体地合并在本文中。然而，将这样的测量矩阵用于整个图像上的特征点提取需要许多乘法，这可能阻碍它的实时实现。基于参数的方法使用对实体的各种几何性质进行建模的一组参数用于特征点提取。可以指出基于参数的方法的性能将对建模参数敏感。基于轮廓的方法使用图像中对象的轮廓的信息用于拐角提取。可以使用链码。参见H.Freeman等人的“A corner-finding algorithm for chain-coded curves”,IEEE Transactions on Computers,vol.3,pp.297-303(1977)。但是，将链码用于特征检测对由边缘检测引入的噪声敏感并且仅可以提取拐角点，诸如在Signal-Image Technologies and Internet-Based System(2007),pp.821-825中的N.Nain等人的“Morphological Edge Detection and Corner Detection Algorithm Using ChainEncoding”中那样。换言之，如果图像中的对象仅包含在深度图中常见的平滑边缘轮廓，则不能获得拐角点。

为了缓解上面提及的问题，一种高效的方法，即基于Ramec-Douglas-Peucker(基于RDP)的方法，被用于深度图或纹理图像上的特征点的更好提取。

Ramec-Douglas-Peucker(RDP)算法被设计成减少曲线上的点的数目。参见U.Ramer,“An iterative procedure for the polygonal approximation of planecurves”,Computer graphics and image processing,vol.I,pp.244-256(1972)。该算法以递归的方式划分指定的曲线。对于每个递归，给定第一点和最后一点之间的所有点，它自动地标记要保持的第一点和最后一点。基于具有这些两个端点的线段，将从线段挑选出最远的点并将其标记为保持点。该算法将在从最远点到线段的距离小于阈值时终止。

用于深度或纹理图像上的特征提取的基于RDP的方法主要包括三个步骤。更具体地，它首先使用边缘检测器(诸如canny边缘检测器)来提取图像的边缘。R.Deriche,“UsingCanny's criteria to derive a recursively implemented optimal edge detector”,International journal of computer vision,vol.l,pp.167-187(1987)。然后，将追踪每个边缘上的像素并且因此可以以有序的方式来组织所述像素。如果存在诸如T结合(conjunction)或L结合之类的联结点，则所追踪的边缘将被分成一组个体边缘。此外，通过将每个个体边缘视为特定曲线，可以使用RDP算法来提取边缘曲线上的一组点。这些点将充当特征点。接下来，我们呈现用于特征点提取的RDP算法的高效实现。

可以看出RDP算法需要位于起点和终点之间的所有点的距离计算。假设P,和P,分别是具有坐标(x₁,y₁)和(x₂,y₂)的个体曲线的起点和终点，并且P₀是具有坐标(x₀,y₀)的曲线上的个体点。可以使用下式来估计从P₀到用P₁和P₂表示的线段的距离：

为了高效地利用RDP算法，对于每个递归，等式(10)中具有最大分子的点可以被选择作为最远点。仅在递归结束时，通过等式(10)测量的最远点的距离将被用于终止判断。因此，在每个递归内等式(10)中的分母的计算和除法将被省略。此外，为了进一步增加效率，可以使用某些高效技术(例如使用Ricardo等人的“Robust Statistics:Theory andMethods”,J.Wiley(2006)中的快速平方根倒数方法)来实现等式(10)中的平方根倒数

的计算。

图4(b)示出在图4(a)中呈现的边缘图像上提取的特征的示例。具体地，如果所提取的特征数不够，这被表示为情况I，则该系统将跳过GMC并且将执行帧差分以检测MMO。等式(3)中的GMP将被设置成m₀＝m₄＝1和m₁＝m₂＝m₃＝m₅＝0(默认值)，并且经补偿深度图将被设置成原始参考深度图。否则，将执行特征匹配。

特征匹配

在从当前深度图或纹理图像提取足够的特征点(x,,y,)，i＝l……n之后，下一过程是在时间上(帧间)和/或在空间上(视图内)在其邻近的图像中找到对应的特征点(x；,.Y；)，i＝l……n。

在这里采用基于模板的匹配以找到特征点的对应。L.L.Scharf,“Statisticalsignal processing”,Reading,MA:Addison-Wesley,vol.98,1991。

更具体地，给定参考深度图d R(x,y)和当前深度图d(x,y)，其中其相关联的t特征点位于(x_i,y_i)处，我们首先将以(x,,y,)为中心的方形小块定义为模板d_t(x_t,y_t),x_t∈[1,N_t],y_t∈[1,N_t]，假设小块尺寸为N_t。然后提取d_R(x,y)中的以同一位置(x_i,y_i)为中心的方形区域以充当搜索图像d_s(x_s,y_s),x_s∈[1,N_s],y_s∈[1,N_s]。在这里我们假设搜索图像的尺寸是N_s，其中N_s>N_t。最后，我们在搜索图像d_s(x_s,y_s)内部移动模板d_t(x_t,y_t)并且可以通过选择该模板跨越的整个区上的绝对差最小和(SAD)值来获得对应特征点位置。更准确地说，像素强度的绝对差(AD)可以被定义为

diff(x_s,y_s,x_t,y_t)＝|d_s(x_s,y_s)-d_t(x_t,y_t)| (11)

因此，搜索图像中的每个像素的SAD是

经由循环通过搜索图像中的像素，可以找到具有最低SAD得分的对应特征点的最佳位置。

鲁棒的全局运动参数估计

因为从两个输入深度图或纹理图像所估计的对应特征点可能包含来自移动的对象或图像噪声的对应点，所以需要鲁棒方法来处理这些离群值。

为了降低这些离群值在估计中的影响，应该使用鲁棒的统计技术。代替使用对离群值敏感的平方误差

鲁棒的M估计函数[Ricardo论文](诸如Huber的函数、Tukey的双平方函数等)可以被用作失真度量D(e,)。这导致非线性最小二乘问题，其可以使用迭代重新加权最小二乘法来求解。M.A.Fischler等人，“Random sampleconsensus:a paradigm for model fitting with applications to image analysisand automated cartography”,Communications of the ACM,vol.24,pp.381-395(1981)。

对于纹理视频，通常使用Torr论文中的随机抽样一致性(RANSAC)算法、Chan在2001年论文中的M估计量抽样一致性(MSAC)算法等。参见S.C.Chan等人的“Multiplierlessperfect reconstruction modulated filter banks with sum-of-powers-of-twocoefficients”,IEEE Signal Processing Letters,vol.8,pp.163-166(2001)。这涉及随机挑选对应点的子集和求解得到的线性最小二乘或非线性最小二乘问题。这产生了许多可能的解决方案，并且选择最适合大部分对应点的一个解决方案作为最终解决方案。

还可以使用类似的技术来从自深度图获得的已匹配特征点估计运动模型参数。如果纹理视频是可得到的，则可以获得更多对应点并且因此可以从这些点形成类似失真

可以通过将来自深度和纹理特征点的贡献适当地求和来获得最终的失真。

D(m)＝w_textD'(m)+w_depthD(m) (13)

在这里w..,,和w.”,是可以被用来控制这两项的相对重要性的正常数，它们继而与纹理和深度特征点的可靠性相关。

使用全局运动模型的深度补偿的高效实现

A.成像坐标的无乘法器更新

在从先前编码的参考深度图像执行当前深度图像的运动补偿中，除了通过全局运动模型预测的那个校正矢量之外可能还需要校正矢量，其最小化对于给定块B内部的具有位置(x',y')的所有像素的预测误差e(x',y')的某些总失真度量。

在这里e(x′,y′)＝d_C(x′,y′)-d_R(x+Δx,y+Δy)。

因为(x′,y′)位于当前深度图像中的整数网格点上，所以从全局运动模型预测的其对应位置(x,y)将一般不位于整数网格点上。此外，(Δx,Δy)可以高达四分之一像素分辨率并且因此参考图像中对应点的坐标一般是分数。因此，对应深度值d_R(x+Δx,y+Δy)必须是从整像素抽样深度图内插的。

该值的高效计算需要来自(x,y)的(x′,y′)的高效计算和来自整像素抽样深度图d_R(n_x,n_y)的位置(x+Δx,y+Δy)处的内插值的高效计算，在这里n_x和n_y是整数。

用于从(x,y)计算(x′,y′)的高效方法的描述需要按照使用等式(2)的(x′,y′)来表达(x,y)，其给出

这需要每个位置(x′,y′)的相当多数目的乘法和除法，其使得实时实现复杂或困难。

仿射模型的使用相当大地简化了该计算，因为得到的关系式将被简化成

在这里，

且

因为如在八参数模型中那样M不依赖于(x′,y′)，所以它仅可以被预计算一次且被用于所有(x′,y′)。此外，因为(x′,y′)将通常位于矩形块中，所以邻近位置将相差(±1,0)或(0,±1)。通过使用上面(x′,y′)和(x,y)之间的线性关系，通过下式来使它们的对应位置(x,y)、(x_(±1,0),y_(±1,0))和(x_(0,±1),y_(0,±1))分别简单相关：

在这里

和

是M的列。

因此，当沿着水平方向或竖直方向逐步通过索引(x',y')时，可以通过两次简单添加从其邻近值递归地更新新的位置，因为m₀和m₁已经被预计算。

这高效地计算了当前帧的深度像素在根据运动模型的参考帧中的对应位置。通过从其整像素邻居内插深度值，可以从编码的参考获得当前深度像素的预测子。如果需要局部细化，则可以搜遍在(x,y)周围的(Δx,Δy)以获得更好的预测。这将需要参考图像的深度值在(x+Δx,y+Δy)处的插值。

使用上面的等式的(x,y)的递归计算需要能够分别容纳x和y的动态范围的两个足够长的累加器以便不会影响所需的准确度。

正常地，所需的(x+Δx,y+Δy)的精度高达四分之一像素，即2^-2。另一方面，对于4K图像，x和y可以从1变到2¹²。

因此，累加器应该至少具有12个整数位加上两个分数位。此外，当m₀和m₁可能被累加2¹²次时应该确定它们的准确度。在最坏的情况下，它们的误差可以被放大2¹²倍。为了使这些经放大的误差不影响x和y的最终准确度(其对于四分之一像素准确度是2^-2)，m₀和m₁的精度应该是至少2^-2×2^-12＝2^-14。

为了可靠操作，建议使用具有16位整数部分和16位分数部分的32位长的累加器用于计算x和y的值。如果使用正的x’和y’，则整数部分将是正的并且不需要符号位。可以用其中至少14位用于分数部分的16至32位来表示m₀和m₁的值。

B.无乘法器双线性插值。

为了从参考深度图像d_R(n_x,n_y)计算d_R(x+Δx,y+Δy)的值，(x+Δx,y+Δy)的最近四个邻居被定位在整数网格中。如果将(x+Δx,y+Δy)计算成高达四分之一像素准确度，则它可以被向上或向下舍入到最近的整数以获得它的四个邻居的位置。对应下限是

和

且上限是

和

在这里

和

分别表示最接近于u或等于u的更小和更大整数。如果值x+Δx或y+Δy中的一个是整数，则不需要对应方向上的插值。如果二者都是整数，则可以直接从参考图像获得深度值。

假设在(x_L,y_L)、(x_U,y_L)、(x_L,y_U)和(x_U,y_U)处的d_R(n_x,n_y)的深度值分别是f(0,0)、f(1,0)、f(0,1)和f(1,1)。在这里，为了记法便利而已经在包含(x+Δx,y+Δy)的整数网格中将单位正方形[x_L,x_U]×[y_L,y_U]映射到[0,1]×[0,1]。

如果通过双线性函数f(u,v)来局部地建模d_R(u,v)，(u,v)∈[x_L,x_U]×[y_L,y_U]，则可以通过f(u,v)将d_R(x+Δx,y+Δy)逼近为

f(x_Δ+x_L,y_Δ+y_L)＝f(0,0)x_Δy_Δ+f(1,0)(1-x_Δ)y_Δ+f(0,1)x_Δ(1-y_Δ)+f(1,1)(1-x_Δ)(1-y_Δ) (19)

在这里(x_Δ,y_Δ)＝(x+Δx-x_L,y+Δy-y_L)。

如果将x_Δ和y_Δ舍入到四分之一像素准确度，则它们可以占据来自0,2^-1,2^-2,2^-1+2^-2的值。可以预计算乘积x_Δy_Δ、(1-x_Δ)y_Δ、x_Δ(1-y_Δ)和(1-x_Δ)(1-y_Δ)，并且对于它们中的每一个存在最多16种组合。可以以采取

形式的正则有符号数字(CSD)或二的幂和(SOPOT)系数来写这些乘积中的每一个，在这里p_l∈{0,±1}。

因此，数u与x_Δy_Δ、(1-x_Δ)y_Δ、x_Δ(1-y_Δ)或(1-x_Δ)(1-y_Δ)的乘法可以被实现为

这相当于对于每个非零的p_l将u移位2^-l并且将它们加在一起。因此，可以仅使用加法来实现等式(16)中的双线性插值。

当将x_Δ和y_Δ舍入到b位准确度时该原理也适用。可以再次预计算乘积x_Δy_Δ、(1-x_Δ)y_Δ、x_Δ(1-y_Δ)和(1-x_Δ)(1-y_Δ)，并且对于它们中的每一个存在最多2^2b种组合。

对于四分之一像素准确度，如下仅3位被用来量化x_Δ和y_Δ：

x_Δ,q＝(round(x_Δ·2³))/2³ (21)

y_Δ,q＝(round(y_Δ·2³))/2³ (22)

在这里round(x)是到数x的最近整数。可以如表I中所示的那样以四分之一像素准确度来预计算乘积x_Δy_Δ、(1-x_Δ)y_Δ、x_Δ(1-y_Δ)和(1-x_Δ)(1-y_Δ)。为了确切表示，这些乘积的字长仅是4位。

在1D插值的特殊情况下，这意味着双线性函数仅具有一个变量x_Δ或y_Δ，例如如果x_Δ＝0，则等式(19)可以被重写成

f(x_L,y_Δ+y_L)＝f(1,0)y_Δ+f(1,1)(1-y_Δ) (23)

需要被内插的位置沿着y轴方向分别位于(x_L,y_Δ+y_L)和y_Δ＝2^-2,2^-1,2^-1+2^-2处。

表I

硬件架构可以被用来实现等式(20)中输入数u与SOPOT系数的乘法，等式(19)和(23)中的双线性插值中需要其。参见T.Koga等人的“Motion-compensated interframecoding for video conferencing”,Proc.NTC81,pp.G5.3.1-G5.3.5(1981)。考虑SOPOT系数

我们将考虑u与C₊的乘法，因为对于C_-的细节是类似的。

因此，可以通过从s_k与

的和接连地计算s_k+1来获得

中涉及的总和，在这里可以通过将x_k的二进制表示向左移位l_k+1-l_k位来获得

图5示出用于使输入u与SOPOT系数相乘的这样的结构。s_k+1被递归更新并且存储在累加器中。x_k+1被存储在寄存器中并且通过在被添加到

或从累加器中的

s_k减去并且最终和s_k+1被存储在累加器中之前将其前一内容递归地移位l_k+1-l_k位来获得。

差分移位通常具有更小的范围并且可以通过桶式移位器来实现。为了在避免使用大桶式移位器的同时支持更大的移位范围，可以将移位分解成更多级。图5示出两级实现，在这里所需的移位数l被写为l＝rl₁+l₀，在这里l₀＝0……r-1且l₁＝0……L-1。最大的可能移位因此是Lr-1。

第一移位器执行为r的倍数的移位，而第二移位器执行一直到r-1的更小范围移位。

当实现乘法时，使用适当的控制信号来控制移位器和在累加器处的加法/减法，其可以在所需的系数乘法被调用时被存储在表中。

为了说明，图6示出使用图3(b)中的当前深度图的处理结果。

MMO的检测和估计以及它们的运动参数

如果可以通过等式(3)中的相机运动模型来对当前深度图d(x,y)进行建模并且可以找到足够的特征点，则可以通过使用GMP从参考深度图像d_R(x,y)扭曲(warp)的经补偿深度图d_C(x,y)来逼近当前深度图中的大部分深度值。可以在通过将补偿之后的残差的幅值与某一阈值ε进行比较来从所述幅值检测没有被有效地补偿的对象。如果它小于该阈值，则在该位置处的补偿被认为是成功的，其可以用以下二进制预测掩模

来指示

它还可以被用来确定对于整个帧的补偿是否是有效的。如果是这样的话，则它还可以被用来检测主要移动对象(MMO)及其运动模型参数，因为它们一般不能通过全局运动模型来预测。

为此目的，如下计算通过使用GMP和默认帧差分而获得的成功补偿的像素的总数：

在这里eff_rec和eff_ori分别是GMP和默认帧差分方案的有效性，

是默认方案的二进制预测掩模，并且N_x和N_y分别是

的列和行的数目。如果eff_rec大于eff_ori，则基于GMP的补偿将被接受并且MMO的运动模型参数(MMP)将被估计。否则，基于GMP的补偿被认为是不成功的，其用情况II来表示。这通常归因于显著的非刚性时间变形的存在。默认帧差分方案中的前一深度图将代之以被用作经补偿深度图d_C(x,y)。还将使用默认补偿来估计MMO的MMP。

为了标识MMO，首先利用可以标识掩模中的每个个体区域的不同索引来标记预测掩模的连通域。然后对预测掩模执行距离变换。如果针对每个个体区域的最大距离小于在LMC中应用的局部搜索范围，则该区域将不被识别为MMO。因此，小的对象将被排除并且可以提取MMO连同其标记索引。然后将利用不同的包围盒来指定不同MMO。假设当前深度图中的给定MMO的最小/最大图像坐标分别是(x_min,y_min)和(x_max,y_max)，则可以利用以下水平和竖直尺寸来确定包围盒，

为了估计通过包围盒指定的图像的运动参数，通过将包围盒中的深度图像当作模板来进一步执行模板匹配。假设当前深度图中的包围区域是d(x,y)，

在这里(x_min,y_min)是具有水平宽度

和竖直宽度

的包围盒的左上角的位置。为了简单，运动参数包括位移或运动矢量和尺度改变因子。

假设从参考深度图扭曲的深度图中的对应包围区域d_C(x,y)是

在这里

是从模板匹配获得的运动矢量。然后，从深度图中的每个已匹配包围区估计深度缩放参数。例如，缩放参数

可以被估计为

如果检测到不止一个MMO，则重复执行模板匹配以估计MMP。对于每个MMO，首先例如使用均匀量化器来量化MMP的元素

然后，可以使用熵编码来对经量化的值进行编码。

在解码器中，将首先用

来对GMP补偿深度图中的d_C(x,y),

进行缩放以估计参考包围区域的深度值，

然后，等式(31)中所获得的包围区域将充当用于当前深度图中利用

束缚的区域的局部运动补偿的候选块。

作为示范，图7呈现所估计的主要移动对象以及它们的对应包围盒。

用于改进的补偿的局部运动校正(LMC)

主要运动对象参数提供所检测到的全部主要移动对象的运动矢量和缩放信息。与MMO相关联的MMP中的包围盒还在该运动矢量和缩放信息将有用的情况下提供该信息。在宏块或其它编码单元的编码中，如果MMO的MMP中的包围盒覆盖宏块或编码单元的某一分区，则它可以充当用于进一步局部细化的潜在预测子。一个或多个MMP可能对编码单元可用，并且最佳预测子可以连同细化信息(其可能由位移或局部运动矢量组成)和缩放参数等一起用信号通知给接收器。利用包围盒方法，仅要求指定使用哪些有效的MMP，而不是使用帧中所有可用的MMP，因为它们中的大部分与其它区中的对象相关联且因此对在考虑中的当前编码单元无效。MMP还可以帮助降低在例如运动估计中找到细化信息的算法复杂度。而且，局部运动矢量的范围通常是小的并且因此可以显著减少用于对后者进行编码的位。因此MMP可以帮助改进编码效率。

在宏块或编码单元的编码中，执行LMC以从使用GMP补偿的参考深度图像找到最佳预测子。有效的MMP可以被用来为局部运动细化提供初始猜测，其由位移和局部变形校正(LDC)组成。

常规的运动补偿单独地可能并不高效，因为对象可能会遭受局部变形。为了实现针对每个块的更精确运动补偿，LMC装备有不连续察觉运动估计(DME)准则，并且在主要运动补偿之后执行局部变形校正(LDC)。DME准则中的基本想法是放松深度不连续周围的匹配准确度以使得在轻微变形下仍可以找到候选块。然而，不连续中的变形一般难以补偿。幸运地是，这可以通过后处理技术来校正，诸如沿深度不连续的联合色深褪光(matting)。参见K.V.Mardia等人的“Multivariate analysis”,Academic press(1979)，其被通过引用整体地合并在本文中。还可以使用所提出的LDC方法来补偿平滑区中的深度值中的改变。

用于平滑块的局部运动校正

采用装备有LDC的常规运动补偿方法来处理平滑块。采用使用在潜在运动预测子周围的小搜索范围中的深度值的常规运动估计来在参考深度图像中定位最佳候选块。在常规运动估计中，平均绝对差(MAD)准则被用来找出最佳候选块。参见Tech等人的论文。

如果候选块的残差由于局部变形而是大的，则将执行LDC以进一步降低预测误差。

给定具有分别通过d(x₀+x,y₀+y)和d_C(x₀+x+mv_x,y₀+y+mv_y)，(x,y)∈[0,N-1]×[0,N-1]给出的深度值的当前和候选块，在这里mv＝(mv_x,mv_y)是要被确定的局部运动矢量(LMV)，假设当前块的左下角位于(x₀,y₀)处并且使用N×N的块尺寸。(x,y)用来索引块内部的元素。还可以使用其它块尺寸。从经补偿参考图像

获得候选块，在这里A{·}和d_C(x₀+x,y₀+y)分别表示主要对象运动补偿运算符和全局运动补偿的参考图像。匹配误差诸如下面那样可以被计算：

为了记法便利，我们后来已省略

的下标。为了计及可能的局部变形校正，寻求E(x,y；mv)的简单逼近。因为双线性函数可以以低复杂度来估计和内插，所以它是用于逼近匹配误差的值的好候选。对于(x,y)∈[0,N-1]×[0,N-1]，双线性逼近函数

可以被写为：

在这里四个拐角处的

和

是可以例如通过最小二乘拟合来计算的参数。参见艾瑞咨询集团，2015，[在线]可得的Q1 2015ChinaOnline Video Report(Brief Edition)：http://www.iresearchchina.com/views/6431.html。为了降低计算复杂度，用以确定这些值的简单且适当的方法要直接通过在以期望位置为中心的3x3窗口中的E(x,y；mv)的中值来估计它们。

它们的值可以被压缩或者使用DPCM或2x2变换编码再加上(followed by)熵编码直接进行编码。

通过利用双线性函数来拟合E(x,y；mv)，获得逼近值

并且补偿之后的残差是

可以通过如下面的

的平均绝对差(MAD)来测量候选运动矢量的性能

这允许我们在双线性补偿之后比较每个候选LMV的性能并且确定在给定位置(x₀,y₀)处的给定搜索范围内部的具有最小值的最佳候选LMV。

B用于不连续块的局部运动校正。

对于包含不连续的块(被称为不连续块)，可能存在深度不连续周围的深度值中的大变化，这可能影响平坦区处的匹配。所提出的DME的想法是放松深度不连续周围的匹配准确度。对输入深度图执行诸如边缘检测之类的不连续检测以用于标识用于进行匹配的不连续。通过二进制不连续结构掩模(DSM)D(x,y)来指示编码单元中的不连续的某一距离内的像素，在掩模内部该D(x,y)等于一并且否则等于零。对于在全局相机运动补偿之前的参考图像，已经在特征检测步骤(步骤1)中执行了边缘检测。如在深度图像中那样，可以将上面描述的相同的基于GMP的变换应用于该边缘图。由于插值，深度图将变成实值的。为了节省存储，可以对内插值进行阈值化以获得二进制边缘图。

当选择用于进行匹配的候选块时，只有当候选块满足以下不连续兼容条件(DCC)时才将会选择它们：当前块和候选块的不连续结构掩模之间的相似应该在阈值以下。因此，这两个块的结构匹配是使用上面的DCC按照它们的不连续结构来执行的。可以通过以下MAD准则来确定不连续结构掩模之间的相似：

在这里D(x,y)和D_C(x,y)分别是当前参考图像和经补偿参考图像的DSM，并且

是当前块和候选块的不连续结构掩模的匹配误差。可以从当前块的不连续结构掩模中的非零元素的数目自适应地获得相似度阈值。

对于满足DCC的那些候选块，LDC将被用来评估其性能。假设

是经补偿匹配误差。可以通过如下面的在不连续掩模外部的

的绝对差(MAD)的总和来测量候选运动矢量的性能

这允许在双线性补偿之后的每个候选LMV的性能的比较以及在给定位置(x₀,y₀)处的给定搜索范围内部的具有最小值的最佳候选LMV的确定。双线性函数系数值可以被压缩或者使用DPCM或2x2变换编码再加上熵编码直接进行编码。

在解码器中，为了降低归因于基于块的LMC的区块效应，可以将解块应用于重建的深度图，其不同于其中没有使用解块的Tech论文中的HEVC-3D。

根据多视点深度视频的深度图的视点间预测。

对于视点间预测，将从立体或多视点相机获得系统中的输入深度图或纹理图像。因为时间移动对象将与用于视点间预测的背景的对象共享相同的相机运动，所以它们的特征将被包括用于系统中的视点间运动估计。因此，本发明的用于视点间预测和补偿的系统的性能将比帧间情况更高效。图8给出使用本发明的用于视点间全局运动估计和补偿的系统的示例。

在图8中，(a)是左视图中的深度图输入(参考深度图)；(b)是右视图中的深度图(当前深度图)；(c)是所估计的叠加在左视图上的全局运动；(d)是从(a)扭曲的深度图；(e)是使用默认帧差分计算的预测掩模的称赞；并且(f)是使用当前深度图和经补偿深度图计算的预测掩模的称赞。

虽然本发明已经被参考其优选实施例特别地示出和描述，但是本领域技术人员将理解，可以在不偏离本发明的精神和范围的情况下在其中做出形式和细节上的各种改变。此外，可以做出许多修改以在不偏离本文中所描述的中心概念的情况下使特定情况适应于要求保护的主题的教导。因此，意图使要求保护的主题不限于所公开的特定示例，而是这样的要求保护的主题还可以包括落入所附权利要求以及其等同物的范围内的所有实现。

Claims

1.一种用于高效估计和实现具有参考深度图和当前深度图的视频中的静止或几乎静止的对象的帧间全局相机运动预测和补偿的方法，包括以下步骤：

使用经修改的Ramer-Douglas-Peucker算法来检测深度图视频中的特征；

提取特征；

基于所提取的特征、使用模板匹配对来自当前深度视频的数据执行全局运动补偿，然后对参考深度视频的数据执行全局运动补偿；

使用M估计量抽样一致性方法来估计全局运动参数；

检测深度视频中的主要移动对象并通过将当前深度图与来自参考图像的经补偿深度图进行比较来估计主要移动对象的参数；以及

估计表示为主要运动参数的运动参数，以及通过将当前深度图分成不重叠块和执行局部运动校正来估计宏块或其它编码/预测单元的局部运动补偿。

2.根据权利要求1所述的方法，其中视频包括纹理图像并且估计还基于对所述纹理图像的分析。

3.根据权利要求1所述的方法，进一步包括通过将从所述估计的全局运动参数导出的值与预定值进行比较来评估所述全局运动补偿的步骤。

4.根据权利要求3所述的方法，其中所述预定值是从所述参考深度图导出的。

5.根据权利要求1或3所述的方法，其中通过使用所估计的全局运动参数或默认全局运动参数来包裹所述参考图像而生成所述经补偿深度图。

6.根据权利要求5所述的方法，其中如果所述全局运动补偿是无效的，则通过经由使用所述默认全局运动参数来包裹所述参考图像而生成所述经补偿深度图。

7.一种用于全局和主要对象运动估计、补偿和深度压缩的系统，包括：

特征检测器，其被配置成至少接收当前深度图和参考深度图，所述特征检测器执行以从图中提取特征点并且将全局运动补偿设置成其默认值；

全局运动补偿器，其被配置成当所提取的特征点的数目超过阈值时从所述特征检测器接收特征点，所述补偿器执行以使来自两个图的特征匹配，估计全局运动补偿并基于估计向特征应用补偿；

运动检测器，其被配置成从补偿器的输出检测主要运动对象并且估计主要运动参数；以及

局部运动补偿器，其被配置成从所述运动检测器接收全局运动补偿和主要运动参数，以及通过将当前深度图分成不重叠块和执行局部运动校正来估计宏块或其它编码/预测单元的局部运动补偿，并且输出经编码的视频信息。

8.根据权利要求7所述的系统，其中所述补偿基于估计的全局运动参数或默认全局运动参数。

9.根据权利要求8所述的系统，其中全局运动补偿器被进一步配置成如果所述估计的全局运动补偿是无效的则基于所述默认全局运动参数来采用所述补偿。