CN1723476A

CN1723476A - 用于数字图像的深度排序的方法和设备

Info

Publication number: CN1723476A
Application number: CNA2004800018781A
Authority: CN
Inventors: F·E·埃恩斯特; C·瓦雷坎普; P·维林斯基
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-01-06
Filing date: 2004-01-05
Publication date: 2006-01-18
Also published as: JP2006516062A; KR20050090000A; US20060165315A1; WO2004061765A2; EP1584068A2; WO2004061765A3

Abstract

在用于对一个或多个图像各部分的相对深度进行排序的方法中，通过分段而将数字图像进行正则化，并且图像的至少一部分像素被分配给相应各分段。通过图像匹配来估计接连图像各分段的相对运动。通过二重分段而将分段的图像特性进行正则化，在其中要找出分段的边缘，把像素分配给边缘，并规定二重分段。通过图像分段匹配而估计接连的图像的二重分段的相对运动以确定图像的分段的相对深度排序。

Description

用于数字图像的深度排序的方法和设备

本发明总的涉及视频和图像处理技术。本发明具体地涉及根据运动估计在视频序列的帧内进行深度排序，并将具体地对其进行描述。

对于各种视频序列处理的应用，需要找出图像各部分的运动或深度排序。这样的应用包括例如扫描速率上变换、MPEG编码、和基于运动的深度估计，而许多这样的应用要求计算的简单性。运动估计的已知的方法根据的是进行匹配的途径。在这样的方法中，每个视频帧被分割成分段。然后，对于分区(或分段)的每个单元，估计一个运动向量以使得在当前的帧中该分段的被移位的型式与它在下一个帧中的位置之间的不一致量或“匹配损失”为最小。

更具体地，在运动估计和基于运动的深度估计的已知方法中，作为使得在候选运动或深度值的有限集合上的匹配误差E最小化的结果，运动向量Δx＝(Δx，Δy)或深度d被分配给图像的一部分。假设，候选数值足够密集地对E的曲线图进行采样以作为深度d或运动向量Δx的函数。而且，假设这个曲线图具有足够明显的全局最小值。

虽然基本算法把图像分割成方形块，但(最近的)研究致力于把图像分割成具有任意几何形状的区域，即所谓的分段，其中分段边界是与亮度或彩色突变点相一致的。这样，分段可被解译为在场景中的物体的各个部分。这可改进运动或深度场的分辨率和精度。

在由视频序列中基于分段的深度重建的典型的处理过程中，在找到每个分段的运动向量后，执行两个处理步骤。第一步骤是摄影机校准，这导致摄影机定位和取向。第二步骤是从两个接连的帧进行的深度估计，导致按每个像素的深度估计。这两个处理步骤可被合并。

在这个深度估计算法中，摄影机校准需要能够把视在运动变换成深度值。摄影机校准关系到摄影机的内部几何形状和光学特性以及摄影机框架相对于某个世界坐标系统的3D位置和取向。然而，摄影机校准是不稳定的过程。而且，用于运动到摄影机参数的变换的当前的技术只能在场景是静止时才能完成。因此，如果场景中没有很大的深度差或当物体相对于场景的剩余部分有它自己的运动时，已知的深度估计算法具有有限的用途。

再者，大家知道，通过比较区域的运动与它的边界的运动可以得出深度排序。新近的方法试图同时解决这种分段和深度排序问题。一个这样的方法是要找到图像中的区域和边缘，把边缘分割成组，以及给区域加标签，正如在“Edge Tracking for Motion Segmentation andDepth Ordering(用于运动分段和深度排序的边缘跟踪)，”P.Smith，T.Drummond，R.Cipolla，Proceedings of the British MachineVision Conference，Vol.2，pp.369-378，September 1999中描述的。另一个这样的方法是彩色分段和运动估计、运动分配、运动细分、和区域链接，正如在“Integrated Segmentation and Depth Orderingof Motion Layers in Image Sequences(图像序列中运动层的合并的分段和深度排序)，”D.Tweed和A.Calway，Proceedings of theBritish Machine Vision Conference，pp.322-331，September2000中描述的。

然而，上述的两种方法具有有限的可应用性，因为在第一种方法中只有两个深度层是可得到的，而且在这两种方法中，要使用相当复杂的全局最佳化。

本发明的不同点在于，它是局部地操作的和在区域对之间比较匹配误差以达到深度排序。它代表这样一种改进，即它仅仅根据运动向量，这不需要摄影机校准，而且它对于任意数目的深度层都是有效的。而且，不引入阈值。

按照本发明的一个方面，提供了一种用于根据两个或多个数字图像对于一个或多个图像各个部分进行深度排序的设备。提供了用于接收数字图像的输入部分。提供了用于通过分段对于由像素组成的数字图像的图像特性进行正则化的第一正则化装置，并包括把图像各像素的至少一部分分配给相应的分段的分配装置。提供了用于通过图像匹配而对接连的图像的各分段的相对运动进行估计的第一估计装置。提供了用于通过二重分段对于分段的图像特性进行正则化的第二正则化装置，以及该装置包括用于找出各分段的边缘的装置、用于把像素分配给边缘的分配装置、以及用于规定二重分段的装置。提供了用于通过对图像分段进行匹配而估计接连图像的二重分段的相对运动以确定各图像分段的相对深度排序的第二估计装置。提供了用于输出图像各部分的相对深度排序的输出部分。

按照本发明的另一个方面，提供了一种用于通过使用两个或多个数字图像对于一个或多个图像的各个部分进行深度排序的方法。通过分段而对于由像素组成的数字图像的图像特性进行正则化，并把图像的至少一部分像素分配给各个相应的分段。通过图像匹配来估计接连的图像的各分段的相对运动。通过二重分段对于各分段的图像特性进行正则化，这包括找出各分段的边缘，把像素分配给边缘，以及规定二重分段。通过对图像分段进行匹配而估计接连的图像的二重分段的相对运动以确定图像各部分的相对深度排序。

本发明的一个优点在于改进了确定来自视频序列中接连各帧的数字图像的相对深度排序的方式。

本发明的另一个优点在于能够确定相对深度排序而不需要摄影机校准。

本发明的再一个优点在于能够确定对于数字图像中两个以上的深度层的相对深度排序。

本发明的再一个优点在于改进运动向量估值的精度。

在阅读以下的优选实施例详细说明后，本领域技术人员将明白本发明的许多附加优点和好处。

本发明可以采取各种部件和部件的安排和各种步骤和步骤的安排的形式。附图仅仅是用来说明本发明而不是被看作为限制本发明。

图1显示用于根据运动估计的数字图像各部分的深度排序的处理过程的例子。

图2显示来自Doll House序列的帧的一部分的原先的分段的例子。

图3显示来自Doll House序列的帧的一部分的二重分段的例子。

图4显示来自Dionysios序列的帧的一部分的原先的分段的例子。

图5显示来自Dionysios序列的帧的一部分的深度排序的例子。

图6示意地显示用于数字图像各部分的深度排序的设备。

在以下的优选实施例中，解释了用于确定数字图像各部分的深度次序关系的处理过程。这些图像可以是来自视频流的连续的图像，但深度排序过程不限于此。

参考图1，处理过程10对一帧内的图像20各部分进行深度排序。过程10的第一步骤30是对帧内的图像20进行分段。第二步骤40是确定来自视频流的连续的分段图像中各个匹配的部分。第三步骤50是图像20的二重分段。第四步骤60是通过图像分段匹配来确定图像的二重分段的运动。输出70是图像20的各部分的相对深度次序。

图像20是包含图像像素的数字图像，并被规定为两个二维数字图像I₁(x，y)和I₂(x，y)，其中x和y是表示图像的各个像素的坐标。处理过程10包括计算一对函数：M＝Δx(x，y)和M＝Δx(x，y)。M被规定为使得图像I₁中的每个像素按照以下公式被映射为图像I₂中的像素：

I₂(x，y)＝I₁(x+Δx(x，y)，y+Δy(x，y))

M的构建是通过把M重新规定为一个对于具有类似运动的像素组来说是恒定的函数而被修正的。

其M被认为是恒定的那些像素的集合，是由一些被估测为具有类似运动的像素组成的。为了找到这样的集合，通过分段步骤30把图像15划分成分段。图像I₁因此被划分成包含由边界所约束的像素的分段，其中这些边界规定了各个分段。图像的分段相当于对于图像中的每个像素要决定有限的分段集中某一分段的成员，这里分段是一个相连的像素集合。图像分段方法通常可以分成基于特性的和基于区域的方法。对于深度排序处理过程10，所使用的图像分段的类型最少应当标识运动突变点。假设运动与彩色突变点是一致的，这意味着分段算法优选地把分段边界放置在彩色边界处。然而，它也可以在其它地方放置分段边界。由于这是图像分段的主要目标之一，基于彩色的图像分段算法的具体选择对于本深度排序过程并不是关键的。图2显示来自经受彩色边界分段的Doll House序列的帧。

处理过程10的第二步骤40是图像匹配，或基于分段的运动估计。对于优选实施例更具体地，第二步骤40包括确定图像I₁与图像I₂之间的分段的位移函数，由此分段在图像I₂上的投影需要被发现为与该分段匹配以便产生M。这是通过选择可能与分段匹配的图像I₂匹配的多个候选者、计算用于每个候选的匹配准则、然后选择具有最好匹配结果的候选者而完成的。匹配准则是第一图像的分段与第二图像上的投影相匹配的确定性的度量。为了确定哪个候选的投影与分段最好地匹配，要对每个投影计算匹配准则。匹配准则在数字图像处理中被使用，以及在它的实施方案中被认为是使得匹配误差或匹配损失函数最小化。通过使得匹配函数最小化的这样的匹配函数和方法在本技术中是已知的。

因此，通过分段和候选的运动向量，就预测到了分段的像素在下一个图像中的位置。这样，在第二步骤30，把预测的像素彩色与在第二图像中看到的实际的彩色进行比较。在预测的与实际的彩色之间的差别被合计并被称为匹配损失或“SAD误差”。(SAD是“绝对差值之和”的缩略词。)最后，具有最小匹配损失的候选的运动向量被分配给每个分段。为了有效地做到这一点，要对候选的运动向量优选地作出明智的选择(例如，相邻的分段的最佳运动向量)，但这方面对于本发明并不是关键的。

深度排序处理过程10中的第三步骤50是为每个图像规定一个二重分段。如前所述，图像的分段相当于对于图像中的每个像素决定有限的分段集中的一个分段的成员，其中一个分段是相连接的像素集合。二重分段的一个特别有利的方法是所谓的“准分段”方法。在准分段方法中，所谓的分段的“种子”借助于距离变换而成长，以使得至少部分像素被分配给种子。这导致大大地减小的计算花费和提高的计算速度。准分段因此可以在以后的图像中的分段匹配时被使用。

二重分段步骤50包含两个部分：找出分段的边缘和把像素分配给分段。因此，根据原先的分段，对于每对分段(S_i，S_j)，所有的边缘像素被标记以数e_i，j，即，对于p∈S_i和

q∈N₄(p)以使得q∈S_i的那些像素p和对于p∈S_j和

q∈N₄(p)以使得q∈S_j的那些像素，其中N₄表示p的四个邻居。这时就创建了二重分段S_ij，由此种子相应于边缘像素e_i，j。一个种子包含种子像素，其中种子像素是最接近于硬边界部分的图像的像素。这些种子形成了数字图像像素阵列内的近似边界部分；因为种子在像素阵列的范围内，以后的计算可以容易地执行。种子像素在沿着两个分段之间的检测到的边界上全部被确定，引起两个像素宽的双链。沿边界的种子像素链(在这种情形下，两条边都是同一个种子的一个部分)被认为是一个种子，并由独特的识别号表示。作于边缘检测的结果，种子像素基本上形成链。种子也可以是任意形状的边缘像素集群，尤其是在种子具有大于单个像素的宽度的情况时。对于每个像素(x，y)，距离变换给出到最接近的种子点的最短的距离d(x，y)。对于距离的任何适当的定义都可以使用，诸如欧几里得、“城市块(city block)”或“棋盘”距离。用于计算对于每个像素的到最接近的种子点的距离的方法在本技术中是已知的，以及在实施处理过程10时可以使用任何适当的方法。

在优选实施例中使用的算法是基于在图像I(x，y)的所有的像素上进行两遍，产生出表示与最接近的种子的距离的d(x，y)的数值。对d(x，y)的数值进行初始化。在第一遍中，从图像I的左上角到右下角，数值d(x，y)被设置为等于其本身和它的每个邻居加上到达该邻居的距离的最小值。在第二遍中，进行相同的过程，但要从图像I的右下角像素扫描到左上角的像素。在进行这两遍后，所有的d(x，y)具有它们的正确的数值，代表到最靠近的种子点的最接近的距离。

在d(x，y)距离矩阵填以正确的数值的这两遍的进行期间，项目缓存器b(x，y)以对每个像素(x，y)的最接近的种子的识别号被更新。在距离变换后，项目缓存器b(x，y)对于每个像素(x，y)具有与最接近的种子有关的数值。这导致数字图像被分段；这些分段由具有相同的数值b(x，y)的像素(x，y)形成。因此，在边缘的两边的分段的部分形成二重分段。这方面可以从图2和3最好地看到，它表征来自Doll House序列的帧的部分。在这些图上显示的是一个拱形。在图2上，原先的分段，拱形包含由边缘分开的黑色和灰色分段。在图3上，存在二重分段，它部分地在黑色部分中，部分地在灰色部分中，以及包含比起在原先的分段中的任何其它的边缘更接近于在原先的分段中的两个部分之间的边缘的那些像素。

处理过程10中的第四步骤60是计算对于两个候选者的二重分段的每个分段的匹配损失。原先的分段的每个边界造成二重分段中的一个分段。由于现在有一个二重分段，因而再次进行图像匹配。然而，为了在这个步骤中更快速和有效地进行处理，对于每个边界只使用两个候选者-在边界的两个边上用于分段的最佳运动向量。这些向量是使得匹配损失最小化的运动向量。

因此，在优选实施例中，用于分段S_i，j的候选者是在对于原先的分段S_i和S_j的两个或多个图像或帧之间的最佳运动向量。相应的匹配损失被称为M_i和M_j。在确定匹配损失后，决定哪个分段是最接近的分段，或输出70。这个任务是通过比较M_i和M_j而完成的。如果M_i小于M_j，则S_i是最接近的分段。同样地，如果M_i大于M_j，则S_j是最接近的分段。因此，作出正确的决定的可能性可以用差M_i-M_j给出。

为了解释为什么这个改进的深度排序处理过程10行得通，应当指出，根据对分段的定义，边缘的特征在于，相对于分段内的纹理它有相对更大的彩色对比度。边缘(或彩色对比度)具有与较接近的分段相同的运动：该边缘属于这个分段。对于较远的分段，像素被包括在其它分段的下面，而边缘的运动与分段的运动无关。匹配损失对于彩色对比度是敏感的；因此，它对于相应于最接近的分段的运动的运动向量将是最低的。

图4和5显示在稍微移位的摄影机位置处用于Dionysios序列的一对帧的部分的深度排序方法的结果。深度对比度在图5上被编码为黑/白边缘，其中亮的部分是上侧而暗的部分是下侧。对比度的大小表示匹配损失的差别，或深度排序的可信度。可以看到，前景和背景被充分地排序。

作为本发明的替换实施例，有可能对于二重分段进行完全的图像匹配(或运动估计)，以及对于原先的分段只测试有限数目的候选者(例如，在分段周围所有的边缘的最佳运动向量)。

深度排序处理10的一个优点包括这一事实：即额外的计算代价是相当小的。二重分段包含距离变换，它可作为对数字图像的二遍操作被实施，并且对分段只有两个候选运动向量必须被评估。通过只在围绕边缘的小的区域中(例如，四个像素宽)匹配而不对全部二重分段进行匹配，这可以被做得甚至更便宜。

分段的深度次序也可用于基于RANSAC的摄影机校准算法，其中与得到的深度次序不一致的参数估值可被丢弃。

包括用于执行以上步骤的计算机程序代码部分的计算机程序产品可被存储在诸如硬盘或软盘或CD-ROM的适当的信息载体中，或被存储在计算机的存储器部分。它也可以直接用专门的或可重新配置的硬件来实施。

参考图6，用于数字图像的深度排序的装置100包括处理单元120，用于按照上述的方法对数字图像的各部分进行深度排序。处理单元120包括用于图像分段的第一正则化部件130，用于估计分段的运动的第一图像匹配部件140，用于图像的二重分段的第二正则化部件150，以及第二图像匹配部件160。处理单元120与输入部分110连接，通过该输入部分110，数字图像被接收并被送到处理单元120。处理单元120还被连接到输出部分170，通过该输出部分170，数字图像各部分的最终得到的相对深度排序被输出。装置100可被包括在显示设备200(诸如3维电视产品)中。

本发明是用优选实施例描述的。显然，在阅读和明白前述的详细说明后，其它人将可作出修正和替换方案。只要这些方案是属于所附权利要求或它们的等价物的范围内的情形下，本发明打算被看作为包括所有的这样的修正和替换方案。

Claims

1.一种用于对一个或多个数字图像各部分进行深度排序的设备(100)，包括：

输入部分(110)，用于接收数字图像；

第一正则化装置(130)，用于通过分段而对由像素组成的数字图像的图像特性进行正则化，它包括分配装置(130)，用于把图像的至少一部分像素分配给相应的分段；

第一估计装置(140)，用于通过图像匹配而对接连的图像的各个分段的相对运动进行估计；

第二正则化装置(150)，用于通过二重分段而对分段的图像特性进行正则化，它包括用于找出各分段的边缘的装置(150)、用于把像素分配给边缘的分配装置(150)、以及用于创建二重分段的装置(150)；

第二估计装置(160)，用于通过对图像分段进行匹配而估计各接连图像的二重分段的相对运动以确定各图像分段的相对深度排序；

输出部分(170)，用于输出图像的各部分的相对深度排序。

2.如在权利要求1中阐述的用于对一个或多个数字图像各部分进行深度排序的设备(100)，其中数字图像包括二维视频序列的帧。

3.如在权利要求1中阐述的用于对一个或多个数字图像各部分进行深度排序的设备(100)，其中第一估计装置(140)包括：

规定装置(140)，用于规定有限的候选值组，其中候选值代表在两个或多个图像的图像特性之间的可能匹配的候选者；

建立装置(140)，用于建立对各候选值的评估的匹配损失函数；

选择装置(140)，用于根据匹配损失函数的评估的结果选择候选值。

4.如在权利要求1中阐述的用于对一个或多个数字图像各部分进行深度排序的设备(100)，其中通过沿两个相邻的分段的边界取一个像素作为种子像素，以及使用距离变换算法把剩余像素的各部分分配给种子之一，从而来规定该二重分段。

5.如在权利要求1中阐述的用于对一个或多个数字图像各部分进行深度排序的设备(100)，其中第二估计装置(160)包括

计算装置(160)，用于计算二重分段的最佳运动向量；

计算装置(160)，用于计算二重分段的匹配损失；

选择装置(160)，用于通过比较最佳运动向量而选择较接近的分段。

6.包括如在权利要求1中阐述的设备(100)的显示设备(200)。

7.一种用于对一个或多个数字图像各部分进行相对深度排序的方法，包括：

提供一个或多个数字图像；

通过分段而对由像素组成的数字图像的图像特性进行正则化，包括把图像的至少一部分像素分配给各个相应的分段；

通过图像匹配估计接连的图像的各分段的相对运动；

通过二重分段而对分段的图像特性进行正则化，包括找出分段的边缘，把像素分配给边缘，以及规定二重分段；

通过对图像分段进行匹配而估计接连的图像的二重分段的边界的相对运动以确定图像各部分的相对深度排序。

8.如在权利要求7中阐述的用于对一个或多个数字图像各部分进行深度排序的方法，其中数字图像包括二维视频序列的帧。

9.如在权利要求7中阐述的用于对一个或多个数字图像各部分进行深度排序的方法，其中估计各分段的相对运动包括：

规定有限的候选值组，其中候选值代表对于在两个或多个图像的图像特性之间可能匹配的候选者；

建立用于候选数值评估的匹配损失函数；

根据对匹配损失函数的评估的结果选择候选值。

10.如在权利要求1中阐述的用于对一个或多个数字图像各部分进行深度排序的方法，其中通过准分段以实现二重分段，其中对于每对相邻的分段，规定一个种子，该种子包含属于一个分段的那些像素和属于另一个分段的它的至少一个邻居的像素，并且其中在图像中的其他像素的至少一部分被分配给一个种子，到该种子的距离是最小的。

11.如在权利要求7中阐述的用于对一个或多个数字图像各部分进行深度排序的方法，其中估计二重分段的边界的相对运动包括：

计算二重分段的最佳运动向量；

计算二重分段的匹配损失；

通过比较最佳运动向量而选择较接近的分段。

12.用于使得处理器能够实行如在权利要求7中阐述的用于对一个或多个图像各部分进行深度排序的方法的计算机程序。

13.载送如在权利要求12中阐述的计算机程序的有形媒体。

14.用于使得处理器能够实行如在权利要求7中阐述的用于对一个或多个图像各部分进行深度排序的方法的专用硬件。

15.用于使得处理器能够实行如在权利要求7中阐述的用于对一个或多个图像各部分进行深度排序的方法的可重新配置的硬件。