CN108377374B

CN108377374B - 用于产生与图像相关的深度信息的方法和系统

Info

Publication number: CN108377374B
Application number: CN201710352220.4A
Authority: CN
Inventors: 李应樵; 张伟强
Original assignee: Marvel Digital Ltd
Current assignee: Marvel Digital Ltd
Priority date: 2016-10-11
Filing date: 2017-05-18
Publication date: 2021-11-09
Anticipated expiration: 2037-05-18
Also published as: US20180103243A1; US10230935B2; CN108377374A

Abstract

一种用于产生与图像相关的深度信息的方法和系统。该系统包括：布置成识别由图像表示的多个物件的分割模块，其中相邻于另一物件的每个物件由布置成大致上分离物件和相邻物件的边缘识别；以及布置成通过为多个物件中的每个分配深度值来产生深度信息的处理模块，其中所述深度值布置成表示在三维空间中所述物件和参考点之间的距离。

Description

用于产生与图像相关的深度信息的方法和系统

技术领域

本发明涉及用于产生与图像相关的深度信息的方法和系统，且特别地 (但不排他地)，涉及用于优化与图像相关的深度图(depth map)的方法和系统。

背景技术

人类视觉涉及用于接收来自环境或显示源的场景的光的左眼和右眼。通常，左眼的视角从右眼的视角稍微偏移，因而两只眼睛的视觉也稍微偏移。由左眼和右眼接收的视觉信息由大脑进一步组合并处理，以便得到组合视觉信息与深度的感觉。深度的感觉与这两只眼睛的单独偏移视觉紧密相关。

图像的三维显示可以不同的方法来实现。其中一种的方法是采用立体显示技术，其中稍微偏移的二维图像可对左眼和右眼分开地显现。通过在大脑中组合这两个图像，可产生三维物件的感知或错觉。

发明内容

根据本发明的第一方面，提供了一种用于产生与图像相关的深度信息的装置，包括：分割模块，其布置成识别由所述图像表示的多个物件，其中相邻于另一物件的每个物件由布置成大致上分离所述物件和所述相邻物件的边缘识别；以及处理模块，其布置成通过为每个所述多个物件分配深度值来产生深度信息，其中所述深度值布置成表示在三维空间中所述物件和参考点之间的距离。

在第一方面的实施方式中，在相邻物件之间的边缘是连续的。

在第一方面的实施方式中，所述物件和所述相邻物件被所述边缘完全分离。

在第一方面的实施方式中，所述分割模块包括布置成识别所述图像上的所述边缘的边缘检测器。

在第一方面的实施方式中，基于横越所述多个物件的强度梯度来识别所述边缘。

在第一方面的实施方式中，所述边缘检测器还布置成通过阈值化由所述边缘检测器识别的所述边缘以得到至少一个强边缘和/或至少一个弱边缘来优化所述边缘。

在第一方面的实施方式中，所述边缘检测器还布置成保留与所述至少一个强边缘连接的所述至少一个弱边缘。

在第一方面的实施方式中，每个所述多个物件包括布置成与彼此互连的多个图像像素。

在第一方面的实施方式中，所述边缘由多个边缘像素表示。

在第一方面的实施方式中，在每个所述物件中的所述多个图像像素与在所述相邻物件中的所述多个图像像素被在其之间的所述多个边缘像素分离。

在第一方面的实施方式中，所述分割模块布置成用彼此不同的多个标签来标记在每个不同的物件中的所述多个图像像素。

在第一方面的实施方式中，所述处理模块布置成基于在所述多个图像像素和所述图像的参考图像像素之间的至少一个属性的相似性来识别所述多个物件。

在第一方面的实施方式中，所述至少一个属性包括光亮度和/或颜色恒定性。

在第一方面的实施方式中，所述处理模块还布置成基于在所述多个图像像素和所述参考图像像素之间的所述至少一个属性的相似性来确定每个所述多个图像像素中的核权重。

在第一方面的实施方式中，所述处理模块还布置成当相应的图像像素被确定为不属于所述参考图像像素所属于的所述物件时将所述图像像素的核权重更新为零。

在第一方面的实施方式中，所述处理模块还布置成处理所述图像的多个部分，每个所述图像中的所述多个部分以滑动窗来界定；其中所述滑动窗布置成越过所述图像移动，以及所述多个物件大致上由在所述相邻图像之间的边缘和/或所述滑动窗的多个边界分离。

在第一方面的实施方式中，所述参考图像像素是在所述图像的每个所述多个部分中的中心像素。

在第一方面的实施方式中，被分配到所述多个物件中的每个的深度值基于与所述图像相关的原始深度信息。

在第一方面的实施方式中，所述原始深度信息包括低于或等于所产生的深度信息的分辨率的分辨率。

在第一方面的实施方式中，所述深度信息包括与所述图像相关的深度图。

根据本发明的第二方面，提供了一种用于产生与图像相关的深度信息的方法，包括下列步骤：识别由所述图像表示的多个物件，其中相邻于另一物件的每个物件由布置成大致上分离所述物件和所述相邻物件的边缘识别；以及通过为所述多个物件中的每个分配深度值来产生所述深度信息，其中所述深度值布置成表示在三维空间中所述物件和参考点之间的距离。

在第二方面的实施方式中，在所述相邻物件之间的边缘是连续的，使得所述物件和所述相邻物件被所述边缘完全分离。

在第二方面的实施方式中，还包括执行边缘检测过程来识别所述图像上的所述边缘的步骤。

在第二方面的实施方式中，每个所述多个物件包括布置成与彼此互连的多个图像像素，以及所述边缘由多个边缘像素表示。

在第二方面的实施方式中，在每个所述物件中的所述多个图像像素与在所述相邻物件中的所述多个图像像素被在其之间的所述多个边缘像素分离。

在第二方面的实施方式中，进一步基于在所述多个图像像素和所述图像的所述参考图像像素之间的至少一个属性的相似性来识别所述多个物件。

在第二方面的实施方式中，还包括基于在所述多个图像像素和所述参考图像像素之间的所述至少一个属性的相似性来确定每个所述多个图像像素的核权重的步骤。

在第二方面的实施方式中，还包括处理所述图像的多个部分的步骤，每个所述图像中的所述多个部分以滑动窗来界定；其中所述滑动窗布置成越过所述图像移动，以及所述多个物件大致上由在所述相邻图像的所述边缘和/ 或所述滑动窗的多个边界之间分离。

在第二方面的实施方式中，其中被分配到所述多个物件中的每个的深度值基于与所述图像相关的原始深度信息。

在第二方面的实施方式中，其中所述深度信息包括与所述图像相关的深度图。

附图说明

现在将参考附图作为例子描述本发明的实施方式，其中：

图1示出2D+Z图像，其中深度图是真值(ground truth)；

图2示出2D+Z图像，其中深度图是具杂讯(noisy)的；

图3示出2D+Z图像，其中使用双边滤波来优化/调整具杂讯的深度图；

图4示出2D+Z图像，其中使用基于连接的滤波来优化/调整具杂讯的深度图；

图5示出根据本发明的一个实施方式的用于作为用于产生与图像相关的深度信息的系统操作的计算服务器的示意图；

图6示出根据本发明的一个实施方式的用于产生与图像相关的深度信息的系统的方框图；

图7示出根据本发明的一个实施方式的提供用于深度滤波的物件分割信息的强度和基于连接的分析的示例操作的流程图；

图8A和8B示出与高斯核相关的两个传递函数的例子的曲线图，分别σ_r＝10和σ_r＝20；

图9示出9x9边缘图的例子。在元素的中心中的“0”或“1”值是元素值，其中“0”意指边缘像素，以及“1”意指非边缘像素；

图10示出图9的相应物件标签图(基于4连接)，其中在元素的中心中的“1、2、3、4”值是元素的物件标签；

图11示出在全局连接分析之下的两个像素之间的连续性的例子；

图12示出在局部连接分析之下的两个像素之间的非连续性的例子；

图13A和13B示出在深度图调整之前的两个2D+Z例子；

图14A和14B示出在使用双边滤波的优化/调整之后图13A和13B的两个2D+Z例子；

图15A和15B示出基于Canny边缘检测器的相应的2D图像的边缘图；

图16A和16B示出根据本发明的一个实施方式在使用基于全局连接分析方案的基于连接的滤波的优化/调整之后图13A和13B的两个2D+Z例子；以及

图17A和17B示出根据本发明的一个实施方式在使用基于局部连接分析方案的基于连接的滤波的调整之后图13A和13B的两个2D+Z例子。

具体实施方式

发明人通过他们自己的研究、测试和实验想出，3D设备的成功采用不仅取决于在3D显示器的质量中的进步，而且取决于3D视频内容的宽范围的可用性。相应地，可通过提供具有高质量的视频内容来提高3D设备的普及性。

3D视频内容的产生可采用不同的方法。例如可通过使用立体摄像机成套器械的3D拍摄。另一例子是具有深度捕获的2D拍摄或用于2D到3D转换的手动深度图创建。立体摄像机成套器械是用于将两个摄像机一起安装到一个3D系统以便捕获左眼和右眼的两个单独图像因而产生3D视觉效应的设备。至于2D拍摄方法，2D成像被采用且相应的深度信息由深度摄像机捕获或由在后处理阶段为每个帧手动地创建深度图的“深度艺术家(depthartists)”创建。

原始2D图像可与每像素深度图组合，形成2D加深度(也被称为2D+Z) 图像，其为立体视频编码格式。基于标准深度图像的渲染(DIBR)算法可接着用于合成其它视图用于3D显示。比较起来，在3D拍摄中使用的专业立体摄像机成套器械可能比传统2D摄像机更昂贵和庞大。从在实景捕获和后处理上的困难方面来说，3D拍摄工作流更复杂。因此，2D拍摄方法相对灵活，因为深度图可以为了某些要求而进一步被修改或处理。

另一优点是，基于2D拍摄的大量较老的流行电影可通过这种方法转换成3D。为了加速生产并具有3D视频的较好质量控制，2D到3D转换可以是满足3D生产工业的要求的更好解决方案。

虽然2D拍摄具有比较3D拍摄的很多优点，深度摄像机和手动2D到 3D转换分别有一些问题。通常，由深度摄像机捕获的深度图的分辨率和精度可以比2D图像的分辨率和精度低得多，因此，在2D图像和深度图之间的对准对基于直接深度图像的渲染(DIBR)不够好。至于手动2D到3D转换，由于它需要较多人工加工，对准比较好。实际上，在需要减小对深度图创建的成本的情况下，可使用两种技术——即“全自动2D到3D转换”和“半自动2D到3D转换”来产生深度图。

在全自动2D到3D转换中，该技术可基于某些图像特征来估计深度图而不涉及人工干预。例如，可根据分析边缘、颜色、模糊、阻塞、消失点、运动和场景变换等来产生深度图。

另一方面，半自动2D到3D转换可涉及在机器计算的帮助之下一定程度的人工干预。例如，用户可选择少量关键帧以全手动深度图计算，其可被称为转描(rotoscoping)。然后，关键帧的深度图信息被使用并传播 (propagated)以基于2D图像的信息产生非关键帧的深度图。例如，使用颜色和深度信息，通过深度-颜色双边滤波来实现深度扩展以计算在所传播的深度图像中的未知深度像素的值。

在另一例子中，在同一拍摄中从一个帧到其它帧的深度传播可涉及分割技术。可选地，可通过匹配像素的高度来使用在关键帧和非关键帧之间的图像匹配方法，所述像素匹配更可靠的像素。

在双向深度传播方法、即前向和后向传播中，可使用在第一步骤中的双边滤波和在第二步骤中的运动估计(motion estimation)。

根据不同的要求，例如转换速度、质量以及灵活性，可选择全自动或半自动2D到3D转换以操纵不同的视频内容。这两种方法对2D到3D转换都是有效的，然而，这两种方法的所估计或传播的深度图可能遭受低分辨率问题。术语“低分辨率”指可能具有以下问题的深度图。

1)深度图的水平和垂直像素的数量可能低于2D图像的；

2)在2D图像和深度图之间的像素匹配较粗略且没有很好地被对准；

3)深度值、特别是在物件/对象(objects)周围的像素可能是具杂讯的和不正确的。

对于全自动2D到3D转换，可基于一些图像特征例如边缘、模糊、消失点、运动等来估计深度图。主要问题是，估计的成功率可能不高和稳定。此外，因为在非像素级精度下通过基于窗口的分析(window-based analysis) 来计算一些图像特征，所产生的深度图相对粗略且在深度图和高分辨率2D 彩色图像之间的对准通常很差。

对于半自动2D到3D转换，关键帧的手动创建的深度图通常在高分辨率中并具有与2D彩色图像的良好对准。然而，非关键帧的深度图可能基于深度传播算法(例如在宏块(macroblock)级中的运动估计)来产生，因此可能具有比关键帧更低的分辨率。此外，如果颜色或物件存在于非关键帧中但不存在于关键帧图像中，则没有用于运动估计的信息，且相关深度值不能被估算。结果，运动估计可能未能预测非关键帧的深度值。因此，很难对准非关键帧的深度图和其相关的2D彩色图像。

一个非关键帧的估算深度图可能被用于估算另一非关键帧的深度图。如果在早期阶段中产生误差，这种误差可能累积并可传播到另外的帧。因此，在误差被实质地传播之前，深度图调整/优化(refining)是减低估算深度图中的误差的重要过程。

因此，无论采用哪种2D到3D转换方法，共同的问题都是：所产生的深度图可以是具杂讯的、低分辨率的且对基于深度图像的渲染(DIBR)处理不足够详细。

在一个示例实施方式中，低分辨率深度图可通过应用用于分辨率增强和深度图调整的双边滤波(bilateral filter)而放大(upscale)到与2D图像相同的分辨率。

在这个例子中，双边滤波器是非线性的、边缘保持和平滑图像的滤波器。在图像中的每个像素处的强度值由来自附近像素的强度值的加权平均代替。权重不仅取决于像素的欧几里德距离，而且取决于范围差异，例如颜色强度。应用双边滤波于深度图调整通常假设具有类似的颜色强度的附近像素具有类似的深度值。然而，这个假设总是被违反。

例如，具有确切的相同的外观的两个单独物件放置在附近，但在不同的深度级处。参考图1和2，分别示出真值(ground truth)的和具杂讯的深度图的例子。参考图3，双边滤波器可应用于根据强度相似性和离附近像素的距离来调整具杂讯的深度图，这两个单独物件的深度值将影响彼此并引起深度模糊和模棱两可的问题。

参考图4，为了解决深度模糊和模棱两可的问题，深度图调整单元可用于提高边界准确度，以基于2D颜色图像、深度图和边缘的信息来减小噪声以及增加深度图的分辨率。相应地，一序列低分辨率深度图可自动转换成高分辨率深度图，且因此高质量3D视频可有效地产生。

参考图5，示出本发明的实施方式。这个实施方式布置成提供用于通过下列操作来产生与图像相关的深度信息的系统：识别由图像表示的多个物件，其中相邻于另一物件的每个物件由布置成大致上分离物件和相邻物件的边缘识别；以及通过为每个物件分配深度值来产生深度信息，其中所述深度值布置成表示在三维空间中所述物件和参考点之间的距离。

优选地，在一个例子中，系统可接收输入图像，且在由系统中的不同的图像处理模块处理之后，输入图像的深度信息可由系统提供作为输出。这些图像处理模块可优选地由具有适当的用户接口的计算机实现或用于在具有适当的用户接口的计算机上操作。计算机可由任何计算架构——包括独立 PC、客户端/服务器架构、“哑”终端/大型计算机架构或任何其它适当的架构——实现。计算设备适当地被编程以实现本发明。

参考图5，示出在这个实施方式中包括服务器100的计算机或计算服务器100的示意图，服务器100布置成操作——至少部分地如果不是完全——根据本发明的一个实施方式的用于产生与图像相关的深度信息的系统。服务器100包括接收、存储和执行适当的计算机指令所必需的适当部件。部件可包括处理单元102、只读存储器(ROM)104、随机存取存储器(RAM)106 和输入/输出设备例如磁盘驱动器108、输入设备110例如以太网端口、USB 端口等。显示器112例如液晶显示器、发光显示器或任何其它适当的显示器和通信链路114。服务器100包括可被包括在ROM 104、RAM 106或磁盘驱动器108中并可由处理单元102执行的指令。可提供可不同地连接到一个或多个计算设备例如服务器、个人计算机、终端、无线或手持计算设备的多个通信链路114。多个通信链路中的至少一个可通过电话线或其它类型的通信链路连接到外部计算网络。

服务器可包括存储设备，例如磁盘驱动器108，其可包括固态驱动器、硬盘驱动器、光学驱动器或磁带驱动器。服务器100可使用单个磁盘驱动器或多个磁盘驱动器。服务器100也可具有存在于磁盘驱动器上或在服务器 100的ROM中的适当的操作系统116。

系统具有存在于磁盘或布置成存储至少一个记录122的其它存储设备上的数据库120。数据库120与具有由存在于服务器100上的计算机软件实现的接口的服务器100通信。可选地，数据库120也可被实现为经由外部计算网络或其它类型的通信链路与服务器100通信的独立数据库系统。

服务器100可使用可由服务器可执行的指令或软件代码来实现，使得服务器100可用于产生和/或处理与图像相关的深度信息(或其它信息)。可选地，服务器100可包括适当的硬件或与其它硬件组合，以便产生与图像相关的深度信息。

参考图6，示出用于产生与图像相关的深度信息的系统200的实施方式。在这个实施方式中，系统100用作被实现为分割模块202和/或处理模块204 的系统200的部分。分割模块202和处理模块204布置成协作以处理图像 206，以便产生与图像206相关的深度信息208。

在这个示例实施方式中，系统200包括布置成识别由图像206表示的多个物件的分割模块202，其中相邻于另一物件的每个物件由布置成大致上分离物件和相邻物件的边缘识别；以及布置成通过为每个物件分配深度值来产生深度信息的处理模块204，其中深度值布置成表示在三维空间中物件和参考点之间的距离。

如上面讨论的，在图像206上显现的不同物件可以在三维空间内以不同的距离定位。因此，图像206中的不同物件可被分配有包括不同的深度值的深度信息208，使得深度值可代表在三维空间中物件和参考点(例如在二维显示平面上的点)之间的距离。可选地，深度值可用于提供其它信息，例如与物件相关的位置和/或地理信息。深度信息可包括与图像相关的深度图。

优选地，可根据在图像206中确定的边缘由分割模块202识别多个物件。因此，以边缘大致上分离或完全分离的物件和与其相邻的物件可被识别为两个不同的物件。处理模块204可接着将不同的深度值分配到由分割模块202 识别的每个不同的物件。分割模块202还可包括布置成识别在图像206上的边缘用于进一步处理的边缘检测器212。

优选地，边缘检测器212可包括Canny边缘检测器，其可将高梯度点连接起来并执行边缘细化以形成更完整和具可靠描述的边缘，例如通过对所检测的边缘执行非最大抑制(non-maximum suppression)处理。在对图像形成的一般假设之下，在图像亮度中的不连续性可相应于在深度中的不连续性。深度检测结果可便于分割模块202识别不同的物件，以便改善所产生的深度信息。更详细的解释和讨论将在下文公开。

例如，图像206可由分割模块202处理。边缘检测器212可识别与在图像206上的物件相关的边缘，使得分割模块可识别由边缘分离的不同的单独物件。接着处理模块204可基于具有低分辨率的源深度图210将不同的深度值分配到在原始高分辨率图形中的不同的物件，因而产生与高分辨率2D图像206相关的高分辨率深度图208。

参考图6，示出具有高分辨率2D图像206但低分辨率深度图210的2D+Z 图像的输入。系统可用作深度图调整单元，其可根据高分辨率2D图像206 的信息来调节深度值的。在处理之后，可得到具有高分辨率2D图像206和高分辨率深度图208的2D+Z图像输出并可用于进一步的处理，例如基于深度图像的渲染(DIBR)。优选地，调整的深度图可以具有较少杂讯的，并可代表更多的细节，特别是在物件边界区域周围。

参考图7，示出用于基于强度和连接的分析的系统200的示例操作以提供用于深度图调整的物件分割信息的操作流程图。

在这个示例操作中，系统200可用作深度图调整/优化单元。处理模块 204可作为范围滤波器(range filter)来操作，范围滤波器分析在2D图像206 中的N x N滑动窗(sliding window)的尺寸以确定用于在调整深度图的值时使用的核权重。在范围差分析步骤302中，范围滤波器的权重可取决于离在 2D图像206中的附近像素的范围差。用于计算范围差的强度和颜色信息包括但不限于YUV、YCbCr、RGB、HSV、HSL等。基于物件光亮度或颜色恒定性(color constancy)假设：对于属于同一物件的那些像素应具有相似的颜色，并暗示它们应具有相似的深度值。离附近像素的范围差越小，在那个附近像素的核中的权重就越高。优选地，权重可以相对于范围差是线性的或非线性的。

在一个例子中，可通过计算在窗口内的范围差来处理颜色相似性，该窗口被定义为：

||I(x_i，y_i)-i(x，y)||，x_i and y_i∈Ω

I是待分析的2D图像的强度；

x和y是待滤波的当前像素的坐标；

x_i和y_i是在窗口内的相邻像素的坐标；

Ω是以x、y为中心的窗口。

初始滤波权重304可以是范围差的线性或非线性函数。它可被表示为：

R(x_i，y_i)＝f_r||I(x_i，y_i)-i(x，y)||

f_r是在范围差上的线性或非线性转换的核。

传递函数的可能实现之一是可被表示为

的高斯核的使用，其中σ_r是控制曲线的下降的参数。当范围参数σ_r增加时，下降较慢。

参考图8A和8B，示出两个传递函数的例子，分别σ_r＝10和σ_r＝20。无论什么传递函数被使用，范围差越小，初始滤波权重就越高。支持初始滤波权重的理念是，对于具有与中心像素的强度相似的强度的那些像素，它们很大机会属于同一物件。

优选地，范围差分析可从每个相邻像素确定滤波权重的幅值。

然而，如前面提到的，具有相似颜色的像素并不意味着它们必须属于同一物件。可能需要额外的信息来区分开具有相似颜色的那些像素与不同的物件。通过在包括真实世界图像和动画的一般2D图像上的观察，可用于分割物件的一个重要的特征是边缘。边缘是在两个图像区之间的边界的点。在计算机视觉/图形中，边缘可一般被定义为图像中的一组在具有清晰的亮度变化或强梯度幅值的点。

回来参考图6和7，系统200或深度图调整单元包括布置成分析2D图像206的边缘检测器212以在边缘检测过程306中产生具有与2D图像206 相同的分辨率的边缘图(edgemap)。优选地，边缘检测器212可包括用于识别在图像206上的边缘的Canny、Deriche、微分、Sobel、Prewitt和/或Roberts 边缘检测器，且边缘可基于横越多个物件的强度梯度(intensity gradient)来被识别出。

优选地，边缘检测器212可以进一步布置成调整/优化(refine)在边缘检测器过程306中识别的边缘。例如，通过进行一次或多次阈值化(thresholding)所检测到的边缘以得到至少一个强边缘和/或至少一个弱边缘。强和弱边缘可作为边缘的部分并进一步被处理。

边缘检测器212可进一步布置成保留与至少一个强边缘连接的至少一个弱边缘，即未连接到强边缘的弱边缘可在边缘跟踪过程中被丢弃。此外，可通过将平滑滤波器应用于图像206以用于在图像206上的边缘的确定之间的杂讯移除来进一步提高边缘检测。

参考图9，边缘可由多个边缘像素表示。在这个例子中，可在边缘检测 306之后得到二进制边缘图，其可被表示为：

其中，非边缘像素是表示物件的一部分的图像像素。物件可包括彼此连接的多个图像像素，然而，在物件中的图像像素由在其间的多个边缘像素与在相邻物件中的任何图像像素分离，因为在相邻物件之间的边缘是连续的。

给定二进制边缘图，通过连接部份标记算法来实现物件分割的任务。参考图10，连接部份标记用于检测在二进制边缘图中的连通区。每个连通区由必须存在到彼此的连通路径的一组非边缘像素e(x,y)＝1组成。不同的连通区由边缘像素e(x,y)＝0隔离，因为在其之间不能找到存在的连通路径。所采用的连接策略是4连接，因为它比分析由细边缘围住的连通区更准确。

因为可基于连接分析清楚地定义不同的单独物件，分割模块202可接着标记在具有彼此不同的多个标签的不同物件的每个中的多个图像像素。参考图10，可形成连通组的所有非边缘像素被定义为连接部份。用“0”标记边缘像素，以及分别用“1”、“2”、“3”和“4”标记在不同物件中的图像像素。

为了实现连接分析，可采用连接部份标记方法。输入是二进制边缘图和优选类型的连接方法(4连通或8连通)，且输出是连接部份标记图(CCL 图)，其中每个物件将被分配唯一标签号。标签图的元素是整数值。被标记为0的像素是边缘。被标记为1的像素构成一个物件；被标记为2的像素构成另一物件；依此类推，直到所有非边缘像素被分配物件标签号为止。

在一个示例实施方式中，连接部份标记方法可包括基于4连接方法的双通过方法。4连接意味着只评估水平(左边和右边)和垂直(向上和向下) 相邻元素。下文是在例子中使用的方法的详细步骤：

在第一次通过(first-pass)时，过程以逐列、然后逐行穿过输入边缘图的每个元素的光栅扫描开始。如果元素不是边缘，则得到当前元素的相邻元素；如果不存在非边缘相邻元素，则唯一地和暂时将新标签给与当前元素并继续；如果存在非边缘相邻元素，则找到具有最小标签的相邻元素并将它分配到当前元素。最后，在相邻标签之间的等值被存储。等值意味着两个或多个临时标签实际上代表同一物件。

在第二次通过(second-pass)时，该过程以逐列、然后逐行穿过数据的每个元素的光栅扫描开始。如果元素不是边缘，则重新标记具有最低等值标签的元素。

优选地，每个连接部份被分配可被识别为单独物件的唯一标签，且每个物件由边缘或图像边界分离并划界。作为结果，每个像素将被分配静态物件标签号。可选地，可以用不同的标签或表示来标记图像和/或边缘像素。

参考图7，在边缘检测步骤306之后，处理模块204可以以基于连接的物件分割分析308来继续该过程，这可包括基于整个图像206的整个边缘图的全局连接分析和基于由越过图像206移动的滑动窗分割的图像206的一部分的边缘图的局部连接分析。

在全局连接分析中，在开始基于窗口的滤波过程之前基于全尺寸边缘图来执行一次性连接部份标记。

优选地，一次性连接部份标记过程可以在图像滤波之前被预先计算，以便明显减小对连接部份标记的计算负荷。在图像滤波期间，可从预先计算的图直接寻找在窗口内的连接部份标签。在不为滤波的每个步骤重复地计算连接部份标签的情况下，处理速度很快。

然而，连接部份标记/物件分割的质量可高度取决于边缘检测的结果。如果有由于不完全边缘检测而引起的任何小孔或边缘非连续性，最初属于不同物件的像素将被确定为同一物件，因为在它们之间存在连通路径。这样的错误可以对大量像素影响连接部份标记的结果。在不正确的物件分割的情况下，深度图调整的有效性将下降。

优选地，在局部连接分析中，滑动窗可被创建，且滑动窗穿过图像206 逐步扫描。为了滤波权重掩蔽，可直接寻找静态物件标签号。可相应地执行在基于窗口的滤波过程内的基于窗口尺寸边缘图的单独连接部份标记。

滑动窗可界定图像的多个部分，且多个物件实质上由在相邻物件之间的边缘和/或滑动窗的多个边界分离。

局部连接分析可基于在滑动窗内的较小的边缘图。为滑动窗的每个步骤立即计算临时物件标签号。可形成连通组的一组非边缘像素被定义为临时连接部份。被分配暂时唯一的标签的每个临时连接部份可被识别为单独的物件。每个物件由边缘或窗口边界分离和划界。临时物件标签号仅在那个特定步骤用于滤波权重掩蔽。对于滑动窗分析的每个步骤，必须再次计算临时物件标签号。

局部分析的一个可能的优点是，在每个步骤只有图像206的一小部分被评估用于连接部份标记。如果有由于不完全边缘检测而引起的任何孔或边缘不连续性，它只对少量像素影响连接部份标记的结果。它意味着不完全边缘检测的影响可明显减小。通常，局部方案的物件分割和深度图调整的执行比全局方案优越。

然而，与全局方案比较，计算量可能是比較多的，因为连接部份标记的结果随着分析窗口的每个步骤而改变。因此，处理时间通常将更长。

优选地，基于由全局分析得到的结果，局部连接分析可应用于得到基于连接的物件分割分析的提高的结果。可基于评估过程例如在图像206中得到的边缘的分析或在图像206中识别的物件的质量通过全局分析来评估结果。评估过程可由评估模块执行或可涉及人工干预。

参考图11，全局分析方法可节省很多计算，缺点是物件分割可能不完美，如果边缘轮廓是不连续的或边缘孔存在，这导致两个不同的物件可连接在一起。

参考图12，局部连接分析可提供处理全局连接分析的缺点的可选方案。局部连接分析只寻找在滑动窗内的小得多的区，物件分割对小区的大部分仍然有效且只在不连续的边缘轮廓周围失败。局部分析的优点是，通过边缘的物件隔离由于较小的边缘不连续性或在小窗口内容内看到的孔而是优良的。然而，因为连接部份标记必须在滑动窗的每个步骤被更新同时滤波，计算时间将比全局方案的计算时间更长。

优选地，处理模块204布置成基于在多个图像像素和图像的参考图像像素之间的至少一个属性的相似性例如光亮度和/或颜色恒定性来识别多个物件。基于在多个图像像素和参考图像像素之间的属性的相似性，处理模块可确定多个图像像素中的每个的核权重。

优选地，在全局分析中，图像的中心像素可被定义为参考图像像素。在局部分析中，由滑动窗界定的图像的部分的中心像素可被定义为参考图像像素。

参考图7，处理模块204可进一步配置成以滤波权重掩蔽(filter weightmasking)过程310继续该过程。可根据物件分割结果来掩蔽通过在较早的处理阶段范围差分析302从2D图像206产生的初始滤波权重。术语“掩蔽”指将附近像素的一个或多个权重修改为零，如果图像的中心像素或参考图像像素的连接部份标签不同于附近像素的连接部份标签。如果两个像素具有不同的物件标签，则意味着它们属于不同的物件且它们的深度值不应影响彼此，同时调整过程、即当图像像素被确定为从参考图像像素或中心像素所属于的物件排除时图像像素的核权重被更新为零。

对于连接分析308的全局和局部方案，可得到每个像素L(x_t，y_t)的物件。标签。对于那些相邻标签(其物件标签不同于位于窗口中心L(x，y)处的像素的标签)，它们的滤波权重将被掩蔽。掩蔽矩阵被定义为：

给定初始滤波权重R(x_t，y_t)和相应的掩蔽矩阵M(x_t，y_t)，卷积核可被表示为 R(x_t，y_t)和M(x_t，y_t)的逐点相乘，即G(x_t，y_t)＝R(x_t，y_t)M(x_t，y_t)。

优选地，被分配到多个物件中的每个的深度值基于与图像206相关的原始深度信息210。例如，参考图2，与图像206相关的原始深度信息可以是低分辨率深度图210。原始深度信息210可包括低于或等于被产生的深度信息208的分辨率的分辨率。

深度图调整单元的处理模块204可进一步布置成使用放大(upscale)过程312来处理图像206和/或原始深度信息。为了更好的逐点计算，低分辨率深度图可放大到像素的水平和垂直数量等于2D图像206的像素的水平和垂直数量。放大过程312可包括但不限于最近邻、双线性、双三次和Lanczos 内插。通过使用这些方法，虽然像素的水平和垂直数量可等于2D图像206 的像素的水平和垂直数量，放大後的深度图仍然可被渲染成模糊的或起格子的/起锯齿的。

在提供了掩蔽的滤波权重后，放大後低分辨率深度图通过对核卷积而被调整并滤波。卷积是使图像206的每个元素与由核加权的它的局部相邻元素相乘的过程。例如，如果有两个矩阵：一个是核而另一个是图像片，则卷积是使两个矩阵逐点相乘并对所有结果求和的过程。根据不同的情况，滤波过程可以是迭代的，且迭代的数量可由用户确定，以便得到调整的最佳结果。

优选地，可通过对核G(x_t，y_t)卷积来过滤放大後的但仍然低分辨率深度图D_ER(x_t，y_t)。调整的和高分辨率深度图D_HR(x，y)被定义为

其中标准化项是

可选地，根据输入深度图的质量和调整单元的设置，调整的多次迭代可用于得到最佳调整结果。

分割模块202、处理模块204和/或用于在深度图调整单元中在不同的步骤302到312中处理图像206和/或低分辨率深度图210的不同模块也可被实现为布置成处理与图像206相关的图像数据的硬件处理器(的至少一部分)。例如，处理器可以是计算机处理器、图像处理器、图形处理单元、中央处理单元、微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机和选通逻辑中的至少一个。处理器可特别被实现以处理图像，以便产生与图像相关的深度信息。

可选地，这些模块中的每个可被单独地实现，且每个模块可包括多个部件/元件。模块也可在由服务器100可执行的软件(例如子例程和代码)中实现。

这些实施方式可能是有利的，因为用于产生与图像相关的深度信息的系统和方法可用于使用提高的逐像素对准来调整深度图，并因而提供在快速和高质量2D到3D转换中的分辨率增强的解决方案。

参考图13到17，示出根据本发明的实施方式的深度图调整的结果。参考图13A和13B，示出原始2D+Z图像的两个例子。参考图14A和14B，使用双边滤波来处理两个“Z图像”。参考图15A和15B，示出被定义用于在连接分析中使用的2D图像的边缘图。参考图16A和16B，使用基于连接的滤波基于全局连接分析来定义2D+Z图像的两个例子。最后，参考图17A和17B，使用基于连接的滤波基于局部连接分析来定义2D+Z图像的两个例子。示出基于局部连接分析的2D+Z图像处理方法可提供比在其它示例方法中更清楚的深度信息。

有利地，在深度图调整之后，低分辨率深度图可转换成具有校正的深度值和提高的逐像素对准的高分辨率深度图，因而在深度图修改上节省大量时间和手动工作。使用可靠的深度图调整单元，仅仅粗略的深度图是不够的并由用户快速创建，相应的详细深度图可被自动产生。

将认识到，在本发明的方法和系统完全由计算系统或部分地由计算系统实现的场合，则可利用任何适当的计算系统架构。这将包括独立计算机、网络计算机和专用硬件设备。在术语“计算系统”和“计算设备”被使用的场合，这些术语意欲涵盖能够实现所述功能的计算机硬件的任何适当布置。

本领域中的技术人员也将认识到，可对如在特定的实施方式中所示的本发明做出很多变化和/或修改，而不偏离如广泛所述的本发明的精神和范围。本发明因此在所有方面中被考虑为例证性的和非限制性的。

对包含在本文中的现有技术的任何提及不应被理解为承认信息是公共一般知识，除非另有指示。

Claims

1.一种用于将二维图像转换为三维图像的装置，包括：

图像输入模块，输入原始高分辨率的二维图像和低分辨率的源深度图；

深度图调整模块，用来调整所述低分辨率的源深度图；

图像输出模块，输出原始高分辨率的二维图像和调整后的高分辨率深度图以获得三维图像；

其中，所述深度图调整模块包括分割模块和处理模块；

所述分割模块包括边缘检测器，所述边缘检测器可识别与所述原始高分辨率的二维图像的物体相关的边缘，使得所述分割模块可识别由边缘分离的不同的单独物件；

所述处理模块基于所述低分辨率的源深度图，将不同的深度值分配到在原始高分辨率的二维图像中的不同的物件，因而产生与所述原始高分辨率的二维图像相关的高分辨率深度图；

其中所述处理模块包括范围滤波器，所述范围滤波器分析在所述原始高分辨率的二维图像中的滑动窗口的尺寸以确定用于在调整深度图的值时使用的初始滤波的核权重；

并且其中所述处理模块配置成基于连接的物体进行分割分析，包括基于所述原始高分辨率的二维图像的整个边缘图的全局连接分析，和基于由越过所述原始高分辨率的二维图像移动的滑动窗口分割的所述原始高分辨率的二维图像的一部分的边缘图的局部连接分析；在所述全局连接分析中，所述原始高分辨率的二维图像的中心像素定义为第一参考图像像素；在所述局部连接分析中，所述滑动窗口的图像的部分中心像素定义为第二参考图像像素。

2.如权利要求1所述的装置，其中

在所述全局连接分析中，在开始基于所述滑动窗口的滤波过程之前基于全尺寸边缘图来计算一次性连接部分标签。

3.如权利要求2所述的装置，其中

所述一次性连接部分标签在所述原始高分辨率的二维图像滤波前被预先计算，以便减小对连接部分标签的计算负荷；在所述原始高分辨率的二维图像滤波期间，从所述预先计算的一次性连接部分标签直接寻找在窗口内的连接部分标签。

4.如权利要求1所述的装置，其中

在所述局部连接分析中，所述滑动窗口穿过所述原始高分辨率的二维图像逐步扫描，直接寻找每个像素被分配的静态物件标签号，相应地计算在基于所述滑动窗口的滤波过程内的基于窗口尺寸边缘图的单独连接部分标签。

5.如权利要求4所述的装置，其中

所述滑动窗口界定所述原始高分辨率的二维图像的多个部分，且所述多个部分由相邻物件之间的边缘和/或所述滑动窗口的多个边界分离。

6.如权利要求1所述的装置，其中

在所述局部连接分析中，输入是二进制边缘图和连接方法，所述连接方法是4连通或8连通，且输出是连接部分标签图，其中每个物件将被分配唯一标签号；标签图的元素是整数值；被标签为0的像素是边缘；被标签为1的像素构成一个物件；被标签为2的像素构成另一物件；依此类推，直到所有非边缘像素被分配物件标签号为止；基于所述滑动窗口内的较小的边缘图，为所述滑动窗口计算临时物件标签号；形成连接组的一组非边缘像素被定义为临时连接部分；被暂时分配唯一的标签的每个所述临时连接部分被识别为单独的物件；每个所述物件由边缘或窗口边界分离和划界；所述临时物件标签号用于滤波权重掩蔽，其中所述滤波权重掩蔽步骤，是指如果所述二维图像的中心像素或所述第一或第二参考图像像素的连接部分标签不同于其他的连接部分标签，则将一个或多个权重修改为零。

7.如权利要求1所述的装置，其中

所述处理模块进一步配置成基于在多个图像像素和图像的第一或第二参考图像像素之间的至少一个属性的相似性来识别多个物件。

8.如权利要求7所述的装置，其中

所述至少一个属性的相似性为光亮度和/或颜色恒定性。

9.如权利要求6所述的装置，其中

所述滑动窗口穿过所述原始高分辨率的二维图像逐步扫描，为所述滤波权重掩蔽，直接寻找静态物件标签号，相应地计算在基于所述滑动窗口的滤波过程内的基于窗口尺寸边缘图的单独连接部分标签。

10.如权利要求6所述的装置，其中

对于所述全局连接分析和所述局部连接分析，得到每个像素L(x_i，y_i)的物件标签，对于相邻的标签，掩蔽滤波权重；

给定初始滤波权重R(x_i，y_i)和相应的掩蔽矩阵M(x_i，y_i)，卷积核G(x_i，y_i)表示为R(x_i，y_i)和M(x_i，y_i)的逐点相乘，即G(x_i，y_i)＝R(x_i，y_i)M(x_i，y_i)。

11.如权利要求6所述的装置，其中

所述处理模块进一步配置成使用放大模块来处理所述原始高分辨率的二维图像和低分辨率的源深度图；将所述低分辨率的源深度图放大到像素的水平和垂直数量与所述原始高分辨率的二维图像的像素的水平和垂直数量相等。

12.如权利要求11所述的装置，其中

在提供了掩蔽的滤波权重后，所述放大后的所述低分辨率的源深度图通过对核卷积而被调整并滤波；所述卷积是将所述原始高分辨率的二维图像的每个像素与核加权的所述像素的局部相邻像素相乘。

13.如权利要求12所述的装置，其中

所述滤波为可迭代的，所需要的迭代数量由用户定义，以便获得最佳的调整结果。

14.如权利要求13所述的装置，其中

通过对核G(x_i，y_i)卷积来过滤放大后但仍然是低分辨率的源深度图D_LR(x_i，y_i)，将调整后的高分辨率的深度图D_HR(x_i，y_i)定义为：

其中标准化项是

Ω是以x、y为中心的窗口；

初始滤波权重被表示为：

σ_r是范围参数。

15.如权利要求5所述的装置，其中相邻物件之间的边缘是连续的。

16.根据权利要求15所述的装置，其中所述相邻物件被所述边缘完全分离。

17.根据权利要求7所述的装置，其中基于横越所述多个物件的强度梯度来识别所述边缘。

18.根据权利要求15所述的装置，其中所述边缘检测器还布置成通过阈值化由所述边缘检测器识别的所述边缘以得到至少一个强边缘和/或至少一个弱边缘来优化所述边缘。

19.根据权利要求18所述的装置，其中所述边缘检测器还布置成保留与至少一个强边缘连接的至少一个弱边缘。

20.根据权利要求8所述的装置，其中每个所述多个物件包括布置成与彼此互连的多个图像像素。

21.根据权利要求20所述的装置，其中所述边缘由多个边缘像素表示。

22.根据权利要求21所述的装置，其中在每个所述物件中的所述多个图像像素与在相邻物件中的所述多个图像像素被在其之间的所述多个边缘像素分离。

23.一种用于将二维图像转换为三维图像的方法，包括：

输入原始高分辨率的二维图像和低分辨率的源深度图；

调整所述低分辨率的源深度图；

输出原始高分辨率的二维图像和调整后的高分辨率深度图以获得三维图像；

其中，调整所述低分辨率的源深度图的步骤包括：

设定分割模块，所述分割模块包括边缘检测器，所述边缘检测器可识别与所述原始高分辨率的二维图像的物体相关的边缘，使得所述分割模块可识别由边缘分离的不同的单独物件；

设定处理模块，所述处理模块基于所述低分辨率的源深度图，将不同的深度值分配到在原始高分辨率的二维图像中的不同的物件，因而产生与所述原始高分辨率的二维图像相关的高分辨率深度图；

还包括在处理模块中设定范围滤波器，所述范围滤波器分析在所述原始高分辨率的二维图像中的滑动窗口的尺寸以确定用于在调整深度图的值时使用的初始滤波的核权重；并基于连接的物体进行分割分析，包括基于所述原始高分辨率的二维图像的整个边缘图的全局连接分析，和基于由越过所述原始高分辨率的二维图像移动的滑动窗口分割的所述原始高分辨率的二维图像的一部分的边缘图的局部连接分析；在所述全局连接分析中，所述原始高分辨率的二维图像的中心像素定义为第一参考图像像素；在所述局部连接分析中，所述滑动窗口的图像的部分中心像素定义为第二参考图像像素。

24.如权利要求23所述的方法，其中

25.如权利要求24所述的方法，其中

26.如权利要求23所述的方法，其中

27.如权利要求26所述的方法，其中

28.如权利要求23所述的方法，其中

在所述局部连接分析中，输入是二进制边缘图和连接方法，其中所述连接方法为4连通或8连通，且输出是连接部份标记图，其中每个物件将被分配唯一标签号；标签图的元素是整数值；被标记为0的像素是边缘；被标记为1的像素构成一个物件；被标记为2的像素构成另一物件；依此类推，直到所有非边缘像素被分配物件标签号为止；基于所述滑动窗口内的较小的边缘图，为所述滑动窗口计算临时物件标签号；形成连接组的一组非边缘像素被定义为临时连接部分；被暂时分配唯一的标签的每个所述临时连接部分被识别为单独的物件；每个所述物件由边缘或窗口边界分离和划界；所述临时物件标签号用于滤波权重掩蔽，其中所述滤波权重掩蔽步骤，是指如果所述二维图像的中心像素或所述第一或第二参考图像像素的连接部分标签不同于其他的连接部分标签，则将一个或多个权重修改为零。

29.如权利要求23所述的方法，其中

进一步包括基于在多个图像像素和图像的第一或第二参考图像像素之间的至少一个属性的相似性来识别多个物件。

30.如权利要求29所述的方法，其中

所述至少一个属性的相似性为光亮度和/或颜色恒定性。

31.如权利要求28所述的方法，其中

32.如权利要求28所述的方法，其中

对于所述全局连接分析和所述局部连接分析，得到每个像素L(x_i，y_i)的物件标签，对于相邻的标签，掩蔽滤波权重：

33.如权利要求28所述的方法，其中

进一步包括使用放大模块来处理所述原始高分辨率的二维图像和低分辨率的源深度图；将所述低分辨率的源深度图放大到像素的水平和垂直数量与所述原始高分辨率的二维图像的像素的水平和垂直数量相等。

34.如权利要求33所述的方法，其中

35.如权利要求34所述的方法，其中

36.如权利要求35所述的方法，其中

通过对卷积核G(x_i，y_i)卷积来过滤放大后但仍然是低分辨率的源深度图D_LR(x_i，y_i)，将调整后的高分辨率的深度图D_HR(x_i，y_i)定义为：

其中标准化项是

Ω是以x、y为中心的窗口；

初始滤波权重被表示为：

σ_r是范围参数。

37.如权利要求27所述的方法，其中相邻物件之间的边缘是连续的。

38.根据权利要求37所述的方法，其中所述相邻物件被所述边缘完全分离。

39.根据权利要求29所述的方法，其中基于横越所述多个物件的强度梯度来识别所述边缘。

40.根据权利要求37所述的方法，其中所述边缘检测器还布置成通过阈值化由所述边缘检测器识别的所述边缘以得到至少一个强边缘和/或至少一个弱边缘来优化所述边缘。

41.根据权利要求40所述的方法，其中所述边缘检测器还布置成保留与至少一个强边缘连接的至少一个弱边缘。

42.根据权利要求30所述的方法，其中每个所述多个物件包括布置成与彼此互连的多个图像像素。

43.根据权利要求42所述的方法，其中所述边缘由多个边缘像素表示。

44.根据权利要求43所述的方法，其中在每个所述物件中的所述多个图像像素与在相邻物件中的所述多个图像像素被在其之间的所述多个边缘像素分离。