CN104052990A

CN104052990A - 一种基于融合深度线索的全自动二维转三维方法和装置

Info

Publication number: CN104052990A
Application number: CN201410308547.8A
Authority: CN
Inventors: 刘琚; 曹广昊
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2014-06-30
Filing date: 2014-06-30
Publication date: 2014-09-17
Anticipated expiration: 2034-06-30
Also published as: CN104052990B

Abstract

本发明针对当前全自动2D转3D系统提取深度信息不准确，立体感受不舒适等缺点，提出了一种融合运动视差和色彩两种深度线索的全自动2D到3D的转换方法和装置。本发明将运动视差和色彩两种深度线索以适当的方式融合起来作为提取深度信息的依据，充分利用了两种深度线索的优势，使提取的深度图适用于更多的场景条件，更加准确。用户通过简单的参数设置就对二维的图片序列或者视频进行深度图的提取，并能够合成三维立体视频，在三维视频生成领域有着实际的应用价值。

Description

一种基于融合深度线索的全自动二维转三维方法和装置

技术领域

本发明涉及一种二维到三维视频的全自动转换技术，属于图像、多媒体信号处理技术领域。

背景技术

随着3D显示技术的发展与3D显示设备的普及，3D视频内容短缺的问题凸现出来。使用现有的3D拍摄系统拍摄3D内容由于需要消耗大量的人力物力而无法快速普及。近些年来，2D转3D技术逐渐兴起并成为研究热点，通过将现有的海量2D视频内容转换为3D内容，能够有效地解决3D视频内容短缺的问题，并且能够促进3D技术的进一步发展。

现有的2D转3D技术按照人工参与程度分为以下三个种类：人工、半自动和全自动。人工的方法是对图像上不同的区域或者物体选择不同的深度值来对像素进行水平偏移，但是这需要耗费大量的人力和物力。半自动的2D转3D需要少量的人工手动修正。尽管这种方法和手动方法相比已经减少了人力的耗费，但是仍旧需要大量的人工工作。要将大量的2D视频以最经济的方式转换为3D视频，全自动的方法无疑是最受好评的方法。

最常用的全自动的2D到3D视频转换的框架基本上包括两部分：深度信息的提取和根据已估计的深度信息和已知的视觉条件合成立体视图。人通过左右眼的视差分辨出事物的远近，从而产生立体感觉，事物的远近程度用深度信息来表示。在3D图像处理领域，深度信息用灰度值来表示，整幅图像的深度信息组成了一幅灰度图，也就是深度图。在人类视觉系统中，感知深度信息的线索很多，被称之为深度线索。除了双眼感知到的深度线索，从单眼也能够感知到深度，这类线索被称为单眼深度线索。在将二维图像转换为三维图像的过程中，提取深度线索的依据常常是单眼深度线索。最重要的单眼深度线索有运动视差、图形线索(纹理，亮度等)、几何模型等。

运动视差这种深度线索是一种多帧的深度线索，利用了摄像机与场景的相对运动关系。当摄像机移动时，前后连续帧场景中物体运动幅度越大，则离摄像机越近，反之则越远。跟踪场景的运动需要利用运动估计的方法，通过运动估计来获得物体的运动幅度。运动估计的方法有很多种类，根据估计的精度不同可以分为基于块、基于像素和基于亚像素的运动估计，其中基于像素的运动估计能够利用较低的运动复杂度获得精度相对较高的运动向量。

利用色彩线索能够估计边缘和颜色域的深度信息。二维图像物体的边缘往往也是深度图像物体的边缘；从颜色域上考虑，在自然场景中，高亮度的物体给人的感觉比低亮度的物体给人的感觉更近一些，红色等暖色给人的感觉要比蓝色等冷色给人的感觉近一些。因此，色彩线索也能作为深度提取的重要依据。YCbCr彩色空间广泛应用于数字视频，亮度信息用分量Y表示，彩色信息用两个色差分量Cb和Cr来存储，其中Cr指的红色色度分量。在应用上很广泛，JPEG、MPEG、DVD、摄影机、数字电视等皆采此一格式。

现有的全自动2D转3D的方法大多利用单个深度线索提取深度，无法获得准确的深度信息，导致最终无法获得舒适的立体视觉效果。运动视差虽然被称为最可靠的深度线索，但是无法用来估计静止物体的深度。利用几何透视来分配深度，几何模型往往不具有普适性，无法匹配所有几何场景。而色彩线索往往由经验得出，对场景的要求更高，准确性无法保证。现有的很多由2D转3D获得的3D视频内容很多都是由简单的全自动的转换方法获得的“伪”3D内容，以此达到快速提高市场占有率的作用，虽然能够让消费者获得立体视觉体验，却无法提供舒适的视觉效果。然而，如果将多种深度线索以适当的方式融合来获取深度图，就能利用多种深度线索的优势来获得更准确的深度信息，从而合成质量更高的三维视图。

发明内容

本发明针对当前全自动2D转3D系统提取深度信息不准确，立体感受不舒适等缺点，提出了一种融合运动视差和Cr色度分量两种深度线索的全自动2D到3D的转换方法和装置。本发明将运动视差和Cr色度分量两种深度线索以适当的方式融合起来作为提取深度信息的依据，充分利用了两种深度线索的优势，使提取的深度图适用于更多的场景条件，更加准确。用户利用本装置根据对视频场景的主观感受进行简单的参数设置就可以对二维的图片序列或者视频进行深度图的提取，并能够合成三维立体视频。

本发明采用的技术方案为：

一种基于融合深度线索的全自动2D转3D方法，根据运动视差和Cr色度分量两种深度线索的适当组合提取深度图，然后利用基于深度图的渲染(DIBR)技术合成立体视图，其特征在于：利用光流的方法计算运动向量，将运动向量量化为深度值；同时利用原始二维图像的Cr色度分量提取深度信息；最后将两种深度值根据人工设置的权重进行加权，从而获得融合的深度图。具体步骤如下：

(1)利用光流的方法进行运动估计：利用光流的方法对图片序列或者视频的当前帧和之后一帧进行运动估计，为了提高计算速度，在运动估计之前对图像进行下采样；

(2)将根据运动估计获得的深度图与Cr色差分量表示的深度图进行融合：根据运动向量坐标值计算前后两帧对应运动匹配点间的欧式距离，并根据映射函数量化为最大为255的深度值，然后，提取当前帧图像的Cr色度分量的值作为根据Cr色度分量提取的深度值，最后，将运动向量量化后的深度值和根据Cr色度分量提取的深度值按照人工设定的权重进行加权，获得最终的融合深度图；

(3)立体视图合成：根据人工设置的最大视差，利用深度图和原始二维视图，通过基于深度图的渲染技术合成左右眼视图。

本发明的基于融合深度线索的全自动二维转三维装置，包括如下组成模块：

(1)输入模块：该模块可以将二维图片序列和二维视频作为视频源导入，输入模块能够自动识别视频格式和总帧数，并且能够对2D转3D进行参数设置；

(2)深度提取模块：该模块可以人工设定光流方法的搜索范围和深度图加权系数，根据运动视差和色差分量两种深度线索提取深度信息，进行加权获得融合的深度图，并且能获得深度视频；

(3)立体视图合成模块：该模块可以人工设定最大视差范围，利用DIBR的方法合成二维图像的左右眼视图，使用3D显示设备或者利用软件合成红蓝视图，以供在二维显示设备上进行观看。

本发明将运动视差和Cr色度分量两种深度线索以适当的方式融合起来作为提取深度信息的依据，充分利用了运动视差这种深度线索提取运动场景深度信息和Cr色度分量这种色彩深度线索提取静止场景深度信息的优势，使提取的深度图适用于更多的场景条件，更加准确。用户通过本发明装置能够方便地进行参数设置，对二维的图片序列或者视频进行基于这两种深度线索的深度图的提取，并能够根据设置的最大视差合成三维立体视频，在三维视频生成领域有着实际的应用价值。

附图说明

图1是本发明的方法框图；

图2是本发明的软件开发界面,正在进行的操作为深度图的提取；

图3是本发明针对选取的单帧测试图片获得的实验结果，左边图片为选取的测试图片的原始图像，右边图像为本发明产生的深度图。

具体实施方式

本发明提出的全自动的二维转三维方法具体流程如图1所示，首先利用光流的方法对第n和n+1帧进行运动估计，对得出的运动向量计算欧式距离获得基于运动视差的深度图。同时对第n帧图像提取Cr色度分量，获得基于色差的深度图。然后，对两个深度图根据设定权重进行融合，获得融合的深度图。最后利用第n帧的二维原始图像和深度图根据DIBR技术进行立体合成，最终获得左右眼立体视图。

本发明采用的深度提取方法是融合运动视差和色度分量的深度提取方法，为了提高计算速度，在处理之前对图像进行四分之一下采样，提取出的深度图再进行上采样恢复为原有分辨率。具体算法实现过程如下：

(1)利用光流的方法计算第n帧和第n+1帧的运动向量，根据获得的运动向量计算欧式距离。欧式距离越大，说明物体运动幅度越大，离摄像机也越近，以此为依据能够估计出场景中运动物体的深度。根据公式将计算出的欧氏距离量化成为0～255之间的深度值。公式如下：

d_{n, i}^{of} = \frac{D_{i} - D_{\min}}{D_{\max} - D_{\min}} \times 255

其中，为采用光流的方法获得的第n帧像素点i的深度值，D_i为像素点i的根据运动向量计算出的欧氏距离，D_max，D_min分别为第n帧全部像素点计算出的最大和最小的欧氏距离。

(2)提取第n帧的Cr色度向量。当物体静止时，使用光流的方法计算的深度值都为0，无论这些物体离摄像机多远。在自然场景中，Cr色度分量代表红色色度分量，表示是暖色，Cr值越大往往给人感觉较近。另外对于数字视频和图片格式，Cr色度分量能够直接获得。为了对仅仅使用运动视差提取深度的缺点进行补足，使用Cr色度分量来帮助估计物体的深度值，对静止物体的深度值进行修正。

(3)根据设定的加权系数对之前产生的两种深度信息进行加权。公式如下：

d_{n, i} = d_{n, i}^{of} \times ω + (1 - ω) \times d_{n, i}^{Cr}

其中，为根据Cr分量获得的第n帧像素点i的深度值，d_n,i为最终加权融合之后获得的第n帧像素点i的深度值。ω为人工设定的加权系数，用户可以根据对视频中整体场景进行主观判断来设定系数。加权之后的深度值融合了运动时差线索和色度分量线索的优势，深度值的准确性得到了提升。

本发明提出的基于融合深度线索的全自动二维转三维装置通过用户在装置中人为设定光流方法的搜索范围和深度图加权系数，根据光流的方法和色差分量并通过量化产生两个深度图，进行加权获得融合的深度图。本装置包括以下组成模块：

(1)输入模块：可以将二维图片序列和二维视频作为视频源导入，输入模块能够自动识别视频格式和总帧数，并且能够对2D转3D进行参数设置；

(2)深度提取模块：设定光流方法的搜索范围和深度图加权系数，根据运动视差和色差分量两种深度线索提取深度信息，进行加权获得融合的深度图，并且能获得深度视频；

(3)立体视图合成模块：设定最大视差范围，利用DIBR的方法合成二维图像的左右眼视图，使用特定的方式可以进行观看。

图2是本发明开发的用户友好操作界面，用户可以自己按主观意愿导入二维图片序列或者视频转换为三维视频。操作过程十分简便，仅仅需要输入一些简单的参数就能自动转换，最终可以获得深度视图和左右眼立体视图。此外该软件还具有暂停，保存和导入的功能，用户可以自行控制转换进度，大大提高了2D转3D的可操作性。

对照本发明的2D转3D界面，本装置的具体实施步骤如下：

1.单击界面中“Import Image Sequences…”或“Load2D Movie…”按钮选择导入要进行转换的图片序列或者二维视频。图片或者二维视频的信息会出现在出现的对话框中，用户可以对工作目录、转换帧数等参数进行设置。

2、单击界面中“Extract Depth Image Sequences…”按钮提取深度图。点击之后会出现参数设置对话框，用来设置光流方法的搜索范围以及两种深度信息的加权系数。设置完参数之后，该装置逐帧全自动提取深度图。

3.单击界面中“Generate L/R Image Sequences…”按钮合成立体视图。点击之后会出现参数设置对话框，用来设置与屏幕尺寸想匹配的立体视图合成的最大视差。设置完参数之后，将根据深度图的深度值按照对应关系对像素进行左右搬移，并采用补洞算法对搬移后的视图进行补洞，最终获得图像的左眼和右眼立体视图视频。

图3是本发明针对选取的单帧测试图片获得的实验结果，左边图片为选取的测试图片的原始图像，右边图像为本发明产生的深度图。可以看出，本发明可以获得较为准确的深度图。

最后，生成的左眼和右眼视图视频可以通过特定的播放器或者显示器进行播放。

在软件提取深度图和生成左右眼视图时，软件界面下方进度条可查看准确处理进度。本发明还具有暂停、保存和导入功能，当转换过程较长时，可以对转换过程进行暂停和保存，等下次可以对未完成的转换任务的参数文件进行导入并继续任务，大大提高了转换过程的鲁棒性和可操作性。

Claims

1.一种基于融合深度线索的全自动2D转3D方法，根据运动视差和Cr色度分量两种深度线索的适当组合提取深度图，然后利用基于深度图的渲染技术合成立体视图，其特征在于：利用光流的方法计算运动向量，将运动向量量化为深度值；同时利用原始二维图像的Cr色度分量提取深度信息；最后将两种深度值根据人工设置的权重进行加权，从而获得融合的深度图，具体步骤如下：

2.一种基于融合深度线索的全自动2D转3D装置，包括如下组成模块：

(3)立体视图合成模块：该模块可以人工设定最大视差范围，利用基于深度图的渲染技术合成二维图像的左右眼视图，使用3D显示设备或者利用软件合成红蓝视图，以供在二维显示设备上进行观看。

3.据权利要求2所述的一种基于融合深度线索的全自动2D转3D装置，其特征在于：具有暂停、保存和导入功能，当转换过程较长时，可以对转换过程进行暂停和保存，等下次可以对未完成的转换任务的参数文件进行导入并继续任务。