CN101312542B

CN101312542B - 一种自然三维电视系统

Info

Publication number: CN101312542B
Application number: CN 200810062854
Authority: CN
Inventors: 张明; 李东晓; 谢贤海; 王维东; 谢磊; 徐元欣; 陈惠芳; 郑伟
Original assignee: Hangzhou National Chip Science & Technology Co Ltd; Zhejiang University ZJU
Current assignee: Hangzhou National Chip Science & Technology Co Ltd; Zhejiang University ZJU
Priority date: 2008-07-07
Filing date: 2008-07-07
Publication date: 2010-09-08
Anticipated expiration: 2028-07-07
Also published as: CN101312542A

Abstract

本发明公开了一种自然三维电视系统。由多目立体相机获取场景的彩色图像，经图像校正模块进行亮度和色彩补偿后，通过内容制作模块提取出三路码流，三路码流为主相机彩色图像、主相机深度图像和辅相机的遮挡信息；接着用标准编码器进行分层编码，产生的压缩码流在信道上传输至标准解码器，经标准解码器重新解码成三路码流；这三路码流通过视点重构模块，重构出主相机视点、辅相机视点和虚拟视点，经显示处理模块合成一个适合显示器显示的图像，通过显示设备显示。本发明的优势在于兼容于传统2D，能重构的侧向视点多，但同时又能保证传输码率低。

Description

一种自然三维电视系统

技术领域

本发明涉及一种自然三维电视系统，具体包括基于深度的三维电视的编解码和多视点重建方法。

背景技术

从20世纪40年代电视发明以来，经历了黑白电视、彩色电视和正在发展的数字高清晰度电视三个阶段，电视技术逐渐向着大屏幕、彩色化、高清晰度、多媒体方向发展。而三维电视(3DTV)具有深度感和临场感，将会使观众获得最大限度的立体感受，因而必将成为继数字高清晰度电视技术之后又一个新的发展方向。

人眼产生立体感主要基于两个方面：双目视差(binocular parallax)和运动视差(motion parallax)。双目视差始于Charles Wheatstone 1838年的研究工作，指的是双眼看到同一物体的不同映像；运动视差始于Helmholtz 1866年的研究工作，指的是头部运动时看到同一物体的不同映像。如果采用一个装置，使左右眼分别看到不同的视差图像，则在大脑中就会产生精确的三维物体，以及该物体在场景中的定位，这就是具有深度的立体感。同时研究也表明：立体感和立体图像的整体质量取决于质量较好的单眼图像。参见：L.Stelmach，W.Tam，D.Meegan，A.Vincent，and P.Corriveau，“Human perception of mismatched stereoscopic 3Dinputs，”International Conference on Image Processing，vol.1，10-13Sept.2000，pp.5-8。

现有用于3DTV的立体显示技术主要分为两类：分光立体眼镜立体显示(Glasses-based Stereoscopic)和自动分光立体显示(Auto-stereoscopic)。分光立体眼镜立体显示技术兴起于二十世纪八十年代，主要特点是需佩戴眼镜，通过镜片的滤光效果使左右眼看到不同的视差图像，代表有基于互补色的立体显示系统和基于极化光的立体显示系统，后因需佩戴眼镜被逐渐淘汰。现在主流的立体显示技术是自动分光立体显示，利用狭缝光栅或微透镜阵列的光路遮挡或引导使左右眼看到不同的视差图像，优点是无需佩戴眼镜和适合多人多视角观察，这方面已有很多的成熟的产品。

由于立体成像的特殊要求，立体图像获取主要是通过多个(两个以上)摄像机阵列。通常我们将多个相机的排列方式分为两类：平行排列方式和“内八字”排列方式。平行排列方式的特点是相机平行排列，其光轴垂直于相机平面，有较简洁的深度视差关系，但其摄取的场景范围不同，使两幅视差图像的残差较大；“内八字”排列方式是一种环形汇聚式的排列方式，更符合人眼的观察特点，但其只适合拍静态的物体，对于动态的物体就必须调整汇聚点，显然这会造成很多困难，同时该方案的深度视差计算公式也较复杂。2002年，欧洲ATTEST(Advanced Three-Dimensional Television System Technology)提出了一种新型的“shift-sensor”相机结构，这种相机结构更像是前两种方案的一种折中：相机平行排列，光轴也垂直于相机平面，但它调整了相机内部的CCD感光片，使相机拍摄的场景范围相同。这个方案有许多优点：有很简单的视差深度关系，场景相同保证图像间预测的残差小；相对于“内八字”方案，不会引入不想要的“竖直偏移”，这是造成立体视觉眼疲劳的重要原因。

除了传统的多摄像机摄取方式，还有一种“2D图像+深度”的方式，这类方案的压缩码率更高。ATTEST提出用Zcam装置来直接获取场景的深度，其原理是发射红外线，通过测量红外线来回的时间来估计物体离摄像机的距离(深度)。该方法虽然简单，但由于其精度较低至今仍未被广泛采用。

三维电视由于其需传多路的视频流，造成其信息量很大，对传输网络的带宽要求高，所以一般将数字视频信号在存储或者传输前先进行压缩编码，以便节省存储空间和网络带宽。现有的3DTV编码方案大部分是基于场景的，基于场景的立体编码方法分为三类，第一类是传统的双路视频编码方法，第二类是多路的视频编码方法，第三类是基于深度的视频编码方法。

双路视频编码方法传的是左右眼的视差图像，通常将一路用传统的2D视频编码技术(比如MPEG-2)，作为基本层；另一路用视点间预测编码，去除冗余，作为增强层。缺点是只适合单人单角度观看，比较典型的是MPEG-2的MVP(Multi-View Profile)。

后来，为满足多人多角度观察的需要，又发展了多路的视频编码方法MVC(Multi-view Video Coding)标准。MVC基于H.264/AVC，但同时开发视点内部和视点间的图像相关性，采用时间和空间的联合压缩编码，大大提高了压缩率。但相对传统的单路视频编码，其码流还是较大，不适合传输应用于现有的3DTV系统。

第三类是基于深度的视频编码方法。与前两类不同的是，它采用深度信息来代替视差图像作为增强层编码。深度信息可看成单色的亮度信号，用8 bit表示，0表示最远的点(Z_far)，255：最近的点(Z_near)，额外信息depth range(Z_near，Z_far)需被传送。深度Z计算公式：

z = z_{far} + v \times \frac{z_{near} z_{far}}{255},

其中v∈[0，...，255] (1)

终端用DIBR(Depth-Image-Based Rendering)算法重建成双路视频流对。其优点在于：压缩率较高，编码深度信息只需10％～20％的普通视频比特率；在终端重建也比较自由，可根据需要重建周围任意视点图像，深度感也可根据需要进行调整。难点在于深度的获取，无论是直接获取或是利用2D图像提取出来，都不能保证很好的精度。欧洲ATTEST的3DTV系统就采用了此编码方案，参见：C.Fehn，Depth-Image-Based Rendering(DIBR)，compression and transmission for anew approach on 3D-TV，in Proceedings of SPIE，Stereoscopic Displays and VirtualReality Systems XI，USA，pp.93-104，2004。

基于深度的编码方案核心是终端用于重建的DIBR算法，这是一种利用原始视频流和相应深度信息合成虚拟视点的方法，其结构分为三个部分：深度图前处理、3D图像渲染和洞的填充。其中3D图像渲染是其核心部分，负责合成虚拟视点，但会产生无法渲染的洞区域，故后期要进行洞填充；深度图的预处理是指对深度图进行高斯滤波，这样可使重建的虚拟视点洞区域变少，但同时也会使质量下降。

3D图像渲染一般可以分成两步：a)首先，原始2D图像利用深度信息映射到3D空间；b)接着，3D空间点根据虚拟视点的位置(比如相机平移、旋转参数)，重新将点映射到相应的2D图中。其最终目的是得到一个深度转视差公式(也可以得到其他距离的虚拟视点的位移矢量)。

其具体算法：假设系统带有两个摄像机(即有两个视点)，M是自由空间点，它在两个视点的映射是m和m’。定义第一个视点的坐标是世界坐标系的原点，则两个视点映射等式分别为：

\tilde{m} &cong; {AP}_{n} \tilde{M} - - - (2)

{\tilde{m}}^{'} &cong; A^{'} P_{n} D \tilde{M} - - - (3)

其中

以及

代表两个2D图像点以及3D空间点；

表示等式在非0系数下成立；4×4矩阵D包含了旋转矢量R和水平位移t，其作用是把坐标原点转换到第二个视点上；3×3矩阵A和A’是摄像机的固有参数；3×4矩阵P_n是归一化的视点映射矩阵。

我们把(2)式改写成：

\tilde{M} = {ZA}^{- 1} \tilde{m} - - - (4)

把(4)代入(3)，消去

，得到

和

的直接转换公式：

Z^{'} {\tilde{m}}^{'} = {ZA}^{'} {RA}^{- 1} \tilde{m} + A^{'} t - - - (5)

(5)式描述了在已知深度Z、相机内部参数A和旋转平移矢量R、t情况下

和

的关系，即为视差关系，我们称之为视差等式。视差等式就是3D图像渲染公式，理论上，我们可以利用公式从一幅参考图像中得到任意视点的视差图像。

DIBR算法已经比较成熟，其难点在于深度的获得和遮挡的处理。遮挡主要引起两类问题，一是“重叠”，二是“空洞”。重叠问题中场景信息是存在的，可以根据深度等三维几何信息确定优先级和可见性，已有较成熟的算法，如Z-buffer、View-Independent Visible Priority等。空洞问题中场景信息是缺失的，常用的方法是基于周围可用信息做预测填充，或通过平滑深度图减少空洞。

现有比较成熟的3DTV系统方案是由欧洲ATTEST提出的。它采用一个Zcam摄像机，拍摄二维视频和相应深度图；二维视频用传统的MPEG-2编码，深度图可以用MPEG-4或H.264等更高压缩率的编码器编码；在终端用DIBR算法重构出所需的虚拟视点。这是一种兼容于传统2D电视的3DTV方案，虽然该方案理论上可以重构出任意视点的图像，但距离较远时就会产生较大的洞，视觉效果较差，因此只适合单人在有限角度上的观察。

发明内容

本发明的目的是克服现有技术的不足，提供一种自然三维电视系统。

自然三维电视系统是由多目立体相机获取场景的彩色图像，选取其中一路相机作为主相机，其余相机作为辅相机；获取的彩色图像经图像校正模块进行亮度和色彩补偿后，通过内容制作模块提取出三路码流，三路码流为主相机彩色图像、主相机深度图像和辅相机的遮挡信息；接着用标准编码器进行压缩编码，产生的压缩码流在信道上传输至标准解码器，经标准解码器重新解码成主相机彩色图像、主相机深度图像和辅相机的遮挡信息三路码流；解码成的三路码流通过视点重构模块，重构出主相机视点、辅相机视点和虚拟视点，经显示处理模块合成一个3D显示器显示的立体图像，通过3D显示设备显示；

当信道带宽受限时，可丢弃遮挡信息和深度信息，丢弃遮挡信息优先，当标准解码器接收到的视频码流包含主相机的彩色图像和深度信息时，由标准解码器负责解码后，视点重构模块只重构主相机视点和虚拟视点，经显示处理模块处理后，送至3D显示器显示；当标准解码器接收到的视频码流包含主相机的彩色图像时，由标准解码器负责解码后，通过视点重构模块和显示处理模块后，直接送至2D显示器。

所述的多目立体相机的所有相机呈平行光轴一维排列，相机之间的基线距离相等，相机中心光轴都垂直于相机连线平面，所有相机都是普通的相机；

或者，所有相机呈平行光轴一维排列，相机之间的基线距离相等，相机中心光轴都垂直于相机连线平面，主相机是普通的相机，辅相机内部的CCD作平移，其中在主相机左边的辅相机内部CCD向左平移h，在主相机右边的辅相机内部CCD向右平移h，h的计算公式如下：

h = f \times \frac{b}{Z_{c}} - - - (6)

其中f是辅相机镜头焦距，b是辅相机离主相机的距离，Z_c是拍摄场景相同时，拍摄场景到主相机与辅相机连线的垂直距离。

所述的图像校正模块，包括亮度和色彩补偿，以主相机的彩色图像为基准，校正辅相机的彩色图像。

所述的内容制作模块，包括：

深度计算单元，用于从多路相机中提取主相机的深度图像；

基于深度的图像渲染DIBR单元，是利用主相机的彩色图像和深度图像渲染出辅相机所在位置的图像，部分无法渲染的空洞区域不作填充处理；

加法器，把每个辅相机的原始图像减去用基于深度的图像渲染DIBR单元渲染出的图像，其残差就是部分无法渲染的空洞区域，即遮挡信息。

所述的标准编、解码器，是指AVS、MPEG-x和H.26x；标准编码器的输入是主相机彩色图像、主相机深度图像和辅相机的遮挡信息三路码流；采用一种分层编码结构，把主相机彩色图像作为基本层，主相机深度图像作为第一增强层，辅相机的遮挡信息作为第二增强层。

所述的视点重构模块，包括：

基于深度的图像渲染DIBR单元，是利用主相机视点的彩色图像和深度图像渲染出辅相机视点所在位置的图像，以及其他位置的虚拟视点，部分无法渲染的空洞区域不作填充处理；

加法器，用基于深度的图像渲染DIBR单元渲染出的辅相机视点图像，加上对应的遮挡信息，重构出完整的辅相机视点；

空洞填充单元，用于填补用基于深度的图像渲染DIBR单元重构出的虚拟视点的空洞，利用空洞区域邻接的图像和辅相机视点的遮挡信息。

所述的3D显示器，是指一种能提供裸眼的、适合多人多角度观察的立体显示设备。

本发明与现有技术相比具有的有益效果：

1)与目前实际采用的一路“2D视频+相应深度”相比，通过增加遮挡信息，提供了丰富的侧向和遮挡信息，获得更加真实的三维效果，而且可以通过摄像头配置数量及遮挡信息的丰富程度，控制带宽和存储代价，获得不同质量的三维效果；

2)与目前比较热门的MVC相比，传输码率低很多，减少了对传输带宽资源的占用，代之以增加发端和收端的运算处理能力的要求，我们认为在可以预期的将来，带宽资源是更为稀缺的资源，而计算资源随着工艺技术的提高更加容易获得；

3)本发明在编解码上尽量采用目前已经成熟的技术，而对于传统电视，只要舍弃深度和残差信息，依然可正常接收2D视频部分，因而可以在最大程度上实现对老技术和老产品的兼容。

附图说明

图1是自然三维电视系统结构示意图；

图2是本发明的三目相机模型示意图；

图3是本发明的多视点重构示意图。

具体实施方式

以下结合附图描述本发明的实施例。

本发明所述的是一种自然三维电视系统，其中自然有两个含义，一是摄取的场景是自然场景，二是终端的显示设备能实现自由视点、裸眼观察。

图1是自然三维电视系统结构示意图，整个自然三维电视系统包括9个部分：多目立体相机、图像校正模块、内容制作模块、标准编码器、信道、标准解码器、视点重构模块、显示处理模块和显示设备。整个系统的模块级联系如下：

我们以采用三目立体相机和产生9个视点的标准情况来描述本发明的实施例。

为了提高压缩率和更好地重构虚拟视点，系统的码流形式在不停地发生变化：采集端三目相机获取的是三路彩色图像；经过内容制作模块后，码流就变成了主相机的彩色图像、主相机的深度图像和两路辅相机的遮挡信息；再经标准编码器编码整合成一路压缩码流，通过信道传输至标准解码器；标准解码器重新将码流解码成三路码流，即主相机的彩色图像、主相机的深度图像和两路辅相机的遮挡信息；通过视点重构单元，重构出1个主相机视点的彩色图像、2个辅相机视点的彩色图像和6个虚拟视点的彩色图像；这9路彩色图像，经显示处理模块合成1路适合显示器显示的彩色立体图像，送给显示设备显示。

图3是本发明的多视点重构示意图，该图也示意了重构出的9个视点与原三目相机的对应关系以及虚拟视点的位置关系：把主相机所拍图像的位置定义为视点5，两路辅相机视点所拍图像的位置分别定义为视点2和8，相机间的基线距离是20cm；在视点2和视点5之间等间距重构出3和4两个虚拟视点，在视点8和视点5之间等间距重构出6和7两个虚拟视点，所以相邻视点的间距为20/3＝6.67cm，约为双眼间距；以视点连线为轴，在视点2外部6.67cm的位置重构出视点1，在视点8外部6.67cm的位置重构出一个视点9。这样就产生了多达9个视点的图像，需注意的是，所有视点都呈平行一维排列，虚拟视点都是通过主视点用DIBR算法重构的。

具体模块的工作原理和采用的方法描述如下：

所述的多目立体相机的所有相机呈平行光轴一维排列，相机之间的基线距离相等，相机中心光轴都垂直于相机连线平面，所有相机都是普通的相机；我们采用的是三目立体相机，相机之间的基线距离相等为20cm(考虑中间插值出两个虚拟视点，这样视点间距为20/3＝6.67cm，约为双眼距离)。

h = f \times \frac{b}{Z_{c}} - - - (7)

其中f是辅相机镜头焦距，b是辅相机离主相机的距离，Z_c是拍摄场景相同时，拍摄场景到主相机与辅相机连线的垂直距离。这种相机结构是对ATTEST提出的二目相机的“shift-sensor”方案的一种变化，用于三目相机的排列。我们采用的就是这种结构，这种结构保证了拍摄场景的一致，使多视点视频码流压缩时产生的残差区域少，更好地降低码率。

之所以采用三路相机是经过多方面考虑的。首先，对比常见的二目相机，三目相机能提供更大范围的侧向视角信息，在虚拟视点精度相同的情况下，能够重构出更多的虚拟视点；其次，基于二目的深度提取算法，因为遮挡原因，会有部分点无法找到对应视差匹配点，但三目相机保证了中路相机都可在左右视点中找到对应的视差匹配点，这样从理论上来说，才能得到精确的视差矢量用于计算深度；而且，两个辅视点呈对称性排列，对于视频码流的压缩是很有好处的。

所述的图像校正模块，包括亮度和色彩补偿，以主相机的彩色图像为基准，校正辅相机的彩色图像。具体做法是计算出主相机和辅相机图像的直方图，直方图是图像各灰度值统计特性与图像灰度值的函数，它统计一幅图像中各个灰度级出现的次数或频率。再把辅相机图像经过灰度映射函数匹配主相机的直方图。此模块的作用在于，既能提高深度提取模块中视差点匹配的精度，又能提高主相机视点和辅相机视点切换时图像的流畅性。

所述的内容制作模块，包括：

深度计算单元，用于从多目立体相机中提取主相机的深度图像。采用一种基于三目的深度图提取方法，主相机所拍彩色图像上的点，在两个辅相机所拍彩色图像上搜索最匹配的点。这样会得到，主相机所拍彩色图像上的部分点匹配到左辅相机所拍彩色图像上，利用基于二目的深度视差公式计算这些点的深度值；同理，主相机所拍彩色图像上的其余点匹配到右辅相机所拍彩色图像上，利用基于二目的深度视差公式计算这些点的深度值。这样就可得到整幅图像的深度值，与基于二目的深度图提取方法相比，此法能提供更精确的视差匹配，得到更精确的主相机的深度图像。以图2所示的三目相机模型为参考，其双目间的视差深度公式为：

Z = \frac{b \times f}{d - h} - - - (8)

其中Z是该点的深度值，d是计算出来的视差矢量，b是相机间距(这里即为两眼间距)，f是相机镜头焦距，h是相机内部CCD的平移距离。

深度提取算法中关于点的扫描方式，我们也采用了一种新的方法：a)对图像先用Sobel算子进行边缘点检测，对边缘点进行先特征匹配后，得到边缘点的视差值，从而计算出深度值；b)根据边缘点的深度值，将图像分成几个不同深度层次的区域，在每个区域内，采用基于块的分级块大小的区域匹配，并计算每个块的深度。这样的扫描方式大大提高了图像的扫描速度，并具有很好的精度。

基于深度的图像渲染DIBR单元，是利用主相机的彩色图像和深度图像渲染出辅相机所在位置的图像，部分无法渲染的空洞区域不做填充。它包括两步：深度图的预处理和3D图像的渲染。深度图的预处理是指对深度图进行高斯滤波，这样可使重建的虚拟视点空洞区域变小和变少，使遮挡信息少。在本发明的相机结构模型下的3D图像渲染公式可以简化为：

x^{'} = x + \frac{b \times f}{Z} + h, - - - (9)

y′＝y；

其中(x，y)主相机彩色图像的坐标，(x′，y′)需渲染视点的彩色图像的坐标，Z是(x，y)点对应的深度值，b是需渲染视点与主视点的距离，f是相机镜头焦距，h是相机内部CCD的平移距离。

所述的标准编、解码器，是指AVS、MPEG-x和H.26x。这里我们采用编码效率较高的H.264编码器，采用一种分层的编码结构，把主相机彩色图像作为基本层，主相机深度图像作为第一增强层，辅相机的遮挡信息作为第二增强层。对于基本层，在时间域上采用一种可伸缩的分层B结构；对于深度图像，在时间域上采用降分辨率压缩：假设GOP(group of picture)长度为n，则时域分辨率为l/n，即只对GOP的关键帧编码深度图像，其余n-1个帧利用2D图像的轮廓进行预测。

在编码器端定义码流丢弃优先级：辅相机的遮挡信息＞主相机的深度图像＞主相机的彩色图像。在传输网络中，一旦带宽不够用，码流丢弃优先级高的将先被丢弃。遮挡信息一旦被丢弃，则还是能够立体显示，只是重构的虚拟视点个数和精度会大大减少；遮挡信息和深度图都丢弃的话，则只能显示传统的二维电视；理论上2D视频流不能丢弃。

所述的视点重构模块，包括：

基于深度的图像渲染DIBR单元，是利用主相机视点的彩色图像和深度图像渲染出辅相机视点所在位置的图像，以及其他位置的虚拟视点，部分无法渲染的空洞区域不做处理，其原理与内容制作模块的DIBR单元基本相同。

空洞填充单元，用于填补用基于深度的图像渲染DIBR单元重构出的虚拟视点的空洞，利用空洞区域邻接的图像和辅相机视点的遮挡信息。对于不同的虚拟视点填充将采用不同的方法：虚拟视点3、4、6、7为第一类，这类虚拟视点介于主视点和辅视点连线之间；虚拟视点1、9为第二类，这类视点在主视点和辅视点连线的外部。

第一类虚拟视点的空洞填补以视点4为例(其他视点原理上相同)。我们知道，在DIBR算法的重构中，渲染同一直线上的虚拟视点时，距离较远的虚拟视点产生空洞较大，距离较近的虚拟视点产生的空洞较小，在这种情况下，大空洞区域的遮挡信息将会包含小空洞区域的信息。故视点4的空洞区域可用辅视点2的遮挡信息进行填充。当然，由于视角的不同会有部分扭曲的情况，我们可以在填充完后对填充边界进行一个高斯滤波处理，使填充区域更光滑。

第二类虚拟视点的空洞填补以视点1为例(其他视点原理上相同)。我们知道，主视点5在用DIBR算法产生视点1和2时，视点1产生的空白区域必然比视点2大。我们先用辅视点2的遮挡信息填充进虚拟视点1的空洞；对于还未被填充的空洞区域采用简单的线性插值，最后用滤波器模糊使整块区域平滑。相对而言，虚拟视点1和9产生的图像必然是最不精确的，由于在视角边缘，要求不高，故这种精度已能满足要求。

所述的显示处理模块，主要是根据不同的显示器，把n个由视点重构模块重构出的视点进行适当的合成，以适合多视点观察的需要。以9个视点为例，假定合成立体图像的分辨率H*V，对9个视点图像进行采样，每个视点图像的垂直分辨率采样成V/v，而水平分辨率采样成H/h，其中，v*h＝9，v取最接近3的整数值。最后根据实际线数LPI值和实际倾斜角α值以及LCD显示器的点距DOT，将经过采样的9个视点图像的RGB分量填充到立体图像的RGB分量中，得到所需的立体图像。

所述的立体显示设备，包括2D显示器和3D显示器或者一种2D/3D自适应的显示器。本实验室就是采用一种2D/3D自适应的显示器，这是一种基于柱镜光栅LCD自由立体显示设备，简单来讲就是把一块柱镜光栅附于LCD显示器的表面，这样就是一种能提供裸眼的、适合多人多角度观察的3D显示器；当去掉柱镜光栅时，就是普通的LCD显示器。

应该理解到的是：上述实施例只是对本发明的说明，而不是对本发明的限制，任何不超出本发明实质精神范围内的发明创造，例如，采用基线距离为n×p(其中n个整数，p为双目距离)的相机距离，重构出n-1个中间虚拟视点的方式，跟本发明采用20cm的基线距离，重构2个中间视点的方式相同；采用2目的相机结构，跟本发明通过主相机和辅相机获取主相机彩色图像、主相机深度图像和辅助相机遮挡信息，重构出一个主视点、一个辅视点和若干个虚拟视点的方式相同。以上均落入本发明的保护范围之内。

Claims

1.一种自然三维电视系统，其特征在于，由三目立体相机获取场景的彩色图像，选取其中一路相机作为主相机，其余相机作为辅相机；获取的彩色图像经图像校正模块进行亮度和色彩补偿后，通过内容制作模块提取出三路码流，三路码流为主相机彩色图像、主相机深度图像和辅相机的遮挡信息；接着用标准编码器进行压缩编码，产生的压缩码流在信道上传输至标准解码器，经标准解码器重新解码成主相机彩色图像、主相机深度图像和辅相机的遮挡信息三路码流；解码成的三路码流通过视点重构模块，重构出主相机视点、辅相机视点和虚拟视点，经显示处理模块合成一个3D显示器显示的立体图像，通过3D显示设备显示；

当信道带宽受限时，可丢弃遮挡信息和深度信息，丢弃遮挡信息优先，当标准解码器接收到的视频码流包含主相机的彩色图像和深度信息时，由标准解码器负责解码后，视点重构模块只重构主相机视点和虚拟视点，经显示处理模块处理后，送至3D显示器显示；当标准解码器接收到的视频码流包含主相机的彩色图像时，由标准解码器负责解码后，通过视点重构模块和显示处理模块后，直接送至2D显示器；

所述的三目立体相机的所有相机呈平行光轴一维排列，相机之间的基线距离相等，相机中心光轴都垂直于相机连线平面，所有相机都是普通的相机；

其中f是辅相机镜头焦距，b是辅相机离主相机的距离，Zc是拍摄场景相同时，拍摄场景到主相机与辅相机连线的垂直距离；

所述的内容制作模块，包括：

深度计算单元，用于从三目立体相机中提取主相机的深度图像；

加法器，把每个辅相机的原始图像减去用基于深度的图像渲染DIBR单元渲染出的图像，其残差就是部分无法渲染的空洞区域，即遮挡信息；

所述的视点重构模块包括：

空洞填充单元，利用空洞区域邻接的图像和辅相机视点的遮挡信息，填补用基于深度的图像渲染DIBR单元重构出的虚拟视点的空洞。

2.根据权利要求1所述的一种自然三维电视系统，其特征在于，所述的图像校正模块，包括亮度和色彩补偿，以主相机的彩色图像为基准，校正辅相机的彩色图像。

3.根据权利要求1所述的一种自然三维电视系统，其特征在于，所述的标准编、解码器，是指使用AVS、MPEG-x和H.26x协议的编解码器；标准编码器的输入是主相机彩色图像、主相机深度图像和辅相机的遮挡信息三路码流；采用一种分层编码结构，把主相机彩色图像作为基本层，主相机深度图像作为第一增强层，辅相机的遮挡信息作为第二增强层。

4.根据权利要求1所述的一种自然三维电视系统，其特征在于，所述的3D显示器，是指一种能提供裸眼的、适合多人多角度观察的立体显示设备。