CN103152586B

CN103152586B - 一种基于深度模板的2d视频转3d视频传输及重建方法

Info

Publication number: CN103152586B
Application number: CN201110403735.5A
Authority: CN
Inventors: 王振宇; 王荣刚; 董胜富; 高文
Original assignee: Peking University Shenzhen Graduate School
Current assignee: Peking University Shenzhen Graduate School
Priority date: 2011-12-06
Filing date: 2011-12-06
Publication date: 2016-01-13
Anticipated expiration: 2031-12-06
Also published as: CN103152586A

Abstract

本发明公开了一种基于深度模板辅助的2D视频转3D视频的传输及重建方法，包括：使用三角网格描述深度模板和平滑度模板；平滑度模板表示每个像素处的深度变化剧烈程度；将三角网格描述使用熵编码进行编码并存储于视频序列的图像头中；解码端将解码出的2D图像作为一个视点，利用深度模板，平滑度模板以及解码出的2D图像生成深度图，并跟据深度图和解码出的2D图像生成另一视点的图像。该发明提出的深度模板辅助2D视频转3D视频方法，能有效地帮助解码端提升2D视频转3D视频的质量，并且具有较小的传输代价。

Description

一种基于深度模板的2D视频转3D视频传输及重建方法

技术领域

本发明涉及2D视频转3D视频技术领域，具体是一种使用深度模板辅助的2D视频转3D视频的传输及重建方法。

技术背景

目前，3D视频技术正在迅速进入市场，各大厂家的显示器、电视机、投影仪等已经越米越多地支持3D视频的播放。但是目前3D视频资源还不够丰富，3D视频拍摄、制作等难度大，成本高。另一方面，数量众多的原有2D视频由于不具有深度信息，无法通过3D显示终端进行观赏，也是一大遗憾。因此将2D视频转变为3D视频的技术成为一大热点。

2D视频转3D视频的技术是跟据2D视频生成每幅画面的深度图，并跟据深度图和2D画面生成另一视点的2D画面，再进行3D视频显示。生成深度图的技术目前分为全自动、半自动和人工方法。自动方法是利用视频中物体运动信息、画面结构等线索，估计出每幅画面的深度图；人工方法则是人为地给每幅画面上每个像素赋予一个深度；半自动方法则由人工参与提供更加丰富的深度信息，再由计算机自动给每幅画面上每个像素生成深度值。其中，人工方法生成深度图的代价太大，无法推广；全自动方法义由于现实中的视频往往比较复杂，造成各种全自动算法适应能力很差，效果不好。因此半自动方法成为目前广为接受的深度图生成方法。

对2D视频转3D视频之后数据的传输和显示，目前通常的做法是将生成的3D视频按照普通真实3D视频的方法生成双拼或色分的3D视频序列进行压缩和传输，解码端直接解码图像进行显示。该方法造成待压缩的视频数据量加倍，不利于传输和存储。因此，将2D视频转3D视频的一些关键信息存储在普通2D视频码流中，再由解码端跟据这些关键信息进行全自动的2D视频到3D视频的转换并进行显示的方法，是一个可行的方法。

发明内容

本发明的目的在于提供一种基于深度模板辅助的2D视频转3D视频传输及重建方法，以便将2D视频在编码之前，由人为参与的半自动或人工方式，以及高运算复杂度的全自动方式生成的深度图关键信息传输给解码端，提高解码端进行全自动2D视频转3D视频的质量，同时节省传输带宽和存储空间。

为实现上述目的，本发明提出的基于深度模板辅助的2D视频转3D视频传输及重建方法包括以下步骤：

第一步：对序列中每一幅图像，首先使用自动，半自动或人工方式生成深度模板和平滑度模板的三角网格描述。深度模板和平滑度模板的大小为2D图像的大小，且模板上每一个像素同原2D图像的每一个像素一一对应。所述深度模板的三角网格描述方法为：对所述序列中某一幅图像F，将其分割为若干三角形区域，每个三角形区域的三个顶点赋予一个深度值；对所述每一个三角形区域，记录三个顶点的坐标和三个顶点对应的深度值，构成所述图像F的深度模板三角网格描述。所述深度值取值范围为0～255。深度模板中，每个三角形区域的顶点像素的深度值为三角网格描述中对应顶点的深度值；其余像素的深度值，则由该像素所在的三角形区域的三个顶点深度值插值得到。所述平滑度模板用于标记每个像素处的深度变化剧烈程度。平滑度模板的三角网格描述方法为：对所述序列中某一幅图像F，将其分割为若干三角形区域，每个三角形区域的三个顶点赋予一个平滑度值；对所述每一个三角形区域，记录三个顶点的坐标和三个顶点对应的平滑度值，构成所述图像F的平滑度模板三角网格描述。所述平滑度值取值范围为0～255。平滑度模板中，每个三角形区域的顶点像素的平滑度值为三角网格描述中对应顶点的平滑度值；其余像素的平滑度值，则由该像素所在的三角形区域的三个顶点平滑度值插值得到。

第二步：对2D视频序列进行普通的视频编码，并对每一幅图像深度模板和平滑度模板的三角网格描述进行熵编码。将熵编码之后的三角网格描述存储于视频序列对应图像的图像头中。

第三步：在解码端，解码2D视频序列中的一帧图像F；

第四步：在解码端，解码所述图像F的三角网格描述，并重建深度模板M和平滑度模板S。重建深度模板M的方法为：跟据解码后的所述图像F的深度模板的三角网格描述，每个三角形区域的三个顶点的深度值赋予深度模板M上对应像素；深度模板M上其余像素的深度值由像素所在三角形区域的三个顶点深度值插值得到。重建平滑度模板S的方法为：跟据解码后的所述图像F的平滑度模板的三角网格描述，每个三角形区域的三个顶点的平滑度值赋予平滑度模板S上对应像素；平滑度模板S上其余像素的平滑度值由像素所在三角形区域的三个顶点平滑度值插值得到。

第五步：在解码端，跟据所述图像F，所述深度模板M和所述平滑度模板S生成深度图D。深度图D的大小为图像F的大小，且深度图D上每一个像素同图像F的每一个像素一一对应；对所述图像F进行图像分割，每一个分割区域的像素划为一组。计算每组像素中，单个像素在深度图D上的深度值的方法为：所述该组像素在深度模板M上对应像素深度值的平均值为d_avg；该组像素中第i个像素在深度模板M上的深度值为d_i，在平滑度模板S上的平滑度值为s_i；所述第i个像素在深度图D上的深度值为：

\frac{d_{avg} * s_{i} + d_{i} * (255 - s_{i}))}{255} .

第六步：在解码端，跟据所述图像F和所述深度图D生成另一视点的2D图像F’。

第七步：解码端若还剩余图像未解码，则跳回第三步开始处理下一幅图像。

本发明具有以下优点：

1.本发明使用三角网格描述深度模板和平滑度模板，具有较高的灵活性，对于简单场景使用极少的数据量就可以描述整个深度模板；对于复杂场景，可以增加模板的复杂度以提高解码端自动进行2D视频转3D视频的质量；

2.本发明将编码之前通过半自动方法、人工方法或高复杂度全自动方法进行的2D视频转3D视频的处理结果描述为深度模板的三角网格，在传输和存储过程中仅传输和存储原始2D视频系列及深度模板的三角网格描述信息，减小了传输带宽和存储代价；

3.本发明在解码端重建深度模板，能有效地辅助解码端进行全自动的2D视频转3D视频，提升转换质量；

4.本发明利用平滑度模板标记每个像素处深度变化剧烈程度，能辅助提升深度图生成的质量。

5.本发明在解码端利用深度模板和平滑度模板生成深度图，可以灵活地采用不同复杂度的图像分割算法，生成不同质量的深度图，以充分利用解码端的计算能力。

附图说明

图1是本发明实施例中模板的三角网格描述示意图；

图2是本发明实施例的流程图；

图3是本发明实施例中三角网格划分及符号串表示方式的示意图；

图4是本发明实施例中跟据2D图像及深度模板生成深度图的示意图。

具体实施方式

下面结合附图和实施例，对本发明进行详细的描述。本实施例仅为本发明的一个头施例而不是全部实施例。

对一个2D视频序列进行2D转3D处理，将处理结果存储并通过互联网分发，由客户端解码进行3D视频的重建并显示。采用简单的深度模板和平滑度模板对2D视频每一幅图像的深度和深度变化平滑度进行描述，深度模板和平滑度模板使用相同的三角网格划分。采用的深度模板和平滑度模板的三角网格描述为：使用矩形的2D视频每一幅图像中，两条对角线中的一条或两条，将矩形的画面分割为2个或4个三角形区域，给每一个三角形区域的三个顶点赋予一个深度值和平滑度值；其余像素的深度值和平滑度值跟据像素所在三角形区域三个顶点的深度值和平滑度值使用线性插值得到。图1所示的几个模板为该三角网格描述能描述的几种典型的模板，其中，明亮区域值较大，暗色区域值较小。这些模板即可表示深度模板也可表示平滑度模板。

该实施例中，本发明实现的步骤如图2所示：

第一步：对序列中每一幅图像，首先使用半自动方式，由人工地跟据图像深度结构选择图像三角网格描述划分方式，并给每一个三角形区域三个顶点赋予一个深度值和平滑度值，生成三角网格描述的深度模板和平滑度模板。对每个顶点，深度值和平滑度值各使用一字节无符号整数存储，对划分方式使用一字节无符号整数存储。如果选择的三角网格描述只包含两个三角形区域，如图3(a)(b)所示，三角网格描述串为“SIGN，D(a)，S(a)，D(b)，S(b)，D(c)，S(c)，D(d)，S(d)”。其中D(m)表示m点的深度值；S(m)表示m点的平滑度值；SIGN表示三角区域划分方式。SIGN值为1时，两个三角形区域分别为Δbac和Δacd；SIGN值为2时，两个三角形区域分别为Δabd和Δbdc。如果选择的三角网格描述包含4个三角形区域，如图3(c)所示，三角网格描述串为“SIGN，D(a)，S(a)，D(b)，S(b)，D(c)，S(c)，D(d)，S(d)，D(o)，S(o)”，其中，SIGN值为3。4个三角形区域为Δabo，Δbco，Δcdo和Δdao。

第二步：对2D视频序列进行普通的视频编码，并对每一幅图像深度模板和平滑度模板的三角网格描述串进行熵编码。将熵编码之后的三角网格描述存储于视频序列对应图像的图像头中。并在视频图像头中定义标志位，若标志位置1，则标识该图像头包含了深度模板的三角网格描述串；否则，该图像头未包含深度模板的三角网格描述串。

第三步：存储并分发码流。

第四步：在解码端，解码2D视频序列中的一帧图像F。

第五步：在解码端，对所述图像F的三角网格描述串进行熵解码，还原三角网格描述串，并重建深度模板M和平滑度模板S。重建深度模板M和平滑度模板S的方法为：跟据三角网格描述串的SIGN字段确定三角网格划分方式，并解析每个三角形区域的顶点深度值和平滑度值；将每个三角形区域的三个顶点的深度值赋予深度模板M上对应像素；深度模板M上其余像素的深度值由像素所在的三角形区域的三个顶点深度值进行线性插值得到；将每个三角形区域的三个顶点的平滑度值赋予平滑度模板S上对应像素；平滑度模板S上区域像素的平滑度值由像素所在三角形区域的三个顶点平滑度值进行线性插值得到。

第六步：在解码端，跟据所述图像F，所述深度模板M和所述平滑度模板生成深度图D。对所述图像F进行简单的图像分割，每一个分割区域的像素划为一组。计算每组像素中，单个像素在深度图D上的深度值的方法为：所述该组像素在深度模板M上对应像素深度值的平均值为d_avg；该组像素中第i个像素在深度模板M上的深度值为d_i，在平滑度模板S上的平滑度值为s_i；所述第i个像素在深度图D上的深度值为：如图4所示，图4(a)为深度模板M，区域K为图像分割后一个分割区域；图4(b)为平滑度模板S；图4(c)中的区域K’为深度图D上同区域K相同的区域。区域K’中每个像素的深度值由上述公式计算得出。

第七步：在解码端，跟据所述图像F和所述深度图D生成另一视点的2D图像F’，进行显示。

第八步：解码端若还剩余图像未解码，则跳回第三步开始处理下一幅图像。

至此，该实施例的所有步骤完成。

该发明通过以上步骤，充分利用了编码之前通过自动、半自动等方式生成的深度模板关键信息，提升解码端全自动2D转3D处理的质量，并节省了传输带宽和存储空间。

Claims

1.一种基于深度模板辅助的2D视频转3D视频的传输及重建方法，其特征在于：包括以下步骤：

第一步：使用自动，半自动或人工方式生成每一幅图像的深度模板和平滑度模板的三角网格描述；

第二步：编码2D视频序列，对三角网格描述进行熵编码，存储于2D视频序列对应图像的图像头中；

第三步：在解码端，解码2D视频序列中的一幅图像F；

第四步：在解码端，解码所述图像F的三角网格描述，重建深度模板M和平滑度模板S；

第五步：在解码端，跟据所述图像F,所述深度模板M和所述平滑度模板S生成深度图D；

第六步：在解码端，跟据所述图像F和所述深度图D生成另一视点的2D图像F’；

2.如权利要求1所述的方法，所述第一步中，生成深度模板的三角网格描述，其特征在于：对序列中某一幅图像F，将图像分割为若干三角形区域，每个三角形区域的三个顶点赋予一个深度值；对所述每一个三角形区域，记录三个顶点的坐标，三个顶点对应的深度值，构成所述图像F的深度模板三角网格描述。

3.如权利要求1所述的方法，所述第一步中，平滑度模板用于标记每个像素处的深度变化剧烈程度；所述生成平滑度模板的三角网格描述，其特征在于：对序列中某一幅图像F，将图像分割为若干三角形区域，每个三角形区域的三个顶点赋予一个平滑度值；对所述每一个三角形区域，记录三个顶点的坐标，三个顶点对应的平滑度值，构成所述图像F的平滑度三角网格描述。

4.如权利要求2所述的方法，所述深度值取值范围为0～255。

5.如权利要求3所述的方法，所述平滑度值取值范围为0～255。

6.如权利要求1所述的方法，所述第四步中，重建所述图像F的深度模板M，其特征在于：深度模板M的大小为图像F的大小，且深度模板M上每一个像素同图像F的每一个像素一一对应；解码得到的深度模板M的三角网格描述中每一个三角区域顶点的深度值赋予深度模板M上对应像素；深度模板M上其余像素的深度值由像素所在的三角形区域的三个定点深度值插值得到。

7.如权利要求1所述的方法，所述第四步中，重建所述图像F的平滑度模板S，其特征在于：平滑度模板S的大小为图像F的大小，且平滑度模板S上每一个像素同图像F的每一个像素一一对应；解码得到的平滑度模板S的三角网格描述中每一个三角区域顶点的平滑度值赋予平滑度模板S上对应像素；平滑度模板S上其余像素的平滑度值由像素所在的三角形区域的三个顶点平滑度值插值得到。

8.如权利要求1所述的方法，所述第五步中，跟据所述图像F，所述深度模板M和所述平滑度模板S生成深度图D，其特征在于：深度图D的大小为图像F的大小，且深度图D上每一个像素同图像F的每一个像素一一对应；对所述图像F进行图像分割，每一个分割区域的像素划为一组；一组像素在深度模板M上对应像素深度值的平均值为d_avg；该组像素中第i个像素在深度模板M上的深度值为d_i，在平滑度模板S上的平滑度值为s_i；该组像素中第i个像素在深度图D上的深度值为：

\frac{d_{a v g} * s_{i} + d_{i} * (255 - s_{i}))}{255} .