CN112543317A

CN112543317A - 高分辨率单目2d视频到双目3d视频的转制方法

Info

Publication number: CN112543317A
Application number: CN202011395559.0A
Authority: CN
Inventors: 姚莉; 李林鑫; 杨俊宴; 吴含前
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-23
Anticipated expiration: 2040-12-03
Also published as: CN112543317B

Abstract

本发明公开一种高分辨率单目2D视频到双目3D视频的转制方法，在深度信息提取阶段，使用现有的3D电影作为源数据集训练一个U型结构的卷积网络，得到性能优越的网络模型对2D视频进行逐帧的深度估计，利用小型的神经网络对深度图进行保边平滑的优化处理。在视点合成阶段，提出无相机参数的基于深度图的视点合成算法，采用对称式的由中间向两边渲染的策略进行左右虚拟视点合成。最后，在图像修复阶段，提出了结合时域信息的基于块匹配的图像修复算法，对左右视点中的裂痕空洞进行填充修复。本发明能够在原2D视频无任何相关参数信息的前提下，对其进行2D到3D的视频转制，不仅可以有效地处理高分辨率画面，且转制效果好、速度快。

Description

高分辨率单目2D视频到双目3D视频的转制方法

技术领域

本发明涉及一种高分辨率单目2D视频到双目3D视频的转制方法，属于图像处理、计算机视觉和计算机图形学领域。

背景技术

近些年来多媒体相关技术和硬件设备快速发展，市场上推出了各种3D和VR设备，如VR眼镜、3D屏幕手机和3D显示器等，与此同时用户对于观看3D视频的娱乐需求也日益增长。然而对于普通的具有拍摄功能的移动设备，只能拍摄普通的单目2D视频，目前市场上缺乏将2D视频转制为3D视频的技术。无论是3D电影荧幕，VR眼镜，或是3D屏幕手机和显示器，都需要有丰富多样的双目3D视频资源作为支撑，来为用户提供具有立体感、沉浸感和视觉效果的3D视频观看体验。单目2D视频到双目3D视频的转制技术正是解决这一问题的关键技术，可以极大地快速地丰富3D视频资源库。

目前主流的3D内容制作分为两种：一种是主动式拍摄获取方法，一种是被动式计算机视觉计算方法。但是主动式方法对双目摄像镜头的要求很高，要保证镜头、光圈、色度一致，两路信号要同步，这使得立体拍摄的设备成本极高。被动式方法是通过后期的2D转制3D技术来完成，即对单目2D视频通过计算机视觉、计算机图形学的方法估算出双目3D视频，这样两路视频输入显示设备，可以获得良好的3D视觉体验效果。

2D视频转制3D视频，需要先有2D视频每帧画面的深度信息作为基础，其次通过基于深度信息的虚拟视点合成方法合成虚拟视点，然后对虚拟视点中的空洞和瑕疵进行填充和修复。对于1080P的高分辨率视频，图像中的像素数量极大，转制技术需要保证输出的双目3D视频同样是原先的高分辨率，并且纹理、色彩和语义信息准确而合理，观看时无模糊、目眩和失真等视觉感觉，画面及内容需要使观看者在感到自然、流畅的基础上，具有立体感、沉浸感的视觉享受。

高分辨率的单目2D视频到双目3D立体视频的自动化转制，目前主要面临以下几个难点：

1、视频画面的深度信息估计不够准确，虚拟视点合成需要质量很高的深度图，其所需深度图需要达到像素级的准确度和平滑度。

2、基于深度信息的虚拟视点合成，由于普通的视频没有相机参数等必要信息，因此进一步提高了对深度图质量的要求，增大了虚拟视点合成的难度。

3、视频是由连续的画面构成的，因此对于双目的虚拟视点的空洞瑕疵的填充和修复，不仅要在单帧画面上表现得清晰细腻和无伪影，而且要在画面连续播放时连贯自然，无整体上和局部上的色彩、纹理的抖动和异变。

4、对于高分辨率的视频画面，其深度信息提取、虚拟视点合成、图像空洞修复难度很大，不仅要保证2D-3D转制的效果，而且要考虑计算机硬件的性能上限和处理速度。

发明内容

本发明解决了上述问题和难点，提供了一种针对高分辨率单目2D视频到双目3D视频的转制方法，这种方法能够对高分辨率的任意的2D视频，在无相机参数和其他信息的前提下，无需人工操作的情况下，全自动地将输入的单目2D视频转制为3D视频，且保持原分辨率与画质效果。

为了实现上述目的，本发明的一种针对高分辨率单目2D视频到双目3D视频的转制方法，包括如下步骤：

步骤1：从现有的3D电影中提取左右帧，采用SGBM算法从中提取和构建RGBD数据集；

步骤2：构建设计U型结构的卷积神经网络及特定的损失函数，在RGBD数据集上对深度估计网络进行训练至收敛；

步骤3：从游戏引擎3D场景模型采集高精度深度图，经过预处理得到粗糙化的深度图FineCoarseDepth数据集，所述预处理包括扭曲、模糊化处理；

步骤4：构建设计U型结构的深度图优化网络及特定的损失函数，在步骤3的FineCoar seDepth数据集上对深度图优化网络进行训练至收敛；

步骤5：将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络，输出得到低分辨率的深度图；

步骤6：将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络，输出得到高分辨率高质量的深度图；

步骤7：进行无相机参数的虚拟视点合成，将中间视点的像素点反坐标变换到Z-Buffer空间，然后进行从Z-Buffer空间到虚拟左视点的投影变换，得到虚拟左视点；再执行从Z-Buffer空间到虚拟右视点的投影变换，得到虚拟右视点；

步骤8：采用结合时域的块匹配图像修复算法，对虚拟左视点和虚拟右视点进行空洞填充和修复；

步骤9：将修复后的虚拟左视点和虚拟右视点进行同帧合并，连续帧的双目视图经过视频合成与压缩，得到双目3D视频。

步骤1中所述从现有的3D电影中提取左右帧的过程中，需要先对现有的3D电影进行双目立体匹配。

步骤2中所述构建设计U型结构的卷积神经网络，是指构建Encoder-Decoder式的U型结构的卷积神经网络，步骤2中所述构建设计特定的损失函数，在RGBD数据集上对深度估计网络进行训练至收敛，是指设计与图像分割结果相结合的损失函数进行训练，利用训练收敛的模型，从分辨率为1920*1080的高分辨率的2D视频帧画面中先提取出分辨率为512*288的低分辨率的深度图；

损失函数

的设计如下所示：

其中：

为对深度图中深度值的主要约束；

为对深度图在不同语义区域之间的高频信息的尺度不变性的约束；

和

为对深度图在整体区域上的低频信息和平滑性的约束，称

为一阶平滑误差，

为二阶平滑误差；

为对图像中特定的语义区域内深度值约束，α₁、α₂、α₄、α₄分别为上述四个损失项约束的系数超参数。

步骤5中所述将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络，输出得到低分辨率的深度图的具体方法是：

在网络训练过程中，促使网络的输出深度值与训练集中的Ground-Truth在数据的绝对值上趋于一致，采用在log域上计算深度值误差的方式，使其具有深度值的相对不变性；引入高频信息的约束项，促使深度图的高频变化与RGB原图一致；采用深度图的平滑性误差，促使深度值在整体上趋于平滑和稳定；引入图像分割的结果计算特定语义区域内的深度值误差，促使每个物体区域内深度值的准确性。

其中

为对深度图中深度值的主要约束，令I为深度图，p为深度图上的一个像素点，N为该深度图中像素点的数量(518*288)，

为网络输出的深度图中的p点的深度值，D_gt(p)为数据集里真实的深度值Ground-Truth，R(p)定义为在log域上的

与D_gt(p)之间的差值，则对深度图中深度值的主要约束

的构成如下：

其中

为对深度图在不同语义区域之间的高频信息的尺度不变性的约束，在网络训练过程中，促使网络的输出深度值在不同物体或其他语义区域之间呈现明显的差异，加强深度图的深度层次关系以及高频信息，对深度图在多个缩放尺度上计算其x方向和y方向的图像梯度误差；

令I_s为特定尺度s下的深度图，p为其中的一个像素点，N_s为在特定尺度下图像的像素数量，R_s(p)即为在s尺度下计算的R(p)，

和

分别为x和y方向的梯度计算，则

的构成表示如下：

令I_s为特定尺度s下的深度图，p为深度图上的一个像素点，N_s为该特定尺度下深度图中的像素数量，

代表对深度图进行梯度误差计算其同时包含了x方向与y方向，为两个方向的梯度值之和，I_s(p)表示p在深度图与2D视频画面对应的RGB图像的像素值，

网络输出深度图中像素点的深度值，则一阶平滑误差

和二阶平滑误差

的构成分别如下，在

中它们共享系数超参数α₃：

其中

为对深度图在特定语义区域之内的深度值的约束，在网络训练过程中，促使网络的输出深度值在特定的语义区域之内保有准确性和一致性，特定语义区域包含人体、动物、车辆和建筑物的语义目标；

利用MSCOCO上训练的Mask-RCNN卷积网络算法对2D视频帧进行图像分割，对其中各显著性区域进行标记和生成掩膜图mask，结合深度图对其特定区域进行深度值的L1误差计算：

令T为该帧画面中经图像分割后的特定语义区域的数量，M_k为特定语义区域的二值掩膜区域mask，每帧画面有T个掩膜区域，k为掩膜图的序号(从0到T-1)，M^k即表示序号为k的掩膜区域，N表示该掩膜区域内的像素总数，*为二值掩膜图与网络输出深度图的逐像素之间的与运算，则

的构成表示如下：

步骤4中所述构建设计U型结构的深度图优化网络及特定的损失函数，在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛，具体方法是：

构建用于深度图优化的卷积神经网络，设计基于L1误差的损失函数，利用FineDepth作为CoarseDepth的Ground-Truth的监督信息，对网络进行训练和调参，得到收敛后的模型，在网络底部输入低分辨率的深度图CoarseDepth，而在网络顶部输入的2D视频帧的RGB图像经过卷积层下采样，与其叠加进行引导，一同经过上采样层，网络输出上采样后的高分辨率的深度图，损失函数的构成表示如下：

其中

为对深度值的直接约束，促使网络输出的高分辨率深度图中的深度值

与输入的监督信息，即低分辨率深度图中的深度值D_gt(i,j))趋近，

为多尺度的平滑性约束；β₁、β₂分别为

和

的系数超参数。

步骤6中所述将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络，输出得到高分辨率高质量的深度图的具体方法是：

对网络输出的深度图在多尺度上进行的梯度计算，促使输出的深度图在整体上平滑且细腻，

和

的构成表示如下：

其中i和j表示深度图中坐标(i,j)的像素点，

表示网络输出的深度图中该像素点处的深度值，D_gt(i,j)表示Ground-Truth监督信息的深度图中该像素点处的深度值，其中深度图的梯度计算G_h[ξ]，对其在不同尺度下的计算规则进行统一，表示如下：

其中h为尺度因子，分别表示跨越{1,2,4,8,16}个像素进行梯度计算，D(i,j)表示深度图中的像素值，其既是网络输出的深度图，也是Ground-Truth监督信息的深度图。

步骤7的具体方法是：设定观看者的左眼位置为(-e,0)，右眼位置为(e,0)，显示器平面在(0,D)水平面处，T_r是观察者右眼虚像在显示平面上的位置，T_l是观察者左眼虚像在显示器上的位置，对于图像中的像素点P，当其深度值为d，由双目成像系统原理得到其关系：

其中Dis_pixel为左右视点之间的视差，e为双眼基线距离的半值，D为人眼与显示屏幕的之间的距离，d为深度图中该像素点的深度值，W_screen为显示器的像素尺寸，其取决于显示平面的尺寸与分辨率，单位为毫米/像素；

此时，将像素点与其深度信息结合于Z-Buffer空间中，然后分别向左、向右合成左、右虚拟视点，双眼虚像像素位移关系表示如下：

其中R_m表示中间视点，即原视频帧的RGB图像；而R_l和R_r分别表示虚拟左、右视点；R、G、B之间形式是一致的，分别表示RGB图像的三个色彩通道；w、h表示像素点在图像中的横、纵坐标。

步骤8中所述采用结合时域的块匹配图像修复算法，对虚拟左视点和虚拟右视点进行空洞填充和修复的具体过程如下：对合成得到的虚拟左视点和虚拟右视点，将其中的空洞区域标记，对不同区域计算优先权，结合时域上前后帧同搜索块的纹理信息对其进行检验与修复，然后在本帧画面中继续搜索最佳匹配块，利用最佳匹配块对空洞区域进行修复，若空洞未修复完全，则重复前过程，直至图像中空洞修复完毕；

所述结合时域的块匹配图像修复算法，具体方法为：

10.1定义优先权计算：

首先令空洞区域为Ω，整幅图像为Ι，已知区域(即非空洞区域)为Φ，即满足关系空洞区域Ω＝I–Φ，在上述优先权计算中，其中P(p)表示优先权，C(p)为置信度项，D(p)为数据项，C(q)为计算像素点q的置信度，当q位于目标区域则为0，当位于已知区域则为1；time表示修复的次数，N是一个固定常数取值100，|Ψ_p|表示目标块Ψ_p的面积，

表示p点的等照度线向量，n_p表示了待修补区域的边界的单位外法向量，α表示归一化因子取值255；

10.2利用时域的帧间信息首先确定帧间的信息相关性，若f(x,y)为当前帧图像，g(x,y)为选取的某一帧参考图像，则分别用R_f(x,y)和R_g(x,y)表示两幅图像，将两幅图像均划分成多个子块，然后为当前帧图像中的每一个子块H_f寻找参考图像中相匹配的块H_g，计算子块H_f与子块H_g中心点间的位移矢量，计算其平均值为E，若E<T，则认为参考图像中存在可用信息，此时冗余信息区域为R_f(x,y)-R_g(x,y)，若E>T，则认为此时场景发生切换，参考图像中不包含可用信息，选择下一帧继续比较，T为阈值；

10.3在使用帧间信息对当前帧图像进行修复时，为方便计算，采用正向和逆向两种顺序进行修复，当正向修复时，在当前帧图像f(x，y，t)之前的N幅图像中选取可用信息，即f(x，y，t-i)，i∈[1，N]，确定N幅图像中是否存在冗余信息区域，并计算R(x，y，t)-R(x，y，t-i)，i∈[1，N]，在冗余信息区域中寻找最佳匹配块；

经过正向帧间修复过程后进行逆向修复，即使用当前帧图像之后的N幅图像中选取可用信息，即f(x，y，t+i)，i∈[1，N]，与正向帧间修复过程类似，确定N幅图像中是否存在冗余信息区域，并计算R(x，y，t)-R(x，y，t+i)，i∈[1，N]，在冗余信息区域中寻找最佳匹配块；

10.4当执行块搜索匹配过程时，即为待修复的目标块Ψ_p寻找最为匹配的块Ψ_q，匹配准则如下：

其中d(Ψ_p，Ψ_q)表示的是相似度函数，等于目标块Ψ_p和匹配块Ψ_q中对应的已知像素之间做差得到的平方和，如下：

d(Ψ_p，Ψ_q)＝Σ[(I_r-I′_r)²+(I_b-I′_b)²+(I_g-I′_g)²]

其中I_r和I′_r分别对应了目标块Ψ_p和匹配块Ψ_q中对应的已知像素点，下标{r，g，b}表示其RGB三个通道上的色彩分量。

有益效果：

1.本发明的各个部分包括了，单目深度信息提取，深度图上采样优化，无相机内参的虚拟视点合成，结合时域的基于块匹配的图像修复。在输入单目2D视频后，到双目3D视频转制完成的过程之间，所有的过程及处理全部由计算机程序自动化地完成而无人工参与。本发明2D-3D视频转制速度较快，对于1080P分辨率的源视频，转制的均摊速度可达到10～20fps。当输入单目2D视频为1080P分辨率的高清单目2D视频，输出即为1080P分辨率的高清双目3D视频，其具有左右两路视频，可在任意3D视频播放设备上进行播放。

2.对于1920*1080的源画面RGB图像Im，首先在512*288的较低的分辨率下，利用本发明的深度估计网络模型，快速从Im中提取出深度信息Dm(低分辨率的深度图)，且上采样优化为原尺寸1920*1080的高分辨率高质量的深度图D′_m。随后，基于I_m和D′_m进行本发明的无相机内参虚拟视点合成方法，得到带有空洞的左右虚拟视点I_l和I_r，其分辨率均为1920*1080。最后利用本发明的结合时域的基于块匹配的图像修复方法，分别对I_l和I_r进行空洞填充和图像修复，由于采用了结合时域的策略，其空洞修复不仅在单帧上纹理清晰合理、无伪影，而且在连续帧上效果稳定、无抖动，并且修复速度更快。

3.本发明直接对已经存在的普通的2D视频进行3D转制而得到3D视频，既无需昂贵的专业的3D摄影设备，也无需知道2D视频的拍摄设备的相机参数；本发明在单目2D视频到3D视频的转制过程中，无需人工参与，均由计算机程序自动完成；本发明对于高分辨率的视频的转制性能优越，深度信息提取的由低到高以及结合时域的图像修复方法，比现有技术速度更快，效果更好；本发明对于各种不同画面内容不同分辨率视频的转制均效果优秀，适用范围广泛。

附图说明

图1为本发明的整体流程图。

图2为本发明的深度图信息提取网络的模型细节图。

图3为本发明的深度图优化网络的模型细节图。

具体实施方式

下面结合附图对本发明进行详细阐述，具体步骤如下。

实施例1：

步骤1：从3D电影的左右两路视频中提取左右帧画面，将其分辨率缩放到512*288。然后，计算图像的纹理色彩复杂度C和亮度指标L，对于

和Y处于

的图像对，其纹理和色彩信息丰富且亮度合适，予以保留并整理。

和

分别为平均的纹理复杂度和亮度，其取决于所有提取的图像对的纹理复杂度和亮度的均值。h和w为图像尺寸，

为像素点在(i,j)坐标R通道的色彩分量，亮度Y即计算YUV色彩空间下的亮度通道分量，计算规则如下：

Y＝0.299R+0.587G+0.114B

采用SGBM算法对图像对进行双目立体匹配，SGBM算法作为全局的立体匹配算法，可从左右视点图像中计算出其视差图，将视差值根据视差与深度的反比例关系，转换为相对性深度值，并将深度值归一化至区间(0，10]。将原RGB图像与其深度图一一对应整理为数据集，称之为RGBD数据集，共约8×10⁵对图像；

步骤2：构建基于Inception模块的Encoder-Decoder形式的U型结构的卷积神经网络，称为深度估计网络。网络在整体上分为两个阶段：网络整体上先进行四个阶段的下采样再进行四个阶段的上采样。

前阶段对输入的RGB图像进行四次下采样并提升通道维度数，每一个下采样层由两个Inception模块和一个全局平均池化层AvgPool组成。每个Inception模块包含了4个并联整合输出的卷积层，分别为采用1×1、3×3、5×5、7×7卷积核，每个卷积层后使用了BatchNormalization批归一化和ReLu非线性激活单元。而AvgPool的池化核为2×2，即每经过一个下采样层，特征图的长宽均变为输入时的1/2。

后阶段对特征图进行四次上采样并降低通道维度数至1(输出网络输出单通道的超像素图像，即为深度图)。每个上采样层由两个Inception模块和一个双线性上采样层BiLinearUpsampling构成，上采样缩放因子为2，即每次特征图长宽扩大至输入的2倍。在前、后阶段的对应上、下采样层之间，采用一个Inpcetion卷积模块进行了跳路连接。

设计深度无关和尺度不变性的损失函数

损失函数

由四部分构成：深度值约束项、高频保有项、低频平滑项以及语义区域增强项。系数超参数α₁、α₂、α₃、α₄在训练的过程中，其值分别取0.001、1.0、0.5以及0.002。

表示如下：

其中

为对深度图中深度值的主要约束，在网络训练过程中。我们采用了在log域上计算深度值误差的方式，使其具有深度值的相对不变性。I为深度图，p为深度图上的一个像素点，N为该深度图中像素点的数量(518*288)，

为网络输出的深度图中的p点的深度值，D_gt(p)为数据集里真实的深度值Ground-Truth，则

的构成如下：

其中

为对深度图在不同语义区域之间的高频信息的尺度不变性的约束。对深度图在4个缩放尺度上(1/2，1/4，1/8以及原尺寸)上计算了其x方向和y方向的图像梯度误差。令I_s为特定尺度s下的深度图，p为其中的一个像素点，N_s为在特定尺度下图像的像素数量，R_s(p)即为在s尺度下计算的R(p)，

和

分别为x和y方向的梯度计算，则

的构成表示如下

其中

和

为对深度图在整体区域上的低频信息和平滑性的约束。

和

分别为对网络输出深度图进行一阶和二阶的梯度计算，称之为平滑误差。令I为深度图，p为深度图上的一个像素点，N_s为该特定尺度下深度图中的像素数量，

代表对深度图进行梯度误差计算其同时包含了x方向与y方向，I_s(p)表示2D视频画面中RGB图像的像素点的像素值，

网络输出深度图中像素点的深度值，则一阶平滑误差

和二阶平滑误差

的构成分别如下，在

中它们共享系数超参数α₃：

其中

为对深度图在特定语义区域之内的深度值的约束。利用MSCOCO上训练的Mask-RCNN卷积网络算法对2D视频帧进行图像分割，对其中各显著性区域进行标记和生成掩膜图mask，结合深度图对其特定区域进行深度值的L1误差计算。令T为该帧画面中经图像分割后的特定语义区域的数量，M_k为特定语义区域的二值掩膜区域mask，即每帧画面有T个掩膜区域，k为掩膜图的序号(从0到T-1)，M^k即表示序号为k的掩膜区域，N表示该掩膜区域内的像素总数，*为二值掩膜图与网络输出深度图的逐像素之间的与运算，则

的构成表示如下：*为二值掩膜图与网络输出深度图的逐像素之间的与运算，则

的构成表示如下：

基于上述构建网络及设计损失函数，在步骤1中的RGBD数据集上，用上述损失函数对深度估计网络模型进行训练，直至模型收敛。

步骤3：从游戏引擎的3D场景模型数据集中采集高精度的深度图，将逼真于现实场景的RGB图像及其精确深度图进行保留并整理，对保留的精确深度图进行扭曲、添噪、模糊化处理随后进行缩放至512*288分辨率，而RGB图像及高分辨率深度图缩放至2048*1152分辨率。添噪及模糊化处理采用3*3窗口的高斯滤波进行，基于二维高斯函数，其中x、y为窗口中的像素坐标，σ为窗口内所有像素值的标准差：

将RGB图像、精确深度图及其处理后的粗糙深度图一一对应，组织整理后得到深度图FineCoarseDepth数据集；

步骤4：构建基于跨步卷积的深度图优化网络，网络在整体上分为两个阶段：前阶段对输入的RGB图像进行两次下采样并提升通道维度数，并在网络底部与粗糙深度图叠加；后阶段进行两次上采样并降低通道维度数至1(输出即优化后的高分辨率的深度图)；前后阶段之间的对应的下、上采样层之间采用普通的卷积层进行短路跳接。每个下采样层由普通3×3卷积层和步长为2的跨步卷积层构成，每经过一个下采样层特征图边长缩小为输入的1/2；每个上采样层由普通3×3卷积层和放大因子为2的最近邻上采样层NearestUpSampling构成，每经过一个上采样层，特征图边长放大为2倍。

设计基于L1误差的损失函数，由两部分构成：基于L1的深度值约束项、低频平滑项，利用FineDepth作为CoarseDepth的Ground-Truth的监督信息。网络的结构及模块细节如附图2所示，在网络底部输入低分辨率的深度图CoarseDepth，而在网络顶部输入的2D视频帧的RGB图像经过卷积层下采样，与其叠加进行引导，一同经过最近邻上采样层，网络输出上采样后的高分辨率的深度图。损失函数的构成表示如下：

其中

与输入的监督信息(即低分辨率深度图中的深度值D_gt(i,j))趋近。

为多尺度的平滑性约束，对网络输出的深度图在多尺度上(1，1/2，1/4，1/8及1/16)进行的梯度计算，促使输出的深度图在整体上平滑且细腻。β₁、β₂分别为

和

的系数超参数，在网络的训练过程中其值分别取0.001和0.01。

和

的构成表示如下：

其中深度图的梯度计算G_h[ξ]，对其在不同尺度下的计算规则进行统一，表示如下：

在步骤3中的FineCoarseDepth数据集上，用上述损失函数对深度图优化网络模型进行训练直至收敛；

步骤5：将单目2D视频进行分帧，若图像的整体亮度较高，则直接将图像数据输入深度估计网络，若图像的整体亮度较低，则先进行gamma校正亮度增强处理，gamma值为1/2.2，再将图像数据输入深度估计网络。分帧后RGB图像的分辨率为1920*1080，则将其缩放到512*288，并将0～255的整型值域归一化到0～1.0的浮点型值域，然后将数据输入到深度估计网络中，网络输出得到低分辨率低质量的粗糙的深度图，其分辨率为512*288；

步骤6：将步骤5中低分辨率深度图数据，在步骤4中的深度优化网络的底部输入，而在网络的顶部输入低分辨率深度图所对应的高分辨率RGB图像数据，RGB图像被放缩到4×4的低分辨率深度图的大小，即分辨率为2048*1152。

高分辨率RGB图像经过两个下采样层后，特征图尺寸变为512*288通道数为C，此时同尺寸的低分辨率深度图经过普通卷积层提升其通道数为C而尺寸不变，将二者在通道尺度上进行叠加，随后一起输入第一个上采样层。

高分辨率RGB图像介入了对低分辨率深度图的上采样，起到了引导的作用。网络最终输出上采样后的高分辨率的高质量的深度图，将其缩小到1920*1080分辨率，并归一化至整型的0～255值域上，将用于后续的虚拟视点合成；

步骤7：将原单目2D视频帧的高分辨率RGB图像看作中间视点，结合其对应的高分辨率深度图提供的深度信息，对中间视点的每个像素进行反变换，从图像平面到基于相机坐标系的Z-Buffer空间，得到中间视点的所有像素点在Z-Buffer空间中对应的坐标集合，它们除了RGB三个通道的色彩分量值还包含一个理论上的距离中间视点平面的深度值。该深度值d由步骤6中得到的高分辨率深度图中相应像素点的深度值Z所确定，其中Z_max和Z_min分别为同一帧深度图中，最大的深度值和最小的深度值：

在虚拟视点合成与渲染绘制过程中，无需相机参数等信息。视频中的所有物体都显示在显示器平面上，左右眼中看到的虚像位置是相同的，不存在视差，无效果。显示器是通过左右眼视差来达到显示效果的，显示器平面被视为零视差平面，只有在左右眼中成像位置相同的物体才会显示在该平面上。设定观看者的左眼位置为(-e,0)，右眼位置为(e,0)。显示器平面在(0,D)水平面处。T_r是观察者右眼虚像在显示平面上的位置，T_l是观察者左眼虚像在显示器上的位置，对于图像中的物体P(像素点P)，当其深度值为d，由双目成像系统原理得到其关系：

而W_screen本质上为抽象化的参数，定义为显示平面的像素尺寸，其为屏幕边长与屏幕分辨率的像素数之间的比值，W_screen取值设置为3.0，减小W_screen即增加了合成的虚拟左右视点之间的双目视差，反之亦然。将中间视点的像素点在标记为Z-Buffer空间中带有上述深度值的像素坐标p(x,y,d)，并按照d的大小，由大到小地投影到左虚拟视点平面和右虚拟视点平面。

步骤8：将Z-Buffer空间中的像素坐标，以6.5cm/2的人眼双目基线距离(经验值，大部分人类的双眼瞳孔距离在6～7cm之间)，在尺度无关性的深度信息及无相机内参的情况下，将其进行从Z-Buffer空间到虚拟左视点平面的投影变换。在对左虚拟视点进行渲染合成的过程中，Z-Buffer空间中深度值较大的像素点集合将优先于深度值较小的点被投影和渲染。将所有像素完成渲染后即得到虚拟左视点。

将Z-Buffer空间中的，按深度值d由大到小，先后投影到左、右虚拟视点平面时，中间视点I_m(w,h,R_m,G_m,B_m)与左右虚拟视点I_l(w,h,R_l,G_l,B_l)和I_r(w,h,R_r,G_r,B_r)存在的映射关系如下，其中w和h表示图像中的像素横纵坐标，R、G、B表示该坐标像素点上的色彩分量，表示Z-Buffer空间中坐标(w,h,d)点的深度值d：

步骤9：执行与步骤8中形式对称、方向相反的投影变换和视点渲染过程，即从中间视点渲染得到虚拟右视点。

步骤10：对虚拟视点中的空洞采用结合时域的块匹配图像修复算法，在当前帧的前后数帧的相同区域执行局部块匹配搜索，计算信息冗余度及块相似度函数，若不满足修复填充条件，则在本帧画面中执行全局块匹配搜索，对虚拟视点进行图像修复。此过程将反复迭代执行，直至所有空洞区域被填充完毕。

结合时域的块匹配图像修复算法，具体过程如下：对合成得到的左右虚拟视点，将其中的空洞区域标记，对不同区域计算优先权，结合时域上前后帧同搜索块的纹理信息对其进行检验与修复，然后在本帧画面中继续搜索最佳匹配块，利用最佳匹配块对空洞区域进行修复。若空洞未修复完全，则重复前过程，直至图像中空洞修复完毕。具体地，步骤10结合时域的块匹配图像修复算法，按照如下方法和规则进行：

10.1定义优先权计算：

time表示修复的次数，N是一个固定常数取值100，|Ψ_p|表示目标块Ψ_p的面积，

表示p点的等照度线向量，n_p表示了待修补区域的边界的单位外法向量，α表示归一化因子取值255。

10.2利用时域的帧间信息首先确定帧间的信息相关性，用f(x，y)表示当前帧图像，g(x，y)表示选取的某一帧参考图像，分别用R_f(x，y)和R_g(x，y)表示。将两幅图像均划分成多个子块，然后为当前帧图像中的每一个子块H_f寻找参考图像中相匹配的块H_g。计算子块H_f与子块H_g中心点间的位移矢量。计算其平均值为E，若E＜T，则认为参考图像中存在可用信息，此时冗余信息区域为R_f(x，y)-R_g(x，y)。若E＞T，则认为此时场景发生切换，参考图像中不包含可用信息，选择下一帧继续比较。

10.3在使用帧间信息对当前帧图像进行修复时，为方便计算，采用正向和逆向两种顺序进行修复。当正向修复时，在当前帧图像f(x，y，t)之前的N幅图像中选取可用信息，即f(x，y，t-i)，i∈[1，N]。确定N幅图像中是否存在冗余信息区域，并计算R(x，y，t)-R(x，y，t-i)，i∈[1，N]，在冗余信息区域中寻找最佳匹配块。

经过正向帧间修复过程后进行逆向修复，即使用当前帧图像之后的N幅图像中选取可用信息，即f(x，y，t+i)，i∈[1，N]，与正向帧间修复过程类似，确定N幅图像中是否存在冗余信息区域，并计算R(x，y，t)-R(x，y，t+i)，i∈[1，N]，在冗余信息区域中寻找最佳匹配块。

d(Ψ_p，Ψ_q)＝∑[(I_r-I′_r)²+(I_b-I′_b)²+(I_g-I′_g)²]

10.5根据上述规则，执行如下过程：

1)确定空洞区域Ω：整幅图像为I，已知区域(即非空洞区域)为Φ，则空洞区域Ω＝I-Φ：

2)确定计算优先权的块的大小，设定为9×9，并计算优先权，优先进行已知纹理信息和结构信息较多的块的修复；

3)自适应传播纹理信息和结构信息，找到优先值最大的模板的中心点p∈Ω，然后在其适当大小的邻域内自适应寻找最佳匹配块Ψ_q∈Φ，使得d(Ψ_p，Ψ_q)的值最小，然后用Ψ_q中的点的色值对应替代Ψ_p中的点。

4)在Ψ_q填充完新的像素后，对优先权函数进行更新：具有最高优先权的块已经被填充，那么被填充的像素点就由目标区域变为已知区域。

5)置信度更新了之后，一个填充过程就完成了。这时，待修复区域的边缘发生了改变，这时就得到了一个新的待修复边缘。重复上述2-4过程，直至整个缺损区域修复完毕。

步骤11：将空洞修复后的左右虚拟视点进行同帧合并，得到双目视图，将连续帧的双目视图进行视频合成与压缩，得到双目3D视频。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代均属于本发明的保护范围。

Claims

1.一种高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：所述方法包括以下步骤：

步骤4：构建设计U型结构的深度图优化网络及特定的损失函数，在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛；

2.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤1中所述从现有的3D电影中提取左右帧的过程中，需要先对现有的3D电影进行双目立体匹配。

3.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤2中所述构建设计U型结构的卷积神经网络，是指构建Encoder-Decoder式的U型结构的卷积神经网络，步骤2中所述构建设计特定的损失函数，在RGBD数据集上对深度估计网络进行训练至收敛，是指设计与图像分割结果相结合的损失函数进行训练，利用训练收敛的模型，从分辨率为1920*1080的高分辨率的2D视频帧画面中先提取出分辨率为512*288的低分辨率的深度图；

损失函数

的设计如下所示：

其中：

为对深度图中深度值的主要约束；

和

为对深度图在整体区域上的低频信息和平滑性的约束，称

为一阶平滑误差，

为二阶平滑误差；

4.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤5中所述将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络，输出得到低分辨率的深度图的具体方法是：

其中

与D_gt(p)之间的差值，则对深度图中深度值的主要约束

的构成如下：

其中

和

分别为x和y方向的梯度计算，则

的构成表示如下：

网络输出深度图中像素点的深度值，则一阶平滑误差

和二阶平滑误差

的构成分别如下，在

中它们共享系数超参数α₃：

其中

的构成表示如下：

5.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤4中所述构建设计U型结构的深度图优化网络及特定的损失函数，在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛，具体方法是：

其中

与输入的监督信息，即低分辨率深度图中的深度值D_gt(i，j))趋近，

为多尺度的平滑性约束；β₁、β₂分别为

和

的系数超参数。

6.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤6中所述将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络，输出得到高分辨率高质量的深度图的具体方法是：

和

的构成表示如下：

其中i和j表示深度图中坐标(i，j)的像素点，

表示网络输出的深度图中该像素点处的深度值，D_gt(i，j)表示Ground-Truth监督信息的深度图中该像素点处的深度值，其中深度图的梯度计算G_h[ξ]，对其在不同尺度下的计算规则进行统一，表示如下：

其中h为尺度因子，分别表示跨越{1，2，4，8，16}个像素进行梯度计算，D(i，j)表示深度图中的像素值，其既是网络输出的深度图，也是Ground-Truth监督信息的深度图。

7.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤7的具体方法是：设定观看者的左眼位置为(-e，0)，右眼位置为(e，0)，显示器平面在(0，D)水平面处，T_r是观察者右眼虚像在显示平面上的位置，T_l是观察者左眼虚像在显示器上的位置，对于图像中的像素点P，当其深度值为d，由双目成像系统原理得到其关系：

8.根据权利要求1所述的高分辨率单目2D视频到双目3D视频的转制方法，其特征在于：步骤8中所述采用结合时域的块匹配图像修复算法，对虚拟左视点和虚拟右视点进行空洞填充和修复的具体过程如下：对合成得到的虚拟左视点和虚拟右视点，将其中的空洞区域标记，对不同区域计算优先权，结合时域上前后帧同搜索块的纹理信息对其进行检验与修复，然后在本帧画面中继续搜索最佳匹配块，利用最佳匹配块对空洞区域进行修复，若空洞未修复完全，则重复前过程，直至图像中空洞修复完毕；

所述结合时域的块匹配图像修复算法，具体方法为：

10.1定义优先权计算：

首先令空洞区域为Ω，整幅图像为I，已知区域(即非空洞区域)为Φ，即满足关系空洞区域Ω＝I-Φ，在上述优先权计算中，其中P(p)表示优先权，C(p)为置信度项，D(p)为数据项，C(q)为计算像素点q的置信度，当q位于目标区域则为0，当位于已知区域则为1；time表示修复的次数，N是一个固定常数取值100，|Ψ_p|表示目标块Ψ_p的面积，

10.2利用时域的帧间信息首先确定帧间的信息相关性，若f(x，y)为当前帧图像，g(x，y)为选取的某一帧参考图像，则分别用R_f(x，y)和R_g(x，y)表示两幅图像，将两幅图像均划分成多个子块，然后为当前帧图像中的每一个子块H_f寻找参考图像中相匹配的块H_g，计算子块H_f与子块H_g中心点间的位移矢量，计算其平均值为E，若E＜T，则认为参考图像中存在可用信息，此时冗余信息区域为R_f(x，y)-R_g(x，y)，若E＞T，则认为此时场景发生切换，参考图像中不包含可用信息，选择下一帧继续比较，T为阈值；

d(Ψ_p，Ψ_q)＝∑[(I_r-I′_r)²+(I_b-I′_b)²+(I_g-I′_g)²]