CN115063303A

CN115063303A - 一种基于图像修复的图像3d化方法

Info

Publication number: CN115063303A
Application number: CN202210551793.0A
Authority: CN
Inventors: 丁齐星; 卢湖川; 王一帆
Original assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Current assignee: Dalian Weishi Technology Co ltd; Dalian University of Technology
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-16

Abstract

本发明提供一种基于图像修复的图像3D化方法，包括：获取待处理图像，通过预先训练的深度提取模型获取图像深度；基于预设的深度边缘值获取初级背景边缘图，再对所述初级背景边缘图像进行滤波和连通域检测处理获取精确背景边缘图；根据预设的3D效果确定所述精确背景边缘图中需要修复的图像范围，并由所述待处理图像中获取修复处理所用的内容素材；将所述待处理图像、精确背景边缘图、需要修复的背景图像范围以及内容素材输入预先训练的图像修复模型中，从而生成修复的背景图像；将前景图像与修复的背景图像结合，按照预设的3D效果输出转换视频。本发明能够更广泛地应用于实际场景中，鲁棒性强，同时在前背景复杂的图像上也能取得良好的处理效果。

Description

一种基于图像修复的图像3D化方法

技术领域

本发明涉及图像处理技术领域，具体而言，尤其涉及一种基于图像修复的图像3D化方法及装置。

背景技术

3D图像技术，即用相机捕捉世界的景象并使用基于图像的渲染技术合成新的视角。这种图像可以提供一种比2D图像更身临其境的体验。然而，经典的基于图像的重建和渲染技术，需要涉及多幅图像的复杂捕捉设置，抑或使用特殊的硬件。而随着手机相机性能的不断提高，使用手机图像进行 3D图像生成的工作成为可能。通过对双镜头手机获得的图像进行处理，可以得到RGB-D(颜色和深度)输入图像，通过RGB-D图像生成新的视图，从而渲染生成3D图像。

传统的图像3D化方法多数关注于插值设置，通过插值进行光场渲染，或从稀疏视图重建场景几何。虽然这些方法也可以生成高质量的新视图，但主要通过合成相应的输入像素来实现，且通常需要多个有效的输入视图。

目前应用深度学习技术来进行视图合成也是图像3D化处理的营救热点。将视图合成视作一个学习的问题，通过捕获图像大量的场景，将每个场景作为真值,训练模型,预测其他的一个或多个视图。最近的工作已经探索了许多深度网络架构、场景表示和用于学习视图合成的应用场景。2018年 Zhou等人在SIGGRAPH会议的‘Stereo Magnification:Learning view synthesis using multiplane images’，使用了一种fronto-parallelmulti-plane representation(MPI)图像结构，它是由小基线双摄像机立体声输入合成的。然而，MPI在倾斜的表面上产生问题。此外，过度的冗余在多平面表示使得它的内存和存储效率低，渲染成本高。Facebook也在2018年提出了3D照片的算法，使用分层深度图像(LDI)表示法，由于稀疏性更紧凑，可以转换为轻量级网格表示法进行渲染。在遮挡区域的颜色和深度合成使用启发式，优化快速运行的移动设备。不过，它使用了一种各向同性的扩散算法来填充颜色，这会产生过于平滑的结果，并且无法推断纹理和结构。

尽管现有的图像3D化方法已经取得了一定效果，但面对实际应用中的复杂情况，处理能力依然有所欠缺。轻量级算法更倾向于端到端的结构，但无法应对复杂场景，最终结果失真明显。而分模块的算法则过于冗余，难以在轻量级系统如手机端推广应用。

发明内容

本发明提供一种基于图像修复的图像3D化方法，能够应对各种复杂场景，且图像失真程度稀少。

本发明采用的技术手段如下：

一种基于图像修复的图像3D化方法，包括：

S1、获取待处理图像，通过预先训练的深度提取模型对所述待处理图像进行深度提取，从而获取图像深度，所述待处理图像为双目图像；

S2、基于预设的深度边缘值对待处理图像进行前景和后景的划分，从而获取初级背景边缘图，再对所述初级背景边缘图像进行基于滤波和连通域检测的图像后处理，从而获取精确背景边缘图；

S3、根据预设的3D效果确定所述精确背景边缘图中需要修复的图像范围，并由所述待处理图像中获取修复处理所用的内容素材，所述3D效果被设置为通过前景图像与背景图像之间的相对位置表征；

S4、将所述待处理图像、精确背景边缘图、需要修复的背景图像范围以及内容素材输入预先训练的图像修复模型中，从而生成修复的背景图像；

S5、将前景图像与修复的背景图像结合，按照预设的3D效果输出转换视频。

进一步地，通过预先训练的深度估计神经网络对所述待处理图像进行深度提取，包括：

基于深度估计神经网络对双目图像进行左右视图的匹配，进而获取匹配视差图；

基于以下计算获取深度图：

其中，f表示焦距，b表示基线距离，ps表示像素距离，disp表示匹配视差图。

进一步地，所述深度估计神经网络训练时，通过对训练数据进行随机的小幅度旋转、亮度和对比度调节以及输入图像分块的方式进行数据增强处理，再用处理后的训练数据重新训练深度估计神经网络。

进一步地，所述图像修复模型包括边缘补全网络以及图像修复网络；所述边缘补全网络和图像修复网络均采用结构相同的生成对抗网络，所述生成对抗网络包括生成器和鉴别器；所述生成器包括三次下采样、中间层以及与三次下采样对称的三次上采样，所述中间层包括具有空洞卷积的8个残差块结构；所述鉴别器包括五层卷积层。

进一步地，将前景图像与修复的背景图像结合，按照预设的3D效果输出转换视频，包括：

对所述深度图进行降噪处理，通过准确的深度边缘来区分不同深度下的目标；

对处于不同深度层的像素分成不同的图连通域，基于语义分割算法将图像分割成不同目标区域的组合；

基于图像修复网络进行缺失背景修复；

通过图像渲染将图像前景和修复后的图像背景合成视频。

较现有技术相比，本发明具有以下优点：

本发明能够更广泛地应用于实际场景中，鲁棒性更强，对于一些前背景复杂的图像，也能够很好得处理。对于一对双目图像，本文通过更优结构的深度估计网络预测其深度值，由于进行了针对性的训练和使用神经网络结构搜索，该网络能适应许多复杂的实际应用场景。为了处理一些更复杂的存在光照遮挡问题的场景，本文采用了多样化的深度后处理方式，使用多种图像处理方式，并结合图像分割网络对不同场景进行深度的精细化调整。在得到性能优异的深度图后，本网络使用了专用的图像修复网络，根据场景分类，将2D图像还原成3D场景，并生成视频效果，拓展成相机的特效。本专利还引入了硬件加速算法，能够加速整个算法流程，专利富有实际应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明种基于图像修复的图像3D化方法流程图。

图2为本发明深度估计模块的网络架构图。

图3为本发明NAS的cell组成示意图。

图4为本发明NAS的网络搜索空间示意图。

图5为本发明边缘补全网络架构图。

图6为本发明图像修复网络架构图。

图7为本发明残差块的结构示意图。

图8为本发明训练掩膜的生成过程示意图。

图9为本发明图像修复网络训练情况。其中从左至右分别为：原始图像，保留部分与被遮盖区域，补全的图像边缘信息，图像修复网络输出图像，最终输出图像。

图10为本发明深度降噪的处理流程图。

图11为本发明中DeeplabV3+网络架构图。

图12为本发明利用语义分割方法分层构建深度图像结构方法示意图。

图13为本发明完整图像修复算法的示意图。

图14为swing-x、dolly-zoom-in、circle三种运镜方式中相机在x轴上的变化的示意图。

图15为mesh图的平面展示。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的技术方案是依据一个观测到的结论：图像深度差异较大的区域，往往是图像前背景划分的临界区域，如果前景移动，则临界区域附近会出现缺失，而填补这部分确实后，可以模拟前景移动且背景略微变化的效果，还能根据具体期望的3D效果做出不同的变化。本发明方法与其他方法不同，一方面是分步处理，方法可解释性更强，另一方面在每一步上都做了更多的优化处理，使得方法在面对实际问题上有更强的适应性。

如图1所示，本发明公开了一种基于图像修复的图像3D化方法，主要包括以下步骤：

S1、获取待处理图像，通过预先训练的深度提取模型对所述待处理图像进行深度提取，从而获取图像深度，所述待处理图像为双目图像。

具体来说，深度图作为一种重要的图像信息被广泛的应用于图像处理的多个领域，如3D重建、图像理解等。深度图可以提供场景中的纵深信息，作为图片信息的第四个维度，是2D向3D转化的关键。本发明使用神经网络来预测图像深度，双目深度网络主要是通过对左右视图的匹配，由于不同深度点的视差是不一样的，所以得到左右视图的匹配视差图(disp)，即可得到深度图(Depth)：

其中，f表示焦距，b表示基线距离，ps表示像素距离。在通常使用的情况下，直接对视差图取倒数即可作为待使用的深度图。

双目深度网络依赖于神经网络对于图像特征信息的提取能力，而双目网络需要对左右特征进行匹配后得到3D的损失块，又被称为Loss Volume，之后再对其进行解码得到其中一幅图的深度图，本方法默认预测左图的深度图。

S2、基于预设的深度边缘值对待处理图像进行前景和后景的划分，从而获取初级背景边缘图，再对所述初级背景边缘图像进行基于滤波和连通域检测的图像后处理，从而获取精确背景边缘图。

S3、根据预设的3D效果确定所述精确背景边缘图中需要修复的图像范围，并由所述待处理图像中获取修复处理所用的内容素材，所述3D效果被设置为通过前景图像与背景图像之间的相对位置表征。

S4、将所述待处理图像、精确背景边缘图、需要修复的背景图像范围以及内容素材输入预先训练的图像修复模型中，从而生成修复的背景图像。

具体来说，图像修复是一项在缺失区域中合成替代内容的任务，以使修改在视觉上真实，语义上正确。它允许删除令人分心的对象或修饰照片中不需要的区域。它还可以扩展为包括裁剪、旋转、拼接、重新定位、重新合成、压缩、超分辨率、协调和许多其他功能。研究中，主要是对受到损坏的图像进行修复重建，同时保证图像修复后的效果。传统方法使用高斯滤波或者纹理合成的方法进行修复。前者仅考虑了破损区域边缘一周的图像颜色值，所以能处理的损坏区域小，后者是由外向内逐步修复图像，所以效率很差。基于深度学习的方法主要是利用GAN(对抗生成网络)，先修复缺损的特征，之后将特征还原为修复图像。图像修复网络与深度网络不同，由于实际问题中缺失的部分是不可知的，所以在训练网络时，需要用随机的图像遮罩(即 mask)以增强网络的鲁棒性。

具体的方法是先对输入图像利用canny算子提取边缘，将其与mask，转化为灰度图的图像输入，补全被mask遮盖的边缘。之后，补全的边缘，与输入图像和mask一同作为inpainting网络的输入，对mask区域进行补全。具体使用时，以f指代修复网络，网络输入为：RGB原图，二进制mask图，通过深度图获得的边缘(edge)，用于修复的局部图像内容(context)。输入时按照RGB，context，mask，edge的顺序级联，整体作为修复网络输入，网络输出结果取mask区域，与RGB原图相加，作为最终输出：

Output＝RGB+mask×f(RGB,context,mask,edge) (2)

具体来说，在进行3D化处理前，首先要对深度进行一定的后处理。本方法中主要加入了各种图像滤波手段来进行处理，包括保边滤波、连通域检测等，主要是用于从深度图到边缘图的转换。考虑到后处理时可能会有非预期的错误，还需要对局部断层处进行判断然后插值，以保持边缘的连续性。同时，为了简化实际场景中背景的复杂性，本方法把实际中选择了常见的20 多种类别，训练了一个像素级图像分割网络，这样能提供额外的前背景判别信息。在得到了图像前景和修复后的图像背景之后，通过图像渲染合成视频。由于整个网络的输入输出都会被转换为图结构，所以使用网格表示法即可进行渲染。

下面通过一个具体的应用实例，对本发明的方案和效果做进一步说明。

本实施例公开了一种基于图像修复的图像3D化方法，主要包括图像深度估计步骤、图像修复步骤以及3D化处理步骤。

(1)图像的深度估计

本算法以神经网络结构搜索技术为基础，通过网络结构搜索寻找出了更高效的双目深度估计网络结构。对于搜索得到的网络结构，我们首先在公开数据集上先进行预训练，之后在真实图像场景数据和公开数据同时训练，再加入多种不同的训练策略，使得训练得到的模型更具有鲁棒性，能够适应多种不同的场景的深度补全任务。深度估计模块的网络图如图2所示。

训练阶段分为两部分。首先，在特定的公开数据集上进行深度补全模型的搜索，确定特征提取网络和匹配网络的结构。搜索阶段输入双目图像，输出损失，优化中间的结构选择，以此为根据调整各备选网络结构的选择系数。搜索之后，进入常规的网络训练阶段。在确定网络结构后，同样以双目图像为输入，优化各模块的参数，进而训练出最终使用的双目深度估计网络。

在测试阶段，先通过特征提取网络提取输入图像中更有表征能力的语义特征，然后通过匹配网络进行代价匹配得到3维Cost Volume。Cost Volume 用于双目深度估计任务中的双目图像匹配，通过计算双目图像的左右眼输入图像视差，利用得到的视差通过一系列优化，最后利用回归得到最终的双目深度图。

神经网络搜索的基本单元可以被称为1个cell，其组成如图3所示。每个 cell都是具有N个节点的全连通有向无环图(Directed Acyclic Graph，DAG)。其中，每个cell包含两个输入节点，一个输出节点和三个中间节点。特征网络的备选操作有3x3的2D卷积和跳层连接，匹配网络的备选操作有3x3的 3D卷积和跳层连接。在神经网络的搜索阶段，通过参数矩阵同时考虑所有备选操作，通过softmax函数将所有的备选操作量化为概率进行选择。

在网络层面上，由于每个cell并不改变输入的分辨率，所以要考虑常规网络中的上下采样问题，即图像分辨率变化。由于输入尺寸为原图大小1/24 的特征在很多双目算法中被广泛运用，所以这里的最小分辨率也设置为原图的1/24，实际使用中直接先采样至1/3，之后有3步可允许的分辨率变化，所以层间下采样比率可以设置为1/3、1/2、1/2，当然也可以有3、2、2的上采样比率。另一个参数是网络层数，经验化设置为特征网络6层、匹配网络12 层。具体搜索空间如图4所示。

网络在搜索并确定两部分内容后，就可以得到最终的神经网络结构。

由于要考虑实际情况中的各种深度补全问题，不能保证双目数据基线在平整度、亮度、对比度等因素完全一致。对于实际图像而言，理论上只存在水平偏移的矫正图像，在垂直方向上也存在光流预测。因此，只用标准数据集训练的网络的预测结果，性能较差。

为了解决数据基线不一致问题，采用多种数据增强策略，进一步在原有数据集的基础上增加训练用图像数量。采取了如下三种方法解决：

第一，对图像进行随机的小幅度旋转，模拟图像拍摄过程中垂直方向以及水平方向上的不同偏移。

第二，进行亮度、对比度的变化，使得网络对于差异化的数据也具有鲁棒性。

第三，输入图像分块进行训练，变向增加用于训练的数据量，并且可以模拟更多潜在的问题组合

(2)图像修复

图像修复训练全程分为两部分：边缘补全与图像修复。下面将依次介绍这两部分的具体实现。图像修复的整体过程，先将待修复图像、待修复区域掩膜与图像边缘信息共同输入到网络中，讲待修复图像与指示修复区域的掩膜合并后，再与边缘信息进行通道合并后，作为网络输入。网络最终输出三通道RGB图像，为修复后的图像。

边缘补全网络的主体结构为生成对抗网络，由生成器与鉴别器组成。生成器主要由对称的三次下采样与上采样，以及中间具有空洞卷积的8个残差块结构组成的中间层组成，如图5所示。鉴别器用于与生成器网络在训练过程中进行对抗，由五层卷积层组成，最终判断输入的图像是否符合已知数据集分布。鉴别器的输入为生成器最终的输出结果。虽然鉴别器并不参与后续的生成，但是鉴别器得到的对抗损失对于生成对抗网络的训练至关重要，鉴别器也是生成对抗网络中的对抗因素，能够让生成器得到更有效的结果。

在后续的图像修复网络中，将网络输出的边缘与原图生成的边缘组合成完整的图像边缘信息，将其与输入图像和待修复区域掩膜一同作为图像修复网络的输入，用于对待修复区域进行补全。

网络训练时，首先将输入图像转换为灰度图，利用灰度图和Canny算子生成图像边缘信息，并将提取的边缘去除遮盖掩膜的边缘区域，获得待修复图像的完整边缘。之后，将待修复图像转化为灰度图，将其与上述过程中生成的边缘，表示修复区域的掩膜图像一同合并，共同作为边缘补全网络的图像输入，网络输出为被掩膜遮盖区域的图像边缘。

边缘补全网络训练时，使用的损失函数为L1损失、对抗损失与特征匹配损失。对抗损失为引入鉴别器的生成对抗网络特有损失函数，旨在利用鉴别器判断生成信息是否属于已知数据集中的内容，以对抗的形式加强生成器的生成能力。在图像修复网络的训练中，也采用了类似的对抗损失。特征匹配损失主要匹配鉴别器层产生的特征结果，由于单纯的图像级L1损失可能无法反映出图像内容中特征存在的差异，因此利用鉴别器中的特征图来判断生成器生成的边缘信息是否与真值在特征层面上存在差异，以此增强生成器生成特征的能力。

边缘补全网络损失函数的配置如下：

L＝L_context+10L_FM+0.1L_adv (3)

式中，L_context为L1损失，L_FM为特征匹配损失，L_adv为对抗损失。

图像修复网络，将待修复图像、修复区域掩膜、由边缘补全网络补全的图像全部边缘，共同输入到图像修复网络进行图像修复。

图像修复网络也使用了与边缘补全网络相似的生成对抗网络结构，如图 6所示。其中，生成器仍为编码器-解码器结构，先对输入的图像进行三次下采样处理，提取图像深层次的特征，并将图像的特征图缩小，方便后续对图像中待修复区域的填充操作。网络中间层使用了8个残差块，残差块的结构如图7所示，利用残差块的独有残差结构，网络能够在一次训练时，同时学习原图特征与卷积后的特征，大大增加了卷积过程中图像特征的积累。最后，解码器部分使用与编码器相同的结构，与编码器相反，进行上采样，恢复到输入图像的原始大小，得到最终解码器的输出结果。再将解码器输出结果取被遮盖区域，与原始图像剩余部分相加，进而得到最终的修复图像。

鉴别器网络结构与上文中边缘补全网络结构相同，同样提高了生成器的稳定性，使其生成的结果更加符合实际。

在图像修复网络的训练过程中，不同于传统的图像修复网络训练流程，我们对训练使用的数据集进行了针对3D拍照中图像修复内容的改造。在图像修复网络整体的训练过程中，我们使用公开数据集MS-COCO的显著性检测标注数据，首先生成了该数据集中显著性物体的二值图掩膜，以此作为生成训练所需掩膜的基础。在该掩膜的基础上，使用一个7x7大小的全1卷积核，对上述掩膜进行图像的膨胀和腐蚀处理，再将膨胀和腐蚀后的图像与原始二值图掩膜进行按位与操作，得到相邻的两组环状掩膜，分别为上下文掩膜和图像修复掩膜。将这两组环状掩膜相加，得到训练时最终保留图像区域的掩膜，上述两组环状掩膜均可用作训练中的遮盖掩膜。图8即训练掩膜的生成过程示意图。

训练时，先将训练图像取背景区域掩膜部分，然后再使用上述生成的上下文掩膜和修复掩膜进行训练，上下文掩膜保留图像信息，图像修复掩膜表示待修复区域，将其与图像及补全的边缘共同输入到图像修复网络中进行图像修复的训练。

训练过程中，如果选用较窄的掩膜作为保留图像区域掩膜，较宽的掩膜作为遮盖掩膜，可以较大提升网络的生成能力；如果将上述掩膜设置对调，会得到更加稳定的图像修复模型。在实际的训练过程中，我们先使用较窄的掩膜作为待修复区域的掩膜，较宽的掩膜作为保留图像区域掩膜，以此进行初步训练，当网络逐渐收敛后，将两类掩膜对调，进一步提升网络的生成能力。图9为图像修复网络训练情况，其中从左至右分别为：原始图像，保留部分与被遮盖区域，补全的图像边缘信息，图像修复网络输出图像，最终输出图像。

除了特别生成的图像掩膜数据外，训练使用的RGB彩图选用MS-COCO 数据集。

在图像修复网络训练的选取上，除了与边缘补全网络相同的L1损失与对抗损失外，在图像特征层面上还引入了感知损失、风格损失。感知损失是将图像通过一个指定的特征提取网络，本方案中特征提取网络选用 VGG19，获得图像的特征，之后再对获得的特征进行L1损失比较。而风格损失也是在对图像通过VGG19网络提取特征后，使用Gram矩阵计算L1损失。上述两种损失都是在特征层面上进行计算，能够很好地减轻由于网络加深带来的图像棋盘格效应。

图像修复网络损失函数的配置如下：

L＝L_context+0.1L_preceptual+250L_style+0.1L_adv (4)

式中，L_context为L1损失，L_perceytual为感知损失，L_styie为风格损失，L_adv为对抗损失。

(4)3D化处理

3D化处理的第一步是对深度进行进一步的降噪处理。针对不同图像的深度特点进行不同的处理组合，图10即为深度降噪的处理流程。

首先，对所有图像深度进行非线性映射，使获得的深度转化成近距离的相对深度图，并对转化的深度图进行降噪处理。非线性映射的过程如下：

非线性映射主要是将原深度按上述公式，进行非线性放缩。式中k是背景深度放缩系数，主要用于调整新深度的景深。整个流程会进行多次，每次都包括利用放缩后的新深度进行一轮新的处理，包括平均深度判定、连通域检测等一些图像检测方法，以调整深度图的噪声。

其次，3D拍照使用了快速的保边滤波算法，锐化边缘并将不同深度的目标进行区分。该快速保边滤波算法采用局部作用的方式，在深度图中的边缘附近执行仅对深度较大区域的中值滤波，同时保留深度较小区域的原始深度，这种方式大大降低了中值滤波的复杂度，同时保留了深度较浅目标(一般是3D拍照中需要移动的前景目标)的完整边缘。与常规的全图中值滤波算法不同，提出的局部保边滤波算法，首先对粗糙的初步处理深度进行边缘计算。仅在深度图中对应的边缘区域内，采用不同窗口大小的中值滤波器，对模糊的边缘深度像素进行滤波。为了提升锐化效果，所采用的中值滤波器仅对边缘区域内的每一个像素，取像素窗口领域内相对深度较大的像素中值进行赋值，以达到收缩锐化边缘的效果。

第三，为了修复深度算法在一些强曝光、弱纹理图像区域的预测误差问题，3D拍照方案设计了空洞修复算法来优化深度图中的深度空洞区域。该算法使用深度阈值来获取不同深度的连通域，通过连通域的大小，筛选深度图中明显与周围物体的深度存在相关性但平均深度差别较大的区域。由弱纹理，强曝光等问题带来的局部区域深度失真问题，算法根据局部区域的大小进行筛选分离，根据经验性结论，将面经过小的区域定义为预测存在误差的空洞区域。算法通过边缘提取并采用腐蚀膨胀策略进行空洞区域内深度值的逐步覆盖。

最后，针对存在较多小目标的图片场景，在方案中还使用了裁剪的方式对深度图进行进一步处理。由于小目标并不是整体3D运动场景的主要对象，其深度的不连续与失真将带来整体视觉效果的降低。面对场景相对复杂的情况，算法通过阈值来获取不同深度目标之间的边界情况图。通过连通域分析，对场景中存在明显深度变化的局部非主体小目标，算法采用多次的局部均值滤波算法，人为平滑小目标与周围场景的深度，以降低整体3D拍照算法在非重要目标上的计算开销。

优化后的相对深度图能够通过准确的深度边缘来区分不同深度下的目标。因此，3D拍照方案构建了图像场景的分层图结构体系，将处于不同深度层的像素分成不同的图连通域。为了降低无关目标的深度层次，本方案使用语义分割算法辅助图网络建构。在公开数据集Pascal-VOC上训练了基于深度学习的DeeplabV3+的语义分割模型，训练好的模型在19类常见的生活目标中获得了较高的预测准确率。

本方案使用的DeeplabV3+语义分割网络，是在DeeplabV3的基础上进行网络结构的改进得到，其结构如图11所示。DeeplabV3网络为了解决多尺度上物体的分割能力，在卷积层上使用空洞卷积，防止出现由于下采样导致的图像分辨率过低问题。再使用多种不同扩张率的空洞卷积，将多尺度卷积得到的特征串联后，再使用1x1卷积降维，得到语义分割的结果。

DeeplabV3+在DeeplabV3的基础上，将网络结构更改为编码器-解码器结构，其中编码器结构为基础DeeplabV3，解码器结构分为两层输入，一层输入为将编码器输出的结果上采样4倍，另一层输入为原始图像通过ResNet 网络采样后的特征图，将二者串联后，再通过一个3x3大小的卷积核，最终上采样四倍得到最终的语义分割结果。

在DeeplabV3+的训练过程中，使用ResNet101作为基础网络，损失函数使用交叉熵，训练时语义分割像素分类共19类，在Pascal-VOC上对网络进行训练。

语义分割算法将图像分割成不同目标区域的组合，如图12所示，本方案将不同图层根据分割目标的主次进行划分，由于本方案预设的场景在于人像摄影，因此本方案将场景中的人物作为第一主要目标，配合语义分割算法获得的目标区域，将属于人像区域的图结构都作为第一层的浅层前景层，而将场景中的其他目标图结构划分到第二层的其他目标层，最后剩余背景划分为第三层的背景层，这种方式大大简化了图像修复算法的执行次数。

之后通过上面所述的图像修复网络进行确实背景的修复。整体的修复网络如图13所示。在得到了图像前景和修复后的图像背景之后，我们通过图像渲染合成视频。

为了降低场景复杂度和降低修复算法预测的不稳定效果，本方法在采用上的图像语义分割算法的基础上，增加了一个自适应运镜算法。该算法利用语义分割模型对图像进行目标类别预测，依据分割中结果中的物体类别进行场景划分，当语义分割结果表明，明显只在室内场景下出现的物体(如沙发，电视，餐桌等)时，我们定义将输入图像的场景判定为室内场景；当明显只在室外场景下出现的物体(如飞机，自行车，船等)时，我们定义场景为室外场景；当部分物体(如盆栽，猫，人等)出现在场景中，且除此以外并无上述明显的室内与室外场景的标志性物体时，定义场景为不确定场景。

为实现更好的观感，本方案对室内这种细节深度相对清晰的场景执行 swing-x运镜，用来突出算法在补全任务上的效果，提升视频的3D观感。而对于室外场景，本方案则设定dolly-zoom-in的运镜方式，减少因深度图像因为室外场景出现的深度数值不准确，进而可能导致前景边界断裂等问题，影响最终视频的生成效果。对于不确定场景，我们会根据场景的不同设置对应的运镜，如当盆栽很多的时候，circle的运镜所带来的的3D效果最好。图14 分为3种运镜方式中相机在x轴上的变化。

在深度的维度上相机维持一个由浅入深再回浅的运动，其中前两种运动方式默认相机的视场角不变，而dolly-zoom-in则默认视场角随深度的变化而不断变化，进而实现缓慢的渐进效果。

3D拍照使用基于OpenGL实现的Vispy库进行渲染。该Python库利用点之间的相对深度信息，将已经补全的完整场景转化为网格图的形式，利用网格图中每个三角形的三个顶点的色彩信息确定面的颜色。在此之后，通过预定义的运镜路线对不同视角下的mesh图进行快速的渲染，得到相应的图片，并最终将渲染得到的图片连接为视频进行输出，得到最终的3D拍照视频。

所以，3D拍照算法主要采用mesh结构进行图像的存储与更新。算法首先对原图进行图形式转化，首先采用三维坐标的方式构建原图的mesh结构，将原图中的每个像素，用(X,Y,Z)定义结点键，其中(X,Y)为像素二维坐标，Z为深度。每个结点都由像素颜色，像素距离，像素是否合成等属性构成，作为初始图像的mesh结构。其次，根据每个定义结点与其4邻域内像素深度的距离，以一定阈值定义像素之间的边的联通关系，深度差大于阈值的结点之间为非联通状态，意味着两个结点分别是前景和背景的边缘。通过这种方式，算法初步建立起以原图深度为基础的场景图结构体系。

在进行场景运镜的过程中，不同视角下产生的新的结点将同步根据其的键属性(X,Y,Z)，更新到原图的mesh结构中，并与其相对应的邻域背景结点进行相连。在完整运镜下，所有产生的新结点将同步更新到mesh结构中，以完善所有可能产生的相应位置像素信息，最终生成完整的场景图网络。通过这个流程mesh图在深度上能进行很好的分层和区分，如图15所示。

提出的算法最终根据完整的mesh图，在不同视角下调用相应的渲染器，即可完成对所有运镜图像的渲染，生成最终的3D拍照视频。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于图像修复的图像3D化方法，其特征在于，包括：

S1、获取待处理图像，通过预先训练的深度估计神经网络对所述待处理图像进行深度提取，从而获取图像深度图，所述待处理图像为双目图像；

S2、基于预设的深度边缘阈值对待处理图像进行前景和后景的划分，从而获取初级背景边缘图，再对所述初级背景边缘图像进行基于滤波和连通域检测的图像后处理，从而获取精确背景边缘图；

2.根据权利要求1所述的一种基于图像修复的图像3D化方法，其特征在于，通过预先训练的深度估计神经网络对所述待处理图像进行深度提取，包括：

基于以下计算获取深度图：

3.根据权利要求2所述的一种基于图像修复的图像3D化方法，其特征在于，所述深度估计神经网络训练时，通过对训练数据进行随机的小幅度旋转、亮度和对比度调节以及输入图像分块的方式进行数据增强处理，再用处理后的训练数据重新训练深度估计神经网络。

4.根据权利要求1所述的一种基于图像修复的图像3D化方法，其特征在于，所述图像修复模型包括边缘补全网络以及图像修复网络；所述边缘补全网络和图像修复网络均采用结构相同的生成对抗网络，所述生成对抗网络包括生成器和鉴别器；所述生成器包括三次下采样、中间层以及与三次下采样对称的三次上采样，所述中间层包括具有空洞卷积的8个残差块结构；所述鉴别器包括五层卷积层。

5.根据权利要求1所述的一种基于图像修复的图像3D化方法，其特征在于，将前景图像与修复的背景图像结合，按照预设的3D效果输出转换视频，包括：

基于图像修复网络进行缺失背景修复；

通过图像渲染将图像前景和修复后的图像背景合成视频。