CN108416751A

CN108416751A - 一种基于深度辅助全分辨率网络的新视点图像合成方法

Info

Publication number: CN108416751A
Application number: CN201810189645.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-03-08
Filing date: 2018-03-08
Publication date: 2018-08-17

Abstract

本发明中提出的一种基于深度辅助全分辨率网络的新视点图像合成方法，其主要内容包括：深度辅助全分辨率网络、损失函数、训练，其过程为，全分辨率网络的编码器部分先从输入图像中提取重要的局部特征，然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练，从而估计输入图像的深度图，接着将局部特征和深度馈送到解码器，并指示目标视点位置的双通道映射，最后基于流的变形，解码器将组合的特征转换成扭曲场来合成最终的目标图像。本发明设计了一个全分辨率的网络，以相同的输入分辨率提取局部图像特征，防止最终合成图像中的模糊伪影，有助于获得分辨率高、质量高的图像。

Description

一种基于深度辅助全分辨率网络的新视点图像合成方法

技术领域

本发明涉及图像合成领域，尤其是涉及了一种基于深度辅助全分辨率网络的新视点图像合成方法。

背景技术

新视点图像合成是当今计算机视觉和图像处理领域的交叉学科，是虚拟现实技术重要组成部分，在许多方面都具有广泛的应用。如基于人脸图像的新视点合成，是人脸处理中的一个重要应用领域，广泛应用于人脸识别、人脸动画等许多方面；通过输入已有人脸图像，对输入图像用相同视点下的样本进行表达，通过组合合成新视点图像，从而获取足够的人脸不同角度的图像，这将有助于为刑侦案件侦破提供更多有效的信息。在未来数字电视的研究发展中，由于与传统的单视点二维视频相比较，多视点视频与人们的视觉需求更加匹配，它能够提供丰富的立体感和沉浸感，并可以根据用户需求自由切换观看角度而广受人们喜爱。除了现有的三维电视显示技术大都离不开新视点图像合成技术，该技术与立体眼镜、立体头盔等的发展也密切相关。现有的深度卷积神经网络主要集中于提取全局高级特征，全局特征通常不受空间变换(比例、平移和旋转)的影响，全局特征预测对局部细节不变而不能对局部细节进行修改。

本发明提出了一种基于深度辅助全分辨率网络的新视点图像合成方法，全分辨率网络的编码器部分先从输入图像中提取重要的局部特征，然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练，从而估计输入图像的深度图，接着将局部特征和深度馈送到解码器，并指示目标视点位置的双通道映射，最后基于流的变形，解码器将组合的特征转换成扭曲场来合成最终的目标图像。本发明设计了一个全分辨率的网络，以相同的输入分辨率提取局部图像特征，防止最终合成图像中的模糊伪影，有助于获得分辨率高、质量高的图像。

发明内容

针对全局特征预测对局部细节不变而不能对局部细节进行修改的问题，本发明的目的在于提供一种基于深度辅助全分辨率网络的新视点图像合成方法，全分辨率网络的编码器部分先从输入图像中提取重要的局部特征，然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练，从而估计输入图像的深度图，接着将局部特征和深度馈送到解码器，并指示目标视点位置的双通道映射，最后基于流的变形，解码器将组合的特征转换成扭曲场来合成最终的目标图像。

为解决上述问题，本发明提供一种基于深度辅助全分辨率网络的新视点图像合成方法，其主要内容包括：

(一)深度辅助全分辨率网络；

(二)损失函数；

(三)训练。

其中，所述的深度辅助全分辨率网络，全分辨率网络的编码器部分从输入图像中提取重要的局部特征；然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练，从而估计输入图像的深度图；接着将局部特征和深度馈送到解码器，并指示目标视点位置的双通道映射；最后基于流的变形，解码器将组合的特征转换成扭曲场来合成最终的目标图像。

进一步地，所述的编码器，用于提取输入图像的局部特征；编码器网络是一系列具有不同大小的卷积核，生成与输入图像具有相同分辨率的特征；修正线性单位(ReLU)层被添加在每个卷积层之后；这些特征将用于重建最终转换后的图像。

进一步地，所述的估计输入图像的深度图，将估计的预测相对深度添加为输入图像的一个特征；根据一幅图像上像素对的标记深度排序来训练深度预测网络，输出表示输入图像的相对深度；利用从图片分享网站收集并与两个随机像素的相对深度排序标记的421000个图像来训练网络；由于缺少后向训练的标定真实深度，因此只能利用这个网络的前向输出来提取输入图像的深度。

进一步地，所述的特征，使用该深度特征有四个主要优点：首先，深度是流场的一个紧密相关的特征；输入图像与新视图之间的深度z和视差D之间的关系可写为：

其中，B是两个视点之间的绝对距离，f是焦点；新视图q的视差D_q与流场F_q之间也存在明确的关系：

F_q(s)＝(D_q(s)×Δu,D_q(s)×Δv) (2)

其中，Δu和Δv分别是u和v方向上视点坐标的差异；根据公式(1)和(2)，深度信息对估计流场非常重要；

其次，与其他方法相比，预测图像的相对深度可以给出更清晰的对象之间的相对位置关系；

第三，用于预测深度的网络已经通过两个距离较远的像素的信息(深度顺序)进行训练，所以本网络通过涉及深度隐含地考虑了大的感知场；由于全分辨率网络保留了局部特征，因此通过收集局部和全局信息进行最终综合；

最后，用于训练深度预测器的数据集非常大，并且覆盖了大量的自然场景；

除了作为编码器部分末端的特征层连接到网络的深度图像之外，新视图的二维坐标(u,v)也被添加为具有与输入图像相同尺寸的两个层特征；这是为了将目标的视点信息提供给网络。

进一步地，所述的解码器，这部分的网络估计所有像素的密集流；在使用后向插值方法时，流场也用于处理输入中不可见的遮挡区域；该解码器部分的网络包含四个卷积层，前三个是ReLU层，后一个是Tanh层。

进一步地，所述的基于流的变形，遵循外观流和空间变换网络的思想，应用基于流的变形方法来合成最终的图像；预测流场和新视图图像之间存在明确的数学关系；对于一个新颖视图图像中的每个像素s，其像素值可以表示为：

I_q(s)＝I_p[s+F_q(s)] (3)

其中，F_q(s)是神经网络输出的二维流；这里，由于在目标视图上的像素s处定义了流，所以利用反向变形将输入图像转换为新视图；由于公式(3)中描述的变形函数是可微分的，并且可以有效地计算梯度，所以网络的所有层都是可微的，并且可以以监督的方式端到端地训练整个网络。

其中，所述的损失函数，网络的目标函数C可以写成：

损失函数的第一部分是传统的图像重构误差(L₁)，它限制了结果I_q和标定好的真实数据之间的相似性；损失函数的第二部分是预测流场F_q的总变分正则化；在本方法中增加正则化，因为流场F_q中的总变差分约束将保证平滑并产生高数量结果；凭经验设定所有的实验中α＝0.001。

其中，所述的训练，相机通过常规微透镜阵列捕捉场景的光场；由于视点之间的距离远远小于相机与场景物体之间的距离，因此假设所有视点均位于二维u-v平面中；在训练中，将中心视点中心p_center(u,v)的位置表示为[0,0]；p_novel(u,v)的范围是[-3,+3]×[-3,+3]；为了充分利用数据集，所有的光场图像都有可能被选为中心视图，而其他图像的坐标则由它们相对于中心图像的相对位置决定；训练使用两个数据集进行实验和验证。

进一步地，所述的数据集，包括光场数据集和花卉数据集；光场数据集包含100个训练图像和30个测试图像，角度分辨率为8×8；此数据集包含多种场景，如汽车、花卉和树木；这是一个具有挑战性的数据集，因为它只包含有限数量的样本，而且它们的变化很复杂；花场数据集包含3433种各种花卉的光场图像，将花卉数据集随机分组，获得3233个训练样本和100个测试样本；为了权衡网络的时间和空间需求，将原始输入图像从541×376随机剪裁成320×240进行训练；使用4个小批量结果在速度和收敛性之间取得最佳平衡；在实验中，网络在12000次迭代中训练；整个实验需要将近2天的时间进行训练；使用ADAM进行优化，其中β₁＝0.9、β₂＝0.999，学习率为0.0001。

附图说明

图1是本发明一种基于深度辅助全分辨率网络的新视点图像合成方法的系统框架图。

图2是本发明一种基于深度辅助全分辨率网络的新视点图像合成方法的系统流程图。

图3是本发明一种基于深度辅助全分辨率网络的新视点图像合成方法的从光场数据集合成新视点的结果。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于深度辅助全分辨率网络的新视点图像合成方法的系统框架图。主要包括深度辅助全分辨率网络、损失函数、训练。

深度辅助全分辨率网络包括编码器、估计输入图像的深度图、解码器和基于流的变形。

编码器用于提取输入图像的局部特征；编码器网络是一系列具有不同大小的卷积核，生成与输入图像具有相同分辨率的特征；修正线性单位(ReLU)层被添加在每个卷积层之后；这些特征将用于重建最终转换后的图像。

估计输入图像的深度图，将估计的预测相对深度添加为输入图像的一个特征；根据一幅图像上像素对的标记深度排序来训练深度预测网络，输出表示输入图像的相对深度；利用从图片分享网站收集并与两个随机像素的相对深度排序标记的421000个图像来训练网络；由于缺少后向训练的标定真实深度，因此只能利用这个网络的前向输出来提取输入图像的深度。

使用该深度特征有四个主要优点：首先，深度是流场的一个紧密相关的特征；输入图像与新视图之间的深度z和视差D之间的关系可写为：

F_q(s)＝(D_q(s)×Δu,D_q(s)×Δv) (2)

解码器，这部分的网络估计所有像素的密集流；在使用后向插值方法时，流场也用于处理输入中不可见的遮挡区域；该解码器部分的网络包含四个卷积层，前三个是ReLU层，后一个是Tanh层。

基于流的变形，遵循外观流和空间变换网络的思想，应用基于流的变形方法来合成最终的图像；预测流场和新视图图像之间存在明确的数学关系；对于一个新颖视图图像中的每个像素s，其像素值可以表示为：

I_q(s)＝I_p[s+F_q(s)] (3)

损失函数，网络的目标函数C可以写成：

训练，相机通过常规微透镜阵列捕捉场景的光场；由于视点之间的距离远远小于相机与场景物体之间的距离，因此假设所有视点均位于二维u-v平面中；在训练中，将中心视点中心p_center(u,v)的位置表示为[0,0]；p_novel(u,v)的范围是[-3,+3]×[-3,+3]；为了充分利用数据集，所有的光场图像都有可能被选为中心视图，而其他图像的坐标则由它们相对于中心图像的相对位置决定；训练使用两个数据集进行实验和验证。

数据集包括光场数据集和花卉数据集；光场数据集包含100个训练图像和30个测试图像，角度分辨率为8×8；此数据集包含多种场景，如汽车、花卉和树木；这是一个具有挑战性的数据集，因为它只包含有限数量的样本，而且它们的变化很复杂；花场数据集包含3433种各种花卉的光场图像，将花卉数据集随机分组，获得3233个训练样本和100个测试样本；为了权衡网络的时间和空间需求，将原始输入图像从541×376随机剪裁成320×240进行训练；使用4个小批量结果在速度和收敛性之间取得最佳平衡；在实验中，网络在12000次迭代中训练；整个实验需要将近2天的时间进行训练；使用ADAM进行优化，其中β₁＝0.9、β₂＝0.999，学习率为0.0001。

图2是本发明一种基于深度辅助全分辨率网络的新视点图像合成方法的系统流程图。全分辨率网络的编码器部分先从输入图像中提取重要的局部特征，然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练，从而估计输入图像的深度图，接着将局部特征和深度馈送到解码器，并指示目标视点位置的双通道映射，最后基于流的变形，解码器将组合的特征转换成扭曲场来合成最终的目标图像。

图3是本发明一种基于深度辅助全分辨率网络的新视点图像合成方法的从光场数据集合成新视点的结果。将中心视图的坐标标记为灰色圆点，将合成视点标记为浅灰色方块中的黑色圆点，表示视点的相对位置。在这里，在四个极端视点位置上显示花卉数据集(左侧两个)和自然图像数据集(右侧两个)上的结果。放大的区域包含前景和背景，其相对位置根据视点的变化而改变。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于深度辅助全分辨率网络的新视点图像合成方法，其特征在于，主要包括深度辅助全分辨率网络(一)；损失函数(二)；训练(三)。

2.基于权利要求书1所述的深度辅助全分辨率网络(一)，其特征在于，全分辨率网络的编码器部分从输入图像中提取重要的局部特征；然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练，从而估计输入图像的深度图；接着将局部特征和深度馈送到解码器，并指示目标视点位置的双通道映射；最后基于流的变形，解码器将组合的特征转换成扭曲场来合成最终的目标图像。

3.基于权利要求书2所述的编码器，其特征在于，编码器用于提取输入图像的局部特征；编码器网络是一系列具有不同大小的卷积核，生成与输入图像具有相同分辨率的特征；修正线性单位(ReLU)层被添加在每个卷积层之后；这些特征将用于重建最终转换后的图像。

4.基于权利要求书2所述的估计输入图像的深度图，其特征在于，将估计的预测相对深度添加为输入图像的一个特征；根据一幅图像上像素对的标记深度排序来训练深度预测网络，输出表示输入图像的相对深度；利用从图片分享网站收集并与两个随机像素的相对深度排序标记的421000个图像来训练网络；由于缺少后向训练的标定真实深度，因此只能利用这个网络的前向输出来提取输入图像的深度。

5.基于权利要求书4所述的特征，其特征在于，使用该深度特征有四个主要优点：首先，深度是流场的一个紧密相关的特征；输入图像与新视图之间的深度z和视差D之间的关系可写为：

F_q(s)＝(D_q(s)×Δu,D_q(s)×Δv) (2)

6.基于权利要求书2所述的解码器，其特征在于，这部分的网络估计所有像素的密集流；在使用后向插值方法时，流场也用于处理输入中不可见的遮挡区域；该解码器部分的网络包含四个卷积层，前三个是ReLU层，后一个是Tanh层。

7.基于权利要求书2所述的基于流的变形，其特征在于，遵循外观流和空间变换网络的思想，应用基于流的变形方法来合成最终的图像；预测流场和新视图图像之间存在明确的数学关系；对于一个新颖视图图像中的每个像素s，其像素值可以表示为：

I_q(s)＝I_p[s+F_q(s)] (3)

8.基于权利要求书1所述的损失函数(二)，其特征在于，网络的目标函数C可以写成：

9.基于权利要求书1所述的训练(三)，其特征在于，相机通过常规微透镜阵列捕捉场景的光场；由于视点之间的距离远远小于相机与场景物体之间的距离，因此假设所有视点均位于二维u-v平面中；在训练中，将中心视点中心p_center(u,v)的位置表示为[0,0]；p_novel(u,v)的范围是[-3,+3]×[-3,+3]；为了充分利用数据集，所有的光场图像都有可能被选为中心视图，而其他图像的坐标则由它们相对于中心图像的相对位置决定；训练使用两个数据集进行实验和验证。

10.基于权利要求书9所述的数据集，其特征在于，数据集包括光场数据集和花卉数据集；光场数据集包含100个训练图像和30个测试图像，角度分辨率为8×8；此数据集包含多种场景，如汽车、花卉和树木；这是一个具有挑战性的数据集，因为它只包含有限数量的样本，而且它们的变化很复杂；花场数据集包含3433种各种花卉的光场图像，将花卉数据集随机分组，获得3233个训练样本和100个测试样本；为了权衡网络的时间和空间需求，将原始输入图像从541×376随机剪裁成320×240进行训练；使用4个小批量结果在速度和收敛性之间取得最佳平衡；在实验中，网络在12000次迭代中训练；整个实验需要将近2天的时间进行训练；使用ADAM进行优化，其中β₁＝0.9、β₂＝0.999，学习率为0.0001。