CN108924528B

CN108924528B - 一种基于深度学习的双目风格化实时渲染方法

Info

Publication number: CN108924528B
Application number: CN201810576245.7A
Authority: CN
Inventors: 任重; 倪朝浩; 周昆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2020-07-28
Anticipated expiration: 2038-06-06
Also published as: CN108924528A

Abstract

本发明公开了一种基于深度学习的双目风格化实时渲染方法，该方法首先对固定风格训练一个图像转换网络；在运行时，将该网络分解为编码器和解码器部分；渲染时，通过三维场景渲染出原始图像，视差图，运动场等信息；并通过基于图像转换网络的后处理进行风格化，从而渲染出完整双目动画。相比与独立帧直接风格化法，该方法可以大大减少视觉闪烁和瑕疵；相比与基于最优化的方法，效率提高了两个数量级。

Description

一种基于深度学习的双目风格化实时渲染方法

技术领域

本发明涉及图像视频处理领域，尤其涉及一种针对VR头盔等双目设备的内容风格化渲染方法。

背景技术

在艺术领域，尤其是绘画方面，人类始终具有独特的能力来创造出各种各样复杂的内容和风格。尽管科学家们对这一创造过程的神经基础原理仍未研究清楚，使用计算机来生成各种内容和风格的图像已经成为计算机界内一项热门研究。随着深度学习在近些年的快速发展，基于深度学习的图像视频风格化成为主流方法。然而已经存在的各类风格化算法都是为单目的图像视频进行设计，无法在VR及3D显示设备上得到应用。本发明解决了双目内容的艺术风格化问题。

2015年Gatys等人(Gatys L A,Ecker A S,Bethge M.A Neural Algorithm ofArtistic Style[J].Computer Science,2015.)基于卷积神经网络(convolutionalneural network，简称CNN)的艺术家风格化工作，在图像生成效果上取得了显著进步，并掀起了新一波风格化的研究浪潮。Johnson等人在2016年(Johnson J,Alahi A,Li FF.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)首次提出了图像实时风格化方法。对于每一个固定的风格，他们都对其训练一个前向生成网络网络。当一个内容图像需要被风格化时，只需要做一次向前传播就可以得到结果。他们的系统需要两个网络，一个是进行训练的图像转换网络，一个是损失函数网络。Chen等人(Chen D,Liao J,Yuan L,et al.Coherent Online Video Style Transfer[J].2017:1114-1123.)在2017年做出了具有时序一致性的视频风格化实时算法。Chen等人将CNN分成两个子网络，一个为编码器，另一个是解码器。原始图像经过编码器得到一系列特征图像，利用光流对特征图进行插值后再输入解码器，则可以得到时序一致的风格化图像。

发明内容

本发明针对独立帧实时渲染方法造成闪烁，视差不一致的局限性，提供了一种基于深度学习优化的双目风格化实时渲染方法。该方法首先需要对某一固定的艺术风训练图像转换网络。在运行时，渲染分为两层，根据三维场景渲染出视差图，运动场，遮挡图的场景信息。再利用基于网络的前向传播将结果风格化，从而满足了时序一致性和视差一致性，渲染出了视觉良好的双目画面。

本发明的目的是通过以下技术方案来实现的(如图1)：一种基于深度学习的双目风格化实时渲染方法，该方法包括以下步骤：

(1)训练图像转换网络：如图2，选择一个风格化图像，然后进行网络的训练；对于给定的固定风格，需要对齐训练出基于CNN的图像转换网络f_W；使用

来求解网络中的权重，其中损失函数分别为：

其中J为选择的层数集合，对于神经网络的第l层，若它有C_l个不同的滤波器，其特征图宽和高为W_l和H_l。其中φ_j(y)是图像y在VGG网络中第j层的神经元输出，

是图像y在VGG网络中第j层的伽马矩阵。λ_i为权重，内容和风格为分别1.0,40.0。

使用的图像转换网络结构中，舍去了池化层，而使用卷积来做网络中的向下采样和向上采样；网络结构使用5个残差块；所有的非残差卷积层后面都使用批规范化技术；除了输出层，在每个非残差卷积层后都加上ReLU层来保持网络的非线性；最后在输出层使用尺度化的tanh将输出值控制在0到255之间；第一层和最后一次使用9x9的内核，其他卷积层使用3x3的内核；对训练中数据集的每个图像都缩放到256x256的尺寸；采用步长为1x10^-3的Adam算法进行训练；

(2)渲染层数据渲染，该步骤包括以下子步骤：

(2.1)从深度缓冲中得到当前像素的深度；根据公式d＝f*b/z(其中f为相机焦距，b为相机距离，z为像素深度)，我们可以计算出视差，并转换出该像素在右眼相机平面中的对应位置；

(2.2)渲染运动场；对图像中每个像素发射一条射线，得到与之相交的三角形面片；根据三角形在下一帧的位置，投影计算出该像素的移动距离；

(3)基于CNN的风格化：首先将图像转换网络f_W分解成两部分，前半部分为编码器

后半部分为解码器

其中编码器部分输入原始图像，输出特征图像，这一过程为图像编码；而解码器部分则输入特征图像，能够输出风格化后的图像，这一过程为特征解码，

记当前帧渲染出的原始图像为

视差图为D_k，运动场为

并记录

经过解码器生成的特征图像为

和

对应生成的风格化图像为

该步骤包括以下子步骤：

(3.1)对当前帧的左眼图像使用编码器，生成特征图；为了保持时序连续性，在生成

时，我们首先在编码器

中输入

得到对应的

(3.2)将步骤(3.1)得到的特征图跟上一帧的特征图根据运动场进行混合，将混合后的特征图使用解码器得到渲染图像；我们利用上一帧

的特征图

结合运动场

将

与

进行混合(blend)，记混合后的特征图为

此时将

输入解码器，则得到风格化的图像

(3.3)对当前帧的右眼图像使用编码器，生成特征图；将图像

输入编码器，得到其对应的特征图像

(4)将步骤(3.3)得到的特征图与左眼图的特征图根据视差场进行混合，将混合后的特征图使用解码器得到渲染图像；利用左眼图像混合之后的特征图

跟视差图D_k将

与

进行图像混合，得到混合后的特征图为

将

输入解码器即得到风格化图像

本发明的有益效果是，本发明考虑了动态的时序连续性和双目内容的立体效果；相比于独立帧直接实时风格化的方法，该方法大量地减少了渲染动画的闪烁瑕疵。相比于基于最优化的方法，该方法提高了两个数量级的效率。

附图说明

图1中是本发明方法流程图，渲染层里包括了利用场景渲染出的图像：原始图像，运动场，视差图。后处理层使用已经对固定风格训练好的图像转换网络进行风格化。

图2是图像转换网络示意图，左边的网络结构是需要训练的图像转换网络，右边是损失函数网络，用来构成图像转换网络训练时的损失函数，采用经典的已经训练好的图像分类网络VGG-19。

图3是运行时后处理层的流程图。将图像转换网络分解为编码器和解码器，使用编码器得到的特征图与上一帧的特征图进行混合，然后使用解码器重构出图像。

图4是本发明的方法与独立直接法的渲染结果对比图，其中，(a)为独立直接法渲染出的左右眼图像对，(b)为本发明方法渲染出的图像对。

图5是本发明使用岩石风格对开源动画Sintel的渲染片段图，其中，左上角为艺术风格图像，右列从上到下为连续5帧的渲染结果。

具体实施方式

本发明的具体实施方式分为三大步骤：预训练:图像转换网络的训练，运行时:渲染层的双目渲染和后处理层的基于CNN的风格化。

一、训练图像转换网络

如图2，选择一个我们希望采用的风格化图像，然后进行网络的训练(Johnson J,Alahi A,Li F F.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)。采用表1的网络结构。对于给定的固定风格，需要对齐训练出基于CNN的图像转换网络f_W。使用

来求解网络中的权重，其中损失函数分别为：

使用的图像转换网络结构中，舍去了池化层，而使用strided和fractionallystrided的卷积来做网络中的向下采样和向上采样。网络结构使用5个残差块(residualblock)。所有的非残差卷积层后面都使用批规范化(batch normalization)技术。除了输出层，我们在每个非残差卷积层后都加上ReLU层来保持网络的非线性。最后在输出层使用尺度化的tanh将输出值控制在0到255之间。第一层和最后一次使用9x9的内核，其他卷积层使用3x3的内核。我们使用微软的数据集MS-COCO。对训练中数据集的每个图像都缩放到256x256的尺寸。我们采用步长为1x10^-3的Adam算法进行训练。

表1：图像转移网络的网络结构

层	尺寸维度
		输入	3x256x256
32x9x9卷积，步幅1	32x256x256
		64x3x3卷积，步幅2	64x128x128
128x3x3卷积，步幅2	128x64x64
		残差块，128滤波器	128x64x64
残差块，128滤波器	128x64x64
		残差块，128滤波器	128x64x64
残差块，128滤波器	128x64x64
		残差块，128滤波器	128x64x64
64x3x3反卷积，步幅1/2	64x128x128
		32x3x3反卷积，步幅1/2	32x256x256
3x9x9卷积，步幅1	3x256x256

二、渲染层数据渲染

1、从深度缓冲中得到当前像素的深度。根据公式d＝f*b/z(其中f为相机焦距，b为相机距离，z为像素深度)，我们可以计算出视差，并转换出该像素在右眼相机平面中的对应位置。

2、渲染运动场。对图像中每个像素发射一条射线，得到与之相交的三角形面片。根据三角形在下一帧的位置，投影计算出该像素的移动距离。

三、基于CNN的风格化

首先我们将上述的图像转换网络f_W分解成两部分，前半部分为编码器

后半部分为解码器

其中编码器部分输入原始图像，输出特征图像，我们将这一过程称为图像编码。而解码器部分则输入特征图像，能够输出风格化后的图像，我们将这一过程称为特征解码，如表2。

表2：编码器与解码器的网络结构

编码器	解码器
		输入	64x3x3反卷积，步幅1/2
32x9x9卷积，步幅1	32x3x3反卷积，步幅1/2
		64x3x3卷积，步幅2	3x9x9卷积，步幅1
128x3x3卷积，步幅2	输出
		残差块，128滤波器
残差块，128滤波器
		残差块，128滤波器
残差块，128滤波器
		残差块，128滤波器

记当前帧渲染出的原始图像为

视差图为D_k，运动场为

并记录

经过解码器生成的特征图像为

和

对应生成的风格化图像为

如图3，该步骤包括以下子步骤：

1、对当前帧的左眼图像使用编码器，生成特征图。为了保持时序连续性，在生成

时，我们首先在编码器

中输入

得到对应的

2、将上一步得到的特征图跟上一帧的特征图根据运动场进行混合，将混合后的特征图使用解码器得到渲染图像。我们利用上一帧

的特征图

结合运动场

将

与

进行混合(blend)，记混合后的特征图为

此时将

输入解码器，则得到风格化的图像

3、对当前帧的右眼图像使用编码器，生成特征图。将图像

输入编码器，得到其对应的特征图像

4、将上一步得到的特征图与左眼图的特征图根据视差场进行混合，将混合后的特征图使用解码器得到渲染图像。利用左眼图像混合之后的特征图

跟视差图D_k将

与

进行图像混合，得到混合后的特征图为

将

输入解码器即得到风格化图像

通过上述步骤，发明人在一台配备了一个3.60GHz的Intel i7-7700 CPU，16G内存，GTX 1060显卡的计算机上实现了本发明的若干实施实例。

实施例一、发明人测试了双目实时风格化渲染算法的有效性。如图4所示，发明人对同一段动画，采用了梵高星空的风格，并分别使用本发明算法和独立帧直接法进行渲染对比。从图中不难看出，独立法对左右眼视图中的对应区域没法保持一致的风格化，而本发明的渲染结果可以满足。

实施例二、如图5所示，发明人使用了本发明方法渲染了Sintel开源动画中的片段，其中采用的是岩石艺术风格。从两图中可以观察得到，本发明渲染出的动画满足时序一致性和视差一致性，提供了良好的双目观看效果。