CN108769644B

CN108769644B - 一种基于深度学习的双目动画风格化渲染方法

Info

Publication number: CN108769644B
Application number: CN201810576526.2A
Authority: CN
Inventors: 任重; 倪朝浩; 周昆
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2020-09-29
Anticipated expiration: 2038-06-06
Also published as: CN108769644A

Abstract

本发明公开了一种基于深度学习的双目动画风格化渲染方法，解决了双目动画内容风格化的问题。该方法将渲染过程分成两层，第一层渲染原始图像，视差图，运动场，遮挡图等场景信息，第二层基于CNN进行后处理优化。后处理层使用贪心法局部最小化一个全新的损失函数。每帧画面都通过梯度下降法求解时序子问题和视差子问题来得到，保持了渲染出的动画满足时序一致性和视差一致性。相比与独立帧直接风格化法，该方法可以大大减少视觉闪烁和瑕疵，并增强了双目显示时的立体感。

Description

一种基于深度学习的双目动画风格化渲染方法

技术领域

本发明涉及双目渲染，图像视频处理领域，尤其涉及一种针对VR头盔等双目设备的内容风格化渲染方法。

背景技术

在艺术领域，尤其是绘画方面，人类始终具有独特的能力来创造出各种各样复杂的内容和风格。尽管科学家们对这一创造过程的神经基础原理仍未研究清楚，使用计算机来生成各种内容和风格的图像已经成为计算机界内一项热门研究。随着深度学习在近些年的快速发展，基于深度学习的图像视频风格化成为主流方法。然而已经存在的各类风格化算法都是为单目的图像视频进行设计，无法在VR及3D显示设备上得到应用。本发明解决了双目内容的艺术风格化问题。

2015年Gatys等人(Gatys L A,Ecker A S,Bethge M.A Neural Algorithm ofArtistic Style[J].Computer Science,2015.)基于卷积神经网络(convolutionalneural network，简称CNN)的艺术家风格化工作，在图像生成效果上取得了显著进步，并掀起了新一波风格化的研究浪潮。Anderson等人(Anderson A G,Berg C P,Mossing D P,etal.DeepMovie:Using Optical Flow and Deep Neural Networks to Stylize Movies[J].2016.)首次利用光流(optical flow)来引导风格化视频的生成,消除了生成视频中的闪烁瑕疵。他们采用梯度下降的算法框架，将每帧风格化后的结果利用光流进行传播(image warping)，做为下一帧求解梯度下降的初始值。Ruder等人(Ruder M,DosovitskiyA,Brox T.Artistic Style Transfer for Videos[J].2016:26-36.)利用类似的算法做了后续工作，并进一步加入了长时序一致(long-term consistency)和多通道算法(multi-pass)进行了效果优化。

发明内容

本发明针对独立帧渲染方法造成闪烁，视差不一致的局限性，提供了一种基于深度学习优化的双目动画渲染方法。该方法首先根据三维场景渲染出视差图，运动场，遮挡图等场景信息，再利用基于CNN的最优化算法将结果风格化，从而满足了时序一致性和视差一致性，渲染出了视觉良好的双目动画。

本发明的目的是通过以下技术方案来实现的：一种基于深度学习的双目动画风格化渲染方法，包括如下步骤：

(1)渲染层数据渲染，该步骤包括以下子步骤：

(1.1)我们对图像中每个像素发射一条射线，根据它与场景的求交则可以得到当前像素的深度；根据公式d＝f*b/z(其中f为相机焦距，b为相机距离，z为像素深度)可以计算出视差，我们可以计算出视差，并转换出该像素在右眼相机平面中的对应位置；

(1.2)渲染运动场；对图像中每个像素发射一条射线，得到与之相交的三角形面片；根据三角形在下一帧的位置，投影计算出该像素的移动距离；

(1.3)渲染时序遮挡图；对图像中每个像素发射一条射线，得到相交的三角形面片；根据三角形在下一帧的位置，投影计算出深度，与下一帧实际深度图进行对比；如果深度更小则为未遮挡，反之遮挡；

(1.4)渲染视差遮挡图；对于左眼视图中的每个像素，根据深度得到3d位置后，在右眼平面上重投影；与右眼深度图比较，深度更小为未遮挡，反之遮挡；

(2)基于CNN的最优化后处理：

假设我们要渲染的动画一共具有N+1帧，左、右眼原始图像为

和

并记为{I}；将左右眼的时序遮挡图记为

和

记为{TO}；左右眼的运动场记为

和

记为{MF}；记N+1视差遮挡图为SO₀,SO₁,...,SO_N，集合为{SO}；N+1视差图为D₀,D₁,...,D_N，集合为{D}；

该步骤包括以下子步骤：

(2.1)对上一帧已渲染的左眼图像根据运动场传播，做为初始左眼图像；利用运动场

对

图像扭曲得到初始左眼图像

(2.2)利用初始左眼图像

构建带时序约束的子优化问题；该优化问题损失函数包含内容损失，风格损失和时序损失和全变分损失；

对于神经网络的第l层，若它有N_l个不同的滤波器，则它具有N_l个尺寸为M_l的特征图，其中M_l是特征图宽和高的乘积。其中P^l和F^l分别代表两张图像在网络l层的的神经响应，

表示输入图像在第l层第i个滤波器在位置j处的神经响应，

表示内容图像在第l层第i个滤波器在位置j处的神经响应。其中

表示输入图像在l层第i个和第j个特征图矢量化后的点积，

表示艺术图象在l层第i个和第j个特征图矢量化后的点积。其中

表示第k帧左眼图像在位置

处的颜色，c_k+1(x,y)为第k+1帧图像坐标为x,y处像素的颜色。其中λ_c，λ_s，λ_t，λ_tv为设定的权重，分别为1.0，40.0，0.02，0.08。

选取

做为初始值，使用梯度下降法最小化

得到风格化后的

(2.3)对求解出的左眼图像根据视差场进行传播，做为初始右眼图像；利用视差场D_k对

图像扭曲得到初始右眼图像

(2.4)利用初始右眼图像，求解带视差约束的子优化问题；

其中λ_c，λ_s，λ_t，λ_tv为设定的各损失函数的权重，分别为1.0，40.0，0.02，0.08。

选取

做为初始值，使用梯度下降法最小化

得到风格化后的

至此，我们已经得到了风格化渲染后的第k+1帧。

本发明的有益效果是，本发明考虑了动态的时序连续性和双目内容的立体效果；相比于独立帧直接风格化法，该方法大量地减少了渲染动画的闪烁瑕疵，并增加了双目观赏时的立体感，从而增加了双目动画观看时的舒适感和沉浸感。

附图说明

图1中是本发明方法流程图，渲染层里包括了利用场景渲染出的五种图像：原始图像，时序遮挡图，运动场，视差遮挡图，视差图。后处理层结合任何一张风格图像和基于CNN的优化生成风格化后的图像对。

图2是后处理层的流程图，在求解k+1帧的左眼图像时，根据第k帧已经渲染的左眼图像建立时序子优化问题。求解k+1帧的右眼图像时，根据第k+1帧已经渲染出的左眼图像建立视差子优化问题。

图3是本发明渲染结果与独立直接法的对比图，其中，(a)为独立直接法渲染出的左右眼图像对，(b)为本发明方法渲染出的图像对。

图4是本发明使用糖果风格对开源动画Sintel的渲染片段。左上角为艺术风格图像，右列从上到下为连续5帧的渲染结果。

图5是本发明使用黑白条风格对开源动画Sintel的渲染片段。左上角为艺术风格图像，右列从上到下为连续5帧的渲染结果。

具体实施方式

本发明的具体实施方式分为两大步骤：渲染层的双目渲染和后处理层的基于CNN的最优化。

一、渲染层数据渲染

1、我们对图像中每个像素发射一条射线，根据它与场景的求交则可以得到当前像素的深度。根据公式d＝f*b/z，我们可以计算出视差，并转换出该像素在右眼相机平面中的对应位置。

2、渲染运动场。对图像中每个像素发射一条射线，得到与之相交的三角形面片。根据三角形在下一帧的位置，投影计算出该像素的移动距离。

3、渲染时序遮挡图。对图像中每个像素发射一条射线，得到相交的三角形面片。根据三角形在下一帧的位置，投影计算出深度，与下一帧实际深度图进行对比。如果深度更小则为未遮挡，反之遮挡。

4、渲染视差遮挡图。对于左眼视图中的每个像素，根据深度得到3d位置后，在右眼平面上重投影。与右眼深度图比较，深度更小为未遮挡，反之遮挡。

二、基于CNN的最优化后处理

假设我们要渲染的动画一共具有N+1帧，左，右眼原始图像为

和

并记为{I}。将左右眼的时序遮挡图记为

和

记为{TO}。左右眼的运动场记为

和

记为{MF}。记N+1视差遮挡图为SO₀,SO₁,...,SO_N，集合为{SO}。N+1视差图为D₀,D₁,...,D_N，集合为{D}。

该步骤包括以下子步骤：

1、对上一帧已渲染的左眼图像根据运动场传播，做为初始左眼图像。利用运动场

对

图像扭曲得到初始左眼图像

2、利用初始左眼图像

构建带时序约束的子优化问题。该优化问题损失函数包含内容损失，风格损失和时序损失和全变分损失。

表示输入图像在第l层第i个滤波器在位置j处的神经响应，

表示输入图像在l层第i个和第j个特征图矢量化后的点积，

表示第k帧左眼图像在位置

选取

做为初始值，使用梯度下降法最小化

得到风格化后的

3、对求解出的左眼图像根据视差场进行传播，做为初始右眼图像。利用视差场D_k对

图像扭曲得到初始右眼图像

4、利用初始右眼图像，求解带视差约束的子优化问题。

选取

做为初始值，使用梯度下降法最小化

得到风格化后的

至此，我们已经得到了风格化渲染后的第k+1帧。

通过上述步骤，发明人在一台配备了一个3.60GHz的Intel i7-7700CPU，16G内存，GTX 1060显卡的计算机上实现了本发明的若干实施实例。

实施例一、发明人测试了双目动画风格化渲染算法的有效性。如图3所示，发明人对同一段动画，采用了梵高星空的风格，并分别使用本发明算法和独立帧直接法进行渲染对比。从图中不难看出，独立法对左右眼视图中的对应区域没法保持一致的风格化，而本发明的渲染结果可以满足。

实施例二、如图4-图5所示，发明人使用了本发明方法渲染了Sintel开源动画中的片段，其中图4采用的是糖果艺术风格，图5采用的是黑白条艺术风格。从两图中可以观察得到，本发明渲染出的动画满足时序一致性和视差一致性，提供了良好的双目观看效果。

Claims

1.一种基于深度学习的双目动画风格化渲染方法，其特征在于，包括如下步骤：

(1)渲染层数据渲染，该步骤包括以下子步骤：

(1.1)对图像中每个像素发射一条射线，根据它与场景的求交则可以得到当前像素的深度；然后计算出视差，并转换出该像素在右眼相机平面中的对应位置；

(1.2)渲染运动场：对图像中每个像素发射一条射线，得到与之相交的三角形面片；根据三角形在下一帧的位置，投影计算出该像素的移动距离；

(1.3)渲染时序遮挡图：对图像中每个像素发射一条射线，得到相交的三角形面片；根据三角形在下一帧的位置，投影计算出深度，与下一帧实际深度图进行对比；如果深度更小则为未遮挡，反之遮挡；

(1.4)渲染视差遮挡图：对于左眼视图中的每个像素，根据深度得到3d位置后，在右眼平面上重投影；与右眼深度图比较，深度更小为未遮挡，反之遮挡；

(2)基于CNN的最优化后处理：

假设要渲染的动画一共具有N+1帧，左、右眼原始图像为

和

并记为{I}；将左右眼的时序遮挡图记为

和

记为{TO}；左右眼的运动场记为

和

该步骤包括以下子步骤：

(2.1)对上一帧已渲染的左眼图像根据运动场传播，作为初始左眼图像；利用运动场

对上一帧已渲染的左眼图像

图像扭曲得到初始左眼图像

(2.2)利用初始左眼图像

构建带时序约束的子优化问题；该优化问题损失函数包含内容损失，风格损失和时序损失和全变分损失；将内容图像，风格图像和所求的新图像分别记为

对于神经网络的第l层，若它有N_l个不同的滤波器，则它具有N_l个尺寸为M_l的特征图，其中M_l是特征图宽和高的乘积；其中P^l和F^l分别代表两张图像在网络l层的的神经响应，

表示输入图像在第l层第i个滤波器在位置j处的神经响应，

表示内容图像在第l层第i个滤波器在位置j处的神经响应；其中

表示输入图像在l层第i个和第j个特征图矢量化后的点积，

表示艺术图象在l层第i个和第j个特征图矢量化后的点积；其中

表示第k帧左眼图像在位置

处的颜色，c_k+1(x,y)为第k+1帧图像坐标为x,y处像素的颜色；其中λ_c，λ_s，λ_t，λ_tv为设定的各损失函数的权重；

选取

做为初始值，使用梯度下降法最小化

得到风格化后的

(2.3)对求解出的左眼图像根据视差场进行传播，作为初始右眼图像；利用视差场D_k对

图像扭曲得到初始右眼图像

(2.4)利用初始右眼图像，求解带视差约束的子优化问题；

其中λ_c，λ_s，λ_t，λ_tv为设定的各损失函数的权重；

选取

做为初始值，使用梯度下降法最小化

得到风格化后的

至此，得到了风格化渲染后的第k+1帧。

2.根据权利要求1所述基于深度学习的双目动画风格化渲染方法，其特征在于，所述步骤1中，可根据公式d＝f*b/z计算出视差，f为相机焦距，b为相机距离，z为像素深度。

3.根据权利要求1所述基于深度学习的双目动画风格化渲染方法，其特征在于，所述步骤2.2中，所述λ_c、λ_s、λ_t、λ_tv依次为1.0、40.0、0.02、0.08。

4.根据权利要求1所述基于深度学习的双目动画风格化渲染方法，其特征在于，所述步骤2.4中，所述λ_c、λ_s、λ_t、λ_tv依次为1.0、40.0、0.02、0.08。

5.根据权利要求1所述基于深度学习的双目动画风格化渲染方法，其特征在于，该方法减少了视觉闪烁和瑕疵，并增强了双目显示时的立体感。