CN108924528B - 一种基于深度学习的双目风格化实时渲染方法 - Google Patents

一种基于深度学习的双目风格化实时渲染方法 Download PDF

Info

Publication number
CN108924528B
CN108924528B CN201810576245.7A CN201810576245A CN108924528B CN 108924528 B CN108924528 B CN 108924528B CN 201810576245 A CN201810576245 A CN 201810576245A CN 108924528 B CN108924528 B CN 108924528B
Authority
CN
China
Prior art keywords
image
rendering
stylized
feature map
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810576245.7A
Other languages
English (en)
Other versions
CN108924528A (zh
Inventor
任重
倪朝浩
周昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201810576245.7A priority Critical patent/CN108924528B/zh
Publication of CN108924528A publication Critical patent/CN108924528A/zh
Application granted granted Critical
Publication of CN108924528B publication Critical patent/CN108924528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit

Abstract

本发明公开了一种基于深度学习的双目风格化实时渲染方法,该方法首先对固定风格训练一个图像转换网络;在运行时,将该网络分解为编码器和解码器部分;渲染时,通过三维场景渲染出原始图像,视差图,运动场等信息;并通过基于图像转换网络的后处理进行风格化,从而渲染出完整双目动画。相比与独立帧直接风格化法,该方法可以大大减少视觉闪烁和瑕疵;相比与基于最优化的方法,效率提高了两个数量级。

Description

一种基于深度学习的双目风格化实时渲染方法
技术领域
本发明涉及图像视频处理领域,尤其涉及一种针对VR头盔等双目设备的内容风格化渲染方法。
背景技术
在艺术领域,尤其是绘画方面,人类始终具有独特的能力来创造出各种各样复杂的内容和风格。尽管科学家们对这一创造过程的神经基础原理仍未研究清楚,使用计算机来生成各种内容和风格的图像已经成为计算机界内一项热门研究。随着深度学习在近些年的快速发展,基于深度学习的图像视频风格化成为主流方法。然而已经存在的各类风格化算法都是为单目的图像视频进行设计,无法在VR及3D显示设备上得到应用。本发明解决了双目内容的艺术风格化问题。
2015年Gatys等人(Gatys L A,Ecker A S,Bethge M.A Neural Algorithm ofArtistic Style[J].Computer Science,2015.)基于卷积神经网络(convolutionalneural network,简称CNN)的艺术家风格化工作,在图像生成效果上取得了显著进步,并掀起了新一波风格化的研究浪潮。Johnson等人在2016年(Johnson J,Alahi A,Li FF.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)首次提出了图像实时风格化方法。对于每一个固定的风格,他们都对其训练一个前向生成网络网络。当一个内容图像需要被风格化时,只需要做一次向前传播就可以得到结果。他们的系统需要两个网络,一个是进行训练的图像转换网络,一个是损失函数网络。Chen等人(Chen D,Liao J,Yuan L,et al.Coherent Online Video Style Transfer[J].2017:1114-1123.)在2017年做出了具有时序一致性的视频风格化实时算法。Chen等人将CNN分成两个子网络,一个为编码器,另一个是解码器。原始图像经过编码器得到一系列特征图像,利用光流对特征图进行插值后再输入解码器,则可以得到时序一致的风格化图像。
发明内容
本发明针对独立帧实时渲染方法造成闪烁,视差不一致的局限性,提供了一种基于深度学习优化的双目风格化实时渲染方法。该方法首先需要对某一固定的艺术风训练图像转换网络。在运行时,渲染分为两层,根据三维场景渲染出视差图,运动场,遮挡图的场景信息。再利用基于网络的前向传播将结果风格化,从而满足了时序一致性和视差一致性,渲染出了视觉良好的双目画面。
本发明的目的是通过以下技术方案来实现的(如图1):一种基于深度学习的双目风格化实时渲染方法,该方法包括以下步骤:
(1)训练图像转换网络:如图2,选择一个风格化图像,然后进行网络的训练;对于给定的固定风格,需要对齐训练出基于CNN的图像转换网络fW;使用
Figure GDA0002479397830000021
来求解网络中的权重,其中损失函数分别为:
Figure GDA0002479397830000022
Figure GDA0002479397830000023
其中J为选择的层数集合,对于神经网络的第l层,若它有Cl个不同的滤波器,其特征图宽和高为Wl和Hl。其中φj(y)是图像y在VGG网络中第j层的神经元输出,
Figure GDA0002479397830000024
是图像y在VGG网络中第j层的伽马矩阵。λi为权重,内容和风格为分别1.0,40.0。
使用的图像转换网络结构中,舍去了池化层,而使用卷积来做网络中的向下采样和向上采样;网络结构使用5个残差块;所有的非残差卷积层后面都使用批规范化技术;除了输出层,在每个非残差卷积层后都加上ReLU层来保持网络的非线性;最后在输出层使用尺度化的tanh将输出值控制在0到255之间;第一层和最后一次使用9x9的内核,其他卷积层使用3x3的内核;对训练中数据集的每个图像都缩放到256x256的尺寸;采用步长为1x10-3的Adam算法进行训练;
(2)渲染层数据渲染,该步骤包括以下子步骤:
(2.1)从深度缓冲中得到当前像素的深度;根据公式d=f*b/z(其中f为相机焦距,b为相机距离,z为像素深度),我们可以计算出视差,并转换出该像素在右眼相机平面中的对应位置;
(2.2)渲染运动场;对图像中每个像素发射一条射线,得到与之相交的三角形面片;根据三角形在下一帧的位置,投影计算出该像素的移动距离;
(3)基于CNN的风格化:首先将图像转换网络fW分解成两部分,前半部分为编码器
Figure GDA0002479397830000025
后半部分为解码器
Figure GDA0002479397830000026
其中编码器部分输入原始图像,输出特征图像,这一过程为图像编码;而解码器部分则输入特征图像,能够输出风格化后的图像,这一过程为特征解码,
记当前帧渲染出的原始图像为
Figure GDA0002479397830000031
视差图为Dk,运动场为
Figure GDA0002479397830000032
并记录
Figure GDA0002479397830000033
Figure GDA0002479397830000034
经过解码器生成的特征图像为
Figure GDA0002479397830000035
Figure GDA0002479397830000036
对应生成的风格化图像为
Figure GDA0002479397830000037
该步骤包括以下子步骤:
(3.1)对当前帧的左眼图像使用编码器,生成特征图;为了保持时序连续性,在生成
Figure GDA0002479397830000038
时,我们首先在编码器
Figure GDA0002479397830000039
中输入
Figure GDA00024793978300000310
得到对应的
Figure GDA00024793978300000311
(3.2)将步骤(3.1)得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像;我们利用上一帧
Figure GDA00024793978300000312
的特征图
Figure GDA00024793978300000313
结合运动场
Figure GDA00024793978300000314
Figure GDA00024793978300000315
Figure GDA00024793978300000316
进行混合(blend),记混合后的特征图为
Figure GDA00024793978300000317
此时将
Figure GDA00024793978300000318
输入解码器,则得到风格化的图像
Figure GDA00024793978300000319
(3.3)对当前帧的右眼图像使用编码器,生成特征图;将图像
Figure GDA00024793978300000320
输入编码器,得到其对应的特征图像
Figure GDA00024793978300000321
(4)将步骤(3.3)得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像;利用左眼图像混合之后的特征图
Figure GDA00024793978300000322
跟视差图Dk
Figure GDA00024793978300000323
Figure GDA00024793978300000324
进行图像混合,得到混合后的特征图为
Figure GDA00024793978300000325
Figure GDA00024793978300000326
输入解码器即得到风格化图像
Figure GDA00024793978300000327
本发明的有益效果是,本发明考虑了动态的时序连续性和双目内容的立体效果;相比于独立帧直接实时风格化的方法,该方法大量地减少了渲染动画的闪烁瑕疵。相比于基于最优化的方法,该方法提高了两个数量级的效率。
附图说明
图1中是本发明方法流程图,渲染层里包括了利用场景渲染出的图像:原始图像,运动场,视差图。后处理层使用已经对固定风格训练好的图像转换网络进行风格化。
图2是图像转换网络示意图,左边的网络结构是需要训练的图像转换网络,右边是损失函数网络,用来构成图像转换网络训练时的损失函数,采用经典的已经训练好的图像分类网络VGG-19。
图3是运行时后处理层的流程图。将图像转换网络分解为编码器和解码器,使用编码器得到的特征图与上一帧的特征图进行混合,然后使用解码器重构出图像。
图4是本发明的方法与独立直接法的渲染结果对比图,其中,(a)为独立直接法渲染出的左右眼图像对,(b)为本发明方法渲染出的图像对。
图5是本发明使用岩石风格对开源动画Sintel的渲染片段图,其中,左上角为艺术风格图像,右列从上到下为连续5帧的渲染结果。
具体实施方式
本发明的具体实施方式分为三大步骤:预训练:图像转换网络的训练,运行时:渲染层的双目渲染和后处理层的基于CNN的风格化。
一、训练图像转换网络
如图2,选择一个我们希望采用的风格化图像,然后进行网络的训练(Johnson J,Alahi A,Li F F.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)。采用表1的网络结构。对于给定的固定风格,需要对齐训练出基于CNN的图像转换网络fW。使用
Figure GDA0002479397830000041
来求解网络中的权重,其中损失函数分别为:
Figure GDA0002479397830000042
Figure GDA0002479397830000043
其中J为选择的层数集合,对于神经网络的第l层,若它有Cl个不同的滤波器,其特征图宽和高为Wl和Hl。其中φj(y)是图像y在VGG网络中第j层的神经元输出,
Figure GDA0002479397830000044
是图像y在VGG网络中第j层的伽马矩阵。λi为权重,内容和风格为分别1.0,40.0。
使用的图像转换网络结构中,舍去了池化层,而使用strided和fractionallystrided的卷积来做网络中的向下采样和向上采样。网络结构使用5个残差块(residualblock)。所有的非残差卷积层后面都使用批规范化(batch normalization)技术。除了输出层,我们在每个非残差卷积层后都加上ReLU层来保持网络的非线性。最后在输出层使用尺度化的tanh将输出值控制在0到255之间。第一层和最后一次使用9x9的内核,其他卷积层使用3x3的内核。我们使用微软的数据集MS-COCO。对训练中数据集的每个图像都缩放到256x256的尺寸。我们采用步长为1x10-3的Adam算法进行训练。
表1:图像转移网络的网络结构
尺寸维度
输入 3x256x256
32x9x9卷积,步幅1 32x256x256
64x3x3卷积,步幅2 64x128x128
128x3x3卷积,步幅2 128x64x64
残差块,128滤波器 128x64x64
残差块,128滤波器 128x64x64
残差块,128滤波器 128x64x64
残差块,128滤波器 128x64x64
残差块,128滤波器 128x64x64
64x3x3反卷积,步幅1/2 64x128x128
32x3x3反卷积,步幅1/2 32x256x256
3x9x9卷积,步幅1 3x256x256
二、渲染层数据渲染
1、从深度缓冲中得到当前像素的深度。根据公式d=f*b/z(其中f为相机焦距,b为相机距离,z为像素深度),我们可以计算出视差,并转换出该像素在右眼相机平面中的对应位置。
2、渲染运动场。对图像中每个像素发射一条射线,得到与之相交的三角形面片。根据三角形在下一帧的位置,投影计算出该像素的移动距离。
三、基于CNN的风格化
首先我们将上述的图像转换网络fW分解成两部分,前半部分为编码器
Figure GDA0002479397830000051
后半部分为解码器
Figure GDA0002479397830000052
其中编码器部分输入原始图像,输出特征图像,我们将这一过程称为图像编码。而解码器部分则输入特征图像,能够输出风格化后的图像,我们将这一过程称为特征解码,如表2。
表2:编码器与解码器的网络结构
编码器 解码器
输入 64x3x3反卷积,步幅1/2
32x9x9卷积,步幅1 32x3x3反卷积,步幅1/2
64x3x3卷积,步幅2 3x9x9卷积,步幅1
128x3x3卷积,步幅2 输出
残差块,128滤波器
残差块,128滤波器
残差块,128滤波器
残差块,128滤波器
残差块,128滤波器
记当前帧渲染出的原始图像为
Figure GDA0002479397830000061
视差图为Dk,运动场为
Figure GDA0002479397830000062
并记录
Figure GDA0002479397830000063
经过解码器生成的特征图像为
Figure GDA0002479397830000064
Figure GDA0002479397830000065
对应生成的风格化图像为
Figure GDA0002479397830000066
如图3,该步骤包括以下子步骤:
1、对当前帧的左眼图像使用编码器,生成特征图。为了保持时序连续性,在生成
Figure GDA0002479397830000067
时,我们首先在编码器
Figure GDA0002479397830000068
中输入
Figure GDA0002479397830000069
得到对应的
Figure GDA00024793978300000610
2、将上一步得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像。我们利用上一帧
Figure GDA00024793978300000611
的特征图
Figure GDA00024793978300000612
结合运动场
Figure GDA00024793978300000613
Figure GDA00024793978300000614
Figure GDA00024793978300000615
进行混合(blend),记混合后的特征图为
Figure GDA00024793978300000616
此时将
Figure GDA00024793978300000617
输入解码器,则得到风格化的图像
Figure GDA00024793978300000618
3、对当前帧的右眼图像使用编码器,生成特征图。将图像
Figure GDA00024793978300000619
输入编码器,得到其对应的特征图像
Figure GDA00024793978300000620
4、将上一步得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像。利用左眼图像混合之后的特征图
Figure GDA00024793978300000621
跟视差图Dk
Figure GDA00024793978300000622
Figure GDA00024793978300000623
进行图像混合,得到混合后的特征图为
Figure GDA00024793978300000624
Figure GDA00024793978300000625
输入解码器即得到风格化图像
Figure GDA00024793978300000626
通过上述步骤,发明人在一台配备了一个3.60GHz的Intel i7-7700 CPU,16G内存,GTX 1060显卡的计算机上实现了本发明的若干实施实例。
实施例一、发明人测试了双目实时风格化渲染算法的有效性。如图4所示,发明人对同一段动画,采用了梵高星空的风格,并分别使用本发明算法和独立帧直接法进行渲染对比。从图中不难看出,独立法对左右眼视图中的对应区域没法保持一致的风格化,而本发明的渲染结果可以满足。
实施例二、如图5所示,发明人使用了本发明方法渲染了Sintel开源动画中的片段,其中采用的是岩石艺术风格。从两图中可以观察得到,本发明渲染出的动画满足时序一致性和视差一致性,提供了良好的双目观看效果。

Claims (3)

1.一种基于深度学习的双目风格化实时渲染方法,其特征在于,该方法包括以下步骤:
(1)训练图像转换网络;
(2)进行渲染层数据渲染,渲染时,通过三维场景渲染出原始图像、视差图、运动场的信息;
(3)进行基于CNN的风格化,通过基于图像转换网络的后处理进行风格化,从而渲染出完整双目动画;
所述基于CNN的风格化,首先将图像转换网络fW分解成两部分,前半部分为编码器
Figure FDA0002506661240000011
后半部分为解码器
Figure FDA0002506661240000012
编码器部分用于图像编码,输入原始图像,输出特征图像;而解码器部分用于特征解码,输入特征图像,输出风格化后的图像;
记当前帧渲染出的原始图像为
Figure FDA0002506661240000013
视差图为Dk,运动场为
Figure FDA0002506661240000014
并记录
Figure FDA0002506661240000015
Figure FDA0002506661240000016
经过解码器生成的特征图像为
Figure FDA0002506661240000017
Figure FDA0002506661240000018
对应生成的风格化图像为
Figure FDA0002506661240000019
步骤(3)包括以下子步骤:
(3.1)对当前帧的左眼图像使用编码器,生成特征图;为了保持时序连续性,在生成
Figure FDA00025066612400000110
时,我们首先在编码器
Figure FDA00025066612400000111
中输入
Figure FDA00025066612400000112
得到对应的
Figure FDA00025066612400000113
(3.2)将步骤(3.1)得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像;利用上一帧
Figure FDA00025066612400000114
的特征图
Figure FDA00025066612400000115
结合运动场
Figure FDA00025066612400000116
Figure FDA00025066612400000117
Figure FDA00025066612400000118
进行混合,记混合后的特征图为
Figure FDA00025066612400000119
此时将
Figure FDA00025066612400000120
输入解码器,则得到风格化的图像
Figure FDA00025066612400000121
(3.3)对当前帧的右眼图像使用编码器,生成特征图;将图像
Figure FDA00025066612400000122
输入编码器,得到其对应的特征图像
Figure FDA00025066612400000123
(3.4)将步骤(3.3)得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像;利用左眼图像混合之后的特征图
Figure FDA00025066612400000124
跟视差图Dk
Figure FDA00025066612400000125
Figure FDA00025066612400000126
进行图像混合,得到混合后的特征图为
Figure FDA00025066612400000127
Figure FDA00025066612400000128
输入解码器即得到风格化图像
Figure FDA00025066612400000129
2.根据权利要求1所述的基于深度学习的双目风格化实时渲染方法,其特征在于,所述渲染层数据渲染包括以下步骤:
(2.1)从深度缓冲中得到当前像素的深度,根据像素的深度计算出视差,并转换出该像素在右眼相机平面中的对应位置;
(2.2)渲染运动场:对图像中每个像素发射一条射线,得到与之相交的三角形面片;根据三角形在下一帧的位置,投影计算出该像素的移动距离。
3.根据权利要求2所述的基于深度学习的双目风格化实时渲染方法,其特征在于,所述步骤(2.1)中,根据公式d=f*b/z计算出视差,其中,f为相机焦距,b为相机距离,z为像素深度。
CN201810576245.7A 2018-06-06 2018-06-06 一种基于深度学习的双目风格化实时渲染方法 Active CN108924528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810576245.7A CN108924528B (zh) 2018-06-06 2018-06-06 一种基于深度学习的双目风格化实时渲染方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810576245.7A CN108924528B (zh) 2018-06-06 2018-06-06 一种基于深度学习的双目风格化实时渲染方法

Publications (2)

Publication Number Publication Date
CN108924528A CN108924528A (zh) 2018-11-30
CN108924528B true CN108924528B (zh) 2020-07-28

Family

ID=64418451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810576245.7A Active CN108924528B (zh) 2018-06-06 2018-06-06 一种基于深度学习的双目风格化实时渲染方法

Country Status (1)

Country Link
CN (1) CN108924528B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175951B (zh) * 2019-05-16 2022-12-02 西安电子科技大学 基于时域一致性约束的视频风格迁移方法
CN110533579B (zh) * 2019-07-26 2022-12-02 西安电子科技大学 基于自编码结构与梯度保序的视频风格转换方法
KR20220128406A (ko) * 2020-03-01 2022-09-20 레이아 인코포레이티드 멀티뷰 스타일 전이 시스템 및 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3507773A1 (en) * 2016-09-02 2019-07-10 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures
CN106548208B (zh) * 2016-10-28 2019-05-28 杭州米绘科技有限公司 一种照片图像快速智能风格化方法
CN106651766A (zh) * 2016-12-30 2017-05-10 深圳市唯特视科技有限公司 一种基于深度卷积神经网络的图像风格迁移方法
CN107705242B (zh) * 2017-07-20 2021-12-17 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN107481185A (zh) * 2017-08-24 2017-12-15 深圳市唯特视科技有限公司 一种基于视频图像优化的风格转换方法

Also Published As

Publication number Publication date
CN108924528A (zh) 2018-11-30

Similar Documents

Publication Publication Date Title
Cho et al. Weakly-and self-supervised learning for content-aware deep image retargeting
Liu et al. A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution
CN103945208B (zh) 一种针对多视点裸眼3d显示的并行同步缩放引擎及方法
CN110136062B (zh) 一种联合语义分割的超分辨率重建方法
CN110060204B (zh) 一种基于可逆网络的单一图像超分辨率方法
CN109816011A (zh) 生成人像分割模型的方法和视频关键帧提取方法
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN110570377A (zh) 一种基于组归一化的快速图像风格迁移方法
CN108924528B (zh) 一种基于深度学习的双目风格化实时渲染方法
Chang et al. Vornet: Spatio-temporally consistent video inpainting for object removal
Gong et al. Neural stereoscopic image style transfer
Zhang et al. Multi-branch networks for video super-resolution with dynamic reconstruction strategy
Wang et al. 4k-nerf: High fidelity neural radiance fields at ultra high resolutions
Rodriguez-Pardo et al. Seamlessgan: Self-supervised synthesis of tileable texture maps
Chen et al. Deep light field super-resolution using frequency domain analysis and semantic prior
CN114170286A (zh) 一种基于无监督深度学习的单目深度估计方法
Liu et al. Facial image inpainting using attention-based multi-level generative network
CN110415169A (zh) 一种深度图超分辨率重建方法、系统及电子设备
Li et al. Image super-resolution reconstruction based on multi-scale dual-attention
Zhang et al. Light field super-resolution using complementary-view feature attention
Xu et al. Depth map super-resolution via joint local gradient and nonlocal structural regularizations
CN116309774A (zh) 一种基于事件相机的密集三维重建方法
Wang et al. VPU: a video-based point cloud upsampling framework
CN115937429A (zh) 一种基于单张图像的细粒度3d人脸重建方法
DE102018127265A1 (de) Multi-einzelbild-videointerpolation mit optischem fluss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant