CN108924528B - 一种基于深度学习的双目风格化实时渲染方法 - Google Patents
一种基于深度学习的双目风格化实时渲染方法 Download PDFInfo
- Publication number
- CN108924528B CN108924528B CN201810576245.7A CN201810576245A CN108924528B CN 108924528 B CN108924528 B CN 108924528B CN 201810576245 A CN201810576245 A CN 201810576245A CN 108924528 B CN108924528 B CN 108924528B
- Authority
- CN
- China
- Prior art keywords
- image
- rendering
- stylized
- feature map
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/061—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
Abstract
本发明公开了一种基于深度学习的双目风格化实时渲染方法,该方法首先对固定风格训练一个图像转换网络;在运行时,将该网络分解为编码器和解码器部分;渲染时,通过三维场景渲染出原始图像,视差图,运动场等信息;并通过基于图像转换网络的后处理进行风格化,从而渲染出完整双目动画。相比与独立帧直接风格化法,该方法可以大大减少视觉闪烁和瑕疵;相比与基于最优化的方法,效率提高了两个数量级。
Description
技术领域
本发明涉及图像视频处理领域,尤其涉及一种针对VR头盔等双目设备的内容风格化渲染方法。
背景技术
在艺术领域,尤其是绘画方面,人类始终具有独特的能力来创造出各种各样复杂的内容和风格。尽管科学家们对这一创造过程的神经基础原理仍未研究清楚,使用计算机来生成各种内容和风格的图像已经成为计算机界内一项热门研究。随着深度学习在近些年的快速发展,基于深度学习的图像视频风格化成为主流方法。然而已经存在的各类风格化算法都是为单目的图像视频进行设计,无法在VR及3D显示设备上得到应用。本发明解决了双目内容的艺术风格化问题。
2015年Gatys等人(Gatys L A,Ecker A S,Bethge M.A Neural Algorithm ofArtistic Style[J].Computer Science,2015.)基于卷积神经网络(convolutionalneural network,简称CNN)的艺术家风格化工作,在图像生成效果上取得了显著进步,并掀起了新一波风格化的研究浪潮。Johnson等人在2016年(Johnson J,Alahi A,Li FF.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)首次提出了图像实时风格化方法。对于每一个固定的风格,他们都对其训练一个前向生成网络网络。当一个内容图像需要被风格化时,只需要做一次向前传播就可以得到结果。他们的系统需要两个网络,一个是进行训练的图像转换网络,一个是损失函数网络。Chen等人(Chen D,Liao J,Yuan L,et al.Coherent Online Video Style Transfer[J].2017:1114-1123.)在2017年做出了具有时序一致性的视频风格化实时算法。Chen等人将CNN分成两个子网络,一个为编码器,另一个是解码器。原始图像经过编码器得到一系列特征图像,利用光流对特征图进行插值后再输入解码器,则可以得到时序一致的风格化图像。
发明内容
本发明针对独立帧实时渲染方法造成闪烁,视差不一致的局限性,提供了一种基于深度学习优化的双目风格化实时渲染方法。该方法首先需要对某一固定的艺术风训练图像转换网络。在运行时,渲染分为两层,根据三维场景渲染出视差图,运动场,遮挡图的场景信息。再利用基于网络的前向传播将结果风格化,从而满足了时序一致性和视差一致性,渲染出了视觉良好的双目画面。
本发明的目的是通过以下技术方案来实现的(如图1):一种基于深度学习的双目风格化实时渲染方法,该方法包括以下步骤:
其中J为选择的层数集合,对于神经网络的第l层,若它有Cl个不同的滤波器,其特征图宽和高为Wl和Hl。其中φj(y)是图像y在VGG网络中第j层的神经元输出,是图像y在VGG网络中第j层的伽马矩阵。λi为权重,内容和风格为分别1.0,40.0。
使用的图像转换网络结构中,舍去了池化层,而使用卷积来做网络中的向下采样和向上采样;网络结构使用5个残差块;所有的非残差卷积层后面都使用批规范化技术;除了输出层,在每个非残差卷积层后都加上ReLU层来保持网络的非线性;最后在输出层使用尺度化的tanh将输出值控制在0到255之间;第一层和最后一次使用9x9的内核,其他卷积层使用3x3的内核;对训练中数据集的每个图像都缩放到256x256的尺寸;采用步长为1x10-3的Adam算法进行训练;
(2)渲染层数据渲染,该步骤包括以下子步骤:
(2.1)从深度缓冲中得到当前像素的深度;根据公式d=f*b/z(其中f为相机焦距,b为相机距离,z为像素深度),我们可以计算出视差,并转换出该像素在右眼相机平面中的对应位置;
(2.2)渲染运动场;对图像中每个像素发射一条射线,得到与之相交的三角形面片;根据三角形在下一帧的位置,投影计算出该像素的移动距离;
(3)基于CNN的风格化:首先将图像转换网络fW分解成两部分,前半部分为编码器后半部分为解码器其中编码器部分输入原始图像,输出特征图像,这一过程为图像编码;而解码器部分则输入特征图像,能够输出风格化后的图像,这一过程为特征解码,
该步骤包括以下子步骤:
(3.2)将步骤(3.1)得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像;我们利用上一帧的特征图结合运动场将与进行混合(blend),记混合后的特征图为此时将输入解码器,则得到风格化的图像
(4)将步骤(3.3)得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像;利用左眼图像混合之后的特征图跟视差图Dk将与进行图像混合,得到混合后的特征图为将输入解码器即得到风格化图像
本发明的有益效果是,本发明考虑了动态的时序连续性和双目内容的立体效果;相比于独立帧直接实时风格化的方法,该方法大量地减少了渲染动画的闪烁瑕疵。相比于基于最优化的方法,该方法提高了两个数量级的效率。
附图说明
图1中是本发明方法流程图,渲染层里包括了利用场景渲染出的图像:原始图像,运动场,视差图。后处理层使用已经对固定风格训练好的图像转换网络进行风格化。
图2是图像转换网络示意图,左边的网络结构是需要训练的图像转换网络,右边是损失函数网络,用来构成图像转换网络训练时的损失函数,采用经典的已经训练好的图像分类网络VGG-19。
图3是运行时后处理层的流程图。将图像转换网络分解为编码器和解码器,使用编码器得到的特征图与上一帧的特征图进行混合,然后使用解码器重构出图像。
图4是本发明的方法与独立直接法的渲染结果对比图,其中,(a)为独立直接法渲染出的左右眼图像对,(b)为本发明方法渲染出的图像对。
图5是本发明使用岩石风格对开源动画Sintel的渲染片段图,其中,左上角为艺术风格图像,右列从上到下为连续5帧的渲染结果。
具体实施方式
本发明的具体实施方式分为三大步骤:预训练:图像转换网络的训练,运行时:渲染层的双目渲染和后处理层的基于CNN的风格化。
一、训练图像转换网络
如图2,选择一个我们希望采用的风格化图像,然后进行网络的训练(Johnson J,Alahi A,Li F F.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)。采用表1的网络结构。对于给定的固定风格,需要对齐训练出基于CNN的图像转换网络fW。使用来求解网络中的权重,其中损失函数分别为:
其中J为选择的层数集合,对于神经网络的第l层,若它有Cl个不同的滤波器,其特征图宽和高为Wl和Hl。其中φj(y)是图像y在VGG网络中第j层的神经元输出,是图像y在VGG网络中第j层的伽马矩阵。λi为权重,内容和风格为分别1.0,40.0。
使用的图像转换网络结构中,舍去了池化层,而使用strided和fractionallystrided的卷积来做网络中的向下采样和向上采样。网络结构使用5个残差块(residualblock)。所有的非残差卷积层后面都使用批规范化(batch normalization)技术。除了输出层,我们在每个非残差卷积层后都加上ReLU层来保持网络的非线性。最后在输出层使用尺度化的tanh将输出值控制在0到255之间。第一层和最后一次使用9x9的内核,其他卷积层使用3x3的内核。我们使用微软的数据集MS-COCO。对训练中数据集的每个图像都缩放到256x256的尺寸。我们采用步长为1x10-3的Adam算法进行训练。
表1:图像转移网络的网络结构
层 | 尺寸维度 |
输入 | 3x256x256 |
32x9x9卷积,步幅1 | 32x256x256 |
64x3x3卷积,步幅2 | 64x128x128 |
128x3x3卷积,步幅2 | 128x64x64 |
残差块,128滤波器 | 128x64x64 |
残差块,128滤波器 | 128x64x64 |
残差块,128滤波器 | 128x64x64 |
残差块,128滤波器 | 128x64x64 |
残差块,128滤波器 | 128x64x64 |
64x3x3反卷积,步幅1/2 | 64x128x128 |
32x3x3反卷积,步幅1/2 | 32x256x256 |
3x9x9卷积,步幅1 | 3x256x256 |
二、渲染层数据渲染
1、从深度缓冲中得到当前像素的深度。根据公式d=f*b/z(其中f为相机焦距,b为相机距离,z为像素深度),我们可以计算出视差,并转换出该像素在右眼相机平面中的对应位置。
2、渲染运动场。对图像中每个像素发射一条射线,得到与之相交的三角形面片。根据三角形在下一帧的位置,投影计算出该像素的移动距离。
三、基于CNN的风格化
首先我们将上述的图像转换网络fW分解成两部分,前半部分为编码器后半部分为解码器其中编码器部分输入原始图像,输出特征图像,我们将这一过程称为图像编码。而解码器部分则输入特征图像,能够输出风格化后的图像,我们将这一过程称为特征解码,如表2。
表2:编码器与解码器的网络结构
编码器 | 解码器 |
输入 | 64x3x3反卷积,步幅1/2 |
32x9x9卷积,步幅1 | 32x3x3反卷积,步幅1/2 |
64x3x3卷积,步幅2 | 3x9x9卷积,步幅1 |
128x3x3卷积,步幅2 | 输出 |
残差块,128滤波器 | |
残差块,128滤波器 | |
残差块,128滤波器 | |
残差块,128滤波器 | |
残差块,128滤波器 |
2、将上一步得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像。我们利用上一帧的特征图结合运动场将与进行混合(blend),记混合后的特征图为此时将输入解码器,则得到风格化的图像
4、将上一步得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像。利用左眼图像混合之后的特征图跟视差图Dk将与进行图像混合,得到混合后的特征图为将输入解码器即得到风格化图像
通过上述步骤,发明人在一台配备了一个3.60GHz的Intel i7-7700 CPU,16G内存,GTX 1060显卡的计算机上实现了本发明的若干实施实例。
实施例一、发明人测试了双目实时风格化渲染算法的有效性。如图4所示,发明人对同一段动画,采用了梵高星空的风格,并分别使用本发明算法和独立帧直接法进行渲染对比。从图中不难看出,独立法对左右眼视图中的对应区域没法保持一致的风格化,而本发明的渲染结果可以满足。
实施例二、如图5所示,发明人使用了本发明方法渲染了Sintel开源动画中的片段,其中采用的是岩石艺术风格。从两图中可以观察得到,本发明渲染出的动画满足时序一致性和视差一致性,提供了良好的双目观看效果。
Claims (3)
1.一种基于深度学习的双目风格化实时渲染方法,其特征在于,该方法包括以下步骤:
(1)训练图像转换网络;
(2)进行渲染层数据渲染,渲染时,通过三维场景渲染出原始图像、视差图、运动场的信息;
(3)进行基于CNN的风格化,通过基于图像转换网络的后处理进行风格化,从而渲染出完整双目动画;
所述基于CNN的风格化,首先将图像转换网络fW分解成两部分,前半部分为编码器后半部分为解码器编码器部分用于图像编码,输入原始图像,输出特征图像;而解码器部分用于特征解码,输入特征图像,输出风格化后的图像;
步骤(3)包括以下子步骤:
(3.2)将步骤(3.1)得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像;利用上一帧的特征图结合运动场将与进行混合,记混合后的特征图为此时将输入解码器,则得到风格化的图像
2.根据权利要求1所述的基于深度学习的双目风格化实时渲染方法,其特征在于,所述渲染层数据渲染包括以下步骤:
(2.1)从深度缓冲中得到当前像素的深度,根据像素的深度计算出视差,并转换出该像素在右眼相机平面中的对应位置;
(2.2)渲染运动场:对图像中每个像素发射一条射线,得到与之相交的三角形面片;根据三角形在下一帧的位置,投影计算出该像素的移动距离。
3.根据权利要求2所述的基于深度学习的双目风格化实时渲染方法,其特征在于,所述步骤(2.1)中,根据公式d=f*b/z计算出视差,其中,f为相机焦距,b为相机距离,z为像素深度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576245.7A CN108924528B (zh) | 2018-06-06 | 2018-06-06 | 一种基于深度学习的双目风格化实时渲染方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576245.7A CN108924528B (zh) | 2018-06-06 | 2018-06-06 | 一种基于深度学习的双目风格化实时渲染方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108924528A CN108924528A (zh) | 2018-11-30 |
CN108924528B true CN108924528B (zh) | 2020-07-28 |
Family
ID=64418451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810576245.7A Active CN108924528B (zh) | 2018-06-06 | 2018-06-06 | 一种基于深度学习的双目风格化实时渲染方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108924528B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175951B (zh) * | 2019-05-16 | 2022-12-02 | 西安电子科技大学 | 基于时域一致性约束的视频风格迁移方法 |
CN110533579B (zh) * | 2019-07-26 | 2022-12-02 | 西安电子科技大学 | 基于自编码结构与梯度保序的视频风格转换方法 |
KR20220128406A (ko) * | 2020-03-01 | 2022-09-20 | 레이아 인코포레이티드 | 멀티뷰 스타일 전이 시스템 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3507773A1 (en) * | 2016-09-02 | 2019-07-10 | Artomatix Ltd. | Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures |
CN106548208B (zh) * | 2016-10-28 | 2019-05-28 | 杭州米绘科技有限公司 | 一种照片图像快速智能风格化方法 |
CN106651766A (zh) * | 2016-12-30 | 2017-05-10 | 深圳市唯特视科技有限公司 | 一种基于深度卷积神经网络的图像风格迁移方法 |
CN107705242B (zh) * | 2017-07-20 | 2021-12-17 | 广东工业大学 | 一种结合深度学习与深度感知的图像风格化迁移方法 |
CN107481185A (zh) * | 2017-08-24 | 2017-12-15 | 深圳市唯特视科技有限公司 | 一种基于视频图像优化的风格转换方法 |
-
2018
- 2018-06-06 CN CN201810576245.7A patent/CN108924528B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108924528A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cho et al. | Weakly-and self-supervised learning for content-aware deep image retargeting | |
Liu et al. | A spectral grouping and attention-driven residual dense network for hyperspectral image super-resolution | |
CN103945208B (zh) | 一种针对多视点裸眼3d显示的并行同步缩放引擎及方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN110060204B (zh) | 一种基于可逆网络的单一图像超分辨率方法 | |
CN109816011A (zh) | 生成人像分割模型的方法和视频关键帧提取方法 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN110570377A (zh) | 一种基于组归一化的快速图像风格迁移方法 | |
CN108924528B (zh) | 一种基于深度学习的双目风格化实时渲染方法 | |
Chang et al. | Vornet: Spatio-temporally consistent video inpainting for object removal | |
Gong et al. | Neural stereoscopic image style transfer | |
Zhang et al. | Multi-branch networks for video super-resolution with dynamic reconstruction strategy | |
Wang et al. | 4k-nerf: High fidelity neural radiance fields at ultra high resolutions | |
Rodriguez-Pardo et al. | Seamlessgan: Self-supervised synthesis of tileable texture maps | |
Chen et al. | Deep light field super-resolution using frequency domain analysis and semantic prior | |
CN114170286A (zh) | 一种基于无监督深度学习的单目深度估计方法 | |
Liu et al. | Facial image inpainting using attention-based multi-level generative network | |
CN110415169A (zh) | 一种深度图超分辨率重建方法、系统及电子设备 | |
Li et al. | Image super-resolution reconstruction based on multi-scale dual-attention | |
Zhang et al. | Light field super-resolution using complementary-view feature attention | |
Xu et al. | Depth map super-resolution via joint local gradient and nonlocal structural regularizations | |
CN116309774A (zh) | 一种基于事件相机的密集三维重建方法 | |
Wang et al. | VPU: a video-based point cloud upsampling framework | |
CN115937429A (zh) | 一种基于单张图像的细粒度3d人脸重建方法 | |
DE102018127265A1 (de) | Multi-einzelbild-videointerpolation mit optischem fluss |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |