CN111652960A - 一种基于可微渲染器的从单幅图像求解人脸反射材质的方法 - Google Patents

一种基于可微渲染器的从单幅图像求解人脸反射材质的方法 Download PDF

Info

Publication number
CN111652960A
CN111652960A CN202010377197.6A CN202010377197A CN111652960A CN 111652960 A CN111652960 A CN 111652960A CN 202010377197 A CN202010377197 A CN 202010377197A CN 111652960 A CN111652960 A CN 111652960A
Authority
CN
China
Prior art keywords
image
face
network
reflection material
spherical harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010377197.6A
Other languages
English (en)
Other versions
CN111652960B (zh
Inventor
翁彦琳
周昆
耿佳豪
王律迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Faceunity Technology Co ltd
Zhejiang University ZJU
Original Assignee
Hangzhou Faceunity Technology Co ltd
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Faceunity Technology Co ltd, Zhejiang University ZJU filed Critical Hangzhou Faceunity Technology Co ltd
Priority to CN202010377197.6A priority Critical patent/CN111652960B/zh
Publication of CN111652960A publication Critical patent/CN111652960A/zh
Application granted granted Critical
Publication of CN111652960B publication Critical patent/CN111652960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/005General purpose rendering architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/60Shadow generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2215/00Indexing scheme for image rendering
    • G06T2215/12Shadow map, environment map

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Graphics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

本发明公开了一种基于可微渲染器的从单幅图像求解人脸反射材质的方法。该方法主要分为五个步骤:图像中人脸3D几何信息的计算、人脸反射隐空间与球谐光照的初始化、人脸反射隐空间到人脸反射材质图像的解码、人脸反射材质的质量提升、迭代优化人脸反射材质的隐空间系数和球谐光照系数并根据反射材质隐空间系数求解人脸反射材质。本发明可以根据一张正面中性表情的人脸图片迭代求解高质量人脸材质,利用得到的材质进行人脸重建以及再渲染的结果均达到当前最先进技术的水平。本发明可以应用在一系列应用中,如人脸材质的捕捉,人脸的重建,以及真实人脸渲染等应用。

Description

一种基于可微渲染器的从单幅图像求解人脸反射材质的方法
技术领域
本发明涉及人脸面部捕捉领域,尤其涉及一种基于单张图像求解人脸反射材质的方法。
背景技术
关于人脸面部捕捉领域,有一类基于专业设备的专业面部捕捉方法。这些方法需要目标人物在一种特定且受控的环境中,并由专业人员使用专门设计的设备与算法求解目标人物的反射材质。例如通过Light Stages(Paul Debevec,Tim Hawkins,Chris Tchou,Haarm-Pieter Duiker, Westley Sarokin,and Mark Sagar.2000.Acquiring theReflectance Field of a Human Face.In Proceedings of SIGGRAPH 2000.)(AbhijeetGhosh,Graham Fyffe,Borom Tunwattanapong,Jay Busch,Xueming Yu,and PaulDebevec.2011.Multiview Face Capture using Polarized Spherical GradientIllumination.ACMTrans.Graphics(Proc.SIGGRAPHAsia)(2011).)(Wan-Chun Ma,TimHawkins,Pieter Peers,Charles-Felix Chabert,Malte Weiss,and PaulDebevec.2007.Rapid Acquisition of Specular and Diffuse Normal Maps fromPolarized Spherical Gradient Illumination.) 得到的高质量数据推动了影视行业中众多数字形象的创作。也有像(Thabo Beeler,Bernd Bickel,Paul Beardsley,BobSumner,and Markus Gross.2010.High-Quality Single-Shot Capture of FacialGeometry.ACM Trans.on Graphics(Proc.SIGGRAPH)29,3(2010),40:1–40:9.)(ThaboBeeler,Fabian Hahn,Derek Bradley,Bernd Bickel,Paul Beardsley,Craig Gotsman,Robert W. Sumner,and Markus Gross.2011.High-quality passive facialperformance capture using anchor frames.ACM Trans.Graph.30,4(Aug.2011),75:1–75:10. https://doi.org/10.1145/2010324.1964970)基于多相机设备,利用shape-from-shading技术重建人脸中毛孔级别的细微信息。Graham等人(P.Graham,BoromTunwattanapong,Jay Busch,X.Yu, Andrew Jones,and PaulDebevec.2013.Measurement-based Synthesis of Facial Microgeometry.) 使用光学和弹性传感器测量面部围观信息。这样的技术可以用来创造高逼真度的数字形象,就像方法(J.von der Pahlen,J.Jimenez,E.Danvoye,Paul Debevec,Graham Fyffe,and OlegAlexander.2014.Digital Ira and Beyond:Creating a Real-Time Photoreal DigitalActor.Technical Report.)这些方法虽然可以重建高逼真度的数字人脸形象,但是它们对设备要求高且设备价格昂贵,需要专业人员操作,对普通用户不友好。
除此之外,也有一些基于单视图的面部捕捉方法,其中3D可形变模型(VolkerBlanz and Thomas Vetter.1999.A Morphable Model for the Synthesis of 3DFaces.In SIGGRAPH. https://doi.org/10.1145/311535.311556)是最早成功地将人脸形状和外观变化建模为一组正交基的线性组合。多年来,3D可形变模型影响了众多方法的发展例如(James Booth,Anastasios Roussos,Stefanos Zafeiriou,Allan Ponniahy,andDavid Dunaway.2016.A 3D Morphable Model Learnt from 10,000Faces.In 2016IEEEConference on Computer Vision and Pattern Recognition (CVPR).5543–5552.https://doi.org/10.1109/CVPR.2016.598ISSN:1063-6919.)(IraKemelmacher.2013.Internet Based Morphable Model.3256–3263.https://doi.org/10.1109/ICCV.2013.404)(Justus Thies,Michael Zollhofer,Marc Stamminger,Christian Theobalt, and Matthias Nieβner.2016.Face2face:Real-time facecapture and reenactment of rgb videos.In Proceedings ofthe IEEE Conference onComputer Vision and Pattern Recognition.2387–2395.)。这些基于参数化的线性模型方法,都是利用最小化拟合损失函数来生成人脸形状和反射材质,这类方法的主要缺陷在于其效果受限于线性模型的表达能力,线性模型难以逼真地表达人脸特征。像(AyushTewari,Michael
Figure BDA0002480400060000021
Hyeongwoo Kim,Pablo Garrido,Florian Bernard, Patrick Pérez,and Christian Theobalt.2017.MoFA:Model-based Deep Convolutional FaceAutoencoder for Unsupervised Monocular Reconstruction.In arXiv:1703.10580[cs]. http://arxiv.org/abs/1703.10580arXiv:1703.10580.)(Luan Tran,Feng Liu,and Xiaoming Liu. 2019.Towards High-fidelity Nonlinear 3D Face MorphableModel.In In Proceeding ofIEEE Computer Vision and Pattern Recognition.LongBeach,CA.)(Kyle Genova,Forrester Cole,Aaron Maschinot,Aaron Sarna,DanielVlasic,and William T.Freeman.2018.Unsupervised Training for 3D MorphableModel Regression.In arXiv:1806.06098[cs].http://arxiv.org/abs/1806.06098arXiv: 1806.06098.)(Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and Xin Tong.2019. Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From Single Image to Image Set.In Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition Workshops.0–0.)这些方法利用神经网络分离单张人脸图像的几何与反射材质。然而这些方法并非旨在生成可用于高真实度人脸重建的材质,因此它们的效果依然缺乏表现力。
另外也有一些旨在生成高真实度人脸反射材质的方法。Saito等人提出了一种从单张无约束图像中推断高分辨率漫反射材质的算法(Shunsuke Saito,Lingyu Wei,LiwenHu,Koki Nagano,and Hao Li.2017.Photorealistic Facial Texture Inference UsingDeep Neural Networks.In arXiv:1612.00523[cs].http://arxiv.org/abs/1612.00523arXiv:1612.00523.),他们的中心思想是利用神经网络的中间层特征相关性混合数据库中的高分辨率材质,以此生成微小的人脸细节特征。Yamaguchi等人提出了另一种基于深度学习的算法(Shuco Yamaguchi,Shunsuke Saito, Koki Nagano,Yajie Zhao,Weikai Chen,Kyle Olszewski,Shigeo Morishima,and Hao Li.2018. High-fidelityfacial reflectance and geometry inference from an unconstrained image.ACMTransactions on Graphics(TOG)37,4(2018),162.),他们可以从单张无约束图像中推断人脸高质量材质,并且可以用它们渲染出合理真实的结果,但是他们的方法无法保证渲染结果与目标图像特征的一致性。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于可微渲染器的从单幅图像求解高质量人脸反射材质的方法。本发明先检测输入图像人脸3D几何信息,并初始化人脸反射材质隐空间与球谐光照变量,再利用基于神经网络的解码器解码隐空间变量,生成对应的人脸反射材质,然后利用基于神经网络的质量强化器提升解码器生成的反射材质的质量,最后由基于物理的可微渲染器根据反射材质和球谐光照进行人物渲染,并最小化渲染结果与输入人脸之间在颜色空间的差异,对隐空间与球谐光照变量进行迭代更新,直至收敛,最终得到的隐空间变量经解码与质量强化操作可以得到符合输入人脸特征且高质量的人脸反射材质,用上述材质进行渲染,可以得到高逼真度、高特征匹配的渲染结果。该方法达到最先进的人脸材质生成技术水平,具有很高的实用价值。
本发明的目的是通过以下技术方案来实现的:一种基于可微渲染器的从单幅图像求解人脸反射材质的方法,包括以下步骤:
(1)计算输入图像中人脸的3D信息,并根据3D信息获得纹理空间的人脸颜色图和用于基于物理的可微渲染的静态信息。所述3D信息包括人脸的3D模型、刚体变化矩阵以及投影矩阵;所述静态信息包括阴影贴图Tsha和环境法向贴图Tbn
(2)基于步骤1得到的纹理空间人脸颜色图,通过基于卷积神经网络的编码器编码得到人脸反射材质隐空间系数初始值
Figure BDA0002480400060000031
和球谐光照系数的初始值
Figure BDA0002480400060000032
*是a,n,s分别表示漫反射材质、法向材质以及镜面反射材质。
(3)利用基于卷积神经网络实现的可微解码器,将人脸反射材质隐空间的系数
Figure BDA0002480400060000033
解码为相应的反射材质图像
Figure BDA0002480400060000034
(4)提升步骤3得到的反射材质图像
Figure BDA0002480400060000035
的分辨率及细节质量得到图像T*
(5)通过最小化基于物理的可微渲染器渲染步骤4提升了质量的反射材质图像T*得到的渲染结果与输入人脸图像的差异,迭代优化人脸反射材质的隐空间系数和球谐光照系数,将优化后的人脸反射材质隐空间系数通过步骤3-4的解码与质量提升操作求解得到人脸反射材质。
进一步地,所述步骤1包括如下子步骤:
(1.1)人脸3D信息的计算:检测输入图像中人脸的二维特征点,并利用可形变模型优化人物身份系数、刚体变化矩阵以及投影矩阵,通过可形变模型与人物身份系数的线性插值,得到该人物的3D模型。
(1.2)纹理空间的人脸颜色图片的计算:利用步骤1.1得到的刚体变化矩阵、投影矩阵,将步骤1.1得到的3D模型投影至输入图像,建立3D模型的每个顶点与图像像素的映射,将输入图像像素映射至3D模型的顶点,再利用3D模型的顶点与纹理空间的映射,将图像像素映射至纹理空间,然后通过对纹理空间三角网格化及三角形重心坐标插值,得到纹理空间的人脸颜色图像。
(1.3)基于物理的可微渲染的静态信息的计算:利用1.1步骤中的3D模型、刚体变化矩阵、投影矩阵,将纹理坐标作为颜色信息绘制至图像空间,得到纹理坐标图像Iuv;利用1.1 步骤得到的刚体变化矩阵、3D模型,得到经过刚性变化的3D模型,利用光线追踪算法计算上述3D模型每个顶点各个方向的遮挡,并将其投影至球谐函数多项式,由此得到每个顶点遮挡的球谐系数;另外记录未遮挡区域占比以及未遮挡区域的中心方向,得到每个顶点的环境法向量。最后通过纹理空间的三角网格化,以及分别对每个顶点的遮挡球谐系数和环境法向量进行三角形重心坐标插值,得到最终的阴影贴图Tsha和环境法向贴图Tbn
进一步地,所述步骤1.2中,利用泊松算法填补纹理空间的人脸颜色图像中存在的空洞区域。
进一步地,基于卷积神经网络的编码器、解码器通过组成U型网络共同训练得到,训练具体包括如下子步骤:
(a)训练数据:获取N张目标人脸图像Io及对应的漫反射材质
Figure BDA0002480400060000041
法向材质
Figure BDA0002480400060000042
以及镜面反射材质
Figure BDA0002480400060000043
将人脸图像映射到纹理空间,得到对应的纹理空间人脸颜色图像I。
Figure BDA0002480400060000044
Figure BDA0002480400060000045
组成U型网络的训练数据,其中每项分辨率都为1024×1024。
(b)漫反射材质、法向材质、镜面反射材质各有一个U型网络。对于漫反射材质的U型网络Ua,输入是经缩放的纹理空间人脸颜色图像
Figure BDA0002480400060000046
Ua的编码器部分Ea包含9个下采样模块,前8个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最终编码成为1×1×1024的漫反射材质隐空间。Ua的解码器部分Da包含9个上采样模块,每个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为 Sigmoid的卷积层得到最终分辨率为512×512×3的输出。法向材质的U型网络Un,输入是经过区域插值缩放的纹理空间人脸颜色图像
Figure BDA0002480400060000051
分辨率是256×256,其编码器En包括8个下采样模块,前7个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最终编码成为1×1×512的法向材质隐空间。解码器Dn中包括8个上采样模块,前7个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×3的输出。镜面反射材质的U型网络Us, 其编码器结构Es与En相同,Ds前7个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×1的输出。其中,U形状网络的E*与D*中最高分辨率的3个模块进行跳跃式传递连接,*为a,n,s。
(c)训练的损失函数的定义如下:
Figure BDA0002480400060000052
Figure BDA0002480400060000053
U*表示U型网络,其中下标*可以是a,n,s分别表示漫反射材质、法向材质、镜面反射材质,
Figure BDA0002480400060000054
表示表示缩放后的纹理空间的人脸颜色图像,
Figure BDA0002480400060000055
Figure BDA0002480400060000056
分别表示U型网络输出材质图像与相应的缩放后的真实材质图像,其中
Figure BDA0002480400060000057
分辨率是512×512,而
Figure BDA0002480400060000058
分辨率是256×256。
Figure BDA0002480400060000059
分辨率是512×512,而
Figure BDA00024804000600000510
的分辨率是256×256。
进一步地,所述步骤2中,输入图像的球谐光照的初始值
Figure BDA00024804000600000511
通过构建球谐光照系数回归网络获得,所述球谐光照系数回归网络包括基于卷积神经网络的编码器以及全连接构成的回归模块,训练过程包括如下步骤:
(A)由{Io,ze}组成训练数据对,其中球谐系数ze根据HDR环境光图像Ie,通过下式计算:
Figure BDA00024804000600000512
其中i,j表示图像长宽W,H方向的笛卡尔坐标,Yk表示球谐函数多项式,k表示球谐的阶数, 0≤k<9,φ表示图像坐标i,j到球面坐标θ,
Figure BDA00024804000600000513
的转换方程,其表达式如下:
Figure BDA00024804000600000514
Figure BDA00024804000600000515
(B)缩放Io至分辨率256×256作为网络输入,利用L2范数作为损失函数对网络进行端到端的监督性学习训练。
进一步地,所述步骤4中,通过构建反射材质质量强化网络R*提升反射材质图像
Figure BDA0002480400060000061
的分辨率及细节质量,具体包括如下子步骤:
(4.1)训练基于卷积神经网络的反射材质质量强化网络,具体如下:
(4.1.1)训练数据:将训练用的人脸颜色图像I输入步骤2训练好的U型网络生成
Figure BDA0002480400060000062
与人脸颜色图像I原始的
Figure BDA0002480400060000063
组成训练数据对
Figure BDA0002480400060000064
*表示a,n,s。
(4.1.2)训练方式:采用SRGAN网络作为反射材质质量强化网络R*,并采用生成对抗 (GAN)方式训练;其中,对于漫反射材质质量强化网络Ra,输入为512×512的
Figure BDA0002480400060000065
输出图像分辨率为1024×1024。对于法向材质质量强化网络Rn,和高光材质质量强化网络Rs,其网络的第一层接受的图像深度为4,输入包括
Figure BDA0002480400060000066
和缩放的纹理空间的人脸颜色图像
Figure BDA0002480400060000067
输入的分辨率为256×256,输出分辨率为1024×1024的高质量材质图像。
(4.2)材质图像的质量强化:基于步骤3生成的
Figure BDA0002480400060000068
利用步骤4.1中训练好的质量强化网络进行质量强化,得到高质量材质图像T*,*表示a,n,s,整个过程可以用下式表示:
Figure BDA0002480400060000069
Figure BDA00024804000600000610
Figure BDA00024804000600000611
Figure BDA00024804000600000612
表示缩放至256×256的纹理空间人脸颜色图像。
进一步地,所述步骤5包括如下子步骤:
(5.1)利用反射材质和球谐光照进行基于物理的正向渲染:
(5.1.1)计算人脸漫反射:按照步骤1.3中得到Iuv对T*质量强化网络输出的Ta、Tn和Ts以及阴影贴图Tsha和环境法向贴图Tbn进行双线性采样,得到对应的图像空间的材质图像t*,*是 a,n,s,sha,bn分别表示漫反射材质、法向材质、镜面反射材质、阴影贴图以及环境法向贴图。遍历Iuv中所有像素,利用以下基于物理的渲染公式计算每个像素的漫反射光照:
Figure BDA00024804000600000613
其中,k表示球谐函数多项式的阶数,利用球谐乘投影性质将ze,v进行重投影,得到w,v 表示每个像素各个方向的可见性,记录在tsha中;c由max(0,cosθ)的球谐系数旋转至当前像素法向方向n的球谐系数,n记录在tn中。
(5.1.2)计算人脸镜面反射并计算渲染结果:利用以下公式计算人脸镜面高光反射:
Ls=DFG·LD,
其中DFG表示预先计算的服从GGX分布的渲染传输方程,LD的计算方式如下:
Figure BDA00024804000600000614
利用以下公式融合漫反射与镜面反射,计算Iuv中每个像素的渲染结果:
Figure BDA0002480400060000071
Figure BDA0002480400060000072
即为最终渲染结果。
(5.2)迭代优化材质隐空间变量与球谐光照系数ze:最小化以下公式:
Figure BDA0002480400060000073
L表示损失函数,
Figure BDA0002480400060000074
表示步骤5.1的可微渲染过程。利用可微渲染、可微的质量强化网络以及可微的解码器,将损失值反向传递至z*,并迭代更新z*,*是a,n,s,e分别表示漫反射材质、法向材质、镜面反射材质、球谐光照,直至收敛,最后向漫反射、法向量、镜面反射材质解码器分别输入za,zn,zs,并将其输出再输入至对应的材质质量强化网络,得到符合输入图像人物特征的材质Ta,Tn,Ts
本发明的有益效果是,本发明提出结合基于神经网络的非线性解码器、质量强化其与基于物理的可微渲染器从单张人脸图像中计算人脸反射材质的方法。借助基于神经网络的非线性解码器与质量强化器表达复杂的人脸反射材质空间,另外借助基于物理的可微渲染器优化人脸反射材质空间,使得求解的人脸反射材质符合输入人脸的特征,且渲染得到结果逼真且与输入人脸相像。本方法达到人脸反射材质求解技术的最先进水平,且处理时间短。本发明可以用于人脸材质的捕捉,人脸的重建,以及真实人脸的渲染等应用。
附图说明
图1是应用本发明的方法对第一张人脸图片材质求解、重建及再渲染的结果图,图中, A为输入图像,B是利用求解得到的人脸反射材质重建的结果,C是在新光照条件下渲染结果;D是漫反射材质ta,E是法向材质tn,F是镜面反射材质ts
图2是应用本发明的方法对第二张人脸图片材质求解、重建及再渲染的结果图,图中, A为输入图像,B是利用求解得到的人脸反射材质重建的结果,C是在新光照条件下渲染结果;D是漫反射材质ta,E是法向材质tn,F是镜面反射材质ts
图3是应用本发明的方法对第三张人脸图片材质求解、重建及再渲染的结果图,图中, A为输入图像,B是利用求解得到的人脸反射材质重建的结果,C是在新光照条件下渲染结果;D是漫反射材质ta,E是法向材质tn,F是镜面反射材质ts
图4是应用本发明的方法对第四张人脸图片材质求解、重建及再渲染的结果图,图中, A为输入图像,B是利用求解得到的人脸反射材质重建的结果,C是在新光照条件下渲染结果;D是漫反射材质ta,E是法向材质tn,F是镜面反射材质ts
图5是应用本发明的方法对第五张人脸图片材质求解、重建及再渲染的结果图,图中,A为输入图像,B是利用求解得到的人脸反射材质重建的结果,C是在新光照条件下渲染结果;D是漫反射材质ta,E是法向材质tn,F是镜面反射材质ts
具体实施方式
本发明的核心技术利用神经网络非线性表达复杂的人脸反射材质空间,并利用基于物理的可微渲染器优化该空间,以得到符合输入图像特征的人脸反射材质。该方法主要分为以下五个主要步骤:人脸3D几何信息的计算,人脸反射材质隐空间以及球谐光照的初始化,隐空间到反射材质图像的解码,人脸反射材质的质量提升,迭代优化人脸反射材质的隐空间系数和球谐光照系数并根据反射材质隐空间系数求解人脸反射材质。
下面详细说明本发明的各个步骤。图1-5是应用本发明的方法对五张人物图片进行材质求解、人脸重建以及在新光照下再渲染的结果。每张图中第一行的左图是输入图像,中图是利用求解得到的人脸反射材质重建的结果,右图是在新光照条件下渲染结果;第二行左图是漫反射材质ta,中图是法向材质tn,右图是镜面反射材质ts,由Iuv对求解得到的材质双线性采样获得。
1.图像中人脸3D几何信息的计算:计算输入图像中人脸的3D信息,并获得纹理空间的人脸颜色图以及用于基于物理的可微渲染的静态信息。
1.1人脸3D信息的计算
本发明采用算法(Chen Cao,Qiming Hou,and Kun Zhou.2014a.Displaceddynamic expression regression for real-time facial tracking and animation.ACMTransactions on graphics (TOG)33,4(2014),43.)来检测输入图像脸部二维特征点,采用(Justus Thies,Michael Zollhofer, Marc Stamminger,Christian Theobalt,andMatthias Nieβner.2016.Face2face:Real-time face capture and reenactment of rgbvideos.In Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition.2387–2395.)求解人物身份系数(identity)、刚体变化矩阵以及投影矩阵,通过身份系数对可形变形状模型插值,可以得到输入人脸的3D模型:
1.2纹理空间的人脸颜色图片计算
利用步骤1.1得到的刚体变化矩阵、投影矩阵,将步骤1.1得到的3D模型投影至输入图像,建立3D模型的每个顶点与图像像素的映射,由此可以将输入图像像素映射至3D模型的顶点,再利用3D模型的顶点与纹理空间的映射,可以将图像像素映射至纹理空间,然后通过对纹理空间三角网格化以及三角形重心坐标插值,得到纹理空间的人脸颜色图像。由于输入人脸存在遮挡,上述纹理空间的人脸颜色图像存在空洞区域,利用泊松算法填补空洞,得到最终的纹理空间人脸颜色图像。
1.3基于物理的可微渲染的静态信息的计算
利用1.1步骤中的3D模型、刚体变化矩阵、投影矩阵,将纹理坐标作为颜色信息绘制至图像空间,得到纹理坐标图像Iuv;利用1.1步骤得到的刚体变化矩阵、3D模型,得到经过刚性变化的3D模型,利用光线追踪算法计算上述3D模型每个顶点各个方向的遮挡,并将其投影至球谐函数多项式,本实施方式中采用9阶,由此得到每个顶点遮挡的球谐系数;另外记录未遮挡区域占比以及未遮挡区域的中心方向,得到每个顶点的环境法向量。最后通过纹理空间的三角网格化,以及分别对每个顶点的遮挡球谐系数和环境法向量进行三角形重心坐标插值,得到最终的阴影贴图Tsha和环境法向贴图Tbn
2.人脸反射材质隐空间与球谐光照的初始化:基于步骤1得到的纹理空间人脸颜色图,通过基于卷积神经网络的编码器编码得到人脸反射材质隐空间系数和球谐光照的初始值。
2.1训练基于卷积神经网络的U型网络
训练数据。人脸模型数据库中包含84个3D数字人物,每个人物包含3D模型、漫反射材质
Figure BDA0002480400060000091
法向材质
Figure BDA0002480400060000092
以及镜面反射材质
Figure BDA0002480400060000093
本实施例中数据来源于3D Scan Store。用CFD(Debbie S Ma,Joshua Correll,and Bernd Wittenbrink.2015.The Chicago facedatabase:A free stimulus set of faces and norming data.Behavior researchmethods 47,4(2015),1122–1135.)中人脸照片对漫反射材质进行肤色数据增广得到约4000张漫反射材质图像。另外环境光数据库中包含2957张HDR环境光图像Ie。利用上述数据,我们通过基于图像的光照技术以及基于屏幕的次表面技术渲染人脸图像,在渲染过程中,我们随机转动3D模型和HDR环境光图像Ie。这样总共得到约十万张目标人脸图像Io.将人脸图像映射到纹理空间,得到对应的纹理空间人脸颜色图像I。由
Figure BDA0002480400060000094
组成U型网络的训练数据,其中每项分辨率都为1024×1024。
网络结构。U型网络结构:漫反射材质、法向材质、镜面反射材质各有一个U型网络。每个U型网络都由编码器E、解码器D以及跳跃式传递构成。对于漫反射材质的U型网络 Ua,输入是经缩放的纹理空间人脸颜色图像
Figure BDA0002480400060000095
其中,
Figure BDA0002480400060000096
利用区域插值缩放算法将I缩放至分辨率512×512得到。Ua的编码器部分Ea包含9个下采样模块,前8个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层(S.Ioffe and C.Szegedy.Batchnormalization:Accelerating deep network training by reducing internalcovariate shift.arXiv preprint arXiv:1502.03167,2015.)、LReLU激活函数层(AndrewL Maas,Awni Y Hannun,and Andrew Y Ng.2013.Rectifier nonlinearities improveneural network acoustic models.In Proc.icml, Vol.30.3.),最后一个与前八个区别是核大小为1×1,最终编码成为1×1×1024的漫反射材质隐空间。Ua的解码器部分Da包含9个上采样模块,每个上采样模块都包含一个核大小为3 ×3、放大两倍的缩放卷积层(JonGauthier.2014.Conditional generative adversarial nets for convolutional facegeneration.Class Project for Stanford CS231N:Convolutional Neural Networksfor Visual Recognition,Winter semester 2014,5(2014),2.)、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为 512×512×3的输出。另外Ea与Da中最高分辨率的3个模块会进行跳跃式传递连接(Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.2017.Image-to-image translation with conditional adversarial networks.Proceedings of theIEEE conference on computer vision and pattern recognition(2017).)。上述网络结构可以表示为(C32K3S2,BN,LReLU, Skip1)->(C64K3S2,BN,LReLU,Skip2)->(C128K3S2,BN,LReLU,Skip3)->(C258K3S2,BN, LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN, LReLU)->(C512K3S2,BN,LReLU)->(C1024K1S2,BN,LReLU)->(RC512K3R2,BN, LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN, LReLU)->(RC512K3R2,BN,LReLU)->(R256K3R2,BN,LReLU)->(Skip3,RC128K3R2,BN, LReLU)->(Skip2,RC64K3R2,BN,LReLU)->(Skip1,RC32K3R2,BN,LReLU)->(C3K1S1, Sigmoid),其中CxKySz表示z大小步长、核大小为y、输出深度为x的卷积层,BN表示批标准化,RCxKyRz表示缩放比例为z、核大小为y、输出深度为x的缩放卷积层,Skip表示跳跃式连接,其后的数字表示编号,编号相同表示同一组跳跃式连接。对于法向材质的U型网络Un,输入是经过区域插值缩放的纹理空间人脸肤色图像
Figure BDA0002480400060000101
分辨率是256×256,其与 Ua的主要区别在于编码器En与解码器Dn中各少了一个下采样层与上采样层,隐空间大小为 1×1×512,Dn输出大小为256×256×3。网络结构表示如下,(C32K3S2,BN,LReLU, Skip1)->(C64K3S2,BN,LReLU,Skip2)->(C128K3S2,BN,LReLU,Skip3)->(C258K3S2,BN, LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN, LReLU)->(C512K1S2,BN,LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN, LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN,LReLU)->(R256K3R2,BN, LReLU)->(Skip3,RC128K3R2,BN,LReLU)->(Skip2,RC64K3R2,BN,LReLU)->(Skip1, RC32K3R2,BN,LReLU)->(C3K1S1,Sigmoid)。对于镜面反射材质的U型网络Us,其编码器结构Es与En相同,Ds与Dn的唯一不同在于最后一层卷积层的输出深度为1,Ds的输出大小为 256×256×1。
损失函数。用U*表示U型网络,其中下标*可以是a,n,s分别表示漫反射材质、法向材质、镜面反射材质,损失函数的定义如下:
Figure BDA0002480400060000102
Figure BDA0002480400060000111
Figure BDA0002480400060000112
表示缩放后的纹理空间的人脸颜色图像,
Figure BDA0002480400060000113
Figure BDA0002480400060000114
分别表示U型网络输出材质图像与相应的缩放后的真实材质图像。其中
Figure BDA0002480400060000115
分辨率是512×512,而
Figure BDA0002480400060000116
分辨率是256×256。
Figure BDA0002480400060000117
分辨率是512×512,而
Figure BDA0002480400060000118
的分辨率是256×256。在训练过程中,学习速率是1e-4,使用的优化器是Adam优化器(D.P.Kingma and J.Ba.Adam:A method forstochastic optimization. arXiv preprint arXiv:1412.6980,2014.)。
2.2训练基于卷积神经网络的球谐光照系数回归网络
训练数据。根据2.1中得到的目标人脸图像Io.以及Io渲染使用的HDR环境光图像Ie,通过下式,计算Ie的球谐光照系数ze
Figure BDA0002480400060000119
其中i,j表示图像长宽W,H方向的笛卡尔坐标,Yk表示球谐函数多项式,k表示球谐的阶数,0 ≤k<9,φ表示图像坐标i,j到球面坐标θ,
Figure BDA00024804000600001110
的转换方程,其表达式如下:
Figure BDA00024804000600001111
Figure BDA00024804000600001112
最终,由{Io,ze}组成训练数据对。
网络训练。我们采用类似VGG(Karen Simonyan and AndrewZisserman.2014.Very deep convolutional networks for large-scale imagerecognition.arXiv preprint arXiv:1409.1556(2014).) 网络结构来构建球谐光照系数回归网络Ee。具体地,将Io缩放至分辨率256×256,并通过与 VGG相同的10层卷积层,最后通过一个平均池化层和全连接层输出球谐光照系数ze。通过球谐光照系数的网络输出与真实值之间的L2范数作为损失函数训练球谐光照系数回归网络。训练学习速率为1e-4,使用的优化器是Adam。
2.3初始化材质隐空间变量
向2.1中训练好的3个U型网络中的编码器E*输入缩放的纹理空间的人脸颜色图片
Figure BDA00024804000600001113
可以得到
Figure BDA00024804000600001114
该值即为材质隐空间变量z*的初始值,另外还需要记录编码器前3个下采样模块输出的特征图组成的集合
Figure BDA00024804000600001115
*是a,n,s分别表示漫反射材质、法向材质以及镜面反射材质。该过程可以用以下公式表示:
Figure BDA00024804000600001116
2.4初始化球谐光照向步骤2.2中训练好的球谐光照回归网络Ee输入缩放至256×256的人脸照片
Figure BDA0002480400060000121
得到表示球谐光照系数
Figure BDA0002480400060000122
以此作为球谐光照系数ze的初始值。该过程可以用以下公式表示:
Figure BDA0002480400060000123
3.隐空间到反射材质空间的解码:利用基于卷积神经网络实现的可微解码器,将人脸反射材质隐空间的系数解码为相应的反射材质。
3.1解码
向步骤2.1中训练好的U*中的解码器D*输入z*以及
Figure BDA0002480400060000124
进行解码操作,可以得到对应的材质图像,可以用如下表达式表示:
Figure BDA0002480400060000125
4.人脸反射材质的质量提升:基于步骤3得到的反射材质,利用基于卷积神经网络实现的可微的质量强化网络进一步提升反射材质质量。
4.1训练基于卷积神经网络的反射材质质量强化网络
训练数据。利用2.1中训练好的U型网络,以步骤2.1中训练数据的I作为网络输入生成
Figure BDA0002480400060000126
与步骤2.1中训练数据的T*组成训练数据对
Figure BDA0002480400060000127
*表示a,n,s。
训练方式。对于漫反射材质的质量强化网络,我们参考SRGAN(Christian Ledig,Lucas Theis,Ferenc Huszár,Jose Caballero,Andrew Cunningham,Alejandro Acosta,Andrew Aitken, Alykhan Tejani,Johannes Totz,Zehan Wang,et al.2017.Photo-realistic single image super-resolution using a generative adversarialnetwork.In Proceedings ofthe IEEE conference on computer vision and patternrecognition.4681–4690)采用生成对抗(GAN)方式训练超分辨率网络Ra,将输入的512×512的
Figure BDA0002480400060000128
进行质量强化,得到1024×1024的Ta。对于法向材质和高光材质,我们同样采样生成对抗方式训练超分辨率网络Rn,Rs,和Ra不同的有两点,第一点,它们将输入256×256的材质图像进行质量强化,得到1024×1024的高质量材质图像;第二点,它们的输入除了
Figure BDA0002480400060000129
还有缩放的纹理空间的人脸颜色图像
Figure BDA00024804000600001210
4.2材质图像的质量强化:基于步骤3生成的
Figure BDA00024804000600001211
利用步骤4.1中训练好的质量强化网络进行质量强化,得到高质量材质图像T*,*表示a,n,s,整个过程可以用下式表示:
Figure BDA00024804000600001212
Figure BDA00024804000600001213
Figure BDA00024804000600001214
表示缩放至256×256的纹理空间人脸颜色图像。
5.利用基于物理的可微渲染器对隐空间的迭代优化:通过最小化基于物理的可微渲染器的渲染结果与输入人脸图像的差异,迭代优化人脸反射材质的隐空间,并通过解码与质量提升操作得到输出的人脸反射材质结果。
5.1利用反射材质和球谐光照进行基于物理的正向渲染
计算人脸漫反射。首先按照步骤1.3中得到Iuv对质量强化网络输出的T*,*表示a,n,s,及步骤1.3中得到的阴影贴图Tsha和环境法向贴图Tbn进行双线性采样,可以得到对应的图像空间的材质图像t*,*可以是a,n,s,sha,bn分别表示漫反射材质、法向材质、镜面反射材质、阴影贴图以及环境法向贴图。遍历Iuv中所有像素,利用渲染公式计算每个像素的漫反射光照:
Figure BDA0002480400060000131
其中L(ω)表示ω方向的入射光,V表示可见性,N表示法向,整个公式表示在法向半球上的球面积分。上述公式利用球谐近似(Peter-Pike Sloan,Jan Kautz,and JohnSnyder.2002. Precomputed radiance transfer for real-time rendering indynamic,low-frequency lighting environments.In ACM Transactions on Graphics(TOG),Vol.21.ACM,527–536.)可以进一步化简。L和V可以用球谐函数表达为
Figure BDA0002480400060000132
v记录在tsha中,表示可见性的球谐系数,max(0,N·ω)同样可以用球谐表示为
Figure BDA0002480400060000133
其中,c表示截断余弦函数的球谐系数,由max(0,cosθ)的球谐系数旋转至当前像素法向方向n的球谐系数,n记录在 tn中。利用球谐函数乘投影(Peter-Pike Sloan.2008.Stupid spherical harmonics(sh)tricks.In Gamedevelopers conference,Vol.9.Citeseer,42.),重投影ze与v,可以得到w,最终利用球谐函数的点乘法点乘w项与c项则可以化解为下式:
Figure BDA0002480400060000134
计算人脸镜面反射。同样遍历Iuv中所有像素,利用以下渲染公式计算每个像素的镜面反射光照:
Figure BDA0002480400060000135
fr表示服从GGX分布(Bruce Walter,Stephen R.Marschner,Hongsong Li,andKenneth E. Torrance.2007.Microfacet Models for Refraction through RoughSurfaces.)的光线传输方程,ωo表示视角方向。我们利用(Sébastien Lagarde andCharles de Rousiers.2014.Moving frostbite to physically based rendering.InSIGGRAPH2014 Conference,Vancouver.)拆分上述积分公式,可得下式:
Ls=DFG·LD,
其中DFG表示预先计算的GGX渲染传输方程,LD的计算方式如下:
Figure BDA0002480400060000141
利用以下公式融合漫反射与镜面反射,计算Iuv中每个像素的渲染结果:
Figure BDA0002480400060000142
Figure BDA0002480400060000143
即为最终渲染结果。
5.2迭代优化材质隐空间变量与球谐光照系数ze:最小化以下公式:
Figure BDA0002480400060000144
L表示损失函数,
Figure BDA0002480400060000145
表示步骤5.1的可微渲染过程。利用可微渲染、可微的质量强化网络以及可微的解码器,将损失值反向传递至z*,并迭代更新z*,直至收敛,最后向漫反射、法向量、镜面反射材质解码器分别输入za,zn,zs,并将其输出再输入至对应的材质质量强化网络,可以得到符合输入图像人物特征的材质Ta,Tn,Ts。*可以是a,n,s,e分别表示漫反射材质、法向材质、镜面反射材质、球谐光照。
实施实例
发明人在一台配备Intel Xeon E5-4650中央处理器,NVidia GeForce RTX2080Ti图形处理器(11GB)的机器上实现了本发明的实施实例。发明人采用所有在具体实施方式中列出的参数值,得到了附图1-5中所示的所有实验结果。本发明可以有效地根据输入的人物图像输出符合其特征且高质量的人脸反射材质。对于一张人脸区域600×800的图像,人脸3D几何信息的计算大约需要30秒,隐空间的初始化大约需要10毫秒,迭代优化过程每轮正向计算(解码、质量强化、渲染)需要250毫秒,需要150轮迭代可以收敛,因此整个迭代过程花费大约40秒时间。另外,训练U型网络需要12小时,训练球谐光照系数回归网路需要4小时,训练材质质量强化网络需要大约50小时,这些模块都只需要训练一次,便可用于处理任何输入的人物图像。

Claims (7)

1.一种基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,包括以下步骤:
(1)计算输入图像中人脸的3D信息,并根据3D信息获得纹理空间的人脸颜色图和用于基于物理的可微渲染的静态信息。所述3D信息包括人脸的3D模型、刚体变化矩阵以及投影矩阵;所述静态信息包括阴影贴图Tsha和环境法向贴图Tbn
(2)基于步骤1得到的纹理空间人脸颜色图,通过基于卷积神经网络的编码器编码得到人脸反射材质隐空间系数初始值
Figure FDA0002480400050000011
和球谐光照系数的初始值
Figure FDA0002480400050000012
*是a,n,s分别表示漫反射材质、法向材质以及镜面反射材质。
(3)利用基于卷积神经网络实现的可微解码器,将人脸反射材质隐空间的系数
Figure FDA0002480400050000013
解码为相应的反射材质图像
Figure FDA0002480400050000014
(4)提升步骤3得到的反射材质图像
Figure FDA0002480400050000015
的分辨率及细节质量得到图像T*
(5)通过最小化基于物理的可微渲染器渲染步骤4提升了质量的反射材质图像T*得到的渲染结果与输入人脸图像的差异,迭代优化人脸反射材质的隐空间系数和球谐光照系数,将优化后的人脸反射材质隐空间系数通过步骤3-4的解码与质量提升操作求解得到人脸反射材质。
2.根据权利要求1所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,所述步骤1包括如下子步骤:
(1.1)人脸3D信息的计算:检测输入图像中人脸的二维特征点,并利用可形变模型优化人物身份系数、刚体变化矩阵以及投影矩阵,通过可形变模型与人物身份系数的线性插值,得到该人物的3D模型。
(1.2)纹理空间的人脸颜色图片的计算:利用步骤1.1得到的刚体变化矩阵、投影矩阵,将步骤1.1得到的3D模型投影至输入图像,建立3D模型的每个顶点与图像像素的映射,将输入图像像素映射至3D模型的顶点,再利用3D模型的顶点与纹理空间的映射,将图像像素映射至纹理空间,然后通过对纹理空间三角网格化及三角形重心坐标插值,得到纹理空间的人脸颜色图像。
(1.3)基于物理的可微渲染的静态信息的计算:利用1.1步骤中的3D模型、刚体变化矩阵、投影矩阵,将纹理坐标作为颜色信息绘制至图像空间,得到纹理坐标图像Iuv;利用1.1步骤得到的刚体变化矩阵、3D模型,得到经过刚性变化的3D模型,利用光线追踪算法计算上述3D模型每个顶点各个方向的遮挡,并将其投影至球谐函数多项式,由此得到每个顶点遮挡的球谐系数;另外记录未遮挡区域占比以及未遮挡区域的中心方向,得到每个顶点的环境法向量。最后通过纹理空间的三角网格化,以及分别对每个顶点的遮挡球谐系数和环境法向量进行三角形重心坐标插值,得到最终的阴影贴图Tsha和环境法向贴图Tbn
3.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,所述步骤1.2中,利用泊松算法填补纹理空间的人脸颜色图像中存在的空洞区域。
4.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,基于卷积神经网络的编码器、解码器通过组成U型网络共同训练得到,训练具体包括如下子步骤:
(a)训练数据:获取N张目标人脸图像Io及对应的漫反射材质
Figure FDA0002480400050000021
法向材质
Figure FDA0002480400050000022
以及镜面反射材质
Figure FDA0002480400050000023
将人脸图像映射到纹理空间,得到对应的纹理空间人脸颜色图像I。
Figure FDA0002480400050000024
Figure FDA0002480400050000025
组成U型网络的训练数据,其中每项分辨率都为1024×1024。
(b)漫反射材质、法向材质、镜面反射材质各有一个U型网络。对于漫反射材质的U型网络Ua,输入是经缩放的纹理空间人脸颜色图像
Figure FDA0002480400050000026
Ua的编码器部分Ea包含9个下采样模块,前8个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最终编码成为1×1×1024的漫反射材质隐空间。Ua的解码器部分Da包含9个上采样模块,每个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为512×512×3的输出。法向材质的U型网络Un,输入是经过区域插值缩放的纹理空间人脸颜色图像
Figure FDA0002480400050000027
分辨率是256×256,其编码器En包括8个下采样模块,前7个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层,最终编码成为1×1×512的法向材质隐空间。解码器Dn中包括8个上采样模块,每个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×3的输出。镜面反射材质的U型网络Us,其编码器结构Es与En相同,Ds的8个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层,最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×1的输出。其中,U形状网络的E*与D*中最高分辨率的3个模块进行跳跃式传递连接,*为a,n,s。
(c)训练的损失函数的定义如下:
Figure FDA0002480400050000031
Figure FDA0002480400050000032
U*表示U型网络,其中下标*可以是a,n,s分别表示漫反射材质、法向材质、镜面反射材质,
Figure FDA0002480400050000033
表示表示缩放后的纹理空间的人脸颜色图像,
Figure FDA0002480400050000034
Figure FDA0002480400050000035
分别表示U型网络输出材质图像与相应的缩放后的真实材质图像,其中
Figure FDA0002480400050000036
分辨率是512×512,而
Figure FDA0002480400050000037
分辨率是256×256。
Figure FDA0002480400050000038
分辨率是512×512,而
Figure FDA0002480400050000039
的分辨率是256×256。
5.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,所述步骤2中,输入图像的球谐光照的初始值
Figure FDA00024804000500000310
通过构建球谐光照系数回归网络获得,所述球谐光照系数回归网络包括基于卷积神经网络的编码器以及全连接构成的回归模块,训练过程包括如下步骤:
(A)由{Io,ze}组成训练数据对,其中球谐系数ze根据HDR环境光图像Ie,通过下式计算:
Figure FDA00024804000500000311
其中i,j表示图像长宽W,H方向的笛卡尔坐标,Yk表示球谐函数多项式,k表示球谐的阶数,0≤k<9,φ表示图像坐标i,j到球面坐标θ,
Figure FDA00024804000500000312
的转换方程,其表达式如下:
Figure FDA00024804000500000313
Figure FDA00024804000500000314
(B)缩放Io至分辨率256×256作为网络输入,利用L2范数作为损失函数对网络进行端到端的监督性学习训练。
6.根据权利要求1所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,所述步骤4中,通过构建反射材质质量强化网络R*提升反射材质图像
Figure FDA00024804000500000315
的分辨率及细节质量,具体包括如下子步骤:
(4.1)训练基于卷积神经网络的反射材质质量强化网络,具体如下:
(4.1.1)训练数据:将训练用的人脸颜色图像I输入步骤2训练好的U型网络生成
Figure FDA00024804000500000316
与人脸颜色图像I原始的
Figure FDA00024804000500000317
组成训练数据对
Figure FDA00024804000500000318
*表示a,n,s。
(4.1.2)训练方式:采用SRGAN网络作为反射材质质量强化网络R*,并采用生成对抗(GAN)方式训练;其中,对于漫反射材质质量强化网络Ra,输入为512×512的
Figure FDA00024804000500000319
输出图像分辨率为1024×1024。对于法向材质质量强化网络Rn,和高光材质质量强化网络Rs,其网络的第一层接受的图像深度为4,输入包括
Figure FDA0002480400050000041
和缩放的纹理空间的人脸颜色图像
Figure FDA0002480400050000042
输入的分辨率为256×256,输出分辨率为1024×1024的高质量材质图像。
(4.2)材质图像的质量强化:基于步骤3生成的
Figure FDA0002480400050000043
利用步骤4.1中训练好的质量强化网络进行质量强化,得到高质量材质图像T*,*表示a,n,s,整个过程可以用下式表示:
Figure FDA0002480400050000044
Figure FDA0002480400050000045
Figure FDA0002480400050000046
Figure FDA0002480400050000047
表示缩放至256×256的纹理空间人脸颜色图像。
7.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法,其特征在于,所述步骤5包括如下子步骤:
(5.1)利用反射材质和球谐光照进行基于物理的正向渲染:
(5.1.1)计算人脸漫反射:按照步骤1.3中得到Iuv对质量强化网络输出的Ta、Tn和Ts以及阴影贴图Tsha和环境法向贴图Tbn进行双线性采样,得到对应的图像空间的材质图像t*,*是a,n,s,sha,bn,分别表示漫反射材质、法向材质、镜面反射材质、阴影贴图以及环境法向贴图。遍历Iuv中所有像素,利用以下基于物理的渲染公式计算每个像素的漫反射光照:
Figure FDA0002480400050000048
其中,k表示球谐函数多项式的阶数,利用球谐乘投影性质将ze,v进行重投影,得到w,v表示每个像素各个方向的可见性,记录在tsha中;c由max(0,cosθ)的球谐系数旋转至当前像素法向方向n的球谐系数,n记录在tn中。
(5.1.2)计算人脸镜面反射并计算渲染结果:利用以下公式计算人脸镜面高光反射:
Ls=DFG·LD,
其中DFG表示预先计算的服从GGX分布的渲染传输方程,LD的计算方式如下:
Figure FDA0002480400050000049
利用以下公式融合漫反射与镜面反射,计算Iuv中每个像素的渲染结果:
Figure FDA00024804000500000410
Figure FDA00024804000500000411
即为最终渲染结果。
(5.2)迭代优化材质隐空间变量与球谐光照系数ze:最小化以下公式:
Figure FDA00024804000500000412
L表示损失函数,
Figure FDA0002480400050000051
表示步骤5.1的可微渲染过程。利用可微渲染、可微的质量强化网络以及可微的解码器,将损失值反向传递至z*,并迭代更新z*,*是a,n,s,e分别表示漫反射材质、法向材质、镜面反射材质、球谐光照,直至收敛,最后向漫反射、法向量、镜面反射材质解码器分别输入za,zn,zs,并将其输出再输入至对应的材质质量强化网络,得到符合输入图像人物特征的材质Ta,Tn,Ts
CN202010377197.6A 2020-05-07 2020-05-07 基于可微渲染器的从单幅图像求解人脸反射材质的方法 Active CN111652960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010377197.6A CN111652960B (zh) 2020-05-07 2020-05-07 基于可微渲染器的从单幅图像求解人脸反射材质的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010377197.6A CN111652960B (zh) 2020-05-07 2020-05-07 基于可微渲染器的从单幅图像求解人脸反射材质的方法

Publications (2)

Publication Number Publication Date
CN111652960A true CN111652960A (zh) 2020-09-11
CN111652960B CN111652960B (zh) 2022-07-15

Family

ID=72349451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010377197.6A Active CN111652960B (zh) 2020-05-07 2020-05-07 基于可微渲染器的从单幅图像求解人脸反射材质的方法

Country Status (1)

Country Link
CN (1) CN111652960B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066171A (zh) * 2021-04-20 2021-07-02 南京大学 一种基于三维人脸形变模型的人脸图像生成方法
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法
CN113129432A (zh) * 2021-04-25 2021-07-16 南京大学 一种3d人脸重建方法
CN113421199A (zh) * 2021-06-23 2021-09-21 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN114067041A (zh) * 2022-01-14 2022-02-18 深圳大学 三维模型的材质生成方法、装置、计算机设备和存储介质
CN114119923A (zh) * 2021-11-29 2022-03-01 浙江大学 三维人脸重建方法、装置以及电子设备
WO2022156150A1 (zh) * 2021-01-19 2022-07-28 浙江商汤科技开发有限公司 图像处理方法及装置、电子设备、存储介质及计算机程序
CN114842121A (zh) * 2022-06-30 2022-08-02 北京百度网讯科技有限公司 贴图生成模型训练和贴图生成方法、装置、设备及介质
WO2023065011A1 (en) * 2021-10-21 2023-04-27 Digital Domain Virtual Human (Us), Inc. System and method for dynamic neural face morphing
WO2023088348A1 (zh) * 2021-11-22 2023-05-25 北京字节跳动网络技术有限公司 绘制图像的方法、装置、电子设备及存储介质
CN117173383A (zh) * 2023-11-02 2023-12-05 摩尔线程智能科技(北京)有限责任公司 颜色生成方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756325B2 (en) * 2005-06-20 2010-07-13 University Of Basel Estimating 3D shape and texture of a 3D object based on a 2D image of the 3D object
CN102346857A (zh) * 2011-09-14 2012-02-08 西安交通大学 人脸图像光照参数和去光照图的高精度同时估计方法
CN102426695A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种单幅图像场景的虚实光照融合方法
CN105956995A (zh) * 2016-04-19 2016-09-21 浙江大学 一种基于实时视频本征分解的人脸外观编辑方法
US20180158240A1 (en) * 2016-12-01 2018-06-07 Pinscreen, Inc. Photorealistic Facial Texture Inference Using Deep Neural Networks
CN108447085A (zh) * 2018-02-11 2018-08-24 浙江大学 一种基于消费级rgb-d相机的人脸视觉外观恢复方法
CN108765550A (zh) * 2018-05-09 2018-11-06 华南理工大学 一种基于单张图片的三维人脸重建方法
AU2017228700A1 (en) * 2017-09-15 2019-04-04 Canon Kabushiki Kaisha System and method of rendering a surface
US20190250547A1 (en) * 2016-07-22 2019-08-15 Idemia France Improving a depth image subject to a shadow effect
CN110458924A (zh) * 2019-07-23 2019-11-15 腾讯科技(深圳)有限公司 一种三维脸部模型建立方法、装置和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756325B2 (en) * 2005-06-20 2010-07-13 University Of Basel Estimating 3D shape and texture of a 3D object based on a 2D image of the 3D object
CN102346857A (zh) * 2011-09-14 2012-02-08 西安交通大学 人脸图像光照参数和去光照图的高精度同时估计方法
CN102426695A (zh) * 2011-09-30 2012-04-25 北京航空航天大学 一种单幅图像场景的虚实光照融合方法
CN105956995A (zh) * 2016-04-19 2016-09-21 浙江大学 一种基于实时视频本征分解的人脸外观编辑方法
US20190250547A1 (en) * 2016-07-22 2019-08-15 Idemia France Improving a depth image subject to a shadow effect
US20180158240A1 (en) * 2016-12-01 2018-06-07 Pinscreen, Inc. Photorealistic Facial Texture Inference Using Deep Neural Networks
AU2017228700A1 (en) * 2017-09-15 2019-04-04 Canon Kabushiki Kaisha System and method of rendering a surface
CN108447085A (zh) * 2018-02-11 2018-08-24 浙江大学 一种基于消费级rgb-d相机的人脸视觉外观恢复方法
CN108765550A (zh) * 2018-05-09 2018-11-06 华南理工大学 一种基于单张图片的三维人脸重建方法
CN110458924A (zh) * 2019-07-23 2019-11-15 腾讯科技(深圳)有限公司 一种三维脸部模型建立方法、装置和电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YANLIN WENG: "Real-time facial animation on mobile devices", 《GRAPHICAL MODELS》 *
王涵等: "单张图片自动重建带几何细节的人脸形状", 《计算机辅助设计与图形学学报》 *
王珊等: "三维人脸表情获取及重建技术综述", 《系统仿真学报》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022156150A1 (zh) * 2021-01-19 2022-07-28 浙江商汤科技开发有限公司 图像处理方法及装置、电子设备、存储介质及计算机程序
CN113112592A (zh) * 2021-04-19 2021-07-13 浙江大学 一种可驱动的隐式三维人体表示方法
CN113112592B (zh) * 2021-04-19 2023-02-14 浙江大学 一种可驱动的隐式三维人体表示方法
CN113066171B (zh) * 2021-04-20 2023-09-12 南京大学 一种基于三维人脸形变模型的人脸图像生成方法
CN113066171A (zh) * 2021-04-20 2021-07-02 南京大学 一种基于三维人脸形变模型的人脸图像生成方法
CN113129432A (zh) * 2021-04-25 2021-07-16 南京大学 一种3d人脸重建方法
CN113129432B (zh) * 2021-04-25 2023-10-10 南京大学 一种3d人脸重建方法
CN113421199A (zh) * 2021-06-23 2021-09-21 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
CN113421199B (zh) * 2021-06-23 2024-03-12 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备及存储介质
WO2023065011A1 (en) * 2021-10-21 2023-04-27 Digital Domain Virtual Human (Us), Inc. System and method for dynamic neural face morphing
WO2023088348A1 (zh) * 2021-11-22 2023-05-25 北京字节跳动网络技术有限公司 绘制图像的方法、装置、电子设备及存储介质
CN114119923B (zh) * 2021-11-29 2022-07-19 浙江大学 三维人脸重建方法、装置以及电子设备
CN114119923A (zh) * 2021-11-29 2022-03-01 浙江大学 三维人脸重建方法、装置以及电子设备
CN114067041A (zh) * 2022-01-14 2022-02-18 深圳大学 三维模型的材质生成方法、装置、计算机设备和存储介质
CN114842121B (zh) * 2022-06-30 2022-09-09 北京百度网讯科技有限公司 贴图生成模型训练和贴图生成方法、装置、设备及介质
CN114842121A (zh) * 2022-06-30 2022-08-02 北京百度网讯科技有限公司 贴图生成模型训练和贴图生成方法、装置、设备及介质
CN117173383A (zh) * 2023-11-02 2023-12-05 摩尔线程智能科技(北京)有限责任公司 颜色生成方法、装置、设备及存储介质
CN117173383B (zh) * 2023-11-02 2024-02-27 摩尔线程智能科技(北京)有限责任公司 颜色生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111652960B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN111652960B (zh) 基于可微渲染器的从单幅图像求解人脸反射材质的方法
WO2021223134A1 (zh) 一种基于微渲染器的从单幅图像求解人脸反射材质的方法
Reiser et al. Merf: Memory-efficient radiance fields for real-time view synthesis in unbounded scenes
Kopanas et al. Point‐Based Neural Rendering with Per‐View Optimization
Lombardi et al. Neural volumes: Learning dynamic renderable volumes from images
US11743443B2 (en) Layered scene decomposition CODEC with layered depth imaging
WO2022121220A1 (zh) 一种动态人体三维重建和视角合成方法
Wang et al. High-fidelity view synthesis for light field imaging with extended pseudo 4DCNN
Kopanas et al. Neural point catacaustics for novel-view synthesis of reflections
Remelli et al. Drivable volumetric avatars using texel-aligned features
US20050017968A1 (en) Differential stream of point samples for real-time 3D video
Li et al. Dynamic facial asset and rig generation from a single scan.
CN116051740A (zh) 一种基于神经辐射场的室外无界场景三维重建方法及系统
Huang et al. Refsr-nerf: Towards high fidelity and super resolution view synthesis
Kim et al. Holographic augmented reality based on three-dimensional volumetric imaging for a photorealistic scene
Li et al. Topologically consistent multi-view face inference using volumetric sampling
Han et al. PIINET: A 360-degree panoramic image inpainting network using a cube map
Rainer et al. Neural precomputed radiance transfer
CN115797561A (zh) 三维重建方法、设备及可读存储介质
CN115359173A (zh) 虚拟多视点视频生成方法、装置、电子设备和存储介质
CN114429531A (zh) 虚拟视点图像的生成方法及装置
CN117036581B (zh) 基于二维神经渲染的体渲染方法、系统、设备及介质
CN117635801A (zh) 基于实时渲染可泛化神经辐射场的新视图合成方法及系统
Zhu et al. A signal-processing framework for occlusion of 3D scene to improve the rendering quality of views
Figueirêdo et al. Frame interpolation for dynamic scenes with implicit flow encoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant