CN111652960A

CN111652960A - 一种基于可微渲染器的从单幅图像求解人脸反射材质的方法

Info

Publication number: CN111652960A
Application number: CN202010377197.6A
Authority: CN
Inventors: 翁彦琳; 周昆; 耿佳豪; 王律迪
Original assignee: Hangzhou Faceunity Technology Co ltd; Zhejiang University ZJU
Current assignee: Hangzhou Faceunity Technology Co ltd; Zhejiang University ZJU
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-11
Anticipated expiration: 2040-05-07
Also published as: CN111652960B

Abstract

本发明公开了一种基于可微渲染器的从单幅图像求解人脸反射材质的方法。该方法主要分为五个步骤：图像中人脸3D几何信息的计算、人脸反射隐空间与球谐光照的初始化、人脸反射隐空间到人脸反射材质图像的解码、人脸反射材质的质量提升、迭代优化人脸反射材质的隐空间系数和球谐光照系数并根据反射材质隐空间系数求解人脸反射材质。本发明可以根据一张正面中性表情的人脸图片迭代求解高质量人脸材质，利用得到的材质进行人脸重建以及再渲染的结果均达到当前最先进技术的水平。本发明可以应用在一系列应用中，如人脸材质的捕捉，人脸的重建，以及真实人脸渲染等应用。

Description

一种基于可微渲染器的从单幅图像求解人脸反射材质的方法

技术领域

本发明涉及人脸面部捕捉领域，尤其涉及一种基于单张图像求解人脸反射材质的方法。

背景技术

关于人脸面部捕捉领域，有一类基于专业设备的专业面部捕捉方法。这些方法需要目标人物在一种特定且受控的环境中，并由专业人员使用专门设计的设备与算法求解目标人物的反射材质。例如通过Light Stages(Paul Debevec,Tim Hawkins,Chris Tchou,Haarm-Pieter Duiker, Westley Sarokin,and Mark Sagar.2000.Acquiring theReflectance Field of a Human Face.In Proceedings of SIGGRAPH 2000.)(AbhijeetGhosh,Graham Fyffe,Borom Tunwattanapong,Jay Busch,Xueming Yu,and PaulDebevec.2011.Multiview Face Capture using Polarized Spherical GradientIllumination.ACMTrans.Graphics(Proc.SIGGRAPHAsia)(2011).)(Wan-Chun Ma,TimHawkins,Pieter Peers,Charles-Felix Chabert,Malte Weiss,and PaulDebevec.2007.Rapid Acquisition of Specular and Diffuse Normal Maps fromPolarized Spherical Gradient Illumination.) 得到的高质量数据推动了影视行业中众多数字形象的创作。也有像(Thabo Beeler,Bernd Bickel,Paul Beardsley,BobSumner,and Markus Gross.2010.High-Quality Single-Shot Capture of FacialGeometry.ACM Trans.on Graphics(Proc.SIGGRAPH)29,3(2010),40:1–40:9.)(ThaboBeeler,Fabian Hahn,Derek Bradley,Bernd Bickel,Paul Beardsley,Craig Gotsman,Robert W. Sumner,and Markus Gross.2011.High-quality passive facialperformance capture using anchor frames.ACM Trans.Graph.30,4(Aug.2011),75:1–75:10. https://doi.org/10.1145/2010324.1964970)基于多相机设备，利用shape-from-shading技术重建人脸中毛孔级别的细微信息。Graham等人(P.Graham,BoromTunwattanapong,Jay Busch,X.Yu, Andrew Jones,and PaulDebevec.2013.Measurement-based Synthesis of Facial Microgeometry.) 使用光学和弹性传感器测量面部围观信息。这样的技术可以用来创造高逼真度的数字形象，就像方法(J.von der Pahlen,J.Jimenez,E.Danvoye,Paul Debevec,Graham Fyffe,and OlegAlexander.2014.Digital Ira and Beyond:Creating a Real-Time Photoreal DigitalActor.Technical Report.)这些方法虽然可以重建高逼真度的数字人脸形象，但是它们对设备要求高且设备价格昂贵，需要专业人员操作，对普通用户不友好。

除此之外，也有一些基于单视图的面部捕捉方法，其中3D可形变模型(VolkerBlanz and Thomas Vetter.1999.A Morphable Model for the Synthesis of 3DFaces.In SIGGRAPH. https://doi.org/10.1145/311535.311556)是最早成功地将人脸形状和外观变化建模为一组正交基的线性组合。多年来，3D可形变模型影响了众多方法的发展例如(James Booth,Anastasios Roussos,Stefanos Zafeiriou,Allan Ponniahy,andDavid Dunaway.2016.A 3D Morphable Model Learnt from 10,000Faces.In 2016IEEEConference on Computer Vision and Pattern Recognition (CVPR).5543–5552.https://doi.org/10.1109/CVPR.2016.598ISSN:1063-6919.)(IraKemelmacher.2013.Internet Based Morphable Model.3256–3263.https://doi.org/10.1109/ICCV.2013.404)(Justus Thies,Michael Zollhofer,Marc Stamminger,Christian Theobalt, and Matthias Nieβner.2016.Face2face:Real-time facecapture and reenactment of rgb videos.In Proceedings ofthe IEEE Conference onComputer Vision and Pattern Recognition.2387–2395.)。这些基于参数化的线性模型方法，都是利用最小化拟合损失函数来生成人脸形状和反射材质，这类方法的主要缺陷在于其效果受限于线性模型的表达能力，线性模型难以逼真地表达人脸特征。像(AyushTewari,Michael

Hyeongwoo Kim,Pablo Garrido,Florian Bernard, Patrick Pérez,and Christian Theobalt.2017.MoFA:Model-based Deep Convolutional FaceAutoencoder for Unsupervised Monocular Reconstruction.In arXiv:1703.10580[cs]. http://arxiv.org/abs/1703.10580arXiv:1703.10580.)(Luan Tran,Feng Liu,and Xiaoming Liu. 2019.Towards High-fidelity Nonlinear 3D Face MorphableModel.In In Proceeding ofIEEE Computer Vision and Pattern Recognition.LongBeach,CA.)(Kyle Genova,Forrester Cole,Aaron Maschinot,Aaron Sarna,DanielVlasic,and William T.Freeman.2018.Unsupervised Training for 3D MorphableModel Regression.In arXiv:1806.06098[cs].http://arxiv.org/abs/1806.06098arXiv: 1806.06098.)(Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and Xin Tong.2019. Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From Single Image to Image Set.In Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition Workshops.0–0.)这些方法利用神经网络分离单张人脸图像的几何与反射材质。然而这些方法并非旨在生成可用于高真实度人脸重建的材质，因此它们的效果依然缺乏表现力。

另外也有一些旨在生成高真实度人脸反射材质的方法。Saito等人提出了一种从单张无约束图像中推断高分辨率漫反射材质的算法(Shunsuke Saito,Lingyu Wei,LiwenHu,Koki Nagano,and Hao Li.2017.Photorealistic Facial Texture Inference UsingDeep Neural Networks.In arXiv:1612.00523[cs].http://arxiv.org/abs/1612.00523arXiv:1612.00523.)，他们的中心思想是利用神经网络的中间层特征相关性混合数据库中的高分辨率材质，以此生成微小的人脸细节特征。Yamaguchi等人提出了另一种基于深度学习的算法(Shuco Yamaguchi,Shunsuke Saito, Koki Nagano,Yajie Zhao,Weikai Chen,Kyle Olszewski,Shigeo Morishima,and Hao Li.2018. High-fidelityfacial reflectance and geometry inference from an unconstrained image.ACMTransactions on Graphics(TOG)37,4(2018),162.)，他们可以从单张无约束图像中推断人脸高质量材质，并且可以用它们渲染出合理真实的结果，但是他们的方法无法保证渲染结果与目标图像特征的一致性。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种基于可微渲染器的从单幅图像求解高质量人脸反射材质的方法。本发明先检测输入图像人脸3D几何信息，并初始化人脸反射材质隐空间与球谐光照变量，再利用基于神经网络的解码器解码隐空间变量，生成对应的人脸反射材质，然后利用基于神经网络的质量强化器提升解码器生成的反射材质的质量，最后由基于物理的可微渲染器根据反射材质和球谐光照进行人物渲染，并最小化渲染结果与输入人脸之间在颜色空间的差异，对隐空间与球谐光照变量进行迭代更新，直至收敛，最终得到的隐空间变量经解码与质量强化操作可以得到符合输入人脸特征且高质量的人脸反射材质，用上述材质进行渲染，可以得到高逼真度、高特征匹配的渲染结果。该方法达到最先进的人脸材质生成技术水平，具有很高的实用价值。

本发明的目的是通过以下技术方案来实现的：一种基于可微渲染器的从单幅图像求解人脸反射材质的方法，包括以下步骤：

(1)计算输入图像中人脸的3D信息，并根据3D信息获得纹理空间的人脸颜色图和用于基于物理的可微渲染的静态信息。所述3D信息包括人脸的3D模型、刚体变化矩阵以及投影矩阵；所述静态信息包括阴影贴图T_sha和环境法向贴图T_bn。

(2)基于步骤1得到的纹理空间人脸颜色图，通过基于卷积神经网络的编码器编码得到人脸反射材质隐空间系数初始值

和球谐光照系数的初始值

*是a,n,s分别表示漫反射材质、法向材质以及镜面反射材质。

(3)利用基于卷积神经网络实现的可微解码器，将人脸反射材质隐空间的系数

解码为相应的反射材质图像

(4)提升步骤3得到的反射材质图像

的分辨率及细节质量得到图像T_*。

(5)通过最小化基于物理的可微渲染器渲染步骤4提升了质量的反射材质图像T_*得到的渲染结果与输入人脸图像的差异，迭代优化人脸反射材质的隐空间系数和球谐光照系数，将优化后的人脸反射材质隐空间系数通过步骤3-4的解码与质量提升操作求解得到人脸反射材质。

进一步地，所述步骤1包括如下子步骤：

(1.1)人脸3D信息的计算：检测输入图像中人脸的二维特征点，并利用可形变模型优化人物身份系数、刚体变化矩阵以及投影矩阵，通过可形变模型与人物身份系数的线性插值，得到该人物的3D模型。

(1.2)纹理空间的人脸颜色图片的计算：利用步骤1.1得到的刚体变化矩阵、投影矩阵，将步骤1.1得到的3D模型投影至输入图像，建立3D模型的每个顶点与图像像素的映射，将输入图像像素映射至3D模型的顶点，再利用3D模型的顶点与纹理空间的映射，将图像像素映射至纹理空间，然后通过对纹理空间三角网格化及三角形重心坐标插值，得到纹理空间的人脸颜色图像。

(1.3)基于物理的可微渲染的静态信息的计算：利用1.1步骤中的3D模型、刚体变化矩阵、投影矩阵，将纹理坐标作为颜色信息绘制至图像空间，得到纹理坐标图像I_uv；利用1.1 步骤得到的刚体变化矩阵、3D模型，得到经过刚性变化的3D模型，利用光线追踪算法计算上述3D模型每个顶点各个方向的遮挡，并将其投影至球谐函数多项式，由此得到每个顶点遮挡的球谐系数；另外记录未遮挡区域占比以及未遮挡区域的中心方向，得到每个顶点的环境法向量。最后通过纹理空间的三角网格化，以及分别对每个顶点的遮挡球谐系数和环境法向量进行三角形重心坐标插值，得到最终的阴影贴图T_sha和环境法向贴图T_bn。

进一步地，所述步骤1.2中，利用泊松算法填补纹理空间的人脸颜色图像中存在的空洞区域。

进一步地，基于卷积神经网络的编码器、解码器通过组成U型网络共同训练得到，训练具体包括如下子步骤：

(a)训练数据：获取N张目标人脸图像I_o及对应的漫反射材质

法向材质

以及镜面反射材质

将人脸图像映射到纹理空间，得到对应的纹理空间人脸颜色图像I。

组成U型网络的训练数据，其中每项分辨率都为1024×1024。

(b)漫反射材质、法向材质、镜面反射材质各有一个U型网络。对于漫反射材质的U型网络U_a,输入是经缩放的纹理空间人脸颜色图像

U_a的编码器部分E_a包含9个下采样模块，前8个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最终编码成为1×1×1024的漫反射材质隐空间。U_a的解码器部分D_a包含9个上采样模块，每个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为 Sigmoid的卷积层得到最终分辨率为512×512×3的输出。法向材质的U型网络U_n，输入是经过区域插值缩放的纹理空间人脸颜色图像

分辨率是256×256，其编码器E_n包括8个下采样模块，前7个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最终编码成为1×1×512的法向材质隐空间。解码器D_n中包括8个上采样模块，前7个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×3的输出。镜面反射材质的U型网络U_s, 其编码器结构E_s与E_n相同，D_s前7个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×1的输出。其中，U形状网络的E_*与D_*中最高分辨率的3个模块进行跳跃式传递连接，*为a,n,s。

(c)训练的损失函数的定义如下：

U_*表示U型网络，其中下标*可以是a,n,s分别表示漫反射材质、法向材质、镜面反射材质，

表示表示缩放后的纹理空间的人脸颜色图像，

与

分别表示U型网络输出材质图像与相应的缩放后的真实材质图像，其中

分辨率是512×512，而

分辨率是256×256。

分辨率是512×512,而

的分辨率是256×256。

进一步地，所述步骤2中，输入图像的球谐光照的初始值

通过构建球谐光照系数回归网络获得，所述球谐光照系数回归网络包括基于卷积神经网络的编码器以及全连接构成的回归模块，训练过程包括如下步骤：

(A)由{I_o,z_e}组成训练数据对，其中球谐系数z_e根据HDR环境光图像I_e，通过下式计算：

其中i,j表示图像长宽W,H方向的笛卡尔坐标，Y^k表示球谐函数多项式，k表示球谐的阶数， 0≤k＜9，φ表示图像坐标i,j到球面坐标θ,

的转换方程，其表达式如下：

(B)缩放I_o至分辨率256×256作为网络输入，利用L2范数作为损失函数对网络进行端到端的监督性学习训练。

进一步地，所述步骤4中，通过构建反射材质质量强化网络R_*提升反射材质图像

的分辨率及细节质量，具体包括如下子步骤：

(4.1)训练基于卷积神经网络的反射材质质量强化网络，具体如下：

(4.1.1)训练数据：将训练用的人脸颜色图像I输入步骤2训练好的U型网络生成

与人脸颜色图像I原始的

组成训练数据对

*表示a,n,s。

(4.1.2)训练方式：采用SRGAN网络作为反射材质质量强化网络R_*，并采用生成对抗 (GAN)方式训练；其中，对于漫反射材质质量强化网络R_a，输入为512×512的

输出图像分辨率为1024×1024。对于法向材质质量强化网络R_n,和高光材质质量强化网络R_s，其网络的第一层接受的图像深度为4，输入包括

和缩放的纹理空间的人脸颜色图像

输入的分辨率为256×256，输出分辨率为1024×1024的高质量材质图像。

(4.2)材质图像的质量强化：基于步骤3生成的

利用步骤4.1中训练好的质量强化网络进行质量强化，得到高质量材质图像T_*,*表示a,n,s,整个过程可以用下式表示：

表示缩放至256×256的纹理空间人脸颜色图像。

进一步地，所述步骤5包括如下子步骤：

(5.1)利用反射材质和球谐光照进行基于物理的正向渲染：

(5.1.1)计算人脸漫反射：按照步骤1.3中得到I_uv对T_*质量强化网络输出的T_a、T_n和T_s以及阴影贴图T_sha和环境法向贴图T_bn进行双线性采样，得到对应的图像空间的材质图像t_*，*是 a,n,s,sha,bn分别表示漫反射材质、法向材质、镜面反射材质、阴影贴图以及环境法向贴图。遍历I_uv中所有像素，利用以下基于物理的渲染公式计算每个像素的漫反射光照：

其中，k表示球谐函数多项式的阶数，利用球谐乘投影性质将z_e,v进行重投影，得到w，v 表示每个像素各个方向的可见性，记录在t_sha中；c由max(0，cosθ)的球谐系数旋转至当前像素法向方向n的球谐系数，n记录在t_n中。

(5.1.2)计算人脸镜面反射并计算渲染结果：利用以下公式计算人脸镜面高光反射：

L_s＝DFG·LD，

其中DFG表示预先计算的服从GGX分布的渲染传输方程，LD的计算方式如下：

利用以下公式融合漫反射与镜面反射，计算I_uv中每个像素的渲染结果：

即为最终渲染结果。

(5.2)迭代优化材质隐空间变量与球谐光照系数z_e：最小化以下公式：

L表示损失函数，

表示步骤5.1的可微渲染过程。利用可微渲染、可微的质量强化网络以及可微的解码器，将损失值反向传递至z_*，并迭代更新z_*，*是a,n,s,e分别表示漫反射材质、法向材质、镜面反射材质、球谐光照，直至收敛，最后向漫反射、法向量、镜面反射材质解码器分别输入z_a,z_n,z_s,并将其输出再输入至对应的材质质量强化网络，得到符合输入图像人物特征的材质T_a,T_n,T_s。

本发明的有益效果是，本发明提出结合基于神经网络的非线性解码器、质量强化其与基于物理的可微渲染器从单张人脸图像中计算人脸反射材质的方法。借助基于神经网络的非线性解码器与质量强化器表达复杂的人脸反射材质空间，另外借助基于物理的可微渲染器优化人脸反射材质空间，使得求解的人脸反射材质符合输入人脸的特征，且渲染得到结果逼真且与输入人脸相像。本方法达到人脸反射材质求解技术的最先进水平，且处理时间短。本发明可以用于人脸材质的捕捉，人脸的重建，以及真实人脸的渲染等应用。

附图说明

图1是应用本发明的方法对第一张人脸图片材质求解、重建及再渲染的结果图，图中， A为输入图像，B是利用求解得到的人脸反射材质重建的结果，C是在新光照条件下渲染结果；D是漫反射材质t_a,E是法向材质t_n，F是镜面反射材质t_s。

图2是应用本发明的方法对第二张人脸图片材质求解、重建及再渲染的结果图，图中， A为输入图像，B是利用求解得到的人脸反射材质重建的结果，C是在新光照条件下渲染结果；D是漫反射材质t_a,E是法向材质t_n，F是镜面反射材质t_s。

图3是应用本发明的方法对第三张人脸图片材质求解、重建及再渲染的结果图，图中， A为输入图像，B是利用求解得到的人脸反射材质重建的结果，C是在新光照条件下渲染结果；D是漫反射材质t_a,E是法向材质t_n，F是镜面反射材质t_s。

图4是应用本发明的方法对第四张人脸图片材质求解、重建及再渲染的结果图，图中， A为输入图像，B是利用求解得到的人脸反射材质重建的结果，C是在新光照条件下渲染结果；D是漫反射材质t_a,E是法向材质t_n，F是镜面反射材质t_s。

图5是应用本发明的方法对第五张人脸图片材质求解、重建及再渲染的结果图，图中，A为输入图像，B是利用求解得到的人脸反射材质重建的结果，C是在新光照条件下渲染结果；D是漫反射材质t_a,E是法向材质t_n，F是镜面反射材质t_s。

具体实施方式

本发明的核心技术利用神经网络非线性表达复杂的人脸反射材质空间，并利用基于物理的可微渲染器优化该空间，以得到符合输入图像特征的人脸反射材质。该方法主要分为以下五个主要步骤：人脸3D几何信息的计算，人脸反射材质隐空间以及球谐光照的初始化，隐空间到反射材质图像的解码，人脸反射材质的质量提升，迭代优化人脸反射材质的隐空间系数和球谐光照系数并根据反射材质隐空间系数求解人脸反射材质。

下面详细说明本发明的各个步骤。图1-5是应用本发明的方法对五张人物图片进行材质求解、人脸重建以及在新光照下再渲染的结果。每张图中第一行的左图是输入图像，中图是利用求解得到的人脸反射材质重建的结果，右图是在新光照条件下渲染结果；第二行左图是漫反射材质t_a,中图是法向材质t_n，右图是镜面反射材质t_s，由I_uv对求解得到的材质双线性采样获得。

1.图像中人脸3D几何信息的计算：计算输入图像中人脸的3D信息，并获得纹理空间的人脸颜色图以及用于基于物理的可微渲染的静态信息。

1.1人脸3D信息的计算

本发明采用算法(Chen Cao,Qiming Hou,and Kun Zhou.2014a.Displaceddynamic expression regression for real-time facial tracking and animation.ACMTransactions on graphics (TOG)33,4(2014),43.)来检测输入图像脸部二维特征点，采用(Justus Thies,Michael Zollhofer, Marc Stamminger,Christian Theobalt,andMatthias Nieβner.2016.Face2face:Real-time face capture and reenactment of rgbvideos.In Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition.2387–2395.)求解人物身份系数(identity)、刚体变化矩阵以及投影矩阵，通过身份系数对可形变形状模型插值，可以得到输入人脸的3D模型：

1.2纹理空间的人脸颜色图片计算

利用步骤1.1得到的刚体变化矩阵、投影矩阵，将步骤1.1得到的3D模型投影至输入图像，建立3D模型的每个顶点与图像像素的映射，由此可以将输入图像像素映射至3D模型的顶点，再利用3D模型的顶点与纹理空间的映射，可以将图像像素映射至纹理空间，然后通过对纹理空间三角网格化以及三角形重心坐标插值，得到纹理空间的人脸颜色图像。由于输入人脸存在遮挡，上述纹理空间的人脸颜色图像存在空洞区域，利用泊松算法填补空洞，得到最终的纹理空间人脸颜色图像。

1.3基于物理的可微渲染的静态信息的计算

利用1.1步骤中的3D模型、刚体变化矩阵、投影矩阵，将纹理坐标作为颜色信息绘制至图像空间，得到纹理坐标图像I_uv；利用1.1步骤得到的刚体变化矩阵、3D模型，得到经过刚性变化的3D模型，利用光线追踪算法计算上述3D模型每个顶点各个方向的遮挡，并将其投影至球谐函数多项式，本实施方式中采用9阶，由此得到每个顶点遮挡的球谐系数；另外记录未遮挡区域占比以及未遮挡区域的中心方向，得到每个顶点的环境法向量。最后通过纹理空间的三角网格化，以及分别对每个顶点的遮挡球谐系数和环境法向量进行三角形重心坐标插值，得到最终的阴影贴图T_sha和环境法向贴图T_bn。

2.人脸反射材质隐空间与球谐光照的初始化：基于步骤1得到的纹理空间人脸颜色图，通过基于卷积神经网络的编码器编码得到人脸反射材质隐空间系数和球谐光照的初始值。

2.1训练基于卷积神经网络的U型网络

训练数据。人脸模型数据库中包含84个3D数字人物，每个人物包含3D模型、漫反射材质

法向材质

以及镜面反射材质

本实施例中数据来源于3D Scan Store。用CFD(Debbie S Ma,Joshua Correll,and Bernd Wittenbrink.2015.The Chicago facedatabase:A free stimulus set of faces and norming data.Behavior researchmethods 47,4(2015),1122–1135.)中人脸照片对漫反射材质进行肤色数据增广得到约4000张漫反射材质图像。另外环境光数据库中包含2957张HDR环境光图像I_e。利用上述数据，我们通过基于图像的光照技术以及基于屏幕的次表面技术渲染人脸图像，在渲染过程中，我们随机转动3D模型和HDR环境光图像I_e。这样总共得到约十万张目标人脸图像I_o.将人脸图像映射到纹理空间，得到对应的纹理空间人脸颜色图像I。由

组成U型网络的训练数据，其中每项分辨率都为1024×1024。

网络结构。U型网络结构：漫反射材质、法向材质、镜面反射材质各有一个U型网络。每个U型网络都由编码器E、解码器D以及跳跃式传递构成。对于漫反射材质的U型网络 U_a,输入是经缩放的纹理空间人脸颜色图像

其中，

利用区域插值缩放算法将I缩放至分辨率512×512得到。U_a的编码器部分E_a包含9个下采样模块，前8个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层(S.Ioffe and C.Szegedy.Batchnormalization:Accelerating deep network training by reducing internalcovariate shift.arXiv preprint arXiv:1502.03167,2015.)、LReLU激活函数层(AndrewL Maas,Awni Y Hannun,and Andrew Y Ng.2013.Rectifier nonlinearities improveneural network acoustic models.In Proc.icml, Vol.30.3.)，最后一个与前八个区别是核大小为1×1，最终编码成为1×1×1024的漫反射材质隐空间。U_a的解码器部分D_a包含9个上采样模块，每个上采样模块都包含一个核大小为3 ×3、放大两倍的缩放卷积层(JonGauthier.2014.Conditional generative adversarial nets for convolutional facegeneration.Class Project for Stanford CS231N:Convolutional Neural Networksfor Visual Recognition,Winter semester 2014,5(2014),2.)、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为 512×512×3的输出。另外E_a与D_a中最高分辨率的3个模块会进行跳跃式传递连接(Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei A Efros.2017.Image-to-image translation with conditional adversarial networks.Proceedings of theIEEE conference on computer vision and pattern recognition(2017).)。上述网络结构可以表示为(C32K3S2,BN,LReLU, Skip1)->(C64K3S2,BN,LReLU,Skip2)->(C128K3S2,BN,LReLU,Skip3)->(C258K3S2,BN, LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN, LReLU)->(C512K3S2,BN,LReLU)->(C1024K1S2,BN,LReLU)->(RC512K3R2,BN, LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN, LReLU)->(RC512K3R2,BN,LReLU)->(R256K3R2,BN,LReLU)->(Skip3,RC128K3R2,BN, LReLU)->(Skip2,RC64K3R2,BN,LReLU)->(Skip1,RC32K3R2,BN,LReLU)->(C3K1S1, Sigmoid)，其中CxKySz表示z大小步长、核大小为y、输出深度为x的卷积层，BN表示批标准化，RCxKyRz表示缩放比例为z、核大小为y、输出深度为x的缩放卷积层，Skip表示跳跃式连接，其后的数字表示编号，编号相同表示同一组跳跃式连接。对于法向材质的U型网络U_n，输入是经过区域插值缩放的纹理空间人脸肤色图像

分辨率是256×256，其与 U_a的主要区别在于编码器E_n与解码器D_n中各少了一个下采样层与上采样层，隐空间大小为 1×1×512，D_n输出大小为256×256×3。网络结构表示如下,(C32K3S2,BN,LReLU, Skip1)->(C64K3S2,BN,LReLU,Skip2)->(C128K3S2,BN,LReLU,Skip3)->(C258K3S2,BN, LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN,LReLU)->(C512K3S2,BN, LReLU)->(C512K1S2,BN,LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN, LReLU)->(RC512K3R2,BN,LReLU)->(RC512K3R2,BN,LReLU)->(R256K3R2,BN, LReLU)->(Skip3,RC128K3R2,BN,LReLU)->(Skip2,RC64K3R2,BN,LReLU)->(Skip1, RC32K3R2,BN,LReLU)->(C3K1S1,Sigmoid)。对于镜面反射材质的U型网络U_s,其编码器结构E_s与E_n相同，D_s与D_n的唯一不同在于最后一层卷积层的输出深度为1，D_s的输出大小为 256×256×1。

损失函数。用U_*表示U型网络，其中下标*可以是a,n,s分别表示漫反射材质、法向材质、镜面反射材质，损失函数的定义如下：

表示缩放后的纹理空间的人脸颜色图像，

与

分别表示U型网络输出材质图像与相应的缩放后的真实材质图像。其中

分辨率是512×512，而

分辨率是256×256。

分辨率是512×512,而

的分辨率是256×256。在训练过程中，学习速率是1e-4,使用的优化器是Adam优化器(D.P.Kingma and J.Ba.Adam:A method forstochastic optimization. arXiv preprint arXiv:1412.6980,2014.)。

2.2训练基于卷积神经网络的球谐光照系数回归网络

训练数据。根据2.1中得到的目标人脸图像I_o.以及I_o渲染使用的HDR环境光图像I_e,通过下式，计算I_e的球谐光照系数z_e：

其中i,j表示图像长宽W,H方向的笛卡尔坐标，Y^k表示球谐函数多项式，k表示球谐的阶数，0 ≤k＜9，φ表示图像坐标i,j到球面坐标θ,

的转换方程，其表达式如下：

最终，由{I_o,z_e}组成训练数据对。

网络训练。我们采用类似VGG(Karen Simonyan and AndrewZisserman.2014.Very deep convolutional networks for large-scale imagerecognition.arXiv preprint arXiv:1409.1556(2014).) 网络结构来构建球谐光照系数回归网络E_e。具体地，将I_o缩放至分辨率256×256，并通过与 VGG相同的10层卷积层，最后通过一个平均池化层和全连接层输出球谐光照系数z_e。通过球谐光照系数的网络输出与真实值之间的L2范数作为损失函数训练球谐光照系数回归网络。训练学习速率为1e-4，使用的优化器是Adam。

2.3初始化材质隐空间变量

向2.1中训练好的3个U型网络中的编码器E_*输入缩放的纹理空间的人脸颜色图片

可以得到

该值即为材质隐空间变量z_*的初始值，另外还需要记录编码器前3个下采样模块输出的特征图组成的集合

*是a,n,s分别表示漫反射材质、法向材质以及镜面反射材质。该过程可以用以下公式表示：

2.4初始化球谐光照向步骤2.2中训练好的球谐光照回归网络E_e输入缩放至256×256的人脸照片

得到表示球谐光照系数

以此作为球谐光照系数z_e的初始值。该过程可以用以下公式表示：

3.隐空间到反射材质空间的解码：利用基于卷积神经网络实现的可微解码器，将人脸反射材质隐空间的系数解码为相应的反射材质。

3.1解码

向步骤2.1中训练好的U_*中的解码器D_*输入z_*以及

进行解码操作，可以得到对应的材质图像，可以用如下表达式表示：

4.人脸反射材质的质量提升：基于步骤3得到的反射材质，利用基于卷积神经网络实现的可微的质量强化网络进一步提升反射材质质量。

4.1训练基于卷积神经网络的反射材质质量强化网络

训练数据。利用2.1中训练好的U型网络，以步骤2.1中训练数据的I作为网络输入生成

与步骤2.1中训练数据的T_*组成训练数据对

*表示a,n,s。

训练方式。对于漫反射材质的质量强化网络，我们参考SRGAN(Christian Ledig,Lucas Theis,Ferenc Huszár,Jose Caballero,Andrew Cunningham,Alejandro Acosta,Andrew Aitken, Alykhan Tejani,Johannes Totz,Zehan Wang,et al.2017.Photo-realistic single image super-resolution using a generative adversarialnetwork.In Proceedings ofthe IEEE conference on computer vision and patternrecognition.4681–4690)采用生成对抗(GAN)方式训练超分辨率网络R_a，将输入的512×512的

进行质量强化，得到1024×1024的T_a。对于法向材质和高光材质，我们同样采样生成对抗方式训练超分辨率网络R_n,R_s，和R_a不同的有两点，第一点，它们将输入256×256的材质图像进行质量强化，得到1024×1024的高质量材质图像；第二点，它们的输入除了

还有缩放的纹理空间的人脸颜色图像

4.2材质图像的质量强化：基于步骤3生成的

表示缩放至256×256的纹理空间人脸颜色图像。

5.利用基于物理的可微渲染器对隐空间的迭代优化：通过最小化基于物理的可微渲染器的渲染结果与输入人脸图像的差异，迭代优化人脸反射材质的隐空间，并通过解码与质量提升操作得到输出的人脸反射材质结果。

5.1利用反射材质和球谐光照进行基于物理的正向渲染

计算人脸漫反射。首先按照步骤1.3中得到I_uv对质量强化网络输出的T_*，*表示a,n,s，及步骤1.3中得到的阴影贴图T_sha和环境法向贴图T_bn进行双线性采样，可以得到对应的图像空间的材质图像t_*，*可以是a,n,s,sha,bn分别表示漫反射材质、法向材质、镜面反射材质、阴影贴图以及环境法向贴图。遍历I_uv中所有像素，利用渲染公式计算每个像素的漫反射光照：

其中L(ω)表示ω方向的入射光，V表示可见性，N表示法向，整个公式表示在法向半球上的球面积分。上述公式利用球谐近似(Peter-Pike Sloan,Jan Kautz,and JohnSnyder.2002. Precomputed radiance transfer for real-time rendering indynamic,low-frequency lighting environments.In ACM Transactions on Graphics(TOG),Vol.21.ACM,527–536.)可以进一步化简。L和V可以用球谐函数表达为

v记录在t_sha中，表示可见性的球谐系数，max(0，N·ω)同样可以用球谐表示为

其中，c表示截断余弦函数的球谐系数，由max(0，cosθ)的球谐系数旋转至当前像素法向方向n的球谐系数，n记录在 t_n中。利用球谐函数乘投影(Peter-Pike Sloan.2008.Stupid spherical harmonics(sh)tricks.In Gamedevelopers conference,Vol.9.Citeseer,42.)，重投影z_e与v，可以得到w，最终利用球谐函数的点乘法点乘w项与c项则可以化解为下式：

计算人脸镜面反射。同样遍历I_uv中所有像素，利用以下渲染公式计算每个像素的镜面反射光照：

f_r表示服从GGX分布(Bruce Walter,Stephen R.Marschner,Hongsong Li,andKenneth E. Torrance.2007.Microfacet Models for Refraction through RoughSurfaces.)的光线传输方程，ω_o表示视角方向。我们利用(Sébastien Lagarde andCharles de Rousiers.2014.Moving frostbite to physically based rendering.InSIGGRAPH2014 Conference,Vancouver.)拆分上述积分公式，可得下式：

L_s＝DFG·LD，

其中DFG表示预先计算的GGX渲染传输方程，LD的计算方式如下：

即为最终渲染结果。

5.2迭代优化材质隐空间变量与球谐光照系数z_e：最小化以下公式：

L表示损失函数，

表示步骤5.1的可微渲染过程。利用可微渲染、可微的质量强化网络以及可微的解码器，将损失值反向传递至z_*，并迭代更新z_*，直至收敛，最后向漫反射、法向量、镜面反射材质解码器分别输入z_a,z_n,z_s,并将其输出再输入至对应的材质质量强化网络，可以得到符合输入图像人物特征的材质T_a,T_n,T_s。*可以是a,n,s,e分别表示漫反射材质、法向材质、镜面反射材质、球谐光照。

实施实例

发明人在一台配备Intel Xeon E5-4650中央处理器，NVidia GeForce RTX2080Ti图形处理器(11GB)的机器上实现了本发明的实施实例。发明人采用所有在具体实施方式中列出的参数值，得到了附图1-5中所示的所有实验结果。本发明可以有效地根据输入的人物图像输出符合其特征且高质量的人脸反射材质。对于一张人脸区域600×800的图像，人脸3D几何信息的计算大约需要30秒，隐空间的初始化大约需要10毫秒，迭代优化过程每轮正向计算(解码、质量强化、渲染)需要250毫秒，需要150轮迭代可以收敛，因此整个迭代过程花费大约40秒时间。另外，训练U型网络需要12小时，训练球谐光照系数回归网路需要4小时，训练材质质量强化网络需要大约50小时，这些模块都只需要训练一次，便可用于处理任何输入的人物图像。

Claims

1.一种基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，包括以下步骤：

和球谐光照系数的初始值

*是a,n,s分别表示漫反射材质、法向材质以及镜面反射材质。

解码为相应的反射材质图像

(4)提升步骤3得到的反射材质图像

的分辨率及细节质量得到图像T_*。

2.根据权利要求1所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，所述步骤1包括如下子步骤：

(1.3)基于物理的可微渲染的静态信息的计算：利用1.1步骤中的3D模型、刚体变化矩阵、投影矩阵，将纹理坐标作为颜色信息绘制至图像空间，得到纹理坐标图像I_uv；利用1.1步骤得到的刚体变化矩阵、3D模型，得到经过刚性变化的3D模型，利用光线追踪算法计算上述3D模型每个顶点各个方向的遮挡，并将其投影至球谐函数多项式，由此得到每个顶点遮挡的球谐系数；另外记录未遮挡区域占比以及未遮挡区域的中心方向，得到每个顶点的环境法向量。最后通过纹理空间的三角网格化，以及分别对每个顶点的遮挡球谐系数和环境法向量进行三角形重心坐标插值，得到最终的阴影贴图T_sha和环境法向贴图T_bn。

3.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，所述步骤1.2中，利用泊松算法填补纹理空间的人脸颜色图像中存在的空洞区域。

4.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，基于卷积神经网络的编码器、解码器通过组成U型网络共同训练得到，训练具体包括如下子步骤：

(a)训练数据：获取N张目标人脸图像I_o及对应的漫反射材质

法向材质

以及镜面反射材质

组成U型网络的训练数据，其中每项分辨率都为1024×1024。

U_a的编码器部分E_a包含9个下采样模块，前8个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最终编码成为1×1×1024的漫反射材质隐空间。U_a的解码器部分D_a包含9个上采样模块，每个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为512×512×3的输出。法向材质的U型网络U_n，输入是经过区域插值缩放的纹理空间人脸颜色图像

分辨率是256×256，其编码器E_n包括8个下采样模块，前7个下采样模块都包含一个核大小为3×3、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最后一个下采样模块包含核大小为1×1、步长为2×2的卷积层、批标准化层、LReLU激活函数层，最终编码成为1×1×512的法向材质隐空间。解码器D_n中包括8个上采样模块，每个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×3的输出。镜面反射材质的U型网络U_s,其编码器结构E_s与E_n相同，D_s的8个上采样模块都包含一个核大小为3×3、放大两倍的缩放卷积层、批标准化层、LReLu激活函数层，最后通过一个核大小为1×1、步长为1×1、激活函数为Sigmoid的卷积层得到最终分辨率为256×256×1的输出。其中，U形状网络的E*与D*中最高分辨率的3个模块进行跳跃式传递连接，*为a,n,s。

(c)训练的损失函数的定义如下：

表示表示缩放后的纹理空间的人脸颜色图像，

与

分辨率是512×512，而

分辨率是256×256。

分辨率是512×512,而

的分辨率是256×256。

5.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，所述步骤2中，输入图像的球谐光照的初始值

其中i,j表示图像长宽W,H方向的笛卡尔坐标，Y^k表示球谐函数多项式，k表示球谐的阶数，0≤k＜9，φ表示图像坐标i,j到球面坐标θ,

的转换方程，其表达式如下：

6.根据权利要求1所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，所述步骤4中，通过构建反射材质质量强化网络R_*提升反射材质图像

的分辨率及细节质量，具体包括如下子步骤：

与人脸颜色图像I原始的

组成训练数据对

*表示a,n,s。

(4.1.2)训练方式：采用SRGAN网络作为反射材质质量强化网络R_*，并采用生成对抗(GAN)方式训练；其中，对于漫反射材质质量强化网络R_a，输入为512×512的

和缩放的纹理空间的人脸颜色图像

(4.2)材质图像的质量强化：基于步骤3生成的

表示缩放至256×256的纹理空间人脸颜色图像。

7.根据权利要求2所述的基于可微渲染器的从单幅图像求解人脸反射材质的方法，其特征在于，所述步骤5包括如下子步骤：

(5.1)利用反射材质和球谐光照进行基于物理的正向渲染：

(5.1.1)计算人脸漫反射：按照步骤1.3中得到I_uv对质量强化网络输出的T_a、T_n和T_s以及阴影贴图T_sha和环境法向贴图T_bn进行双线性采样，得到对应的图像空间的材质图像t_*，*是a,n,s,sha,bn,分别表示漫反射材质、法向材质、镜面反射材质、阴影贴图以及环境法向贴图。遍历I_uv中所有像素，利用以下基于物理的渲染公式计算每个像素的漫反射光照：

其中，k表示球谐函数多项式的阶数，利用球谐乘投影性质将z_e,v进行重投影，得到w，v表示每个像素各个方向的可见性，记录在t_sha中；c由max(0,cosθ)的球谐系数旋转至当前像素法向方向n的球谐系数，n记录在t_n中。

L_s＝DFG·LD，

即为最终渲染结果。

L表示损失函数，