CN112967373A

CN112967373A - 一种基于非线性3dmm的人脸图像特征编码方法

Info

Publication number: CN112967373A
Application number: CN202110151353.1A
Authority: CN
Inventors: 胡艳飞
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-06-15
Anticipated expiration: 2041-02-03
Also published as: CN112967373B

Abstract

本发明涉及一种基于非线性3DMM的人脸图像特征编码方法，属于图像处理领域。该方法利用大量非受限的二维人脸图像去学习一个非线性三维模型，表示能力和重建效果远远要优于传统3DMM。本发明在非线性3DMM的框架基础上，通过对模型拟合部分特别是编码器网络部分进行改进。首先通过对输入的人脸图像进行预处理，包括数据增强和归一化处理；其次利用DenseNet网络作为编码器网络的主干网络，编码估计输入图像中的人脸的各项特征参数；在经过两个解码器网络分别进行解码处理，得到最终的3D面部形状和真实反照率；最后将得到的光照、投影参数、反照率以及3D面部形状通过一个渲染层去重建原始输入面部。

Description

一种基于非线性3DMM的人脸图像特征编码方法

技术领域

本发明属于图像处理领域，涉及一种基于非线性3DMM的人脸图像特征编码方法。

背景技术

三维形变模型(3DMM)是在存在明确对应关系的空间中3D面部形状和纹理的统计模型，广泛应用于多个方面，包括面部分析如人脸重建、人脸对齐、辅助人脸识别，模型拟合等等。可变形模型框架提供了两个关键的好处：第一，重建和所有其他模型之间的点对点对应，允许变形，第二，建模不同类型的脸(男性到女性，中性到微笑，等等)之间的潜在转换。

传统3DMM是通过对联合采集的三维人脸扫描和2D图像的训练集进行降维来学习的。为了对高度可变的3D人脸形状建模，需要大量高质量的3D人脸扫描。然而，满足这一要求是昂贵的，因为在数据捕获和后处理阶段，获取面部扫描非常费力。第一个三维模型是通过对200名具有相似种族/年龄组的受试者进行扫描而建立的。他们也是在控制良好的条件下被捕获的，只有中性的表情。因此，它对面部特征的较大变化是脆弱的。广泛使用的巴塞尔人脸模型(BFM)也是建立在只有200个中性表情的对象。即便是后期工作中对于表情的缺乏进行了改善，利用FaceWarehouse或者BD-3FE表情库来补偿，但这些表情库都是从中性表情的偏移中学习到的，仍然不足以去完全或者真正地展示人脸的真实表情。长此以来几乎所有的现有模型使用的训练的3D扫描都不足300个，如此小的训练数据集远远不足以描述人脸的完全可变性。除此之外，3DMM的纹理模型通常是在良好控制的条件下，利用与3D扫描共同捕获的少量2D人脸图像来构建的。尽管在过去的几年里，3D采集设备有了很大的改进，但这些设备仍然不能在任意的野外条件下工作。所有当前的3D面部数据集都是在实验室环境中捕获的。因此，这种模型只能在相似的条件下表现面部纹理而不是在野外环境下，这极大地限制了它的应用场景。还有最重要的一点，3DMM的表示能力除了上述的训练数据集的大小和类型限制以外，还受到模型本身的表达式的限制。因为传统的3DMM都是采用线性的表示形式来构建3D人脸的模型，通常是将形状和纹理分别作为表达式的子项进行线性叠加来获得新的人脸，后来也有工作是将表情加入到线性表达式中，使得模型拥有了表情项。但是人的面部变化本质上就是非线性的，比如不同面部表情或姿势的变化就是非线性的。而传统的线性3DMM是基于主成分分析的线性假设，这与非线性的本质变化是相违背的，因此主成分分析模型并不能很好解释面部变化，基于线性3DMM的各项应用在处理子空间外的变化时通常会降低其性能。

鉴于线性3DMM存在以上训练数据大小、类型以及线性基的限制，随着深度神经网络的快速发展以及二维图像分析技术的不断更新，产生了大量的易获取的高质量的二维图像数据集。于是结合深度神经网络和易获取的大量的野外二维人脸图像数据集，文献“TranL,Liu X.On Learning 3D Face Morphable Model from In-the-wild Images[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2019,PP(99):1-1.”提出了非线性3DMM，革新了传统线性3DMM的模型学习范式，具体是从一组野外的2D人脸图像中学习人脸形状和反照率的非线性3D可变形模型，而不需要收集3D人脸扫描，利用深度神经网络来解析形状和反照率参数，并通过端到端的思想构建编码器网络负责从二维人脸图像中学习编码人脸特征参数，完美的弥补了上述的线性3DMM的限制。总而言之就是通过利用深度神经网络捕捉复杂人脸数据中的变化和结构的能力，在不获取3D人脸扫描的情况下，从大型野外2D人脸图像集合中学习非线性3DMM模型。在线性3DMM基础上显著改善的形状和面部纹理表示能力，因此而且也有利于其他任务，如2D人脸对齐，三维重建和人脸编辑。但是考虑原先的非线性3DMM中，编码器网络是基于VGG系列的网络，关于人脸特征参数的估计能力不高，严重影响网络学习到更加接近真实值的参数。随着深度学习模型的不断演进，涌现了很多性能比较优越的学习模型，包括ResNet、DenseNet和MobileNet系列网络等等，对于特征学习能力更强，更加有利于框架后端解码器去解析更精确地参数值，恢复更接近于真实世界的人脸形状和纹理，进而提高模型重建的能力与精度。

发明内容

有鉴于此，本发明的目的在于提供一种基于非线性3DMM的人脸图像特征编码方法。首先对输入图像进行了预处理，主要包括图像增强与归一化处理；因为本算法中所使用的数据集为一个对象包括十几张不同角度的图片，并且有的图像本身就是在光照不均匀、昏暗的环境下拍摄的，所以对输入的图像进行增强处理，利用Retinex理论中的MRSCR算法。对于归一化处理，主要是考虑到增强后的输入图像将其转换成标准模式，可以防止仿射变换的影响同时也可减小几何变换的影响，而且这种处理可加快梯度下降求最优解的速度。输入处理完成之后，开始对编码器网络结构进行改造，主要是对编码器主干网络的最后一个全连接层进行改造，将该层的上一层结果进行分解，分成四个分支各自进行光照参数、投影参数、形状参数和反照率参数的估计。结果分解之后，每一个分支的结构略微不同，首先是都会经过一个包含卷积层和归一化层的卷积块，不同的是卷积核的大小不一样；然后再经过池化层(这里考虑选择平均池化)，池化之后四个分支的两两的处理存在差异，光照和投影参数经过一个线性层(类似于全连接层)之后方可得到关于光照和投影的向量，而形状和反照率参数直接池化之后就可获得相对应的向量。然后将改造好的编码器网络跟非线性3DMM即解码器网络进行融合，联合进行网络的学习与训练，最后再利用渲染层完成人脸的重建。

为达到上述目的，本发明提供如下技术方案：

一种基于非线性3DMM的人脸图像特征编码方法，该方法包括以下步骤：

S1：图像数据集数据增强预处理；

S2：图像归一化处理；

S3：对DenseNet神经网络结构进行改造；

S4：解码器网络解析特征参数；

S5：渲染层网络渲染图像，重建原始人脸。

可选的，所述S1具体为：

利用Retinex算法对数据集图像进行增强预处理，具体公式如下：

I(x,y)＝L(x,y)*R(x,y)

其中I(x,y)代表被观察或照相机接收到的图像信号；L(x,y)代表环境光的照射分量；R(x,y)表示携带图像细节信息的目标物体的反射分量；

将上述等式两边分别取对数，抛开入射光的性质得到物体本来的面貌，公式如下：

Log[R(x,y)]＝Log[I(x,y)]-Log[L(x,y)]

其中假设一幅图像数据I(x,y)，计算出对应的R(x,y)，则认为R(x,y)是增强后的图像。

可选的，所述S2具体为：

图像增强之后，在进入编码器网络之前，对其进行归一化处理。

可选的，所述S3具体为：

利用DCNN充当一个编码器，去估计编码当前输入的人脸图像各项特征参数，包括光照参数、投影参数、面部形状参数以及面部纹理参数或者是反照率参数；整个编码器网络功能表示如下：

E:I→m，L，f_S，f_A

其中I表示输入的一组2D人脸图像，m，L，f_S，f_A分别表示投影参数、光照参数、形状参数以及反照率参数；

编码器采用的基干网络为DenseNet网络，具体为DenseNet121；

将最后一个全连接层进行改造，将该全连接层的上一层结果进行分解，分成四个分支各自进行光照参数、投影参数、形状参数和反照率参数的估计；

每一个分支再经过一个卷积块，由卷积层和批量归一化层构成；

接着再利用池化层处理，采用平均池化；

最后估计形状和反照率参数的分支再通过池化操作得到相应的特征参数值，估计光照和投影参数的分支经过一线性层的处理得到最终的估计值。

可选的，所述S4具体为：

编码器网络对输入人脸图像进行编码估计后，与解码器网络进行融合，解码器网络是非线性3DMM；

解码器网络由形状解码器和反照率解码器两部分构成，分别负责对编码器的估计输出进行解码操作，形状解码器和反照率解码器分别由两个深度神经网络DCNN组成，只是最终的输出层的设置不同，解析3D面部形状和真实反照率；解码器网络表示如下：

其中D_S,D_A分别表示形状和反照率解码器，S,A为解码得到的三维面部形状和真实反照率。

可选的，所述S5具体为：

解码器解码完成之后，利用获取的光照参数、投影参数、以及解析的形状和反照率通过一渲染层进行渲染得到最终的重建图像，涉及三维空间到二维平面的映射；具体分为如下几部分：

1)利用旋转后的面部形状和投影参数计算表面法线映射，再通过预先选择的光照模型，计算UV空间的阴影C^UV；

2)通过将解码器解析得到的真实反照率进行UV空间映射，得到相应空间中的反照率表示A^UV，然后将反照率和阴影进行融合计算出来纹理T^UV；

3)利用Z-Buffering渲染器通过前面获得的纹理和面部网格进行渲染，实现重建原始人脸图像的任务；

最终的目标函数表示为：

其中

表示重建的图像，表示为

表示渲染层；

损失函数分为两个阶段，两个阶段依次递进，具体表示如下公式：

L＝L_rec+λ_landL_land+λ_regL_reg

L_pre＝L_S+λ_TL_T+λ_mL_m+λ_landL_land+λ_regL_reg

其中L_pre表示预训练阶段损失，在模型前期训练过程中，引入预训练损失函数来指导早期迭代中的训练；等到预训练损失收敛之后，再将整个损失切换到正式损失阶段即L。

本发明的有益效果在于：

1)本发明弥补了基于主成成分分析的线性3DMM的限制，包括训练数据类型、数量以及线性表示的能力不足问题，最重要的是它使得利用非受限的二维图像去学习三维模型来重建新的人脸图像成为现实；

2)本发明提出的图像预处理和利用性能更好的深度学习模型作为编码器主干网络能够很大程度上提高了编码器估计编码的人脸特征参数的准确度，为模型学习部分提供了更好的输入，使系统处理图像特征进而重建原始图像的效果更加接近于真实的人脸，尤其是脸部细节。仿真结果表明，本发明中算法不仅可行而且在某些方面效果比较明显。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明提供的传统线性3DMM与非线性3DMM的对比图；

图2为本发明提供的非线性3DMM的通用框架图；

图3为本发明的基于非线性3DMM的人脸图像特征编码算法流程图；

图4为本发明采用不同深度网络学习模型作为编码器主干网络在预训练阶段效果对比图；

图5为本发明采用DenseNet121作为编码器主干网络并进行改造之后，通过结合非线性3DMM得到的重建人脸效果图；

图6为本发明基于非线性3DMM得到的重建的三维的人脸图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图6，为一种基于非线性3DMM的人脸图像特征编码方法。

图1是本发明提供的传统线性3DMM与非线性3DMM的区别对比图，如图所示，非线性3DMM很好地弥补了线性模型的不足，包括训练数据集类型、模型表达方式以及重建的效果来看，完全优于线性3DMM的性能。

图2是本发明提供的算法的整体框架图，如图所示整个算法大体上分为两个模块，模型拟合跟模型学习两部分，模型学习主要涉及非线性3DMM，它是由两个深度卷积网络构成的解码器网络，负责将模型拟合部分的输出进行解析；模型拟合涉及编码器网络，这一块是本发明的重点内容，编码器网络负责将输入的图像进行学习，然后编码估计脸部图像的各个特征参数。

图3是本发明的主要算法网络结构图，如图所示，输入图像在输入编码器之前要进行预处理，主要包含两个操作，一是数据增强，考虑到原始的数据集中好多对象的图片是在光线较差、昏暗的环境下拍摄的，非常模糊而且分辨率较低；鉴于这些原因，本发明通过采用Retinex算法对数据集进行部分数据增强操作，图像数据来自于300W-LP数据集，其中包含122450张人脸图像。二是图像增强之后，还需要对其进行归一化处理操作才可以输入到编码器网络中。关于编码器网络的构成，主要是通过对两种不同的深度学习网络进行对比分析，选择性能跟效果最佳的网络作为编码器的主干网络。主干网络的改造主要是将最后一个全连接层进行了改动，将全连接层的输入进行分解，分开为四个分支分别进行形状、反照率、光照和投影参数的估计；每个分支由一个由卷积层和批归一化层构成的卷积块，每个卷积块的不同在于卷积核大小不一样；然后后面再接一个池化层(这里选择的是平均池化)，池化操作完成之后就可以先得到形状和反照率参数的向量，对于投影跟光照参数还需要再经过一线性层(类似于全连接层)才能得到最终的参数向量。两个深度学习网络分别为ResNet50和DenseNet121。

编码器网络改造完成之后，我们将该网络与解码器网络结合进行联合训练，分别对两种不同的编码器进行了训练，通过对比最终的结果以及模型框架的其他性能，最终选择了DenseNet121网络作为本发明的算法中编码器的主干网络。两种深度学习模型在预训练阶段的结果对比图如图4所示，从清晰度、面部轮廓以及面部表情来看，前者明显优于后者，而且前者要比后者更容易收敛，所以本发明采用DenseNet121作为编码器的主干网络。

编码器跟解码器联合之后，流程大致为编码器编码估计特征参数，然后将其输入到解码器网络中，通过解析得到三维人脸形状

和真实反照率

此时获得的结果都是处在三维空间里，所以为了能够顺利实现原始图像的重建任务，就必须得要进行三维到二维的映射操作，然后才可以进行渲染处理，最终得到重建后的输入人脸。

首先是人脸形状的三维到二维空间的投影，这里投影模型本发明采用弱透视投影模型，具体投影计算公式如下：

其中g(·)是将旋转后的三维形状投影到二维平面的投影函数，具体是以每个3D顶点为单位进行操作的；f为尺度因子，用于调节；P_r为正交投影矩阵，具体表示为

R为旋转矩阵，用于将正面中性三维形状的顶点进行旋转成特定姿势的三维形状；S为解码器解析的三维正面中性的的面部形状；t_2d为平移向量；M(m)是大小为2×4投影矩阵，有6个自由度由6维向量m参数化。

然后是纹理的2D表示，这里纹理本发明采用的是将解析的反照率和跟合成的阴影进行融合之后的纹理，具体做法如下：

1)首先是将反照率映射到UV空间，得到反照率的2D表示，同样也是在三维顶点v＝(x,y,z)上进行操作的，映射后的结果表示为v^UV＝(u,v)具体公式如下：

其中α₁,α₂,β₁,β₂分别为恒定尺度跟平移标量，主要用于将展开的脸部放置到图像边界中。所以每一个顶点的反照率

就可以通过从

即反照率的UV空间组件中抽样计算得到，具体看可表示为如下公式：

其中

分别表示向下或者向上取整。

2)反照率表示完之后，就要开始在UV二维空间中合成纹理；通过利用得到的UV空间的反照率A^UV跟合成估计的UV空间的阴影C^UV合成最终的纹理T^UV.具体计算公式如下：

其中阴影部分的合成主要是利用面部形状的表面法线N(m,S^UV)和球谐光照模型来计算得到；H(·)表示球谐基函数,L表示球谐系数，B表示球谐频带的总数，一般取3。

最后再经过Z-buffering渲染器作用之后，得到重建的带有纹理的原始图像，具体表示如下：

其中

表示重建的人脸图像，(m,n)表示像素；Φ(g,m,n)＝{v₁,v₂,v₃}返回投影g之后包围像素(m,n)的三角形的三个顶点；考虑到同一个顶点可能会被多个三角形共用，所以每个像素的最终位置是由通过重心坐标

内插的三个顶点的位置来确定。

由此，重建原始人脸图像的任务就可以完成了，那么在整个网络学习的过程中，本发明的目标函数设置如下：

其中

表示重建的对象，I_i为原始输入的人脸图像，K输入的图像数量。

同时为了更好地指导网络去学习，本发明采用以下损失函数来约束模型学习，保证重建任务的更好实施。具体损失函数如下公式所示：

L＝L_rec+λ_landL_land+λ_regL_reg

L_pre＝L_S+λ_TL_T+λ_mL_m+λ_landL_land+λ_regL_reg

损失函数主要分为两个阶段，预训练阶段和正式训练阶段；正式训练损失主要是由重建损失L_rec、标记点对齐损失L_land和正则化损失L_reg组成；预训练阶段除了上述之外，还包括了形状、纹理和投影损失项。

本发明利用的是BFM中的面部网格三角定义，通过使用300W-LP数据集中的人脸图像对网络进行训练和学习，该数据集主要由AFW、AFW_Flip，HELEN、HELEN_Flip，IBUG、IBUG_Flip，LFPW、LFPW_Flip四部分组成，每个对象都具有十张以上的不同姿势的脸部照片，同时每个对象也同时拥有自己的镜像照片，四个部分数据集总共包含122450张野外的人脸图像；测试数据集主要是利用AFLW2000数据集。

图4表示的是本发明引入两个不同深度网络学习模型来作为编码器的主干网络在预训练阶段的效果对比图，在训练的过程中发现，DenseNet121作为编码器网络主干网的模型，预训练阶段收敛早而且效果优于ResNet 50作为编码器网络主干网的模型。其中DenseNet121网络模型是在第16-17个epoch就已经收敛且图像视觉效果比较清晰，而ResNet50网络模型在第24-25个epoch才勉强收敛且图像效果较差；从清晰度、面部轮廓以及面部表情来看，前者明显优于后者，而且前者要比后者更容易收敛，于是本发明最终选择DenseNet121作为本算法中编码器的主干网络，由此也验证了本发明算法的可行性。

图5是本发明算法得到最终的重建人脸图像，第一行为源输入图像，第二行是重建的二维人脸图像。从人脸表情和面部对齐的角度来看，本发明效果还是比较好的。

图6是本发明算法得到的三维人脸模型的结果图，主要通过保存网络中关于3D脸部网格的输出为OBJ文件，并利用MeshLab软件导入可得到的相应的3D网格效果即通过二维图像得到的三维人脸重建的结果。从图中可以看到不论从头部姿势、面部表情还是面部纹理，本发明的算法结果还是比较可观的，进一步验证了本发明算法的可行性。

本发明提出的一种基于非线性3DMM的人脸图像特征编码算法有效解决了模型拟合过程中存在的特征学习能力不足等问题，提高了所学习到的特征的精度，进一步增强了模型重建原始图像的精度。通过将性能更加优越的，学习能力更强的深度学习模型应用到编码器网络中，可以有效避免网络在学习低维度特征时存在的部分弊端。仿真结果表明，本发明提出的基于非线性3DMM的人脸特征编码算法不仅仅可行，而且在一些方面具有良好的性能。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。