CN110728219B

CN110728219B - 基于多列多尺度图卷积神经网络的3d人脸生成方法

Info

Publication number: CN110728219B
Application number: CN201910930936.7A
Authority: CN
Inventors: 李坤; 刘景瑛; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2023-09-26
Anticipated expiration: 2039-09-29
Also published as: CN110728219A

Abstract

本发明属于计算机视觉和计算机图形学领域，为一种变分自编码器神经网络去学习3D人脸的高维表示，并同时完成重建任务。利用变分自编码器的生成能力来生成更具有多样性的3D人脸数据。本发明采取的技术方案是，基于多列多尺度图卷积神经网络的3D人脸生成方法，步骤如下：利用基于图卷积结构的多尺度变分编码器框架，将输入的面部三维网格Mesh通过多尺度编码器编码到一个固定维度的中间向量，然后再通过使用解码器就将中间特征向量解析成原始的面部Mesh；其中，所述编码器包含三个部分，多尺度图卷积算法、选择融合、自注意力机制以及网络结构。本发明主要应用于图像处理。

Description

基于多列多尺度图卷积神经网络的3D人脸生成方法

技术领域

本发明属于计算机视觉和计算机图形学领域，特别涉及使用深度学习的方法去表示3D人脸与生成。

背景技术

人脸包含丰富的信息，如个人身份，情感和意图，因此在人类视觉感知中占据非常重要的位置。3D人脸重建有助于从图像中解决面部的姿势，表情和缺失特征，并且在计算机视觉和图形中具有广泛的应用，例如，人脸识别，人脸动画和人脸跟踪。然而，由于人脸具有高度可变化性，尤其复杂表情会导致非线性变化，因此获得精确的面部三维模式具有很大的挑战。

传统方法使用激光扫描仪或深度相机来使用基于融合的方法重建3D面部(R.A.Newcombe et al.,“KinectFusion:Real-time dense surface mapping andtracking,”in Proc.IEEE International Symposium on Mixed and AugmentedReality,2011,pp.127–136.)，但它们无法实现动画，编辑和生成。为了解决这个问题，许多工作提出了参数化人脸模型(Volker Blanz and Thomas Vetter,“A morphable modelfor the synthesis of 3D faces,”in CGIT,1999,pp.187–194.)和混合形状(John PLewis,Ken Anjyo,Taehyun Rhee,Mengjie Zhang,Frederic H Pighin,and ZhigangDeng,“Practice and theory of blendshape facial models,”in Eurographics(Stateof the Art Reports),2014.)来表示面部形状和表情，并且有几种方法使用这些模型从扫描的深度网格中成功地重建了面部形状(Pei-Lun Hsieh,Chongyang Ma,Jihun Yu,andHao Li,“Unconstrained realtime facial performance capture,”in CVPR,2015,pp.1675–1683.)。然而，使用线性表示的重建形状通常是平滑的而没有丰富的细节。综上，对3D人脸进行高效且准确的表示以及重建是比较重要的，将为面部识别、身份验证等方向提供技术支持。

发明内容

为了能够对3D人脸数据进行有效的高维特征表示，以及通过高维特征进行重建，本发明旨在提出一种变分自编码器神经网络去学习3D人脸的高维表示，并同时完成重建任务。利用变分自编码器的生成能力来生成更具有多样性的3D人脸数据。本发明采取的技术方案是，基于多列多尺度图卷积神经网络的3D人脸生成方法，步骤如下：利用基于图卷积结构的多尺度变分编码器框架，将输入的面部三维网格Mesh通过多尺度编码器编码到一个固定维度的中间向量，然后再通过使用解码器就将中间特征向量解析成原始的面部Mesh；其中，所述编码器包含三个部分，多尺度图卷积算法、选择融合、自注意力机制以及网络结构。

编码器具体包括以下部分：

2-1)多尺度图卷积算法:使用图卷积网络来处理网格数据,同时进行对节点特征信息与结构信息进行端到端学习，由于三维图结构数据的特征，样本数据通常包含不同尺度的特征，因此使用具有不同尺度滤波器来捕获图结构数据的特征，滤波器的感受野范围通过图卷积中切比雪夫多项式的阶数K决定，不同的K值控制多尺度图卷积尺度；

2-2)选择融合：在多尺度卷积之后，得到三种类型的特征图，分别表示为不同尺度的特征信息，利用自动学习融合参数的选择性融合方法集成所述三种类型的特征图，具体是，将每个特征图乘以一个可学习的参数w_i，并将其总和约束为一：

公式解析：其中i对应于第i个尺度，是每个尺度的特征映射；

2-3)自注意力机制。网络借鉴了人类的注意力机制，引入自注意力模块，通过使用该模块令中间隐向量考虑非局部的上下文信息的影响，从而具有更好的表达能力，在深度神经网络中使用自注意力通用模块：

t(Z_j)＝W_ZZ_j

公式解析：潜在向量Z可以被看作维度是C×1的特征图，O∈R^1×C是与Z相同大小的模块输出，利用1×1的卷积生成A和B两个特征图，{A,B}∈R^1×C，函数t计算位置j处的输入表示，只考虑线性嵌入的形式：

t(Z_j)＝W_ZZ_j

其中，W_Z是可学习的权重，h是用于计算关系分数的函数，使用具有归一化指数函数softmax的高斯函数Gaussion：

然后在注意力图和Z_j之间执行矩阵乘法，结果到R^1×C，推断出每个位置的结果特征是所有位置和原始特征的特征的加权和；

2-4)网络结构：网络分为编码器和解码器部分，编码器由3行并列的多尺度图卷积构成，每行尺度网络中包含四个图卷积层，每个图卷积层都采用批规范化以及修正线性单元ReLU激活函数，每层卷积都采用下采样；编码器最后一层将特征映射到隐层空间，隐层空间向量经过融合层和自注意力层后输入到解码器中，解码器首先使用一个全连接层将特征映射到Mesh空间，接着3行并列的4层图卷积，每层图卷积都是用了批规范化和ReLU激活函数，采用上采样，整个解码器部分相当于编码器的逆过程。

与已有技术相比，本发明的技术特点与效果：

为自注意模块添加残差连接以使其更有效，该残差模块能够有效地在特征图的内部表示中找到全局的远程依赖。

首先，本发明是在三维Mesh的基础上，相比传统的重建方法，本发明方法主要具有以下特点：

1、提出了一种新的多列多尺度图卷积变分网络架构(MGCN)，它用于人脸Mesh的分层多尺度表示。其模型依赖于图数据网格的顶点连接关系，并且还可以通过有效地对网格的顶点进行采样来生成分层网格表示。利用并列富尺度图卷积网络架构，以有效地捕获网格上不同尺度的信息，并学习更好的潜在空间表示。三列对应于具有不同大小(大，中，小)的感受野的滤波器，因此每个列图卷积学习的特征适应于诸如眼睛，鼻子和嘴的面部网格的大小变化。

2、提出了一种基于多列图卷积网络的可学习特征融合方法。结合自注意机制使融合更加智能化。该方法进一步增强了低维潜在空间中三维人脸的潜在表示。

3、变分编码器使用Mesh原始数据而无需复杂的数据嵌入过程，易于训练，并且重建精度很高。实验结果表明，与现有技术相比，我们的方法在重建误差方面取得了更好的结果。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例是网络结构模型示意。

图2为本发明实施例是基于Coma数据集(Anurag Ranjan,Timo Bolkart,SoubhikSanyal,and Michael J Black,“Generating 3D faces using convolutional meshautoencoders,”in ECCV.Springer,2018,pp.725–741.)上获得的重建结果与其它方法的对比示意图。从上至下依次是输入的Mesh的真值，Anurag等人(Anurag Ranjan,TimoBolkart,Soubhik Sanyal,and Michael J Black,“Generating 3D faces usingconvolutional mesh autoencoders,”in ECCV.Springer,2018,pp.725–741.)重建出来的结果，本发明所估计重建的结果，Anurag等人的方法的误差可视化图，本发明的误差可视化图。

图3为所提出的是本发明的变分生成效果示意图，图示中的人脸都是网络随机生成的Mesh。

具体实施方式

为了能够对3D人脸数据进行有效的高维特征表示，以及通过高维特征进行重建，本发明采用的技术方案是设计一种变分自编码器神经网络去学习3D人脸的高维表示，并同时完成重建任务。利用变分自编码器的生成能力来生成更具有多样性的3D人脸数据。具体来说，我们的方法主要包括以下步骤：

1)变分自编码器的设计。设计了一种基于图卷积结构的多尺度变分编码器框架，将输入的面部Mesh通过多尺度编码器编码到一个固定维度的中间向量，然后再通过使用解码器就将中间特征向量解析成原始的面部Mesh。

变分自编码器是一个深度卷积网络，它主要包含三个部分，多尺度图卷积算法、选择融合、自注意力机制以及网络结构，具体包括以下部分：

2-1)多尺度图卷积算法。传统的卷积神经网络不能处理非欧氏空间数据，例如Mesh这种不规则的图数据，因此我们使用图卷积网络来处理网格数据。它能同时对节点特征信息与结构信息进行端到端学习，是目前图数据学习任务的最佳选择。由于三维图结构数据的特征，样本数据通常包含不同尺度的特征，因此使用具有不同尺度滤波器来捕获图结构数据的特征，滤波器的感受野范围可以通过图卷积中切比雪夫多项式的阶数(K)决定。不同的K值表示图卷积过程中涉及的节点范围，因此可以控制图的卷积尺度。

2-2)选择融合。在多尺度卷积之后，可以得到三种类型的特征图，分别表示为不同尺度的特征信息。如何有效地集成它们是提高整个网络性能的关键。最简单的方法是直接连接它们，但是特征信息对整体的贡献在每个尺度上是不相等的。因此，我们提出了一种自动学习融合参数的选择性融合方法。我们将每个特征图乘以一个可学习的参数w_i，并将它们的总和约束为一：

公式解析：其中i对应于第i个尺度，w_i是每个尺度的可学习参数，是每个尺度的特征映射。w_i可以看作是不同尺度特征的重要性。这些权重在训练期间得到优化，这决定了不同尺度的重要性，利用生成更好的潜在向量。

2-3)自注意力机制。网络借鉴了人类的注意力机制，引入自注意力模块，通过使用该模块令中间隐向量考虑非局部的上下文信息的影响，从而具有更好的表达能力。我们在深度神经网络中使用自注意力通用模块：

公式解析：潜在向量Z可以被看作维度是C×1的特征图，O∈R^1×C是与Z相同大小的模块输出，我们利用1×1的卷积生成A和B两个特征图，{A,B}∈R^1×C。函数t计算位置j处的输入表示。我们只考虑线性嵌入的形式：

t(Z_j)＝W_ZZ_j

W_Z是可学习的权重，h是用于计算关系分数的函数，我们使用具有softmax的Gaussion函数：

然后我们在注意力图和Z_j之间执行矩阵乘法，结果到R^1×C。可以推断出每个位置的结果特征是所有位置和原始特征的特征的加权和。此外，我们还为自注意模块添加了残差连接以使其更有效。该残差模块能够有效地在特征图的内部表示中找到全局的远程依赖。通过自我关注，我们可以更好地探索潜在的空间生成能力。

2-4)网络结构。网络分为编码器和解码器部分，编码器由3行并列的多尺度图卷积构成，每行的感受野范围即K值依次为2,6,10，每行尺度网络中包含四个图卷积层，特征数量设定为(1256,314,79,20)，每层都是用了批规范化以及ReLU激活函数。每层卷积都是用了下采样，倍率分别为[4,4,4,4]。编码器的每层输特征维度为1256×16,314×16,79×16和20×32，最后一层将特征映射到64维度的潜层空间。隐层空间向量经过融合层和自注意力层后输入到解码器中，解码器首先使用一个全连接层将64维度的特征映射到Mesh空间，接着3行并列的4层图卷积，每层图卷积都是用了批规范化和ReLU激活函数，上采样倍率为[4,4,4,4]，整个解码器部分相当于编码器的逆过程。每层的输出特征维度为79×32,314×32,1256×16和5023×16。编码器生成的64维度特征会和高斯分布的数据进行Kullback-Leibler(相对熵)变分损失函数的计算，以使得编码器生成的数据尽可能逼近高斯分布空间。

3)训练。我们设定潜层空间维度为64，训练Mesh的顶点数为5023，使用的是1领域的顶点集合，整体数据集训练400次，学习率设定为0.0001，每批次填充16个Mesh数据，使用的Adam(深度学习优化算法)优化器。该网络使用TensorFlow(深度学习框架)深度学习框架进行训练，运行在英伟达GTX1080Ti显卡。

Claims

1.一种基于多列多尺度图卷积神经网络的3D人脸生成方法，其特征是，步骤如下：利用基于图卷积结构的多尺度变分编码器框架，将输入的面部三维网格Mesh通过多尺度编码器编码到一个固定维度的中间向量，然后再通过使用解码器就将中间特征向量解析成原始的面部Mesh；其中，所述编码器包含三个部分，多尺度图卷积算法、选择融合、自注意力机制；其中：

1)多尺度图卷积算法：使用图卷积网络来处理网格数据,同时进行对节点特征信息与结构信息进行端到端学习，由于三维图结构数据的特征，样本数据通常包含不同尺度的特征，因此使用具有不同尺度滤波器来捕获图结构数据的特征，滤波器的感受野范围通过图卷积中切比雪夫多项式的阶数K决定，不同的K值控制多尺度图卷积尺度；

2)选择融合：在多尺度卷积之后，得到三种类型的特征图，分别表示为不同尺度的特征信息，利用自动学习融合参数的选择性融合方法集成所述三种类型的特征图，具体是，将每个特征图乘以一个可学习的参数w_m，并将其总和约束为一：

公式解析：其中m对应于第m个尺度，是每个尺度的特征映射；

3)自注意力机制，网络借鉴了人类的注意力机制，引入自注意力模块，通过使用该模块令中间隐向量考虑非局部的上下文信息的影响，从而具有更好的表达能力，在深度神经网络中使用自注意力通用模块：

t(Z_j)＝W_ZZ_j

公式解析：潜在向量Z可以被看作维度是1×C的特征图，O∈R^1×C是与Z相同大小的模块输出，利用1×1的卷积生成A和B两个特征图，{A,B}∈R^1×C；函数t计算位置j位置的输入表示，只考虑线性嵌入的形式：

t(Z_j)＝W_ZZ_j

然后在注意力图和Z_j之间执行矩阵乘法，结果到R^1×C，推断出每个位置的结果特征是所有位置和原始特征的加权和；

网络结构分为编码器和解码器部分，编码器由3行并列的多尺度图卷积构成，每行尺度网络中包含四个图卷积层，每个图卷积层都采用批规范化以及修正线性单元ReLU激活函数，每层卷积都采用下采样；编码器最后一层将特征映射到隐层空间，隐层空间向量经过融合层和自注意力层后输入到解码器中，解码器首先使用一个全连接层将特征映射到Mesh空间，接着3行并列的4层图卷积，每层图卷积都是用了批规范化和ReLU激活函数，采用上采样，整个解码器部分相当于编码器的逆过程。