CN112001268B

CN112001268B - 人脸校准方法及设备

Info

Publication number: CN112001268B
Application number: CN202010759579.5A
Authority: CN
Inventors: 孟彦达; 杨晓云
Original assignee: Shanghai Dianze Intelligent Technology Co ltd; Zhongke Zhiyun Technology Co ltd
Current assignee: Shanghai Dianze Intelligent Technology Co ltd; Zhongke Zhiyun Technology Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2024-01-12
Anticipated expiration: 2040-07-31
Also published as: CN112001268A

Abstract

本发明的目的是提供一种人脸校准方法及设备，本发明的聚合体系结构与分层和迭代融合功能密切相关。本发明提出了一种新颖的聚合回归网络，该网络可以更好地提取跨渠道和分辨率的语义和空间信息的全谱。本发明的网络由一个编码器和一个解码器组成，它们通过一系列嵌套的残差卷积块相连。本发明门设计了解码器中每个降采样操作之后剩余的顶点数，以及编码器中每个卷积块之后的特征图大小，以使它们彼此相等。因此，本发明通过不同的特征级别实现了从2D图像特征到3D网格特征的体积回归。

Description

人脸校准方法及设备

技术领域

本发明涉及计算机领域，尤其涉及一种人脸校准方法及设备。

背景技术

在多年的研究中，人脸对齐和3D人脸重建是计算机视觉和图形学中两个开放的相关问题。面部对齐通常用作大多数面部图像任务(例如面部识别和面部表情或姿势分析)的重要先决步骤，目的是定位某些2D面部关键点。

但是，诸如遮挡，大姿势和极端照明之类的问题使得很难检测到脸部界标。研究人员开始探索过去几十年来2D界标与3D形状之间的强相关性，从而通过3D人脸重建来协助人脸对齐。自3D变形模型(3DMM)于1999年问世以来，提出了基于该模型从2D面部图像恢复3D面部网格的方法，该方法可提供3D面部重建和密集的面部对齐结果。3DMM是从高质量人脸扫描中学到的人脸几何形状和纹理的仿射参数模型。它是基于PCA的实现，可以通过线性基础的组合来生成新的形状实例。

在过去的两年中，人们开始使用卷积神经网络(CNN)从图像中回归3DMM的参数。其他研究人员通过训练CNN来学习变换参数，该参数在变换后的2D图像和输入图像之间以可区分的渲染层和自监督策略进行协作。诸如之类的方法将3D人脸坐标与2D表示(投影坐标码(PNCC)，量化共形)进行回归映射，或者用保形贴图UV位置图来表示3D人脸信息。尽管这些方法可以通过2D表示回归3D几何信息，但是它们仍然将噪声引入到原始样本中，因此这些方法取决于2D表示的能力。图卷积网络(GCN)可以处理非网格状数据，例如3D面网格，并且可以直接在网格上进行卷积而无需2D表示，这可以减少信息损失。CoMA提出了一种网格自动编码器，以学习3D面部表面上的非线性表示并通过GCN重建3D面部网格。

CoMA提出了一种自动编码器结构网络，该网络将图像编码为潜在的嵌入向量，然后通过GCN解码为3D人脸网格。但是，在编码的下采样过程中，人脸图像的某些内容信息将丢失，并且只通过潜在的嵌入向量并不能充分体现高级语义信息和2D人脸的低层特征。

发明内容

本发明的一个目的是提供一种人脸校准方法及设备。

根据本发明的一个方面，提供了一种人脸校准方法，该方法包括：

获取2D人脸照片；

对所述2D人脸照片进行正常卷积操作，得到中间层的特征图；

对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标。

进一步的，上述方法中，对所述2D人脸照片进行正常卷积操作，得到中间层的特征图，包括：

采用编码器对所述2D人脸照片进行正常卷积操作，得到中间层的特征图，所述编码器的结构包括6个聚合块和两个完全连接层，其中，

每个聚合块包含一系列残差卷积块，其中，每个残差卷机块有3个具有残差连接的卷积层，将Batch Normalization层和Leaky Relu作为激活函数，每个残差卷机层的滤波器的内核大小为3且跨度为1，输入的2D人脸照片经过每个聚合块之后，特征图的大小将减小一半；然后应用两个完全连接层来构造256×1尺寸的嵌入向量。

进一步的，上述方法中，对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，包括：

采用解码器对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，其中，所述解码器从图卷积聚合块中进行嵌入和多级输出，然后使用6个密集图卷积块进行解码，每个密集图卷积块由4个图卷积层组成，每个图卷积层之后是批处理规范化层和LeakyRelu作为激活函数，在每个密集图卷积块之后，将顶点的数量从16升采样到16384，并且每个顶点由矢量表示，最后，添加两个图卷积层以生成3D面网格，从而对3D面网格进行升采样顶点到53215，并将顶点特征图通道减少到3。

对所述中间层的特征图进行预处理，得到预处理后的数据；

对所述预处理后的数据进行图卷积操作，得到图卷积操作结果；

对所述图卷积操作结果实现图聚合块，得到3D人脸的顶点坐标。

进一步的，上述方法中，对所述中间层的特征图进行预处理，得到预处理后的数据，包括：

用顶点和边表示3D人脸面部网格，F＝(V，A)，其中，V表示3D人脸顶点的集合，V＝3D欧氏空间中的N个顶点，V∈R^N×3，顶点之间的边连接由稀疏邻接矩阵A∈{0，1}^N×N表示，其中，A_i，j＝1表示顶点i和顶点j由边连接，否则A_i，j＝0。

进一步的，上述方法中，对所述预处理后的数据进行图卷积操作，得到图卷积操作结果，包括：

通过使用递归切比雪夫多项式进行卷积运算，用内核滤波器g_θ表示网格滤波在傅立叶空间中的定义，内核滤波器g_θ参数化为K阶的切比雪夫多项式展开:

其中，L^代表新拉普拉斯算子,参数θ_k是切比雪夫系数的一个向量，T_k是K阶的切比雪夫多项式，所述K阶的切比雪夫多项式可以递归地计算为T_K(x)＝2xT_k-1(x)T_k-2(x)，T₀＝1,T₁＝x，因此，频谱卷积定义为：

其中，输入x∈R^N×Fin具有F_in个特征，且F_in＝3，由于顶点的面网格是3D且y∈R^N ^×Fout，F_out是输出。

进一步的，上述方法中，对所述图卷积操作结果实现图聚合块，得到3D人脸的顶点坐标，包括：

用置换矩阵Q_d∈{0,1}^m×n向下采样,使得最终得到具有m个顶点的网格，n为初始顶点个数，其中，Q_d(i,j)＝1表示保留第j个顶点，否则，Q_d(i,j)＝0；

使用另一个变换矩阵Q_u∈R^m×n进行上采样。

根据本发明的另一方面，还提供一种人脸校准设备，该设备包括：

第一装置，用于获取2D人脸照片；

第二装置，用于对所述2D人脸照片进行正常卷积操作，得到中间层的特征图；

第三装置，用于对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标。

根据本发明的另一方面，还提供一种基于计算的设备，其中，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

获取2D人脸照片；

根据本发明的另一面方面，还提供一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器：

获取2D人脸照片；

根据本发明的另一方面，还提供了一种人脸校准设备，该设备包括：

与现有技术相比，本发明的聚合体系结构与分层和迭代融合功能密切相关。本发明提出了一种新颖的聚合回归网络(AR-GCN)，该网络可以更好地提取跨渠道和分辨率的语义和空间信息的全谱。本发明的网络由一个编码器和一个解码器组成，它们通过一系列嵌套的残差卷积块(聚合块)相连。本发明门设计了解码器中每个降采样操作之后剩余的顶点数，以及编码器中每个卷积块之后的特征图大小，以使它们彼此相等。因此，本发明通过不同的特征级别实现了从2D图像特征到3D网格特征的体积回归。

本发明第一次使用CNN和GCN组合，直接学习从2D像素到3D面网格顶点的多级回归映射，通过不同的特征级别从2D图像特征直接回归到对应的3D面部几何形状。

本发明适用于完全不受约束的面部图像，包括任意姿势，面部表情和遮挡。

本发明与最近提出的自动编码器结构网络不同，自动编码器结构网络仅使用低级潜在嵌入向量。

本发明提出了一种新颖的轻量级高效聚合网络，它通过图卷积网络(AR-GCN)进行聚合回归，解决了密集脸部对齐和3D脸部重构以及来自相应的室外2D脸部图像的问题。为了进行训练，本发明提出了一种新的损失函数，该函数专门用于小范围误差中的人脸关键点定位。此外，针对几个具有挑战性的数据集提出了全面的实验，我们的定量和定性结果表明比其他最新方法具有更高的性能。

本发明和自动编码器结构网络不同的是，本文所发明网络结构实现了扩展高级语义信息和多级别特征信息的融合，增强了网络的性能。

本发明可应用到其他3D模型的重建任务中，例如三维人体重建，三维人脑重建等。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1(a)示出CoMA的网络结构示意图；

图1(b)示出本发明一实施例的网络结构示意图；

图2(a)示出的CoMA实现了传统的单路径编码器-解码器网络的示意图；

图2(b)示出U-net结构的示意图；

图2(c)示出AR-GCN的示意图；

图3示出本发明一实施例的解码器的结构示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

在本申请一个典型的配置中，终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明提供一种人脸校准方法，所述方法包括：

步骤S1,获取2D人脸照片；

在此，所述2D人脸照片可以是尺寸大小为256×256×3的2维人脸图像；

步骤S2,对所述2D人脸照片进行正常卷积操作，得到中间层的特征图；

步骤S3,对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标。

本发明的人脸校准方法一实施例中，步骤S2,对所述2D人脸照片进行正常卷积操作，得到中间层的特征图，包括：

每个聚合块包含一系列残差卷积块，其中，每个残差卷机块有3个具有残差连接的卷积层，将Batch Normalization(批归一化)层和Leaky Relu作为激活函数，每个残差卷机层的滤波器的内核大小为3且跨度为1，输入的2D人脸照片经过每个聚合块之后，特征图的大小将减小一半；然后应用两个完全连接层来构造256×1尺寸的嵌入向量。

例如，6个聚合块可将尺寸大小为256×256×3的2维人脸输入图像的尺寸减小到尺寸为4×4×128的特征图。

本实施例与与CoMA提出的在图像到图像任务中使用的网络不同，本实施例的聚合块实现了将本地和全局信息从编码器完全融合到解码器中。提取2D图像特征时，聚合中的上采样操作会从浅到深进一步细化。此外，本实施例添加了下采样操作，可以将高分辨率特征从2D图像投影到低分辨率的3D网格特征中。最后，聚合迭代地和分层地实现这些操作，以学习低级和高级特征信息的深度融合。

本发明的人脸校准方法一实施例中，步骤S3,对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，包括：

采用解码器对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，其中，所述解码器从图卷积聚合块中进行嵌入和多级输出，然后使用6个密集图卷积块(DenseGCN)进行解码，这已经被证实，随着卷积层的深入，DenseGCN可以防止消失的梯度问题。其中，本发明的每个密集图卷积块(DenseGCN，Dense Graph Convolution Network,密集图卷积神经网络)由4个图卷积层组成，每个图卷积层之后是批处理规范化层和LeakyRelu作为激活函数，在每个密集图卷积块(DenseGCN)之后，将顶点的数量从16升采样到16384，并且每个顶点由矢量表示，例如16384×128。最后，添加两个图卷积层以生成3D面网格，从而对3D面网格进行升采样顶点到53215，并将顶点特征图通道减少到3，因为每个面网格顶点具有三个维度：x，y，z。在图3中网络结构的右分支上，显示了使用面网格对顶点进行向上采样的过程。

具体的，CoMA实现了传统的单路径编码器-解码器网络，以解决图卷积网络的密集人脸对齐问题，如图2(a)所示。图2(b)显示了U-net(U型神经网)结构，本实施例使用图形上采样操作将右分支更改为GCN，可以将其视为浅聚集网络。通过消融研究，发现在密集的面部对齐中，在图2(c)中提出的AR-GCN(Aggregate Regression-Graph ConvolutionNetwork,本发明提出的聚集回归图神经网络)可以比非聚集图2(a)或浅聚集网络图2(b)表现更好。有关拟议架构的更多详细信息如图3所示。

步骤S31,对所述中间层的特征图进行预处理，得到预处理后对数据；

步骤S32,对所述预处理后对数据进行图卷积操作，得到图卷积操作结果；

步骤S33,对所述图卷积操作结果实现图聚合块，得到3D人脸的顶点坐标。

在此，图卷积操作采用解码器的结构来实现，图卷积的输入为尺寸是4x4x128的正常卷积的输出(中间层的特征图)，输出为3D人脸的顶点坐标。

预处理数据后，为了实现图卷积聚合块，我们需要从两方面入手，首先是实现图卷积，其次是实现图聚合块。

本发明的人脸校准方法一实施例中，步骤S31,对所述中间层的特征图进行预处理，得到预处理后的数据，包括：

本实施例中，为了实现图卷机操作，首先需要预处理数据，将3D人脸用其他的方式表示。

其中，F:3D人脸集合(包括3D人脸的顶点和边)；

V:3D人脸顶点的集合；

A:连接3D人脸顶点的边的集合表示；

N:3D人脸顶点的个数；

i:第i个3D人脸顶点；

j:第j个3D人脸顶点。

本发明的人脸校准方法一实施例中，步骤S32,对所述预处理后的数据进行图卷积操作，得到图卷积操作结果，包括：

通过使用递归切比雪夫(Chebyshev)多项式进行卷积运算，用内核滤波器g_θ表示网格滤波在傅立叶空间中的定义，内核滤波器g_θ参数化为K阶的切比雪夫(Chebyshev)多项式展开:

本实施例对方法是可计算的相比之下，速度更快，复杂度从O(n²)降到O(n)。

本发明的人脸校准方法一实施例中，步骤S33,对所述图卷积操作结果实现图聚合块，得到3D人脸的顶点坐标，包括：

用置换矩阵Q_d∈{0,1}^m×n向下采样,使得最终得到具有m个顶点的网格，n为初始顶点个数,其中，Q_d(i,j)＝1表示保留第j个顶点，否则，Q_d(i,j)＝0；

使用另一个变换矩阵Q_u∈R^m×n进行上采样。

在此，为了在图卷积的联合网格和2D特征图上实现多尺度聚合卷积，我们遵循CoMA，以获得新的拓扑以及网格和顶点的邻居关系。具体来说，本实施例使用置换矩阵Q_d∈{0,1}^m×n向下采样,使得最终得到具有m个顶点的网格，其中，Q_d(i,j)＝1表示保留第j个顶点，否则，Q_d(i,j)＝0。使用另一个变换矩阵Q_u∈R^m×n进行上采样，为了分层和迭代地协作CNN(Convolution Neural Network,卷积神经网络)和GCN(Graph convolution network，图卷积神经网络)，本实施例专门设计了每个下采样阶段剩余的顶点数量。

下采样是通过迭代收缩顶点对而获得的，顶点对使用二次矩阵来维持表面误差近似值。使用重心坐标记录下采样期间丢弃的顶点。因此，上采样可以对保留的顶点进行卷积变换，并使用重心坐标将丢弃的顶点映射到下采样的网格表面。通过稀疏矩阵乘法V_u＝Q_uV_d可以有效地获得具有顶点V_u的上采样网格。其中，V_d是向下采样的顶点。

综上所述，本发明的聚合体系结构与分层和迭代融合功能密切相关。本发明提出了一种新颖的聚合回归网络(AR-GCN)，该网络可以更好地提取跨渠道和分辨率的语义和空间信息的全谱。本发明的网络由一个编码器和一个解码器组成，它们通过一系列嵌套的残差卷积块(聚合块)相连。本发明门设计了解码器中每个降采样操作之后剩余的顶点数，以及编码器中每个卷积块之后的特征图大小，以使它们彼此相等。因此，本发明通过不同的特征级别实现了从2D图像特征到3D网格特征的体积回归。

可以证明，可以同时扩展高级语义信息和多级别特征来估计3D面部几何信息。本发明与最近提出的自动编码器结构网络不同，自动编码器结构网络仅使用低级潜在嵌入向量。

图1(a)展示了CoMA(Convolutional Mesh Autoencoders for Generating3DFaces,卷积网格自动编码器)的网络结构，其中使用的的是自动编码器(包括编码器和解码器)，图1(b)为本发明的网络结构，本发明和自动编码器结构网络不同的是，本文所发明网络结构实现了扩展高级语义信息和多级别特征信息的融合，增强了网络的性能。

第一装置，用于获取2D人脸照片；

处理器；以及

获取2D人脸照片；

本发明的各设备和存储介质实施例的详细内容，具体可参见各方法实施例的对应部分，在此，不再赘述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种人脸校准方法，其中，该方法包括：

获取2D人脸照片；

对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标；

对所述2D人脸照片进行正常卷积操作，得到中间层的特征图，包括：

每个聚合块包含一系列残差卷积块，其中，每个残差卷机块有3个具有残差连接的卷积层，将Batch Normalization层和Leaky Relu作为激活函数，每个残差卷机层的滤波器的内核大小为3且跨度为1，输入的2D人脸照片经过每个聚合块之后，特征图的大小将减小一半；然后应用两个完全连接层来构造256×1尺寸的嵌入向量；

对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，包括：

采用解码器对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，其中，所述解码器从图卷积聚合块中进行嵌入和多级输出，然后使用6个密集图卷积块进行解码，每个密集图卷积块由4个图卷积层组成，每个图卷积层之后是批处理规范化层和Leaky Relu作为激活函数，在每个密集图卷积块之后，将顶点的数量从16升采样到16384，并且每个顶点由矢量表示，最后，添加两个图卷积层以生成3D面网格，从而对3D面网格进行升采样顶点到53215，并将顶点特征图通道减少到3。

2.根据权利要求1所述的方法，其中，对所述中间层的特征图进行图卷积操作，得到3D人脸的顶点坐标，包括：

对所述中间层的特征图进行预处理，得到预处理后的数据；

3.根据权利要求2所述的方法，其中，对所述中间层的特征图进行预处理，得到预处理后的数据，包括：

4.根据权利要求3所述的方法，其中，对所述预处理后的数据进行图卷积操作，得到图卷积操作结果，包括：

其中，输入x∈R^N×Fin具有F_in个特征，且F_in＝3，由于顶点的面网格是3D且y∈R^N×Fout，F_out是输出。

5.根据权利要求4所述的方法，其中，对所述图卷积操作结果实现图聚合块，得到3D人脸的顶点坐标，包括：

使用另一个变换矩阵Q_u∈R^m×n进行上采样。

6.一种人脸校准设备，其中，执行如权利要求1至5任一项所述的方法。

7.一种基于计算的设备，其中，包括：

处理器；以及

执行如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，该计算机可执行指令被处理器执行时使得该处理器执行如权利要求1至5任一项所述的方法。