CN117853664B

CN117853664B - 基于双分支特征融合三维人脸重建方法

Info

Publication number: CN117853664B
Application number: CN202410239146.5A
Authority: CN
Inventors: 潘志轩; 刘俊晖; 廖赟; 段清; 吴旭宁; 刘沛瑜; 邸一得; 周豪; 朱开军; 钱旭; 靳方伟; 李沄朋; 滕荣睿; 吕佳依; 陈楠; 胡宗潇
Original assignee: Yunnan Lanyi Network Technology Co ltd; Yunnan University YNU
Current assignee: Yunnan Lanyi Network Technology Co ltd; Yunnan University YNU
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-05-14
Anticipated expiration: 2044-03-04
Also published as: CN117853664A

Abstract

本发明涉及图像处理技术领域，且公开了基于双分支特征融合三维人脸重建方法，获取待进行重建的人脸图像，采用双分支网络对人脸图像进行特征提取，并将双分支输出的特征图进行融合，接着将特征图进行解码并输出VW位置图，接着通过损失函数进行回归运算，根据VW位置图渲染人脸模型，并进行评估。该基于双分支特征融合三维人脸重建方法通过双分支网络充分发挥卷积和TRANSFORMER的优点，卷积运算擅长提取局部特征，而TRANSFORMER可以捕获长距离的特征依赖，融合模块将双分支的输出融合优势互补，解决了卷积层的缺点，捕获全局特征表示的局限性，解决了TRANSFORMER的缺点，提高了对无约束环境下人脸重建的准确性。

Description

基于双分支特征融合三维人脸重建方法

技术领域

本发明涉及图像处理技术领域，具体为基于双分支特征融合三维人脸重建方法。

背景技术

单视图图像的 3D 人脸重建在生物识别领域、商业领域发挥着重要作用，目的在于欺骗人脸识别系统以及增强人脸识别系统的反欺骗能力。商业领域可以通过快速获取个性化的人脸模型，加速游戏、动画等内容的创作过程。这有助于提高内容的个性化程度，满足用户多样化的需求。3D 人脸模型的快速获取对于虚拟现实和增强现实应用具有重要意义。它可以改善虚拟体验的真实感，为用户提供更加沉浸式的体验。3D 人脸重建技术也可以在艺术创作中发挥作用，为艺术家提供创作工具，同时也有助于数字化保存和传承文化遗产。

传统的基于CNN的方法直接输出VW图，该方法强调人脸重建速度，这可能导致网络学习尺度信息和深度信息不足，影响了输出的人脸模型的精度

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了基于双分支特征融合三维人脸重建方法，具备无约束环境下人脸重建的准确性等优点，解决了上述技术问题。

（二）技术方案

为实现上述目的，本发明提供如下技术方案：一种基于双分支特征融合三维人脸重建方法，包括以下步骤：

S1、获取待进行重建的人脸图像，包括输入任意尺寸大小的图片，获取图片中人脸位置中心，以人脸位置中心裁剪出人脸图像；

S2、采用双分支网络对人脸图像进行特征提取，双分支网络包括ResNet分支和TRANSFORMER分支；

S3、对步骤S2中双分支输出的特征图进行进行自注意力交互后进行交叉注意力交互；

S4、将步骤S3中的特征图进行解码并输出VW位置图，接着通过损失函数进行回归运算；

S5、根据步骤S4中的VW位置图渲染人脸模型，并进行评估。

作为本发明的优选技术方案，所述步骤S1中的获取的人脸图像的具体过程如下：

S1.1、输入任意尺寸大小的图片；

S1.2、获取图片中人脸位置中心；

S1.3、以人脸位置中心裁剪出人脸图像。

作为本发明的优选技术方案，所述步骤S2的具体过程如下：

S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络；

S2.2、接收步骤S1获取的人脸图像，通过ResNet分支对其进行下采样和升维；

S2.3、将升维后的特征图通过多次不同的下采样倍数升维输入到TRANSFORMER分支中；

S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔，沿通道方向排列并对特征进行输出。

作为本发明的优选技术方案，所述TRANSFORMER分支通过注意力机制先对特征图进行横向分割，之后对每个子区域分别输入到全连接层内，并通过注意力交互，得到横向输出，并将输出重新拼接，得到水平方向自注意力交互的输出，具体表达式如下：

其中，表示的是横向的第个子区域，且，、和分别表示对应、、的三个注意力权值矩阵，（）表示自注意力交互，表示对子区域的输出进行拼接。

作为本发明的优选技术方案，接着所述TRANSFORMER分支通过注意力机制先对特征图进行纵向分割，之后对每个子区域分别输入到全连接层内，并通过注意力交互，得到纵向输出，并将输出重新拼接，得到水平方向自注意力交互的输出，具体表达式如下：

其中，表示的是纵向的第个子区域，、别表示对应、、的三个注意力权值矩阵，（）表示自注意力交互，表示对子区域的输出进行拼接。

作为本发明的优选技术方案，所述步骤S3具体步骤如下：

S3.1、对TRANSFORMER分支输出的特征进行自注意力交互；

S3.2、将ResNet分支的输出特征和步骤S2.4输出特征做交叉注意力；

S3.3、将特征按照步骤S2.4的金字塔特征还原为（512,64,64)(512,32,32) (512,16,16)(512,8,8)，并将还原的特征图进行拼接，并进行降维。

作为本发明的优选技术方案，所述步骤S4中的损失函数表达式如下：

其中，表示是指输出的VW图中，点的XYZ三个通道的值，真实的VW图点的XYZ三个通道的值，表示256*256*1的权重图，表示点的权重。

作为本发明的优选技术方案，所述步骤S4中的VW图记录了三维人脸各点的坐标。

作为本发明的优选技术方案，所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下：

其中，是三维空间中点的三维坐标，表示VW图，表示点对应的二维VW坐标。

作为本发明的优选技术方案，所述步骤S5中的评估函数表达式如下：

其中，表示的是和的差值平方和，表示预测结果中的对应点，表示实况点，表示样本大小为的数据集中第个样本的预测结果的归一化平均欧几里得距离。

与现有技术相比，本发明提供了基于双分支特征融合三维人脸重建方法，具备以下有益效果：

本发明通过双分支网络充分发挥卷积和TRANSFORMER的优点，卷积运算擅长提取局部特征，而TRANSFORMER可以捕获长距离的特征依赖，融合模块将双分支的输出融合优势互补，解决了卷积层的缺点，捕获全局特征表示的局限性，解决了TRANSFORMER的缺点，提高了对无约束环境下人脸重建的准确性。

附图说明

图1为本发明流程示意图；

图2为本发明总架构示意图；

图3为本发明双分支网络的模型示意图；

图4为本发明融合模块的模型示意图；

图5为本发明解码器的模型示意图；

图6为本发明不同方法的总距离误差对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，一种基于双分支特征融合三维人脸重建方法，包括以下步骤：

S1、获取待进行重建的人脸图像，输入任意尺寸照片，使用如RetinaFace等人脸识别模型获取人脸位置，以人脸为中心裁剪出256*256的人脸图像；

S2、采用双分支网络对人脸图像进行特征提取，建立一个具有ResNet分支和TRANSFORMER分支的双分支网络，双分支网络包含ResNet0、ResNet1、ResNet2、ResNet3、ResNet4、CNN0、TRANSFORMER0、TRANSFORMER1、TRANSFORMER2、TRANSFORMER3、1*1CNN0、1*1CNN1、1*1CNN2，融合模块包含交叉注意力0、自注意力0、CNN0，解码器部分包含17个反卷积层，接着双分支网络接收大小为（3,256,256）的数据，通过设计的第一个分支ResNet网络结构的第0层到第4层逐步进行下采样和升维，输出大小为（512,8,8）的特征，特征图沿通道方向排列得到（512,64）特征；（3,256,256）的原人脸图像通过CNN0下采样四倍以及升维输出（64,64,64）特征图，CNN全称卷积神经网络，是由一些可学习的滤波器集合构成的，滤波器可以学习到某种视觉特征并在匹配到该特征时激活，由于滤波器的高宽较小以及其权重共享的特点，使得卷积神经网络能够高效提取局部特征；

随后特征图输入TRANSFORMER0提取全局特征输出（64,64,64）特征图，（64,64,64）特征图输入1*1CNN0进行升维得到（512,64,64）特征图作为特征金字塔的第一层， Transformer是一种基于注意力机制的序列模型。自注意力机制是Transformer的核心部分，它允许模型在处理序列时，将输入序列中的每个元素与其他元素进行比较，以便在不同上下文中正确地处理每个元素。同时（64,64,64）特征图输入CNN1下采样两倍及升维输出（128,32,32）特征图；（128,32,32）特征图输入TRANSFORMER1提取全局特征输出（128,32, 32）特征图，（128,32,32）特征图输入1*1CNN1进行升维得到（512,32,32）特征图作为特征金字塔的第二层，同时（128,32,32）特征图输入CNN2下采样两倍及升维输出（256,16,16）特征图；（256,16,16）特征图输入TRANSFORMER2提取全局特征输出（256,16,16）特征图，（256, 16,16）特征图输入1*1CNN2进行升维得到（512,16,16）特征图作为特征金字塔的第三层，同时（256,16,16）特征图输入CNN3下采样两倍及升维输出（512,8,8）特征图；（512,8,8）特征图输入TRANSFORMER3提取全局特征输出（512,8,8）特征图作为特征金字塔的第四层。最后将（512,64,64)(512,32,32)(512,16,16)(512,8,8）的特征金字塔沿通道方向排列，输出大小为（512,8440）的特征，对于TRANSFORMER块，使用了CSwin Transformer里的注意力机制。对特征图以特定距离横向切割成个区域，随后每个子区域分别输入全连接层、和得到、、的三个注意力权值矩阵。、、进行自注意力交互得到，即完成一次自注意力交互后的输出，将所有的输出以原来的形状拼接，得到，代表完成水平方向上的自注意力交互的输出。类似地，在竖直方向上对特征图以特定距离竖向切割成个区域，随后每个子区域进行自注意力交互输出，将所有的输出以原来的形状拼接，得到，代表完成竖直方向上的自注意力交互的输出。最后将两张特征图与concat得到特征图，代表完成一次两个方向上的自注意力交互的输出，具体表达式如下：

对于1*1CNN，为卷积核大小为1*1，步距为1的卷积层；

S3、对步骤S2中双分支输出的特征图进行融合，构建融合模块，建立一个双特征融合模块，包含交叉注意力0、自注意力0、CNN0，自注意力0将TRANSFORMER分支输出的特征金字塔进行特征交互，TRANSFORMER分支输出的（512,8440）特征做自注意力交互，使各层特征之间学习到各层的尺度信息，输出大小为（512,8440）特征；由于token数量大，为降低计算量，该自注意力采用Dattn机制，具体的，输入特征,分别输入全连接层、得到Query ，即注意力机制的q、Value ，即注意力机制的v，分别输入全连接层、得到第k个采样点的注意力得分、第k个采样点相对Query位置的偏移量。根据注意力得分选取K个采样点进行注意力交互，具体表达式如下

将ResNet分支的（512,64）输出特征与（512,8440）特征做交叉注意力，具体为做Query，做Value，使ResNet分支输出的特征也学习到多尺度信息，输出（512,64）特征，再改变形状还原为（512,8,8)

将（512,8440）特征按照原来的金字塔形状还原为（512,64,64)(512,32,32)(512,16,16)(512,8,8)；将两个（512,8,8）特征图concat，得到（1024,8,8）特征图，经过CNN0降维得到大小为（512,8,8）的特征；

S4、将步骤S3中的特征图进行解码并输出VW位置图，接着通过损失函数进行回归运算，损失函数表达式如下：

其中，表示是指输出的VW图中，点的XYZ三个通道的值，真实的VW图点的XYZ三个通道的值，表示256*256*1的权重图，表示点的权重，不同的子区域被分配了不同的权重，例如脸部中心区域比其他区域具有更多可辨别的特征。具体而言，在损失函数内，子区域1、子区域2、子区域3和子区域4分别被赋予16、 4、3和0的权重。值得注意的是，68个面部标志被赋予了最高的权重，保证了网络对其精确位置的精确学习，VW图记录了三维人脸各点的坐标；

S5、根据步骤S4中的VW位置图渲染人脸模型，并进行评估，遍历VW图的像素点，进行三维人脸重建，VW图每个像素点在三个通道上都分别有一个值，代表了三维空间上的x坐标，y坐标，z坐标，VW像素点与其对应在三维空间上的点的关系如下：

其中，是三维空间中点的三维坐标，表示VW图，表示点对应的二维VW坐标；

设计评估指标进行客观评估，对于每张测试图像，输入到所发明的双分支特征融合网络，预测一张VW位置图；选择使用归一化的平均误差，这是可见地标误差的平均值，以边界框的大小为归一化系数。表示样本大小为M的数据集中第i个样本的预测结果中的对应点与地面实况点之间的归一化平均欧几里得距离。是和的差值平方和，具体为的点与对应的点之间X、Y、Z的差值平方和。NME中的归一化系数l定义为，其中h和w分别表示面部边界框的高度和宽度。

评估对象为45000个点的。

与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比实验，从而验证本发明设计的方法的三维人脸重建效果。PRNet是发明于2018年的经典人脸重建网络，特点是直接通过神经网络，建立从2D图片到3D模版的映射关系，效率很高。3DDFA是发明于2019年的经典人脸重建网络，通过提取四元数使得模型面对大姿态人脸也能高精度重建。SADENet是发明于2022年的人脸重建网络，预测一个依赖姿势的人脸和一个独立于姿势的人脸通过感知遮挡的自对齐进行组合，以生成最终的3D面，具有出色的效果。

ALFW2000-3D是通过从AFLW数据集中选择前2000张图像构建的。每个样本都包含ground truth的3D人脸和相应的68个地标。本申请将AFLW2000-3D数据集作为测试集，采用归一化平均误差（NME）作为评价指标来评估网络在人脸重建任务上的质量。

根据偏航角将测试集分为3个子集：[0°,30°], [30°, 60°], 和[60°, 90°]，然后测试小、中、大姿势的人脸的NME，如图6所示，使用客观评价指标，对本发明方法与PRNet、3DDFA、SADRNet的三维人脸重建方法进行对比，本发明方法在偏航角分为[0°,30°], [30°,60°], 和[60°, 90°]，地标误差均为最小，表明本发明所设计的方法的三维人脸重建的准确度高，效果较为理想。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于双分支特征融合三维人脸重建方法，其特征在于：包括以下步骤：

S5、根据步骤S4中的VW位置图渲染人脸模型，并进行评估；

所述步骤S2的具体过程如下：

S2.1、建立一个具有ResNet分支和TRANSFORMER分支的双分支网络；

S2.4、根据步骤S2.3中的采样倍数的次数构建特征金字塔，沿通道方向排列并对特征进行输出；

所述TRANSFORMER分支通过注意力机制先对特征图X进行横向分割，之后对每个子区域分别输入到全连接层内，并通过注意力交互，得到横向输出，并将输出重新拼接，得到水平方向自注意力交互的输出Y₁，具体表达式如下：

X＝[X¹，X²，…，X^M]

Y₁ ⁱ＝ATTention(XⁱW^Q，XⁱW^K，XⁱW^V)

Y₁＝[Y₁ ¹，Y₁ ²，…，Y₁ ^M]

其中，Xⁱ表示的是横向的第i个子区域，且i＝{1,2,…,M}，M表示对特征图分割的区域个数，W^Q、W^K和W^V分别表示对应Q、K、V的三个注意力权值矩阵，ATTention()表示自注意力交互，[Y₁ ¹，Y₁ ²，…，Y₁ ^M]表示对子区域Xⁱ的输出Y₁ ⁱ进行拼接；

接着所述TRANSFORMER分支通过注意力机制先对特征图X进行纵向分割，之后对每个子区域分别输入到全连接层内，并通过注意力交互，得到纵向输出，并将输出重新拼接，得到水平方向自注意力交互的输出Y₂，具体表达式如下：

X＝[X’¹，X’²，…，X’^M]

Y₂’ⁱ＝ATTention(X’ⁱW’^Q，X’ⁱW’^K，X’ⁱW’^V)

Y₂＝[Y₂’¹，Y₂’²，…，Y₂’^M}

其中，X’ⁱ表示的是纵向的第i个子区域，W’^Q、W’^K、W’^V别表示对应Q、K、V的三个注意力权值矩阵，ATTention()表示自注意力交互，[Y₂’¹，Y₂’²，…，Y₂’^M]表示对子区域Xⁱ的输出Y₂ ⁱ进行拼接。

2.根据权利要求1所述的基于双分支特征融合三维人脸重建方法，其特征在于：所述步骤S3具体步骤如下：

S3.1、对TRANSFORMER分支输出的特征进行自注意力交互；

S3.2、将ResNet分支的输出特征X₁和步骤S2.4输出特征X₂做交叉注意力；

S3.3、将特征X₂按照步骤S2.4的金字塔特征还原为(512,64,64)(512,32,32)(512,16,16)(512,8,8)，并将还原的特征图进行拼接，并进行降维。

3.根据权利要求1所述的基于双分支特征融合三维人脸重建方法，其特征在于：所述步骤S4中的损失函数Loss表达式如下：

其中，M(x,y)表示是指输出的VW图中，点(x,y)的XYZ三个通道的值，真实的VW图点(x,y)的XYZ三个通道的值，N表示256*256*1的权重图，N(x,y)表示点(x,y)的权重。

4.根据权利要求1所述的基于双分支特征融合三维人脸重建方法，其特征在于：所述步骤S4中的VW图记录了三维人脸各点的坐标。

5.根据权利要求1所述的基于双分支特征融合三维人脸重建方法，其特征在于：所述步骤S5中VW像素点与其对应在三维空间上的点对应的表达式如下：

V(v_i,w_i)＝(x_i,y_i,z_i)

其中，(x_i,y_i,z_i)是三维空间中i点的三维坐标，V表示VW图，(v_i,w_i)表示点对应的二维VW坐标。

6.根据权利要求5所述的基于双分支特征融合三维人脸重建方法，其特征在于：所述步骤S5中的评估函数表达式如下：

其中，表示的是e_i和/>的差值平方和，e_i表示预测结果中的对应点，/>表示实况点，NME表示样本大小为M的数据集中第i个样本的预测结果的归一化平均欧几里得距离。