CN117541749A

CN117541749A - 一种人体3d重建的人脸优化方法

Info

Publication number: CN117541749A
Application number: CN202311586804.XA
Authority: CN
Inventors: 李志德; 董宇涵; 张凯
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-02-09

Abstract

一种人体3D重建的人脸优化方法，包括如下步骤：S1、将包含人体的图像输入3D人体重建网络，生成重建结果；S2、根据所述重建结果计算所述3D人体重建网络的重建损失函数，同时将所述重建结果输入3D人脸识别网络，生成识别结果，根据所述识别结果计算所述3D人脸识别网络的人脸识别损失函数；S3、在参数优化阶段，固定所述3D人脸识别网络的参数，根据所述重建损失函数和所述人脸识别损失函数的计算结果确定所述3D人体重建网络的参数的优化方向，优化所述3D人体重建网络的参数。本发明能够提高优化3D重建的人脸重建效果，提高了重建网络与识别网络的适配程度，同时提高了下游任务的识别率。

Description

一种人体3D重建的人脸优化方法

技术领域

本发明涉及计算机视觉和深度学习技术，特别是涉及一种人体3D重建的人脸优化方法。

背景技术

随着算力水平的不断提高和技术的不断发展，视觉逐渐从2D，2.5D，固定场景3D(例如影院)向着实时3D发展，虚拟现实，元宇宙等概念逐渐兴起，同时VR设备也逐渐解决了体积重，续航短等问题，走向普通人家。

3D重建是3D视觉的基础，是人类观察和理解的基础也是下游任务例如人脸识别，行人ReID，物体检测的基础。而在所有的3D重建中，人体是人类着重关注并且要求精度较高的，而人脸重建又是人体重建中人眼很重视的部分。

目前的3D人体重建一般是通过多角度的RGBD图像进行重建，目前最主流的方法是使用神经网络，通过对训练数据的学习，从RGBD图像中学习到重建所需要的特征，并通过分类器来输出重建结果，通常是一个网络输出整个人体的重建结果。

而目前其存在以下几个问题：

一、没有对人脸进行特别的处理或关注，可能导致人脸细节比较难以学习，精确度偏低。

二、将重建之后的结果输出到下游任务例如人脸识别中时，重建结果会极大地影响识别准确度，而因为二者没有经过联合训练，重建后的结果可能与人脸识别模型的训练样本存在偏差，进而影响识别的结果。

目前3D人体重建的任务中，深度学习为基础的方法是效果最好的，通常来说深度学习方法需要大规模的数据进行训练。网络结构通常以CNN为主，通常RGBD图像经过网络之后输出是一个3D数据(点云，网格等)，而后通过计算损失函数来对网络参数进行优化，损失函数会指导网络优化的方向。在常见的重建网络训练过程中，训练数据往往是一个RGBD图像，而其损失函数只是一个L2loss，目标是拉近预测结果与真实结果的距离。而L2损失对所有的点的差距都是平等的计算，所有其结果不会单独对某一部分例如人脸进行优化。

3D人脸识别是对点云，网格等3D数据进行识别的网络，目前的主流方法同样是基于深度学习的，那么同样其结果就会受到训练数据的影响。通常情况下，如果测试数据与训练数据相似，那么其效果也就是识别准确率就相对较高，如果二者相差较远，那么其识别结果就会受到很大影响。

人体3D重建和3D人脸识别属于上下游任务，以往这两个任务是分开进行、分别训练的，二者数据不同。由于前者的输出是后者的输入，前者的结果会极大地影响后者的结果。如前所述，深度学习的效果极大地取决于其训练数据。如果前者的输出与后者的训练数据相差较大，那么后者的效果就会相对较差。此外，在已有效果较好的人体3D重建网络和3D人脸识别的情况下，为了将两个网络结合起来使用而完全从头训练两个网络是很耗费资源的，同时如果原始训练数据不可得(例如模型为开源模型)，则重新训练反而可能导致精度下降。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种人体3D重建的人脸优化方法，解决传统人体重建任务和下游人脸识别任务由于训练数据不对齐而导致识别率低的问题。

为实现上述目的，本发明采用以下技术方案：

一种人体3D重建的人脸优化方法，包括如下步骤：

S1、将包含人体的图像输入3D人体重建网络，生成重建结果；

S2、根据所述重建结果计算所述3D人体重建网络的重建损失函数，同时将所述重建结果输入3D人脸识别网络，生成识别结果，根据所述识别结果计算所述3D人脸识别网络的人脸识别损失函数；

S3、在参数优化阶段，固定所述3D人脸识别网络的参数，根据所述重建损失函数和所述人脸识别损失函数的计算结果确定所述3D人体重建网络的参数的优化方向，优化所述3D人体重建网络的参数。

进一步地：

所述3D人体重建网络的重建损失函数为MSE loss：

loss(x_i,y_i)＝(x_i-y_i)²

其中x_i,y_i分别代表每个节点的预测值和真实值。

所述3D人脸识别网络的损失函数为Triplet loss：

L＝max(d(a,p)-d(a,n)+margin,0)

其中，L为损失，d()为距离函数，用于计算两类分类的距离，a表示人脸的预测值，p表示同一人物、不同样本的预测值，n表示不同人物的预测值，margin为一个大于零常数，用于提高损失函数效果。

步骤S3中，通过损失函数计算误差并反向传播对所述3D人体重建网络的参数进行调整。

所述3D人体重建网络包为端到端的深度神经网络，包括几何重建网络和纹理重建网络，其中深度图像输入所述几何重建网络，用于重建几何结构，多角度RGBD图像输入所述纹理重建网络，用于重建表面纹理。

不同视角的深度图像输入所述几何重建网络，其中，通过编码器Encoder提取出不同的特征，分别经过一个MLP分类网络得到不同视角的特征，通过均值Average操作对其进行融合以生成结果，融合的结果再经过一个MLP分类网络而输出最终的唯一结果，其中MLP分类网络采用几层全连接网络的堆叠。

所述编码器Encoder采用Unet3+网络，所述Unet3+网络利用了全尺寸跳跃连接和深度监督，所述全尺寸跳跃连接结合了来自不同尺度特征映射的低级细节和高级语义，所述深度监督从全尺寸聚合特征映射中学习分层表示。

所示3D人脸识别网络包括注意力图计算模块和人脸识别模块，深度图像和RGB图像输入所述注意力图计算模块，计算注意力图，所述人脸识别模块利用所述注意力图以在识别人脸时关注更值得关注的点。

一种实现人体3D重建和3D人脸识别的方法，使用所述的人体3D重建的人脸优化方法训练得到的3D人体重建网络和3D人体重建网络，联合起来进行人体3D重建和3D人脸识别。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器执行时，实现所述的方法。

本发明具有如下有益效果：

本发明提供一种人体3D重建的人脸优化方法，提出一种新的多任务联合增强的人体重建，在3D人体重建的基础上联合3D人脸识别任务，利用下游人脸识别任务来提高人体重建里面的人脸重建精准度。

本发明基于联合训练的人体3D重建的人脸优化方法，有效解决了传统人体重建任务和下游人脸识别任务由于训练数据不对齐而导致的识别率低的问题。将人体3D重建和人脸识别这一对上下游任务进行联合训练，能够有效提高优化3D重建的人脸重建效果，同时也能够提高下游任务的识别率。

本发明创新性地将人体3D重建网络和3D人脸识别网络结合起来，通过联合训练的方式，通过人脸识别网络来着重指导重建网络的人脸重建方向，从而提高重建网络输出结果的人脸精准度。同时，提高了重建网络与识别网络的适配程度，从而进一步提高识别的准确率。

相较于重新训练，本发明采用联合训练微调的方式可以极大地减少训练难度与训练量。

本发明实施例中的其他有益效果将在下文中进一步述及。

附图说明

图1为本发明实施例的人体3D重建的人脸优化方法的流程示意图。

图2为本发明实施例的3D人体重建网络中的几何重建网络结构示意图。

图3为本发明实施例的3D人体重建网络中的纹理重建网络结构示意图。

图4为本发明实施例的3D人体重建网络中的UNet3+网络结构图。

图5为本发明实施例的3D人脸识别网络结构示意图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参阅图1，本发明实施例提供一种人体3D重建的人脸优化方法，包括如下步骤：

S1、将包含人体的图像输入3D人体重建网络，生成重建结果；

S3、在参数优化阶段，固定所述3D人脸识别网络的参数，根据所述重建损失函数和所述人脸识别损失函数的计算结果确定所述3D人体重建网络的参数的优化方向，微调优化所述3D人体重建网络的参数。

本发明实施例还提供一种实现人体3D重建和3D人脸识别的方法，使用所述的人体3D重建的人脸优化方法训练得到的3D人体重建网络和3D人体重建网络，联合起来进行人体3D重建和3D人脸识别。

本发明在3D人体重建的基础上联合3D人脸识别任务，利用下游人脸识别任务来提高人体重建里面的人脸重建精准度。本发明能够提高优化3D重建的人脸重建效果，提高了重建网络与识别网络的适配程度，同时提高了下游任务的识别率。相较于重新训练，本发明采用联合训练微调的方式可以极大地减少训练难度与训练量。

以下进一步描述本发明具体实施例。

一个实施例的网络整体框架如图1所示，包括3D人体重建网络和3D人脸识别网络。输入RGBD图像首先经过3D人体重建网络，产生重建结果，而后重建结果同时用于计算整体重建损失函数与输入到3D人脸识别网络中进行识别，识别结果用于计算人脸识别损失函数。在参数优化阶段，固定3D人脸识别网络的参数，3D人体重建网络的参数同时由重建损失函数和人脸识别损失函数两方面损失函数指导优化方向。

3D人体重建网络

3D人体重建网络可以选择各种合适的具体网络结构，并不影响本方案的有效性。一种具体的网络结构是端到端的深度神经网络，包括几何重建网络和纹理重建网络，分别如图2和图3所示。其中深度图像输入几何重建网络，用于重建几何结构，多角度RGBD图像输入纹理重建网络，用于重建表面纹理。

如图2所示，对于几何重建网络，输入Depth 0～Depthn，分别代表不同视角的深度图像输入，编码器Encoder部分是通过深度网络提取出不同的特征，用于后面的MLP分类网络，而对于不同视角的特征，对其进行融合以生成唯一的结果，本实施例采用的是均值Average操作。均值后的特征为提高准确度，再次经过MLP分类网络输出最终的唯一结果。MLP采用几层全连接网络的堆叠。

为了提高效率，编码器Encoder采用Unet3+网络，如图4所示。Unet3+网络利用了全尺寸跳跃连接和深度监督。全尺寸跳跃连接结合了来自不同尺度特征映射的低级细节和高级语义；而深度监督则从全尺寸聚合特征映射中学习分层表示。编码器Encoder采用UNet 3+网络，在提高精度的同时可以减少网络参数，提高计算效率。

如图3所示，对于纹理重建网络，输入是不同视角的RGBD图像RGBD 0～RGBD n。纹理重建网络与几何重建网络的网络结构是类似的。

3D人脸识别网络

3D人脸识别网络结构如图5所示，包括注意力图计算模块和人脸识别模块，深度图像和RGB图像输入所述注意力图计算模块，计算注意力图，所述人脸识别模块利用所述注意力图以在识别人脸时关注更值得关注的点。注意力图计算模块网络输入为深度和RGB图像，通过二者计算注意力图(Attention Map)，然后利用注意力图来让后续的人脸识别模块(输入由深度图像引导的特征)关注更值得关注的点，从而提高网络效果。

以上，通过将3D人体重建网络的重建结果转成深度depth信息输入到3D人脸识别网络中可以得到识别结果。经过下面的损失函数对网络进行优化。

损失函数

3D人体重建网络的损失函数为MSE loss：

loss(x_i,y_i)＝(x_i-y_i)²

其中xi,yi分别代表每个节点的预测值和真实值(也就是目标)。

3D人脸识别网络的损失函数为Triplet loss：

L＝max(d(a,p)-d(a,n)+margin,0)

该函数减少了同一类样本(a与p)的距离，增大不同样本(a与n)的距离。其中，d()为距离函数，用于计算两类分类的距离，常见的包括曼哈顿距离(L1 loss),欧式距离(MSEloss)。a表示本次人脸的预测值，p表示同一人物，不同样本(例如角度不同等)的预测值，n表示不同人物的预测值。margin是一个大于零常数用于提高损失函数效果。

其中，重建网络的损失函数的作用是通过计算重建结果与真值的每个点的误差，然后通过反向传播对重建网络的参数进行调整。而识别网络的损失函数是计算识别的准确度误差，然后将这个误差通过反向传播对重建网络参数进行调整。

通过本发明的方法将3D人体重建和人脸识别这一对上下游任务进行联合训练，提高优化了3D人体重建中的人脸重建效果，同时也可以提高下游任务的识别率。

本发明中提出了一种对3D重建网络进行人脸优化的方式，使用联合训练的方式使用预训练的人脸识别网络来对重建网络进行微调，进而提高重建网络对人脸重建效果，同时也提高了重建网络与识别网络联合运行时后者的识别准确率。相较于重新训练，本发明采用联合训练微调的方式可以极大地减少训练难度与训练量。

与传统技术相比，本发明的优点主要包括：

1.传统的3D人体重建模型受限于损失函数的设计，对所有的重建点平等计算误差，无法对人脸这种更受关注区域进行特别优化，导致很多时候人脸重建效果欠佳。本发明基于联合多任务联合训练框架，可以更好的对任意3D人体重建模型进行人脸重建优化。

2.本发明同时利用联合训练，使重建结果可以更好的帮助下游任务。由于人体重建任务是众多3D任务(例如人脸识别，人物识别等)的基础，通过本发明的方法联合训练，可以固定下游任务模型，利用微调其优化上游重建模型，使其输出更接近下游任务的训练数据空间，进而提高下游任务效果。与传统方法相比，本发明获得的人体重建结果更接近识别模型的训练数据空间，可以极大地提高下游任务的准确率。

在具体应用中，本发明的优点显著体现于：1.易用，可以用于对已有的3D人体重建模型进行优化，同时也可以用于从零开始训练时；2.多任务同步提高，同步提高下游任务例如人脸识别，行人ReID等的准确度。

本发明实施例还提供一种存储介质，用于存储计算机程序，该计算机程序被执行时至少执行如上所述的方法。

本发明实施例还提供一种控制装置，包括处理器和用于存储计算机程序的存储介质；其中，处理器用于执行所述计算机程序时至少执行如上所述的方法。

本发明实施例还提供一种处理器，所述处理器执行计算机程序，至少执行如上所述的方法。

所述存储介质可以由任何类型的非易失性存储设备、或者它们的组合来实现。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，FerromagneticRandom Access Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本发明所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本发明所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本发明所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种人体3D重建的人脸优化方法，其特征在于，包括如下步骤：

S1、将包含人体的图像输入3D人体重建网络，生成重建结果；

2.如权利要求1所述的人体3D重建的人脸优化方法，其特征在于，所述3D人体重建网络的重建损失函数为MSEloss：

loss(x_i,y_i)＝(x_i-y_i)²

其中x_i,y_i分别代表每个节点的预测值和真实值。

3.如权利要求2所述的人体3D重建的人脸优化方法，其特征在于，所述3D人脸识别网络的损失函数为Triplet loss：

L＝max(d(a,p)-d(a,n)+margin,0)

4.如权利要求1至3任一项所述的人体3D重建的人脸优化方法，其特征在于，步骤S3中，通过损失函数计算误差并反向传播对所述3D人体重建网络的参数进行调整。

5.如权利要求1至4任一项所述的人体3D重建的人脸优化方法，其特征在于，所述3D人体重建网络包为端到端的深度神经网络，包括几何重建网络和纹理重建网络，其中深度图像输入所述几何重建网络，用于重建几何结构，多角度RGBD图像输入所述纹理重建网络，用于重建表面纹理。

6.如权利要求5所述的人体3D重建的人脸优化方法，其特征在于，不同视角的深度图像输入所述几何重建网络，其中，通过编码器Encoder提取出不同的特征，分别经过一个MLP分类网络得到不同视角的特征，通过均值Average操作对其进行融合以生成结果，融合的结果再经过一个MLP分类网络而输出最终的唯一结果，其中MLP分类网络采用几层全连接网络的堆叠。

7.如权利要求6所述的人体3D重建的人脸优化方法，其特征在于，所述编码器Encoder采用Unet3+网络，所述Unet3+网络利用了全尺寸跳跃连接和深度监督，所述全尺寸跳跃连接结合了来自不同尺度特征映射的低级细节和高级语义，所述深度监督从全尺寸聚合特征映射中学习分层表示。

8.如权利要求1至7任一项所述的人体3D重建的人脸优化方法，其特征在于，所示3D人脸识别网络包括注意力图计算模块和人脸识别模块，深度图像和RGB图像输入所述注意力图计算模块，计算注意力图，所述人脸识别模块利用所述注意力图以在识别人脸时关注更值得关注的点。

9.一种实现人体3D重建和3D人脸识别的方法，其特征在于，使用如权利要求1至8任一项所述的人体3D重建的人脸优化方法所得到的3D人体重建网络和3D人体重建网络，联合起来进行人体3D重建和3D人脸识别。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器执行时，实现如权利要求1至9任一项所述的方法。