CN117133041A

CN117133041A - 一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质

Info

Publication number: CN117133041A
Application number: CN202311179047.4A
Authority: CN
Inventors: 李静; 郭海波
Original assignee: Xijing University
Current assignee: Xijing University
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-11-28

Abstract

一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质，方法包括：通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像；训练人脸深度学习的三维重建网络，将得到的待测人员的脸部彩色二维图像输入训练过的三维重建网络，生成待测人员脸部的三维点云坐标；获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比，从而识别待测人员的身份；系统、设备及介质，用于一种基于深度学习的三维重建网络人脸识别方法；本发明无需额外的硬件，有效提高人脸识别结果的可靠性，可以有效应对照片和视频攻击。

Description

一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质

技术领域

本发明属于图像处理技术领域，特别涉及一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质。

背景技术

很多场合开始使用人脸识别技术来检验人员身份，然而一般的人脸识别技术无法对人员进行有效辨别，可以通过打印他人照片或拍摄他人视频的方式欺骗人脸识别系统，虽然通过采用深度摄像头等方式获取深度信息的方式防止照片和视频的攻击，但是将导致额外的新设备投入。

公开号为CN109359608A的专利申请文件，提供了一种基于深度学习模型的人脸识别方法，包括构建卷积神经网络、对网络参数进行训练、图片预处理和输入模型进行类别判定，通过人脸数据改进卷积深度神经网络和利于误差反向传播算法对神经网络参数进行训练，将人脸图片利用MTCNN算法转化为特征向量，输入改进的卷积深度网络进行类别判定，但该方法只在二维层面处理人脸图像，没有获取人脸图像的深度信息，易遭受照片或视频欺骗。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提出了一种基于深度学习的三维重建网络人脸识别方法、系统、设备及介质，通过单个或多个普通摄像头获取两张或两张以上不同角度待测人员的人脸图像，并构建人脸三维点云，与注册库中人脸信息进行比对，进而识别身份，无需额外的硬件，有效提高人脸识别结果的可靠性，可以有效应对照片和视频攻击。

为了实现上述目的，本发明所采用的技术方案是：

一种基于深度学习的三维重建网络人脸识别方法，包括：

步骤1：通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像；

步骤2：训练人脸深度学习的三维重建网络，将步骤1得到的待测人员的脸部彩色二维图像输入训练过的三维重建网络，生成待测人员脸部的三维点云坐标；

步骤3：根据步骤2获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比，从而识别待测人员的身份。

所述步骤1中需拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像，可以利用一个彩色摄像头通过环绕待测人员的脸部移动拍摄两张或两张以上不同角度的图像，或通过布置多个彩色摄像头同时拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像。

所述步骤2中训练人脸深度学习三维重建网络，利用输入的脸部彩色二维图像分别进行特征提取，可微单应性变换构造成本图，将成本图正则化，生成深度图并利用残差网络优化，最后深度图融合为脸部的三维点云坐标，具体过程如下：

步骤2.1：将步骤1获取的脸部彩色二维图像，利用二维卷积神经网络(2D CNN)动态滤波卷积网络提取特征，动态滤波器卷积在一层网络中集成了多个卷积核，多个卷积核通过注意力机制以非线性形式进行融合，根据训练的效果来确定每个卷积核的权重，在每层网络设置动态感知器，动态感知器定义：

其中，s.t.0≤π_k(x)≤1，/>此处π_k表示注意力权重；x为输入；y为输出；W表示权值函数；b表示偏置函数；g表示激活函数；π_k表示注意力权重；动态感知器数量为K；

动态滤波卷积后接入BatchNorm与ReLU，提取特征时，将脸部彩色二维图像作为网络的输入，图像大小为H×W，采用11层网络结构，在第3层、第6层和第9层时，将步长设置为2并进行下采样，除最后一层网络之外其余卷积层后面都设置了BN层和ReLU层，可得到大小为1/8H×1/8W，通道数为64的特征图；

步骤2.2：根据步骤2.1提取的特征图和拍摄时的彩色摄像头参数构造成本图，将I₁表示为脸部彩色二维图像1，，表示人脸图像2至N，/>表示与特征图对应的彩色摄像头参数，将所有特征图投影到人脸图像1对应的相机的不同深度中，形成N个特征量/>从投影特征图V_i(d)到F_i的深度d坐标映射由平面变换x′～H_i(d)·x确定，其中，“～”表示为射影等式，H_i(d)表示对于第i^th个特征图映射到深度d坐标和脸部彩色二维图像1特征图之间的单应性矩阵，假设n₁为人脸图像1对应的相机的主轴，单应性矩阵表示为：

利用投影变换，N张图像可以得到N个特征体，这个特征体就代表成本图；

步骤2.3：将步骤2.2中得到的成本图正则化，利用门控循环单元GRU神经网络，并将内部的全连接计算替换为二维卷积计算，改进的门控循环单元GRU表达式为：

R_t＝σ(X_t*W_xr+H_(t-1)*W_hr+b_r)

Z_t＝σ(X_t*W_xz+H_(t-1)*W_hz+b_z)

其中，σ(·)为激活函数；*表示卷积操作；表示矩阵的阿达马乘积；R_t为重置门；Z_t为更新门；X_t是t时刻的输入；H_(t-1)是在t-1时刻的隐藏门或者是隐藏门的初始状态；H～_t为候选集；W和b为学习参数，是双曲线正切函数；

采用改进的门控循环单元GRU，上层输出作为下层输入，用二维卷积层，将64通道的成本图C(t)映射到32通道，将三层门控循环单元(GRU)层的输出通道数量进行设置，第一层其数值为16、第二层其数值为4、第三层其数值为1，对成本图的每一个通道输入到改进的门控循环单元(GRU)中进行正则化操作，正则化成本图最终通过归一化指数函数进行概率归一化，生成概率体P，使用赢家通吃的选择从概率体P依次检索出初始深度图，损失函数为：

其中，Q(i,p)为P(i,p)对应的值，P(i,p)为概率容积值，p为图像的空间坐标；Q为真实深度图的向量；

步骤2.4：将步骤2.3得到的初始深度图优化，采用多尺度残差网络，结合原始的脸部彩色二维图像1生成残差，将初始深度图和原始的人脸图像1连接为一个四通道输入，通过三个32通道的二维卷积层和一个1通道的卷积层来学习深度残差，将初始深度图添加回来，以生成细化的深度图，最后一层不包含BN层和ReLU单元来学习负残差，预先调整初始深度幅度到[0,1]的范围，并在细化后将其转换回来；

步骤2.5：将步骤2.4优化后的人脸深度图采用光度一致性计算深度概率，当概率低于0.5时判定为噪声，对其进行去除并以此来衡量匹配质量；将一个脸部彩色二维图像1中的某像素p₁的深度d₁，投影到另一个图像素点p_i，然后通过p_i的深度预测d_i反投影到脸部彩色二维图像1上，设反投影得到的人脸图像1的像素点为p_reproj，对应的深度估计为d_reproj，则可根据像素点和深度估计的差异来计算脸部彩色二维图像1的深度一致性，计算如式：

当满足计算公式像素点，上述公式即为满足几何一致性匹配条件，人脸图像1中的某一像素点p(x,y)在其深度图的深度值为D，x,y轴的相机焦距分别为f_x和f_y，像素点p由像素坐标系转化为彩色摄像头坐标系的计算：

彩色摄像头坐标系下的像素点p(x_c,y_c,z_c)通过彩色摄像头旋转矩阵R及平移矩阵T转化至世界坐标系，，对于人脸图像1的每个像素点均执行上述操作，最终可融合得到人脸的三维重建点云。

所述步骤3中，识别待测人员的身份具体过程为：

步骤3.1：考虑待测人员脸部三维点云坐标结果中的一个点P_p，如果在已注册人员脸部三维点云对齐{P_g}中被认为有很好的匹配，则根据公式计算精确度(Acc)：

其中，参数λ由是获取已注册人员脸部信息时利用三维扫描仪准确记录生成，通常，参数λ随三维扫描仪记录人脸信息时的距离，距离越远参数λ的值就越大；

步骤3.2：对于已注册人员脸部三维点云对齐中的一个点P_g，若认为在待测人员脸部三维点云坐标{P_p}中有很好的匹配，则根据公式计算完整度(Comp)：

步骤3.3：同时考虑精确度和完整度，使用整体质量(Overall)来表示，计算方式：

步骤3.4：整体质量、精确度和完整度为人脸识别评价指标，数值越小，表明待测人脸与已注册人脸的相似性越高，并以此判断待测人脸是否为已注册人脸，该数值单位为毫米mm，其数值具体判定范围为步骤2中训练人脸深度学习的三维重建网络时产生。

一种基于深度学习的三维重建网络人脸识别系统，包括：

脸部图像获取模块：通过一个或多个彩色摄像头多角度拍摄待测人员的脸部彩色二维图像；

三维重建网络模块：训练人脸深度学习的三维重建网络，将脸部图像获取模块得到的待测人员的脸部彩色二维图像输入训练后的三维重建网络，生成待测人员脸部的三维点云坐标；

比对模块：根据三维重建网络模块获得的待测人员脸部三维点云坐标与注册库中已注册人员脸部三维点云进行对比，从而识别待测人员的身份。

一种基于深度学习的三维重建网络人脸识别设备，包括：

存储器：用于存储所述一种基于深度学习的三维重建网络人脸识别方法的计算机程序；

处理器：用于执行所述计算机程序时实现一种基于深度学习的三维重建网络人脸识别方法。

一种基于深度学习的三维重建网络人脸识别介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现一种基于深度学习的三维重建网络人脸识别方法。

相对于现有技术，本发明的有益效果在于：

1.本发明将人脸彩色二维图像生成三维点云，根据深度学习三维重建网络提取图像中的深度信息，弥补了深度信息的缺失，从而有效推高人脸识别结果的可靠性。

2.本发明只采用普通摄像头，不必使用深度摄像头，即可提取图像中的深度信息，可在不增加成本的基础上，大大提高人脸检测的可靠性。

3.本发明步骤2.1中采用了动态滤波卷积网络提取特征，特征提取时具有注意力机制，提高特征提取效果，增加人脸图像的融合效果。

4.本发明步骤2.2中可微单应性矩阵，能够自适应兼容2至N图片的数量，无需手动修改数量的效果。

5.本发明步骤2.3中采用了改进的门控循环单元(GRU)替代通常使用的3DCNN，在正则化成本图时将三次方的显存消耗降低为二次方，可以极大降低显存消耗，同时因为改进GRU使用卷积操作代替全连接，可以促进深度信息的局部交流，可以有效提升正则化效果。

综上，本发明通过单个或多个普通摄像头获取两张或两张以上不同角度待测人员的人脸图片，并构建人脸三维点云，并于注册库中人脸信息进行比对进而识别身份，无需额外的硬件，具有优秀的识别效果，可以有效应对照片和视频攻击。

附图说明

图1是本发明的方法流程图。

图2是本发明三维重建网络的方法流程图。

图3是本发明三维重建网络改进GRU单元内部实时细节。

图4是本发明三维重建网络成本图利用GRU单元正则化。

具体实施方式

下面结合附图对本发明做进一步详细描述。

如图1所示，本发明一种基于深度学习的三维重建网络人脸识别方法，包括有：

步骤1：通过一个或多个普通彩色摄像头多角度拍摄待测人员的脸部彩色二维图像；

拍摄待测人员的脸部彩色二维图像，只需采用普通彩色摄像头，无需额外采用结构光相机或深度相机等，在拍摄时需拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像，可以利用一个摄像头通过环绕待测人员的脸部移动拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像，或可以通过布置两颗或多颗摄像头同时拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像。

训练人脸深度学习三维重建网络，具体训练过程：将人脸数据集提供的点云用于重建人脸表面，然后用于渲染深度图进行训练；训练时将输入人脸图像的分辨率设置为640×512，数量N设置为3，在初始深度图预测中，设置深度平面数D＝48，深度假设均匀地从425mm到921mm之间采样，防止深度图对GRU正则化顺序有偏差，每个训练样本都通过从d_min到d_max的正向正则化和从d_max到d_min的反向正则化传递给网络，使用初始学习率为0.0005的RMSProp优化器，每2个周期降低学习率0.9；

将待测人员的脸部彩色二维图像输入训练过的三维重建网络，具体实施过程为：该网络可以输入2到N张图，网络会自适应调整，利用输入的脸部彩色二维图像分别进行特征提取，可微单应性变换构造匹配成本图，成本图正则化，生成深度图并利用残差网络优化，最后深度图融合为人脸点云，如图2所示，过程如下：

步骤2.1：将步骤1获取的人脸彩色图像，利用2DCNN动态滤波卷积网络提取特征，该网络引入使用了动态滤波器卷积，在一层网络中集成了多个卷积核，所述卷积核通过注意力机制以非线性形式进行融合，使特征提取模块更关注目标，根据训练的效果来确定每个卷积核的权重，在每层网络设置动态感知器，动态感知器定义：

其中，s.t.0≤π_k(x)≤1，/>此处π_k表示注意力权重，x为输入；y为输出；W表示权值函数；b表示偏置函数；g表示激活函数；π_k表示注意力权重；动态感知器数量为K；

但是该注意力权重无需固定，可跟随着网络训练的进程自适应适配以获得更好的效果，动态卷积同样有K个核，在动态卷积后接入BatchNorm与ReLU；

提取特征时，将H×W大小的图片作为本网络的输入，摄像头采集图片像素H×W，高H,宽W，根据实际摄像头分辨率自适应调整，采用11层网络结构，在第3层、第6层和第9层时将步长设置为2并进行下采样，除最后一层网络之外其余卷积层后面都设置了BN层和ReLU层，可得到大小为1/8H×1/8W，通道数为64的特征图。

步骤2.2：根据提取的特征图和拍摄时的相机参数构建成本图，将I₁表示为人脸图像1，表示人脸图像2至N，/>表示与特征图对应的相机内参，将所有特征图投影到人脸图像1对应的相机的不同深度中，形成N个特征量/>从投影特征图V_i(d)到F_i的深度d坐标映射由平面变换x′～H_i(d)·x确定，其中“～”表示射影等式，H_i(d)表示对于第i^th个特征图映射到深度d处和人脸图像1特征图之间的单应性矩阵，假设n₁为人脸图像1对应的相机的主轴，单应性矩阵表示为：

且该矩阵完全可微，利用投影变换，N张图像可以得到N个特征体，这个特征体就代表成本图。

步骤2.3：成本图正则化旨在细化成本图，利用门控循环单元GRU神经网络，并将内部的全连接计算替换为二维卷积计算，如图3所示，改进的门控循环单元GRU表达式为：

R_t＝σ(X_t*W_xr+H_(t-1)*W_hr+b_r)

Z_t＝σ(X_t*W_xz+H_(t-1)*W_hz+b_z)

其中，σ(·)为激活函数；*表示卷积操作；表示矩阵的阿达马乘积；R_t为重置门；Z_t为更新门；X_t是t时刻的输入；H_(t-1)是在t-1时刻的隐藏门或者是隐藏门的初始状态；/>为候选集；W和b为学习参数，是双曲线正切函数。

如图4所示，采用改进的门控循环单元GRU，上层输出作为下层输入，先采用一个二维卷积层，将64通道的成本图C(t)映射到32通道，作为第一个GRU层的输入，每个GRU层的输出作为下一个GRU层的输入，在此处将三层GRU层的输出通道数量进行设置，第一层其数值为16、第二层其数值为4、第三层其数值为1，对成本图的每一个通道输入到改进的GRU模块组中进行正则化操作，正则化成本图最终通过softmax进行概率归一化生成概率体P，使用赢家通吃的选择从概率体P依次检索出初始深度图，损失函数为：

其中，Q(i,p)为P(i,p)对应的值，P(i,p)为概率容积值，p为图像的空间坐标；Q为真实深度图的向量。

步骤2.4，深度图优化采用多尺度残差网络，结合原始的人脸图像1生成残差，将初始深度图和原始的人脸图像1连接为一个4通道输入，然后通过三个32通道的二维卷积层，然后是一个1通道的卷积层来学习深度残差，然后将初始的深度图添加回来，以生成细化的深度图，最后一层不包含BN层和ReLU单元来学习负残差，此外，为了防止在一定的深度尺度上有偏差，预先调整了初始深度幅度到[0,1]的范围，并在细化后将其转换回来。

步骤2.5，优化后的人脸深度图在此处采用光度一致性计算深度概率，当概率低于0.5时判定为噪声，对其进行去除并以此来衡量匹配质量；将一个人脸图像1中的某像素p₁的深度d₁，投影到另一个图像素点p_i，然后通过p_i的深度预测d_i反投影到人脸图像1上。设反投影得到的人脸图像1的像素点为p_reproj，对应的深度估计为d_reproj，则可根据像素点和深度估计的差异来计算人脸图像1的深度一致性，计算如式：

当满足计算公式像素点上述公式即为满足几何一致性匹配条件。人脸图像1中的某一像素点p(x,y)在其深度图的深度值为D，x,y轴的相机焦距分别为f_x和f_y，像素点p由像素坐标系转化为相机坐标系的计算：

摄像头坐标系下的像素点p(x_c,y_c,z_c)通过摄像头旋转矩阵R及平移矩阵T转化至世界坐标系，对于人脸图像1的每个像素点均执行上述操作，最终可融合得到人脸的三维重建点云模型。

人脸注册合法人员身份信息，利用三维扫描仪准确记录其人脸三维信息，并生成相应的人脸三维点云特征向量，将注册合法人员的人脸三维点云特征向量存入人脸注册库中。

利用步骤2获得的待检人脸的三维点云坐标通过逐视相机参数与真实点云对齐。

步骤3.1：考虑生成点云结果中的一个点P_p，如果在真实点云{P_g}

中被认为有很好的匹配，则根据公式计算精确度(Acc)：

其中，参数λ是获取已注册人员脸部信息时利用三维扫描仪准确记录生成，通常，参数λ随扫描仪记录人脸信息时的距离，距离越远参数λ的值就越大。

步骤3.2：对于真实点云中的一个点P_g，若认为在生成点云{P_p}中有很好的匹配，则根据公式计算完整度(Comp)：

步骤3.3：同时考虑精确度和完整度，使用整体质量(Overall)表示整体质量，计算方式：

整体质量(Overall)为精确度和完整度的均值。

步骤3.4：整体质量、精确度和完整度为人脸识别评价指标，数值越小，表明待测人脸与已注册人脸的相似性越高，并以此判断待测人脸是否为已注册人脸，该数值单位为毫米mm，其数值具体判定范围为步骤二中人脸深度学习三维重建网络训练时产生。

一种基于深度学习的三维重建网络人脸识别系统，包括：

一种基于深度学习的三维重建网络人脸识别设备，包括：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，在本发明的精神和原则之内，所作的任何修改、同等替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的三维重建网络人脸识别方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习的三维重建网络人脸识别方法，其特征在于，所述步骤1中需拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像，可以利用一个彩色摄像头通过环绕待测人员的脸部移动拍摄两张或两张以上不同角度的图像，或通过布置多个彩色摄像头同时拍摄两张或两张以上不同角度待测人员的脸部彩色二维图像。

3.根据权利要求1所述的一种基于深度学习的三维重建网络人脸识别方法，其特征在于，所述步骤2中训练人脸深度学习三维重建网络，利用输入的脸部彩色二维图像分别进行特征提取，可微单应性变换构造成本图，将成本图正则化，生成深度图并利用残差网络优化，最后深度图融合为脸部的三维点云坐标，具体过程如下：

步骤2.2：根据步骤2.1提取的特征图和拍摄时的彩色摄像头参数构造成本图，将I₁表示为脸部彩色二维图像1，表示人脸图像2至N，/>表示与特征图对应的彩色摄像头参数，将所有特征图投影到人脸图像1对应的相机的不同深度中，形成N个特征量从投影特征图V_i(d)到F_i的深度d坐标映射由平面变换x′～H_i(d)·x确定，其中，“～”表示为射影等式，H_i(d)表示对于第i^th个特征图映射到深度d坐标和脸部彩色二维图像1特征图之间的单应性矩阵，假设n₁为人脸图像1对应的相机的主轴，单应性矩阵表示为：

R_t＝σ(X_t*W_xr+H_(t-1)*W_hr+b_r)

Z_t＝σ(X_t*W_xz+H_(t-1)*W_hz+b_z)

其中，σ(·)为激活函数；*表示卷积操作；表示矩阵的阿达马乘积；R_t为重置门；Z_t为更新门；X_t是t时刻的输入；H_(t-1)是在t-1时刻的隐藏门或者是隐藏门的初始状态；/>为候选集；W和b为学习参数，是双曲线正切函数；

彩色摄像头坐标系下的像素点p(x_c,y_c,z_c)通过彩色摄像头旋转矩阵R及平移矩阵T转化至世界坐标系，对于人脸图像1的每个像素点均执行上述操作，最终可融合得到人脸的三维重建点云。

4.根据权利要求1所述的一种基于深度学习的三维重建网络人脸识别方法，其特征在于，所述步骤3中，识别待测人员的身份具体过程为：

步骤3.4：整体质量、精确度和完整度为人脸识别评价指标，数值越小，表明待测人脸与已注册人脸的相似性越高，并以此判断待测人员是否为已注册人员，该数值单位为毫米mm，其数值具体判定范围为步骤2中训练人脸深度学习的三维重建网络时产生。

5.一种基于深度学习的三维重建网络人脸识别系统，其特征在于，包括：

6.一种基于深度学习的三维重建网络人脸识别设备，其特征在于，包括：

存储器：用于存储表达所述一种基于深度学习的三维重建网络人脸识别方法的计算机程序；

7.一种基于深度学习的三维重建网络人脸识别介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时能够实现一种基于深度学习的三维重建网络人脸识别方法。