CN112434576A

CN112434576A - 一种基于深度相机的人脸识别方法及系统

Info

Publication number: CN112434576A
Application number: CN202011265447.3A
Authority: CN
Inventors: 户磊; 浦煜; 保长存; 朱海涛; 付贤强
Original assignee: Hefei Dilusense Technology Co Ltd
Current assignee: Hefei Dilusense Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2021-03-02

Abstract

本发明提供一种基于深度相机的人脸识别方法及系统，该方法包括：将彩色人脸区域输入至多尺度特征提取网络中的彩色多尺度特征提取网络，获取并融合彩色人脸区域不同尺度的彩色特征向量，得到彩色多尺度特征；将深度人脸区域输入至多尺度特征提取网络中的深度多尺度特征提取网络，获取并融合深度人脸区域不同尺度的深度特征向量，得到深度多尺度特征；将彩色多尺度特征和深度多尺度特征输入至多尺度特征提取网络中的识别单元，获取人脸识别结果。本发明将常用的深度数据使用点云进行表示，增加了信息量；构建了多尺度特征提取网络，融合不同尺度的彩色特征和深度特征，使得网络提取的特征表达更加鲁棒，并且在RGBD场景下的识别准确率大幅提升。

Description

一种基于深度相机的人脸识别方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于深度相机的人脸识别方法及系统。

背景技术

随着大数据和人工智能技术的发展，传统的基于二维图像的人脸识别技术已经较为成熟。然而，二维图像容易受到光照、姿态、表情等因素的影响，在较为恶劣的条件下识别性能会有显著下降。

近些年来，随着Kinect、RealSense等深度相机的发展，基于RGBD(red green blueand depth，深度)相机的三维人脸识别技术受到了广泛关注，RGBD相机能够输出彩色图像和深度图像，RGBD相机数据相对于二维的RGB数据多了深度信息，可以刻画人脸的形状信息，对姿态和光照等因素有一定的鲁棒性。

针对三维图像，现有技术中提出了一种基于RGB特征与深度特征的原始图像层融合方法及系统，该方案包括如下几个步骤：

第一步，分别采集同一物体同一时刻同一场景的彩色图像与深度图像；

第二步，获取单独的基于彩色图像的物体识别准确率与基于深度图像的物体识别准确率；

第三步：通过决策树算法为MMSAE算法初始化参数；

第四步：MMSAE算法有差异性地提取彩色图像和深度图像的有效特征并将所述有效特征融合，获取融合图像的识别准确率；

第五步：判断所述融合图像的识别准确率是否高于系统设定阈值，若所述识别准确率不高于设定阈值，则返回第三步，若所述识别准确率高于设定阈值，则输出识别后的物体图像。

该方法在根据融合图像输出识别结果时，由于融合图像中只是有差异的提取了彩色图像和深度图像的某些特征，这必然会使彩色图像或深度图像中的某些信息丢失，而识别效果是直接与选取的特征有关的，从而导致识别精度不高。

发明内容

本发明实施例提供一种基于深度相机的人脸识别方法及系统，用以解决现有技术中人脸识别准确率低、鲁棒性低的缺陷，实现高准确率、高鲁棒性的人脸识别。

本发明实施例提供一种基于深度相机的人脸识别方法，包括：

获取目标对象的彩色人脸区域和深度人脸区域；

将所述彩色人脸区域输入至多尺度特征提取网络中的彩色多尺度特征提取网络，获取并融合所述彩色人脸区域不同尺度的彩色特征向量，得到彩色多尺度特征；

将所述深度人脸区域输入至所述多尺度特征提取网络中的深度多尺度特征提取网络，获取并融合所述深度人脸区域不同尺度的深度特征向量，得到深度多尺度特征；

将所述彩色多尺度特征和所述深度多尺度特征输入至所述多尺度特征提取网络中的识别单元，获取人脸识别结果。

根据本发明一个实施例的基于深度相机的人脸识别方法，所述彩色人脸区域通过如下步骤获取：

获取所述目标对象的彩色图像；

对所述彩色图像进行人脸检测，获取所述彩色图像中的人脸关键点；

根据所述彩色图像中的人脸关键点和预设彩色模板关键点，获取彩色变换矩阵，并将所述彩色图像和所述彩色变换矩阵相乘，获取对齐后的彩色图像；

对对齐后的彩色图像进行裁剪，获取彩色人脸裁剪区域；

并对所述彩色人脸裁剪区域进行归一化，获取归一化后的彩色人脸裁剪区域；

将归一化后的彩色人脸裁剪区域作为所述彩色人脸区域。

根据本发明一个实施例的基于深度相机的人脸识别方法，所述深度人脸区域通过如下步骤获取：

获取所述目标对象的深度图像；

利用所述彩色图像和所述深度图像的映射关系，获取所述深度图像中的人脸关键点；

根据所述深度图像中的人脸关键点和预设深度模板关键点，获取深度变换矩阵，将所述深度图像和所述深度变换矩阵相乘，获取对齐后的深度图像；

对对齐后的深度图像进行裁剪，获取深度人脸裁剪区域；

将所述深度人脸裁剪区域的深度数据转换为点云数据，获取转换后的深度人脸裁剪区域；

并对转换后的深度人脸裁剪区域进行归一化，获取归一化后的深度人脸裁剪区域；

将归一化后的深度人脸裁剪区域作为所述深度人脸区域。

根据本发明一个实施例的基于深度相机的人脸识别方法，所述彩色多尺度特征提取网络由第一神经网络、若干第一特征映射模块和第一输出模块组成，其中，所述彩色多尺度特征提取网络以所述第一神经网络为基本结构，每一第一特征映射模块穿插在所述第一神经网络的不同位置，每一第一特征映射模块的卷积核大小不同，以提取出所述彩色图像不同尺度的彩色特征，所述第一输出模块将不同尺度的彩色特征和所述第一神经网络的输出特征进行拼接，输出所述彩色多尺度特征。

根据本发明一个实施例的基于深度相机的人脸识别方法，所述深度多尺度特征提取网络由第二神经网络、若干第二特征映射模块和第二输出模块组成，其中，所述深度多尺度特征提取网络以所述第二神经网络为基本结构，每一第二特征映射模块穿插在所述第二神经网络的不同位置，每一第二特征映射模块的卷积核大小不同，以提取出所述深度图像不同尺度的深度特征，所述第二输出模块将不同尺度的深度特征和所述第二神经网络的输出特征进行拼接，输出所述深度多尺度特征。

根据本发明一个实施例的基于深度相机的人脸识别方法，所述彩色多尺度特征提取网络中随着网络深度的增大，每一第一特征映射模块的卷积核大小逐渐减小。

根据本发明一个实施例的基于深度相机的人脸识别方法，所述多尺度特征提取网络的损失函数计算公式如下：

L_total＝L_rgb+L_depth+L_common+λL_ortho，

y_i∈{1,.....,C}，

其中，L_total表示所述多尺度特征提取网络的损失函数，λ为超参数，L_rgb表示所述彩色多尺度特征提取网络中softmax层的输出损失，L_depth表示所述深度多尺度特征提取网络中softmax层的输出损失，N为训练集的大小，C为样本类别数，f_i表示第i个样本的人脸特征值，W表示全连接层的权重，b表示全连接层的偏置，T为转置符号，N_R表示所述彩色多尺度特征，N_D表示所述深度多尺度特征。

根据本发明一个实施例的基于深度相机的人脸识别系统，包括：

采集模块，用于获取目标对象的彩色人脸区域和深度人脸区域；

彩色多尺度特征提取模块，用于将所述彩色人脸区域输入至多尺度特征提取网络中的彩色多尺度特征提取网络，获取并融合所述彩色人脸区域不同尺度的彩色特征向量，得到彩色多尺度特征；

深度多尺度特征提取模块，用于将所述深度人脸区域输入至所述多尺度特征提取网络中的深度多尺度特征提取网络，获取并融合所述深度人脸区域不同尺度的深度特征向量，得到深度多尺度特征；

人脸识别模块，用于将所述彩色多尺度特征和所述深度多尺度特征输入至所述多尺度特征提取网络中的识别单元，获取人脸识别结果。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于深度相机的人脸识别方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于深度相机的人脸识别方法的步骤。

本发明实施例提供的一种基于深度相机的人脸识别方法及系统，构建了多尺度特征提取网络，通过彩色多尺度特征提取网络，提取不同尺度的彩色特征，通过深度多尺度特征提取网络，提取不同尺度的深度特征，彩色多尺度特征提取网络可以提取出彩色图像中不同程度的彩色细节信息，深度多尺度特征提取网络可以提取出深度图像中不同程度的深度细节信息，使得融合后的特征包含的信息更加丰富，从而提升了识别准确率，并且融合后的特征表达更加鲁棒，提高了识别的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度相机的人脸识别方法的流程图；

图2为本发明实施例提供的一种基于深度相机的人脸识别系统的结构示意图；

图3为本发明实施例提供的一种电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种基于深度相机的人脸识别方法，通过多尺度的特征融合充分挖掘不同数据模态各自的特征表达能力和互补性，从而提升识别能力。该方法能显著提升在多模态数据场景下人脸识别的准确率。

图1为本发明实施例提供的一种基于深度相机的人脸识别方法的流程图，如图1所示，该方法包括：

S1，获取目标对象的彩色人脸区域和深度人脸区域；

首先通过RGBD相机采集目标对象的彩色图像和深度图像，该彩色图像中包括需要识别的人脸和背景区域，通过一定的预处理方法将彩色图像中的背景区域去除，提取出彩色图像中的彩色人脸区域。同样的，深度图像中包括需要识别的人脸区域和背景区域，通过相应的预处理方法提取出深度人脸区域，其中，该深度人脸区域中为点云数据，而不是深度数据，点云数据为三通道数据，深度数据为单通道数据，通过将单通道的深度数据转换为三通道的点云数据，使得深度人脸区域中包含的信息更加丰富，从而提高了目标对象的识别精度。

S2，将所述彩色人脸区域输入至多尺度特征提取网络中的彩色多尺度特征提取网络，获取并融合所述彩色人脸区域不同尺度的彩色特征向量，得到彩色多尺度特征；

S3，将所述深度人脸区域输入至所述多尺度特征提取网络中的深度多尺度特征提取网络，获取并融合所述深度人脸区域不同尺度的深度特征向量，得到深度多尺度特征；

S4，将所述彩色多尺度特征和所述深度多尺度特征输入至所述多尺度特征提取网络中的识别单元，获取人脸识别结果。

其中，所述多尺度特征提取网络包括彩色多尺度特征提取网络、深度多尺度特征提取网络和识别单元，彩色多尺度特征提取网络和深度多尺度特征提取网络为两个并行分支，其输出均与识别单元连接。所述彩色多尺度特征提取网络用于提取所述彩色人脸区域不同尺度的彩色特征向量，并融合得到彩色多尺度特征，所述深度多尺度特征提取网络用于提取所述深度人脸区域不同尺度的深度特征向量，并融合后得到深度多尺度特征，识别单元根据彩色多尺度特征和深度多尺度特征，进行人脸识别，得到人脸识别结果。

具体地，本发明实施例中，多尺度特征提取网络为双流卷积神经网络，也就是说该多尺度特征提取网络由两个并行分支组成，分别为彩色多尺度特征提取网络和深度多尺度特征提取网络，彩色多尺度特征提取网络用于根据输入的彩色人脸区域，提取到不同尺度的彩色特征向量，并将不同尺度的彩色特征向量进行融合，得到彩色多尺度特征。深度多尺度特征提取网络根据输入的深度人脸区域，提取到不同尺度的深度特征向量，并将不同尺度的深度特征向量进行融合，得到深度多尺度特征。最后多尺度特征提取网络中的识别单元基于融合后的彩色多尺度特征和融合后的深度多尺度特征，对目标对象进行人脸识别，得到人脸识别结果。

本申请中由于将不同尺度的彩色特征和不同尺度的深度特征进行融合，从而使得多尺度特征提取网络的特征学习表达更加丰富，从而提高了多尺度特征提取网络的识别精度。

综上，本发明实施例提供的一种基于深度相机的人脸识别方法及系统，构建了多尺度特征提取网络，通过彩色多尺度特征提取网络，提取不同尺度的彩色特征，通过深度多尺度特征提取网络，提取不同尺度的深度特征，彩色多尺度特征提取网络可以提取出彩色图像中不同程度的彩色细节信息，深度多尺度特征提取网络可以提取出深度图像中不同程度的深度细节信息，使得融合后的特征包含的信息更加丰富，从而提升了识别准确率，并且融合后的特征表达更加鲁棒，提高了识别的鲁棒性。

在上述实施例的基础上，优选地，所述彩色人脸区域通过如下步骤获取：

获取所述目标对象的彩色图像；

对对齐后的彩色图像进行裁剪，获取彩色人脸裁剪区域；

将归一化后的彩色人脸裁剪区域作为所述彩色人脸区域。

首先利用RGB相机采集目标对象初始的彩色图像，该彩色图像中包括目标对象的人脸区域和背景区域，然后对该彩色图像进行人脸检测，得到人脸检测框和人脸关键点，所谓的人脸关键点是指人面部的重要特征点，提取出人脸关键点后，利用彩色图像中的人脸关键点和预设彩色模板关键点，得到彩色变换矩阵，预设彩色模板关键点是根据标准模板提前获得的，通过实际检测到的人脸关键点和预设彩色模板关键点，得到彩色变换矩阵，这个彩色变换矩阵表示彩色图像和标准图像之间的对齐关系。然后将该彩色图像和彩色变换矩阵相乘，就可以得到对齐后的彩色图像。

对对齐后的彩色图像进行裁剪，得到彩色人脸裁剪区域，裁剪的目的是对图像的大小进行调整，以满足后面神经网络的尺寸要求，并对彩色人脸裁剪区域进行归一化，归一化的目的是将图像像素值归一化为[-1,1]之间，便于网络收敛。

在上述实施例的基础上，优选地，所述深度人脸区域通过如下步骤获取：

获取所述目标对象的深度图像；

对对齐后的深度图像进行裁剪，获取深度人脸裁剪区域；

将归一化后的深度人脸裁剪区域作为所述深度人脸区域。

具体地，首先利用RGBD相机获取目标对象的深度图像，在彩色图像中人脸关键点已经标注出来的基础上，通过彩色图像和深度图像之间的映射关系，在深度图像中也将人脸关键点标注出来。

通过比较深度图像上的人脸关键点和预设深度模板关键点，得到深度对齐变换矩阵，同样地，深度对齐变换矩阵表示深度图像和标准模板之间的关系，将深度图像和深度对齐变换矩阵相乘，即可以得到对齐后的深度图像。

然后对对齐后的深度图像进行裁剪，得到深度人脸裁剪区域，裁剪的目的是对图像的大小进行调整，以满足后面神经网络的尺寸要求，然后将深度人脸裁剪区域的深度数据转换为点云数据，得到转换后的深度人脸裁剪区域，接着进行归一化处理，归一化的目的是将图像像素值归一化为[-1,1]之间，便于网络收敛。

具体地，本发明实施例中在利用样本对多尺度特征提取网络进行训练时，可将深度人脸区域中的点云进行随机视角变换，本发明实施例中主要对点云随机进行yaw角和pitch角方向旋转，之后对该点云(x,y,z)按照如下公式进行归一化：

其中，(x_max,y_max,z_max)和(x_min,y_min,z_min)分别表示点云中所有点在X、Y、Z三个坐标轴上的最大值和最小值。

在上述实施例的基础上，优选地，所述彩色多尺度特征提取网络由第一神经网络、若干第一特征映射模块和第一输出模块组成，其中，所述彩色多尺度特征提取网络以所述第一神经网络为基本结构，每一第一特征映射模块穿插在所述第一神经网络的不同位置，每一第一特征映射模块的卷积核大小不同，以提取出所述彩色图像不同尺度的彩色特征，所述第一输出模块将不同尺度的彩色特征和所述第一神经网络的输出特征进行拼接，输出所述彩色多尺度特征。

具体地，本发明实施例中彩色多尺度特征提取网络是由第一神经网络、若干个第一特征映射模块和第一输出模块组成，彩色多尺度特征提取网络以第一神经网络为基础结构，也就是彩色多尺度特征提取网络的基础结构与第一神经网络的基础结构相同。本发明实施例中，在该网络的不同位置引入第一特征映射模块，第一特征映射模块用来提取彩色人脸区域的彩色特征，根据第一特征映射模块所在第一神经网络中的位置不同，其卷积核的大小也不相同。

具体地，第一特征映射模块在第一神经网络中的位置根据实际情况确定，例如第一神经网络可以分为前端、中端和后端，每端后面都可以接入一个第一特征映射模块；若将第一神经网络分为卷积层和池化层，则可以在卷积层之后连接一个第一特征映射模块，在池化层之后连接一个第一特征映射模块。

本发明实施例中以第一神经网络为Densenet-169(密集卷积网络-169)网络为例进行说明，也可以根据实际需要选择其它神经网络，本发明实施例依次在Densenet-169网络的第一个denseblock(密集块)、第二个denseblock、第三个denseblock后添加一个第一特征映射模块，并通过两个卷积层和一个全局最大池化层将该层的特征图映射为M维的彩色特征。

第一输出模块将不同尺度的彩色特征和第一神经网络的输出特征进行拼接，得到N维彩色多尺度特征。

通过以上操作可以融合网络不同尺度、不同层次的语义信息，增强特征表达，从而提高了多尺度特征提取网络的鲁棒性和识别精度。

在上述实施例的基础上，优选地，所述彩色多尺度特征提取网络中随着网络深度的增大，每一第一特征映射模块的卷积核大小逐渐减小。

具体地，由于第一特征映射模块的卷积核的大小和第一特征映射模块所在彩色多尺度特征提取网络中的位置有关，随着彩色多尺度特征提取网络中网络位置的加深，其语义信息会越来越丰富，因此，第一特征映射模块的卷积核会越来越小，因此，本发明实施例中随着网络层次由浅到深，第一特征映射模块的卷积核依次为7x7、5x5、3x3。

第一特征映射模块从特征图空间维度进行特征学习，第二个卷积层为1x1卷积层特征的通道维度进行特征压缩，之后经过全局最大池化，形成固定的M维彩色特征。

在上述实施例的基础上，优选地，所述深度多尺度特征提取网络由第二神经网络、若干第二特征映射模块和第二输出模块组成，其中，所述深度多尺度特征提取网络以所述第二神经网络为基本结构，每一第二特征映射模块穿插在所述第二神经网络的不同位置，每一第二特征映射模块的卷积核大小不同，以提取出所述深度图像不同尺度的深度特征，所述第二输出模块将不同尺度的深度特征和所述第二神经网络的输出特征进行拼接，输出所述深度多尺度特征。

具体地，深度多尺度特征提取网络与彩色多尺度特征提取网络的结构类似，属于多尺度特征提取网络的两条并行分支，并且深度多次度特征提取网络和彩色多尺度特征提取网络的网络参数是独立的，并不共享，深度多尺度特征提取网络主要用来对深度人脸区域进行特征提取。

具体地，本发明实施例中深度多尺度特征提取网络是由第二神经网络、若干个第二特征映射模块和第二输出模块组成，深度多尺度特征提取网络以第二神经网络为基础结构。本发明实施例中，在该网络的不同位置引入第二特征映射模块，第二特征映射模块用来提取深度人脸区域的深度特征，根据第二特征映射模块所在第二神经网络中的位置不同，其卷积核的大小也不相同。

具体地，第二特征映射模块在第二神经网络中的位置根据实际情况确定，例如第二神经网络可以分为前端、中端和后端，每端后面都可以接入一个第二特征映射模块；若将第二神经网络分为卷积层和池化层，则可以在卷积层之后连接一个第二特征映射模块，在池化层之后连接一个第二特征映射模块。

本发明实施例中以第二神经网络为Densenet-169网络为例进行说明，也可以根据实际需要选择其它神经网络，本发明实施例依次在Densenet-169网络的第一个denseblock、第二个denseblock、第三个denseblock后添加一个第二特征映射模块，并通过两个卷积层和一个全局最大池化层将该层的特征图映射为M维的深度特征。

第二输出模块将不同尺度的深度特征和第一神经网络的输出特征进行拼接，得到N维深度多尺度特征。

在上述实施例的基础上，优选地，所述深度多尺度特征提取网络中随着网络深度的增大，每一第二特征映射模块的卷积核大小逐渐减小。

具体地，由于第二特征映射模块的卷积核的大小和第二特征映射模块所在深度多尺度特征提取网络中的位置有关，随着深度多尺度特征提取网络中网络位置的加深，其语义信息会越来越丰富，因此，第二特征映射模块的卷积核会越来越小，因此，本发明实施例中随着网络层次由浅到深，第二特征映射模块的卷积核依次为7x7、5x5、3x3。

第二特征映射模块从特征图空间维度进行特征学习，第二个卷积层为1x1卷积层特征的通道维度进行特征压缩，之后经过全局最大池化，形成固定的M维深度特征。

在上述实施例的基础上，优选地，所述多尺度特征提取网络的损失函数计算公式如下：

L_total＝L_rgb+L_depth+L_common+λL_ortho，

y_i∈{1,.....,C}，

由上述多尺度特征提取网络，两个分支网络分别提取到彩色多尺度特征N_R和深度多尺度特征N_D，之后分别将两网络分支的N维特征经过全连接层、softmax层得到softmax损失L_rgb和L_depth。

具体地，给定训练样本集

及其对应的样本标签

其中，y_i∈{1,.....,C}，N为训练集的大小，C为样本类别数。

通过上述两个分支的损失，可以先让多尺度特征提取网络学习到各自模态特有的特征。

为了进一步使各自分支学习到的特征没有冗余性和重叠性，引入正交损失L_ortho，其表达式如下：

为了使多尺度特征提取网络学习到各模态互补的特征，得到融合后的特征表达，将N_R和N_D通过参数P进行加权拼接后接入全连接层，得到最后的512维人脸特征，参数P可由网络动态学习得到，且参数P的取值范围在[0,1]之间，同样的此处512维特征也需接入全连接层、softmax层计算softmax分类损失L_common，L_common的softmax损失计算公式如下：

其中，f_i表示第i个样本的人脸特征值，W和b分别表示全连接层的权重和偏置，T为转置符号。

到此整个多尺度特征提取网络的损失如下：

L_total＝L_rgb+L_depth+L_common+λL_ortho，

其中，λ为超参数，具体的本发明实施例在训练网络时，使用的参数细节如下：batchsize为64，基础学习率为0.01，权值衰减为0.0005，λ取值范围为[0.001,0.0001],训练采用随机梯度下降的优化算法进行反向更新参数。

在测试阶段，只需取最终的512维特征作为人脸特征，进行距离计算得到人脸识别结果。

本发明实施例通过动态融合单模态的特征，引入正交损失和多分类器约束，使得最终得到的融合特征更加紧凑且具有高度区分性。

综上，本发明实施例首次提出了一种基于深度相机的人脸识别方法，具体技术关键点如下：

1、本发明首先设计了一个多尺度特征提取网络，通过在网络不同层次使用不同的卷积核将不同语义信息进行映射融合，使得网络学习到的特征表达更加丰富。

2、本发明针对RGBD人脸识别，对于深度模态数据，将单通道的深度数据转为三通道的点云数据，并进行随机视角变换，使Depth分支输入数据更加丰富，表达的几何信息也更加明确。

3、本发明将不同模态(彩色数据和深度数据)提取的特征进行动态融合，通过引入多个分类器进行约束，使得网络学习到的融合特征具有更高的分辨力。

本发明公开了一种基于深度相机的人脸识别方法，首先将常用的深度数据使用点云进行表示，对点云进行随机视角变换进行数据增强，使得输入数据更加丰富；构建了多尺度特征提取网络，使得网络提取的特征表达更加鲁棒；通过动态融合单模态的特征，引入正交损失和多分类器约束，使得最终得到的融合特征更加紧凑且具有高度区分性，并最终使得在RGBD场景下的识别准确率大幅提升。

本发明一优选实施例提供一种基于深度相机的人脸识别方法，该方法具体步骤如下：

首先利用深度相机采集目标对象的彩色图像和深度图像，然后对彩色图像和深度图像进行一系列预处理操作，彩色图像的预处理操作包括：

对彩色图像进行人脸检测，获取彩色图像中的人脸关键点，此处的人脸关键点是指人脸的五官部位，然后根据彩色图像中的人脸关键点和预设彩色模板关键点，获取彩色变换矩阵，并将彩色图像和彩色变换矩阵相乘，获取对齐后的彩色图像；对对齐后的彩色图像进行裁剪，获取彩色人脸裁剪区域；并对彩色人脸裁剪区域进行归一化，获取归一化后的彩色人脸裁剪区域；将归一化后的彩色人脸裁剪区域作为所述彩色人脸区域。

深度图像的预处理操作包括：利用彩色图像和深度图像的映射关系，获取深度图像中的人脸关键点；根据深度图像中的人脸关键点和预设深度模板关键点，获取深度变换矩阵，将深度图像和深度变换矩阵相乘，获取对齐后的深度图像；对对齐后的深度图像进行裁剪，获取深度人脸裁剪区域；将深度人脸裁剪区域的深度数据转换为点云数据，获取转换后的深度人脸裁剪区域；并对转换后的深度人脸裁剪区域进行归一化，获取归一化后的深度人脸裁剪区域；将归一化后的深度人脸裁剪区域作为深度人脸区域。

再利用多尺度特征提取网络进行图像识别之前，还需要对多尺度特征提取网络进行训练，在训练的时候，对深度图像样本数据进行随机视角变换，本发明实施例中主要对点云随机进行yaw角和pitch角方向旋转，然后对深度图像进行归一化，利用归一化后的深度图像和彩色图像对多尺度特征提取网络进行训练，得到训练后的多尺度特征提取网络。

将得到的彩色人脸区域和深度人脸区域输入到训练后的多尺度特征提取网络中，即可对目标对象进行识别。

具体地，本发明实施例中多尺度特征提取网络是由两个并行分支网络组成，分别为彩色多尺度特征提取网络和深度多尺度特征提取网络，彩色多尺度特征提取网络主要是用于提取彩色人脸区域不同尺度的彩色特征向量，并融合后得到彩色多尺度特征，深度多尺度特征提取网络主要用于提取深度人脸区域不同尺度的深度特征向量，融合后得到深度多尺度特征，多尺度特征提取网络基于融合后得到的彩色多尺度特征和深度多尺度特征，进行人脸识别，得到最终的人脸识别结果。

具体地，彩色多尺度特征提取网络由Densenet-169网络、多个第一特征映射模块和第一输出模块组成，第一特征映射模块穿插在Densenet-169网络的不同层次，具体在Densenet-169第一个denseblock、第二个denseblock、第三个denseblock后面，并且，随着网络层次的加深，特征映射模块中的卷积核逐渐变小，第一个denseblock后面的特征映射模块的卷积核为7x7，第二个denseblock后面的特征映射模块的卷积核为5x5，第三个denseblock后面的特征映射模块的卷积核为3x3，由于每个特征映射模块的卷积核大小不同，因此才可以提取出不同尺度的彩色特征，因此，将不同尺度的彩色特征和第一神经网络的输出特征进行拼接，得到了彩色多尺度特征。

深度多尺度特征提取网络与彩色多尺度特征提取网络类似，具体不再赘述。

另外，进行训练时，该多尺度特征提取网络的损失函数由彩色图像识别损失、深度图像识别损失、正交损失和分类损失四部分组成，通过彩色图像识别损失和深度图像识别损失，可以先让对尺度特征提取网络学习到各自模态特有的特征；为了进一步使各自分支学习到的特征没有冗余性和重叠性，引入正交损失。

因此，通过构建以上的损失函数，使得多尺度特征提取网络能够更好的对目标对象进行识别。

图2为本发明实施例提供的一种基于深度相机的人脸识别系统的结构示意图，如图2所示，该系统包括：采集模块201、彩色多尺度特征提取模块202、深度多尺度特征提取模块203和识别模块204，其中：

采集模块201用于获取目标对象的彩色人脸区域和深度人脸区域；

彩色多尺度特征提取模块202用于将所述彩色人脸区域输入至多尺度特征提取网络中的彩色多尺度特征提取网络，获取并融合所述彩色人脸区域不同尺度的彩色特征向量，得到彩色多尺度特征；

深度多尺度特征提取模块203用于将所述深度人脸区域输入至所述多尺度特征提取网络中的深度多尺度特征提取网络，获取并融合所述深度人脸区域不同尺度的深度特征向量，得到深度多尺度特征；

人脸识别模块204用于将所述彩色多尺度特征和所述深度多尺度特征输入至所述多尺度特征提取网络中的识别单元，获取人脸识别结果。

本实施例为与上述方法对应的系统实施例，详情请参考上述方法实施例，本系统实施例在此不再赘述。

图3为本发明实施例提供的一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(CommunicationsInterface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行一种基于深度相机的人脸识别方法，该方法包括：

获取目标对象的彩色人脸区域和深度人脸区域；

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的一种基于深度相机的人脸识别方法，该方法包括：

获取目标对象的彩色人脸区域和深度人脸区域；

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的一种基于深度相机的人脸识别方法，该方法包括：

获取目标对象的彩色人脸区域和深度人脸区域；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度相机的人脸识别方法，其特征在于，包括：

获取目标对象的彩色人脸区域和深度人脸区域；

2.根据权利要求1所述的基于深度相机的人脸识别方法，其特征在于，所述彩色人脸区域通过如下步骤获取：

获取所述目标对象的彩色图像；

对对齐后的彩色图像进行裁剪，获取彩色人脸裁剪区域；

将归一化后的彩色人脸裁剪区域作为所述彩色人脸区域。

3.根据权利要求2所述的基于深度相机的人脸识别方法，其特征在于，所述深度人脸区域通过如下步骤获取：

获取所述目标对象的深度图像；

对对齐后的深度图像进行裁剪，获取深度人脸裁剪区域；

将归一化后的深度人脸裁剪区域作为所述深度人脸区域。

4.根据权利要求1所述的基于深度相机的人脸识别方法，其特征在于，所述彩色多尺度特征提取网络由第一神经网络、若干第一特征映射模块和第一输出模块组成，其中，所述彩色多尺度特征提取网络以所述第一神经网络为基本结构，每一第一特征映射模块穿插在所述第一神经网络的不同位置，每一第一特征映射模块的卷积核大小不同，以提取出所述彩色图像不同尺度的彩色特征，所述第一输出模块将不同尺度的彩色特征和所述第一神经网络的输出特征进行拼接，输出所述彩色多尺度特征。

5.根据权利要求1所述的基于深度相机的人脸识别方法，其特征在于，所述深度多尺度特征提取网络由第二神经网络、若干第二特征映射模块和第二输出模块组成，其中，所述深度多尺度特征提取网络以所述第二神经网络为基本结构，每一第二特征映射模块穿插在所述第二神经网络的不同位置，每一第二特征映射模块的卷积核大小不同，以提取出所述深度图像不同尺度的深度特征，所述第二输出模块将不同尺度的深度特征和所述第二神经网络的输出特征进行拼接，输出所述深度多尺度特征。

6.根据权利要求4所述的基于深度相机的人脸识别方法，其特征在于，所述彩色多尺度特征提取网络中随着网络深度的增大，每一第一特征映射模块的卷积核大小逐渐减小。

7.根据权利要求1所述的基于深度相机的人脸识别方法，其特征在于，所述多尺度特征提取网络的损失函数计算公式如下：

L_total＝L_rgb+L_depth+L_common+λL_ortho，

y_i∈{1,.....,C}，

8.一种基于深度相机的人脸识别系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度相机的人脸识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度相机的人脸识别方法的步骤。