CN111626241B

CN111626241B - 一种人脸检测方法及装置

Info

Publication number: CN111626241B
Application number: CN202010477847.4A
Authority: CN
Inventors: 侯丽丽; 李骊; 董晶; 王亮; 金博
Original assignee: Add Subtract Information Technology Shenzhen Co ltd; Beijing HJIMI Technology Co Ltd
Current assignee: Add Subtract Information Technology Shenzhen Co ltd; Beijing HJIMI Technology Co Ltd
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-06-23
Anticipated expiration: 2040-05-29
Also published as: CN111626241A

Abstract

本发明公开了一种人脸检测方法及装置，可以获得2D图像，获得与2D图像配准的深度图像，在已获得的2D图像中确定人脸所在的第一图像区域，根据2D图像、深度图像和第一图像区域，确定第一图像区域对应的点云数据，将第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中，根据3D实例分割模型的输出结果确定第一图像区域是否包含人脸，如果是，则将第一图像区域对应的点云数据输入至已训练好的3D框回归模型，获得3D框回归模型输出的对3D人脸进行标识的3D框。本发明可以在避免点云数据损失的同时，有效减小点云数据的数据量，减小处理点云数据时的运算量，并可以使得运算过程简单化，减少运算量。

Description

一种人脸检测方法及装置

技术领域

本发明涉及图像检测领域，尤其涉及一种人脸检测方法及装置。

背景技术

随着图像检测技术的发展，人脸检测技术不断提高。

当前，人脸检测技术可以包括2D人脸检测技术和3D人脸检测技术。

其中，3D人脸检测技术具有更高的人脸识别准确率和活体检测准确率，但是3D人脸检测技术的检测过程复杂；而2D人脸检测技术的检测过程虽更为简单快捷，但是其人脸识别准确率和活体检测准确率较低。

发明内容

鉴于上述问题，本发明提供一种克服上述问题或者至少部分地解决上述问题的人脸检测方法及装置，技术方案如下：

一种人脸检测方法，所述方法包括：

获得2D图像，获得与所述2D图像配准的深度图像；

在已获得的所述2D图像中确定人脸所在的第一图像区域；

根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据；

将所述第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中；

根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，如果是，则将所述第一图像区域对应的点云数据输入至已训练好的3D框回归模型，获得所述3D框回归模型输出的对所述3D人脸进行标识的3D框。

可选的，所述在已获得的所述2D图像中确定人脸所在的第一图像区域，包括：

将已获得的所述2D图像输入至已训练好的2D人脸检测模型中，获得由所述2D人脸检测模型输出的用于标识人脸的2D框；

将所述2D框内的图像区域确定为人脸所在的第一图像区域。

可选的，所述根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据，包括：

在所述深度图像中确定所述第一图像区域对应的第二图像区域；

对所述第一图像区域和所述第二图像区域进行坐标系转换，获得所述第一图像区域对应的点云数据。

可选的，所述根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，包括：

获得所述3D实例分割模型输出的所述第一图像区域中每个个体归属于人脸类别的概率；

当所述第一图像区域中存在归属于人脸类别的概率大于预设阈值的个体时，确定所述第一图像区域包含人脸；

当所述第一图像区域中每个个体归属于人脸类别的概率均不大于预设阈值时，确定所述第一图像区域未包含人脸。

可选的，所述3D实例分割模型为PointNet模型。

可选的，所述3D框回归模型为PointNet++模型。

一种人脸检测装置，所述装置包括：第一获得单元、第一确定单元、第二确定单元、第一输入单元、第三确定单元和第二获得单元，其中：

所述第一获得单元，用于获得2D图像，获得与所述2D图像配准的深度图像；

所述第一确定单元，用于在已获得的所述2D图像中确定人脸所在的第一图像区域；

所述第二确定单元，用于根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据；

所述第一输入单元，用于将所述第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中；

所述第三确定单元，用于根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，如果是，则触发所述第二获得单元；

所述第二获得单元，用于将所述第一图像区域对应的点云数据输入至已训练好的3D框回归模型，获得所述3D框回归模型输出的对所述3D人脸进行标识的3D框。

可选的，所述第一确定单元具体包括：第三获得单元和第四确定单元，其中：

所述第三获得单元，用于将已获得的所述2D图像输入至已训练好的2D人脸检测模型中，获得由所述2D人脸检测模型输出的用于标识人脸的2D框；

所述第四确定单元，用于将所述2D框内的图像区域确定为人脸所在的第一图像区域。

可选的，所述第二确定单元具体包括：第五确定单元和第四获得单元，其中：

所述第五确定单元，用于在所述深度图像中确定所述第一图像区域对应的第二图像区域；

所述第四获得单元，用于对所述第一图像区域和所述第二图像区域进行坐标系转换，获得所述第一图像区域对应的点云数据。

可选的，所述第三确定单元具体包括：第五获得单元、第六确定单元和第七确定单元，其中：

所述第五获得单元，用于获得所述3D实例分割模型输出的所述第一图像区域中每个个体归属于人脸类别的概率；

所述第六确定单元，用于当所述第一图像区域中存在归属于人脸类别的概率大于预设阈值的个体时，确定所述第一图像区域包含人脸；

所述第七确定单元，用于当所述第一图像区域中每个个体归属于人脸类别的概率均不大于预设阈值时，确定所述第一图像区域未包含人脸。

可选的，所述3D实例分割模型为PointNet模型。

可选的，所述3D框回归模型为PointNet++模型。

本发明提出的人脸检测方法及装置，可以获得2D图像，获得与所述2D图像配准的深度图像，在已获得的所述2D图像中确定人脸所在的第一图像区域，根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据，将所述第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中，根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，如果是，则将所述第一图像区域对应的点云数据输入至已训练好的3D框回归模型，获得所述3D框回归模型输出的对所述3D人脸进行标识的3D框。

本发明可以在进行人脸检测的过程中，先行使用2D人脸检测的方式在2D图像中确定人脸所在的第一图像区域，之后再在深度图像中确定与第一图像区域相应的深度信息，将第一图像区域和相应的深度信息转换为点云数据，而无需将整张2D图像和深度图像全部转换为点云数据，可以有效减小点云数据的数据量，减小处理点云数据时的运算量；本发明可以将点云数据直接输入3D实例分割模型和3D框回归模型来进行3D人脸检测，而无需执行将点云数据转换为体素网格，再对体素网格进行3D人脸检测的过程，可以使得运算过程简单化，减少运算量；本发明也无需执行将点云数据投影到某些特定视角图(如鸟瞰图和俯视图)，再对投影后的数据进行3D人脸检测的过程，可以避免点云数据在投影过程中的数据损失，提高人脸检测的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种人脸检测方法的流程图；

图2示出了本发明实施例提供的另一种人脸检测方法的流程图；

图3示出了本发明实施例提供的一种人脸检测装置的结构示意图；

图4示出了本发明实施例提供的另一种人脸检测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本实施例提出了一种人脸检测方法，该方法可以包括以下步骤：

S10、获得2D图像，获得与所述2D图像配准的深度图像；

其中，2D图像即为二维图像。

具体的，2D图像可以包含人脸，也可以不包含人脸。

具体的，2D图像可以是红绿蓝(RGB，Red-Green-Blue)图像，也可以是灰度图，本发明对于2D图像的具体类型不做限定。

可以理解的是，本发明对于2D图像的具体格式同样不做限定，比如，2D图像的格式可以是联合图像专家小组(JPEG，Joint Photographic Expert s Group)格式，也可以是位图(BMP，Bitmap)格式。

具体的，本发明可以通过2D摄像头对场景(如包含人脸的场景)进行拍摄来获得2D图像，如RGB摄像头。

其中，深度图像为包含深度信息的图像。

其中，深度图像可以包含人脸，也可以不包含人脸。

具体的，本发明可以使用基于3D结构光、双目立体视觉或飞行时间(TOF，Time offlight)等成像原理的深度摄像头，对场景(如包含人脸的场景)进行拍摄以获得深度图像。

其中，本实施例中的3D可以是三维。

其中，深度图像中的各个像素点均可以表征被拍摄场景中的某一点与深度摄像头的距离。比如，本发明可以通过像素点的不同灰度值来体现被拍摄场景中的某一点与深度摄像头的距离。

需要说明的是，本实施例中的2D图像和深度图像可以是同一场景的图像，且本实施例中深度图像可以是与2D图像完成配准后的深度图像。

具体的，本发明可以使用包含有2D摄像头和深度摄像头(比如RGB摄像头和3D结构光摄像头)的相机对场景进行拍摄，获得同一场景的2D图像和深度图像。之后，本发明可以对获得的2D图像和深度图像进行配准，以获得完成配准后的深度图像。

还需要说明的是，配准后的深度图像与2D图像中的像素点可以一一对应。

具体的，对于2D图像中已知坐标的像素点，本发明均可以在配准后的深度图像中确定出相应坐标的像素点。

进一步，对于2D图像中已知坐标范围的图像区域，本发明均可以在配准后的深度图像中确定出相应坐标范围的图像区域。

可以理解的是，对于2D图像中已知坐标范围的人脸所覆盖的图像区域，本发明可以在配准后的深度图像中确定出相应坐标范围的该人脸所覆盖的图像区域。

S20、在已获得的所述2D图像中确定人脸所在的第一图像区域；

其中，2D图像可以包含一张人脸。

其中，第一图像区域可以是2D图像中的、包含一张人脸的图像区域。

可以理解的是，第一图像区域可以是2D图像中的全部图像区域，也可以是包含人脸的2D图像中的部分图像区域。

具体的，本发明可以在包含2D图像中的人脸的前提下，使得第一图像区域的面积尽量小，以减少第一图像区域的数据量，进而使得本发明后续步骤对第一图像区域进行处理时，可以减少相关运算量。

具体的，第一图像区域可以正好是人脸在2D图像中所覆盖的图像区域。此时，本发明后续步骤在对第一图像区域进行处理时，可以进一步减少相关运算量。

需要说明的是，第一图像区域还可以包含2D图像中非人脸类别的个体，比如猫脸、花朵。

具体的，本发明可以通过确定第一图像区域在相关坐标系(如2D图像的图像坐标系、像素坐标系)中的坐标范围，来确定第一图像区域。

还需要说明的是，如果本发明步骤S20未能在2D图像中确定人脸所在的第一图像区域，则可以确定2D图像未包含人脸，本发明可以结束对当前2D图像和深度图像的人脸检测，而无需再执行后续的相关步骤，以减少对运算资源的消耗。

可选的，在本实施例提出的其它人脸检测方法中，步骤S20可以具体包括步骤S21和S22，如图2所示。

S21、将已获得的所述2D图像输入至已训练好的2D人脸检测模型中，获得由所述2D人脸检测模型输出的用于标识人脸的2D框；

具体的，本发明可以使用基于Faster R-CNN、MTCNN、Faceness-Net等检测算法或神经网络的2D人脸检测模型，来对2D图像中的人脸进行检测及标识。

其中，2D人脸检测模型的输入可以是2D图像，2D人脸检测模型的输出可以是用于标识人脸的2D框。

其中，2D框可以包含人脸在2D图像中覆盖的图像区域。可以理解的是，2D框内的图像区域可以正好是人脸在2D图像中覆盖的图像区域。

需要说明的是，本发明对于2D框的具体形状不做限定(如矩形、圆形)，本发明对于2D框的具体尺寸、框边的颜色同样不做限定。

具体的，本发明可以在使用2D人脸检测模型对2D图像进行人脸检测之前，对2D人脸检测模型进行训练。

具体的，本发明在对2D人脸检测模型进行训练时，可以先行采集多张包含人脸的2D图像(正样本)、多张未包含人脸的2D图像(负样本)作为训练样本集。本发明可以在正样本的每张2D图像中，标注出用于标识人脸的2D框。

具体的，本发明可以使用上述训练数据集对2D人脸检测模型进行训练，使得2D人脸检测模型可以检测出2D图像的人脸，以及使用2D框对检测出的人脸进行标识。

还需要说明的是，本发明对于2D人脸检测模型的训练过程所采用的具体方式不做限定。

具体的，本发明可以通过确定2D框在相关坐标系(如2D图像的图像坐标系、像素坐标系)中的坐标范围来确定2D框。

S22、将所述2D框内的图像区域确定为人脸所在的第一图像区域。

具体的，本发明可以将2D框的坐标范围确定为第一图像区域的范围，进而确定第一图像区域。

还需要说明的是，本发明使用2D人脸检测模型对2D图像进行人脸检测时，可以较快的检测出人脸所在的图像区域，且其运算过程较为简单。

S30、根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据；

其中，点云数据可以由多个点构成，这些点均可以包含世界坐标系下的三维坐标和相关信息(如RGB值)。

需要说明的是，点云数据可以聚集为相应场景的三维模型。比如，人脸对应的点云数据可以聚集为人脸的三维模型。

可选的，步骤S30可以具体包括：

具体的，本发明可以根据第一图像的坐标范围，在深度图像中确定相应坐标范围的图像区域，即第二图像区域。

具体的，本发明可以基于现有技术中2D图像的像素坐标系、2D图像的图像坐标系、相机坐标系和世界坐标系间的坐标系转换原理，将第一图像区域和第二图像区域的图像转换为相应的点云数据。

具体的，基于上述坐标系转换原理，当世界坐标系的原点和坐标轴与相机坐标系重合时，本发明可以使用公式：

来将2D图像的坐标信息和配准后的深度图转换为相应的点云数据。

其中：x_ω、y_ω和z_ω为点云数据中的点在世界坐标系下的三维坐标，z_c为相机坐标的z轴值(即深度图像所包含的深度信息)，u为2D图像的像素坐标系下像素的行数值，v为2D图像的像素坐标系下像素的列数值，u₀为2D图像的图像坐标系(以物理尺寸为单位，如毫米)的原点在2D图像的像素坐标系下像素的行数值，v₀为2D图像的图像坐标系的原点在2D图像的像素坐标系下像素的列数值，dx为2D图像的像素点在2D图像的图像坐标系的x轴中的物理尺寸，dy为2D图像的像素在2D图像的图像坐标系的y轴中的物理尺寸，f_x为相机坐标系中x轴的焦距，f_y为相机坐标系中y轴的焦距。

其中，对于第一图像区域中坐标为(u，v)的像素点，本发明均可以在第二图像区域中确定相应坐标的像素点，之后可以将该相应坐标的像素点所包含的深度信息确定为上述坐标(u，v)对应的深度信息z_c。

需要说明的是，当2D图像为RGB图像时，经坐标系转换获得的点云数据中的点，还可以包含相应的RGB值。比如，对于点云数据中三维坐标为(x_ω，y_ω，z_ω)的点，该点可以包含2D图像中相应坐标(u，v)的像素点所包含的RGB值。

S40、将所述第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中；

可选的，3D实例分割模型可以为PointNet模型。当然，3D实例分割模型也可以为PointNet++模型。

需要说明的是，本发明在将第一图像区域对应的点云数据输入至3D实例分割模型后，可以根据3D实例分割模型的输出结果来确定该点云数据对应的场景中是否包含人脸。

其中，3D实例分割模型的输出可以为输入的点云数据所对应的场景中每个个体归属于人脸的概率。

具体的，如果第一图像区域可以正好是人脸在2D图像中所覆盖的图像区域，则本发明可以根据3D实例分割模型的输出结果来确定第一图像区域对应的点云数据是否为人脸对应的点云数据。

具体的，本发明在应用3D实例分割模型前，可以先行对3D实例分割模型进行训练。

具体的，本发明在对3D实例分割模型进行训练时，可以先行采集多份包含人脸的场景所对应的点云数据(正样本)、多份未包含人脸的场景所对应的点云数据(负样本)作为训练数据集。本发明可以在正样本中将人脸对应的点云数据标注为人脸。

具体的，本发明可以使用点云数据的训练数据集对3D实例分割模型进行训练，使得3D实例分割模型可以确定输入的点云数据对应的场景中是否包含人脸。

需要说明的是，本发明可以使用损失函数对3D实例分割模型进行训练时。其中，该损失函数可以是公式：

其中，L为损失函数的值，N为训练数据集中样本的总个数，λ₀为系数，W为权重加权和，L_i为：

，其中：fy_i为网络的输出，

为归一化后的概率值，L_i为损失函数的值。

需要说明的是，本发明可以使用训练好的3D实例分割模型对点云数据直接进行人脸检测，确定点云数据对应的场景中是否包含人脸，而无需执行将点云数据转换为体素网格，再对体素网格进行人脸检测的过程，可以使得运算过程简单化，减少运算量；本发明也无需执行将点云数据投影到某些特定视角图(如鸟瞰图和俯视图)，再对投影后的数据进行人脸检测的过程，可以避免点云数据在投影过程中的数据损失，提高人脸检测的准确率。

S50、根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，如果是，则执行步骤S60；

具体的，步骤S50可以具体包括：

其中，预设阈值的具体数值可以由技术人员根据实际需求进行制定，本发明对此不做限定。

需要说明的是，本发明可以将归属于人脸类别的概率大于预设阈值的个体即确定为人脸。

可以理解的是，如果确定所述第一图像区域未包含人脸，则本发明可以结束对当前的2D图像和深度图像的人脸检测，而无需再执行后续步骤，以有效减少对运算资源的消耗。

S60、将所述第一图像区域对应的点云数据输入至已训练好的3D框回归模型，获得所述3D框回归模型输出的对所述3D人脸进行标识的3D框。

可选的，3D框回归模型可以为PointNet++模型。当然，3D框回归模型也可以为PointNet模型。

其中，3D框可以包含人脸所对应的点云数据的三维模型。

需要说明的是，本发明对于3D框的具体形状不做限定，比如，3D框可以是长方体，也可以是圆柱体。当然，本发明对于3D框的具体尺寸、框边的颜色同样不做限定。

具体的，本发明在应用3D框回归模型前，可以先行对3D框回归模型进行训练。

具体的，本发明在对3D框回归模型进行训练时，可以先行采集多份包含人脸的场景所对应的点云数据(正样本)、多份未包含人脸的场景所对应的点云数据(负样本)作为训练数据集。本发明可以使用3D框对正样本中的人脸对应的点云数据进行标识。

具体的，本发明可以使用点云数据的训练数据集对3D框回归模型进行训练，使得3D框回归模型可以使用3D框对输入的点云数据中人脸所对应的点云数据进行标识。

需要说明的是，本发明可以使用损失函数对3D框回归模型进行训练，当损失函数值未满足期望值时，可以对3D框回归模型中的参数进行调整。其中，该损失函数可以是公式：

L＝L_seg+λ₁(L_reg+L_h-cls+L_h-reg+L_s-cls+L_s-reg+γL_corner)

其中，L_seg为图像分割的损失，λ₁为系数，L_reg为3D框估计的中心回归损失，L_h-cls为朝向的类别损失，L_h-reg为朝向的回归损失，L_s-cls为3D框的类别损失，L_s-reg为3D框尺寸的回归损失，γ为系数，L_corner为3D框的角损失。

其中，L_corner可以为：

，其中，δ_ij为系数值，P^ij _k为anchor边界框第k个角三维矢量，索引i为8种大小anchor边界框中边界框的序号，j为12种航向角边界框中航向角边界框的序号，P_k ^*为真实3D边界框的第k个角三维矢量，||P^ij _k-P_k ^*||为3Danchor边界框第k个角与真实3D边界框第k个角间的距离，P_k ^**为3D真实边界框翻转角度Π后第k个角三维矢量，||P^ij _k-P_k ^**||为3Danchor边界框第k个角与翻转后边界框第k个角间的距离。

具体的，当本实施例中的2D图像包含有多张人脸时，本发明可以在步骤S20中确定出包含一张人脸的多个第一图像区域，并可以在后续步骤S30、S40、S50、S60中，对确定的多个第一图像区域分别进行处理。

比如，当本发明在步骤S20中确定出包含第一人脸的第一图像区域、包含第二人脸的第一图像区域和包含第三人脸的第一图像区域，本发明可以在后续步骤S30、S40、S50、S60中，先行对包含第一人脸的第一图像区域进行处理，之后对包含第二人脸的第一图像区域进行处理，最后对包含第三人脸的第一图像区域进行处理。

需要说明的是，本发明在进行人脸检测的过程中，可以先行使用2D人脸检测的方式在2D图像中确定人脸所在的第一图像区域，之后再在深度图像中确定与第一图像区域相应的深度信息，将第一图像区域和相应的深度信息转换为点云数据，而无需将整张2D图像和深度图像全部转换为点云数据，有效减小了点云数据的数据量，减小处理点云数据时的运算量。

还需要说明的是，本发明可以将点云数据直接输入3D实例分割模型和3D框回归模型来进行3D人脸检测，而无需执行将点云数据转换为体素网格，再对体素网格进行3D人脸检测的过程，可以使得运算过程简单化，减少运算量；本发明也无需执行将点云数据投影到某些特定视角图(如鸟瞰图和俯视图)，再对投影后的数据进行3D人脸检测的过程，可以避免点云数据在投影过程中的数据损失，提高人脸检测的准确率。

本实施例提出的人脸检测方法，可以获得2D图像，获得与所述2D图像配准的深度图像，在已获得的所述2D图像中确定人脸所在的第一图像区域，根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据，将所述第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中，根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，如果是，则将所述第一图像区域对应的点云数据输入至已训练好的3D框回归模型，获得所述3D框回归模型输出的对所述3D人脸进行标识的3D框。该方法可以在避免点云数据损失的同时，有效减小点云数据的数据量，减小处理点云数据时的运算量，并使得运算过程简单化，减少运算量。

基于图1所示的步骤，本实施例提出一种人脸检测装置，如图3所示，该装置可以包括：第一获得单元100、第一确定单元200、第二确定单元300、第一输入单元400、第三确定单元500和第二获得单元600，其中：

所述第一获得单元100，用于获得2D图像，获得与所述2D图像配准的深度图像；

其中，2D图像可以包含一张人脸。

具体的，本发明可以在包含2D图像中的人脸的前提下，使得第一图像区域的面积尽量小，以减少第一图像区域的数据量，进而使得本发明后续对第一图像区域进行处理时，可以减少相关运算量。

具体的，第一图像区域可以正好是人脸在2D图像中所覆盖的图像区域。此时，本发明后续在对第一图像区域进行处理时，可以进一步减少相关运算量。

需要说明的是，第一图像区域还可以包含2D图像中非人脸类别的个体。

可选的，在本实施例提出的其它人脸检测装置中，如图4所示，所述第一确定单元200可以具体包括：第三获得单元210和第四确定单元220，其中：

所述第三获得单元210，用于将已获得的所述2D图像输入至已训练好的2D人脸检测模型中，获得由所述2D人脸检测模型输出的用于标识人脸的2D框；

具体的，本发明可以使用2D人脸检测模型对2D图像中的人脸进行检测及标识。

所述第四确定单元220，用于将所述2D框内的图像区域确定为人脸所在的第一图像区域。

所述第二确定单元300，用于根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据；

可选的，所述第二确定单元300可以具体包括：第五确定单元和第四获得单元，其中：

/>

所述第一输入单元400，用于将所述第一图像区域对应的点云数据输入至已训练好的3D实例分割模型中；

，其中：fy_i为网络的输出，

为归一化后的概率值，L_i为损失函数的值。

所述第三确定单元500，用于根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，如果是，则触发所述第二获得单元600；

可选的，所述第三确定单元500可以具体包括：第五获得单元、第六确定单元和第七确定单元，其中：

可以理解的是，如果确定所述第一图像区域未包含人脸，则本发明可以结束对当前的2D图像和深度图像的人脸检测，而无需再执行后续过程，以有效减少对运算资源的消耗。

其中，3D框可以包含人脸所对应的点云数据的三维模型。

L＝L_seg+λ₁(L_reg+L_h-cls+L_h-reg+L_s-cls+L_s-reg+γL_corner)

其中，L_corner可以为：

具体的，当本实施例中的2D图像包含有多张人脸时，本发明可以在第一确定单元200中确定出包含一张人脸的多个第一图像区域，并可以在第二确定单元300、第一输入单元400、第三确定单元500和第二获得单元600中，对确定的多个第一图像区域分别进行处理。

本实施例提出的人脸检测装置，可以在避免点云数据损失的同时，有效减小点云数据的数据量，减小处理点云数据时的运算量，并使得运算过程简单化，减少运算量。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种人脸检测方法，其特征在于，所述方法包括：

获得2D图像，获得与所述2D图像配准的深度图像；

在已获得的所述2D图像中确定人脸所在的第一图像区域；

2.根据权利要求1所述的方法，其特征在于，所述在已获得的所述2D图像中确定人脸所在的第一图像区域，包括：

将所述2D框内的图像区域确定为人脸所在的第一图像区域。

3.根据权利要求1所述的方法，其特征在于，所述根据所述2D图像、所述深度图像和所述第一图像区域，确定所述第一图像区域对应的点云数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述3D实例分割模型的输出结果确定所述第一图像区域是否包含人脸，包括：

5.根据权利要求1所述的方法，其特征在于，所述3D实例分割模型为PointNet模型。

6.根据权利要求1所述的方法，其特征在于，所述3D框回归模型为PointNet++模型。

7.一种人脸检测装置，其特征在于，所述装置包括：第一获得单元、第一确定单元、第二确定单元、第一输入单元、第三确定单元和第二获得单元，其中：

8.根据权利要求7所述的装置，其特征在于，所述第一确定单元具体包括：第三获得单元和第四确定单元，其中：

9.根据权利要求7所述的装置，其特征在于，所述第二确定单元具体包括：第五确定单元和第四获得单元，其中：

10.根据权利要求7所述的装置，其特征在于，所述第三确定单元具体包括：第五获得单元、第六确定单元和第七确定单元，其中：