CN113111804A

CN113111804A - 一种人脸检测的方法、装置、电子设备及存储介质

Info

Publication number: CN113111804A
Application number: CN202110422887.3A
Authority: CN
Inventors: 杨帆; 马英楠
Original assignee: Beijing Fangjianghu Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2021-07-13

Abstract

本申请公开了一种人脸检测的方法、装置、电子设备及存储介质，包括：通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型；在第一人脸检测模型的基础上，增加注意力机制分支任务；利用增加了注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型；将不包含注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型，并利用第三人脸检测模型对待检测人脸图像进行检测。应用本申请方案，利用少量样本的复杂场景人脸图像就可以训练出复杂场景下人脸检测模型，节省了人脸检测模型训练的人力和时间成本。

Description

一种人脸检测的方法、装置、电子设备及存储介质

技术领域

本申请涉及人脸识别技术领域，尤其涉及一种人脸检测的方法、一种人脸检测的装置，一种人脸检测的电子设备以及一种存储介质。

背景技术

人脸检测的目标是准确定位出图像中的人脸。人脸检测算法的发展有三个阶段：早期模板匹配方法、AdaBoost框架方法、深度学习方法。目前，深度学习方法已经成为人脸检测的主流方法，常见的有多任务卷积神经网络(MTCNN，Multi-task convolution neuralnetwork)、单阶段人脸检测(SSH，Single Stage Headless Face Detector)、金字塔盒(Pyramidbox)、视网膜面(RetinaFace)等。

在人脸检测场景非常复杂的情况下，比如对于存在人脸遮挡、头部姿势旋转严重、光线过曝、光线过暗等复杂场景，上述现有技术通常需要收集大量各种情况下的对应样本，才能训练出保证人脸检测准确率的模型。而大量的复杂场景人脸图像的收集和训练无疑将导致人力和时间成本的增加，不利于人脸检测的实现。

发明内容

针对上述现有技术，本发明实施例公开一种人脸检测的方法，可以克服针对复杂场景人脸图像的模型训练成本过大的缺陷，达到节省人脸检测模型训练的人力和时间成本的目的。

鉴于此，本申请实施例提出一种人脸检测的方法，该方法包括：

通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型；所述第一训练样本集表示常规人脸图像的样本集合；

在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务；利用增加了所述注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型；所述第二训练样本集表示复杂场景人脸图像的少样本集合；所述注意力机制分支任务表示计算与所述复杂场景人脸图像的相似性的任务；

将不包含所述注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型，并利用所述第三人脸检测模型对待检测人脸图像进行检测。

进一步地，

所述通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型的步骤包括：

将所述第一训练样本集中的常规人脸图像作为输入，通过特征图金字塔网络的计算获得第一多尺度特征向量；

将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸二分类任务分支的计算结果；

将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸框坐标任务分支的计算结果；

将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸关键点任务分支的计算结果；

根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果以及所述人脸关键点任务分支的计算结果进行神经网络反向传播，更新网络参数；

返回到所述将第一训练样本集中的常规人脸图像作为输入的步骤进行迭代，直到获得的第一人脸检测模型满足预设的模型条件。

进一步地，

所述利用增加了注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型的步骤包括：

将所述第二训练样本集中的复杂场景人脸图像分为支持样本和查询样本，所述支持样本表示训练标准图像，所述查询样本表示检验与所述训练标准图像相似性的图像；

分别将所述支持样本和所述查询样本作为输入，通过所述特征图金字塔网络的计算获得第二多尺度特征向量；

将所述第二多尺度特征向量作为输入，通过第二卷积神经网络再次进行特征提取，获得所述支持样本的特征向量和所述查询样本的特征向量；

计算所述支持样本的特征向量和所述查询样本的特征向量之间的相似性，得到所述注意力机制分支任务的计算结果；

根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果、所述人脸关键点任务分支的计算结果以及所述注意力机制分支任务的计算结果进行神经网络反向传播，更新所述网络参数；

返回到所述分别将支持样本和所述查询样本作为所述增加了注意力机制分支任务的第一卷积神经网络的输入的步骤，进行迭代，直到获得的第二人脸检测模型满足预设的模型条件。

进一步地，

所述计算支持样本的特征向量和所述查询样本的特征向量之间的相似性的步骤包括：

根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的整体特征相似性，所述整体特征相似性表示利用一个数值从整体上描述所述支持样本和所述查询样本的相似性；

根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的多尺度局部特征相似性，所述多尺度局部特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为不同尺度的局部特征向量，再针对各个相应的尺度的局部特征向量计算两者的相似性，并取计算出的相似性的平均值；

根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的局部两两对应特征相似性，所述局部两两对应特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为预设固定尺度的局部特征向量，针对所述支持样本中的每一个局部特征，与所述查询样本中所有局部特征分别计算相似性，并取计算出的所有相似性的平均值；

将所述整体特征相似性、多尺度局部特征相似性和局部两两对应特征相似性进行加权求和，作为所述支持样本的特征向量和所述查询样本的特征向量之间的相似性。

针对上述现有技术，本发明实施例公开一种人脸检测的装置，可以克服针对复杂场景人脸图像的模型训练成本过大的缺陷，达到节省人脸检测模型训练的人力和时间成本的目的。

具体的，本申请实施例公开的一种人脸检测的装置，包括：

第一训练模块，用于通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型；所述第一训练样本集表示常规人脸图像的样本集合；

第二训练模块，用于在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务；利用增加了所述注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型；所述第二训练样本集表示复杂场景人脸图像的少样本集合；所述注意力机制分支任务表示计算与所述复杂场景人脸图像的相似性的任务；

第三训练模块，将不包含所述注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型；

检测模块，利用所述第三人脸检测模型对待检测人脸图像进行检测。

进一步地，

所述第一训练模块包括：

第一特征提取子模块，用于将所述第一训练样本集中的常规人脸图像作为输入，通过特征图金字塔网络的计算获得第一多尺度特征向量；

人脸二分类任务子模块，用于将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸二分类任务分支的计算结果；

人脸框坐标任务子模块，用于通过全卷积网络的计算获得人脸框坐标任务分支的计算结果；

人脸关键点任务子模块，用于将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸关键点任务分支的计算结果；

第一反向传播子模块，用于根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果以及所述人脸关键点任务分支的计算结果进行神经网络反向传播，更新网络参数；返回到所述第一特征提取子模块进行迭代，直到获得的第一人脸检测模型满足预设的模型条件。

进一步地，

所述第二训练模块包括：

任务设置子模块，用于在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务；

样本划分子模块，用于将所述第二训练样本集中的复杂场景人脸图像分为支持样本和查询样本，所述支持样本表示训练标准图像，所述查询样本表示检验与所述训练标准图像相似性的图像；

第二特征提取子模块，分别将所述支持样本和所述查询样本作为输入，通过所述特征图金字塔网络的计算获得第二多尺度特征向量；

注意力机制任务子模块，用于将所述第二多尺度特征向量作为输入，通过第二卷积神经网络再次进行特征提取，获得所述支持样本的特征向量和所述查询样本的特征向量；计算所述支持样本的特征向量和所述查询样本的特征向量之间的相似性，得到所述注意力机制分支任务的计算结果；

第二反向传播子模块，用于根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果、所述人脸关键点任务分支的计算结果以及所述注意力机制分支任务的计算结果进行神经网络反向传播，更新所述网络参数；返回到所述第二特征提取子模块进行迭代，直到获得的第二人脸检测模型满足预设的模型条件。

进一步地，

所述注意力机制任务子模块包括：

第三特征提取子模块，用于将所述第二多尺度特征向量作为输入，通过第二卷积网络再次进行特征提取，获得所述支持样本的特征向量和所述查询样本的特征向量；

第一相似性计算子模块，用于根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的整体特征相似性，所述整体特征相似性表示利用一个数值从整体上描述所述支持样本和所述查询样本的相似性；

第二相似性计算子模块，用于根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的多尺度局部特征相似性，所述多尺度局部特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为不同尺度的特征向量，再针对各个相应的尺度计算两者的相似性，并取所述各个相应尺度计算出的相似性的平均值；

第三相似性计算子模块，用于根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的局部两两对应特征相似性，所述局部两两对应特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为预设固定尺度的局部特征向量，针对所述支持样本中的每一个局部特征，与所述查询样本中所有局部特征分别计算相似性，并取计算出的所有相似性的平均值；

加权求和计算子模块，将所述整体特征相似性、多尺度局部特征相似性和局部两两对应特征相似性进行加权求和，作为所述支持样本的特征向量和所述查询样本的特征向量之间的相似性。

本申请实施例还公开一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现上述的人脸检测的方法的步骤。

本申请实施例还公开一种电子设备，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述人脸检测的方法。

综上所述，本申请实施例为用于训练人脸检测模型的神经网络增加了注意力机制分支任务，利用少量的复杂场景人脸图像就可以训练出人脸检测模型，不但可以检测出常规人脸图像，还可以检测出复杂场景人脸图像。由于仅需少量的复杂场景图像作为样本进行训练，从而可以节省人脸检测模型训练的人力和时间成本。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实现人脸检测的方法实施例一的流程图。

图2是本申请方法实施例一中神经网络的多任务分支的示意图。

图3是本申请方法实施例一中神经网络增加了注意力机制任务分支的示意图。

图4是本申请方法实施例二中获得第一人脸检测模型的方法流程图。

图5是本申请方法实施例三中的获得第二人脸检测模型的方法流程图。

图6是计算支持样本和查询样本的特征向量的相似性的流程图。

图7是本申请实施例四中卷积神经网络的一个示意图。

图8是本申请实现人脸检测的方法实施例四的流程图。

图9a～图9e是本申请实施例中复杂场景人脸图像的示例。

图10是本申请本申请实现人脸检测的装置实施例一的结构示意图。

图11是本申请装置实施例二中第一训练模块1001的内部结构示意图。

图12是本申请装置实施例三中第二训练模块1002的内部结构示意图。

图13是本申请装置实施例四中注意力机制任务子模块1013的内部结构示意图。

图14是本申请实施例中的电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

在人脸检测场景非常复杂的情况下，本申请实施例仅利用包含复杂场景人脸图像的少量样本集合，在卷积神经网络中增加注意力机制分支任务。复杂场景人脸图像的少量样本通过卷积神经网络的注意力机制分支可以进行训练人脸检测模型，使得人脸检测模型可以检测复杂场景的人脸图像，大大减少复杂场景人脸图像的样本量，节省人脸检测模型训练的人力和时间成本。

图1是本申请实现人脸检测的方法实施例一的流程图。在本申请方法实施例一中，先利用第一训练样本集训练获得第一人脸检测模型。在第一人脸检测模型的基础上，增加注意力机制分支任务，并利用第二训练样本集训练获得第二人脸检测模型。此后，将不包含注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型，利用第三人脸检测模型对待检测的人脸图像进行检测。

本领域技术人员知道，为了建立神经网络模型对人脸进行检测，需要利用训练样本对神经网络模型进行训练，训练之后获得的模型即本申请实施例中所述人脸检测模型。由于本申请以下实施例中会对不同性质的样本进行训练，因此将常规人脸图像的样本集合称为第一训练样本集，将复杂场景人脸图像的少样本集合称为第二训练样本集。其中，所述常规人脸图像是指正常的便于人脸检测的图像，比如脸部无遮挡、头部姿势比较端正、光线正常等。而复杂场景人脸图像是指采用常规的人脸检测算法难以检测出的人脸图像，比如存在脸部遮挡、头部姿势旋转严重、光线过曝、光线过暗等复杂场景下的人脸图像。

具体的，如图1所示，该方法包括：

步骤101：通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型；所述第一训练样本集表示常规人脸图像的样本集合。

为了与后续其他部分涉及的卷积神经网络区分，将本步骤所述卷积神经网络称为“第一卷积神经网络”。本领域技术人员知道，卷积神经网络(Convolutional NeuralNetworks，CNN)是深度学习的代表算法。本步骤可以利用现有技术，在常规人脸图像的样本集合的基础上进行训练，生成人脸检测模型。为了与后续其他部分涉及的人脸检测模型区分，将本步骤生成的人脸检测模型称为“第一人脸检测模型”。

虽然本步骤已经生成了人脸检测模型，由于仅采用常规人脸图像进行训练，对常规人脸图像的检测通常能保证其准确性，但对其他的复杂场景人脸图像难以成功地检测出人脸。

步骤102：在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务。

本申请方法实施例中所述第一卷积神经网络是基于多任务学习(MultitaskLearning)机制的卷积神经网络。图2是本申请方法实施例一中神经网络的多任务分支的示意图。如图2所示，在模型训练时，可以为神经网络设置如下三种任务分支：人脸二分类任务分支，负责计算人脸框中为人脸的概率，即人脸框二分类概率；人脸框坐标任务分支，负责计算人脸框的坐标；人脸关键点任务分支，负责计算人脸关键点的坐标。

为了能够检测出复杂场景中人脸图像，本申请实施例还为第一卷积神经网络增加了注意力机制分支任务。注意力机制(Attention Mechanism)是一种由模型对重要信息重点关注并充分学习吸收的技术。该技术源于视觉系统倾向于关注图像中辅助判断的部分信息，忽略不相关的信息，通常用于对物体进行分类的场合。

本申请方法实施例一将通常用于物体分类的注意力机制用于人脸检测中。具体的，在第一卷积神经网络中增加一个注意力机制分支任务，负责计算待检测人脸图像与复杂场景人脸图像的相似性。图3是本申请方法实施例一中神经网络增加了注意力机制任务分支的示意图。如图3所示，用于训练的第一神经网络有如下四种任务分支：人脸二分类任务分支、人脸框坐标任务分支、人脸关键点任务分支、注意力机制分支任务。

步骤103：利用增加了所述注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型；所述第二训练样本集表示复杂场景人脸图像的少样本集合；所述注意力机制分支任务表示计算与所述复杂场景人脸图像的相似性的任务。

由于注意力机制分支任务主要负责计算与复杂场景人脸图像的相似性，无需大量的样本就可以实现。因此，参与训练的第二训练样本集可以是包含少量复杂场景人脸图像的样本集合。实际应用中，常规人脸图像的样本集合通常包含几万甚至十几万的图像样本，而复杂场景人脸图像的少样本集合中的每一类复杂场景人脸图像仅需几张即可，可以大大减少训练的成本。

上述步骤101已经训练获得了第一人脸模型，本步骤103在第一人脸模型的基础上，继续利用第二训练样本集进行训练，获得第二人脸检测模型。需要说明的是，第二人脸检测模型是对第一人脸检测模型更改所得，为了区分更改前的第一人脸检测模型，这里将步骤103得到的人脸检测模型称为“第二人脸检测模型”。

步骤104：将不包含所述注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型，并利用所述第三人脸检测模型对待检测人脸图像进行检测。

本申请方法实施例一中，为了对人脸检测模型进行训练，使其能够准确检测出复杂场景人脸图像，因此增加了注意力机制分支任务。当训练结束后，只要人脸检测模型能够针对待检测图像检测出人脸框中为人脸的概率、人脸框的坐标以及人脸关键点的坐标即可，无需输出待检测图像与复杂场景人脸图像相似性的值，因此可以不再包含注意力机制分支任务。为了区分第一人脸检测模型和第二人脸检测模型，这里将不包含注意力机制分支任务的第二人脸检测模型作为“第三人脸检测模型”。第三人脸检测模型与第二人脸检测模型实际上相同，只是不再输出与复杂场景人脸图像相似性而已。

也就是说，第一人脸检测模型可以对常规人脸图像检测出人脸框中为人脸的概率、人脸框的坐标以及人脸关键点的坐标。而第三人脸检测模型不但可以对常规人脸图像检测，还可以对复杂场景人脸图像进行检测，同样可以准确地检测出人脸框中为人脸的概率、人脸框的坐标以及人脸关键点的坐标。

实际应用中，假设第一卷积神经网络采用特征图金字塔网络(FPN，FeaturePyramid Networks)，那么步骤101中所述通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型的方法可以通过如下具体方法实现。图4是本申请方法实施例二中的获得第一人脸检测模型的方法流程图。如图4所示，该方法包括：

步骤401：将第一训练样本集中的常规人脸图像作为输入，通过特征图金字塔网络的计算获得第一多尺度特征向量。

特征图金字塔网络(FPN，Feature Pyramid Networks)主要解决的是检测中多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，可以大幅度提升检测性能。通过高层特征进行上采样和底层特征进行自顶向下的连接，而且每一层都会进行预测。其中，FPN网络分为基础网络(backbone)和金字塔结构。假设在基础网络部分中，经过一次卷积神经网络的计算后，其结果记为C2；再对C2进行同样的操作，其结果记为C3；以此类推，直到计算出C6。在金字塔结构部分中，P6等于C6，将P6的特征图放大2倍，且与C5相加，得到P5；以此类推，依次可以获得P2～P6。实际应用中，卷积次数可以根据实际情况自行确定，基础网络则可以采用ResNet50或MobileNet等方法实现，具体可参见现有技术，此处不再赘述。

假设本步骤采用FPN网络计算所输入图像的多尺度特征向量，用下述步骤将分别根据计算出的多尺度特征向量计算各个任务分支。另外，为了与后续涉及的多尺度特征向量区别，本步骤所述的多尺度特征向量称为“第一多尺度特征向量”。

步骤402：将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸二分类任务分支的计算结果。

全卷积网络(FCN，Fully Convolutional networks)可以对图像进行像素级的分类，从而解决语义级别的图像分割问题。也就是说，FCN网络可以接受任意尺寸的输入，采用反卷积层对最后一个卷积层的特征图进行上采样，使其恢复到输入图像相同的尺寸，从而对每个像素都产生一个预测，同时保留原始输入图像中的空间信息，最后在上采样的特征图上进行逐个像素的分类，完成最终的图像分割。本步骤采用FCN再次进行特征提取，并计算出人脸框中为人脸的概率，从而完成人脸二分类任务分支的计算。

具体地，人脸框二分类概率，即中为人脸的概率可以表示为：

其中，

表示概率，P3～P6表示多尺度特征向量，θ_cls表示针对人脸二分类的网络参数。

同时，针对人脸二分类的分类网络损失函数L_cls可以表示为：

其中，y表示人脸框分类结果(1表示为人脸框，0表示不为人脸框)，α和β表示(0,1)区间的参数。

通过上述方法可以计算出人脸框二分类概率，获得人脸二分类任务分支的计算结果。

步骤403：将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸框坐标任务分支的计算结果。

本步骤所述人脸框坐标可以表示为：

其中，

表示人脸框坐标，θ_box表示人脸框坐标回归网络参数。

同时，针对人脸框坐标的网络损失函数L_box可以表示为：

其中，x_box表示人脸框事先标注的真实坐标，N表示训练样本数量。

通过上述方法可以计算出人脸框坐标，获得人脸框坐标任务分支的计算结果。

步骤404：将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸关键点任务分支的计算结果。

本步骤所述人脸关键点坐标可以表示为：

其中，

表示人脸关键点坐标，θ_pts表示人脸关键点坐标回归网络参数，P3～P6表示多尺度特征向量。

同时，针对人脸关键点的网络损失函数L_pts可以表示为：

其中，x_pts表示标注的人脸关键点真实坐标，N表示训练样本数量。

步骤405：根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果以及所述人脸关键点任务分支的计算结果进行神经网络反向传播，更新网络参数。

实际应用中，本步骤可以将上述分类网络损失函数L_cls、针对人脸框坐标的网络损失函数L_box、针对人脸关键点的网络损失函数L_pts进行加权求和，得到加权求和最终的损失函数L_total：

L_total＝L_cls+aL_box+bL_pts 公式7

其中，α和β表示(0,1)区间的参数，比如可以令α＝0.25，β＝0.1。

为了提高人脸检测的准确率，需要根据损失函数L_total更新FPN网络的网络参数，比如针对人脸二分类的网络参数θ_cls、人脸框坐标回归网络参数θ_box、人脸关键点坐标回归网络参数θ_pts。

步骤406：返回步骤401进行迭代，直到获得的第一人脸检测模型满足预设的模型条件。

更新了网络参数后，可以利用第一训练样本集中其它常规人脸图像作为输入，再次进行训练，直到符合模型条件为止。这里所述的模型条件可以自行设置，比如可以规定损失函数L_total小于某个阈值，或者规定迭代次数达到某个值等。总之，通过本申请方法实施例二的方法，可以根据常规人脸图像完成第一人脸检测模型的训练。此时，第一人脸检测模型可以对常规人脸图像进行检测，但对于复杂场景人脸图像的检测准确性还比较低。

为了进一步增加对复杂场景人脸图像的检测准确性，本申请方法实施例三提出一种方法，即上述步骤103的具体实现方法。图5是本申请方法实施例三中的获得第二人脸检测模型的方法流程图。在方法实施例三中，仍然假设第一卷积神经网络采用FPN网络实现。如图5所示，该方法包括：

步骤501：将所述第二训练样本集中的复杂场景人脸图像分为支持样本和查询样本，所述支持样本表示训练标准图像，所述查询样本表示检验与所述训练标准图像相似性的图像。

增加的注意力机制分支任务的目的是为了计算与复杂场景人脸图像的相似性。假设已知复杂场景人脸图像A，另一待检测图像B与复杂场景人脸图像A的相似性非常高，那么待检测图像B同样为复杂场景人脸图像的概率就非常高。

为了训练模型，本步骤将第二训练样本集中的复杂场景人脸图像分为两类图像，一类为支持样本(Support Set)，另一类为查询样本(Query Set)。支持样本和查询样本事先都将进行人工标注，即：在样本图像中标注出人脸框、人脸关键点坐标等信息。支持样本作为训练标准图像，在本步骤中表示作为某类复杂场景人脸图像的标准，而查询样本与支持样本进行相似性计算，根据查询样本事先的人工标注情况判断计算结果是否合理，并对模型的网络参数进行调整。也就是说，本步骤的支持样本和查询样本并没有本质区别，是为了训练模型而划分的。支持样本作为训练标准图像的角色，查询样本模拟待检测图像，作为检验的角色。

实际应用中，复杂场景可能存在很多种类，比如脸部遮挡、头部姿势旋转严重、光线过曝、光线过暗等。这种情况下，可以将每一类复杂场景分别划分支持样本和查询样本。假设脸部遮挡有5张图像样本，可以将其中3张作为支持样本，将另外2张作为查询样本，其他类别也做相似的划分。

步骤502：分别将所述支持样本和所述查询样本作为输入，通过所述特征图金字塔网络的计算获得第二多尺度特征向量。

实际应用中，可以随机获取一个支持样本和一个查询样本，将其作为一组输入。需要说明的是，这里输入的卷积神经网络仍然是第一卷积神经网络，但是增加了注意力机制分支任务。与方法实施例二中的步骤401相似，本步骤502也可以采用FPN网络计算得到多尺度特征向量。为了与步骤401中的区别，本步骤502的特征向量称为第二多尺度特征向量。

步骤503：将所述第二多尺度特征向量作为输入，通过第二卷积神经网络再次进行特征提取，获得所述支持样本的特征向量和所述查询样本的特征向量。

本步骤所述第二卷积神经网络也可以采用CNN网络，为了与上述第一卷积神经网络区分，这里称为“第二卷积神经网络”。通过第二卷积神经网络的计算，可以获得支持样本的特征向量和查询样本的特征向量。

步骤504：计算所述支持样本的特征向量和所述查询样本的特征向量之间的相似性，得到所述注意力机制分支任务的计算结果。

得到支持样本的特征向量和查询样本的特征向量之后，就可以计算两者之间的相似性。图6是计算支持样本和查询样本的特征向量的相似性的流程图。如图6所示，该方法包括：

步骤601：根据支持样本的特征向量和查询样本的特征向量计算两者的整体特征相似性，所述整体特征相似性表示利用一个数值从整体上描述所述支持样本和所述查询样本的相似性。

本步骤计算整体特征相似性S_g可以表示为：

S_g＝||G_qg-G_sg|| 公式8

G_qg＝f_sg(G_q|θ_g) 公式9

G_sg＝s_fg(G_s|θ_g) 公式10

其中，G_q表示查询样本的特征向量，G_s表示支持样本的特征向量，f_sg表示计算整体特征向量的函数，θ_g表示提取整体特征的网络参数，G_qg表示查询样本的整体特征向量，G_sg表示支持样本的整体特征向量，S_g表示整体特征相似性。

步骤602：根据支持样本的特征向量和查询样本的特征向量计算两者的多尺度局部特征相似性，所述多尺度局部特征相似性表示将支持样本的特征向量和查询样本的特征向量分别划分为不同尺度的局部特征向量，再针对各个相应的尺度的局部特征向量计算两者的相似性，并取计算出的相似性的平均值。

本步骤计算多尺度局部特征相似性S_l可以表示为：

G_ql＝f_sl(G_q|θ_l)，G_sl＝f_sl(G_s|θ_l)公式12

其中，N表示不同尺度的个数，G_q表示查询样本的特征向量，G_s表示支持样本的特征向量，f_sl表示计算多尺度局部特征向量的函数，θ_l表示提取局部特征的网络参数，

表示查询样本第k个尺度下的局部特征向量，

表示支持样本第k个尺度下的局部特征向量，S_l表示多尺度局部特征相似性。

实际应用中，假设计算出的支持样本特征向量和查询样本特征向量表示为M*M*C，如果用不同大小的卷积核再次进行CNN特征提取，得到的多尺度的局部特征向量，比如m1×m1×C、m2×m2×C、m3×m3×C等，然后分别对每个尺度下支持样本和查询样本的局部特征向量进行相似性计算，最后取平均值。

步骤603：根据支持样本的特征向量和查询样本的特征向量计算两者的局部两两对应特征相似性，所述局部两两对应特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为预设固定尺度的局部特征向量，针对所述支持样本中的每一个局部特征，与所述查询样本中所有局部特征分别计算相似性，并取计算出的所有相似性的平均值。

本步骤所述局部两两对应特征与步骤602中所述多尺度局部特征相似，只是本步骤的局部特征是采用固定尺度的卷积核进行CNN特征提取得到的。本步骤所述局部两两对应特征相似性S_lp可以表示为：

其中，S_lp表示局部两两对应特征相似性，G_ql表示查询样本在固定尺度下的局部特征向量，G_sl表示支持样本固定尺度下的局部特征向量。

步骤604：将整体特征相似性、多尺度局部特征相似性和局部两两对应特征相似性进行加权求和，作为所述支持样本的特征向量和所述查询样本的特征向量之间的相似性。

本步骤加权求和得到支持样本和查询样本相似性S可以表示为：

S＝α_gS_g+α_lS_l+α_lpS_lp 公式14

其中，α_g、α₁和α_lp表示权重参数，且满足权重参数和为1的条件。

同时，损失函数L_sim可以表示为：

其中，y_i表示第i组样本是否为同类的人脸框，S_i表示第i组样本的相似性。

通过上述步骤601～步骤604可以计算出支持样本和查询样本的特征向量的相似性。

步骤505：根据人脸二分类任务分支的计算结果、人脸框坐标任务分支的计算结果、人脸关键点任务分支的计算结果以及注意力机制分支任务的计算结果进行神经网络反向传播，更新网络参数。

实际应用中，本步骤可以将上述分类网络损失函数L_cls、针对人脸框坐标的网络损失函数L_box、针对人脸关键点的网络损失函数L_pts、针对注意力机制的网络损失函数L_sim进行加权求和，得到加权求和最终的损失函数L_total2：

L_total2＝L_cls+α_boxL_box+α_ptsL_pts+α_simL_sim 公式16

其中，α_box、α_pts和α_sim表示(0,1)区间的参数，可以使α_sim权重最大。

同样，为了提高人脸检测的准确率，需要根据损失函数L_total2更新FPN网络的网络参数，比如针对人脸二分类的网络参数θ_cls、人脸框坐标回归网络参数θ_box、人脸关键点坐标回归网络参数θ_pts、提取整体特征的网络参数θ_g、提取局部特征的网络参数θ_l。

步骤506：返回到步骤502进行迭代，直到获得的第二人脸检测模型满足预设的模型条件。

更新了网络参数之后，可以利用第二训练样本集中其他复杂场景人脸图像组合作为输入，再次进行训练，直到符合模型条件为止。这里所述的模型条件可以自行设置，比如可以规定损失函数L_total2小于某个阈值，或者规定迭代次数达到某个值等。通过本申请方法实施例三的方法，可以根据复杂场景人脸图像完成第二人脸检测模型的训练。

为了更好地理解本申请实施例方案，下面再利用实际的人脸图像进行举例说明。在本申请方法实施例四中，假设已有常规人脸图像的样本集合(即第一训练样本集)，其中包含上万张常规人脸图像。本实施例还假设已有复杂场景人脸图像的少样本集合(即第二训练样本集)，其中包含存在戴口罩、脸部遮挡、头部姿势旋转严重、光线过曝、光线过暗共5类图像，每一类有5张图像。另外，在实施之前，本申请方法实施例四已经对第一训练样本集和第二训练样本集中的图像进行人工标注，比如已经标注出人脸框和人脸关键点的坐标等信息。

图7是本申请实施例四中卷积神经网络的一个示意图。如图7所示，假设本申请实施例四中的第一卷积神经网络采用FPN网络701实现，其中包括基础网络部分702和金字塔结构部分703。另外，本申请实施例四在训练第一人脸检测模型时包括三个任务分支：人脸二分类任务分支704、人脸框坐标任务分支705、人脸关键点任务分支706。上述三个任务分支都可以采用FCN网络计算。

图8是本申请实现人脸检测的方法实施例四的流程图。如图8所示，该方法包括：

步骤801：将第一训练样本集中的常规人脸图像作为输入，通过FPN网络701进行训练，获得第一人脸检测模型。

本步骤与方法实施例一中的步骤101相同，其中第一卷积神经网络为FPN网络701。具体的训练方法可以采用方法实施例二的流程实现，此处不再赘述。也就是说，经过训练，通过FPN网络701以及三个任务分支这个第一人脸检测模型，可以实现对常规人脸图像的检测。

步骤802：在第一人脸检测模型的基础上，为FPN网络701增加注意力机制分支任务707。

本步骤与方法实施例一中的步骤102相同，这里实际上是在图7所示的卷积神经网络的基础上增加了注意力机制任务分支707。

步骤803：将第二训练样本集中的复杂场景人脸图像作为输入，利用增加了注意力机制任务分支707的FPN网络进行训练，获得第二人脸检测模型。

本步骤与方法实施例一中的步骤103相同。图9a～图9e是复杂场景人脸图像的示例。图9a表示戴口罩的人脸图像，图9b表示脸部遮挡的人脸图像，图9c表示头部姿势旋转严重的人脸图像，图9d表示光线过曝的人脸图像，图9e表示光线过暗的人脸图像。将每一类图像划分为支持样本和查询样本，随机从集合中取出一组支持样本和查询样本。将一组支持样本和查询样本作为输入。具体的训练方法可以采用方法实施例三的流程实现，此处不再赘述。

步骤804：将不包含所述注意力机制分支任务707的第二人脸检测模型作为第三人脸检测模型，并利用所述第三人脸检测模型对待检测人脸图像进行检测。

需要说明的是，本步骤所述第三人脸检测模型与上述第二人脸检测模型并没有本质区别，但由于在后续的人脸检测过程中，不再需要利用注意力任务分支707，仅需要输出待检测人脸图像的人脸框二分类概率、人脸框的坐标以及人脸关键点的坐标，因此可以不包含注意力机制分支任务707。

应用本申请方法实施例的方案，由于为卷积神经网络增加了注意力机制任务分支，可以利用少量的复杂场景人脸图像就可以训练完成，最终得到不包含注意力机制任务分支的第三人脸检测模型。通过第三人脸检测模型，不但可以检测常规人脸图像，还可以对复杂场景人脸图像进行准确地检测，从而达到节约模型训练的人力和时间成本的目的。

基于上述方法实施例，本申请实施例还提出一种人脸检测的装置。图10是本申请实现人脸检测的装置实施例一的结构示意图。如图10所示，该装置包括：第一训练模块1001、第二训练模块1002、第三训练模块1003、检测模块1004。第一训练模块1001、第二训练模块1002和第三训练模块1003均是为了对人脸检测模型进行训练所用的模块。本领域技术人员知道，为了建立神经网络模型对人脸进行检测，需要利用训练样本对神经网络模型进行训练，训练之后获得的模型即本申请实施例中所述人脸检测模型。同样，本实施例将常规人脸图像的样本集合称为第一训练样本集，将复杂场景人脸图像的少样本集合称为第二训练样本集。

其中：

第一训练模块1001，用于通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型；所述第一训练样本集表示常规人脸图像的样本集合。

第二训练模块1002，用于在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务；利用增加了所述注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型；所述第二训练样本集表示复杂场景人脸图像的少样本集合；所述注意力机制分支任务表示计算与所述复杂场景人脸图像的相似性的任务。

第三训练模块1003，用于将不包含所述注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型。

检测模块1004，利用所述第三人脸检测模型对待检测人脸图像进行检测。

也就是说，第一训练模块1001通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型；第二训练模块1002在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务；利用增加了所述注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型；第三训练模块1003将不包含所述注意力机制分支任务的第二人脸检测模型作为第三人脸检测模型；检测模块1004利用所述第三人脸检测模型对待检测人脸图像进行检测。

图11是装置实施例二中第一训练模块1001的内部结构示意图。如图11所示，第一训练模块1001可以包括：第一特征提取子模块1005、人脸二分类任务子模块1006、人脸框坐标任务子模块1007、人脸关键点任务子模块1008、第一反向传播子模块1009。其中：

第一特征提取子模块1005，用于将所述第一训练样本集中的常规人脸图像作为输入，通过特征图金字塔网络的计算获得第一多尺度特征向量。

人脸二分类任务子模块1006，用于将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸二分类任务分支的计算结果。

人脸框坐标任务子模块1007，用于通过全卷积网络的计算获得人脸框坐标任务分支的计算结果。

人脸关键点任务子模块1008，用于将所述第一多尺度特征向量作为输入，通过全卷积网络的计算获得人脸关键点任务分支的计算结果。

第一反向传播子模块1009，用于根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果以及所述人脸关键点任务分支的计算结果进行神经网络反向传播，更新网络参数；返回到所述第一特征提取子模块1005进行迭代，直到获得的第一人脸检测模型满足预设的模型条件。

也就是说，第一训练样本集中的常规人脸图像输入第一特征提取子模块1005，通过特征图金字塔网络的计算获得第一多尺度特征向量。第一多尺度特征向量分别输入给人脸二分类任务子模块1006、人脸框坐标任务子模块1007、人脸关键点任务子模块1008，通过全卷积网络的计算分别获得人脸二分类任务分支的计算结果、人脸框坐标任务分支的计算结果、人脸关键点任务分支的计算结果。此后，第一反向传播子模块1009根据三个任务分支的计算结果进行神经网络反向传播，更新网络参数。最后，返回到所述第一特征提取子模块1005进行迭代，直到获得的第一人脸检测模型满足预设的模型条件。

图12是装置实施例三中第二训练模块1002的内部结构示意图。如图12所示，第二训练模块1002可以包括：任务设置子模块1010、样本划分子模块1011、第二特征提取子模块1012、注意力机制任务子模块1013、第二反向传播子模块1014。其中：

任务设置子模块1010，用于在所述第一人脸检测模型的基础上，为所述第一卷积神经网络增加注意力机制分支任务。

样本划分子模块1011，用于将所述第二训练样本集中的复杂场景人脸图像分为支持样本和查询样本，所述支持样本表示训练标准图像，所述查询样本表示检验与所述训练标准图像相似性的图像。

第二特征提取子模块1012，分别将所述支持样本和所述查询样本作为输入，通过所述特征图金字塔网络的计算获得第二多尺度特征向量。

注意力机制任务子模块1013，用于将所述第二多尺度特征向量作为输入，通过第二卷积神经网络再次进行特征提取，获得所述支持样本的特征向量和所述查询样本的特征向量；计算所述支持样本的特征向量和所述查询样本的特征向量之间的相似性，得到所述注意力机制分支任务的计算结果。

第二反向传播子模块1014，用于根据所述人脸二分类任务分支的计算结果、所述人脸框坐标任务分支的计算结果、所述人脸关键点任务分支的计算结果以及所述注意力机制分支任务的计算结果进行神经网络反向传播，更新所述网络参数；返回到所述第二特征提取子模块1012进行迭代，直到获得的第二人脸检测模型满足预设的模型条件。

也就是说，任务设置子模块1010在第一人脸检测模型的基础上增加注意力机制分支任务；样本划分子模块1011将第二训练样本集中的复杂场景人脸图像分为支持样本和查询样本；第二特征提取子模块1012将支持样本和所述查询样本作为输入，通过特征图金字塔网络的计算获得第二多尺度特征向量；注意力机制任务子模块1013将第二多尺度特征向量作为输入，通过第二卷积神经网络再次进行特征提取，获得支持样本的特征向量和查询样本的特征向量；计算相似性，得到注意力机制分支任务的计算结果；第二反向传播子模块1014根据人脸二分类任务分支的计算结果、人脸框坐标任务分支的计算结果、人脸关键点任务分支的计算结果以及注意力机制分支任务的计算结果进行神经网络反向传播，更新所述网络参数；返回到第二特征提取子模块1012进行迭代，直到获得的第二人脸检测模型满足预设的模型条件。

图13是装置实施例四中注意力机制任务子模块1013的内部结构示意图。如图13所示，注意力机制任务子模块1013包括：第三特征提取子模块1015、第一相似性计算子模块1016、第二相似性计算子模块1017、第三相似性计算子模块1018、加权求和计算子模块1019。其中：

第三特征提取子模块1015，用于将所述第二多尺度特征向量作为输入，通过第二卷积网络再次进行特征提取，获得所述支持样本的特征向量和所述查询样本的特征向量。

第一相似性计算子模块1016，用于根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的整体特征相似性，所述整体特征相似性表示利用一个数值从整体上描述所述支持样本和所述查询样本的相似性。

第二相似性计算子模块1017，用于根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的多尺度局部特征相似性，所述多尺度局部特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为不同尺度的特征向量，再针对各个相应的尺度计算两者的相似性，并取所述各个相应尺度计算出的相似性的平均值。

第三相似性计算子模块1018，用于根据所述支持样本的特征向量和所述查询样本的特征向量计算两者的局部两两对应特征相似性，所述局部两两对应特征相似性表示将所述支持样本的特征向量和所述查询样本的特征向量分别划分为预设固定尺度的局部特征向量，针对所述支持样本中的每一个局部特征，与所述查询样本中所有局部特征分别计算相似性，并取计算出的所有相似性的平均值。

加权求和计算子模块1019，用于将所述整体特征相似性、多尺度局部特征相似性和局部两两对应特征相似性进行加权求和，作为所述支持样本的特征向量和所述查询样本的特征向量之间的相似性。

也就是说，第三特征提取子模块1015将第二多尺度特征向量输入第二卷积网络，再次进行特征提取，获得支持样本的特征向量和查询样本的特征向量；第一相似性计算子模块1016根据支持样本的特征向量和查询样本的特征向量计算两者的整体特征相似性；第二相似性计算子模块1017根据支持样本的特征向量和查询样本的特征向量计算两者的多尺度局部特征相似性；第三相似性计算子模块1018根据支持样本的特征向量和查询样本的特征向量计算两者的局部两两对应特征相似性；加权求和计算子模块1019将整体特征相似性、多尺度局部特征相似性和局部两两对应特征相似性进行加权求和，作为支持样本的特征向量和查询样本的特征向量之间的相似性。

本申请实施例还提供一种计算机可读介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述的人脸检测的方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，可以实现上述各实施例描述的人脸检测的方法。根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图14所示，本发明实施例还提供一种电子设备，其中可以集成本申请实施例实现方法的装置。如图14所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器1401、一个或一个以上计算机可读存储介质的存储器1402以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器1402的程序时，可以实现上述人脸检测的方法。

具体的，实际应用中，该电子设备还可以包括电源1403、输入单元1404、以及输出单元1405等部件。本领域技术人员可以理解，图14中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器1401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器1402内的软件程序和/或模块，以及调用存储在存储器1402内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器1402可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器1401通过运行存储在存储器1402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器1402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1402还可以包括存储器控制器，以提供处理器1401对存储器1402的访问。

该电子设备还包括给各个部件供电的电源1403，可以通过电源管理系统与处理器1401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元1404，该输入单元1404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该电子设备还可以包括输出单元1405，该输出单元1405可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种人脸检测的方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过第一卷积神经网络对第一训练样本集进行训练，获得第一人脸检测模型的步骤包括：

3.根据权利要求2所述的方法，其特征在于，所述利用增加了注意力机制分支任务的第一卷积神经网络对第二训练样本集进行训练，获得第二人脸检测模型的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述计算支持样本的特征向量和所述查询样本的特征向量之间的相似性的步骤包括：

5.一种人脸检测的装置，其特征在于，该装置包括：

6.根据权利要求5所述的装置，其特征在于，所述第一训练模块包括：

7.根据权利要求6所述的装置，其特征在于，所述第二训练模块包括：

8.根据权利要求7所述的装置，其特征在于，所述注意力机制任务子模块包括：

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时可实现权利要求1～4任一项所述的人脸检测的方法的步骤。

10.一种电子设备，其特征在于，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1～4任一项所述的人脸检测的方法。