CN108875521A

CN108875521A - 人脸检测方法、装置、系统和存储介质

Info

Publication number: CN108875521A
Application number: CN201711387654.4A
Authority: CN
Inventors: 王剑锋; 袁野; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-11-23

Abstract

本发明提供了一种人脸检测方法、装置、系统和存储介质，所述人脸检测方法包括：获取待处理图像；以及利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。根据本发明实施例的人脸检测方法、装置、系统和存储介质利用训练好的具有注意力机制的神经网络进行人脸检测，能够增强人脸关键区域的特征，进而提高遮挡场景下的人脸检测的性能。

Description

人脸检测方法、装置、系统和存储介质

技术领域

本发明涉及图像识别技术领域，更具体地涉及一种人脸检测方法、装置、系统和存储介质。

背景技术

人脸检测对于很多人脸应用是非常基础并且至关重要的，比如人脸识别、人脸美妆、人脸现实增强(AR)等。目前常见的人脸检测算法对于包括口罩、围巾、眼镜等常见遮挡情况尚不能很好处理。

人类在认知事物时会将注意力聚焦在特定的部分并忽略无关的部分，比如在嘈杂的环境中人类会更容易听清与自己相关的对话等。注意力机制模仿了人类这一生理机制，注意力机制在自然语言处理领域已经得到了广泛的应用，但在计算机视觉领域尚未得到普及，一个原因是目前尚没有很好的学习视觉注意力的方法和标注信息。

发明内容

本发明提出了一种关于人脸检测的方案，其利用训练好的具有注意力机制的神经网络进行人脸检测，能够增强人脸关键区域的特征，进而提高遮挡场景下的人脸检测的性能。下面简要描述本发明提出的关于人脸检测的方案，更多细节将在后续结合附图在具体实施方式中加以描述。

根据本发明一方面，提供了一种人脸检测方法，所述人脸检测方法包括：获取待处理图像；以及利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。

在一个实施例中，所述具有注意力机制的神经网络包括：特征提取子网络，用于针对输入的所述待处理图像输出第一特征图；注意力子网络，用于基于所述第一特征图生成注意力图，并基于所述第一特征图和所述注意力图生成第二特征图；分类子网络，用于针对所述第二特征图输出分类信息；以及回归子网络，用于针对所述第二特征图输出回归信息。

在一个实施例中，所述分类信息指示检测框是否是人脸，所述回归信息指示检测框坐标，所述人脸检测的结果基于所述分类信息和所述回归信息而得到。

在一个实施例中，所述特征提取子网络针对所述待处理图像输出不同尺寸的第一特征图，多个所述不同尺寸的第一特征图构成多层第一特征图，所述注意力子网络针对每层第一特征图输出与该层相对应的注意力图，并基于每层第一特征图和与该层相对应的注意力图生成该层的第二特征图。

在一个实施例中，相对应层的所述注意力图和所述第一特征图的长宽分别相等。

在一个实施例中，所述注意力图是取值范围为[0,1]的二维矩阵。

在一个实施例中，所述基于所述第一特征图和所述注意力图生成第二特征图包括：将所述注意力图与所述第一特征图逐点相乘，以生成所述第二特征图。

在一个实施例中，所述基于所述第一特征图和所述注意力图生成第二特征图包括：将所述注意力图经过放大操作后与所述第一特征图逐点相乘，以生成所述第二特征图。

在一个实施例中，所述放大操作包括：基于以e为底的指数函数将所述注意力图放大到取值范围为[1,e]。

在一个实施例中，所述神经网络的训练包括：基于所述注意力子网络输出的注意力图和所述注意力图的监督信号计算注意力损失；基于所述分类子网络输出的分类信息和所述分类信息的监督信号计算分类损失；基于所述回归子网络输出的回归信息和所述回归信息的监督信号计算回归损失；以及基于所述注意力损失、所述分类损失以及所述回归损失优化所述神经网络的参数。

在一个实施例中，所述注意力图的监督信号为由0元素和1元素组成的矩阵，其中1元素表示人脸包围框区域，0元素表示人脸包围框区域以外的区域。

根据本发明另一方面，提供了一种人脸检测装置，所述人脸检测装置包括：获取模块，用于获取待处理的图像；以及人脸检测模块，用于利用训练好的具有注意力机制的神经网络对所述获取模块获取的所述待处理图像进行人脸检测。

根据本发明又一方面，提供了一种人脸检测系统，所述人脸检测系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行上述任一项所述的人脸检测方法。

根据本发明再一方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行上述任一项所述的人脸检测方法。

根据本发明实施例的人脸检测方法、装置、系统和存储介质利用训练好的具有注意力机制的神经网络进行人脸检测，能够增强人脸关键区域的特征，进而提高遮挡场景下的人脸检测的性能。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的人脸检测方法、装置、系统和存储介质的示例电子设备的示意性框图；

图2示出根据本发明实施例的人脸检测方法的示意性流程图；

图3示出根据本发明实施例的具有注意力机制的神经网络的示例性结构的示意图；

图4A示出根据本发明实施例的人脸检测方法采用具有注意力机制的神经网络进行人脸检测的示意图；

图4B示出根据本发明实施例的人脸检测方法采用具有注意力机制的神经网络进行人脸检测的可视化流程示意图；

图5示出根据本发明实施例的人脸检测装置的示意性框图；以及

图6示出根据本发明实施例的人脸检测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参照图1来描述用于实现本发明实施例的人脸检测方法、装置、系统和存储介质的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集用户期望的图像(例如照片、视频等)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用具有图像采集能力的部件采集待处理图像，并将采集的待处理图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的人脸检测方法和装置的示例电子设备可以被实现诸如智能手机、平板电脑等等移动终端。

下面，将参考图2描述根据本发明实施例的人脸检测方法200。如图2所示，人脸检测方法200可以包括如下步骤：

在步骤S210，获取待处理图像。

在一个示例中，待处理图像可以为需要对其进行人脸检测的图像。在一个示例中，待处理图像可以为实时采集的图像。在另一个示例中，待处理图像可以为来自任何源的图像。

在步骤S220，利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。

在本发明的实施例中，通过设计并训练具有注意力机制的神经网络来增强人脸关键区域的特征。在一个示例中，该具有注意力机制的神经网络可以包括特征提取子网络、注意力子网络、分类子网络以及回归子网络。其中，特征提取子网络用于针对输入的图像输出第一特征图；注意力子网络用于基于所述第一特征图生成注意力图，并基于所述第一特征图和所述注意力图生成第二特征图；分类子网络用于针对所述第二特征图输出分类信息；回归子网络用于针对所述第二特征图输出回归信息。示例性地，所述分类信息指示检测框是否是人脸，所述回归信息指示检测框坐标，所述人脸检测的结果基于所述分类信息和所述回归信息而得到。此处，为了将特征提取子网络与注意力子网络各自输出的特征图相区分，将特征提取子网络输出的特征图称为第一特征图，将注意力子网络输出的特征图称为第二特征图。下面参见图3描述根据本发明实施例的具有注意力机制的神经网络的示例性结构。

如图3所示，神经网络300可以包括特征提取子网络310、注意力子网络320、分类子网络330以及回归子网络340。其中，特征提取子网络310可以进一步包括基础网络ResNet和特征金字塔网络(FPN)。特征金字塔网络包括诸多卷积核池化操作，可以得到大量解析度不同的分层特征图。基于此，特征提取子网络310能够针对输入图像输出不同尺寸的第一特征图，多个所述不同尺寸的第一特征图构成多层第一特征图。一般地，在设计神经网络的同时可以设定特征提取子网络310可输出特征图的层数。可以根据实际需要和/或经验来设定特征提取子网络310可输出特征图的层数，例如，一般可将特征提取子网络310可输出特征图的层数设定为三层(例如如图3所示的)或五层。

特征提取子网络310输出的第一特征图可用于后续的注意力子网络320、分类子网络330以及回归子网络340。具体地，注意力子网络320基于特征提取子网络310输出的第一特征图生成注意力图，并基于所述第一特征图和所述注意力图生成第二特征图。当特征提取子网络310输出的第一特征图为多层时，注意力子网络320可以分别针对每层第一特征图生成与该层相对应的注意力图，并基于该层的第一特征图和注意力图生成该层的第二特征图。如图3所示的，特征提取子网络310输出3层第一特征图，注意力子网络320针对每层第一特征图均生成注意力图。

具体地，注意力子网络320生成的注意力图是与和其对应的第一特征图长宽相等的特征图。示例性地，注意力子网络320生成的注意力图是取值范围为[0,1]的二维矩阵。注意力图中的值越大，表明注意力越大。在一个示例中，注意力子网络320基于第一特征图和注意力图生成第二特征图可以包括：将注意力图与第一特征图逐点相乘(即进行hadamard计算)，以生成第二特征图。在另一个示例中，注意力子网络320基于第一特征图和注意力图生成第二特征图可以包括：将注意力图经过放大操作后与第一特征图逐点相乘(即进行hadamard计算)，以生成第二特征图。将注意图力图经过放大操作后再与第一特征图逐点相乘可以增强第一特征图中人脸关键区域(即注意力值大的区域)的特征，即形成具有增强的人脸关键区域的第二特征图，从而提高人脸检测尤其是遮挡场景下的人脸检测的性能。示例性地，对注意力图的放大操作可以包括：基于以e为底的指数函数(如图3所示的Exp)将所述注意力图放大到取值范围为[1,e]。基于这样的放大操作，可以使得注意力图的取值被合适地放大，从而使得第一特征图的关键区域被合适地放大以用于后续操作。

基于注意力子网络320输出的第二特征图，分类子网络330和回归子网络340可分别输出分类信息和回归信息。如前所述，分类信息可以表示“人脸的检测框是否是人脸”，回归信息可以表示“人脸的检测框坐标(即人脸的具体位置)”。基于第二特征图得到的分类信息和回归信息具有更高的精度，从而得到更精确的人脸检测结果。示例性地，每个检测框的分类信息可以与检测框的回归信息相对应，分类信息可以具体表示每个人脸检测框的置信度值，可以根据置信度阈值对人脸检测框进行过滤，过滤掉置信度较低的人脸检测框，从而得到最终的人脸检测结果。

在一个示例中，神经网络300可以基于RetinaNet神经网络模型而构建。RetinaNet神经网络模型可以包括FPN主干网(backbone)、分类子网络和回归子网络。在此基础上，可以增加注意力子网络，从而能够得到根据本发明实施例的具有注意力机制的神经网络300。

在神经网络300的训练过程中，可以基于监督信号来计算损失从而优化神经网络300的参数。具体地，可以基于注意力子网络320输出的注意力图和所述注意力图的监督信号计算注意力损失(注意力损失可以是一个sigmoid交叉熵)；基于分类子网络330输出的分类信息和所述分类信息的监督信号计算分类损失；基于回归子网络340输出的回归信息和所述回归信息的监督信号计算回归损失；以及基于所述注意力损失、所述分类损失以及所述回归损失优化整个神经网络的参数。

在一个示例中，注意力图的监督信号可以为由0元素和1元素组成的矩阵，其中1元素表示人脸包围框区域，0元素表示人脸包围框区域以外的区域。这样的设计方式无需使用额外的标注信息，且依然可以使得注意力子网络320学习到注意力信息。分类信息的监督信号可以为“人脸的检测框是否是人脸”的标签，回归信息的监督信号可以是“人脸的检测框坐标(即人脸的具体位置)”。基于相应的监督信号，可以计算相应的损失从而优化神经网络300的参数。

以上示例性地示出了根据本发明实施例的具有注意力机制的神经网络的示例性结构及其训练。下面参照图4A和图4B描述根据本发明实施例的人脸检测方法200采用具有注意力机制的神经网络进行人脸检测的过程。

图4A示出根据本发明实施例的人脸检测方法采用具有注意力机制的神经网络进行人脸检测的示意图。如图4A所示，图像I1中包括许多个人脸，且人脸的尺寸大小不一。将图像I1输入具有注意力机制的神经网络，由特征提取子网络输出3层第一特征图，然后由注意力子网络针对每层第一特征图生成注意力图，并基于生成第一特征图和注意力图生成第二特征图以由分类子网络和回归子网络(为了简洁在图4A中将其合并示出为分类回归子网络)分别输出分类信息和回归信息，得到人脸检测结果。如图4A所示的，最终的人脸检测结果包括针对不同尺寸范围的分层(在图4A中示出为3层，与第一特征图的层数相对应)人脸检测结果。

图4B示出根据本发明实施例的人脸检测方法采用具有注意力机制的神经网络进行人脸检测的可视化流程示意图。如图4B所示的，图像I2中包括许多个人脸，将图像I2输入特征提取子网络得到第一特征图；将第一特征图输入注意力子网络得到分层注意力图；将注意力图经过Exp操作后与第一特征图逐点相乘得到第二特征图；第二特征图分别输入分类子网络和回归子网络，得到最终人脸检测结果。

基于上面的描述，根据本发明实施例的人脸检测方法结合人脸检测自身特征建立注意力机制，能够增强人脸关键区域的特征，进而提高遮挡场景下的人脸检测的性能。

以上示例性地描述了根据本发明实施例的人脸检测方法。示例性地，根据本发明实施例的人脸检测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

此外，根据本发明实施例的人脸检测方法可以方便地部署到智能手机、平板电脑、个人计算机等移动设备上。替代地，根据本发明实施例的人脸检测方法还可以部署在服务器端(或云端)。替代地，根据本发明实施例的人脸检测方法还可以分布地部署在服务器端(或云端)和个人终端处。

下面结合图5描述本发明另一方面提供的人脸检测装置。图5示出了根据本发明实施例的人脸检测装置500的示意性框图。

如图5所示，根据本发明实施例的人脸检测装置500包括获取模块510和人脸检测模块520。所述各个模块可分别执行上文中结合图2描述的人脸检测方法的各个步骤/功能。以下仅对人脸检测装置500的各模块的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510用于获取待处理图像。人脸检测模块520用于利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。获取模块510和人脸检测模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

在一个示例中，获取模块510获取的待处理图像可以为需要对其进行人脸检测的图像。在一个示例中，获取模块510获取的待处理图像可以为实时采集的图像。在另一个示例中，获取模块510获取的待处理图像可以为来自任何源的图像。

在本发明的实施例中，人脸检测模块520利用训练好的具有注意力机制的神经网络对获取模块510获取的待处理图像进行人脸检测。在一个示例中，人脸检测模块520利用的该具有注意力机制的神经网络可以包括特征提取子网络、注意力子网络、分类子网络以及回归子网络。其中，特征提取子网络用于针对输入的图像输出第一特征图；注意力子网络用于基于所述第一特征图生成注意力图，并基于所述第一特征图和所述注意力图生成第二特征图；分类子网络用于针对所述第二特征图输出分类信息；回归子网络用于针对所述第二特征图输出回归信息。示例性地，所述分类信息指示检测框是否是人脸，所述回归信息指示检测框坐标，所述人脸检测的结果基于所述分类信息和所述回归信息而得到。此处，为了将特征提取子网络与注意力子网络各自输出的特征图相区分，将特征提取子网络输出的特征图称为第一特征图，将注意力子网络各自输出的特征图称为第二特征图。可以参见图3理解人脸检测模块520利用的具有注意力机制的神经网络的示例性结构，为了简洁，此处仅简要进行描述。

在一个示例中，人脸检测模块520利用的具有注意力机制的神经网络包括的特征提取子网络可以进一步包括基础网络ResNet和特征金字塔网络(FPN)。特征金字塔网络包括诸多卷积核池化操作，可以得到大量解析度不同的分层特征图。基于此，特征提取子网络能够针对输入图像输出不同尺寸的第一特征图，多个所述不同尺寸的第一特征图构成多层第一特征图。一般地，在设计神经网络的同时可以设定特征提取子网络可输出特征图的层数。可以根据实际需要和/或经验来设定特征提取子网络可输出特征图的层数。

注意力子网络基于特征提取子网络输出的第一特征图生成注意力图，并基于所述第一特征图和所述注意力图生成第二特征图。在一个实施例中，当特征提取子网络输出的第一特征图为多层时，注意力子网络可以分别针对每层第一特征图生成与该层相对应的注意力图，并基于该层的第一特征图和注意力图生成该层的第二特征图。

在一个示例中，注意力子网络生成的注意力图是与和其对应的第一特征图长宽相等的特征图。示例性地，注意力子网络生成的注意力图是取值范围为[0,1]的二维矩阵。注意力图中的值越大，表明注意力越大。在一个示例中，注意力子网络基于第一特征图和注意力图生成第二特征图可以包括：将注意力图与第一特征图逐点相乘(即进行hadamard计算)，以生成第二特征图。在另一个示例中，注意力子网络基于第一特征图和注意力图生成第二特征图可以包括：将注意力图经过放大操作后与第一特征图逐点相乘(即进行hadamard计算)，以生成第二特征图。将注意图力图经过放大操作后再与第一特征图逐点相乘可以增强第一特征图中人脸关键区域(即注意力值大的区域)的特征，即形成具有增强的人脸关键区域的第二特征图，从而提高人脸检测尤其是遮挡场景下的人脸检测的性能。示例性地，对注意力图的放大操作可以包括：基于以e为底的指数函数将所述注意力图放大到取值范围为[1,e]。

基于注意力子网络输出的第二特征图，分类子网络和回归子网络可分别输出分类信息和回归信息。如前所述，分类信息可以表示“人脸的检测框是否是人脸”，回归信息可以表示“人脸的检测框坐标(即人脸的具体位置)”。基于第二特征图得到的分类信息和回归信息具有更高的精度，从而得到更精确的人脸检测结果。

在一个示例中，人脸检测模块520利用的具有注意力机制的神经网络可以基于RetinaNet神经网络模型而构建。RetinaNet神经网络模型可以包括FPN主干网(backbone)、分类子网络和回归子网络。在此基础上，可以增加注意力子网络，从而能够得到人脸检测模块520利用的具有注意力机制的神经网络。

在人脸检测模块520利用的神经网络的训练过程中，可以基于监督信号来计算损失从而优化神经网络的参数。具体地，可以基于注意力子网络输出的注意力图和所述注意力图的监督信号计算注意力损失；基于分类子网络输出的分类信息和所述分类信息的监督信号计算分类损失；基于回归子网络输出的回归信息和所述回归信息的监督信号计算回归损失；以及基于所述注意力损失、所述分类损失以及所述回归损失优化整个神经网络的参数。

在一个示例中，注意力图的监督信号可以为由0元素和1元素组成的矩阵，其中1元素表示人脸包围框区域，0元素表示人脸包围框区域以外的区域。这样的设计方式无需使用额外的标注信息，且依然可以使得注意力子网络学习到注意力信息。分类信息的监督信号可以为“人脸的检测框是否是人脸”的标签，回归信息的监督信号可以是“人脸的检测框坐标(即人脸的具体位置)”。基于相应的监督信号，可以计算相应的损失从而优化神经网络的参数。

基于上述训练好的具有注意力机制的神经网络，人脸检测模块520可以对获取模块510获取的待处理图像进行人脸检测。具体地，人脸检测模块520可以基于训练好的具有注意力机制的神经网络的特征提取子网络针对待处理器图像输出一层或多层第一特征图，然后由注意力子网络针对每层第一特征图生成注意力图，并基于生成第一特征图和注意力图生成第二特征图以由分类子网络和回归子网络分别输出分类信息和回归信息，得到人脸检测结果。可以结合图4A和图4B理解人脸检测模块520进行人脸检测的过程。为了简洁，此处不再赘述。

基于上面的描述，根据本发明实施例的人脸检测装置结合人脸检测自身特征建立注意力机制，能够增强人脸关键区域的特征，进而提高遮挡场景下的人脸检测的性能。

图6示出了根据本发明实施例的人脸检测系统600的示意性框图。人脸检测系统600包括存储装置610以及处理器620。

其中，存储装置610存储用于实现根据本发明实施例的人脸检测方法中的相应步骤的程序代码。处理器620用于运行存储装置610中存储的程序代码，以执行根据本发明实施例的人脸检测方法的相应步骤，并且用于实现根据本发明实施例的人脸检测装置中的相应模块。此外，人脸检测系统600还可以包括图像采集装置(未在图6中示出)，其可以用于采集待处理图像。当然，图像采集装置不是必需的，可直接接收来自其他源的待处理图像的输入。

在一个实施例中，在所述程序代码被处理器620运行时使得人脸检测系统600执行以下步骤：获取待处理图像；以及利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的人脸检测方法的相应步骤，并且用于实现根据本发明实施例的人脸检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含获取待处理图像的计算机可读的程序代码，另一个计算机可读存储介质包含利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的人脸检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的人脸检测方法。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时使计算机或处理器执行以下步骤：获取待处理图像；以及利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。

根据本发明实施例的人脸检测装置中的各模块可以通过根据本发明实施例的人脸检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的人脸检测方法、装置、系统以及存储介质利用训练好的具有注意力机制的神经网络进行人脸检测，能够增强人脸关键区域的特征，进而提高遮挡场景下的人脸检测的性能。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种人脸检测方法，其特征在于，所述人脸检测方法包括：

获取待处理图像；以及

利用训练好的具有注意力机制的神经网络对所述待处理图像进行人脸检测。

2.根据权利要求1所述的人脸检测方法，其特征在于，所述具有注意力机制的神经网络包括：

特征提取子网络，用于针对输入的所述待处理图像输出第一特征图；

注意力子网络，用于基于所述第一特征图生成注意力图，并基于所述第一特征图和所述注意力图生成第二特征图；

分类子网络，用于针对所述第二特征图输出分类信息；以及

回归子网络，用于针对所述第二特征图输出回归信息。

3.根据权利要求2所述的人脸检测方法，其特征在于，所述分类信息指示检测框是否是人脸，所述回归信息指示检测框坐标，所述人脸检测的结果基于所述分类信息和所述回归信息而得到。

4.根据权利要求2所述的人脸检测方法，其特征在于，所述特征提取子网络针对所述待处理图像输出不同尺寸的第一特征图，多个所述不同尺寸的第一特征图构成多层第一特征图，所述注意力子网络针对每层第一特征图输出与该层相对应的注意力图，并基于每层第一特征图和与该层相对应的注意力图生成该层的第二特征图。

5.根据权利要求4所述的人脸检测方法，其特征在于，相对应层的所述注意力图和所述第一特征图的长宽分别相等。

6.根据权利要求5所述的人脸检测方法，其特征在于，所述注意力图是取值范围为[0,1]的二维矩阵。

7.根据权利要求6所述的人脸检测方法，其特征在于，所述基于所述第一特征图和所述注意力图生成第二特征图包括：

将所述注意力图与所述第一特征图逐点相乘，以生成所述第二特征图。

8.根据权利要求6所述的人脸检测方法，其特征在于，所述基于所述第一特征图和所述注意力图生成第二特征图包括：

将所述注意力图经过放大操作后与所述第一特征图逐点相乘，以生成所述第二特征图。

9.根据权利要求8所述的人脸检测方法，其特征在于，所述放大操作包括：基于以e为底的指数函数将所述注意力图放大到取值范围为[1,e]。

10.根据权利要求2所述的人脸检测方法，其特征在于，所述神经网络的训练包括：

基于所述注意力子网络输出的注意力图和所述注意力图的监督信号计算注意力损失；

基于所述分类子网络输出的分类信息和所述分类信息的监督信号计算分类损失；

基于所述回归子网络输出的回归信息和所述回归信息的监督信号计算回归损失；以及

基于所述注意力损失、所述分类损失以及所述回归损失优化所述神经网络的参数。

11.根据权利要求10所述的人脸检测方法，其特征在于，所述注意力图的监督信号为由0元素和1元素组成的矩阵，其中1元素表示人脸包围框区域，0元素表示人脸包围框区域以外的区域。

12.一种人脸检测装置，其特征在于，所述人脸检测装置包括：

获取模块，用于获取待处理的图像；以及

人脸检测模块，用于利用训练好的具有注意力机制的神经网络对所述获取模块获取的所述待处理图像进行人脸检测。

13.一种人脸检测系统，其特征在于，所述人脸检测系统包括存储装置和处理器，所述存储装置上存储有由所述处理器运行的计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1-11中的任一项所述的人脸检测方法。

14.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序在运行时执行如权利要求1-11中的任一项所述的人脸检测方法。