CN110147703A

CN110147703A - 人脸关键点检测方法、装置及存储介质

Info

Publication number: CN110147703A
Application number: CN201810949946.0A
Authority: CN
Inventors: 赵世杰; 李峰; 左小祥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-20
Filing date: 2018-08-20
Publication date: 2019-08-20
Anticipated expiration: 2038-08-20
Also published as: CN110147703B

Abstract

本申请公开了一种人脸关键点检测方法、装置及存储介质，属于图像处理技术领域。所述方法包括：获取目标图像，目标图像包括人脸；将目标图像输入至第一神经网络，并获取第一神经网络输出的概率信息，概率信息用于指示目标图像中的像素位于目标图像中人脸所在的区域的概率；根据概率信息，对目标图像进行裁剪，得到人脸区域图像，目标图像中的人脸在人脸区域图像中所占的比例大于目标比例阈值；将人脸区域图像输入至第二神经网络，并获取第二神经网络输出的人脸关键点的坐标。本申请实施例提供的技术方案可以解决人脸关键点检测的准确性较差的问题。

Description

人脸关键点检测方法、装置及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种人脸关键点检测方法、装置及存储介质。

背景技术

人脸关键点检测也称为人脸关键点识别、人脸关键点定位或者人脸对齐，指的是对人脸关键点进行定位的一种技术。其中，人脸关键点包括眉毛、眼睛、鼻子和嘴巴等。人脸关键点检测是对人脸进行识别的基础环节。

相关技术中，用户可以将包含人脸的图像输入至一个神经网络中，通过该神经网络对该图像钟的特征进行提取，并根据提取到的特征输出该图像中人脸关键点的坐标。

当人脸在图像中所占的区域较小时，通过神经网络所提取到的人脸特征就相对较少，根据该较少的人脸特征输出的人脸关键点的坐标就很可能不准确，这导致人脸关键点检测的准确性较差。

发明内容

本申请实施例提供了一种人脸关键点检测方法、装置及存储介质，可以解决当人脸在图像中所占的区域较小时，通过神经网络所提取到的人脸特征就相对较少，导致人脸关键点检测的准确性较差的问题。所述技术方案如下：

根据本申请的一方面，提供了一种人脸关键点检测方法，所述方法包括：

获取目标图像，所述目标图像包括人脸；

将所述目标图像输入至第一神经网络，并获取所述第一神经网络输出的概率信息，所述概率信息用于指示所述目标图像中的像素位于所述目标图像中人脸所在的区域的概率；

根据所述概率信息对所述目标图像进行裁剪，得到人脸区域图像，所述目标图像中的人脸在所述人脸区域图像中所占的比例大于目标比例阈值；

将所述人脸区域图像输入至第二神经网络，并获取所述第二神经网络输出的人脸关键点的坐标。

根据本申请的另一方面，提供了一种人脸关键点检测装置，所述装置包括：

第一获取模块，用于获取目标图像，所述目标图像包括人脸；

第二获取模块，用于将所述目标图像输入至第一神经网络，并获取所述第一神经网络输出的概率信息，所述概率信息用于指示所述目标图像中的像素位于所述目标图像中人脸所在的区域的概率；

裁剪模块，用于根据所述概率信息对所述目标图像进行裁剪，得到人脸区域图像，所述目标图像中的人脸在所述人脸区域图像中所占的比例大于目标比例阈值；

第三获取模块，用于将所述人脸区域图像输入至第二神经网络，并获取所述第二神经网络输出的人脸关键点的坐标。

根据本申请的另一方面，提供了一种人脸关键点检测装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令；

所述指令由所述处理器加载并执行以实现本申请实施例提供的人脸关键点检测方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令；

所述指令由处理器加载并执行以实现本申请实施例提供的人脸关键点检测方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将包括人脸的目标图像输入至第一神经网络，并得到该第一神经网络输出的概率信息，而后根据该概率信息对目标图像进行裁剪，得到人脸区域图像，将该人脸区域图像输入至第二神经网络，并得到该第二神经网络输出的人脸关键点的坐标，其中，目标图像中的人脸在人脸区域图像中所占的比例大于目标比例阈值，由于向第二神经网络输入的人脸区域图像中人脸所占的区域较大，因此，通过第二神经网络从该人脸区域图像中提取到的特征中人脸的特征就相对较多，根据该较多的人脸的特征而输出的人脸关键点的坐标准确性就较高，从而可以提高人脸关键点检测的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种人脸关键点检测结果的示意图。

图2是本申请实施例提供的一种人脸关键点检测方法所涉及到的实施环境的示意图。

图3是本申请实施例提供的一种人脸关键点检测方法所涉及到的实施环境的示意图。

图4是本申请实施例提供的一种人脸关键点检测方法的流程图。

图5是本申请实施例提供的一种人脸关键点检测方法的流程图。

图6是本申请实施例提供的一种第一神经网络的示意图。

图7是本申请实施例提供的一种第二神经网络的示意图。

图8是本申请实施例提供的一种人脸关键点检测方法的示意图。

图9是本申请实施例提供的一种人脸关键点检测装置的框图。

图10是本申请实施例提供的一种终端的框图。

图11是本申请实施例提供的一种服务器的框图。

图12是本申请实施例提供的一种监控摄像机的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人脸关键点检测在人脸识别、嘴型识别、表情识别以及疲劳检测等领域都具有关键作用。其中，人脸关键点检测指的是对人脸关键点进行定位的一种技术，通常情况下，人脸关键点可以包括眉毛、眼睛、鼻子和嘴巴等。图1为一种示例性的人脸关键点检测结果的示意图，如图1所示，检测得到的人脸关键点分别为眼睛、鼻子和嘴巴。

相关技术中，在对某图片进行人脸关键点检测时，可以将该图像输入至一神经网络中，其中，该神经网络可以为卷积神经网络(英文：Convolutional Neural Network；简称：CNN)，通过该神经网络可以对该图像的特征进行提取，并基于提取到的特征输出该图像中人脸关键点的坐标。

然而，在实际应用中，经常会出现图像中人脸所占区域较小的情况，例如，在监控视频中，人脸在视频帧中所占的区域可能较小，又例如，在网络直播视频中，人脸在视频帧中所占的区域也可能较小。当图像中人脸所占区域较小时，通过神经网络提取到的人脸的特征就相对较少，这会影响利用神经网络进行人脸关键点检测的准确性。

本申请实施例提供了一种人脸关键点检测方法，可以保证人脸关键点检测的准确性。在本申请实施例提供的人脸关键点检测方法中，进行人脸关键点检测的电子设备可以将包括人脸的目标图像输入至第一神经网络，并得到该第一神经网络输出的概率信息，而后根据该概率信息对目标图像进行裁剪，得到人脸区域图像，将该人脸区域图像输入至第二神经网络，并得到该第二神经网络输出的人脸关键点的坐标，其中，目标图像中的人脸在人脸区域图像中所占的比例大于目标比例阈值，由于向第二神经网络输入的人脸区域图像中人脸所占的区域较大，因此，通过第二神经网络从该人脸区域图像中提取到的特征中人脸的特征就相对较多，根据该较多的人脸的特征而输出的人脸关键点的坐标准确性就较高，从而可以提高人脸关键点检测的准确性。

下面，将对本申请实施例提供的人脸关键点检测方法所涉及到的实施环境进行说明。

图2为本申请实施例提供的人脸关键点检测方法所涉及到的一种实施环境的示意图，如图2所示，该实施环境可以包括服务器101和终端102，服务器101和终端102之间可以通过有线网络或无线网络进行通信。

其中，终端102可以为智能手机、平板电脑、可穿戴设备、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、电子书阅读器或者车载设备等。服务器101可以为一台服务器，也可以为由多台服务器组成的服务器集群。

如图2所示，终端102可以将包含人脸的图像或视频(例如，该视频可以为终端102拍摄的网络直播视频)发送至服务器101。服务器101中可以存储有第一神经网络和第二神经网络，其中，第一神经网络能够基于输入的图像而输出输入的图像的概率信息，其中，输入的图像的概率信息概率信息用于指示输入的图像中的像素位于人脸所在区域的概率，该第二神经网络用于对输入的图像进行人脸关键点检测。服务器101可以利用该第一神经网络和该第二神经网络对终端102发送的图像或视频中的视频帧(统称为目标图像)进行人脸关键点检测。

图3为本申请实施例提供的人脸关键点检测方法所涉及到的另一种实施环境的示意图，如图3所示，该实施环境可以包括监控摄像机103和服务器104，监控摄像机103和服务器104之间可以通过有线网络或无线网络进行通信。

如图3所示，监控摄像机103可以拍摄监控视频，并将拍摄到的监控视频发送至服务器104，其中，该监控视频包括人脸。服务器104中也可以存储有上述第一神经网络和第二神经网络，服务器104可以利用该第一神经网络和该第二神经网络对监控视频的视频帧(也即是目标图像)进行人脸关键点检测。

当然，在一些可能的实现方式中，本申请实施例提供的人脸关键点检测方法所涉及到的实施环境可以仅包括服务器，或者仅包括终端102，或者仅包括监控摄像机103。

在实施环境仅包括终端102或监控摄像机103的情况下，该终端102和该监控摄像机103中可以存储有上述第一神经网络和第二神经网络，该终端102或监控摄像机103可以利用该第一神经网络和该第二神经网络对目标图像进行人脸关键点检测。

在实施环境仅包括服务器的情况下，服务器可以利用第一神经网络和第二神经网络对自身存储的图像或视频帧(也即是目标图像)进行人脸关键点检测。

请参考图4，其示出了本申请实施例提供的一种人脸关键点检测方法的流程图，该人脸关键点检测方法可以应用于图2中的服务器101中，或者，该人脸关键点检测方法可以应用于图3中的服务器104中，或者，在实施环境仅包括终端102的情况下，该人脸关键点检测方法可以应用于终端102中，或者，在实施环境仅包括监控摄像机103的情况下，该人脸关键点检测方法可以应用于监控摄像机103中。如图4所示，该人脸关键点检测方法可以包括以下步骤：

步骤401、获取目标图像。

其中，该目标图像包括人脸。

在本申请实施例中，该目标图像可以为视频中的视频帧，例如，该目标图像可以是终端102拍摄的视频(该视频可以为网络直播视频)中的视频帧，又例如，该目标图像可以是监控摄像机103拍摄的监控视频中的视频帧。当然，在本申请实施例中，该目标图像也可以为照片等静态图像。本申请实施例对目标图像的种类不作具体限定。

步骤402、将目标图像输入至第一神经网络，获取第一神经网络输出的概率信息。

该第一神经网络能够基于输入的图像(包含人脸)而输出该输入的图像的概率信息，其中，该输入的图像的概率信息用于指示该输入的图像中的像素位于人脸所在区域的概率。

换句话说，在步骤402中，该第一神经网络能够基于目标图像输出该目标图像的概率信息，其中，该目标图像的概率信息用于指示目标图像中的像素位于目标图像中人脸所在的区域的概率，可选的，该目标图像的概率信息用于指示目标图像中的每个像素位于目标图像中人脸所在的区域的概率。

在本申请的一个实施例中，该第一神经网络可以为CNN网络。

步骤403、根据第一神经网络输出的概率信息，对目标图像进行裁剪，得到人脸区域图像。

其中，目标图像中的人脸在人脸区域图像中所占的比例大于目标比例阈值，可选的，该目标比例阈值可以由技术人员进行设定，本申请实施例对其不做具体限定。

步骤404、将人脸区域图像输入至第二神经网络，并获取第二神经网络输出的人脸关键点的坐标。

该第二神经网络用于对输入的图像进行人脸关键点检测。换句话说，在步骤404中，该第二神经网络用于对人脸区域图像进行人脸关键点检测，并最终输出人脸区域图像中人脸关键点的坐标。

其中，人脸关键点的坐标指的是人脸关键点在人脸区域图像的图像坐标系中的坐标。

综上所述，本申请实施例提供的人脸关键点检测方法，通过将包括人脸的目标图像输入至第一神经网络，并得到该第一神经网络输出的概率信息，而后根据该概率信息对目标图像进行裁剪，得到人脸区域图像，将该人脸区域图像输入至第二神经网络，并得到该第二神经网络输出的人脸关键点的坐标，其中，目标图像中的人脸在人脸区域图像中所占的比例大于目标比例阈值，由于向第二神经网络输入的人脸区域图像中人脸所占的区域较大，因此，通过第二神经网络从该人脸区域图像中提取到的特征中人脸的特征就相对较多，根据该较多的人脸的特征而输出的人脸关键点的坐标准确性就较高，从而可以提高人脸关键点检测的准确性。

请参考图5，其示出了本申请实施例提供的一种人脸关键点检测方法的流程图，该人脸关键点检测方法可以应用于图2中的服务器101中，或者，该人脸关键点检测方法可以应用于图3中的服务器104中，或者，在实施环境仅包括终端102的情况下，该人脸关键点检测方法可以应用于终端102中，或者，在实施环境仅包括监控摄像机103的情况下，该人脸关键点检测方法可以应用于监控摄像机103中。如图5所示，该人脸关键点检测方法可以包括以下步骤：

步骤501、获取目标图像。

在本申请实施例提供的人脸关键点检测方法用于图2中的服务器101的情况下，步骤501中，该服务器101可以接收终端102发送的包含人脸的图像或视频，而后，服务器101可以将终端102发送的图像或视频中的视频帧获取为目标图像。

在本申请实施例提供的人脸关键点检测方法用于图3中的服务器104的情况下，步骤501中，该服务器104可以接收监控摄像机103发送的包含人脸的监控视频，而后，服务器104可以将监控摄像机103发送的该监控视频中的视频帧获取为目标图像。

在本申请实施例提供的人脸关键点检测方法的实施环境仅包括终端102的情况下，步骤501中，终端102可以将自身存储或拍摄的包含人脸的图像或包含人脸的视频的视频帧获取为目标图像。

在本申请实施例提供的人脸关键点检测方法的实施环境仅包括监控摄像机103的情况下，步骤501中，监控摄像机103可以将自身拍摄的包含人脸的监控视频的视频帧获取为目标图像。

在本申请实施例提供的人脸关键点检测方法的实施环境仅包括服务器的情况下，步骤501中，服务器可以将自身存储的包含人脸的图像或包含人脸的视频的视频帧获取为目标图像。

步骤502、将目标图像输入至第一神经网络，并获取第一神经网络输出的概率信息。

在本申请的一个实施例中，该第一神经网络可以包括相互耦合的图像特征提取子网络和图像特征放大子网络。

其中，图像特征提取子网络可以为CNN网络，其用于对目标图像中的特征进行提取，并输出该目标图像的特征图(英文：feature map)。通常情况下，图像特征提取子网络输出的该特征图的尺寸小于目标图像的尺寸，换句话说，图像特征提取子网络可以实现对目标图像的低维特征提取。

需要指出的是，目标图像的特征图本质上是一个u*v的矩阵，该矩阵中的元素即为图像特征提取子网络所提取到的目标图像的特征，其中，目标图像的特征图的尺寸小于目标图像的尺寸指的是：u的值小于y的值，v的值小于x的值，其中，目标图像的分辨率等于x*y。

图像特征放大子网络也可以为CNN网络，其用于对图像特征提取子网络输出的特征图进行放大，并输出放大后的特征图，该放大后的特征图也可称为目标图像的概率图(英文：score map)。该概率图的尺寸与目标图像的尺寸相等，该概率图用于指示目标图像中的每个像素位于该目标图像中人脸所在区域的概率。换句话说，图像特征放大子网络可以将目标图像的低维特征进行高维还原。

需要指出的是，目标图像的概率图本质上是一个x*y的矩阵(目标图像的概率图的尺寸与该目标图像的尺寸相等)，该矩阵中的元素为图像特征放大子网络对图像特征提取子网络输出的特征图中的元素进行处理后得到的，该矩阵中的元素与目标图像中的像素一一对应，例如，该矩阵中第a行第b列的元素与目标图像中第a行第b列的像素对应，该矩阵中的元素用于指示目标图像中对应的元素位于该目标图像中人脸所在区域的概率。

在步骤502中，可以将目标图像输入至第一神经网络，经过相互耦合的图像特征提取子网络和图像特征放大子网络对该目标图像进行处理后，该第一神经网络可以输出目标图像的概率图，此时，该概率图即为上文所述的第一神经网络输出的概率信息。

可选的，该第一神经网络还可以根据目标概率阈值对目标图像的概率图进行二值化处理，也即是，该第一神经网络可以将概率图(x*y的矩阵)中大于目标概率阈值的元素的值设置为第一值，将概率图中小于或等于目标概率阈值的元素的值设置为第二值。其中，目标概率阈值、第一值和第二值均可以由技术人员进行设定，本申请实施例对其不做具体限定。

经过二值化处理后，第一神经网络可以输出二值化图，该二值化图本质上是一个x*y的矩阵，该矩阵中的每个元素的值均为第一值或第二值。此时，该二值化图即为上文所述的第一神经网络输出的概率信息。

下面，本申请实施例将对图像特征提取子网络和图像特征放大子网络的结构进行简要说明。

一、图像特征提取子网络：

在本申请实施例中，图像特征提取子网络可以包括n个第一卷积层组和n-1个第一池化层，n为大于1的正整数。其中，在图像特征提取子网络中，第一卷积层组和第一池化层可以交替设置，并由第一个第一卷积层组接收对该图像特征提取子网络的输入，由最后一个第一卷积层组进行该图像特征提取子网络的输出，第一卷积层组可以包括至少一个第一卷积层。

图6为一个示例性的第一神经网络的示意图，如图6所示，该第一神经网络可以包括图像特征提取子网络和图像特征放大子网络，其中，该图像特征提取子网络可以包括4个第一卷积层组和3个第一池化层，其中，该4个第一卷积层组分别为第一卷积层组jz11、第一卷积层组jz12、第一卷积层组jz13和第一卷积层组jz14，该3个第一池化层分别为第一池化层c11、第一池化层c12和第一池化层c13，第一卷积层组jz11可以包括第一卷积层j11和第一卷积层j12，第一卷积层组jz12可以包括第一卷积层j13和第一卷积层j14，第一卷积层组jz13可以包括第一卷积层j15和第一卷积层j16，第一卷积层组jz14可以包括第一卷积层j17和第一卷积层j18。

1、第一卷积层和第一卷积层组：

第一卷积层组中的每个第一卷积层均可以包括至少一个卷积核，某第一卷积层可以基于自身包括的卷积核对该某第一卷积层的输入进行卷积操作和激励操作，从而得到该某第一卷积层的输出。

某第一卷积层组中的第一个第一卷积层的输入即为该某第一卷积层组的输入，某第一卷积层组中除第一个第一卷积层之外的其他的第一卷积层的输入为上一个第一卷积层的输出，某第一卷积层组中最后一个第一卷积层的输出为该某第一卷积层组的输出。

例如，若第一卷积层组jz11包括依次相邻的3个第一卷积层j11、j12和j13，则第一卷积层j11的输入为该第一卷积层组jz11的输入，第一卷积层j12的输入为第一卷积层j11的输出，第一卷积层j13的输入为第一卷积层j12的输出，第一卷积层j13的输出为该第一卷积层组jz11的输出。

2、第一池化层：

第一池化层可以对该第一池化层的输入进行池化操作，从而得到该第一池化层的输出。其中，某第一池化层的输入为与该某第一池化层相邻的且位于该某第一池化层之前的第一卷积层组的输出，某第一池化层的输出为与该某第一池化层相邻的且位于该某第一池化层之后的第一卷积层组的输入。

例如，若第一池化层c11位于第一卷积层组jz11和第一卷积层组jz12之间，且，第一卷积层组jz11位于该第一池化层c11之前，第一卷积层组jz12位于第一池化层c11之后，则第一池化层c11的输入为该第一卷积层组jz11的输出，第一池化层c11的输出为该第一卷积层组jz12的输入。

3、图像特征提取子网络的整体结构：

图像特征提取子网络中的第一个第一卷积层组的输入为目标图像，第j个第一卷积层组的输入为第j-1个第一卷积层组的输出经过第j-1个第一卷积层组和第j个第一卷积层组之间的第一池化层进行池化操作后得到的输出，j为大于1的正整数，最后一个第一卷积层组的输出为该图像特征提取子网络的输出，也即是，最后一个第一卷积层组的输出为该目标图像的特征图。

例如，图像特征提取子网络可以包括依次相邻的第一卷积层组jz11、第一池化层c11和第一卷积层组jz12，则该第一卷积层组jz11的输入即为目标图像，该第一池化层c11的输入为该第一卷积层组jz11的输出，该第一卷积层组jz12的输入为该第一池化层c11的输出，该第一卷积层组jz12的输出为该图像特征提取子网络的输出，也即是该目标图像的特征图。

在步骤502中，可以将目标图像输入至图像特征提取子网络的第一个第一卷积层组中，而后，通过图像特征提取子网络的第i个第一卷积层组对第i个第一输入子特征图(也即是第i个第一卷积层组的输入)进行卷积操作和激励操作，得到该第i个第一卷积层组的输出，该第i个第一卷积层组的输出为第i个第一输出子特征图，而后，将图像特征提取子网络的第n个第一卷积层组(也即是最后一个第一卷积层组)的输出获取为目标图像的特征图，该第n个第一卷积层组的输出为第n个第一输出子特征图。

如上所述，当i＝1时，上述第i个第一输入子特征图为该目标图像，当1＜i≤n时，上述第i个第一输入子特征图为第i-1个第一输出子特征图经过第i-1个第一池化层进行池化操作后得到的，该第i-1个第一池化层位于图像特征提取子网络的第i-1个第一卷积层组和第i个第一卷积层组之间。

二、图像特征放大子网络：

在本申请实施例中，图像特征放大子网络可以包括n-1个第二卷积层组和n-1个反卷积层。其中，在图像特征放大子网络中，第二卷积层组和反卷积层可以交替设置，并由第一个反卷积层接收对该图像特征放大子网络的输入，由最后一个第二卷积层组进行该图像特征放大子网络的输出，第二卷积层组可以包括至少一个第二卷积层。

请继续参考图6，如图6所示，该图像特征放大子网络可以包括3个第二卷积层组和3个反卷积层，其中，该3个第二卷积层组分别为第二卷积层组jz21、第二卷积层组jz22和第二卷积层组jz23，该3个反卷积层分别为反卷积层f11、反卷积层f12和反卷积层f13，第二卷积层组jz21可以包括第二卷积层j21和第二卷积层j22，第二卷积层组jz22可以包括第二卷积层j23和第二卷积层j24，第二卷积层组jz23可以包括第二卷积层j25、第二卷积层j26和第二卷积层j27。

1、第二卷积层和第二卷积层组：

第二卷积层组中的每个第二卷积层均可以包括至少一个卷积核，某第二卷积层可以基于自身包括的卷积核对该某第二卷积层的输入进行卷积操作和激励操作，从而得到该某第二卷积层的输出。

某第二卷积层组中的第一个第二卷积层的输入即为该某第二卷积层组的输入，某第二卷积层组中除第一个第二卷积层之外的其他的第二卷积层的输入为上一个第二卷积层的输出，某第二卷积层组中最后一个第二卷积层的输出为该某第二卷积层组的输出。

例如，若第二卷积层组jz21包括依次相邻的3个第二卷积层j21、j22和j23，则第二卷积层j21的输入为该第二卷积层组jz21的输入，第二卷积层j22的输入为第二卷积层j21的输出，第二卷积层j23的输入为第二卷积层j22的输出，第二卷积层j23的输出为该第二卷积层组jz21的输出。

2、反卷积层：

反卷积层可以对该反卷积层的输入进行反卷积操作(也可以称为转置卷积操作)，从而得到该反卷积层的输出。其中，图像特征放大子网络中的第一个反卷积层的输入为该图像特征放大子网络的输入，也即是该目标图像的特征图，图像特征放大子网络中除第一个反卷积层以外的其他的反卷积层的输入为与该反卷积层相邻的且位于该反卷积层之前的第二卷积层组的输出。图像特征放大子网络中的某反卷积层的输出为与该某反卷积层相邻的且位于该某反卷积层之后的第二卷积层组的输入。

例如，若反卷积层f11位于第二卷积层组jz21和第二卷积层组jz22之间，且，第二卷积层组jz21位于该反卷积层f11之前，第二卷积层组jz22位于反卷积层f11之后，则反卷积层f11的输入为该第二卷积层组jz21的输出，反卷积层f11的输出为该第二卷积层组jz22的输入。

又例如，若反卷积层f11为图像放大子网络的第一个反卷积层，且，与该反卷积层f11相邻的，位于该反卷积层f11之后的第二卷积层组为第二卷积层组jz21，则该反卷积层f11的输入为目标图像的特征图，该反卷积层f11的输出为第二卷积层组jz21的输入。

3、图像特征放大子网络的整体结构：

图像特征放大子网络中的第一个第二卷积层组的输入为目标图像的特征图经过第一个反卷积层进行反卷积操作后得到的输出，第j个第二卷积层组的输入为第j-1个第二卷积层组的输出经过第j-1个第二卷积层组和第j个第二卷积层组之间的反卷积层进行反卷积操作后得到的输出，j为大于1的正整数，最后一个第二卷积层组的输出为该图像特征放大子网络的输出，也即是，最后一个第二卷积层组的输出为该目标图像的概率图。

例如，图像特征放大子网络可以包括依次相邻的反卷积层f11、第二卷积层组jz21、反卷积层f12和第二卷积层组jz22，则该反卷积层f11的输入即为目标图像的特征图，第二卷积层组jz21的输入为反卷积层f11的输出，反卷积层f12的输入为第二卷积层组jz21的输出，第二卷积层组jz22的输入为反卷积层f12的输出，第二卷积层组jz22的输出为该图像特征放大子网络的输出，也即是该目标图像的概率图。

在本申请的一个实施例中，图像特征放大子网络中的第一个第二卷积层组的输入可以由两部分组成，其中一部分为上文所述的目标图像的特征图经过该图像特征放大子网络中的第一个反卷积层进行反卷积操作后得到的输出，另一部分为第n-1个第一输出子特征图，也即是，图像特征提取子网络中第n-1个第一卷积层组的输出。

此外，图像特征放大子网络中的第j个第二卷积层组的输入也可以由两部分组成，其中一部分为上文所述的第j-1个第二卷积层组的输出经过第j-1个第二卷积层组和第j个第二卷积层组之间的反卷积层进行反卷积操作后得到的输出，另一部分为第n-j个第一输出子特征图，也即是，图像特征提取子网络中第n-j个第一卷积层组的输出。

请继续参考图6，如图6所示，图像特征放大子网络中的第二卷积层组jz21的输入为反卷积层f11的输出与第一卷积层组jz13的输出的组合，图像特征放大子网络中的第二卷积层组jz22的输入为反卷积层f12的输出与第一卷积层组jz12的输出的组合，图像特征放大子网络中的第二卷积层组jz23的输入为反卷积层f13的输出与第一卷积层组jz11的输出的组合。

将反卷积层的输出和第一卷积层组的输出进行组合得到第二卷积层组的输入的方式，可以使第二卷积层组的输入融合目标图像的不同维度的特征，从而提高图像特征放大子网络对目标图像的低维特征进行高维还原的鲁棒性。

在步骤502中，可以将目标图像的特征图输入至该图像特征放大子网络的第一个反卷积层中，而后，通过图像特征放大子网络的第i个第二卷积层组对第i个第二输入子特征图(也即是第i个第二卷积层组的输入)进行卷积操作和激励操作，得到该第i个第二卷积层组的输出，该第i个第二卷积层组的输出为第i个第二输出子特征图，并将图像特征放大子网络的第n-1个第二卷积层组(也即是最后一个第二卷积层组)输出的第n-1个第二输出子特征图获取为目标图像的概率图。

如上所述，当i＝1时，第i个第二输入子特征图为目标图像的特征图经过第一个反卷积层进行反卷积操作后得到的输出，或者，第i个第二输入子特征图为目标图像的特征图经过第一个反卷积层进行反卷积操作后与第n-1个第一输出子特征图进行组合而得到的。

当1＜i≤n-1时，第i个第二输入子特征图为第i-1个第二输出子特征图经过第i个反卷积层进行反卷积操作后得到的，该第i个反卷积层位于图像特征放大子网络的第i-1个第二卷积层组和第i个第二卷积层组之间，或者，该第i个第二输入子特征图为第i-1个第二输出子特征图经过第i个反卷积层进行反卷积操作后与第n-i个第一输出子特征图进行组合而得到的。

步骤503、根据第一神经网络输出的概率信息，对目标图像进行裁剪，得到人脸区域图像。

可选的，在步骤503中，可以根据第一神经网络输出的概率信息对该目标图像中的人脸进行定位。

以第一神经网络输出的概率信息为二值化图为例，在步骤503中，可以从该二值化图(x*y的矩阵)中获取目标元素，该目标元素的值为第一值，而后，可以获取每个目标元素对应的目标图像中的像素，可以将该每个目标元素对应的目标图像中的像素确定为人脸所在区域内的像素，这样，就可以实现对目标图像中的人脸进行定位。

在对目标图像中的人脸进行定位后，可以对该目标图像进行裁剪，得到该人脸区域图像，其中，人脸区域图像中人脸所占的比例大于目标比例阈值。

在本申请的一个实施例中，该人脸区域图像可以为矩形图像，该矩形图像的4个边界组成的矩形为该目标图像中人脸的最小外接矩形。

步骤504、对人脸区域图像进行归一化处理。

在步骤504中，可以将人脸区域图像进行归一化处理，也即是，对人脸区域图像进行缩放处理，使得经过缩放处理后的人脸区域图像的尺寸与第二神经网络要求的输入图像的尺寸相符。

步骤505、将经过归一化处理的人脸区域图像输入至第二神经网络，并获取第二神经网络输出的人脸关键点的坐标。

在本申请的一个实施例中，该第二神经网络可以为CNN网络。下面，本申请实施例将对该第二神经网络的结构进行简要说明：

在本申请实施例中，第二神经网络可以包括m个第三卷积层组和m-1个第三池化层，m为大于1的正整数。其中，在第二神经网络中，第三卷积层组和第三池化层可以交替设置，并由第一个第三卷积层组接收对该第二神经网络的输入，由最后一个第三卷积层组进行该第二神经网络的输出，第三卷积层组可以包括至少一个第三卷积层。

图7为一个示例性的第二神经网络的示意图，如图7所示，该第二神经网络可以包括4个第三卷积层组和3个第三池化层，其中，该4个第三卷积层组分别为第三卷积层组jz31、第三卷积层组jz32、第三卷积层组jz33和第三卷积层组jz34，该3个第三池化层分别为第三池化层c31、第三池化层c32和第三池化层c33，第三卷积层组jz31可以包括第三卷积层j31和第三卷积层j32，第三卷积层组jz32可以包括第三卷积层j33和第三卷积层j34，第三卷积层组jz33可以包括第三卷积层j35和第三卷积层j36，第三卷积层组jz34可以包括第三卷积层j37和第三卷积层j38。

1、第三卷积层和第三卷积层组：

第三卷积层组中的每个第三卷积层均可以包括至少一个卷积核，某第三卷积层可以基于自身包括的卷积核对该某第三卷积层的输入进行卷积操作和激励操作，从而得到该某第三卷积层的输出。

某第三卷积层组中的第一个第三卷积层的输入即为该某第三卷积层组的输入，某第三卷积层组中除第一个第三卷积层之外的其他的第三卷积层的输入为上一个第三卷积层的输出，某第三卷积层组中最后一个第三卷积层的输出为该某第三卷积层组的输出。

例如，若第三卷积层组jz31包括依次相邻的3个第三卷积层j31、j32和j33，则第三卷积层j31的输入为该第三卷积层组jz31的输入，第三卷积层j32的输入为第三卷积层j31的输出，第三卷积层j33的输入为第三卷积层j32的输出，第三卷积层j33的输出为该第三卷积层组jz31的输出。

2、第三池化层：

第三池化层可以对该第三池化层的输入进行池化操作，从而得到该第三池化层的输出。其中，某第三池化层的输入为与该某第三池化层相邻的且位于该某第三池化层之前的第三卷积层组的输出，某第三池化层的输出为与该某第三池化层相邻的且位于该某第三池化层之后的第三卷积层组的输入。

例如，若第三池化层c31位于第三卷积层组jz31和第三卷积层组jz32之间，且，第三卷积层组jz31位于该第三池化层c31之前，第三卷积层组jz32位于第三池化层c31之后，则第三池化层c31的输入为该第三卷积层组jz31的输出，第三池化层c31的输出为该第三卷积层组jz32的输入。

3、第二神经网络的整体结构：

第二神经网络中的第一个第三卷积层组的输入为人脸区域图像，第j个第三卷积层组的输入为第j-1个第三卷积层组的输出经过第j-1个第三卷积层组和第j个第三卷积层组之间的第三池化层进行池化操作后得到的输出，j为大于1的正整数，最后一个第三卷积层组的输出为该第二神经网络的输出，也即是，最后一个第三卷积层组的输出为人脸区域图像中人脸关键点的坐标。

例如，第二神经网络可以包括依次相邻的第三卷积层组jz31、第三池化层c31和第三卷积层组jz32，则该第三卷积层组jz31的输入即为人脸区域图像，该第三池化层c31的输入为该第三卷积层组jz31的输出，该第三卷积层组jz32的输入为该第三池化层c31的输出，该第三卷积层组jz32的输出为该第二神经网络的输出，也即是人脸区域图像中人脸关键点的坐标。

在步骤505中，可以将人脸区域图像输入至第二神经网络的第一个第三卷积层组中，而后，通过第二神经网络的第i个第三卷积层组对第i个第三输入子特征图(也即是第i个第三卷积层组的输入)进行卷积操作和激励操作，得到该第i个第三卷积层组的输出，该第i个第三卷积层组的输出为第i个第三输出子特征图，而后，将第二神经网络的第m个第三卷积层组(也即是最后一个第三卷积层组)的输出获取为人脸区域图像中人脸关键点的坐标。

如上所述，当i＝1时，上述第i个第三输入子特征图为该人脸区域图像，当1＜i≤n时，上述第i个第三输入子特征图为第i-1个第三输出子特征图经过第i-1个第二池化层进行池化操作后得到的，该第i-1个第二池化层位于第二神经网络的第i-1个第三卷积层组和第i个第三卷积层组之间。

本申请实施例采用级联的神经网络对目标图像进行人脸关键点检测，由于级联的神经网络是相互解耦的，因此，可以按照用户的实际需求对任一神经网络进行更换，例如，可以更换上文所述的第一神经网络或第二神经网络，这样，就可以提高人脸关键点检测的灵活性。

为了方便读者理解本申请实施例提供的技术方案，下面，将结合图8对本申请实施例提供的人脸关键点检测方法进行说明：

如图8所示，在本申请实施例提供的人脸关键点检测方法中，可以将目标图像10输入至第一神经网络20中，从而得到该第一神经网络20输出的二值化图30，而后将该二值化图30输入至中间衔接模块40中，以由该中间衔接模块40根据该二值化图30对目标图像10进行裁剪，从而得到人脸区域图像50，接着将该人脸区域图像50输入至第二神经网络60中，从而得到该第二神经网络60输出的至少一个人脸关键点的坐标70，并得到人脸关键点检测的结果示意图80。

请参考图9，其示出了本申请实施例提供的一种人脸关键点检测装置600的框图，该人脸关键点检测装置600可以配置于图2中的服务器101中，或者，该人脸关键点检测装置600可以配置于图3中的服务器104中，或者，在实施环境仅包括终端102的情况下，该人脸关键点检测装置600可以配置于终端102中，或者，在实施环境仅包括监控摄像机103的情况下，该人脸关键点检测装置600可以配置于监控摄像机103中。如图9所示，该人脸关键点检测装置600可以包括：第一获取模块601、第二获取模块602、裁剪模块603和第三获取模块604。

其中，该第一获取模块601，用于获取目标图像，该目标图像包括人脸。

该第二获取模块602，用于将该目标图像输入至第一神经网络，并获取该第一神经网络输出的概率信息，该概率信息用于指示该目标图像中的像素位于该目标图像中人脸所在的区域的概率。

该裁剪模块603，用于根据该概率信息，对该目标图像进行裁剪，得到人脸区域图像，该目标图像中的人脸在该人脸区域图像中所占的比例大于目标比例阈值。

该第三获取模块604，用于将该人脸区域图像输入至第二神经网络，并获取该第二神经网络输出的人脸关键点的坐标。

在本申请的一个实施例中，该第一神经网络包括图像特征提取子网络和图像特征放大子网络，该第二获取模块602，包括：

第一获取子模块，用于将该目标图像输入至该图像特征提取子网络，并获取该图像特征提取子网络对该目标图像进行特征提取后输出的特征图，该特征图的尺寸小于该目标图像的尺寸；

第二获取子模块，用于将该特征图输入至该图像特征放大子网络，并获取该图像特征放大子网络对该特征图进行放大后输出的概率图，该概率图的尺寸等于该目标图像的尺寸，该概率图包括该目标图像中的每个像素位于该目标图像中人脸所在区域的概率；

第三获取子模块，用于将该概率图获取为该第一神经网络输出的该概率信息。

在本申请的一个实施例中，该图像特征提取子网络包括n个第一卷积层组和n-1个第一池化层，该第一卷积层组和该第一池化层交替设置，该第一卷积层组包括至少一个第一卷积层，n为大于1的正整数；

该第一获取子模块，用于：将该目标图像输入至该图像特征提取子网络的第一个第一卷积层组中；通过该图像特征提取子网络的第i个第一卷积层组对第i个第一输入子特征图进行卷积操作和激励操作，输出第i个第一输出子特征图，其中，当i＝1时，该第i个第一输入子特征图为该目标图像，当1＜i≤n时，该第i个第一输入子特征图为第i-1个第一输出子特征图经过第i-1个第一池化层进行池化操作后得到的；将该图像特征提取子网络的第n个第一卷积层组输出的第n个第一输出子特征图获取为该特征图。

在本申请的一个实施例中，该图像特征放大子网络包括n-1个第二卷积层组和n-1个反卷积层，该第二卷积层组和该反卷积层交替设置，该第二卷积层组包括至少一个第二卷积层；

该第二获取子模块，用于将该特征图输入至该图像特征放大子网络的第一个反卷积层中；通过该图像特征放大子网络的第i个第二卷积层组对第i个第二输入子特征图进行卷积操作和激励操作，输出第i个第二输出子特征图，其中，当i＝1时，该第i个第二输入子特征图为该特征图经过该第一个反卷积层进行反卷积操作后得到的，当1＜i≤n-1时，该第i个第二输入子特征图为第i-1个第二输出子特征图经过第i个反卷积层进行反卷积操作后得到的；将该图像特征放大子网络的第n-1个第二卷积层组输出的第n-1个第二输出子特征图获取为该概率图。

在本申请的一个实施例中，当i＝1时，该第i个第二输入子特征图为该特征图经过该第一个反卷积层进行反卷积操作后与第n-1个第一输出子特征图进行组合而得到的；当1＜i≤n-1时，该第i个第二输入子特征图为该第i-1个第二输出子特征图经过该第i个反卷积层进行反卷积操作后与第n-i个第一输出子特征图进行组合而得到的。

在本申请的一个实施例中，该第二获取模块602，还包括二值化子模块；

该二值化子模块，用于按照目标概率阈值对该概率图进行二值化处理，得到二值化图；

该第三获取子模块，用于将该二值化图获取为该第一神经网络输出的该概率信息。

在本申请的一个实施例中，该第二神经网络包括m个第三卷积层组和m-1个第二池化层，该第三卷积层组和该第二池化层交替设置，该第三卷积层组包括至少一个第三卷积层，m为大于1的正整数；该第三获取模块604，用于：将该人脸区域图像输入至该第二神经网络的第一个第三卷积层组中；通过该第二神经网络的第i个第三卷积层组对第i个第三输入子特征图进行卷积操作和激励操作，输出第i个第三输出子特征图，其中，当i＝1时，该第i个第三输入子特征图为该人脸区域图像，当1＜i≤m时，该第i个第三输入子特征图为第i-1个第三输出子特征图经过第i-1个第二池化层进行池化操作后得到；根据该第二神经网络的第m个第三卷积层组输出的第m个第三输出子特征图，获取并输出该人脸关键点的坐标。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10示出了本申请一个示例性实施例提供的终端700的结构框图。该终端700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所执行以实现本申请中方法实施例提供的人脸关键点检测方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图11是根据一示例性实施例示出的一种服务器的结构示意图。所述服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。所述服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

所述基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中所述显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。所述基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。所述大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，所述大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本申请的各种实施例，所述服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在所述系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，中央处理器801通过执行该一个或一个以上程序来实现本申请实施例提供的人脸关键点检测方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器，上述指令可由服务器的处理器执行以完成本申请实施例提供的人脸关键点检测方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图12示出了本申请一个示例性实施例提供的一种监控摄像机900的结构框图。如图12所示，该监控摄像机900包括处理组件901、摄像组件902和存储组件903。其中，该处理组件901可以为处理芯片，该处理组件901可以分别与摄像组件902和存储组件903连接，该摄像组件902用于拍摄监控视频，该摄像组件902可以为摄像头，该存储组件903可以存储操作系统、应用程序或其他程序模块，处理组件901通过执行存储组件903中存储的应用程序来实现本申请实施例提供的人脸关键点检测方法。

本申请实施例还提供了一种计算机可读存储介质，该存储介质为非易失性存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由处理器加载并执行以实现如本申请上述实施例提供的人脸关键点检测方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品中存储有指令，当其在计算机上运行时，使得计算机能够执行本申请实施例提供的人脸关键点检测方法。

本申请实施例还提供了一种芯片，该芯片包括可编程逻辑电路和/或程序指令，当该芯片运行时能够执行本申请实施例提供的人脸关键点检测方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人脸关键点检测方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像包括人脸；

将所述目标图像输入至第一神经网络，获取所述第一神经网络输出的概率信息，所述概率信息用于指示所述目标图像中的像素位于所述目标图像中人脸所在的区域的概率；

将所述人脸区域图像输入至第二神经网络，获取所述第二神经网络输出的人脸关键点的坐标。

2.根据权利要求1所述的方法，其特征在于，所述第一神经网络包括图像特征提取子网络和图像特征放大子网络；

所述将所述目标图像输入至第一神经网络，获取所述第一神经网络输出的概率信息，包括：

将所述目标图像输入至所述图像特征提取子网络，获取所述图像特征提取子网络对所述目标图像进行特征提取后输出的特征图，所述特征图的尺寸小于所述目标图像的尺寸；

将所述特征图输入至所述图像特征放大子网络，获取所述图像特征放大子网络对所述特征图进行放大后输出的概率图，所述概率图的尺寸等于所述目标图像的尺寸，所述概率图包括所述目标图像中的每个像素位于所述目标图像中人脸所在区域的概率；

将所述概率图确定为所述第一神经网络输出的所述概率信息。

3.根据权利要求2所述的方法，其特征在于，所述图像特征提取子网络包括n个第一卷积层组和n-1个第一池化层，所述第一卷积层组和所述第一池化层交替设置，所述第一卷积层组包括至少一个第一卷积层，n为大于1的正整数；

所述将所述目标图像输入至所述图像特征提取子网络，并获取所述图像特征提取子网络对所述目标图像进行特征提取后输出的特征图，包括：

将所述目标图像输入至所述图像特征提取子网络的第一个第一卷积层组中；

通过所述图像特征提取子网络的第i个第一卷积层组对第i个第一输入子特征图进行卷积操作和激励操作，输出第i个第一输出子特征图，其中，当i＝1时，所述第i个第一输入子特征图为所述目标图像，当1＜i≤n时，所述第i个第一输入子特征图为第i-1个第一输出子特征图经过第i-1个第一池化层进行池化操作后得到的；

将所述图像特征提取子网络的第n个第一卷积层组输出的第n个第一输出子特征图获取为所述特征图。

4.根据权利要求3所述的方法，其特征在于，所述图像特征放大子网络包括n-1个第二卷积层组和n-1个反卷积层，所述第二卷积层组和所述反卷积层交替设置，所述第二卷积层组包括至少一个第二卷积层；

所述将所述特征图输入至所述图像特征放大子网络，并获取所述图像特征放大子网络对所述特征图进行放大后输出的概率图，包括：

将所述特征图输入至所述图像特征放大子网络的第一个反卷积层中；

通过所述图像特征放大子网络的第i个第二卷积层组对第i个第二输入子特征图进行卷积操作和激励操作，输出第i个第二输出子特征图，其中，当i＝1时，所述第i个第二输入子特征图为所述特征图经过所述第一个反卷积层进行反卷积操作后得到的，当1＜i≤n-1时，所述第i个第二输入子特征图为第i-1个第二输出子特征图经过第i个反卷积层进行反卷积操作后得到的；

将所述图像特征放大子网络的第n-1个第二卷积层组输出的第n-1个第二输出子特征图获取为所述概率图。

5.根据权利要求4所述的方法，其特征在于，

当i＝1时，所述第i个第二输入子特征图为所述特征图经过所述第一个反卷积层进行反卷积操作后与第n-1个第一输出子特征图进行组合而得到的；

当1＜i≤n-1时，所述第i个第二输入子特征图为所述第i-1个第二输出子特征图经过所述第i个反卷积层进行反卷积操作后与第n-i个第一输出子特征图进行组合而得到的。

6.根据权利要求2所述的方法，其特征在于，所述将所述特征图输入至所述图像特征放大子网络，并获取所述图像特征放大子网络对所述特征图进行放大后输出的概率图之后，所述方法还包括：

按照目标概率阈值对所述概率图进行二值化处理，得到二值化图；

所述将所述概率图获取为所述第一神经网络输出的所述概率信息，包括：

将所述二值化图获取为所述第一神经网络输出的所述概率信息。

7.根据权利要求1至6任一所述的方法，其特征在于，所述第二神经网络包括m个第三卷积层组和m-1个第二池化层，所述第三卷积层组和所述第二池化层交替设置，所述第三卷积层组包括至少一个第三卷积层，m为大于1的正整数；

所述将所述人脸区域图像输入至第二神经网络，并获取所述第二神经网络输出的人脸关键点的坐标，包括：

将所述人脸区域图像输入至所述第二神经网络的第一个第三卷积层组中；

通过所述第二神经网络的第i个第三卷积层组对第i个第三输入子特征图进行卷积操作和激励操作，输出第i个第三输出子特征图，其中，当i＝1时，所述第i个第三输入子特征图为所述人脸区域图像，当1＜i≤m时，所述第i个第三输入子特征图为第i-1个第三输出子特征图经过第i-1个第二池化层进行池化操作后得到；

根据所述第二神经网络的第m个第三卷积层组输出的第m个第三输出子特征图，获取并输出所述人脸关键点的坐标。

8.一种人脸关键点检测装置，其特征在于，所述装置包括：

裁剪模块，用于根据所述概率信息，对所述目标图像进行裁剪，得到人脸区域图像，所述目标图像中的人脸在所述人脸区域图像中所占的比例大于目标比例阈值；

9.根据权利要求8所述的装置，其特征在于，所述第一神经网络包括图像特征提取子网络和图像特征放大子网络，所述第二获取模块，包括：

第一获取子模块，用于将所述目标图像输入至所述图像特征提取子网络，并获取所述图像特征提取子网络对所述目标图像进行特征提取后输出的特征图，所述特征图的尺寸小于所述目标图像的尺寸；

第二获取子模块，用于将所述特征图输入至所述图像特征放大子网络，并获取所述图像特征放大子网络对所述特征图进行放大后输出的概率图，所述概率图的尺寸等于所述目标图像的尺寸，所述概率图包括所述目标图像中的每个像素位于所述目标图像中人脸所在区域的概率；

第三获取子模块，用于将所述概率图获取为所述第一神经网络输出的所述概率信息。

10.根据权利要求9所述的装置，其特征在于，所述图像特征提取子网络包括n个第一卷积层组和n-1个第一池化层，所述第一卷积层组和所述第一池化层交替设置，所述第一卷积层组包括至少一个第一卷积层，n为大于1的正整数；

所述第一获取子模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述图像特征放大子网络包括n-1个第二卷积层组和n-1个反卷积层，所述第二卷积层组和所述反卷积层交替设置，所述第二卷积层组包括至少一个第二卷积层；

所述第二获取子模块，用于：

12.根据权利要求11所述的装置，其特征在于，当i＝1时，所述第i个第二输入子特征图为所述特征图经过所述第一个反卷积层进行反卷积操作后与第n-1个第一输出子特征图进行组合而得到的；

13.根据权利要求9所述的装置，其特征在于，所述第二获取模块，还包括二值化子模块；

所述二值化子模块，用于按照目标概率阈值对所述概率图进行二值化处理，得到二值化图；

所述第三获取子模块，用于将所述二值化图获取为所述第一神经网络输出的所述概率信息。

14.一种人脸关键点检测装置，其特征在于，所述人脸关键点检测装置包括处理器和存储器，所述存储器中存储有至少一条指令；

所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的人脸关键点检测方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令；

所述指令由处理器加载并执行以实现如权利要求1至7任一所述的人脸关键点检测方法。