CN112257645A

CN112257645A - 人脸的关键点定位方法和装置、存储介质及电子装置

Info

Publication number: CN112257645A
Application number: CN202011205000.7A
Authority: CN
Inventors: 张姜
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-22
Anticipated expiration: 2040-11-02
Also published as: CN112257645B

Abstract

本发明公开了一种人脸的关键点定位方法和装置、存储介质及电子装置。其中，该方法包括：将人脸图像输入第一卷积神经网络中，通过第一卷积神经网络的特征提取最终连接全连接层输出人脸图像对应的角度信息；将该角度信息和该人脸图像输入第二卷积神经网络中，该第二卷积神经网络的特征提取最终与全连接层相连并输出人脸关键点的坐标信息，达到了将人脸角度信息作为一个重要特征融入到人脸关键点定位的目的。本发明解决了现有技术中，人脸关键点定位的精度差的技术问题。

Description

人脸的关键点定位方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机视觉技术领域，具体而言，涉及一种人脸的关键点定位方法和装置、存储介质及电子装置。

背景技术

人脸关键点定位是目前学术界和工业界的一个研究焦点，旨在对于给定的人脸图像，定位多个人脸关键的特征点(如眉毛、眼睛、鼻子、嘴巴、面部轮廓等)的位置，关键点的数量从最早的5个到现在的68个、100多个乃至上千个等等。作为提取人脸特征的前置任务，该项技术在多个人脸分析的下游任务中起到重要的作用，例如人脸识别、头部姿态估计、人脸属性分析等等。尽管近年来有一系列方法致力于人脸关键点检测的研究中，但是人脸关键点检测这一课题中依旧存在诸多的挑战。主要原因在于自然开放场景下获得的人脸图像由于大姿态和大表情，具有很大的变化性，使得人脸关键点检测的算法很容易陷入局部最优，很难处理一些极端情况，导致最终关键点检测效果较差。

在自然开放场景下获得的人脸图像由于大姿态和夸张表情，具有很大的变化性，同时，多姿态、大角度对关键点定位的影响主要体现在两个方面：1、大角度人脸会导致部分面部信息的缺失，难以通过图像获取特征以及实现准确定位；2、大角度、复杂姿态的人脸场景相对较少，即样本数量不平衡问题，这会导致一些普通的方法在进行学习时，无法很好的关注到这部分情形的人脸，进而造成此类场景下的关键点定位效果较差。如果能够将人脸的姿态信息作为关键点定位时的辅助信息，为关键点的定位在人脸角度层面上提供一定程度的指导，那么定位效果极有可能得到改善。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种人脸的关键点定位方法和装置、存储介质及电子装置，以至少解决现有技术中，人脸关键点定位的精度差的技术问题。

根据本发明实施例的一个方面，提供了一种人脸的关键点定位方法，包括：获取包括目标人脸的人脸图像；将所述人脸图像输入至第一卷积神经网络，输出所述人脸图像对应的角度特征图，其中，所述角度特征图包括所述目标人脸的角度信息，所述第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，所述预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在所述第一损失函数值趋于收敛时，得到所述第一卷积神经网络；将所述人脸图像和所述角度特征图输入至第二卷积神经网络，输出所述目标人脸的关键点的坐标信息，其中，所述第二卷积神经网络是通过所述样本人脸图像和所述样本角度特征图训练预设第二卷积神经网络得到的，所述预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在所述第二损失函数值趋于收敛时，得到所述第二卷积神经网络。

根据本发明实施例的另一方面，还提供了一种人脸的关键点定位装置，包括：第一获取单元，用于获取包括目标人脸的人脸图像；第一输出单元，用于将所述人脸图像输入至第一卷积神经网络，输出所述人脸图像对应的角度特征图，其中，所述角度特征图包括所述目标人脸的角度信息，所述第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，所述预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在所述第一损失函数值趋于收敛时，得到所述第一卷积神经网络；第二输出单元，用于将所述人脸图像和所述角度特征图输入至第二卷积神经网络，输出所述目标人脸的关键点的坐标信息，其中，所述第二卷积神经网络是通过所述样本人脸图像和所述样本角度特征图训练预设第二卷积神经网络得到的，所述预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在所述第二损失函数值趋于收敛时，得到所述第二卷积神经网络。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述人脸的关键点定位方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的人脸的关键点定位方法。

在本发明实施例中，通过获取包括目标人脸的人脸图像；将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络，达到了将人脸角度信息作为一个重要特征融入到人脸关键点定位的目的，进而解决了现有技术中，人脸关键点定位的精度差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的人脸的关键点定位方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的人脸的关键点定位方法的流程图；

图3是根据本发明实施例的一种可选的多姿态人脸的关键点定位的模型结构示意图；

图4是根据本发明实施例的一种可选的多姿态人脸的关键点定位的流程图；

图5是根据本发明实施例的一种可选的人脸的关键点定位装置的结构示意图；

图6是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种人脸的关键点定位方法，可选地，作为一种可选的实施方式，上述人脸的关键点定位方法可以但不限于应用于如图1所示的硬件环境中，其中，可以包括但不限于终端设备102、网络110及服务器112。

其中，上述终端设备102中可以包括但不限于：人机交互屏幕104，处理器106及存储器108。人机交互屏幕104用于通过人机交互接口获取人机交互指令，还用于呈现目标人脸的人脸图像；处理器106用于响应上述人机交互指令，显示目标人脸的人脸图像。存储器108用于存储人脸图像的属性信息。这里服务器可以包括但不限于：数据库114及处理引擎116，处理引擎116用于调用数据库114中存储的人脸图像，将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络。

具体过程如以下步骤：在终端设备102中的人机交互屏幕104显示人脸图像。如步骤S102-S108，获取包括目标人脸的人脸图像，并将该运动人脸图像通过网络110发送服务器112。在服务器112将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络。然后将上述确定出的结果返回终端设备102。

然后，如步骤S102-S108，终端设备102获取包括目标人脸的人脸图像；将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络，达到了将人脸角度信息作为一个重要特征融入到人脸关键点定位的目的，进而解决了现有技术中，人脸关键点定位的精度差的技术问题。

可选地，在本实施例中，上述人脸的关键点定位方法可以但不限于应用于服务器112中，用于协助应用客户端对所发布的人脸图像定位关键点的坐标信息。其中，上述应用客户端可以但不限于运行在终端设备102中，该终端设备102可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器112和终端设备102可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述人脸的关键点定位方法包括：

步骤S202，获取包括目标人脸的人脸图像。

步骤S204，将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络。

步骤S206，将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络。

可选的，在本实施例中，人脸图像是指从对各种图像进行人脸检测后截取或者剪裁的图像。

具体的，通过多种方式获取人脸图像，比如计算机连接无线连接方式或有线连接方式从存储有人脸图像数据集的服务器中获取。或者，人脸图像预先存储在计算机设备本地，计算机设备从本地获取人脸图像。

可选的，上述第一卷积神经网络可以理解为角度回归子网络，上述第二卷积神经网络可以理解为关键点回归子网络。其中，第一卷积神经网络和第二卷积神经网络是人脸的关键点定位模型的两个部分。

可选的，在本实施例中，获取包括目标人脸的人脸图像，可以包括：

通过数据集提供的人脸检测框从目标图像中获取目标人脸的人脸图像；或，通过人脸检测工具从目标图像中获取目标人脸的人脸图像。

可选的，在本实施例中，将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，可以包括：将人脸图像输入至第一卷积神经网络中特征提取层获取人脸图像的角度特征信息；将角度特征信息输入至第一卷积神经网络中的全连接层进行角度回归，输出角度特征图。

可选的，在本实施例中，将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，可以包括：将人脸图像和角度特征图输入至第二卷积神经网络中的特征提取层获取人脸图像的关键点的特征信息；将关键点的特征信息输入至第二卷积神经网络中的全连接层进行关键点坐标回归，输出目标人脸的关键点的坐标信息。

其中，第一卷积神经网络的输入为人脸图像，通过第一卷积神经网络的特征提取最终连接全连接层输出人脸图像对应的角度信息；而对于第二神经卷积神经网络，其输入分为两部分，一个是人脸图像、另一部分是来自第一卷积神经网络的角度特征，同样通过卷积神经网络的特征提取最终与全连接层相连并输出人脸关键点的坐标信息。

需要说明的是，以上提及的卷积神经网络可以用目前深度学习领域经过验证并被广泛应用的例如VGG、ResNet等模型，如果在推理速度方面有较高的要求，也可以考虑使用MobileNet、ShuffleNet等轻量级的卷积网络。具体的网络结构中涉及的细节考量，例如block的数目等均可以视具体任务的具体要求来决定，基本是在训练、推理的速度和定位精度之间的做一个权衡。另外损失函数等的选择也可以根据具体的数据集的特点来进行选择，例如L1、L2、SmoothL1、Wingloss等关键点定位任务中比较常用的损失函数。

还需要说明的是，上述角度回归子网络和关键点回归子网络训练过程如下，对于一张输入的人脸图片而言，先通过角度回归子网络的推理能够获得其三维欧拉角的信息，同时取出这一阶段获得的高层语义特征；接着进入到关键点回归子网络，输入人脸图片，在训练进行到中间层的时候，之前获取的包含角度信息的高层语义特征流入进来与中间层的特征进行融合，融合的特征继续向前，获得跟高层的特征，通过全连接层最终回归出人脸关键点的坐标信息，整体的训练过程较为简单，针对前述多姿态人脸定位的问题，采用辅助子网络回归角度信息获取姿态特征，再将姿态特征与关键点的特征融合，利用这种融合特征去回归关键点坐标时，便能够关注到角度信息。与此同时，整个训练过程也实现了一个人脸角度+人脸关键点定位的多任务回归。

通过本申请提供的实施例，获取包括目标人脸的人脸图像；将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络，达到了将人脸角度信息作为一个重要特征融入到人脸关键点定位的目的，进而解决了现有技术中，人脸关键点定位的精度差的技术问题。

其中，在本实施例中，利用了卷积神经网络对于数据深层特征的提取能力和深度学习模型强悍的拟合分布的能力，让人脸图像的姿态信息以高层语义的形式参与到关键点定位的回归过程，这样学习拟合得到的模型一方面能够保持在各种人脸姿态下定位性能的鲁棒性，另一方面由于特征信息的丰富性，也能够提升整体模型的定位精度。

可选的，在本实施例中，获取包括目标人脸的人脸图像之后，还包括：

通过待标注的目标人脸关键点与标准人脸的关键点获得一组旋转向量，其中，标注人脸的关键点是预先设定满足预定条件对应的人脸的关键点；

基于一组旋转向量获得相应的旋转矩阵或者四元数，进而计算获得目标人脸的第一三维欧拉角。

其中，在本实施例中，一种较为简单的获取人脸角度信息的方法为：1)预先定义一个“标准人脸”，取数据集中若干数量的正面人脸的11个关键点(涵盖眉、眼、鼻、嘴以及面部轮廓)坐标的平均值作为“标准人脸”；2)利用待标注的人脸关键点与标准人脸的关键点获得一组旋转向量；3)基于旋转向量获得相应的旋转矩阵或者四元数，进而计算获得欧拉角。每张图的欧拉角信息的保存格式为1×3的数组。

其中，通过待标注的目标人脸关键点与标准人脸的关键点获得一组旋转向量之前，还包括：

获取预定数量的目标人脸的正面人脸的关键点坐标值；

将预定数量的关键点坐标值的平均值确定为目标人脸对应的标注人脸的关键点的坐标值。

其中，基于一组旋转向量获得相应的旋转矩阵或者四元数，进而计算获得目标人脸的第一三维欧拉角时，还可以包括：从角度特征图在获取目标人脸的第二三维欧拉角；计算第一三维欧拉角和第二三维欧拉角之间的偏差；根据偏差确定第一卷积神经网络输出目标人脸关键点的定位结果的可信度；根据可信度调整第一卷积神经网络。

其中，在本实施例中，利用训练完成的模型进行人脸关键点定位的推理，推理时可以利用角度回归子网络与关键点回归子网络的结果联合评估定位结果的可信度，即评估角度回归的欧拉角与定位关键点计算所得欧拉角的偏差。

作为一种可选的实施例，本申请还提供一种可选的实施例一种多姿态人脸的关键点定位方法。如图3所示，多姿态人脸的关键点定位的模型结构示意图。

如图3所示，整个模型由两部分组成：角度回归子网络和关键点回归子网络。其中，角度回归子网络的输入为人脸图像，通过卷积神经网络的特征提取最终连接全连接层输出人脸图像对应的角度信息；而对于关键点回归子网络，其输入分为两部分，一个是人脸图像、另一部分是来自角度回归子网络的角度特征，同样通过卷积神经网络的特征提取最终与全连接层相连并输出人脸关键点的坐标信息。

其中，以上提及的卷积神经网络可以用目前深度学习领域经过验证并被广泛应用的例如VGG、ResNet等模型，如果在推理速度方面有较高的要求，也可以考虑使用MobileNet、ShuffleNet等轻量级的卷积网络。具体的网络结构中涉及的细节考量，例如block的数目等均可以视具体任务的具体要求来决定，基本是在训练、推理的速度和定位精度之间的做一个权衡。另外损失函数等的选择也可以根据具体的数据集的特点来进行选择，例如L1、L2、SmoothL1、Wingloss等关键点定位任务中比较常用的损失函数。

如图4所示，多姿态人脸的关键点定位的流程图。

步骤1，获取人脸区域图像；

在步骤1中，可以利用数据集提供的人脸框获取人脸区域图像，还可以利用人脸检测工具获得检测框。

其中，对一批人脸关键点数据集进行欧拉角(pitch-俯仰角、yaw-偏航角、roll-翻滚角)的标注，一种较为简单的获取人脸角度信息的方法为：1)预先定义一个“标准人脸”，取数据集中若干数量的正面人脸的11个关键点(涵盖眉、眼、鼻、嘴以及面部轮廓)坐标的平均值作为“标准人脸”；2)利用待标注的人脸关键点与标准人脸的关键点获得一组旋转向量；3)基于旋转向量获得相应的旋转矩阵或者四元数，进而计算获得欧拉角。每张图的欧拉角信息的保存格式为1×3的数组，并利用数据集提供的人脸检测框对人脸区域进行裁剪。如果没有人脸框的标签，则需借助人脸检测工具获取人脸框。

步骤2，将裁剪的人脸图像归一化到112×112×3；

在步骤2中，具体操作是利用归一化的工具将图像像素从0～255变成0～1，再通过resize操作将图像尺寸统一到112×112×3(3通道)，归一化的目的是提升模型训练时的收敛速度。接下来，再对归一化后的图像进行增强，得到训练样本，其中增强方式包括随机旋转、水平翻转、随机遮挡、随机缩放、调整亮度以及调整对比度，以上增强手段一些图像处理的工具库中均有涉及，图像增强的目的是提升模型的泛化性能。

步骤3，对于角度回归子网络；

其中，该角度回归子网络使用ResNet16作为backbone，提取角度信息特征，利用全连接层进行角度回归。

其中，将预处理完成的训练样本作为该部分的输入，利用卷积神经网络对训练样本进行特征提取，输出一个特征图F，再连接全连接层进行角度回归，考虑到减小离群点对模型优化的影响，损失函数建议选用SmoothL1。

步骤4，对于关键点回归子网络；

其中，该关键点回归子网络使用ResNetSO的前21层残差模块，得到人脸关键点的特征信息，利用全连接层进行关键点坐标的回归。

将步骤2中的角度信息特征图F与人脸图像作为该子网络输入，由于特征图F属于人脸角度信息的高层语义特征，不宜直接将其与初始的人脸图像直接融合，因而选择将其与关键点回归子网络的中间某层的特征相融合，具体方案是将角度特征F通过反卷积运算变换到关键点回归子网络的中间层卷积输出的特征尺度，再将两者拼接起来。即人脸关键点的特征就能够接受到角度信息的辅助，并融入到定位子网络的训练和推理过程，使得模型在回归关键点坐标的同时能够关注到角度信息带来的影响，并进行相应的学习与拟合，进而提升整体的关键点定位的表现。接下来，同样利用卷积神经网络对训练样本进行特征提取，连接全连接层(size＝L，其中L为关键点的个数)进行关键点坐标回归，接着根据输出的关键点坐标计算出的欧拉角与标签的角度信息的偏差进行回归，即利用角度子网络的输出角度信息对关键点定位再加一层监督，损失函数同样建议选取SmoothL1；同时，随着训练的不断迭代，由于角度回归子网络的结构相对更加简单，会很快趋于收敛，利用其回归结果进一步对关键点回归子网络进行监督，加速这部分子网络的收敛的同时能够使得模型收敛到一个更优的解。具体而言，利用步骤1中的角度获取方式得到关键点回归子网络输出的关键点对应的三维欧拉角，计算其与角度回归子网络输出的偏差，并作为权重迭代的损失。

步骤5，利用训练完成的模型进行人脸关键点定位的推理，推理时可以利用角度回归子网络与关键点回归子网络的结果联合评估定位结果的可信度，即评估角度回归的欧拉角与定位关键点计算所得欧拉角的偏差。

在本实施例中，结合人脸姿态对关键点定位的影响，将人脸图像的姿态信息作为关键点定位时的辅助特征融入到定位的计算过程。可以利用关键点定位结果计算的欧拉角与角度回归网络的欧拉角对比进行关于关键点定位结果可信度的评估。

相对现有技术，在人脸关键点定位任务中，很多的方法都没有关注到或者是没有针对大角度问题对关键点的定位精度所带来的负面影响，大姿态带来的部分信息丢失以及样本不均衡的问题会使人脸关键点检测的算法很容易陷入局部最优，很难处理一些极端情况，导致最终的关键点定位的效果很差。

在本实施例中提出的方案中的多任务回归以及联合监督的方案使得模型在进行关键点回归的同时能够根据其人脸图像所对应的人脸角度，并将人脸角度信息作为一个重要特征融入到人脸关键点定位的训练与推理的过程中来辅助关键点的定位，基于深度学习模型超强的拟合能力，模型能够同时学习到人脸角度以及人脸关键点两部分信息，进而缓解大姿态人脸给检测精度带来的负面影响，提升关键点定位的效果。同时，将角度回归部分的输出结果即人脸三维角度信息，作为关键点回归的另一部分监督，加速网络在训练过程中的收敛速度并且使模型能够收敛到一个更优的解。另外，该方案中同时在以人脸关键点定位为出发点与核心任务的同时也实现了一种人脸角度+人脸关键点的多任务回归方案。这种多任务的模式使得关键点复用了角度的特征语义，从而大幅减小关键点回归网络规模，减小了计算量。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述人脸的关键点定位方法的人脸的关键点定位装置。如图5所示，该人脸的关键点定位装置包括：第一获取单元51、第一输出单元53以及第二输出单元55。

第一获取单元51，用于获取包括目标人脸的人脸图像。

第一输出单元53，用于将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络。

第二输出单元55，用于将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络。

其中，上述第一获取单元51，可以包括：第一获取模块，用于通过数据集提供的人脸检测框从目标图像中获取目标人脸的人脸图像；或，第二获取模块，用于通过人脸检测工具从目标图像中获取目标人脸的人脸图像。

可选的，上述第一输出单元53，可以包括：第一获取模块，用于将人脸图像输入至第一卷积神经网络中特征提取层获取人脸图像的角度特征信息；第一输出模块，用于将角度特征信息输入至第一卷积神经网络中的全连接层进行角度回归，输出角度特征图。

其中，上述第二输出单元53，可以包括：第二获取模块，用于将人脸图像和角度特征图输入至第二卷积神经网络中的特征提取层获取人脸图像的关键点的特征信息；第二输出模块，用于将关键点的特征信息输入至第二卷积神经网络中的全连接层进行关键点坐标回归，输出目标人脸的关键点的坐标信息。

通过本申请提供的实施例，第一获取单元51获取包括目标人脸的人脸图像；第一输出单元53将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；第二输出单元55将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第二卷积神经网络。达到了将人脸角度信息作为一个重要特征融入到人脸关键点定位的目的，进而解决了现有技术中，人脸关键点定位的精度差的技术问题。

可选的，上述装置还可以包括：第二获取单元，用于获取包括目标人脸的人脸图像之后，通过待标注的目标人脸关键点与标准人脸的关键点获得一组旋转向量，其中，标注人脸的关键点是预先设定满足预定条件对应的人脸的关键点；第三获取单元，用于基于一组旋转向量获得相应的旋转矩阵或者四元数，进而计算获得目标人脸的第一三维欧拉角。

可选的，上述装置还可以包括：第四获取单元，用于通过待标注的目标人脸关键点与标准人脸的关键点获得一组旋转向量之前，获取预定数量的目标人脸的正面人脸的关键点坐标值；第一确定单元，用于将预定数量的关键点坐标值的平均值确定为目标人脸对应的标注人脸的关键点的坐标值。

可选的，上述装置还可以包括：第五获取单元，用于基于一组旋转向量获得相应的旋转矩阵或者四元数，进而计算获得目标人脸的第一三维欧拉角时之后，从角度特征图在获取目标人脸的第二三维欧拉角；计算单元，用于计算第一三维欧拉角和第二三维欧拉角之间的偏差；第二确定单元，用于根据偏差确定第一卷积神经网络输出目标人脸关键点的定位结果的可信度；调整单元，用于根据可信度调整第一卷积神经网络。

根据本发明实施例的又一个方面，还提供了一种用于实施上述人脸的关键点定位方法的电子装置，如图6所示，该电子装置包括存储器602和处理器604，该存储器602中存储有计算机程序，该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取包括目标人脸的人脸图像；

S2，将人脸图像输入至第一卷积神经网络，输出人脸图像对应的角度特征图，其中，角度特征图包括目标人脸的角度信息，第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在第一损失函数值趋于收敛时，得到第一卷积神经网络；

S3，将人脸图像和角度特征图输入至第二卷积神经网络，输出目标人脸的关键点的坐标信息，其中，第二卷积神经网络是通过样本人脸图像和样本角度特征图训练预设第二卷积神经网络得到的，预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在第二损失函数值趋于收敛时，得到第一卷积神经网络。

可选地，本领域普通技术人员可以理解，图6所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图6其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图6中所示更多或者更少的组件(如网络接口等)，或者具有与图6所示不同的配置。

其中，存储器602可用于存储软件程序以及模块，如本发明实施例中的人脸的关键点定位方法和装置对应的程序指令/模块，处理器604通过运行存储在存储器602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的人脸的关键点定位方法。存储器602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器602可进一步包括相对于处理器604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器602具体可以但不限于用于存储人脸图像、角度特征图、关键点的坐标信息等信息。作为一种示例，如图6所示，上述存储器602中可以但不限于包括上述人脸的关键点定位装置中的第一获取单元51、第一输出单元53以及第二输出单元55。此外，还可以包括但不限于上述人脸的关键点定位装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置606包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置606为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器608，用于显示上述待处理人脸图像；和连接总线610，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取包括目标人脸的人脸图像；

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种人脸的关键点定位方法，其特征在于，包括：

获取包括目标人脸的人脸图像；

将所述人脸图像输入至第一卷积神经网络，输出所述人脸图像对应的角度特征图，其中，所述角度特征图包括所述目标人脸的角度信息，所述第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，所述预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在所述第一损失函数值趋于收敛时，得到所述第一卷积神经网络；

将所述人脸图像和所述角度特征图输入至第二卷积神经网络，输出所述目标人脸的关键点的坐标信息，其中，所述第二卷积神经网络是通过所述样本人脸图像和所述样本角度特征图训练预设第二卷积神经网络得到的，所述预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在所述第二损失函数值趋于收敛时，得到所述第二卷积神经网络。

2.根据权利要求1所述的方法，其特征在于，所述获取包括目标人脸的人脸图像，包括：

通过数据集提供的人脸检测框从目标图像中获取所述目标人脸的人脸图像；或，

通过人脸检测工具从所述目标图像中获取所述目标人脸的人脸图像。

3.根据权利要求1所述的方法，其特征在于，所述将所述人脸图像输入至第一卷积神经网络，输出所述人脸图像对应的角度特征图，包括：

将所述人脸图像输入至所述第一卷积神经网络中特征提取层获取所述人脸图像的角度特征信息；

将所述角度特征信息输入至所述第一卷积神经网络中的全连接层进行角度回归，输出所述角度特征图。

4.根据权利要求1所述的方法，其特征在于，所述将所述人脸图像和所述角度特征图输入至第二卷积神经网络，输出所述目标人脸的关键点的坐标信息，包括：

将所述人脸图像和所述角度特征图输入至所述第二卷积神经网络中的特征提取层获取所述人脸图像的关键点的特征信息；

将所述关键点的特征信息输入至所述第二卷积神经网络中的全连接层进行关键点坐标回归，输出所述目标人脸的关键点的坐标信息。

5.根据权利要求1所述的方法，其特征在于，所述获取包括目标人脸的人脸图像之后，所述方法还包括：

通过待标注的所述目标人脸关键点与标准人脸的关键点获得一组旋转向量，其中，所述标注人脸的关键点是预先设定满足预定条件对应的人脸的关键点；

基于所述一组旋转向量获得相应的旋转矩阵或者四元数，进而计算获得所述目标人脸的第一三维欧拉角。

6.根据权利要求5所述的方法，其特征在于，所述通过待标注的所述目标人脸关键点与标准人脸的关键点获得一组旋转向量之前，所述方法还包括：

获取预定数量的所述目标人脸的正面人脸的关键点坐标值；

将所述预定数量的关键点坐标值的平均值确定为所述目标人脸对应的标注人脸的关键点的坐标值。

7.根据权利要求5所述的方法，其特征在于，所述基于所述一组旋转向量获得相应的旋转矩阵或者四元数，进而计算获得所述目标人脸的第一三维欧拉角时之后，所述方法还包括：

从所述角度特征图在获取所述目标人脸的第二三维欧拉角；

计算所述第一三维欧拉角和所述第二三维欧拉角之间的偏差；

根据所述偏差确定所述第一卷积神经网络输出所述目标人脸关键点的定位结果的可信度；

根据所述可信度调整所述第一卷积神经网络。

8.一种人脸的关键点定位装置，其特征在于，包括：

第一获取单元，用于获取包括目标人脸的人脸图像；

第一输出单元，用于将所述人脸图像输入至第一卷积神经网络，输出所述人脸图像对应的角度特征图，其中，所述角度特征图包括所述目标人脸的角度信息，所述第一卷积神经网络是通过样本人脸图像训练预设第一卷积神经网络得到的，所述预设第一卷积神经网络包括输出样本角度特征图的特征提取层、进行角度回归的全连接层和第一损失函数，在所述第一损失函数值趋于收敛时，得到所述第一卷积神经网络；

第二输出单元，用于将所述人脸图像和所述角度特征图输入至第二卷积神经网络，输出所述目标人脸的关键点的坐标信息，其中，所述第二卷积神经网络是通过所述样本人脸图像和所述样本角度特征图训练预设第二卷积神经网络得到的，所述预设第二卷积神经网络包括关键点坐标回归的全连接层和第二损失函数，在所述第二损失函数值趋于收敛时，得到所述第二卷积神经网络。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。