CN108197547A

CN108197547A - 人脸姿态估计方法、装置、终端及存储介质

Info

Publication number: CN108197547A
Application number: CN201711435399.6A
Authority: CN
Inventors: 陈淑华; 牟永强
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-22
Anticipated expiration: 2037-12-26
Also published as: CN108197547B

Abstract

一种人脸姿态估计方法，包括：输入待估计的人脸姿态图像；根据第一分类模型对所述待估计的人脸姿态图像进行粗分类，以识别出所述待估计的人脸姿态图像是否为全侧脸人脸图像；当所述第一分类模型识别出所述待估计的人脸姿态图像为全侧脸人脸图像时，输出待估计的人脸姿态图像为全侧脸；当所述第一分类模型识别出所述待估计的人脸姿态图像不为全侧脸人脸图像时，根据第二分类模型对所述待估计的人脸姿态图像进行细分类；及输出待估计的人脸姿态图像的人脸姿态值。本发明还提供一种人脸姿态估计装置、终端及存储介质。本发明实现了由粗分到精细的人脸姿态估计，提高了人脸姿态估计的效率，获得了较佳的人脸姿态估计效果。

Description

人脸姿态估计方法、装置、终端及存储介质

技术领域

本发明涉及图像识别技术领域，具体涉及一种人脸姿态估计方法、装置、终端及存储介质。

背景技术

目前，人脸姿态估计在人脸识别和人机交互等领域中有着重要作用。人脸姿态估计就是对二维图像中的人脸在三维空间中所处的姿态进行估计。人脸姿态变化会导致人脸信息丢失及差异，使得不同人的侧脸的相似度比同一个人的侧脸和正脸之间的相似度还要高。

目前RGB图像上的人脸姿态估计一般包括三种方法：基于分类的方法、基于人脸外观的方法及基于回归的方法。基于分类的方法是按人脸角度的一定间距划分成不同的类别进行分类。基于人脸外观的方法是将人脸图像投影到各个主成分分析姿态空间，最相近投影系数空间的姿态作为该图像的人脸姿态。基于回归的方法是事先定义人脸关键点的几何结构，通过关键点检测以及模型从三维(three-dimension，3D)到二维(two-dimension，2D)的映射关系直接回归出人脸姿态的三个角度值：俯仰角(Pitch)，偏航角(Yaw)，翻滚角(Roll)。

然而，基于分类的方法中，由于人脸结构上的差异，在大规模数据标注上，该方法一定程度上受限于不同角度的类别之间所具有的主观模糊界限，比如正脸与半侧脸，这将导致最终结果具有一定的误差。基于人脸外观的方法直接依赖于图像的整体像素信息，因此计算维度较高，且姿态空间不连续，需要大量的不同姿态的人脸图像样本。基于回归的方法则主要依赖于关键点与3D人脸模型，而目前仍无法检测出大角度上的关键点，因而具有一定的局限性，如果关键点预测错误，则最终与3D可形变人脸模型进行拟合估计出的姿态值将会有非常大的误差。

发明内容

鉴于以上内容，有必要提出一种人脸姿态估计方法、装置、终端及存储介质，针对大角度人脸，首先对人脸图像进行粗分类处理得到全侧脸图像及非全侧脸图像，对于非全侧脸图像则再经过训练好的深度网络模型直接回归出人脸不同姿态的角度值，有效的提高了人脸姿态估计的效率，提高了人脸姿态角度估计的精度，获得了较佳的人脸姿态估计效果。

本发明的第一方面提供一种人脸姿态估计方法，应用于终端中，所述方法包括：

输入待估计的人脸姿态图像；

根据第一分类模型对所述待估计的人脸姿态图像进行粗分类，以识别出所述待估计的人脸姿态图像是否为全侧脸人脸图像；

当所述第一分类模型识别出所述待估计的人脸姿态图像为全侧脸人脸图像时，输出待估计的人脸姿态图像为全侧脸；

当所述第一分类模型识别出所述待估计的人脸姿态图像不为全侧脸人脸图像时，根据第二分类模型对所述待估计的人脸姿态图像进行细分类；及

输出待估计的人脸姿态图像的人脸姿态值。

根据本发明的一个优选实施例，在所述输出待估计的人脸姿态图像为全侧脸之后，所述方法还包括：

对所述待估计的人脸姿态图像进行后处理，得到满足要求的人脸图像，所述后处理包括以下一种或多种的组合：对所述全侧脸人脸图像进行合成得到正面人脸图像、对所述全侧脸人脸图像进行搜索得到与所述全侧脸人脸图像相似度超过预设相似度阈值的人脸图像。

根据本发明的一个优选实施例，所述方法还包括：训练所述第二分类模型，包括：

构造样本集，包括：

人工标注68个人脸关键点；

获取68个人脸关键点的坐标值；

将预先生成的3D形变模型投影到所述68个人脸关键点的坐标值上，得到每个样本的人脸姿态值；

构造样本数据对，所述样本数据对包括：人脸姿态值及对应的人脸姿态图像；

训练端到端的网络模型。

根据本发明的一个优选实施例，其特征在于，

所述第一分类模型为8层残差神经网络模型；

所述第二分类模型为10层残差神经网络模型。

本发明的第二方面提供一种人脸姿态估计装置，安装于终端中，所述装置包括：

输入模块，用于输入待估计的人脸姿态图像；

第一分类模块，用于根据第一分类模型对所述待估计的人脸姿态图像进行粗分类，以识别出所述待估计的人脸姿态图像是否为全侧脸人脸图像；

第一输出模块，用于当所述第一分类模块根据所述第一分类模型识别出所述待估计的人脸姿态图像为全侧脸人脸图像时，输出待估计的人脸姿态图像为全侧脸；

第二分类模块，用于当所述第一分类模块根据所述第一分类模型识别出所述待估计的人脸姿态图像不为全侧脸人脸图像时，根据第二分类模型对所述待估计的人脸姿态图像进行细分类；及

第二输出模块，用于输出待估计的人脸姿态图像的人脸姿态值。

根据本发明的一个优选实施例，所述装置还包括：

后处理模块，用于在所述第一输出模块输出待估计的人脸姿态图像为全侧脸之后，对所述待估计的人脸姿态图像进行后处理，得到满足要求的人脸图像，所述后处理包括以下一种或多种的组合：对所述全侧脸人脸图像进行合成得到正面人脸图像、对所述全侧脸人脸图像进行搜索得到与所述全侧脸人脸图像相似度超过预设相似度阈值的人脸图像。

根据本发明的一个优选实施例，所述第二分类模块还包括：

样本构造子模块，用于构造样本集，包括：

人工标注68个人脸关键点；

获取68个人脸关键点的坐标值；

模型训练子模块，用于训练端到端的网络模型。

根据本发明的一个优选实施例，

所述第一分类模型为8层残差神经网络模型；

所述第二分类模型为10层残差神经网络模型。

本发明的第三方面提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现人脸姿态估计方法。

本发明的第四方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现人脸姿态估计方法。

本发明运用所述的人脸姿态估计方法，首先对人脸图像进行粗分类处理得到全侧脸图像及非全侧脸图像，对于非全侧脸图像则再经过训练好的深度网络模型直接回归出人脸不同姿态的角度值，提高了人脸姿态角度估计的精度，获得较佳的人脸姿态估计效果。另外，训练的深度网络模型的网络层数较少，模型占用内存低，因而能够有效的缩短人脸姿态估计时间，提高了人脸姿态角度估计的效率，可以实时进行姿态估计。其次，对于分类出来的全侧脸图像，因其丢失了极大部分的人脸信息，进行进一步的处理以便于后续使用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例一提供的人脸姿态估计方法的流程图。

图2是本发明实施例二提供的残差神经网络训练方法的流程图。

图3是本发明实施例提供的标注的68个人脸关键点的示意图。

图4是本发明实施例三提供的人脸姿态估计装置的结构图。

图5是本发明实施例四提供的终端的示意图。

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

优选地，本发明的人脸姿态估计方法应用在一个或者多个终端或者服务器中。所述终端是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific IntegratedCircuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述终端可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本发明实施例一提供的人脸姿态估计方法的流程图。所述的人脸姿态估计方法应用于终端。

在本实施例中，所述人脸姿态估计方法可以应用于具备拍照或摄像功能的智能终端中，所述终端并不限定于个人电脑、智能手机、平板电脑、安装有摄像头的台式机或一体机等。

所述人脸姿态估计方法也可以应用于由终端和通过网络与所述终端进行连接的服务器所构成的硬件环境中。网络包括但不限于：广域网、城域网或局域网。本发明实施例的人脸姿态估计方法可以由服务器来执行，也可以由终端来执行，还可以是由服务器和终端共同执行。

例如，对于需要进行人脸姿态估计的终端，可以直接在终端上集成本发明的方法所提供的人脸姿态估计功能，或者安装用于实现本发明的方法的客户端。再如，本发明所提供的方法还可以软件开发工具包(Software Development Kit，SDK)的形式运行在服务器等设备上，以SDK的形式提供人脸姿态估计功能的接口，终端或其他设备通过所提供的接口即可实现人脸姿态的估计。

如图1所示，所述人脸姿态估计方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

101：输入待估计的人脸姿态图像。

本较佳实施例中，直接输入一张待估计的人脸彩色原始图像，即不需要对输入的原始图像进行预处理，例如，不需要将输入的彩色图形转换为灰度图像，也不需要将输入的原始图像进行裁切、去噪等处理。

102：根据第一分类模型对所述待估计的人脸姿态图像进行粗分类，以识别出所述待估计的人脸姿态图像是否为全侧脸人脸图像。

本较佳实施例中，事先训练所述第一分类模型，使得所述第一分类模型能对输入的待估计的人脸姿态图像进行粗分类，以将待估计的人脸姿态图像分为全侧脸和非全侧脸两大类。

本较佳实施例中，因拍摄环境多变的原因，人脸常常不是正面的，常呈现抬头、低头、左偏、右偏、歪头等各种姿态。将二维(two-dimension，2D)图像中的人脸在任一方向上偏转的角度超过预设角度的情形称之为全侧脸，所述预设角度可以是，例如，90度，此种情形下人脸在2D图像中的表现为只有一只眼睛，且鼻子已出轮廓线外。所述方向包括：以2D图像水平向右的方向为X轴正向、以2D图像垂直向上的方向为Y轴正向、以2D图像指向用户的方向为Z轴正向。人脸绕X轴方向旋转称为颈项俯仰(Pitch)，人脸绕Y轴方向旋转称为左右偏转(Yaw)，人脸绕Z轴方向旋转称为左右翻滚(Roll)。相应地，对人脸姿态的估计则为估计人脸在三个方向上的旋转信息，即估计人脸的俯仰角(Pitch)，偏转角(Yaw)，翻滚角(Roll)。所述全侧脸包括：左全侧脸、右全侧脸。

本较佳实施例中，所述非全侧脸是相对于所述全侧脸而言的，是指2D图像中的人脸在任一方向上偏转的角度均不超过所述预设角度的情形，即人脸在2D图像中的表现为两只眼睛，或者鼻子没有出轮廓线外。

本较佳实施例中，所述第一分类模型可以是事先训练的神经网络，例如，深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolution Neural Network，CNN)、循环神经网络(Recurrent neural Network，RNN)、残差神经网络(Residual NeuralNetwork，ResNet)等。

一个优选的技术方案是，采用残差神经网络进行训练，得到第一分类模型。所述残差神经网络是DNN中的一种变形，其他神经网络越深所能学到的东西就越多，收敛速度同时也就越慢，训练时间越长，然而深度到了一定程度之后越往深学习率反而越低，ResNet的设计就是为了克服这种由于网络深度加深而产生的学习率变低，准确率无法有效提升的问题，有效的解决了其他神经网络所存在的梯度消失的问题，因而能够获得更深的网络层数。

本较佳实施例中，所述残差神经网络的训练过程可以包括：构建一个包含左全侧脸，右全侧脸，非全侧脸的训练样本集，其中动静态训练样本集各一半；将所述训练样本集作为初始输入至残差神经网络中，经过一层卷积层后，送入三个残差块(Block)，最后经过一层全连接层输出送入分类函数，例如柔性最大值传输函数(Flexible maximum transferfunction，softmax)进行分类出左全侧脸、右全侧脸、非全侧脸，得到一个8层残差神经网络训练模型(下文简称为Resnet-8模型)。所述残差神经网络为现有技术，本发明在此不再具体阐述。

当所述第一分类模型识别出所述待估计的人脸姿态图像为全侧脸人脸图像时，执行步骤103；否则，当所述第一分类模型识别出所述待估计的人脸姿态图像不为全侧脸人脸图像时，执行步骤104。

103：输出待估计的人脸姿态图像为全侧脸。

本较佳实施例中，根据所述第一分类模型进行分类，识别出所述待估计的人脸姿态图像为全侧脸人脸图像，进而输出分类结果为：待估计的人脸姿态图像为全侧脸。

进一步地，当待估计的人脸姿态图像为全侧脸时，所述第一分类模型还可以对该全侧脸人脸图像进行分类，得到所述待估计的人脸姿态图像为左全侧脸或者为右全侧脸。

更进一步地，在步骤103之后，所述人脸姿态估计方法还可以包括：对所述待估计的人脸姿态图像进行后处理，得到满足要求的人脸图像。

所述后处理可以包括以下一种或多种的组合：人脸合成、人脸搜索。所述人脸合成是指对全侧脸人脸图像进行合成得到正面人脸图像。所述人脸搜索是指对全侧脸人脸图像进行搜索得到与所述全侧脸人脸图像相似度超过预设相似度阈值的人脸图像。

本发明能够根据所述第一分类模型将全侧脸人脸图像从海量的图像中快速的分类出来，并根据实际需求，对分类出的全侧脸人脸图像进行后处理，得到符合要求的人脸图像，使得全侧脸人脸图像得到了有效的利用；另外，分类出人脸偏转角度超过所述预设角度的全侧脸人脸图像，还有助于后续对全侧脸人脸图像的进一步研究与分析，便于技术的推广与使用。

104：根据第二分类模型对所述待估计的人脸姿态图像进行细分类。

本较佳实施例中，事先训练所述第二分类模型，使得所述第二分类模型能对输入的待估计的人脸姿态图像进行细分类，以输出待估计的人脸姿态图像的人脸姿态值。所述人脸姿态值包括：俯仰角(Pitch)，偏转角(Yaw)，翻滚角(Roll)。

本较佳实施例中，所述第二分类模型可以是事先训练的神经网络，例如，深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolution Neural Network，CNN)、循环神经网络(Recurrent neural Network，RNN)、残差神经网络(Residual NeuralNetwork，ResNet)等。

一个优选的技术方案是，采用残差神经网络进行训练，得到第二分类模型。本实施例中，可以采用10层残差神经网络进行训练，以分类出待估计的人脸姿态图像的人脸姿态值，所述10层残差神经网络的训练过程如图2及其相应描述。

105：输出待估计的人脸姿态图像的人脸姿态值。

本较佳实施例中，当根据所述第一分类模型对待估计的人脸姿态图像进行粗分类，得到所述待估计的人脸姿态图像为非全侧脸人脸图像时，直接将所述非全侧脸人脸图像输入至所述第二分类模型中进行分类，得到所述待估计的人脸姿态图像的人脸姿态值。

即所述待估计的人脸姿态图像为非全侧脸人脸图像时，不需要对待估计的人脸姿态图像进行任何处理，例如，不需要对待估计的人脸姿态图像进行人脸关键点检测或者与3D形变模型进行拟合等。直接将待估计的人脸姿态图像输入至所述第二模型进行细分类，得到该待估计的人脸姿态图像的人脸姿态值，可以避免因人脸关键点检测失败导致分类错误，或者因与3D形变模型进行拟合不准导致分类结果偏差过大等。

实施例二

图2是本发明实施例二提供的残差神经网络训练方法的流程图。所述残差神经网络训练方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些步骤可以省略。

201：构造样本集

本较佳实施例中，准备多个人的多张不同姿态的人脸图像。可以自行拍摄或搜集多个人的多张人脸姿态图像，也可以从人脸数据集中直接获取。所述人脸数据集包括：300-W数据集(300Faces in-the-wild)、AFLW数据集、AFW数据集、Helen数据集、IBUG数据集、LFPW数据集、LFW数据集等。

所述构造样本集具体包括：

1)人工标注68个人脸关键点；

本较佳实施例中，为了得到正确的人脸姿态信息，采用人工标注的方式对训练样本的人脸关键点进行标注。以人工标注样本的人脸关键点，可以减少人脸关键点的自动检测，因人脸关键点检测通常会出现偏移，因而估计出的姿态角度会出现较大的偏差；另外，人工标注的人脸关键点精确度更高，从而保证后续进行姿态拟合时的准确性更高。

可以选择人脸关键点标注工具，例如，人脸关键点标注软件，对样本的人脸关键点进行标注。所述人脸关键点是指人脸上具有分辨力的点，比如，眼角、眼睛中心、鼻尖、鼻梁、嘴角、嘴唇、人脸轮廓等。

如图3所示，为在人脸姿态图像上标注的68个人脸关键点，包括：人脸轮廓上的17个关键点、眉毛上的10个关键点、眼睛上的12个关键点、鼻子上的9个关键点、嘴巴上的20个关键点。

2)获取68个人脸关键点的坐标值；

本较佳实施例中，每标注一个样本的人脸关键点，则获取该标注的人脸关键点的坐标值。所述人脸关键点的坐标值包括：水平方向上的坐标值及垂直方向上的坐标值。

3)将预先生成的3D形变模型投影到所述68个人脸关键点的坐标值上，得到每个样本的人脸姿态值；

本较佳实施例中，预先生成一个3维(three-dimensional，3D)的正面人脸的可形变模型(下文称之为“3D标准模型”)，通过旋转矩阵将所述3D标准模型投影到2D空间，使得3D标准模型上“三维特征点”的“2D投影”与2D图像上的68个人脸关键点的坐标值尽可能重合，从而求解所述旋转矩阵的最优解来确定样本的人脸姿态值。需要说明的是，生成人脸3D标准模型的过程为现有技术，本发明在此不再具体阐述。

4)构造样本数据对。

本较佳实施例中，每一个样本数据对包括：人脸姿态值及对应的人脸姿态图像。

202：训练端到端的网络模型。

本较佳实施例中，端到端(end-to-end)指的是从输入端到输出端直接用一个残差神经网络相连，输入端直接输入原始人脸姿态图像，而不是输入从原始人脸姿态图像中提取的人脸特征，输出端输出结果。

本较佳实施例中，将所述样本输入到端到端的残差神经网络中，具体地是将多个人脸姿态值及对应的人脸姿态图像输入到端到端的残差神经网络中。

本较佳实施例中，所述端到端的残差神经网络的训练过程可以包括：从所构造的样本集中生成训练样本集和测试样本集；将所述训练样本集作为初始输入至端到端的残差神经网络中，经过一层卷积层后，送入四个残差块(Block)，最后经过一层全连接层输出送入回归函数进行分类出人脸姿态图像的人脸姿态值，得到一个10层端到端的残差神经网络训练模型(下文简称为Resnet-10模型)。所述残差神经网络为现有技术，本发明在此不再具体阐述。

所述训练样本集用以训练Resnet-10模型，所述测试样本集用以测试所训练出的Resnet-10模型的性能，若测试的准确率越高，则表明所训练出的Resnet-10模型的性能越好；若测试的准确率较低，则表明所训练出的Resnet-10模型的性能较差。

训练端到端的残差神经网络模型，可以免去提取人脸姿态图像的人脸特征，然而提取人脸特征的过程非常耗时；另外，提取特征需要足够的经验，在训练样本数量越来越大的情况下也越来越困难；其次，直接输入原始人脸姿态图像，缩减了人工预处理和后续处理的过程，使端到端的残差神经网络模型从原始输入到最终输出，给了模型更多可以根据数据自动调节的空间，增加了模型的整体契合度。

综上所述，本发明所述的人脸姿态估计方法，设计一种8层的残差神经网络模型对待估计的人脸姿态图像进行粗分类，将待估计的人脸姿态图像分为左全侧脸、右全侧脸、非全侧脸；针对全侧脸，进行后处理得到满足要求的人脸图像，使得全侧脸人脸图像得到了有效的利用；针对非全侧脸，设计一种10层残差神经网络模型进行细分类，估计出待估计的人脸姿态图像的人脸姿态值。其次，在训练10层残差神经网络模型时，采用人工标注的方式对训练样本的人脸关键点进行标注，避免了人脸关键点检测出现的偏移问题，保证了后续进行姿态拟合时的准确性更高；另外，10层残差神经网络模型采用的是端到端的训练模型，免去了提取人脸姿态图像的人脸特征的过程，直接输入原始人脸姿态图像，缩减了人工预处理和后续处理的过程。

上述图1-图3详细介绍了本发明的人脸姿态估计方法，下面结合第4～5图，分别对实现所述人脸姿态估计方法的软件系统的功能模块以及实现所述人脸姿态估计方法的硬件系统架构进行介绍。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

实施例三

参阅图4所示，是本发明人脸姿态估计装置的较佳实施例中的功能模块图。

在一些实施例中，所述人脸姿态估计装置40运行于所述终端5中。所述人脸姿态估计装置40可以包括多个由程序代码段所组成的功能模块。所述人脸姿态估计装置40中的各个程序段的程序代码可以存储于所述终端5的存储器51中，并由所述至少一个处理器52所执行，以执行(详见图1描述)对大分辨率人脸图像的分割。

本实施例中，所述人脸姿态估计装置40根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：输入模块401、第一分类模块402、第一输出模块403、后处理模块404、第二分类模块405及第二输出模块406、所述第二分类模块405还包括：样本构造子模块4050、模型训练子模块4052。本发明所称的模块是指一种能够被至少一个处理器52所执行并且能够完成固定功能的一系列计算机程序段，其存储在所述存储器51中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

输入模块401，用于输入待估计的人脸姿态图像。

本较佳实施例中，所述输入模块401直接输入一张待估计的人脸彩色原始图像，即不需要对输入的原始图像进行预处理，例如，不需要将输入的彩色图形转换为灰度图像，也不需要将输入的原始图像进行裁切、去噪等处理。

第一分类模块402，用于根据第一分类模型对所述待估计的人脸姿态图像进行粗分类，以识别出所述待估计的人脸姿态图像是否为全侧脸人脸图像。

第一输出模块403，用于当所述第一分类模块402识别出所述待估计的人脸姿态图像为全侧脸人脸图像时，输出待估计的人脸姿态图像为全侧脸。

本较佳实施例中，根据所述第一分类模型进行分类，识别出所述待估计的人脸姿态图像为全侧脸人脸图像，所述第一输出模块403进而输出分类结果为：待估计的人脸姿态图像为全侧脸。

进一步地，当待估计的人脸姿态图像为全侧脸时，所述第一输出模块403根据所述第一分类模型还可以对该全侧脸人脸图像进行分类，得到所述待估计的人脸姿态图像为左全侧脸或者为右全侧脸。

更进一步地，在步骤103之后，所述人脸姿态估计装置40还可以包括：后处理模块404，用于对所述待估计的人脸姿态图像进行后处理，得到满足要求的人脸图像。

第二分类模块405：用于当所述第一分类模块402识别出所述待估计的人脸姿态图像为全侧脸人脸图像时，根据第二分类模型对所述待估计的人脸姿态图像进行细分类。

第二输出模块406，用于输出待估计的人脸姿态图像的人脸姿态值。

样本构造子模块4050，用于构造样本集。

所述样本构造子模块4050构造样本集具体包括：

1)人工标注68个人脸关键点；

2)获取68个人脸关键点的坐标值；

4)构造样本数据对。

模型训练子模块4052，用于训练端到端的网络模型。

综上所述，本发明所述的人脸姿态估计装置40，设计一种8层的残差神经网络模型对待估计的人脸姿态图像进行粗分类，将待估计的人脸姿态图像分为左全侧脸、右全侧脸、非全侧脸；针对全侧脸，进行后处理得到满足要求的人脸图像，使得全侧脸人脸图像得到了有效的利用；针对非全侧脸，设计一种10层残差神经网络模型进行细分类，估计出待估计的人脸姿态图像的人脸姿态值。其次，在训练10层残差神经网络模型时，采用人工标注的方式对训练样本的人脸关键点进行标注，避免了人脸关键点检测出现的偏移问题，保证了后续进行姿态拟合时的准确性更高；另外，10层残差神经网络模型采用的是端到端的训练模型，免去了提取人脸姿态图像的人脸特征的过程，直接输入原始人脸姿态图像，缩减了人工预处理和后续处理的过程。

实施例四

在本发明较佳实施例中，所述终端5包括存储器51、至少一个处理器52、至少一条通信总线53及显示屏幕54。

本领域技术人员应该了解，图5示出的终端的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述终端5还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述终端5包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器、嵌入式设备等。所述终端5还可包括用户设备，所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述终端5仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器51用于存储程序代码和各种数据，例如安装在所述终端5中的人脸姿态估计装置40，并在终端5的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器51包括只读存储器(Read-Only Memory，ROM)、随机存储器(RandomAccess Memory，RAM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中，所述至少一个处理器52可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器52是所述终端5的控制核心(Control Unit)，利用各种接口和线路连接整个终端5的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块，以及调用存储在所述存储器51内的数据，以执行终端5的各种功能和处理数据，例如执行人脸姿态估计的功能。

在一些实施例中，所述至少一条通信总线53被设置为实现所述存储器51、所述至少一个处理器52以及所述显示屏幕54等之间的连接通信。

在一些实施例中，所述显示屏幕54可用于显示由观看者输入的信息或提供给观看者的信息以及终端5的各种图形观看者接口，这些图形观看者接口可以由图形、文本、图标、视频和其任意组合来构成。所述显示屏幕54可包括显示面板，可选的，可以采用液晶显示屏幕(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

所述显示屏幕54还可以包括触摸面板。如果所述显示屏幕54包括触摸面板，所述显示屏幕54可以被实现为触摸屏，以接收来自观看者的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。上述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与上述触摸或滑动操作相关的持续时间和压力。所述显示面板与所述触摸面板可以作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将所述显示面板与所述触摸面板进行集成而实现输入和输出功能。

尽管未示出，所述终端5还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理系统与所述至少一个处理器52逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中，结合图1和图2，所述至少一个处理器52可执行所述终端5的操作系统以及安装的各类应用程序(如所述的人脸姿态估计装置40)、程序代码等，例如，上述的各个模块，包括：输入模块401、第一分类模块402、第一输出模块403、后处理模块404、第二分类模块405、第二输出模块406、样本构造子模块4050、模型训练子模块4052。

所述存储器51中存储有程序代码，且所述至少一个处理器52可调用所述存储器51中存储的程序代码以执行相关的功能。例如，图4中所述的各个模块(输入模块401、第一分类模块402、第一输出模块403、后处理模块404、第二分类模块405、第二输出模块406、构造模块子模块4050、模型训练子模块4052)是存储在所述存储器51中的程序代码，并由所述至少一个处理器52所执行，从而实现所述各个模块的功能以达到大角度人脸姿态估计的目的。

在本发明的一个实施例中，所述存储器51存储多个指令，所述多个指令被所述至少一个处理器52所执行以实现对大角度人脸姿态的估计。

具体地，所述至少一个处理器52对上述指令的具体实现方法可参考图1、图2对应实施例中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种人脸姿态估计方法，应用于终端中，其特征在于，所述方法包括：

输入待估计的人脸姿态图像；

输出待估计的人脸姿态图像的人脸姿态值。

2.如权利要求1所述的人脸姿态估计方法，其特征在于，在所述输出待估计的人脸姿态图像为全侧脸之后，所述方法还包括：

3.如权利要求2所述的人脸姿态估计方法，其特征在于，所述方法还包括：训练所述第二分类模型，包括：

构造样本集，包括：

人工标注68个人脸关键点；

获取68个人脸关键点的坐标值；

训练端到端的网络模型。

4.如权利要求1至3中任意一项所述的人脸姿态估计方法，其特征在于，

所述第一分类模型为8层残差神经网络模型；

所述第二分类模型为10层残差神经网络模型。

5.一种人脸姿态估计装置，安装于终端中，其特征在于，所述装置包括：

输入模块，用于输入待估计的人脸姿态图像；

6.如权利要求5所述的人脸姿态估计装置，其特征在于，所述装置还包括：

7.如权利要求6所述的人脸姿态估计装置，其特征在于，所述第二分类模块还包括：

样本构造子模块，用于构造样本集，包括：

人工标注68个人脸关键点；

获取68个人脸关键点的坐标值；

模型训练子模块，用于训练端到端的网络模型。

8.如权利要求5至7中任意一项所述的人脸姿态估计装置，其特征在于，

所述第一分类模型为8层残差神经网络模型；

所述第二分类模型为10层残差神经网络模型。

9.一种终端，其特征在于，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述人脸姿态估计方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述人脸姿态估计方法。