CN108898087A

CN108898087A - 人脸关键点定位模型的训练方法、装置、设备及存储介质

Info

Publication number: CN108898087A
Application number: CN201810650499.9A
Authority: CN
Inventors: 姜媚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-11-27
Anticipated expiration: 2038-06-22
Also published as: CN108898087B

Abstract

本申请实施例公开了一种人脸关键点定位模型的训练方法、装置、设备及存储介质。所述方法包括：构建用于人脸关键点定位的CNN模型，CNN模型的卷积层数量大于第一阈值，且卷积层的通道数小于第二阈值；采用CNN模型对训练样本进行人脸关键点定位，得到人脸关键点的预测位置；其中，人脸关键点包括n种分类，n为大于1的整数；分别每一种分类的人脸关键点的预测位置和真实位置，计算n种分类各自对应的损失函数值，进而计算CNN模型的损失函数值；当CNN模型的损失函数值小于预设阈值时，停止对CNN模型的训练并保存。本申请实施例通过构建瘦长型的CNN模型，在尽可能保证定位精度不受损失的前提下，减小模型体积。

Description

人脸关键点定位模型的训练方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像识别技术领域，特别涉及一种人脸关键点定位模型的训练方法、装置、设备及存储介质。

背景技术

人脸关键点定位也称为人脸五官定位，是指从人脸图像中识别出诸如眼睛、眉毛、鼻子、嘴巴等关键点的位置。人脸关键点定位技术是美颜化妆、人脸装扮、人脸特效、人脸AR(Augmented Reality，增强现实)等软件的基础技术。

传统的人脸关键点定位技术是基于一些图像处理算法来实现的，如SDM(Supervised Descent Method，监督下降法)。通过提取人脸图像中的特征，如LBP(LocalBinary Pattern，局部二值模式)、HOG(Histogram of Oriented Gradient，方向梯度直方图)等特征，根据上述特征确定出人脸图像中的人脸关键点的位置。传统方法对姿态正常的人脸图像具有较好的定位效果，但对于一些异常情况(如遮挡、姿态变化等)的适应性并不好，因此传统方法的鲁棒性欠佳。

为解决传统方法的问题，业界提出了一些基于深度学习的人脸关键点定位技术。例如，通过构建用于人脸关键点定位的神经网络模型，通过大量的训练样本对该模型进行训练，从而使得最终训练出的模型能够应对上述异常情况，提高算法的鲁棒性。

但是，上述模型的参数较为庞大，导致该模型不适合在诸如手机之类的移动终端中部署，这对移动终端的存储容量提出了较高要求。

发明内容

本申请实施例提供了一种人脸关键点定位模型的训练方法、装置、设备及存储介质，可用于减小用于人脸关键点定位的神经网络模型的体积。技术方案如下：

一方面，本申请实施例提供一种人脸关键点定位模型的训练方法，所述方法包括：

构建用于人脸关键点定位的CNN(Convolutional Neural Network，卷积神经网络)模型，所述CNN模型的卷积层数量大于第一阈值，且所述卷积层的通道数小于第二阈值；

采用所述CNN模型对训练样本进行人脸关键点定位，得到所述训练样本中的人脸关键点的预测位置；其中，所述训练样本包括标注有所述人脸关键点的真实位置的人脸图像，所述人脸关键点包括n种分类，所述n为大于1的整数；

分别根据所述n种分类中的每一种分类的人脸关键点的预测位置和真实位置，计算所述n种分类的人脸关键点各自对应的损失函数值；

根据所述n种分类的人脸关键点各自对应的损失函数值，计算所述CNN模型的损失函数值；

当所述CNN模型的损失函数值小于预设阈值时，停止对所述CNN模型的训练，并保存所述CNN模型。

另一方面，本申请实施例提供一种人脸关键点定位模型的训练装置，所述装置包括：

模型构建模块，用于构建用于人脸关键点定位的CNN模型，所述CNN模型的卷积层数量大于第一阈值，且所述卷积层的通道数小于第二阈值；

关键点定位模块，用于采用所述CNN模型对训练样本进行人脸关键点定位，得到所述训练样本中的人脸关键点的预测位置；其中，所述训练样本包括标注有所述人脸关键点的真实位置的人脸图像，所述人脸关键点包括n种分类，所述n为大于1的整数；

第一计算模块，用于分别根据所述n种分类中的每一种分类的人脸关键点的预测位置和真实位置，计算所述n种分类的人脸关键点各自对应的损失函数值；

第二计算模块，用于根据所述n种分类的人脸关键点各自对应的损失函数值，计算所述CNN模型的损失函数值；

模型保存模块，用于当所述CNN模型的损失函数值小于预设阈值时，停止对所述CNN模型的训练，并保存所述CNN模型。

再一方面，本申请实施例提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的方法。

又一方面，本申请实施例提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的方法。

又一方面，本申请实施例提供一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述方面所述的方法。

本申请实施例提供的技术方案中，通过缩减CNN模型的卷积层中的通道数量，并适当增加CNN模型的卷积层的数量，以构建出瘦长型的CNN模型架构，在尽可能地保证CNN模型的定位精度不受损失的前提下，减少模型参数，减小模型体积，生成轻量化的、适于在诸如手机之类的移动终端中部署的人脸关键点定位模型。

另外，通过对人脸关键点进行分类，在计算CNN模型的损失函数值时，将不同分类的人脸关键点对应的损失函数值分别进行计算，从而避免不同分类的人脸关键点之间的损失互相影响，从而达到提升CNN模型的定位精度的技术效果。

附图说明

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的人脸关键点定位模型的训练方法的流程图；

图3示例性示出了一种CNN模型的架构图；

图4示例性示出了一种模型架构演变的示意图；

图5示例性示出了一种不同分类的人脸关键点的分布示意图；

图6示例性示出了一种83点标准的人脸关键点的分布示意图；

图7示例性示出了CNN模型的一个卷积层中的权值的取值分布的示意图；

图8示例性示出了一种对CNN模型进行权值剪枝和量化处理的流程图；

图9是本申请一个实施例提供的人脸关键点定位模型的训练装置的框图；

图10是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以包括：计算机设备10和终端20。

计算机设备10是指具有较强的数据存储和计算能力的电子设备，例如计算机设备10可以是PC(Personal Computer，个人计算机)或服务器。如图1所示，技术人员可以在计算机设备10上构建用于人脸关键点定位的CNN模型，并通过计算机设备10对该CNN模型进行训练。完成训练的CNN模型可以从计算机设备10发布至终端20中，由终端20采用该CNN模型对用户提供的人脸图像进行人脸关键点定位。

终端20可以是诸如手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、PC等电子设备。本申请实施例提供的CNN模型，在定位精度符合业界要求的前提下，通过将CNN模型设计成瘦长型的架构，使得模型参数减少，减小模型体积，适于在诸如手机之类的移动终端中部署。

在一些可能的应用场景中，CNN模型可以添加在应用程序的安装包中，终端20下载上述安装包并安装应用程序之后，即可采用该CNN模型对人脸图像进行人脸关键点定位。示例性地，上述应用程序可以是具有美颜化妆、人脸装扮、人脸特效、人脸AR等功能的应用程序，本申请实施例对此不作限定。

请参考图2，其示出了本申请一个实施例提供的人脸关键点定位模型的训练方法的流程图。该方法可应用于上文介绍的计算机设备10中。该方法可以包括如下几个步骤：

步骤201，构建用于人脸关键点定位的CNN模型，该CNN模型的卷积层数量大于第一阈值，且卷积层的通道数小于第二阈值。

CNN是一种深度前馈人工神经网络，在图像识别中具有较好的性能表现。CNN模型包括卷积层(convolutional layer)和池化层(pooling layer)。卷积层用于从输入的目标图像中自动抽取特征，得到特征图(feature map)。池化层用于对特征图进行池化处理，以减少特征图中的特征数量。池化处理包括最大池化、平均池化、随机池化等方式，其可根据实际需求选择合适的方式。

导致CNN模型的体积较大的主要原因是CNN模型包含大量参数，卷积层的通道数会直接影响到CNN模型的参数数量和体积。卷积层的通道数即为卷积层所包含的卷积核的数量。卷积层的通道数越多，模型的参数数量也就越多，体积越大；反之，卷积层的通道数越少，模型的参数数量也就越少，体积越小。在本申请实施例中，在设计CNN模型时，尽可能地采用瘦长型的栈式(stacked)网络结构，通过增加网络层数，减少每层的通道数，使得在保持定位精度的同时，模型参数大规模减少，且前向计算速度更快。上述第一阈值和第二阈值的取值可以综合考虑CNN模型的体积、精度和计算速度等因素之后进行设定，本申请实施例对于第一阈值和第二阈值的取值不作具体限定。

在一个示例中，CNN模型包括1个输入层、11个卷积层、3个池化层、1个全连接层和1个输出层。其中，卷积层的通道数最大不超过64。如图3所示，卷积层由上到下依次为C1至C11。卷积层C1是一个32通道、卷积核大小为5×5的卷积层。卷积层C1后面连接核大小为2×2的池化层S1用于下采样。池化层S1之后顺次连接4个48通道、卷积核大小为5×5的卷积层，分别为C2～C5。卷积层C5后面连接核大小为2×2的池化层S2用于下采样。池化层S2之后顺次连接4个64通道、卷积核大小为3×3的卷积层，分别为C6～C9。卷积层C9后面连接核大小为2×2的池化层S3。池化层S3之后顺次连接2个64通道、卷积核大小为3×3的卷积层，分别为C10～C11。卷积层C11后面连接全连接层，将卷积层C11输出的特征图映射为一维特征向量用于最后的定位预测。

可选地，CNN模型的全连接层被配置为采用平均池化层替代，平均池化层用于对经过卷积层和池化层处理后的特征图进行平均池化处理，得到一维特征向量。通过将全连接层改为平均池化层，有助于进一步减少模型的参数数量，经实验表明，CNN模型的体积减小约30％。

结合参考图4和下述表-1，图4示出了CNN模型经过几轮变迁之后的结构示意图，表-1示出了相应的实验数据。

在版本1中，CNN模型包括8个卷积层、4个池化层和1个全连接层，其中，卷积层的通道数最大为256。版本1的CNN模型的体积大约是45MB，前向计算速度大约为35ms，且定位误差大约为4.93％。

在版本2中，CNN模型包括12个卷积层、4个池化层和1个全连接层，其中，卷积层的通道数最大为128。版本2的CNN模型的体积大约是24MB，前向计算速度大约为27ms，且定位误差大约为5.01％。可见，版本2的CNN模型相较于版本1的CNN模型更加瘦长，模型体积减小、计算速度提升，且定位误差略有提升。

在版本3中，CNN模型包括11个卷积层、3个池化层和1个全连接层，其中，卷积层的通道数最大为64。版本3的CNN模型的体积大约是2.6MB，前向计算速度大约为10ms，且定位误差大约为4.89％。可见，版本3的CNN模型相较于版本2的CNN模型进一步减少了卷积层的通道数量，模型体积进一步减小，前向计算速度进一步提升，且定位误差也略有降低。

在版本4中，将版本3的CNN模型的全连接层改为平均池化层。模型体积降低至1.8MB，计算速度提升至8ms，定位误差略有提升为4.94％，但在可接受范围之内。

CNN模型的架构	体积(MB)	前向计算速度(ms)	定位误差(％)
				版本1	45	35	4.93
版本2	24	27	5.01
				版本3	2.6	10	4.89
版本4	1.8	8	4.94

表-1

此外，在设计好CNN模型的架构之后，可以对CNN模型的各层权值进行初始化，然后通过后续步骤的训练，不断调整各层权值，最终得到定位精度满足要求的CNN模型。

步骤202，采用CNN模型对训练样本进行人脸关键点定位，得到训练样本中的人脸关键点的预测位置；其中，人脸关键点包括n种分类，n为大于1的整数。

训练样本包括标注有人脸关键点的真实位置的人脸图像。训练样本的数量通常为多个，通过大量的训练样本对CNN模型进行训练，能够使得最终训练得到的CNN模型具有较佳的普适性和鲁棒性。

在本申请实施例中，将人脸关键点分为多种不同的分类。可选地，按照定位难度将人脸关键点分为n种分类，上述定位难度是指从人脸图像中确定该人脸关键点的位置的难易程度。在一个示例中，人脸关键点包括如下3种分类：轮廓点、精细点和主点。如图5所示，轮廓点51是指用于构建人脸轮廓的人脸关键点，如图中沿人脸轮廓排布的白色圆点表示。精细点52是指用于构建五官轮廓的人脸关键点，如图中沿各个五官轮廓排布的灰色圆点表示。主点53是指用于定位五官位置的人脸关键点，比如眉角、眼角、鼻尖、嘴角、下巴尖等关键点，如图中的黑色圆点表示。上述3种分类按照定位难度由大到小进行排序依次为：轮廓点＞精细点＞主点。

另外，针对人脸关键点定位，目前学术界普遍采用的是68点标准，即从人脸图像中定位出的人脸关键点的数量为68个，但其缺点是人脸关键点不够封闭。本申请实施例中，提供了一套83点标准的人脸关键点，包括12个轮廓点、51个精细点和20个主点，使得人脸关键点的分布更加合理封闭。结合参考图6，图6中(a)部分示出了68点标准的人脸关键点在人脸图像中的分布示意图，从图中可以看出，68点标准并未完全封闭五官，如鼻子、眉毛等区域。图6中(b)部分示出了83点标准的人脸关键点在人脸图像中的分布示意图，相较于68点标准，83点标准主要增加了鼻子周围和眉毛下围的人脸关键点，使鼻子和眉毛也形成封闭区域。另外，68点标准中有些人脸关键点分布不够合理，如嘴唇中间和鼻子下缘的点分布过于密集，83点标准也对这些点进行了删除，使得点与点之间分布更加均匀。

步骤203，分别根据上述n种分类中的每一种分类的人脸关键点的预测位置和真实位置，计算n种分类的人脸关键点各自对应的损失函数值。

在对CNN模型进行训练的过程中，可以通过计算CNN模型的损失函数值，来了解CNN模型的定位精度。CNN模型的损失函数可以根据训练样本中的人脸关键点的预测位置和真实位置来构建，例如，可以采用预测位置和真实位置之间的欧氏距离来表示。

在本申请实施例中，对人脸关键点进行了分类，由于不同分类的人脸关键点的定位难度不同，因此为了避免不同分类的人脸关键点之间的损失互相影响，在计算CNN模型的损失函数值时，将上述n种分类的人脸关键点对应的损失函数值分别进行计算。可选地，采用下述公式计算n种分类中的第k种分类的人脸关键点对应的损失函数值L_k：

其中，n_k表示第k种分类的人脸关键点的数量，i的取值范围是[1，n_k]，且i为正整数，k为小于等于n的正整数。(x_i,y_i)表示第i个人脸关键点的预测位置，表示第i个人脸关键点的真实位置，x为横坐标，y为纵坐标。

步骤204，根据n种分类的人脸关键点各自对应的损失函数值，计算CNN模型的损失函数值。

可选地，将n种分类的人脸关键点各自对应的损失函数值加权求和，得到CNN模型的损失函数值。

以人脸关键点包括轮廓点、精细点和主点共3种分类为例，可以采用下述公式计算CNN模型的损失函数值L_reg：

其中，L_p、L_e和L_o分别表示主点、精细点和轮廓点对应的损失函数值，n_p、n_e和n_o分别表示主点、精细点和轮廓点的数量，w_p、w_e和w_o分别表示主点、精细点和轮廓点对应的权重值，(x_pi,y_pi)、(x_ei,y_ei)和(x_oi,y_oi)分别表示主点、精细点和轮廓点的预测位置，和分别表示主点、精细点和轮廓点的真实位置。

需要说明的一点是，每一种分类的人脸关键点对应的权重值可以通过多轮训练进行迭代调整，以最终得到较为精确的权重值。

步骤205，当CNN模型的损失函数值小于预设阈值时，停止对CNN模型的训练，并保存CNN模型。

预设阈值可以根据实际对CNN模型的定位精度的要求进行设定，本申请实施例对此不作限定。

另外，当CNN模型的损失函数值大于预设阈值时，调整CNN模型的各层权值，然后再次从上述步骤202开始执行，直至CNN模型的损失函数值小于预设阈值时停止训练。

综上所述，本申请实施例提供的技术方案中，通过缩减CNN模型的卷积层中的通道数量，并适当增加CNN模型的卷积层的数量，以构建出瘦长型的CNN模型架构，在尽可能地保证CNN模型的定位精度不受损失的前提下，减少模型参数，减小模型体积，生成轻量化的、适于在诸如手机之类的移动终端中部署的人脸关键点定位模型。

结合上文实施例的介绍说明，本申请实施例提供的CNN模型可以包括1个输入层、a个卷积层、b个池化层、1个全连接层和1个第一输出层，a、b均为正整数；其中，a大于第一阈值，且卷积层的通道数小于第二阈值。输入层用于输入目标图像，卷积层、池化层和全连接层的作用在上文已经介绍说明，全连接层可以被配置为采用平均池化层来代替，第一输出层用于根据全连接层或者平均池化层输出的一维特征向量，输出目标图像中的人脸关键点的预测位置。

在一个可选实施例中，CNN模型还包括第二输出层。第二输出层用于根据全连接层或者平均池化层输出的一维特征向量，输出目标图像是否具备预设属性的判定结果。预设属性是指预先设定的对人脸关键点定位有影响的属性，如佩戴墨镜、某种特定表情(如微笑)、某种特定姿态(如抬头)等属性。由于目标图像是否具备预设属性，会影响到CNN模型对目标图像的人脸关键点的定位结果，因此，在本申请实施例中，通过增加第二输出层，在网络中同时进行属性判定和人脸关键点定位，能够帮助模型学习上述两个任务之间的相关性，从而更好地理解人脸图像，有效地减小定位误差。

需要说明的一点是，CNN模型所包括的第二输出层的数量可以是一个，也可以是多个。每一个第二输出层用于判定输入的目标图像是否具备某一种预设属性，不同的第二输出层可以用于对不同的预设属性进行判定。

在另一个可选实施例中，CNN模型还包括第三输出层。第三输出层用于根据全连接层或者平均池化层输出的一维特征向量，输出目标图像是否属于人脸图像的判定结果。通过增加第三输出层，使得CNN模型具备判定输入的目标图像是否为人脸图像的能力。在应用该CNN模型进行人脸关键点定位的过程中，当判断出输入的目标图像不是人脸图像时，可以取消输出人脸关键点的预测位置，从而避免因输出误差较大的结果导致影响产品功能或体验。例如，对于从视频中定位人脸关键点的应用场景，可以将人脸关键点定位和人脸跟踪技术相结合，当检测到视频中人脸消失或被遮挡时，停止人脸关键点定位估计，从而避免输出误差较大的结果。

此外，当CNN模型包括上文介绍的第二输出层和/或第三输出层时，在计算CNN模型的损失函数值时，除了需要考虑人脸关键点定位的准确性之外，还需要考虑属性判定的准确性和/或人脸图像判定的准确性。

在将CNN模型设计成瘦长型的架构之后，模型体积已经有了较为明显的缩减。可选地，通过对CNN模型做进一步的压缩处理，可以进一步减小模型体积。

在上述图2实施例所示的方法流程训练得到CNN模型之后，可以对该CNN模型进行权值压缩处理，得到权值压缩处理后的CNN模型；其中，权值压缩处理包括以下至少一种：权值剪枝(pruning)处理、权值量化(quantization)处理。

在CNN模型中，卷积层和全连接层的权值占整个模型参数的主要部分，而大部分的权值集中在0附近，如图7所示，其示例性示出了CNN模型中的一个卷积层中的权值的取值分布的示意图，可见大部分的权值在[-0.05,0.05]之间。上述取值在0附近的权值对于网络的贡献较小，通过权值剪枝处理，将取值在0附近的权值置0，使得这些权值不被激活(也即前向不参与计算，后向不传递梯度)，从而着重训练剩下的非零权值，最终在保证网络精度基本不变的情况下达到压缩模型体积的目的。可选地，将何种取值范围内的权值确定为0附近的权值可以根据实验或者经验进行设定，如将[-0.15，0.2]之间的权值确定为0附近的权值；并且，对于不同的卷积层或者全连接层，所谓0附近的权值的取值范围可以相同，也可以不同，本申请实施例对此不作限定。

权值量化处理基于对权值进行聚类的思想，将连续分布的权值离散化，从而减小需要存储的权值数量。权值量化处理包括将CNN模型的权值划分至不同的类中。在前向计算时，每一个类中的权值由其聚类中心表示；在后向计算时，统计每个类中的梯度和将其反传。可选地，聚类算法可以采用k-means算法或者其它算法，本申请实施例对此不作限定。

可选地，通过对模型执行权值剪枝处理和权值量化处理，能够更好地压缩模型体积。例如，先通过权值剪枝处理将取值在0附近的权值置0，然后通过权值量化处理对非零权值进行聚类。

另外，经过实验发现，CNN模型对权值剪枝处理更敏感，因此在权值剪枝处理时建议逐层迭代修剪。可选地，对CNN模型进行逐层的权值剪枝处理，得到权值剪枝处理后的CNN模型，然后对权值剪枝处理后的CNN模型进行权值量化处理，得到权值压缩处理后的CNN模型。在对某一层的权值进行权值剪枝处理之后，再次执行上述步骤202-205所述的训练过程，直至CNN模型的损失函数小于预设阈值时，停止训练。之后，对下一层的权值进行权值剪枝处理之后，并再次执行上述步骤202-205所述的训练过程，直至CNN模型的损失函数小于预设阈值时，停止训练。以此类推，直至所有层的权值都进行权值剪枝处理完毕之后，对整个CNN模型的非零权值进行权值量化处理，得到最终压缩后的CNN模型。如图8所示，其示出了上述介绍的对CNN模型进行权值剪枝处理和权值量化处理的流程图。在权值量化处理的过程中，可能需要不断调整聚类中心以最终找到使得CNN模型的定位精度最高的聚类中心。

在经过上述权值剪枝处理和权值量化处理，得到权值压缩处理后的CNN模型之后，需要保存该权值压缩处理后的CNN模型。在保存时，仅需保存每个非零权值在CNN模型中的位置信息、所属类的标识信息和所属类的聚类中心即可。

可选地，采用霍夫曼编码对上述信息进行编码后保存。霍夫曼编码采用变长编码将平均编码长度减小，进一步压缩模型体积。

实验表明，CNN模型经过下述过程的压缩处理之后，模型体积可以从1.8MB下降至371k，而定位精度仅仅下降约0.07％，实现了真正轻量级的人脸关键点定位模型。

实验表明，本申请实施例提供的CNN模型，其定位误差仅为4.67％，达到业界对人脸关键点定位的平均水平，而模型尺寸约为0.35MB，是目前业界最轻量级的。并且，模型架构的瘦长化设计使得CNN模型即便在中低端机型上也能达到较快的定位速度，在中高端机型上基本实现实时定位，且定位稳定度高。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图9，其示出了本申请一个实施例提供的人脸关键点定位模型的训练装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置900可以包括：模型构建模块910、关键点定位模块920、第一计算模块930、第二计算模块940和模型保存模块950。

模型构建模块910，用于构建用于人脸关键点定位的CNN模型，所述CNN模型的卷积层数量大于第一阈值，且所述卷积层的通道数小于第二阈值。

关键点定位模块920，用于采用所述CNN模型对训练样本进行人脸关键点定位，得到所述训练样本中的人脸关键点的预测位置；其中，所述训练样本包括标注有所述人脸关键点的真实位置的人脸图像，所述人脸关键点包括n种分类，所述n为大于1的整数。

第一计算模块930，用于分别根据所述n种分类中的每一种分类的人脸关键点的预测位置和真实位置，计算所述n种分类的人脸关键点各自对应的损失函数值。

第二计算模块940，用于根据所述n种分类的人脸关键点各自对应的损失函数值，计算所述CNN模型的损失函数值。

模型保存模块950，用于当所述CNN模型的损失函数值小于预设阈值时，停止对所述CNN模型的训练，并保存所述CNN模型。

在基于图9实施例提供的一个可选实施例中，所述人脸关键点包括如下3种分类：轮廓点、精细点和主点；

其中，所述轮廓点是指用于构建人脸轮廓的人脸关键点，所述精细点是指用于构建五官轮廓的人脸关键点，所述主点是指用于定位五官位置的人脸关键点。

可选地，所述人脸关键点的数量为83，包括12个所述轮廓点、51个所述精细点和20个所述主点。

在基于图9实施例或者上述可选实施例提供的另一个可选实施例中，所述第二计算模块940，用于将所述n种分类的人脸关键点各自对应的损失函数值加权求和，得到所述CNN模型的损失函数值。

在基于图9实施例或者上述可选实施例提供的另一个可选实施例中，所述CNN模型包括输入层、a个卷积层、b个池化层、平均池化层和第一输出层；

所述输入层用于输入目标图像；

所述卷积层用于将所述目标图像转化为特征图；

所述池化层用于对所述特征图进行池化处理，以减少所述特征图中的特征数量；

所述平均池化层用于对经过所述卷积层和所述池化层处理后的所述特征图进行平均池化处理，得到一维特征向量；

所述第一输出层用于根据所述平均池化层输出的所述一维特征向量，输出所述目标图像中的人脸关键点的预测位置；

其中，所述a和所述b均为正整数。

可选地，所述CNN模型还包括：第二输出层；

所述第二输出层用于根据所述平均池化层输出的所述一维特征向量，输出所述目标图像是否具备预设属性的判定结果。

可选地，所述CNN模型还包括：第三输出层；

所述第三输出层用于根据所述平均池化层输出的所述一维特征向量，输出所述目标图像是否属于人脸图像的判定结果。

在基于图9实施例或者上述可选实施例提供的另一个可选实施例中，所述装置900还包括：权值压缩模块。

权值压缩模块，用于在停止对所述CNN模型的训练之后，对所述CNN模型进行权值压缩处理，得到权值压缩处理后的CNN模型；其中，所述权值压缩处理包括以下至少一种：权值剪枝处理、权值量化处理。

可选地，所述权值压缩模块，用于：对所述CNN模型进行逐层的所述权值剪枝处理，得到权值剪枝处理后的CNN模型；对所述权值剪枝处理后的CNN模型进行所述权值量化处理，得到所述权值压缩处理后的CNN模型。

相应地，所述模型保存模块950，用于保存所述权值压缩处理后的CNN模型中的非零权值的位置信息，以及所述非零权值所属类的标识信息和聚类中心。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的人脸关键点定位模型的训练方法。该计算机设备可以是PC或者服务器，或者其它具备数据处理和存储能力的设备。具体来讲：

所述计算机设备1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述人脸关键点定位模型的训练方法的指令。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述人脸关键点定位模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述人脸关键点定位模型的训练方法。

可选地，上述计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述人脸关键点定位模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人脸关键点定位模型的训练方法，其特征在于，所述方法包括：

构建用于人脸关键点定位的卷积神经网络CNN模型，所述CNN模型的卷积层数量大于第一阈值，且所述卷积层的通道数小于第二阈值；

2.根据权利要求1所述的方法，其特征在于，所述人脸关键点包括如下3种分类：轮廓点、精细点和主点；

3.根据权利要求2所述的方法，其特征在于，所述人脸关键点的数量为83，包括12个所述轮廓点、51个所述精细点和20个所述主点。

4.根据权利要求1所述的方法，其特征在于，所述根据所述n种分类的人脸关键点各自对应的损失函数值，计算所述CNN模型的损失函数值，包括：

将所述n种分类的人脸关键点各自对应的损失函数值加权求和，得到所述CNN模型的损失函数值。

5.根据权利要求1所述的方法，其特征在于，所述CNN模型包括输入层、a个卷积层、b个池化层、平均池化层和第一输出层；

所述输入层用于输入目标图像；

所述卷积层用于将所述目标图像转化为特征图；

其中，所述a和所述b均为正整数。

6.根据权利要求5所述的方法，其特征在于，所述CNN模型还包括：第二输出层；

7.根据权利要求5所述的方法，其特征在于，所述CNN模型还包括：第三输出层；

8.根据权利要求1至7任一项所述的方法，其特征在于，所述停止对所述CNN模型的训练之后，还包括：

对所述CNN模型进行权值压缩处理，得到权值压缩处理后的CNN模型；

其中，所述权值压缩处理包括以下至少一种：权值剪枝处理、权值量化处理。

9.根据权利要求8所述的方法，其特征在于，所述对所述CNN模型进行权值压缩处理，得到权值压缩处理后的CNN模型，包括：

对所述CNN模型进行逐层的所述权值剪枝处理，得到权值剪枝处理后的CNN模型；

对所述权值剪枝处理后的CNN模型进行所述权值量化处理，得到所述权值压缩处理后的CNN模型。

10.根据权利要求9所述的方法，其特征在于，所述保存所述CNN模型，包括：

保存所述权值压缩处理后的CNN模型中的非零权值的位置信息，以及所述非零权值所属类的标识信息和聚类中心。

11.一种人脸关键点定位模型的训练装置，其特征在于，所述装置包括：

模型构建模块，用于构建用于人脸关键点定位的卷积神经网络CNN模型，所述CNN模型的卷积层数量大于第一阈值，且所述卷积层的通道数小于第二阈值；

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至10任一项所述的方法。