CN110889446A

CN110889446A - 人脸图像识别模型训练及人脸图像识别方法和装置

Info

Publication number: CN110889446A
Application number: CN201911159245.8A
Authority: CN
Inventors: 肖刚; 周捷; 王逸飞
Original assignee: Gaochuang Anbang Beijing Technology Co Ltd
Current assignee: Gaochuang Anbang Beijing Technology Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-03-17

Abstract

本发明公开了一种人脸图像识别模型训练及人脸图像识别方法和装置。其中，该方法包括：获取人脸图像训练样本，其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标；采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。本发明使得识别人脸在保证识别精度的同时也提供了较快的识别速度。

Description

人脸图像识别模型训练及人脸图像识别方法和装置

技术领域

本发明涉及计算机技术领域，具体涉及到一种人脸图像识别模型训练及人脸图像识别方法和装置。

背景技术

人脸识别与对齐是各种围绕人脸图像分析和应用的基础。包括但不限于：人脸识别和人脸验证；监控场景下的人脸跟踪、检索；面部属性分析如年龄、性别等；面部重建等。

在过去的几十年里，人脸识别与对齐算法是分别进行研究的。人脸识别算法主要基于传统方法进行识别，传统方法识别一般分为两个步骤：特征提取和分类器判断。特征提取主要使用手工设计的特征，如基于外观几何特征、方向梯度直方图(HOG)、积分图、Haar特征等；而分类器则是基于支持向量机(SVM)和贝叶斯分类器。人脸对齐也即人脸关键点定位，经典方法有主动形状模型(Active Shape Model，ASM)、主动外观模型(ActiveApparance Models)等。深度学习后，人脸识别与对齐也分别出现了相应的识别方法，如用于人脸识别的Viola&Jones模型和用于对齐的DCNN方法。但上述传统方法基于人工特征，泛化能力较弱，深度学习方法存在着速度慢、运算量大等问题。

发明内容

本发明实施例要解决的技术问题为在保证识别精度的同时也提供了较快的识别速度。提出一种同时进行人脸识别与关键点定位的方法，可以实现实时识别与定位。

根据本发明实施例提供了一种人脸图像识别模型训练方法，包括：获取人脸图像训练样本，其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标；采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。

可选地，所述预设神经网络模型包括多层级联网络；所述采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练包括：采用所述第一训练特征信息和所述第二训练特征信息对所述多层级联网络逐级训练，其中，每层网络均输出所述人脸框坐标和所述人脸关键点坐标并作为下一层网络的训练样本。

可选地，所述每层网络均输出所述人脸框坐标和所述人脸关键点坐标并作为下一层网络的训练样本包括：将每层网络输出的所述人脸框坐标和所述人脸关键点坐标与获取的人脸图像训练样本中标注的训练特征信息进行对比；根据对比结果对所述训练样本重新划分。

可选地，所述训练样本中还标注有第三训练特征信息，所述第三训练特征性信息用于表征人脸分类信息；所述采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练还包括：利用预设损失函数分别计算分类损失值，人脸框坐标回归损失值和关键点回归损失值；根据所述分类损失值，人脸框坐标回归损失值和关键点坐标回归损失值计算预设神经网络模型的总损失函数，其中，所述分类损失值的第一网络权重、人脸框坐标回归损失值的第二网络权重和关键点坐标回归损失值的第三网络权重中的至少之一在每层网络中不同。

根据本发明实施例提供了一种人脸图像识别方法，包括：获取待测样本；将所述待测样本输入至上述第一方面所述的人脸图像识别模型训练方法训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标。

可选地，所述获取待测样本包括：获取待测样本的尺寸信息；根据预设最小识别人脸尺寸信息和所述待测样本的尺寸信息生成金字塔图像；将所述金字塔图像作为所述待测样本。

可选地，所述预设神经网络模型包括多层级联网络；所述将所述待测样本输入至上述第一方面所述的人脸图像识别模型训练方法训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标包括：将所述金字塔图像输入所述多层级联网络；a.每层网络输出的识别结果映射回所述待测样本，所述识别结果包括金字塔图像中各个尺度图像中的人脸位置坐标指示的人脸框区域；b.对各个尺度图像人脸框区域的重合区域进行筛选，得到中间图像；c.将中间图像输入下一层网络，重复所述步骤a-c，直至将中间图像输入最后一层网络，得到人脸框坐标和人脸关键点坐标。

可选地，步骤b包括：将所述待测样本中人脸框映区域映射的区域规整成预设形状；并将所述规整后的待测样本缩放。

根据本发明实施例提供了一种人脸图像识别模型训练装置，包括：第一获取单元，用于获取人脸图像训练样本，其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标；训练单元，用于采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。

根据本发明实施例提供了一种人脸图像识别装置，包括：第二获取单元，用于获取待测样本；识别单元，用于将所述待测样本输入至上述第四方面所述的人脸图像识别模型训练装置训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标。

根据本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行上述第一方面所述的人脸图像识别模型训练方法和/或如上述第二方面所述的人脸图像识别方法。

本发明实施例中，所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练中，人脸识别与关键点回归两个任务是相辅相成，相互促进的，只训练一个任务(比如只训练人脸识别或是只训练人脸关键点回归)的收敛速度和收敛精度均不如训练两个任务的快和高。而且，人脸框坐标和人脸关键点坐标两个任务之间有着内存的关联性：当人脸框坐标确定的时候，人脸关键点会在人脸框范围内，且在某些固定的位置；当人脸关键点确定的时候，人脸框会在人脸关键点坐标的一定范围内。由于两者的相关性，互相提高了识别精度。从而，解决了现有技术中，泛化能力弱以及速度慢、运算量大的问题。

附图说明

为了更清楚的说明本申请实施例或现有技术中的技术方案，正面对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的人脸图像识别模型训练方法的示意图；

图2是本发明实施例的P网络结构图；

图3是本发明实施例的R网络结构图；

图4是本发明实施例的0网络结构图；

图5是本发明实施例人脸图像识别模型训练过程的示意图；

图6是本发明实施例人脸图像识别模型识别方法的示意图；

图7是本发明实施例人脸图像识别模型识别过程的示意图；

图8是本发明实施例人脸图像识别模型训练装置的示意图；

图9是本发明实施例人脸图像识别模型识别装置的示意图；

图10是本发明实施例人脸图像识别模型电子设备的示意图；

具体实施方式

下而将对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供了一种人脸图像识别模型训练方法，如图1所示，该方法可以包括以下步骤：

S1.获取人脸图像训练样本。其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标。所称训练样本可以为各种场景、各种姿态、各种角度的人脸图片，在收集数据时需要注意，人脸的背景要具有充分的多样性，即不能只使用同一个位置的摄像头的不同时刻的图片。并且有相应的标注信息，例如，人脸在图像中的位置信息等第一训练特征信息以及左右眼睛、鼻尖和两个嘴角这五个点的位置信息等第二训练特征信息。当人脸框坐标确定的时候，人脸关键点会在人脸框范围内，且在某些固定的位置；当人脸关键点确定的时候，人脸框会在人脸关键点坐标的一定范围内。其中，可根据人脸位置坐标确定人脸框的位置。

在本实施例中，标注可以使用人工标注，标注员将给定的人脸图像中所有的人脸用矩形框框出来，把所有人脸的左眼中心点、右眼中心点、鼻尖、两个嘴角的位置标注出来。本实施例中对标注方法及过程不做限定，本领域技术人员可以根据实际需要确定，本实施例只是举例说明。

在本实施例中，还可以对收集到的训练样本进行图像预处理。具体的，根据训练样本图像的大小，随机生成若干个正方形的区域，根据该区域与人脸框的交并比(IOU)来判断样本分布。例如，交并比大于0.65的区域作为正样本、交并比小于0.3的区域作为负样本；或是部分人脸样本(0.4<IOU<0.65)。然后将该正方形区域缩放至预设像素大小，例如可以缩放至12*12的像素大小，当然缩放至其他像素大小也适用本实施例。保存其对应的人脸框坐标和人脸关键点坐标。在本实施例中，并不限于上述提及的交并比的值，本领域技术人员可以根据实际需要选取其他的交并比的值作为样本划分值。

S2.采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。人脸识别与关键点回归两个任务是相辅相成，相互促进的，只训练一个任务(比如只训练人脸识别或是只训练人脸关键点回归)的收敛速度和收敛精度均不如训练两个任务的快和高。而且，人脸框坐标和人脸关键点坐标两个任务之间有着内存的关联性：当人脸框坐标确定的时候，人脸关键点会在人脸框范围内，且在某些固定的位置；当人脸关键点确定的时候，人脸框会在人脸关键点坐标的一定范围内。由于两者的相关性，互相提高了识别精度。

作为可选的实施例，预设神经网络模型可以为多层级联网络，例如，可以为多层级联的卷积神经网络模型，在本实施例中，对预设神经网络模型层数并不做限定，本领域技术人员可以根据需要确定，在本实施例中，可以以三层卷积神经网络模型为例进行说明。

在本实施例中，三层卷积神经网络模型可以包括：依次级联的如图2所示的P网络结构，如图3所示的R网络结构，如图4所示的O网络结构。P网络、R网络和O网络的类型均为卷积神经网络。具体地，P网络为全连接网络，即P网络只含有卷积计算层，其中，卷积计算层有若干层，本实施例中以三层举例说明，并未含有任何的全连接层，是卷积层最大池化层的堆叠。R网络和O网络是卷积计算层和全连接层的结合，其卷积层用于提取图像特征，全连接层用于分类和回归，是卷积层、最大池化层和全连接层的堆叠。其中，R网络和O网络的卷积计算层和全连接层都有若干层，同样的，本实施例以R网络含有三层卷积计算层和三层全连接层，O网络含有三层卷积计算层和三层全连接层进行举例说明。在本实施例中，对卷积计算层和全连接层的层数并不做限定，本领域技术人员可以根据需要确定，本实施例只是举例说明。

具体的，如图5所示，对采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练可以包括如下步骤：

S21.将训练样本图像按批次送入P网络对P网络进行训练，得到P网络模型。在本实施例中，训练样本可以为上述实施例中经过缩放的训练样本图像，例如包括缩放至12*12的像素大小的训练样本图像，当然缩放至其他像素大小也适用本实施例。在具体的实施例中，批次大小可根据硬件设备的容量来设置，所以在本实施例中，批次大小为384。而且每批次中含有正样本、负样本和部分人脸样本，三者比例大小可以随意调整，例如本实施例中正样本、负样本和部分人脸样本的比例为1:3:1。在P网络将输出对该批次文件的预测值。

在本实施例中，训练样本中还标注有第三训练特征信息，所述第三训练特征性信息用于表征人脸分类信息；利用预设损失函数分别计算分类损失值，人脸框回归损失值和关键点回归损失值；根据所述分类损失值，人脸框坐标回归损失值和关键点坐标回归损失值计算预设神经网络模型的总损失函数，其中，所述分类损失值的第一网络权重、人脸框坐标回归损失值的第二网络权重和关键点坐标回归损失值的第三网络权重中的至少之一在每层网络中不同。具体的，可以根据SmoothL1损失函数和交叉熵损失函数分别计算分类损失值，人脸框回归损失值和关键点回归损失值，计算法如下：

人脸分类损失函数：

人脸框坐标回归损失函数：

关键点坐标回归损失函数：

是指人脸分类损失函数值；

是指人脸框回归损失函数值；

是指关键点回归损失函数值；

是指第i个分类的标签；

是指网络对第i个分类预测的概率值；

是指第i个人脸框坐标的真值；

是指网络第i个人脸框回归值；

是指第i个人脸中的第j个关键点的真值坐标；

是指网络对该人脸中第j个关键点的预测值。

其中，

的计算方法为：

其中，x是指

或

在计算总的损失函数时，正样本和负样本参与计算人脸分类，正样本和部分人脸样本参与计算人脸目标框和人脸关键点的回归。总的损失函数值计算方法如下：

Loss＝αL_det+βL_bbox+γL_landmark

其中，α是指人脸分类损失函数权重，β是指人脸框回归损失函数权重，γ是指关键点回归损失函数权重，α在P网络、R网络和O网络中不完全相等，β在P网络、R网络和O网络中不完全相等，γ在P网络、R网络和O网络中不完全相等。

例如，在本实施例中，P网络的损失函数权重可以为：α＝1，β＝0.5，γ＝0.5，本实施例中权重数值只是举例说明，可以根据三个网络的侧重点不同，调整三个分量之间的权重，用以影响学习的侧重点。然后使用反向传播算法，将梯度从后向前逐层传递，使用梯度下降法更新网络权重，重复上述步骤，直到网络收敛。网络收敛的标准为在一定的迭代次数内，网络的总的损失函数值没有显著的变化。保存得到P网络的模型；

S22.根据P网络输出的结果对训练样本进行重新划分。在具体的实施例中，可以将上述产生的P网络的模型对人脸图像训练样本进行识别，识别结果与其真实的标注进行比对，同样的，然后将上述P网络的识别结果根据其与人脸框的交并比(IOU)的值将识别结果分成正样本(IOU>0.65)、负样本(IOU<0.3)或是部分人脸样本(0.4<IOU<0.65)。然后将识别结果图像规整成正方形，规整方法如下：如果人脸识别框不为正方形，以其长边为基准，截取包含原人脸识别框范围的正方形区域为最终结果，如果超出了原始图像边缘，则超出部分全部填充为0。规整之后，可以将正方形区域缩放，得到样本图像。例如可以缩放至24*24的像素大小，当然缩放至其他像素大小也适用本实施例。然后按样本类别保存其对应的人脸框坐标和人脸关键点的坐标；

S23.将重新划分的样本按批次送入R网络对R网络进行训练得到R网络模型。在本实施例中，训练样本可以为上述实施例中经过缩放的训练样本图像，例如包括缩放至24*24的像素大小的训练样本图像，当然缩放至其他像素大小也适用本实施例。然后将样本图像按批次送入R网络，并根据上述的

损失函数和交叉熵损失函数，计算人脸分类损失值，人脸回归框损失值和人脸关键点回归损失值，并根据上述的计算总的损失函数值的公式计算最终的损失值。例如，在R该网络中的权重值可以为α＝1，β＝0.5，γ＝1。本实施例中权重数值只是举例说明，可以根据三个网络的侧重点不同，调整三个分量之间的权重，用以影响学习的侧重点。并使用反射传播算法反传网络梯度并使用梯度下降法更新网络权重，重复上述步骤，直到网络收敛。保存得到R网络模型；

S24.根据R网络输出的结果对训练样本进行重新划分。在具体的实施例中，可以将上述产生的R网络的模型对人脸图像训练样本进行识别，识别结果与其真实的标注进行比对。然后将上述R网络的识别结果根据其与人脸框的交并比(IOU)的值将识别结果分成正样本(IOU>0.65)、负样本(IOU<0.3)或是部分人脸样本(0.4<IOU<0.65)，并根据上述的规整方法规整成正方形，然后将该正方形区域缩放至预设像素大小，例如可以缩放至48*48的像素大小，当然缩放至其他像素大小也适用本实施例。然后按样本类别保存其对应的人脸框坐标和人脸关键点坐标；

S25.将重新划分的样本按批次送入O网络对O网络进行训练得到O网络模型。在具体的实施例中，训练样本可以为上述实施例中经过缩放的训练样本图像，例如包括缩放至48*48的像素大小的训练样本图像，当然缩放至其他像素大小也适用本实施例。然后将样本图像按批次送入O网络，并根据上述的

损失函数和交叉熵损失函数，计算人脸分类损失值，人脸回归框损失值和人脸关键点回归损失值，并根据上述的计算总的损失函数值的公式计算最终的损失值。例如，在该O网络中权重值可以为α＝1，β＝0.5，γ＝1。本实施例中权重数值只是举例说明，可以根据三个网络的侧重点不同，调整三个分量之间的权重，用以影响学习的侧重点使用反射传播算法反传网络梯度并使用梯度下降法更新网络权重，重复上述步骤，直到网络收敛。保存得到O网络模型。

作为可选的实施例，上述实施例中对训练网络模型使用损失函数指导更新模型的方法可以为：使用开源的Caffe2框架并利用其内置的相关算子进行模型的搭建与训练。使用随机梯度下降的优化方法，给出损失函数对每一个样本的梯度信息，在计算损失函数时，正样本和负样本参与人脸分类的计算，正样本和部分人脸样本参与人脸目标框及关键点回归的计算。在训练过程中，为了进一步提高网络模型的识别效果，在计算网络损失函数值时，将同一批次内的所有损失函数值进行排序，只取排名比较靠前的损失函数值，例如可以取前70％的损失函数值通过随机梯度下降方法进行反向梯度传播，更新网络权重，实现在线的困难样本挖掘，提高网络模型的识别效果。

在对网络模型进行训练时，判断模型是否收敛的方法为：计算一定迭代轮数内的网络损失函数值，如果损失函数值没有显著变化则认为模型收敛；否则，判定为不收敛。

本发明提供了一种人脸图像识别方法，如图6所示，该方法可以包括以下步骤：

S100.获取待测样本。其中，获取待测样本包括：获取待测样本的尺寸信息。并根据预设最小识别人脸尺寸信息和所述待测样本的尺寸信息生成金字塔图像，本实施例预设最小人脸尺寸为40像素，本实施例中的预设最小识别人脸尺寸的数值只是举例说明，预设最小识别人脸尺寸可以根据实际情况的需要来设定一定的数值。然后将所述金字塔图像作为待测样本；

S200.将待测样本输入人脸图像识别网络模型，得到人脸框坐标和人脸关键点坐标。其中，实施例1中通过人脸图像识别模型训练方法训练所得到的人脸图像识别网络模型包括多层级联网络。例如，可以为多层级联的卷积神经网络模型，在本实施例中，对神经网络模型层数并不做限定，本领域技术人员可以根据需要确定，在本实施例中，可以以三层卷积神经网络模型为例进行说明。具体的，结合图7对识别过程进行详细说明。

S201.将金字塔图像送入训练好的P网络模型进行识别，生成第一人脸框和关键点坐标。将金字塔图像送入P网络后，P网络通过计算，得到若干人脸框候选区域，P网络拒绝掉了大部分的不包含人脸的区域，经过回归得到第一人脸框和关键点坐标。其中，第一人脸框和关键点坐标为粗略人脸框坐标和关键点坐标，粗略人脸框坐标和关键点坐标并不精准，可能包含很多虚假的人脸，有可能不是人脸的区域也检测成人脸了。再根据上述产生的粗略的人脸框坐标和该输入图像所在的金字塔层数，将该人脸框映射回原图，然后使用非极大值抑制(NMS)方法，对有重合的人脸框进行筛选，并将该人脸框映射区域规整成正方形，然后将该正方形区域缩放至预设像素大小，例如可以缩放至24*24的像素大小，当然缩放至其他像素大小也适用本实施例，得到样本图像。P网络通过拒绝掉绝大部分的非人脸位置，初步筛选人脸可能的位置，回归能力较弱，得到的第一人脸框坐标及关键点坐标不精准。

S202.将P网络模型输出的结果送入训练好的R网络模型进行识别，生成第二人脸框及关键点坐标。R网络将P网络输出的结果进行分类和回归，判断P网络输出的结果是否真的包含人脸，并对P网络输出的结果做进一步分类和回归，拒绝掉大部分的虚假人脸，得到第二人脸框坐标及关键点坐标，使其更加的精准。其中，第二人脸框和关键点坐标为较为精细的人脸框坐标和关键点坐标，P网络模型输出的结果可以为缩放规整后的样本图像，例如，将该人脸框映射区域规整成正方形，然后将该正方形区域缩放至预设像素大小，例如可以缩放至24*24的像素大小，得到样本图像。然后使用非极大值抑制(NMS)方法，对上述产生的较为精细的人脸框进行筛选，并将余下的人脸框区域规整成正方形，然后将该正方形区域缩放至预设像素大小，例如可以缩放至48*48的像素大小，当然缩放至其他像素大小也适用本实施例，得到样本图像。

S203.将R网络模型输出的结果送入训练好的O网络模型进行识别，生成得到第三人脸框及关键点坐标。O网络将R网络输出的结果进一步做分类和回归，得到第三人脸框坐标和关键点坐标，第三人脸框坐标和关键点坐标就是最精准的结果。其中，第三人脸框和关键点坐标为精细的人脸框和关键点坐标，R网络模型输出的结果可以为缩放规整后的样本图像，例如，将该人脸框映射区域规整成正方形，然后将该正方形区域缩放至预设像素大小，例如可以缩放至48*48的像素大小，得到样本图像。然后使用非极大值抑制(NMS)方法，对精细的人脸框进行筛选，则余下的人脸框与关键点即为最终的识别结果。

根据本发明实施例，提供一种人脸图像识别的训练装置。如图8所示，该装置可以包括：第一获取单元10，用于获取人脸图像训练样本，其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标；训练单元20，用于采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。

本发明实施例，还提供一种人脸图像识别的识别装置。如图9所示，该装置包括：第二获取单元30，用于获取待测样本；识别单元40，用于将所述待测样本输入至人脸图像识别模型训练装置训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标。

本发明实施例还提供了一种电子设备，如图10所示，该电子设备包括一个或多个处理器41以及存储器42，图10中以一个处理器41为例。

该电子设备还可以包括：输入装置43和输出装置44。

处理器41、存储器42、输入装置43和输出装置44可以通过总线或者其他方式连接，图10中以通过总线连接为例。

处理器41可以为中央处理器(Central Processing Unit，CPU)。处理器41还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器42作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的控制方法对应的程序指令/模块。处理器41通过运行存储在存储器42中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的人脸图像识别模型训练方法或人脸图像识别方法。

存储器42可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器42可选包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置43可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。

一个或者多个模块存储在存储器42中，当被一个或者多个处理器41执行时，执行如图1、5-7任一项所示的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各人脸图像识别模型训练方法或人脸图像识别方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种人脸图像识别模型训练方法，其特征在于，包括：

获取人脸图像训练样本，其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标；

采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。

2.如权利要求1所述的人脸图像识别模型训练方法，其特征在于，所述预设神经网络模型包括多层级联网络；

所述采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练包括：

采用所述第一训练特征信息和所述第二训练特征信息对所述多层级联网络逐级训练，其中，每层网络均输出所述人脸框坐标和所述人脸关键点坐标并作为下一层网络的训练样本。

3.如权利要求2所述的人脸图像识别模型训练方法，其特征在于，所述每层网络均输出所述人脸框坐标和所述人脸关键点坐标并作为下一层网络的训练样本包括：

将每层网络输出的所述人脸框坐标和所述人脸关键点坐标与获取的人脸图像训练样本中标注的训练特征信息进行对比；

根据对比结果对所述训练样本重新划分。

4.如权利要求1所述的人脸图像识别模型训练方法，其特征在于，所述训练样本中还标注有第三训练特征信息，所述第三训练特征性信息用于表征人脸分类信息；

所述采用所述第一训练特征信息和所述第二训练特征信息对预设神经网络模型同时进行训练还包括：

利用预设损失函数分别计算分类损失值，人脸框坐标回归损失值和关键点回归损失值；

根据所述分类损失值，人脸框坐标回归损失值和关键点坐标回归损失值计算预设神经网络模型的总损失函数，其中，所述分类损失值的第一网络权重、人脸框坐标回归损失值的第二网络权重和关键点坐标回归损失值的第三网络权重中的至少之一在每层网络中不同。

5.一种人脸图像识别方法，其特征在于，包括：

获取待测样本；

将所述待测样本输入至所述权利要求1-4任意一项所述的人脸图像识别模型训练方法训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标。

6.如权利要求5所述的人脸图像识别方法，其特征在于，所述获取待测样本包括：

获取待测样本的尺寸信息；

根据预设最小识别人脸尺寸信息和所述待测样本的尺寸信息生成金字塔图像；

将所述金字塔图像作为所述待测样本。

7.如权利要求6所述的人脸图像识别方法，其特征在于，所述预设神经网络模型包括多层级联网络；

所述将所述待测样本输入至所述权利要求1-4任意一项所述的人脸图像识别模型训练方法训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标包括：

将所述金字塔图像输入所述多层级联网络；

a.每层网络输出的识别结果映射回所述待测样本，所述识别结果包括金字塔图像中各个尺度图像中的人脸位置坐标指示的人脸框区域；

b.对各个尺度图像人脸框区域的重合区域进行筛选，得到中间图像；

c.将中间图像输入下一层网络，重复所述步骤a-c，直至将中间图像输入最后一层网络，得到人脸框坐标和人脸关键点坐标。

8.如权利要求7所述的人脸图像识别方法，其特征在于，步骤b包括：

将所述待测样本中人脸框映区域映射的区域规整成预设形状；

并将所述规整后的待测样本缩放。

9.一种人脸图像识别模型训练装置，其特征在于，包括：

第一获取单元，用于获取人脸图像训练样本，其中，所述训练样本中至少标注有第一训练特征信息和第二训练特征信息，所述第一训练特征信息用于表征人脸框坐标，所述第二训练特征信息用于表征人脸关键点坐标；

训练单元，用于采用所述第一训练特征信息和所述第二特征训练特征信息对预设神经网络模型同时进行训练，得到人脸图像识别模型。

10.一种人脸图像识别装置，其特征在于，包括：

第二获取单元，用于获取待测样本；

识别单元，用于将所述待测样本输入至所述权利要求9所述的人脸图像识别模型训练装置训练得到的人脸图像识别模型，得到人脸框坐标和人脸关键点坐标。

11.一种电子设备，其特征在于，包括：至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-4任一项所述的人脸图像识别模型训练方法和/或如权利要求5-8任意一项所述的人脸图像识别方法。