CN107748858A

CN107748858A - 一种基于级联卷积神经网络的多姿态眼睛定位方法

Info

Publication number: CN107748858A
Application number: CN201710454105.8A
Authority: CN
Inventors: 秦华标; 刘青
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2018-03-02

Abstract

本发明公开了一种基于级联卷积神经网络的多姿态眼睛定位算法，属于机器学习和计算机视觉领域，适用于人脸识别、视线跟踪、驾驶员疲劳检测等智能系统。该方法包括：收集标注了多种信息的人脸图片，形成一个训练数据集合；构造一个多任务的级联卷积神经网络；利用训练数据集合训练该网络，并得到该网络模型；最后利用该网络模型，检测图片中的人脸以及人脸关键点，从而选取包含眼睛关键点的最小矩形框作为眼睛定位的结果。本发明通过多任务的级联卷积神网络来完成人脸检测和人脸关键点检测，使得多姿态眼睛定位的效果明显提高。

Description

一种基于级联卷积神经网络的多姿态眼睛定位方法

技术领域

本发明属于机器学习和计算机视觉领域，具体是一种基于级联卷积神经网络的多姿态眼睛定位方法。

背景技术

人脸图像中包含了丰富的信息，对人脸图像的研究与分析是计算机视觉领域的重要方向和研究热点。而眼睛是人类最主要的感官，其包含了独特的生物特征和丰富的情感信息，通过对眼睛的分析，能够了解人类的情感以及行为，比如在人机交互方面，通过眼睛的视线来实现非接触式的交互，在疲劳驾驶检测方面，通过眼睛的状态来判断驾驶员是否疲劳等等。

近十几年来，已有大量的学者对眼睛定位进行了研究，总体来说，眼睛定位算法主要分为以下四类：基于眼睛外形特征，基于眼睛模板的方法，基于统计外观的方法和基于空间结构信息的方法。基于眼睛外形特征是将眼睛看做脸部的成分，眼睛外形特征包含眼睛固有形状、眼睑边缘信息和眼白的强烈灰度对比，通过检测这些固有的眼睛外形特征就可以定位眼睛，然而这种方法依赖好的成像条件，在实际应用中有很多不可控因素，因此很难满足实际要求；基于眼睛模板的方法是利用提供的眼睛模板来进行眼睛定位，然而人脸模式变化多端，眼睛模板有限，因此在某些情况下会失效；基于统计外观的方法是利用大量的眼睛训练数据提取眼睛外观特征描述子，然后训练得到相应的判别模型，这种方法利用了一些潜在的眼睛信息，相比于眼睛外形特征效果会更好，但是，没有任何一种单一的特征描述子可以满足所有的要求；基于空间结构信息的方法是利用眼睛和脸部其他特征点构成的空间信息来进行眼睛定位，其受外界的影响较小。

基于传统的机器学习框架存在以下几个问题：1)眼睛定位算法的第一步都要利用现有的人脸检测算法粗略的定位人脸后再进行，而多姿态人脸检测本身就是一个比较难解决的问题，所以多姿态的眼睛定位效果不佳；2)传统的机器学习方法依赖人工设计的特征，而单一的特征不能适应多姿态的眼睛定位，因此泛化能力不强。

因此，需要提出一种有效的多姿态人脸检测算法和眼睛定位算法，以增强多姿态眼睛定位算法的鲁棒性。

发明内容

本发明的目的是解决传统的眼睛定位易受到头部姿势变化影响的问题。首先利用收集并处理的训练数据训练一个多任务的级联卷积神经网络模型，然后根据该网络模型检测人脸和人脸关键点，最后将包围眼睛关键点的最小矩形框作为输出。本发明通过如下技术方案实现。

基于级联卷积神经网络的多姿态眼睛定位算法，该方法包括以下几个步骤：

(1)收集标注了多种信息的人脸图片，形成一个训练数据集合；

(2)构造一个可以完成人脸检测和人脸关键点检测的多任务级联卷积神经网络；

(3)利用训练数据集合训练该网络，并得到该网络模型；

(4)最后利用该网络模型，检测图片中的人脸以及人脸关键点，从而选取包含眼睛关键点的最小矩形框作为眼睛定位的结果。

上述方法中，所述的步骤(1)，包括：将数据库预处理为三个不同尺寸的子训练数据集，其分别为：12×12、24×24、48×48三种分辨率的图片。每种尺寸的子训练数据集含有四种类型的数据：人脸图像，部分人脸图像，背景图像以及含 15个关键点信息的图像。其中人脸图像和部分人脸图像包含平动角(pitch)、转动角(yaw)、滚动角(roll)三个方向0到75度的转动。标签信息含有三个：是否为人脸，边界框的位置坐标增量，关键点的位置坐标。

上述方法中，所述的步骤(2)，包括：多任务级联卷积神经网络结构包含三个卷积神经网络：P-Net、R-Net、O-Net。其中P-Net的输入尺寸为12×12，R-Net 的输入尺寸为24×24，O-Net的输入尺寸为48×48；每个Net有三个任务分别是：人脸分类，边界框回归，关键点位置回归；对于人脸分类这个任务，损失函数采用交叉熵损失函数，为了降低对异常样本的敏感性并且防止梯度爆炸，边界框回归和关键点位置回归都采用平滑的(smooth)L1损失函数，因此整个网络的损失函数为三种损失函数的加权之和。

上述方法中，所述的方法(3)，包括：首先将大小为12×12的子训练数据集输入P-Net网络中，采用随机梯度下降法更新网络的参数，迭代多次，来得到 P-Net网络模型；然后利用得到的P-Net模型初始化R-Net并预测人脸候选窗作为硬样本，将硬样本和大小为24×24的子训练数据集来训练R-Net网络，从而得到R-Net网络模型；最后将R-Net模型初始化O-Net并利用P-Net和R-Net级联模型预测出人脸候选窗作为硬样本，将硬样本和大小为48×48的子训练数据集来训练O-Net网络，从而得到O-Net网络模型。

上述方法中，所述的步骤(4)，包括：输入一张新的图片，对图片进行金字塔尺度变换，将变换后的图片依次输入训练得到的P-Net网络模型中，产生大量的人脸候选窗和边界框回归向量，通过改进的非极大值抑制算法筛选人脸候选窗并利用边界框回归向量校准人脸候选窗的位置；然后将人脸候选窗输入训练得到的R-Net网络模型中，同样利用改进的非极大值抑制算法筛选人脸候选窗和边界框回归向量校准人脸候选窗的位置；最后将人脸候选窗输入训练得到的O-Net 网络模型中，输出人脸框和人脸关键点位置，最终利用包含眼睛关键点的最小矩形框作为眼睛定位的结果。

与现有技术相比，本发明具有如下优点和效果：本发明通过引入多任务的级联卷积神经网络，既能有效进行的多姿态人脸检测，又能利用眼睛与人脸其他特征点的空间结构信息进行人脸关键点检测，从而实现多姿态眼睛定位；本发明采用卷积神经网络自己学习特征，不需要人工设计特征。因此，本发明的模型在多姿态下的效果更好。

附图说明

图1a为实例中基于级联卷积神经网络的多姿态眼睛定位方法总流程示意图。

图1b、图1c分别为训练阶段和测试阶段的流程图。

图2是15个人脸关键点示意图。

图3是多任务的级联卷积神经网络结构图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

本实施方式中，所提出的基于级联卷积神经网络的多姿态眼睛定位方法能克服头部偏转带来的眼睛定位精度下降的问题。如图1a，多任务的级联卷积神经网络模型建立：收集人脸图片并对人脸图片进行预处理，得到不同任务对应的标注数据，形成一个数据集合；构造一个多任务级联的卷积神经网络；将得到的训练数据集合输入网络并采用快速训练方法来得到该网络模型；首先将输入图片进行金字塔尺度变换，利用得到的模型和改进的非极大值抑制算法进行预测，以实现多姿态的眼睛定位。

本实施方式中，在训练阶段，如图1b所示，首先将现有的人脸数据集剪切成四种类型的子图像块：人脸图、部分人脸图、背景图、包含15个关键点的人脸图，对数据进行尺度变换并标注标签信息，形成12×12、24×24、48×48三种分辨率的子训练数据集；然后将大小为12×12的子训练数据集输入P-Net网络中，采用随机梯度下降法更新网络的参数，迭代多次，来得到P-Net网络模型；利用得到的P-Net模型初始化R-Net并预测人脸候选窗作为硬样本，将硬样本和大小为24×24的子训练数据集来训练R-Net网络，从而得到R-Net网络模型；最后将 R-Net模型初始化O-Net并利用P-Net和R-Net级联模型预测出人脸候选窗作为硬样本，将硬样本和大小为48×48的子训练数据集来训练O-Net网络，从而得到 O-Net网络模型。因此，就得到了多任务的级联卷积神经网络模型。

本实施方法中，15个关键点如图2所示，分别含有眉毛两端点，眼睛周围的特征点，鼻尖和嘴角点。多任务的级联卷积神经网络结构如图3所示，P-Net输入12×12×3的图像，3表示图像的三通道，卷积核的大小为3×3，池化采用的是最大池化，窗口大小为2×2，本网络结构图中所有卷积核的步长为1，池化的步长为2，所有的卷积层和全连接层之后连接的是激励层，激活函数是PReLU，特征图5×5×10表示10个5×5大小的特征图，图3中箭头上方写了池化的才有池化操作，P-Net是全卷积网络。R-Net比P-Net多了一个全连接层。而O-Net 比R-Net多了一个卷积层。整个网络的目标函数为：

其中N表示训练样本的个数，j为1表示分类任务，j为2表示边界框回归任务， j为3表示人脸关键点回归任务，α_j表示不同任务的权重，β_i ^j∈{0,1}表示样本 i的类型指示，表示不同任务的损失函数，如下(2)为分类任务的损失，(3) 为边界框回归任务的损失，(4)为人脸关键点回归任务的损失。

其中表示样本x_i的真实标签，其值为0或1，0表示非人脸，1表示人脸，p_i表示网络将样本x_i判定为人脸的概率。

公式(3)中的表示网络预测的每个候选窗的边界框位置增量，

表示真实的边界框位置增量，

公式(4)中的表示网络预测的人脸关键点位置向量，表示真实值，其由如图2中的15个关键点位置坐标组成，

本实施方式中，测试阶段，如图1c所示，输入一张新的图片，对图片进行金字塔尺度变换，将变换后的图片依次输入训练得到的P-Net网络模型中，产生大量的人脸候选窗和边界框回归向量，通过改进的非极大值抑制算法筛选人脸候选窗并利用边界框回归向量校准人脸候选窗的位置；然后将人脸候选窗输入训练得到的R-Net网络模型中，同样利用改进的非极大值抑制算法筛选人脸候选窗和边界框回归向量校准人脸候选窗的位置；最后将人脸候选窗输入训练得到的 O-Net网络模型中，输出人脸框和人脸关键点位置，最终利用包含眼睛关键点的最小矩形框作为眼睛定位的结果。

本实施方法中，改进的非极大值抑制算法，其步骤如下：首先滤除掉置信分数小于0.2的候选窗；然后根据候选窗之间的欧氏距离将剩下的窗口做一个初步的分类，得到每个窗口的类别标签，同时滤除掉每类窗口中小于一定阈值的窗口；最后计算每一类别剩下的平均窗口位置，将平均窗口位置作为输出。边界框回归向量校准人脸候选窗位置是指人脸候选窗位置加上边界框回归产生的位置增量。

传统的眼睛定位方法通常都是通过提取Haar特征加Adaboost算法进行人脸检测，然后将得到的人脸框再利用团块检测等方法进行眼睛定位。而在多角度的情况下，这种人脸检测方法漏检率高而且眼睛的形状和尺度都发生变化，从而导致眼睛定位过程中容易将很多背景定位成眼睛。在本发明中利用多任务的级联卷积神经网络框架进行多姿态眼睛定位，采用了20万张左右的多姿态人脸样本进行训练，通过将人脸检测和人脸关键点定位用一个级联网络实现，利用人脸关键点的空间结构信息得到眼睛定位结果，多任务互相约束，从而使得网络自主提取更加有效的特征，因此得到的模型对多姿态的鲁棒性会提高。

Claims

1.一种基于级联卷积神经网络的多姿态眼睛定位方法，其特征在于包括：

（1）多任务的级联卷积神经网络模型建立：收集人脸图片并对人脸图片进行预处理，得到不同任务对应的标注数据，形成一个数据集合；构造一个多任务级联的卷积神经网络；将得到的训练数据集合输入网络并采用快速训练方法来得到该网络模型；

（2）多姿态眼睛定位：首先将输入图片进行金字塔尺度变换，利用步骤（1）得到的模型和改进的非极大值抑制算法进行预测，以实现多姿态的眼睛定位。

2.如权利要求1所述的基于级联卷积神经网络的多姿态眼睛定位方法，其特征在于步骤（1）中训练数据的处理，训练数据包括不同尺寸的子训练数据集；每种尺寸的子训练数据集含有四种类型的数据：人脸图像，部分人脸图像，背景图像以及含15个关键点信息的图像；其中人脸图像和部分人脸图像包含平动角（pitch）、转动角（yaw）、滚动角（roll）三个方向0到75度的转动；标签信息含有三个：是否为人脸，边界框（bounding-box）的位置坐标增量，关键点的位置坐标。

3. 如权利要求1所述的基于级联卷积神经网络的多姿态眼睛定位方法，其特征在于步骤（1）中，多任务的级联卷积神经网络结构包含三个卷积神经网络：P-Net、R-Net、O-Net；其中P-Net的输入尺寸为12×12，R-Net的输入尺寸为24×24，O-Net的输入尺寸为48×48；每个Net有三个任务分别是：人脸分类，边界框回归，关键点位置回归；对于人脸分类这个任务，损失函数采用交叉熵损失函数，为了降低对异常样本的敏感性并且防止梯度爆炸，边界框回归和关键点位置回归都采用平滑的（smooth ）L1损失函数，因此整个网络的损失函数为三种损失函数的加权之和。

4.最终利用得到的训练数据集合采用快速训练方法来训练这三个级联Net，通过随机梯度下降迭代更新网络参数，直到整个网络的损失很小并趋于稳定，于是得到该多任务的级联卷积神经网络模型。

5.如权利要求3所述的基于级联卷积神经网络的多姿态眼睛定位方法，其特征在于三个级联Net的快速训练方法为：首先将大小为12×12的子训练数据集训练得到P-Net模型；再利用已得到的P-Net模型初始化R-Net网络并调整学习率使其寻找最优参数的速度加快，将大小为24×24的子训练数据集输入R-Net网络训练得到R-Net模型，以此类推；用已得到的R-Net模型初始化O-Net网络并用大小为48×48的子训练数据集训练，从而提高整个网络的训练速度。

6.如权利要求1所述的基于级联卷积神经网络的多姿态眼睛定位方法，其特征在于步骤（2）所述多姿态眼睛定位中，首先将输入图像作金字塔多尺度变换，输入P-Net网络中得到大量的人脸候选窗，并利用改进的非极大值抑制对这些候选窗进行筛选，同时利用边界框回归来校准候选窗的位置；然后将候选窗的尺寸变换为24×24的大小，输入R-Net网络中，同样得到一些候选窗，再经过最后一个网络O-Net输出人脸的位置以及15个关键点的位置；最后利用包含眼睛关键点的最小矩形框作为整体的输出，以实现多姿态眼睛定位。

7.如权利要求5所述的基于级联卷积神经网络的多姿态眼睛定位方法，其特征在于改进的非极大值抑制算法为：利用预测得到较大概率的人脸候选窗的位置均值作为输出，其步骤包括：先滤除掉置信分数很低的候选窗；然后根据候选窗之间的欧氏距离将剩下的窗口做一个初步的分类，得到每个窗口的类别标签，同时滤除掉每类窗口中小于设定阈值的窗口；最后计算每一类别剩下的平均窗口位置，将平均窗口位置作为输出。