CN107944437A

CN107944437A - 一种基于神经网络和积分图像的人脸定位方法

Info

Publication number: CN107944437A
Application number: CN201711494694.9A
Authority: CN
Inventors: 容李庆; 袁亚荣; 罗杰; 林锴; 汤俊杰; 陈纯敏
Original assignee: Guangzhou Two Yuan Technology Co Ltd
Current assignee: Guangzhou Two Yuan Technology Co Ltd
Priority date: 2017-12-31
Filing date: 2017-12-31
Publication date: 2018-04-20
Anticipated expiration: 2037-12-31
Also published as: CN107944437B

Abstract

一种基于神经网络和积分图像的人脸定位方法，包括以下步骤：1.训练神经网络模型；2.使用训练好的模型对数字凸显进行人脸/非人脸的分类以及人脸区域的坐标定位。本发明利用单个简单的神经网络和积分图像以及数字图像处理的技术实现了对数字图像中的人脸进行分类和定位。具有简单快速的特点，具有更好的鲁棒性，对训练样本的数量要求更小，使得训练工作成本更低，整体的实施成本也大大的降低，且对于多状态的人脸分类更具有优势。

Description

一种基于神经网络和积分图像的人脸定位方法

技术领域

本发明涉及一种基于神经网络和积分图像的人脸定位方法。

背景技术

在数字化技术和人工智能普遍开始实现的当下，人脸定位技术和人脸识别技术得到了很大的发展和进步。在由Paul Viola与Michael Jones于2001年发表的论文《RapidObject Detection using a Boosted Cascade of Simple》论文中提出了一种基于哈尔特征级联(V-J级联)实现的人脸定位方法。在该方法中使用哈尔特征对人脸和非人脸进行分类，利用积分图像的方法加速对哈尔特征的统计，使用多层哈尔特征分类器对数字图像中的人脸进行定位。该方法提出的级联分类器的方式为后面的人脸定位技术蹲定了基础。并且使用积分图像加速哈尔特征的计算，使得该方法可以在实时的场景下得以应用。

但是通过哈尔特征对人脸和非人脸进行分类存在较大的局限性，一方面哈尔特征的准确度相对较低(神经网络)，另一方面在侧脸或者人脸形态较多的情况下得到的分类效果更显得差强人意。

为了满足现实世界中人脸形态各异的分类和定位，提高人脸非人脸分类器的准确性，目前较为通用的实现方法是利用深度学习中的神经网络形成级联，对数字图像中的人脸进行分类以及定位。如《Joint Face Detection and Alignment using Multi-taskCascaded Convolutional Networks》论文中提出的基于三个神经网络形成级联的方式对数字图像中的人脸进行分类和定位。

神经网络相对于哈儿特征而言，其计算量更大，算法更为复杂，但是可以得到更好的准确率。在使用神经网络进行级联形成的人脸定位中，由于存在多层神经网络，每张待检测的数字图像均经过多级的神经网络进行计算，最终得到结果。

无论是使用哈尔特征还是神经网络进行的级联，由于需要经过多级的神经网络计算，在实现速度上均有所影响。而且在级联的系统中为了得到更好的分类效果，尤其是为了提高分类的鲁棒性，往往需要加入各种形态的人脸(数字图像)样本加入训练。因为级联中越高级的分类器将更具有对样本的拟合性。这样就给训练实施工作带来很大的开支。

发明内容

针对上述问题，本发明的首要目的是提供一种基于神经网络和积分图像的人脸定位方法。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于神经网络和积分图像的人脸定位方法，其特征在于包括以下步骤：

1.训练神经网络模型；

2.使用训练好的模型对数字凸显进行人脸/非人脸的分类以及人脸区域的坐标定位，步骤如下：

1)定义最小能定位的人脸尺寸，即最小人脸，根据最小人脸以及图像金字塔的缩放比例为基础对原图像进行缩放，形成图像金字塔；

2)定义滑窗的尺寸大小和步长，使用滑窗对图像金字塔中的所有图像进行扫描，将扫描到的矩阵输入至神经网络中，得到分类的预测值；

3)对2步骤)中获得的预测值根据人脸置信度阈值进行筛选，选取满足预测值大于阈值的预测框，并根据图像金字塔的缩放比例还原成为原图中的框的尺寸；

4)构建一张和原图一致大小的积分图像，具体做法是构建一个尺寸和原图一样的单通道图像矩阵，其中像素值全部为0.0；

5)遍历得到的所有符合要求的预测框，预测框中包含该矩阵框在原图中的两个坐标点和预测的值，根据框的坐标信息将积分图像中相应的矩形框中的坐标点的像素值加上该框的预测值，其中每一点的像素值可以用下面的公式表示：

其中R为预测框，R_i.x₁,R_i.x₂分别为预测框的左上角和右下角的横轴坐标，R_i.y₁,R_i.y₂分别为预测框的左上角和右下角的纵轴坐标，p为预测值；

6)经过步骤5)之后得到的积分图像实际上为神经网络对原图进行人脸区域预测的概率分布图，定义该图像为积分图；

7)通过积分图像，找出包含人脸区域最佳的坐标位置，设定一个最小的通过阈值，从积分图中筛选出所有像素值大于该阈值的坐标组成一个包围框，组成待确定的包围框的组合，每个包围框的分值为当前包围框的值的和，公式如下：

8)使用更改后的非极大值抑制算法选取分值最大的一个包围框；

9)根据步骤6)中的特征，越接近人脸的区域得到的分值将会越高，选取一个阈值，寻求大于这个阈值的在步骤8)中的最优包围框中的连续像素包围框；

10)获取步骤9)后的人脸框位置的坐标信息，即为定位人脸框的结果。

本发明利用单个简单的神经网络和积分图像以及数字图像处理的技术实

现了对数字图像中的人脸进行分类和定位。

1.本发明具有简单快速的特点。由于只是使用一层较为简单的神经网络，其计算量相对于级联的神经网络分类定位方法更加少，而后续的积分图像的计算相对于级联的神经网络计算量而言显得更微小。在进

行人脸定位的过程中能够比使用级联的方式更快的速度。

2.本发明具有更好的鲁棒性(在训练数据相同的情况下)。因为本发明使用较为简单的神经网络，其对样本的拟合程度比深层复杂的神经网络更低，会将与正样本中较为拟合的数据预测为正样本。而为了解决这个拟合性的问题，本发明使用积分图像的方法来确定人脸区域所在的位置，因为人脸区域在滑窗的过程中将会得到更多的正预测值，构建成为概率映射积分图的时候将会获得更高的分值，而低分值的区域将会被去除。

3.本发明对训练样本的数量要求更小，使得训练工作成本更低，整体的实施成本也大大的降低了。

4.本发明对于多状态的人脸分类更具有优势。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

结合图1所示，本发明提出一种新的基于神经网络和积分图像的人脸定位技术，在实现上只需要单个神经网络结合积分图像以及数字图像处理的方法即可以对数字凸显中的人脸进行分类和定位。

本发明认为经过单个神经网络输出的信息具有更高的利用价值，充分利用这些信息，即可以实现对数字图像中的人脸进行分类和定位。

一种基于神经网络和积分图像的人脸定位技术，步骤如下：

1.训练神经网络模型的步骤与大部分的分类器训练过程类似，步骤如下：

1)收集人脸样本(以下称之为正样本)，主要为包含人脸的数字图像，并将人脸区域利用数字图像处理技术剪切出来作为最终的正样本。在实验中我们收集的正样本数量仅为20000张，其中正向人脸和非正向人脸的比例为：100：1。

2)收集不包含人脸的数字图像(以下称之为负样本)，正样本与负样本的比例为1：3的关系。

3)构建一个神经网络，该神经网络的结构较浅，一方面使用较浅的神经网络可以得到更快的执行效率，另一方面本方法的分类器准确度介于：92％～99％即可满足要求，深层的神经网络只会耗费更多的运算时间。

4)将正样本和负样本输入神经网络中进行训练，得到人脸/非人脸的分类模型。准确度为96％。

2.使用训练好的模型对数字凸显进行人脸/非人脸的分类以及人脸区域的坐标定位。步骤如下：

1)定义最小能定位的人脸尺寸(最小人脸)，如40x40px的尺寸。根据最小人脸以及图像金字塔的缩放比例为基础对原图像进行缩放，形成图像金字塔。

2)定义滑窗的尺寸大小和步长，例如尺寸为40x40px，步长为4px。使用滑窗对图像金字塔中的所有图像进行扫描，将扫描到的矩阵(单个滑窗内的像素矩阵)输入至神经网络中，得到分类的预测值。

3)对步骤2)中获得的预测值根据人脸置信度阈值进行筛选，选取满足预测值大于阈值的预测框，并根据图像金字塔的缩放比例还原成为原图中的框的尺寸。

4)构建一张和原图一致大小的积分图像，具体做法是构建一个尺寸和原图一样的单通道图像矩阵，其中像素值全部为0.0。

5)遍历得到的所有符合要求的预测框，预测框中包含该矩阵框在原图中的两个坐标点(左上角以及右下角)和预测的值。根据框的坐标信息将积分图像中相应的矩形框中的坐标点的像素值加上该框的预测值。其中每一点的像素值可以用下面的公式表示：

其中R为预测框，R_i.x₁,R_i.x₂分别为预测框的左上角和右下角的横轴坐标，R_i.y₁,R_i.y₂分别为预测框的左上角和右下角的纵轴坐标，p为预测值。

6)经过步骤5)之后得到的积分图像实际上为神经网络对原图进行人脸区域预测的概率分布图，在本方法中，定义该图像为积分图。在神经网络对人脸的预测中，人脸区域往往会有更多的框被筛选出来，并且其预测值也更高，所以在积分图中可以看出，正确的人脸区域在整张积分图来说其得到的像素值更大(也就是更加显得亮白)。

7)通过积分图像，找出包含人脸区域最佳的坐标位置。设定一个最小的通过阈值，如阈值为50.0，则从积分图中筛选出所有像素值大于该阈值(50)的坐标组成一个包围框，为了寻求最佳的包含区域，每相隔一定的分值选取一个包围框，如从最小值50.0开始至积分图的最大积分值每隔10个分值选取一个包围框，组成待确定的包围框的组合。特别地，每个包围框的分值为当前包围框的值的和，公式如下：

8)使用更改后的非极大值抑制算法选取分值最大的一个包围框。其详细步骤如下：

a)将所有包围框按照分值从小到大进行重新排序。

b)遍历包围框，检查当前包围框与下一个包围框的分值与当前包围框相减后的差值，如果当前包围框的分值比差值大，则去除下一个包围框。比较的公式如下：

score＝Score_i-1-Score_i

c)循环直至比较结束，选取分值最大的一个作为最优的包围框。

9)根据步骤6)中的特征，越接近人脸的区域得到的分值将会越高(越亮白)，选取一个阈值，寻求大于这个阈值的在步骤8)中的最优包围框中的连续像素包围框。该步骤主要是为了在最优的包围框中进一步选取其中的人脸区域坐标，特别是当最优包围框中存在多张人脸的时候，分离不同的人脸框的位置。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络和积分图像的人脸定位方法，其特征在于包括以下步骤：

1.训练神经网络模型；

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mi>i</mi> <mi>m</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>x</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>&rsqb;</mo> <mo>,</mo> <mi>y</mi> <mo>&Element;</mo> <mo>&lsqb;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>.</mo> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>m</mi> </munderover> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

2.根据权利要求1所述的基于神经网络和积分图像的人脸定位方法，其特征在于：

所述步骤7)中，为了寻求最佳的包含区域，每相隔一定的分值选取一个包围框，组成待确定的包围框的组合。

3.根据权利要求1所述的基于神经网络和积分图像的人脸定位方法，其特征在于：

所述步骤8)步骤如下：

a)将所有包围框按照分值从小到大进行重新排序；

b)遍历包围框，检查当前包围框与下一个包围框的分值与当前包围框相减后的差值，如果当前包围框的分值比差值大，则去除下一个包围框。

4.根据权利要求1所述的基于神经网络和积分图像的人脸定位方法，其特征在于：

所述步骤1步骤如下：

1)收集人脸样本，称之为正样本，包含人脸的数字图像，并将人脸区域利用数字图像处理技术剪切出来作为最终的正样本；

2)收集不包含人脸的数字图像，称之为负样本，正样本与负样本的比例为1：3的关系；

3)构建一个结构较浅的神经网络，以得到更快的执行效率，并使分类器准确度介于：92％～99％即可满足要求；

4)将正样本和负样本输入神经网络中进行训练，得到人脸/非人脸的分类模型。