CN107944437B - 一种基于神经网络和积分图像的人脸定位方法 - Google Patents

一种基于神经网络和积分图像的人脸定位方法 Download PDF

Info

Publication number
CN107944437B
CN107944437B CN201711494694.9A CN201711494694A CN107944437B CN 107944437 B CN107944437 B CN 107944437B CN 201711494694 A CN201711494694 A CN 201711494694A CN 107944437 B CN107944437 B CN 107944437B
Authority
CN
China
Prior art keywords
face
frame
neural network
value
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711494694.9A
Other languages
English (en)
Other versions
CN107944437A (zh
Inventor
容李庆
袁亚荣
罗杰
林锴
汤俊杰
陈纯敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Two Yuan Technology Co Ltd
Original Assignee
Guangzhou Two Yuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Two Yuan Technology Co Ltd filed Critical Guangzhou Two Yuan Technology Co Ltd
Priority to CN201711494694.9A priority Critical patent/CN107944437B/zh
Publication of CN107944437A publication Critical patent/CN107944437A/zh
Application granted granted Critical
Publication of CN107944437B publication Critical patent/CN107944437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于神经网络和积分图像的人脸定位方法,包括以下步骤:1.训练神经网络模型;2.使用训练好的模型对数字图像进行人脸/非人脸的分类以及人脸区域的坐标定位。本发明利用单个简单的神经网络和积分图像以及数字图像处理的技术实现了对数字图像中的人脸进行分类和定位。具有简单快速的特点,具有更好的鲁棒性,对训练样本的数量要求更小,使得训练工作成本更低,整体的实施成本也大大的降低,且对于多状态的人脸分类更具有优势。

Description

一种基于神经网络和积分图像的人脸定位方法
技术领域
本发明涉及一种基于神经网络和积分图像的人脸定位方法。
背景技术
在数字化技术和人工智能普遍开始实现的当下,人脸定位技术和人脸识别技术得到了很大的发展和进步。在由Paul Viola与Michael Jones于2001年发表的论文《RapidObject Detection using a Boosted Cascade of Simple》论文中提出了一种基于哈尔特征级联(V-J级联)实现的人脸定位方法。在该方法中使用哈尔特征对人脸和非人脸进行分类,利用积分图像的方法加速对哈尔特征的统计,使用多层哈尔特征分类器对数字图像中的人脸进行定位。该方法提出的级联分类器的方式为后面的人脸定位技术蹲定了基础。并且使用积分图像加速哈尔特征的计算,使得该方法可以在实时的场景下得以应用。
但是通过哈尔特征对人脸和非人脸进行分类存在较大的局限性,一方面哈尔特征的准确度相对较低(神经网络),另一方面在侧脸或者人脸形态较多的情况下得到的分类效果更显得差强人意。
为了满足现实世界中人脸形态各异的分类和定位,提高人脸非人脸分类器的准确性,目前较为通用的实现方法是利用深度学习中的神经网络形成级联,对数字图像中的人脸进行分类以及定位。如《Joint Face Detection and Alignment using Multi-taskCascaded Convolutional Networks》论文中提出的基于三个神经网络形成级联的方式对数字图像中的人脸进行分类和定位。
神经网络相对于哈儿特征而言,其计算量更大,算法更为复杂,但是可以得到更好的准确率。在使用神经网络进行级联形成的人脸定位中,由于存在多层神经网络,每张待检测的数字图像均经过多级的神经网络进行计算,最终得到结果。
无论是使用哈尔特征还是神经网络进行的级联,由于需要经过多级的神经网络计算,在实现速度上均有所影响。而且在级联的系统中为了得到更好的分类效果,尤其是为了提高分类的鲁棒性,往往需要加入各种形态的人脸(数字图像)样本加入训练。因为级联中越高级的分类器将更具有对样本的拟合性。这样就给训练实施工作带来很大的开支。
发明内容
针对上述问题,本发明的首要目的是提供一种基于神经网络和积分图像的人脸定位方法。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于神经网络和积分图像的人脸定位方法,其特征在于包括以下步骤:
1.训练神经网络模型;
2.使用训练好的模型对数字图像进行人脸/非人脸的分类以及人脸区域的坐标定位,步骤如下:
1)定义最小能定位的人脸尺寸,即最小人脸,根据最小人脸以及图像金字塔的缩放比例为基础对原图像进行缩放,形成图像金字塔;
2)定义滑窗的尺寸大小和步长,使用滑窗对图像金字塔中的所有图像进行扫描,将扫描到的矩阵输入至神经网络中,得到分类的预测值;
3)对步骤2)中获得的预测值根据人脸置信度阈值进行筛选,选取满足预测值大于阈值的预测框,并根据图像金字塔的缩放比例还原成为原图中的框的尺寸;
4)构建一张和原图一致大小的积分图像,具体做法是构建一个尺寸和原图一样的单通道图像矩阵,其中像素值全部为0.0;
5)遍历得到的所有符合要求的预测框,预测框中包含该矩阵框在原图中的两个坐标点和预测的值,根据框的坐标信息将积分图像中相应的矩形框中的坐标点的像素值加上该框的预测值,其中每一点的像素值可以用下面的公式表示:
其中R为预测框,m是预测框的总数量,Ri.x1,Ri.x2分别为预测框的左上角和右下角的横轴坐标,Ri.y1,Ri.y2分别为预测框的左上角和右下角的纵轴坐标,p为预测值;
6)经过步骤5)之后得到的积分图像实际上为神经网络对原图进行人脸区域预测的概率分布图,定义该图像为积分图;
7)通过积分图像,找出包含人脸区域最佳的坐标位置,设定一个最小的通过阈值,从积分图中筛选出所有像素值大于该阈值的坐标组成一个包围框,组成待确定的包围框的组合,每个包围框的分值为当前包围框的值的和,公式如下:
8)使用更改后的非极大值抑制算法选取分值最大的一个包围框;
9)根据步骤6)中的积分图特征,越接近人脸的区域得到的分值将会越高,选取一个阈值,寻求大于这个阈值的在步骤8)中的最优包围框中的连续像素包围框;
10)获取步骤9)后的人脸框位置的坐标信息,即为定位人脸框的结果。
本发明利用单个简单的神经网络和积分图像以及数字图像处理的技术实现了对数字图像中的人脸进行分类和定位。
1.本发明具有简单快速的特点。由于只是使用一层较为简单的神经网络,其计算量相对于级联的神经网络分类定位方法更加少,而后续的积分图像的计算相对于级联的神经网络计算量而言显得更微小。在进
行人脸定位的过程中能够比使用级联的方式更快的速度。
2.本发明具有更好的鲁棒性(在训练数据相同的情况下)。因为本发明使用较为简单的神经网络,其对样本的拟合程度比深层复杂的神经网络更低,会将与正样本中较为拟合的数据预测为正样本。而为了解决这个拟合性的问题,本发明使用积分图像的方法来确定人脸区域所在的位置,因为人脸区域在滑窗的过程中将会得到更多的正预测值,构建成为概率映射积分图的时候将会获得更高的分值,而低分值的区域将会被去除。
3.本发明对训练样本的数量要求更小,使得训练工作成本更低,整体的实施成本也大大的降低了。
4.本发明对于多状态的人脸分类更具有优势。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
结合图1所示,本发明提出一种新的基于神经网络和积分图像的人脸定位技术,在实现上只需要单个神经网络结合积分图像以及数字图像处理的方法即可以对数字图像中的人脸进行分类和定位。
本发明认为经过单个神经网络输出的信息具有更高的利用价值,充分利用这些信息,即可以实现对数字图像中的人脸进行分类和定位。
一种基于神经网络和积分图像的人脸定位技术,步骤如下:
1.训练神经网络模型的步骤与大部分的分类器训练过程类似,步骤如下:
1)收集人脸样本(以下称之为正样本),主要为包含人脸的数字图像,并将人脸区域利用数字图像处理技术剪切出来作为最终的正样本。在实验中我们收集的正样本数量仅为20000张,其中正向人脸和非正向人脸的比例为:100:1。
2)收集不包含人脸的数字图像(以下称之为负样本),正样本与负样本的比例为1:3的关系。
3)构建一个神经网络,该神经网络的结构较浅,一方面使用较浅的神经网络可以得到更快的执行效率,另一方面本方法的分类器准确度介于:92%~99%即可满足要求,深层的神经网络只会耗费更多的运算时间。
4)将正样本和负样本输入神经网络中进行训练,得到人脸/非人脸的分类模型。准确度为96%。
2.使用训练好的模型对数字图像进行人脸/非人脸的分类以及人脸区域的坐标定位。步骤如下:
1)定义最小能定位的人脸尺寸(最小人脸),如40x40px的尺寸。根据最小人脸以及图像金字塔的缩放比例为基础对原图像进行缩放,形成图像金字塔。
2)定义滑窗的尺寸大小和步长,例如尺寸为40x40px,步长为4px。使用滑窗对图像金字塔中的所有图像进行扫描,将扫描到的矩阵(单个滑窗内的像素矩阵)输入至神经网络中,得到分类的预测值。
3)对步骤2)中获得的预测值根据人脸置信度阈值进行筛选,选取满足预测值大于阈值的预测框,并根据图像金字塔的缩放比例还原成为原图中的框的尺寸。
4)构建一张和原图一致大小的积分图像,具体做法是构建一个尺寸和原图一样的单通道图像矩阵,其中像素值全部为0.0。
5)遍历得到的所有符合要求的预测框,预测框中包含该矩阵框在原图中的两个坐标点(左上角以及右下角)和预测的值。根据框的坐标信息将积分图像中相应的矩形框中的坐标点的像素值加上该框的预测值。其中每一点的像素值可以用下面的公式表示:
其中R为预测框,m是预测框的总数量,Ri.x1,Ri.x2分别为预测框的左上角和右下角的横轴坐标,Ri.y1,Ri.y2分别为预测框的左上角和右下角的纵轴坐标,p为预测值。
6)经过步骤5)之后得到的积分图像实际上为神经网络对原图进行人脸区域预测的概率分布图,在本方法中,定义该图像为积分图。在神经网络对人脸的预测中,人脸区域往往会有更多的框被筛选出来,并且其预测值也更高,所以在积分图中可以看出,正确的人脸区域在整张积分图来说其得到的像素值更大(也就是更加显得亮白)。
7)通过积分图像,找出包含人脸区域最佳的坐标位置。设定一个最小的通过阈值,如阈值为50.0,则从积分图中筛选出所有像素值大于该阈值(50)的坐标组成一个包围框,为了寻求最佳的包含区域,每相隔一定的分值选取一个包围框,如从最小值50.0开始至积分图的最大积分值每隔10个分值选取一个包围框,组成待确定的包围框的组合。特别地,每个包围框的分值为当前包围框的值的和,公式如下:
8)使用更改后的非极大值抑制算法选取分值最大的一个包围框。其详细步骤如下:
a)将所有包围框按照分值从小到大进行重新排序。
b)遍历包围框,检查当前包围框的分值与下一个包围框的分值,并计算二者相减后得到的差值,如果当前包围框的分值比差值大,则去除下一个包围框;比较的公式如下:
score=Scorei-1-Scorei
c)循环直至比较结束,选取分值最大的一个作为最优的包围框。
9)根据步骤6)中的积分图特征,越接近人脸的区域得到的分值将会越高(越亮白),选取一个阈值,寻求大于这个阈值的在步骤8)中的最优包围框中的连续像素包围框。该步骤主要是为了在最优的包围框中进一步选取其中的人脸区域坐标,特别是当最优包围框中存在多张人脸的时候,分离不同的人脸框的位置。
10)获取步骤9)后的人脸框位置的坐标信息,即为定位人脸框的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于神经网络和积分图像的人脸定位方法,其特征在于包括以下步骤:
1.训练神经网络模型;
2.使用训练好的模型对数字图像进行人脸/非人脸的分类以及人脸区域的坐标定位,步骤如下:
1)定义最小能定位的人脸尺寸,即最小人脸,根据最小人脸以及图像金字塔的缩放比例为基础对原图像进行缩放,形成图像金字塔;
2)定义滑窗的尺寸大小和步长,使用滑窗对图像金字塔中的所有图像进行扫描,将扫描到的矩阵输入至神经网络中,得到分类的预测值;
3)对步骤2)中获得的预测值根据人脸置信度阈值进行筛选,选取满足预测值大于阈值的预测框,并根据图像金字塔的缩放比例还原成为原图中的框的尺寸;
4)构建一张和原图一致大小的积分图像,具体做法是构建一个尺寸和原图一样的单通道图像矩阵,其中像素值全部为0.0;
5)遍历得到的所有符合要求的预测框,预测框中包含该矩阵框在原图中的两个坐标点和预测的值,根据框的坐标信息将积分图像中相应的矩形框中的坐标点的像素值加上该框的预测值,其中每一点的像素值可以用下面的公式表示:
其中R为预测框,m是预测框的总数量,Ri.x1,Ri.x2分别为预测框的左上角和右下角的横轴坐标,Ri.y1,Ri.y2分别为预测框的左上角和右下角的纵轴坐标,p为预测值;
6)经过步骤5)之后得到的积分图像实际上为神经网络对原图进行人脸区域预测的概率分布图,定义该图像为积分图;
7)通过积分图像,找出包含人脸区域最佳的坐标位置,设定一个最小的通过阈值,从积分图中筛选出所有像素值大于该阈值的坐标组成一个包围框,组成待确定的包围框的组合,每个包围框的分值为当前包围框的值的和,公式如下:
8)使用更改后的非极大值抑制算法选取分值最大的一个包围框;
9)根据步骤6)中的积分图特征,越接近人脸的区域得到的分值将会越高,选取一个阈值,寻求大于这个阈值的在步骤8)中的最优包围框中的连续像素包围框;
10)获取步骤9)后的人脸框位置的坐标信息,即为定位人脸框的结果。
2.根据权利要求1所述的基于神经网络和积分图像的人脸定位方法,其特征在于:
所述步骤7)中,为了寻求最佳的包含区域,每相隔一定的分值选取一个包围框,组成待确定的包围框的组合。
3.根据权利要求1所述的基于神经网络和积分图像的人脸定位方法,其特征在于:
所述步骤8)步骤如下:
a)将所有包围框按照分值从小到大进行重新排序;
b)遍历包围框,检查当前包围框的分值与下一个包围框的分值,并计算二者相减后得到的差值,如果当前包围框的分值比差值大,则去除下一个包围框;
c)循环直至比较结束,选取分值最大的一个作为最优的包围框。
4.根据权利要求1所述的基于神经网络和积分图像的人脸定位方法,其特征在于:
所述步骤1步骤如下:
1)收集人脸样本,称之为正样本,包含人脸的数字图像,并将人脸区域利用数字图像处理技术剪切出来作为最终的正样本;
2)收集不包含人脸的数字图像,称之为负样本,正样本与负样本的比例为1:3的关系;
3)构建一个结构较浅的神经网络,以得到更快的执行效率,并使分类器准确度介于:92%~99%即可满足要求;
4)将正样本和负样本输入神经网络中进行训练,得到人脸/非人脸的分类模型。
CN201711494694.9A 2017-12-31 2017-12-31 一种基于神经网络和积分图像的人脸定位方法 Active CN107944437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711494694.9A CN107944437B (zh) 2017-12-31 2017-12-31 一种基于神经网络和积分图像的人脸定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711494694.9A CN107944437B (zh) 2017-12-31 2017-12-31 一种基于神经网络和积分图像的人脸定位方法

Publications (2)

Publication Number Publication Date
CN107944437A CN107944437A (zh) 2018-04-20
CN107944437B true CN107944437B (zh) 2018-12-14

Family

ID=61938167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711494694.9A Active CN107944437B (zh) 2017-12-31 2017-12-31 一种基于神经网络和积分图像的人脸定位方法

Country Status (1)

Country Link
CN (1) CN107944437B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830331A (zh) * 2018-06-22 2018-11-16 西安交通大学 一种基于全卷积网络的探地雷达目标检测方法
CN109190512A (zh) * 2018-08-13 2019-01-11 成都盯盯科技有限公司 人脸检测方法、装置、设备及存储介质
CN109740441A (zh) * 2018-12-10 2019-05-10 平安科技(深圳)有限公司 基于图像识别的目标检测方法、装置及终端设备
CN109657678B (zh) * 2018-12-17 2020-07-24 北京旷视科技有限公司 图像处理的方法、装置、电子设备和计算机存储介质
CN111832460B (zh) * 2020-07-06 2024-05-21 北京工业大学 一种基于多特征融合的人脸图像提取方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218612A (zh) * 2013-05-13 2013-07-24 苏州福丰科技有限公司 一种3d人脸识别方法
CN104463191A (zh) * 2014-10-30 2015-03-25 华南理工大学 一种基于注意机制的机器人视觉处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020337B2 (en) * 2002-07-22 2006-03-28 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in images
US8649604B2 (en) * 2007-03-05 2014-02-11 DigitalOptics Corporation Europe Limited Face searching and detection in a digital image acquisition device
CN104700099B (zh) * 2015-03-31 2017-08-11 百度在线网络技术(北京)有限公司 识别交通标志的方法和装置
CN106339674B (zh) * 2016-08-17 2019-08-20 中国地质大学(武汉) 基于边缘保持与图割模型的高光谱影像分类方法
CN106529437B (zh) * 2016-10-25 2020-03-03 广州酷狗计算机科技有限公司 一种人脸检测的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218612A (zh) * 2013-05-13 2013-07-24 苏州福丰科技有限公司 一种3d人脸识别方法
CN104463191A (zh) * 2014-10-30 2015-03-25 华南理工大学 一种基于注意机制的机器人视觉处理方法

Also Published As

Publication number Publication date
CN107944437A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107944437B (zh) 一种基于神经网络和积分图像的人脸定位方法
CN110992238B (zh) 一种基于双通道网络的数字图像篡改盲检测方法
CN110348445A (zh) 一种融合空洞卷积和边缘信息的实例分割方法
CN110276264B (zh) 一种基于前景分割图的人群密度估计方法
CN107273905B (zh) 一种结合运动信息的目标主动轮廓跟踪方法
CN109344702B (zh) 基于深度图像和彩色图像的行人检测方法及装置
CN108960404B (zh) 一种基于图像的人群计数方法及设备
CN110866871A (zh) 文本图像矫正方法、装置、计算机设备及存储介质
CN103035013B (zh) 一种基于多特征融合的精确运动阴影检测方法
CN106228528B (zh) 一种基于决策图与稀疏表示的多聚焦图像融合方法
CN108537782B (zh) 一种基于轮廓提取的建筑物图像匹配与融合的方法
CN108171701A (zh) 基于u网络和对抗学习的显著性检测方法
CN111160291B (zh) 基于深度信息与cnn的人眼检测方法
CN109543632A (zh) 一种基于浅层特征融合引导的深层网络行人检测方法
CN113240691A (zh) 一种基于u型网络的医学图像分割方法
CN103914699A (zh) 一种基于色彩空间的自动唇彩的图像增强的方法
CN110827312B (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111709290B (zh) 基于编解码-跳跃连接尺度金字塔网络的人群计数方法
CN111723693A (zh) 一种基于小样本学习的人群计数方法
CN112150493A (zh) 一种基于语义指导的自然场景下屏幕区域检测方法
CN110689000B (zh) 一种基于生成复杂环境下车牌样本的车辆车牌识别方法
CN113095263B (zh) 遮挡下行人重识别模型训练方法、装置及遮挡下行人重识别方法、装置
CN106897681A (zh) 一种遥感图像对比分析方法及系统
CN108734200B (zh) 基于bing特征的人体目标视觉检测方法和装置
CN108564120A (zh) 基于深度神经网络的特征点提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant