CN108416314B

CN108416314B - 图片重要人脸检测方法

Info

Publication number: CN108416314B
Application number: CN201810216978.XA
Authority: CN
Inventors: 郑伟诗; 陈志坚; 李伟宏
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2022-03-08
Anticipated expiration: 2038-03-16
Also published as: CN108416314A

Abstract

本发明公开了一种图片重要人脸检测方法，本发明能够利用图片人脸检测与重要人脸检测的固有的关系，对输入的图片同时进行人脸检测与重要人脸检测。为了达到这样的目标，本发明提出一个二分支的框架，该框架首先对输入的图片进行人脸预检测，提取人脸预选框(即，图像中所有可能包含人脸的区域)。紧接着，将预选框分别输入到两个分支中，其中一个分支进行人脸分类、人脸框回归以及人脸特征点定位，另外的分支则是对人脸重要程度特征提取并进行重要人脸分类，最终该框架能从原始图片中准确的检测到最重要的人脸。本发明方法将特征学习与重要人脸检测连结起来，通过卷积神经网络来学习能够反映图片中人脸的重要程度的深度特征。

Description

图片重要人脸检测方法

技术领域

本发明属于人脸检测的技术领域，特别涉及一种图片重要人脸检测方法。

背景技术

所谓图片重要人脸检测，即从群体合照图片中，检测最重要的人脸，从而识别出最重要的人物。这项技术有望用于图像理解等众多计算机视觉领域，包括给图片生成描述文字问题上可以更加突出图片中心人物、提升人脸检索搜索质量、图片或视频中事件的检测或识别等。现有的图片重要人脸检测主要有以下三类：

(1)基于人脸对排序：图片中不同的人会有不同的重要程度，不同的图片中相同的人也会有不同的重要程度，不同图片中的不同的人重要程度也是不同的。因此，Vip:Finding important people in images中提出了使用回归模型来推断图片不同两个人之间的重要程度关系，通过这样的人脸对的重要程度关系，推断出图片中最重要的人脸。Vip:Finding important people in images中同时还提出使用相同的回归模型，探究不同图片中不同的人之间的重要程度关系以及不同图片中相同人脸的重要程度关系。

(2)基于感知器排序：图片或者视频中最重要的人对于视频中的事件的识别与检测有非常大的作用，因此Detecting events and key actors in multi-person videos提出，使用动作跟外观特征，通过感知器模型计算篮球比赛中不同球员的重要分值，进而提升对篮球比赛中事件的识别与检测的准确率。

(3)基于图排序：人们往往能够轻易、快速地对图片中出现的人的重要程度进行判断并特别关注图片中最重要的人。为了能够对图片中最重要的人脸进行自动的、准确的检测，PersonRank:Detecting Important People in Images提出，对输入的每一张图片中检测的所有人脸构造一个混合关系图，并提出能够在混合关系图对人脸的重要程度进行排序的图模型：PersonRank。

但是，上述几种的重要人脸检测方法尚存在很多不足。目前所有的方法都将重要人脸检测分为两部并通过不同的模型来完成，即通过现有的人脸检测算法进行人脸检测，基于人脸检测的结果进行人脸重要程度的估计，容易受到人脸检测结果的影响，当检测结果中出现非人脸的情况时，会将人脸与非人脸进行一同考虑，增加判错机会。此外，目前所有的人脸检测算法都将特征学习与模型学习分开的进行，也即，他们使用手工设计的特征或者是使用在其他数据库(例如ImageNet)上预训练的深度学习模型来提取特征，在已有的特征基础上再进行重要人脸检测模型训练，无法充分发挥深度学习模型的拟合能力。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种图片重要人脸检测方法，通过检测人脸并给被检测到的人脸赋予一个重要性分值，根据重要性分值排序，找出图片中最重要的人脸。

为了达到上述目的，本发明采用以下技术方案：

本发明一种图片重要人脸检测方法，利用图片人脸检测与重要人脸检测的固有的关系，对输入的图片同时进行人脸检测与重要人脸检测，具体包括下述步骤：

S1、构建一个二分支的框架，利用该二分支的框架对输入的图片进行人脸预检测，提取人脸预选框，所述人脸预选框是指图片中所有可能包含人脸的区域；

S2、将人脸预选框分别输入到两个分支中，其中一个分支进行人脸分类、人脸框回归以及人脸特征点定位，使用预训练好的人脸检测模型实现；另外的一个分支则是对人脸重要程度特征提取并进行重要人脸分类；

S3、在重要人脸检测分支中，对人脸预选框进行扩大，得到上下文候选框，利用重要人脸检测分支提取人脸周围的上下文信息以及纹理特征，同时引入在人脸检测分支中提取的包含人脸信息的局部特征，使得用于重要人脸检测的特征包含丰富有效的信息；

S4、在重要人脸检测分支中，采用端到端的训练方式，即重要人脸分类的梯度能够回传到特征提取的卷积神经网络，并更新网络的参数从而达到将重要人脸特征表达与重要人脸分类连结起来；

S5、最终利用该二分支的框架，从原始图片中准确的检测到最重要的人脸。

作为优选的技术方案，步骤S1具体为：

S11、将图像输入人脸检测器中的P-Net模型提取粗糙的人脸预选框；

S12、使用人脸检测器中的R-Net模型对人脸预选框进行筛选跟过滤，得到更加准确的人脸预选框I_i，其中1,…,N；

S13、根据人脸检测器的O-Net模型输出的关于人脸预选框I_i包含人脸的概率过滤掉不包含人脸的预选框，然后采用非极大抑制方法过滤掉重叠的人脸预选框；

S14、据P_imp(I_i)对人脸预选框进行从大到小排序，排在越前的人脸预选框，重要程度越高。

作为优选的技术方案，步骤S14中，所述P_imp(I_i)为分类模型输出的概率，以该概率值作为人脸预选框I_i的重要性分析。

作为优选的技术方案，在步骤S2中，还包括训练重要人脸分类分支的步骤，包括下属内容：

S21、数据采集及标注，采集一系列包含若干人脸的公开合照，然后利用人脸检测器检测出图像中所有人脸，并用人工标注的方法，将图中最重要的人脸标注出来；

S22、搜集完成训练数据之后，得到训练样本(I_face,I_cont,s)，并对其提取特征向量d；

S23、模型优化，使得学得的重要性概率分布能很好的拟合训练样本的概率。

作为优选的技术方案，步骤S21中，所述数据采集及标注的具体方法为：

将图片中的人脸区域表示成(x₁,y₁,w₁,h₁,s)，x和y表示人脸区域的横、纵坐标，w和h表示人脸区域的宽、高，s表示该人脸是否重要，s＝0表示不重要，s＝1表示重要；最后从图中裁剪出人脸图像，记为I_face。

作为优选的技术方案，还包括提取人脸的上下文信息，具体为：

在人脸区域周围裁剪更大的区域作为上下文图像I_cont，表示成(x₂,y₂,w₂,h₂)，其中x₂和y₂表示上下文图像坐标，w₂和h₂表示上下文图像的宽高，并有：

w₂＝min(min(W,x₁+112),max(0,x₁-112))

h₂＝min(min(H,y₁+224))

x₂＝x₁–w₂/2

y₂＝y₁

其中W和H表示图像的宽高，然后从图像中裁剪出上下文图像，并缩放到224x224；

最终构建出一个训练样本(I_face,I_cont,s)。

作为优选的技术方案，步骤S22中，所述模型定义具体包括下述内容：

首先将人脸图像I_face输入人脸检测器的O-Net模型f_o-net，取最后一层隐层输出作为人脸图像的视觉特征d_face，d_face＝f_o-net(I_face)；

然后将上下文图像输入基于Imagenet预训练的VGG模型f_VGG，取最后一层隐层输出作为上下文图像的上下文特征d_cont，d_cont＝f_VGG(I_cont)；

接着将人脸图像特征d_face、上下文特征d_cont以及人脸区域坐标[x₁,y₁,w₁,h₁]进行融合，作为人脸预选框的特征向量，即d＝[d_face,d_cont,x₁,y₁,w₁,h₁]；

最后基于Softmax分类模型构建重要人脸预选框分类模型，重要性概率记为P_imp，则P_imp＝exp(W₀d+b₀)/(exp(W₀d+b₀)+exp(W₁d+b₁))，其中W₀、b₀、W₁、b₁表示待学习参数。

作为优选的技术方案，步骤S23中，所述模型优化具体为：

采用交叉熵作为损失函数，其定义为L＝-1/N∑(s_i*log(P_imp)+(1–s_i)*log(1-P_imp))，其中N表示训练样本总数；

模型训练训练神经网络的反向传播法，对分类模型以及VGG模型部分进行训练，固定0.001学习率，并使用Adam优化迭代训练20代，即可得到较好的预测效果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明基于现有的著名的多任务级联卷积神经网络模型提出图片重要人脸检测方法，利用图片人脸检测与重要人脸检测固有的联系，构架一个可以同时完成人脸检测与重要人脸检测的深度学习框架。于此同时，本发明提出的方法将特征学习与重要人脸检测连结起来，通过卷积神经网络来学习能够反映图片中人脸的重要程度的深度特征。

2、本发明不需要额外的人脸检测模型，能够同时进行人脸检测与重要人脸检测。

3、本发明中重要人脸检测特征能够包含足够的上下文信息、局部信息以及空间信息等，有更高效的特征表达。

4、本发明支持重要程度特征学习和选择。

附图说明

图1是本发明图片重要人脸检测方法的流程图。

图2(a)为输入原图；图2(b)为P-Net输出的原始人脸预选框；图2(c)为用于重要人脸检测与人脸检测的人脸预选框；图2(d)为用于重要人脸检测的上下文图像；图2(e)为重要人脸检测的最终结果。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

本发明一种图片重要人脸检测方法，提出一种新的深度学习框架将重要人脸检测问题转换成关于重要人脸预选框分类问题。从图1可知，本发明分为按个阶段：

在第一阶段，给定一张包含多张人脸的图片，本发明首先将图像输入人脸检测器中的P-Net提取一系列粗糙的人脸预选框；

在第二阶段，使用人脸检测器中的R-Net对人脸预选框进行筛选跟过滤，得到更加准确的人脸预选框(即，图像中所有可能包含人脸的区域)I_i(i＝1,…,N)。

在第三阶段，基于I_i，跟据人脸检测器O-Net输出的关于I_i包含人脸的概率过滤掉不包含人脸的预选框,然后采用非极大抑制方法过滤掉重叠的人脸预选框(即人脸检测分支)。在重要人脸分类分支中，基于I_i，裁剪出上下文图像，并功过VGG模型进行特征提取并进行重要人脸分类，最终以分类模型输出的概率P_imp(I_i)作为人脸预选框I_i的重要性分值。最后根据P_imp(I_i)对人脸预选框进行从大到小排序，排在越前的人脸预选框，重要程度越高。

本发明能够利用图片人脸检测与重要人脸检测的固有的关系，对输入的图片同时进行人脸检测与重要人脸检测，具体包括下述步骤：

步骤S1中，主要包括下述内容：

给定一张包含多张人脸的图片，本发明首先将图像输入人脸检测器中的P-Net跟R-Ne提取图片的人脸预选框(即，图像中所有可能包含人脸的区域)I_i(i＝1,…,N)，然后基于分类模型构建关于I_i的重要性分值评估模型(即重要人脸检测分支)，最终以分类模型输出的概率P_imp(I_i)作为人脸预选框I_i的重要性分值。判断图片重要人脸时，根据人脸检测器输出的关于I_i包含人脸的概率过滤掉不包含人脸的预选框，然后采用非极大抑制方法过滤掉重叠的人脸预选框(即人脸检测分支)。最后根据P_imp(I_i)对人脸预选框进行从大到小排序，排在越前的人脸预选框，重要程度越高。

综上所述，本发明将重要人脸检测问题转换成关于重要人脸预选框分类问题。

S2、将人脸预选框分别输入到两个分支中，其中一个分支进行人脸分类、人脸框回归以及人脸特征点定位，使用预训练好的人脸检测模型，另外的一个分支则是对人脸重要程度特征提取并进行重要人脸分类；

上述步骤中最关键的是训练重要人脸分类分支，模型训练主要包含数据采集及标注、模型定义及模型优化三个步骤，接下来将进行详细阐述。

(a)数据采集及标注，

首先采集一系列包含若干人脸的公开合照，然后利用人脸检测器检测出图像中所有人脸，并用人工标注的方法，将图中最重要的人脸标注出来。本发明将图中的人脸区域表示成(x₁,y₁,w₁,h₁,s)，x和y表示人脸区域的坐标，w和h表示人脸区域的宽高，s表示该人脸是否重要，s＝0表示不重要，s＝1表示重要。然后我们从图中裁剪出人脸图像，记为I_face。

为了提取人脸的上下文信息，在人脸区域周围裁剪更大的区域作为上下文图像I_cont，表示成(x₂,y₂,w₂,h₂)。其中x₂和y₂表示上下文图像坐标，w₂和h₂表示上下文图像的宽高，并有：

w₂＝min(min(W,x₁+112),max(0,x₁-112))

h₂＝min(min(H,y₁+224))

x₂＝x₁–w₂/2

y₂＝y₁

其中W和H表示图像的宽高。然后我们从图像中裁剪出上下文图像，并缩放到224x224。

于是构建出一个训练样本(I_face,I_cont,s)

(b)模型定义；

搜集完成训练数据之后，得到训练样本(I_face,I_cont,s)，并对其提取特征向量d。本发明首先将人脸图像I_face输入人脸检测器[1]的O-Net模型f_o-net，取最后一层隐层输出作为人脸图像的视觉特征d_face，d_face＝f_o-net(I_face)。然后将上下文图像输入基于Imagenet预训练的VGG模型f_VGG，取最后一层隐层输出作为上下文图像的上下文特征d_cont，d_cont＝f_VGG(I_cont)。接着将人脸图像特征d_face、上下文特征d_cont以及人脸区域坐标[x₁,y₁,w₁,h₁](空间特征)进行融合，作为人脸预选框的特征向量，即d＝[d_face,d_cont,x₁,y₁,w₁,h₁]。

(c)模型优化；

针对上述Softmax分类模型，为了使得学得的重要性概率分布能很好的拟合训练样本的概率，我们采用交叉熵作为损失函数，其定义为L＝-1/N∑(s_i*log(P_imp)+(1–s_i)*log(1-P_imp))，其中N表示训练样本总数。模型训练训练神经网络的反向传播法，对分类模型以及VGG模型部分进行训练，固定0.001学习率，并使用Adam优化迭代训练20代，即可得到较好的预测效果。

为验证本发明的准确性，在Multi-SceneImportantPeopleImageDataset重要人脸检测库上进行了重要人脸检测实验，实验结果表明，本发明能够直接从图片中准确的检测到重要的人脸，模拟结果如图2(a)-图2(e)所示，图2(a)为输入原图；图2(b)为P-Net输出的原始人脸预选框；图2(c)为用于重要人脸检测与人脸检测的人脸预选框；图2(d)为用于重要人脸检测的上下文图像；图2(e)为重要人脸检测的最终结果，讲台上的人脸框为检测到的重要人脸。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种图片重要人脸检测方法，其特征在于，利用图片人脸检测与重要人脸检测的固有的关系，对输入的图片同时进行人脸检测与重要人脸检测，具体包括下述步骤：

步骤S1具体为：

S14、据P_imp(I_i)对人脸预选框进行从大到小排序，排在越前的人脸预选框，重要程度越高；

在步骤S2中，还包括训练重要人脸分类分支的步骤，包括下述内容：

S21、数据采集及标注，采集一系列包含若干人脸的公开合照，然后利用人脸检测器检测出合照中所有人脸，并用人工标注的方法，将图中最重要的人脸标注出来；

提取人脸的上下文信息，具体为：

w₂ = min(min(W, x₁+112), max(0, x₁-112))

h₂ = min(min(H, y₁+224))

x₂ = x₁– w₂/2

y₂ = y₁

最终构建出一个训练样本(I_face, I_cont, s)；

所述人脸检测模型定义具体包括下述内容：

首先将人脸图像I_face输入人脸检测器的O-Net模型f_o-net，取最后一层隐层输出作为人脸图像的视觉特征d_face，d_face = f_o-net(I_face)；

然后将上下文图像输入基于Imagenet预训练的VGG模型f_VGG，取最后一层隐层输出作为上下文图像的上下文特征d_cont，d_cont = f_VGG(I_cont)；

接着将人脸图像特征d_face、上下文特征d_cont以及人脸区域坐标[x₁,y₁,w₁,h₁]进行融合，作为人脸预选框的特征向量，即 d = [d_face, d_cont, x₁, y₁, w₁, h₁]；

最后基于Softmax分类模型构建重要人脸预选框分类模型，重要性概率记为P_imp，则P_imp = exp(W₀d+b₀) / (exp(W₀d+b₀) + exp(W₁d + b₁))，其中W₀、b₀、W₁、b₁表示待学习参数；

S22、搜集完成训练数据之后，得到训练样本(I_face, I_cont, s)，并对其提取特征向量d；

S23、模型优化，使得学得的重要性概率分布能很好的拟合训练样本的概率；

2.根据权利要求1所述的图片重要人脸检测方法，其特征在于，步骤S14中，所述P_imp(I_i)为分类模型输出的概率，以该概率作为人脸预选框I_i的重要性分析。

3.根据权利要求1所述的图片重要人脸检测方法，其特征在于，步骤S21中，所述数据采集及标注的具体方法为：

将图片中的人脸区域表示成(x₁,y₁,w₁,h₁,s)，x和y表示人脸区域的横、纵坐标，w和h表示人脸区域的宽、高，s表示该人脸是否重要，s=0表示不重要，s=1表示重要；最后从图中裁剪出人脸图像，记为I_face。

4.根据权利要求3所述的图片重要人脸检测方法，其特征在于，还包括提取人脸的上下文信息，具体为：

w₂ = min(min(W, x₁+112), max(0, x₁-112))

h₂ = min(min(H, y₁+224))

x₂ = x₁– w₂/2

y₂ = y₁

最终构建出一个训练样本(I_face, I_cont, s)。

5.根据权利要求1所述的图片重要人脸检测方法，其特征在于，步骤S23中，所述模型优化具体为：

采用交叉熵作为损失函数，其定义为L = - 1/N ∑( s_i * log(P_imp) + (1 –s_i) * log(1 - P_imp))，其中N表示训练样本总数；