CN110348423A - 一种基于深度学习的实时人脸检测方法 - Google Patents

一种基于深度学习的实时人脸检测方法 Download PDF

Info

Publication number
CN110348423A
CN110348423A CN201910654324.XA CN201910654324A CN110348423A CN 110348423 A CN110348423 A CN 110348423A CN 201910654324 A CN201910654324 A CN 201910654324A CN 110348423 A CN110348423 A CN 110348423A
Authority
CN
China
Prior art keywords
loss
characteristic pattern
layers
frame
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910654324.XA
Other languages
English (en)
Inventor
王双琴
王凯东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Electronic Science and Technology
Original Assignee
Xian University of Electronic Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Electronic Science and Technology filed Critical Xian University of Electronic Science and Technology
Priority to CN201910654324.XA priority Critical patent/CN110348423A/zh
Publication of CN110348423A publication Critical patent/CN110348423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的实时人脸检测方法,采用MobileNets和SSD作为基础网络,在此基础上引入FPN将多层信息进行融合,使得网络提取的特征更加丰富,对人脸检测效果起到了积极的作用。另外在网络损失函数的设计过程中,借鉴了MultiBox的损失函数形式,将整个损失函数划分成置信度损失和定位损失两个部分,并将MultiBox的2类交叉熵损失扩充为多类别Focal loss形式的损失函数,很好的解决了在训练过程中出现的类别不均衡现象。

Description

一种基于深度学习的实时人脸检测方法
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于深度学习的实时人脸检测方法。
背景技术
人脸检测中经常使用目标检测(object detection)算法,该算法只采用顶层特征做预测,但低层的特征语义信息比较少,但是目标位置准确;高层的特征语义信息比较丰富,但是目标位置比较粗略。另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,使得不同尺度下的特征语义信息丰富程度不尽人意。
而且对于分类问题,当各类别的训练数据不均衡时,模型训练会优先数据比重较多的类别,对于较少数据的类别准确率可能较差,模型容易被带偏。
发明内容
本发明实施例提供了,可以解决现有技术中存在的问题。
本发明提供了一种基于深度学习的实时人脸检测方法,包括以下步骤:
将SSD的基础网络VGG换成MobileNets,将待检测图像输入至改进后的网络,将改进后的网络中Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2和Conv17_2这6层的特征图分别进行两两特征融合后,再将融合后的结果与其他层的特征图进行特征融合,直到所有层的特征图融合完毕,每次融合后的特征图以及Conv17_2中的特征图均输入到预测层中;
预测层对融合后的特征图进行人脸检测,输出相应的预测框,最后对这些预测框进行过滤,获得最终的人脸检测结果;
上述方法中损失函数分为置信度损失和定位损失两部分,置信度损失采用Focalloss进行计算,定位损失采用Fast R-CNN中的Smooth L1 Loss进行计算。
本发明中的一种基于深度学习的实时人脸检测方法,采用MobileNets+SSD作为基础网络,在此基础上引入FPN将多层信息进行融合,使得网络提取的特征更加丰富,对人脸检测效果起到了积极的作用。另外在网络损失函数的设计过程中,借鉴了MultiBox的损失函数形式,将整个损失函数划分成置信度损失和定位损失两个部分,并将MultiBox的2类交叉熵损失扩充为多类别Focal loss形式的损失函数,很好的解决了在训练过程中出现的类别不均衡现象。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为特征融合过程的示意图;
图2为特征融合模块的处理过程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的基础网络选择的是MobileNets网络,MobileNets总共28层,是Google针对手机的智能型嵌入式设备设计的轻量级深度神经网络结构,主要的思想是将传统卷积操作改成depthwise convolution和pointwise convolution来解决卷积网络的计算效率和参数量的问题,运行速度快,而且对图像特征的提取能力较强。本发明方法设计的落脚点是实时准确的人脸检测算法,因此需要运行速度快,所以基础网络选择MobileNets。
对于人脸检测的算法来讲,需要对于尺度变换有更好的适应,因为一张图像的人脸大小尺度变换非常剧烈(大则几千像素,小则几十像素),SSD(Single Shot MultiBoxDetector)网络由于其设计思想是从不同层(而不是单一层)的特征图分别进行目标检测,由于不同层的特征图尺度不一样,但在这些特征图都进行目标检测,都输出相应的预测框,最后再对这些预测框进行过滤。因此SSD网络对于不同尺度的特征图检测效果好。对于不同尺度的目标(尤其是对小目标)检测效果好。本发明的检测网络是在SSD网络的基础上整合特征金字塔网络(Feature Pyramid Networks,FPN)的思想,使得网络提取的特征更加丰富且具有更强的表征性。
下面具体介绍本发明的步骤:
如果不进行网络改进,直接将SSD的基础网络VGG换成MobileNets,等价于在MobileNets网络的Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2、Conv17_2这6层的特征图提取先验框,再在这6层特征图分别进行人脸检测,然后对结果进行过滤获得最后的检测结果。而本发明做了改进,将SSD的基础网络VGG换成MobileNets,将待检测图像输入至替换后的网络中,然后将网络中的Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2和Conv17_2这6层的特征图分别进行两两特征融合后,再将融合后的结果与其他层的特征图进行特征融合,具体来说,本发明先将Conv16_2和Conv17_2层的特征图采用特征融合模块进行特征融合计算,融合得到的特征图再与Conv15_2层的特征图采用特征融合模块进行特征融合计算,以此类推,直到Conv11层的特征图融合完毕,每次融合后的特征图以及Conv17_2中的特征图均输入到预测层中,如图1所示。
预测层对融合后的特征图进行人脸检测,输出相应的预测框,最后对这些预测框进行过滤,获得最终的人脸检测结果。
上述步骤中,特征融合模块的工作过程如图2所示,特征融合模块首先将输入大小为H*W的特征图进行2倍上采样,然后经过卷积层和BN层得到第一分支特征图(此时已经将特征图变成2H*2W);特征融合模块同时将输入大小为2H*2W的特征图经过卷积层、BN层和ReLU层进行简单的再提取,即再次经过卷积层和BN层得到第二分支特征图(尺寸不变依然是2H*2W),最后特征融合模块将两个分支特征图进行Concatenate运算,最后再经过ReLU层后得到经过特征融合的特征图,完成一次特征融合。
本发明中,SSD属于one-stage方法,该方法是直接回归最后的边界框预测,对于一个二分类器来讲,某个样本数目过大时会导致分类器偏向数目大的类别,这个问题会导致人脸人脸人脸检测精度很低。针对这个问题本发明通过总损失函数让分类器更集中解决困难样本,从而很好的解决了训练过程中出现的类别不均衡现象。总损失函数借鉴MultiBoxobjective的损失形式,将总损失函数划分为置信度损失Lconf和定位损失Lloc两部分,本发明将MultiBox的2类损失扩充为多类别的Focal loss损失:
其中,L(x,c,l,g)表示总损失,x表示匹配指示参数,c表示置信度预测值,l表示预测框,g表示真实框,N表示预测框与先验框匹配成功的个数,匹配成功则属于正样本Pos,反正则属于负样本Neg。如果N是0,则总损失为0。α表示置信度损失和定位损失之间的权重,在发明中设置为1。
定位损失使用Fast R-CNN中的Smooth L1Loss来度量预测框和真实框之间的差异。和Fast R-CNN一样,回归的是先验框d的中心坐标(cx,cy)、长度h、宽度w和真实框g之间的偏移量。对真实框g的中心坐标(cx,cy)做归一化处理,并对真实框g的长度h和宽度w做了log函数的拉伸处理,以减少真实框的坐标值大小和长度变化对定位损失计算的影响:
其中,smoothL1(·)为Fast R-CNN中的Smooth L1函数,表示第i个先验框d与第j个真实框g关于类别k是否匹配,如果匹配,则xij等于1;反之,则为0。i∈Pos表示只计算正样本的定位损失。表示预测框的中心坐标、宽度和高度,表示编码形式的真实框的中心坐标、宽度和高度,第i个先验框的位置用表示,第j个真实框的位置用 表示。
置信度损失使用了专门针对密集物体和小目标物体检测设计的损失Focal loss进行计算,Focal loss损失可以自动调整目标检测中的难例样本和容易样本的损失权重,从而提升对难例样本的检测效果。
其中表示负样本的类别是第0类,即背景类,表示负样本的类别是第k类。是使用的Focal loss权重系数,在本发明中γ设置为2。
本发明对现有算法添加了一系列的改进,结果也表明,本发明所改进的人脸检测方法的效果在具有挑战性的WIDER FACE数据集上达到了很好的检测效果,在准确度和速度上都有一定的提高,满足实时性的要求。该方法可靠地解决了面部遮挡,光照,人脸偏转角度,低分辨率,尺度差异等问题。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于深度学习的实时人脸检测方法,其特征在于,包括以下步骤:
将SSD的基础网络VGG换成MobileNets,将待检测图像输入至改进后的网络,将改进后的网络中Conv11、Conv13、Conv14_2、Conv15_2、Conv16_2和Conv17_2这6层的特征图分别进行两两特征融合后,再将融合后的结果与其他层的特征图进行特征融合,直到所有层的特征图融合完毕,每次融合后的特征图以及Conv17_2中的特征图均输入到预测层中;
预测层对融合后的特征图进行人脸检测,输出相应的预测框,最后对这些预测框进行过滤,获得最终的人脸检测结果;
上述方法中总损失函数分为置信度损失和定位损失两部分,置信度损失采用Focalloss进行计算,定位损失采用Fast R-CNN中的Smooth L1 Loss进行计算。
2.如权利要求1所述的一种基于深度学习的实时人脸检测方法,其特征在于,进行特征融合时,先将Conv16_2和Conv17_2层的特征图采用特征融合模块进行特征融合计算,融合得到的特征图再与Conv15_2层的特征图采用特征融合模块进行特征融合计算,以此类推,直到Conv11层的特征图融合完毕。
3.如权利要求1所述的一种基于深度学习的实时人脸检测方法,其特征在于,所述特征融合模块首先将输入大小为H*W的特征图进行2倍上采样,然后经过卷积层和BN层得到第一分支特征图;同时,所述特征融合模块将输入大小为2H*2W的特征图经过卷积层、BN层和ReLU层后再进行再提取得到第二分支特征图,最后所述特征融合模块将两个分支特征图进行Concatenate运算,再经过ReLU层后得到经过特征融合的特征图。
4.如权利要求1所述的一种基于深度学习的实时人脸检测方法,其特征在于,总损失函数划分为置信度损失Lconf和定位损失Lloc两部分:
其中,L(x,c,l,g)表示总损失,x表示匹配指示参数,c表示置信度预测值,l表示预测框,g表示真实框,N表示预测框与先验框匹配成功的个数,匹配成功则属于正样本Pos,反正则属于负样本Neg,如果N是0,则总损失为0,α表示置信度损失和定位损失之间的权重。
5.如权利要求4所述的一种基于深度学习的实时人脸检测方法,其特征在于,所述定位损失使用Fast R-CNN中的Smooth L1 Loss来度量预测框和真实框之间的差异,回归目标是先验框d的中心坐标(cx,cy)、长度h、宽度w和真实框g之间的偏移量;对真实框g的中心坐标(cx,cy)做归一化处理,并对真实框g的长度h和宽度w做了log函数的拉伸处理,以减少真实框的坐标值大小和长度变化对定位损失计算的影响:
其中,smoothL1(·)为Fast R-CNN中的Smooth L1函数,表示第i个先验框d与第j个真实框g关于类别k是否匹配,如果匹配,则xij等于1;反之,则为0,i∈Pos表示只计算正样本的定位损失,表示预测框的中心坐标、宽度和高度,表示编码形式的真实框的中心坐标、宽度和高度。
6.如权利要求4所述的一种基于深度学习的实时人脸检测方法,其特征在于,所述置信度损失使用Focal loss进行计算:
其中表示负样本的类别是第0类,即背景类,表示负样本的类别是第k类,是使用的Focal loss权重系数。
CN201910654324.XA 2019-07-19 2019-07-19 一种基于深度学习的实时人脸检测方法 Pending CN110348423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910654324.XA CN110348423A (zh) 2019-07-19 2019-07-19 一种基于深度学习的实时人脸检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910654324.XA CN110348423A (zh) 2019-07-19 2019-07-19 一种基于深度学习的实时人脸检测方法

Publications (1)

Publication Number Publication Date
CN110348423A true CN110348423A (zh) 2019-10-18

Family

ID=68179295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910654324.XA Pending CN110348423A (zh) 2019-07-19 2019-07-19 一种基于深度学习的实时人脸检测方法

Country Status (1)

Country Link
CN (1) CN110348423A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191508A (zh) * 2019-11-28 2020-05-22 浙江省北大信息技术高等研究院 人脸识别方法及装置
CN111401290A (zh) * 2020-03-24 2020-07-10 杭州博雅鸿图视频技术有限公司 一种人脸检测方法及系统、计算机可读存储介质
CN111723762A (zh) * 2020-06-28 2020-09-29 湖南国科微电子股份有限公司 人脸属性识别方法、装置、电子设备及存储介质
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN113128479A (zh) * 2021-05-18 2021-07-16 成都市威虎科技有限公司 一种学习噪声区域信息的人脸检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229442A (zh) * 2018-02-07 2018-06-29 西南科技大学 基于ms-kcf的图像序列中人脸快速稳定检测方法
CN108875595A (zh) * 2018-05-29 2018-11-23 重庆大学 一种基于深度学习和多层特征融合的驾驶场景目标检测方法
CN109344731A (zh) * 2018-09-10 2019-02-15 电子科技大学 基于神经网络的轻量级的人脸识别方法
CN109766998A (zh) * 2019-01-14 2019-05-17 温岭市非普电气有限公司 一种基于MobileNet加速的特征金字塔网络结构
CN109784476A (zh) * 2019-01-12 2019-05-21 福州大学 一种改进dsod网络的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229442A (zh) * 2018-02-07 2018-06-29 西南科技大学 基于ms-kcf的图像序列中人脸快速稳定检测方法
CN108875595A (zh) * 2018-05-29 2018-11-23 重庆大学 一种基于深度学习和多层特征融合的驾驶场景目标检测方法
CN109344731A (zh) * 2018-09-10 2019-02-15 电子科技大学 基于神经网络的轻量级的人脸识别方法
CN109784476A (zh) * 2019-01-12 2019-05-21 福州大学 一种改进dsod网络的方法
CN109766998A (zh) * 2019-01-14 2019-05-17 温岭市非普电气有限公司 一种基于MobileNet加速的特征金字塔网络结构

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENG-YANG FU ET AL.: "DSSD : Deconvolutional Single Shot Detector", 《ARXIV》 *
D. ERHAN ET AL.: "Scalable Object Detection Using Deep Neural Networks", 《2014 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191508A (zh) * 2019-11-28 2020-05-22 浙江省北大信息技术高等研究院 人脸识别方法及装置
CN112949673A (zh) * 2019-12-11 2021-06-11 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN111401290A (zh) * 2020-03-24 2020-07-10 杭州博雅鸿图视频技术有限公司 一种人脸检测方法及系统、计算机可读存储介质
CN111723762A (zh) * 2020-06-28 2020-09-29 湖南国科微电子股份有限公司 人脸属性识别方法、装置、电子设备及存储介质
CN113128479A (zh) * 2021-05-18 2021-07-16 成都市威虎科技有限公司 一种学习噪声区域信息的人脸检测方法及装置

Similar Documents

Publication Publication Date Title
CN110348423A (zh) 一种基于深度学习的实时人脸检测方法
CN106127204B (zh) 一种全卷积神经网络的多方向水表读数区域检测算法
CN108197587A (zh) 一种通过人脸深度预测进行多模态人脸识别的方法
CN110245662A (zh) 检测模型训练方法、装置、计算机设备和存储介质
CN104463117B (zh) 一种基于视频方式的人脸识别样本采集方法及系统
CN109711474A (zh) 一种基于深度学习的铝材表面缺陷检测算法
CN109117876A (zh) 一种稠密小目标检测模型构建方法、模型及检测方法
CN109903312A (zh) 一种基于视频多目标跟踪的足球球员跑动距离统计方法
CN108520219A (zh) 一种卷积神经网络特征融合的多尺度快速人脸检测方法
CN109359666A (zh) 一种基于多特征融合神经网络的车型识别方法及处理终端
CN109271870A (zh) 行人重识别方法、装置、计算机设备及存储介质
CN108460403A (zh) 一种图像中多尺度特征融合的目标检测方法与系统
CN108304820A (zh) 一种人脸检测方法、装置及终端设备
CN109613006A (zh) 一种基于端到端神经网络的织物疵点检测方法
CN103324677B (zh) 一种可分级的快速图像gps位置估计方法
CN109978918A (zh) 一种轨迹追踪方法、装置和存储介质
CN108447080A (zh) 基于分层数据关联和卷积神经网络的目标跟踪方法、系统和存储介质
CN108573246A (zh) 一种基于深度学习的时序动作识别方法
CN110287826A (zh) 一种基于注意力机制的视频目标检测方法
CN110276264A (zh) 一种基于前景分割图的人群密度估计方法
CN110033473A (zh) 基于模板匹配和深度分类网络的运动目标跟踪方法
CN109508664A (zh) 一种基于深度学习的菜品识别计价方法
CN110969087A (zh) 一种步态识别方法及系统
CN108460790A (zh) 一种基于一致性预测器模型的视觉跟踪方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018

RJ01 Rejection of invention patent application after publication