CN113496174B - 一种提升三级级联检测召回率和正确率的方法 - Google Patents

一种提升三级级联检测召回率和正确率的方法 Download PDF

Info

Publication number
CN113496174B
CN113496174B CN202010264076.0A CN202010264076A CN113496174B CN 113496174 B CN113496174 B CN 113496174B CN 202010264076 A CN202010264076 A CN 202010264076A CN 113496174 B CN113496174 B CN 113496174B
Authority
CN
China
Prior art keywords
score
face
multiplied
stage
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010264076.0A
Other languages
English (en)
Other versions
CN113496174A (zh
Inventor
田凤彬
于晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ingenic Semiconductor Co Ltd
Original Assignee
Beijing Ingenic Semiconductor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ingenic Semiconductor Co Ltd filed Critical Beijing Ingenic Semiconductor Co Ltd
Priority to CN202010264076.0A priority Critical patent/CN113496174B/zh
Publication of CN113496174A publication Critical patent/CN113496174A/zh
Application granted granted Critical
Publication of CN113496174B publication Critical patent/CN113496174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种提升三级级联检测召回率和正确率的方法,所述方法包括:所述方法是基于三级级联,当第二级生成的结果中,当结果的得分大于一阈值的人脸图片中正确率高,当结果的得分低于这个阈值时,正确率降低和/或错误率升高,基于这种情况,只对得分在这个阈值确定的区间的人脸进行最后一级的处理。本发明利用阈值判断的简单方法,确定第二级结果中部分图片可直接进行最后一级的计算,提升了人脸检测的召回率和正确率。

Description

一种提升三级级联检测召回率和正确率的方法
技术领域
本发明涉及神经网络技术领域,特别涉及一种提升三级级联检测召回率和正确率的方法。
背景技术
当今社会,人工智能领域中神经网络技术发展迅猛。其中MTCNN技术也是近年来较为流行的技术之一。MTCNN,Multi-task convolutional neural network(多任务卷积神经网络),将人脸区域检测与人脸关键点检测放在了一起,总体可分为P-Net、R-Net、和O-Net三层网络结构。用于人脸检测任务的多任务神经网络模型,该模型主要采用了三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。
但是,MTCNN级联检测存在以下缺陷:
1、存在一定的误检,召回率和正确率相对较低。
2、网络无法进行量化或量化后损失召回率和正确率。
此外,现有技术中还包括以下常用的技术术语:
1、级联:是指几个检测器通过串联的方式进行检测的方式称为级联。
2、iou:两个区域面积的交集与这两个区域面积的并集的比值。
3、量化:浮点转化为定点或是8位或4位或2位的一种现象叫做量化。
4、召回率:正确检测出人脸的个数与标记人脸的总数的比值。
5、正确率:正确检测出结果与检测出结果总数的比值。
6、模型:是通过样本训练出来的一个函数的所有的系数,这些系数称为模型。
7、检测器:是用于检测的一个函数,其主要组成部分是模型。
8、人脸检测:使用人脸检测器检测视频或一张图片中是否存在人脸的过程,叫做人脸检测。
9、卷积核:卷积核是用来做图像处理时的矩阵,与原图像做运算的参数。卷积核通常是一个列矩阵数组成(例如3*3的矩阵),该区域上每个方格都有一个权重值。矩阵形状一般是1×1,3×3,5×5,7×7,1×3,3×1,2×2,1×5,5×1,……
10、卷积:将卷积核的中心放置在要计算的像素上,一次计算核中每个元素和其覆盖的图像像素值的乘积并求和,得到的结构就是该位置的新像素值,这个过程称为卷积。
11、前端人脸检测:在芯片上使用的人脸检测称之为前端人脸检测,前端人脸检测的速度和正确率比云端服务器人脸检测的低。
12、特征图:输入数据通过卷积计算后得到的结果称之为特征图,数据通过全连接后生成的结果也称为特征图。特征图大小一般表示为长×宽×深度,或1×深度。
13、步长:卷积核中心位置再坐标上移动的长度。
14:两端非对齐处理:图像或数据通过卷积核大小为3且步长为2处理时,会导致两侧数据不够,此时采用丢弃两侧或一侧数据,这种现象叫做两端非对其处理。
发明内容
为了解决上述现有技术存在的问题,本发明的目的在于通过本申请实现:提升人脸检测的召回率和正确率。网络可以量化并保证召回率和正确率不变甚至提升。
具体地,本发明提供一种提升三级级联检测召回率和正确率的方法,所述方法包括:所述方法是基于三级级联,当第二级生成的结果中,当结果的得分大于一阈值的人脸图片中正确率高,当结果的得分低于这个阈值时,正确率降低和/或错误率升高,基于这种情况,只对得分在这个阈值确定的区间的人脸进行最后一级的处理。
所述方法进一步包括:
S1,网络结构模型的设计:量化要求卷积只使用3×3的卷积,每层的深度必须是16的倍数;
S2,网络结构模型的使用:
设二级检测器检测出的得分为score,再设置两个阈值分别为max_th和min_th,max_th>min_th,其中max_th是最大阈值;
当score>=max_th时,所输入二级检测器的图像数据符合要求,判断为人脸图片并计算该输入二级检测器检测的图片对应原图中的坐标信息,不会再输入到第三级检测器中;
当min_th<score<max_th,该得分对应的图像数据输入到第三级检测器中,根据得分情况,判断是否为人脸,进行取舍,并将该图片对应原图中的坐标进行映射计算;
将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理,根据得分高低进行合并,否则保留坐标信息,这些坐标信息对应的区域,就是检测出人脸的位置。
所述步骤S1,根据量化要求设计如下网络:
第一层输入的图片为25×25×3,输出深度为32的特征图,卷积核为3×3,步长为1,计算卷积的图为两端非对齐,所有数据有效使用;
第二层输入数据的特征图为23×23×32,输出特征图深度为32,卷积核大小为3×3大小,步长为2,计算卷积的图为两端非对齐;
第三层输入数据的特征图的大小为11×11×32,输出特征图深度为32,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图5×5×32;
第四层输入特征图为5×5×32,输出48张特征图,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图2×2×48;将2×2×48的数据展成一维数据192;
第六层包括两个分支,将192数据分别连接到是否为人脸的判断和人脸box相对坐标上。
由此,本申请的优势在于:利用阈值判断的简单方法,确定第二级结果中部分图片可直接进行最后一级的计算,提升了人脸检测的召回率和正确率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1是本发明方法的示意流程图。
图2是本发明方法的网络结构模型的使用的示意图。
图3是本发明方法的网络结构模型的示意图。
具体实施方式
为了能够更清楚地理解本发明的技术内容及优点,现结合附图对本发明进行进一步的详细说明。
本发明涉及一种提升三级级联检测召回率和正确率的方法,所述方法包括:所述方法是基于三级级联,当第二级生成的结果中,当结果的得分大于一阈值的人脸图片中正确率高,当结果的得分低于这个阈值时,正确率降低和/或错误率升高,基于这种情况,只对得分在这个阈值确定的区间的人脸进行最后一级的处理。
如图1所示,所述方法进一步包括:
S1,网络结构模型的设计:量化要求卷积只使用3×3的卷积,每层的深度必须是16的倍数;
S2,网络结构模型的使用,如图2所示:
设二级检测器检测出的得分为score,再设置两个阈值分别为max_th和min_th,max_th>min_th,其中max_th是最大阈值;
当score>=max_th时,所输入二级检测器的图像数据符合要求,判断为人脸图片并计算该输入二级检测器检测的图片对应原图中的坐标信息,不会再输入到第三级检测器中;
当min_th<score<max_th,该得分对应的图像数据输入到第三级检测器中,根据得分情况,判断是否为人脸,进行取舍,并将该图片对应原图中的坐标进行映射计算;
将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理,根据得分高低进行合并,否则保留坐标信息,这些坐标信息对应的区域,就是检测出人脸的位置。
所述步骤S1中,所述的量化要求卷积只使用3×3的卷积,每层的深度必须是16的倍数,不能使用池化和图的相加等方式不能使用池化和图的相加方式。
所述步骤S1,根据量化要求设计如下网络:
第一层输入的图片为25×25×3,输出深度为32的特征图,卷积核为3×3,步长为1,计算卷积的图为两端非对齐,所有数据有效使用;
第二层输入数据的特征图为23×23×32,输出特征图深度为32,卷积核大小为3×3大小,步长为2,计算卷积的图为两端非对齐;
第三层输入数据的特征图的大小为11×11×32,输出特征图深度为32,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图5×5×32;
第四层输入特征图为5×5×32,输出48张特征图,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图2×2×48;
将2×2×48的数据展成一维数据192;
第六层包括两个分支,将192数据分别连接到是否为人脸的判断和人脸box相对坐标上。
所述步骤S2中,所述的有条件的合并处理是如果坐标的iou>0.5时,根据得分高低进行合并。
所述步骤S2中,所述根据得分高低进行合并,其中得分高的保留,删除得分低的坐标信息。
本发明的技术方案可以进一步解释如下:
1、技术方法。
讨论的是三级级联的情况,最后一级是这里处理的技术核心。由于第二级生成的结果中,在大于某个得分阈值的人脸中,正确率很高,当低于这个得分阈值时,正确率降低,错误率升高。基于这种情况,我们只需对得分在某个阈值区间的人脸进行最后一级的处理,从而一定程度降低检测时间,又提升召回率和正确率。为了减少检测时间,使用第二级输入的人脸图片作为最后一级输入的人脸图片,从而节省了剪切出的人脸再进行缩放的时间。
2、实现步骤。
1)网络结构。
量化要求卷积只使用3×3的卷积,每层的深度必须是16的倍数,不能使用池化和图的相加等方式。根据量化要求设计如下网络。第一层输入的图片为25×25×3,输出深度为32的特征图,卷积核为3×3,步长为1,计算卷积的图为两端非对齐,所有数据有效使用,如果使用对其处理,会增加无效数据填充。第二层输入数据的特征图为23×23×32,输出特征图深度为32,卷积核大小为3×3大小,步长为2,计算卷积的图为两端非对齐。第三层输入数据的特征图的大小为11×11×32,输出特征图深度为32,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图5×5×32。第四层输入特征图为5×5×32,输出48张特征图,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图2×2×48。将2×2×48的数据展成一维数据192。第六层包括两个分支,将192数据分别连接到是否为人脸的判断和人脸box相对坐标上。网络结构见图3。
2)网络模型的使用。
设二级检测器检测出的得分为score,再设置两个阈值分别为max_th和min_th(max_th>min_th),其中max_th是最大阈值。当score>=max_th时,所输入二级检测器的图像数据符合要求,是判断为人脸并计算该输入二级检测器检测的图片对应原图中的坐标信息,不会再输入到第三级检测器中;当min_th<score<max_th,该得分对应的图像数据输入到第三级检测器中,根据得分情况,判断是否为人脸,进行取舍,并将该图片对应原图中的坐标进行映射计算。将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理,如果坐标的iou>0.5,根据得分高低进行合并(得分高的保留,删除得分低的坐标信息),否则保留坐标信息。这些坐标信息对应的区域,就是检测出人脸的位置。
此外,本申请还涉及对最后一级的训练,使用大量无人脸的图片提取负样本,增加负样本量,从而提高最后一级模型的效果。其中,训练样本的生成。用于提取训练样本的负样本,使用大量没有人脸的图片进行提取负样本,所有被二级检测器检测为人脸的图片(得分大于0.80)都是负样本,以输入到二级检测器的图片为保存目标进行保存,保证负样本个数超过10万张。正样本的采集,使用二级检测器检测带有标注的图片,检测出的人脸(得分大于0.80,这里区域是第二级输入人脸图片)与图片标注区域的人脸(缩放系数与到检测出的人脸的缩放系数相同)的iou大于0.5的为正样本,小于0.2的为负样本。正样本的个数控制在30万张。根据标注的坐标信息计算每张正样本的标注信息。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种提升三级级联检测召回率和正确率的方法,其特征在于,所述方法包括:所述方法是基于三级级联,当第二级生成的结果中,当结果的得分大于一阈值的人脸图片中正确率高,当结果的得分低于这个阈值时,正确率降低和/或错误率升高,基于这种情况,只对得分在这个阈值确定的区间的人脸进行最后一级的处理,所述方法进一步包括:
S1,网络结构模型的设计:量化要求卷积只使用3×3的卷积,每层的深度必须是16的倍数;所述的量化要求卷积只使用3×3的卷积,每层的深度必须是16的倍数,不能使用池化和图的相加方式;
根据量化要求设计如下网络:
第一层输入的图片为25×25×3,输出深度为32的特征图,卷积核为3×3,步长为1,计算卷积的图为两端非对齐,所有数据有效使用;
第二层输入数据的特征图为23×23×32,输出特征图深度为32,卷积核大小为3×3大小,步长为2,计算卷积的图为两端非对齐;
第三层输入数据的特征图的大小为11×11×32,输出特征图深度为32,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图5×5×32;
第四层输入特征图为5×5×32,输出48张特征图,卷积核为3×3,步长为2,计算卷积的图为两端非对齐,输出特征图2×2×48;
将2×2×48的数据展成一维数据192;
第六层包括两个分支,将192数据分别连接到是否为人脸的判断和人脸box相对坐标上
S2,网络结构模型的使用:
设二级检测器检测出的得分为score,再设置两个阈值分别为max_th和min_th ,max_th > min_th,其中max_th是最大阈值;
当score>=max_th时,所输入二级检测器的图像数据符合要求,判断为人脸图片并计算该输入二级检测器检测的图片对应原图中的坐标信息,不会再输入到第三级检测器中;
当min_th<score<max_th,该得分对应的图像数据输入到第三级检测器中,根据得分情况,判断是否为人脸,进行取舍,并将该图片对应原图中的坐标进行映射计算;
将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理,根据得分高低进行合并,否则保留坐标信息,这些坐标信息对应的区域,就是检测出人脸的位置;所述的有条件的合并处理是如果坐标的iou>0.5时,根据得分高低进行合并;所述根据得分高低进行合并,其中得分高的保留,删除得分低的坐标信息。
CN202010264076.0A 2020-04-07 2020-04-07 一种提升三级级联检测召回率和正确率的方法 Active CN113496174B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010264076.0A CN113496174B (zh) 2020-04-07 2020-04-07 一种提升三级级联检测召回率和正确率的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010264076.0A CN113496174B (zh) 2020-04-07 2020-04-07 一种提升三级级联检测召回率和正确率的方法

Publications (2)

Publication Number Publication Date
CN113496174A CN113496174A (zh) 2021-10-12
CN113496174B true CN113496174B (zh) 2024-01-23

Family

ID=77995289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010264076.0A Active CN113496174B (zh) 2020-04-07 2020-04-07 一种提升三级级联检测召回率和正确率的方法

Country Status (1)

Country Link
CN (1) CN113496174B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106650699A (zh) * 2016-12-30 2017-05-10 中国科学院深圳先进技术研究院 一种基于卷积神经网络的人脸检测方法及装置
CN107145867A (zh) * 2017-05-09 2017-09-08 电子科技大学 基于多任务深度学习的人脸及人脸遮挡物检测方法
WO2018054283A1 (zh) * 2016-09-23 2018-03-29 北京眼神科技有限公司 人脸模型的训练方法和装置、人脸认证方法和装置
CN109117689A (zh) * 2017-06-22 2019-01-01 京东方科技集团股份有限公司 行人检测方法和装置
CN109389030A (zh) * 2018-08-23 2019-02-26 平安科技(深圳)有限公司 人脸特征点检测方法、装置、计算机设备及存储介质
CN110188730A (zh) * 2019-06-06 2019-08-30 山东大学 基于mtcnn的人脸检测与对齐方法
CN110619319A (zh) * 2019-09-27 2019-12-27 北京紫睛科技有限公司 一种基于改进的mtcnn模型人脸检测方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI413936B (zh) * 2009-05-08 2013-11-01 Novatek Microelectronics Corp 人臉偵測裝置及其人臉偵測方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054283A1 (zh) * 2016-09-23 2018-03-29 北京眼神科技有限公司 人脸模型的训练方法和装置、人脸认证方法和装置
CN107871100A (zh) * 2016-09-23 2018-04-03 北京眼神科技有限公司 人脸模型的训练方法和装置、人脸认证方法和装置
CN106650699A (zh) * 2016-12-30 2017-05-10 中国科学院深圳先进技术研究院 一种基于卷积神经网络的人脸检测方法及装置
CN107145867A (zh) * 2017-05-09 2017-09-08 电子科技大学 基于多任务深度学习的人脸及人脸遮挡物检测方法
CN109117689A (zh) * 2017-06-22 2019-01-01 京东方科技集团股份有限公司 行人检测方法和装置
CN109389030A (zh) * 2018-08-23 2019-02-26 平安科技(深圳)有限公司 人脸特征点检测方法、装置、计算机设备及存储介质
CN110188730A (zh) * 2019-06-06 2019-08-30 山东大学 基于mtcnn的人脸检测与对齐方法
CN110619319A (zh) * 2019-09-27 2019-12-27 北京紫睛科技有限公司 一种基于改进的mtcnn模型人脸检测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Anchor Cascade for efficient face detection;Baosheng Yu et al;《IEEE》;第28卷;2490-2501 *
双阈值级联分类器的加速人脸检测算法;王燕;公维军;;计算机应用(第07期);96-98+104 *
基于级联神经网络的人脸检测;李帅杰;陈虎;兰时勇;;现代计算机(专业版)(第29期);25-30 *

Also Published As

Publication number Publication date
CN113496174A (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
CN110781967B (zh) 一种基于可微分二值化的实时文本检测方法
US20210224609A1 (en) Method, system and device for multi-label object detection based on an object detection network
CN112200143A (zh) 一种基于候选区域网络和机器视觉的道路病害检测方法
CN107038416B (zh) 一种基于二值图像改进型hog特征的行人检测方法
US6912309B2 (en) Method and system for identifying objects in an image
CN111523553A (zh) 一种基于相似度矩阵的中心点网络多目标检测方法
CN113344826B (zh) 图像处理方法、装置、电子设备及存储介质
CN112989995B (zh) 文本检测方法、装置及电子设备
CN111753682A (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN113052106A (zh) 一种基于PSPNet网络的飞机起降跑道识别方法
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN115205855A (zh) 融合多尺度语义信息的车辆目标识别方法、装置及设备
CN114926826A (zh) 场景文本检测系统
CN117830675A (zh) 一种基于语义分割的图像变化检测系统
CN113496174B (zh) 一种提升三级级联检测召回率和正确率的方法
CN113963333A (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN113496173B (zh) 一种级联的人脸检测最后一级的检测方法
CN113160097A (zh) 一种基于直方图变换的红外图像量化方法
CN116229228A (zh) 基于中心环绕机制的小目标检测方法
CN116863134A (zh) 一种隧道衬砌裂缝长度与宽度的检测分割方法及系统
Liu et al. Low computation and high efficiency Sobel edge detector for robot vision
US11481881B2 (en) Adaptive video subsampling for energy efficient object detection
CN113139577A (zh) 一种基于可变形卷积网络的深度学习图像分类方法及系统
CN114005150B (zh) 一种可量化的前端人脸检测的设计方法
CN111950586A (zh) 一种引入双向注意力的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant