CN113496174B

CN113496174B - 一种提升三级级联检测召回率和正确率的方法

Info

Publication number: CN113496174B
Application number: CN202010264076.0A
Authority: CN
Inventors: 田凤彬; 于晓静
Original assignee: Beijing Ingenic Semiconductor Co Ltd
Current assignee: Beijing Ingenic Semiconductor Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2024-01-23
Anticipated expiration: 2040-04-07
Also published as: CN113496174A

Abstract

本发明提供一种提升三级级联检测召回率和正确率的方法，所述方法包括：所述方法是基于三级级联，当第二级生成的结果中，当结果的得分大于一阈值的人脸图片中正确率高，当结果的得分低于这个阈值时，正确率降低和/或错误率升高，基于这种情况，只对得分在这个阈值确定的区间的人脸进行最后一级的处理。本发明利用阈值判断的简单方法，确定第二级结果中部分图片可直接进行最后一级的计算，提升了人脸检测的召回率和正确率。

Description

一种提升三级级联检测召回率和正确率的方法

技术领域

本发明涉及神经网络技术领域，特别涉及一种提升三级级联检测召回率和正确率的方法。

背景技术

当今社会，人工智能领域中神经网络技术发展迅猛。其中MTCNN技术也是近年来较为流行的技术之一。MTCNN，Multi-task convolutional neural network(多任务卷积神经网络)，将人脸区域检测与人脸关键点检测放在了一起，总体可分为P-Net、R-Net、和O-Net三层网络结构。用于人脸检测任务的多任务神经网络模型，该模型主要采用了三个级联的网络，采用候选框加分类器的思想，进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。

但是，MTCNN级联检测存在以下缺陷：

1、存在一定的误检，召回率和正确率相对较低。

2、网络无法进行量化或量化后损失召回率和正确率。

此外，现有技术中还包括以下常用的技术术语：

1、级联：是指几个检测器通过串联的方式进行检测的方式称为级联。

2、iou：两个区域面积的交集与这两个区域面积的并集的比值。

3、量化：浮点转化为定点或是8位或4位或2位的一种现象叫做量化。

4、召回率：正确检测出人脸的个数与标记人脸的总数的比值。

5、正确率：正确检测出结果与检测出结果总数的比值。

6、模型：是通过样本训练出来的一个函数的所有的系数，这些系数称为模型。

7、检测器：是用于检测的一个函数，其主要组成部分是模型。

8、人脸检测：使用人脸检测器检测视频或一张图片中是否存在人脸的过程，叫做人脸检测。

9、卷积核：卷积核是用来做图像处理时的矩阵，与原图像做运算的参数。卷积核通常是一个列矩阵数组成(例如3*3的矩阵)，该区域上每个方格都有一个权重值。矩阵形状一般是1×1,3×3,5×5,7×7,1×3,3×1,2×2,1×5,5×1，……

10、卷积：将卷积核的中心放置在要计算的像素上，一次计算核中每个元素和其覆盖的图像像素值的乘积并求和，得到的结构就是该位置的新像素值，这个过程称为卷积。

11、前端人脸检测：在芯片上使用的人脸检测称之为前端人脸检测，前端人脸检测的速度和正确率比云端服务器人脸检测的低。

12、特征图：输入数据通过卷积计算后得到的结果称之为特征图，数据通过全连接后生成的结果也称为特征图。特征图大小一般表示为长×宽×深度，或1×深度。

13、步长：卷积核中心位置再坐标上移动的长度。

14：两端非对齐处理：图像或数据通过卷积核大小为3且步长为2处理时，会导致两侧数据不够，此时采用丢弃两侧或一侧数据，这种现象叫做两端非对其处理。

发明内容

为了解决上述现有技术存在的问题，本发明的目的在于通过本申请实现：提升人脸检测的召回率和正确率。网络可以量化并保证召回率和正确率不变甚至提升。

具体地，本发明提供一种提升三级级联检测召回率和正确率的方法，所述方法包括：所述方法是基于三级级联，当第二级生成的结果中，当结果的得分大于一阈值的人脸图片中正确率高，当结果的得分低于这个阈值时，正确率降低和/或错误率升高，基于这种情况，只对得分在这个阈值确定的区间的人脸进行最后一级的处理。

所述方法进一步包括：

S1，网络结构模型的设计：量化要求卷积只使用3×3的卷积，每层的深度必须是16的倍数；

S2，网络结构模型的使用：

设二级检测器检测出的得分为score，再设置两个阈值分别为max_th和min_th，max_th>min_th，其中max_th是最大阈值；

当score>＝max_th时，所输入二级检测器的图像数据符合要求，判断为人脸图片并计算该输入二级检测器检测的图片对应原图中的坐标信息，不会再输入到第三级检测器中；

当min_th<score<max_th，该得分对应的图像数据输入到第三级检测器中，根据得分情况，判断是否为人脸，进行取舍，并将该图片对应原图中的坐标进行映射计算；

将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理，根据得分高低进行合并，否则保留坐标信息，这些坐标信息对应的区域，就是检测出人脸的位置。

所述步骤S1，根据量化要求设计如下网络：

第一层输入的图片为25×25×3，输出深度为32的特征图，卷积核为3×3，步长为1，计算卷积的图为两端非对齐，所有数据有效使用；

第二层输入数据的特征图为23×23×32，输出特征图深度为32，卷积核大小为3×3大小，步长为2，计算卷积的图为两端非对齐；

第三层输入数据的特征图的大小为11×11×32，输出特征图深度为32，卷积核为3×3，步长为2，计算卷积的图为两端非对齐，输出特征图5×5×32；

第四层输入特征图为5×5×32，输出48张特征图，卷积核为3×3，步长为2，计算卷积的图为两端非对齐，输出特征图2×2×48；将2×2×48的数据展成一维数据192；

第六层包括两个分支，将192数据分别连接到是否为人脸的判断和人脸box相对坐标上。

由此，本申请的优势在于：利用阈值判断的简单方法，确定第二级结果中部分图片可直接进行最后一级的计算，提升了人脸检测的召回率和正确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。

图1是本发明方法的示意流程图。

图2是本发明方法的网络结构模型的使用的示意图。

图3是本发明方法的网络结构模型的示意图。

具体实施方式

为了能够更清楚地理解本发明的技术内容及优点，现结合附图对本发明进行进一步的详细说明。

本发明涉及一种提升三级级联检测召回率和正确率的方法，所述方法包括：所述方法是基于三级级联，当第二级生成的结果中，当结果的得分大于一阈值的人脸图片中正确率高，当结果的得分低于这个阈值时，正确率降低和/或错误率升高，基于这种情况，只对得分在这个阈值确定的区间的人脸进行最后一级的处理。

如图1所示，所述方法进一步包括：

S2，网络结构模型的使用，如图2所示：

所述步骤S1中，所述的量化要求卷积只使用3×3的卷积，每层的深度必须是16的倍数，不能使用池化和图的相加等方式不能使用池化和图的相加方式。

所述步骤S1，根据量化要求设计如下网络：

第四层输入特征图为5×5×32，输出48张特征图，卷积核为3×3，步长为2，计算卷积的图为两端非对齐，输出特征图2×2×48；

将2×2×48的数据展成一维数据192；

所述步骤S2中，所述的有条件的合并处理是如果坐标的iou>0.5时，根据得分高低进行合并。

所述步骤S2中，所述根据得分高低进行合并，其中得分高的保留，删除得分低的坐标信息。

本发明的技术方案可以进一步解释如下：

1、技术方法。

讨论的是三级级联的情况，最后一级是这里处理的技术核心。由于第二级生成的结果中，在大于某个得分阈值的人脸中，正确率很高，当低于这个得分阈值时，正确率降低，错误率升高。基于这种情况，我们只需对得分在某个阈值区间的人脸进行最后一级的处理，从而一定程度降低检测时间，又提升召回率和正确率。为了减少检测时间，使用第二级输入的人脸图片作为最后一级输入的人脸图片，从而节省了剪切出的人脸再进行缩放的时间。

2、实现步骤。

1)网络结构。

量化要求卷积只使用3×3的卷积，每层的深度必须是16的倍数，不能使用池化和图的相加等方式。根据量化要求设计如下网络。第一层输入的图片为25×25×3，输出深度为32的特征图，卷积核为3×3，步长为1，计算卷积的图为两端非对齐，所有数据有效使用，如果使用对其处理，会增加无效数据填充。第二层输入数据的特征图为23×23×32，输出特征图深度为32，卷积核大小为3×3大小，步长为2，计算卷积的图为两端非对齐。第三层输入数据的特征图的大小为11×11×32，输出特征图深度为32，卷积核为3×3，步长为2，计算卷积的图为两端非对齐，输出特征图5×5×32。第四层输入特征图为5×5×32，输出48张特征图，卷积核为3×3，步长为2，计算卷积的图为两端非对齐，输出特征图2×2×48。将2×2×48的数据展成一维数据192。第六层包括两个分支，将192数据分别连接到是否为人脸的判断和人脸box相对坐标上。网络结构见图3。

2)网络模型的使用。

设二级检测器检测出的得分为score，再设置两个阈值分别为max_th和min_th(max_th>min_th)，其中max_th是最大阈值。当score>＝max_th时，所输入二级检测器的图像数据符合要求，是判断为人脸并计算该输入二级检测器检测的图片对应原图中的坐标信息，不会再输入到第三级检测器中；当min_th<score<max_th，该得分对应的图像数据输入到第三级检测器中，根据得分情况，判断是否为人脸，进行取舍，并将该图片对应原图中的坐标进行映射计算。将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理，如果坐标的iou>0.5，根据得分高低进行合并(得分高的保留，删除得分低的坐标信息)，否则保留坐标信息。这些坐标信息对应的区域，就是检测出人脸的位置。

此外，本申请还涉及对最后一级的训练，使用大量无人脸的图片提取负样本，增加负样本量，从而提高最后一级模型的效果。其中，训练样本的生成。用于提取训练样本的负样本，使用大量没有人脸的图片进行提取负样本，所有被二级检测器检测为人脸的图片(得分大于0.80)都是负样本，以输入到二级检测器的图片为保存目标进行保存，保证负样本个数超过10万张。正样本的采集，使用二级检测器检测带有标注的图片，检测出的人脸(得分大于0.80，这里区域是第二级输入人脸图片)与图片标注区域的人脸(缩放系数与到检测出的人脸的缩放系数相同)的iou大于0.5的为正样本，小于0.2的为负样本。正样本的个数控制在30万张。根据标注的坐标信息计算每张正样本的标注信息。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提升三级级联检测召回率和正确率的方法，其特征在于，所述方法包括：所述方法是基于三级级联，当第二级生成的结果中，当结果的得分大于一阈值的人脸图片中正确率高，当结果的得分低于这个阈值时，正确率降低和/或错误率升高，基于这种情况，只对得分在这个阈值确定的区间的人脸进行最后一级的处理，所述方法进一步包括：

S1，网络结构模型的设计：量化要求卷积只使用3×3的卷积，每层的深度必须是16的倍数；所述的量化要求卷积只使用3×3的卷积，每层的深度必须是16的倍数，不能使用池化和图的相加方式；

根据量化要求设计如下网络：

将2×2×48的数据展成一维数据192；

第六层包括两个分支，将192数据分别连接到是否为人脸的判断和人脸box相对坐标上

S2，网络结构模型的使用：

设二级检测器检测出的得分为score，再设置两个阈值分别为max_th和min_th ，max_th > min_th，其中max_th是最大阈值；

当score>=max_th时，所输入二级检测器的图像数据符合要求，判断为人脸图片并计算该输入二级检测器检测的图片对应原图中的坐标信息，不会再输入到第三级检测器中；

将第三级判断为人脸的坐标信息和第二级检测器判断为人脸的坐标信息进行有条件的合并处理，根据得分高低进行合并，否则保留坐标信息，这些坐标信息对应的区域，就是检测出人脸的位置；所述的有条件的合并处理是如果坐标的iou>0.5时，根据得分高低进行合并；所述根据得分高低进行合并，其中得分高的保留，删除得分低的坐标信息。