CN112434674B

CN112434674B - 基于标注框虚拟扩增的微小人脸检测方法、系统及设备

Info

Publication number: CN112434674B
Application number: CN202110098072.4A
Authority: CN
Inventors: 何泳澔; 苏虎; 向世明; 潘春洪
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-04-23
Anticipated expiration: 2041-01-25
Also published as: CN112434674A

Abstract

本发明属于视觉检测和图像处理领域，具体涉及了一种基于标注框虚拟扩增的微小人脸检测方法、系统、装置，旨在解决模型训练中仅有少量的微小人脸特征图区域被定义为正，从而导致模型对于微小人脸的检测精度和准确性较低的问题。本发明包括：使用矩形框标注微小人脸；基于LFFD构建人脸检测模型；以模型针对小尺度人脸检测分支的特征图下采样倍数为依据，进行矩形框的虚拟扩增；分别基于矩形框和虚拟扩增框生成模型的分类和预测目标；通过反向传播和随机梯度下降法迭代进行模型训练；通过训练后的同时检测通常大小人脸和微小人脸的模型进行在线人脸检测。本发明将标注框虚拟扩增应用于微小人脸数据，提升微小人脸的检出率，实现了微小人脸检测。

Description

基于标注框虚拟扩增的微小人脸检测方法、系统及设备

技术领域

本发明属于视觉检测和图像处理领域，具体涉及了一种基于标注框虚拟扩增的微小人脸检测方法、系统及设备。

背景技术

在安防监控领域，人脸检测算法作为人脸识别中的一个极其重要的技术，已经被广泛应用。现阶段，人脸检测算法面临开放监控环境带来的各种挑战，比如逆光、光线不足、部分遮挡、姿态异常等等。此外，人脸检测算法通常被设计为检测较大的人脸（通常大于40个像素），即距离摄像头较近的情况。如果在不升级摄像头的前提下，要检测远距离的人脸，就需要引入微小人脸的检测技术。微小人脸检测不仅要求能够检测到通常大小的人脸，而且需要检测像素小于等于16的人脸。除了要克服上述的一些挑战，微小人脸检测还面临低像素带来的信息干扰和噪声，因此，其难度更大。微小人脸检测的技术能够变相增大摄像头的工作距离，拓宽人脸相关技术在安防监控领域的应用范围。

目前，主流的人脸检测算法均采用了深度学习的方法。具体来说，可以分为两类：单阶段有锚框的方法和单阶段无锚框的方法。两类方法均采用了相似的主干神经网络，且检测小尺度人脸时都使用了分辨率较大的特征图作为主要的信息来源。由于微小人脸的面积小，在两类方法的训练过程中，仅有少量的特征图区域被定义为正，这导致训练得到的模型对微小人脸的检测性能非常有限。

发明内容

为了解决现有技术中的上述问题，即模型训练中仅有少量的微小人脸特征图区域被定义为正，从而导致模型对于微小人脸的检测精度和准确性较低的问题，本发明提供了一种基于标注框虚拟扩增的微小人脸检测方法，该检测方法包括以下步骤：

步骤S10，获取包含微小人脸的图像集，并使用矩形标注框标注所述图像集中的每个微小人脸；所述微小人脸为像素值小于或等于设定像素阈值的人脸；

步骤S20，以LFFD作为基准构建人脸检测模型，并获取所述人脸检测模型针对小尺度人脸的检测分支对应的特征图下采样倍数；

步骤S30，基于所述特征图下采样倍数，以微小人脸的矩形标注框的中心进行矩形标注框的设定系数的虚拟扩增，获得带有虚拟标注框的图像集；

步骤S40，分别使用基于带有矩形标注框和其对应的带有虚拟标注框的图像集生成人脸检测模型的分类和预测目标，获得初始人脸检测模型；

步骤S50，采用Back-Propagation和随机梯度下降法迭代训练所述初始人脸检测模型，得到同时检测通常大小人脸和微小人脸的模型；所述通常大小人脸为像素值大于设定阈值的人脸；

步骤S60，通过所述同时检测通常大小人脸和微小人脸的模型，进行在线人脸检测。

在一些优选的实施例中，所述人脸检测模型包括25个卷积层和8个检测分支；

其中，针对小尺度人脸的检测分支为位于卷积层8和卷积层10的b₁检测分支与b₂检测分支。

在一些优选的实施例中，步骤S30包括：

步骤S31，记图像集为

，其中，

为微小人脸的个数，则矩形标注框

为：

其中，

和

分别为矩形标注框

左上角顶点的

坐标和

坐标，

和

分别为矩形标注框

的宽度和高度；

步骤S32，以矩形标注框

的中心进行矩形标注框的设定系数的虚拟扩增，获得带有虚拟标注框

的图像集

：

其中，

和

分别为虚拟标注框

左上角顶点的

坐标和

坐标，

和

分别为矩形标注框

的宽度和高度：

其中，

为设定的矩形框的虚拟扩增系数，

为人脸检测模型针对小尺度人脸的b₁ 检测分支与b₂检测分支对应的特征图下采样倍数。

在一些优选的实施例中，步骤S40包括：

在脸/非脸的分类目标的生成过程中，以集合

为依据进行特征图上为正的区域的设置；

在标注框的预测目标的生成过程中，以集合

作为依据进行真实位置预测；

在分类目标和预测目标的生成过程中，将特征图上为正的区域的设置和真实位置预测之外的模型参数及结构设置为与LFFD一致，获得初始人脸检测模型。

在一些优选的实施例中，所述微小人脸和通常大小人脸，其判断的设定像素阈值为16。

在一些优选的实施例中，所述虚拟扩增系数

设置为4。

在一些优选的实施例中，所述b₁检测分支与b₂检测分支对应的特征图下采样倍数均为4。

本发明的另一方面，提出了一种基于标注框虚拟扩增的微小人脸检测系统，该检测系统包括以下模块：

图像获取及矩形框标注模块，配置为获取包含微小人脸的图像集，并使用矩形标注框标注所述图像集中的每个微小人脸；所述微小人脸为像素值小于或等于设定像素阈值的人脸；

人脸检测模型构建及参数获取模块，配置为以LFFD作为基准构建人脸检测模型，并获取所述人脸检测模型针对小尺度人脸的检测分支对应的特征图下采样倍数；

矩形标注框扩增模块，配置为基于所述特征图下采样倍数，以微小人脸的矩形标注框的中心进行矩形标注框的设定系数的虚拟扩增，获得带有虚拟标注框的图像集；

初始人脸检测模型构建模块，配置为分别使用基于带有矩形标注框和其对应的带有虚拟标注框的图像集生成人脸检测模型的分类和预测目标，获得初始人脸检测模型；

模型训练模块，配置为采用Back-Propagation和随机梯度下降法迭代训练所述初始人脸检测模型，得到同时检测通常大小人脸和微小人脸的模型；所述通常大小人脸为像素值大于设定阈值的人脸；

在线检测模块，配置为通过所述同时检测通常大小人脸和微小人脸的模型，进行在线人脸检测。

本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于标注框虚拟扩增的微小人脸检测方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于标注框虚拟扩增的微小人脸检测方法。

本发明的有益效果：

本发明基于标注框虚拟扩增的微小人脸检测方法，将标注框虚拟扩增应用于微小人脸数据，有效提升了检测网络对微小人脸的关注度，从而有效提升了微小人脸的检出率，实现了微小人脸检测的目的。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于标注框虚拟扩增的微小人脸检测方法的流程示意图；

图2是本发明基于标注框虚拟扩增的微小人脸检测方法一种实施例的LFFD的模型结构示意图；

图3是本发明基于标注框虚拟扩增的微小人脸检测方法一种实施例的矩形标注框虚拟扩增示意图；

图4是用于实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于标注框虚拟扩增的微小人脸检测方法，该检测方法包括以下步骤：

为了更清晰地对本发明基于标注框虚拟扩增的微小人脸检测方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于标注框虚拟扩增的微小人脸检测方法，包括步骤S10-步骤S60，各步骤详细描述如下：

步骤S10，获取包含微小人脸的图像集，并使用矩形标注框标注所述图像集中的每个微小人脸；所述微小人脸为像素值小于或等于设定像素阈值的人脸。

微小人脸和通常大小人脸，其判断的设定像素阈值为16，即像素值大于16的人脸为通常大小人脸，像素值小于或等于16的人脸为微小人脸。

微小人脸数据可以通过摄像头采集，也可以通过将通常人脸进行下采样获得，通过下采样获取微小人脸数据更为高效，并且解决了实际应用中通过摄像头采集数据的局限性。

步骤S20，以LFFD作为基准构建人脸检测模型，并获取所述人脸检测模型针对小尺度人脸的检测分支对应的特征图下采样倍数。

如图2所示，为本发明基于标注框虚拟扩增的微小人脸检测方法一种实施例的 LFFD的模型结构示意图，模型包括25个卷积层和8个检测分支，卷积层c1到c10为模型的 tiny part（微小人脸检测部分），卷积层c11到c15为模型的small part（小人脸检测部分），卷积层c16到c16为模型的medium part（中人脸检测部分），卷积层c19到c25为模型的large part（大人脸检测部分），loss branch 1（检测分支b₁）位于卷积层8，loss branch 2（检测分支b₂）位于卷积层10，loss branch 3（检测分支b₃）位于卷积层13，loss branch 4（检测分支b₄）位于卷积层15，loss branch 5（检测分支b₅）位于卷积层18，loss branch 6（检测分支 b₆）位于卷积层21，loss branch 7（检测分支b₇）位于卷积层23，loss branch 8（检测分支 b₈）位于卷积层25，其中，针对小尺度人脸的检测分支为位于中卷积层8和卷积层10的b₁检测分支与b₂检测分支，b₁检测分支与b₂检测分支对应的特征图下采样倍数均为4，

代表箭头所指的卷积层的卷积核为3×3，卷积步长为2，特征图填充宽度为0（conv 3×3， stride 2，pad 0），

代表箭头所指的卷积层的卷积核为3×3，卷积步长为1，特征图填充宽度为1（conv 3×3，stride 1，pad 1），

代表箭头所指的卷积层的卷积核为1 ×1，卷积步长为1，特征图填充宽度为0（conv 1×1，stride 1，pad 0），

代表箭头两端对应的卷积层进行残差连接操作（residual connection）。模型的8个检测分支的结构一样，均包括一个共享的卷积层（conv 1×1，stride 1，pad 0）、属于分类分支的两个卷积层（conv 1×1，stride 1，pad 0）和属于回归分支的两个卷积层（conv 1×1，stride 1，pad 0），face classification为人脸分类的分支，bbox regression为人脸置信框预测的分支。

步骤S30，基于所述特征图下采样倍数，以微小人脸的矩形标注框的中心进行矩形标注框的设定系数的虚拟扩增，获得带有虚拟标注框的图像集。

如图3所示，为本发明基于标注框虚拟扩增的微小人脸检测方法一种实施例的矩形标注框虚拟扩增示意图，扩增过程具体包括：

步骤S31，记图像集为

，其中，

为微小人脸的个数，则矩形标注框

如式（1）所示：

其中，

和

分别为矩形标注框

左上角顶点的

坐标和

坐标，

和

分别为矩形标注框

的宽度和高度。

步骤S32，以矩形标注框

的图像集

，虚拟标注框

如式（2）所示：

其中，

和

分别为虚拟标注框

左上角顶点的

坐标和

坐标，

和

分别为矩形标注框

的宽度和高度，分别如式（3）-式（6）所示：

其中，

为设定的矩形框的虚拟扩增系数，

本发明一个实施例中，虚拟扩增系数

设置为4

步骤S40，分别使用基于带有矩形标注框和其对应的带有虚拟标注框的图像集生成人脸检测模型的分类和预测目标，获得初始人脸检测模型。

在网络针对小尺度人脸的检测分支上分别使用新旧标注框（矩形标注框为旧标注框，虚拟标注框为新标注框）生成分类和回归的学习目标，用于指导神经网络的学习。由于使用了较大的虚拟扩增后的标注框作为分类目标的生成，所以在对应特征图上被视为正的区域会增多，从而使得微小人脸的学习更加充分，具体包括：

在脸/非脸的分类目标的生成过程中，以集合

为依据进行特征图上为正的区域的设置。由于使用了虚拟扩增的方式，微小人脸的虚拟面积变大，因此在对应的特征图上能得到更多的正区域，从而在学习的过程中受到更多的关注。

在标注框的预测目标的生成过程中，以集合

作为依据进行真实位置预测，即真实位置的预测仍旧使用原本的标注框（矩形标注框）。

步骤S50，采用Back-Propagation和随机梯度下降法迭代训练所述初始人脸检测模型，得到同时检测通常大小人脸和微小人脸的模型；所述通常大小人脸为像素值大于设定阈值的人脸。

基于扩增的图像集和原有的图像集，通过反向传播和随机梯度下降法迭代进行模型的训练，直至模型的损失函数值低于设定阈值或者达到设定的模型训练次数，获得同时检测通常大小人脸和微小人脸的模型。

本发明第二实施例的基于标注框虚拟扩增的微小人脸检测系统，该检测系统包括以下模块：

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于标注框虚拟扩增的微小人脸检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于标注框虚拟扩增的微小人脸检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

下面参考图4，其示出了用于实现本申请方法、系统、设备实施例的服务器的计算机系统的结构示意图。图4示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)401，其可以根据存储在只读存储器(ROM，Read Only Memory)402中的程序或者从存储部分408加载到随机访问存储器(RAM，Random Access Memory)403中的程序而执行各种适当的动作和处理。在RAM 403中，还存储有系统操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O，Input/Output)接口405也连接至总线404。

以下部件连接至I/O接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、 “第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。