CN113449677A

CN113449677A - 基于mtcnn人脸检测的改进方法和装置

Info

Publication number: CN113449677A
Application number: CN202110794827.4A
Authority: CN
Inventors: 马玉; 柯学
Original assignee: Shanghai Junyu Digital Technology Co ltd
Current assignee: Shanghai Junyu Digital Technology Co ltd
Priority date: 2021-07-14
Filing date: 2021-07-14
Publication date: 2021-09-28

Abstract

本发明提供了一种基于MTCNN人脸检测的改进方法和装置，涉及神经网络技术领域，包括：利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；MTCNN模型包括：O‑Net网络层，O‑Net网络层的输入图片的尺寸为64x64；使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。该方法解决了现有人脸检测网络模型误识率较高、对人脸方向检测的准确性较低的技术问题，达到了降低MTCNN人脸误识率、提高人脸检测精度的技术效果。

Description

基于MTCNN人脸检测的改进方法和装置

技术领域

本发明涉及神经网络技术领域，尤其是涉及一种基于MTCNN人脸检测的改进方法和装置。

背景技术

多任务卷积神经网络(Multi-task convolutional neural network，MTCNN)是人脸检测常用的一种深度网络模型，该模型主要采用了三个级联的网络，采用候选框加分类器的思想，进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。

在实际使用中，经常要对照片中人脸的位置进行检测，但是由于目前的MTCNN算法模型误检率较高，把照片的复杂背景检测为人脸，以及把倒置人脸检测为正向人脸的情况时有发生，也就是说，现有的MTCNN网络模型对图片中的人脸进行检测时，误识率较高、对人脸方向检测的准确性较低。

发明内容

本发明的目的在于提供一种基于MTCNN人脸检测的改进方法和装置，以缓解现有人脸检测网络模型存在的误识率较高、对人脸方向检测的准确性较低的技术问题。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种基于MTCNN人脸检测的改进方法，该方法包括：利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，上述人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；上述MTCNN模型包括：O-Net网络层，上述O-Net网络层的输入图片的尺寸为64x64；使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。

在一些可能的实施方式中，上述O-Net网络层包括：输入层、卷积层、最大池化层和分类器。

在一些可能的实施方式中，上述O-Net网络层各层输出图片的尺寸分别为：输入层的输出尺寸为64×64×3、第一卷积和池化层的输出尺寸为31×31×32、第二卷积和池化层的输出尺寸为14×14×64、第三卷积和池化层的输出尺寸为5×5×64、第四卷积层的输出尺寸为3×3×128。

在一些可能的实施方式中，上述MTCNN模型的输出结果的维度为1×4×10，上述输出结果的每个维度分别表示：人脸概率、边框回归偏移向量和人脸关键点位置坐标。

在一些可能的实施方式中，上述非正向人脸样本包括：倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本。

在一些可能的实施方式中，在上述训练样本中，上述正向人脸样本、倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本和非人脸样本的比例为：4:2:1:1:4。

第二方面，本发明实施例提供了一种基于MTCNN人脸检测的改进装置，该装置包括：模型训练模块，用于利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，上述人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；上述MTCNN模型包括：O-Net网络层，上述O-Net网络层的输入图片的尺寸为64x64；人脸检测模块，用于使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。

在一些可能的实施方式中，其中，上述非正向人脸样本包括：倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本。

第三方面，本发明实施例提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述第一方面任一项所述的方法。

本发明提供了一种基于MTCNN人脸检测的改进方法和装置，该方法包括：利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；MTCNN模型包括：O-Net网络层，O-Net网络层的输入图片的尺寸为64x64；使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。该方法解决了现有人脸检测网络模型误识率较高、对人脸方向检测的准确性较低的技术问题，达到了降低MTCNN人脸误识率、提高人脸检测精度的技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于MTCNN人脸检测的改进方法的流程示意图；

图2为本发明实施例提供的一种O-Net网络结构示意图；

图3为本发明实施例提供的一种基于MTCNN人脸检测的模型测试对比图；

图4为本发明实施例提供的一种基于MTCNN人脸检测的改进装置的结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

MTCNN是人脸检测常用的一种深度网络模型，该模型主要采用了三个级联的网络，采用候选框加分类器的思想，进行快速高效的人脸检测。这三个级联的网络分别是快速生成候选窗口的P-Net、进行高精度候选窗口过滤选择的R-Net和生成最终边界框与人脸关键点的O-Net。该模型也用到了图像金字塔、边框回归、非最大值抑制等技术。在实际使用中，经常要对照片中人脸的位置进行检测，但是由于目前的MTCNN算法模型误检率较高，把照片的复杂背景检测为人脸，以及把倒置人脸检测为正向人脸的情况时有发生，也就是说，现有的MTCNN网络模型对图片中的人脸进行检测时，误识率较高、对人脸方向检测的准确性较低。

基于此，本发明实施例提供了一种基于MTCNN人脸检测的改进方法，以缓解现有人脸检测网络模型存在的误识率较高、对人脸方向检测的准确性较低的技术问题。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种基于MTCNN人脸检测的改进方法进行详细介绍，参见图1所示的一种基于MTCNN人脸检测的改进方法的流程示意图，该方法可以由电子设备执行，主要包括以下步骤S120至步骤S140：

S120：利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；

其中，人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；MTCNN模型包括：O-Net网络层，O-Net网络层的输入图片的尺寸为64x64。

S140：使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。

需要说明的是，本申请实施例提供的上述MTCNN模型包括：P-Net，R-Net，O-Net三个网络，针对其中的O-Net网络结构进行了如下改进：

该O-Net网络层包括：输入层、卷积层、最大池化层和分类器。在一种实施例中，O-Net网络层各层输出图片的尺寸分别为：输入层的输出尺寸为64×64×3、第一卷积和池化层的输出尺寸为31×31×32、第二卷积和池化层的输出尺寸为14×14×64、第三卷积和池化层的输出尺寸为5×5×64、第四卷积层的输出尺寸为3×3×128。

原始的MTCNN网络中的O-Net网络(旧MTCNN O-Net网络)，输入是48×48尺寸图片，容易造成人脸误检；本实施例提供的O-Net网络(新MTCNN O-Net网络)将输入改为64×64尺寸的图片，并调整后续所有网络结构，具体参见图2所示的一种O-Net网络结构示意图，增大了图中小脸的分辨率，增加了信息量，解决了实际使用中存在的小脸误检率较高的问题。

此外，O-Net网络层的最终输出结果即MTCNN模型的输出结果，该输出结果的维度为1×4×10，输出结果的每个维度分别表示：人脸概率、边框回归偏移向量和人脸关键点位置坐标。其中，人脸概率相当于图中的face classification，即对应图像区域为人脸图像的概率；边框回归偏移向量相当于box offsets regression，即输出矩形框位置偏移信息；人脸关键点位置坐标相当于landmarks，即检测到的人脸关键点的坐标信息。

作为一种具体的示例，表1和表2分别表示出新旧MTCNN O-Net网络各层对比以及各层输出对比的结果。

表1：新旧MTCNN O-Net网络各层对比

层Layer	O-Net(48×48)	O-Net(64×64)
			输入层Input	48×48×3	64×64×3
卷积层Conv	3×3	3×3
			最大池化层1MaxPooling1	3×3	2×2
最大池化层MaxPooling2	3×3	3×3
			最大池化层MaxPooling3	3×3	4×4
最大池化层MaxPooling4	2×2	3×3
			分类Classification	Softmax	Sigmoid

表2：新旧MTCNN O-Net网络各层输出对比

由此可见，本实施例提供的O-Net网络(新MTCNN O-Net网络)可以提取到更多有效特征，最后输出分别经过三个全连接层后，分别对应使用sigmoid得到1维人脸得分，人脸框的回归为4维的偏移向量和人脸5个特征点的10个坐标值。

此外，在传统的MTCNN训练过程中，通常只对正向人脸样本进行标注和识别，而目前拍摄人脸图像的实际场景中，尤其是智能电子设备往往由于设备机型或设置的不同，导致拍摄的图片经常出现顺时针90°，逆时针90°和180°的旋转，原始MTCNN对于这些角度的人脸检测精度是远远不够的。

基于此，在本实施例中利用预先获取的人脸图像训练样本，对MTCNN模型进行训练时，加入其他方向的人脸图像作为负样本进行训练，使网络在训练时就能够区分其余方向人脸和正向人脸的差别。

例如，在预先获取的人脸图像训练样本中，不仅仅包括正向人脸样本和非人脸样本，还包括非正向人脸样本，其中，非正向人脸样本则包括：倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本。

训练样本的扩充重点在于正负样本的平衡，不仅要增加其他方向人脸图像样本，随着负样本的增多，又不能干扰MTCNN对正向人脸的识别精度。因此，作为一个具体的示例，在训练样本中，正向人脸样本、倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本和非人脸样本的比例为：4:2:1:1:4。需要说明的是，扩充其余3个方向(倒置、顺时针90°、逆时针90°)人脸样本的方法，不仅适用于MTCNN网络，在其它人脸检测网络中同样适用，均可有效降低其余方向人脸的误识率。

作为一个具体的示例，采用本方法训练出的算法与原始的MTCNN的分类准确度对比如下。

测试样本包括：10134张正向人脸图片，以及每张正向人脸图片对应的4个方向的旋转(倒置、顺时针90°、逆时针90°)人脸图片和5000张不包含人脸的自然场景(非脸)图片。

表3：原版模型和新版模型的分类效果对比如下：

从每个方向上的测试结果可以看出，改进后的模型在各个准确度上都有所提升，对比于非脸的误识也有明显的降低。网络改进前后参数量和准确度对比见下表4。

表4：模型参数量和准确度对比

模型对比	O-Net(48×48)	O-Net(64×64)
			参数量	0.215M	0.413M
平均准确度	93.18％	99.79％
			平均误检率	6.82％	0.21％

根据表4可以得出在模型参数增加不到1倍情况下，误检率降低32倍。

从五类样本中各选取1000个样本点，分别与正脸进行组合，得到新的五组样本集，每个包含2000张图片，使用新旧两个模型进行推理，记录每组分类的结果，整体的分类结果见图3，结合图3中A部分的原始模型分类结果以及B部分所示本实施例提供的新模型分类结果可以看出，本实施例提供的新模型模型训练效果类内距离减小，类间距离增加，这说明提出的O-Net的结构和新的训练方法起到了显著作用。

本发明提供了一种基于MTCNN人脸检测的改进方法，该方法包括：利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；MTCNN模型包括：O-Net网络层，O-Net网络层的输入图片的尺寸为64x64；使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。该方法解决了现有人脸检测网络模型误识率较高、对人脸方向检测的准确性较低的技术问题，达到了降低MTCNN人脸误识率、提高人脸检测精度的技术效果。

本发明实施例提供了一种基于MTCNN人脸检测的改进装置，参见图4所示，该装置包括：

模型训练模块410，用于利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；MTCNN模型包括：O-Net网络层，O-Net网络层的输入图片的尺寸为64x64；非正向人脸样本包括：倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本。

人脸检测模块420，用于使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。

本申请实施例所提供的基于MTCNN人脸检测的改进装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。本申请实施例提供的基于MTCNN人脸检测的改进装置与上述实施例提供的基于MTCNN人脸检测的改进方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本申请实施例还提供了一种电子设备，具体的，该电子设备包括处理器和存储装置；存储装置上存储有计算机程序，计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。

图5为本申请实施例提供的一种电子设备的结构示意图，该电子设备400包括：处理器40，存储器41，总线42和通信接口43，所述处理器40、通信接口43和存储器41通过总线42连接；处理器40用于执行存储器41中存储的可执行模块，例如计算机程序。

其中，存储器41可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线42可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器41用于存储程序，所述处理器40在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中，或者由处理器40实现。

处理器40可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41，处理器40读取存储器41中的信息，结合其硬件完成上述方法的步骤。

对应于上述方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述方法的步骤。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于MTCNN人脸检测的改进方法，其特征在于，包括：

利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，所述人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；所述MTCNN模型包括：O-Net网络层，所述O-Net网络层的输入图片的尺寸为64x64；

使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。

2.根据权利要求1所述的基于MTCNN人脸检测的改进方法，其特征在于，所述O-Net网络层包括：输入层、卷积层、最大池化层和分类器。

3.根据权利要求2所述的基于MTCNN人脸检测的改进方法，其特征在于，所述O-Net网络层各层输出图片的尺寸分别为：输入层的输出尺寸为64×64×3、第一卷积和池化层的输出尺寸为31×31×32、第二卷积和池化层的输出尺寸为14×14×64、第三卷积和池化层的输出尺寸为5×5×64、第四卷积层的输出尺寸为3×3×128。

4.根据权利要求3所述的基于MTCNN人脸检测的改进方法，其特征在于，所述MTCNN模型的输出结果的维度为1×4×10，所述输出结果的每个维度分别表示：人脸概率、边框回归偏移向量和人脸关键点位置坐标。

5.根据权利要求1所述的基于MTCNN人脸检测的改进方法，其特征在于，所述非正向人脸样本包括：倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本。

6.根据权利要求5所述的基于MTCNN人脸检测的改进方法，其特征在于，在所述训练样本中，所述正向人脸样本、所述倒置人脸样本、所述顺时针90°人脸样本、所述逆时针90°人脸样本和所述非人脸样本的比例为：4:2:1:1:4。

7.一种基于MTCNN人脸检测的改进装置，其特征在于，包括：

模型训练模块，用于利用预先获取的人脸图像训练样本，对MTCNN模型进行训练；其中，所述人脸图像训练样本包括：正向人脸样本、非正向人脸样本和非人脸样本；所述MTCNN模型包括：O-Net网络层，所述O-Net网络层的输入图片的尺寸为64x64；

人脸检测模块，用于使用训练后的MTCNN模型，对预先获取的待检测人脸图像进行人脸检测，获取正向人脸图像并输出检测结果。

8.根据权利要求7所述的基于MTCNN人脸检测的改进装置，其特征在于，所述非正向人脸样本包括：倒置人脸样本、顺时针90°人脸样本、逆时针90°人脸样本。

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至6任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至6任一项所述的方法。