CN111914757A

CN111914757A - 人脸检测方法和装置、电子设备、存储介质

Info

Publication number: CN111914757A
Application number: CN202010770580.8A
Authority: CN
Inventors: 陶恺
Original assignee: Shenzhen Inveno Technology Co ltd
Current assignee: Shenzhen Inveno Technology Co ltd
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-10

Abstract

一种人脸检测方法和装置、电子设备、存储介质，包括以下步骤：获取原始图像；利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵；利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图。能够利用MTCNN模型中的Tensorflow工具直接得到人脸正切图，使得图像处理过程均可在GPU内完成，无需进行数据中转，大大提高了人脸识别之前的运算效率，降低系统内存的存储压力。

Description

人脸检测方法和装置、电子设备、存储介质

技术领域

本发明涉及计算机视觉技术领域，具体涉及人脸检测方法和装置、电子设备、存储介质。

背景技术

在计算机视觉领域中，人脸识别技术已经应用于人类生活的各个方面，例如公司门禁、公共区域监控、密集人口统计和罪犯抓捕等。所以优化人脸识别技术，使模型的识别从速度和精度上均能够得到提升，对于计算机视觉技术领域的发展至关重要。

发明内容

本申请提供一种人脸检测方法和装置、电子设备、存储介质，以提高人脸检测过程中的运算效率。

根据第一方面，一种实施例中提供一种人脸检测方法，包括以下步骤：获取原始图像；利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵；利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图。

在一些实施例中，所述利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵，包括：获取利用所述MTCNN模型得到的人脸关键点和平均人脸关键点；利用所述人脸关键点和所述平均人脸关键点的坐标，求解针对所述原始图像的所述人脸矫正仿射变换矩阵。

在一些实施例中，所述利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图，包括：利用所述人脸矫正仿射变换矩阵，获取所述人脸正切图中每个位置点对应在所述原始图像中的原始位置；针对每个所述原始位置，获取与所述原始位置相邻的参考位置点及其像素值；利用所述参考位置点的像素值，获取目标像素值。

在一些实施例中，所述利用所述人脸矫正仿射变换矩阵，获取所述人脸正切图中每个位置点对应在所述原始图像中的原始位置，包括：获取所述人脸正切图的坐标范围；根据所述坐标范围和所述人脸矫正仿射变换矩阵的逆矩阵，获取所述原始位置。

根据第二方面，一种实施例中提供一种人脸检测装置，包括：获取模块，用于获取原始图像；分析模块，用于利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵；矫正模块，用于利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图。

在一些实施例中，所述分析模块，具体用于：获取利用所述MTCNN模型得到的人脸关键点和平均人脸关键点；利用所述人脸关键点和所述平均人脸关键点的坐标，求解针对所述原始图像的所述人脸矫正仿射变换矩阵。

在一些实施例中，所述矫正模块，具体用于：利用所述人脸矫正仿射变换矩阵，获取所述人脸正切图中每个位置点对应在所述原始图像中的原始位置；针对每个所述原始位置，获取与所述原始位置相邻的参考位置点及其像素值；利用所述参考位置点的像素值，获取目标像素值。

在一些实施例中，所述矫正模块，具体用于：获取所述人脸正切图的坐标范围；根据所述坐标范围和所述人脸矫正仿射变换矩阵的逆矩阵，获取所述原始位置。

根据第三方面，一种实施例中提供一种电子产品，包括：存储器，用于存储程序；处理器，用于通过执行所述存储器存储的程序以实现上述第一方面所述的人脸检测方法。

根据第三方面，一种实施例中提供一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现上述第一方面所述的人脸检测方法。

依据上述实施例的人脸检测方法，能够利用MTCNN模型中的Tensorflow工具直接得到人脸正切图，使得图像处理过程均可在GPU内完成，无需进行数据中转，大大提高了人脸识别之前的运算效率，降低系统内存的存储压力。

附图说明

图1为本申请一个实施例的人脸检测方法的流程图；

图2为本申请另一个实施例的人脸检测方法的流程图；

图3为本申请又一个实施例的人脸检测方法的流程图；

图4为本申请一个具体实施例的图像转换原理的示意图；

图5为本申请一个具体实施例的像素转换的效果对比图；

图6为本申请实施例的人脸检测装置的方框示意图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中，很多细节描述是为了使得本申请能被更好的理解。然而，本领域技术人员可以毫不费力的认识到，其中部分特征在不同情况下是可以省略的，或者可以由其他元件、材料、方法所替代。在某些情况下，本申请相关的一些操作并没有在说明书中显示或者描述，这是为了避免本申请的核心部分被过多的描述所淹没，而对于本领域技术人员而言，详细描述这些相关操作并不是必要的，他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外，说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时，方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此，说明书和附图中的各种顺序只是为了清楚描述某一个实施例，并不意味着是必须的顺序，除非另有说明其中某个顺序是必须遵循的。

本文中为部件所编序号本身，例如“第一”、“第二”等，仅用于区分所描述的对象，不具有任何顺序或技术含义。而本申请所说“连接”、“联接”，如无特别说明，均包括直接和间接连接(联接)。

在当今社会，人工智能技术的发展日新月异，其中，基于深度学习和卷积神经网络的图像识别技术在计算机视觉领域方面已经取得长足的进步，可以在人类日常的生活中起到有效的辅助作用，极大地减少人类在各种视觉识别和监控工作中所需的人力资源以及工作量，为人类社会科技化的发展做出了重要贡献。

在计算机视觉领域中，人脸识别技术已经应用于人类生活的各个方面，例如公司门禁、公共区域监控、密集人口统计和罪犯抓捕等。所以优化人脸识别技术，使模型的识别从速度和精度上均能够得到提升，对于计算机视觉技术领域的发展至关重要。顾名思义，人脸识别的过程分为两个阶段，首先是人脸检测阶段，通过深度学习算法模型定位视野中的人脸位置，将人脸图像精确获取，然后是第二阶段的人脸图像识别，对人脸进行更具体的特征分析。

相关技术中，在搭建人脸识别系统时使用较为普遍的算法模型是MTCNN(Multi-task convolutional neural network，多任务卷积神经网络)人脸检测模型结合ArcFace或者CosFace的人脸识别模型。其中，MTCNN人脸检测模型在检测人脸的精度方面达到了99％以上的正确率，效果非常出众，而且该模型除了可以输出人脸检测框的位置外，还可以预测处眼、口、鼻的位置关键点信息。而上述提到的ArcFace和CosFace人脸识别模型在基于MTCNN人脸检测模型输出的矫正后的人脸图像进行识别，其精度都可以达到97％-98％。

进一步地，在工程化实现和部署人脸识别系统时通常采用Java或Python的服务架构。其中，基于Java服务框架搭建的系统，在整体的系统运行、管理和监控上都表现得更为稳定和有效率。但是众所周知，Java语言在深度学习方面的支持还不够充分，使得开发人员需要自己实现很多底层的数据转换和处理方法，例如将使用CPU数据的Opencv的Mat类型通过转换为Float类型数组然后再进一步转换为使用GPU数据的Tensorflow的Tensor类型，转换过程需要在两个处理器中反复进行非常繁琐，且由于Java语言本身的低效率更加延长了人脸识别系统的预测时间，使得预测效率低下。而基于Python服务框架的人脸识别系统虽然在预测效率方面有所提升，但是，Python的服务框架本身属于较为小众的框架，框架本身稳定性和健壮性不如Java的框架。

除此之外，无论是采用Java的服务框架还是Python的服务框架，都具有一个共同的弊端，即，人脸检测过程和人脸识别过程之间的数据传输需要反复的存储与读取，大大的降低的整个识别的系统的运行效率。

基于此，本申请提出一种人脸检测方法和装置、电子设备、存储介质。

下面结合附图来描述本申请提出的人脸检测方法和装置、电子设备、存储介质。

图1为本申请实施例的人脸检测方法的流程图。其中，需要说明的是，本实施例的人脸检测方法的执行主体为人脸检测装置，人脸检测装置可以由软件和/或硬件的方式实现，该实施例中的人脸检测装置可以配置在电子设备中，也可以配置在用于电子设备进行控制的服务器中，该服务器与电子设备进行通信进而对其进行控制。

其中，本实施例中的电子设备可以包括但不限于个人计算机、平台电脑、智能手机、门禁终端等设备，该实施例对电子设备不作具体的限定。

如图1所示，该人脸检测方法，包括以下步骤：

步骤101，获取原始图像。

其中，原始图像是需要进行人脸识别检测的原始图像，可以为单帧的图像信息，也可是由多帧图像组成的视频数据，可以为离线获取的图像和/或视频数据，也可为实时传输的图像数据。例如，在应用于门禁系统上时，原始图像即为通过实时传输得到的视频图像，又如，应用于人脸跟踪拍摄的摄影设备上时，原始图像为实时拍摄得到的视频图像等。

步骤102，利用MTCNN模型对原始图像进行分析，获取人脸矫正仿射变换矩阵。

作为一个可行实施例，如图2所示，利用MTCNN模型对原始图像进行分析，获取人脸矫正仿射变换矩阵，包括：

步骤201，获取利用MTCNN模型得到的人脸关键点和平均人脸关键点。

其中，人脸关键点S'为MTCNN预测出的关键位置点，即，原始图像的人脸2个眼睛的位置点坐标、1个鼻尖的位置点坐标和2个嘴角的位置点坐标，平均人脸关键点Q'为预设的关键位置点，例如国际通用的5个位置点坐标，其位置矩阵为[[30.2946,51.6963],[65.5318,51.5014],[48.0252,71.7366],[33.5493,92.3655],[62.7299,92.2041]]，具体地，人脸关键点S'和平均人脸关键点Q'可以通过如下矩阵进行表示：

其中，(x_n，y_n)n∈1，2，…，5为人脸关键点的实际坐标数据，(u_n，v_n)n∈1，2，…，5为上述国际通用的平均人脸关键点的实际坐标数据。

步骤202，利用人脸关键点和平均人脸关键点的坐标，求解针对原始图像的人脸矫正仿射变换矩阵。

具体地，首先，需要获取如下人脸矫正仿射变换矩阵M，

然后，将人脸关键点S'通过人脸矫正仿射变换矩阵M映射至平均人脸关键点Q'，即得到：

利用计算机程序对人脸矫正仿射变换矩阵M进行解析计算，得到针对原始图像的人脸矫正仿射变换矩阵M，即，待进行人脸图像变形操作(例如图片平移、缩放和旋转等)的人脸框。

举例来说，上述获取人脸矫正仿射变换矩阵M的过程可采用Tensorflow工具(编码平台)进行实现。具体地，可通过MTCNN模型分别获取人脸关键点S'和平均人脸关键点Q'的变量q和s，其中，变量q和s分别为上述分析的实际坐标数据(x_n，y_n)和(u_n，v_n)，然后分别对人脸关键点S'和平均人脸关键点Q'的实际坐标数据进行坐标系统一，例如以axis＝0为标准。分别对人脸关键点S'和平均人脸关键点Q'的实际坐标数据求取平均值，即，对5个人脸关键点S'进行求平均值以及对5个平均人脸关键点Q'进行求平均，然后利用实际坐标数据与平均值分别求得人脸关键点S'和平均人脸关键点Q'的标准差，

利用人脸关键点S'和平均人脸关键点Q'的实际坐标数据、平均值和标准差构造新的人脸关键点S'和平均人脸关键点Q'，具体地，重新构造的人脸关键点S'和平均人脸关键点Q'的结构为(q-q_m)/q_std和(s-s_m)/s_std。其中，q_m和s_m分别为人脸关键点S'和平均人脸关键点Q'的平均值，q_std和s_std分别为人脸关键点S'和平均人脸关键点Q'的标准差。

首先，调用Tensorflow矩阵乘法计算功能进行计算，计算q.T*s，并将结果赋值给Tensor变量A，其中T表示某二维矩阵的转置，“*”表示矩阵乘法；然后调用Tensorflow的奇异值分解算法，对A进行奇异值分解，得到矩阵S、U、V，其中S为A的特征向量，U和V分别是A分解后的左右奇异值正交矩阵；之后继续调用Tensorflow矩阵乘法，计算(U*V).T，并将结果赋值给Tensor变量R；计算(s_std/q_std)·R，并将结果赋值给Tensor变量M0，其中M0是2x2矩阵；计算s_m.T-(s_std/q_std)·R*q_m.T，并将结果赋值给Tensor变量M1，其中M1是2x1矩阵；调用Tensorflow矩阵拼接方法，将M0和M1水平拼接，并将结果赋值给Tensor变量M2，其中M2是2x3矩阵；调用Tensorflow矩阵拼接方法，将M2和向量[0,0,1]垂直拼接，并将结果赋值给Tensor变量M，则M为最终求得的针对原始图像的人脸矫正仿射变换矩阵，其维度为3x3。在本申请实施例中的变量为存储当前步骤计算结果便于后续计算的临时存储机制。

理论上，在求解出人脸矫正仿射变换矩阵后便可以根据人脸矫正仿射变换矩阵，按照预设的规则对原始图像进行例如平移、旋转和缩放等图像转换，以获取到可以输入至人脸识别模型中的人脸正切图像。但是，由于基于上述算法获取到的人脸矫正仿射变换矩阵是一个正向变换的矩阵，使得在进行图像转换时需要整个人脸正切矩阵中的全部坐标数据，对系统的数据处理能力是个极大的挑战，而且，由于进行图像转换是进行像素替换，而Tensorflow工具(编码平台)很难实现单位置点的像素赋值，因此，很难直接利用人脸矫正仿射变换矩阵得到人脸正切图。

步骤103，利用人脸矫正仿射变换矩阵，对原始图像进行矫正，以获取人脸正切矩阵。

作为一个可行实施例，如图3所示，利用人脸矫正仿射变换矩阵，对原始图像进行矫正，以获取人脸正切图，包括：

步骤301，利用人脸矫正仿射变换矩阵，获取人脸正切图像中每个位置点对应在原始图像中的原始位置。

需要说明的是，由于人脸矫正仿射变换矩阵是对原始图像中的人脸矩阵和目标图像中的人脸矩阵进行转换的依据，即，原始图像中的人脸矩阵和目标图像中的人脸矩阵之间是依据人脸矫正仿射变换矩阵的逆运算，因此，在限定出将目标图像的大小和位置的情况下，可以利用人脸矫正仿射变换矩阵的逆矩阵进行反推，以获取目标图像在原始图像中的各位置点。

具体地，可先获取人脸正切图的坐标范围，然后根据坐标范围和人脸矫正仿射变换矩阵的逆矩阵，获取原始位置。

举例来说，图4为图像转换前后的对比图，图像转换后，原始图像中的各位置点转换至目标图像设定的区域内。具体地，假设原始图像的矩阵为S，目标图像的矩阵为Q，人脸矫正仿射变换矩阵的逆矩阵为M^-1，则有：

另外，人脸正切图的坐标范围可根据人脸识别模型的需求进行设定，在本申请实施例中，可选择(0-112,0-96)。

需要说明的是，由于在Tensorflow中，反推出的原始坐标位置是一组浮点数，但是像素在图片中的坐标值应当为整数，所以需要将坐标进行取整运算。但是，这样会造成进行坐标位置的像素值替换时产生像素精度的损失，得到的人脸正切图会有较为严重的迈赛克效果，对后续的人脸识别准确度也会有影响。

为了解决像素值精度损失的问题，本申请进一步引入双线性差值算法，不直接利用反推出的坐标进行取整，而是根据坐标位置与其最近的4个像素点的距离进行加权混合，以解决图像马赛克效果，图5为按照本申请实施例转换后的效果图。

具体地，步骤302，针对每个原始位置，获取与原始位置相邻的参考位置点及其像素值。

举例来说，如图4所示，通过逆矩阵获取到的原始位置点为P(i，j)，利用原始位置点P(i，j)推算出与其相连的四个位置点为P₁₁＝(i₁，j₁)、P₁₂＝(i₁，j₂)、P₂₁＝(i₂，j₁)、P₂₂＝(i₂，j₂)，然后分别获取P₁₁＝(i₁，j₁)、P₁₂＝(i₁，j₂)、P₂₁＝(i₂，j₁)、P₂₂＝(i₂，j₂)的像素值F(P₁₁)、F(P₁₂)、F(P₂₁)和F(P₂₂)。

步骤303，利用参考位置点的像素值，获取目标像素值。

具体地，可以采用如下公式：

进一步地，为了简化上述公式，降低运算量与计算难度，提高图像处理的速度，还可先对四个位置点的坐标进行归一化处理，使坐标值处于0-1之间，则有：

F(P)＝F(P₁₁)(1-i)(1-j)+F(P₂₁)i(1-j)+F(P₁₂)(1-i)j+F(P₂₂)ij

应当理解的是，由于本申请是将原始图像中的人脸正切图像进行转换得到目标图像，即，原始图像中的人脸位置点的像素值即为其在目标图像中的像素值。其中，在本申请实施例中，目标图像即为最终获取到的人脸正切图，人脸正切图可通过像素矩阵进行表达。

由此，本申请利用双线性差值算法，有效克服使用Tensorflow获取人脸正切图时浮点坐标位置导致的图像具有马赛克效果的问题，使得能够直接使用Tensorflow获取人脸正切图，无需转换至需要在CPU运行的Opencv工具进行处理，不仅避免了数据在CPU和GPU(Graphics Processing Unit，图像处理器)均需要存储并反复调用的问题，降低CPU的运行和存储压力，提高了获取人脸正切图的数据处理速度，还大大降低了编程人员的工作难度，降低了在编程过程中在多种编程工具中进行语言、变量的切换问题。

综上所述，本申请能够利用MTCNN模型中的Tensorflow工具直接得到人脸正切图，使得图像处理过程均可在GPU内完成，无需进行数据中转，大大提高了人脸识别之前的运算效率，降低系统内存的存储压力。

为了实现上述目的，本申请还提出了一种人脸检测装置。

图6为本申请实施例的人脸检测装置的方框示意图。如图6所示，本申请实施例的人脸检测装置10，包括：获取模块11、分析模块12和矫正模块13。

其中，获取模块，用于获取原始图像；分析模块，用于利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵；矫正模块，用于利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图。

进一步地，所述分析模块12，具体用于：获取利用所述MTCNN模型得到的人脸关键点和平均人脸关键点；利用所述人脸关键点和所述平均人脸关键点的坐标，求解针对所述原始图像的所述人脸矫正仿射变换矩阵。

进一步地，所述矫正模块13，具体用于：利用所述人脸矫正仿射变换矩阵，获取所述人脸正切图中每个位置点对应在所述原始图像中的原始位置；针对每个所述原始位置，获取与所述原始位置相邻的参考位置点及其像素值；利用所述参考位置点的像素值，获取目标像素值。

进一步地，所述矫正模块13，具体用于：获取所述人脸正切图的坐标范围；根据所述坐标范围和所述人脸矫正仿射变换矩阵的逆矩阵，获取所述原始位置。

需要说明的是，前述对人脸检测方法实施例的解释说明也适用于本实施例中的人脸检测装置，此处不再赘述。

根据本申请实施的人脸检测装置，能够利用MTCNN模型中的Tensorflow工具直接得到人脸正切图，使得图像处理过程均可在GPU内完成，无需进行数据中转，大大提高了人脸识别之前的运算效率，降低系统内存的存储压力。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本发明所属技术领域的技术人员，依据本发明的思想，还可以做出若干简单推演、变形或替换。

Claims

1.一种人脸检测方法，其特征在于，包括以下步骤：

获取原始图像；

利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵；

利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图。

2.根据权利要求1所述的人脸检测方法，其特征在于，所述利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵，包括：

获取利用所述MTCNN模型得到的人脸关键点和平均人脸关键点；

利用所述人脸关键点和所述平均人脸关键点的坐标，求解针对所述原始图像的所述人脸矫正仿射变换矩阵。

3.根据权利要求1所述的人脸检测方法，其特征在于，所述利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图，包括：

利用所述人脸矫正仿射变换矩阵，获取所述人脸正切图中每个位置点对应在所述原始图像中的原始位置；

针对每个所述原始位置，获取与所述原始位置相邻的参考位置点及其像素值；

利用所述参考位置点的像素值，获取目标像素值。

4.根据权利要求3所述的人脸检测方法，其特征在于，所述利用所述人脸矫正仿射变换矩阵，获取所述人脸正切图中每个位置点对应在所述原始图像中的原始位置，包括：

获取所述人脸正切图的坐标范围；

根据所述坐标范围和所述人脸矫正仿射变换矩阵的逆矩阵，获取所述原始位置。

5.一种人脸检测装置，其特征在于，包括：

获取模块，用于获取原始图像；

分析模块，用于利用MTCNN模型对所述原始图像进行分析，获取人脸矫正仿射变换矩阵；

矫正模块，用于利用所述人脸矫正仿射变换矩阵，对所述原始图像进行矫正，以获取人脸正切图。

6.根据权利要求5所述的人脸检测装置，其特征在于，所述分析模块，具体用于：

7.根据权利要求5所述的人脸检测装置，其特征在于，所述矫正模块，具体用于：

利用所述参考位置点的像素值，获取目标像素值。

8.根据权利要求7所述的人脸检测装置，其特征在于，所述矫正模块，具体用于：

获取所述人脸正切图的坐标范围；

9.一种电子产品，其特征在于，包括：

存储器，用于存储程序；

处理器，用于通过执行所述存储器存储的程序以实现如权利要求1-4中任一项所述的人脸检测方法。

10.一种计算机可读存储介质，其特征在于，包括程序，所述程序能够被处理器执行以实现如权利要求1-4中任一项所述的人脸检测方法。