CN114582005B

CN114582005B - 一种人脸识别方法及系统

Info

Publication number: CN114582005B
Application number: CN202210477552.6A
Authority: CN
Inventors: 李威君; 游恒; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-29
Anticipated expiration: 2042-05-05
Also published as: CN114582005A

Abstract

本发明涉及一种人脸识别方法及系统。该方法包括根据预处理后的场景图像和第一神经网络确定人脸位置和关键点编码信息；对人脸位置和关键点编码信息进行解码，使人脸位置和关键点编码信息从偏置数据转换成编码图像上的坐标信息；并使人脸位置和关键点编码信息解码为场景图像的整数型坐标；对转换后的人脸位置和关键点编码信息进行人脸图像的验证；并当验证通过后，提取人脸图像，并将提取的多张人脸图像合并压缩为一张图像，之后确定人脸图像的个数以及每个人脸图像的位置；根据合并压缩后的图像以及第二神经网络确定人脸特征矩阵；将人脸特征矩阵与人脸数据库进行对比，确定识别结果，将识别结果进行显示。本发明具有计算量小和能源消耗小的特点。

Description

一种人脸识别方法及系统

技术领域

本发明涉及人脸识别领域，特别是涉及一种人脸识别方法及系统。

背景技术

现有人脸识别技术，严格按照人脸检测、人脸对齐、人脸表达和人脸比对四个步骤的顺序进行人脸识别，该方法具有一定的弊端，即过多的处理流程及大量的中间运算，难以在带宽有限、算力紧张的低功耗平台进行部署，阻碍了人脸识别技术向微小化、能源友好化的发展进程。

发明内容

本发明的目的是提供一种人脸识别方法及系统，具有计算量小和能源消耗小的特点。

为实现上述目的，本发明提供了如下方案：

一种人脸识别方法，包括：

对获取的场景图像进行预处理；所述预处理包括：场景图像的保存、场景图像大小的调整、场景图像编码以及伽马变换；

根据预处理后的场景图像和第一神经网络确定人脸位置和关键点编码信息；所述第一神经网络为一个单级的端到端的人脸检测和人脸关键点检测模型，以预处理后的场景图像为输入，以人脸位置和关键点编码信息为输出；

对人脸位置和关键点编码信息进行解码，使人脸位置和关键点编码信息从偏置数据转换成编码图像上的坐标信息；并使人脸位置和关键点编码信息解码为场景图像的整数型坐标；

对转换后的人脸位置和关键点编码信息进行人脸图像的验证；并当验证结果为人脸图像后，提取人脸图像，并将提取的多张人脸图像合并压缩为一张图像，之后确定人脸图像的个数以及每个人脸图像的位置；

根据合并压缩后的图像以及第二神经网络确定人脸特征矩阵；所述人脸特征矩阵包括：多个人脸特征数据；所述第二神经网络包括：输入层、中间层、后置层和特征嵌入层；所述输入层、中间层和后置层构成主干网络；所述特征嵌入层包括：特征图融合模块、感受野增强模块和动态卷积层；

将人脸特征矩阵与人脸数据库进行对比，确定识别结果，并将识别结果在获取的场景图像上进行显示。

一种人脸识别系统，用于实现所述的一种人脸识别方法，包括：

预处理模块，用于对获取的场景图像进行预处理；所述预处理包括：场景图像的保存、场景图像大小的调整、场景图像编码以及伽马变换；

第一神经网络模块，用于根据预处理后的场景图像和第一神经网络确定人脸位置和关键点编码信息；所述第一神经网络为一个单级的端到端的人脸检测和人脸关键点检测模型，以预处理后的场景图像为输入，以人脸位置和关键点编码信息为输出；

数据解码模块，用于对人脸位置和关键点编码信息进行解码，使人脸位置和关键点编码信息从偏置数据转换成编码图像上的坐标信息；并使人脸位置和关键点编码信息解码为场景图像的整数型坐标；

人脸验证模块，用于对转换后的人脸位置和关键点编码信息进行人脸图像的验证；

数据打包模块，用于当验证结果为人脸图像后，提取人脸图像，并将提取的多张人脸图像合并压缩为一张图像，之后确定人脸图像的个数以及每个人脸图像的位置；

第二神经网络模块，用于根据合并压缩后的图像以及第二神经网络确定人脸特征矩阵；所述人脸特征矩阵包括：多个人脸特征数据；所述第二神经网络包括：输入层、中间层、后置层和特征嵌入层；所述输入层、中间层和后置层构成主干网络；所述特征嵌入层包括：特征图融合模块、感受野增强模块和动态卷积层；

识别显示模块，用于将人脸特征矩阵与人脸数据库进行对比，确定识别结果，并将识别结果在获取的场景图像上进行显示。

一种人脸识别系统，用于实现所述的一种人脸识别方法，包括：图像采集装置、人脸识别装置、存储介质和显示装置；

图像采集装置用于采集场景图像以及对场景图像进行预处理；

人脸识别装置包括用于数据传输的信号传输模块、用于部署一个或多个神经网络的网络部署模块、用于浮点运算的辅助运算模块、用于提取相关信息的位置和关键点获取模块、用于图像及相关信息解码、人脸验证和数据打包的数据处理模块、用于生成人脸特征矩阵的特征获取模块以及用于人脸比对的相似性度量模块；

所述存储介质用于存储人脸数据库；

显示装置用于进行识别结果的显示。

可选地，所述图像采集装置为USB高清摄像头。

可选地，所述人脸识别装置为ARM+FPGA的硬件平台。

可选地，所述存储介质为FLASH CARD闪存卡及DDR4存储颗粒。

可选地，所述显示装置为显示器。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明所提供的一种人脸识别方法及系统，使用预处理后的场景图像进行人脸识别，有效降低了计算量；同时，使用预处理前的场景图像进行结果显示，有效保证了显示清晰度；利用第一神经网络同时实现了人脸检测和人脸对齐功能，收到了简化人脸识别流程、消除冗余计算的效果，有效降低了移动端的必要硬件开销。当验证通过后，提取人脸图像，并将提取的多张人脸图像合并压缩为一张图像，之后确定人脸图像的个数以及每个人脸图像的位置，对数据编解码和打包操作，可以有效减少内存的访问次数，更加适宜在带宽有限、算力紧张的低功耗平台进行部署；使人脸位置和关键点编码信息解码为场景图像的整数型坐标，简化的识别流程和轻量化模型，消除了大量的浮点运算；相比于浮点型神经网络模型内存减少了4~8倍，随之访问存储器也减少了4~8倍。进而，本发明具有计算量小和能源消耗小的特点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种人脸识别方法流程示意图；

图2为合并压缩后的图像示意图；

图3为第二神经网络示意图；

图4为人脸识别装置示意图；

图5为网络部署模块模型量化校准示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明所提供的一种人脸识别方法流程示意图，如图1所示，本发明所提供的一种人脸识别方法，包括：

S101，对获取的场景图像进行预处理；所述预处理包括：场景图像的保存、场景图像大小的调整、场景图像编码以及伽马变换；

S102，根据预处理后的场景图像和第一神经网络确定人脸位置和关键点编码信息；所述第一神经网络为一个单级的端到端的人脸检测和人脸关键点检测模型，以预处理后的场景图像为输入，以人脸位置和关键点编码信息为输出；

首先使用主干网络生成多张不同层次的语义特征图。然后使用多分支结构针对不同任务要求，选择不同的高层次语义特征图进行融合，最后各分支结构分别输出相应的任务结果。主干网络共14个卷积层（卷积单元+批归一化+激活函数）；网络存在置信度、目标定位、关键点提取3个分支；置信度分支和目标定位分支，选择第八、十一和十四层输出的语义特征图；关键点提取分支，选择第四、八、十一和十四层输出的语义特征图；对各层特征图进行横向拼接操作，然后使用标准卷积进行卷积运算。最终输出的任务结果是检测目标位置和关键点编码信息；

S103，对人脸位置和关键点编码信息进行解码，使人脸位置和关键点编码信息从偏置数据转换成编码图像上的坐标信息；并使人脸位置和关键点编码信息解码为场景图像的整数型坐标；

S104，对转换后的人脸位置和关键点编码信息进行人脸图像的验证；并当验证结果为人脸图像后，提取人脸图像，并将提取的多张人脸图像合并压缩为一张图像，之后确定人脸图像的个数以及每个人脸图像的位置，并如图2所示；

首先分别计算左眼、右眼、鼻尖、左嘴角和右嘴角关键点与参考关键点的距离，然后进行加权求和，若小于阈值，则认为是人脸，否则，不是人脸。距离公式为：

；

其中，a _i是权值，x _i是第一神经网络输出的关键点坐标，x _j是相应的参考关键点；

S105，根据合并压缩后的图像以及第二神经网络确定人脸特征矩阵；所述人脸特征矩阵包括：多个人脸特征数据；如图3所示，所述第二神经网络包括：输入层、中间层、后置层和特征嵌入层；所述输入层、中间层和后置层构成主干网络；所述特征嵌入层包括：特征图融合模块、感受野增强模块和动态卷积层；

在训练时使用网络支路对多张高语义特征图进行融合，部署时，删除特征图融合支路。感受野增强模块使用不同尺寸的卷积，并行处理输入的特征图，然后进行特征图融合，达到丰富感受野的目的。

第二神经网络在模型精度不低于95%的情况下，相较于MobileFaceNet，参数量降低至约47.41%，计算量降低至约50.60%。

第二神经网络在训练时，使用支路进行多特征图融合，充分利用上下文信息，允许使用更加精简的网络结构达到较高的准确率；部署时，删除支路，可以显著降低参数量、计算量和所需带宽，从而减少移动端设备的硬件开销。

感受野增强模块使用不同尺寸的卷积，并行处理输入的特征图，注意力机制的加入使得该模块与后续的动态卷积层形成互补结构，不仅可以进一步提高模型的准确率，也可以缩短模型的训练时长。

S106，将人脸特征矩阵与人脸数据库进行对比，确定识别结果，并将识别结果在获取的场景图像上进行显示。

使用以下公式确定最相似人脸数据：

most-similar=max[2

-(

-

)²]，i=0,1,2...N；

其中，

是单位矩阵，

是样本库中的特征矩阵数据，

是第二神经网络输出的人脸特征矩阵，

是样本库中样本的个数。

如图4所示，人脸识别装置包括用于数据传输的信号传输模块201、用于部署一个或多个神经网络的网络部署模块202、用于浮点运算的辅助运算模块203、用于提取相关信息的位置和关键点获取模块204、用于图像及相关信息解码、人脸验证和数据打包的数据处理模块205、用于生成人脸特征矩阵的特征获取模块206以及用于人脸比对的相似性度量模块207；

所述存储介质用于存储人脸数据库；

显示装置用于进行识别结果的显示。

作为一个具体的实施例，所述图像采集装置为USB高清摄像头。

作为一个具体的实施例，所述人脸识别装置为ARM+FPGA的硬件平台。

作为一个具体的实施例，所述存储介质为FLASH CARD闪存卡及DDR4存储颗粒。

作为一个具体的实施例，所述显示装置为显示器。

USB高清摄像头插在ARM+FPGA的硬件平台上；其中网络部署模块在FPGA芯片上进行加速推理，辅助运算单元、数据处理模块、特征获取模块、相似性度量模块在ARM芯片上运行；

网络部署模块202支持8比特以及更低比特数的网络权重，用以部署人脸识别方法所述的第一、第二神经网络。通过定制的指令集，可以使所部署的模型，更好地利用硬件资源，起到加速网络模型推理的作用。网络部署模块202需要将第一、第二神经网络针对FPGA芯片进行量化校准，将浮点模型量化为8比特的定点模型，量化校准流程如图5所示，包括：

301，导入浮点模型；

302，以需要输入的量化模型生成量化器，并获得转换后的模型；

303，使用转换后的模型前传神经网络，计算准确率和精度损失；

304，输出量化结果并部署模型；

305，编写程序调用量化后的模型，并与主程序对接。

量化校准后在FPGA芯片上进行加速推理。

辅助运算模块203支持32比特浮点数的运算以及定点数和浮点数的转换。可以增强网络部署模块202的通用型，允许用户在该装置上无差别地部署混合精度模型，特别是针对包含Softmax等难以量化的函数的模型。辅助运算单元在ARM芯片上运行。

存储介质还用于存储网络模型权重、操作系统以及计算机程序；存储介质为插在ARM+FPGA的硬件平台上的FLASH CARD闪存卡及DDR4存储颗粒。人脸数据库、网络模型权重、操作系统以及计算机程序存储在FLASH CARD闪存卡上，程序运行时会把人脸数据库、网络模型权重加载到DDR4存储颗粒中进行计算。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人脸识别方法，其特征在于，包括：

对获取的场景图像进行预处理；所述预处理包括：场景图像的保存、场景图像大小的调整、场景图像编码以及伽马变换；场景为包括多个人活动的场面；

2.一种人脸识别系统，用于实现权利要求1所述的一种人脸识别方法，其特征在于，包括：

预处理模块，用于对获取的场景图像进行预处理；所述预处理包括：场景图像的保存、场景图像大小的调整、场景图像编码以及伽马变换；场景为包括多个人活动的场面；