CN113361506B

CN113361506B - 一种面向移动端的人脸识别方法与系统

Info

Publication number: CN113361506B
Application number: CN202110916043.4A
Authority: CN
Inventors: 乔树山; 李威君; 尚德龙; 周玉梅
Original assignee: Zhongke Nanjing Intelligent Technology Research Institute
Current assignee: Zhongke Nanjing Intelligent Technology Research Institute
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2022-04-29
Anticipated expiration: 2041-08-11
Also published as: CN113361506A

Abstract

本发明涉及一种面向移动端的人脸识别方法及系统，包括：将获取关键点的位置的人脸图像输入训练好的深度神经网络模型，输出人脸特征数据；计算人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度；将最大余弦相似度对应的人脸特征样本数据的标注信息作为人脸图像的识别结果；深度神经网络模型的中间层包括依次连接的静态瓶颈层模块和动态瓶颈层模块，静态瓶颈层模块包括依次连接的多个静态瓶颈层，动态瓶颈层模块包括依次连接的多个动态瓶颈层。本发明降低了识别功耗的同时降低信息缺失。

Description

一种面向移动端的人脸识别方法与系统

技术领域

本发明涉及图像识别领域，特别是涉及一种面向移动端的人脸识别方法与系统。

背景技术

人脸识别是计算机视觉技术领域的典型应用，卷积神经网络，尤其是深度卷积神经网络的进一步研究，促使人脸识别技术向着更加准确、快速和智能化的方向发展。基于深度学习的人脸识别使用精心设计的卷积神经网络对人脸特征建模，能够获取更为深层的人脸特征表示，在人脸识别挑战任务中，能够获得超越人类的准确率和更好的稳定性。

目前，人脸识别越来越多地应用于身份验证、快捷支付等移动场景。而大多数基于深度神经网络的人脸识别应用方案，使用大型深度神经网络模型以保证系统的性能，这些模型具有较高的复杂度，在进行人脸识别过程中，需要进行大量的浮点运算，对运行环境提出了较高的硬件要求，并不适宜部署在资源有限的低功耗移动终端。

如何在资源有限的移动终端和嵌入式计算平台，做到低功耗、低延时、低内存占用、高效而准确地识别出人脸数据，仍然是一项具有挑战性的任务。

发明内容

本发明的目的是提供一种面向移动端的人脸识别方法与系统，降低了识别功耗的同时降低信息缺失。

为实现上述目的，本发明提供了如下方案：

一种面向移动端的人脸识别方法，包括：

从采集的场景图像中提取人脸图像；

对所述人脸图像进行校正，获得校正后的人脸图像；

获取所述校正后的人脸图像中的关键点的位置；

将获取关键点的位置的人脸图像输入训练好的深度神经网络模型，输出人脸特征数据；

计算所述人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度；

从多个所述余弦相似度中选择最大余弦相似度；

将所述最大余弦相似度对应的人脸特征样本数据的标注信息作为所述人脸图像的识别结果；

所述深度神经网络模型的中间层包括依次连接的静态瓶颈层模块和动态瓶颈层模块，所述静态瓶颈层模块包括依次连接的多个静态瓶颈层，所述动态瓶颈层模块包括依次连接的多个动态瓶颈层；所述静态瓶颈层包括依次连接的第一卷积层、第一深度卷积层和第二卷积层，所述第一卷积层的输入连接所述第二卷积层的输出；所述动态瓶颈层包括第三卷积层、第二深度卷积层和第一动态卷积层，所述第二卷积层的输入连接所述第一动态卷积层的输出。

可选地，所述从采集的场景图像中提取人脸图像，具体包括：

采用图像传感器实时获取场景图像；

对所述场景图像进行伽马校正，获得伽马校正后的场景图像；

将所述伽马校正后的场景图像输入人脸检测模型，输出人脸所在位置的边框信息；

根据人脸所在位置的边框信息确定人脸图像。

可选地，所述对所述人脸图像进行校正，获得校正后的人脸图像，具体包括：

将所述人脸图像调整为设定尺寸的人脸图像；

对所述设定尺寸的人脸图像进行倾斜矫正和灰度归一化，获得校正后的人脸图像。

可选地，所述获取所述校正后的人脸图像中的关键点的位置，具体包括：

获取所述校正后的人脸图像中的关键点与所述校正后的人脸图像左上角的相对坐标。

可选地，所述深度神经网络模型还包括输入层、后置层和特征嵌入层，所述输入层、所述中间层、所述后置层和所述特征嵌入层依次连接；

所述输入层包括人脸图像浅层特征提取与下采样模块，所述特征嵌入层包括人脸特征嵌入模块；

所述人脸图像浅层特征提取与下采样模块包括依次连接的第二动态卷积层和第三深度卷积层；所述后置层包括第三动态卷积层；所述人脸特征嵌入模块包括依次连接的第四卷积层、扁平层和线性全连接层。

本发明还公开了一种面向移动端的人脸识别系统，包括：

人脸图像提取模块，用于从采集的场景图像中提取人脸图像；

人脸图像校正模块，用于对所述人脸图像进行校正，获得校正后的人脸图像；

关键点获取模块，用于获取所述校正后的人脸图像中的关键点的位置；

人脸特征数据获得模块，用于将获取关键点的位置的人脸图像输入训练好的深度神经网络模型，输出人脸特征数据；

余弦相似度计算模块，用于计算所述人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度；

最大余弦相似度确定模块，用于从多个所述余弦相似度中选择最大余弦相似度；

识别结果确定模块，用于将所述最大余弦相似度对应的人脸特征样本数据的标注信息作为所述人脸图像的识别结果；

可选地，所述人脸图像提取模块，具体包括：

场景图像获取单元，用于采用图像传感器实时获取场景图像；

场景图像校正单元，用于对所述场景图像进行伽马校正，获得伽马校正后的场景图像；

边框信息确定单元，用于将所述伽马校正后的场景图像输入人脸检测模型，输出人脸所在位置的边框信息；

人脸图像确定单元，用于根据人脸所在位置的边框信息确定人脸图像。

可选地，所述人脸图像校正模块，具体包括：

人脸图像调整单元，用于将所述人脸图像调整为设定尺寸的人脸图像；

人脸图像校正单元，用于对所述设定尺寸的人脸图像进行倾斜矫正和灰度归一化，获得校正后的人脸图像。

可选地，所述关键点获取模块，具体包括：

关键点获取单元，用于获取所述校正后的人脸图像中的关键点与所述校正后的人脸图像左上角的相对坐标。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明通过动态卷积层，利用多个并行小尺寸卷积核代替大尺寸卷积核，可以显著减少参数量和计算量，同时，小卷积核之间的非线性的动态集成方式，可以有效提高网络的表达能力，起到弱化下采样带来的信息缺失问题的功能；动态瓶颈层，则进一步降低计算量，进一步增强网络的非线性表达能力，另外，多分支结构也提高了特征的利用率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种面向移动端的人脸识别方法流程示意图；

图2为本发明深度神经网络模型结构示意图；

图3为本发明一种面向移动端的人脸识别系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明一种面向移动端的人脸识别方法流程示意图，如图1所示，一种面向移动端的人脸识别方法，包括：

步骤101：从采集的场景图像中提取人脸图像。

步骤102：对人脸图像进行校正，获得校正后的人脸图像。

步骤103：获取校正后的人脸图像中的关键点的位置。

步骤104：将获取关键点的位置的人脸图像输入训练好的深度神经网络模型，输出人脸特征数据。

关键点是指人脸图像的面部关键点。面部关键点包括人脸器官和面部轮廓，人脸器官包括眉毛中心、眼睛中心、鼻子中心和嘴巴中心，面部轮廓为下面部轮廓。

步骤105：计算人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度。

步骤106：从多个余弦相似度中选择最大余弦相似度。

步骤107：将最大余弦相似度对应的人脸特征样本数据的标注信息作为人脸图像的识别结果。

标注信息包括人脸图像对应人的姓名、年龄和性别。

深度神经网络模型的中间层包括依次连接的静态瓶颈层模块和动态瓶颈层模块，静态瓶颈层模块包括依次连接的多个静态瓶颈层，动态瓶颈层模块包括依次连接的多个动态瓶颈层；静态瓶颈层包括依次连接的第一卷积层、第一深度卷积层和第二卷积层，第一卷积层的输入连接第二卷积层的输出；动态瓶颈层包括第三卷积层、第二深度卷积层和第一动态卷积层，第二卷积层的输入连接第一动态卷积层的输出。

第一卷积层和第三卷积层为卷积核均为1×1的扩展层，步幅均为1；第一深度卷积层和第二深度卷积层均为卷积核为3×3的特征提取层，步幅均为1；第二卷积层为卷积核为1×1的压缩层，步幅为1；第一动态卷积层为卷积核均为1×1动态卷积层，步幅为1。

深度神经网络模型还包括输入层、后置层和特征嵌入层，输入层、中间层、后置层和特征嵌入层依次连接；

输入层包括人脸图像浅层特征提取与下采样模块，特征嵌入层包括人脸特征嵌入模块；

人脸图像浅层特征提取与下采样模块包括依次连接的第二动态卷积层和第三深度卷积层；后置层包括第三动态卷积层；人脸特征嵌入模块包括依次连接的第四卷积层、扁平层和线性全连接层。

第二动态卷积层卷积核大小为3×3，步幅为2；第三深度卷积层卷积核大小为3×3，步幅为1；

第三动态卷积层卷积核大小为1×1，步幅为1；第四卷积层为卷积核大小为7×7，步幅为1的深度卷积层。

其中，步骤101具体包括：

采用图像传感器实时获取场景图像；

对场景图像进行伽马校正，获得伽马校正后的场景图像；

将伽马校正后的场景图像输入人脸检测模型，输出人脸所在位置的边框信息；

根据人脸所在位置的边框信息确定人脸图像。

其中，步骤102具体包括：

将人脸图像调整为设定尺寸的人脸图像；

对设定尺寸的人脸图像进行倾斜矫正和灰度归一化，获得校正后的人脸图像。

其中，步骤103具体包括：获取校正后的人脸图像中的关键点与校正后的人脸图像左上角的相对坐标。

下面详细说明本发明一种面向移动端的人脸识别方法。

步骤S1、采集场景图像，从中提取出人脸图像；

步骤S2、针对光照、噪声等自然条件限制，进行人脸图像校正与关键点检测；

步骤S3、将处理后的人脸图像输入到已训练的深度神经网络模型，输出人脸特征数据；

步骤S4、将人脸特征数据与载入的人脸库中的数据进行相似性度量，得到人脸识别结果。

具体的，步骤S1包括：

步骤S1.1、使用图像传感器实时拍摄场景图像，对图像进行伽马校正，校正公式为：

f(I)=I ^γ，γ=

；

公式中，I为归一化的输入图像的像素值，f(I)为输出的非线性映射值，γ为非线性映射参数，X是图像I的亮度均值，0.5是灰度直方图的中心；

步骤S1.2、将图像输入人脸检测模型，输出人脸所在位置的边界框信息；

步骤S1.3、根据人脸所在位置边界框信息，裁剪图像区域，得到人脸图像。

由于自然光条件的变化，在进行场景图像采集时，照片的质量受光照的影响较大，造成图像的底层信息利用率低下，不利于人脸图像的获取。在此情况下，利用伽马校正可有效弱化光照的影响，更好地提取人脸图像。

具体的，步骤S2包括：

步骤S2.1、调整人脸图像大小，得到尺寸为112×112的一张或多张人脸图像；

步骤S2.2、对人脸图像进行倾斜矫正和灰度归一化，得到校正的人脸图像；

步骤S2.3、检测校正后人脸的关键点，得到关键点与图像左上角的相对坐标。

由于在采集人脸图像时，人体姿态、拍摄角度的不同，以及图像受亮度等自然条件的限制，造成人脸图像之间存在较大差异，不利于人脸关键点的提取。在此情况下，使用倾斜矫正，可降低人脸图像的角度差异，而灰度归一化，可以弱化亮度对关键点检测的影响。

具体的，步骤S3包括：

将处理后的人脸图像输入到已训练的深度神经网络模型，输出人脸特征数据；

进一步的，步骤S3的深度神经网络模型的结构如图2所示，包括：

输入层，包含人脸图像浅层特征提取与下采样模块；

中间层，包含静态瓶颈层模块和动态瓶颈层模块；

后置层，包含深层特征提取模块；

特征嵌入层，包含人脸特征嵌入模块；

更进一步的，图像浅层特征提取与下采样模块由卷积核大小为3×3，步幅为2的动态卷积层和卷积核大小为3×3，步幅为1的深度卷积层组成，如图2右上所示；

更进一步的，静态瓶颈层，包含两条支路，支路1由卷积核大小为1×1的扩展层，卷积核大小为3×3的特征提取层，卷积核大小为1×1的压缩层组成，步幅均为1；支路2将输入特征直接与支路1输出的特征相加，得到静态瓶颈层的输出，如图2左中所示；动态瓶颈层，包含两条支路，支路1由卷积核大小为1×1的扩展层，卷积核大小为3×3的特征提取层，卷积核大小为1×1的动态卷积层组成，步幅均为1；支路2将输入特征直接与支路1输出的特征相加，得到动态瓶颈层的输出，如图2右中所示；

更进一步的，深层特征提取模块，由一个卷积核大小为1×1，步幅为1的动态卷积层组成，如图2右下所示；

更进一步的，特征嵌入层，由一个卷积核大小为7×7，步幅为1的深度卷积层、张量扁平层和线性全连接层组成，如图2左下所示。

如图2中间层包括依次连接的四个静态瓶颈层、一个动态瓶颈层、六个静态瓶颈层、一个动态瓶颈层、两个静态瓶颈层。

图2中BN+ReLU中BN为Batch Normalization的缩写，BN表示批量标准化，ReLU（Rectified Linear Unit）表示线性整流函数。

由于使用标准卷积设计的网络结构存在参数多计算量大等问题，导致经训练得到的深度神经网络模型，无法部署在低资源的移动终端。在此情况下，使用的动态卷积层，利用多个并行小尺寸卷积核代替大尺寸卷积核，可以显著减少参数量和计算量，同时，小卷积核之间的非线性的动态集成方式，可以有效提高网络的表达能力，起到弱化下采样带来的信息缺失问题的功能。静态瓶颈层，在降低计算量的同时，缓解网络表达能力的流失问题；而动态瓶颈层，则进一步降低计算量，进一步增强网络的非线性表达能力，另外，多分支结构也提高了特征的利用率。特征嵌入层，利用大尺寸卷积核深度卷积，在保持较低计算量的同时，可有效提高人脸特征的利用率。

具体的，步骤S4包括：

步骤S4.1、计算所得人脸特征数据与人脸库中不同数据的余弦相似度；

步骤S4.2、将得到的不同余弦相似度值，与设定的阈值进行比较，输出识别结果。

进一步的，步骤S4.1中人脸特征为归一化的人脸特征数据，在此情况下，数据间的余弦相似度和欧式距离存在以下关系：

d _euc=

2cos(A,B)=2-d _euc ²

公式中，d _euc是数据A和数据B的欧式距离，cos(A,B)是数据A和数据B的余弦相似度。

根据二者的关系，本实施例中通过计算欧氏距离的平方值，得到余弦相似度，达到减少计算量的目的。

进一步的，步骤S4.2中比较方法为：

当所有的余弦相似度均小于给定阈值，则认为该人脸图像未在人脸库进行注册，以英文“Unknown”作为识别结果；

当存在多个余弦相似度结果大于给定阈值，选择具有最大余弦相似度对应的人脸标注信息作为该人脸图像的识别结果。

图3为本发明一种面向移动端的人脸识别系统结构示意图，如图3所示，一种面向移动端的人脸识别系统包括：

人脸图像提取模块201，用于从采集的场景图像中提取人脸图像；

人脸图像校正模块202，用于对人脸图像进行校正，获得校正后的人脸图像；

关键点获取模块203，用于获取校正后的人脸图像中的关键点的位置；

人脸特征数据获得模块204，用于将获取关键点的位置的人脸图像输入训练好的深度神经网络模型，输出人脸特征数据；

余弦相似度计算模块205，用于计算人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度；

最大余弦相似度确定模块206，用于从多个余弦相似度中选择最大余弦相似度；

识别结果确定模块207，用于将最大余弦相似度对应的人脸特征样本数据的标注信息作为人脸图像的识别结果；

人脸图像提取模块201，具体包括：

场景图像校正单元，用于对场景图像进行伽马校正，获得伽马校正后的场景图像；

边框信息确定单元，用于将伽马校正后的场景图像输入人脸检测模型，输出人脸所在位置的边框信息；

人脸图像校正模块202，具体包括：

人脸图像调整单元，用于将人脸图像调整为设定尺寸的人脸图像；

人脸图像校正单元，用于对设定尺寸的人脸图像进行倾斜矫正和灰度归一化，获得校正后的人脸图像。

关键点获取模块203，具体包括：

关键点获取单元，用于获取校正后的人脸图像中的关键点与校正后的人脸图像左上角的相对坐标。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向移动端的人脸识别方法，其特征在于，包括：

从采集的场景图像中提取人脸图像；

对所述人脸图像进行校正，获得校正后的人脸图像；

获取所述校正后的人脸图像中的关键点的位置；

计算所述人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度，具体包括：

根据以下公式计算人脸特征数据A与人脸特征样本数据B的余弦相似度：

2cos(A,B)＝2-d_euc ²；

其中，cos(A,B)为人脸特征数据A与人脸特征样本数据B的余弦相似度，d_euc为人脸特征数据A与人脸特征样本数据B的欧氏距离；

从多个所述余弦相似度中选择最大余弦相似度；

所述深度神经网络模型的中间层包括依次连接的静态瓶颈层模块和动态瓶颈层模块，所述静态瓶颈层模块包括依次连接的多个静态瓶颈层，所述动态瓶颈层模块包括一个动态瓶颈层；所述静态瓶颈层包括依次连接的第一卷积层、第一深度卷积层和第二卷积层，所述第一卷积层的输入连接所述第二卷积层的输出；所述动态瓶颈层包括依次连接的第三卷积层、第二深度卷积层和第一动态卷积层，所述第三卷积层的输入连接所述第一动态卷积层的输出；第一动态卷积层为卷积核为1×1动态卷积层，步幅为1；

所述深度神经网络模型还包括输入层、后置层和特征嵌入层，所述输入层、所述中间层、所述后置层和所述特征嵌入层依次连接；

所述特征嵌入层包括人脸特征嵌入模块；

所述输入层包括依次连接的第二动态卷积层和第三深度卷积层；所述后置层包括第三动态卷积层；所述人脸特征嵌入模块包括依次连接的第四卷积层、扁平层和线性全连接层；

第四卷积层为卷积核大小为7×7，步幅为1的深度卷积层。

2.根据权利要求1所述的面向移动端的人脸识别方法，其特征在于，所述从采集的场景图像中提取人脸图像，具体包括：

采用图像传感器实时获取场景图像；

根据人脸所在位置的边框信息确定人脸图像。

3.根据权利要求1所述的面向移动端的人脸识别方法，其特征在于，所述对所述人脸图像进行校正，获得校正后的人脸图像，具体包括：

将所述人脸图像调整为设定尺寸的人脸图像；

4.根据权利要求1所述的面向移动端的人脸识别方法，其特征在于，所述获取所述校正后的人脸图像中的关键点的位置，具体包括：

5.一种面向移动端的人脸识别系统，其特征在于，包括：

余弦相似度计算模块，用于计算所述人脸特征数据与人脸库中不同人脸特征样本数据的余弦相似度，获得多个余弦相似度，具体包括：

2cos(A,B)＝2-d_euc ²；

所述特征嵌入层包括人脸特征嵌入模块；

第四卷积层为卷积核大小为7×7，步幅为1的深度卷积层。

6.根据权利要求5所述的面向移动端的人脸识别系统，其特征在于，所述人脸图像提取模块，具体包括：

7.根据权利要求5所述的面向移动端的人脸识别系统，其特征在于，所述人脸图像校正模块，具体包括：

8.根据权利要求5所述的面向移动端的人脸识别系统，其特征在于，所述关键点获取模块，具体包括：