CN111695392A

CN111695392A - 基于级联的深层卷积神经网络的人脸识别方法及系统

Info

Publication number: CN111695392A
Application number: CN201910201162.4A
Authority: CN
Inventors: 翟新刚; 张楠赓
Original assignee: Canaan Creative Co Ltd
Current assignee: Canaan Bright Sight Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2020-09-22
Anticipated expiration: 2039-03-15
Also published as: WO2020187160A1; CN111695392B

Abstract

本发明提供了一种基于级联的深层卷积神经网络的人脸识别方法及系统，其中，所述基于级联的深层卷积神经网络的人脸识别方法包括：利用级联的深层卷积神经网络提取人脸特征；以及根据提取的所述人脸特征进行人脸识别。本发明基于级联的深层卷积神经网络的人脸识别方法及系统控制简单，计算量小，便于加速。

Description

基于级联的深层卷积神经网络的人脸识别方法及系统

技术领域

本发明人工智能技术领域，特别涉及一种基于级联的深层卷积神经网络的人脸识别方法及系统。

背景技术

人脸识别技术，是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸识别过程主要是用摄像头采集视频流，自动在图像中检测和跟踪人脸，进而对检测到的人脸进行人像识别。随着人脸识别技术的迅速发展，人脸识别系统已经广泛应用于各个领域，例如小区门禁、公司考勤、司法刑侦等。但是，目前，在特征提取过程中，传统的机器学习算法提取的都是手工特征，例如，局部二值模式(Local Binary Pattern，简称为LBP)特征、梯度直方图(Histogram of Oriented Gradient，简称为HOG)特征、哈尔(Haar)特征等，这些手工特征因为加入了设计者的先验知识，所以只能针对某些特定背景下的人脸有较高的准确率，难以应用于一些复杂条件下的人脸识别，因此难以胜任形式多样的人脸识别任务。

发明内容

(一)要解决的技术问题

鉴于上述问题，本发明的主要目的在于提供一种基于级联的深层卷积神经网络的人脸识别方法及系统，以便解决上述问题的至少之一。

(二)技术方案

根据本发明的一个方面，提供了一种基于级联的深层卷积神经网络的人脸识别方法，包括：

利用级联的深层卷积神经网络提取人脸特征；以及

根据提取的所述人脸特征进行人脸识别。

在一些实施例中，所述利用级联的深层卷积神经网络提取人脸特征，包括：

将人脸图像数据发送至第一网络，预测人脸边框回归；

将第一网络的输出发送至第二网络，预测面部关键点位置；

将第二网络的输出发送至第三网络，提取人脸特征。

在一些实施例中，所述将第一网络的输出发送至第二网络，预测面部关键点位置，包括：

将第一网络的输出进行边框截取及尺寸变换操作之后再发送至所述第二网络；以及

利用第二网络预测面部关键点位置。

在一些实施例中，所述将第二网络的输出发送至第三网络，提取人脸特征，包括，

将第二网络的输出进行相似变换、映射及尺寸变换操作之后再发送至第三网络；以及

利用第三网络提取人脸特征。

在一些实施例中，所述第一网络为人脸检测网络(Face Detection Network，简称为FDNet)，第二网络为关键点检测网络(Key-point Detection Network，简称为KDNet)，第三网络为特征提取网络(Feature Extraction Network，简称为FENet)。

在一些实施例中，在利用级联的深层卷积神经网络提取人脸特征之前，还包括：采集人脸图像数据。

根据本发明的另一个方面，提供了一种基于级联的深层卷积神经网络的人脸识别系统，包括：

特征提取模块，用于利用级联的深层卷积神经网络提取人脸特征；以及

人脸识别模块，与所述特征提取模块连接，用于根据提取的所述人脸特征进行人脸识别。

在一些实施例中，所述特征提取模块包括：

第一网络，用于接收人脸图像数据，预测人脸边框回归；

边框截取单元，用于接收第一网络的输出，并进行边框截取及尺寸变换操作；

第二网络，用于接收所述边框截取单元的输出，并预测面部关键点位置；

相似变换单元，用于接收所述第二网络的输出，并进行相似变换、映射及尺寸变换操作；以及

第三网络，用于接收所述相似变换单元的输出，并提取人脸特征。

在一些实施例中，还包括采集模块，用于采集人脸图像数据。

(三)有益效果

从上述技术方案可以看出，本发明一种基于级联的深层卷积神经网络的人脸识别方法及系统至少具有以下有益效果其中之一：

(1)本发明利用级联的深层卷积神经网络进行特征提取，根据提取的特征进行人脸识别，级联的深层卷积神经网络中的每一级网络对于每一个人而言只需执行一次，控制简单，计算量小，便于加速；而且通过深度学习提取人脸特征进行人脸识别可以轻松应对各种安全等级的人脸识别任务。

(2)本发明采用相似变换，进一步降低了因边框尺寸不一所带来的背景效应，降低了对网络的需求。

附图说明

为了更清楚地说明本发明技术方案和实施例，下面将对现有技术方案和实施案例所需要使用的附图进行说明，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人脸识别方法流程示意图。

图2为图1所示人脸识别方法中边框截取示意图。

图3为本发明人脸识别方法流程图。

图4为本发明人脸识别方法另一流程图。

图5为本发明人提取人脸特征流程图。

图6为本发明预测面部关键点位置流程图。

图7为本发明提取人脸特征另一流程图。

图8为本发明人脸识别系统结构示意图。

图9为本发明人脸识别系统另一结构示意图。

图10为本发明特征提取模块结构示意图。

图11为本发明实施例人脸识别方法又一流程图。

具体实施方式

在此先简单介绍人脸识别过程以利于对本发明技术方案的理解。

人脸识别通常包括人脸检测、人脸特征提取、对提取的人脸特征进行分类，从而完成人脸识别。

1.人脸检测

所谓人脸检测，就是给定任意一张图片，找到其中是否存在一个或多个人脸，并返回图片中每个人脸的位置和范围。人脸检测算法分为基于知识的、基于特征的、基于模板匹配的、基于外观的四类方法。随着DPM(Direct Part Model)算法(可变部件模型)和深度学习卷积神经网络(Convolutional Neural Networks，简称为CNN)的运用，人脸检测所有算法可以总分为两类：(1)基于模板匹配(Based on rigid templates)：其中，代表有算法(Boosting)+特征(Features)和CNN；(2)基于部件模型(Based on parts model)。

2.人脸特征提取

人脸特征提取是在人脸检测的基础上，在人脸所在区域中获取人脸面部特征信息的过程。人脸特征提取方法包括：特征脸法(Eigenface)、主成分分析法(PrincipalComponentAnalysis，简称为PAC)。深度学习特征提取：softmax作为代价函数，抽取神经网络中的某一层作为特征。

3.分类

分类，是指按照种类、等级或性质分别归类，对提取的特进行分类，从而完成人脸识别。分类方法主要包括：决策树方法、贝叶斯方法、人工神经网络。

以下介绍本发明人脸识别方法，概括而言，本发明人脸识别方法过程为：将一张新的图片进行金字塔尺度变换，将变换后的图片输入一网络中，产生大量的人脸分类得分和人脸矩形框(也称方框、边框、边界框、窗、窗体等)回归向量，淘汰得分较低(例如低于一阈值M1)的人脸矩形框，将剩下的人脸矩形框进行非极大值抑制从而得到最终预测结果；然后将预测的结果输入到另一网络中，同样淘汰得分较低(例如低于阈值M2)的人脸矩形框，再利用非极大值抑制算法筛选重叠较大的人脸矩形框，显示面部关键点位置，进行特征提取及人脸识别。

此处以人脸网络(FaceNet)为例介绍所述人脸识别方法。如图1-2所示，所述人脸识别方法包括以下步骤：

利用FaceNet提取人脸特征；以及

根据提取的人脸特征进行人脸识别。

具体的，所述FaceNet分为两步提取人脸特征：

利用多任务级联卷积网络(Multi-task Cascaded Convolutional Networks，简称为MTCNN)预测人脸的边框(Bounding Box)；以及

从原始图片中对Bounding Box加入边缘(Margin)截取，并变换尺寸(Resize)至固定尺寸送入特征提取网络。

其中，所述MTCNN预测人脸的Bounding Box，如图1所示，包括以下子步骤：

将输入原始图像缩放成各种不同的大小，也即对原始图片进行不同Scale的Resize操作，建立图像金字塔，每一层金字塔分别送入浅层的CNN候选框网络(ProposalNetwork，简称为PNet)并进行边框回归(Bounding Box Regression)和非极大值抑制(Non-maximum suppression，简称为NMS)快速产生候选窗体；

对第一阶段筛选下来的每个Bounding Box，截取出来并Resize至固定尺寸，通过更复杂的CNN校准网络(Refine Network，简称为RNet)精炼候选窗体，并进行Bounding BoxRegression和非极大值抑制(Non-Maximum Suppression，简称为NMS)丢弃大量的重叠窗体；

对第二阶段筛选下来的每个Bounding Box，使用更加强大的CNN输出网络(Outputnetwork，简称为ONet)，实现候选窗体去留，同时显示五个面部关键点定位。

如图2所示，对Bounding Box加入Margin，截取出来，Resize至固定尺寸，并送入人脸特征提取网络，图2中白色方框为Bounding Box，灰色线段长度Margin/2，黑色方框为最终截取出来的人脸，所述人脸Resize至固定尺寸送入人脸特征提取网络。

可以看出，以上方法利用MTCNN预测Bounding Box需要多次重复PNet和RNet，控制相对复杂，运算量较大。而且利用MTCNN预测的Bounding Box加入固定长度的Margin，送入特征提取网络，由于图中的人脸的Bounding Box会有各种尺寸，如果对于不同尺寸的人脸加入固定的Margin，则不同尺寸的人脸所带的背景信息则会大为不一样，因此会弱化特征提取网络的泛化能力。

在此基础上，本发明还提供了一种基于级联的深层卷积神经网络的人脸识别方法，如图3所示，所述基于级联的深层卷积神经网络的人脸识别方法包括以下步骤：

S1，利用级联的深层卷积神经网络提取人脸特征；以及

S2，根据提取的所述人脸特征进行人脸识别。

本发明利用级联的深层卷积神经网络进行特征提取，根据提取的特征进行人脸识别，级联的深层卷积神经网络中的每一级网络对于每一个人而言只需执行一次，控制简单，计算量小，便于加速。

进一步的，如图4所示，在利用级联的深层卷积神经网络提取人脸特征之前，所述人脸识别方法还可包括：S0，采集人脸图像数据。

具体的，如图5所示，所述利用级联的深层卷积神经网络提取人脸特征包括：

S11，将人脸图像数据发送至第一网络，预测人脸边框回归；

S12，将第一网络的输出发送至第二网络，预测面部关键点位置；

S13，将第二网络的输出发送至第三网络，提取人脸特征。

也就是说，所述级联的深层卷积神经网络可以包括三个网络，三个网络构成一个三级级联的深层卷积神经网络；其中，所述第一网络为人脸检测网络(Face DetectionNetwork，简称为FDNet)，第二网络为关键点检测网络(Key-point Detection Network，简称为KDNet)，第三网络为特征提取网络(Feature Extraction Network，简称为FENet)。

更具体而言，如图6所示，所述将第一网络的输出发送至第二网络，预测面部关键点位置，包括：

S121，将第一网络的输出进行边框截取及尺寸变换操作之后再发送至所述第二网络；以及

S122，利用第二网络预测面部关键点位置。

如图7所示，所述将第二网络的输出发送至第三网络，提取人脸特征包括，

S131，将第二网络的输出进行相似变换、映射及尺寸变换操作之后再发送至第三网络；以及

S132，利用第三网络提取人脸特征。

本发明采用相似变换，进一步降低了因边框尺寸不一所带来的背景效应，降低了对于FDNet的需求，提高了特征提取的精度。

此外，本发明还提供了一种基于级联的深层卷积神经网络的人脸识别系统，如图8所示，所述基于级联的深层卷积神经网络的人脸识别系统包括：

特征提取模块11，用于利用级联的深层卷积神经网络提取人脸特征；以及

人脸识别模块12，与所述特征提取模块11连接，用于根据提取的所述人脸特征进行人脸识别。

进一步的，如图9所示，所述人脸识别系统还可包括采集模块10，用于采集人脸图像数据。相应的，所述特征提取模块11与所述采集模块10连接，用于接收所述采集模块10发送的人脸图像数据，并利用级联的深层卷积神经网络提取人脸特征。

具体的，如图10所示，所述特征提取模块包括：

第一网络110，用于接收所述人脸图像数据，预测人脸边框回归；

边框截取单元111，用于接收第一网络110的输出，并进行边框截取及尺寸变换操作；

第二网络112，用于接收所述边框截取单元111的输出，并预测面部关键点位置；

相似变换单元113，用于接收所述第二网络112的输出，并进行相似变换、映射及尺寸变换操作；以及

第三网络114，用于接收所述相似变换单元113的输出，并提取人脸特征。

其中，所述第一网络为人脸检测网络(Face Detection Network，简称为FDNet)，第二网络为关键点检测网络(Key-point Detection Network，简称为KDNet)，第三网络为特征提取网络(Feature Extraction Network，简称为FENet)。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明基于级联的深层卷积神经网络的人脸识别方法作进一步的详细说明。

如图11所示，在一实施例中，所述基于级联的深层卷积神经网络的人脸识别方法具体包括以下步骤：

网络FDNet基于YOLO的设计思路，以移动网(MobileNet)为骨干(backbone)，直接对人脸的边框回归(Bounding Box Regression)，并同时预测置信度；

基于网络FDNet的输出，将边框(Bounding Box)截取出来，变换尺寸(Resize)至固定尺寸，送入网络KDNet(Keypoints Detection Net)直接预测五个面部关键点位置。

基于网络KDNet中五个面部关键点的输出，将整帧图像进行五点的相似变换，映射至固定黄金(Golden)位置的五点，将映射后的人脸图像变换尺寸(Resize)至固定尺寸送入网络FENet(Feature Extraction Net，简称为FENet)，提取人脸特征。

本实施例所述基于级联的深层卷积神经网络的人脸识别方法，利用三个网络级联的深度卷积神经网络(Cascaded-Deep CNN，简称为CDCNN)来提取人脸特征，进行人脸识别。CDCNN的每一级网络对于每一个人而言只需执行一次，控制简单，计算量小，便于加速；而且相较于前述的Bounding Box加入Margin的方法，本实施例采用五点的相似变换，进一步降低了Bounding Box尺寸不一带来的背景效应，且降低了对于FDNet的需求(只要面部五个关键点准确无误，人脸检测框并不一定要用MTCNN网络产生)。

至此，已经结合附图对本发明基于级联的深层卷积神经网络的人脸识别方法及系统进行了详细描述。依据以上描述，本领域技术人员应当对本发明有了清楚的认识。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

当然，根据实际需要，本发明基于级联的深层卷积神经网络的人脸识别方法及系统还可以包含其他的部分，由于同本发明的创新之处无关，此处不再赘述。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面发明的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的相关设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

再者，说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词，以修饰相应的元件，其本身并不意含及代表该元件有任何的序数，也不代表某一元件与另一元件的顺序、或是制造方法上的顺序，该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能作出清楚区分。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于级联的深层卷积神经网络的人脸识别方法，其特征在于，包括：

利用级联的深层卷积神经网络提取人脸特征；以及

根据提取的所述人脸特征进行人脸识别。

2.根据权利要求1所述的人脸识别方法，其特征在于，所述利用级联的深层卷积神经网络提取人脸特征，包括：

将人脸图像数据发送至第一网络，预测人脸边框回归；

将第一网络的输出发送至第二网络，预测面部关键点位置；

将第二网络的输出发送至第三网络，提取人脸特征。

3.根据权利要求2所述的人脸识别方法，其特征在于，所述将第一网络的输出发送至第二网络，预测面部关键点位置，包括：

利用第二网络预测面部关键点位置。

4.根据权利要求2所述的人脸识别方法，其特征在于，所述将第二网络的输出发送至第三网络，提取人脸特征，包括，

利用第三网络提取人脸特征。

5.根据权利要求2所述的人脸识别方法，其特征在于，所述第一网络为人脸检测网络(Face Detection Network，简称为FDNet)，第二网络为关键点检测网络(Key-pointDetection Network，简称为KDNet)，第三网络为特征提取网络(Feature ExtractionNetwork，简称为FENet)。

6.根据权利要求1所述的人脸识别方法，其特征在于，在利用级联的深层卷积神经网络提取人脸特征之前，还包括：采集人脸图像数据。

7.一种基于级联的深层卷积神经网络的人脸识别系统，其特征在于，包括：

8.根据权利要求7所述的人脸识别系统，其特征在于，所述特征提取模块包括：

第一网络，用于接收人脸图像数据，预测人脸边框回归；

9.根据权利要求8所述的人脸识别系统，其特征在于，所述第一网络为人脸检测网络(Face Detection Network，简称为FDNet)，第二网络为关键点检测网络(Key-pointDetection Network，简称为KDNet)，第三网络为特征提取网络(Feature ExtractionNetwork，简称为FENet)。

10.根据权利要求7所述的人脸识别系统，其特征在于，还包括采集模块，用于采集人脸图像数据。