CN108334848B

CN108334848B - 一种基于生成对抗网络的微小人脸识别方法

Info

Publication number: CN108334848B
Application number: CN201810119264.7A
Authority: CN
Inventors: 张永强; 丁明理; 白延成; 李贤�; 杨光磊; 董娜
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-02-06
Filing date: 2018-02-06
Publication date: 2020-12-25
Anticipated expiration: 2038-02-06
Also published as: CN108334848A

Abstract

本发明提供一种基于生成对抗网络的微小人脸识别方法。本发明是为了解决现阶段的人脸检测技术无法捕获复杂背景下的微小人脸，当基于失真的图像进行人脸检测时会导致检测率严重下降的缺点而提出的，包括：使用一个现有的人脸检测器预测训练数据库中每个图片的人脸位置，并截取保存真实的人脸和非人脸图像；根据人脸图像和非人脸图片降采样得到相应的低分辨率图像；构建生成对抗网络，生成对抗网络包括生成器和鉴别器；使用高分辨率人脸、非人脸图像以及对应的低分辨率人脸、非人脸图像对生成对抗网络进行训练；依据鉴别器对从现有的人脸检测器得到的人脸候选区域的得分在输入图片中标记出人脸的位置。本发明适用于人脸的识别检测。

Description

一种基于生成对抗网络的微小人脸识别方法

技术领域

本发明涉及人脸识别领域，具体涉及一种基于生成对抗网络的微小人脸识别方法。

背景技术

人脸检测是机器视觉领域中一个非常重要的基础性研究课题，它是人脸稀疏化(face parsing)、人脸鉴定(face verification)、人脸标注(face tagging)等高级任务的基础技术。此外人脸识别在好友推荐、相册自动标注、安防与反恐领域，发挥着越来越重要的作用，同时，人脸识别技术还可以广泛应用在企业，机场，超市，军队，航天等多个重要的行业领域，也为现代身份鉴定提供了一个良好的解决方案，具有广泛的应用前景。

由于人脸检测技术具有重要的理论研究价值和迫切的实际应用需求，针对人脸检测的相应技术也在不断发展跟新，大致分为两类：基于手工特征的人脸检测传统方法和基于深度学习的现代人脸检测方法。

人脸检测作为一个基础性研究课题，在过去的几十年中有多种人脸检测方法相继被提出。其中，在基于手工特征的传统方法中，最具有代表性的方法是给定一张被检测图片，利用滑动窗口的方法对整个图像进行一次遍历。由于被检定人脸可能出现在图像中的任何位置，且人脸的尺寸、宽高比都是不确定的，所以需要设计不同尺度的、不同宽高比的窗口多次在被检测图像上滑动。这种传统的穷举的方法总会找到人脸出现的位置(称为候选区域)。但是这种方法却有着明显的缺点：如果滑动窗口尺度和宽高比较少、步长太大，则不能检测到所有的人脸；如果滑动窗口尺度和宽高比较多且步长小，则导致冗余窗口太多、耗时太长，不能满足实际应用中实时性的需求。通过滑动窗口选定每一个候选区域后，传统方法采用手工的方式提取这些候选区域的特征(称为浅层特征)，常见的方法有尺度不变特征转换提取分析法(Scale-invariant feature transform,SIFT)、哈尔特征法(Haar-likefeatures)、方向梯度直方图特征提取法(Histogram of Oriented Gradient,HOG)、局部二值特征提取法(Local Binary Pattern,LBP)等。为了提高识别定位精度，通常会融合上述多种特征提取法产生的特征作为候选区域的特征。最后，设计一个分类器来识别各个候选区域的类别(脸/非脸)，常见的分类器有：支持向量机(Support Vector Machine,SVM)，自适应增强法(Adaptive Boosting,AdaBoost)等，基于传统方法人脸检测的流程图如图1所示。传统的“滑动窗口+人工提取特征+浅层分类器”的框架，由于过多的冗余窗口和特征表达能力较弱(浅层特征)导致计算速度和检测精度都不能满足实际需求。

之后，随着大型数据库ImageNet的出现和深度学习的发展，深度学习在图像分类问题(图像中物体是什么类别)上取得了突破。随后，深度学习也被应用到人脸检测中，且检测精度得到巨大提升。现存的基于深度学习的微小人脸检测技术大致分为两类：基于单尺度的超分辨率人脸检测法和基于多尺度金字塔人脸检测法。由于卷积神经网络(Convolution Neural Network,CNN)中的池化(pooling)操作，随着卷积层数的加深输入图像的信息被不断压缩，导致微小人脸的细节信息部分甚至全部丢失，从而影响到检测精度。针对上述问题，最直接的方法就是基于单尺度的超分辨率人脸检测法。基于单尺度的超分辨率人脸检测法是将输入图像上采样(放大一定的倍数)得到一张超分辨率的图像，基于这个超分辨率图像应用深度学习的方法实现人脸检测。但是，这种方法不具有多尺度人脸检测能力，例如一张图像中同时存在两张人脸，一张为200*200，另一张为10*10。为了实现多尺度的人脸检测，基于多尺度金字塔人脸检测法被提出。基于多尺度金字塔人脸检测法是将输入图像上采样到不同的分辨率，在这些不同分辨率的图像上应用深度学习实现不同尺度人脸的检测。但是这种方法使得计算量大大增加，不符合现实应用实时性的需求。

然而，不管是基于手工特征的传统技术还是基于深度学习的现代技术，现间断的研究绝大多数是在摆拍(posed)的图片上进行的，这样的图片存在几个特点：第一，人脸较大，且位于图像的中央；第二，背景较为干净简单。在现实场景中的图像，人脸极其微小而且背景较为复杂。针对微小人脸的识别，现阶段的深度学习技术没有捕获复杂背景下微小人脸的能力。因为，将图像上采样后，微小人脸对应的区域会严重失真，基于失真的图像进行人脸检测将导致检测率严重下降。

发明内容

本发明的目的是为了解决现阶段的深度学习技术没有捕获复杂背景下微小人脸的能力，当基于失真的图像进行人脸检测时会导致检测率严重下降的缺点，而提出一种基于生成对抗网络的微小人脸识别方法，包括：

步骤一，建立训练数据库；

步骤二，使用人脸检测器预测训练数据库中每一张图片的人脸位置，并截取得到第一高分辨率人脸图像和第一高分辨率非人脸图像；并处理所述第一高分辨率人脸图像以及第一高分辨率非人脸图像得到低分辨率人脸图像以及低分辨率非人脸图像；

步骤三，构建生成对抗网络，所述生成对抗网络包括生成器和鉴别器；其中生成器的输入为步骤二得到的低分辨率人脸图像以及低分辨率非人脸图像，输出为第二高分辨率人脸图像以及第二高分辨率非人脸图像；鉴别器的输入为第一高分辨率人脸图像、第一高分辨率非人脸图像、第二高分辨率人脸图像、第二高分辨率非人脸图像，鉴别器的第一个输出为输入图像属于人脸图像的概率p₁，第二个输出为输入图像是真实图像的概率p₂；

步骤四、使用步骤二中得到的第一高分辨率人脸图像、第一高分辨率非人脸图像、低分辨率人脸图像、低分辨率非人脸图像对所述生成对抗网络进行训练；

步骤五、将待处理图片依次输入至人脸检测器和训练后的生成对抗网络中，并在生成对抗网络输出的概率p中将高于预设阈值的值进行输出。

本发明的有益效果为：

1、本发明利用生成对抗网络从微小人脸图像学习生成清晰的高分辨率图像，基于清晰的高分辨率图像进行人脸识别将极大的促进识准确率的提升。本发明突破了深度学习方法不适用于微小人脸的检测问题，促进了基于深度学习的人脸检测法在真实场景下的应用；

2、对于受尺度、姿势、遮挡、表情、光照等因素影响较大的图像，本发明也能够进行准确判别；

3、本发明提出的“基于生成对抗网络的微小人脸识别技术”比基准人(Baseline)人脸检测器的识别率有一个很大的提升。此外，与其他最新的人脸检测器进行比较，本发明在Easy/Medium/Hard图像集中的检测结果都要优于其他方法，特别是针对像素在10-30间的微小人脸(Hard)检测的识别率的提升超过1％，达到了目前最高的识别结果86.3％。

附图说明

图1为基于传统方法的人脸流程图；

图2为现有技术的生成对抗网络示意图；

图3为本发明的基于生成对抗网络的微小人脸检测示意图；其中The 1^st branch是指人脸检测器的第1个分支；The K^th branch是指人脸检测器的第k个分支；input是指输入；Conv、Conv1……Conv5为序号不同的卷积层；Resideual blocks是本发明一个实施例使用的ResNet网络中的一种卷积层；De-Conv为反卷积层；sigmoid为激励函数；LR为低分辨率图像；SR为生成器由低分辨率图像生成的高分辨率图像；HR为高分辨率真实图像；Face为人脸图像；Non-Face为非人脸图像；

图4为本发明实施例的流程图。

具体实施方式

具体实施方式一：本实施方式的基于生成对抗网络的微小人脸识别方法，如图4所示，包括：

步骤一，建立训练数据库。例如可以将WIDER FACE数据库作为训练数据库，或者WIDER FACE数据库中人脸图像的大小位于10至30像素之间的图像构建训练数据库，这样设置的好处是，可以解决人脸在10-30像素间的较难的微小人脸检测问题。本实施方式也支持使用者自己通过采集真实场景的图像来构建数据库。本发明所指的微小人脸即为大小位于10至30像素之间的人脸图像。

步骤二，使用人脸检测器预测训练数据库中每一张图片的人脸位置，并截取得到第一高分辨率人脸图像和第一高分辨率非人脸图像；并处理所述第一高分辨率人脸图片以及第一高分辨率非人脸图片得到低分辨率人脸图像以及低分辨率非人脸图像。其中人脸检测器具体可以使用ResNet-50结构的深度残差网络。

步骤二进一步可以为：使用现有的一个人脸检测器预测训练数据库中每一张图片的人脸位置，得到预定数量的用于表示人脸位置的标记框，按照标记框的尺寸及位置在图片中进行截取得到第一高分辨率人脸图像和第一高分辨率非人脸图像；再使用双线性插值法进行4倍降采样处理所述第一高分辨率人脸图像以及第一高分辨率非人脸图像得到低分辨率人脸图像以及低分辨率非人脸图像。“4倍降采样”可以理解为是将一个32*32区域的像素使用4*4像素来表示。

因为步骤一中训练数据库中的图像一般为高分辨率图像，而在后续步骤中需要利用生成器由低分辨率图像生成高分辨率的图像，因此在步骤二中需要将从数据库中直接得到的高清人脸图像和非人脸图像处理为低分辨率图像。

人脸检测器检测到的人脸位置假设在一个矩形框中，那么可以用矩形框左上角的横纵坐标以及右下角横纵坐标组成的4元组来表示，这样设置能够同时表示人脸所在的具体位置和方框大小。本领域人员可以预见到还可以使用其他方式来表达人脸的位置，只要能够表达出方框的大小和具体位置即可，本发明不作限制。

步骤三，构建生成对抗网络，所述生成对抗网络包括生成器和鉴别器；其中生成器的输入为步骤二得到的低分辨率人脸图像以及低分辨率非人脸图像，输出为第二高分辨率人脸图像以及第二高分辨率非人脸图像；鉴别器的输入为第一高分辨率人脸图片、第一高分辨率非人脸图片、第二高分辨率人脸图片、第二高分辨率非人脸图片，鉴别器的第一个输出为输入图像属于人脸图像的概率p₁，第二个输出为输入图像是真实图像的概率p₂。

其中生成器的网络结构为：

1个卷积核数目为64个、卷积核大小为3、卷积步长为1的卷积层；8个卷积核数目为64个、卷积核大小为3、卷积步长为1的卷积层；1个卷积核数目为64个、卷积核大小为3、卷积步长为1的卷积层；1个卷积核数目为256个、卷积核大小为3、卷积步长为2的反卷积层；1个卷积核数目为256个、卷积核大小为3、卷积步长为3的反卷积层；以及1个卷积数目为3个、卷积核大小为1、卷积步长为1的卷积层。

鉴别器的网络结构为：

1个卷积核数目为64个、卷积核大小为3、卷积步长为2的卷积层；1个卷积核数目为128个、卷积核大小为3、卷积步长为2的卷积层；1个卷积核数目为256个、卷积核大小为3、卷积步长为2的卷积层；1个卷积核数目为512个、卷积核大小为3、卷积步长为2的卷积层；1个卷积核数目为512个、卷积核大小为3、卷积步长为1的卷积层；以及2个平行的卷积层，具体为用于判别输入图像是真实的高分辨率图像还是由生成器合成的高分辨率图像的第一卷积层fc_GAN和用于判断输入图像是否为人脸的第二卷积层fc_clc。

其中生成对抗网络所使用的损失函数为：

其中

表示对抗损失函数，

表示像素级损失函数，

表示分类损失函数；θ,ω分别为鉴别器和生成器的网络参数，D_θ(),G_ω()分别是鉴别器和生成器的功能函数，

分别是输入的低分辨率图像和对应的高分辨率图像，y_i为输入图像的标签(y_i＝1,y_i＝0分别代表输入图像为人脸和非人脸)，α,β是目标函数中抗损失函数、像素级损失函数以及分类损失函数的权值分配系数，N是训练样本总数。

步骤四、使用步骤二中得到的第一高分辨率人脸图像、第一高分辨率非人脸图像、低分辨率人脸图像、低分辨率非人脸图像对所述生成对抗网络进行训练。

步骤五、将待测试的图像输入到所述人脸检测器，得到人脸候选区域，并将人脸候选区域输入到训练好的生成对抗网络中，得到每一个候选区域的图像为人脸的概率p，并在输入图像中画出p大于预设阈值的区域。此处的概率p是实际测试中的概率，而步骤三中的p₁和p₂是训练过程中产生的概率，含义是不同的。

例如，将图片输入到人脸检测器后，人脸检测器截取人脸图像并记录人脸在原输入图片中所在的坐标信息，输出的概率p₁是对应于一个人脸图像的位置的，可以使用五元组(x1,y1,x2,y2,p₁)来记录，其中x1和y1可以是人脸所在矩形框的左上角坐标，x2和y2可以是矩形框右下角坐标，然后判别五元组中是否p₁符合一定的阈值条件，如果符合，则根据坐标信息x1,y1,x2,y2在原输入图像中将人脸位置标记出来。

下面进一步讨论本发明的设计思路以及原理：

本发明主要针对现有人脸检测技术的不足，克服了现有的人脸识别技术不适用于微小人脸检测的问题，提供了一种基于生成对抗网络的微小人脸检测方法。使用基于生成对抗网络的人脸检测方法可以实现真实场景中的微小人脸检测，检测对象不只局限于在实验室理想情况下的摆拍图片，尤其是使得在人脸距离图片捕获设备较远时产生的微小人脸的检测成为可能。

为了克服微小人脸检测存在的问题，本发明将生成对抗网络(GenerativeAdversarial Networks,GAN)引入到人脸检测技术中。抗生成网络是指是非监督式学习的一种方法，通过让两个神经网络相互博弈的方式进行学习，它由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来，而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。

本发明以真实场景下的图像(视频帧)为研究对象，用户可以根据实际应用需求自行构建人脸图像数据库。本发明中，为了方便与其他方法比较而采用具有标注信息的WIDERFACE数据库。在WIDER FACE数据库中，所有的人脸图片都是在实际场景下抓拍得到的。建立训练数据库之后，本发明采用现有的一个人脸检测器(MB-FCN Detector)对训练样本集中的每一张图片进行人脸位置的预测，并根据预测位置截取得到人脸图片和非人脸图像样本。这些人脸和非人脸图像样本进一步用来训练生成对抗网络，其中人脸图像作为正样本，非人脸(背景)作为负样本。

现阶段绝大多数的生成对抗网络的输入为随机噪声，其缺点为第一，生成的图像多样性较差；第二，网络训练难度大。此外，生成对抗网络的鉴别器只能判定生成的图像是真实的图像还是由生成器合成的图像(真/假)，不具有分类功能(判别输入图像是不人脸，即脸/非脸)。针对上述问题，本发明对生成对抗网络做如下修改。第一，为了实现从模糊的微小人脸生成到清晰的超分辨率的人脸(本发明中为4倍上采样)，本发明将生成对抗网络的输入由随机噪声替换成低分辨率的人脸图像；第二，修改鉴别器的网络结构，使得鉴别器具有同时具有鉴别真/假和脸/非脸的功能。具体来说，将鉴别器网络中(VGG19)的所有全连接层(fc6,fc7,fc8)替换为两个平行的全连接层fc_GAN和fc_clc，其中fc_GAN的作用为判别输入图像为真还是假，fc_clc的作用为鉴定输入图像是脸还是非脸，生成对抗网络结构如表1所示。第三，将鉴别器中判定真假的损失函数引入到生成器中，使得生成器生成的图像更加清晰逼真，更加容易判定是脸还是非脸(背景)。

综上，本发明将生成对抗网络成功的引入到微小人脸检测技术中，提出了一种新颖的基于生成对抗网络的人脸检测框架。此外，综合考虑现有的生成对抗网络的不足和微小人脸检测的实际需求，本发明对现有生成对抗网络的输入、网络结构及目标函数进行了修改。本发明的“基于生成对抗网络的微小人脸识别技术”中，生成对抗网络可以根据微小的人脸图像来生成一张高分辨率的清晰的人脸图像，解决了现有的深度学习的人脸检测技术不适用于微小人脸检测的问题，促进了微小人脸检测技术的发展，为人脸检测技术从实验室到实际应用起到了一定的推动作用，同时，为生成对抗网络找到了一个新的应用方向。

表1生成对抗网络网络结构图

表1为生成对抗网络网络结构图，其中“Conv”指的是卷积层，“x8”指的是有8个相同的卷基层，”De-conv”指的是反卷基层，“fc”指的是全连接层。

表2实验结果对比数据mAP(％)

<实施例>

下面结合具体实施例对本发明作进一步说明，如图3所示，首先根据自己的实际需求准备训练样本(本发明采用现有的WIDER FACE数据库)，然后使用准备的训练样本训练一个人脸检测器，本发明直接采用现有的一个MB-FCN人脸检测器。之后，训练好的人脸检测器对训练样本集中的每一张图像的人脸位置进行预测，并且根据预测的人脸位置信息截取人脸及非人脸图像(背景)，得到的人脸和非人脸图像作为生成对抗网络的训练样本。最后，利用这些截取的人脸和非人脸图像作为训练样本来训练生成对抗网络，其中生成器将根据低分辨率的图像学习产生相应的高分辨率图像，鉴别器将根据生成的高分辨率图像给出一个更为准确的人脸检测结果。下面对每部分进行详细描述：

首先准备训练样本。训练样本可以根据实际需求自行收集人脸图像，进而构建相应的数据库，也可以选用现有公开的人脸检测数据库，如WIDER FACE，FDDB等数据库。为了方便与其他方法进行比较，本发明采用WIDER FACE数据集中的图片作为训练样本和测试样本。WIDER FACE数据集是一个人脸检测基准数据库，数据库中的图片是从已经公布的WIDER数据集上挑选出来的，这些图片均是在真是场景下抓拍得到，其中有很多人脸是极其微小的(10-30像素之间)，这些微小人脸给现有的人脸检测技术提出了巨大挑战。WIDER FACE数据集包含32203个图片和393703个人脸图像，这些人脸图像除了尺度较小之外，还受尺度、姿势、遮挡、表情、光照等影响因素的影响也比较大。整个数据集基于61个事件类型构成的，事件所表达的是图像中人或者物的行为特征或者属性，对于每一个事件类型，随机选取40％的数据作为训练集、10％的数据集作为验证集、50％的数据作为测试集。同时，WIDERFACE数据集根据人脸图像的大小(50/30/10)将所有图像划分为三个档次，分别是简单/中等难度/较难(Easy/Medium/Hard)。本发明主要解决人脸在10-30像素间的较难的微小人脸检测问题。

训练人脸检测器。利用上述准备好的训练样本训练一个人脸检测器，其作用是为后面的生成对抗网络截取产生训练样本，人脸检测器的好坏将直接影响到生成对抗网络训练样本的质量。此处的人脸检测器可以现存的任何人脸检测器，本发明将这个人脸检测器作为基准线(Baseline)，在这个检测器的基础上使人脸的识别率做进一步的提升。由于这个人脸检测器不是本发明的重点，所以本发明采用一个现成的人脸检测器(MB-FCNDetector)，其网络结构为ResNet-50。为了实现多尺度人脸的检测，MB-FCN检测器的输出有多个分支，每个分支集中解决某个尺度范围内的人脸识别问题。此外，为了能够实现微小人脸的检测，MB-FCN检测器采用特征融合技术，即将卷积层低层的浅层特征(含有大量细节信息)和高层的深层特征(含有大量的语义信息)进行融合。利用MB-FCN人脸检测器为生成对抗网络产生训练样本的具体过程为：对于训练样本，利用MB-FCN人脸检测器对WIDER FACE训练样本集中的每一张图像进行人脸位置信息预测，并从每一张图像中截取产生600个可能包含人脸的区域并保存，这些保存的图像将作为生成对抗网络的训练样本；对于测试样本，本发明同样利用MB-FCN人脸检测器来处理测试集中的每一张图像，并从每一张图像中截取产生600个可能包含人脸的区域并保存，这些保存的图像最后通过对抗生成网络中的生成器得到相应的高分辨率(本发明中为4倍上采样)图像，然后通过鉴别器得出这些高分辨率的图像的类别(人脸/非人脸)，进而实现了微小人脸检测的功能。

构建生成对抗网络训练样本。对于上述截取生成的可能包含人脸的图像，本发明求取每一个截取产生的图像与人为标注的人脸位置真值(ground-truth bounding boxes)的重叠面积(intersection of union,IOU)，如果IOU大于0.45则标记为正样本(人脸)，如果IOU小于0.35则标记为负样本(非人脸，即背景)。根据上述方法，本发明共得到1,075,968个正样本和1，626,328个负样本。由于本发明中的生成对抗网络生成的图像实现了4倍上采样，所以训练时需要相应低分辨率和高分辨率图像作为训练样本。在这里，本发明将MB-FCN检测器截取产生的图像作为高分辨率图像，将这些高分辨率图像用双线性插值法(bi-linear interpolation method)下采样4倍得到的图像作为相应的低分辨率图像。

生成器。生成器的作用是根据输入的低分辨率的人脸图像训练学习生成相应的清晰的高分辨率图像，进而使得鉴别器通过生成的高分辨率图像更加容易地判定输入的低分辨率图像是不是人脸。本发明中生成器是一个深度学习网络，网络结构如表1所示，其中包含两个反卷积网络，每个反卷积网络实现了2倍上采样，这样整个生成器网络的输出图像的分辨率将是输入图像的4倍。

鉴别器。如表1所示，鉴别器的主网络结构采用VGG19网络。为了避免由卷积计算而带来过多的下采样操作，本发明去掉了“conv5”中的池化层(max-pooling layer)。此外，为了实现鉴别器同时具有判别输入图像是真实的高分辨率图像还是有生成器合成的图像(真/假)以及判断输入图像是不是人脸(人脸/非人脸)的功能，本发明移除了VGG19网络中的全部全连接层，即fc6，fc7，fc8，并替换为两个平行的卷基层，分别为fc_GAN，fc_clc。其中fc_GAN的作用为判别输入图像是真实的高分辨率图像还是有生成器合成的高分辨率图像(真/假)，fc_clc的作用为判断输入图像是不是人脸(人脸/非人脸)。

训练生成对抗网络。利用构建好的生成器、鉴别器网络结构和已经标注的正负训练样本就可以训练一个生成对抗网络。本发明通过让生成器网络和鉴别器网络相互博弈、交替优化的方式进行学习训练生成对抗网络。生成器网络从低分辨率样本中随机采样作为输入，其输出结果需要尽量模仿高分辨率样本集中的真实样本。鉴别器网络的输入则为真实的高分辨率样本或生成器输出的合成的高分辨率图像，其目的是将生成器网络的输出从真实样本中尽可能分辨出来同时判别高分辨率图像是不是人脸，而生成器网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实，进而达到生成器可以产生清晰的高分辨率图像，同时鉴别器可以准确的分辨输入图像是不是人脸的目的。本发明中，生成器网络参数从原始初始化开始训练，采用标准差为0.02的高斯分布来初始化卷积核参数(weight)，偏差(bias)初始化为0。为了避免生成器被卡在局部最优点，本发明首先应用输入图像和输出图像像素的最小平方差作为优化函数去训练一个生成器，然后利用训练好的生成器模型去初始化生成器网络参数。鉴别器的网络参数利用在ImageNet数据集上预训练好的的模型进行初始化，对于新增的全连接层fc_GAN和fc_clc，用标准差为0.1的高斯分布去初始化全连接层网络参数，偏差(bias)初始化为0。此外，本发明将鉴别器中的分类损失函数(判别是不是人脸)引入到生成器优化函数中，使得生成器的输出图像更加清晰、更加容易判别真/假和脸/非脸。训练整个网络时，总迭代次数6轮(epoch)，前3轮迭代的学习率为0.0001，后3轮迭代的学习率为0.00001。

通过上述步骤训练的人脸检测网络，不受现有人脸检测技术不适用于微小人脸检测的限制，可以实现复杂背景下的微小人脸检测。实验证明本发明的“基于生成对抗网络的微小人脸识别技术”人脸定位精度准确，同时检测效率高，表2为实验结果对比数据，其中mAP是平均准确率(mean Average Precision)，是对训练网络进行评估的一个指标。从对比数据中可以看出，本发明提出的“基于生成对抗网络的微小人脸识别技术”比基准人(Baseline)人脸检测器的识别率有一个很大的提升。此外，与其他最新的人脸检测器进行比较，本发明在Easy/Medium/Hard图像集中的检测结果都要优于其他方法，特别是针对像素在10-30间的微小人脸(Hard)检测的识别率的提升超过1％，达到了目前最高的识别结果86.3％。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于生成对抗网络的微小人脸识别方法，其特征在于，包括：

步骤一，建立训练数据库；

步骤二，使用人脸检测器预测训练数据库中每一张图片的人脸位置，并截取得到第一高分辨率人脸图像和第一高分辨率非人脸图像；并处理所述第一高分辨率人脸图像以及第一高分辨率非人脸图像得到对应的低分辨率人脸图像以及低分辨率非人脸图像；

步骤三中，生成器的网络结构为：

1个卷积核数目为64个、卷积核大小为3、卷积步长为1的卷积层；

8个卷积核数目为64个、卷积核大小为3、卷积步长为1的卷积层；

1个卷积核数目为256个、卷积核大小为3、卷积步长为2的反卷积层；

1个卷积核数目为256个、卷积核大小为3、卷积步长为3的反卷积层；以及

1个卷积数目为3个、卷积核大小为1、卷积步长为1的卷积层；

鉴别器的网络结构为：

1个卷积核数目为64个、卷积核大小为3、卷积步长为2的卷积层；

1个卷积核数目为128个、卷积核大小为3、卷积步长为2的卷积层；

1个卷积核数目为256个、卷积核大小为3、卷积步长为2的卷积层；

1个卷积核数目为512个、卷积核大小为3、卷积步长为2的卷积层；

1个卷积核数目为512个、卷积核大小为3、卷积步长为1的卷积层；

以及2个平行的卷积层，具体为用于判别输入图像是真实的高分辨率图像还是由生成器合成的高分辨率图像的第一卷积层fc_GAN和用于判断输入图像是否为人脸的第二卷积层fc_clc；

生成对抗网络的损失函数为：

其中

表示对抗损失函数，

表示像素级损失函数，

分别是输入的低分辨率图像和对应的高分辨率图像，y_i为输入图像的标签，α,β是目标函数中对抗损失函数、像素级损失函数以及分类损失函数的权值分配系数，N是训练样本总数；

步骤五、将待测试的图像输入到所述人脸检测器，得到人脸候选区域，并将人脸候选区域输入到训练好的生成对抗网络中，得到每一个候选区域图像为人脸的概率p，并在输入图像中画出p大于预设阈值的区域。

2.根据权利要求1所述的基于生成对抗网络的微小人脸识别方法，其特征在于，步骤一中使用WIDER FACE数据库作为训练数据库。

3.根据权利要求1所述的基于生成对抗网络的微小人脸识别方法，其特征在于，步骤一中，使用WIDER FACE数据库中人脸图像的大小位于10至30像素之间的图像构建训练数据库。

4.根据权利要求1至3中任意一项所述的基于生成对抗网络的微小人脸识别方法，其特征在于，步骤二具体为：

使用人脸检测器预测训练数据库中每一张图片的人脸位置，得到预定数量的用于表示人脸位置的标记框，按照标记框的尺寸及位置在图片中进行截取得到第一高分辨率人脸图像和第一高分辨率非人脸图像；

使用双线性插值法进行4倍下采样处理所述第一高分辨率人脸图像以及第一高分辨率非人脸图像得到对应的低分辨率人脸图像以及低分辨率非人脸图像。

5.根据权利要求4所述的基于生成对抗网络的微小人脸识别方法，其特征在于，步骤二中，所述人脸检测器为ResNet-50结构的深度残差网络。