CN109299701A

CN109299701A - 基于gan扩充多人种特征协同选择的人脸年龄估计方法

Info

Publication number: CN109299701A
Application number: CN201811195416.8A
Authority: CN
Inventors: 田青; 沈传奇; 毛军翔; 孙元康; 秦璇; 黄媛沅
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2018-10-15
Filing date: 2018-10-15
Publication date: 2019-02-01
Anticipated expiration: 2038-10-15
Also published as: CN109299701B

Abstract

本发明公开了一种基于GAN扩充多人种特征协同选择的人脸年龄估计方法，先通过生成式对抗网络进行多风格人脸样本的模拟生成，来快速地大规模地扩充不同人种的人脸库，从而提高对黄色、棕色等人种年龄信息识别的精度。然后利用卷积神经网络对原有数据集进行预训练，接着基于扩充得到的人脸年龄数据库进行进一步的精训练。最后将四个人种的Sub‑CNN进行基于组稀疏算法的联合特征选择融合，以此来解决基于人脸图像的年龄估计问题。本发明得到了更具泛化能力的人脸年龄估计模型，同时也能大大提高很多年龄人脸识别系统的性能，弥补了以往研究的不足之处。

Description

基于GAN扩充多人种特征协同选择的人脸年龄估计方法

技术领域

本发明涉及一种人脸年龄估计方法，特别是一种基于GAN扩充多人种特征协同选择的人脸年龄估计方法。

背景技术

随着人机交互的相关理论与应用研究的快速发展，年龄信息作为人类的一种重要生物特征，在此领域中有着众多应用需求，并且对人脸识别系统的性能有着重要影响。但是绝大部分的研究是基于现有的数据集，由于在很多国外的现有大型数据集上黄色、棕色等人种样本过少，大大限制了对黄色、棕色等人种图片的年龄辨识。

发明内容

本发明所要解决的技术问题是提供一种基于GAN扩充多人种特征协同选择的人脸年龄估计方法，得到更具泛化能力的人脸年龄估计模型。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于包含以下步骤：

步骤一：通过网络爬虫从Internet网上下载所缺人脸图像集；

步骤二：基于步骤一的人脸图像集进行GAN人脸多风格样本输出模型的训练，扩充完善现有人脸年龄数据库；

步骤三：在完成基于GAN对人脸年龄数据库模拟生成多风格不同人种人脸年龄图片后，针对每一组人种数据集设计一个CNN模型，总共设计四个串联形式的Sub-CNN，并借助LFW、CACD大型人脸库对Sub-CNN模型进行预训练，然后对其基于扩充得到的人脸年龄数据库进行进一步的精训练；

步骤四：基于组稀疏Group-lasso的联合特征选择，应用于神经网络训练权值向量的过程中；

步骤五：多人种年龄识别模型建立完成，通过模型进行人脸年龄估计。

进一步地，所述步骤二生成式对抗网络为

生成式对抗网络由生成模型Generative Model和判别模型DiscriminativeModel两个模块构成，生成模型G的目标是使其生成的伪数据G(z)在判别模型D 上的表现和真实数据x在D上的表现一致，G和D互相博弈学习并迭代优化的过程使得它们的性能不断提升，随着D的判别能力提升，并且无法判别其数据来源时，则认为G已学到真实的数据分布，根据生成式对抗网络的特性，对通过网络爬虫从网上下载的所缺人脸图像集，进行快速扩充类似的且多风格的样本。

进一步地，所述生成模型的作用是尽可能地学习真实的数据分布，输入随机变量z，则G尽可能地生成服从真实数据分布的样本G(z)；判别模型的作用是判别其输入数据是来自生成模型G还是来自真实的数据x，如果输入来自 G(z)，则标注为0并判别为伪，否则标注为1并判别为真。

进一步地，所述步骤三具体为世界人种可分为棕色、黄色、黑色、白色，不同人种间的人面部特征由于气候条件、地理位置、传统风俗、遗传因子等因素的影响存在显著的差异性，而在相同人种间这种差异性在某种程度上相对较小，在完成基于GAN对人脸年龄数据库模拟生成多风格不同人种人脸年龄图片后，针对每一组人种数据集，设计一个CNN模型，即总共设计四个串联形式的 Sub-CNN，并借助LFW、CACD等大型人脸库对Sub-CNN模型进行预训练，然后对其基于扩充得到的人脸年龄数据库进行进一步的精训练。

进一步地，所述借助LFW、CACD等大型人脸库对Sub-CNN模型进行预训练具体过程为针对每一个Sub-CNN，首先借助LFW、CACD、Morph大型人脸库对其模型进行预训练，让Sub-CNN学习到基础人脸特征，构建起初始识别模型，然后在此基础之上，对步骤二中基于GAN扩充得到的人脸年龄数据库进一步精训练，使得Sub-CNN在初始模型的基础上学习到扩充人脸特征，从而构建起最终识别模型。

进一步地，所述步骤四具体为

在基于McCulloch-Pitts神经元模型的传统卷积神经网络中，各个神经元之间依靠权值向量进行信息传递，训练神经网络的实质即是在训练神经网络层的权值向量；

Group Lasso的约束方程如下所示

在将该约束方程具体运用到本模型的权值向量训练中后，将该约束方程进行简化，简化之后的公式为

其中，d表示神经网络的权值向量的维度，w_i表示w矩阵的第i行；公式将步骤三中所划分的四个人种的神经网络的权值向量相连接，完成了将该四个神经网络进行融合；

此时，四人种神经网络即是一个相互连接的完整的神经网络，之后根据 group-lasso的算法，我们需要将计算结果嵌入到四人种神经网络的全连接层中的损失函数当中，重新定义全连接层中的损失函数，新的损失函数公式如下：

new loss function＝old loss function+λ||W||_2,1

新的损失函数相比之前的损失函数多了一个偏置项，该偏置项的作用即是实现Group Lasso算法的特征联合选择功能；其中，偏置项的参数λ由实验效果人为调整或者由先验信息决定。

本发明与现有技术相比，具有以下优点和效果：

1、在很多国外的现有大型数据集上由于黄色、棕色等人种样本过少，这就大大限制了对黄色、棕色等人种图片的年龄辨识，通过生成式对抗网络(GAN)能很好的解决这一问题；

2、传统卷积神经网络由一整条庞大的神经网络构成，本发明通过四人种划分规则，将该神经网络进行模块划分，能够增强神经网络的特定模块处理功能，从而提升人脸年龄估计针对特定种群的识别准确率；

3、通过对Sub-CNN基于LFW、CACD、Morph等大型人脸数据集进行预训练，使得神经网络初步学习到基础人脸面部特征，再由GAN扩充人脸数据集进一步精训练，从而继续学习到更加丰富的人脸特征，通过迁移学习的方式，在一定程度上提高了目标模型训练的便捷性与准确性；

4、通过将组稀疏算法应用到我们的卷积神经网络模型中，可以有效地提升神经网络的特征选择能力，进而提升模型在人脸年龄估计中的准确度。

附图说明

图1是本发明的基于GAN扩充多人种特征协同选择的人脸年龄估计方法的流程图。

图2是本发明的四人种神经网络架构图。

具体实施方式

下面结合附图并通过实施例对本发明作进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

生成对抗网络(GAN)由生成模型G和判别模型D组成，通过对抗学习的方式训练数集并生成新的数据样本。2014年Goodfellow发表《Generative Adversarial Networks》一文，使生成式对抗网络在学术界首次亮相，其主要思想来自于博弈论(即二人的利益之和为零，一方的所得正式一方的所失)。此后，GAN被应用于解决各种实际问题，诸如语言、语音处理，棋牌比赛程序等问题的研究。生成模型G捕捉样本数据的分布，用服从某一分布(均匀分布，高斯分布等)的噪声z生成一个类似真实训练数据的样本，追求效果是越像真实样本越好；判别模型D是一个二分类器，估计一个样本来自于训练数据(而非生成数据)的概率，如果样本来自于真实的训练数据，D输出大概率，否则，D 输出小概率。

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20 世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。现在，CNN 已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

卷积神经网络(CNN)含有的层级结构包括：数据输入层、卷积计算层、激励层、池化层、全连接层。CNN是按照顺序分层的方式，从底层输入到顶层输出，即输入计算机试图进行解释的原始内容，输出计算机的最终结论，底层与顶层的中间层是数学功能层。每一层都将识别的最重要的信息进行压缩，从而传导至下一层。经过第一层传输的数据会被缩减采样层减少数据的复杂度。前几层注重边缘、形状等情况，以此抽取出整体的视觉效果，找出不同的识别特征，将之提取出来以便找出能够将图案与周边环境区分出来的特征。

如图1所示，本发明的一种基于GAN扩充多人种特征协同选择的人脸年龄估计方法，包含以下步骤：

步骤一：通过网络爬虫从Internet网上下载所缺人脸图像集；基于此进行 GAN人脸多风格样本输出模型的训练，以此扩充完善现有人脸年龄数据库，缓解人种样本集不完善问题。

生成式对抗网络(GAN)是一种深度学习模型,主要由生成模型 (GenerativeModel)和判别模型(Discriminative Model)两个模块构成。其中生成模型的作用是尽可能地学习真实的数据分布，输入随机变量z，则G尽可能地生成服从真实数据分布的样本G(z)。判别模型的作用是判别其输入数据是来自生成模型G还是来自真实的数据x，如果输入来自G(z)，则标注为0并判别为伪，否则标注为1并判别为真。这里生成模型G的目标是使其生成的伪数据G(z)在判别模型D上的表现和真实数据x在D上的表现一致。G和D互相博弈学习并迭代优化的过程使得它们的性能不断提升，随着D的判别能力提升，并且无法判别其数据来源时，就认为G已学到真实的数据分布。

用数学语言描述即如下所示：

根据生成式对抗网络的特性，对通过网络爬虫从网上下载的所缺人脸图像集，进行快速扩充类似的且多风格的样本。

在完成基于GAN对人脸年龄数据库模拟生成多风格不同人种人脸年龄图片后，针对每一组人种数据集(棕色、黄色、黑色、白色)，设计一个CNN模型，即总共设计四个串联形式的Sub-CNN，并借助LFW、CACD等大型人脸库对Sub-CNN 模型进行预训练(pre-training)，然后对其基于扩充得到的人脸年龄数据库进行进一步的精训练(fine-tuning)。以下详细对这一步骤进行解释。

世界人种可分为棕色、黄色、黑色、白色，不同人种间的人面部特征由于气候条件、地理位置、传统风俗、遗传因子等因素的影响存在显著的差异性，而在相同人种间这种差异性在某种程度上相对较小。在传统CNN人脸年龄估计中，通过一个CNN模型对人脸年龄数据库进行特征提取，这种方式会由于不同人种间面部特征的显著差异性而导致最终模型训练结果存在噪声影响，从而影响训练模型准确率。而在本创新点中，针对不同人种年龄数据库，设计特定的 CNN对单一人种数据集进行模型训练，可以很好的解决传统方法存在的问题，构建的四人种神经网络架构如图2所示。

随后，针对每一个Sub-CNN，首先借助LFW、CACD、Morph等大型人脸库对其模型进行预训练(pre-training)，让Sub-CNN学习到基础人脸特征，构建起初始识别模型，然后在此基础之上，对步骤二中基于GAN扩充得到的人脸年龄数据库进一步精训练(fine-tuning)，使得Sub-CNN在初始模型的基础上学习到扩充人脸特征，从而构建起最终识别模型。该过程通过迁移学习，将较好的深度神经网络模型带入新数据集中，使得神经网络在已学习特征基础上加深学习，在一定程度上能够提高神经网络模型训练的便捷性与准确性。

通过以上过程，理论上在获得更多的人脸图像信息的条件下，神经网络能够获得更好的训练效果，同时识别率也会进一步上升。

步骤四：基于组稀疏(Group-lasso)的联合特征选择，应用于神经网络训练权值向量的过程中；

在基于McCulloch-Pitts神经元模型的传统卷积神经网络中，各个神经元之间依靠权值向量进行信息传递，训练神经网络的实质即是在训练神经网络层的权值向量。本创新点在传统神经网络训练权值向量的基础上，根据组稀疏算法对权值向量进行进一步的优化，同时将不同通道的神经网络的权值向量进行融合，是本专利所提出的模型的重点和核心所在，能够将步骤三所描述的四人种神经网络相互连接。同时基于Group Lasso的联合特征选择能够提高神经网络的特征选择能力以及识别准确率，以下是对该算法流程的具体介绍以及公式描述。

在统计学和机器学习中，Lasso(least absolute shrinkage and selectionoperator)算法，又译最小绝对值收敛和选择算子，是一种同时进行特征选择和正则化的回归分析方法，旨在增强统计模型的预测准确性和可解释性，最初由 Robert Tibshirani_[1]于1996年提出。Lasso算法最初用于计算最小二乘法模型，这个简单的算法揭示了很多估计量的重要性质，如估计量与岭回归(Ridge regression或Tikhonov regularization)和最佳子集选择的关系，Lasso系数估计值(estimate)和软阈值(soft thresholding)之间的联系。Lasso的主要思想是构造一个一阶惩罚函数获得一个精炼的模型,通过最终确定一些变量的系数为0进行特征筛选。其约束方程公式2及推导方程公式3如下所示。

s.t||w||₁<θ (2)

group-lasso算法在lasso算法的基础上，改进了特征选取的策略，增强了典型特征选取的效果，能更加广泛运用于联合特征选择的统计问题当中。Group Lasso的约束方程如下所示

该原始约束方程较为复杂，在将该约束方程具体运用到本模型的权值向量训练中后，能够将该约束方程进行简化。公式5是简化之后的group-lasso算法应用于本专利模型化简之后的公式。

公式5中的d表示神经网络的权值向量的维度，w_i表示w矩阵的第i行。公式中涉及到了向量的范数概念，以下简略地对该概念及计算方式进行描述。范数(norm)是数学中的一种基本概念。在泛函分析中，它定义在赋范线性空间中，并满足一定的条件，即1.非负性；2.齐次性；3.三角不等式。它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。常见范数有如下：

1-范数：||x||¹＝|x₁|+|x₂|+|x₃|+...+|x_n| (6)

2-范数：||x||²＝(|x₁|²+|x₂|²+|x₃|²+...+|x_n|²)^1/2 (7)

∞范数：||x||^∞＝max(|x₁|,|x₂|,.....,|x_n|) (8)

有限维空间上的范数具有良好的性质，主要体现在以下几个定理：

性质1：对于有限维赋范线性空间的任何一组基，范数是元素(在这组基下) 的坐标的连续函数。

性质2(Minkowski定理)：有限维线性空间的所有范数都等价。

性质3(Cauchy收敛原理)：实数域(或复数域)上的有限维线性空间(按任何范数)必定完备。

性质4：有限维赋范线性空间中的序列按坐标收敛的充要条件是它按任何范数都收敛。

公式5的作用是将步骤三中所划分的四个人种的神经网络的权值向量相连接，即将该四个神经网络进行融合。此时，四人种神经网络即是一个相互连接的完整的神经网络。之后根据group-lasso的算法，我们需要将公式5的计算结果嵌入到四人种神经网络的全连接层中的损失函数当中，即重新定义全连接层中的损失函数。新的损失函数公式如下：

new loss function＝old loss function+λ||W||_2,1 (9)

可以看到，新的损失函数相比之前的损失函数多了一个偏置项，该偏置项的作用即是实现Group Lasso算法的特征联合选择功能。其中，偏置项的参数λ由实验效果人为调整或者由先验信息决定。

本发明先通过生成式对抗网络(GAN)进行多风格人脸样本的模拟生成，来快速地大规模地扩充不同人种的人脸库，从而提高对黄色、棕色等人种年龄信息识别的精度。然后利用卷积神经网络(CNN)对原有数据集进行预训练，接着基于扩充得到的人脸年龄数据库进行进一步的精训练。最后将四个人种的 Sub-CNN进行基于组稀疏算法的联合特征选择融合，以此来解决基于人脸图像的年龄估计问题。从而得到更具泛化能力的人脸年龄估计模型，同时也能大大提高很多年龄人脸识别系统的性能，弥补了以往研究的不足之处。

本发明创新点主要由三大方面组成：第一，对一些大型数据集上所缺失的人种数据集，利用生成式对抗网络(GAN)将爬虫所得图片进行快速样本扩充，以此来完善现有人脸年龄数据库。第二，针对每一组人种数据集(棕色、黄色、黑色、白色)，设计一个CNN模型，即总共设计四个串联形式的Sub-CNN，从而建立四人种神经网络模型，并借助LFW、CACD等大型人脸库对Sub-CNN模型进行预训练(pre-training)，然后对其基于扩充得到的人脸年龄数据库进行进一步的精训练(fine-tuning)。第三，基于组稀疏的联合特征选择，该创新点是最核心的部分，该创新点能够将四人种神经网络在全连接层进行融合，同时组稀疏算法即Group Lasso算法能够提高神经网络的特征选择性能，从而提高神经网络的人脸年龄估计性能。

本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代，只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于包含以下步骤：

步骤一：通过网络爬虫从Internet网上下载所缺人脸图像集；

2.按照权利要求1所述的基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于：所述步骤二生成式对抗网络为

生成式对抗网络由生成模型Generative Model和判别模型Discriminative Model两个模块构成，生成模型G的目标是使其生成的伪数据G(z)在判别模型D上的表现和真实数据x在D上的表现一致，G和D互相博弈学习并迭代优化的过程使得它们的性能不断提升，随着D的判别能力提升，并且无法判别其数据来源时，则认为G已学到真实的数据分布，根据生成式对抗网络的特性，对通过网络爬虫从网上下载的所缺人脸图像集，进行快速扩充类似的且多风格的样本。

3.按照权利要求2所述的基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于：所述生成模型的作用是尽可能地学习真实的数据分布，输入随机变量z，则G尽可能地生成服从真实数据分布的样本G(z)；判别模型的作用是判别其输入数据是来自生成模型G还是来自真实的数据x，如果输入来自G(z)，则标注为0并判别为伪，否则标注为1并判别为真。

4.按照权利要求1所述的基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于：所述步骤三具体为世界人种可分为棕色、黄色、黑色、白色，不同人种间的人面部特征由于气候条件、地理位置、传统风俗、遗传因子等因素的影响存在显著的差异性，而在相同人种间这种差异性在某种程度上相对较小，在完成基于GAN对人脸年龄数据库模拟生成多风格不同人种人脸年龄图片后，针对每一组人种数据集，设计一个CNN模型，即总共设计四个串联形式的Sub-CNN，并借助LFW、CACD等大型人脸库对Sub-CNN模型进行预训练，然后对其基于扩充得到的人脸年龄数据库进行进一步的精训练。

5.按照权利要求4所述的基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于：所述借助LFW、CACD等大型人脸库对Sub-CNN模型进行预训练具体过程为针对每一个Sub-CNN，首先借助LFW、CACD、Morph大型人脸库对其模型进行预训练，让Sub-CNN学习到基础人脸特征，构建起初始识别模型，然后在此基础之上，对步骤二中基于GAN扩充得到的人脸年龄数据库进一步精训练，使得Sub-CNN在初始模型的基础上学习到扩充人脸特征，从而构建起最终识别模型。

6.按照权利要求1所述的基于GAN扩充多人种特征协同选择的人脸年龄估计方法，其特征在于：所述步骤四具体为

Group Lasso的约束方程如下所示

此时，四人种神经网络即是一个相互连接的完整的神经网络，之后根据group-lasso的算法，我们需要将计算结果嵌入到四人种神经网络的全连接层中的损失函数当中，重新定义全连接层中的损失函数，新的损失函数公式如下：

new loss function＝old loss function+λ||W||_2,1

新的损失函数相比之前的损失函数多了一个偏置项，该偏置项的作用即是实现GroupLasso算法的特征联合选择功能；其中，偏置项的参数λ由实验效果人为调整或者由先验信息决定。