CN107516312A

CN107516312A - 一种应用浅层神经网络的中医面色自动分类方法

Info

Publication number: CN107516312A
Application number: CN201710692254.8A
Authority: CN
Inventors: 张菁; 肖庆新; 张辉; 李晓光; 卓力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2017-12-26
Anticipated expiration: 2037-08-14
Also published as: CN107516312B

Abstract

一种应用浅层神经网络进行中医面色自动分类的方法属于计算机视觉领域。设计的浅层网络层数共有5层，采用三种不同的层结构，分别为输入层、特征提取层、输出层。输入层由一个卷积层和修正线性单元组成；特征提取层由3层网络组成，前两层的每层都由一个卷积层和ReLU激活函数组成，在卷积层和ReLU之间都有一个批归一化，并在特征提取层的第二个ReLU后面加入池化层，特征提取层的第三层是一个全连接层，后接一个修正线性单元ReLU；输出层由全连接层组成，后加一个softmax分类器。本发明在分类精度上有明显优势，对缩放、平移、旋转等畸变具有不变性，有很强的鲁棒性，能够有效的提高分类精度，将深度学习的理论应用于中医面诊客观化研究。

Description

一种应用浅层神经网络的中医面色自动分类方法

技术领域

本发明以人体面部图像为研究对象，在全面分析人体面部图像特征的基础上，利用人工智能领域的最新研究成果——深度学习技术，提出一种应用浅层神经网络进行中医面色自动分类的方法，该方法通过自动学习人体面部图像的深度特征进行面色分类，避免了手工特征选取所产生的不确定因素，以提高中医面色分类的准确性和鲁棒性。本发明属于计算机视觉领域和中医面诊领域，具体涉及深度学习、图像处理等技术。

背景技术

中医诊断的主要依据是“四诊”即“望、闻、问、切”的信息。中医面色诊是中医学中望诊的重要组成部分，中医学认为，面部犹如反映人体生理病理的一面镜子，望五官神色变化，可直接诊察脏腑病变。根据中医五脏配五色的理论，人脸面色有青、赤、黄、白、黑几种分类，青黑多主痛证，黄赤多主热证，白多主寒证。传统面色诊法主要是通过医生直观目测面色、语言描述和经验辨析面色，其诊断结果既受医生的知识水平、思维能力和诊断技能的限制，又受光线、温度等外部客观条件的影响，临床上缺乏恒定的客观评价标准。随着计算机技术的发展，研究者们开始将图像处理、模式识别和人工智能等信息处理技术应用于中医面色诊断客观化研究中，并取得了一定的研究成果。较为常见的面色特征自动分类方法有基于稀疏表示分类(SRC)的分类方法、基于K近邻的分类方法和基于支持向量机的分类方法等。在以上分类方法中，人脸面色分类的精确度依赖于手工特征的选取，提取的手工特征以颜色特征为主，并且手工特征提取过程需要投入巨大工作量。通常情况下，这些手工特征都是建立在特定的光照环境下，对光照比较敏感，以这些特征建立的面色分类模型泛化能力不够，不能适应复杂多变的图像采集环境。为此，需要引入新的特征提取技术和信息处理技术以提高人脸面色分类的鲁棒性以及分类精确度。

近年来，深度学习在图像分类、目标检测和语义分割等诸多领域取得了巨大成功，它将图像的低层特征组合而成更加抽象的特征，以此特征对数据进行更深入的刻画。在图像分类方面，为了减少传统方法手工提取特征的工作量，深度学习将特征提取和分类结合到一个框架中，通过数据驱动学习图像与其属性的映射关系，在端对端学习过程中，深度学习需要高质量的大数据作为支撑，其网络设计也是重要的一部分。然而，在中医面诊领域，一方面，高质量的医学数据样本严重稀缺；另一方面，在数据采集过程，受到外界因素的干扰，获得的正确标注的高质量面色数据集样本数量较小，难以满足深度学习依靠大数据驱动学习的需求。也就是说，现有的深层神经网络与小数据的组合方式训练困难，无法很好地应用于中医面色分类。最近，一些学者提出了浅层网络的思路，浅层结构的神经网络能够减少对训练样本数据量的依赖，其网络训练容易，显然，浅层网络与小样本的组合方式更加适用于中医面色自动分类。

为此，本发明在全面分析人体面部图像特征的基础上，利用深度学习技术，提出一种应用浅层神经网络进行中医面色自动分类的方法。本发明利用人体面部图像的深度特征进行面色分类，避免了手工特征选取的影响，是将深度学习的理论应用于中医面诊客观化研究的一次重要尝试，对推动中医面诊客观化研究的发展具有重要意义。

发明内容

本发明的目的是提供一种具有分类准确度高、鲁棒性强的人脸面色自动分类方法。针对现有技术的不足，专门设计了一种浅层神经网络，并提出一种基于浅层神经网络的中医面色自动分类方法，方案整体流程图如图1所示。该方法包含离线模型训练阶段和在线面色分类阶段，具体包括以下步骤：

(1)构建人脸面色图像训练数据集。

本发明所需要的面色图像是在光源稳定的环境下拍摄得到，要求被拍摄者头发隆起、耳朵露出、姿态端正，能够很好的得到以人脸面部为主的图像。采集到的人脸面部图像由中医医师进行面色标定。

根据中医理论，人体面部区域在中医领域中被划分为五个部分，每个部分分别对应不同的内脏，如图2所示。根据中医五脏配五色的理论，内脏的病变可以改变人脸对应区域的颜色变化。因此，从人体面部分割得到的皮肤块，可以较好的反应人体的身体状况。本发明从人体面部图像中分割得到相应区域的皮肤块，并通过滑动窗的方法将分割后的皮肤块分割成若干皮肤子块，将中医医师对人脸面色的标定结果，作为分割得到的各皮肤子块的类别，用于构成人体面色图像训练数据集。

(2)针对面色分类的浅层神经网络设计与训练

现有的深层神经网络结构往往以极高的计算复杂度和存储空间为代价，以大规模数据集为基础，以获得性能上的大幅提升，而在小样本训练数据集上则会产生过拟合和局部收敛问题。由于获取具有正确标注信息的人脸面色图像样本较为困难，样本数量不足不能满足深层神经网络依靠大数据驱动学习的要求。因此，现有的深层神经网络不能直接用于人脸面色的自动分类方面，还需要对神经网络结构进行设计和优化，根据特定的应用和任务需求，适当减少神经网络中的卷积核数量以及卷积层、池化层和全连接层的数量，从而减少训练参数，以满足人脸面色自动分类的需求。因此，本发明设计了一种浅层神经网络对人体面色进行自动分类。本发明设计的浅层网络层数共有5层，采用三种不同的层结构，如图3所示，分别为输入层、特征提取层、输出层。输入层由一个卷积层和修正线性单元(Rectified Linear Unit,ReLU)组成；特征提取层由3层网络组成，前两层的每层都由一个卷积层和ReLU激活函数组成，在卷积层和ReLU之间都有一个批归一化，并在特征提取层的第二个ReLU后面加入池化层，特征提取层的第三层是一个全连接层，后接一个修正线性单元ReLU；输出层由全连接层组成，后加一个softmax分类器。利用构建的人体面色图像训练数据集进行网络训练，得到人脸面色分类模型。

(3)基于统计决策的人脸面色分类。

利用训练得到的分类模型对人体面部图像进行面色分类。首先将待分类的面部图像进行区域分割，提取相关区域的皮肤块；其次将皮肤块利用滑动窗的方法分割成若干子块；然后利用分类模型对各皮肤子块进行类别判别判定；最后利用统计决策的方法对皮肤子块进行统计，将统计的决策最大值作为皮肤块的最终类别，实现对人体面部图像的面色分类。

与现有技术相比，本发明具有以下明显的优势和有益效果：

首先，与传统的人脸面色分类方法相比，本发明提出的面色分类方法采用深度学习技术从数据中自动学习到有效的特征和表达，将特征和分类器结合到一个框架中，避免了手工特征选取过程，实现端到端的面色分类，在分类精度上具有明显优势，可以满足实际的应用需求。其次，本发明训练的分类模型对缩放、平移、旋转等畸变具有不变性，具有很强的鲁棒性，能够有效的提高分类精度。最后，模拟中医对面色进行分类判别，克服了中医目测观察人脸面色的主观性强、无统一标准的缺点，是将深度学习的理论应用于中医面诊客观化研究的一次重要尝试。

附图说明

图1基于浅层神经网络的人脸面色自动分类方法流程图；

图2中医人脸面部区域划分示意图；

图3用于面色分类的浅层神经网络模型架构图。

具体实施方式

根据以上描述，以下是一个具体的实验流程，但本专利所保护的范围并不限于该实施流程，流程框图如附图1所示。具体实施过程如下：。

步骤1：构建人体面色图像训练数据集。

图像采集是人脸面色分类工作的基础，采集图像质量的好坏会直接影响面色分类精度的提高。一般情况下，暗室或暗箱是最理想的拍摄环境，它能够避免外界杂光的干扰，保持光源环境的相对稳定性。

步骤1.1：进行人脸面色图像采集。

数据采集环境如下所示：

(1)使用封闭的采集环境，避免杂散光进入拍摄环境和强烈光线射入镜头；

(2)选用国际照明委员会(CIE)推荐使用的代表日光的标准光源D65，用于模拟自然光；

(3)D65光源稳定时间为10分钟左右，待光源稳定后，进行图像采集；

(4)显色指数为>90％，色温为6500K；

(5)光源和相机两者位置相对固定；

(6)图像采集设备的彩色深度为24bit,白平衡设置为日光类型。

数据采集过程在以上采集环境下进行，面向不同的人群，但由于地域等客观因素的限制，被采集人群主要为黄种人。在本发明中，采集到的样本由专业的中医医师标定，标注类型为白、红、黄、青、黑、常色6种类型。

步骤1.2：面色皮肤块的分割。

由于本发明采集的样本库中，很多样本受刘海、胡须、鼻头汗液等的干扰，会使如图2中分割产生的一部分额头区域、鼻头区域和下巴区域的皮肤块不能用于实验。由于两颊区域受到的干扰较少，而且两颊的血管丰富，血流量大，血管容积比较大，所以本发明将人脸两颊区域作为研究对象，用于人脸面色分类。

由于目前已有的分割方法，都不能实现人脸区域的100％分割，因此对采集的样本库，用手动分割的方法提取两颊区域的皮肤块。首先，选择一幅图像，在左、右两颊区域上分别选取一个坐标点，坐标点的选取应尽量靠近两颊区域的中心点位置。然后以坐标点为中心，利用软件程序自动圈出N×N大小的皮肤块，并保存到相应目录下。在本发明中，手动提取的两颊区域皮肤块大小为96×96。

步骤1.3：将皮肤块分割成若干子块。

为了提高模型训练的泛化能力和鲁棒性，本发明利用滑动窗的方法将皮肤块分割成若干子块。因分割前的皮肤块长和宽相等，所以分割后的皮肤子块的长和宽也应相等。滑动窗分割公式如下：

式中，M₁为分割前的皮肤块的尺寸大小，M₂为分割后的皮肤子块的尺寸大小，stride1为滑动窗的滑动步长，Num为一个皮肤块被分割后的皮肤子块的数目。

在本发明中，一个尺寸为96×96大小的皮肤块，利用32×32大小的滑动窗，滑动步长设置为32，最终分为9个皮肤子块，分割后的每个皮肤子块大小保持不变，为32×32。将中医医师对人脸面象的标定结果，作为分割后的皮肤子块的类别，并构成训练数据集。

步骤2：针对面色分类的浅层神经网络设计与训练。

步骤2.1：浅层神经网络结构设计。

本发明设计了一种浅层神经网络对人体面色进行自动分类，网络架构如图3所示。网络层数共有5层，采用三种不同的层结构，分别为输入层、特征提取层、输出层。输入层由一个卷积层和一个ReLU组成；特征提取层由3层网络组成，前两层的每层都由一个卷积层和ReLU激活函数组成，在卷积层和ReLU之间都有一个批归一化(BN)，并在特征提取层的第二个ReLU后面加入池化层，特征提取层的第三层是一个全连接层，后接一个修正线性单元ReLU；网络的输出层由全连接层组成，后加一个softmax分类器。网络相关描述如下：

(1)卷积层。卷积层是神经网络中非常重要的一层，通过卷积运算可以使原信号特征增强并且使噪声降低。卷积层具有参数共享的特性，可以减少参数，从而减少计算量。卷积层与输入层由特征图进行连接，特征图是由卷积核与输入层相乘然后将得到的值加上偏置值输入到激活函数中得到的。卷积层通过公式(2)计算，得到输出特征映射图：

其中，表示第k层的第n个特征图，表示第k-1层的第m个特征图，代表第k层特征提取时采用的卷积核，为第k层的偏置值，表示连接到第k层的特征图集合，f_k(·)表示第k层网络的激活函数。

在进行卷积操作时，若输入的特征图宽和高分别为w和h,则卷积层的输出特征图的宽w₁和高h₁可由公式(3)和(4)计算：

公式中，kernel_size为卷积核的大小，stride为卷积核的步长，pad为边缘补零像素个数。

(2)批标准化(Batch Normalization，BN)。BN的主要作用在于防止梯度消失并加快学习速度，用于激活函数前。BN层的作用过程可以归纳为：

训练时：a)向前传播阶段。BN层对卷积后的特征值(权值)进行标准化，但是输出不变，即BN层只保存输入权值的均值与方差，权值输出回到卷积层时仍然是当初卷积后的权值。b)向后传播阶段。根据BN层中的均值与方差，结合每个卷积层与ReLU层进行链式求导，求得梯度从而计算出当前的学习速率。

测试时：每个BN层对训练集中的所有数据，求取总体的均值与方差，假设有一测试图像进入BN层，需要统计输入权值的均值与方差，然后根据训练集中整体的无偏估计计算BN层的输出。

(3)激活函数ReLU(Rectified Linear Units)。ReLU数学表达式如公式(5)所示，式中X代表输入量。与sigmoid和tanh函数相比，ReLU得到的随机梯度下降的收敛速度快很多，并且ReLU只需要一个阈值就可以得到激活值，而无需大量复杂运算。

f(X)＝max(0，X) (5)

(4)softmax回归模型。softmax回归模型是logistic回归模型在多分类问题上的扩展(logistic回归解决的是二分类问题)。相比训练多个logistic回归来做多分类，softmax回归更适合类别间是互斥的情况。设m个训练集样本为{(x⁽¹⁾，y⁽¹⁾)，···，(x^(m)，y^(m))}，向量x⁽ⁱ⁾的维度为n+1，类标y可以取k个不同的值,则回归模型的代价函数如公式(6)所示：

公式(6)中，1{·}表示为示性函数，取值规则如下：1{值为真的表达式}＝1，1{值为假的表达式}＝0，θ表示网络模型的整体参数，θ_j表示θ的第j个分量，为参数θ_j的转置，k为需分类的类标数目。在本发明中，因对6类面色进行分类，所以k取值为6。

(5)网络的输入层含有一个卷积层和ReLU激活函数。输入层的特征提取公式可由公式(2)(5)推出，表示如下：

式中，X₁为进入输入层的特征图，W₁和B₁分别表示输入层的卷积滤波器和偏置，代表卷积操作，f₁(X₁)是输入层经ReLU后得到的特征图。在本发明中，输入图像为3×32×32的特征图，表示特征图为3通道的彩色图，W₁的卷积核尺寸设置为3×2×2×64，它表示64种不同的卷积滤波器，每个卷积核尺寸为3×2×2，卷积步长为2，边缘补零像素个数为0。则经过输入层的卷积操作后，特征图尺寸变为64×16×16。

(6)在特征提取层中，特征提取层由3层网络组成，前两层的每层都由一个卷积层和ReLU激活函数组成，在卷积层和ReLU之间都有一个批归一化(BN)，在特征提取层的第二个ReLU后面加入池化层。批归一化的作用主要是将输入数据白化，加快网络收敛速度，降低数据冗余性和特征相关性，加入池化层的目的是引入位移不变性保留主要特征同时减少参数和计算量。特征提取层的第三层是一个全连接层，后接一个修正线性单元ReLU，全连接层起到将学到的“分布式特征表示”映射到样本标记空间的作用。

在特征提取层中，卷积层、批归一化和ReLU函数位于整个网络模型架构的第二层和第三层，各阶段的公式表示如下：

式中，i表示第i层，取值范围为2、3，X_i为第i-1层的输出。W_i和B_i分别表示第二层和第三层的卷积滤波器和偏置，代表卷积操作。

在本发明中，W₂的尺寸为64×3×3×128，每个卷积核的尺寸为64×3×3，卷积步长为1，边缘补零像素个数为1；W₃的尺寸为128×3×3×64，每个卷积核的尺寸为128×3×3，卷积步长为1，边缘补零像素个数为1；池化层采用max-pooling的方式,池化操作的步长大小为2×2；全连接层的节点数设置为512。

(7)在网络的输出层加入全连接层和softmax，加入全连接层的目的是保证softmax的输入和输出的维度一致，softmax作为分类器对面色类别进行判定，将判定类别概率最大的结果作为面色的判别结果。在本发明中，全连接层的节点数设为6，实现6种面色的分类。

步骤2.2：浅层神经网络模型训练。

在模型训练过程中，输入图像大小为3×32×32的特征图，在第一个卷积层中，经过64个大小为2×2的卷积核之后会产生64×16×16的特征图；在第二个卷积层中，输入大小为64×16×16的特征图，经过128个大小为3×3的卷积核之后会产生大小为128×16×16的特征图；在第三个卷积层中，输入大小为128×16×16的特征图，经过128个大小为3×3的卷积核之后会产生大小为128×16×16的特征图，经过最大池化后，特征图大小为128×8×8；在网络的第四层中，输入大小为128×8×8的特征图，经全连接层连接和ReLU变换后传递到输出层。

在网络训练时，本发明采用带mini-batch的随机梯度下降算法(StochasticGradient Descent，SGD)进行训练，算法流程如下所示：

(1)选择s个训练样本(s<m，m为总训练集样本数)；

(2)在这s个样本中进行s次梯度计算，每次使用1个样本；

(3)对s次梯度计算得出的s个梯度值进行加权平均再求和，作为这一次mini-batch的下降梯度；

(4)不断在训练集中重复以上步骤，直到收敛。

带mini-batch的SGD每次选取一定量的训练样本进行迭代，一个批中的一组数据共同决定了本次梯度的方向，批量大小通常取[2，100]，这样既节省了计算整个批量的时间，同时用mini-batch计算的梯度方向也会更加准确。学习速率是SGD算法学习方法的必要参数，决定了权值更新的速度，设置太大容易出现超调现象，即在极值点两端不断发散，或是剧烈震荡；太小会导致无法快速地找到好的下降的方向，会使收敛速度过慢。一般倾向于选取较小的学习速率，如0.001±0.01以保持系统稳定。动量参数和权值衰减因子可提高训练自适应性，动量参数通常为[0.9，1.0]，权值衰减因子通常为0.0005±0.0002。在网络训练中，一个epoch操作代表将所有训练样本遍历一次，在一个epoch中，迭代次数等于训练样本总数除以mini-batch的大小，网络训练通过进行多次epoch操作以达到收敛，通常epoch的取值在50次以上。通过实验观察，本发明将mini-batch大小设为32，学习速率设为10^-6，动量参数设为0.99，权值衰减因子取值为0.0005，epoch取值为200，学习进程通过NVIDIA GTX1080GPU加速。

经过以上网络设计和参数设定，利用步骤1获得的训练数据集对网络进行训练，训练数据集的输入方式采用打乱次序的方式，最终得到用于面色自动分类的分类模型。

步骤3：基于统计决策的人脸面色分类。

利用步骤2训练得到的分类模型对待分类的人体面部图像进行面色分类，具体步骤如下所示：

步骤3.1：将待分类面部图像进行面色皮肤块分割。

采用手动分割的方法提取面部图像两颊区域的皮肤块。首先，在左、右两颊区域上分别选取一个坐标点，坐标点的选取尽量靠近两颊区域的中心点位置。然后以坐标点为中心，利用软件程序自动圈出N×N大小的皮肤块，并保存到相应目录下。在本发明中，为了和训练样本数据尺寸一致，手动提取的两颊区域皮肤块大小为96×96。

步骤3.2：将皮肤块分割成若干子块。

利用滑动窗的方法将步骤3.1获得的皮肤块分割成若干子块，滑动窗分割方法同步骤1.3。在本发明中，一个尺寸为96×96大小的皮肤块，利用32×32大小的滑动窗，滑动步长设置为8，最终分为81个皮肤子块，则一张面部图像可得到162个皮肤子块。

步骤3.3：利用训练好的分类模型对皮肤子块进行分类。

将步骤3.2得到的皮肤子块依次输入到训练好的分类模型中，对各皮肤子块进行类型判别，并统计每类颜色的皮肤子块数量。

步骤3.4：利用统计决策的方法对整幅图像进行类别判别。

由于采集到的标记为白、红、黄、青、黑、常色6种颜色的数据集中，面色偏白、偏红、偏黄、常色的样本较多，且这四种颜色之间也存在数量上的差异。因此针对数据集中存在样本不均衡的情况，本发明利用统计决策的方法对分类后的皮肤子块做进一步的统计分析。

本发明采用如下的决策公式如(8)所示：

P_i＝ω_i×n_i (8)

其中，P_i为第i类颜色的决策值，n_i为分类结果中第i类颜色皮肤子块出现的次数，ω_i为第i类颜色的权重，其定义如下：

其中，N_Z为训练样本总数，N_i为第i类颜色在样本库中的样本总数。在得到各类颜色的决策值后，将决策值最大的颜色类别作为面色的最终分类类别，实现对人脸面部图像的面色分类。

本发明从数据库中选取800张标注的人脸图像，600张用于训练分类模型，200用于测试，面色的分类准确率为91.42％左右，与传统方法相比，本发明提出的方法具有更高的分类精度和鲁棒性。

Claims

1.一种应用浅层神经网络进行中医面色自动分类的方法，该方法包含离线模型训练阶段和在线面色分类阶段，其特征在于，具体包括以下步骤：

(1)构建人脸面色图像训练数据集；

人体面部区域在中医领域中被划分为五个部分，每个部分分别对应不同的内脏，从人体面部图像中分割得到相应区域的皮肤块，并通过滑动窗的方法将分割后的皮肤块分割成若干皮肤子块，将中医医师对人脸面色的标定结果，作为分割得到的各皮肤子块的类别，用于构成人体面色图像训练数据集；

(2)针对面色分类的浅层神经网络设计与训练

设计的浅层网络层数共有5层，采用三种不同的层结构，分别为输入层、特征提取层、输出层；输入层由一个卷积层和修正线性单元ReLU组成；特征提取层由3层网络组成，前两层的每层都由一个卷积层和ReLU激活函数组成，在卷积层和ReLU之间都有一个批归一化，并在特征提取层的第二个ReLU后面加入池化层，特征提取层的第三层是一个全连接层，后接一个修正线性单元ReLU；输出层由全连接层组成，后加一个softmax分类器；

利用构建的人体面色图像训练数据集进行网络训练，得到人脸面色分类模型；

(3)基于统计决策的人脸面色分类；

利用训练得到的分类模型对人体面部图像进行面色分类；首先将待分类的面部图像进行区域分割，提取相关区域的皮肤块；其次将皮肤块利用滑动窗的方法分割成若干子块；然后利用分类模型对各皮肤子块进行类别判别判定；最后利用统计决策的方法对皮肤子块进行统计，将统计的决策最大值作为皮肤块的最终类别，实现对人体面部图像的面色分类。

2.根据权利要求1所述的方法，其特征在于，步骤1具体如下：

步骤1.1：进行人脸面色图像采集；

采集到的样本标注类型为白、红、黄、青、黑、常色6种类型；

步骤1.2：面色皮肤块的分割；

将人脸两颊区域作为研究对象，用于人脸面色分类；

首先，选择一幅图像，在左、右两颊区域上分别选取一个坐标点，坐标点的选取为两颊区域的中心点位置；然后以坐标点为中心，圈出N×N大小的皮肤块，并保存到相应目录下；手动提取的两颊区域皮肤块大小为96×96；

步骤1.3：将皮肤块分割成若干子块；

滑动窗分割公式如下：

式中，M₁为分割前的皮肤块的尺寸大小，M₂为分割后的皮肤子块的尺寸大小，stride1为滑动窗的滑动步长，Num为一个皮肤块被分割后的皮肤子块的数目；

一个尺寸为96×96大小的皮肤块，利用32×32大小的滑动窗，滑动步长设置为32，最终分为9个皮肤子块，分割后的每个皮肤子块大小保持不变，为32×32；将中医医师对人脸面象的标定结果，作为分割后的皮肤子块的类别，并构成训练数据集。

3.根据权利要求1所述的方法，其特征在于，步骤2具体如下：

步骤2.1：浅层神经网络结构设计；

网络相关描述如下：

(1)卷积层；卷积层与输入层由特征图进行连接，特征图是由卷积核与输入层相乘然后将得到的值加上偏置值输入到激活函数中得到的；卷积层通过公式(2)计算，得到输出特征映射图：

<mrow> <msubsup> <mi>y</mi> <mi>n</mi> <mi>k</mi> </msubsup> <mo>=</mo> <msub> <mi>f</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <munder> <mi>&Sigma;</mi> <mrow> <mi>m</mi> <mo>&Element;</mo> <msubsup> <mi>V</mi> <mi>n</mi> <mi>k</mi> </msubsup> </mrow> </munder> <msubsup> <mi>y</mi> <mi>n</mi> <mrow> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>&CircleTimes;</mo> <msubsup> <mi>&omega;</mi> <mrow> <mi>m</mi> <mo>,</mo> <mi>n</mi> </mrow> <mi>k</mi> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>n</mi> <mi>k</mi> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

其中，表示第k层的第n个特征图，表示第k-1层的第m个特征图，代表第k层特征提取时采用的卷积核，为第k层的偏置值，表示连接到第k层的特征图集合，f_k(·)表示第k层网络的激活函数；

在进行卷积操作时，若输入的特征图宽和高分别为w和h,则卷积层的输出特征图的宽w₁和高h₁由公式(3)和(4)计算：

公式中，kernel_size为卷积核的大小，stride为卷积核的步长，pad为边缘补零像素个数；

(2)批标准化：

训练时：a)向前传播阶段；BN层对卷积后的特征值即权值进行标准化，但是输出不变，即BN层只保存输入权值的均值与方差，权值输出回到卷积层时仍然是当初卷积后的权值；b)向后传播阶段；根据BN层中的均值与方差，结合每个卷积层与ReLU层进行链式求导，求得梯度从而计算出当前的学习速率；

测试时：每个BN层对训练集中的所有数据，求取总体的均值与方差，假设有一测试图像进入BN层，需要统计输入权值的均值与方差，然后根据训练集中整体的无偏估计计算BN层的输出；

(3)激活函数ReLU数学表达式如公式(5)所示，式中X代表输入量；

f(X)＝max(0，X) (5)

(4)softmax回归模型；设m个训练集样本为{(x⁽¹⁾，y⁽¹⁾)，···，(x^(m)，y^(m))}，向量x⁽ⁱ⁾的维度为n+1，类标y取k个不同的值,则回归模型的代价函数如公式(6)所示：

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mn>1</mn> <mo>{</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>=</mo> <mi>j</mi> <mo>}</mo> <mo>&times;</mo> <mi>lg</mi> <mfrac> <msup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&theta;</mi> <mi>j</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </msup> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msup> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>&theta;</mi> <mi>l</mi> <mi>T</mi> </msubsup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

公式(6)中，1{·}表示为示性函数，取值规则如下：1{值为真的表达式}＝1，1{值为假的表达式}＝0，θ表示网络模型的整体参数，θ_j表示θ的第j个分量，为参数θ_j的转置，k为需分类的类标数目；k取值为6；

(5)网络的输入层含有一个卷积层和ReLU激活函数；输入层的特征提取公式由公式(2)(5)推出，表示如下：

<mrow> <msub> <mi>f</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>&CircleTimes;</mo> <msub> <mi>X</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>B</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

式中，X₁为进入输入层的特征图，W₁和B₁分别表示输入层的卷积滤波器和偏置，代表卷积操作，f₁(X₁)是输入层经ReLU后得到的特征图；输入图像为3×32×32的特征图，表示特征图为3通道的彩色图，W₁的卷积核尺寸设置为3×2×2×64，它表示64种不同的卷积滤波器，每个卷积核尺寸为3×2×2，卷积步长为2，边缘补零像素个数为0；则经过输入层的卷积操作后，特征图尺寸变为64×16×16；

(6)在特征提取层中，卷积层、批归一化和ReLU函数位于整个网络模型架构的第二层和第三层，各阶段的公式表示如下：

<mrow> <msub> <mi>f</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>&CircleTimes;</mo> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>(</mo> <msub> <mi>X</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>+</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

式中，i表示第i层，取值范围为2、3，X_i为第i-1层的输出；W_i和B_i分别表示第二层和第三层的卷积滤波器和偏置，代表卷积操作；

W₂的尺寸为64×3×3×128，每个卷积核的尺寸为64×3×3，卷积步长为1，边缘补零像素个数为1；W₃的尺寸为128×3×3×64，每个卷积核的尺寸为128×3×3，卷积步长为1，边缘补零像素个数为1；池化层采用max-pooling的方式,池化操作的步长大小为2×2；全连接层的节点数设置为512；

(7)在网络的输出层加入全连接层和softmax，加入全连接层的目的是保证softmax的输入和输出的维度一致，softmax作为分类器对面色类别进行判定，将判定类别概率最大的结果作为面色的判别结果；全连接层的节点数设为6，实现6种面色的分类；

步骤2.2：浅层神经网络模型训练；

在模型训练过程中，输入图像大小为3×32×32的特征图，在第一个卷积层中，经过64个大小为2×2的卷积核之后会产生64×16×16的特征图；在第二个卷积层中，输入大小为64×16×16的特征图，经过128个大小为3×3的卷积核之后会产生大小为128×16×16的特征图；在第三个卷积层中，输入大小为128×16×16的特征图，经过128个大小为3×3的卷积核之后会产生大小为128×16×16的特征图，经过最大池化后，特征图大小为128×8×8；在网络的第四层中，输入大小为128×8×8的特征图，经全连接层连接和ReLU变换后传递到输出层；

在网络训练时，采用带mini-batch的随机梯度下降算法进行训练。

4.根据权利要求1所述的方法，其特征在于，步骤3具体如下：

步骤3.1：将待分类面部图像进行面色皮肤块分割；

手动提取的两颊区域皮肤块大小为96×96；

步骤3.2：将皮肤块分割成若干子块；

一个尺寸为96×96大小的皮肤块，利用32×32大小的滑动窗，滑动步长设置为8，最终分为81个皮肤子块，则一张面部图像得到162个皮肤子块；

步骤3.3：利用训练好的分类模型对皮肤子块进行分类；

将步骤3.2得到的皮肤子块依次输入到训练好的分类模型中，对各皮肤子块进行类型判别，并统计每类颜色的皮肤子块数量；

步骤3.4：利用统计决策的方法对整幅图像进行类别判别；

利用统计决策的方法对分类后的皮肤子块做进一步的统计分析；

决策公式如(8)所示：

P_i＝ω_i×n_i (8)

<mrow> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>l</mi> <mi>n</mi> <mfrac> <msub> <mi>N</mi> <mi>Z</mi> </msub> <msub> <mi>N</mi> <mi>i</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中，N_Z为训练样本总数，N_i为第i类颜色在样本库中的样本总数；在得到各类颜色的决策值后，将决策值最大的颜色类别作为面色的最终分类类别，实现对人脸面部图像的面色分类。