CN105975931A

CN105975931A - 一种基于多尺度池化的卷积神经网络人脸识别方法

Info

Publication number: CN105975931A
Application number: CN201610288560.0A
Authority: CN
Inventors: 刘云海; 吴斯
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-05-04
Filing date: 2016-05-04
Publication date: 2016-09-28
Anticipated expiration: 2036-05-04
Also published as: CN105975931B

Abstract

本发明公开了一种基于多尺度池化的卷积神经网络人脸识别方法。该方法利用多尺度池化的卷积神经网络来提取人脸图像的特征以实现人脸识别。在构建卷积神经网络的过程中，采用卷积和最大值采样交替的方法对特征进行深度提取，另外对每层卷积层采用了多尺度池化的策略和步骤，一并输入到全连接层，使其具有多尺度的、固定大小的特征列向量。本发明不需要对输入的人脸图像做截取或调整尺寸，不同尺寸的图像都能使用同一个网络进行训练和识别。基于多尺度池化的卷积神经网络不但解决了输入图像尺寸可以不固定的问题，使得网络能够提取多尺度的人脸特征，而且对网络性能带来极大的提升，将会促进多尺度池化的卷积神经网络在人脸识别中的广泛应用。

Description

一种基于多尺度池化的卷积神经网络人脸识别方法

技术领域

本发明属于深度学习、人脸识别领域，涉及一种基于多尺度池化的卷积神经网络人脸识别方法。

背景技术

人脸识别是一门融合生物学、心理学和认知科学等多学科的生物识别技术，运用多类技术如模式识别、图像处理和计算机视觉等，在金融、安防监控、身份识别、社交娱乐与沟通等领域具有得到广泛的市场应用前景。目前，国内外对人脸识别的技术研究主要围绕特征提取和分类算法这两个方向展开。基于深度卷积神经网络的人脸识别技术已经非常成熟，但传统的卷积神经网络的输入人脸图像的尺寸都是固定的(例如：256*256)，这是因为利用BP反向传播算法更新权重和偏置时需要全连接层有固定输入维度，但对卷积层和池化层的输入的尺寸可以是任意。因此面对输入人脸图像尺寸不同时，往往需要对输入图像做截取和固定尺寸的操作，这种人工改变输入人脸图像的尺寸破坏原图像的尺度和长宽比例，会导致部分重要信息的丢失。

发明内容

本发明目的在于针对现有人脸识别技术的不足，提供一种基于多尺度池化的卷积神经网络人脸识别方法。整个网络分为3大部分，输入层，特征提取层和输出层，其中特征提取层细分为交替连接的3个卷积层与3个池化层和一个全连接层。最后一个池化层采用了多尺度池化的策略和步骤，使得输入到全连接层的是固定大小的特征列向量，最终使得网络可以利用BP反向传播算法进行有监督的训练。本发明不需要提前对输入的人脸图像做截取或固定大小，采用卷积和最大值池化交替的方法对特征进行深度提取，直到最后一层池化采用多尺度的方法使得全连接层前的输入具有固定的大小，全连接层后输入softmax分类器输出类别标签信息以实现人脸识别。多尺度池化结构使得不同尺寸、大小和长宽比的输入图像都能使用同一个网络进行训练和识别分类。通过自动调整池化的采样尺寸和步长获得固定输出大小的特征矩阵。对比传统的滑动池化采样窗口采用单一的采样尺寸，多尺度的池化能够获得多尺度的人脸特征，使得网络对目标形变具有较好的鲁棒性，不但解决了输入图像尺寸不固定的问题还带来网络性能的极大提升。

本发明的目的是通过以下技术方案来实现的：一种基于多尺度池化的卷积神经网络人脸识别方法，包括以下步骤：

(1)采集t个人的标准人脸灰度图，其中每个人采集d张，得到d×t张标准人脸灰度图作为训练图像；每张训练图像对应一个t×1维的二值人脸类别标记向量y_lable＝[y₁ y₂ y₃ … y_t]^T，其中第n个人脸图像的类别标签向量y_lable中元素y_i应满足以下条件：

\{\begin{matrix} y_{i} = 1 & i = n \\ y_{i} = 0 & i &NotEqual; n \end{matrix}

(2)卷积神经网络参数初始化：所述卷积神经网络包含输入层I1、卷积层C2、池化层S3、卷积层C4、池化层S5、卷积层C6、多尺度池化层S7、多尺度池化层S8、多尺度池化层S9、全连接层L10、输出层O11；按照0为均值，0.01为标准方差的高斯分布来随机初始化卷积层C2的k个a×a像素的小块作为卷积核模板，定义为权重i＝1,j＝1,2,...,k；此外对应位置的偏置j＝1,2,...,k初始化为0；类似的，随机初始化卷积层C4的p个b×b大小的卷积核模板，定义为权重i＝1,2,...,k,j＝1,2,...,p和对应位置的偏置j＝1,2,...,p；随机初始化卷积层C6的q个c×c大小的卷积核模板，定义为权重i＝1,2,...,p,j＝1,2,...,q和对应位置的偏置j＝1,2,...,q。所有的权重K_ij和偏置b_j都是可训练的网络参数；

(3)输入层I1：对输入大小为w×h的图像X(w,h不固定)的所有像素x_i进行减均值和归一化的预处理，将预处理后的图像X_in作为输入层。

(4)卷积层C2：由k个不同的特征图谱j＝1,2,...,k组成，每个特征图谱由输入图像X_in分别与k个卷积核模板K_ij进行卷积运算，卷积结果加上偏置b_j，再经过一个激活函数ReLU(·)得到；每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 2} = Re L U (X_{i n} &CircleTimes; K_{i j}^{C 2} + b_{j}^{C 2}) \\ = \max (0, X_{i n} &CircleTimes; K_{i j}^{C 2} + b_{j}^{C 2}), i = 1, j = 1, 2, ..., k \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；的大小均为(h-a+1)×(w-a+1)；

(5)池化层S3：采用最大值采样对卷积层C2得到的结果进行统计计算。采样尺寸为m，采样方法为取采样区域的最大值，采样区域不重叠；池化层S3的每个特征图谱i＝1,2,...,k由卷积层C2的每个特征图谱j＝1,2,...,k下采样得到。采样后的水平和垂直空间分辨率变为原来的1/m，大小为(h-a+1/m)×(w-b+1/m)；

(6)卷积层C4：特征图谱i＝1,2,...,k通过卷积操作，由k个扩展至p个；特征图谱之间采用完全连接的机制，即卷积层C4的每个特征图谱j＝1,2,...,p都与前一层的k个特征图谱连接，相连接的区域进行卷积操作，卷积结果加和并且加入偏置，再经过激活函数ReLU(·)得到；每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 4} = Re L U (Σ X_{i}^{S 3} &CircleTimes; K_{i j}^{C 4} + b_{j}^{C 4}) \\ = \max (0, Σ X_{i}^{S 3} &CircleTimes; K_{i j}^{C 4} + b_{j}^{C 4}), i = 1, 2..., k, j = 1, 2, ..., p \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；

(7)池化层S5：采用最大值采样，采样尺寸为n，采样方法为取采样区域的最大值，采样区域不重叠，采样后得到的p个特征图谱的水平和垂直空间分辨率变为原来的1/n；

(8)卷积层C6：特征图谱通过卷积操作，由p个扩展至q个；特征图谱之间采用完全连接的机制，每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 6} = Re L U (Σ X_{i}^{S 5} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 6}) \\ = \max (0, Σ X_{i}^{S 5} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 6}), i = 1, 2..., p, j = 1, 2, ..., q \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；

(9)多尺度池化层S7：对卷积层C6的q个特征图谱进行三种不同尺度size和步长stride的采样，使得输出空间块大小固定为1×1×q，2×2×q，3×3×q，具体计算公式如下：

其中，分别表示向上取整和向下取整，r×s为输入图像经过卷积层C6后得到的每个特征图谱的大小；

按照列的顺序展开得到1×q，4×q，9×q的特征矩阵，最后依次级联，成为固定尺寸的(14×q)×1特征列向量。

(10)多尺度池化层S8：类似步骤(9)对卷积层C2的k个特征图谱进行三种不同尺度和步长的采样，使得成为固定尺寸的(14×k)×1特征列向量。

(11)多尺度池化层S9：类似步骤(9)对卷积层C4的p个特征图谱进行三种不同尺度和步长的采样，使得成为固定尺寸的(14×p)×1特征列向量。

(12)全连接层L10：3个多尺度池化层得到的特征列向量均通过全连接方式得到输出表达列向量X_fc，大小为f×1,f<(14×k)；

(13)输出层O11：全连接层L10得到的输出表达列向量X_fc，输入至t维的soft-max分类器，得到分类结果标签向量y_output，最大值元素所在标号表示该图像属于该类别标签的人脸；

(14)对于步骤(1)采集的d×t张人脸训练图重复步骤(3)～步骤(13)，分别得到各自的t×1维的分类结果标签向量y_output，与步骤(1)中的y_lable构成均方差误差代价函数，利用BP反向传播算法进行有监督训练，当均方差误差代价达到要求后完成训练，得到完整的多尺度池化卷积神经网络；

(15)采集步骤(1)中t个人中任一个人的人脸图像作为测试人脸图像，通过步骤(3)～步骤(13)得到t×1维分类结果标签向量y_output，其最大值元素所在标号即为该测试人脸图像的类别标签，从而实现人脸识别。其中，t、d、w、h、k、p、q、a、b、c、m、n、r、s和f均为自然数。

本发明的有益效果是，本发明采用卷积层和池化层级联的卷积神经网络来提取人脸图像特征，并对每层卷积层额外采用多尺度采样，获得多尺度的特征表达列向量，丰富特征表达。将3层多尺度池化层的特征列向量一并输入到全连接层，使其产生多尺度的、固定大小的特征列向量，解决了传统卷积神经网络训练过程中，利用BP反向传播更新权重和偏置时必须固定输入图像大小的弊端，同时可以利用多种尺寸的输入图像对同一个网络进行训练和测试。连接多个层次的特征图谱对于学习合适的特征表达具有关键意义，这样的网络结构相比单层的级联的卷积与池化交替的网络结构得到了较大的性能提升。本发明提出新的基于多尺度池化的卷积神经网络人脸识别方法不但解决了输入图像尺寸可以不固定的问题，使得网络能够提取多尺度的人脸特征，对目标的变形具有较好的鲁棒性，而且对网络性能带来极大的提升，将会促进多尺度池化卷积神经网络在人脸识别中的广泛应用。

附图说明

图1为卷积操作示意图；

图2为池化层最大值采样操作示意图；

图3为多尺度池化层采用操作示意图；

图4为多尺度池化的卷积神经网络示意图；

图5为多尺度池化的卷积神经网络的结构框图。

具体实施方式

以下结合附图和实施实例对本发明作进一步说明。

本发明一种基于多尺度池化的卷积神经网络人脸识别方法，包括以下步骤：

(1)采集100个人的标准人脸灰度图，其中每个人采集50张，得到5000张标准人脸灰度图作为训练图像；每张训练图像对应一个100×1维的二值人脸类别标记向量y_lable＝[y₁ y₂ y₃ … y_t]^T，其中第n个人脸图像的类别标签向量y_lable中元素y_i应满足以下条件：

\{\begin{matrix} y_{i} = 1 & i = n \\ y_{i} = 0 & i &NotEqual; n \end{matrix}

例如第1个人的类别标签向量y_lable＝[1 0 0 … 0]^T，第一个元素为1，其余为0。其他人脸图像的类别标签向量类似；

(2)卷积神经网络参数初始化：所述卷积神经网络的结构框图如图5所示，包含输入层I1、卷积层C2、池化层S3、卷积层C4、池化层S5、卷积层C6、多尺度池化层S7、多尺度池化层S8、多尺度池化层S9、全连接层L10、输出层O11；按照0为均值，0.01为标准方差的高斯分布来随机初始化卷积层C2的20个5×5像素的小块作为卷积核模板，定义为权重i＝1,j＝1,2,...,20；此外对应位置的偏置j＝1,2,...,20初始化为0；类似的，随机初始化卷积层C4的40个3×3大小的卷积核模板，定义为权重i＝1,2,...,20,j＝1,2,...,40和对应位置的偏置j＝1,2,...,40；随机初始化卷积层C6的60个3×3大小的卷积核模板，定义为权重i＝1,2,...,40,j＝1,2,...,60和对应位置的偏置j＝1,2,...,60。所有的权重Kij和偏置bj都是可训练的网络参数；

(3)输入层I1：经过预处理后的图像X_in作为输入层。预处理操作具体如下：对输入大小为64×64的图像的所有像素x_i进行减均值和归一化的预处理，得到图像X_in定义如下：

X_{i n} = \frac{x_{i} - x_{a v e}}{σ}

其中均值x_ave和标准差σ如下：

x_{a v e} = \frac{1}{4096} Σ_{i = 1}^{4096} x_{i}

σ = \sqrt{\frac{1}{4096} Σ_{i = 1}^{4096} {(x_{i} - x_{a v e})}^{2}}

(4)卷积层C2：由20个不同的特征图谱j＝1,2,...,20组成，每个特征图谱由输入图像X_in分别与20个卷积核模板K_ij进行卷积运算，卷积过程如图1所示，卷积结果加上偏置b_j，再经过一个激活函数ReLU(·)得到；每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 2} = Re L U (X_{i n} &CircleTimes; K_{i j}^{C 2} + b_{j}^{C 2}) \\ = \max (0, X_{i n} &CircleTimes; K_{i j}^{C 2} + b_{j}^{C 2}), i = 1, j = 1, 2, ..., 20 \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；的大小均为60×60；

(5)池化层S3：采用最大值采样对卷积层C2得到的结果进行统计计算。采样尺寸为2，采样方法为取采样区域的最大值，采样区域不重叠；池化层S3的每个特征图谱i＝1,2,...,20由卷积层C2的每个特征图谱j＝1,2,...,20下采样得到。

采样操作如图2所示，例如卷积层C2的第1个特征图谱的第一个采样区域为采样结果得到池化层S3的第1个特征图谱的第一个输入y₁，其中采样方法为取4者中的最大值，即y₁＝max(x₁,x₂,x₃,x₄)；其他输出也类似，得到池化层S3的20个特征图谱i＝1,2,...,20；采样后的水平和垂直空间分辨率变为原来的1/2，大小为30×30；

(6)卷积层C4：特征图谱i＝1,2,...,k通过卷积操作，由20个扩展至40个；特征图谱之间采用完全连接的机制，即卷积层C4的每个特征图谱j＝1,2,...,40都与前一层的20个特征图谱连接，相连接的区域进行卷积操作，卷积结果加和并且加入偏置，再经过激活函数ReLU(·)得到；每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 4} = Re L U (Σ X_{i}^{S 3} &CircleTimes; K_{i j}^{C 4} + b_{j}^{C 4}) \\ = \max (0, Σ X_{i}^{S 3} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 4}), i = 1, 2..., 20, j = 1, 2, ..., 40 \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；得到40个特征图谱大小为28×28；

(7)池化层S5：采用最大值采样，采样尺寸为2，采样方法为取采样区域的最大值，采样区域不重叠，采样后的得到40个特征图谱的水平和垂直空间分辨率变为原来的1/2，大小为14×14；

(8)卷积层C6：特征图谱通过卷积操作，由40个扩展至60个；特征图谱之间采用完全连接的机制，每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 6} = Re L U (Σ X_{i}^{S 5} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 6}) \\ = \max (0, Σ X_{i}^{S 5} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 6}), i = 1, 2..., p, j = 1, 2, ..., q \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；得到40个特征图谱大小为12×12；

(9)多尺度池化层S7：如图3所示，对60个特征图谱进行三种不同尺度size和步长stride的采样，使得最后输出空间块大小固定为1×1×60，2×2×60，3×3×60。例如输入大小为64×64的图像经过卷积层C6后得到60个特征图谱的大小为12×12，通过3种采样尺寸和步长进行最大值采样，具体计算公式如下：

size＝12×12,6×6,4×4

stride＝12×12,6×6,4×4

其中，size和stride分别表示采样尺寸和步长。如此操作得到输出空间块大小为1×1×60，2×2×60，3×3×60，并且按照列的顺序展开得到1×60，4×60，9×60的特征矩阵，最后依次级联，成为固定尺寸的840×1特征列向量。

多尺度池化层是实现输入图像尺寸不固定的关键技术，使得可以用不同大小的图片进行训练和测试，使得网络对目标的变形变得鲁棒；例如另外一幅图像的大小为80×64，到卷积层C6的60个特征图谱大小为16×12，为了能得到固定尺寸1×60，4×60，9×60的特征向量矩阵，网络将按照采样尺寸和步长的公式自动调整，进行最大值采样，此时的采样尺寸和步长分别为：

size＝16×12,8×6,6×4；stride＝16×12,8×6,5×4；

(10)多尺度池化层S8：类似步骤(9)对卷积层C2的20个特征图谱进行三种不同尺度size和步长stride的采样，尺寸分别为size＝60×60,30×30,20×20，步长分别为stride＝60×60,30×30,20×20，使得成为固定尺寸的280×1特征列向量。

(11)多尺度池化层S9：类似步骤(9)对卷积层C4的40个特征图谱进行三种不同尺度size和步长stride的采样，尺寸分别为size＝28×28,14×14,10×10，步长分别为stride＝28×28,14×14,9×9，使得成为固定尺寸的560×1特征列向量。

(12)全连接层L10：3个多尺度池化层得到特征列向量均通过全连接方式得到输出表达列向量X_fc，大小为200×1；

(13)输出层O11：全连接层L8得到的输出表达列向量X_fc，输入至100维的soft-max分类器，得到分类结果标签向量y_output，最大值元素所在标号表示该图像属于该类别标签的人脸；

(14)对于步骤(1)采集的5000张人脸训练图重复步骤(3)～步骤(13)，分别得到各自的100×1维的分类结果标签向量y_output，与步骤(1)中的y_lable构成均方差误差代价函数，利用BP反向传播算法进行有监督训练，当均方差误差代价达到要求后完成训练，得到完整的多尺度池化卷积神经网络，以输入图像大小为64×64的网络示意图如图4所示，每一层的特征图谱数量及大小，卷积核大小和采样尺寸等均在图4中所示；整体的网络结构框图如图5所示；

(15)采集步骤(1)中100个人中任一个人的人脸图像作为测试人脸图像，重复步骤(3)～步骤(13)计算得到分类结果标签100×1维的向量y_output，其最大值元素所在标号即为该测试人脸图像的类别标签，从而实现人脸识别。

以上所述仅为本发明的优选实施方式，但本发明保护范围并不局限于此。任何本领域的技术人员在本发明公开的技术范围内，均可对其进行适当的改变或变化，而这种改变或变化都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多尺度池化的卷积神经网络人脸识别方法，其特征在于，该方法包括以下步骤：

\{\begin{matrix} y_{i} = 1 & i = n \\ y_{i} = 0 & i &NotEqual; n \end{matrix}

(2)卷积神经网络参数初始化：所述卷积神经网络包含输入层I1、卷积层C2、池化层S3、卷积层C4、池化层S5、卷积层C6、多尺度池化层S7、多尺度池化层S8、多尺度池化层S9、全连接层L10、输出层O11；按照0为均值，0.01为标准方差的高斯分布来随机初始化卷积层C2的k个a×a像素的小块作为卷积核模板，定义为权重此外对应位置的偏置初始化为0；类似的，随机初始化卷积层C4的p个b×b大小的卷积核模板，定义为权重和对应位置的偏置随机初始化卷积层C6的q个c×c大小的卷积核模板，定义为权重和对应位置的偏置所有的权重K_ij和偏置b_j都是可训练的网络参数。

(4)卷积层C2：由k个不同的特征图谱组成，每个特征图谱由输入图像X_in分别与k个卷积核模板K_ij进行卷积运算，卷积结果加上偏置b_j，再经过一个激活函数ReLU(·)得到；每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 2} = Re L U (X_{i n} &CircleTimes; K_{i j}^{C 2} + b_{j}^{C 2}) \\ = \max (0, X_{i n} &CircleTimes; K_{i j}^{C 2} + b_{j}^{C 2}), i = 1, j = 1, 2, ..., k \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)；的大小均为(h-a+1)×(w-a+1)。

(5)池化层S3：采用最大值采样对卷积层C2得到的结果进行统计计算。采样尺寸为m，采样方法为取采样区域的最大值，采样区域不重叠；池化层S3的每个特征图谱由卷积层C2的每个特征图谱下采样得到。采样后的水平和垂直空间分辨率变为原来的1/m，大小为(h-a+1/m)×(w-b+1/m)。

(6)卷积层C4：特征图谱通过卷积操作，由k个扩展至p个；特征图谱之间采用完全连接的机制，即卷积层C4的每个特征图谱都与前一层的k个特征图谱连接，相连接的区域进行卷积操作，卷积结果加和并且加入偏置，再经过激活函数ReLU(·)得到；每个特征图谱具体计算公式为：

\begin{matrix} X_{j}^{C 4} = Re L U ({ΣX}_{i}^{S 3} &CircleTimes; K_{i j}^{C 4} + b_{j}^{C 4}) \\ = \max (0, {ΣX}_{i}^{S 3} &CircleTimes; K_{i j}^{C 4} + b_{j}^{C 4}), i = 1, 2 ..., k, j = 1, 2, ..., p \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)。

(7)池化层S5：采用最大值采样，采样尺寸为n，采样方法为取采样区域的最大值，采样区域不重叠，采样后得到的p个特征图谱的水平和垂直空间分辨率变为原来的1/n。

\begin{matrix} X_{j}^{C 6} = Re L U ({ΣX}_{i}^{S 5} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 6}) \\ = \max (0, {ΣX}_{i}^{S 5} &CircleTimes; K_{i j}^{C 6} + b_{j}^{C 6}), i = 1, 2 ..., p, j = 1, 2, ..., q \end{matrix}

其中代表步长为1的卷积运算，激活函数ReLU(x)＝max(0,x)。

(12)全连接层L10：3个多尺度池化层得到的特征列向量均通过全连接方式得到输出表达列向量X_fc，大小为f×1,f＜(14×k)。

(13)输出层O11：全连接层L10得到的输出表达列向量X_fc，输入至t维的soft-max分类器，得到分类结果标签向量y_output，最大值元素所在标号表示该图像属于该类别标签的人脸。

(14)对于步骤(1)采集的d×t张人脸训练图重复步骤(3)～步骤(13)，分别得到各自的t×1维的分类结果标签向量y_output，与步骤(1)中的y_lable构成均方差误差代价函数，利用BP反向传播算法进行有监督训练，当均方差误差代价达到要求后完成训练，得到完整的多尺度池化卷积神经网络。

(15)采集步骤(1)中t个人中任一个人的人脸图像作为测试人脸图像，通过步骤(3)～步骤(13)得到t×1维分类结果标签向量y_output，其最大值元素所在标号即为该测试人脸图像的类别标签，从而实现人脸识别。