CN110598584A

CN110598584A - 一种基于小波变换和dct的卷积神经网络人脸识别算法

Info

Publication number: CN110598584A
Application number: CN201910790630.6A
Authority: CN
Inventors: 雷志春; 王嘉欣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-26
Filing date: 2019-08-26
Publication date: 2019-12-20

Abstract

本发明公开种基于小波变换和DCT的卷积神经网络人脸识别算法，包括如下步骤：采用二维离散小波变换将目标图像分解成不同子带并保留低频子带；通过DCT变换获得低频子带图像部分DCT系数；将DCT系数输入卷积神经网络中提取特征，进行训练分类，最后获得用于识别面部图像的的卷积神经网络模型。本发明是在人脸图像进入卷积神经网络之前，先对图像小波变换，得到低频子带图像并对其做DCT变换，提取部分DCT系数，从而减少冗余信息量，降低运算复杂度，最后将DCT系数输入卷积神经网络进行训练分类，提高了人脸识别的准确率同时缩短了训练时间。

Description

一种基于小波变换和DCT的卷积神经网络人脸识别算法

技术领域

本发明涉及人脸识别技术领域，特别是涉及一种基于小波变换和DCT的卷积神经网络人脸识别算法。

背景技术

人脸识别流程包括四个阶段：人脸检测、人脸对齐、特征提取和人脸分类。其中，最重要的阶段是特征提取阶段，特征提取的好坏直接影响识别的准确率。总体来说人脸识别方法可以总结为：基于自然特征的方法、基于模块匹配的方法、基于子空间方法、基于人脸特征的方法、基于深度学习的方法。

深度学习越来越受到人们的关注。卷积神经网络CNN(Convolutional NeuralNetwork)是深度学习中非常重要的方法，而且卷积神经网络对图像识别具有很强的优势。但利用卷积神经网络对人脸进行识别过程中，由于图像存在维数过高，信息量大，计算复杂等问题，使得训练周期过长。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于小波变换和DCT的卷积神经网络人脸识别算法。

为实现本发明的目的所采用的技术方案是：

一种基于小波变换和DCT的卷积神经网络人脸识别算法，包括如下步骤：

采用二维离散小波变换将目标图像分解成不同子带并保留低频子带；

通过DCT变换获得低频子带图像部分DCT系数；

将DCT系数输入卷积神经网络中提取特征，进行训练分类，最后获得用于识别面部图像的的卷积神经网络模型。

其中，所述卷积神经网络包括卷积层，池化层，全连接层，所述卷积层为4个，所述池化层为4个，所述全连接层为两个，所述全连接层连接分类器。

其中，所述分类器为softmax分类器。

其中，第一层和第二层的卷积层卷积核大小为5×5，后两层使用3×3的卷积核，在每一个卷积层后均使用了ReLU激活函数，池化层均采用最大池化，池化规模为2×2，步长为2。

本发明是在人脸图像进入卷积神经网络之前，首先对图像进行小波变换，得到低频子带图像并对其做DCT变换，提取部分DCT系数，以减少冗余信息量，最后将DCT系数输入卷积神经网络进行训练分类。

附图说明

图1为本发明的三维图

图2所示为二维小波分解示意图；

图3a-3b所示为原始图像与一级小波分解图像的对比；

图4a-4c所示为128×128原始图像与分别提取24×24，48×48数量的DCT系数重构的人脸图像；

图5所示为卷积神经网络的最大池化操作的示意图；

图6所示为本发明所用的卷积神经网络结构图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明基于小波变换和DCT的卷积神经网络人脸识别算法，其步骤，对于给定的图像，首先采用二维离散小波变换将图像分解成不同子带并保留低频子带；接下来，通过DCT变换获得低频子带图像部分系数以减少信息冗余；然后通过将DCT系数输入CNN以提取特征，最后，训练的CNN网络模型用于识别面部图像。

二维离散小波变换是将二维图像在不同的尺度上进行分解，得到各方向细节分量，如图2所示，LL包含低频信息，LH和HL分别包含水平高频信息和垂直高频信息，HH是对角高频信息。图3a为原始人脸图像，经过二维小波变换后得到右侧的图3b。由图3a-3b可知，图像的大部分能量信息集中在低频部分，高频部分含少量纹理和边缘信息。当直接对低频分量提取特征时，图像中有用信息相对集中，因此能有效地降低图像的维数同时降低计算量。

DCT(离散余弦变换)变换可将信号或图像由空间域变换到频域，原理如下式：

逆变换为：

其中，u＝0,1…,N-1,v＝0,1…,N-1。F(u,v)为变换结果，也称为DCT系数。

c(u)，c(v)定义如下：

离散余弦变换的特点是：频域变化因子较大时u,v较大时，DCT系数F(u,v)的值比较小，而数值较大的F(u,v)主要分布在(u,v)较小的左上角区域，这也是有用信息的集中区域，其大部分能量主要集中在低频部分。利用DCT系数重建图像时，保留少数离散余弦变换的低频分量，而舍去大部分高频分量，利用反变换仍可获得与原始图像相近的恢复图像。

新图像与原图像虽然存在一定误差但重要信息被保存下来。如图4b、4c为分别提取24×24，48×48数量的DCT系数重构的人脸图像。可以看出，只需要提取部分合适的系数，就可很好地重构出原图。在人脸识别中，通过提取适当的DCT系数，大大降低了计算的复杂度。

在本发明中，经过DCT变换后，DCT系数输入卷积神经网络提取特征。卷积神经网络模型是监督学习的网络模型。卷积神经网络的基本操作有卷积、池化、全连接等。

卷积的作用是提取输入数据的特征信息。卷积的计算公式可以用下式表示：

其中，f(·)为激活函数，其作用是为了增加神经网络模型的非线性以及学习更强的特征表示。采用Rectified Linear Unit(ReLU)激活函数。

池化的作用是缩小特征图的大小。池化操作不仅可以使卷积层提取的特征维度变小，减少运算数据量，还可一定程度上降低网络的过拟合程度，改善网络性能。常见的池化方式有：平均池化(取局部平均值)，最小池化(取局部最小值)，最大池化(取局部最大值)。如图5所示是最大池化操作，池化规模为2×2，步长为2。

采用的卷积神经网络结构如图6所示，包括四层卷积层，第一层和第二层卷积层卷积核大小为5×5，后两层使用3×3的卷积核。在每一个卷积层后均使用了ReLU激活函数，其作用是增加网络的非线性表达能力。池化层均采用最大池化，池化规模为2×2，步长为2。接着是是两层全连接层。最后一层是softmax函数，用来分类。

本发明还可以将小波变换扩展到lifting scheme,lifting scheme可以更快地实现小波变换，操作数可减少两倍。

需要说明的是，不同的小波分解层数和提取不同数量的DCT系数会对识别率产生影响。对于小波分解层数，若分解的层次太少会使提取的分类信息不足，而分解层次太多又会造成计算量的增加，且分解的区域过小会增强小波变换的边界效应，从而影响分类的正确性。对于DCT系数的提取，不是越多越好，太多的DCT系数并不表示可以很好地识别。由前面分析可知，经DCT变换后，主要信息集中在左上角低频部分，所以提取不同数量的DCT系数也会影响识别结果。下表1为不同小波分解级数和DCT系数对识别率的影响。

表1

由表1可知，当对图像进行一级小波分解保留低频子带图像，再对低频部分DCT变换，提取系数为40×40时，识别率达到最高。表2对本发明与原始卷积神经网络的识别率与训练时间进行了比较。

表2

从以上可知，当小波分解级数为1，DCT系数为40×40时(原图像大小为128×128)，人脸识别率最高。当小波分解级数为1，DCT系数为48×48以及小波分解级数为2，DCT系数为24×24时，人脸识别效果也很好。当图像较大时，可以适当将小波分解级数变大；当图像较小时，可以适当提取较少的DCT系数。

本发明通过首先对人脸图像进行小波变换，小波变换后图像大部分能量信息集中在低频部分，高频部分含少量纹理和边缘信息。当直接对低频分量提取特征时，图像中的有用信息相对集中，因此能有效地降低图像的维数。再对小波变换后的低频子图像进行DCT变换提取部分DCT系数，可以减少冗余信息量，降低运算复杂度。最后将DCT系数输入卷积神经网络进行训练分类，从而提高了人脸识别的准确率同时缩短了训练时间。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于小波变换和DCT的卷积神经网络人脸识别算法，其特征在于，包括如下步骤：

通过DCT变换获得低频子带图像部分DCT系数；

2.根据权利要求1所述基于小波变换和DCT的卷积神经网络人脸识别算法，其特征在于，所述卷积神经网络包括卷积层，池化层，全连接层，所述卷积层为4个，所述池化层为4个，所述全连接层为两个，所述全连接层连接分类器。

3.根据权利要求2所述基于小波变换和DCT的卷积神经网络人脸识别算法，其特征在于，所述分类器为softmax分类器。

4.根据权利要求2所述基于小波变换和DCT的卷积神经网络人脸识别算法，其特征在于，第一层和第二层的卷积层卷积核大小为5×5，后两层使用3×3的卷积核，在每一个卷积层后均使用了ReLU激活函数，池化层均采用最大池化，池化规模为2×2，步长为2。