CN106874879A

CN106874879A - 基于多特征融合和深度学习网络提取的手写数字识别方法

Info

Publication number: CN106874879A
Application number: CN201710093707.5A
Authority: CN
Inventors: 李乡儒
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2017-06-20

Abstract

本发明公开了基于多特征融合和深度学习网络提取的手写数字识别方法。该方法包括：读入手写数字的图像数据，对数据进行向量化预处理；对处理后的数据采用主成分分析（PCA）技术和方向梯度直方图（HOG）技术进行多特征融合，构造浅层复合特征；对多特征融合后的数据采用深度栈式稀疏自编码（SAE）的模型进行二次特征提取，构造深度学习网络，对浅层复合特征进行高层、深度学习和加工；采用Softmax分类器测试分类效果。本发明采用多特征融合的方法，融合PCA技术和HOG技术，构造出浅层复合特征，再采用SAE模型进行二次特征提取，构造深度学习网络，得到更简洁高效的特征样本，最后Softmax分类器测试分类效果，能将手写数字的识别准确率提高至99.2%。

Description

基于多特征融合和深度学习网络提取的手写数字识别方法

技术领域

本发明涉及手写数字识别技术领域，具体涉及基于多特征融合和深度学习网络提取的手写数字识别方法。

背景技术

手写数字识别在学科上属于模式识别和人工智能的范畴，是光学字符识别技术的一个分支，主要研究如何利用电子计算机自动辨认手写的阿拉伯数字。随着经济的飞速发展，逐渐信息化的社会在各个方面都要与数字打交道，一个准确率高的手写数字的识别方法在此时就显得尤为重要。

虽然手写数字的类别只有10种，且其识别已经研究了很长时间，并取得很大的进展，但是如今的手写数字的识别精度还有需进一步提高。

发明内容

本发明针对现有技术的不足，提供基于多特征融合和深度学习网络提取的手写数字识别方法，具体技术方案如下。

基于多特征融合和深度学习网络提取的手写数字识别方法，其包括如下步骤：

步骤1：读入手写数字的图像数据，对数据进行向量化预处理；

步骤2：对上一步骤的输出数据采用主成分分析(PCA)技术和方向梯度直方图(HOG)技术进行多特征融合，构造浅层复合特征；

步骤3：对多特征融合后的数据采用深度栈式稀疏自编码(SAE)的模型进行二次特征提取，构造深度学习网络，对浅层复合特征进行高层、深度学习和加工；

步骤4：采用Softmax分类器分类并将分类结果进行显示，该过程即实现了对手写数字的识别。

进一步地，所述主成分分析的实现过程具体如下：

(1)为使原数据A的均方误差最小，向量的均值应为零，即数据应以原点作为中心，因此现将原数据A以平均值为中心移到原点得到数据X：

(2)协方差用于衡量两个变量的总体误差，而方差是两个变量相同的特殊情况下的协方差，计算X的协方差无偏估计矩阵Y：

由于两个变量相同，此Y也是方差无偏估计矩阵，n为手写数字图像的像素个数；

(3)计算协方差矩阵Y的特征值D和单位正交特征向量V，再让特征值D由大到小进行排序；

(4)对应特征值的排序将特征向量排序后，即可得到变换矩阵v，令X乘以变化矩阵v即可得到已排序的投影数据Z，其中，第一个对应的就是第一主成分，第二个对应的就是次主成分，以此类推；

(5)λ_i是协方差矩阵，也是方差矩阵的第i个主元的特征值；计算第i个主元的方差贡献率：

而R个主元的累计方差贡献率为：

求得累计方差贡献率超过99％的主成分数目R，然后在已排序的投影数据Z中取前R维，并将结果记为矩阵B。

进一步地，所述方向梯度直方图(HOG)技术的实现过程具体如下：

(1)将图像灰度化；

(2)采用Gamma校正法对输入图像进行颜色空间的归一化，调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时抑制噪音的干扰；

(3)将图像划分为单元格(cell)，每2x2个像素点组成一个单元格；

(4)计算图像每个像素的梯度，捕获轮廓信息：

G_x(x,y)＝H(x+1,y)-H(x-1,y) ⑤

G_y(x,y)＝H(x,y+1)-H(x,y-1) ⑥

G_x(x,y),G_y(x,y),H(x,y)分别代表像素点(x,y)处的水平方向梯度，垂直方向梯度，和像素值；像素点(x,y)处的梯度幅值G(x,y)和梯度方向α(x,y)分别为：

梯度方向采用无符号的形式，并将0～180分成9等分；

图像中每个单元格的梯度方向都分成9个方向块，使用单元格中的梯度方向和大小对9个方向进行加权投影，最后，每个单元格产生9维的特征向量；

(5)将每2x2个单元格组成一个块，一个块内所有单元格的特征描述符串联起来后归一化，便得到该块的HOG特征；HOG结构采用矩形HOG结构；

(6)将图像所有块的HOG特征串联起来就可得到图像的HOG特征，并将该HOG特征记为v；

(7)将特征进行归一化，对特征提取后的特征向量进行特征变换，

v←v/255 ⑨

其中，ε＝10-⁸，上标T向量的转置；

经过多特征融合后构造浅层复合特征数据。

进一步地，步骤3具体是：

经过多特征融合后构造的浅层复合特征数据采用深度栈式自编码模型，构造深度学习网络，对浅层复合特征进行高层、深度学习和加工：

其中自编码网络是由原始的BP神经网络演化而来，与BP神经网络不同的是，在自编码网络中是用从特征空间的输入来衡量与输出空间的误差，代价函数为：其中，||·||²表示二范数，h_θ(·)和θ分别表示自编码神经网络的输出与连接参数；利用最优化算法，不断迭代减小代价函数值，从而最终得到了一个能从原始数据中自主学习特征的一个特征提取的神经网络；而在隐层神经元个数很多的时候，需要对一些激活度不高的神经元进行抑制，从而达到用更低维的向量表达高维向量的要求，这样加上稀疏性抑制后的自编码网络称之为稀疏自编码，而由多层稀疏自编码器组成的网络则称之为栈式自编码神经网络。

与现有技术相比，本发明具有如下优点和技术效果：本发明采用多特征融合的方法，融合PCA技术和HOG技术，构造出浅层复合特征，再采用SAE模型进行二次特征提取，构造深度学习网络，得到更简洁高效的特征样本，最后Softmax分类器测试分类效果，能将手写数字的识别准确率进一步提高。

附图说明

图1是实例的一种基于多特征融合和深度学习网络提取的手写数字识别方法流程示意图。

图2是实例中多特征融合过程示意图。

图3是实例中的梯度方向量化图。

图4是实例中HOG描述向量化示意图。

图5是实例中自编码神经网络原理图。

图6是实例中一些待识别手写数字的图像。

具体实施方式

以下结合附图和实例对本发明的具体实施作进一步说明，但本发明的实施和保护不限于此，需指出的是，以下若有未特别详细说明之过程或变量(符号)，均是本领域技术人员可参照现有技术实现的或理解的。

如图1所示，本实例的一种基于多特征融合和深度学习网络提取的手写数字识别方法，首先要将手写数字的图像数据(如图6)读入，并在步骤010中进行数据预处理，即将图像数据向量化。

在步骤010处预处理后的数据将进入步骤020进行多特征融合，如图2所示，数据将会在步骤021中采用主成分分析(PCA)技术，在步骤022处采用方向梯度直方图(HOG)技术处理，步骤021和步骤022处理后的数据在步骤023中融合后进入步骤030。

作为举例，其中PCA技术的实现过程具体如下：

(1)为了让原数据A的均方误差最小，向量的均值应为零，即数据应以原点作为中心，因此现将原数据A以平均值为中心移到原点得到数据X：

(2)协方差用于衡量两个变量的总体误差，而方差是两个变量相同的特殊情况下的协方差。计算X的协方差无偏估计矩阵Y：

由于两个变量相同，此Y也是方差无偏估计矩阵，n为手写数字图像的像素个数。

(3)计算协方差矩阵Y的特征值D和单位正交特征向量V，再让特征值D由大到小进行排序。

(4)对应特征值的排序将特征向量排序后，即可得到变换矩阵v，令X乘以变换矩阵v即可以得到已排序的投影数据Z，其中，第一个对应的就是第一主成分，第二个对应的就是次主成分，以此类推。

(5)λ_i是协方差矩阵，也是方差矩阵的第i个主元的特征值。计算第i个主元的方差贡献率：

而R个主元的累计方差贡献率为：

作为举例，HOG技术的实现过程具体如下：

(1)将图像灰度化。

(2)采用Gamma校正法对输入图像进行颜色空间的归一化，调节图像的对比度，降低图像局部的阴影和光照变化所造成的影响，同时抑制噪音的干扰。

(4)计算图像每个像素的梯度(包括大小和方向)，捕获轮廓信息：

G_x(x,y)＝H(x+1,y)-H(x-1,y) ⑤

G_y(x,y)＝H(x,y+1)-H(x,y-1) ⑥

G_x(x,y),G_y(x,y),H(x,y)分别代表像素点(x,y)处的水平方向梯度，垂直方向梯度，和像素值。像素点(x,y)处的梯度幅值G(x,y)和梯度方向α(x,y)分别为：

梯度方向分为有符号(0：360)和无符号(0：180)两种形式，本实例采用的是无符号的形式，并将(0：180)分成9等分，如图3所示。

所以，图像中每个单元格的梯度方向都分成9个方向块，使用单元格中的梯度方向和大小对9个方向进行加权投影，最后，每个单元格产生9维的特征向量。

(5)将每2x2个单元格组成一个块，一个块内所有单元格的特征描述符串联起来后归一化，便得到该块的HOG特征，如图4。

通常使用的HOG结构大致有三种：矩形HOG，圆形HOG和中心环绕HOG。它们的单位都是块(block)。试验证明矩形的HOG和圆形HOG的检测效果基本一致，而环绕形HOG效果相对差一些。因此本发明实例使用矩形HOG结构进行实验。

v←v/255 ⑨

其中，ε＝10^-8，上标T向量的转置。

经过多特征融合后构造的浅层复合特征数据在步骤030中采用深度栈式自编码模型，构造深度学习网络，对浅层复合特征进行高层、深度学习和加工：

其中自编码网络是由原始的BP神经网络演化而来，与BP神经网络不同的是，在自编码网络中是用从特征空间的输入来衡量与输出空间的误差，其结构如图5所示：

其代价函数为：本发明利用最优化算法，不断迭代减小代价函数值，从而最终得到了一个能从原始数据中自主学习特征的一个特征提取的神经网络。其中，||·||²表示二范数，h_θ(·)和θ分别表示自编码神经网络的输出与连接参数。而在隐层神经元个数很多的时候，需要对一些激活度不高的神经元进行抑制，从而达到用更低维的向量表达高维向量的要求，这样加上稀疏性抑制后的自编码网络可称之为稀疏自编码，而由多层稀疏自编码器组成的网络则称之为栈式自编码神经网络；

将步骤030加工所得的数据传入步骤040进行手写数字的识别分类，步骤050最后将分类结果显示。

本实例中，采用多特征融合的方法，融合PCA技术和HOG技术，构造出浅层复合特征，再采用SAE模型进行二次特征提取，构造深度学习网络，得到更简洁高效的特征样本，最后Softmax分类器测试分类效果，能将手写数字的识别准确率进一步提高至99.2％。

Claims

1.基于多特征融合和深度学习网络提取的手写数字识别方法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于多特征融合和深度学习网络提取的手写数字识别方法，其特征在于所述主成分分析的实现过程具体如下：

而R个主元的累计方差贡献率为：

3.根据权利要求1所述的基于多特征融合和深度学习网络提取的手写数字识别方法，其特征在于所述方向梯度直方图(HOG)技术的实现过程具体如下：

(1)将图像灰度化；

(4)计算图像每个像素的梯度，捕获轮廓信息：

G_x(x,y)＝H(x+1,y)-H(x-1,y) ⑤

G_y(x,y)＝H(x,y+1)-H(x,y-1) ⑥

梯度方向采用无符号的形式，并将0～180分成9等分；

v←v/255 ⑨

其中，ε＝10^-8，上标T向量的转置；

经过多特征融合后构造浅层复合特征数据。

4.根据权利要求3所述的基于多特征融合和深度学习网络提取的手写数字识别方法，其特征在于步骤3具体是：