CN104850837A

CN104850837A - 手写文字的识别方法

Info

Publication number: CN104850837A
Application number: CN201510252555.XA
Authority: CN
Inventors: 余志斌; 庞荣; 孙永奎; 金炜东
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2015-05-18
Filing date: 2015-05-18
Publication date: 2015-08-19
Anticipated expiration: 2035-05-18
Also published as: CN104850837B

Abstract

本发明涉及手写文字的识别方法，包括：a.归一化手写输入数据，定义神经元数，建立自动编码器模型并初始化权重和偏置；b.通过压缩感知模型进行数据压缩采样；c.对得到数据进行自动编解码后重建手写输入数据，使重建数据相对原始手写输入的误差最小化；d.将构建的各模型逐层堆叠组成n层神经元的特征深度学习模型，并对所述的n层神经元遍历进行深度特征学习，其中n为自然数；e.输出识别的手写文字。本发明能够通过模拟人脑视觉神经元感知事物的特性，结合压缩感知和深度学习，自动挖掘表征手写文字的细致特征，非常有效的提高了手写文字的表征能力和模型学习的效率，大幅度的提高了手写文字特别是手写数字的识别精度和识别效率。

Description

手写文字的识别方法

技术领域

本发明涉及手写文字的识别方法，特别适合但不仅限于对手写数字的识别方法。

背景技术

随着信息技术的快速发展，手写文字特别是手写数字识别技术广泛应用于电子商务、机器自动输入和无线终端等领域，并且普及越来越广阔。然而，由于数字的笔划简单、差别相对较小，导致诸如3和8、5和6等这些形状类似的数字难以识别，并且书写数字的不同个体具有不同的书写习惯，即使同一人每次书写的结果也会有差异，这就造成了同一数字形状的千差万别，不但增加了识别难度，而且使得待识别的数字模式成倍增加，大大增加了识别处理时间。因此，提高识别精度和识别速度是手写文字特别是手写数字识别技术能够广泛应用的关键。

手写数字识别的精度和速度主要取决于识别特征的表征能力和识别算法的时间复杂度。针对这些方面的研究，国内外学者提出了一系列识别方法。例如Holland、Zeng Xiangyan、ZhangGuisheng和Lee Jongsoo等人分别提出基于手写数字结构特征、支持向量机和神经网络的手写数字识别方法。然而，这些方法均需要人工设计并提取手写数字特征，并通过浅层的学习和分类实现手写数字识别，其精度和速度均难以满足实际应用需求。2004年Candès等人提出的压缩感知(Compressive Sensing)理论能够在数据稀疏的前提下，实现对数据在远低于奈奎斯特采样频率下的压缩采样，从而能够有效地剔除数据中的冗余信息，大大降低采样数据的处理时间。于是，刘长红等人将压缩感知思想应用于手写数字识别并在MNIST手写数字公共数据集上取得了较高的识别精度，但该方法实质是基于稀疏分解提取最佳分解系数作为特征进行识别，这与压缩感知理论存在明显区别，并且对输入手写数字图像进行最佳稀疏分解将大大增加了识别算法的处理时间，限制了手写数字识别方法的应用。

近年来，Bruno等人对人的视觉细胞进行研究，并发现人的视觉神经细胞对物体有选择表达的能力，人的大脑对边缘和轮廓敏感度最高。基于以上思想，Hinton等人在2006年提出了深度学习的理论。深度学习的理论是模拟人脑进行分析学习的一种多层无监督神经网络学习算法，具有多非线性映射的深层结构，可以完成复杂的函数逼近，并且它通过无监督训练逐层学习能够获得输入数据的分布式特征，无需人为干预。于是，Vincent等人基于深度学习思想提出了一种能够自动学习特征并在MNIST数据集上实现了手写数字识别的方法。为了能够减弱噪声在识别过程中的影响，Vincent等人在特征学习过程中随机将一定比例的样本置零并建立了一种新的深度网络。但是，这一策略可能会使有利于识别手写数字的信息因随机置零而丢失，进而降低手写数字的识别精度。

通常情况下，待识别手写数字模式差异越小，笔画越复杂，识别就变得越困难，由于计算资源的局限和识别效率的要求，手写数字表征模型和识别模型不能过于复杂。由于压缩感知可对数据进行压缩采样，可以获取较少的用于表征手写数字的关键信息，从而大大降低了后续处理的时间，而深度学习可通过深层网络学习有效提取较少的用于表征关键信息的特征，以提高识别精度和识别效率。因此，可以结合压缩感知和深度学习，通过对手写数字的压缩采样获取表征数据的“粗”特征，并基于人脑神经元感知事物的特性对其进行逐层特征学习，自动挖掘表征手写数字的“精细”特征，以有效地提高手写数字的表征能力和模型学习的效率，从而实现手写数字识别的高精度和高效率。

发明内容

本发明提供了一种手写文字的识别方法，通过结合压缩感知和深度学习，来有效提高手写文字的表征能力和模型学习的效率，实现对手写文字特别是手写数字的高精度和高效率识别。

本发明手写文字的识别方法，包括：

a.归一化手写输入数据，定义m个神经元数，其中m为自然数，建立自动编码器模型，并初始化所述自动编码器模型的权重和偏置；

b.通过压缩感知模型对步骤a得到的数据压缩采样；

c.将步骤b得到的数据进行自动编解码后重建步骤a中自动编码器模型的手写输入数据，使重建的手写输入数据相对原始手写输入数据的误差最小化；

d.将步骤a、b和c构建的各模型逐层堆叠组成n层神经元的特征深度学习模型，并对所述的n层神经元遍历进行深度特征学习，其中n为自然数；

e.输出识别的手写文字。

由Bengio等人提出的自动编码器模型是一种尽可能复现输入信号的神经网络，为了实现信号复现，自动编码器模型必须捕捉可以代表输入数据的最重要的因素，也就是提取能表征输入数据的特征信息。为了提高自动编码器模型的抗噪性能，传统的降噪自动编码器模型被提出。而传统的降噪自动编码器模型只是对经典的自动编码器模型的简单改进，通过学习去除训练中被引入的噪声并获得没有被噪声污染过的输入数据。以手写数字1为例，其过程可描述为：对于每一个输入，以10％～30％的比例随机选择0～1之间的元素，并将被选元素初始化为“0”，对其它元素不做处理；经过以上处理过程，将被选元素的全部信息移除，并通过编解码训练最小化编码输入和解码器输出之间的互熵得到网络的输出。因此可以看出，传统的降噪自动编码器模型是通过输入随机映射，最终将得到的随机置零映射后的输出，而不是输出原始的输入数据。

本发明方法在重建的自动编码器模型时，尽管是力求使其和原始手写输入数据之间的误差尽量小，但该自动编码器模型针对噪声干扰时泛化能力依然较弱。虽然传统的降噪编码器模型可以在一定程度上增强了泛化能力，但通过上述降噪编码器模型的工作原理可知，降噪编码器模型针对输入数据人为置零的处理有可能会导致关键信息丢失，并最终影响识别精度。因此在本发明方法进行压缩感知处理时，将基于信号在预知的一组基上可以稀疏表示的特性通过随机投影，实现了在远低于奈奎斯特采样频率下对数据的直接压缩采样。由于压缩感知的压缩采样能力，原本在传统降噪处理中因随机置零而丢弃的用于识别的关键信息，通过本发明的压缩感知步骤能够得以保留，这将提升后续特征对输入数据的表征能力。步骤d是特征深度学习的过程，深度学习网络是多个神经元层的堆叠，每一层的输出作为高一层的输入，通过逐层特征变换，将每层的数据在原空间的特征表示变换到一个新特征空间，来学习对原输入具有更好表征的特征。包含多层的深度神经网络能够模拟人脑对信息的分层处理机制，并具有优异的特征学习能力，其学习得到的特征对原始手写数据有更本质的刻画，从而最终提升对数据的分类或预测的准确性，同时也能够有效解决由于噪声等各种杂波干扰造成的手写文字识别精度下降的问题。

进一步的，通过对步骤d获得的数据进行微调后，所得到的参数作为神经网络的输入进行分类，识别并输出步骤e所述的手写文字。其中微调的方法可以采用现有的常规神经网络。

具体的，通过BP神经网络对步骤d获得的数据进行微调。BP神经网络是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用梯度下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。

进一步的，步骤b还包括从步骤a的输出数据中提取用于深度特征学习的基本特征，并过滤掉冗余信息。通过特征深度学习模型模拟人脑视觉神经元感知事物的特性对“粗”特征，即所述的基本特征进行逐层学习，自动挖掘表征手写文字的“精细”特征，以此有效地提高了该特征表征手写问字的能力和模型的学习效率，从而实现手写文字识别的高精度和高效率。同时，由于是在自动编码器模型的基础上建立的压缩感知模型，因此也有效地解决了由于噪声等各种杂波干扰造成的手写数字识别精度下降的问题。

具体的一种方式为，步骤d中对n层神经元遍历时，先对各神经元层的数据使用无监督学习方法进行处理，每一层网络在每次无监督学习方法处理后，将其结果作为更高一层的输入，最后对所有神经元层通过有监督训练方法进行调整。无监督学习方法是利用无类标的数据，对网络提供输入范例，并且自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后，也可以将学习后的数据应用到新的案例上，即直接对输入的无标签数据集进行建模，例如聚类。通过无监督学习方法获得初始权值，为后续有监督训练提高效率，并避免陷入局部最优。有监督训练方法是利用有类标的数据，通过输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。

优选的，在对所有神经元层进行有监督训练方法调整时，可以结合至少一个用于产生预测的附加层，使训练后的数据结构更准确，并且能够提高训练效率。

进一步的，所述的手写文字为手写数字的形状。

本发明的手写文字的识别方法，能够通过模拟人脑视觉神经元感知事物的特性，结合压缩感知和深度学习，自动挖掘表征手写文字的细致特征，非常有效的提高了手写文字的表征能力和模型学习的效率，大幅度的提高了手写文字特别是手写数字的识别精度和识别效率。

以下结合实施例的具体实施方式，对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或变更，均应包括在本发明的范围内。

附图说明

图1为本发明手写文字的识别方法的流程图。

图2为本发明采用的现有自动编码模型示意图。

图3为传统降噪自动编码器模型示意图。

图4为手写数字“1”的输入示意图。

图5为图4传统降噪自动编码器模型对手写“1”输入的映射后的示意图。

图6为本发明的压缩感知模型示意图。

图7为图4的本发明压缩感知模型对手写“1”的输出结果示意图。

图8为本实施例的原始输入手写数字。

图9为图8经过传统降噪处理后的图像数据。

图10为图8经过本发明的压缩感知处理后的图像数据。

具体实施方式

如图1所示本发明手写文字的识别方法，以0～9的手写数字为例，步骤包括：

a.归一化手写输入数据，为了便于后续数据的快速处理，可以先定义出具有n层深度的神经网络及每层神经网络的神经元数，其中n为自然数；建立自动编码器模型，并初始化所述自动编码器模型的权重和偏置。自动编码器模型的作用是尽可能复现手写输入信号。为了实现手写输入信号的复现，自动编码器模型必须捕捉可以代表输入数据的最重要的因素，也就是提取能表征输入数据的特征信息。例如图2所示的Bengio等人提出的自动编码器模型，其数学描述可表示为：y＝f_θ(x)＝s(Wx+b)。其中s表示Sigmoid函数：W和b分别为网络权重和偏置。x为输入信号，y为编码器输出信号。通过自动编码模型得到重建的输入模型z：z＝g_θ′(y)＝s(W'y+b')，其中θ′＝{W′,b′}，其中W′和b′分别为W和b的转置。最后通过迭代，最小化互熵L_IH(x,z)的表达式为：其中x为原始输入数据，j为计算数据点。

b.通过压缩感知模型对步骤a得到的数据压缩采样。对于手写数字样本，每个训练样本字为w×h大小的灰度图像块，按列排列为N维的向量x，x∈R^N(N＝w×h)。设一维离散信号x＝[x(1),x(2),...,x(N)]^T，则x可表示为：式中它的列向量互相正交并且为N×1的向量信号；α为原始信号在变换域中的系数，α系数在变换域中是稀疏的变换矩阵。于是，用一个与正交基Ψ不相关的观测矩阵Φ{M×N(M＜＜N)}对离散信号x进行线性变换，得到观测向量为：将x＝Ψα带入上式得因此，只要获得测量矩阵Φ，便可以得到输入离散信号x的稀疏表示。然而，在实际的测量数据中，噪声干扰不可避免，即使最轻微的噪声对数据的扰动也可能引起足够大的重构误差。为了复原向量x∈R^N，噪声需要被考虑，于是观测向量模型可表示为：其中A＝ΦΨ，α是以适当的基表示对象的稀疏系数序列，e是随机性噪声误差，此模型定义为

在图3所示的传统降噪自动编码器模型中，输入的是随机映射模型其中x表示输入，表示输出，表示x到的逐一映射过程，其中“”表示置零。考虑到传统自动降噪编码器模型的局限性，因此使用压缩感知模型代替传统降噪自动编码器模型中的随机映射模型如图6所示。比较图6和图3，图6中最左边的观测向量模型表示出了区别于图3传统降噪自动编码器模型之处。因此，由于压缩感知的压缩采样的能力，使得在传统降噪自动编码器模型中因随机置零而丢弃的用于识别的关键信息，在压缩感知模型中得以保留。

以输入如图4所示的手写数字“1”为例，基于压缩感知模型的输出结果如图7所示。图7所示的输出结果与图5所示的传统降噪自动编码器模型对同为图4输入数据的输出比较，图7右边多个小方框中的数据表示出了区别于传统降噪自动编码器模型的输出。传统降噪自动编码器模型在由图4映射到图5的过程中，是随机将选择的数字元素(图4中椭圆圈中的元素)置为“0”，最终得到了图5表示的映射后的输出因此可以看出在传统的降噪处理的过程中最终得到的是随机置零映射后的而不是原始输入x。而采用本发明的压缩感知模型处理后，图7中第一列的第三和第四行方框中元素变为了“0”，同时保留了关键信息，第一列的第六行方框中元素为“0.3”，而在图5中同一位置元素却被置为了零。由此可知，对可稀疏表示的输入信号进行压缩采样，采样到的数据比传统降噪自动编码器模型中随机置零后的数据具有更少的冗余度并保留了关键信息，更有利于提高手写数字的识别精度和速度。

c.将步骤b得到的数据采用自动编解码后重建每层神经元的输入数据，使重建的输入数据相对原始输入数据的误差最小化。

d.将步骤a、b和c构建的各模型逐层堆叠组成n层神经元的特征深度学习模型，并对所述的n层神经元遍历进行深度特征学习。深度学习模型是多个神经元层的堆叠，每一层神经元层的输出作为高一层的输入，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间来学习对原输入具有更好表征的特征。在特征学习过程中，先对各神经元层的数据使用无监督学习方法进行处理，每一层网络在每次无监督学习方法处理后，将其结果作为其高一层的输入，最后对所有神经元层通过有监督训练方法进行调整。无监督学习方法是利用无类标的数据，对网络提供输入范例，并且自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后，也可以将学习后的数据应用到新的案例上，即直接对输入的无标签数据集进行建模，例如聚类。通过无监督学习方法获得初始权值，为后续有监督训练提高效率，并避免陷入局部最优。有监督训练方法是利用有类标的数据，通过输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。在有监督训练方法中，可以结合至少一个用于产生预测的附加层，使训练后的数据结构更准确，并且能够提高训练效率。通过迭代，对每层神经元层的数据进行解码重建输入数据，使重建的输入数据相对原始输入数据的误差最小化。最小化互熵L_IH(x,z)的表达式为：其中z为重建的输入数据，x为原始输入数据，j为计算数据点。

e.最后输出识别的手写数字。由图8～图10的比较可知，图8表示了原始的输入手写数字的图像，将其通过传统的降噪自动编码器模型处理构建出深层次网络后，经可视化降噪处理得到的手写数字效果如图9所示。从图9中可以看出相比原始图像图8，白色明显较稀疏，其降噪过程是按照10％～30％的比例ν随机将原始图像中白色部分元素强制置为零。但是人为随机选择一定比例ν的元素置零，可能会导致有用信息置零。即使是选择较小的比例，仍然有可能丢失有用信息，并且保留了更多的冗余信息，势必会影响手写数字的识别精度，并增加算法的处理时间。而使用本发明的压缩感知模型对图8的数据进行处理后，得到可视化的图10。比较图9和图10可以看出，图10中白色的信号明显更加稀疏，并且显示的数字“1”和“6”更清晰。这也说明了本发明的方法对识别手写数字需要时间可能更少，并且还能够获得更好的识别精度。

Claims

1.手写文字的识别方法，其特征包括：

b.通过压缩感知模型对步骤a得到的数据压缩采样；

e.输出识别的手写文字。

2.如权利要求1所述的手写文字的识别方法，其特征为：通过对步骤d获得的数据进行微调后，所得到的参数作为神经网络的输入进行分类，识别并输出步骤e所述的手写文字。

3.如权利要求2所述的手写文字的识别方法，其特征为：通过BP神经网络对步骤d获得的数据进行微调。

4.如权利要求1所述的手写文字的识别方法，其特征为：步骤b还包括从步骤a的输出数据中提取用于深度特征学习的基本特征，并过滤掉冗余信息。

5.如权利要求1所述的手写文字的识别方法，其特征为：步骤d中对n层神经元遍历时，先对各神经元层的数据使用无监督学习方法进行处理，每一层网络在每次无监督学习方法处理后，将其结果作为更高一层的输入，最后对所有神经元层通过有监督训练方法进行调整。

6.如权利要求5所述的手写文字的识别方法，其特征为：结合至少一个用于产生预测的附加层对所有神经元层进行有监督训练方法调整。

7.如权利要求1至6之一所述的手写文字的识别方法，其特征为：所述的手写文字为手写数字的形状。