CN105139036A

CN105139036A - 一种基于稀疏编码的手写体数字识别方法

Info

Publication number: CN105139036A
Application number: CN201510551089.5A
Authority: CN
Inventors: 张海仙; 章毅
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2015-06-19
Filing date: 2015-09-01
Publication date: 2015-12-09
Anticipated expiration: 2035-09-01
Also published as: CN105139036B

Abstract

本发明公开了一种基于稀疏编码的手写体数字识别方法，用于解决现有手写邮政编码由于每个人写字习惯的不同而导致的识别效率低的问题。本发明包括1）读入训练集，将训练集组成一个字典；2）读入测试例，对测试例进行特征提取；3）通过稀疏编码算法将测试例用训练集字典进行稀疏表达；4）通过分类器进行分类识别。本发明在用测试集的各个列的线性来表示测试例的时候充分利用了训练集每一个元素的性质，因此能够提高手写体邮政编码的识别正确率，提高邮件分拣的速度。

Description

一种基于稀疏编码的手写体数字识别方法

技术领域

本发明属于字体识别技术，具体涉及一种基于稀疏编码的手写体数字识别方法。

背景技术

随着互联网和经济的高速发展，选择网上购物和银行卡支付的人越来越多，电子商务的业务量大增，人们对物流的需求也随之增加。因此，如何大量邮件进行正确而高效的分拣变得至关重要。现在邮政部门大多采用电子设备来帮助完成分拣工作，邮件的自动分拣通常是通过计算机对邮件上六位数的邮政编码进行分类得以实现。虽然邮政编码只有十个数字，但由于每个人的手写体会因个人写字习惯的不同有很大的差异，所以手写数字的识别对于邮件的自动分拣非常重要。

手写体数字在统计报表、邮政编码、各种票据上都可以见到，它的电子识别有着广阔的应用前景。

稀疏编码作为近年来的计算机领域的一个研究热点，在人脸识别等分类问题上已经有十分良好的表现。充实的理论基础和大量应用成果都说明稀疏编码有足够潜力解决手写体识别问题。手写体的研宄涉及数字图像的处理、人工智能、模式识别、特征提取、组合数学等多个颖域，现在已经取得了一些成绩。很多手机和平板电脑都能支持手写输入，但由于技术原因是还常会出现手写体不能识别或者识别错误的情况，这使得还只能限于人们要求不高的生活和娱乐方面，要想在工业和财务、物流上大规模使用还需要做更多的研究工作。

本申请正是要提供一种基于稀疏编码的手写体数字识别方法，具有识别正确率高，能够提高了手写数字的录入速度，提高识别效率。

发明内容

本发明为了解决现有手写邮政编码由于每个人写字习惯的不同而导致的识别效率低的问题，而提供一种基于稀疏编码的手写体数字识别方法，具有识别效率高的问题，能够准确的识别不同人书写的数字，提高识别效率。

本发明为解决上述技术问题所采用的技术方案是：

一种基于稀疏编码的手写体数字识别方法，其特征在于，包括以下步骤，

1)读入训练集，将训练集组或一个字典；

2)读入测试例，对测试例进行特征提取；

3)通过稀疏编码算法将测试例用训练集字典进行稀疏表达；

4)通过分类器进行分类识别。

所述的读入训练集的方法为将手写体数据库中的含有0-9的训练集以图像的形式录入系统中，每张图片的灰度为8，每张图片大小为28*28。

所述的将训练集组成一个字典的方法为：将每个训练集的图片数据作为一列，然后把这些列全部接顺序拼接起来，经特征提取之后即是所需要的字典；采用随机映射对训练集进行图片特征提取；随机映射算法最主要的部分就是用于降维的矩阵的生成，利用r_i，j＝randomGaussian产一个降维用的矩阵R_k×d，该矩阵的元素满足高斯分布；同时使用式子进行降维，其中R_k×d矩阵使用Matlab的randn(k，d)函数来产生，该函数的功能正是产生一个高斯分布的k×d大小的随机矩阵；在生成R_k×d矩阵后对于字典使用R_k×d进行特征提取；将训练集的字典X_d×N维数降至k表示降维后的维度，系统实现时k作为一个变量，以方便后面的实验，调整k的大小，通过实验得到一个合适的k，让识别正确率比时间取得一个合适的值，最终再确定k的取值。

对于测试例采用随机映射对测试例进行图片特征提取。

所述的通过稀疏编码算法将测试例用训练集字典进行稀疏表达为：将训练集作为字典矩阵A，把测试例作为y，然后求解y＝Ax的稀疏解，对测试例y进行稀疏表达；具体为将每个训练集的数据作为一个列向量V_i∈R^m，那么训练集可以表示为A＝[V₁，V₂…V_n]∈R^m×n，A为训练集的字典矩阵，将特证提取后的测试例作为列向量y∈R^m，解y＝Ax，x∈Rⁿ这个欠定性方程组，并且满足min||x||₀，即min||x||₀s.t.Ax＝y，根据BP原理l₁范数约束与l₀范数约束有等效的解，因此min||x||₁s.t.Ax＝y；解出来的x∈Rⁿ向量表示训练集对测试例的表示，即训练集的线性组合表达出测试例y。

所述采用分类器进行分类识别的方法为：采用式子对测试例进行分类：

定义已知A矩阵和向量

\begin{matrix} x & \begin{matrix} x_{1} \\ . \\ . \\ . \\ x_{n} \end{matrix} \end{matrix};

定义V_i＝[A_1，i…A_m，i]^T，也就是训练集里面的第i个数据的向量，那么选t这个数字的所有训练集的列向量定义为M_t＝[V_i…V_j]，其中[i..j]表示t这个数字的所有训练样本的图像的列向量的编号；定义其中对于相同的t的的[i..j]范围和M_t相同；那么要求出最小的一个这个测试例就是数字t。

与现有技术相比，本发明具有以下有益效果：

本发明的基于稀疏编码的手写体数字识别方法，在用测试集的各个列的线性来表示测试例的时候充分利用了训练集每一个元素的性质，因此能够提高手写体数字的识别正确率，识别的速度。

具体实施方式

下面结合实施例对本发明作进一步的描述，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例，都属于本发明的保护范围。

本发明的基于稀疏编码的手写体数字识别方法，包括以下步骤，

1)读入训练集，将训练集组成一个字典；

2)读入测试例，对测试例进行特征提取；

3)通过稀疏编码算法将测试例用训练集字典进行稀疏表达；

4)通过分类器进行分类识别。

所述的将训练集组成一个字典的方法为：将每个训练集的图片数据作为一列，然后把这些列全部按顺序拼接起来，经特征提取之后即是所需要的字典；对于这些列向量按顺序拼接，使用Matlab的reshape()函数即可。

采用随机映射对训练集进行图片特征提取；随机映射(RandomProjection，RP)主要是将给定的m×n大小的矩阵X^[26]。将它的数据维度降到低维(r维，r＜＜d)的子空间，通过一组随机项来确定这个映射。

X_{m \times r}^{R P} = X_{m \times n} R_{n \times r}

随机降维的思想基于Johnson-Lindenstrauss引理，对于任意0＜ε＜1和整数n，设r是一个正整数，并且r满足：

r &GreaterEqual; 4 {(\frac{ϵ^{2}}{2} - \frac{ϵ^{3}}{3})}^{- r} \ln n

对于在R^d中间的n个点的集合W，有这么一个映射f：R^d-＞R^r，对所有u，v∈W：

(1-ε)||u-v||²≤||f(u)-f(v)||²≤(1+ε)||u-v||²

J-L引理说明了高维的欧几里得空间可以映射到一个维的子空间，此映射让点间距对于任意0＜ε＜1能近似的保留，而且此映射可以在多项式时间内找到。J-L引理简单地说就是在一个百万维空间里的任意一万个点，一定可以被放入一个几十维的子空间里。

随机映射对于一个m×n的矩阵，可以降维到m×r的大小，时间复杂度为O(m×n×r)。如果原始矩阵是一个比较大的稀疏的矩阵，随机映射降维的时间复杂度可以进一步减少到O(c×m×r)，其中c＜n，c为行非零元素个数的平均值^[27]。

随机映射算法最主要的部分就是用于降维的矩阵的生成，利用r_i，j＝randomGaussian产一个降维用的矩阵R_k×d，该矩阵的元素满足高斯分布；同时使用式子进行降维，其中R_k×d矩阵使用Matlab的randn(k，d)函数来产生，该函数的功能正是产生一个高斯分布的k×d大小的随机矩阵；在生成R_k×d矩阵后对于字典使用R_k×d进行特征提取；将训练集的字典X_d×N维数降至k表示降维后的维度，测试时k作为一个变量，以方便后面的实验，调整k的大小，通过实验得到一个合适的k，让识别正确率比时间取得一个合适的值，最终再确定k的取值。在进行分类识别的时候，需要求出最小的一个因此调整k的大小，从而求出最小的一个

对于测试例采用随机映射对测试例进行图片特征提取。

所述的通过稀疏编码算法将测试例用训练集字典进行稀疏表达为：将训练集作为字典矩阵A，把测试例作为y，然后求解y＝Ax的稀疏解，对测试例y进行稀疏表达；具体为将每个训练集的数据怍为一个列向量V_i∈R^m，那么训练集可以表示为A＝[V₁，V₂…V_n]∈R^m×n，A为训练集的字典矩阵，将特证提取后的测试例作为列向量y∈R^m，解y＝Ax，x∈Rⁿ这个欠定性方程组，并且满足min||x||₀，即min||x||₀s.t.Ax＝y，根据BP原理l₁范数约束与l₀范数约束有等效的解，因此min||x||₁s.t.Ax＝y；解出来的x∈Rⁿ向量表示训练集对测试例的表示，即训练集的线性组合表达出测试例y。

所述采用分类器进行分类识别的方法为：采用式子对测试例进行分类；

定义已经A矩阵和向量

\begin{matrix} x & \begin{matrix} x_{1} \\ . \\ . \\ . \\ x_{n} \end{matrix} \end{matrix};

Claims

1.一种基于稀疏编码的手写体数字识别方法，其特征在于，包括以下步骤，

1)读入训练集，将训练集组成一个字典；

2)读入测试例，对测试例进行特征提取；

3)通过稀疏编码算法将测试例用训练集字典进行稀疏表达；

4)通过分类器进行分类识别。

2.根据权利要求1所述的基于稀疏编码的手写体数字识别方法，其特征在于，读入训练集的方法为将手写体数据库中的含有0-9的训练集以图像的邢式录入系统中，每张图片的灰度为8，每张图片大小为28*28。

3.根据权利要求2所述的基于稀疏编码的手写体数字识别方法，其特征在于，将训练集组成一个字典的步骤为：将每个训练集的图片数据作为一列，然后把这些列全部按顺序拼接起来，经特征提取之后即是所需要的字典；采用随机映射对训练集进行图片特征提取；随机映射算法用于降维的矩阵的生成，利用r_i，j＝randomGaussian产一个降维用的矩阵R_k×d，该矩阵的元素满足高斯分布；同时使用式子进行降维，其中R_k×d矩阵使用Matlab的randn(k，d)函数来产生，该函数的功能正是产生一个高斯分布的k×d大小的随机矩阵；在生成R_k×d矩阵后对于字典使用R_k×d进行特征提取；将训练集的字典X_d×N维数降至k表示降维后的维度。

4.根据权利要求1所述的基于稀疏编码的手写体数字识别方法，其特征在于，对于测试例采用随机映射对测试例进行图片特征提取。

5.根据权利要求1所述的基于稀疏编码的手写体数字识别方法，其特征在于，稀疏编码算法为，将训练集作为字典矩阵A，把测试例作为y，然后求解y＝Ax的稀疏解，对测试例y进行稀疏表达；具体方法为将每个训练集的数据作为一个列向量V_i∈R^m，那么训练集可以表示为A＝[V₁，V₁...V_n]∈R^m×n；将特证提取后的测试例作为列向量y∈R^m，解y＝Ax，x∈Rⁿ这个欠定性方程组，并且满足min||x||₀，即min||x||₀s.t.Ax＝y，根据BP原理l₁范数约束与l₀范数约束有等效的解，因此min||x||₁s.t.Ax＝y；解出来的x∈Rⁿ向量表示训练集对测试例的表示，即训练集的线性组合表达出测试例y。

6.根据权利要求1所述的基于稀疏编码的手写体数字识别方法，其特征在于，所述采用分类器进行分类识别的方法为：采用式子对测试例进行分类；

定义已经A矩阵和向量

定义V_i＝[A_1，i…A_m，i]^T，也就是训练集里面的第i个数据的向量，那么选t这个数字的所有训练集的列向量定义为M_t＝[V_i...V_j]，其中[i..j]表示t这个数字的所有训练样本的图像的列向量的编号；定义其中对于相同的t的的[i..j]范围和M_t相同；那么要求出最小的一个这个测试例就是数字t。