CN103559513A

CN103559513A - 手写体数字识别方法及系统

Info

Publication number: CN103559513A
Application number: CN201310582452.0A
Authority: CN
Inventors: 张莉; 丁春涛; 严晨; 王邦军; 李凡长; 杨季文
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2014-02-05

Abstract

本发明实施例公开了一种手写体数字识别方法及系统，把原空间的样本映射到隐空间，然后在隐空间中确定样本的最佳目标维数（即，负特征值的个数），使得在隐空间中的样本在映射到低维空间中后，具有更好的线性可分性，从而提高了手写体数字识别的识别率。

Description

手写体数字识别方法及系统

技术领域

本发明涉及模式识别领域，更具体地说，涉及一种手写体数字识别方法及系统。

背景技术

手写体数字识别一直是模式识别领域的研究热点。在现代社会，与手写体数字识别的相关应用领域不胜其数，例如：邮件分拣、财税、金融等领域。当涉及到数字识别时，人们往往会对识别系统的精度和准确率有着很高要求。随着经济的迅速发展，每天待处理的财会报表、支票等日益增多。如果能用计算机自动处理，则可以节省很大的财力、物力和人力，因此，针对这类问题的处理系统设计的关键环节之一就是设计出高可靠性和高识别率的数字识别方法。然而，没有哪个数字识别方法能够达到完美的识别效果。因此，对手写数字的识别研究仍然是有重大意义的。

K近邻分类器是一种经典的分类器，由于算法简单，在计算方面得到了广泛的应用。但是，由于K近邻分类器对每一个待分类的样本都要计算它到全体已知样本的距离才能求出它的K个近邻点，因此计算量特别大。

针对传统的基于K分类器的手写体数字识别方法的计算量大的问题，有人提出了一种新的基于K近邻分类准则的特征变换算法——判别近邻嵌入算法，该算法通过将数据映射到更低维空间，降低了K近邻分类的计算代价。但是发明人在实现本发明的过程中发现，基于判别近邻嵌入算法的手写体数字识别的识别率较低。

发明内容

本发明的目的是提供一种手写体数字识别方法，以提高手写体数字识别的识别率。

为实现上述目的，本发明提供了如下技术方案：

一种手写体数字识别方法，包括：

利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间，并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间，所述第一映射函数为：

z=[k(x,x₁) k(x,x₂) … k(x,x_N)]^T，

其中，x为原空间中的样本，x_i(i=1,2,...,N)为训练样本集中的第i个训练样本，z为第一隐空间中的，由样本x映射得到的样本，k(,)为核函数，N为原空间中的训练样本的个数；

将所述第一隐空间中的所有训练样本构建矩阵Z=[z₁,z₂,...,z_N]，并依据所述矩阵Z构建邻接矩阵F，其中，所述邻接矩阵F的第i行第j列的元素F_ij为：

依据所述邻接矩阵F构建对角矩阵S，所述对角矩阵S对角线上的元素为

S_{ii} = Σ_{j = 1}^{N} F_{ij};

对矩阵Z(S-F)Z进行特征分解，获取特征值，其中，第m个特征值为λ_m，与第m个特征值λ_m相对应的特征向量为p_m，将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p₁,p₂,...,p_d]，其中，d为所述预设数量；

利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间，并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间，所述第二映射函数为：

其中，

为第二隐空间中的，由样本z映射得到的样本；

依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离，获取所述第二隐空间中第n个待测样本的K个近邻训练样本；

依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。

上述方法，优选的，所述核函数为高斯核函数。

上述方法，优选的，所述核函数为多项式核函数。

上述方法，优选的，所述预设数量为所有负特征值的个数。

一种手写体数字识别系统，包括：

第一映射模块，用于利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间，并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间，所述第一映射函数为：

z=[k(x,x₁) k(x,x₂) … k(x,x_N)]^T，

第一矩阵构建模块，用于将所述第一隐空间中所有的训练样本构建矩阵Z=[z₁,z₂,...,z_N]，并依据所述矩阵Z构建邻接矩阵F，其中，所述邻接矩阵F的第i行第j列的元素F_ij为：

第二矩阵构建模块，用于依据所述邻接矩阵F构建对角矩阵S，所述对角矩阵S对角线上的元素为

第三矩阵构建模块，用于对矩阵Z(S-F)Z进行特征分解，获取特征值，其中第m个特征值为λ_m，与第m个特征值λ_m相对应的特征向量为p_m，将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p₁,p₂,...,p_d]，其中，d为所述预设数量；

第二映射模块，用于利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间，并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间，所述第二映射函数为：其中，

为第二隐空间中的，由样本z映射得到的样本；

近邻确定模块，用于依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离，获取所述第二隐空间中第n个待测样本的K个近邻训练样本；

数字类型确定模块，用于依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。

上述系统，优选的，所述核函数为高斯核函数。

上述系统，优选的，所述核函数为多项式核函数。

上述系统，优选的，所述预设数量为所有负特征值的个数。

通过以上方案可知，本申请提供的一种手写体数字识别方法及系统，把原空间的样本映射到隐空间，然后在隐空间中确定样本的最佳目标维数（即，负特征值的个数），使得在隐空间中的样本在映射到低维空间中后，具有更好的线性可分性，从而提高了手写体数字识别的识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种手写体数字识别方法的流程图；

图2为本申请实施例提供的一种手写体数字识别系统的结构示意图。

说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的部分，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本申请实施例提供的一种手写体数字识别方法的流程图，包括：

步骤S101：利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间，并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间，所述第一映射函数为：

z=[k(x,x₁) k(x,x₂) … k(x,x_N)]^T，

其中，x为原空间中的样本，x_i(i=1,2,...,N)为训练样本集中的第i个训练样本，z为第一隐空间中的，由样本x映射得到的样本，k(,)为核函数，N为原空间中的训练样本的个数。

为了方便叙述，设原空间的训练样本集为y_i是x_i的类型标签，c表示类型数，N表示训练样本的总个数，D表示训练样本的维数，即，训练样本x_i是D维的列向量，所述列向量是由样本图像数据按行进行拉伸或者由样本图像按列进行拉伸获得的。

下面举例说明如何对图像数据进行拉伸，由于一个图像数据是一个二维矩阵，假设一个图像数据是

[\begin{matrix} 1 & 1 & 1 \\ 2 & 2 & 2 \\ 3 & 3 & 3 \end{matrix}]

那么，对该图像数据按行拉伸具体为，从二维矩阵的第一行开始，将各个行依次连接成一个向量，获得向量数据：[1 1 1 2 2 2 3 3 3]^T；

对该图像数据按列拉伸具体为，从二维矩阵的第一列开始，将各个列依次连接成一个向量，获得向量数据：[1 2 3 1 2 3 1 2 3]^T。所述核函数可以为：高斯核函数，即

σ为高斯核函数的宽度参数，σ可通过经验值确定，或者通过实验从预先确定的几个可选值中确定一个最优值。

所述核函数还可以为：多项式核函数，即k(a,b)=(a·b+1)^w，w=1,2,...,M。

本申请实施例中，通过第一映射函数将原空间中的训练样本集映射为第一隐空间中的训练样本集；并通过第一映射函数将原空间中的待测样本集映射为第一隐空间中的待测样本集；其中，所述待测样本集中包括至少一个待测样本。

显然，z为N维向量。

步骤S102：将所述第一隐空间中的所有训练样本构建矩阵Z=[z₁,z₂,...,z_N]，并依据所述矩阵Z构建邻接矩阵F，其中，所述邻接矩阵F的第i行第j列的元素F_ij为：

其中，对角线上的元素F_ii取值为0。

由于训练样本中各个样本的数字类型是已知的，因此，当训练样本z_i的类型标签和训练样本z_j的类型标签相同时，确定训练样本z_i和训练样本z_j是同类的，否则是不同类的；

可以通过如下方法确定训练样本z_i和训练样本z_j是否为近邻：计算训练样本z_i与除所述训练样本z_i之外的每一个训练样本之间的距离，将与训练样本z_i之间的距离最短的训练样本确定为训练样本z_i的近邻训练样本；计算训练样本z_j与除所述训练样本z_j之外的每一个训练样本之间的距离，将与训练样本z_j之间的距离最短的训练样本确定为训练样本z_j的近邻训练样本，当训练样本z_i的近邻训练样本为z_j，且训练样本z_j的近邻为训练样本z_i时，确定训练样本z_i和训练样本z_j是近邻，否则确定训练样本z_i和训练样本z_j不为近邻。

由于Z为N×N维的矩阵，因此，F也为N×N维的矩阵。

步骤S103：依据所述邻接矩阵F构建对角矩阵S，所述对角矩阵S对角线上的元素为

S_{ii} = Σ_{j = 1}^{N} F_{ij};

也就是说，对角矩阵S对角线上的元素S_ii的取值为所述邻接矩阵F的第i行的所有元素值之和。

由于F为N×N维的矩阵，因此，S也为N×N维的矩阵。

步骤S104：对矩阵Z(S-F)Z进行特征分解，获取特征值，其中第m个特征值为λ_m，与第m个特征值λ_m相对应的特征向量为p_m，将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p₁,p₂,...,p_d]，其中，d为所述预设数量；

由于Z、S、F均为N×N维的矩阵，因此，Z(S-F)Z也为N×N维的矩阵，所以，特征向量为p_m为N维向量，而P=[p₁,p₂,...,p_d]则为N×d维矩阵。

本申请实施例中，在构建测度变换矩阵时，负特征值的个数d的取值可以为所有负特征值的个数，也可以为小于所述所有负特征值的个数的某个取值。d为大于或等于1，小于或等于N的一个整数，即1≤d≤N。例如，假设所有负特征值的个数为53，那么，d的取值可以为53，那么，也可以为50，也可以为3或2或1。

步骤S105：利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间，并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间，所述第二映射函数为：

其中，

为第二隐空间中的，由样本z映射得到的样本；

也就是说，第一隐空间中的样本z通过第二映射函数映射为了第二隐空间的

，更具体的说，第一隐空间的训练样本通过第二映射函数映射为了第二隐空间的训练样本，第一隐空间的待测样本通过第二函数映射为了第二隐空间的待测样本。

由于P^T为d×N维矩阵，z为N维向量，所以，

为d维向量。也就是说，经过两次映射，将原空间的样本的维数降低为了d维。

步骤S106：依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离，获取所述第二隐空间中第n个待测样本的K个近邻训练样本；

本申请实施例中，在第二隐空间中获取各个待测样本的K个近邻训练样本，由于第二空间中的待测样本和训练样本都是降维后的样本，因此，减小了获取K个近邻训练样本时的计算量。所述第n个待测样本的K个近邻训练样本可以是指所述第二隐空间中与所述第n个待测样本的距离最短的K个训练样本。

步骤S107：依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。

本申请实施例中，当所述K个近邻训练样本中，满足预设比例的训练样本的数字类型都为同一数字类型时，则确定所述第n个待测样本的数字类型为所述预设比例的训练样本的数字类型。

例如，如果所述预设比例的训练样本的数字类型都为6，即已知数据类型的手写体数字都为6，则，第n个待测样本的数字类型为6，即待识别图像数据所表示的手写体数字为6。

本申请实施例提供的手写体数字识别方法，把原空间的样本映射到隐空间，然后在隐空间中确定样本的最佳目标维数（即，负特征值的个数），使得在隐空间中的样本在映射到低维空间中后，具有更好的线性可分性，从而提高了手写体数字识别的识别率。

与方法实施例相对应，本申请还提供一种手写体数字识别系统，本申请实施例提供的一种手写体数字识别系统的结构示意图如图2所示，可以包括：

第一映射模块201，第一矩阵构建模块202，第二矩阵构建模块203，第三矩阵构建模块204，第二映射模块205，近邻确定模块206和数字类型确定模块207；其中，

第一映射模块201用于利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间，并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到第所述第一隐空间，所述第一映射函数为：

z=[k(x,x₁) k(x,x₂) … k(x,x_N)]^T，

本申请实施例中，所述核函数可以为：高斯核函数，即

σ为高斯核函数的宽度参数。

所述核函数还可以为：多项式核函数，即k(a,b)=(a·b+1)^d，d=1,2,...,M。

第一矩阵构建模块202与所述第一映射模块201相连接，用于将所述第一隐空间中所有的训练样本构建矩阵Z=[z₁,z₂,...,z_N]，并依据所述矩阵Z构建邻接矩阵F，其中，所述邻接矩阵F的第i行第j列的元素F_ij为：

其中，对角线上的元素F_ii取值为0。

第二矩阵构建模块203与所述第一矩阵构建模块202相连接，用于依据所述邻接矩阵F构建对角矩阵S，所述对角矩阵S对角线上的元素为

S_{ii} = Σ_{j = 1}^{N} F_{ij};

第三矩阵构建模块204分别与所述第一矩阵构建模块202和所述第二矩阵构建模块203相连接，用于对矩阵Z(S-F)Z进行特征分解，获取特征值，其中第m个特征值为λ_m，与第m个特征值λ_m相对应的特征向量为p_m，将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p₁,p₂,...,p_d]，其中，d为所述预设数量；

第二映射模块205分别与所述第一映射模块201和所述第三矩阵构建模块204相连接，用于利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间，并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间，所述第二映射函数为：

其中，

为第二隐空间中的，由样本z映射得到的样本；

近邻确定模块206与所述第二映射模块205相连接，用于依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离，获取所述第二隐空间中第n个待测样本的K个近邻训练样本；

数字类型确定模块207与所述近邻模块206相连接，用于用于依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。

下面以具体实例对本方案进行验证说明，本实例中，采用MNIST手写体数字数据集进行测试，MNIST是美国著名数据集NIST的子集，是模式识别常用的实验数据之一。MNIST手写体数据库共10类，公用60000个训练样本（数字类型已知）和10000个测试样本（数字类型未知）。

本实例中，选择其中五类进行测试，每类分别从训练集和测试集中随机选取200个，本实例中选择的数字为1、3、7、8和9，共5类。那么，原空间的训练样本集为：

{x_{i}, y_{i}}_{i = 1}^{N}, x_{i} &Element; R^{D}, y_{i} = {1,2, . . ., c},

其中，y_i是x_i的类型标签，c表示类型数，取值为5；N表示训练样本的总个数，取值为1000；D表示训练样本的维数，本实例中取值为784。

对于训练样本：

利用映射函数把原空间的训练样本x_i(i=1,2,...,1000)映射成第一隐空间中的训练样本z_i(i=1,2,...,1000)，即：

z_i=[k(x_i,x₁) k(x_i,x₂) … k(x_i,x₁₀₀₀)]^T

其中，核函数k(,)为高斯核函数，即：

σ=0.002

经映射后，第一隐空间中的训练样本集为：

{z_{i}, y_{i}}_{i = 1}^{N}, z_{i} &Element; R^{N};

构造第一隐空间中的训练样本矩阵：

Z=[z₁,z₂,...,z_N]，

邻接矩阵F的第第i行第j列的元素F_ij为：

依据所述邻接矩阵F构建对角矩阵S，所述对角矩阵S对角线上的元素为：

S_{ii} = Σ_{j = 1}^{N} F_{ij};

对矩阵Z(S-F)Z进行特征分解，获取特征值，其中第m个特征值为λ_m，与第m个特征值λ_m相对应的特征向量为p_m，将所有负特征值所对应的特征向量构建测度变换矩阵P=[p₁,p₂,...,p_d]，其中，d为负特征值的个数；本实例中，d的取值为68，其为所有负特征值的个数。

利用第二映射函数将第一隐空间中的训练样本z_i映射到第二隐空间，第二映射函数为：

\overset{&OverBar;}{z_{i}} = P^{T} z_{i},

经过第二次映射，得到的第二隐空间中的训练样本集为：

{\overset{&OverBar;}{z_{i}}, y_{i}}_{i = 1}^{N}, \overset{&OverBar;}{z_{i}} &Element; R^{d};

对于待测样本：

利用第一映射函数把原空间的待测样本

映射成第一隐空间中的待测样本

即：

z_{i}^{'} = {[\begin{matrix} k (x_{i}^{'}, x_{1}) & k (x_{i}^{'}, x_{2}) & . . . & k (x_{i}^{'}, x_{1000}) \end{matrix}]}^{T}

其中，核函数k(,)为高斯核函数，即：

σ=0.002

经映射后，第一隐空间中的待测样本集为：

{z_{i}^{'}, y_{i}}_{i = 1}^{1000}, z_{i}^{'} &Element; R^{1000};

\overset{&OverBar;}{z_{i}^{'}} = P^{T} z_{i}^{'},

经过第二次映射，得到的第二隐空间中的训练样本集为：

{\overset{&OverBar;}{z_{i}^{'}}, y_{i}}_{i = 1}^{1000}, \overset{&OverBar;}{z_{i}^{'}} &Element; R^{68};

对于第二隐空间中的第n个待测样本，在第二隐空间的训练样本中，找到和所述第n个待测样本相邻的K个训练样本，计算所述K个训练样本中，各个数字类型所占的比例，将所占比例最大的的数字类型赋予所述第n个待测样本。

下面将利用本申请提供的手写体数字识别方法对手写体数字进行识别的识别率与利用基于判别近邻嵌入算法的数字识别方法对手写体数字进行识别的识别率进行比对，详见表1，可以发现，本申请实施例提供的手写体数字识别方法的识别率明显优于判别近邻嵌入算法，并表现出了较强的稳定性，具有一定的优势。

表1

数字类型	判别近邻嵌入算法	本发明
			1	97.50±1.03	98.33±0.48
3	62.50±1.03	82.50±1.75
			7	71.67±2.14	88.33±1.15
8	44.17±3.35	91.67±0.53
			9	58.33±2.77	90.00±4.16
平均值	66.83±2.12	90.17±1.61

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。