CN103559513A - 手写体数字识别方法及系统 - Google Patents

手写体数字识别方法及系统 Download PDF

Info

Publication number
CN103559513A
CN103559513A CN201310582452.0A CN201310582452A CN103559513A CN 103559513 A CN103559513 A CN 103559513A CN 201310582452 A CN201310582452 A CN 201310582452A CN 103559513 A CN103559513 A CN 103559513A
Authority
CN
China
Prior art keywords
sample
hidden space
matrix
training sample
tested
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310582452.0A
Other languages
English (en)
Inventor
张莉
丁春涛
严晨
王邦军
李凡长
杨季文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201310582452.0A priority Critical patent/CN103559513A/zh
Publication of CN103559513A publication Critical patent/CN103559513A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种手写体数字识别方法及系统,把原空间的样本映射到隐空间,然后在隐空间中确定样本的最佳目标维数(即,负特征值的个数),使得在隐空间中的样本在映射到低维空间中后,具有更好的线性可分性,从而提高了手写体数字识别的识别率。

Description

手写体数字识别方法及系统
技术领域
本发明涉及模式识别领域,更具体地说,涉及一种手写体数字识别方法及系统。
背景技术
手写体数字识别一直是模式识别领域的研究热点。在现代社会,与手写体数字识别的相关应用领域不胜其数,例如:邮件分拣、财税、金融等领域。当涉及到数字识别时,人们往往会对识别系统的精度和准确率有着很高要求。随着经济的迅速发展,每天待处理的财会报表、支票等日益增多。如果能用计算机自动处理,则可以节省很大的财力、物力和人力,因此,针对这类问题的处理系统设计的关键环节之一就是设计出高可靠性和高识别率的数字识别方法。然而,没有哪个数字识别方法能够达到完美的识别效果。因此,对手写数字的识别研究仍然是有重大意义的。
K近邻分类器是一种经典的分类器,由于算法简单,在计算方面得到了广泛的应用。但是,由于K近邻分类器对每一个待分类的样本都要计算它到全体已知样本的距离才能求出它的K个近邻点,因此计算量特别大。
针对传统的基于K分类器的手写体数字识别方法的计算量大的问题,有人提出了一种新的基于K近邻分类准则的特征变换算法——判别近邻嵌入算法,该算法通过将数据映射到更低维空间,降低了K近邻分类的计算代价。但是发明人在实现本发明的过程中发现,基于判别近邻嵌入算法的手写体数字识别的识别率较低。
发明内容
本发明的目的是提供一种手写体数字识别方法,以提高手写体数字识别的识别率。
为实现上述目的,本发明提供了如下技术方案:
一种手写体数字识别方法,包括:
利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间,并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间,所述第一映射函数为:
z=[k(x,x1) k(x,x2) … k(x,xN)]T
其中,x为原空间中的样本,xi(i=1,2,...,N)为训练样本集中的第i个训练样本,z为第一隐空间中的,由样本x映射得到的样本,k(,)为核函数,N为原空间中的训练样本的个数;
将所述第一隐空间中的所有训练样本构建矩阵Z=[z1,z2,...,zN],并依据所述矩阵Z构建邻接矩阵F,其中,所述邻接矩阵F的第i行第j列的元素Fij为:
Figure BDA0000416476660000021
依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为 S ii = Σ j = 1 N F ij ;
对矩阵Z(S-F)Z进行特征分解,获取特征值,其中,第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为所述预设数量;
利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间,并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间,所述第二映射函数为:
Figure BDA0000416476660000023
其中,
Figure BDA0000416476660000024
为第二隐空间中的,由样本z映射得到的样本;
依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离,获取所述第二隐空间中第n个待测样本的K个近邻训练样本;
依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。
上述方法,优选的,所述核函数为高斯核函数。
上述方法,优选的,所述核函数为多项式核函数。
上述方法,优选的,所述预设数量为所有负特征值的个数。
一种手写体数字识别系统,包括:
第一映射模块,用于利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间,并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间,所述第一映射函数为:
z=[k(x,x1) k(x,x2) … k(x,xN)]T
其中,x为原空间中的样本,xi(i=1,2,...,N)为训练样本集中的第i个训练样本,z为第一隐空间中的,由样本x映射得到的样本,k(,)为核函数,N为原空间中的训练样本的个数;
第一矩阵构建模块,用于将所述第一隐空间中所有的训练样本构建矩阵Z=[z1,z2,...,zN],并依据所述矩阵Z构建邻接矩阵F,其中,所述邻接矩阵F的第i行第j列的元素Fij为:
Figure BDA0000416476660000031
第二矩阵构建模块,用于依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为
Figure BDA0000416476660000032
第三矩阵构建模块,用于对矩阵Z(S-F)Z进行特征分解,获取特征值,其中第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为所述预设数量;
第二映射模块,用于利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间,并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间,所述第二映射函数为:其中,
Figure BDA0000416476660000034
为第二隐空间中的,由样本z映射得到的样本;
近邻确定模块,用于依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离,获取所述第二隐空间中第n个待测样本的K个近邻训练样本;
数字类型确定模块,用于依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。
上述系统,优选的,所述核函数为高斯核函数。
上述系统,优选的,所述核函数为多项式核函数。
上述系统,优选的,所述预设数量为所有负特征值的个数。
通过以上方案可知,本申请提供的一种手写体数字识别方法及系统,把原空间的样本映射到隐空间,然后在隐空间中确定样本的最佳目标维数(即,负特征值的个数),使得在隐空间中的样本在映射到低维空间中后,具有更好的线性可分性,从而提高了手写体数字识别的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种手写体数字识别方法的流程图;
图2为本申请实施例提供的一种手写体数字识别系统的结构示意图。
说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本申请实施例提供的一种手写体数字识别方法的流程图,包括:
步骤S101:利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间,并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间,所述第一映射函数为:
z=[k(x,x1) k(x,x2) … k(x,xN)]T
其中,x为原空间中的样本,xi(i=1,2,...,N)为训练样本集中的第i个训练样本,z为第一隐空间中的,由样本x映射得到的样本,k(,)为核函数,N为原空间中的训练样本的个数。
为了方便叙述,设原空间的训练样本集为yi是xi的类型标签,c表示类型数,N表示训练样本的总个数,D表示训练样本的维数,即,训练样本xi是D维的列向量,所述列向量是由样本图像数据按行进行拉伸或者由样本图像按列进行拉伸获得的。
下面举例说明如何对图像数据进行拉伸,由于一个图像数据是一个二维矩阵,假设一个图像数据是
1 1 1 2 2 2 3 3 3
那么,对该图像数据按行拉伸具体为,从二维矩阵的第一行开始,将各个行依次连接成一个向量,获得向量数据:[1 1 1 2 2 2 3 3 3]T
对该图像数据按列拉伸具体为,从二维矩阵的第一列开始,将各个列依次连接成一个向量,获得向量数据:[1 2 3 1 2 3 1 2 3]T。所述核函数可以为:高斯核函数,即
Figure BDA0000416476660000053
σ为高斯核函数的宽度参数,σ可通过经验值确定,或者通过实验从预先确定的几个可选值中确定一个最优值。
所述核函数还可以为:多项式核函数,即k(a,b)=(a·b+1)w,w=1,2,...,M。
本申请实施例中,通过第一映射函数将原空间中的训练样本集映射为第一隐空间中的训练样本集;并通过第一映射函数将原空间中的待测样本集映射为第一隐空间中的待测样本集;其中,所述待测样本集中包括至少一个待测样本。
显然,z为N维向量。
步骤S102:将所述第一隐空间中的所有训练样本构建矩阵Z=[z1,z2,...,zN],并依据所述矩阵Z构建邻接矩阵F,其中,所述邻接矩阵F的第i行第j列的元素Fij为:
Figure BDA0000416476660000054
其中,对角线上的元素Fii取值为0。
由于训练样本中各个样本的数字类型是已知的,因此,当训练样本zi的类型标签和训练样本zj的类型标签相同时,确定训练样本zi和训练样本zj是同类的,否则是不同类的;
可以通过如下方法确定训练样本zi和训练样本zj是否为近邻:计算训练样本zi与除所述训练样本zi之外的每一个训练样本之间的距离,将与训练样本zi之间的距离最短的训练样本确定为训练样本zi的近邻训练样本;计算训练样本zj与除所述训练样本zj之外的每一个训练样本之间的距离,将与训练样本zj之间的距离最短的训练样本确定为训练样本zj的近邻训练样本,当训练样本zi的近邻训练样本为zj,且训练样本zj的近邻为训练样本zi时,确定训练样本zi和训练样本zj是近邻,否则确定训练样本zi和训练样本zj不为近邻。
由于Z为N×N维的矩阵,因此,F也为N×N维的矩阵。
步骤S103:依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为 S ii = Σ j = 1 N F ij ;
也就是说,对角矩阵S对角线上的元素Sii的取值为所述邻接矩阵F的第i行的所有元素值之和。
由于F为N×N维的矩阵,因此,S也为N×N维的矩阵。
步骤S104:对矩阵Z(S-F)Z进行特征分解,获取特征值,其中第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为所述预设数量;
由于Z、S、F均为N×N维的矩阵,因此,Z(S-F)Z也为N×N维的矩阵,所以,特征向量为pm为N维向量,而P=[p1,p2,...,pd]则为N×d维矩阵。
本申请实施例中,在构建测度变换矩阵时,负特征值的个数d的取值可以为所有负特征值的个数,也可以为小于所述所有负特征值的个数的某个取值。d为大于或等于1,小于或等于N的一个整数,即1≤d≤N。例如,假设所有负特征值的个数为53,那么,d的取值可以为53,那么,也可以为50,也可以为3或2或1。
步骤S105:利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间,并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间,所述第二映射函数为:
Figure BDA0000416476660000071
其中,
Figure BDA0000416476660000072
为第二隐空间中的,由样本z映射得到的样本;
也就是说,第一隐空间中的样本z通过第二映射函数映射为了第二隐空间的
Figure BDA0000416476660000074
,更具体的说,第一隐空间的训练样本通过第二映射函数映射为了第二隐空间的训练样本,第一隐空间的待测样本通过第二函数映射为了第二隐空间的待测样本。
由于PT为d×N维矩阵,z为N维向量,所以,
Figure BDA0000416476660000073
为d维向量。也就是说,经过两次映射,将原空间的样本的维数降低为了d维。
步骤S106:依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离,获取所述第二隐空间中第n个待测样本的K个近邻训练样本;
本申请实施例中,在第二隐空间中获取各个待测样本的K个近邻训练样本,由于第二空间中的待测样本和训练样本都是降维后的样本,因此,减小了获取K个近邻训练样本时的计算量。所述第n个待测样本的K个近邻训练样本可以是指所述第二隐空间中与所述第n个待测样本的距离最短的K个训练样本。
步骤S107:依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。
本申请实施例中,当所述K个近邻训练样本中,满足预设比例的训练样本的数字类型都为同一数字类型时,则确定所述第n个待测样本的数字类型为所述预设比例的训练样本的数字类型。
例如,如果所述预设比例的训练样本的数字类型都为6,即已知数据类型的手写体数字都为6,则,第n个待测样本的数字类型为6,即待识别图像数据所表示的手写体数字为6。
本申请实施例提供的手写体数字识别方法,把原空间的样本映射到隐空间,然后在隐空间中确定样本的最佳目标维数(即,负特征值的个数),使得在隐空间中的样本在映射到低维空间中后,具有更好的线性可分性,从而提高了手写体数字识别的识别率。
与方法实施例相对应,本申请还提供一种手写体数字识别系统,本申请实施例提供的一种手写体数字识别系统的结构示意图如图2所示,可以包括:
第一映射模块201,第一矩阵构建模块202,第二矩阵构建模块203,第三矩阵构建模块204,第二映射模块205,近邻确定模块206和数字类型确定模块207;其中,
第一映射模块201用于利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间,并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到第所述第一隐空间,所述第一映射函数为:
z=[k(x,x1) k(x,x2) … k(x,xN)]T
其中,x为原空间中的样本,xi(i=1,2,...,N)为训练样本集中的第i个训练样本,z为第一隐空间中的,由样本x映射得到的样本,k(,)为核函数,N为原空间中的训练样本的个数;
本申请实施例中,所述核函数可以为:高斯核函数,即
Figure BDA0000416476660000081
σ为高斯核函数的宽度参数。
所述核函数还可以为:多项式核函数,即k(a,b)=(a·b+1)d,d=1,2,...,M。
第一矩阵构建模块202与所述第一映射模块201相连接,用于将所述第一隐空间中所有的训练样本构建矩阵Z=[z1,z2,...,zN],并依据所述矩阵Z构建邻接矩阵F,其中,所述邻接矩阵F的第i行第j列的元素Fij为:
Figure BDA0000416476660000082
其中,对角线上的元素Fii取值为0。
第二矩阵构建模块203与所述第一矩阵构建模块202相连接,用于依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为 S ii = Σ j = 1 N F ij ;
第三矩阵构建模块204分别与所述第一矩阵构建模块202和所述第二矩阵构建模块203相连接,用于对矩阵Z(S-F)Z进行特征分解,获取特征值,其中第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为所述预设数量;
第二映射模块205分别与所述第一映射模块201和所述第三矩阵构建模块204相连接,用于利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间,并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间,所述第二映射函数为:
Figure BDA0000416476660000094
其中,
Figure BDA0000416476660000095
为第二隐空间中的,由样本z映射得到的样本;
近邻确定模块206与所述第二映射模块205相连接,用于依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离,获取所述第二隐空间中第n个待测样本的K个近邻训练样本;
数字类型确定模块207与所述近邻模块206相连接,用于用于依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。
下面以具体实例对本方案进行验证说明,本实例中,采用MNIST手写体数字数据集进行测试,MNIST是美国著名数据集NIST的子集,是模式识别常用的实验数据之一。MNIST手写体数据库共10类,公用60000个训练样本(数字类型已知)和10000个测试样本(数字类型未知)。
本实例中,选择其中五类进行测试,每类分别从训练集和测试集中随机选取200个,本实例中选择的数字为1、3、7、8和9,共5类。那么,原空间的训练样本集为:
{ x i , y i } i = 1 N , x i ∈ R D , y i = { 1,2 , . . . , c } ,
其中,yi是xi的类型标签,c表示类型数,取值为5;N表示训练样本的总个数,取值为1000;D表示训练样本的维数,本实例中取值为784。
对于训练样本:
利用映射函数把原空间的训练样本xi(i=1,2,...,1000)映射成第一隐空间中的训练样本zi(i=1,2,...,1000),即:
zi=[k(xi,x1) k(xi,x2) … k(xi,x1000)]T
其中,核函数k(,)为高斯核函数,即:
Figure BDA0000416476660000092
σ=0.002
经映射后,第一隐空间中的训练样本集为:
{ z i , y i } i = 1 N , z i ∈ R N ;
构造第一隐空间中的训练样本矩阵:
Z=[z1,z2,...,zN],
邻接矩阵F的第第i行第j列的元素Fij为:
Figure BDA0000416476660000101
依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为:
S ii = Σ j = 1 N F ij ;
对矩阵Z(S-F)Z进行特征分解,获取特征值,其中第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将所有负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为负特征值的个数;本实例中,d的取值为68,其为所有负特征值的个数。
利用第二映射函数将第一隐空间中的训练样本zi映射到第二隐空间,第二映射函数为:
z i ‾ = P T z i ,
经过第二次映射,得到的第二隐空间中的训练样本集为:
{ z i ‾ , y i } i = 1 N , z i ‾ ∈ R d ;
对于待测样本:
利用第一映射函数把原空间的待测样本
Figure BDA00004164766600001010
映射成第一隐空间中的待测样本
Figure BDA00004164766600001011
即:
z i ′ = k ( x i ′ , x 1 ) k ( x i ′ , x 2 ) . . . k ( x i ′ , x 1000 ) T
其中,核函数k(,)为高斯核函数,即:
Figure BDA0000416476660000105
σ=0.002
经映射后,第一隐空间中的待测样本集为:
{ z i ′ , y i } i = 1 1000 , z i ′ ∈ R 1000 ;
利用第二映射函数将第一隐空间中的训练样本zi映射到第二隐空间,第二映射函数为:
z i ′ ‾ = P T z i ′ ,
经过第二次映射,得到的第二隐空间中的训练样本集为:
{ z i ′ ‾ , y i } i = 1 1000 , z i ′ ‾ ∈ R 68 ;
对于第二隐空间中的第n个待测样本,在第二隐空间的训练样本中,找到和所述第n个待测样本相邻的K个训练样本,计算所述K个训练样本中,各个数字类型所占的比例,将所占比例最大的的数字类型赋予所述第n个待测样本。
下面将利用本申请提供的手写体数字识别方法对手写体数字进行识别的识别率与利用基于判别近邻嵌入算法的数字识别方法对手写体数字进行识别的识别率进行比对,详见表1,可以发现,本申请实施例提供的手写体数字识别方法的识别率明显优于判别近邻嵌入算法,并表现出了较强的稳定性,具有一定的优势。
表1
数字类型 判别近邻嵌入算法 本发明
1 97.50±1.03 98.33±0.48
3 62.50±1.03 82.50±1.75
7 71.67±2.14 88.33±1.15
8 44.17±3.35 91.67±0.53
9 58.33±2.77 90.00±4.16
平均值 66.83±2.12 90.17±1.61
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种手写体数字识别方法,其特征在于,包括:
利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间,并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间,所述第一映射函数为:
z=[k(x,x1)k(x,x2)…k(x,xN)]T
其中,x为原空间中的样本,xi(i=1,2,...,N)为训练样本集中的第i个训练样本,z为第一隐空间中的,由样本x映射得到的样本,k(,)为核函数,N为原空间中的训练样本的个数;
将所述第一隐空间中的所有训练样本构建矩阵Z=[z1,z2,...,zN],并依据所述矩阵Z构建邻接矩阵F,其中,所述邻接矩阵F的第i行第j列的元素Fij为:
Figure FDA0000416476650000011
依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为 S ii = Σ j = 1 N F ij ;
对矩阵Z(S-F)Z进行特征分解,获取特征值,其中,第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为所述预设数量;
利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间,并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间,所述第二映射函数为:
Figure FDA0000416476650000013
其中,
Figure FDA0000416476650000014
为第二隐空间中的,由样本z映射得到的样本;
依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离,获取所述第二隐空间中第n个待测样本的K个近邻训练样本;
依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。
2.根据权利要求1所述的方法,其特征在于,所述核函数为高斯核函数。
3.根据权利要求1所述的方法,其特征在于,所述核函数为多项式核函数。
4.根据权利要求1-3任意一项所述的方法,其特征在于,所述预设数量为所有负特征值的个数。
5.一种手写体数字识别系统,其特征在于,包括:
第一映射模块,用于利用第一映射函数将训练样本集中的各个训练样本由原空间映射到第一隐空间,并利用所述第一映射函数将待测样本集中的各个待测样本由原空间映射到所述第一隐空间,所述第一映射函数为:
z=[k(x,x1)k(x,x2)…k(x,xN)]T
其中,x为原空间中的样本,xi(i=1,2,...,N)为训练样本集中的第i个训练样本,z为第一隐空间中的,由样本x映射得到的样本,k(,)为核函数,N为原空间中的训练样本的个数;
第一矩阵构建模块,用于将所述第一隐空间中所有的训练样本构建矩阵Z=[z1,z2,...,zN],并依据所述矩阵Z构建邻接矩阵F,其中,所述邻接矩阵F的第i行第j列的元素Fij为:
Figure FDA0000416476650000021
第二矩阵构建模块,用于依据所述邻接矩阵F构建对角矩阵S,所述对角矩阵S对角线上的元素为
Figure FDA0000416476650000022
第三矩阵构建模块,用于对矩阵Z(S-F)Z进行特征分解,获取特征值,其中第m个特征值为λm,与第m个特征值λm相对应的特征向量为pm,将预设数量个负特征值所对应的特征向量构建测度变换矩阵P=[p1,p2,...,pd],其中,d为所述预设数量;
第二映射模块,用于利用第二映射函数将所述第一隐空间中的各个训练样本映射到第二隐空间,并利用所述第二映射函数将所述第一隐空间中的待测样本映射到第二隐空间,所述第二映射函数为:
Figure FDA0000416476650000023
其中,
Figure FDA0000416476650000024
为第二隐空间中的,由样本z映射得到的样本;
近邻确定模块,用于依据所述第二隐空间中第n个待测样本与所述第二隐空间中每一个训练样本之间的距离,获取所述第二隐空间中第n个待测样本的K个近邻训练样本;
数字类型确定模块,用于依据所述第二隐空间中第n个待测样本的K个近邻训练样本的数字类型确定所述第二隐空间中第n个待测样本的数字类型。
6.根据权利要求5所述的系统,其特征在于,所述核函数为高斯核函数。
7.根据权利要求5所述的系统,其特征在于,所述核函数为多项式核函数。
8.根据权利要求5-8任意一项所述的系统,其特征在于,所述预设数量为所有负特征值的个数。
CN201310582452.0A 2013-11-18 2013-11-18 手写体数字识别方法及系统 Pending CN103559513A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310582452.0A CN103559513A (zh) 2013-11-18 2013-11-18 手写体数字识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310582452.0A CN103559513A (zh) 2013-11-18 2013-11-18 手写体数字识别方法及系统

Publications (1)

Publication Number Publication Date
CN103559513A true CN103559513A (zh) 2014-02-05

Family

ID=50013754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310582452.0A Pending CN103559513A (zh) 2013-11-18 2013-11-18 手写体数字识别方法及系统

Country Status (1)

Country Link
CN (1) CN103559513A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093235A (zh) * 2012-12-30 2013-05-08 北京工业大学 一种基于改进距离核主成分分析的手写体数字识别方法
CN103310205A (zh) * 2013-07-01 2013-09-18 苏州大学 一种手写体数字识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093235A (zh) * 2012-12-30 2013-05-08 北京工业大学 一种基于改进距离核主成分分析的手写体数字识别方法
CN103310205A (zh) * 2013-07-01 2013-09-18 苏州大学 一种手写体数字识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI ZHANG ET AL: "Discriminant neighborhood embedding for classification", 《PATTERN RECOGNITION》 *
张巍: "基于k近邻分类准则的特征变换算法研究", 《中国博士学位论文全文数据库 信息科技辑》 *
高聪 等: "李群核学习算法研究", 《计算机科学与探索》 *

Similar Documents

Publication Publication Date Title
Tan et al. Data mining cluster analysis: basic concepts and algorithms
CN102496034B (zh) 基于直线单词的高空间分辨率遥感图像词袋分类方法
CN104464079B (zh) 基于模板特征点及其拓扑结构的多币种面值识别方法
CN101980250B (zh) 基于降维局部特征描述子和隐条件随机场的目标识别方法
CN101853392B (zh) 基于条件互信息的遥感高光谱图像波段选择方法
CN104182763B (zh) 一种基于花朵特征的植物种类识别系统
CN102592134B (zh) 一种高光谱与红外数据多级决策融合分类方法
CN103164701B (zh) 手写体数字识别方法及装置
CN102567993B (zh) 基于主成分分析的指纹图像质量评价方法
CN103761507B (zh) 一种基于韦伯法则的局部多值模式的人脸识别方法
CN102722713B (zh) 一种基于李群结构数据的手写体数字识别方法及系统
CN103679207A (zh) 一种手写体数字识别方法及系统
CN108021890B (zh) 一种基于plsa和bow的高分遥感影像港口检测方法
Obaidullah et al. A system for handwritten script identification from Indian document
CN107239792A (zh) 一种基于二进制描述子的工件识别方法及装置
CN103092931A (zh) 多策略结合文档自动分类方法
CN103426004B (zh) 基于纠错输出编码的车型识别方法
CN103208011A (zh) 基于均值漂移和组稀疏编码的高光谱图像空谱域分类方法
CN104834938A (zh) 基于主成分和聚类分析的高光谱信息提取方法
CN102867195A (zh) 一种遥感图像多类目标检测和识别方法
CN103679161A (zh) 一种人脸识别方法和装置
CN105160351A (zh) 基于锚点稀疏图的半监督高光谱分类方法
CN103310205B (zh) 一种手写体数字识别方法及装置
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
CN104899846A (zh) 基于频域局部统计模型的数字图像拼接被动检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205

RJ01 Rejection of invention patent application after publication