CN109784266B

CN109784266B - 一种多模型超图的手写汉字识别算法

Info

Publication number: CN109784266B
Application number: CN201910021582.4A
Authority: CN
Inventors: 魏炳辉
Original assignee: COLLEGE OF APPLIED SCIENCE JIANGXI UNIVERSITY OF SCIENCE AND TECHNOLOGY
Current assignee: COLLEGE OF APPLIED SCIENCE JIANGXI UNIVERSITY OF SCIENCE AND TECHNOLOGY
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2021-12-03
Anticipated expiration: 2039-01-09
Also published as: CN109784266A

Abstract

本发明公开了一种多模型超图的手写汉字识别算法，包括：特征提取、构建普通超图、构建稀疏超图、样本成对约束和融合稀疏表示与成对约束理论的超图学习。基于超图的学习模型是一种非常重要的直推式半监督学习方法，在已有的直推式半监督学习算法中，超图学习方法能获得较好的性能。

Description

一种多模型超图的手写汉字识别算法

技术领域

本发明涉及汉字识别算法技术领域，尤其是涉及一种多模型超图的手写汉字识别算法。

背景技术

目前，地质调查的野外工作是数据的重要来源，这部分人工记录的原始地质资料在地质大数据中占有相当大的比例，其蕴含着大量有价值的信息，但出于技术原因，这部分数据中的信息无法利用，成为了“暗数据”。汉字识别技术主要分为印刷体识别和手写体识别两大类。手写汉字的随意性大，比印刷体难识别。手写汉字识别根据数据采集的方式又可分为联机识别和脱机识别。在联机识别中，计算机能获得输入字符的笔画顺序，因此比脱机识别获得的信息更多，更容易识别。再加上拍照或扫描的过程中，不同的光照、分辨率、纸张等都会带来干扰。因此，脱机手写汉字识别远比联机识别要难。

发明内容

本发明的目的在于提供一种多模型超图的手写汉字识别算法。

为实现上述目的，本发明采用以下内容：

一种多模型超图的手写汉字识别算法，包括：特征提取：利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分别分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集。然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；构建普通超图：距离其最近的若干样本所组成的集合为一条超边；构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；样本成对约束：成对约束包含两个约束：必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者说同类样本通过学习后，其类别信念必须相近；而不能连接约束规定不同类的样本通过学习后，其类别信念相距越远越好；融合稀疏表示与成对约束理论的超图学习。

优选的是，所述特征提取包括结构特征和统计特征；所述结构特征包括质心特征、笔划特征、笔划特征点和几何特征；所述统计特征包括方向特征、网格特征和Gabor特征。

优选的是，所述质心特征是文本笔划分布的体现，将二值图像转化成点阵形式，再依据质心计算公式求出水平质心与垂直质心；所述笔划特征由横、竖、撇、捺四种基本笔划构成，对单字分别提取这四种基本笔划，统计出各自的数量；所述笔划特征点主要有端点、折点、歧点与交点，端点是笔划的起点或终点，折点是笔划方向出现显著变化的点，歧点是三叉点，交点是四叉点，按序对二值图像进行扫描，统计出各笔划特征点的个数；所述几何特征是计算包含文本块的最小矩形的长宽比值。

优选的是，所述方向特征是文本块的方向角度；所述网格特征是把包含文本块的最小矩形平均分成若干行若干列，每个单元格中文字像素点的个数统计；Gabor特征是在网格基础上计算Gabor变换后的对应能量表示。

本发明具有以下优点：

本系统设计一种多模型的超图学习算法来识别手写汉字块，根据训练样本间距离关系构建样本关系阵，再以样本的稀疏表示参数为样本间的关系紧密性权重构建另一个样本关系阵，最后以样本约束法则为基础，以标记样本间的关系权重构建标记样本间的关系阵，融合这几个关系矩阵成为多模型的超图学习框架。通过迭代学习，找出最优的手写汉字块类别归属，在手写汉字块的实验中表现出一定的优势。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明。

图1是本发明的一种多模型超图的手写汉字识别算法的流程图。

图2是本发明的模型结构示意图。

图3和图4是本发明的实施例示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例对本发明做进一步的说明。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

如图1至4所示，一种多模型超图的手写汉字识别算法包括：

特征提取：收集68个志愿者手写的64遍“网络基础”的文本块图像；利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分别分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集。然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；实验首先对每个文本块进行特征分析，志愿者在写文字时没有限定写法，对字体、字号、粗细、字间距、高低等不作要求，完全按照其真实的写法；结构特征包含质心特征、笔划特征、笔划特征点、几何特征；质心特征(2D，2维向量)是文本笔划分布的体现，将二值图像转化成点阵形式，再依据质心计算公式求出水平质心与垂直质心；笔划特征(4D)由横、竖、撇、捺四种基本笔划构成，对单字分别提取这四种基本笔划，统计出各自的数量；笔划特征点(4D)主要有端点、折点、歧点与交点，端点是笔划的起点或终点，折点是笔划方向出现显著变化的点，歧点是三叉点，交点是四叉点，按序对二值图像进行扫描，统计出各笔划特征点的个数；几何特征(1D)是计算包含文本块的最小矩形的长宽比值；统计特征包含方向特征、网格特征、Gabor特征等；方向特征(1D)是文本块的方向角度；网格特征(30D)是把包含文本块的最小矩形平均分成若干行若干列，每个单元格中文字像素点的个数统计，本文实验时分成3行10列共30个单元格；Gabor特征(30D)是在网格基础上计算Gabor变换后的对应能量表示；最后组合这些多种特征为文本块的72维的特征向量。

构建普通超图：距离其最近的若干样本所组成的集合为一条超边；设定图G＝(X，E)，所有样本x构成样本集X，和所有的超边e集合构成边集E，每一条超边包含了若干个样本，边的权重是该边中所有样本间的距离平均值；设定矩阵D_v、D_e和W对角线元素分别表示相应样本所在的边数、超边中样本的个数和超边的权值，设定邻接阵H，矩阵元素表示两样本间的连接关系；根据文献(D.Zhou，J.Huang,and B.Scholkopf，"Learning withhypergraphs:Clustering，classification，and embedding，”in Proc.NeuralInf.Process.Syst.，Vancouver'BC，Canada,2006,pp.1601-1608)其目标函数如下：

式中

是拉普拉斯矩阵，f_i是所有样本在第i类上的类属信念。

构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；假定数据集是采样于一个包含n个独立子流形的统一空间里，相当于这个数据集包含n类样本，通过求解目标函数可以获得块稀疏解，每一块中的非零元素对应一个子流形；相近样本的稀疏表示也相近，并且可以被同子流形中相近的样本线性表示，稀疏系数对应着样本间的相关性或权值；而稀疏超图学习是基于稀疏字典上的稀疏系数空间，相当于原样本特征空间映射后的空间；有了这种映射，可以避免原样本空间中，不同的特征表示尺度不一的问题。迭代学习超边的权值，最终达到一个稳定状态；

设定向量x∈R^d，可以由d个向量组成的向量组

表示，设定

x可以被表示成：

w＝[w₁,w₂,…,w_d]^T.x和w表示同一个数据点,前一个是基于空间域，另一个是基于∑域。我们的目标是求解出基于∑的稀疏系数，即w包含尽量少的非零元素；根据文献(J.Wright，A.Yang,A.Ganesh，S.Sastry,and Y.Ma.Robust face recognition viasparse representation[J].IEEE Transactions on PatternAnalysis andMachineIntelligence,31(2),2009)，这个稀疏解可以通过以下目标函数式求解得到：

假定数据集是采样于一个包含k个独立子空间的统一空间里，相当于这个数据集包含k类，根据文献(J.Wright,A.Yang,A.Ganesh,S.Sastry,and Y.Ma.Robust facerecognition via sparse representation[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,31(2),2009)，可以获得块稀疏解，每一块中的非零元素对应一个子空间；相近的样本的稀疏表示也相近，和可以被同子空间中相近的点线性表示，稀疏系数对应着样本间的相关性或权值；

根据求解后的稀疏表示，构建稀疏超图，样本相应的稀疏表示参数如果是非零值，表示两样本间相关，该参数表示相关性的紧密程度，邻接关系阵A为：

|(w_i)_j|表示w_i的第j个元素的绝对值。设定

为稀疏超图的拉普拉斯矩阵，稀疏超图的正则表达式为

min fL^sf^T (5)

样本成对约束：成对约束包含两个约束：必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者说同类样本通过学习后，其类别信念必须相近；而不能连接约束规定不同类的样本通过学习后，其类别信念相距越远越好；这里结合这两个约束进超图学习模型中以增强学习能力；

设定f_i为x_i的学习之后类别信念，C₊表示与x_i同类的样本集，C_-表示与x_i不同类的样本集,必须连接约束可以表示为:

和不能连接约束表示为：

结合这两个约束为成对约束，表示为：

其中N₊表示C₊中样本的数量；f_i＝[f_i，f₁ ^C+，…,f_N+ ^C+,f₁ ^C-,…,f_N- ^C-]，表示类别信念块；每一个块信念f_i对应一个坐标序列，通过选择序列S_i所有的信念块能够组合在一起为f，即f_i＝fS_i.；L_i表示局部几何信息；其中

是一个基于成对约束的拉普拉斯矩阵。

融合稀疏表示与成对约束理论的超图学习：在普通超图中融入稀疏表示与成对约束理论成为一种新的结合学习算法，本系统称之为多模型超图学习模型(CSP)，目标函数为：

其中L¹，L²，L³分别表示拉普拉斯矩阵L^c,L^s，L^p。在求解β时，出现只选择最好的一种邻接关系，而另外两种的系数为0。为避免这种现象，通过设定

替换β_i，r>1，目标函数表示为：

r>1。为解决这个目标函数，我们利用一种迭代求解的方法^[15]，先初始化β＝[1/3,1/3,1/3],固定β利用拉葛日乘法更新f

然后固定f，最小化表达式(11)，可以计算出β为：

这个学习模型通过两到三次迭代后收敛。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种多模型超图的手写汉字识别方法，其特征在于，包括：

特征提取：收集68个志愿者手写的64遍“网络基础”的文本块图像；利用8重交叉验证方法，即在每一次实验中，把所有标记数据与非标记数据分成8等份，选取其中1份作为训练样本集，剩下的7份为测试样本集，然后重复8次，每一个样本都有机会成为训练样本，取均值作为性能评估；实验首先对每个文本块进行特征分析，志愿者在写文字时没有限定写法，对字体、字号、粗细、字间距、高低不作要求，完全按照其真实的写法；所述特征提取包括结构特征和统计特征，其中，结构特征包含质心特征、笔划特征、笔划特征点、几何特征；

构建普通超图：距离其最近的若干样本所组成的集合为一条超边；设定图G＝(X,E)，所有样本x构成样本集X，和所有的超边e集合构成边集E，每一条超边包含了若干个样本，边的权重是该边中所有样本间的距离平均值；设定矩阵D_v、D_e和W对角线元素分别表示相应样本所在的边数、超边中样本的个数和超边的权值，设定邻接阵H，矩阵元素表示两样本间的连接关系；

构建稀疏超图：把稀疏优化思想应用于流形聚类，依据流形聚类假设，数据样本集可能采样于多个子流形，每个子流形的维度不一定相同，利用稀疏表示求解方法可解得每个子流形聚类；

样本成对约束：成对约束包含两个约束，必须连接约束和不能连接约束；利用训练样本的标记信息，必须连接约束表示，标记信息相同的样本或者同类样本通过学习后，其类别信念必须相近；而不能连接约束规定不同类的样本通过学习后，其类别信念相距越远越好，融合稀疏表示与成对约束理论的超图学习：在普通超图模型中融入稀疏表示与成对约束理论成为一种新的结合学习算法，本系统称之为多模型超图学习模型，

设定x_i、x_j与x_k为样本，f_i、f_j、f_k分别为x_i、x_j与x_k的学习之后类别信念即对应的类别归属权值向量,C₊表示同一类的所有样本集合，C_-表示不同类的所有样本集合,必须连接约束表示为：

和不能连接约束表示为：

结合这两个约束为成对约束，表示为：

其中N₊表示C₊中样本的数量，T表示转置；

表示类别信念矩阵；每一个块信念

对应一个坐标序列，通过选择坐标序列S_i将所有的信念块组合在一起为类别信念矩阵

即

L_i表示局部几何信息；

是一个基于成对约束的拉普拉斯矩阵，

因

是以类别信念向量为列向量组合而成，

与f在数值上是相等的，目标函数为：

其中β_i为组合系数，L＝β₁L^c+β₂L^s+β₃L^p。

2.根据权利要求1所述的一种多模型超图的手写汉字识别方法，其特征在于，所述统计特征包括方向特征、网格特征和Gabor特征。

3.根据权利要求2所述的一种多模型超图的手写汉字识别方法，其特征在于，所述质心特征是文本笔划分布的体现，将二值图像转化成点阵形式，再依据质心计算公式求出水平质心与垂直质心；所述笔划特征由横、竖、撇、捺四种基本笔划构成，对单字分别提取这四种基本笔划，统计出各自的数量；所述笔划特征点主要有端点、折点、歧点与交点，端点是笔划的起点或终点，折点是笔划方向出现显著变化的点，歧点是三叉点，交点是四叉点，按序对二值图像进行扫描，统计出各笔划特征点的个数；所述几何特征是计算包含文本块的最小矩形的长宽比值。

4.根据权利要求2所述的一种多模型超图的手写汉字识别方法，其特征在于，所述方向特征是文本块的方向角度；所述网格特征是把包含文本块的最小矩形平均分成若干行若干列，每个单元格中文字像素点的个数统计；Gabor特征是在网格基础上计算Gabor变换后的对应能量表示。