CN108090489B - 基于计算机的依据字素分割的脱机手写维文单词识别方法 - Google Patents
基于计算机的依据字素分割的脱机手写维文单词识别方法 Download PDFInfo
- Publication number
- CN108090489B CN108090489B CN201810033760.0A CN201810033760A CN108090489B CN 108090489 B CN108090489 B CN 108090489B CN 201810033760 A CN201810033760 A CN 201810033760A CN 108090489 B CN108090489 B CN 108090489B
- Authority
- CN
- China
- Prior art keywords
- grapheme
- word
- recognition
- uygur
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000011218 segmentation Effects 0.000 title claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 6
- 230000000877 morphologic effect Effects 0.000 claims abstract description 4
- 230000007704 transition Effects 0.000 claims description 19
- 239000000203 mixture Substances 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 230000001364 causal effect Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 44
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000003909 pattern recognition Methods 0.000 abstract description 6
- 238000012549 training Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 4
- 239000000654 additive Substances 0.000 abstract description 2
- 230000000996 additive effect Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 206010042772 syncope Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
基于计算机的依据字素分割的脱机手写维文单词识别方法,属于文字模式识别的文字处理技术,其步骤为:首先根据维文规则和形态结构建立维吾尔单词字素库,包括主体、附加和点三类字素;然后,过分割单词图像得到三个字素序列,并对各类字素设计不同的特征提取和分类器;最后,通过贝叶斯网络构建字素、连体段和单词之间的分层匹配模型,推理计算字素特征至单词类别的识别置信度,融合字素识别信息和构词先验信息,获得单词识别结果。利用本发明脱机手写维吾尔单词识别方法,可以鲁棒地识别无约束、自然、流畅书写的维吾尔单词,而且算法所需训练类别固定,算法扩展性较强。
Description
技术领域
本发明属于模式识别中的文字模式识别的文字处理技术,具体地说属于脱机手写文字识别领域,用于对脱机手写维吾尔单词图像进行识别。
背景技术
维吾尔文字属于阿尔泰语系突厥语族西匈语支,是我国重要少数民族维吾尔族的语言文字,维文处理和识别有益于促进民族地区信息和科技的发展。现代维吾尔文由32个字母组成,根据在单词中位置的不同,每个字母有前连、双连、后连、独立等书写形式,共演化成128个字符。维吾尔文字历史悠久,手写体文字的形变非常复杂。手写文字识别是模式识别领域的重要技术,目前在汉字、拉丁字符等文字方面已取得了很多研究成果,而对手写体维吾尔文字的识别研究却相对较少,现有文献主要集中在维文字符识别。然而,在维吾尔文中字符不能独立运用,字符组合成单词后才具有语义,因此手写单词识别技术对维文数字化和信息化的发展具关键性。
手写体维吾尔文字具有独有的字形结构和书写规则:(1)文字采用自右向左、从上至下的书写方式;(2)单词由多个字符组成,单词之间有明显的间隔,单词沿着一条想象中的水平轴线书写,该水平线称为基线;(3)单词中沿着基线书写的笔画称为主要笔画,其余点、元音符号等称为从属笔画;(4)单词中一个或多个字符粘连书写的部分称作连体段;(5)单词中各字符既不等高也不等宽。
维吾尔单词属于草体粘连型文字。目前粘连型文字的识别技术根据是否进行字符切分可以分为基于整词识别和基于切分识别两种策略。基于整词识别的策略,将单词作为一个整体进行训练,算法相对简单,但其对相似字微小差异的辨别能力较差,且算法不易向大词汇量方向扩展。基于切分识别的策略,是先把单词分割成字符,再识别字符组成单词,字符的训练类别固定,算法易于扩展,但字符的准确分割较为困难。如何平衡这两种识别策略的优劣,寻找更加有效的分割单元和融合方法,在提升单词识别率的同时兼顾算法的可扩展性,是个亟待解决的问题。
发明内容
本发明的目的在于克服现有维文单词识别技术中,切分识别策略易产生字符过分割错误,以及整词识别策略的算法扩展性差的问题,提供一种基于计算机的依据字素分割的脱机手写维文单词识别方法。
本发明是基于计算机的依据字素分割的脱机手写维文单词识别方法,其步骤为:
步骤1、根据维吾尔文字的形态结构和书写规则,从维吾尔单词中拆分出相对独立且可被共享的笔画区域块,称作字素,总结所有字素构建维吾尔单词字素库,包括主体、点、附加三类字素;
步骤2、对采集到的脱机手写维文单词图像进行预处理,包括归一化、断笔修复、倾斜校正、连体段位置校正和轮廓提取等处理操作;
步骤3、对步骤2预处理后的手写维文单词图像,以字素为单位进行分割,分割过程是首先去掉点笔画,再对基线域内的主要笔画做垂直差分投影得到主体字素切分点,最后通过主要笔画切分、点笔画聚类和附加字素判定,依次获得主体、点、附加三个脱机手写维文字素序列;
步骤4、对步骤3获得的不同字素序列中的字素,设计不同的特征提取和分类器,对点字素设计结构特征提取和相应的距离分类器,对主体和附加字素提取轮廓Freeman上、下、左、右4方向链码结合弹性网格特征,分类器采用改进的二次鉴别函数,最后将获得的识别距离转化为字素识别置信度;
步骤5、构建包括字素、连体段等状态节点的单词贝叶斯网络模型,以有向弧表示状态节点之间发生的因果关系,量化为状态转移概率,估计相应的模型参数,并提供模型网络结构的规整方法;
步骤6、通过步骤5所述的单词贝叶斯网络模型,输入步骤4所得字素识别置信度,推理计算待测样本至维文单词类别的识别置信度,将各单词类别的识别置信度自大至小排序,依序输出单词识别结果,首选识别结果则为最大后验概率对应的单词类别。
本发明具有的有益效果如下:
1、本发明基于脱机手写维吾尔单词的字素分割,字素介于字符与笔画之间,字素分割能有效减少字符分割时易产生的过分割错误,而且对于脱机单词,字素相较笔画更易准确提取,基于字素分割的维文单词识别,无疑是单词识别在切分识别策略上的一种有效途径;
2、本发明基于字素单元构建维吾尔单词的贝叶斯网络模型,通过字素、连体段和单词状态节点,推理计算待测样本至维文单词类别的识别置信度,实现了字素识别信息和构词先验信息的有效融合,对提高最终的单词识别率大有裨益;
3、本发明建立维吾尔单词字素库,包括主体、点和附加三类字素,维吾尔单词的字素分析不仅能够克服手写体文字中笔画位置的随意性,提高特征提取的鲁棒性,而且使得相似字的微小辨别信息扩大,有效降低首一候选的误判率;
4、本发明针对主体、点和附加三类字素,设计不同的特征提取和分类器,算法不但能很好地刻画各类字素的拓扑形状和结构,并且特征维数相对较小,分类器计算简单;
5、本发明挖掘和研究脱机手写维吾尔单词的结构特征和书写规则,方法的有效性证实了对维吾尔文等小语种文字,充分利用文字自身独有特点,并结合相关的文字识别算法,能有效提升单词识别算法的性能。
附图说明
图1为本发明手写体维文单词结构规则示例,图2为本发明维文单词识别系统整体流程图,图3为本发明维吾尔单词字素库,图4为本发明手写体维吾尔单词字素组成示例,图5为本发明维吾尔单词的字素贝叶斯网络模型图,图6为本发明字素贝叶斯网络模型的网络结构规整示例,图7为本发明维文识别系统的实验测试所用样本部分示意图。
具体实施方式
本发明是基于计算机的依据字素分割的脱机手写维文单词识别方法,针对脱机手写维吾尔单词,提出在字素(即字符或字符的一部分)层面上分解和识别单词,首先建立维吾尔单词字素库,过分割单词图像形成字素序列,然后针对不同序列中的字素,设计不同的特征提取和分类器,最后构建维吾尔单词的贝叶斯网络模型,通过模型推理融合字素识别信息和构词先验信息,得到单词识别结果。
本发明是针对脱机手写维吾尔单词的文字识别方法,维吾尔单词字形结构独特,采用自右向左、从上至下的书写方式。手写体维文单词的结构规则如图1所示,单词由多个字符沿着一条想象中的水平轴线(基线)书写,包括在基线书写的主要笔画,以及点、元音符号等从属笔画,单词中一个或多个字符粘连书写形成连体段,单词中各字符既不等高也不等宽。
本发明基于由维吾尔族人书写的手写维吾尔单词数据集,在2.6G Inteli5-4300MCPU、4.0GB内存的PC机上,使用VC++6.0进行维文单词识别的实验。实验表明,本发明提出的脱机手写维吾尔单词识别方法可以有效地识别500类常用维吾尔单词,首选识别率为90.63%,前五识别率达到95.12%,平均识别时间为619ms/词。
本发明的维文单词识别方法基于字素分割,下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
本实施例中提供了一种脱机手写维文单词识别方法,系统整体流程参见图2所示,其包括如下步骤:
步骤1、根据维吾尔文字的形态结构和书写规则,建立维吾尔单词字素库,具体包括:
(1-1)从维吾尔单词中拆分出相对独立且可被共享的笔画区域块,称作字素。字素可分为三类:主体字素、点字素和附加字素;
字素的定义:1)主体字素(Main Grapheme,MG):沿着基线书写的区域块;2)点字素(Dot Grapheme,DG):点笔画的组合;3)附加字素(Affix Grapheme,AG):附加笔画中DG之外的部分;
(1-2)总结所有字素构建维吾尔单词字素库,共包含46个主体字素、7个点字素和6个附加字素,如图3所示,其中主体字素有前连、双连、后连、独立等形式,是指该字素在连体段中的所处位置,而点字素中的虚线表示点位于基线的上方或下方。
步骤2、对采集到的脱机手写维文单词图像进行预处理,具体处理过程包括:
(2-1)归一化:通过拉伸和像素点插值,将二值化维文单词图像归一化为外接矩形框大小统一的单词图像;
(2-2)断笔修复:对(2-1)归一化后的图像,通过连通域分析,针对维文单词在手写时发生的笔画断裂情况进行修复,判断笔画断裂的条件是两笔画间的最小距离小于笔画宽度;
(2-3)单词校正:对(2-2)修复后的单词图像,通过寻找旋转变换后的最大水平投影值,得到文字倾斜角度,对单词进行倾斜校正,再将连体段的水平位置按基线位置进行校正;
(2-4)轮廓提取:对(2-3)校正后的单词,将笔画内部像素点去掉,保留外层轮廓边缘点,轮廓宽度为单位像素宽。
步骤3、对步骤2预处理后的手写维文单词图像,以字素为单位进行分割,得到三个脱机手写维文字素序列,维吾尔单词字素组成的示例如图4所示,分割算法的过程如下:
(3-1)点笔画检测:对预处理后的单词图像,通过连通域检测提取单词笔画,预设点阈值(按经验取笔画平均面积的1/6),计算笔画连通域面积,若该面积小于点阈值,则判断为点笔画;
(3-2)基线和基线域检测:除去点笔画,对其余笔画进行Hough变换,根据其峰值点找到基线,再获取基线主区域,其中其原则是基线主区域内笔画的水平投影值是全部投影值的σ倍,其中因子σ决定基线域的大小,根据实验得出经验值:σ=0.7;
(3-3)确定字素切分点:检测与基线相连通的笔画确定为主要笔画,在基线域内计算主要笔画的垂直差分投影,取其极小值点为切分点。由于连体段尾部的字素(如等)易被过分割,因而修正如下:若某一切分点所对应垂直分割线与主要笔画的交点位于基线主区域之外,则删除该切分点;
(3-4)主体字素获取:自字素切分点,垂直分割主要笔画得到主体字素,按位置自右至左记作M=(M1,M2,…,Mk);
(3-5)点字素获取:手写点笔画存在连写情况,通常有6种点连写形式,分别是:(连写)、(连写)、(连写)、 (连写)。首先,将除去点之外的从属笔画在附加字素和点连写形式内进行识别,判断出点连写笔画;然后,根据字符中点笔画只写在基线一侧的规则,结合顺序聚类的最大最小算法,对点笔画和点连写笔画进行聚类,聚类后的点群作为点字素,按位置自右至左,记作D=(D1,D2,…,Dm);
(3-6)附加字素获取:除去主体字素和点字素以外的单个笔画构成附加字素,按位置自右至左记作A=(A1,A2,…,Al)。
步骤4、对步骤3获得的不同字素序列中的字素,设计不同的特征提取和分类器,分类识别后获得识别距离,再将识别距离转化为字素识别置信度,具体算法如下:
(4-1)点字素的特征提取:鉴于点字素的结构特征确切直观,提取特征包括点数目,以nd(nd=1,2,3)表示,点与基线相对位置,以pd(pd=0,1)表示,(其中0指位于基线上方;1指位于下方),以及两点位置关系,以rd(rd=0,1)表示,(其中0指两点是横向关系;1指两点是竖向关系);
(4-2)点字素的识别:鉴于点与基线相对位置不易写错,利用指数项增强该特征的作用,并对距离加1以避免距离为0情况,以特征向量x表示字素,点字素识别距离的计算公式如下:
其中,di(x)代表字素x对第i类候选的识别距离,N是类别数,对于点字素,有N=7;
(4-3)主体字素和附加字素的特征提取:采用轮廓Freeman上、下、左、右4方向链码结合弹性网格特征提取(elastic mesh directional features,EMDF),考虑到主体字素和附加字素的面积比例,对主体字素取8×8网格,对附加字素取4×4网格;
(4-4)主体字素和附加字素的识别:采用修正的二次鉴别函数(modifiedquadratic discriminant function,MQDF)计算主体字素和附加字素的识别距离,公式如下:
其中μ和Ψ是均值向量和协方差矩阵,可在训练中利用最大似然估计得到,λi,k代表Ψi的第k个特征值,是其对应的特征向量,q是主轴个数,q<n,常量σ是补偿因子。另外,i代表第i类候选,N是类别数,对于主体字素,有N=46,对于附加字素,有N=6;
(4-5)识别置信度转换:对识别距离进行置信度转换来获取字素识别置信度,采用soft-max函数修正sigmoid函数的转换方法,计算如公式:
其中P(ωi|x)是字素x对第i类候选ωi的识别距离,α和β是转换参数,参数的估计通过对样本数据最小化交叉熵损失函数来获得。
步骤5、构建单词的字素贝叶斯网络(Bayesian network,BN)模型,包括字素、连体段、单词等状态节点,并提供该模型网络结构的规整方法,具体过程如下:
(5-1)单词的贝叶斯网络建模:针对维文单词分割产生的字素序列,通过贝叶斯网络构建单词、连体段和字素之间的三级匹配模型,图5描述本文维吾尔单词BN模型的识别结构,包括样本特征和单词贝叶斯网络模型两个部分,具体结构包括:
(5-1-1)状态节点:图5中圆形框表示单词贝叶斯网络模型的状态节点,根据单词由连体段组成、连体段由字素组成的规则,所有状态节点分为字素、连体段、单词三类并依次呈因果关系。如图5示例,单词节点WI的父节点是连体段节点L1,L2,…,Ln,连体段节点Li,i=1,…,n的父节点是主体字素节点M1 i,M2 i,…,Mkii,每个主体字素节点Mj i,j=1,…,ki对应两个父节点,分别是点字素节点Dj i和附加字素节点Aj i;
(5-1-2)状态转移概率:图5中实线箭头表示状态节点之间的转移概率,方向由是父节点指向子节点。状态转移概率可分为两类:1)表示字素、连体段、单词之间组成关系的转移概率,分别记作P(Mj|Dj)(点字素至主体字素)、P(Mj|Aj)(附加字素至主体字素)、P(Li|Mj)(主体字素至连体段)和P(WI|Li)(连体段至单词)();2)表示字素之间联系的转移概率,由于单词中连体段之间以仅由7类MR(独立形式:)来分割,所以可以考虑相邻连体段衔接处主体字素Mki i至M1 i+1的转移概率,记作P(M1 i+1|Mkii);
(5-1-3)样本特征和字素识别概率:图5中方形框表示待测单词样本的字素特征,包括主体字素序列:M1 1,…,Mk11,…,M1 n,…,Mknn;点字素序列:D1 1,…,Dk11,…,D1 n,…,Dknn;附加字素序列:A1 1,…,Ak11,…,A1 n,…,Aknn。图3中虚线箭头表示待测样本字素特征到类别BN模型中字素节点的识别概率,即字素识别置信度,记作P(ωi|x)。
(5-2)对单词贝叶斯网络模型中的参数进行估计,具体包括:
(5-2-1)状态转移概率估计:有表示组成关系和表示字素联系两类,对于表示组成关系的状态转移概率,由于单词、连体段和字素之间的构成固定,因而可认为,P(Mj|Dj)=1,P(Mj|Aj)=1,P(Li|Mj)=1,P(WI|Li)=1;对于表示字素间联系的状态转移概率P(M1 i+1|Mkii),可根据维吾尔文语料库进行词频数据统计得到,词汇量2.5万个;
(5-2-2)字素识别概率:即前述的字素识别置信度P(ωi|x);
(5-3)贝叶斯网络模型的结构规整:由于单词所包含连体段、字素的数目不定,为计算待识样本至单词类别的识别置信度,设定一个空字素件Φ,代表该处没有字素,规定空字素的特征为全0向量,利用空字素来规整贝叶斯网络模型至规定结构。以单词为例,该词含3个连体段L1,L2,L3(自右至左),分别含7、2、3个主体字素,即(7,2,3)结构,若需规整为(7,3,4)结构,则规整后的网络结构如图6所示。
步骤6、通过步骤5所述的单词贝叶斯网络模型,输入步骤4所得字素识别置信度,推理计算待测样本至维文单词类别的识别置信度,得到单词识别结果,具体识别过程包括:
(6-1)单词识别置信度推算:对待识单词样本分割所得字素序列,计算各字素的识别置信度,并将其输入单词贝叶斯网络模型,根据网络拓扑结构和模型参数,推理计算待识样本至单词类别的识别置信度,推理过程如下:
设待测单词样本的字素特征为其中M,D,A代表主体、点、附加三类字素,表示第i个连体段中的第j个主体字素及对应的点和附加字素,于是,根据概率乘法公式以及贝叶斯网络的条件独立性,待测样本X至单词类别WI的识别置信度p(WI|X)按下式计算:
其中,Vi,i=1,…,N表示BN模型中与单词WI相关联的状态节点,Pa(﹒)表示节点Vi的父节点集,Sh表示该父节点集的路径分布。根据模型的拓扑结构,和所估计的参数值,上式可写成,
其中,
(6-2)单词识别结果输出:将各单词类别的识别置信度自大至小排序,依序输出单词识别结果,以I表示单词类别,首选识别结果则为最大后验概率对应的单词类别,如下式所述:
I=argmax{p(WI|X),I}。
本发明所述方法对脱机手写维吾尔单词的识别效果,可通过如下实验测试进一步说明:
实验所用的脱机手写维吾尔单词样本集包含500类,每类25套共12500个样本,数据采集由维吾尔族人书写,没有书写限制,使样本具准确性和实用性,样本示例如图7。实验使用VC++6.0编程,运行环境是2.6G Inteli5-4300M CPU、4.0GB内存的PC机,采用留一法交叉验证。
实验对比了五种算法的性能,算法1是本发明提出的字素分析结合贝叶斯网络的手写维吾尔单词识别算法;考虑研究手写维文单词识别的现有文献极少,借鉴手写阿拉伯单词识别算法用于验证,其中算法2和算法3是基于切分识别的策略,算法2是综合切分点中心位置、右边字段和中间字段的识别信息的字符分割算法,这里增加字符按序匹配来获得单词识别结果(参阅AL Hamad H A,ZITAR R A.Development of an efficient neural-based segmentation technique for Arabic handwriting recognition[J].PatternRecognition,2010,43(8):2773-2798.);算法3是结合笔画拓扑分布和字符识别置信度的字符分割单词识别算法(参阅DING Xiao-qing,LIU Hai-long.Segmentation-drivenoffline handwritten Chinese and Arabic script recognition[C]//David Doermann,Stefan Jaeger.Arabic and Chinese Handwriting Recognition,Lecture Notes inComputer Science:4768.Berlin:Springer,2008:196-217.);算法4和算法5是基于整词识别的策略,算法4是多方向前景梯度结合滑动窗特征,结合隐马尔可夫模型(hidden Markovmodels,HMM)分类器(参阅SHERIF Abdel Azeem,HANY Ahmed.Effective technique forthe recognition of offline Arabic handwritten words using hidden Markovmodels[J].International Journal on Document Analysis and Recognition,2013,16(4):399–412.);算法5是统计特征结合多分类器融合的手写阿拉伯单词识别算法(参阅ZAHIA Tamen,HABIBA Drias,DALILA Boughaci.An efficient multiple classifiersystem for Arabic handwritten words recognition[J].Pattern RecognitionLetters,2017,93(1):123–132.)。
表1五种算法的单词候选识别率
表1总结了五种算法的单词识别性能。可以看出,本发明提出的算法(算法1)性能良好,单词首选识别率为90.63%,证实了该算法的有效性。首先,在分割单元方面,对比算法1和算法2、3可知,本发明基于字素分解的建模可以避免多段型字符在分割时的过分割错误,进而有效提高单词识别率。其次,在识别策略方面,对比算法1、2、3和算法4、5可知,本发明基于切分识别的算法1获得的高于整词识别算法的首选单词识别率,识别所需的训练基元是46个MG、6个AR和6个点连笔共58个字素,训练所需的类别数目较小且固定,因此算法向大规模词汇识别的可扩展性较强。最后,在特征提取方面,算法1在字素层面提取特征,实现了对相似字细微差异的定位和辨识,并且在分割时考虑到点笔画的6种连写形式,有效解决了手写草体文字笔画形态复杂、位置易变等识别难点。详细分析来说,另外,本发明单词识别的平均时间为619ms/词,可以达到实用要求。
综上所述,本发明的脱机手写维吾尔单词识别算法,在字素层面分解维吾尔单词,并对各类字素设计不同的特征提取和分类器,不但能检测和辨识到相似字素间的微小差异,而且对点连写、笔画形变等手写复杂情况具鲁棒性。算法通过单词贝叶斯网络模型推理计算候选类别的后验概率,有效融合了字素识别、组成结构和连体段间的语义信息,进而提高单词识别率。另外,算法训练所需字素类别有限,易于向大词汇量维文识别任务扩展。
Claims (3)
1.基于计算机的依据字素分割的脱机手写维文单词识别方法,其步骤为:
步骤1、根据维吾尔文字的形态结构和书写规则,建立维吾尔单词字素库;
步骤2、对采集到的脱机手写维文单词图像进行预处理;
步骤3、对步骤2预处理后的手写维文单词图像,以字素为单位进行分割,得到三个脱机手写维文字素序列;
步骤4、对步骤3获得的不同字素序列中的字素,设计不同的特征提取和分类器,分类识别后获得识别距离,再将识别距离转化为字素识别置信度;
步骤5、构建单词的字素贝叶斯网络模型,包括字素、连体段和单词的状态节点,并提供该模型网络结构的规整方法;
步骤6、通过步骤5所述的单词贝叶斯网络模型,输入步骤4所得字素识别置信度,推理计算待测样本至维文单词类别的识别置信度,得到单词识别结果;
其特征在于,步骤5所述的单词贝叶斯网络模型的构建包括:
(5-1)单词的贝叶斯网络建模:针对维文单词分割产生的字素序列,通过贝叶斯网络构建单词、连体段和字素之间的三级匹配模型,其中包括单词、连体段和字素等状态节点,并以有向弧表示状态节点之间的转移概率;
(5-2)贝叶斯网络模型的参数估计:所含的模型参数包括状态转移概率和字素识别概率:
(5-2-1)对于状态转移概率,有表示组成关系和表示字素联系两类,表示组成关系的状态转移概率由状态节点之间的构成关系确定,表示字素间联系的状态转移概率,可根据维吾尔文语料库进行词频数据统计得到;
(5-2-2)对于字素识别概率,即字素识别置信度;
(5-3)贝叶斯网络模型的结构规整:由于单词所包含连体段、字素的数目不定,为计算待识样本至单词类别的识别置信度,利用空字素Φ来规整贝叶斯网络模型至规定结构。
2.根据权利要求1所述的基于计算机的依据字素分割的脱机手写维文单词识别方法,其特征是:单词贝叶斯网络模型构建,(5-1)所述的单词贝叶斯网络模型包括:
(5-1-1)状态节点:根据单词由连体段组成、连体段由字素组成的规则,所有状态节点分为字素、连体段、单词三类并依次呈因果关系;
(5-1-2)状态转移概率:表述状态节点之间发生的因果关系,可分为两类,一类是表示字素、连体段、单词之间组成关系的转移概率,另一类是表示字素之间联系的转移概率;
(5-1-3)样本特征和字素识别概率:样本特征表述待测单词样本的字素特征,包括主体字素、点字素和附加字素三个序列;字素识别概率即字素识别置信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810033760.0A CN108090489B (zh) | 2018-01-15 | 2018-01-15 | 基于计算机的依据字素分割的脱机手写维文单词识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810033760.0A CN108090489B (zh) | 2018-01-15 | 2018-01-15 | 基于计算机的依据字素分割的脱机手写维文单词识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108090489A CN108090489A (zh) | 2018-05-29 |
CN108090489B true CN108090489B (zh) | 2021-06-29 |
Family
ID=62182971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810033760.0A Expired - Fee Related CN108090489B (zh) | 2018-01-15 | 2018-01-15 | 基于计算机的依据字素分割的脱机手写维文单词识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108090489B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764155B (zh) * | 2018-05-30 | 2021-10-12 | 新疆大学 | 一种手写维吾尔文单词切分识别方法 |
CN110135079B (zh) * | 2019-05-20 | 2020-06-02 | 中国石油大学(华东) | 一种海洋石油井控装备的宏观弹性评价方法及系统 |
CN110287963B (zh) * | 2019-06-11 | 2021-11-23 | 苏州玖物互通智能科技有限公司 | 用于综合性能试验的ocr识别方法 |
CN110287951B (zh) * | 2019-06-21 | 2022-04-12 | 北京百度网讯科技有限公司 | 一种文字识别的方法及装置 |
CN110660019A (zh) * | 2019-09-29 | 2020-01-07 | 华北电力大学 | 一种基于bpl的小数据集简笔画生成方法 |
CN111553336B (zh) * | 2020-04-27 | 2023-03-24 | 西安电子科技大学 | 基于连体段的印刷体维吾尔文文档图像识别系统及方法 |
CN112633243B (zh) * | 2020-12-31 | 2023-01-03 | 安徽鸿程光电有限公司 | 信息识别方法、装置、设备及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751569A (zh) * | 2010-01-15 | 2010-06-23 | 西安电子科技大学 | 用于脱机手写维吾尔文单词的字符切分方法 |
CN101866417A (zh) * | 2010-06-18 | 2010-10-20 | 西安电子科技大学 | 一种手写体维吾尔字符识别方法 |
CN104899601A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学宁波信息技术研究院 | 一种手写维吾尔文单词识别方法 |
CN106295631A (zh) * | 2016-07-27 | 2017-01-04 | 新疆大学 | 一种图像维吾尔文单词识别方法及装置 |
-
2018
- 2018-01-15 CN CN201810033760.0A patent/CN108090489B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751569A (zh) * | 2010-01-15 | 2010-06-23 | 西安电子科技大学 | 用于脱机手写维吾尔文单词的字符切分方法 |
CN101751569B (zh) * | 2010-01-15 | 2012-01-04 | 西安电子科技大学 | 用于脱机手写维吾尔文单词的字符切分方法 |
CN101866417A (zh) * | 2010-06-18 | 2010-10-20 | 西安电子科技大学 | 一种手写体维吾尔字符识别方法 |
CN104899601A (zh) * | 2015-05-29 | 2015-09-09 | 西安电子科技大学宁波信息技术研究院 | 一种手写维吾尔文单词识别方法 |
CN106295631A (zh) * | 2016-07-27 | 2017-01-04 | 新疆大学 | 一种图像维吾尔文单词识别方法及装置 |
Non-Patent Citations (4)
Title |
---|
一种手写维吾尔文字母识别算法;袁保社等;《计算机工程》;20100131;第36卷(第2期);第186-190页 * |
手写维吾尔文字识别若干关键技术研究;许亚美;《中国博士学位论文全文数据库 信息科技辑》;20150115;正文第2-5章以及相关附图 * |
手写维文字符分割中的多信息融合路径寻优方法;许亚美等;《西安交通大学学报》;20130830;第47卷(第8期);第68-75页 * |
部件字典结合时分方向特征的手写维吾尔字符识别;许亚美等;《吉林大学学报(工学版)》;20130530;第43卷(第3期);第741-747页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108090489A (zh) | 2018-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108090489B (zh) | 基于计算机的依据字素分割的脱机手写维文单词识别方法 | |
Moysset et al. | Full-page text recognition: Learning where to start and when to stop | |
AlKhateeb et al. | Offline handwritten Arabic cursive text recognition using Hidden Markov Models and re-ranking | |
Mouchere et al. | Icdar 2013 crohme: Third international competition on recognition of online handwritten mathematical expressions | |
Awal et al. | First experiments on a new online handwritten flowchart database | |
Razzak et al. | HMM and fuzzy logic: a hybrid approach for online Urdu script-based languages’ character recognition | |
Khayyat et al. | Learning-based word spotting system for Arabic handwritten documents | |
Shaw et al. | Offline Handwritten Devanagari Word Recognition: A holistic approach based on directional chain code feature and HMM | |
Le et al. | A system for recognizing online handwritten mathematical expressions and improvement of structure analysis | |
Kumar et al. | A novel feature extraction technique for offline handwritten Gurmukhi character recognition | |
Deufemia et al. | Sketched symbol recognition using latent-dynamic conditional random fields and distance-based clustering | |
Patel et al. | Handwritten character recognition in english: a survey | |
Khobragade et al. | A survey on recognition of devnagari script | |
Indian et al. | A survey of offline handwritten Hindi character recognition | |
Nguyen et al. | Nom document digitalization by deep convolution neural networks | |
Parui et al. | Offline handwritten devanagari word recognition: An hmm based approach | |
Suganya et al. | Feature selection for an automated ancient Tamil script classification system using machine learning techniques | |
Peng et al. | Using a boosted tree classifier for text segmentation in hand-annotated documents | |
Abirami et al. | Statistical features based character recognition for offline handwritten Tamil document images using HMM | |
Kumar et al. | Bayesian background models for keyword spotting in handwritten documents | |
Kumar et al. | Scene text recognition using artificial neural network: a survey | |
Zanwar et al. | A comprehensive survey on soft computing based optical character recognition techniques | |
Gao et al. | Building compact recognizer with recognition rate maintained for on-line handwritten Japanese text recognition | |
Muñoz | Mathematical expression recognition based on probabilistic grammars | |
Boukharouba et al. | Recognition of handwritten Arabic literal amounts using a hybrid approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210629 |