CN102254196B - 计算机鉴别手写汉字的方法 - Google Patents

计算机鉴别手写汉字的方法 Download PDF

Info

Publication number
CN102254196B
CN102254196B CN201110169749.5A CN201110169749A CN102254196B CN 102254196 B CN102254196 B CN 102254196B CN 201110169749 A CN201110169749 A CN 201110169749A CN 102254196 B CN102254196 B CN 102254196B
Authority
CN
China
Prior art keywords
sample
chinese character
handwritten chinese
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110169749.5A
Other languages
English (en)
Other versions
CN102254196A (zh
Inventor
殷绪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU ABEYOND OUTSOURCING CO Ltd
Original Assignee
JIANGSU ABEYOND OUTSOURCING CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU ABEYOND OUTSOURCING CO Ltd filed Critical JIANGSU ABEYOND OUTSOURCING CO Ltd
Priority to CN201110169749.5A priority Critical patent/CN102254196B/zh
Publication of CN102254196A publication Critical patent/CN102254196A/zh
Application granted granted Critical
Publication of CN102254196B publication Critical patent/CN102254196B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种基于集成学习算法Bagging和单类SVM的计算机鉴别手写汉字的方法,属于计算机图像处理和字符识别技术领域。它包括以下步骤:a.将手写汉字样本正规化处理大小为64*64;b.提取手写汉字样本的加权方向码直方图WDCH特征;c.采用PCA主元分析方法进行特征降维;d.采用Bootstrp方法抽取T个训练样本集S’;e.选择单类SVM及相应RBF核进行手写汉字鉴别;f.采用相对多数的投票策略集成T个单类SVM分类器Ci,得到分类器C*;然后对测试样本集Te中的手写汉字样本进行鉴别和评估测试。本发明可对手写汉字进行自动评估和指导、汉字识别准确率高。

Description

计算机鉴别手写汉字的方法
技术领域
本发明涉及一种基于集成学习算法Bagging和单类SVM的计算机鉴别手写汉字的方法,属于计算机图像处理和字符识别技术领域。
背景技术
随着中国经济的快速发展,越来越多的外国人热衷到中国,汉语逐渐成为热门语言。然而,如何写汉字成为重要而又困难的事情。随着计算机及网络的发展与普及,很多对外汉语专业的教师希望能通过文档扫描的方式,利用模式识别技术来自动评估和指导外国学生的汉字书写。现有多种手写字符分类和识别技术。对于手写字符鉴别,目前大部分技术专注于在线手写字符鉴别和签名验证。这些手写字符鉴别和验证技术根据特征提取方法可以分为两大类:基于变形的方法和基于结构的方法。
但关注一般意义上的手写字符鉴别的研究较少,其原因主要包括:手写字符鉴别本身是个很困难的任务;手写字符鉴别需要很多细节而琐碎的技术,比如要处理许多非常相似的结构、笔画和书写风格等;另外,一般意义上的手写字符识别总是要应对大类别数的问题,尤其是汉字。因此手写汉字鉴别面临巨大挑战。
发明内容
本发明所要解决的技术问题是,提供一种可对手写汉字进行自动评估和指导、汉字识别准确率高的计算机鉴别手写汉字的方法。
本发明计算机鉴别手写汉字的方法包括以下步骤:
a,将手写汉字样本正规化处理大小为64*64;
b.提取手写汉字样本的加权方向码直方图WDCH特征;
加权方向码直方图特征利用了图像中的所有像素点的信息,而且将各个点的方向属性量化到16级,大大增加特征提取的精度。其特征提取算法的步骤如下:
①对正规化的64*64的字符图像做n次3×3均值滤波,并将得到的灰度图像的灰度值归一化到[-1,1],均值为0;
②用Sobel算子对归一化后的灰度图像提取梯度,并计算每一点的梯度强度,公式如下:
dx=[f(x-1,y-1)+2f(x,y-1)+f(x+1,y-1)]-[f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)]
(1)
dy=[f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)]-[f(x-1,y-1)+2f(x-1,y)+f(x-1,y+1)]
(2)
θ ( x , y ) = arctan d y d x - - - ( 3 )
S ( x , y ) = d x 2 + d y 2 - - - ( 4 )
其中,θ(x,y)和S(x,y)就是点(x,y)的梯度方向和强度;
③将梯度方向量化到32级,间隔为π/16;
④将归一化后的灰度图像均匀分成若干个9×9个区域,并利用5×5的高斯滤波器对每两行和每两列的区域进行滤波,将图像分辨率降到5×5。同时,将32方向级加权降为16级,加权系数为[1,4,6,4,1];
⑤在低分辨率图像上,对每个区域的每个方向统计像素点个数直方图,就可以得到5×5×16=400维特征。分辨率的降低会从一定程度上降低特征的精度,但同时也降低了特征对平移和形变的敏感程度。
c.采用PCA主元分析方法进行特征降维;
d.采用Bootstrap方法抽取T个训练样本集S’;即每个训练样本集S’都是从初始训练集S中有放回地随机选取N个训练样本来组成,其中可以有重复样本,并且保证每个训练样本集的样本替换率为50%,各个训练集之间相互独立;
e.选择了单类SVM及相应RBF核进行手写汉字鉴别;用上述T个训练样本集S’分别独立训练生成T个单类SVM分类器Ci,其中T个分类器可以并行训练生成;
对于单类SVM,正样本集X={x1,x2,...,xN},N为样本数,xi为一个样本;在单类SVM训练过程中,输入为X,输出只包括正类标签;在测试过程中,输出为正类标签时,则输入测试样本鉴别为正类,否则被认为是负类;
f.采用相对多数的投票策略集成T个单类SVM分类器Ci,得到分类器C*;然后对测试样本集Te中的手写汉字样本进行鉴别和评估测试,鉴别结果依据下述公式(5),
C * ( x ) = arg max y ∈ Y Σ i : C i ( x ) = y I - - - ( 5 )
实现相对多数投票策略集成;其中x表示测试样本,Ci表示各个单类SVM,y表示利用各个单类SVM鉴别获得的样本类别标签,Y为样本类别标签集合,当Ci(x)=y成立时I为1,否则为0。
本发明所述的手写汉字鉴别新方法,能够获得以下有益效果:
(1)该方法主要解决了对外汉语教学中对外国学生手写汉字的自动评估和指导问题。
(2)该方法明显提高了手写汉字识别准确率。
(3)该方法及实验证明了分类器集成方法在手写汉字鉴别方面的优势。
附图说明
图1是本发明实施例所指手写汉字正样本示例;
图2是本发明实施例所指的手写汉字负样本示例;
图3是本发明方法的整体流程图;
图4是本发明方法的原理框图。
具体实施方式
本发明方法在字符鉴别中,正样本总是相关的,如图1中所示“导”字的手写样本;而负样本经常是分散的,如附图2中所示,有“导”字的错误书写以及非“导”字,因此本发明选择了单类分类技术来实现手写字符鉴别。另外,单类SVM对参数和核函数选择非常敏感,本发明提出基于Bagging算法对多个单类SVM进行集成(即Bagged One-class SVM),来提高分类器系统的鲁棒性和稳定性。
本发明中提出的基于集成学习算法Bagging和单类SVM的计算机鉴别手写汉字的方法,主要内容包括:
(1)如图3中S41,每个手写汉字样本正规化处理大小为64*64。
(2)如图3中S42,本发明中提取手写汉字样本的加权方向码直方图WDCH(weighted direction code histogram)特征。
加权方向码直方图特征利用了图像中的所有像素点的信息,而且将各个点的方向属性量化到16级,大大增加特征提取的精度。其特征提取算法的步骤如下:
①对正规化的64*64的字符图像做n次3×3均值滤波,并将得到的灰度图像的灰度值归一化到[-1,1],均值为0;
②用Sobel算子对归一化后的灰度图像提取梯度,并计算每一点的梯度强度:
dx=[f(x-1,y-1)+2f(x,y-1)+f(x+1,y-1)]-[f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)]
(1)
dy=[f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)]-[f(x-1,y-1)+2f(x-1,y)+f(x-1,y+1)]
(2)
θ ( x , y ) = arctan d y d x - - - ( 3 )
S ( x , y ) = d x 2 + d y 2 - - - ( 4 )
其中,θ(x,y)和S(x,y)就是点(x,y)的梯度方向和强度;
③将梯度方向量化到32级,间隔为π/16;
④将归一化后的灰度图像均匀分成若干个9×9个区域,并利用5×5的高斯滤波器对每两行和每两列的区域进行滤波,将图像分辨率降到5×5。同时,将32方向级加权降为16级,加权系数为[1,4,6,4,1];
⑤在低分辨率图像上,对每个区域的每个方向统计像素点个数直方图,就可以得到5×5×16=400维特征。分辨率的降低会从一定程度上降低特征的精度,但同时也降低了特征对平移和形变的敏感程度。
(3)如图3中S43,采用PCA主元分析方法进行特征降维。
(4)如图3中S44,采用了Bootstrap(自助)方法抽取T个训练样本集S’(如图4中的S52),本发明中根据经验确定T为100。即每个训练样本集S’都是从初始训练集S(如图4中的S51,含N个训练样本)中有放回地随机选取N个训练样本来组成,其中可以有重复样本,并且保证每个训练样本集的样本替换率为50%,各个训练集之间相互独立。
(5)在字符鉴别中,正样本总是相关的,如图1中所示“导”字的手写样本;而负样本经常是分散的,如图2中所示,其中有“导”字的错误书写以及非“导”字,因此本发明中选择了单类SVM(One class SVM)及相应RBF核进行手写汉字鉴别。用上述T个训练样本集S’分别独立训练生成T个单类SVM分类器Ci,其中T个分类器可以并行训练生成,如图3中S45及图4中S53。
对于单类SVM,正样本集X={x1,x2,...,xN},N为样本数,xi为一个样本。在单类SVM训练过程中,输入为X,输出只包括正类标签;在测试过程中,输出为正类标签时,则输入测试样本鉴别为正类,否则被认为是负类。
(6)如图3中S46及图5中S54,采用相对多数的投票策略集成T个单类SVM分类器Ci,得到分类器C*。然后如图4中S47对测试样本集Te(如图4中S55)中的手写汉字样本进行鉴别和评估测试,鉴别结果依据公式(5),
C * ( x ) = arg max y ∈ Y Σ i : C i ( x ) = y I - - - ( 5 )
实现相对多数投票策略集成。其中x表示测试样本,Ci表示各个单类SVM,y表示利用各个单类SVM鉴别获得的样本类别标签,Y为样本类别标签集合,当Ci(x)=y成立时I为1,否则为0。

Claims (1)

1.一种计算机鉴别手写汉字的方法,其特征是:包括以下步骤,
a.将手写汉字样本正规化处理大小为64*64;
b.提取手写汉字样本的加权方向码直方图WDCH特征;
c.采用PCA主元分析方法进行特征降维;
d.采用Bootstrap方法抽取T个训练样本集S’;即每个训练样本集S’都是从初始训练集S中有放回地随机选取N个训练样本来组成,其中允许有重复样本,并且保证每个训练样本集的样本替换率为50%,各个训练集之间相互独立;
e.选择单类SVM及相应RBF核进行手写汉字鉴别;用上述T个训练样本集S’分别独立训练生成T个单类SVM分类器Ci;
对于单类SVM,正样本集X={x1,x2,...,xN},N为样本数,xi为一个样本;在单类SVM训练过程中,输入为X,输出只包括正类标签;在测试过程中,输出为正类标签时,则输入测试样本鉴别为正类,否则被认为是负类;
f.采用相对多数的投票策略集成T个单类SVM分类器Ci,得到分类器C*;然后对测试样本集Te中的手写汉字样本进行鉴别和评估测试,鉴别结果依据下述公式(5),
C * ( x ) = arg max y ∈ Y Σ i : C i ( x ) = y I - - - ( 5 )
实现相对多数投票策略集成;其中x表示测试样本,Ci表示各个单类SVM,y表示利用各个单类SVM鉴别获得的样本类别标签,Y为样本类别标签集合,当Ci(x)=y成立时I为1,否则为0;
所述步骤b中,提取手写汉字样本的加权方向码直方图WDCH特征的提取算法步骤如下:
①对正规化的64*64的字符图像做n次3×3均值滤波,并将得到的灰度图像的灰度值归一化到[-1,1],均值为0;
②用Sobel算子对归一化后的灰度图像提取梯度,并计算每一点的梯度强度,公式如下:
dx=[f(x-1,y-1)+2f(x,y-1)+f(x+1,y-1)]-[f(x-1,y+1)+2f(x,y+1)+f(x+1,y+1)]
(1)
dy=[f(x+1,y-1)+2f(x+1,y)+f(x+1,y+1)]-[f(x-1,y-1)+2f(x-1,y)+f(x-1,y+1)]
(2)
θ ( x , y ) = arctan d y d x - - - ( 3 )
S ( x , y ) = d x 2 + d y 2 - - - ( 4 )
其中,θ(x,y)和S(x,y)就是点(x,y)的梯度方向和强度;
③将梯度方向量化到32级,间隔为π/16;
④将归一化后的灰度图像均匀分成若干个9×9个区域,并利用5×5的高斯滤波器对每两行和每两列的区域进行滤波,将图像分辨率降到5×5;同时,将32方向级加权降为16级,加权系数为[1,4,6,4,1];
⑤在低分辨率图像上,对每个区域的每个方向统计像素点个数直方图,就可以得到5×5×16=400维特征;分辨率的降低会从一定程度上降低特征的精度,但同时也降低了特征对平移和形变的敏感程度。
CN201110169749.5A 2011-06-22 2011-06-22 计算机鉴别手写汉字的方法 Expired - Fee Related CN102254196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110169749.5A CN102254196B (zh) 2011-06-22 2011-06-22 计算机鉴别手写汉字的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110169749.5A CN102254196B (zh) 2011-06-22 2011-06-22 计算机鉴别手写汉字的方法

Publications (2)

Publication Number Publication Date
CN102254196A CN102254196A (zh) 2011-11-23
CN102254196B true CN102254196B (zh) 2014-05-14

Family

ID=44981448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110169749.5A Expired - Fee Related CN102254196B (zh) 2011-06-22 2011-06-22 计算机鉴别手写汉字的方法

Country Status (1)

Country Link
CN (1) CN102254196B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982343B (zh) * 2012-11-12 2015-03-25 信阳师范学院 手写数字识别的增量式模糊支持向量机方法
CN103295007B (zh) * 2013-05-02 2016-06-22 华南理工大学 一种用于汉字识别的特征降维优化方法
CN103324929B (zh) * 2013-06-25 2016-05-18 天津师范大学 基于子结构学习的手写中文识别方法
CN103593670B (zh) * 2013-10-14 2016-07-06 浙江工业大学 一种基于在线序列极限学习机的铜板带表面缺陷检测方法
CN104034794B (zh) * 2014-06-12 2017-01-04 东北大学 一种基于极限学习机的管道漏磁缺陷检测方法
CN105404876A (zh) * 2015-12-03 2016-03-16 无锡市滨湖区河埒街道水秀社区工作站 一种一类样本的人脸识别方法
CN108205680B (zh) * 2017-12-29 2020-02-04 深圳云天励飞技术有限公司 图像特征提取集成电路、方法、终端
CN109063720A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 手写字训练样本获取方法、装置、计算机设备及存储介质
CN109117898A (zh) * 2018-08-16 2019-01-01 新智数字科技有限公司 一种手写字符识别方法及系统
CN111950331A (zh) * 2019-05-17 2020-11-17 重庆傲雄在线信息技术有限公司 一种基于ocsvm电子手写签名识别的方法
CN111950334A (zh) * 2019-05-17 2020-11-17 重庆傲雄在线信息技术有限公司 一种基于svm电子手写签名识别的方法
CN111950333B (zh) * 2019-05-17 2022-06-28 重庆傲雄在线信息技术有限公司 一种基于神经网络电子手写签名识别的方法
CN110399815B (zh) * 2019-07-12 2023-09-26 淮阴工学院 一种基于vgg16的cnn-svm手写签名识别方法
CN113128296B (zh) * 2019-12-31 2023-05-09 重庆傲雄在线信息技术有限公司 一种电子手写签字模糊标签化识别系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290659A (zh) * 2008-05-29 2008-10-22 宁波新然电子信息科技发展有限公司 基于组合分类器的手写识别方法
CN101630362A (zh) * 2009-08-25 2010-01-20 华南理工大学 一种基于置信度的汉字书写质量评价方法
CN101968847A (zh) * 2009-06-30 2011-02-09 甲骨文美国公司 统计学在线字符识别

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1693784A3 (en) * 2005-01-28 2012-04-04 IDMS Software Inc. Handwritten word recognition based on geometric decomposition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290659A (zh) * 2008-05-29 2008-10-22 宁波新然电子信息科技发展有限公司 基于组合分类器的手写识别方法
CN101968847A (zh) * 2009-06-30 2011-02-09 甲骨文美国公司 统计学在线字符识别
CN101630362A (zh) * 2009-08-25 2010-01-20 华南理工大学 一种基于置信度的汉字书写质量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
肖旭红等.一种识别手写汉字的多分类器集成方法.《自动化学报》.1997,第23卷(第5期),621-627. *
高学 等.一种基于支持向量机的手写汉字识别方法.《电子学报》.2002,第30卷(第5期),651-654. *

Also Published As

Publication number Publication date
CN102254196A (zh) 2011-11-23

Similar Documents

Publication Publication Date Title
CN102254196B (zh) 计算机鉴别手写汉字的方法
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
Chitlangia et al. Handwriting analysis based on histogram of oriented gradient for predicting personality traits using SVM
Malon et al. Mathematical symbol recognition with support vector machines
CN102663401A (zh) 一种图像特征提取和描述方法
Chamchong et al. Character segmentation from ancient palm leaf manuscripts in Thailand
US20220058383A1 (en) System and method to extract information from unstructured image documents
CN101930549A (zh) 基于第二代曲线波变换的静态人体检测方法
Csurka et al. What is the right way to represent document images?
Joshi et al. A generalised framework for script identification
CN103279738A (zh) 车标自动识别方法及系统
CN106650696A (zh) 一种基于奇异值分解的手写电气元件符号识别方法
Saïdani et al. Pyramid histogram of oriented gradient for machine-printed/handwritten and Arabic/Latin word discrimination
Jangid et al. SVM classifier for recognition of handwritten devanagari numeral
Alkawaz et al. Handwriting detection and recognition improvements based on hidden markov model and deep learning
Cüceloğlu et al. Detecting handwritten signatures in scanned documents
Wilkinson et al. A novel word segmentation method based on object detection and deep learning
CN101488182A (zh) 一种用于手写汉字识别的图像特征提取方法
Xue Optical character recognition
Ghosh et al. Scene text understanding: recapitulating the past decade
Ramana et al. Devanagari character recognition in the wild
Tran et al. A novel approach for text detection in images using structural features
CN104573663A (zh) 一种基于鉴别性笔画库的英文场景文字识别方法
Mandal et al. Date field extraction in handwritten documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140514

Termination date: 20150622

EXPY Termination of patent right or utility model