CN101447022A - 一种手写汉字图像的特征提取方法 - Google Patents

一种手写汉字图像的特征提取方法 Download PDF

Info

Publication number
CN101447022A
CN101447022A CNA200810220333XA CN200810220333A CN101447022A CN 101447022 A CN101447022 A CN 101447022A CN A200810220333X A CNA200810220333X A CN A200810220333XA CN 200810220333 A CN200810220333 A CN 200810220333A CN 101447022 A CN101447022 A CN 101447022A
Authority
CN
China
Prior art keywords
chinese character
character image
pixel
handwritten chinese
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200810220333XA
Other languages
English (en)
Inventor
金连文
张志毅
丁凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CNA200810220333XA priority Critical patent/CN101447022A/zh
Publication of CN101447022A publication Critical patent/CN101447022A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种手写汉字图像的特征提取方法,使用全局手写汉字图像作为特征提取区域,并通过弹性网格划分汉字图像区域,采用尺度不变性特征变换方法在每个网格动态统计相关区域的梯度方向信息,从而获取手写汉字的特征。本发明从HCL2000手写汉字样本数据库随机挑选500套样本进行训练,200套不重复的样本进行识别测试,使用本发明的方法获取的特征的识别结果是:首选字命中率是96.061%,前10个候选字的命中率为99.688%。

Description

一种手写汉字图像的特征提取方法
技术领域
本发明属于模式识别与人工智能技术领域,特别是涉及一种手写汉字图像识别处理方法。
技术背景
一个手写汉字识别系统分为预处理、特征提取、分类识别和后处理四个模块,其中特征提取被认为是汉字识别中一个关键的步骤之一,对整个系统的最终性能有着重要的影响。近年来,很多学者在如何获取有效的特征方面做了很多研究工作,取得了很多优秀的成果。Gabor特征是各种汉字特征中较为有效的一种,它应用的背后有着很好的生物视觉理论支持。事实上,模式识别与计算机视觉和生物视觉理论在一直以来都有着紧密的联系。
随着计算机视觉与生物视觉理论的发展,最近有越来越多先进的图像特征提取算法被提出。其中,David G.Lowe 2004年发表在International Journal ofComputer Vision的论文“Distinctive Image Features from Scale-InvariantKeypoints”提出的尺度不变性特征变换算法(Scale Invariant FeatureTransform,简称SIFT)被认为是最有代表性的特征提取算法之一,受到了计算机视觉领域广泛的关注。SIFT整套算法包括定位特征点与对特征区域提取特征向量两部分,提取出来的特征向量一般被称为SIFT描述子(SIFTdescriptor)。
所述SIFT描述子的构造过程如附图1所示,具体包括:(1)提取特征区域梯度;(2)对特征区域进行高斯加权处理;(3)切分子区域;(4)统计梯度方向直方图;(5)特征向量归一化。
SIFT描述子的构造示意图则如附图2所示,其中左边表示特征提取区域,每一小格表示一个像素,小格上面的箭头则代表该像素的梯度向量方向。粗线划分的区域为子区域。圆圈表示高斯权函数。右边的四个方格代表是对应子区域,方格中八个箭头表示对该区域相关的部分统计出的梯度方向直方图分布。
SIFT描述子是一种基于特征点邻域内的梯度方向统计直方图的特征描述向量,它的构造原理模拟了视觉皮层中复杂神经元细胞的一种响应特性,这种响应特性是:梯度刺激在可承受范围内的位移都不会让这些神经元产生的反应出现变化。
SIFT特征已经被广泛应用于图像配准、图像检测、目标识别等领域,并且有着出色的表现。但是,在汉字识别领域,特别是手写汉字识别领域,SIFT特征却无法成功的应用,这是因为自由书写汉字由于个人风格的差异,即使是同一个字的图形也有很大差别,同时还有加上笔画形变,噪声点等问题让这种差异性变得更大。因此,SIFT特征点定位方法对脱机手写汉字识别是不适合的,需要寻找更合适的特征定位策略。
发明内容
本发明的目的是为了克服直接应用SIFT特征点定位无法提取有效的适应不同书写风格的尺度不变特征的问题,结合手写汉字图像的特点,应用弹性网格技术与SIFT统计区域梯度信息来描述区域的原理,设计出基于弹性区域梯度信息的动态统计直方图的手写汉字特征提取方法。
为了实现上述发明目的,采用的技术方案为:使用全局手写汉字图像作为特征提取区域,并通过弹性网格划分汉字图像区域,采用尺度不变性特征变换算法在每个网格动态统计相关区域的梯度方向信息,从而获取手写汉字的特征。
本发明的具体的技术步骤为:
(1)、构造弹性网格划分汉字图像区域;
(2)、提取汉字图像各像素的梯度信息;
(3)、统计梯度信息,得到特征。
所述步骤(1)构造弹性网格划分汉字图像区域通过把汉字图像在水平和垂直两个方向上的直方图投影划分出8 x 8的全局弹性网格,划分的原理是使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,每个网格确定为一个子区域,于是划分出64个子区域。
所述步骤(2)提取汉字图像各像素的梯度信息通过SOBEL算子提取每个像素的梯度向量,并按平行四边形分解的方法,把该向量分解到临近的两个分解方向上,每个像素对应一个8维的梯度方向信息
Figure A200810220333D0006150013QIETU
,每一维代表对应的投影方向强度。
所述步骤(3)统计梯度信息通过先把每个子区域中心确定为该区域的种子点,每个种子点是一个8维的向量,每一维代表与该区域相关像素梯度信息在特定梯度方向的统计结果,然后每个像素点梯度信息
Figure A200810220333D00061
乘上权值wx*wy累加到邻接子区域的种子点上,wx、wy的值以以下规则确定:设为像素点(x,y)所属子区域为A,(xA,yA)是A区域种子点的坐标,WA、HA是子区域A的宽与高,那么:
Figure A200810220333D00071
Figure A200810220333D00072
累加结束后,对每个种子点向量进行归一化,并按顺序把8×8个向量拼接成512(8×8×8)维的特征向量,最后对特征向量每个元素进行x0.4变换,变换后的特征向量作为最终结果输出。
所述步骤(3)所指的邻接子区域指:对于某像素点,位于其左上、左下、右上和右下方的种子点所代表的子区域。
本发明的基本原理是:对于手写汉字图像,要直接应用SIFT算法是很困难的。SIFT算法使用的特征点定位算法获得的特征点无论是位置还是数目都是非常不稳定的。其原因是自由书写汉字由于个人风格的差异,即使是同一个字的图形也有很大差别,同时还有加上笔画形变,噪声点等问题让这种差异性变得更大。因此,要把SIFT特征应用于手写汉字识别,必须改用更合适的特征定位策略。本发明在特征定位策略上,放弃寻找稳定的特征点而使用全局(整幅)汉字图像作为特征提取区域,通过弹性网格划分汉字图像区域,参照SIFT描述子的构造思想,在每个网格动态统计相关区域的梯度方向信息来获取手写汉字的特征。
本发明与已有的汉字特征提取方法相比,具有如下的优点和有益效果:
(1)、SIFT描述子是一种基于生物视觉原理构造的特征,大量实验证明其对图像仿射变换,3D视点变换和非刚性变形具有优秀的鲁棒性
(2)、使用弹性切分方法,能把汉字图像切分成一系列稳定的特征区域,对这些区域进行大小归一化后提取的一系列动态梯度描述子特征拼接组成了具有良好性能的特征向量;
(3)、对汉字图像整体提取动态梯度描述子,在提取过程中,把原来无视图像内容的规则划分改进为能适应不同手写风格的弹性网格划分有效改进了识别性能。
(4)、本发明的特征提取方法在手写汉字识别中具有良好的有效性:在数据库使用国家863计划采集到的HCL2000手写汉字样本数据库,随机挑选500套样本进行训练,200不重复的样本进行测试,分类器使用改进二次判决函数(MQDF)分类器,测试结果表明动态梯度特征提取方法获得的首选字命中率是97.556%,前10个候选字的命中率为99.688%。
附图说明
图1是SIFT描述子构造过程示意图;
图2是SIFT描述子构造示意图;
图3是本发明的动态梯度统计特征提取方法的流程框图;
图4是本发明的特征提取方法步骤(3)提及的邻接子区域示意图;
图5是本发明采用的汉字识别系统的结构框图。
具体实施方式
本发明的动态梯度统计特征提取方法的流程框图如附图3所示,具体为对输入的汉字图像一方面进行弹性网格划分,得出64个子区域,然后把子区域的中心点确定为种子点,对每个种子点赋予一个梯度统计向量,另一方面获取图像中每个像素的梯度方向向量,通过对梯度向量的分解,得出每个像素的梯度信息,然后按规则把每个像素点梯度信息加权累加到邻接子区域的种子点上,接着把各个统计向量进行归一化,最后把统计向量顺序拼接成最终的特征向量输出。
本发明的特征提取方法步骤(3)提及的邻接子区域示意图如附图2所示,邻接子区域指:对于某像素点,位于其左上、左下、右上和右下方的种子点(如果有的话)所代表的子区域,图4中圆点代表某像素点,方框代表其邻接子区域,阴影所示方框为其所属子区域A。
本发明的使用的手写汉字识别系统的结构框图如附图5所示,具体为手写汉字图像在输入后,先进行均值滤波的预处理,然后使用本发明的特征提取方法进行特征提取。提取出原始特征后,通过线性判决分析LDA进行降维,通过距离分类器计算降维后的特征矢量与模板中所有汉字的特征矢量的欧式距离,将模板中所有汉字按欧式距离从小到大排序,选取前30个汉字作为识别的候选字集,最后使用MQDF分类器进行识别,得出识别结果。本发明手写汉字识别系统的模板是经过HCL2000数据库的训练样本统计学习得到的。从HCL2000手写汉字样本数据库随机挑选500套样本进行训练,200套不重复的样本进行识别测试,使用本发明的方法获取的特征的识别结果是:首选字命中率是96.061%,前10个候选字的命中率为99.688%。

Claims (6)

1、一种手写汉字图像的特征提取方法,其特征在于使用全局手写汉字图像作为特征提取区域,并通过弹性网格划分汉字图像区域,采用尺度不变性特征变换方法在每个网格动态统计相关区域的梯度方向信息,从而获取手写汉字的特征。
2、根据权利要求1所述的手写汉字图像的特征提取方法,其特征在于所述特征提取方法具体包括如下步骤:
(1)、构造弹性网格划分汉字图像区域;
(2)、提取汉字图像各像素的梯度信息;
(3)、统计梯度信息,得到特征。
3、根据权利要求2所述的手写汉字图像的特征提取方法,其特征在于所述步骤(1)弹性网格划分汉字图像区域通过把汉字图像在水平和垂直两个方向上的直方图投影划分全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,每个网格确定为一个子区域。
4、根据权利要求3所述的手写汉字图像的特征提取方法,其特征在于在水平和垂直两个方向上的直方图投影划分出8 x 8的全局弹性网格,从而划分出64个子区域。
5、根据权利要求2或4所述的手写汉字图像的特征提取方法,其特征在于所述步骤(2)提取汉字图像各像素的梯度信息通过SOBEL算子提取每个像素的梯度向量,并按平行四边形分解的方法,把该向量分解到临近的两个分解方向上,每个像素对应一个8维的梯度方向信息,每一维代表对应的投影方向强度。
6、根据权利要求5所述的手写汉字图像的特征提取方法,其特征在于所述步骤(3)统计梯度信息先把每个子区域中心确定为该区域的种子点,每个种子点是一个8维的向量,每一维代表与该区域相关像素梯度信息在特定梯度方向的统计结果,然后每个像素点梯度信息
Figure A200810220333C00031
乘上权值wx*wy累加到邻接子区域的种子点上,所述wx、wy的值以以下规则确定:
令像素点(x,y)所属子区域为A,(xA,yA)是A区域种子点的坐标,WA、HA是子区域A的宽与高,那么:
Figure A200810220333C00032
Figure A200810220333C00033
累加结束后,对每个种子点向量进行归一化,并按顺序把8×8个向量拼接成512维的特征向量,最后对特征向量每个元素进行x0 4变换,变换后的特征向量作为最终结果输出;
所述邻接子区域为对于某像素点,位于其左上、左下、右上和右下方的种子点所代表的子区域。
CNA200810220333XA 2008-12-24 2008-12-24 一种手写汉字图像的特征提取方法 Pending CN101447022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA200810220333XA CN101447022A (zh) 2008-12-24 2008-12-24 一种手写汉字图像的特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA200810220333XA CN101447022A (zh) 2008-12-24 2008-12-24 一种手写汉字图像的特征提取方法

Publications (1)

Publication Number Publication Date
CN101447022A true CN101447022A (zh) 2009-06-03

Family

ID=40742693

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200810220333XA Pending CN101447022A (zh) 2008-12-24 2008-12-24 一种手写汉字图像的特征提取方法

Country Status (1)

Country Link
CN (1) CN101447022A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271882A (zh) * 2018-08-28 2019-01-25 昆明理工大学 一种区分颜色的手写体汉字提取方法
CN109727363A (zh) * 2018-11-16 2019-05-07 恒银金融科技股份有限公司 一种在票据中识别大写金额的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271882A (zh) * 2018-08-28 2019-01-25 昆明理工大学 一种区分颜色的手写体汉字提取方法
CN109271882B (zh) * 2018-08-28 2020-05-15 昆明理工大学 一种区分颜色的手写体汉字提取方法
CN109727363A (zh) * 2018-11-16 2019-05-07 恒银金融科技股份有限公司 一种在票据中识别大写金额的方法

Similar Documents

Publication Publication Date Title
Liao et al. Rotation-sensitive regression for oriented scene text detection
Timofte et al. Multi-view traffic sign detection, recognition, and 3D localisation
Huang et al. Robust scene text detection with convolution neural network induced mser trees
Pan et al. A robust system to detect and localize texts in natural scene images
CN103310195B (zh) 车辆高分遥感图像的基于llc特征的弱监督识别方法
Saabni et al. Language-independent text lines extraction using seam carving
Louloudis et al. A block-based Hough transform mapping for text line detection in handwritten documents
CN101196564B (zh) 拉普拉斯正则化最小二乘合成孔径雷达自动目标识别方法
CN102722712A (zh) 基于连续度的多尺度高分辨图像目标检测方法
CN103366160A (zh) 融合肤色、人脸和敏感部位检测的不良图像判别方法
CN102663401A (zh) 一种图像特征提取和描述方法
CN105718866A (zh) 一种视觉目标检测与识别方法
CN101488182B (zh) 一种用于手写汉字识别的图像特征提取方法
CN112651323B (zh) 一种基于文本行检测的中文手写体识别方法及系统
Garz et al. A binarization-free clustering approach to segment curved text lines in historical manuscripts
Kobchaisawat et al. Thai text localization in natural scene images using convolutional neural network
CN110222660B (zh) 一种基于动态与静态特征融合的签名鉴伪方法及系统
CN103455826A (zh) 基于快速鲁棒性特征的高效匹配核人体检测方法
Sharma et al. Isolated handwritten digit recognition using adaptive unsupervised incremental learning technique
CN101447022A (zh) 一种手写汉字图像的特征提取方法
CN107679467A (zh) 一种基于hsv和sdalf的行人重识别算法实现方法
Ramana et al. Devanagari character recognition in the wild
Liu et al. Natural scene character recognition using markov random field
CN113658223B (zh) 一种基于深度学习的多行人检测与跟踪方法及系统
Padma et al. Script Identification from Trilingual Documents using Profile Based Features.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20090603