CN101488182A - 一种用于手写汉字识别的图像特征提取方法 - Google Patents
一种用于手写汉字识别的图像特征提取方法 Download PDFInfo
- Publication number
- CN101488182A CN101488182A CNA2008102203344A CN200810220334A CN101488182A CN 101488182 A CN101488182 A CN 101488182A CN A2008102203344 A CNA2008102203344 A CN A2008102203344A CN 200810220334 A CN200810220334 A CN 200810220334A CN 101488182 A CN101488182 A CN 101488182A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- gradient
- handwritten
- cutting
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种用于手写汉字识别的图像特征提取方法,将手写汉字图像切分成一系列稳定的特征提取区域,再通过尺度不变性特征变换算法对这些区域进行特征提取。本发明克服了直接应用SIFT特征点定位无法提取有效的适应不同书写风格的尺度不变特征的问题,结合手写汉字图像的特点,应用弹性网格技术与SIFT特征,设计出基于二次局部弹性区域的SIFT特征的手写汉字特征提取方法。
Description
技术领域
本发明属于模式识别与人工智能技术领域,特别是涉及一种手写汉字图像识别处理方法。
技术背景
一个手写汉字识别系统分为预处理、特征提取、分类识别和后处理四个模块,其中特征提取被认为是汉字识别中一个关键的步骤之一,对整个系统的最终性能有着重要的影响。近年来,很多学者在如何获取有效的特征方面做了很多研究工作,取得了很多优秀的成果。Gabor特征是各种汉字特征中的一种较为有效的特征,它应用的背后有着很好的生物视觉理论支持。事实上,模式识别与计算机视觉和生物视觉理论在一直以来都有着紧密的联系。
随着计算机视觉与生物视觉理论的发展,最近有越来越多先进的图像特征提取算法被提出。其中,David G.Lowe2004年发表在International Journal ofComputer Vision的论文“Distinctive Image Features from Scale-InvariantKeypoints”提出的尺度不变性特征变换算法(Scale Invariant FeatureTransform,简称SIFT)被认为是最有代表性的特征提取算法之一,受到了计算机视觉领域广泛的关注。SIFT整套算法包括定位特征点与对特征区域提取特征向量两部分,提取出来的特征向量一般被称为SIFT描述子(SIFTdescriptor)。SIFT特征已经被广泛应用于图像配准、图像检测、目标识别等领域,并且有着出色的表现。但是,在汉字识别领域,特别是手写汉字识别领域,SIFT特征却无法成功的应用,这是因为自由书写汉字由于个人风格的差异,即使是同一个字的图形也有很大差别,同时还有加上笔画形变,噪声点等问题让这种差异性变得更大。因此,SIFT特征点定位方法对脱机手写汉字识别是不适合的,需要寻找更合适的特征定位策略。
发明内容
本发明的目的是为了克服直接应用SIFT特征点定位无法提取有效的适应不同书写风格的尺度不变特征的问题,结合手写汉字图像的特点,应用弹性网格技术与SIFT特征,设计出基于二次局部弹性区域的SIFT特征的手写汉字特征提取方法。
为了实现发明目的,本发明采用的技术方案为:一种用于手写汉字识别的图像特征提取方法,将手写汉字图像切分成一系列稳定的特征提取区域,再通过尺度不变性特征变换算法对这些区域进行特征提取。
具体包括如下几个主要步骤:
(1)、先水平后垂直弹性切分手写汉字图像成局部子图像块;
(2)、对子图像块提取SIFT描述子特征;
(3)、先垂直后水平再次切分手写汉字图像成局部图像块,重复(2);
(4)、拼接所有局部图像块SIFT特征形成最终特征向量。
所述步骤(1)弹性切分脱机手写汉字图像成子图像块的过程是:通过先对汉字图像在水平方向上非均匀弹性划分3个长方形,划分的原则是让每个长方形内具有相等的汉字像素,然后在垂直方向上在各个长方形图块内部进行非均匀弹性切分,使得每个长方形图块均切分出3个彼此间汉字像素相等的小长方形图块,最终得到9块子图像块。
所述步骤(2)通过对图像块提取SIFT描述子特征过程是:通过先将切分出的图块大小进行线性归一化,然后对每块图块区域提取SIFT描述子特征,提取中使用的SIFT描述子参数为:切分区域数目为2×2、统计方向为8,于是每块图块获得的特征向量维数为32。
所述步骤(2)提及的SIFT描述子特征通过在局部区域计算所有像素的梯度向量,然后用以区域中心为中心的二维高斯函数对所有梯度向量的幅值进行加权,接着把局部区域规则切分为N×N的子区域,在每个子区域上统计D个方向的梯度方向直方图,计算每个梯度方向累加值可形成一个种子点,每个种子点有8个方向的向量信息,最后组合各种子点形成输出的特征。具体做法是:第一步在特征提取区域使用SOBEL算子计算该区域内每个像素点的梯度的幅值和方向,第二步使用中心位于特征提取区域的中心二维高斯函数exp[-(x2+y2)/2σ2]与特征提取区域中每个像素的梯度幅值进行相乘(式中σ=0.75×区域宽度),第三步在特征区域内规则切分出N×N个子区域(图4中N=2),每个区域的中心赋予一个称为种子点的梯度方向直方图统计向量(统计方向共八个,彼此间隔为45度),第四步统计区域的梯度方向直方图,具体过程为,若某个像素点梯度方向落在某一个统计方向的附近,则其相应的梯度幅值就累加在这个方向上,累加过程中,像素梯度幅值经过三线性插值后一一累加到毗连的各直方图块中,第五步将SIFT描述子向量进行归一化。
所述步骤(3)使用的切分方法为:通过先对汉字图像在垂直方向上进行弹性划分为3个长方形,划分的原则是让每个长方形内具有相等的汉字像素,然后再在水平方向上以相同的方法对每个长方形进行切分,切成3个彼此间汉字像素相等的图块,获取另外9块子图像块。
所述步骤(4)拼接所有图块特征形成最终特征向量:通过将步骤(2)、(3)获取的18个图块特征进行顺序拼接,获得一个576(18×32)维特征向量,接着对这个向量中每一个元素进行x0.4的变换,变换后的特征向量为最终输出的特征向量。
与SIFT特征不同,本发明在特征定位上,使用了寻找稳定的特征区域的特征定位策略。弹性局部区域SIFT汉字特征提取方法使用了弹性切分方法,将汉字图像切分成一系列稳定的特征提取区域,再对这些区域提取了有效的尺度不变方向特征。
本发明与已有的汉字特征提取方法相比,具有如下的优点和有益效果:
(1)、本发明中应用的SIFT描述子是一种基于生物视觉原理构造的特征,大量实验证明其对图像仿射变换,3D视点变换和非刚性变形具有优秀的鲁棒性;
(2)、使用弹性切分方法,能把汉字图像切分成一系列稳定的特征区域,对这些区域进行大小归一化后提取的一系列SIFT描述子特征拼接组成了具有良好性能的特征;
(3)、对汉字图像整体提取SIFT描述子,在提取过程中,把原来无视图像内容的规则划分改进为能适应不同手写风格的弹性网格划分有效改进了识别性能;
(4)、本发明的两种特征提取方法在脱机汉字识别中具有良好的有效性:在数据库使用国家863计划采集到的HCL2000手写汉字样本数据库,随机挑选500套样本进行训练,200不重复的样本进行测试,分类器使用改进二次判决函数(MQDF)分类器,测试结果表明本发明的弹性局部区域尺度不变方向特征提取方法获取的特征首选字识别率是96.061%,前10个候选字的识别率为99.639%。
附图说明
图1是本发明的弹性局部区域SIFT汉字特征提取方法的流程框图;
图2是本发明采用的汉字识别系统的结构框图;
图3是SIFT描述子特征的提取流程框图;
图4是SIFT描述子的提取示意图。
具体实施方式
本发明的弹性局部区域SIFT汉字特征提取方法的流程图如附图1所示,具体为先将输入的汉字图像进行两种不同的弹性切分,获取一共18个不同的图像区域(图块),然后把这些图块线性归一化为统一大小,再对它们提取SIFT描述子特征,最后把所有描述子特征顺序拼接成最终的特征向量。
本发明的弹性局部区域SIFT汉字特征提取过程中应用到的SIFT描述子特征的提取流程图如附图2,其构造示意图如附图3,具体为第一步在特征提取区域使用SOBEL算子计算该区域内每个像素点的梯度的幅值和方向,如图3右边所示,其中分别以每个方格内的箭头长度和箭头方向表示,第二步使用中心位于特征提取区域的中心二维高斯函数exp[-(x2+y2)/2σ2]与特征提取区域中每个像素的梯度幅值进行相乘(式中σ=0.75×区域宽度),第三步在特征区域内规则切分出N×N个子区域(图4中N=2),每个区域的中心赋予一个称为种子点的梯度方向直方图统计向量(统计方向共八个,彼此间隔为45度),第四步统计区域的梯度方向直方图,具体过程为,若某个像素点梯度方向落在某一个统计方向的附近,则其相应的梯度幅值就累加在这个方向上,累加过程中,像素梯度幅值经过三线性插值后一一累加到毗连的各直方图块中,第五步将SIFT描述子向量进行归一化。
本发明的使用的手写汉字识别系统的结构框图如附图4所示,手写汉字图像在输入后,先进行均值滤波的预处理,然后使用本发明的两种特征提取方法之一进行特征提取。提取出原始特征后,通过线性判决分析LDA进行降维,通过距离分类器计算降维后的特征矢量与模板中所有汉字的特征矢量的欧式距离,将模板中所有汉字按欧式距离从小到大排序,选取前30个汉字作为识别的候选字集,最后使用MQDF分类器进行识别,得出识别结果。本发明手写汉字识别系统的模板是经过HCL2000数据库的训练样本统计学习得到的。从HCL2000手写汉字样本数据库随机挑选500套样本进行训练,200套不重复的样本进行识别测试,使用本发明的方法获取的特征的识别结果是:首选字命中率是97.556%,前10个候选字的命中率为99.639%。
Claims (8)
1、一种用于手写汉字识别的图像特征提取方法,其特征在于将手写汉字图像切分成一系列稳定的特征提取区域,再通过尺度不变性特征变换算法对这些区域进行特征提取。
2、根据权利要求1所述的用于手写汉字识别的图像特征提取方法,其特征在于包括如下步骤:
(1)、首次切分手写汉字图像成局部图像块;
(2)、对子图像块提取尺度不变性特征变换描述子特征;
(3)、再次切分手写汉字图像成局部图像块,重复步骤(2);
(4)、拼接所有局部图像块尺度不变性特征变换描述子特征,形成最终特征向量。
3、根据权利要求2所述的用于手写汉字识别的图像特征提取方法,其特征在于所述步骤(1)的切分方法为先水平后垂直弹性切分,具体先对汉字图像在水平方向上非均匀弹性划分3个长方形,使每个长方形内具有相等的汉字像素,然后在垂直方向上在各个长方形图块内部进行非均匀弹性切分,使得每个长方形图块均切分出3个彼此间汉字像素相等的小长方形图块,最终得到9块子图像块。
4、根据权利要求2所述的用于手写汉字识别的图像特征提取方法,其特征在于所述步骤(2)对局部图像块提取尺度不变性特征变换描述子特征过程是:先将切分出的局部图像块大小进行线性归一化,然后对每个局部图像块区域提取尺度不变性特征变换描述子特征,提取中使用的尺度不变性特征变换描述子参数为:切分区域数目为2×2、统计方向为8,于是每个局部图像块获得的特征向量维数为32。
5、根据权利要求2或4所述的用于手写汉字识别的图像特征提取方法,其特征在于所述步骤(2)提及的尺度不变性特征变换描述子特征通过在局部图像块区域计算所有像素的梯度向量,然后用以区域中心为中心的二维高斯函数对所有梯度向量的幅值进行加权,接着把局部区域规则切分为多个子区域,在每个子区域上统计每个方向的梯度方向直方图,计算每个梯度方向累加值形成一个种子点,每个种子点有8个方向的向量信息,最后组合各种子点形成输出的特征。
6、根据权利要求5所述的用于手写汉字识别的图像特征提取方法,其特征在于所述步骤(2)进一步细化如下:
第一步使用SOBEL算子计算局部图像块区域内每个像素点的梯度的幅值和方向;
第二步使用中心位于局部图像块区域的中心二维高斯函数exp[-(x2+y2)/2σ2]与区域中每个像素的梯度幅值进行相乘,其中σ=0.75×区域宽度;
第三步在局部图像块区域内规则切分出N×N个子区域(N为常数),每个区域的中心赋予一个称为种子点的梯度方向直方图统计向量,统计方向共八个,彼此间隔为45度;
第四步统计局部图像块区域的梯度方向直方图,具体过程为,若某个像素点梯度方向落在某一个统计方向的附近,则其相应的梯度幅值就累加在这个方向上,累加过程中,像素梯度幅值经过三线性插值后一一累加到毗连的各直方图块中;
第五步将尺度不变性特征变换描述子向量进行归一化。
7、根据权利要求2所述的用于手写汉字识别的图像特征提取方法,其特征在于所述步骤(3)使用的切分方法为:先对汉字图像在垂直方向上进行弹性划分为3个长方形,使每个长方形内具有相等的汉字像素,然后在水平方向上对每个长方形进行切分,切成3个彼此间汉字像素相等的图块,获取另外9块子图像块。
8、根据权利要求2所述的用于手写汉字识别的图像特征提取方法,其特征在于所述步骤(4)拼接所有局部图像块特征形成最终特征向量的具体操作为:通过将步骤(2)、(3)获取的18个图块特征进行顺序拼接,获得一个576维特征向量,接着对这个向量中每一个元素进行x0.4的变换,变换后的特征向量为最终输出的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102203344A CN101488182B (zh) | 2008-12-24 | 2008-12-24 | 一种用于手写汉字识别的图像特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102203344A CN101488182B (zh) | 2008-12-24 | 2008-12-24 | 一种用于手写汉字识别的图像特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101488182A true CN101488182A (zh) | 2009-07-22 |
CN101488182B CN101488182B (zh) | 2010-12-29 |
Family
ID=40891068
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102203344A Expired - Fee Related CN101488182B (zh) | 2008-12-24 | 2008-12-24 | 一种用于手写汉字识别的图像特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101488182B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049750A (zh) * | 2013-01-11 | 2013-04-17 | 广州广电运通金融电子股份有限公司 | 字符识别方法 |
CN107992792A (zh) * | 2017-10-16 | 2018-05-04 | 华南理工大学 | 一种基于加速度传感器的空中手写汉字识别系统及方法 |
CN110019907A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种图像检索方法及装置 |
TWI685796B (zh) * | 2018-05-31 | 2020-02-21 | 國立中興大學 | 智慧型文字圖形識別方法 |
CN113420767A (zh) * | 2021-07-22 | 2021-09-21 | 凌云光技术股份有限公司 | 一种用于字体分类的特征提取方法、系统和装置 |
CN113673415A (zh) * | 2021-08-18 | 2021-11-19 | 山东建筑大学 | 一种手写汉字身份鉴别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711293B1 (en) * | 1999-03-08 | 2004-03-23 | The University Of British Columbia | Method and apparatus for identifying scale invariant features in an image and use of same for locating an object in an image |
CN1315090C (zh) * | 2005-02-08 | 2007-05-09 | 华南理工大学 | 一种手写文字的识别方法 |
-
2008
- 2008-12-24 CN CN2008102203344A patent/CN101488182B/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049750A (zh) * | 2013-01-11 | 2013-04-17 | 广州广电运通金融电子股份有限公司 | 字符识别方法 |
CN103049750B (zh) * | 2013-01-11 | 2016-06-15 | 广州广电运通金融电子股份有限公司 | 字符识别方法 |
US9519838B2 (en) | 2013-01-11 | 2016-12-13 | Grg Banking Equipment Co., Ltd. | Character recognition method |
CN107992792A (zh) * | 2017-10-16 | 2018-05-04 | 华南理工大学 | 一种基于加速度传感器的空中手写汉字识别系统及方法 |
CN110019907A (zh) * | 2017-12-01 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种图像检索方法及装置 |
CN110019907B (zh) * | 2017-12-01 | 2021-07-16 | 北京搜狗科技发展有限公司 | 一种图像检索方法及装置 |
TWI685796B (zh) * | 2018-05-31 | 2020-02-21 | 國立中興大學 | 智慧型文字圖形識別方法 |
CN113420767A (zh) * | 2021-07-22 | 2021-09-21 | 凌云光技术股份有限公司 | 一种用于字体分类的特征提取方法、系统和装置 |
CN113420767B (zh) * | 2021-07-22 | 2024-04-26 | 凌云光技术股份有限公司 | 一种用于字体分类的特征提取方法、系统和装置 |
CN113673415A (zh) * | 2021-08-18 | 2021-11-19 | 山东建筑大学 | 一种手写汉字身份鉴别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101488182B (zh) | 2010-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Timofte et al. | Multi-view traffic sign detection, recognition, and 3D localisation | |
Pan et al. | A robust system to detect and localize texts in natural scene images | |
CN102254196B (zh) | 计算机鉴别手写汉字的方法 | |
CN101488182B (zh) | 一种用于手写汉字识别的图像特征提取方法 | |
CN108154151B (zh) | 一种快速多方向文本行检测方法 | |
CN102663401A (zh) | 一种图像特征提取和描述方法 | |
Garz et al. | A binarization-free clustering approach to segment curved text lines in historical manuscripts | |
CN105825228A (zh) | 图像识别方法及装置 | |
Ramzi et al. | Online Arabic handwritten character recognition using online-offline feature extraction and back-propagation neural network | |
Sharma et al. | Isolated handwritten digit recognition using adaptive unsupervised incremental learning technique | |
Chen et al. | Effective candidate component extraction for text localization in born-digital images by combining text contours and stroke interior regions | |
Zhan et al. | A robust split-and-merge text segmentation approach for images | |
Zhang et al. | Deep contextual stroke pooling for scene character recognition | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
Liu et al. | Circuit sketch recognition | |
El Qacimy et al. | Word-based Arabic handwritten recognition using SVM classifier with a reject option | |
Korichi et al. | Off-line Arabic handwriting recognition system based on ML-LPQ and classifiers combination | |
Deshmukh et al. | Analysis of directional features-stroke and contour for handwritten character recognition | |
Jia et al. | Grayscale-projection based optimal character segmentation for camera-captured faint text recognition | |
Padma et al. | Script Identification from Trilingual Documents using Profile Based Features. | |
CN101447022A (zh) | 一种手写汉字图像的特征提取方法 | |
Gopalan et al. | Statistical modeling for the detection, localization and extraction of text from heterogeneous textual images using combined feature scheme | |
Zaghloul et al. | Recognition of Hindi (Arabic) handwritten numerals | |
Mansouri et al. | A new approach for automatic Arabic-text detection and localisation in video frames | |
Zhang et al. | Character recognition in natural scene images using local description |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20101229 Termination date: 20141224 |
|
EXPY | Termination of patent right or utility model |