CN100409251C - 用于退化文字行的字符识别装置和方法 - Google Patents

用于退化文字行的字符识别装置和方法 Download PDF

Info

Publication number
CN100409251C
CN100409251C CNB2005100935293A CN200510093529A CN100409251C CN 100409251 C CN100409251 C CN 100409251C CN B2005100935293 A CNB2005100935293 A CN B2005100935293A CN 200510093529 A CN200510093529 A CN 200510093529A CN 100409251 C CN100409251 C CN 100409251C
Authority
CN
China
Prior art keywords
character
feature
dictionary
image
reconstruct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2005100935293A
Other languages
English (en)
Other versions
CN1920855A (zh
Inventor
孙俊
堀田悦伸
藤本克仁
胜山裕
直井聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CNB2005100935293A priority Critical patent/CN100409251C/zh
Priority to JP2006226997A priority patent/JP5028911B2/ja
Publication of CN1920855A publication Critical patent/CN1920855A/zh
Application granted granted Critical
Publication of CN100409251C publication Critical patent/CN100409251C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

用于退化文字行的字符识别装置和方法。该字符识别装置包括:特征提取单元,利用第一字典从所输入的归一化图像中提取特征;粗分类单元,通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;特征重构单元,通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为该特定数量的重构特征;精细识别单元,根据由该特征提取单元提取的特征与该重构特征来识别并输出最终的识别字符编码;图像重构单元,通过使用该第一字典以及由该特征重构单元生成的重构特征来重构数量为该特定数量的重构图像;识别距离计算单元,用于根据所输入的归一化图像和该图像重构单元生成的重构图像来计算并输出识别距离。

Description

用于退化文字行的字符识别装置和方法
技术领域
本发明总体上涉及用于字符识别的装置和方法,更具体地涉及用于退化文字行的字符识别装置和方法。
背景技术
随着数码相机和数码摄像机在文档图像拍摄方面的日益普及,退化文字行识别得到了越来越多的重视。对退化文字行的识别包括单个字符识别和文字行分割两个部分。这两个部分又是有机结合在一起的。
对于文字行分割来说,基于识别的分割方法是使用最为广泛的一种方法。图1是传统的基于识别的分割方法的原理图。首先对所输入的图像进行二值化处理,然后通过对二值图像的连接部分进行分析来获得字符的笔画(图1中的最上一行)。图像的连接部分的分析算法可以参见:Rafael C.Gonzalez和Richard E.Woods著,《数字图像处理(第二版)》,阮秋琦,阮宇智等译,电子工业出版社,第435页。每一个连接部分都可以看作是一个基本分割字符(图1中的中间一行)。连接部分的组合被看作是合成分割字符(图1中的最下面一行)。然后,对每一个基本分割字符和合成分割字符都进行字符识别,并给出一个识别距离。一个文本行可以被分解为多条由不同基本分割字符和合成分割字符组合在一起的分割路径,每一个分割路径的识别距离是构成它的基本分割字符和合成分割字符的识别距离之和。该文本行的正确分割结果是通过选择总的识别距离最小的分割路径来获得的。在实现了分割的同时,对每个基本分割字符和合成分割字符的识别结果也就是对字符的最后识别结果。
图1是传统的基于识别的分割方法的原理图。
如图1所示,由“ハ”、“リ”和“を”组成的分割路径具有最小的识别距离值72。因此它们被输出为最后的分割和识别的结果。
从上述的原理图我们可以看出识别距离的值不仅对于识别结果,而且对于正确分割也是非常重要的。例如,在图1中,对于“ハ”的最小识别距离是21,该字符的左右两个笔画的识别距离分别是19和22。如果这两个笔画的识别距离之和小于21,则即使“ハ”的识别结果是正确的,它仍然会被错误地分割为“丿”和“丶”两个部分。
目前已经有很多关于文本行分割的文章和专利,比如:
Y.Lu,“Machine Printed Character Segmentation-AnOverview”.Pattern Recognition,Vol.28,No.1,pp.67-80,Jan,1995。
S.W.Lee,D.J.Lee,H.S.Park,“A New Methodology forGray-Scale Character Segmentation and Recognition”.IEEEtransaction on pattern analysis and machine intelligence,Vol.18,No.10,pp.1045-1050,Oct,1996。
Kamitani“Character segmentation device and charactersegmentation system”.US Pat.No.6,327,385。
Hanson,“Apparatus for performing character segmentationusing slant histograms”.US Pat.No.5,692,069。
Tan,“Fast character segmentation of skewed text lines foroptical character recognition”.US Pat.No.5,172,422。
这些文献和专利中的大部分都是针对粘连文字的处理,而且大多的处理对象都是二值化图像,而对于退化的文本行图像,传统的二值化方法常常会引起严重的断笔(笔画像素点丢失)或者笔画的粘连。因此识别的效果不佳。
基于双子空间(dual eigenspace)的方法对于退化字符具有很好的识别效果。该方法从灰度字符图像中直接提取字符特征。图2是利用双子空间方法来进行字符识别的流程图。其输入是经过归一化的字符图像。首先,通过第一字典(图2中的字典一)来提取字符图像的特征。然后,通过第二字典(图2中的字典二)将该字符图像粗略分类为M个候选类别。随后,通过第三字典(图2中的字典三)将所输入的字符特征精细地分类为该M个候选类别中的某一类别。最后,输出识别出的字符编码和识别距离。
由于基于双子空间的方法从灰度图像中直接提取特征,避免了二值化的环节,因此它对于由于图像退化而引起的噪声具有更好的抵抗能力。但是,直接在基于识别的分割方法中利用双子空间方法存在一些问题。
如图3所示,第一行的图像是文本行图像。第二行是二值化的结果。二值化图像用来进行粗分割。所示的边框是粗分割的结果。第三行是经过归一化后的基本分割字符的灰度图像。在每一个分割图像的下面是识别字符和对应的识别距离。第四行是经过归一化后的合成分割字符“年”和“開”的归一化灰度字符图像,以及对应的识别结果和识别距离。如果使用传统的基于识别的分割方法,则不能正确地识别“開”,因为在第二行中,“開”会被分割为四个部分,这四个部分的识别距离之和是5.39+61.01+45.69+20.37=132.46。由于“開”本身的识别距离是409.71,大于其四个部分的识别距离之和。因此整个文本行将被识别为“年1回I!II ㄑ”。
发明内容
本发明的目的在于提供一种针对退化文字行的字符识别装置和方法,其通过使用更好的特征来产生更合理的识别距离,从而解决了利用双子空间进行分割而出现的问题。
根据本发明的一个方面,提供了一种用于退化文字行的字符识别装置,该字符识别装置包括:特征提取单元,利用第一字典从所输入的归一化图像中提取特征;粗分类单元,通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;特征重构单元,通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征;精细识别单元,根据由所述特征提取单元提取的特征与所述重构特征来识别并输出最终的识别字符编码;图像重构单元,通过使用所述第一字典以及由所述特征重构单元生成的重构特征来重构数量为所述特定数量的重构图像;识别距离计算单元,用于根据所输入的归一化图像和所述图像重构单元生成的重构图像来计算并输出识别距离。
根据本发明的另一方面,提供了一种用于退化文字行的字符识别方法,该字符识别方法包括以下步骤:利用第一字典从所输入的归一化图像中提取特征;通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征;根据所提取的特征与所述重构特征来识别并输出最终的识别字符编码;通过使用所述第一字典以及所述重构特征来重构数量为所述特定数量的重构图像;根据所输入的归一化图像和所述重构图像来计算并输出识别距离。
由于在本发明中,根据所提取的特征与重构特征来识别并输出最终的识别字符编码,并且根据所输入的归一化图像和重构图像来计算并输出识别距离,所以本发明使用更好的特征产生了更适用于分割的识别距离,使得能够正确地分割退化文本行的字符。
附图说明
图1是传统的基于识别的分割方法的原理图。
图2是利用双子空间方法来进行字符识别的流程图。
图3是利用双子空间方法来进行字符识别的示例。
图4是根据本发明实施例的字符识别装置中所使用的字符识别方法的流程图。
图5是根据本发明实施例的字符识别装置中所使用的字符识别方法的示例。
具体实施方式
下面将参照附图说明本发明的实施例。
图4是根据本发明实施例的字符识别装置中所使用的字符识别方法的流程图。
如图4所示,根据本发明实施例的字符识别装置包括:特征提取单元402,其利用第一字典403从所输入的归一化图像401中提取特征;粗分类单元404,通过将所提取的特征和存储在第二字典405中的特征进行比较,来选择M个字符候选类别;特征重构单元406,通过使用第三字典407以及该M个字符候选类别来重构M个重构特征;图像重构单元408,通过使用第一字典403来重构M个重构图像;精细识别单元409,通过比较由特征提取单元提取的特征与重构特征之间的差异,来输出最终的识别字符编码411;识别距离计算单元410,用于输出识别距离412。
根据图4所示的流程图,对于所输入的经过归一化的字符图像401,特征提取单元402利用第一字典403提取该字符图像的特征:
Y=UT(X-X)              (1)
其中 X = [ x 1 , x 2 , . . . , x w * h ] T 表示长度和宽度分别为w和h的经过归一化的字符图像。 X ‾ = [ x ‾ 1 , x ‾ 2 , . . . , x ‾ w * h ] T 是所有归一化字符图像的平均值。U=[u1,u2,...,un]T是转换矩阵,其中 u i = [ u i 1 , u i 2 , . . . , u iw * h ] T . 第一字典403由U和X构成。公式(1)中所使用的特征提取方法称为主成份分析方法(Principal ComponentAnalysis,简称PCA)。关于PCA的具体实现参见R.O.Duda,P.E.Hart和D.G.Stork.A所著的“Pattern classification”,second edition,A Wiley-Interscience Publication John Wiley & Sons,Inc.2001.pp.115~117,568~569。
在特征提取之后,通过粗分类单元404将所提取的特征Y和预先存储在第二字典405中的每一个字符类别的特征进行比较。特征比较的算法很多,其中一种是基于欧式距离的比较方法:Di=|Y-Yi|,其中Di是特征Y与第i字符类别的特征Yi的欧式距离。假设粗分类单元404输出的候选字符类别的数量是M,则选择具有最小欧式距离的M个字符类别作为粗分类的输出。
特征重构单元406利用第三字典407来重构出与该M个候选类别相对应的M个重构特征。该第三字典存储有每一个字符类别的转换矩阵 U ~ i = [ u 1 i , u 2 i , . . . , u n 1 i ] 和平均特征向量Ci。通过公式(2)获得第i重构特征
Figure C20051009352900085
η i = U ~ i T ( Y - C i ) , Y ^ i = U ~ i T η i + C i - - - ( 2 )
图4中的精细识别单元409计算原始特征Y与M个重构特征
Figure C20051009352900088
之间的差异,选择具有最小差异的字符类别作为精细识别的最终结果,输出与该字符类别相对应的编码作为识别出的字符编码411。
与图2所示的传统的双子空间方法不同,本发明的识别距离不是提取特征Y和重构特征之差。在本发明中,提出了一个新的图像重构单元408,其利用第一字典403来计算M个重构图像
Figure C20051009352900091
X · · i = U Y ^ i + X ‾ - - - ( 3 )
X ^ i ( k ) = 255 * ( X · · i ( k ) - m 1 ) ( m 2 - m 1 ) , m 1 = min { X · · i ( k ) } , m 2 = max { X · · i ( k ) } - - - ( 4 )
公式(3)可以从公式(1)推导出来。公式(4)用于将重构图像的像素点的取值范围归一化为0~255。该范围与原始图像的像素点的取值范围是一致的。
图4中的识别距离计算单元410计算原始归一化字符图像401与M个重构图像
Figure C20051009352900096
之间的距离,将其中的最小距离作为最后输出的识别距离412。
图5示出了通过根据本发明实施例的字符识别装置中所使用的字符识别方法得到的识别距离。可以看出,图5中的识别距离对于分割来说更加合理。“開”的识别距离是104.78,而它的四个组成部分的识别距离之和是494.02,远远大于“開”本身的识别距离104.78。因此可以正确地分割和识别该字符。
尽管实施例中采用的示例字符是日文字符,但是本方法不仅仅限于日语,其还可以适用于中文和韩文等其它文字。

Claims (14)

1. 一种用于退化文字行的字符识别装置,该字符识别装置包括:
特征提取单元,利用第一字典从所输入的归一化图像中提取特征;
粗分类单元,通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;
特征重构单元,通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征,
其特征在于,还包括:
精细识别单元,根据由所述特征提取单元提取的特征与所述重构特征来识别并输出最终的识别字符编码;
图像重构单元,通过使用所述第一字典以及由所述特征重构单元生成的重构特征来重构数量为所述特定数量的重构图像;
识别距离计算单元,用于根据所输入的归一化图像和所述图像重构单元生成的重构图像来计算并输出识别距离。
2. 根据权利要求1所述的字符识别装置,其中所述精细识别单元比较由所述特征提取单元提取的特征与所述重构特征之间的差异,并输出与差异最小的重构特征相对应的字符编码作为所述最终的识别字符编码。
3. 根据权利要求1所述的字符识别装置,其中所述图像重构单元将所述重构图像的像素点的取值范围归一化为0到255的范围。
4. 根据权利要求1所述的字符识别装置,其中所述识别距离计算单元计算所输入的归一化图像与所述图像重构单元生成的重构图像之间的距离,并将其中的最小距离输出为所述识别距离。
5. 根据权利要求1到4中的任何一个所述的字符识别装置,其中所述第一字典由一转换矩阵和所有归一化图像的平均值构成。
6. 根据权利要求1到4中的任何一个所述的字符识别装置,其中所述第二字典存储有每一个字符类别的特征。
7. 根据权利要求1到4中的任何一个所述的字符识别装置,其中所述第三字典存储有每一个字符类别的转换矩阵和平均特征向量。
8. 一种用于退化文字行的字符识别方法,该字符识别方法包括以下步骤:
利用第一字典从所输入的归一化图像中提取特征;
通过将所提取的特征与存储在第二字典中的特征进行比较,来选择特定数量的字符候选类别;
通过使用第三字典以及所选择的特定数量的字符候选类别来重构数量为所述特定数量的重构特征;
根据所提取的特征与所述重构特征来识别并输出最终的识别字符编码;
通过使用所述第一字典以及所述重构特征来重构数量为所述特定数量的重构图像;
根据所输入的归一化图像和所述重构图像来计算并输出识别距离。
9. 根据权利要求8所述的字符识别方法,其中识别并输出最终的识别字符编码的所述步骤比较所提取的特征与所述重构特征之间的差异,并输出与差异最小的重构特征相对应的字符编码作为所述最终的识别字符编码。
10. 根据权利要求8所述的字符识别方法,其中重构图像的所述步骤将所述重构图像的像素点的取值范围归一化为0到255的范围。
11. 根据权利要求8所述的字符识别方法,其中计算并输出识别距离的所述步骤计算所输入的归一化图像与所述重构图像之间的距离,并将其中的最小距离输出为所述识别距离。
12. 根据权利要求8到11中的任何一个所述的字符识别方法,其中所述第一字典由一转换矩阵和所有归一化图像的平均值构成。
13. 根据权利要求8到11中的任何一个所述的字符识别方法,其中所述第二字典存储有每一个字符类别的特征。
14. 根据权利要求8到11中的任何一个所述的字符识别方法,其中所述第三字典存储有每一个字符类别的转换矩阵和平均特征向量。
CNB2005100935293A 2005-08-26 2005-08-26 用于退化文字行的字符识别装置和方法 Active CN100409251C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2005100935293A CN100409251C (zh) 2005-08-26 2005-08-26 用于退化文字行的字符识别装置和方法
JP2006226997A JP5028911B2 (ja) 2005-08-26 2006-08-23 文字列認識プログラム、方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100935293A CN100409251C (zh) 2005-08-26 2005-08-26 用于退化文字行的字符识别装置和方法

Publications (2)

Publication Number Publication Date
CN1920855A CN1920855A (zh) 2007-02-28
CN100409251C true CN100409251C (zh) 2008-08-06

Family

ID=37778575

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100935293A Active CN100409251C (zh) 2005-08-26 2005-08-26 用于退化文字行的字符识别装置和方法

Country Status (2)

Country Link
JP (1) JP5028911B2 (zh)
CN (1) CN100409251C (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100535931C (zh) * 2006-09-06 2009-09-02 中国科学院自动化研究所 一种多分辨率退化字符自适应识别系统及方法
CN101359373B (zh) * 2007-08-03 2011-01-12 富士通株式会社 退化字符的识别方法和装置
US8270719B2 (en) * 2008-10-14 2012-09-18 Gemological Appraisal Association, Inc. Gem pattern matching algorithm to determine the percentage match of a target gem pattern to a database of gem patterns
US20120072013A1 (en) * 2010-09-16 2012-03-22 Kabushiki Kaisha Toshiba Character recognition apparatus, sorting apparatus, sorting control apparatus, and character recognition method
JP6341059B2 (ja) * 2014-10-31 2018-06-13 オムロン株式会社 文字認識装置、文字認識方法、およびプログラム
CN108304882B (zh) * 2018-02-07 2022-03-04 腾讯科技(深圳)有限公司 一种图像分类方法、装置及服务器、用户终端、存储介质
CN110826567B (zh) * 2019-11-06 2023-04-07 北京字节跳动网络技术有限公司 光学字符识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237322A (ja) * 1995-12-28 1997-09-09 Nec Corp 認識装置の候補修正方式
US6038343A (en) * 1996-02-06 2000-03-14 Hewlett-Parkard Company Character recognition method and apparatus using writer-specific reference vectors generated during character-recognition processing
CN1459761A (zh) * 2002-05-24 2003-12-03 清华大学 基于Gabor滤波器组的字符识别技术

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62130481A (ja) * 1985-11-30 1987-06-12 Nec Corp 文字認識方式
JPH08194781A (ja) * 1995-01-17 1996-07-30 N T T Data Tsushin Kk 文字認識装置の評価方法及び装置
JP2001223885A (ja) * 1999-11-29 2001-08-17 Canon Inc 画像処理装置及びその方法とその記憶媒体
JP4442208B2 (ja) * 2003-12-08 2010-03-31 株式会社日立製作所 文字列表記解析手法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237322A (ja) * 1995-12-28 1997-09-09 Nec Corp 認識装置の候補修正方式
US6038343A (en) * 1996-02-06 2000-03-14 Hewlett-Parkard Company Character recognition method and apparatus using writer-specific reference vectors generated during character-recognition processing
CN1459761A (zh) * 2002-05-24 2003-12-03 清华大学 基于Gabor滤波器组的字符识别技术

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
a gray-scale image based character recognition algorithmto low quality and low-resolution images. Xuewen Wang, Xiaoqing Ding, Changsong Liu.Proceedings of SPIE,Vol.4307 . 2001
a gray-scale image based character recognition algorithmto low quality and low-resolution images. Xuewen Wang, Xiaoqing Ding, Changsong Liu.Proceedings of SPIE,Vol.4307 . 2001 *
质量退化的车牌字符分割方法. 李文举,梁德群,王新年,于东.计算机辅助设计与图形学学报,第16卷第5期. 2004
质量退化的车牌字符分割方法. 李文举,梁德群,王新年,于东.计算机辅助设计与图形学学报,第16卷第5期. 2004 *
退化字符图象的骨架法形态分析识别方法. 卢达,浦炜,谢铭培.计算机工程,第25卷第9期. 1999
退化字符图象的骨架法形态分析识别方法. 卢达,浦炜,谢铭培.计算机工程,第25卷第9期. 1999 *

Also Published As

Publication number Publication date
JP2007066310A (ja) 2007-03-15
JP5028911B2 (ja) 2012-09-19
CN1920855A (zh) 2007-02-28

Similar Documents

Publication Publication Date Title
CN100409251C (zh) 用于退化文字行的字符识别装置和方法
Kessentini et al. Off-line handwritten word recognition using multi-stream hidden Markov models
CN109919147A (zh) 服装吊牌图像中文本识别的方法
Yang et al. A framework for improved video text detection and recognition
AlKhateeb et al. DBN-Based learning for Arabic handwritten digit recognition using DCT features
CN101359373B (zh) 退化字符的识别方法和装置
Zheng et al. A parallel-line detection algorithm based on HMM decoding
Roy et al. A system for Indian postal automation
Pesch et al. Analysis of preprocessing techniques for Latin handwriting recognition
Hasnat et al. A high performance domain specific OCR for Bangla script
Dineshkumar et al. Sanskrit character recognition system using neural network
Yokobayashi et al. Segmentation and recognition of characters in scene images using selective binarization in color space and gat correlation
Yokobayashi et al. Binarization and recognition of degraded characters using a maximum separability axis in color space and gat correlation
Dahi et al. Primitive printed arabic optical character recognition using statistical features
CN100369051C (zh) 灰度字符词典的生成装置
Lamghari et al. Template matching for recognition of handwritten Arabic characters using structural characteristics and Freeman code
Kornai et al. Recognition of cursive writing on personal checks
Nath et al. Improving various offline techniques used for handwritten character recognition: a review
Castro et al. Improvement optical character recognition for structured documents using generative adversarial networks
CN1916938A (zh) 识别距离调整装置和方法以及文本行识别装置和方法
Choudhury et al. Recognition of handwritten Bangla numerals using adaptive coefficient matching technique
AlKhateeb Word-based handwritten Arabic scripts recognition using dynamic Bayesian network
Likforman-Sulem Recent approaches in handwriting recognition with markovian modelling and recurrent neural networks
El-Yacoubi et al. Objective evaluation of the discriminant power of features in an HMM-based word recognition system
Svarnovics DataMatrix Barcode Read Rate Improvement Using Image Enhancement

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant