CN102467664B - 辅助光学字符识别的方法和装置 - Google Patents

辅助光学字符识别的方法和装置 Download PDF

Info

Publication number
CN102467664B
CN102467664B CN201010532572.6A CN201010532572A CN102467664B CN 102467664 B CN102467664 B CN 102467664B CN 201010532572 A CN201010532572 A CN 201010532572A CN 102467664 B CN102467664 B CN 102467664B
Authority
CN
China
Prior art keywords
character
string
format information
information string
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010532572.6A
Other languages
English (en)
Other versions
CN102467664A (zh
Inventor
陈江宁
甘景全
李健
谢宇
马雁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aisino Corp
Original Assignee
Aisino Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisino Corp filed Critical Aisino Corp
Priority to CN201010532572.6A priority Critical patent/CN102467664B/zh
Publication of CN102467664A publication Critical patent/CN102467664A/zh
Application granted granted Critical
Publication of CN102467664B publication Critical patent/CN102467664B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种辅助光学字符识别的方法和装置,其中该方法包括以下步骤:生成用于表示待打印字符串的字符类型的格式信息串;保存该格式信息串;获取该待打印字符串对应的待识别字符串图像,并获取该格式信息串;根据格式信息串对待识别字符串图像进行切分,对切分后的待识别字符串图像进行光学字符识别。

Description

辅助光学字符识别的方法和装置
技术领域
本发明涉及光学字符识别(Optical Character Recognition,OCR)领域,具体而言,涉及一种辅助光学字符识别的方法和装置。
背景技术
现在的光学字符识别系统,是通过行切分及列切分,逐一将待识别字符串图像切分成单个字符单元图像块后进行识别,对于识别包括若干粘连字符、中英文混排字符等情况,需要在切分时找到图像块的特征数据再进行处理切分,或依赖于字符识别反馈机制,来提高识别率。
目前的实现方法可以参考如下:
如专利申请CN200810101591.6公开了一种利用汉字偏旁部首切分的方法,通过对文本图像进行行切分和列切分,获得若干个字符单元图像块,识别包含粘连字符的字符单元图像块,并继续切分所述包含粘连字符的字符单元图像块,识别汉字字符单元图像块区域和英文字符单元图像块区域,并在所述汉字字符单元图像块区域中识别由汉字字符偏旁部首占用的字符单元图像块,将相邻的汉字字符的偏旁部首占用的字符单元图像块合并为一个字符单元图像块。
如专利申请CN200910159089.5公开了一种利用标准字符长度切分的方法,包括:在字符串图像中,针对多个字符取得对字符串方向的字符长度进行测定而得的测定字符长度;通过临时匹配处理对测定字符长度内的字符进行临时识别;根据能够临时识别的字符的测定字符长度来确定标准字符长度;根据标准字符长度,从字符串图像中截取作为识别对象的全部字符;以及通过正式匹配处理对截取出的字符进行正式识别。
专利申请CN200810080950.4公开了一种利用分隔符切分的方法,其输入包含字符串的字符串图像,由该字符串图像识别出所述字符串,其中该字符串被分隔符划分为两个以上的字段。
专利申请CN200510090878.X公开了一种字符识别后自动纠错的方法,对初始识别之后的错误内容进行自动纠正处理。首先,识别文档中的字符,并获取文档中字符的候选字符及候选字符的相似度;而后,将候选字符相似度与预定阈值相比较确定被误识的字符;对于误识字符的候选字符,形成至少包含所述候选字符的搜索词,用所述搜索词在已知的文本数据库中搜索,从而获得搜索词的至少一种测量值;最后,用所获得的测量值来计算误识字符搜索词的权值,比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。
现有技术中的光学字符识别方法不能保证字符切分结果的准确性,导致字符的识别率较低。
发明内容
本发明提供一种辅助光学字符识别的方法和装置,用以提高光学字符识别中字符切分结果的准确性,提高字符的识别率。
为达到上述目的,本发明提供了一种辅助光学字符识别的方法,该方法包括以下步骤:生成用于表示待打印字符串的字符类型的格式信息串;保存该格式信息串;获取该待打印字符串对应的待识别字符串图像,并获取该格式信息串;根据格式信息串对待识别字符串图像进行切分,对切分后的待识别字符串图像进行光学字符识别。
本发明还提供了一种辅助光学字符识别的装置,包括:格式信息串模块,用于生成用于表示待打印字符串的字符类型的格式信息串;保存模块,用于保存该格式信息串;获取模块,用于获取该待打印字符串对应的待识别字符串图像,并获取该格式信息串;切分模块,用于根据格式信息串对待识别字符串图像进行切分,并将切分后的待识别字符串图像输出到光学字符识别装置进行光学字符识别。
上述实施例在生成待打印字符串时生成相应的格式信息串,从而按照每个待识别字符串的字符类型准确地进行切分字符图像,有效地避免了粘连字符、中英文混排字符等情况造成的切分错误,保证了字符切分结果的正确性,提高了光学字符识别的识别率,克服了现有技术中存在的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一个实施例的辅助光学字符识别的方法流程图;
图2是根据本发明一个实施例的生成格式信息串的流程图;
图3是根据本发明一个实施例的辅助光学字符识别的装置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据本发明一个实施例的辅助光学字符识别的方法流程图,其包括以下步骤:
S102,生成用于表示待打印字符串的字符类型的格式信息串;
S104,保存该格式信息串;
S106,获取该待打印字符串对应的待识别字符串图像,并获取该格式信息串;
S108,根据格式信息串对待识别字符串图像进行切分,对切分后的待识别字符串图像进行光学字符识别。
本实施例在生成待打印字符串时生成相应的格式信息串,从而按照每个待识别字符串的字符类型准确地进行切分字符图像,有效地避免了粘连字符、中英文混排字符等情况造成的切分错误,保证了字符切分结果的正确性,提高了光学字符识别的识别率。
较佳的,生成用于表示待打印字符串的字符类型的格式信息串步骤包括:分析待打印字符串中每个字符的字符类型(例如,可以将汉字和特殊字符作为双字符,将数字和字母作为单字符);将待打印字符串中每个字符的字符类型进行组合,按照数据结构存储得到格式信息串。
分析待打印字符串,包括汉字、特殊字符、数字及英文字符,这些字符可以分为两大类,以汉字及特殊字符为一类的双字符,以数字及字母为一类的单字符,通过这个特征可以准确获得切分信息。
表1
表1为根据本发明一个实施例的定义格式信息串数据结构表。可以按照如下的方式定义字符类型:双字符(汉字及特殊字符)用二进制的“0”表示;单字符(数字及字母)用二进制的“1”表示。将若干待打印字符串中每个字符的字符类型确定,组合起来。
也可以将字符分成更多个类型,如三种字符类型:可以将汉字和特殊字符作为第一类型,将字母作为第二类型,将数字作为第三类型。当然,将字符分为多个类型时,存储每个字符对应的字符类型将占用多个比特位。在本发明的具体实施例中,将字符分为两种类型进行阐述。
例如,在保存格式信息串时,可以将格式信息串保存在服务器上。相应的,获取格式信息串也从服务器上进行获取。
又例如,在保存格式信息串时,也可以在打印待打印字符串的页面上的设定位置,以条形码或二维码的形式打印该格式信息串。相应的,获取格式信息串可以通过扫描条形码或二维码,得到该格式信息串。
此外,在保存格式信息串时,也可以在打印待打印字符串的页面上,直接打印该格式信息串。相应的,获取格式信息串可以通过扫页面上的该设定位置并进行识别,得到该格式信息串。
图2是根据本发明一个实施例的生成格式信息串的流程图,如图2所示,其包括以下步骤:
S202,判断打印数据中是否存在未处理字符串,如果是,则执行步骤S204,否则,结束;
S204,从未处理字符串中取得单项数据,并计算其数据长度,将其数据长度占用1个字节顺序存储到字符格式数据结构串中;
S206,判断字符串是否结束,如果是,跳转到步骤S202,否则,执行步骤S208;
S208,从上述字符串中取一个字符,判断其是否为双字符,如果是,采用二进制的“0”表示其字符类型并顺序存储到字符格式数据结构串中,并跳转到步骤S206;否则,采用二进制的“1”表示其字符类型并顺序存储到字符格式数据结构串中,并跳转到步骤S206。
本发明的实施例可运用于发票或其他票据或单、双字混排文档的辅助识别。
以下为一个用于发票的辅助光学字符识别的过程示例:
首先确定哪些字符串是会出现单、双字混排信息,需要提供格式信息串的;
逐一将确定好的字符串,按照字符类型生成格式信息串,例如,格式信息串“00010000 00001100 00000000 00001000 00110000 00000000”,其中,第一个字节表示第一项数据字符数为16,后面两个字节为字符类型混排情况,其中前四个为中文,第5、6个为数字或字母,后面的10个字符全部是中文,第四个字节表示第二项数据字符数为8,第五个字节为字符混排混排情况,其中前两个为中文,第2、3个位数字或字母,后面4个字符全部是中文,第六个字节数据项字符数为0,表示此后无格式信息;
将生成的格式信息串,以明文的方式记录在二维码中,并打印到发票上;
当发票认证时,通过扫描仪生成发票图像,根据图像解密二维码得到格式信息串;
将格式信息串以参数的方式,传给OCR识别接口,由OCR程序解析格式信息串,获取准确的字符类型切分信息,对发票图像定位切分每个字符,从而提高识别率。
图3是根据本发明一个实施例的辅助光学字符识别的装置示意图。如图3所示,该装置包括:
格式信息串模块10,用于生成用于表示待打印字符串的字符类型的格式信息串;
保存模块20,用于保存该格式信息串;
获取模块30,用于获取待打印字符串对应的待识别字符串图像,并获取该格式信息串;
切分模块40,用于根据该格式信息串对待识别字符串图像进行切分,并将切分后的待识别字符串图像输出到光学字符识别装置进行光学字符识别。
本实施例在生成待打印字符串时生成相应的格式信息串,从而按照每个待识别字符串的字符类型准确地进行切分字符图像,有效地避免了粘连字符、中英文混排字符等情况造成的切分错误,保证了字符切分结果的正确性,提高了光学字符识别的识别率。
较佳的,格式信息串模块包括:分析单元,用于分析待打印字符串中每个字符的字符类型(例如,将汉字和特殊字符作为双字符,将数字和字母作为单字符);生成单元,将待打印字符串中每个字符的字符类型进行组合,按照数据结构存储得到格式信息串。
本发明的实施例可应用于发票或其他票据或单、双字混排文档的辅助识别。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (8)

1.一种辅助光学字符识别的方法,其特征在于,包括以下步骤:
生成用于表示待打印字符串的字符类型的格式信息串,具体包括:分析待打印字符串中每个字符的字符类型;将待打印字符串中每个字符的字符类型进行组合,按照数据结构存储得到格式信息串;
保存所述格式信息串;
获取所述待打印字符串对应的待识别字符串图像,并获取所述格式信息串;
根据所述格式信息串对所述待识别字符串图像进行切分,得到所述待识别字符串图像中的每个待识别字符,对切分后的所述待识别字符串图像中的每个待识别字符分别进行光学字符识别。
2.根据权利要求1所述的辅助光学字符识别的方法,其特征在于,保存所述格式信息串步骤包括:
将所述格式信息串保存在服务器上。
3.根据权利要求2所述的辅助光学字符识别的方法,其特征在于,获取所述格式信息串步骤包括:
从所述服务器获取所述格式信息串。
4.根据权利要求1所述的辅助光学字符识别的方法,其特征在于,保存所述格式信息串步骤包括:
在打印所述待打印字符串的页面上,以条形码或二维码的形式打印所述格式信息串。
5.根据权利要求4所述的辅助光学字符识别的方法,其特征在于,获取所述格式信息串步骤包括:
扫描所述条形码或所述二维码,得到所述格式信息串。
6.根据权利要求1所述的辅助光学字符识别的方法,其特征在于,保存所述格式信息串步骤包括:
在打印所述待打印字符串的页面上的设定位置,直接打印所述格式信息串。
7.根据权利要求6所述的辅助光学字符识别的方法,其特征在于,获取所述格式信息串步骤包括:
扫描所述页面的设定位置并进行识别,得到所述格式信息串。
8.一种辅助光学字符识别的装置,其特征在于,包括:
格式信息串模块,用于生成用于表示待打印字符串的字符类型的格式信息串,所述格式信息串模块具体包括:分析单元,用于分析待打印字符串中每个字符的字符类型;生成单元,用于将所述待打印字符串中每个字符的字符类型进行组合,按照数据结构存储得到格式信息串;
保存模块,用于保存所述格式信息串;
获取模块,用于获取所述待打印字符串对应的待识别字符串图像,并获取所述格式信息串;
切分模块,用于根据所述格式信息串对所述待识别字符串图像进行切分,得到所述待识别字符串图像中的每个待识别字符,并将切分后的所述待识别字符串图像中的每个待识别字符分别输出到光学字符识别装置进行光学字符识别。
CN201010532572.6A 2010-11-01 2010-11-01 辅助光学字符识别的方法和装置 Active CN102467664B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010532572.6A CN102467664B (zh) 2010-11-01 2010-11-01 辅助光学字符识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010532572.6A CN102467664B (zh) 2010-11-01 2010-11-01 辅助光学字符识别的方法和装置

Publications (2)

Publication Number Publication Date
CN102467664A CN102467664A (zh) 2012-05-23
CN102467664B true CN102467664B (zh) 2015-06-10

Family

ID=46071284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010532572.6A Active CN102467664B (zh) 2010-11-01 2010-11-01 辅助光学字符识别的方法和装置

Country Status (1)

Country Link
CN (1) CN102467664B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750794B (zh) * 2012-07-10 2014-06-25 陕西海基业高科技实业有限公司 一种票据自动录入系统及其应用方法
CN103902947A (zh) * 2012-12-25 2014-07-02 北大方正集团有限公司 报网互动的方法和终端
CN105653160A (zh) * 2016-02-25 2016-06-08 努比亚技术有限公司 一种文本确定方法和终端
CN107067005A (zh) * 2017-04-10 2017-08-18 深圳爱拼信息科技有限公司 一种中英混合ocr字符切割的方法及装置
CN109582972B (zh) * 2018-12-27 2023-05-16 信雅达科技股份有限公司 一种基于自然语言识别的光学字符识别纠错方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520851A (zh) * 2008-02-29 2009-09-02 富士通株式会社 字符信息识别装置和方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PL1730701T3 (pl) * 2004-03-01 2019-01-31 Mobile Technology Holdings Limited Mobilna sprzedaż biletów
US8783570B2 (en) * 2007-08-21 2014-07-22 Symbol Technologies, Inc. Reader with optical character recognition
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520851A (zh) * 2008-02-29 2009-09-02 富士通株式会社 字符信息识别装置和方法

Also Published As

Publication number Publication date
CN102467664A (zh) 2012-05-23

Similar Documents

Publication Publication Date Title
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
CN102236800B (zh) 经历ocr过程的文本的单词识别
US8340425B2 (en) Optical character recognition with two-pass zoning
US8565474B2 (en) Paragraph recognition in an optical character recognition (OCR) process
CN102467664B (zh) 辅助光学字符识别的方法和装置
CN102592299B (zh) 文件生成装置和文件生成方法
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
US20090317003A1 (en) Correcting segmentation errors in ocr
US7406201B2 (en) Correcting segmentation errors in OCR
CN113610068B (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN104156345A (zh) 识别便携文件格式文件中图注的方法和装置
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
US9009026B2 (en) Information processing apparatus, non-transitory computer readable medium storing information processing program, and information processing method
Kumar et al. Line based robust script identification for indianlanguages
US20210019554A1 (en) Information processing device and information processing method
JP6131765B2 (ja) 情報処理装置及び情報処理プログラム
CN116956168B (zh) 文本水印处理方法、装置、电子设备及存储介质
CN114694152B (zh) 基于三源ocr结果的印刷文本可信度融合方法及装置
JP2009223391A (ja) 画像処理装置及び画像処理プログラム
CN117010333A (zh) 用于处理版式文档乱码字体的方法及装置、存储介质
CN116010547A (zh) 用于文件的数据处理方法及系统
CN117217213A (zh) 文档中实体识别方法及装置、电子设备和存储介质
CN116092083A (zh) 一种基于知识库的ocr纠错方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant