CN111079768A - 一种基于ocr的文字图像识别方法及装置 - Google Patents
一种基于ocr的文字图像识别方法及装置 Download PDFInfo
- Publication number
- CN111079768A CN111079768A CN201911337453.2A CN201911337453A CN111079768A CN 111079768 A CN111079768 A CN 111079768A CN 201911337453 A CN201911337453 A CN 201911337453A CN 111079768 A CN111079768 A CN 111079768A
- Authority
- CN
- China
- Prior art keywords
- character
- text
- characters
- corrected
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000011218 segmentation Effects 0.000 claims abstract description 117
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000012937 correction Methods 0.000 claims abstract description 34
- 238000013179 statistical model Methods 0.000 claims abstract description 15
- 238000012015 optical character recognition Methods 0.000 claims description 80
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 12
- 239000000427 antigen Substances 0.000 description 10
- 102000036639 antigens Human genes 0.000 description 10
- 108091007433 antigens Proteins 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 210000004185 liver Anatomy 0.000 description 3
- 244000010000 Hovenia dulcis Species 0.000 description 2
- 208000006454 hepatitis Diseases 0.000 description 2
- 231100000283 hepatitis Toxicity 0.000 description 2
- 208000002672 hepatitis B Diseases 0.000 description 2
- 208000013403 hyperactivity Diseases 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例提供一种基于OCR的文字图像识别方法及装置。所述方法包括对待识别文字图像执行OCR和分词处理,得到待纠错文本;将待纠错文本中的相邻散串字符拼接为合并字符;根据所述合并字符,以及与散串字符对应的混淆集得到候选语句列表;根据自然语言概率统计模型选取概率最大的候选语句作为纠错结果文本,本发明实施例通过对待识别文字图像执行OCR识别和分词处理得到包含散串字符的待纠错文本,再将连续散串字符拼接为合并字符,或者用散串字符对应的混淆集的替换文字进行替换,得到候选语句列表,最后根据自然语言概率统计模型确定纠错结果文本,从而能够更加简单、准确得对文字图像进行识别。
Description
技术领域
本发明涉及图像识别技术领域,尤其涉及一种基于OCR的文字图像识别方法及装置。
背景技术
OCR识别技术已经成为将纸质文档转换为电子文档的主要手段,该技术能大大便利人们的信息录入工作,但由于技术层面上的原因,识别结果存在错误是不可避免的,因此针对识别结果的纠错工作变得必不可少。
现有的纠错方法主要是采用预先获取的词典,对可能存在的错误识别结果用词典中查找出可能正确字或词去替换。可见,现有的方法过于依赖词典的纠错能力,要求对词典前期的进行大量得训练,费时费力且无法确保精确度。
发明内容
由于现有方法存在上述问题,本发明实施例提供一种基于OCR的文字图像识别方法及装置。
第一方面,本发明实施例提供了一种基于OCR的文字图像识别方法,包括:
对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;
将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;
根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;
根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。
进一步地,所述将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符,具体包括:
对相邻散串字符执行预设的拼接操作,拼接为一个新的字符;其中,所述新的字符存在于预设的常用中文字库;
若判定所述新的字符能与相邻字符组成分词,则判定所述相邻散串字符满足预设合并条件,且所述新的字符为所述相邻散串字符拼接的合并字符;
若判定所述新的字符不能与相邻字符组成分词,则将所述新的字符拆分为对应的相邻散串字符,再依次对其它相邻散串字符执行所述预设的拼接操作。
进一步地,在得到所述待纠错文本后,所述基于OCR的文字图像识别方法,还包括:
若所述待纠错文本中仅包含散串字符,则判定所述待纠错文本存在无法纠错的噪声错误,并将所待纠错文本剔除。
进一步地,所述对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本,具体包括:
对所述待识别文字图像执行所述光学字符识别OCR,得到识别文本和所述识别文本中各字符对应的混淆集;
对所述识别文本执行所述预设分词处理,得到所述待纠错文本。
第二方面,本发明实施例提供了一种基于OCR的文字图像识别装置,包括:
识别分词模块,用于对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;
字符合并模块,用于将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;
语句候选模块,用于根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;
纠错结果模块,用于根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。
进一步地,所述字符合并模块具体用于:
拼接模块,用于对相邻散串字符执行预设的拼接操作,拼接为一个新的字符;其中,所述新的字符存在于预设的常用中文字库;
分词判断模块,用于若判定所述新的字符能与相邻字符组成分词,则判定所述相邻散串字符满足预设合并条件,且所述新的字符为所述相邻散串字符拼接的合并字符;
所述分词判断模块,还用于若判定所述新的字符不能与相邻字符组成分词,则将所述新的字符拆分为对应的相邻散串字符,再依次对其它相邻散串字符执行所述预设的拼接操作。
进一步地,所述识别分词模块还用于:
若所述待纠错文本中仅包含散串字符,则判定所述待纠错文本存在无法纠错的噪声错误,并将所待纠错文本剔除。
进一步地,所述识别分词模块具体用于:
对所述待识别文字图像执行所述光学字符识别OCR,得到识别文本和所述识别文本中各字符对应的混淆集;
对所述识别文本执行所述预设分词处理,得到所述待纠错文本。
第三方面,本发明实施例还提供了一种电子设备,包括:
处理器、存储器、通信接口和通信总线;其中,
所述处理器、存储器、通信接口通过所述通信总线完成相互间的通信;
所述通信接口用于该电子设备的通信设备之间的信息传输;
所述存储器存储有可被所述处理器执行的计算机程序指令,所述处理器调用所述程序指令能够执行如下方法:
对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;
将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;
根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;
根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如下方法:
对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;
将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;
根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;
根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。
本发明实施例提供的基于OCR的文字图像识别方法及装置,通过对待识别文字图像执行OCR识别和分词处理得到包含散串字符的待纠错文本,再将连续散串字符拼接为合并字符,或者用散串字符对应的混淆集的替换文字进行替换,得到候选语句列表,最后根据自然语言概率统计模型确定纠错结果文本,从而能够更加简单、准确得对文字图像进行识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于OCR的文字图像识别方法流程图;
图2为本发明实施例的另一基于OCR的文字图像识别方法流程图;
图3为本发明实施例的又一基于OCR的文字图像识别方法流程图;
图4为本发明实施例的基于OCR的文字图像识别装置结构示意图;
图5为本发明实施例的另一基于OCR的文字图像识别装置结构示意图;
图6示例了一种电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的基于OCR的文字图像识别方法流程图,如图1所示,所述方法包括:
步骤S01、对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符。
本发明实施例用于对待识别文字图像进行光学字符识别(Optical CharacterRecognition,OCR)后得到的识别文本进行纠错。首先,通过对OCR识别得到的识别文本存在的错误进行分类,可分为如下4类:
1.识别错误:将待识别文字图像中的字符识别成识别文本中的错误字符、乱码或符号等;
2.拆字错误:将待识别文字图像中的一个字符识别成识别文本中至少两个字符;
3.合字错误:将待识别文字图像中的至少两个字符识别成识别文本中一个字符;
4.噪声错误:将待识别文字图像非字符的噪点识别成识别文本中的字符。
具体以待识别文字图像为“乙肝的表面抗原”为例,若得到的识别文本如下:
1.“乙肝的表面亢原”,则其中的“亢”属于识别错误;
2.“乙月干的表面抗原”,则其中的“乙月干”属于拆字错误;
3.“雕的表面抗原”,则其中的“雕”属于合字错误。
根据待识别文字图像内包含的内容不同,经过OCR识别后得到的识别文本,可能会包含多个句子,为了简便起见,在下面的实施例中均以只存在一个句子为例进行举例说明。
将识别得到的识别文本进行预设的分词处理,从而尽可能得将所述识别文本中的所有字符转化为分词,所述分词可以由相邻的字符组合而成,也可以仅包含独立的字符,例如,“乙肝的表面抗原”经过分词处理后,可以得到的分词结果为:“乙肝”/“的”/“表面”/“抗原”四个分词。
在对识别文本进行分词处理后,可能存在部分字符不满足该分词处理的分词条件,相当于无法被识别为分词,分词处理后这些字符将被认定为散串字符。例如,“乙月干的表面抗原”经过分词处理后,可以得到分词结果为:“乙/月/干”/“的”/“表面”/“抗原”,其中,“乙/月/干”为三个散串字符。
若经过分词处理后得到的分词结果中不包含散串字符,则判定无需对所述分词结果进行纠错;而若所述分词结果中包含散串字符,则判定需要进行纠错,所述分词结果为待纠错文本。
步骤S02、将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符。
所述待纠错文本中可能存在多处连续的散串字符,为了简便起见,在下面的实施例中都仅以一处连续的散串字符为例进行举例说明。
先尝试对连续散串字符中的相邻散串字符进行拼接,具体可以按照各散串字符的先后排列顺序,按照预设的合并条件依次尝试将前后两个散串字符进行拼接。若满足所述合并条件,则可判定对应的相邻散串字符属于拆字错误,用拼接得到合并字符去替换待纠错文本中对应的相邻散串字符,而若不满足所述合并条件,则在所述待纠错文本中保留对应的相邻散串字符。例如:待纠错文本为:“乙/月/干”/“的”/“表面”/“抗原”,在对连续的散串字符“乙/月/干”进行拼接后,可将相邻散串字符“月/干”拼接为“肝”,在判定“月/干”满足预设合并条件后,将“肝”作为合并字符去替换“月/干”,得到更新后的待纠错文本为“乙”/“肝”/“的”/“表面”/“抗原”;而若判定“月/干”不满足预设合并条件,则不对待纠错文本进行更新,依然为“乙/月/干”/“的”/“表面”/“抗原”。
步骤S03、根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符。
预先获取识别文本中各字符对应的混淆集,所述混淆集中包括至少一个与该字符对应的替换字符,具体的获取方法有很多,可以根据实际的需要进行设定,例如,所述替换字符为与识别文本中的字符的字形相似的字符,或者所述替换字符为与待识别文字图像中对应的字符图形相似的字符。
在尝试对连续散串字符进行拼接后,若得到合并字符,则在替换对应连接散串字符后,将更新后的待纠错文本作为候选语句保存到与所述待识别文字图像对应的候选语句列表中。继续查看所述待纠错文本中是否还存在其它散串字符:
若不存在其它散串字符,则所述候选语句列表确定;
若还存在其它不满足所述合并条件的散串字符,则判定剩余的散串字符属于识别错误或合字错误,根据剩余的散串字符提取出与该散串字符对应的混淆集,用混淆集中的替换字符逐一替换对应的散串字符,并将每次替换后更新的待纠错文本也作为候选语句保存到候选语句列表中。直到所有可能的候选语句均存入所述候选语句列表后,则所述候选语名列表确定。
步骤S04、根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的识别结果。
将所述候选语句列表中各候选语句输入到预设的自然语言概率统计模型,例如,N-gram语言模型,概率图模型等,从而将概率最大的候选语句输出,作为对所述待识别文字图像的OCR识别结果纠错后得到的纠错结果文本。
本发明实施例通过对待识别文字图像执行OCR识别和分词处理得到包含散串字符的待纠错文本,再将连续散串字符拼接为合并字符,或者用散串字符对应的混淆集的替换文字进行替换,得到候选语句列表,最后根据自然语言概率统计模型确定纠错结果文本,从而能够更加简单、准确得对文字图像进行识别。
图2为本发明实施例的另一基于OCR的文字图像识别方法流程图,如图2所示,所述步骤S02具体包括:
步骤S021、对相邻散串字符执行预设的拼接操作,拼接为一个新的字符;其中,所述新的字符存在于预设的常用中文字库。
预先获取常用中文字库,从而在对相邻散串字符进行拼接时,需要将拼接得到的字形与所述常用中文字库中的字符进行匹配,若没有找到匹配的字符,则判定拼接失败,若找到了匹配的字符,则判定拼接成功可以将所述相邻散串字符拼接为一个新的字符。
步骤S022、若判定所述新的字符能与相邻字符组成分词,则判定所述相邻散串字符满足预设合并条件,且所述新的字符为所述相邻散串字符拼接的合并字符。
尝试将拼接成功得到的新的字符与其它相邻字符进行组合,若满足分词条件,存在可以组合成功分词,则判定所述相邻散串字符满足所述合并条件,从而将拼接得到的新的字符作为合并字符在待纠错文本中替换对应的相邻散串字符,并将更新后的待纠错文本作为候选语句存入候选语句列表。
步骤S023、若判定所述新的字符不能与相邻字符组成分词,则将所述新的字符拆分为对应的相邻散串字符,再依次对其它相邻散串字符执行所述预设的拼接操作。
而若所述新的字符与其它相邻字符的各种组合中不存在满足分词条件的组合,则判定所述相邻散串字符不满足所述合并条件,重新将拼接得到的新的字符拆分为对应的相邻散串字符,然后,转而对其它相邻散串字符执行拼接操作。
本发明实施例通过将相邻散串字符拼接得到的新的字符与其它相邻字符进行组合,并在满足分词条件时,判定相邻散串字符满足合并条件,将所述新的字符作为合并字符用于替换对应的相邻散串字符,从而能够更加快速、准确得对文字图像的进行识别纠错。
图3为本发明实施例的又一基于OCR的文字图像识别方法流程图,基于上述实施例,进一步地,在步骤S01后所述基于OCR的文字图像识别方法,还包括:
步骤S020、若所述待纠错文本中仅包含散串字符,则判定所述待纠错文本存在无法纠错的噪声错误,并将所待纠错文本剔除。
对待识别文字图形进行OCR识别,再通过分词处理后,得到的待纠错文本。如图3所示,若所述待纠错文本中不存在满足所述分词条件的分词,即判定所述待纠错文本由散串字符组成。此时,可认定其中的散串字符为噪声错误,所述待识别文字图形为噪点,不存在可识别的字符。因此,将所述待纠错文本直接剔除。例如,得到的纠错文本为“口=量■”,可见,该纠错文本仅包含散串字符,可以剔除。
本发明实施例通过在待纠错文本仅包含散串字符时,判定为噪声错误,将所述待纠错文本剔除,从而节省了大量的纠错时间,提高了对文字图形识别的效率。
基于上述实施,进一步地,所述步骤S01具体包括:
步骤S011、对待识别文字图像执行光学字符识别OCR,得到识别文本和所述识别文本中各字符对应的混淆集。
步骤S012、对所述识别文本执行预设分词处理,得到所述待纠错文本。
在对待识别文字图像执行OCR识别时,对于每个文字图形的识别会得到至少一个可能的字符,将可能性最高的字符作为该文字图形的字符记录到识别文本中,而将其它的可能的字符作为替换字符保存到与该字符对应的混淆集中。从而,在对待识别文字图像执行OCR识别后,将得到识别文本,以及该识别文本中各字符对应的混淆集。其中混淆集还可以包含预先获取的与该字符具有相似字形的替换字符。
然后,对所述识别文本进行预设分词处理,若处理结果中存在散串字符,则得到所述待纠错文本,从而执行后续的纠错。
本发明实施例通过在对待识别文字图像进行OCR识别时,得到识别文本中各字符对应的混淆集,从而能够更加快速、合理得执行后续的纠错操作。
图4为本发明实施例的基于OCR的文字图像识别装置结构示意图,如图4所示,所述基于OCR的文字图像识别装置包括:识别分词模块10、字符合并模块11、语句候选模块12和纠错结果模块13,其中,
所述识别分词模块10用于对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;所述字符合并模块11用于将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;所述语句候选模块12用于根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;所述纠错结果模块13用于根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。具体地:
识别分词模块10先对待识别文字图像进行OCR识别得到的识别文本,再对所述识别文本进行预设的分词处理,从而尽可能得将所述识别文本中的所有字符转化为分词,所述分词可以由相邻的字符组合而成,也可以仅包含独立的字符。
在对识别文本进行分词处理后,可能存在部分字符不满足该分词处理的分词条件,相当于无法被识别为分词,在经过识别分词模块10分词处理后这些字符将被认定为散串字符。
若经过分词处理后得到的分词结果中不包含散串字符,则识别分词模块10判定无需对所述分词结果进行纠错;而若所述分词结果中包含散串字符,则判定需要进行纠错,识别分词模块10将分词结果作为待纠错文本发送给字符合并模块11。
字符合并模块11先尝试对连续散串字符中的相邻散串字符进行拼接,具体可以按照各散串字符的先后排列顺序,按照预设的合并条件依次尝试将前后两个散串字符进行拼接。若满足所述合并条件,则字符合并模块11可判定对应的相邻散串字符属于拆字错误,并使用拼接得到合并字符去替换待纠错文本中对应的相邻散串字符,并发送给语句候选模块12;而若不满足所述合并条件,则字符合并模块11在所述待纠错文本中保留对应的相邻散串字符,并发送给语句候选模块12。
语句候选模块12预先获取识别文本中各字符对应的混淆集,所述混淆集中包括至少一个与该字符对应的替换字符,具体的获取方法有很多,可以根据实际的需要进行设定,例如,所述替换字符为与识别文本中的字符的字形相似的字符,或者所述替换字符为与待识别文字图像中对应的字符图形相似的字符。
字符合并模块11在尝试对连续散串字符进行拼接后,若得到合并字符,则在替换对应连接散串字符后,将更新后的待纠错文本发送给所述语句候选模块12。语句候选模块12将接收到的待纠错文本作为候选语句保存到与所述待识别文字图像对应的候选语句列表中。语句候选模块12继续查看所述待纠错文本中是否还存在其它散串字符:
若不存在其它散串字符,则语句候选模块12将所述候选语句列表发送给纠错结果模块13;
若还存在其它不满足所述合并条件的散串字符,则语句候选模块12判定剩余的散串字符属于识别错误或合字错误,根据剩余的散串字符提取出与该散串字符对应的混淆集,用混淆集中的替换字符逐一替换对应的散串字符,并将每次替换后更新的待纠错文本也作为候选语句保存到候选语句列表中。直到所有可能的候选语句均存入所述候选语句列表后,则语句候选模块12将所述候选语名列表发送给纠错结果模块13。
所述纠错结果模块13将所述候选语句列表中各候选语句输入到预设的自然语言概率统计模型,例如,N-gram语言模型,概率图模型等,从而将概率最大的候选语句输出,作为对所述待识别文字图像的OCR识别结果纠错后得到的纠错结果文本。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过对待识别文字图像执行OCR识别和分词处理得到包含散串字符的待纠错文本,再将连续散串字符拼接为合并字符,或者用散串字符对应的混淆集的替换文字进行替换,得到候选语句列表,最后根据自然语言概率统计模型确定纠错结果文本,从而能够更加简单、准确得对文字图像进行识别。
图5为本发明实施例的另一基于OCR的文字图像识别装置结构示意图,如图5所示,所述文字图像识别装置包括:识别分词模块10、字符合并模块11、语句候选模块12和纠错结果模块13,所述字符合并模块11包括:拼接模块111和分词判断模块112;其中,
所述拼接模块111用于对相邻散串字符执行预设的拼接操作,拼接为一个新的字符;其中,所述新的字符存在于预设的常用中文字库;所述分词判断模块112用于若判定所述新的字符能与相邻字符组成分词,则判定所述相邻散串字符满足预设合并条件,且所述新的字符为所述相邻散串字符拼接的合并字符;所述分词判断模块112还用于若判定所述新的字符不能与相邻字符组成分词,则将所述新的字符拆分为对应的相邻散串字符,再依次对其它相邻散串字符执行所述预设的拼接操作。具体地:
所述拼接模块111预先获取常用中文字库,从而在对相邻散串字符进行拼接时,拼接模块111需要将拼接得到的字形与所述常用中文字库中的字符进行匹配,若没有找到匹配的字符,则拼接模块111判定拼接失败;而若找到了匹配的字符,则拼接模块111判定拼接成功可以将所述相邻散串字符拼接为一个新的字符,并发送给分词判断模块112。
分词判断模块112尝试将拼接成功得到的新的字符与其它相邻字符进行组合,若满足分词条件,存在可以组合成功分词,则分词判断模块112判定所述相邻散串字符满足所述合并条件,从而将拼接得到的新的字符作为合并字符在待纠错文本中替换对应的相邻散串字符,并将更新后的待纠错文本发送给语句候选模块12作为候选语句存入候选语句列表。
而若所述新的字符与其它相邻字符的各种组合中不存在满足分词条件的组合,则分词判断模块112判定所述相邻散串字符不满足所述合并条件,重新将拼接得到的新的字符拆分为对应的相邻散串字符,然后,指示拼接模块111对其它相邻散串字符执行拼接操作。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过将相邻散串字符拼接得到的新的字符与其它相邻字符进行组合,并在满足分词条件时,判定相邻散串字符满足合并条件,将所述新的字符作为合并字符用于替换对应的相邻散串字符,从而能够更加快速、准确得对文字图像的进行识别纠错。
基于上述实施例,进一步地,所述识别分词模块还用于:
若所述待纠错文本中仅包含散串字符,则判定所述待纠错文本存在无法纠错的噪声错误,并将所待纠错文本剔除。
识别分词模块对待识别文字图形进行OCR识别,再通过分词处理后,得到的待纠错文本。若所述待纠错文本中不存在满足所述分词条件的分词,即所述待纠错文本由散串字符组成。此时,所述识别分词模块可认定其中的散串字符为噪声错误,所述待识别文字图形为噪点,不存在可识别的字符。因此,将所述待纠错文本直接剔除。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过在待纠错文本仅包含散串字符时,判定为噪声错误,将所述待纠错文本剔除,从而节省了大量的纠错时间,提高了对文字图形识别的效率。
基于上述实施例,进一步地,所述识别分词模块具体用于:
对所述待识别文字图像执行所述光学字符识别OCR,得到识别文本和所述识别文本中各字符对应的混淆集;
对所述识别文本执行所述预设分词处理,得到所述待纠错文本。
在对待识别文字图像执行OCR识别时,识别分词模块对于每个文字图形的识别会得到至少一个可能的字符,将可能性最高的字符作为该文字图形的字符记录到识别文本中,而将其它的可能的字符作为替换字符保存到与该字符对应的混淆集中。从而,在对待识别文字图像执行OCR识别后,识别分词模块将得到识别文本,以及该识别文本中各字符对应的混淆集。其中混淆集还可以包含预先获取的与该字符具有相似字形的替换字符。
然后,对所述识别文本进行预设分词处理,若处理结果中存在散串字符,则得到所述待纠错文本,从而执行后续的纠错。
本发明实施例提供的装置用于执行上述方法,其功能具体参考上述方法实施例,其具体方法流程在此处不再赘述。
本发明实施例通过在对待识别文字图像进行OCR识别时,得到识别文本中各字符对应的混淆集,从而能够更加快速、合理得执行后续的纠错操作。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(Communications Interface)603、存储器(memory)602和通信总线604,其中,处理器601,通信接口603,存储器602通过通信总线604完成相互间的通信。处理器601可以调用存储器602中的逻辑指令,以执行上述方法。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
本领域普通技术人员可以理解:此外,上述的存储器602中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于OCR的文字图像识别方法,其特征在于,包括:
对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;
将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;
根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;
根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。
2.根据权利要求1所述的基于OCR的文字图像识别方法,其特征在于,所述将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符,具体包括:
对相邻散串字符执行预设的拼接操作,拼接为一个新的字符;其中,所述新的字符存在于预设的常用中文字库;
若判定所述新的字符能与相邻字符组成分词,则判定所述相邻散串字符满足预设合并条件,且所述新的字符为所述相邻散串字符拼接的合并字符;
若判定所述新的字符不能与相邻字符组成分词,则将所述新的字符拆分为对应的相邻散串字符,再依次对其它相邻散串字符执行所述预设的拼接操作。
3.根据权利要求2所述的基于OCR的文字图像识别方法,其特征在于,在得到所述待纠错文本后,所述基于OCR的文字图像识别方法,还包括:
若所述待纠错文本中仅包含散串字符,则判定所述待纠错文本存在无法纠错的噪声错误,并将所待纠错文本剔除。
4.根据权利要求1-3任一所述的基于OCR的文字图像识别方法,其特征在于,所述对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本,具体包括:
对所述待识别文字图像执行所述光学字符识别OCR,得到识别文本和所述识别文本中各字符对应的混淆集;
对所述识别文本执行所述预设分词处理,得到所述待纠错文本。
5.一种基于OCR的文字图像识别装置,其特征在于,包括:
识别分词模块,用于对待识别文字图像执行光学字符识别OCR和预设分词处理,得到待纠错文本;其中,所述待纠错文本包括至少一个散串字符,所述散串字符为不满足所述分词处理的分词条件的单个字符;
字符合并模块,用于将所述待纠错文本中满足预设合并条件的相邻散串字符拼接为合并字符;
语句候选模块,用于根据所述合并字符,以及与不满足所述合并条件的散串字符对应的预先获取的混淆集,得到所述待识别文字图像对应的候选语句列表;其中,所述混淆集包括至少一个对应散串字符的替换字符;
纠错结果模块,用于根据预设的自然语言概率统计模型,从所述候选语句列表中选取概率最大的候选语句作为所述待识别文字图像的纠错结果文本。
6.根据权利要求5所述的基于OCR的文字图像识别装置,其特征在于,所述字符合并模块具体用于:
拼接模块,用于对相邻散串字符执行预设的拼接操作,拼接为一个新的字符;其中,所述新的字符存在于预设的常用中文字库;
分词判断模块,用于若判定所述新的字符能与相邻字符组成分词,则判定所述相邻散串字符满足预设合并条件,且所述新的字符为所述相邻散串字符拼接的合并字符;
所述分词判断模块,还用于若判定所述新的字符不能与相邻字符组成分词,则将所述新的字符拆分为对应的相邻散串字符,再依次对其它相邻散串字符执行所述预设的拼接操作。
7.根据权利要求6所述的基于OCR的文字图像识别装置,其特征在于,所述识别分词模块还用于:
若所述待纠错文本中仅包含散串字符,则判定所述待纠错文本存在无法纠错的噪声错误,并将所待纠错文本剔除。
8.根据权利要求5-7任一所述的基于OCR的文字图像识别装置,其特征在于,所述识别分词模块具体用于:
对所述待识别文字图像执行所述光学字符识别OCR,得到识别文本和所述识别文本中各字符对应的混淆集;
对所述识别文本执行所述预设分词处理,得到所述待纠错文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的基于OCR的文字图像识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述的基于OCR的文字图像识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911337453.2A CN111079768A (zh) | 2019-12-23 | 2019-12-23 | 一种基于ocr的文字图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911337453.2A CN111079768A (zh) | 2019-12-23 | 2019-12-23 | 一种基于ocr的文字图像识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111079768A true CN111079768A (zh) | 2020-04-28 |
Family
ID=70316698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911337453.2A Pending CN111079768A (zh) | 2019-12-23 | 2019-12-23 | 一种基于ocr的文字图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079768A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN111783767A (zh) * | 2020-07-27 | 2020-10-16 | 平安银行股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
CN112507909A (zh) * | 2020-12-15 | 2021-03-16 | 信号旗智能科技(上海)有限公司 | 基于ocr识别的单证数据提取方法、装置、设备及介质 |
CN112560842A (zh) * | 2020-12-07 | 2021-03-26 | 马上消费金融股份有限公司 | 一种信息识别方法、装置、设备和可读存储介质 |
CN112668576A (zh) * | 2020-12-30 | 2021-04-16 | 广东电网有限责任公司电力调度控制中心 | 基于文字符号的电力铁塔识别方法及装置 |
CN113343997A (zh) * | 2021-05-19 | 2021-09-03 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备和存储介质 |
CN113822280A (zh) * | 2020-06-18 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置、系统和非易失性存储介质 |
CN113837118A (zh) * | 2021-09-28 | 2021-12-24 | 支付宝(杭州)信息技术有限公司 | 文本变异关系的获取方法和装置 |
WO2022116524A1 (zh) * | 2020-12-04 | 2022-06-09 | 北京搜狗科技发展有限公司 | 图片识别方法、装置、电子设备及介质 |
CN115410207A (zh) * | 2021-05-28 | 2022-11-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6205261B1 (en) * | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
-
2019
- 2019-12-23 CN CN201911337453.2A patent/CN111079768A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6154579A (en) * | 1997-08-11 | 2000-11-28 | At&T Corp. | Confusion matrix based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
US6205261B1 (en) * | 1998-02-05 | 2001-03-20 | At&T Corp. | Confusion set based method and system for correcting misrecognized words appearing in documents generated by an optical character recognition technique |
CN105279149A (zh) * | 2015-10-21 | 2016-01-27 | 上海应用技术学院 | 一种中文文本自动校正方法 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626048A (zh) * | 2020-05-22 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 文本纠错方法、装置、设备及存储介质 |
CN113822280A (zh) * | 2020-06-18 | 2021-12-21 | 阿里巴巴集团控股有限公司 | 文本识别方法、装置、系统和非易失性存储介质 |
CN111783767A (zh) * | 2020-07-27 | 2020-10-16 | 平安银行股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN111783767B (zh) * | 2020-07-27 | 2024-03-19 | 平安银行股份有限公司 | 文字识别方法、装置、电子设备及存储介质 |
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
CN112085011A (zh) * | 2020-09-27 | 2020-12-15 | 中国建设银行股份有限公司 | 一种ocr识别结果纠错方法、装置及存储介质 |
WO2022116524A1 (zh) * | 2020-12-04 | 2022-06-09 | 北京搜狗科技发展有限公司 | 图片识别方法、装置、电子设备及介质 |
CN112560842B (zh) * | 2020-12-07 | 2021-10-22 | 马上消费金融股份有限公司 | 一种信息识别方法、装置、设备和可读存储介质 |
CN112560842A (zh) * | 2020-12-07 | 2021-03-26 | 马上消费金融股份有限公司 | 一种信息识别方法、装置、设备和可读存储介质 |
CN112507909A (zh) * | 2020-12-15 | 2021-03-16 | 信号旗智能科技(上海)有限公司 | 基于ocr识别的单证数据提取方法、装置、设备及介质 |
CN112668576A (zh) * | 2020-12-30 | 2021-04-16 | 广东电网有限责任公司电力调度控制中心 | 基于文字符号的电力铁塔识别方法及装置 |
CN112668576B (zh) * | 2020-12-30 | 2022-02-15 | 广东电网有限责任公司电力调度控制中心 | 基于文字符号的电力铁塔识别方法及装置 |
CN113343997A (zh) * | 2021-05-19 | 2021-09-03 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备和存储介质 |
CN115410207A (zh) * | 2021-05-28 | 2022-11-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
CN115410207B (zh) * | 2021-05-28 | 2023-08-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
CN113837118A (zh) * | 2021-09-28 | 2021-12-24 | 支付宝(杭州)信息技术有限公司 | 文本变异关系的获取方法和装置 |
CN113837118B (zh) * | 2021-09-28 | 2024-04-26 | 支付宝(杭州)信息技术有限公司 | 文本变异关系的获取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079768A (zh) | 一种基于ocr的文字图像识别方法及装置 | |
RU2251737C2 (ru) | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании | |
US10796077B2 (en) | Rule matching method and device | |
CN111274239B (zh) | 试卷结构化处理方法、装置和设备 | |
US9575937B2 (en) | Document analysis system, document analysis method, document analysis program and recording medium | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN113033185B (zh) | 标准文本纠错方法、装置、电子设备和存储介质 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN109255117A (zh) | 中文分词方法及装置 | |
CN111144391B (zh) | 一种ocr识别结果纠错方法及装置 | |
CN110765235A (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN112633001A (zh) | 文本命名实体识别方法、装置、电子设备及存储介质 | |
CN113610068B (zh) | 基于试卷图像的试题拆解方法、系统、存储介质及设备 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
US8818792B2 (en) | Apparatus and method for constructing verbal phrase translation pattern using bilingual parallel corpus | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN112395866A (zh) | 报关单数据匹配方法及装置 | |
CN111737982A (zh) | 一种基于深度学习的汉语文本错别字检测方法 | |
CN114579796B (zh) | 机器阅读理解方法及装置 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
CN111310457B (zh) | 词语搭配不当识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200428 |