CN109711412A - 一种基于字典的光学字符识别纠错方法 - Google Patents

一种基于字典的光学字符识别纠错方法 Download PDF

Info

Publication number
CN109711412A
CN109711412A CN201811614268.9A CN201811614268A CN109711412A CN 109711412 A CN109711412 A CN 109711412A CN 201811614268 A CN201811614268 A CN 201811614268A CN 109711412 A CN109711412 A CN 109711412A
Authority
CN
China
Prior art keywords
word
dictionary
similarity
recognition result
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811614268.9A
Other languages
English (en)
Inventor
林康
林路
雷钧
安通鉴
王慜骊
桂晓雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUNYARD SYSTEM ENGINEERING Co Ltd
Original Assignee
SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUNYARD SYSTEM ENGINEERING Co Ltd filed Critical SUNYARD SYSTEM ENGINEERING Co Ltd
Priority to CN201811614268.9A priority Critical patent/CN109711412A/zh
Publication of CN109711412A publication Critical patent/CN109711412A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于字典的光学字符识别纠错方法,该方法的步骤为:获取文字图像,通过所述文字图像经过ocr识别获得初始的识别结果;构建字典;将初始的识别结果与字典中的单词进行对比,当初始的识别结果中的单词位于字典中时,取字典中相似度最高的单词进行替换,对于不在字典中的情形,设定阈值,对大于阈值的字符串进行替换,且已经被替换的单词的位置进行标记,输出OCR识别结果。本发明解决了现有技术没有利用自身规律对错误数据实施检查和纠正的空缺的问题,提高了文字识别精度和识别结果的准确率。

Description

一种基于字典的光学字符识别纠错方法
技术领域
本发明涉及图像文字识别领域,具体涉及一种基于字典的光学字符识别纠错方法。
背景技术
基于OCR的针对金融领域文字区域检测定位识别技术是指通过计算机等设备,利用OCR技术(光学字符识别)将纸质材料中的有效信息自动提取和识别出来,并进行相应处理。它是实现银行无纸化的计算机自动处理的关键技术之一。而传统的图像文字识别为光学文字识别(OCR),光学文字识别在将待识别纸质文件扫描成电子图像的基础上进行识别。但是考虑到扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度,字体规范度等)、内容布局(文字的排列情况,比普通文本与表格文本和票据)的差异,OCR的实际效果不总是让人满意。而针对不同的纸质文档的识别准确率的要求有差异,比如票据的识别,对准确率的要求是非常高的,因为如果一个数字识别错误就可能导致致命的后果,传统的OCR识别不能满足这样高精度的识别要求。面对巨大的识别需要急需能够快速高效的图像文字识别方法。现有的技术方案都没有利用自身规律对错误数据实施检查和纠正。
发明内容
针对现有技术的不足,本发明根据所要识别OCR字符集的已知完整集合,针对OCR软件从图像中提取出的字符串提出一种检错与纠错的方法,从而辅助OCR软件检查出识别结果中的错误数据并对这些错误数据实施纠正,基于字典搜索的纠错策略,以提高文字识别精度,从而提高识别结果的准确率。OCR软件从图像中提取出的这些字符串的纠错修改结果记为OCR最终识别结果。
本发明的目的是通过下述技术方案来实现的:
一种基于字典的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建字典;
S4:将初始的识别结果与字典中的单词进行对比,然后利用单词在字典中的相对排名计算相似度,具体为:
对于给定文本行默认为正序和反序的排列方式,将文本行划分为单独的单词,得到初始的识别结果的每个单词和其反序版本,然后将两个版本中的单词均与字典中的所有单词进行匹配,对于正序版本和反序版本中的每个单词,当该单词存在于字典中时,不进行替换;当该单词不在字典中时,计算并记录该单词与字典中的单词的相似度,形成相似度矩阵,并设置相似度阈值对其进行过滤,然后将该单词的正序和反序版本按照相似度最大的那个字典中的单词进行n元语法纠错,并用纠错结果替代初始识别结果,反之,则保留初始的识别结果;
S5:对S4中已经被替换的单词的位置进行标记,输出OCR识别结果。
进一步地,所述的字典来源于搜索引擎bing的常见词列表。
进一步地,所述的S4具体为:
所述的给定的文本行首先被划分为单独的单词ωi,对于每一个ωi,原始识别结果ξ(ωi),将ξ(ωi)和其反向版本ξi)均与字典中的所有单词进行匹配,搜索与ξ(ωi)和ξ(ωi)相似度最高的两个单词η(ωi)和ηi),相似度分别记为s(ωi)和si);
对于单词不在字典中的情况,设置阈值τ;如果相似度s(ωi)和si)均小于τ,则η(ωi)和ηi)被对ξ(ωi)和ξi)进行n元语法纠错之后的字符串取代,而s(ωi)和si)被设为常数;
对于一个由N个单词组成的文本行L,L={ωi|i=1,2,...,N},正序的总相似度S(L)和反序的总相似度S(L)分别定义为:
文本行L的排列顺序通过以下方式确定:
其中,表示正序,表示反序;
则最终的识别结果为:
进一步地,所述的S4中的字符相似度的定义具体为:
其中,ω为待查询词,为字典中的单词,为ω与之间的编辑距离,为ω和在字典中的相对排名,λ为控制参数,λ∈[0,1],λ的最优值通过实验确定。
进一步地,所述的S4中单词不在字典中的情况下设置的阈值τ=0.8。
相对于现有技术,本发明的有益效果如下:
(1)本发明的纠错方法不仅与字典中的词进行对比,还利用单词在字典中的相对排名来计算相似度:
(2)该方法定义适应的字符替换代价;
(3)该方法可以处理不同方向排列的文字,而以往的算法假设文字从左到右排列。
附图说明
图1为本发明的基于字典的光学字符识别纠错方法的流程图。
具体实施方式
下面根据附图和优选实施例详细描述本发明,本发明的目的和效果将变得更加明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于字典的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建字典;
这里的字典来源于搜索引擎bing的常见词列表,该列表包含搜索引擎的用户经常使用的1000000个关键词,由微软网络N语法服务项目提供。不同于传统的字典,该列表中的单词是按照用户搜索的频度从高到低排列的,这种排列顺序也包含额外的有用信息,可以用来提升纠错算法的性能。
S4:将初始的识别结果与字典中的单词进行对比,然后利用单词在字典中的相对排名计算相似度,具体为:
对于给定文本行默认为正序和反序的排列方式,将文本行划分为单独的单词,得到初始的识别结果的每个单词和其反序版本,然后将两个版本中的单词均与字典中的所有单词进行匹配,对于正序版本和反序版本中的每个单词,当该单词存在于字典中时,不进行替换;当该单词不在字典中时,计算并记录该单词与字典中的单词的相似度,形成相似度矩阵,并设置相似度阈值对其进行过滤,然后将该单词的正序和反序版本按照相似度最大的那个字典中的单词进行n元语法纠错,并用纠错结果替代初始识别结果,反之,则保留初始的识别结果;
字典中单词的排名可以提供有用的信息。直观而言,在字典中的两个单词与输入的查询词具有相同的相似度的情况下,应该优先选择排名较高的单词。在定义查询词与字典中单词的相似度时,不仅考虑编辑距离,也考虑单词的相对排名。
因此,这里相似度定义为:
其中,ω为待查询词,为字典中的单词,为ω与之间的编辑距离,为ω和在字典中的相对排名,λ为控制参数,λ∈[0,1],λ的最优值通过实验确定。
字符串相似度是通过一定方法来计算不同字符串之间的相似度程度,通常会用百分比来衡量。字符串字形的相似度,直接通过字符串中每个汉字转化为音形码,然后再将所以音形码合并进行编辑距离算法比较。音形码采用使用70%的四角编码的汉字检定法算法加上30%的笔画数形成一个字符串,作为这个字符串的hash值。
给定的文本行首先被划分为单独的单词ωi,对于每一个ωi,原始识别结果ξ(ωi),将ξ(ωi)和其反向版本ξi)均与字典中的所有单词进行匹配,搜索与ξ(ωi)和ξi)相似度最高的两个单词η(ωi)和ηi),相似度分别记为s(ωi)和si);
对单词不在字典中的情况,设置阈值τ;如果相似度s(ωi)和si)均小于τ,则η(ωi)和ηi)被对ξ(ωi)和ξi)进行n元语法纠错之后的字符串取代,而s(ωi)和si)被设为常数;这里τ=0.8,该参数根据经验得到,在所有的实验中取得良好的效果。
对于一个由N个单词组成的文本行L,L={ωi|i=1,2,…,N},正序的总相似度S(L)和反序的总相似度S(L)分别定义为:
文本行L的排列顺序通过以下方式可以确定:
其中表示正序,表示反序;
则最终的识别结果为:
S5:对S4中已经被替换的单词的位置进行标记,输出OCR识别结果。
本领域普通技术人员可以理解,以上所述仅为发明的优选实例而已,并不用于限制发明,尽管参照前述实例对发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内,所做的修改、等同替换等均应包含在发明的保护范围之内。

Claims (5)

1.一种基于字典的光学字符识别纠错方法,其特征在于,该方法包括如下步骤:
S1:获取文字图像;
S2:所述文字图像经过ocr识别获得初始的识别结果;
S3:构建字典;
S4:将初始的识别结果与字典中的单词进行对比,然后利用单词在字典中的相对排名计算相似度,具体为:
对于给定文本行默认为正序和反序的排列方式,将文本行划分为单独的单词,得到初始的识别结果的每个单词和其反序版本,然后将两个版本中的单词均与字典中的所有单词进行匹配,对于正序版本和反序版本中的每个单词,当该单词存在于字典中时,不进行替换;当该单词不在字典中时,计算并记录该单词与字典中的单词的相似度,形成相似度矩阵,并设置相似度阈值对其进行过滤,然后将该单词的正序和反序版本按照相似度最大的那个字典中的单词进行n元语法纠错,并用纠错结果替代初始识别结果,反之,则保留初始的识别结果。
S5:对S4中已经被替换的单词的位置进行标记,输出OCR识别结果。
2.根据权利要求1所述的方法,其特征在于,所述的字典来源于搜索引擎bing的常见词列表。
3.根据权利要求1所述的方法,其特征在于,所述的S4具体为:
所述的给定的文本行首先被划分为单独的单词ωi,对于每一个ωi,原始识别结果ξ(ωi),将ξ(ωi)和其反向版本ξi)均与字典中的所有单词进行匹配,搜索与ξ(ωi)和ξi)相似度最高的两个单词η(ωi)和ηi),相似度分别记为s(ωi)和si);
对于单词不在字典中的情况,设置阈值τ;如果相似度s(ωi)和si)均小于τ,则η(ωi)和ηi)被对ξ(ωi)和ξi)进行n元语法纠错之后的字符串取代,而s(ωi)和si)被设为常数;
对于一个由N个单词组成的文本行L,L={ωi|i=1,2,...,N},正序的总相似度
S(L)和反序的总相似度S(L)分别定义为:
文本行L的排列顺序通过以下方式确定:
其中,表示正序,表示反序;
则最终的识别结果为:
4.根据权利要求1所述的方法,其特征在于,所述的S4中的字符相似度的定义具体为:
其中,ω为待查询词,为字典中的单词,为ω与之间的编辑距离,为ω和在字典中的相对排名,λ为控制参数,λ∈[0,1]。
5.根据权利要求3所述的方法,其特征在于,所述的S4中单词不在字典中的情况下设置的阈值τ=0.8。
CN201811614268.9A 2018-12-27 2018-12-27 一种基于字典的光学字符识别纠错方法 Pending CN109711412A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811614268.9A CN109711412A (zh) 2018-12-27 2018-12-27 一种基于字典的光学字符识别纠错方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811614268.9A CN109711412A (zh) 2018-12-27 2018-12-27 一种基于字典的光学字符识别纠错方法

Publications (1)

Publication Number Publication Date
CN109711412A true CN109711412A (zh) 2019-05-03

Family

ID=66257855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811614268.9A Pending CN109711412A (zh) 2018-12-27 2018-12-27 一种基于字典的光学字符识别纠错方法

Country Status (1)

Country Link
CN (1) CN109711412A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110674396A (zh) * 2019-08-28 2020-01-10 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN111209827A (zh) * 2019-12-31 2020-05-29 中国南方电网有限责任公司 一种基于特征检测的ocr识别票据问题的方法及系统
CN111368918A (zh) * 2020-03-04 2020-07-03 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111626118A (zh) * 2020-04-23 2020-09-04 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111738248A (zh) * 2020-06-24 2020-10-02 苏州科达科技股份有限公司 字符识别方法、字符译码模型的训练方法及电子设备
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法
CN112084947A (zh) * 2020-09-09 2020-12-15 上海肇观电子科技有限公司 光学字符识别结果的处理方法、电路、设备及存储介质
CN112417087A (zh) * 2020-12-14 2021-02-26 合肥高维数据技术有限公司 基于文字的溯源方法及系统
CN112699272A (zh) * 2021-01-06 2021-04-23 北京有竹居网络技术有限公司 信息输出方法、装置和电子设备
CN113033377A (zh) * 2021-03-16 2021-06-25 北京有竹居网络技术有限公司 字符位置修正方法、装置、电子设备和存储介质
CN113128504A (zh) * 2021-04-25 2021-07-16 福州符号信息科技有限公司 一种基于校验规则的ocr识别结果纠错方法、设备
CN113743102A (zh) * 2021-08-18 2021-12-03 百度在线网络技术(北京)有限公司 识别字符的方法、装置以及电子设备
CN114092940A (zh) * 2021-11-24 2022-02-25 支付宝(杭州)信息技术有限公司 识别图像中字符的方法及装置
CN114170451A (zh) * 2021-12-03 2022-03-11 京东科技信息技术有限公司 一种文本识别方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN107463928A (zh) * 2017-07-28 2017-12-12 顺丰科技有限公司 基于ocr和双向lstm的文字序列纠错算法、系统及其设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN106326484A (zh) * 2016-08-31 2017-01-11 北京奇艺世纪科技有限公司 搜索词纠错方法及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统
CN107463928A (zh) * 2017-07-28 2017-12-12 顺丰科技有限公司 基于ocr和双向lstm的文字序列纠错算法、系统及其设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚聪: "自然图像中文字检测与识别研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222193A (zh) * 2019-05-21 2019-09-10 深圳壹账通智能科技有限公司 扫描文字修正方法、装置、计算机设备和存储介质
CN110674396B (zh) * 2019-08-28 2021-04-27 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN110674396A (zh) * 2019-08-28 2020-01-10 北京三快在线科技有限公司 文本信息处理方法、装置、电子设备及可读存储介质
CN111209827A (zh) * 2019-12-31 2020-05-29 中国南方电网有限责任公司 一种基于特征检测的ocr识别票据问题的方法及系统
CN111209827B (zh) * 2019-12-31 2023-07-14 中国南方电网有限责任公司 一种基于特征检测的ocr识别票据问题的方法及系统
CN111368918A (zh) * 2020-03-04 2020-07-03 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111368918B (zh) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN111626118A (zh) * 2020-04-23 2020-09-04 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及计算机可读存储介质
CN111639566A (zh) * 2020-05-19 2020-09-08 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111738248B (zh) * 2020-06-24 2022-07-29 苏州科达科技股份有限公司 字符识别方法、字符译码模型的训练方法及电子设备
CN111738248A (zh) * 2020-06-24 2020-10-02 苏州科达科技股份有限公司 字符识别方法、字符译码模型的训练方法及电子设备
CN111967246A (zh) * 2020-07-30 2020-11-20 湖南大学 一种购物票据识别结果纠错方法
CN112084947A (zh) * 2020-09-09 2020-12-15 上海肇观电子科技有限公司 光学字符识别结果的处理方法、电路、设备及存储介质
CN112417087A (zh) * 2020-12-14 2021-02-26 合肥高维数据技术有限公司 基于文字的溯源方法及系统
CN112417087B (zh) * 2020-12-14 2024-03-19 合肥高维数据技术有限公司 基于文字的溯源方法及系统
CN112699272A (zh) * 2021-01-06 2021-04-23 北京有竹居网络技术有限公司 信息输出方法、装置和电子设备
CN112699272B (zh) * 2021-01-06 2024-01-30 北京有竹居网络技术有限公司 信息输出方法、装置和电子设备
WO2022148239A1 (zh) * 2021-01-06 2022-07-14 北京有竹居网络技术有限公司 信息输出方法、装置和电子设备
CN113033377A (zh) * 2021-03-16 2021-06-25 北京有竹居网络技术有限公司 字符位置修正方法、装置、电子设备和存储介质
CN113128504B (zh) * 2021-04-25 2023-06-20 福州符号信息科技有限公司 一种基于校验规则的ocr识别结果纠错方法、设备
CN113128504A (zh) * 2021-04-25 2021-07-16 福州符号信息科技有限公司 一种基于校验规则的ocr识别结果纠错方法、设备
CN113743102B (zh) * 2021-08-18 2023-09-01 百度在线网络技术(北京)有限公司 识别字符的方法、装置以及电子设备
CN113743102A (zh) * 2021-08-18 2021-12-03 百度在线网络技术(北京)有限公司 识别字符的方法、装置以及电子设备
CN114092940A (zh) * 2021-11-24 2022-02-25 支付宝(杭州)信息技术有限公司 识别图像中字符的方法及装置
CN114170451A (zh) * 2021-12-03 2022-03-11 京东科技信息技术有限公司 一种文本识别方法和装置

Similar Documents

Publication Publication Date Title
CN109711412A (zh) 一种基于字典的光学字符识别纠错方法
CN109582972A (zh) 一种基于自然语言识别的光学字符识别纠错方法
Drobac et al. Optical character recognition with neural networks and post-correction with finite state methods
JP5710624B2 (ja) 抽出のための方法及びシステム
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
US10482174B1 (en) Systems and methods for identifying form fields
US8468167B2 (en) Automatic data validation and correction
Schuster et al. Intellix--End-User trained information extraction for document archiving
US8391614B2 (en) Determining near duplicate “noisy” data objects
AU2007268059B2 (en) Method and apparatus for multilingual spelling corrections
US9384389B1 (en) Detecting errors in recognized text
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
US20100257440A1 (en) High precision web extraction using site knowledge
CN110837788B (zh) 一种pdf文档的处理方法及装置
CN110674396B (zh) 文本信息处理方法、装置、电子设备及可读存储介质
JPH11505052A (ja) 語彙辞書の検索範囲を削減するシステム及び方法
CN101520851A (zh) 字符信息识别装置和方法
CN109002768A (zh) 基于神经网络文本检测识别的医疗票据类文字提取方法
CN111931489B (zh) 文本纠错方法、装置和设备
CN108280197A (zh) 一种识别同源二进制文件的方法及系统
CN112131341A (zh) 文本相似度计算方法、装置、电子设备和存储介质
EP4141818A1 (en) Document digitization, transformation and validation
CN111797217A (zh) 基于faq匹配模型的信息查询方法、及其相关设备
US20100125725A1 (en) Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user
JP5669041B2 (ja) 文書処理装置及び文書処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051

Applicant after: Sinyada Technology Co.,Ltd.

Address before: Xinyada technology building, 3888 Jiangnan Avenue, Binjiang District, Hangzhou City, Zhejiang Province 310051

Applicant before: SUNYARD SYSTEM ENGINEERING Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503

RJ01 Rejection of invention patent application after publication