CN106650715B - 一种根据允许集对字符串ocr识别结果检错与纠错的方法 - Google Patents
一种根据允许集对字符串ocr识别结果检错与纠错的方法 Download PDFInfo
- Publication number
- CN106650715B CN106650715B CN201610947665.2A CN201610947665A CN106650715B CN 106650715 B CN106650715 B CN 106650715B CN 201610947665 A CN201610947665 A CN 201610947665A CN 106650715 B CN106650715 B CN 106650715B
- Authority
- CN
- China
- Prior art keywords
- character string
- character
- recognition result
- ocr
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种根据允许集对字符串OCR识别结果检错与纠错的方法,属于图像OCR(Optical Character Recognition,光学字符识别)技术领域,包括输入允许集和OCR识别结果;找出重复字符串、不可存在字符串和缺失字符串即为OCR识别结果中错误的字符串;对不可存在字符串用固定位置字符对的字符替换其相应位置处的字符;替换后的字符串组成纠正中间集;从纠正中间集中找出与缺失字符串相同的字符串,组成纠正结果集;纠正结果集中字符串即为纠正成功的字符串。本发明通过OCR软件检查出识别结果中的错误数据并对这些错误数据实施纠正,从而提高识别结果的准确率。
Description
技术领域
本发明属于图像OCR(Optical Character Recognition,光学字符识别)技术领域。当使用OCR软件读取、分析图像文件并提取出其中的字符串时,本发明可以检查和纠正识别错误的字符串,从而辅助OCR软件降低识别的错误率。
背景技术
OCR软件,指利用OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片等图像上的文字内容转换为可编辑文本的软件,广泛应用于提取各种图像中的字符。通常,图像信息通过扫描仪、照相机等设备获取并存储在图像文件中,然后OCR软件读取、分析图像文件并通过字符识别提取出其中的字符串。
OCR软件的一个典型应用是文件编号的自动识别。比如,支票、税票和信件等各种文件进行数字化时,需要通过OCR软件提取其编号。由于文件编号可能出现模糊、错位等状况,OCR软件的识别结果会出现错误。如何检查和纠正OCR识别结果中的错误,国内外研究人员提出了一些解决办法。
美国已授权专利《Apparatus and method for OCR character and confidencedetermination using multiple OCR devices》(公开号:US 5805747 A)使用多个OCR软件进行识别,各OCR软件输出自己的识别结果并标记出置信度,最后综合各输出结果,给出最终识别结果并标记出置信度。该方法具有很好的通用性,但需要用到多个OCR识别软件。如果图像本身存在缺陷(比如个别数字过于模糊),即使有多个OCR软件也无法得到准确的结果。
国内已授权专利《基于多种OCR方案组合校验以准确提取数字的方法》(公开号:CN101009747 A)采用多种不同的OCR软件识别传真图片,以获取其中的传真号码,然后根据各自识别算法的特征对识别出的数字进行纠错,最后对所有识别出的传真号码进行统一校验。只有当识别出的传真号码完全匹配,系统才自动启动传真发送,否则由人工干预发送。该方法也是通过使用多个OCR软件以投票表决的方式来认定识别错误的数据。
现有的技术方案都没有关注到所识别文件编号的自身规律,更没有利用自身规律对错误数据实施检查和纠正。
发明内容
本发明根据所要识别字符串的已知完整集合,针对OCR软件从图像中提取出的字符串提出一种检错与纠错的方法,目的在于辅助OCR软件检查出识别结果中的错误数据并对这些错误数据实施纠正,从而提高识别结果的准确率。其中,所要识别字符串的已知完整集合记为允许集,且允许集中字符串不能重复。OCR软件从图像中提取出的这些字符串记为OCR识别结果。
本发明的目的是通过下述技术方案来实现的。
一种根据允许集对字符串OCR识别结果检错与纠错的方法,包括下述步骤:
1)输入允许集和OCR识别结果;
2)OCR识别结果中找出的重复字符串;
3)从OCR识别结果中找出存在、而允许集中不存在的字符串,记为不可存在字符串;
4)从允许集中找出存在、而OCR识别结果中不存在的字符串,记为缺失字符串;
5)重复字符串、不可存在字符串和缺失字符串即为OCR识别结果中错误的字符串;
6)判断允许集中的所有字符串在每一个字符串位置是否具有相同字符;若具有相同字符,则将该位置与该字符构造成<位置,字符>,记为固定位置字符对;
7)对每一个不可存在字符串,用固定位置字符对的字符替换其相应位置处的字符;替换后的字符串组成纠正中间集;
8)从纠正中间集中找出与缺失字符串相同的字符串,组成纠正结果集;纠正结果集中字符串即为纠正成功的字符串。
步骤6所述的操作包含下述步骤:
6a)输入允许集数据;
6b)定义字符串位置index,定义字符char,定义元素为<index,char>的集合set,定义初始状态init;
6c)置index值为0,清空set,置init值为1;
6d)判断允许集是否为空;若为空,则返回set并结束本方法;若不为空,则取出允许集中最长的一个字符串;
6e)判断index值是否小于该字符串长度;若小于,则置char值为该字符串在index位置处字符;若不小于,则置index值为0,置init值为0,跳转至步骤6d);
6f)判断init值是否为1;若为1,则构造键值对<index,char>并存入集合set;若不为1,则删除set中键为index而值不为char的元素;
6g)将index值增1并继续执行步骤6e)。
本发明对比已有技术具有以下特点:
1、通过在OCR识别结果集中提取重复元素,可以获得识别错误的字符串;
2、通过对允许集和OCR识别结果集作差,可以获得识别错误的字符串;
3、通过并发执行寻找识别错误字符串的相关操作,可以提高执行效率;
4、利用字符串的允许集合,可以纠正不可存在字符串;
附图说明
图1为本发明方法的总体数据流图;
图2为纠正不可存在字符串操作的数据流图;
图3为寻找固定位置字符对操作的算法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,本发明给出了一种根据允许集对字符串OCR识别结果检错与纠错的方法,包括下述步骤:
1)输入允许集和OCR识别结果;
2)OCR识别结果中找出的重复字符串;
3)从OCR识别结果中找出存在、而允许集中不存在的字符串,记为不可存在字符串;
4)从允许集中找出存在、而OCR识别结果中不存在的字符串,记为缺失字符串;
5)重复字符串、不可存在字符串和缺失字符串均为OCR识别结果中错误的字符串;
6)判断允许集中的所有字符串在每一个字符串位置是否具有相同字符;若具有相同字符,则将该位置与该字符构造成<位置,字符>,记为固定位置字符对;
具体方法为:
6a)输入允许集数据;
6b)定义字符串位置index,定义字符char,定义元素为<index,char>的集合set,定义初始状态init;
6c)置index值为0,清空set,置init值为1;
6d)判断允许集是否为空;若为空,则返回set并结束本方法;若不为空,则取出允许集中最长的一个字符串;
6e)判断index值是否小于该字符串长度;若小于,则置char值为该字符串在index位置处字符;若不小于,则置index值为0,置init值为0,跳转至步骤6d);
6f)判断init值是否为1;若为1,则构造键值对<index,char>并存入集合set;若不为1,则删除set中键为index而值不为char的元素;
6g)将index值增1并继续执行步骤6e);
7)对每一个不可存在字符串,用固定位置字符对的字符替换其相应位置处的字符;替换后的字符串组成纠正中间集;
8)从纠正中间集中找出与缺失字符串相同的字符串,组成纠正结果集;纠正结果集中字符串即为纠正成功的字符串。
下面通过一个具体税收通用缴款书编号的OCR识别结果来进一步说明本发明检错与纠错方法。
税收通用缴款书是税务机关发行的一种常见税票,为了实现数字化存储和快速检索,需要被扫描成图像并通过OCR软件提取其编号。由于扫描获取的图像会出现模糊、错位等状况,OCR软件识别结果中会出现一些错误,这些错误需要被检查和纠正。税票编号在打印过程中不会重复,且可以事先确定其允许集合,故符合本发明方法的适用条件。因此,税票编号OCR识别结果中的错误可以利用本发明检查和修正,从而提高OCR软件识别税票编号的准确率。
本发明方法的总体数据流图如图1所示,具体实施过程如下:
1、将所要识别的全体税票编号输入到允许集121;采用OCR软件识别出的税票编号作为OCR识别结果122;
2、通过寻找重复字符串132操作,找出OCR识别结果122中的重复字符串124;
3、通过寻找不可存在字符串131操作,找出OCR识别结果中存在而允许集中不存在的字符串,记为不可存在字符串123;
4、通过寻找缺失字符串133操作,找出允许集中存在而OCR识别结果中不存在的字符串,记为缺失字符串125;
5、重复字符串124、不可存在字符串123和缺失字符串125均为OCR软件识别错误的字符串;
6、纠正不可存在字符串134,操作如图2所示,其具体过程如下:
(1)寻找固定位置字符对231:对每一个字符串位置,判断允许集中的所有字符串在该位置是否具有相同字符;若具有相同字符,则将该位置与该字符构造成<位置,字符>,记为固定位置字符对234;
(2)替换固定字符232:对每一个不可存在字符串,用固定位置字符对的字符替换其相应位置处字符;替换后的字符串组成纠正中间集221;
(3)从纠正中间集中找出与缺失字符串相同的字符串233,组成纠正结果集126;纠正结果集126中字符串即为纠正成功的字符串。
上述过程中步骤6所述的纠正不可存在字符串134操作中(1)的流程图如图3所示,具体过程如下:
6a)输入允许集数据;
6b)定义字符串位置index,定义字符char,定义元素为<index,char>的集合set,定义初始状态init;
6c)置index值为0,清空set,置init值为1;
6d)判断允许集是否为空;若为空,则返回set并结束本方法;若不为空,则取出允许集中最长的一个字符串;
6e)判断index值是否小于该字符串长度;若小于,则置char值为该字符串在index位置处字符;若不小于,则置index值为0,置init值为0,跳转至步骤4;
6f)判断init值是否为1;若为1,则构造键值对<index,char>并存入集合set;若不为1,则删除set中键为index而值不为char的元素;
6g)将index值增1并继续执行步骤5。
此实施实例通过一系列的操作实现了税票编号OCR识别结果的检错与纠错,验证了根据允许集对字符串OCR识别结果检错与纠错的方法。本发明与现有方法相比,更多地考虑了识别对象自身的特性,辅助OCR软件提高了识别结果的准确率。
以上结合附图对本发明的具体实施方式作了说明,但这些说明不能被理解为限制了本发明的范围,本发明的保护范围由随附的权利要求书限定,任何在本发明权利要求基础上的改动都是本发明的保护范围。
Claims (2)
1.一种根据允许集对字符串OCR识别结果检错与纠错的方法,其特征在于,包括下述步骤:
1)输入允许集和OCR识别结果;
2)从OCR识别结果中找出重复字符串;
3)从OCR识别结果中找出存在的字符串、而允许集中不存在的字符串,记为不可存在字符串;
4)从允许集中找出存在的字符串、而OCR识别结果中不存在的字符串,记为缺失字符串;
5)重复字符串、不可存在字符串和缺失字符串即为OCR识别结果中错误的字符串;
6)判断允许集中的所有字符串在每一个字符串位置是否具有相同字符;若具有相同字符,则将该位置与该字符构造成<位置,字符>,记为固定位置字符对;
7)对每一个不可存在字符串,用固定位置字符对的字符替换其相应位置处的字符,替换后的字符串组成纠正中间集;
8)从纠正中间集中找出与缺失字符串相同的字符串,组成纠正结果集;纠正结果集中字符串即为纠正成功的字符串。
2.根据权利要求1所述的方法,其特征在于,所述步骤6的操作包含下述步骤:
6a)输入允许集数据;
6b)定义字符串位置index,定义字符char,定义元素为<index,char>的集合set,定义初始状态init;
6c)置index值为0,清空set,置init值为1;
6d)判断允许集是否为空;若为空,则返回set并结束本方法;若不为空,则取出允许集中最长的一个字符串;
6e)判断index值是否小于该字符串长度;若小于,则置char值为该字符串在index位置处字符;若不小于,则置index值为0,置init值为0,跳转至步骤6d);
6f)判断init值是否为1;若为1,则构造键值对<index,char>并存入集合set;若不为1,则删除set中键为index而值不为char的元素;
6g)将index值增1并继续执行步骤6e)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610947665.2A CN106650715B (zh) | 2016-10-26 | 2016-10-26 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610947665.2A CN106650715B (zh) | 2016-10-26 | 2016-10-26 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106650715A CN106650715A (zh) | 2017-05-10 |
CN106650715B true CN106650715B (zh) | 2019-07-12 |
Family
ID=58821981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610947665.2A Active CN106650715B (zh) | 2016-10-26 | 2016-10-26 | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106650715B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126370A (zh) * | 2018-10-31 | 2020-05-08 | 上海迈弦网络科技有限公司 | 一种基于ocr识别结果的最长公共子串自动纠错方法及系统 |
CN109582972B (zh) * | 2018-12-27 | 2023-05-16 | 信雅达科技股份有限公司 | 一种基于自然语言识别的光学字符识别纠错方法 |
CN110059705B (zh) * | 2019-04-22 | 2021-11-09 | 厦门商集网络科技有限责任公司 | 一种基于建模的ocr识别结果判决方法和设备 |
CN110442843B (zh) * | 2019-06-25 | 2024-06-11 | 平安科技(深圳)有限公司 | 字符替换方法、系统、计算机设备及计算机可读存储介质 |
CN111626869A (zh) * | 2020-05-25 | 2020-09-04 | 泰康保险集团股份有限公司 | 数据处理方法、装置、电子设备及可读存储介质 |
CN113128504B (zh) * | 2021-04-25 | 2023-06-20 | 福州符号信息科技有限公司 | 一种基于校验规则的ocr识别结果纠错方法、设备 |
CN116758564B (zh) * | 2023-08-15 | 2023-11-10 | 山东履信思源防伪技术有限公司 | 一种对比ocr字符识别结果的方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004152036A (ja) * | 2002-10-31 | 2004-05-27 | Nec Saitama Ltd | 文字認識機能付携帯電話機器及び認識文字の修正方法並びにプログラム |
JP4750802B2 (ja) * | 2006-01-13 | 2011-08-17 | 富士通株式会社 | 帳票処理プログラムおよび帳票処理装置 |
CN103617415A (zh) * | 2013-11-19 | 2014-03-05 | 北京京东尚科信息技术有限公司 | 一种自动识别发票的装置和方法 |
CN105654072B (zh) * | 2016-03-24 | 2019-03-01 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
-
2016
- 2016-10-26 CN CN201610947665.2A patent/CN106650715B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106650715A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106650715B (zh) | 一种根据允许集对字符串ocr识别结果检错与纠错的方法 | |
US9767379B2 (en) | Systems, methods and computer program products for determining document validity | |
CN105654072B (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
US7881561B2 (en) | Method of pre-analysis of a machine-readable form image | |
KR101446376B1 (ko) | 고유 이미지 프로세스에 따른 미지 문서의 식별 및 검증 | |
RU2651144C2 (ru) | Ввод данных с изображений документов с фиксированной структурой | |
US8781172B2 (en) | Methods and systems for enhancing the performance of automated license plate recognition applications utilizing multiple results | |
KR970007280B1 (ko) | 문자 인식 수단 선택 방법 및 데이타 처리 시스템 | |
CN109657665A (zh) | 一种基于深度学习的发票批量自动识别系统 | |
WO2006002009A2 (en) | Document management system with enhanced intelligent document recognition capabilities | |
EP2092463A1 (en) | Automated generation of form definitions from hard-copy forms | |
CN111539414B (zh) | 一种ocr图像字符识别和字符校正的方法及系统 | |
CN203149706U (zh) | 一种印鉴影像的比对系统 | |
JP2017521011A (ja) | シンボルの光学的検出方法 | |
US20070110339A1 (en) | Optical character recognition | |
CN116052186A (zh) | 多模态发票自动分类识别方法、校验方法及系统 | |
CN116541576A (zh) | 基于大数据应用的档案数据管理标注方法及系统 | |
US6867875B1 (en) | Method and apparatus for simplifying fax transmissions using user-circled region detection | |
KR20060123988A (ko) | 이미지 입력 시스템 | |
US20060176521A1 (en) | Digitization of microfiche | |
CN117333893A (zh) | 基于ocr的自定义模板图像识别方法、系统及存储介质 | |
CN103902995B (zh) | 表格内容自动录入方法和装置 | |
US10037409B2 (en) | Automated method and system for reducing the improper disclosure of documents | |
JP3735313B2 (ja) | イメージ管理システム、イメージ管理方法及びイメージ管理プログラム | |
CN107016320A (zh) | 一种基于中文词库提高图片密级识别准确率的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220525 Address after: 710000 room 027, F2001, 20th floor, block 4-A, Xixian financial port, Fengdong new city, energy gold trade zone, Xixian New District, Xi'an City, Shaanxi Province Patentee after: Xi'an best information technology Co.,Ltd. Address before: 710065 No. 2 Taibai South Road, Yanta District, Xi'an, Shaanxi Patentee before: XIDIAN University |
|
TR01 | Transfer of patent right |