CN111126370A

CN111126370A - 一种基于ocr识别结果的最长公共子串自动纠错方法及系统

Info

Publication number: CN111126370A
Application number: CN201811281326.0A
Authority: CN
Inventors: 叶瑞; 叶凯迪; 陆爱亮
Original assignee: Shanghai Maixian Network Technology Co Ltd
Current assignee: Shanghai Maixian Network Technology Co Ltd
Priority date: 2018-10-31
Filing date: 2018-10-31
Publication date: 2020-05-08

Abstract

本发明提供一种基于OCR识别结果的最长公共子串自动纠错方法及系统，涉及图像光学字符识别领域，所述方法包括以下步骤：步骤1：OCR软件识别获取待测图像文件中的字符串；步骤2：对OCR软件识别获取的字符串进行预处理；步骤3：对预处理后的字符串进行字符纠错替换处理；步骤4：基于字符纠错替换处理后的字符串进行最长公共子串匹配计算处理，并输出正确结果。本发明通过将OCR软件识别输入的字符串进行自动纠错替换，然后将纠错替换的字符串与需要输出的目标字符串进行最长公共子串匹配计算，并输出正确的目标字符串。解决了在识别清晰度较低的图像文件时，图像文件识别输出成功率低的问题。

Description

一种基于OCR识别结果的最长公共子串自动纠错方法及系统

技术领域

本发明涉及图像光学字符识别领域，尤其涉及一种基于OCR识别结果的最长公共子串自动纠错方法及系统。

背景技术

OCR软件，指利用OCR(Optical Character Recognition，光学字符识别)技术，将图片、照片、电子传真等图像上的文字内容识别提取转换为可编辑文本的软件，通过扫描仪、照相机、电子传真机等设备获取并保存图像文件，然后通过OCR软件读取、分析图像文件并通过字符识别提取字符串。

在对税票、合同、基金成交单和划款指令等各种文件在进行数字化管理时，需要OCR软件对文件固定区域图像内容进行自动识别、提取收付款账户和金额等信息，然而在利用OCR软件进行图像文件识别提取时，由于识别图像文件内容会出现模糊、错位等情况，OCR软件识别结果会随之出现错误。

发明专利《基于多种OCR方案组合校验以准确提取数字的方法》(公开号：CN101009747A)采用多种不同的OCR软件识别传真图片，以识别获取其中的传真号码，然后根据自识别算法的特征对识别出的数字进行纠错，最后对所有识别出的传真号码进行统一校验，只有当识别出的传真号码完全匹配，系统才认为数据为正确的输出结果，否则由人工进行干预纠正。该方法通过使用多个OCR软件以投票表决的方式来认定识别错误的数据，没有关注到所识别文件内容中各字段的自身规律以及字段间的业务规则，更没有利用这些规律、规则对错误数据实施检查和纠正，因此在识别清晰度非常低的电子传真图像文件时，图像文件识别输出成功率非常不理想，难以实际应用于业务生产环境中。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于OCR识别结果的最长公共子串自动纠错方法及系统，首先将OCR软件识别输入的字符串进行自动纠错替换，然后将纠错替换的字符串与需要输出的目标字符串进行最长公共子串匹配计算，并输出正确的目标字符串，解决了在识别清晰度较低的图像文件时，图像文件识别输出成功率低的问题。

本发明提供一种基于OCR识别结果的最长公共子串自动纠错方法，所述方法包括以下步骤：

步骤1：OCR软件识别获取待测图像文件中的字符串；

步骤2：对OCR软件识别获取的字符串进行预处理；

步骤3：对预处理后的字符串进行字符纠错替换处理；

步骤4：基于字符替换处理后的字符串进行最长公共子串匹配计算处理，并输出正确结果。

进一步的，所述预处理具体步骤如下：

步骤2.1：根据识别获取的字符串的字段特性，预先配置需要去除的非法字符；

步骤2.2：去除OCR软件识别获取的字符串中的非法字符；

步骤2.3：将去除非法字符处理后的字符串中的全角符号统一替换为半角符号，并将字符串作为中间结果存储。

进一步的，所述字符串字符纠错替换处理具体步骤如下：

步骤3.1：对预处理后的字符串进行全局纠错替换处理；

步骤3.2：对全局纠错替换后的字符串进行通配符纠错替换处理；

步骤3.3：对通配符纠错替换处理后的字符串进行特殊纠错替换处理。

进一步的，所述最长公共子串匹配计算处理具体步骤如下：

步骤4.1：计算字符纠错替换处理后的字符串与预先存储的目标集合中的每个字符串的最长公共子串；

步骤4.2：依次判断最长公共子串是否完全包含目标集合中的每个字符串预先定义的公共子串，若是，输出目标集合中对应的字符串。

进一步的，所述全局纠错替换处理是根据业务应用行业进行的形近字字符替换。

进一步的，所述通配符纠错替换处理是对替代字符进行的字符替换。

进一步的，所述特殊纠错替换处理是对全局纠错替换处理和通配符纠错替换处理的单独特殊配置。

一种基于OCR识别结果的最长公共子串自动纠错系统，所述系统包括：

识别获取待测图像文件中字符串的识别单元；

对识别获取的字符串进行预处理的预处理单元；

对预处理后的字符串进行纠错替换处理的纠错替换单元；

对纠错替换处理后的字符串进行最长公共子串匹配计算的最长公共子串处理单元。

进一步的，所述预处理单元包括字符去除单元、字符替换单元以及字符存储单元。

进一步的，所述纠错替换单元包括全局纠错替换单元、通配符纠错替换以及特殊纠错替换单元。

如上所述，本发明的一种基于OCR识别结果的最长公共子串自动纠错方法及系统，具有以下有益效果：本发明首先将OCR软件识别输入的字符串进行自动纠错替换，然后将纠错替换的字符串与需要输出的目标字符串进行最长公共子串匹配计算，并输出正确的目标字符串。解决了在识别清晰度较低的图像文件时，图像文件识别输出成功率低的问题。

附图说明

图1为本发明实施例中公开的方法整体数据处理流程图。

图2为本发明实施例中公开的字符串预处理流程图。

图3为本发明实施例中公开的字符串字符纠错替换处理流程图。

图4为本发明实施例中公开的最长公共子串匹配计算处理流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

在一般的业务场景下，OCR软件的识别结果和下游软件系统中存储的字符串存在一定差异，但是识别获取的结果和存储的字符串之间仍然具有关联性，利用两则之间的关联性和规则对错误数据实施检查和纠正，使识别清晰度非常低的图像文件时，导致识别输出成功率非常不理想，难以实际应用于业务生产环境中，为解决此问题，

本发明提供一种基于OCR识别结果的最长公共子串自动纠错方法及系统，所述系统包括识别单元、预处理单元、纠错替换单元以及最长公共子串处理单元。其中，预处理单元包括字符去除单元、字符替换单元以及字符存储单元；纠错替换单元包括全局纠错替换单元、通配符纠错替换以及特殊纠错替换单元。

如图1所示，所述方法包括以下步骤：

步骤1：OCR软件识别单元识别获取待测图像文件中的字符串；

步骤2：预处理单元对OCR软件识别获取的字符串进行预处理；

如图2所示，首先根据识别获取的字符串的字段特性，字符去除单元预先配置需要去除的非法字符，然后去除OCR软件识别获取的字符串中的非法字符，如：“^\[\]\*×$％～！@#$…&％￥+＝<>《》”等非法字符，小写金额字段的合法字符集为：“123456780,.”，其他任何字符均为非法字符；名称字段合法字符集为汉字及中横线，其他字符均为非法字符；

最后字符替换单元将去除非法字符处理后的字符串中的全角符号统一替换为半角符号，便于后续字符处理的统一性，并将字符串作为中间结果保存于存储单元中。

步骤3：纠错替换单元对预处理后的字符串进行字符纠错替换处理；

如图3所示，首先全局纠错替换单元对预处理后的结果字符串进行全局纠错替换处理，例如：预处理后的字符串中会存在形近字的错误，例如：“屮”应为“中”,“淸”应为“清”,“贵任”应为“责任”，根据不同业务的应用行业，通过预先建立全局单个字符，全局字符串纠错替换规则，将形近字的错误“屮”替换为“中”,“淸”替换为“清”,“贵任”替换为“责任”；

然后通配符纠错替换单元通过预先建立的字符串通配符纠错替换规则，对全局纠错替换后的字符串进行通配符纠错替换处理，例如：“混？型证券”替换为“混合型证券”，其中的“？”代替任何字符；

最后特殊纠错替换单元根据不同的识别模板对全局纠错替换处理和通配符纠错替换处理进行单独特殊配置并执行。

步骤4：最长公共子串处理单元基于字符替换处理后的字符串进行最长公共子串匹配计算处理，并输出正确结果。

如图4所示，首先计算纠错替换处理后字符串与预先存储的目标集合中的每个字符串的最长公共子串；

例如：纠错替换处理后的字符串为：“证卷资产管里—天扬定向咨产管理计划资产管理合同”(该字符串中仍然有三个错误字符“卷”、“里”、“咨”)，目标集合中的字符串分别为：“证券资管—天利定向资产管理计划”(公共子串为：天利)、“证券资管—天杨定向资产管理计划”(公共子串为：天杨)、“证券资管—红利集合定向资产管理计划”(公共子串为：红利集合)等；

计算求得最长公共子串为：“天杨定向”，全部包含了“天杨”，则输出目标集合中对应的字符串“证券资管—天杨定向资产管理计划”作为正确结果。

其中，目标集合中的每个字符串的公共子串为预先定义，最长公共子串是通过字符串匹配计算得到。

综上所述，本发明将OCR软件识别输入的字符串进行自动纠错替换，然后将纠错替换的字符串与需要输出的目标字符串进行最长公共子串匹配计算，并输出正确的目标字符串。解决了在识别清晰度较低的图像文件时，图像文件识别输出成功率低的问题。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于OCR识别结果的最长公共子串自动纠错方法，其特征在于，所述方法包括以下步骤：

步骤1：OCR软件识别获取待测图像文件中的字符串；

步骤2：对OCR软件识别获取的字符串进行预处理；

步骤3：对预处理后的字符串进行字符纠错替换处理；

步骤4：基于字符纠错替换处理后的字符串进行最长公共子串匹配计算处理，并输出正确结果。

2.根据权利要求1所述的基于OCR识别结果的最长公共子串自动纠错方法，其特征在于，所述预处理具体步骤如下：

步骤2.2：去除OCR软件识别获取的字符串中的非法字符；

3.根据权利要求1所述的基于OCR识别结果的最长公共子串自动纠错方法，其特征在于：所述字符串字符纠错替换处理具体步骤如下：

步骤3.1：对预处理后的字符串进行全局纠错替换处理；

4.根据权利要求1所述的基于OCR识别结果的最长公共子串自动纠错方法，其特征在于：所述最长公共子串匹配计算处理具体步骤如下：

5.根据权利要求3所述的基于OCR识别结果的最长公共子串自动纠错方法，其特征在于：所述全局纠错替换处理是根据业务应用行业进行的形近字字符替换。

6.根据权利要求3所述的基于OCR识别结果的最长公共子串自动纠错方法，其特征在于：

所述通配符纠错替换处理是对替代字符进行的字符替换。

7.根据权利要求3所述的基于OCR识别结果的最长公共子串自动纠错方法，其特征在于：

所述特殊纠错替换处理是对全局纠错替换处理和通配符纠错替换处理的单独特殊配置。

8.一种基于OCR识别结果的最长公共子串自动纠错系统，其特征在于，所述系统包括：

识别获取待测图像文件中字符串的识别单元；

对识别获取的字符串进行预处理的预处理单元；

对预处理后的字符串进行纠错替换处理的纠错替换单元；

9.根据权利要求9所述的基于OCR识别结果的最长公共子串自动纠错系统，其特征在于：所述预处理单元包括字符去除单元、字符替换单元以及字符存储单元。

10.根据权利要求8所述的基于OCR识别结果的最长公共子串自动纠错系统，其特征在于：所述纠错替换单元包括全局纠错替换单元、通配符纠错替换以及特殊纠错替换单元。