CN113128504A

CN113128504A - 一种基于校验规则的ocr识别结果纠错方法、设备

Info

Publication number: CN113128504A
Application number: CN202110449444.3A
Authority: CN
Inventors: 郑颖; 宋少龙; 林少伟
Original assignee: Fuzhou Symbol Information Technology Co ltd
Current assignee: Fuzhou Symbol Information Technology Co ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-16
Anticipated expiration: 2041-04-25
Also published as: CN113128504B

Abstract

本发明涉及一种基于校验规则的OCR识别结果纠错方法，包括如下步骤：S1、利用OCR算法识别图像中的字符串，得到识别结果；S2、根据识别结果，判断字符串类别，并获取该字符串类别对应的校验规则；S3、根据所述校验规则，对识别结果进行检错；S4、根据校验规则和检错结果，对识别结果进行纠错。本发明利用替换字符集和校验规则，对识别结果进行纠错，提高形状相似字符的识别正确率。同时利用校验字符对识别结果进行检错，也可以对经替换字符集纠错后的识别结果进行检错，不输出错误的识别结果，进一步提高OCR识别结果的准确度。

Description

一种基于校验规则的OCR识别结果纠错方法、设备

技术领域

本发明涉及一种基于校验规则的OCR识别结果纠错方法、设备，属于图像处理领域。

背景技术

OCR全称Optical Character Recognition，光学字符识别，是一种用于识别图像和图像中的字符识别的技术。通过电子设备输入图像信息，对目标字符进行分析识别，将其转换为文本格式的字符串，解决图像文字输入的问题。目前OCR识别技术在条码识别领域主要应用识别身份证、护照、通行证以及驾驶证等证件，实现证件上的机读码区(MRZ:MachineReadable Zone)部分的字符识别。

但是在实际应用场景中，电子设备所拍摄的图像受倾斜、偏转以及受不同环境光照等的影响，图像会出现不规律的灰度跳变，导致字符切割不准确造成识别上的出错。同时在一些证件的机读码区同时存在着字母字符以及数字字符，部分字符间局部形态上存在着相似，一旦存在不规律的灰度变化以及字符切割上的不准确，及其容易造成字符识别错误或者是个别字符识别不出的情况，影响识别效率和正确率。

现有专利CN106650715B《一种根据允许集对字符串OCR识别结果检错与纠错的方法》公开以下内容：输入允许集和OCR识别结果；找出重复字符串、不可存在字符串和缺失字符串即为OCR识别结果中错误的字符串；对不可存在字符串用固定位置字符对的字符替换其相应位置处的字符；替换后的字符串组成纠正中间集；从纠正中间集中找出与缺失字符串相同的字符串，组成纠正结果集；纠正结果集中字符串即为纠正成功的字符串。但该专利中允许集的内容为将要识别的全部文本内容，则允许集只能对应一种类型文本，允许集适用范围窄且需要的存储空间较大；且在允许集中搜索匹配重复字符串、不可存在字符串和缺失字符串，计算量较大且费时。其次，利用固定位置字符对进行纠错，只能对在固定位置上固定内容的字符进行纠错，局限较大。

发明内容

为了解决上述现有技术中存在的问题，本发明提供一种基于校验规则的OCR识别结果纠错方法，判断字符串类别并获取该字符串类别对应的校验规则，可以对多种具有一定编码规则的字符串进行校验，灵活性强，适用范围广。同时，利用替换字符集和校验规则，对识别结果进行纠错，提高形状相似字符的识别正确率，从而提高OCR识别结果的准确度。

本发明的技术方案如下：

技术方案一：

一种基于校验规则的OCR识别结果纠错方法，包括如下步骤：

S1、利用OCR算法识别图像中的字符串，得到识别结果；所述字符串包括若干个字段，并预先设置有对应的校验规则；所述校验规则规定字符串各字段中字符的类型；

S2、根据识别结果，判断字符串类别，并获取该字符串类别对应的校验规则；

S3、根据所述校验规则，对识别结果进行检错：在识别结果中查找字符类型不满足校验规则的字符，记该字符为错误字符；

S4、根据校验规则和检错结果，对识别结果进行纠错：预先设置一用于纠错的替换字符集，所述替换字符集包括若干个形状相似字符之间的对应关系；根据替换字符集查找所述错误字符对应的相似字符，若相似字符符合错误字符所在字段的校验规则，则将错误字符替换为该相似字符。

进一步的，根据检错结果，再次判断所述字符串类别是否正确，若字符串类别正确，则对识别结果进行纠错，否则舍弃该识别结果。

进一步的，所述步骤S2具体为：根据识别结果中字符数量、类别标识符、字符所占行数中至少一者，判断字符串类别；所述类别标识符为字符串中预先设置的一个用于标识字符串类别的字段。

进一步的，所述根据检错结果，再次判断所述字符串类别是否正确具体为：若所述错误字符的个数超过第一阈值或不包含错误字符的字段个数低于第一阈值，则字符串类别不正确；否则字符串类别正确。

进一步的，所述校验规则还规定：字符串中设置有至少一个校验字符；所述校验字符对应字符串中的若干个字符，并由所述若干个字符计算得到；

根据所述校验规则，对识别结果进行检错：根据识别结果，计算校验字符；比对计算得到的校验字符和识别结果中的校验字符，若比对结果一致，则该校验字符对应的若干个字符不存在错误字符；否则，该校验字符对应的若干个字符存在错误字符。

进一步的，还包括：若校验字符对应的若干个字符中某一字符通过所述步骤S4进行纠错，则利用校验字符对所述纠错后的字符进行检错。

进一步的，计算所述校验字符，以公式表达为：

X_check＝Sum mod 10

式中：X₁,X₂,X₃,…,X_n为所述校验字符对应n个字符进行赋值得到的n个数值；Sum表示所述n个数值的加权叠加值，X_check为校验字符。

进一步的，若识别结果中某一校验字符对应的若干个字符中存在数字类型的无法识别字符，则根据校验字符和所述公式逆推无法识别字符。

技术方案二：

一种基于校验规则的OCR识别结果纠错设备，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如技术方案一所述的方法。

本发明具有如下有益效果：

1、本发明根据字符串的特点，判断字符串类别并获取该字符串类别对应的校验规则，可以对多种具有一定校验规则的字符串进行校验，灵活性强，适用范围广。

2、本发明利用替换字符集和校验规则，对识别结果进行纠错，提高形状相似字符的识别正确率，从而提高OCR识别结果的准确度。

3、本发明利用校验字符对识别结果进行检错，也可以对经替换字符集纠错后的识别结果进行检错，进一步提高OCR识别的准确度。

4、本发明利用校验字符逆推得到无法识别字符，提高对只存在个别无法识别字符情况下的OCR识别率，无需重新通过OCR算法识别字符串，从而提高识别效率。

附图说明

图1为本发明流程图；

图2为实施例二中字符赋值示意图；

图3为校验规则示意图；

图4为待OCR识别图像。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

参见图1，一种基于校验规则的OCR识别结果纠错方法，步骤如下：

S1、拍摄各类证件的机读区，得到图像。通过OCR算法识别图像中的字符串，得到识别结果。

本实施例对各类证件机读区图像进行OCR识别。证件包括国际民用航空组织的机读旅行证件以及中国出入境通行证、签证、护照等。证件机读区中包含一用于标识证件的字符串，字符串包括若干个字段，如证件代码字段、签发国或签发机构字段、姓名字段、证件号字段、国籍字段、持证人出生日期字段、持证人性别字段、证件有效期字段、个人号码字段、签发次数字段以及校验字符等。各证件发行组织规定字符串使用一套公用字符集，即OCR-B字符子集，包含了数字0-9，大写字母A-Z以及<，共37个字符类型。

S2、根据识别结果，判断字符串类别，并获取该字符串类别对应的校验规则。

不同类别证件中字符串的编码规则不同，因此不同类别证件中的字符串校验规则不同。在本实施例中，根据识别结果中字符数量、字符所占行数和类别标识符判断字符串类别。例如，若识别结果有88个字符，字符被分为两行，第一行的第一个字符为字母P，则该字符串类别为TD3型机读护照编号。在本实施例中，校验规则包括各字段中的字符数量和字符类型、各字段在字符串中的位置等。

S3、根据所述校验规则，对识别结果进行检错：在识别结果中查找字符类型不满足校验规则的字符，记该字符为错误字符。若错误字符的个数超过第一阈值，则字符串类别不正确，舍弃该识别结果；否则，继续下一步。

S4、根据校验规则和检错结果，对识别结果进行纠错：预先设置一用于纠错的替换字符集，所述替换字符集包括若干个形状相似字符之间的对应关系；根据替换字符集查找所述错误字符对应的相似字符，若相似字符符合错误字符所在字段的校验规则，则将错误字符替换为该相似字符。例如，日期字段中识别出字母O，记字母O为错误字符；在替换字符集查找字母O对应的相似字符数字0、字母D等，其中数字0符合日期字段的字符类型要求，则用数字0替换字母O。

本实施例的进步之处在于，根据字符串的特点，判断字符串类别并获取该字符串类别对应的校验规则，可以对多种具有一定校验规则的字符串进行校验，灵活性强，适用范围广。

利用替换字符集和校验规则，对识别结果进行纠错，提高形状相似字符的识别正确率(识别形状相似字符是OCR识别的难点之一)，从而提高OCR识别结果的准确度。

实施例二

进一步的，在本实施例中，字符串中包含一个校验字符。在实际使用时，根据用户信息(如性别、国籍等)确定其他字段中字符。校验字符的计算过程如下：

1、按以下步骤对字符串中除校验字符的其他字符进行赋值：

如图2所示，字符0-9分别赋值为数值0-9，字符A-Z分别赋值为数值10-35，字符<赋值为数值0，得到字符串对应的一串数值序列X₁,X₂,X₃,…,X_n。

2、对数值序列进行加权求和：

3、计算校验字符X_check

X_check＝Sum mod 10

假设X₁,…,X_n为160729则X₁,…,X_n的数值序列为1、6、0、7、2、9，对数值序列加权求和得到sum＝7*1+3*6+1*0+7*7+3*2+1*9＝89，X_check＝89 mod 10＝9

假设识别结果为1609299。按照上述步骤对160929进行计算，得到sum＝7*1+3*6+1*0+7*9+3*2+1*9＝10，X_check＝3。

显然，计算得到的校验字符和识别结果中的不一致，表示识别结果存在错误字符，考虑重新识别或不输出识别结果。

本实施例的进步之处在于，利用校验字符对识别结果进行检错，也可以对经实施例一步骤S4纠错后的识别结果进行检错，进一步提高OCR识别结果的准确度。

实施例三

在本实施例中，识别结果中一校验字符对应的若干个字符中存在一个数字类型的无法识别字符，利用校验规则逆推得到该无法识别字符。无法识别字符在字符串中的位置已知(OCR识别即使无法识别出某一字符，也能得到该字符在字符串中的位置)。具体过程如下：

识别结果：X₁,X₂,X₃,…Y_i…,X_n-1,X_n,X_check，其中Y_i为无法识别字符，X_check为校验字符。

利用公式计算Y_i的值，公式如下：

其中，Y_i只能是数字类型。因此根据公式，从0-9选择满足要求的字符进行替换。

假设日期字段为6906229，其中最后一个字符9是校验字符。识别结果为6？06229，Y₂为无法识别字符。

则有(6*7+3*Y₂+0*1+6*7+2*3+2*1)mod 10＝9，即(92+3*x)mod 10＝9。从0-9选择满足等式的字符进行替换，则Y₂＝9。

本实施例的进步之处在于，利用校验字符逆推得到无法识别字符，提高对只存在个别无法识别字符情况下的OCR识别率，无需重新通过OCR算法识别字符串，从而提高识别效率。

实施例四

对图4进行OCR识别，图4中字符串为：

I<TURA19C356482<10066114672<<<

7908264M2904227TUR<<<<<<<<<<<2

SIRMATEL<<ONUR<<<<<<<<<<<<<<<<

假设识别结果为：

I<TURA19C356482<10066114672<<<

79O8264M2904227TUR<<<<<<<<<<<2

SIRMATEL<<0NUR<<<<<<<<<<<<<<<<

首先根据识别结果，判断字符串类别。识别结果中包括90个已识别的字符，不存在无法识别的字符，字符串第一行第一位是字母字符I，则初步判断字符串类别为TD1型官方旅行证件编号。

获取TD1型证件编号的校验规则(见图3)。

根据所述校验规则，对识别结果进行检错：TUR、M、290422字段分别满足国籍、性别、有效期字段的校验规则，则确认字符串类别为TD1型官方旅行证件编号。出生日期字段即字符串第二行第1-6位，出现错误字符字母O，替换成数字0。机读区第二行第7位的数字4为校验字符，对校验过程如下：

(7*7+9*3+0*1+8*7+2*3+6*1)mod 10＝144 mod 10＝4

由此可知替换正确。

继续检错，发现字符串第3行出现数字字符0。根据校验规则，可知字符串第3行为姓名字段，不允许出现数字字符。因此判断数字0字符识别有误，替换为字母字符O。

通过上述校验过程，识别结果为：

I<TURA19C356482<10066114672<<<

7908264M2904227TUR<<<<<<<<<<<2

SIRMATEL<<ONUR<<<<<<<<<<<<<<<<

实施例五

假设识别结果中存在一个无法识别的字符，如下：

I<TURA19C356482<10066114672<<<

7908264M2904227TUR<<<<<<<<<<<？

SIRMATEL<<ONUR<<<<<<<<<<<<<<<<

其中“？”表示无法识别的字符。

首先根据识别结果，判断字符串类别。识别结果中包括89个已识别的字符，1个无法识别的字符，并且字符串第一行第一位是字母字符I，则初步判断字符串类别为TD1型官方旅行证件编号。

获取TD1型证件的校验规则。

根据所述校验规则，对识别结果进行校验。在校验过程中，发现TUR、790826、M、290422字段分别满足中国籍、出生日期、性别、有效期的校验规则，因此确认字符串类别为TD1型官方旅行证件编号。

根据校验规则，字符串第二行最后一位是复合校验数位，该位置上只能存在数字字符0-9，用于校验机读区第一行和第二行的数据元素，其中不包括第一行1-5位、第二行第8位及第二行16-18位。所述无法识别的字符位于第二行第30位，则可以通过校验规则计算得到。在进行计算校验数值时，字符<的赋值按照0参与计算：

机读区第一行字符(不包括1-5位)对应的数值序列为：

10、1、9、12、3、5、6、4、8、2、0、1、0、0、6、6、1、1、4、6、7、2、0、0、0

机读区第二行字符(不包括第8位、16-18位)对应的数值序列为：

7、9、0、8、2、6、4、2、9、0、4、2、2、7、0、0、0、0、0、0、0、0、0、0、0

按照731校验算法公式，加权求和后：

Sum＝10*7+1*3+9*1+12*7+3*3+5*1+6*7+4*3+8*1+2*7+1*1+0*7+0*3+6*1+6*7+1*3+1*1+4*7+6*3+7*1+2*7+7*3+9*1+0*7+8*3+2*1+6*7+4*3+2*1+9*7+0*3+4*1+2*7+2*3+7*1+0*7+0*3+0*1+0*7+0*3+0*1+0*7+0*3+0*1+0*7+0*3＝582则校验数值为：X_chesck＝Sum mod10＝582 mod 10＝2

所以，无法识别字符为数字字符2，因此可以将该识别结果补充完整。

实施例六

一种基于校验规则的OCR识别结果纠错设备，执行如实施例一至实施例五所述的方法。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于校验规则的OCR识别结果纠错方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，在所述步骤S3与所述步骤S4之间，还包括：根据检错结果，再次判断所述字符串类别是否正确，若字符串类别正确，则对识别结果进行纠错；否则舍弃该识别结果。

3.根据权利要求2所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，所述步骤S2具体为：根据识别结果中字符数量、类别标识符、字符所占行数中至少一者，判断字符串类别；所述类别标识符为字符串中预先设置的一个用于标识字符串类别的字段。

4.根据权利要求3所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，所述根据检错结果，再次判断所述字符串类别是否正确，具体为：若所述错误字符的个数超过第一阈值或不包含错误字符的字段个数低于第一阈值，则字符串类别不正确；否则字符串类别正确。

5.根据权利要求1所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，所述校验规则还规定：字符串中设置有至少一个校验字符；所述校验字符对应字符串中的若干个字符，并由所述若干个字符计算得到；

6.根据权利要求5所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，还包括：若校验字符对应的若干个字符中某一字符通过所述步骤S4进行纠错，则利用校验字符对所述纠错后的字符进行检错。

7.根据权利要求5所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，所述计算校验字符，以公式表达为：

X_check＝Sum mod 10

式中：X₁,X₂,X₃,…,X_n为对所述校验字符对应n个字符进行赋值得到的n个数值；Sum表示所述n个数值的加权叠加值，X_check为校验字符。

8.根据权利要求7所述的一种基于校验规则的OCR识别结果纠错方法，其特征在于，还包括，若识别结果中某一校验字符对应的若干个字符中存在数字类型的无法识别字符，则根据校验字符和所述公式逆推无法识别字符。

9.一种基于校验规则的OCR识别结果纠错设备，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行如下步骤：