CN110008960A

CN110008960A - 一种检测字符片段完整性的方法及终端

Info

Publication number: CN110008960A
Application number: CN201910247364.2A
Authority: CN
Inventors: 郝占龙; 林玉玲; 陈文传; 杜保发; 庄国金
Original assignee: Xiamen Shang Ji Network Technology Co Ltd
Current assignee: Xiamen Shang Ji Network Technology Co Ltd
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2019-07-12
Anticipated expiration: 2039-03-29
Also published as: CN110008960B

Abstract

本发明涉及一种检测字符片段完整性的方法及终端，属于数据处理领域。本发明通过获取字符片段在图像中的第一坐标信息；根据所述第一坐标信息计算得到第二坐标信息，以使所述第二坐标信息对应的区域范围大于所述第一坐标信息对应的区域范围；根据预设的目标检测算法检测与所述第二坐标信息对应的区域范围内的单字符，得到单字符的坐标信息；根据一所述单字符的坐标信息统计一单字符的像素点个数，得到第一像素点个数；统计在所述第一坐标信息对应的区域范围内，与所述一单字符对应的像素点个数，得到第二像素点个数；若所述第二像素点个数与所述第一像素点个数的比值大于预设的阈值，则标记所述一单字符的信息完整。实现提高OCR识别的准确度。

Description

一种检测字符片段完整性的方法及终端

技术领域

本发明涉及一种检测字符片段完整性的方法及终端，属于数据处理领域。

背景技术

随着科学技术的发展，以及电子化的需求，越来越多的光学图像需要进行文本识别录入计算机中。在财税、经济侦查等领域，工作人员需要花费大量时间仔细录入票据信息，并且繁琐重复的录入工作极易出现错误，为了减少工作人员的繁琐录入工作和错误的发生，基于OCR识别的录入算法变得越来越重要。

虽然目前很多OCR识别准确率很高，甚至准确率可达99％，但是在税务等领域，这样的错误量是无法容忍的，错误发生点的不确定，使得OCR无法预先得知会在什么位置识别错误，识别完成后并不知道所识别的结果是否是真实值。为了达到高于99.95％的精度要求，不得不使用人工进行二次、甚至三次的信息录入核对工作。

发明内容

本发明所要解决的技术问题是：如何提高OCR识别的准确度。

为了解决上述技术问题，本发明采用的技术方案为：

一种检测字符完整性的方法，包括：

获取字符片段在图像中的坐标信息，得到第一坐标信息；所述坐标信息包括所述字符片段的四个顶点坐标；

根据所述第一坐标信息计算得到第二坐标信息，以使所述第二坐标信息对应的区域范围大于所述第一坐标信息对应的区域范围；

根据预设的目标检测算法检测与所述第二坐标信息对应的区域范围内的单字符，得到单字符的坐标信息；

根据一所述单字符的坐标信息统计一单字符的像素点个数，得到第一像素点个数；

统计在所述第一坐标信息对应的区域范围内，与所述一单字符对应的像素点个数，得到第二像素点个数；

若所述第二像素点个数与所述第一像素点个数的比值大于预设的阈值，则标记所述一单字符的信息完整。

优选地，根据所述第一坐标信息计算得到第二坐标信息，以使所述第二坐标信息对应的区域范围大于所述第一坐标信息对应的区域范围，具体为：

获取预设的宽度；

所述第一坐标信息中的四个顶点坐标围成一矩形，得到第一矩形；

将所述第一矩形的两侧分别扩展一所述预设的宽度，得到第二矩形；

所述第二坐标信息包括所述第二矩形的四个顶点坐标。

优选地，获取预设的宽度，具体为：

获取与所述字符片段对应的字符类型；

获取与所述字符类型对应的宽度，得到所述预设的宽度。

优选地，还包括：

获取所述第一坐标信息范围内，包含所述一单字符所有像素点的最小矩形的四个顶点坐标，得到第三坐标信息；

发送所述第三坐标信息至OCR识别引擎，以使所述OCR识别引擎识别所述图像中与所述第三坐标信息对应的区域。

本发明还提供一种检测字符完整性终端，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

获取预设的宽度；

所述第二坐标信息包括所述第二矩形的四个顶点坐标。

优选地，获取预设的宽度，具体为：

获取与所述字符片段对应的字符类型；

获取与所述字符类型对应的宽度，得到所述预设的宽度。

优选地，还包括：

本发明具有如下有益效果：

1、致使现有技术的OCR识别准确度难以超过99％的一大原因在于，上级字符片段分割系统定位偏差导致分割的字段内容不完整。例如，在图像OCR识别过程中，通常是先将图像按字段分割为若干个字符片段，再分别对每一字符片段进行OCR识别。若分割得到的字符片段不完整，例如在字符片段中位于首位或末位的字符不完整，遗漏部分像素点，那么OCR根据一个不完整的特征向量得到的识别结果必然准确度低。上级字符片段分割系统对图像进行字符片段分割的步骤包括，检测图像中各字段的位置信息，生成一个能够包含一字段所有像素点的最小矩形，将该最小矩形的四个顶点坐标信息发送给下级系统，以便单字符分割系统根据该坐标信息从图像中定位到与该字段对应的字符片段，并对该字符片段进行单字符分割，从而使得OCR识别引擎对单字符片段进行OCR 识别。本发明提供一种检测字符片段完整性的方法及终端，将上级字符片段分割系统提供的字符片段坐标信息扩大范围，针对扩大后的坐标信息对应的区域进行单字符目标检测，通过计算一单字符在上级字符片段分割系统提供的坐标信息对应区域内的像素个数和该单字符总像素个数的比值判断上级字符片段分割系统的分割结果是否存遗漏字符信息的情况，从而可及时纠正错误的分割结果，将完整的字符信息输入下级OCR识别引擎，以提高OCR识别的准确度。同时，本发明是在对字符片段进行单字符分割时进行字符信息完整性的检测，而在OCR识别之前将字符片段进行单字符分割是一个必要的步骤，因此，本发明只是在原有OCR识别步骤中自然地融入坐标区域扩展和像素点个数比较操作，无需耗费太多的时间，效率高。

2、进一步地，本发明将从上层字符片段分割系统获取的坐标信息对应的区域两侧横向扩展预设的宽度，能够有效检测出上层字符片段在分割过程中首末位的字符是否存在少切偏旁部首的情况，从而保证了输入至OCR识别引擎的单字符信息完整，有利于提高OCR识别的准确度。

3、进一步地，字符类型通常包括汉字、英文和数字等，不同字符类型的字符宽度不同，本发明根据字符类型动态设置区域扩展的宽度，使得扩展的宽度能够有效控制在一个字符宽度范围内，以免扩展太多区域将本不属于该字符片段的字符也输入至OCR识别引擎进行识别操作。

4、进一步地，当确认一单字符信息完整时，将该单字符的坐标信息输入至 OCR识别引擎，以便OCR识别引擎根据单字符的坐标信息在图像的对应区域进行识别操作，根据完整单字符信息得到的OCR识别结果具有较高的准确度。

附图说明

图1为本发明提供的一种检测字符片段完整性的方法的具体实施方式的流程框图；

图2为本发明提供的图像示意图；

图3为本发明提供的实施例的第二矩形示意图；

图4为本发明提供的实施例的字符片段分割示意图；

图5为本发明提供的一种检测字符片段完整性的终端的具体实施方式的结构框图；

标号说明：

1、第一矩形；2、第二矩形；3、处理器；4、存储器。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

请参照图1至图5，

本发明的实施例一为：

如图1所示，本实施例提供一种检测字符完整性的方法，包括：

S1、获取字符片段在图像中的坐标信息，得到第一坐标信息；所述坐标信息包括所述字符片段的四个顶点坐标。

例如，如图2所示，所述图像为一票据。在对票据进行识别的过程中，先将票据分割成若干个字符片段，再分别对每一字符片段进行OCR识别。图2中的字符片段即是对票据进行字段分割的结果。字符片段如第一矩形1围成的区域所示，包含收款人名称“湖南省第一有限公司”。字符片段在图像中的坐标信息包括图2中第一矩形1的四个顶点坐标。其中，左上角坐标(20,80)，左下角坐标(20,70)，右上角坐标(40,80)，右下角坐标(40,70)。

S2、根据所述第一坐标信息计算得到第二坐标信息，以使所述第二坐标信息对应的区域范围大于所述第一坐标信息对应的区域范围。具体为：

S21、获取预设的宽度。

优选地，获取与所述字符片段对应的字符类型；获取与所述字符类型对应的宽度，得到所述预设的宽度。

例如，若一字符片段中均为汉字，则所述预设的宽度为一个汉字的字符宽度；若一字符片段中均为字母，则所述预设的宽度为一个字母的字符宽度；若一字符片段中均为数字，则所述预设的宽度为一个数字的字符宽度。

其中，字符类型通常包括汉字、英文和数字等，不同字符类型的字符宽度不同，本实施例根据字符类型动态设置区域扩展的宽度，使得扩展的宽度能够有效控制在一个字符宽度范围内，以免扩展太多区域将本不属于该字符片段的字符也输入至OCR识别引擎进行识别操作，造成整体字符片段识别结果错误。

S22、所述第一坐标信息中的四个顶点坐标围成一矩形，得到第一矩形。

例如，所述第一矩形1如图2所示。其并未完整包括“湖”字，“湖”字的三点水被遗漏，若将该字符片段输入至OCR识别引擎进行识别，则会将“湖”字误识别为“胡”字，降低了OCR识别的准确度。

S23、将所述第一矩形的两侧分别扩展一所述预设的宽度，得到第二矩形。

例如，第二矩形如图3所示，是由第一矩形的两侧分别扩展一个汉字的字符宽度得到的。与第一矩形相比，第二矩形多包含了“湖”字的三点水区域。

S24、所述第二坐标信息包括所述第二矩形的四个顶点坐标。

例如，一个汉字的字符宽度为5个像素点，则第二坐标信息所包含的四个顶点坐标分别为左上角坐标(15,80)，左下角坐标(15,70)，右上角坐标(45,80)，右下角坐标(45,70)。

其中，本实施例将从上层字符片段分割系统获取的坐标信息对应的区域两侧横向扩展预设的宽度，能够有效检测出上层字符片段在分割过程中首末位的字符是否存在少切偏旁部首的情况，从而保证了输入至OCR识别引擎的单字符信息完整，有利于提高OCR识别的准确度。

S3、根据预设的目标检测算法检测与所述第二坐标信息对应的区域范围内的单字符，得到单字符的坐标信息。

例如，所述目标检测算法用于检测单字符，根据该目标检测算法检测到单字符“湖”，“湖”字的坐标信息为能够包含“湖”字的所有像素点的最小矩形的四个顶点坐标。其中，左上角坐标为(19,80)，左下角坐标为(19,70)，右上角坐标为(24,80)，右下角坐标为(24,70)。

S4、根据一所述单字符的坐标信息统计一单字符的像素点个数，得到第一像素点个数。

例如，在左上角坐标为(19,80)，左下角坐标为(19,70)，右上角坐标为 (24,80)，右下角坐标为(24,70)围成的矩形区域内，像素点个数为40，即完整的“湖”字包含40个像素点。

S5、统计在所述第一坐标信息对应的区域范围内，与所述一单字符对应的像素点个数，得到第二像素点个数。

例如，如图2所示，“湖”字的三点水不在第一坐标信息对应的区域范围内，第二像素点个数只有36。

S6、若所述第二像素点个数与所述第一像素点个数的比值大于预设的阈值，则标记所述一单字符的信息完整。

优选地，所述预设的阈值为0.95。

例如，对票据进行字符片段分割的结果如图4所示，“湖”字的三点水有一半落入第一坐标信息对应的区域内。其第二像素点个数与第一像素点个数的比值为40/42＝0.95238，大于0.95。因“湖”字的三点水有一半落入第一坐标信息对应的区域中，不会影响OCR识别结果的正确性。

其中，当第二像素点个数与所述第一像素点个数的比值小于0.95时，说明在对票据进行分割字符片段的过程中位于字段首位或末位的单字符不完整，遗漏了重要的字符信息，若直接根据字符片段分割结果进行OCR识别，无法识别出正确的字符。

优选地，获取所述第一坐标信息范围内，包含所述一单字符所有像素点的最小矩形的四个顶点坐标，得到第三坐标信息；发送所述第三坐标信息至OCR 识别引擎，以使所述OCR识别引擎识别所述图像中与所述第三坐标信息对应的区域。

例如，获取第一坐标信息对应的区域内“湖”字的坐标信息，即左上角坐标(20,80)，左下角坐标(20,70)，右上角坐标(40,80)，右下角坐标(40,70) 所围成的矩形区域内，“湖”字像素点的坐标，左上角坐标(20,80)，左下角坐标(20,70)，右上角坐标(24,80)，右下角坐标(24,70)，OCR识别引擎识别图 3票据中该坐标信息对应区域，得到OCR识别结果“湖”。由于“湖”字只有三点水的部分像素点为落入第一坐标信息对应的区域，不影响OCR识别结果。

其中，当确认一单字符信息完整时，将该单字符的坐标信息输入至OCR识别引擎，以便OCR识别引擎根据单字符的坐标信息在图像的对应区域进行识别操作，根据完整单字符信息得到的OCR识别结果具有较高的准确度。本实施例使用上层字符分割系统的原始坐标信息(第一坐标信息)区域内包含“湖”像素的最小矩形坐标限定待识别字符的区域，而不根据扩展后的第二坐标信息得到更完整的待识别字符的坐标限定待识别字符的区域的原因在于，若根据扩展后的第二坐标信息进行字符分割，并将分割结果输入OCR识别引擎进行单字符识别，其扩展过程中极有可能会包含与当前字段无关的字符信息，从而造成识别结果错误。例如，如图2所示，当前待识别字段只包含“湖南省第一有限公司”，而扩展后的第二坐标信息对应区域可能为“人：湖南省第一有限公司”，将“人：”也送入OCR识别引擎识别得到的整体字段识别结果错误。

例如，如图2所示，“湖”字的第二像素点个数与第一像素点个数比值为 38/42＝0.904，小于0.95。若根据图2的字符片段将“胡”输入至OCR识别引擎进行识别，得到的OCR识别结果为“胡”字，与正确结果“湖”字不符。

优选地，若所述第二像素点个数与所述第一像素点个数的比值小于预设的阈值，则显示“OCR识别结果不可靠”的提示信息。

例如，图2对应的第一坐标信息为：左上角顶点坐标(21,80)，左下角坐标(21,70)，右上角坐标(40,80)，右下角坐标(40,70)，获取第一坐标信息对应的区域内“湖”字的坐标信息为左上角顶点坐标(21,80)，左下角顶点坐标(21,70)，右上角顶点坐标(24,80)，右下角顶点坐标(24,70)。图2中的“湖”字由于信息不完整被误识别为“胡”字，显示“OCR识别结果不可靠”的提示信息引起相关工作人员的注意，人工介入进行核查。

优选地，若所述第二像素点个数与所述第一像素点个数的比值小于预设的阈值，则：

获取所述第一坐标信息范围内，包含所述一单字符所有像素点的最小矩形的四个顶点坐标，得到第四坐标信息；

调用OCR识别引擎识别所述图像中与所述第四坐标信息对应的区域，得到第二OCR识别结果。

例如，图2的第二坐标信息为左上角顶点坐标(16,80)，左下角坐标(16,70)，右上角坐标(45,80)，右下角坐标(45,70)。第二坐标信息范围内的“湖”字坐标(第四坐标信息)为：左上角坐标为(19,80)，左下角坐标为(19,70)，右上角坐标为(24,80)，右下角坐标为(24,70)，包含了“湖”字的所有像素点。根据第四坐标信息得到的OCR识别结果具有较高的准确性。

综上所述，致使现有技术的OCR识别准确度难以超过99％的一大原因在于，上级字符片段分割系统定位偏差导致分割的字段内容不完整。例如，在图像OCR 识别过程中，通常是先将图像按字段分割为若干个字符片段，再分别对每一字符片段进行OCR识别。若分割得到的字符片段不完整，例如在字符片段中位于首位或末位的字符不完整，遗漏部分像素点，那么OCR根据一个不完整的特征向量得到的识别结果必然准确度低。上级字符片段分割系统对图像进行字符片段分割的步骤包括，检测图像中各字段的位置信息，生成一个能够包含一字段所有像素点的最小矩形，将该最小矩形的四个顶点坐标信息发送给下级系统，以便单字符分割系统根据该坐标信息从图像中定位到与该字段对应的字符片段，并对该字符片段进行单字符分割，从而使得OCR识别引擎对单字符片段进行OCR识别。本实施例提供一种检测字符片段完整性的方法及终端，将上级字符片段分割系统提供的字符片段坐标信息扩大范围，针对扩大后的坐标信息对应的区域进行单字符目标检测，通过计算一单字符在上级字符片段分割系统提供的坐标信息对应区域内的像素个数和该单字符总像素个数的比值判断上级字符片段分割系统的分割结果是否存遗漏字符信息的情况，从而可及时纠正错误的分割结果，将完整的字符信息输入下级OCR识别引擎，以提高OCR识别的准确度。同时，本实施例是在对字符片段进行单字符分割时进行字符信息完整性的检测，而在OCR识别之前将字符片段进行单字符分割是一个必要的步骤，因此，本实施例只是在原有OCR识别步骤中自然地融入坐标区域扩展和像素点个数比较操作，无需耗费太多的时间，效率高。

本发明的实施例二为：

如图5所示，本实施例提供一种检测字符片段完整性的终端，包括一个或多个处理器3及存储器4，所述存储器4存储有程序，并且被配置成由所述一个或多个处理器3执行以下步骤：

S21、获取预设的宽度。

S24、所述第二坐标信息包括所述第二矩形的四个顶点坐标。

优选地，所述预设的阈值为0.95。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种检测字符完整性的方法，其特征在于，包括：

2.根据权利要求1所述的检测字符完整性的方法，其特征在于，根据所述第一坐标信息计算得到第二坐标信息，以使所述第二坐标信息对应的区域范围大于所述第一坐标信息对应的区域范围，具体为：

获取预设的宽度；

所述第二坐标信息包括所述第二矩形的四个顶点坐标。

3.根据权利要求2所述的检测字符完整性的方法，其特征在于，获取预设的宽度，具体为：

获取与所述字符片段对应的字符类型；

获取与所述字符类型对应的宽度，得到所述预设的宽度。

4.根据权利要求1所述的检测字符完整性的方法，其特征在于，还包括：

5.一种检测字符完整性终端，其特征在于，包括一个或多个处理器及存储器，所述存储器存储有程序，并且被配置成由所述一个或多个处理器执行以下步骤：

6.根据权利要求5所述的检测字符完整性的终端，其特征在于，根据所述第一坐标信息计算得到第二坐标信息，以使所述第二坐标信息对应的区域范围大于所述第一坐标信息对应的区域范围，具体为：

获取预设的宽度；

所述第二坐标信息包括所述第二矩形的四个顶点坐标。

7.根据权利要求6所述的检测字符完整性的终端，其特征在于，获取预设的宽度，具体为：

获取与所述字符片段对应的字符类型；

获取与所述字符类型对应的宽度，得到所述预设的宽度。

8.根据权利要求5所述的检测字符完整性的终端，其特征在于，还包括：