CN113704403A

CN113704403A - 基于词库的ocr语义校正方法、系统、介质、设备、终端

Info

Publication number: CN113704403A
Application number: CN202110984517.9A
Authority: CN
Inventors: 廖伟; 石珺; 李志鹏; 郭认飞
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2021-11-26

Abstract

本发明公开一种基于词库的OCR语义校正方法、系统、介质、设备、终端，涉及语义网络技术领域。过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果；分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词，最终对应得到5组嫌疑词，每组嫌疑词会有1个或多个嫌疑词；按照置信度顺序从高到低的顺序，分别对5组嫌疑词和词库进行匹配，分别计算匹配距离，匹配距离采用编辑距离评估；以匹配距离最小的结果作为结果输出。本发明结合字符识别结果top5和词库，精准定位识别错误字符，有针对性地对识别错误字符进行高效率纠错，保证识别结果的语义正确性。

Description

基于词库的OCR语义校正方法、系统、介质、设备、终端

技术领域

本发明属于语义网络技术领域，尤其涉及一种基于词库的OCR语义校正方法、系统、接收用户输入程序存储介质、计算机设备、信息数据处理终端，可应用于人工智能、深度学习、计算机图像视觉。

背景技术

OCR(Optical Character Recognition)技术在对印刷质量较好的文本的识别上已经基本成熟，市面上有些软件对这些文本的单字识别率可以达到非常高。但对于一些印刷质量较低或字迹模糊的文本，OCR的单字识别率则会明显下降，必须依靠后处理技术来提高全文的整体识别率。目前后处理技术中的较为常用并且有效的主要有两种方式，一种方式是基于词库的匹配技术，这种技术对于双字词或多字词的识别有良好的效果，但无法对错误词的精准定位及纠错，导致效率低。另一种方式是基于自然语言处理(NaturalLanguange Process简称NLP)技术，适用于检测错误词，但难于预测正确词容易出现误纠错。

目前，在自然语言处理领域，现有的语言模型通常依赖于机器学习算法。机器学习的本质是预测；在通过大量的训练数据集对机器学习模型进行训练，得到自然语言处理模型后，就能够将待处理数据输入至训练好的自然语言处理模型，获得与待处理数据对应的预测结果。

字符分割和字符识别是光学字符识别(英文全称：Optical CharacterRecognition，英文缩写：OCR)技术中最重要的两个方面，这两部分直接影响到字符识别的效果和结果，在OCR技术中需要将分割好的字符进行行方向上的排序后呈现给用户，因此字符的行方向排序技术会直接影响到呈现给用户观看的识别效果。但是当前对于OCR的分行技术主要是基于分割后字符间距来对字符进行简单的分行。

现有技术中依据分割后的字符间距来进行字符的合并和拆分，当不同格式的字符进行排版后，拍摄到的每行字符在页面中有很大倾斜等情况发生时，对页面上中的字符识别存在较大的误差，并且在后续利用识别结果进行语义分析时也很难达到很高的准确性。另外，现有技术中对字符分行是根据字符间距实现的，但随着环境变化在把字符块组合成行时有很大可能会被其它字符所影响，从而会影响最终所给出的识别效果。

再者现有技术公开：基于自然语言处理技术的语义校正方法；基于上下文语义词库的OCR识别方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)常见的词匹配技术需要对识别的句子种所有的词汇进行匹配，没有针对性盲目纠错效率低；

(2)基于自然语言处理技术的语义校正方法适合于检测错误词，难于预测正确词容易出现误纠错；

(3)基于自然语言处理技术的语义校正方法需要大量标注预料，难于实现。

解决以上问题及缺陷的难度为：

需要保证一份完整的中文词汇库。

解决以上问题及缺陷的意义为：意义在于对识别出来的文字进行错别字过滤后，能利用完整的中文词汇库对错别字的上下文组合的嫌疑词进行匹配，匹配出最合适的词汇，达到纠错的功能。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种基于词库的OCR语义校正方法、系统、接收用户输入程序存储介质、计算机设备、信息数据处理终端。所述技术方案如下：

根据本发明公开实施例的第一方面，提供一种基于词库的OCR语义校正方法，包括：

使用字符识别结果置信度识别字符错误位置，然后结合字符识别结果和词库进行精准纠错。

在本发明一实施例中，所述使用字符识别结果置信度识别字符错误位置包括：

C₁、C₂…C_n为待识别字符序列，定义字符识别置信度阈值0.4，当字符C_i识别置信度小于阈值0.4时，判定该字符错误。

在本发明一实施例中，所述结合字符预测结果和词库进行精准纠错包括：

取该字符置信度前5的结果，分别提取5种结果和上下文组成的嫌疑词，按置信度从高到低的顺序分别与词库进行匹配，匹配距离最小的结果作为字符C_i的识别结果输出。

在本发明一实施例中，所述基于词库的OCR语义校正方法具体包括：

步骤一，根据字符识别模型预测的字符置信度过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果，即置信度前5的字符。这里的作用是可以辅助定位出可能(大概率)错误的字符，有针对性的纠错；

步骤二，分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词，嫌疑词的提取是结合上下文，提取单字词或多字词，最终对应得到5组嫌疑词，每组嫌疑词会有1个或多个嫌疑词；

步骤三，按照置信度顺序从高到低的顺序，分别对5组嫌疑词和词库进行匹配，分别计算匹配距离，匹配距离采用编辑距离评估，对每组嫌疑词的每个嫌疑词在词汇库里查找最小编辑距离的词，然后对该组词所有词的最小编辑距离求和作为改组词的匹配距离；

步骤四，以匹配距离最小的结果作为结果输出，如果匹配距离相同，则以置信度高的结果作为输出。

在本发明一实施例中，所述步骤二中，嫌疑词由置信度小于阈值0.4的字符和上下文组成。

在本发明一实施例中，所述步骤四后，重复步骤二～步骤四，直至置信度小于阈值0.4的所有字符都纠正一遍。

根据本发明公开实施例的第二方面，提供一种基于词库的OCR语义校正系统包括：

过滤模块，用于过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果；

提取嫌疑词模块，用于分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词，嫌疑词是由该字符和上下文组成，最终对应得到5组嫌疑词，每组嫌疑词会有1个或多个嫌疑词；

匹配模块，用于按照置信度顺序从高到低的顺序，分别对5组嫌疑词和词库进行匹配，分别计算匹配距离，匹配距离采用编辑距离评估；

输出模块，用于以匹配距离最小的结果作为结果输出，如果匹配距离相同，则以置信度高的结果作为输出；

字符循环纠正模块，用于重复校正，直至置信度小于阈值0.4的所有字符都纠正一遍。

根据本发明公开实施例的第三方面，提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述基于词库的OCR语义校正方法。

根据本发明公开实施例的第四方面，提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

步骤1，过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果；

步骤2，分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词，最终对应得到5组嫌疑词，每组嫌疑词会有1个或多个嫌疑词；

步骤3，按照置信度顺序从高到低的顺序，分别对5组嫌疑词和词库进行匹配，分别计算匹配距离，匹配距离采用编辑距离评估；

步骤4，以匹配距离最小的结果作为结果输出，如果匹配距离相同，则以置信度高的结果作为输出；

步骤5，重复步骤2～步骤4，直至置信度小于阈值0.4的所有字符都纠正一遍。

根据本发明公开实施例的第五方面，提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述基于词库的OCR语义校正方法。

本发明公开的实施例提供的技术方案可以包括以下有益效果：

本发明结合字符预测结果top5和词库，精准定位识别错误字符，有针对性地对识别错误字符进行高效率纠错，保证识别结果的语义正确性。如下表1。

表1对识别错误字符进行纠错

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的基于词库的OCR语义校正方法流程图。

图2是本发明实施例提供的基于词库的OCR语义校正系统示意图。

图中：1、过滤模块；2、提取嫌疑词模块；3、匹配模块；4、输出模块；5、字符循环纠正模块。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本发明公开实施例所提供的基于词库的OCR语义校正方法包括：

使用字符识别结果置信度(即预测是哪个字符时softmax输出的概率值，下同)来辅助定位并识别字符错误位置，然后结合字符预测结果top5和词库进行精准纠错。

假设C1、C2…Cn为待识别字符序列，定义字符识别置信度阈值0.4，当字符Ci识别置信度(置信度top1)小于阈值0.4时，判定该字符错误，然后取该字符置信度前5的结果，分别提取5种结果和上下文组成的嫌疑词，按置信度从高到低的顺序分别与词库进行匹配，匹配距离最小的结果作为字符C_i的识别结果输出。

具体地，如图1所示，本发明公开实施例所提供的基于词库的OCR语义校正方法包括：

S101，过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果；

S102，分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词，嫌疑词是由该字符和上下文组成，最终对应得到5组嫌疑词，每组嫌疑词会有1个或多个嫌疑词；

S103，按照置信度顺序从高到低的顺序，分别对5组嫌疑词和词库进行匹配，分别计算匹配距离，匹配距离采用编辑距离评估；

S104，以匹配距离最小的结果作为结果输出，如果匹配距离相同，则以置信度高的结果作为输出；

S105，重复步骤S102、S103、S104，直至置信度小于阈值0.4的所有字符都纠正一遍。

如图2所示，本发明公开实施例所提供的基于词库的OCR语义校正系统包括：

过滤模块1，用于过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果；

提取嫌疑词模块2，用于分别对置信度小于阈值0.4的字符的5种结果提取嫌疑词，嫌疑词是由该字符和上下文组成，最终对应得到5组嫌疑词，每组嫌疑词会有1个或多个嫌疑词；

匹配模块3，用于按照置信度顺序从高到低的顺序，分别对5组嫌疑词和词库进行匹配，分别计算匹配距离，匹配距离采用编辑距离评估；

输出模块4，用于以匹配距离最小的结果作为结果输出，如果匹配距离相同，则以置信度高的结果作为输出；

字符循环纠正模块5，用于重复校正，直至置信度小于阈值0.4的所有字符都纠正一遍。

通过上述方案，本发明精准定位出错位置，有针对性的进行词库匹配，提升了纠错准确率和效率，降低了误纠错率。

下面结合实验对比数据对本发明的积极效果作进一步描述。

本发明与现有技术对比具有以下优点，如下表2。

表2本发明与现有技术效率、误纠率、正确率对比

	效率(FPS)	误纠率	正确率
				本方法	1.45	0.48％	97.23％
NLP方法	0.83	1.55％	95.88％
				词匹配方法	1.38	0.78％	96.68

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims

1.一种基于词库的OCR语义校正方法，其特征在于，所述基于词库的OCR语义校正方法包括：

2.根据权利要求1所述的基于词库的OCR语义校正方法，其特征在于，所述使用字符识别结果置信度识别字符错误位置包括：

3.根据权利要求1所述的基于词库的OCR语义校正方法，其特征在于，所述结合字符识别结果和词库进行精准纠错包括：

取该字符置信度前5的结果，分别提取5种结果和上下文组成嫌疑词，按置信度从高到低的顺序分别与词库进行匹配，匹配距离最小的结果作为字符C_i的识别结果输出。

4.根据权利要求1所述的基于词库的OCR语义校正方法，其特征在于，所述基于词库的OCR语义校正方法具体包括：

步骤一，根据字符识别模型预测的字符置信度过滤出所有字符识别置信度小于阈值0.4的字符，每个字符记录前5的结果，所述前5的结果为置信度前5的字符；

5.根据权利要求4所述的基于词库的OCR语义校正方法，其特征在于，所述步骤二中，嫌疑词由置信度小于阈值0.4的字符和上下文组成。

6.根据权利要求4所述的基于词库的OCR语义校正方法，其特征在于，所述步骤四后，重复步骤二～步骤四，直至置信度小于阈值0.4的所有字符都纠正一遍。

7.一种实施权利要求1～6任意一项所述基于词库的OCR语义校正方法的基于词库的OCR语义校正系统，其特征在于，所述基于词库的OCR语义校正系统包括：

8.一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行所述权利要求1～6任意一项所述基于词库的OCR语义校正方法。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

10.一种信息数据处理终端，其特征在于，所述信息数据处理终端用于实现如权利要求1～6任意一项所述基于词库的OCR语义校正方法。