CN112528980A

CN112528980A - Ocr识别结果纠正方法及其终端、系统

Info

Publication number: CN112528980A
Application number: CN202011484096.5A
Authority: CN
Inventors: 沈哲吉; 贾昌鑫
Original assignee: Beijing Thunisoft Information Technology Co ltd
Current assignee: Beijing Thunisoft Information Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-19
Anticipated expiration: 2040-12-16
Also published as: CN112528980B

Abstract

本申请公开了一种OCR识别结果纠正方法及其终端、系统。其中所述方法，包括：获取OCR识别结果；确定识别结果中的出错结果；纠正出错结果，生成最终的识别结果。通过对出错结果的纠正，可以实现对OCR识别结果的纠正。

Description

OCR识别结果纠正方法及其终端、系统

技术领域

本申请涉及字符校对技术领域，尤其涉及一种OCR识别结果纠正方法及其终端、系统。

背景技术

光学字符识别(OCR)技术，是指通过电子设备识别，检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成文字的过程；针对印刷体字符等采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成计算机文本格式。

在实现现有技术的过程中，发明人发现：

在中文手写体的识别结果中，仍然存在部分形体字被错误识别，特别是在中文手写体的识别结果中尤为突出。

现有的一些OCR识别结果纠正模型，都是对于中文印刷体识别结果进行纠正的。从现有的使用记录来看，对于约1000字的中文手写体内容进行OCR识别，其中出错的地方高达100到150处。这将很大程度影响到OCR的下游任务的处理。

这些中文识别结果纠正方法，很多都是依据一些比较简单的书写文法规则，编辑距离和无监督纠错模型，来实现对于字符相对简单的纠正。这些方法相对简单，忽略了字符在其整个文段中起到的语义表达意思。

此外，由于是中文手写体的OCR识别结果，其书写的语句容易偏向于口语化，表达形式多变，从而导致传统的基于字典的纠正方法，效果较差，字典构成难度较大。

因此，需要提供一种可以基于语义对OCR识别结果进行纠正的技术方案。

发明内容

本申请实施例提供一种对OCR识别结果进行纠正的技术方案，用以解决现有技术中OCR识别结果不准确，自动化识别程度低的问题。

本申请提供的一种OCR识别结果纠正方法，包括：

获取OCR识别结果；

确定识别结果中的出错结果；

纠正出错结果，生成最终的识别结果。

进一步的，在本申请提供的一种优选实施方式中，确定识别结果中的出错结果，具体包括：

筛选识别结果中可能出错的候选字符集；

根据候选字符集确定出错结果。

进一步的，在本申请提供的一种优选实施方式中，筛选识别结果中可能出错的候选字符集，具体包括：

筛选出识别结果中可能识别出错的第一中间结果；

根据第一中间结果得到候选字符集。

进一步的，在本申请提供的一种优选实施方式中，根据第一中间结果得到候选字符集，具体包括：

计算第一中间结果的双向概率值得到第二中间结果；

根据第二中间结果生成候选字符集。

进一步的，在本申请提供的一种优选实施方式中，计算第一中间结果的双向概率值得到第二中间结果，具体包括：

计算第一中间结果中每个位置的双向概率值；

筛选符合预设条件的双向概率值的位置集合得到第二中间结果。

进一步的，在本申请提供的一种优选实施方式中，根据第二中间结果生成候选字符集，具体包括：

通过深度学习模型，得到第二中间结果各个位置的候选字符集。

进一步的，在本申请提供的一种优选实施方式中，根据候选字符集确定出错结果，具体包括：

根据候选字符集计算概率最大组合解；

根据概率最大组合解确定出错结果。

进一步的，在本申请提供的一种优选实施方式中，根据候选字符集计算概率最大组合解，具体包括：

计算候选字符集的改写概率；

计算候选字符集的置信概率；

根据改写概率和置信概率计算概率最大组合解。

本申请还提供一种终端，所述终端被配置为可以执行权利要求1至8中任一项所述的方法。

本申请还提供一种OCR识别结果纠正系统，其特征在于，所述OCR识别结果纠正系统可以执行权利要求1至8中任一项所述的方法。

本申请提供的实施例，至少具有以下技术效果：

通过对出错结果的纠正，可以实现对OCR识别结果的纠正。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的OCR识别结果纠正方法的流程图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，为本申请实施例提供的OCR识别结果纠正方法，具体包括以下步骤：

S100：获取OCR识别结果。

OCR也就是光学字符识别，是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。例如：通过电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。

具体的，假设通过OCR把要识别的内容转化为字符集合，输入的识别结果为长度为n的字符w＝{w₁,w₂,...,w_n}以及其在该位置上的分布概率P＝{p₁,p₂,...,p_n}。

概率分布，是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验，则必须知道试验的全部可能结果及各种可能结果发生的概率，即随机试验的概率分布。如果试验结果用变量X的取值来表示，则随机试验的概率分布就是随机变量的概率分布，即随机变量的可能取值及取得对应值的概率。

S200：确定识别结果中的出错结果。

可以理解的是，在本申请提供的一种优选实施方式中，确定识别结果中的出错结果，具体包括：

筛选识别结果中可能出错的候选字符集；

根据候选字符集确定出错结果。

本申请设计了一种双向的组合评价方法。该方法从双向上考虑了可能需要修改的字符位置，同时也减少了后续步骤中需要产生的候选的数量，加快了后续模块的处理速度。筛选识别结果中可能出错的候选字符集，大大减少了后续步骤中需要用到的候选数量。

筛选出识别结果中可能识别出错的第一中间结果；

根据第一中间结果得到候选字符集。

具体的，判断识别结果中每个字符在该位置上的分布概率，如果识别结果中某个字符在对应位置的分布概率值低于设定的阈值，则把这个字符筛选出来，筛选出来的字符的位置构成一个位置集合。这个位置集合是筛选出来的识别结果中可能被识别出错的识别结果，这个结果就是上述所述第一中间结果。例如：初步可能出错位置

其中TH1为初步过滤概率值。

计算第一中间结果的双向概率值得到第二中间结果；

根据第二中间结果生成候选字符集。

可以理解的是，本申请使用多次筛选结构，构建BiPV双向概率数值，考虑了前后字符之间的连接关系，提高其预测错误命中的可能性，同时减少了后续算法需要产生的候选字符的规模，提高了后续模型的运行效率。

根据筛选出的第一中间结果，计算第一中间结果对应的双向概率值，可以继续筛选需要候选的字符集数量，经过对第一中间结果的双向概率值判断，可以继续减少需要的候选字符集的数量。

计算第一中间结果中每个位置的双向概率值；

具体的，计算第一中间结果中每个位置的双向概率值，例如：计算第一中间结果Pos中某个i位置上的字符的双向概率值BiPV_i。

双向概率值根据如下公式确定：

其中FT为事先构建好的正向转移概率矩阵，BT为事先构建好的反向转移概率。

具体的，筛选符合预设条件的双向概率值的位置集合得到第二中间结果，例如：计算得到所有位置上的双向概率值之后，对于位置进行筛选构建

其中，TH₂为最终过滤值。

深度学习是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的人工智能目标。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。

具体的，将第二中间结果Pos’和W输入到预先构建好的深度学习模型当中，得到Pos’中对应的前k个字符集合

其中

表示，在第i这个位置上，第K个候选字符。

本申请利用基于语义信息的深度学习模型，得到在第二中间结果Pos’集合当中，各个位置基于语义信息的可能的候选字符集。例如：使用基于Transformer结构的多头注意力机制的深度学习模型，使预测的字符能够更加符合上下文的语义信息。该类模型，能够更好的利用上下文中的语义信息，例如：“南京市长江大桥”这种句子，模型能够根据上下文信息，判断，是“南京市/长江大桥”还是，“南京市长/江大桥”。而这种识别功能，无论是预先匹配规则还是计算TOPK的组合概率，很难实现的。这将有利于构建的候选字符，考虑上下文语义信息，产生的候选字符集更加合理。

S300：纠正出错结果，生成最终的识别结果。

本申请使用多种方法，对于需要修改位置的字符候选集进行综合考虑，能同时考虑OCR识别的字符信息和基于语义的字符信息。

可以理解的是，在本申请提供的一种优选实施方式中，根据候选字符集确定出错结果，具体包括：

根据候选字符集计算概率最大组合解；

根据概率最大组合解确定出错结果。

对于候选字符集的字符的选择。许多模型都直接使用产生的候选的字符集中概率数值最大的字符进行替代。这种方法，在很多实际使用情况下，忽略了原有的OCR识别上来的字符结构信息。为此，本方法在进行字符的修改前，会经过综合考虑才进行修改。

具体的，在本申请提供的一种优选实施方式中，根据候选字符集计算概率最大组合解，具体包括：

计算候选字符集的改写概率；

计算候选字符集的置信概率；

根据改写概率和置信概率计算概率最大组合解。

对于候选字符集的字符的选择。使用一种基于字符字形和编辑距离的方法，构建字符修改概率RP。然后结合候选字符在候选集当中的置信概率CP的分布情况，综合考虑是否对字符做修改。

置信概率是用来衡量统计推断可靠程度的概率。其意义是指在进行统计推断时被估参数包含在某一范围内的概率，也叫可信度。

要计算候选字符集计算概率最大组合解，首先需要计算每个位置上的字符改写概率RP，公式是

其中TreeDist为树形距离计算，EditDist为编辑距离计算。其中α和β为预先设定权重参数。其次，字符在候选集中的分布，计算得到其置信概率。例如：需要构建置信概率

最后，根据改写概率和置信概率计算最大组合解

以上为本申请实施例提供的OCR识别结果纠正方法，基于同样的思路，本申请实施例还提供一种终端，所述终端被配置为可以执行以下方法：

获取OCR识别结果；

确定识别结果中的出错结果；

纠正出错结果，生成最终的识别结果。

进一步的，在本申请提供的一种优选实施方式中，所述终端被配置为可以执行以下方法：

获取OCR识别结果；

筛选识别结果中可能出错的候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

根据第一中间结果得到候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果的双向概率值得到第二中间结果；

根据第二中间结果生成候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

筛选符合预设条件的双向概率值的位置集合得到第二中间结果；

根据第二中间结果生成候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

通过深度学习模型，得到第二中间结果各个位置的候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

根据候选字符集计算概率最大组合解；

根据概率最大组合解确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

计算候选字符集的改写概率；

计算候选字符集的置信概率；

根据改写概率和置信概率计算概率最大组合解；

根据概率最大组合解确定出错结果；

纠正出错结果，生成最终的识别结果。

本申请还提供一种OCR识别结果纠正系统，其特征在于，所述OCR识别结果纠正系统可以执行以下方法：

获取OCR识别结果；

确定识别结果中的出错结果；

纠正出错结果，生成最终的识别结果。

进一步的，在本申请提供的一种优选实施方式中，所述OCR识别结果纠正系统可以执行以下方法：

获取OCR识别结果；

筛选识别结果中可能出错的候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

根据第一中间结果得到候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果的双向概率值得到第二中间结果；

根据第二中间结果生成候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

根据第二中间结果生成候选字符集；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

根据候选字符集确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

根据候选字符集计算概率最大组合解；

根据概率最大组合解确定出错结果；

纠正出错结果，生成最终的识别结果。

获取OCR识别结果；

筛选出识别结果中可能识别出错的第一中间结果；

计算第一中间结果中每个位置的双向概率值；

计算候选字符集的改写概率；

计算候选字符集的置信概率；

根据改写概率和置信概率计算概率最大组合解；

根据概率最大组合解确定出错结果；

纠正出错结果，生成最终的识别结果。

本申请提供的实施例，至少具有以下技术效果：

通过对出错结果的纠正，可以实现对OCR识别结果的纠正。根据本申请实施例的OCR识别结果纠正方法，针对OCR的识别出错结果进行纠正，由此可降低OCR的识别错误率，可以使识别结果更加准确，提高用户体验。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种OCR识别结果纠正方法，其特征在于，包括：

获取OCR识别结果；

确定识别结果中的出错结果；

纠正出错结果，生成最终的识别结果。

2.根据权利要求1所述的方法，其特征在于，确定识别结果中的出错结果，具体包括：

筛选识别结果中可能出错的候选字符集；

根据候选字符集确定出错结果。

3.根据权利要求2所述的方法，其特征在于，筛选识别结果中可能出错的候选字符集，具体包括：

筛选出识别结果中可能识别出错的第一中间结果；

根据第一中间结果得到候选字符集。

4.根据权利要求3所述的方法，其特征在于，根据第一中间结果得到候选字符集，具体包括：

计算第一中间结果的双向概率值得到第二中间结果；

根据第二中间结果生成候选字符集。

5.根据权利要求4所述的方法，其特征在于，计算第一中间结果的双向概率值得到第二中间结果，具体包括：

计算第一中间结果中每个位置的双向概率值；

6.根据权利要求4所述的方法，其特征在于，根据第二中间结果生成候选字符集，具体包括：

7.根据权利要求2所述的方法，其特征在于，根据候选字符集确定出错结果，具体包括：

根据候选字符集计算概率最大组合解；

根据概率最大组合解确定出错结果。

8.根据权利要求7所述的方法，其特征在于，根据候选字符集计算概率最大组合解，具体包括：

计算候选字符集的改写概率；

计算候选字符集的置信概率；

根据改写概率和置信概率计算概率最大组合解。

9.一种终端，其特征在于，所述终端被配置为可以执行权利要求1至8中任一项所述的方法。

10.一种OCR识别结果纠正系统，其特征在于，所述OCR识别结果纠正系统可以执行权利要求1至8中任一项所述的方法。