CN112085011A

CN112085011A - 一种ocr识别结果纠错方法、装置及存储介质

Info

Publication number: CN112085011A
Application number: CN202011034460.8A
Authority: CN
Inventors: 李靖; 方航; 程林鹏
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-15

Abstract

本说明书实施例提供一种OCR识别结果纠错方法、装置及存储介质，所述方法包括：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出，从而提高OCR识别的准确率。

Description

一种OCR识别结果纠错方法、装置及存储介质

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种OCR识别结果纠错方法、装置及存储介质。

背景技术

随着科技的不断发展，自动智能化技术、人工智能技术给人们的生活带来了很多的便利。而在信息获取过程中，语言和文字更是我们获取信息最基本、最重要的途径。一旦文字信息以图片的形式表现出来，就对我们获取和处理文字平添了很多麻烦。这一方面表现为数字世界中由于特定原因被存储称图片格式的文字；另一方面是我们在现实生活中看到的所有物理形态的文字。

在图像识别技术领域，有一个非常重要的细分领域—OCR(Optical CharacterRecognition，光学字符识别)，是指借助光学设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，就是计算机对文字的阅读。目前，对于以图片表现文字或者现实生活中看到的所有物理形态的文字，可以借助OCR技术将这些文字和信息提取出来，并转换为电子文档。

但是在OCR识别过程中，扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度，字体规范度等)、内容布局(文字的排列情况，比普通文本与表格文本和票据)的差异，会将某些字符识别错误，使得OCR识别的实际效果不总是让人满意。

因此，现有技术中的OCR识别技术的识别准确率不高。

发明内容

本说明书实施例的目的是提供一种OCR识别结果纠错方法、装置及存储介质，以对OCR的识别结果进行纠正，提高OCR识别的准确率。

为解决上述问题，本说明书实施例提供一种OCR识别结果纠错方法，所述方法包括：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

为解决上述问题，本说明书实施例还提供一种OCR识别结果纠错装置，所述装置包括：识别模块，用于对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；确定模块，用于根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；组合模块，用于按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；纠错模块，用于对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

为解决上述问题，本说明书实施例还提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序以实现：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

为解决上述问题，本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

由以上本说明书实施例提供的技术方案可见，本说明书实施例中，可以对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。本说明书实施例提供的方法，将语义识别纠错引入OCR识别结果纠错中，可以实现对OCR的识别结果进行纠正，提高OCR识别的准确率。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种OCR识别结果纠错方法的流程图；

图2为本说明书实施例BERT模型的整体架构示意图；

图3为本说明书实施例BERT模型输入和输出示意图；

图4为本说明书实施例一种电子设备的功能结构示意图；

图5为本说明书实施例一种OCR识别结果纠错装置的功能结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

为解决上述问题，现有的方法中，提出了一种基于词典的纠错方法。具体的，获取文字图像，通过所述文字图像经过OCR识别获得初始的识别结果，构建字典；将初始的识别结果与字典中的单词进行对比，当初始的识别结果中的单词位于字典中时，取字典中相似度最高的单词进行替换，从而完成对OCR识别结果的纠错。但该方法过去依赖词典的纠错能力，要求对词典前期进行大量的训练，费时费力且无法确保精度。

考虑到如果在OCR识别后，生成包括备选字符的字符序列，然后分别使用备选字符进行替换，得到新的字符序列，对每个新的字符序列进行评分，将评分高的序列作为正确序列，则有望避免依赖词典的纠错能力，要求对词典前期进行大量的训练的问题，以对OCR的识别结果进行纠正，提高OCR识别的准确率。为此，本说明书实施例提供了一种OCR识别结果纠错方法。

请参阅图1。本说明书实施例提供一种OCR识别结果纠错方法。在本说明书实施例中，执行所述OCR识别结果纠错方法的主体可以是具有逻辑运算功能的电子设备，所述电子设备可以是服务器。所述服务器可以是具有一定运算处理能力的电子设备。其可以具有网络通信单元、处理器和存储器等。当然，所述服务器并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。所述服务器还可以为分布式服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的系统。或者，服务器还可以为若干服务器形成的服务器集群。所述方法可以包括以下步骤。

S110：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性。

在一些实施例中，所述待识别图像可以为纸质文件，如各种票据、报刊、书籍、文稿及其他印刷品等文件。所待识别图像也可以是电子文件，如格式为pdf、jpg、png等的图片文件。若所述待识别图像为纸质文件，在进行OCR识别之前，可以通过扫描仪、数码相机等设备对所述纸质文件进行扫描，得到对应的电子文件，然后将电子文件导入服务器中。

在一些实施例中，由于在OCR识别过程中，扫描效果的好坏、纸质文件本身的品质(别如印刷质量、字体清晰度，字体规范度等)、内容布局(文字的排列情况，比普通文本与表格文本和票据)的差异，会将某些字符识别错误，使得OCR识别的实际效果不总是让人满意。因此，为提高OCR识别的准确性，在对待识别图像进行OCR识别之前，还可以对所述待识别图像进行预处理；相应的，对预处理后的待识别图像进行OCR识别。

在一些实施例中，所述预处理可以包括二值化、噪声去除和倾斜校正中的至少一种。具体的，所述二值化是指，对于摄像头拍摄的图片，大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，可以简单的分为前景与背景，为了让计算机更快的，更好的识别文字，可以先对彩色图进行处理，使图片只包含前景信息与背景信息，可以简单的定义前景信息为黑色，背景信息为白色。

图像信号在产生、传输和记录过程中，经常会受到各种噪声的干扰，由于其严重影响了图像的视角效果，因此，采用适当的方法减少噪声，可以提供图像的清晰度。所述噪声去除的方法可以包括均值滤波、中值滤波、小波变换滤波、维纳滤波以及形态学滤波等。在一些实施例中，可以采用上述任意一种或多种方式对待识别图像进行噪声去除。

由于扫描和拍摄过程涉及人工操作，输入计算机的待识别图像或多或少都会存在一些倾斜，在对图像中印刷体字符进行识别处理前，就需要进行图像方向检测，并校正图像方向。具体的，可以通过霍夫变换的方法对待识别图片进行校正。霍夫变换主要是利用图片所在的空间和霍夫空间之间的变换，将图片所在的直角坐标系中具有形状的曲线或直线映射到霍夫空间的一个点上形成峰值，从而将检测任意形状的问题转化成了计算峰值的问题。即在图片所在的直角坐标系的一个直线，转换到霍夫空间便成了一点，并且是由多条直线相交而成，统计的峰值也就是该相交点的橡胶线的条数。

在一些实施例中，可以通过对待识别图像进行OCR识别，获得备选字符序列。具体的，首先可以抽取所述待识别图像中各个字符对应的字符特征。所述字符特征可以包括统计学特征，如所述待识别图像中文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量。所述字符特征还可以包括结构特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征等。在在抽取所述待识别图像中各个字符对应的字符特征后，可以将这些字符特征与特征数据库中存储的字符对应的字符特征进行比对，获得这些字符特征与特征数据库中存储的字符对应的字符特征的相似度，将特征数据库中与这些字符特征相似度大于预设值的多个字符特征对应字符作为候选字符。举例来说，对于待识别图像中包括一句话“武汉是一座美丽的城市”，经过OCR识别，可以获得待识别图像中各个字符的候选字符。例如，对于字符“武”，根据其字符特征，可以获得候选字符“武”、“赋”、“斌”等；对于字符“汉”，可以获得候选字符“汉”、“又”、“双”等。

在一些实施例中，由于字符特征相似度高的候选字符更有可能是待识别图像中的字符，因此，为提高识别效率，可以选择与所述字符特征相似度排名前二的字符特征对应的候选字符作为备选字符。例如，上例中，字符“武”对应的候选字符按特征相似度从高到低依次为“武”、“赋”、“斌”，则字符“武”对应的备选字符为“武”和“赋”；字符“汉”对应的候选字符按特征相似度从高到低依次为“汉”、“又”、“双”，则字符“汉”对应的备选字符为“汉”和“又”。

在一些实施例中可以将所述待识别图像中每个字符对应的备选字符按所述待识别图像中各个字符的排列顺序进行排列，得到所述备选字符序列。具体的，对于待识别图像中的一句话“武汉是一座美丽的城市”，各个字符之前是有前后顺序的，在所述备选字符序列中，所述待识别图像中各个字符对应的备选字符的排列顺序要以所述待识别图像中各个字符排列顺序为依据。例如字符“武”对应的备选字符排列在字符“汉”对应的备选字符之前，字符“汉”对应的备选字符排列在“是”对应的备选字符之前，以此类推。

在一些实施例中，每个备选字符可以对应有表示备选字符为所述待识别图像中字符的可能性的置信度。具体的，所述置信度可以根据备选字符的字符特征与所述待识别图像中字符字符特征的相似度确定，相似度越高则置信度越大。例如可以将相似度作为置信度，置信度可以为0-1之间，置信度越接近于0说明备选字符为所述待识别图像中字符的可能性越低，置信度越接近于1说明备选字符为所述待识别图像中字符的可能性越高。针对上述例子：待识别图像中的一句话“武汉是一座美丽的城市”，通过对待识别图像进行OCR识别，获得的备选字符序列为{[(“武”，0.95)，(“赋”，0.72)]，[(“汉”，0.92)，(“又”，0.33)]…[(“市”，0.98)，(“沛”，0.63)]}。其中，备选字符序列中的字符为备选字符，数字为置信度，各个字符对应的备选字符按所述待识别图像中各个字符的排列顺序进行排列。

S120：根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符。

在一些实施例中，得到备选字符序列后，可以根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符。具体的，可以分别对每个字符对应的多个备选字符的置信度与预设阈值进行比较；将每个字符对应的多个备选字符中，置信度最大，且置信度大于或等于预设阈值的备选字符作为目标字符；将每个字符中，对应的多个备选字符的置信度均小于所述预设阈值的字符作为待纠错字符。

以上述备选字符序列{[(“武”，0.95)，(“赋”，0.72)]，[(“汉”，0.92)，(“又”，0.33)]…[(“市”，0.98)，(“沛”，0.63)]}为例，预设阈值为0.95，通过对每个字符对应的多个备选字符的置信度与预设阈值进行比较可以得出，可以将待识别图像中的字符“武”对应的备选字符“武”作为目标字符，将待识别图像中的字符“市”对应的备选字符“市”作为目标字符。所述目标字符可以作为对待识别图像中的字符对应的最终识别结果，也就是说，对于待识别图像中的字符“武”，最终的识别结果为目标字符“武”，对于待识别图像中的字符“市”最终的识别结果为目标字符“市”。

对于待识别图像中的字符“汉”，由于其备选字符“汉”和“又”对应的置信度均小于预设阈值0.95，可以判断待识别图像中的字符“汉”的识别可能出现错误，因此可以将待识别图像中的字符“汉”作为待纠错字符，以便于后续对待纠错字符进行纠错。

S130：按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列。

在一些实施例中，可以按照所述备选字符序列中各个备选字符的顺序，将待纠错字符对应的多个备选字符分别与目标字符进行组合，得到多个新的字符序列。举例来说，对于备选字符序列{[(“武”，0.95)，(“赋”，0.72)]，[(“汉”，0.92)，(“又”，0.33)]…[(“市”，0.98)，(“沛”，0.63)]}，备选字符“武”和“赋”在备选字符“汉”和“又”之前，备选字符“市”和“沛”在备选字符序列的最后，因此，可以根据所述备选字符序列中各个备选字符的顺序将待纠错字符对应的多个备选字符分别与目标字符进行组合，得到新的字符序列“武汉……市”，以及新的字符序列“武又……市”。也就是说，新的字符序列中各个字符之间的顺序关系与待识别图像中各个字符之间的顺序关系是相同的。

S140：对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

在一些实施例中，在得到多个新的字符序列后，可以对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分，将评分最高的新的字符序列作为纠错结果输出。例如，可以对新的字符序列“武汉……市”，以及新的字符序列“武又……市”进行语义识别，可以得出新的字符序列“武汉……市”的语义通顺程度高于新的字符序列“武又……市”的语义通顺程度，因此，新的字符序列“武汉……市”可以得到更高的评分，可以将新的字符序列“武汉……市”作为纠错结果输出，新的字符序列“武汉……市”即为对待识别图像的最终识别结果。

在一些实施例中，可以通过自然语言处理技术中的预训练语言模型实现对各个新的字符序列的语义识别。其中，语言模型(Language Model)简单来说就是一串词序列的概率分布。具体来说，语言模型的作用是为一个长度为m的文本确定一个概率分布P，表示这段文本存在的可能性。所述语言模型可以包括传统的语言模型，比如bigram或者n-gram语言模型，是对n个连续的单词出现概率进行建模。传统的语言模型基于马尔可夫假设，假设我们对于一个单词在某个位置出现概率的估计可以通过计算该单词与前面m个单词同时出现频率相对于前面的m个单词同时出现的频率的比获得。所述语言模型还可以包括神经网络语言模型，比如前馈神经网络模型(FFLM)和循环神经网络模型(RNNLM)，是从语言模型出发(即计算概率角度)，构建神经网络针对目标函数对模型进行最优化，训练的起点是使用神经网络去搭建语言模型实现词的预测任务，并且在优化过程后模型的副产品就是词向量。进行神经网络模型的训练时，目标是进行词的概率预测，就是在词环境下，预测下一个该是什么词，目标函数如下式,通过对网络训练一定程度后，最后的模型参数就可当成词向量使用

接下来在简单介绍一下预训练语言模型。目前神经网络语言模型在进行训练的时候基本都是基于后向传播(BP)算法，通过对网络模型参数进行随机初始化，然后通过BP算法利用例如SGD这样的优化算法去优化模型参数。而预训练语言模型则是，该模型的参数不再是随机初始化，而是先有一个任务进行训练得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。举例来说，预训练语言模型的训练方式是，假设已有A训练集，先用A对网络进行预训练，在A任务上学会网络参数，然后保存以备后用，当来一个新的任务B，采取相同的网络结构，网络参数初始化的时候可以加载A学习好的参数，其他的高层参数随机初始化，之后用B任务的训练数据来训练网络，当加载的参数保持不变时，称为"frozen"，当加载的参数随着B任务的训练进行不断的改变，称为“fine-tuning”，即更好地把参数进行调整使得更适合当前的B任务。

在一些实施例中，所述预训练语言模型可以包括BERT模型、XLNet模型和AlBERT模型等模型。各类预训练语言模型的特点如表1所示。

表1

在本说明书实施例中，可以使用上述任意预训练语言模型对各个新的字符序列进行语义识别。

这里以使用BERT模型为例介绍对各个新的字符序列进行语义识别的实现方式。BERT全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，BERT的模型架构基于多层双向转换解码，因为decoder是不能获要预测的信息的，模型的主要创新点都在pre-traing方法上，即用了Masked LM和NextSentence Prediction两种方法分别捕捉词语和句子级别的描述。其中“双向”表示模型在处理某一个词时，它能同时利用前面的词和后面的词两部分信息，这种“双向”的来源在于BERT与传统语言模型不同，它不是在给所有前面词的条件下预测最可能的当前词，而是随机遮掩一些词，并利用所有没被遮掩的词进行预测。

在一些实施例中，BERT模型的整体架构如图2所示。可以采用大量语料以多种任务对BERT模型进行预训练，使得BERT模型学习到语料中的语义关系，并具备一定的语言表示能力，当需要使用某些具体任务的时候，可以采用训练后的模型。

在本说明书实施例中，可以使用训练后的BERT模型对各个新的字符序列进行语义识别。具体的，如图3所示，在输入一个字符序列后，可以得到该字符序列的评分，评分可以表征字符序列通顺程度，通顺程度越高，则评分也越高。

在一些实施例中，可以将评分最高的新的字符序列作为纠错结果输出。例如，新的字符序列“武汉……市”的语义通顺程度高于新的字符序列“武又……市”的语义通顺程度，因此，新的字符序列“武汉……市”可以得到更高的评分，可以将新的字符序列“武汉……市”作为纠错结果输出，新的字符序列“武汉……市”即为对待识别图像的最终识别结果。

本说明书实施例提供的方法，可以对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。本说明书实施例提供的方法，将语义识别纠错引入OCR识别结果纠错中，可以实现对OCR的识别结果进行纠正，提高OCR识别的准确率。

图4为本说明书实施例一种电子设备的功能结构示意图，所述电子设备可以包括存储器和处理器。

在一些实施例中，所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现OCR识别结果纠错方法的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据用户终端的使用所创建的数据。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(APPlication Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。所述处理器可以执行所述计算机指令实现以下步骤：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

在本说明书实施例中，该电子设备具体实现的功能和效果，可以与其它实施例对照解释，在此不再赘述。

图5为本说明书实施例一种OCR识别结果纠错装置的功能结构示意图，该装置具体可以包括以下的结构模块。

识别模块510，用于对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；

确定模块520，用于根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；

组合模块530，用于按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；

纠错模块540，用于对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

本说明书实施例还提供了一种OCR识别结果纠错方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

在本说明书实施例中，上述存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。所述存储器可用于存储所述计算机程序和/或模块，所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据用户终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器。在本说明书实施例中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其它实施例的不同之处。尤其，对于装置实施例和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域技术人员在阅读本说明书文件之后，可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合，这些组合也在本说明书公开和保护的范围内。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog2。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种OCR识别结果纠错方法，其特征在于，所述方法包括：

对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；

根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；

按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；

对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述待识别图像进行预处理；

相应的，对预处理后的待识别图像进行OCR识别。

3.根据权利要求2所述的方法，其特征在于，所述预处理包括二值化、噪声去除和倾斜校正中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述对待识别图像进行OCR识别，获得备选字符序列包括：

抽取所述待识别图像中各个字符对应的字符特征；

从特征数据库中查找与所述字符特征相似度大于预设值的多个字符特征对应的候选字符；

将与所述字符特征相似度排名前二的字符特征对应的候选字符作为备选字符，以便于将所述待识别图像中每个字符对应的备选字符按所述待识别图像中各个字符的排列顺序进行排列，得到所述备选字符序列。

5.根据权利要求4所述的方法，其特征在于，所述字符特征包括统计学特征和结构特征中的至少一种。

6.根据权利要求1所述的方法，其特征在于，所述根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符包括：

分别对每个字符对应的多个备选字符的置信度与预设阈值进行比较；

将每个字符对应的多个备选字符中，置信度最大，且置信度大于或等于预设阈值的备选字符作为目标字符；

将每个字符中，对应的多个备选字符的置信度均小于所述预设阈值的字符作为待纠错字符。

7.根据权利要求1所述的方法，其特征在于，所述按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列包括：

将所述目标字符按照所述备选字符序列中各个备选字符的顺序进行排列，得到目标字符序列；

将所述待纠错字符对应的各个备选字符分别按照所述备选字符序列中各个备选字符的顺序插入至所述目标字符序列中，得到多个新的字符序列。

8.根据权利要求1所述的方法，其特征在于，所述对各个新的字符序列进行语义识别通过自然语言处理技术中的预训练语言模型实现。

9.根据权利要求8所述的方法，其特征在于，所述预训练语言模型包括BERT模型、XLNet模型和AlBERT模型中的至少一种。

10.一种OCR识别结果纠错装置，其特征在于，所述装置包括：

识别模块，用于对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；

确定模块，用于根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；

组合模块，用于按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；

纠错模块，用于对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

11.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现：对待识别图像进行OCR识别，获得备选字符序列；所述备选字符序列包括所述待识别图像中每个字符对应的多个备选字符；每个备选字符对应有置信度；所述置信度表示备选字符为所述待识别图像中字符的可能性；根据每个字符对应的多个备选字符的置信度确定出目标字符和待纠错字符；其中，所述目标字符为每个字符对应的多个备选字符中置信度最大，且置信度大于或等于预设阈值的备选字符；所述待纠错字符为每个字符中对应的多个备选字符的置信度均小于所述预设阈值的字符；按照所述备选字符序列中各个备选字符的顺序，将所述待纠错字符对应的各个备选字符分别与目标字符进行组合，得到多个新的字符序列；对各个新的字符序列进行语义识别，得到表征各个新的字符序列语义通顺程度的评分；将评分最高的新的字符序列作为纠错结果输出。