CN111368918B

CN111368918B - 文本纠错方法、装置、电子设备及存储介质

Info

Publication number: CN111368918B
Application number: CN202010145010.XA
Authority: CN
Inventors: 曹中兴; 庞博; 王强; 王佳军
Original assignee: Lazas Network Technology Shanghai Co Ltd
Current assignee: Lazas Network Technology Shanghai Co Ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2024-01-05
Anticipated expiration: 2040-03-04
Also published as: CN111368918A

Abstract

本公开实施例公开了一种文本纠错方法、装置、电子设备及存储介质。该方法包括：由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；由至少一个处理器从所述第一文本中识别出错误字符；由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正。通过本公开实施例可以在不需要维护形近字符字典的情况下，对文字识别技术所识别出来的文本进行纠错，这种方式不但提高了纠错效率，还大量节省了成本。

Description

文本纠错方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，具体涉及一种文本纠错方法、装置、电子设备及存储介质。

背景技术

随着科技的不断发展，文字识别技术得到了越来越广泛的应用，尤其是OCR文字识别技术等。OCR识别技术通过电子设备扫描、拍照或感应如用户在印刷体上书写的文字等得到图像，并通过检测图像上的文字的形状等方式得到图像中的文本内容。但是由于受到不同用户的书写情况、外界光照环境等的影响，使得文字识别技术识别出来的文本内容会出现错字。因此，如何对文字识别技术识别出来的文本进行纠错是相关领域需要解决的问题之一。

发明内容

本公开实施例提供一种文本纠错方法、装置、电子设备及存储介质。

第一方面，本公开实施例中提供了一种文本纠错方法。

具体的，所述文本纠错方法，包括：

由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；

由至少一个处理器从所述第一文本中识别出错误字符；

由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正。

结合第一方面，本公开在第一方面的第一种实现方式中，由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果，包括：

由至少一个处理器利用字符识别模型对所述文本区域中待识别字符的形状进行识别，并根据所述字符形状获得所述待识别字符对应的候选字符的相似度；

由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符。

结合第一方面和/或第一方面的第一种实现方式，本公开在第一方面的第二种实现方式中，由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符，包括：

由至少一个处理器确定所述文本区域中所述待识别字符对应的候选字符集合；所述候选字符集合中包括按所述相似度排序靠前的预定数量个所述候选字符；

由至少一个处理器将所述候选字符集合中所述相似度最大的所述候选字符确定为所述待识别字符对应的所述目标字符，以及将所述候选字符集合中的其他所述候选字符确定为所述目标字符的形近字符。

结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，由至少一个处理器从所述第一文本中识别出错误字符，包括：

由至少一个处理器利用滑动窗口从所述第一文本中获取字符序列；其中，所述滑动窗口的窗口长度大于1；

由至少一个处理器利用自然语言概率模型确定所述字符序列的自然语言概率；

由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率；

由至少一个处理器根据所述错误概率确定所述错误字符。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率，包括：

由至少一个处理器确定包括同一所述目标字符的目标字符序列；

由至少一个处理器根据所述目标字符序列的所述自然语言概率的平均值确定所述目标字符的错误概率。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，由至少一个处理器从所述第一文本中识别出错误字符，包括：

由至少一个处理器利用预测模型从语义维度确定所述第一文本中所述目标字符出现在其当前位置的第一概率；

由至少一个处理器根据所述第一概率确定所述目标字符是否为错误字符。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正，包括：

由至少一个处理器利用所述错误字符对应的多个所述形近字符分别替换所述第一文本中的所述错误字符，得到多个第二文本；

由至少一个处理器利用自然语言概率模型获得多个所述第二文本的第二概率；

由至少一个处理器利用所述第二概率选择其中一个所述第二文本替换所述第一文本。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和/或第一方面的第六种实现方式，本公开在第一方面的第七种实现方式中，由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正，包括：

由至少一个处理器利用预测模型从所述第一文本的语义维度确定所述错误字符对应的所述形近字符出现在所述错误字符所在位置的第三概率；

由至少一个处理器利用所述第三概率选择其中一个所述形近字符替换所述第一文本中的所述错误字符。

第二方面，本公开实施例中提供了一种文本纠错装置。

具体的，所述文本纠错装置，包括：

第一识别模块，被配置为由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；

第二识别模块，被配置为由至少一个处理器从所述第一文本中识别出错误字符；

纠错模块，被配置为由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正。

结合第二方面，本公开在第二方面的第一种实现方式中，所述第一识别模块，包括：

第一识别子模块，被配置为由至少一个处理器利用字符识别模型对所述文本区域中待识别字符的形状进行识别，并根据所述字符形状获得所述待识别字符对应的候选字符的相似度；

第一确定子模块，被配置为由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符。

结合第二方面和/或第二方面的第一种实现方式，本公开在第二方面的第二种实现方式中，所述第一确定子模块，包括：

第二确定子模块，被配置为由至少一个处理器确定所述文本区域中所述待识别字符对应的候选字符集合；所述候选字符集合中包括按所述相似度排序靠前的预定数量个所述候选字符；

第三确定子模块，被配置为由至少一个处理器将所述候选字符集合中所述相似度最大的所述候选字符确定为所述待识别字符对应的所述目标字符，以及将所述候选字符集合中的其他所述候选字符确定为所述目标字符的形近字符。

结合第二方面、第二方面的第一种实现方式和/或第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述第二识别模块，包括：

第一获取子模块，被配置为由至少一个处理器利用滑动窗口从所述第一文本中获取字符序列；其中，所述滑动窗口的窗口长度大于9；

第四确定子模块，被配置为由至少一个处理器利用自然语言概率模型确定所述字符序列的自然语言概率；

第五确定子模块，被配置为由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率；

第六确定子模块，被配置为由至少一个处理器根据所述错误概率确定所述错误字符。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和/或第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述第五确定子模块，包括：

第七确定子模块，被配置为由至少一个处理器确定包括同一所述目标字符的目标字符序列；

第八确定子模块，被配置为由至少一个处理器根据所述目标字符序列的所述自然语言概率的平均值确定所述目标字符的错误概率。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和/或第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，所述第二识别模块，包括：

第九确定子模块，被配置为由至少一个处理器利用预测模型从语义维度确定所述第一文本中所述目标字符出现在其当前位置的第一概率；

第十确定子模块，被配置为由至少一个处理器根据所述第一概率确定所述目标字符是否为错误字符。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和/或第二方面的第五种实现方式，本公开在第二方面的第六种实现方式中，所述纠错模块，包括：

替换子模块，被配置为由至少一个处理器利用所述错误字符对应的多个所述形近字符分别替换所述第一文本中的所述错误字符，得到多个第二文本；

第二获取子模块，被配置为由至少一个处理器利用自然语言概率模型获得多个所述第二文本的第二概率；

第一选择子模块，被配置为由至少一个处理器利用所述第二概率选择其中一个所述第二文本替换所述第一文本。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和/或第二方面的第六种实现方式，本公开在第二方面的第七种实现方式中，所述纠错模块，包括：

第十一确定子模块，被配置为由至少一个处理器利用预测模型从所述第一文本的语义维度确定所述错误字符对应的所述形近字符出现在所述错误字符所在位置的第三概率；

第二选择子模块，被配置为由至少一个处理器利用所述第三概率选择其中一个所述形近字符替换所述第一文本中的所述错误字符。

所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，文本纠错装置的结构中包括存储器和处理器，所述存储器用于存储一条或多条支持文本纠错装置执行上述第一方面中文本纠错方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述文本纠错装置还可以包括通信接口，用于文本纠错装置与其他设备或通信网络通信。

第三方面，本公开实施例提供了一种电子设备，包括存储器和至少一个处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述至少一个处理器执行以实现上述任一方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储文本纠错装置所用的计算机指令，其包含用于执行上述任一方法所涉及的计算机指令。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开实施例在利用文本识别技术对文本区域进行字符识别时，不但识别文本区域中的第一文本，同时还识别该第一文本中各字符对应的形近字符，之后针对第一文本中存在的错误字符，利用识别结果中错误字符对应的形近字符对第一文本进行纠错。本公开实施例通过识别文本区域对应的第一文本以及第一文本中各目标字符的形近字符，并利用识别出来的形近字符对第一文本中错误字符进行纠错，纠错过程中所利用的形近字符由于是在文字识别过程中由文字识别技术在线识别出来的，因此可以在不需要维护形近字符字典的情况下，对文字识别技术所识别出来的文本进行纠错，这种方式不但提高了纠错效率，还大量节省了成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的文本纠错方法的流程图；

图2示出根据图1所示实施方式的步骤S101的流程图；

图3示出根据图2所示实施方式的步骤S202的流程图；

图4示出根据图1所示实施方式的步骤S102的流程图；

图5示出根据图4所示实施方式的步骤S403的流程图；

图6示出根据图1所示实施方式的步骤S102的又一流程图；

图7示出根据图1所示实施方式的步骤S103的流程图；

图8示出根据图1所示实施方式的步骤S103的又一流程图；

图9示出根据本公开一实施方式的文本纠错装置的结构框图；

图10示出根据图9所示实施方式的第一识别模块901的结构框图；

图11示出根据图10所示实施方式的第一确定子模块1002的结构框图；

图12示出根据图9所示实施方式的第二识别模块902的结构框图；

图13示出根据图12所示实施方式的第五确定子模块1203的结构框图；

图14示出根据图9所示实施方式的第二识别模块902的又一结构框图；

图15示出根据图9所示实施方式的纠错模块903的结构框图；

图16示出根据图9所示实施方式的纠错模块903的又一结构框图；

图17是适于用来实现根据本公开一实施方式的文本纠错方法的电子设备的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

文字识别技术例如OCR识别技术可以识别图像中的文字，但是相关技术中的文字识别技术如OCR，主要从图像角度进行文字识别，并不从自然言角度考虑，而实际图像中又存在各种实际问题，例如书写、清晰度等，因此会造成识别得到的文本中存在错字的情形。因此结合自然语言技术，对文字识别结果从语义角度进行纠错，成为提高文字识别准确率的常用方法。然而，相关技术中针对文字识别场景，利用形近字符字典和自然语言技术实现纠错。在这样的纠错系统中预先维护形近字符字典，该形近字符字典中用于存储各个字符与其他字符在外形上的相似关系，也即通过该形近字符字典可以获得其中任意一个字符的形近字符；在纠错过程中，对于文本中出现的错字，从该形近字符字典中找出与该错字对应的形近字符，并从该多个形近字符中利用自然语言技术找出该错字对应的正确字符，以便对该文本进行纠错。

但是，通过上述方式得到的纠错结果对形近字符字典的依赖程度较大，如果形近字符字典中包含的信息不准确或者不够全面，会直接影响到纠错的效果；而维护信息准确又全面的形近字符字典是一项较大的工程，需要花费很高的成本。

因此，本公开实施例针对相关技术中存在的上述问题提出了一种文本纠错方法，该方法在利用文本识别技术对文本区域进行字符识别时，不但识别文本区域中的第一文本，同时还识别该第一文本中各字符对应的形近字符，之后针对第一文本中存在的错误字符，利用识别结果中错误字符对应的形近字符对第一文本进行纠错。本公开实施例通过识别文本区域对应的第一文本以及第一文本中各目标字符的形近字符，并利用识别出来的形近字符对第一文本中错误字符进行纠错，纠错过程中所利用的形近字符由于是在文字识别过程中由文字识别技术在线识别出来的，因此可以在不需要维护形近字符字典的情况下，对文字识别技术所识别出来的文本进行纠错，这种方式不但提高了纠错效率，还大量节省了成本。

图1示出根据本公开一实施方式的文字纠错方法的流程图。如图1所示，所述文字纠错方法包括以下步骤：

在步骤S101中，由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；

在步骤S102中，由至少一个处理器从所述第一文本中识别出错误字符；

在步骤S103中，由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正。

本实施例中，待识别的文本区域可以是位于图像上有文字内容的区域，本公开实施例的文字纠错方法可以在具有图像识别功能的如计算机、服务器等电子设备上执行。该电子设备可以包括至少一个处理器、存储器等。

在一些实施例中，电子设备上的至少一个处理器可以利用OCR(光学字符识别)技术对待识别的文本区域进行识别，该图像可以是通过电子设备进行扫描、拍照或者感应等方式获得的。OCR技术通过检测文本区域中待识别字符的形状，并通过分类器模型识别所检测到的形状为字符库中已知字符的概率，进而根据该概率确定该待识别字符对应的目标字符。可以理解的是，本实施例中不限于上述OCR技术，只要是能够识别出文本区域中字符形状、进而根据字符形状识别出目标字符的字符识别技术均可以应用在本公开实施例中。

第一文本可以包括待识别的文本区域中的部分字符例如一个词组、一句话、一段字符等，也可以包括待识别的文本区域中的全部字符。字符可以包括但不限于数字、英文字母、中文文字、标点符号等。目标字符为利用字符识别技术对文本区域进行识别而得到的字符。

本实施例中，利用字符识别技术对文本区域进行识别，该字符识别技术可以通过检测文本区域中的字符形状、并基于检测出的字符形状识别得到文本区域对应的第一文本。本实施例中，字符识别技术除了识别得到文本区域对应的第一文本之外，还可以识别得到第一文本中目标字符对应的形近字符。形近字符可以为与目标字符的形状相近的字符，例如“大”的形近字符可以包括“天”、“太”、“木”等。由于本实施例中的字符识别技术通过检测文本区域中待识别字符的形状来识别，因此在识别文本区域对应的第一文本的同时能够得到第一文本中各目标字符对应的形近字符。以OCR识别技术为例，在识别文本区域对应的第一文本时，OCR技术使用分类器模型识别文本区域中待识别字符的形状时输出对应的已知字符与该形状的相似度，也即该待识别字符为该已知字符的概率，以中文字库为例，假如已有字库中包括3000个左右的常见汉字，那么该分类器模型的的输出可以有3000个左右，每个输出对应于一个常见汉字，该分类器模型针对待识别字符的形状进行识别时，其输出的概率为该待识别字符为该输出对应的汉字的概率。通常情况下，OCR技术将上述概率最大的汉字识别为与该待识别字符对应的目标字符。本公开实施例中，还可以根据上述概率确定该目标字符的形近字符，例如可以将上述概率较大且不是概率中最大的几个汉字作为该目标字符的形近字符。

本公开实施例中除了利用字符识别技术识别出文本区域对应的第一文本之外，还识别得到第一文本中各个目标字符对应的形近字符，这是因为受文本区域中待识别字符的书写、光线等影响，可能会导致识别出的第一文本中存在错误字符。假如文本区域中包括汉字“太”，而且可能由于书写或者光线等原因导致文本区域中“太”上的点不清晰，因此通过字符识别技术所识别出来的目标字符为“大”。这种情况下，则可以针对第一文本进行纠错。

在纠错过程中，可以先识别第一文本中存在错误的错误字符。在一些实施例中，可以通过自然语言技术如语言模型、语法语义分析等方式识别第一文本中的错误字符，例如可以利用N-gram语言模型识别第一文本中的错误字符，N-gram语言模型可以根据第一文本中的上下文预测相邻词之间的语义关系，根据该语义关系可以从第一文本中识别出错误字符，例如第一文本中包括“中园人民银行”，利用N-gram模型通过上下文可以确定“园”为错误字符。本实施例不限于N-gram模型，可以根据第一文本的实际情况选择合适的方式识别第一文本中的错误字符，在此不做限制。

在识别出第一文本中的错误字符之后，可以根据之前利用字符识别技术所得到的错误字符对应的形近字结合自然语言处理技术进行纠错。由于本公开实施例中，利用文字识别技术通过检测文本区域中的字符形状、并对检测出的字符形状进行识别而得到的第一文本，也即第一文本中的目标字符都是通过从文本区域中检测到的字符形状识别出来的，因此可以确定第一文本中存在错误字符是因为在将字符形状识别为目标字符时出现误差导致的，也就是说，错误字符对应的正确字符存在于该错误字符的形近字符当中。因此，本公开实施例通过形近字符对第一文本中的错误字符进行纠错，例如在纠错时可以找出错误字符对应的形近字符，利用N-gram语言模型找出概率最大的字符作为纠正字符

本公开实施例通过识别文本区域对应的第一文本以及第一文本中各目标字符的形近字符，并利用识别出来的形近字符对第一文本中错误字符进行纠错，纠错过程中所利用的形近字符由于是在文字识别过程中由文字识别技术在线识别出来的，因此可以在不需要维护形近字符字典的情况下，对文字识别技术所识别出来的文本进行纠错，这种方式不但提高了纠错效率，还大量节省了成本。

在本实施例的一个可选实现方式中，如图2所示，所述步骤S101，即由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果的步骤，进一步包括以下步骤：

在步骤S201中，由至少一个处理器利用字符识别模型对所述文本区域中待识别字符的形状进行识别，并根据所述字符形状获得所述待识别字符对应的候选字符的相似度；

在步骤S202中，由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符。

该可选的实现方式中，字符识别模型可以是利用训练样本预先训练出来的分类器模型，该分类器模型可以检测文本区域中的字符形状，并确定该字符形状与已知字符库中各候选字符之间的相似度，相似度越大，说明该候选字符越有可能是该字符形状对应的目标字符。因此，可以通过该字符识别模型输出的与各候选字符之间的相似度确定该字符形状对应的目标字符，例如将相似度最大的候选字符确定为目标字符，进而最终得到文本区域对应的第一文本。而从文本区域中检测出来的目标字符对应的形近字符可以是其他相似度较大的候选字符，例如相似度大于一个预设阈值的候选字符。在一些实施例中，字符识别模型可以是OCR识别技术中采用的分类器模型。通过这种方式，在识别文本区域中的待识别字符时，不但可以得到文本区域对应的第一文本，还可以同时获得第一文本中各目标字符对应的形近字符，为后续对第一文本的纠错提供了候选依据，由于无需专门维护形近字字典，因此能够节省文本纠错的成本。

在本实施例的一个可选实现方式中，如图3所示，所述步骤S202，即由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符的步骤，进一步包括以下步骤：

在步骤S301中，由至少一个处理器确定所述文本区域中所述待识别字符对应的候选字符集合；所述候选字符集合中包括按所述相似度排序靠前的预定数量个所述候选字符；

在步骤S302中，由至少一个处理器将所述候选字符集合中所述相似度最大的所述候选字符确定为所述待识别字符对应的所述目标字符，以及将所述候选字符集合中的其他所述候选字符确定为所述目标字符的形近字符。

该可选的实现方式中，利用字符识别模型确定文本区域中待识别字符的字符形状与已知字符库中各字符之间的相似度之后，可以将按相似度大小排序靠前的预定数量个字符确定为候选字符，文本区域中的每个待识别字符对应一个候选字符集。针对每个候选字符集，可以将该候选字符集中相似度最大的候选字符确定为该待识别字符对应的目标字符，而其他候选字符确定为该目标字符的形近字符。文本区域中所有待识别字符对应的目标字符构成了第一文本，而第一文本中每个目标字符对应有一个或多个形近字符。通过这种方式，可以在文字识别过程中容易地获得各目标字符的形近字符。

在本实施例的一个可选实现方式中，如图4所示，所述步骤S102，即由至少一个处理器从所述第一文本中识别出错误字符的步骤，进一步包括以下步骤：

在步骤S401中，由至少一个处理器利用滑动窗口从所述第一文本中获取字符序列；其中，所述滑动窗口的窗口长度大于1；

在步骤S402中，由至少一个处理器利用自然语言概率模型确定所述字符序列的自然语言概率；

在步骤S403中，由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率；

在步骤S404中，由至少一个处理器根据所述错误概率确定所述错误字符。

该可选的实现方式中，可以利用滑动窗口从第一文本中提取多个字符序列，所提取的字符序列依赖于滑动窗口每次滑动时滑过的字符数量以及窗口大小，窗口大小可以理解为一次提取的字符序列长度。以滑动窗口每次滑动时滑过的字符数量为1、窗口大小为2为例，假如第一文本为“中园人民银行”，则提取出的字符序列包括“中园”、“园人”、“人民”、“民银”、“银行”。

在一些实施例中，自然语言概率模型可以选用N-gram模型，该自然语言概率模型可以预测上述字符序列中该字符为自然语言的概率，以中文为例，字符序列的自然语言概率可以理解为该字符序列作为一句话、一个词组等的概率，上述“中园”显然不是中文自然语言中的词组，因此通过自然语言概率模型针对“中园”获得的自然语言概率相对会比较低，而“人民”为中文自然语言中常见的词组，因此自然语言概率模型针对“人民”输出的自然语言概率会相对较高。

依然以中文为例，由于自然语言概率模型预测的是一个词组、一句话等的自然语言概率，因此在利用滑动窗口从第一文本提取字符序列时，所提取的字符序列至少要包括两个字符，因此滑动窗口的窗口长度大于1。如果滑动窗口的窗口长度等于1，那么所提取的字符序列是单个的字符，自然语言概率模型无法从一个单独的字符判断其自然语言概率。

利用自然语言概率模型确定各个字符序列的自然语言概率之后，可以进一步获得第一文本中目标字符的错误概率。目标字符的错误概率可以利用该目标字符所在的字符序列的自然语言概率来确定。如果该目标字符所在字符序列的自然语言概率较小，则可以认为该目标字符所在的字符序列为自然语言的可能性较小，而如果该目标字符所在的所有字符序列的自然概率均较小，则可以确定该目标字符为错误字符的概率较大。通过上述这种方式，能够快速识别出第一文本中的错误字符。

在本实施例的一个可选实现方式中，如图5所示，所述步骤S403，即由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率的步骤，进一步包括以下步骤：

在步骤S501中，由至少一个处理器确定包括同一所述目标字符的目标字符序列；

在步骤S502中，由至少一个处理器根据所述目标字符序列的所述自然语言概率的平均值确定所述目标字符的错误概率。

该可选的实现方式中，可以通过设置滑动窗口的窗口大小以及每次滑动的字符数量使得同一个目标字符出现在多个字符序列中，进而再根据该多个字符序列的自然语言概率的平均值确定该目标字符的错误概率。例如，设置滑动窗口的长度为2，每次滑动一个字符，那么第一文本“中园人民银行”中目标字符“园”的错误概率可以通过“中园”、“园人”这两个目标字符序列的自然语言概率来确定，假如“中园”、“园人”的自然语言概率分别为p1、p2，则目标字符“园”的错误概率p3可以确定为1-(p1+p2)/2，p3越大，则可以认为该目标字符为错误字符的概率越大。

由于“中园”、“园人”均不符合中文表述习惯，因此p1、p2会较小，进而p3会较大，而相较于第一文本“中园人民银行”中的其他目标字符，“园”对应的p3会较大，通过p3即可判断出第一文本中的错误字符为“园”。因此，在一些实施例中，可以将错误概率最大的目标字符确定为错误字符。通过这种方式，能够快速而准确地从第一文本中识别出错误字符。

在本实施例的一个可选实现方式中，如图6所示，所述步骤S102，即由至少一个处理器从所述第一文本中识别出错误字符的步骤，进一步包括以下步骤：

在步骤S601中，由至少一个处理器利用预测模型从语义维度确定所述第一文本中所述目标字符出现在其当前位置的第一概率；

在步骤S602中，由至少一个处理器根据所述第一概率确定所述目标字符是否为错误字符。

该可选的实现方式中，可以通过预测模型从语义维度分析第一文本中目标字符出现在其当前所在位置的第一概率。在一些实施例中，预测模型可以选用MLM(MaskedLanguage Model，遮蔽语言模型)。MLM模型可以通过分析第一文本中每一个目标字符与上下文之间的语义关系，来确定该目标字符出现在当前位置的第一概率，该第一概率可以用于表征该目标字符出现在一句话、一个词组或者一段文字中的匹配程度，该第一概率越小，则该目标字符为错误字符的可能性越大。例如，“中园人民银行”中由于“园”与其前后相邻词句之间的匹配程度较差，因此通过MLM模型可以确定“园”是错误字符。

在本实施例的一个可选实现方式中，如图7所示，所述步骤S103，即由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正的步骤，进一步包括以下步骤：

在步骤S701中，由至少一个处理器利用所述错误字符对应的多个所述形近字符分别替换所述第一文本中的所述错误字符，得到多个第二文本；

在步骤S702中，由至少一个处理器利用自然语言概率模型获得多个所述第二文本的第二概率；

在步骤S703中，由至少一个处理器利用所述第二概率选择其中一个所述第二文本替换所述第一文本。

该可选的实现方式中，在确定了第一文本中的错误字符之后，可以通过形近字符替换错误字符。由于利用字符识别技术针对第一文本中的同一个目标字符识别出来的形近字符可以包括多个，因此可以利用该错误字符对应的多个形近字符分别替换错误字符，进而得到多个第二文本。之后通过自然语言概率模型获得该第二文本与自然语言表达相匹配的第二概率，也即自然语言概率模型用于预测第二文本为符合自然语言表达的一个分词、一句话和/或一段文字的概率。该第二概率越大，则可以确定该第二文本越符合自然语言表达，也即替换后的该形近字符越有可能是该错误字符对应的正确字符。通过上述方式，可以利用形近字符快速而准确地对第一文本进行纠错。

在一些实施例中，可以利用自然语言概率模型确定多个第二文本的第二概率后，将第二概率最大的第二文本作为纠错后的第一文本。在一些实施例中，自然语言概率模型可以选用N-gram模型。

在另一些实施例中，可以利用自然语言概率模型确定多个第二文本的第二概率后，通过viterbi(维特比算法)、beam search(集束搜索)等最优解算法从多个第二文本中选择最优的一个作为纠错后的第一文本。

需要说明的是，在实际应用过程中，可以利用其中一个形近字符替换第一文本中的错误字符，得到一个第二文本，然后再利用自然语言概率模型确定该第二文本的第二概率，之后再利用下一个形近字符重复上述操作，直到遍历完错误字符对应的所有形近字符为止。因此，上述步骤701和702之间的顺序关系可以根据实际应用而调整，不严格限定为先完成步骤701中提到的所有操作之后，再执行步骤702。

在本实施例的一个可选实现方式中，如图8所示，所述步骤S103，即由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正的步骤，进一步包括以下步骤：

在步骤S801中，由至少一个处理器利用预测模型从所述第一文本的语义维度确定所述错误字符对应的所述形近字符出现在所述错误字符所在位置的第三概率；

在步骤S802中，由至少一个处理器利用所述第三概率选择其中一个所述形近字符替换所述第一文本中的所述错误字符。

该可选的实现方式中，在确定了第一文本中的错误字符之后，可以通过预测模型从语义维度分析错误字符对应的形近字符出现在第一文本中错误字符所在位置的第三概率。在一些实施例中，预测模型可以选用MLM(Masked Language Model，遮蔽语言模型)。MLM模型可以通过分析第一文本中形近字符与第一文本中错误字符所在位置的上下文之间的语义关系，来确定该形近字符出现在错误字符所在位置的第三概率，该第三概率可以用于表征该形近字符出现在一句话、一个词或者一段文字中的匹配程度，也即形近字符出现在第一文本中的匹配程度。该第三概率越大，则该形近字符为错误字符对应的正确字符的可能性越大。例如，“中园人民银行”中“园”的形近字符包括“国”、“匤”等，利用MLM模型预测“国”在“园”所在位置出现的第三概率p1以及“匤”在“园”所在位置出现的第三概率p2，之后可以根据p1和p2确定出“国”为正确字符，因此可以通过将第一文本中的“园”替换为“国”的方式得到纠错后的第一文本“中国人民银行”。

在一些实施例中，可以利用预测模型确定多个形近字符的第三概率后，利用第三概率最大的形近字符替换第一文本中对应的错误字符。

在另一些实施例中，可以利用预测模型确定多个形近字符的第三概率后，通过viterbi(维特比算法)、beam search(集束搜索)等最优解算法从多个形近字符中选择最优的一个替换第一文本中对应的错误字符。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图9示出根据本公开一实施方式的文本纠错装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图9所示，所述文本纠错装置包括：

第一识别模块901，被配置为由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；

第二识别模块902，被配置为由至少一个处理器从所述第一文本中识别出错误字符；

纠错模块903，被配置为由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正。

本实施例中，利用字符识别技术对文本区域进行识别，该字符识别技术可以通过检测文本区域中的字符形状、并基于检测出的字符形状识别得到文本区域对应的第一文本。本实施例中，字符识别技术除了识别得到文本区域对应的第一文本之外，还可以识别得到第一文本中目标字符对应的形近字符。形近字符可以为与目标字符的形状相近的字符，例如“大”的形近字符可以包括“天”、“太”、“木”等。由于本实施例中的字符识别技术通过检测文本区域中待识别字符的形状来识别，因此在识别文本区域对应的第一文本的同时能够得到第一文本中各目标字符对应的形近字符。以OCR识别技术为例，在识别文本区域对应的第一文本时，OCR技术使用分类器模型识别文本区域中待识别字符的形状时输出对应的已知字符与该形状的相似度，也即该待识别字符为该已知字符的概率，以中文字库为例，假如已有字库中包括3000个左右的常见汉字，那么该分类器模型的的输出可以有3000个左右，每个输出对应于一个常见汉字，该分类器模型针对待识别字符的形状进行识别时，其输出的概率为该待识别字符为该输出对应的汉字的概率。通常情况下，OCR技术将上述概率最大的汉字识别为与该待识别字符对应的目标字符。本公开实施例中，还可以根据上述概率确定该目标字符的形近字符，例如可以将上述概率较大且不是概率族最大的几个汉字作为该目标字符的形近字符。

在识别出第一文本中的错误字符之后，可以根据之前利用字符识别技术所得到的错误字符对应的形近字结合自然语言处理技术进行纠错。由于本公开实施例中，利用文字识别技术通过检测文本区域中的字符形状、并对检测出的字符形状进行识别而得到的第一文本，也即第一文本中的目标字符都是通过从文本区域中检测到的字符形状识别出来的，因此可以确定第一文本中存在错误字符是因为在将字符形状识别为目标字符时出现误差导致的，也就是说，错误字符对应的正确字符存在于该错误字符的形近字符当中。因此，本公开实施例通过形近字符对第一文本中的错误字符进行纠错，例如在纠错时可以找出错误字符对应的形近字符，利用N-gram语言模型找出概率最大的字符作为纠正字符。本公开实施例通过识别文本区域对应的第一文本以及第一文本中各目标字符的形近字符，并利用识别出来的形近字符对第一文本中错误字符进行纠错，纠错过程中所利用的形近字符由于是在文字识别过程中由文字识别技术在线识别出来的，因此可以在不需要维护形近字符字典的情况下，对文字识别技术所识别出来的文本进行纠错，这种方式不但提高了纠错效率，还大量节省了成本。

在本实施例的一个可选实现方式中，如图10所示，所述第一识别模块901，包括：

第一识别子模块1001，被配置为由至少一个处理器利用字符识别模型对所述文本区域中待识别字符的形状进行识别，并根据所述字符形状获得所述待识别字符对应的候选字符的相似度；

第一确定子模块1002，被配置为由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符。

该可选的实现方式中，字符识别模型可以是利用训练样本预先训练出来的分类器模型，该分类器模型可以检测文本区域中的字符形状，并确定该字符形状与已知字符库中各候选字符之间的相似度，相似度越大，说明该候选字符越有可能是该字符形状对应的目标字符。因此，可以通过该字符识别模型输出的与各候选字符之间的相似度确定该字符形状对应的目标字符，例如将相似度最大的候选字符确定为目标字符，进而最终得到文本区域对应的第一文本。而从文本区域中检测出来的目标字符对应的形近字符可以是其他相似度较大的候选字符，例如相似度大于一个预设阈值的候选字符。在一些实施例中，字符识别模型可以是OCR识别技术中采用的分类器模型。通过这种方式，在识别文本区域中的待识别字符时，不但可以得到文本区域对应的第一文本，还可以同时获得第一文本中各目标字符对应的形近字符，为后续对第一文本的纠错提供了依据，由于无需专门维护形近字字典，因此能够节省文本纠错的成本。

在本实施例的一个可选实现方式中，如图11所示，所述第一确定子模块1002，包括：

第二确定子模块1101，被配置为由至少一个处理器确定所述文本区域中所述待识别字符对应的候选字符集合；所述候选字符集合中包括按所述相似度排序靠前的预定数量个所述候选字符；

第三确定子模块1102，被配置为由至少一个处理器将所述候选字符集合中所述相似度最大的所述候选字符确定为所述待识别字符对应的所述目标字符，以及将所述候选字符集合中的其他所述候选字符确定为所述目标字符的形近字符。

在本实施例的一个可选实现方式中，如图12所示，所述第二识别模块902，包括：

第一获取子模块1201，被配置为由至少一个处理器利用滑动窗口从所述第一文本中获取字符序列；其中，所述滑动窗口的窗口长度大于9；

第四确定子模块1202，被配置为由至少一个处理器利用自然语言概率模型确定所述字符序列的自然语言概率；

第五确定子模块1203，被配置为由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率；

第六确定子模块1204，被配置为由至少一个处理器根据所述错误概率确定所述错误字符。

在本实施例的一个可选实现方式中，如图13所示，所述第五确定子模块1203，包括：

第七确定子模块1301，被配置为由至少一个处理器确定包括同一所述目标字符的目标字符序列；

第八确定子模块1302，被配置为由至少一个处理器根据所述目标字符序列的所述自然语言概率的平均值确定所述目标字符的错误概率。

在本实施例的一个可选实现方式中，如图14所示，所述第二识别模块902，包括：

第九确定子模块1401，被配置为由至少一个处理器利用预测模型从语义维度确定所述第一文本中所述目标字符出现在其当前位置的第一概率；

第十确定子模块1402，被配置为由至少一个处理器根据所述第一概率确定所述目标字符是否为错误字符。

在本实施例的一个可选实现方式中，如图15所示，所述纠错模块903，包括：

替换子模块1501，被配置为由至少一个处理器利用所述错误字符对应的多个所述形近字符分别替换所述第一文本中的所述错误字符，得到多个第二文本；

第二获取子模块1502，被配置为由至少一个处理器利用自然语言概率模型获得多个所述第二文本的第二概率；

第一选择子模块1503，被配置为由至少一个处理器利用所述第二概率选择其中一个所述第二文本替换所述第一文本。

需要说明的是，在实际应用过程中，可以利用其中一个形近字符替换第一文本中的错误字符，得到一个第二文本，然后再利用自然语言概率模型确定该第二文本的第二概率，之后再利用下一个形近字符重复上述操作，直到遍历完错误字符对应的所有形近字符为止。因此，上述替换子模块1501和第二获取子模块1502之间的顺序关系可以根据实际应用而调整，不严格限定为先执行完成替换子模块1501中提到的所有操作之后，再执行第二获取子模块1502。

在本实施例的一个可选实现方式中，如图16所示，所述纠错模块903，包括：

第十一确定子模块1601，被配置为由至少一个处理器利用预测模型从所述第一文本的语义维度确定所述错误字符对应的所述形近字符出现在所述错误字符所在位置的第三概率；

第二选择子模块1602，被配置为由至少一个处理器利用所述第三概率选择其中一个所述形近字符替换所述第一文本中的所述错误字符。

本公开实施方式还提供了一种电子设备，如图17所示，包括至少一个处理器1701；以及与至少一个处理器1701通信连接的存储器1702；其中，存储器1702存储有可被至少一个处理器1701执行的指令，指令被至少一个处理器1701执行以实现：

由至少一个处理器从所述第一文本中识别出错误字符；

其中，由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果，包括：

其中，由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符，包括：

其中，由至少一个处理器从所述第一文本中识别出错误字符，包括：

由至少一个处理器根据所述错误概率确定所述错误字符。

其中，由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率，包括：

其中，由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正，包括：

具体地，处理器1701、存储器1702可以通过总线或者其他方式连接，图17中以通过总线连接为例。存储器1702作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1701通过运行存储在存储器1702中的非易失性软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现本公开实施例中的上述方法。

存储器1702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储航运网络运输的历史数据等。此外，存储器1702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中，电子设备可选地包括通信组件1703，存储器1702可选地包括相对于处理器1701远程设置的存储器，这些远程存储器可以通过通信组件1703连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个模块存储在存储器1702中，当被一个或者多个处理器1701执行时，执行本公开实施例中的上述方法。

上述产品可执行本公开实施方式所提供的方法，具备执行方法相应的功能模块和有益效果，未在本实施方式中详尽描述的技术细节，可参见本公开实施方式所提供的方法。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本纠错方法，其特征在于，包括：

由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括在线识别的对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；

由至少一个处理器从所述第一文本中识别出错误字符；

由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正；

由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果，包括：

由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符；

由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符，包括：

2.根据权利要求1所述的方法，其特征在于，由至少一个处理器从所述第一文本中识别出错误字符，包括：

由至少一个处理器根据所述错误概率确定所述错误字符。

3.根据权利要求2所述的方法，其特征在于，由至少一个处理器根据所述字符序列的所述自然语言概率确定所述第一文本中所述目标字符的错误概率，包括：

4.根据权利要求1所述的方法，其特征在于，由至少一个处理器从所述第一文本中识别出错误字符，包括：

5.根据权利要求1所述的方法，其特征在于，由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正，包括：

6.根据权利要求1所述的方法，其特征在于，由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正，包括：

7.一种文本纠错装置，其特征在于，包括：

第一识别模块，被配置为由至少一个处理器对待识别的文本区域进行字符识别，并获得识别结果；其中，所述识别结果包括在线识别的对应于所述文本区域的第一文本以及所述第一文本中包括的目标字符对应的形近字符；

纠错模块，被配置为由至少一个处理器根据所述错误字符对应的所述形近字符对所述第一文本进行错误纠正；

所述第一识别模块，包括：

第一确定子模块，被配置为由至少一个处理器根据所述候选字符的相似度确定所述第一文本以及所述第一文本中包括的所述目标字符对应的所述形近字符；

所述第一确定子模块，包括：

8.根据权利要求7所述的装置，其特征在于，所述第二识别模块，包括：

9.根据权利要求8所述的装置，其特征在于，所述第五确定子模块，包括：

10.根据权利要求7所述的装置，其特征在于，所述第二识别模块，包括：

11.根据权利要求7所述的装置，其特征在于，所述纠错模块，包括：

12.根据权利要求7所述的装置，其特征在于，所述纠错模块，包括：

13.一种电子设备，其特征在于，包括存储器和至少一个处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述至少一个处理器执行以实现权利要求1-6任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被至少一个处理器执行时实现权利要求1-6任一项所述的方法。