CN110457688A

CN110457688A - 纠错处理方法及装置、存储介质和处理器

Info

Publication number: CN110457688A
Application number: CN201910667594.4A
Authority: CN
Inventors: 胡启明
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2019-11-15
Anticipated expiration: 2039-07-23
Also published as: CN110457688B

Abstract

本申请公开了一种纠错处理方法及装置、存储介质和处理器。其中，该方法包括：获取待检测文本中的疑似错误信息；获取所述疑似错误信息的至少一个候选纠正信息；使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；确定所述至少一个目标候选文本的困惑度；依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。本发明在文本纠错时考虑了文本的上下文信息，从而增强了纠错效果，使得纠错结果更加准确，进而解决了相关技术中查错效果不佳的技术问题。

Description

纠错处理方法及装置、存储介质和处理器

技术领域

本申请涉及中文拼写领域，具体而言，涉及一种纠错处理方法及装置、存储介质和处理器。

背景技术

相关技术中，在进行中文拼写检查的过程中，主要采用的是基于统计的方法，该方法主要使用基于N元语言模型(N-Gram)的查询纠错技术，N-Gram的优点是对在训练集测试集同分布的要求比较低、解释性强、原理清晰，但是对语料数目要求则非常高，而且不能充分利用词语在句子中的上下文环境，不能捕获长距离的依赖。因此，上述两种查错纠错效果不佳。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种纠错处理方法及装置、存储介质和处理器，以至少解决相关技术中查错效果不佳的技术问题。

根据本申请实施例的一个方面，提供了一种纠错处理方法，包括：获取待检测文本中的疑似错误信息；获取所述疑似错误信息的至少一个候选纠正信息；使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；确定所述至少一个目标候选文本的困惑度；依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。

可选地，依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本，包括：比较所述至少一个目标候选文本的困惑度中各个困惑度的大小，得到最小困惑度；确定所述最小困惑度对应的目标候选文本为所述目标纠正文本。

可选地，获取待检测文本中的疑似错误信息，包括：获取所述待检测文本中每个字符在所述待检测文本中的位置出现的概率；基于所述概率确定所述待检测文本中的疑似错误字符。

可选地，基于所述概率确定所述待检测文本中的疑似错误字符，包括：比较所述概率和第一阈值；在所述概率小于所述第一阈值时，确定所述概率对应的字符为疑似错误字符。

可选地，基于所述概率确定所述待检测文本中的疑似错误字符，包括：统计所述待检测文本中所有字符在所述待检测文本中相应位置出现的概率；确定所有概率的平均绝对离差；依据所述所有字符中字符的离差与所述平均绝对离差确定指标值；比较所述指标值和第二阈值；比较所述概率和所述平均绝对离差；将满足以下条件的字符确定为所述疑似错误字符：所述概率小于所述平均绝对离差，且所述指标值大于第二阈值。

可选地，所述指标值包括：所述离差与所述平均绝对离差的比值。

可选地，统计所述待检测文本中所有字符在所述待检测文本中相应位置出现的概率之前，所述方法还包括：对所述待检测文本进行分词处理，得到多个分词；确定所述多个分词中的合法分词，并从所述多个分词中滤除所述多个分词中的合法分词。

可选地，确定所述多个分词中的合法分词，包括：从所述多个分词中确定位于预设白名单中的分词，并将位于预设白名单中的分词作为合法分词。

可选地，从所述多个分词中确定位于预设白名单中的分词之前，所述方法还包括：识别所述多个分词中的命名实体，并滤除所述多个分词中的命名实体。

可选地，获取所述疑似错误信息的至少一个候选纠正信息之前，所述方法还包括：从多个分词中确定与预设集合中的变体词相同的分词，将确定的分词作为疑似错误字符。

可选地，依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本，包括：循环执行以下步骤，直至满足预设条件：采用所述至少一个候选纠正信息对所述目标纠正文本的错误信息再次进行纠正；确定再次纠正后得到的文本的困惑度；并基于困惑度确定最终的纠正文本；其中，所述预设条件包括以下之一：循环次数到达预设阈值、所述最终的纠正文本与所述待检测文本相同。

根据本申请实施例的另一个方面，提供了一种纠错处理方法，包括：获取待检测文本的多个候选纠正信息；使用所述多个候选纠正信息分别对所述待检测文本进行纠正，得到多个目标候选文本；确定所述多个目标候选文本的评价指标，其中，所述评价指标用于表示所述至少一个目标候选文本在上下文之间的通顺程度；依据所述评价指标从所述至少一个目标候选文本中确定目标纠正文本。

根据本申请实施例的又一个方面，提供了一种纠错处理装置，包括：第一获取模块，用于获取待检测文本中的疑似错误信息；第二获取模块，用于获取所述疑似错误信息的至少一个候选纠正信息；纠正模块，用于使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；第一确定模块，用于确定所述至少一个目标候选文本的困惑度；第二确定模块，用于依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。

根据本申请实施例的再一个方面，提供了一种非易失性存储介质，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行以上所述的纠错处理方法。

根据本申请实施例的又一个方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行以上所述的纠错处理方法。

在本申请实施例中，基于待检测文本中的疑似错误信息确定至少一个候选纠正信息，并使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正后，基于得到的至少一个目标候选文本的困惑度；依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本，上述技术方案中，由于利用了文本的困惑度，因此，在对文本进行纠错时，考虑了文本的上下文信息，从而增强了纠错效果，使得纠错结果更加准确，进而解决了相关技术中查错效果不佳的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为根据本申请实施例的一种纠错处理方法的流程图；

图2是根据本申请实施例的一种可选的纠错处理方法的流程图；

图3是根据本申请实施例的一种纠错处理装置的结构框图；

图4为根据本申请实施例的另一种纠错处理方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好地理解上述实施例，以下将本申请实施例中涉及的术语解释如下：

N-Gram：是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型，其是利用上下文中相邻词间的搭配信息，可以实现汉字的自动转换。

BERT模型，基于双向Transformer的大规模预训练语言模型，为自然语言处理(，Nature Language NLP)带来里程碑式的改变，也是NLP领域近期最重要的进展。BERT取得成功的一个关键因素是Transformer的强大特征提取能力。Transformer可以利用自注意力(Self-Attention)机制实现快速并行训练，改进了循环神经网络(RNN)最被人所诟病的“训练慢”的缺点，可以高效地对海量数据进行快速建模。同时，BERT拥有多层注意力结构(12层或24层)，并且在每个层中都包含有多个“头”(12头或16头)。由于模型的权重不在层与层之间共享，一个BERT模型相当于拥有12×12＝224或24×16＝384种不同的注意力机制，不同层能够提取不同层次的文本或语义特征，因此BERT具有超强的文本表征能力。

离差(mean deviation)：各项变量与平均数之差，称为离差；

平均绝对离差(mean absolute deviation)是用样本数据相对于其平均值的绝对距离来度量数据的离散程度。又称为平均离差，是各数据与平均值的离差的绝对值的平均数。

在本申请实施例中，利用应用的功能控件确定校准点，例如，在注视点标识停留于某一个功能控件时，如果该功能控件设置了隐藏的校准点位，则可以将此处的点位作为校准点，从而实现了校准过程，因此，采用本申请实施例中的方案，可以在应用的使用过程中实现校准，而不必在校准过程中单独设置过多的校准点或者不用设置校准过程。

根据本申请实施例，提供了一种校准的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1为根据本申请实施例的一种纠错处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待检测文本中的疑似错误信息；

步骤S104，获取疑似错误信息的至少一个候选纠正信息；

步骤S106，使用至少一个候选纠正信息分别对待检测文本进行纠正，得到至少一个目标候选文本；

步骤S108，确定至少一个目标候选文本的困惑度；

步骤S110，依据困惑度从至少一个目标候选文本中确定目标纠正文本。

采用上述各个处理步骤，由于利用了文本的困惑度，因此，在对文本进行纠错时，考虑了文本的上下文信息，从而增强了纠错效果，使得纠错结果更加准确，进而解决了相关技术中查错效果不佳的技术问题。

在步骤S110中，可以通过以下方式确定目标纠正文本：比较至少一个目标候选文本的困惑度中每个困惑度之间的大小，得到其中最小的困惑度；确定最小困惑度对应的目标候选文本为目标纠正文本。

需要说明的是，困惑度用来度量一个概率分布或概率模型预测样本的好坏程度。它也可以用来比较两个概率分布或概率模型，低困惑度的概率分布模型或概率模型能更好地预测样本。

所以在自然语言处理中，困惑度是用来衡量语言概率模型优劣的一个方法。一个语言概率模型可以看成是在整个句子或者文段上的概率分布。例如，每个分词位置上有一个概率分布，这个概率分布表示了每个词在这个位置上出现的概率；或者每个句子位置上有一个概率分布，这个概率分布表示了所有可能句子在这个位置上出现的概率。

根据上述实施例，获取2个文本的困惑度，文本A有1000个单词，并且可以用7.95个bits给每个单词编码(其中，bits为句子位置上概率分布的信息熵，其换算为困惑度是2^(190))，此时文本A上每个词有2^(7.95)的困惑度，文本B有1000个单词，并且可以用6.55个bits给每个单词编码，此时文本B上每个词的困惑度为2^(6.55)，在此之后将文本A与文本B的困惑度进行比较，得到困惑度较小的文本B，并以此为输出结果将文本B确定为目标纠正文本。

在本申请的一些实施例中，可以基于以下方式获取疑似错误字符：获取待检测文本中每个字符在待检测文本中的位置出现的概率；基于概率确定待检测文本中的疑似错误字符。其中，出现的概率可以用统计学正态分布法进行统计，并设置正态分布波峰的界限值，例如可以是，A字符出现的概率为a，B字符出现的概率为b，C字符出现的概率为c，那么假设a>b>c，设正态分布波峰界限值为N>c，则上述概率a与b符合正态分布统计的范围之内，也就是说可以作为意思错误字符作为最后确定的数据。

基于概率确定待检测文本中的疑似错误字符的方式有多种，例如：比较概率和第一阈值；在概率小于第一阈值时，确定概率对应的字符为疑似错误字符；又例如，可以采用以下方式确定疑似错误字符：统计待检测文本中所有字符在待检测文本中相应位置出现的概率；确定所有概率的平均绝对离差；依据所有字符中字符的离差与平均绝对离差确定指标值；比较指标值和第二阈值；比较概率和平均绝对离差；将满足以下条件的字符确定为疑似错误字符：概率小于平均绝对离差，且指标值大于第二阈值。

其中，上述指标值包括：离差与平均绝对离差的比值。

为了使得纠错结果更加准确，在统计待检测文本中所有字符在待检测文本中相应位置出现的概率之前，还可以对其中的合法字词进行过滤，以避免对纠错结果产生影响，同时也可以减少计算量，具体地：对待检测文本进行分词处理，得到多个分词；确定多个分词中的合法分词，并从多个分词中滤除多个分词中的合法分词。

其中，可以通过白名单的方式确定合法分词，具体地：从多个分词中确定位于预设白名单中的分词，并将位于预设白名单中的分词作为合法分词。

需要说明的是，白名单可以是一种无需进行纠错、在判断过程中默认为输入正确的分词集合。此外，白名单可以是由用户自行定义设置，也可以利用神经网络模型对用户的输入习惯进行训练，得到用户常用的专有分词，并以此作为白名单分词的词库。例如，白名单词库中含有分词“机器人”，当用户输入“我要制作一个机器人”的时候，由于“机器人”存在于白名单词库之中，“机器人”被认定为合法分词，反过来讲，即如果白名单没有储存“机器人”这个分词，则可以认为“机器人”属于非法分词。

另外需要说明的是，白名单的建立可以通过MYSQL数据库构成存储体系，并创建与白名单分词类型相关索引，以便更快跟精准地在数据库中定位白名单的分词。

另外，为了进一步降低疑似错误字符的误检率，在：从多个分词中确定位于预设白名单中的分词之前，方法还包括：识别多个分词中的命名实体，并滤除多个分词中的命名实体。在本申请的一些实施例中，可以利用LTP词性标注模型对句子进行词性标注；利用LTP分词结果和LTP词性标注结果对句子进行命名实体识别，将命名识别结果为人名(Nh)、机构名(Ni)或者地名(Ns)的词加入白名单，然后采用将分词和白名单进行比对的方式确定出命名实体。

需要说明的是，命名实体指的是具有实体性质的人物姓名、地点名称、组织机构名称以及各类与客观事实相符合的名称主体本身。命名实体因具有不受使用人使用目的、场景而变化的特点，所以可以排除在错误纠正规则之外，以减少对纠正过程的内容干扰，增加整体纠正过程的准确性。

例如，上述方案中多个分词中包括有：张三、网吧、吃饭、睡觉、打游戏。处理器会根据命名实体查找规则触发函数器，识别上述分词中“张三”(人物姓名)、“网吧”(组织机构名称)为具有命名实体性质的分词，即客观存在的人物姓名与组织机构名称，同时将“张三、网吧”两个分词滤除，在上述过程之后，那么进入白名单判断这一步骤时就只有三个有效分词了，比起五个分词进入白名单进行判断的过程，更具有使得纠错结果更加准确的技术效果。

可选地，获取所述疑似错误信息的至少一个候选纠正信息之前，所述方法还包括：从多个分词中确定与预设集合中的变体词相同的分词，将确定的分词作为疑似错误字符。其中，预设集合可以是通过用户自定义设置的数据库源，以便从中得到所需对比数据。

在本申请的一些实施例中，可以通过以下方式确定目标纠正文本：循环执行以下步骤，直至满足预设条件：采用至少一个候选纠正信息对目标纠正文本的错误信息再次进行纠正；确定再次纠正后得到的文本的困惑度；并基于困惑度确定最终的纠正文本；其中，预设条件包括以下之一：循环次数到达预设阈值、最终的纠正文本与待检测文本相同。

以下结合具体实施例详细说明。

本申请实施例纠错处理过程可以分为以下3个阶段：

1、文本错误检测

该阶段主要目的在于，判断文本是否存在错误需要纠正，如果存在则传递到后面。

具体地，当用户输入了一定长度的语句后，纠错处理系统先读取用户输入的语句全部内容，同时读取预设的数据集(用于后续检测错误的处理过程)，然后纠错处理系统调用纠错规则，纠错规则可以是基于语言技术平台(Language Technology Platform，以下简称为LTP)分词模块或BERT错误检测模块。如果用户输入的语句不存在任何错误，则退出纠错处理过程。

2、生成纠正候选

该阶段主要目的在于，利用一种或多种策略(规则或模型)，生成针对原句的纠正候选。这一阶段是整体流程召回率的保证，同时也是一个模型的上限。

3、评价纠正候选

该阶段主要目的在于，在上一阶段基础上，利用某种评分函数或分类器，结合局部乃至全局的特征，针对纠正候选进行排序，最终排序最高的纠正候选作为最终纠错结果。

本申请实施例中，在错误检测阶段，本方案充分发挥了BERT的强文本表征能力，创新性地利用BERT检测错字，再利用哈工大社会计算与信息检索研究中心提供的语言技术平台(LTP)辅助检测错词和筛选检测结果。在筛选检测结果过程中加入了一些特殊考虑的规则，诸如避开人名、地名、机构名等命名实体之类，从而降低误检率。在评价纠正候选阶段，本方案则是创新性地利用BERT语言模型计算句子困惑度，作为纠正候选的评分函数。此外，本方案也加入了用户自定义词典、用户自定义困惑集模块，允许用户事先给出检测白名单或者指定纠正结果。

图2示出了本申请实施例的一种可选的纠错处理方法的流程图，如图2所示，该方法包括以下流程：

S202，输入待检测句子。

S204，数据读取和处理的步骤，该步骤包括：读取预先建立的常用字字典、读取预先建立的相似音字典、读取预先建立的相似字字典、读取用户建立的自定义词典，作为检测白名单、读取用户建立的自定义困惑集、读取预先建立的词频表，将用户自定义词典也添加到词频表里、加载训练好的BERT中文模型及其字典、加载训练好的LTP分词器模型，并引入用户建立的自定义词典作为外部词典、加载训练好的LTP词性标注模型、加载训练好的LTP命名实体识别模型。

S206，错误检测的步骤。

S2062，文本处理：对待检测句子进行预处理，主要包括去除多余的空格和特殊符号。

S2064，基于LTP分词器的检测错词功能，利用LTP分词模型对句子进行分词、利用LTP词性标注模型对句子进行词性标注、利用LTP分词结果和LTP词性标注结果对句子进行命名实体识别，将命名识别结果为人名(Nh)、机构名(Ni)或者地名(Ns)的词加入白名单、在分词后针对每个词，如果词语在白名单或者词频表里，则不做处理；否，则将其加入疑似错误集中，对于单字词则指定错误类型为字粒度，对于多字词则指定错误类型为词粒度。

S2066，基于BERT语言模型的检测错字功能，提取句子特征(在句子首尾分别加上”[CLS]”开始标志、”[SEP]”结束标志。将句子中的每个字符转换为其在BERT中文模型字典里的字典序号即为句子的特征。如果句子长度小于序列最大长度，则补0直到长度满足)、计算句中每个字符出现的概率(在BERT模型框架的基础上添加一个Softmax层。将句子特征从BERT的输入层输入到模型里，通过中间隐藏层复杂的计算后，Softmax层的输出结果即为BERT字典中每个字出现在句子每个位置的概率(矩阵维度：序列最大长度*BERT字典大小))、找出疑似错字(在剔除白名单中出现的字符的概率后，对剩下的所有字符的概率计算其平均绝对离差值，并且通过变量值与其中位数的离差除以平均绝对离差计算标准得分。对于概率小于平均绝对离差并且标准得分大于阈值的字符，我们认为是疑似错字，将其加入到疑似错误集中)。

S2068，基于用户自定义困惑集的检测错词功能，遍历自定义困惑集的所有变体，如果变体在句子中，则直接将变体加入到疑似错误集中，后续纠正的时候直接用困惑集里对应的本体替换即可。

S208，生成纠正候选文本，具体地：

对于单字词，取其近音字(同音同调字、同音异调字、近音同调字、近音异调字)、同形字以及原字作为纠正候选本文，按照词频大小进行排列；

对于多字词，对词语里的所有字符的近音字、同形字以及原字做笛卡尔积，如果新组成的多字词存在于词频表里，则加入纠正候选本文中，最后按照词频大小进行排列。

S210，评价纠正候选文本。

针对纠正候选，本方案利用句子困惑度作为评价函数进行排序，困惑度越低表示句子越流畅，最终取困惑度最低的纠正候选作为最终纠错结果。为了计算句子困惑度，首先将纠正候选逐个替换到错误位置上，生成新的句子。同样，如S204所述，提取新句子特征，计算每个字出现的概率，然后将每个字出现的概率取log累加起来求平均最后取反，则可得句子困惑度。

S212，循环反馈，直到稳定。

按照上述步骤，可得到原始句子的第一次纠正结果。为了获得更加可靠的结果，将纠正结果作为输入句子进行检测纠正，重复进行直到纠正结果和输入句子内容相同或者达到最大循环次数，则跳出循环，取最后一次的纠正结果作为原始句子的纠正句子。如果发现纠正句子和原始句子内容相同，则说明原始句子不存在错误。

S214，返回纠正句子、错误起始位置、错误结束位置给用户。

采用上述实施例，可以实现以下效果：

1.利用BERT语言模型检测错字和计算句子困惑度，能够捕获长距离的依赖；

本申请实施例在BERT中文预训练模型的基础上，结合实际项目提取的语料库进行微调。利用微调后的BERT语言模型检测错字和计算句子困惑度，充分发挥了BERT的强文本表征能力，从而更能够捕获长距离的依赖。

2，由字粒度扩展到词粒度，实现错字/词纠正

相关技术中的技术方案主要是针对字粒度的查错纠错，如“机七学习是人工智能的重要领域。但是在词粒度上的表现效果则不是很理想，如“及其学习是人工智能的一个重要囹圄。本申请实施例能够由字粒度扩展到词粒度，在检测出疑似错字/词后，利用编辑距离生成候选字/词进行替换，最后取替换后的新句子困惑度最低的候选项作为纠正结果，从而实现错字/词纠正。

3，加入命名实体识别模块，降低误检率

对于人名、地名、机构名等命名实体，已有的技术方案由于语料库或者词典不能涵盖所有命名实体，往往容易造成误检。命名实体指的是具有实体性质的人物姓名、地点名称、组织机构名称以及各类与客观事实相符合的名称主体本身。命名实体因具有不受使用人使用目的、场景而变化的特点，所以可以排除在错误纠正规则之外，以减少对纠正过程的内容干扰，增加整体纠正过程的准确性。本申请实施例通过利用语言技术平台(LTP)实现命名实体识别，避开此类词语的检测，从而降低误检率。

另外，人名、地名、机构等名称命名规则可以通过模型训练或自定义数据库集加以丰富，以适应社会发展的需求以及用户个人的需求。

需要说明的是，本申请实施例中所涉及的数据存储以及调用，如白名单、命名规则等，可以通过封闭手段获得，封闭手段一般指在不与广域网连接的情况下就可以实现的计算机手段，因此，本申请实施例中的方案还可以通过大数据的方式通过网络获取新的词汇、短语以及单个字，以丰富分词词库，例如，常用的网络用语以及社会中发生的特殊事件，所涉及到的词汇基本都有一定的特殊性，那么通过大数据的方式可以及时更新这些数据信息，并应用到纠错处理中，使得纠错处理具有实时动态更新的效果。

图3是根据本申请实施例的一种纠错处理装置的结构框图。如图3所示，该装置包括：

第一获取模块30，用于获取待检测文本中的疑似错误信息。其中，第一获取模块可以包括获取单元和概率确定单元，用于获取所述待检测文本中每个字符在所述待检测文本中的位置出现的概率；基于所述概率确定所述待检测文本中的疑似错误字符；

第二获取模块32，用于获取疑似错误信息的至少一个候选纠正信息；

纠正模块34，用于使用至少一个候选纠正信息分别对待检测文本进行纠正，得到至少一个目标候选文本；

第一确定模块36，用于确定至少一个目标候选文本的困惑度；

第二确定模块38，用于依据困惑度从至少一个目标候选文本中确定目标纠正文本。其中，第二确定模块可以包括比较单元与结果确定单元，用于比较所述至少一个目标候选文本的困惑度中各个困惑度的大小，得到最小困惑度；确定所述最小困惑度对应的目标候选文本为所述目标纠正文本。

根据上述实施例，获取2个文本的困惑度，文本A有1000个单词，并且可以用7.95个bits给每个单词编码(其中，bits为句子位置上概率分布的信息熵，其换算为困惑度是2^(190))，此时，文本A上每个词有2^(7.95)的困惑度，文本B有1000个单词，并且可以用6.55个bits给每个单词编码，文本B上每个词有2^(6.55)的困惑度，在此之后将文本A与文本B的困惑度进行比较，得到困惑度较小的文本B，并以此为输出结果将文本B确定为目标纠正文本。

图4为根据本申请实施例的另一种纠错处理方法的流程图。如图4所示，该方法包括：

步骤S402，获取待检测文本的多个候选纠正信息；

步骤S404，使用多个候选纠正信息分别对待检测文本进行纠正，得到多个目标候选文本；

步骤S406，确定多个目标候选文本的评价指标，其中，评价指标用于表示至少一个目标候选文本在上下文之间的通顺程度；在本申请的一些实施例中，上述评价指标包括：困惑度。

步骤S408，依据评价指标从至少一个目标候选文本中确定目标纠正文本。以评价指标为困惑度为例，该步骤S408可以表现为以下实现方式：比较至少一个目标候选文本的困惑度中每个困惑度之间的大小，得到其中最小的困惑度；确定最小困惑度对应的目标候选文本为目标纠正文本。

步骤S408主要目的在于，在上一阶段基础上，利用某种评分函数或分类器，结合局部乃至全局的特征，针对纠正候选进行排序，最终排序最高的纠正候选作为最终纠错结果。

针对原技术方案中存在的各种问题。在错误检测阶段，本申请实施例充分发挥了BERT的强文本表征能力，创新性地利用BERT检测错字，再利用哈工大社会计算与信息检索研究中心提供的语言技术平台(LTP)辅助检测错词和筛选检测结果。在筛选检测结果过程中加入了一些特殊考虑的规则，诸如避开人名、地名、机构名等命名实体之类，从而降低误检率。在评价纠正候选阶段，本申请实施例中则是创新性地利用BERT语言模型计算句子困惑度，作为纠正候选的评分函数。此外，本方案也加入了用户自定义词典、用户自定义困惑集模块，允许用户事先给出检测白名单或者指定纠正结果。

需要说明的是，图4所示实施例的优选实施方式可以参见图1-2所示实施例的相关描述，此处不再赘述。

本申请实施例还提供了一种非易失性存储介质，该非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行以上的纠错处理方法，具体地，该方法包括：获取待检测文本中的疑似错误信息；获取所述疑似错误信息的至少一个候选纠正信息；使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；确定所述至少一个目标候选文本的困惑度；依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。

本申请实施例还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行以上的纠错处理方法，具体地，该方法包括：获取待检测文本中的疑似错误信息；获取所述疑似错误信息的至少一个候选纠正信息；使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；确定所述至少一个目标候选文本的困惑度；依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种纠错处理方法，其特征在于，包括：

获取待检测文本中的疑似错误信息；

获取所述疑似错误信息的至少一个候选纠正信息；

使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；

确定所述至少一个目标候选文本的困惑度；

依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。

2.根据权利要求1所述的方法，其特征在于，依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本，包括：

比较所述至少一个目标候选文本的困惑度中各个困惑度的大小，得到最小困惑度；

确定所述最小困惑度对应的目标候选文本为所述目标纠正文本。

3.根据权利要求1所述的方法，其特征在于，获取待检测文本中的疑似错误信息，包括：

获取所述待检测文本中每个字符在所述待检测文本中的位置出现的概率；

基于所述概率确定所述待检测文本中的疑似错误字符。

4.根据权利要求3所述的方法，其特征在于，基于所述概率确定所述待检测文本中的疑似错误字符，包括：

比较所述概率和第一阈值；

在所述概率小于所述第一阈值时，确定所述概率对应的字符为疑似错误字符。

5.根据权利要求3所述的方法，其特征在于，基于所述概率确定所述待检测文本中的疑似错误字符，包括：

统计所述待检测文本中所有字符在所述待检测文本中相应位置出现的概率；

确定所有概率的平均绝对离差；

依据所述所有字符中字符的离差与所述平均绝对离差确定指标值；

比较所述指标值和第二阈值；比较所述概率和所述平均绝对离差；

将满足以下条件的字符确定为所述疑似错误字符：所述概率小于所述平均绝对离差，且所述指标值大于第二阈值。

6.根据权利要求5所述的方法，其特征在于，所述指标值包括：所述离差与所述平均绝对离差的比值。

7.根据权利要求5所述的方法，其特征在于，统计所述待检测文本中所有字符在所述待检测文本中相应位置出现的概率之前，所述方法还包括：

对所述待检测文本进行分词处理，得到多个分词；

确定所述多个分词中的合法分词，并从所述多个分词中滤除所述多个分词中的合法分词。

8.根据权利要7所述的方法，其特征在于，确定所述多个分词中的合法分词，包括：

从所述多个分词中确定位于预设白名单中的分词，并将位于预设白名单中的分词作为合法分词。

9.根据权利要7所述的方法，其特征在于，从所述多个分词中确定位于预设白名单中的分词之前，所述方法还包括：

识别所述多个分词中的命名实体，并滤除所述多个分词中的命名实体。

10.根据权利要1所述的方法，其特征在于，获取所述疑似错误信息的至少一个候选纠正信息之前，所述方法还包括：

从所述多个分词中确定与预设集合中的变体词相同的分词，将确定的分词作为所述疑似错误字符。

11.根据权利要求1至10中任意一项所述的方法，其特征在于，依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本，包括：

循环执行以下步骤，直至满足预设条件：采用所述至少一个候选纠正信息对所述目标纠正文本的错误信息再次进行纠正；确定再次纠正后得到的文本的困惑度，并基于困惑度确定最终的纠正文本；其中，所述预设条件包括以下之一：循环次数到达预设阈值、所述最终的纠正文本与所述待检测文本相同。

12.一种纠错处理方法，其特征在于，包括：

获取待检测文本的多个候选纠正信息；

使用所述多个候选纠正信息分别对所述待检测文本进行纠正，得到多个目标候选文本；

确定所述多个目标候选文本的评价指标，其中，所述评价指标用于表示至少一个目标候选文本在上下文之间的通顺程度；

依据所述评价指标从所述至少一个目标候选文本中确定目标纠正文本。

13.一种纠错处理装置，其特征在于，包括：

第一获取模块，用于获取待检测文本中的疑似错误信息；

第二获取模块，用于获取所述疑似错误信息的至少一个候选纠正信息；

纠正模块，用于使用所述至少一个候选纠正信息分别对所述待检测文本进行纠正，得到至少一个目标候选文本；

第一确定模块，用于确定所述至少一个目标候选文本的困惑度；

第二确定模块，用于依据所述困惑度从所述至少一个目标候选文本中确定目标纠正文本。

14.一种非易失性存储介质，其特征在于，所述非易失性存储介质包括存储的程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至11中任意一项所述的纠错处理方法。

15.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至11中任意一项所述的纠错处理方法。