CN111639489A

CN111639489A - 中文文本纠错系统、方法、装置及计算机可读存储介质

Info

Publication number: CN111639489A
Application number: CN202010414064.1A
Authority: CN
Inventors: 李振; 张刚; 鲍东岳; 尹正; 张雨枫; 刘昊霖; 陈厚霖; 傅佳美
Original assignee: Minsheng Science And Technology Co ltd
Current assignee: Minsheng Science And Technology Co ltd
Priority date: 2020-05-15
Filing date: 2020-05-15
Publication date: 2020-09-08

Abstract

本发明提供一种中文文本纠错系统、方法、装置及计算机可读存储介质，所述中文文本纠错系统及方法通过机器学习的多种方法检查以及修正中文文本中出现的多种错误，将不通顺的文本修正为通顺的、适合阅读的中文文本，有其针对句子中出现的形状相似或者发音相同的文字进行修正；通过困惑度查询到错误字符发生的位置，再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换，最终通过评分方法选择返回正确的中文语言表述。本发明采用多线程处理，将输入的短文本分成两批，分两个进程一起跑，加快一倍速度，在并发的条件下，现阶段中文拼写检查+中文拼写纠正的处理效率为500QPS。

Description

中文文本纠错系统、方法、装置及计算机可读存储介质

【技术领域】

本发明涉及计算机文字处理技术领域，尤其涉及一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质。

【背景技术】

中文作为现在世界上使用人数最多的语言在机器学习领域的发展尚存在非常多的局限性，由于中文的字音字形语法顺序等都较为复杂，所以不论是在人工输入或者机器识别领域，中文的拼写检查与纠错都有非常大的需求量。

同时，由于中文作为非字母文字，在NLP的处理方法上与英文为首的大量字母文字存在着非常多的不同。其区别主要表现在，中文书面文本单词之间是没有空间的，因此中文分词技术是在处理中文文本中碰到的第一个难点。其次，中文词性的标注很大程度上取决于该词的前后文以及所处位置，而英文词语的词性可以依赖于单词的拼写方式，因此词性标注的过程依赖特征和算法都不尽相同。目前出现的中文拼写检查以及纠错方法相对比较落后，对NLP的后续工作地进行比如情感识别、篇章分类等工作形成了障碍。

因此，有必要研究一种基于机器学习模型的中文文本纠错系统、方法、装置及计算机可读存储介质来应对现有技术的不足，以解决或减轻上述一个或多个问题。

【发明内容】

有鉴于此，本发明提供了一种中文文本纠错系统、方法、装置及计算机可读存储介质，本发明通过机器学习的多种方法检查以及修正中文文本中出现的多种错误，将不通顺的文本修正为通顺的、适合阅读的中文文本；通过困惑度查询到错误字符发生的位置，再利用混淆集以及语言模型打分的方式选择正确的修改方式对错误字符进行替换，最终返回正确的中文语言表述。

一方面，本发明提供一种中文文本纠错系统，所述系统基于机器学习模型，所述系统包括：

中文文本预训练模块，用于对中文文本进行预训练，并获取中文文本的困惑度、混淆集及语言模型；

中文文本输入模块，对输入的文本进行预处理，删除非常用标点以及长度异常的空格，转换中英文标点以及编码格式；

中文拼写检查模块，用于当中文文本中字符有拼写错误时，自动返回不正确字符的位置；

中文拼写纠正模块，通过预训练模块以及中文拼写检查模块定位错误字符位置，使用候选词逐一替换字符，通过语言模型计算通顺度结果，选择最优拼写纠正文本输出。

如上所述的方面和任一可能的实现方式，进一步提供一种中文文本纠错方法，包括所述的中文文本纠错系统，所述方法包括以下步骤：

所述中文文本纠错方法包括以下步骤：

S1：进行中文文本预训练，获取中文文本的困惑度、混淆集及语言模型；

S2：对输入的文本进行预处理，删除非常用标点以及长度异常的空格，转换中英文标点以及编码格式；

S3：将每个字符或标点作为一个位置，以字符为单位做余下处理，当中文文本中有拼写错误时，系统返回不正确字符的位置；

S4：通过错误检测定位所有疑似错误后，使用候选词逐一替换该字符，基于语言模型得到类候选短文本集的通顺度计算结果，最终选择最优拼写纠正文本输出。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S1具体包括：

S11：对中文文本进行自然语言处理，通过困惑度来衡量文本质量的优劣，并计算每个分词上的困惑度；

S12：对每个存在不正确可能的字符，根据发音、形状相似性以及基于统计上的易混淆字符生成一个候选集，最终生成混淆集；

S13：采用联合二元和三元文法的语言模型，获取得分语言模型,计算每个候选句子的得分；

所述S11-S13顺序不固定。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S11中的困惑度计算方法具体为：

其中，H(p)为概率分布p的熵，x为样本点，一个随机变量X的困惑度为定义在X的概率分布上的X所有可能取值为x的部分。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S13具体为：将每个语言模型替换为每个字符串的概率分布P(W)，假设P(W)为字符串作为句子的概率，则概率的公式计算如下：

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₂x₃)……(Bigram)

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₁x₂x₃)……(Trigram)

其中，x₁表示第一个词，x₂表示第二个词并以此类推；P(x₄|x₁x₂x₃)表示前面三个词是x₁x₂x₃的情况下第四个词是x₄的概率；x₁x₂……x_n-1作为历史，由马尔科夫假设获得n元语言模型，n为2或3。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S4具体包括：

S41：取得疑似错误字符的替换字符候选集，通过错误检测定位所有疑似错误后，在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词；

S42：使用候选字对字符所在位置进行替换，对于可替换的每个字符，枚举混淆集的每个字来替换原始字符，由此获得替换掉疑似错误字符的短文本候选集；

S43：基于S13中的n元语言模型得到候选短文本的通顺度排序结果，选择通顺度得分最高的句子作为最终候选文本。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S43具体为：

S431：以词语为最小计算单元，利用现有中文分词模型进行分词；

S432：基于特定语言模型、在特定语料库中通过计算常用词语相对应出现的频率计算得到通顺度；

S433：如果文本通顺度大于预定义的阈值，则替换原始文本；

S434：如果最终候选文本通顺度小于预定义的阈值，则原始文本是正确的，保留原始文本。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述S3具体包括：

S31：去除训练语料中的特殊符号，替换文本中无效字符，所述无效字符为除中文、英文、数字、常用标点以外字符；

S32：长文本分割为短文本，根据特定标点符号以及空格将长文本切分为短文本。

S33：返回疑似不正确字符位置，利用困惑度结合词出现的概率计算每个字符的似然概率值，如果字符的似然概率值低于文本的平均概率值，则判定该字是疑似错别字返回该字符在文本中的位置。

如上所述的方面和任一可能的实现方式，进一步提供一种中文文本纠错装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的中文文本纠错的处理程序，所述中文文本纠错的处理程序被所述处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。

如上所述的方面和任一可能的实现方式，进一步提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有中文文本纠错的处理程序，所述中文文本纠错的处理程序被处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。

与现有技术相比，本发明可以获得包括以下技术效果：

1、本发明采用多线程处理，可以多个文本句子同时并发，纠正处理效率为500QPS；

2、本发明通过机器学习的多种方法检查以及修正中文文本中出现的多种错误，将不通顺的文本修正为通顺的、适合阅读的中文文本；

3、本发明通过困惑度查询到错误字符发生的位置，再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换，最终返回正确的中文语言表述。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明一个实施例提供的中文文本纠错系统的结构图；

图2是本发明一个实施例提供的中文文本纠错方法的流程图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

本发明提供一种基于机器学习模型的中文文本纠错系统、方法、装置及可读存储介质。如图1所示，所述中文文本纠错系统具体包括：

1、中文拼写检查模块，输入语料包含多个正确或者错误的句子，错误种类包括多字、缺字、错字、乱序等等。每个字符或标点算一个位置，以字符为单位做余下处理。如果句子中有任何拼写错误，系统应该自动返回不正确字符的位置。以下位中文拼写检查部分的计算步骤：

(1)去除训练语料中的特殊符号。替换文本中大量无效字符(除中文、英文、数字、常用标点以外字符)以减小计算量增加计算效率，实例：删除单个空格：“付款\s到\t期”—“付款到期”；常见符号识别错误：“议付行＝中国民生银行”—“议付行:中国民生银行”；罕见字符删除：“『四”—“四”

(2)长文本分割为短文本。根据特定标点符号([，。.:])以及空格(\s{2}|\n)将长文本切分为短文本，如：“单据必须自运输单据签发日或服务提供日起天内提交。(不能晚于信用证有效期)”—[“单据必须自运输单据签发日或服务提供日起天内提交”,”不能晚于信用证有效期”]

(3)返回疑似不正确字符位置。字符的困惑度计算建立在词语的基础上，利用困惑度结合词出现的概率计算每个字符的似然概率值，如果某字的似然概率值低于文本的平均概率值，则判定该字是疑似错别字返回该字在文本中的位置

2、中文拼写纠正模块，通过中文拼写检查模块和预训练模块定位错误字符位置，使用候选词逐一替换字符，通过语言模型计算结果，选择最优拼写纠正文本输出；

通过错误检测定位所有疑似错误后，使用候选词逐一替换该字符，基于语言模型得到类候选短文本的通顺度计算结果，最终选择最优拼写纠正文本输出

(1)取得疑似错误字符的替换字符候选集。通过错误检测定位所有疑似错误后，在混淆集中取得所有疑似错字的音似、形似以及常见识别错误候选词

(2)使用候选字对该字符所在位置进行替换。对于这个句子中可以替换的每个字符，系统将枚举其混淆集的每个字来替换原始字符。由此，我们可以得到一个替换掉疑似错误字符的短文本候选集

(3)基于语言模型得到候选短文本的通顺度排序结果。最后，选择通顺度得分最高的句子作为最终候选文本。该步骤以词语为最小计算单元，首先利用现有中文分词模型进行分词；通顺度的计算运用到特定语料库，包括其中的常用词语以及相对应出现频率计算得到通顺度；如果该文本通顺度大于预定义的阈值，则替换原始文本；如果最终候选文本通顺度小于预定义的阈值，则认为原始文本是正确的，决定保留原始文本

3、中文文本预训练模块，包括：

(1)混淆集，由容易被混淆的字符组成的数据集，在文本的拼写纠正中起着关键作用。基于拼音的输入法往往会导致发音相似的字符出现拼写错误；而基于字形方法的输入法通常会导致与字符形状相关的错误。举例如下：

同音字：情晴擎氢顷……

形近字：请晴情清青……

易混淆字(基于统计):妻西、嫂搜、……

由此，对于每个可能不正确的字符，我们根据发音、形状相似性以及基于统计上的易混淆字符生成一个候选集。

(2)困惑度计算

困惑度公式：

其中，H(p)是概率分布p的熵，x是样本点。因此一个随机变量X的困惑度是定义在X的概率分布上的X所有可能取值为x的部分。

(3)候选短文本通顺度计算：

系统采用联合二元和三元文法语言模型，计算每个候选句子的得分。一个语言模型代表一个字符串的概率分布P(W)，假设P(W)是字符串作为句子的概率，则概率由下边的公式计算：

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₂x₃)……(Bigram)

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₁x₂x₃)……(Trigram)

其中，x₁表示第一个词，x₂表示第二个词，以此类推。P(x₄|x₁x₂x₃)表示前面三个词是x₁x₂x₃的情况下第四个词是x₄的概率。x₁x₂……x_n-1称作历史。根据马尔科夫假设，一个词只和他前面n-1个词相关性最高，这就是n元语言模型，在本发明中，n为2或3。

(4)特定语料库

特定语料库是针对各行业或者语言风格所建立的包含常见词语以及词频的语料词典。语料库的生成需要收集大量相关文章，对文章进行清洗、分词、词频统计以及输出。最终生成针对相应行业或者语言风格(新闻、论坛等)的词语备选库。

4、中文文本输入模块，对输入的文本进行预处理，删除非常用标点以及长度异常的空格，转换中英文标点以及编码格式。

如图2所示，本发明所述中文文本纠错方法具体包括：

所述S1具体包括：

所述S11-S13顺序不固定，所述S11中的困惑度计算方法具体为：

所述S13具体为：将每个语言模型替换为每个字符串的概率分布P(W)，假设P(W)为字符串作为句子的概率，则概率的公式计算如下：

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₂x₃)……(Bigram)

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₁x₂x₃)……(Trigram)

所述S4具体包括：

所述S43具体为：

S433：如果文本通顺度大于预定义的阈值，则替换原始文本；

所述S3具体包括：

本发明还提供一种中文文本纠错装置，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的中文文本纠错的处理程序，所述中文文本纠错的处理程序被所述处理器执行时实现如所述的中文文本纠错方法的步骤。

本发明还提供一种可读存储介质，所述计算机可读存储介质上存储有中文文本纠错的处理程序，所述中文文本纠错的处理程序被处理器执行时实现如所述的中文文本纠错方法的步骤。

本发明所述中文文本纠错系统及方法通过机器学习的多种方法检查以及修正中文文本中出现的多种错误，将不通顺的文本修正为通顺的、适合阅读的中文文本；通过困惑度查询到错误字符发生的位置，再利用混淆集以及语言模型的方式选择正确的修改方式对错误字符进行替换，最终返回正确的中文语言表述。本发明采用多线程处理，将输入的短文本分成两批，分两个进程一起跑，加快一倍速度，在并发的条件下，现阶段中文拼写检查+中文拼写纠正的处理效率为500QPS。

以上对本申请实施例所提供的中文文本纠错系统、方法、装置及可读存储介质，进行了详细介绍。以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

如在说明书及权利要求书当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求书并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求书当中所提及的“包含”、“包括”为一开放式用语，故应解释成“包含/包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。说明书后续描述为实施本申请的较佳实施方式，然所述描述乃以说明本申请的一般原则为目的，并非用以限定本申请的范围。本申请的保护范围当视所附权利要求书所界定者为准。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上述说明示出并描述了本申请的若干优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述申请构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求书的保护范围内。

Claims

1.一种中文文本纠错系统，所述系统基于机器学习模型，其特征在于，所述系统包括：

2.一种中文文本纠错方法，包括上述权利要求1所述的中文文本纠错系统，其特征在于，所述中文文本纠错方法包括以下步骤：

3.根据权利要求2所述的中文文本纠错方法，其特征在于，所述S1具体包括：

S13：采用联合二元和三元文法的语言模型，获取得分语言模型，计算每个候选句子的得分；

所述S11-S13顺序不固定。

4.根据权利要求3所述的中文文本纠错方法，其特征在于，所述S11中的困惑度计算方法具体为：

5.根据权利要求3所述的中文文本纠错方法，其特征在于，所述S13具体为：将每个语言模型替换为每个字符串的概率分布P(W)，假设P(W)为字符串作为句子的概率，则概率的公式计算如下：

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₂x₃)......(Bigram)

P(W)＝P(x₁)P(x₂|x₁)P(x₃|x₁x₂)P(x₄|x₁x₂x₃)......(Trigram)

6.根据权利要求3所述的中文文本纠错方法，其特征在于，所述S4具体包括：

7.根据权利要求6所述的中文文本纠错方法，其特征在于，所述S43具体为：

S433：如果文本通顺度大于预定义的阈值，则替换原始文本；

8.根据权利要求2所述的中文文本纠错方法，其特征在于，所述S3具体包括：

S32：长文本分割为短文本，根据特定标点符号以及空格将长文本切分为短文本；

9.一种中文文本纠错装置，其特征在于，所述装置包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的中文文本纠错的处理程序，所述中文文本纠错的处理程序被所述处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有中文文本纠错的处理程序，所述中文文本纠错的处理程序被处理器执行时实现如权利要求2至8中任一项所述的中文文本纠错方法的步骤。