CN111460794A

CN111460794A - 一种增加拼写纠错功能的语法纠错方法

Info

Publication number: CN111460794A
Application number: CN202010164287.7A
Authority: CN
Inventors: 孙科; 郭伟
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-07-28

Abstract

本发明公开了一种增加拼写纠错功能的语法纠错方法，包括：获取待纠错的文本；对所述待纠错的文本中的单词进行检测和纠正拼写错误，得到候选文本集合，根据预设语言模型计算候选文本集合中每个文本的出现概率，选取前预设数目个概率的文本并构造候选文本子集合；对所述候选文本子集合进行语法纠错，得到候选结果集合，并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。本发明公开了一种增加拼写纠错功能的语法纠错方法可有效检查和纠正待纠错文本中的拼写错误，降低因拼写错误而使语法纠错发生误判的可能性，提高语法纠错的性能；还可在输出结果中可同时体现待纠错文本中的拼写错误和语法错误，提供更好的用户体验。

Description

一种增加拼写纠错功能的语法纠错方法

技术领域

本发明涉及数据挖掘与自然语言处理术领域，更具体地说，本发明涉及一种增加拼写纠错功能的语法纠错方法。

背景技术

训练语法纠错模型前先对平行训练语料进行拼写纠错，提高训练语料的质量，进而提高语法纠错模型的性能。如现有技术中没有对待纠错文本进行拼写检查和纠错，当待纠错文本中出现拼写错误时会有降低语法纠错性能的风险，比如“This place has awarmm and dry summers”，语法纠错模块可能会把“warmm”误当做名词，而不去批改“warmm”前面的冠词“a”，得到错误的结果“This place has a warmm and dry summers”，对拼写错误和语法错误均未做出纠错。也就是说，存在如下问题：1)没有将待纠错的文本进行拼写检查和纠错，如果待纠错文本有拼写错误时会有降低语法纠错性能的风险；2)纠错结果中只能体现语法错误，无法同时体现拼写错误。

因此，有必要提出一种增加拼写纠错功能的语法纠错方法，以至少部分地解决现有技术中存在的问题。

发明内容

在发明内容部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

为至少部分地解决上述问题，本发明提供了一种增加拼写纠错功能的语法纠错方法，包括如下步骤：

步骤一，获取待纠错的文本；

步骤二，对所述待纠错的文本中的单词进行检测和纠正拼写错误，得到候选文本集合，根据预设语言模型计算候选文本集合中每个文本的出现概率，选取前预设数目个概率的文本并构造候选文本子集合；

步骤三，对所述候选文本子集合中的每个文本进行语法纠错，得到候选结果集合，并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本，进行输出。

优选的是，其中，所述预设语言模型为预先训练的n-gram语言模型。

优选的是，其中，步骤三中还包括预设机器学习模型，根据所述预设机器学习模型对所述候选文本子集合进行语法纠错，以得到所述候选结果集合。

优选的是，其中，所述预设机器学习模型为Transformer语法纠错模型。

一种增加拼写纠错功能的语法纠错装置，包括：

获取模块，用于获取待纠错的文本；

检测纠正模块，用于对所述待纠错的文本中的单词进行检测和纠正拼写错误，并得到候选文本集合，根据预设语言模型计算候选文本集合中每个文本的出现概率，选取前三位概率的文本并构造候选文本子集合；

语法纠正模块，用于对所述候选文本子集合进行语法纠错，得到候选结果集合，并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。

优选的是，其中，所述检测纠正模块包括检测模块和拼写纠正模块，所述检测模块用于对所述待纠错的文本中的单词进行检测，所述拼写纠正模块用于对所述待纠错的文本中的单词进行纠正拼写错误。

优选的是，其中，所述检测纠正模块还包括预设语言模块，所述预设语言模块用于计算候选文本集合中每个文本的出现概率，选取前三位概率的文本并构造候选文本子集合。

优选的是，其中，所述语法纠正模块内还包括概率模块，所述概率模块用于获取所述候选结果集合中的每个文本的后验概率。

优选的是，其中，所述语法纠正模块内还包括调整模块，所述调整模块用于调整每个文本的后验概率，以提高每个文本的后验概率的准确性。

本发明所述的增加拼写纠错功能的语法纠错方法，本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明所述的增加拼写纠错功能的语法纠错方法的流程图。

图2为本发明所述的增加拼写纠错功能的语法纠错方法的实例流程图。

图3为本发明所述的增加拼写纠错功能的语法纠错装置的结构示意图。

图4为本发明所述的增加拼写纠错功能的语法纠错装置的另一结构示意图

具体实施方式

下面结合附图以及实施例对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。

本发明提供了一种增加拼写纠错功能的语法纠错方法，该方法可用于书写程序、系统或装置中，且该方法对应的执行主体可以是手机、平板、计算机等各种终端或者还可以是服务器，如图1、图2所示，该方法包括步骤S101至步骤S103：

在步骤S101中，获取待纠错的文本；

在步骤S102中，对所述待纠错的文本中的单词进行检测和纠正拼写错误，得到候选文本集合，根据预设语言模型计算候选文本集合中每个文本的出现概率，选取前预设数目个概率的文本并构造候选文本子集合；

在步骤S103中，对所述候选文本子集合进行语法纠错，得到候选结果集合，并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。

上述技术方案的工作原理：在步骤S101中，设定获取待纠错的文本为This placehas warmm and dry summers；在步骤S102中，对This place has warmm and dry summers中的单词进行检测和纠正拼写错误，也就是，查询词典，找到待纠错文本中拼写错误的单词“warmm”，利用编辑距离从词典中找出“warmm”的最佳候选词集合W：{“warm”，“warms”，“swarm”，“warman”，“warmer”，……}。将W中每个单词分别代替待纠错文本中拼写错误的单词“warmm”，组成待纠错候选文本集合S：{“This place has a warm and dry summers”，“This place has a warms and dry summers”，“This place has a swarm and drysummers”，……}，并根据预设语言模型计算候选文本集合S中每个文本的出现概率，选取前预设数目个概率的文本，预设数目为3，也就是概率最大的前3个，构造候选文本子集合S`：{“This place has a warm and dry summers”，“This place has a warms and drysummers”，“This place has a swarm and dry summers”}，作为拼写纠错后的输出，同时送入步骤S103；在步骤S103对候选文本子集合S`进行语法纠正计算，得出候选结果集合M：{“This place has warm and dry summers”，“This place has warms and drysummers”，“This place has a swarm and dry summers”}，并将候选结果集合M中具有最大后验概率的文本作为最终语法纠错的文本，即，输出“This place has warm and drysummers”为最终语法纠错的文本。

上述技术方案的有益效果：1.可有效检查和纠正待纠错文本中的拼写错误，降低因拼写错误而使语法纠错发生误判的可能性，提高语法纠错的性能；2.在输出结果中可同时体现待纠错文本中的拼写错误和语法错误，提供更好的用户体验。

在一个实施例中，所述预设语言模型为预先训练的n-gram语言模型、HAL语言模型、LSA语言模型或LDA语言模型。

上述技术方案的工作原理：这里利用预先训练的n-gram语言模型计算S中每个文本的出现概率，候选文本集合S：{“This place has a warm and dry summers”，“Thisplace has a warms and dry summers”，“This place has a swarm and drysummers”，……}，这里n设定为3，也就是，得出人们经常书写的文本中前三位概率最大的，得到候选文本子集合S`：{“This place has a warm and dry summers”，“This place hasa warms and dry summers”，“This place has a swarm and dry summers”}。

预设语言模型还可以为HAL语言模型(Hyperspace Analogue to Languagemethod)或LSA语言模型(Latent Semantic Analysis)、LDA语言模型(Latent DirichletAllocation)。

上述技术方案的有益效果：通过使用n-gram语言模型，方便得出人们经常书写的文本中前几个概率最大的，进而得到候选文本子集合。

在一个实施例中，步骤三中还包括预设机器学习模型，根据所述预设机器学习模型对所述候选文本子集合进行语法纠错，以得到所述候选结果集合。

上述技术方案的工作原理：利用预设机器学习模型对候选文本子集合进行语法纠错，以得到所述候选结果集合。

上述技术方案的有益效果：方便快速地对候选文本子集合进行语法纠错，以提高效率。

在一个实施例中，所述预设机器学习模型为Transformer语法纠错模型。

上述技术方案的工作原理：这里预设机器学习模型设定为Transformer语法纠错模型；

另外，还可以选用RNN(Recurrent Neural Network)、CNN(Convolutional NeuralNetwork)、DNN(Deep Neural Network)、LSTM(Long Short-Term Memory)等模型。

上述技术方案的有益效果：该Transformer语法纠错模型的训练速度快，还可以使用其他模型。

进一步地，在一个实施例中，设定候选文本子集合为S`；

所述Transformer语法纠错模型包括6层Encoder和6层Decoder，每层Encoder由Self-Attention和Feed Forward组成，每层Decoder比Encoder多了一个Encoder-DecoderAttention，Encoder最底层通过Word2Vec将S`中每个输入文本中的每个单词转化为词向量X(维度＝512)，送入Self-Attention，以文本Y中的第一个单词“Y1”为例，Self-Attention计算步骤如下：

步骤(1)，将每个词向量乘以权重矩阵得到查询向量q、键向量k、值向量v，维度＝64；

步骤(2)，计算当前“Y1”的词向量对输入语句中所有单词的关联程度，用score表示，“Y1”和“Y1”的关联程度score1＝q1·k1，“Y1”和“Y2”的关联程度score2＝q1·k2，依次类推；

步骤(3)，为了梯度稳定，将score除以维度64的平方根，即score＝score/8；

步骤(4)，对score进行softmax，得到的值都是正值且和为1；

步骤(5)，softmax点乘值向量v，得到加权的值向量V，强化与“Y1”关联程度强的单词，弱化与“Y1”关联程度弱的单词；

步骤(6)，对v求和，得到Self-Attention在当前“Y1”处的输出结果z，z＝∑v；

FFN(Z)＝max(0，ZW₁+b₁)W₂+b₂ (2)

其中，q为查询向量、k为键向量、v为值向量；q1表示Y1的查询向量，k1表示Y1的键向量，k2表示Y2的键向量；

公式(1)中Q、K、V分别表示向量q、k、v组成的矩阵，也就是，Q是由查询向量q组成的矩阵；K是由键向量k组成的矩阵；V是由值向量v组成的矩阵；d_k表示q、k、v的维度；K^T表示是矩阵K的转置矩阵；

公式(2)中W1、W2都表示激活函数的系数，b1、b2表示偏置。

上述技术方案的工作原理：这里，文本Y为“This place has a warm and drysummers”，Y1为“This”，Y2为“place”；

利用机器学习方法训练transformer语法纠错模型，其中，Transformer主要由6层Encoder和6层Decoder组成，每层Encoder由Self-Attention和Feed Forward组成，每层Decoder比Encoder多了一个Encoder-Decoder Attention。Transformer的语法纠错的流程如图3所示，Encoder最底层通过Word2Vec将候选文本子集合为S`中每个输入语句比如“This place has a warm and dry summers”中每个单词转化为词向量X(维度＝512)，送入Self-Attention，以第一个单词“This”为例，Self-Attention计算步骤如下：

步骤(2)，计算当前“Y1”的词向量对输入语句中所有单词的关联程度，用score表示，“This”和“This”的关联程度score1＝q1·k1，“This”和“place”的关联程度score2＝q1·k2，依次类推；

步骤(4)，对score进行softmax，得到的值都是正值且和为1；

步骤(5)，softmax点乘值向量v，得到加权的值向量V，强化与“This”关联程度强的单词，弱化与“Y1”关联程度弱的单词；

步骤(6)，对v求和，得到Self-Attention在当前“This”处的输出结果z，z＝∑v；

FFN(Z)＝max(0，ZW₁+b₁)W₂+b₂ (2)

其中，Self-Attention的计算是用矩阵形式实现的，可用公式(1)表示，并采用了多头注意力机制(Multi-Head Attention，相当于8个Self-Attention集成)计算，Self-Attention的输出作为Feed Forward的输入，Feed Forward有两层激活函数，其计算可用公式(2)表示，Encoder最上层的Feed Forward的输出作为Decoder的输入，Decoder的Self-Attention以及Feed Forward的计算方式和Encoder里面的相同，Decoder中Encoder-Decoder Attention的q来自于Decoder的上一个输出，k和v来自于Encoder的输出，其计算方式与Self-Attention也相同。Decoder的最上层输出一个实数向量，Linear把该实数向量投射到一个对数几率向量里，对数几率向量里每个值代表一个候选单词的分数，softmax把这些分数变成概率，概率最高的值对应的候选单词作为Transformer当下的输出，并且在下一次解码时把该输出作为Decoder最底层的输入，这样就分别得到S中3个输入语句对应的语法纠错结果，3个结果组成候选结果集合M:{“This place has warm and dry summers”，“This place has warms and dry summers”，“This place has a swarm and drysummers”}。

上述技术方案的有益效果：通过利用机器学习方法训练transformer语法纠错模型，可以快速得到候选结果集合，提高了纠错效率。

如图3、图4所示，在一个实施例中，一种增加拼写纠错功能的语法纠错装置，包括：

获取模块301，用于获取待纠错的文本；

检测纠正模块302，用于对所述待纠错的文本中的单词进行检测和纠正拼写错误，并得到候选文本集合，根据预设语言模型计算候选文本集合中每个文本的出现概率，选取前三位概率的文本并构造候选文本子集合；

语法纠正模块303，用于对所述候选文本子集合进行语法纠错，得到候选结果集合，并将候选结果集合中具有最大后验概率的文本作为最终语法纠错的文本。

在一个实施例中，所述检测纠正模块302包括检测模块3021和拼写纠正模块3022，所述检测模块3021用于对所述待纠错的文本中的单词进行检测，所述拼写纠正模块3022用于对所述待纠错的文本中的单词进行纠正拼写错误。

在一个实施例中，所述检测纠正模块302还包括预设语言模块3023，所述预设语言模块3023用于计算候选文本集合中每个文本的出现概率，选取前三位概率的文本并构造候选文本子集合。

在一个实施例中，所述语法纠正模块303内还包括概率模块3031，所述概率模块3031用于获取所述候选结果集合中的每个文本的后验概率。

在一个实施例中，所述语法纠正模块303内还包括调整模块3032，所述调整模块3032用于调整每个文本的后验概率，以提高每个文本的后验概率的准确性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节与这里示出与描述的图例。

Claims

1.一种增加拼写纠错功能的语法纠错方法，其特征在于，包括如下步骤：

步骤一，获取待纠错的文本；

2.根据权利要求1所述的增加拼写纠错功能的语法纠错方法，其特征在于，所述预设语言模型为预先训练的n-gram语言模型。

3.根据权利要求1所述的增加拼写纠错功能的语法纠错方法，其特征在于，步骤三中还包括预设机器学习模型，根据所述预设机器学习模型对所述候选文本子集合进行语法纠错，以得到所述候选结果集合。

4.根据权利要求3所述的增加拼写纠错功能的语法纠错方法，其特征在于，所述预设机器学习模型为Transformer语法纠错模型。

5.一种增加拼写纠错功能的语法纠错装置，其特征在于，还包括：

获取模块，用于获取待纠错的文本；

6.根据权利要求5所述的增加拼写纠错功能的语法纠错装置，其特征在于，所述检测纠正模块包括检测模块和拼写纠正模块，所述检测模块用于对所述待纠错的文本中的单词进行检测，所述拼写纠正模块用于对所述待纠错的文本中的单词进行纠正拼写错误。

7.根据权利要求6所述的增加拼写纠错功能的语法纠错装置，其特征在于，所述检测纠正模块还包括预设语言模块，所述预设语言模块用于计算候选文本集合中每个文本的出现概率，选取前三位概率的文本并构造候选文本子集合。

8.根据权利要求5所述的增加拼写纠错功能的语法纠错装置，其特征在于，所述语法纠正模块内还包括概率模块，所述概率模块用于获取所述候选结果集合中的每个文本的后验概率。

9.根据权利要求8所述的增加拼写纠错功能的语法纠错装置，其特征在于，所述语法纠正模块内还包括调整模块，所述调整模块用于调整每个文本的后验概率，以提高每个文本的后验概率的准确性。