CN108959250A

CN108959250A - 一种基于语言模型和词特征的纠错方法及其系统

Info

Publication number: CN108959250A
Application number: CN201810679125.XA
Authority: CN
Inventors: 雷画雨; 周笑添; 倪博溢
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-12-07

Abstract

本发明公开了一种基于语言模型和词特征的纠错方法，所述方法包括以下步骤：S1：获取第一语句并输入至错词检测系统中，然后利用语言模型检测所述第一语句并返回嫌疑词；S2：将所得嫌疑词输入至候选词推荐系统中，利用至少两种不同的相似度算法结合选出候选词并输出；S3：将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句，对所述第一语句和第二语句分别进行语句打分，选择分数更高的语句进行输出。所述系统包括检测模块、推荐模块和打分模块。通过本技术方案，能够提高纠错准确性。

Description

一种基于语言模型和词特征的纠错方法及其系统

技术领域

本发明涉及语言处理技术领域，尤其涉及一种基于语言模型和词特征的纠错方法，进一步地，涉及应用所述方法的系统。

背景技术

传统纠错系统的技术架构有多种实现方式。其中最常见的处理方式为先将错句进行分词。然后对于切完的各个词与标准词表中的词进行比对，若出现未登录词，则视为潜在的错词，用多种方法进行纠正。

例如中国发明专利201611233791.8，公开了一种输入语句的纠错方法及装置，其包括：基于训练语料构建并训练语言模型；获取语言模型的判错阈值，判错阈值表示输入语句为错误语句的临界概率值；将待识别语句输入语言模型，以计算出待识别语句的正确概率；当待识别语句的正确概率低于判错阈值时，判定待识别语句为错误语句并对待识别语句执行纠错处理。在该专利中，必须包括的步骤是：对每条所述训练语料执行分词操作，得到多个词语。然而，这种方法过分的依赖于分词效果的好坏。尤其是对于存在错词的句子，其被切分为错误句子的可能性也很高。

发明内容

为了克服现有技术的不足，本发明所解决的技术问题是：(1)提供一种能够提高纠错准确性的基于语言模型和词特征的纠错方法；(2)提供一种应用前述方法的系统。

为解决上述第一个技术问题，本发明所采用的技术方案内容具体如下：

一种基于语言模型和词特征的纠错方法，所述方法包括以下步骤：

S1：获取第一语句并输入至错词检测系统中，然后利用语言模型检测所述第一语句并返回嫌疑词；

S2：将所得嫌疑词输入至候选词推荐系统中，至少两种不同的相似度算法结合选出候选词并输出；

S3：将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句，对所述第一语句和第二语句分别进行语句打分，选择分数更高的语句进行输出。

为实现提高纠错准确性的技术效果，在本技术方案中，发明人在获取候选词时利用了至少两种不同的相似度算法，根据嫌疑词与候选词的相似性进行匹配得出相似度高的候选词进行输出。相较于现有技术中通常只利用一种相似度算法的情况，本技术方案采用两种或两种以上的相似度算法进行的多维度候选词推荐系统，例如可以基于拼音、笔画、字形、编辑距离等多种方式进行相似度计算。发明人在多次实验中发现，针对中文语句进行纠错时，拼音方式并不能解决所有的错词纠正，因为很多错字并非是音对字错，而是其拼音就是错的。而很多时候错字往往字形相似，读音却截然不同，这种情况虽然可以利用编辑距离纠错，但是通过笔画和字形去寻找候选字往往效率和准确率更高。而编辑距离这种方式是最宽泛的一种简单的候选字词推荐。所有这些方式单独使用，都不能解决所有甚至大部分错字或错词的问题，只有把他们至少合并两个地去使用来获得候选字词，再去使用语言模型打分，其结果才是更完整更可靠的。因此，在本技术方案中，发明人选择了至少两种相似度算法进行计算，更优选为三种相似度算法同时用于计算匹配，能够有效提高纠错准确性。

需要说明的是，所述嫌疑词，指的是在语句中有可能被判断为用词出现错误的词汇；“嫌疑词”中的“词”，不限于通常汉语中所指的词或固定短语，而且包括任意两个字或多个字的组合。比如对于“我爱北京天安门”这个句子来说，“我-爱”、“爱-北”、“北-京”、“我-爱-北”等均有可能经后续判断为认为属于“嫌疑词”。而相对地，“嫌疑词”中的每一个字则会被称作“嫌疑字”。

需要说明的是，所述候选词，指的是以所述嫌疑词为基础，并利用相似度算法匹配得出的系统中的字典或词典所得出的相似度较高的字或词。

优选地，利用语言模型进行检测的方法包括：利用语言模型计算所述第一语句中连续n个字符组成的字符串的匹配概率，若所述匹配概率小于第一阈值，则将该字符串定义为嫌疑词。

需要说明的是，检测第一语句中的嫌疑词的方法也是本技术方案的发明点之一。在现有技术中，一般来说，由于中文语句里字、词紧密相连，没有间隔的特点，中文自然语言处理的预处理基本工作为分词，即将句子分割成以词为单位的断句。这种方法有一些缺陷，其中最重要的就是其准确率会影响到后续所有工作的准确率。而分词的准确率往往基于原句是合情合理、完全正确的句子这一前提来讨论的，一旦句子中出现错字错词，分词的准确率往往也会大幅下降。纠错这一工作，其逻辑是将错误的句子改正，因此这一工作的有效输入为错句，这便会大大影响到分词的准确率。而分词分错，就会导致句子判错、候选字词的选择与替换、语言模型对句子打分等多项工作产生较多的错误。因此在本技术中，发明人直接借助语言模型计算所述第一语句中任意一字与其前面相邻的字的匹配概率选出嫌疑词，能有效提高嫌疑词选择的准确性，从而进一步提高整个语句进行判断纠错的准确性。

需要说明的是，这里的“字符”，可以是指字母或是汉字所占用的字符长度。

更优选地，所述语言模型是N元语言模型。

需要说明的是，在本技术方案中，由于不使用传统的先切词的语言模型建立方法，我们需要将句子切分成一个个单独的字，即我们的N元语法模型中的“元”的概念是单个中文字。在统计语言模型的数据时，将概率数据以某种数据结构存储下来，最终保存在文件中，这样便完成了我们的语言模型文件。

更优选地，所述n的值为2。

需要说明的是，优选以两个字符或两个汉字进行匹配计算，可以更细致地检验一个句子的每一个词是否使用正确，提高语句判断输出的准确率。

优选地，所述方法包括构建语言模型，所述语言模型的构建方法包括：获取中文语料并进行规范化处理，利用所得中文语料构建语言模型。

需要说明的是，更具体地，获取中文语料是需要获取大量的中文语料，例如可以通过爬虫技术从互联网上获得大规模的中文文本语料。由此获得的大量语料可以作为一般化的中文文本语料。同时，如果纠错任务是针对某一特定领域内的中文句子，亦可根据任务所需自建一些该领域范围内的语料库。

需要说明的是，所述规范化处理包括对所得的原始中文语料进行预处理，例如根据标点符号断句,去掉无意义的连续标点、特殊符号，中文繁体转简体等等。在最终获得了规范化后的一行一句的语料之后，即可进行N元语法模型(n-gram)的建立。

作为n-gram模型去进行嫌疑词选取的一种具体实施方式，该方式可以是将句子先切分成成以字为单位的，然后利用n-gram模型计算它们的概率从而去判断是否错误或者是否成词。比如对于“我爱北京天安门”这个句子，需要知道“我-爱”、“爱-北”、“北-京”等等的概率是否够高，如果不够高，则认为这种两字组合有错，比如对于错的两字组合“我-艾”，“我艾”即为嫌疑词，而“我”和“艾”为嫌疑字。同理也可以有三字组合的语言模型(即3-gram)，“我爱北京天安门”即为“我爱北”、“爱北京”、“北京天”、“京天安”和“天安门”，3-gram语言模型会分别计算这些三字组合的概率。

更优选地，所述语言模型的构建方法还包括：对所得的构建语言模型进行平滑化处理。

需要说明的是，由于语料库中的数据不是万能的，不可能涵盖所有中文的字词句搭配，因此当测试集或生产环境中的句子里包含了在现有语料中从未出现过的n-gram搭配时，我们需要对其做一些平滑处理，给它分配一些合理的概率，否则这样的n-gram概率为0会使得整个句子的成句概率也为0，就破坏了使用n-gram模型对句子概率的计算。关于平滑化的算法，可以采用比较常见的平滑算法有additive smoothing、Good-Turing estimate、Jelinek-Mercer smoothing、Katz smoothing、Witten-Bell smoothing、absolutediscounting、Kneser-Ney smoothing等。

进一步地，所述平滑化处理所使用的算法是modified Kneser-Ney平滑算法。

需要说明的是，作为更进一步地优选实施方式，本技术方案中采用了modifiedKneser-Ney平滑算法，在本技术方案中采用此平滑算法的优势在于这个平滑算法可以大大提高语言模型对于从未出现过的字词搭配的概率估算的准确度，从而对语料库中未出现过的字词搭配或者广泛意义上的偏词、怪词搭配都能给出一个良好的概率预测。

优选地，所述S2具体包括：

S21：获取所述嫌疑词，寻找所述候选词推荐系统中的词典是否存在与所述嫌疑词一致的词汇，如果存在，则返回所述嫌疑词；如果不存在则进入S22；

S22：利用至少两种不同的相似度算法中分别计算匹配与所述嫌疑词相似的候选词，不同算法各自得出一个或多个候选词进行输出。

需要说明的是，在本技术步骤中，如果在S21匹配的时候在所述候选词推荐系统中的词典找到了与所述嫌疑词一致的词汇，则表示该嫌疑词没有错误，则将原嫌疑词返回；如果在此步骤中没有找到与所述嫌疑词一致的词汇，则进行S22的操作。

而在S22中，利用至少两种相似度算法根据上述嫌疑词得出一个或多个候选词并进行输出。

结合上述步骤，然后将这些候选词依次对第一语句中相应的嫌疑词进行替换，然后对替换后的句子(第二语句)用语言模型进行打分，可得出一系列句子的概率分数。在一些优选的实施方式中，句子概率分数的计算方法为：首先重复上述步骤计算出各个n字组合的概率，再把各个n字组合的概率相乘，或将各个n字组合的log概率相加得出整句概率分数(因为这些概率都为后一个字基于前n-1个字的条件概率，所以从头到尾相乘即为整句的最大似然估计的一个估算，详见n-gram原理)。最后选择概率分数最高的那个句子作为我们纠错后的句子。

更优选地，所述相似度算法包括拼音相似度算法、笔画相似度算法和编辑距离相似度算法。

优选地，所述S3还包括：

将所述第一语句和第二语句的分数的差值作为纠错信心值，若所述纠错信心值大于第二阈值，则选择分数更高的待测语句进行输出；若所述纠错信心值小于第二阈值，则输出第一语句。

需要说明的是，由于在一些情况下，第一语句和第二语句的分数有可能十分接近，即有可能出现即使其中一个语句更高，但是实际出错情况却相反的情况。为更好地评价语句的准确度，提高语句纠错准确率，在一种更优选的实施方式中，发明人提供一个纠错信心值作为判断指标，若纠错信心值超过一个预设的第二阈值，则说明第一语句和第二语句的分数的差值超过误差范围，可以作为评判标准，若纠错信心值小于该第二阈值，则说明第一语句和第二语句的分数的差值还在误差范围之内，则依然以原语句即第一语句作为输出值。

为解决上述第二个技术问题，本发明所采用的技术方案内容具体如下：

一种基于语言模型和词特征的纠错系统，所述系统包括以下模块：

检测模块：用于获取第一语句并输入至错词检测系统中，然后利用语言模型检测所述第一语句并返回嫌疑词；

推荐模块：用于将所得嫌疑词输入至候选词推荐系统中，至少两种不同的相似度算法结合选出候选词并输出打分模块：用于将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句，对所述第一语句和第二语句分别进行语句打分，选择分数更高的语句进行输出。

与现有技术相比，本发明的有益效果在于：

1、本发明的纠错方法，采用两种或两种以上的相似度算法进行的多维度候选词推荐系统，能有效提高语言模型打分结果的准确性，从而实现提高纠错准确性；

2、本发明的纠错方法，在检测第一语句中的嫌疑词的过程中，借助语言模型计算所述第一语句中任意一字与其前面相邻的字的匹配概率选出嫌疑词，能有效提高嫌疑词选择的准确性，从而进一步提高整个语句进行判断纠错的准确性；

3、本发明的纠错方法，提供一纠错信心值作为判断指标，能更好地评价语句的准确度，提高语句纠错准确率；

4、本发明的纠错系统，实现上述纠错方法，能有效实现上述提高纠错准确率的应用效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本发明的纠错方法一种基础实施方式的流程示意图；

图2为本发明的纠错方法一种优选实施方式的流程示意图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下：

实施例1

本发明基于语言模型和词特征的纠错方法的一种优选实施方式的流程示意图，如图1所示，所述方法包括以下步骤：

以上是本技术方案的一种基础实施方式。在本技术方案中，发明人在获取候选词时利用了至少两种不同的相似度算法，根据嫌疑词与候选词的相似性进行匹配得出相似度高的候选词进行输出。相较于现有技术中通常只利用一种相似度算法的情况，本技术方案采用两种或两种以上的相似度算法进行的多维度候选词推荐系统，例如可以基于拼音、笔画、字形、编辑距离等多种方式进行相似度计算。发明人在多次实验中发现，针对中文语句进行纠错时，拼音方式并不能解决所有的错词纠正，因为很多错字并非是音对字错，而是其拼音就是错的。而很多时候错字往往字形相似，读音却截然不同，这种情况虽然可以利用编辑距离纠错，但是通过笔画和字形去寻找候选字往往效率和准确率更高。而编辑距离这种方式是最宽泛的一种简单的候选字词推荐。所有这些方式单独使用，都不能解决所有甚至大部分错字或错词的问题，只有把他们至少合并两个地去使用来获得候选字词，再去使用语言模型打分，其结果才是更完整更可靠的。因此，在本技术方案中，发明人选择了至少两种相似度算法进行计算，更优选为三种相似度算法同时用于计算匹配，能够有效提高纠错准确性。

结合上述实施方式，在另一种优选的实施方式中，利用语言模型计算所述第一语句中连续n个字符组成的字符串的匹配概率，若所述匹配概率小于第一阈值，则将该字符串定义为嫌疑词。

在现有技术中，一般来说，由于中文语句里字、词紧密相连，没有间隔的特点，中文自然语言处理的预处理基本工作为分词，即将句子分割成以词为单位的断句。这种方法有一些缺陷，其中最重要的就是其准确率会影响到后续所有工作的准确率。而分词的准确率往往基于原句是合情合理、完全正确的句子这一前提来讨论的，一旦句子中出现错字错词，分词的准确率往往也会大幅下降。纠错这一工作，其逻辑是将错误的句子改正，因此这一工作的有效输入为错句，这便会大大影响到分词的准确率。而分词分错，就会导致句子判错、候选字词的选择与替换、语言模型对句子打分等多项工作产生较多的错误。因此在本技术中，发明人直接借助语言模型计算所述第一语句中任意一字与其前面相邻的字的匹配概率选出嫌疑词，能有效提高嫌疑词选择的准确性，从而进一步提高整个语句进行判断纠错的准确性。

在本实施例中，所述语言模型是N元语言模型(n-gram)。

在本技术方案中，由于不使用传统的先切词的语言模型建立方法，我们需要将句子切分成一个个单独的字，即我们的N元语法模型中的“元”的概念是单个中文字。在统计语言模型的数据时，将概率数据以某种数据结构存储下来，最终保存在文件中，这样便完成了我们的语言模型文件。

N元语言模型的基本原理如下：

假设一个句子由n个单词w₁，w₂，...，w_n构成，则我们用P(w₁ w₂ ... w_n)来表示这个单词串的成句概率(这些单词构成一个符合语言规则的句子的可能性)。由于这个概率的计算方法(出于书写方便，我们将w₁ w₂ ... w_n这个单词串记作)

计算起来是非常困难的，我们便用(即单词w_n基于其前N-1个词的条件概率)来估算(单词基于其前面所有词的条件概率)，这就是N元语法模型的基本原理。

因此，比如我们需要建立一个二元语法模型，我们就需要统计语料库中所有句子里的单词基于前一个单词的条件概率，即计算：

其中C(w)表示单词w出现的次数。以此类推，三元语法模型即为计算：

更一般的N元语法模型为：

例如在一个更具体的实施例中，我们在统计或者计算一个句子的概率时，以“我爱北京天安门”为例，其n-gram语言模型的表达为：

P(我爱北京天安门)＝P(爱|我)·P(北|爱)·P(京|北)·P(天|京)·P(安|天)·P(门|安)

而非如现有技术中的：

P(我爱北京天安门)＝P(爱|我)·P(北京|爱)·P(天安门|北京)

以字为单位的语言模型是符合语言规律的，因为两字或多字如果成词，那么他们之间的统计条件概率也就越高，那么语言模型也更倾向于把他们放在一起。

结合上述实施方式，在另一种优选的实施方式中，所述方法包括构建语言模型，所述语言模型的构建方法包括：获取中文语料并进行规范化处理，利用所得中文语料构建语言模型。获取中文语料是需要获取大量的中文语料，例如可以通过爬虫技术从互联网上获得大规模的中文文本语料。由此获得的大量语料可以作为一般化的中文文本语料。同时，如果纠错任务是针对某一特定领域内的中文句子，亦可根据任务所需自建一些该领域范围内的语料库。所述规范化处理包括对所得的原始中文语料进行预处理，例如根据标点符号断句,去掉无意义的连续标点、特殊符号，中文繁体转简体等等。在最终获得了规范化后的一行一句的语料之后，即可进行N元语法模型(n-gram)的建立。

结合上述实施方式，在另一种优选的实施方式中，所述语言模型的构建方法还包括：对所得的构建语言模型进行平滑化处理。由于语料库中的数据不是万能的，不可能涵盖所有中文的字词句搭配，因此当测试集或生产环境中的句子里包含了在现有语料中从未出现过的n-gram搭配时，我们需要对其做一些平滑处理，给它分配一些合理的概率，否则这样的n-gram概率为0会使得整个句子的成句概率也为0，就破坏了使用n-gram模型对句子概率的计算。关于平滑化的算法，可以采用比较常见的平滑算法有additive smoothing、Good-Turing estimate、Jelinek-Mercer smoothing、Katz smoothing、Witten-Bellsmoothing、absolute discounting、Kneser-Ney smoothing等。

作为更进一步优选的实施方式，所述平滑化处理所使用的算法是modifiedKneser-Ney平滑算法。本技术方案中采用了modified Kneser-Ney平滑算法，在本技术方案中采用此平滑算法的优势在于这个平滑算法可以大大提高语言模型对于从未出现过的字词搭配的概率估算的准确度，从而对语料库中未出现过的字词搭配或者广泛意义上的偏词、怪词搭配都能给出一个良好的概率预测。

需要说明的是，modified Kneser-Ney平滑算法，在此仅列出公式供参考：

其中

为了使得概率分布之和为1，我们让

其中和与定义类似，即

根据公式实现对语言模型的平滑处理，我们的语言模型就构建好了。

实施例2

本实施例是在结合上述实施例1的基础实施方式的情况下的另一种优选实施方式，本实施例与上述实施例1的区别在于，在本实施例中，所述S2具体包括：

在更具体的一种实施方式中，所述相似度算法包括拼音相似度算法、笔画相似度算法和编辑距离相似度算法。

以上各个相似度算法的匹配计算原理如下：

拼音相似度算法：将错词短语转换为拼音，通过拼音知识库查找该拼音的同音词作为候选词。考虑到中文口音、方言等问题，可对拼音做一些模糊音、相似音的处理，如平舌音翘舌音(z-zh、c-ch、s-sh)、前鼻音后鼻音(an-ang、en-eng、in-ing)、方言变音(n-l、f-h)等。

笔画相似度算法：利用笔画知识库，将错词短语中的每个字逐一用同笔画的字替换，再通过词典查找看其是否成词，若能成词，则将其作为候选词。

编辑距离相似度算法：在词典中找出与错词短语编辑距离(插入、删除、替换、相邻交换)为1的词作为候选词。

作为一种更优选的实施方式，所述相似度计算同时采用拼音相似度算法、笔画相似度算法和编辑距离相似度算法得出候选词。

在更具体的一个实施例的举例中，仍以“我爱北京天安门”为例，结合上述步骤的方法可以是：

将句子放入语言模型，计算各n-gram的概率以计算句子概率。如语言模型为2-gram，则分别计算“我-艾”、“艾-北”、“北-京”、“京-天”、“天-安”、“安-门”的概率；如语言模型为3-gram，则分别计算“我-艾-北”、“艾-北-京”、“北-京-天”、“京-天-安”、“天-安-门”的概率。

对于这些n字组合，若某一个n字组合低于一定阈值，则错词检测系统会将这个n字组合认定为嫌疑词，在我们的例子当中，显然“我艾”和“艾北”(或者在3-gram的情况，“我艾北”和“艾北京”的概率会很低)基于语言模型的概率会很低，因此将这些错字组合记录下来，以下步骤都以2-gram的情况继续说明。

由于“我-艾”和“艾-北”被判为嫌疑词，我们依次对“我-艾”、“艾-北”两个词语(两字组合)进行纠错。分别将“我-艾”和“艾-北”放入错词候选词推荐系统，先判断是否成词，结果为不成词，继续，然后用多维度的方法为其中某一个字寻找后选字，举例说明：如用拼音，即先将“我-艾”变为拼音“wo ai”，然后通过拼音字典寻找候选词，最终获得的拼音候选词集可能为“我-爱”、“我-矮”等等；如用笔画，则通过笔画字典寻找候选词集，结果可能为“我-芁”、“我-艽”等等；如用编辑距离，则获得的候选词集可能为“怨-艾”、“自-艾”、“我-们”、“我-辈”等等

将这些候选词依次对第一语句进行替换，然后对替换后的句子(第二语句)用语言模型进行打分，可得出一系列句子的概率分数。句子概率分数的计算方法为：首先重复上述步骤计算出各个n字组合的概率，再把各个n字组合的概率相乘，或将各个n字组合的log概率相加得出整句概率分数(因为这些概率都为后一个字基于前n-1个字的条件概率，所以从头到尾相乘即为整句的最大似然估计的一个估算，详见n-gram原理)。最后选择概率分数最高的那个句子作为我们纠错后的句子，此例中分数最高的一个即为“我爱北京天安门”。

本实施例的其余优选实施方式如其他实施例所述，在此不再赘述。

实施例3

本实施例是在结合上述实施例1的基础实施方式的情况下的另一种优选实施方式，本实施例与上述实施例1的区别在于，在本实施例中，所述S3还包括：

由于语言模型不可能对所有中文字词搭配做出完美的打分，上述错词检测的方法存在一些误差，即误报一些原本正确字词搭配为错词，所以我们可以同时判断n-gram是否成词作为对上述方法的一个筛选。为更好地评价语句的准确度，提高语句纠错准确率，在一种更优选的实施方式中，发明人提供一纠错信心值作为判断指标，若纠错信心值超过一个预设的第二阈值，则说明第一语句和第二语句的分数的差值超过误差范围，可以作为评判标准，若纠错信心值小于该第二阈值，则说明第一语句和第二语句的分数的差值还在误差范围之内，则依然以原语句即第一语句作为输出值。

仍是以实施例2中的具体例子为例，最后将原句(第一语句)分数和纠错后句子(第二语句)分数进行比较，提高的部分称之为纠错信心，如果纠错信心大于一定阈值(此例中即为“我爱北京天安门”比“我艾北京天安门”高出的概率分数)，则完成自动纠错；如果低于阈值，则返回原句。此例中“我爱北京天安门”的概率显然比“我艾北京天安门”高很多，即输出“我爱北京天安门”。

实施例4

本实施例是结合上述实施例1至实施例3一些优选实施方式的举例，具体流程如图2所示，由于具体的实施方式、工作原理以及技术效果在上述实施例中均已提及，在此不再赘述。

实施例5

本发明提供一种基于语言模型和词特征的纠错系统，所述系统包括以下模块：

由于本系统的具体的实施方式、工作原理以及技术效果可以从上述纠错方法中直接得出，在此不再赘述。

上述实施方式仅为本发明的优选实施方式，不能以此来限定本发明保护的范围，本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims

1.一种基于语言模型和词特征的纠错方法，其特征在于，所述方法包括以下步骤：

S2：将所得嫌疑词输入至候选词推荐系统中，利用至少两种不同的相似度算法结合选出候选词并输出；

2.如权利要求1所述的纠错方法，其特征在于，利用语言模型进行检测的方法包括：利用语言模型计算所述第一语句中连续n个字符组成的字符串的匹配概率，若所述匹配概率小于第一阈值，则将该字符串定义为嫌疑词。

3.如权利要求2所述的纠错方法，其特征在于，所述n的值为2。

4.如权利要求1所述的纠错方法，其特征在于，所述方法包括构建语言模型，所述语言模型的构建方法包括：

获取中文语料并进行规范化处理，利用所得中文语料构建语言模型。

5.如权利要求4所述的纠错方法，其特征在于，所述语言模型的构建方法还包括：对所得的构建语言模型进行平滑化处理。

6.如权利要求5所述的纠错方法，其特征在于，所述平滑化处理所使用的算法是modified Kneser-Ney平滑算法。

7.如权利要求1所述的纠错方法，其特征在于，所述S2具体包括：

S22：利用至少两种不同的相似度算法中结合计算匹配与所述嫌疑词相似的候选词。

8.如权利要求7所述的纠错方法，其特征在于，所述相似度算法包括拼音相似度算法、笔画相似度算法和编辑距离相似度算法。

9.如权利要求1所述的纠错方法，其特征在于，所述S3还包括：

10.一种基于语言模型和词特征的纠错系统，其特征在于，所述系统包括以下模块：

推荐模块：用于将所得嫌疑词输入至候选词推荐系统中，至少两种不同的相似度算法结合选出候选词并输出；

打分模块：用于将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句，对所述第一语句和第二语句分别进行语句打分，选择分数更高的语句进行输出。