CN108959250A - 一种基于语言模型和词特征的纠错方法及其系统 - Google Patents
一种基于语言模型和词特征的纠错方法及其系统 Download PDFInfo
- Publication number
- CN108959250A CN108959250A CN201810679125.XA CN201810679125A CN108959250A CN 108959250 A CN108959250 A CN 108959250A CN 201810679125 A CN201810679125 A CN 201810679125A CN 108959250 A CN108959250 A CN 108959250A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- error correction
- suspicion
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于语言模型和词特征的纠错方法,所述方法包括以下步骤:S1:获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;S2:将所得嫌疑词输入至候选词推荐系统中,利用至少两种不同的相似度算法结合选出候选词并输出;S3:将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。所述系统包括检测模块、推荐模块和打分模块。通过本技术方案,能够提高纠错准确性。
Description
技术领域
本发明涉及语言处理技术领域,尤其涉及一种基于语言模型和词特征的纠错方法,进一步地,涉及应用所述方法的系统。
背景技术
传统纠错系统的技术架构有多种实现方式。其中最常见的处理方式为先将错句进行分词。然后对于切完的各个词与标准词表中的词进行比对,若出现未登录词,则视为潜在的错词,用多种方法进行纠正。
例如中国发明专利201611233791.8,公开了一种输入语句的纠错方法及装置,其包括:基于训练语料构建并训练语言模型;获取语言模型的判错阈值,判错阈值表示输入语句为错误语句的临界概率值;将待识别语句输入语言模型,以计算出待识别语句的正确概率;当待识别语句的正确概率低于判错阈值时,判定待识别语句为错误语句并对待识别语句执行纠错处理。在该专利中,必须包括的步骤是:对每条所述训练语料执行分词操作,得到多个词语。然而,这种方法过分的依赖于分词效果的好坏。尤其是对于存在错词的句子,其被切分为错误句子的可能性也很高。
发明内容
为了克服现有技术的不足,本发明所解决的技术问题是:(1)提供一种能够提高纠错准确性的基于语言模型和词特征的纠错方法;(2)提供一种应用前述方法的系统。
为解决上述第一个技术问题,本发明所采用的技术方案内容具体如下:
一种基于语言模型和词特征的纠错方法,所述方法包括以下步骤:
S1:获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;
S2:将所得嫌疑词输入至候选词推荐系统中,至少两种不同的相似度算法结合选出候选词并输出;
S3:将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。
为实现提高纠错准确性的技术效果,在本技术方案中,发明人在获取候选词时利用了至少两种不同的相似度算法,根据嫌疑词与候选词的相似性进行匹配得出相似度高的候选词进行输出。相较于现有技术中通常只利用一种相似度算法的情况,本技术方案采用两种或两种以上的相似度算法进行的多维度候选词推荐系统,例如可以基于拼音、笔画、字形、编辑距离等多种方式进行相似度计算。发明人在多次实验中发现,针对中文语句进行纠错时,拼音方式并不能解决所有的错词纠正,因为很多错字并非是音对字错,而是其拼音就是错的。而很多时候错字往往字形相似,读音却截然不同,这种情况虽然可以利用编辑距离纠错,但是通过笔画和字形去寻找候选字往往效率和准确率更高。而编辑距离这种方式是最宽泛的一种简单的候选字词推荐。所有这些方式单独使用,都不能解决所有甚至大部分错字或错词的问题,只有把他们至少合并两个地去使用来获得候选字词,再去使用语言模型打分,其结果才是更完整更可靠的。因此,在本技术方案中,发明人选择了至少两种相似度算法进行计算,更优选为三种相似度算法同时用于计算匹配,能够有效提高纠错准确性。
需要说明的是,所述嫌疑词,指的是在语句中有可能被判断为用词出现错误的词汇;“嫌疑词”中的“词”,不限于通常汉语中所指的词或固定短语,而且包括任意两个字或多个字的组合。比如对于“我爱北京天安门”这个句子来说,“我-爱”、“爱-北”、“北-京”、“我-爱-北”等均有可能经后续判断为认为属于“嫌疑词”。而相对地,“嫌疑词”中的每一个字则会被称作“嫌疑字”。
需要说明的是,所述候选词,指的是以所述嫌疑词为基础,并利用相似度算法匹配得出的系统中的字典或词典所得出的相似度较高的字或词。
优选地,利用语言模型进行检测的方法包括:利用语言模型计算所述第一语句中连续n个字符组成的字符串的匹配概率,若所述匹配概率小于第一阈值,则将该字符串定义为嫌疑词。
需要说明的是,检测第一语句中的嫌疑词的方法也是本技术方案的发明点之一。在现有技术中,一般来说,由于中文语句里字、词紧密相连,没有间隔的特点,中文自然语言处理的预处理基本工作为分词,即将句子分割成以词为单位的断句。这种方法有一些缺陷,其中最重要的就是其准确率会影响到后续所有工作的准确率。而分词的准确率往往基于原句是合情合理、完全正确的句子这一前提来讨论的,一旦句子中出现错字错词,分词的准确率往往也会大幅下降。纠错这一工作,其逻辑是将错误的句子改正,因此这一工作的有效输入为错句,这便会大大影响到分词的准确率。而分词分错,就会导致句子判错、候选字词的选择与替换、语言模型对句子打分等多项工作产生较多的错误。因此在本技术中,发明人直接借助语言模型计算所述第一语句中任意一字与其前面相邻的字的匹配概率选出嫌疑词,能有效提高嫌疑词选择的准确性,从而进一步提高整个语句进行判断纠错的准确性。
需要说明的是,这里的“字符”,可以是指字母或是汉字所占用的字符长度。
更优选地,所述语言模型是N元语言模型。
需要说明的是,在本技术方案中,由于不使用传统的先切词的语言模型建立方法,我们需要将句子切分成一个个单独的字,即我们的N元语法模型中的“元”的概念是单个中文字。在统计语言模型的数据时,将概率数据以某种数据结构存储下来,最终保存在文件中,这样便完成了我们的语言模型文件。
更优选地,所述n的值为2。
需要说明的是,优选以两个字符或两个汉字进行匹配计算,可以更细致地检验一个句子的每一个词是否使用正确,提高语句判断输出的准确率。
优选地,所述方法包括构建语言模型,所述语言模型的构建方法包括:获取中文语料并进行规范化处理,利用所得中文语料构建语言模型。
需要说明的是,更具体地,获取中文语料是需要获取大量的中文语料,例如可以通过爬虫技术从互联网上获得大规模的中文文本语料。由此获得的大量语料可以作为一般化的中文文本语料。同时,如果纠错任务是针对某一特定领域内的中文句子,亦可根据任务所需自建一些该领域范围内的语料库。
需要说明的是,所述规范化处理包括对所得的原始中文语料进行预处理,例如根据标点符号断句,去掉无意义的连续标点、特殊符号,中文繁体转简体等等。在最终获得了规范化后的一行一句的语料之后,即可进行N元语法模型(n-gram)的建立。
作为n-gram模型去进行嫌疑词选取的一种具体实施方式,该方式可以是将句子先切分成成以字为单位的,然后利用n-gram模型计算它们的概率从而去判断是否错误或者是否成词。比如对于“我爱北京天安门”这个句子,需要知道“我-爱”、“爱-北”、“北-京”等等的概率是否够高,如果不够高,则认为这种两字组合有错,比如对于错的两字组合“我-艾”,“我艾”即为嫌疑词,而“我”和“艾”为嫌疑字。同理也可以有三字组合的语言模型(即3-gram),“我爱北京天安门”即为“我爱北”、“爱北京”、“北京天”、“京天安”和“天安门”,3-gram语言模型会分别计算这些三字组合的概率。
更优选地,所述语言模型的构建方法还包括:对所得的构建语言模型进行平滑化处理。
需要说明的是,由于语料库中的数据不是万能的,不可能涵盖所有中文的字词句搭配,因此当测试集或生产环境中的句子里包含了在现有语料中从未出现过的n-gram搭配时,我们需要对其做一些平滑处理,给它分配一些合理的概率,否则这样的n-gram概率为0会使得整个句子的成句概率也为0,就破坏了使用n-gram模型对句子概率的计算。关于平滑化的算法,可以采用比较常见的平滑算法有additive smoothing、Good-Turing estimate、Jelinek-Mercer smoothing、Katz smoothing、Witten-Bell smoothing、absolutediscounting、Kneser-Ney smoothing等。
进一步地,所述平滑化处理所使用的算法是modified Kneser-Ney平滑算法。
需要说明的是,作为更进一步地优选实施方式,本技术方案中采用了modifiedKneser-Ney平滑算法,在本技术方案中采用此平滑算法的优势在于这个平滑算法可以大大提高语言模型对于从未出现过的字词搭配的概率估算的准确度,从而对语料库中未出现过的字词搭配或者广泛意义上的偏词、怪词搭配都能给出一个良好的概率预测。
优选地,所述S2具体包括:
S21:获取所述嫌疑词,寻找所述候选词推荐系统中的词典是否存在与所述嫌疑词一致的词汇,如果存在,则返回所述嫌疑词;如果不存在则进入S22;
S22:利用至少两种不同的相似度算法中分别计算匹配与所述嫌疑词相似的候选词,不同算法各自得出一个或多个候选词进行输出。
需要说明的是,在本技术步骤中,如果在S21匹配的时候在所述候选词推荐系统中的词典找到了与所述嫌疑词一致的词汇,则表示该嫌疑词没有错误,则将原嫌疑词返回;如果在此步骤中没有找到与所述嫌疑词一致的词汇,则进行S22的操作。
而在S22中,利用至少两种相似度算法根据上述嫌疑词得出一个或多个候选词并进行输出。
结合上述步骤,然后将这些候选词依次对第一语句中相应的嫌疑词进行替换,然后对替换后的句子(第二语句)用语言模型进行打分,可得出一系列句子的概率分数。在一些优选的实施方式中,句子概率分数的计算方法为:首先重复上述步骤计算出各个n字组合的概率,再把各个n字组合的概率相乘,或将各个n字组合的log概率相加得出整句概率分数(因为这些概率都为后一个字基于前n-1个字的条件概率,所以从头到尾相乘即为整句的最大似然估计的一个估算,详见n-gram原理)。最后选择概率分数最高的那个句子作为我们纠错后的句子。
更优选地,所述相似度算法包括拼音相似度算法、笔画相似度算法和编辑距离相似度算法。
优选地,所述S3还包括:
将所述第一语句和第二语句的分数的差值作为纠错信心值,若所述纠错信心值大于第二阈值,则选择分数更高的待测语句进行输出;若所述纠错信心值小于第二阈值,则输出第一语句。
需要说明的是,由于在一些情况下,第一语句和第二语句的分数有可能十分接近,即有可能出现即使其中一个语句更高,但是实际出错情况却相反的情况。为更好地评价语句的准确度,提高语句纠错准确率,在一种更优选的实施方式中,发明人提供一个纠错信心值作为判断指标,若纠错信心值超过一个预设的第二阈值,则说明第一语句和第二语句的分数的差值超过误差范围,可以作为评判标准,若纠错信心值小于该第二阈值,则说明第一语句和第二语句的分数的差值还在误差范围之内,则依然以原语句即第一语句作为输出值。
为解决上述第二个技术问题,本发明所采用的技术方案内容具体如下:
一种基于语言模型和词特征的纠错系统,所述系统包括以下模块:
检测模块:用于获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;
推荐模块:用于将所得嫌疑词输入至候选词推荐系统中,至少两种不同的相似度算法结合选出候选词并输出打分模块:用于将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。
与现有技术相比,本发明的有益效果在于:
1、本发明的纠错方法,采用两种或两种以上的相似度算法进行的多维度候选词推荐系统,能有效提高语言模型打分结果的准确性,从而实现提高纠错准确性;
2、本发明的纠错方法,在检测第一语句中的嫌疑词的过程中,借助语言模型计算所述第一语句中任意一字与其前面相邻的字的匹配概率选出嫌疑词,能有效提高嫌疑词选择的准确性,从而进一步提高整个语句进行判断纠错的准确性;
3、本发明的纠错方法,提供一纠错信心值作为判断指标,能更好地评价语句的准确度,提高语句纠错准确率;
4、本发明的纠错系统,实现上述纠错方法,能有效实现上述提高纠错准确率的应用效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明的纠错方法一种基础实施方式的流程示意图;
图2为本发明的纠错方法一种优选实施方式的流程示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如下:
实施例1
本发明基于语言模型和词特征的纠错方法的一种优选实施方式的流程示意图,如图1所示,所述方法包括以下步骤:
S1:获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;
S2:将所得嫌疑词输入至候选词推荐系统中,至少两种不同的相似度算法结合选出候选词并输出;
S3:将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。
以上是本技术方案的一种基础实施方式。在本技术方案中,发明人在获取候选词时利用了至少两种不同的相似度算法,根据嫌疑词与候选词的相似性进行匹配得出相似度高的候选词进行输出。相较于现有技术中通常只利用一种相似度算法的情况,本技术方案采用两种或两种以上的相似度算法进行的多维度候选词推荐系统,例如可以基于拼音、笔画、字形、编辑距离等多种方式进行相似度计算。发明人在多次实验中发现,针对中文语句进行纠错时,拼音方式并不能解决所有的错词纠正,因为很多错字并非是音对字错,而是其拼音就是错的。而很多时候错字往往字形相似,读音却截然不同,这种情况虽然可以利用编辑距离纠错,但是通过笔画和字形去寻找候选字往往效率和准确率更高。而编辑距离这种方式是最宽泛的一种简单的候选字词推荐。所有这些方式单独使用,都不能解决所有甚至大部分错字或错词的问题,只有把他们至少合并两个地去使用来获得候选字词,再去使用语言模型打分,其结果才是更完整更可靠的。因此,在本技术方案中,发明人选择了至少两种相似度算法进行计算,更优选为三种相似度算法同时用于计算匹配,能够有效提高纠错准确性。
结合上述实施方式,在另一种优选的实施方式中,利用语言模型计算所述第一语句中连续n个字符组成的字符串的匹配概率,若所述匹配概率小于第一阈值,则将该字符串定义为嫌疑词。
在现有技术中,一般来说,由于中文语句里字、词紧密相连,没有间隔的特点,中文自然语言处理的预处理基本工作为分词,即将句子分割成以词为单位的断句。这种方法有一些缺陷,其中最重要的就是其准确率会影响到后续所有工作的准确率。而分词的准确率往往基于原句是合情合理、完全正确的句子这一前提来讨论的,一旦句子中出现错字错词,分词的准确率往往也会大幅下降。纠错这一工作,其逻辑是将错误的句子改正,因此这一工作的有效输入为错句,这便会大大影响到分词的准确率。而分词分错,就会导致句子判错、候选字词的选择与替换、语言模型对句子打分等多项工作产生较多的错误。因此在本技术中,发明人直接借助语言模型计算所述第一语句中任意一字与其前面相邻的字的匹配概率选出嫌疑词,能有效提高嫌疑词选择的准确性,从而进一步提高整个语句进行判断纠错的准确性。
在本实施例中,所述语言模型是N元语言模型(n-gram)。
在本技术方案中,由于不使用传统的先切词的语言模型建立方法,我们需要将句子切分成一个个单独的字,即我们的N元语法模型中的“元”的概念是单个中文字。在统计语言模型的数据时,将概率数据以某种数据结构存储下来,最终保存在文件中,这样便完成了我们的语言模型文件。
N元语言模型的基本原理如下:
假设一个句子由n个单词w1,w2,...,wn构成,则我们用P(w1 w2 ... wn)来表示这个单词串的成句概率(这些单词构成一个符合语言规则的句子的可能性)。由于这个概率的计算方法(出于书写方便,我们将w1 w2 ... wn这个单词串记作)
计算起来是非常困难的,我们便用(即单词wn基于其前N-1个词的条件概率)来估算(单词基于其前面所有词的条件概率),这就是N元语法模型的基本原理。
因此,比如我们需要建立一个二元语法模型,我们就需要统计语料库中所有句子里的单词基于前一个单词的条件概率,即计算:
其中C(w)表示单词w出现的次数。以此类推,三元语法模型即为计算:
更一般的N元语法模型为:
例如在一个更具体的实施例中,我们在统计或者计算一个句子的概率时,以“我爱北京天安门”为例,其n-gram语言模型的表达为:
P(我爱北京天安门)=P(爱|我)·P(北|爱)·P(京|北)·P(天|京)·P(安|天)·P(门|安)
而非如现有技术中的:
P(我爱北京天安门)=P(爱|我)·P(北京|爱)·P(天安门|北京)
以字为单位的语言模型是符合语言规律的,因为两字或多字如果成词,那么他们之间的统计条件概率也就越高,那么语言模型也更倾向于把他们放在一起。
结合上述实施方式,在另一种优选的实施方式中,所述方法包括构建语言模型,所述语言模型的构建方法包括:获取中文语料并进行规范化处理,利用所得中文语料构建语言模型。获取中文语料是需要获取大量的中文语料,例如可以通过爬虫技术从互联网上获得大规模的中文文本语料。由此获得的大量语料可以作为一般化的中文文本语料。同时,如果纠错任务是针对某一特定领域内的中文句子,亦可根据任务所需自建一些该领域范围内的语料库。所述规范化处理包括对所得的原始中文语料进行预处理,例如根据标点符号断句,去掉无意义的连续标点、特殊符号,中文繁体转简体等等。在最终获得了规范化后的一行一句的语料之后,即可进行N元语法模型(n-gram)的建立。
结合上述实施方式,在另一种优选的实施方式中,所述语言模型的构建方法还包括:对所得的构建语言模型进行平滑化处理。由于语料库中的数据不是万能的,不可能涵盖所有中文的字词句搭配,因此当测试集或生产环境中的句子里包含了在现有语料中从未出现过的n-gram搭配时,我们需要对其做一些平滑处理,给它分配一些合理的概率,否则这样的n-gram概率为0会使得整个句子的成句概率也为0,就破坏了使用n-gram模型对句子概率的计算。关于平滑化的算法,可以采用比较常见的平滑算法有additive smoothing、Good-Turing estimate、Jelinek-Mercer smoothing、Katz smoothing、Witten-Bellsmoothing、absolute discounting、Kneser-Ney smoothing等。
作为更进一步优选的实施方式,所述平滑化处理所使用的算法是modifiedKneser-Ney平滑算法。本技术方案中采用了modified Kneser-Ney平滑算法,在本技术方案中采用此平滑算法的优势在于这个平滑算法可以大大提高语言模型对于从未出现过的字词搭配的概率估算的准确度,从而对语料库中未出现过的字词搭配或者广泛意义上的偏词、怪词搭配都能给出一个良好的概率预测。
需要说明的是,modified Kneser-Ney平滑算法,在此仅列出公式供参考:
其中
为了使得概率分布之和为1,我们让
其中和与定义类似,即
根据公式实现对语言模型的平滑处理,我们的语言模型就构建好了。
实施例2
本实施例是在结合上述实施例1的基础实施方式的情况下的另一种优选实施方式,本实施例与上述实施例1的区别在于,在本实施例中,所述S2具体包括:
S21:获取所述嫌疑词,寻找所述候选词推荐系统中的词典是否存在与所述嫌疑词一致的词汇,如果存在,则返回所述嫌疑词;如果不存在则进入S22;
S22:利用至少两种不同的相似度算法中分别计算匹配与所述嫌疑词相似的候选词,不同算法各自得出一个或多个候选词进行输出。
需要说明的是,在本技术步骤中,如果在S21匹配的时候在所述候选词推荐系统中的词典找到了与所述嫌疑词一致的词汇,则表示该嫌疑词没有错误,则将原嫌疑词返回;如果在此步骤中没有找到与所述嫌疑词一致的词汇,则进行S22的操作。
在更具体的一种实施方式中,所述相似度算法包括拼音相似度算法、笔画相似度算法和编辑距离相似度算法。
以上各个相似度算法的匹配计算原理如下:
拼音相似度算法:将错词短语转换为拼音,通过拼音知识库查找该拼音的同音词作为候选词。考虑到中文口音、方言等问题,可对拼音做一些模糊音、相似音的处理,如平舌音翘舌音(z-zh、c-ch、s-sh)、前鼻音后鼻音(an-ang、en-eng、in-ing)、方言变音(n-l、f-h)等。
笔画相似度算法:利用笔画知识库,将错词短语中的每个字逐一用同笔画的字替换,再通过词典查找看其是否成词,若能成词,则将其作为候选词。
编辑距离相似度算法:在词典中找出与错词短语编辑距离(插入、删除、替换、相邻交换)为1的词作为候选词。
作为一种更优选的实施方式,所述相似度计算同时采用拼音相似度算法、笔画相似度算法和编辑距离相似度算法得出候选词。
在更具体的一个实施例的举例中,仍以“我爱北京天安门”为例,结合上述步骤的方法可以是:
将句子放入语言模型,计算各n-gram的概率以计算句子概率。如语言模型为2-gram,则分别计算“我-艾”、“艾-北”、“北-京”、“京-天”、“天-安”、“安-门”的概率;如语言模型为3-gram,则分别计算“我-艾-北”、“艾-北-京”、“北-京-天”、“京-天-安”、“天-安-门”的概率。
对于这些n字组合,若某一个n字组合低于一定阈值,则错词检测系统会将这个n字组合认定为嫌疑词,在我们的例子当中,显然“我艾”和“艾北”(或者在3-gram的情况,“我艾北”和“艾北京”的概率会很低)基于语言模型的概率会很低,因此将这些错字组合记录下来,以下步骤都以2-gram的情况继续说明。
由于“我-艾”和“艾-北”被判为嫌疑词,我们依次对“我-艾”、“艾-北”两个词语(两字组合)进行纠错。分别将“我-艾”和“艾-北”放入错词候选词推荐系统,先判断是否成词,结果为不成词,继续,然后用多维度的方法为其中某一个字寻找后选字,举例说明:如用拼音,即先将“我-艾”变为拼音“wo ai”,然后通过拼音字典寻找候选词,最终获得的拼音候选词集可能为“我-爱”、“我-矮”等等;如用笔画,则通过笔画字典寻找候选词集,结果可能为“我-芁”、“我-艽”等等;如用编辑距离,则获得的候选词集可能为“怨-艾”、“自-艾”、“我-们”、“我-辈”等等
将这些候选词依次对第一语句进行替换,然后对替换后的句子(第二语句)用语言模型进行打分,可得出一系列句子的概率分数。句子概率分数的计算方法为:首先重复上述步骤计算出各个n字组合的概率,再把各个n字组合的概率相乘,或将各个n字组合的log概率相加得出整句概率分数(因为这些概率都为后一个字基于前n-1个字的条件概率,所以从头到尾相乘即为整句的最大似然估计的一个估算,详见n-gram原理)。最后选择概率分数最高的那个句子作为我们纠错后的句子,此例中分数最高的一个即为“我爱北京天安门”。
本实施例的其余优选实施方式如其他实施例所述,在此不再赘述。
实施例3
本实施例是在结合上述实施例1的基础实施方式的情况下的另一种优选实施方式,本实施例与上述实施例1的区别在于,在本实施例中,所述S3还包括:
将所述第一语句和第二语句的分数的差值作为纠错信心值,若所述纠错信心值大于第二阈值,则选择分数更高的待测语句进行输出;若所述纠错信心值小于第二阈值,则输出第一语句。
由于语言模型不可能对所有中文字词搭配做出完美的打分,上述错词检测的方法存在一些误差,即误报一些原本正确字词搭配为错词,所以我们可以同时判断n-gram是否成词作为对上述方法的一个筛选。为更好地评价语句的准确度,提高语句纠错准确率,在一种更优选的实施方式中,发明人提供一纠错信心值作为判断指标,若纠错信心值超过一个预设的第二阈值,则说明第一语句和第二语句的分数的差值超过误差范围,可以作为评判标准,若纠错信心值小于该第二阈值,则说明第一语句和第二语句的分数的差值还在误差范围之内,则依然以原语句即第一语句作为输出值。
仍是以实施例2中的具体例子为例,最后将原句(第一语句)分数和纠错后句子(第二语句)分数进行比较,提高的部分称之为纠错信心,如果纠错信心大于一定阈值(此例中即为“我爱北京天安门”比“我艾北京天安门”高出的概率分数),则完成自动纠错;如果低于阈值,则返回原句。此例中“我爱北京天安门”的概率显然比“我艾北京天安门”高很多,即输出“我爱北京天安门”。
本实施例的其余优选实施方式如其他实施例所述,在此不再赘述。
实施例4
本实施例是结合上述实施例1至实施例3一些优选实施方式的举例,具体流程如图2所示,由于具体的实施方式、工作原理以及技术效果在上述实施例中均已提及,在此不再赘述。
实施例5
本发明提供一种基于语言模型和词特征的纠错系统,所述系统包括以下模块:
检测模块:用于获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;
推荐模块:用于将所得嫌疑词输入至候选词推荐系统中,至少两种不同的相似度算法结合选出候选词并输出打分模块:用于将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。
由于本系统的具体的实施方式、工作原理以及技术效果可以从上述纠错方法中直接得出,在此不再赘述。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种基于语言模型和词特征的纠错方法,其特征在于,所述方法包括以下步骤:
S1:获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;
S2:将所得嫌疑词输入至候选词推荐系统中,利用至少两种不同的相似度算法结合选出候选词并输出;
S3:将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。
2.如权利要求1所述的纠错方法,其特征在于,利用语言模型进行检测的方法包括:利用语言模型计算所述第一语句中连续n个字符组成的字符串的匹配概率,若所述匹配概率小于第一阈值,则将该字符串定义为嫌疑词。
3.如权利要求2所述的纠错方法,其特征在于,所述n的值为2。
4.如权利要求1所述的纠错方法,其特征在于,所述方法包括构建语言模型,所述语言模型的构建方法包括:
获取中文语料并进行规范化处理,利用所得中文语料构建语言模型。
5.如权利要求4所述的纠错方法,其特征在于,所述语言模型的构建方法还包括:对所得的构建语言模型进行平滑化处理。
6.如权利要求5所述的纠错方法,其特征在于,所述平滑化处理所使用的算法是modified Kneser-Ney平滑算法。
7.如权利要求1所述的纠错方法,其特征在于,所述S2具体包括:
S21:获取所述嫌疑词,寻找所述候选词推荐系统中的词典是否存在与所述嫌疑词一致的词汇,如果存在,则返回所述嫌疑词;如果不存在则进入S22;
S22:利用至少两种不同的相似度算法中结合计算匹配与所述嫌疑词相似的候选词。
8.如权利要求7所述的纠错方法,其特征在于,所述相似度算法包括拼音相似度算法、笔画相似度算法和编辑距离相似度算法。
9.如权利要求1所述的纠错方法,其特征在于,所述S3还包括:
将所述第一语句和第二语句的分数的差值作为纠错信心值,若所述纠错信心值大于第二阈值,则选择分数更高的待测语句进行输出;若所述纠错信心值小于第二阈值,则输出第一语句。
10.一种基于语言模型和词特征的纠错系统,其特征在于,所述系统包括以下模块:
检测模块:用于获取第一语句并输入至错词检测系统中,然后利用语言模型检测所述第一语句并返回嫌疑词;
推荐模块:用于将所得嫌疑词输入至候选词推荐系统中,至少两种不同的相似度算法结合选出候选词并输出;
打分模块:用于将所述第一语句中的嫌疑词替换成S2所得候选词形成第二语句,对所述第一语句和第二语句分别进行语句打分,选择分数更高的语句进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810679125.XA CN108959250A (zh) | 2018-06-27 | 2018-06-27 | 一种基于语言模型和词特征的纠错方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810679125.XA CN108959250A (zh) | 2018-06-27 | 2018-06-27 | 一种基于语言模型和词特征的纠错方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959250A true CN108959250A (zh) | 2018-12-07 |
Family
ID=64487200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810679125.XA Pending CN108959250A (zh) | 2018-06-27 | 2018-06-27 | 一种基于语言模型和词特征的纠错方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959250A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800414A (zh) * | 2018-12-13 | 2019-05-24 | 科大讯飞股份有限公司 | 语病修正推荐方法及系统 |
CN109858004A (zh) * | 2019-02-12 | 2019-06-07 | 四川无声信息技术有限公司 | 文本改写方法、装置及电子设备 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN109857264A (zh) * | 2019-01-02 | 2019-06-07 | 众安信息技术服务有限公司 | 一种基于空间键位的拼音纠错方法及装置 |
CN110096707A (zh) * | 2019-04-29 | 2019-08-06 | 北京三快在线科技有限公司 | 生成自然语言的方法、装置、设备及可读存储介质 |
CN110211571A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
CN110399608A (zh) * | 2019-06-04 | 2019-11-01 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于拼音的对话系统文本纠错系统及方法 |
CN110413990A (zh) * | 2019-06-20 | 2019-11-05 | 平安科技(深圳)有限公司 | 词向量的配置方法、装置、存储介质、电子装置 |
CN111339262A (zh) * | 2020-05-21 | 2020-06-26 | 北京金山数字娱乐科技有限公司 | 一种语句选词方法及装置 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN111444318A (zh) * | 2020-04-08 | 2020-07-24 | 厦门快商通科技股份有限公司 | 一种文本纠错方法 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
CN111680476A (zh) * | 2020-05-26 | 2020-09-18 | 广州多益网络股份有限公司 | 一种用于智能生成类文本的业务热词识别转换的方法 |
CN111737968A (zh) * | 2019-03-20 | 2020-10-02 | 小船出海教育科技(北京)有限公司 | 一种作文自动批改及评分的方法及终端 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112989806A (zh) * | 2021-04-07 | 2021-06-18 | 广州伟宏智能科技有限公司 | 一种智能化文本纠错模型训练方法 |
CN113268977A (zh) * | 2021-07-19 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
CN113553827A (zh) * | 2021-07-08 | 2021-10-26 | 出门问问信息科技有限公司 | 一种信息处理方法、装置、设备和计算机存储介质 |
WO2021218329A1 (zh) * | 2020-04-28 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 平行语料生成方法、装置、设备及存储介质 |
CN113704403A (zh) * | 2021-08-25 | 2021-11-26 | 深圳市网联安瑞网络科技有限公司 | 基于词库的ocr语义校正方法、系统、介质、设备、终端 |
CN115879458A (zh) * | 2022-04-08 | 2023-03-31 | 北京中关村科金技术有限公司 | 一种语料扩充方法、装置及存储介质 |
CN117034911A (zh) * | 2023-09-28 | 2023-11-10 | 通用技术集团健康数字科技(北京)有限公司 | 医院诊断词典的校正方法、装置、服务器及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246000A1 (en) * | 2010-12-01 | 2013-09-19 | State Grid Electric Power Research Institute | Method of power system preventive control candidate measures identification self-adaptive to external environment |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
-
2018
- 2018-06-27 CN CN201810679125.XA patent/CN108959250A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130246000A1 (en) * | 2010-12-01 | 2013-09-19 | State Grid Electric Power Research Institute | Method of power system preventive control candidate measures identification self-adaptive to external environment |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
CN107729321A (zh) * | 2017-10-23 | 2018-02-23 | 上海百芝龙网络科技有限公司 | 一种语音识别结果纠错方法 |
CN107977356A (zh) * | 2017-11-21 | 2018-05-01 | 新疆科大讯飞信息科技有限责任公司 | 识别文本纠错方法及装置 |
Non-Patent Citations (2)
Title |
---|
王兴建: "语音识别后文本处理系统中文本语音信息评价算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
王兴建: "语音识别后文本处理系统中文本语音信息评价算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》, no. 05, 15 May 2011 (2011-05-15), pages 136 - 79 * |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800414A (zh) * | 2018-12-13 | 2019-05-24 | 科大讯飞股份有限公司 | 语病修正推荐方法及系统 |
CN109800414B (zh) * | 2018-12-13 | 2023-04-18 | 科大讯飞股份有限公司 | 语病修正推荐方法及系统 |
CN109857264A (zh) * | 2019-01-02 | 2019-06-07 | 众安信息技术服务有限公司 | 一种基于空间键位的拼音纠错方法及装置 |
CN109857264B (zh) * | 2019-01-02 | 2022-09-20 | 众安信息技术服务有限公司 | 一种基于空间键位的拼音纠错方法及装置 |
CN109858023A (zh) * | 2019-01-04 | 2019-06-07 | 北京车慧科技有限公司 | 一种语句纠错装置 |
CN109858004A (zh) * | 2019-02-12 | 2019-06-07 | 四川无声信息技术有限公司 | 文本改写方法、装置及电子设备 |
CN111737968A (zh) * | 2019-03-20 | 2020-10-02 | 小船出海教育科技(北京)有限公司 | 一种作文自动批改及评分的方法及终端 |
CN110211571A (zh) * | 2019-04-26 | 2019-09-06 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
CN110211571B (zh) * | 2019-04-26 | 2023-05-26 | 平安科技(深圳)有限公司 | 错句检测方法、装置及计算机可读存储介质 |
CN110096707B (zh) * | 2019-04-29 | 2020-09-29 | 北京三快在线科技有限公司 | 生成自然语言的方法、装置、设备及可读存储介质 |
CN110096707A (zh) * | 2019-04-29 | 2019-08-06 | 北京三快在线科技有限公司 | 生成自然语言的方法、装置、设备及可读存储介质 |
CN110399608A (zh) * | 2019-06-04 | 2019-11-01 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于拼音的对话系统文本纠错系统及方法 |
CN110399608B (zh) * | 2019-06-04 | 2023-04-25 | 深思考人工智能机器人科技(北京)有限公司 | 一种基于拼音的对话系统文本纠错系统及方法 |
CN110413990A (zh) * | 2019-06-20 | 2019-11-05 | 平安科技(深圳)有限公司 | 词向量的配置方法、装置、存储介质、电子装置 |
WO2020253050A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 词向量的配置方法、装置、存储介质、电子装置 |
CN111369996A (zh) * | 2020-02-24 | 2020-07-03 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111369996B (zh) * | 2020-02-24 | 2023-08-18 | 网经科技(苏州)有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN111444318A (zh) * | 2020-04-08 | 2020-07-24 | 厦门快商通科技股份有限公司 | 一种文本纠错方法 |
WO2021218329A1 (zh) * | 2020-04-28 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 平行语料生成方法、装置、设备及存储介质 |
CN111339262A (zh) * | 2020-05-21 | 2020-06-26 | 北京金山数字娱乐科技有限公司 | 一种语句选词方法及装置 |
CN111613214A (zh) * | 2020-05-21 | 2020-09-01 | 重庆农村商业银行股份有限公司 | 一种用于提升语音识别能力的语言模型纠错方法 |
CN111680476B (zh) * | 2020-05-26 | 2024-01-30 | 广州多益网络股份有限公司 | 一种用于智能生成类文本的业务热词识别转换的方法 |
CN111680476A (zh) * | 2020-05-26 | 2020-09-18 | 广州多益网络股份有限公司 | 一种用于智能生成类文本的业务热词识别转换的方法 |
CN111859921A (zh) * | 2020-07-08 | 2020-10-30 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN111859921B (zh) * | 2020-07-08 | 2024-03-08 | 金蝶软件(中国)有限公司 | 文本纠错方法、装置、计算机设备和存储介质 |
CN112016304A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、装置、电子设备及存储介质 |
CN112989806A (zh) * | 2021-04-07 | 2021-06-18 | 广州伟宏智能科技有限公司 | 一种智能化文本纠错模型训练方法 |
CN113553827A (zh) * | 2021-07-08 | 2021-10-26 | 出门问问信息科技有限公司 | 一种信息处理方法、装置、设备和计算机存储介质 |
CN113553827B (zh) * | 2021-07-08 | 2023-11-10 | 出门问问信息科技有限公司 | 一种信息处理方法、装置、设备和计算机存储介质 |
CN113268977A (zh) * | 2021-07-19 | 2021-08-17 | 中国平安人寿保险股份有限公司 | 基于语言模型的文本纠错方法、装置、终端设备及介质 |
CN113704403A (zh) * | 2021-08-25 | 2021-11-26 | 深圳市网联安瑞网络科技有限公司 | 基于词库的ocr语义校正方法、系统、介质、设备、终端 |
CN115879458A (zh) * | 2022-04-08 | 2023-03-31 | 北京中关村科金技术有限公司 | 一种语料扩充方法、装置及存储介质 |
CN117034911A (zh) * | 2023-09-28 | 2023-11-10 | 通用技术集团健康数字科技(北京)有限公司 | 医院诊断词典的校正方法、装置、服务器及存储介质 |
CN117034911B (zh) * | 2023-09-28 | 2023-12-22 | 通用技术集团健康数字科技(北京)有限公司 | 医院诊断词典的校正方法、装置、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959250A (zh) | 一种基于语言模型和词特征的纠错方法及其系统 | |
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
CN110457688B (zh) | 纠错处理方法及装置、存储介质和处理器 | |
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
CN106202153B (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
US10360898B2 (en) | Method and system for predicting speech recognition performance using accuracy scores | |
CN105957518B (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
De Mori | Spoken language understanding: A survey | |
Tachbelie et al. | Using different acoustic, lexical and language modeling units for ASR of an under-resourced language–Amharic | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN103035241A (zh) | 模型互补的汉语韵律间断识别系统及方法 | |
US20100100379A1 (en) | Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method | |
CN109948144B (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN109710087A (zh) | 输入法模型生成方法及装置 | |
CN112818118A (zh) | 基于反向翻译的中文幽默分类模型 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN113221542A (zh) | 一种基于多粒度融合与Bert筛选的中文文本自动校对方法 | |
Cho et al. | Combination of nn and crf models for joint detection of punctuation and disfluencies | |
CN107992467A (zh) | 一种基于lstm的混合语料分词方法 | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
CN118471201A (zh) | 一种高效自适应面向语音识别引擎的热词纠错方法与系统 | |
Göker et al. | Neural text normalization for turkish social media | |
Bianne-Bernard et al. | Variable length and context-dependent HMM letter form models for Arabic handwritten word recognition | |
Khuman et al. | Grey relational analysis and natural language processing to: grey language processing | |
Granell et al. | Multimodal output combination for transcribing historical handwritten documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181207 |
|
RJ01 | Rejection of invention patent application after publication |