CN109145287A

CN109145287A - 印尼语单词检错纠错方法及系统

Info

Publication number: CN109145287A
Application number: CN201810734420.0A
Authority: CN
Inventors: 蒋盛益; 林楠铠; 符斯慧; 郑铿涛; 陈晋毅
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2018-07-05
Filing date: 2018-07-05
Publication date: 2019-01-04
Anticipated expiration: 2038-07-05
Also published as: CN109145287B

Abstract

本发明公开了一种印尼语单词检错纠错方法及系统，所述方法包括：接收待检测印尼语语句，获得所述待检测印尼语语句中的待检测单词；根据预设的正确词库判断所述待检测单词是否为错误单词；当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词；其中，M≥3；根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率；根据所述组合概率对所述待检测单词进行非词纠错。采用本发明的技术方案能够提高印尼语单词检错纠错的正确率。

Description

印尼语单词检错纠错方法及系统

技术领域

本发明涉及信息技术中的自然语言处理技术领域，尤其涉及一种印尼语单词检错纠错方法及系统。

背景技术

在文本处理中，单词作为最基本的单元，是语言处理的基础，单词本身是否正确对文本的理解有着重要影响，并且单词的拼写错误对词法的研究也有着重要意义，因此，单词检错纠错一直以来被国内外研究者广泛研究。

印尼作为中国周边具有重要影响的地区大国，是中国周边稳定与和平环境重要依托之一，也是中国落实“与邻为善、与邻为伴”周边外交政策重要基地之一，两国无论是在政治、经济还是文化上都有着频繁的交流，如今人们对于印尼语的使用逐渐增多，相应产生了各种各样的印尼语文本错误，如单词拼写错误和句子语法错误等问题，由此可见，对印尼语单词的检错纠错在语言学习、中印交流中将发挥着重要的作用。

但是，由于印尼语属于小语种，印尼语资源稀缺可贵，目前缺乏大规模的印尼语语料库，现有技术提供的单词检错纠错方法对印尼语并不适用，从而导致对印尼语单词的检错纠错的正确率较低。

发明内容

本发明实施例所要解决的技术问题在于，提供一种印尼语单词检错纠错方法及系统，能够提高印尼语单词检错纠错的正确率。

为了解决上述技术问题，本发明实施例提供了一种印尼语单词检错纠错方法，包括：

接收待检测印尼语语句，获得所述待检测印尼语语句中的待检测单词；

根据预设的正确词库判断所述待检测单词是否为错误单词；

当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词；其中，M≥3；

根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率；

根据所述组合概率对所述待检测单词进行非词纠错。

进一步地，所述根据预设的正确词库判断所述待检测单词是否为错误单词，具体包括：

根据预先训练的一元印尼语统计模型获得所述正确词库；

判断所述待检测单词是否存在于所述正确词库中；

当所述待检测单词存在于所述正确词库中时，判定所述待检测单词不为错误单词；

当所述待检测单词不存在于所述正确词库中时，判定所述待检测单词为错误单词。

进一步地，所述根据预先训练的一元印尼语统计模型获得所述正确词库，具体包括：

根据所述一元印尼语统计模型获得预设的一元统计词典中的每个单词的出现次数；

根据所述一元统计词典中出现次数不小于预设的次数阈值的单词构建所述正确词库；

对所述一元统计词典中出现次数小于所述次数阈值的单词进行审核，并将审核通过的单词加入所述正确词库。

进一步地，所述当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词，具体包括：

当所述待检测单词为错误单词时，根据所述正确词库中单词长度与所述待检测单词的单词长度满足预设的单词长度条件的单词构建候选词库；

分别计算所述候选词库中的每个单词与所述待检测单词的最小编辑距离；

将所述候选词库中的每个单词按照所述最小编辑距离从小到大的顺序排列，将排列于前M位的单词作为所述候选单词。

进一步地，所述根据所述组合概率对所述待检测单词进行非词纠错，具体包括：

将每个所述候选单词按照所述组合概率从大到小的顺序排列；

选择排列位于前K位的所述候选单词作为非词纠错的推荐单词；其中，K≤M。

进一步地，所述方法还包括：

当所述待检测单词不为错误单词时，根据预先训练的长短时记忆神经网络模型获得满足预设的单词概率条件的第一组候选正确单词，并根据所述二元印尼语统计模型获得满足预设的单词概率条件的第二组候选正确单词；

根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词；

当所述待检测单词不为正确单词时，根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率；

根据所述综合概率对所述待检测单词进行真词纠错。

进一步地，所述根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词，具体包括：

判断所述待检测单词是否存在于所述第一组候选正确单词或/和所述第二组候选正确单词中；

当所述待检测单词存在于所述第一组候选正确单词或/和所述第二组候选正确单词中时，判定所述待检测单词为正确单词；

当所述待检测单词不存在于所述第一组候选正确单词和所述第二组候选正确单词中时，判定所述待检测单词不为正确单词。

进一步地，所述当所述待检测单词不为正确单词时，根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率，具体包括：

根据预设的第一综合概率计算公式分别计算所述第一组候选正确单词中的每个所述候选正确单词的综合概率；其中，a_i表示所述第一组候选正确单词中的任一所述候选正确单词，i＝1、2、···、k1，k1表示所述第一组候选正确单词的个数，p(a_i)表示a_i的单词概率，P(a_i)表示a_i的综合概率；

根据预设的第二综合概率计算公式分别计算所述第二组候选正确单词中的每个所述候选正确单词的综合概率；其中，b_j表示所述第二组候选正确单词中的任一所述候选正确单词，j＝1、2、···、k2，k2表示所述第二组候选正确单词的个数，p(b_j)表示b_j的单词概率，P(b_j)表示b_j的综合概率；

当所述第一组候选正确单词和所述第二组候选正确单词中有相同的候选正确单词时，将所述相同的候选正确单词进行合并，并将对应的根据所述第一综合概率计算公式和所述第二综合概率计算公式计算获得的综合概率相加的和值作为所述相同的候选正确单词的综合概率。

进一步地，所述根据所述综合概率对所述待检测单词进行真词纠错，具体包括：

将每个所述候选正确单词按照所述综合概率从大到小的顺序排列；

选择排列位于第一位的所述候选正确单词作为真词纠错的推荐单词。

为了解决上述技术问题，本发明实施例还提供了一种印尼语单词检错纠错系统，包括：

语句接收模块，用于接收待检测印尼语语句，获得所述待检测印尼语语句中的待检测单词；

错误单词判断模块，用于根据预设的正确词库判断所述待检测单词是否为错误单词；

候选单词获取模块，用于当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词；其中，M≥3；

组合概率获取模块，用于根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率；以及，

非词纠错模块，用于根据所述组合概率对所述待检测单词进行非词纠错。

与现有技术相比，本发明实施例提供了一种印尼语单词检错纠错方法及系统，根据预设的正确词库判断待检测单词是否为错误单词，在判定待检测单词为错误单词时，根据正确词库中的每个单词与待检测单词的编辑距离获得候选单词，并根据预先训练的二元印尼语统计模型获得待检测单词的相邻单词与每个候选单词的组合概率，从而根据组合概率对待检测单词进行非词纠错，能够提高印尼语单词检错纠错的正确率。

附图说明

图1是本发明提供的一种印尼语单词检错纠错方法的一个优选实施例的流程图；

图2是本发明提供的一种印尼语单词检错纠错方法的步骤S12的一个优选实施例的具体流程图；

图3是本发明提供的一种印尼语单词检错纠错方法的步骤S13的一个优选实施例的具体流程图；

图4是本发明提供的一种印尼语单词检错纠错方法的另一个优选实施例的流程图；

图5是本发明提供的一种印尼语单词检错纠错方法的步骤S14’的一个优选实施例的具体流程图；

图6是本发明提供的一种印尼语单词检错纠错方法的步骤S16’的一个优选实施例的具体流程图；

图7是本发明提供的一种印尼语单词检错纠错系统的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，对单词的检错纠错分为两种：

第一种是非词检错纠错，造成非词错误的单词在字典中是不存在的，它是文本输入中一种比较常见的单词拼写错误，因此非词检错纠错是文本处理的一个重要组成部分。非词检错纠错技术不仅应用于常见的键入文本检查，还广泛应用于光学字符识别(Optical Character Recognition，OCR)和联机手写体识别 (On-line HandwritingRecognition)。

第二种是真词检错纠错，造成真词错误的单词在字典中是存在字典的，由于单词放在句子中的语义不对，从而造成了真词错误。真词错误分为局部性错误和全局性错误两种，局部性错误是根据该单词的上下文语境就可以检查出的错误，全局性错误是需要根据更广泛的上下文才能检查出的错误。

参见图1所示，是本发明提供的一种印尼语单词检错纠错方法的一个优选实施例的流程图，包括步骤S11至步骤S15：

步骤S11、接收待检测印尼语语句，获得所述待检测印尼语语句中的待检测单词；

步骤S12、根据预设的正确词库判断所述待检测单词是否为错误单词；

步骤S13、当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词；其中，M≥3；

步骤S14、根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率；

步骤S15、根据所述组合概率对所述待检测单词进行非词纠错。

本发明实施例为对待检测单词的非词检错纠错方法，具体的，当需要判断某一个印尼语单词是否为错误单词时，首先获取该印尼语单词所在的印尼语语句，即待检测印尼语语句，从而根据待检测印尼语语句获取待检测单词；然后根据预先设置的正确词库判断上述待检测单词是否为错误单词，当判定上述待检测单词为错误单词时，根据预先设置的正确词库中的每个单词与上述待检测单词的编辑距离获得一定数量的候选单词；接着根据上述待检测印尼语语句确定上述待检测单词的相邻单词(前一个相邻单词或后一个相邻单词)，以根据预先训练完成的二元印尼语统计模型获取该相邻单词与上述一定数量的候选单词中的每一个候选单词的组合概率；根据获取的所有的组合概率对上述待检测单词进行非词纠错。

需要说明的是，二元印尼语统计模型是基于对自然语言处理中常用的 N-Gram语言模型进行训练得到的，该模型对单词拼写的检错纠错非常有效。具体训练步骤包括：第一步，利用网络爬虫，爬取大规模的印尼语语料，构建出基于新闻文体的印尼语语料库；第二步，对印尼语语料库中的每一篇印尼语语料(passage)进行预处理，包括句子(sen)识别划分、除杂(去除特殊标点符号和数字)、单词(word)识别划分等预处理操作，每一篇印尼语语料经过预处理后的具体保存形式为：passage＝{[word1，word2，word3，…]，[word1，word2， word3，…]，…}，其中每一个句子为单词集合，每一篇印尼语语料为句子集合；第三步，构建一元统计词典，根据第二步得到的单词集进行统计，计算每一个单词的出现次数(num)和频率(frequen)，具体保存形式为：word＝[num，frequen]；第四步，构建二元统计词典，根据第二步得到的句子集进行统计，以每一个句子集中的单词为对象，统计每一个单词的前一个单词front_word的出现次数和频率，具体保存形式为：word_front＝{front_word1：[num1，frequen1]，front_word2： [num2，frequen2]，···}。

本发明实施例所提供的一种印尼语单词检错纠错方法，根据预先设置的正确词库判断待检测单词是否为错误单词，在判定待检测单词为错误单词时，根据正确词库中的每个单词与待检测单词的编辑距离获得候选单词，并根据训练后的二元印尼语统计模型获得待检测单词的相邻单词与每个候选单词的组合概率，从而根据组合概率对待检测单词进行非词纠错，结合了印尼语语句中的词汇搭配进行非词纠错，有效提高了印尼语单词检错纠错特别是非词检错纠错的正确率。

另外，基于大规模印尼语语料对N-Gram语言模型进行训练，最终得到一个可靠的印尼语统计模型，为提高印尼语单词检错纠错的正确率提供的有效保障。

参见图2所示，是本发明提供的一种印尼语单词检错纠错方法的步骤S12 的一个优选实施例的具体流程图，所述根据预设的正确词库判断所述待检测单词是否为错误单词，具体包括步骤S1201至步骤S1204：

步骤S1201、根据预先训练的一元印尼语统计模型获得所述正确词库；

步骤S1202、判断所述待检测单词是否存在于所述正确词库中；

步骤S1203、当所述待检测单词存在于所述正确词库中时，判定所述待检测单词不为错误单词；

步骤S1204、当所述待检测单词不存在于所述正确词库中时，判定所述待检测单词为错误单词。

具体的，根据预先训练完成的一元印尼语统计模型获得正确词库，遍历该正确词库中的所有单词，判断待检测单词在正确词库中是否存在，如果待检测单词在正确词库中存在，则判定待检测单词不是错误单词，说明待检测单词不存在非词错误；如果待检测单词在正确词库中不存在，则判定待检测单词时错误单词，说明待检测单词存在非词错误。

需要说明的是，一元印尼语统计模型是基于对自然语言处理中常用的 N-Gram语言模型进行训练得到的，该模型对单词拼写的检错纠错非常有效。具体训练步骤详见上述实施例对N-Gram语言模型进行训练的步骤中的第一步、第二步和第三步，这里不再赘述。

在另一个优选实施例中，所述根据预先训练的一元印尼语统计模型获得所述正确词库，具体包括：

结合上述实施例，根据预处理后的印尼语语料获得的单词集构建了一元统计词典，从而可以根据训练后的一元印尼语统计模型得到一元统计词典中的每个单词的出现次数；将出现次数不小于预先设置的次数阈值(次数阈值优选设置为5次)的单词定义为正确单词(correct_word)，根据所有的正确单词构建正确词库(correct_dic)；对出现次数小于预先设置的次数阈值的单词进行审核(例如采用人工校对的方式进行审核)，将审核通过的单词定义为正确单词并加入正确词库；其中，具体保存形式为：correct_dic＝{correct_word1，correct_word2，···}。

可以理解的，将审核不通过的单词定义为错误单词(wrong_word)，根据所有的错误单词可以构建错误词库(wrong_dic)；其中，具体保存形式为：wrong _dic＝{wrong_word1，wrong_word2，···}。

需要说明的是，本实施例相当于上述实施例对N-Gram语言模型进行训练的步骤中的第五步，根据第三步中的一元统计词典构建正确/错误词库。

参见图3所示，是本发明提供的一种印尼语单词检错纠错方法的步骤S13 的一个优选实施例的具体流程图，所述当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词，具体包括步骤S1301至步骤S1303：

步骤S1301、当所述待检测单词为错误单词时，根据所述正确词库中单词长度与所述待检测单词的单词长度满足预设的单词长度条件的单词构建候选词库；

步骤S1302、分别计算所述候选词库中的每个单词与所述待检测单词的最小编辑距离；

步骤S1303、将所述候选词库中的每个单词按照所述最小编辑距离从小到大的顺序排列，将排列于前M位的单词作为所述候选单词。

具体的，当待检测单词为错误单词时，需要进行非词纠错；遍历正确词库中的所有单词，计算正确词库中的每一个单词的单词长度与待检测单词的单词长度，找出正确词库中单词长度满足预先设置的单词长度条件的单词，从而根据找出的单词构建候选词库；分别计算候选词库中的每个单词与待检测单词的最小编辑距离，并将候选词库中的每个单词按照计算获得的对应的最小编辑距离从小到大的顺序排列，从而将排列于前M位的单词作为候选单词；其中，M≥3， M的值可以根据实际情况进行确定。

需要说明的是，本实施例相当于上述实施例对N-Gram语言模型进行训练的步骤中的第六步，构建错误单词编辑距离表，对于错误词库(wrong_dic)中的每一个错误单词(wrong_word)，遍历正确词库(correct_dic)，假设某一个错误单词的单词长度为len(wrong_word)，正确单词的单词长度为len(correct_words)，找出正确词库中单词长度满足预先设置的单词长度条件的单词，其中，单词长度条件优选为len(correct_words)-L<len(wrong_word)<len(correct_words)+L，L＝ (1，2，3，···，len(wrong_word))，根据找出的所有满足上述单词长度条件的单词构建候选词库；计算候选词库中的单词与错误单词的最小编辑距离，并将候选词库中的每个单词按照计算获得的对应的最小编辑距离从小到大的顺序排列，从而将排列于前M位的单词作为候选单词(condidate_word)；错误单词编辑距离表样式如表1所示。

表1错误单词编辑距离表

作为优选方案，在获取候选单词时，也可以将候选词库中的单词按照满足 L＝1，L＝2，···时的单词长度条件的顺序依次计算相应的最小编辑距离，直到获得的候选单词个数大于等于3为止；例如，假设当L＝1时，候选词库中满足 len(correct_words)-1<len(wrong_word)<len(correct_words)+1的单词有5个，大于 3个，则直接将这5个单词作为候选单词；假设当L＝1时，候选词库中满足 len(correct_words)-1<len(wrong_word)<len(correct_words)+1的单词有2个，小于 3个，当L＝2时，满足len(correct_words)-2<len(wrong_word)<len(correct_words)+2 的单词有5个，L＝1和L＝2时对应的单词共有7个，大于3个，则将这7个单词作为候选单词。

需要补充的是，由于获取的印尼语语料库无法完全包含所有的印尼语单词，在实际应用中极可能出现数据稀疏问题，故本发明需要在对N-Gram语言模型进行训练的同时采用Katz平滑技术解决数据稀疏问题，详细步骤如下：

(1)获取N-Gram语言模型中每个单词的出现次数，如果词串没有出现，则分配给这个词串一个一元模型的概率值，如果词串出现了r次，则平滑后的次数为d_rr(d_r为不大于1的参数)；折扣系数d_r的具体计算方法为：数目大的次数被认为是可靠的，因而不需要进行折扣计算，只需要对数目较小的次数进行折扣计算；取其中参数x＝5，对于所有的r>x的次数，折扣系数d_r＝1，平滑后的次数为原次数；对于所有的r≤x的次数，折扣率从所有出现非0次的N-Gram语言模型中折扣出去的总次数正好与赋给出现0次的所有N-Gram语言模型的总次数相等；最后得出Katz平滑的计算公式为：

其中，i为目标单词word在句子中的位置，n为N-Gram语言模型定义的元数，即为N-Gram中的N，并且

(2)为计算d_r，首先统计单词出现频数的最大值为total_max，并建立列表 N[total_max+1]，遍历单词频数表，若频数为i，则N[i]+1，最终得出列表N，有N_i＝N[i]。dr的具体计算公式为：

其中，N为对应出现频数的单词总数，下标表示具体的出现频数。

(3)α为回退系数，其计算公式为：

其中，的含义为所有满足统计频数不为0的n元串。

(4)具体折扣后的次数c的计算公式为：

其中，理解为c_Katz(word_i|word_i-n+1,word_i-n+2,…,word_i-1)。

在又一个优选实施例中，所述根据所述组合概率对所述待检测单词进行非词纠错，具体包括：

具体的，根据训练后的二元印尼语统计模型可以获得待检测单词的相邻单词与每一个候选单词的组合概率，将每一个候选单词按照对应的组合概率从大到小的顺序排列，选择组合概率排在前K位的候选单词作为对待检测单词进行非词纠错时的推荐单词。

优选地，K＝3，可以理解的，选择组合概率排在前三位的候选单词作为推荐单词是优选方案，也可以选择排在前两位或前四位(可以根据实际情况进行选择)的候选单词作为推荐单词。

参见图4所示，是本发明提供的一种印尼语单词检错纠错方法的另一个优选实施例的流程图，所述方法还包括步骤S13’至步骤S16’：

S13’、当所述待检测单词不为错误单词时，根据预先训练的长短时记忆神经网络模型获得满足预设的单词概率条件的第一组候选正确单词，并根据所述二元印尼语统计模型获得满足预设的单词概率条件的第二组候选正确单词；

S14’、根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词；

S15’、当所述待检测单词不为正确单词时，根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率；

S16’、根据所述综合概率对所述待检测单词进行真词纠错。

本发明实施例为对待检测单词的真词检错纠错方法，具体的，当需要判断某一个印尼语单词是否为错误单词时，首先获取该印尼语单词所在的印尼语语句，即待检测印尼语语句，从而根据待检测印尼语语句获取待检测单词；然后根据预先设置的正确词库判断上述待检测单词是否为错误单词，当判定上述待检测单词不为错误单词时，根据预先训练完成的长短时记忆神经网络模型从正确词库中获取满足预先设置的单词概率条件的第一组候选正确单词，并根据预先训练完成的二元印尼语统计模型从正确词库中获得满足预先设置的单词概率条件的第二组候选正确单词；其中，预先设置的单词概率条件优选为：候选正确单词的单词概率在正确词库的所有单词的单词概率中排名前五位；根据获得的第一组候选正确单词和第二组候选正确单词判断上述待检测单词是否为正确单词，当判定上述待检测单词不为正确单词时，根据第一组候选正确单词中的每一个候选正确单词的单词概率和第二组候选正确单词中的每一个候选正确单词的单词概率获取所有候选正确单词的综合概率；根据获取的所有候选正确单词的综合概率对上述待检测单词进行真词纠错。

可以理解的，结合上述任一实施例，当判定待检测单词为错误单词时，对待检测单词进行非词纠错之后，同样需要进一步对纠错后的单词进行真词检错纠错处理。

需要说明的是，对长短时记忆(Long Short Term Memory，LSTM)神经网络是采用了LSTM结构的一种循环神经网络，LSTM是一种拥三个“门”结构(输入门、遗忘门、输出门)的特殊网络结构，通过这个特殊结构，能更有效的保存长期记忆和选择信息，解决长期依赖问题。对LSTM神经网络模型的训练步骤具体如下：

(1)LSTM神经网络直接利用N-Gram印尼语统计模型训练时预处理得到的语料作为全部训练语料。

(2)构建单词id字典。对全部训练语料进行操作，统计出现过的每一个单词，并为每一个单词赋予一个特定的id，具体保存形式为：word_to_Id＝{＇word1＇： 1，＇word2＇：2，＇word3＇：3，···}。

(3)初始化一个LSTM神经网络，隐藏层为200层(hidden_size)，并在训练过程中加入dropout函数提高训练速度和防止过拟合。

(4)设置输入层。将单词id转化为维度等于hidden_size的单词向量，训练时将输入语料切分成长度为35(num_step)，batch为20(batch_size)，在验证、测评和实际应用时num_step和batch_size均设为1，输入层维度为batch_size ×train_num_step×hidden_size。

(5)设置输出层。将从LSTM中得到的输出经过一个全连接层和softmax 层得到下一个位置是不同单词的概率。

(6)设置误差计算函数和优化函数。利用复杂度(perplexity)作为LSTM 神经网络效果好坏的评价指标，perplexity值刻画了一个语言模型估计一句话出现的概率，若已知道语句(w₁，w₁，w₃，···，w_y)出现在语料库中，通过语言模型计算得到这句话的概率越高越好，则perplexity值越小越好。计算公式如下：

其中，y为语句(w₁，w₁，w₃，···，w_y)的句子长度。

(7)基于梯度下降法，对LSTM神经网络中的权值进行优化。

本发明实施例所提供的一种印尼语单词检错纠错方法，在判定待检测单词为不错误单词时，分别根据训练后的LSTM神经网络模型和训练后的二元印尼语统计模型获得两组候选正确单词，并在根据候选正确单词判定待检测单词为不正确单词时，根据候选正确单词的综合概率对待检测单词进行真词纠错，通过构建LSTM神经网络模型，对印尼语统计模型进行补充，有效提高了印尼语单词检错纠错特别是真词检错纠错的正确率，进一步提高了对印尼语单词的检错纠错质量。

另外，将大规模印尼语语料作为LSTM神经网络模型的训练集，得到一个可靠的LSTM神经网络模型，为提高印尼语单词检错纠错的正确率提供的有效保障。

参见图5所示，是本发明提供的一种印尼语单词检错纠错方法的步骤S14’ 的一个优选实施例的具体流程图，所述根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词，具体包括步骤S14’01 至步骤S14’03：

S14’01、判断所述待检测单词是否存在于所述第一组候选正确单词或/和所述第二组候选正确单词中；

S14’02、当所述待检测单词存在于所述第一组候选正确单词或/和所述第二组候选正确单词中时，判定所述待检测单词为正确单词；

S14’03、当所述待检测单词不存在于所述第一组候选正确单词和所述第二组候选正确单词中时，判定所述待检测单词不为正确单词。

具体的，判断待检测单词在第一组候选正确单词或/和第二组候选正确单词中是否存在，如果待检测单词在第一组候选正确单词中存在，则判定待检测单词是正确单词，说明待检测单词不存在真词错误；如果待检测单词在第二组候选正确单词中存在，则判定待检测单词是正确单词，说明待检测单词不存在真词错误；如果待检测单词同时在第一组候选正确单词和第二组候选正确单词中存在，则判定待检测单词是正确单词，说明待检测单词不存在真词错误；如果待检测单词在第一组候选正确单词和第二组候选正确单词中都不存在，则判定待检测单词不是正确单词，说明待检测单词存在真词错误。

在又一个优选实施例中，所述当所述待检测单词不为正确单词时，根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率，具体包括：

具体的，假设第一组候选正确单词包括5个候选正确单词，分别为a₁、a₂、 a₃、a₄、a₅，对应的单词概率分别为p(a₁)、p(a₂)、p(a₃)、p(a₄)、p(a₅)，第二组候选正确单词包括5个候选正确单词，分别为b₁、b₂、b₃、b₄、b₅，对应的单词概率分别为p(b₁)、p(b₂)、p(b₃)、p(b₄)、p(b₅)；对于a₁，根据第一综合概率计算公式计算得到的综合概率为对于b₁，根据第二综合概率计算公式计算得到的综合概率为其他候选正确单词的综合概率的计算方法同理；假设a₁和b₃是同一个候选正确单词，则将a₁和b₃合并，并表示为c₁(也可以用其他不冲突的符合代替)，将P(a₁)和 P(b₃)相加的和值作为c₁的综合概率，即P(c₁)＝P(a₁)+P(b₃)。

参见图6所示，是本发明提供的一种印尼语单词检错纠错方法的步骤S16’ 的一个优选实施例的具体流程图，所述根据所述综合概率对所述待检测单词进行真词纠错，具体包括步骤S16’01至步骤S16’02：

步骤S16’01、将每个所述候选正确单词按照所述综合概率从大到小的顺序排列；

步骤S16’02、选择排列位于第一位的所述候选正确单词作为真词纠错的推荐单词。

具体的，根据第一组候选正确单词中的每一个候选正确单词的单词概率和第二组候选正确单词中的每一个候选正确单词的单词概率可以获得所有候选正确单词的综合概率，将每一个候选正确单词按照对应的综合概率从大到小的顺序排列，选择综合概率排在第一位的候选正确单词作为对待检测单词进行真词纠错时的推荐单词。

结合上述实施例，将候选正确单词a₂、a₃、a₄、a₅、b₁、b₂、b₄、b₅、c₁按照计算获得的对应的综合概率P(a₂)、P(a₃)、P(a₄)、P(a₅)、P(b₁)、P(b₂)、P(b₄)、P(b₅)、 P(c₁)按照从大到小的顺序排列，将综合概率最大的候选正确单词作为对待检测单词进行真词纠错时的推荐单词。

本发明实施例还提供了一种印尼语单词检错纠错系统，能够实现上述任一实施例中的印尼语单词检错纠错方法的所有流程，系统中的各个模块、单元以及子单元的作用以及实现的技术效果分别与上述实施例中的印尼语单词检错纠错方法的步骤的作用以及实现的技术效果对应相同，这里不再赘述。

参见图7所示，是本发明提供的一种印尼语单词检错纠错系统的一个优选实施例的结构框图，包括：

语句接收模块11，用于接收待检测印尼语语句，获得所述待检测印尼语语句中的待检测单词；

错误单词判断模块12，用于根据预设的正确词库判断所述待检测单词是否为错误单词；

候选单词获取模块13，用于当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词；其中， M≥3；

组合概率获取模块14，用于根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率；以及，

非词纠错模块15，用于根据所述组合概率对所述待检测单词进行非词纠错。

优选地，所述错误单词判断模块具体包括：

正确词库获取单元，用于根据预先训练的一元印尼语统计模型获得所述正确词库；

错误单词判断单元，用于判断所述待检测单词是否存在于所述正确词库中；

第一判定单元，用于当所述待检测单词存在于所述正确词库中时，判定所述待检测单词不为错误单词；以及，

第二判定单元，用于当所述待检测单词不存在于所述正确词库中时，判定所述待检测单词为错误单词。

优选地，所述正确词库获取单元具体包括：

出现次数统计子单元，用于根据所述一元印尼语统计模型获得预设的一元统计词典中的每个单词的出现次数；

正确词库获取子单元，用于根据所述一元统计词典中出现次数不小于预设的次数阈值的单词构建所述正确词库；以及，

正确词库补充子单元，用于对所述一元统计词典中出现次数小于所述次数阈值的单词进行审核，并将审核通过的单词加入所述正确词库。

优选地，所述候选单词获取模块具体包括：

候选词库获取单元，用于当所述待检测单词为错误单词时，根据所述正确词库中单词长度与所述待检测单词的单词长度满足预设的单词长度条件的单词构建候选词库；

编辑距离计算单元，用于分别计算所述候选词库中的每个单词与所述待检测单词的最小编辑距离；以及，

候选单词获取单元，用于将所述候选词库中的每个单词按照所述最小编辑距离从小到大的顺序排列，将排列于前M位的单词作为所述候选单词。

优选地，所述非词纠错模块具体包括：

候选单词排序单元，用于将每个所述候选单词按照所述组合概率从大到小的顺序排列；以及，

非词纠错单元，用于选择排列位于前K位的所述候选单词作为非词纠错的推荐单词；其中，K≤M。

优选地，所述印尼语单词检错纠错系统还包括：

候选正确单词获取模块，用于当所述待检测单词不为错误单词时，根据预先训练的长短时记忆神经网络模型获得满足预设的单词概率条件的第一组候选正确单词，并根据所述二元印尼语统计模型获得满足预设的单词概率条件的第二组候选正确单词；

正确单词判断模块，用于根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词；

综合概率获取模块，用于当所述待检测单词不为正确单词时，根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率；以及，

真词纠错模块，用于根据所述综合概率对所述待检测单词进行真词纠错。

优选地，所述正确单词判断模块具体包括：

正确单词判断单元，用于判断所述待检测单词是否存在于所述第一组候选正确单词或/和所述第二组候选正确单词中；

第三判定单元，用于当所述待检测单词存在于所述第一组候选正确单词或/ 和所述第二组候选正确单词中时，判定所述待检测单词为正确单词；以及，

第四判定单元，用于当所述待检测单词不存在于所述第一组候选正确单词和所述第二组候选正确单词中时，判定所述待检测单词不为正确单词。

优选地，所述综合概率获取模块具体包括：

第一综合概率获取单元，用于根据预设的第一综合概率计算公式分别计算所述第一组候选正确单词中的每个所述候选正确单词的综合概率；其中，a_i表示所述第一组候选正确单词中的任一所述候选正确单词，i＝1、2、···、k1，k1表示所述第一组候选正确单词的个数，p(a_i) 表示a_i的单词概率，P(a_i)表示a_i的综合概率；

第二综合概率获取单元，用于根据预设的第二综合概率计算公式分别计算所述第二组候选正确单词中的每个所述候选正确单词的综合概率；其中，b_j表示所述第二组候选正确单词中的任一所述候选正确单词，j＝1、2、···、k2，k2表示所述第二组候选正确单词的个数，p(b_j) 表示b_j的单词概率，P(b_j)表示b_j的综合概率；以及，

综合概率合并单元，用于当所述第一组候选正确单词和所述第二组候选正确单词中有相同的候选正确单词时，将所述相同的候选正确单词进行合并，并将对应的根据所述第一综合概率计算公式和所述第二综合概率计算公式计算获得的综合概率相加的和值作为所述相同的候选正确单词的综合概率。

优选地，所述真词纠错模块具体包括：

候选正确单词排序单元，用于将每个所述候选正确单词按照所述综合概率从大到小的顺序排列；以及，

真词纠错单元，用于选择排列位于第一位的所述候选正确单词作为真词纠错的推荐单词。

综上，本发明实施例所提供的一种印尼语单词检错纠错方法及系统，基于大规模印尼语语料训练N-Gram模型，最终得到一个可靠的印尼语统计模型，结合印尼语语句中的词汇搭配进行非词检测纠错，提高了非词检错纠错的正确率；将大规模印尼语语料作为LSTM神经网络模型的训练集，得到一个可靠的LSTM 神经网络模型，结合LSTM神经网络模型和N-Gram模型进行真词检错纠错，提高了真词检错纠错的正确率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种印尼语单词检错纠错方法，其特征在于，包括：

根据预设的正确词库判断所述待检测单词是否为错误单词；

根据所述组合概率对所述待检测单词进行非词纠错。

2.如权利要求1所述的印尼语单词检错纠错方法，其特征在于，所述根据预设的正确词库判断所述待检测单词是否为错误单词，具体包括：

根据预先训练的一元印尼语统计模型获得所述正确词库；

判断所述待检测单词是否存在于所述正确词库中；

3.如权利要求2所述的印尼语单词检错纠错方法，其特征在于，所述根据预先训练的一元印尼语统计模型获得所述正确词库，具体包括：

4.如权利要求1所述的印尼语单词检错纠错方法，其特征在于，所述当所述待检测单词为错误单词时，根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词，具体包括：

5.如权利要求1所述的印尼语单词检错纠错方法，其特征在于，所述根据所述组合概率对所述待检测单词进行非词纠错，具体包括：

6.如权利要求1所述的印尼语单词检错纠错方法，其特征在于，所述方法还包括：

根据所述综合概率对所述待检测单词进行真词纠错。

7.如权利要求6所述的印尼语单词检错纠错方法，其特征在于，所述根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词，具体包括：

8.如权利要求6所述的印尼语单词检错纠错方法，其特征在于，所述当所述待检测单词不为正确单词时，根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率，具体包括：

9.如权利要求6所述的印尼语单词检错纠错方法，其特征在于，所述根据所述综合概率对所述待检测单词进行真词纠错，具体包括：

10.一种印尼语单词检错纠错系统，其特征在于，包括：