CN109145287A - 印尼语单词检错纠错方法及系统 - Google Patents
印尼语单词检错纠错方法及系统 Download PDFInfo
- Publication number
- CN109145287A CN109145287A CN201810734420.0A CN201810734420A CN109145287A CN 109145287 A CN109145287 A CN 109145287A CN 201810734420 A CN201810734420 A CN 201810734420A CN 109145287 A CN109145287 A CN 109145287A
- Authority
- CN
- China
- Prior art keywords
- word
- correct
- words
- detected
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 100
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013179 statistical model Methods 0.000 claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims description 31
- 238000003062 neural network model Methods 0.000 claims description 13
- 239000002131 composite material Substances 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种印尼语单词检错纠错方法及系统,所述方法包括:接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测单词;根据预设的正确词库判断所述待检测单词是否为错误单词;当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词;其中,M≥3;根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率;根据所述组合概率对所述待检测单词进行非词纠错。采用本发明的技术方案能够提高印尼语单词检错纠错的正确率。
Description
技术领域
本发明涉及信息技术中的自然语言处理技术领域,尤其涉及一种印尼语单 词检错纠错方法及系统。
背景技术
在文本处理中,单词作为最基本的单元,是语言处理的基础,单词本身是 否正确对文本的理解有着重要影响,并且单词的拼写错误对词法的研究也有着 重要意义,因此,单词检错纠错一直以来被国内外研究者广泛研究。
印尼作为中国周边具有重要影响的地区大国,是中国周边稳定与和平环境 重要依托之一,也是中国落实“与邻为善、与邻为伴”周边外交政策重要基地之一, 两国无论是在政治、经济还是文化上都有着频繁的交流,如今人们对于印尼语 的使用逐渐增多,相应产生了各种各样的印尼语文本错误,如单词拼写错误和 句子语法错误等问题,由此可见,对印尼语单词的检错纠错在语言学习、中印 交流中将发挥着重要的作用。
但是,由于印尼语属于小语种,印尼语资源稀缺可贵,目前缺乏大规模的 印尼语语料库,现有技术提供的单词检错纠错方法对印尼语并不适用,从而导 致对印尼语单词的检错纠错的正确率较低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种印尼语单词检错纠错方 法及系统,能够提高印尼语单词检错纠错的正确率。
为了解决上述技术问题,本发明实施例提供了一种印尼语单词检错纠错方 法,包括:
接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测单词;
根据预设的正确词库判断所述待检测单词是否为错误单词;
当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述 待检测单词的编辑距离获得M个候选单词;其中,M≥3;
根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述 待检测单词的相邻单词与每个所述候选单词的组合概率;
根据所述组合概率对所述待检测单词进行非词纠错。
进一步地,所述根据预设的正确词库判断所述待检测单词是否为错误单词, 具体包括:
根据预先训练的一元印尼语统计模型获得所述正确词库;
判断所述待检测单词是否存在于所述正确词库中;
当所述待检测单词存在于所述正确词库中时,判定所述待检测单词不为错 误单词;
当所述待检测单词不存在于所述正确词库中时,判定所述待检测单词为错 误单词。
进一步地,所述根据预先训练的一元印尼语统计模型获得所述正确词库, 具体包括:
根据所述一元印尼语统计模型获得预设的一元统计词典中的每个单词的出 现次数;
根据所述一元统计词典中出现次数不小于预设的次数阈值的单词构建所述 正确词库;
对所述一元统计词典中出现次数小于所述次数阈值的单词进行审核,并将 审核通过的单词加入所述正确词库。
进一步地,所述当所述待检测单词为错误单词时,根据所述正确词库中的 每个单词与所述待检测单词的编辑距离获得M个候选单词,具体包括:
当所述待检测单词为错误单词时,根据所述正确词库中单词长度与所述待 检测单词的单词长度满足预设的单词长度条件的单词构建候选词库;
分别计算所述候选词库中的每个单词与所述待检测单词的最小编辑距离;
将所述候选词库中的每个单词按照所述最小编辑距离从小到大的顺序排列, 将排列于前M位的单词作为所述候选单词。
进一步地,所述根据所述组合概率对所述待检测单词进行非词纠错,具体 包括:
将每个所述候选单词按照所述组合概率从大到小的顺序排列;
选择排列位于前K位的所述候选单词作为非词纠错的推荐单词;其中,K≤M。
进一步地,所述方法还包括:
当所述待检测单词不为错误单词时,根据预先训练的长短时记忆神经网络 模型获得满足预设的单词概率条件的第一组候选正确单词,并根据所述二元印 尼语统计模型获得满足预设的单词概率条件的第二组候选正确单词;
根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测 单词是否为正确单词;
当所述待检测单词不为正确单词时,根据所述第一组候选正确单词的单词 概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率;
根据所述综合概率对所述待检测单词进行真词纠错。
进一步地,所述根据所述第一组候选正确单词和所述第二组候选正确单词 判断所述待检测单词是否为正确单词,具体包括:
判断所述待检测单词是否存在于所述第一组候选正确单词或/和所述第二组 候选正确单词中;
当所述待检测单词存在于所述第一组候选正确单词或/和所述第二组候选正 确单词中时,判定所述待检测单词为正确单词;
当所述待检测单词不存在于所述第一组候选正确单词和所述第二组候选正 确单词中时,判定所述待检测单词不为正确单词。
进一步地,所述当所述待检测单词不为正确单词时,根据所述第一组候选 正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确 单词的综合概率,具体包括:
根据预设的第一综合概率计算公式分别计算所述第一组候选正确单词中的每个所述候选正确单词的综合概率;其中,ai表示 所述第一组候选正确单词中的任一所述候选正确单词,i=1、2、···、k1,k1表 示所述第一组候选正确单词的个数,p(ai)表示ai的单词概率,P(ai)表示ai的综合 概率;
根据预设的第二综合概率计算公式分别计算所述第二组候选正确单词中的每个所述候选正确单词的综合概率;其中,bj表示 所述第二组候选正确单词中的任一所述候选正确单词,j=1、2、···、k2,k2表 示所述第二组候选正确单词的个数,p(bj)表示bj的单词概率,P(bj)表示bj的综 合概率;
当所述第一组候选正确单词和所述第二组候选正确单词中有相同的候选正 确单词时,将所述相同的候选正确单词进行合并,并将对应的根据所述第一综 合概率计算公式和所述第二综合概率计算公式计算获得的综合概率相加的和值 作为所述相同的候选正确单词的综合概率。
进一步地,所述根据所述综合概率对所述待检测单词进行真词纠错,具体 包括:
将每个所述候选正确单词按照所述综合概率从大到小的顺序排列;
选择排列位于第一位的所述候选正确单词作为真词纠错的推荐单词。
为了解决上述技术问题,本发明实施例还提供了一种印尼语单词检错纠错 系统,包括:
语句接收模块,用于接收待检测印尼语语句,获得所述待检测印尼语语句 中的待检测单词;
错误单词判断模块,用于根据预设的正确词库判断所述待检测单词是否为 错误单词;
候选单词获取模块,用于当所述待检测单词为错误单词时,根据所述正确 词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词;其中,M≥3;
组合概率获取模块,用于根据预先训练的二元印尼语统计模型获得所述待 检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概 率;以及,
非词纠错模块,用于根据所述组合概率对所述待检测单词进行非词纠错。
与现有技术相比,本发明实施例提供了一种印尼语单词检错纠错方法及系 统,根据预设的正确词库判断待检测单词是否为错误单词,在判定待检测单词 为错误单词时,根据正确词库中的每个单词与待检测单词的编辑距离获得候选 单词,并根据预先训练的二元印尼语统计模型获得待检测单词的相邻单词与每 个候选单词的组合概率,从而根据组合概率对待检测单词进行非词纠错,能够 提高印尼语单词检错纠错的正确率。
附图说明
图1是本发明提供的一种印尼语单词检错纠错方法的一个优选实施例的流 程图;
图2是本发明提供的一种印尼语单词检错纠错方法的步骤S12的一个优选 实施例的具体流程图;
图3是本发明提供的一种印尼语单词检错纠错方法的步骤S13的一个优选 实施例的具体流程图;
图4是本发明提供的一种印尼语单词检错纠错方法的另一个优选实施例的 流程图;
图5是本发明提供的一种印尼语单词检错纠错方法的步骤S14’的一个优选 实施例的具体流程图;
图6是本发明提供的一种印尼语单词检错纠错方法的步骤S16’的一个优选 实施例的具体流程图;
图7是本发明提供的一种印尼语单词检错纠错系统的一个优选实施例的结 构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出 创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,对单词的检错纠错分为两种:
第一种是非词检错纠错,造成非词错误的单词在字典中是不存在的,它是 文本输入中一种比较常见的单词拼写错误,因此非词检错纠错是文本处理的一 个重要组成部分。非词检错纠错技术不仅应用于常见的键入文本检查,还广泛 应用于光学字符识别(Optical Character Recognition,OCR)和联机手写体识别 (On-line HandwritingRecognition)。
第二种是真词检错纠错,造成真词错误的单词在字典中是存在字典的,由 于单词放在句子中的语义不对,从而造成了真词错误。真词错误分为局部性错 误和全局性错误两种,局部性错误是根据该单词的上下文语境就可以检查出的 错误,全局性错误是需要根据更广泛的上下文才能检查出的错误。
参见图1所示,是本发明提供的一种印尼语单词检错纠错方法的一个优选 实施例的流程图,包括步骤S11至步骤S15:
步骤S11、接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测 单词;
步骤S12、根据预设的正确词库判断所述待检测单词是否为错误单词;
步骤S13、当所述待检测单词为错误单词时,根据所述正确词库中的每个单 词与所述待检测单词的编辑距离获得M个候选单词;其中,M≥3;
步骤S14、根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句 中的所述待检测单词的相邻单词与每个所述候选单词的组合概率;
步骤S15、根据所述组合概率对所述待检测单词进行非词纠错。
本发明实施例为对待检测单词的非词检错纠错方法,具体的,当需要判断 某一个印尼语单词是否为错误单词时,首先获取该印尼语单词所在的印尼语语 句,即待检测印尼语语句,从而根据待检测印尼语语句获取待检测单词;然后 根据预先设置的正确词库判断上述待检测单词是否为错误单词,当判定上述待 检测单词为错误单词时,根据预先设置的正确词库中的每个单词与上述待检测 单词的编辑距离获得一定数量的候选单词;接着根据上述待检测印尼语语句确 定上述待检测单词的相邻单词(前一个相邻单词或后一个相邻单词),以根据预 先训练完成的二元印尼语统计模型获取该相邻单词与上述一定数量的候选单词 中的每一个候选单词的组合概率;根据获取的所有的组合概率对上述待检测单词进行非词纠错。
需要说明的是,二元印尼语统计模型是基于对自然语言处理中常用的 N-Gram语言模型进行训练得到的,该模型对单词拼写的检错纠错非常有效。具 体训练步骤包括:第一步,利用网络爬虫,爬取大规模的印尼语语料,构建出 基于新闻文体的印尼语语料库;第二步,对印尼语语料库中的每一篇印尼语语 料(passage)进行预处理,包括句子(sen)识别划分、除杂(去除特殊标点符号 和数字)、单词(word)识别划分等预处理操作,每一篇印尼语语料经过预处理 后的具体保存形式为:passage={[word1,word2,word3,…],[word1,word2, word3,…],…},其中每一个句子为单词集合,每一篇印尼语语料为句子集合; 第三步,构建一元统计词典,根据第二步得到的单词集进行统计,计算每一个 单词的出现次数(num)和频率(frequen),具体保存形式为:word=[num,frequen]; 第四步,构建二元统计词典,根据第二步得到的句子集进行统计,以每一个句 子集中的单词为对象,统计每一个单词的前一个单词front_word的出现次数和 频率,具体保存形式为:word_front={front_word1:[num1,frequen1],front_word2: [num2,frequen2],···}。
本发明实施例所提供的一种印尼语单词检错纠错方法,根据预先设置的正 确词库判断待检测单词是否为错误单词,在判定待检测单词为错误单词时,根 据正确词库中的每个单词与待检测单词的编辑距离获得候选单词,并根据训练 后的二元印尼语统计模型获得待检测单词的相邻单词与每个候选单词的组合概 率,从而根据组合概率对待检测单词进行非词纠错,结合了印尼语语句中的词 汇搭配进行非词纠错,有效提高了印尼语单词检错纠错特别是非词检错纠错的 正确率。
另外,基于大规模印尼语语料对N-Gram语言模型进行训练,最终得到一个 可靠的印尼语统计模型,为提高印尼语单词检错纠错的正确率提供的有效保障。
参见图2所示,是本发明提供的一种印尼语单词检错纠错方法的步骤S12 的一个优选实施例的具体流程图,所述根据预设的正确词库判断所述待检测单 词是否为错误单词,具体包括步骤S1201至步骤S1204:
步骤S1201、根据预先训练的一元印尼语统计模型获得所述正确词库;
步骤S1202、判断所述待检测单词是否存在于所述正确词库中;
步骤S1203、当所述待检测单词存在于所述正确词库中时,判定所述待检测 单词不为错误单词;
步骤S1204、当所述待检测单词不存在于所述正确词库中时,判定所述待检 测单词为错误单词。
具体的,根据预先训练完成的一元印尼语统计模型获得正确词库,遍历该 正确词库中的所有单词,判断待检测单词在正确词库中是否存在,如果待检测 单词在正确词库中存在,则判定待检测单词不是错误单词,说明待检测单词不 存在非词错误;如果待检测单词在正确词库中不存在,则判定待检测单词时错 误单词,说明待检测单词存在非词错误。
需要说明的是,一元印尼语统计模型是基于对自然语言处理中常用的 N-Gram语言模型进行训练得到的,该模型对单词拼写的检错纠错非常有效。具 体训练步骤详见上述实施例对N-Gram语言模型进行训练的步骤中的第一步、第 二步和第三步,这里不再赘述。
在另一个优选实施例中,所述根据预先训练的一元印尼语统计模型获得所 述正确词库,具体包括:
根据所述一元印尼语统计模型获得预设的一元统计词典中的每个单词的出 现次数;
根据所述一元统计词典中出现次数不小于预设的次数阈值的单词构建所述 正确词库;
对所述一元统计词典中出现次数小于所述次数阈值的单词进行审核,并将 审核通过的单词加入所述正确词库。
结合上述实施例,根据预处理后的印尼语语料获得的单词集构建了一元统 计词典,从而可以根据训练后的一元印尼语统计模型得到一元统计词典中的每 个单词的出现次数;将出现次数不小于预先设置的次数阈值(次数阈值优选设 置为5次)的单词定义为正确单词(correct_word),根据所有的正确单词构建正 确词库(correct_dic);对出现次数小于预先设置的次数阈值的单词进行审核(例 如采用人工校对的方式进行审核),将审核通过的单词定义为正确单词并加入正 确词库;其中,具体保存形式为:correct_dic={correct_word1,correct_word2,···}。
可以理解的,将审核不通过的单词定义为错误单词(wrong_word),根据所 有的错误单词可以构建错误词库(wrong_dic);其中,具体保存形式为:wrong _dic={wrong_word1,wrong_word2,···}。
需要说明的是,本实施例相当于上述实施例对N-Gram语言模型进行训练的 步骤中的第五步,根据第三步中的一元统计词典构建正确/错误词库。
参见图3所示,是本发明提供的一种印尼语单词检错纠错方法的步骤S13 的一个优选实施例的具体流程图,所述当所述待检测单词为错误单词时,根据 所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词, 具体包括步骤S1301至步骤S1303:
步骤S1301、当所述待检测单词为错误单词时,根据所述正确词库中单词长 度与所述待检测单词的单词长度满足预设的单词长度条件的单词构建候选词库;
步骤S1302、分别计算所述候选词库中的每个单词与所述待检测单词的最小 编辑距离;
步骤S1303、将所述候选词库中的每个单词按照所述最小编辑距离从小到大 的顺序排列,将排列于前M位的单词作为所述候选单词。
具体的,当待检测单词为错误单词时,需要进行非词纠错;遍历正确词库 中的所有单词,计算正确词库中的每一个单词的单词长度与待检测单词的单词 长度,找出正确词库中单词长度满足预先设置的单词长度条件的单词,从而根 据找出的单词构建候选词库;分别计算候选词库中的每个单词与待检测单词的 最小编辑距离,并将候选词库中的每个单词按照计算获得的对应的最小编辑距 离从小到大的顺序排列,从而将排列于前M位的单词作为候选单词;其中,M≥3, M的值可以根据实际情况进行确定。
需要说明的是,本实施例相当于上述实施例对N-Gram语言模型进行训练的 步骤中的第六步,构建错误单词编辑距离表,对于错误词库(wrong_dic)中的 每一个错误单词(wrong_word),遍历正确词库(correct_dic),假设某一个错误 单词的单词长度为len(wrong_word),正确单词的单词长度为len(correct_words), 找出正确词库中单词长度满足预先设置的单词长度条件的单词,其中,单词长 度条件优选为len(correct_words)-L<len(wrong_word)<len(correct_words)+L,L= (1,2,3,···,len(wrong_word)),根据找出的所有满足上述单词长度条件的 单词构建候选词库;计算候选词库中的单词与错误单词的最小编辑距离,并将 候选词库中的每个单词按照计算获得的对应的最小编辑距离从小到大的顺序排 列,从而将排列于前M位的单词作为候选单词(condidate_word);错误单词编 辑距离表样式如表1所示。
表1错误单词编辑距离表
作为优选方案,在获取候选单词时,也可以将候选词库中的单词按照满足 L=1,L=2,···时的单词长度条件的顺序依次计算相应的最小编辑距离,直到获 得的候选单词个数大于等于3为止;例如,假设当L=1时,候选词库中满足 len(correct_words)-1<len(wrong_word)<len(correct_words)+1的单词有5个,大于 3个,则直接将这5个单词作为候选单词;假设当L=1时,候选词库中满足 len(correct_words)-1<len(wrong_word)<len(correct_words)+1的单词有2个,小于 3个,当L=2时,满足len(correct_words)-2<len(wrong_word)<len(correct_words)+2 的单词有5个,L=1和L=2时对应的单词共有7个,大于3个,则将这7个单 词作为候选单词。
需要补充的是,由于获取的印尼语语料库无法完全包含所有的印尼语单词, 在实际应用中极可能出现数据稀疏问题,故本发明需要在对N-Gram语言模型进 行训练的同时采用Katz平滑技术解决数据稀疏问题,详细步骤如下:
(1)获取N-Gram语言模型中每个单词的出现次数,如果词串没有出现, 则分配给这个词串一个一元模型的概率值,如果词串出现了r次,则平滑后的次 数为drr(dr为不大于1的参数);折扣系数dr的具体计算方法为:数目大的次数 被认为是可靠的,因而不需要进行折扣计算,只需要对数目较小的次数进行折 扣计算;取其中参数x=5,对于所有的r>x的次数,折扣系数dr=1,平滑后的次 数为原次数;对于所有的r≤x的次数,折扣率从所有出现非0次的N-Gram语言 模型中折扣出去的总次数正好与赋给出现0次的所有N-Gram语言模型的总次数 相等;最后得出Katz平滑的计算公式为:
其中,i为目标单词word在句子中的位置,n为N-Gram语言模型定义的元 数,即为N-Gram中的N,并且
(2)为计算dr,首先统计单词出现频数的最大值为total_max,并建立列表 N[total_max+1],遍历单词频数表,若频数为i,则N[i]+1,最终得出列表N, 有Ni=N[i]。dr的具体计算公式为:
其中,N为对应出现频数的单词总数,下标表示具体的出现频数。
(3)α为回退系数,其计算公式为:
其中,的含义为所有满足统计频数不为0的n元串。
(4)具体折扣后的次数c的计算公式为:
其中,理解为cKatz(wordi|wordi-n+1,wordi-n+2,…,wordi-1)。
在又一个优选实施例中,所述根据所述组合概率对所述待检测单词进行非 词纠错,具体包括:
将每个所述候选单词按照所述组合概率从大到小的顺序排列;
选择排列位于前K位的所述候选单词作为非词纠错的推荐单词;其中,K≤M。
具体的,根据训练后的二元印尼语统计模型可以获得待检测单词的相邻单 词与每一个候选单词的组合概率,将每一个候选单词按照对应的组合概率从大 到小的顺序排列,选择组合概率排在前K位的候选单词作为对待检测单词进行 非词纠错时的推荐单词。
优选地,K=3,可以理解的,选择组合概率排在前三位的候选单词作为推荐 单词是优选方案,也可以选择排在前两位或前四位(可以根据实际情况进行选 择)的候选单词作为推荐单词。
参见图4所示,是本发明提供的一种印尼语单词检错纠错方法的另一个优 选实施例的流程图,所述方法还包括步骤S13’至步骤S16’:
S13’、当所述待检测单词不为错误单词时,根据预先训练的长短时记忆神经 网络模型获得满足预设的单词概率条件的第一组候选正确单词,并根据所述二 元印尼语统计模型获得满足预设的单词概率条件的第二组候选正确单词;
S14’、根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待 检测单词是否为正确单词;
S15’、当所述待检测单词不为正确单词时,根据所述第一组候选正确单词的 单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合 概率;
S16’、根据所述综合概率对所述待检测单词进行真词纠错。
本发明实施例为对待检测单词的真词检错纠错方法,具体的,当需要判断 某一个印尼语单词是否为错误单词时,首先获取该印尼语单词所在的印尼语语 句,即待检测印尼语语句,从而根据待检测印尼语语句获取待检测单词;然后 根据预先设置的正确词库判断上述待检测单词是否为错误单词,当判定上述待 检测单词不为错误单词时,根据预先训练完成的长短时记忆神经网络模型从正 确词库中获取满足预先设置的单词概率条件的第一组候选正确单词,并根据预 先训练完成的二元印尼语统计模型从正确词库中获得满足预先设置的单词概率 条件的第二组候选正确单词;其中,预先设置的单词概率条件优选为:候选正 确单词的单词概率在正确词库的所有单词的单词概率中排名前五位;根据获得 的第一组候选正确单词和第二组候选正确单词判断上述待检测单词是否为正确 单词,当判定上述待检测单词不为正确单词时,根据第一组候选正确单词中的 每一个候选正确单词的单词概率和第二组候选正确单词中的每一个候选正确单 词的单词概率获取所有候选正确单词的综合概率;根据获取的所有候选正确单 词的综合概率对上述待检测单词进行真词纠错。
可以理解的,结合上述任一实施例,当判定待检测单词为错误单词时,对 待检测单词进行非词纠错之后,同样需要进一步对纠错后的单词进行真词检错 纠错处理。
需要说明的是,对长短时记忆(Long Short Term Memory,LSTM)神经网 络是采用了LSTM结构的一种循环神经网络,LSTM是一种拥三个“门”结构(输 入门、遗忘门、输出门)的特殊网络结构,通过这个特殊结构,能更有效的保 存长期记忆和选择信息,解决长期依赖问题。对LSTM神经网络模型的训练步 骤具体如下:
(1)LSTM神经网络直接利用N-Gram印尼语统计模型训练时预处理得到 的语料作为全部训练语料。
(2)构建单词id字典。对全部训练语料进行操作,统计出现过的每一个单 词,并为每一个单词赋予一个特定的id,具体保存形式为:word_to_Id={'word1': 1,'word2':2,'word3':3,···}。
(3)初始化一个LSTM神经网络,隐藏层为200层(hidden_size),并在 训练过程中加入dropout函数提高训练速度和防止过拟合。
(4)设置输入层。将单词id转化为维度等于hidden_size的单词向量,训 练时将输入语料切分成长度为35(num_step),batch为20(batch_size),在验 证、测评和实际应用时num_step和batch_size均设为1,输入层维度为batch_size ×train_num_step×hidden_size。
(5)设置输出层。将从LSTM中得到的输出经过一个全连接层和softmax 层得到下一个位置是不同单词的概率。
(6)设置误差计算函数和优化函数。利用复杂度(perplexity)作为LSTM 神经网络效果好坏的评价指标,perplexity值刻画了一个语言模型估计一句话出 现的概率,若已知道语句(w1,w1,w3,···,wy)出现在语料库中,通过语言 模型计算得到这句话的概率越高越好,则perplexity值越小越好。计算公式如下:
其中,y为语句(w1,w1,w3,···,wy)的句子长度。
(7)基于梯度下降法,对LSTM神经网络中的权值进行优化。
本发明实施例所提供的一种印尼语单词检错纠错方法,在判定待检测单词 为不错误单词时,分别根据训练后的LSTM神经网络模型和训练后的二元印尼 语统计模型获得两组候选正确单词,并在根据候选正确单词判定待检测单词为 不正确单词时,根据候选正确单词的综合概率对待检测单词进行真词纠错,通 过构建LSTM神经网络模型,对印尼语统计模型进行补充,有效提高了印尼语 单词检错纠错特别是真词检错纠错的正确率,进一步提高了对印尼语单词的检 错纠错质量。
另外,将大规模印尼语语料作为LSTM神经网络模型的训练集,得到一个 可靠的LSTM神经网络模型,为提高印尼语单词检错纠错的正确率提供的有效 保障。
参见图5所示,是本发明提供的一种印尼语单词检错纠错方法的步骤S14’ 的一个优选实施例的具体流程图,所述根据所述第一组候选正确单词和所述第 二组候选正确单词判断所述待检测单词是否为正确单词,具体包括步骤S14’01 至步骤S14’03:
S14’01、判断所述待检测单词是否存在于所述第一组候选正确单词或/和所 述第二组候选正确单词中;
S14’02、当所述待检测单词存在于所述第一组候选正确单词或/和所述第二 组候选正确单词中时,判定所述待检测单词为正确单词;
S14’03、当所述待检测单词不存在于所述第一组候选正确单词和所述第二组 候选正确单词中时,判定所述待检测单词不为正确单词。
具体的,判断待检测单词在第一组候选正确单词或/和第二组候选正确单词 中是否存在,如果待检测单词在第一组候选正确单词中存在,则判定待检测单 词是正确单词,说明待检测单词不存在真词错误;如果待检测单词在第二组候 选正确单词中存在,则判定待检测单词是正确单词,说明待检测单词不存在真 词错误;如果待检测单词同时在第一组候选正确单词和第二组候选正确单词中 存在,则判定待检测单词是正确单词,说明待检测单词不存在真词错误;如果 待检测单词在第一组候选正确单词和第二组候选正确单词中都不存在,则判定 待检测单词不是正确单词,说明待检测单词存在真词错误。
在又一个优选实施例中,所述当所述待检测单词不为正确单词时,根据所 述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得 所有候选正确单词的综合概率,具体包括:
根据预设的第一综合概率计算公式分别计算所述第一组候选正确单词中的每个所述候选正确单词的综合概率;其中,ai表示 所述第一组候选正确单词中的任一所述候选正确单词,i=1、2、···、k1,k1表 示所述第一组候选正确单词的个数,p(ai)表示ai的单词概率,P(ai)表示ai的综合 概率;
根据预设的第二综合概率计算公式分别计算所述第二组候选正确单词中的每个所述候选正确单词的综合概率;其中,bj表示 所述第二组候选正确单词中的任一所述候选正确单词,j=1、2、···、k2,k2表 示所述第二组候选正确单词的个数,p(bj)表示bj的单词概率,P(bj)表示bj的综 合概率;
当所述第一组候选正确单词和所述第二组候选正确单词中有相同的候选正 确单词时,将所述相同的候选正确单词进行合并,并将对应的根据所述第一综 合概率计算公式和所述第二综合概率计算公式计算获得的综合概率相加的和值 作为所述相同的候选正确单词的综合概率。
具体的,假设第一组候选正确单词包括5个候选正确单词,分别为a1、a2、 a3、a4、a5,对应的单词概率分别为p(a1)、p(a2)、p(a3)、p(a4)、p(a5),第二组候 选正确单词包括5个候选正确单词,分别为b1、b2、b3、b4、b5,对应的单词概 率分别为p(b1)、p(b2)、p(b3)、p(b4)、p(b5);对于a1,根据第一综合概率计算公 式计算得到的综合概率为对于b1,根据第二综 合概率计算公式计算得到的综合概率为其他候 选正确单词的综合概率的计算方法同理;假设a1和b3是同一个候选正确单词, 则将a1和b3合并,并表示为c1(也可以用其他不冲突的符合代替),将P(a1)和 P(b3)相加的和值作为c1的综合概率,即P(c1)=P(a1)+P(b3)。
参见图6所示,是本发明提供的一种印尼语单词检错纠错方法的步骤S16’ 的一个优选实施例的具体流程图,所述根据所述综合概率对所述待检测单词进 行真词纠错,具体包括步骤S16’01至步骤S16’02:
步骤S16’01、将每个所述候选正确单词按照所述综合概率从大到小的顺序 排列;
步骤S16’02、选择排列位于第一位的所述候选正确单词作为真词纠错的推 荐单词。
具体的,根据第一组候选正确单词中的每一个候选正确单词的单词概率和 第二组候选正确单词中的每一个候选正确单词的单词概率可以获得所有候选正 确单词的综合概率,将每一个候选正确单词按照对应的综合概率从大到小的顺 序排列,选择综合概率排在第一位的候选正确单词作为对待检测单词进行真词 纠错时的推荐单词。
结合上述实施例,将候选正确单词a2、a3、a4、a5、b1、b2、b4、b5、c1按照 计算获得的对应的综合概率P(a2)、P(a3)、P(a4)、P(a5)、P(b1)、P(b2)、P(b4)、P(b5)、 P(c1)按照从大到小的顺序排列,将综合概率最大的候选正确单词作为对待检测 单词进行真词纠错时的推荐单词。
本发明实施例还提供了一种印尼语单词检错纠错系统,能够实现上述任一 实施例中的印尼语单词检错纠错方法的所有流程,系统中的各个模块、单元以 及子单元的作用以及实现的技术效果分别与上述实施例中的印尼语单词检错纠 错方法的步骤的作用以及实现的技术效果对应相同,这里不再赘述。
参见图7所示,是本发明提供的一种印尼语单词检错纠错系统的一个优选 实施例的结构框图,包括:
语句接收模块11,用于接收待检测印尼语语句,获得所述待检测印尼语语 句中的待检测单词;
错误单词判断模块12,用于根据预设的正确词库判断所述待检测单词是否 为错误单词;
候选单词获取模块13,用于当所述待检测单词为错误单词时,根据所述正 确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词;其中, M≥3;
组合概率获取模块14,用于根据预先训练的二元印尼语统计模型获得所述 待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合 概率;以及,
非词纠错模块15,用于根据所述组合概率对所述待检测单词进行非词纠错。
优选地,所述错误单词判断模块具体包括:
正确词库获取单元,用于根据预先训练的一元印尼语统计模型获得所述正 确词库;
错误单词判断单元,用于判断所述待检测单词是否存在于所述正确词库中;
第一判定单元,用于当所述待检测单词存在于所述正确词库中时,判定所 述待检测单词不为错误单词;以及,
第二判定单元,用于当所述待检测单词不存在于所述正确词库中时,判定 所述待检测单词为错误单词。
优选地,所述正确词库获取单元具体包括:
出现次数统计子单元,用于根据所述一元印尼语统计模型获得预设的一元 统计词典中的每个单词的出现次数;
正确词库获取子单元,用于根据所述一元统计词典中出现次数不小于预设 的次数阈值的单词构建所述正确词库;以及,
正确词库补充子单元,用于对所述一元统计词典中出现次数小于所述次数 阈值的单词进行审核,并将审核通过的单词加入所述正确词库。
优选地,所述候选单词获取模块具体包括:
候选词库获取单元,用于当所述待检测单词为错误单词时,根据所述正确 词库中单词长度与所述待检测单词的单词长度满足预设的单词长度条件的单词 构建候选词库;
编辑距离计算单元,用于分别计算所述候选词库中的每个单词与所述待检 测单词的最小编辑距离;以及,
候选单词获取单元,用于将所述候选词库中的每个单词按照所述最小编辑 距离从小到大的顺序排列,将排列于前M位的单词作为所述候选单词。
优选地,所述非词纠错模块具体包括:
候选单词排序单元,用于将每个所述候选单词按照所述组合概率从大到小 的顺序排列;以及,
非词纠错单元,用于选择排列位于前K位的所述候选单词作为非词纠错的 推荐单词;其中,K≤M。
优选地,所述印尼语单词检错纠错系统还包括:
候选正确单词获取模块,用于当所述待检测单词不为错误单词时,根据预 先训练的长短时记忆神经网络模型获得满足预设的单词概率条件的第一组候选 正确单词,并根据所述二元印尼语统计模型获得满足预设的单词概率条件的第 二组候选正确单词;
正确单词判断模块,用于根据所述第一组候选正确单词和所述第二组候选 正确单词判断所述待检测单词是否为正确单词;
综合概率获取模块,用于当所述待检测单词不为正确单词时,根据所述第 一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有 候选正确单词的综合概率;以及,
真词纠错模块,用于根据所述综合概率对所述待检测单词进行真词纠错。
优选地,所述正确单词判断模块具体包括:
正确单词判断单元,用于判断所述待检测单词是否存在于所述第一组候选 正确单词或/和所述第二组候选正确单词中;
第三判定单元,用于当所述待检测单词存在于所述第一组候选正确单词或/ 和所述第二组候选正确单词中时,判定所述待检测单词为正确单词;以及,
第四判定单元,用于当所述待检测单词不存在于所述第一组候选正确单词 和所述第二组候选正确单词中时,判定所述待检测单词不为正确单词。
优选地,所述综合概率获取模块具体包括:
第一综合概率获取单元,用于根据预设的第一综合概率计算公式分别计算所述第一组候选正确单词中的每个所述 候选正确单词的综合概率;其中,ai表示所述第一组候选正确单词中的任一所述 候选正确单词,i=1、2、···、k1,k1表示所述第一组候选正确单词的个数,p(ai) 表示ai的单词概率,P(ai)表示ai的综合概率;
第二综合概率获取单元,用于根据预设的第二综合概率计算公式分别计算所述第二组候选正确单词中的每个所述 候选正确单词的综合概率;其中,bj表示所述第二组候选正确单词中的任一所述 候选正确单词,j=1、2、···、k2,k2表示所述第二组候选正确单词的个数,p(bj) 表示bj的单词概率,P(bj)表示bj的综合概率;以及,
综合概率合并单元,用于当所述第一组候选正确单词和所述第二组候选正 确单词中有相同的候选正确单词时,将所述相同的候选正确单词进行合并,并 将对应的根据所述第一综合概率计算公式和所述第二综合概率计算公式计算获 得的综合概率相加的和值作为所述相同的候选正确单词的综合概率。
优选地,所述真词纠错模块具体包括:
候选正确单词排序单元,用于将每个所述候选正确单词按照所述综合概率 从大到小的顺序排列;以及,
真词纠错单元,用于选择排列位于第一位的所述候选正确单词作为真词纠 错的推荐单词。
综上,本发明实施例所提供的一种印尼语单词检错纠错方法及系统,基于 大规模印尼语语料训练N-Gram模型,最终得到一个可靠的印尼语统计模型,结 合印尼语语句中的词汇搭配进行非词检测纠错,提高了非词检错纠错的正确率; 将大规模印尼语语料作为LSTM神经网络模型的训练集,得到一个可靠的LSTM 神经网络模型,结合LSTM神经网络模型和N-Gram模型进行真词检错纠错, 提高了真词检错纠错的正确率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变 形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种印尼语单词检错纠错方法,其特征在于,包括:
接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测单词;
根据预设的正确词库判断所述待检测单词是否为错误单词;
当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词;其中,M≥3;
根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率;
根据所述组合概率对所述待检测单词进行非词纠错。
2.如权利要求1所述的印尼语单词检错纠错方法,其特征在于,所述根据预设的正确词库判断所述待检测单词是否为错误单词,具体包括:
根据预先训练的一元印尼语统计模型获得所述正确词库;
判断所述待检测单词是否存在于所述正确词库中;
当所述待检测单词存在于所述正确词库中时,判定所述待检测单词不为错误单词;
当所述待检测单词不存在于所述正确词库中时,判定所述待检测单词为错误单词。
3.如权利要求2所述的印尼语单词检错纠错方法,其特征在于,所述根据预先训练的一元印尼语统计模型获得所述正确词库,具体包括:
根据所述一元印尼语统计模型获得预设的一元统计词典中的每个单词的出现次数;
根据所述一元统计词典中出现次数不小于预设的次数阈值的单词构建所述正确词库;
对所述一元统计词典中出现次数小于所述次数阈值的单词进行审核,并将审核通过的单词加入所述正确词库。
4.如权利要求1所述的印尼语单词检错纠错方法,其特征在于,所述当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词,具体包括:
当所述待检测单词为错误单词时,根据所述正确词库中单词长度与所述待检测单词的单词长度满足预设的单词长度条件的单词构建候选词库;
分别计算所述候选词库中的每个单词与所述待检测单词的最小编辑距离;
将所述候选词库中的每个单词按照所述最小编辑距离从小到大的顺序排列,将排列于前M位的单词作为所述候选单词。
5.如权利要求1所述的印尼语单词检错纠错方法,其特征在于,所述根据所述组合概率对所述待检测单词进行非词纠错,具体包括:
将每个所述候选单词按照所述组合概率从大到小的顺序排列;
选择排列位于前K位的所述候选单词作为非词纠错的推荐单词;其中,K≤M。
6.如权利要求1所述的印尼语单词检错纠错方法,其特征在于,所述方法还包括:
当所述待检测单词不为错误单词时,根据预先训练的长短时记忆神经网络模型获得满足预设的单词概率条件的第一组候选正确单词,并根据所述二元印尼语统计模型获得满足预设的单词概率条件的第二组候选正确单词;
根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词;
当所述待检测单词不为正确单词时,根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率;
根据所述综合概率对所述待检测单词进行真词纠错。
7.如权利要求6所述的印尼语单词检错纠错方法,其特征在于,所述根据所述第一组候选正确单词和所述第二组候选正确单词判断所述待检测单词是否为正确单词,具体包括:
判断所述待检测单词是否存在于所述第一组候选正确单词或/和所述第二组候选正确单词中;
当所述待检测单词存在于所述第一组候选正确单词或/和所述第二组候选正确单词中时,判定所述待检测单词为正确单词;
当所述待检测单词不存在于所述第一组候选正确单词和所述第二组候选正确单词中时,判定所述待检测单词不为正确单词。
8.如权利要求6所述的印尼语单词检错纠错方法,其特征在于,所述当所述待检测单词不为正确单词时,根据所述第一组候选正确单词的单词概率和所述第二组候选正确单词的单词概率获得所有候选正确单词的综合概率,具体包括:
根据预设的第一综合概率计算公式分别计算所述第一组候选正确单词中的每个所述候选正确单词的综合概率;其中,ai表示所述第一组候选正确单词中的任一所述候选正确单词,i=1、2、···、k1,k1表示所述第一组候选正确单词的个数,p(ai)表示ai的单词概率,P(ai)表示ai的综合概率;
根据预设的第二综合概率计算公式分别计算所述第二组候选正确单词中的每个所述候选正确单词的综合概率;其中,bj表示所述第二组候选正确单词中的任一所述候选正确单词,j=1、2、···、k2,k2表示所述第二组候选正确单词的个数,p(bj)表示bj的单词概率,P(bj)表示bj的综合概率;
当所述第一组候选正确单词和所述第二组候选正确单词中有相同的候选正确单词时,将所述相同的候选正确单词进行合并,并将对应的根据所述第一综合概率计算公式和所述第二综合概率计算公式计算获得的综合概率相加的和值作为所述相同的候选正确单词的综合概率。
9.如权利要求6所述的印尼语单词检错纠错方法,其特征在于,所述根据所述综合概率对所述待检测单词进行真词纠错,具体包括:
将每个所述候选正确单词按照所述综合概率从大到小的顺序排列;
选择排列位于第一位的所述候选正确单词作为真词纠错的推荐单词。
10.一种印尼语单词检错纠错系统,其特征在于,包括:
语句接收模块,用于接收待检测印尼语语句,获得所述待检测印尼语语句中的待检测单词;
错误单词判断模块,用于根据预设的正确词库判断所述待检测单词是否为错误单词;
候选单词获取模块,用于当所述待检测单词为错误单词时,根据所述正确词库中的每个单词与所述待检测单词的编辑距离获得M个候选单词;其中,M≥3;
组合概率获取模块,用于根据预先训练的二元印尼语统计模型获得所述待检测印尼语语句中的所述待检测单词的相邻单词与每个所述候选单词的组合概率;以及,
非词纠错模块,用于根据所述组合概率对所述待检测单词进行非词纠错。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810734420.0A CN109145287B (zh) | 2018-07-05 | 2018-07-05 | 印尼语单词检错纠错方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810734420.0A CN109145287B (zh) | 2018-07-05 | 2018-07-05 | 印尼语单词检错纠错方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145287A true CN109145287A (zh) | 2019-01-04 |
CN109145287B CN109145287B (zh) | 2022-11-29 |
Family
ID=64799754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810734420.0A Active CN109145287B (zh) | 2018-07-05 | 2018-07-05 | 印尼语单词检错纠错方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145287B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110705262A (zh) * | 2019-09-06 | 2020-01-17 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
CN110782881A (zh) * | 2019-10-25 | 2020-02-11 | 四川长虹电器股份有限公司 | 一种语音识别及实体识别后的影视实体纠错方法 |
CN111460794A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种增加拼写纠错功能的语法纠错方法 |
CN111523532A (zh) * | 2020-04-14 | 2020-08-11 | 广东小天才科技有限公司 | 一种矫正ocr文字识别错误的方法及终端设备 |
CN111767717A (zh) * | 2020-05-13 | 2020-10-13 | 广东外语外贸大学 | 印尼语的语法纠错方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0093249A2 (en) * | 1982-04-30 | 1983-11-09 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和系统 |
JP2011065384A (ja) * | 2009-09-16 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
CN102880611A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种语言建模方法及语言建模装置 |
CN103885938A (zh) * | 2014-04-14 | 2014-06-25 | 东南大学 | 基于用户反馈的行业拼写错误检查方法 |
CN105824804A (zh) * | 2016-03-31 | 2016-08-03 | 长安大学 | 基于词库的英语拼写纠错工具和方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
US20170286376A1 (en) * | 2016-03-31 | 2017-10-05 | Jonathan Mugan | Checking Grammar Using an Encoder and Decoder |
CN107679036A (zh) * | 2017-10-12 | 2018-02-09 | 南京网数信息科技有限公司 | 一种错别字监测方法及系统 |
-
2018
- 2018-07-05 CN CN201810734420.0A patent/CN109145287B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0093249A2 (en) * | 1982-04-30 | 1983-11-09 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
CN101241514A (zh) * | 2008-03-21 | 2008-08-13 | 北京搜狗科技发展有限公司 | 一种生成纠错数据库的方法、自动纠错的方法和系统 |
JP2011065384A (ja) * | 2009-09-16 | 2011-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 誤字脱字対応テキスト解析装置及び方法及びプログラム |
CN102880611A (zh) * | 2011-07-14 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种语言建模方法及语言建模装置 |
CN103885938A (zh) * | 2014-04-14 | 2014-06-25 | 东南大学 | 基于用户反馈的行业拼写错误检查方法 |
CN105824804A (zh) * | 2016-03-31 | 2016-08-03 | 长安大学 | 基于词库的英语拼写纠错工具和方法 |
US20170286376A1 (en) * | 2016-03-31 | 2017-10-05 | Jonathan Mugan | Checking Grammar Using an Encoder and Decoder |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN107679036A (zh) * | 2017-10-12 | 2018-02-09 | 南京网数信息科技有限公司 | 一种错别字监测方法及系统 |
Non-Patent Citations (4)
Title |
---|
KASTAM SYAMSI 等: ""SELF-EVALUATION ON THE LEARNING STRATEGIES OF THE GRADUATE STUDENTS OF INDONESIAN LANGUAGE EDUCATION STUDY PROGRAM"", 《JURNAL KEPENDIDIKAN PENELITIAN INOVASI PEMBELAJARAN》 * |
MOCH YUSUP SOLEH等: "A Non Word Error Spell Checker for Indonesian using Morphologically Analyzer and HMM", 《2011 INTERNATIONAL CONFERENCE ON ELECTRICAL ENGINEERING AND INFORMATICS》 * |
包乌格德勒: "蒙古文文本自动校对研究综述", 《电脑知识与技术》 * |
包凯: ""谷歌翻译汉译英错误类型及纠错方法初探"", 《中国科技翻译》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948152A (zh) * | 2019-03-06 | 2019-06-28 | 北京工商大学 | 一种基于lstm的中文文本语法纠错模型方法 |
CN110705262A (zh) * | 2019-09-06 | 2020-01-17 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
CN110705262B (zh) * | 2019-09-06 | 2023-08-29 | 宁波市科技园区明天医网科技有限公司 | 一种改进的应用于医技检查报告的智能纠错方法 |
CN110782881A (zh) * | 2019-10-25 | 2020-02-11 | 四川长虹电器股份有限公司 | 一种语音识别及实体识别后的影视实体纠错方法 |
CN111460794A (zh) * | 2020-03-11 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种增加拼写纠错功能的语法纠错方法 |
CN111523532A (zh) * | 2020-04-14 | 2020-08-11 | 广东小天才科技有限公司 | 一种矫正ocr文字识别错误的方法及终端设备 |
CN111767717A (zh) * | 2020-05-13 | 2020-10-13 | 广东外语外贸大学 | 印尼语的语法纠错方法、装置、设备及存储介质 |
CN111767717B (zh) * | 2020-05-13 | 2023-12-08 | 广东外语外贸大学 | 印尼语的语法纠错方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109145287B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145287B (zh) | 印尼语单词检错纠错方法及系统 | |
CN112149406B (zh) | 一种中文文本纠错方法及系统 | |
US7818332B2 (en) | Query speller | |
CN111310443B (zh) | 一种文本纠错方法和系统 | |
CN106202153B (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
US20190197118A1 (en) | Statistics-based machine translation method, apparatus and electronic device | |
Brill et al. | An improved error model for noisy channel spelling correction | |
US8881005B2 (en) | Methods and systems for large-scale statistical misspelling correction | |
EP0415000B1 (en) | Method and apparatus for spelling error detection and correction | |
CN109284352A (zh) | 一种基于倒排索引的评估类文档不定长词句的查询方法 | |
US20060241944A1 (en) | Method and system for generating spelling suggestions | |
US20040220797A1 (en) | Rules-based grammar for slots and statistical model for preterminals in natural language understanding system | |
CN110232923B (zh) | 一种语音控制指令生成方法、装置及电子设备 | |
CN111931506A (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN109213998B (zh) | 中文错字检测方法及系统 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN111611791B (zh) | 一种文本处理的方法及相关装置 | |
KR102026967B1 (ko) | n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법 | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
Fink et al. | Profiling of OCR'ed Historical Texts Revisited | |
CN112183073A (zh) | 一种适用于法律热线语音识别的文本纠错和补全方法 | |
US20110229036A1 (en) | Method and apparatus for text and error profiling of historical documents | |
Sakuntharaj et al. | Detecting and correcting real-word errors in Tamil sentences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |