CN107729316A

CN107729316A - 中文交互式问答文本中错别字的识别和纠错的方法及装置

Info

Publication number: CN107729316A
Application number: CN201710947261.8A
Authority: CN
Inventors: 傅强
Original assignee: Fujian Fujitsu Communication Software Co Ltd
Current assignee: Fujian Fujitsu Communication Software Co Ltd
Priority date: 2017-10-12
Filing date: 2017-10-12
Publication date: 2018-02-23

Abstract

本发明提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置，生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典；所述识别纠错过程包括：局部错误判断步骤，全局错误判断步骤，如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误，进行纠错改写步骤，最后输出文本。本发明的方法及装置，通过多角度多层次的识别和纠错，最终输出正确文本，提升实时文本交互的品质。

Description

中文交互式问答文本中错别字的识别和纠错的方法及装置

技术领域

本发明涉及中文文本中错别字的识别和纠错的方法及装置。

背景技术

随着互联网的发展，实时文本交互成为人们交互越来越重要的一种形式。人们常常用的短信、微信等等都属于实时文本交互，但是人们在交互时中输入的话语却常常包含有错别字或者错词，容易造成对方的理解错误，甚至可能引起误会。

中文错别字识别和纠错是自然语言处理领域中有着广阔应用前景的一个研究方向，属于刚刚起步的阶段。目前的识别和纠错技术无法识别非邻近关系的错字或者错词，无法识别词典外的错字或者错词。更重要的是，目前的识别和纠错技术多针对文章等书面用语进行，还没有针对交互类短文本进行自动纠错。

发明内容

本发明要解决的技术问题，在于提供一种中文交互式问答文本中错别字的识别和纠错的方法及装置，通过多角度多层次的识别和纠错，最终输出正确文本，提升实时文本交互的品质。

本发明方法是这样实现的：一种中文交互式问答文本中错别字的识别和纠错的方法，包括准备过程和识别纠错过程；

所述准备过程包括生成局部错误模型、全局错误模型、汉语转拼音词典、拼音转汉语词典以及形近词词典；

所述识别纠错过程包括下述步骤：

局部错误判断步骤，读取中文问答文本，进行分词，依据所述局部错误模型读取每个词与前后词的概率，若该概率小于阀值则认为存在局部错误，同时判断各个词是否是单字成词，如果是并且该单字成词概率小于阀值则存在局部错误；

全局错误判断步骤，读取中文问答文本，根据现有的分词和句法依存分析技术进行分析，建立词语配对关系，依据所述全局错误模型判别各个配对的概率，如果概率小于阀值则存在全局错误；

纠错改写步骤，如果所述局部错误判断步骤或所述全局错误判断步骤得到的结果是存在错误，则进行(1)或(2)：

(1)将出错的文本转换为拼音，并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词，对出错的文本进行改写；

(2)将出错的文本转换为五笔编码，依据所述形近词词典得到五笔编码对应的高频词，对出错的文本进行改写；

输出文本步骤，如果纠错改写失败，给出错误提示，输出原文本；如果不存在错误或纠错改写成功，输出正确文本；

其中，所述局部错误判断步骤和全局错误判断步骤不分先后。

进一步的，所述局部错误模型是根据大规模训练文本，对文本中的每句话分词，计算每个词与前后词同时出现的概率，写入模型文件，同时计算单字成词的概率，写入模型文件得到。

进一步的，所述全局错误模型是根据大规模训练文本，进行分词，句法依存分析，并根据该句法依存分析的结果建立词语配对关系，计算每个配对关系出现的概率，写入模型文件得到。

进一步的，所述拼音转汉语词典是对大规模训练文本的每句话进行分词，将每个词转换为对应拼音，累计每个词的频率，将词、词的拼音及词的频率汇总得到。

进一步的，所述形近词词典是对大规模训练文本的每句话进行分词，将每个词转换为对应的五笔编码，累计每个词的频率，将词、词的五笔编码及词的频率汇总得到。

本发明装置是这样实现的：一种中文交互式问答文本中错别字的识别和纠错的装置，包括：

局部错误识别模块，用于生成局部错误模型，识别局部错误。

全局错误识别模块，用于生成全局错误模型，识别全局错误。

音近词纠错模块，用于生成汉语转拼音词典、拼音转汉语词典，对音近词进行纠错。

形近词纠错模块，用于生成形近词词典，对形近词进行纠错

且所述识别和纠错的过程：

所述局部错误识别模块读取中文问答文本，进行分词，依据所述局部错误模型读取每个词与前后词的概率，若该概率小于阀值则认为存在局部错误，同时判断各个词是否是单字成词，如果是并且该单字成词概率小于阀值则存在局部错误；

所述全局错误识别模块读取中文问答文本，根据现有的分词和句法依存分析技术进行分析，建立词语配对关系，依据所述全局错误模型判别各个配对的概率，如果概率小于阀值则存在全局错误；

如果存在局部错误或全局错误，所述音近词纠错模块则进行(1)或(2)：

如果纠错改写失败，给出错误提示，输出原文本；如果不存在错误或纠错改写成功，输出正确文本。

进一步的，所述局部错误识别模块是根据大规模训练文本，对文本中的每句话分词，计算每个词与前后词同时出现的概率，写入模型文件，同时计算单字成词的概率，写入模型文件得到所述局部错误模型。

进一步的，所述全局错误识别模块是根据大规模训练文本，进行分词，句法依存分析，并根据该句法依存分析的结果建立词语配对关系，计算每个配对关系出现的概率，写入模型文件得到所述全局错误模型。

进一步的，所述音近词纠错模块是对大规模训练文本的每句话进行分词，将每个词转换为对应拼音，累计每个词的频率，将词、词的拼音及词的频率汇总得到所述拼音转汉语词典。

进一步的，所述形近词纠错模块是对大规模训练文本的每句话进行分词，将每个词转换为对应的五笔编码，累计每个词的频率，将词、词的五笔编码及词的频率汇总得到所述形近词词典。

本发明具有如下优点：本发明利用句法依存分析的词语配对结果，能够有效地识别非邻近关系的错字或者错词；利用汉语转拼音词典可以全量的把汉字转文本，再通过文本转高频词，能够有效地纠错由拼音输入法输入错误的文本；利用单字成词概率，能够有效地识别分词后出现的单字是否属于错字或者错词；利用已有的概率模型，可以对词典外的错字或者错词进行有效预测；从而实现多角度多层次的识别和纠错，最终输出正确文本，提高交互文本内容的信息准确性，提升实时文本交互的品质。

具体实施方式

本发明的中文交互式问答文本中错别字的识别和纠错的方法，包括准备过程和识别纠错过程；

所述识别纠错过程包括下述步骤：

局部错误判断步骤，读取中文问答文本，进行分词，依据所述局部错误模型读取每个词与前后词的概率，若该概率小于阀值则认为存在局部错误，同时判断各个词是否是单字成词，如果是并且该单字成词概率小于阀值则存在局部错误；例如：中文问答文本为“我每天都在写程序”，分词结果为：我—每天—都—写—程序，判断“我—每天”、“每天—都”、“都—写”、“写—程序”在模型中的概率，若该概率小于阀值则认为存在局部错误；判断“我”、“都”、“写”单个字成词的概率，若该概率小于阀值则认为存在局部错误。

全局错误判断步骤，读取中文问答文本，根据现有的分词和句法依存分析技术进行分析，建立词语配对关系，依据所述全局错误模型判别各个配对的概率，如果概率小于阀值则存在全局错误；例如：中文问答文本为“我每天都在写程序”，句法分析结果生成的配对关系包含：我—写，每天—写，都—写，在—写，写—程序，读取各个配对在模型中的概率，如果概率小于阀值则存在全局错误。

(1)将出错的文本转换为拼音，并依据所述汉语转拼音词典或拼音转汉语词典得到拼音对应的高频词，对出错的文本进行改写，即改写成该对应的高频词；

(2)将出错的文本转换为五笔编码，依据所述形近词词典得到五笔编码对应的高频词，对出错的文本进行改写，即改写成该对应的高频词；

其中，所述局部错误判断步骤和全局错误判断步骤不分先后，且在输出文本之前可以多次重复该局部错误判断步骤和全局错误判断步骤。

本发明的中文交互式问答文本中错别字的识别和纠错的装置，包括：

局部错误识别模块，用于生成局部错误模型，识别局部错误；所述局部错误识别模块是根据大规模训练文本，对文本中的每句话分词，计算每个词与前后词同时出现的概率，写入模型文件，同时计算单字成词的概率，写入模型文件得到所述局部错误模型。

全局错误识别模块，用于生成全局错误模型，识别全局错误；所述全局错误识别模块是根据大规模训练文本，进行分词，句法依存分析，并根据该句法依存分析的结果建立词语配对关系，计算每个配对关系出现的概率，写入模型文件得到所述全局错误模型。

音近词纠错模块，用于生成汉语转拼音词典、拼音转汉语词典，对音近词进行纠错；所述音近词纠错模块是对大规模训练文本的每句话进行分词，将每个词转换为对应拼音，累计每个词的频率，将词、词的拼音及词的频率汇总得到所述拼音转汉语词典。

形近词纠错模块，用于生成形近词词典，对形近词进行纠错；所述形近词纠错模块是对大规模训练文本的每句话进行分词，将每个词转换为对应的五笔编码，累计每个词的频率，将词、词的五笔编码及词的频率汇总得到所述形近词词典。

且所述识别和纠错的过程：

本发明具有如下优点：本发明利用句法依存分析的词语配对结果，能够有效地识别非邻近关系的错字或者错词；利用汉语转拼音词典可以全量的把汉字转文本，再通过文本转高频词，能够有效地纠错由拼音输入法输入错误的文本；利用单字成词概率，能够有效地识别分词后出现的单字是否属于错字或者错词；利用已有的概率模型，可以对词典外的错字或者错词进行有效预测；因此将本发明实施的技术方案应用于交互类短文本，可以提高交互文本内容的信息准确性。

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.中文交互式问答文本中错别字的识别和纠错的方法，其特征在于：包括准备过程和识别纠错过程；

所述识别纠错过程包括下述步骤：

2.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法，其特征在于：所述局部错误模型是根据大规模训练文本，对文本中的每句话分词，计算每个词与前后词同时出现的概率，写入模型文件，同时计算单字成词的概率，写入模型文件得到。

3.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法，其特征在于：所述全局错误模型是根据大规模训练文本，进行分词，句法依存分析，并根据该句法依存分析的结果建立词语配对关系，计算每个配对关系出现的概率，写入模型文件得到。

4.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法，其特征在于：所述拼音转汉语词典是对大规模训练文本的每句话进行分词，将每个词转换为对应拼音，累计每个词的频率，将词、词的拼音及词的频率汇总得到。

5.根据权利要求1所述的中文交互式问答文本中错别字的识别和纠错的方法，其特征在于：所述形近词词典是对大规模训练文本的每句话进行分词，将每个词转换为对应的五笔编码，累计每个词的频率，将词、词的五笔编码及词的频率汇总得到。

6.中文交互式问答文本中错别字的识别和纠错的装置，其特征在于：包括：

形近词纠错模块，用于生成形近词词典，对形近词进行纠错

且所述识别和纠错的过程：

7.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置，其特征在于：所述局部错误识别模块是根据大规模训练文本，对文本中的每句话分词，计算每个词与前后词同时出现的概率，写入模型文件，同时计算单字成词的概率，写入模型文件得到所述局部错误模型。

8.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置，其特征在于：所述全局错误识别模块是根据大规模训练文本，进行分词，句法依存分析，并根据该句法依存分析的结果建立词语配对关系，计算每个配对关系出现的概率，写入模型文件得到所述全局错误模型。

9.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置，其特征在于：所述音近词纠错模块是对大规模训练文本的每句话进行分词，将每个词转换为对应拼音，累计每个词的频率，将词、词的拼音及词的频率汇总得到所述拼音转汉语词典。

10.根据权利要求6所述的中文交互式问答文本中错别字的识别和纠错的装置，其特征在于：所述形近词纠错模块是对大规模训练文本的每句话进行分词，将每个词转换为对应的五笔编码，累计每个词的频率，将词、词的五笔编码及词的频率汇总得到所述形近词词典。