CN108717412A

CN108717412A - 基于中文分词的中文校对纠错方法及系统

Info

Publication number: CN108717412A
Application number: CN201810601792.6A
Authority: CN
Inventors: 窦志成; 曾泽群; 谢峰
Original assignee: Beijing Wisdom Data Technology Co Ltd
Current assignee: Beijing Wisdom Data Technology Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-10-30

Abstract

本发明提出了一种基于中文分词的中文校对纠错方法及系统，所述方法包括以下步骤：对输入的中文文本按单句进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语；对所述词数组进行重组形成短句；判断所述短句在预设文本库中出现的次数是否大于第一阈值，若是，则将所述短句标记为正确；若否，则对所述短句进行字形及拼音纠错处理。本发明实现了对文本中错别字进行自动校对与纠错，提升了中文校对纠错的准确性及工作效率。

Description

基于中文分词的中文校对纠错方法及系统

技术领域

本发明涉及文本校正的技术领域，特别涉及一种基于中文分词的中文校对纠错方法及系统。

背景技术

中文文字信息进入计算机主要通过四个途径：即传统的编码录入、光学扫描输入、智能语音输入和智能手写输入。目前上述四种输入方式均无法确保进入计算机的文字信息完全正确。传统的语言文字校对手段是人工文本校对，需要耗费大量的人力、物力和财力。虽然国外文本校对在英文的拼写校对方面取得了一定成果，且部分成果实现了商业化，但由于在于中文语言结构的复杂性和词语搭配的多样性，同时结合语境使得字、词和句变得错综复杂，因此，现有的技术延用到中文校对和纠错上，效果不佳。

发明内容

本发明的目的是提出一种基于中文分词的中文校对纠错方法及系统，能对文本中错别字进行自动校对与纠错，提升中文纠错的准确性及工作效率。

为达到上述目的，本发明提出了一种基于中文分词的中文校对纠错方法，包括以下步骤：

对输入的中文文本按单句进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语；对所述词数组进行重组形成短句；

判断所述短句在预设文本库中出现的次数是否大于第一阈值，

若是，则将所述短句标记为正确；若否，则对所述短句进行字形及拼音纠错处理。

进一步，在上述的基于中文分词的中文校对纠错方法中，所述对输入的中文文本按单句进行中文分词得到词数组的步骤包括：

对输入的中文文本按句号及逗号进行拆分，形成独立句子；

对所述独立句子进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语。

进一步，在上述的基于中文分词的中文校对纠错方法中，所述对所述词数组进行重组形成短句的步骤包括：

对所述词数组按照预设字符串长度进行重组形成短句。

进一步，在上述的基于中文分词的中文校对纠错方法中，所述对所述词数组进行重组形成短句的步骤还包括：

当判断所述词数组中含有常用字符时，跳过所述常用字符后再按照预设字符串长度进行重组形成短句。

进一步，在上述的基于中文分词的中文校对纠错方法中，所述预设文本库为Solr文本库。

进一步，在上述的基于中文分词的中文校对纠错方法中，所述对所述短句进行字形及拼音纠错处理的步骤具体包括：

将所述短句的目标词语根据其字符长度在预设词库中进行模糊匹配，得到跟所述目标词语相似的备选词语；

对所述备选词语进行字形相似度检验；

获取所述目标词语中每个字的拼音，并组合成字符串进行拼音的相似度检验；

在判断所述词语相似度的值大于第二阈值以及所述词语的统计词频大于第三阈值时，标记所述备选词语为推荐词语。

另，本发明还提供一种基于中文分词的中文校对纠错系统，包括：分词单元、重组单元、判断单元，标记单元及纠错单元；

所述分词单元用于对输入的中文文本按单句进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语；所述重组单元用于对所述词数组进行重组形成短句；所述判断单元用于判断所述短句在预设文本库中出现的次数是否大于第一阈值；所述标记单元用于在判断所述短句在预设文本库中出现的次数大于第一阈值时，将所述短句标记为正确；所述纠错单元用于在判断所述短句在预设文本库中出现的次数不大于第一阈值时，对所述短句进行字形及拼音纠错处理。

本发明一种基于中文分词的中文校正纠错方法及系统实现了对文本中错别字进行自动校对与纠错，提升了中文校对纠错的准确性及工作效率。

附图说明

图1为本发明一种基于中文分词的中文校对纠错方法的具体流程示意图；

图2为本发明中文分词的一实施例示意图；

图3为本发明中文分词的另一实施例示意图；

图4为本发明一种基于中文分词的中文纠错系统的结构示意图。

具体实施方式

下面结合附图详细说明本发明的优选实施例。

本发明提供一种基于中文分词的中文校正纠错方法，其包括以下步骤：对输入的中文文本按单句进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语；对所述词数组进行重组形成短句；判断所述短句在预设文本库中出现的次数是否大于第一阈值，若是，则将所述短句标记为正确；若否，则对所述短句进行字形及拼音纠错处理。这样，通过对中文文本进行中文分词以及检索和匹配，达到识别判断文本中含有的文字错误，且进行相应的纠错处理，并推荐正确的词组，从而实现了对文本中错别字进行自动校对与纠错，提升了中文校对纠错的准确性及工作效率。

请参阅图1，图1为本发明一种基于中文分词的中文校对纠错方法的具体流程示意图。所述方法具体包括以下步骤：

步骤S11：对输入的中文文本按句号及逗号进行拆分，形成独立句子；

具体实现时，用户先输入需要校正纠错的中文文本，具体途径可以为：用户

采用语音或者键盘输入待校对中文文本，即通过指定的API接口传入文本。在得到所述中文文本后，首先要对所述中文文本在文字上进行碎片化处理，即按照句号、逗号进行拆分，形成独立句子。

例如，用户输入的中文文本为：

“武警部队肩负维护国家安全和社会稳定、保障人民安居乐叶的神圣使命。这次调整武警部队领导指挥体制的关键和核心，是加强党中央、中央军委对武警部队的集中统一领导。”

对上述中文文本按句号拆分后为：

（1）武警部队肩负维护国家安全和社会稳定、保障人民安居乐叶的神圣使命。

（2）这次调整武警部队领导指挥体制的关键和核心，是加强党中央、中央军委对武警部队的集中统一领导。

继续对上述（2）中文文本按逗号拆分后为：

（A）这次调整武警部队领导指挥体制的关键和核心

（B）是加强党中央、中央军委对武警部队的集中统一领导

步骤S12：对所述独立句子进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语；

具体实现时，在将中文文本拆分为独立句子后，需要对独立句子进一步进行精确的字、词、句划分，即进行中文分词。本发明中采用RUCNLP中文分词对输入的语句进行分词，同时也根据中文分词后的文字特性进行中文纠错。

如图2所示，若输入的中文文本不包含错别字，经过中文分词后的词语将分为四字词语、三字词语、两字词语和字，且这些字和词语都呈现常态化，

如图3所示，若输入的中文文本中包含错别字，正常的中文分词的规律就会被打破，呈现出明显的特征，例如两字词语中出现独立的字+字的组合，三字词语出现独立的字+两字词语的组合，四字词语出现独立的字+三字词语的组合。。等等。通过辨析这样的特征，就能准确的识别和定位该错误发生的位置。

本实施例中，例如对上述第一个独立句子进行中文分词后，得到如下的词数组：

【武警部队，肩负，维护，国家，安全，和，社会，稳定，、，保障，人民，安居乐，叶，的，神圣，使命】

其中，分词后的词数组中包括有单字、两字、三字及四字词语，以及常见符号顿号。

步骤S13：对所述词数组按照预设字符串长度进行重组形成短句；

具体实现时，为提高中文文本的数据校对工作效率，本发明对所述词数组由后往前循环遍历拆分后的词数组，按照预设字符串长度（设定的窗口大小）进行重组形成短句。

例如，上述词数组按5个字符串的长度进行重组后形成的如下短句：

【武警部队，肩负，】【维护，国家，安全，】【和，社会，稳定，】、，【安居乐，叶，】

【的，神圣，使命】

需要说明的是，所述字符串长度可根据需要调整；在对所述词数组进行重组过程中，还需排除掉可能出现标点符号等常用字符，例如所述词数组中的顿号。

即所述步骤S13还包括：

步骤S14：判断所述短句在预设文本库中出现的次数是否大于第一阈值，若是，则将所述短句标记为正确；若否，则进行步骤S15；

具体实现时，对上述形成的短句在预设文本库中进行搜索匹配，统计其在预设文本库中出现的次数，并判断所述短句在预设文本库中出现的次数是否大于第一阈值，若是，则判断该词组为高频词组，将所述短句标记为正确；若否，则减少迭代窗口的大小，并标记为高概率发生错误的位置。

例如，上述【武警部队，肩负，】、【维护，国家，安全，】、【和，社会，稳定，】及【的，神圣，使命】四个短句出现次数均大于第一阈值（例如5次），则标记上述四个短句为正确（不含有错别字），而【安居乐，叶，】的短句出现次数均小于第一阈值，则表示短句为错误（含有错别字）。

本发明中，所述预设文本库为Solr文本库（全文检索的服务器），即采用Solr作为语料存储的数据库，该数据库能提供实时的全文搜索，通过语料数据库的搭建，对传入的数据能够进行及时的匹配和统计出现的次数。

步骤S15：对所述短句进行字形及拼音纠错处理。

具体实现时，对于出现标记为错误的文本，则对此文本进行纠错算法和推荐算法的处理，推荐出可能性较高的正确的词语供用户选择。本发明采用字形相似度检验和拼音相似度检验进行纠错处理，即过接受来自校验模块标记的高概率错误字符串，对其进行字形相似度检验和拼音相似度检验。当相似度的值大于第二阈值，并结合该词的统计词频，判断该词为候选的推荐词语。

所述步骤S15具体包括：

对所述备选词语进行字形相似度检验；

其中，模糊匹配关注的是相似度，近似、模糊、不精确。比如：1、中国人；2、中国。总共出现了3个字符（中，国，人），而共有的2个字符（中，国），因此相似系数为2/3。考虑每个字符的不同权重时，每个字符对相似度的贡献是不一样的，例如开头的字符串可能贡献会大一些，出现次数多对相似度贡献也有所影响。

需要说明的是，首先，本发明字形相似度检验采用基于N-Gram模型定义的字符串距离，采用Apache lucene的NgramDistance来获得两字符串之间的相似程度，通过返回值的大小来对其进行判断；其次，为了实现中文和拼音之间的转换，本发明采用了Pinyin4J的开源包，能够实现中文转换为拼音的操作。面对多个汉字的词组，在实行字形相似度检验的同时，也将每个字的拼音，组合成一字符串，进行拼音的字符串相似度检测。最终结合相似度和词语的词频，推荐候选的词语。

本发明采用Postgre数据库提供对词库的存储，包括新华字词典、模型词典库和停用词词典库。每个词典将在纠错的时候发挥模糊检索的功能，以供输入的词语进行相似度检验。此外，错误收集词典库对不同用户出现的错误进行统计。一旦某一错误词语高频次出现，能够做到及时的反馈，以此提高系统的执行效率。

请参阅图4，图4为本发明一种基于中文分词的中文纠错系统的结构示意图。

所述系统包括：分词单元10、重组单元20、判断单元30，标记单元40及纠错单元50，所述分词单元10用于对输入的中文文本按单句进行中文分词得到词数组，所述词数组包括单字、两字、三字或四字词语；所述重组单元20用于对所述词数组进行重组形成短句；所述判断单元30用于判断所述短句在预设文本库中出现的次数是否大于第一阈值；所述标记单元40用于在判断所述短句在预设文本库中出现的次数大于第一阈值时，将所述短句标记为正确；所述纠错单元50用于在判断所述短句在预设文本库中出现的次数不大于第一阈值时，对所述短句进行字形及拼音纠错处理。

相比于现有技术，本发明一种基于中文分词的中文校正纠错方法及系统通过对中文文本进行中文分词以及检索和匹配，达到识别判断文本中含有的文字错误，且进行相应的纠错处理，并推荐正确的词组，从而实现了对文本中错别字进行自动校对与纠错，提升了中文校对纠错的准确性及工作效率。

这里本发明的描述和应用是说明性的，并非想将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是可能的，对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是，在不脱离本发明的精神或本质特征的情况下，本发明可以以其它形式、结构、布置、比例，以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下，可以对这里所披露的实施例进行其它变形和改变。

Claims

1.基于中文分词的中文校对纠错方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的基于中文分词的中文校对纠错方法，其特征在于，所述对输入的中文文本按单句进行中文分词得到词数组的步骤包括：

对输入的中文文本按句号及逗号进行拆分，形成独立句子；

3.根据权利要求1所述的基于中文分词的中文校对纠错方法，其特征在于，所述对所述词数组进行重组形成短句的步骤包括：

对所述词数组按照预设字符串长度进行重组形成短句。

4.根据权利要求3所述的基于中文分词的中文校对纠错方法，其特征在于，所述对所述词数组进行重组形成短句的步骤还包括：

5.根据权利要求4所述的基于中文分词的中文校对纠错方法，其特征在于，所述预设文本库为Solr文本库。

6.根据权利要求1所述的基于中文分词的中文校对纠错方法，其特征在于，所述对所述短句进行字形及拼音纠错处理的步骤具体包括：

对所述备选词语进行字形相似度检验；

7.一种基于中文分词的中文校对纠错系统，其特征在于，所述系统包括：分词单元、重组单元、判断单元，标记单元及纠错单元；