CN104615588A

CN104615588A - 一种计算机校验汉语同音错别字的方法

Info

Publication number: CN104615588A
Application number: CN201410817874.6A
Authority: CN
Inventors: 牟孝金; 洪紫洲; 李维良
Original assignee: Shanghai Keyue Information Technology Co Ltd
Current assignee: Shanghai Keyue Information Technology Co Ltd
Priority date: 2014-12-25
Filing date: 2014-12-25
Publication date: 2015-05-13
Anticipated expiration: 2034-12-25
Also published as: CN104615588B

Abstract

本发明公开了一种计算机校验汉语同音错别字的方法,其包括以下步骤：步骤S01,对需要判断是否存在同音错别字的句子进行“句子化学拆分”；步骤S02，将拆分后得到的句子中的单个字词使用其不同同音字进行替换，并对不同同音字组成的句子进行句子尺度计算；步骤S03，构建出例外的优先词组库，进行特殊例外处理；步骤S04，校验结果设置。本发明基于能够通过一种汉语句子的化学分析拆分方法而将句子准确拆分的基础上，给出一种对整个句子进行化学分析的错别字校验方法，大大提高错别字校验的效率和准确率。

Description

一种计算机校验汉语同音错别字的方法

技术领域

本发明属于计算机技术领域，尤其涉及一种计算机校验汉语同音错别字的方法。

背景技术

汉字文化博大精深，汉字本身具有表音和表义的双重属性，而汉语的基本信息单位有是由若干单个汉字组成的“词”。在巨大的汉字个数基础上而使用的词的数量变得异常庞大，在汉字的使用过程中，错别字的频繁出现变得在所难免。

根据形成原因的不同，在计算机中出现的常见汉字错别字基本分为两类：同音错别字（一般源于拼音输入法）和型近错别字（一般源于五笔等输入法）。

目前，因为汉字错别字的类型千差万别，不管是同音错别字还是型近错别字，除了人工校验外，尚还没有好的方法能通过计算机软件来比较准确的校验出文章中的错别字。某些方法中使用了建立错别字库检索的方式进行，但此方法受限于错别字库的覆盖率，以及对句子拆词的准确性等因素，校验的准确率不高。

近年来，随着拼音输入法在计算机输入法中的越来越普及，使得出现同音错别字的机率大增。如果能够研发出一种能够验证同音错别字的计算机校验汉语的方法，就将会极具市场前景。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种将化学领域中的一些概念引入到汉语句子分析中，通过与化学元素分析类似的方法来分析句子，通过代码简单、运算量小的计算机软件实现对整个汉语句子进行准确、快速的拆分，进而能够实现对汉语句子的同音错别字的准确分析的计算机校验汉语同音错别字的方法。

为实现上述发明目的，本发明提供的技术方案为：一种计算机校验汉语同音错别字的方法,其包括以下步骤：

步骤S01,对需要判断是否存在同音错别字的句子进行“句子化学拆分”；

步骤S02，将拆分后得到的句子中的单个字词使用其不同同音字进行替换，并对不同同音字组成的句子进行句子尺度计算；

步骤S03，构建出例外的优先词组库，进行特殊例外处理；

步骤S04，校验结果设置，即如果一个汉字被同音的另一个汉字取代后，句子重新拆分所得到句子的尺度“优于”原来的尺度，则可以认为该汉字是一个“嫌疑”错别字，该同音别字认为是一个校验候选字；无同音别字的单个汉字，或者无尺度优于该汉字的同音别字，目前可认为是非错别字。对于一个错别字，可推荐其对应的按照尺度排序的校验候选字作为更正时的参考。

优选的技术方案，上述步骤S01中的“句子化学拆分”具体过程如下：

步骤S1，建立基础数据库；所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库；

步骤S2，将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对，将需要被拆分的汉语句子拆分成词；

步骤S3，将步骤S2中拆分得到的词进行词性分类处理；

步骤S4，对词性分类处理后的词进行重新组合成汉语短语；即完成对被拆汉语句子的拆分。

所述步骤S1中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。

所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。

所述基础词库存储在计算机内的代码为unicode编码或者汉字国际GB码。

所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。

所述步骤S1中建立的基础词库中词的尺度范围为1至9；其中基础词库中汉字词的尺度定义为汉字词中汉字的个数，英文字母的尺度定义为1，数字的尺度定义为1，其它汉语语句中使用的通用字符也定义为1。

所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下：

步骤S21，首先，依次使用基础词库中尺度为9至1的汉字词遍历需要被拆分的汉语句子；

步骤S22，将上述需要被拆分的汉语句子中遍历出来的汉字词的首个汉字和最后个汉字分别运用汉字组词优先原则判断数据库进行判断对比；该判断对比的过程为：如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力，且该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力，则认为该次匹配正确；如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力若于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力，或者该汉字词的最后个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的最后个汉字与在需要被拆分汉语句子中位于其前的组词能力，则认为该次匹配不正确，同时将匹配不正确的汉字词拆开重新遍历基础词库直至所有的拆分出来的汉字词都判断为匹配正确。

所述步骤S3中对拆分得到的词进行词性分类处理为将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串。

所述汉字词分类处理为中心词、前修饰词、后修饰词；所述中心词分为名词、动词和数词；前修饰词分为名词前修饰词和动词前修饰词；后修饰词分为名词后修饰词、动词后修饰词和量词。

所述步骤S4中对词性分类处理后的词进行重新组合成汉语短语的具体过程为：将英文字母串和其它符号形成组合成独立的汉语短语；数字串组合成汉字词中的数词；并且将中心词分类组合成名词短语、动词短语和数词短语。

本发明的有益效果为：

本发明将化学领域中的一些概念引入到汉语句子分析中，通过与化学元素分析类似的方法来分析句子，通过代码简单、运算量小的计算机软件实现，对整个汉语句子进行准确、快速的拆分，为汉语句子分析提供有效的基础保证。本发明中的错别字校验算法基于句子拆分时的“最优尺度”原则进行，即根据当前汉字，使用其同音别字进行替换，对替换后的新句子进行重新拆分，得到其拆分后的每个离子词的尺度（字数）值，并根据一定的原则计算整个句子的尺度。将使用最初的汉字拆分时得出的句子尺度，与每个同音汉字替换后拆分时得出的句子尺度组合在一起，从中选择出一个最优的尺度，则此同音汉字可认为是相对正确的字，如果跟原字不同，则判断出原字为嫌疑错别字，尺度较优的前几个同音别字都可以作为推荐的校验字。本发明基于能够通过一种汉语句子的化学分析拆分方法而将句子准确拆分的基础上，给出一种对整个句子进行化学分析的错别字校验方法，大大提高错别字校验的效率和准确率。

附图说明

图1位本发明“最优尺度”错别字校验算法流程图。

图2 位本发明所编写的汉语句子化学拆分软件的示意图。

图3位本发明中离子化合算法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实例并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

一、计算机校验汉语同音错别字的方法

本发明采用编写计算软件算法来实现对汉字错别字的校验，依赖于汉语句子的化学分析拆分算法（其详细介绍见后文描述）的计算机实现。“最优尺度”错别字校验算法流程如图1：

1、化学句子拆分算法（详细过程见后文描述）

使用汉语句子化学分析拆分算法。该算法能在输入文字正确的基础上，对整个句子完成正确率超过99%的完整拆分，将句子拆分成尺度为1～9的n个字组成的离子词的序列。对于已经成功组合成尺度2～9的词组的字，初步认为都是正确的字。因为错别字的存在会导致该字无法与前后上下文中相邻的其他字组合成词和词组。因此，本算法中的错别字校验，只针对拆分结果为一个孤立的单字词进行。

2、句子尺度计算

整个句子的尺度有组成该句子的离子词组的尺度计算而成，计算时遵照“最优尺度”原则，即大尺度词优先，将词的尺度加权求和成为句子的尺度。这里可以被不同尺度的词设置不同的权重，可以区分不同拆分组合的优先程度，例如：针对由10个汉字的句子，可以定义权重使其按照“4、4、2”拆分时的尺度优于（或低于）按照“4、3、3”拆分时的尺度。

3、特殊例外处理

并非所有的单个汉字都适用于该“最优尺度”校验算法，某些汉字不适合于用同音汉字替换，例如“鱼和水”中的“和”不适合于用“河”来替换，尽管“鱼河水”（1、2）比“鱼和水”（1、1、1）拥有更优的拆分尺度。所有需要处理众多诸如此类的“例外”。在汉语句子化学分析拆分方法中，拆分后的句子以分子词组的形势存在，类似于化学分子式。因此，构建出这些例外的分子词组库，就可以通过对该例外库的检索，避免错别字误判情况的发生。例外库的校验可以针对字、词的音、义以及词性等有针对性的进行，大大提高错别字判断的准确性。

4、校验结果设置

如果一个汉字被同音的另一个汉字取代后，句子重新拆分所得到句子的尺度“优于”原来的尺度，则可以认为该汉字是一个“嫌疑”错别字，该同音别字认为是一个校验候选字。

无同音别字的单个汉字，或者无尺度优于该汉字的同音别字，目前可认为是非错别字。对于一个错别字，可推荐其对应的按照尺度排序的校验候选字作为更正时的参考。

二、“句子化学拆分”过程

在化学领域中，构成各种元素的基本单位是原子，原子再结合成离子和分子，不同原子、离子和分子的排列组合构成了不同的物质。同样，构成句子的基本单位是字，字再组合成词、词又组合成短语，不同的字、词和短语的排列组合够成了不同的句子。因此，可以将单个字比作一个化学原子，单个词比作一个化学离子、单个短语比作一个化学分子，分别称作原子字、离子词和分子短语。原子与原子间的结合靠“化学键”的作用，字与字、词、短语间的结合同样可称为“作用键”。因为字在句子中的出现是有先后顺序的，所以字之间的作用键要分为“前向键”和“后向键”，类似与化学中的“氧化性”和“还原性”。当一个具有氧化性的原子与一个具有还原性的原子遇到一起，往往可以结合成一个分子；同样，当一个前向键的字和一个后向键字碰到一起，这两个字就结合成一个“离子词”。一个字如果已经跟前面的字结合，但后面的字的前向键作用力更强，这个字就有可能被“拉扯”过来结合成新的离子词，原来的离子词被打破。因此，定义了作用键的强度，就可以基本解决句子中某字前后都是合法词时的分歧拆分问题。

当给出一个句子需要进行拆分时，类似于化学领域中给定若干个元素符号而求解出化学分子式，针对该句子中的若干个原子字，根据作用键的方向和强度，让这些原子字彼此化合成离子词，再根据离子性质进一步化合成分子短语，短语的先后排列形成了整个句子，进而就完成了对整个句子的合理拆分。因为汉字在句子中的出现顺序已经特定，所以句子拆分比求解分子式还要相对简单：在化合时，每个字只可能与它前一个字或后一个相邻的字结合，句子中的其他有间隔的字则不必考虑。

离子词中字的个数，以及分子词组中离子词的个数，称为词和词组的“尺度”。类似于化学中元素的“化合价”属性，每个字、词、短语也有其固有的价值属性，即“作用价”，分别称为“字性”、“词性”、“语性”。词中的字根据位置可以分为“首字”，“中间字”和“尾字”；短语中的词根据其位置和词性可以分为“前修身词”、“中心词”和“后修饰词”。

本发明对句子拆分时，与传统意义上的“拆分”不同，采取的是类似于化学反应的“逆向化合”方法，让字（原子）化合成词（离子），词（离子）再聚合成短语（分子）。基于以上定义，算法上采用“尺度优先遍历”＋“作用键竞争”的原则，经过离子化合、离子词性处理、分子短语聚合等步骤，完成句子－短语－词－字的全面拆分。

本发明采用编写计算软件来实现对汉语句子的拆分，该软件核心分为基础数据和逻辑算法两部分：

1、离子词库整理（即步骤S1中建立基础词库）

如同求解化学分子式时需要已知各原子之间可形成何种组合一样，拆分汉语句子，也需要已知各字之间能组合成何种词，称为离子词库。本发明中的离子词库定义广泛，可以包括现代汉语大词典中的既有成语和词语，日常用语、诗词、谚语、网络常用语、特殊名称等等，只要认为这些字需要组合在一起的，都可以收录为一个离子词。词库存储文字的计算机代码（unicode编码或汉字国标GB码），并使用文字代码建立哈希索引表用于快速遍历和检索。离子词库中的数据类型包括四类：汉字词、英文字母、数字、其他字符。

2、作用键值库整理（即步骤S1中建立可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库）

根据日常生活中实际使用汉语语法的规则收录、建立能够区分汉字之间相互组合成词时的能力强弱的作用键值库。例如，当一个字、词具有双向作用键时，需要定义两个作用键的强度，例如“披上衣服”中：“披上”为一个合理词，“上衣”也为一个合理词，“衣服”仍然为一个合理词。原子字“上”和“衣”都存在双向作用键。因此定义“服”对“衣”的作用键强于“上”对“衣”的作用键，确保“上衣服”三个字遇到一起时拆分成“上衣服”而不是“上衣服”，“上”字再去与前面的字做可能的组合。建立作用键值库的技巧在于：算法采用先前字化合再后字拉扯的方式，所以库中只建立后向作用键更强的可成功拉扯的组合即可，确保库的数据量尽可能的少，提高拆分时遍历扫描的效率。

3、逻辑算法

全部逻辑算法都将使用基础数据库进行，其中离子词库和作用键值库有特定的存储，逻辑判断库则镶嵌于针对不同字、词的逻辑算法中。

（1）离子化合――尺度优先遍历＋作用键竞争算法（即步骤S2，将需要被拆分的汉语句子拆分成词）

目前定义支持的汉字离子词尺度为汉字个数，范围为1～9；连续的英文字母和数字串整个作为一个离子词，尺度定义为1；其他符号则单个字符作为一个尺度为1的离子词。离子化合的算法入图3所示：

经过该算法之后，句子中的每个字符已经彼此“化合”成若干个尺度为1～9离子词。

（2）离子词性处理（即步骤S3，词性分类处理）

本发明中的“词性”概念，与现代汉语语法中规定的词性不同。为了能够更好的对汉语句子进行拆分，根据句子中的字符所表达的意思和功能，将离子词性划分为：

l 汉字词

ü 中心词

- 名词

- 动词

- 数词

ü 前修饰词

- 名词前修饰词

- 动词前修饰词

ü 后修饰词

- 名词后修饰词

- 动词后修饰词

- 量词

l 英文字母串

l 数字串

l 其他符号

离子词库中定义了每个离子词的各种词性，在匹配离子词库时预先读取并加载。本步骤算法中将使用逻辑判断库，根据句子整个上下文词性、词义的相关性逐词进行分析和修改，使整个句子的词性分布更科学更合理。

（3）分子短语聚合（即步骤S4，对词性分类处理后的词进行重新组合成汉语短语）

每个英文字母串和其他符号形成一个独立的分子短语。数字串将作为汉字词中的“数词”等同处理。短语的“语性”除英文字母串和其他符号外，根据词性中的中心词，分为三类：

l 名词短语

l 动词短语

l 数词短语

中心词具有双向作用键，前修饰词具有后向作用键，后修饰词具有前向作用键，因此在作用键的作用下，句子中的所有字符都彼此“化合”成大分子短语。

至此，整个汉语句子的详细拆分全部完成。本发明的输出结果可用于各种需要对汉语句子进行拆分处理进而进行句子分析的应用当中。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的思想和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改。

Claims

1.一种计算机校验汉语同音错别字的方法,其特征在于，其包括以下步骤：

步骤S03，构建出例外的优先词组库，进行特殊例外处理；

步骤S04，校验结果设置，即如果一个汉字被同音的另一个汉字取代后，句子重新拆分所得到句子的尺度“优于”原来的尺度，则可以认为该汉字是一个“嫌疑”错别字，该同音别字认为是一个校验候选字；无同音别字的单个汉字，或者无尺度优于该汉字的同音别字，目前可认为是非错别字；对于一个错别字，可推荐其对应的按照尺度排序的校验候选字作为更正时的参考。

2.根据权利要求1所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述步骤S01中的“句子化学拆分”具体过程如下：

步骤S3，将步骤S2中拆分得到的词进行词性分类处理；

3.根据权利要求2所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述步骤S1中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。

4.根据权利要求3所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。

5.根据权利要求4所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。

6.根据权利要求5所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述步骤S1中建立的基础词库中词的尺度范围为1至9；其中基础词库中汉字词的尺度定义为汉字词中汉字的个数，英文字母的尺度定义为1，数字的尺度定义为1，其它汉语语句中使用的通用字符也定义为1。

7.根据权利要求6所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下：

8.根据权利要求7所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述步骤S3中对拆分得到的词进行词性分类处理为将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串。

9.根据权利要求8所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述汉字词分类处理为中心词、前修饰词、后修饰词；所述中心词分为名词、动词和数词；前修饰词分为名词前修饰词和动词前修饰词；后修饰词分为名词后修饰词、动词后修饰词和量词。

10.根据权利要求9所述的一种计算机校验汉语同音错别字的方法,其特征在于，所述步骤S4中对词性分类处理后的词进行重新组合成汉语短语的具体过程为：将英文字母串和其它符号形成组合成独立的汉语短语；数字串组合成汉字词中的数词；并且将中心词分类组合成名词短语、动词短语和数词短语。