CN1484173A

CN1484173A - 基于汉字形状的中文单词拼写错误校正方法

Info

Publication number: CN1484173A
Application number: CNA031527183A
Authority: CN
Inventors: 卢小林
Original assignee: Individual
Current assignee: Individual
Priority date: 2003-08-10
Filing date: 2003-08-10
Publication date: 2004-03-24

Abstract

一种基于汉字形状的中文单词拼写错误校正方法。本发明的目的是对出现在中文文本中的拼写错误，通过对其汉字形状的分析，找出相对应的正确单词，从而达到拼写校正的目的。技术方案如下：首先将正确的中文词库分解为字根符号序列库，同时将错误单词根据其汉字也分解为字根符号序列，将错误单词形状与正确单词形状的比较转化为对字根符号序列相似性的比较，并通过计算字根符号序列之间的相似程度，在正确的中文词库中查出相似程度最高的单词来校正并替换错误的单词。本发明可用于文字处理软件、机器翻译等系统的中文单词拼写错误的校正。本发明属于中文自然语言处理技术领域。

Description

基于汉字形状的中文单词拼写错误校正方法

技术领域

本发明涉及一种基于汉字形状的中文单词拼写错误校正方法。具体来说，本发明对出现在中文文本中的单词错误，通过对其汉字形状的分析，找出相对应的正确单词，从而达到拼写校正的目的。本发明可用于文字处理软件、机器翻译系统的中文单词拼写错误的校正，属于中文自然语言处理技术领域。

背景技术

中文拼写错误校正是处理中文文字资料应用软件中不可缺少的一项重要功能，在中文自然语言处理领域中有非常重要的应用价值。(参见专利CN1116343A，申请号：94109394.8、CN1116342A，申请号：94107348.3)。

在中文计算机文字处理中，最基本单位的是汉字。汉字通过使用很多不同种类的中文输入法输入到计算机中，输入到计算机中的汉字，作为孤立的单字来说，汉字是正确的，不会有错字的情况发生。在中文计算机文字处理中只有误字，或是只有别字的情况发生。经常发生在手写文本中的汉字书写错字绝不会被发生在计算机文本中。因此，中文拼写错误检查和校正的主要目的是指校正中文本中的别字。

我们比较中文和英文拼写错误校正方法之间的不同之处可知，英文单词的基本单位是字母，一个单词是由一系列字母组成。英文拼写的错误可能发生在某个字母，将正确的单词与有拼写错误单词的字母序列相比较，可以找出正确的英文单词，从而可以校正错误。错误单词校正的算法可以使用最小编辑距离或者其他语言模型的算法来校正和建议最准确的正确单词。

中文单词拼写错误校正的过程可分为两个步聚，首先，识别错误单词，其次，校正错误。识别错误单词最常用的方法是与一个巨大的中文词汇表相比较，如果该单词不在词汇表中，该单词可能是错误的单词。还有很多其它方法如根据上下文特征、文法规则和统计等都可用来查出错误的单词。

中文单词错误校正的第二个步聚最准确的单词替换错误的单词。目前，现有的一种方法是通过使用错误词汇表的形式，将所有可能产生的拼写错误列出来并同时给出正确的单词与之对应，从而对错误的单词进行校正，如专利CN1116343A(中请号：94109394.8)。然而，出现拼写的错误是千差万别的，我们不可能列举出所有形式的单词拼写错误，因而这种方法有一定的局限性。另外，有许多的汉语单词拼写错误检查和校正的方法集中于基于上下文相关的原理进行拼写错误校正，如专利、CN1116342A(申请号：94107348.3)。这种方法充分利用上下文信息决定哪个字在正文内是不合适的或者是错误的，将错误汉字前后的数个汉字之间的相关性来校正错误。基于上下文相关进行拼写错误校正的方法通过使用上下文本特征、词句特征、文法规则和统计结果来校正拼写错误。在这些方法中，主要着重于对于句子的研究，而对汉字本身所包含的信息则不加以考虑。

由于中文单词是两个汉字或多个汉字是组成的，其中两个汉字组成的单词占90％左右。如果某个由两个汉字组成的单词是错误的，其错误可能发生在第一个汉字或者第二个汉字。两种汉字错误发生的可能性都有百分之五十的机会，在这种情况下，仅仅通过使用上下文相关的方法来校正错误是很困难的。例如，在正文中有一句“错误的方法”，如果输入到计算机后产生了一个错误为“错识的方法”，用上述上下文相关的方法会把单词校正成“错误”或者“认识”，因而只有百分之五十的机会通过校正得出正确的单词。而通过形状比较我们则可以发现，“识”字和“误”字两者在形状上十分相似，而“错”字与“认”字两者之间的形状则相差甚远，通过字形分析，我们将有十分把握地得出正确的单词，如上例中，其正确的单词为“错误”而不是“认识”。再举一例，如上例中的单词，如果两个汉字全部错了，将“错误”一词错误地输入成了“借识”，用上下文相关的方法就根本无法校正这种类型的单词错误。通过字形分析，因为“借识”与“错误”在字形上十分相似，我们仍然能够通过校正得出正确的单词。

由于中文是一种象形表意文字语言，汉字本身已经包含很多信息。中文单词由一个或更多汉字组成。我们将中文与英文相比较可发现，在现有的计算机中字母是组成英文单词的最小单位，而汉字是组成中文单词的最小单位。但是，汉字本身比英文字母包含了更多的语言信息，因而，仅仅将汉字作为最基本的单位是不合理的。通常一个汉字是一个汉语单词。

虽然在汉字有很多不同的形状，但是一些组成全部汉字的基本的形状是的相同。为了分析汉字的形状和特点，一个汉字可分解为几个更小的基本形状。这些基本形状能组成全部汉字。它们相当于英文中的词根，在汉语中起着在重要的作用。如英文字根对其组成的英文单词提供了基本的词义一样，中文字根对其组成的汉字也提供了基本的词义，如有些字根可以表达汉字意思或者汉字的发音等。汉字不仅仅在句子中作为表示语义的基本的符号，而且它本身的也包括表明该字的意义、发音的形状。根据汉字的形状常常可以推测出该字的意义、发音。

中文单词的拼写错误可以分为以混淆汉字的形状、发音和意义的三大类错误，错误经常发生在字形相似、发音相似和意义相似的情形，最终都表现为某种汉字形状的相似。在这些拼写错误中，不管是混淆汉字的形状、发音还是意义的错误，其错误的单词与正确的单词之间在形状上表现为字形相似的关系。

为了校正中文中的错误单词，我们通过形状的分析，可以校正由字形、发音和意义上混淆而产生的错误。根据错误单词与正确单词之间在形状上相似关系，可以找出形状相似的正确单词来替换错误单词。如在上面的那些例子中，错误单词“错识”、“借识”与正确的单词“错误”有相似形状，因此，通过形状分析可找出并校正拼写错误。因此，汉字的形状分析在中文的拼写错误校正方面是十分有效的。

发明内容

从中文拼写错误的分析中，大多数错误以在相似的字形、发音或意义的形式发生。错误单词正确单词比较，其形状有一定的相似。本发明中提出了一种基于汉字形状的中文单词拼写错误校正方法。该方法为解决中文拼写错误、校正提供了一个新的途径，可用于机器翻译和中文自然语言处理技术领域。本发明的方法如下。

对出现在中文文本中的拼写错误，通过对其汉字形状的分析，找出相对应的正确单词，从而达到拼写校正的目的。

由于直接对汉字的形状进行分析比较是比较困难的，汉字数量庞大，汉字形状各异，不适用于计算机进行处理。而经过进一步的分析可知，汉字形状的相似表现为字根的相同或者是相似。因而，直接对汉字的形状进行分析比较可以转化为将汉字分解为一系列的汉字字根进行比较。通过比较错误单词字根序列与正确单词字根序列的相似关系来找出正确单词替换错误单词。本发明将中文单词全部分解为一组字根符号库，把汉字和单词分解到字根符号序列来分析汉字的形状，通过计算中文单词根符号之间的相似程度在数据库中查出最合适替换错误单词的正确单词。

技术方案如下：首先将正确的中文词库分解为字根符号序列库，同时将错误单词根据其汉字也分解为字根符号序列，将错误单词形状与正确单词形状的比较转化为对字根符号序列相似性的比较，并通过计算字根符号序列之间的相似程度，在正确的中文词库中查出最准确的单词来校正并替换错误的单词。

本发明可用于文字处理软件、机器翻译系统的中文单词拼写错误的校正，实验已经证明这种方法对于中文单词拼写错误校正是有效的和可行的。它成功地校正了中文单词形状混淆的错误。

本发明的新颖性在于：

本发明提出了从错误单词本身的形状信息发现并找出正确的单词的方法，着重于用汉字本身所包含的信息校正中文拼写错误，克服了仅仅通过使用上下文相关、词句特征、文法规则和统计结果来校正拼写错误的局限性，提出了从根本上解决校正中文单词拼写错误的新途径。

本发明的创造性在于：

(1)可以从错误单词本身的形状信息发现并找出正确的单词。

(2)通过使用基本汉字字根，将全部汉字单词分解为中文字根符号序列。

汉字的形状分析比较可以从字根符号序列的分析比较入手，使汉字形状的比较在中文单词拼写错误校正中易于实现

(3)中文字根符号序列用于拼写错误校正，单词的拼写错误的校正转变为字根符号序列的错误校正。

(4)与上下文有关方法相比较，由于中文字根符号作为汉语单词的基本单位，可以得到更多的信息，因此，它能得到更准确的结果。

本发明的实用性在于：

基于汉字的形状中文拼写错误校正方法能检查并且校正在中文的单词的拼写的错误。实验表明该发明在拼写错误校正和在中文自然语言处理中是可行的和有效率的。它在机器翻译和中文自然语言处理领域有重要的实际的应用价值。

具体实施方式

校正拼写错误的具体实施方法是比较错误单词与正确单词的字根符号序列。由于错误单词和正确单词的有很多形状相似部分，通过错误的单词的形状可查出正确的单词。形状相同的部分经常表现为字根符号的相同或相似，单词拼写错误表现为字根符号的错误，因此，校正拼写错误的方法是校正字根序列中的错误字根符号。具体实施方式如下：

步骤1：确定汉字的基本字根符号集

组成汉字的基本字根符号集由基本笔画和基本字根集组成。汉字基本字根较少，在200到300个左右。字根可以在中文字典中找到。下表是字根的例子。

表1.字根符号表集

类型	字根符号
类型	字根符号	基本笔画	一丨丿丶乙
基本字根表	言虫寸米夕……	基本笔画	一丨丿丶乙

步骤2：将汉字分解成字根序列

为了把中文单词分解成字根，首先必须分解汉字。汉字可根据其结构和书写顺序分解成为笔画和字根。单个的汉字可分解为表1中的字根符号序列。符号序列的顺序可以根据其在汉字中位置而定。规则是从上到下、从外到里面以及从左到右，与书写汉字的顺序相同。表2是汉字分解的例子。

表2.汉字分解为一字根符号序列

汉字	字根符号序列
汉字	字根符号序列	明	日月
昌	日曰	明	日月
昌	日曰	晶	日日日
从	人人	晶	日日日
从	人人	众	人人人
哭	口口犬	众	人人人
哭	口口犬	取	耳又
娶	耳又女	取	耳又
娶	耳又女	林	木木
森	木木木	林	木木
森	木木木	冒	曰目
胃	田月	冒	曰目
胃	田月	类	米大
…	……………………	类	米大

步骤3：将中文单词分解成字根序列

当汉字分解为字根符号序列后，把单词分解为字根符号序列就很简单了。准备一个全部正确的单词的列表。根据组成中文单词中的汉字，中文单词就可分解为的字根符号序列。表3是几个单词分解的例子。

表3.汉字单词分解为一字根符号序列.

中文单词	字根符号序列
中文单词	字根符号序列	明月	日月月
晶体	日日日亻木一	明月	日月月
晶体	日日日亻木一	从今	人人人丶フ
众多	人人人夕夕	从今	人人人丶フ
众多	人人人夕夕	哭泣	口口犬氵立
取消	耳又氵小月	哭泣	口口犬氵立
取消	耳又氵小月	森林	木木木木木
冒号	曰目口一勹	森林	木木木木木
冒号	曰目口一勹	类别	米大口力刂
……	…………………	类别	米大口力刂

步骤4：基于汉字形状的中文单词拼写错误校正的算法

输入：错误的单词

输出：正确的单词

第1步：输入错误的单词。

第2步：根据单词的汉字将解错误的单词分解为一字根符号序列。

第3步：将字根符号序列与正确的词汇表中的字根符号序列数据库比较，在数据库内查出形状相似程度最高的字根符号序列。

第4步：查出的该字根符号序列相对应的单词。

第5步：输出正确的单词。

在以上的算法第3步中，我们要算出两个中文字根序列之间的相似程度。下面是字根符号序列相似程度比较方法：

步骤5：字根符号序列相似程度比较方法

如果有两个字根符号序列，A和B，A和B分别表示两个中文单词的字根符号序列，A由{a₁，a₂，a₃，a₄，...，a_n}组成，B由{b₁，b₂，b₃，b₄，...，b_m}组成。下面给出求解两个字根符号的相似程度的方法。

第1步，定义形状相似程度MSD

形状相似程度MSD(a_i，b_j)表示字根a_i，与字根b_j的相似程度，用数字0到无穷大的正数来表示，数字越小，表示其相似程度越高。

第2步，确定两字根的相似程度

(1)如果A中的某个字根与B中的字根完全相同，则其相似程度为0。例如A中的“日”字根与B中的“日”字根是完全相同的，所以相似程度为0。

(2)如果A中的某个字根与B中的字根相似，则其相似程度为0.1至0.5。

(3)如果A中的某个字根与B中的不同，则其相似程度为1。

第3步，确定两字根符号序列的相似程度

(1)定义字根符号与零字根的相似程度，任一字根与零字根的相似程度为其在序列中的位置序号。如a₁在A序列中的位置为1，所以a₁与零字根的相似程度为1。

(2)将A中的字根符号a_i与B序列中的字根符号b_j一一比较，A中的字根符号a_i与B中的字根符号b_j的相似程度MSD(a_i，b_j)为：

MSD(a_i，b_j)＝MIN(MSD(a_i-1，b_j)+1，MSD(a_i，b_j-1)+1，MSD(a_i-1，b_j-1)+MSD(a_i，b_j)

(3)A中的字根符号a_n与B序列中的字根符号b_m的相似程度MSD(a_n，b_m)

即两字根符号序列的相似程度。

第4步，字根符号序列相似程度比较方法举例

我们举例说明如下，晶休为“日日日亻木”。晶体为“日日日亻木一”与“日日日亻木”，根据前述算法，我们可算出形状相似程度MSD(晶休，晶体)＝1。

表4.相似程度计算表

实例说明

我们举例说明上述的方法。假定我们已经查出一个错误的单词“晶休”，该词是不在正确的词汇表内的单词，因而是错误的单词。根据上述的算法，我们采用以下的步聚。

第1步：输入错误单词“晶休”。

第2步：将错误单词根据其汉字分解为一字根符号序列，“日日日亻木”。

第3步：将字根符号序列与正确的词汇表中的字根符号序列数据库比较，在正确的词汇表内查出最相似字根符号序列。我们找到有一符号序列“日日日亻木一”与“日日日亻木”最相近。

第4步：将查出的字根符号序列转换成单词。符号序列“日日日亻木一”对应的单词是“晶体”。

第5步：输出正确词“晶体”。

Claims

1.一种基于汉字形状的中文单词拼写错误校正方法，其特征是：接收具有拼写错误的中文单词，将错误中文单词的汉字形状与正确中文单词库的汉字形状的进行相似性比较，查出与有拼写错误的中文单词形状相似程度最高的正确中文单词，用该正确的中文单词替换有拼写错误的中文单词，校正错误中文单词的拼写错误。

2.根据权利要求1所述的方法，其特征是：上述方法具有一个正确的中文单词库。

3.根据权利要求1所述的方法，其特征是：在上述方法中，正确的中文单词库分解为字根符号序列库，错误单词根据其汉字也分解为字根符号序列。

4.根据权利要求3所述的方法，其特征是：上述方法包含一个由基本笔画和基本字根集组成的汉字的基本字根符号集。

5.根据权利要求3所述的方法，其特征是：汉字可根据其结构和书写顺序分解成为字根符号序列。

6.根据权利要求1所述的方法，其特征是：在上述方法中，错误中文单词的汉字形状与正确中文单词库的汉字形状的相似性比较，是采用错误单词的字根符号序列与正确的中文单词库的字根符号序列库进行相似性比较。

7.根据权利要求1所述的方法，其特征是：在上述方法中，包含一个基于汉字形状的中文单词拼写错误校正的算法，输入错误的单词，输出正确的单词。

8.根据权利要求7所述的方法，其特征是：在上述方法中，包含一个计算字根符号序列之间的中文单词形状的相似性程度算法，计算正确的中文词库的中文单词与有拼写错误单词相似程度。