CN1116342A

CN1116342A - 一种中文自动校对方法及其系统

Info

Publication number: CN1116342A
Application number: CN 94107348
Authority: CN
Inventors: 唐武
Original assignee: Individual
Current assignee: Individual
Priority date: 1994-07-08
Filing date: 1994-07-08
Publication date: 1996-02-07

Abstract

本发明属于计算语言学领域，本发明是将汉语语言学知识、信源模型和信道模型引入汉语文本的自动校对。其特征在于将汉语语法、语义规则和从大型语料库中统计出汉语语法单位之间的搭配关系做为正确的模板与实际被测文本进行比较，从而找出与汉语语法及习惯用法不合的奇异点。针对上述奇异点，引入各种汉字输入的差错模式，排除易虚报部分，最终确定出错可能较大的那部分奇异点并找到错字或错词(短语)。本发明可查找汉语文本的录入错误及语法、语义错误。

Description

一种中文自动校对方法及其系统

本发明属于计算语言学领域，特别涉及利用计算机进行中文自动校对的方法及其系统。

随着计算机在出版印刷和办公自动化领域的广泛应用，中文字处理系统已成为国内计算机系统不可缺少的组成部份。由于文字录入不可避免地存在错误，利用计算机对机内中文文本进行校对已成为出版印刷和办公自动化的必然要求。

目前与计算机中文自动校对有关的已有技术主要有以下几种：

1计算机语音校对：该技术利用语音合成模拟“唱校”，由计算机“朗读”机内文本，由人监听、判断是否有错。其缺点是阅读速度慢，合成语音自然度差，一字多音易出现虚警，一音多字易造成漏报。监听人员实际劳动强度大于人工“唱校”，并需在计算机上安装发声设备。

2计算机多文本对照比较：该技术要点是利用小概率事件(录入错误)不大可能多次重复发生这一原理，利用计算机在多次录入的同一文本之间进行了对比，从而找出相异处进行人工干预修正。该方法精度高，不足之处需多遍录入同一文本(通常是二次或三次)。

3西文拼写校对和语法语义校对：该技术要点是对西文机内文本进行词典匹配和语法语义分析检查。西文拼写校对因简单易行而在世界范围得到了普及。语法语义校对除用于错误检查外还用于篇章评价。该方法的缺点是词典或语法、语义规则覆盖程度不够易造成精度低和虚报高。该缺点已得到广大使用者的理解和容忍。

由于机内汉语文本中词与词之间没有自然间隔(如英文的空格等)，单字本身无对错可言，故拼写校对的原理并不适用中文自动校对。汉语由于缺乏时态、语态和形态特征从而使其语法体系带有较大的不确定性，分析难度大。单纯的语法语义校对是人工智能和计算语言学短期内难于解决的难题。

本发明的目的在于克服或回避已有技术的不足之处，提出一种新的中文自动校对方法，主要采用语法相关性检查与统计相关性检查相结合的方法，在不增加(语音)设备的前提下，单纯利用计算机的存储、运算、判断功能来查找汉语文本中可能存在的错误，再通过汉语信道模型对可能的错误进行确认，并以此方法制成校对软件与通用微机相结合构成中文自动校对系统。

本发明所述的一种计算机中文自动校对方法，其特征包括以下步骤：

1).将有关语言学知识编制成各类数据库予先存储在计算机中，其中包括语法、语义数据库；由汉语语法单位之间惯用搭配关系构成的信源模型，通常的差错模式构成的信道模型；

2).将输入的中文文本按标点切分成句，再按句切分音节、字词、短语或意群等语法单位；

3).采用动态规划或维特比算法，排除歧义切分，找出最佳匹配；

4).将切分后的文本与语法、语义库进行比较找出病句，错句的语法相关性检查；

5).将文本语法单位之间的搭配与所说的信源模型进行比较，找出不相关点的统计相关性检查；

6).将所说4、5步骤得到的不相关点与差错模式库进行比较，排除虚报错误；得到真实错误供修改。

本发明所说的语法单位的切分采用正向最大匹配法和逆向匹配法，再用最大组合概率法处理上述两种方法的歧义切分点，得到最佳匹配。

本发明所说的统计相关性检查的信源模型为马尔可夫模型，其状态可取为汉语的音节、字、词、短语，阶数可取为0、1、2。

本发明所说的差错模式对应的信道模型包括汉字的所有编码输入法及OCR和语音识别输入法。

本发明提出一种中文自动校对系统，包括输入单元，CPU处理单元和输出单元，其特征在于所说的处理单元内运行按上述方法编制的中文校对软件。

本发明的特征在于将语言学知识、信源模型和信道模型引入中文自动校对。

首先，该方法将各类语法、语义知识存储在计算机内，将其用于汉语文本的语法相关性检查，即通常所说的找“错句”、“病句”。

其次，该方法用统计方法总结出汉语语法单位(如字、词)之间的搭配关系。将其作为标准模板用于检查汉语文本中的错字和用词不当。从理论上讲就是将汉语语法单位作为组成马尔可夫信源模型的状态，利用状态之间的转移概率来判断汉语语法单位之间的统计相关性。

最后，该方法总结出常见的易错字、词和出错方式，用于进一步确定真实错误。把不属于上述范围的不相关点作为虚报排除掉。

该方法通过程序编制体现为软件形式，与计算机相结合即构成中文自动校对系统。通过计算机进行知识存储、文本分析、判决运算、错误显示及存储从而实现计算机汉语文本自动校对。

附图简要说明：

图1本发明所述的中文自动校对方法的流程框图。

图2本发明所述的中文自动校对系统的构成框图。

本发明所述中文自动校对方法的一种实施例如图1所示，包括以下步骤：

1语法单位的切分。

为了判断汉语文本中可能存在的错误，首先要将文章按标点切分为句，在句内依据语法单位之间的语法相关性或统计相关性进行错误侦测。如果基本语法单位为音节或字，则可直接按固定长度直接切分。如果基本语法单位是词、短语或意群，则按常用的正向最大匹配法(FMM)和逆向最大匹配法(BMM)分词，产生歧义切分时引入动态规划或维特比算法来排除歧义切分，寻找最佳路径(即最佳匹配)。

2相关性检查

①语法相关性检查

其目的在于找出汉语句子中不符合语法、语义规则的不相关点。例如：

“我/们/再/北京”，即可通过语法相关性检查判断出其语法结构不完整。

语法相关性检查所用的语法、语义库是靠将汉语法、语义知识转化为计算机程序或数据库的方式获取的。知识来源包括语法书、辞典及形式语言的基本理论。

例如：汉语中有如下句法：

句子＝主语＋谓语＋宾语 (规则一)

语法库中即有相应规则，用形式语言表达如下：

Sentence→subj＋pred＋obj (规则二)

如果语法书中规定只有名词、代词能够做主语、宾语，只有动词能够做谓语，则可用数组表示如下：

subj{noun，pronoun} (规则三)

pred{verb}

obj{noun，pronoun}

通过演绎，可得到如下规则：

Sentence→{noun|pronoun}＋{verd}＋{noun|pronoun} (规则四)

如果语法系统借助词典对每个词都进行了词性标注，则各单词有如下属性：

我们(pronoun)，在(adv)，北京(noun)

“我们/再/北京”显然不符合规则四，也不符合规则一。就与汉语基本语法规则相矛盾，由此可检查出语法不相关点——“在”字。

②统计相关性检查

其目的在于查找那些符合实际语言习惯的错误。如“美国/总理/访华”，该句符合Sentennce→subj＋pred＋obj结构，并无句法错误，但实际上此句“通而不顺”。因为尽管“美国”、“总理”都是名词，两个名词可构成偏正词组，但实际语言中并无“美国总理”这一搭配。

统计相关性检查实质上是检查汉语语法单位之间的搭配关系。大量的汉语语法单位之间的搭配关系构成了汉语的信源模型，被作为标准模板用于检查被测文本是否与其相符合。

信源模型的建立是靠对大量实际文本进行统计实现的，例如：文本中有句子：

“美国/总统/会见/泰国/总理。”

“法国/总理/访/华。”

“泰国/总理/访/华。”

从这三句中可统计出如下搭配关系：

美国/总统总统/会见会见/泰国泰国/总理

法国/总理总理/访访/华

泰国/总理总理/访访/华

这些搭配构成了以词为状态的一阶汉语马尔可夫信源模型。可用矩阵表示如下：

美国总统会见泰国总理法国访华

美国 0 1 0 0 0 0 0 0

总统 0 0 1 0 0 0 0 0

会见 0 0 0 1 0 0 0 0

泰国 0 0 0 0 2 0 0 0

总理 0 0 0 0 0 0 2 0

法国 0 0 0 0 1 0 0 0

访 0 0 0 0 0 0 0 2

华 0 0 0 0 0 0 0 0

矩阵中的零元素即表示无搭配关系。非零元素不仅可用于表示存在搭配关系，还可以进一步表示这种搭配关系的强弱，如P(访，华)＝2，即表示这种搭配用法经常出现，可能是强搭配关系。

对于实际文本，只需在信源模型中检查其搭配关系是否存在即可判断是否统计相关。

例如：美国/总理/访/华。

P(美国，总理)＝0，P(总理/访)＝2，P(访，华)＝2，

“美国总理”即为统计不相关点。3 错误的确认

由于语法、语义规则并不能完全覆盖所有的语法现象，并且语料库作为一个有限集合不能完全反映汉语自然语言的统计规律，相关性检查得出的错误中必然含有一部分由于知识不足所造成的虚报。

本发明总结出常见的易错字、词和录入中常见的出错方式，构成信道畸变模型，用于进一步确定真实错误。把不属于上述范围的不相关点作为虚报排除掉。现以OCR(光学字符扫描设备)为例：

设有句子：“敌人的来日来到了”，经分词后得到序列：“敌人/的/未/日/来到/了”。不相关的奇点为”的/未/日”，在OCR扫描输入中，差错模式为字形相近的字之间误识，如“未”与“末”，此时将“末”替换“未”，“敌人的末日来到了”，经分词后得序列：“敌人/的/末日/来到/了”。无不相关奇点，故确定“未”字为真实错误。其原型为“末”。

又如“氟胍酸胶囊”这类技术性新词短语，已往的语料库中很少涉及，也无法用常规语法解释，在这种情况下，若在奇异点字、词的差错模式中找不出其原型，则认为该奇异点为特例(新词或词的新用法)，作为虚报处理。

对于拼音而言，其误码往往是同音字或近音字。对五笔字型，其差错模式往往是拆字错或少打识别码。如对于OCR(光学字符识别系统)或人眼看错字，差错模式往往是字型相似。如“未”各“末”，“已”和“已”等。

对于击键错误，国外已总结出四类差错模式，即“插入”(多一字符)、“删除”(少一字符)、“交叉换位”、“错字符”。

对于各种各样的输入方法会有各种不同的差错模式，本发明所述方法的特点在于将这些差错模式引入自动校对。

信道模型的引入能极大地降低虚报率，克服英文拼写校对系统中由于词汇量、缩写、专有名词等造成的虚报。这是本发明的技术特点之一

本发明所述的中文自动校对系统的一种实施例如图2所示。由输入单元，处理单元和输出单元三部分组成。其中，输入单元可以是通用键盘，也可以是语音卡，OCR光笔板等。即可通过各种方式输入中文文本，处理单元包括CPU处理器及其存储器，本发明所述自动校对方法用C语言编制成中文自动校对程序存储在处理单元的存储器中，输出单元包括显示器及打印机，可将校对好的中文文本显示并输出。

Claims

1一种计算机中文自动校对方法，其特征包括以下步骤：

1).将有关语言学知识编制成程序及各类数据库预先存储在计算机中，其中包括语法、语义数据库；由汉语语法单位之间惯用搭配关系构成的信源模型，通常的差错模式构成的信道模型；

2).将输入的中文文本按标点切分成句，再按句切分为音节、字词、短语或意群等语法单位；

2如权利要求所说的校对方法，其特征在于所说的语法切分采用正向最大匹配法和逆向匹配法，再用最大组合概率法处理上述两种方法的歧义切分点，得到最佳匹配。

3如权利要求所述的校对方法，其特征在于所说的统计相关性检查的信源模型为马尔可夫模型，其状态可取为汉语的音节、字、词、短语，阶数可取为0、1、2。

4如权利要求1所述的中文自动校对方法，所对应的差错模式的特征在于信道模型包括汉字的所有编码输入法及OCR和语音识别输入法。

5一种中文自动校对系统，包括输入单元，CPU处理单元和输出单元，其特征在于所说的处理单元内存储有按权利要求1所述方法编制的中文校对软件。