CN101067809A

CN101067809A - 独立词切分

Info

Publication number: CN101067809A
Application number: CN 200710111300
Authority: CN
Inventors: 蒋贤春
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-06-22
Filing date: 2007-06-22
Publication date: 2007-11-07

Abstract

本发明提供了一种中文词切分(也称分词)的方法。通过引入独立词等新的概念，它首先将中文句子切分成多个子句，并且保证子句切分正确率为100％。本发明还构造了句法和歧义判别规则，在子句词的切分过程中，对歧义处使用规则和句法判别，符合规则和句法的能100％正确切分，规则和句法(不是完备的)没有包括的，则认为可能切分错误，加以标记(标记处20％以上有错误，95％切分错误之处被加以标记)。本发明同时提供了方便添加句法和歧义判别规则的工具，通过句法和判别规则的不断丰富，中文词切分的正确率趋于100％。中文词切分是进行中文文本自动分析的第一步，可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。

Description

独立词切分

技术领域

本发明属于IT自然语言理解领域，提供了一种中文词切分(也称分词)的方法。

中文词切分是进行中文文本自动分析的第一步，可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。

背景技术

中文词切分的方法可以分为两类，一类是基于词表、词库匹配和词频统计的方法，另一类是基于语义的词切分方法。本发明属于基于语义的词切分方法。传统的基于语义的词切分方法是在词切分过程中动态的分析文本，比较复杂，并且受到目前自然语言理解理论发展水平限制，提高词切分正确率非常困难。本发明是在中文词切分之前对词的使用进行分析，对词在句子中的搭配进行了较完备的统计，词切分时不再分析语义，只验证统计结果，对符合统计结果的词，其切分正确率为100％。

发明内容

通过引入独立词等新的概念，本发明首先将中文句子切分成多个子句，并且保证子句切分正确率为100％。本发明还构造了句法和歧义判别规则，在子句的词切分过程中，对歧义处使用规则和句法判别，符合规则和句法的能100％正确切分，规则和句法(不是完备的)没有包括的，则认为可能切分错误，加以标记。本发明同时提供了方便添加句法和歧义判别规则的工具，通过句法和判别规则的不断丰富，中文词切分的正确率趋于100％。

1.说明与定义

本发明引入了一些新的概念和使用了一些术语，下面分别加以定义和说明。

说明1：本发明达到“ 中文词切分的正确率趋于100％”是实现了两个指标：第一，词切分的正确率大于99.5％，并且对可能切分错误之处加以标记，并实现标记处20％以上有错误和95％以上切分错误之处被加以标记；第二，提供方便添加句法库和歧义库的工具，通过句法库和歧义库的不断丰富，中文词切分的正确率不断提高。

注：人无法判断的切分错误不计算在本发明错误率中。

说明2：中文句子S＝W₁W₂W₃…W_n，其中Wi(0＜i＜＝n)为中文词，S中任意一部分W_iW_i+1…W_j(0＜＝i＜n，i＜j＜＝n)称为子句。在本文中子句有时也被称为句子。

说明3：机构名称指一个具体单位的名字，通常由多个词组成，机构名称最后一个词称为机构词，如公司(中国电子进出口总公司)、银行(中国银行)、书店(西单外文书店)、学校(北京大学)、医院(中日友好医院)、博物馆(中国历史博物馆)、报社(北京日报社)、电台(中央电视台)等。

注：机构名称不包括其缩写的形式。

说明4：场所名称指一个具体场所的名字，通常由多个词组成，场所名称最后一个词称为场所词，如商店(蓝天羽毛球商店)、电影院(胜利电影院)、体育场(国家体育场)、文化宫(民族文化宫)、桥(苏州桥)、路(青藏铁路)、楼(安徽大厦)、水库(密云水库)等。

定义1：一个词被称为前独立词需满足下面两个条件：

①该词本身前面的任意一部分(不含全体)均不是词；

②在该词后面任意加上汉字组成词的情况较少。

定义2：一个词被称为后独立词需满足下面两个条件：

①该词本身后面的任意一部分(不含全体)均不是词；

②在该词前面任意加上汉字组成词的情况较少。

定义3：一个词既是前独立词又是后独立词则称之为独立词。

定义4：中文文本P＝C₁C₂C₃…C_n，其中C_i(0＜i＜＝n)为中文字，若P中任意一部分W＝C_iC_i+1…C_j(0＜i＜n，j＞i)被称为准词需满足下面四个条件：

①W在P中出现三次以上；

②W是未登录词；

③W中不含标点；

④W的长度不超过词的长度并且大于1。

2.方法

2.1.词类与接续关系

本发明将所有词分成1000类，同一类中的词语义相近。

接续关系指词类与词类之间的接续关系，词类K1与词类K2之间有接续关系指K1中的一个词与K2中的一个词在句子中相邻。

词W1与词W2之间有接续关系则表明W1所属词类与W2所属词类有接续关系。

2.2.机构名称切分

设W＝W₁W₂W₃…W_n，其中Wi(0＜i＜＝n)为中文词，W是机构名称需满足下面三个条件：

①Wn是机构词；

②W是一个准词；

③W₁W₂W₃…Wn的排列符合机构名称构词规则。

注：机构名称规则是根据自动统计得到的，设W₁的词类是K₁，W₂的词类是K₂，W₃的词类是K₃，…，若K₁K₂K₃…W_n是一条规则，则W符合机构名称构词规则。

2.3.场所名称切分

设W＝W₁W₂W₃…W_n，其中Wi(0＜i＜＝n)为中文词，W是场所名称需满足下面三个条件：

①Wn是场所词；

②W是一个准词；

③W₁W₂W₃…W_n的排列符场所名称构词规则。

注：场所名称规则是根据自动统计得到的，设W₁的词类是K₁，W₂的词类是K₂，W₃的词类是K₃，…，若K₁K₂K₃…W_n是一条规则，则W符合场所名称构词规则。

2.4.人名切分

子句S＝W₁W₂…W_iC₁C₂…C_mW_i+1…W_n，其中W_i(1＜＝i＜＝n)为中文词，设W＝C₁C₂…C_m，其中C_j(1＜＝j＜＝m)为中文字，W是人名需满足下面四个条件：

①W是一个准词；

②W与W_i有接续关系；

③W与W_i+1有接续关系；

④C₁C₂…C_m的排列符合人名构词规则；

注：人名构词规则是根据自动统计得到的，规则规定人名中一定要有姓氏，如“小王”、“高伟”，姓氏前有汉字“小”等符合人名构词规则，姓氏后只有可以作为人名的汉字符合人名构词规则。对不含姓氏的人名，本发明将其视为未登录词处理。

2.5.未登录词切分

子句S＝W₁W₂…W_iC₁C₂…C_mW_i+1…W_n，其中W_i(1＜＝i＜＝n)为中文词，设W＝C₁C₂…C_m，其中C_j(1＜＝j＜＝m)为中文字，W是未登录词需满足下面三个条件：

①W是一个准词；

②W与W_i有接续关系(根据W中的字给出可能的类)；

③W与W_i+1有接续关系。

2.6.句法库

句法是指词类的接续关系，它是在本发明实施过程中自动分析生成的。简单的句法是两个词之间有无接续关系，还有一些复杂的句法，这里就不一一介绍了。

2.7.歧义判别规则

词W＝C₁C₂…C_n，C_i(1＜＝i＜＝n)为中文字，W₁＝C₁C₂…C_m，Ci(1＜＝m＜n)，则表明词W在进行顺序词切分时会有歧义。称W为歧义词，W₁为W的歧义词。

通过对已登录词的自动分析可以得出所有歧义词。

歧义判别规则是对每一个歧义词制定的，设词W为歧义词，W的歧义词为W₁、W₂、…。对W找出所有规则，规则形式有两种：K₁WK₂和K₁WC₁，其中K₁为句中W前一个词的词类，K₂为句中W后一个词的词类，C₁为句中W后面第一个字；对W的歧义词W₁找出所有规则，规则形式有两种：K₁W₁K₂和K₁W₁C₁，其中K₁为句中W₁前一个词的词类，K₂为句中W₁后一个词的词类，C₁为句中W后面第一个字；同理对W的歧义词W₂、…找出所有规则。

通过对大量已切分正确的文本自动分析可以得出歧义判别规则。歧义判别规则数据量较大，需要优化，因为方法较复杂，这里就不介绍了。歧义判别规则不是完备的，但却包含了99％以上出现的情况。

逆序词切分歧义判别规则原理同上，规则形式为K₂KK₁和C₁W₁K₁。

2.8.可能错误标记

本发明是分步骤对句子进行词切分的，每一步都保证100％正确，若无法保证，则加以可能错误标记。具体参见下面算法部分。

3.算法

本算法基于已有了知识库(中文词库、词类库、独立词库、前独立词库、后独立词库、机构词库、场所词库、姓氏词库等、句法库、歧义库)，所有这些库的生成参见本说明的“具体实施方式”。

3.1“独立词切分”算法

“独立词切分”算法框图见附图1，算法如下：

(1)找出文本中的所有准词；

(2)对文本逐句进行子句切分；

①找出(子)句中的独立词，切分该独立词；

②判断(子)句中第一个词是否是后独立词，是则切分该后独立词；

③判断(子)句中最后一个词是否是前独立词，是则切分该前独立词。

(3)对所有子句逐一进行词切分；

①顺序切分(子)句中第一个词直至切分完毕或无法切分；如切分完毕则转(4)；

②逆序切分(子)句中最后一个词直至无法切分；

③判断顺向无法切分处与逆向无法切分处之间的字是否是人名，若不是，则在无法切分处加以可能错误标记。

(4)专有名词合并。

①在已切分的句子中找出机构词，判断该机构词与其前面的词能否组成机构名称，若可以，则合并这些词，取消他们之间的切分。

②在已切分的句子中找出场所词，判断该场所词与其前面的词能否组成场所名称，若可以，则合并这些词，取消他们之间的切分。

3.2找独立词算法

该算法是在一个句中找出独立词并切分，算法如下：

(1)p＝1；

(2)从句中p的位置执行以下操作：

①从句中p的位置取一个字，判是独立词库中的词否，若是则转(4)；

②从句中p的位置取两个字，判是独立词库中的词否，若是则转(4)；

③从句中p的位置取三个字，判是独立词库中的词否，若是则转(4)；

④从句中p的位置取四个字，判是独立词库中的词否，若是则转(4)；

(3)p＝p+1，若是句末则转(7)；否则转(1)；

(4)判所取的字与后面的词合起来能否组成词，若可以则转(3)；

(5)判所取的字与前面的词合起来能否组成词，若可以则转(3)；

(6)所取的词是独立词，切分该词，置p为该词后的位置，转(2)；

(7)结束。

独立词库中包括独立词及对每个独立词穷举了其前后可组合的词(较少)，算法(4)和(5)的判断可根据独立词库穷举的词，不在其中即为独立词。找前独立词和后独立词算法与该算法类似。

3.3切词算法

该算法是在一个在句中顺序切分词，算法如下：

(1)p＝1；

(2)从句中p的位置找最大词；

(3)判所取的词是歧义词否，若不是则切分该词，转(5)；

(4)根据该词的歧义规则找出正确切分，若规则不能正确切分，则在该词后加以可能错误标记。在最有可能处切分；

(5)置p为切分处，若不是句末则转(2)；

(6)结束。

在句中逆序切分词算法与该算法类似。

3.4用户添加句法和规则的工具

本发明提供的句法和规则是通用的，不同的用户在使用时，可根据本人所涉及的专业领域添加新的句法和规则。本发明提供一种方便用户添加句法和规则的交互式工具，使用和算法如下：

(1)用户输入已切分正确的文本；

(2)在文本中找出所有未登陆词；

(3)未登陆词入词库；

①逐一显示未登陆词；

②用户选择是否入词库，选择否则转(4)；

③将该词入词库；

④提示用户输入与该词词义相近的词；

⑤将用户输入的词义相近的词的词类定义为该词的词类；

⑥将该词的词类添加到词类库；

(4)修改(前、后)独立词规则：因新添加了词，要判断独立词规则是否要改；

(5)添加歧义词规则：因新添加了词，要判断其是否是歧义词，同时判断是否是其它词的歧义词；

(6)根据用户输入的文本，添加句法；

(7)根据用户输入的文本，添加歧义判别规则。

附图说明

图1：“独立词切分”算法框图。

图2：具体实施方式流程图。

具体实施方式

“独立词切分”算法基于词库、句法库、歧义库、规则库，所有这些库的生成又基于有大量不同领域已切分的文本。本发明采用循序渐进的方式，切分一部分文本，添加一部分句法和规则，再切分一部分文本，再添加一部分句法和规则，…。随着句法和规则的增加，切分错误率不断减小，最终完成所有库的建立。流程图参见附图2，步骤如下：

(1)建库：建立初始库，没有句法和规则；

(2)建机构名称规则：录入各种机构名称，程序建立机构名称规则；

(3)建场所名称规则：录入各种场所名称，程序建立场所名称规则；

(4)获取大量不同领域的文本：通过购买和网上下载获取(含2亿以上汉字)；

(5)取总量1％的文本切分；

①自动切分总量1％的文本，不加可能错误标记；

②人工全文校对该1％自动切分的文本；

③将该1％文本中未登陆词加入词库，并给出词类；

④对独立词库、前独立词库和后独立词库进行修改；

⑤根据该1％切分校对后的文本，程序添加句法和歧义判别规则；

(6)再取总量2％的文本切分；

①自动切分总量2％的文本，不加可能错误标记；

②人工全文校对该2％自动切分的文本；

③将该2％文本中未登陆词加入词库，并给出词类；

④对独立词库、前独立词库和后独立词库进行修改；

⑤根据该2％切分校对后的文本，程序添加句法和歧义判别规则；

(7)取总量5％的文本切分；

⑦自动切分总量5％的文本，不加可能错误标记；

⑧人工全文校对该5％自动切分的文本；

⑨将该5％文本中未登陆词加入词库，并给出词类；

⑩对独立词库、前独立词库和后独立词库进行修改；

根据该5％切分校对后的文本，程序添加句法和歧义判别规则；

(8)切分其余总量92％的文本；

①自动切分其余总量92％的文本，加可能错误标记；

②人工在错误标记处校对该92％自动切分的文本；

③将该92％文本中未登陆词加入词库，并给出词类；

④对独立词库、前独立词库和后独立词库进行修改；

⑤根据该92％切分校对后的文本，程序添加句法和歧义判别规则；

切分示例

设所要切分的文本为“2005年是中国工商银行股份制改革取得丰硕成果的一年。4月21日，国家正式批准中国工商银行实施股份制改革，注资150亿美元，随后中国工商银行顺利完成了财务重组和国际审计”。对该文本进行词切分的主要步骤如下：

步骤一、找出文本中的所有准词；

在文本中，“中国工商银行”是准词，它是未登录词并在文本中出现三次以上。

步骤二、找出句中的独立词、前独立词、后独立词；

词切分是在文本中逐句进行，以文本第一句“^2005年是中国工商银行股份制改革取得丰硕成果的一年^”(其中^为子句标识符号)为例，该句中有两个独立词，分别是“是”和“的”，这是根据独立词库中“是”是独立词的规则，它与前后组词的情况只有“百无一(是)”、“搬弄(是)非”、“别(是)”、“不宁唯(是)”、“不(是)”、“但(是)”、“倒(是)”、“凡(是)”、“各行其(是)”、“(是)所至祷”、“(是)非”、“回头(是)岸”…，但在该句中均不是，所以句中的“是”是独立词。同理，句中的“的”也是独立词。找出独立词后切分结果为：

“^2005年^是^中国工商银行股份制改革取得丰硕成果^的^一年^”。

下面的操作是找出所有句首的前独立词，本例无前独立词，然后找出所有句末的后独立词，本例无后独立词。找前独立词和后独立词方法与找独立词相同。

步骤三、对子句逐一进行词切分；

以了句“^中国工商银行股份制改革取得丰硕成果^”为例，顺向找句首最大词，找出的是词“中国”，“中国”是歧义词，因为词首的“中”也是一个词，根据歧义词“中国”的歧义判别规则，句中“中国”前是词“是”，后是词“工商”时，根据歧义词“中国”的判别规则，K₁WK₂是歧义词“中国”的判别规则(其中W为词“中国”，K₁为句中“中国”前一个词“是”的词类，K₂为在句中“中国”后一个词“工商”的词类)，判别“中国”为一个词。同理切分，该句切分结果为：

“2005年是中围工商银行股份制改革取得丰硕成果的一年”。

步骤四、专有名词合并。

在句中，词“银行”为机构词，“中国工商银行”为准词，“中国工商银行”的组合符合机构名称构词规则，在切分的句子中将其合并。该句最终切分结果为：

“2005年是中国工商银行股份制改革取得丰硕成果的一年”。

Claims

1.一种中文词切分(也称分词)的方法，其特征在于包括独立词切分方法和用户添加句法及规则的工具。

2.根据权利要求1独立词切分方法，其特征在于包括知识库和切分算法。

3.根据权利要求2知识库，其特征在于包括：

词类库：包括词类的划分和赋予每个词的类别；

独立词库：包括独立词概念、独立词的集合和判别独立词的规则；

前独立词库：包括前独立词概念、前独立词的集合和判别前独立词的规则；

后独立词库：包括后独立词概念、后独立词的集合和判别后独立词的规则；

机构词库：包括机构词的集合和判别机构名称的规则；

场所词库：包括场所词的集合和判别场所名称的规则；

姓氏词库：包括姓氏的集合和判别姓氏词的规则；

句法库：包括词的接续关系的定义和词的接续关系表；

歧义库：包括歧义词集合和歧义判别规则。

4.根据权利要求2切分算法，其特征在于运用知识库实现正确率趋于100％的词切分算法，包括：

运用独立词概念将句子正确切分成子句的算法；

在子句中正确切分前独立词的算法；

在子句中正确切分后独立词的算法；

正确判别歧义的算法；

机构名称判别的算法；

场所名称判别的算法；

人名判别的算法；

未登陆词判别的算法；

在可能切分之处加标记的算法。

5.根据权利要求1用户添加句法及规则的工具，其特征在于提供交互式界面，用户输入正确切分的文本，句法及规则的添加自动完成。