CN101067809A - 独立词切分 - Google Patents
独立词切分 Download PDFInfo
- Publication number
- CN101067809A CN101067809A CN 200710111300 CN200710111300A CN101067809A CN 101067809 A CN101067809 A CN 101067809A CN 200710111300 CN200710111300 CN 200710111300 CN 200710111300 A CN200710111300 A CN 200710111300A CN 101067809 A CN101067809 A CN 101067809A
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- rule
- algorithm
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种中文词切分(也称分词)的方法。通过引入独立词等新的概念,它首先将中文句子切分成多个子句,并且保证子句切分正确率为100%。本发明还构造了句法和歧义判别规则,在子句词的切分过程中,对歧义处使用规则和句法判别,符合规则和句法的能100%正确切分,规则和句法(不是完备的)没有包括的,则认为可能切分错误,加以标记(标记处20%以上有错误,95%切分错误之处被加以标记)。本发明同时提供了方便添加句法和歧义判别规则的工具,通过句法和判别规则的不断丰富,中文词切分的正确率趋于100%。中文词切分是进行中文文本自动分析的第一步,可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。
Description
技术领域
本发明属于IT自然语言理解领域,提供了一种中文词切分(也称分词)的方法。
中文词切分是进行中文文本自动分析的第一步,可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。
背景技术
中文词切分的方法可以分为两类,一类是基于词表、词库匹配和词频统计的方法,另一类是基于语义的词切分方法。本发明属于基于语义的词切分方法。传统的基于语义的词切分方法是在词切分过程中动态的分析文本,比较复杂,并且受到目前自然语言理解理论发展水平限制,提高词切分正确率非常困难。本发明是在中文词切分之前对词的使用进行分析,对词在句子中的搭配进行了较完备的统计,词切分时不再分析语义,只验证统计结果,对符合统计结果的词,其切分正确率为100%。
发明内容
通过引入独立词等新的概念,本发明首先将中文句子切分成多个子句,并且保证子句切分正确率为100%。本发明还构造了句法和歧义判别规则,在子句的词切分过程中,对歧义处使用规则和句法判别,符合规则和句法的能100%正确切分,规则和句法(不是完备的)没有包括的,则认为可能切分错误,加以标记。本发明同时提供了方便添加句法和歧义判别规则的工具,通过句法和判别规则的不断丰富,中文词切分的正确率趋于100%。
1.说明与定义
本发明引入了一些新的概念和使用了一些术语,下面分别加以定义和说明。
说明1:本发明达到“
中文词切分的正确率趋于100%”是实现了两个指标:第一,词切分的正确率大于99.5%,并且对可能切分错误之处加以标记,并实现标记处20%以上有错误和95%以上切分错误之处被加以标记;第二,提供方便添加句法库和歧义库的工具,通过句法库和歧义库的不断丰富,中文词切分的正确率不断提高。
注:人无法判断的切分错误不计算在本发明错误率中。
说明2:中文句子S=W1W2W3…Wn,其中Wi(0<i<=n)为中文词,S中任意一部分WiWi+1…Wj(0<=i<n,i<j<=n)称为子句。在本文中子句有时也被称为句子。
说明3:机构名称指一个具体单位的名字,通常由多个词组成,机构名称最后一个词称为机构词,如公司(中国电子进出口总公司)、银行(中国银行)、书店(西单外文书店)、学校(北京大学)、医院(中日友好医院)、博物馆(中国历史博物馆)、报社(北京日报社)、电台(中央电视台)等。
注:机构名称不包括其缩写的形式。
说明4:场所名称指一个具体场所的名字,通常由多个词组成,场所名称最后一个词称为场所词,如商店(蓝天羽毛球商店)、电影院(胜利电影院)、体育场(国家体育场)、文化宫(民族文化宫)、桥(苏州桥)、路(青藏铁路)、楼(安徽大厦)、水库(密云水库)等。
定义1:一个词被称为前独立词需满足下面两个条件:
①该词本身前面的任意一部分(不含全体)均不是词;
②在该词后面任意加上汉字组成词的情况较少。
定义2:一个词被称为后独立词需满足下面两个条件:
①该词本身后面的任意一部分(不含全体)均不是词;
②在该词 前面任意加上汉字组成词的情况较少。
定义3:一个词既是前独立词又是后独立词则称之为独立词。
定义4:中文文本P=C1C2C3…Cn,其中Ci(0<i<=n)为中文字,若P中任意一部分W=CiCi+1…Cj(0<i<n,j>i)被称为准词需满足下面四个条件:
①W在P中出现三次以上;
②W是未登录词;
③W中不含标点;
④W的长度不超过词的长度并且大于1。
2.方法
2.1.词类与接续关系
本发明将所有词分成1000类,同一类中的词语义相近。
接续关系指词类与词类之间的接续关系,词类K1与词类K2之间有接续关系指K1中的一个词与K2中的一个词在句子中相邻。
词W1与词W2之间有接续关系则表明W1所属词类与W2所属词类有接续关系。
2.2.机构名称切分
设W=W1W2W3…Wn,其中Wi(0<i<=n)为中文词,W是机构名称需满足下面三个条件:
①Wn是机构词;
②W是一个准词;
③W1W2W3…Wn的排列符合机构名称构词规则。
注:机构名称规则是根据自动统计得到的,设W1的词类是K1,W2的词类是K2,W3的词类是K3,…,若K1K2K3…Wn是一条规则,则W符合机构名称构词规则。
2.3.场所名称切分
设W=W1W2W3…Wn,其中Wi(0<i<=n)为中文词,W是场所名称需满足下面三个条件:
①Wn是场所词;
②W是一个准词;
③W1W2W3…Wn的排列符场所名称构词规则。
注:场所名称规则是根据自动统计得到的,设W1的词类是K1,W2的词类是K2,W3的词类是K3,…,若K1K2K3…Wn是一条规则,则W符合场所名称构词规则。
2.4.人名切分
子句S=W1W2…WiC1C2…CmWi+1…Wn,其中Wi(1<=i<=n)为中文词,设W=C1C2…Cm,其中Cj(1<=j<=m)为中文字,W是人名需满足下面四个条件:
①W是一个准词;
②W与Wi有接续关系;
③W与Wi+1有接续关系;
④C1C2…Cm的排列符合人名构词规则;
注:人名构词规则是根据自动统计得到的,规则规定人名中一定要有姓氏,如“小王”、“高伟”,姓氏前有汉字“小”等符合人名构词规则,姓氏后只有可以作为人名的汉字符合人名构词规则。对不含姓氏的人名,本发明将其视为未登录词处理。
2.5.未登录词切分
子句S=W1W2…WiC1C2…CmWi+1…Wn,其中Wi(1<=i<=n)为中文词,设W=C1C2…Cm,其中Cj(1<=j<=m)为中文字,W是未登录词需满足下面三个条件:
①W是一个准词;
②W与Wi有接续关系(根据W中的字给出可能的类);
③W与Wi+1有接续关系。
2.6.句法库
句法是指词类的接续关系,它是在本发明实施过程中自动分析生成的。简单的句法是两个词之间有无接续关系,还有一些复杂的句法,这里就不一一介绍了。
2.7.歧义判别规则
词W=C1C2…Cn,Ci(1<=i<=n)为中文字,W1=C1C2…Cm,Ci(1<=m<n),则表明词W在进行顺序词切分时会有歧义。称W为歧义词,W1为W的歧义词。
通过对已登录词的自动分析可以得出所有歧义词。
歧义判别规则是对每一个歧义词制定的,设词W为歧义词,W的歧义词为W1、W2、…。对W找出所有规则,规则形式有两种:K1WK2和K1WC1,其中K1为句中W前一个词的词类,K2为句中W后一个词的词类,C1为句中W后面第一个字;对W的歧义词W1找出所有规则,规则形式有两种:K1W1K2和K1W1C1,其中K1为句中W1前一个词的词类,K2为句中W1后一个词的词类,C1为句中W后面第一个字;同理对W的歧义词W2、…找出所有规则。
通过对大量已切分正确的文本自动分析可以得出歧义判别规则。歧义判别规则数据量较大,需要优化,因为方法较复杂,这里就不介绍了。歧义判别规则不是完备的,但却包含了99%以上出现的情况。
逆序词切分歧义判别规则原理同上,规则形式为K2KK1和C1W1K1。
2.8.可能错误标记
本发明是分步骤对句子进行词切分的,每一步都保证100%正确,若无法保证,则加以可能错误标记。具体参见下面算法部分。
3.算法
本算法基于已有了知识库(中文词库、词类库、独立词库、前独立词库、后独立词库、机构词库、场所词库、姓氏词库等、句法库、歧义库),所有这些库的生成参见本说明的“具体实施方式”。
3.1“独立词切分”算法
“独立词切分”算法框图见附图1,算法如下:
(1)找出文本中的所有准词;
(2)对文本逐句进行子句切分;
①找出(子)句中的独立词,切分该独立词;
②判断(子)句中第一个词是否是后独立词,是则切分该后独立词;
③判断(子)句中最后一个词是否是前独立词,是则切分该前独立词。
(3)对所有子句逐一进行词切分;
①顺序切分(子)句中第一个词直至切分完毕或无法切分;如切分完毕则转(4);
②逆序切分(子)句中最后一个词直至无法切分;
③判断顺向无法切分处与逆向无法切分处之间的字是否是人名,若不是,则在无法切分处加以可能错误标记。
(4)专有名词合并。
①在已切分的句子中找出机构词,判断该机构词与其前面的词能否组成机构名称,若可以,则合并这些词,取消他们之间的切分。
②在已切分的句子中找出场所词,判断该场所词与其前面的词能否组成场所名称,若可以,则合并这些词,取消他们之间的切分。
3.2找独立词算法
该算法是在一个句中找出独立词并切分,算法如下:
(1)p=1;
(2)从句中p的位置执行以下操作:
①从句中p的位置取一个字,判是独立词库中的词否,若是则转(4);
②从句中p的位置取两个字,判是独立词库中的词否,若是则转(4);
③从句中p的位置取三个字,判是独立词库中的词否,若是则转(4);
④从句中p的位置取四个字,判是独立词库中的词否,若是则转(4);
(3)p=p+1,若是句末则转(7);否则转(1);
(4)判所取的字与后面的词合起来能否组成词,若可以则转(3);
(5)判所取的字与前面的词合起来能否组成词,若可以则转(3);
(6)所取的词是独立词,切分该词,置p为该词后的位置,转(2);
(7)结束。
独立词库中包括独立词及对每个独立词穷举了其前后可组合的词(较少),算法(4)和(5)的判断可根据独立词库穷举的词,不在其中即为独立词。找前独立词和后独立词算法与该算法类似。
3.3切词算法
该算法是在一个在句中顺序切分词,算法如下:
(1)p=1;
(2)从句中p的位置找最大词;
(3)判所取的词是歧义词否,若不是则切分该词,转(5);
(4)根据该词的歧义规则找出正确切分,若规则不能正确切分,则在该词后加以可能错误标记。在最有可能处切分;
(5)置p为切分处,若不是句末则转(2);
(6)结束。
在句中逆序切分词算法与该算法类似。
3.4用户添加句法和规则的工具
本发明提供的句法和规则是通用的,不同的用户在使用时,可根据本人所涉及的专业领域添加新的句法和规则。本发明提供一种方便用户添加句法和规则的交互式工具,使用和算法如下:
(1)用户输入已切分正确的文本;
(2)在文本中找出所有未登陆词;
(3)未登陆词入词库;
①逐一显示未登陆词;
②用户选择是否入词库,选择否则转(4);
③将该词入词库;
④提示用户输入与该词词义相近的词;
⑤将用户输入的词义相近的词的词类定义为该词的词类;
⑥将该词的词类添加到词类库;
(4)修改(前、后)独立词规则:因新添加了词,要判断独立词规则是否要改;
(5)添加歧义词规则:因新添加了词,要判断其是否是歧义词,同时判断是否是其它词的歧义词;
(6)根据用户输入的文本,添加句法;
(7)根据用户输入的文本,添加歧义判别规则。
附图说明
图1:“独立词切分”算法框图。
图2:具体实施方式流程图。
具体实施方式
“独立词切分”算法基于词库、句法库、歧义库、规则库,所有这些库的生成又基于有大量不同领域已切分的文本。本发明采用循序渐进的方式,切分一部分文本,添加一部分句法和规则,再切分一部分文本,再添加一部分句法和规则,…。随着句法和规则的增加,切分错误率不断减小,最终完成所有库的建立。流程图参见附图2,步骤如下:
(1)建库:建立初始库,没有句法和规则;
(2)建机构名称规则:录入各种机构名称,程序建立机构名称规则;
(3)建场所名称规则:录入各种场所名称,程序建立场所名称规则;
(4)获取大量不同领域的文本:通过购买和网上下载获取(含2亿以上汉字);
(5)取总量1%的文本切分;
①自动切分总量1%的文本,不加可能错误标记;
②人工全文校对该1%自动切分的文本;
③将该1%文本中未登陆词加入词库,并给出词类;
④对独立词库、前独立词库和后独立词库进行修改;
⑤根据该1%切分校对后的文本,程序添加句法和歧义判别规则;
(6)再取总量2%的文本切分;
①自动切分总量2%的文本,不加可能错误标记;
②人工全文校对该2%自动切分的文本;
③将该2%文本中未登陆词加入词库,并给出词类;
④对独立词库、前独立词库和后独立词库进行修改;
⑤根据该2%切分校对后的文本,程序添加句法和歧义判别规则;
(7)取总量5%的文本切分;
⑦自动切分总量5%的文本,不加可能错误标记;
⑧人工全文校对该5%自动切分的文本;
⑨将该5%文本中未登陆词加入词库,并给出词类;
⑩对独立词库、前独立词库和后独立词库进行修改;
根据该5%切分校对后的文本,程序添加句法和歧义判别规则;
(8)切分其余总量92%的文本;
①自动切分其余总量92%的文本,加可能错误标记;
②人工在错误标记处校对该92%自动切分的文本;
③将该92%文本中未登陆词加入词库,并给出词类;
④对独立词库、前独立词库和后独立词库进行修改;
⑤根据该92%切分校对后的文本,程序添加句法和歧义判别规则;
切分示例
设所要切分的文本为“2005年是中国工商银行股份制改革取得丰硕成果的一年。4月21日,国家正式批准中国工商银行实施股份制改革,注资150亿美元,随后中国工商银行顺利完成了财务重组和国际审计”。对该文本进行词切分的主要步骤如下:
步骤一、找出文本中的所有准词;
在文本中,“中国工商银行”是准词,它是未登录词并在文本中出现三次以上。
步骤二、找出句中的独立词、前独立词、后独立词;
词切分是在文本中逐句进行,以文本第一句“^2005年是中国工商银行股份制改革取得丰硕成果的一年^”(其中^为子句标识符号)为例,该句中有两个独立词,分别是“是”和“的”,这是根据独立词库中“是”是独立词的规则,它与前后组词的情况只有“百无一(是)”、“搬弄(是)非”、“别(是)”、“不宁唯(是)”、“不(是)”、“但(是)”、“倒(是)”、“凡(是)”、“各行其(是)”、“(是)所至祷”、“(是)非”、“回头(是)岸”…,但在该句中均不是,所以句中的“是”是独立词。同理,句中的“的”也是独立词。找出独立词后切分结果为:
“^2005年^是^中国工商银行股份制改革取得丰硕成果^的^一年^”。
下面的操作是找出所有句首的前独立词,本例无前独立词,然后找出所有句末的后独立词,本例无后独立词。找前独立词和后独立词方法与找独立词相同。
步骤三、对子句逐一进行词切分;
以了句“^中国工商银行股份制改革取得丰硕成果^”为例,顺向找句首最大词,找出的是词“中国”,“中国”是歧义词,因为词首的“中”也是一个词,根据歧义词“中国”的歧义判别规则,句中“中国”前是词“是”,后是词“工商”时,根据歧义词“中国”的判别规则,K1WK2是歧义词“中国”的判别规则(其中W为词“中国”,K1为句中“中国”前一个词“是”的词类,K2为在句中“中国”后一个词“工商”的词类),判别“中国”为一个词。同理切分,该句切分结果为:
“2005年是中围工商银行股份制改革取得丰硕成果的一年”。
步骤四、专有名词合并。
在句中,词“银行”为机构词,“中国工商银行”为准词,“中国工商银行”的组合符合机构名称构词规则,在切分的句子中将其合并。该句最终切分结果为:
“2005年是中国工商银行股份制改革取得丰硕成果的一年”。
Claims (5)
1.一种中文词切分(也称分词)的方法,其特征在于包括独立词切分方法和用户添加句法及规则的工具。
2.根据权利要求1独立词切分方法,其特征在于包括知识库和切分算法。
3.根据权利要求2知识库,其特征在于包括:
词类库:包括词类的划分和赋予每个词的类别;
独立词库:包括独立词概念、独立词的集合和判别独立词的规则;
前独立词库:包括前独立词概念、前独立词的集合和判别前独立词的规则;
后独立词库:包括后独立词概念、后独立词的集合和判别后独立词的规则;
机构词库:包括机构词的集合和判别机构名称的规则;
场所词库:包括场所词的集合和判别场所名称的规则;
姓氏词库:包括姓氏的集合和判别姓氏词的规则;
句法库:包括词的接续关系的定义和词的接续关系表;
歧义库:包括歧义词集合和歧义判别规则。
4.根据权利要求2切分算法,其特征在于运用知识库实现正确率趋于100%的词切分算法,包括:
运用独立词概念将句子正确切分成子句的算法;
在子句中正确切分前独立词的算法;
在子句中正确切分后独立词的算法;
正确判别歧义的算法;
机构名称判别的算法;
场所名称判别的算法;
人名判别的算法;
未登陆词判别的算法;
在可能切分之处加标记的算法。
5.根据权利要求1用户添加句法及规则的工具,其特征在于提供交互式界面,用户输入正确切分的文本,句法及规则的添加自动完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710111300 CN101067809A (zh) | 2007-06-22 | 2007-06-22 | 独立词切分 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200710111300 CN101067809A (zh) | 2007-06-22 | 2007-06-22 | 独立词切分 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101067809A true CN101067809A (zh) | 2007-11-07 |
Family
ID=38880372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200710111300 Pending CN101067809A (zh) | 2007-06-22 | 2007-06-22 | 独立词切分 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101067809A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
CN101561818B (zh) * | 2009-05-13 | 2011-12-07 | 北京伟库电子商务科技有限公司 | 分词处理方法及全文检索方法 |
CN103593338A (zh) * | 2013-11-15 | 2014-02-19 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN109101482A (zh) * | 2018-07-02 | 2018-12-28 | 昆明理工大学 | 一种针对文本形近字错误的定位方法 |
-
2007
- 2007-06-22 CN CN 200710111300 patent/CN101067809A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101561818B (zh) * | 2009-05-13 | 2011-12-07 | 北京伟库电子商务科技有限公司 | 分词处理方法及全文检索方法 |
CN101950284A (zh) * | 2010-09-27 | 2011-01-19 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
CN101950284B (zh) * | 2010-09-27 | 2013-05-08 | 北京新媒传信科技有限公司 | 中文分词方法及系统 |
CN103593338A (zh) * | 2013-11-15 | 2014-02-19 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN103593338B (zh) * | 2013-11-15 | 2016-05-11 | 北京锐安科技有限公司 | 一种信息处理方法及装置 |
CN109101482A (zh) * | 2018-07-02 | 2018-12-28 | 昆明理工大学 | 一种针对文本形近字错误的定位方法 |
CN109101482B (zh) * | 2018-07-02 | 2021-08-20 | 昆明理工大学 | 一种针对文本形近字错误的定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1174332C (zh) | 转换表达方式的方法和装置 | |
CN1113305C (zh) | 语言处理装置和方法 | |
CN1133127C (zh) | 文件检索系统 | |
CN1368693A (zh) | 用于全球化软件的方法和设备 | |
CN1465018A (zh) | 机器翻译技术 | |
CN1707476A (zh) | 辅助翻译搜索引擎系统及其方法 | |
CN1652107A (zh) | 语言变换规则产生装置、语言变换装置及程序记录媒体 | |
CN1573739A (zh) | 用于改良机器翻译之翻译知识的方法和装置 | |
CN101075262A (zh) | 一种计算机汉字输入方法及系统 | |
CN101079028A (zh) | 一种统计机器翻译中的在线翻译模型选择方法 | |
CN1834955A (zh) | 多语种翻译存储器、翻译方法以及翻译程序 | |
CN1924858A (zh) | 一种获取新词的方法、装置以及一种输入法系统 | |
CN1910573A (zh) | 用来识别并分类命名实体的系统 | |
CN101067809A (zh) | 独立词切分 | |
CN1696933A (zh) | 基于动态规划的文本概念关系自动提取方法 | |
CN101047555A (zh) | 一种设备质量检查方法 | |
CN1120439C (zh) | 机器翻译用中文生成装置 | |
CN1224203A (zh) | 智能型汉英即时同步共显式机器互译方法 | |
CN1869983A (zh) | 用于信息检索与信息输入的广义子串模式匹配方法 | |
CN1168002C (zh) | 测试方案生成的方法及其系统 | |
CN1187677C (zh) | 计算机整句汉字局部笔划输入方法 | |
CN1399191A (zh) | 汉语语音识别词库的处理方法 | |
CN1302415C (zh) | 一种英汉翻译机器的实现方法 | |
CN85100868A (zh) | 多文种电脑 | |
CN1102768C (zh) | 一种用于电子计算机的汉字音形编码输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |