CN101067809A - 独立词切分 - Google Patents

独立词切分 Download PDF

Info

Publication number
CN101067809A
CN101067809A CN 200710111300 CN200710111300A CN101067809A CN 101067809 A CN101067809 A CN 101067809A CN 200710111300 CN200710111300 CN 200710111300 CN 200710111300 A CN200710111300 A CN 200710111300A CN 101067809 A CN101067809 A CN 101067809A
Authority
CN
China
Prior art keywords
speech
word
rule
algorithm
cutting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710111300
Other languages
English (en)
Inventor
蒋贤春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 200710111300 priority Critical patent/CN101067809A/zh
Publication of CN101067809A publication Critical patent/CN101067809A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种中文词切分(也称分词)的方法。通过引入独立词等新的概念,它首先将中文句子切分成多个子句,并且保证子句切分正确率为100%。本发明还构造了句法和歧义判别规则,在子句词的切分过程中,对歧义处使用规则和句法判别,符合规则和句法的能100%正确切分,规则和句法(不是完备的)没有包括的,则认为可能切分错误,加以标记(标记处20%以上有错误,95%切分错误之处被加以标记)。本发明同时提供了方便添加句法和歧义判别规则的工具,通过句法和判别规则的不断丰富,中文词切分的正确率趋于100%。中文词切分是进行中文文本自动分析的第一步,可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。

Description

独立词切分
技术领域
本发明属于IT自然语言理解领域,提供了一种中文词切分(也称分词)的方法。
中文词切分是进行中文文本自动分析的第一步,可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。
背景技术
中文词切分的方法可以分为两类,一类是基于词表、词库匹配和词频统计的方法,另一类是基于语义的词切分方法。本发明属于基于语义的词切分方法。传统的基于语义的词切分方法是在词切分过程中动态的分析文本,比较复杂,并且受到目前自然语言理解理论发展水平限制,提高词切分正确率非常困难。本发明是在中文词切分之前对词的使用进行分析,对词在句子中的搭配进行了较完备的统计,词切分时不再分析语义,只验证统计结果,对符合统计结果的词,其切分正确率为100%。
发明内容
通过引入独立词等新的概念,本发明首先将中文句子切分成多个子句,并且保证子句切分正确率为100%。本发明还构造了句法和歧义判别规则,在子句的词切分过程中,对歧义处使用规则和句法判别,符合规则和句法的能100%正确切分,规则和句法(不是完备的)没有包括的,则认为可能切分错误,加以标记。本发明同时提供了方便添加句法和歧义判别规则的工具,通过句法和判别规则的不断丰富,中文词切分的正确率趋于100%。
1.说明与定义
本发明引入了一些新的概念和使用了一些术语,下面分别加以定义和说明。
说明1:本发明达到“ 中文词切分的正确率趋于100%”是实现了两个指标:第一,词切分的正确率大于99.5%,并且对可能切分错误之处加以标记,并实现标记处20%以上有错误和95%以上切分错误之处被加以标记;第二,提供方便添加句法库和歧义库的工具,通过句法库和歧义库的不断丰富,中文词切分的正确率不断提高。
注:人无法判断的切分错误不计算在本发明错误率中。
说明2:中文句子S=W1W2W3…Wn,其中Wi(0<i<=n)为中文词,S中任意一部分WiWi+1…Wj(0<=i<n,i<j<=n)称为子句。在本文中子句有时也被称为句子。
说明3:机构名称指一个具体单位的名字,通常由多个词组成,机构名称最后一个词称为机构词,如公司(中国电子进出口总公司)、银行(中国银行)、书店(西单外文书店)、学校(北京大学)、医院(中日友好医院)、博物馆(中国历史博物馆)、报社(北京日报社)、电台(中央电视台)等。
注:机构名称不包括其缩写的形式。
说明4:场所名称指一个具体场所的名字,通常由多个词组成,场所名称最后一个词称为场所词,如商店(蓝天羽毛球商店)、电影院(胜利电影院)、体育场(国家体育场)、文化宫(民族文化宫)、桥(苏州桥)、路(青藏铁路)、楼(安徽大厦)、水库(密云水库)等。
定义1:一个词被称为前独立词需满足下面两个条件:
①该词本身前面的任意一部分(不含全体)均不是词;
②在该词后面任意加上汉字组成词的情况较少。
定义2:一个词被称为后独立词需满足下面两个条件:
①该词本身后面的任意一部分(不含全体)均不是词;
②在该词 前面任意加上汉字组成词的情况较少。
定义3:一个词既是前独立词又是后独立词则称之为独立词。
定义4:中文文本P=C1C2C3…Cn,其中Ci(0<i<=n)为中文字,若P中任意一部分W=CiCi+1…Cj(0<i<n,j>i)被称为准词需满足下面四个条件:
①W在P中出现三次以上;
②W是未登录词;
③W中不含标点;
④W的长度不超过词的长度并且大于1。
2.方法
2.1.词类与接续关系
本发明将所有词分成1000类,同一类中的词语义相近。
接续关系指词类与词类之间的接续关系,词类K1与词类K2之间有接续关系指K1中的一个词与K2中的一个词在句子中相邻。
词W1与词W2之间有接续关系则表明W1所属词类与W2所属词类有接续关系。
2.2.机构名称切分
设W=W1W2W3…Wn,其中Wi(0<i<=n)为中文词,W是机构名称需满足下面三个条件:
①Wn是机构词;
②W是一个准词;
③W1W2W3…Wn的排列符合机构名称构词规则。
注:机构名称规则是根据自动统计得到的,设W1的词类是K1,W2的词类是K2,W3的词类是K3,…,若K1K2K3…Wn是一条规则,则W符合机构名称构词规则。
2.3.场所名称切分
设W=W1W2W3…Wn,其中Wi(0<i<=n)为中文词,W是场所名称需满足下面三个条件:
①Wn是场所词;
②W是一个准词;
③W1W2W3…Wn的排列符场所名称构词规则。
注:场所名称规则是根据自动统计得到的,设W1的词类是K1,W2的词类是K2,W3的词类是K3,…,若K1K2K3…Wn是一条规则,则W符合场所名称构词规则。
2.4.人名切分
子句S=W1W2…WiC1C2…CmWi+1…Wn,其中Wi(1<=i<=n)为中文词,设W=C1C2…Cm,其中Cj(1<=j<=m)为中文字,W是人名需满足下面四个条件:
①W是一个准词;
②W与Wi有接续关系;
③W与Wi+1有接续关系;
④C1C2…Cm的排列符合人名构词规则;
注:人名构词规则是根据自动统计得到的,规则规定人名中一定要有姓氏,如“小王”、“高伟”,姓氏前有汉字“小”等符合人名构词规则,姓氏后只有可以作为人名的汉字符合人名构词规则。对不含姓氏的人名,本发明将其视为未登录词处理。
2.5.未登录词切分
子句S=W1W2…WiC1C2…CmWi+1…Wn,其中Wi(1<=i<=n)为中文词,设W=C1C2…Cm,其中Cj(1<=j<=m)为中文字,W是未登录词需满足下面三个条件:
①W是一个准词;
②W与Wi有接续关系(根据W中的字给出可能的类);
③W与Wi+1有接续关系。
2.6.句法库
句法是指词类的接续关系,它是在本发明实施过程中自动分析生成的。简单的句法是两个词之间有无接续关系,还有一些复杂的句法,这里就不一一介绍了。
2.7.歧义判别规则
词W=C1C2…Cn,Ci(1<=i<=n)为中文字,W1=C1C2…Cm,Ci(1<=m<n),则表明词W在进行顺序词切分时会有歧义。称W为歧义词,W1为W的歧义词。
通过对已登录词的自动分析可以得出所有歧义词。
歧义判别规则是对每一个歧义词制定的,设词W为歧义词,W的歧义词为W1、W2、…。对W找出所有规则,规则形式有两种:K1WK2和K1WC1,其中K1为句中W前一个词的词类,K2为句中W后一个词的词类,C1为句中W后面第一个字;对W的歧义词W1找出所有规则,规则形式有两种:K1W1K2和K1W1C1,其中K1为句中W1前一个词的词类,K2为句中W1后一个词的词类,C1为句中W后面第一个字;同理对W的歧义词W2、…找出所有规则。
通过对大量已切分正确的文本自动分析可以得出歧义判别规则。歧义判别规则数据量较大,需要优化,因为方法较复杂,这里就不介绍了。歧义判别规则不是完备的,但却包含了99%以上出现的情况。
逆序词切分歧义判别规则原理同上,规则形式为K2KK1和C1W1K1
2.8.可能错误标记
本发明是分步骤对句子进行词切分的,每一步都保证100%正确,若无法保证,则加以可能错误标记。具体参见下面算法部分。
3.算法
本算法基于已有了知识库(中文词库、词类库、独立词库、前独立词库、后独立词库、机构词库、场所词库、姓氏词库等、句法库、歧义库),所有这些库的生成参见本说明的“具体实施方式”。
3.1“独立词切分”算法
“独立词切分”算法框图见附图1,算法如下:
(1)找出文本中的所有准词;
(2)对文本逐句进行子句切分;
①找出(子)句中的独立词,切分该独立词;
②判断(子)句中第一个词是否是后独立词,是则切分该后独立词;
③判断(子)句中最后一个词是否是前独立词,是则切分该前独立词。
(3)对所有子句逐一进行词切分;
①顺序切分(子)句中第一个词直至切分完毕或无法切分;如切分完毕则转(4);
②逆序切分(子)句中最后一个词直至无法切分;
③判断顺向无法切分处与逆向无法切分处之间的字是否是人名,若不是,则在无法切分处加以可能错误标记。
(4)专有名词合并。
①在已切分的句子中找出机构词,判断该机构词与其前面的词能否组成机构名称,若可以,则合并这些词,取消他们之间的切分。
②在已切分的句子中找出场所词,判断该场所词与其前面的词能否组成场所名称,若可以,则合并这些词,取消他们之间的切分。
3.2找独立词算法
该算法是在一个句中找出独立词并切分,算法如下:
(1)p=1;
(2)从句中p的位置执行以下操作:
①从句中p的位置取一个字,判是独立词库中的词否,若是则转(4);
②从句中p的位置取两个字,判是独立词库中的词否,若是则转(4);
③从句中p的位置取三个字,判是独立词库中的词否,若是则转(4);
④从句中p的位置取四个字,判是独立词库中的词否,若是则转(4);
(3)p=p+1,若是句末则转(7);否则转(1);
(4)判所取的字与后面的词合起来能否组成词,若可以则转(3);
(5)判所取的字与前面的词合起来能否组成词,若可以则转(3);
(6)所取的词是独立词,切分该词,置p为该词后的位置,转(2);
(7)结束。
独立词库中包括独立词及对每个独立词穷举了其前后可组合的词(较少),算法(4)和(5)的判断可根据独立词库穷举的词,不在其中即为独立词。找前独立词和后独立词算法与该算法类似。
3.3切词算法
该算法是在一个在句中顺序切分词,算法如下:
(1)p=1;
(2)从句中p的位置找最大词;
(3)判所取的词是歧义词否,若不是则切分该词,转(5);
(4)根据该词的歧义规则找出正确切分,若规则不能正确切分,则在该词后加以可能错误标记。在最有可能处切分;
(5)置p为切分处,若不是句末则转(2);
(6)结束。
在句中逆序切分词算法与该算法类似。
3.4用户添加句法和规则的工具
本发明提供的句法和规则是通用的,不同的用户在使用时,可根据本人所涉及的专业领域添加新的句法和规则。本发明提供一种方便用户添加句法和规则的交互式工具,使用和算法如下:
(1)用户输入已切分正确的文本;
(2)在文本中找出所有未登陆词;
(3)未登陆词入词库;
①逐一显示未登陆词;
②用户选择是否入词库,选择否则转(4);
③将该词入词库;
④提示用户输入与该词词义相近的词;
⑤将用户输入的词义相近的词的词类定义为该词的词类;
⑥将该词的词类添加到词类库;
(4)修改(前、后)独立词规则:因新添加了词,要判断独立词规则是否要改;
(5)添加歧义词规则:因新添加了词,要判断其是否是歧义词,同时判断是否是其它词的歧义词;
(6)根据用户输入的文本,添加句法;
(7)根据用户输入的文本,添加歧义判别规则。
附图说明
图1:“独立词切分”算法框图。
图2:具体实施方式流程图。
具体实施方式
“独立词切分”算法基于词库、句法库、歧义库、规则库,所有这些库的生成又基于有大量不同领域已切分的文本。本发明采用循序渐进的方式,切分一部分文本,添加一部分句法和规则,再切分一部分文本,再添加一部分句法和规则,…。随着句法和规则的增加,切分错误率不断减小,最终完成所有库的建立。流程图参见附图2,步骤如下:
(1)建库:建立初始库,没有句法和规则;
(2)建机构名称规则:录入各种机构名称,程序建立机构名称规则;
(3)建场所名称规则:录入各种场所名称,程序建立场所名称规则;
(4)获取大量不同领域的文本:通过购买和网上下载获取(含2亿以上汉字);
(5)取总量1%的文本切分;
①自动切分总量1%的文本,不加可能错误标记;
②人工全文校对该1%自动切分的文本;
③将该1%文本中未登陆词加入词库,并给出词类;
④对独立词库、前独立词库和后独立词库进行修改;
⑤根据该1%切分校对后的文本,程序添加句法和歧义判别规则;
(6)再取总量2%的文本切分;
①自动切分总量2%的文本,不加可能错误标记;
②人工全文校对该2%自动切分的文本;
③将该2%文本中未登陆词加入词库,并给出词类;
④对独立词库、前独立词库和后独立词库进行修改;
⑤根据该2%切分校对后的文本,程序添加句法和歧义判别规则;
(7)取总量5%的文本切分;
⑦自动切分总量5%的文本,不加可能错误标记;
⑧人工全文校对该5%自动切分的文本;
⑨将该5%文本中未登陆词加入词库,并给出词类;
⑩对独立词库、前独立词库和后独立词库进行修改;
根据该5%切分校对后的文本,程序添加句法和歧义判别规则;
(8)切分其余总量92%的文本;
①自动切分其余总量92%的文本,加可能错误标记;
②人工在错误标记处校对该92%自动切分的文本;
③将该92%文本中未登陆词加入词库,并给出词类;
④对独立词库、前独立词库和后独立词库进行修改;
⑤根据该92%切分校对后的文本,程序添加句法和歧义判别规则;
切分示例
设所要切分的文本为“2005年是中国工商银行股份制改革取得丰硕成果的一年。4月21日,国家正式批准中国工商银行实施股份制改革,注资150亿美元,随后中国工商银行顺利完成了财务重组和国际审计”。对该文本进行词切分的主要步骤如下:
步骤一、找出文本中的所有准词;
在文本中,“中国工商银行”是准词,它是未登录词并在文本中出现三次以上。
步骤二、找出句中的独立词、前独立词、后独立词;
词切分是在文本中逐句进行,以文本第一句“^2005年是中国工商银行股份制改革取得丰硕成果的一年^”(其中^为子句标识符号)为例,该句中有两个独立词,分别是“是”和“的”,这是根据独立词库中“是”是独立词的规则,它与前后组词的情况只有“百无一(是)”、“搬弄(是)非”、“别(是)”、“不宁唯(是)”、“不(是)”、“但(是)”、“倒(是)”、“凡(是)”、“各行其(是)”、“(是)所至祷”、“(是)非”、“回头(是)岸”…,但在该句中均不是,所以句中的“是”是独立词。同理,句中的“的”也是独立词。找出独立词后切分结果为:
“^2005年^是^中国工商银行股份制改革取得丰硕成果^的^一年^”。
下面的操作是找出所有句首的前独立词,本例无前独立词,然后找出所有句末的后独立词,本例无后独立词。找前独立词和后独立词方法与找独立词相同。
步骤三、对子句逐一进行词切分;
以了句“^中国工商银行股份制改革取得丰硕成果^”为例,顺向找句首最大词,找出的是词“中国”,“中国”是歧义词,因为词首的“中”也是一个词,根据歧义词“中国”的歧义判别规则,句中“中国”前是词“是”,后是词“工商”时,根据歧义词“中国”的判别规则,K1WK2是歧义词“中国”的判别规则(其中W为词“中国”,K1为句中“中国”前一个词“是”的词类,K2为在句中“中国”后一个词“工商”的词类),判别“中国”为一个词。同理切分,该句切分结果为:
“2005年是中围工商银行股份制改革取得丰硕成果的一年”。
步骤四、专有名词合并。
在句中,词“银行”为机构词,“中国工商银行”为准词,“中国工商银行”的组合符合机构名称构词规则,在切分的句子中将其合并。该句最终切分结果为:
“2005年是中国工商银行股份制改革取得丰硕成果的一年”。

Claims (5)

1.一种中文词切分(也称分词)的方法,其特征在于包括独立词切分方法和用户添加句法及规则的工具。
2.根据权利要求1独立词切分方法,其特征在于包括知识库和切分算法。
3.根据权利要求2知识库,其特征在于包括:
词类库:包括词类的划分和赋予每个词的类别;
独立词库:包括独立词概念、独立词的集合和判别独立词的规则;
前独立词库:包括前独立词概念、前独立词的集合和判别前独立词的规则;
后独立词库:包括后独立词概念、后独立词的集合和判别后独立词的规则;
机构词库:包括机构词的集合和判别机构名称的规则;
场所词库:包括场所词的集合和判别场所名称的规则;
姓氏词库:包括姓氏的集合和判别姓氏词的规则;
句法库:包括词的接续关系的定义和词的接续关系表;
歧义库:包括歧义词集合和歧义判别规则。
4.根据权利要求2切分算法,其特征在于运用知识库实现正确率趋于100%的词切分算法,包括:
运用独立词概念将句子正确切分成子句的算法;
在子句中正确切分前独立词的算法;
在子句中正确切分后独立词的算法;
正确判别歧义的算法;
机构名称判别的算法;
场所名称判别的算法;
人名判别的算法;
未登陆词判别的算法;
在可能切分之处加标记的算法。
5.根据权利要求1用户添加句法及规则的工具,其特征在于提供交互式界面,用户输入正确切分的文本,句法及规则的添加自动完成。
CN 200710111300 2007-06-22 2007-06-22 独立词切分 Pending CN101067809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710111300 CN101067809A (zh) 2007-06-22 2007-06-22 独立词切分

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710111300 CN101067809A (zh) 2007-06-22 2007-06-22 独立词切分

Publications (1)

Publication Number Publication Date
CN101067809A true CN101067809A (zh) 2007-11-07

Family

ID=38880372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710111300 Pending CN101067809A (zh) 2007-06-22 2007-06-22 独立词切分

Country Status (1)

Country Link
CN (1) CN101067809A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及系统
CN101561818B (zh) * 2009-05-13 2011-12-07 北京伟库电子商务科技有限公司 分词处理方法及全文检索方法
CN103593338A (zh) * 2013-11-15 2014-02-19 北京锐安科技有限公司 一种信息处理方法及装置
CN109101482A (zh) * 2018-07-02 2018-12-28 昆明理工大学 一种针对文本形近字错误的定位方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561818B (zh) * 2009-05-13 2011-12-07 北京伟库电子商务科技有限公司 分词处理方法及全文检索方法
CN101950284A (zh) * 2010-09-27 2011-01-19 北京新媒传信科技有限公司 中文分词方法及系统
CN101950284B (zh) * 2010-09-27 2013-05-08 北京新媒传信科技有限公司 中文分词方法及系统
CN103593338A (zh) * 2013-11-15 2014-02-19 北京锐安科技有限公司 一种信息处理方法及装置
CN103593338B (zh) * 2013-11-15 2016-05-11 北京锐安科技有限公司 一种信息处理方法及装置
CN109101482A (zh) * 2018-07-02 2018-12-28 昆明理工大学 一种针对文本形近字错误的定位方法
CN109101482B (zh) * 2018-07-02 2021-08-20 昆明理工大学 一种针对文本形近字错误的定位方法

Similar Documents

Publication Publication Date Title
CN1174332C (zh) 转换表达方式的方法和装置
CN1113305C (zh) 语言处理装置和方法
CN1133127C (zh) 文件检索系统
CN1368693A (zh) 用于全球化软件的方法和设备
CN1465018A (zh) 机器翻译技术
CN1707476A (zh) 辅助翻译搜索引擎系统及其方法
CN1652107A (zh) 语言变换规则产生装置、语言变换装置及程序记录媒体
CN1573739A (zh) 用于改良机器翻译之翻译知识的方法和装置
CN101075262A (zh) 一种计算机汉字输入方法及系统
CN101079028A (zh) 一种统计机器翻译中的在线翻译模型选择方法
CN1834955A (zh) 多语种翻译存储器、翻译方法以及翻译程序
CN1924858A (zh) 一种获取新词的方法、装置以及一种输入法系统
CN1910573A (zh) 用来识别并分类命名实体的系统
CN101067809A (zh) 独立词切分
CN1696933A (zh) 基于动态规划的文本概念关系自动提取方法
CN101047555A (zh) 一种设备质量检查方法
CN1120439C (zh) 机器翻译用中文生成装置
CN1224203A (zh) 智能型汉英即时同步共显式机器互译方法
CN1869983A (zh) 用于信息检索与信息输入的广义子串模式匹配方法
CN1168002C (zh) 测试方案生成的方法及其系统
CN1187677C (zh) 计算机整句汉字局部笔划输入方法
CN1399191A (zh) 汉语语音识别词库的处理方法
CN1302415C (zh) 一种英汉翻译机器的实现方法
CN85100868A (zh) 多文种电脑
CN1102768C (zh) 一种用于电子计算机的汉字音形编码输入方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication