CN101499058A - 一种基于类型论的汉语分词方法 - Google Patents
一种基于类型论的汉语分词方法 Download PDFInfo
- Publication number
- CN101499058A CN101499058A CNA2009100788790A CN200910078879A CN101499058A CN 101499058 A CN101499058 A CN 101499058A CN A2009100788790 A CNA2009100788790 A CN A2009100788790A CN 200910078879 A CN200910078879 A CN 200910078879A CN 101499058 A CN101499058 A CN 101499058A
- Authority
- CN
- China
- Prior art keywords
- type
- word
- ambiguity
- cutting
- merge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于类型论的汉语分词方法,属于计算机应用技术领域。本发明吸收逻辑学中类型论的思想,并在此理论框架下,通过给出相关概念的定义、进行汉语全类型设计、构造词典、对输入的句子进行全切分、识别前后缀类型、未登录词、交叉歧义字段、组合歧义字段、执行合并算法、执行类型函数贴合算法、统计校正并输出结果这样的一个过程实现了基于类型论的汉语分词。本发明使未登陆词识别和交叉歧义、组合歧义消解这两大汉语分词的瓶颈问题在同一理论框架下得到一定解决,同时使句法层面的交叉歧义、组合歧义和语义层面的真歧义也在同一理论框架下得到一定解决,并大大提高了未登陆词识别和歧义字段识别的准确率。
Description
技术领域
本发明涉及一种基于类型论的汉语分词方法,属于计算机应用技术领域。
背景技术
所谓分词,就是把一个句子按照其中词的含义进行切分。与英文不同,汉语中最小的单位不是词而是字,但具有一定语义的最小单位却是词。而中文文本在书面表达或在计算机内部表示时,字与字之间、词与词之间并没有明显的切分标志,即汉语句子中词与词之间的边界标志是隐含的,而中文信息处理的诸多重要领域如篇章理解、机器翻译、文本校对等都要求在词这一层面上进行处理。因此,就具有了汉语分词这一任务。汉语分词技术已成为中文信息处理技术中的最为基础的课题。
目前国内诸多科研机构和公司都针对汉语分词的特点提出过各种各样的模型、方法。总的来说,这些方法可以分为三类:基于规则的方法;基于统计的方法;规则、统计相结合的方法。每一类方法中,又包含各种各样的模型。例如:基于规则的方法中有:最大匹配分词、基于错误驱动的词性标注、基于规则的命名实体识别等方法;基于统计的方法包括,n-gram模型分词、隐马尔科夫(HMM)词性标注与最大熵(ME)模型等;统计与规则相结合的混合方法,则主要是综合利用语言统计信息与语言本身的知识,往往具有更好的性能,如采用层次隐马尔科夫模型、采用基于类的语言模型等。
虽然诸多学者对汉语分词都提出了自己的处理方法,但是根据目前的各种方法设计的汉语分词系统对于交叉歧义、组合歧义的消解和未登录词的识别这两大分词难点仍然没有完全解决。
交义歧义和组合歧义,这两种歧义属于句法层面的歧义,其定义如下:
定义:若汉字字串ABC能被分割为AB/C或A/BC两种形式,其中AB和BC都词典L中的词,则称字串ABC具有交叉歧义。若汉字字串AB能分割为AB或A/B两种形式,其中AB,A和B都是词典L中的词,则称字串AB是组合歧义。
未登录词则主要是指根据词典不能正确识别出的词。
现有分词技术中语义理解的成分都不是很多,因此,在开放测试下对未登录词(人名、地名、商标名等词典中没有的词)的正确识别程度远不能令人满意,没有一种技术手段在识别的过程中可以自动检测识别出的未登录词是否正确,对于组合歧义和交叉歧义消解的各种方案在开放测试下也不能得到令人满意的准确度和召回率。而且现有的分词方法,往往是针对汉语分词中两大瓶颈问题(未登录词和消歧)的一个而设计,甚至解决的只是一个瓶颈问题的局部(如针对人名识别提出的模型,针对交叉歧义提出的模型等),很少方法是在一个统一的理论框架下解决汉语分词的两大难题。
类型论是上世纪初英国逻辑学家罗素(B.Russell)为排除集合论悖论而提出的一种关于类的逻辑理论。以蒙太格语义学为代表的逻辑语义学把语句的句法分析和语义解释看成是同构的。即认为词的组合成句及其语义的模型论解释有着一一对应的关系,也就是说,语义解释是从句法代数到语义代数的同构映像。类型论使得这种同构映像成为可能。类型论方法是分析自然语言形容词,副词,命题态度词和限定词的量化语义特征的有力工具。
基本类型论中,类型的定义如下:
定义:类型的集合S是最小集,使得:
(1)e,t∈S;
(2)如果a,b∈S,那么<a,b>∈S;
此外,S中不包含其他元素;
其中,e,t为基本类型,e代表个体,t代表真值。
此定义说明的是:e,t是类型,e和t复合所生成的是类型;两个类型进行复合得到的也是类型。例如,et是类型;et和et进行复合得到的仍然是类型(et(et))。
在简单类型论中,类型所对应的表达种类和解释如下:
表1.简单类型论中的类型设计
类型 | 表达种类 | 解释 |
e | 个体表达式 | 个体 |
(et) | 一元一阶谓词 | 从个体到真值的函数 |
t | 句子 | 真值 |
tt | 句子修正 | 从句子到句子的函数 |
((et)(et)) | 谓词修正 | 从个体集合到个体集合的函数 |
…… | …… | …… |
表1中各种类型在自然语言中所对应的词类如下:e代表专名;et代表不及物动词,不及物动词是et类型,在直观上可以理解为:在不及物动词前面加上一个个体名词则成为一个句子;tt通常是否定词,如:并非。tt类型在直观上可以理解为:具有tt类型的词在其右边加上一个句子则还是一个句子;et(et)通常代表副词,表达的是,其右边如果是类型为et的不及物动词,则副词和不及物动词一起形成一个类型为et的动词短语。
目前不少逻辑学家和语言学家都在对类型论进行研究。逻辑学家的研究集中在构造类型系统,语言学家对类型论的研究主要集中在用类型论对一些语言句法结构进行解释。但是总的来说目前类型论的研究主要在理论层面。将类型论引入到汉语分词领域,在本发明之前,仍属空白。
发明内容
本发明的目的在于吸收类型论思想提出一种全新的基于类型论的汉语分词方法。本发明吸收逻辑学中类型论的思想,并在此理沦框架下,以类型函数贴合为主要算法,融合了全切分、统讣、前后缀识别信息等多种技术手段,汉语类型系统以及合并算法等技术模型来实现歧义消解(既包括交叉歧义和组合歧义也包括真歧义)和未登录词识别。本发明在分类上属于规则、统计相结合的方法。
本发明的一种基于类型论的汉语分词方法整体框架设计流程如图1所示。
具体实现步骤如下:
步骤一、给出相关概念的定义
定义1:汉语类型的集合S是最小集,使得:
(1)e和t为基本类型;f为辅助类型;
(2)如果a,b为辅助类型之外的类型,则(ab)为类型。
(3)如果a,b之中存在辅助类型,若a,b之间存在匹配规则,则(ab)为类型。
其中f={f1,f2,f3,f4,n,q,p,s,x)。其中,f1,f2,f3主要指函数类型;x类型主要包括助动词,叹词,拟声问,助词,语气词等,n指数词;q指量词;p,s分别指前、后缀。
定义2(函数贴合):令g是类型为ab的表达式,如果α是类型为a的表达式,那么g(a),g(b)分别是类型为b和a的表达式。
定义3:一个句子是真歧义的当且仅当有两种不同的切分方式使得每一种类型函数贴合后的结果都是t。
在本发明中,要解决的歧义消解问题不仅包括交叉歧义和组合歧义,还包括真歧义。真歧义是语义层面的歧义。
定义4:一个切分是正确的,当且仅当存在一种类型贴合方式使得类型函数贴合的最后结果是t。一个切分是可接受的,当且仅当它存在一种类型贴合方式可以得到一个类型函数贴合结果。
步骤二、进行汉语全类型设计
在步骤一相关概念定义的基础上,根据汉语的语言学知识、句法特点及分词系统的实际需要,进行汉语全类型设计。
汉语全类型具体设计如表2。
表2.本发明中的汉语全类型设计表
词性 | 类型 | 举例 |
名词 | e | 专名:中国,张三,长城,太阳......普通名词1:人民,汽车,桌子,动物,恒星...时间名词:晚上,上午,现在...处所名词:外屋,河北,北京,海淀区...... |
判断动词 | eitei,(ei)t(eit) | 是,有,要.... |
趋向动词 | eit,eit(eit) | 上,下,来,去,起来,出去... |
不及物动词 | eit | 跑,着眼,游泳,鞠躬,生气,站岗,气喘,叫,完毕,苏醒...... |
及物动词 | (ei)t(ei) | 写,读,打扫,清理,制造...... |
助动词 | x,eit, | (不)会,有没有,(没)有,(不)可以,(不)能,(不)敢,勇于,必需,(不)必,足,可,别,欲, |
肯,好,甭,(不)该,(不)愿意,(不)情愿,(不)乐意,(不)想,(不)准,(不)许 | ||
形容词 | eit,f1,eit(eit) | 美丽,高,干干净净...... |
副词 | eit(eit),f2 | 非常,很,极其,已经...... |
否定词 | tt | 并非,不(且要位于句首,否则是副词)...... |
限定词 | t(eit)(ei),t(eit)e2 | 至少,多数,不超过,几乎...... |
数词 | n | 1,2,一,二...... |
比例数词 | n,e1 | 10%,百分之十...... |
量词 | q | 个,只,头...... |
数量词 | nq={et,et(et),e2} | 三只,两头..... |
代词 | e2 | 人称代词:你,我,他,自己,别人,大家,人家....疑问代词:什么,谁,哪儿. |
指示代词 | e1,e3 | 这,那,这个,那个...... |
连词 | eee,t(tt),eit(eit)(eit) | 和,(并)且,但(是),而,可是..... |
介词类型 | eee,f3 | 自,从,以,当,为,按照,由于,对于,为了,到,跟,把,比,在,关于,除了,对,向,往,朝...... |
助词 | x,f4 | 的、地、得,着,了,也,过,似的,一样,一般,给,连,所,们,况且,再说, |
拟声词 | x | 砰、哗哗、叮当 |
叹词 | x | 啊,哎,喂,噢...... |
语气词 | x | 了,吧,吗,呢...... |
每一种类型设计都是语言学知识的体现。例如:趋向动词(分为简单趋向动词(上,下,来,去)和复杂趋向动词(起来,出去)),它们既可以单独做谓语,也可以在别的动词或形容词后作趋向补语。因为其可以在动词后作补语,故将其类型设计为:eit(eit)。形容词后作补语的情况不用另外加类型,因为形容词的类型有eit(eit),可以和eit匹配。其可以单独作谓语,故其也具有eit类型。
步骤三、构造词典
在步骤二汉语全类型设计完成的基础上,构造词典。
本发明的词典中,每个词具有的要素是类型而不再是词性。词典中每一词条的结构为:<词,类型>;
词典在内容上与其他汉语分词词典的差别为:本发明中的词典中没有只具有名词类型的单字词,且只有很少的单字形容词(这是由于在现实语料中,单字名词和部分形容词作为一个独立词正确出现的几率非常小,但它们给未登录词识别带来的困难却非常大)。当词典中没有的单字名词或单字形容词出现时,将它视为未登录词。通过步骤六中的合并算法处理。
步骤四、对输入的句子进行全切分
在步骤三词典构造完成的基础上,对输入的句子进行全切分。
具体操作为:
第(1)步:根据步骤三中构造的词典,对输入的句子进行全切分。本发明中使用已有的全切分算法对输入的句子进行全切分。
第(2)步:根据最短路径优先原则和无未登录词切分优先原则将全切分的结果进行排序。
步骤五、识别前后缀类型、未登录词、交叉歧义字段、组合歧义字段
根据步骤四中全切分的排序结果,依次进行前后缀类型、未登录词和交叉歧义字段、组合歧义字段识别。
判断可以有以下情况:
情况1:如果切分序列既没有前后缀类型,又没有未登录词,也没有交叉歧义、组合歧义字段,则直接将排序在第一的切分序列输出;
情况2:如果有前后缀类型或未登录词则进入步骤六,执行合并算法;
情况3:如果只具有交叉歧义或组合歧义字段,不具有前后缀类型,不具有未登录词,则进入步骤七,执行类型函数贴合算法。
前后缀类型词和未登录词通过和本发明构造的词典进行匹配而识别出。词典中没有的词则是未登录词,词典中词的类型是p类型,则是前缀类型,词典中词的类型为s则是后缀类型。
交叉歧义、组合歧义识别则通过已有方法进行判断:
(1)令S=C1C2…Cn是需要切分的字符串,检测是否至少存在两种不同的切分路径S1=W1W2…Wn和S2=W1’W2’…Wm’,其中Wi,Wi’∈LexiCon。
(2)如果存在至少两种不同的切分路径,且Wi和Wi’是两种切分下第一个不同的词,若Wi的长度大于Wi’的长度,且Wi’+Wi+1’的长度大于Wi的长度,则称字串Wi’Wi+1’是S中第一个具有交叉歧义的字串。
(3)如果Wi’+Wi+1’的长度等于Wi的长度,则称字串Wi’Wi+1’是S中第一个具有组合歧义的字段。
步骤六、执行合并算法
在步骤五前后缀类型、未登录词、交叉歧义字段、组合歧义字段识别的基础上,对“有前后缀类型或未登录词”的情况执行合并算法。
未登录词主要包括:a.人名、地名、商标名等;b.重叠词,如高高兴兴、研究研究;C.派生词,如“一次性用品”;d.与领域相关的术语,如“互联网”;e.外来词的翻译,以及缩写词等等。未登陆词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。众所周知,由于未登录词的标志不明显,组成限制方面很弱,且经常与毗邻的词之间具有交叉歧义或组合歧义,因此未登录词的识别一向是汉语分词研究中的难点。
本发明中,在处理未登录词时,对于人名,地名,商标名,像其它分词系统一样,也充分利用了其具有的前后缀参照,例如,我们通过前缀辅助类型来作为人名的初始识别判断条件之一;用后缀辅助类型作为地名和商标名的初始判断条件之一。
在未登录词合并算法中,主要处理了下面三种情况:
Case1.type(Ci)=p;其中Ci是预合并单词的词头;
Case2:type(Ci)=s;其中Ci是预合并单词的词尾;
Case3:type(Ci)=‘?’;
此处“p,s,?”只是一种表示方法,也可以选择其他的符号体系来表达。
每一种情况又包含数种子情况(对于预合并单词的词头是p类型,预合并单词的词尾是s类型的情况,我们在算法编写过程中归入到了第一种情况进行处理)。
考虑到越界问题,本发明将Case1又分为以下三种情况来处理:
Case1.1:Ci后只有Ci+1;
Case1.2:Ci后只有Ci+1,Ci+2;
Case1.3:Ci后多于Ci+1,Ci+2;
Case2:也同样分为:
Case2.1:Ci前只有Ci-1且不是p类型
Case2.2:Ci前只有Ci-1,Ci-2;
Case2.3:Ci前只有Ci-1,Ci-2,Ci-3;
在每种情况下又将Cj(j=i-1,i-2,i+1,i+2,i+3……)分为未登录词,单字词,多字词几种情况来处理。是单字词时,又细分为是否具有连词类型,介词类型,判定动词类型几种子情况。
为了平衡算法的复杂度和实际中需要解决的程度,本发明着重处理了四字以下的人名、地名、商标名。仅以“如果Ci只有s类型(即后缀类型),Ci前只有Ci-1,Ci-2,Ci-3”这种情况为例,给出我们处理的子情况:
(1)如果Ci只有s类型,Ci-2不具有p类型且为多字词,Ci-1为未登录词,或单字词,或多字词,则将Ci-1Ci合并为e;
(2)如果Ci只有s类型,Ci-1,Ci-2均为未登录词,Ci-3为多字词则Ci-2Ci-1Ci合并为e;
(3)如果Ci只有s类型,Ci-1,Ci-2均为未登录词,Ci-3为单字词且不是介词、动词,则Ci-3Ci-2Ci-1Ci合并为e;
(4)如果Ci只有s类型,Ci-1,Ci-2均为未登录词,Ci-3为单字词且为介词,则Ci-2Ci-1Ci合并为e;
(5)如果Ci只有s类型,Ci-1为未登录词,Ci-2为单字词且不是介词,不是“是,的,在,把,从”,则Ci-2Ci-1Ci合并为e;
(6)如果Ci只有s类型,Ci-1为未登录词,Ci-2为单字词且是介词或是“是,的,在,把,从”,则Ci-1Ci合并为e;
(7)如果Ci只有s类型,Ci-1是未登录词,Ci-2不具有p类型且为多字词,则将Ci-1Ci合并为e;
(8)如果Ci只有s类型,Ci-1为单字词,Ci-2为单字词且是介词或是“是,的,在,把,从”,则Ci-1Ci合并为e;
(9)如果Ci只有s类型,Ci-1为单字词,Ci-2为单字词且不是介词不是“是,的,在,把,从”,则Ci-1Ci合并为e,进行类型函数贴合,有结果则输出;无结果则将Ci-2Ci-1Ci合并为e;
(10)如果Ci只有s类型,Ci-1为单字词,Ci-2为多字词,则Ci-1Ci合并为e;
(11)如果Ci只有s类型,Ci-1为多字词,则Ci-1Ci合并为e;
(12)如果Ci只有s类型,Ci前只有Ci-1,Ci-2,Ci-3,;Ci-1,Ci-2,Ci-3都是未登录词,则Ci-3Ci-2Ci-1Ci合并为e。
步骤七、执行类型函数贴合算法
首先制定类型函数贴合算法的类型贴合规则,然后在步骤五前后缀类型、未登录词、交叉歧义字段、组合歧义字段识别的基础上,对“只有歧义(这里指交叉歧义或组合歧义)”的情况和步骤六中执行合并算法后的结果,执行类型函数贴合算法。
类型函数贴合算法中的类型贴合规则,主要是根据语言学知识所进行的设计。规则设计的合理度和全面度直接影响着分词系统的准确度。
本发明的类型贴合规则如下:
f2
其中有α出现的为规则模式,即α可以替换为任意类型,其他为具体规则。
如果切分序列类型函数贴合的结果是t,则说明是正确的切分。
如果切分序列类型函数贴合存在最后的类型则是可以接受的切分。
具体算法如下:
第(1)步:读取类型序列;
第(2)步:对类型序列中相邻类型(从第一个类型开始),运用上述类型贴合规则逐步进行贴合,直到不再有可以贴合的相邻类型为止。
第(3)步:对贴合结果进行判断,如果只有一种切分是正确切分则直接输出;如果两种切分都是正确切分,则进行步骤八统计校正;如果不存在正确切分,存在可以接受的切分,则输出可以接受的切分;如果既不存在正确切分也不存在可以接受的切分,则输出步骤四中全切分后排在第一个的序列作为切分结果。
一个合法的句子总是可以匹配成t的,本发明中设计出“可以接受的切分”,是考虑到汉语中经常使用逗号将一个完整的句子分为几部分,而对于逗号切分出的部分,匹配结果应该是一个类型(对应汉语中的一个成份),这样可以减少匹配次数,提高分词效率。
步骤八、统计校正
在步骤七执行类型函数贴合算法,判断出是真歧义时进行统计校正。木发明采用已有技术中的词频统计方法进行校正。
步骤九、输出结果
对以下三种情况进行输出:
(1)在步骤五判断出既无前后缀类型、又无未登录词和歧义字段(交叉歧义、组合歧义)时,直接输出步骤四中全切分后排在第一个的切分序列;
(2)在步骤五判断出有未登陆词、或有前(后)缀类型时,执行合并算法和函数贴合算法后判断出不是真歧义时,直接输出;
(3)在步骤七执行类型函数贴合算法后,判断出是真歧义时进行统计校正,然后输出。
有益效果:
1.将类型论引入到汉语分词领域,在本发明之前,仍属空白;
2.本发明使未登陆词识别和交叉歧义、组合歧义消解这两大汉语分词的瓶颈问题在同一理论框架下得到一定解决;将句法层面的交叉歧义和组合歧义以及语义层面的真歧义在同一理论框架下得到一定解决。
3.由于本发明中的词典和其他汉语分词词典相比,一个很大的特点是:删除了大量的单字词,因此无未登录词切分优先原则在处理交叉歧义时可以大大提高效率,同时,在对于其他情况的切分中,也可以大量减少切分路径;
4.在未登陆词识别的过程中可以自动检测识别出的未登录词是否正确;
5.本发明大大提高了未登陆词识别和歧义字段识别的准确率。
附图说明
图1为本发明的一种基于类型论的汉语分词方法整体框架设计流程图。
具体实施方式
根据上述技术方案,下面结合实例对本发明进行详细说明。
例句:张如果真来了。
对于此例句,虽然字数不多,但是对汉语分词任务来说却是一个复杂的例子。因为,张是p类型,因此涉及到前缀类型的处理,人名“张如果(或张如)”涉及到未登录词合并问题,“如果真”又是一个连续交叉歧义字段;通过类型函数贴合我们又可以发现,这个句子也是一个真歧义句子。我们下面来分析,如何通过本发明中的方法来对其进行正确切分。
步骤一、给出相关概念的定义
步骤二、汉语类型设计
我们的汉语类型系统中,“张”的类型为p,“如果”的类型是eee,t(tt),eit(eit)(eit),“果真”的类型是eee,t(tt),eit(eit)(eit),eit(eit),f2(因为“果真”既是连词又是副词),“如”的类型是eee,t(tt),eit(eit)(eit),“真”的类型是eit,f1,eit(eit),eit(eit),f2(因为“真”既是形容词又是副词),“来”的类型是eit,eit(eit)(“来”是趋向动词),“了”的类型是x,f4。
步骤三、词典构造
“张”、“如”、“如果”、“果真”、“来”、“了”都是我们词典中的词,“果”不是词典中的词(因为“果”是只具有e类型的单字词,因此我们的词典中没有它)。
步骤四、对输入的句子进行全切分
在这一步中,对“张如果真未了”进行全切分,得到:
(1)张/如果/真/来/了p{eee,t(tt),eit(eit)(eit)}0{eit,f1,eit(eit),eit(eit),f2}{eit,eit(eit)}{x,f4}
(2)张/如/果真/来/了p{eee,t(tt),eit(eit)(eit)}{eee,t(tt),eit(eit)(eit),eit(eit),f2}{eit,eit(eit)}{x,f4}
步骤五、前后缀类型、未登录词、交叉歧义字段、组合歧义字段识别
在这一步中根据步骤四的结果,对其进行是否具有未登录词、歧义(交叉歧义、组合歧义)的识别。通过词典的匹配发现没有词典中没有的词,但是通过交叉歧义识别算法可以识别出,“如果真”字段是此例中的第一个具有交叉歧义的字段。
在这个例子中“张”具有p类型,因此也需要调用合并算法。
步骤六、合并算法
根据我们的合并算法,这属于:p类型单字词为句子首字(不妨将其称为C1),即需合并的词首字,而其后的字段是具有交叉歧义的字段,根据我们的合并算法,在这种情况下,对两种情况都要进行类型合并,然后再通过类型函数贴合进行判断哪一种是正确的切分。
步骤七、类型函数贴合算法
在步骤六中,首先对第一种切分根据合并算法,将“张”和“如果”合并为e,然后进行类型函数贴合运算。过程如下:
对第二种切分,根据合并算法,将“张”和“如”合并为e,然后进行类型函数贴合运算。过程如下:
通过类型函数贴合可以看出,两种切分都可以匹配出类型t,也就是说在两种切分下都是合法的句子。因此,“张如果真来了”是真歧义句子。因此要进行统计校正。
步骤八、统计校正
在这一步中,我们通过统计同一篇文档中“张如”和“张如果”出现的频率来完成校正。如果“张如”比“张如果”出现的频率大,则判断此处应该为“张如”,反之亦然,如果频率相同,则输出时两种切分都反馈给用户。
步骤九、输出
根据统计校正的结果,输出切分序列。
对于其他较复杂的例子,如:既有未登录词识别又有组合歧义又是真歧义的句子:“只有张三才能完成这个任务”;具有连续交叉歧义的句子:“与此前人们对人口红利消失的担心不同,只有当中国发展到剩余劳动人口得到充分吸收,应该看到人口红利的消失对我国经济社会发展的积极意义。”(其中“此前人们”和“人口红利”都是连续交叉歧义,“当中国”为三字交叉歧义)等等,识别正确切分的方法也是一样的。
Claims (10)
1.一种基于类型论的汉语分词方法,其特征在于其具体实现步骤如下:
步骤一、给出相关概念的定义
步骤二、进行汉语全类型设计
在步骤一相关概念定义的基础上,根据汉语的语言学知识、句法特点及分词系统的实际需要,进行汉语全类型设计;
步骤三、构造词典
在步骤二汉语全类型设计完成的基础上,构造词典;
步骤四、对输入的句子进行全切分
在步骤三词典构造完成的基础上,对输入的句子进行全切分;
步骤五、识别前后缀类型、未登录词、交叉歧义字段、组合歧义字段
根据步骤四中全切分的排序结果,依次进行前后缀类型、未登录词、交叉歧义字段、组合歧义字段识别;
步骤六、执行合并算法
在步骤五前后缀类型、未登录词、交叉歧义字段、组合歧义字段识别的基础上,对“有前后缀类型或未登录词”的情况执行合并算法;
步骤七、执行类型函数贴合算法
首先制定类型函数贴合算法的类型贴合规则,然后在步骤五前后缀类型、未登录词、交叉歧义字段、组合歧义字段识别的基础上,对“只有歧义(这里指交叉歧义或组合歧义)”的情况和步骤六中执行合并算法后的结果,执行类型函数贴合算法;
步骤八、统计校正
在步骤七执行类型函数贴合算法,判断出是真歧义时进行统计校正;本发明采用已有技术中的词频统计方法进行校正;
步骤九、输出结果。
2.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤一中相关概念的定义为:
定义1:汉语类型的集合S是最小集,使得:
(1)e和t为基本类型;f为辅助类型;
(2)如果a,b为辅助类型之外的类型,则(ab)为类型;
(3)如果a,b之中存在辅助类型,若a,b之间存在匹配规则,则(ab)为类型;
其中f={f1,f2,f3,f4,n,q,p,s,x};其中,f1,f2,f3主要指函数类型;x类型主要包括助动词,叹词,拟声词,助词,语气词等,n指数词;q指量词;p,s分别指前、后缀;
定义2(函数贴合):令g是类型为ab的表达式,如果α是类型为a的表达式,那么g(a),g(b)分别是类型为b和a的表达式;
定义3:一个句子是真歧义的当且仅当有两种不同的切分方式使得每一种类型函数贴合后的结果都是t;
定义4:一个切分是正确的,当且仅当存在一种贴合方式使得类型函数贴合的最后结果是t;一个切分是可接受的,当且仅当它存在一种贴合方式可以得到一个类型函数贴合结果。
3.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤二中的设计汉语全类型,如下表所示:
汉语全类型设计表
4.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤三中的词典的构造方法为:每个词具有的要素是类型,词典中每一词条的结构为:<词,类型>。
5.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤四中的对输入的句子进行全切分的具体操作为:
第(1)步:根据步骤三中构造的词典,使用已有的全切分算法对输入的句子进行全切分;
第(2)步:根据最短路径优先原则和无未登录词切分优先原则将全切分的结果进行排序。
6.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤五中的前后缀类型、未登录词、交叉歧义或组合歧义字段识别分为三种情况:
情况1:如果切分序列既没有前后缀类型,又没有未登录词,也没有交叉歧义、组合歧义字段,则直接将排序在第一的切分序列输出;
情况2:如果有前后缀类型或未登录词则进入步骤六,执行合并算法;
情况3:如果只具有交叉歧义或组合歧义字段,不具有前后缀类型,不具有未登录词,则进入步骤七,执行类型函数贴合算法。
前后缀类型词和未登录词通过和步骤三中构造的词典进行匹配而识别出;组合歧义和交叉歧义识别则通过已有方法进行判断。
7.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤六中的执行合并算法的具体操作方法为:
在处理未登录词时,对于人名,地名,商标名,充分利用了其具有的前后缀参照,通过前缀辅助类型来作为人名的初始识别判断条件之一;用后缀辅助类型作为地名和商标名的初始判断条件之一;
在未登录词合并算法中,主要处理了下面三种情况:
Case1.type(Ci)=p;其中Ci是预合并单词的词头;
Case2:type(Ci)=s;其中Ci是预合并单词的词尾;
Case3:type(Ci)=‘?’;
此处“p,s,?”只是一种表示方法,也可以选择其他的符号体系来表达;
每一种情况又包含数种子情况(对于预合并单词的词头是p类型,预合并单词的词尾是s类型的情况,我们在算法编写过程中归入到了第一种情况进行处理);
考虑到越界问题,本发明将Case1又分为以下三种情况来处理:
Case1.1:Ci后只有Ci+1;
Case1.2:Ci后只有Ci+1,Ci+2;
Case1.3:Ci后多于Ci+1,Ci+2;
Case2:也同样分为:
Case2.1:Ci前只有Ci-1且不是p类型
Case2.2:Ci前只有Ci-1,Ci-2;
Case2.3:Ci前只有Ci-1,Ci-2,Ci-3;
在每种情况下又将Cj(j=i-1,i-2,i+1,i+2,i+3……)分为未登录词,单字词,多字词几种情况来处理;是单字词时,又细分为是否具有连词类型,介词类型,判定动词类型几种子情况;
为了平衡算法的复杂度和实际中需要解决的程度,本发明着重处理了四字以下的人名、地名、商标名;仅以“如果Ci只有s类型(即后缀类型),Ci前只有Ci-1,Ci-2,Ci-3”这种情况为例,给出我们处理的子情况:
(1)如果Ci只有s类型,Ci-2不具有p类型且为多字词,Ci-1为未登录词,或单字词,或多字词,则将Ci-1Ci合并为e;
(2)如果Ci只有s类型,Ci-1,Ci-2均为未登录词,Ci-3为多字词则Ci-2Ci-1Ci合并为e;
(3)如果Ci只有s类型,Ci-1,Ci-2均为未登录词,Ci-3为单字词且不是介词、动词,则Ci-3Ci-2Ci-1Ci合并为e;
(4)如果Ci只有s类型,Ci-1,Ci-2均为未登录词,Ci-3为单字词且为介词,则Ci-2Ci-1Ci合并为e;
(5)如果Ci只有s类型,Ci-1为未登录词,Ci-2为单字词且不是介词,不是“是,的,在,把,从”,则Ci-2Ci-1Ci合并为e;
(6)如果Ci只有s类型,Ci-1为未登录词,Ci-2为单字词且是介词或是“是,的,在,把,从”,则Ci-1Ci合并为e;
(7)如果Ci只有s类型,Ci-1是未登录词,Ci-2不具有p类型且为多字词,则将Ci-1Ci合并为e;
(8)如果Ci只有s类型,Ci-1为单字词,Ci-2为单字词且是介词或是“是,的,在,把,从”,则Ci-1Ci合并为e;
(9)如果Ci只有s类型,Ci-1为单字词,Ci-2为单字词且不是介词不是“是,的,在,把,从”,则Ci-1Ci合并为e,进行类型函数贴合,有结果则输出;无结果则将Ci-2Ci-1Ci合并为e;
(10)如果Ci只有s类型,Ci-1为单字词,Ci-2为多字词,则Ci-1Ci合并为e;
(11)如果Ci只有s类型,Ci-1为多字词,则Ci-1Ci合并为e;
(12)如果Ci只有s类型,Ci前只有Ci-1,Ci-2,Ci-3,;Ci-1,Ci-2,Ci-3都是未登录词,则Ci-3Ci-2Ci-1Ci合并为e。
8.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤七中的执行类型函数贴合算法的类型贴合规则设计如下:
其中有α出现的为规则模式,即α可以替换为任意类型,其他为具体规则;
如果切分序列类型函数贴合的结果是t,则说明是正确的切分;
如果切分序列类型函数贴合存在最后的类型则是可以接受的切分。
9.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤七中的执行类型函数贴合算法的具体算法如下:
第(1)步:读取类型序列;
第(2)步:对类型序列中相邻类型(从第一个类型开始),运用上述贴合规则逐步进行贴合,直到不再有可以贴合的相邻类型为止;
第(3)步:对贴合结果进行判断,如果只有一种切分是正确切分则直接输出;如果两种切分都是正确切分,则进行步骤八统计校正;如果不存在正确切分,存在可以接受的切分,则输出可以接受的切分;如果既不存在正确切分也不存在可以接受的切分,则输出默认结果。
10.根据权利要求1所述的一种基于类型论的汉语分词方法,其特征在于步骤九中的输出结果分为以下三种情况:
(1)在步骤五判断出既无前后缀类型、又无未登录词和歧义字段(交叉歧义、组合歧义)
时,直接输出步骤四中全切分后排在第一个的切分序列;
(2)在步骤五判断出有未登陆词、或有前(后)缀类型时,执行合并算法和函数贴合算法后判断出不是真歧义时,直接输出;
(3)在步骤七执行类型函数贴合算法后,判断出是真歧义时进行统计校正,然后输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100788790A CN101499058A (zh) | 2009-03-05 | 2009-03-05 | 一种基于类型论的汉语分词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100788790A CN101499058A (zh) | 2009-03-05 | 2009-03-05 | 一种基于类型论的汉语分词方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101499058A true CN101499058A (zh) | 2009-08-05 |
Family
ID=40946135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009100788790A Pending CN101499058A (zh) | 2009-03-05 | 2009-03-05 | 一种基于类型论的汉语分词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101499058A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236637A (zh) * | 2010-04-22 | 2011-11-09 | 北京金山软件有限公司 | 一种确定搭配词与中心词搭配程度的方法和系统 |
CN102982020A (zh) * | 2012-12-17 | 2013-03-20 | 杭州也要买电子商务有限公司 | 一种搜索系统中的中文分词方法 |
CN103324612A (zh) * | 2012-03-22 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种分词的方法及装置 |
CN103605781A (zh) * | 2013-11-29 | 2014-02-26 | 苏州大学 | 一种隐式篇章关系类型推理方法及系统 |
CN104156349A (zh) * | 2014-03-19 | 2014-11-19 | 邓柯 | 基于统计词典模型的未登录词发现和分词系统及方法 |
WO2015196909A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 一种分词方法和装置 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107918604A (zh) * | 2017-11-13 | 2018-04-17 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
CN108052508A (zh) * | 2017-12-29 | 2018-05-18 | 北京嘉和美康信息技术有限公司 | 一种信息抽取方法及装置 |
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN110502737A (zh) * | 2018-05-18 | 2019-11-26 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
-
2009
- 2009-03-05 CN CNA2009100788790A patent/CN101499058A/zh active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102236637A (zh) * | 2010-04-22 | 2011-11-09 | 北京金山软件有限公司 | 一种确定搭配词与中心词搭配程度的方法和系统 |
CN103324612B (zh) * | 2012-03-22 | 2016-06-29 | 北京百度网讯科技有限公司 | 一种分词的方法及装置 |
CN103324612A (zh) * | 2012-03-22 | 2013-09-25 | 北京百度网讯科技有限公司 | 一种分词的方法及装置 |
CN102982020A (zh) * | 2012-12-17 | 2013-03-20 | 杭州也要买电子商务有限公司 | 一种搜索系统中的中文分词方法 |
CN103605781A (zh) * | 2013-11-29 | 2014-02-26 | 苏州大学 | 一种隐式篇章关系类型推理方法及系统 |
CN104156349B (zh) * | 2014-03-19 | 2017-08-15 | 邓柯 | 基于统计词典模型的未登录词发现和分词系统及方法 |
CN104156349A (zh) * | 2014-03-19 | 2014-11-19 | 邓柯 | 基于统计词典模型的未登录词发现和分词系统及方法 |
WO2015196909A1 (zh) * | 2014-06-27 | 2015-12-30 | 北京奇虎科技有限公司 | 一种分词方法和装置 |
CN105630765A (zh) * | 2015-12-21 | 2016-06-01 | 浙江万里学院 | 地名地址识别方法 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN107918604A (zh) * | 2017-11-13 | 2018-04-17 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
CN107918604B (zh) * | 2017-11-13 | 2021-06-25 | 彩讯科技股份有限公司 | 一种中文的分词方法及装置 |
CN108052508A (zh) * | 2017-12-29 | 2018-05-18 | 北京嘉和美康信息技术有限公司 | 一种信息抽取方法及装置 |
CN108052508B (zh) * | 2017-12-29 | 2021-11-09 | 北京嘉和海森健康科技有限公司 | 一种信息抽取方法及装置 |
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN110502737A (zh) * | 2018-05-18 | 2019-11-26 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
CN110502737B (zh) * | 2018-05-18 | 2023-02-17 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101499058A (zh) | 一种基于类型论的汉语分词方法 | |
Affolter et al. | A comparative survey of recent natural language interfaces for databases | |
CN1578954B (zh) | 计算机语言翻译扩展系统 | |
US20140039879A1 (en) | Generic system for linguistic analysis and transformation | |
CN110991180A (zh) | 一种基于关键词和Word2Vec的命令识别方法 | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
Pazos R et al. | Natural language interfaces to databases: an analysis of the state of the art | |
Shiwen et al. | Rule-based machine translation | |
Ramisch et al. | A broad evaluation of techniques for automatic acquisition of multiword expressions | |
Minock et al. | Towards building robust natural language interfaces to databases | |
Adly et al. | Evaluation of Arabic machine translation system based on the universal networking language | |
Sun et al. | Towards accurate and efficient Chinese part-of-speech tagging | |
RU2640718C1 (ru) | Верификация атрибутов информационных объектов | |
de Salvo Braz et al. | Knowledge representation for semantic entailment and question-answering | |
Lim et al. | Low cost construction of a multilingual lexicon from bilingual lists | |
Assylbekov et al. | A free/open-source hybrid morphological disambiguation tool for Kazakh | |
Sajjad | Statistical part of speech tagger for Urdu | |
Jusoh et al. | Automated translation machines: Challenges and a proposed solution | |
Paroubek | Evaluating Part-of-Speech Tagging and Parsing Patrick Paroubek: On the Evaluation of Automatic Parsing of Natural Language | |
Rudnick et al. | Lexical selection for hybrid mt with sequence labeling | |
Federici et al. | Analogy-based extraction of lexical knowledge from corpora: the SPARKLE experience. | |
Tsai et al. | Applying an NVEF Word-Pair Identifier to the Chinese Syllable-to-Word Conversion Problem | |
El Fahal et al. | Roadmap for an Arabic Controlled Language | |
Charoenporn et al. | Construction of thai lexicon from existing dictionaries and texts on the web | |
Schneider | 1 Lexical Semantic Disambiguation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20090805 |