CN101295295A - 基于线性模型的汉语词法分析方法 - Google Patents

基于线性模型的汉语词法分析方法 Download PDF

Info

Publication number
CN101295295A
CN101295295A CNA2008101149501A CN200810114950A CN101295295A CN 101295295 A CN101295295 A CN 101295295A CN A2008101149501 A CNA2008101149501 A CN A2008101149501A CN 200810114950 A CN200810114950 A CN 200810114950A CN 101295295 A CN101295295 A CN 101295295A
Authority
CN
China
Prior art keywords
speech
word
model
mark
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101149501A
Other languages
English (en)
Inventor
姜文斌
黄亮
刘群
吕雅娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CNA2008101149501A priority Critical patent/CN101295295A/zh
Publication of CN101295295A publication Critical patent/CN101295295A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于线性模型的汉语词法分析方法,包括如下步骤:1)输入汉语语句,设定分析窗口长度;2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。本发明能够显著地提高了切分和标注的精确度。

Description

基于线性模型的汉语词法分析方法
技术领域
本发明涉及统计自然语言处理技术领域,特别统计汉语分词和词性标注。
背景技术
汉语词法分析的目标有两个:分词和词性标注。分词就是将字与字之间紧密相连的汉语语句按词进行划分,从而将汉字序列转化为汉语词序列;词性标注在分词的基础上,给每个汉语词标上一个词性标记,例如动词VV、名词NN等等。对于给定的汉语语句,如何既分词又进行词性标注呢?有两种策略:一种是先进行分词,再在分词的基础上进行词性标注;另一种是在分词的过程中就考虑到词性标注。很明显,前一种策略将分词和词性标注割裂成两个独立的阶段。因此,分词阶段产生的错误不能被词性标注阶段修所正;后一种策略将分词和词性标注同时进行,两个过程的可以相互利用对方的信息,增加了模型的容错能力,从而提高了准确性。因此,现有的汉语词法分析技术多采用第二种策略。
在汉语词法分析领域,当前流行的方法是,通过用基于字特征的分类器对汉语语句的各个汉字进行分类来获得分词与标注的结果[Hwee Tou Ng andJin Kiat Low,2004,Chinese part-of-speech tagging:one-at-a-timeor all at once?Word-based or character-based?EMNLP]。利用基于字特征的分类器进行分词的优点是泛化能力强,它与基于词典的分词系统相比,拥有更好的识别新词的能力。原因是,基于词典的方法无法进行切分时,无法分出词典之外的词。换句话说,基于词典的方法只能用词典中已经有的词去拼接出输入语句。但是,现有的基于字特征分类器的分词系统的分词模型单一,且难以直接利用从语料库得来的某些统计信息(比如:某个词被标注为某个词性标记的可能性有多大?某个词性标记序列出现的可能性有多大?某个词语序列出现的可能性有多大?),因此,现有的基于字特征分类器的分词系统的切分和标注的精确度均有待提高。
发明内容
本发明的目的是克服现有技术的不足,将感知机模型和多种线性模型结合起来对语料库进行综合分析,对各模型的分析结果进行加权求和,从而提供一种能够提高切分和标注精确度的基于线性模型的汉语词法分析方法。
为实现上述发明目的,本发明提供的基于线性模型的汉语词法分析方法,如图1所示,包括如下步骤:
1)输入汉语语句,设定分析窗口长度,
2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;
3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。
上述技术方案中,所述步骤2)中,所述线性词法分析模型为词语序列语言模型、词性标记序列语言模型以及词-词性对集合的共现分数模型中的任意一个或多个加权组合。
上述技术方案中,所述步骤2)中,所述当前字的词语序列语言模型得分是在当前字的前n-1个字的分词标注结果为已知的前提下,当前字在语料库中出现某一分词标注的概率,所述n为所述分析窗口长度。
上述技术方案中,所述步骤2)中,所述当前字的词性标记序列语言模型得分是在当前字的前n-1个字的词性标注结果为已知的前提下,当前字在语料库中出现某一词性标注的概率,所述n为所述分析窗口长度。
上述技术方案中,其特征在于,所述步骤2)中,所述词-词性对集合的共现分数模型得分是以极大似然估计法在训练语料中统计得到的某一词与某一词性共现的概率。
上述技术方案中,所述步骤3)中,所述加权求和所需的加权系数通过最小错误率训练方法得到。
本发明具有如下技术效果:
本发明中,底层的基于字特征的感知机分类器使得模型具有很强的泛化能力,而高层的线性模型融合了难于直接融入感知机的非局部特征,显著的提高了切分和标注的精确度。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1本发明的词法分析流程图。
具体实施方式
本发明提供的基于线性模型的汉语词法分析方法,包括如下步骤:
1)输入汉语语句,设定分析窗口长度,
2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;
3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。
本发明的线性词法分析模型可以是词语序列语言模型、词性标记序列语言模型以及词-词性对集合的共现分数模型中的任意一个,也可以是三者的加权组合。
本发明中,分词标注和词性标注是同时完成的。
比如,分词标注可以分为以下四类:词语的开始(s)、词语的中部(m)、词语的结束(e)和单字成词(s)。通过这四类标注即可获得相应的分词结果。
举例如下:
输入汉语语句:中国的经济发展
按字分类结果:中/b  国/m  的/s  经/b  济/e  发/b  展/e
导出分词结果:中国  的  经济  发展
当然也可以采用其它的标记方式,比如b和m两个标记就可以胜任汉语分词的任务。和第一种标记方式(bmes四类的标记方式)相同,b表示词的开始。而m则既表示词的中间也表示词的结束。那么,采用b和m两类标记的一个实例是:
输入汉语语句:中国的经济发展
按字分类结果:中/b  国/m  的/b  经/b  济/m  发/b  展/m
导出分词结果:中国  的  经济  发展
如何在切分的同时进行词性标注呢?仍然可以采用分类的方法。这时,分类类别不再是b、m、e和s四类,而是将每个类别都分别接上每个词性标记作为后缀,这样就得到4*|POS|个分类:
b_NN(名词的开始)    b_VV(动词的开始)...
m_NN(名词的中部)    m_VV(动词的中部)...
在b、m、e和s的后面带有一个词性标注作为后缀。这样扩展后的类别既代表该字在词中位置信息(是开始?中间?结束?还是单字成词?),又代表该位置信息是什么类型的词中的位置信息。用这个扩展的类别集标注好各个汉字的类别之后,自然就同时获得了切分和词性标注的结果。
举例如下:
输入汉语语句:中国的经济发展
按字分类结果:中/b_NN  国/m_NN  的/s_DEC  经/b_NN  济/e_NN  发/b_VN  展/e_VN
分词标注结果:中国/NN  的/DEC  经济/NN  发展VN
实施例
下面以同时采用感知机分类器、词语序列语言模型、词性标记序列语言模型以及词-词性对集合的共现分数模型的分析方法为例,对本发明作进一步地描述。
本发明中的各模型都是在一个语料库中进行训练,语料库是一个经过词语切分和词性标注的语句的集合。词语切分和词性标注由人类专家手工完成。在这个语料库上,机器学习模型就可以学习到词语切分和词性标注的知识。当面临新的等待切分的标注的语句时,这些学习到的知识就派上用场了。
首先分别介绍本发明中的感知机分类器模型和基于线性插值模型的上层线性模型(即线性词法分析模型)。
1、感知机分类器模型
在构建分类器时,本实施例的创新点在于第一次采用改进的感知机算法进行训练,并将该模型用于词性分析。感知机算法可参考[Michael Collins,2002,Discriminative training methods for hidden markov models:Theory and experiments with perceptron algorithms,EMNLP]。这里只提一下感知机算法的基本特点。感知机算法是一种在线的训练算法,在线训练即为对训练语料进行一个句子接着一个句子的训练,每训练一个句子就对模型做相应的调整。与以往的用于汉语词法分析的隐马尔可夫模型、条件随机场模型和最大熵模型等相比,它能够显著降低内存开销。原因是隐马尔可夫模型、条件随机场模型和最大熵模型是基于成批训练的模式进行的。就是说,所有的训练语料的例子都读入内存进行训练,这显然比感知机算法需要更大的内存开销。具体的训练算法如论文[Michael Collins,2002,Discriminative training methods for hidden markov models:Theory andexperiments with perceptron algorithms,EMNLP]所述。
以在线训练模式运行的感知机算法训练得来的分类器,具有很高的分词性能。在自然语言处理领域最著名的汉语处理兴趣小组SIGHAN所能提供的最新公开数据集SIGHAN bakeoff 2上,本实施例中基于感知机算法的分类器在三个子数据集上超越了SIGHAN公布的最好结果。这三个数据子集是:Academia Sinica Corpus,Hong Kong City University Corpus和MicrosoftResearch Corpus。我们的分类器的F值是0.954,0.958和0.975。相应的SIGHAN公布的最好成绩分别是:0.952,0.943和0.964。由于SIGHANbakeoff2没有提高分词和标注同时做的评比,这里的F值是我们分类器的分词F值,而非联合分词加标注的F值。
F值是学界通用的分词精度度量指标。假设待分词语句的分词结果为M个词,有n个词在标准答案中出现了,而标准答案有N个词,那么,
准确率P=n/M,是说切分得到的M个词语中,有n个是正确的
召回率R=n/N,是说切分结果只找到了标准答案N个词语中的n个词显然,一个好的分词结果,必须使得准确率和召回率都很高。那么F值就同时衡量这两个指标:F=2PR/(P+R)
具体地说,感知机算法旨在习得从输入x∈X到输出y∈Y的判别式映射模型。这里,X是训练语料的语句集合,而Y是对应的标记序列集合。仿照Collins,本实施例中定义:函数GEN(x)生成输入x的所有候选标记序列,函数Ф映射每一个训练实例(x,y)∈X×Y到其特征向量空间Ф(x,y)∈Rd,参数向量 α → ∈ R d 为对应于特征向量的权重。d指特征空间的维数,即为模型中所用特征的数目。给定输入字符序列x,本实施例中的搜索目标是满足如下等式的输出F(x):
F ( x ) = arg ma x y ∈ GEN ( x ) Φ ( x , y ) · α →
这个公式当中,argmax指的是要找出使得后面的乘积项最大的那个y。在后面的这个乘积项中,Ф(x,y)就是所说的用来判断一个字符应该被分为哪一类的上下文信息。它是一个特征的集合,每一个特征都是对这个字符所在上下文的一种描述。所有的这些特征构成的集合Ф(x,y),就描述了这个字符所在的环境。α是一个权重向量,它的维数等于Ф(x,y)的维数,每一项的意义就是,在Ф(x,y)中对应于此项的那个特征的权重。Argmax后面的这个乘积就是感知机分类器给出的分数,分数是什么意思呢,就是感知机分类器,对将这个字符标为特定类别的支持程度,分数越高,表明分类器越支持这种的分类。
另外,公式中代表特征向量Ф(x,y)和权重参数向量
Figure A20081011495000084
的内积。训练过程就是调节权重向量的过程。
2、基于线性插值模型的上层线性模型
基于线性插值模型的上层线性模型即前文中所述的线性词法分析模型,在只有基于感知机算法的分类器的时候,要找到得分最高的分类类别序列。假设对于某给定语句S,用|S|表示句子的长度即包含的汉字数目。它的所有可能的类别序列集合是Q,这里的类别,是指扩展后的类别标记,如b_NN,b_VV等。因为,得到了这样的类别标记,就相应地得到了这个语句的切分和词性标注的结果。要找到分类器评价值最高的类别标注序列q,即满足Score(q)最大。Score(.)为分类器对类别序列的评分函数。q是长度为|s|的序列,Score(.)实质上是分类器对序列q的各个元素qi的评分的累加。
可见,如果只用基于感知机算法训练的分类器进行分类的话,从Q中挑选最佳类别序列q时只有一个衡量指标即Score(.)。本发明消除了这一局限性,引入了更多的衡量指标如:词语言模型(或称为词语序列语言模型)的值WLM(.)、词性标注语言模型(或称为词性标记序列语言模型)的值PLM(.)以及词-词性标注对集合的共现值CO(.),即词-词性对集合的共现分数模型的得分。由于每一个类别序列q都唯一确定一个切分和标注方案,可以方便的从q导出其词语序列、词性标注序列以及词-词性对集合:
假设q=中/b_NN  国/m_NN  的/s_DEC  经/b_NN  济/e_NN  发/b_VN  展/e_VN
那么,词语序列WordSeq(q)=中国  的  经济  发展
词性标注序列POSSeq(q)=NN  DEC  NN  VN
词-词性对集合WPSet(q)={中国-NN  的-DEC  经济-NN  发展-VN}
于是,对应于q,相应的有词语序列的语言模型分数WLM(WordSeq(q))、词性标记序列的语言模型分数PLM(POSSeq(q))以及词-词性对集合的共现分数CO(WPSet(q))。其中,词语序列的语言模型和词性标注序列的语言模型是第一次被使用的汉语词法中,实验证明,它们对于提高分词和词性标注的性能是有帮助的,实验将在稍后介绍。无论词语言模型还是词性标记语言模型,都遵循相同的语言模型计算方法,论文[Stolcke and Andreas,2002,Srilm-an extensible language modeling toolkit.EMNLP]有详细的描述。这里介绍一下词-词性标注对集合的共现分数CO(.)。
定义CWP为一个词-词性标记对中的词被标记为该词性标记的概率,举例:CWP(中国-NN)=log(count(中国-NN)/count(中国)),即为词-词性标记对“中国-NN”在语料库中的出现频次除以词“中国”的出现频次再取对数。
相应的,定义CPW为一个词-词性标记对中的词性标记是该词的标记的概率。
举例,对于CPW(中国-NN)=log(count(中国-NN)/count(NN)),求得了词-词性对集合中每个词-词性标记对的CWP和CPW后,可以以如下公式计算CO(.):
CO({中国-NN  的-DEC  经济-NN  发展-VN})
=rwp*CWP({中国-NN  的-DEC  经济-NN  发展-VN})
+rpw*CPW({中国-NN  的-DEC  经济-NN  发展-VN})
为方便表述,用CWP({中国-NN  的-DEC  经济-NN  发展-VN})表示和式CWP(中国-NN)+CWP(的-DEC)+CWP(经济-NN)+CWP(发展-VN),用CPW({中国-NN  的-DEC  经济-NN  发展-VN})表示和式CPW(中国-NN)+CPW(的-DEC)+CPW(经济-NN)+CPW(发展-VN)。
其中rwp和rpw是两个和式的系数,衡量CWP项和CPW项的重要程度。这两个系数如何确定,将在稍后介绍。
现在,对于任何一个类别序列q,有其词语序列语言模型分数WLM(WordSeq(q)),词性标注语言模型的分数PLM(POSSeq(q))以及词-词性标注对集合的共现分数CO(WPSet(q)),再加上原有的分类其给出的分数Score(q),用如下公式把它们整合成一个新的分数作为衡量q好坏的指标:
NewScore(q)=rper*Score(q)
            +rwlm*WLM(WordSeq(q))
            +rplm*PLM(POSSeq(q))
            +CO(WPSet(q))
将最后一项展开,即还原为rwp*CWP(WPSet(q))+rpw*CPW(WPSet(q))的形式,得到:
NewScore(q)=rper*Score(q)
            +rwlm*WLM(WordSeq(q))
            +rplm*PLM(POSSeq(q))
            +rwp*CWP(WPSet(q))
            +rpw*CPW(WPSet(q))
该和式涉及5个系数:rper、rwlm、rplm、rwp和rpw,它们衡量了各个加项分数的相对重要程度。这几个系数由最小错误率训练确定。最小错误率训练是广泛应用与自然语言处理机器翻译领域的技术,具体描述于论文[FranzJoseph Och,2003,Minimum error rate training in statistical machinetranslation,Computational Linguistics]。
下面详细描述本实施例中各线性词法分析模型得分的计算方法。
各线性词法分析模型得分本质上都是分词标注或词性标注在语料库中出现的概率,它是统计机器翻译中衡量译文流利度的重要指标。形式上,一个n元语法词语言模型以如下乘积近似词语序列W=w1:m的语言模型概率:
P wlm ( W ) = Π i = 1 m Pr ( w i | w max ( 0 , i - n + 1 ) : i - 1 )
这个公式中,w代表中文词,wi代表第i个中文词。例如,“我是一个学生”中,w1=我,w2=是。Max是十分常用的数学函数,max指的是两个数中较大的那个,例如max(10,100)的值为100。那么,wi:j代表的意思是从第i个词语到第j个词语组成的词语序列,例如w2:4=“是 一个 学生”。
须注意的是,在程序中,为了处理的方便,本实施例在每一个句子前面都加上一个首标记,在每个句子后面都加上一个尾标记。比如,首标记为<s>,尾标记为</s>。那么,对于一个给定的句子“中国的经济发展”,带有首尾标记的形式是:
<s>中国的经济发展</s>,
分词后的结果表示为:<s>中国  的  经济  发展</s>
那么,w0=<s>,w1=中国
可以看出,本实施例中,计算当前字在词语言模型中的得分时,需要利用到当前字的前n-1个字的分词标注结果。当前字在词语言模型中的得分就是在当前字的前n-1个字的分词标注结果为已知的前提下,当前字在语料库中出现某一分词标注的概率。
类似地,词性标记序列T=t1:m的n元语法词性标注语言模型定义为:
P tlm ( T ) = &Pi; i = 1 m Pr ( t i | t max ( 0 , i - n + 1 : i - 1 ) )
这个公式中,t代表词性标注,ti代表第i个词性标注。例如,“NN VV MMNN”中,t1=NN,t2=VV。Max是十分常用的数学函数,max指的是两个数中较大的那个,例如max(10,100)的值为100。那么,ti:j代表的意思是从第i个词性标注到第j个词性标注组成的词性标注序列,例如t2:4=“VV MMNN”。
可以看出,本实施例中,计算当前字在词性标注语言模型中的得分时,需要利用到当前字的前n-1个字的词性标注结果。当前字在词性标注语言模型中的得分就是在当前字的前n-1个字的词性标注结果为已知的前提下,当前字在语料库中出现某一词性标注的概率。
注意到二元语法的词性标记语言模型,其功能类似于隐马尔可夫模型中状态转移概率的乘积。
给定带有词性标注的训练实例集,可训练得到一个词-词性共现模型,以近似一特定词语序列与一词性标注序列共现的概率。用W=w1:m代表词语序列,T=t1:m代表对应的词性标注序列,P(T|W)代表W被标注为T的概率,P(W|T)代表T生成W的概率(此处借鉴隐马尔可夫模型中的说法),词-词性共现模型定义如下:
Co ( W , T ) = P ( T | W ) &lambda; wt &times; P ( W | T ) &lambda; tw
其中,λwt和λtw分别代表两个乘项对应的权重。
假设Pr(t|w)描述词w标注为词性标注t的概率,Pr(w|t)描述词性标注t生成词w的概率,共现概率的乘积项之一P(T|W)可以被近似为:
P ( T | W ) = &Pi; k = 1 m Pr ( t k | w k )
P(W|T)可被近似为:
P ( W | T ) = &Pi; k = 1 m Pr ( w k | t k )
Pr(t|w)和Pr(w|t)可以方便地通过极大似然估计法在训练语料中统计得到。例如,假设词w在训练语料中出现了N次,其中有n词被标记为词性标注t,那么条件概率Pr(t|w)可用如下公式估计:
Pr ( t | w ) = n N
条件概率Pr(w|t)也可用类似的方式得到。
在得到各模型的得分后,需要进行加权求和。本实施例中,感知机的权重:1.0;词语语言模型的权重:0.11;词性标注语言模型的权重:2.5;词与词性标注对应的权重:0.828。
下面进一步描述本发明的一个实施例中的词法分析解码过程以及实验数据。
本发明的词性分析系统具有两层的体系结构:一个感知机分类器作为核心,一个与统计机器翻译中相同的线性模型作为外层。在级联线性模型中,不把所有可用特征直接整合入单一的感知机,而采用分层训练的策略。首先,使用基于字的局部特征训练一个感知机子模型,使用词或词性标记元组特征训练另外几个实值子模型。然后,以这些子模型的输出作为输入,训练得到外层的线性模型。由于在训练外层线性模型的过程中感知机模型固定不变,整个训练过程只需要较少的时间和空间需求。
序列切分和标注问题可以通过viterbi方式的解码过程解决。对于汉语的联合切分标注,解码器的任务是寻找具有最高得分的边界-词性标注序列。给定汉语字符序列C1:n,解码器将以自左至右的动态规划方式进行解码。通过在字符序列的每一位置i维护一个大小为N的堆栈,在解码过程中存储子序列C1:i的N个最好的候选标注结果。动态规划进行到位置i时,首先枚举区间跨度为l=1..min(i,K)(K为最大可能词长,实验中取20,min(i,K)指的是i和K中较小的那个值,1..min(i,K)指的是从1到i和K较小值之间的所有的整数,例如,假设K较小,那么1..min(i,K)指的是整数序列1,2,3,...,K)而结束位置为i的子串组成的词,接着为它们标注每种可能词性标记以得到所有可能的词-词性对,最后将每个词-词性对p(长度为l)连接到其前驱位置(位置i-l)堆栈中每个候选结果的尾部,并从中挑选出N个得分最高的条目存储到位置i的堆栈中。
当从词-词性对p和其前驱位置的候选q推导出当前位置的候选时,除了感知机分类器提供的分数,还需要计算词语言模型、词性语言模型、标注模型和产生模型的分数。另外,添加词-词性对个数惩罚作为一项新的特征,用以消减语言模型的使用导致的长度选择倾向。综合地衡量各个特征,为候选间提供更精确的比较。
解码算法如下:
Figure A20081011495000131
第3-11行为每个字符位置i生成N个最优候选结果。第4行扫描长度为所有可能l=1..min(i,K)的词,中i指向当前考察字符。第6行为扩展范围长度为l且结束于位置i的词枚举所有可能词性标记。第8行枚举当前考察字符前驱位置堆栈中的所有候选。函数D用于从词-词性对p和其前驱位置的候选q推导出当前的候选。
上面是对本发明的级联线性模型原理和训练过程的具体说明。在宾州中文树库5.0版数据集上的实验结果表明,在分词性能上,该分词系统于单纯的基于感知机算法的分类器相比,精确度从0.973提升到0.978,而在联合分词与词性标注的性能上,精确度从0.925提升到0.934,相应的错误率相对于单纯使用感知机分类器的基线模型分别降低了18.5%和12%。
最后所应说明的是,以上仅用以说明本发明理论原理和技术方案而非限制。本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种提供的基于线性模型的汉语词法分析方法,包括如下步骤:
1)输入汉语语句,设定分析窗口长度,
2)对语句进行逐字分析,对语句中的每一个字,将该字时间窗口内的字或字元组输入感知机分类器,得出当前字标注为某一分词标注和词性标注的感知机模型得分;同时,将该字时间窗口内的字或字元组输入线性词法分析模型,得出当前字标注为某一分词标注和词性标注的线性词法分析模型得分;
3)感知机模型得分和线性词法分析模型得分加权求和得出综合分析得分,将综合分析得分最高的分词标注和词性标注做为当前字的分词标注和词性标注;当所有字的分词标注和词性标注均标注完成时,所述汉语语句的词法分析完毕。
2.根据权利要求1所述的汉语词法分析方法,其特征在于,所述步骤2)中,所述线性词法分析模型为词语序列语言模型、词性标记序列语言模型以及词-词性对集合的共现分数模型中的任意一个或多个加权组合。
3.根据权利要求2所述的汉语词法分析方法,其特征在于,所述步骤2)中,所述当前字的词语序列语言模型得分是在当前字的前n-1个字的分词标注结果为已知的前提下,当前字在语料库中出现某一分词标注的概率,所述n为所述分析窗口长度。
4.根据权利要求2所述的汉语词法分析方法,其特征在于,所述步骤2)中,所述当前字的词性标记序列语言模型得分是在当前字的前n-1个字的词性标注结果为已知的前提下,当前字在语料库中出现某一词性标注的概率,所述n为所述分析窗口长度。
5.根据权利要求2所述的汉语词法分析方法,其特征在于,所述步骤2)中,所述词-词性对集合的共现分数模型得分是以极大似然估计法在训练语料中统计得到的某一词与某一词性共现的概率。
6.根据权利要求1所述的汉语词法分析方法,其特征在于,所述步骤3)中,所述加权求和所需的加权系数通过最小错误率训练方法得到。
CNA2008101149501A 2008-06-13 2008-06-13 基于线性模型的汉语词法分析方法 Pending CN101295295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008101149501A CN101295295A (zh) 2008-06-13 2008-06-13 基于线性模型的汉语词法分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008101149501A CN101295295A (zh) 2008-06-13 2008-06-13 基于线性模型的汉语词法分析方法

Publications (1)

Publication Number Publication Date
CN101295295A true CN101295295A (zh) 2008-10-29

Family

ID=40065587

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101149501A Pending CN101295295A (zh) 2008-06-13 2008-06-13 基于线性模型的汉语词法分析方法

Country Status (1)

Country Link
CN (1) CN101295295A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN103617227A (zh) * 2013-11-25 2014-03-05 福建工程学院 一种基于模糊神经网络的句子匹配程度计算及对齐方法
CN102043791B (zh) * 2009-10-10 2014-04-30 深圳市世纪光速信息技术有限公司 分词评价方法及装置
CN103902525A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词性标注方法
CN104200202A (zh) * 2014-08-30 2014-12-10 电子科技大学 一种基于累加感知机的人体上半身检测方法
CN103473221B (zh) * 2013-09-16 2016-11-30 于江德 汉语词法分析方法
CN106484670A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种中文分词纠错方法、离线训练装置及在线处理装置
CN106778887A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 基于条件随机场确定句子标记序列的终端及方法
CN103902521B (zh) * 2012-12-24 2017-07-11 高德软件有限公司 一种中文语句识别方法和装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及系统
CN108780445A (zh) * 2016-03-16 2018-11-09 马鲁巴公司 用于对小数据的机器理解的并行分层模型
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110750989A (zh) * 2019-10-28 2020-02-04 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043791B (zh) * 2009-10-10 2014-04-30 深圳市世纪光速信息技术有限公司 分词评价方法及装置
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN102999483A (zh) * 2011-09-16 2013-03-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN102999483B (zh) * 2011-09-16 2016-04-27 北京百度网讯科技有限公司 一种文本矫正的方法和装置
CN103902521B (zh) * 2012-12-24 2017-07-11 高德软件有限公司 一种中文语句识别方法和装置
CN103902525A (zh) * 2012-12-28 2014-07-02 新疆电力信息通信有限责任公司 维吾尔语词性标注方法
CN103902525B (zh) * 2012-12-28 2016-09-21 国网新疆电力公司信息通信公司 维吾尔语词性标注方法
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN103473221B (zh) * 2013-09-16 2016-11-30 于江德 汉语词法分析方法
CN103617227A (zh) * 2013-11-25 2014-03-05 福建工程学院 一种基于模糊神经网络的句子匹配程度计算及对齐方法
CN104200202B (zh) * 2014-08-30 2017-07-11 电子科技大学 一种基于累加感知机的人体上半身检测方法
CN104200202A (zh) * 2014-08-30 2014-12-10 电子科技大学 一种基于累加感知机的人体上半身检测方法
CN106484670A (zh) * 2015-08-25 2017-03-08 北京中搜网络技术股份有限公司 一种中文分词纠错方法、离线训练装置及在线处理装置
CN106484670B (zh) * 2015-08-25 2018-12-25 北京中搜云商网络技术有限公司 一种中文分词纠错方法、离线训练装置及在线处理装置
CN108780445A (zh) * 2016-03-16 2018-11-09 马鲁巴公司 用于对小数据的机器理解的并行分层模型
US11507834B2 (en) 2016-03-16 2022-11-22 Microsoft Technology Licensing, Llc Parallel-hierarchical model for machine comprehension on small data
CN106778887B (zh) * 2016-12-27 2020-05-19 瑞安市辉煌网络科技有限公司 基于条件随机场确定句子标记序列的终端及方法
CN106778887A (zh) * 2016-12-27 2017-05-31 努比亚技术有限公司 基于条件随机场确定句子标记序列的终端及方法
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108509419A (zh) * 2018-03-21 2018-09-07 山东中医药大学 中医药古籍文献分词和词性标引方法及系统
CN109062887A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种基于平均感知器算法的词性标注方法
CN108920455A (zh) * 2018-06-13 2018-11-30 北京信息科技大学 一种汉语自动生成文本的自动评价方法
CN111353308A (zh) * 2018-12-20 2020-06-30 北京深知无限人工智能研究院有限公司 命名实体识别方法、装置、服务器及存储介质
CN110377899A (zh) * 2019-05-30 2019-10-25 北京达佳互联信息技术有限公司 一种确定词语词性的方法、装置及电子设备
CN110750989A (zh) * 2019-10-28 2020-02-04 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN110750989B (zh) * 2019-10-28 2023-09-19 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置

Similar Documents

Publication Publication Date Title
CN101295295A (zh) 基于线性模型的汉语词法分析方法
CN113792818B (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
Melamud et al. context2vec: Learning generic context embedding with bidirectional lstm
Yu et al. Resume information extraction with cascaded hybrid model
Rodríguez-Serrano et al. Handwritten word-spotting using hidden Markov models and universal vocabularies
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
US7257565B2 (en) Linguistic disambiguation system and method using string-based pattern training learn to resolve ambiguity sites
Zhou et al. Chinese named entity recognition via joint identification and categorization
CN111931490B (zh) 文本纠错方法、装置及存储介质
CN113887215A (zh) 文本相似度计算方法、装置、电子设备及存储介质
CN114254653A (zh) 一种科技项目文本语义抽取与表示分析方法
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
Pacheco et al. Random Forest with Increased Generalization: A Universal Background Approach for Authorship Verification.
Loharja et al. Negation cues detection using CRF on Spanish product review texts
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN109189907A (zh) 一种基于语义匹配的检索方法及装置
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
Stent et al. Interaction between dialog structure and coreference resolution
CN118113810A (zh) 一种结合专利图像和文本语义的专利检索系统
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
Kongwan et al. anaphora resolution in Thai EDU segmentation
KasthuriArachchi et al. Deep learning approach to detect plagiarism in sinhala text
CN116070620A (zh) 一种基于大数据的信息处理方法及系统
Yang et al. Feature analysis on English word difficulty by Gaussian Mixture Model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20081029