CN101539907B - 词性标注模型训练装置、词性标注系统及其方法 - Google Patents

词性标注模型训练装置、词性标注系统及其方法 Download PDF

Info

Publication number
CN101539907B
CN101539907B CN 200810085463 CN200810085463A CN101539907B CN 101539907 B CN101539907 B CN 101539907B CN 200810085463 CN200810085463 CN 200810085463 CN 200810085463 A CN200810085463 A CN 200810085463A CN 101539907 B CN101539907 B CN 101539907B
Authority
CN
China
Prior art keywords
speech tagging
word
speech
model
confidence level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 200810085463
Other languages
English (en)
Other versions
CN101539907A (zh
Inventor
胡长建
赵凯
邱立坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC China Co Ltd
Renesas Electronics China Co Ltd
Original Assignee
NEC China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC China Co Ltd filed Critical NEC China Co Ltd
Priority to CN 200810085463 priority Critical patent/CN101539907B/zh
Publication of CN101539907A publication Critical patent/CN101539907A/zh
Application granted granted Critical
Publication of CN101539907B publication Critical patent/CN101539907B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种词性标注模型训练装置,包括:直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换单元,用于将直接成分分析的结果转换为训练数据;机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型。以及涉及一种词性标注模型训练方法。以及一种词性标注系统及其方法,系统包括:词性标注模型训练装置,用于通过对词典中的词执行直接成分分析,以训练生成词性标注模型;以及基于模型的词性标注装置,用于利用词性标注模型对未登录词进行词性标注。根据本发明的系统,可以根据现有的文本信息,对未登录词的词性进行准确标注,提高了文本信息处理的效率。

Description

词性标注模型训练装置、词性标注系统及其方法
技术领域
本发明涉及文本信息处理领域,具体地,涉及一种词性标注模型训练装置及其方法,一种词性标注系统及其方法。
背景技术
随着互联网的广泛普及以及社会的日益信息化,文本信息越来越多,对应的文本信息处理的社会需求越来越大,人们越来越强烈地希望用自然语言同计算机交流,并希望用自动化的手段处理海量的文本信息。为了更好地处理文本信息,人们需要积累大量的语言数据资源,其中包括词典。作为处理文本的重要工具-词典,往往是由人工编纂的,词典的主要组成包括词及其属性,目前开发的未登录词(文本中很多词不在现有词典中,这些词相对于现有词典称为未登录词)识别算法能够有效地从语境中提取未登录词,当对未登录词的属性标注还是一个相对新的研究课题。如果能够依据现存的文本信息,对未登录词属性进行准确标注,那么该技术将有助于实现词典的自动编纂,也毕竟促进文本信息处理的发展。
在分词技术中,对于未登录词的切分错误极大地影响到整体分词的召回率,进一步会影响到后续语法以及语义理解的准确度,给信息处理造成一定的困难。因此对未登录词的识别和对其的属性自动标注成为两个待解决的问题。本发明关注后者即对未登录词的属性自动标注,并主要针对未登录词的词性自动标注为研究对象。
未登录词词性自动标注的必要性:
1)字典构造时需要对未登录词标注词性。这项工作可以人为,但是采用机器自动标注、人校正的方式可以减轻人的负担;
2)对某些在线应用是必要的。例如关键词提取(名词可以是关键词,形容词不行)。
对于上述问题,业界存在一些相关解决方案,例如:专利CN1369877中给出一个新词词类(词性)猜测的方法。该专利首先为新词中每一个字符确定一个分离概率,该概率描述在一个长度和该多字符词一样长的并且具有一定特定此类的词中可在该字符的当前位置上发现该字符的似然性。例如对于一个双字符词“AB”,该专利会为字符“A”确定出现在双字符名词中的第一字符出的第一概率,出现在双字符动词的第一字符的第二概率以及出现在双字符形容词的第一字符的第三概率。然后在词类基上组合各字符的概率以便为每种词类形成一个分离中概率,基于该总概率对一个阈值比较,把概率超过该阈值的每种词类增加为该多字符词的可能词类。
文献[Lu,X.F.Hybrid Methods for POS Guessing of ChineseUnknown Words.Proceedings of the ACL Student Research Workshop,pages 1-6]基于人工创建的规则(这些规则是分别为不同长度的多字符词,依据中文词的词法构成而创建,比如多字符词“AB”,如果A=B,且A是名词,AB是名词)来进行未登录词的词性判断。
目前的技术没有能有效地解决对未登录词的词性自动标注问题,其中专利CN1369877无法对存在字符分离概率为零的未登录词给出合理词性判断,另外该词性标注的准确度取决于选用的词典,而文献[Lu,X.F.Hybrid Methods for POS Guessing of Chinese Unknown Words.Proceedings of the ACL Student Research Workshop,pages 1-6]对应的方法Recall(20%)比较低。
发明内容
本发明主要利用现有词典以及外部媒介对未登录词进行词性标注。本发明可以自动从现有词典中抽取构词规则(构词直接成分,直接成分属性和直接成分关系),并基于构词规则构造词性标注模型,基于词性标注模型对未登录词词性进行标注,并计算对应的可信度。然后对于低可信度的词性标注,利用外部媒介抽取上下文并进行分析,对这些词性标注进行修正,最终给出准确度较高的词性标注。基于构词规则可以从本质上分析词的外在展现属性,因此本方法能够有效地提高召回率,对于长登录词也同样能够给出合理的词性标注,同时对词典的依赖性较弱,有很好的稳定性。另外由于本发明采用自动方法抽取构词规则,并采用多种特征来训练学习,因此能够实现高准确度的词性标注。
根据本发明第一方面,提出了一种词性标注模型训练装置,包括:直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换单元,用于将直接成分分析的结果转换为训练数据;机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型。
根据本发明第二方面,提出了一种词性标注模型训练方法,包括:直接成分分析步骤,对词进行直接成分分析,以获得直接成分、其属性以及位置关系;转换步骤,将直接成分分析的结果转换为训练数据;以及机器学习步骤,对转换的训练数据进行机器学习,从而生成词性标注模型。
根据本发明第三方面,提出一种词性标注系统,包括:词性标注模型训练装置,用于对词执行直接成分分析以训练生成词性标注模型;以及基于模型的词性标注装置,用于利用词性标注模型对未登录词进行词性标注。
根据本发明第四方面,提出一种词性标注方法,包括:词性标注模型训练步骤,对词执行直接成分分析以训练生成词性标注模型;以及基于模型的词性标注步骤,利用词性标注模型对未登录词进行词性标注。
根据本发明第五方面,提出一种词性标注系统,包括:基于模型的词性标注装置,用于利用词性标注模型对未登录词进行第一词性标注;以及基于可信度的词性标注装置,用于利用可信度模型获取未登录词的词性标注的可信度,并对可信度小于预定阈值的未登录词进行第二词性标注。
根据本发明第六方面,提出一种词性标注方法,包括:基于模型的词性标注步骤,利用词性标注模型对未登录词进行第一词性标注;以及基于可信度的词性标注步骤,利用可信度模型获取未登录词的词性标注的可信度,并对可信度小于预定阈值的未登录词进行第二词性标注。
本发明获得如下有益效果:
提高了未登录词词性标注的召回率,特别对长的未登录词能够给出合理的词性标注;
解决了自动从现有词典中抽取构词规则,分析较多构词特征,实现高准确度词性标注的难题;
从词典中抽取构词规律,从本质上分析词的外在语法属性,降低对特定词典的依赖,方法稳定性较好。
附图说明
图1a是示出了本发明的词性标注系统的第一实施例的示意图;
图1b是示出了本发明的词性标注方法的第一实施例的流程图;
图2a是示出了本发明的词性标注系统第二实施例的示意图;
图2b是示出了本发明的词性标注方法的第二实施例的流程图;
图3a和3b示出了词典的示意图;
图4a示出了本发明的词性标注模型训练装置的示意图;
图4b示出了本发明的词性标准模型训练方法的流程图;
图5a是示出了词典语义扩展装置的示意图;
图5b是示出了词典语义扩展方法的流程图;
图6a是示出了本发明的可信度模型生成装置的第一实施例的示意图;
图6b是示出了本发明的生成可信度模型的方法的第一实施例的流程图;
图6c是示出了本发明的可信度模型生成装置的第二实施例的示意图;
图6d是示出了本发明的生成可信度模型的方法的第二实施例的流程图;
图7a是示出了本发明的基于可信度的词性标注装置的示意图;
图7b是示出了本发明的基于可信度的词性标注方法的流程图。
具体实施方式
下面,将参考附图描述本发明的优选实施例。在附图中,相同的元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中,将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。
图1a是示出了本发明的词性标注系统的第一实施例的示意图。其中左边虚框示出了词性标注模型训练设备10,而右边虚框示出了词性标注设备20。词性标注模型训练设备10包括词典1,词典语义扩展装置2,词性标注模型训练装置3,词性标注模型4;词性标注设备20包括输入装置6,基于模型的词性标注装置7以及输出装置11。其中词典1用于存储待处理语言的基本词条,即,包括词以及词的其它相关属性;词典语义扩展装置2用于对词典的语义扩展提供支持,生成扩充词,以弥补词典收词不足的情况,扩充词可以看作是词典的一部分;词性标注模型训练装置3用于读取词典中的词条(可以包括扩充词),以进行特征提取与特征分析转化,最终通过机器学习训练生成词性标注模型4,词性标注设备20利用该词性标注模型4可以对未登录词的词性进行标注。输入装置6用于接收输入的未登录词,可以人工输入也可以通过接口从别的系统导入;基于模型的词性标注装置7用于利用标注模型训练设备生成的词性标注模型4来对输入的未登录词进行标注;输出装置11用于输出标注词性的未登录词。
图1b是示出了根据本发明第一实施例的词性标注方法的流程图。首先,在S101,输入装置6输入未登录词。在S102,利用词性标注模型训练装置3生成的词性标注模型4,基于模型的词性标注装置7对未登录词进行词性标注。之后,在S103,输出装置11输出已经标注词性的未登录词。
下面将结合图4a和4b来描述词性标注模型训练装置如何根据训练词性标注模型来标注词性。词性标注模型训练装置需要对词典中的词执行特征提取和特征分析转化。一般地,词典收录了待处理语言核心词汇,一般规模在5万以上。词典可以包括一个词语的目录,并对目录中的每一个词语都标注了相应的词性,有些还给出其他相关信息,例如词法或者语义信息,图3a示出了字典的数据结构,图3b示出了字典的词的示例。
词性标注模型训练装置可以采用任意一种机器学习模型进行词性标注模型训练。机器学习大体可以分为两类:第一为基于分类器的,比如决策树、Bayes方法、支持向量机(SVM),第二类是基于马尔可夫模型的,比如HMM(Hiden Markov model,隐马尔可夫)、MEMM(Maximum Entropy Markov Model,最大熵马尔可夫)、CRF(conditional random fields,条件随机域)。
本发明以CRF(条件随机域)模型为例,说明该词性标注模型训练装置。参考图4a以及图1a,词性标注模型训练装置包括直接成分分析单元301,用于将词典中的词以及词典语义扩展装置2的扩充词进行直接成分切分、直接成分属性以及位置关系分析;特征模板选择单元304,用于选择特征模板;CRF转换单元302,用于借助于特征模板选择单元304选择的特征模板对直接成分分析单元301的分析结果进行特征转换,CRF机器学习单元303,用于利用CRF机器学习算法对特征转换的结果进行学习,生成词性标注模型。需要注意的是,如果采用其它的机器学习方法,则该词性标注模型训练装置可以不需要使用特征模板,从而不包括特征模板选择单元304。
图4b示出了根据本发明的词性标注模型训练方法的流程图。
首先,在S306,直接成分分析单元301对词典的词(可以包括扩充词)进行直接成分分析,即进行直接成分切分、直接成分属性以及位置关系分析。
下面将解释直接成分的含义。构成一个大单位的小单位称之为大单位的成分,相应地直接构成一个大单位的小单位称为直接成分。对词典词进行直接成分分析及直接成分属性分析就是对每一个词典词都找到它的直接成分,并标注直接成分的属性。词典词本身属于词,而不是比词更小的组成成分,所以此处的直接成分切分及直接成分属性分析不同于一般意义上的词语切分和词性标注,而是对每一个由两字及两个以上的字构成的词典词都切成比它低一级的单位(直接成分切分),比如两字词,低一级的单位就是构成该两字词的单个字符(语素),而对于三字及三字以上的,则将它切分为字典中存在的词以及剩余的单个语素,比如“科学技术部”,假定字典中存在“科学”,“技术”两个词,而不存在“科学技术”,“技术部”等,那么它切分后的直接成分就是“科学/技术/部”,假定词典中存在“科学”,“技术部”,“技术”等词,那么切分后的直接成分就是“科学/技术部”(低一级的单位),而不是切分为“科学/技术/部”。因此,这里的直接成分可能是词,也可能是语素。直接成分的属性主要指的是语法属性,以词性标记的形式显示,包括所有可能的词性标记。对扩充词执行的直接成分分析、直接成分属性以及位置分析与对词典的相同。
下表给出直接成分分析单元301执行直接成分切分、属性分析、位置分析的一个示例。其中“灌渠、灌水、科学技术部”三个词的直接成分切分、属性和位置分析结果如下所示:
  直接成分   直接成分长度(字节)   直接成分属性
  灌   2   V
  渠   2   N
  灌   2   V
  水   2   N
  科学   4   N
  技术   4   N
  部   2   N
在S307,特征模板选择单元304选择执行CRF转化所需的特征模板,该特征模板是根据直接成分及其属性选择特征,然后利用现有的CRF特征模板定制得到的,特征模板选择单元304将该特征模板提供给CRF转换单元302。特征模板可以涉及待标注直接成分自身及前后若干个直接成分的若干个属性。以下是4个特征模板的示例,这4个模板涉及待标注直接成分自身及前后各一个直接成分的三种属性:
//Part-of-speech of the constituent word(直接成分的词性)
U01:%x[-1,2]//the former one constituent′s second feature(/)(″/″denotes a null feature)(前一个直接成分的第二特征(/)(″/″表示空特征)
U02:%x[0,2]//the current constituent′s second feature(a)(当前直接成分的第二特征(a))
//Length of the constituent word(直接成分词的长度)
U03:%x[1,1]//the next one constituent′s first feature(2,2)(下一个直接成分的第一特征(2,2))
//The constituent word itself(直接成分词本身)
U04:%x[0,0]//the current one constituent′s zero feature(冷)(当前一个直接成分的零特征(例如,冷)
在S308,CRF转换单元302利用选择的特征模板,将词典词的直接成分、直接成分属性、直接成分之间关系转换为特征作为CRF机器学习的输入数据。从而,CRF转换单元302获得了词典词的直接成分的相应的特征信息。
转换的输入数据示例如下(tag的格式为“词性标记位置(这里的词性指的是整个词的词性)”,例如,“B”表示起始位置,“M”表示中间位置,“E”表示结尾位置,对于中间位置,还可以设置中间的第一个位置以及中间的第n个位置):
if(T(-1,2)=′/′)tag=′N_B′
if(T(0,2)=′v′)tag=′N_B′
if(T(1,1)=′2′)tag=′N_B′
if(T(0,0)=′灌′)tag=′N_B′
if(T(-1,2)=′v′)tag=′N_E′
if(T(0,2)=′n′)tag=′N_E′
if(T(1,1)=′2′)tag=′N_E′
if(T(0,0)=′渠′)tag=′N_E′
     if(T(-1,2)=′/′)tag=′V_B′
if(T(0,2)=′v′)tag=′V_B′
if(T(1,1)=′2′)tag=′V_B′
if(T(0,0)=′灌′)tag=′V_B′
if(T(-1,2)=′v′)tag=′V_E′
if(T(0,2)=′n′)tag=′V_E′
if(T(1,1)=′2′)tag=′V_E′
if(T(0,0)=′水′)tag=′V_E′
if(T(-1,2)=′/′)tag=′N_B′
if(T(0,2)=′n′)tag=′N_B′
if(T(1,1)=′4′)tag=′N_B′
if(T(0,0)=′科学′)tag=′N_B′
if(T(-1,2)=′n′)tag=′N_M′
if(T(0,2)=′n′)tag=′N_M′
if(T(1,1)=′4)tag=′N_M′
if(T(0,0)=′技术′)tag=′N_M′
if(T(-1,2)=′n′)tag=′N_E′
if(T(0,2)=′n′)tag=′N_E′
if(T(1,1)=′2′)tag=′N_E′
if(T(0,0)=′部′)tag=′N_E′
在S309,CRF机器学习单元303接收特征信息,并通过CRF机器学习算法生成词性标注模型。
图5a是示出了词典语义扩展装置的示意图。词典语义扩展装置用于借助语义扩展来丰富现有词典的信息,构筑更加丰富的词语特征,并优化未登录词的词性标注模型的构建,以提高未登录词的词性标注准确度。该词典语义扩展装置2包括同义词扩展单元21;反义词扩展单元22以及同类词扩展单元23。
图5b是示出了词典语义扩展方法的流程图。词典语义扩展装置2对词典进行进一步的语义扩展。
在S501,同义词扩展单元21根据同义词对词典中的词进行扩展,以生成扩充词,并将这些词存放到扩充词表24中。该同义词扩展单元2首先对词典中的词进行切分,然后利用切分后的直接成分的同义词,对原词中的直接成分进行替换,以构成扩充词。例如:
词典存在词“观/看”,其中“看”的同义词有“察”,那么“观/察”可以作为同义词扩展得到的扩充词。
在S502,反义词扩展单元22根据反义词对词典中的词进行扩展,和步骤S501类似,只是使用切分成分的反义词进行替换,以生成扩充词,并存放在扩充词表24中。例如:
词典中存在“热菜”,其中“热”的反义词有“冷”,那么“冷菜”就是反义词扩展得到的扩充词。
在S503,同类词扩展单元23根据词的同类词对词典中的词进行扩展,和S501类似,只是用于替换的词是要被替换的词的同类词,并存放在扩充词表24中。其中同类可以从构词方法上去分析,也包括自定义分类的同类,例如:
1)“红苹果”到“绿苹果”是依据修饰的颜色同类上扩展
2)“千人”到“万人”是从数量修饰同类上扩展
3)“宅女”到“宅男”是从主体的性别同类上扩展
4)“房托”到“婚托”是从主体对应职业同类上扩展
5)“飘过”到“闪过”是从语义的类似上扩展
6)“美发”到“亮发”是基于形容词“美”和“亮”都能够用于使动而扩展。
最终获得的扩充词表24可以作为词典的一部分一起用于词性标注模型训练。
图2a是示出了本发明的词性标注系统的第二实施例的示意图。该词性标注系统与图1a所示的第一实施例的词性标注系统的不同在于还包括:可信度模型5;基于可信度的词性标注装置8以及词性标注融合装置9。可信度模型5存储了已计算的可信度数据模型,该模型可以由一个可信度模型生成装置生成,其中可信度指的是对“一个模型判断一个词的词性”的准确程度的估计;基于可信度的词性标注装置8用于利用可信度模型,对输入的未登录词计算可信度,并对可信度低的词进行词性标注;词性融合装置9用于对基于模型的词性标注装置7和基于可信度的词性标注装置8标注的未登录词的词性进行融合,可以采用已知的方法来融合标注的未登录词的词性。
通过采用本发明的第一实施例的词性标注系统和本发明的第二实施例的词性标注系统可以实现对未登录词的词性的准确标注,可以应用于各种文本信息处理系统,从而获得准确的词性标注。此外,虽然示出了词性标注系统包括词典语义扩展装置2,但是,很明显地,词性标注系统也可以不包括该词典语义扩展装置2。
图2b示出了根据本发明第二实施例的词性标注方法。在S201,输入装置6输入未登录词。在S202,基于模型的词性标注装置7利用词性标注模型对未登录词的词性进行标注。在S203,基于可信度的词性标注装置8利用可信度模型5获取未登录词的可信度,其中,对可信度低于预定阈值的未登录词,则可以根据未登录词的上下文对该未登录词的词性进行标注。最后,在S204,对基于模型的词性标注装置7所标注的未登录词的词性以及基于可信度的词性标注装置8所标注的未登录词的词性进行融合,从而获得标注的准确率较高的词性。
词性标注模型4是基于词语内部结构特征的词性标注模型,该模型的有效性是建立在“一个词语的语法属性由它的构成决定”的假设之上。上述假设在大部分情况是正确的,词的构成本质上决定了词语可能展示出那些语法属性,不过也存在一些特殊情况,使得仅仅使用词的结构判断词性的准确度下降,比如,一种情况,对于有些词语来说,其内部构成决定了它具有多种可能的语法属性,但在实际使用中并不一定完全展示出来,能看到的只是这多种可能的语法属性中的一部分;另一种情况下,有些词语在刚产生的时候没有表现出某些语法属性,随着使用的增多,其用法也不断发展变化,可能会表现出一些新的语法属性;还有一种情况,某种词性的词语可以通过某种手段转化成另一种词性。除此之外,任何一种机器学习方法都受到训练语料的局限,对于训练语料所无法覆盖的特征,其预测结果自然也不会很可靠。基于这些原因,仅仅使用内部结构不能达到最好的预测效果。有必要通过观察词语的实际用法来对通过内部结构判断的结果进行补充和修正。本发明采用可信度模型的目的就是为了判断通过内部结构判断的结果是否可信,对于可信度较低的结果再结合词语的实际用法(通过上下文来表示)来予以补充和修正。
下面将参考图6a-6d对如何获得可信度模型进行描述。
图6a示出了本发明的可信度模型生成装置的第一实施例。该可信度模型生成装置包括词典直接成分分析及转换单元401以及得分值计算单元402。词典直接成分分析及转换单元401用于基于词典来执行直接成分分析,即,直接成分分词,直接成分属性以及位置关系的分析,之后将获得的分析结果转化为直接成分词性-词长序列;得分值计算单元402用于根据对与序列匹配的所有词的词性进行分析计算每一个直接成分词性-词长序列的得分,并将每一个直接成分词性-词长序列和其对应得分值作为可信度模型。
图6b示出了本发明第一实施例的可信度模型生成装置生成可信度模型的方法的流程图。该种方法是先验的,直接基于词典词进行分析和统计来获得可信度模型,具体地,分析词典中所有直接成分词性-词长序列来构造可信度模型。首先,在S403,词典直接成分分析及转换单元401采集对词典进行直接成分切分和直接成分属性、位置分析后输出的内容;将输出的内容转化为直接成分词性-词长序列,比如31的一条输出为“灌渠→灌2V渠2N”,那么对应的词性序列就为“V2N2”,相应地,“灌渠”与序列“V2N2”匹配。之后,得分值计算单元402在S404,提取所有唯一的直接成分词性-词长序列,并构造一个集合,提取任意一个直接成分词性-词长序列,通过以下的步骤(1)和(2)计算对应的可信度得分值(以第K个直接成分词性-词长为例);
(1)统计词典中匹配第K个词性序列的所有词典词,并依据词的词性来分别计数
(2)提取词语数目最多的前两个词性(词的词性)按照下面的计算公式计算该词性序列的可信度得分值Ik
I k = Count ( S k | P = P j ) - Count ( S k | P = P j + 1 ) Count ( S k ) - - - ( 1.1 )
其中,SK是P1L1P2L2……PnLn的序列,这一序列是以直接成分分析输出内容为基础上转变而来,其中n是与第K个词语构成词性序列对应的任意词语Wordx的直接成分的数量,P2表示Wordx的第n个直接成分的词性,L2表示Wordx的第n个直接成分的长度;Count(SK)指的是与第K个词性序列SK匹配的词典词数量,Count(SK|P=Pj)指的是与第K个词性序列SK匹配并且标记为词性Pj的词典词的数量,Count(SK|P=Pj+1)指的是与第K个词性序列SK匹配并且标记为词性Pj+1的词典词的数量,其中Pj和Pj+1分别是符合序列SK的词典词所涉及的词性中词语数量最多的两个词性。
最后,在S405,得分值计算单元402将直接成分词性-词长以及计算出来的对应的直接成分词性-词长序列的可信度得分值作为词性标注的可信度模型并存放到可信度模型5中。
图6c示出了本发明的可信度模型生成装置的第二实施例示意图。参考图6c,该可信度模型生成装置包括测试词语集合直接成分分析及转换单元408和得分值计算单元409。
图6d是示出了本发明的生成可信度模型的方法的第二实施例流程图。该实施例中所采用的生成可信度模型的方法是后验的,在获得初步的词性标注模型之后,通过计算测试词语集合的正确率来获得词性标注的可信度模型。即,应用词性标注模型去标注给定的测试集,通过测试结果分析来生成可信度模型。
首先,采用一个给定的标注好词性的测试词语集合,其结构类似于词典1。在S410,测试词语集合直接成分分析及转换单元408对该测试词语集合的任何一个词语,进行直接成分切分和直接成分属性、位置分析,并输出,之后,将上一步骤的分析和直接成分标注结果,转化为直接成分词性-词长序列。在S411,得分值计算单元409提取所有唯一的直接成分词性-词长序列,并构造一个集合,提取任意一个直接成分词性-词长序列,通过以下步骤(1)计算其对应的可信度得分值(以第K个直接成分词性-词长为例);
(1)提取测试词语集合中与第K个词性序列匹配的所有词,逐一使用词性标注模型4进行标注,统计标注正确的词语个数和标注错误的词语个数,然后使用下面的计算公式来计算该词语构成词性序列的可信度得分值Ik
I k = Count ( S k | P r = true ) - Count ( S k | P r = false ) Count ( S k ) - - - ( 1.2 )
其中,SK是P1L1P2L2……PnLn的序列,这一序列是以直接成分分析输出内容为基础上转变而来,其中n是对应该词语构成词性序列的任意词语Wordx的直接成分的数量,P2表示Wordx的第n个直接成分的词性,L2表示Wordx的第n个直接成分的长度;Count(SK)指的是测试词语集合中与第K个词性序列SK匹配的词语数量,Count(SK|P=true)指的是测试词语集合中与第K个词语构成词性序列SK并且自动词性标注结果正确的词的数量,Count(SK|P=false)指的是测试词语集合中与第K个词语构成词性序列SK并且自动词性标注结果错误的词的数量。
最后,在S412,得分值计算单元409将直接成分词性-词长以及计算出来的对应的直接成分词性-词长序列的可信度得分值作为词性标注的可信度模型并存放到可信度模型5中。
图7a是示出了本发明的基于可信度的词性标注装置的示意图。基于可信度的词性标注装置包括可信度获取单元61,用于利用可信度模型获取未登录词的词性标注的可信度;可信度判断单元62,用于判断未登录词的词性标注的可信度是否低于预定阈值;语料搜索单元63,用于从语料中搜索包含可信度低于预定阈值的未登录词的句子;词性标注单元64,用于基于全局或局部上下文判断不确定词性的未登录词的词性,并标注。该词性标注装置还可以包括一个融合单元(未示出),在词性确定单元64采用多种方法确定未登录词的词性时对词性标注的结果进行融合。此外,基于可信度的词性标注装置可以不包括该语料搜索单元63,可以在确定低可信度的未登录词之后,由手工对未登录词的词性进行标注。
图7b是示出了根据本发明的基于可信度的词性标注方法的流程图。在S601,可信度获取单元61利用可信度模型获得未登录词的词性标注的可信度,例如,对于未登录词“灌田”由于其词性序列是V2N2,所以,可信度获取单元61从可信度模型中获得有关词性序列为V2N2的可信度得分值。在S602,可信度判断单元62判断未登录词的词性标注的可信度得分值是否低于预定阈值,如果否定,则结束,否则执行步骤S603。在S603,语料搜索单元63从语料中搜索出包含低可信度的未登录词的句子,可以使用各种方法和途径获取含有指定未登录词的语料,例如通过指定关键词获取搜索引擎返回结果,或者从一个大的文本数据库中检索含有指定未登录词的句子。在S604,词性标注单元64基于全局或局部上下文判断未登录词的词性并标注,基于全局上下文判断未登录词的词性的各种方法的实例,可以是一个,也可以是很多个。例如:不需要准备训练语料的基于规则的投票方法,需要准备训练语料的KNN分类方法。之后,如果在S604采用了多种方法来标注未登录词的词性,则在S605,将所有方法标注的结果整合为一个统一的结果。整合的方法很多,例如投票方法,用各种方法所得结果进行投票,得票最多的结果为好的结果。最后,在S606,获得词性标注的结果。
虽然基于可信度的词性标注方法采用搜索语料并基于全局或局部上下文判断未登录词的词性,但是,很明显地,也可以在确定低可信度的未登录词之后,由手工对未登录词的词性进行标注。
尽管已经参照具体实施例,对本发明进行了描述,但本发明不应当由这些实施例来限定,而应当仅由所附权利要求来限定。应当清楚,在不偏离本发明的范围和精神的前提下,本领域普通技术人员可以对实施例进行改变或修改。

Claims (24)

1.一种词性标注模型训练装置,包括:
直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系,其中直接成分分析单元将m个字构成的词切分为与所述词有关的下一级词和/或语素,以获得直接成分,其中m≥2;
转换单元,用于将直接成分分析的结果转换为训练数据;
机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型。
2.如权利要求1所述的词性标注模型训练装置,其中还包括词典语义扩展单元,用于对词典进行语义扩展,生成扩充词表,其中词典和扩充词表中的词用于直接成分分析。
3.如权利要求1所述的词性标注模型训练装置,其中转换单元通过使用特征模板执行所述转换。
4.一种词性标注模型训练方法,包括:
直接成分分析步骤,对词进行直接成分分析,以获得直接成分、其属性以及位置关系,其中直接成分分析步骤包括将m个字构成的词切分为与所述词有关的下一级词和/或语素,以获得直接成分,其中m≥2;
转换步骤,将直接成分分析的结果转换为训练数据;
机器学习步骤,对转换的训练数据进行机器学习,从而生成词性标注模型。
5.如权利要求4所述的词性标注模型训练方法,其中还包括词典语义扩展步骤,对词典进行语义扩展,生成扩充词表,其中词典和扩充词表中的词用于直接成分分析。
6.如权利要求4所述的词性标注模型训练方法,其中转换步骤包括通过使用特征模板执行所述转换的步骤。
7.一种词性标注系统,包括:
词性标注模型训练装置,用于对词执行直接成分分析以训练生成词性标注模型,其中词性标注模型训练装置包括直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系,其中直接成分分析单元用于将m个字构成的词切分为与所述词有关的下一级词和/或语素,以获得直接成分,其中m≥2;
基于模型的词性标注装置,用于利用词性标注模型对未登录词进行词性标注。
8.如权利要求7所述的词性标注系统,其中词性标注模型训练装置还包括:
转换单元,用于将直接成分分析的结果转换为训练数据;
机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型。
9.如权利要求7所述的词性标注系统,其中词性标注模型训练装置还包括词典语义扩展单元,用于对词典进行语义扩展,生成扩充词表,其中词典和扩充词表中的词用于直接成分分析。
10.如权利要求8所述的词性标注系统,其中转换单元通过使用特征模板执行所述转换。
11.一种词性标注方法,包括:
词性标注模型训练步骤,对词执行直接成分分析以训练生成词性标注模型,其中词性标注模型训练步骤包括直接成分分析步骤,对词进行直接成分分析,以获得直接成分、其属性以及位置关系,其中直接成分分析步骤包括将m个字构成的词切分为与所述词有关的下一级词和/或语素,以获得直接成分,其中m≥2;
基于模型的词性标注步骤,利用词性标注模型对未登录词进行词性标注。
12.如权利要求11所述的词性标注方法,其中词性标注模型训练步骤还包括:
转换步骤,将直接成分分析的结果转换为训练数据;
机器学习步骤,对转换的训练数据进行机器学习,从而生成词性标注模型。
13.如权利要求11所述的词性标注方法,其中词性标注模型训练步骤还包括词典语义扩展步骤,对词典进行语义扩展,生成扩充词表,其中词典和扩充词表中的词用于直接成分分析。
14.如权利要求12所述的词性标注方法,其中转换步骤包括通过使用特征模板执行所述转换的步骤。
15.一种词性标注系统,包括:
生成词性标注模型的词性标注模型训练装置,包括:
直接成分分析单元,用于对词进行直接成分分析,以获得直接成分、其属性以及位置关系,其中直接成分分析单元用于将m个字构成的词切分为与所述词有关的下一级词和/或语素,以获得直接成分,其中m≥2;
转换单元,用于将直接成分分析的结果转换为训练数据;
机器学习单元,用于对转换的训练数据进行机器学习,从而生成词性标注模型;
生成可信度模型的可信度模型生成装置,包括以下两组单元中的任意一组:
(1)转换单元,用于将测试词语集合中的每一个词转换为与所述词的所有直接成分对应的词性-词长序列;以及得分值计算单元,用于根据对与每个词性-词长序列匹配的所有词的词性的分析针对每一个词性-词长序列计算得分值,并将所有的词性-词长序列和其对应的得分值作为可信度模型;
(2)转换单元,用于将测试词语集合中的每一个词转换为与所述词的所有直接成分对应的词性-词长序列;以及得分值计算单元,用于通过测量词性标注模型应用于与词性-词长序列匹配的所有词的精度来针对每一个词性-词长序列计算得分值,并将所有的词性-词长序列和其对应的得分值作为可信度模型;
基于模型的词性标注装置,用于利用词性标注模型对未登录词进行第一词性标注;
基于可信度的词性标注装置,用于利用可信度模型获取未登录词的词性标注的可信度,并对可信度小于预定阈值的未登录词进行第二词性标注。
16.如权利要求15所述的词性标注系统,还包括:
融合装置,用于将第一词性标注结果与第二词性标注结果融合。
17.如权利要求15所述的词性标注系统,其中词性标注模型训练装置还包括词典语义扩展单元,用于对词典进行语义扩展,生成扩充词表,所述测试词语集合包括词典和扩充词表,其中词典和扩充词表中的词用于直接成分分析。
18.如权利要求15所述的词性标注系统,其中基于可信度的词性标注装置包括:
可信度获取单元,用于从可信度模型获得未登录词的词性标注的可信度;
可信度判断单元,用于判断未登录词的词性标注的可信度是否小于预定阈值;以及
词性标注单元,用于手工对可信度小于预定阈值的未登录词进行第二词性标注。
19.如权利要求15所述的词性标注系统,其中基于可信度的词性标注装置包括:
可信度获取单元,用于从可信度模型获得未登录词的词性标注的可信度;
可信度判断单元,用于判断未登录词的词性标注的可信度是否小于预定阈值;
语料搜索单元,用于搜索语料以检索出包含可信度小于预定阈值的未登录词的句子;以及
词性标注单元,用于基于句子中的上下文确定可信度小于预定阈值的未登录词的词性,以进行第二词性标注。
20.一种词性标注方法,包括:
生成词性标注模型的词性标注模型训练步骤,包括:
对词进行直接成分分析,以获得直接成分、其属性以及位置关系,其中直接成分分析步骤用于将m个字构成的词切分为与所述词有关的下一级词和/或语素,以获得直接成分,其中m≥2;
将直接成分分析的结果转换为训练数据;以及
对转换的训练数据进行机器学习,从而生成词性标注模型;
生成可信度模型的可信度模型生成步骤,包括:
将测试词语集合中的每一个词转换为与所述词的所有直接成分对应的词性-词长序列,根据对与每个词性-词长序列匹配的所有词的词性的分析针对每一个词性-词长序列计算得分值,并将所有的词性-词长序列和其对应的得分值作为可信度模型;或者
将测试词语集合中的每一个词转换为与所述词的所有直接成分对应的词性-词长序列,通过测量词性标注模型应用于与词性-词长序列匹配的所有词的精度来针对每一个词性-词长序列计算得分值,并将所有的词性-词长序列和其对应的得分值作为可信度模型;
基于模型的词性标注步骤,利用词性标注模型对未登录词进行第一词性标注;以及
基于可信度的词性标注步骤,利用可信度模型获取未登录词的词性标注的可信度,并对可信度小于预定阈值的未登录词进行第二词性标注。
21.如权利要求20所述的词性标注方法,还包括:
融合步骤,将第一词性标注结果与第二词性标注结果融合。
22.如权利要求20所述的词性标注方法,其中词性标注模型训练步骤还包括词典语义扩展步骤,对词典进行语义扩展,生成扩充词表,所述测试词语集合包括词典和扩充词表,其中词典和扩充词表中的词用于直接成分分析。
23.如权利要求20所述的词性标注方法,其中基于可信度的词性标注步骤包括:
可信度获取步骤,从可信度模型获得登录词的词性标注的可信度;
可信度判断步骤,判断未登录词的词性标注的可信度是否小于预定阈值;
词性标注步骤,手工对可信度小于预定阈值的未登录词进行第二词性标注。
24.如权利要求20所述的词性标注方法,其中基于可信度的词性标注步骤包括:
可信度获取步骤,用于从可信度模型获得未登录词的词性标注的可信度;
可信度判断步骤,判断未登录词的词性标注的可信度是否小于预定阈值;
语料搜索步骤,搜索语料以检索出包含可信度小于预定阈值的未登录词的句子;以及
词性标注步骤,基于句子中的上下文确定可信度小于预定阈值的未登录词的词性,以进行第二词性标注。
CN 200810085463 2008-03-19 2008-03-19 词性标注模型训练装置、词性标注系统及其方法 Expired - Fee Related CN101539907B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200810085463 CN101539907B (zh) 2008-03-19 2008-03-19 词性标注模型训练装置、词性标注系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200810085463 CN101539907B (zh) 2008-03-19 2008-03-19 词性标注模型训练装置、词性标注系统及其方法

Publications (2)

Publication Number Publication Date
CN101539907A CN101539907A (zh) 2009-09-23
CN101539907B true CN101539907B (zh) 2013-01-23

Family

ID=41123098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200810085463 Expired - Fee Related CN101539907B (zh) 2008-03-19 2008-03-19 词性标注模型训练装置、词性标注系统及其方法

Country Status (1)

Country Link
CN (1) CN101539907B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004560B (zh) * 2010-12-01 2013-07-24 哈尔滨工业大学 语句级汉字输入方法中的用户词识别方法与机器学习系统
WO2012081386A1 (ja) * 2010-12-17 2012-06-21 楽天株式会社 自然言語処理装置、方法、及びプログラム
JP5197774B2 (ja) * 2011-01-18 2013-05-15 株式会社東芝 学習装置、判定装置、学習方法、判定方法、学習プログラム及び判定プログラム
CN103049629B (zh) * 2011-10-17 2016-08-10 阿里巴巴集团控股有限公司 一种检测噪音数据的方法及装置
CN102662930B (zh) * 2012-04-16 2015-04-22 乐山师范学院 一种语料标注方法及装置
JP5389273B1 (ja) * 2012-06-25 2014-01-15 株式会社東芝 文脈解析装置および文脈解析方法
CN103064878B (zh) * 2012-11-19 2016-04-06 北京大学 一种快速序列标注方法
CN103902525B (zh) * 2012-12-28 2016-09-21 国网新疆电力公司信息通信公司 维吾尔语词性标注方法
CN103064962B (zh) * 2012-12-31 2016-08-24 科大讯飞股份有限公司 信息查询方法及系统
CN104346406B (zh) * 2013-08-08 2018-05-22 北大方正集团有限公司 训练语料扩充装置和训练语料扩充方法
CN103678684B (zh) * 2013-12-25 2017-05-31 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
CN104965820A (zh) * 2015-07-17 2015-10-07 苏州大学张家港工业技术研究院 一种基于异构数据库的耦合词性标注方法
CN107526724A (zh) * 2017-08-22 2017-12-29 北京百度网讯科技有限公司 用于标注语料的方法及装置
CN108268443B (zh) * 2017-12-21 2022-02-25 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108170674A (zh) * 2017-12-27 2018-06-15 东软集团股份有限公司 词性标注方法和装置、程序产品及存储介质
CN108509419B (zh) * 2018-03-21 2022-02-22 山东中医药大学 中医药古籍文献分词和词性标引方法及系统
CN109190060B (zh) * 2018-07-10 2021-05-14 天津大学 一种基于有效人机交互的服务标注质量优化方法
CN110851572A (zh) * 2018-07-27 2020-02-28 北京京东尚科信息技术有限公司 会话标注方法、装置、存储介质及电子设备
CN110874534B (zh) * 2018-08-31 2023-04-28 阿里巴巴集团控股有限公司 数据处理方法和数据处理装置
CN109344406B (zh) * 2018-09-30 2023-06-20 创新先进技术有限公司 词性标注方法、装置和电子设备
CN109543151B (zh) * 2018-10-31 2021-05-25 昆明理工大学 一种提高老挝语词性标注准确率的方法
CN110069602B (zh) * 2019-04-15 2021-11-19 网宿科技股份有限公司 语料标注方法、装置、服务器及存储介质
CN110532391B (zh) * 2019-08-30 2022-07-05 网宿科技股份有限公司 一种文本词性标注的方法及装置
CN112101016B (zh) * 2020-11-05 2021-03-23 广州云趣信息科技有限公司 分词器获得方法、装置及电子设备
CN113360346B (zh) * 2021-06-22 2023-07-11 北京百度网讯科技有限公司 用于训练模型的方法和装置
CN115221871B (zh) * 2022-06-24 2024-02-20 毕开龙 多特征融合的英文科技文献关键词提取方法
CN116501295A (zh) * 2023-06-27 2023-07-28 成都九洲电子信息系统股份有限公司 一种软件研发阶段矢量化需求分析系统及方法

Also Published As

Publication number Publication date
CN101539907A (zh) 2009-09-23

Similar Documents

Publication Publication Date Title
CN101539907B (zh) 词性标注模型训练装置、词性标注系统及其方法
CN109359293B (zh) 基于神经网络的蒙古文命名实体识别方法及其识别系统
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN107315738B (zh) 一种文本信息的创新度评估方法
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN103885938A (zh) 基于用户反馈的行业拼写错误检查方法
CN105843801A (zh) 多译本平行语料库的构建系统
CN103688254B (zh) 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备
CN112883175B (zh) 结合预训练模型及模板生成的气象服务交互方法及系统
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN110781681A (zh) 一种基于翻译模型的初等数学应用题自动求解方法及系统
CN105868187B (zh) 多译本平行语料库的构建方法
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN110888989A (zh) 一种智能学习平台及其构建方法
CN103970732B (zh) 新词译文的挖掘方法和装置
Mohnot et al. Hybrid approach for Part of Speech Tagger for Hindi language
CN112395484A (zh) 一种面向自动驾驶汽车的用户满意度评价方法
CN115757775A (zh) 基于文本蕴含的无触发词文本事件检测方法及系统
CN114595687A (zh) 基于BiLSTM的老挝语文本正则化方法
CN106681982B (zh) 英文长篇小说摘要生成方法
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130123

Termination date: 20170319

CF01 Termination of patent right due to non-payment of annual fee