CN106126501B

CN106126501B - 一种基于依存约束和知识的名词词义消歧方法和装置

Info

Publication number: CN106126501B
Application number: CN201610489707.2A
Authority: CN
Inventors: 鹿文鹏; 成金勇; 杜月寒; 孟凡擎
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2019-02-19
Anticipated expiration: 2036-06-29
Also published as: CN106126501A

Abstract

本发明公开了一种基于依存约束和知识的名词词义消歧方法和装置。方法包括：对大规模语料进行依存句法分析，收集所得的依存元组并统计其频数，构建依存知识库；对歧义名词所在句子进行依存句法分析，提取符合设定条件的16种依存元组，作为歧义名词的依存约束集合；根据语义词典，为歧义名词的各个词义，依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集；根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率；根据后验概率选择歧义名词的正确词义。利用本发明，可以充分发挥依存句法分析的作用，更准确有效地判定歧义名词的词义。

Description

一种基于依存约束和知识的名词词义消歧方法和装置

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于依存约束和知识的名词词义消歧方法和装置。

背景技术

词义消歧是指根据歧义词的上下文环境而自动判定其词义。词义消歧是自然语言处理领域的基础性任务，对机器翻译、信息检索、文本分类、自动文摘等具有直接影响。

基于知识库的词义消歧方法是目前唯一能够真正应用于大规模词义消歧任务的方法。其效果主要受到三个因素的影响：一是知识库的规模和质量，二是上下文相关词选择的准确性，三是词义相关度计算方法。现有的知识库建设方法，可以划分为自动构建和人工构建两种方式。前者通过统计学习的方法从语料库中自动获取知识，比如词共现、语言模型等；这种方法并未考虑词语的句法、词义关系，其难免受到一些近距离的噪声词的干扰。后者人工构建知识库；面对词义消歧所需知识的海量规模，显然是难以实现的。现有的词义消歧方法在为歧义词选择上下文相关词时，往往采用滑动窗口的方法；这种方法无法排除近距离的噪声词，同时会忽略远距离的相关词。这种滑动窗口的选择方法，没有考虑到歧义词词性的区别；不同的词性具有不同的特点，在为其进行相关词选择时应区别对待；现有方法显然忽视了词性的区别。现有的词义相关度计算方法，往往只是利用词典考虑词义的相关程度，而忽略了从句法或语义关系上考虑词义的相关程度。现有方法存在的这些问题，制约了词义消歧效果的提升。

面对现有基于知识库的词义消歧方法所存在的以上技术问题，本发明专利针对名词词义消歧的特点，充分挖掘依存句法分析技术的优势，实现一种基于依存约束和知识的名词词义消歧方法和装置，力求能够在一定程度上推动这些问题的解决。

发明内容

为解决现有技术存在的不足，本发明公开了一种基于依存约束和知识的名词词义消歧方法和装置，以更准确地判定歧义名词的词义。

为此，本发明提供如下技术方案：

一种基于依存约束和知识的名词词义消歧方法，包括以下步骤：

步骤一、对大规模语料进行依存句法分析，收集所得的依存元组并统计其频数，构建依存知识库；

步骤二、对歧义名词所在句子进行依存句法分析，从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组，作为歧义名词的依存约束集合；

步骤三、根据语义词典，为歧义名词的各个词义，依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集；

步骤四、根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率；

步骤五、根据步骤四的计算结果，选择后验概率最大的词义作为歧义名词的正确词义；若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义。

基于依存约束和知识的名词词义消歧方法中，所述依存元组为三元组形式，包括依存关系类型、支配词、从属词，可表示为：依存关系类型(支配词,从属词)；其中支配词包含支配词的原形和词性信息，从属词包含从属词的原形和词性信息。

进一步的，所述步骤一中，在构建依存知识库时，具体为：

步骤1-1)对大规模语料库中的各个文档，依次进行依存句法分析和词形还原处理，收集其中蕴含的依存元组，并记录各依存元组的出现频次；

步骤1-2)汇总各文档中包含的依存元组集合和频次信息，得到依存知识库。

进一步的，所述步骤二中，在提取歧义名词的依存约束集合时，具体为：

步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理，收集其中涉及歧义名词的依存元组；

步骤2-2)对收集到的依存元组进行过滤，仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组：名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj)。

步骤2-3)将过滤后所得的依存元组的集合，作为歧义名词的依存约束集合。

进一步的，所述步骤三中，在提取各个词义的词义代表词集时，具体为：

步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集；

步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集；

步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集；

步骤3-4)将上述三类词集合并，剔除词组及歧义名词自身后，作为当前词义的词义代表词集。

进一步的，所述步骤四中，在计算词义在依存约束集合中的后验概率时，具体为：

步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率，具体为：

将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r′_j并表示为：r_j(w₁,w₂)；

若歧义名词为依存约束元组中的支配词，则此后验概率由公式(1)计算；

其中，表示依存关系类型为r_j、支配词为从属词为w₂的依存元组的数量；c(r_j,*,w₂)表示依存关系类型为r_j、从属词为w₂的依存元组的数量；M表示语义词典中包含的名词词形的总数；

若歧义名词为依存约束元组中的从属词，则此后验概率由公式(2)计算；

其中，表示依存关系类型为r_j、支配词为w₁、从属词为的依存元组的数量；c(r_j,w₁,*)表示依存关系类型为r_j、支配词为w₁的依存元组的数量；M表示语义词典中包含的名词词形的总数。

步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率，具体为：

假定各个依存约束元组之间彼此条件独立，则此后验概率可由公式(3)计算；

其中，s_i表示某一词义，R表示依存约束集合，表示词义代表词集，r′_j表示某一依存约束元组，表示某一词义代表词。

一种基于依存约束和知识的名词词义消歧装置，包括：

依存知识库构建单元，用于对大规模语料进行依存句法分析，收集所得的依存元组并统计其频数，构建依存知识库；

歧义词依存约束集合提取单元，用于对歧义名词所在句子进行依存句法分析，从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组，作为歧义名词的依存约束集合；

歧义词词义代表词集提取单元，用于根据语义词典，为歧义名词的各个词义，依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集；

词义后验概率计算单元，用于根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率；

歧义词词义选择单元，用于根据词义后验概率计算单元的输出数据，选择后验概率最大的词义作为歧义名词的正确词义；若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义。

基于依存约束和知识的名词词义消歧装置中，所述依存元组为三元组形式，包括依存关系类型、支配词、从属词，可表示为：依存关系类型(支配词,从属词)；其中支配词包含支配词的原形和词性信息，从属词包含从属词的原形和词性信息。

进一步的，所述依存知识库构建单元还包括：

单文档依存处理单元，用于对大规模语料库中的各个文档，依次进行依存句法分析和词形还原处理，收集其中蕴含的依存元组，并记录各依存元组的出现频次；

依存知识归并单元，用于汇总各文档中包含的依存元组集合和频次信息，得到依存知识库；

进一步的，所述歧义词依存约束集合提取单元还包括：

歧义句依存处理单元，用于对歧义名词所在的句子进行依存句法分析和词形还原处理，收集其中涉及歧义名词的依存元组；

依存元组过滤单元，用于对收集到的依存元组进行过滤，仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组：名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj)；

依存约束集合收集单元，用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合；

进一步的，所述歧义词词义代表词集提取单元还包括：

同义代表词提取单元，用于根据WordNet的Synonyms关系获得当前词义的同义词集；

反义代表词提取单元，用于根据WordNet的Antonym关系获得当前词义的反义词集；

上位代表词提取单元，用于根据WordNet的Hypernym关系获得当前词义的上位词集；

词义代表词归并单元，用于将同义词集、反义词集、上位词集合并，剔除词组及歧义名词自身后，作为当前词义的词义代表词集；

进一步的，所述词义后验概率计算单元还包括：

词义代表词后验概率计算单元，用于计算特定词义代表词在特定依存约束条件下的后验概率；

词义在依存约束集合条件下的后验概率计算单元，用于计算特定词义在依存约束集合条件下的后验概率。

本发明的有益效果：

1、本发明利用依存句法分析技术完成依存知识库的构建，考虑了词语之间的句法、语义关系，所构建的依存知识库具有较高质量。

2、针对名词的特点，本发明优选了16种类型的语义关系密切的依存元组，构建其依存约束集合，可减少其它无关元组的干扰，使其上下文相关词的选择更为准确。

3、针对名词的特点，本发明优选同义词集、反义词集、上位词集作为相应词义的词义代表词集，能够较为准确地评估词义在上下文环境的适合程度。

4、本发明提出的词义在依存约束集合的后验概率的计算方法，考虑了句法、语义关系，能够更为全面准确地评估词义与上下文环境的匹配程度。

5、本发明提出的基于依存约束和知识的名词词义消歧方法和装置，能够自动完成依存知识库的构建，准确地选择依存约束元组，并计算词义的后验概率，具有较高的消歧正确率，改善名词的词义消歧效果。

附图说明

图1为根据本发明实施方式基于依存约束和知识的名词词义消歧方法的流程图；

图2为根据本发明实施方式基于依存约束和知识的名词词义消歧装置的结构示意图；

图3为根据本发明实施方式依存知识库构建单元的结构示意图；

图4为根据本发明实施方式歧义词依存约束集合提取单元的结构示意图；

图5为根据本发明实施方式歧义词词义代表词集提取单元的结构示意图；

图6为根据本发明实施方式词义后验概率计算单元的结构示意图。

具体实施方式：

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对发明实施例作进一步的详细说明。

以对句子“The principal cause of homelessness is to be found in thelarge numbers of mentally ill people.”中的歧义名词cause进行消歧处理为例。

根据WordNet 3.0，名词cause的词义信息如表1所示。

表1

其中，#n代表词性为名词，#1～#5代表五个不同的词义编号。

本发明实施例基于依存约束和知识的名词词义消歧方法的流程图，如图1所示，包括以下步骤。

步骤101，构建依存知识库。

对大规模语料进行依存句法分析，收集所得的依存元组并统计其频数，构建依存知识库，具体为：

本发明实施例中，使用Reuter Corpus作为语料库，其中包含了路透社人工收集整理的80余万篇新闻文档；依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器，使用englishPCFG.ser.gz语言模型，并允许对依存关系进行折叠和传递处理；借助WordNet 3.0进行词形还原。

首先根据步骤1-1)逐篇对Reuter Corpus中的新闻文档进行依存句法分析和词形还原处理，收集形如“relation(w₁,w₂)”的依存元组，并记录它们的出现频次。(本发明专利具体实施方式中所述依存元组“relation(w₁,w₂)”中的支配词w₁和从属词w₂均包括其原形和词性信息)。

然后根据步骤1-2)将各新闻文档包含的依存元组集合和频次信息合并，得到依存知识库。最终得到的依存知识库中共包含不同类型的依存元组13417302个，其出现频次总和为93850841个。

步骤102，提取歧义名词的依存约束集合。

对歧义名词所在句子进行依存句法分析，从中提取16种类型的依存元组，作为歧义名词的依存约束集合，具体为：

步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理，收集其中涉及歧义名词的依存元组。

本发明实施例中，依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器，使用englishPCFG.ser.gz语言模型，并允许对依存关系进行折叠和传递处理；借助WordNet3.0进行词形还原。

对句子“The principal cause of homelessness is to be found in thelarge numbers of mentally ill people.”进行依存句法分析和词形还原处理后，得到的依存元组集合包含如下元组：det(cause,the)、amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)、aux(find,to)、auxpass(find,be)、xcomp(be,find)、prep(find,number)、det(number,the)、amod(number,large)、advmod(ill,mentally)、amod(people,ill)、prep(number,people)。

从上述依存元组集合中收集涉及到歧义名词cause的元组，得到的依存元组集合包含如下元组：det(cause,the)、amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。

本发明实施例中，对步骤2-1)所得到的依存元组集合进行过滤，仅保留支配词及从属词均为实词并且依存关系为16种设定类型的元组，过滤后的依存元组集合包含如下元组：amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。

本发明实施例中，将步骤2-2)所得到的依存元组集合，作为歧义名词的依存约束集合。可得依存约束集合包含如下元组：amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。

需要说明的是，在本发明实施例中，依存元组中的支配词和从属词均包括原形和词性信息。对于依存约束集合中所涉及的词语，cause即指名词cause、principal即指形容词principal、be即指动词be、find即指动词find、homelessness即指名词homelessness。

步骤103，提取歧义名词的词义代表词集。

根据语义词典WordNet 3.0，为歧义名词的各个词义，依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集，具体为：

步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集；

步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集；

步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集；

在本发明实施例中，对于歧义名词cause的各个词义的处理的说明，以cause#n#1为例。

对于词义cause#n#1，由步骤3-1)可得其同义词集为{cause}；由步骤3-2)可得其反义词集为空集；由步骤3-3)可得其上位词集为{origin,origination,inception}；由步骤3-4)，将前述三类词集合并，并剔除词组及cause自身后，可得词义cause#n#1的词义代表词集为{origin,origination,inception}。

同理，对于词义cause#n#2，由步骤3-1)至步骤3-4)，可得其词义代表词集为{reason,grounds,justification}。

同理，对于词义cause#n#3，由步骤3-1)至步骤3-4)，可得其词义代表词集为{campaign,crusade,drive,movement,effort,venture}。

同理，对于词义cause#n#4，由步骤3-1)至步骤3-4)，可得其词义代表词集为空集。

同理，对于词义cause#n#5，由步骤3-1)至步骤3-4)，可得其词义代表词集为{lawsuit,suit,case,causa,proceeding,proceedings}。

步骤104，计算歧义名词的各个词义后验概率。

根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率，具体为：

在本发明实施例中，因WordNet 3.0中名词词形总数为117097，故公式(1)和(2)中的M值均设为117097。

以词义cause#n#1为例，说明步骤4-1)至步骤4-3)的具体操作过程。

由步骤102已得，依存约束集合R包含如下元组：amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。

由步骤103已得，词义cause#n#1(记作s₁)的词义代表词集为{origin,origination,inception}。

由步骤4-1)依次计算中的各个词义代表词在依存约束集合R中各依存约束条件下的后验概率，过程如下：

因cause为依存约束元组amod(cause,principal)的支配词，故词义代表词origin在该依存约束元组中的后验概率可由公式(1)计算；根据步骤101统计而得的依存知识库，可得c(amod,origin,principal)的值为4，c(amod,*,principal)的值为3853；故可得：

因cause为依存约束元组nsubj(be,cause)的从属词，故词义代表词origin在该依存约束元组中的后验概率可由公式(2)计算；根据步骤101统计而得的依存知识库，可得c(nsubj,be,origin)的值为30，c(nsubj,be,*)的值为465224；故可得：

同理，可得：

P(origin|xsubj,find)＝8.28040772727649E-6

P(origin|prep,homelessness)＝8.538105565137207E-6

P(origination|amod,principal)＝8.267879288962381E-6

P(origination|nsubj,be)＝1.7172659066047765E-6

P(origination|xsubj,find)＝8.28040772727649E-6

P(origination|prep,homelessness)＝8.538105565137207E-6

P(inception|amod,principal)＝8.267879288962381E-6

P(inception|nsubj,be)＝1.7172659066047765E-6

P(inception|xsubj,find)＝8.28040772727649E-6

P(inception|prep,homelessness)＝8.538105565137207E-6

由步骤4-2)计算词义cause#n#1在依存约束集合条件下的后验概率，过程如下：

已知依存约束集合R中所包含的依存约束元组分别为：amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)；词义cause#n#1的W_s1为{origin,origination,inception}。

首先，对于词义cause#n#1的各个词义代表词分别计算其

对于词义代表词origin，代入步骤4-1)的计算结果，可得：

对于其他词义代表词，同理可得：

然后，根据公式(3)，从中选一个最大值作为P(s₁|R)；可得P(s₁|R)的值为1.5558818528082924E-19。

对于其它各个词义cause#n#2～cause#n#5，分别记作s₂～s₅；由步骤4-1)和步骤4-2)，同理可得：

P(s₂|R)＝3.5935851826152816E-16

P(s₃|R)＝4.580315415718863E-18

P(s₄|R)＝0.0

P(s₅|R)＝2.72530272927388E-18

步骤105，根据词义后验概率选择歧义名词的正确词义。

根据步骤104的计算结果，选择后验概率最大的词义作为歧义名词的正确词义；若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义。

由步骤104，比较P(s₁|R)、P(s₂|R)、P(s₃|R)、P(s₄|R)、P(s₅|R)的大小，可知P(s₂|R)的值最大，故将词义s₂，即cause#n#2，作为歧义名词cause的正确词义。

需要说明的是，步骤105中，如果多个词义同时取得相等的最大后验概率，则根据WordNet3.0的词频信息，从中选择词频最高的词义作为歧义名词的正确词义。

通过以上操作步骤，即可完成歧义名词cause的词义消歧工作。

相应地，本发明实施例还提供一种基于依存约束和知识的名词词义消歧装置，其结构示意图如图2所示。

在该实施例中，所述装置包括：

依存知识库构建单元201，用于对大规模语料进行依存句法分析，收集所得的依存元组并统计其频数，构建依存知识库；

歧义词依存约束集合提取单元202，用于对歧义名词所在句子进行依存句法分析，从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组，作为歧义名词的依存约束集合；

歧义词词义代表词集提取单元203，用于根据语义词典，为歧义名词的各个词义，依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集；

词义后验概率计算单元204，用于根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率；

歧义词词义选择单元205，用于根据词义后验概率计算单元的输出数据，选择后验概率最大的词义作为歧义名词的正确词义；若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义；

需要说明的是，在本发明实施例中，该装置中各构成单元所述依存元组为三元组形式，包括依存关系类型、支配词、从属词，可表示为：依存关系类型(支配词,从属词)；其中支配词包含支配词的原形和词性信息，从属词包含从属词的原形和词性信息。

图2所示装置的依存知识库构建单元201的结构示意图如图3所示，其包括：

单文档依存处理单元301，用于对大规模语料库中的各个文档，依次进行依存句法分析和词形还原处理，收集其中蕴含的依存元组，并记录各依存元组的出现频次；

依存知识归并单元302，用于汇总各文档中包含的依存元组集合和频次信息，得到依存知识库。

图2所示装置的歧义词依存约束集合提取单元202的结构示意图如图4所示，其包括：

歧义句依存处理单元401，用于对歧义名词所在的句子进行依存句法分析和词形还原处理，收集其中涉及歧义名词的依存元组；

依存元组过滤单元402，用于对收集到的依存元组进行过滤，仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组：名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj)；

依存约束集合收集单元403，用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合。

图2所示装置的歧义词词义代表词集提取单元203的结构示意图如图5所示，其包括：

同义代表词提取单元501，用于根据WordNet的Synonyms关系获得当前词义的同义词集；

反义代表词提取单元502，用于根据WordNet的Antonym关系获得当前词义的反义词集；

上位代表词提取单元503，用于根据WordNet的Hypernym关系获得当前词义的上位词集；

词义代表词归并单元504，用于将同义词集、反义词集、上位词集合并，剔除词组及歧义名词自身后，作为当前词义的词义代表词集。

图2所示装置的词义后验概率计算单元204的结构示意图如图6所示，其包括：

词义代表词后验概率计算单元601，用于计算特定词义代表词在特定依存约束条件下的后验概率；

词义在依存约束集合条件下的后验概率计算单元602，用于计算特定词义在依存约束集合条件下的后验概率。

可以将图2～图6所示的基于依存约束和知识的名词词义消歧装置集成到各种硬件实体中。比如，可以将基于依存约束和知识的名词词义消歧装置集成到：个人电脑、平板电脑、智能手机、工作站等设备之中。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于依存约束和知识的名词词义消歧方法存储在各种存储介质上。这些存储介质包括但不局限于：软盘、光盘、硬盘、内存、U盘、CF卡、SM卡等。

综上所述，在本发明实施方式中，对大规模语料进行依存句法分析，收集所得的依存元组并统计其频数，构建依存知识库；对歧义名词所在句子进行依存句法分析，从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组，作为歧义名词的依存约束集合；根据语义词典，为歧义名词的各个词义，依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集；根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率；选择后验概率最大的词义作为歧义名词的正确词义(若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义)。由此可见，应用本发明实施方式之后，实现了基于依存约束和知识的名词词义消歧。本发明实施方式可以利用依存句法分析技术完成依存知识库的构建，从而提高知识库的质量；优选了16种类型的依存元组，从而排除无关元组的干扰，使其上下文相关词的选择更为准确；优选了3种类型的词义代表词集，从而较为准确地评估词义在上下文环境的适合程度；提出了词义在依存约束集合的后验概率的计算方法，考虑了句法、语义关系，从而更为全面准确地评估词义与上下文环境的匹配程度。本发明实施方式所实现的基于依存约束和知识的名词词义消歧方法和装置，能够自动完成依存知识库的构建，准确地选择依存约束元组，并计算词义的后验概率，具有较高的消歧正确率。

本说明书中的实施例采用递进的方式描述，彼此相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法和装置；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，故本说明书不应理解为对本发明的限制。

Claims

1.一种基于依存约束和知识的名词词义消歧方法，在特征在于，该方法包括以下步骤：

步骤四、根据依存知识库和词义代表词集，依次计算歧义名词的各个词义在依存约束集合的后验概率；计算词义在依存约束集合中的后验概率时，具体为：

将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r_j'并表示为：r_j(w₁,w₂)；

其中，表示依存关系类型为r_j、支配词为w₁、从属词为的依存元组的数量；c(r_j,w₁,*)表示依存关系类型为r_j、支配词为w₁的依存元组的数量；M表示语义词典中包含的名词词形的总数；

其中，s_i表示某一词义，R表示依存约束集合，表示词义代表词集，r′_j表示某一依存约束元组，表示某一词义代表词；步骤五、根据步骤四的计算结果，选择后验概率最大的词义作为歧义名词的正确词义；若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义；

所述依存元组为三元组形式，包括依存关系类型、支配词、从属词；其中支配词包含支配词的原形和词性信息，从属词包含从属词的原形和词性信息。

2.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法，其特征在于，所述步骤一中，构建依存知识库时，具体为：

3.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法，其特征在于，所述步骤二中，提取歧义名词的依存约束集合时，具体为：步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理，收集其中涉及歧义名词的依存元组；

步骤2-2)对收集到的依存元组进行过滤，仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组：名词缩写，主体，形容词修饰，同位语，并列连接，直接宾语，不定式修饰，间接宾语，名词复合修饰，名词短语作副词修饰，名词性主语，被动名词性主语，分词修饰，介词修饰，关系从句修饰，开放从句主语；

4.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法，其特征在于，所述步骤三中，提取各个词义的词义代表词集时，利用WordNet作为语义词典，具体为：

步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集；

步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集；

步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集；

5.一种基于依存约束和知识的名词词义消歧装置，其特征在于，该装置用于实现权利要求1-4中任意一项基于依存约束和知识的名词词义消歧方法，包括依存知识库构建单元、歧义词依存约束集合提取单元、歧义词词义代表词提取单元、词义后验概率计算单元、歧义词词义选择单元，其中：

歧义词词义选择单元，用于根据词义后验概率计算单元的输出数据，选择后验概率最大的词义作为歧义名词的正确词义；若多个词义同时取得相等的最大后验概率，则从中选择词频最高的词义作为歧义名词的正确词义；

6.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置，其特征在于，所述依存知识库构建单元还包括：

依存知识归并单元，用于汇总各文档中包含的依存元组集合和频次信息，得到依存知识库。

7.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置，其特征在于，所述歧义词依存约束集合提取单元还包括：

依存元组过滤单元，用于对收集到的依存元组进行过滤，仅保留支配词及从属词均为实词并且依存关系为以下设定类型的元组：名词缩写，主体，形容词修饰，同位语，并列连接，直接宾语，不定式修饰，间接宾语，名词复合修饰，名词短语作副词修饰，名词性主语，被动名词性主语，分词修饰，介词修饰，关系从句修饰，开放从句主语；

依存约束集合收集单元，用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合。

8.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置，其特征在于，所述歧义词词义代表词集提取单元还包括：

词义代表词归并单元，用于将同义词集、反义词集、上位词集合并，剔除词组及歧义名词自身后，作为当前词义的词义代表词集。

9.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置，其特征在于，所述词义后验概率计算单元还包括：