CN106126501B - 一种基于依存约束和知识的名词词义消歧方法和装置 - Google Patents
一种基于依存约束和知识的名词词义消歧方法和装置 Download PDFInfo
- Publication number
- CN106126501B CN106126501B CN201610489707.2A CN201610489707A CN106126501B CN 106126501 B CN106126501 B CN 106126501B CN 201610489707 A CN201610489707 A CN 201610489707A CN 106126501 B CN106126501 B CN 106126501B
- Authority
- CN
- China
- Prior art keywords
- word
- interdependent
- meaning
- noun
- tuple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于依存约束和知识的名词词义消歧方法和装置。方法包括:对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;对歧义名词所在句子进行依存句法分析,提取符合设定条件的16种依存元组,作为歧义名词的依存约束集合;根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;根据后验概率选择歧义名词的正确词义。利用本发明,可以充分发挥依存句法分析的作用,更准确有效地判定歧义名词的词义。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于依存约束和知识的名词词义消歧方法和装置。
背景技术
词义消歧是指根据歧义词的上下文环境而自动判定其词义。词义消歧是自然语言处理领域的基础性任务,对机器翻译、信息检索、文本分类、自动文摘等具有直接影响。
基于知识库的词义消歧方法是目前唯一能够真正应用于大规模词义消歧任务的方法。其效果主要受到三个因素的影响:一是知识库的规模和质量,二是上下文相关词选择的准确性,三是词义相关度计算方法。现有的知识库建设方法,可以划分为自动构建和人工构建两种方式。前者通过统计学习的方法从语料库中自动获取知识,比如词共现、语言模型等;这种方法并未考虑词语的句法、词义关系,其难免受到一些近距离的噪声词的干扰。后者人工构建知识库;面对词义消歧所需知识的海量规模,显然是难以实现的。现有的词义消歧方法在为歧义词选择上下文相关词时,往往采用滑动窗口的方法;这种方法无法排除近距离的噪声词,同时会忽略远距离的相关词。这种滑动窗口的选择方法,没有考虑到歧义词词性的区别;不同的词性具有不同的特点,在为其进行相关词选择时应区别对待;现有方法显然忽视了词性的区别。现有的词义相关度计算方法,往往只是利用词典考虑词义的相关程度,而忽略了从句法或语义关系上考虑词义的相关程度。现有方法存在的这些问题,制约了词义消歧效果的提升。
面对现有基于知识库的词义消歧方法所存在的以上技术问题,本发明专利针对名词词义消歧的特点,充分挖掘依存句法分析技术的优势,实现一种基于依存约束和知识的名词词义消歧方法和装置,力求能够在一定程度上推动这些问题的解决。
发明内容
为解决现有技术存在的不足,本发明公开了一种基于依存约束和知识的名词词义消歧方法和装置,以更准确地判定歧义名词的词义。
为此,本发明提供如下技术方案:
一种基于依存约束和知识的名词词义消歧方法,包括以下步骤:
步骤一、对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
步骤二、对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
步骤三、根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
步骤四、根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;
步骤五、根据步骤四的计算结果,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义。
基于依存约束和知识的名词词义消歧方法中,所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
进一步的,所述步骤一中,在构建依存知识库时,具体为:
步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
进一步的,所述步骤二中,在提取歧义名词的依存约束集合时,具体为:
步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组:名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj)。
步骤2-3)将过滤后所得的依存元组的集合,作为歧义名词的依存约束集合。
进一步的,所述步骤三中,在提取各个词义的词义代表词集时,具体为:
步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集;
步骤3-4)将上述三类词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
进一步的,所述步骤四中,在计算词义在依存约束集合中的后验概率时,具体为:
步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:
将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r′j并表示为:rj(w1,w2);
若歧义名词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的名词词形的总数;
若歧义名词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的名词词形的总数。
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:
假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,r′j表示某一依存约束元组,表示某一词义代表词。
一种基于依存约束和知识的名词词义消歧装置,包括:
依存知识库构建单元,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元,用于对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
歧义词词义代表词集提取单元,用于根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
词义后验概率计算单元,用于根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义。
基于依存约束和知识的名词词义消歧装置中,所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
进一步的,所述依存知识库构建单元还包括:
单文档依存处理单元,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库;
进一步的,所述歧义词依存约束集合提取单元还包括:
歧义句依存处理单元,用于对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
依存元组过滤单元,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组:名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj);
依存约束集合收集单元,用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合;
进一步的,所述歧义词词义代表词集提取单元还包括:
同义代表词提取单元,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元,用于根据WordNet的Antonym关系获得当前词义的反义词集;
上位代表词提取单元,用于根据WordNet的Hypernym关系获得当前词义的上位词集;
词义代表词归并单元,用于将同义词集、反义词集、上位词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集;
进一步的,所述词义后验概率计算单元还包括:
词义代表词后验概率计算单元,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元,用于计算特定词义在依存约束集合条件下的后验概率。
本发明的有益效果:
1、本发明利用依存句法分析技术完成依存知识库的构建,考虑了词语之间的句法、语义关系,所构建的依存知识库具有较高质量。
2、针对名词的特点,本发明优选了16种类型的语义关系密切的依存元组,构建其依存约束集合,可减少其它无关元组的干扰,使其上下文相关词的选择更为准确。
3、针对名词的特点,本发明优选同义词集、反义词集、上位词集作为相应词义的词义代表词集,能够较为准确地评估词义在上下文环境的适合程度。
4、本发明提出的词义在依存约束集合的后验概率的计算方法,考虑了句法、语义关系,能够更为全面准确地评估词义与上下文环境的匹配程度。
5、本发明提出的基于依存约束和知识的名词词义消歧方法和装置,能够自动完成依存知识库的构建,准确地选择依存约束元组,并计算词义的后验概率,具有较高的消歧正确率,改善名词的词义消歧效果。
附图说明
图1为根据本发明实施方式基于依存约束和知识的名词词义消歧方法的流程图;
图2为根据本发明实施方式基于依存约束和知识的名词词义消歧装置的结构示意图;
图3为根据本发明实施方式依存知识库构建单元的结构示意图;
图4为根据本发明实施方式歧义词依存约束集合提取单元的结构示意图;
图5为根据本发明实施方式歧义词词义代表词集提取单元的结构示意图;
图6为根据本发明实施方式词义后验概率计算单元的结构示意图。
具体实施方式:
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对发明实施例作进一步的详细说明。
以对句子“The principal cause of homelessness is to be found in thelarge numbers of mentally ill people.”中的歧义名词cause进行消歧处理为例。
根据WordNet 3.0,名词cause的词义信息如表1所示。
表1
其中,#n代表词性为名词,#1~#5代表五个不同的词义编号。
本发明实施例基于依存约束和知识的名词词义消歧方法的流程图,如图1所示,包括以下步骤。
步骤101,构建依存知识库。
对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库,具体为:
步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
本发明实施例中,使用Reuter Corpus作为语料库,其中包含了路透社人工收集整理的80余万篇新闻文档;依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,并允许对依存关系进行折叠和传递处理;借助WordNet 3.0进行词形还原。
首先根据步骤1-1)逐篇对Reuter Corpus中的新闻文档进行依存句法分析和词形还原处理,收集形如“relation(w1,w2)”的依存元组,并记录它们的出现频次。(本发明专利具体实施方式中所述依存元组“relation(w1,w2)”中的支配词w1和从属词w2均包括其原形和词性信息)。
然后根据步骤1-2)将各新闻文档包含的依存元组集合和频次信息合并,得到依存知识库。最终得到的依存知识库中共包含不同类型的依存元组13417302个,其出现频次总和为93850841个。
步骤102,提取歧义名词的依存约束集合。
对歧义名词所在句子进行依存句法分析,从中提取16种类型的依存元组,作为歧义名词的依存约束集合,具体为:
步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组。
本发明实施例中,依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,并允许对依存关系进行折叠和传递处理;借助WordNet3.0进行词形还原。
对句子“The principal cause of homelessness is to be found in thelarge numbers of mentally ill people.”进行依存句法分析和词形还原处理后,得到的依存元组集合包含如下元组:det(cause,the)、amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)、aux(find,to)、auxpass(find,be)、xcomp(be,find)、prep(find,number)、det(number,the)、amod(number,large)、advmod(ill,mentally)、amod(people,ill)、prep(number,people)。
从上述依存元组集合中收集涉及到歧义名词cause的元组,得到的依存元组集合包含如下元组:det(cause,the)、amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组:名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj)。
本发明实施例中,对步骤2-1)所得到的依存元组集合进行过滤,仅保留支配词及从属词均为实词并且依存关系为16种设定类型的元组,过滤后的依存元组集合包含如下元组:amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。
步骤2-3)将过滤后所得的依存元组的集合,作为歧义名词的依存约束集合。
本发明实施例中,将步骤2-2)所得到的依存元组集合,作为歧义名词的依存约束集合。可得依存约束集合包含如下元组:amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。
需要说明的是,在本发明实施例中,依存元组中的支配词和从属词均包括原形和词性信息。对于依存约束集合中所涉及的词语,cause即指名词cause、principal即指形容词principal、be即指动词be、find即指动词find、homelessness即指名词homelessness。
步骤103,提取歧义名词的词义代表词集。
根据语义词典WordNet 3.0,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集,具体为:
步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集;
步骤3-4)将上述三类词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
在本发明实施例中,对于歧义名词cause的各个词义的处理的说明,以cause#n#1为例。
对于词义cause#n#1,由步骤3-1)可得其同义词集为{cause};由步骤3-2)可得其反义词集为空集;由步骤3-3)可得其上位词集为{origin,origination,inception};由步骤3-4),将前述三类词集合并,并剔除词组及cause自身后,可得词义cause#n#1的词义代表词集为{origin,origination,inception}。
同理,对于词义cause#n#2,由步骤3-1)至步骤3-4),可得其词义代表词集为{reason,grounds,justification}。
同理,对于词义cause#n#3,由步骤3-1)至步骤3-4),可得其词义代表词集为{campaign,crusade,drive,movement,effort,venture}。
同理,对于词义cause#n#4,由步骤3-1)至步骤3-4),可得其词义代表词集为空集。
同理,对于词义cause#n#5,由步骤3-1)至步骤3-4),可得其词义代表词集为{lawsuit,suit,case,causa,proceeding,proceedings}。
步骤104,计算歧义名词的各个词义后验概率。
根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率,具体为:
步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:
将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r′j并表示为:rj(w1,w2);
若歧义名词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的名词词形的总数;
若歧义名词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的名词词形的总数。
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:
假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,r′j表示某一依存约束元组,表示某一词义代表词。
在本发明实施例中,因WordNet 3.0中名词词形总数为117097,故公式(1)和(2)中的M值均设为117097。
以词义cause#n#1为例,说明步骤4-1)至步骤4-3)的具体操作过程。
由步骤102已得,依存约束集合R包含如下元组:amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness)。
由步骤103已得,词义cause#n#1(记作s1)的词义代表词集为{origin,origination,inception}。
由步骤4-1)依次计算中的各个词义代表词在依存约束集合R中各依存约束条件下的后验概率,过程如下:
因cause为依存约束元组amod(cause,principal)的支配词,故词义代表词origin在该依存约束元组中的后验概率可由公式(1)计算;根据步骤101统计而得的依存知识库,可得c(amod,origin,principal)的值为4,c(amod,*,principal)的值为3853;故可得:
因cause为依存约束元组nsubj(be,cause)的从属词,故词义代表词origin在该依存约束元组中的后验概率可由公式(2)计算;根据步骤101统计而得的依存知识库,可得c(nsubj,be,origin)的值为30,c(nsubj,be,*)的值为465224;故可得:
同理,可得:
P(origin|xsubj,find)=8.28040772727649E-6
P(origin|prep,homelessness)=8.538105565137207E-6
P(origination|amod,principal)=8.267879288962381E-6
P(origination|nsubj,be)=1.7172659066047765E-6
P(origination|xsubj,find)=8.28040772727649E-6
P(origination|prep,homelessness)=8.538105565137207E-6
P(inception|amod,principal)=8.267879288962381E-6
P(inception|nsubj,be)=1.7172659066047765E-6
P(inception|xsubj,find)=8.28040772727649E-6
P(inception|prep,homelessness)=8.538105565137207E-6
由步骤4-2)计算词义cause#n#1在依存约束集合条件下的后验概率,过程如下:
已知依存约束集合R中所包含的依存约束元组分别为:amod(cause,principal)、nsubj(be,cause)、xsubj(find,cause)、prep(cause,homelessness);词义cause#n#1的Ws1为{origin,origination,inception}。
首先,对于词义cause#n#1的各个词义代表词分别计算其
对于词义代表词origin,代入步骤4-1)的计算结果,可得:
对于其他词义代表词,同理可得:
然后,根据公式(3),从中选一个最大值作为P(s1|R);可得P(s1|R)的值为1.5558818528082924E-19。
对于其它各个词义cause#n#2~cause#n#5,分别记作s2~s5;由步骤4-1)和步骤4-2),同理可得:
P(s2|R)=3.5935851826152816E-16
P(s3|R)=4.580315415718863E-18
P(s4|R)=0.0
P(s5|R)=2.72530272927388E-18
步骤105,根据词义后验概率选择歧义名词的正确词义。
根据步骤104的计算结果,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义。
由步骤104,比较P(s1|R)、P(s2|R)、P(s3|R)、P(s4|R)、P(s5|R)的大小,可知P(s2|R)的值最大,故将词义s2,即cause#n#2,作为歧义名词cause的正确词义。
需要说明的是,步骤105中,如果多个词义同时取得相等的最大后验概率,则根据WordNet3.0的词频信息,从中选择词频最高的词义作为歧义名词的正确词义。
通过以上操作步骤,即可完成歧义名词cause的词义消歧工作。
相应地,本发明实施例还提供一种基于依存约束和知识的名词词义消歧装置,其结构示意图如图2所示。
在该实施例中,所述装置包括:
依存知识库构建单元201,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元202,用于对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
歧义词词义代表词集提取单元203,用于根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
词义后验概率计算单元204,用于根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元205,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义;
需要说明的是,在本发明实施例中,该装置中各构成单元所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
图2所示装置的依存知识库构建单元201的结构示意图如图3所示,其包括:
单文档依存处理单元301,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元302,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
图2所示装置的歧义词依存约束集合提取单元202的结构示意图如图4所示,其包括:
歧义句依存处理单元401,用于对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
依存元组过滤单元402,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组:名词缩写(abbrev),主体(agent),形容词修饰(amod),同位语(appos),并列连接(conj),直接宾语(dobj),不定式修饰(infmod),间接宾语(iobj),名词复合修饰(nn),名词短语作副词修饰(npadvmod),名词性主语(nsubj),被动名词性主语(nsubjpass),分词修饰(partmod),介词修饰(prep),关系从句修饰(rcmod),开放从句主语(xsubj);
依存约束集合收集单元403,用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合。
图2所示装置的歧义词词义代表词集提取单元203的结构示意图如图5所示,其包括:
同义代表词提取单元501,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元502,用于根据WordNet的Antonym关系获得当前词义的反义词集;
上位代表词提取单元503,用于根据WordNet的Hypernym关系获得当前词义的上位词集;
词义代表词归并单元504,用于将同义词集、反义词集、上位词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
图2所示装置的词义后验概率计算单元204的结构示意图如图6所示,其包括:
词义代表词后验概率计算单元601,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元602,用于计算特定词义在依存约束集合条件下的后验概率。
可以将图2~图6所示的基于依存约束和知识的名词词义消歧装置集成到各种硬件实体中。比如,可以将基于依存约束和知识的名词词义消歧装置集成到:个人电脑、平板电脑、智能手机、工作站等设备之中。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于依存约束和知识的名词词义消歧方法存储在各种存储介质上。这些存储介质包括但不局限于:软盘、光盘、硬盘、内存、U盘、CF卡、SM卡等。
综上所述,在本发明实施方式中,对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;选择后验概率最大的词义作为歧义名词的正确词义(若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义)。由此可见,应用本发明实施方式之后,实现了基于依存约束和知识的名词词义消歧。本发明实施方式可以利用依存句法分析技术完成依存知识库的构建,从而提高知识库的质量;优选了16种类型的依存元组,从而排除无关元组的干扰,使其上下文相关词的选择更为准确;优选了3种类型的词义代表词集,从而较为准确地评估词义在上下文环境的适合程度;提出了词义在依存约束集合的后验概率的计算方法,考虑了句法、语义关系,从而更为全面准确地评估词义与上下文环境的匹配程度。本发明实施方式所实现的基于依存约束和知识的名词词义消歧方法和装置,能够自动完成依存知识库的构建,准确地选择依存约束元组,并计算词义的后验概率,具有较高的消歧正确率。
本说明书中的实施例采用递进的方式描述,彼此相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法和装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,故本说明书不应理解为对本发明的限制。
Claims (9)
1.一种基于依存约束和知识的名词词义消歧方法,在特征在于,该方法包括以下步骤:
步骤一、对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
步骤二、对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
步骤三、根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
步骤四、根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;计算词义在依存约束集合中的后验概率时,具体为:
步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:
将词义代表词集中的某一词义代表词记作将某一依存约束元组记作rj'并表示为:rj(w1,w2);
若歧义名词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的名词词形的总数;
若歧义名词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的名词词形的总数;
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:
假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,r′j表示某一依存约束元组,表示某一词义代表词;步骤五、根据步骤四的计算结果,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义;
所述依存元组为三元组形式,包括依存关系类型、支配词、从属词;其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
2.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法,其特征在于,所述步骤一中,构建依存知识库时,具体为:
步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
3.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法,其特征在于,所述步骤二中,提取歧义名词的依存约束集合时,具体为:步骤2-1)对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下16种设定类型的元组:名词缩写,主体,形容词修饰,同位语,并列连接,直接宾语,不定式修饰,间接宾语,名词复合修饰,名词短语作副词修饰,名词性主语,被动名词性主语,分词修饰,介词修饰,关系从句修饰,开放从句主语;
步骤2-3)将过滤后所得的依存元组的集合,作为歧义名词的依存约束集合。
4.根据权利要求1所述的基于依存约束和知识的名词词义消歧方法,其特征在于,所述步骤三中,提取各个词义的词义代表词集时,利用WordNet作为语义词典,具体为:
步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)根据WordNet的Hypernym关系获得当前词义的上位词集;
步骤3-4)将上述三类词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
5.一种基于依存约束和知识的名词词义消歧装置,其特征在于,该装置用于实现权利要求1-4中任意一项基于依存约束和知识的名词词义消歧方法,包括依存知识库构建单元、歧义词依存约束集合提取单元、歧义词词义代表词提取单元、词义后验概率计算单元、歧义词词义选择单元,其中:
依存知识库构建单元,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元,用于对歧义名词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为16种设定类型的依存元组,作为歧义名词的依存约束集合;
歧义词词义代表词集提取单元,用于根据语义词典,为歧义名词的各个词义,依次提取同义词集、反义词集、上位词集作为相应词义的词义代表词集;
词义后验概率计算单元,用于根据依存知识库和词义代表词集,依次计算歧义名词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义名词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义名词的正确词义;
所述依存元组为三元组形式,包括依存关系类型、支配词、从属词;其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
6.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述依存知识库构建单元还包括:
单文档依存处理单元,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
7.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述歧义词依存约束集合提取单元还包括:
歧义句依存处理单元,用于对歧义名词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义名词的依存元组;
依存元组过滤单元,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下设定类型的元组:名词缩写,主体,形容词修饰,同位语,并列连接,直接宾语,不定式修饰,间接宾语,名词复合修饰,名词短语作副词修饰,名词性主语,被动名词性主语,分词修饰,介词修饰,关系从句修饰,开放从句主语;
依存约束集合收集单元,用于将过滤后所得的依存元组的集合作为歧义名词的依存约束集合。
8.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述歧义词词义代表词集提取单元还包括:
同义代表词提取单元,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元,用于根据WordNet的Antonym关系获得当前词义的反义词集;
上位代表词提取单元,用于根据WordNet的Hypernym关系获得当前词义的上位词集;
词义代表词归并单元,用于将同义词集、反义词集、上位词集合并,剔除词组及歧义名词自身后,作为当前词义的词义代表词集。
9.根据权利要求5所述的基于依存约束和知识的名词词义消歧装置,其特征在于,所述词义后验概率计算单元还包括:
词义代表词后验概率计算单元,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元,用于计算特定词义在依存约束集合条件下的后验概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610489707.2A CN106126501B (zh) | 2016-06-29 | 2016-06-29 | 一种基于依存约束和知识的名词词义消歧方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610489707.2A CN106126501B (zh) | 2016-06-29 | 2016-06-29 | 一种基于依存约束和知识的名词词义消歧方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106126501A CN106126501A (zh) | 2016-11-16 |
CN106126501B true CN106126501B (zh) | 2019-02-19 |
Family
ID=57284338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610489707.2A Active CN106126501B (zh) | 2016-06-29 | 2016-06-29 | 一种基于依存约束和知识的名词词义消歧方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106126501B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202034B (zh) * | 2016-06-29 | 2019-05-28 | 齐鲁工业大学 | 一种基于依存约束和知识的形容词词义消歧方法和装置 |
CN108170662A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 缩简词的消歧方法和消歧设备 |
CN107577674B (zh) * | 2017-10-09 | 2019-06-28 | 北京神州泰岳软件股份有限公司 | 识别企业名称的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
CN105677639A (zh) * | 2016-01-10 | 2016-06-15 | 齐鲁工业大学 | 一种基于短语结构句法树的英文词义消歧方法 |
-
2016
- 2016-06-29 CN CN201610489707.2A patent/CN106126501B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306144A (zh) * | 2011-07-18 | 2012-01-04 | 南京邮电大学 | 一种基于语义词典的词语消歧方法 |
CN105677639A (zh) * | 2016-01-10 | 2016-06-15 | 齐鲁工业大学 | 一种基于短语结构句法树的英文词义消歧方法 |
Non-Patent Citations (2)
Title |
---|
Opinion Mining from a Large Corpora of Natural Language Reviews;Beltrán Borja Fiz Pontiveros;《Universitat Politècnica de Catalunya》;20120930;15,16,20,71 |
基于依存适配度的知识自动获取词义消歧方法;鹿文鹏 等;《软件学报》;20131031;第24卷(第10期);2300-2311 |
Also Published As
Publication number | Publication date |
---|---|
CN106126501A (zh) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mahata et al. | Key2vec: Automatic ranked keyphrase extraction from scientific articles using phrase embeddings | |
CN106202034B (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
US9613024B1 (en) | System and methods for creating datasets representing words and objects | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN104573028A (zh) | 实现智能问答的方法和系统 | |
CN109101489B (zh) | 一种文本自动摘要方法、装置及一种电子设备 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN106202036B (zh) | 一种基于依存约束和知识的动词词义消歧方法和装置 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
Shiwen et al. | Rule-based machine translation | |
CN106126501B (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
CN108062351A (zh) | 关于特定主题类别的文本摘要提取方法、可读存储介质 | |
Agrawal et al. | Semantic analysis of natural language queries using domain ontology for information access from database | |
CN106503256A (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
CN105740225B (zh) | 一种融合句子局部上下文与文档领域信息的词义消歧方法 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |