CN106202033A - 一种基于依存约束和知识的副词词义消歧方法和装置 - Google Patents
一种基于依存约束和知识的副词词义消歧方法和装置 Download PDFInfo
- Publication number
- CN106202033A CN106202033A CN201610494457.1A CN201610494457A CN106202033A CN 106202033 A CN106202033 A CN 106202033A CN 201610494457 A CN201610494457 A CN 201610494457A CN 106202033 A CN106202033 A CN 106202033A
- Authority
- CN
- China
- Prior art keywords
- word
- dependency
- ambiguous
- sense
- constraint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 230000000692 anti-sense effect Effects 0.000 claims abstract description 22
- 230000001419 dependent effect Effects 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 238000009411 base construction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 239000000284 extract Substances 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000002362 mulch Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于依存约束和知识的副词词义消歧方法和装置。方法包括:对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;对歧义副词所在句子进行依存句法分析,提取符合设定条件的2种依存元组,作为歧义副词的依存约束集合;根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;根据后验概率选择歧义副词的正确词义。利用本发明,可以充分发挥依存句法分析的作用,更准确有效地判定歧义副词的词义。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种基于依存约束和知识的副词词义消歧方法和装置。
背景技术
词义消歧是指根据歧义词的上下文环境而自动判定其词义。词义消歧是自然语言处理领域的基础性任务,对机器翻译、信息检索、文本分类、自动文摘等具有直接影响。
基于知识库的词义消歧方法是目前唯一能够真正应用于大规模词义消歧任务的方法。其效果主要受到三个因素的影响:一是知识库的规模和质量,二是上下文相关词选择的准确性,三是词义相关度计算方法。现有的知识库建设方法,可以划分为自动构建和人工构建两种方式。前者通过统计学习的方法从语料库中自动获取知识,比如词共现、语言模型等;这种方法并未考虑词语的句法、词义关系,其难免受到一些近距离的噪声词的干扰。后者人工构建知识库;面对词义消歧所需知识的海量规模,显然是难以实现的。现有的词义消歧方法在为歧义词选择上下文相关词时,往往采用滑动窗口的方法;这种方法无法排除近距离的噪声词,同时会忽略远距离的相关词。这种滑动窗口的选择方法,没有考虑到歧义词词性的区别;不同的词性具有不同的特点,在为其进行相关词选择时应区别对待;现有方法显然忽视了词性的区别。现有的词义相关度计算方法,往往只是利用词典考虑词义的相关程度,而忽略了从句法或语义关系上考虑词义的相关程度。现有方法存在的这些问题,制约了词义消歧效果的提升。
面对现有基于知识库的词义消歧方法所存在的以上技术问题,本发明专利针对副词词义消歧的特点,充分挖掘依存句法分析技术的优势,实现一种基于依存约束和知识的副词词义消歧方法和装置,力求能够在一定程度上推动这些问题的解决。
发明内容
为解决现有技术存在的不足,本发明公开了一种基于依存约束和知识的副词词义消歧方法和装置,以更准确地判定歧义副词的词义。
为此,本发明提供如下技术方案:
一种基于依存约束和知识的副词词义消歧方法,包括以下步骤:
步骤一、对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
步骤二、对歧义副词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为2种设定类型的依存元组,作为歧义副词的依存约束集合;
步骤三、根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;
步骤四、根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;
步骤五、根据步骤四的计算结果,选择后验概率最大的词义作为歧义副词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义。
基于依存约束和知识的副词词义消歧方法中,所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
进一步的,所述步骤一中,在构建依存知识库时,具体为:
步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
进一步的,所述步骤二中,在提取歧义副词的依存约束集合时,具体为:
步骤2-1)对歧义副词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义副词的依存元组;
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下2种设定类型的元组:副词修饰(advmod),并列连接(conj)。
步骤2-3)将过滤后所得的依存元组的集合,作为歧义副词的依存约束集合。
进一步的,所述步骤三中,在提取各个词义的词义代表词集时,具体为:
步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)将上述两类词集合并,剔除词组及歧义副词自身后,作为当前词义的词义代表词集。
进一步的,所述步骤四中,在计算词义在依存约束集合中的后验概率时,具体为:
步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:
将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r′j并表示为:rj(w1,w2);
若歧义副词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的副词词形的总数;
若歧义副词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的副词词形的总数。
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:
假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,r′j表示某一依存约束元组,表示某一词义代表词。
一种基于依存约束和知识的副词词义消歧装置,包括:
依存知识库构建单元,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元,用于对歧义副词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为2种设定类型的依存元组,作为歧义副词的依存约束集合;
歧义词词义代表词集提取单元,用于根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;
词义后验概率计算单元,用于根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义副词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义。
基于依存约束和知识的副词词义消歧装置中,所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
进一步的,所述依存知识库构建单元还包括:
单文档依存处理单元,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库;
进一步的,所述歧义词依存约束集合提取单元还包括:
歧义句依存处理单元,用于对歧义副词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义副词的依存元组;
依存元组过滤单元,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下2种设定类型的元组:副词修饰(advmod),并列连接(conj);
依存约束集合收集单元,用于将过滤后所得的依存元组的集合作为歧义副词的依存约束集合;
进一步的,所述歧义词词义代表词集提取单元还包括:
同义代表词提取单元,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元,用于根据WordNet的Antonym关系获得当前词义的反义词集;
词义代表词归并单元,用于将同义词集、反义词集合并,剔除词组及歧义副词自身后,作为当前词义的词义代表词集;
进一步的,所述词义后验概率计算单元还包括:
词义代表词后验概率计算单元,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元,用于计算特定词义在依存约束集合条件下的后验概率。
本发明的有益效果:
1、本发明利用依存句法分析技术完成依存知识库的构建,考虑了词语之间的句法、语义关系,所构建的依存知识库具有较高质量。
2、针对副词的特点,本发明优选了2种类型的语义关系密切的依存元组,构建其依存约束集合,可减少其它无关元组的干扰,使其上下文相关词的选择更为准确。
3、针对副词的特点,本发明优选同义词集、反义词集作为相应词义的词义代表词集,能够较为准确地评估词义在上下文环境的适合程度。
4、本发明提出的词义在依存约束集合的后验概率的计算方法,考虑了句法、语义关系,能够更为全面准确地评估词义与上下文环境的匹配程度。
5、本发明提出的基于依存约束和知识的副词词义消歧方法和装置,能够自动完成依存知识库的构建,准确地选择依存约束元组,并计算词义的后验概率,具有较高的消歧正确率,改善副词的词义消歧效果。
附图说明
图1为根据本发明实施方式基于依存约束和知识的副词词义消歧方法的流程图;
图2为根据本发明实施方式基于依存约束和知识的副词词义消歧装置的结构示意图;
图3为根据本发明实施方式依存知识库构建单元的结构示意图;
图4为根据本发明实施方式歧义词依存约束集合提取单元的结构示意图;
图5为根据本发明实施方式歧义词词义代表词集提取单元的结构示意图;
图6为根据本发明实施方式词义后验概率计算单元的结构示意图。
具体实施方式:
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对发明实施例作进一步的详细说明。
以对句子“Text editors were developed that allowed changes andcorrections to be made much more easily than with punch card.”中的歧义副词easily进行消歧处理为例。
根据WordNet 3.0,副词easily的词义信息如表1所示。
表1
其中,#r代表词性为副词,#1~#3代表三个不同的词义编号。
本发明实施例基于依存约束和知识的副词词义消歧方法的流程图,如图1所示,包括以下步骤。
步骤101,构建依存知识库。
对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库,具体为:
步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
本发明实施例中,使用Reuter Corpus作为语料库,其中包含了路透社人工收集整理的80余万篇新闻文档;依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,并允许对依存关系进行折叠和传递处理;借助WordNet 3.0进行词形还原。
首先根据步骤1-1)逐篇对Reuter Corpus中的新闻文档进行依存句法分析和词形还原处理,收集形如“relation(w1,w2)”的依存元组,并记录它们的出现频次。(本发明专利具体实施方式中所述依存元组“relation(w1,w2)”中的支配词w1和从属词w2均包括其原形和词性信息)。
然后根据步骤1-2)将各新闻文档包含的依存元组集合和频次信息合并,得到依存知识库。最终得到的依存知识库中共包含不同类型的依存元组13417302个,其出现频次总和为93850841个。
步骤102,提取歧义副词的依存约束集合。
对歧义副词所在句子进行依存句法分析,从中提取2种类型的依存元组,作为歧义副词的依存约束集合,具体为:
步骤2-1)对歧义副词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义副词的依存元组。
本发明实施例中,依存句法分析工具采用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,并允许对依存关系进行折叠和传递处理;借助WordNet 3.0进行词形还原。
对句子“Text editors were developed that allowed changes andcorrections to be made much more easily than with punch card.”进行依存句法分析和词形还原处理后,得到的依存元组集合包含如下元组:nn(editor,text),nsubjpass(develop,editor),auxpass(develop,be),complm(allow,that),ccomp(develop,allow),dobj(allow,change),dobj(allow,correction),conj(change,correction),aux(make,to),auxpass(make,be),xcomp(allow,make),advmod(make,easily),advmod(easily,much),advmod(easily,more),prep(make,than),pcomp(than,with),prep(than,card),nn(card,punch)。
从上述依存元组集合中收集涉及到歧义副词easily的元组,得到的依存元组集合包含如下元组:advmod(make,easily),advmod(easily,much),advmod(easily,more)。
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下2种设定类型的元组:副词修饰(advmod),并列连接(conj)。
本发明实施例中,对步骤2-1)所得到的依存元组集合进行过滤,仅保留支配词及从属词均为实词并且依存关系为2种设定类型的元组,过滤后的依存元组集合包含如下元组:advmod(make,easily),advmod(easily,much),advmod(easily,more)。
步骤2-3)将过滤后所得的依存元组的集合,作为歧义副词的依存约束集合。
本发明实施例中,将步骤2-2)所得到的依存元组集合,作为歧义副词的依存约束集合。可得依存约束集合包含如下元组:advmod(make,easily),advmod(easily,much),advmod(easily,more)。
需要说明的是,在本发明实施例中,依存元组中的支配词和从属词均包括原形和词性信息。对于依存约束集合中所涉及的词语,easily即指副词easily、much即指副词much、more即指副词more、make即指动词make。
步骤103,提取歧义副词的词义代表词集。
根据语义词典WordNet 3.0,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集,具体为:
步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)将上述两类词集合并,剔除词组及歧义副词自身后,作为当前词义的词义代表词集。
在本发明实施例中,对于歧义副词easily的各个词义的处理的说明,以easily#r#1为例。
对于词义easily#r#1,由步骤3-1)可得其同义词集为{easily,easy};由步骤3-2)可得其反义词集为空集;由步骤3-3),将前述两类词集合并,并剔除词组及easily自身后,可得词义easily#r#1的词义代表词集为{easy}。
同理,对于词义easily#r#2,由步骤3-1)至步骤3-3),可得其词义代表词集为空集。
同理,对于词义easily#r#3,由步骤3-1)至步骤3-3),可得其词义代表词集为{well}。
步骤104,计算歧义副词的各个词义后验概率。
根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率,具体为:
步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:
将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r′j并表示为:rj(w1,w2);
若歧义副词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的副词词形的总数;
若歧义副词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的副词词形的总数。
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:
假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,r′j表示某一依存约束元组,表示某一词义代表词。
在本发明实施例中,因WordNet 3.0中副词词形总数为4601,故公式(1)和(2)中的M值均设为4601。
以词义easily#r#1为例,说明步骤4-1)至步骤4-3)的具体操作过程。
由步骤102已得,依存约束集合R包含如下元组:advmod(make,easily),advmod(easily,much),advmod(easily,more)。
由步骤103已得,词义easily#r#1(记作s1)的词义代表词集为{easy}。
由步骤4-1)依次计算中的各个词义代表词在依存约束集合R中各依存约束条件下的后验概率,过程如下:
因easily为依存约束元组advmod(make,easily)的从属词,故词义代表词easy在该依存约束元组中的后验概率可由公式(2)计算;根据步骤101统计而得的依存知识库,可得c(advmod,make,easy)的值为61,c(advmod,make,*)的值为23649;故可得:
因easily为依存约束元组advmod(easily,much)的支配词,故词义代表词easy在该依存约束元组中的后验概率可由公式(1)计算;根据步骤101统计而得的依存知识库,可得c(advmod,easy,much)的值为123,c(advmod,*,much)的值为32586;故可得:
同理,可得:
P(easy|advmod,more)=1.039533457384326E-5
由步骤4-2)计算词义easily#r#1在依存约束集合条件下的后验概率,过程如下:
已知依存约束集合R中所包含的依存约束元组分别为:advmod(make,easily),advmod(easily,much),advmod(easily,more);词义easily#r#1的为{easy}。
首先,对于词义easily#r#1的各个词义代表词分别计算其
对于词义代表词easy,代入步骤4-1)的计算结果,可得:
然后,根据公式(3),从各个词义代表词的中选一个最大值作为P(s1|R);对于easily#r#1,其仅有一个词义代表词easy,故直接可得P(s1|R)的值为7.60750506861466E-11。
对于其它各个词义easily#r#2~easily#r#3,分别记作s2~s3;由步骤4-1)和步骤4-2),同理可得:
P(s2|R)=0.0
P(s3|R)=5.949053131179934E-11
步骤105,根据词义后验概率选择歧义副词的正确词义。
根据步骤104的计算结果,选择后验概率最大的词义作为歧义副词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义。
由步骤104,比较P(s1|R)、P(s2|R)、P(s3|R)的大小,可知P(s1|R)的值最大,故将词义s1,即easily#r#1,作为歧义副词easily的正确词义。
需要说明的是,步骤105中,如果多个词义同时取得相等的最大后验概率,则根据WordNet3.0的词频信息,从中选择词频最高的词义作为歧义副词的正确词义。
通过以上操作步骤,即可完成歧义副词easily的词义消歧工作。
相应地,本发明实施例还提供一种基于依存约束和知识的副词词义消歧装置,其结构示意图如图2所示。
在该实施例中,所述装置包括:
依存知识库构建单元201,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元202,用于对歧义副词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为2种设定类型的依存元组,作为歧义副词的依存约束集合;
歧义词词义代表词集提取单元203,用于根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;
词义后验概率计算单元204,用于根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元205,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义副词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义;
需要说明的是,在本发明实施例中,该装置中各构成单元所述依存元组为三元组形式,包括依存关系类型、支配词、从属词,可表示为:依存关系类型(支配词,从属词);其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
图2所示装置的依存知识库构建单元201的结构示意图如图3所示,其包括:
单文档依存处理单元301,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元302,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
图2所示装置的歧义词依存约束集合提取单元202的结构示意图如图4所示,其包括:
歧义句依存处理单元401,用于对歧义副词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义副词的依存元组;
依存元组过滤单元402,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下2种设定类型的元组:副词修饰(advmod),并列连接(conj);
依存约束集合收集单元403,用于将过滤后所得的依存元组的集合作为歧义副词的依存约束集合。
图2所示装置的歧义词词义代表词集提取单元203的结构示意图如图5所示,其包括:
同义代表词提取单元501,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元502,用于根据WordNet的Antonym关系获得当前词义的反义词集;
词义代表词归并单元503,用于将同义词集、反义词集合并,剔除词组及歧义副词自身后,作为当前词义的词义代表词集。
图2所示装置的词义后验概率计算单元204的结构示意图如图6所示,其包括:
词义代表词后验概率计算单元601,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元602,用于计算特定词义在依存约束集合条件下的后验概率。
可以将图2~图6所示的基于依存约束和知识的副词词义消歧装置集成到各种硬件实体中。比如,可以将基于依存约束和知识的副词词义消歧装置集成到:个人电脑、平板电脑、智能手机、工作站等设备之中。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于依存约束和知识的副词词义消歧方法存储在各种存储介质上。这些存储介质包括但不局限于:软盘、光盘、硬盘、内存、U盘、CF卡、SM卡等。
综上所述,在本发明实施方式中,对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;对歧义副词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为2种设定类型的依存元组,作为歧义副词的依存约束集合;根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;选择后验概率最大的词义作为歧义副词的正确词义(若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义)。由此可见,应用本发明实施方式之后,实现了基于依存约束和知识的副词词义消歧。本发明实施方式可以利用依存句法分析技术完成依存知识库的构建,从而提高知识库的质量;优选了2种类型的依存元组,从而排除无关元组的干扰,使其上下文相关词的选择更为准确;优选了2种类型的词义代表词集,从而较为准确地评估词义在上下文环境的适合程度;提出了词义在依存约束集合的后验概率的计算方法,考虑了句法、语义关系,从而更为全面准确地评估词义与上下文环境的匹配程度。本发明实施方式所实现的基于依存约束和知识的副词词义消歧方法和装置,能够自动完成依存知识库的构建,准确地选择依存约束元组,并计算词义的后验概率,具有较高的消歧正确率。
本说明书中的实施例采用递进的方式描述,彼此相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法和装置;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,故本说明书不应理解为对本发明的限制。
Claims (10)
1.一种基于依存约束和知识的副词词义消歧方法,在特征在于,该方法包括以下步骤:
步骤一、对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
步骤二、对歧义副词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为2种设定类型的依存元组,作为歧义副词的依存约束集合;
步骤三、根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;
步骤四、根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;
步骤五、根据步骤四的计算结果,选择后验概率最大的词义作为歧义副词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义;
所述依存元组为三元组形式,包括依存关系类型、支配词、从属词;其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
2.根据权利要求1所述的基于依存约束和知识的副词词义消歧方法,其特征在于,所述步骤一中,构建依存知识库时,具体为:
步骤1-1)对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
步骤1-2)汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
3.根据权利要求1所述的基于依存约束和知识的副词词义消歧方法,其特征在于,所述步骤二中,提取歧义副词的依存约束集合时,具体为:
步骤2-1)对歧义副词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义副词的依存元组;
步骤2-2)对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下2种设定类型的元组:副词修饰,并列连接;
步骤2-3)将过滤后所得的依存元组的集合,作为歧义副词的依存约束集合。
4.根据权利要求1所述的基于依存约束和知识的副词词义消歧方法,其特征在于,所述步骤三中,提取各个词义的词义代表词集时,利用WordNet作为语义词典,具体为:
步骤3-1)根据WordNet的Synonyms关系获得当前词义的同义词集;
步骤3-2)根据WordNet的Antonym关系获得当前词义的反义词集;
步骤3-3)将上述两类词集合并,剔除词组及歧义副词自身后,作为当前词义的词义代表词集。
5.根据权利要求1所述的基于依存约束和知识的副词词义消歧方法,其特征在于,所述步骤四中,计算词义在依存约束集合中的后验概率时,具体为:
步骤4-1)依次计算各个词义代表词在各个依存约束条件下的后验概率,具体为:
将词义代表词集中的某一词义代表词记作将某一依存约束元组记作r′j并表示为:rj(w1,w2);
若歧义副词为依存约束元组中的支配词,则此后验概率由公式(1)计算;
其中,表示依存关系类型为rj、支配词为从属词为w2的依存元组的数量;c(rj,*,w2)表示依存关系类型为rj、从属词为w2的依存元组的数量;M表示语义词典中包含的副词词形的总数;
若歧义副词为依存约束元组中的从属词,则此后验概率由公式(2)计算;
其中,表示依存关系类型为rj、支配词为w1、从属词为的依存元组的数量;c(rj,w1,*)表示依存关系类型为rj、支配词为w1的依存元组的数量;M表示语义词典中包含的副词词形的总数。
步骤4-2)依次计算各个词义在依存约束集合条件下的后验概率,具体为:
假定各个依存约束元组之间彼此条件独立,则此后验概率可由公式(3)计算;
其中,si表示某一词义,R表示依存约束集合,表示词义代表词集,r′j表示某一依存约束元组,表示某一词义代表词。
6.一种基于依存约束和知识的副词词义消歧装置,其特征在于,该装置包括依存知识库构建单元、歧义词依存约束集合提取单元、歧义词词义代表词提取单元、词义后验概率计算单元、歧义词词义选择单元,其中:
依存知识库构建单元,用于对大规模语料进行依存句法分析,收集所得的依存元组并统计其频数,构建依存知识库;
歧义词依存约束集合提取单元,用于对歧义副词所在句子进行依存句法分析,从中提取支配词及从属词均为实词并且依存关系为2种设定类型的依存元组,作为歧义副词的依存约束集合;
歧义词词义代表词集提取单元,用于根据语义词典,为歧义副词的各个词义,依次提取同义词集、反义词集作为相应词义的词义代表词集;
词义后验概率计算单元,用于根据依存知识库和词义代表词集,依次计算歧义副词的各个词义在依存约束集合的后验概率;
歧义词词义选择单元,用于根据词义后验概率计算单元的输出数据,选择后验概率最大的词义作为歧义副词的正确词义;若多个词义同时取得相等的最大后验概率,则从中选择词频最高的词义作为歧义副词的正确词义;
所述依存元组为三元组形式,包括依存关系类型、支配词、从属词;其中支配词包含支配词的原形和词性信息,从属词包含从属词的原形和词性信息。
7.根据权利要求6所述的基于依存约束和知识的副词词义消歧装置,其特征在于,所述依存知识库构建单元还包括:
单文档依存处理单元,用于对大规模语料库中的各个文档,依次进行依存句法分析和词形还原处理,收集其中蕴含的依存元组,并记录各依存元组的出现频次;
依存知识归并单元,用于汇总各文档中包含的依存元组集合和频次信息,得到依存知识库。
8.根据权利要求6所述的基于依存约束和知识的副词词义消歧装置,其特征在于,所述歧义词依存约束集合提取单元还包括:
歧义句依存处理单元,用于对歧义副词所在的句子进行依存句法分析和词形还原处理,收集其中涉及歧义副词的依存元组;
依存元组过滤单元,用于对收集到的依存元组进行过滤,仅保留支配词及从属词均为实词并且依存关系为以下设定类型的元组:副词修饰,并列连接;
依存约束集合收集单元,用于将过滤后所得的依存元组的集合作为歧义副词的依存约束集合。
9.根据权利要求6所述的基于依存约束和知识的副词词义消歧装置,其特征在于,所述歧义词词义代表词集提取单元还包括:
同义代表词提取单元,用于根据WordNet的Synonyms关系获得当前词义的同义词集;
反义代表词提取单元,用于根据WordNet的Antonym关系获得当前词义的反义词集;
词义代表词归并单元,用于将同义词集、反义词集合并,剔除词组及歧义副词自身后,作为当前词义的词义代表词集。
10.根据权利要求6所述的基于依存约束和知识的副词词义消歧装置,其特征在于,所述词义后验概率计算单元还包括:
词义代表词后验概率计算单元,用于计算特定词义代表词在特定依存约束条件下的后验概率;
词义在依存约束集合条件下的后验概率计算单元,用于计算特定词义在依存约束集合条件下的后验概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610494457.1A CN106202033B (zh) | 2016-06-29 | 2016-06-29 | 一种基于依存约束和知识的副词词义消歧方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610494457.1A CN106202033B (zh) | 2016-06-29 | 2016-06-29 | 一种基于依存约束和知识的副词词义消歧方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202033A true CN106202033A (zh) | 2016-12-07 |
CN106202033B CN106202033B (zh) | 2019-05-28 |
Family
ID=57461562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610494457.1A Active CN106202033B (zh) | 2016-06-29 | 2016-06-29 | 一种基于依存约束和知识的副词词义消歧方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202033B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018001101A1 (zh) * | 2016-06-29 | 2018-01-04 | 齐鲁工业大学 | 一种基于依存约束和知识的形容词词义消歧方法和装置 |
CN108509449A (zh) * | 2017-02-24 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1617133A (zh) * | 2003-11-14 | 2005-05-18 | 高庆狮 | 句义表达式的生成方法、机器翻译及电子词典 |
CN1991819A (zh) * | 2005-12-30 | 2007-07-04 | 北京法国电信研发中心有限公司 | 语言形态分析器 |
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
-
2016
- 2016-06-29 CN CN201610494457.1A patent/CN106202033B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1617133A (zh) * | 2003-11-14 | 2005-05-18 | 高庆狮 | 句义表达式的生成方法、机器翻译及电子词典 |
CN1991819A (zh) * | 2005-12-30 | 2007-07-04 | 北京法国电信研发中心有限公司 | 语言形态分析器 |
CN101013421A (zh) * | 2007-02-02 | 2007-08-08 | 清华大学 | 基于规则的汉语基本块自动分析方法 |
Non-Patent Citations (2)
Title |
---|
吴云芳 等: "多分类器集成的汉语词义消歧研究", 《计算机研究与发展》 * |
鹿文鹏: "基于依存和领域知识的词义消歧方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018001101A1 (zh) * | 2016-06-29 | 2018-01-04 | 齐鲁工业大学 | 一种基于依存约束和知识的形容词词义消歧方法和装置 |
CN108509449A (zh) * | 2017-02-24 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
CN108509449B (zh) * | 2017-02-24 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 一种信息处理的方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN106202033B (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110059311B (zh) | 一种面向司法文本数据的关键词提取方法及系统 | |
CN106202034B (zh) | 一种基于依存约束和知识的形容词词义消歧方法和装置 | |
CN102169495B (zh) | 行业词典生成方法及装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
Zeller et al. | DErivBase: Inducing and evaluating a derivational morphology resource for German | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
CN106844658A (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN109471950B (zh) | 腹部超声文本数据的结构化知识网络的构建方法 | |
CN106569993A (zh) | 一种挖掘领域术语间上下位关系的方法及装置 | |
CN106021288A (zh) | 一种基于自然语言分析的随堂测试答案快速自动分类方法 | |
CN106055623A (zh) | 一种跨语言推荐方法和系统 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN106202036B (zh) | 一种基于依存约束和知识的动词词义消歧方法和装置 | |
CN104317783B (zh) | 一种语义关系密切度的计算方法 | |
CN106126501B (zh) | 一种基于依存约束和知识的名词词义消歧方法和装置 | |
Kessler et al. | Extraction of terminology in the field of construction | |
CN111737420A (zh) | 一种基于争议焦点的类案检索方法及系统及装置及介质 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20201029 Address after: 250101 3 / F, block B, Yinhe building, 2008 Xinluo street, hi tech Zone, Jinan City, Shandong Province Patentee after: SHANDONG ECLOUD INFORMATION TECHNOLOGY Co.,Ltd. Address before: 250353 Qilu Industrial University, 3501 University Road, Science Park, Xincheng University, Ji'nan, Shandong Patentee before: Qilu University of Technology |