CN102306144A - 一种基于语义词典的词语消歧方法 - Google Patents

一种基于语义词典的词语消歧方法 Download PDF

Info

Publication number
CN102306144A
CN102306144A CN201110200321A CN201110200321A CN102306144A CN 102306144 A CN102306144 A CN 102306144A CN 201110200321 A CN201110200321 A CN 201110200321A CN 201110200321 A CN201110200321 A CN 201110200321A CN 102306144 A CN102306144 A CN 102306144A
Authority
CN
China
Prior art keywords
word
sentence
meaning
degree
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110200321A
Other languages
English (en)
Other versions
CN102306144B (zh
Inventor
张卫丰
张静
王慕妮
周国强
张迎周
许碧欢
陆柳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN 201110200321 priority Critical patent/CN102306144B/zh
Publication of CN102306144A publication Critical patent/CN102306144A/zh
Application granted granted Critical
Publication of CN102306144B publication Critical patent/CN102306144B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种基于语义词典的词语消歧方法,提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,利用概念的相关关系实现语义消歧的方法,综合考虑概念、概念释义、概念的同义词、概念的扩展释义及扩展概念的同义词集合等因素及句子的连贯度要求,利用概念的相关度计算公式和回溯法选取单词的最佳词义,实现基于上下文的语义消歧。经过实验能够提高语义消歧的召回率和准确率,更好的服务于文本摘要的获取。

Description

一种基于语义词典的词语消歧方法
技术领域
本发明提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,属于语义技术领域。 
背景技术
语义词典的开发基于三个主要假设:一是可分离性假设,也就是语言的词汇成分是可以通过一定的方法离析提炼出来并专门针对它们进行研究,二是可模式化假设,一个人不可能掌握他所运用语言所需的所有词汇,除非他能够利用词义之间已经存在的系统的模式和关系,三是广泛性假设,也就是计算语言学如果真如人那样处理自然语言就必须要像人那样尽可能多的存储词汇知识。语义词典利用上述的三个假设,也就是英语语言特点将英语词典提升到了语义高度[1]。语义词典是以同义词集合作为基本构建单位,根据同义词集合所表达的概念之间的语义关系组织起来语义关系图,它允许使用者从不同的途径去访问词典信息。语义词典跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。 
词义是指一个词所具有的意义,词义消歧是一个重要的语义技术,它是自然语言问答系统、指代消解、机器翻译等的必要组成部分。基于它的目标就是在某个特定的上下文中,确定每个多义词在该上下文中特定义项的过程[2],词义消歧可以说是一种纯粹的语义技术。但作为一种规则,这种技术需要语言处理器作为基础,因为如果不将一个文本分割成一系列词、句子和固定表达,不知道它是否是名词或者动词,要在上下文环境里确定一个词的含义会非常困难。词义消歧一直是自然语言处理领域的难题之一。它的研究从上世纪50年代初期开始机器翻译研究以后,就一直受到人们的关注。词义消歧任务本身是一个中间任务,是大多数自然语言处理任务的一个重要的中间层次,在自然语言处理中有广泛的用途。 
当前词语消歧主要通过基于语义词典概念组织方式的词语相关度和基于语义词典概念释义的词语相关度来实现,基于语义词典概念组织方式的词语相关度对概念相关性的度量不够充分,相关度指标更多地反映概念之间的相似性,而词语消歧要考虑上下文词语间的相关性[3],基于语义词典概念释义的词语相关度从概念本身、概念的同义词、概念释义[4]、概念的扩展释义[5]和扩展同义词集合角度出发,利用概念之 间的相关关系,选取词语的最佳词义和最佳词义组合,实现基于上下文的词语消歧。 
1.A.Budanitsky,G.Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness,32(1):13~47,Computational Linguistics,2006. 
2.黄昌宁,夏莹语言信息处理专论.北京:清华大学出版社,1996.78一101 
3.张燕飞编著.信息组织的主题语言.武汉大学出版社.2005.11 
4.S.Banerjee,T.Pedersen.An adapted Lesk algorithm for word sense disambiguation using Word-Net,2002. 
5.S.Banerjee,T.Pedersen.Extended gloss overlaps as a measure of semantic relatedness,2003. 
发明内容
技术问题:本发明的目的是提供一种基于语义词典的词语消歧的实现方法,以往词语消歧主要通过基于语义词典概念组织方式的词语相关度来实现消歧,对概念之间的相关性度量不够。本发明的目的是从概念的相关性出发,综合考虑概念本身,概念释义,概念的同义词,概念的扩展概念,扩展概念同义词之间的关系,从词语的相关度和句子的连贯度出发,利用回溯法选取词语的最佳词义,实现基于上下文的词语消歧。 
技术方案:本发明结合单词的概念释义、概念的同义词集合、扩展释义和扩展同义词集合,从概念之间的相关性和句子的连贯度出发,选取最佳词义组合,从而达到基于上下文的词语消歧的目的。 
本发明的基于语义词典的词语消歧方法主要分为以下步骤: 
一、获取文本集中句子列表L: 
步骤11)由计算机读入已程序化的文本集合D; 
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1, 
步骤13)读入文本集D1, 
步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中; 
二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合: 
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词; 
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号 分割句子; 
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词; 
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度; 
步骤241)如果长度不大于11,则转步骤25); 
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25); 
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性: 
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性; 
步骤252)如果标记正确,单词就用它标记的词性; 
步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧; 
步骤26)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念; 
步骤25)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合; 
步骤26)重复步骤25)到步骤27),直至找完句子中每个单词; 
三、利用回溯法实现基于上下文的语义消歧: 
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度; 
步骤32)将第二个单词的不同词义依次放入堆栈中; 
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10; 
步骤34)计算W00和W10之间的相关度,如公式(1): 
relatedness ( s 1 , s 2 ) = W g Gloss ( s 1 ) ∩ Syn ( s 2 ) + Syn ( s 1 ) ∩ Gloss ( s 2 ) 2 +
W rg ( Σ j Gloss ( s 1 ) ∩ Syn ( r 2 j ) 2 + Σ i Syn ( r 1 i ) ∩ Gloss ( s 2 ) 2 ) + 公式(1) 
W r Σ i Σ j Gloss ( r 1 i ) ∩ Syn ( r 2 j ) + Syn ( r 1 i ) ∩ Gloss ( r 2 j ) 2
其中Gloss(si)是单词si的释义;Gloss(rij))是概念rij的释义,包含rij的同义词集合中的词、描述中的词和例句中的词;Syn(si)是单词si的同义词;Syn(rij)是概念rij的同义词集合;s1,s2是句子中两个不同的单词;i是单词s1确定词性后的词义个数,j是单词s2确定词性后的词义个数;Wg,Wrg,Wr分别是重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)的权重; 
步骤35)计算W10与W00之间相关度,记为score[1]: 
score[1]=score[0]+scorecube[1][0][0][0]                公式(2) 
其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度; 
步骤36)将第三个单词的不同词义依次放入堆栈中; 
步骤37)选中栈顶元素并出栈,将其记为W20; 
步骤38)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和: 
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0]    公式(3) 
步骤39)对句子中剩下的单词重复步骤36)到步骤38),计算相关度总和时只考虑所求单词与其前两单词之间的相关度;这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和; 
步骤310)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈; 
步骤311)在步骤39)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和; 
步骤312)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和; 
步骤313)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4): 
Figure BDA0000076411790000041
公式(4) 
其中S为句子,wi是句子S中的单词,wj是紧接wi前面的两个单词,即为wi-1、wi-2,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单 词为w的上下文,表示为Context(w); 
步骤314)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧; 
步骤315)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧; 
步骤316)读入句子列表中第二个句子,转到步骤21),完成所有句子的消歧。 
有益效果:本发明方法综合了单词的概念释义、概念的同义词集合、概念的扩展释义和扩展同义词集合,利用文本中概念的相关性和句子的连贯性,实现基于上下文的词语消歧。通过使用本发明的方法,能够提高语义消歧的准确率和召回率,提高词语消歧效率。 
附图说明
图1语义消歧的流程图。 
图2句子连贯度示意图,其中,图示单词是按照其在句子中位置排序,每条有向弧表示单词之间的相关度,仅考虑单词与其前两个单词之间的相关度。 
具体实施方式
基于概念之间的相关性,借助语义词典,实现基于上下文的语义消歧。其中详细的步骤如下: 
一、获取文本集中句子列表: 
步骤11)读入文本集D; 
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本格式word1/pos1 word2/pos2 word3/pos3,记为D1。 
步骤13)读入文本集D1,对其中一个文本文件进行处理; 
步骤14)将文本中的引用句转化为普通句,即将引用句的引号去掉; 
步骤15)读取文本中的每一个句子:读到句号、问号或感叹号就为一个句子,将读取的句子逐行放入句子列表中; 
二、分割文本集中的词和词性标注,用语义词典查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合: 
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词; 
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子; 
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词; 
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度; 
步骤241)如果长度不大于11,则转步骤25); 
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25); 
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性: 
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性; 
步骤252)如果标记正确,单词就用它标记的词性; 
步骤253)如果语义词典中没有该单词,就不对其进行消歧; 
步骤26)由步骤25)确定词性后,利用语义词典查找该单词的同义词和的释义,即概念; 
步骤27)用语义词典查找与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合,不同词性的概念的扩展概念: 
名词:概念本身,上位概念,下位概念,与此概念具有整体部分关系的概念。 
动词:概念本身,上位概念,下位概念。 
形容词:概念本身,近义概念。 
副词:概念本身,反义概念。 
步骤27)重复步骤25)到步骤27),直至查找完句子中的每个单词; 
三、利用回溯法实现基于上下文的语义消歧: 
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度; 
步骤32)将第二个单词的不同词义依次放入堆栈中; 
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10; 
步骤34)计算W00和W10之间的相关度,如公式(1): 
relatedness ( s 1 , s 2 )
= ( ExGloss ( s 1 ) ∩ ExSyn ( s 2 ) ) ∪ ( ( ExGloss ( s 2 ) ∩ ExSyn ( s 1 ) ) ) 2 公式(1) 
= Σ i Σ j ( Gloss ( r 1 i ) ∩ Syn ( r 2 j ) + Gloss ( r 2 j ) ∩ Syn ( r 1 i ) ) / 2
其中Gloss(rij)是概念rij的释义,对其优化后包含rij的同义词集合中的词、描述中的词和例句中的词,Syn(rij)是概念rij的同义词集合,扩展同义词集合ExSyn,扩展释义ExGloss,s1,s2是句子中两个不同的单词; 
步骤35)不同概念之间重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)对相关度relatedness(s1,s2)的影响依次降低,设它们的权重分别为Wg,Wrg,Wr,并规定: 
W rg = W g + W r 2 公式(2) 
优化后的相关度计算如公式(3): 
relatedness ( s 1 , s 2 ) = W g Gloss ( s 1 ) ∩ Syn ( s 2 ) + Syn ( s 1 ) ∩ Gloss ( s 2 ) 2 +
W rg ( Σ j Gloss ( s 1 ) ∩ Syn ( r 2 j ) 2 + Σ i Syn ( r 1 i ) ∩ Gloss ( s 2 ) 2 ) + 公式(3) 
W r Σ i Σ j Gloss ( r 1 i ) ∩ Syn ( r 2 j ) + Syn ( r 1 i ) ∩ Gloss ( r 2 j ) 2
用公式(3)取代公式(1),计算不同单词之间的相关度,其中i是单词s1确定词性后的词义个数,j是单词s2确定词性后的词义个数;; 
步骤36)计算W10与W00之间相关度,记为score[1]: 
score[1]=score[0]+scorecube[1][0][0][0]                公式(4) 
其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度; 
步骤37)将第三个单词的不同词义依次放入堆栈中; 
步骤38)选中栈顶元素并出栈,将其记为W20; 
步骤39)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和: 
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0]        公式(5) 
步骤310)对句子中剩下的单词重复步骤37)到步骤39),计算相关度总和时只考虑所求单词与其前两单词之间的相关度。这样就可以得到一个句子中所有单词的第 0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和; 
步骤311)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈; 
步骤312)在步骤310)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和; 
步骤313)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和; 
步骤314)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4): 
公式(6) 
其中S为句子,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w),Wi是句子S中的单词,Wj是紧接Wi前面的两个单词; 
步骤315)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧; 
步骤316)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧; 
步骤317)读入句子列表中第二个句子,转到步骤21),直至完成所有句子的消歧。 

Claims (1)

1.一种基于语义词典的词语消歧方法,其特征在于该方法主要分为以下步骤:
一、获取文本集中句子列表L:
步骤11)由计算机读入已程序化的文本集合D;
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1,
步骤13)读入文本集D1,
步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;
二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词;
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;
步骤241)如果长度不大于11,则转步骤25);
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性:
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;
步骤252)如果标记正确,单词就用它标记的词性;
步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧;
步骤26)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念;
步骤25)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;
步骤26)重复步骤25)到步骤27),直至找完句子中每个单词;
三、利用回溯法实现基于上下文的语义消歧:
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度;
步骤32)将第二个单词的不同词义依次放入堆栈中;
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10
步骤34)计算W00和W10之间的相关度,如公式(1):
relatedness ( s 1 , s 2 ) = W g Gloss ( s 1 ) ∩ Syn ( s 2 ) + Syn ( s 1 ) ∩ Gloss ( s 2 ) 2 +
W rg ( Σ j Gloss ( s 1 ) ∩ Syn ( r 2 j ) 2 + Σ i Syn ( r 1 i ) ∩ Gloss ( s 2 ) 2 ) + 公式(1)
W r Σ i Σ j Gloss ( r 1 i ) ∩ Syn ( r 2 j ) + Syn ( r 1 i ) ∩ Gloss ( r 2 j ) 2
其中Gloss(si)是单词si的释义;Gloss(rij)是概念rij的释义,包含rij的同义词集合中的词、描述中的词和例句中的词;Syn(si)是单词si的同义词;Syn(rij)是概念rij的同义词集合;s1,s2是句子中两个不同的单词;i是单词s1确定词性后的词义个数,j是单词S2确定词性后的词义个数;Wg,Wrg,Wr分别是重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)的权重;
步骤35)计算W10与W00之间相关度,记为score[1]:
score[1]=score[0]+scorecube[1][0][0][0]                    公式(2)
其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度;
步骤36)将第三个单词的不同词义依次放入堆栈中;
步骤37)选中栈顶元素并出栈,将其记为W20
步骤38)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和:
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0]    公式(3)
步骤39)对句子中剩下的单词重复步骤36)到步骤38),计算相关度总和时只考虑所求单词与其前两单词之间的相关度;这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和;
步骤310)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈;
步骤311)在步骤39)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和;
步骤312)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和;
步骤313)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4):
Figure FDA0000076411780000031
公式(4)
其中S为句子,wi是句子S中的单词,wj是紧接wi前面的两个单词,即为wi-1、wi-2,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w);
步骤314)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧;
步骤315)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧;
步骤316)读入句子列表中第二个句子,转到步骤21),完成所有句子的消歧。
CN 201110200321 2011-07-18 2011-07-18 一种基于语义词典的词语消歧方法 Expired - Fee Related CN102306144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110200321 CN102306144B (zh) 2011-07-18 2011-07-18 一种基于语义词典的词语消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110200321 CN102306144B (zh) 2011-07-18 2011-07-18 一种基于语义词典的词语消歧方法

Publications (2)

Publication Number Publication Date
CN102306144A true CN102306144A (zh) 2012-01-04
CN102306144B CN102306144B (zh) 2013-05-08

Family

ID=45380008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110200321 Expired - Fee Related CN102306144B (zh) 2011-07-18 2011-07-18 一种基于语义词典的词语消歧方法

Country Status (1)

Country Link
CN (1) CN102306144B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104160392A (zh) * 2012-03-07 2014-11-19 三菱电机株式会社 语义推测装置、方法以及程序
CN104281565A (zh) * 2014-09-30 2015-01-14 百度在线网络技术(北京)有限公司 语义词典构建方法和装置
CN104584003A (zh) * 2012-08-24 2015-04-29 微软公司 词检测和域字典推荐
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
CN106021233A (zh) * 2016-05-24 2016-10-12 仲恺农业工程学院 基于文本语境信息层级量化的转喻加工实验方法及应用
CN106126501A (zh) * 2016-06-29 2016-11-16 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置
CN106445911A (zh) * 2016-03-18 2017-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
WO2018001101A1 (zh) * 2016-06-29 2018-01-04 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
CN108984527A (zh) * 2018-07-10 2018-12-11 广州极天信息技术股份有限公司 一种基于概念的语义识别方法及装置
WO2019085640A1 (zh) * 2017-10-31 2019-05-09 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质
CN109753569A (zh) * 2018-12-29 2019-05-14 上海智臻智能网络科技股份有限公司 一种多义词发现的方法及装置
CN109766551A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种多义词语义的确定方法和系统
CN110110332A (zh) * 2019-05-06 2019-08-09 中国联合网络通信集团有限公司 文本摘要生成方法及设备
US10706084B2 (en) 2014-09-29 2020-07-07 Huawei Technologies Co., Ltd. Method and device for parsing question in knowledge base
CN111950290A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于概念图的语义解析方法及装置
US11687724B2 (en) 2020-09-30 2023-06-27 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054567A (ja) * 2002-07-19 2004-02-19 Communication Research Laboratory データ分類方法
CN1904880A (zh) * 2005-07-29 2007-01-31 中国科学院声学研究所 一种用于句子分析中动词歧义结构消解的语义分析方法
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
US20090089047A1 (en) * 2007-08-31 2009-04-02 Powerset, Inc. Natural Language Hypernym Weighting For Word Sense Disambiguation
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004054567A (ja) * 2002-07-19 2004-02-19 Communication Research Laboratory データ分類方法
CN1904880A (zh) * 2005-07-29 2007-01-31 中国科学院声学研究所 一种用于句子分析中动词歧义结构消解的语义分析方法
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
US20090089047A1 (en) * 2007-08-31 2009-04-02 Powerset, Inc. Natural Language Hypernym Weighting For Word Sense Disambiguation
CN101840397A (zh) * 2009-03-20 2010-09-22 日电(中国)有限公司 词义消歧方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
史天艺 等: "《基于维基百科的自动词义消歧方法》", 《计算机工程》 *
张仰森 等: "《基于多知识源的汉语词义消歧方法》", 《汉语学报》 *
闫蓉: "《基于语义相关度计算的汉语词义消歧方法研究》", 《内蒙古大学学报(自然科学版)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
CN104160392A (zh) * 2012-03-07 2014-11-19 三菱电机株式会社 语义推测装置、方法以及程序
CN104160392B (zh) * 2012-03-07 2017-03-08 三菱电机株式会社 语义推测装置、方法
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
CN104584003A (zh) * 2012-08-24 2015-04-29 微软公司 词检测和域字典推荐
RU2592395C2 (ru) * 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
US10706084B2 (en) 2014-09-29 2020-07-07 Huawei Technologies Co., Ltd. Method and device for parsing question in knowledge base
CN104281565B (zh) * 2014-09-30 2017-09-05 百度在线网络技术(北京)有限公司 语义词典构建方法和装置
CN104281565A (zh) * 2014-09-30 2015-01-14 百度在线网络技术(北京)有限公司 语义词典构建方法和装置
CN106445911A (zh) * 2016-03-18 2017-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
CN106445911B (zh) * 2016-03-18 2022-02-22 苏州大学 一种基于微观话题结构的指代消解方法及系统
CN106021233A (zh) * 2016-05-24 2016-10-12 仲恺农业工程学院 基于文本语境信息层级量化的转喻加工实验方法及应用
CN106021233B (zh) * 2016-05-24 2018-07-27 广东外语外贸大学 基于文本语境信息层级量化的转喻加工实验方法及应用
CN106126501A (zh) * 2016-06-29 2016-11-16 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置
WO2018001101A1 (zh) * 2016-06-29 2018-01-04 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
CN106126501B (zh) * 2016-06-29 2019-02-19 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置
WO2019085640A1 (zh) * 2017-10-31 2019-05-09 株式会社Ntt都科摩 词义消歧方法和设备、词义扩展方法、装置和设备、计算机可读存储介质
CN108984527A (zh) * 2018-07-10 2018-12-11 广州极天信息技术股份有限公司 一种基于概念的语义识别方法及装置
CN109753569A (zh) * 2018-12-29 2019-05-14 上海智臻智能网络科技股份有限公司 一种多义词发现的方法及装置
CN109766551A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种多义词语义的确定方法和系统
CN111950290A (zh) * 2019-04-30 2020-11-17 广东小天才科技有限公司 一种基于概念图的语义解析方法及装置
CN110110332A (zh) * 2019-05-06 2019-08-09 中国联合网络通信集团有限公司 文本摘要生成方法及设备
US11687724B2 (en) 2020-09-30 2023-06-27 International Business Machines Corporation Word sense disambiguation using a deep logico-neural network

Also Published As

Publication number Publication date
CN102306144B (zh) 2013-05-08

Similar Documents

Publication Publication Date Title
CN102306144B (zh) 一种基于语义词典的词语消歧方法
CN103136352B (zh) 基于双层语义分析的全文检索系统
US10289952B2 (en) Semantic frame identification with distributed word representations
CN103399901B (zh) 一种关键词抽取方法
US10984318B2 (en) Word semantic embedding apparatus and method using lexical semantic network and homograph disambiguating apparatus and method using lexical semantic network and word embedding
US20160140958A1 (en) Natural language question answering system and method, and paraphrase module
EP1793318A2 (en) Answer determination for natural language questionning
CN102081602B (zh) 确定未登录词的类别的方法和设备
CN111694927B (zh) 一种基于改进词移距离算法的文档自动评阅方法
WO2002089004A3 (en) Search data management
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
Nebhi Named Entity Disambiguation using Freebase and Syntactic Parsing.
Zhao et al. Automatic Acquisition of Context-Specific Lexical Paraphrases.
Reddy et al. Indic language machine translation tool: English to Kannada/Telugu
Bopche et al. Grammar checking system using rule based morphological process for an Indian language
KR101414492B1 (ko) 유사문장 검색장치 및 그 검색방법
Islam et al. Design and development of question answering system in bangla language from multiple documents
Sahin Classification of turkish semantic relation pairs using different sources
CN111241854A (zh) 一种基于区块链技术的语言搜索引擎系统
Noraset et al. WebSAIL wikifier at ERD 2014
Hagen et al. Word sense alignment and disambiguation for historical encyclopedias
Padma et al. Morpheme based parts of speech tagger for Kannada language
Branco et al. Very high accuracy rule-based nominal lemmatization with a minimal lexicon
Park et al. Personalized document summarization using pseudo relevance feedback and semantic feature
Akilandeswari et al. Anaphora Resolution in Tamil Novels

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130508

Termination date: 20160718

CF01 Termination of patent right due to non-payment of annual fee