CN102306144B - 一种基于语义词典的词语消歧方法 - Google Patents
一种基于语义词典的词语消歧方法 Download PDFInfo
- Publication number
- CN102306144B CN102306144B CN 201110200321 CN201110200321A CN102306144B CN 102306144 B CN102306144 B CN 102306144B CN 201110200321 CN201110200321 CN 201110200321 CN 201110200321 A CN201110200321 A CN 201110200321A CN 102306144 B CN102306144 B CN 102306144B
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- meaning
- degree
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
一种基于语义词典的词语消歧方法,提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,利用概念的相关关系实现语义消歧的方法,综合考虑概念、概念释义、概念的同义词、概念的扩展释义及扩展概念的同义词集合等因素及句子的连贯度要求,利用概念的相关度计算公式和回溯法选取单词的最佳词义,实现基于上下文的语义消歧。经过实验能够提高语义消歧的召回率和准确率,更好的服务于文本摘要的获取。
Description
技术领域
本发明提出了基于语义词典的词语消歧方法,所提出的方法利用对词语概念相关度的计算,实现自动文本摘要的预处理工作——词语消歧,属于语义技术领域。
背景技术
语义词典的开发基于三个主要假设:一是可分离性假设,也就是语言的词汇成分是可以通过一定的方法离析提炼出来并专门针对它们进行研究,二是可模式化假设,一个人不可能掌握他所运用语言所需的所有词汇,除非他能够利用词义之间已经存在的系统的模式和关系,三是广泛性假设,也就是计算语言学如果真如人那样处理自然语言就必须要像人那样尽可能多的存储词汇知识。语义词典利用上述的三个假设,也就是英语语言特点将英语词典提升到了语义高度[1]。语义词典是以同义词集合作为基本构建单位,根据同义词集合所表达的概念之间的语义关系组织起来语义关系图,它允许使用者从不同的途径去访问词典信息。语义词典跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。
词义是指一个词所具有的意义,词义消歧是一个重要的语义技术,它是自然语言问答系统、指代消解、机器翻译等的必要组成部分。基于它的目标就是在某个特定的上下文中,确定每个多义词在该上下文中特定义项的过程[2],词义消歧可以说是一种纯粹的语义技术。但作为一种规则,这种技术需要语言处理器作为基础,因为如果不将一个文本分割成一系列词、句子和固定表达,不知道它是否是名词或者动词,要在上下文环境里确定一个词的含义会非常困难。词义消歧一直是自然语言处理领域的难题之一。它的研究从上世纪50年代初期开始机器翻译研究以后,就一直受到人们的关注。词义消歧任务本身是一个中间任务,是大多数自然语言处理任务的一个重要的中间层次,在自然语言处理中有广泛的用途。
当前词语消歧主要通过基于语义词典概念组织方式的词语相关度和基于语义词典概念释义的词语相关度来实现,基于语义词典概念组织方式的词语相关度对概念相关性的度量不够充分,相关度指标更多地反映概念之间的相似性,而词语消歧要考虑上下文词语间的相关性[3],基于语义词典概念释义的词语相关度从概念本身、概念的同义词、概念释义[4]、概念的扩展释义[5]和扩展同义词集合角度出发,利用概念之间的相关关系,选取词语的最佳词义和最佳词义组合,实现基于上下文的词语消歧。
1.A.Budanitsky,G.Hirst.Evaluating WordNet-based Measures of Lexical SemanticRelatedness,32(1):13~47,Computational Linguistics,2006.
2.黄昌宁,夏莹语言信息处理专论.北京:清华大学出版社,1996.78-101
3.张燕飞编著.信息组织的主题语言.武汉大学出版社.2005.11
4.S.Banerjee,T.Pedersen.An adapted Lesk algorithm for word sense disambiguationusing Word-Net,2002.
5.S.Banerjee,T.Pedersen.Extended gloss overlaps as a measure of semantic relatedness,2003.
发明内容
技术问题:本发明的目的是提供一种基于语义词典的词语消歧的实现方法,以往词语消歧主要通过基于语义词典概念组织方式的词语相关度来实现消歧,对概念之间的相关性度量不够。本发明的目的是从概念的相关性出发,综合考虑概念本身,概念释义,概念的同义词,概念的扩展概念,扩展概念同义词之间的关系,从词语的相关度和句子的连贯度出发,利用回溯法选取词语的最佳词义,实现基于上下文的词语消歧。
技术方案:本发明结合单词的概念释义、概念的同义词集合、扩展释义和扩展同义词集合,从概念之间的相关性和句子的连贯度出发,选取最佳词义组合,从而达到基于上下文的词语消歧的目的。
本发明的基于语义词典的词语消歧方法主要分为以下步骤:
一、获取文本集中句子列表L:
步骤11)由计算机读入已程序化的文本集合D;
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1,
步骤13)读入文本集D1,
步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;
二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词;
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;
步骤241)如果长度不大于11,则转步骤25);
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性:
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;
步骤252)如果标记正确,单词就用它标记的词性;
步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧;
步骤26)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念;
步骤25)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;
步骤26)重复步骤25)到步骤27),直至找完句子中每个单词;
三、利用回溯法实现基于上下文的语义消歧:
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度;
步骤32)将第二个单词的不同词义依次放入堆栈中;
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10;
步骤34)计算W00和W10之间的相关度,如公式(1):
其中Gloss(si)是单词si的释义;Gloss(rij)是概念rij的释义,包含rij的同义词集合中的词、描述中的词和例句中的词;Syn(si)是单词si的同义词;Syn(rij)是概念rij的同义词集合;s1,s2是句子中两个不同的单词;i是单词s1确定词性后的词义个数,j是单词s2确定词性后的词义个数;Wg,Wrg,Wr分别是重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)的权重;
步骤35)计算W10与W00之间相关度,记为score[1]:
score[1]=score[0]+scorecube[1][0][0][0]公式(2)其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度;
步骤36)将第三个单词的不同词义依次放入堆栈中;
步骤37)选中栈顶元素并出栈,将其记为W20;
步骤38)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和:
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0]公式(3)
步骤39)对句子中剩下的单词重复步骤36)到步骤38),计算相关度总和时只考虑所求单词与其前两单词之间的相关度;这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和;
步骤310)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈;
步骤311)在步骤39)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和;
步骤312)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和;
步骤313)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4):
公式(4)
其中S为句子,wi是句子S中的单词,wj是紧接wi前面的两个单词,即为wi-1wi-2,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w);
步骤314)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧;
步骤315)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧;
步骤316)读入句子列表中第二个句子,转到步骤21),完成所有句子的消歧。
有益效果:本发明方法综合了单词的概念释义、概念的同义词集合、概念的扩展释义和扩展同义词集合,利用文本中概念的相关性和句子的连贯性,实现基于上下文的词语消歧。通过使用本发明的方法,能够提高语义消歧的准确率和召回率,提高词语消歧效率。
附图说明
图1语义消歧的流程图。
图2句子连贯度示意图,其中,图示单词是按照其在句子中位置排序,每条有向弧表示单词之间的相关度,仅考虑单词与其前两个单词之间的相关度。
具体实施方式
基于概念之间的相关性,借助语义词典,实现基于上下文的语义消歧。其中详细的步骤如下:
一、获取文本集中句子列表:
步骤11)读入文本集D;
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本格式word1/pos1 word2/pos2 word3/pos3,记为D1。
步骤13)读入文本集D1,对其中一个文本文件进行处理;
步骤14)将文本中的引用句转化为普通句,即将引用句的引号去掉;
步骤15)读取文本中的每一个句子:读到句号、问号或感叹号就为一个句子,将读取的句子逐行放入句子列表中;
二、分割文本集中的词和词性标注,用语义词典查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号等标点符号分割句子;
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词;
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;
步骤241)如果长度不大于11,则转步骤25);
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性:
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;
步骤252)如果标记正确,单词就用它标记的词性;
步骤253)如果语义词典中没有该单词,就不对其进行消歧;
步骤26)由步骤25)确定词性后,利用语义词典查找该单词的同义词和的释义,即概念;
步骤27)用语义词典查找与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合,不同词性的概念的扩展概念:
名词:概念本身,上位概念,下位概念,与此概念具有整体部分关系的概念。
动词:概念本身,上位概念,下位概念。
形容词:概念本身,近义概念。
副词:概念本身,反义概念。
步骤27)重复步骤25)到步骤27),直至查找完句子中的每个单词;
三、利用回溯法实现基于上下文的语义消歧:
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度;
步骤32)将第二个单词的不同词义依次放入堆栈中;
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10;
步骤34)计算W00和W10之间的相关度,如公式(1):
其中Gloss(rij)是概念rij的释义,对其优化后包含rij的同义词集合中的词、描述中的词和例句中的词,Syn(rij)是概念rij的同义词集合,扩展同义词集合ExSyn,扩展释义ExGloss,s1,s2是句子中两个不同的单词;
步骤35)不同概念之间重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)对相关度relatedness(s1,s2)的影响依次降低,设它们的权重分别为Wg,Wrg,Wr,并规定:
优化后的相关度计算如公式(3):
用公式(3)取代公式(1),计算不同单词之间的相关度,其中i是单词s1确定词性后的词义个数,i是单词s2确定词性后的词义个数;;
步骤36)计算W10与W00之间相关度,记为score[1]:
score[1]=score[0]+scorecube[1][0][0][0]公式(4)其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度;
步骤37)将第三个单词的不同词义依次放入堆栈中;
步骤38)选中栈顶元素并出栈,将其记为W20;
步骤39)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和:
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0]公式(5)
步骤310)对句子中剩下的单词重复步骤37)到步骤39),计算相关度总和时只考虑所求单词与其前两单词之间的相关度。这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和;
步骤311)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈;
步骤312)在步骤310)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和;
步骤313)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和;
步骤314)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4):
其中S为句子,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w),Wi是句子S中的单词,Wj是紧接Wi前面的两个单词;
步骤315)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧;
步骤316)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧;
步骤317)读入句子列表中第二个句子,转到步骤21),直至完成所有句子的消歧。
Claims (1)
1.一种基于语义词典的词语消歧方法,其特征在于该方法主要分为以下步骤:
一、获取文本集中句子列表L:
步骤11)由计算机读入已程序化的文本集合D;
步骤12)利用分词组件对文本集合D中的每个文本分词,得到标注后的文本集合,记为D1,
步骤13)读入文本集D1,
步骤14)对其中一个文本文件进行处理,读取的句子逐行放入句子列表L中;
二、分割文本集中的词和词性标注,用语义词典数据库查找每个单词的释义,同义词集合,扩展释义和扩展同义词集合:
步骤21)读入虚词表和句子列表中的第一个句子,将句子中的每个单词和虚词表作比较,剔除句子中的虚词;
步骤22)将由步骤1)得到的句子按句子中逗号、冒号、分号、句号分割句子;
步骤23)读入由步骤22)分割后的第一个句子,读到斜杠,将斜杠前的单词和斜杠后的词性依次放在wordPos[i],i=0,1.....n,,i为偶数时数组存放的是单词;
步骤24)将数组中单词取出放入sentenceWords中,判定sentenceWords长度;
步骤241)如果长度不大于11,则转步骤25);
步骤242)如果长度大于11,按长度11重新找分割点,分割完后,转步骤25);
步骤25)读入语义词典和分割后句子的第一个单词,查找该词在语义词典中不同词性下的词义个数,确定单词的词性:
步骤251)如果文本中该单词的词性没有被标记或者标记有错,标记有错指的是语义词典中没有找到该单词的这种词性,在这些情况下,就以语义词典中该单词的词义数最多的词性作为它的词性;
步骤252)如果标记正确,单词就用它标记的词性;
步骤253)如果语义词典数据库中没有该单词,就不对其进行消歧;
步骤26)由步骤25)确定词性后,利用语义词典数据库查找该单词的同义词和的释义,即概念;
步骤27)用语义词典查找数据库与步骤26)确定的各个概念具有直接语义关系的概念的释义,即扩展释义和扩展释义的同义词集合;
步骤28)重复步骤25)到步骤27),直至找完句子中每个单词;
三、利用回溯法实现基于上下文的语义消歧:
步骤31)读入由步骤22)分割后第一个句子的第一个单词,将该单词的不同词义依次放入堆栈中;选中栈顶元素并出栈,将该栈顶元素记为W00,表示第0个单词的第0个词义,此时,score[0]=0,作为第0个单词的相关度;
步骤32)将第二个单词的不同词义依次放入堆栈中;
步骤33)选中栈顶元素并出栈,将该栈顶元素记为W10;
步骤34)计算W00和W10之间的相关度:
其中Gloss(si)是单词si的释义;Gloss(rij)是概念rij的释义,包含rij的同义词集合中的词、描述中的词和例句中的词;Syn(si)是单词si的同义词;Syn(rij)是概念rij的同义词集合;s1,s2是句子中两个不同的单词;i是单词si确定词性后的词义个数,j是单词s2确定词性后的词义个数;Wg,Wrg,Wr分别是重合度Gloss(s1)∩Syn(s2)、Gloss(s1)∩Syn(r2j)、Gloss(r1i)∩Syn(r2j)的权重;
步骤35)计算W10与W00之间相关度,记为score[1]:
score[1]=score[0]+scorecube[1][0][0][0] 公式(2)
其中scorecube[1][0][0][0]是指句子中第1个单词的第0个词义与第0个单词的第0个词义的相关度;
步骤36)将第三个单词的不同词义依次放入堆栈中;
步骤37)选中栈顶元素并出栈,将其记为W20;
步骤38)计算W20与前两个单词的第0个词义W10、W00之间的相关度总和:
score[2]=score[1]+scorecube[2][0][1][0]+scorecube[2][0][0][0] 公式(3)
步骤39)对句子中剩下的单词重复步骤36)到步骤38),计算相关度总和时只考虑所求单词与其前两单词之间的相关度;这样就可以得到一个句子中所有单词的第0个词义与其前面两个单词的第0个词义之间的相关度总和,相当于状态空间树中第一条分支上的相关度总和;
步骤310)此时,栈顶元素为最后一个单词的第1个词义,选中并出栈;
步骤311)在步骤39)得到的相关度总和基础上,通过减掉最后一个单词的第0个词义与其前两个单词的第0个词义之间的相关度,然后加上其第1个词义与前两个单词的第0个词义之间的相关度,相当于状态空间树中第二条分支上的相关度总和;
步骤312)依次对栈顶元素作类似于步骤310)及步骤311)操作,就可以得到整个状态空间树所有分支的相关度总和;
步骤313)再考察句子的连贯度,即单词之间的最大相关度,句子的连贯度计算如公式(4):
其中S为句子,wi是句子S中的单词,wj是紧接wi前面的两个单词,即为wi-1、wi-2,假设句子中的单词w只跟其前面的2k个单词有语义相关性,那么称这2k个单词为w的上下文,表示为Context(w);
步骤314)选择相关度总和最大的那条分支,该分支上单词的词义就是经过消歧的最佳词义,到此完成分割后的第一个句子的消歧;
步骤315)读入分割后的第二个句子,转到步骤23),完成消歧,直至完成第一个句子的全部消歧;
步骤316)读入句子列表中第二个句子,转到步骤21),完成所有句子的消歧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110200321 CN102306144B (zh) | 2011-07-18 | 2011-07-18 | 一种基于语义词典的词语消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110200321 CN102306144B (zh) | 2011-07-18 | 2011-07-18 | 一种基于语义词典的词语消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102306144A CN102306144A (zh) | 2012-01-04 |
CN102306144B true CN102306144B (zh) | 2013-05-08 |
Family
ID=45380008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110200321 Expired - Fee Related CN102306144B (zh) | 2011-07-18 | 2011-07-18 | 一种基于语义词典的词语消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102306144B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600566B2 (en) | 2010-05-14 | 2017-03-21 | Microsoft Technology Licensing, Llc | Identifying entity synonyms |
US20150006155A1 (en) * | 2012-03-07 | 2015-01-01 | Mitsubishi Electric Corporation | Device, method, and program for word sense estimation |
US10032131B2 (en) | 2012-06-20 | 2018-07-24 | Microsoft Technology Licensing, Llc | Data services for enterprises leveraging search system data assets |
US9594831B2 (en) | 2012-06-22 | 2017-03-14 | Microsoft Technology Licensing, Llc | Targeted disambiguation of named entities |
US9229924B2 (en) * | 2012-08-24 | 2016-01-05 | Microsoft Technology Licensing, Llc | Word detection and domain dictionary recommendation |
RU2592395C2 (ru) * | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
CN105528349B (zh) | 2014-09-29 | 2019-02-01 | 华为技术有限公司 | 知识库中问句解析的方法及设备 |
CN104281565B (zh) * | 2014-09-30 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | 语义词典构建方法和装置 |
CN106445911B (zh) * | 2016-03-18 | 2022-02-22 | 苏州大学 | 一种基于微观话题结构的指代消解方法及系统 |
CN106021233B (zh) * | 2016-05-24 | 2018-07-27 | 广东外语外贸大学 | 基于文本语境信息层级量化的转喻加工实验方法及应用 |
CN106126501B (zh) * | 2016-06-29 | 2019-02-19 | 齐鲁工业大学 | 一种基于依存约束和知识的名词词义消歧方法和装置 |
CN106202034B (zh) * | 2016-06-29 | 2019-05-28 | 齐鲁工业大学 | 一种基于依存约束和知识的形容词词义消歧方法和装置 |
CN109726385A (zh) * | 2017-10-31 | 2019-05-07 | 株式会社Ntt都科摩 | 词义消歧方法和设备、词义扩展方法和装置 |
CN108984527A (zh) * | 2018-07-10 | 2018-12-11 | 广州极天信息技术股份有限公司 | 一种基于概念的语义识别方法及装置 |
CN109753569A (zh) * | 2018-12-29 | 2019-05-14 | 上海智臻智能网络科技股份有限公司 | 一种多义词发现的方法及装置 |
CN109766551B (zh) * | 2019-01-08 | 2023-07-14 | 广东小天才科技有限公司 | 一种多义词语义的确定方法和系统 |
CN111950290A (zh) * | 2019-04-30 | 2020-11-17 | 广东小天才科技有限公司 | 一种基于概念图的语义解析方法及装置 |
CN110110332B (zh) * | 2019-05-06 | 2023-04-25 | 中国联合网络通信集团有限公司 | 文本摘要生成方法及设备 |
US11687724B2 (en) | 2020-09-30 | 2023-06-27 | International Business Machines Corporation | Word sense disambiguation using a deep logico-neural network |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904880A (zh) * | 2005-07-29 | 2007-01-31 | 中国科学院声学研究所 | 一种用于句子分析中动词歧义结构消解的语义分析方法 |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004054567A (ja) * | 2002-07-19 | 2004-02-19 | Communication Research Laboratory | データ分類方法 |
US20070106657A1 (en) * | 2005-11-10 | 2007-05-10 | Brzeski Vadim V | Word sense disambiguation |
US8463593B2 (en) * | 2007-08-31 | 2013-06-11 | Microsoft Corporation | Natural language hypernym weighting for word sense disambiguation |
-
2011
- 2011-07-18 CN CN 201110200321 patent/CN102306144B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1904880A (zh) * | 2005-07-29 | 2007-01-31 | 中国科学院声学研究所 | 一种用于句子分析中动词歧义结构消解的语义分析方法 |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
Non-Patent Citations (6)
Title |
---|
《基于多知识源的汉语词义消歧方法》;张仰森 等;《汉语学报》;20081231(第22期);46-52 * |
《基于维基百科的自动词义消歧方法》;史天艺 等;《计算机工程》;20090930;第35卷(第18期);62-64,66 * |
JP特开2004-054567A 2004.02.19 |
史天艺 等.《基于维基百科的自动词义消歧方法》.《计算机工程》.2009,第35卷(第18期),62-64,66. |
张仰森 等.《基于多知识源的汉语词义消歧方法》.《汉语学报》.2008,(第22期),46-52. |
闫蓉.《基于语义相关度计算的汉语词义消歧方法研究》.《内蒙古大学学报(自然科学版)》.2007,第38卷(第6期),693-697. * |
Also Published As
Publication number | Publication date |
---|---|
CN102306144A (zh) | 2012-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102306144B (zh) | 一种基于语义词典的词语消歧方法 | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
CN109190117B (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN103399901B (zh) | 一种关键词抽取方法 | |
Zhang et al. | Entity linking leveraging automatically generated annotation | |
Melucci et al. | A novel method for stemmer generation based on hidden Markov models | |
Varma et al. | IIIT Hyderabad at TAC 2009. | |
CN102081602B (zh) | 确定未登录词的类别的方法和设备 | |
CN111694927B (zh) | 一种基于改进词移距离算法的文档自动评阅方法 | |
CN104881402A (zh) | 中文网络话题评论文本语义倾向分析的方法及装置 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN111428031A (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
Kessler et al. | Extraction of terminology in the field of construction | |
Gupta | Automatic stemming of words for Punjabi language | |
Nebhi | Named Entity Disambiguation using Freebase and Syntactic Parsing. | |
Zhao et al. | Automatic Acquisition of Context-Specific Lexical Paraphrases. | |
Bopche et al. | Grammar checking system using rule based morphological process for an Indian language | |
KR101414492B1 (ko) | 유사문장 검색장치 및 그 검색방법 | |
Shams et al. | Corpus-based web document summarization using statistical and linguistic approach | |
Tran et al. | A model of vietnamese person named entity question answering system | |
Dodal et al. | Multi-lingual information retrieval using deep learning | |
Boulaknadel et al. | Multi-word term indexing for Arabic document retrieval | |
Sahin | Classification of turkish semantic relation pairs using different sources | |
Hagen et al. | Word sense alignment and disambiguation for historical encyclopedias | |
Yang et al. | Lao Named Entity Recognition based on conditional random fields with simple heuristic information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130508 Termination date: 20160718 |