CN109614620A - 一种基于HowNet的图模型词义消歧方法和系统 - Google Patents

一种基于HowNet的图模型词义消歧方法和系统 Download PDF

Info

Publication number
CN109614620A
CN109614620A CN201811503356.1A CN201811503356A CN109614620A CN 109614620 A CN109614620 A CN 109614620A CN 201811503356 A CN201811503356 A CN 201811503356A CN 109614620 A CN109614620 A CN 109614620A
Authority
CN
China
Prior art keywords
word
disambiguation
interdependent
context
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811503356.1A
Other languages
English (en)
Other versions
CN109614620B (zh
Inventor
鹿文鹏
张旭
张若雨
成金勇
乔新晓
张维玉
孟凡擎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201811503356.1A priority Critical patent/CN109614620B/zh
Publication of CN109614620A publication Critical patent/CN109614620A/zh
Application granted granted Critical
Publication of CN109614620B publication Critical patent/CN109614620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于HowNet的图模型词义消歧方法和系统,属于自然语言处理技术领域,本发明要解决的技术问题为如何充分利用知网知识,深入挖掘知网蕴含的语义知识,将其作为词义消歧的依据,提升词义消歧的性能,采用的技术方案为:①、一种基于HowNet的图模型词义消歧方法,包括如下步骤:S1、构建依存消歧图:分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;S2、构建上下文消歧图;S3、利用消歧图进行消歧处理;S4、选择正确词义。②、一种基于HowNet的图模型词义消歧系统,该系统包括依存消歧图构建单元、上下文消歧图构建单元、消歧图处理单元和正确词义选择单元。

Description

一种基于HowNet的图模型词义消歧方法和系统
技术领域
本发明涉及自然语言处理技术领域,具体地说是一种基于HowNet的图模型词义消歧方法和系统。
背景技术
知网(英文名称为HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。即,知网是一个以各类概念为描述对象的知识系统,其并不是义类词典,也不是语义词典。知网把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统,其与其他的树状的词汇数据库有着本质不同。
词义消歧是指根据歧义词所处的特定上下文环境确定其具体词义,它是自然语言处理领域的一项基础性研究,对机器翻译、信息抽取、信息检索、文本分类、情感分析等上层应用有着直接影响。无论是中文还是英文等其他西方语言,一词多义的现象是普遍存在的。
传统的词义消歧方法存在着对知网知识利用不充分的问题,没有充分挖掘出知网中存在的消歧知识,例如,知网中的例句就有着较强的词义区分能力。故如何充分利用知网知识,深入挖掘知网蕴含的语义知识,将其作为词义消歧的依据,提升词义消歧的性能是目前急需解决的技术问题。
专利号为CN105893346A的专利文献公开了一种基于依存句法树的图模型词义消歧方法,其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。但是该技术方案利用BabelNet中蕴含的语义关联关系,而不是HowNet中的语义知识;其适用于英文词义消歧工作,但对于中文并不适用,不能解决利用知网知识,提升词义消歧的性能的问题。
专利号为CN104281645B的专利文献公开了一种基于词汇语义和句法依存的情感关键句识别方法,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。但是该技术方案使用HowNet的情感词典与其他资源,共同构成基础情感词典,进而去发现获取候选情感句;利用依存句法分析提取依存模板特征;将各种特征融合,利用SVM分类器识别情感关键句,不能解决利用知网知识,提升词义消歧的性能的问题。
专利号为CN101295294专利文献公开了一种基于信息增益改进贝叶斯词义消歧方法,该方法采用“知网”(HowNet)作为消歧资源,通过知网中的义项来描述和区分词在上下文中的词义,利用人民日报标注语料库,对歧义词进行词义义项标注,构建了词义消歧语料库。采用信息增益方法对语料进行统计,计算出歧义词上下文不同位置信息增益值,根据信息增益值选取影响歧义词前后6个位置词构建词义消歧特征向量,采用贝叶斯算法,通过信息增益为特征向量12维特征赋予不同的权重值,构建了改进贝叶斯词义消歧模型。但是该技术方案是一种传统的基于贝叶斯分类器的词义消歧方法,需要大量的训练数据,其只能适用于小规模数据集,无法真正在大规模词义消歧任务上应用,不能解决利用知网知识,提升词义消歧的性能的问题。
发明内容
本发明的技术任务是提供一种基于HowNet的图模型词义消歧方法和系统,来解决如何充分利用知网知识,深入挖掘知网蕴含的语义知识,将其作为词义消歧的依据,提升词义消歧的性能的问题。
本发明的技术任务是按以下方式实现的,一种基于HowNet的图模型词义消歧方法,包括如下步骤:
S1、构建依存消歧图:分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;
S2、构建上下文消歧图:在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;
S3、利用消歧图进行消歧处理:借助于依存消歧图和上下文消歧图进行消歧处理;
S4、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者作为正确词义。
作为优选,所述步骤S1中构建依存消歧图具体步骤如下:
S101、构建上下文依存关系图:对歧义句进行依存句法分析,获取上下文依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到上下文依存关系图;
S102、构建例句依存关系图:对目标歧义词在HowNet词义概念定义中的例句进行依存句法分析,获取例句依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到例句依存关系图;
S103.构建依存消歧图:融合上下文依存关系图和例句依存关系图,得到依存消歧图,具体如下:
①、若目标歧义词在HowNet的词义概念定义中,存在一个例句,使得该例句所具有的依存关系都匹配歧义句,即该例句的例句依存关系图为歧义句依存关系图的子图时,将上下文依存关系图和例句依存关系图进行合并,作为依存消歧图,并在图中标注对应的词义概念信息;其中,依存消歧图是一个有向图,图中边表示顶点词语间的依存关系,边的方向由支配者指向被支配者;其中,歧义句依存关系图的获取方法与S102例句依存关系图类似,只需将依存句法分析的对象换为歧义句即可;
②、若目标歧义词在HowNet的词义概念定义中,未有一个例句,使得该例句所具有的依存关系匹配歧义句,即各个例句的例句依存关系图均不是歧义句依存关系图的子图,则直接将上下文依存关系图作为依存消歧图。
更优地,所述步骤S101中依存句法分析是指根据依存句法分析器中的依存句法分析模型规定的依存语法规则分析句子的结构,确定各个词或词组间的依存关系以及在句子中的作用,从而得出依存句法分析的结果,依存句法分析的结果采用三元组的形式表示,具体为:依存关系(支配者,从属者);其中,依存句法分析器采用Stanford CoreNLP自然语言工具包,依存句法分析的模型采用chineseFactored.ser.gz模型。
作为优选,所述步骤S2中构建上下文消歧图具体步骤如下:
S201、提取上下文知识:根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
S202、构建上下文消歧图:以上下文知识和目标歧义词各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
更优地,所述步骤S202中上下文消歧图为一个无向图,图中的顶点表示词义概念,采用词语词汇和HowNet概念编号相结合的形式进行表示;边表示语义关系,采用HowNet概念相似度测度工具包进行概念相似度计算,并将相似度作为边的权重;其中,语义关系是指HowNet中的上下文、整体部分、同义关系等,需要注意的是,这里并没有将其细化为具体的某种语义关系,而是统一采用HowNet概念相似度测度工具包进行语义关系的度量。
作为优选,所述步骤S3中利用消歧图进行消歧处理具体步骤如下:
S301、确定消歧处理规则:对上下文消歧图和依存消歧图进行处理的规则是,判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图进行消歧处理,下一步执行步骤S302;
②、若不存在,则使用上下文消歧图进行处理,下一步执行步骤S303;
S302、利用依存消歧图进行消歧处理:将依存消歧图中存在的目标歧义词的词义概念个数记为count,判断count是否等于1:
①、若count等于1,即依存消歧图中只存在唯一一个词义概念标注,则将该词义概念作为目标歧义词的消歧结果,下一步执行结束命令;
②、若count不等于1,则下一步执行步骤S303;
S303、利用上下文消歧图进行消歧处理:对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表。
更优地,所述步骤S303中图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
一种基于HowNet的图模型词义消歧系统,该系统包括,
依存消歧图构建单元,用于分别对歧义句和目标歧义词例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;
上下文消歧图构建单元,用于在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;
消歧图处理单元,用于利用依存消歧图和上下文消歧图进行消歧处理;
正确词义选择单元,用于在消歧结果中选择正确词义。
作为优选,所述依存消歧图构建单元包括,
上下文依存关系图构建单元,用于对歧义句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建上下文依存关系图;
例句依存关系图构建单元,用于对目标歧义词例句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建例句依存关系图;
依存消歧图构建单元,用于融合上下文依存关系图和例句依存关系图,得到依存消歧图;
所述上下文消歧图构建单元包括:
上下文知识提取单元,用于根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
上下文消歧图构建单元,用于以上下文知识和目标歧义词的各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
作为优选,所述消歧图处理单元包括:
消歧处理规则确定单元,用于确定对上下文消歧图和依存消歧图进行处理的规则:
判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图处理单元进行消歧处理;
②、若不存在,则使用上下文消歧图处理单元进行处理;
依存消歧图处理单元,用于处理依存消歧图,将依存消歧图中存在的目标歧义词的词义概念的个数记为count,判断count是否等于1:
①、若count等于1,即依存消歧图中只存在唯一一个词义概念,则将该词义概念作为目标歧义词的消歧结果;
②、若count不等于1,则采用上下文消歧图处理单元进行消歧处理;
上下文消歧图处理单元,用于对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;
图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点;
所述正确词义构建单元包括,
选择正确词义单元,用于获取目标词各词义概念得分最高者作为正确词义。
本发明的基于HowNet的图模型词义消歧方法和系统具有以下优点:
(一)、本发明通过深入挖掘知网蕴含的语义知识,将其作为词义消歧的依据,进而构建依存消歧图,完成对目标歧义词词义概念的判定,有助于词义消歧性能的提升;
(二)、本发明分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图,通过依存消歧图能够有效挖掘HowNet中的消歧知识资源,提高消歧准确率;
(三)、本发明通过PageRank算法获取图评分,通过图评分的大小能够自动为目标歧义词提供候选词义;
(四)、本发明对歧义句进行依存句法分析,获取上下文依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,能够自动对句子进行依存句法分析,快速生成相应的依存关系图;
(五)、本发明通过将依存消歧图和上下文消歧图的整合,同时使用了HowNet中蕴含的词义概念例句知识和语义关联关系知识,能够充分挖掘HowNet中的消歧知识,提高词义消歧的正确率。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于HowNet的图模型词义消歧方法流程框图;
附图2为构建依存消歧图的流程框图;
附图3为构建上下文消歧图的流程框图;
附图4为利用消歧图进行消歧处理的流程框图;
附图5为基于HowNet的图模型词义消歧系统的结构框图;
附图6为句子A的上下文依存关系图;
附图7为句子A中歧义词“儿女”的第一个词义的例句依存关系图;
附图8为句子A中歧义词“儿女”的第二个词义的例句依存关系图;
附图9为句子A的依存消歧图;
附图10为句子B的上下文消歧图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于HowNet的图模型词义消歧方法和系统作以下详细地说明。
部分依存句法分析中的依存关系说明符,如表1所示:
实施例1:
如附图1所示,本发明的基于HowNet的图模型词义消歧方法和系,包括如下步骤:
S1、构建依存消歧图:分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;如附图2所示,构建依存消歧图的具体步骤如下:
S101、构建上下文依存关系图:对歧义句进行依存句法分析,获取上下文依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到上下文依存关系图;依存句法分析是指根据依存句法分析器中的依存句法分析模型规定的依存语法规则分析句子的结构,确定各个词或词组间的依存关系以及在句子中的作用,从而得出依存句法分析的结果,依存句法分析的结果采用三元组的形式表示,具体为:依存关系(支配者,从属者);其中,依存句法分析器采用Stanford CoreNLP自然语言工具包,依存句法分析的模型采用chineseFactored.ser.gz模型。
举例:对句子“她生养了一双可爱的儿女。”(将该句子简称为“句子A”)进行依存句法分析,可以得到的上下文依存元组集合如下:
nsubj(生养-2,她-1);
root(ROOT-0,,生养-2);
asp(生养-2,了-3);
nummod(双-5,一-4);
clf(儿女-8,双-5);
amod(儿女-8,可爱-6);
mark(可爱-6,的-7);
dobj(生养-2,儿女-8);
punct(生养-2,。-9);
与之对应的上下文依存关系图,如图6所示,方框内的PN、VV、AS、CD、M、JJ、DEG、NN、PU等类似符号,表示词性标记。
S102、构建例句依存关系图:对目标歧义词在HowNet词义概念定义中的例句进行依存句法分析,获取例句依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到例句依存关系图;
HowNet是由董振东教授花费十多年时间组织构建的一个常识性知识系统。它以中文和英文词语概念间、概念所含属性间的关系为基础,构建了一个网状知识系统。以常用多义词“打”的一个词义为例,其在HowNet中的具体概念定义如下所示:
NO.=023683
W_C=打
G_C=V[da3]
S_C=
E_C=~球,~网球,~篮球,~羽毛球,~牌,~扑克,~麻将,~秋千,~太极拳,球~得很棒
W_E=play
G_E=V
S_E=
E_E=
DEF={exercise|锻炼:domain={sport|体育}}
其中,NO.表示概念的编号,唯一标识具体的一条词义;W_C表示概念所对应的具体词语词汇形式;G_C表示词性和拼音;S_C表示概念的情感信息;E_C是HowNet为每条词义标注的例句,旨在突出词义的区分能力而不是强调其释义能力,对于词义消歧有一定帮助;W_E表示该概念所对应的英文词语;G_E表示英文词语的词性;S_E表示英文词语的情感信息;E_E表示英文词语的例句;DEF表示概念的义原定义,义原为HowNet中的最小语义单位,HowNet中的概念定义由义原构成,定义中的第一个义原为主要义原,代表了该概念的主要语义信息。
举例:继续步骤S101中的歧义句“她生养了一双可爱的儿女。”的处理为例,获取该句目标歧义词“儿女”在HowNet中各词义概念的例句。“儿女”在HowNet中有两个意思,一是青年男女,例如“中华儿女”;二是子女,例如“儿女成双”。其中,第一个词义有五个简短的例句“一双~,养育~,有~的人,懂事的~,供应~的学费”,分别对其进行依存句法分析,得到各例句对应的依存元组集合。例句“一双~”对应的依存元组集合为“nummod(儿女-3,一-1),mark:clf(一-1,双-2)”;“养育~”对应于“dobj(养育-1,儿女-2)”;“有~的人”对应于“dep(人-4,有-1),mark(有-1,的-3),dobj(有-1,儿女-2)”;“懂事的~”对应于“acl(儿女-3,懂事-1),mark(懂事-1,的-2)”;“供应~的学费”对应于“acl(学费-4,供应-1),mark(供应-1,的-3),dobj(供应-1,儿女-2)”。进一步可由依存元组集合转化得到例句依存关系图,具体如图7所示。
第二个词义有两个例句“~情长,~私情”,分别对其进行依存句法分析,得到依存元组集合“compound:nn(情长-2,儿女-1)”,“compound:nn(私情-2,儿女-1)”,进一步可得到例句依存关系图,具体如图8所示
S103.构建依存消歧图:融合上下文依存关系图和例句依存关系图,得到依存消歧图,具体如下:
①、若目标歧义词在HowNet的词义概念定义中,存在一个例句,使得该例句所具有的依存关系都匹配歧义句,即该例句的例句依存关系图为歧义句依存关系图的子图时,将上下文依存关系图和例句依存关系图进行合并,作为依存消歧图,并在图中标注对应的词义信息;其中,依存消歧图是一个有向图,图中边表示顶点词语间的依存关系,边的方向由支配者指向被支配者;其中,歧义句依存关系图的获取方法与S102例句依存关系图类似,只需将依存句法分析的对象换为歧义句即可;
②、若目标歧义词在HowNet的词义概念定义中,未有一个例句,使得该例句所具有的依存关系匹配歧义句,即各个例句的例句依存关系图均不是歧义句依存关系图的子图,则直接将上下文依存关系图作为依存消歧图。
举例:下面继续使用上述中的示例进行说明,如果歧义词在HowNet的词义概念定义中,存在一个例句使得它所具有的依存关系都匹配歧义句,也即存在例句依存关系图为歧义句依存关系图的子图,此时将两者进行合并,并在图中标注对应的词义信息。上文示例中的歧义句为“她生养了一双可爱的儿女。”;歧义词“儿女”第一个词义的各例句为“一双~,养育~,有~的人,懂事的~,供应~的学费”。比较附图7中的(a)与附图6,显然,存在例句“一双~”的依存关系图为歧义句依存关系图的子图,此时将两者进行合并,并标注相应的词义信息,具体为HowNet中的词义概念编号“034111”,如图9所示。
S2、构建上下文消歧图:在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;如附图3所示,构建上下文消歧图具体步骤如下:
S201、提取上下文知识:根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
举例:继续以上例做说明,如步骤S101中上下文关系图,附图6所示,设定最短路径为1时,得到上下文知识为“生养”、“可爱”。
S202、构建上下文消歧图:以上下文知识和目标歧义词各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。其中,上下文消歧图为一个无向图,图中的顶点表示词义概念,采用词语词汇和HowNet概念编号相结合的形式进行表示;边表示语义关系,采用HowNet概念相似度测度工具包进行概念相似度计算,并将概念相似度作为边的权重;其中,语义关系是指HowNet中的上下文、整体部分、同义关系等,需要注意的是,这里并没有将其细化为具体的某种语义关系,而是统一采用HowNet概念相似度测度工具包进行语义关系的度量。
举例:以“他是一位老中医专家”(该句子简称为“句子B”)为例,设目标歧义词为“中医”,它的上下文知识为:“老”、“专家”,那么,以目标歧义词和上下文知识的各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,得到上下文消歧图,如附图10所示,在HowNet中“中医”有两个词义,一是中医医生,二是中医相关的知识,其标号分别为:“中医_157329”和“中医_157329”。上下文知识是根据依存关系图得到的,能够获取相关词语的词性标注信息,例如,本例中的“老”为形容词,在处理时直接获取其在HowNet中的形容词性词义概念,由于“老”形容词性的词义概念较多,方便起见这里只取其部分词义概念。
S3、利用消歧图进行消歧处理:借助于依存消歧图和上下文消歧图进行消歧处理;如附图4所示,利用消歧图进行消歧处理具体步骤如下:
S301、确定消歧处理规则:对上下文消歧图和依存消歧图进行处理的规则是,判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图进行消歧处理,下一步执行步骤S302;
②、若不存在,则使用上下文消歧图进行处理,下一步执行步骤S303;
S302、利用依存消歧图进行消歧处理:将依存消歧图中存在的目标歧义词的词义概念个数记为count,判断count是否等于1:
①、若count等于1,即依存消歧图中只存在唯一一个词义概念标注,则将该词义概念作为目标歧义词的消歧结果,下一步执行结束命令;
②、若count不等于1,则下一步执行步骤S303;
举例:在上文附图9所示的依存消歧图中,只存在一个HowNet词义概念编号“034111”,此时将其作为目标歧义词的消歧结果。
S303、利用上下文消歧图进行消歧处理:对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表。
图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
举例:以句子B为例,图评分后,目标歧义词的候选词义概念的分如下:
中医_157329 0.1468672752983792;
中医_157332 0.026231045201704238。
S4、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者作为正确词义。
举例:消歧结果存在多个词义,选择词义概念得分最高者为正确词义,也即中医_157329。
实施例2:
如附图5所示,本发明的基于HowNet的图模型词义消歧系统,该系统包括,
依存消歧图构建单元,用于分别对歧义句和目标歧义词例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;依存消歧图构建单元包括,
上下文依存关系图构建单元,用于对歧义句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建上下文依存关系图;
例句依存关系图构建单元,用于对目标歧义词例句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建例句依存关系图;
依存消歧图构建单元,用于融合上下文依存关系图和例句依存关系图,得到依存消歧图。
上下文消歧图构建单元,用于在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;上下文消歧图构建单元包括:
上下文知识提取单元,用于根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
上下文消歧图构建单元,用于以上下文知识和目标歧义词的各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
消歧图处理单元,用于利用依存消歧图和上下文消歧图进行消歧处理;消歧图处理单元包括:
消歧处理规则确定单元,用于确定对上下文消歧图和依存消歧图进行处理的规则:
判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图处理单元进行消歧处理;
②、若不存在,则使用上下文消歧图处理单元进行处理;
依存消歧图处理单元,用于处理依存消歧图,将依存消歧图中存在的目标歧义词的词义概念的个数记为count,判断count是否等于1:
①、若count等于1,即依存消歧图中只存在唯一一个词义概念,则将该词义概念作为目标歧义词的消歧结果;
②、若count不等于1,则采用上下文消歧图处理单元进行消歧处理;
上下文消歧图处理单元,用于对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;
图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
正确词义选择单元,用于在消歧结果中选择正确词义;正确词义构建单元包括,选择正确词义单元,用于获取目标词各词义概念得分最高者作为正确词义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于HowNet的图模型词义消歧方法,其特征在于,包括如下步骤:
S1、构建依存消歧图:分别对歧义句和目标歧义词在HowNet中的例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;
S2、构建上下文消歧图:在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;
S3、利用消歧图进行消歧处理:借助于依存消歧图和上下文消歧图进行消歧处理;
S4、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者作为正确词义。
2.根据权利要求1所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S1中构建依存消歧图具体步骤如下:
S101、构建上下文依存关系图:对歧义句进行依存句法分析,获取上下文依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到上下文依存关系图;
S102、构建例句依存关系图:对目标歧义词在HowNet词义概念定义中的例句进行依存句法分析,获取例句依存元组集合,将依存元组中的词语和依存关系分别作为图的顶点和边,得到例句依存关系图;
S103.构建依存消歧图:融合上下文依存关系图和例句依存关系图,得到依存消歧图,具体如下:
①、若目标歧义词在HowNet的词义概念定义中,存在一个例句,使得该例句所具有的依存关系都匹配歧义句,即该例句的例句依存关系图为歧义句依存关系图的子图时,将上下文依存关系图和例句依存关系图进行合并,作为依存消歧图,并在图中标注对应的词义概念信息;
②、若目标歧义词在HowNet的词义概念定义中,未有一个例句,使得该例句所具有的依存关系匹配歧义句,即各个例句的例句依存关系图均不是歧义句依存关系图的子图,则直接将上下文依存关系图作为依存消歧图。
3.根据权利要求2所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S101中依存句法分析是指根据依存句法分析器中的依存句法分析模型规定的依存语法规则分析句子的结构,确定各个词或词组间的依存关系以及在句子中的作用,从而得出依存句法分析的结果,依存句法分析的结果采用三元组的形式表示。
4.根据权利要求1所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S2中构建上下文消歧图具体步骤如下:
S201、提取上下文知识:根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
S202、构建上下文消歧图:以上下文知识和目标歧义词各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
5.根据权利要求4所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S202中上下文消歧图为一个无向图,图中的顶点表示词义概念,采用词语词汇和HowNet概念编号相结合的形式进行表示;边表示语义关系,并将概念相似度作为边的权重。
6.根据权利要求1所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S3中利用消歧图进行消歧处理具体步骤如下:
S301、确定消歧处理规则:对上下文消歧图和依存消歧图进行处理的规则是,判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图进行消歧处理,下一步执行步骤S302;
②、若不存在,则使用上下文消歧图进行处理,下一步执行步骤S303;
S302、利用依存消歧图进行消歧处理:将依存消歧图中存在的目标歧义词的词义概念个数记为count,判断count是否等于1:
①、若count等于1,即依存消歧图中只存在唯一一个词义概念标注,则将该词义概念作为目标歧义词的消歧结果,下一步执行结束命令;
②、若count不等于1,则下一步执行步骤S303;
S303、利用上下文消歧图进行消歧处理:对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表。
7.根据权利要求6所述的基于HowNet的图模型词义消歧方法,其特征在于,所述步骤S303中图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
8.一种基于HowNet的图模型词义消歧系统,其特征在于,该系统包括,
依存消歧图构建单元,用于分别对歧义句和目标歧义词例句进行依存句法分析,得到上下文依存关系图和例句依存关系图,进而融合得到依存消歧图;
上下文消歧图构建单元,用于在上下文依存关系图中获取上下文知识,对目标歧义词各词义概念进行概念相似度计算,进而得到上下文消歧图;
消歧图处理单元,用于利用依存消歧图和上下文消歧图进行消歧处理;
正确词义选择单元,用于在消歧结果中选择正确词义。
9.根据权利要求8所述的基于HowNet的图模型词义消歧系统,其特征在于,所述依存消歧图构建单元包括,
上下文依存关系图构建单元,用于对歧义句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建上下文依存关系图;
例句依存关系图构建单元,用于对目标歧义词例句进行依存句法分析,将所得依存元组中的词语和依存关系,分别作为图的顶点和边,构建例句依存关系图;
依存消歧图构建单元,用于融合上下文依存关系图和例句依存关系图,得到依存消歧图;
所述上下文消歧图构建单元包括:
上下文知识提取单元,用于根据上下文依存关系图,获取与目标歧义词在设定最短路径范围内的实词作为上下文知识;
上下文消歧图构建单元,用于以上下文知识和目标歧义词的各词义概念为顶点,概念间的语义关系为边,概念相似度为边的权重,构建上下文消歧图。
10.根据权利要求8或9所述的基于HowNet的图模型词义消歧系统,其特征在于,所述消歧图处理单元包括:
消歧处理规则确定单元,用于确定对上下文消歧图和依存消歧图进行处理的规则:
判断依存消歧图中是否存在词义概念标注信息:
①、若存在,则对其使用依存消歧图处理单元进行消歧处理;
②、若不存在,则使用上下文消歧图处理单元进行处理;
依存消歧图处理单元,用于处理依存消歧图,将依存消歧图中存在的目标歧义词的词义概念的个数记为count,判断count是否等于1:
①、若count等于1,即依存消歧图中只存在唯一一个词义概念标注,则将该词义概念作为目标歧义词的消歧结果;
②、若count不等于1,则采用上下文消歧图处理单元进行消歧处理;
上下文消歧图处理单元,用于对上下文消歧图进行图评分处理,调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将目标歧义词的候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;
图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点;
所述正确词义构建单元包括,
选择正确词义单元,用于获取目标词各词义概念得分最高者作为正确词义。
CN201811503356.1A 2018-12-10 2018-12-10 一种基于HowNet的图模型词义消歧方法和系统 Active CN109614620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811503356.1A CN109614620B (zh) 2018-12-10 2018-12-10 一种基于HowNet的图模型词义消歧方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811503356.1A CN109614620B (zh) 2018-12-10 2018-12-10 一种基于HowNet的图模型词义消歧方法和系统

Publications (2)

Publication Number Publication Date
CN109614620A true CN109614620A (zh) 2019-04-12
CN109614620B CN109614620B (zh) 2023-01-17

Family

ID=66007818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811503356.1A Active CN109614620B (zh) 2018-12-10 2018-12-10 一种基于HowNet的图模型词义消歧方法和系统

Country Status (1)

Country Link
CN (1) CN109614620B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797628A (zh) * 2020-06-03 2020-10-20 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置
CN112256885A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种标签消歧方法、装置、设备和计算机可读存储介质
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113204962A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 基于图扩展结构的词义消歧方法、装置、设备及介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063796A1 (en) * 2008-09-05 2010-03-11 Trigent Software Ltd Word Sense Disambiguation Using Emergent Categories
US20100153090A1 (en) * 2008-12-09 2010-06-17 University Of Houston System Word sense disambiguation
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN105740225A (zh) * 2016-01-19 2016-07-06 齐鲁工业大学 一种融合句子局部上下文与文档领域信息的词义消歧方法
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106202034A (zh) * 2016-06-29 2016-12-07 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
CN106202036A (zh) * 2016-06-29 2016-12-07 齐鲁工业大学 一种基于依存约束和知识的动词词义消歧方法和装置
CN107357786A (zh) * 2017-07-13 2017-11-17 山西大学 一种基于大量伪数据的贝叶斯词义消歧方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100063796A1 (en) * 2008-09-05 2010-03-11 Trigent Software Ltd Word Sense Disambiguation Using Emergent Categories
US20100153090A1 (en) * 2008-12-09 2010-06-17 University Of Houston System Word sense disambiguation
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN105740225A (zh) * 2016-01-19 2016-07-06 齐鲁工业大学 一种融合句子局部上下文与文档领域信息的词义消歧方法
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106202034A (zh) * 2016-06-29 2016-12-07 齐鲁工业大学 一种基于依存约束和知识的形容词词义消歧方法和装置
CN106202036A (zh) * 2016-06-29 2016-12-07 齐鲁工业大学 一种基于依存约束和知识的动词词义消歧方法和装置
CN107357786A (zh) * 2017-07-13 2017-11-17 山西大学 一种基于大量伪数据的贝叶斯词义消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鹿文鹏 等: ""基于领域知识的图模型词义消歧方法"", 《自动化学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797628A (zh) * 2020-06-03 2020-10-20 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN111797628B (zh) * 2020-06-03 2024-03-08 武汉理工大学 一种基于时间地理学的游记地名消歧方法
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置
CN112256885A (zh) * 2020-10-23 2021-01-22 上海恒生聚源数据服务有限公司 一种标签消歧方法、装置、设备和计算机可读存储介质
CN112256885B (zh) * 2020-10-23 2023-10-27 上海恒生聚源数据服务有限公司 一种标签消歧方法、装置、设备和计算机可读存储介质
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113158687B (zh) * 2021-04-29 2021-12-28 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113204962A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 基于图扩展结构的词义消歧方法、装置、设备及介质
CN114818736A (zh) * 2022-05-31 2022-07-29 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质
CN114818736B (zh) * 2022-05-31 2023-06-09 北京百度网讯科技有限公司 文本处理方法、用于短文本的链指方法、装置及存储介质

Also Published As

Publication number Publication date
CN109614620B (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN109614620A (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN102799577B (zh) 一种中文实体间语义关系抽取方法
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
US20180052823A1 (en) Hybrid Classifier for Assigning Natural Language Processing (NLP) Inputs to Domains in Real-Time
Zhou et al. Chinese named entity recognition via joint identification and categorization
Müller et al. Robust morphological tagging with word representations
CN106598937A (zh) 用于文本的语种识别方法、装置和电子设备
CN108509409A (zh) 一种自动生成语义相近句子样本的方法
CN109359303A (zh) 一种基于图模型的词义消歧方法和系统
Ferrández et al. Aligning FrameNet and WordNet based on Semantic Neighborhoods.
CN108763529A (zh) 一种智能检索方法、装置和计算机可读存储介质
CN108549625B (zh) 一种基于句法宾语聚类的中文篇章表现主题分析方法
CN107092605A (zh) 一种实体链接方法及装置
Parameswarappa et al. Kannada word sense disambiguation using decision list
El Kahki et al. Improved transliteration mining using graph reinforcement
Georgi From Aari to Zulu: massively multilingual creation of language tools using interlinear glossed text
Chen et al. A simple and effective unsupervised word segmentation approach
Altenbek et al. Kazakh segmentation system of inflectional affixes
Slayden et al. Thai sentence-breaking for large-scale SMT
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
Zamin et al. A statistical dictionary-based word alignment algorithm: An unsupervised approach
Grishman et al. An information extraction customizer
Mrini et al. Building the moroccan darija wordnet (mdw) using bilingual resources
CN108959269B (zh) 一种语句自动排序方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant