CN108256030B - 一种基于本体的密度自适应概念语义相似度计算方法 - Google Patents

一种基于本体的密度自适应概念语义相似度计算方法 Download PDF

Info

Publication number
CN108256030B
CN108256030B CN201810025611.XA CN201810025611A CN108256030B CN 108256030 B CN108256030 B CN 108256030B CN 201810025611 A CN201810025611 A CN 201810025611A CN 108256030 B CN108256030 B CN 108256030B
Authority
CN
China
Prior art keywords
node
semantic
concept
semantic similarity
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810025611.XA
Other languages
English (en)
Other versions
CN108256030A (zh
Inventor
李飞
廖乐健
何景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Publication of CN108256030A publication Critical patent/CN108256030A/zh
Application granted granted Critical
Publication of CN108256030B publication Critical patent/CN108256030B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于本体的密度自适应概念语义相似度计算方法,属于人工智能领域中的自然语言理解技术领域。该语义相似度计算方法通过合并边统计模型和信息理论推导出一种边权重函数,然后表示出概念的深度和概念间的最短路径权重,最终应用到传统的基于边的方法中计算概念语义相似度。本发明提出的模型具有与目前效果最好的基于信息内容方法同样的性能,不需要额外的参数,能够自适应不同密度对边的影响,具有很好地通用性,且时间复杂度比基于信息内容的方法具有明显的优势,是一种高性能和高效率的概念语义相似度方法,具有更好地应用前景。

Description

一种基于本体的密度自适应概念语义相似度计算方法
技术领域
本发明涉及一种概念语义相似度计算方法,特别涉及一种基于本体的密度自适应概念语义相似度计算方法,属于人工智能领域中的自然语言理解技术领域。
背景技术
概念语义相似度计算是自然语言处理的一个基础研究内容,在智能检索、词义消歧、机器学习、拼写校正、机器翻译和信息抽取等领域都有广泛的应用。目前概念语义相似度计算的研究策略大体分为三类:一类是利用大规模的语料库进行统计,它主要将上下文信息的概率分布作为概念语义相似度的参照依据,这需要一个覆盖某一领域所有信息的语料库,显然这是很困难的。一类是根据某种世界知识来计算,主要是基于概念间结构层次关系的语义词典(本体)的方法,根据在语义词典中概念之间的上下位关系和同位关系来计算概念的相似度,与相关方法相比,这类方法在计算概念语义相似度的精度方面具有明显的优势;另一类是基于百科知识的方法,百科知识是一个半结构化语料库,且概念间的结构层次关系并不十分严谨,Zesch等在Comparing Wikipedia and German WordNet byevaluating semantic relatedness on multiple datasets(in Proceedings of HumanLanguage Technologies:The 2007Annual Conference of the North American Chapterof the Association for Computational Linguistics,pages 205-208,2007)中表明这类方法不是很好地适用于概念语义相似度,主要用于计算概念语义相关度。
目前,在语义词典分类方法中,基于边和基于信息内容(Information Content,IC)的方法是语义相似度研究的重点。边是本体层次结构的重要组成部分,因此基于边的概念语义相似度计算具有直观、易于理解和较低的计算复杂度等特点。然而,一个大型的词汇本体由于其具有宽广的覆盖领域,概念之间的连接可能存在不规则问题,这种不规则问题主要体现在两个方面:概念的密度不规则和概念的深度不规则。密度不规则指的是本体中通过“上下位”关系连接的概念结点的数目不同,深度不规则指的是概念在本体中的深度不同。基于边的方法通过合并概念的深度和概念间的最短路径,能够克服深度不规则问题,但是它不能解决密度不规则问题,这将导致相同的概念路径在不同的密度区域下表示不同的语义距离。目前,基于边的方法无法有效解决该问题,在国际标准测试集MC30中,优秀的基于边的方法与MC30的人工判定值的皮尔逊相关系数仅仅只有0.8。Zhu等在An efficientpath computing model for measuring semantic similarity using edge and density(in Knowledge And Information Systems,no.2-3,pages 1-33,2017)中通过一个平滑参数将区域密度加入边中来补偿路径(在本发明中称其为“密度补偿模型”)来解决密度不规则问题,但是这种方法是基于经验值,当本体被更新时,该模型需要重新调优参数以达到最优效果。
基于信息内容的方法由于考虑了概念的下位数,能够克服密度不规则问题。然而因为纯粹的信息内容方法没有反映概念深度的变化,所以也不能解决深度不规则问题,概念语义相似度计算结果的精度也不是很高。一些研究者表明,只有合并边和密度(信息内容)的方法才能有效解决密度和深度不规则问题。目前大多数研究者合并边和密度的方法都是基于信息内容的方法,也就是把概念的深度加入进基于信息内容的方法中,这能够取得不错的效果。然而,信息内容计算需要统计概念的所有下位数,在一个大的本体中,这是一个复杂且耗时的计算过程。目前大部分信息内容计算方法假定每个概念的下位数都是先验的,即通过离线预处理,提前将每个概念的下位数统计好,然后存储在一个哈希表中,当使用时可以立即取出参与计算概念相似度。然而,在信息快速更新的大数据时代,本体的发展趋势是在线和快速更新,先验假设条件可能不成立,这可能会阻碍这种方法的推广和应用。
因此,确定一种具有高性能和高效率的相似度计算方法是非常重要的。上述密度补偿模型在具有高效率的基于边方法的基础上,通过区域密度改进其性能是一种很好的方法,然而它是一种基于经验值的方法,当本体被更新时,它需要重新调优参数以达到最优效果,不具有很好地通用性。本发明的目的是致力于解决上述基于经验值的问题,提出一种密度自适应的概念语义相似度计算方法。
发明内容
本发明的目的是为了解决在基于边的方法中通过一个平滑参数引入区域密度是一种基于经验值方法的问题,将基于边的方法与信息理论相结合,提出一种基于本体的密度自适应概念语义相似度计算方法,使其不需要额外的参数,能够自适应不同密度对边的影响。
本发明的核心思想是通过边的区域密度表示出边的权重,然后表示出概念的深度权重和概念间的最短路径权重,最终应用于基于边的方法中,从而实现对概念语义相似度的计算。
本发明的具体技术方案如下:
一种基于本体的密度自适应概念语义相似度计算方法,简称相似度计算方法,包括以下步骤:
步骤1:输入两个概念以及给定的本体,通过在本体中分别查询这两个概念,得到每个概念对应的义项;
其中,义项指概念在不同语境下表示的含义,一般情况下一个概念对应多个义项;
步骤2:判断任意一个概念查询的义项是否为空,并进行相应操作:
2.1:若是,说明本体中不包含输入的概念,不能计算这两个概念的语义相似度,则计算步骤结束,即结束本相似度计算方法;
2.2:若否,执行步骤3;
步骤3:将步骤1中两个概念对应的义项按顺序排列构成义项笛卡尔集;
其中,义项笛卡尔集的元素是由两个概念对应的义项组成的有序对,有序对的第一个对象是两个概念中其中一个概念的义项的成员,第二个对象是另外一个概念的义项的成员;
步骤4:判断所有结点是否在一个根结点中,并进行相应操作;
4.1:若是,执行步骤5;
4.2:若否,为所有结点虚构一个根结点,使本体只具有一个根结点;
其中,一个结点,即为某一个概念对应的其中的一个义项;
步骤5:从义项笛卡尔集中取出一个元素,并将取出的元素从义项笛卡尔集中删除,查询本体,分别得到取出的元素中每个义项通过“上下位”关系连接形成的到根结点的路径,将每个义项到根结点的路径作为一个集合构成两个路径集合;
其中,“上下位”关系是本体中的一种继承关系,下位概念结点继承了上位概念结点的所有特征;
下位概念结点,又称为孩子概念结点;上位概念结点,又称为父亲概念结点;
在本体中,一个结点可能具有多个上位结点,所以一个义项通过“上下位”关系连接形成的到根结点的路径可能有多条;
步骤6:将步骤5中两个路径集合按顺序排列构成路径笛卡尔集;
其中,路径笛卡尔集的元素是由步骤5中两个路径集合的元素组成的有序对,有序对的第一个对象是两个路径集合中其中一个集合的元素,第二个对象是另外一个集合的元素;
步骤7:从路径笛卡尔集中取出一个元素,并将取出的元素从路径笛卡尔集中删除,找出取出的元素中两条路径最末端的两个结点的最近公共上位结点;
其中,两条路径最末端的两个结点是步骤5中从义项笛卡尔集中取出的元素中的两个义项,最近公共上位结点是指最近公共父结点;
步骤8:从步骤7取出的元素中得到最近公共上位结点到根结点的路径以及两个义项结点到最近公共上位结点的路径;
步骤9:计算两个义项结点的最近公共上位结点的深度权重以及两个义项结点间的最短路径权重,包括如下子步骤:
9.1计算两个义项结点的最近公共上位结点的深度权重,计算方式如公式(1)所示:
Figure BDA0001544832270000041
其中,s1和s2表示任意两个义项结点,LCS(s1,s2)表示义项结点s1和s2的最近公共上位,depthweight(LCS(s1,s2))表示LCS(s1,s2)的深度权重,root表示根结点,edge(LCS(s1,s2),root)表示最近公共上位结点通过“上下位”关系连接到根结点的路径上边的集合,es→p表示任意相邻结点s与p通过“上下位”关系连接的边,且结点p是结点s的直接上位结点,directhypon(p)表示结点p的直接下位结点组成的集合,直接下位结点包含结点p本身,|directhypon(p)|表示结点p的直接下位结点的个数;
9.2计算两个义项结点间的最短路径权重,计算公式如式(2)所示:
Figure BDA0001544832270000042
其中,s1和s2表示任意两个义项结点,pathLenweight(s1,s2)表示义项结点s1和s2之间的最短路径权重,edge(s1,s2)表示义项结点s1和s2通过“上下位”关系连接的最短路径上边的集合,es→p表示任意相邻结点s与p通过“上下位”关系连接的边,且结点p是结点s的直接上位结点,directhypon(p)表示结点p的直接下位结点组成的集合,直接下位结点包含结点p本身,|directhypon(p)|表示结点p的直接下位结点的个数;
步骤10:用步骤9中的最短路径权重和深度权重替换目前基于边的方法中的最短路径和深度计算方式,计算出两个义项之间的语义相似度,并保存得到的语义相似度;
步骤11:判断在步骤6中构成的路径笛卡尔集目前是否为空,并执行相应操作:
11.1若是,说明从义项笛卡尔集中取出的义项对之间的语义相似度计算完成,执行步骤12;
11.2若否,则跳至步骤7;
步骤12:从步骤10保存的义项语义相似度中得到两个义项语义相似度结果的最大值,即为两个义项的语义相似度,并将结果保存;
步骤13:判断在步骤3中构成的义项笛卡尔集目前是否为空,并执行相应操作:
13.1若是,说明两个概念的语义相似度计算完成,执行步骤14;
13.2若否,则跳至步骤5;
步骤14:从步骤12保存的义项对的语义相似度中得到所有义项对语义相似度的最大值,即为两个概念的语义相似度,通过公式(3)描述:
Figure BDA0001544832270000051
其中,c1和c2表示任意两个概念,sim(c1,c2)表示概念c1和c2的语义相似度,m表示概念c1有m个义项,n表示概念c2有n个义项,s1i表示概念c1的第i个义项,s2j表示概念c2的第j个义项,sim(s1i,s2j)表示概念c1的第i个义项与概念c2的第j个义项之间的语义相似度;
至此,经过步骤1到步骤14,完成了一种基于本体的密度自适应概念语义相似度计算方法。
有益效果
本发明一种基于本体的密度自适应概念语义相似度计算方法,对比现有技术,具备以下有益效果:
1.与目前基于边的方法相比,本发明提出的方法融合了信息理论,能够区分边在不同密度下对相似度的贡献程度,具有更好地性能;
2.本发明提出的方法不需要额外的参数,能够自适应不同密度对边的影响,具有很好地通用性,实用性强,易于推广;
3.与目前性能最好的基于信息内容的方法相比,本发明提出的方法达到了与其同样的性能,但是在效率方面具有明显的优势。
附图说明
图1为本发明一种基于本体的密度自适应概念语义相似度计算方法及实施例1中的流程图;
图2为本发明一种基于本体的密度自适应概念语义相似度计算方法及实施例2中的结构示意图。
具体实施方式
为了更好地说明本发明的技术方案,下面结合附图1、附图2和实施例对本发明做进一步说明和详细描述。
实施例1
图1为本发明一种基于本体的密度自适应概念语义相似度计算方法的流程图,图2为本发明一种基于本体的密度自适应概念语义相似度计算方法的结构示意图。从图中可以看出,本方法包含如下步骤:
步骤A:输入概念bird和cock,查询本体WordNet3.0,得到bird和cock对应的义项分别为;
概念bird的义项为:{bird},{bird,fowl},{dame,doll,wench,skirt,chick,bird},{boo,hoot,Bronx_cheer,hiss,raspberry,razzing,razz,snort,bird},{shuttlecock,bird,birdie,shuttle};
概念cock的义项为:{cock,prick,dick,shaft,pecker,peter,tool,putz},{stopcock,cock,turncock},{hammer,cock},{cock,rooster},{cock};
其中,在WordNet3.0中,每个结点是用一个集合表示的,同一个集合内的义项表示这些义项是同义词,用逗号分隔开;
步骤B:概念bird和cock的义项都不为空,执行步骤C;
步骤C:将概念bird和cock的义项按顺序排列构成义项笛卡尔集如下:
({bird},{cock,prick,dick,shaft,pecker,peter,tool,putz}),({bird},{stopcock,cock,turncock}),({bird},{hammer,cock}),({bird},{cock,rooster}),({bird},{cock}),({bird,fowl},{cock,prick,dick,shaft,pecker,peter,tool,putz}),({bird,fowl},{stopcock,cock,turncock})……({shuttlecock,bird,birdie,shuttle},{cock})
bird的5个义项和cock的5个义项,两两组合共有5*5=25种,即bird和cock对应的义项构成的笛卡尔集共包含25个义项对;
步骤D:在WordNet3.0中,所有名词结点只有一个根结点entity,执行步骤E;
步骤E:从步骤C构成的义项笛卡尔集中取出一个义项对:({bird},{cock,prick,dick,shaft,pecker,peter,tool,putz}),查询WordNet3.0,得到义项通过“上下位”关系连接形成的到根结点的路径如下所示:
结点{bird}到根结点的路径共有一条:{bird}→{vertebrate,craniate}→{chordate}→{animal,animate_being,beast,brute,creature,fauna}→{organism,being}→{living_thing,animate_thing}→{whole,unit}→{object,physical_object}→{physical_entity}→{entity},形成的路径集合为:{{bird}→{vertebrate,craniate}→{chordate}→{animal,animate_being,beast,brute,creature,fauna}→{organism,being}→{living_thing,animate_thing}→{whole,unit}→{object,physical_object}→{physical_entity}→{entity}};
结点{cock,prick,dick,shaft,pecker,peter,tool,putz}到根结点的路径共有一条:{cock,prick,dick,shaft,pecker,peter,tool,putz}→{penis,phallus,member}→{erectile_organ}→{organ}→{body_part}→{part,piece}→{thing}→{physical_entity}→{entity},形成的路径集合为:{{cock,prick,dick,shaft,pecker,peter,tool,putz}→{penis,phallus,member}→{erectile_organ}→{organ}→{body_part}→{part,piece}→{thing}→{physical_entity}→{entity}};
步骤F:结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}分别到根结点的路径集合按顺序排列构成的路径笛卡尔集只有一种情况如下:
({bird}→{vertebrate,craniate}→{chordate}→{animal,animate_being,beast,brute,creature,fauna}→{organism,being}→{living_thing,animate_thing}→{whole,unit}→{object,physical_object}→{physical_entity}→{entity},{cock,prick,dick,shaft,pecker,peter,tool,putz}→{penis,phallus,member}→{erectile_organ}→{organ}→{body_part}→{part,piece}→{thing}→{physical_entity}→{entity});
步骤G:路径集合按顺序排列构成的路径笛卡尔集只有一个元素:({bird}→{vertebrate,craniate}→{chordate}→{animal,animate_being,beast,brute,creature,fauna}→{organism,being}→{living_thing,animate_thing}→{whole,unit}→{object,physical_object}→{physical_entity}→{entity},{cock,prick,dick,shaft,pecker,peter,tool,putz}→{penis,phallus,member}→{erectile_organ}→{organ}→{body_part}→{part,piece}→{thing}→{physical_entity}→{entity}),这两条路径的最近公共上位结点为:{physical_entity};
步骤H:最近公共上位结点到根结点的路径为:{physical_entity}→{entity},结点{bird}到最近公共上位结点{physical_entity}的路径为:
{bird}→{vertebrate,craniate}→{chordate}→{animal,animate_being,beast,brute,creature,fauna}→{organism,being}→{living_thing,animate_thing}→{whole,unit}→{object,physical_object}→{physical_entity},结点{cock,prick,dick,shaft,pecker,peter,tool,putz}到最近公共上位结点{physical_entity}的路径为:
{cock,prick,dick,shaft,pecker,peter,tool,putz}→{penis,phallus,member}→{erectile_organ}→{organ}→{body_part}→{part,piece}→{thing}→{physical_entity};
步骤I:计算最近公共上位结点{physical_entity}的深度权重以及结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径权重如下子步骤:
I.1计算最近公共上位结点{physical_entity}的深度权重;
最近公共上位结点{physical_entity}的深度权重通过公式(1)计算如下:
在公式(1)中,用到了最近公共上位结点到根结点路径上的边,且需要计算每条边上上位结点的直接下位数,结点{physical_entity}到根结点路径上的边只有一条:e{physical_entity}→{entity},使用WordNet3.0本体接口查询到结点{entity}的直接下位结点数为4,结点{entity}的直接下位结点数包含结点{entity}本身,于是通过公式(1)计算最近公共上位结点{physical_entity}的深度权重为:
depthweight({physical_entity})=log4=0.6021
I.2计算结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径权重;
结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径权重通过公式(2)计算如下:
结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径上边的集合为:{e{bird}→{vertebrate,craniate},e{vertebrate,craniate}→{chordate},e{chordate}→{animal,animate_being,beast,brute,creature,fauna},e{animal,animate_being,beast,brute,creature,fauna}→{organism,being},e{organism,being}→{living_thing,animate_thing},e{living_thing,animate_thing}→{whole,unit},e{whole,unit}→{object,physical_object},e{object,physical_object}→{physical_entity},e{cock,prick,dick,shaft,pecker,peter,tool,putz}→{penis,phallus,member},e{penis,phallus,member}→{erectile_organ},e{erectile_organ}→{organ},e{organ}→{body_part},e{body_par}t→{partpie},ce{part,piece}→{thing},e{thing}→{physical_entity}},共15条边,通过调用本体提供的查询直接下位结点个数函数,得到对应这15条边中上位结点的直接下位结点个数依次为11、4、48、49、5、8、38、7、3、3、25、52、14、9、7,于是得到结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径权重为:
pathLenweight({bird},{cock,prick,dick,shaft,pecker,peter,tool,putz})
=log11+log4+log48+log49+log5+log8+log38+log7
+log3+log3+log25+log52+log14+log9+log7
=16.0555
步骤J:用上一步计算的结点{physical_entity}深度权重和结点{bird}与结点{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径权重替换目前基于边方法中的最短路径和深度计算方式,计算出结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的语义相似度;
具体到本实施例,选用Liu等在Measuring semantic similarity in WordNet(inProceedings of the Sixth International Conference on Machine Learning andCybernetics,page 3431–3435,2007)中提出的一种线性方法计算概念语义相似度,他们方法的基本思想是基于人工判定的方法,用概念义项s1和s2的共同特性与它们二者总的特性的比值作为两个概念义项的相似度,提出相似度计算公式如式(4)所示:
Figure BDA0001544832270000091
其中,LCS(s1,s2)表示义项s1和s2的最近公共上位,depth(LCS(s1,s2))表示最近公共上位的深度,pathLen(s1,s2)表示义项s1和s2之间的最短路径,α和β是平滑参数且(0<α,β<1),在WordNet3.0中,α=0.5和β=0.9时效果达到最优,另外在公式(9)中,Liu等计算最近公共上位结点的深度和最短路径长度都是用路径上边的条数作为其长度;
用步骤I中计算的最近公共上位结点{physical_entity}的深度权重和结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}之间的最短路径权重替换公式(4)中计算公共上位的深度和最短路径计算方式,可以得到结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}的语义相似度为
Figure BDA0001544832270000101
步骤K:在步骤G构成的路径笛卡尔集目前为空,执行步骤L;
步骤L:结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}语义相似度结果只有一个值:0.0204,最大值为0.0204,即结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}语义相似度为0.0204;
步骤M:在步骤C构成的义项笛卡尔集目前不为空,跳至步骤E;
跳至步骤E多次重复步骤E到步骤M中的步骤计算义项笛卡尔集中剩余24个义项对的语义相似度,得到另外24个义项对的语义相似度计算值为0.0921、0.0932、0.5453、0.7892、0.0256、0.0182、0.0184、0.0171、0.0203、0.0169、0.0779、0.0787、0.1261、0.1481、0.0208、0.0156、0.0157、0.0148、0.0171、0.014、0.0656、0.0661、0.1051、0.12,加上结点{bird}和{cock,prick,dick,shaft,pecker,peter,tool,putz}的语义相似度值0.0204,共25个;
步骤N:从上一步计算的25个义项对的语义相似度中得到所有义项对相似度的最大值,于是计算出概念bird和cock的语义相似度计算结果为
sim(bird,cock)
=max{0.0204,0.0921,0.0932,0.5453,0.7892,0.0256,0.0182,0.0184,
0.0171,0.0203,0.0169,0.0779,0.0787,0.1261,0.1481,0.0208,
0.0156,0.0157,0.0148,0.0171,0.014,0.0656,0.0661,0.1051,0.12}
=0.7892,即概念bird和cock的语义相似度为0.7892;
为了验证本方法的有效性和通用性,本发明又选用了4种著名的基于边的方法,加上实施例中的一种共5种基于边的方法,采用国际著名的标准数据集Millerand Charles(MC30)由Miller等在Contextual correlates of semantic similarity(in LanguageCognition And Neuroscience,vol 6,no.1,pages 1–28,1991)中提出、Rubenstein andGoodenough(RG65)由Rubenstein等在Contextual correlates of synonymy(inCommunications ofthe ACM,vol 8,no.10,pages 627–633,1965)中提出和Agirre et al.(AG203)由Agirre等在A study on similarity and relatedness using distributionaland WordNet-based approaches(in Proceedings of Human Language Technologies:The 2009Annual Conference of the North American Chapter of the Associationfor Computational Linguistics,pages 19-27,2009)中提出来验证在WortNet3.0中的效果;另外为了验证本发明提出的方法在不同的本体中是否具有通用性,也引入一个医学领域本体SNOMED-CT作为知识库来实现和评价,考虑到SNOMED-CT属于领域知识库本体,前三个数据集的概念在其中不被包含,因此本发明选用医学领域著名数据集Pedersen et al.(Pedersen30)由Pedersen等在Measures of semantic similarity and relatedness inthe biomedical(in Journal of Biomedical Informatics,vol 40,no.3,pages 288–299,2007)中提出来验证在SNOMED-CT中的效果。
采用概念语义相似度计算方法常用评估标准衡量算法性能,评价标准使用皮尔逊相关系数,计算方法如公式(5)所示:
Figure BDA0001544832270000111
其中,xi表示一个变量第i对概念取值,
Figure BDA0001544832270000112
表示这个变量取所有值的平均值,yi表示另一个变量第i对概念取值,
Figure BDA0001544832270000113
表示这个变量取所有值的平均值,在本发明中,计算方法计算的结果值为一个变量,对应的人工判定值为另一个变量,n表示测试概念的对数,r表示皮尔逊相关系数,其值介于-1与1之间,r大于0表示正相关,小于0表示负相关,等于1代表两个变量完全相关,等于0代表两个变量无关,等于-1代表两个变量完全负相关。
表2给出各种方法在相同的数据集中的测试性能对比结果。
表2不同方法在相同数据集中的测试性能对比
Figure BDA0001544832270000114
Figure BDA0001544832270000121
在表2算法一列中,Rada表示采用的是Rada等在Development and applicationof a metric on semantic nets(in IEEE Transactions on Systems Man andCybernetics,vol 19,no.1,pages 17–30,1989)中提出的方法,Leacock表示采用的是Leacock等在Combining local context and WordNet similarity for word senseidentification,chapter 11,1998)中提出的方法,Liu-1(线性方法)表示采用的是Liu等在Measuring semantic similarity in WordNet(in Proceedings of the SixthInternational Conference on Machine Learning and Cybernetics,page 3431–3435,2007)中提出两种方法中的线性方法,Liu-2(非线性方法)表示采用的是Liu等在Measuringsemantic similarity in WordNet(in Proceedings of the Sixth InternationalConference on Machine Learning and Cybernetics,page 3431–3435,2007)中提出两种方法中的非线性方法,Li表示采用的是Li等在An approach for measuring semanticsimilarity between words using multiple information sources(in IEEETransactions on Knowledge and Data Engineering,vol 15,no.4,pages 871–882,2003)中提出的方法,Resnik表示采用的是Resnik等在Using information content toevaluate semantic similarity in a taxonomy(in Proceedings of 14thInternational Joint Conference on Artificial Intelligence,pages 448–453,1995)中提出的方法,Jiang表示采用的是Jiang等在Semantic similarity based on corpusstatistics and lexical taxonomy(in Proceedings of International Conference onResearch in Computational Linguistics,page 19–33,1997)中提出的方法,Lin表示采用的是Lin等在An information-theoretic definition ofsimilarity(in Proceedingsof Fifteenth International Conference on Machine Learning,pages 296–304,1998)中提出的方法;在基于边或者信息内容模型一列中,路径计算参考基于边统计模型表示路径计算使用原始的路径上边的条数计算方式,路径计算参考密度补偿模型(带参数)表示通过一个平滑参数引入区域密度补偿路径的方法,路径计算参考本发明提出的边权重模型(无参数)表示路径计算采用本发明提出的密度自适应方法,IC计算参考公式3(纯信息内容)表示IC计算使用纯粹的信息内容没有考虑深度,IC计算参考Sánchez等人提出(信息内容和深度)表示IC计算参考Sánchez等在Ontology-based information contentcomputation(in Knowledge-based Systems,vol 24,no.2,pages 297–303,2011)中提出的IC计算方法,IC计算参考Zhou等人提出(信息内容和深度)表示IC计算参考Zhou等在Anew model of information content for semantic similarity in WordNet(inProceeding of the second International Conference on the Future GenerationCommunication and Networking Symposia,pages 85-89,2008)中提出的IC计算方法。
效率是评估一种方法有效性的重要指标。基于信息内容方法需要统计概念的所有下位结点数,目前做法是将其当成一个预处理过程,提前统计然后存储。然而,在信息快速更新的大数据时代,本体的发展趋势是在线和快速更新。为了适应这种趋势,我们假设本体是实时动态的本体,而不是预先下载。因此,在基于信息内容计算方法中,使用公式(6)计算总时间:
TotalTime=PretreamentTime+ComputingTime (6)
其中,PretreamentTime表示基于信息内容方法统计所有概念的下位结点数目需要的时间,在统计过程中,这可以看成是一个递归过程,最后等价于统计根结点的所有下位结点需要的时间,ComputingTime表示使用不同模型计算相似度所需要的时间,TotalTime表示计算需要的总时间。
在这部分,本发明选用Liu等在Measuring semantic similarity in WordNet(inProceedings of the Sixth International Conference on Machine Learning andCybernetics,page 3431–3435,2007)中提出的线性方法(基于边的方法)和Lin 等在Aninformation-theoretic definition of similarity(in Proceedings of FifteenthInternational Conference on Machine Learning,pages 296–304,1998)中提出的方法(基于信息内容的方法)做效率对比实验。选用这两种方法是因为,它们具有类似的公式结构,使用类似的特征,非常适合于本实验效率评估,实验使用Java语言,评估的电脑配置如下表3所示,效率结果如表4所示。
表3实验中使用的计算机配置
电脑类型 CPU型号 CPU频率 内存
台式机 i5-2400 3.1GHZ 4GB
表4不同模型的效率对比(单位:秒)
Figure BDA0001544832270000141
IC计算参考Sánchez等人提出(信息内容和深度)表示IC计算参考Sánchez等在Ontology-based information content computation(in Knowledge-based Systems,vol24,no.2,pages 297–303,2011)中提出的IC计算方法。
通过表2和表4可以看出,使用本发明提出的方法能够改进传统的基于边统计方法的性能,能够达到通过平滑参数改进的密度补偿方法和目前效果最好的基于信息内容方法同样的效果,且本发明提出的方法不需要任何参数,能够自适应不同密度对边的影响,时间复杂度比基于信息内容的方法具有明显的优势,是一种高性能和高效率的概念语义相似度方法,在不同的本体中都能取得不错的效果,说明本发明提出的方法具有很好地通用性。
以上所述的具体描述,仅为本发明的具体实施例,仅用于解释本发明而非对本发明的限制。凡是不脱离本发明所公开的精神下完成的等效或修改,均应在本发明的保护范围之内。

Claims (7)

1.一种基于本体的密度自适应概念语义相似度计算方法,简称相似度计算方法,其特征在于:包括以下步骤:
步骤1:输入两个概念以及给定的本体,通过在本体中分别查询这两个概念,得到每个概念对应的义项;
步骤2:判断任意一个概念查询的义项是否为空,并进行相应操作:
2.1:若是,说明本体中不包含输入的概念,不能计算这两个概念的语义相似度,则计算步骤结束,即结束本相似度计算方法;
2.2:若否,执行步骤3;
步骤3:将步骤1中两个概念对应的义项按顺序排列构成义项笛卡尔集;
步骤4:判断所有结点是否在一个根结点中,并进行相应操作;
其中,一个结点,即为某一个概念对应的其中的一个义项;
4.1:若是,执行步骤5;
4.2:若否,为所有结点虚构一个根结点,使本体只具有一个根结点;
步骤5:从义项笛卡尔集中取出一个元素,并将取出的元素从义项笛卡尔集中删除,查询本体,分别得到取出的元素中每个义项通过“上下位”关系连接形成的到根结点的路径,将每个义项到根结点的路径作为一个集合构成两个路径集合;
步骤6:将步骤5中两个路径集合按顺序排列构成路径笛卡尔集;
步骤7:从路径笛卡尔集中取出一个元素,并将取出的元素从路径笛卡尔集中删除,找出取出的元素中两条路径最末端的两个结点的最近公共上位结点;
步骤8:从步骤7取出的元素中得到最近公共上位结点到根结点的路径以及两个义项结点到最近公共上位结点的路径;
步骤9:计算两个义项结点的最近公共上位结点的深度权重以及两个义项结点间的最短路径权重,包括如下子步骤:
9.1计算两个义项结点的最近公共上位结点的深度权重,计算方式如公式(1)所示:
Figure FDA0002638676880000011
其中,s1和s2表示任意两个义项结点,LCS(s1,s2)表示义项结点s1和s2的最近公共上位,depthweight(LCS(s1,s2))表示LCS(s1,s2)的深度权重,root表示根结点,edge(LCS(s1,s2),root)表示最近公共上位结点通过“上下位”关系连接到根结点的路径上边的集合,es→p表示任意相邻结点s与p通过“上下位”关系连接的边,且结点p是结点s的直接上位结点,directhypon(p)表示结点p的直接下位结点组成的集合,直接下位结点包含结点p本身,|directhypon(p)|表示结点p的直接下位结点的个数;
9.2计算两个义项结点间的最短路径权重,计算公式如式(2)所示:
Figure FDA0002638676880000021
其中,s1和s2表示任意两个义项结点,pathLenweight(s1,s2)表示义项结点s1和s2之间的最短路径权重,edge(s1,s2)表示义项结点s1和s2通过“上下位”关系连接的最短路径上边的集合,es→p表示任意相邻结点s与p通过“上下位”关系连接的边,且结点p是结点s的直接上位结点,directhypon(p)表示结点p的直接下位结点组成的集合,直接下位结点包含结点p本身,|directhypon(p)|表示结点p的直接下位结点的个数;
步骤10:用步骤9中的最短路径权重和深度权重替换目前基于边的方法中的最短路径和深度计算方式,计算出两个义项之间的语义相似度,并保存得到的语义相似度;
步骤11:判断在步骤6中构成的路径笛卡尔集目前是否为空,并执行相应操作:
11.1若是,说明从义项笛卡尔集中取出的义项对之间的语义相似度计算完成,执行步骤12;
11.2若否,则跳至步骤7;
步骤12:从步骤10保存的义项语义相似度中得到两个义项语义相似度结果的最大值,即为两个义项的语义相似度,并将结果保存;
步骤13:判断在步骤3中构成的义项笛卡尔集目前是否为空,并执行相应操作:
13.1若是,说明两个概念的语义相似度计算完成,执行步骤14;
13.2若否,则跳至步骤5;
步骤14:从步骤12保存的义项对的语义相似度中得到所有义项对语义相似度的最大值,即为两个概念的语义相似度;
至此,经过步骤1到步骤14,完成了一种基于本体的密度自适应概念语义相似度计算方法。
2.根据权利要求1中所述的一种基于本体的密度自适应概念语义相似度计算方法,其特征在于:步骤1中,义项指概念在不同语境下表示的含义,一个概念对应多个义项。
3.根据权利要求1中所述的一种基于本体的密度自适应概念语义相似度计算方法,其特征在于:步骤3中,义项笛卡尔集的元素是由两个概念对应的义项组成的有序对,有序对的第一个对象是两个概念中其中一个概念的义项的成员,第二个对象是另外一个概念的义项的成员。
4.根据权利要求1中所述的一种基于本体的密度自适应概念语义相似度计算方法,其特征在于:步骤5中,“上下位”关系是本体中的一种继承关系,下位概念结点继承了上位概念结点的所有特征;下位概念结点,又称为孩子概念结点;上位概念结点,又称为父亲概念结点;在本体中,一个结点可能具有多个上位结点,所以一个义项通过“上下位”关系连接形成的到根结点的路径可能有多条。
5.根据权利要求1中所述的一种基于本体的密度自适应概念语义相似度计算方法,其特征在于:步骤6中,路径笛卡尔集的元素是由步骤5中两个路径集合的元素组成的有序对,有序对的第一个对象是两个路径集合中其中一个集合的元素,第二个对象是另外一个集合的元素。
6.根据权利要求1中所述的一种基于本体的密度自适应概念语义相似度计算方法,其特征在于:步骤7中,两条路径最末端的两个结点是步骤5中从义项笛卡尔集中取出的元素中的两个义项,最近公共上位结点是指最近公共父结点。
7.根据权利要求1中所述的一种基于本体的密度自适应概念语义相似度计算方法,其特征在于:步骤14中得到两个概念的语义相似度具体通过公式(3)描述:
Figure DEST_PATH_BDA0001544832270000051
其中,c1和c2表示任意两个概念,sim(c1,c2)表示概念c1和c2的语义相似度,m表示概念c1有m个义项,n表示概念c2有n个义项,s1i表示概念c1的第i个义项,s2j表示概念c2的第j个义项,sim(s1i,s2j)表示概念c1的第i个义项与概念c2的第j个义项之间的语义相似度。
CN201810025611.XA 2017-12-29 2018-01-11 一种基于本体的密度自适应概念语义相似度计算方法 Expired - Fee Related CN108256030B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017114727320 2017-12-29
CN201711472732 2017-12-29

Publications (2)

Publication Number Publication Date
CN108256030A CN108256030A (zh) 2018-07-06
CN108256030B true CN108256030B (zh) 2020-10-23

Family

ID=62726043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810025611.XA Expired - Fee Related CN108256030B (zh) 2017-12-29 2018-01-11 一种基于本体的密度自适应概念语义相似度计算方法

Country Status (1)

Country Link
CN (1) CN108256030B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110874412B (zh) * 2018-08-31 2022-07-26 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN109657242B (zh) * 2018-12-17 2023-05-05 中科国力(镇江)智能技术有限公司 一种汉语冗余义项自动消除系统
CN110908705B (zh) * 2019-11-20 2021-06-22 福州大学 建立不同版本程序类集合映射关系的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610945A (zh) * 2016-08-12 2017-05-03 四川用联信息技术有限公司 一种改进的本体概念语义相似度计算方法
CN106610946A (zh) * 2016-08-19 2017-05-03 四川用联信息技术有限公司 改进的基于语义距离求解本体概念语义相似度的计算方法
CN108268548A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于树状图的数据相似度匹配方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610945A (zh) * 2016-08-12 2017-05-03 四川用联信息技术有限公司 一种改进的本体概念语义相似度计算方法
CN106610946A (zh) * 2016-08-19 2017-05-03 四川用联信息技术有限公司 改进的基于语义距离求解本体概念语义相似度的计算方法
CN108268548A (zh) * 2016-12-30 2018-07-10 广东精点数据科技股份有限公司 一种基于树状图的数据相似度匹配方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A density compensation-based path computing model for measuring semantic similarity;Xinhua Zhu等;《arXiv》;20150603;I138-4516 *
基于本体的概念语义相似度测量研究;李飞;《中国优秀硕士学位论文全文数据库信息科技辑》;20170215(第02期);1-17 *

Also Published As

Publication number Publication date
CN108256030A (zh) 2018-07-06

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
Syed et al. Full-text or abstract? examining topic coherence scores using latent dirichlet allocation
Qiu et al. Geoscience keyphrase extraction algorithm using enhanced word embedding
Sun et al. Sentiment analysis for Chinese microblog based on deep neural networks with convolutional extension features
Soman et al. Machine learning with SVM and other kernel methods
Huang et al. Updated review of advances in microRNAs and complex diseases: taxonomy, trends and challenges of computational models
CN108681557B (zh) 基于自扩充表示和相似双向约束的短文本主题发现方法及系统
Foulds et al. A dynamic relational infinite feature model for longitudinal social networks
Jin et al. Regularized margin-based conditional log-likelihood loss for prototype learning
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN108256030B (zh) 一种基于本体的密度自适应概念语义相似度计算方法
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN117198466B (zh) 针对肾病患者的饮食管理方法及系统
CN109326328B (zh) 一种基于谱系聚类的古生物谱系演化分析方法
Peng et al. BG-SAC: Entity relationship classification model based on Self-Attention supported Capsule Networks
Makar et al. A distillation approach to data efficient individual treatment effect estimation
CN116720519B (zh) 一种苗医药命名实体识别方法
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method
CN111581960B (zh) 一种获取医学文本语义相似度的方法
Fan et al. Large margin nearest neighbor embedding for knowledge representation
CN115599915A (zh) 基于TextRank与注意力机制的长文本分类方法
Sun et al. Chemical-protein interaction extraction from biomedical literature: a hierarchical recurrent convolutional neural network method
CN111782964B (zh) 一种社区帖子的推荐方法
Zhu et al. Protein interaction network constructing based on text mining and reinforcement learning with application to prostate cancer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201023

Termination date: 20220111