CN106610946A - 改进的基于语义距离求解本体概念语义相似度的计算方法 - Google Patents
改进的基于语义距离求解本体概念语义相似度的计算方法 Download PDFInfo
- Publication number
- CN106610946A CN106610946A CN201610834938.2A CN201610834938A CN106610946A CN 106610946 A CN106610946 A CN 106610946A CN 201610834938 A CN201610834938 A CN 201610834938A CN 106610946 A CN106610946 A CN 106610946A
- Authority
- CN
- China
- Prior art keywords
- concept
- semantic
- ontological
- similarity
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
改进的基于语义距离求解本体概念语义相似度的计算方法,通过初始化的本体概念模块计算出本体概念间的语义距离基于语义距离计算出距离因子构造出语义相似度根据两本体概念节点对应的深度与密度构造出语义相似度最终得到概念语义相似度本发明相比较传统的基于信息论方法、基于语义距离方法求解语义相似度,此方法准确度更高;该方法即克服了信息论方法语义区分不细致问题,又使得语义距离计算具有一定的理论严谨性;综合了基于信息论以及语义距离方法,得到的结果更加准确;解决了本体树中节点的多继承问题;此计算语义相似度的方法在量化概念上更接近专家的经验值;更好的提高了本体推理的效果;具有更广泛的应用研究价值。
Description
技术领域
本发明涉及语义网络技术领域,具体涉及一种改进的基于语义距离求解本体概念语义相似度的计算方法。
背景技术
随着本体在信息检索、人工智能等领域的广泛应用,面向本体的概念相似度计算成为本体研究的一大热点。目前领域本体中概念相似度的研究主要是利用概念上下位关系进行计算,但这并没有完整反映出概念的语义信息。传统的基于本体的概念语义相似度计算方法主要分为两种:一种是基于信息论的方法,该方法利用信息论来计算两个概念共享信息的程度,具有较高的理论严谨性,但是只能粗略地量化概念之间的语义相似度,不能实现概念语义相似度的细致区分;另一种方法是基于语义距离的方法,该方法以概念之间路径的长短作为衡量语义距离的长短,通过计算两概念之间的语义距离来实现概念语义相似度的计算,该方法简单、直观,但忽略了影响语义距离的其他很多因素。针对信息论方法的缺陷,引入了语义距离来克服了信息论方法语义区分不细致问题,在基于语义距离方法中,概念语义相似度不仅与语义距离有关,而且还受概念在本体树中的层次深度、密度影响,为了提高求解语义相似度的准确度同时解决各类多继承问题,本发明提供了改进的基于语义距离求解本体概念语义相似度的计算方法。
发明内容
针对信息论方法的缺陷,引入了语义距离来克服了信息论方法语义区分不细致问题,在基于语义距离方法中,概念语义相似度不仅与语义距离有关,而且还受概念在本体树中的层次深度、密度影响,为了提高求解语义相似度的准确度同时解决各类多继承问题,本发明提供了一种改进的基于语义距离求解本体概念语义相似度的计算方法。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:初始化本体概念领域模块。
步骤2:计算基于改进的信息论方法得到两本体概念(g1,g2)间的语义距离d1。
步骤3:计算基于语义距离得到两本体概念(g1,g2)间的距离因子d2。
步骤4:综合步骤2、步骤3,构造两本体概念(g1,g2)语义相似度sim1(g1,g2)。
步骤5:根据两本体概念节点(g1,g2)对应深度D(g1)、D(g2)与密度,构造两本体概念语义相似度sim2(g1,g2)。
步骤6:综合上述步骤,得到最终两本体概念间的语义相似度sim(g1,g2)。
本发明的有益效果是:
1、相比较传统的基于信息论方法、基于语义距离方法求解语义相似度,此方法准确度更高。
2、该方法即克服了信息论方法语义区分不细致问题,又使得语义距离计算具有一定的理论严谨性。
3、综合了基于信息论以及语义距离方法,得到的结果更加准确。
4、解决了本体树中节点的多继承问题。
5、此计算语义相似度的方法在量化概念上更接近专家的经验值。
6、更好的提高了本体推理的效果。
7、具有更广泛的应用研究价值。
附图说明
图1为改进的基于语义距离求解本体概念语义相似度的计算方法结构流程图。
图2为本体概念领域模块语义树形图。
具体实施方式
针对上述问题本发明提出了一种改进的基于语义距离求解本体概念语义相似度的计算方法。
为了解决信息论方法的缺陷,引入了语义距离来克服了信息论方法语义区分不细致问题,在基于语义距离方法中,概念语义相似度不仅与语义距离有关,而且还受概念在本体树中的层次深度、密度影响,为了提高求解语义相似度的准确度同时解决各类多继承问题,结合图1对本发明进行了详细说明,其具体实施步骤如下:
步骤1:初始化本体概念领域模块。
步骤2:计算基于改进的信息论方法得到两本体概念(g1,g2)间的语义距离d1,其具体求解过程如下:
步骤2.1)分别求解其共同父节点在在树状层次结构中的信息量值I(pr)
基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度。概念是对其祖先节点的继承,是祖先节点的又一次细化,所以可通过祖先节点包含的信息量来衡量两个概念的共享信息。
根据图2,得出两本体概念(g1,g2)共同父节点在树状层次结构中出现的概率值p(pr)
上式n(pr)为(g1,g2)共同父节点在本体树中出现的次数,为父节点的直接子节点(g1,g2,…,gk)在本体树中出现的总次数,n(o)为本体树的总节点数。上式k为共同父节点直接子节点的个数。
即I(pr)=-p(pr)lnp(pr)
步骤2.2)分别求解两本体概念(g1,g2)在树状层次结构中的信息量值I1(g1)、I2(g2),其具体求解过程如下:
求解两本体概念的在树状层次结构中的信息量值I1(g1)、I2(g2),同理,根据图2,得出两本体概念(g1,g2)在树状层次结构中出现的概率值p(g1)、p(g2)
上式n(g1)、n(g2)分别为g1、g2在本体树中出现的次数, 分别为g1、g2的直接子节点(g11,g12,…,g1x)、(g21,g22,…,g2y)在本体树中出现的总次数,n(o)为本体树的总节点数。上式x、y分别为g1、g2直接子节点的个数。
所以I1(g1)=-p(g1)lnp(g1)
I2(g2)=-P(g2)lnp(g2)
步骤2.3)求解两本体概念(g1,g2)间的语义距离d1
I1(g1)、I2(g2)中分别包含了I1′((g1/pr))、I2′((g2/pr))
两本体概念(g1,g2)总共信息量,如下:
Z(g1,g2)=I1(g1)+I2(g2)
则两本体概念(g1,g2)间相异的部分,即为距离d1:
d1=Z(g1,g2)-2I(pr)
步骤3:计算基于语义距离得到两本体概念(g1,g2)间的距离因子d2。
在一个本体树中,可以根据概念节点间的路径距离长短判断其语义相似程度。如果两个节点之间的距离越近,这2个节点所代表的概念间的相似度越大;反之,2个概念节点的距离越远,相似度越小。
2个概念节点间的边数往往不是唯一的,节点之间存在多个路径连通。
把概念(g1,g2)与共同父节点作为树的子集,假设存在n个这样的子集,即L1,L2,…,Ln。
从n个子集中找出概念经共同父节点的的最长路径L1。
d2=L1
步骤4:综合步骤2、步骤3,构造两本体概念(g1,g2)语义相似度sim1(g1,g2)
当两个概念共同直接子节点个数越多,则概念(g1,g2)相似度越大,反之,越小。
从概念(g1,g2)的直接子节点中找出共有的子节点个数N。
为了解决子节点多继承问题,有下式:
α为最长路径L1的权重系数,β为(g1,g2)共有的子节点个数N的权重系数,α+β=1。权重系数可以根据实验结果迭代得到。
步骤5:根据两本体概念节点(g1,g2)对应深度D(g1)、D(g2)与密度,构造两本体概念语义相似度sim2(g1,g2),需先构造深度对两本体概念语义相似度的影响函数sim深度(g1,g2)以及密度对两本体概念语义相似度的影响函数sim密度(g1,g2),其具体求解过程如下:
步骤5.1)先构造深度对两本体概念语义相似度的影响函数sim深度(g1,g2)
概念节点的深度是指概念在所处的本体树中的层次深度。在本体树中,每个概念节点都是对上一层节点的一次细化。因此概念节点处于本体树中层次越深,则表示的内容越具体,概念间的相似度越大。反之概念间的相似度越小。
这里深度值从根节点开始,根节点的深度值为1,从概念(g1,g2)与共同父节点构成的树子集中分别找到两最短路径的共同父节点,即fdg1、fdg2。
则D(g1,g2)=|fdg1-fdg2|
fdg1、fdg2分别为概念(g1,g2)的共同父节点在本体树中的最短深度。
从而构造下列影响因子:
两本体概念(g1,g2)在本体树中的深度为:
D(g1)=fdg1+1
D(g2)=fdg2+1
即两本体概念(g1,g2)在本体树中得平均深度为:
从而构造下列影响因子:
上式dep(tree)为本体树的深度。
综上,有下式:
步骤5.2)构造密度对两本体概念语义相似度的影响函数sim密度(g1,g2)
概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间的相似度越大。
从概念(g1,g2)的直接子节点中找到共同直接子节点个数,如上为N。
从概念(g1,g2)中找到直接子节点数最多的,记为
上式i、j分别为以概念g1、g2为父节点所对应得子分枝个数。分别为概念g1,g2对应的第i、j个子分枝中直接子节点的个数。
则
步骤5.3)由上述步骤sim深度(g1,g2)、sim密度(g1,g2)可得:
步骤6:综合上述步骤,得到最终两本体概念(g1,g2)间的语义相似度sim(g1,g2)。
上式x、y分别为距离(d1,d2)以及深度与密度对本体概念语义相似度的影响权重因子,且x+y=1,如果x>y,则距离(d1,d2)对对本体概念语义相似度的影响更大,若x<y,则深度与密度对对本体概念语义相似度的影响更大,x、y可以根据实验测试出来。
改进的基于语义距离求解本体概念语义相似度的计算方法,其伪代码计算过程:
输入:两本体概念(g1,g2)
输出:两本体概念间的语义相似度sim(g1,g2)。
Claims (6)
1.改进的基于语义距离求解本体概念语义相似度的计算方法,本发明涉及语义网络技术领域,具体涉及一种改进的基于语义距离求解本体概念语义相似度的计算方法,其特征是,包括如下步骤:
步骤1:初始化本体概念领域模块
步骤2:计算基于改进的信息论方法得到两本体概念间的语义距离
步骤3:计算基于语义距离得到两本体概念间的距离因子
步骤4:综合步骤2、步骤3,构造两本体概念语义相似度
步骤5:根据两本体概念节点对应深度与密度,构造两本体概念语义相似度
步骤6:综合上述步骤,得到最终两本体概念间的语义相似度。
2.根据权利要求1中所述的改进的基于语义距离求解本体概念语义相似度的计算方法,其特征是,以上所述步骤2中的具体计算过程如下:
步骤2:计算基于改进的信息论方法得到两本体概念间的语义距离其具体求解过程如下:
步骤2.1)分别求解其共同父节点在在树状层次结构中的信息量值
基于信息内容的计算相似度方法主要是通过衡量概念所包含的信息量来计算相似度,概念是对其祖先节点的继承,是祖先节点的又一次细化,所以可通过祖先节点包含的信息量来衡量两个概念的共享信息
根据图2,得出两本体概念共同父节点在树状层次结构中出现的概率值
上式为共同父节点在本体树中出现的次数,为父节点的直接子节点在本体树中出现的总次数,为本体树的总节点数,上式k为共同父节点直接子节点的个数
即
步骤2.2)分别求解两本体概念在树状层次结构中的信息量值其具体求解过程如下:
求解两本体概念的在树状层次结构中的信息量值同理,根据图2,得出两本体概念在树状层次结构中出现的概率值
上式分别为在本体树中出现的次数,分别为的直接子节点在本体树中出现的总次数,为本体树的总节点数,上式x、y分别为直接子节点的个数
所以:
步骤2.3)求解两本体概念间的语义距离
中分别包含了
两本体概念总共信息量,如下:
则两本体概念间相异的部分,即为距离:
。
3.根据权利要求1中所述的改进的基于语义距离求解本体概念语义相似度的计算方法,其特征是,以上所述步骤3中的具体计算过程如下:
步骤3:计算基于语义距离得到两本体概念间的距离因子
在一个本体树中,可以根据概念节点间的路径距离长短判断其语义相似程度如果两个节点之间的距离越近,这2个节点所代表的概念间的相似度越大;反之,2个概念节点的距离越远,相似度越小
2个概念节点间的边数往往不是唯一的,节点之间存在多个路径连通
把概念与共同父节点作为树的子集,假设存在n个这样的子集,即
从n个子集中找出概念经共同父节点的的最长路径
。
4.根据权利要求1中所述的改进的基于语义距离求解本体概念语义相似度的计算方法,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:综合步骤2、步骤3,构造两本体概念语义相似度
当两个概念共同直接子节点个数越多,则概念相似度越大,反之,越小
从概念的直接子节点中找出共有的子节点个数N
为了解决子节点多继承问题,有下式:
为最长路径的权重系数,为共有的子节点个数N的权重系数,,权重系数可以根据实验结果迭代得到。
5.根据权利要求1中所述的改进的基于语义距离求解本体概念语义相似度的计算方法,其特征是,以上所述步骤5中的具体计算过程如下:
步骤5:根据两本体概念节点对应深度与密度,构造两本体概念语义相似度需先构造深度对两本体概念语义相似度的影响函数以及密度对两本体概念语义相似度的影响函数其具体求解过程如下:
步骤5.1)先构造深度对两本体概念语义相似度的影响函数
概念节点的深度是指概念在所处的本体树中的层次深度,在本体树中,每个概念节点都是对上一层节点的一次细化,因此概念节点处于本体树中层次越深,则表示的内容越具体,概念间的相似度越大,反之概念间的相似度越小
这里深度值从根节点开始,根节点的深度值为1,从概念与共同父节点构成的树子集中分别找到两最短路径的共同父节点,即
则
分别为概念的共同父节点在本体树中的最短深度
从而构造下列影响因子:
两本体概念在本体树中的深度为:
即两本体概念在本体树中得平均深度为:
从而构造下列影响因子:
上式为本体树的深度
综上,有下式:
步骤5.2)构造密度对两本体概念语义相似度的影响函数
概率节点密度越大,则其直接子节点数目越多,节点细化的越具体,各直接子节点之间的相似度越大
从概念的直接子节点中找到共同直接子节点个数,如上为N
从概念中找到直接子节点数最多的,记为:
上式i、j分别为以概念为父节点所对应得子分枝个数,分别为概念对应的第i、j个子分枝中直接子节点的个数
则:
步骤5.3)由上述步骤可得:
。
6.根据权利要求1中所述的改进的基于语义距离求解本体概念语义相似度的计算方法,其特征是,以上所述步骤6中的具体计算过程如下:
步骤6:综合上述步骤,得到最终两本体概念间的语义相似度
上式x、y分别为距离以及深度与密度对本体概念语义相似度的影响权重因子,且x+y=1,如果x>y,则距离对对本体概念语义相似度的影响更大,若x<y,则深度与密度对对本体概念语义相似度的影响更大,x、y可以根据实验测试出来。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2016106976609 | 2016-08-19 | ||
CN201610697660 | 2016-08-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106610946A true CN106610946A (zh) | 2017-05-03 |
Family
ID=58614993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610834938.2A Pending CN106610946A (zh) | 2016-08-19 | 2016-09-20 | 改进的基于语义距离求解本体概念语义相似度的计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106610946A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256030A (zh) * | 2017-12-29 | 2018-07-06 | 北京理工大学 | 一种基于本体的密度自适应概念语义相似度计算方法 |
CN110705018A (zh) * | 2019-08-28 | 2020-01-17 | 泰华智慧产业集团股份有限公司 | 基于热线工单和管线健康评估的给水管线爆管定位方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930462A (zh) * | 2010-08-20 | 2010-12-29 | 华中科技大学 | 一种综合的本体相似度检测方法 |
CN104239546A (zh) * | 2014-09-23 | 2014-12-24 | 北京理工大学 | 一种基于场论的本体中概念相似度计算方法 |
-
2016
- 2016-09-20 CN CN201610834938.2A patent/CN106610946A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101930462A (zh) * | 2010-08-20 | 2010-12-29 | 华中科技大学 | 一种综合的本体相似度检测方法 |
CN104239546A (zh) * | 2014-09-23 | 2014-12-24 | 北京理工大学 | 一种基于场论的本体中概念相似度计算方法 |
Non-Patent Citations (1)
Title |
---|
刘景方 等: "一种改进的本体概念语义相似度算法研究", 《武汉理工大学学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256030A (zh) * | 2017-12-29 | 2018-07-06 | 北京理工大学 | 一种基于本体的密度自适应概念语义相似度计算方法 |
CN108256030B (zh) * | 2017-12-29 | 2020-10-23 | 北京理工大学 | 一种基于本体的密度自适应概念语义相似度计算方法 |
CN110705018A (zh) * | 2019-08-28 | 2020-01-17 | 泰华智慧产业集团股份有限公司 | 基于热线工单和管线健康评估的给水管线爆管定位方法 |
CN110705018B (zh) * | 2019-08-28 | 2023-03-10 | 泰华智慧产业集团股份有限公司 | 基于热线工单和管线健康评估的给水管线爆管定位方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110046228B (zh) | 短文本主题识别方法和系统 | |
CN103207856A (zh) | 一种本体概念及层次关系生成方法 | |
Sintunavarat et al. | Coupled fixed point theorems for F-invariant set | |
Xia et al. | Effectively identifying the influential spreaders in large-scale social networks | |
CN102509549A (zh) | 语言模型训练方法及系统 | |
CN105893362A (zh) | 获取知识点语义向量的方法、确定相关知识点的方法及系统 | |
CN106610946A (zh) | 改进的基于语义距离求解本体概念语义相似度的计算方法 | |
CN102819611B (zh) | 一种复杂网络局部社区挖掘方法 | |
Amin et al. | Graphical models for bandit problems | |
CN105354264B (zh) | 一种基于局部敏感哈希的主题标签快速赋予方法 | |
CN104317853B (zh) | 一种基于语义Web的服务簇构建方法 | |
Zhang et al. | Optimizing execution for pipelined‐based distributed deep learning in a heterogeneously networked GPU cluster | |
CN106610945A (zh) | 一种改进的本体概念语义相似度计算方法 | |
Liu et al. | The Kirchhoff index of folded hypercubes and some variant networks | |
CN106611039A (zh) | 一种混合求解本体概念语义相似度的计算方法 | |
Kumar et al. | Optimal control for linear singular system using genetic programming | |
CN110362879A (zh) | 二层及多层结构的先验融合与更新方法及先验补充方法 | |
CN107563135A (zh) | 一种最优结构方程模型自动生成方法 | |
CN105337759B (zh) | 一种基于社区结构的内外比度量方法及社区发现方法 | |
Rathee et al. | IWD towards Semantic similarity measure in ontology | |
CN107169559A (zh) | 一种求解多重定积分的对偶神经网络方法 | |
Saouli et al. | SaaS-DCS: software-as-a-service discovery and composition system-based existence degree | |
CN107203632A (zh) | 基于相似关系和共现关系的话题流行度预测方法 | |
CN109408527B (zh) | 一种基于向量空间的rdf结构化查询自动构建方法 | |
CN107086933B (zh) | 一种基于贝叶斯估计和种子节点度的链路预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |