CN109558495A - 一种高效的领域本体语义相似度计算算法 - Google Patents
一种高效的领域本体语义相似度计算算法 Download PDFInfo
- Publication number
- CN109558495A CN109558495A CN201811366601.9A CN201811366601A CN109558495A CN 109558495 A CN109558495 A CN 109558495A CN 201811366601 A CN201811366601 A CN 201811366601A CN 109558495 A CN109558495 A CN 109558495A
- Authority
- CN
- China
- Prior art keywords
- concept
- semantic
- semantic similarity
- similarity
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明请求保护一种高效的领域本体语义相似度计算算法,涉及领域在多个应用本体间出现语义异构问题。目前主要有基于信息论、语义距离两种语义相似度计算模型,随着研究的逐渐深入,考虑概念间的语义距离、信息量、属性等因素,设计了一种基本语义相似度算法,但却忽了概念间信息量对语义相似度的影响。针对这些问题,该方法在基本语义相似度计算基础上,进一步考虑概念间的层次顺序、节点深度、语义重合度等因素对语义相似度的影响。因此,本发明提出了一种高效的领域本体语义相似度计算算法,补充完善了语义相似度计算需要考虑的因素,提高了概念语义相似度计算的精确性和准确性。
Description
技术领域
本发明属于计算机信息处理领域,尤其涉及一种高效的领域本体语义相似度计算算法。
背景技术
传统的基于本体的概念语义相似度计算一般可归纳为以下2种:
(1)基于信息论的方法,在信息论中,信息量能够体现一个概念所含的语义信息多少,可通过概念及其实例对象出现的概率或权重来量化。在基于信息论的方法中认为,如果2个概念共享的信息量越大则说明量个概念就越相似。在本体结构中,每个概念是对其祖先节点的细化,每一个子节点都可以认为包含它所有祖先节点的信息内容,因此2个概念的语义相似度可以用它们最近共同祖先节点的信息量来衡量。
该方法充分利用了信息论和概率统计的相关知识,但在节点拥有共同祖先时,存在因为语义相似度相等而造成区分不清的问题,导致概念间的语义相似度不能更细致地区分概念间的语义差别。
(2)基于语义距离的方法,在一个本体树中,可以根据概念节点之间的路径距离长短来判断其语义相似程度。如果2个节点之间的距离越近,这2个节点所代表的概念之间的相似度越大反之,2个概念节点的距离越远,其相似度越小。基于语义距离的方法直观、高效且易于理解,其中最简单的一种计算方式就是把本体树中所有有向边的长度都看成1,这样2个概念间的语义距离就等于它们对应结点在本体树中最短路径的有向边数量。
该方法在语义相似度计算的过程中,语义距离的长度在理论上缺乏客观、严谨的定义,而且基于语义距离的方法忽略了节点深度和节点密度的影响。
本发明提出一种高效的领域本体语义相似度计算算法,在深入研究语义相似度计算方法的基础上,考虑了概念间层次顺序、节点深度、语义重合度对基本语义相似度的影响,描述了决定概念语义相似度的各种因素,补充完善了语义相似度计算需要考虑的因素。本发明既克服了信息论方法语义区分不细致的问题,又使得语义距离的计算具有一定的理论严谨性,得到的语义相似度具有较好的实用价值,有效改善概念语义相似度计算的准确性。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种提高概念语义相似度计算的准确性的高效的领域本体语义相似度计算算法。本发明的技术方案如下:
一种高效的领域本体语义相似度计算算法,其包括以下步骤:
1)、获取本体概念对,并计算本体概念对的基本语义相似度;
2)、计算本体概念对的层次顺序对概念语义相似度的影响;
3)、计算本体概念对的深度信息对概念语义相似度的影响;
4)、计算语义重合度对概念语义相似度的影响;
5)、进行综合语义相似度计算,得出结果。
进一步的,所述步骤1)计算本体概念对的基本语义相似度,具体包括:
1.概念距离相似度,对于领域本体中的两个概念a、b,概念距离相似度算法如下:
式中,Ls(a,b)代表概念a到b的语义距离,θ为大于0的调节因子。
2.概念信息相似度,对于对于领域本体中的两个概念a、b,概念信息相似度算法如下:
式中,e为领域本体中概念a与b的最近共同祖先节点,I(e)、I(a)、I(b)为概念e、a、b的信息量。
3.概念属性相似度,对于对于领域本体中的两个概念a、b,概念属性相似度算法如下:
式中,LA(a,b)代表概念a到b的属性距离,τ为大于0的调节因子。
4.综合概念距离相似度、概念信息相似度、概念属性相似度,对于领域本体中的两个概念a、b,可以得到基本语义相似度算法如下:
simBsc(a,b)=δsimS(a,b)+εsimI(a,b)+ηsimA(a,b)
式中,δ、ε、η是取值区间为[0,1]的权重,且δ+ε+η=1。
进一步的,所述步骤2)对领域本体中的两个概念a、b,得到它们之间的层次顺序对概念语义相似度的影响,具体算法如下:
式中,lyr(a)、lyr(b)为概念a、b的所在的层次;入口节点所在层次最高,值为1;lyr(G)为领域本体层次网络的最底层,该影响因素的数值区间为[-1,1],当概念节点a比b层次低时,能够加强概念间的语义相似度;当概念节点a比b层次高时,能够削弱概念间的语义相似度。
进一步的,所述步骤3)中计算本体概念对的深度信息对概念语义相似度的影响,具体包括:
节点深度,某一节点到领域本体层次网络图入口节点的距离称为该节点的深度,对于领域本体中的两个概念a、b,得到它们之间的深度信息对概念语义相似度的影响,具体算法如下:
式中,dep(a)、dep(b)为概念a、b的深度信息,该影响因素的数值区间为[-1,1],同时,当两个节点的深度总和增大时,能够加强概念间的语义相似度;当节点间的深度之差增大时,能够削弱概念间的语义相似度。
进一步的,所述步骤4)计算语义重合度对概念语义相似度的影响,具体包括:
领域本体概念间上位概念的重合程度称为语义重合度,它通过祖先节点的重合程度来反映概念间的相似程度;上位概念是指在领域本体层次网络图中,从概念节点到入口节点经过的所有祖先节点对应的概念集合,对于层次网络图中的两个概念节点a、b,可以通过它们共同祖先节点的个数来衡量语义重合度,具体算法如下:
式中,Ha、Hb分别代表从节点a、b到入口节点经过的所有节点组成的集合;fn为为取集合个数函数,由于语义重合度属于概念之间相似程度的一种描述,所以与语义相似度的数值区间一样为[-1,1]。
进一步的,所述步骤5)进行综合语义相似度计算,得出结果,具体包括:
式中,δ、ξ、ζ为取值区间[0,1]的权重,且
进一步的,在计算基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算之前,还包括以下判断步骤:对已经构建好的本体概念对中获取概念X和Y,然后取判断X和Y是否为领域本体,若为否,则需要重新获取概念X和Y,直到获取到的X和Y是领域本体为止;当确定X和Y是领域本体时,接下来还需要判断X和Y是否为等同关系;若为是,则值为1;当X和Y不为等同关系时,然后分别进行基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算。
本发明的优点及有益效果如下:
本发明的创新点是提出一种高效的领域本体语义相似度计算算法,将传统的基于语义距离的算法和基于信息论的算法进行集成和改进,既克服了信息论方法语义区分不细致的问题,又使得语义距离的计算具有一定的理论严谨性。
具体步骤是:
1)本体概念对,由于各个局部本体的存储形式可能不尽相同,把各个局部本体转化为标准形式,用同一种语言把本体转换到同一表示水平,建立一个本体概念相关词汇库,词库的初始值为空。
2)层次顺序,在领域本体层次网络图中,对于非同义关系的两个概念,节点间的层次顺序是影响语义相似度的直接因素,若两个节点不变,处于高层的节点作为比较对象,处于低层的节点作为参照对象,它们之间的相似度记为sim(高层,低层);处于低层的节点作为比较对象,处于高层的节点作为参照对象,它们之间的相似度记为sim(低层,高层),一般有sim(高层,低层)<sim(低层,高层)。对领域本体中的两个概念a、b,可以得到它们之间的层次顺序对概念语义相似度的影响。
3)在领域本体层次网络图中,若两个节点之间的路径长度不变,处于深层的两个节点,它们之间的概念相似度要大于处于低层节点之间的概念相似度,同样若节点之间的路径长度不变,节点所在层次越接近,它们之间的概念相似度越大。某一节点到领域本体层次网络图入口节点的距离称为该节点的深度,对于领域本体中的两个概念a、b,可以得到它们之间的深度信息对概念语义相似度的影响。
4)语义重合度,通过祖先节点的重合程度来反映概念间的相似程度,对于层次网络图中的两个概念节点a、b,可以通过它们共同祖先节点的个数来衡量语义重合度。
5)综合基本语义相似度、层次顺序、节点深度、义重合度,得出结果与经典算法比较。具体算法如下:
式中,δ、ξ、ζ为取值区间[0,1]的权重,且当概念a、b为同义关系,则为0,且δ+ξ+ζ=1。
本发明综合了目前三种主要的语义相似度计算方法,补充完善了语义相似度计算需要考虑的因素,如:语义层次顺序、节点深度、语义重合度,该算法大大提高了语义相似度计算的精确性和准确性。
该方法的优点是:具有更好的区分度、较好的实用价值,有效改善概念语义相似度计算的准确性。
附图说明
图1是本发明提供优选实施例的领域本体语义相似度计算的过程图;
图2为本发明的领域本体语义相似度计算的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明提出了一种高效的领域本体语义相似度计算算法,其在深入研究语义相似度计算方法的基础上,考虑了概念间层次顺序、节点深度、语义重合度对基本语义相似度的影响,补充完善了语义相似度计算需要考虑的因素,使概念语义相似度计算方法更加合理。以下将参照附图并结合实例对本发明作进一步详细说明。
如图1所示,本发明的领域本体语义相似度计算的过程图,具体是这样实现的:
1.本体概念对,由于各个局部本体的存储形式可能不尽相同,把各个局部本体转化为标准形式,用同一种语言把本体转换到同一表示水平,建立一个本体概念相关词汇库,词库的初始值为空。
2.层次顺序,对领域本体中的两个概念a、b,可以得到它们之间的层次顺序对概念语义相似度的影响,具体算法如下:
式中,lyr(a)、lyr(b)为概念a、b的所在的层次;入口节点所在层次最高,值为1;lyr(G)为领域本体层次网络的最底层。该影响因素的数值区间为[-1,1],当概念节点a比b层次低时,能够加强概念间的语义相似度;当概念节点a比b层次高时,能够削弱概念间的语义相似度。
3.节点深度,某一节点到领域本体层次网络图入口节点的距离称为该节点的深度,对于领域本体中的两个概念a、b,可以得到它们之间的深度信息对概念语义相似度的影响,具体算法如下:
式中,dep(a)、dep(b)为概念a、b的深度信息,该影响因素的数值区间为[-1,1],同时,
当两个节点的深度总和增大时,能够加强概念间的语义相似度;当节点间的深度之差增大时,能够削弱概念间的语义相似度。
4.语义重合度,上位概念是指在领域本体层次网络图中,从概念节点到入口节点经过的所有祖先节点对应的概念集合。领域本体概念间上位概念的重合程度称为语义重合度,它通过祖先节点的重合程度来反映概念间的相似程度。对于层次网络图中的两个概念节点a、b,可以通过它们共同祖先节点的个数来衡量语义重合度,具体算法如下:
式中,Ha、Hb分别代表从节点a、b到入口节点经过的所有节点组成的集合;fn为为取集合个数函数。由于语义重合度属于概念之间相似程度的一种描述,所以与语义相似度的数值区间一样为[-1,1],语义重合度从很好的完善了语义相似度需要考虑的因素。
如图2所示,本发明的领域本体语义相似度计算的流程图,图2是对图1领域本体语义相似度计算过程进一步更详细的描述。具体是这样实现的:
1.在图1中,对已经构建好的本体概念对中获取概念X和Y,然后取判断X和Y是否为领域本体,若为否,则需要重新获取概念X和Y,直到获取到的X和Y是领域本体为止;
2.当确定X和Y是领域本体时,接下来还需要判断X和Y是否为等同关系;若为是,则值为1;
3.当X和Y不为等同关系时,然后分别进行基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算;
4.最后结合这些计算进行综合语义相似度计算,得出结果。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种高效的领域本体语义相似度计算算法,其特征在于,包括以下步骤:
1)、获取本体概念对,并计算本体概念对的基本语义相似度;
2)、计算本体概念对的层次顺序对概念语义相似度的影响;
3)、计算本体概念对的深度信息对概念语义相似度的影响;
4)、计算语义重合度对概念语义相似度的影响;
5)、根据步骤1)-步骤4)进行综合语义相似度计算,得出结果。
2.根据权利要求1所述的一种高效的领域本体语义相似度计算算法,其特征在于,所述步骤1)计算本体概念对的基本语义相似度,具体包括:
11.概念距离相似度,对于领域本体中的两个概念a、b,概念距离相似度算法如下:
式中,Ls(a,b)代表概念a到b的语义距离,θ为大于0的调节因子;
12.概念信息相似度,对于对于领域本体中的两个概念a、b,概念信息相似度算法如下:
式中,e为领域本体中概念a与b的最近共同祖先节点,I(e)、I(a)、I(b)为概念e、a、b的信息量。
13.概念属性相似度,对于对于领域本体中的两个概念a、b,概念属性相似度算法如下:
式中,LA(a,b)代表概念a到b的属性距离,τ为大于0的调节因子;
14.综合概念距离相似度、概念信息相似度、概念属性相似度,对于领域本体中的两个概念a、b,可以得到基本语义相似度算法如下:
simBsc(a,b)=δsimS(a,b)+εsimI(a,b)+ηsimA(a,b)
式中,δ、ε、η是取值区间为[0,1]的权重,且δ+ε+η=1。
3.根据权利要求1所述的一种高效的领域本体语义相似度计算算法,其特征在于,所述步骤2)对领域本体中的两个概念a、b,得到它们之间的层次顺序对概念语义相似度的影响,具体算法如下:
式中,lyr(a)、lyr(b)为概念a、b的所在的层次;入口节点所在层次最高,值为1;lyr(G)为领域本体层次网络的最底层,该影响因素的数值区间为[-1,1],当概念节点a比b层次低时,能够加强概念间的语义相似度;当概念节点a比b层次高时,能够削弱概念间的语义相似度。
4.根据权利要求1所述的一种高效的领域本体语义相似度计算算法,其特征在于,所述步骤3)中计算本体概念对的深度信息对概念语义相似度的影响,具体包括:
节点深度,某一节点到领域本体层次网络图入口节点的距离称为该节点的深度,对于领域本体中的两个概念a、b,得到它们之间的深度信息对概念语义相似度的影响,具体算法如下:
式中,dep(a)、dep(b)为概念a、b的深度信息,该影响因素的数值区间为[-1,1],同时,当两个节点的深度总和增大时,能够加强概念间的语义相似度;当节点间的深度之差增大时,能够削弱概念间的语义相似度。
5.根据权利要求1所述的一种高效的领域本体语义相似度计算算法,其特征在于,所述步骤4)计算语义重合度对概念语义相似度的影响,具体包括:
领域本体概念间上位概念的重合程度称为语义重合度,它通过祖先节点的重合程度来反映概念间的相似程度;上位概念是指在领域本体层次网络图中,从概念节点到入口节点经过的所有祖先节点对应的概念集合,对于层次网络图中的两个概念节点a、b,可以通过它们共同祖先节点的个数来衡量语义重合度,具体算法如下:
式中,Ha、Hb分别代表从节点a、b到入口节点经过的所有节点组成的集合;fn为为取集合个数函数,由于语义重合度属于概念之间相似程度的一种描述,所以与语义相似度的数值区间一样为[-1,1]。
6.根据权利要求1所述的一种高效的领域本体语义相似度计算算法,其特征在于,所述步骤5)进行综合语义相似度计算,得出结果,具体包括:
式中,δ、ξ、ζ为取值区间[0,1]的权重,且
7.根据权利要求1-6之一所述的一种高效的领域本体语义相似度计算算法,其特征在于,在计算基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算之前,还包括以下判断步骤:对已经构建好的本体概念对中获取概念X和Y,然后取判断X和Y是否为领域本体,若为否,则需要重新获取概念X和Y,直到获取到的X和Y是领域本体为止;当确定X和Y是领域本体时,接下来还需要判断X和Y是否为等同关系;若为是,则值为1;当X和Y不为等同关系时,然后分别进行基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811366601.9A CN109558495A (zh) | 2018-11-16 | 2018-11-16 | 一种高效的领域本体语义相似度计算算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811366601.9A CN109558495A (zh) | 2018-11-16 | 2018-11-16 | 一种高效的领域本体语义相似度计算算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109558495A true CN109558495A (zh) | 2019-04-02 |
Family
ID=65866296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811366601.9A Pending CN109558495A (zh) | 2018-11-16 | 2018-11-16 | 一种高效的领域本体语义相似度计算算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109558495A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659350A (zh) * | 2019-09-24 | 2020-01-07 | 吉林大学 | 基于领域本体的语义搜索系统及搜索方法 |
CN112163430A (zh) * | 2020-10-29 | 2021-01-01 | 北京理工大学 | 面向mes系统的工业设备数据的本体融合方法和系统 |
-
2018
- 2018-11-16 CN CN201811366601.9A patent/CN109558495A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110659350A (zh) * | 2019-09-24 | 2020-01-07 | 吉林大学 | 基于领域本体的语义搜索系统及搜索方法 |
CN112163430A (zh) * | 2020-10-29 | 2021-01-01 | 北京理工大学 | 面向mes系统的工业设备数据的本体融合方法和系统 |
CN112163430B (zh) * | 2020-10-29 | 2022-10-18 | 北京理工大学 | 面向mes系统的工业设备数据的本体融合方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104182454B (zh) | 基于领域本体构建的多源异构数据语义集成的模型及方法 | |
Li et al. | Fine-grained location extraction from tweets with temporal awareness | |
US8224805B2 (en) | Method for generating context hierarchy and system for generating context hierarchy | |
CN112347222B (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 | |
CN106952167B (zh) | 一种基于多元线性回归的餐饮业好友连边影响力预测方法 | |
CN108710663A (zh) | 一种基于本体模型的数据匹配方法及系统 | |
CN105843829B (zh) | 一种基于分层模型的大数据可信性度量方法 | |
CN109558495A (zh) | 一种高效的领域本体语义相似度计算算法 | |
Chen et al. | Georeferencing places from collective human descriptions using place graphs | |
CN108647800A (zh) | 一种基于节点嵌入的在线社交网络用户缺失属性预测方法 | |
CN116848490A (zh) | 使用模型相交进行文档分析 | |
CN105117386A (zh) | 一种基于图书内容结构的语义关联方法 | |
Jin et al. | Text clustering algorithm based on the graph structures of semantic word co-occurrence | |
CN111814528A (zh) | 一种连通性分析的夜光影像城市等级分类方法 | |
Shafique et al. | Recommending most popular travel path within a region of interest from historical trajectory data | |
Mackaness et al. | Automatic classification of retail spaces from a large scale topographic database | |
Bin et al. | Using information content to evaluate semantic similarity on HowNet | |
CN104615718B (zh) | 社交网络突发事件的层次分析方法 | |
Yin et al. | Personalized tourism route recommendation system based on dynamic clustering of user groups | |
CN104657429B (zh) | 基于复杂网络的技术驱动型产品创新方法 | |
CN115859963A (zh) | 一种面向新词义原推荐的相似性判别方法及系统 | |
KR20150057472A (ko) | Poi 추출 모호성 해소 방법, 문서로부터 poi를 추출하는 방법, poi 추출 장치 | |
CN105354264B (zh) | 一种基于局部敏感哈希的主题标签快速赋予方法 | |
Yang et al. | Web service clustering method based on word vector and biterm topic model | |
Yang et al. | Matching road network combining hierarchical strokes and probabilistic relaxation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190402 |