CN109558495A

CN109558495A - 一种高效的领域本体语义相似度计算算法

Info

Publication number: CN109558495A
Application number: CN201811366601.9A
Authority: CN
Inventors: 罗志勇; 范志鹏; 赵杰; 于士杰; 马国喜; 郑焕平; 韩冷; 杨美美
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-11-16
Filing date: 2018-11-16
Publication date: 2019-04-02

Abstract

本发明请求保护一种高效的领域本体语义相似度计算算法，涉及领域在多个应用本体间出现语义异构问题。目前主要有基于信息论、语义距离两种语义相似度计算模型，随着研究的逐渐深入，考虑概念间的语义距离、信息量、属性等因素，设计了一种基本语义相似度算法，但却忽了概念间信息量对语义相似度的影响。针对这些问题，该方法在基本语义相似度计算基础上，进一步考虑概念间的层次顺序、节点深度、语义重合度等因素对语义相似度的影响。因此，本发明提出了一种高效的领域本体语义相似度计算算法，补充完善了语义相似度计算需要考虑的因素，提高了概念语义相似度计算的精确性和准确性。

Description

一种高效的领域本体语义相似度计算算法

技术领域

本发明属于计算机信息处理领域，尤其涉及一种高效的领域本体语义相似度计算算法。

背景技术

传统的基于本体的概念语义相似度计算一般可归纳为以下2种：

(1)基于信息论的方法，在信息论中,信息量能够体现一个概念所含的语义信息多少,可通过概念及其实例对象出现的概率或权重来量化。在基于信息论的方法中认为，如果2个概念共享的信息量越大则说明量个概念就越相似。在本体结构中，每个概念是对其祖先节点的细化，每一个子节点都可以认为包含它所有祖先节点的信息内容，因此2个概念的语义相似度可以用它们最近共同祖先节点的信息量来衡量。

该方法充分利用了信息论和概率统计的相关知识，但在节点拥有共同祖先时，存在因为语义相似度相等而造成区分不清的问题，导致概念间的语义相似度不能更细致地区分概念间的语义差别。

(2)基于语义距离的方法，在一个本体树中，可以根据概念节点之间的路径距离长短来判断其语义相似程度。如果2个节点之间的距离越近，这2个节点所代表的概念之间的相似度越大反之，2个概念节点的距离越远，其相似度越小。基于语义距离的方法直观、高效且易于理解，其中最简单的一种计算方式就是把本体树中所有有向边的长度都看成1，这样2个概念间的语义距离就等于它们对应结点在本体树中最短路径的有向边数量。

该方法在语义相似度计算的过程中，语义距离的长度在理论上缺乏客观、严谨的定义，而且基于语义距离的方法忽略了节点深度和节点密度的影响。

本发明提出一种高效的领域本体语义相似度计算算法，在深入研究语义相似度计算方法的基础上，考虑了概念间层次顺序、节点深度、语义重合度对基本语义相似度的影响，描述了决定概念语义相似度的各种因素，补充完善了语义相似度计算需要考虑的因素。本发明既克服了信息论方法语义区分不细致的问题，又使得语义距离的计算具有一定的理论严谨性，得到的语义相似度具有较好的实用价值，有效改善概念语义相似度计算的准确性。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高概念语义相似度计算的准确性的高效的领域本体语义相似度计算算法。本发明的技术方案如下：

一种高效的领域本体语义相似度计算算法，其包括以下步骤：

1)、获取本体概念对，并计算本体概念对的基本语义相似度；

2)、计算本体概念对的层次顺序对概念语义相似度的影响；

3)、计算本体概念对的深度信息对概念语义相似度的影响；

4)、计算语义重合度对概念语义相似度的影响；

5)、进行综合语义相似度计算，得出结果。

进一步的，所述步骤1)计算本体概念对的基本语义相似度，具体包括：

1.概念距离相似度，对于领域本体中的两个概念a、b，概念距离相似度算法如下：

式中，L_s(a,b)代表概念a到b的语义距离，θ为大于0的调节因子。

2.概念信息相似度，对于对于领域本体中的两个概念a、b，概念信息相似度算法如下：

式中，e为领域本体中概念a与b的最近共同祖先节点，I(e)、I(a)、I(b)为概念e、a、b的信息量。

3.概念属性相似度，对于对于领域本体中的两个概念a、b，概念属性相似度算法如下：

式中，L_A(a,b)代表概念a到b的属性距离，τ为大于0的调节因子。

4.综合概念距离相似度、概念信息相似度、概念属性相似度，对于领域本体中的两个概念a、b，可以得到基本语义相似度算法如下：

sim_Bsc(a,b)＝δsim_S(a,b)+εsim_I(a,b)+ηsim_A(a,b)

式中，δ、ε、η是取值区间为[0,1]的权重，且δ+ε+η＝1。

进一步的，所述步骤2)对领域本体中的两个概念a、b，得到它们之间的层次顺序对概念语义相似度的影响，具体算法如下：

式中，lyr(a)、lyr(b)为概念a、b的所在的层次；入口节点所在层次最高，值为1；lyr(G)为领域本体层次网络的最底层，该影响因素的数值区间为[-1，1]，当概念节点a比b层次低时，能够加强概念间的语义相似度；当概念节点a比b层次高时，能够削弱概念间的语义相似度。

进一步的，所述步骤3)中计算本体概念对的深度信息对概念语义相似度的影响，具体包括：

节点深度，某一节点到领域本体层次网络图入口节点的距离称为该节点的深度，对于领域本体中的两个概念a、b，得到它们之间的深度信息对概念语义相似度的影响，具体算法如下：

式中，dep(a)、dep(b)为概念a、b的深度信息，该影响因素的数值区间为[-1，1]，同时，当两个节点的深度总和增大时，能够加强概念间的语义相似度；当节点间的深度之差增大时，能够削弱概念间的语义相似度。

进一步的，所述步骤4)计算语义重合度对概念语义相似度的影响，具体包括：

领域本体概念间上位概念的重合程度称为语义重合度，它通过祖先节点的重合程度来反映概念间的相似程度；上位概念是指在领域本体层次网络图中，从概念节点到入口节点经过的所有祖先节点对应的概念集合，对于层次网络图中的两个概念节点a、b，可以通过它们共同祖先节点的个数来衡量语义重合度，具体算法如下：

式中，H_a、H_b分别代表从节点a、b到入口节点经过的所有节点组成的集合；f_n为为取集合个数函数，由于语义重合度属于概念之间相似程度的一种描述，所以与语义相似度的数值区间一样为[-1,1]。

进一步的，所述步骤5)进行综合语义相似度计算，得出结果，具体包括：

式中，δ、ξ、ζ为取值区间[0,1]的权重，且

进一步的，在计算基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算之前，还包括以下判断步骤：对已经构建好的本体概念对中获取概念X和Y，然后取判断X和Y是否为领域本体，若为否，则需要重新获取概念X和Y，直到获取到的X和Y是领域本体为止；当确定X和Y是领域本体时，接下来还需要判断X和Y是否为等同关系；若为是，则值为1；当X和Y不为等同关系时，然后分别进行基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算。

本发明的优点及有益效果如下：

本发明的创新点是提出一种高效的领域本体语义相似度计算算法，将传统的基于语义距离的算法和基于信息论的算法进行集成和改进，既克服了信息论方法语义区分不细致的问题，又使得语义距离的计算具有一定的理论严谨性。

具体步骤是：

1)本体概念对，由于各个局部本体的存储形式可能不尽相同，把各个局部本体转化为标准形式，用同一种语言把本体转换到同一表示水平，建立一个本体概念相关词汇库，词库的初始值为空。

2)层次顺序，在领域本体层次网络图中，对于非同义关系的两个概念，节点间的层次顺序是影响语义相似度的直接因素，若两个节点不变，处于高层的节点作为比较对象，处于低层的节点作为参照对象，它们之间的相似度记为sim(高层，低层)；处于低层的节点作为比较对象，处于高层的节点作为参照对象，它们之间的相似度记为sim(低层，高层)，一般有sim(高层，低层)<sim(低层，高层)。对领域本体中的两个概念a、b，可以得到它们之间的层次顺序对概念语义相似度的影响。

3)在领域本体层次网络图中，若两个节点之间的路径长度不变，处于深层的两个节点，它们之间的概念相似度要大于处于低层节点之间的概念相似度，同样若节点之间的路径长度不变，节点所在层次越接近，它们之间的概念相似度越大。某一节点到领域本体层次网络图入口节点的距离称为该节点的深度，对于领域本体中的两个概念a、b，可以得到它们之间的深度信息对概念语义相似度的影响。

4)语义重合度，通过祖先节点的重合程度来反映概念间的相似程度，对于层次网络图中的两个概念节点a、b，可以通过它们共同祖先节点的个数来衡量语义重合度。

5)综合基本语义相似度、层次顺序、节点深度、义重合度，得出结果与经典算法比较。具体算法如下：

式中，δ、ξ、ζ为取值区间[0,1]的权重，且当概念a、b为同义关系，则为0，且δ+ξ+ζ＝1。

本发明综合了目前三种主要的语义相似度计算方法，补充完善了语义相似度计算需要考虑的因素，如：语义层次顺序、节点深度、语义重合度，该算法大大提高了语义相似度计算的精确性和准确性。

该方法的优点是：具有更好的区分度、较好的实用价值，有效改善概念语义相似度计算的准确性。

附图说明

图1是本发明提供优选实施例的领域本体语义相似度计算的过程图；

图2为本发明的领域本体语义相似度计算的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明提出了一种高效的领域本体语义相似度计算算法，其在深入研究语义相似度计算方法的基础上，考虑了概念间层次顺序、节点深度、语义重合度对基本语义相似度的影响，补充完善了语义相似度计算需要考虑的因素，使概念语义相似度计算方法更加合理。以下将参照附图并结合实例对本发明作进一步详细说明。

如图1所示，本发明的领域本体语义相似度计算的过程图，具体是这样实现的：

1.本体概念对，由于各个局部本体的存储形式可能不尽相同，把各个局部本体转化为标准形式，用同一种语言把本体转换到同一表示水平，建立一个本体概念相关词汇库，词库的初始值为空。

2.层次顺序，对领域本体中的两个概念a、b，可以得到它们之间的层次顺序对概念语义相似度的影响，具体算法如下：

式中，lyr(a)、lyr(b)为概念a、b的所在的层次；入口节点所在层次最高，值为1；lyr(G)为领域本体层次网络的最底层。该影响因素的数值区间为[-1，1]，当概念节点a比b层次低时，能够加强概念间的语义相似度；当概念节点a比b层次高时，能够削弱概念间的语义相似度。

3.节点深度，某一节点到领域本体层次网络图入口节点的距离称为该节点的深度，对于领域本体中的两个概念a、b，可以得到它们之间的深度信息对概念语义相似度的影响，具体算法如下：

式中，dep(a)、dep(b)为概念a、b的深度信息，该影响因素的数值区间为[-1，1]，同时，

当两个节点的深度总和增大时，能够加强概念间的语义相似度；当节点间的深度之差增大时，能够削弱概念间的语义相似度。

4.语义重合度，上位概念是指在领域本体层次网络图中，从概念节点到入口节点经过的所有祖先节点对应的概念集合。领域本体概念间上位概念的重合程度称为语义重合度，它通过祖先节点的重合程度来反映概念间的相似程度。对于层次网络图中的两个概念节点a、b，可以通过它们共同祖先节点的个数来衡量语义重合度，具体算法如下：

式中，H_a、H_b分别代表从节点a、b到入口节点经过的所有节点组成的集合；f_n为为取集合个数函数。由于语义重合度属于概念之间相似程度的一种描述，所以与语义相似度的数值区间一样为[-1,1]，语义重合度从很好的完善了语义相似度需要考虑的因素。

如图2所示，本发明的领域本体语义相似度计算的流程图，图2是对图1领域本体语义相似度计算过程进一步更详细的描述。具体是这样实现的：

1.在图1中，对已经构建好的本体概念对中获取概念X和Y，然后取判断X和Y是否为领域本体，若为否，则需要重新获取概念X和Y，直到获取到的X和Y是领域本体为止；

2.当确定X和Y是领域本体时，接下来还需要判断X和Y是否为等同关系；若为是，则值为1；

3.当X和Y不为等同关系时，然后分别进行基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算；

4.最后结合这些计算进行综合语义相似度计算，得出结果。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种高效的领域本体语义相似度计算算法，其特征在于，包括以下步骤：

2)、计算本体概念对的层次顺序对概念语义相似度的影响；

3)、计算本体概念对的深度信息对概念语义相似度的影响；

4)、计算语义重合度对概念语义相似度的影响；

5)、根据步骤1)-步骤4)进行综合语义相似度计算，得出结果。

2.根据权利要求1所述的一种高效的领域本体语义相似度计算算法，其特征在于，所述步骤1)计算本体概念对的基本语义相似度，具体包括：

11.概念距离相似度，对于领域本体中的两个概念a、b，概念距离相似度算法如下：

式中，L_s(a,b)代表概念a到b的语义距离，θ为大于0的调节因子；

12.概念信息相似度，对于对于领域本体中的两个概念a、b，概念信息相似度算法如下：

13.概念属性相似度，对于对于领域本体中的两个概念a、b，概念属性相似度算法如下：

式中，L_A(a,b)代表概念a到b的属性距离，τ为大于0的调节因子；

14.综合概念距离相似度、概念信息相似度、概念属性相似度，对于领域本体中的两个概念a、b，可以得到基本语义相似度算法如下：

sim_Bsc(a,b)＝δsim_S(a,b)+εsim_I(a,b)+ηsim_A(a,b)

式中，δ、ε、η是取值区间为[0,1]的权重，且δ+ε+η＝1。

3.根据权利要求1所述的一种高效的领域本体语义相似度计算算法，其特征在于，所述步骤2)对领域本体中的两个概念a、b，得到它们之间的层次顺序对概念语义相似度的影响，具体算法如下：

4.根据权利要求1所述的一种高效的领域本体语义相似度计算算法，其特征在于，所述步骤3)中计算本体概念对的深度信息对概念语义相似度的影响，具体包括：

5.根据权利要求1所述的一种高效的领域本体语义相似度计算算法，其特征在于，所述步骤4)计算语义重合度对概念语义相似度的影响，具体包括：

6.根据权利要求1所述的一种高效的领域本体语义相似度计算算法，其特征在于，所述步骤5)进行综合语义相似度计算，得出结果，具体包括：

式中，δ、ξ、ζ为取值区间[0,1]的权重，且

7.根据权利要求1-6之一所述的一种高效的领域本体语义相似度计算算法，其特征在于，在计算基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算之前，还包括以下判断步骤：对已经构建好的本体概念对中获取概念X和Y，然后取判断X和Y是否为领域本体，若为否，则需要重新获取概念X和Y，直到获取到的X和Y是领域本体为止；当确定X和Y是领域本体时，接下来还需要判断X和Y是否为等同关系；若为是，则值为1；当X和Y不为等同关系时，然后分别进行基本语义相似度计算、层次顺序计算、节点深度计算、语义重合计算。