CN104239546A

CN104239546A - 一种基于场论的本体中概念相似度计算方法

Info

Publication number: CN104239546A
Application number: CN201410490635.4A
Authority: CN
Inventors: 王国新; 王祎楠; 阎艳; 师鑫
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-09-23
Filing date: 2014-09-23
Publication date: 2014-12-24
Anticipated expiration: 2034-09-23
Also published as: CN104239546B

Abstract

本发明提供了一种基于场论的本体中概念相似度计算方法，基于场论，采用场的特性描述本体，把本体定义的语义结构转化为语义场以构建语义场模型；对本体包含的概念间语义关系进行规范化；本体利用信息量对概念的特征进行描述，得到概念的语义引力元和语义距离；最后应用所述语义场模型得到概念相似度。本发明全面考虑了概念相似与差异两方面对概念相似度计算的影响，改进了现有方法孤立考虑两者之一的缺陷。

Description

一种基于场论的本体中概念相似度计算方法

技术领域

本发明属于检索技术领域，尤其涉及一种基于场论的本体中概念相似度计算方法。

背景技术

利用关键字的检索从字符的表现形式上进行匹配，只能检索用户所表达的显性信息，无法对用户表示的隐性信息进行处理。语言学的分类结构就可以很好的解决这一问题，而语言学分类结构的一个应用最广泛的应用就是本体。本体就可以通过概念及概念间的关系，有效地理解用户输入的信息，从而达到语义检索的目的。这一过程中最核心的步骤就是依据本体中概念相似度对用户输入概念进行拓展。

本体中概念相似度的计算方式主要分为两种，分别是基于概念间关系的边方法和基于节点的方法，基于节点的方法又可以分为基于节点信息量的方法和基于节点的特征的方法。

以上两种类型的方法，都只考虑了概念相似度的一种角度。节点的方法从概念相同的部分去分析概念的相似度，边的方法从概念差异的角度衡量相似度，两种方法都没有综合考虑概念中相同和差异部分对相似度的影响。使用边的方法时，主要是采用权重衡量概念的差异，主要由密度权重、深度(层次)权重、类型权重、信息量权重，前三种权重因子不能准确的反映关系所连接概念的实际差异，并且这四类权值差异的根本原因在于本体内概念信息量的分布。所以，无论是边方法还是节点的方法，都依据不同概念的信息量之间的关系。综合考虑概念共享和差异的信息量，就能准确的得到概念的相似度。

以本体中某一概念为参考点，其他概念依据与该概念信息量中的差异得到与参考点的距离，分布在以参考点为原点的一维空间中。当分别以本体内每一概念为参考点后，既可以把本体中的概念分布在一个N维空间内，N为本体中概念的数量，进而得到任意两概念的几何距离。

发明内容

本发明的目的在于提供一种基于场论的本体中概念相似度计算方法，旨在解决现有基于本体语义分析中的对概念特征描述不完整和对关系的作用描述不准确的问题。

本发明是这样实现的，一种基于场论的本体中概念相似度计算方法，包括以下步骤：

S1、基于场论，采用场的特性描述本体，把本体定义的语义结构转化为语义场以构建语义场模型；

S2、对本体包含的概念间语义关系进行规范化；

S3、本体利用信息量对概念的特征进行描述，得到概念的语义引力元和语义距离；

S4、应用所述语义场模型得到概念相似度。

优选地，在步骤S1中，所述语义场模型用函数定义为：

F = \frac{f \times m (c_{1}) \times m (c_{2})}{r^{2}};

式中，m(c₁)、m(c₂)为概念C₁、C₂的引力元，对于语义场，引力元m₁＝m₂；r为概念C₁、C₂间的语义距离，f为引力常数。

优选地，在步骤S2中，所述语义关系包括上下位关系、等同关系、与关系和交叉关系、或关系、非关系、矛盾关系和互补关系。

优选地，在步骤S3中，所述信息量为根据某一概念的父类和子类的信息量共同决定，且用概念在本体中发生的频数来表示。

为克服现有技术的缺点和不足，本发明提供了一种基于场论的本体中概念相似度计算方法，通过对概念共性与特性信息量的定义，明确概念的相似与差异，并应用场论结合概念的相似与差异，引入引力概念来度量概念的相似度。

相比于现有技术的缺点和不足，本发明具有以下有益效果：本方法在现有信息量方法的基础上，进一步把引力元信息量细分为共性信息量与特性信息量，应用本体结构定义概念信息量，改进了现有方法对信息量定义依赖外部语料库的不足。并引入了语义距离的概念，用信息量量化的表达概念间差异，改进了现有方法对概念间差异定义模糊的问题。本方法全面考虑了概念相似与差异两方面对概念相似度计算的影响，改进了现有方法孤立考虑两者之一的缺陷。

附图说明

图1是本发明基于场论的本体中概念相似度计算方法的步骤流程图；

图2是本发明实施例中一般情况下的概念依据关系建立的网状结构图；

图3是应用TK数据集验证得到的结果折线图；

图4是应用DD数据集验证得到的结果折线图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种基于场论的本体中概念相似度计算方法，如图1所示，包括以下步骤：

S1、基于场论，采用场的特性描述本体，把本体定义的语义结构转化为语义场以构建语义场模型

场论认为，物质客体的一种存在形式可以转化为另一种存在形式—场。在与时间无关的稳定场中，场的存在总是与某种确定的事物联系着。场作为物质客体的一种形态，与由原子组成的物质客体具有不同的特点：

1)场在空间的分布是无限的、连续的；

2)在同一空间可以存在各种不同的场；

3)场还能渗透到物体占有的空间之中；

4)场可能改变物体的状态，而物体也可能影响场的分布^[11]。

知识虽然不是实物物质，但它可以转换成一种物质形态。作为物质形态存在的知识，就可以转化为场。概念作为知识的载体，利用本体进行表述时，概念之间通过关系相互作用，符合稳定场的特点。描述性逻辑的本体，转化为具有量化关系的概念场，就可以利用概念场，客观量化的得到概念的相似性。

而引力场的特性具体为：

1)有源性。引力场是有源场，其源为汇聚源，即引力线总是汇聚于质量物体处。如果封闭曲面并未把点源包围在内，则点源对封闭曲面所张之立体角为零。即：

式中表示封闭域内的质量体密度。

2)无旋性。引力场对质量物体所做的功只和始终点的位置有关，而与做功的路径无关。如果路径是闭合的，便有：S是由L围成的曲面，而L是任意的。

此外，本体的特性具体为：

1)有源性。本体由概念组成，关系在概念处汇聚。某一个概念都作为源，依据关系对其他概念产生影响。这种影响不会凭空产生，必须依赖于作为源的概念。

2)矢量性(无旋性)。本体明确后，某一概念通过不同的关系指向相同的概念，产生的影响是相同的。某一概念通过相同的关系指向不同的概念，产生的影响是不同的。

3)可叠加性。由于概念间关系的复杂性，每个概念会与多个其他概念建立关系，每个概念受到多个概念源的共同作用。这些作用依据特定方式相互叠加。

4)扩散性。作为源的概念对与其存在直接和间接关系的概念产生作用。这种作用会通过关系扩散到整个本体中。

通过比较引力场与本体的特性，可以发现本体与引力场是类似的，所以，把本体转化为引力场为基础的概念场，并通过概念间的引力来衡量概念的相似度是可行的。引力场中，各场源通过场相互作用。场强和力可以衡量相互作用的大小，利用梯度、方向导数、通度和散度等概念，可以对场强的特性进行描述。

其中，引力场与本体结合原理具体为：

1)物理场的特性描述

方向导数：已知标函数在域上连续且M为域上的一点，则在过M点沿曲线的方向导数为：

如果沿方向函数增加，则其方向导数为正，反之，为负；

梯度：标函数在域内某点M的梯度矢量方向，就是标量场在该点变化率最大的方向。在直角坐标系下，方向导数可以表示为：

式中，为的三个方向余弦。右边第二项就是沿方向的单位矢量，第一项定义为标函数的梯度，记为

通量：反映了矢场的聚散特征。矢场对于某一曲面S的通量可以由如下曲面积分得到：

N＝∫∫_sa·ds (3)

散度：散度描述矢场中场源的分布特征和性质。

是曲面S为封闭曲面时的通量。散度大小与场源密度由直接关系。设封闭曲面S的空间体积为，则矢场a在该点的散度为：

2)本体的特性描述

引力方向导数和梯度的求法与场强相同。因为引力衡量的是两概念的相互作用，所以要得到概念间的相似度，需要用引力。

方向导数：在以某个概念为场源产生的场中，与场源有关系的概念都受到场强的作用，与场源之间产生引力。已知场源概念对概念1和概念2的引力分别为和，且两概念之间存在关系，则该引力场在上的方向导数为：

\frac{&PartialD; F}{&PartialD; l} = \lim_{Δl &RightArrow; 0} \frac{ΔF}{Δl} - - - (5)

对这个方向导数在上进行积分，得到引力在关系上的变化量：

ΔF = \underset{l}{&Integral;} \frac{&PartialD; F}{&PartialD; l} dl = F_{1} - F_{2} - - - (6)

ΔF越小，说明该场中，概念1和概念2越接近。

梯度：场强变化最快的方向就是场的梯度方向。可以看成是经过相同的关系数，场源对概念的影响变化最多的方向。场源对梯度方向上的概念的影响差异最大。

通度：在本体中划定某一边界S，通过该边界的关系数。设该边界一侧包含的源概念为个，第个源概念通过边界与个概念产生关系。则通度为：

N_{s} = Σ_{i = 1}^{n} N_{i} - - - (7)

通度反映的是某一区域内概念与区域外概念关系的数量。

散度：本体场场源处的散度可以用与场源的关系的数量确定。若边界S闭合形成区域，且该区域足够小只容纳一个源概念，则该源概念的散度为：

div N = \lim_{s &RightArrow; 1} \frac{Σ_{i = 1}^{1} N_{i}}{s} = N - - - (8)

N为与区域内源概念存在直接关系的概念的数量。散度的定义与本体的密度是正相关的，散度反映的是与选定区域内的概念存在直接关系的概念的数量。该区域内概念的密度越大，散度越大。

基于上述原理，在本步骤S1中，本体的语义场转化具体为：

采用场的特性描述本体后，就可以把本体定义的语义结构转化为语义场。语义场的场源是本体中的概念，概念间的关系是形成概念相互作用的依据。以本体中的任意一个概念为场源，形成以此概念为核心的场。通过概念间的关系，场源对本体中的其他概念产生引力。用场的特性可以描述场源的密度并得到其余概念在该场中的关系。

引力场中引力的公式为：

F = \frac{f \times m_{1} \times m_{2}}{r^{2}} - - - (9)

公式(9)中：f为引力常数。随着场的类型不同，引力常数的值也不同。对于同一类型的场，可以不作区分。

m₁、m₂为量化的引力元，例如：在静电场中引力元是电荷量，在万有引力场中引力元是质量。r为两引力元的距离。

物质客体分可以看成是各种属性的集合，则一个具体的物质客体可以用多维特征进行描述。相同的特征，如：质量，电量，产生了引力元；不同的特征，如空间维度上，两客体的位置存在差异，产生了的距离。

在本体中，每个概念都是信息的集合，则信息可以用来描述概念的所有特征。两概念信息相同的部分，产生了引力元，差异的部分产生了两概念间的距离。所以，在语义场中应用引力时，核心问题是衡量概念的信息量，并对信息量的相同与差异进行区分。

设有两概念，由共享的信息量得到引力元，由差异的信息量，得到引力公式如下：

F = \frac{f \times m (c_{1}) \times m (c_{2})}{r^{2}} - - - (10)

公式(10)中，m(c₁)、m(c₂)为概念C₁、C₂的引力元，对于语义场，引力元m₁＝m₂；r为概念C₁、C₂间的语义距离。

S2、对本体包含的概念间语义关系进行规范化

本体包含的概念间存在丰富的关系。其中，概念间的语义关系由信息量关系存产生。语义关系可以看做是信息量关系的一种表达形式。为了由语义关系得到概念信息量的关系，就需要对语义关系进行规范化处理。

通过借鉴叙词表中概念的语言学关系，以及Protégé已提供的一些功能，本体中的概念间关系主要分为以下十二种：l)上下位关系；2)等同关系；3)与关系和交叉关系；4)或关系；5)非关系；6)矛盾关系；7)互补关系；8)因果关系；9)动作关系；10)时间关系；11)能愿关系；12)空间关系^[12]。这12种关系根据对概念的作用，可以分为语义关系和逻辑关系^[13]。

语义关系揭示的目的在于明确概念含义，关注的是概念所具有的语义本身。逻辑关系揭示的目的在于明确概念的互动，关注的是概念的功能，而不是关注概念的语义。所以在衡量概念信息量时，只需要考虑12种关系中的语义关系。

以上关系中，上下位关系、等同关系、与关系和交叉关系、或关系、非关系、矛盾关系和互补关系属于语义关系，根据信息量计算的要求，需要对概念间的这7中关系进行规范化。图2描述了一般情况下的概念依据关系建立的网状结构。

图2中共有8个概念，分别为C₁、C₂、C₃、C₄、C₅、C₆、C₇、C₈。概念C₁包含信息I₁，概念C₂包含信息I₂，概念C₃包含信息I₂，概念C₄包含信息I₁、I₂，概念C₅包含信息I₁、I₃。

C₂、C₃的包含的信息完全相同，则C₂、C₃就形成了等同关系。

概念C₄、C₅继承了C₂的信息，那么C₂就是C₄、C₅的父类，同理，C₁就是C₄的父类。则C₁与C₄，C₂与C₄、C₅，就是上下位关系。又因为C₄、C₅共同包含了C₂的全部信息，所以C₂、C₄、C₅存在交叉关系，且C₄C₅＝C₂。

由于概念C₄的信息完全由概念C₁、C₂继承得到，则C₁、C₂和C₄为或关系。特殊的，如果I₁、I₂不存在共享的部分，则C₁、C₂为非关系。如果中C₄除了I₁、I₂还有其他的信息，则为C₁、C₂矛盾关系。

已知C₆、C₇是C₄的子类(外延)，C₈是C₅的子类(外延)，且C₆、C₇、C₈为C₂的全部外延。如果C₆、C₇的信息与C₈包含的信息相互排斥，也就是C₄、C₅的外延相互排斥且，且C₄、C₅共为C₂的外延则C₄、C₅为互补关系。

S3、本体利用信息量对概念的特征进行描述，得到概念的语义引力元和语义距离

根据信息论中信息量的定义，信息量是消除的不确定性的大小。所以Ross^[14]中提出来了，使用信息发生概率的负对数来衡量信息量，如公式(11)所示：

IC(a)＝-logp(a) (11)

公式(11)中，I(C)＝-log₂p(C)为语料库中信息出现的概率。

Resnik在式SIM_Resnik＝IC(MICA)_u，v中的方法用到了本体中概念的信息量的计算，对于概念的概率，一般从语料库中得到^[1～5]，李文清等提出了自底向上的方法，利用概念的子概念出现概率计算信息量^[15]。(9)式中的信息量的依据是消除不确定性的大小，而在本体中一个概念所具有的信息量应该反映这一概念本身的不确定性。通过语料库得到的信息量中含有大量无效的资源，尤其针对领域本体，概念在不同领域中表达的信息不同，只有通过特定领域本体的结构得到的信息量才能真实的反映概念语义。所以，信息量的计算应该由被检索本体的结构得到。文献^[15]中提到的方法虽然是由本体结构得到的信息量，但是只从子类描述概念的信息量，没有考虑父类对信息量的影响。所以本文提出，根据某一概念的父类和子类的信息量共同决定该概念的信息量。

由图2可以看到，概念的信息量可以由父类继承，也会有相应的外延，这两种信息量都可以描述此概念，但是并不相同，所以需要进行区分。一个概念的信息由两部分组成，一部分是概念的内涵，另一部分是概念的外延。内涵部分的信息量由此概念的上位，也就是他的父类继承得到。内涵部分是此概念固有的信息，描述的是这个概念的本质属性。外延部分是由此概念的外延，也就是此概念的子类得到。外延是此概念的具体化，是此概念在某一方面的体现。从图1中可以发现，子类的信息由多个父类继承得到，多个父类的信息进行组合，使得子类描述的信息更为具体，而这种具体的描述也只是父类表达的信息的一种可能性。

内涵表达的是概念的本质，而外延表达的是概念信息的所有可能性。那么从父类继承的信息定义为共性信息量，由外延描述的信息定义为特性信息量。

其中，特性信息量具体为：

用概念在本体中发生的频数来表示概念的信息量。概念发生的频数为此概念所有直接下位概念的频数和。设概念C一共有个直接下位概念，则C的信息量等于C的频数，等于个下位概念的信息量之和减去个下位概念重合部分的信息量，即：

I_s(C)＝N(C) (12)

I_{s} (C) = Σ_{i = 1}^{n} I_{s} (C_{i}) - Σ_{\underset{j > i}{i = 1}}^{n} [I_{s} (C_{i}) \cap I_{s} (C_{j})] - - - (13)

式中：I_s(C)是概念C的特性信息量；

N(C)为概念C的频数；

I_s(C_i)为概念C的第i个下位概念的特性信息量；

I_s(C_i)∩I_s(C_j)是第i个子类和第j个概念重叠的信息量。

若概念C_i没有下位概念，称概念C_i为底级概念。定义底级概念的信息量为单位信息量e，即I(C_i)＝e。通过规范化的本体，可以得到本体中每一个概念的特性信息量。

此外，共性信息量具体为：

概念继承了其父类概念的全部共性信息。设概念C一共有个直接上位概念，概念C由上位概念继承的共性信息量为个上位概念的共性信息量之和减去个上位概念重合部分的信息量，即：

I_{c} (C) = Σ_{i = 1}^{k} I_{c} (C_{i}) - Σ_{\underset{j > i}{i = 1}}^{k} [I_{c} (C_{i}) \cap I_{c} (C_{j})] - - - (14)

式中：I_c(C)是概念C的共性信息量；

I_c(C_i)为概念C的第i个上位概念的共性信息量；

I_c(C_i)∩I_c(C_j)是第i个父类概念和第i个父类概念重叠的信息量。

若概念C_i没有上位概念，则称概念C_i为顶级概念。若概念C_i没有下位概念(外延)，则称概念C_i为底级概念(leave)。

设本体中所有顶级概念的信息量为未知量X，本体中底级概念有N个。由公式(14)，所有的底级概念的信息量可以由X表示。底级概念的没有外延来描述，所以底级概念的特性信息量与共性信息量相同，则可以建立等式：

Σ_{i = 1}^{N} I_{c} (C_{i}) = Ne - - - (15)

由式(15)可以得到未知量X的数值，再根据式(14)可以得到所有概念的共性信息量。

根据上述内容，可以得到概念的语义引力元以及语义距离。其中，语义引力元的得到过程具体为：引力场中相互存在引力作用的C₁，C₂两概念的引力元为共享的信息量值。C₁，C₂的共享信息量包括特性信息中的共享部分以及共性信息中的共享部分。

m(C₁，C₂)＝I(C₁∩C₂)＝I_c(C₁∩C₂)+I_s(C₁∩C₂) (16)

I_c(C₁∩C₂)＝∑I_c(C_i)-∑[I_c(C_i)∩I_c(C_j)] (17)

I_s(C₁∩C₂)＝∑I_c(C′_i)-∑[I_c(C′_i)∩I_c(C′_j)] (18)

式中：I_c(C₁∩C₂)为共性信息中共享部分的信息量；

∑I_c(C_i)为C₁，C₂的共同父类的信息量之和；

∑[I_c(C_i)∩I_c(C_j)]为C₁，C₂的共同父类信息中重叠部分的信息量；

I_s(C₁∩C₂)为特性信息中共享部分的信息量；

∑I_c(C′_i)为C₁，C₂的共同子类的信息量之和；

∑[I_c(C′_i)∩I_c(C′_j)]为C₁，C₂的共同子类信息中重叠部分的信息量；

另外，语义距离的得到过程具体为：

文献^[8]把关系定义为边，概念信息不同部分的信息量定义为边强度，多个关系相连的两概念的距离是所有边强度的数量和，若存在多条路径，取所有路径中最短的距离为语义距离。这种方法的缺陷在于，计算不存在直接关系的两概念间距离时，没有考虑到两概念的相似程度对距离的影响。所以在计算间接关系概念的语义距离时引入角度，通过余弦定理得到准确的语义距离。

因为概念间的距离由概念所包含的信息中差异的部分产生，而差异可以由特性信息量产生，也可以由共性信息量产生，所以在计算语义距离时，要考虑两种信息量的影响。

假设：只有存在直接关系的概念才能直接通过信息量关系得到语义距离，否则只能由已知距离通过几何方法求得。

求解任意两概念间语义距离方法如下：

DIS(C₁，C₂)＝I(C₁∪C₂)-I(C₁∩C₂) (19)

\sqrt{DIS {(C_{1}, C_{0})}^{2} + DIS {(C_{2}, C_{0})}^{2} - \cos α \times DIS (C_{1}, C_{0}) \times DIS (C_{2}, C_{0})}

C₁，C₂之间关系数≥2(20)

式(19)中：C₁，C₂之间关系数＝1，I(C₁∪C₂)＝I_s(C₁∪C₂)+I_c(C₁∪C₂)为C₁，C₂所包含的特性信息和共性信息之和。I(C₁∩C₂)＝I_s(C₁∩C₂)+I_c(C₁∩C₂)为C₁，C₂共享的特性信息与共性信息量；

当C₁，C₂之间关系数≥2，且已知DIS(C₁，C₀)和DIS(C₂，C₀)，采用(19)式求解C₁，C₂间的距离。(20)式中cosα为边(C₁，C₀)和边(C₂，C₀)夹角的余弦值，表述概念C₁，C₂的相似性。其中：

α = \frac{I (C_{1} \cup C_{2}) - I (C_{1} \cap C_{2})}{I (C_{1} \cup C_{2})} \times π - - - (21)

由(21)可知，C₁，Ｃ₂完全相似时，α＝0，C₁，C₂完全不同时，α＝π。

S4、应用引力场公式得到概念相似度。

通过以上方法得到两概念的距离，与引力元一同代入到公式(10)中：

F = \frac{f \times m (c_{1}) \times m (c_{2})}{r^{2}} - - - (22)

式中：f为引力系数，f＞0，f∈R；r＝DIS(C₁，C₂)；m(C₁)＝m(C₂)＝m(C₁，C₂)＝I(C₁∩C₂)，对于相互之间有引力的两概念，引力元由两概念共同决定，并且由于引力元是两概念共享信息的信息量，所以计算两概念引力时，两概念的引力元值相等。

由于引力元和距离都由信息量得到，由公式(9)可以发现，在I(C₁∪C₂)值恒定的情况下，m(C)和r在平方后，两者数值较大的一方对引力的影响会更大。所以为了平衡两者对引力F的影响，在使用信息量值之前，先对其进行修正，减小两者在信息量值上的差距。得到改进公式如下：

F = \frac{f \times m_{x} {(C_{1}, C_{2})}^{2}}{r_{x} {(C_{1}, C_{2})}^{2}} - - - (23)

式中：r_x(C₁，C₂)为修正之后的语义，r_x(C₁，C₂)＝ln[DIS(C₁，C₂)]；m_x(C₁，C₂)为修正之后的引力元，m_x(C₁，C₂)＝ln[I(C₁∩C₂)]。

公式(23)得到的引力值F即为概念C₁，Ｃ₂的相似度。

在实际检索过程中，会出现输入多个概念的情况。操作者输入一段信息，经过语义切分得到多个概念或者多个概念和关系的组合，输入系统进行检索。输入信息可以根据切分后结果分为两类。一类是一组语义相关的概念，这一组概念在本体中存在直接或间接语义关系，检索目的是输出与这一组概念相似的知识；另一类是多组概念和关系的组合，每组都包含至少一个概念和以及这一组概念间的关系，检索目的是输出与所有组合相似的知识。应用引力叠加的方法，可以解决这两类问题。其中，为了处理第二种情况，需要在原有本体的基础上，引入关系本体。关系本体是把原本体中逻辑关系提取出来，以这些逻辑关系为概念组成的本体。该实际检索过程，更具体为：

1)输入一组语义相关的概念

设输入信息中包含N个概念，为第个概念，则输入信息对本体中某概念的引力如下：

\overset{&RightArrow;}{F} = Σ_{i = 1}^{N} \overset{&RightArrow;}{F_{i}} - - - (24)

α = \arccos \frac{\overset{&RightArrow;}{F_{i}} \cdot \overset{&RightArrow;}{F_{j}}}{| \overset{&RightArrow;}{F_{i}} | \times | \overset{&RightArrow;}{F_{j}} |} = \frac{I (C_{i} \cup C_{j}) - I (C_{i} \cap C_{j})}{I (C_{i} \cup C_{j})} \times \frac{π}{2} - - - (25)

式中：为输入信息中的第i个概念与本体中概念的引力；

α为之间的角度，两场源概念的相近程度。

当两概念完全相同时，α＝0，如果两概念完全不同，两概念产生的引力正交，

α = \frac{π}{2} .

通过上式得到的引力值即为输入信息与本体中某概念的相似度。

2)输入多组概念和关系的组合

设输入信息中包含K个组合，其中第个组合中有概念、以及和之间的关系。与具有高相似度的概念组成集合，集合中的第个元素为；与具有高相似度的关系组成集合，集合中的第个元素为。由于逻辑关系涉及概念间的逻辑关系与概念信息无关，所以采用正交的方式，把输入信息对概念、和的引力叠加，得到输入信息对第个组合的引力：

F_{i_{o} r_{p} j_{q}} = \sqrt{{F_{i_{o}}^{C}}^{2} + {F_{{ij}_{p}}^{R}}^{2} + {F_{j_{q}}^{C}}^{2}} - - - (26)

式中：为输入信息对输出组合sc_io、sc_jq和sr_ip的引力值；

为集合SC_i中第o个元素与概念C_i的引力值；

为集合SC_j中第q个元素与概念C_j的引力值；

为集合SR_ij中第p个元素与关系R_ij的引力值。

由于K个组合是相互独立的，输入信息对每个组合的引力正交。所以，输入信息对输出信息的引力为：

F = \sqrt{Σ_{n = 1}^{K} {F_{i_{o} r_{p} j_{q}}^{n}}^{2}} - - - (27)

式中，F即为输入信息与输出信息的相似度。

为了验证本发明的有效性，从提到的相似度计算方法中取5种有代表性的算法计算相似度，并比较场论算法与其他5种算法的相关性。基于节点信息量的方法，本发明采用Resnik^[1]和Lin^[2]的方法，基于节点特征的方法采用Sánchez^[7]的方法，基于边的方法采用Wu、Palmer^[9]的方法以及Pekar^[10]的方法。

试验数据集采用包含1594个概念的坦克领域本体(TK)以及1674个概念的导弹领域本体(DD)。由于本发明采用的数据集中包含的概念没有出现在WordNet中，所以，采用Sánchez在文献^[6]中提出的公式

IC (a) = - \log p (a) &cong; - \log (\frac{leaves (a) + 1}{\max_leaves + 1})

计算信息量。

为了测试场论相似度算法对于不同层次概念的效果，在本体的不同深度各选择一个概念作为场源概念，比较场源与本体中其他所有概念的相似度。其中，顶级概念的层次为1。

经计算，TK本体返回520组相似度值。取前235组数值比较场论算法与其他5种算法的皮尔森相关系数，如下表1所示：

表1

DD本体返回253组相似度值。取前125组数值比较场论算法与其他5种算法的皮尔森相关系数，如下表2所示：

表2

所有的皮尔逊相关系数经过T检验后的p值都小于0.001，可以认为得到的相关系数是有效的。

由于场源为的层次为1时，Resnik方法得到的场源与本体中其他概念的相似度为场源本身的信息量，只有一个数值，所以无法得到与场论相似度算法的相关性数值。

从总体上看，在DD本体中，场论方法得到的结果与其他五种方法得到的结果相关性极高；在TK本体中，场论方法得到的结果与除Resnik外的四种方法得到的结果相关性极高。由于Resnik的方法依赖外部语料库得到的信息量，而且只由共同父类来衡量信息量，对于信息量的描述不够全面，不能区分概念的内涵和外延，所以得到的结果并不能准确的表达概念的语义相似度。观察相关性的平均值可以发现，除了与Resnik的方法外，场论相似度算法与其他4中算法的相似度平均值均大于0.7，属于显著相关，可以认为场论算法在结果上是合理的。

由表1、表2可以看出，场源处于不同层次时，对于不同的算法相似度会有不同的趋势变化。为了分析这种变化的原因，由表1和表2绘制折线图3和折线图4。

观察折现可以发现以下趋势：

1)在场源处于本体的层次中间时，相似度出现极小值。

其他5种算法只考虑了概念信息中的一个方面。Resnik和Lin的方法只考虑的引力元的作用，Feature的方法只考虑的引力元中共同父类个数的作用，Wu和Pk的方法只考虑的概念的深度也就是距离的影响。当场源的位置靠近本体的底层或底层时，引力元和距离只有一方对相似度产生显著作用，所以场论算法与其他的4种算法相似度较高。而当场源处于本体的中部时，引力元与距离的影响接近，如果只考虑一方的影响，得到的相似度结果不全面。所以在本体中间的层次存在极小值。

2)基于边的方法和基于特征的方法，在层次较小时，尤其是接近顶层时，相似度出现较小值。

基于边的方法在计算距离时，只考虑深度，而没有完整的利用信息量的差异衡量距离。深度的减小，尤其是在概念靠近顶层时，特性信息量之间的差异很大，但是，边的方法得到的距离却很小，在这种情况下，考虑深度的边的方法就会产生较大的误差。所以，边的方法与场论的方法在深度小的情况下会得到较小的相似度。

基于特征的方法在计算相似度时，依赖于父类的个数，但是当场源概念趋近顶层时，父类概念的数量减少，而概念的特性信息对概念的影响增加，但是基于特征的方法并不能反映特性信息的影响，所以的到的相似度值较小。

3)场论算法与Lin的方法相似度随着深度的增加呈减小趋势。

Lin的方法只考虑了引力元的影响，当概念接近顶层时，引力元和距离在数值上都比较大，信息量与距离的影响接近，随着深度的增加，尤其是接近底层时，引力元较小，距离虽然也相对减小，但是由于减小幅度小于引力元的减小幅度，距离的影响比引力元的影响显著，但是由于Lin的方法没有考虑距离的作用，虽然Lin用深度对结果加以修正，但是，仍然表达距离的作用。所以，随着深度的增加，Lin的方法与场论的方法相似度减小。

根据以上分析发现，场论的方法综合了边的方法和节点方法的优势，并且在两种方法无法发挥作用的本体中部有更好的表现。所以可以认为，基于场论的相似度算法不仅是有效的而且对于相似度的衡量可以得到更好的效果。

参考文献：

[1]Philip Resnik,Using Information Content to Evaluate Semantic Similarityin a Taxonomy[J].Sun Microsystems Laboratories Two Elizabeth Drive Chelmsford,MA 01824-4195 USA

[2]Lin D.An information-theoretic definition of similarity.In:Proceedings ofthe 15th International Conference on Machine Learning.Madison,USA:MorganKaufmann,1998.296-304

[3]Jiang J,Conrath D.Semantic similarity based on corpus statistics andlexical taxonomy.In:Int Conf Res Comput Linguist(ROCLING X)；1997.p.15.

[4]Pirró G.Euzenat J.A feature and information theoretic framework forsemantic similarity and relatedness.In:Proc 9th Int Semant Web Conf ISWC 2010,Springer；2010.p.615–30.

[5]YANG Li,ZUO Chun,WANG Yu-Guo.K-Nearest Neighbor ClassificationBased on Semantic Distance[J].Journal of Software,2005,16(12):2054-2062.(inChinese).[杨立，左春，王裕国，基于语义距离的K-最近邻分类方法[J].软件学报，2005,16(12):2054-2062.]

[6]Sánchez D,Montserrat B,David I.Ontology-based information contentcomputation[J].Knowledge-Based Systems,2011(24):297–303.

[7]Sánchez D,Montserrat Batet,David Isern,Aida Valls.Ontology-basedsemantic similarity A new feature-based approach[J].Expert Systems withApplications.2012(39):7718–7728

[8]Rodríguez A,Egenhofer MJ.Determining semantic similarity among entityclasses from different ontologies.IEEE Trans Knowl Data Eng 2003；15:442–56.

[9]Wu Z,Palmer M.Verb semantics and lexical selection.In:32nd.AnnuMeet Assoc Comput Linguist；1994.p.133–8.

[10]Pekar V,Staab S.Taxonomy learning:factoring the structure of ataxonomy into a semantic classification decision.In:COLING’02 Proc 19th IntConf Comput Linguist Association for,Computational Linguistics；2002.p.1–7.

[11]莫撼，邓居智.场论[M].北京：原子能出版社，2006:5-45.

[12]贾黎莉.Ontology构建中概念间关系的研究[D].北京：中国农业科学院，2007:43-55.

[13]贾君枝.FrameNet叙词表与传统叙词表语义关系比较研究[J].情报理论与实践，2006,29(5):605-608.

[14]Sheldon Ross.A First Course in Probability[M].London:Macmillan,1976.

[15]LI Wen-Qing，SUN Xin，ZHANG Chang-You，et al.A SemanticSimilarity Measure between Ontological Concepts[J].Acta Automatica Sinica,2012,38(2):229-235.(in Chinese).[李文清，孙新，张常有，等.一种本体概念的语义相似度计算方法[J].自动化学报，2012,38(2):229-235.]

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于场论的本体中概念相似度计算方法，其特征在于，包括以下步骤：

S2、对本体包含的概念间语义关系进行规范化；

S4、应用所述语义场模型得到概念相似度。

2.如权利要求1所述的基于场论的本体中概念相似度计算方法，其特征在于，在步骤S1中，所述语义场模型用函数定义为：

F = \frac{f \times m (c_{1}) \times m (c_{2})}{r^{2}};

式中，m(c₁)、m(c₂)为概念C₁、C₂的引力元，对于语义场，引力元m₁=m₂；r为概念C₁、C₂间的语义距离，f为引力常数。

3.如权利要求1所述的基于场论的本体中概念相似度计算方法，其特征在于，在步骤S2中，所述语义关系包括上下位关系、等同关系、与关系和交叉关系、或关系、非关系、矛盾关系和互补关系。

4.如权利要求1所述的基于场论的本体中概念相似度计算方法，其特征在于，在步骤S3中，所述信息量为根据某一概念的父类和子类的信息量共同决定，且用概念在本体中发生的频数来表示。