CN105512249A

CN105512249A - 一种基于紧凑进化算法的本体匹配方法

Info

Publication number: CN105512249A
Application number: CN201510865803.8A
Authority: CN
Inventors: 薛醒思
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2016-04-20

Abstract

本发明公开了一种基于紧凑进化算法的本体匹配方法，包括如下步骤：步骤1)给定两个本体O₁和O₂，针对不同相似度度量技术获取不同的本体匹配结果；步骤2)采用基于元模型的紧凑遗传算法求解获取最优的集成权重向量。本发明针对现有的基于进化算法的本体元匹配系统在本体匹配过程中构建完整的群体参与进化过程导致内存消耗过大的问题以及在实际应用中评价个体消耗的内存和时间太大的问题，提出了采用紧凑遗传算法来减少群体消耗的内存量，并在紧凑遗传算法中利用元模型来进一步减少算法在求解过程中所需的内存量和时间。

Description

一种基于紧凑进化算法的本体匹配方法

技术领域

本发明属于计算机信息领域，具体地，本发明涉及一种基于紧凑进化算法的本体匹配方法。

背景技术

元模型：元模型是一种利用已有信息构建的替代评价模型，该模型可以通过已经评价的点来近似一个多变量函数以预测新的点的评价值。

随着语义网的发展，出现了大量的本体。由于应用目的相似，许多本体共存于同一个领域中。然而由于人的主观性，同一个应用领域的不同本体可能用不同的方式定义同一个实体对象，产生了本体异质问题。为了能够通过本体实现不同的应用系统在语义层面的协作，需要确定不同本体中元素之间的语义对应关系。对于拥有上百万个概念实体的大规模的本体而言，通过人为的方式来完成本体匹配是不现实的。因此，需要开发高效的本体匹配系统来自动完成本体匹配过程。

由于用户无法等待太长的系统响应过程，因此对于动态的应用场景而言，本体匹配系统十分强调在有限的运行时间内完成本体匹配过程。从这个意义上来说，除了本体匹配结果的质量之外，本体匹配过程的效率(匹配过程所需的运行时间和消耗的内存量)至关重要。当前已有的基于进化算法的本体匹配系统虽然都采用了不同的策略来提高本体匹配过程的效率，但是由于采用的基础算法框架没有本质的提升，所以高效且智能的本体匹配过程仍然是一个挑战问题。

目前在基于进化算法的本体匹配系统中，最著名的是GOAL(GeneticsforOntologyALignments)。GOAL无法直接计算两个本体间的匹配，而是通过进化算法来确定最优的权重配置以集成不同相似度度量技术。类似的思想在近期的一些文章中也得以体现。在一篇文章中，给定部分参考匹配结果的前提下，各种方法如进化算法被应用于确定最优的系统参数。此外，Vitiello等在2012年提出通过混合进化算法求解本体匹配问题。由于混合进化算法在传统进化算法中加入了局部搜索算子，提升了进化寻优过程的效率。

紧凑算法是一类估计分布式算法，可以将完整的种群通过概率分布函数来表示。第一个紧凑遗传算法是紧凑遗传算法，该算法模拟了标准二进制编码的遗传算法的行为。扩展紧凑遗传算法的思想是选择一个好的概率分布函数等价于链接学习。集成了Nelder-Mead算法的混合扩展紧凑遗传算法也已经在文献中被提出。

为了提高智能计算的效率，近年来各种各样的元模型方法被应用于人工神经网络和高斯随机域建模中。在人工神经网络中，元模型方法被应用在多层神经元或基于插值的放射基础函数网络。在此过程中，元模型的形式有的是标准形式，有的是加入同输入变量相对重要性有关的特征。在高斯随机域建模中，元模型通过之前的评价结果来预测候选解的目标函数值。同人工神经网络不同，高斯随机域建模不仅预测函数值，还预测了可靠的取值区间。近期的文献表示，基于高斯随机域的元模型在许多应用领域中获得了成功。

现有的基于进化算法的本体匹配系统在匹配本体的过程中消耗的内存过大、运行时间太长。

发明内容

为解决上述问题，本发明提供了一种基于紧凑进化算法的本体匹配方法。本发明针对现有的基于进化算法的本体匹配系统在本体匹配过程中构建完整的群体参与进化过程导致内存消耗过大的问题以及在实际应用中评价个体消耗的内存和时间太大的问题，提出了采用紧凑遗传算法来减少群体消耗的内存量，并在紧凑遗传算法中集成元模型来进一步减少算法在求解过程中所需的内存量和时间。

为达到上述技术效果，本发明的技术方案是：

一种基于紧凑进化算法的本体匹配方法，包括如下步骤：

步骤1)给定两个本体O₁＝(C₁,P₁,I₁),O₂＝(C₂,P₂,I₂)；

其中O₁和O₂分别表示两个本体；C₁和C₂分别为O₁和O₂中概念的集合；P₁和P₂分别为O₁和O₂中概念之间关系的集合；I₁和I₂分别为O₁和O₂中实例的集合，所述实例为概念对应的实际对象；

生成配对矩阵，配对矩阵的行和列分别为O₁和O₂中的实例，通过相似度度量技术对配对矩阵内的实例对进行相似度评价生成相似度值并形成相似度矩阵，每种相似度度量技术对应一个相似度矩阵；对每个相似度矩阵分别设置权重向量；集合所有的权重向量形成集成权重向量，根据集成权重向量将各相似度矩阵合并生成最终相似度矩阵；集成权重向量的生成方法为：通过在区间[0,1]中随机确定分割点来间接地表示每个相似度矩阵的权重；分割点集合为：c'＝{c₁',c'₂,...,c'_p-1}，其中P表示采用的相似度度量技术的数量；将分割点集合中的元素按照升序排列，得到新的集合c＝{c₁,c₂,...,c_p-1}；

根据新的集合c＝{c₁,c₂,...,c_p-1}，某一相似度矩阵的权重w_k为：

w_{k} = \{\begin{matrix} c_{1}, k = 1 \\ c_{k} - c_{k - 1}, 1 < k < p \\ 1 - c_{p - 1}, k = p \end{matrix} - - - (1)

根据相似度矩阵的权重w_k集成所有的相似度矩阵：

φ (\overset{&RightArrow;}{s} (c), - \overset{&RightArrow;}{w}) = Σ_{i = 1}^{n} - w_{i} s_{i} (c) - - - (2)

其中，表示通过权重向量生成的最终相似度矩阵；为所有相似度矩阵的集合；为所有权重向量的集合；n为相似度度量技术的个数；s_i(C)表示第i个相似度矩阵；w_i表示第i个权重向量；c表示配对矩阵；

步骤2)求解本体元匹配问题：

2.1)建立本体元匹配问题的优化模型：

\{\begin{matrix} m a x & f - m e a s u r e (X) \\ s . t . & X = {(x_{1}, x_{2}, ..., x_{n + 1})}^{T} \\ x_{i} &Element; [0, 1], i = 1... n + 1 \end{matrix} - - - (3)

其中，maxf-measure(X)表示目标函数是最大化f-measure值，f-measure(X)用于度量匹配结果的质量；X表示本体源匹配系统中所需要确定的的参数向量；x_i表示参数值；n表示采用的相似度度量技术的个数，x_n+1表示用于过滤最终匹配结果的阈值；

2.2)使用进化算法重复步骤1)，并且使用优化模型评价最终相似度矩阵；其中，根据每次生成的集成权重向量和优化模型的评价结果建立集成权重向量的元模型，根据元模型计算出下次生成最终相似度矩阵时使用的集成权重向量；至得到最优解，所述最优解为最接近maxf-measure(X)的值的最终相似度矩阵。

进一步的改进，步骤2.2)中，元模型为基于高斯随机域的局部元模型。

进一步的改进，步骤2.2)中，进化算法为紧凑进化算法。

进一步的改进，所述紧凑进化算法的的遗传算子为单点交叉算子；变异算子为位点变异算子。

进一步的改进，所述相似度度量技术包括基于词典的相似度度量技术、基于语言学的相似度度量技术、基于实体档案的语义相似度度量技术、基于本体结构的语义相似度度量技术和基于信息量的语义相似度度量技术。

进一步的改进，所述分割点集合中的分割点的数量≤5。

本发明的优点：

本发明针对现有的基于进化算法的本体匹配系统在本体匹配过程中构建完整的群体参与进化过程导致内存消耗过大的问题以及在实际应用中评价个体消耗的内存和时间太大的问题，提出了采用紧凑遗传算法来减少群体消耗的内存量，并在紧凑遗传算法中集成元模型来进一步减少算法在求解过程中所需的内存量和时间。

附图说明

图1为利用三个已知点x⁽¹⁾,x⁽²⁾,x⁽³⁾的函数值预测点x^’函数值的示例图。

具体实施方式

下面结合附图对本发明的具体实施方式进行详细的说明。

实施例1

一种基于紧凑进化算法的本体匹配方法，包括如下步骤：

(1)本体匹配问题的优化模型如下：

\{\begin{matrix} \max & f (X) = f - m e a s u r e (X) \\ s . t . & X = {(x_{1}, x_{2}, ..., x_{n + 1})}^{T} \\ x_{i} &Element; [0, 1], i = 1... n + 1 \end{matrix} - - - (1)

其中，f-measure(X)用于度量匹配结果的质量，本发明的方案采用的是传统的f-measure度量，n表示采用的相似度度量技术的个数，x_n+1表示用于过滤最终匹配结果的阈值。

(2)求解上述优化模型的紧凑进化算法设计如下所示：

其中：PV表示个体的概率向量。1)编码方案。个体编码信息既包括用于集成不同相似度度量的映射结果的权重也包括用于过滤本体映射结果的阈值。本发明采用的是加权平均的方法集成不同的相似度度量产生的匹配结果，具体描述如下：

φ (\overset{&RightArrow;}{s} (c), \overset{&RightArrow;}{w}) = Σ_{i = 1}^{n} w_{i} s_{i} (c) - - - (2)

其中是不同的相似度度量获取的映射结果向量，是权重向量，n是相似度度量技术的个数。考虑到权重的特点，本文的编码通过在区间[0,1]中定义分割点来间接地表示不同的权重。假设p是所需的权重个数，则分割点集合可以表示为c'＝{c₁',c'₂,...,c'_p-1}。译码过程分为两个步骤：首先将分割点集合中的元素按照升序排列，得到新的集合c＝{c₁,c₂,...,c_p-1}，然后按照以下公式计算不同的权重：

w_{k} = \{\begin{matrix} c 1, k = 1 \\ c_{k} - c_{k - 1}, 1 < k < p \\ 1 - c_{p - 1}, k = p \end{matrix} - - - (3)

公式(3)的意思如下:排位第K位的相似度度量技术对应的权重为W_k。通过p-1个在[0,1]中的分割点，产生p个和为1的权重。如3个分割点，0.3,0.4,0.5，产生4个权重分别为0.3，0.4-0.3＝0.1,0.5-0.4＝0.1,1-0.5＝0.5，即(0.3,0.1,0.1,0.5)，这4个权重和为1。

用于过滤本体映射结果的阈值用一位编码表示，其取值范围是[0,1]。2)适应度函数.适应度函数是用于评价通过个体编码中的权重和阈值获取的本体映射结果质量的目标函数。本发明采用的目标函数是本体匹配结果的f-measure值。3)遗传算子。本发明采用的选择算子首先根据群体中不同个体的拥挤度进行降序排序，并选择排在前半部分的个体，从中随机复制一个个体直到形成新的群体；本发明采用的是单点交叉算子。首先在父个体中随机确定一个分割点，该分割点将两个父个体分割为两个部分：左边部分和右边部分。然后通过交换两个父个体右边部分的编码以产生新的两个子个体；本发明采用的是位点变异算子。首先根据变异概率确定对个体会产生变异的编码位，然后将这些编码位的值从1修改为0，或是从0修改为1。

(3)基于高斯随机域的元模型

本发明提出的基于高斯随机域的局部元模型可以同紧凑进化算法集成，以提高算法的求解效率。元模型可以通过已经评价的点来预测一个多变量函数的值。例如，给定一组点x¹,x²,...,xⁿ∈Rⁿ和这些点的目标函数值y¹＝f(x¹),y²＝f(x²),...,yⁿ＝f(xⁿ)，元模型可以用于计算任何点x∈Rⁿ的近似值该计算时间远远快于通过精确的评价过程。基于高斯随机域的元模型是一种特殊类型的元模型，不仅可以预测目标函数值而且可以提供这一预测的可信程度。事实上，基于高斯随机域模型的元模型包含了预测值的均值和标准差，其中均值和标准差是通过一维高斯分布的来表示，该一维高斯分布表示了不同输出同精确评价结果之间差异的大小。图中给出一个关于一维输入空间的基于高斯随机的元模型的输出。

图1一维输入空间的基于高斯随机的元模型的输出。图中三个点x⁽¹⁾,x⁽²⁾,x⁽³⁾已经被评价，点x'的近似评价用一维高斯分布的均值和标准差来表示。在本发明的方案中，采用以下高斯乘积核函数作为基于距离的关联函数：其中θ_i,i＝1,2,...,d表示关联参数。首先，三个参数，即θ值，通过精确的评价来获取。然后高斯随机域的条件分布被用于计算新的点x'。由于高斯随机域的条件是一维的条件高斯分布F(x'|X,y)，其均值做为预测值而标准差作为可信度度量(如图1所示)。需要精确评价的点的数量是决定时间消耗的关键因素，因此本发明只评价训练集的最小必要子集，即从群体中选择6个个体。经过实验检验，任何比6大的数值能够少量地提升评价结果的质量，但是需要付出大量的计算时间的代价。即分割点的最优选取数为5。

为了在新的一代中过滤掉质量较差的个体，首先需要为产生的后代群体排序。该排序算法是基于预测均值和相应的标准差首先计算预测的质量评价值然后采用群体中个体预测的质量评价值之和来度量新产生点的改进程度为群体排序。对于一个可统计的空间，一个群体的个体的评价值之和只有在获取的群体收敛到最优解的时候其值才会最大，此外当且仅当新产生的解的质量比已有解的质量好的时候群体的个体评价值之和才会增加。最后，通过固定的比率0.25选择最有潜力的后代做精确的质量评价。

以上实例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于紧凑进化算法的本体匹配方法，其特征在于，包括如下步骤：

步骤1)给定两个本体O₁＝(C₁,P₁,I₁),O₂＝(C₂,P₂,I₂)；

其中O₁和O₂分别表示两个本体；C₁和C₂分别为O₁和O₂中概念的集合；P₁和P₂分别为O₁和O₂中概念之间关系的集合；I₁和I₂分别为O₁和O₂中实例的集合，所述实例为概念对应的实际数据对象；

生成配对矩阵，配对矩阵的行和列分别为O₁和O₂中的实例，通过相似度度量技术对配对矩阵内的实例对进行相似度评价生成相似度值并形成相似度矩阵，每种相似度度量技术对应一个相似度矩阵；对每个相似度矩阵分别设置权重向量；集合所有的权重向量形成集成权重向量，根据集成权重向量将各相似度矩阵合并生成最终相似度矩阵；集成权重向量的生成方法为：通过在区间[0,1]中随机确定分割点来间接地表示每个相似度矩阵的权重；分割点集合为：c'＝{c′₁,c′₂,...,c′_p-1}，其中P表示采用的相似度度量技术的数量；将分割点集合中的元素按照升序排列，得到新的集合c＝{c₁,c₂,...,c_p-1}；

w_{k} = \{\begin{matrix} c_{1}, k = 1 \\ c_{k} - c_{k - 1}, 1 < k < p \\ 1 - c_{p - 1}, k = p \end{matrix} - - - (1)

根据相似度矩阵的权重w_k集成所有的相似度矩阵：

φ (\overset{&RightArrow;}{s} (c), - \overset{&RightArrow;}{w}) = Σ_{i = 1}^{n} w_{i} s_{i} (c) - - - (2)

步骤2)求解本体元匹配问题：

2.1)建立本体元匹配问题的优化模型：

\{\begin{matrix} m a x & f - m e a s u r e (X) \\ s . t . & X = {(x_{1}, x_{2}, ..., x_{n + 1})}^{T} \\ x_{i} &Element; [0, 1], i = 1... n + 1 \end{matrix} - - - (3)

2.如权利要求1所述的基于紧凑进化算法的本体匹配方法，其特征在于，步骤2.2)中，元模型为基于高斯随机域的局部元模型。

3.如权利要求1所述的基于紧凑进化算法的本体匹配方法，其特征在于，步骤2.2)中，进化算法为紧凑进化算法。

4.如权利要求1所述的基于紧凑进化算法的本体匹配方法，其特征在于，所述紧凑进化算法的的遗传算子为单点交叉算子；变异算子为位点变异算子。

5.如权利要求1所述的基于紧凑进化算法的本体匹配方法，其特征在于，所述相似度度量技术包括基于词典的相似度度量技术、基于语言学的相似度度量技术、基于实体档案的语义相似度度量技术、基于本体结构的语义相似度度量技术和基于信息量的语义相似度度量技术。

6.如权利要求1所述的基于紧凑进化算法的本体匹配方法，其特征在于，所述分割点集合中的分割点的数量≤5。