CN103810388A

CN103810388A - 基于面向映射的分块技术的大规模本体映射方法

Info

Publication number: CN103810388A
Application number: CN201410055311.8A
Authority: CN
Inventors: 薛醒思; 王金水
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2014-02-19
Filing date: 2014-02-19
Publication date: 2014-05-21

Abstract

本发明提供一种基于面向映射的分块技术的大规模本体映射方法，先对源本体进行划分，然后利用源本体的划分结果确定目标本体中的相似概念块，最后通过NSGA-II算法获取的不同概念块之间的映射结果并通过贪心算法获取最终的本体映射结果。本发明采用通用的基于面向映射的分块技术来处理大规模本体映射问题，提高本体映射过程的效率与映射结果的质量。将大规模的本体划分成小的分块，映射过程只需关注分块与分块之间的比较，而不需要考虑整个本体，从而提高了匹配的效率。

Description

基于面向映射的分块技术的大规模本体映射方法

技术领域

本发明涉及一种基于面向映射的分块技术的大规模本体映射方法。

背景技术

在医学、农林学和环境科学等众多领域中的研究者都要用到生物医学的数据源和工具来从事像药物发明或是从事环境对人体健康的影响因素等研究。因此在近十年内，产生了数量众多的分布在网络上的生物医学数据源。然而，随着在线的生物医学数据和相应的检索工具的数量的增长，研究者想在网上检索所需的生物医学信息（如通过某个病理条件下的一种基因来检索相关的疾病），这一过程不仅速度缓慢而且容易出错。因此集成不同的生物医学资源被认为是解决同时访问多个异质数据源的有效方案。然而大部分的生物医学系统的开发过程都是彼此独立的，并没有共同的数据结构和共享的数据字典，这就使得数据模式的异质性问题成为了数据资源集成的主要障碍。随着生物医学语义网的出现，很大程度上缓解了生物医学数据源间数据异质性问题。生物医学语义网的关键就是生物医学本体的开发。近些年来，生物医学领域的专家开发了数量众多的生物医学本体（如关于疾病、解剖学和遗传基因的本体），其中有不少本体中的信息是有交叉的（如两个本体中的一些实体在语义上是等价的）。

由于本体可以有效地共享与复用知识和数据而被广泛地应用在语义网的异质数据源的交互中。然而由于人的主观性，同一个应用领域的不同本体可能用不同的方式定义同一个实体对象，产生了本体异质问题。解决该问题的方法是找出不同本体中实体间的对应关系，这一过程被称为本体映射。对于拥有上百万个概念实体的大规模的本体而言，通过人为的方式来完成本体映射是不现实的。因此，需要开发高效的本体映射系统来自动完成大规模本体映射任务。

另外，近年来，地理信息受到了越来越多的关注。对于全球定位系统的构建、全新的可视化技术、用于获取地理数据的设备以及开发出可以集成不同的已有技术和设备的可存储和使用地理信息的系统的需求正不断增加。此外，由于地理空间语义网的成功，出现了越来越多的地理空间本体，这些本体可以用于描述地理空间科学领域的地理概念以及概念间的关系。随着这些地理空间本体的上层应用的发展，本体中的数据数量也在飞速增加。可是由于地理空间领域的数据具有模糊性、不确定性以及粒度级别众多等特点，同一个地理位置在不同的本体中可能具有不同的文件格式、表示类型、坐标参考系统、自然语言描绘等，这种快速的数据增长导致不同的地理空间本体之间的异质性问题变得越来越严重。如何集成这些地理空间本体，并在此基础上实现不同的上层的应用系统间的协作具有重大的现实意义。

对于大规模本体映射技术而言，如何缩小待处理的数据规模是找出正确实体映射的关键。将待映射的本体划分为小规模的分块，通过映射相似的分块并集成多个映射结果是当前主流的技术。当前采用分块技术的大规模本体映射系统有COMA++、Falcon-AO、Anchor-Flood、Lily、GOMMA、LogMAP等，然而这些映射系统中采用的分块技术都没有考虑到分块过程中的映射目的，即对本体执行分块的过程与后续的映射过程是相对独立的两个步骤，这样就无法保证最终的本体映射结果的质量。针对这一问题，本发明提出采用面向映射的分块技术并将分块间的映射过程视为一个多目标优化问题，并通过多目标进化算法NSGA-II求解该问题，获取本体映射结果。

在已有的技术方案中，Falcon-AO1,2同样也是通过基于分块的技术来实现大规模本体映射，同本发明的方案最为近似。Falcon-AO采用的是基于结构的相似度度量方法来形成分块，不同的本体分块之间的外部相似度和内部相似度采用以下公式计算：

segSim (S_{i}, S_{j}) = \frac{Σ_{c_{i} &Element; S_{i}, c_{j} &Element; S_{j}} {Link}_{s} (c_{i}, c_{j})}{| S_{i} | \times | S_{j} |}

{Link}_{s} (c_{i}, c_{j}) = \frac{2 \times depthOf (c_{ij})}{depthOf (c_{i}) + depthOf (c_{j})}

其中c_i和c_j分别表示两个概念，c_ij表示c_i和c_j最近公共父节，depthOf(c_i)是在本体结构中节点c_i到根节点的边数。segSim(S_i,S_j)表示分块S_i和S_j的外部相似度，segSim(S_i,S_i)表示分块S_i的内部相似度。

给定一个本体O，Falcon-AO采用的划分算法输入n个概念块的集合（初始化的时候，本体中每一个概念独自成为一个概念块），参数k（表示期望输出的概念块数量）和参数ε（限制每个概念块中最大的概念数），并初始化概念块之间的内部相似度与外部相似度。在每次迭代的过程中，算法选出有最大内部相似度值的概念块S_i，再选出同S_i有最大外部相似度值的概念块S_j，将二者合并为一个概念块并计算新的概念块集合中所有概念块之间的内部相似度与外部相似度。当达到预期的分块数量k或是每个概念块中的概念数都达到规模上限ε或者没有一个概念块的内部相似度的值大于零时，算法终止。

如图1和图2所示，在分别为两个本体o和o’分块后，通过以下公式找出相似的本体分块进行映射：

Similarity (S_{i}, S_{j}^{'}) = \frac{2 \times anchors (S_{i}, S_{j}^{'})}{Σ_{u = 1}^{k} anchors (S_{u}, S_{j}^{'}) + Σ_{v = 1}^{k^{'}} anchors (S_{i}, S_{v}^{'})}

其中k和k'分别是本体o和o’产生的分块数，S_i和S'_j分别是o和o’中的两个分块，函数anchors(S_i,S'_j)计算分块S_i和S'_j中共同的的锚点(即通过简单的标签匹配方法获取的两个本体间的相似概念)数量，

计算在分块S'_j中的锚点数量。当分块之间的相似度超过阈值，则执行二者的映射操作。

现有的技术方案的本体分块算法中分块相似度度量技术的效率不高，而且划分的过程同映射的过程是彼此独立的两个步骤，在划分本体的过程中并没有考虑到映射的目的，从而导致本体划分的过程十分盲目，使得最终产生的映射结果的质量得不到保证，例如不在相似分块中的一些锚点就无法出现在最终的映射结果中。

发明内容

针对现有的技术方案中存在的这些问题，本发明提供一种基于面向映射的分块技术的大规模本体映射方法，提高本体映射过程的效率与映射结果的质量和匹配的效率。

本发明是这样实现的：一种基于面向映射的分块技术的大规模本体映射方法，包括：

步骤10、对源本体进行划分，包括概念块初始化步骤和划分算法执行步骤，所述概念块初始化步骤中，本体中的每一个概念独自构成一个概念块，所述划分算法执行步骤中，根据概念块的大小和概念块之间的邻近概念相似度值来迭代地归并不同的概念块，形成一个临时概念块集；

如果形成的临时概念块集合中的概念块规模同当前概念块集合的规模相同，算法终止，否则，算法将临时概念块集合取代当前概念块集合，并继续归并更多的概念块；如果概念块的规模为1或生成的临时概念块集合的内部相似度值小于某个阈值θ，则算法终止；

步骤20、对目标本体进行划分，包括：

步骤21、比较目标本体和源本体概念块中不同概念的名称、标签和备注信息的相似程度，从目标本体中选取同源本体概念块对应的候选概念集；

步骤22、通过计算候选概念集中每个概念同源本体概念块间的关联值来进一步确定目标本体同源本体概念块对应的相关概念集；

步骤30、映射本体概念块，包括：

步骤31、提出基于无参考映射的本体映射结果评价体系，该本体映射结果评价体系采用两种不依赖于标准映射结果的指标，即MatchCoverage和Frequency来分别近似地获取映射结果的查全率和查准率，给定两个本体概念块S₁和S₂，MatchCoverage和Frequency分别由以下两个公式计算：

MatchCoverage = \frac{| E_{S_{1} - Match} | + | E_{S_{2} - Match} |}{| E_{S_{1}} | + | E_{S_{2}} |} &Element; [0,1],

Frequency = \frac{| E_{S_{1} - Match} | + | E_{S_{2} - Match} |}{2 \cdot | {Corr}_{s_{1} - s_{2}} |} &Element; [0,1],

其中

和

分别是S₁和S₂中映射上的实体个数，

和分别是S₁和S₂中所有实体的个数，

是映射结果中的映射个数，MatchCoverage等于1，意味着映射结果的查全率很高；Frequency的值等于1，意味着映射结果的查准很高；

步骤32、将本体概念块映射问题的优化模型视为一种双目标的优化问题，并且针对该问题设计了一种NSGA-II算法以解决，该NSGA-II算法为：

（1）、先确定群体中个体的编码方案；

（2）、确定算法的适应度函数，该适应度函数是步骤31中的分别用于计算MatchCoverage和Frequency的两个目标函数；

（3）、确定算法的遗传算子；

（4）、根据群体更新策略生成下一代个体；

步骤40、通过NSGA-II方法获取的不同概念块之间的映射结果通过贪心算法集成，以获取最终的本体映射结果。

进一步的，所述步骤10是采用基于邻近概念的相似度度量技术，本体中不同概念块间的邻近概念相似度取决于共同的邻近概念数量，给定两个概念块C1和C2，它们的邻近概念相似度由以下公式计算：

neighborSim (C_{1}, C_{2}) = \frac{Σ_{i = 1}^{| C_{1} |} Σ_{j = 1}^{| C_{2} |} \frac{| NC (c_{i}) \cap NC (c_{j}) |}{| NC (c_{i}) \cup NC (c_{j}) |}}{| C_{1} | \cdot | C_{2} |},

其中|C₁|和|C₂|分别是两个概念块C1和C2中概念的个数，|NC(c_i)|是概念块C₁中某个概念c_i和它的邻近概念组成的集合，|NC(c_j)|是概念块C₂中某个概念c_j和它的邻近概念组成的集合，某个概念的邻近概念集合指的是在本体概念结构图中所有同该概念的最短路径距离小等于2的概念；

此外，概念块集合S的内部相似度值由以下公式计算：

intraSim (S) = \frac{Σ_{i = 1}^{| S |} neighborSim (C_{i}, C_{i})}{| S |} .

进一步的，所述步骤21的具体实现过程是：所述比较目标本体和源本体概念块中不同概念的名称、标签和备注信息的相似程度是通过SMOA距离来比较，对于目标本体O_tgt中的每一个概念c_i，c_i同Seg_src之间的相似度值s_i等于c_i同S_src中每一个概念c_j的相似度s_ij之和，只对大于阈值α的s_ij求和，如果得到的s_i大于阈值β，则将c_i加入候选概念集C；

所述步骤22的具体实现过程是：在所述候选概念集C中，概念c_k对概念c_i的影响值定义如下：

{influ}_{k} (c_{i}) = s_{k} \times e^{- {(dist (c_{k}, c_{i}))}^{2}};

其中s_k表示概念c_k同源本体概念块集合之间的相似度值，dist(c_k,c_i)表示概念c_k同概念c_i在本体概念图中的最短路径的长度，影响值随着dist(c_k,c_i)的增加而减少，然后通过以下公式计算概念c_i同源本体概念块的关联值：

relevant(c_i)=s_i×influ(c_i)；

其中，influ(c_i)=∑influ_k(c_i)，dist(c_k,c_i)≤2，如果c_i的关联值大于阈值γ，则将c_i加入到目标本体概念块中

进一步的，所述步骤22的具体实现过程中，和不同源本体概念块对应的目标本体概念块的确定过程采取并发方式执行。

进一步的，所述先确定群体中个体的编码方案具体是：

个体编码信息既包括用于集成不同相似度度量的映射结果的权重和用于过滤本体映射结果的阈值，采用的是加权平均的方法集成不同的相似度度量产生的映射结果，具体描述如下：

φ (\overset{&RightArrow;}{s} (c), \overset{&RightArrow;}{w}) = Σ_{i = 1}^{n} w_{i} s_{i} (c),

其中

w_i是权重向量，n是相似度度量的个数，w_i∈[0,1]；

是不同的相似度度量获取的映射结果向量。

进一步的，所述编码方案是通过在区间[0,1]中定义分割点来间接地表示不同的权重，假设p是所需的权重个数，则分割点集合表示为：

c'={c'₁,c'₂,...,c'_p-1}；

译码过程分为两个步骤：

1）将分割点集合中的元素按照升序排列，得到新的集合c={c₁,c₂,...,c_p-1}；

2）按照以下公式计算不同的权重：

w_{k} = \{\begin{matrix} c_{1}, k = 1 \\ c_{k} - c_{k - 1}, 1 < k < p \\ 1 - c_{p - 1}, k = p \end{matrix},

用于过滤本体映射结果的阈值用一位编码表示，其取值范围是[0,1]。

进一步的，所述确定算法的遗传算子包括：

a.选择算子的确定，采用的选择算子首先根据群体中不同个体的拥挤度进行降序排序，并选择排在前半部分的个体，从中随机复制一个个体直到形成新的群体；

b.交叉算子的确定，采用的是单点交叉算子，首先在父个体中随机确定一个分割点，该分割点将两个父个体分割为两个部分：左边部分和右边部分，然后通过交换两个父个体右边部分的编码以产生新的两个子个体；

c.变异算子的确定，采用的是位点变异算子，首先根据变异概率确定对个体会产生变异的编码位，然后将这些编码位的值从1修改为0，或是从0修改为1。

进一步的，所述根据群体更新策略生成下一代个体具体是：

首先通过将当前代种群与新生成的种群放在一起，消除冗余的个体；

通过快速非支配排序算法并根据不同个体间的拥挤度来选出新的群体；

当算法终止后，从pareto前沿中选出三个拐点解作为代表，由于pareto前沿的拐点区域代表了pareto前沿中不同目标间的最大权衡，所述三个拐点解分别是拥有最好的MatchCoverage，Frequency以及二者间最好的权衡。

进一步的，所述拥有最好的MatchCoverage具体是指在pareto前沿中拥有最好MatchCoverage的解中选出一个Frequency最高的解；

所述拥有最好的Frequency具体是指在pareto前沿中拥有最好Frequency的解中选出一个MatchCoverage最高的解；

所述MatchCoverage，Frequency二者间最好的权衡，具体是通过二者的和谐均值MatchFmeasure来度量：

MatchFmeasure = \frac{2 \times MatchCoverage \times Frequency}{MatchCoverage + Frequency},

在pareto前沿中拥有最好的MatchFmeasure的解被选为第三个代表解。

本发明具有如下优点：本发明采用通用的基于面向映射的分块技术来处理大规模本体映射问题。由于本发明将大规模的本体划分成小的分块，映射过程只需关注分块与分块之间的比较，而不需要考虑整个本体，从而提高了匹配的效率。本发明采用比基于结构的相似度度量方法更为高效的基于邻近概念的相似度度量方法，并且采用面向映射的本体划分技术以克服现有技术方案中导致本体划分的过程十分盲目的缺陷，从而提高本体映射过程的效率与映射结果的质量。本发明的本体映射方法在生物医学领域上的应用时，可用于自动映射不同的大规模生物医学本体，并在较少的时间内获取较高质量的本体映射结果，并在此基础上实现生物医学领域的信息集成；而在空间地理学领域上的应用时，本发明可高效地、自动地生成不同地理空间本体间的映射，并在此基础上实现不同地理学领域中上层应用技术之间的协作。

附图说明

下面参照附图结合实施例对本发明作进一步的说明。

图1为现有技术中两个本体o和o’的分块示意图。

图2为现有技术中两个本体o和o’通过Anchors找出相似的分块的示意图。

图3为本发明方法执行流程图。

具体实施方式

如图3所示，本发明方法首先对源本体进行划分，根据目标本体划分的结果对目标本体进行划分，由此产生的对应分块的映射问题使用多目标进化算法NSGA-II求解，最后通过贪心算法集成映射结果。具体的技术细节如下：

步骤10、对源本体进行划分

1、采用基于邻近概念的相似度度量技术，该比基于结构相似度度量更为高效，本体中不同概念块间的邻近概念相似度取决于共同的邻近概念数量。给定两个概念块C1和C2，它们的邻近概念相似度由以下公式计算：

neighborSim (C_{1}, C_{2}) = \frac{Σ_{i = 1}^{| C_{1} |} Σ_{j = 1}^{| C_{2} |} \frac{| NC (c_{i}) \cap NC (c_{j}) |}{| NC (c_{i}) \cup NC (c_{j}) |}}{| C_{1} | \cdot | C_{2} |},

其中|C₁|和|C₂|分别是两个概念块C1和C2中概念的个数，|NC(c_i)|是概念块C₁中某个概念c_i和它的邻近概念组成的集合，|NC(c_j)|是概念块C₂中某个概念c_j和它的邻近概念组成的集合。某个概念的邻近概念集合指的是在本体概念结构图中所有同该概念的最短路径距离小等于2的概念。

此外，概念块集合S的内部相似度值由以下公式计算：

intraSim (S) = \frac{Σ_{i = 1}^{| S |} neighborSim (C_{i}, C_{i})}{| S |} .

2、源本体分块算法，该算法由两个步骤组成：即概念块初始化步骤和划分算法执行步骤。所述概念块初始化步骤中，本体中的每一个概念独自构成一个概念块。所述划分算法执行步骤中，根据概念块的大小和概念块之间的邻近概念相似度值来迭代地归并不同的概念块，形成一个临时概念块集合。如果形成的临时概念块集合中的概念块规模同当前概念块集合的规模相同，算法终止。否则，算法将临时概念块集合取代当前概念块集合，并继续归并更多的概念块。如果概念块的规模为1或生成的临时概念块集合的内部相似度值小于某个阈值θ，则算法终止。比起现有的本体划分算法而言，该算法在内存中只需存储一个概念块集合，在减少内存消耗的同时提高了算法的性能。

本发明采用的本体分块算法扩展自高效的大规模网络聚类算法SCAN1,算法流程可如下程序所示：

步骤20、对目标本体进行划分

目标本体的划分是在源本体概念块集合已经确定的前提下，通过相关概念过滤方法来实现的。该方法分为两个步骤进行：

步骤21、通过SMOA距离比较目标本体和源本体概念块中不同概念的名称、标签和备注信息的相似程度，从目标本体中选取同源本体概念块对应的候选概念集，其中，W.Hu,Y.Qu,and G.Cheng,Matching large ontologies:Adivide-and-conquer approach.Data&Knowledge Engineering Revue67,2008,pp.140-160.有介绍该方法；

对于目标本体O_tgt中的每一个概念c_i，c_i同Seg_src之间的相似度值s_i等于c_i同S_src中每一个概念c_j的相似度s_ij之和（只对大于阈值α的s_ij求和）。如果得到的s_i大于阈值β，则将c_i加入候选概念集C。从目标本体中选取候选概念集的程序如下：

步骤22、通过计算候选概念集中每个概念同源本体概念块间的关联值来进一步确定目标本体同源本体概念块对应的相关概念集。

步骤22需要进一步确定候选概念集中的同源本体概念块的相关概念以进一步减小后续本体映射过程中的搜索空间。首先，在步骤21获取的候选概念集C中，概念c_k对概念c_i的影响值定义如下：

{influ}_{k} (c_{i}) = s_{k} \times e^{- {(dist (c_{k}, c_{i}))}^{2}};

其中s_k表示概念c_k同源本体概念块集合之间的相似度值，dist(c_k,c_i)表示概念c_k同概念c_i在本体概念图中的最短路径的长度，影响值随着dist(c_k,c_i)的增加而减少。接下来，通过以下公式计算概念c_i同源本体概念块的关联值：

relevant(c_i)=s_i×influ(c_i)

其中，influ(c_i)=∑influ_k(c_i)，dist(c_k,c_i)≤2。如果c_i的关联值大于阈值γ，则将c_i加入到目标本体概念块中。其整个过程可如下程序所示：

其中，和不同源本体概念块对应的目标本体概念块的确定过程可以并发地执行。

步骤30、映射本体概念块，包括：

步骤31、提出基于无参考映射的本体映射结果评价体系，在本体映射领域中，通常使用源自信息检索领域的两个质量衡量指标，即查全率（recall）和查准率(precision)，来评价本体映射结果。但是使用这两个指标工作的前提是必须要有专家给出的标准本体映射结果，然而这一结果在实际应用中是不存在的。为了克服这一缺陷，在最终的本体映射结果是1:1的前提下，本发明采用两种不依赖于标准映射结果的指标，即MatchCoverage和Frequency，来分别近似地获取映射结果的查全率和查准率。

给定两个本体概念块S₁和S₂，MatchCoverage和Frequency分别由以下两个公式计算：

MatchCoverage = \frac{| E_{S_{1} - Match} | + | E_{S_{2} - Match} |}{| E_{S_{1}} | + | E_{S_{2}} |} &Element; [0,1],

Frequency = \frac{| E_{S_{1} - Match} | + | E_{S_{2} - Match} |}{2 \cdot | {Corr}_{s_{1} - s_{2}} |} &Element; [0,1],

其中

和

分别是S₁和S₂中映射上的实体（概念块中的概念、概念的属性和概念的实例统称实体）个数，

和分别是S₁和S₂中所有实体的个数，

是映射结果中的映射个数。MatchCoverage等于1，意味着映射结果的查全率很高；同样地，Frequency的值等于1，意味着映射结果的查准很高。

步骤32、将本体概念块映射问题的优化模型视为一种双目标的优化问题，并且针对该问题设计了一种NSGA-II算法以解决。

给定两个本体概念块S₁和S₂，本体概念块映射问题的多目标优化模型如下：

\{\begin{matrix} \max & f (X) = \max (MatchCoverage (X), Frequency (X)) \\ s . t . & X = {(x_{1}, x_{2}, . . ., x_{n})}^{T} \\ x_{i} &Element; [0, | {entitySet}_{s_{2}} |], i = 1 . . . n \end{matrix},

其中，

和分别表示S₁和S₂中实体的个数。该模型的目标是同时最大化MatchCoverage和Frequency值。

本发明使用NSGA-II3来求解该优化问题。NSGA-II是一种灵活的、鲁棒性强的优化算法，该算法能快速找到多目标优化问题中的各种非支配解。该算法首先对当前的种群使用标准的交叉与变异算子，然后通过快速非支配排序技术与拥挤度距离来产生下一代群体，最后兼顾了非支配性与多样性的最优个体被选为多目标优化问题的解集。下述程序中描述了NSGA-II算法的详细步骤：

以下是NSGA-II算法中的四个基本步骤。

a)先确定群体中个体的编码方案

在本发明中，个体编码信息既包括用于集成不同相似度度量的映射结果的权重也包括用于过滤本体映射结果的阈值。本发明采用的是加权平均的方法集成不同的相似度度量产生的映射结果，具体描述如下：

φ (\overset{&RightArrow;}{s} (c), \overset{&RightArrow;}{w}) = Σ_{i = 1}^{n} w_{i} s_{i} (c)

其中

w_i∈[0,1]。

是不同的相似度度量获取的映射结果向量，w_i是权重向量，n是相似度度量的个数。考虑到权重的特点，本发明的编码通过在区间[0,1]中定义分割点来间接地表示不同的权重。假设p是所需的权重个数，则分割点集合可以表示为c'={c'₁,c'₂,...,c'_p-1}。译码过程分为两个步骤：

1）将分割点集合中的元素按照升序排列，得到新的集合c={c₁,c₂,...,c_p-1}，

2）按照以下公式计算不同的权重：

w_{k} = \{\begin{matrix} c_{1}, k = 1 \\ c_{k} - c_{k - 1}, 1 < k < p \\ 1 - c_{p - 1}, k = p \end{matrix}

b)确定算法的适应度函数

适应度函数是用于评价通过个体编码中的权重和阈值获取的本体映射结果质量的目标函数。本发明采用两个目标函数，是步骤31中的分别用于计算MatchCoverage和Frequency的两个目标函数。

c)确定算法的遗传算子

a.选择算子的确定，

本发明采用的选择算子首先根据群体中不同个体的拥挤度进行降序排序，并选择排在前半部分的个体，从中随机复制一个个体直到形成新的群体。

b.交叉算子的确定，

本发明采用的是单点交叉算子。首先在父个体中随机确定一个分割点，该分割点将两个父个体分割为两个部分：左边部分和右边部分。然后通过交换两个父个体右边部分的编码以产生新的两个子个体。

c.变异算子的确定

本发明采用的是位点变异算子。首先根据变异概率确定对个体会产生变异的编码位，然后将这些编码位的值从1修改为0，或是从0修改为1。

d)根据群体更新策略生成下一代个体本发明首先通过将当前代种群与新生成的种群放在一起，消除冗余的个体。通过文献[Deb K,Agrawal S,Pratap A,et al.A fast elitist non-dominated sorting genetic algorithm for multi-objectiveoptimization:NSGA-II[J].Lecture notes in computer science,2000,1917:849-858.]中提出的快速非支配排序算法并根据不同个体间的拥挤度来选出新的群体。

当算法终止后，我们从pareto前沿中选出三个拐点解作为代表。由于pareto前沿的拐点区域代表了pareto前沿中不同目标间的最大权衡，在pareto前沿的拐点区域中的解有以下特点：在一个目标上的小改进会导致在至少一个的其他目标上较大的恶化。在没有用户偏好信息的前提下，pareto前沿的拐点区域中的解被默认是决策制定者需要的解[Bechikh S,Said L B,Ghédira K.Searching for knee regions of the Pareto front using mobile reference points[J].Soft Computing,2011,15(9):1807-1823.]。在本发明中，选择的三个拐点解分别是拥有最好的MatchCoverage，Frequency以及二者间最好的权衡。具体地说，在pareto前沿中拥有最好MatchCoverage的解中选出一个Frequency最高的解。同样地，在pareto前沿中拥有最好Frequency的解中选出一个MatchCoverage最高的解。关于MatchCoverage和Frequency间最好的权衡的解，我们通过二者的和谐均值MatchFmeasure来度量：

MatchFmeasure = \frac{2 \times MatchCoverage \times Frequency}{MatchCoverage + Frequency} ¡ £

通过NSGA-II方法获取的不同概念块之间的映射结果通过贪心算法集成，以获取最终的本体映射结果。

本发明的本体映射方法在生物医学领域上的应用时，可用于自动映射不同的大规模生物医学本体，并在较少的时间内获取较高质量的本体映射结果，并在此基础上实现生物医学领域的信息集成；而在空间地理学领域上的应用时，本发明可高效地、自动地生成不同地理空间本体间的映射，并在此基础上实现不同地理学领域中上层应用技术之间的协作。

本发明的技术方案在具体应用时，其参量（概念相似度阈值α、β，概念相关度阈值γ，概念块规模上限δ，概念块相似度阈值ε和概念块集合的内部相似度阈值θ）的取值需依据不同的待匹配本体特点来确定。

本方案建议的本体划分算法的参数如下：

(1)概念块相似度下限δ=0.8；

(2)概念块中概念数量上限ε=60；

(3)概念块集合的内部相似度下限θ=0.2。

相关概念过滤方法中的参数如下：

(1)目标本体概念与源本体概念之间的相似度下限α=0.6；

(2)目标本体概念与源本体概念块之间的相似度下限β=0.7；

(3)目标本体概念与源本体概念块之间的相关度下限γ=0.1。

本体划分算法和相关概念过滤方法的参数是由实验确定的。在划分算法中，希望产生的概念块集合以及每个概念块中的概念个数不应当太大，这样可以提高后续过程的处理效率。在相关概念过滤方法中，产生的目标本体相关概念块的规模不应当太大，而真正同源本体概念块相关的概念不应当被过滤掉，这样可以提高后续映射过程的效率。

建议NSGA-II算法采用以下的配置：

1)每个参数的搜索空间是连续的区间[0,1]；

2)数值精度为0.01；

3)群体规模为20个个体；

4)交叉概率为0.8；

5)变异概率为0.09；

6)最大进化代数为300代。

通过以上参数分别匹配大规模空间地理学领域本体和大规模生物医学本体，结果如下：

1.匹配大规模空间地理学领域本体

大规模空间地理学领域本体的测试数据集采用OSGB本体(http://www.ordnancesurvey.co.uk/oswebsite/ontology)和OSM本体，前者是英国国家地图本体，后者是世界地图本体(http://www.openstreetmap.org)，这两个本体是空间地理学领域的代表性本体。本方案的结果同CODI（一个基于马尔科夫逻辑和概率学的本体映射系统）和LogMap（一个基于逻辑学的本体映射系统）的比较结果如表1所示：

表1本发明的方法同CODI和LogMap在大规模空间地理学领域本体测试数据集上的比较

从表1中可以看出，本发明的方法获取的结果的F-measure值优于CODI和LogMap，运行时间为158秒（其中步骤1用时34秒，步骤2用时82秒，步骤三用时42秒）排名第二。

2.匹配大规模生物医学本体

OAEI2012大规模的生物医学本体测试数据集(http://www.cs.ox.ac.uk/isg/projects/SEALS/oaei/2012/)采用三个分别拥有78989,306591和66724个概念类的大规模的生物医学本体FMA、SNOMEDCT和NCI。该测试数据集的任务分为三个本体映射子任务，分别是FMA-NCI、FMA-SNOMED和SNOMED-NCI，其中每一个映射任务使用到不同的输入本体。

从表2中可以看出，本发明的方法在第一个映射任务中得到的映射结果的F-measure值在OAEI2012所有参与者中排名第二，运行时间为230秒（其中步骤1用时68秒，步骤2用时136秒，步骤三用时26秒），排名第6位。在第二个映射任务中，本文方法得到的映射结果的F-measure值比所有OAEI2012参与者的结果都要好，运行时间为674秒（其中步骤1用时68秒，步骤2用时136秒，步骤三用时470秒），排名第4位。在第三个映射任务中，本文方法得到的映射结果的F-measure值在所有OAEI2012参与者中排名第四，运行时间为1355秒（其中步骤1用时315秒，步骤2用时542秒，步骤三用时498秒），排名第5位。

表2本发明的方法同OAEI2012参与者在大规模生物医学测试数据集上的比较

任务2:FMA-SNOMED

任务3:SNOMED-NCI

虽然以上描述了本发明的具体实施方式，但是熟悉本技术领域的技术人员应当理解，我们所描述的具体的实施例只是说明性的，而不是用于对本发明的范围的限定，熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化，都应当涵盖在本发明的权利要求所保护的范围内。

Claims

1.一种基于面向映射的分块技术的大规模本体映射方法，其特征在于：包括：

步骤20、对目标本体进行划分，包括：

步骤30、映射本体概念块，包括：

其中

和

分别是S₁和S₂中映射上的实体个数，

和

分别是S₁和S₂中所有实体的个数，

（1）、先确定群体中个体的编码方案；

（3）、确定算法的遗传算子；

（4）、根据群体更新策略生成下一代个体；

2.根据权利要求1所述的基于面向映射的分块技术的大规模本体映射方法，其特征在于：所述步骤10是采用基于邻近概念的相似度度量技术，本体中不同概念块间的邻近概念相似度取决于共同的邻近概念数量，给定两个概念块C1和C2，它们的邻近概念相似度由以下公式计算：

此外，概念块集合S的内部相似度值由以下公式计算：

3.根据权利要求1所述的基于面向映射的分块技术的大规模本体映射方法，其特征在于：

所述步骤21的具体实现过程是：所述比较目标本体和源本体概念块中不同概念的名称、标签和备注信息的相似程度是通过SMOA距离来比较，对于目标本体O_tgt中的每一个概念c_i，c_i同Seg_src之间的相似度值s_i等于c_i同S_src中每一个概念c_j的相似度s_ij之和，只对大于阈值α的s_ij求和，如果得到的s_i大于阈值β，则将c_i加入候选概念集C；