CN102306177B

CN102306177B - 一种多策略组合的本体或实例匹配方法

Info

Publication number: CN102306177B
Application number: CN 201110247261
Authority: CN
Inventors: 李涓子; 王志春; 赵越; 张啸; 侯磊; 唐杰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2011-08-25
Filing date: 2011-08-25
Publication date: 2013-06-05
Anticipated expiration: 2031-08-25
Also published as: CN102306177A

Abstract

本发明公开了一种多策略组合的本体或实例匹配方法，涉及语义万维网领域。所述方法包括步骤：对于两个本体元素或两个实例元素集合，基于本体元素或实例元素的不同文本信息执行多个匹配策略，得到多组匹配结果，对所述多组匹配结果中的每个匹配结果进行投票，根据投票结果对所述多组匹配结果进行过滤，得到初始匹配结果；根据所述初始匹配结果，以及本体元素或者实例元素之间的链接关系，获得新匹配结果，所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。所述方法提高了最终匹配结果的准确度，有利于更好的解决链接数据模式层和实例层的异构问题。

Description

一种多策略组合的本体或实例匹配方法

技术领域

本发明涉及语义万维网技术领域，特别涉及一种多策略组合的本体或实例匹配方法。

背景技术

语义万维网是当前万维网的扩展，信息的语义在其中被准确定义，从而使机算计能够理解数据的语义信息，使得其对信息的处理更加智能化。万维网之父Tim Berners-Lee提出了在万维网上发布和链接结构化数据的基本准则：(1)使用URI(统一资源定位符)命名所有事物；(2)使用HTTP(超文本传输协议)URI；(3)在URI指向的位置用标准格式提供有用信息；(4)建立指向其他URI的链接。通过这些准则发布的数据被称为链接数据。

由于万维网上数据由不同机构发布，导致了数据模式层和实例层的异构性。本体匹配和实例匹配是分别解决链接数据模式层和实例层异构问题的关键技术。本体匹配的目的是发现不同的模式之间相互等价的元素(概念、属性)，实例匹配的目的则是发现不同数据集中指代同一事物的URI。目前国内外已有很多本体匹配方面的研究，大部分研究集中在如何利用多种本体信息计算元素之间的相似度，从而得到本体间等价的元素。已有的本体匹配策略包括基于实体名称的方法、基于本体结构的方法、基于本体实例的方法和基于外部知识库的方法等。为了获得满意的匹配结果，一种有效的方法是组合多个匹配策略的结果。现有的组合方法都是基于相似度操作的方法，先将各个策略得到相似度进行聚合，然后根据聚合的相似度决定匹配结果。常用的相似度聚合方法包括平均值法、最大值法、最小值和加权平均值法等。但是，最近有研究表明，这些组合方法得到的结果高度依赖于所选用的匹配策略，最终所得匹配结果的准确度无法保证。目前实例匹配方法大多借助本体匹配的相关技术，同样存在如何更好的组合多个匹配策略的问题。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何提供一种多策略组合的本体或实例匹配方法，以便更好的解决链接数据模式层和实例层的异构问题。

(二)技术方案

为解决上述技术问题，本发明提供一种多策略组合的本体或实例匹配方法，其包括步骤：

A：对于两个本体元素或两个实例元素集合，基于本体元素或实例元素的不同文本信息执行多个匹配策略，得到多组匹配结果，对所述多组匹配结果中的每个匹配结果进行投票，根据投票结果对所述多组匹配结果进行过滤，得到初始匹配结果；

B：根据所述初始匹配结果，以及本体元素或者实例元素之间的链接关系，获得新匹配结果，所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。

优选地，所述步骤A包括步骤：

A1：对于两个本体元素或两个实例元素的集合，基于本体元素或实例元素的不同文本信息执行多个匹配策略，得到对应的多个相似度矩阵；

A2：从所述多个相似度矩阵中，分别抽取相似度大于等于第一阈值的一组匹配结果，得到所述多组匹配结果；

A3：对所述多组匹配结果中的每个匹配结果进行投票，得到每个匹配结果的得票数；

A4：查找所述多组匹配结果中互相冲突的匹配结果，在所述互相冲突的匹配结果中，保留得票数最多的匹配结果，删除其余的匹配结果；

A5：重复执行所述步骤A4，直至剩余的匹配结果中没有互相冲突的匹配结果，将最终剩余的匹配结果作为所述初始匹配结果。

优选地，所述步骤A2具体包括：

A21：设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集；

A22：查找所述相似度矩阵中的最大相似度m_ij；

A23：判断m_ij是否大于等于第一阈值σ1，如果是，将m_ij对应的匹配结果并入所述集合R后执行A24，否则，执行A26；

A24：删除所述相似度矩阵中第i行和第j列的所有相似度；

A25：判断所述相似度矩阵是否为空矩阵，如果是，执行A26，否则，执行所述步骤A22；

A26：将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果；

A27：重复执行所述步骤A21至A26，直至得到对应所述多个相似度矩阵的所述多组匹配结果。

优选地，所述步骤A1中，

对于本体元素，所述不同文本信息包括：名称信息、描述信息和实例信息中的至少两种；所述多个匹配策略与所述不同文本信息对应，其包括：基于名称的匹配策略、基于描述的匹配策略和基于实例的匹配策略中的至少两种；

对于实例元素，所述不同文本信息包括：名称信息、描述信息和属性信息中的至少两种；所述多个匹配策略与所述不同文本信息对应，其包括：基于名称的匹配策略、基于描述的匹配策略和基于属性的匹配策略中的至少两种。

优选地，所述基于名称的匹配策略通过计算本体元素或者实例元素的名称间的编辑距离得到元素间的相似度，元素e₁、e₂间的相似度M_name(e₁，e₂)的计算公式如下：

M_name(e₁，e₂)＝S_e(label(e₁)，label(e₂))，

其中，label(e₁)为元素e₁的名称，label(e₂)为元素e₂的名称，S_e(label(e₁)，label(e₂))表示label(e₁)所对应的字符串与label(e₂)所对应的字符串之间的编辑距离，并且S_e(label(e₁)，label(e₂))的计算公式如下：

S_{e} (label (e_{1}), label (e_{2})) = 1 - \frac{| {ops} |}{\max (| label (e_{1}) |, | label (e_{2}) |)};

其中，|{ops)|为将label(e₁)所对应的字符串转化为label(e₂)所对应的字符串所需要的删除、替换和插入操作的次数，|label(e₁)|表示label(e₁)所对应的字符串的长度，|label(e₂)|表示label(e₂)所对应的字符串的长度。

优选地，所述基于描述的匹配策略通过计算向量空间模型下本体元素或者实例元素的描述信息之间的余玄夹角得到元素间的相似度，元素e₁、e₂间的基于描述信息的相似度M_meta(e₁，e₂)的计算公式如下：

M_{meta} (e_{1}, e_{2}) = S_{meta} (meta (e_{1}), meta (e_{2}))

= \frac{Σ_{i = 1}^{M} ω_{i 1} \cdot ω_{i 2}}{\sqrt{Σ_{i = 1}^{M} {ω_{i 1}}^{2}} \sqrt{Σ_{k = 1}^{M} {ω_{i 2}}^{2}}}

其中，meta(e₁)和meta(e₂)分别表示元素e₁和e₂通过rdfs:comment标注的描述信息；

ω_{ij} = {tf}_{ij} \cdot \lg \frac{N}{d f_{i}},

并且，ω_ij表示meta(e_j)中词i的权重，1≤i≤M，其中tf_ij是词i在meta(e_j)中的出现次数，j∈{1，2}，df_i是所有描述信息中包含词i的本体元素或者实例元素的数量，N是所有本体元素或者实例元素的数量。

优选地，所述基于实例的匹配策略通过计算向量空间模型下本体元素实例信息之间的余玄夹角得到元素间的相似度，元素e₁、e₂间基于实例信息的相似度M_inst(e₁，e₂)的计算公式如下：

M_{inst} (e_{1}, e_{2}) = S_{inst} (inst (e_{1}), inst (e_{2}))

= \frac{Σ_{i = 1}^{M} ω_{i 1} \cdot ω_{i 2}}{\sqrt{Σ_{i = 1}^{M} {ω_{i 1}}^{2}} \sqrt{Σ_{k = 1}^{M} {ω_{i 2}}^{2}}},

其中，inst(e₁)和inst(e₂)分别表示与e₁和e₂相关的实例的元数据信息；

ω_{ij} = {tf}_{ij} \cdot \lg \frac{N}{d f_{i}},

并且，ω_ij表示inst(e_j)中词i的权重，1≤i≤M，tf_ij表示词i在inst(e_j)中的出现次数，j∈{1，2}，df_i是所有所述实例的元数据信息中包含词i的本体元素的数量，N是所有本体元素的数量。

优选地，所述基于属性的匹配策略通过计算向量空间模型下实例元素属性值之间的余玄夹角得到元素间的相似度，元素e₁、e₂间基于属性的相似度M_att(e₁，e₂)的计算公式如下：

M_{att} (e_{1}, e_{2}) = S_{att} (att (e_{1}), att (e_{2}))

= \frac{Σ_{i = 1}^{M} ω_{i 1} \cdot ω_{i 2}}{\sqrt{Σ_{i = 1}^{M} ω_{i 1}^{2}} \sqrt{Σ_{k = 1}^{M} ω_{i 2}^{2}}},

其中，att(e₁)和att(e₂)分别表示e₁和e₂各自的属性值的集合；

ω_{ij} = {tf}_{ij} \cdot \lg \frac{N}{d f_{i}},

并且，ω_ij表示att(e_j)中词i的权重，1≤i≤M，tf_ij是词i在att(e_j)中的出现次数，j∈{1，2}，df_i是所有属性值的集合包含词i的实例元素的数量，N是所有实例元素的数量。

优选地，所述步骤B具体包括步骤：

B1：根据所述初始匹配结果，将第一本体元素或者实例元素集合E₁中未匹配元素构成集合

第二本体元素或者实例元素集合E₂中未匹配元素构成集合

所述初始匹配结果构成集合R；

B2：对于每一个候选匹配结果<e，e′>，

计算e和e′之间的相似度sim(e，e′)；

B3：判断所述相似度sim(e，e′)是否大于等于第二阈值σ2，如果是，将所述候选匹配结果<e，e′>并入集合R；

B4：重复步骤B1、B2、B3，直至达到预先设定的最大重复次数k。

优选地，所述e和e′之间的相似度sim(e，e′)的计算公式如下：

sim (e, e^{'}) = \frac{| R_{nbr} (e, e^{'}) |}{\min (| N (e) |, | N (e^{'}) |)},

其中，N(e)表示E₁中与e关联的元素集合，N(e′)表示E₂中与e′关联的元素集合，R_nbr(e，e′)＝{<g，g′>|<g，g′>∈R，g∈N(e)，g′∈N(e′)}；|R_nbr(e，e′)|、|N(e)|和|N(e′)|分别表示集合R_nbr(e，e′)、N(e)和N(e′)的大小。

(三)有益效果

本发明所述的多策略组合的本体或实例匹配方法，从不同的匹配策略出发分别得到匹配结果，通过投票机制过滤掉错误的匹配结果，得到初始匹配结果，进而结合元素间的链接关系，获得最终的匹配结果，从而提高了最终匹配结果的准确度，有利于更好的解决链接数据模式层和实例层的异构问题。

附图说明

图1是本发明的多策略组合的本体或实例匹配方法的流程图；

图2是本发明的多策略组合的本体或实例匹配方法的数据流图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

图1是本发明的多策略组合的本体或实例匹配方法流程图，图2是本发明的多策略组合的本体或实例匹配方法的数据流图。如图1、图2所示，该方法包括：

步骤A：对于两个本体元素或两个实例元素集合，基于本体元素或实例元素的不同文本信息执行多个匹配策略，得到多组匹配结果，对所述多组匹配结果中的每个匹配结果进行投票，根据投票结果对所述多组匹配结果进行过滤，得到初始匹配结果。

所述步骤A具体包括：

步骤A1：对于两个本体元素或两个实例元素的集合，基于本体元素或实例元素的不同文本信息执行多个匹配策略，得到对应的多个相似度矩阵。

当基于本体元素的名称信息执行基于名称的匹配策略时，通过计算本体元素的名称间的编辑距离得到元素间的相似度，元素e₁、e₂间的相似度M_name(e₁，e₂)的计算公式如下：

M_name(e₁，e₂)＝S_e(label(e₁)，label(e₂))，

S_{e} (label (e_{1}), label (e_{2})) = 1 - \frac{| {ops} |}{\max (| label (e_{1}) |, | label (e_{2}) |)};

其中，|{ops}|为将label(e₁)所对应的字符串转化为label(e₂)所对应的字符串所需要的删除、替换和插入操作的次数，|label(e₁)|表示label(e₁)所对应的字符串的长度，|label(e₂)|表示label(e₂)所对应的字符串的长度。

假设元素e₁是第一本体元素集合中的第一个元素，e₂是第二本体元素集合中的第二个元素，则上述计算得到的M_name(e₁，e₂)的值作为对应基于名称的匹配策略的相似度矩阵中第1行第2列的数值m₁₂。(执行其他匹配策略的情况与此类似，后面不再分别说明。)

基于实例元素的名称信息执行基于名称的匹配策略的情况，与所述基于本体元素的名称信息执行基于名称的匹配策略的情况基本相同，在此不再赘述。

当基于本体元素的描述信息执行基于描述的匹配策略时，通过计算向量空间模型下本体元素的描述信息之间的余玄夹角得到元素间的相似度，元素e₁、e₂间的基于描述信息的相似度M_meta(e₁，e₂)的计算公式如下：

M_{meta} (e_{1}, e_{2}) = S_{meta} (meta (e_{1}), meta (e_{2}))

= \frac{Σ_{i = 1}^{M} ω_{i 1} \cdot ω_{i 2}}{\sqrt{Σ_{i = 1}^{M} {ω_{i 1}}^{2}} \sqrt{Σ_{k = 1}^{M} {ω_{i 2}}^{2}}}

其中，meta(e₁)和meta(e₂)分别表示元素e₁和e₂通过rdfs(Resource Description Framework Schema，一种本体语言)：comment标注的描述信息；

ω_{ij} = {tf}_{ij} \cdot \lg \frac{N}{d f_{i}},

并且，ω_ij表示meta(e_j)中词i的权重，1≤i≤M，其中tf_ij是词i在meta(e_j)中的出现次数，j∈{1，2}，df_i是两个本体元素集合中所有描述信息中包含词i的本体元素的数量，N是两个本体元素集合所有本体元素的数量。

基于实例元素的描述信息执行基于描述的匹配策略的情况，与所述基于本体元素的不同文本信息执行基于描述的匹配策略的情况基本相同，在此不再赘述。

当基于本体元素的实例信息执行基于实例的匹配策略时，通过计算向量空间模型下本体元素实例信息之间的余玄夹角得到元素间的相似度，元素e₁、e₂间基于实例信息的相似度M_inst(e₁，e₂)的计算公式如下：

M_{inst} (e_{1}, e_{2}) = S_{inst} (inst (e_{1}), inst (e_{2}))

= \frac{Σ_{i = 1}^{M} ω_{i 1} \cdot ω_{i 2}}{\sqrt{Σ_{i = 1}^{M} {ω_{i 1}}^{2}} \sqrt{Σ_{k = 1}^{M} {ω_{i 2}}^{2}}},

ω_{ij} = {tf}_{ij} \cdot \lg \frac{N}{d f_{i}},

当基于实例元素的属性信息执行基于属性的匹配策略时，通过计算向量空间模型下实例元素属性值之间的余玄夹角得到元素间的相似度，元素e₁、e₂间基于属性的相似度M_att(e₁，e₂)的计算公式如下：

M_{att} (e_{1}, e_{2}) = S_{att} (att (e_{1}), att (e_{2}))

= \frac{Σ_{i = 1}^{M} ω_{i 1} \cdot ω_{i 2}}{\sqrt{Σ_{i = 1}^{M} ω_{i 1}^{2}} \sqrt{Σ_{k = 1}^{M} ω_{i 2}^{2}}},

ω_{ij} = {tf}_{ij} \cdot \lg \frac{N}{d f_{i}},

步骤A2：从所述多个相似度矩阵中，分别抽取相似度大于等于第一阈值的一组匹配结果，得到所述多组匹配结果。

所述步骤A2具体包括：

步骤A21：设定对应某个相似度矩阵的相应组匹配结果的集合R初始为空集。

步骤A22：查找所述相似度矩阵中的最大相似度m_ij。

步骤A23：判断m_ij是否大于等于第一阈值σ1，如果是，将m_ij对应的匹配结果并入所述集合R后执行A24，否则，执行A26。

步骤A24：删除所述相似度矩阵中第i行和第j列的所有相似度；

步骤A25：判断所述相似度矩阵是否为空矩阵，如果是，执行A26，否则，执行所述步骤A22。

步骤A26：将集合R中的所有匹配结果作为对应所述相似度矩阵的一组匹配结果。

步骤A27：重复执行所述步骤A21至A26，直至得到对应所述多个相似度矩阵的所述多组匹配结果。

步骤A3：对所述多组匹配结果中的每个匹配结果进行投票，得到每个匹配结果的得票数。每个匹配结果的初始得票数P为0，在所述多组匹配结果中，所述匹配结果每出现一次，P增加1，直至所述多组匹配结果均被遍历，最后所得P的值为所述匹配结果的得票数。

步骤A4：查找所述多组匹配结果中互相冲突的匹配结果，在所述互相冲突的匹配结果中，保留得票数最多的匹配结果，删除其余的匹配结果。一个本体元素e₁只能与唯一的另一个本体元素e₂相匹配，但是当分别执行多种匹配策略时可能会出现e₁同时和多个本体元素，比如e₂和e₃，相匹配的情况，即匹配结果中同时出现了<e₁，e₂>和<e₁，e₃>，这种情况下，我们称<e₁，e₂>和<e₁，e₃>是互相冲突的匹配结果。假设执行基于名称的匹配策略和执行基于描述的匹配策略均得到了匹配结果<e₁，e₂>，即匹配结果<e₁，e₂>得票数为2；执行基于实例的匹配策略均得到了匹配结果<e₁，e₃>，即匹配结果<e₁，e₃>得票数为1。这种情况下，我们将删除匹配结果<e₁，e₃>，而保留匹配结果<e₁，e₃>。

步骤A5：重复执行所述步骤A4，直至剩余的匹配结果中没有互相冲突的匹配结果，将最终剩余的匹配结果作为所述初始匹配结果。

步骤B：根据所述初始匹配结果，以及本体元素或者实例元素之间的链接关系，获得新匹配结果，所述初始匹配结果和所述新匹配结果合并后得到最终匹配结果。

所述步骤B具体包括步骤：

第二本体元素或者实例元素集合E₂中未匹配元素构成集合

所述初始匹配结果构成集合R；

B2：对于每一个候选匹配结果<e，e′>，

计算e和e′之间的相似度sim(e，e′)。所述e和e′之间的相似度sim(e，e′)的计算公式如下：

sim (e, e^{'}) = \frac{| R_{nbr} (e, e^{'}) |}{\min (| N (e) |, | N (e^{'}) |)},

B4：重复步骤B1、B2、B3，直至达到预先设定的最大重复次数k。所述最大重复次数k的值一般为5。

本发明实施例所述的多策略组合的本体或实例匹配方法，从不同的匹配策略出发分别得到匹配结果，通过投票机制过滤错误的匹配结果，得到初始匹配结果，进而结合元素间的链接关系，获得最终的匹配结果，从而提高了最终匹配结果的准确度，有利于更好的解决链接数据模式层和实例层的异构问题。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。