CN113569537B

CN113569537B - 一种本体匹配修复方法和系统

Info

Publication number: CN113569537B
Application number: CN202111118124.6A
Authority: CN
Inventors: 李炜卓; 季秋; 张松懋; 漆桂林; 周诗琪; 付雪峰; 孙哲
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-12-17
Anticipated expiration: 2041-09-24
Also published as: CN113569537A

Abstract

本发明公开了一种本体匹配修复方法和系统，属于语义网中本体匹配修复技术领域。首先基于构建规则将本体与匹配转换至有向图中，根据专家在判断过程中对匹配做出的决策，利用基于图的推理技术完成对未标识匹配的自动更新，最后返回修复匹配。本发明基于图方法实施可有效降低推理算法复杂度，利用图推理技术自动更新未标识匹配弧的方式，显著减少专家判断匹配的次数，有助于将交互式匹配修复方法扩展到大型本体。

Description

一种本体匹配修复方法和系统

技术领域

本发明属于语义网中本体匹配修复技术领域，具体涉及一种在轻量级的本体语言（DL-Lite语言）下，基于图结构有效减少专家判断次数的交互式本体匹配修复方法。

背景技术

伴随着互联网数据规模的爆炸式增长，如何利用计算机快速、准确地自动获取网页上的信息成为技术难点。语义网的提出为这一难题提供了有效的解决思路。在语义网的层次结构中，本体作为知识表示的形式化工具扮演着承上启下的重要角色。它利用下层的技术组织结构化数据，同时又为上层提供推理等技术支持，是实现语义网中知识共享与重用的基础。此外，在远程监督、查询扩展及数据库的高效访问及知识推理等诸多重要任务中，本体扮演着极其重要的角色。特别是近年来，随着链接数据的开放与知识图谱技术的蓬勃发展，越来越多的研究人员致力于将知识图谱技术用于挖掘数据中的有用知识。本体作为知识图谱的语义框架，也在这些过程中受到了广泛的应用。

然而，由于人们往往根据不同的应用需求来构建本体，并且缺少统一的构建规范与标准，导致相同领域的本体在覆盖面、粒度、命名和结构方面存在较大差异，这种现象称为本体异构，这严重阻碍了语义网中知识的共享与重用。本体映射技术是解决这一问题的有效途径，它利用本体内部的信息与外部的资源来建立本体之间实体的对应关系，本体中实体间的这种对应关系称为本体匹配。伴随着本体自身规模的不断扩大，为了减少人工构建本体匹配的负担，本体映射技术开始从人工构建转为半自动构建与自动构建。

尽管研究人员已提出大量的本体映射系统并在实施过程中不断改进与完善，现有自动本体匹配修复的方法仍存在局限性。一方面，逻辑意义上本体中概念与角色的不可满足现象虽然由错误的匹配所引起，但并非所有错误的匹配都会导致这种现象的产生，这些匹配往往会在最终的修复结果中被保存下来。由于基于逻辑冲突的修复方法依赖于本体中定义的不相交公理，当这些不相交公理大量缺失或者不存在时，则会严重影响这些自动修复匹配方法的性能。另一方面，在修复的过程中，可能存在成千上万种候选的移除策略，这在大型且复杂本体（如：生物医学本体）的匹配修复任务中极为常见，尽管存在一些有效的启发式规则来引导错误匹配的移除，但仍然无法避免一些正确的匹配被识别为“错误”匹配而被移除。因此，这些启发式规则的准确性与完备性仍然无法得到保证。

错误的本体匹配会对语义网中术语推理、数据转换、点对点协作以及查询问答等应用产生消极的影响。因此，本体匹配的修复对提升本体映射结果的质量十分重要。为检测出更多的错误匹配、提高匹配的修复质量，需要具有领域知识的专家来对匹配进行手动修复。目前针对交互式匹配修复已有一些研究方法，但其中大多数都侧重于为专家提供更多信息以便他们做出更好的决策，如利用分布式描述逻辑(DDL)来检测和传播专家决策中正确匹配的影响，通过决策空间中定义的操作显著降低本体在推理时所需的开销等。尽管如此，决策空间的算法复杂度为

，其实际应用时间开销仍较高。

发明内容

本发明旨在提供一种本体匹配修复方法，降低匹配修复方法的时间复杂度。

考虑到大部分大型本体（尤其是在生物医学领域）都是采用轻量级的本体语言（如：DL-Lite语言）进行描述的，因此利用图高效的推理特性，可以进一步将决策空间中相应的操作界定在

时间复杂度内，这样也有助于将交互式匹配修复方法扩展到大型本体。

为实现该技术目的，本发明采用以下技术方案。

一种本体匹配修复方法，包括以下步骤：将各个本体转换成该本体对应的图，将本体匹配转换为匹配弧，利用所述匹配弧连接两个子图形成一个集成图；初始化集成图的修正状态与决策空间，所述修正状态包括弧和匹配弧，所述匹配弧分为正确匹配弧标识集合和错误匹配弧标识集合；所述决策空间包括由修正状态计算得到的剩余未标识匹配弧集合、集成图推理的蕴含算子

与冲突算子

；

在交互式本体匹配修复过程中，当专家对当前待决策匹配弧对应的匹配给出赞同操作或者否定操作时分别启动基于决策空间的赞同推理算法或者基于决策空间的否定推理算法，对剩余未标识匹配弧集合中匹配弧进行标记；

重复交互式本体匹配修复过程，直至所有匹配弧都被标记，确定最终正确匹配弧标识集合。

进一步地，给定两个本体，分别记作

、

，根据本体转换规则将各个本体转换成该本体对应的图，所述本体对应的图包括由本体基础概念与原子属性通过转换规则转换而来的节点，以及该本体内部根据各基础概念与原子属性之间包含于关系转换得到的弧；所述集成图表示为

，其中N为节点集合，E为弧集合，

为匹配弧集合,弧与匹配弧的表示均记作

，其中

为集成图中的节点。

据本体的转换规则将各个本体转换成该本体对应的图，所述本体的转换规则包括：

规则1：对于公理集合T中的每个原子概念C，将原子概念C转换为节点A，节点集合N 包含节点A，其中公理集合T为

，k为当前选定的本体下标，i,j分别为各本体的下标，T _k为当前选定的本体k的公理集合；

规则2：对于公理集合T中的每个原子属性R,

为原子属性R的逆操作；

为原子属性R值域的取值概念；

为原子属性R定义域的取值概念，将原子属性R转换为节点P，将原子属性R的逆操作

转换为节点

；将原子属性R值域的取值概念

转换为节点

，将原子属性R定义域的取值概念

转换为节点

，N包含节点P、

、

以及

；

规则3：对于公理集合T中的每一条基础概念包含公理

，弧的集合E包含弧

；

为基础概念

转换的节点，通常由多个原子概念或者原子概念结合原子属性构造而成，常用的构造符有

、

以及

；

表示基础概念

的否定

转换的节点；

为不同基础概念交集

转换的节点。

表示与原子概念C存在原子属性R 关系的概念集合

转换的节点。

分别为基础概念

和基础概念

转换的节点，“

”为“包含于”关系；E为本体内部根据各节点之间“包含于”关系转换得到的弧的集合；

规则4：对于公理集合

中的每一条基础概念包含公理

，E包含弧

，并且N包含节点

；

为基础概念

的否定

转换的节点，“

”为“包含于”关系；

规则5：对于公理集合T中的每一条角色包含公理

，E包含弧

、

、

以及

；

、

为原子属性

和原子属性

转换的节点，

为原子属性

的逆操作

转换的节点，

为原子属性的逆操作

转换的节点，

为原子属性

值域的取值概念

转换的节点，

为原子属性

值域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点；

规则6：对于公理集合T中的每一条角色包含公理

，E包含弧

、

、

、

，并且N包含节点

、

、

以及

，

为原子属性

的否定

转换的节点，

为原子属性

的逆操作的否定

转换的节点，

为原子属性

值域的取值概念的否定

转换的节点，

为原子属性

逆操作后值域的取值概念的否定

转换的节点。

再进一步地，利用匹配的转换规则将本体匹配转换为匹配弧用来连接两个子图，所述匹配的转换规则包括：

规则7：对于每一个基础概念匹配

，在

上增加一条弧

；

为本体匹配所对应的匹配弧集合，

为本体

中的基础概念

转换的节点，

为本体

中的基础概念

转换的节点，

表示本体

中的基础概念

包含于本体

中的基础概念

的置信度为

，其中

为[0,1]之间的实数值；

规则8：对于每一个基础概念匹配

，在匹配弧集合

上增加一条弧

，

表示于本体

中的基础概念

包含于本体

中的基础概念

的置信度为

，其中

为[0,1]之间的实数值；

规则9：对于每一个基础概念匹配

，在匹配弧集合

上增加两条弧

与

，

表示本体

中的基础概念

与本体

基础概念

是等价关系的置信度为

；其中

为[0,1]之间的实数值；

规则10：对于每一个原子属性匹配

，在匹配弧集合

上增加四条弧

、

、

以及

，

为本体

中的原子属性

转换的节点，

本体

中原子属性

转换的节点,

表示本体

中的原子属性

的逆操作

转换节点，

表示本体

中的原子属性

的逆操作

转换的节点，

表示本体

中的原子属性

值域的取值概念

转换的节点，

表示本体

中的原子属性

值域的取值概念

转换的节点，

表示本体

中的原子属性

定义域的取值概念

转换的节点，

表示本体

中的原子属性

定义域的取值概念

转换的节点。

表示本体

中的原子属性

包含于本体

中原子属性

的置信度为

，其中

为[0, 1]之间的实数值；

规则11：对于每一个原子属性匹配

，在匹配弧集合

上增加四条弧

、

、

以及

；

表示本体

中的原子属性

包含于本体

中的原子属性

的置信度为

，其中

为[0,1]之间的实数值；

规则12：对于每一个属性匹配

，在匹配弧集合

上增加八条弧

、

、

、

、

、

、

以及

，

表示本体

中的原子属性

与本体

中原子属性

是等价关系的置信度为

，其中

为[0,1]之间的实数值；

进一步地，所述集成图的修正状态表示为三元组

，其中

为匹配弧集合，

为正确匹配弧标识集合，

为错误匹配弧标识集合，

，

并且

；如果

，那么基于集成图的修正状态是完备的；修正状态的闭包记作

，

其中

，它表示基于正确匹配弧标识集合进行集成图的传递必包操作，

对于

有

，它表示基于错误匹配弧标识集合进行图的传递必包操作，

和

表示集成图匹配弧集合中两条不同的匹配弧，

表示根据集合执行集成图的传递必包操作,

泛指集成图中弧或者匹配弧集合；当修正状态呈现闭包状态不再发生改变时，则基于决策空间的交互式本体匹配修复过程完成。

再进一步地，所述集成图的决策空间表示为：

，其中

表示剩余未标识匹配弧集合，

，“

”表示集合的差集操作，

蕴含算子的

的定义为：若匹配弧

蕴含匹配弧

，记作

，当且仅当

成立，

表示根据集合

执行集成图的传递必包操作；

冲突算子

的定义为：若匹配弧

与匹配弧

冲突，记作

，当且仅当对于

中的某一条弧

使得

成立，

，

，

均为匹配弧集合

中匹配弧的通用表示。

再进一步地，所述基于决策空间的赞同推理算法包括：输入为修正状态

、决策空间

和当前被专家赞同的匹配所转换的匹配弧

，将匹配弧

加入至正确匹配弧标识集合

中；循环遍历剩余未标识匹配弧集合

，对于剩余未标识匹配弧集合

中各未标识的匹配弧

，利用蕴含算子

确定若匹配弧

包含于正确匹配弧标识集合

的传递必包中，则说明匹配弧

蕴含匹配弧

，则将匹配弧

自动更新为正确的匹配弧加入正确匹配弧标识集合

中，更新剩余未标识匹配弧集合

；循环遍历错误匹配弧标识集合

中的匹配弧

，对于剩余未标识匹配弧集合中各未标识的匹配弧

，利用冲突算子

确定若匹配弧

属于

的传递必包中或造成集成图存在匹配弧之间逻辑冲突，所述逻辑冲突为存在至少1个基础概念

或者原子属性

为空集，记作

或者

，则将匹配弧

自动更新为错误的匹配弧，加入错误匹配弧标识集合

中；最后返回更新后的决策空间，同时更新修正状态；

所述基于决策空间的否定推理算法包括：输入为修正状态

、决策空间

和当前被专家否定的匹配所转换的匹配弧

，首先将匹配弧

加入至错误匹配弧标识集合

中，其次循环遍历剩余未标识匹配弧集合，对于剩余未标识匹配弧集合

中各未标识的匹配弧

，利用所述蕴含算子

确定若匹配弧

包含于

的传递必包中，则说明匹配弧

蕴含匹配弧

，则将匹配弧

自动更新为错误的匹配弧，加入错误匹配弧标识集合

中；最后返回更新后的决策空间，同时更新修正状态。

再进一步地，基于扩展规则，根据本体之间的影响关系在两个子图之间增加影响弧构成影响弧集合

，所述影响弧记作

，其中

为集成图中的节点，增加影响弧后的集成图表示为

；所述扩展规则包括：

扩展规则1：对于每一个概念包含公理

，节点的集合N包含节点A、B、

、

、

，弧的集合E包含弧

、

，影响弧集合

包含

以及

，其中A为原子概念C转换的节点，B为基础概念D转换的节点,

为原子属性R 值域的取值概念

转换的节点，

为原子属性R定义域的取值概念

转换的节点，

表示与原子概念C存在原子属性

关系的概念集合

转换的节点；

扩展规则2：对于每一个概念包含公理

，节点的集合N包含节点A、B、

、

、

，弧的集合E包含弧

、

，影响弧集合

包含

以及

，其中，A为原子概念

转换的节点，B为基础概念

转换的节点,

为原子属性R值域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点，

表示与原子概念

存在原子属性

的逆操作关系的概念集合

转换的节点。

再进一步地，确定当前待决策匹配弧的方法包括：从剩余未标识匹配弧集合中选取综合影响函数值最大的匹配弧作为当前待决策匹配弧

，将所述当前待决策匹配弧对应的匹配提供给专家进行决策，所述综合影响函数值的计算方法如下：

其中

表示赞同影响，

表示否定影响，

表示通过运算

、

、

得到并且属于匹配弧集合

的匹配弧的数量；其中

表示执行蕴含算子的操作，记作

，

表示执行蕴含算子的操作，记作

，

执行冲突算子，记作

，

为剩余未标识匹配弧集合

中的匹配弧。

进一步地，初始化集成图的修正状态包括初始化正确匹配弧标识集合，具体包括：将两个本体所有的公理加入正确匹配弧标识集合中，并通过两条软化原则预先认定为可靠的匹配弧加入到正确匹配弧标识集合中，两条软化原则的具体定义如下：

原则1：可靠的匹配弧不应该造成集成图存在匹配弧之间逻辑冲突，所述逻辑冲突为存在至少1个基础概念D或者原子属性R为空集，记作

或者

；

原则2：可靠的匹配弧应至少关联1个可靠的匹配弧，意味这两个的匹配弧

和

需要相互支持，相互支持(即相互关联)的定义为：对应的

与

之间的关系，和

与

之间的关系相同；

，

分别为本体

中的基础概念

，

转换的节点,

，

分别为本体

中的基础概念

，

转换的节点，

与

，

与

之间具有相同的关系(如：

，

)。这些节点

由转换规则1转换而来，它们对应为本体中

中的基础概念

，

与本体

基础概念

，

，匹配弧

、

则是由规则7或者规则9转换而来。

为本体

中的“包含于”关系，

为本体

中的“包含于”关系。

本发明还提供了一种本体匹配修复系统，包括：集成图构建模块、初始化模块、专家标识模块以及交互式本体匹配修复模块；

所述集成图构建模块，用于将各个本体转换成该本体对应的图，将本体匹配转换为匹配弧，利用所述匹配弧连接两个子图形成一个集成图；

所述初始化模块，用于初始化集成图的修正状态与决策空间，所述修正状态包括弧和匹配弧，所述匹配弧分为正确匹配弧标识集合和错误匹配弧标识集合；所述决策空间包括由修正状态计算得到的剩余未标识匹配弧集合、集成图推理的蕴含算子

与冲突算子

；

所述专家标识模块，用于专家对当前待决策匹配弧对应的匹配给出赞同或否定操作；

所述交互式本体匹配修复模块，用于在交互式本体匹配修复过程中，当专家对当前待决策匹配弧对应的匹配给出赞同操作或者否定操作时分别启动基于决策空间的赞同推理算法或者基于决策空间的否定推理算法，对剩余未标识匹配弧集合中匹配弧进行标记；重复交互式本体匹配修复过程，直至所有匹配弧都被标记，确定最终正确匹配弧标识集合。

本发明所取得的有益技术效果：本发明考虑到大部分大型本体（尤其是在生物医学领域）都是采用轻量级的本体语言（如：DL-Lite语言）进行描述的，因此利用图高效的推理特性，可以进一步将决策空间中相应的操作界定在

时间复杂度内，这样也有助于将交互式匹配修复方法扩展到大型本体；此外，根据专家在交互式过程中对匹配做出的各次决策，利用基于图的推理技术完成对未标识匹配的自动更新，从而显著地减少专家判断匹配的次数；

本发明提供的方法基于构建规则将DL-Lite语言描述的本体以及它们的匹配转换到有向图中，采用软化原则预先认定部分“可靠”的匹配，并考虑匹配顺序对专家决策数目的影响来设计基于图的影响函数以寻找最合适的匹配提供给专家判断。

附图说明

图1是本发明方法实施例基于图的交互式本体匹配修复框架图；

图2是本发明方法实施例基于本体及匹配的构建规则所构建的集成图。

具体实施方式

为进一步阐明本申请的技术方案，下面结合附图和具体实施方式，对本申请的实施方式作进一步地详细描述。应当指出的是，以下所述仅是本发明的优选实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

本实施例以两个会议本体（分别记作

、

）的知识片段为例，

的知识片段分别表达为：“元评审意见包含于评审意见”、“具有名字的定义域的取值概念包含于会议”、 “会议包含于常规作者的否定”、“论文摘要包含于会议文档”。

的知识片段分别表达为： “论文的作者包含于作者”、“具有名字的定义域的取值概念包含于作者”、“摘要包含于文档”。它们相应的公理描述形式表达如下：

元评审意见 _i

评审意见 _i 论文的作者 _j

作者 _j

具有名字

会议 _i

具有名字

作者 _j

会议 _i

常规作者 _i 摘要 _j

文档 _j

论文摘要 _i

会议文档 _i

它们之间的匹配如下：

匹配 ₁=(常规作者 _i,作者 _j,

,0.8)

匹配 ₂=(论文的作者 _j ,常规作者 _i,

,0.7)

匹配 ₃=(

具有名字

,

具有名字

,

,0.8)

匹配 ₄=(评审意见 _i,评审意见事件 _j,

,0.6)

匹配 ₅=(评审意见事件 _j,元评审意见 _i,

,0.7)

匹配 ₆=(会议文档 _i,文档 _j,

,0.7)

匹配 ₇=(论文摘要 _i,摘要 _j,

,0.6)

其中匹配中关系“

”、“

”后紧跟的数值(如：0.8)为匹配的置信度。

为更方便地理解本申请，以下列出本申请涉及参数定义：

A为原子概念C转换的节点，B为基础概念D转换的节点，P为原子属性R转换的节点，

为原子属性R的逆操作；

为原子属性R值域的取值概念；

为原子属性R定义域的取值概念，

为原子属性R的逆操作

转换的节点；

为原子属性R值域的取值概念

转换的节点,

为原子属性R定义域的取值概念

转换的节点；

、

分别为基础概念

和基础概念

转换的节点；

表示基础概念

的否定，基础概念

的否定

转换为节点

；

、

为原子属性

和原子属性

转换的节点，

为原子属性

的逆操作

转换的节点，

为原子属性

的逆操作

转换的节点,

为原子属性

值域的取值概念

转换的节点，

为原子属性

值域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点；

为原子属性

的否定

转换的节点，

为原子属性

的逆操作的否定

转换的节点，

为原子属性

值域的取值概念的否定

转换的节点，

为原子属性

逆操作后值域的取值概念的否定

转换的节点。

为本体

中的基础概念

转换的节点，

为本体

中的基础概念

转换的节点。

为本体

中的原子属性

转换的节点,

为本体

中原子属性

转换的节点。

表示本体

中的原子属性

的逆操作

转换的节点，

表示本体

中的原子属性

的逆操作

转换的节点，

表示本体

中的原子属性

值域的取值概念

转换的节点，

表示本体

中的原子属性

值域的取值概念

转换的节点，

表示本体

中的原子属性

定义域的取值概念

转换的节点，

表示本体

中的原子属性

定义域的取值概念

转换的节点。

表示与原子概念C存在原子属性R关系的概念集合

转换的节点；

表示与原子概念C存在原子属性R的逆操作关系的概念集合

转换的节点。

实施例1：本实施例提供一种本体匹配修复方法，包括如下步骤：

步骤1：在不损失任何信息的情况下，基于本体转换规则与将DL-Lite语言描述的本体转换到集成图中，并通过基于匹配的构建规则将匹配转换到图中获得相应的匹配弧。

本实施例中步骤1具体包括如下步骤：

步骤1.1：根据本体的转换规则，将本体

与

各自构建成两个子图

与

。其中节点

由本体基础概念与原子属性通过转换规则转换而来的，而边

则表示节点之间的包含于关系。

步骤1.2：利用匹配的转换规则将匹配

转换为匹配弧用来连接两个子图。这里新构建的图称之为集成图，记作

，其中

与

分别对应子图

和

中所有的节点与所有的边，

表示匹配弧集合，成为连接子图

和

的桥梁。

所述本体的转换规则包括：

规则1：对于

中的每个原子概念C,N包含原子概念C转换的节点A；其中k为当前选定的本体下标，i,j分别为各本体的下标，T为公理集合，T _k为当前选定的本体k的公理集合；N为图中由本体基础概念与原子属性通过转换规则转换而来的节点集合；

规则2：对于

中的每个原子属性R，原子属性R转换为节点P，N包含节点P、

、

以及

；

规则3：对于公理集合T中的每一条概念包含公理

，E包含弧

；B为基础概念D转换的节点，通常由多个原子概念或者原子概念结合原子属性构造而成，常用的构造符有

、

以及

； “

规则4：对于

中的每一条概念包含公理

，E包含弧

，并且

包含节点

；

表示基础概念

的否定

转换的节点，“

”为“包含于”关系；

规则5：对于T中的每一条角色包含公理

，E包含弧

、

、

以及

；

规则6：对于T中的每一条角色包含公理

，E 包含弧

、

、

、

，并且N包含节点

、

、

以及

；

所述匹配的转换规则包括：

规则7：对于每一个基础概念匹配

，在匹配弧集合

上增加一条弧

；

表示本体

中的基础概念

包含于本体

中的基础概念

的置信度为

，其中

为[0,1]之间的实数值；

规则8：对于每一个基础概念匹配

，在匹配弧集合

上增加一条弧

，

表示于本体

中的基础概念

包含于本体

中的基础概念

的置信度为

；其中

为[0,1]之间的实数值；

规则9：对于每一个基础概念匹配

，在匹配弧集合

上增加两条弧

、

，

表示本体

中的基础概念

与本体

基础概念

是等价关系的置信度为

；其中

为[0,1]之间的实数值；

规则10：对于每一个原子属性匹配

，在匹配弧集合

上增加四条弧

、

、

以及

，

表示本体

中的原子属性

包含于本体

中原子属性

的置信度为

，其中

为[0,1]之间的实数值；

规则11：对于每一个原子属性匹配

，在匹配弧集合

上增加四条弧

、

、

以及

；

表示本体

中的原子属性

包含于本体

中的原子属性

的置信度为

；其中

为[0,1]之间的实数值；

规则12：对于每一个属性匹配

，在匹配弧集合

上增加八条弧

、

、

、

、

、

、

以及

，

表示本体

中的原子属性

与本体

中原子属性

是等价关系的置信度为

，其中

为[0,1]之间的实数值；

根据上述规则，将两个会议本体

、

的公理与匹配转换至有向图中，如图2所示。

步骤2：初始化集成图修正状态与决策空间，即将本体匹配的标识分为正确匹配弧标识集合和错误匹配弧标识集合，正确匹配弧标识集合和错误匹配弧标识集合共同组成总匹配弧标识集合。修正状态具体描述如下：

一个关于集成图

中弧所对应的修正状态定义为一个三元组

，其中

，

并且

。如果

，那么基于图的修正状态是完备的。关于修正状态的闭包记作

，其中

，

对于

有

，

和

表示集成图中两条不同的匹配弧。

决策空间具体描述如下：

给定一个基于图的修正状态

，其中

。基于图的决策空间

包含一个尚未评估的匹配弧集合

以及两个二元关系

（蕴含算子）与

（冲突算子），它们分别使得

当且仅当

成立，

当且仅当对于

中的某一条弧

使得

成立。

步骤3：交互式匹配修复过程。当专家对当前待决策匹配弧对应的匹配给出赞同操作时启动基于决策空间的赞同推理算法，利用所述蕴含算子

、冲突算子

以及当前被专家赞同的匹配对应的匹配弧，结合正确匹配弧标识集合和错误匹配弧标识集合来完成对剩余未标识匹配弧集合中匹配弧的状态更新；当专家对当前待决策匹配弧对应的匹配给出否定操作时启动基于决策空间的否定推理算法，利用所述蕴含算子

、冲突算子

以及当前被专家否定的匹配对应的匹配弧，结合正确匹配弧标识集合和错误匹配弧标识集合来完成对剩余未标识匹配弧集合中匹配弧的状态更新；

重复交互式本体匹配修复过程，直至总匹配弧标识集合中的所有匹配弧都被标记，确定最终正确匹配弧标识集合。

本实施例中，所述基于决策空间的赞同推理算法包括：输入为修正状态

、决策空间

和当前被专家赞同的匹配所转换的匹配弧

，将匹配弧

加入至正确匹配弧标识集合

中；循环遍历剩余未标识匹配弧集合

，对于剩余未标识匹配弧集合

中各未标识的匹配弧

，利用蕴含算子

确定若匹配弧

包含于正确匹配弧标识集合

的传递必包中，则说明匹配弧

蕴含匹配弧

，则将匹配弧

自动更新为正确的匹配弧加入正确匹配弧标识集合

中，更新剩余未标识匹配弧集合

；循环遍历错误匹配弧标识集合

中的匹配弧

，对于剩余未标识匹配弧集合中各未标识的匹配弧

，利用冲突算子

确定若匹配弧

属于

的传递必包中或造成集成图存在匹配弧之间逻辑冲突，所述逻辑冲突为存在至少1个基础概念D或者原子属性R 为空集，记作

或者

，则将匹配弧

自动更新为错误的匹配弧，加入错误匹配弧标识集合

中；最后返回更新后的决策空间，同时更新修正状态；

所述基于决策空间的否定推理算法包括：输入为修正状态

、决策空间

和当前被专家否定的匹配所转换的匹配弧

，首先将匹配弧

加入至错误匹配弧标识集合

中各未标识的匹配弧

，利用所述蕴含算子

确定若匹配弧

包含于

的传递必包中，则说明匹配弧

蕴含匹配弧

，则将匹配弧

自动更新为错误的匹配弧，加入错误匹配弧标识集合

中；最后返回更新后的决策空间，同时更新修正状态。

本实施例提供的本体匹配修复方法能在无任何信息的损失情况下将DL-Lite语言描述的本体以及它们的匹配基于构建规则编码到有向图中，由于决策空间上所有的更新操作均是在图上完成的，该算法的复杂度可以界定在

内，较之已有交互式方法更为高效，也有助于将交互式匹配修复方法扩展到大型本体；该方法能高效地利用专家已做出的决策，根据决策空间完成对未标识匹配弧的自动更新。具体来说，由专家赞同匹配所推演出来的匹配会被赞同；而那些能推演出专家拒绝的匹配或者引起图不协调的匹配则会被拒绝，继而减少了专家判断的次数。

实施例2：在实施例1的基础上，本实施例了一种本体匹配修复方法，本实施例的方法框架图如图1所示，初始化集成图的修正状态包括初始化正确匹配弧标识集合，具体包括：将两个本体所有的公理加入正确匹配弧标识集合中，并通过两条软化原则预先认定为可靠的匹配弧加入到正确匹配弧标识集合中，两条软化原则的具体定义如下：

原则1：可靠的匹配弧不应该造成集成图存在匹配弧之间逻辑冲突，所述逻辑冲突为存在至少1个基础概念D或者原子属性R为空集；需要说明的是，不造成“集成图”存在匹配弧之间的逻辑冲突，这里的集成图指集成图

或者集成图

，在其他实施例中除了在子图之间添加匹配弧构成匹配弧集合

，还包括根据本体之间的影响关系在两个子图之间增加影响弧构成影响弧集合

。具体增加影响弧的方法可参照本申请中其他实施例内容，这里不再赘述。

增加影响弧后，影响弧之间也不能产生逻辑冲突，所述逻辑冲突同样定义为存在至少1个基础概念D或者原子属性R为空集；

和匹配弧

需要相互支持，匹配弧相互支持(即相互关联)定义为：

与

之间的关系，和

与

之间的关系相同；

由规则1转换而来的节点，

，

分别为本体

中的基础概念

，

转换的节点,

，

分别为本体

中的基础概念

，

转换的节点，匹配弧

、

则是由规则7或者规则9转换而来。

该实施例的原始匹配和经两条软化原则处理后的匹配如表1所示。通过原则1可知匹配(常规作者 _i,作者 _j,

,0.8)与(

具有名字

,

具有名字

,

,0.8)是不可靠的匹配，因为它们会引起本体的不协调性。相对而言，(会议文档 _i,文档 _j,

,0.7)与(论文摘要 _i,摘要 _j,

,0.6)中的概念在对应的本体中存在（论文摘要 _i

会议文档 _i）与(摘要 _j

文档 _j)的公理声明，可以得知这两个匹配相互支持。此外，它们不会造成集成图

或者集成图

匹配弧之间逻辑冲突。因此它们同时满足上述两条软化原则，均为可靠的匹配。

表1 该实施例的原始匹配和经步骤3处理后的匹配

本实施例通过增加影响弧并采用软化原则预先认定部分“可靠”匹配，显著减少专家判断匹配的次数。

实施例3：在实施例2的基础上，本实施例中，可选地还包括：根据本体之间的影响关系在两个子图之间增加影响弧，所述影响弧构成影响弧集合

，所述影响弧记作

，增加影响弧后的集成图表示为

；所述扩展规则包括：

扩展规则1：对于每一个概念包含公理

，节点的集合N包含节点A、B、

、

、

，弧的集合E包含弧

、

，影响弧集合

包含

以及

；

扩展规则2：对于每一个概念包含公理

，节点的集合N包含节点A、B、

、

、

，弧的集合E包含弧

、

，影响弧集合

包含

以及

。

确定当前待决策匹配弧的方法包括：从剩余未标识匹配弧集合中选取综合影响函数值最大的匹配弧作为当前待决策匹配弧

其中

表示赞同影响，

表示否定影响，

表示通过运算

、

、

得到并且属于匹配弧集合

的匹配弧的数量；其中

表示执行蕴含算子的操作，记作

，

表示执行蕴含算子的操作，记作

，

执行冲突算子，记作

，

为剩余未标识匹配弧集合

中的匹配弧。

本实施例中，将具有最大影响的匹配弧提供给专家进行决策，定义综合影响函数来度量每个匹配在未决策之前的影响，匹配的影响主要包括基于该匹配所推演出来的匹配数量以及与它冲突匹配的匹配数量。在每次交互过程中，影响力最大的匹配将提供给专家来做出决定。如果匹配的关系是等价的，那么需要将其切分成两条匹配弧，再将这两者的影响力相加。本实施例考虑了匹配顺序对专家决策数目的影响，设计基于图的影响函数以寻找最合适的匹配提供给专家判断，从而进一步减少专家判断的次数。同时，该影响函数能动态地调节匹配的序列，较之静态影响函数的性能更好。

值得注意的是，具有最大影响的匹配弧并不一定是唯一的，可以通过匹配的权重进行进一步筛选。若匹配弧的综合影响等同于赞同影响，则选取权重最高的匹配弧，否则，选取权重最低的匹配弧。

本实施例中各次交互结果及自动更新结果如表2所示。第一列展示了交互的次数；第二列展示了由动态计算所得的各个匹配影响值，每次交互选取具有最大影响且未被标识的匹配弧提供给专家进行决策（在表格中已加粗显示）；第三列给出了专家的决策；最后两列分别展示了每次循环中推理得到的匹配以及未标识的匹配。除去步骤2中软化原则预先认定的2个匹配，本实施例中需要专家决策的共有5个匹配，其中有2个匹配是专家判定的，其余3个均是通过基于决策空间的赞同推理算法、基于决策空间的否定推理算法自动决策的。

表2本实施例中各次交互结果及自动更新结果

返回修复后的正确匹配。

作为本发明的一种改进方案，对于步骤4中匹配弧转换为匹配的具体方式为：对于匹配弧

，若

形如

，

形如

，则转换为

的形式，否则转换为

的形式，其中

为匹配弧的置信度，若同时存在

，

或者

，

，则统一转换为

或者

。

本实施例中修复后的正确匹配弧有<常规作者 _i,作者 _j>，<作者 _j,常规作者 _i>，<论 文的作者 _j,常规作者 _i >，<会议文档 _i,文档 _j>，<文档 _j,会议文档 _i>，<论文摘要 _i,摘要 _j>，<摘要 _j,论文摘要 _i>，可通过进步方案转换为原始匹配(常规作者 _i,作者 _j,

,0.8)，(论文的作 者 _j,常规作者 _i,

,0.7)，(会议文档 _i,文档 _j,

,0.7)，(论文摘要 _i,摘要 _j,

,0.6)并进行返回。

本发明提供的方法能在无任何信息损失下完成轻量级本体DL-Lite之间匹配的交互式修复。方法基于构建规则将DL-Lite语言描述的本体以及它们的匹配编码到有向图中，采用软化原则预先认定部分“可靠”的匹配，并考虑匹配顺序对专家决策数目的影响来设计基于图的影响函数以寻找最合适的匹配提供给专家判断。此外，根据专家在交互式过程中对匹配做出的各次决策，利用基于图的推理技术完成对未标识匹配的自动更新，从而显著地减少专家判断匹配的次数。

通过在国际本体匹配竞赛OAEI所关联的本体匹配修复任务的具体实验表明，该方法在节省专家的决策数目上是有效的，且优于已有的交互式匹配修复方法。

与以上实施例提供的一种本体匹配修复方法相对应地，本发明实施例还提供了一种本体匹配修复系统，其特征在于，包括：集成图构建模块、初始化模块、专家标识模块以及交互式本体匹配修复模块；

与冲突算子

；

进一步地，所述本体匹配修复系统还包括：待决策匹配弧确定模块，所述待决策匹配弧确定模块用于确定当前待决策匹配弧，具体执行的方法包括：从剩余未标识匹配弧集合中选取综合影响函数值最大的匹配弧作为当前待决策匹配弧

其中

表示赞同影响，

表示否定影响，

表示通过运算

、

、

得到并且属于匹配弧集合

的匹配弧的数量；其中

表示执行蕴含算子的操作，记作

，

表示执行蕴含算子的操作，记作

，

执行冲突算子，记作

，

为剩余未标识匹配弧集合

中的匹配弧。

在整个交互的过程中，通过待决策匹配弧确定模块从总匹配标识集合中选取具有最大影响且未被标识的匹配弧提供给专家进行决策。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种本体匹配修复方法，其特征在于，包括：将各个本体转换成该本体对应的图，所述本体对应的图包括由本体基础概念与原子属性通过转换规则转换而来的节点，以及该本体内部根据各本体基础概念与原子属性之间包含于关系转换得到的弧；所述集成图表示为

，其中N为节点集合，E为弧的集合，

为匹配弧集合，弧与匹配弧的表示均记作

，其中

为集成图中的节点，

；

将本体匹配转换为匹配弧，利用所述匹配弧连接两个子图形成一个集成图；初始化集成图的修正状态与决策空间，所述修正状态包括弧和匹配弧，所述匹配弧分为正确匹配弧标识集合和错误匹配弧标识集合；所述决策空间包括由修正状态计算得到的剩余未标识匹配弧集合、集成图推理的蕴含算子

与冲突算子

；

在交互式本体匹配修复过程中，当专家对当前待决策匹配弧对应的匹配给出赞同操作或者否定操作时分别启动基于决策空间的赞同推理算法或者基于决策空间的否定推理算法，对剩余未标识匹配弧集合中的匹配弧进行标记；

2.根据权利要求1所述的一种本体匹配修复方法，其特征在于，根据本体转换规则将各个本体转换成该本体对应的图，所述本体转换规则包括：

规则1：对于公理集合T中的每个原子概念C，将原子概念C转换为节点A，节点集合N包含节点A，其中公理集合T为

规则2：对于公理集合T中的每个原子属性R，

为原子属性R的逆操作；

为原子属性R值域的取值概念；

转换为节点

；将原子属性R值域的取值概念

转换为节点

，将原子属性R定义域的取值概念

转换为节点

，N包含节点P、

、

以及

；

规则3：对于公理集合T中的每一条基础概念包含公理

，弧的集合E包含弧

，

分别为基础概念

和基础概念

转换的节点，“

”为“包含于”关系；

规则4：对于公理集合T中的每一条基础概念包含公理

，弧的集合E包含弧

，

表示基础概念

的否定

转换的节点；

规则5：对于公理集合T中的每一条角色包含公理

，弧的集合E包含弧

、

、

以及

；

、

分别为原子属性

转换的节点和原子属性

转换的节点，

为原子属性

的逆操作

转换的节点，

为原子属性

的逆操作

转换的节点，

为原子属性

值域的取值概念

转换的节点，

为原子属性

值域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点，

为原子属性

定义域的取值概念

转换的节点；

规则6：对于公理集合T中的每一条角色包含公理

，弧的集合E包含弧

、

、

、

，

为原子属性

的否定

转换的节点，

为原子属性

的逆操作的否定

转换的节点，

为原子属性

值域的取值概念的否定

转换的节点，

为原子属性

逆操作后值域的取值概念的否定

转换的节点。

3.根据权利要求2所述的一种本体匹配修复方法，其特征在于，利用匹配的转换规则将本体匹配转换为匹配弧，所述匹配的转换规则包括：

规则7：对于每一个基础概念匹配

，在匹配弧集合

上增加一条弧

；

为本体

中的基础概念

转换的节点，

为本体

中的基础概念

转换的节点，

表示本体

中的基础概念

包含于本体

中的基础概念

的置信度为

；

规则8：对于每一个基础概念匹配

，在匹配弧集合

上增加一条弧

，

表示于本体

中的基础概念

包含于本体

中的基础概念

的置信度为

；

规则9：对于每一个基础概念匹配

，在匹配弧集合

上增加两条弧与

、

，

表示本体

中的基础概念

与本体

基础概念

是等价关系的置信度为

；

规则10：对于每一个原子属性匹配

，在匹配弧集合

上增加四条弧

、

、

以及

，

为本体

中的原子属性

转换的节点，

本体

中原子属性

转换的节点,

表示本体

中的原子属性

的逆操作

转换的节点，

表示本体

中原子属性

的逆操作

转换的节点，

表示本体

中的原子属性

值域的取值概念

转换的节点，

表示本体

中原子属性

值域的取值概念

转换的节点，

表示本体

中原子属性

定义域的取值概念

转换的节点，

表示本体

中原子属性

定义域的取值概念

转换的节点；

表示本体

中的原子属性

包含于本体

中原子属性

的置信度为

；

规则11：对于每一个原子属性匹配

，在匹配弧集合

上增加四条弧

、

、

以及

；

表示本体

中的原子属性

包含于本体

中的原子属性

的置信度为

；

规则12：对于每一个原子属性匹配

，在匹配弧集合

上增加八条弧

、

、

、

、

、

、

以及

，

表示本体

中的原子属性

与本体

中原子属性

是等价关系的置信度为

。

4.根据权利要求3所述的一种本体匹配修复方法，其特征在于，

所述集成图的修正状态表示为三元组

，其中

为正确匹配弧标识集合，

为错误匹配弧标识集合，

，

并且

；如果

，

其中

，它表示基于正确匹配弧标识集合进行集成图的传递必包操作；

对于

有

，它表示基于错误匹配弧标识集合进行集成图的传递必包操作，

和

为匹配弧集合

中匹配弧的通用表示，

和

为两条不同的匹配弧，

表示根据集合执行集成图的传递必包操作,

泛指集成图中弧或者匹配弧集合，

表示根据集合

执行集成图的传递必包操作；

当修正状态呈现闭包状态不再发生改变时，则基于决策空间的交互式本体匹配修复过程完成。

5.根据权利要求4所述的一种本体匹配修复方法，其特征在于，所述集成图的决策空间表示为：

，

其中

表示剩余未标识匹配弧集合，

，“

”表示集合的差集操作，

所述蕴含算子

的定义为：若匹配弧

蕴含匹配弧

，记作

，当且仅当

成立；

所述冲突算子

的定义为：若匹配弧

与匹配弧

冲突，记作

，

当且仅当对于错误匹配弧标识集合

中的某一条匹配弧

使得

成立，

为匹配弧集合

中匹配弧的通用表示，匹配弧

为与匹配弧

和匹配弧

不同的匹配弧。

6.根据权利要求5所述的一种本体匹配修复方法，其特征在于，

所述基于决策空间的赞同推理算法包括：输入为修正状态

、决策空间

和当前被专家赞同的匹配所转换的匹配弧

，将匹配弧

加入至正确匹配弧标识集合

中；循环遍历剩余未标识匹配弧集合

，对于剩余未标识匹配弧集合

中各未标识的匹配弧

，利用蕴含算子

确定若匹配弧

包含于正确匹配弧标识集合

的传递必包中，则说明匹配弧

蕴含匹配弧

，则将匹配弧

自动更新为正确的匹配弧加入正确匹配弧标识集合

中，更新剩余未标识匹配弧集合

；循环遍历错误匹配弧标识集合

中的匹配弧

，对于剩余未标识匹配弧集合中各未标识的匹配弧

，利用冲突算子

确定若匹配弧

属于

的传递必包中或造成集成图存在匹配弧之间逻辑冲突，所述逻辑冲突为存在至少1个基础概念D或者原子属性R为空集，记作

或者

，则将匹配弧

自动更新为错误的匹配弧，加入错误匹配弧标识集合

中；最后返回更新后的决策空间，同时更新修正状态；

所述基于决策空间的否定推理算法包括：输入为修正状态

、决策空间

和当前被专家否定的匹配所转换的匹配弧

，首先将匹配弧

加入至错误匹配弧标识集合

中各未标识的匹配弧

，利用所述蕴含算子

确定若匹配弧

包含于

的传递必包中，则说明匹配弧

蕴含匹配弧

，则将匹配弧

自动更新为错误的匹配弧，加入错误匹配弧标识集合

中；最后返回更新后的决策空间，同时更新修正状态。

7.根据权利要求6所述的一种本体匹配修复方法，其特征在于，基于扩展规则，根据本体之间的影响关系在两个子图之间增加影响弧，所述影响弧构成影响弧集合

，所述影响弧记作

，增加影响弧后的集成图表示为

；

所述扩展规则包括：

扩展规则1：对于每一个概念包含公理

，节点集合N包含节点A、B、

、

、

，弧的集合E包含弧

、

，影响弧集合

包含

以及

，其中A为原子概念C转换的节点，B为基础概念D转换的节点,

为原子属性R值域的取值概念

转换的节点，

为原子属性R定义域的取值概念

转换的节点，

表示与原子概念C存在原子属性R关系的概念集合

转换的节点；

扩展规则2：对于每一个概念包含公理

，节点集合N包含节点A、B、

、

、

，弧的集合E包含弧

、

，影响弧集合

包含

以及

，其中，

表示与原子概念C存在原子属性R的逆操作关系的概念集合

转换的节点。

8.根据权利要求7所述的一种本体匹配修复方法，其特征在于，确定当前待决策匹配弧的方法包括：从剩余未标识匹配弧集合中选取综合影响函数值最大的匹配弧作为当前待决策匹配弧

其中

表示赞同影响，

表示否定影响，

表示通过运算

、

、

、得到并且属于匹配弧集合

的匹配弧的数量；其中

表示执行蕴含算子的操作，记作

，

表示执行蕴含算子的操作，记作

，

执行冲突算子，记作

，

为剩余未标识匹配弧集合

中的匹配弧。

9.根据权利要求3所述的一种本体匹配修复方法，其特征在于，初始化集成图的修正状态包括初始化正确匹配弧标识集合，具体包括：将两个本体所有的公理加入正确匹配弧标识集合中，并将通过两条软化原则预先认定为可靠的匹配弧加入到正确匹配弧标识集合中，两条软化原则的具体定义如下：

或者

；

原则2：可靠的匹配弧应至少关联1个可靠的匹配弧，匹配弧

和匹配弧

相互关联的定义为：对应的

与

之间的关系，和

与

之间的关系相同；

，节点

由规则1转换而来的节点，

为本体

中的基础概念

转换的节点，

为本体

中的基础概念

转换的节点，

为本体

中的基础概念

转化的节点，

为本体

中基础概念

转换的节点，匹配弧

、

则是由规则7或者规则9转换而来。

10.一种本体匹配修复系统，其特征在于，包括：集成图构建模块、

初始化模块、专家标识模块以及交互式本体匹配修复模块；

所述集成图构建模块，用于将各个本体转换成该本体对应的图，将本体匹配转换为匹配弧，利用所述匹配弧连接两个子图形成一个集成图；所述本体对应的图包括由本体基础概念与原子属性通过转换规则转换而来的节点，以及该本体内部根据各本体基础概念与原子属性之间包含于关系转换得到的弧；所述集成图表示为

，其中N为节点集合，E为弧的集合，

为匹配弧集合，弧与匹配弧的表示均记作

，其中

为集成图中的节点，

；

与冲突算子

；