CN108536796A

CN108536796A - 一种基于图的异构本体匹配方法及系统

Info

Publication number: CN108536796A
Application number: CN201810282167.XA
Authority: CN
Inventors: 王柯翔; 穗志方
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2018-09-14
Anticipated expiration: 2038-04-02
Also published as: CN108536796B

Abstract

本发明公布了一种异构本体的匹配方法及系统，基于关联空间和图的谱半径，通过确定关联空间、建立关联空间上的图、以图的谱半径减小作为标准选择匹配对，获得正确的匹配对；基于图的异构本体的匹配系统包括关联空间模块、构图模块和匹配模块；构图模块具体包括文本相似性计算子模块、结构一致性计算子模块和边权值赋值子模块；从而实现基于关联空间和图的谱半径的异构本体匹配。本发明技术方案较好地解决了异构本体匹配问题，易实现、精度高、效果好。

Description

一种基于图的异构本体匹配方法及系统

技术领域

本发明属于信息处理领域，涉及本体和本体匹配，尤其涉及一种基于图的异构本体匹配的方法和系统。

背景技术

信息处理领域中的本体可以看作是通用和专用知识的资源集合，本体为诸如信息抽取和自然语言处理等人工智能应用提供了丰富的知识，奠定了扎实的基础。近些年来，本体被越来越多地应用于其它领域，达到了系统整体智能化的目的。本体包括了对一个知识或技术领域的概念性定义，组成部分为实体和实体间的关系。一般来说，本体中的实体有三类，即为类实体、属性实体和个体实体；本体中的关系描述了实体间的相互关系，例如类的上下位关系、类和属性的包含关系、属性和定义域类的包含关系以及属性和值域类的包含关系等。为方便知识共享和信息传播，要求相关领域的不同本体能够进行有效地链接或融合，方便信息使用者在整体上对该领域的知识有准确的掌握。由于不同本体基于的构建准则不同(彼此之间为异构本体)，导致相同的概念在不同本体中的命名或描述等往往存在较大的差异。这阻碍了我们对描述同一概念的实体的识别，导致难以进行异构本体的融合操作。例如，对于中文维基百科和百度百科而言，“苹果公司”在两个异构本体中分别对应两个实体，它们的命名和描述存在差异。如果缺乏正确识别这两个本体间表征相同概念实体的工具，本体融合得到的大型本体中将含有表征同一概念的冗余实体。为此，如何自动准确地搭建异构本体间的桥梁，特别是识别异构本体间表征相同概念的实体，成为了解决本体链接或融合问题的关键。在实际的大规模本体系统中，由于实体数量庞大，单纯的手工识别显然是不现实的，对于异构本体自动高效匹配的需求也愈发紧迫。

异构本体匹配能够为两个或多个异构本体的实体自动地找到匹配关系，将一个本体中的实体匹配到另一个本体中的实体，输出相应的匹配对。匹配对是异构本体匹配任务的输出，具体地指定了一个本体中的实体到另一个本体中的实体的语义匹配关系，包括：等价关系、包含关系等。如果有了成熟的、精度高的异构本体匹配工具，实际本体系统的链接和融合操作也能得到很好地解决。

目前，异构本体匹配的常用方法主要分为两类：文本匹配方法和结构匹配方法。文本匹配方法主要关注于本体中实体附带的文本信息(例如命名、标签、评论等)，通过文本的语义对应完成实体间的匹配；结构匹配方法则主要关注本体被视作一个图所具备的结构信息(例如节点之间的连边、节点组成的聚类等)，通过结构的相似性找到匹配的实体对。但是，这两种方法在很多情况下并不能精准地识别出匹配对，其不足主要表现在：

(一)本体中的实体可能缺失文本信息。对于文本匹配方法而言，一旦实体的文本不全或缺失时，方法的精度会受到较大的负面影响；

(二)文本匹配方法需要借助较深层次的语言分析方法。异构本体匹配需识别出异构本体中具有语义匹配关系的实体对，这导致对实体的文本信息需要进行语义分析。根据计算语言学的相关研究，语言分析按照由浅入深的顺序可以粗略地分为词汇分析、句法分析、语义分析、语用分析等阶段。可以看出，文本匹配方法基于的语义分析处于语言分析中较为深层次的阶段。而语义分析的现成方法和工具精度较差，且分析速率也不高，这限制了文本匹配方法的精度；

(三)现有的结构匹配方法往往仅使用了本体的局部结构信息，例如：节点拥有的度数、节点的邻居节点拥有的度数、节点所在的聚类等。这些都可以看作是图的局部结构信息的反映。；本体的全局结构信息的缺失导致结构匹配方法的精度受到较大的影响；

(四)结构匹配方法难以融合本体中实体的文本信息。结构匹配方法将本体视为一张由节点和边组成的图，这导致实体的文本信息较难自然地引入这个图结构。如果欠缺了本体中实体的文本信息，仅凭借本体的结构信息，异构本体匹配的精度也会受到较大的负面影响。

发明内容

为了克服上述现有方法的不足，本发明提供一种基于关联空间和图的谱半径的本体匹配方法和系统，综合考虑本体中实体的文本信息和本体的结构信息。具体而言，本发明通过建立关联空间上的图，采用基于图的谱半径的匹配方法，在关联空间中选择代表匹配对的节点，来解决匹配问题。本发明易实现、精度高、效果好。

本发明中，关联空间由两个本体间所有有效的匹配对所组成。有效的匹配对指的是满足规定的匹配对，即要求构成一个匹配对的两个实体同为类实体或属性实体。将关联空间中的每个匹配对看作一个节点，节点之间存在边相连，边的权重融合了本体中实体的文本信息和本体的结构信息。识别匹配对的过程就是在由关联空间构成的这样一张无向的、带权重边的图上完成的。具体的匹配过程是在图上找到代表潜在正确的匹配对的节点。正确的匹配对指的是构成这个匹配对的两个实体确实表征了同样的概念。这个问题可以转化为在关联空间构成的图上发现重要节点的问题，进而可以转化为删除图上重要的节点使得图的谱半径尽可能减小的问题。而异构本体匹配的一对一匹配限制可以作为挑选节点所遵循的条件，融合进基于图的谱半径的匹配算法中。

本发明将本体匹配问题转化为在关联空间中选择重要节点的问题，将文本匹配方法和结构匹配方法分别基于的实体文本信息和本体结构信息融合进了由关联空间构成的无向的、带权重的图中，且通过删除图上重要的节点使得图的谱半径尽可能减小的标准来设计匹配算法。首先，针对给定的两个本体，找出所有有效的匹配对，组成关联空间。接着，将关联空间中的匹配对看作节点，节点之间边的权重采用匹配对间的结构一致性和匹配对的文本相似性进行计算，得到融合了实体文本信息和本体结构信息的图。最后，在图上通过找到其删除会导致图的谱半径尽可能减小的节点集合，作为选择的匹配对，并将与已选出的匹配对相矛盾的匹配对从选择范围内剔除，使得一对一的匹配限制能够得到满足。关联空间的引入能够将问题的考查范围一开始就限定为所有有效的匹配对构成的空间，而基于关联空间建立的图能够同时反映原来两个本体中的实体文本信息和本体的结构信息。通过将图的谱半径的减小作为对图上节点的重要性的判断，能够借助于图的谱半径携带的图的全局结构信息来更好地识别正确的匹配对，且提出的匹配算法能够满足异构本体匹配的一对一匹配限制。

本发明适用于如下的异构本体匹配情形：

(1)两个本体间的匹配；

(2)只允许形成实体间一对一的匹配(一对一的匹配限制)；

(3)只允许相同类型的实体间的匹配，例如类实体与类实体的匹配、属性实体与属性实体的匹配；

(4)语义匹配关系是等价关系。

本发明提供的技术方案是：

一种基于关联空间和图的谱半径的异构本体匹配方法，包括确定关联空间的阶段、建立关联空间上的图的阶段和以图的谱半径减小作为标准选择匹配对的阶段。具体来说，本发明的技术方案包括如下步骤：

1)在确定关联空间的阶段，针对给定的两个本体，找出所有有效的匹配对，组成关联空间；

本发明中，本体是通用和专用知识的资源集合，包括对一个知识或技术领域的概念性定义、组成部分为实体和实体间的关系。本体中的实体包括三类，分别为类实体、属性实体和个体实体；本体中的关系描述了实体间的相互关系。例如，可将中文维基百科知识库、百度百科知识库看作本体。本体的链接或融合能够将数个小型本体聚合为一个大型本体，方便信息的集中存储和使用。

具体地，针对给定的两个本体，抽取出所有的类实体和属性实体，并统计实体各自的数量，进而找出组成关联空间的所有有效的匹配对(组成一个匹配对的两个实体同为类实体或属性实体)。

2)建立关联空间上的图的阶段；

将关联空间中的每个有效的匹配对作为图上的一个节点，节点之间存在边相连，边的权重融合了本体中实体的文本信息和本体的结构信息，由此建立的关联空间上的图为无向的、带权重边的图。

节点之间边的权重的计算步骤为：

21)计算关联空间中构成每一个有效的匹配对的两个实体的文本相似性；

22)结合匹配对间的结构一致性来赋予图上的边的权重；

3)在以图的谱半径减小作为标准选择匹配对的阶段，采用基于图的谱半径的匹配方法，通过在关联空间中选择代表匹配对的节点，实现本体匹配；

异构本体匹配的问题可以转化为在步骤2)建立的图上选择重要节点的问题，重要节点代表的匹配对为潜在正确的匹配对。重要节点的影响可以采取从图上删除节点导致的图的谱半径的减小量来衡量。具体的选择过程为，每一轮选择一个节点(即一个匹配对)，当下一轮选择节点的时候需不考虑与上一轮选择的节点(已经找出的匹配对)相矛盾的节点，直到识别出所有潜在正确的匹配对为止。

针对匹配两个本体O¹和O²的情况，输出的匹配对可以形式化地表示为一个四元组：

m＝＜e¹,²,r,v＞ (式1)

其中，e¹和e²代表本体O¹和O²中匹配的实体，r是e¹和e²之间的语义匹配关系，v∈[0,1]是匹配对m的置信度，代表系统对每一个匹配对为潜在正确匹配对的确认程度。本发明中，e¹和e²为相同类型的实体(类实体或属性实体)，r为等价关系，v的取值设为1(即系统默认所有找到的匹配对为潜在正确的匹配对)。同时匹配对m需要满足一对一的匹配限制，即：e¹或e²在O²或O¹中至多有一个匹配成功的实体(即定义在匹配对的实体空间上的函数是单射函数)。

针对上述基于关联空间和图的谱半径的异构本体匹配方法，进一步地，步骤1)所述的两个本体间所有有效的匹配对的数量与两个本体各自拥有的类实体数量和属性实体数量有关。具体来说，给定O¹和O²两个本体，假设类实体数量分别为c₁和c₂，属性实体数量分别为p₁和p₂，则O¹和O²间所有有效的匹配对的数量为c₁×c₂+p₁×p₂。这些有效的匹配对组成了关联空间。

针对上述基于关联空间和图的谱半径的异构本体匹配方法，进一步地，步骤2)所述的在关联空间上建立图的操作需同时考虑原本体中实体的文本信息和本体的结构信息。实体的文本信息的引入由步骤21)体现，本体的结构信息的引入由步骤22)体现。

步骤21)中，计算匹配对中的两个实体文本相似性的方法采用向量化的方式，将每个实体的文本表示为一个向量，再计算两个向量之间的余弦相似度作为文本相似性的度量。实体的文本信息包含对实体的所有描述信息，例如：命名、标签、评论等。实体文本的向量化方法可以有很多种待选的方案，例如：Term Frequency-Inverse Document Frequency(tf-idf)向量、通过学习语料库而获得的向量等。本发明具体实施采用tf-idf向量的方式。将两个本体中所有实体的文本进行抽取，每一个实体的文本组成一篇文档，所有实体的文本组成一个大的文档集合。首先，将文档进行预处理的操作，包括：去停用词、词干化(适用于英文文本)等。然后统计文档集合出现的所有词汇，每一个词汇对应tf-idf向量的一维，向量的维数等于文档集合中词汇的数量。对于特定的一个实体的文档，向量第i维的tf值为对应的第i个词汇在这个文档中出现的频次，第i维的idf值为对应的第i个词汇至少出现一次的所有实体文档数量的倒数，第i维的tf值和idf值的乘积作为tf-idf向量的第i维。由此可为每一个实体的文本建立tf-idf向量化表示。实体i和实体j间的文本相似性可由下式计算：

其中，sim＜i,j＞为实体i和实体j间的文本相似度，v_i和v_j分别为实体i和实体j的tf-idf向量，N为tf-idf向量的维度，p∈[1,N]为v_i向量和v_j向量中元素的下标。

步骤22)所述的匹配对间的结构一致性指的是构成两个匹配对的两组实体具有相同的本体结构，例如：类实体-子类实体，类实体-它的属性实体，属性实体-它的定义域类实体，属性实体-它的值域类实体。例如，给定两个匹配对m₁＝＜e¹¹,e¹²,r₁,v₁＞和m₂＝＜e²¹,e²²,r_2,v₂＞，假设在O¹中的实体e¹¹和e²¹分别代表类实体和子类实体，在O²中的实体e¹²和e²²也分别代表类实体和子类实体，则m₁和m₂具有结构一致性。如果两个匹配对具有结构一致性，则代表这两个匹配对的图上节点的连边将拥有较大的权值，为exp(sim＜e¹¹,e¹²＞/2+sim＜e²¹,e²²＞/20(其中exp()为e的指数函数，e为自然对数的底)；否则，连边将拥有较小的权值，为1/(c₁×c₂+p₁×p₂)。这样做可以进一步地凸显与更多匹配对具有结构一致性的匹配对更可能是潜在正确的匹配对的事实。如上所述，设置连边权值时也需要将构成两个匹配对的两组实体的文本相似性进行考虑，即是说，连边权值是两组实体的文本相似性的函数(单调递增函数)。因此，步骤2)在关联空间上建立的图能够同时考虑本体中实体的文本信息和本体的结构信息，为后续步骤3)选择正确的匹配对提供了关于本体更加全面的信息。

针对上述基于关联空间和图的谱半径的异构本体匹配方法，进一步地，步骤3)所述的选择匹配对的过程换言之是在步骤2)已建立的图上选择重要节点的过程。选择节点的时候基于这样的认识：在步骤2)已建立的图上，潜在正确的匹配对节点之间往往会形成权值较大的连接，在图上占据主导性的地位；错误的匹配对节点与其他节点的连边权值会较小，在图上处于边缘性的地位。图上的重要节点与图的谱半径(图的邻接矩阵的最大特征值)具有紧密的联系。删除节点集合导致图的谱半径的减小量正好可以反映该节点集合对于图结构的重要程度。因此，识别正确匹配对的问题可以转化为在图上选择重要节点的问题，而这些节点的删除会造成图的谱半径减小得最多。假设步骤2)建立的图为G，则识别潜在正确匹配对的问题为在图G上找到这样的节点集合S^*：

S^*＝argmax_|s|＝kΔλ＝argmax_|s|＝k[λ(G)-λ(G\S)] (式3)

其中，S^*为找到的节点集合，S为满足|S|＝k的节点集合，argmax为求最大值对应的自变量的运算，λ为图的谱半径，Δλ为图的谱半径的减小量，G\S是图G删除集合S中节点得到的图(同时删除S中节点的所有连边)，k是潜在正确匹配对的数量。式3是一个关于图的谱半径的优化问题。对于较大规模的本体而言，关联空间中所有有效的匹配对数量会很大，因此图上节点的数量也会很大。图的谱半径的计算复杂度是跟图的规模有关的，较大规模的图的谱半径不容易求取，这导致计算图的谱半径的减小量对于较大规模的图来说也是一个困难的问题。本发明基于矩阵的扰动理论，对图的谱半径的减小量Δλ给出如下的近似值：

Δλ≈2λ(G)∑_i∈s(u_i)²-∑_i,j∈su_iA_iju_j (式4)

其中，Δλ为从图G到图G\S的谱半径的减小量，λ为图的谱半径，S为删除的节点集合，A是无向的、带权重的图G的邻接矩阵，u是矩阵A对应于λ(G)的特征向量，i和j为u向量中元素的下标(同时也为S中的节点元素)。根据式4，可以在线性的时间复杂度内近似地计算得到集合S的删除会造成图G的谱半径的减小量Δλ。针对提出的图的谱半径的优化问题，按照式4可以采取基于迭代和贪心的策略来进行近似求解。在算法的每一轮，只识别一个匹配对，作为结果输出；每轮选择节点的时候，比较每个待选节点的加入导致图的谱半径的减小量，选择使得谱半径减小最多的那个节点作为本轮选择的节点。为了考虑异构本体匹配的一对一匹配限制，算法每一轮选出一个节点后需要将与这个节点代表的匹配对相矛盾的那些匹配对剔除出算法的选择范围。本发明剔除掉和选出的匹配对在两个本体中拥有相同实体的那些匹配对。例如，本轮选出的匹配对为m₁＝＜e¹¹,e¹²,r_1,v₁＞，对于另一个匹配对m₂＝＜e²¹,e²²,r_2,v₂＞而言，假设e¹¹＝e²¹或e¹²＝e²²，则算法需要剔除与m₁矛盾的匹配对m₂。这样能够保证算法每轮选出的匹配对彼此不矛盾，即满足一对一匹配限制。当再无可选择的节点时，算法停止，将找到的节点代表的匹配对作为异构本体匹配的输出(式1中r为等价关系，v设为1)。由此得到的匹配算法的时间复杂度和空间复杂度均较低，能够处理大型异构本体的匹配问题。

本发明还提供一种基于图的异构本体匹配系统，包括关联空间模块、构图模块和匹配模块；其中：

A.关联空间模块用于抽取原来两个本体中的所有类实体和属性实体，组合为有效的匹配对，构成关联空间。在实体抽取的过程中，需要同时将实体附属的各信息进行抽取，例如实体的文本信息(命名、标签、评论等)、类实体的子实体或父实体信息、类实体的属性实体信息和属性实体的定义域类实体和值域类实体信息等。具体实施时，如果从原来两个本体中抽取的两个实体的实体类型一致，则是一个有效的匹配对。(具体来说，如果本体O¹和O²包括类实体的数量分别为c₁和c₂，属性实体的数量分别为p₁和p₂，则需要关联空间的所有有效匹配对的数量为c₁×c₂+p₁×p₂。)

B.构图模块用于在关联空间上建立反映本体实体的文本信息和本体的结构信息的图。针对关联空间模块抽取出的每个待选匹配对，在图上建立一个节点，节点之间连边的权值反映本体实体的文本信息和本体的结构信息。具体实施时，节点间连边的权值为匹配对实体的文本相似性和匹配对的结构一致性的函数。构图模块具体包括三个子模块：文本相似性计算子模块、结构一致性计算子模块和边权值赋值子模块。其中：

文本相似性计算子模块用于对给定的两个相同类型的实体计算其文本相似性，其输出作为边权值赋值模块的输入。本体中的实体包含丰富的文本信息，例如命名信息、标签信息、评论信息等。具体实施时，首先为实体的文本建立向量化表示，再将两个向量的余弦相似度作为两个实体的文本相似性的度量。(实体文本的向量化表示采用的是tf-idf向量表示，tf值为向量当前维对应的单词在该实体文本中出现的次数，idf值为单词出现至少一次的所有实体文本数量的倒数，向量第i维的值为对应的tf值和idf值的乘积。采用gensim工具包为本体中的实体建立tf-idf向量表示，gensim可从该链接(https://radimrehurek.com/gensim/)进行下载和安装。同时，为得到实体文本的更准确表示，自然语言处理领域对英文单词的常见基本操作需要在建立tf-idf向量之前完成，例如：去停用词、词干化等。工具包nltk能够完成上述的操作，nltk可从该链接(http://www.nltk.org/)进行下载和安装。当得到所有实体文本的tf-idf向量化表示后，可为关联空间中的每一个有效的匹配对计算其组成实体的文本相似性。)

结构一致性计算子模块用于对给定的两个有效匹配对计算其结构一致性，模块的输出作为边权值赋值模块的输入。本体具有丰富的层级结构信息，可以辅助匹配模块的功能。本发明实施例针对给定的两个匹配对m₁＝<e₁₁,e₁₂＞和m₂＝＜e₂₁e₂₂＞，考察e₁₁、e₂₁和e₁₂、e₂₂之间的结构一致性。具体考察如下的6种层级结构：类实体-子类实体、类实体-它的属性实体、属性实体-它的定义域类实体、属性实体-它的值域类实体、共享同一父类实体的两个子类实体、属于同一个类实体的两个属性实体。如果e₁₁、e₂₁具有上述的某一种层级结构，同时e₁₂、e₂₂也具有相同的层级结构，则m₁和m₂的结构一致性为1；否则，m₁和m₂的结构一致性为0。结构一致性计算模块为关联空间中所有有效匹配对的两两组合计算其结构一致性。

边权值赋值子模块用于对图上节点的连边进行权值赋值操作。关联空间上的图需要反映原本体中实体的文本信息和本体的结构信息。本发明实施例规定图的边权值为匹配对实体的文本相似性和匹配对的结构一致性的单调非递减函数。边权值赋值模块承接前序文本相似性计算模块和结构一致性计算模块的输出，得到关联空间上的一张无向的、带权重的图。

C.匹配模块用于以图的谱半径为准则在构图模块输出的图上选择节点。图上的节点代表待选的匹配对，异构本体匹配选择潜在正确匹配对的问题可以转化为在关联空间的图上根据谱半径的减小量选择节点的问题，同时需要融入异构本体匹配的一对一匹配限制。本发明具体实施时，采用基于矩阵一阶扰动理论的谱半径减小量的近似计算方式，具体参见公式4。在每轮中比较节点的删除将对这个谱半径的近似值造成的影响程度，选择造成谱半径的近似值减小得最多的节点。当待选匹配对为空时，匹配模块输出选择的所有k个匹配对。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于关联空间和图的谱半径的本体匹配方法，针对本体匹配问题，通过将匹配问题转化为在关联空间中选择代表匹配对的节点问题和将节点删除导致的图的谱半径的减小量作为选择图上节点的标准，用统一的、规范的框架给出了本体匹配问题的解决方案。本发明的特点包括：

(1)引入关联空间将异构本体匹配的问题转化为在关联空间中选择匹配对的问题；

(2)建立关联空间上的图同时考虑了本体中实体的文本信息和本体的结构信息，综合了本体更全面的信息辅助异构本体匹配过程；

(3)图上节点的选择采取了节点集合的删除导致图的谱半径的减小量作为标准，给出了谱半径减小量的近似计算方式；

(4)基于图的匹配算法基于迭代和贪心的策略，每一轮选择一个匹配对，且剔除与之相矛盾的匹配对，保持异构本体匹配的一对一匹配限制。

与现有技术相比，本发明为异构本体匹配提出了基于关联空间的转化方式和基于图的谱半径的匹配算法，具有整体框架清晰、数学原理扎实的特点。本发明所提出的技术方案适用的场景为匹配两个本体，且本体包含的实体(类实体和属性实体)的数量可以不均等。本发明易实现、精度高、效果好，相应的系统效果出众，在OAEI标准书目本体评测集(http://oaei.ontologymatching.org/2012/benchmarks/index.html#datasets)中成绩优异，较好地解决了异构本体匹配问题。

附图说明

图1是本发明提供的基于图的异构本体匹配方法的流程框图。

图2是本发明实施例提供的基于图的异构本体匹配系统的结构框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于图的异构本体匹配方法和系统，针对异构本体的匹配问题，通过关联空间的转化过程和基于图的谱半径的匹配过程来达到提高本体匹配精度的目的；其中，关联空间的转化过程将所有有效的匹配对纳入考虑范畴，能够同时考虑本体中实体的文本信息和本体的结构信息；基于图的谱半径的匹配过程将节点集合删除导致的图的谱半径的减小量作为选择匹配对的标准，按照迭代的方式逐一选择匹配对，每轮选择匹配对时不考虑与已经选出匹配对相矛盾的匹配对。

以下实施例采用本发明方法对异构的书目本体进行匹配。OAEI提供的标准书目本体评测集提供了若干异构本体匹配的问题，每一个问题的输入为两个给定的异构本体，包括本体中实体的文本信息和本体的结构信息，需要异构本体匹配系统自动地对两个本体的匹配对进行识别。书目本体描述了常见书籍的品种、类型和书籍具有的作者、出版社等信息，但书目本体本身的构建原则可能存在差异，例如对于书籍类型采用了不同的分类方式，所以需要对异构的书目本体进行匹配。图1是本发明提供的基于图的异构本体匹配方法的流程框图。如图1所示，本发明方法包括确定关联空间的过程、建立关联空间上图的过程和基于图的谱半径的匹配过程，结合OAEI的异构书目本体匹配具体分述如下：

(1)在确定关联空间的过程中，所有有效的匹配对由两个本体中相同类型的实体组成。对于给定的两个书目本体，抽取出它们各自的类实体(如自传类实体、小说类实体)和属性实体(作者属性实体、出版ISBN属性实体)，两两组合为有效的匹配对，构成关联空间；

(2)在建立关联空间上图的过程中，将关联空间的每一个匹配对作为节点，节点之间有边相连，边的权重由边的两个顶点代表的匹配对的文本相似性和结构一致性所共同决定。匹配对的文本相似性由表示文本的向量之间的余弦相似度计算得到，匹配对的结构一致性考察的是两个匹配对在原本体上是否拥有相同的层级结构；

(21)通过表示文本的向量计算组成一个匹配对的两个实体的文本相似性；

在本发明实施例中，采用实体文本的tf-idf向量表示，通过计算两个实体文本的tf-idf向量的余弦相似度(见式2)，得到两个实体的文本相似性；

(22)遍历有效匹配对的两两组合，对比两个匹配对在原本体上是否具有相同的层级结构，赋予代表匹配对的节点之间连边的权值；

在本发明实施例中，考察书目本体层级结构的如下情况：父类实体-子类实体，类实体-属性实体，属性实体-定义域类实体，属性实体-值域类实体，具有共同父类的两个子类实体，隶属于同一类实体的两个属性实体。如果两个匹配对在书目本体中拥有如上的相同层级结构，则这两个匹配对具有结构一致性；否则，不具有结构一致性。赋予代表匹配对的节点间连边权值的过程如下所示：

针对匹配对m₁＝＜e¹¹,e¹²,r₁,v₁＞和m₂＝＜e²¹,e²²,r₂,v₂＞，e¹¹和e¹²之间的文本相似性为sim＜e¹¹,e¹²＞，e²¹和e²²之间的文本相似性为sim＜e²¹,e²²>。如果e¹¹、e²¹和e¹²、e²²具有上述的结构一致性，则代表m₁和m₂的图上两节点间连边的权值为exp(sim＜e¹¹,e¹²＞/2+sim＜e²¹,e²²＞/2)；否则，权值为1/(c₁×c₂+p₁×p₂)。

(3)在基于图的谱半径的匹配过程中，采取节点集合删除导致图的谱半径的减小量作为选取匹配对的标准，同时融合异构本体匹配的一对一匹配限制。

在本发明实施例中，采取基于矩阵扰动理论得到的谱半径减小量的近似方式。匹配过程基于迭代，每一轮找到一个潜在正确的匹配对，一共运行k轮，找到k个潜在正确的匹配对。在每一轮中，比较当前待选的匹配对的加入导致图的谱半径减小量的近似值，选择能最大程度减小谱半径的匹配对作为当前轮的结果，同时从匹配对的待选范围中删除与这个匹配对相矛盾的所有匹配对。矛盾的匹配对指的是那些与当前选取的匹配对有且仅有一个相同实体的匹配对。当匹配对的待选范围为空时，匹配过程结束，输出结果为k个潜在正确的匹配对(其置信度v设为1)。

图2是本发明实施例提供的基于图的异构本体匹配系统的结构框图。基于图的异构本体匹配系统包括关联空间模块、构图模块和匹配模块。针对各模块进一步叙述如下：

关联空间模块

关联空间模块的功能是抽取原来两个本体中的所有类实体和属性实体，组合为有效的匹配对，构成关联空间。在实体抽取的过程中，需要同时将实体附属的各信息进行抽取，例如实体的文本信息(命名、标签、评论等)、类实体的子实体或父实体信息、类实体的属性实体信息和属性实体的定义域类实体和值域类实体信息等。

本发明考察所有有效的匹配对，即从原来两个本体中抽取的两个实体如果实体类型一致，则是一个有效的匹配对。具体来说，如果本体O¹和O²包括类实体的数量分别为c₁和c₂，属性实体的数量分别为p₁和p₂，则需要关联空间的所有有效匹配对的数量为c₁×c₂+p₁×p₂。

构图模块

构图模块的功能是在关联空间上建立反映本体实体的文本信息和本体的结构信息的图，为匹配模块打下基础。针对关联空间模块抽取出的每个待选匹配对，在图上建立一个节点，节点之间连边的权值需要反映本体实体的文本信息和本体的结构信息。本发明实施例规定节点间连边的权值为匹配对实体的文本相似性和匹配对的结构一致性的函数，构图模块具体包括三个子模块：文本相似性计算模块、结构一致性计算模块和边权值赋值模块，现分述如下：

(a)文本相似性计算模块

该模块对给定的两个相同类型的实体计算其文本相似性。本体中的实体包含丰富的文本信息，例如命名信息、标签信息、评论信息等。本发明实施例首先为实体的文本建立向量化表示，再将两个向量的余弦相似度作为两个实体的文本相似性的度量。实体文本的向量化表示采用的是tf-idf向量表示，tf值为向量当前维对应的单词在该实体文本中出现的次数，idf值为单词出现至少一次的所有实体文本数量的倒数，向量第i维的值为对应的tf值和idf值的乘积。采用gensim工具包为本体中的实体建立tf-idf向量表示，gensim可从该链接(https://radimrehurek.com/gensim/)进行下载和安装。同时，为得到实体文本的更准确表示，自然语言处理领域对英文单词的常见基本操作需要在建立tf-idf向量之前完成，例如：去停用词、词干化等。工具包nltk能够完成上述的操作，nltk可从该链接(http://www.nltk.org/)进行下载和安装。当得到所有实体文本的tf-idf向量化表示后，可为关联空间中的每一个有效的匹配对计算其组成实体的文本相似性。文本相似性计算模块的输出作为边权值赋值模块的输入。

(b)结构一致性计算模块

该模块对给定的两个有效匹配对计算其结构一致性。本体具有丰富的层级结构信息，可以辅助匹配模块的功能。本发明实施例针对给定的两个匹配对m₁＝＜e₁₁,e₁₂＞和m₂＝＜e₂₁,e₂₂＞，考察e₁₁、e₂₁和e₁₂、e₂₂之间的结构一致性。具体考察如下的6种层级结构：类实体-子类实体、类实体-它的属性实体、属性实体-它的定义域类实体、属性实体-它的值域类实体、共享同一父类实体的两个子类实体、属于同一个类实体的两个属性实体。如果e₁₁、e₂₁具有上述的某一种层级结构，同时e₁₂、e₂₂也具有相同的层级结构，则m₁和m₂的结构一致性为1；否则，m₁和m₂的结构一致性为0。结构一致性计算模块需要为关联空间中所有有效匹配对的两两组合计算其结构一致性，模块的输出作为边权值赋值模块的输入。

(c)边权值赋值模块

该模块对图上节点的连边进行权值赋值操作。关联空间上的图需要反映原本体中实体的文本信息和本体的结构信息。本发明实施例规定图的边权值为匹配对实体的文本相似性和匹配对的结构一致性的单调非递减函数。具体做如下的规定：针对图上节点v₁和v₂，其代表的匹配对为m₁和m₂，对应的实体文本相似性分别为sim₁和sim₂，如果m₁和m₁的结构一致性为1，则v₁和v₂之间连边的权值为exp((sim₁+sim₂)/2)；如果m₁和m₂的结构一致性为0，则v₁和v₂之间连边的权值为1/(c₁×c₂+p₁×p₂)。边权值赋值模块承接前序文本相似性计算模块和结构一致性计算模块的输出，得到关联空间上的一张无向的、带权重的图。

匹配模块

匹配模块的功能是以图的谱半径为准则在构图模块输出的图上选择节点。图上的节点代表待选的匹配对，异构本体匹配选择潜在正确匹配对的问题可以转化为在关联空间的图上根据谱半径的减小量选择节点的问题，同时需要融入异构本体匹配的一对一匹配限制。本发明实施例采用迭代的方式选择潜在正确的匹配对，运行k轮，一共找到k个潜在正确的匹配对。每一轮寻找这样的一个匹配对，它在图上对应节点的删除(包括所有连边的删除)将导致图的谱半径减小得最多；每一轮选择出一个匹配对之后，将与之矛盾的匹配对从待选匹配对范围中删除。针对给定的两个匹配对m₁＝＜e₁₁,e₁₂＞和m₂＝＜e₂₁,e₂₂＞，如果满足e₁₁＝e₂₁或e₁₂＝e₂₂，则m₁和m₂是矛盾的匹配对。本实施例采用基于矩阵一阶扰动理论的谱半径减小量的近似计算方式，具体参见公式4。在每轮中比较节点的删除将对这个谱半径的近似值造成的影响程度，选择造成谱半径的近似值减小得最多的节点。当待选匹配对为空时，匹配模块输出选择的k个潜在正确的匹配对(式1中r为等价关系，v设为1)。

按照本实施例设计的异构本体匹配系统在OAEI的标准书目本体评测集中取得了0.88的匹配精度(即平均来说，系统输出的匹配对中88％的匹配对为OAEI提供的人工校订的正确匹配对)，位居各匹配系统的前列。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种异构本体的匹配方法，所述本体为通用或专用知识的资源集合，包括本体实体和本体实体关系；本体实体的类型分别为类实体、属性实体和个体实体；本体实体关系描述本体实体间的相互关系；所述异构本体的匹配方法基于关联空间和图的谱半径，通过确定关联空间、建立关联空间上的图、以图的谱半径减小作为标准选择匹配对，获得正确的匹配对，从而实现异构本体匹配；包括如下步骤：

1)生成关联空间：针对给定的两个本体O¹和O²，抽取出两个本体中所有的实体，找出两个本体中所有有效的匹配对，所有有效的匹配对组成关联空间；所述有效的匹配对是指组成一个匹配对的两个实体的类型相同；

2)建立关联空间上的图：将关联空间中的每个有效的匹配对作为图上的一个节点，节点之间存在边相连；根据本体中实体的文本信息和本体的结构信息赋予边的权重值，节点间连边的权重值为匹配对实体的文本相似性和匹配对的结构一致性的函数；由此建立无向的、带权重边的图，即为关联空间上的图；

3)以图的谱半径减小作为标准选择匹配对：采用基于图的谱半径的匹配方法，通过在关联空间中选择代表匹配对的节点，得到正确的匹配对；执行如下操作：

31)从关联空间上的图中选择重要节点，作为潜在正确的匹配对；所述选择重要节点通过从关联空间上的图中删除节点导致的图的谱半径的减小量来识别，找到在关联空间上建立的图中其删除将会导致图的谱半径尽可能减小的节点集合，作为重要节点集合；所述图的谱半径指图的邻接矩阵的最大特征值；

32)所述选择得到的重要节点集合满足一对一的匹配限制；所述一对一的匹配限制指在匹配对的实体空间上的函数是单射函数；具体地，所述选择包括多轮，每一轮从关联空间上的图中选择一个节点作为重要节点，代表潜在正确的匹配对；且将与已选出的匹配对相矛盾的匹配对从选择范围内剔除，即下一轮选择的节点与上一轮选择的节点不相矛盾；直到识别出所有重要节点；具体地，设定e¹和e²分别代表本体O¹和O²中的实体，则e¹或e²在O²或O¹中至多有一个匹配成功的实体；

33)输出匹配对m，表示为如式1的一个四元组：

m＝<e¹,e²,r,v> (式1)

其中，e¹和e²代表本体O¹和O²中匹配的实体；r是e¹和e²之间的语义匹配关系；v∈[0,1]是匹配对m的置信度，表示将每一个匹配对确认为潜在正确匹配对的程度。

2.如权利要求1所述的异构本体的匹配方法，其特征是，步骤1)生成关联空间，具体是：抽取出两个本体中所有的类实体和属性实体，统计类实体和属性实体各自的数量；设定本体O¹和O²中，类实体的数量分别为c₁和c₂，属性实体的数量分别为p₁和p₂，则O¹和O²间所有有效的匹配对的数量为c₁×c₂+p₁×p₂。

3.如权利要求1所述的异构本体的匹配方法，其特征是，本体的结构信息包括多种层级结构，分别为类实体-子类实体、类实体-属性实体、属性实体-定义域类实体、属性实体-值域类实体、共享同一父类实体的两个子类实体、属于同一个类实体的两个属性实体。

4.如权利要求1所述的异构本体的匹配方法，其特征是，步骤2)建立关联空间上的图，根据本体中实体的文本信息和本体的结构信息赋予边的权重值；计算边的权重包括如下步骤：

21)通过向量化方法计算关联空间中构成每一个有效的匹配对的两个实体的文本相似性；具体包括：

211)将每个实体的文本表示为一个向量；

212)计算两个向量之间的余弦相似度，作为文本相似性的度量；

22)根据匹配对间的结构一致性赋予图上的边的权重，权重值体现本体的结构信息；所述的匹配对间的结构一致性指构成两个匹配对的两组实体具有相同的本体结构；具体地，

给定两个匹配对m₁＝<e¹¹,e¹²,r₁,v₁>和m₂＝<e²¹,e²²,r₂,v₂>，假设在O¹中的实体e¹¹和e²¹分别代表类实体和子类实体，在O²中的实体e¹²和e²²也分别代表类实体和子类实体，则m₁和m₂具有结构一致性；

当两个匹配对具有结构一致性时，代表两个匹配对的图上两个节点的连边拥有较大的权值，为exp(sim<e¹¹,e¹²>/2+sim<e²¹,e²²>/2)；否则，连边拥有较小的权值，为1/(c₁×c₂+p₁×p₂)；sim<i,j>表示实体i和实体j间的文本相似度。

5.如权利要求4所述的异构本体的匹配方法，其特征是，步骤21)所述向量化方法包括tf-idf向量方法、通过学习语料库而获得向量的方法。

6.如权利要求4所述的异构本体的匹配方法，其特征是，步骤21)所述向量化方法为tf-idf向量方法，将两个本体中所有实体的文本进行抽取，每一个实体的文本组成一篇文档，所有实体的文本组成一个大的文档集合；执行如下操作：

首先，将文档进行预处理的操作，包括：去停用词、词干化；

然后，统计文档集合出现的所有词汇，每一个词汇对应tf-idf向量的一维，向量的维数等于文档集合中词汇的数量；

对于特定的一个实体的文档，向量第i维的tf值为对应的第i个词汇在文档中出现的频次，第i维的idf值为对应的第i个词汇至少出现一次的所有实体文档数量的倒数，第i维的tf值和idf值的乘积作为tf-idf向量的第i维；

为每一个实体的文本建立tf-idf向量化表示，假设tf-idf向量的维度为N，则实体i和实体j间的文本相似性通过式2计算得到：

其中，sim<i,j>为实体i和实体j间的文本相似度，v_i和v_j分别为实体i和实体j的tf-idf向量，N为tf-idf向量的维度，p∈[1,N]为v_i向量和v_j向量中元素的下标。

7.如权利要求1所述的异构本体的匹配方法，其特征是，步骤3)中，基于图的谱半径的匹配方法具体为：

假设步骤2)建立的图为G，图的谱半径为λ，将识别潜在正确匹配对的问题转换为关于图的谱半径的优化问题，即在图G上找到式3所表示的节点集合S^*：

其中，G\S是图G删除集合S中节点同时删除S中节点的所有连边得到的图；k是潜在正确匹配对的数量；Δλ为图的谱半径的减小量；

采用基于迭代和贪心的策略进行近似求解，通过式2计算图的谱半径的减小量Δλ的近似值：

Δλ≈2λ(G)∑_i∈S(u_i)²-∑_i,j∈su_iA_iju_j (式2)

其中，A是无向的、带权重的图G的邻接矩阵；u是矩阵A对应于λ(G)的特征向量。

8.如权利要求1所述的异构本体的匹配方法，其特征是，步骤33)中，e¹和e²为相同类型的实体，包括类实体或属性实体；，r为等价关系；v的取值设置为1，即将所有找到的匹配对均作为潜在正确的匹配对。

9.一种利用权利要求1～8所述的异构本体的匹配方法实现的基于图的异构本体的匹配系统，包括关联空间模块、构图模块和匹配模块；其中：

A.关联空间模块用于抽取原来两个本体中的所有类实体和属性实体，组合为有效的匹配对，构成关联空间；

B.构图模块用于在关联空间上建立反映本体实体的文本信息和本体的结构信息的图；针对关联空间模块抽取出的每个有效匹配对，在图上建立一个节点，节点之间连边的权值反映本体实体的文本信息和本体的结构信息；所述构图模块具体包括三个子模块：文本相似性计算子模块、结构一致性计算子模块和边权值赋值子模块；其中：

文本相似性计算子模块用于对给定的两个相同类型的实体计算其文本相似性，其输出作为边权值赋值子模块的输入；

结构一致性计算子模块用于对给定的两个有效匹配对计算其结构一致性，模块的输出作为边权值赋值子模块的输入；

边权值赋值子模块用于对图上节点的连边进行权值赋值操作；关联空间上的图反映原本体中实体的文本信息和本体的结构信息；所述边权值赋值子模块接收文本相似性计算子模块和结构一致性计算子模块的输出，得到关联空间上的一张无向的、带权重的图；

C.匹配模块用于根据图的谱半径在构图模块输出的图上进行节点匹配，在关联空间的图上根据谱半径的减小量选择节点，得到正确匹配对。