CN114818700A

CN114818700A - 一种基于成对连通图和图神经网络的本体概念匹配方法

Info

Publication number: CN114818700A
Application number: CN202210503221.5A
Authority: CN
Inventors: 汪鹏; 邹仕艺
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-05-10
Filing date: 2022-05-10
Publication date: 2022-07-29
Anticipated expiration: 2042-05-10
Also published as: CN114818700B

Abstract

一种基于成对连通图和图神经网络的本体概念匹配方法。首先，构造源本体和目标本体的成对连通图，其节点为概念对，边对应属性对；然后，学习成对连通图的节点嵌入，用于预测本体中的匹配关系；进而，为获得理想的嵌入结果，采用卷积神经网络从概念对的属性中自动提取相似性特征；接着，使用图神经网络来传播相似性特征并得到概念对的最终嵌入。最后，根据学习得到的概念对嵌入结果，通用分类模型预测得到概念匹配结果。本发明技术方案能够解决了本体异构中的概念匹配问题，易实现、精度高、效果好。

Description

一种基于成对连通图和图神经网络的本体概念匹配方法

技术领域

本发明属于人工智能技术领域，具体为一种基于成对连通图和图神经网络的本体概念匹配方法。

背景技术

本体是共享概念模型的明确的形式化规范的说明，定义了概念、概念层次以及概念的属性，利用这些概念和属性捕获相关领域的知识，提供对该领域知识的共同理解。然而，研究者对语义数据进行关联和独立发布,构建过程的差异会导致对同一个概念命名不相同,取值范围不同等问题,从而导致本体异构。本体匹配是解决本体异构的有效途径。

本体匹配技术通常可以分为基于术语的匹配技术、基于实例的匹配技术和基于结构的匹配技术。基于术语的匹配技术，利用编辑距离、单词前后缀相似性等计算方法来进行匹配，这类传统匹配方法基于浅层字符串相似度的匹配计算或者基于元素的约束信息，只考虑独立的本体元素，而忽略这些元素之间的语义关系。同时，这些方法需要人工设计规则，不但不能解决领域本体术语的复杂性和一词多义的问题，而且难以捕捉本体中含有大量语义的结构信息。基于实例的匹配技术一般综合使用多种学习策略的机器学习方法，通过学习概念的实例之间的特征并比较相似度，进而寻找映射关系，这类方法面临实例关联的学习以及训练样例数量、学习算法性能的影响。基于结构的匹配技术，把本体中的概念抽象成图中的一个节点，概念间的关系抽象为图中的边，比如Similarity Flood，其主要思想是根据相邻概念节点之间的传递性来计算相似度，如果两个相邻节点是相似的，那么相似性可以得到传播。现有的基于结构的本体匹配方法往往只能捕捉到局部结构信息，例如节点以及其邻居节点的出度入度，而忽略了全局结构信息。除此之外，现有的基于结构的本体匹配方法很难利用本体中实体的文本信息，这些缺陷都会导致精确度受到较大影响。

发明内容

本发明公开了一种基于成对连通图和图神经网络的本体概念匹配方法。首先，构造源本体和目标本体的成对连通图，其节点为概念对，边对应属性对；然后，学习成对连通图的节点嵌入，用于预测本体中的匹配关系；进而，为获得理想的嵌入结果，采用卷积神经网络从概念对的属性中自动提取相似性特征；接着，使用图神经网络来传播相似性特征并得到概念对的最终嵌入。最后，根据学习得到的概念对嵌入结果，通用分类模型预测得到概念匹配结果。本发明技术方案较好地解决了本体异构问题，易实现、精度高、效果好。

为达到上述目的，本发明的技术方案如下：

一种基于成对连通图和图神经网络的本体概念匹配方法，该方法包括如下步骤：

1）生成源本体和目标本体的成对连通图：

对于读取的原本题和目标本体按照成对连通图生成规则进行配对，其节点为概念对，边对应属性对；

2）对生成的成对连通图进行简化和分块化处理：

分别计算概念对中两个概念的概念名和属性的初始化向量表示，采用传播强条件删减成对连通图中的无用节点，判断成对连通图结构特征，并进行图的序列化分块；

3）计算图中节点相似度矩阵：

采用不同相似度算法计算多层相似度矩阵；

4)采用多层卷积神经网络，对节点相似度矩阵提取特征向量：

设计不同的卷积核并利用残差机制避免卷积过程中梯度消失；

5）基于图神经网络获取概念对的最终嵌入：

引入基于注意力机制的图神经网络，在节点及其邻居节点之间传播相似性特征并得到概念对的最终嵌入；

6）匹配预测：

基于机器学习的二分类器对节点的最终嵌入进行预测，并输出匹配对。

作为本发明进一步改进，步骤1)具体为：

首先，分别读取源本体和目标本体的概念及其子概念集合；

其次，将每一个源本体概念

和目标本体中的概念

形成一个概念对节点

，同时组合

概念的所有子概念和

的所有子概念形成若干概念对节点；

最后，让已经配对的概念与其子概念相互组合的若干概念对节点连接，对于源本体

和目标本体

，且

，则

则是由形如

的三元组组成，其中

分别代表节点集合、边集合和边类型集合，

中的每个元素对应于

和

之间的本体对，

中的每个元素对应于一个关系对，每条边的构建方法如下：

其中，

分别代表源本体和目标本体中父概念，

分别代表

的子概念，

代表

的关系，

代表

的关系。

作为本发明进一步改进，步骤2)中计算初始向量的方法包括三种，具体如下：

（1）生成一组概念的字符级n元模型

作为集合代表；

（2）将本体的属性视为文本字符串，并为每个本体的所有属性生成字符级的n元模型，然后将所有的n元模型合并成一个集合，作为本体的代表，计算公式为：

其中

是概念或者属性的第

个单词，

为

的

，指的是连续出现的

个单词；

是在前

到前

个单词出现的情况下，第

个单词是

的概率，

是含有

单词序列的个数；

对于一个概念或者属性，N-grams的数量

由如下公式计算：

其中，

为给定句子

中的单词数；

（3）为了给相似性计算和传播提供更好的初始相似性种子，这些初始种子由其他匹配方法选择和生成。

作为本发明进一步改进，步骤2)中传播强条件的内容具体如下：

给出两个三元组

，让

分别表示

的相应相似性，

由第一步初始化向量表示计算余弦相似度获取，具体公式如下：

只有

满足相应条件时，相似性才能被传播。

作为本发明进一步改进，步骤2)中传播强条件只有

满足以下三个条件时，相似性才能被传播

（1）在

中，至少有两个相似性必须大于阈值

；

（2）如果

包括本体语言基元，那么

的相关位置就应该是

的对应位置必须是相同的基元；

（3）

最多只有一个本体语言原语。

作为本发明进一步改进，步骤2)中判断成对连通图结构特征，并进行图的序列化分块，该算法具体过程如下：

第一步，检查成对连通图是否存在闭环，若存在则删除闭环中相似度最低的节点避免出现闭环，若不存在，则进入第二步；

第二步，检查顶层节点个数即根节点个数，判定是否超过1，若未超过1则判定该图结构为有根树进入第四步，否则判定为无根树结构进入第三步；

第三步，无根树向有根树转化，采用基于浅层字符串相似度匹配方式对顶层概念对进行融合，如下公式：

其中

分别表示字符串

和字符串

的下标，下标从1开始；

第四步，对树通过深度优先搜索进行节点序列化；

第五步，从序列的第一个节点起，每连续的指定个数节点组成一个块，若最终剩余的元素不足该个数，令其组成一个块。

作为本发明进一步改进，步骤3)中图中节点相似度矩阵，具体内容如下：

（1）矩阵行列设计，包含了概念名、注释、不相交类、等价类、标签、子类、父类以及属性；

（2）矩阵相似度算法，包含了基于字符串编辑距离、Jaccard相似度、TF-IDF、基于Bert的语义相似度以及编辑相似度。

作为本发明进一步改进，步骤4)中多层卷积神经网络，具体内容如下：

（1）设计三层卷积，对于第

层第

个节点，其输出

如下公式所示：

其中

是第

层第

个节点的权重矩阵，

是卷积操作，

是第

层第

个节点的偏差；

（2）采用残差网络，将不同层的特征相加并保证节点特征输入输出维度一致，即

。

作为本发明进一步改进，步骤5)中基于注意力机制的图神经网络，包括两层隐藏层和在基础的图神经网络上引入边类型向量，具体过程如下：

a)计算节点

到节点

的边类型向量

，公式如下：

其中

分别为节点

的邻居节点和节点

的邻居节点集合，

为共享的权重矩阵，

分别是节点

和节点

的特征向量；

b）将边类型向量拼接到节点

和节点

的特征向量上得到

，公式如下：

其中

为激活函数，

是一个可学习的参数，

是从节点

到节点

的边类型向量；

c）对

作归一化处理得到从节点

到节点

的注意力

，公式如下：

其中

为节点

的所有邻居节点集合；

d）利用注意力计算下一层向量表示

，公式如下:

(10)

其中

为激活函数。

作为本发明进一步改进，步骤6)中基于机器学习的二分类器对节点的最终嵌入进行预测，使用机器学习的分类模型来预测匹配的概念对。

与现有技术相比，本发明具有以下优点和有益效果：

本发明提出的基于成对连通图和图神经网络的本体概念匹配方法，综合利用了基于术语的匹配方法和基于结构的匹配方法，不再学习单个概念或属性的嵌入而是通过基于注意力机制的图神经网络充分捕捉语义信息和结构信息，直接学习概念对的嵌入，可以有效的将一个近乎NP-Hard的本体匹配问题转化为二分类问题，解决了受限制于本体规模的问题。本发明通过自动提取特征相似度矩阵，不但能够充分利用本体的文本信息，也克服了需要人工设计规则和提取的问题。本发明考虑元素间的层级关系以及语义邻居关系等，通过图神经网络克服了元素层的匹配方法只考虑独立的元素，而不考虑这些元素之间的结构关系的缺陷，大大提高了匹配效率和匹配精度。

附图说明

图1为本发明方法的方法流程图；

图2为成对连通图生成示例图；

图3为示例一的本体示意图；

图4为示例二的本体示意图；

图5为两个示例的本体成对连通图示意图；

图6示例一本体概念的分类预测示意图；

图7示例二本体概念的分类预测示意图；

图8为二分类器预测流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供的基于成对连通图和图神经网络的本体概念匹配方法，如图1所示，包括如下步骤：

1) 生成源本体和目标本体的成对连通图。成对连通图可以结合两个有向图来建立节点与节点之间的相互作用。通过生成源本体和目标本体的成对连通图，本体匹配问题转化为成对连通图中节点的嵌入和分类（即等同或不等同）。对于给定的两个以图结构表示的本体，其成对连通图中的每个节点都对应于两个本体中的一个概念对，而连接两个节点的每条边都反映了两个概念对之间的关联性；

对于源本体

和目标本体

，且

，则

则是由形如

的三元组组成，其中

分别代表节点集合、边集合和边类型集合，

中的每个元素对应于

和

之间的本体对，

中的每个元素对应于一个关系对，每条边的构建方法如下：

(1)

成对连通图生成过程如图2所示，图中有两个本体（源本体和目标本体），每个本体有三个概念。它们的成对连通图包含九个节点，代表两个本体的所有可能的概念对；成对连通图中有五个类型的边。成对连通图可以表示两个本体之间的概念对的连接，本方法用成对连通图来捕捉两个本体之间可能的概念排列的交互。在该方法中，本体匹配的问题通过直接学习成对连通图的节点嵌入来解决，即概念的等价关系是根据学习到的嵌入来预测的；

2）对生成的成对连通图进行简化和分块化处理。按照步骤1中的成对连通图生成规则，对于包含

个概念的源本体和

个概念的目标本体，将会产生

个候选本体概念对。对于大规模本体匹配，这个数目将会导致产生规模庞大进而难以进行整图训练。除此之外，本体匹配任务大都存在正负样本不平衡问题，这也意味着大量的候选节点对会是错误的，并且大量无用节点不仅会浪费算力提取特征和传播特征，也可能会由于大量的无效传播而影响预测。因此，本方法设计了传播强条件。具体步骤为：

第一步，分别计算概念对中两个概念的概念名和属性的初始化向量表示，具体计算方法如下：

a)生成一组概念的字符级N元模型(N-grams)作为集合代表；

b)将本体的属性视为文本字符串，并为每个本体的所有属性生成字符级的N元模型。然后将所有的N元模型合并成一个集合，作为本体的代表；

计算公式为：

(2)

其中

是概念或者属性的第

个单词，

为

的

，指的是连续出现的

个单词；

是在前

到前

个单词出现的情况下，第

个单词是

的概率，

是含有

单词序列的个数；

对于一个概念或者属性，N-grams的数量

由如下公式计算：

其中，

为给定句子

中的单词数；

a)可信的初始化种子：为了给相似性计算和传播提供更好的初始相似性种子，这些初始种子可以由其他匹配方法选择和生成；

第二步，采用传播强条件(Propagation Strength Condition)删减成对连通图中的无用节点；

给出两个三元组

，让

分别表示

的相应相似性，

(4)

其中

分别是两个本体三元组中对应词的N-grams集合向量。只有

满足相应条件时，相似性才能被传播；

（1）在

中，至少有两个相似性必须大于阈值

，本发明中

取0.005；

（2）如果

包括本体语言基元，那么

的相关位置就应该是

的对应位置必须是相同的基元；

（3）

或

最多只有一个本体语言原语；

第三步，判断成对连通图结构特征，并进行图的序列化分块，具体步骤如下：

a)检查对连通图是否存在闭环，具体检测方法如下：

1)选择任意一个节点（类型）并标注为“查找中”；

2)沿着边依次访问所有与该节点相邻的节点；

3)如果访问到的节点没有标注任何状态，则将该节点标注为“查找中”；如果标注了“查找结束”，则不做任何处理，返回之前的节点；如果已经标注为“查找中”，则说明存在闭环；

从当前的节点重复1) 和2)，如果已经没有可访问的相邻节点，则将该节点标注为“查找结束”，并沿原路返回；

4)按照上述流程对所有节点进行处理，如果查找过程中没有遇到“查找中”状态的节点，就说明不存在闭环；

若存在闭环，则按照公式（4）计算闭环中所有节点的相似度，并删除闭环中相似度最低的节点，若不存在，则进入b；

a)检查顶层节点个数（即根节点个数）是否超过1，若未超过1则判定该图结构为有根树进入d，否则判定为无根树结构进入c；

b)无根树向有根树转化，采用基于浅层字符串相似度算法，如下公式：

(5)

其中

分别表示字符串

和字符串

的下标。下标从1开始；

对顶层概念之间超过阈值

的进行节点融合；

a）对树通过深度优先搜索进行节点序列化；

从序列的第一个节点起，每连续的

个节点组成一个块。若最终剩余的元素不足

个，令其组成一个块。其中

为图中节点个数；

3）计算图中节点（即概念对）相似度矩阵,具体内容如下：

a)矩阵行列设计，包含了概念名、注释、不相交类、等价类、标签、子类、父类以及属性；

b)矩阵相似度算法，包含了基于字符串编辑距离、Jaccard相似度、TF-IDF、基于Bert的语义相似度以及编辑相似度，具体根据每一层采用的相似度算法如下表所示：

4）采用多层卷积神经网络，对节点相似度矩阵提取特征向量，具体内容如下：

a)设计三层卷积，每一层对应的卷积核大小分别为18，36，72，进行多角度采样；

b)采用残差网络，将不同层的特征相加以更好地提取特征，这避免了前几层的特征在向后传播的过程中丢失的情况；

对于第

层第

个节点，其输出

如下公式所示：

(6)

其中

是第

层第

个节点的权重矩阵，

是卷积操作，

是第

层第

个节点的偏差；

5）引入基于注意力机制的图神经网络，在节点及其邻居节点之间传播相似性特征并得到概念对的最终嵌入。等价本体的邻居通常也是等价的或相似的。因此，本体的结构信息对于发现本体的匹配至关重要。成对连通图中节点之间的边反映了概念对的相邻信息。为了获得包含邻居信息的概念对的特征表示，按照这些边传播概念对的属性特征。具体来说，即使用图卷积网络在图上传播概念对的属性特征。图卷积神经网络通过递归聚合其邻居的特征向量来学习图中的节点表征，它能够结合图中的节点特征和结构信息。具体过程如下：

a)计算节点

到节点

的边类型向量

，公式如下：

(7)

其中

分别为节点

的邻居节点和节点

的邻居节点集合，

为共享的权重矩阵，

分别是节点

和节点

的特征向量；

b）将边类型向量拼接到节点

和节点

的特征向量上得到

，公式如下：

(8)

其中

为激活函数，

是一个可学习的参数，

是从节点

到节点

的边类型向量；

c）对

作归一化处理得到从节点

到节点

的注意力

，公式如下：

（9）

其中

为节点

的所有邻居节点集合；

d）利用注意力计算下一层向量表示

，公式如下:

(10)

其中

为激活函数；

6）将节点的最终嵌入放入二分类器中预测对齐结果，并输出匹配对。具体预测流程如图6所示，本方法将采用支持向量机、决策树和随机森林三种方式共同预测，具体如下：

a）如果三者预测结果相同，则直接输出预测结果；

b)如果三者预测结果不同，则输出预测超过半数的分类结果。

实施案例

本发明提供了一种基于成对连通图和图神经网络的本体概念匹配方法，下面通过一个实施案例介绍本发明的实施过程。

给定两个示例本体，如图3和图4所示，

1）生成如图5所示成对连通图：在源本体中，reference是contribution和book的子类。在目标本体中，reference是contribution和paper的子类。根据生成规则，将源本体概念与目标本体的所有概念以及其子概念集合元素配对，配对结果如图6和图7所示;

2）生成相似度矩阵：例如节点<contribution, paper>的相似度矩阵如下表所示：

3）利用卷积神经网络自动提取节点特征如下表所示：

4）以上述节点特征为初始化特征，在成对连通图中传播聚合得到概念对的最终向量表示；

5）将学习到的嵌入输入到多个二分类器中，进行投票预测，如图8所示。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于成对连通图和图神经网络的本体概念匹配方法，其特征在于：该方法包括如下步骤：

1）生成源本体和目标本体的成对连通图：

2）对生成的成对连通图进行简化和分块化处理：

3）计算图中节点相似度矩阵：

采用不同相似度算法计算多层相似度矩阵；

5）基于图神经网络获取概念对的最终嵌入：

6）匹配预测：

2.根据权利要求1所述的一种基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤1)具体为：

首先，分别读取源本体和目标本体的概念及其子概念集合；

其次，将每一个源本体概念

和目标本体中的概念

形成一个概念对节点

，同时组合

概念的所有子概念和

的所有子概念形成若干概念对节点；

和目标本体

，且

，则

则是由形如

的三元组组成，其中

分别代表节点集合、边集合和边类型集合，

中的每个元素对应于

和

之间的本体对，

中的每个元素对应于一个关系对，每条边的构建方法如下：

其中，

分别代表源本体和目标本体中父概念，

分别代表

的子概念，

代表

的关系，

代表

的关系。

3.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤2)中计算初始向量的方法包括三种，具体如下：

（1）生成一组概念的字符级n元模型

作为集合代表；

其中

是概念或者属性的第

个单词，

为

的

，指的是连续出现的

个单词；

是在前

到前

个单词出现的情况下，第

个单词是

的概率，

是含有

单词序列的个数；

对于一个概念或者属性，N-grams的数量

由如下公式计算：

其中，

为给定句子

中的单词数；

4.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤2)中传播强条件的内容具体如下：

给出两个三元组

，让

分别表示

的相应相似性，

只有

满足相应条件时，相似性才能被传播。

5.根据权利要求4所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤2)中传播强条件只有

满足以下三个条件时，相似性才能被传播

（1）在

中，至少有两个相似性必须大于阈值

；

（2）如果

包括本体语言基元，那么

的相关位置就应该是

的对应位置必须是相同的基元；

（3）

最多只有一个本体语言原语。

6.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤2)中判断成对连通图结构特征，并进行图的序列化分块，该算法具体过程如下：

其中

分别表示字符串

和字符串

的下标，下标从1开始；

第四步，对树通过深度优先搜索进行节点序列化；

7.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤3)中图中节点相似度矩阵，具体内容如下：

8.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤4)中多层卷积神经网络，具体内容如下：

（1）设计三层卷积，对于第

层第

个节点，其输出

如下公式所示：

其中

是第

层第

个节点的权重矩阵，

是卷积操作，

是第

层第

个节点的偏差；

。

9.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤5)中基于注意力机制的图神经网络，包括两层隐藏层和在基础的图神经网络上引入边类型向量，具体过程如下：

a)计算节点

到节点

的边类型向量

，公式如下：

其中

分别为节点

的邻居节点和节点

的邻居节点集合，

为共享的权重矩阵，

分别是节点

和节点

的特征向量；

b）将边类型向量拼接到节点

和节点

的特征向量上得到

，公式如下：

其中

为激活函数，

是一个可学习的参数，

是从节点

到节点

的边类型向量；

c）对

作归一化处理得到从节点

到节点

的注意力

，公式如下：

其中

为节点

的所有邻居节点集合；

d）利用注意力计算下一层向量表示

，公式如下:

其中

为激活函数。

10.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法，其特征在于，步骤6)中基于机器学习的二分类器对节点的最终嵌入进行预测，使用机器学习的分类模型来预测匹配的概念对。