CN114818700A - 一种基于成对连通图和图神经网络的本体概念匹配方法 - Google Patents

一种基于成对连通图和图神经网络的本体概念匹配方法 Download PDF

Info

Publication number
CN114818700A
CN114818700A CN202210503221.5A CN202210503221A CN114818700A CN 114818700 A CN114818700 A CN 114818700A CN 202210503221 A CN202210503221 A CN 202210503221A CN 114818700 A CN114818700 A CN 114818700A
Authority
CN
China
Prior art keywords
concept
graph
ontology
node
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210503221.5A
Other languages
English (en)
Other versions
CN114818700B (zh
Inventor
汪鹏
邹仕艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210503221.5A priority Critical patent/CN114818700B/zh
Publication of CN114818700A publication Critical patent/CN114818700A/zh
Application granted granted Critical
Publication of CN114818700B publication Critical patent/CN114818700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于成对连通图和图神经网络的本体概念匹配方法。首先,构造源本体和目标本体的成对连通图,其节点为概念对,边对应属性对;然后,学习成对连通图的节点嵌入,用于预测本体中的匹配关系;进而,为获得理想的嵌入结果,采用卷积神经网络从概念对的属性中自动提取相似性特征;接着,使用图神经网络来传播相似性特征并得到概念对的最终嵌入。最后,根据学习得到的概念对嵌入结果,通用分类模型预测得到概念匹配结果。本发明技术方案能够解决了本体异构中的概念匹配问题,易实现、精度高、效果好。

Description

一种基于成对连通图和图神经网络的本体概念匹配方法
技术领域
本发明属于人工智能技术领域,具体为一种基于成对连通图和图神经网络的本体概念匹配方法。
背景技术
本体是共享概念模型的明确的形式化规范的说明,定义了概念、概念层次以及概念的属性,利用这些概念和属性捕获相关领域的知识,提供对该领域知识的共同理解。然而,研究者对语义数据进行关联和独立发布,构建过程的差异会导致对同一个概念命名不相同,取值范围不同等问题,从而导致本体异构。本体匹配是解决本体异构的有效途径。
本体匹配技术通常可以分为基于术语的匹配技术、基于实例的匹配技术和基于结构的匹配技术。基于术语的匹配技术,利用编辑距离、单词前后缀相似性等计算方法来进行匹配,这类传统匹配方法基于浅层字符串相似度的匹配计算或者基于元素的约束信息,只考虑独立的本体元素,而忽略这些元素之间的语义关系。同时,这些方法需要人工设计规则,不但不能解决领域本体术语的复杂性和一词多义的问题,而且难以捕捉本体中含有大量语义的结构信息。基于实例的匹配技术一般综合使用多种学习策略的机器学习方法,通过学习概念的实例之间的特征并比较相似度,进而寻找映射关系,这类方法面临实例关联的学习以及训练样例数量、学习算法性能的影响。基于结构的匹配技术,把本体中的概念抽象成图中的一个节点,概念间的关系抽象为图中的边,比如Similarity Flood,其主要思想是根据相邻概念节点之间的传递性来计算相似度,如果两个相邻节点是相似的,那么相似性可以得到传播。现有的基于结构的本体匹配方法往往只能捕捉到局部结构信息,例如节点以及其邻居节点的出度入度,而忽略了全局结构信息。除此之外,现有的基于结构的本体匹配方法很难利用本体中实体的文本信息,这些缺陷都会导致精确度受到较大影响。
发明内容
本发明公开了一种基于成对连通图和图神经网络的本体概念匹配方法。首先,构造源本体和目标本体的成对连通图,其节点为概念对,边对应属性对;然后,学习成对连通图的节点嵌入,用于预测本体中的匹配关系;进而,为获得理想的嵌入结果,采用卷积神经网络从概念对的属性中自动提取相似性特征;接着,使用图神经网络来传播相似性特征并得到概念对的最终嵌入。最后,根据学习得到的概念对嵌入结果,通用分类模型预测得到概念匹配结果。本发明技术方案较好地解决了本体异构问题,易实现、精度高、效果好。
为达到上述目的,本发明的技术方案如下:
一种基于成对连通图和图神经网络的本体概念匹配方法,该方法包括如下步骤:
1)生成源本体和目标本体的成对连通图:
对于读取的原本题和目标本体按照成对连通图生成规则进行配对,其节点为概念对,边对应属性对;
2)对生成的成对连通图进行简化和分块化处理:
分别计算概念对中两个概念的概念名和属性的初始化向量表示,采用传播强条件删减成对连通图中的无用节点,判断成对连通图结构特征,并进行图的序列化分块;
3)计算图中节点相似度矩阵:
采用不同相似度算法计算多层相似度矩阵;
4)采用多层卷积神经网络,对节点相似度矩阵提取特征向量:
设计不同的卷积核并利用残差机制避免卷积过程中梯度消失;
5)基于图神经网络获取概念对的最终嵌入:
引入基于注意力机制的图神经网络,在节点及其邻居节点之间传播相似性特征并得到概念对的最终嵌入;
6)匹配预测:
基于机器学习的二分类器对节点的最终嵌入进行预测,并输出匹配对。
作为本发明进一步改进,步骤1)具体为:
首先,分别读取源本体和目标本体的概念及其子概念集合;
其次,将每一个源本体概念
Figure 755213DEST_PATH_IMAGE001
和目标本体中的概念
Figure 302869DEST_PATH_IMAGE002
形成一个概念对节点
Figure 269688DEST_PATH_IMAGE003
,同时组合
Figure 244597DEST_PATH_IMAGE001
概念的所有子概念和
Figure 195236DEST_PATH_IMAGE002
的所有子概念形成若干概念对节点;
最后,让已经配对的概念与其子概念相互组合的若干概念对节点连接,对于源本体
Figure 546583DEST_PATH_IMAGE004
和目标本体
Figure 702381DEST_PATH_IMAGE005
,且
Figure 848191DEST_PATH_IMAGE006
,则
Figure 754968DEST_PATH_IMAGE007
则是由形如
Figure 910005DEST_PATH_IMAGE008
的三元组组成,其中
Figure 585837DEST_PATH_IMAGE009
分别代表节点集合、边集合和边类型集合,
Figure 168128DEST_PATH_IMAGE010
中的每个元素对应于
Figure 562201DEST_PATH_IMAGE004
Figure 255350DEST_PATH_IMAGE005
之间的本体对,
Figure 549803DEST_PATH_IMAGE011
中的每个元素对应于一个关系对,每条边的构建方法如下:
Figure 302995DEST_PATH_IMAGE012
其中,
Figure 918784DEST_PATH_IMAGE013
分别代表源本体和目标本体中父概念,
Figure 415625DEST_PATH_IMAGE014
分别代表
Figure 66049DEST_PATH_IMAGE015
的子概念,
Figure 990143DEST_PATH_IMAGE016
代表
Figure 358807DEST_PATH_IMAGE017
的关系,
Figure 659338DEST_PATH_IMAGE018
代表
Figure 164269DEST_PATH_IMAGE019
的关系。
作为本发明进一步改进,步骤2)中计算初始向量的方法包括三种,具体如下:
(1)生成一组概念的字符级n元模型
Figure 757799DEST_PATH_IMAGE020
作为集合代表;
(2)将本体的属性视为文本字符串,并为每个本体的所有属性生成字符级的n元模型,然后将所有的n元模型合并成一个集合,作为本体的代表,计算公式为:
Figure 348181DEST_PATH_IMAGE021
其中
Figure 186824DEST_PATH_IMAGE022
是概念或者属性的第
Figure 811840DEST_PATH_IMAGE023
个单词,
Figure 77736DEST_PATH_IMAGE024
Figure 420993DEST_PATH_IMAGE020
Figure 797748DEST_PATH_IMAGE024
,指的是连续出现的
Figure 277270DEST_PATH_IMAGE024
个单词;
Figure 212603DEST_PATH_IMAGE025
是在前
Figure 777577DEST_PATH_IMAGE026
到前
Figure 958022DEST_PATH_IMAGE027
个单词出现的情况下,第
Figure 557631DEST_PATH_IMAGE023
个单词是
Figure 430909DEST_PATH_IMAGE022
的概率,
Figure 217599DEST_PATH_IMAGE028
是含有
Figure 201736DEST_PATH_IMAGE029
单词序列的个数;
对于一个概念或者属性,N-grams的数量
Figure 655851DEST_PATH_IMAGE030
由如下公式计算:
Figure 700030DEST_PATH_IMAGE031
其中,
Figure 472552DEST_PATH_IMAGE032
为给定句子
Figure 994800DEST_PATH_IMAGE033
中的单词数;
(3)为了给相似性计算和传播提供更好的初始相似性种子,这些初始种子由其他匹配方法选择和生成。
作为本发明进一步改进,步骤2)中传播强条件的内容具体如下:
给出两个三元组
Figure 303422DEST_PATH_IMAGE034
,让
Figure 252923DEST_PATH_IMAGE035
分别表示
Figure 545364DEST_PATH_IMAGE036
的相应相似性,
Figure 605724DEST_PATH_IMAGE037
由第一步初始化向量表示计算余弦相似度获取,具体公式如下:
Figure 768852DEST_PATH_IMAGE038
只有
Figure 889255DEST_PATH_IMAGE039
满足相应条件时,相似性才能被传播。
作为本发明进一步改进,步骤2)中传播强条件只有
Figure 370790DEST_PATH_IMAGE039
满足以下三个条件时,相似性才能被传播
(1)在
Figure 234841DEST_PATH_IMAGE037
中,至少有两个相似性必须大于阈值
Figure 518054DEST_PATH_IMAGE040
(2)如果
Figure 809358DEST_PATH_IMAGE041
包括本体语言基元,那么
Figure 545233DEST_PATH_IMAGE041
的相关位置就应该是
Figure 478554DEST_PATH_IMAGE042
的对应位置必须是相同的基元;
(3)
Figure 616275DEST_PATH_IMAGE043
最多只有一个本体语言原语。
作为本发明进一步改进,步骤2)中判断成对连通图结构特征,并进行图的序列化分块,该算法具体过程如下:
第一步,检查成对连通图是否存在闭环,若存在则删除闭环中相似度最低的节点避免出现闭环,若不存在,则进入第二步;
第二步,检查顶层节点个数即根节点个数,判定是否超过1,若未超过1则判定该图结构为有根树进入第四步,否则判定为无根树结构进入第三步;
第三步,无根树向有根树转化,采用基于浅层字符串相似度匹配方式对顶层概念对进行融合,如下公式:
Figure 78480DEST_PATH_IMAGE044
其中
Figure 800186DEST_PATH_IMAGE045
分别表示字符串
Figure 271619DEST_PATH_IMAGE046
和字符串
Figure 263845DEST_PATH_IMAGE047
的下标,下标从1开始;
第四步,对树通过深度优先搜索进行节点序列化;
第五步,从序列的第一个节点起,每连续的指定个数节点组成一个块,若最终剩余的元素不足该个数,令其组成一个块。
作为本发明进一步改进,步骤3)中图中节点相似度矩阵,具体内容如下:
(1)矩阵行列设计,包含了概念名、注释、不相交类、等价类、标签、子类、父类以及属性;
(2)矩阵相似度算法,包含了基于字符串编辑距离、Jaccard相似度、TF-IDF、基于Bert的语义相似度以及编辑相似度。
作为本发明进一步改进,步骤4)中多层卷积神经网络,具体内容如下:
(1)设计三层卷积,对于第
Figure 162531DEST_PATH_IMAGE048
层第
Figure 872998DEST_PATH_IMAGE049
个节点,其输出
Figure 882543DEST_PATH_IMAGE050
如下公式所示:
Figure 729276DEST_PATH_IMAGE051
其中
Figure 798863DEST_PATH_IMAGE050
是第
Figure 731047DEST_PATH_IMAGE052
层第
Figure 308397DEST_PATH_IMAGE053
个节点的权重矩阵,
Figure 744057DEST_PATH_IMAGE054
是卷积操作,
Figure 250125DEST_PATH_IMAGE055
是第
Figure 404026DEST_PATH_IMAGE048
层第
Figure 755373DEST_PATH_IMAGE049
个节点的偏差;
(2)采用残差网络,将不同层的特征相加并保证节点特征输入输出维度一致,即
Figure 576698DEST_PATH_IMAGE056
作为本发明进一步改进,步骤5)中基于注意力机制的图神经网络,包括两层隐藏层和在基础的图神经网络上引入边类型向量,具体过程如下:
a)计算节点
Figure 988088DEST_PATH_IMAGE057
到节点
Figure 894864DEST_PATH_IMAGE058
的边类型向量
Figure 548437DEST_PATH_IMAGE059
,公式如下:
Figure 489848DEST_PATH_IMAGE060
其中
Figure 72139DEST_PATH_IMAGE061
分别为节点
Figure 466211DEST_PATH_IMAGE057
的邻居节点和节点
Figure 159361DEST_PATH_IMAGE062
的邻居节点集合,
Figure 955279DEST_PATH_IMAGE063
为共享的权重矩阵,
Figure 442892DEST_PATH_IMAGE064
分别是节点
Figure 324260DEST_PATH_IMAGE057
和节点
Figure 319636DEST_PATH_IMAGE058
的特征向量;
b)将边类型向量拼接到节点
Figure 970060DEST_PATH_IMAGE057
和节点
Figure 894153DEST_PATH_IMAGE062
的特征向量上得到
Figure 997239DEST_PATH_IMAGE065
,公式如下:
Figure 297770DEST_PATH_IMAGE066
其中
Figure 68280DEST_PATH_IMAGE067
为激活函数,
Figure 163275DEST_PATH_IMAGE068
是一个可学习的参数,
Figure 753656DEST_PATH_IMAGE069
是从节点
Figure 592299DEST_PATH_IMAGE057
到节点
Figure 715851DEST_PATH_IMAGE062
的边类型向量;
c)对
Figure 981747DEST_PATH_IMAGE065
作归一化处理得到从节点
Figure 325004DEST_PATH_IMAGE057
到节点
Figure 701758DEST_PATH_IMAGE062
的注意力
Figure 181281DEST_PATH_IMAGE070
,公式如下:
Figure 618079DEST_PATH_IMAGE071
其中
Figure 183052DEST_PATH_IMAGE072
为节点
Figure 363498DEST_PATH_IMAGE057
的所有邻居节点集合;
d)利用注意力计算下一层向量表示
Figure 963107DEST_PATH_IMAGE073
,公式如下:
Figure 69341DEST_PATH_IMAGE074
(10)
其中
Figure 121610DEST_PATH_IMAGE075
为激活函数。
作为本发明进一步改进,步骤6)中基于机器学习的二分类器对节点的最终嵌入进行预测,使用机器学习的分类模型来预测匹配的概念对。
与现有技术相比,本发明具有以下优点和有益效果:
本发明提出的基于成对连通图和图神经网络的本体概念匹配方法,综合利用了基于术语的匹配方法和基于结构的匹配方法,不再学习单个概念或属性的嵌入而是通过基于注意力机制的图神经网络充分捕捉语义信息和结构信息,直接学习概念对的嵌入,可以有效的将一个近乎NP-Hard的本体匹配问题转化为二分类问题,解决了受限制于本体规模的问题。本发明通过自动提取特征相似度矩阵,不但能够充分利用本体的文本信息,也克服了需要人工设计规则和提取的问题。本发明考虑元素间的层级关系以及语义邻居关系等,通过图神经网络克服了元素层的匹配方法只考虑独立的元素,而不考虑这些元素之间的结构关系的缺陷,大大提高了匹配效率和匹配精度。
附图说明
图1为本发明方法的方法流程图;
图2为成对连通图生成示例图;
图3为示例一的本体示意图;
图4为示例二的本体示意图;
图5为两个示例的本体成对连通图示意图;
图6示例一本体概念的分类预测示意图;
图7示例二本体概念的分类预测示意图;
图8为二分类器预测流程图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供的基于成对连通图和图神经网络的本体概念匹配方法,如图1所示,包括如下步骤:
1) 生成源本体和目标本体的成对连通图。成对连通图可以结合两个有向图来建立节点与节点之间的相互作用。通过生成源本体和目标本体的成对连通图,本体匹配问题转化为成对连通图中节点的嵌入和分类(即等同或不等同)。对于给定的两个以图结构表示的本体,其成对连通图中的每个节点都对应于两个本体中的一个概念对,而连接两个节点的每条边都反映了两个概念对之间的关联性;
对于源本体
Figure 105747DEST_PATH_IMAGE004
和目标本体
Figure 294283DEST_PATH_IMAGE005
,且
Figure 72883DEST_PATH_IMAGE006
,则
Figure 612449DEST_PATH_IMAGE007
则是由形如
Figure 400276DEST_PATH_IMAGE008
的三元组组成,其中
Figure 708898DEST_PATH_IMAGE009
分别代表节点集合、边集合和边类型集合,
Figure 156934DEST_PATH_IMAGE010
中的每个元素对应于
Figure 183796DEST_PATH_IMAGE004
Figure 244156DEST_PATH_IMAGE005
之间的本体对,
Figure 407284DEST_PATH_IMAGE011
中的每个元素对应于一个关系对,每条边的构建方法如下:
Figure 793266DEST_PATH_IMAGE012
(1)
成对连通图生成过程如图2所示,图中有两个本体(源本体和目标本体),每个本体有三个概念。它们的成对连通图包含九个节点,代表两个本体的所有可能的概念对;成对连通图中有五个类型的边。成对连通图可以表示两个本体之间的概念对的连接,本方法用成对连通图来捕捉两个本体之间可能的概念排列的交互。在该方法中,本体匹配的问题通过直接学习成对连通图的节点嵌入来解决,即概念的等价关系是根据学习到的嵌入来预测的;
2)对生成的成对连通图进行简化和分块化处理。按照步骤1中的成对连通图生成规则,对于包含
Figure 307424DEST_PATH_IMAGE076
个概念的源本体和
Figure 171475DEST_PATH_IMAGE077
个概念的目标本体,将会产生
Figure 454688DEST_PATH_IMAGE078
个候选本体概念对。对于大规模本体匹配,这个数目将会导致产生规模庞大进而难以进行整图训练。除此之外,本体匹配任务大都存在正负样本不平衡问题,这也意味着大量的候选节点对会是错误的,并且大量无用节点不仅会浪费算力提取特征和传播特征,也可能会由于大量的无效传播而影响预测。因此,本方法设计了传播强条件。具体步骤为:
第一步,分别计算概念对中两个概念的概念名和属性的初始化向量表示,具体计算方法如下:
a)生成一组概念的字符级N元模型(N-grams)作为集合代表;
b)将本体的属性视为文本字符串,并为每个本体的所有属性生成字符级的N元模型。然后将所有的N元模型合并成一个集合,作为本体的代表;
计算公式为:
Figure 745993DEST_PATH_IMAGE079
(2)
其中
Figure 980403DEST_PATH_IMAGE022
是概念或者属性的第
Figure 648144DEST_PATH_IMAGE023
个单词,
Figure 785865DEST_PATH_IMAGE024
Figure 248070DEST_PATH_IMAGE020
Figure 471241DEST_PATH_IMAGE024
,指的是连续出现的
Figure 677094DEST_PATH_IMAGE024
个单词;
Figure 669321DEST_PATH_IMAGE025
是在前
Figure 833586DEST_PATH_IMAGE026
到前
Figure 42588DEST_PATH_IMAGE027
个单词出现的情况下,第
Figure 786553DEST_PATH_IMAGE023
个单词是
Figure 898866DEST_PATH_IMAGE022
的概率,
Figure 702874DEST_PATH_IMAGE028
是含有
Figure 900637DEST_PATH_IMAGE029
单词序列的个数;
对于一个概念或者属性,N-grams的数量
Figure 448293DEST_PATH_IMAGE030
由如下公式计算:
Figure 415112DEST_PATH_IMAGE031
其中,
Figure 921180DEST_PATH_IMAGE032
为给定句子
Figure 340660DEST_PATH_IMAGE033
中的单词数;
a)可信的初始化种子:为了给相似性计算和传播提供更好的初始相似性种子,这些初始种子可以由其他匹配方法选择和生成;
第二步,采用传播强条件(Propagation Strength Condition)删减成对连通图中的无用节点;
给出两个三元组
Figure 190542DEST_PATH_IMAGE034
,让
Figure 11867DEST_PATH_IMAGE035
分别表示
Figure 423257DEST_PATH_IMAGE036
的相应相似性,
Figure 330033DEST_PATH_IMAGE037
由第一步初始化向量表示计算余弦相似度获取,具体公式如下:
Figure 219492DEST_PATH_IMAGE038
(4)
其中
Figure 160903DEST_PATH_IMAGE080
分别是两个本体三元组中对应词的N-grams集合向量。只有
Figure 743194DEST_PATH_IMAGE039
满足相应条件时,相似性才能被传播;
(1)在
Figure 402845DEST_PATH_IMAGE081
中,至少有两个相似性必须大于阈值
Figure 617968DEST_PATH_IMAGE082
,本发明中
Figure 148306DEST_PATH_IMAGE082
取0.005;
(2)如果
Figure 901498DEST_PATH_IMAGE083
包括本体语言基元,那么
Figure 782867DEST_PATH_IMAGE083
的相关位置就应该是
Figure 279707DEST_PATH_IMAGE084
的对应位置必须是相同的基元;
(3)
Figure 930131DEST_PATH_IMAGE083
Figure 588646DEST_PATH_IMAGE084
最多只有一个本体语言原语;
第三步,判断成对连通图结构特征,并进行图的序列化分块,具体步骤如下:
a)检查对连通图是否存在闭环,具体检测方法如下:
1)选择任意一个节点(类型)并标注为“查找中”;
2)沿着边依次访问所有与该节点相邻的节点;
3)如果访问到的节点没有标注任何状态,则将该节点标注为“查找中”;如果标注了“查找结束”,则不做任何处理,返回之前的节点;如果已经标注为“查找中”,则说明存在闭环;
从当前的节点重复1) 和2),如果已经没有可访问的相邻节点,则将该节点标注为“查找结束”,并沿原路返回;
4)按照上述流程对所有节点进行处理,如果查找过程中没有遇到“查找中”状态的节点,就说明不存在闭环;
若存在闭环,则按照公式(4)计算闭环中所有节点的相似度,并删除闭环中相似度最低的节点,若不存在,则进入b;
a)检查顶层节点个数(即根节点个数)是否超过1,若未超过1则判定该图结构为有根树进入d,否则判定为无根树结构进入c;
b)无根树向有根树转化,采用基于浅层字符串相似度算法,如下公式:
Figure 222889DEST_PATH_IMAGE085
(5)
其中
Figure 257842DEST_PATH_IMAGE086
分别表示字符串
Figure 526887DEST_PATH_IMAGE087
和字符串
Figure 356302DEST_PATH_IMAGE047
的下标。下标从1开始;
对顶层概念之间超过阈值
Figure 212263DEST_PATH_IMAGE088
的进行节点融合;
a)对树通过深度优先搜索进行节点序列化;
从序列的第一个节点起,每连续的
Figure 785327DEST_PATH_IMAGE089
个节点组成一个块。若最终剩余的元素不足
Figure 410343DEST_PATH_IMAGE089
个,令其组成一个块。其中
Figure 676239DEST_PATH_IMAGE090
为图中节点个数;
3)计算图中节点(即概念对)相似度矩阵,具体内容如下:
a)矩阵行列设计,包含了概念名、注释、不相交类、等价类、标签、子类、父类以及属性;
b)矩阵相似度算法,包含了基于字符串编辑距离、Jaccard相似度、TF-IDF、基于Bert的语义相似度以及编辑相似度,具体根据每一层采用的相似度算法如下表所示:
Figure 753917DEST_PATH_IMAGE091
4)采用多层卷积神经网络,对节点相似度矩阵提取特征向量,具体内容如下:
a)设计三层卷积,每一层对应的卷积核大小分别为18,36,72,进行多角度采样;
b)采用残差网络,将不同层的特征相加以更好地提取特征,这避免了前几层的特征在向后传播的过程中丢失的情况;
对于第
Figure 396251DEST_PATH_IMAGE092
层第
Figure 374309DEST_PATH_IMAGE093
个节点,其输出
Figure 811106DEST_PATH_IMAGE094
如下公式所示:
Figure 641659DEST_PATH_IMAGE095
(6)
其中
Figure 822105DEST_PATH_IMAGE094
是第
Figure 156134DEST_PATH_IMAGE092
层第
Figure 763833DEST_PATH_IMAGE093
个节点的权重矩阵,
Figure 816103DEST_PATH_IMAGE054
是卷积操作,
Figure 534660DEST_PATH_IMAGE055
是第
Figure 487310DEST_PATH_IMAGE048
层第
Figure 531489DEST_PATH_IMAGE049
个节点的偏差;
5)引入基于注意力机制的图神经网络,在节点及其邻居节点之间传播相似性特征并得到概念对的最终嵌入。等价本体的邻居通常也是等价的或相似的。因此,本体的结构信息对于发现本体的匹配至关重要。成对连通图中节点之间的边反映了概念对的相邻信息。为了获得包含邻居信息的概念对的特征表示,按照这些边传播概念对的属性特征。具体来说,即使用图卷积网络在图上传播概念对的属性特征。图卷积神经网络通过递归聚合其邻居的特征向量来学习图中的节点表征,它能够结合图中的节点特征和结构信息。具体过程如下:
a)计算节点
Figure 71055DEST_PATH_IMAGE096
到节点
Figure 327724DEST_PATH_IMAGE097
的边类型向量
Figure 636346DEST_PATH_IMAGE098
,公式如下:
Figure 585847DEST_PATH_IMAGE099
(7)
其中
Figure 612709DEST_PATH_IMAGE100
分别为节点
Figure 938648DEST_PATH_IMAGE096
的邻居节点和节点
Figure 101776DEST_PATH_IMAGE097
的邻居节点集合,
Figure 720714DEST_PATH_IMAGE101
为共享的权重矩阵,
Figure 234872DEST_PATH_IMAGE102
分别是节点
Figure 98923DEST_PATH_IMAGE096
和节点
Figure 116558DEST_PATH_IMAGE097
的特征向量;
b)将边类型向量拼接到节点
Figure 673441DEST_PATH_IMAGE096
和节点
Figure 674895DEST_PATH_IMAGE097
的特征向量上得到
Figure 77057DEST_PATH_IMAGE103
,公式如下:
Figure 214778DEST_PATH_IMAGE104
(8)
其中
Figure 441097DEST_PATH_IMAGE067
为激活函数,
Figure 664268DEST_PATH_IMAGE068
是一个可学习的参数,
Figure 870122DEST_PATH_IMAGE069
是从节点
Figure 862348DEST_PATH_IMAGE057
到节点
Figure 26614DEST_PATH_IMAGE062
的边类型向量;
c)对
Figure 471501DEST_PATH_IMAGE065
作归一化处理得到从节点
Figure 481046DEST_PATH_IMAGE057
到节点
Figure 593358DEST_PATH_IMAGE062
的注意力
Figure 397366DEST_PATH_IMAGE070
,公式如下:
Figure 296927DEST_PATH_IMAGE071
(9)
其中
Figure 844583DEST_PATH_IMAGE072
为节点
Figure 76981DEST_PATH_IMAGE057
的所有邻居节点集合;
d)利用注意力计算下一层向量表示
Figure 51890DEST_PATH_IMAGE073
,公式如下:
Figure 736950DEST_PATH_IMAGE074
(10)
其中
Figure 88296DEST_PATH_IMAGE075
为激活函数;
6)将节点的最终嵌入放入二分类器中预测对齐结果,并输出匹配对。具体预测流程如图6所示,本方法将采用支持向量机、决策树和随机森林三种方式共同预测,具体如下:
a)如果三者预测结果相同,则直接输出预测结果;
b)如果三者预测结果不同,则输出预测超过半数的分类结果。
实施案例
本发明提供了一种基于成对连通图和图神经网络的本体概念匹配方法,下面通过一个实施案例介绍本发明的实施过程。
给定两个示例本体,如图3和图4所示,
1)生成如图5所示成对连通图:在源本体中,reference是contribution和book的子类。在目标本体中,reference是contribution和paper的子类。根据生成规则,将源本体概念与目标本体的所有概念以及其子概念集合元素配对,配对结果如图6和图7所示;
2)生成相似度矩阵:例如节点<contribution, paper>的相似度矩阵如下表所示:
Figure 909622DEST_PATH_IMAGE105
3)利用卷积神经网络自动提取节点特征如下表所示:
Figure 819547DEST_PATH_IMAGE106
4)以上述节点特征为初始化特征,在成对连通图中传播聚合得到概念对的最终向量表示;
5)将学习到的嵌入输入到多个二分类器中,进行投票预测,如图8所示。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (10)

1.一种基于成对连通图和图神经网络的本体概念匹配方法,其特征在于:该方法包括如下步骤:
1)生成源本体和目标本体的成对连通图:
对于读取的原本题和目标本体按照成对连通图生成规则进行配对,其节点为概念对,边对应属性对;
2)对生成的成对连通图进行简化和分块化处理:
分别计算概念对中两个概念的概念名和属性的初始化向量表示,采用传播强条件删减成对连通图中的无用节点,判断成对连通图结构特征,并进行图的序列化分块;
3)计算图中节点相似度矩阵:
采用不同相似度算法计算多层相似度矩阵;
4)采用多层卷积神经网络,对节点相似度矩阵提取特征向量:
设计不同的卷积核并利用残差机制避免卷积过程中梯度消失;
5)基于图神经网络获取概念对的最终嵌入:
引入基于注意力机制的图神经网络,在节点及其邻居节点之间传播相似性特征并得到概念对的最终嵌入;
6)匹配预测:
基于机器学习的二分类器对节点的最终嵌入进行预测,并输出匹配对。
2.根据权利要求1所述的一种基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤1)具体为:
首先,分别读取源本体和目标本体的概念及其子概念集合;
其次,将每一个源本体概念
Figure 580456DEST_PATH_IMAGE001
和目标本体中的概念
Figure 949120DEST_PATH_IMAGE002
形成一个概念对节点
Figure 984072DEST_PATH_IMAGE003
,同时组合
Figure 223424DEST_PATH_IMAGE001
概念的所有子概念和
Figure 318419DEST_PATH_IMAGE002
的所有子概念形成若干概念对节点;
最后,让已经配对的概念与其子概念相互组合的若干概念对节点连接,对于源本体
Figure 174379DEST_PATH_IMAGE004
和目标本体
Figure 245978DEST_PATH_IMAGE005
,且
Figure 667732DEST_PATH_IMAGE006
,则
Figure 933628DEST_PATH_IMAGE007
则是由形如
Figure 11306DEST_PATH_IMAGE008
的三元组组成,其中
Figure 653640DEST_PATH_IMAGE009
分别代表节点集合、边集合和边类型集合,
Figure 867583DEST_PATH_IMAGE010
中的每个元素对应于
Figure 304381DEST_PATH_IMAGE004
Figure 869355DEST_PATH_IMAGE005
之间的本体对,
Figure 580959DEST_PATH_IMAGE011
中的每个元素对应于一个关系对,每条边的构建方法如下:
Figure 180567DEST_PATH_IMAGE012
其中,
Figure 286801DEST_PATH_IMAGE013
分别代表源本体和目标本体中父概念,
Figure 73492DEST_PATH_IMAGE014
分别代表
Figure 792049DEST_PATH_IMAGE015
的子概念,
Figure 246164DEST_PATH_IMAGE016
代表
Figure 821502DEST_PATH_IMAGE017
的关系,
Figure 361068DEST_PATH_IMAGE018
代表
Figure 883316DEST_PATH_IMAGE019
的关系。
3.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤2)中计算初始向量的方法包括三种,具体如下:
(1)生成一组概念的字符级n元模型
Figure 191937DEST_PATH_IMAGE020
作为集合代表;
(2)将本体的属性视为文本字符串,并为每个本体的所有属性生成字符级的n元模型,然后将所有的n元模型合并成一个集合,作为本体的代表,计算公式为:
Figure 875860DEST_PATH_IMAGE021
其中
Figure 135677DEST_PATH_IMAGE022
是概念或者属性的第
Figure 461617DEST_PATH_IMAGE023
个单词,
Figure 421482DEST_PATH_IMAGE024
Figure 541885DEST_PATH_IMAGE020
Figure 56043DEST_PATH_IMAGE024
,指的是连续出现的
Figure 920094DEST_PATH_IMAGE024
个单词;
Figure 937728DEST_PATH_IMAGE025
是在前
Figure 229032DEST_PATH_IMAGE026
到前
Figure 964907DEST_PATH_IMAGE027
个单词出现的情况下,第
Figure 865605DEST_PATH_IMAGE023
个单词是
Figure 800063DEST_PATH_IMAGE022
的概率,
Figure 527847DEST_PATH_IMAGE028
是含有
Figure 485439DEST_PATH_IMAGE029
单词序列的个数;
对于一个概念或者属性,N-grams的数量
Figure 691293DEST_PATH_IMAGE030
由如下公式计算:
Figure 683519DEST_PATH_IMAGE031
其中,
Figure 316626DEST_PATH_IMAGE032
为给定句子
Figure 27093DEST_PATH_IMAGE033
中的单词数;
(3)为了给相似性计算和传播提供更好的初始相似性种子,这些初始种子由其他匹配方法选择和生成。
4.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤2)中传播强条件的内容具体如下:
给出两个三元组
Figure 833375DEST_PATH_IMAGE034
,让
Figure 680108DEST_PATH_IMAGE035
分别表示
Figure 248231DEST_PATH_IMAGE036
的相应相似性,
Figure 914835DEST_PATH_IMAGE037
由第一步初始化向量表示计算余弦相似度获取,具体公式如下:
Figure 728070DEST_PATH_IMAGE038
只有
Figure 694889DEST_PATH_IMAGE039
满足相应条件时,相似性才能被传播。
5.根据权利要求4所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤2)中传播强条件只有
Figure 669799DEST_PATH_IMAGE039
满足以下三个条件时,相似性才能被传播
(1)在
Figure 151596DEST_PATH_IMAGE037
中,至少有两个相似性必须大于阈值
Figure 502943DEST_PATH_IMAGE040
(2)如果
Figure 58689DEST_PATH_IMAGE041
包括本体语言基元,那么
Figure 204499DEST_PATH_IMAGE041
的相关位置就应该是
Figure 609811DEST_PATH_IMAGE042
的对应位置必须是相同的基元;
(3)
Figure 764848DEST_PATH_IMAGE043
最多只有一个本体语言原语。
6.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤2)中判断成对连通图结构特征,并进行图的序列化分块,该算法具体过程如下:
第一步,检查成对连通图是否存在闭环,若存在则删除闭环中相似度最低的节点避免出现闭环,若不存在,则进入第二步;
第二步,检查顶层节点个数即根节点个数,判定是否超过1,若未超过1则判定该图结构为有根树进入第四步,否则判定为无根树结构进入第三步;
第三步,无根树向有根树转化,采用基于浅层字符串相似度匹配方式对顶层概念对进行融合,如下公式:
Figure 237418DEST_PATH_IMAGE044
其中
Figure 819709DEST_PATH_IMAGE045
分别表示字符串
Figure 682623DEST_PATH_IMAGE046
和字符串
Figure 579035DEST_PATH_IMAGE047
的下标,下标从1开始;
第四步,对树通过深度优先搜索进行节点序列化;
第五步,从序列的第一个节点起,每连续的指定个数节点组成一个块,若最终剩余的元素不足该个数,令其组成一个块。
7.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤3)中图中节点相似度矩阵,具体内容如下:
(1)矩阵行列设计,包含了概念名、注释、不相交类、等价类、标签、子类、父类以及属性;
(2)矩阵相似度算法,包含了基于字符串编辑距离、Jaccard相似度、TF-IDF、基于Bert的语义相似度以及编辑相似度。
8.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤4)中多层卷积神经网络,具体内容如下:
(1)设计三层卷积,对于第
Figure 374952DEST_PATH_IMAGE048
层第
Figure 924883DEST_PATH_IMAGE049
个节点,其输出
Figure 39207DEST_PATH_IMAGE050
如下公式所示:
Figure 536047DEST_PATH_IMAGE051
其中
Figure 920892DEST_PATH_IMAGE050
是第
Figure 844986DEST_PATH_IMAGE052
层第
Figure 213650DEST_PATH_IMAGE053
个节点的权重矩阵,
Figure 45340DEST_PATH_IMAGE054
是卷积操作,
Figure 550271DEST_PATH_IMAGE055
是第
Figure 645266DEST_PATH_IMAGE048
层第
Figure 970068DEST_PATH_IMAGE049
个节点的偏差;
(2)采用残差网络,将不同层的特征相加并保证节点特征输入输出维度一致,即
Figure 307246DEST_PATH_IMAGE056
9.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤5)中基于注意力机制的图神经网络,包括两层隐藏层和在基础的图神经网络上引入边类型向量,具体过程如下:
a)计算节点
Figure 932262DEST_PATH_IMAGE057
到节点
Figure 198159DEST_PATH_IMAGE058
的边类型向量
Figure 275836DEST_PATH_IMAGE059
,公式如下:
Figure 449328DEST_PATH_IMAGE060
其中
Figure 928851DEST_PATH_IMAGE061
分别为节点
Figure 365649DEST_PATH_IMAGE057
的邻居节点和节点
Figure 930622DEST_PATH_IMAGE062
的邻居节点集合,
Figure 111068DEST_PATH_IMAGE063
为共享的权重矩阵,
Figure 943633DEST_PATH_IMAGE064
分别是节点
Figure 551331DEST_PATH_IMAGE057
和节点
Figure 338022DEST_PATH_IMAGE058
的特征向量;
b)将边类型向量拼接到节点
Figure 322158DEST_PATH_IMAGE057
和节点
Figure 573011DEST_PATH_IMAGE062
的特征向量上得到
Figure 351611DEST_PATH_IMAGE065
,公式如下:
Figure 625598DEST_PATH_IMAGE066
其中
Figure 147846DEST_PATH_IMAGE067
为激活函数,
Figure 456468DEST_PATH_IMAGE068
是一个可学习的参数,
Figure 904504DEST_PATH_IMAGE069
是从节点
Figure 665787DEST_PATH_IMAGE057
到节点
Figure 726147DEST_PATH_IMAGE062
的边类型向量;
c)对
Figure 154854DEST_PATH_IMAGE065
作归一化处理得到从节点
Figure 275257DEST_PATH_IMAGE057
到节点
Figure 320573DEST_PATH_IMAGE062
的注意力
Figure 184624DEST_PATH_IMAGE070
,公式如下:
Figure 467838DEST_PATH_IMAGE071
其中
Figure 759142DEST_PATH_IMAGE072
为节点
Figure 993552DEST_PATH_IMAGE057
的所有邻居节点集合;
d)利用注意力计算下一层向量表示
Figure 661294DEST_PATH_IMAGE073
,公式如下:
Figure 533435DEST_PATH_IMAGE074
其中
Figure 995640DEST_PATH_IMAGE075
为激活函数。
10.根据权利要求1所述的基于成对连通图和图神经网络的本体概念匹配方法,其特征在于,步骤6)中基于机器学习的二分类器对节点的最终嵌入进行预测,使用机器学习的分类模型来预测匹配的概念对。
CN202210503221.5A 2022-05-10 2022-05-10 一种基于成对连通图和图神经网络的本体概念匹配方法 Active CN114818700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210503221.5A CN114818700B (zh) 2022-05-10 2022-05-10 一种基于成对连通图和图神经网络的本体概念匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210503221.5A CN114818700B (zh) 2022-05-10 2022-05-10 一种基于成对连通图和图神经网络的本体概念匹配方法

Publications (2)

Publication Number Publication Date
CN114818700A true CN114818700A (zh) 2022-07-29
CN114818700B CN114818700B (zh) 2022-09-23

Family

ID=82512715

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210503221.5A Active CN114818700B (zh) 2022-05-10 2022-05-10 一种基于成对连通图和图神经网络的本体概念匹配方法

Country Status (1)

Country Link
CN (1) CN114818700B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905561A (zh) * 2022-11-14 2023-04-04 华中农业大学 本体对齐方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515930A (zh) * 2021-05-14 2021-10-19 北京邮电大学 一种融合语义信息的异构设备本体匹配方法
CN113871021A (zh) * 2021-09-29 2021-12-31 曲阜师范大学 一种基于图注意力机制的circRNA与疾病关联关系预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113515930A (zh) * 2021-05-14 2021-10-19 北京邮电大学 一种融合语义信息的异构设备本体匹配方法
CN113871021A (zh) * 2021-09-29 2021-12-31 曲阜师范大学 一种基于图注意力机制的circRNA与疾病关联关系预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905561A (zh) * 2022-11-14 2023-04-04 华中农业大学 本体对齐方法、装置、电子设备及存储介质
CN115905561B (zh) * 2022-11-14 2023-11-10 华中农业大学 本体对齐方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114818700B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
Nickel et al. Poincaré embeddings for learning hierarchical representations
Bansal et al. Structured learning for taxonomy induction with belief propagation
EP3742357A1 (en) Active featuring in computer-human interactive learning
Yang et al. Co-embedding network nodes and hierarchical labels with taxonomy based generative adversarial networks
Shi et al. Distant supervision relation extraction via adaptive dependency-path and additional knowledge graph supervision
CN114818700B (zh) 一种基于成对连通图和图神经网络的本体概念匹配方法
Xint et al. Label incorporated graph neural networks for text classification
Andrews et al. Name phylogeny: A generative model of string variation
Li et al. Efficient community detection in heterogeneous social networks
Wu et al. A novel topic clustering algorithm based on graph neural network for question topic diversity
Lu et al. On semi-supervised multiple representation behavior learning
Gargiulo et al. Exploit hierarchical label knowledge for deep learning
Long et al. Mining latent academic social relationships by network fusion of multi-type data
Jiang et al. A survey on translating embedding based entity alignment in knowledge graphs
Zhao et al. Multi-label Node Classification On Graph-Structured Data
Zhu Exploring the power of text-rich graph representation learning
Perkins Separating the Signal from the Noise: Predicting the Correct Entities in Named-Entity Linking
Ling et al. MetaGNN-based medical records unstructured specialized vocabulary few-shot representation learning
Shan et al. DeepAM: Deep Semantic Address Representation for Address Matching
Chen Multi-relational Representation Learning and Knowledge Acquisition
Sun et al. Exploring sequence-to-sequence taxonomy expansion via language model probing
Momtazi et al. KBQA Enhanced with Textual Data
Deng Breaking Down Data Barriers: Knowledge Discovery and Natural Language Interfaces for Heterogeneous Data
Bar Augmenting Schema Matching for Scientific Data with Data Description Extraction
Hoogmoed Leveraging Clustering Algorithms on Connected Components for Entity Resolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant