CN115905561B - 本体对齐方法、装置、电子设备及存储介质 - Google Patents
本体对齐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115905561B CN115905561B CN202211421293.1A CN202211421293A CN115905561B CN 115905561 B CN115905561 B CN 115905561B CN 202211421293 A CN202211421293 A CN 202211421293A CN 115905561 B CN115905561 B CN 115905561B
- Authority
- CN
- China
- Prior art keywords
- information
- aligned
- embedded
- ontology
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000005484 gravity Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002778 food additive Substances 0.000 description 1
- 235000013373 food additive Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000447 pesticide residue Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Machine Translation (AREA)
Abstract
本申请公开了一种本体对齐方法、装置、电子设备及存储介质,该方法包括:首先,根据所有本体的概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征;然后,将语义嵌入特征和结构嵌入特征进行融合,确定本体的最终嵌入特征;最后,获取待对齐最终嵌入特征,然后根据待对齐最终嵌入特征与先前获取到的本体的最终嵌入特征之间的关系,实现对待对齐本体的对齐。通过同时提取语义特征和结构特征,实现对本体的对齐,不仅提高了本体对齐的精度,避免了知识图谱的错误,并且由于本技术方案在进行本体对齐过程中对本体没有限制,因此能够根据需要将所有相关的本体纳入对齐范围,进一步提高本体对齐的可靠度。
Description
技术领域
本发明涉及信息分类技术领域,尤其涉及一种本体对齐方法、装置、电子设备及存储介质。
背景技术
本体(ontology)是共享概念模型的明确的形式化规范说明,每一个本体均是实际存在的唯一的个体;本体在语义Web,知识数据工程,电子商务等领域中均有广泛应用。
由于不同背景的知识工程师构造和维护相似或相同域的本体,使得不同知识体系(例如数据库、知识图谱)之间存在内容异构,为了实现不同知识体系之间知识的共享、重用和互操作,通常需要对不同知识体系之间的相同本体进行对齐,即将相同本体所描述的内容进行合并。
目前的本体对齐方法,主要是根据本体名称,通过同义词表匹配或者计算文本相似度的方式,对不同知识体系中的本体进行对齐。但是,在实际应用中,不同知识体系中对相同本体所采用的文本表述有可能存在较大差异,从而导致通过采用目前同义词表匹配,无法实现相同本体的对齐;另外,对于拥有相同名称却不表征同一个本体的情况,采用上述本体对齐方法会将不同的本体进行对齐,从而导致误判。如果本体对齐存在误判,将会导致对齐后的知识图谱出现错误,而知识图谱的错误可能会导致重大事故的发生。
因此,现有技术中在进行本体对齐时,存在由于对齐精度不高导致知识图谱出现错误的问题。
发明内容
有鉴于此,有必要提供一种本体对齐方法、装置、电子设备及存储介质,用以解决现有技术在进行本体对齐时,存在的由于对齐精度不高导致知识图谱出现错误的技术问题。
为了解决上述问题,本发明提供一种本体对齐方法,包括:
获取本体的概念信息和概念关系信息;
根据概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征;
根据语义嵌入特征和结构嵌入特征,确定本体的最终嵌入特征;
获取待对齐本体的待对齐最终嵌入特征,根据待对齐最终嵌入特征对待对齐本体进行对齐。
进一步地,根据概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征,包括:
根据概念信息,确定本体的语义嵌入特征;
根据概念信息和概念关系信息,确定本体的结构嵌入特征。
进一步地,根据概念信息,确定本体的语义嵌入特征,包括:
遍历本体中的概念信息,确定概念信息的关联路径;
根据关联路径,基于语义嵌入特征模型,确定本体的语义嵌入特征。
进一步地,根据概念信息和概念关系信息,确定本体的结构嵌入特征,包括:
根据概念信息和概念关系信息,确定本体的概念图;
根据概念图,确定嵌入特征节点;
根据嵌入特征节点,基于结构嵌入特征计算公式,确定本体的结构嵌入特征。
进一步地,根据语义嵌入特征和结构嵌入特征,确定本体的最终嵌入特征,包括:
根据语义嵌入特征,基于激活函数确定语义嵌入特征的比重;
根据语义嵌入特征的比重、语义嵌入特征和结构嵌入特征,确定本体的最终嵌入特征。
进一步地,获取待对齐本体的待对齐最终嵌入特征,根据待对齐最终嵌入特征对待对齐本体进行对齐,包括:
获取待对齐本体的待对齐最终嵌入特征;
根据待对齐最终嵌入特征和本体的最终嵌入特征,确定待对齐本体与本体之间的对齐距离;
根据对齐距离,对待对齐本体进行对齐。
进一步地,根据对齐距离,对待对齐本体进行对齐,包括:
根据对齐距离,确定待对齐本体的对齐置信度;
根据对齐置信度,对待对齐本体进行对齐。
为了解决上述问题,本发明还提供一种本体对齐装置,包括:
本体信息获取模块,用于获取本体的概念信息和概念关系信息;
嵌入特征确定模块,用于根据概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征;
最终嵌入特征确定模块,用于根据语义嵌入特征和结构嵌入特征,确定本体的最终嵌入特征;
本体对齐获取模块,用于获取待对齐本体的待对齐最终嵌入特征,根据待对齐最终嵌入特征对待对齐本体进行对齐。
为了解决上述问题,本发明还提供一种电子设备,包括处理器以及存储器,存储器上存储有计算机程序,计算机程序被处理器执行时,实现如前文所述的本体对齐方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,存储介质存储有计算机程序指令,当计算机程序指令被计算机执行时,使计算机执行如前文所述的本体对齐方法。
采用上述技术方案的有益效果是:本发明提供一种本体对齐方法、装置、电子设备及存储介质,该方法包括:首先,获取所有本体的概念信息和概念关系信息,并梳理清楚;其次,根据概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征,以实现对本体的语义特征提取和结构特征提取;接下来,将语义嵌入特征和结构嵌入特征进行融合,确定本体的最终嵌入特征;最后,对于待对齐本体,先获取待对齐最终嵌入特征,然后根据待对齐最终嵌入特征与先前获取到的本体的最终嵌入特征之间的关系,实现对待对齐本体的对齐。通过同时提取语义特征和结构特征,实现对本体的对齐,不仅提高了本体对齐的精度,避免了知识图谱的错误,并且由于本技术方案在进行本体对齐过程中对本体没有限制,因此能够根据需要将所有相关的本体纳入对齐范围,进一步提高本体对齐的可靠度。
附图说明
图1为本发明提供的本体对齐方法一实施例的流程示意图;
图2为本发明提供的确定本体的语义嵌入特征和结构嵌入特征一实施例的流程示意图;
图3为本发明提供的确定本体的语义嵌入特征一实施例的流程示意图;
图4为本发明提供的确定本体的结构嵌入特征一实施例的流程示意图;
图5为本发明提供的对待对齐本体进行对齐一实施例的流程示意图;
图6为本发明提供的本体对齐装置一实施例的结构示意图;
图7为本发明提供的电子设备一实施例的结构框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
分类,是指按照种类、等级或性质分别对对象进行归类处理。由于分类的标准不同,将会导致同一对象在不同的分类体系中,或者,同一分类体系中的不同对象,存在相互交叉的关系,从而导致同一对象的分类类型存在分歧,致使在使用的过程中存在错误。
当前,为了避免由于分类的不同导致在使用过程中对某一对象的误用,为了解决某一问题,会专门设置对应的一个或多个分类类型,实现对所有对象的统一分类。然而,以食品分类为例,食品添加剂国家标准、食品污染物限量国家标准和食品农药残留国家标准之间的食品分类也不尽相同。因此,一旦脱离针对的问题,便需要进行本体对齐,然而,由于分类标准不相同,分类结果自然也不同,那么本体对齐的精度不高,将会导致知识图谱出现错误。
因此,现有技术中在进行本体对齐时,存在由于对齐精度不高导致知识图谱出现错误的问题。
为了解决上述问题,本发明提供了一种本体对齐方法、装置、电子设备及存储介质,以下分别进行详细说明。
如图1所示,图1为本发明提供的本体对齐方法一实施例的流程示意图,包括:
步骤S101:获取本体的概念信息和概念关系信息。
步骤S102:根据概念和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征。
步骤S103:根据语义嵌入特征和结构嵌入特征,确定本体的最终嵌入特征。
步骤S104:获取待对齐本体的待对齐最终嵌入特征,根据待对齐最终嵌入特征对待对齐本体进行对齐。
本实施例中,首先,获取所有本体的概念信息和概念关系信息,并梳理清楚;其次,根据概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征,以实现对本体的语义特征提取和结构特征提取;接下来,将语义嵌入特征和结构嵌入特征进行融合,确定本体的最终嵌入特征;最后,对于待对齐本体,先获取待对齐最终嵌入特征,然后根据待对齐最终嵌入特征与先前获取到的本体的最终嵌入特征之间的关系,实现对待对齐本体的对齐。
本实施例中,可以根据需要将所有相关的本体纳入对齐范围,然后通过对每个本体进行语义特征提取和结构特征提取,确定每个本体对应的最终嵌入特征,最终根据各个本体的最终嵌入特征,与待对齐本体的待对齐最终嵌入特征进行相互匹配,从而实现对待对齐本体进行对齐。
作为优选的实施例,在步骤S101中,本体是对各种事物的概念信息以及概念关系信息的描述,可以看作是一种数据表示方式。
概念信息是本体中的各个分类对象。
概念关系信息是本体中的各个概念信息之间的上下位关系。
作为优选的实施例,在步骤S102中,为了确定本体的语义嵌入特征和结构嵌入特征,如图2所示,图2为本发明提供的确定本体的语义嵌入特征和结构嵌入特征一实施例的流程示意图,包括:
步骤S121:根据概念信息,确定本体的语义嵌入特征。
步骤S122:根据概念信息和概念关系信息,确定本体的结构嵌入特征。
本实施例中,在提取到本体中的所有概念信息后,根据概念信息本身的语义,确定每个概念信息的语义嵌入特征,从而确定该本体的语义嵌入特征;然后,再结合所有概念信息之间的关系,即,概念关系信息,确定每个概念信息的结构嵌入特征,从而确定该本体的结构嵌入特征。
作为优选的实施例,在步骤S121中,为了确定本体的语义嵌入特征,如图3所示,图3为本发明提供的确定本体的语义嵌入特征一实施例的流程示意图,包括:
步骤S1211:遍历本体中的概念信息,确定概念信息的关联路径。
步骤S1212:根据关联路径,基于语义嵌入特征模型,确定本体的语义嵌入特征。
本实施例中,首先,遍历本体中所有的概念信息,结合每个概念信息之间的关系,确定概念信息的关联路径;然后,根据关联路径,基于语义嵌入特征模型,确定本体的语义嵌入特征。
在一具体实施例中,在步骤S1211中,为了确定概念信息的关联路径,引入关联路径p1=(cchild1,c1,...,cn1)来表示第一个本体的关联路径,其中,该路径由当前概念信息c遍历到本体的根节点得到的概念序列和c随机选择的子概念组成。
在一具体实施例中,在步骤S1212中,语义嵌入特征模型的计算公式为:
esm=NNLM(v(pi))
其中,esm为本体中第i个概念信息ci的语义嵌入特征,pi为概念信息ci的关联路径,v(pi)是通过OWL2Vec*对关联路径pi求其对应的概念嵌入特征。
本实施例中,首先,通过OWL2Vec*确定每个概念信息在本体中的概念嵌入特征v(c);然后,基于概念嵌入特征v(c),对本体中的每个概念信息之间的关系进行探索和确认,确定每个概念信息的关联路径pi;最后,基于语义嵌入特征模型(NNLM),确定每个概念信息的语义嵌入特征,进而通过遍历计算,确定本体的语义嵌入特征。
作为优选的实施例,在步骤S122中,为了确定本体的结构嵌入特征,如图4所示,图4为本发明提供的确定本体的结构嵌入特征一实施例的流程示意图,包括:
步骤S1221:根据概念信息和概念关系信息,确定本体的概念图。
步骤S1222:根据概念图,确定嵌入特征节点。
步骤S1223:根据嵌入特征节点,基于结构嵌入特征计算公式,确定本体的结构嵌入特征。
本实施例中,首先,根据所有的概念信息和所有概念信息之间的关系,构建本体的概念图;然后,根据概念图,确定多个嵌入特征节点,以实现对于每个概念信息,都能得到对应的概念图;最后,在确定每个概念信息的嵌入特征节点的基础上,通过结构嵌入特征计算公式,确定本体的结构嵌入特征。
在一具体实施例中,在步骤S1221中,对于本体,其中,C表示本体中包括类、实例和属性在内的所有概念信息,R表示概念信息之间的关系。
进一步地,将所有概念信息视为节点集V,概念关系信息视为边集E,从而构建概念图G=(V,E)。
在一具体实施例中,在步骤S1222中,对于G中的每个节点,在进行结构嵌入特征计算时,都通过聚合其单跳邻居节点的特性来更新嵌入特征节点。
在一具体实施例中,在步骤S1223中,结构嵌入特征计算公式为:
est=GCN(v(ci))
其中,est为本体中第i个概念信息ci的结构嵌入特征,v(ci)是通过OWL2Vec*对概念信息ci求其对应的概念嵌入特征,GCN为图神经网络。
作为优选的实施例,为了获取可靠度较高的GCN,需要对GCN进行优化训练,首先,需要扩大GCN的训练样本数量,不仅为训练提供已有的较为可靠的正对齐的概念信息对,还需要生成负样本;然后,还需要对GCN的训练结果进行监督。
在一具体实施例中,为了获取负样本,对于一个正对齐的概念对(c1,c2),首先,计算嵌入特征空间的距离来选择除概念信息c2外其他的与概念信息c1最近的k个概念信息来替换c2,从而得到新的k个概念对,作为负样本。
在一具体实施例中,通过计算GCN的损失对GCN的训练结果进行监督,损失的计算公式为:
其中,γ为边界实数值,d1(ci1,ci2)为概念信息ci1与概念信息ci2之间的距离,d1(cj1,cj2)为概念信息cj1与概念信息cj2之间的距离,距离计算公式为:
其中,d1(c1,c2)为概念信息c1与概念信息c2之间的距离;为概念信息c1的结构嵌入特征,/>为概念信息c2的结构嵌入特征,||·||L1表示向量的L1范数。
通过上述计算,能够得到GCN的损失,当GCN的损失达到一定阈值时,说明GCN的训练结束,得到了训练完备的GCN。
作为优选的实施例,在步骤S103中,为了确定本体的最终嵌入特征,还需要基于激活函数确定语义嵌入特征的比重,然后根据语义嵌入特征的比重、语义嵌入特征和结构嵌入特征,确定每个概念信息的最终嵌入特征,从而确定本体的最终嵌入特征。
在一具体实施例中,为了将语义信息和结构信息结合起来,即,通过语义嵌入特征和结构嵌入特征共同表示概念信息的最终嵌入特征,构建了一个门控网络,其中,门控网络的计算公式包括:
g=η(Uesm+b)
e=g⊙esm+(1-g)⊙est
其中,g为语义嵌入特征的比重,U为可训练参数,b为偏置参数,η为sigmoid激活函数;e为概念信息c的最终嵌入特征,⊙为元素乘法;esm为概念信息c的语义嵌入特征,est为概念信息c的结构嵌入特征。
作为优选的实施例,在步骤S104中,为了对待对齐本体进行对齐,如图5所示,图5为本发明提供的对待对齐本体进行对齐一实施例的流程示意图,包括:
步骤S141:获取待对齐本体的待对齐最终嵌入特征。
步骤S142:根据待对齐最终嵌入特征和本体的最终嵌入特征,确定待对齐本体与本体之间的对齐距离。
步骤S143:根据对齐距离,对待对齐本体进行对齐。
本实施例中,首先,对于需要进行对齐的本体,即,待对齐本体,要先确定其所有概念信息对应的最终嵌入特征,即,待对齐最终嵌入特征;然后,根据待对齐最终嵌入特征,以及已有本体中的各个概念信息的最终嵌入特征,通过求距离处理,确定待对齐概念与本体概念之间的对齐距离;接下来,根据对齐距离,确定待对齐概念信息与本体概念信息之间的对齐置信度;最后,根据对齐置信度,对待对齐概念信息进行对齐,从而对待对齐本体进行对齐。
在一具体实施例中,在步骤S141中,本体的最终嵌入特征、待对齐本体的待对齐最终嵌入特征都是一向量的形式存在的。
在一具体实施例中,在步骤S142中,为了确定待对齐本体与本体之间的对齐距离,首先,需要对待对齐最终嵌入特征和其他的最终嵌入特征进行向量作差,确定对齐距离,记作d2(c1,c2),表示概念信息c1与概念信息c2之间的对齐距离;然后,重复迭代,实现对待对齐本体的对齐。
在一具体实施例中,对齐距离的计算公式为:
其中,||·||为向量的欧氏范数;e1和e2分别是概念信息c1和概念信息c2的最终嵌入特征向量。
作为优选的实施例,在步骤S143中,在获取到对齐距离后,首先,根据对齐置信度公式确定待对齐概念信息的对齐置信度,其中,对齐置信度公式为:
s=1-d2(c1,c2)
其中,s为待对齐概念信息c1的对齐置信度,d2(c1,c2)为待对齐概念信息c1与概念信息c2之间的对齐距离。
作为优选的实施例,在确定待对齐概念信息的对齐置信度后,选择较高的置信度对应的概念信息与待对齐概念信息进行对齐。也就是说,置信度越高,对齐的可靠度越高。
为了使得最后的置信度计算更加准确需要通过损失函数对其进行训练,损失的计算公式为:
其中,yi是第i个样本的标签,值为0或1;μ为一个可学习的边界超参数。
在一具体实施例中,还可以根据需要设置对齐置信度区间,确定在对齐置信度区间内的所有概念信息都与待对齐概念信息对齐。
通过上述方式,首先,获取本体中的所有概念信息的最终嵌入特征,由于最终嵌入特征是以向量形式存在的,因此,为了对概念信息进行对齐,计算待对齐概念信息的待对齐最终嵌入特征与其他概念信息的最终嵌入特征之间的距离,并根据距离确定待对齐概念信息与该概念信息之间的对齐置信度,从而确定与待对齐概念信息对齐的概念信息。一方面,可以根据需要将所有相关的本体纳入对齐范围,也就是说,能够对所有的概念信息进行对齐计算,从而有效避免由于分类标准不同,导致对象难以对齐的问题;另一方面,还通过对齐置信度进行数据表示两个概念信息之间的对齐可靠度,能够有效保证概念信息对齐的精度,避免由于主观判断造成的概念信息误用,即,误用对象的问题。
为了解决上述问题,本发明还提供了一种本体对齐装置,如图6所示,图6为本发明提供的本体对齐装置一实施例的结构示意图,本体对齐装置600包括:
本体信息获取模块601,用于获取本体的概念信息和概念关系信息;
嵌入特征确定模块602,用于根据概念信息和概念关系信息,分别确定本体的语义嵌入特征和结构嵌入特征;
最终嵌入特征确定模块603,用于根据语义嵌入特征和结构嵌入特征,确定本体的最终嵌入特征;
本体对齐获取模块604,用于获取待对齐本体的待对齐最终嵌入特征,根据待对齐最终嵌入特征对待对齐本体进行对齐。
本发明还相应提供了一种电子设备,如图7所示,图7为本发明提供的电子设备一实施例的结构框图。电子设备700可以是移动终端、桌上型计算机、笔记本、掌上电脑及服务器等计算设备。电子设备700包括处理器701以及存储器702,其中,存储器702上存储有本体对齐程序703。
存储器702在一些实施例中可以是计算机设备的内部存储单元,例如计算机设备的硬盘或内存。存储器702在另一些实施例中也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器702还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器702用于存储安装于计算机设备的应用软件及各类数据,例如安装计算机设备的程序代码等。存储器702还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,本体对齐程序703可被处理器701所执行,从而实现本发明各实施例的本体对齐方法。
处理器701在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器702中存储的程序代码或处理数据,例如执行本体对齐程序等。
本实施例还提供了一种计算机可读存储介质,其上存储有本体对齐程序,计算机该程序被处理器执行时,实现如上述任一技术方案所述的本体对齐方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种本体对齐方法,其特征在于,包括:
获取本体的概念信息和概念关系信息;
遍历所述本体中的所述概念信息,确定所述概念信息的关联路径,并根据所述关联路径,基于语义嵌入特征模型,确定所述本体的语义嵌入特征;
根据所述概念信息和所述概念关系信息,确定所述本体的结构嵌入特征;
根据所述语义嵌入特征和所述结构嵌入特征,确定所述本体的最终嵌入特征;
获取待对齐本体的待对齐最终嵌入特征,根据所述待对齐最终嵌入特征对所述待对齐本体进行对齐;
所述遍历所述本体中的所述概念信息,确定所述概念信息的关联路径,具体包括:遍历所述本体中所有的所述概念信息,结合每个所述概念信息之间的关系确定所述概念信息的所述关联路径;
其中,所述语义嵌入特征模型的计算公式为:
为所述本体中第i个所述概念信息ci的所述语义嵌入特征,/>为所述概念信息ci的所述关联路径,/>是通过词嵌入特征模型对所述关联路径/>求得的概念嵌入特征。
2.根据权利要求1所述的本体对齐方法,其特征在于,所述根据所述概念信息和所述概念关系信息,分别确定所述本体的语义嵌入特征和结构嵌入特征,包括:
根据所述概念信息,确定所述本体的语义嵌入特征;
根据所述概念信息和所述概念关系信息,确定所述本体的结构嵌入特征。
3.根据权利要求2所述的本体对齐方法,其特征在于,所述根据所述概念信息和所述念关系信息,确定所述本体的结构嵌入特征,包括:
根据所述概念信息和所述概念关系信息,确定所述本体的概念图;
根据所述概念图,确定嵌入特征节点;
根据所述嵌入特征节点,基于结构嵌入特征计算公式,确定所述本体的结构嵌入特征。
4.根据权利要求1所述的本体对齐方法,其特征在于,所述根据所述语义嵌入特征和所述结构嵌入特征,确定所述本体的最终嵌入特征,包括:
根据所述语义嵌入特征,基于激活函数确定语义嵌入特征的比重;
根据所述语义嵌入特征的比重、所述语义嵌入特征和所述结构嵌入特征,确定所述本体的最终嵌入特征。
5.根据权利要求1所述的本体对齐方法,其特征在于,所述获取待对齐本体的待对齐最终嵌入特征,根据所述待对齐最终嵌入特征对所述待对齐本体进行对齐,包括:
获取待对齐本体的待对齐最终嵌入特征;
根据所述待对齐最终嵌入特征和所述本体的所述最终嵌入特征,确定所述待对齐本体与所述本体之间的对齐距离;
根据所述对齐距离,对所述待对齐本体进行对齐。
6.根据权利要求5所述的本体对齐方法,其特征在于,所述根据所述对齐距离,对所述待对齐本体进行对齐,包括:
根据所述对齐距离,确定所述待对齐本体的对齐置信度;
根据所述对齐置信度,对所述待对齐本体进行对齐。
7.一种本体对齐装置,其特征在于,包括:
本体信息获取模块,用于获取本体的概念信息和概念关系信息;
语义嵌入特征确定模块,用于遍历所述本体中的所述概念信息,确定所述概念信息的关联路径,并根据所述关联路径,基于语义嵌入特征模型,确定所述本体的语义嵌入特征;
结构嵌入特征确定模块,用于根据所述概念信息和所述概念关系信息,确定所述本体的结构嵌入特征;
最终嵌入特征确定模块,用于根据所述语义嵌入特征和所述结构嵌入特征,确定所述本体的最终嵌入特征;
本体对齐获取模块,用于获取待对齐本体的待对齐最终嵌入特征,根据所述待对齐最终嵌入特征对所述待对齐本体进行对齐;
所述遍历所述本体中的所述概念信息,确定所述概念信息的关联路径,具体包括:遍历所述本体中所有的所述概念信息,结合每个所述概念信息之间的关系确定所述概念信息的所述关联路径;
其中,所述语义嵌入特征模型的计算公式为:
为所述本体中第i个所述概念信息ci的所述语义嵌入特征,/>为所述概念信息ci的所述关联路径,/>是通过词嵌入特征模型对所述关联路径/>求得的概念嵌入特征。
8.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-6任一项所述的本体对齐方法。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至6中任一所述的本体对齐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211421293.1A CN115905561B (zh) | 2022-11-14 | 2022-11-14 | 本体对齐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211421293.1A CN115905561B (zh) | 2022-11-14 | 2022-11-14 | 本体对齐方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115905561A CN115905561A (zh) | 2023-04-04 |
CN115905561B true CN115905561B (zh) | 2023-11-10 |
Family
ID=86480721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211421293.1A Active CN115905561B (zh) | 2022-11-14 | 2022-11-14 | 本体对齐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905561B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502587A (zh) * | 2019-07-08 | 2019-11-26 | 史健勇 | 基于语义融合的bim和gis集成方法 |
CN112199957A (zh) * | 2020-11-03 | 2021-01-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112949277A (zh) * | 2021-02-19 | 2021-06-11 | 中国科学院计算机网络信息中心 | 基于融合表征学习的学科分类体系对齐方法、系统及介质 |
CN113707339A (zh) * | 2021-08-02 | 2021-11-26 | 西安交通大学 | 一种多源异质数据库间概念对齐与内容互译方法及系统 |
CN114090783A (zh) * | 2021-10-15 | 2022-02-25 | 北京大学 | 一种异构知识图谱融合方法及系统 |
CN114818700A (zh) * | 2022-05-10 | 2022-07-29 | 东南大学 | 一种基于成对连通图和图神经网络的本体概念匹配方法 |
-
2022
- 2022-11-14 CN CN202211421293.1A patent/CN115905561B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502587A (zh) * | 2019-07-08 | 2019-11-26 | 史健勇 | 基于语义融合的bim和gis集成方法 |
CN112199957A (zh) * | 2020-11-03 | 2021-01-08 | 中国人民解放军战略支援部队信息工程大学 | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 |
CN112949277A (zh) * | 2021-02-19 | 2021-06-11 | 中国科学院计算机网络信息中心 | 基于融合表征学习的学科分类体系对齐方法、系统及介质 |
CN113707339A (zh) * | 2021-08-02 | 2021-11-26 | 西安交通大学 | 一种多源异质数据库间概念对齐与内容互译方法及系统 |
CN114090783A (zh) * | 2021-10-15 | 2022-02-25 | 北京大学 | 一种异构知识图谱融合方法及系统 |
CN114818700A (zh) * | 2022-05-10 | 2022-07-29 | 东南大学 | 一种基于成对连通图和图神经网络的本体概念匹配方法 |
Non-Patent Citations (1)
Title |
---|
Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks;Zhichun Wang et al.;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processin》;第350-356页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115905561A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489520B (zh) | 基于知识图谱的事件处理方法、装置、设备和存储介质 | |
US11461847B2 (en) | Applying a trained model to predict a future value using contextualized sentiment data | |
CN110458324B (zh) | 风险概率的计算方法、装置和计算机设备 | |
CN107679075B (zh) | 网络监控方法和设备 | |
CN113362157A (zh) | 异常节点识别方法、模型的训练方法、装置及存储介质 | |
CN114118816A (zh) | 一种风险评估方法、装置、设备及计算机存储介质 | |
CN113627182A (zh) | 数据匹配方法、装置、计算机设备及存储介质 | |
CN115905561B (zh) | 本体对齐方法、装置、电子设备及存储介质 | |
CN112417147A (zh) | 训练样本的选取方法与装置 | |
CN111680083A (zh) | 智能化多级政府财政数据采集系统及数据采集方法 | |
CN111461191A (zh) | 为模型训练确定图像样本集的方法、装置和电子设备 | |
CN116821087A (zh) | 输电线路故障数据库构建方法、装置、终端及存储介质 | |
CN116739795A (zh) | 基于知识图谱的保险风险评估方法、装置和电子设备 | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN115455198A (zh) | 模型训练方法、法律诉讼信息对齐融合方法及其终端设备 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
CN115186138A (zh) | 一种配电网数据的比对方法及终端 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN113139382A (zh) | 命名实体识别方法及装置 | |
CN116187313B (zh) | 基于自然语言处理技术的电力操作票设备识别与勘误方法 | |
CN114238634B (zh) | 正则表达式的生成方法及应用、装置、设备和存储介质 | |
CN113239128B (zh) | 基于隐式特征的数据对分类方法、装置、设备和存储介质 | |
Ghongade et al. | A Novel Method for Validating Addresses Using String Distance Metrics | |
CN116127976B (zh) | 公司名称的匹配方法、装置及电子设备 | |
CN116975300B (zh) | 基于大数据集合的信息挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |