CN101739414A - 一种本体概念映射方法 - Google Patents

一种本体概念映射方法 Download PDF

Info

Publication number
CN101739414A
CN101739414A CN200810197854A CN200810197854A CN101739414A CN 101739414 A CN101739414 A CN 101739414A CN 200810197854 A CN200810197854 A CN 200810197854A CN 200810197854 A CN200810197854 A CN 200810197854A CN 101739414 A CN101739414 A CN 101739414A
Authority
CN
China
Prior art keywords
semantic
elements
relation
similarity
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200810197854A
Other languages
English (en)
Inventor
杨宗凯
黄涛
刘清堂
汪虹
刘三女牙
赵刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN200810197854A priority Critical patent/CN101739414A/zh
Publication of CN101739414A publication Critical patent/CN101739414A/zh
Pending legal-status Critical Current

Links

Images

Abstract

一种本体概念映射方法,包括以下步骤:将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具有语义联系的相邻元素及其联系所构成的虚拟路径,即前驱元素-前驱元素与目标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关系-后驱元素;将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性比较;综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素虚拟路径的图形语义相似性;根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。本发明提供的本体概念映射方法侧重于概念的相邻元素及其语义联系,考察范围更为全面,提高了本体映射的质量和性能。

Description

一种本体概念映射方法
技术领域
本发明属于本体映射技术领域,特别是涉及一种基于虚拟路径的本体概念映射方法。
背景技术
本体作为一种语义和知识层面上的概念共享模型,自提出以来就引起数据整合、P2P系统、电子商务、语义Web服务、社会网络(Social Networks)等应用领域科研人员的广泛关注,并得到了有效的研究与应用,提出了一系列基于本体的领域问题解决方法。
本体映射(Ontology Mapping)是发现不同本体之间实体元素(包括本体的类、属性或者个体)映射关系的关键技术,已被国内外学者普遍认为是解决计算机系统语义异构问题的有效手段之一。
本体映射中映射元素是四元组<mID,Ni1,Nj2,R>,i=1...h;j=1..k;其中mID是独一无二的标示符,Ni1表示第一个图形的第i个结点,Nj2表示第二个图形的j个结点,h是第一个图形结点的数量,k是第二个图形结点的数量,R表示其中结点的相似关系。映射就是通过一定的方法找出这种映射关系的过程。
目前国内外有很多研究者都在研究本体映射技术,P.Shvaiko等人对本体映射操作的定义是输入两个本体,每个本体都由具体的实体Entity(包含类Class、属性properties、关系Relationships)等构成,最后的输出结果决定了这些实体之间的关系(等于、包含等关系)。
E.Rahm提出了本体映射方法分类。将模式/本体映射方法分为独立映射方法和混合映射方法两类,独立映射方法指一种可以单独进行本体映射的方法,混合映射方法中用到了二种以上的独立映射方法。独立映射方法包含基于模式的方法和基于实例的方法。基于模式的方法是目前研究比较多的一种方法,它包含元素层次的方法和结构层次的方法。
基于模式的映射方法:模式映射方法仅考虑模式结构信息(如XML Schema,ontology)等模式结构中概念、属性、关系等的语义相似性,而不考虑实例数据的相似性。模式映射方法是目前被广泛研究的方法,根据映射的粒度可以将模式映射划分为元素层次的映射方法和结构层次的映射方法。
基于实例的映射方法:实例映射方法考虑模式元素的实际内容或实际含义,模式可以通过实例数据手动或者自动的建立。例如可以从一个XML文档实例中提取出基于图形的XML Schema。
基于模式的映射方法大部分都可以适用于基于实例的映射方法,但是目前在实例的映射方法中,比较适用的是基于机器学习的方法。基于模式的映射方法主要包括以下四种:
(一)元素层次的映射方法:元素层次的映射方法是指从实体本身来考虑某个实体之间的映射,而不考虑实体周围的其他元素或者关系。也就是将元素从元素所处的虚拟中割裂出来单独考虑。
(二)结构层次的映射方法:结构层次的映射方法不仅从实体本身来考虑某个实体之间的映射,而将实体所处的结构综合考虑,即将元素和元素的属性、属性值等元素所处的结构中与元素相关的要素进行综合考虑。
(三)基于语言学的映射方法:语言层次的映射方法从实体的文本名称或者对实体的文本描述来考虑实体之间映射关系。语言层次的映射方法适用于本体(模式)元素层次的映射,目前运用比较广泛的基于语言学的映射方法主要包括基于关键字词频的统计方法,基于向量空间模型(VSM)的统计方法,基于编辑距离(Edit Distance)的方法。
(四)基于约束的映射方法:基于约束的方法从实体的类型或者线索来取得实体之间的映射关系,它既适用于元素层次的映射,也适用于结构层次的映射。它根据本体(模式)实体的数据类型、值域、关系类型、实体的势等约束条件来计算相似性(Similarity)。基于约束的方法很少独立使用,一般都是配合其他方法一起使用。
与本体映射方法分类相应,本体映射系统可以分为几大类:基于模式(Schema)的映射系统,基于实例(Instance)的映射系统,基于混合模式的映射系统。
Cupid是德国莱比锡大学(University of Leipzig)的Erhard Rahm和美国华盛顿大学(University of Washington)的Jayant Madhavan提出的一种模式映射方法。该方法将映射问题看成是计算两个模式元素的相似系数(SimilarityCoefficient),系数的取值范围在[0,1]之间,然后通过相似系数来推导元素的映射关系。该方法将模式映射分成两个步骤,分别计算元素的独立语义性和元素的结构语义性。第一步,计算元素的独立相似系数,Cupid采用的方法是基于语言学的映射方法(Linguistic Match),借用术语词典来映射独立元素的名称、数据类型和所属领域等信息。语言学的映射方法通过表征化(normalization)、归类(Categorization)等手段对独立元素进行映射,计算出元素的语言层次的相似系数lsim(linguistic similarity coefficients)。第二步,计算元素的结构相似系数,根据元素所处的模式结构来推导元素的相似系数。将元素所处的模式结构看成是树状图形,然后根据以下三个原则来推导元素的结构层次的相似系数ssim(structural similarity)。
COMA(COmbination of MAtching algorithms)是由德国莱比锡大学Hong-Hai Do和Erhard Rahm提出的一种组合多种映射方式的混合型模式映射系统,和Cupid采用独立映射方法不同的是,Coma系统采用的是混合映射方法,通过灵活地组合不同的映射方式及其结果来推导最终的模式映射结果。Coma映射系统将待比较的模式转化成带有根节点的有向无环图(Rooted Directed AcyclicGraphs),映射操作将输入两个模式,然后决定两个模式中元素的语义映射关系。Coma主要利用模式信息,如元素和结构属性,来重用以前的映射结果,在映射过程的不同阶段Coma应用了不同的组合策略,并选择合适的映射算法和映射系统,这可显著地提高映射效率。它由简单映射器(Simple Matchers)、混合映射器(Hybird Matchers)和复杂重用映射器(Complex Reuse oriented Matchers)组成。其中简单映射器主要分析元素名称的词义和语义相似系数。词义相似系数通过计算元素名称的前缀名、后缀名(Affix)、ngram、编辑距离(Edit Distance)、发音(Soundex)这4个近似字符串映射器(Approximate String Matcher)来获得。语义相似系数通过专业字典中元素的关系来获取,包括元素的同、异义以及数据类型等方面。混合映射器支持2种元素层次混合和3种结构层次混合方法,2种元素层次混合方法包括:名称(Name)和元素名称类型(NameType),3种结构层次混合方法包括名称路径、子结点和叶子结点。复杂重用映射器利用术语辞典的思想,将术语辞典中可重用的同义、异义元素的范围进行扩展,储存映射结构中通过简单映射器和混合映射器获取的映射关系,以便其他的映射器进行重用。Coma++是对Coma系统的扩展和改进,它支持模式和本体的映射,并使用图形界面的方法让用户来选择合适的映射策略和映射结果,通过用户的反馈来对映射的结果进行修改。
SF是由斯坦福大学(Stanford Univeristy)的Sergey Melnik和德国莱比锡大学Erhard Rahm于2002年提出的一种映射多种数据源的通用结构层次,可以广泛适用于多个应用领域。SF的基本思想是如果模式结构中两个相邻元素是相似的,那么可以推断这两个元素也是相似的。该方法将整个映射过程分成4步:首先通过函数SQL2Graph(Schema)将模式结构转化成有向标记图(labeledgraph),然后通过名称映射函数StringMatch(graph1,graph2)对有向图结构中的元素进行映射,得出元素之间的初始化相似系数initialMap。第三步,通过洪泛算法SFjoin(graph1,graph2,initialMap)对初始化相似系数进行迭代,直到它达到某个收敛值,作为元素之间结构相似系数SFresult。最后,它用选择阈值函数SelectThreshold(SFresult)来选择出符合条件的相似值。
Falcon-AO(Finding,aligning and learning ontologies,ultimately for capturingknowledge via ontology-driven approaches)是由东南大学瞿裕忠教授和胡伟博士等人开发的基于模式的本体对齐工具,它分别通过语言特性(LMO)和结构特性(GMO)两个途径来研究本体的相似性,这两个方法都是比较本体中元素的映射关系。LMO(Lingusitic Matching for Ontology)通过计算两个实体的编辑距离来计算元素的名称相似系数SS,然后通过向量空间模型(Vector Space Model)统计分析方法来得到两个文档的余弦相似系数DS,最后根据SS和DS的系数得到最终的语言层次相似系数。GMO(Graph Matching for Ontologies)将本体用双向图形表示,并将其中的实体用三元组(主语、断言、谓语)的形式表示,然后比较三元组的相似性。在对三元组进行比较时,使用邻接矩阵建模,通过对矩阵的计算来比较结构相似性。GMO和LMO互相独立,相似性比较的对象都是整个本体。LMO作为GMO的外部实体,对GMO的结果有一定的约束作用,例如当LMO很低的时候,最后的结果以GMO的结果为准。
H-Match是由意大利米兰大学Silvana Castano,Alfio Ferrara等人提出的面向分布式本体的动态映射方法,它以两个本体作为输入,并输出两个本体中具有语义相似性的元素对。相似性的分析是通过计算概念的[0,1]之间的语义相近系数(Semantic Affinity)。它是在模式映射方法Artemis的基础上,借鉴了基于WordNet词义系统的方法来计算概念的语言层次相似性(Linguistic Affinity),然后在语言层次概念相似性的基础上,给出了四个层次的结构相似性,分别是表面层次(Surface)、浅层次(Shallow),深层次(Deep),极深层次(Intensive),H-Match称之为语境相似性(Contextual Affinity)。这四个层次的相似性的语义程度是逐渐加强的,其中表面层次只考虑概念的语言层次相似性;浅层次在概念层次的基础上,加入概念的属性;深层次在浅层次的基础上加入语义联系;极深层次在深层次的基础上,加入概念的属性值。H-Match还根据用户的需求来制定映射策略,选择本体映射的层次、语境相似性和语言相似性的加权系数、以及映射限制等参数。它可以适用于OWL(OWL Lite、OWL DL和OWL Full)三种语言描述的本体映射。
S-Match是由意大利特兰托大学Fausto Giunchiglia、Pavel Shvaiko等人提出的模式语义映射系统,它和Cupid、Coma等模式映射系统采用的方法有很大的区别。Cupid、Coma等系统将模式映射分为元素层次映射和结构层次映射,并且映射的结构用[0,1]之间的相似系数表示。而S-Match采用概念标签映射、概念语义映射两个步骤来推导概念的语义联系,映射的结果用语义关系符(属于
Figure G2008101978548D0000071
包含
Figure G2008101978548D0000072
不相交上等)来表示。因此,S-Match被称为真正意义上的语义映射系统。S-Match将输入的本体表示成树状图形结构,然后将概念的映射分成概念的标签(Label)映射和概念映射。其中概念的标签映射采用语言层次的映射方法,并借用已有的语言层次映射器来计算概念标签的词义联系,并使用数据库来储存这些结果。S-Match的独创性在于概念的语义映射(Node Matching),它将树结点的语义用形式化模型表示,把树结点映射问题转化为命题正确问题。因此概念A和概念B的语义关系存在与否取决于公式(axioms)→rel(contextA,contextB)是否正确,S-Match通过将概念的语义关系比较转化为形式化公式的验证问题。对于公式的验证,S-Match使用标准的SAT(Propositional Satisfiability,SAT)解析器来进行判断。
GLUE是比较典型的基于实例的映射系统,它由美国华盛顿大学AnHaiDoan,Jayant Madhavan等人提出,是一种利用机器学习技术来发现本体映射关系的算法。给定两个本体,对其中一个本体的任意元素,Glue可以在另一本体中找到与之相映射的元素。Glue的另一个关键技术是使用多策略学习(MultipleLearning Strategies),每一个学习策略针对某一类型的本体数据实例或者模式信息。对元素A和元素B的相似性计算,Glue采用联合概率分布的方法来计算(区别于其他模式映射系统)。Glue系统由三个主要模块组成,分别是概率估计模块、相似性估计模块和释放标注模块(Relaxation Labeler Module)。概率估计模块中输入两个本体的元素以及它们实例,然后运用机器学习技术,利用多个基础学习机(base learner)和元学习机(Meta-learner)来计算联合概率分布。然后将概念分布结果输入相似性估计模块,该模块通过用户的参与,计算元素的相似性,并将相似性结果输出到相似性矩阵存储。释放标注模块从相似性矩阵中提取元素相似性值,与领域知识和相关规则进行映射,从中找出最符合领域知识和规则需求的相似系数,并作为Glue系统的最终结果输出。
基于集合的模式映射系统(Corpus based schema matching)是由美国华盛顿大学Jayant Madhavan和微软研究院(Microsoft Research)的Philip A.Bernstein等人提出的扩展模式映射系统,它的目标是解决模式映射系统缺少足够实例信息的缺陷。该方法利用模式所处的外部文本集合的信息来加强模式映射的结果。模式的外部文本集合包含了模式的多种表现形式,因此可以在集合中找到模式概念和属性的其他显示,并将这些加强信息增加到模式中。另外,还可以从不同模式但具有相似实例信息的模式结构中通过学习机(Learner)进行学习,从而推导出隐藏的模式映射关系。
基于集合的模式映射系统在实例学习方法上借鉴了Cupid和Glue等系统的映射方法,采用多策略学习机制,使用名称学习机(Name Learner)、文本学习机(Text Learner)、数据实例学习机(Data Instance Learner)、上下文语境学习机(Context Learner)、元学习机(Meta Learner)对模式实例信息进行归类,并在此基础上给出模式的增加元素模型,然后通过增加元素模型来进行模式映射。这种结合实例和模式映射的方法,可以利用实例映射来发现隐性相似元素,增加模式相似信息,以达到更高的映射召回率。
上述本体映射方法主要侧重于概念本身,以及概念的实例信息来对本体元素的语义相似性进行求取,并没有充分挖掘本体结构中概念的相邻元素及其语义联系。由于本体是概念以及概念关系的体现,因此概念的相邻元素及其语义联系对概念的语义影响是不可忽略的。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于虚拟路径的本体映射方法,克服了现有本体映射方法只考虑概念语义相似性,忽略概念相邻元素及其语义联系,利用本体语义程度低的缺陷。
本发明的技术方案包括以下步骤,
步骤一,将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具有语义联系的相邻元素及其联系所构成的虚拟路径;所述相邻元素包括有目标元素的前驱元素和后驱元素;所述虚拟路径的结构由5个独立要素组成,即前驱元素-前驱元素与目标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关系-后驱元素;
步骤二,将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性比较;
步骤三,综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素虚拟路径的图形语义相似性;
步骤四,根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。
而且,步骤三的具体实施方式为,将虚拟路径中各独立要素分为三组,第一组为前驱元素-前驱元素与目标元素之间的属性或者语义关系,第二组为目标元素,第三组为目标元素与后驱元素之间的属性或者语义关系-后驱元素;按分组将各独立要素的概念语义相似性加权综合为两个目标元素虚拟路径的图形语义相似性。
而且,当对前驱元素、目标元素或后驱元素进行概念语义相似性比较时,采用基于语言的方法和基于字符串的方法相结合的元素比较方法实现,具体实现方式如下,
首先采用基于语言的方法,即去除待比较的2个元素e1和e2的元素名称中的冗余信息;然后基于字符串的方法判断元素名称是否一致,即对元素名称逐个字符比较;如果一致,即元素名称的语义相似性为1;如果不相似,再借助外部信息源计算两个元素e1和e2的概念语义相似性,计算公式如下
SimE ( e 1 , e 2 ) = C base C base + sp + num ,
其中,sp表示元素e1和e2之间最短路径的长度,num表示元素e1和e2之间最短路径的方向改变次数,Cbase表示四种关系的语义相似度基数,如果两个元素是相等关系,那么Cbase=4C;两个元素是包含与属于关系,那么Cbase=3C;如果两个元素是部分与整体关系,那么Cbase=2C,如果两个元素是不相交关系,那么Cbase=C;C=1.0;
当对前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的属性或者语义关系进行概念语义相似性比较时,将属性或者语义关系视为元素,按上述独立要素比较方法实现。
由上述本发明提供的技术方案可以看出,该方法从元素相邻元素及其语义联系的要素出发,将元素的前驱元素、语义联系、元素的后驱元素组成元素的虚拟路径;针对元素的虚拟路径,在分别考察前驱元素,属性,元素本身以及后驱元素独立语义相似性的基础上,进行组合加权,得到虚拟路径的元素语义相似性,从而实现了基于虚拟路径的本体映射。该方法的优点是考虑元素的相邻元素及其语义联系等要素对元素语义的影响,将元素的语义考察范围确定为元素的虚拟路径,与现有的分析元素本体结构的语义相似度侧重于某个要素比较,该方法考察范围更为全面,克服了现有本体映射方法只考虑概念语义相似性,利用本体语义程度低的缺陷,提高了本体映射的质量和性能,该方法在计算机中运行的时间开销小,满足本体映射的性能要求。同时,该方法提高了本体映射的查全率,查准率以及F-measure等各项质量评价指标,在逻辑上满足本体映射的需求。
附图说明
图1为本发明的流程图;
图2为概念语义相似性比较示意图;
图3为本发明的图形语义相似性比较示意图;
图4为本发明实施例示意图。
具体实施方式
以下结合附图对本发明技术方案进行详细描述。按以下步骤实现本体概念映射。具体实施时,可以采用计算机手段实现。为了方便描述起见,图中将前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的属性或者语义关系简化标注为属性。
步骤一,将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具有语义联系的相邻元素及其联系所构成的虚拟路径;所述相邻元素包括有目标元素的前驱元素和后驱元素;所述虚拟路径的结构由5个独立要素组成,即前驱元素-前驱元素与目标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关系-后驱元素;
如附图3中所示,b2和b2′为待比较的两个目标元素。其中b2的前驱元素为b1,后驱元素为b3,构成的虚拟路径用(a)部分的树状结构表示;其中b2′的前驱元素为b1′,后驱元素为b3′,构成的虚拟路径用(b)部分的树状结构表示。
步骤二,将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性比较;
本发明提供了独创的独立要素比较方法,以便高效准确地获取概念语义相似性比较结果:无论是前驱元素、目标元素或后驱元素,都以元素为单位进行比较,将待比较的元素标记为e1和e2。首先采用基于语言的方法,即去除待比较的2个元素e1和e2的元素名称中的冗余信息;然后基于字符串的方法判断元素名称是否一致,即对元素名称逐个字符比较;如果一致,即元素名称的语义相似性为1;如果不相似,再借助外部信息源计算两个元素e1和e2的概念语义相似性,计算公式如下
SimE ( e 1 , e 2 ) = C base C base + sp + num ,
其中,sp表示元素e1和e2之间最短路径的长度,num表示元素e1和e2之间最短路径的方向改变次数,Cbase表示四种关系的语义相似度基数,如果两个元素是相等关系,那么Cbase=4C;两个元素是包含与属于关系,那么Cbase=3C;如果两个元素是部分与整体关系,那么Cbase=2C,如果两个元素是不相交关系,那么Cbase=C;C=1.0。其中比较特殊的是相等关系和不相交关系,当两个元素相同时,Cbase=4,sp=0,num=0,所以SimE(e1,e2)=1.0。当两个元素不相交时,Cbase=1,sp和num都远大于1,所示SimE(e1,e2)=0。
参见附图2,其中(a)部分表示的元素a1和a2之间是部分或整体关系,元素NCA表示两个元素的最近共同祖先元素。可以得出,Cbase=2,sp=2,num=1,所以元素a1和a2的概念语义相似度SimE(a1,a2)=2/(2+2+1)=0.4。图2(b)表示的元素a1′和a2′之间关系属于Strong(包含或属于关系),因此,Cbase=3,sp=1,num=0,由此得出元素a1′和a2′的概念语义相似度SimE(a1′,a2′)=3/(3+1+0)=0.75。
当对前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的属性或者语义关系进行概念语义相似性比较时,将属性或者语义关系视为一个元素,按上述独立要素比较方法实现即可。附图3中的虚拟路径中独立要素均按照独立要素比较方法分别比较后,得到前驱元素的概念语义相似性SimE(b1,b1′),前驱元素与目标元素之间属性的概念语义相似性SimE(P(b1),P(b1′)),目标元素的概念语义相似性SimE(b2,b2′),目标元素与后驱元素之间属性的概念语义相似性SimE(P(b2),P(b2′)),以及后驱元素的概念语义相似性SimE(b3,b3′)。
本发明所提供独立要素比较方法是对现有Hirst & St-Onge语义相似度比较方法的改进。Hirst & St-Onge语义相似度比较方法中sp和num都是作为差数出现,而在本发明所提供方案中作为分母出现。这种方法的优点是可以处理不相交关系中sp为无穷大,以及相同关系中,sp=0的特殊情况。另外,本发明提供的计算公式是经过标准化处理的,语义相似度值域在[0,1]之间,能够节约计算机系统运行开销。而Hirst & St-Onge语义相似度比较方法中是以权重Weight的值作为相似度的值,不符合语义相似度在[0,1]区间的特点。
步骤三,综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素的图形语义相似性;
考虑到元素与属性之间具有不可分割的意义,本发明提出综合虚拟路径内各独立要素的概念语义相似性的方案为:首先对虚拟路径内各独立要素进行分组,第一组为前驱元素-前驱元素与目标元素之间的属性或者语义关系,第二组为目标元素,第三组为目标元素与后驱元素之间的属性或者语义关系-后驱元素;按分组将各独立要素的概念语义相似性加权综合为两个目标元素虚拟路径的图形语义相似性。然后按组加权综合,其中第一组根据SimE(b1,b1′)和SimE(P(b1),P(b1′))求得表示该组元素以及元素属性或语义关系的相似关系的组合语义相似性SimEP(b2 pre,b2pre);第三组根据SimE(P(b2),P(b2′))和SimE(b3,b3′)求得该组的元素属性或语义关系以及元素的相似关系的组合语义相似性SimPE(b2 next,b2next)。虚拟路径的图形语义相似性可视为这三组的语义相似性加权之和,因此元素b2和b2′的虚拟路径的图形语义相似性
SimC(b2,b2′)=Wp*SimEP(b2 pre,b2pre)+We*SimE(b2,b2′)+Wn*SimPE(b2 next,b2next)
其中SimEP(b2 pre,b2pre)=SimE(b1*P(b1),b1′*P(b1′))=SimE(b1,b1′)*SimE(P(b1),P(b1′)),
SimPE(b2next,b2next)=SimE(P(b2)*b3,P(b2′)*b3′)=SimE(P(b2),P(b2′))*SimE(b3,b3′)。
Wp表示前驱元素及其属性的语义相似性分配的权重比例,We表示元素的独立语义相似性分配的权重比例,Wn表示属性与后驱元素的语义相似性分配的权重比例。这三个权重之和为1,即Wp+We+Wn=1。
步骤四,根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。
取得虚拟路径的图形语义相似性比较结果S后,即可根据结果推导两个目标元素之间的映射关系。本发明采用国际上广泛采用的映射关系分类方法,将映射关系类型分为:相等关系、类属关系、部分整体关系、不相交关系;如果语义相似性比较结果S=1,则两个元素为相等关系;如果0.8≤S<1,则两个元素为类属关系;如果0.5≤S<0.8,则两个元素为部分整体关系;如果S<0.5,则两个元素为不相交关系。
具体实施时,会出现一个目标元素有数个后驱元素等多种情况。为了便于实施,本发明提供了实施例以供参考,参见附图4:以c4和c4′为目标元素,附图4中(a)部分的树状结构中还有元素c1和c3,但以目标元素c4构成的虚拟路径只包括c4的前驱元素c2,后驱元素c5和c6;同样,(a)部分的树状结构中,以目标元素c4′构成的虚拟路径只包括c4′的前驱元素c3′,后驱元素c5′和c6′。附图4中给后驱元素c5和c6分别分配了权重W1和W2,后驱元素c5′和c6′分配了权重W1′和W2′。套用SimPE(b2 next,b2next)=SimE(P(b2)*b3,P(b2′)*b3′)=SimE(P(b2),P(b2′))*SimE(b3,b3′)计算时,本发明实施例采用两个权重平均值(W1和W1′)/2以及(W2+W2′)/2作为两个后驱元素路径的权重,求取后驱元素相关元素属性或语义关系以及元素的相似关系过程如下
SimPE ( c 4 next , c 4 &prime; next ) = SimE ( ( W 1 * P ( c 4 ) , c 5 , W 2 * P ( c 4 ) , c 6 ) , ( W 1 &prime; * P ( c 4 ) , c 5 &prime; , W 2 &prime; * P ( c 4 &prime; ) , c 6 &prime; ) )
+ ( W 1 + W 1 &prime; ) 2 * Sim ( P ( c 4 ) , P ( c 4 &prime; ) ) * Sim ( c 5 , c 5 &prime; ) + ( W 2 + W 2 &prime; ) 2 * Sim ( P ( c 4 ) , P ( c 4 &prime; ) ) * Sim ( c 6 , c 6 &prime; )

Claims (3)

1.一种本体概念映射方法,其特征在于:包括以下步骤,
步骤一,将待比较的两个本体概念定为目标元素,为两个目标元素分别建立由具有语义联系的相邻元素及其联系所构成的虚拟路径;所述相邻元素包括有目标元素的前驱元素和后驱元素;所述虚拟路径的结构由5个独立要素组成,即前驱元素-前驱元素与目标元素之间的属性或者语义关系-目标元素-目标元素与后驱元素之间的属性或者语义关系-后驱元素;
步骤二,将两个目标元素的虚拟路径中各独立要素分别对应进行概念语义相似性比较;
步骤三,综合虚拟路径内各独立要素的概念语义相似性,获取两个目标元素虚拟路径的图形语义相似性;
步骤四,根据虚拟路径的图形语义相似性推导两个目标元素之间的映射关系。
2.根据权利要求1所述的本体概念映射方法,其特征在于:步骤三的具体实施方式为,将虚拟路径中各独立要素分为三组,第一组为前驱元素-前驱元素与目标元素之间的属性或者语义关系,第二组为目标元素,第三组为目标元素与后驱元素之间的属性或者语义关系-后驱元素;按分组将各独立要素的概念语义相似性加权综合为两个目标元素虚拟路径的图形语义相似性。
3.根据权利要求1或2所述的本体概念映射方法,其特征在于:当对前驱元素、目标元素或后驱元素进行概念语义相似性比较时,采用基于语言的方法和基于字符串的方法相结合的独立要素比较方法实现,具体实现方式如下,
首先采用基于语言的方法,即去除待比较的2个元素e1和e2的元素名称中的冗余信息;然后基于字符串的方法判断元素名称是否一致,即对元素名称逐个字符比较;如果一致,即元素名称的语义相似性为1;如果不相似,再借助外部信息源计算两个元素e1和e2的概念语义相似性,计算公式如下
SimE ( e 1 , e 2 ) = C base C base + sp + num ,
其中,sp表示元素e1和e2之间最短路径的长度,num表示元素e1和e2之间最短路径的方向改变次数,Cbase表示四种关系的语义相似度基数,如果两个元素是相等关系,那么Cbase=4C;两个元素是包含与属于关系,那么Cbase=3C;如果两个元素是部分与整体关系,那么Cbase=2C,如果两个元素是不相交关系,那么Cbase=C;C=1.0;
当对前驱元素与目标元素之间的属性或者语义关系、目标元素与后驱元素之间的属性或者语义关系进行概念语义相似性比较时,将属性或者语义关系视为元素,按上述独立要素比较方法实现。
CN200810197854A 2008-11-25 2008-11-25 一种本体概念映射方法 Pending CN101739414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810197854A CN101739414A (zh) 2008-11-25 2008-11-25 一种本体概念映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810197854A CN101739414A (zh) 2008-11-25 2008-11-25 一种本体概念映射方法

Publications (1)

Publication Number Publication Date
CN101739414A true CN101739414A (zh) 2010-06-16

Family

ID=42462906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810197854A Pending CN101739414A (zh) 2008-11-25 2008-11-25 一种本体概念映射方法

Country Status (1)

Country Link
CN (1) CN101739414A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609413A (zh) * 2011-01-09 2012-07-25 华东师范大学 一种语义增强的词对间关系测度的控制方法以及系统
CN103473373A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 基于阈值匹配模型的相似度分析系统和方法
CN103473371A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据压栈系统和取数据压栈方法
CN103530334A (zh) * 2013-09-29 2014-01-22 方正国际软件有限公司 基于比较模板的数据匹配系统和方法
CN104239546A (zh) * 2014-09-23 2014-12-24 北京理工大学 一种基于场论的本体中概念相似度计算方法
CN104657371A (zh) * 2013-11-20 2015-05-27 腾讯科技(深圳)有限公司 一种数据展示方法和装置
CN104679823A (zh) * 2014-12-31 2015-06-03 智慧城市信息技术有限公司 基于语义标注的异构数据关联方法及系统
CN105426967A (zh) * 2015-12-24 2016-03-23 华中师范大学 一种学科知识表达与描述方法
CN105900117A (zh) * 2014-01-06 2016-08-24 思科技术公司 用于采集、规范、匹配和丰富数据的方法和系统
CN103729369B (zh) * 2012-10-15 2017-06-13 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
WO2017113886A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 数据清理方法及装置
CN107451124A (zh) * 2017-08-18 2017-12-08 山东省医药卫生科技信息研究所 一种考虑概念间关系的语义相关度计算方法
CN109358989A (zh) * 2018-12-25 2019-02-19 四川效率源信息安全技术股份有限公司 一种基于图论的雕复mysql-innodb数据库的方法
CN112487204A (zh) * 2020-12-01 2021-03-12 北京理工大学 一种数据本体映射方法及系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609413A (zh) * 2011-01-09 2012-07-25 华东师范大学 一种语义增强的词对间关系测度的控制方法以及系统
CN103729369B (zh) * 2012-10-15 2017-06-13 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
CN103473373A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 基于阈值匹配模型的相似度分析系统和方法
CN103473371A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据压栈系统和取数据压栈方法
CN103530334A (zh) * 2013-09-29 2014-01-22 方正国际软件有限公司 基于比较模板的数据匹配系统和方法
CN103473371B (zh) * 2013-09-29 2017-12-15 北大医疗信息技术有限公司 数据压栈系统和取数据压栈方法
CN104657371A (zh) * 2013-11-20 2015-05-27 腾讯科技(深圳)有限公司 一种数据展示方法和装置
CN105900117A (zh) * 2014-01-06 2016-08-24 思科技术公司 用于采集、规范、匹配和丰富数据的方法和系统
US10223410B2 (en) 2014-01-06 2019-03-05 Cisco Technology, Inc. Method and system for acquisition, normalization, matching, and enrichment of data
CN104239546A (zh) * 2014-09-23 2014-12-24 北京理工大学 一种基于场论的本体中概念相似度计算方法
CN104239546B (zh) * 2014-09-23 2021-11-23 北京理工大学 一种基于场论的本体中概念相似度计算方法
CN104679823A (zh) * 2014-12-31 2015-06-03 智慧城市信息技术有限公司 基于语义标注的异构数据关联方法及系统
CN105426967A (zh) * 2015-12-24 2016-03-23 华中师范大学 一种学科知识表达与描述方法
CN105426967B (zh) * 2015-12-24 2017-04-26 华中师范大学 一种学科知识表达与描述方法
WO2017113886A1 (zh) * 2015-12-30 2017-07-06 华为技术有限公司 数据清理方法及装置
CN107451124A (zh) * 2017-08-18 2017-12-08 山东省医药卫生科技信息研究所 一种考虑概念间关系的语义相关度计算方法
CN109358989A (zh) * 2018-12-25 2019-02-19 四川效率源信息安全技术股份有限公司 一种基于图论的雕复mysql-innodb数据库的方法
CN109358989B (zh) * 2018-12-25 2021-08-03 四川效率源信息安全技术股份有限公司 一种基于图论的雕复mysql-innodb数据库的方法
CN112487204A (zh) * 2020-12-01 2021-03-12 北京理工大学 一种数据本体映射方法及系统
CN112487204B (zh) * 2020-12-01 2023-03-28 北京理工大学 一种数据本体映射方法及系统

Similar Documents

Publication Publication Date Title
CN101739414A (zh) 一种本体概念映射方法
Ardjani et al. Ontology-alignment techniques: survey and analysis
CN106055675B (zh) 一种基于卷积神经网络和距离监督的关系抽取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
Bergamaschi et al. QUEST: A keyword search system for relational data based on semantic and machine learning techniques
CN103488637B (zh) 一种基于动态社区挖掘进行专家检索的方法
Essayeh et al. Towards ontology matching based system through terminological, structural and semantic level
Kim et al. Schema and constraints-based matching and merging of Topic Maps
Ehrig et al. Efficiency of ontology mapping approaches
Secer et al. Ontology mapping using bipartite graph
Giunchiglia et al. Computing minimal mappings
Nottelmann et al. A probabilistic, logic-based framework for automated web directory alignment
Zhou et al. Building real-time ontology based on adaptive filter for multi-domain knowledge organization
Eidoon et al. Ontology matching using vector space
Lera et al. Owl-m extension for semantic representations of ontology alignments
Hajmoosaei et al. An ontology-based approach for resolving semantic schema conflicts in the extraction and integration of query-based information from heterogeneous web data sources
Ma et al. Fuzzy semantic Web ontology mapping
Chen et al. Robust and Efficient Annotation based on Ontology Evolution for Deep Web Data.
Godugula et al. Survey of ontology mapping techniques
Fenza et al. Local Semantic Context Analysis for Automatic Ontology Matching.
Yan et al. Matching of different abstraction level knowledge sources: the case of inventive design
Nguyen et al. A framework to combine multiple matchers for pair-wise schema matching
Martinez-Gil SIFT: An Algorithm for Extracting Structural Information From Taxonomies
Villányi et al. A comparison of schema matching threshold function and ANFIS generated membership function
Martinez-Gil Taxonomy Structure Extraction: The SIFT Algorithm Ap-proach

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20100616