CN104036048A - 一种本体与关系数据库模式之间的映射方法 - Google Patents

一种本体与关系数据库模式之间的映射方法 Download PDF

Info

Publication number
CN104036048A
CN104036048A CN201410314898.XA CN201410314898A CN104036048A CN 104036048 A CN104036048 A CN 104036048A CN 201410314898 A CN201410314898 A CN 201410314898A CN 104036048 A CN104036048 A CN 104036048A
Authority
CN
China
Prior art keywords
mapping
node
attribute
rs2o
schema
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410314898.XA
Other languages
English (en)
Other versions
CN104036048B (zh
Inventor
罗光春
田玲
秦科
刘贵松
于善龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201410314898.XA priority Critical patent/CN104036048B/zh
Publication of CN104036048A publication Critical patent/CN104036048A/zh
Application granted granted Critical
Publication of CN104036048B publication Critical patent/CN104036048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种本体模式与关系数据库模式之间的映射方法,建立RS2O图作为本体模式和关系模式的中间模型,将本体和关系数据库模式均转换为RS2O图;结合本体的RS2O图和关系数据库模式的RS2O建立对偶连通图,为对偶连通图中的映射对加上反向边构建诱导传播图;对映射对的相似度进行不动点迭代计算并进行人工反馈,根据计算结果匹配得到关系数据库模式元素与本体元素之间的映射关系。通过计算获得候选匹配关系,经人工验证后,确认匹配关系,极大的降低了人工代价,在降低映射关系的获取难度和时间花费的同时,又有效保证了最终获得的映射关系的正确率总是为100%。适用于异构关系数据库之间的数据交换、共享和整合。

Description

一种本体与关系数据库模式之间的映射方法
技术领域
本发明涉及异构数据库的数据集成领域,具体涉及一种本体与关系数据库模式之间的映射方法。
背景技术
数据库是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库中的数据是从全局观点出发建立的,按一定的数据模型进行组织、描述和存储,其结构基于数据间的自然联系,从而可提供一切必要的存取路径,且数据不再针对某一应用,而是面向全组织,具有整体的结构化特征。而数据库存放数据的模式也即数据模式,是某种特定数据模型的一种实现,是基于选定的数据模型对数据进行“型”方面的刻画,在数据库设计阶段由设计人员确定;而数据库中存放的数据也即“实例”,则是对数据“值”方面的描述。当前,典型的数据模型包括关系数据模型、XML数据模型、面向对象数据模型等。
随着信息技术的发展,各领域的合作越来越密切,数据的互操作性日显重要。但由于各数据源数据的自治性,导致各数据源的数据异构,包括系统异构、模式异构和语义异构。所谓系统异构即数据所依赖的应用系统、数据库管理系统或操作系统之间的不同;模式异构即数据在存储模式上的不同;语义异构是指对同一现实世界事物进行描述时,数据在表达方式或内容上的不同。因此,要实现异构数据库之间的数据共享,需要在不同数据模式之间,通过模式匹配找到源数据模式与目标数据模式之间的关联,并利用这些关联进行数据转换或查询。
随着语义网的提出和发展,越来越多的研究人员将本体应用于数据集成解决语义交互问题。本体的概念起源于哲学领域,在计算机领域中,引用最为广泛的定义是Gruber提出的“本体是概念化的明确的规范说明”。本体的目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念术语,并利用形式化手段给出这些概念术语及其之间相互联系的明确定义。本体构成要素也即构成本体的基本元素,包括个体也即实例、概念也即类、属性以及关系,而关系通常包含定义域和值域两部分,这两部分限定了该关系所适用的范围。利用数据模式与本体之间映射,一方面可以将数据库中已经存在的大量数据通过语义网技术进行发布和共享;另一方面,可以利用语义网技术对数据源进行语义包装,为数据源提供上下文语义,这利于消除数据源之间语义异构性,从而增强异构数据源之间的交互性。
但本体典型地应用场景是建模高级的语义信息,而关系模型用来描述低粒度水平的句法结构,因此,本体模式与关系数据库模式之间的匹配存在阻抗失配的问题。进一步的讲,数据库采用封闭世界假设,数据库模式是针对特定的应用而设计,数据库模式中的约束主要是为了保障数据库中数据的完整性,关系数据库模式通常采用SQL语言进行描述,在关系数据库模式的关系和属性不具备具有继承层次的表达能力,在数据库中与模式相关的最重要的推理是查询包含和依赖最小化;而本体采用开放世界假设,一般用于说明特定领域的概念体系,不依赖于某个具体的应用,本体中的约束是为了保障一致性和支持自动推理,本体一般采用基于逻辑的语言进行表达,本体中的概念和联系都具有继承层次的表达能力,本体中的推理主要是包含联系推理和概念的可满足性。
因此,目前,关系数据库模式与本体之间映射大部分仍以人工定义方式为主。为了能够更直观地构建数据库与本体之间的映射,许多项目的研究中都开发了图形化的映射工具,可以让用户以交互式方式构建数据库与本体之间的映射,典型的项目有COG、DartGrid、VisAVis等,以及申请号为200710156361.5、发明名称为本体模式与关系数据库模式之间语义映射信息的编辑方法的发明专利。通过人工的方式构建映射关系是最直接的方法,但是人工方法一般只在一些特定领域、特定情况下适用,如果数据库和本体的规模较大,那么构建映射的工作量太大,而且容易出错。
发明内容
本发明所要解决的技术问题是提供一种本体与关系数据库模式之间的映射方法,其能够缩短建立关系数据库模式与本体之间映射关系的难度和时间花费。
本发明解决技术问题所采用的技术方案是:一种本体与关系数据库模式之间的映射方法,包括如下步骤:
建立RS2O图模型,RS2O图的定义为:G=(V,lblv,ε,lblε),其中,V代表节点集合,lblv代表节点标记集合,ε代表边集合,lblε代表边标记集合;
步骤1)将本体的信息转化为RS2O图A,其转化包括以下内容:
1-1)初始化RS2O图A,V初始化为{nT},lblv初始化为{(nT,T)},ε和lblε均初始化为空集;其中nT和T分别代表表示顶层本体的节点和节点标记;
1-2)为本体的每一个类创建类节点,类节点的节点标记包括其类名;为本体中的每一个属性创建属性节点,属性节点的节点标记包括属性名;
1-3)为本体各属性的每一个定义域和值域创建有向边;
对于定义域,有向边的方向由代表该属性定义域的类节点指向该属性的属性节点;对于值域,有向边的方向由该属性的属性节点指向代表该属性值域的类节点;若该属性的值域为通用值域,则创建一条由该属性的属性节点指向nT的有向边;
若属性为数据属性,其边标记包括“val”标记;若属性为对象属性,其边标记包括“ref”标记;
步骤2)将关系数据库模式的信息转化为RS2O图B,其转化包括以下内容:
2-1)初始化图RS2O图B,其V、lblv、ε和lblε均初始化为空集;
2-2)为关系数据库模式的每一个表创建表节点并以其表名作为该节点的节点标记;为表的每一个列创建列节点并以其列名作为该节点的节点标记;
2-3)在每一个列的列节点同其所属表的表节点之间创建有向边,有向边的方向由代表该列的列节点指向其所属表的表节点,并以“val”作为其边标记;
2-4)为表结构的每一个外键列创建键节点,并创建两个边标记为“ref”的有向边,两有向边分别由代表该外键列的列节点指向该外键列所引用的两个表的表节点;
步骤3)对RS2O图A和RS2O图B进行映射匹配:
3-1)结合本体的RS2O图A和关系数据库模式的RS2O图B,建立对偶连通图PCG,形成映射对和由映射对构成的邻居;
3-2)为对偶连通图的邻居映射对之间加上反向边,并为每一条边添加权值,形成诱导传播图,权值为传播系数ω;
3-3)在诱导传播图中,使用σ(x,y)≥0代表映射对(x,y)的节点x和节点y之间的相似度,其中x∈A,y∈B;基于σ值进行不动点迭代计算;
在不动点迭代计算过程中,每完成一次所有映射对的相似度不动点迭代计算后,首先对计算结果进行人工反馈,分别针对计算结果中接受的映射对和拒绝的映射对的相似度进行赋值;然后对计算结果进行判定,若计算结果收敛或达到迭代次数上限,则完成计算,否则进行下一次的不动点迭代计算;
完成所有映射对的相似度不动点迭代计算,得到关系数据库模式元素与本体元素之间的一对一映射关系。
进一步的,传播系数ω的计算公式如下:
设在诱导传播图中,边e由映射对n1指向映射对n2,其传播系数ω(n1,n2)=(score(n1)*score(n2))/outl,其中,score(n1)为n1映射对节点间的相似度,score(n2)为n2映射对节点间的相似度,outl为图中具有相同标记的有向边的边数。
进一步的,所述步骤3-3)包括如下步骤:
3-3.1)采用编辑距离算法计算节点x和节点y间的编辑距离,并采用最小编辑距离作为两节点间的初始化相似度σ0;由σi代表第i次迭代后的相似度,公式如下:
( σ i ) ( x , y ) : = σ i - 1 ( x , y ) + Σ ( a u , p , x ) ∈ A , ( b u , p , y ) ∈ B σ i - 1 ( a u , b u ) · ω ( ( a u , b u ) , ( x , y ) ) + Σ ( x , p , a v ) ∈ A , ( y , p , b v ) ∈ B σ i - 1 ( a v , b v ) · ω ( ( a v , b v ) , ( x , y ) )
其中,映射对(au,bu)和映射对(av,bv)均表示映射对(x,y)的邻居映射对,其中,映射对(au,bu)表示的映射对和映射对(x,y)之间的边由映射对(au,bu)指向映射对(x,y),映射对(av,bv)表示的映射对和映射对(x,y)之间的边由映射对(x,y)指向映射对(av,bv);
3-3.2)根据步骤3-3.1)的公式,在完成一次所有映射对的相似度不动点迭代计算后,将各映射对的相似度除以本次计算的最大相似度;
3-3.3)根据步骤3-3.2)的计算结果进行人工反馈,若接受映射对则将该映射对的相似度赋值为1,若拒绝映射对则将该映射对的相似度赋值为0;
3-3.4)根据步骤3-3.3)的结果进行如下判断:
若映射对的不动点迭代计算结果收敛或达到迭代次数上限计算结果任不收敛,则该映射对的计算完成;否则将映射对的结果带入3-3.1)进行下一次的不动点迭代计算;
针对计算完成的映射对,若映射对的不动点迭代计算结果收敛,则该映射对的节点匹配,得到该映射对两节点所代表的关系数据库模式元素和本体元素之间的映射关系;若映射对达到迭代次数上限计算结果任不收敛,则该映射对的节点间不匹配;
3-3.5)完成所有映射对的相似度不动点迭代计算,得到关系数据库模式元素与本体元素之间的一对一映射关系。
进一步的,所述步骤3)之后设置有步骤4):将关系数据库模式的元素替换为与其存在映射关系的本体元素,得到本体化的关系数据库模式。
进一步的,在所述步骤4)中将得到的本体化的关系数据库模式采用XML SchemaDefinition格式进行封装。
本发明的有益效果是:通过建立中间模型,也即RS2O图模型,分别将关系数据库模式和本体转换为RS2O图,利用带标记的有向图将关系数据库模式和本体进行统一表示。RS2O图模型,将本体中的类元素类比为关系数据库模式中的表,本体中类元素间通过定义域和值域经有向边建立联系,关系数据库中通过外键关系经有向边建立表间的联系,从而构成本体与构成关系数据库模式元素的对应。
然后通过本体与关系数据库模式的RS2O图形成对偶连通图以及诱导传播图,再经不动点迭代计算节点间相似度;每次迭代计算后,由计算获得的相似度确定候选映射关系,经人工反馈后确认,因此,极大的降低了人工代价,在降低映射关系的获取难度和时间花费的同时,又有效保证了最终获得的映射关系的正确率总是为100%。
附图说明
图1为本发明的由RS2O图获得诱导传播图的流程示意图;
图2为SF算法的示例图;
图3为本发明的由诱导传播图获得映射关系的流程示意图;
图4为本发明的XML封装的流程示意图。
具体实施方式
下面结合说明书附图和实施例对本发明进一步说明。
如图1、图3所示,本发明的一种本体与关系数据库模式之间的映射方法,包括如下步骤:
建立RS2O图模型,RS2O图的定义为:G=(V,lblv,ε,lblε),其中,V代表节点集合,lblv代表节点标记集合,ε代表边集合,lblε代表边标记集合;
步骤1)将本体的信息转化为RS2O图A,其转化包括以下内容:
1-1)初始化RS2O图A,V初始化为{nT},lblv初始化为{(nT,T)},ε和lblε均初始化为空集;其中nT和T分别代表表示顶层本体的节点和节点标记;
1-2)为本体的每一个类创建类节点,类节点的节点标记包括其类名;为本体中的每一个属性创建属性节点,属性节点的节点标记包括属性名;
1-3)为本体各属性的每一个定义域和值域创建有向边;
对于定义域,有向边的方向由代表该属性定义域的类节点指向该属性的属性节点;对于值域,有向边的方向由该属性的属性节点指向代表该属性值域的类节点;若该属性的值域为通用值域,则创建一条由该属性的属性节点指向nT的有向边;
若属性为数据属性,其边标记包括“val”标记;若属性为对象属性,其边标记包括“ref”标记;
步骤2)将关系数据库模式的信息转化为RS2O图B,其转化包括以下内容:
2-1)初始化图RS2O图B,其V、lblv、ε和lblε均初始化为空集;
2-2)为关系数据库模式的每一个表创建表节点并以其表名作为该节点的节点标记;为表的每一个列创建列节点并以其列名作为该节点的节点标记;
2-3)在每一个列的列节点同其所属表的表节点之间创建有向边,有向边的方向由代表该列的列节点指向其所属表的表节点,并以“val”作为其边标记;
2-4)为表结构的每一个外键列创建键节点,并创建两个边标记为“ref”的有向边,两有向边分别由代表该外键列的列节点指向该外键列所引用的两个表的表节点;
步骤3)对RS2O图A和RS2O图B进行映射匹配:
3-1)结合本体的RS2O图A和关系数据库模式的RS2O图B,建立对偶连通图PCG,形成映射对和由映射对构成的邻居;
3-2)为对偶连通图的邻居映射对之间加上反向边,并为每一条边添加权值,形成诱导传播图,权值为传播系数ω;
3-3)在诱导传播图中,使用σ(x,y)≥0代表映射对(x,y)的节点x和节点y之间的相似度,其中x∈A,y∈B;基于σ值进行不动点迭代计算;
在不动点迭代计算过程中,每完成一次所有映射对的相似度不动点迭代计算后,首先对计算结果进行人工反馈,分别针对计算结果中接受的映射对和拒绝的映射对的相似度进行赋值;然后对计算结果进行判定,若计算结果收敛或达到迭代次数上限,则完成计算,否则进行下一次的不动点迭代计算;
完成所有映射对的相似度不动点迭代计算,得到关系数据库模式元素与本体元素之间的一对一映射关系。
上述nT代表本体中最顶层的概念,也即顶层本体,类似Thing在本体建模中的地位。在RS2O图中用于连接没有值域或定义域的本体对象属性,代替它们的值域或定义域。
本发明首先通过RS2O图模型,利用带标记的有向图将关系数据库模式和本体进行统一表示,使其适用于有向图的计算;然后借鉴Similarity Flooding算法,通过本体与关系数据库模式的RS2O图形成对偶连通图以及诱导传播图,再经不动点迭代计算节点间相似度,在每次迭代计算后经人工反馈也即用户反馈后对计算结果进行判断,确认匹配关系。上述人工反馈的方式,可以通过人工反馈赋值使该映射对在之后的判断中直接判定为接受或拒绝,或通过赋值提高或降低该映射对相似度在候选映射关系中的排名等方式进行。
人工反馈仅针对计算结果中接受的映射对和拒绝的映射对的相似度进行赋值,对无法判断的映射对不进行赋值,也即人工反馈处理的计算结果是该次迭代计算结果的子集;且根据每一次的不动点迭代计算结果排序能够获得候选的映射关系以方便人工反馈,因此能极大的降低了人工代价,在降低映射关系的获取难度和时间花费的同时,又有效保证了最终获得的映射关系的正确率总是为100%。
Similarity Flooding算法,简称SF算法,中文称为相似性洪泛法,是由斯坦福大学的Melnik等人提出的一个图匹配算法。SF算法的主要思想是依据数据库模式中的列属性和数据类型进行迭代不动点计算得到匹配结果,应用于同类型模式的匹配,也即实体联系模型之间的匹配以及XML模式之间的匹配。上述节点对、邻居、对偶连通图、诱导传播图、相似度不动点迭代计算的概念均可参照SF算法,SF算法的示例图如图2所示。
针对SF算法,结合图2,简介如下:
对偶连通图,英文为Pairwise Connectivity Graph,简称PCG,是由有向图A和有向图B派生出来的辅助数据结构,图中的每条边用一个三元组(s,p,o)表示,其中,s表示源点,p表示边名,o表示目的点。为了说明由A和B得到对偶连通图的方法,这里需要定义对偶连通图:
( ( x , y ) , p , ( x ′ , y ′ ) ) ∈ PCG ( A , B ) ⇔ ( x , p , x ′ ) ∈ Aand ( y , p , y ′ ) ∈ B
对偶连通图中的每个节点都来自A×B,并把(x,y)这样的节点叫做映射对。结合图2中的映射对(a,b)和(a1,b1),如果a与b相似,那么a1在某种程度上也可能与b1相似,这种可能性是源于l1边在图A中连接a和a1并且在图B中连接b和b1。在对偶连通图中体现了这种可能性,并把(a,b)和(a1,b1)叫做邻居。
诱导传播图,英文为Induced Propagation Graph,简称IPG,是从PCG图推导而来,加上了反向的边,边的权代表传播系数,衡量传播给邻居相似性的多少。
SF算法对于遵循相同模型规则的模式元素的匹配效果显著,但如背景技术部分所述,本体与关系数据库模式之间存在巨大的差异,SF算法在关系数据库模式和本体的匹配上效果较差,并不适用于本体与关系数据库模式之间的映射匹配。针对SF算法,进一步的可参考文献《Similarity Flooding:A Versatile Graph Matching Algorithm and Its Application toSchema Matching》(Melnik S,Molina-Garcia H,Rahm E,ICDE conference,2002:117-128)。
本发明通过建立RS2O图这一中间模型,并利用RS2O图这一中间模型将关系数据库模式和本体转化为统一的有向标记图,并通过关系数据库模式和本体的RS2O图形成SF算法的对偶连通图,使之适用于SF算法,突破了SF算法的局限;同时,对SF算法进行改良,引入人工反馈,从根本上改变了原SF算法的结构,删除了过滤的步骤,使得匹配结果正确可用。其次,本发明的方法,通过赋予边标记以统一的、额外的标记,能够额外的集成特定领域的信息,使得对某些领域的匹配工作更加有效。
针对传播系数ω,可采用现有的任意算法。进一步的,本发明引入新的边权值也即传播系数算法,使得边权值的计算更能反映节点对的相似程度,具体的,传播系数ω的计算公式如下:
设在诱导传播图中,边e由映射对n1指向映射对n2,其传播系数ω(n1,n2)=(score(n1)*score(n2))/outl,其中,score(n1)为n1映射对节点间的相似度,score(n2)为n2映射对节点间的相似度,outl为图中具有相同标记的有向边的边数。
针对相似度的不动点迭代计算,同样可采用现有的任意算法。在本发明中,具体的,所述步骤3-3)包括如下步骤:
3-3.1)采用编辑距离算法计算节点x和节点y间的编辑距离,并采用最小编辑距离作为两节点间的初始化相似度σ0;由σi代表第i次迭代后的相似度,公式如下:
( σ i ) ( x , y ) : = σ i - 1 ( x , y ) + Σ ( a u , p , x ) ∈ A , ( b u , p , y ) ∈ B σ i - 1 ( a u , b u ) · ω ( ( a u , b u ) , ( x , y ) ) + Σ ( x , p , a v ) ∈ A , ( y , p , b v ) ∈ B σ i - 1 ( a v , b v ) · ω ( ( a v , b v ) , ( x , y ) )
其中,映射对(au,bu)和映射对(av,bv)均表示映射对(x,y)的邻居映射对,其中,映射对(au,bu)表示的映射对和映射对(x,y)之间的边由映射对(au,bu)指向映射对(x,y),映射对(av,bv)表示的映射对和映射对(x,y)之间的边由映射对(x,y)指向映射对(av,bv);
3-3.2)根据步骤3-3.1)的公式,在完成一次所有映射对的相似度不动点迭代计算后,将各映射对的相似度除以本次计算的最大相似度;
3-3.3)根据步骤3-3.2)的计算结果进行人工反馈,若接受映射对则将该映射对的相似度赋值为1,若拒绝映射对则将该映射对的相似度赋值为0;
3-3.4)根据步骤3-3.3)的结果进行如下判断:
若映射对的不动点迭代计算结果收敛或达到迭代次数上限计算结果任不收敛,则该映射对的计算完成;否则将映射对的结果带入3-3.1)进行下一次的不动点迭代计算;
针对计算完成的映射对,若映射对的不动点迭代计算结果收敛,则该映射对的节点匹配,得到该映射对两节点所代表的关系数据库模式元素和本体元素之间的映射关系;若映射对达到迭代次数上限计算结果任不收敛,则该映射对的节点间不匹配;
3-3.5)完成所有映射对的相似度不动点迭代计算,得到关系数据库模式元素与本体元素之间的一对一映射关系。
上述编辑距离算法为现有算法,使用节点标记的字符串匹配。迭代次数上限可直接引用现有SF算法的定量计算方法,在本实施例中,设定的迭代上限是对偶连通图中映射对数量的平方。
进一步的,所述步骤3)之后设置有步骤4):将关系数据库模式的元素替换为与其存在映射关系的本体元素,得到本体化的关系数据库模式。此时,各成员关系数据库表结构的元素均替换为与其存在映射关系的本体元素,因此,能够直接实现各成员关系数据库间的语义互通和数据交换,而无需转换。
为了进一步提高跨平台的通用性,在所述步骤4)中将得到的本体化的关系数据库模式采用XML Schema Definition格式进行封装。
XML是eXtensible Markup Language的缩写,中文称为可扩展标记语言,其易于在任何应用程序中读写数据,不依附于特定浏览器,是当前数据交换常用的公共语言。
XML Schema Definition简称XSD,是用于描述XML文档的结构。具体的讲,文档设计者可以通过XSD指定一个XML文档所允许的结构和内容,并可据此检查一个XML文档是否是有效的。其次,XSD本身是一个XML文档,符合XML语法结构,可以用通用的XML解析器解析它。一个XSD通常会定义:文档中出现的元素、文档中出现的属性、子元素、子元素的数量、子元素的顺序、元素是否为空、元素和属性的数据类型、元素或属性的默认和固定值。
XML层次树结构表示的XSD图是以一个根为基础建立的,其他子元素都必须与根元素相关。所以关系数据库模式也要表示成一种“树”型结构才能转换成XSD的层次树结构。为了执行转换过程,用户需要选择一个根关系。因此,封装过程如图4所示,首先将本体化后的关系数据库模式表示为一种扩展实体关系模型,从关系数据库模式中找出表中分类关系,关系包括主键,外键和复合键,然后依据数据的语义约束将它们的关系进行分类,这样就得到了关系模式的语义抽象——扩展实体关系;然后选择一个根关系,之后将扩展实体关系模型的各元素转化为XML的元素。
采用XSD格式进行数据封装,能够直接用于数据结构验证,能够极大的方便数据交换和共享,具体方式可采用任意的现有方式。

Claims (5)

1.一种本体与关系数据库模式之间的映射方法,其特征在于,包括如下步骤:
建立RS2O图模型,RS2O图的定义为:G=(V,lblv,ε,lblε),其中,V代表节点集合,lblv代表节点标记集合,ε代表边集合,lblε代表边标记集合;
步骤1)将本体的信息转化为RS2O图A,其转化包括以下内容:
1-1)初始化RS2O图A,V初始化为{nT},lblv初始化为{(nT,T)},ε和lblε均初始化为空集;其中nT和T分别代表表示顶层本体的节点和节点标记;
1-2)为本体的每一个类创建类节点,类节点的节点标记包括其类名;为本体中的每一个属性创建属性节点,属性节点的节点标记包括属性名;
1-3)为本体各属性的每一个定义域和值域创建有向边;
对于定义域,有向边的方向由代表该属性定义域的类节点指向该属性的属性节点;对于值域,有向边的方向由该属性的属性节点指向代表该属性值域的类节点;若该属性的值域为通用值域,则创建一条由该属性的属性节点指向nT的有向边;
若属性为数据属性,其边标记包括“val”标记;若属性为对象属性,其边标记包括“ref”标记;
步骤2)将关系数据库模式的信息转化为RS2O图B,其转化包括以下内容:
2-1)初始化图RS2O图B,其V、lblv、ε和lblε均初始化为空集;
2-2)为关系数据库模式的每一个表创建表节点并以其表名作为该节点的节点标记;为表的每一个列创建列节点并以其列名作为该节点的节点标记;
2-3)在每一个列的列节点同其所属表的表节点之间创建有向边,有向边的方向由代表该列的列节点指向其所属表的表节点,并以“val”作为其边标记;
2-4)为表结构的每一个外键列创建键节点,并创建两个边标记为“ref”的有向边,两有向边分别由代表该外键列的列节点指向该外键列所引用的两个表的表节点;
步骤3)对RS2O图A和RS2O图B进行映射匹配:
3-1)结合本体的RS2O图A和关系数据库模式的RS2O图B,建立对偶连通图PCG,形成映射对和由映射对构成的邻居;
3-2)为对偶连通图的邻居映射对之间加上反向边,并为每一条边添加权值,形成诱导传播图,权值为传播系数ω;
3-3)在诱导传播图中,使用σ(x,y)≥0代表映射对(x,y)的节点x和节点y之间的相似度,其中x∈A,y∈B;基于σ值进行不动点迭代计算;
在不动点迭代计算过程中,每完成一次所有映射对的相似度不动点迭代计算后,首先对计算结果进行人工反馈,分别针对计算结果中接受的映射对和拒绝的映射对的相似度进行赋值;然后对计算结果进行判定,若计算结果收敛或达到迭代次数上限,则完成计算,否则进行下一次的不动点迭代计算;
完成所有映射对的相似度不动点迭代计算,得到关系数据库模式元素与本体元素之间的一对一映射关系。
2.如权利要求1所述的一种本体与关系数据库模式之间的映射方法,其特征是在于传播系数ω的计算公式如下:
设在诱导传播图中,边e由映射对n1指向映射对n2,其传播系数ω(n1,n2)=(score(n1)*score(n2))/outl,其中,score(n1)为n1映射对节点间的相似度,score(n2)为n2映射对节点间的相似度,outl为图中具有相同标记的有向边的边数。
3.如权利要求1所述的一种本体与关系数据库模式之间的映射方法,其特征是在于:所述步骤3-3)包括如下步骤:
3-3.1)采用编辑距离算法计算节点x和节点y间的编辑距离,并采用最小编辑距离作为两节点间的初始化相似度σ0;由σi代表第i次迭代后的相似度,公式如下:
( σ i ) ( x , y ) : = σ i - 1 ( x , y ) + Σ ( a u , p , x ) ∈ A , ( b u , p , y ) ∈ B σ i - 1 ( a u , b u ) · ω ( ( a u , b u ) , ( x , y ) ) + Σ ( x , p , a v ) ∈ A , ( y , p , b v ) ∈ B σ i - 1 ( a v , b v ) · ω ( ( a v , b v ) , ( x , y ) )
其中,映射对(au,bu)和映射对(av,bv)均表示映射对(x,y)的邻居映射对,其中,映射对(au,bu)表示的映射对和映射对(x,y)之间的边由映射对(au,bu)指向映射对(x,y),映射对(av,bv)表示的映射对和映射对(x,y)之间的边由映射对(x,y)指向映射对(av,bv);
3-3.2)根据步骤3-3.1)的公式,在完成一次所有映射对的相似度不动点迭代计算后,将各映射对的相似度除以本次计算的最大相似度;
3-3.3)根据步骤3-3.2)的计算结果进行人工反馈,若接受映射对则将该映射对的相似度赋值为1,若拒绝映射对则将该映射对的相似度赋值为0;
3-3.4)根据步骤3-3.3)的结果进行如下判断:
若映射对的不动点迭代计算结果收敛或达到迭代次数上限计算结果任不收敛,则该映射对的计算完成;否则将映射对的结果带入3-3.1)进行下一次的不动点迭代计算;
针对计算完成的映射对,若映射对的不动点迭代计算结果收敛,则该映射对的节点匹配,得到该映射对两节点所代表的关系数据库模式元素和本体元素之间的映射关系;若映射对达到迭代次数上限计算结果任不收敛,则该映射对的节点间不匹配;
3-3.5)完成所有映射对的相似度不动点迭代计算,得到关系数据库模式元素与本体元素之间的一对一映射关系。
4.如权利要求1、2或3所述的一种本体与关系数据库模式之间的映射方法,其特征在于,所述步骤3)之后设置有步骤4):将关系数据库模式的元素替换为与其存在映射关系的本体元素,得到本体化的关系数据库模式。
5.如权利要求4所述的一种本体与关系数据库模式之间的映射方法,其特征在于,在所述步骤4)中将得到的本体化的关系数据库模式采用XML Schema Definition格式进行封装。
CN201410314898.XA 2014-07-02 2014-07-02 一种本体与关系数据库模式之间的映射方法 Active CN104036048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410314898.XA CN104036048B (zh) 2014-07-02 2014-07-02 一种本体与关系数据库模式之间的映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410314898.XA CN104036048B (zh) 2014-07-02 2014-07-02 一种本体与关系数据库模式之间的映射方法

Publications (2)

Publication Number Publication Date
CN104036048A true CN104036048A (zh) 2014-09-10
CN104036048B CN104036048B (zh) 2016-12-21

Family

ID=51466818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410314898.XA Active CN104036048B (zh) 2014-07-02 2014-07-02 一种本体与关系数据库模式之间的映射方法

Country Status (1)

Country Link
CN (1) CN104036048B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045933A (zh) * 2015-09-08 2015-11-11 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN108228774A (zh) * 2017-12-28 2018-06-29 重庆邮电大学 一种关系模型到xml的转化方法
CN108733793A (zh) * 2018-05-14 2018-11-02 北京大学 一种面向关系数据库的本体模型构造方法及系统
CN109471923A (zh) * 2018-10-15 2019-03-15 电子科技大学 一种基于同义词扩充的客服聊天机器人本体半自动构建的方法
CN110019474A (zh) * 2017-12-19 2019-07-16 北京金山云网络技术有限公司 异构数据库中的同义数据自动关联方法、装置及电子设备
US20200226160A1 (en) * 2018-12-21 2020-07-16 Impira Inc. Database for unstructured data
CN112256927A (zh) * 2020-10-21 2021-01-22 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112818044A (zh) * 2021-01-21 2021-05-18 西安交通大学 异构数据库模式映射方法、系统、设备及可读存储介质
CN113360518A (zh) * 2021-06-07 2021-09-07 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113609175A (zh) * 2021-08-02 2021-11-05 北京值得买科技股份有限公司 一种基于图数据库的电商商品属性数据处理方法及装置
US12112561B2 (en) 2021-11-23 2024-10-08 Figma, Inc. Interactive visual representation of semantically related extracted data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149748A (zh) * 2007-10-29 2008-03-26 浙江大学 本体模式与关系数据库模式之间语义映射信息的编辑方法
US20120259895A1 (en) * 2010-02-12 2012-10-11 Raytheon Company Converting Video Metadata to Propositional Graphs for Use in an Analogical Reasoning System
CN103810388A (zh) * 2014-02-19 2014-05-21 福建工程学院 基于面向映射的分块技术的大规模本体映射方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149748A (zh) * 2007-10-29 2008-03-26 浙江大学 本体模式与关系数据库模式之间语义映射信息的编辑方法
US20120259895A1 (en) * 2010-02-12 2012-10-11 Raytheon Company Converting Video Metadata to Propositional Graphs for Use in an Analogical Reasoning System
CN103810388A (zh) * 2014-02-19 2014-05-21 福建工程学院 基于面向映射的分块技术的大规模本体映射方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
瞿裕忠等: "关系数据库模式和本体间映射的研究综述", 《计算机研究与发展》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045933A (zh) * 2015-09-08 2015-11-11 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN105045933B (zh) * 2015-09-08 2018-04-24 中国人民解放军海军工程大学 船舶装备维修保障信息关系数据库模式与本体间映射方法
CN110019474A (zh) * 2017-12-19 2019-07-16 北京金山云网络技术有限公司 异构数据库中的同义数据自动关联方法、装置及电子设备
CN108228774A (zh) * 2017-12-28 2018-06-29 重庆邮电大学 一种关系模型到xml的转化方法
CN108733793A (zh) * 2018-05-14 2018-11-02 北京大学 一种面向关系数据库的本体模型构造方法及系统
CN109471923A (zh) * 2018-10-15 2019-03-15 电子科技大学 一种基于同义词扩充的客服聊天机器人本体半自动构建的方法
US20200226160A1 (en) * 2018-12-21 2020-07-16 Impira Inc. Database for unstructured data
CN112256927A (zh) * 2020-10-21 2021-01-22 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112256927B (zh) * 2020-10-21 2024-06-04 网易(杭州)网络有限公司 基于属性图的知识图谱数据处理方法和装置
CN112818044A (zh) * 2021-01-21 2021-05-18 西安交通大学 异构数据库模式映射方法、系统、设备及可读存储介质
CN112818044B (zh) * 2021-01-21 2023-12-19 西安交通大学 异构数据库模式映射方法、系统、设备及可读存储介质
CN113360518A (zh) * 2021-06-07 2021-09-07 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113360518B (zh) * 2021-06-07 2023-03-21 哈尔滨工业大学 一种基于多源异构数据的层次本体构造方法
CN113609175A (zh) * 2021-08-02 2021-11-05 北京值得买科技股份有限公司 一种基于图数据库的电商商品属性数据处理方法及装置
US12112561B2 (en) 2021-11-23 2024-10-08 Figma, Inc. Interactive visual representation of semantically related extracted data

Also Published As

Publication number Publication date
CN104036048B (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN104036048A (zh) 一种本体与关系数据库模式之间的映射方法
CN102693310B (zh) 一种基于关系数据库的资源描述框架查询方法和系统
Lee et al. Query performance of the IFC model server using an object-relational database approach and a traditional relational database approach
CN101093559B (zh) 一种基于知识发现的专家系统构造方法
Peachavanish et al. An ontological engineering approach for integrating CAD and GIS in support of infrastructure management
Booth et al. Learning conditionally lexicographic preference relations
CN101477549B (zh) 知识库支持下的空间数据库设计系统和方法
CN108710663A (zh) 一种基于本体模型的数据匹配方法及系统
CN105550189A (zh) 基于本体的信息安全事件智能检索系统
CN106407216A (zh) 基于语义网构建路径开发的线索追溯稽核系统及其构建方法
CN114911951A (zh) 面向人机协作装配任务的知识图谱构建方法
CN112559766A (zh) 一种法律知识图谱构建系统
CN103049555B (zh) 保证语义正确性的动态分层集成数据访问方法
CN109614495A (zh) 一种结合知识图谱和文本信息的相关公司挖掘方法
Bimonte et al. Spatial olap and map generalization: Model and algebra
CN107491476A (zh) 一种适用于多种大数据管理系统的数据模型转换及查询分析方法
Nagel Optimization of energy supply systems
Xue et al. Semiautomated generation of logic rules for tabular information in building codes to support automated code compliance checking
Chen et al. Model verification for system design of complex mechatronic products
CN102629278B (zh) 一种基于问题本体的语义标注和检索方法
Yang et al. Knowledge graph representation method for semantic 3D modeling of Chinese grottoes
CN107368302A (zh) 一种基于本体的设计模式识别方法
Homola Semantic Investigations in Distributed Ontologies
Hajmoosaei et al. An ontology-based approach for resolving semantic schema conflicts in the extraction and integration of query-based information from heterogeneous web data sources
Jiang et al. [Retracted] Design of Hierarchical Retrieval Model of Digital English Teaching Information Based on Ontology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Luo Guangchun

Inventor after: Yin Guangqiang

Inventor after: Tian Ling

Inventor after: Qin Ke

Inventor after: Liu Guisong

Inventor after: Yu Shanlong

Inventor before: Luo Guangchun

Inventor before: Tian Ling

Inventor before: Qin Ke

Inventor before: Liu Guisong

Inventor before: Yu Shanlong

CB03 Change of inventor or designer information