CN105045933A - 船舶装备维修保障信息关系数据库模式与本体间映射方法 - Google Patents

船舶装备维修保障信息关系数据库模式与本体间映射方法 Download PDF

Info

Publication number
CN105045933A
CN105045933A CN201510565705.2A CN201510565705A CN105045933A CN 105045933 A CN105045933 A CN 105045933A CN 201510565705 A CN201510565705 A CN 201510565705A CN 105045933 A CN105045933 A CN 105045933A
Authority
CN
China
Prior art keywords
apparel
support information
maintenance support
attribute
database schema
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510565705.2A
Other languages
English (en)
Other versions
CN105045933B (zh
Inventor
马良荔
孙煜飞
李永杰
苏凯
覃基伟
许国鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN201510565705.2A priority Critical patent/CN105045933B/zh
Publication of CN105045933A publication Critical patent/CN105045933A/zh
Application granted granted Critical
Publication of CN105045933B publication Critical patent/CN105045933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种船舶装备维修保障信息关系数据库模式与本体间映射方法,包括如下步骤:步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素进行分类,建立船舶装备维修保障信息关系数据库模式和船舶装备维修保障信息本体之间的映射类型;步骤2:利用多策略组合的方法得到待处理船舶装备维修保障信息关系数据库模式与待处理船舶装备维修保障信息本体之间的映射关系。本发明能够有效地集成现有的船舶装备维修保障信息,便于维修保障人员对其实施有效管理,提供决策支持和远程维修保障支援能力,推进维修保障信息的高效利用和保障资源的优化,使装备发挥其最大效能,因而具有重要理论价值和实际意义。

Description

船舶装备维修保障信息关系数据库模式与本体间映射方法
技术领域
本发明涉及船舶装备维修保障信息异构数据库的数据集成技术领域,具体涉及一种船舶装备维修保障信息关系数据库模式与本体间映射方法。
技术背景
随着信息技术的迅速发展,有关船舶装备维修保障的信息系统越来越多,不同组织、部门由于业务与功能需求的不同,各自都开发了相应的信息管理系统,这些系统之间数据环境各异,数据描述千差万别,形成了一个个的“数据孤岛”。“数据孤岛”造成了信息系统之间存在着大量的冗余数据、垃圾数据,无法保证数据的一致性,信息的利用率低。开发新的集成领域内所有信息的管理系统耗时耗力,因此,如何有效地重用这些信息,实现数据的共享与互操作,为维修保障人员提供更有效的决策支持,是当前信息化建设的一个迫切课题。
数据集成一直以来都是计算机领域、尤其是数据库领域的研究重点和难点。数据集成是指将互相关联的分布式异构数据源集成在一起,使用户能以透明的方式对这些数据源进行统一访问。传统的数据集成方式包括:多数据库系统、联邦数据库系统、数据仓库、基于包装器和协调器的数据集成、基于agent的数据集成、基于web服务的数据集成、P2P数据集成以及数据空间等。在以上代表性的研究工作中,注重的都是数据结构的集成,几乎没有涉及到语义的集成。
语义Web提供了一个通用框架,使得数据的共享和重用可以跨越应用系统、企业和社区的边界。本体是语义Web的核心基础元素,它作为一种领域知识概念化和模型化的方法,可以用来描述计算机处理数据的语义信息,被认为是解决语义异构的关键途径。近年来,有关本体的表示(RDFS/OWL)、查询语言(SPARQL)等各种技术日趋成熟,特别是链接开放数据项目(linkedopendata)的大力推动,标志着以本体为核心的语义Web基础技术已经奠定。
目前,船舶维修保障信息绝大部分仍以关系数据库的方式进行存储,利用本体对这些数据进行语义集成,首先就必须发现关系数据库模式与本体之间的映射关系,然后才能实施查询处理或数据转换,最终实现语义数据集成。因此,建立船舶装备维修保障信息关系数据库模式与本体之间的映射关系,是建立基于本体的语义数据集成系统的关键。
但是,关系数据库模式和本体这两种不同的模型在建模思想、应用场景上有着很大的差别,关系数据库模式是对具体数据的抽象描述,针对特定的应用程序而设计,规模较小,语义表达能力较弱,由程序的开发者独立创建;而本体则试图建立领域内的共享概念模型,独立于具体应用,规模较大,语义表达能力较强,由领域专家共同创建。因此,关系数据库模式与本体之间映射比一般的同种异构模型映射(例如模式匹配、本体映射)显得更加困难。
目前,船舶装备维修保障信息关系数据库模式与本体之间的映射研究大部分仍采用人工定义的方式,部分项目的研究中还开发了相应的图形用户界面,支持交互式的关系数据库模式与本体间映射的构建,例如DartGrid、MapOnto等。人工构建映射的方式耗时耗力且容易出错,因此,也有部分工作针对自动化映射建立展开了研究,例如申请号为201410314898.X的中国发明发明“一种本体与关系数据库模式之间的映射方法”。该专利记载的完全自动化的方法不一定有效,并且当关系数据库模式与本体规模增大时,基于结构相似度传播的方法时间复杂度过高,无法接受。
发明内容
本发明的目的是针对上述技术问题,提供一种船舶装备维修保障信息关系数据库模式与本体间映射方法,该方法能够有效地集成现有的船舶装备维修保障信息,便于维修保障人员提高船舶装备维修保障效率。
为实现此目的,本发明所设计的船舶装备维修保障信息关系数据库模式与本体间映射方法,其特征在于,它包括如下步骤:
步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素进行分类,将上述船舶装备维修保障信息关系数据库模式的元素中的关系R分为实体类型关系ER和关系类型关系RR,将船舶装备维修保障信息关系数据库模式中的属性A按数据库逆向工程方式分为外键属性FKA和非外键属性NFKA,将船舶装备维修保障信息本体的元素按船舶装备维修保障信息本体自带的说明规范,分为船舶装备维修保障信息本体元素的类C和属性P,将属性P进一步分为船舶装备维修保障信息本体元素的对象属性Po和船舶装备维修保障信息本体元素的数据类型属性Pd,建立船舶装备维修保障信息关系数据库模式和船舶装备维修保障信息本体之间的如下映射类型:
实体类型关系ER至船舶装备维修保障信息本体元素的类C的映射类型;
关系类型关系RR至船舶装备维修保障信息本体元素的对象属性Po的映射类型;
外键属性FKA至船舶装备维修保障信息本体元素的对象属性Po的映射类型;
非外键属性NFKA至船舶装备维修保障信息本体元素的对象属性Po与船舶装备维修保障信息本体元素的数据类型属性Pd并集的映射类型;
步骤2:根据如下步骤201~步骤203得到待处理船舶装备维修保障信息关系数据库模式与待处理船舶装备维修保障信息本体之间的映射关系:
步骤201:将待处理船舶装备维修保障信息本体的元素的命名方式统一为英文描述,然后判断船舶装备维修保障信息关系数据库模式的元素的命名方式为以下两种命名方式的哪一种:
第一种船舶装备维修保障信息关系数据库模式的元素的命名方式为:使用英文单词或缩写进行描述;
第二种船舶装备维修保障信息关系数据库模式的元素的命名方式为:直接使用中文进行描述;
步骤202:对于第二种命名方式,首先将对应的船舶装备维修保障信息关系数据库模式的元素转换成英文描述,此时即将第二种命名方式转换成了第一种命名方式,然后为待处理船舶装备维修保障信息本体的每个元素和待处理船舶装备维修保障信息关系数据库模式的每个元素分别构建对应的虚拟文档,每个虚拟文档包括上述待处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的每个元素对应的英文描述,还包括与上述每个元素结构上相邻的元素对应的英文描述,根据步骤1的分类方式为不同类型船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素构建不同的虚拟文档;
为待处理船舶装备维修保障信息关系数据库模式的元素中的关系,根据以下方式构建虚拟文档:
对于待处理船舶装备维修保障信息关系数据库模式中的关系R,若为实体类型关系ER,则该关系R的虚拟文档只包括自身的英文描述;若为关系类型关系RR,则该关系R的虚拟文档不仅包括其自身的英文描述,还包括关系类型关系RR所引用关系的英文描述;
用vdoc()函数表示虚拟文档,用desc()函数表示待处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的每个元素的英文描述,具体形式化如下:
v d o c ( R ) = d e s c ( R ) R ∈ E R d e s c ( R ) + d e s c ( r e l ( A R ′ ) ) R ∈ R R , A R ′ ∈ r e f ( A R ) , A R ∈ p k ( R ) - - - ( 1 )
其中,AR∈pk(R)表示AR属于关系R的主键,AR′∈ref(AR)表示关系R的主键引用的属性,rel(AR′)表示属性AR′所属的关系,desc(rel(AR′))表示属性AR′所属的关系的英文描述,vdoc(R)表示关系R的虚拟文档,desc(R)表示关系R的英文描述;
对于待处理船舶装备维修保障信息关系数据库模式中的属性A,则其虚拟文档除了自身的英文描述外,还包括该属性A所属的关系的英文描述,如果它是外键属性FKA,则还需进一步考虑该属性A引用的属性所属关系的描述;如果该属性A是非外键属性NFKA,则需补充其数据类型,具体如下:
v d o c ( A ) = d e s c ( A ) + d e s c ( r e l ( A ) ) + d e s c ( r e l ( A ′ ) ) A ′ ∈ r e f ( A ) , A ∈ F K A d e s c ( A ) + d e s c ( r e l ( A ) ) + d e s c ( t y p e ( A ) ) A ∈ N F K A - - - ( 2 )
其中,type(A)表示属性A的数据类型,desc(type(A))表示属性A数据类型的英文描述,desc(rel(A))表示属性A所属的关系的英文描述,desc(A)表示属性A的英文描述,desc(rel(A′))表示属性A′所属关系的英文描述;
对于船舶装备维修保障信息本体元素的类C,它的虚拟文档就是其自身的英文描述,即:
vdoc(C)=desc(C)(3)
对于待处理船舶装备维修保障信息本体中的属性P,则其虚拟文档除了自身的自然语言描述外,还包括它的定义域d(P)和值域r(P)的自然语言描述,对于船舶装备维修保障信息本体元素的数据类型属性Pd,其值域为数据类型,具体如下:
vdoc(P)=desc(P)+desc(d(P))+desc(r(P))(4)
其中,待处理船舶装备维修保障信息本体中的属性P=船舶装备维修保障信息本体元素的数据类型属性Pd+船舶装备维修保障信息本体元素的对象属性Po,vdoc(P)表示待处理船舶装备维修保障信息本体中属性P的虚拟文档,desc(P)表示待处理船舶装备维修保障信息本体中属性P的英文描述,desc(d(P))表示定义域d(P)的英文描述,desc(r(P))表示值域r(P)的英文描述;
这样,就为船舶装备维修保障信息关系数据库模式和本体的每个元素构建了虚拟文档,每个虚拟文档都看成向量空间模型中的一个向量,对于每个虚拟文档,其中任一单词i的权重用如下TF-IDF算法进行计算:
tf i = n i Σ k n k - - - ( 5 )
idf i = log N n + 1 - - - ( 6 )
wi=tfi·idfi(7)
其中tfi为单词i的词频,ni为单词i在该虚拟文档内出现的次数,为该虚拟文档的总词数;idfi为逆文档频率,N为虚拟文档总数,n为含有单词i的虚拟文档数,wi表示单词i的权重,这样虚拟文档就转换成带权值的单词集合即向量,对于任意两个带权值的单词集合,即向量ei和ej之间的相似度sim(ei,ej)用如下余弦相似度公式来衡量:
s i m ( e i , e j ) = Σ k = 1 D w i k w j k Σ k = 1 D w i k 2 Σ k = 1 D w j k 2 - - - ( 8 )
其中,wik表示向量ei中单词k的权值,wjk表示向量ej中单词k的权值,D为向量的维度,即所有单词的总数;
步骤203:按照步骤1建立的映射类型,和步骤201、步骤202中的方法,计算船舶装备维修保障信息关系数据库模式中元素es与本体中元素et之间的相似度sim(es,et),即船舶装备维修保障信息关系数据库模式的元素对应的向量之间的相似度,得到所有满足映射类型要求的元素间相似度后,按照相似度从大到小排序,设定阈值θ(θ∈(0,1)),过滤掉所有相似度小于θ的元素对,对于相似度大于或等于θ的元素对,建立这两个元素之间的映射关系,即得到船舶装备维修保障信息关系数据库模式与本体间的映射。
本发明借鉴信息检索技术,应用多策略组合的关系数据库模式与本体间半自动映射方法,克服了已有关系数据库模式与本体间映射方案的人工定义或复杂度太高等缺点,关系数据库模式与本体间映射是建立基于本体的装备维修保障信息语义集成系统的前提,能够有效地集成现有的船舶装备维修保障信息,便于维修保障人员对其实施有效管理,提供决策支持和远程维修保障支援能力,推进维修保障信息的高效利用和保障资源的优化,使装备发挥其最大效能,因而具有重要理论价值和实际意义。
附图说明
图1为本发明的关系数据库模式与本体间映射方法流程示意图;
图2为本发明的船舶装备维修保障信息故障本体示例;
图3为本发明的船舶装备维修保障信息故障关系数据库示例;
图4为本发明的关系数据库模式与本体间映射工具界面。
具体实施方式
以下结合附图和实施例对本发明作进一步的详细说明:
本发明首先,对关系数据库模式及本体的元素类型进行分类,本体元素主要包括类、对象属性和数据类型属性,将关系数据库模式的关系分为实体类型关系和关系类型关系,将关系数据库模式的属性分为外键属性和非外键属性,然后在上述元素分类的基础上,依据启发式规则,建立关系数据库模式元素与本体元素之间的映射类型;
然后,综合元素的各种可用信息,利用多种策略发现关系数据库模式与本体元素之间的映射关系。首先对船舶维修保障领域本体的建立进行了介绍,并对船舶维修保障领域关系数据库元素的命名规则进行了分析,将其分为两种情况,分别为英文、拼音和中文描述。然后根据以上分析,对不同的情况进行不同的处理,设计了多种策略发现二者之间的映射关系,包括:基于语言学的策略、基于背景知识的策略和基于推理的策略。基于语言学的策略利用元素的语言描述信息(例如属性的名称、类的注释等),如果关系数据库模式为英文描述,则先将本体元素转换成英文,然后利用向量空间模型和余弦相似度公式计算元素之间的相似度;如果关系数据库元素用中文描述,则先将关系数据库和本体元素转换成英文,然后利用向量空间模型和余弦相似度公式计算元素之间的相似度。基于背景知识的策略是指利用可用的背景知识(例如同义词表、中英文对照词库等)发现元素之间的映射关系,对于上述三种情况设计了三种背景知识的利用策略,分别为保存转换结果、保存已有映射结果、保存领域内中文同义词。基于推理的策略利用关系数据库及本体的语义关系进行推理,设计了两条推理规则,利用关系与属性、类与属性以及属性与数据类型等约束,发现错误的映射,并进行滤除。
最后,开发相应的人机界面,半自动地完成关系数据库模式与本体间的映射。设计了一种可视化的、界面友好的映射工具,辅助用户建立映射,用户能够对系统自动建立的映射进行编辑(添加或删除)。系统还提供了一种高效的、问答式的工作模式以便排除更多的错误映射,每次提问都选择最有可能为错误的映射,这样,通过多次提问,最终获得可信度高的映射结果。
本发明的船舶装备维修保障信息关系数据库模式与本体间映射方法的具体步骤如图1所示,它包括如下步骤:
步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素进行分类,将上述船舶装备维修保障信息关系数据库模式的元素中的关系R分为实体类型关系ER和关系类型关系RR,将船舶装备维修保障信息关系数据库模式中的属性A按数据库逆向工程方式分为外键属性FKA和非外键属性NFKA,将船舶装备维修保障信息本体的元素按船舶装备维修保障信息本体自带的说明规范,分为船舶装备维修保障信息本体元素的类C和属性P,将属性P进一步分为船舶装备维修保障信息本体元素的对象属性Po和船舶装备维修保障信息本体元素的数据类型属性Pd,一般而言,一个实体类型关系应该映射到本体的一个类,一个关系类型关系应该映射到本体的一个对象属性,类似的,外键属性映射到本体的对象属性,而非外键属性可以映射到本体的对象属性,也可以映射到数据类型属性(需要注意的是,关系类型关系中所有主键且作为外键的属性,不参与到映射过程,否则会导致重复)。按照上述启发式规则,建立船舶装备维修保障信息关系数据库模式和船舶装备维修保障信息本体之间的如下映射类型:
实体类型关系ER至船舶装备维修保障信息本体元素的类C的映射类型,即{ER}→{C};
关系类型关系RR至船舶装备维修保障信息本体元素的对象属性Po的映射类型,即{RR}→{Po};
外键属性FKA至船舶装备维修保障信息本体元素的对象属性Po的映射类型,即{FKA}→{Po};
非外键属性NFKA至船舶装备维修保障信息本体元素的对象属性Po与船舶装备维修保障信息本体元素的数据类型属性Pd并集的映射类型,即{NFKA}→{Po∪Pd};
后续建立的关系数据库模式与本体元素间的映射,必须属于上述四种映射类型的范畴,否则为错误映射;
步骤2:根据如下步骤201~步骤203得到待处理船舶装备维修保障信息关系数据库模式与待处理船舶装备维修保障信息本体(以船舶装备维修保障故障信息为例,建立的本体如图2所示)之间的映射关系:
步骤201:将待处理船舶装备维修保障信息本体的元素的命名方式统一为英文描述,然后判断船舶装备维修保障信息关系数据库模式的元素的命名方式为以下两种命名方式的哪一种:
第一种船舶装备维修保障信息关系数据库模式的元素的命名方式为:使用英文单词或缩写进行描述,例如“故障信息表”用“fault”、“faultInfor”表示,“故障发生时间”用“time”、“fault_time”表示;
第二种船舶装备维修保障信息关系数据库模式的元素的命名方式为:直接使用中文进行描述,例如“人员信息表”用“人员信息”、“人员”表示;
步骤202:对于第二种命名方式,首先将对应的船舶装备维修保障信息关系数据库模式的元素转换成英文描述(通过MicrosoftTranslator软件进行翻译),此时即将第二种命名方式转换成了第一种命名方式,然后为待处理船舶装备维修保障信息本体的每个元素和待处理船舶装备维修保障信息关系数据库模式的每个元素分别构建对应的虚拟文档,每个虚拟文档包括上述待处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的每个元素对应的英文描述,还包括与上述每个元素结构上相邻的元素对应的英文描述(为了引入结构特征来捕获语义信息),根据步骤1的分类方式为不同类型船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素构建不同的虚拟文档;对于第一种和第二种情况,为了防止每次都要进行语言转换,将每次转换的结果保存在文本文件中。当面临新的映射任务时,首先对该文本文件进行检索,若存在对应的转换,则直接使用。若不存在,则先进行转换然后将其存入文本文件的末尾,以便下次使用;对于第二种情况,为了防止每次进行相似度计算,对已有的映射结果进行分析,建立舰船装备维修保障领域中文同义词词库,存入文本文件中(正反方向各存一次),当面临新的映射任务时,检索该文本文件,找出元素词汇的同义词,以便更高效率地发现映射;
为待处理船舶装备维修保障信息关系数据库模式的元素中的关系,根据以下方式构建虚拟文档:
对于待处理船舶装备维修保障信息关系数据库模式中的关系R,若为实体类型关系ER,则该关系R的虚拟文档只包括自身的英文描述;若为关系类型关系RR,则该关系R的虚拟文档不仅包括其自身的英文描述,还包括关系类型关系RR所引用关系的英文描述;例如图3中关系类型关系T_require的虚拟文档为{“require”、“fault”、“resource”};
用vdoc()函数表示虚拟文档,用desc()函数表示待处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的每个元素的英文描述,具体形式化如下:
v d o c ( R ) = d e s c ( R ) R ∈ E R d e s c ( R ) + d e s c ( r e l ( A R ′ ) ) R ∈ R R , A R ′ ∈ r e f ( A R ) , A R ∈ p k ( R ) - - - ( 1 )
其中,AR∈pk(R)表示AR属于关系R的主键,AR′∈ref(AR)表示关系R的主键引用的属性,rel(AR′)表示属性AR′所属的关系,desc(rel(AR′))表示属性AR′所属的关系的英文描述,vdoc(R)表示关系R的虚拟文档,desc(R)表示关系R的英文描述;
对于待处理船舶装备维修保障信息关系数据库模式中的属性A,则其虚拟文档除了自身的英文描述外,还包括该属性A所属的关系的英文描述,如果它是外键属性FKA,则还需进一步考虑该属性A引用的属性所属关系的描述;如果该属性A是非外键属性NFKA,则需补充其数据类型,具体如下:
v d o c ( A ) = d e s c ( A ) + d e s c ( r e l ( A ) ) + d e s c ( r e l ( A ′ ) ) A ′ ∈ r e f ( A ) , A ∈ F K A d e s c ( A ) + d e s c ( r e l ( A ) ) + d e s c ( t y p e ( A ) ) A ∈ N F K A - - - ( 2 )
其中,type(A)表示属性A的数据类型,desc(type(A))表示属性A数据类型的英文描述,desc(rel(A))表示属性A所属的关系的英文描述,desc(A)表示属性A的英文描述,desc(rel(A′))表示属性A′所属关系的英文描述;
对于船舶装备维修保障信息本体元素的类C,它的虚拟文档就是其自身的英文描述,即:
vdoc(C)=desc(C)(3)
对于待处理船舶装备维修保障信息本体中的属性P,则其虚拟文档除了自身的自然语言描述外,还包括它的定义域d(P)和值域r(P)的自然语言描述,对于船舶装备维修保障信息本体元素的数据类型属性Pd,其值域为数据类型,具体如下:
vdoc(P)=desc(P)+desc(d(P))+desc(r(P))(4)
其中,待处理船舶装备维修保障信息本体中的属性P=船舶装备维修保障信息本体元素的数据类型属性Pd+船舶装备维修保障信息本体元素的对象属性Po,vdoc(P)表示待处理船舶装备维修保障信息本体中属性P的虚拟文档,desc(P)表示待处理船舶装备维修保障信息本体中属性P的英文描述,desc(d(P))表示定义域d(P)的英文描述,desc(r(P))表示值域r(P)的英文描述;
这样,就为船舶装备维修保障信息关系数据库模式和本体的每个元素构建了虚拟文档,每个虚拟文档都看成向量空间模型(VectorSpaceModel,VSM)中的一个向量,对于每个虚拟文档,其中任一单词i的权重用如下TF-IDF算法进行计算:
tf i = n i Σ k n k - - - ( 5 )
idf i = log N n + 1 - - - ( 6 )
wi=tfi·idfi(7)
其中tfi为单词i的词频,ni为单词i在该虚拟文档内出现的次数,为该虚拟文档的总词数;idfi为逆文档频率,N为虚拟文档总数,n为含有单词i的虚拟文档数,wi表示单词i的权重,这样虚拟文档就转换成带权值的单词集合即向量,对于任意两个带权值的单词集合,即向量ei和ej之间的相似度sim(ei,ej)用如下余弦相似度公式来衡量:
s i m ( e i , e j ) = Σ k = 1 D w i k w j k Σ k = 1 D w i k 2 Σ k = 1 D w j k 2 - - - ( 8 )
其中,wik表示向量ei中单词k的权值,wjk表示向量ej中单词k的权值,D为向量的维度,即所有单词的总数;
步骤203:按照步骤1建立的映射类型,和步骤201、步骤202中的方法,计算船舶装备维修保障信息关系数据库模式中元素es与本体中元素et之间的相似度sim(es,et),即船舶装备维修保障信息关系数据库模式的元素对应的向量之间的相似度,得到所有满足映射类型要求的元素间相似度后,按照相似度从大到小排序,设定阈值θ(θ∈(0,1)),过滤掉所有相似度小于θ的元素对,对于相似度大于或等于θ的元素对,建立这两个元素之间的映射关系,即得到船舶装备维修保障信息关系数据库模式与本体间的映射。
上述步骤2在实施时,为了提高效率,利用ApacheLucene搜索引擎实现该方法。Lucene首先分别提取关系数据库模式元素和本体元素的词汇,进行标准的预处理(全部转换成小写、去掉停用词、正规化),并为每个元素的虚拟文档建立索引(Index)。然后为关系数据库的每个元素建立查询语句(对应的虚拟文档),查询本体的索引,将返回结果(Hits)中相似度最大的Top-K个结果保存。然后将关系数据库与本体互换,重复上一步。最后计算上述两个步骤的交集。这样不仅效率更高,而且保证了查全率。
上述步骤203后还包括步骤3:
为了发现步骤203中得到的船舶装备维修保障信息关系数据库模式与本体间的映射是否存在错误,并将存在的错误排除,设计了基于推理的策略(关系数据库模式中关系的属性必须依靠关系存在,并且属性具有数据类型等诸多约束,因此可以利用这些信息进行一些简单的推理,发现错误的映射,得到可信度更高的映射结果),主要包括如下两条推理规则:
如果存在待处理船舶装备维修保障信息关系数据库模式中的属性A与待处理船舶装备维修保障信息本体中的属性P之间的映射m,但不存在所述属性A所属的船舶装备维修保障信息关系数据库模式的元素中的关系R与所述属性P定义域所属的类C之间的映射,则映射m为错误映射;
如果存在待处理船舶装备维修保障信息关系数据库模式中的属性A与船舶装备维修保障信息本体元素的数据类型属性Pd之间的映射m1,但是所述属性A的数据类型与所述数据类型属性Pd的值域所属的数据类型为预设的不兼容数据类型(例如整数型int与长整数型long兼容,与字符串型string不兼容;单精度浮点型float与双精度浮点型double兼容,与布尔型boolean不兼容;时间型time与日期时间型datetime兼容,与字节型byte不兼容等),则m1为错误映射;
在船舶装备维修保障信息关系数据库模式与本体间的映射结果中删除上述错误映射m和错误映射m1
上述技术方案的步骤2中,对船舶维修保障领域本体的建立和船舶维修保障领域关系数据库元素的命名规则进行了分析。在此前提下,设计了多种策略发现二者之间的映射关系,包括:基于语言学的策略、基于背景知识的策略和基于推理的策略。先实施语言学策略,过程中可以利用其他背景知识,最后利用基于推理的策略过滤错误的映射,自动化地建立关系数据库模式与本体元素的映射关系。
上述步骤3后还包括步骤4:
为了进一步提高上述得到的删除错误映射m和错误映射m1后的船舶装备维修保障信息关系数据库模式与本体间映射的准确率和查全率,设计了如下系统提问、用户回答的交互方式来排除更多错误映射,从而提高映射结果的质量,如果逐条提问,则当关系数据库模式和本体的规模较大时,比较耗时且容易出错。因此,在该问答过程中,为了获取最具信息量的映射来问询用户,提问规则为:
规则一、如果存在船舶装备维修保障信息关系数据库模式和本体间映射(es,et)和映射(es′,et′),且其中es=es′或et=et′,es、et为船舶装备维修保障信息关系数据库模式中的元素,es′、et′为船舶装备维修保障信息本体的元素,则映射(es,et)和映射(es′,et′)中有一个映射为错误映射,选择相似度差值最小的映射,即
Q(es,et)=min{|sim(es,et)-sim(es′,et′)|};es=es′或et=et
规则二、选择相似度sim(es,et)与阈值θ相差最小的映射,即
Q(es,et)=min{|sim(es,et)-θ|}
该方式通过不断迭代,每次迭代选择满足上述两条规则的映射,用户对映射正确与否做出判断,使得系统能够在最少问答次数的情况下,获得最大的映射质量增加。
除此之外,还开发了可视化的映射工具,能够辅助领域专家建立关系数据库模式与全局本体的映射关系,如图4所示。利用OWL(WebOntologyLanguage,网络本体语言)API(应用程序编程接口)解析本体文件,利用相应的数据库访问接口(例如JDBC(JavaDataBaseConnectivity,java数据库连接)等)获取关系数据库元素,以树状结构显示关系数据库模式的关系和属性,以及本体的类及数据类型属性,而对象属性则以隐性信息展现。映射结果以列表形式展示,用户可以对映射结果进行编辑(添加、删除并保存)。
本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (3)

1.一种船舶装备维修保障信息关系数据库模式与本体间映射方法,其特征在于,它包括如下步骤:
步骤1:对船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素进行分类,将上述船舶装备维修保障信息关系数据库模式的元素中的关系R分为实体类型关系ER和关系类型关系RR,将船舶装备维修保障信息关系数据库模式中的属性A按数据库逆向工程方式分为外键属性FKA和非外键属性NFKA,将船舶装备维修保障信息本体的元素按船舶装备维修保障信息本体自带的说明规范,分为船舶装备维修保障信息本体元素的类C和属性P,将属性P进一步分为船舶装备维修保障信息本体元素的对象属性Po和船舶装备维修保障信息本体元素的数据类型属性Pd,建立船舶装备维修保障信息关系数据库模式和船舶装备维修保障信息本体之间的如下映射类型:
实体类型关系ER至船舶装备维修保障信息本体元素的类C的映射类型;
关系类型关系RR至船舶装备维修保障信息本体元素的对象属性Po的映射类型;
外键属性FKA至船舶装备维修保障信息本体元素的对象属性Po的映射类型;
非外键属性NFKA至船舶装备维修保障信息本体元素的对象属性Po与船舶装备维修保障信息本体元素的数据类型属性Pd并集的映射类型;
步骤2:根据如下步骤201~步骤203得到待处理船舶装备维修保障信息关系数据库模式与待处理船舶装备维修保障信息本体之间的映射关系:
步骤201:将待处理船舶装备维修保障信息本体的元素的命名方式统一为英文描述,然后判断船舶装备维修保障信息关系数据库模式的元素的命名方式为以下两种命名方式的哪一种:
第一种船舶装备维修保障信息关系数据库模式的元素的命名方式为:使用英文单词或缩写进行描述;
第二种船舶装备维修保障信息关系数据库模式的元素的命名方式为:直接使用中文进行描述;
步骤202:对于第二种命名方式,首先将对应的船舶装备维修保障信息关系数据库模式的元素转换成英文描述,此时即将第二种命名方式转换成了第一种命名方式,然后为待处理船舶装备维修保障信息本体的每个元素和待处理船舶装备维修保障信息关系数据库模式的每个元素分别构建对应的虚拟文档,每个虚拟文档包括上述待处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的每个元素对应的英文描述,还包括与上述每个元素结构上相邻的元素对应的英文描述,根据步骤1的分类方式为不同类型船舶装备维修保障信息本体的元素和船舶装备维修保障信息关系数据库模式的元素构建不同的虚拟文档;
为待处理船舶装备维修保障信息关系数据库模式的元素中的关系,根据以下方式构建虚拟文档:
对于待处理船舶装备维修保障信息关系数据库模式中的关系R,若为实体类型关系ER,则该关系R的虚拟文档只包括自身的英文描述;若为关系类型关系RR,则该关系R的虚拟文档不仅包括其自身的英文描述,还包括关系类型关系RR所引用关系的英文描述;
用vdoc()函数表示虚拟文档,用desc()函数表示待处理船舶装备维修保障信息本体的每个元素或船舶装备维修保障信息关系数据库模式的每个元素的英文描述,具体形式化如下:
v d o c ( R ) = d e s c ( R ) R ∈ E R d e s c ( R ) + d e s c ( r e l ( A R ′ ) ) R ∈ R R , A R ′ ∈ r e f ( A R ) , A R ∈ p k ( R ) - - - ( 1 )
其中,AR∈pk(R)表示AR属于关系R的主键,AR′∈ref(AR)表示关系R的主键引用的属性,rel(AR′)表示属性AR′所属的关系,desc(rel(AR′))表示属性AR′所属的关系的英文描述,vdoc(R)表示关系R的虚拟文档,desc(R)表示关系R的英文描述;
对于待处理船舶装备维修保障信息关系数据库模式中的属性A,则其虚拟文档除了自身的英文描述外,还包括该属性A所属的关系的英文描述,如果它是外键属性FKA,则还需进一步考虑该属性A引用的属性所属关系的描述;如果该属性A是非外键属性NFKA,则需补充其数据类型,具体如下:
v d o c ( A ) = d e s c ( A ) + d e s c ( r e l ( A ) ) + d e s c ( r e l ( A ′ ) ) A ′ ∈ r e f ( A ) , A ∈ F K A d e s c ( A ) + d e s c ( r e l ( A ) ) + d e s c ( t y p e ( A ) ) A ∈ N F K A - - - ( 2 )
其中,type(A)表示属性A的数据类型,desc(type(A))表示属性A数据类型的英文描述,desc(rel(A))表示属性A所属的关系的英文描述,desc(A)表示属性A的英文描述,desc(rel(A′))表示属性A′所属关系的英文描述;
对于船舶装备维修保障信息本体元素的类C,它的虚拟文档就是其自身的英文描述,即:
vdoc(C)=desc(C)(3)
对于待处理船舶装备维修保障信息本体中的属性P,则其虚拟文档除了自身的自然语言描述外,还包括它的定义域d(P)和值域r(P)的自然语言描述,对于船舶装备维修保障信息本体元素的数据类型属性Pd,其值域为数据类型,具体如下:
vdoc(P)=desc(P)+desc(d(P))+desc(r(P))(4)
其中,待处理船舶装备维修保障信息本体中的属性P=船舶装备维修保障信息本体元素的数据类型属性Pd+船舶装备维修保障信息本体元素的对象属性Po,vdoc(P)表示待处理船舶装备维修保障信息本体中属性P的虚拟文档,desc(P)表示待处理船舶装备维修保障信息本体中属性P的英文描述,desc(d(P))表示定义域d(P)的英文描述,desc(r(P))表示值域r(P)的英文描述;
这样,就为每个船舶装备维修保障信息关系数据库模式和本体的元素构建了虚拟文档,每个虚拟文档都看成向量空间模型中的一个向量,对于每个虚拟文档,其中任一单词i的权重用如下TF-IDF算法进行计算:
tf i = n i Σ k n k - - - ( 5 )
idf i = log N n + 1 - - - ( 6 )
wi=tfi·idfi(7)
其中tfi为单词i的词频,ni为单词i在该虚拟文档内出现的次数,为该虚拟文档的总词数;idfi为逆文档频率,N为虚拟文档总数,n为含有单词i的虚拟文档数,wi表示单词i的权重,这样虚拟文档就转换成带权值的单词集合即向量,对于任意两个带权值的单词集合,即向量ei和ej之间的相似度sim(ei,ej)用如下余弦相似度公式来衡量:
s i m ( e i , e j ) = Σ k = 1 D w i k w j k Σ k = 1 D w i k 2 Σ k = 1 D w j k 2 - - - ( 8 )
其中,wik表示向量ei中单词k的权值,wjk表示向量ej中单词k的权值,D为向量的维度,即所有单词的总数;
步骤203:按照步骤1建立的映射类型,和步骤201、步骤202中的方法,计算船舶装备维修保障信息关系数据库模式中元素es与本体中元素et之间的相似度sim(es,et),即船舶装备维修保障信息关系数据库模式的元素对应的向量之间的相似度,得到所有满足映射类型要求的元素间相似度后,按照相似度从大到小排序,设定阈值θ(θ∈(0,1)),过滤掉所有相似度小于θ的元素对,对于相似度大于或等于θ的元素对,建立这两个元素之间的映射关系,即得到船舶装备维修保障信息关系数据库模式与本体间的映射。
2.根据权利要求1所述的船舶装备维修保障信息关系数据库模式与本体间映射方法,其特征在于,所述步骤203后还包括步骤3:
为了发现步骤203中得到的船舶装备维修保障信息关系数据库模式与本体间的映射是否存在错误,并将存在的错误排除,设计了基于推理的策略,主要包括如下两条推理规则:
如果存在待处理船舶装备维修保障信息关系数据库模式中的属性A与待处理船舶装备维修保障信息本体中的属性P之间的映射m,但不存在所述属性A所属的船舶装备维修保障信息关系数据库模式的元素中的关系R与所述属性P定义域所属的类C之间的映射,则映射m为错误映射;
如果存在待处理船舶装备维修保障信息关系数据库模式中的属性A与船舶装备维修保障信息本体元素的数据类型属性Pd之间的映射m1,但是所述属性A的数据类型与所述数据类型属性Pd的值域所属的数据类型为预设的不兼容数据类型,则m1为错误映射;
在船舶装备维修保障信息关系数据库模式与本体间的映射结果中删除上述错误映射m和错误映射m1
3.根据权利要求2所述的船舶装备维修保障信息关系数据库模式与本体间映射方法,其特征在于,所述步骤3后还包括步骤4:
为了进一步提高上述得到的删除错误映射m和错误映射m1后的船舶装备维修保障信息关系数据库模式与本体间映射的准确率和查全率,设计了如下系统提问、用户回答的交互方式来排除更多错误映射,从而提高映射结果的质量,提问规则为:
规则一、如果存在船舶装备维修保障信息关系数据库模式和本体间映射(es,et)和映射(e′s,e′t),且其中es=e′s或et=e′t,es、et为船舶装备维修保障信息关系数据库模式中的元素,es′、et′为船舶装备维修保障信息本体的元素,则映射(es,et)和映射(e′s,e′t)中有一个映射为错误映射,选择相似度差值最小的映射,即
Q(es,et)=min{|sim(es,et)-sim(e′s,e′t)|};es=e′s或et=e′t
规则二、选择相似度sim(es,et)与阈值θ相差最小的映射,即
Q(es,et)=min{|sim(es,et)-θ|}
该方式通过不断迭代,每次迭代选择满足上述两条规则的映射,用户对映射正确与否做出判断,使得系统能够在最少问答次数的情况下,获得最大的映射质量增加。
CN201510565705.2A 2015-09-08 2015-09-08 船舶装备维修保障信息关系数据库模式与本体间映射方法 Active CN105045933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510565705.2A CN105045933B (zh) 2015-09-08 2015-09-08 船舶装备维修保障信息关系数据库模式与本体间映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510565705.2A CN105045933B (zh) 2015-09-08 2015-09-08 船舶装备维修保障信息关系数据库模式与本体间映射方法

Publications (2)

Publication Number Publication Date
CN105045933A true CN105045933A (zh) 2015-11-11
CN105045933B CN105045933B (zh) 2018-04-24

Family

ID=54452479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510565705.2A Active CN105045933B (zh) 2015-09-08 2015-09-08 船舶装备维修保障信息关系数据库模式与本体间映射方法

Country Status (1)

Country Link
CN (1) CN105045933B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268883A (zh) * 2016-12-31 2018-07-10 上海交通大学 基于开放数据的移动端信息模板自构建系统
CN109492115A (zh) * 2018-11-23 2019-03-19 深圳市元征科技股份有限公司 一种汽修知识实体网络构建方法、装置及设备
CN109800422A (zh) * 2018-12-20 2019-05-24 北京明略软件系统有限公司 一种对数据表进行分类的方法、系统、终端和存储介质
CN111240325A (zh) * 2020-01-14 2020-06-05 大连海事大学 一种基于航行态势本体建模的无人驾驶船舶场景理解方法
CN112383580A (zh) * 2020-09-07 2021-02-19 中国人民解放军海军工程大学 一种基于本体的船舶远程故障报警系统
WO2023087463A1 (zh) * 2021-11-17 2023-05-25 深圳先进技术研究院 一种知识库补全方法、终端设备以及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149748A (zh) * 2007-10-29 2008-03-26 浙江大学 本体模式与关系数据库模式之间语义映射信息的编辑方法
US7877421B2 (en) * 2001-05-25 2011-01-25 International Business Machines Corporation Method and system for mapping enterprise data assets to a semantic information model
CN104036048A (zh) * 2014-07-02 2014-09-10 电子科技大学 一种本体与关系数据库模式之间的映射方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7877421B2 (en) * 2001-05-25 2011-01-25 International Business Machines Corporation Method and system for mapping enterprise data assets to a semantic information model
CN101149748A (zh) * 2007-10-29 2008-03-26 浙江大学 本体模式与关系数据库模式之间语义映射信息的编辑方法
CN104036048A (zh) * 2014-07-02 2014-09-10 电子科技大学 一种本体与关系数据库模式之间的映射方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
周扬: "基于关系数据库的本体映射方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
张旭辉: "RDF_RDFS到关系数据库模式映射方法的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
郭朝敏 等: "一种关系数据库到本体的自动构建方法", 《计算机工程与应用》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268883A (zh) * 2016-12-31 2018-07-10 上海交通大学 基于开放数据的移动端信息模板自构建系统
CN109492115A (zh) * 2018-11-23 2019-03-19 深圳市元征科技股份有限公司 一种汽修知识实体网络构建方法、装置及设备
CN109800422A (zh) * 2018-12-20 2019-05-24 北京明略软件系统有限公司 一种对数据表进行分类的方法、系统、终端和存储介质
CN111240325A (zh) * 2020-01-14 2020-06-05 大连海事大学 一种基于航行态势本体建模的无人驾驶船舶场景理解方法
CN111240325B (zh) * 2020-01-14 2023-07-07 大连海事大学 一种基于航行态势本体建模的无人驾驶船舶场景理解方法
CN112383580A (zh) * 2020-09-07 2021-02-19 中国人民解放军海军工程大学 一种基于本体的船舶远程故障报警系统
WO2023087463A1 (zh) * 2021-11-17 2023-05-25 深圳先进技术研究院 一种知识库补全方法、终端设备以及计算机存储介质

Also Published As

Publication number Publication date
CN105045933B (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN105045933B (zh) 船舶装备维修保障信息关系数据库模式与本体间映射方法
Zhu et al. Intelligent learning for knowledge graph towards geological data
CN110750649A (zh) 知识图谱构建及智能应答方法、装置、设备及存储介质
Ju et al. Things and strings: improving place name disambiguation from short texts by combining entity co-occurrence with topic modeling
Mao et al. Ontology mapping: as a binary classification problem
Klien et al. The role of spatial relations in automating the semantic annotation of geodata
CN104239513A (zh) 一种面向领域数据的语义检索方法
KR20170021227A (ko) 온톨로지 매핑 방법 및 장치
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
Upadhyaya et al. ERONTO: a tool for extracting ontologies from extended E/R diagrams
CN110390352A (zh) 一种基于相似性哈希的图像暗数据价值评估方法
CN104699786A (zh) 一种语义智能搜索的通信网络投诉系统
CN106294662A (zh) 基于上下文感知主题的查询表示及混合检索模型建立方法
Cortis et al. Discovering semantic equivalence of people behind online profiles
Schuurman Social perspectives on semantic interoperability: Constraints on geographical knowledge from a data perspective
CN101650729A (zh) 一种Web服务构件库动态构造方法及其服务检索方法
CN103020283B (zh) 一种基于背景知识的动态重构的语义检索方法
Ballatore et al. Linking geographic vocabularies through WordNet
Papapanagiotou et al. RONTO: Relational to ontology schema matching
Gunaratna et al. Alignment and dataset identification of linked data in semantic web
CN116484023A (zh) 一种基于人工智能的电力行业知识库构建方法及系统
Thenmalar et al. Enhanced ontology-based indexing and searching
CN116204656A (zh) 一种大数据知识图谱构建方法、系统、设备及存储介质
Wang et al. An ontology automation construction scheme for Chinese e‐government thesaurus optimizing
Liu et al. Intelligent generation method of emergency plan for hydraulic engineering based on knowledge graph–take the South-to-North Water Diversion Project as an example

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant