CN109271638A - 一种基于数据空间的个性化语义集成方法和系统 - Google Patents

一种基于数据空间的个性化语义集成方法和系统 Download PDF

Info

Publication number
CN109271638A
CN109271638A CN201811165543.3A CN201811165543A CN109271638A CN 109271638 A CN109271638 A CN 109271638A CN 201811165543 A CN201811165543 A CN 201811165543A CN 109271638 A CN109271638 A CN 109271638A
Authority
CN
China
Prior art keywords
data
data space
domain body
space model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811165543.3A
Other languages
English (en)
Other versions
CN109271638B (zh
Inventor
袁满
仇婷婷
陈萍
邹晨红
胡超
刘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Petroleum University
Original Assignee
Northeast Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Petroleum University filed Critical Northeast Petroleum University
Priority to CN201811165543.3A priority Critical patent/CN109271638B/zh
Publication of CN109271638A publication Critical patent/CN109271638A/zh
Application granted granted Critical
Publication of CN109271638B publication Critical patent/CN109271638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据空间的个性化语义集成方法和系统,其中,一种基于数据空间的个性化语义集成方法,其特征在于,包括:构建资源层,将元数据和内容数据存到数据库中;构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。可以解决不同类型的元数据和内容数据的个性化语义集成效果差的问题。

Description

一种基于数据空间的个性化语义集成方法和系统
技术领域
本发明涉及网络数据管理和数据共享领域,具体说是一种基于数据空间的个性化语义集成方法和系统。
背景技术
数据集成和共享是当今信息化建设的重要基础,是各领域实现信息互通的必经之路。如今各领域都已建立了满足各自部门和专业需求的多种信息系统,但是这些信息系统在语法、结构、分布和语义等方面存在异构,形成了许许多多的“信息孤岛”。如何在语义层面实现这些信息孤岛的互联互通并为用户提供个性化数据服务是迫切需要解决的技术难题。
尽管目前在语义集成领域的研究学术成果有很多,但是都处于理论层面,很少能够从应用层面来解决这一问题。
发明内容
有鉴于此,本发明提供一种基于数据空间的个性化语义集成方法和系统,以解决不同类型的元数据和内容数据的个性化语义集成效果差的问题。
第一方面,本发明提供一种基于数据空间的个性化语义集成方法,包括:
构建资源层,将元数据和内容数据存到数据库中;
构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;
构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;
通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。
优选地,用户在所述服务层对所述领域本体的信息管理和查询搜索前,对管理查询搜索数据进行判断,若所述管理查询搜索数据符合所述推理规则,按照所述推理规则进行信息管理和查询搜索;否则,直接利用管理查询搜索数据对所述领域本体的信息管理和查询搜索。
优选地,所述不同的异构数据源,包括:结构化数据和非结构化数据,所述结构化数据和所述非结构化数据存在着结构异构;对所述结构异构的数据进行管理的方法为:按照不同的所述结构化数据和所述非结构化数据的数据类型对各领域的数据进行信息抽取,将抽取的信息以键值对的方式存到所述数据库中。
优选地,所述异构数据源为非结构化数据时,将所述非结构化数据的类型、标题和存储的物理路径信息,将所述存储的物理路径信息存储在所述数据库;而对应的非结构化数据的内容数据存放在其原始的数据源中,不存储在所述数据库;所述异构数据源为结构化数据时,将所述结构化数据全部信息储在所述数据库。
优选地,构建所述资源层的具体方法为:对不同的异构数据源中的数据进行信息抽取得到所述元数据和所述内容数据,并将所述元数据和所述内容数据以键值对的方式存到所述数据库中。
优选地,构建所述逻辑层的具体方法为:对领域之中概念及所述概念相互之间关系的形式化表达,根据所述形式化表达建立领域本体;在所述元模型上加入实例,利用若干所述实例形成实例集;根据所述实例集以及元模型构建数据空间模型,关联所述领域本体内的所述概念和所述数据空间模型的所述实例集。
优选地,所述数据空间模型=(I,T,N,A,R,D),其中:
I为数据空间模型中实例的唯一标识;
T为数据空间模型中实例的类型信息;
N为数据空间模型中实例名称;
A为数据空间模型中实例的属性信息组;
R为路径信息,代表实例所在的物理位置,不同资源的路径信息不同,文档型资源的路径信息描述为文档的物理存储路径,数据库资源的路径信息描述为具体的数据库;
D表示语义关联项,所述语义关联项和所述领域本体的概念一一对应。
第二方面,本发明提供一种基于数据空间的个性化语义集成系统,包括:
存储器和处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序为如上述一种基于数据空间的个性化语义集成方法,所述处理器执行所述程序时实现以下步骤:
构建资源层,将元数据和内容数据存到数据库中;
构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;
构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;
通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。
本发明至少具有如下有益效果:
针对各领域数据资源分布的特点,结合实际应用需求,通过数据空间体系结构,实现数据资源的集成,为数据共享和数据应用提供个性化服务支持。以解决不同的异构数据源的个性化语义集成效果差,不能满足实际应用需求的问题。
附图说明
通过以下参考附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点更为清楚,在附图中:
图1是本发明实施例的一种基于数据空间的个性化语义集成方法的流程示意图;
图2是本发明实施例的一种基于数据空间的个性化语义集成方法或系统的框图;
图3是本发明实施例的异构数据源中的数据进行信息抽取的示意图;
图4是本发明实施例的领域本体的构建过程;
图5是本发明实施例的数据空间模型构建的第一种实施方式;
图6是本发明实施例的数据空间模型构建的第二种实施方式;
图7是本发明实施例的数据空间的主体分配示意图;
图8是本发明实施例的数据空间的构建过程示意图;
图9是本发明实施例的服务层与逻辑层交互示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是值得说明的是,本发明并不限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。然而,对于没有详尽描述的部分,本领域技术人员也可以完全理解本发明。
此外,本领域普通技术人员应当理解,所提供的附图只是为了说明本发明的目的、特征和优点,附图并不是实际按照比例绘制的。
同时,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包含但不限于”的含义。
图1是本发明实施例的一种基于数据空间的个性化语义集成方法的流程示意图。如图1所示,一种基于数据空间的个性化语义集成方法,包括:步骤101构建资源层,将元数据和内容数据存到数据库中;步骤102构建逻辑层,在逻辑层内建立领域本体,并根据领域本体建立推理规则,以及在逻辑层内构建数据空间模型,关联领域本体和数据空间模型;步骤103构建服务层,用户在服务层根据推理规则或直接对领域本体的信息管理和查询搜索;步骤103通过数据空间模型对查询搜索到的数据进行显示,通过信息管理对领域本体以及数据空间模型进行管理。步骤104通过数据空间模型对查询搜索到的数据进行显示,通过信息管理对领域本体以及数据空间模型进行管理。针对各领域数据资源分布的特点,结合实际应用需求,通过数据空间体系结构,实现数据资源的集成,为数据共享和数据应用提供个性化服务支持。以解决不同的异构数据源的个性化语义集成效果差,不能满足实际应用需求的问题。
数据空间是指与主体相关的数据及其关系的集合,包含3个要素,即主体、数据集和服务。数据空间的主体就是指数据空间的所有者,所有者既可以指一个人,也可以是一个部门组织,还可以是一个企业团体。数据空间的数据集在空间上分布存储在不同的存储设备和网络环境中;在时间上数据集随着应用业务的需求和生产的不断发展和变化不断更新;在内容上数据集是具有多种格式的数据,包括结构化数据和非结构化的数据。数据空间的服务是指数据空间可以对类型各异的异构数据集实现统一管理,主体可以通过操作和管理对这些数据集进行控制,为主体提供与主体的需求具有相关性的服务。
领域本体定义为概念模型、明确化、形式化和共享四层含义。同时,为了解决数据之间语义性差的问题,在数据空间模型中引入领域本体技术,将该领域中的事物抽象出概念,对概念以及概念间的约束进行明确的定义,丰富数据之间的语义,实现信息集成和数据共享。
在步骤101中,用户在服务层对领域本体的信息管理和查询搜索前,对管理查询搜索数据进行判断,若管理查询搜索数据符合推理规则,按照推理规则进行信息管理和查询搜索;否则,直接利用管理查询搜索数据对领域本体的信息管理和查询搜索。可详见图9中的详细说明。
在步骤101中,构建资源层的具体方法为:对不同的异构数据源中的数据进行信息抽取得到元数据和内容数据,并将元数据和内容数据以键值对的方式存到数据库中。
在步骤101中,不同的异构数据源,包括:结构化数据和非结构化数据,结构化数据和非结构化数据存在着结构异构;对结构异构的数据进行管理的方法为:按照不同的结构化数据和非结构化数据的数据类型对各领域的数据进行信息抽取,将抽取的信息以键值对的方式存到数据库中。
异构数据源为非结构化数据时,将非结构化数据的类型、标题和存储的物理路径信息,将存储的物理路径信息存储在数据库;而对应的非结构化数据的内容数据存放在其原始的数据源中,不存储在数据库;异构数据源为结构化数据时,将结构化数据全部信息储在数据库。
具体地说,异构数据源的类型为结构化数据时,将结构化数据全部信息存储在数据库,元信息就是数据库名称、表格名称或视图名称、每一个列的名称,内容数据是表格里的具体数据。异构数据源的类型为非结构化数据时,元信息是非结构化数据的类型、标题和存储的物理路径的信息,将以上元信息存储在数据库;而对应的非结构化数据的内容数据存放在其原始的数据源中,不存储在数据库中。
在步骤102中,构建逻辑层的领域本体具体方法为:对领域之中概念及概念相互之间关系的形式化表达,根据形式化表达建立领域本体,并根据领域本体建立推理规则;
在步骤102中,构建逻辑层的数据空间模型具体方法为:在元模型上加入实例,利用若干实例形成实例集;根据实例集以及元模型构建数据空间模型,关联领域本体内的概念和数据空间模型的实例集。
在步骤102中,数据空间模型=(I,T,N,A,R,D),其中:I为数据空间模型中实例的唯一标识;T为数据空间模型中实例的类型信息;N为数据空间模型中实例名称;A为数据空间模型中实例的属性信息组;R为路径信息,代表实例所在的物理位置,不同资源的路径信息不同,文档型资源的路径信息描述为文档的物理存储路径,数据库资源的路径信息描述为具体的数据库;D表示语义关联项,语义关联项和领域本体的概念一一对应。
在步骤103中,用户在服务层根据推理规则或直接对领域本体的信息管理和查询搜索;步骤103通过数据空间模型对查询搜索到的数据进行显示,通过信息管理对领域本体以及数据空间模型进行管理。
在步骤103中,用户在服务层对领域本体的信息管理和查询搜索前,对管理查询搜索数据进行判断,若管理查询搜索数据符合推理规则,按照推理规则进行信息管理和查询搜索;否则,直接利用管理查询搜索数据对领域本体的信息管理和查询搜索。可详见图9中的详细说明。
图2是本发明实施例的一种基于数据空间的个性化语义集成方法或系统的框图。如图2所示,一种基于数据空间的个性化语义集成方法或系统,包括如下:S1构建资源层,对不同的异构数据源中的数据进行信息抽取,结构化数据使用jdbc数据接口抽取信息(即,元数据和内容数据),非结构化数据直接进行抽取,并将元数据和内容数据存到Mongodb数据库中;S2和S3构建逻辑层,通过数据接口将抽取到的信息构建领域本体和数据空间模型,在逻辑层内建立领域本体和推理规则;在逻辑层内构建ITNARD数据空间模型以及ITNARD数据空间模型的实例和实例集,形成数据空间,并通过语义关联项关联领域本体和数据空间模型;S4构建服务层,用户(数据空间的主体)在服务层根据推理规则或直接对领域本体的信息管理和查询搜索。
针对各领域数据资源分布的特点,结合实际应用需求,给出数据空间体系结构。通过数据空间体系结构,实现数据资源的集成,为数据共享和数据应用提供个性化服务支持。
针对数据资源语义弱的问题,建立领域本体,在领域本体的概念之间建立语义映射关系,对概念的语义信息进行明确说明,同时建立领域本体的推理规则,推理出概念间隐含的语义关系,增强数据的语义性。
针对领域数据资源的互通性差的问题,提出数据空间模型ITNARD及其构建方法。在ITNARD模型中引入语义关联项,建立数据空间模型和领域本体的映射关系,并通过ITNARD数据空间模型映射到具体数据源,实现信息共享。
构建资源层,将元数据和内容数据存到数据库中;构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。
图3是本发明实施例的异构数据源中的数据进行信息抽取的示意图。如图3所示,在图1的步骤101中以及图2中所描述的S1中,各领域的数据资源(即,不同的异构数据源),包括:结构化数据和非结构化数据,这些数据资源没有统一的模式,存在着结构异构。首先对这些结构异构的数据进行管理,按照不同的结构化数据和非结构化数据的数据类型对各领域的数据资源进行信息抽取,将抽取的信息以键值对的方式存到Mongodb数据库中。Mongodb数据库是开源的文档型的数据库,Mongodb数据库中的文档类型可以是多种类型,可以将拥有一对一或者一对多关系的数据嵌入文档中,而且每个集合中的文档都可以不同。在进行资源层的信息抽取时抽取元数据和内容数据,具体如下:S11:结构化数据是一种具有模式的数据,具有严格的数据模式信息,表现为二维形式的数据,比如关系型数据库。元数据就是数据库名称、表格名称或视图名称、每一个列的名称,内容数据是表格里的具体数据,将上述所有的信息通过jdbc接口存到Mongodb数据库中。S12:非结构数据和与结构化数据是相对的,是一种没有固定格式的数据,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片数据和音频数据、视频数据等。通过信息抽取抽取出元数据和内容数据,元数据是非结构化数据的类型、标题和存储的物理路径的信息,元数据存储在Mongodb数据库中,而对应的非结构化数据的内容数据存放在其原始的数据源中,不存储在数据库中。
图4是本发明实施例的领域本体的构建过程。如图4所示,在图1的步骤102中以及图2中所描述的S2中,领域本体是指一种"形式化的,对于共享概念体系的明确而又详细的说明"。实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。具体表现为对现实世界中的事物进行抽象,形成概念世界,对概念以及概念之间的约束都有明确的定义,同时能被计算机理解,实现信息共享。建立领域本体和领域本体的推理规则的过程为:具体步骤如下:S21:建立领域本体;目前,常用的本体构建方法有骨架法、Tove法、五步循环法、Kactus工程法、七步法等,本专利采用七步法、Protégé工具和形式化语言OWL来构建领域本体。细化为下面步骤:S211:明确领域本体的应用目的和应用范围,主要是用以明确该领域本体的构建方向,便于以后扩展。同时确立该领域本体的应用优势。S212:考察复用现有本体的可能性,主要是查找该领域是否已有可以使用的本体,便于后续的使用。S213:确定该领域本体所涉及的概念和重要术语,根据该领域管理流程,定义各个阶段所产生的概念,将这些概念和术语提炼出来抽取成类,进行描述和形式化表达。S214:根据概念含义以及领域专家的指导,定义该领域类和类的分类层次关系,比如超类、子类、互斥类等。S215:根据概念含义以及领域专家的指导,定义领域中类的属性,包括对象属性和数据属性。S216:定义属性的约束,包括属性的值类型、值域范围、基准值等。S217:根据该领域的类所需要的数据资源,生成实例。先选择实例所属的类,然后生成一组实例,最后添加实例的属性值。
在图1的步骤102中以及图2中所描述的S2中,在构建好的领域本体模型的基础上,建立领域本体的推理规则,本专利本体语义推理使用Jena推理机,Jena使用Java语言开发,可以实现对领域本体描述语言的解析,同时Jena为用户提供基于规则的推理引擎和编程方法。Jena推理机可以检测本体的一致性,即对本体中的类、类之间的继承关系、实例与类和实例与实例之间的逻辑关系进行检测,保证概念关系的逻辑一致性。同时由于领域本体概念间复杂的关联关系,通过Jena推理机,我们可以获取许多隐含在本体知识中的关联关系。
建立领域本体的推理规则,细化为下面步骤:S2021:在构建好的领域本体基础上,分析领域本体中概念间关系,利用Jena推理规则自定义概念间的复杂关系,实现推理隐性知识间关联关系;S2022:利用Java开发工具Myeclipse和JenaAPI对领域本体模型和自定义推理规则相结合,并把领域本体中的实例映射到数据空间模型的实例中,推理数据之间的语义关系,实现数据资源的共享。
在推理前使用Jena将规则定义为Java中的rule对象,该对象的属性由前提、条件和结论组成,其成分是一个三元组形式。具体语法为:
[ruleName(aR1b)(bR2c)—>(aR3c)];
其中,ruleName为规则的名称,R1、R2和R3表示概念a和b、b和c以及a和c之间的关系,具体表示为R1表示a和b之间的关系,R2表示b和c之间的关系,R3表示a和c之间的关系,其中a和c之间的关联关系R3是由前面的推理公式推理得到的隐性知识。
S3:在逻辑层内构建数据空间模型,关联领域本体和数据空间模型;首先提出ITNARD数据空间模型的元模型,ITNARD数据空间模型的元模型是统一的结构模型;在ITNARD数据空间模型的元模型的基础上加入实例,表示实例集。ITNARD数据空间模型对数据空间中的数据资源对象(即,数据空间模型的实例)和数据资源对象之间的关联关系进行了规范化和统一化,同时将领域本体中的概念引入ITNARD数据空间模型中,丰富了数据资源对象之间的语义关系,具体的定义如下:
ITNARD数据空间模型=(I,T,N,A,R,D),其中:
I为数据空间模型中实例的唯一标识;由11位数字组成,前两位标识数据空间,第三到第四位标识ITNARD实例集,后五位标识实例。通过标识来区分不同数据空间模型下的不同实例集中的不同ITNARD实例。
T为数据空间模型中实例的类型信息;数据空间模型中数据资源对象的类型包含DOC、XLS、PDF和数据库类型(database)等。
N为数据空间模型中实例名称;通常对于文档型资源,将文档的标题或者题目作为对象名称,而对于数据库资源,将数据库中表名或视图名作为对象名称。
A为数据空间模型中实例的属性信息组;在数据空间的元模型中定义具体属性的数据类型,通常属性信息组由属性和值组成,每一个属性组都不同,不仅表现在属性的名称和值的变化上,属性的数量的多少也不同。具体表示为A={<Attribute1,value1>,
<Attribute2,value2>...<AttributeN,valueN>}。
R为路径信息;代表实例所在的物理位置,不同资源的路径信息不同,文档型资源的路径信息描述为文档的物理存储路径,数据库资源的路径信息描述为具体的数据库;
D表示语义关联项;所述语义关联项和所述领域本体的概念一一对应。所述语义关联项,将数据空间模型的数据资源对象和领域本体的概念进行关联,作为语义处理的基本单位。在具体语义处理时,利用本体概念与概念之间的语义的关系,表达数据资源对象之间语义并利用语义进行信息检索和推理等的应用。
图5是本发明实施例的数据空间模型构建的第一种实施方式。如图5所示,以这条ITNARD实例为例,(1000100001,database,Employee,{<Name,Tony>,<Gender,male>,<Age,20>},DB1,Employeefile)。
以上实例表示从DB1数据库中的Employee表中获取数据信息形成一条实例,获取的数据信息有<Name,Tony>,<Gender,male>,<Age,20>,具体表示为:这条数据信息的唯一标识是1000100001,类型信息是database(数据库),实例名称是Emplogee(员工表),属性信息组包括<Name,Tony>(姓名是托尼),<Gender,male>(性别是男),<Age,20>(年龄是20岁),该数据的路径信息是DB1,语义关联项是Employeefile,表示所述实例和领域本体的Employeefile类相关联。给出具体ITNARD数据空间模型的元模型及实例的具体图形化表达。
图6是本发明实施例的数据空间模型构建的第二种实施方式。如图6所示,以这条ITNARD实例为例:(1000100002,PDF,《本体的研究综述》,{<title,本体的研究综述>,<keywords,本体><author,王向前>},D:\ontology,研究综述)。
以上实例表示从计算机D盘的PDF文档中获的数据信息形成的实例。具体表示为条数据信息的唯一标识是1000100002,类型信息是PDF,实例名称是《本体的研究综述》,属性信息组包括<title,《本体的研究综述》>(该文档的题目是《本体研究综述》),<keywords,本体>(关键字是本体),<author,王向前>(文档的作者是王向前),该数据的路径信息是D盘的ontology文件夹中,语义关联项是文献综述,表示所述实例和领域本体的文献综述类相关联。给出具体ITNARD数据空间模型的元模型及实例的具体图形化表达。
图7是本发明实施例的数据空间的主体分配示意图。如图7所示,S32:数据空间主体分配:针对数据空间的主体不同,将数据空间的主体大致分为普通用户和管理用户。数据空间对普通用户提供个性化的服务,用户可以根据已有的需求对数据空间的数据进行获取,将自己感兴趣的数据通过ITNARD数据空间模型创建数据空间,添加实例,并根据需求对数据空间进行查询、创建、修改、删除。管理用户主要是对数据空间模型和语义模型(即,领域本体)进行维护,包括领域本体管理、维护和数据空间模型管理,将新增的数据添加到本体中,并通过数据空间模型的语义关联项和领域本体的概念相关联。
图8是本发明实施例的数据空间的构建过程示意图。如图8所示,数据空间主要是根据用户需求,选取需要的数据资源,根据数据空间模型构建数据空间。构建数据空间时首先确定确定用户需求、确定数据源,判断数据空间是否存在,不存在需要先建立数据空间名称,然后抽取数据源信息,将ITNARD实例添加到数据空间,按照数据空间模型进行构建,同时关联到领域本体;存在数据空间,抽取数据源信息,将ITNARD实例添加到数据空间,关联到领域本体,完成数据空间的构建。
图9是本发明实施例的服务层与逻辑层交互示意图。如图9所示,在步骤104中,用户在服务层对领域本体的信息管理和查询搜索前,对管理查询搜索数据进行判断,若管理查询搜索数据符合推理规则,按照推理规则进行信息管理和查询搜索;否则,直接利用管理查询搜索数据对领域本体的信息管理和查询搜索。具体地说,S4为用户提供管理数据空间系统的服务,主要包含信息管理和查询搜索两部分。细化为下面步骤:用户输入查询语句,分析查询语句,根据查询请求在ITNARD实例中检索,由语义关联项映射到领域本体;根据领域本体直接关联关系(即,概念和概念之间的关系,也就是领域之中概念及概念相互之间关系)和间接关联关系(即,推理规则)检索结果,然后返回结果到ITNARD实例中,定位到具体的数据源(数据的物理地址),获取数据原始信息。
同时,本发明提成一种基于数据空间的个性化语义集成系统,包括:存储器和处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序为如上一种基于数据空间的个性化语义集成方法,处理器执行程序时实现以下步骤:构建资源层,将元数据和内容数据存到数据库中;构建逻辑层,在逻辑层内建立领域本体,并根据领域本体建立推理规则,以及在逻辑层内构建数据空间模型,关联领域本体和数据空间模型;构建服务层,用户在服务层根据推理规则或直接对领域本体的信息管理和查询搜索;通过数据空间模型对查询搜索到的数据进行显示,通过信息管理对领域本体以及数据空间模型进行管理。
总之,本发明提出一种基于数据空间的个性化语义集成方法和系统,本发明将数据空间管理系统划分为资源层、逻辑层、服务层三层结构。构建资源层,将元数据和内容数据存到数据库中;构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。可以解决不同的异构数据源的个性化语义集成效果差的问题。
以上所述实施例仅为表达本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、同等替换、改进等,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于数据空间的个性化语义集成方法,其特征在于,包括:
构建资源层,将元数据和内容数据存到数据库中;
构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;
构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;
通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。
2.根据权利要求1所述一种基于数据空间的个性化语义集成方法,其特征在于:
用户在所述服务层对所述领域本体的信息管理和查询搜索前,对管理查询搜索数据进行判断,若所述管理查询搜索数据符合所述推理规则,按照所述推理规则进行信息管理和查询搜索;
否则,直接利用管理查询搜索数据对所述领域本体的信息管理和查询搜索。
3.根据权利要求1所述一种基于数据空间的个性化语义集成方法,其特征在于:
构建所述资源层的具体方法为:对不同的异构数据源中的数据进行信息抽取得到所述元数据和所述内容数据,并将所述元数据和所述内容数据以键值对的方式存到所述数据库中。
4.根据权利要求1所述一种基于数据空间的个性化语义集成方法,其特征在于:
构建所述逻辑层的具体方法为:对领域之中概念及所述概念相互之间关系的形式化表达,根据所述形式化表达建立领域本体;
在所述元模型上加入实例,利用若干所述实例形成实例集;
根据所述实例集以及元模型构建数据空间模型,
关联所述领域本体内的所述概念和所述数据空间模型的所述实例集。
5.根据权利要求3一种基于数据空间的个性化语义集成方法,其特征在于:
所述不同的异构数据源,包括:结构化数据和非结构化数据,所述结构化数据和所述非结构化数据存在着结构异构;
对所述结构异构的数据进行管理的方法为:按照不同的所述结构化数据和所述非结构化数据的数据类型对各领域的数据进行信息抽取,将抽取的信息以键值对的方式存到所述数据库中。
6.根据权利要求5一种基于数据空间的个性化语义集成方法,其特征在于:
所述异构数据源为非结构化数据时,将所述非结构化数据的类型、标题和存储的物理路径信息,将所述存储的物理路径信息存储在所述数据库;而对应的非结构化数据的内容数据存放在其原始的数据源中,不存储在所述数据库;
所述异构数据源为结构化数据时,将所述结构化数据全部信息储在所述数据库。
7.根据权利要求1~6任一项述一种基于数据空间的个性化语义集成方法,其特征在于:
所述数据空间模型=(I,T,N,A,R,D),其中:
I为数据空间模型中实例的唯一标识;
T为数据空间模型中实例的类型信息;
N为数据空间模型中实例名称;
A为数据空间模型中实例的属性信息组;
R为路径信息,代表实例所在的物理位置,不同资源的路径信息不同,文档型资源的路径信息描述为文档的物理存储路径,数据库资源的路径信息描述为具体的数据库;
D表示语义关联项,所述语义关联项和所述领域本体的概念一一对应。
8.一种基于数据空间的个性化语义集成系统,其特征在于,包括:
存储器和处理器及存储在存储器上并可在处理器上运行的计算机程序,所述计算机程序为如权利要求1~7任一项一种基于数据空间的个性化语义集成方法,所述处理器执行所述程序时实现以下步骤:
构建资源层,将元数据和内容数据存到数据库中;
构建逻辑层,在所述逻辑层内建立领域本体,并根据所述领域本体建立推理规则,以及在所述逻辑层内构建数据空间模型,关联所述领域本体和所述数据空间模型;
构建服务层,用户在所述服务层根据所述推理规则或直接对所述领域本体的信息管理和查询搜索;
通过所述数据空间模型对查询搜索到的数据进行显示,通过所述信息管理对所述领域本体以及所述数据空间模型进行管理。
CN201811165543.3A 2018-10-08 2018-10-08 一种基于数据空间的个性化语义集成方法和系统 Active CN109271638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811165543.3A CN109271638B (zh) 2018-10-08 2018-10-08 一种基于数据空间的个性化语义集成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811165543.3A CN109271638B (zh) 2018-10-08 2018-10-08 一种基于数据空间的个性化语义集成方法和系统

Publications (2)

Publication Number Publication Date
CN109271638A true CN109271638A (zh) 2019-01-25
CN109271638B CN109271638B (zh) 2023-01-06

Family

ID=65196480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811165543.3A Active CN109271638B (zh) 2018-10-08 2018-10-08 一种基于数据空间的个性化语义集成方法和系统

Country Status (1)

Country Link
CN (1) CN109271638B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
US20140379755A1 (en) * 2013-03-21 2014-12-25 Infosys Limited Method and system for translating user keywords into semantic queries based on a domain vocabulary

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102682122A (zh) * 2012-05-15 2012-09-19 北京科技大学 基于本体构建材料科学领域语义数据模型的方法
US20140379755A1 (en) * 2013-03-21 2014-12-25 Infosys Limited Method and system for translating user keywords into semantic queries based on a domain vocabulary
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘歆: "领域数据集成及服务关键技术研究", 《中国博士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN109271638B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
Li et al. Learning ontology from relational database
Elnagar et al. An automatic ontology generation framework with an organizational perspective
Chen et al. Aggregating semantic annotators
González-Beltrán et al. Federated ontology-based queries over cancer data
Liu et al. A general multi-source data fusion framework
CN109271638A (zh) 一种基于数据空间的个性化语义集成方法和系统
Lee et al. Ontology management for large-scale e-commerce applications
Stuckenschmidt et al. Query processing in ontology-based peer-to-peer systems
Ostrowski et al. A semantic based framework for the purpose of big data integration
Varanka et al. Topographic mapping data semantics through data conversion and enhancement
Bobed et al. Emerging semantic-based applications
Halpin Provenance: The missing component of the semantic web for privacy and trust
Kaur et al. Semantic Web Mining-A Review
Rogushina Concepts and Models of Semantic Technologies
Gertz et al. A Model and Architecture for Conceptualized Data Annotations
Lira et al. An approach to support data integrity for web services using semantic restful interfaces
Najla et al. Extension of protege to support evolution of ontology
Motta et al. Language technologies and the evolution of the semantic web
Li Construction of Chinese Knowledge Graph Based on Multiple Data Mining Algorithms
Yan et al. Knowledge Graph Representation of Syntactic and Semantic Information
Fernandes Using semantics to enhance query reformulation in dynamic distributed environments
Mingyue et al. Establishment Method of Knowledge Graphs for Public Security Cases
Nandini An Ontology based Optimized Semantic Web Service Discovery using TensorFlow in Overlay Cell Networks
Alves et al. An Open Data Approach to Publish Relational Data
Yusof et al. Architecture for Accessing Heterogeneous Databases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant