CN114297224A

CN114297224A - 一种基于rdf的异构数据集成与查询系统及方法

Info

Publication number: CN114297224A
Application number: CN202111579722.3A
Authority: CN
Inventors: 耿道渠; 耿记磊; 赵阳春; 王平; 江渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-04-08

Abstract

本发明请求保护一种基于RDF的异构数据集成与查询系统及方法，属于异构数据集成与数据语义处理技术相结合领域，包括：原始数据层、数据封装层、语义层、数据查询层和应用层，原始数据层将异构数据库中的结构化数据或非结构化数据传给数据封装层，数据封装层将封装后的数据传给语义层，语义层将进行语义处理之后的数据传递给数据查询层，数据查询层将数据传递给应用层。针对该架构，基于目前实验室现有实验条件，采用i5‑8400处理器、20G内存、1T硬盘的计算机作为实验平台。所设计的异构数据集成与查询系统及方法可以减少计算机资源的占用，并大大减少数据查询的响应时间，最终经本发明得到的数据内容及格式与预期相符，证明本发明所提系统与方法可行。

Description

一种基于RDF的异构数据集成与查询系统及方法

技术领域

本发明属于异构数据集成与数据语义处理技术结合的领域，涉及一种基于RDF的异构数据集成与查询系统及方法。

背景技术

物联网系统在工作中，常产生大量异构数据，将这些数据赋予机器能理解的含义，是解决异构数据无法兼容的主要手段。然而在对数据进行含义赋予时，常常会发生语义异构，导致对同一事物在解释上所存在差异，也就体现为同一事物在不同领域中理解的不同。为了解决这种异构带来的难题，涌现出了大量不同类型的方案，使物联网系统之间的通信以及数据交换和语义知识的提取发生了很大的变化。当前，语义模型种类繁多，各具特点，共存发展，这些模型基础包括本体论、中间件、语义网，特别是基于本体论方面，包括oneM2M、语义传感器网络(SSN)本体、WSSN、上下文本体CANON、IOT-Lite、M3本体等。然而这些技术在使用数据时常常没有一个统一的数据源格式作为结果返回，造成语义处理出现歧义，为了在语义互操作工作中可以更好的使用数据，本发明可作为语义互操作第一步，即对异构数据进行相关处理。

经过检索，申请公开号CN107895046B，一种异构数据集成平台，用于对各个异构数据源进行无缝连接，所述平台包括应用系统、虚拟数据层和数据源层，所述应用系统用于对接访问接口和通过虚拟数据层管理各个节点数据源；所述虚拟数据层用于将若干个分布的、独立的异构数据源集成管理；所述数据源层用于接收异构数据源。本发明一种异构数据集成平台，将平台分割为应用系统、虚拟数据层和数据源层，对各个异构数据源进行无缝连接，采用抽象对象的方法，向上层应用系统屏蔽各种数据源的底层差别。该技术直接对底层数据源进行操作，抽取各种异构数据建立虚拟数据层，直接操作虚拟数据层，效率低下，并且对计算机内存消耗很高。有鉴于此，本发明添加了对于各个异构数据源的时间代价优化算法在查询之前对查询语句进行代价计算并优化为最优查询语句，可大大减少查询时间和计算机资源；除此之外，本发明将不同数据源进行局部和整体映射，屏蔽底层数据源的差异，用本体映射技术进行查询，效率远远高于对底层数据源直接进行操作，并且本发明中添加了数据转换器，使得查询的数据格式完全符合技术人员的预期。

申请公开号CN110046280A，一种面向抽检的多工位监控视频语义检索系统，属于视频数据处理和语义Web技术领域。该系统的整体架构包括：原始数据层、数据处理层、语义层、服务层和应用层。原始数据层包括产品生产流水线现场各工位的监控视频和用来训练的样本视频库。数据处理层包括样本视频处理模块和监控视频处理模块。语义层包括视频语义标注模块、视频信息语义化模块、视频领域知识本体模型、语义推理和查询模块、本体数据库和语义规则文件。服务层包括视频查询服务和权限检测服务。应用层包括视频检索模块、视频回放模块、用户权限模块。本发明可在抽检中对某一产品生产流水线上各工位的监控视频进行语义检索，提高抽检效率。该技术实现底层统一数据处理，处理不了异构数据源，并将所有的数据建立本体放入本体库中，当遇到异构数据时，系统无法正常运行。本发明通过本体映射技术将异构数据源进行映射，在查询时，可以完成不同数据之间的查询转换。

发明内容

本发明旨在解决以上现有技术中在使用数据时面临海量数据处理而效率低下的问题。提出了一种基于RDF的异构数据集成与查询系统及方法。本发明的技术方案如下：

一种基于RDF的异构数据集成与查询系统及方法，其包括：原始数据层、数据封装层、语义层、数据查询层和应用层，所述原始数据层将异构数据库中的结构化数据或非结构化数据传给数据封装层，数据封装层将封装后的数据传给语义层，语义层将进行语义处理之后的数据传递给数据查询层，数据查询层将数据传递给应用层，其中，

所述原始数据层采用RDF Schema(资源描述框架模式)对不同数据源进行描述，消除异构数据源的语法异构；采用对数据源中的关系表结构和语义进行分析，消除异构数据源的语义异构；

所述数据封装层包括web服务与数据封装模块；数据封装模块分为查询转换器与结果转换器，查询转换器将子查询根据底层不同的数据库转换成相应数据库可识别的子查询；结果转换器根据不同的子查询得到不同的查询结果，再将查询处理结果进行格式转换，生成RDF数据格式的文件；

所述语义层包括Global Schema和Local Schema、以及两种模式之间的模式映射；其中Global Schema首先构建一个全局本体，其次做全局虚拟视图的语义化描写，最后通过虚拟视图使得在查询过程中不需查询底层异构数据源；其中构建Local Schema的过程即为对异构数据源的语义描述，可通过Turtle对RDF进行序列化，完成模式创建，Turtle文档由一系列指令、三元组语句或空白行组成；

所述数据查询层主要实现对用户请求的处理，包括对请求的优化，对结果的缓存以及对数据源的包装；查询使用语言为SPARQL或SQL

所述应用层包括web接口、管理接口和其他接口。

进一步的，所述语义层的三元组是一个(主语、谓词、宾语)项的序列，由空格分隔，并在每个三元组之后由’.’结尾，RDF术语有三种类型：RDF URI引用、文字和空白节点；通过RDF根据底层异构数据源数据类型建立相应局部本体以及全局本体，再将其进行模式映射达到互操作，其中模式映射即为Local Schema到Global Schema的映射。

进一步的，所述Local Schema到Global Schema的映射通过采用中间映射的方式进行模式映射，即将Local Schema首先映射成用RDF描述的文件，再将这些描述文件映射到Global Schema，前者映射模式为1:1，后者映射模式为n:1，是一种公共数据的描述模型，由Turtle和本体技术描述而成的，该映射方法的中间状态属于数据源的虚拟视图，而非真实存在。

进一步的，所述数据查询层包括查询代价优化模块、选择复制模块、查询执行模块、结果缓存模块；其中，查询代价优化模块用于对查询语句进行查询代价的计算并优化成最小代价查询，这一过程可得到查询执行的代价规划文档；所述选择复制模块用于对部分查询数据复制为热点数据；所述查询执行模块主要负责查询计划的执行，当发出请求经过处理的结果返回至查询执行模块；所述结果缓存模块将热点数据缓存至指定的内存空间，方便后期查询，缩短响应时间，并将查询结果以用户希望的格式返回至应用层。

进一步的，所述查询代价优化模块通过SPARQL语句得到预期结果；首先生成SPARQL查询语句；其次对查询语句进行次处理，分析对应数据源的子查询语句；然后通过改进的Cost-Based Optimization算法对查询语句进行时间代价计算，得到查询执行的代价规划文档。

进一步的，所述采用改进的Cost-Based Optimization(基于成本优化)算法需要用到脚本工具Preanalyze；算法操作如下：

(1)首先生成ANALYZE语句，打开该算法，SET hive.cbo.enable＝TRUE；

(2)用/preanalyze.sh-f分析SPARQL语句，根据底层不同数据库文件，分析不同的数据库查询语句文件，获取统计信息并执行文件；

(3)获得分析文件后，执行/preanalyze.sh-d语句和/(数据库文件后缀)s-imy.conf语句。

一种基于任一项所述系统的异构数据集成与查询系统及方法，其包括：以下步骤：

原始数据层采用RDF Schema(资源描述框架模式)对不同数据源进行描述，消除异构数据源的语法异构；采用对数据源中的关系表结构和语义进行分析，消除异构数据源的语义异构；

查询转换器将子查询根据底层不同的数据库转换成相应数据库可识别的子查询；结果转换器根据不同的子查询得到不同的查询结果，再将查询处理结果进行格式转换，生成RDF数据格式的文件；

Global Schema首先构建一个全局本体，其次做全局虚拟视图的语义化描写，最后通过虚拟视图使得在查询过程中不需查询底层异构数据源；其中构建Local Schema的过程即为对异构数据源的语义描述，可通过Turtle对RDF进行序列化，完成模式创建，Turtle文档由一系列指令、三元组语句或空白行组成；

数据查询层实现对用户请求的处理，包括对请求的优化，对结果的缓存以及对数据源的包装；查询使用语言为SPARQL或SQL。

本发明的优点及有益效果如下：

(1)用RDF Schema对不同数据源进行统一描述，消除异构数据源语法上的异构，用Turtle对本体描述，消除异构数据源语义上的异构。

(2)提出基于RDF格式的异构数据集成方案，通常用于异构系统间数据交换读取并理解，例如Web网页的时间表或者工业异构数据的相同含义表达，RDF文档使用XML编写，通过使用XML，RDF信息可以轻易地使用不用类型的操作系统和应用语言的计算机之间进行交换。为语义互操作工作打下基础。

(3)利用本体知识和共享概念术语，实现Local Schema到Global Schema的映射，解决数据集成中的映射问题。

(4)根据权利6所述改进Cost-Based Optimization算法，使其从符合SQL查询语句优化到支持SPARQL查询优化，最终根据不同数据库得出不同代价，并实现选择最小代价、最高准确率的执行计划进行查询。改进的Cost-Based Optimization算法优点在于可以实现异构数据源的不同时间代价优化，而不仅仅局限于一种数据源，解决目前异构数据源的查询代价问题。

(5)在数据查询中加入缓存系统，实现热点数据缓存，根据不同业务选择的缓存算法并不相同。

(6)现存的数据查询基本都是直接基于数据库，少数会对数据进行操作，本发明基于RDF对数据进行操作为将来语义互操作工作打下坚定基础。

附图说明

图1是本发明提供优选实施例基于RDF的异构数据集成与查询方法架构图；

图2数据查询层的查询流程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本申请实施方试提供一种基于RDF的异构数据集成与查询系统及方法，架构图如图1所示，整体架构包括：原始数据层、数据封装层、语义层、数据查询层，应用层。原始数据层包括各种不同数据库中数据源或者相同数据库中不同数据源。数据封装层包括将异构数据进行格式封装并展示与前端页面，语义层包括三种模式的映射，数据查询层包括数据的查询语句重写之后的优化以及查询结果的存储，应用层包括各个行业的web接口与管理接口。该方法为面向不同行业开发的基于异构数据集成与查询平台，将促进相关行业的科学发展，并为语义互操作研究提供基础。

其中：

所述原始数据层包括各种异构数据库的数据源，数据源存在语法或者语义异构，为消除异构，需要相关技术对异构数据源进行处理，采用RDF Schema对不同数据源进行描述，消除异构数据源的语法异构；采用对数据源中的关系表结构和语义进行分析，构造出Global Schema和Local Schema，通过这两种关系模式的映射，消除异构数据源的语义异构；

所述数据封装层包括web服务与数据封装模块；数据封装模块分为查询转换器与结果转换器。查询转换器将子查询根据底层不同的数据库转换成相应数据库可识别的子查询；结果转换器根据不同的子查询得到不同的查询结果，再将查询处理结果进行格式转换，生成RDF数据格式的文件；

所述语义层包括Global Schema和Local Schema以及两种模式之间的模式映射；其中Global Schema需要建立一个全局本体以提供统一语义描述，完成从领域到语义层次的转变，首先构建一个全局本体，其次做全局虚拟视图的语义化描写，最后通过虚拟视图使得在查询过程中不需查询底层异构数据源；其中构建Local Schema的过程即为对异构数据源的语义描述，可通过Turtle对RDF进行序列化，完成模式创建，Turtle文档由一系列指令、三元组语句或空白行组成。简单的三元组是一个(主语、谓词、宾语)项的序列，由空格分隔，并在每个三元组之后由’.’结尾。RDF术语有三种类型：RDF URI引用(简称URIs)、文字和空白节点；其中模式映射即为Local Schema到Global Schema的映射，本发明通过采用中间映射的方式进行模式映射，即将Local Schema首先映射成用RDF描述的文件，再将这些描述文件映射到Global Schema，前者映射模式为1:1，后者映射模式为n:1，是一种公共数据的描述模型，由Turtle和本体技术描述而成的，该映射方法的特征在于中间状态属于数据源的虚拟视图，而非真实存在；

所述服数据查询层包括查询代价优化模块、选择复制模块、查询执行模块、结果缓存模块；该层主要实现对用户请求的处理，包括对请求的优化，对结果的缓存以及对数据源的包装等，查询使用语言为SPARQL或SQL。其中，查询代价优化模块用于对查询语句进行查询代价的计算并优化成最小代价查询，这一过程可得到查询执行的代价规划文档；所述选择复制模块可以对部分查询数据复制为热点数据；所述查询执行模块主要负责查询计划的执行，当发出请求经过处理的结果返回至查询执行模块；所述结果缓存模块将热点数据缓存至指定的内存空间，方便后期查询，缩短响应时间，并将查询结果以用户希望的格式返回至应用层。

所述应用层包括web接口、管理接口和其他接口。

所述原始数据层的异构数据分为异构数据库，包括但不限于MYSQL、SQLServer、……、Oracel，异构数据包括结构化数据和非结构化数据。

所述数据封装层的查询转换器和结果转换器具体包括：查询转换、发起请求、处理请求、响应请求，其中，结果转换器需要将查询到的结果转换成RDF格式。

所述语义层的Global Schema和Local Schema以及两种模式之间的模式映射，其中，Local Schema是底层数据库系统的相关数据源，例如底层异构数据MYSQL、SQLServer、……、Oracel，该模式为异构模式；由Local Schema映射出文件的中间格式文件，该文件由RDF格式表达，由中间文件映射到Global Schema，该过程为对象间过程。该过程中，需要通过建立本体的方式进行映射，采用Turtle对本体进行描述，保留数据完整性，解决数据异构问题。

所述数据查询层主要通过SPARQL语句得到预期结果。首先生成SPARQL查询语句；其次对查询语句进行次处理，分析对应数据源的子查询语句；然后通过改进的Cost-BasedOptimization算法对查询语句进行时间代价计算，降低查询过程中的时间和CPU性能代价，得到查询时间规划文档；

所述改进的Cost-Based Optimization算法需要用到脚本工具Preanalyze；

(1)首先生成ANALYZE语句，打开该算法，SET hive.cbo.enable＝TRUE；

(2)用/preanalyze.sh-f分析SPARQL语句，根据底层不同数据库文件，分析不同的数据库查询语句文件，获取统计信息并执行文件。

(4)根据结果对比可以发现，该算法有效去除了文件中重复的查询语句，同时去除了被多次分析的对象，减少了计算机资源开销并提高了查询效率，

减少了查询时间。

本例应用场景为基于地理信息集成应用实现，如表1、表2、表3所示，根据图1架构图所示，由于异构数据库，存在数据语法与语义的异构问题，，需要消除这两种异构并统一返回RDF格式数据。采用RDF Schema对表1和表2进行描述，再用RDF Schema对表2和表3进行描述，这样可以解决异构数据源语法间的异构；利用Turtle关联数据对本体进行表述，将表1、表2和表3中的数据统一到全局模式下，通过RDF Schema和本体技术描述局部模式到全局模式的映射。例如表1，表1.NAME＝全局.MARK；对于表2和表3而言，是两张表合并数据之后进行映射，所以表2中的属性可以映射到表3中的很多数据。表2和表3均可以映射到全局模式中，表1、表2和表3之间也可以相互映射。至此，完成语义模块的构建。

进一步的，构建数据查询层，数据查询层就是接收用户查询请求，并对请求进行处理，过程如图2所示，首先用户提交有需求的全局查询，通过SPARQL描述消除异构数据的语法异构，再通过RDF Schem生成正确的全局查询，其次，根据查询语句的复杂程度，将整个查询语句分解为子查询，再依次向上传递。分解完成之后，将各个子查询进行代价查询，使用优化算法对各个子查询进行优化达到优化全局查询的目的，优化完成之后，对全局查询语句进行数据源处理，将查询到的数据进行结果处理，设计LRU算法，对结果进行缓存以便于下次查询来减少响应时间和计算机资源代价。至此，数据查询层设计完成。

数据封装层采用Web Service技术处理，使用SOAP(Simple Object AccessProtocol)轻量级信息处理技术在web上提供软件服务，首先查询转换器接收到SPARQL子查询后，根据底层数据库的不同转换为不同的查询语句，例如对于Mysql数据库，将SPARQL查询语句转换为SQL查询语句。查询之后将结果返回值结果转换器，进行RDF三元组封装，将查询到的数据分为“主谓宾”格式封装成RDF格式进行返回。至此，数据封装层设计完成。

在本实施方案中，采用B/S结构对上述功能进行实现，需要使用的设备及软件如下：

本体构建工具：TopBraidComposer

Web服务器：Tomcat Web服务器

集成开发环境(IDE)：Eclipse

硬件环境：i5-8400处理器、20G内存、1T硬盘

数据库：Mysql、SQL Server、Oracel等

综上所述，本发明设计的一一种基于RDF的异构数据集成与查询系统及方法可以实现将异构数据集成进行查询返回RDF格式文件，并实现查询代价的优化和减少计算机资源的开销。提高了数据的实用性和有效性，为数据共享打下了坚定基础，在将来的语义互操作工作中，本发明可以发挥至关重要的作用，从而提高整个语义互操作系统的运行效率。

字段	类型	Null	注释
				Name	Varchar(20)	YES	交通名称
Number	Int(8)	PK	交通编号
				Level	Int(10)	YES	交通层次
Money	Money(100)	YES	交通费用
				Condition	Varchar(100)	YES	交通状况
Mark	Varchar(20)	YES	道路名称

表1数据库1的交通状况表

表2数据库2的道路设施表

字段	类型	Null	注释
				Name	Varchar(20)	YES	交通名称
Money	Money(100)	YES	维修费用
				Tratime	Int(10)		设备投放时间
Suggestion	Varchar(100)	YES	设备投入意见
				Updation	Int(100)	YES	设备更新时间

表3数据库3的交通道路设施表

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于RDF的异构数据集成与查询系统，其特征在于，包括：原始数据层、数据封装层、语义层、数据查询层和应用层，所述原始数据层将异构数据库中的结构化数据或非结构化数据传给数据封装层，数据封装层将封装后的数据传给语义层，语义层将进行语义处理之后的数据传递给数据查询层，数据查询层将数据传递给应用层，其中，

所述原始数据层采用RDF Schema资源描述框架模式对不同数据源进行描述，消除异构数据源的语法异构；采用对数据源中的关系表结构和语义进行分析，消除异构数据源的语义异构；

所述应用层包括web接口、管理接口和其他接口。

2.根据权利要求1所述的一种基于RDF的异构数据集成与查询系统，其特征在于，所述语义层的三元组是一个(主语、谓词、宾语)项的序列，由空格分隔，并在每个三元组之后由’.’结尾，RDF术语有三种类型：RDF URI引用、文字和空白节点；通过RDF根据底层异构数据源数据类型建立相应局部本体以及全局本体，再将其进行模式映射达到互操作，其中模式映射即为Local Schema到Global Schema的映射。

3.根据权利要求2所述的一种基于RDF的异构数据集成与查询系统，其特征在于，所述Local Schema到Global Schema的映射通过采用中间映射的方式进行模式映射，即将LocalSchema首先映射成用RDF描述的文件，再将这些描述文件映射到Global Schema，前者映射模式为1:1，后者映射模式为n:1，是一种公共数据的描述模型，由Turtle和本体技术描述而成的，该映射方法的中间状态属于数据源的虚拟视图，而非真实存在。

4.根据权利要求1所述的一种基于RDF的异构数据集成与查询系统，其特征在于，所述数据查询层包括查询代价优化模块、选择复制模块、查询执行模块、结果缓存模块；其中，查询代价优化模块用于对查询语句进行查询代价的计算并优化成最小代价查询，这一过程可得到查询执行的代价规划文档；所述选择复制模块用于对部分查询数据复制为热点数据；所述查询执行模块主要负责查询计划的执行，当发出请求经过处理的结果返回至查询执行模块；所述结果缓存模块将热点数据缓存至指定的内存空间，方便后期查询，缩短响应时间，并将查询结果以用户希望的格式返回至应用层。

5.根据权利要求4所述的一种基于RDF的异构数据集成与查询系统，其特征在于，所述查询代价优化模块通过SPARQL语句得到预期结果；首先生成SPARQL查询语句；其次对查询语句进行次处理，分析对应数据源的子查询语句；然后通过改进的Cost-BasedOptimization算法对查询语句进行时间代价计算，得到查询执行的代价规划文档。

6.根据权利要求5所述的一种基于RDF的异构数据集成与查询系统，其特征在于，所述采用改进的Cost-Based Optimization基于成本优化算法需要用到脚本工具Preanalyze；算法操作如下：

(1)首先生成ANALYZE语句，打开该算法，SET hive.cbo.enable＝TRUE；

7.一种基于权利要求1-6任一项所述系统的异构数据集成与查询方法，其特征在于，包括：以下步骤：

原始数据层采用RDF Schema资源描述框架模式对不同数据源进行描述，消除异构数据源的语法异构；采用对数据源中的关系表结构和语义进行分析，消除异构数据源的语义异构；