CN113434693B

CN113434693B - 一种基于智慧数据平台的数据集成方法

Info

Publication number: CN113434693B
Application number: CN202110697307.1A
Authority: CN
Inventors: 付蔚; 张棚; 刘庆; 吴志强; 李正; 胡灿伟; 冯建强; 段绪伟; 袁驰; 陈建波; 杨宇; 彭霞; 段然
Original assignee: Chongqing Guanfang Intelligent Medical Technology Co ltd; Institute Of Industrial Internet Chongqing University Of Posts And Telecommunications; Unicom Digital Technology Co Ltd
Current assignee: Chongqing Guanfang Intelligent Medical Technology Co ltd; Institute Of Industrial Internet Chongqing University Of Posts And Telecommunications; Unicom Digital Technology Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-02-21
Anticipated expiration: 2041-06-23
Also published as: CN113434693A

Abstract

本发明涉及一种智慧数据平台的数据集成方法，属于异构数据集成和查询技术领域，分为两个阶段：基于知识超图的虚拟数据集成和基于超图的查询处理。第一阶段允许生成虚拟知识超图，由本体和数据之间的RML映射组成。第二阶段包括通过基于生成的知识超图从不同来源提取和整合数据的全局视图来增强用户的查询。本方法提高了查询处理的准确性、完整性和语义丰富的响应。

Description

一种基于智慧数据平台的数据集成方法

技术领域

本发明属于异构数据集成和查询技术领域，涉及一种基于智慧数据平台的数据集成方法。

背景技术

在社会和经济的现实需求下，以及在技术和政策的双重驱动下，智慧医院以智慧医疗、智慧服务和智慧管理为核心的建设框架逐渐明晰。在社会和经济的现实需求下，以及在技术和政策的双重驱动下，智慧医院以智慧医疗、智慧服务和智慧管理为核心的建设框架逐渐明晰。因此许多医院已经开始构建智慧数据平台，以此来实现医疗大数据信息资源的共享，可以规范并优化诊疗流程、提升医疗服务质量与效率、实现便捷的医疗服务。在构建智慧数据平台时，大量的数据恶化了异构性问题，生成异构格式和不同语义的数据源类型也是如此。这些与数据有关的问题在智慧数据平台领域是常见的。这些问题导致获取、定价和数据权利方面的误解和低效的数据交换和管理；传统的数据异构集成方法是利用数据集成方法实现异构数据的统一标准接口，集成平台介于数据展示层和数据应用层之间，利用接口处理异构数据的集成问题；这些方法很难保证语义互操作性、准确性和完整性。

发明内容

有鉴于此，本发明的目的在于提供一种基于智慧数据平台的数据集成方法，实现了语义互操作性，在语义上集成和链接多源数据，以保证全局信息视图，并确保在准确性、完整性和关系丰富性方面增强信息提取。

相比较于大多数的数据集成方法，基于知识超图的数据集成与查询方法其目的是确保语义互操作性，在语义上集成和链接多源数据，以保证全局信息视图，并确保在准确性、完整性和关系丰富性方面增强信息提取。针对这些问题，本发明提出了基于知识超图的虚拟数据集成和基于超图的查询处理两个阶段。第一阶段对数据进行语义链接，构建一个能够充分利用异构数据的全局信息视图的庞大知识超图。第二阶段提出了一种增强的查询处理方法，该方法允许透明地查询分布式数据源，并覆盖范围更广的用户查询答案，同时考虑到结果的准确性、完整性和语义丰富性挑战。打破了以往不同的存储格式和不同的术语调和难的竖井，同时处理了妨碍数据源之间信息交换和互操作性的异构问题，以提供信息的全局视图，不同的系统和项目可以畅通无阻地统一获取可用的环境数据，这些数据将被链接和合成一个单一的知识图谱。

为达到上述目的，本发明提供如下技术方案：

一种基于智慧数据平台的数据集成方法，包括以下步骤：

S1：对数据进行语义链接，构建一个能够充分利用异构数据的全局信息视图的知识超图；

S2：基于知识超图进行查询处理。

进一步，步骤S1具体包括以下步骤：

S11：使用基于OBDI范式和超图的虚拟数据集成；

S12：使用数据语义标注算法，将元数据中的术语与本体中的类进行关联，从而以语义一致的方式将各种资源连接在一起；

S13：进行RML映射生成，将一个数据集作为输入，并使用本体和生成的注释生成一个RML映射文档作为输出，将元数据实体分为简单元数据和复杂元数据两类；

S14：进行知识超图模型的构建，超图具有通过标记超边对数据的层次和结构形式进行建模的能力。RML映射图记为RML_G＝(V,E)，其中，V是表示三元组映射的主题映射和对象映射的一组顶点，对应于RDF数据中的所有主题和对象；

是一个多重集，对应于所有三元组的定向边缘RML映射(谓词映射)。

进一步，步骤S11中所述基于OBDI范式和超图的虚拟数据集成体系包括语义层和数据层，其中：

语义层，表示本体，用于提供感兴趣领域的正式和高级表示；对于每个数据集，通过生成RDF注释来使用领域本体对数据进行语义注释；

数据层，表示可用数据及其元数据；生成一个RML映射文档，包含领域本体和元数据之间的映射，具体取决于输入的格式(例如JSON、CSV等)；

基于超图的虚拟数据集成，并表示语音层和数据层之间的映射，所述映射即数据源和本体之间关系的显式表示，用于将本体上的查询转换为数据源可处理的查询；从而构建一个对应于生成的文档的映射视图超级节点；最后建立由RML映射视图超节点和各种超边组成的知识超图，对环境观测的不同视图进行语义描述。

进一步，所述基于OBDI范式和超图的虚拟数据集成体系包括：

数据库层包含不同数据，表示可用数据及其元数据，用于存储不同的数据格式；

语义层由模块环境监测本体(MEMOn)、空间RDF存储库(SRDFStore)和时间RDF存储库(TRDFStore)组成。MEMOn是在上层本体基本形式本体和公共核心本体、语义传感器网络本体等现有本体的基础上，提出的面向监测领域的模块化本体。RDFstore和TRDFStore存储器用来解决空间异构性问题；

数据集成层包括两个主要阶段：基于超图的虚拟数据集成和基于超图的查询处理。

用户界面层是允许用户和拟议系统之间进行对话的前端界面；工程师、软件代理、甚至普通用户，只要具备足够的MEMOn知识，就有可能基于SPARQL查询界面查询相关数据。这一层将有助于实现可用性，即用户能够轻松地完成任务。

进一步，步骤S12所述的数据语义注释算法，具体包括以下步骤：

S121：首先使用Onto-KIT系统提取元数据实体；

S122：在结构化和半结构化数据的情况下(RDB、CSV和XML)，通过访问他们的模式和相应的结构信息以及利用数据结构不同的包装提取元数据；

S123：利用数据语义注释算法识别相关的元数据实体；

S124：在提取出元数据实体后，利用领域本体作为知识库获取与元数据实体相对应的语义实体；

S125：如果在元数据和本体类之间没有发现匹配，利用已加载的同义词库来确定语义上相似的属性，提取一组与元数据实体相匹配的词库实体并存储在“setT”中；

S126：将每个词库实体与本体类进行匹配，并提取第一个相应的类；

S127：系统生成注释A，注释A是附加到数据集或数据集的特定部分(如文档或数据库字段)的一种元数据形式；每个注释A＝(O,C,T,S>具有以下组件：O为某个本体类，T为数据项，C为O和T之间的某些关系，S为对提取数据项的源的引用；再给定一组URI引用R、一组空白节点B和一组文字L，注释a就是RDF四元组(O,C,T,S)∈(R∪B)×R×(R∪B∪L)×(R∪B)，其包括元数据实体、类和数据源；整个过程对输入数据集的所有元数据实体执行；

S128：最后，系统生成包含元数据实体、类和数据源的注释。

进一步，步骤S13所述的进行RML映射生成，具体包括以下步骤：

S131：对于每一个元数据，创建一个新的三元组映射；

S132：对于每个三元组映射，生成一个主题映射，所述主题映射定义为映射的资源生成惟一标识符的规则；所述主题映射将用作从这个三元组映射生成的所有RDF三元组的主题；

S133：对于每个三元组映射，生成许多谓词对象映射，对象对应元数据实体，谓词表示从本体中提取的元数据实体之间的关系，再引入另外两个规则来处理简单和复杂的元数据实体；

S134：使用rml:reference将每个简单的元数据实体映射到一个谓词对象映射和一个OWL数据或对象属性；

S135：使用谓词对象映射属性rr:parentTriplesMap，将每个复杂元数据实体映射到另一个三元组映射和一个OWL对象-属性；有助于生成更完整的映射。

进一步，步骤S14所述的构建知识超图模型，具体包括以下步骤：

S141：基于生成的RDF四元组注释，建模语义视图；将建立的视图组成为一个超节点；

S142：构建知识超图，指定元组(V,A,E,E_D,E_M,E_A,λ_label,λ_v),V＝V_sUV_o是顶点集，V_s映射视图中所有主体的集合，V_o是所有对象的集合，E是超边节点，E＝E_DUE_O,E_D＝E_SUE_T是超弧节点，E_D是由空间的超边或超弧组成，E_T由面向时间的超边缘或超弧组成，E_m由以超级节点表示的映射视图组成，E_O无向超边组成，λ_label为E→S的超边标函数，V2→R为顶点变换规则函数。

进一步，步骤S2所述的基于知识超图进行查询处理，具体包括以下步骤：

S21：解析输入SPARQL查询并使用空间RDF存储和时态RDF存储生成其架构图模式SGP；

S22：将SGP与映射视图超级节点匹配，并提取一组相关的映射视图超级节点和RML映射文档(Mdocpaths)的路径；

S23：使用空间和时态RDF存储将输入SPARQL查询转换为具体的子查询；

S24：RML映射处理以RDF格式生成数据并将其存储在Buffer RDF存储中，执行子查询以获得输入SPARQL查询的结果RDF知识图(RDF KG)。

进一步，步骤S24所述的并适当的数据并执行重写的子查询，具体包括以下步骤：

S241：将提取的RML映射文档(Mdoc)和子查询作为输入，并从处理RML映射开始，以生成RDF三元组；

S242：使用RML Mapper 9映射进程执行器解析输入映射并将其存储在内存中；对于每个三元组映射，打开在逻辑源中定义的数据源，并使用适当的库向该数据源提出已定义的迭代器查询；

S243：在接收到结果集之后，映射处理器将遍历结果中的所有特性，对于每个特性，遍历所有谓词-对象映射，并处理每个谓词-对象映射以形成所需的RDF三元组；

S244：对于每个RML映射文档，获得一个缓冲的RDF三元组存储；

S245：在不同的RDF存储上执行生成的子查询，以便从第一步中仅提取匹配SPARQL的RDF三元组，以此得到查询处理的结果。

本发明的有益效果在于：本方法在多源异构的数据集成环境中，使用知识超图的虚拟数据集成进行数据的集成和查询，对数据进行语义链接，构建一个能够充分利用异构数据的全局信息视图的庞大知识超图。查询处理允许透明地查询分布式数据源，并覆盖范围更广的用户查询答案，考虑到结果的准确性、完整性和语义丰富性挑战。打破了以往不同的存储格式和不同的术语调和难的竖井，同时处理了妨碍数据源之间信息交换和互操作性的异构问题，以提供我们所说的信息的全局视图，不同的系统和项目可以畅通无阻地统一获取可用的环境数据，这些数据将被链接和合成一个单一的知识图谱。在Onto-KIT工具(基于本体的知识超图数据集成和查询工具)中实现了该方法，并通过实际用例进行了评估。得到的结果表明，该方法提高了查询处理的准确性、完整性和语义丰富的响应。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为基于知识超图的数据集成和查询方法的体系结构图；

图2为基于超图的虚拟数据集成图；

图3为知识超图查询流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

请参阅图1～图3。如图1所示为本发明基于知识超图的数据集成和查询方法的体系结构图，包括：

S101:数据库层包含与医院各类信息相关的不同数据，表示可用数据及其元数据，用于存储不同的数据格式；

S102：语义层由模块环境监测本体(MEMOn)、空间RDF存储库(SRDFStore)和时间RDF存储库(TRDFStore)组成。MEMOn是在上层本体基本形式本体和公共核心本体、语义传感器网络本体等现有本体的基础上，提出的面向监测领域的模块化本体。RDFstore和TRDFStore存储器用来解决空间异构性问题；

S103：数据集成层包括两个主要阶段：基于超图的虚拟数据集成和基于超图的查询处理。

S104：用户界面层是允许用户和拟议系统之间进行对话的前端界面；工程师、软件代理、甚至普通用户，只要具备足够的MEMOn知识，就有可能基于SPARQL查询界面查询医院相关数据。这一层将有助于实现可用性，即用户能够轻松地完成任务。

其中，步骤S103所述的基于超图的虚拟数据集成如图2所示，具体包括：

步骤S201：语义注释；首先使用Onto-KIT系统提取元数据中的实体。

步骤S202：判断是否是结构化以及半结构化数据。

步骤S203：如果数据是结构化以及半结构化数据，语义注释通过访问其架构获得相应的结构信息，并通过利用根据数据结构使用不同的包装器。

步骤S204：提取元数据实体后，该算法利用领域本体作为知识库来获取与元数据实体相对应的语义实体。

步骤S205：将元数据的每个实体都映射到一个来自本体的类。如果未找到匹配项在元数据和本体类之间，该算法利用了已加载的词库在流程开始时，从语义上确定相似的属性。

步骤S206：再将匹配的一组同义词库实体将元数据实体提取并存储在“setT(从同义词库中匹配的术语)”中，该算法将每个主题词库实体与本体进行匹配并提取第一个对应的类。

步骤S207：最后，系统生成包含元数据实体、类和数据源的注释；

步骤S208：完成语义注释之后，进行RML映射生成；对于每一个元数据，创建一个新的三元组映射；

步骤S209：对于每个三元组映射，生成一个主题映射，该主题映射定义为映射的资源生成惟一标识符的规则；该主题图将被使用在可以从此三元组图生成的所RDF三元组的主题；

步骤S210:对于每个三元组映射，我们生成许多谓词-对象映射。对象对应元数据实体，谓词表示从本体中提取的元数据实体之间的关系。

步骤S211:使用rml:reference将每个简单的元数据实体映射到一个谓词对象映射和一个OWL数据或对象属性。

步骤S212:使用谓词对象映射属性rr:parentTriplesMap，将每个复杂元数据实体映射到另一个三元组映射和一个OWL对象属性。

步骤S213:RML映射生成后，进行知识超图的构建；对于每个RML映射图(RML_G)，基于生成的RDF四元注释建模了一个语义视图；该语义视图表示数据源模式的本地链接视图，包括来自本体的类和关系。

步骤S214:为了获得RML_G上的语义视图，与主题映射和对象映射对应的本体类被表示为节点，与谓词映射对应的本体关系被建模为边。

步骤S215:为了将这些映射视图建模为超图的一个组成部分，建立超级节点，超级节点主要定义为一组共同起作用的节点作为一个单元；定义一个映射视图超级节点作为由RDF三元组组成的有向图，称为映射三元组(TM)；其中节点代表类对应于RML_G的主题图和对象图边表示这些类之间的语义链接，对应于谓词映射。

步骤S216:建立超级节点之后进行知识超图的构建；知识超图是广义的有向和无向超边的超图。有可能指定为元组：<V，A，E，E_D，E_M，E_O，λ_label，λv>，其中：V＝Vs∪Vo是一组顶点；Vs是所有主题的集合在映射视图和所有对象的集合中；A是一组圆弧，即有向边，圆弧是有序的对<i,j>，其中i,j∈V，E是超边集。E＝E_D∪E_O,E_D＝E_S∪E_T是超弧的集合，即有向超边。每个双弧都描述一个数学函数，而超圆弧的方向则表明是否有顶点，在功能中扮演领域或范围角色。E_S由面向空间的超边缘超弧组成，E_T由面向时间的超边缘组成，E_M由表示为超节点的映射视图组成，E_O由面向观察的超边缘组成，λ_label：E→S是超边缘标记功能。λ_v：V₂→R是顶点变换规则函数。

其中，步骤S103所述的基于超图的查询处理如图3所示，具体包括：

步骤S301：查询解析；输入SPARQL查询和对应的知识超图，系统对应生成tp(RML三元组映射)；再解析输入的SPARQL查询并使用空间RDF存储和时间RDF存储生成其架构图模式(SGP)；

步骤S302：超级节点选择；根据输入的SPARQL查询，选择相应的映射视图超节点。具体来说，该方法将SGP与映射视图超级节点匹配，并提取一组相关的映射视图超级节点和RML映射文档(Mdocpaths)的路径；

步骤S303：给定提取的映射视图超节点集，再进行查询重写，包括使用空间和时态RDF存储将输入SPARQL查询转换为具体的子查询；

步骤S304：数据整合和查询执行；包括两个步骤:RML映射处理以RDF格式生成数据并将它们存储在缓冲区RDF，以及通过子查询的执行得到RDF知识图作为输入SPARQL查询的结果。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于智慧数据平台的数据集成方法，其特征在于：包括以下步骤：

S1：对数据进行语义链接，构建一个能够充分利用异构数据的全局信息视图的知识超图；步骤S1具体包括以下步骤：

S11：使用基于OBDI范式和超图的虚拟数据集成；所述基于OBDI范式和超图的虚拟数据集成体系包括语义层和数据层，其中：

数据层，表示可用数据及其元数据；生成一个RML映射文档，包含领域本体和元数据之间的映射，具体取决于输入的格式；

基于超图的虚拟数据集成，并表示语音层和数据层之间的映射，所述映射即数据源和本体之间关系的显式表示，用于将本体上的查询转换为数据源可处理的查询；从而构建一个对应于生成的文档的映射视图超级节点；最后建立由RML映射视图超节点和各种超边组成的知识超图，对环境观测的不同视图进行语义描述；

S12：使用数据语义标注算法，将元数据中的术语与本体中的类进行关联，从而以语义一致的方式将各种资源连接在一起；所述的数据语义标注算法，具体包括以下步骤：

S121：首先使用Onto-KIT系统提取元数据实体；

S122：在结构化和半结构化数据的情况下，通过访问他们的模式和相应的结构信息以及利用数据结构不同的包装提取元数据；

S123：利用数据语义注释算法识别相关的元数据实体；

S127：系统生成注释A，注释A是附加到数据集或数据集的特定部分的一种元数据形式；每个注释A＝(O,C,T,S>具有以下组件：O为某个本体类，T为数据项，C为O和T之间的某些关系，S为对提取数据项的源的引用；再给定一组URI引用R、一组空白节点B和一组文字L，注释a就是RDF四元组(O,C,T,S)∈(R∪B)×R×(R∪B∪L)×(R∪B)，其包括元数据实体、类和数据源；整个过程对输入数据集的所有元数据实体执行；

S128：最后，系统生成包含元数据实体、类和数据源的注释；

S13：进行RML映射生成，将一个数据集作为输入，并使用本体和生成的注释生成一个RML映射文档作为输出，将元数据实体分为简单元数据和复杂元数据两类；所述的进行RML映射生成，具体包括以下步骤：

S131：对于每一个元数据，创建一个新的三元组映射；

S135：使用谓词对象映射属性rr:parentTriplesMap，将每个复杂元数据实体映射到另一个三元组映射和一个OWL对象-属性；有助于生成更完整的映射；

S14：进行知识超图模型的构建，RML映射图记为RML_G＝(V,E)，其中，V是表示三元组映射的主题映射和对象映射的一组顶点，对应于RDF数据中的所有主题和对象；

是一个多重集，对应于所有三元组的定向边缘RML映射；

S2：基于知识超图进行查询处理，具体包括以下步骤：

S22：将SGP与映射视图超级节点匹配，并提取一组相关的映射视图超级节点和RML映射文档的路径；

S24：RML映射处理以RDF格式生成数据并将其存储在Buffer RDF存储中，执行子查询以获得输入SPARQL查询的结果RDF知识图；具体包括以下步骤：

S241：将提取的RML映射文档和子查询作为输入，并从处理RML映射开始，以生成RDF三元组；

S244：对于每个RML映射文档，获得一个缓冲的RDF三元组存储；

2.根据权利要求1所述的基于智慧数据平台的数据集成方法，其特征在于：所述基于OBDI范式和超图的虚拟数据集成体系包括：

数据库层包含各类不同数据，表示可用数据及其元数据，用于存储不同的数据格式；

语义层由模块环境监测本体、空间RDF存储库和时间RDF存储库组成；MEMOn是在上层本体基本形式本体和公共核心本体、语义传感器网络本体的基础上，提出的面向监测领域的模块化本体；RDFstore和TRDFStore存储器用来解决空间异构性问题；

数据集成层包括基于超图的虚拟数据集成和基于超图的查询处理；

用户界面层是允许用户和拟议系统之间进行对话的前端界面。

3.根据权利要求1所述的基于智慧数据平台的数据集成方法，其特征在于：步骤S14所述的构建知识超图模型，具体包括以下步骤：