CN112912871A

CN112912871A - 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统

Info

Publication number: CN112912871A
Application number: CN201980072552.4A
Authority: CN
Inventors: R·哈桑
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2018-10-30
Filing date: 2019-10-30
Publication date: 2021-06-04
Anticipated expiration: 2039-10-30
Also published as: CN112912871B; EP3647965A1; WO2020089259A1; EP3847557A1; US20220121674A1

Abstract

本发明涉及一种用于将来自不同数据源（210，220，230，240，250）的数据集成到知识图存储单元（300）中的方法，包括：（a）将来自不同数据源（210，220，230，240，250）的数据传递（S10）到提取‑变换‑加载ETL数据管道框架（400）的接收和提取模块（410）；（2）通过使用提取数据框在接收和提取模块（410）中提取（S20）所加载的数据，并将所提取的数据传递到ETL数据管道框架（400）的变换模块（420）；（c）通过使用变换功能在变换模块（420）中变换（S30）所提取的数据，并将经变换的数据传递到ETL数据管道框架（400）的映射模块（430）；（d）通过使用映射规则功能在映射模块（430）中映射（S40）经变换的数据，并将映射的数据传递到ETL数据管道框架（400）的后处理模块（440）；（e）通过使用库在后处理模块（440）中对映射的数据进行后处理（S50），并将经后处理的数据传递到ETL数据管道框架（400）的加载模块（450）；和（f）由加载模块（450）将经处理的数据加载（S60）到知识图存储单元（300）；其中所述映射模块（430）使用基于JSON的映射简谱将经变换的数据转换成序列化形式。

Description

用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统

本发明总体上涉及一种用于将来自不同数据源的数据集成到知识图存储单元中的系统和方法。

工业自动化系统、资产、机器、传感器、移动设备等在工业生产、能源、运输以及如经由网络连接直接连接到工业物联网（IIoT）或经由云网关连接到工业物联网（IIoT）的银行、零售、酒店和医疗保健系统之类的其他领域的所有领域中呈增长趋势。数据分析（数据挖掘、深度学习、人工智能）是该整个连接的物品领域中的核心方面，并生成了新的知识和可用性水平。

在基于云计算技术的系统中，大量设备经由互联网连接到云计算系统。所述设备可以位于连接到云计算系统的远程设施中。例如，所述设备可以包括（一个或多个）工业设施中的装备、传感器、致动器、机器人和/或机械或由其构成。所述设备可以是保健单位中的医疗设备和装备。所述设备可以是住宅/商业机构中的家用电器或办公电器。

云计算系统可以使得能够实现远程配置、监视、控制和维护连接的设备（也通常称为“资产”）。此外，云计算系统可以促进：存储周期性地从所述设备收集的大量数据，分析所述大量数据，并经由（例如，web应用的）图形用户界面向设备的操作者、现场工程师或所有者提供见解（例如，关键性能指标）和警报。所述见解和警报可以使得能够控制和维护设备，从而导致设备的高效和故障安全操作。

用于分析该数据的日益流行的方法是知识图的概念。用于将来自异构数据源——诸如数据库系统、不同格式的文件、Web或生成数据的任何边缘设备——的数据插入知识图的当前方法包括将源数据映射到知识图的表示的主要步骤。Matthias Hert等描述了这样的方法（Matthias Hert、Gerald Reif和Harald C. Gall，“A comparison of RDB-to-RDFmapping notations”，2011年，Proceedings of the 7th International Conference onSemantic Systems（I-Semantics '11，Chiara Ghidini、Axel- Cyrille Ngonga Ngomo、Stefanie Lindstaedt和Tassilo Pellegrini编辑，ACM，New York，NY，USA，25-32，DOI=http://dx.doi.org/10.1145/2063518.2063522）。因此，数据清洗和变换步骤被合并到映射处理本身中，这使编写和维护映射规则的处理变得复杂。此外，这样的映射规则的用户需要的是具有产生数据的数据源系统和知识图这二者的专门技术，这通常是难以实现的。最后，这些方法无法为大规模数据处理框架提供充足的支持。

此外，最近已经在数据仓库技术领域中实现了重大进展。填充数据仓库的处理——通常被称为提取-变换-加载（ETL）处理——包括（i）从数据源提取数据，（ii）将数据传递到数据处理平台，（iii）与目标数据存储系统兼容的数据变换，（iv）数据的最终清洗和细化，（v）将经清洗和变换的数据加载到目标数据存储系统。P. Vassiliadis描述了这样的方法[Panos Vassiliadis，“A Survey of Extract-Transform-Load Technology”，Integrations of Data Warehousing, Data Mining and Database Technologies:Innovative Approaches，IGI Global，2011年，171-199，2018年5月29日星期三，DOI=http://dx.doi.org/10.4018/978-1-60960-537-7.ch008]。

由于最近在该领域中的技术进步，对于所有这些步骤都存在有效和广泛接受的技术。例如，Apache Hadoop™是用于大规模数据处理的统一分析平台；Apache Spark™是支持Apache Hadoop™的用于集群计算——诸如数据提取、变换、清洗和加载——的框架；以各种格式的关系数据库系统和平面文件是可用的；名为Pandas的类似于Apache Spark™但具有快速的存储器内计算能力的重量更轻的库；Luigi，用于为ETL构建数据管道的开源框架（数据管道是串联连接的数据处理元件集合，其中一个元件的输出是下一个元件的输入）。

J. Slepicka等描述了KR2RML处理器[Slepicka, J., Yin, C., Szekely, P. A.& Knoblock, C. A.（2015年），KR2RML：An Alternative Interpretation of R2RML forHeterogenous Sources，O. Hartig，J. Sequeda & A. Hogan 编辑，COLD：CEUR-WS.org.]。该KR2RML处理器支持Apache Hadoop™和Apache Storm™，用于从异构数据源生成大规模资源描述框架（RDF）数据。然而，数据变换步骤必须与映射一起指定。这意味着需要在映射规则定义中定义变换处理步骤。这导致了难以维护和编写的非模块化代码。此外，KR2RML处理器不支持Apache Spark™。

进一步的方法是J. Leh mann描述的SANSA栈（Lehmann, J., Sejdiu, G., Bühmann, L., Westphal, P., Stadler, C., Ermilov, I., Bin, S., Chakraborty, N.,Saleem, M., Ngonga, A.-C. N. & Jabeen, H.（2017年），Distributed SemanticAnalytics using the SANSA Stack，Proceedings of 16th International SemanticWeb Conference - Resources Track （ISWC ' 2017））。SANSA栈是用于大规模RDF数据集的分布式数据处理的平台。尽管它支持Apache Spark™，但它不提供映射处理器。这意味着它仅可以与已经是RDF格式的数据一起工作。因此，KR2RML和SANSA这二者均不为Pandas提供支持。

在2004年12月6日对DirXML的介绍（互联网，XP002309373，检索自URL http://developer.noveil. com/education/tutorials/introdirxml/introDirXML.pdf）公开了连接器技术DirXML。DirXML是双向数据共享服务，其利用eDirectory跨网络上的目录、数据库和关键应用以及跨防火墙分发新的和更新的信息。现有的网络基础设施可以与不同的外部数据源同步。

Novell DirXML管理指南（互联网，XP002309371，检索自URL http://directory-info. com/DirXML/dirxmlAdmin.pdf）在2004年11月24日公开了Novell DirXML，其是运行在NDS（Novell目录服务）上的数据共享服务。该数据共享服务使得能够实现通过eDirectory的应用数据的联网。DirXML使得应用能够与eDirectory以及与利用DirXML驱动程序连接到eDirectory的其他应用双向共享和同步所选择的数据。

鉴于前述内容，因此本发明的目的是提供有助于改进将来自不同数据源的数据集成到知识图存储单元中的技术。

根据本发明的第一方面，提供了一种用于将来自不同数据源的数据集成到知识图存储单元中的方法。该方法包括以下步骤：

（a）将来自不同数据源的数据传递到提取-变换-加载（ETL）数据管道框架的接收和提取模块中；

（b）通过使用提取数据框（data frame）在接收和提取模块中提取所加载的数据，并将所提取的数据传递到ETL数据管道框架的变换模块；

（c）通过使用变换功能在变换模块中变换所提取的数据，并将经变换的数据传递到ETL数据管道框架的映射模块；

（d）通过使用映射规则功能在映射模块中映射经变换的数据，并将映射的数据传递到ETL数据管道框架的后处理模块

（e）通过使用库在后处理模块中对映射的数据进行后处理，并将经后处理的数据传递到ETL数据管道框架的加载模块；

（f）由加载模块将经处理的数据加载到知识图存储单元。

映射模块使用基于JSON的映射简谱（notation）将经变换的数据转换成序列化形式。

在优选实施例中，用于为ETL构建数据管道的开源框架被用于ETL数据管道框架。数据管道是串联连接的数据处理元件集合。

在进一步的实施例中，提取数据框是具有快速存储器内计算能力的轻量级库数据框或者是用于集群计算的数据框架。

在优选实施例中，对于变换功能，使用具有快速存储器内计算能力的轻量级库数据框或用于集群计算的数据框架。

在进一步的优选实施例中，对于大规模数据源，ETL数据管道框架由ApacheHadoop™集群扩展，其中Apache Hadoop™是用于大规模数据处理的统一分析平台。

在有利的实施例中，后处理模块中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库（RDFLib），或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf，其中SANSA Rdf是规模库。

根据本发明的第二方面，提供了一种用于将来自不同数据源的数据集成到知识图存储单元中的系统。该系统包括提取-变换-加载（ETL）数据管道框架，其中提取-变换-加载（ETL）数据管道框架包括：

-接收和提取模块，被配置为从不同数据源接收数据，并通过使用提取数据框来提取数据；

-变换模块，被配置为接收被传递到变换模块的所提取数据，并通过使用变换功能来变换所提取数据；

-映射模块，被配置为接收被传递到映射模块的所提取数据，并通过使用映射规则功能映射所提取数据；

-后处理模块，被配置为接收被传递到后处理模块的映射数据，并通过使用库来对映射数据进行后处理；和

-加载模块，被配置为接收被传递到加载模块的后处理数据，并将经处理的数据加载到知识图存储单元。

映射模块使用基于JSON的映射简谱将经变换的数据转换成序列化形式。

在有利的实施例中，后处理模块中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库（RDFLib），或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf，其中SANSA Rdf是规模库。结合以下各图阅读具体实施方式，本发明或其实施例的附加特征、方面和优点将变得清楚：

图1示出了图示根据本发明第一方面的系统的第一实施例的示意性框图；

图2示出了图示根据本发明第一方面的系统的第二实施例的示意性框图；

图3示出了图示根据本发明第二方面的实施例的方法实施例的示意性流程图；

在以下描述中，出于解释且非限制的目的，阐述了具体细节以便提供对本发明的透彻理解。对于本领域技术人员来说将清楚的是，可以在偏离这些具体细节的其他实现中实践本发明。

图1描述了用于将来自不同数据源210、220、230、240、250的数据集成到知识图存储单元300中的系统100。为了将数据集成到知识图存储单元300中，使用了提取、变换、加载（ETL）数据管道框架400。ETL数据管道框架400包括接收和提取模块410、变换模块420、映射模块430、后处理模块440和加载模块450。

根据本发明的系统和方法，变换模块420中的数据变换步骤与映射模块430中的数据映射处理解耦。对于ETL数据管道框架400，可以使用框架Luigi。

图2图示了与大规模数据处理系统110相关的进一步实施例，该大规模数据处理系统110用于将来自如关系数据库、传感器、不同文件格式、web服务的异构数据源210、220、230、240的数据集成到知识图存储单元300中。借助于由ETL执行系统420和Apache Hadoop™集群500扩展ETL数据管道框架400，数据源250中的一个或多个可以包括大规模数据存储系统，诸如Apache Hive™。数据管道框架400通过使用Apache Hadoop™集群500的ApacheSpark™数据框架520的加载和提取功能，与来自不同数据源210、220、230、240、250的输入数据进行交互，然后它通过使用Apache Spark™数据框架520的变换功能来变换数据，然后映射模块430将Apache Spark™数据框格式的数据转换成RDF格式，然后，数据管道框架400使用SANSA RDF格式来执行后处理，并且最后，数据管道框架400将经处理的数据加载到知识图存储单元300。由于Apache Spark™框架520和SANSA RDF格式的使用，因此可以免费得到可扩展性和容错性。

在进一步的实施例中，代替使用Apache Spark™，数据管道框架400使用Pandas的高效提取和变换功能。最后，在这样的实施例中，管道使用RDFLib，而不是使用SANSA RDF格式作为RDF处理库。

在图3中示出了图示根据本发明第二方面的实施例的方法的示意性流程图。将部分地使用图1的参考符号来描述图3的方法，尽管该方法不限于图1中描述的实施例。另一方面，图3的方法可以使用参考图1描述的任何实施例来执行，并且可以相应地根据前述内容中描述的任何变化和修改进行适配和修改。

在步骤S10中，由接收和提取模块410将来自不同数据源210、220、2230、240、250的数据加载到ETL数据管道框架400中。

在步骤S20中，在接收和提取模块410中提取加载的数据。接收和提取模块410使用提取数据框，诸如Pandas数据框或Apache Spark™数据框。这些数据框为与不同种类的数据源210、220、230、240、250进行交互提供了足够的支持，所述数据源包括关系数据存储系统和为各种格式的平面文件。更进一步地，Apache Spark™数据框还支持大规模数据存储系统。然后，在使用Apache Spark™的情况下，所提取的数据存储在本地文件系统中或HDFS文件系统540中，如图2中图示的。

在步骤S30中，所提取的数据被传递到变换模块420，在变换模块420中，通过使用诸如Pandas和/或Apache Spark™的变换功能来执行对所提取的数据的变换。经变换的数据被写入适当的文件系统。

在步骤S40中，经变换的数据被传递到映射模块430，在映射模块430中，通过使用映射规则功能来执行对经变换的数据的映射。

在优选实施例中，映射模块430使用基于JSON的映射规则定义来将经变换的数据转换成序列化格式。JSON是用于ETL处理活动的被广泛接受的数据格式。基于JSON的映射简谱允许定义在数据框列到RDF三元组之间的关系。映射模块430能够将这些映射规则应用于Pandas和Apache Spark™数据框这二者，并将它们的数据转换成RDF帧。因此，根据本发明的方法和系统的优选实施例，可以使用直观的基于JSON的映射简谱，该基于JSON的映射简谱具有用于将Apache Spark™和Pandas数据格式变换成RDF帧的处理器。由于基于JSON的映射简谱不支持数据操纵和变换操作，因此可以确保数据的完整性。更进一步地，基于JASON的映射简谱是声明性的，因此与源代码中编码的强制性规则相比，映射规则更容易更新和管理。

基于JSON的映射简谱允许定义在RDF图中创建有向边（RDF三元组在RDF图中被命名为边）的模板。这样的模板的集合被用于数据框的映射规则定义，其目的是将数据框中加载的数据变换为RDF。在RDF图中生成边的模板主要包括三个部分：i）源节点的定义（在RDF三元组中称为主体）；ii）边标签的定义（在RDF三元组中称为谓词）；iii）目标节点的定义（在RDF三元组中称为客体）。节点的定义包含相关联的类型——它是来自本体的类，或者是诸如int或bool的RDF文字数据类型。更进一步地，这样的节点定义还包含源数据框中的列的名称。这样一个列中的每个值可以在RDF图中生成一个节点。对于文字类型节点，直接使用列值。对于资源类型节点（具有来自本体的相关联类型的节点），使用在节点定义中提供的或者通过使用用于这样的修改的数据框功能变更列值而创建的一些预定义表达式，将该值转换成URI。根据RDF规范，主体节点仅可以表示RDF资源，这意味着它们仅可以具有与其类型相对应的本体类。边的定义包含属性的名称——取自本体——其应该在RDF三元组中用作谓词（换句话说，边标签）。

在优选实施例中，变换的数据使用允许写入一个三元组的N-三元组（N-triple）格式来序列化。三元组包括主体、谓词和客体，其在RDF图的每一行中表示到源节点、标记的边和目的地节点的链接。如图2中图示的，当使用Apache Hadoop™分布式文件系统（HDFS）540时，这种每行一个三元组的表示使得能够在不丢失任何信息的情况下对映射步骤的输出数据进行分区。

在步骤S50中，后处理模块440拾取在映射步骤中处理的数据，将数据加载到存储器中。存储器使用库来用于处理映射的数据。该库在Pandas的情况下是RDFLib，并且在Apache Spark™的情况下是SANSA RDF数据格式。RDFLib是用于存储器内中RDF图处理的Python™库。SANSA RDF是底层使用Apache Spark™进行RDF图处理的规模库。该后处理步骤的输出数据被写入类似于针对所有的其他先前步骤的适当的文件系统。

在步骤60中，加载模块450拾取该经处理的输出数据，并将其加载到至少一个知识图存储单元300。

通过这些步骤，通过使用进一步的映射步骤S40，简化了来自不同数据源的数据的集成。具有ETL技能集的用户能够使用公知且广泛使用的ETL工具（诸如Pandas和ApacheSpark™）专注于提取和变换步骤。进一步地，具有知识图技能的用户可以使用适当的工具（诸如RDFLib和SANSA RDF）专注于映射、后处理和加载步骤。

根据本发明的方法和系统，提供了用于将数据集成到知识图存储单元300中的新的映射简谱。优选地，映射简谱是直观的，因为它将基于JSON的熟悉语法用于ETL处理活动。更进一步地，本发明的方法和系统提供了用于将Pandas数据框中的数据转换成RDF数据的接口。这使得变换能够与映射解耦，并允许使用Pandas的高效存储器内变换功能。

更进一步地，本发明的方法和系统提供了用于将Apache Spark™数据框中的数据转换成RDF数据的接口。这使得在大规模数据场景中，数据变换步骤与数据映射处理步骤能够解耦。更进一步地，它允许在大规模数据场景中使用Apache Spark™的变换功能，其本质上是可扩展的和容错的。

本发明的方法和系统通过将数据变换步骤与映射处理步骤解耦，简化了将数据集成到知识图存储单元300中的映射规则的维护和编写。

更进一步地，本发明的方法和系统提供了大规模数据处理系统，其用于借助于扩展Apache Spark™将来自异构数据源210、220、230、240、250的数据集成到知识图存储单元300中。

更进一步地，本发明的方法和系统提供了一种高效的存储器内数据处理系统，其用于借助于扩展Pandas将来自异构数据源210、220、230、240、250的数据集成到知识图存储系统300中。

更进一步地，本发明的方法和系统提供了一种直观的基于JSON的映射简谱，其具有处理器，用于将Apache Spark™和Pandas数据格式变换为RDF格式。

根据本发明的方法和系统，Apache Spark™和Pandas被扩展以用于将其数据格式变换为被称为RDF的知识图表示。这还包括用于指定在Apache Spark™和Pandas数据格式到RDF格式之间的映射的新的映射简谱，以及用于映射简谱的处理器软件组件。映射简谱优选地以广泛接受的数据格式JavaScript对象简谱——JSON来表示，并且它不提供任何数据变换处理步骤。根据本发明，映射处理步骤可以通过解耦数据变换步骤并替代地使用如Apache Spark™和Pandas之类的ETL技术来简化。

Claims

1.一种用于将来自不同数据源（210，220，230，240，250）的数据集成到知识图存储单元（300）中的方法，包括

（a）将来自不同数据源（210，220，230，240，250）的数据传递（S10）到提取-变换-加载ETL数据管道框架（400）的接收和提取模块（410）中；

（b）通过使用提取数据框在所述接收和提取模块（410）中提取（S20）所加载的数据，并将所提取的数据传递到ETL数据管道框架（400）的变换模块（420），；

（c）通过使用变换功能在变换模块（420）中变换（S30）所提取的数据，并将经变换的数据传递到ETL数据管道框架（400）的映射模块（430）；

（d）通过使用映射规则功能在映射模块（430）中映射（S40）经变换的数据，并将映射的数据传递到ETL数据管道框架（400）的后处理模块（440）；

（e）通过使用库在后处理模块（440）中对映射的数据进行后处理（S50），并将经后处理的数据传递到ETL数据管道框架（400）的加载模块（450）；和

（f）由加载模块（450）将经处理的数据加载（S60）到知识图存储单元（300）；

其中所述映射模块（430）使用基于JSON的映射简谱将经变换的数据转换成序列化形式。

2.根据权利要求1所述的方法，其中用于为ETL构建数据管道的开源框架被用于ETL数据管道框架（400），并且其中数据管道是串联连接的数据处理元件集合。

3.根据权利要求1或2所述的方法，其中提取数据框是具有快速存储器内计算能力的轻量级库数据框，或者是用于集群计算的数据框架。

4.根据权利要求1至3中任一项所述的方法，其中对于变换功能，使用具有快速存储器内计算能力的轻量级库数据框或者用于集群计算的数据框架。

5.根据权利要求1至4中任一项所述的方法，其中对于大规模数据源（250），ETL数据管道框架（400）由Apache Hadoop™集群（500）扩展，其中Apache Hadoop™是用于大规模数据处理的统一分析平台。

6.根据权利要求1至5中任一项所述的方法，其中后处理模块（450）中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库（RDFLib），或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf，其中SANSA Rdf是规模库。

7.一种用于将来自不同数据源（210，220，230，240，250）的数据集成到知识图存储单元（300）中的系统（100），包括提取-变换-加载ETL数据管道框架（400），其中，所述提取-变换-加载ETL数据管道框架（400）包括：

-接收和提取模块（410），被配置为从不同数据源（210，220，230，240，250）接收数据，并通过使用提取数据框来提取数据；

-变换模块（420），被配置为接收被传递到变换模块（420）的所提取数据，并通过使用变换功能来变换所提取的数据；

-映射模块（430），被配置为接收被传递到映射模块（430）的所提取的数据，并通过使用映射规则功能映射所提取的数据；

-后处理模块（440），被配置为接收被传递到后处理模块（440）的映射数据，并通过使用库对映射数据进行后处理；和

-加载模块（450），被配置为接收被传递到加载模块（450）的经后处理的数据，并将经处理的数据加载到知识图存储单元（300）；

其中所述映射模块（430）使用基于JSON的映射简谱将经变换的数据变换成序列化形式。

8.根据权利要求7所述的系统（100），其中用于为ETL构建数据管道的开源框架被用于ETL数据管道框架（400），并且其中数据管道是串联连接的数据处理元件集合。

9.根据权利要求7或8所述的系统（100），其中提取数据框是具有快速存储器内计算能力的轻量级库数据框，或者是用于集群计算的数据框架。

10.根据权利要求7至9中任一项所述的系统，其中对于变换功能，使用具有快速存储器内计算能力的轻量级库数据框或者用于集群计算的数据框架。

11.根据权利要求7至10中任一项所述的系统（100），其中对于大规模数据源（250），ETL数据管道框架（400）由Apache Hadoop™集群（500）扩展，其中Apache Hadoop™是用于大规模数据处理的统一分析平台。

12.根据权利要求7至11中任一项所述的系统（100），其中后处理模块（450）中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库（RDFLib），或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf，其中SANSA Rdf是规模库。