CN112912871A - 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统 - Google Patents
用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统 Download PDFInfo
- Publication number
- CN112912871A CN112912871A CN201980072552.4A CN201980072552A CN112912871A CN 112912871 A CN112912871 A CN 112912871A CN 201980072552 A CN201980072552 A CN 201980072552A CN 112912871 A CN112912871 A CN 112912871A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- mapping
- etl
- framework
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 63
- 230000009466 transformation Effects 0.000 claims abstract description 33
- 238000012805 post-processing Methods 0.000 claims abstract description 23
- 238000011068 loading method Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000001131 transforming effect Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 6
- IMQLKJBTEOYOSI-UHFFFAOYSA-N Diphosphoinositol tetrakisphosphate Chemical compound OP(O)(=O)OC1C(OP(O)(O)=O)C(OP(O)(O)=O)C(OP(O)(O)=O)C(OP(O)(O)=O)C1OP(O)(O)=O IMQLKJBTEOYOSI-UHFFFAOYSA-N 0.000 claims description 4
- WHWDWIHXSPCOKZ-UHFFFAOYSA-N hexahydrofarnesyl acetone Natural products CC(C)CCCC(C)CCCC(C)CCCC(C)=O WHWDWIHXSPCOKZ-UHFFFAOYSA-N 0.000 claims description 4
- 208000025174 PANDAS Diseases 0.000 description 16
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 16
- 240000004718 Panda Species 0.000 description 16
- 235000016496 Panda oleosa Nutrition 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 238000013501 data transformation Methods 0.000 description 7
- 238000013500 data storage Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013506 data mapping Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100509468 Arabidopsis thaliana JASON gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种用于将来自不同数据源(210,220,230,240,250)的数据集成到知识图存储单元(300)中的方法,包括:(a)将来自不同数据源(210,220,230,240,250)的数据传递(S10)到提取‑变换‑加载ETL数据管道框架(400)的接收和提取模块(410);(2)通过使用提取数据框在接收和提取模块(410)中提取(S20)所加载的数据,并将所提取的数据传递到ETL数据管道框架(400)的变换模块(420);(c)通过使用变换功能在变换模块(420)中变换(S30)所提取的数据,并将经变换的数据传递到ETL数据管道框架(400)的映射模块(430);(d)通过使用映射规则功能在映射模块(430)中映射(S40)经变换的数据,并将映射的数据传递到ETL数据管道框架(400)的后处理模块(440);(e)通过使用库在后处理模块(440)中对映射的数据进行后处理(S50),并将经后处理的数据传递到ETL数据管道框架(400)的加载模块(450);和(f)由加载模块(450)将经处理的数据加载(S60)到知识图存储单元(300);其中所述映射模块(430)使用基于JSON的映射简谱将经变换的数据转换成序列化形式。
Description
本发明总体上涉及一种用于将来自不同数据源的数据集成到知识图存储单元中的系统和方法。
工业自动化系统、资产、机器、 传感器、移动设备等在工业生产、能源、运输以及如经由网络连接直接连接到工业物联网(IIoT)或经由云网关连接到工业物联网(IIoT)的银行、零售、酒店和医疗保健系统之类的其他领域的所有领域中呈增长趋势。数据分析(数据挖掘、深度学习、人工智能)是该整个连接的物品领域中的核心方面,并生成了新的知识和可用性水平。
在基于云计算技术的系统中,大量设备经由互联网连接到云计算系统。所述设备可以位于连接到云计算系统的远程设施中。例如,所述设备可以包括(一个或多个)工业设施中的装备、传感器、致动器、机器人和/或机械或由其构成。所述设备可以是保健单位中的医疗设备和装备。所述设备可以是住宅/商业机构中的家用电器或办公电器。
云计算系统可以使得能够实现远程配置、监视、控制和维护连接的设备(也通常称为“资产”)。此外,云计算系统可以促进:存储周期性地从所述设备收集的大量数据,分析所述大量数据,并经由(例如,web应用的)图形用户界面向设备的操作者、现场工程师或所有者提供见解(例如,关键性能指标)和警报。所述见解和警报可以使得能够控制和维护设备,从而导致设备的高效和故障安全操作。
用于分析该数据的日益流行的方法是知识图的概念。用于将来自异构数据源——诸如数据库系统、不同格式的文件、Web或生成数据的任何边缘设备——的数据插入知识图的当前方法包括将源数据映射到知识图的表示的主要步骤。Matthias Hert等描述了这样的方法(Matthias Hert、Gerald Reif和Harald C. Gall,“A comparison of RDB-to-RDFmapping notations”,2011年,Proceedings of the 7th International Conference onSemantic Systems(I-Semantics '11,Chiara Ghidini、Axel- Cyrille Ngonga Ngomo、Stefanie Lindstaedt和Tassilo Pellegrini编辑,ACM,New York,NY,USA,25-32,DOI=http://dx.doi.org/10.1145/2063518.2063522)。因此,数据清洗和变换步骤被合并到映射处理本身中,这使编写和维护映射规则的处理变得复杂。此外,这样的映射规则的用户需要的是具有产生数据的数据源系统和知识图这二者的专门技术,这通常是难以实现的。最后,这些方法无法为大规模数据处理框架提供充足的支持。
此外,最近已经在数据仓库技术领域中实现了重大进展。填充数据仓库的处理——通常被称为提取-变换-加载(ETL)处理——包括(i)从数据源提取数据,(ii)将数据传递到数据处理平台,(iii)与目标数据存储系统兼容的数据变换,(iv)数据的最终清洗和细化,(v)将经清洗和变换的数据加载到目标数据存储系统。P. Vassiliadis描述了这样的方法[Panos Vassiliadis,“A Survey of Extract-Transform-Load Technology”,Integrations of Data Warehousing, Data Mining and Database Technologies:Innovative Approaches,IGI Global,2011年,171-199,2018年5月29日星期三,DOI=http://dx.doi.org/10.4018/978-1-60960-537-7.ch008]。
由于最近在该领域中的技术进步,对于所有这些步骤都存在有效和广泛接受的技术。例如,Apache Hadoop™是用于大规模数据处理的统一分析平台;Apache Spark™是支持Apache Hadoop™的用于集群计算——诸如数据提取、变换、清洗和加载——的框架;以各种格式的关系数据库系统和平面文件是可用的;名为Pandas的类似于Apache Spark™但具有快速的存储器内计算能力的重量更轻的库;Luigi,用于为ETL构建数据管道的开源框架(数据管道是串联连接的数据处理元件集合,其中一个元件的输出是下一个元件的输入)。
J. Slepicka等描述了KR2RML处理器[Slepicka, J., Yin, C., Szekely, P. A.& Knoblock, C. A.(2015年),KR2RML:An Alternative Interpretation of R2RML forHeterogenous Sources,O. Hartig,J. Sequeda & A. Hogan 编辑,COLD:CEUR-WS.org.]。该KR2RML处理器支持Apache Hadoop™和Apache Storm™,用于从异构数据源生成大规模资源描述框架(RDF)数据。然而,数据变换步骤必须与映射一起指定。这意味着需要在映射规则定义中定义变换处理步骤。这导致了难以维护和编写的非模块化代码。此外,KR2RML处理器不支持Apache Spark™。
进一步的方法是J. Leh mann描述的SANSA栈(Lehmann, J., Sejdiu, G., Bühmann, L., Westphal, P., Stadler, C., Ermilov, I., Bin, S., Chakraborty, N.,Saleem, M., Ngonga, A.-C. N. & Jabeen, H.(2017年),Distributed SemanticAnalytics using the SANSA Stack,Proceedings of 16th International SemanticWeb Conference - Resources Track (ISWC ' 2017))。SANSA栈是用于大规模RDF数据集的分布式数据处理的平台。尽管它支持Apache Spark™,但它不提供映射处理器。这意味着它仅可以与已经是RDF格式的数据一起工作。因此,KR2RML和SANSA这二者均不为Pandas提供支持。
在2004年12月6日对DirXML的介绍(互联网,XP002309373,检索自URL http://developer.noveil. com/education/tutorials/introdirxml/introDirXML.pdf)公开了连接器技术DirXML。DirXML是双向数据共享服务,其利用eDirectory跨网络上的目录、数据库和关键应用以及跨防火墙分发新的和更新的信息。现有的网络基础设施可以与不同的外部数据源同步。
Novell DirXML管理指南(互联网,XP002309371,检索自URL http://directory-info. com/DirXML/dirxmlAdmin.pdf)在2004年11月24日公开了Novell DirXML,其是运行在NDS(Novell目录服务)上的数据共享服务。该数据共享服务使得能够实现通过eDirectory的应用数据的联网。DirXML使得应用能够与eDirectory以及与利用DirXML驱动程序连接到eDirectory的其他应用双向共享和同步所选择的数据。
鉴于前述内容,因此本发明的目的是提供有助于改进将来自不同数据源的数据集成到知识图存储单元中的技术。
根据本发明的第一方面,提供了一种用于将来自不同数据源的数据集成到知识图存储单元中的方法。该方法包括以下步骤:
(a)将来自不同数据源的数据传递到提取-变换-加载(ETL)数据管道框架的接收和提取模块中;
(b)通过使用提取数据框(data frame)在接收和提取模块中提取所加载的数据,并将所提取的数据传递到ETL数据管道框架的变换模块;
(c)通过使用变换功能在变换模块中变换所提取的数据,并将经变换的数据传递到ETL数据管道框架的映射模块;
(d)通过使用映射规则功能在映射模块中映射经变换的数据,并将映射的数据传递到ETL数据管道框架的后处理模块
(e)通过使用库在后处理模块中对映射的数据进行后处理,并将经后处理的数据传递到ETL数据管道框架的加载模块;
(f)由加载模块将经处理的数据加载到知识图存储单元。
映射模块使用基于JSON的映射简谱(notation)将经变换的数据转换成序列化形式。
在优选实施例中,用于为ETL构建数据管道的开源框架被用于ETL数据管道框架。数据管道是串联连接的数据处理元件集合。
在进一步的实施例中,提取数据框是具有快速存储器内计算能力的轻量级库数据框或者是用于集群计算的数据框架。
在优选实施例中,对于变换功能,使用具有快速存储器内计算能力的轻量级库数据框或用于集群计算的数据框架。
在进一步的优选实施例中,对于大规模数据源,ETL数据管道框架由ApacheHadoop™集群扩展,其中Apache Hadoop™是用于大规模数据处理的统一分析平台。
在有利的实施例中,后处理模块中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库(RDFLib),或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf,其中SANSA Rdf是规模库。
根据本发明的第二方面,提供了一种用于将来自不同数据源的数据集成到知识图存储单元中的系统。该系统包括提取-变换-加载(ETL)数据管道框架,其中提取-变换-加载(ETL)数据管道框架包括:
-接收和提取模块,被配置为从不同数据源接收数据,并通过使用提取数据框来提取数据;
-变换模块,被配置为接收被传递到变换模块的所提取数据,并通过使用变换功能来变换所提取数据;
-映射模块,被配置为接收被传递到映射模块的所提取数据,并通过使用映射规则功能映射所提取数据;
-后处理模块,被配置为接收被传递到后处理模块的映射数据,并通过使用库来对映射数据进行后处理;和
-加载模块,被配置为接收被传递到加载模块的后处理数据,并将经处理的数据加载到知识图存储单元。
映射模块使用基于JSON的映射简谱将经变换的数据转换成序列化形式。
在优选实施例中,用于为ETL构建数据管道的开源框架被用于ETL数据管道框架。数据管道是串联连接的数据处理元件集合。
在进一步的实施例中,提取数据框是具有快速存储器内计算能力的轻量级库数据框或者是用于集群计算的数据框架。
在优选实施例中,对于变换功能,使用具有快速存储器内计算能力的轻量级库数据框或用于集群计算的数据框架。
在进一步的优选实施例中,对于大规模数据源,ETL数据管道框架由ApacheHadoop™集群扩展,其中Apache Hadoop™是用于大规模数据处理的统一分析平台。
在有利的实施例中,后处理模块中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库(RDFLib),或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf,其中SANSA Rdf是规模库。结合以下各图阅读具体实施方式,本发明或其实施例的附加特征、方面和优点将变得清楚:
图1示出了图示根据本发明第一方面的系统的第一实施例的示意性框图;
图2示出了图示根据本发明第一方面的系统的第二实施例的示意性框图;
图3示出了图示根据本发明第二方面的实施例的方法实施例的示意性流程图;
在以下描述中,出于解释且非限制的目的,阐述了具体细节以便提供对本发明的透彻理解。对于本领域技术人员来说将清楚的是,可以在偏离这些具体细节的其他实现中实践本发明。
图1描述了用于将来自不同数据源210、220、230、240、250的数据集成到知识图存储单元300中的系统100。为了将数据集成到知识图存储单元300中,使用了提取、变换、加载(ETL)数据管道框架400。ETL数据管道框架400包括接收和提取模块410、变换模块420、映射模块430、后处理模块440和加载模块450。
根据本发明的系统和方法,变换模块420中的数据变换步骤与映射模块430中的数据映射处理解耦。对于ETL数据管道框架400,可以使用框架Luigi。
图2图示了与大规模数据处理系统110相关的进一步实施例,该大规模数据处理系统110用于将来自如关系数据库、传感器、不同文件格式、web服务的异构数据源210、220、230、240的数据集成到知识图存储单元300中。借助于由ETL执行系统420和Apache Hadoop™集群500扩展ETL数据管道框架400,数据源250中的一个或多个可以包括大规模数据存储系统,诸如Apache Hive™。数据管道框架400通过使用Apache Hadoop™集群500的ApacheSpark™数据框架520的加载和提取功能,与来自不同数据源210、220、230、240、250的输入数据进行交互,然后它通过使用Apache Spark™数据框架520的变换功能来变换数据,然后映射模块430将Apache Spark™数据框格式的数据转换成RDF格式,然后,数据管道框架400使用SANSA RDF格式来执行后处理,并且最后,数据管道框架400将经处理的数据加载到知识图存储单元300。由于Apache Spark™框架520和SANSA RDF格式的使用,因此可以免费得到可扩展性和容错性。
在进一步的实施例中,代替使用Apache Spark™,数据管道框架400使用Pandas的高效提取和变换功能。最后,在这样的实施例中,管道使用RDFLib,而不是使用SANSA RDF格式作为RDF处理库。
在图3中示出了图示根据本发明第二方面的实施例的方法的示意性流程图。将部分地使用图1的参考符号来描述图3的方法,尽管该方法不限于图1中描述的实施例。另一方面,图3的方法可以使用参考图1描述的任何实施例来执行,并且可以相应地根据前述内容中描述的任何变化和修改进行适配和修改。
在步骤S10中,由接收和提取模块410将来自不同数据源210、220、2230、240、250的数据加载到ETL数据管道框架400中。
在步骤S20中,在接收和提取模块410中提取加载的数据。接收和提取模块410使用提取数据框,诸如Pandas数据框或Apache Spark™数据框。这些数据框为与不同种类的数据源210、220、230、240、250进行交互提供了足够的支持,所述数据源包括关系数据存储系统和为各种格式的平面文件。更进一步地,Apache Spark™数据框还支持大规模数据存储系统。然后,在使用Apache Spark™的情况下,所提取的数据存储在本地文件系统中或HDFS文件系统540中,如图2中图示的。
在步骤S30中,所提取的数据被传递到变换模块420,在变换模块420中,通过使用诸如Pandas和/或Apache Spark™的变换功能来执行对所提取的数据的变换。经变换的数据被写入适当的文件系统。
在步骤S40中,经变换的数据被传递到映射模块430,在映射模块430中,通过使用映射规则功能来执行对经变换的数据的映射。
在优选实施例中,映射模块430使用基于JSON的映射规则定义来将经变换的数据转换成序列化格式。JSON是用于ETL处理活动的被广泛接受的数据格式。基于JSON的映射简谱允许定义在数据框列到RDF三元组之间的关系。映射模块430能够将这些映射规则应用于Pandas和Apache Spark™数据框这二者,并将它们的数据转换成RDF帧。因此,根据本发明的方法和系统的优选实施例,可以使用直观的基于JSON的映射简谱,该基于JSON的映射简谱具有用于将Apache Spark™和Pandas数据格式变换成RDF帧的处理器。由于基于JSON的映射简谱不支持数据操纵和变换操作,因此可以确保数据的完整性。更进一步地,基于JASON的映射简谱是声明性的,因此与源代码中编码的强制性规则相比,映射规则更容易更新和管理。
基于JSON的映射简谱允许定义在RDF图中创建有向边(RDF三元组在RDF图中被命名为边)的模板。这样的模板的集合被用于数据框的映射规则定义,其目的是将数据框中加载的数据变换为RDF。在RDF图中生成边的模板主要包括三个部分:i)源节点的定义(在RDF三元组中称为主体);ii)边标签的定义(在RDF三元组中称为谓词);iii)目标节点的定义(在RDF三元组中称为客体)。节点的定义包含相关联的类型——它是来自本体的类,或者是诸如int或bool的RDF文字数据类型。更进一步地,这样的节点定义还包含源数据框中的列的名称。这样一个列中的每个值可以在RDF图中生成一个节点。对于文字类型节点,直接使用列值。对于资源类型节点(具有来自本体的相关联类型的节点),使用在节点定义中提供的或者通过使用用于这样的修改的数据框功能变更列值而创建的一些预定义表达式,将该值转换成URI。根据RDF规范,主体节点仅可以表示RDF资源,这意味着它们仅可以具有与其类型相对应的本体类。边的定义包含属性的名称——取自本体——其应该在RDF三元组中用作谓词(换句话说,边标签)。
在优选实施例中,变换的数据使用允许写入一个三元组的N-三元组(N-triple)格式来序列化。三元组包括主体、谓词和客体,其在RDF图的每一行中表示到源节点、标记的边和目的地节点的链接。如图2中图示的,当使用Apache Hadoop™分布式文件系统(HDFS)540时,这种每行一个三元组的表示使得能够在不丢失任何信息的情况下对映射步骤的输出数据进行分区。
在步骤S50中,后处理模块440拾取在映射步骤中处理的数据,将数据加载到存储器中。存储器使用库来用于处理映射的数据。该库在Pandas的情况下是RDFLib,并且在Apache Spark™的情况下是SANSA RDF数据格式。RDFLib是用于存储器内中RDF图处理的Python™库。SANSA RDF是底层使用Apache Spark™进行RDF图处理的规模库。该后处理步骤的输出数据被写入类似于针对所有的其他先前步骤的适当的文件系统。
在步骤60中,加载模块450拾取该经处理的输出数据,并将其加载到至少一个知识图存储单元300。
通过这些步骤,通过使用进一步的映射步骤S40,简化了来自不同数据源的数据的集成。具有ETL技能集的用户能够使用公知且广泛使用的ETL工具(诸如Pandas和ApacheSpark™)专注于提取和变换步骤。进一步地,具有知识图技能的用户可以使用适当的工具(诸如RDFLib和SANSA RDF)专注于映射、后处理和加载步骤。
根据本发明的方法和系统,提供了用于将数据集成到知识图存储单元300中的新的映射简谱。优选地,映射简谱是直观的,因为它将基于JSON的熟悉语法用于ETL处理活动。更进一步地,本发明的方法和系统提供了用于将Pandas数据框中的数据转换成RDF数据的接口。这使得变换能够与映射解耦,并允许使用Pandas的高效存储器内变换功能。
更进一步地,本发明的方法和系统提供了用于将Apache Spark™数据框中的数据转换成RDF数据的接口。这使得在大规模数据场景中,数据变换步骤与数据映射处理步骤能够解耦。更进一步地,它允许在大规模数据场景中使用Apache Spark™的变换功能,其本质上是可扩展的和容错的。
本发明的方法和系统通过将数据变换步骤与映射处理步骤解耦,简化了将数据集成到知识图存储单元300中的映射规则的维护和编写。
更进一步地,本发明的方法和系统提供了大规模数据处理系统,其用于借助于扩展Apache Spark™将来自异构数据源210、220、230、240、250的数据集成到知识图存储单元300中。
更进一步地,本发明的方法和系统提供了一种高效的存储器内数据处理系统,其用于借助于扩展Pandas将来自异构数据源210、220、230、240、250的数据集成到知识图存储系统300中。
更进一步地,本发明的方法和系统提供了一种直观的基于JSON的映射简谱,其具有处理器,用于将Apache Spark™和Pandas数据格式变换为RDF格式。
根据本发明的方法和系统,Apache Spark™和Pandas被扩展以用于将其数据格式变换为被称为RDF的知识图表示。这还包括用于指定在Apache Spark™和Pandas数据格式到RDF格式之间的映射的新的映射简谱,以及用于映射简谱的处理器软件组件。映射简谱优选地以广泛接受的数据格式JavaScript对象简谱——JSON来表示,并且它不提供任何数据变换处理步骤。根据本发明,映射处理步骤可以通过解耦数据变换步骤并替代地使用如Apache Spark™和Pandas之类的ETL技术来简化。
Claims (12)
1.一种用于将来自不同数据源(210,220,230,240,250)的数据集成到知识图存储单元(300)中的方法,包括
(a)将来自不同数据源(210,220,230,240,250)的数据传递(S10)到提取-变换-加载ETL数据管道框架(400)的接收和提取模块(410)中;
(b)通过使用提取数据框在所述接收和提取模块(410)中提取(S20)所加载的数据,并将所提取的数据传递到ETL数据管道框架(400)的变换模块(420),;
(c)通过使用变换功能在变换模块(420)中变换(S30)所提取的数据,并将经变换的数据传递到ETL数据管道框架(400)的映射模块(430);
(d)通过使用映射规则功能在映射模块(430)中映射(S40)经变换的数据,并将映射的数据传递到ETL数据管道框架(400)的后处理模块(440);
(e)通过使用库在后处理模块(440)中对映射的数据进行后处理(S50),并将经后处理的数据传递到ETL数据管道框架(400)的加载模块(450);和
(f)由加载模块(450)将经处理的数据加载(S60)到知识图存储单元(300);
其中所述映射模块(430)使用基于JSON的映射简谱将经变换的数据转换成序列化形式。
2.根据权利要求1所述的方法,其中用于为ETL构建数据管道的开源框架被用于ETL数据管道框架(400),并且其中数据管道是串联连接的数据处理元件集合。
3.根据权利要求1或2所述的方法,其中提取数据框是具有快速存储器内计算能力的轻量级库数据框,或者是用于集群计算的数据框架。
4.根据权利要求1至3中任一项所述的方法,其中对于变换功能,使用具有快速存储器内计算能力的轻量级库数据框或者用于集群计算的数据框架。
5.根据权利要求1至4中任一项所述的方法,其中对于大规模数据源(250),ETL数据管道框架(400)由Apache Hadoop™集群(500)扩展,其中Apache Hadoop™是用于大规模数据处理的统一分析平台。
6.根据权利要求1至5中任一项所述的方法,其中后处理模块(450)中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库(RDFLib),或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf,其中SANSA Rdf是规模库。
7.一种用于将来自不同数据源(210,220,230,240,250)的数据集成到知识图存储单元(300)中的系统(100),包括提取-变换-加载ETL数据管道框架(400),其中,所述提取-变换-加载ETL数据管道框架(400)包括:
-接收和提取模块(410),被配置为从不同数据源(210,220,230,240,250)接收数据,并通过使用提取数据框来提取数据;
-变换模块(420),被配置为接收被传递到变换模块(420)的所提取数据,并通过使用变换功能来变换所提取的数据;
-映射模块(430),被配置为接收被传递到映射模块(430)的所提取的数据,并通过使用映射规则功能映射所提取的数据;
-后处理模块(440),被配置为接收被传递到后处理模块(440)的映射数据,并通过使用库对映射数据进行后处理;和
-加载模块(450),被配置为接收被传递到加载模块(450)的经后处理的数据,并将经处理的数据加载到知识图存储单元(300);
其中所述映射模块(430)使用基于JSON的映射简谱将经变换的数据变换成序列化形式。
8.根据权利要求7所述的系统(100),其中用于为ETL构建数据管道的开源框架被用于ETL数据管道框架(400),并且其中数据管道是串联连接的数据处理元件集合。
9.根据权利要求7或8所述的系统(100),其中提取数据框是具有快速存储器内计算能力的轻量级库数据框,或者是用于集群计算的数据框架。
10.根据权利要求7至9中任一项所述的系统,其中对于变换功能,使用具有快速存储器内计算能力的轻量级库数据框或者用于集群计算的数据框架。
11.根据权利要求7至10中任一项所述的系统(100),其中对于大规模数据源(250),ETL数据管道框架(400)由Apache Hadoop™集群(500)扩展,其中Apache Hadoop™是用于大规模数据处理的统一分析平台。
12.根据权利要求7至11中任一项所述的系统(100),其中后处理模块(450)中的库是用于使用具有快速存储器内计算能力的轻量级库数据框进行存储器内图处理的Phyton™库(RDFLib),或者是用于使用用于集群计算的数据框架进行RDF图处理的SANSA Rdf,其中SANSA Rdf是规模库。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18203407.4 | 2018-10-30 | ||
EP18203407.4A EP3647965A1 (en) | 2018-10-30 | 2018-10-30 | Method and system for integrating data from different data sources into a knowledge graph storage unit |
PCT/EP2019/079581 WO2020089259A1 (en) | 2018-10-30 | 2019-10-30 | Method and system for integrating data from different data sources into a knowledge graph storage unit |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112912871A true CN112912871A (zh) | 2021-06-04 |
CN112912871B CN112912871B (zh) | 2024-04-26 |
Family
ID=64109736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980072552.4A Active CN112912871B (zh) | 2018-10-30 | 2019-10-30 | 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220121674A1 (zh) |
EP (2) | EP3647965A1 (zh) |
CN (1) | CN112912871B (zh) |
WO (1) | WO2020089259A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220951A (zh) * | 2021-05-17 | 2021-08-06 | 鞠悦 | 一种基于智能内容的医学临床支持方法和系统 |
CN114548549A (zh) * | 2022-02-20 | 2022-05-27 | 国网河北省电力有限公司邢台供电分公司 | 基于Koalas的用电量预测方法及预测系统 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11468342B2 (en) * | 2018-09-14 | 2022-10-11 | Jpmorgan Chase Bank, N.A. | Systems and methods for generating and using knowledge graphs |
CN111949800A (zh) * | 2020-07-06 | 2020-11-17 | 北京大学 | 一种开源项目知识图谱的建立方法和系统 |
US11334593B2 (en) * | 2020-08-05 | 2022-05-17 | International Business Machines Corporation | Automated ETL workflow generation |
US11556105B2 (en) | 2020-11-11 | 2023-01-17 | Mapped Inc. | Graph data enrichment |
EP4030351A1 (en) * | 2021-01-18 | 2022-07-20 | Siemens Aktiengesellschaft | Industrial device and method for building and/or processing a knowledge graph |
US11709857B2 (en) | 2021-04-26 | 2023-07-25 | Optum, Inc. | Apparatuses, methods, and computer program products for improved data format conversion for semi-structured data |
CN114116950B (zh) * | 2022-01-24 | 2022-05-10 | 中国测绘科学研究院 | 一种山脉范围划定方法及系统 |
US11922125B2 (en) | 2022-05-06 | 2024-03-05 | Mapped Inc. | Ensemble learning for extracting semantics of data in building systems |
CN116136861B (zh) * | 2023-04-18 | 2023-08-15 | 中国电子科技集团公司第十研究所 | 基于知识图谱的分布式多源异构数据管理系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120265727A1 (en) * | 2009-11-09 | 2012-10-18 | Iliya Georgievich Naryzhnyy | Declarative and unified data transition |
US20150317356A1 (en) * | 2014-05-05 | 2015-11-05 | Brett Alan Deichler | Communications utility with integrated mapping grid |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
US20170293697A1 (en) * | 2016-04-11 | 2017-10-12 | Oracle International Corporation | Graph processing system that can define a graph view from multiple relational database tables |
US20180011655A1 (en) * | 2016-07-08 | 2018-01-11 | RtBrick Inc. | System and methods for defining object memory format in memory and store for object interactions, manipulation, and exchange in distributed network devices |
CN108092954A (zh) * | 2016-11-22 | 2018-05-29 | 西门子保健有限责任公司 | 将协议映射到辞典的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11068439B2 (en) * | 2016-06-13 | 2021-07-20 | International Business Machines Corporation | Unsupervised method for enriching RDF data sources from denormalized data |
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
-
2018
- 2018-10-30 EP EP18203407.4A patent/EP3647965A1/en not_active Withdrawn
-
2019
- 2019-10-30 US US17/288,750 patent/US20220121674A1/en active Pending
- 2019-10-30 EP EP19801715.4A patent/EP3847557A1/en active Pending
- 2019-10-30 CN CN201980072552.4A patent/CN112912871B/zh active Active
- 2019-10-30 WO PCT/EP2019/079581 patent/WO2020089259A1/en unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120265727A1 (en) * | 2009-11-09 | 2012-10-18 | Iliya Georgievich Naryzhnyy | Declarative and unified data transition |
US20150317356A1 (en) * | 2014-05-05 | 2015-11-05 | Brett Alan Deichler | Communications utility with integrated mapping grid |
US20170293697A1 (en) * | 2016-04-11 | 2017-10-12 | Oracle International Corporation | Graph processing system that can define a graph view from multiple relational database tables |
US20180011655A1 (en) * | 2016-07-08 | 2018-01-11 | RtBrick Inc. | System and methods for defining object memory format in memory and store for object interactions, manipulation, and exchange in distributed network devices |
CN108092954A (zh) * | 2016-11-22 | 2018-05-29 | 西门子保健有限责任公司 | 将协议映射到辞典的方法 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220951A (zh) * | 2021-05-17 | 2021-08-06 | 鞠悦 | 一种基于智能内容的医学临床支持方法和系统 |
CN113220951B (zh) * | 2021-05-17 | 2023-08-22 | 鞠悦 | 一种基于智能内容的医学临床支持方法和系统 |
CN114548549A (zh) * | 2022-02-20 | 2022-05-27 | 国网河北省电力有限公司邢台供电分公司 | 基于Koalas的用电量预测方法及预测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112912871B (zh) | 2024-04-26 |
EP3647965A1 (en) | 2020-05-06 |
WO2020089259A1 (en) | 2020-05-07 |
EP3847557A1 (en) | 2021-07-14 |
US20220121674A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112912871B (zh) | 用于将来自不同数据源的数据集成到知识图存储单元中的方法和系统 | |
US12013842B2 (en) | Web services platform with integration and interface of smart entities with enterprise applications | |
Sevilla Ruiz et al. | Inferring versioned schemas from NoSQL databases and its applications | |
Jagadish et al. | Big data and its technical challenges | |
Horrocks et al. | Using semantic technology to tame the data variety challenge | |
McHugh et al. | Integrated access to big data polystores through a knowledge-driven framework | |
US20190095517A1 (en) | Web services platform with integration of data into smart entities | |
WO2019067645A1 (en) | BUILDING MANAGEMENT SYSTEM WITH DATA INTEGRATION IN INTELLIGENT ENTITIES AND INTERFACE OF INTELLIGENT ENTITIES WITH BUSINESS APPLICATIONS | |
Sukhobok et al. | Tabular data cleaning and linked data generation with Grafterizer | |
Sun et al. | A task ontology driven approach for live geoprocessing in a service‐oriented environment | |
Sanin et al. | Manufacturing collective intelligence by the means of Decisional DNA and virtual engineering objects, process and factory | |
Iglesias-Molina et al. | An ontological approach for representing declarative mapping languages | |
Buchmann et al. | Pattern-based transformation of diagrammatic conceptual models for semantic enrichment in the Web of Data | |
Agostinho et al. | Dynamic adaptors to support model-driven interoperability and enhance sensing enterprise networks | |
Tila et al. | Semantic IoT System for Indoor Environment Control—A Sparql and SQL based hybrid model | |
Babovic et al. | Novel system architectures for semantic-based integration of sensor networks | |
El Kaed et al. | A Model Driven Approach Accelerating Ontology-based IoT Applications Development. | |
Gil et al. | Survey on open‐source digital twin frameworks–A case study approach | |
Kirmse et al. | How to rami 4.0: Towards an agent-based information management architecture | |
Kim et al. | Efficient in-memory processing for huge amounts of heterogeneous geo-sensor data | |
Rezaeiye et al. | Performance analysis of two sensor data storages | |
Jetlund | Harmonizing and linking conceptual models of geospatial information: Technologies for information modelling in GIS, ITS and BIM | |
O'Byrne et al. | Implementing the draft W3C semantic sensor network ontology | |
Rosser et al. | Full Meta Object profiling for flexible geoprocessing workflows | |
Ekaputra et al. | Knowledge change management and analysis during the engineering of cyber physical production systems: A use case of hydro power plants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |