CN112307122A

CN112307122A - 一种基于数据湖的数据管理系统及方法

Info

Publication number: CN112307122A
Application number: CN202011193306.5A
Authority: CN
Inventors: 李锐; 陈国栋; 霍元浩; 臧其涛
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-02
Anticipated expiration: 2040-10-30
Also published as: CN112307122B

Abstract

本发明实施例提供了一种基于数据湖的数据管理系统及方法，涉及大数据技术领域。该系统包括：多个计算引擎、多个数据源以及虚拟引擎装置；每个计算引擎，用于向虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息，并接收虚拟引擎装置反馈的与数据访问请求对应的响应结果；虚拟引擎装置，用于向具有标识信息的数据源发送数据访问请求；以及，将具有标识信息的数据源反馈的响应结果，反馈至发出数据访问请求的计算引擎；每个数据源，用于确定数据访问请求对应的响应结果，并将所确定的响应结果反馈给虚拟引擎装置。与现有技术相比，应用本发明实施例提供的方案，可以实现减少基于数据湖的数据管理系统构建过程中的重复开发工作。

Description

一种基于数据湖的数据管理系统及方法

技术领域

本发明涉及大数据技术领域，特别是涉及一种基于数据湖的数据管理系统及方法。

背景技术

当前，数据湖由于具有汇聚不同类型的数据、架构可扩展，以及能够提供实时分析等优点，因此，被越来越多地应用到各种领域中，例如，物流领域、制造领域、项目经营、企业管理等。

相关技术中，当利用基于数据湖的数据管理系统进行数据管理时，管理系统中的计算引擎通过预先配置的与待访问的数据源相匹配的访问接口，向待访问数据源发送数据访问请求，进而，待访问的数据源接收到数据访问请求并向计算引擎反馈数据访问请求对应的响应结果。

显然，由于不同的业务应用所利用的计算引擎不同，而每一计算引擎访问不同的数据源所需的访问接口不同，那么，采用上述相关技术时，如果存在多个计算引擎以及多个数据源时，数据管理系统的构建过程中会存在大量的访问接口开发工作，使得该构建过程较为繁琐。

发明内容

本发明实施例的目的在于提供一种基于数据湖的数据管理系统及方法，以实现减少基于数据湖的数据管理系统构建过程中的重复开发工作，降低构建过程的繁琐程度。具体技术方案如下：

第一方面，本发明实施例提供了一种基于数据湖的数据管理系统，包括：多个计算引擎、多个数据源以及虚拟引擎装置；其中，所述虚拟引擎装置设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口；

每个计算引擎，用于通过与自身相匹配的第一类访问接口，向所述虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息，并接收所述虚拟引擎装置反馈的与所述数据访问请求对应的响应结果；

所述虚拟引擎装置，用于在接收到所述数据访问请求和所述标识信息后，基于目标访问接口，向具有所述标识信息的数据源发送所述数据访问请求；以及，将具有所述标识信息的数据源反馈的响应结果，反馈至发出所述数据访问请求的计算引擎；其中，所述目标访问接口为与具有所述标识信息的数据源相匹配的第二类访问接口；

每个数据源，用于当接收到所述数据访问请求时，确定所述数据访问请求对应的响应结果，并将所确定的响应结果反馈给所述虚拟引擎装置。

可选的，一种具体实现方式中，每个计算引擎通过与自身相匹配的第一类访问接口，向所述虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息，具体为：

当获取到关于业务应用的处理任务的任务信息和待访问的数据源的标识信息时，基于所述任务信息，生成所述数据访问请求，通过与自身相匹配的第一类访问接口，向所述虚拟引擎装置发送数据访问请求和所述标识信息。

可选的，一种具体实现方式中，所述系统还包括：统一结构化查询语言SQL装置；

所述统一SQL装置，用于获取关于业务应用的处理任务，对所述处理任务进行任务解析，得到所述处理任务的任务信息、用于执行所述处理任务的计算引擎以及待访问的数据源的标识信息；将所述任务信息和标识信息下发至用于执行所述处理任务的计算引擎。

可选的，一种具体实现方式中，所述统一SQL装置对所述处理任务进行任务解析，得到所述处理任务的任务信息、用于执行所述处理任务的计算引擎以及待访问的数据源的标识信息，具体为：

对所述处理任务进行语法和/或词法解析，生成初始SQL语法树；

利用预设规则，对所述初始SQL语法树进行优化，生成目标SQL语法树；

基于预设计算引擎匹配策略和所述目标SQL语法树，确定所述处理任务的任务信息、用于执行所述处理任务的计算引擎以及待访问的数据源的标识信息。

可选的，一种具体实现方式中，每个计算引擎还用于：

基于所述响应结果和所述任务信息，执行所述关于业务应用的处理任务。

可选的，一种具体实现方式中，

当所述数据访问请求为数据写请求时，所述数据访问请求对应的响应结果为：所读取的数据；

当所述数据访问请求为数据写请求时，所述数据访问请求对应的响应结果为：所述数据写请求的反馈结果。

第二方面，本发明实施例提供了一种基于数据湖的数据管理方法，应用于基于数据湖的数据管理系统的虚拟引擎装置，所述系统还包括：多个计算引擎和多个数据源；所述虚拟引擎装置设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口；

通过与任一计算引擎相匹配的第一类数据访问接口，接收该计算引擎发送的数据访问请求和待访问的数据源的标识信息；

基于目标访问接口，向具有所述标识信息的数据源发送所述数据访问请求；其中，所述目标访问接口为与具有所述标识信息的数据源相匹配的第二类访问接口；

接收具有所述标识信息的数据源通过所述目标访问接口反馈的所述数据访问请求对应的响应结果；

通过与发出所述数据访问请求的计算引擎相匹配的第一类访问接口，向发出所述数据访问请求的计算引擎反馈所述响应结果，以使发出所述数据访问请求的计算引擎接收所述响应结果。

可选的，一种具体实现方式中，

第三方面，本发明实时提供了一种电子设备，设置有虚拟引擎装置，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第二方面提供的任一基于数据湖的数据管理方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第二方面提供的任一基于数据湖的数据管理方法的步骤。

第五方面，本发明实施例提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第二方面提供的任一基于数据湖的数据管理方法的步骤。

本发明实施例有益效果：

应用本发明实施例提供的技术方案，在包括多个计算引擎和多个数据源的基于数据湖的数据管理系统中，构建了设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口的虚拟引擎装置。

这样，每个计算引擎便可以通过与自身相匹配的第一类访问接口，向虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息；从而，虚拟引擎装置在接收到该数据访问请求和该标识信息后，便可以基于与具有该标识信息的数据源相匹配的第二类访问接口，向具有该标识信息的数据源发送该数据访问请求；进而，具有该标识信息的数据源在接收到该数据访问请求时，便可以确定该数据访问请求对应的响应结果，并通过与自身相匹配的第二类访问接口，将所确定的响应结果反馈给虚拟引擎装置；然后，虚拟引擎装置在接收到具有上述标识信息的数据源反馈的响应结果后，便可以将该响应结果反馈至发出上述数据访问请求的计算引擎，以使得该计算引擎接收该响应结果。

其中，每个数据源均可以通过与自身相匹配的第二类访问接口接收虚拟引擎装置发送的数据访问请求，并在确定该数据访问请求的响应结果后，将该响应结果反馈给该虚拟引擎装置。

基于此，应用本发明实施例提供的技术方案，在数据管理过程中，每个计算引擎可以利用虚拟引擎装置上所设置的与自身相匹配的第一类访问接口，以及与待访问的数据源相匹配的第二类访问接口，对待访问的数据源进行数据访问。

这样，应用本发明实施例提供的技术方案，在数据管理系统的构建过程中，可以仅在虚拟引擎装置上设置与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口，而无需为每个计算引擎开发与每个数据源相匹配的访问接口，从而，极大地减少了访问接口的开发数量，降低了构建过程的繁琐程度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于数据湖的数据管理系统的结构示意图；

图2为图1所示数据管理系统中，每个计算引擎101、虚拟引擎装置103与每个数据源102之间的信令交互图；

图3为本发明实施例提供的另一种基于数据湖的数据管理系统的结构示意图；

图4为本发明实施例提供的一种基于数据湖的数据管理系统的逻辑层结果；

图5为本发明实施例提供的一种基于数据湖的数据管理方法的流程示意图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，当利用基于数据湖的数据管理系统进行数据管理时，管理系统中的计算引擎通过预先配置的与待访问数据源相匹配的访问接口，向待访问数据源发送数据访问请求，进而，待访问数据源接收到数据访问请求并向计算引擎反馈数据访问请求对应的响应结果。显然，由于不同的业务应用所利用的计算引擎不同，而每一计算引擎访问不同的数据源所需的访问接口不同，那么，采用上述相关技术时，如果存在多个计算引擎以及多个数据源时，数据管理系统的构建过程中会存在大量的访问接口开发工作，使得该构建过程较为繁琐。

为了解决上述技术问题，本发明实施例提供了一种基于数据湖的数据管理系统。该数据管理系统包括：多个计算引擎、多个数据源以及虚拟引擎装置；其中，所述虚拟引擎装置设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口；

以上可见，应用本发明实施例提供的技术方案，在数据管理过程中，每个计算引擎可以利用虚拟引擎装置上所设置的与自身相匹配的第一类访问接口，以及与待访问的数据源相匹配的第二类访问接口，对待访问的数据源进行数据访问。

下面，对本发明实施例提供的一种基于数据湖的数据管理系统进行说明。

图1为本发明实施例提供的一种基于数据湖的数据管理系统的结构示意图。

如图1所示，本发明实施例提供的一种基于数据湖的数据管理系统包括：多个计算引擎101；多个数据源102，以及虚拟引擎装置103；

其中，虚拟引擎装置103设置有与每个计算引擎101相匹配的第一类访问接口101-1，以及与每个数据源102相匹配的第二类访问接口102-1。

每个计算引擎101，用于通过与自身相匹配的第一类访问接口101-1，向虚拟引擎装置103发送数据访问请求和待访问的数据源102的标识信息，并接收虚拟引擎装置103反馈的与数据访问请求对应的响应结果；

虚拟引擎装置103，用于在接收到数据访问请求和标识信息后，基于目标访问接口，向具有标识信息的数据源102发送数据访问请求；以及，将具有标识信息的数据源102反馈的响应结果，反馈至发出数据访问请求的计算引擎101；

其中，目标访问接口为与具有标识信息的数据源102相匹配的第二类访问接口102-1；

每个数据源102，用于当接收到数据访问请求时，确定数据访问请求对应的响应结果，并将所确定的响应结果反馈给虚拟引擎装置103。

在本发明实施例中，上述多个计算引擎101用于执行关于业务应用的处理任务，上述多个计算引擎101可以设置在一个电子设备或多个电子设备中，其中，当上述多个计算引擎101设置在多个电子设备中时，多个电子设备的数量不大于多个计算引擎101的数量。也就是说，每个电子设备中可以设置至少一个计算引擎101。例如，每个计算引擎101可以分别设置在不同的电子设备中；又例如，每两个计算引擎101设置在同一电子设备中等。这都是合理的。

此外，上述多个计算引擎101可以包括各种开源的计算引擎，例如，Spark(分布式内存计算引擎)、Flink(分布式流式计算引擎)、Tensorflow(人工智能开源计算框架)等；也可以包括技术人员根据企业的业务需求所自行研发的计算引擎101。从而，在创建上述数据管理系统时，可以根据业务需求设置所需的各个计算引擎101。

进一步的，上述多个数据源102用于存储各类业务应用所需的各种类型的数据，例如，结构化数据、半结构化数据、非结构化数据等；进而，上述多个数据源102可以包括各种开源的数据存储系统，例如，HDFS(Hadoop Distributed File System，分布式文件系统)、Hbase(分布式数据库)、Elasticsearch(全文搜索引擎)、RDBMS(Relational DatabaseManagement System，关系数据库管理系统)、Redis(键值对存储系统)、对象存储(Ozone)、数据湖存储技术(Hudi)等；也可以包括技术人员根据企业的业务需求所自行研发的数据存储系统。从而，在创建上述数据管理系统时，可以根据业务需求设置所需的各个数据源102。

进而，在确定了上述数据管理系统所包括的多个计算引擎101和多个数据源102后，便可以构建上述虚拟引擎装置103，并在上述虚拟引擎装置103上开发与每个计算引擎101相匹配的第一类访问接口101-1，以及与每个数据源102相匹配的第二类访问接口102-1。

这样，在本发明实施例中，在构建上述数据管理系统时，所需要开发的访问接口即为上述虚拟引擎装置103上所设置的各个第一类访问接口101-1和各个第二类访问接口102-1。则所需要开发的访问接口的数量为：上述数据管理系统所包括的多个计算引擎101和多个数据源102的数量和。

例如，上述数据管理系统所包括的计算引擎101的数量为M(M>1)，所包括的数据源102的数量为N(N>1)，则所需要开发的访问接口的数量为M+N。

相应的，在相关领域和相关技术中，在构建基于数据湖的数据管理系统时，由于需要为每个计算引擎101开发与每个数据源102相匹配的访问接口，因此，所需要开发的访问接口的数量为：该数据管理系统中所包括的多个计算引擎101和多个数据源102的数量乘积。

例如，所构建的基于数据湖的数据管理系统所包括的计算引擎101的数量为M(M>1)，所包括的数据源102的数量为N(N>1)，则所需要开发的访问接口的数量为M*N。

基于此，应用本发明实施例提供的一种基于数据湖的数据管理系统，在构建上述数据管理系统时，可以极大地减少访问接口的开发数量，降低构建过程的繁琐程度。

进一步的，上述数据管理系统中的虚拟引擎装置103还可以具有数据缓存策略、数据缓存、数据本地性、数据短路读取等功能。

此外，上述数据管理系统中的虚拟引擎装置103可以设置在一电子设备中，该电子设备可以是一独立的电子设备，也可以是设置有至少一个计算引擎101的电子设备，这都是合理的。

此外，上述用于设置计算引擎101和虚拟引擎装置103的各个电子设备，可以是任一类型的电子设备，对此，本发明实施例不做具体限定。

此外，当在上述数据管理系统中添加新的计算引擎101和/或新的数据源102时，技术人员可以对上述虚拟引擎装置103进行扩展，从而，在虚拟引擎装置103上添加与新的计算引擎101相匹配的第一类访问接口101-1和/或与新的数据源102相匹配的第二类访问接口102-1。

例如，技术人员可以在上述虚拟引擎装置103的程序代码中添加新添加的上述虚拟引擎装置103和/或第二类访问接口102-1对应的程序代码段，从而，实现在虚拟引擎装置103上添加添加新添加的上述虚拟引擎装置103和/或第二类访问接口102-1。

这样，在本发明实施例中，可以灵活地在上述数据管理系统中添加新的计算引擎101和/或新的数据源102，并且，新添加的计算引擎101可以实现对各个数据源102的数据访问，新添加的数据源102也可以实现被各个计算引擎101进行数据访问。

其中，所添加的计算引擎101和/或数据源102可以是开源的计算引擎101和/或数据源102，也可以是技术人员根据自身企业的业务需求，自行研发的计算引擎101和/或数据源102。从而，在本发明实施例中，可以在上述数据管理系统中，根据自身的业务需求，灵活地添加各种计算引擎101和/或数据源102。

在上述数据管理系统构建完成后，每个计算引擎101便可以借助虚拟引擎装置103上所设置的与自身对应的第一类访问接口101-1，以及与每个数据源102相匹配的第二类访问接口102-1，对每个数据源102进行数据访问。

如图2所示，为上述数据管理系统中，每个计算引擎101、虚拟引擎装置103与每个数据源102之间的信令交互图。

S201：每个计算引擎101通过与自身相匹配的第一类访问接口101-1，向虚拟引擎装置103发送数据访问请求和待访问的数据源102的标识信息；

其中，每个计算引擎101在确定需要对待访问的数据源102进行数据访问时，便可以通过虚拟引擎装置103上所设置的与自身相匹配的第一类访问接口101-1，向虚拟引擎装置103发送数据访问请求和待访问的数据源102的标识信息。

其中，该数据访问请求可以为数据读请求，也可以为数据写请求，对此，本发明实施例不做具体限定。

可选的，当上述数据访问请求为数据读请求时，该数据读请求中可以携带有所读取的数据的数据量、存储地址和数据类型等与所读取的数据相关的信息。

可选的，当上述数据访问请求为数据写请求时，该数据写请求可以用于指示更新数据；也可以用于指示删除数据；还可以用于指示在写入数据；当然该数据写请求还可以用于指示其他与写数据相关的操作，这都是合理的。

其中，当数据写请求用于指示更新数据时，该数据写请求中可以包括需要被更新的数据的存储地址和用于更新需要被更新的数据的新数据等与数据更新相关的信息；

当数据写请求用于指示删除数据时，该数据写请求中可以包括待删除的数据的存储地址等与数据删除相关的信息；

当数据写请求用于指示写入数据时，该数据写请求中可以包括待写入的新的数据和待写入的新的数据的存储地址等与数据写入相关的信息。

S202：虚拟引擎装置103在接收到上述数据访问请求和标识信息后，基于目标访问接口，向具有标识信息的数据源102发送上述数据访问请求。

其中，虚拟引擎装置103在接收到任一数据引擎发送的数据访问请求和待访问的数据源102的标识信息后，便可以在所设置的多个第二类访问接口102-1中，确定与具有该标识信息的数据源102相匹配的第二类访问接口102-1，即确定目标访问接口，从而，虚拟引擎装置103便可以基于所确定的目标访问接口，向具有该标识信息的数据源102发送上述所接收到的数据访问请求。

S203：具有上述标识信息的数据源102在接收到上述数据访问请求时，确定上数据访问请求对应的响应结果；

其中，为了行文清晰，可以将上述具有上述标识信息的数据源102简称为目标数据源102。

其中，目标数据源102可以接收虚拟引擎装置103基于与自身相匹配的第二类访问接口102-1发送的数据访问请求，即具有标识信息的数据源102可以接收虚拟引擎装置103基于目标访问接口反馈的数据访问请求。进而，根据该数据访问请求所携带的信息，目标数据源102便可以确定该数据访问请求对应的响应结果。

可选的，当上述数据访问请求为数据读请求时，目标数据源102便可以根据该数据访问请求所携带的所读取的数据的数据量、存储地址和数据类型等信息，在所存储的数据中确定上述所读取的数据，从而，上述数据访问请求对应的响应结果即为：所读取的数据；

可选的，当上述数据访问请求为数据写请求时，目标数据源102便可以根据该数据访问请求所指示的与写数据相关的操作，以及该数据访问请求所携带的与该操作相关的信息，对所存储的数据进行数据更新、数据删除或数据写入等操作，并在该操作完成后，生成相应的反馈信息。从而，当数据访问请求为数据写请求时，数据访问请求对应的响应结果为：数据写请求的反馈结果。其中，该数据写请求的反馈结果可以为用于表征数据写请求已完成的信息。

S204：目标数据源102通过与自身所匹配的第二类访问接口102-1，将所确定的数据访问请求对应的响应结果反馈给虚拟引擎装置103；

在确定出所接收到的数据访问请求对应的响应结果后，目标数据源102便可以通过虚拟引擎装置103上所设置的与自身相匹配的第二类访问接口102-1，将所确定的上述数据访问请求对应的响应结果反馈给虚拟引擎装置103。

S205：虚拟引擎装置103在接收到将目标数据源102反馈的响应结果后，反馈至发出上述数据访问请求的计算引擎101；

虚拟引擎装置103可以基于所设置的与目标数据源102相匹配的第二类访问接口102-1接收目标数据源102反馈的上述数据访问请求的响应结果。进而，虚拟引擎装置103便可以进一步基于与发出上述数据访问请求的计算引擎101相匹配的第一类访问接口101-1，将上述数据访问请求的响应结果反馈给发出上述数据访问请求的计算引擎101。

S206：每个计算引擎101接收虚拟引擎装置103反馈的与自身所发出的数据访问请求对应的响应结果。

其中，每个计算引擎101可以通过虚拟引擎装置103上设置的与自身相匹配的第一类访问接口101-1向虚拟引擎装置103发送数据访问请求和待访问的数据源102的标识信息；进而，当虚拟引擎装置103基于与该计算引擎101相匹配的第一类访问接口101-1，向该计算引擎101反馈上述数据访问请求对应的响应结果时，该计算引擎101便可以通过虚拟引擎装置103上设置的与自身相匹配的第一类访问接口101-1，接收该响应结果。

根据图2所示的信令交互图，本发明实施例提供的一种基于数据湖的数据管理系统中，每个数据源102用于在接收到数据访问请求时，确定数据访问请求对应的响应结果，并通过虚拟引擎装置103上所设置的与自身相匹配的第二类访问接口102-1，将所确定的响应结果反馈给虚拟引擎装置103。

基于此，在本发明实施例提供的一种基于数据湖的数据管理系统中，每个计算引擎101可以利用虚拟引擎装置103上所设置的与自身相匹配的第一类访问接口101-1，以及与待访问的数据源102相匹配的第二类访问接口102-1，对待访问的数据源102进行数据访问。也就是说，在本发明实施例提供的一种基于数据湖的数据管理系统中，当某个计算引擎101需要对某个数据源102进行数据访问，以加载该数据源102中所存储的数据时，该计算引擎101可以直接从该数据源102处进行数据加载，而不需要专门的入湖过程，从而，可以消除数据冗余，降低数据的存储成本，并提高了数据管理的时效性。

相应的，在相关领域和相关技术中，由于每个计算引擎101仅仅能够对自身配置有相匹配的访问接口的数据源102进行数据访问，因此，当某个计算引擎101需要访问某个数据源102，以记载该数据源102中所存储的数据，且该计算引擎101中没有配置与该数据源102相匹配的访问接口时，则需要将该数据源102中的数据转存到该计算引擎101能够进行数据访问的数据源102中，使得该计算引擎101从该自身能够进行数据访问的数据源102中读取上述所转存的数据。

例如，计算引擎101A预先配置了分别与数据源1021和数据源1022相匹配的访问接口，而没有配置与数据源1023相匹配的访问接口，当计算引擎101A想要访问数据源1023，以加载数据源1023中的数据时，需要将数据源1023中的数据转存至数据源1021或数据源1022中从而，计算引擎101A对数据源1021或数据源1022进行数据访问，以加载数据源1023中的数据。

其中，上述将计算引擎101不能进行数据访问的数据源102中的数据转存至计算引擎101能够进行数据访问的数据源102中的过程，即为“入湖过程”，显然，计算引擎101不能进行数据访问的数据源102中的数据在不同的数据源102中被存储了多份，从而，造成了数据冗余，且由于存在转存过程，从而，导致该计算引擎101记载上述数据的过程时间较长，使得数据管理的时效性较差。

基于此，应用本发明实施例提供的一种基于数据湖的数据管理系统，在进行数据加载时，可以不需要专门的入湖过程，从而，可以消除数据冗余，降低数据的存储成本，并提高了数据管理的时效性。

可选的，一种具体实现方式中，每个计算引擎101通过与自身相匹配的第一类访问接口101-1，向虚拟引擎装置103发送数据访问请求和待访问的数据源102的标识信息，具体为：

当获取到关于业务应用的处理任务的任务信息和待访问的数据源102的标识信息时，基于任务信息，生成数据访问请求，通过与自身相匹配的第一类访问接口101-1，向虚拟引擎装置103发送数据访问请求和标识信息。

由于每个计算引擎101用于执行关于业务应用的处理任务，因此，每个计算引擎101可以获取到关于业务应用的处理任务的任务信息，并且，由于执行该关于业务应用的处理任务需要利用某个数据源102中所存储的数据，因此，该计算引擎101还可以获取到待访问的数据源102的标识信息。

其中，上述关于业务应用的处理任务的任务信息用于描述该关于业务应用的处理任务的任务内容和任务需求等与任务执行相关的信息。从而，接收到上述任务信息的计算引擎101，便可以基于该任务信息，生成与上述关于业务应用的处理任务相对应的数据访问请求。这样，该计算引擎101便可以通过虚拟引擎装置103上述所设置与自身相匹配的第一类访问接口101-1，向虚拟引擎装置103发送数据访问请求和标识信息。

其中，上述关于业务应用的处理任务可以为与任一类业务应用相关的处理任务，例如，数据分析、机器学习、数据挖掘、自助分析等。对此，本发明实施例不做具体限定。

进一步的，可选的，一种具体实现方式中，每个计算引擎101还用于：基于响应结果和任务信息，执行关于业务应用的处理任务。

由于每个计算引擎101可以获取到关于业务应用的处理任务的任务信息，且基于所获取到的任务信息，生成数据访问请求，进一步的，每个计算引擎101还可以接收到虚拟引擎装置103反馈的上述数据访问请求对应的响应结果，因此，每个计算引擎101在接收到上述数据访问请求对应的响应结果后，便可以基于该响应结果和上述任务信息，执行上述关于业务应用的处理任务。

可选的，一种具体实现方式中，如图3所示，本发明实施例提供的一种基于数据湖的数据管理系统中还可以包括：统一SQL(Structured Query Language，结构化查询语言)装置104；

统一SQL装置104，用于获取关于业务应用的处理任务，对处理任务进行任务解析，得到处理任务的任务信息、用于执行处理任务的计算引擎101以及待访问的数据源102的标识信息；将任务信息和标识信息下发至用于执行处理任务的计算引擎101。

其中，统一SQL装置104可以获取各个业务应用客户端下发的关于业务应用的处理任务。进而，统一SQL装置104便可以对所获取到的处理任务进行解析，从而，得到该处理任务的任务信息、用于执行处理任务的计算引擎101以及待访问的数据源102的标识信息。这样，统一SQL装置104便可以将所解析得到的任务信息和标识信息下发至所确定的用于执行处理任务的计算引擎101。

基于此，在本发明实施例中，统一SQL装置104可以与各个业务应用客户端以及各个计算引擎101进行交互，也就是说，统一SQL装置104可以介于各个业务应用客户端以及各个计算引擎101之间，实现各个关于业务应用的处理任务在各个业务应用客户端以及各个计算引擎101之间的传递。

其中，统一SQL装置104可以为各个业务应用客户端提供的标准的SQL，从而，可以简化开发难度，降低用户的使用门槛。并且，统一SQL装置104可以提供计算引擎101扩展接口，从而，在上述数据管理系统中添加新的计算引擎101时，可以实现与该新的计算引擎101的交互。

进一步的，可选的，当统一SQL装置104对获取到的关于业务应用的处理任务进行解析，确定该处理任务与综合检索类查询相关，则可以确定待访问的数据源102为综合检索类存储系统；当统一SQL装置104对获取到的关于业务应用的处理任务进行解析，确定该处理任务与分析型类查询相关，则可以确定待访问的数据源102为分析型存储系统；当统一SQL装置104对获取到的关于业务应用的处理任务进行解析，确定该处理任务与全文索引类查询相关，则可以确定待访问的数据源102为索引存储系统；当统一SQL装置104对获取到的关于业务应用的处理任务进行解析，确定该处理任务与预统计类查询相关，则可以确定待访问的数据源102为预统计类存储系统。

可选的，一种具体实现方式中，统一SQL装置104对处理任务进行任务解析，得到处理任务的任务信息、用于执行处理任务的计算引擎101以及待访问的数据源102的标识信息，具体为：

步骤1：对处理任务进行语法和/或词法解析，生成初始SQL语法树；

步骤2：利用预设规则，对初始SQL语法树进行优化，生成目标SQL语法树；

步骤3：基于预设计算引擎101匹配策略和目标SQL语法树，确定处理任务的任务信息、用于执行处理任务的计算引擎101以及待访问的数据源102的标识信息。

统一SQL装置104在获取到关于业务应用的处理任务后，可以首先对该处理任务进行语法和/或词法解析，从而，生成初始SQL语法树。

其中，上述初始SQL语法树是将人类阅读的数据库表达语句，转换为树结构，也就是说，将通过人类语言表达的处理任务转换为树结构表达。这样，便可以进一步针对不同的计算引擎和数据源进行相应的执行语音的转换。

进而，统一SQL装置104便可以利用预设规则，对初始SQL语法树进行优化，生成目标SQL语法树。

其中，所述预设规则包括各类优化规则，并且，该各类优化规则可以包括：规则优化、代价优化等通用规则，也可以包括技术人员根据企业需求自定义的优化规则。

此外，上述目标SQL语法树为通过预设规则对初始SQL语法树进行进一步优化得到的SQL语法树，以优化所得到的用于表达处理任务的树结构。

接着，在得到上述目标SQL语法树后，统一SQL装置104便可以基于预设计算引擎101匹配策略和目标SQL语法树，确定处理任务的任务信息、用于执行处理任务的计算引擎101以及待访问的数据源102的标识信息。

其中，统一SQL装置104可以利用预设计算引擎101匹配策略对目标SQL语法树进行转换，得到关于上述处理任务且与用于执行处理任务的计算引擎101相匹配的物理执行计划。

需要说明的是，上述物理执行计划为将目标SQL语法树的表达式进行转换所得到的，用于执行上述处理任务的计算引擎以及待访问的数据源能够识别和执行的语言。其中，该物理执行计划利用用于执行上述处理任务的计算引擎以及待访问的数据源能够识别和执行的语言表达处理任务的任务信息，并指示了用于执行上述处理任务的计算引擎以及待访问的数据源，从而，用于执行上述处理任务的计算引擎便可以根据该物理执行计划生成数据访问请求。

为了便于理解本发明实施例提供的一种基于数据湖的数据管理系统，可以从交互逻辑的角度将本发明实施例提供的一种基于数据湖的数据管理系统分为多个逻辑层。

例如，如图4所示，为本发明实施例提供的一种基于数据湖的数据管理系统的逻辑层结果。其中，上述数据管理系统可以分为四个逻辑层，该四个逻辑层分别为：统一SQL层、计算引擎层、数据虚拟化引擎层和数据存层。

1、统一SQL层即为上述统一SQL装置，用于为各个业务应用客户端提供标准SQL；利用语法和/或词法解析规则、规则优化、代价优化和计算引擎匹配等规则对所获取到的关于业务应用的处理任务进行任务解析，得到处理任务的任务信息、用于执行处理任务的计算引擎以及待访问的数据源的标识信息。

2、计算引擎层即为多个计算引擎构成的逻辑层。其中，构成计算引擎层的多个计算引擎可以包括开源计算引擎和自研计算引擎，即可以包括开源计算引擎和技术人员根据自身企业需求自行研发的计算引擎。

其中，如图4所示，Flink、Spark、Hbase、Caffe(Convolutional Architecture forFast Feature Embedding，卷积神经网络框架)、Presto(大数据查询引擎)、Hadoop和Tensorflow为开源计算引擎；具体的，Hadoop是一整套的大数据计算、存储、调度等平台组合，允许使用简单的编程模型跨集群，以分布式的方式处理大型数据集。

进一步的，RBO为对初始SQL语法树进行优化时，所采用的规则优化，通常为根据数据源的使用经验确定的抽象的优化规则，CBO为对初始SQL语法树进行优化时，所采用的代价优化，其中，所谓代价为CPU(Central Processing Unit，中央处理器)和内存。

3、数据虚拟化引擎层即为上述虚拟引擎装置。其具有数据统一访问、数据本地化、文件管理、文件元信息缓存、数据缓存和短路读取等功能。

其中，如图4所示，访问接口Java File API、Hdfs Interface、Posix Interface和S3 Interface即为与构成上述计算引擎层的每个计算引擎相匹配的第一类访问接口101-1；数据源适配器NFS Adspter、Hdfs Adspter、S3 Adspter、NFS Adspter和自定义Adspter为与构成数据存储层的各个数据源相匹配的第二类访问接口102-1。

4、数据存储层即为多个数据源构成的逻辑层。其中，构成数据存储层的多个数据源可以包括开源数据源和自研数据源，即可以包括开源数据源和技术人员根据自身企业需求自行研发的数据源。

其中，如图4所示，Hadoop、Hbase、MongeDB(基于分布式文件存储的数据库)、Elasticsearch(全文搜索引擎)、RDBMS(Relational Database Management System，关系数据库管理系统)、Redis(键值对存储系统)、Kylin(分布式分析引擎)和对象存储(Ozone)为开源数据源；Alces(自研预统计)、对象存储(自研Hik S3)和hudi parquet(深度优化)为自研数据源。

相应于上述本发明实施例提供的一种基于数据湖的数据管理系统，本发明实施例还提供了一种基于数据湖的数据管理方法。

其中，该基于数据湖的数据管理方法应用于基于数据湖的数据管理系统的虚拟引擎装置，该数据管理系统还包括：多个计算引擎和多个数据源；虚拟引擎装置设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口；

图5为本发明实施例提供的一种基于数据湖的数据管理方法的流程示意图。如图5所示，该数据管理方法可以包括如下步骤：

S501：通过与任一计算引擎相匹配的第一类数据访问接口，接收该计算引擎发送的数据访问请求和待访问的数据源的标识信息；

S502：基于目标访问接口，向具有标识信息的数据源发送数据访问请求；

其中，目标访问接口为与具有标识信息的数据源相匹配的第二类访问接口；

S503：接收具有标识信息的数据源通过目标访问接口反馈的数据访问请求对应的响应结果；

S504：通过与发出数据访问请求的计算引擎相匹配的第一类访问接口，向发出数据访问请求的计算引擎反馈响应结果，以使发出数据访问请求的计算引擎接收响应结果。

以上可见，应用本发明实施例提供的技术方案，在包括多个计算引擎和多个数据源的基于数据湖的数据管理系统中，构建了设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口的虚拟引擎装置。

可选的，一种具体实现方式中，当数据访问请求为数据写请求时，数据访问请求对应的响应结果为：所读取的数据；当数据访问请求为数据写请求时，数据访问请求对应的响应结果为：数据写请求的反馈结果。

相应于上述本发明实施例提供的一种基于数据湖的数据管理方法，本发明实施例还提供了一种电子设备，该电子设备设置有虚拟引擎装置。如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述本发明实施例提供的任一基于数据湖的数据管理方法的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述本发明实施例提供的任一基于数据湖的数据管理方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述本发明实施例提供的任一基于数据湖的数据管理方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于方法实施例、电子设备实施例、计算机可读存储介质实施例，以及计算机程序产品实施例而言，由于其基本相似于系统实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于数据湖的数据管理系统，其特征在于，包括：多个计算引擎、多个数据源以及虚拟引擎装置；其中，所述虚拟引擎装置设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口；

2.根据权利要求1所述的系统，其特征在于，每个计算引擎通过与自身相匹配的第一类访问接口，向所述虚拟引擎装置发送数据访问请求和待访问的数据源的标识信息，具体为：

3.根据权利要求2所述的系统，其特征在于，所述系统还包括：统一结构化查询语言SQL装置；

4.根据权利要求3所述的系统，其特征在于，所述统一SQL装置对所述处理任务进行任务解析，得到所述处理任务的任务信息、用于执行所述处理任务的计算引擎以及待访问的数据源的标识信息，具体为：

5.根据权利要求2所述的系统，其特征在于，每个计算引擎还用于：

6.根据权利要求1-5任一项所述的系统，其特征在于，

7.一种基于数据湖的数据管理方法，其特征在于，应用于基于数据湖的数据管理系统的虚拟引擎装置，所述系统还包括：多个计算引擎和多个数据源；所述虚拟引擎装置设置有与每个计算引擎相匹配的第一类访问接口，以及与每个数据源相匹配的第二类访问接口；

8.根据权利要求7所述的方法，其特征在于，

9.一种电子设备，其特征在于，设置有虚拟引擎装置，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求7或8所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求7或8任一所述的方法步骤。