CN117725086B

CN117725086B - 大数据服务系统

Info

Publication number: CN117725086B
Application number: CN202410168477.4A
Authority: CN
Inventors: 路培杰; 杨辉; 周志忠; 刘文虎; 罗颖
Original assignee: Zhongke Yungu Technology Co Ltd
Current assignee: Zhongke Yungu Technology Co Ltd
Priority date: 2024-02-06
Filing date: 2024-02-06
Publication date: 2024-05-07
Anticipated expiration: 2044-02-06
Also published as: CN117725086A

Abstract

本申请实施例提供一种大数据服务系统。服务系统包括：多租户平台，包括用户层、服务层以及引擎层，用户层用于提供统一查询接口服务获取平面服务端提交的多种查询语句；服务层用于对多种查询语句进行处理，并生成对应的数据分析任务并传输至引擎层；引擎层用于查询与数据分析任务匹配的计算引擎；计算引擎平台，包括多种计算引擎，针对任意一种计算引擎，用于接收数据分析任务以向平面服务端提供对应的多种计算函数，并基于平面服务端选定的目标计算函数对多种查询语句进行分析处理；平面服务端，用于获取用户提交的多种查询语句，并将接收到的多种计算函数进行展示，将用户触发的第一选择指令至与目标计算函数对应的第一目标计算引擎。

Description

大数据服务系统

技术领域

本申请涉及工业物联网技术领域，具体涉及一种大数据服务系统。

背景技术

现有大数据处理技术主要是通过部署海量数据集成，采集，存储，计算，分析等由不同系统组成的大数据底座，然后大数据开发者通过ETL工具将数据经过采集存储到分布式存储系统（hadoop hdfs），并根据不同的计算引擎（flink/spark/hive）的特点，进行针对性编程，将数据分析过程通过java/scala/python编程语言按照数据分析的业务逻辑进行编程，然后编译，打包，部署上线，运行。然而，编程过程中必须遵循这些开发语言的编程规范以及计算引擎的编程要求，整个过程需要对计算引擎有深入地了解，对编程语言有较好地掌握，需要非常专业的大数据分析人员才能够胜任大数据开发工作。因此导致了大数据分析过程复杂、流程较长、分析效率较低的缺点，数据分析人员不仅需要了解业务需求，同时还需要熟悉底层计算模型，成本较高。

发明内容

本申请实施例的目的是提供一种大数据服务系统，用以解决现有技术中大数据分析计算入门门槛高，需要专业人员介入才能完成大数据分析需求的技术缺陷。

为了实现上述目的，本申请第一方面提供一种大数据服务系统，服务系统包括：

多租户平台，包括用户层、服务层以及引擎层，用户层用于提供统一查询接口服务，并通过统一查询接口服务获取平面服务端提交的多种查询语句；服务层用于对多种查询语句进行处理，以将多种查询语句的格式转化成与计算引擎平台对应的预设格式，并生成针对多种查询语句的数据分析任务并传输至引擎层；引擎层用于查询与数据分析任务匹配的计算引擎，并将数据分析任务传输至匹配的计算引擎；

计算引擎平台，包括多种计算引擎，针对任意一种计算引擎，计算引擎用于接收引擎层发送的数据分析任务，并根据数据分析任务向平面服务端提供对应的多种计算函数，并基于平面服务端选定的目标计算函数对多种查询语句进行分析处理；

平面服务端，用于获取用户提交的多种查询语句，并将接收到的多种计算函数进行展示，在获取用户触发的针对目标计算函数的第一选择指令之后，将第一选择指令通过多租户平台传输至与目标计算函数对应的第一目标计算引擎。

在本申请的实施例中，服务系统还包括：容器编排平台，用于为多租户平台和计算引擎平台提供多个容器，以及为多种查询语句提供管理和调度功能；对象存储平台，与容器编排平台连接，对象存储平台包括多个存储桶，用于存储计算引擎平台分析处理后的数据。

在本申请的实施例中，多租户平台还用于：确定多租户平台的容器化部署脚本文件，其中，容器化部署脚本文件包括多租户平台的容器资源配置文件、对外端口服务文件以及第一镜像文件；在通过容器编排平台获取到运行指令的情况下，根据运行指令执行容器化部署脚本文件，以将多租户平台的服务层部署至多个容器中。

在本申请的实施例中，计算引擎平台还用于：针对任意一个计算引擎，获取计算引擎的安装包，并基于安装包构建针对计算引擎的第二镜像文件；将第二镜像文件和运行参数添加至多租户平台的容器资源配置文件中；基于第二镜像文件重新构建第一镜像文件，以得到更新后的容器化部署脚本文件；在通过容器编排平台获取到运行指令的情况下，根据运行指令执行更新后的容器化部署脚本文件，以将计算引擎部署至多个容器中。

在本申请的实施例中，容器编排平台还用于：获取对象存储平台的探索内置依赖包和访问信息，探索内置依赖包包括对象存储平台的数据传输信息；针对任意一个计算引擎，基于探索内置依赖包重新构建第二镜像文件，并将访问信息添加至多租户平台的容器资源配置文件中，以得到更新后的容器资源配置文件；在通过容器编排平台获取到运行指令的情况下，根据运行指令执行更新后的容器化部署脚本文件，以使容器编排平台与对象存储平台建立连接。

在本申请的实施例中，对象存储平台还用于：基于平面服务端的多个用户信息分别创建与每个用户信息对应的存储桶；在通过计算引擎平台完成对多种查询语句的分析处理之后，基于数据传输信息中携带的预设传输协议与计算引擎平台建立连接；查询与多种查询语句的用户信息匹配的存储桶，以将分析处理后的数据传输至匹配的存储桶中进行存储。

在本申请的实施例中，平面服务端还包括：交互模块，包括用户交互界面，用于获取用户提交的多种查询语句，并将接收到的多种计算函数进行展示，用户交互界面上包括多个组件，多个组件至少包括多种计算引擎组件、多个计算函数组件、用户登录组件、混合编程组件以及数据分析组件；后端服务模块，用于基于统一查询接口服务与用户层建立连接，以将用户通过用户交互界面提交的多种查询语句传输至服务层，根据用户通过用户交互界面选定的目标计算函数生成对应的第一选择指令，并将第一选择指令通过引擎层传输至与目标计算函数对应的第一目标计算引擎。

在本申请的实施例中，引擎层还用于：针对任意一个计算引擎，获取计算引擎的计算实例；构建针对计算实例的远程过程调用服务端；基于多个远程过程调用服务端以使引擎层与计算引擎平台中的多种计算引擎适配。

在本申请的实施例中，引擎层还用于：确定与每种计算引擎对应的调用链接，并将多个调用链接注册至预设应用程序协调服务中进行存储；在根据数据分析任务查询到与数据分析任务匹配的计算引擎之后，针对与数据分析任务匹配的计算引擎，基于应用程序协调服务查询与计算引擎对应的第一目标调用链接；基于第一目标调用链接与计算引擎建立连接，并将数据分析任务传输至计算引擎。

在本申请的实施例中，多种计算引擎至少包括第一计算引擎、第二计算引擎、第三计算引擎以及第四计算引擎，引擎层还用于：分别构建与第一计算引擎、第二计算引擎、第三计算引擎以及第四计算引擎对应的第一标识、第二标识、第三标识以及第四标识；在接收到平面服务端通过服务层传输的针对计算引擎的第二选择指令的情况下，确定与第二选择指令对应的目标标识；根据目标标识确定用户通过平面服务端选定的第二目标计算引擎，并基于应用程序协调服务查询与第二计算引擎对应的第二目标调用链接，以基于第二目标调用链接与第二目标计算引擎建立连接。

上述技术方案，通过提供的大数据服务系统，包括可以提交多种查询语句的平面服务端获取用户提交的多种查询语句，基于多租户平台的用户层提供的统一接口服务传输将多种查询语句提交至服务层，通过服务层对多种查询语句进行处理转化成底层计算引擎能够处理的统一预设格式，完成格式转换后生成对应的数据分析任务至引擎层，引擎层则与数据分析任务对应的计算引擎建立链接，从而将数据分析任务发送至该计算引擎，以通过计算引擎向平面服务端提供对应的计算函数，并基于选定的计算函数对数据分析任务进行分析处理。上述服务系统使得用户不需要进行复杂编程，不需要了解大数据各种计算引擎，只要懂业务逻辑就可以通过服务系统的后台完成大数据分析。

本申请实施例的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1示意性示出了根据本申请实施例的大数据服务系统的结构框图；

图2示意性示出了根据本申请实施例的一种大数据服务系统的流程设计图；

图3示意性示出了根据本申请实施例的又一大数据服务系统的结构框图；

图4示意性示出了根据本申请实施例的一种大数据服务系统的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，若本申请实施例中有涉及“第一”“第二”等的描述，则该“第一”“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1示意性示出了根据本申请实施例的一种大数据服务系统的结构框图。如图1所示，本申请实施例提供一种大数据服务系统，该大数据服务系统包括：

多租户平台110，包括用户层112、服务层114以及引擎层116，用户层112用于提供统一查询接口服务，并通过统一查询接口服务获取平面服务端130提交的多种查询语句；服务层114用于对多种查询语句进行处理，以将多种查询语句的格式转化成与计算引擎平台120对应的预设格式，并生成针对多种查询语句的数据分析任务并传输至引擎层116；引擎层116用于查询与数据分析任务匹配的计算引擎，并将数据分析任务传输至匹配的计算引擎；

多租户平台可以是指kyuubi，kyuubi是一个分布式多租户Thrift JDBC/ODBC服务器，用于大规模数据管理、处理和分析，kyuubi可以提供无服务器SQL，支持多种计算引擎，通过一个统一网关实现对任何计算引擎集群资源的简化、安全访问，为中断用户部署不同的工作负载。其中，无服务器SQL是指可以在不依赖任何数据库服务器的情况下运行SQL查询。在本技术方案中，kyuubi包括用户层、服务层以及引擎层，用户层可以是指提供JDBC接口服务的对外访问层，因此，统一查询接口服务可以是指JDBC接口服务，具体地，用户层可以通过JDBC接口服务获取平面服务端提交的多种查询语句。多种查询语句可以是指半结构化代码，或者混合式代码，半结构例如XML、JSON等，混合式代码例如由Python+Sql+Scala等共同构成。

服务层可以是指kyuubi server层，用户层通过JDBC接口服务获取平面服务端提交的多种查询语句之后，多种查询语句进入kyuubi server层进行处理，kyuubi server层可以将多种查询语句的格式转化成与计算引擎平台对应的预设格式，并生成针对多种查询语句的数据分析任务并传输至引擎层。在本技术方案中，kyuubi server层作为一个与底层引擎层进行交互的Apache Thrift RPC客户端，其承担着将平面服务端传递过来的计算程序即半结构化的代码，或者混合式代码进行规范化处理，并进行编译的作用。这些计算程序经过kyuubi server层编译之后，可以其转化为计算引擎平台中的计算引擎能够识别的代码，进而生成对应数据分析任务以供计算引擎完成计算。

引擎层可以是指kyuubi engine层，用户层通过JDBC接口服务获取平面服务端提交的多种查询语句，多种查询语句进入kyuubi server层，通过kyuubi server层进行规范化处理和编译生成对应的数据分析任务之后，通过kyuubi engine层将数据分析任务传递至计算引擎平台中对应的计算引擎进行处理。具体地，在本技术方案中，kyuubi engine层负责与底层计算引擎进行交互，通过程序设计和代码开发，可以使kyuubi engine可以适配不同的计算引擎。将所有计算引擎适配好之后，启动kyuubi服务，当有分析需求从kyuubiserver传递过来时，kyuubi engine就会从匹配对应的计算引擎进行连接，并把编译后的代码传递给该计算引擎进行执行。

计算引擎平台120，包括多种计算引擎，针对任意一种计算引擎，计算引擎用于接收引擎层116发送的数据分析任务，并根据数据分析任务向平面服务端130提供对应的多种计算函数，并基于平面服务端选定的目标计算函数对多种查询语句进行分析处理；

计算引擎平台可以是指将多种不同类型的计算引擎进行集成的一种服务平台，在本技术方案中，为了使大数据的计算分析服务更加便捷，更加通用，能满足各种场景下的数据分析计算需求，同时又不让用户在使用平面服务端提交多种代码时，感知到计算引擎的存在，因此，需要有一个能够统一计算引擎的服务，能够将不同的计算引擎方便地集成到一起。具体地，本技术方案中的计算引擎平台集成了多种不同的计算引擎，例如spark，flink，starrocks，mapreduce(hive)等计算引擎。同时，计算引擎平台将多种计算引擎进行集成之后，需要一个统一的服务接口对外提供计算服务。因此，本技术方案中选择可以支持不同计算引擎的多租户平台kyuubi来与各种计算引擎进行集成，各种计算引擎在kyuubi用户层提供的JDBC接口服务下实现计算程序的采集和计算服务的提供。具体地，计算引擎在接收到数据分析任务之后，根据数据分析任务向平面服务端提供对应的多种计算函数，并基于平面服务端选定的目标计算函数对多种查询语句进行分析处理。

平面服务端130，用于获取用户提交的多种查询语句，并将接收到的多种计算函数进行展示，在获取用户触发的针对目标计算函数的第一选择指令之后，将第一选择指令通过多租户平台110传输至与目标计算函数对应的第一目标计算引擎。

平面服务端可以用于获取用户提交的多种查询语句，在获取到多种查询语句之后，基于用户层的JDBC接口服务将多种查询语句传输至kyuubi server层，进入kyuubiserver层的多种查询语句通过kyuubi server层进行规范化处理和编译生成对应的数据分析任务之后，传递至计算引擎平台中对应的计算引擎进行处理。计算引擎根据数据分析任务向平面服务端提供对应的多种计算函数，多种计算函数通过平面服务端进行展示，用户可以通过平面服务端在展示的多种计算函数中选择所需的计算函数。平面服务端在获取用户触发的针对目标计算函数的第一选择指令之后，将第一选择指令通过多租户平台传输至与目标计算函数对应的第一目标计算引擎。具体地，在本技术方案中，为了给用户带来更好的计算服务体验，在用户与计算服务之间设计了一个控制平面服务，因此，平面服务端可以是指该控制平面服务，具体地，如图2所示，提供了一种大数据服务系统的流程设计图。图2中，控制平面服务设置于用户与计算服务后台之间，计算服务后台通过用户层提供的JDBC接口服务与控制平面服务建立连接。服务器集群响应用户通过控制平面服务提交的计算服务提供对应的计算引擎，计算引擎基于JDBC接口服务反馈相关的计算函数至控制平面服务，以展示给数据分析人员等用户进行选择。用户可以在展示的计算函数中选定所需的，计算服务后台中的计算引擎则会根据选定的计算函数对计算服务进行分析计算。

本技术方案，提供的服务系统使得用户不需要进行复杂编程，不需要了解大数据各种计算引擎，只要懂业务逻辑就可以通过服务系统的后台完成大数据分析。

在本申请的实施例中，如图3所示，提供了又一大数据服务系统的结构框图，服务系统还包括：容器编排平台140，用于为多租户平台110和计算引擎平台120提供多个容器，以及为多种查询语句提供管理和调度功能；对象存储平台150，与容器编排平台140连接，对象存储平台150包括多个存储桶，用于存储计算引擎平台120分析处理后的数据。

容器就是一个视图隔离、资源可限制、独立文件系统的进程集合，它将系统的其他资源隔离开来，具有自己独立的资源视图。且每个容器之间互相隔离，每个容器有自己的文件系统，容器之间进程不会相互影响，能区分计算资源。容器编排平台可以是指kubernetes，简称K8s，是一个开源的，用于管理云平台中多个主机上的容器化的应用，kubernetes的目标是让部署容器化的应用简单并且高效K8s的容器化是基于Docker实现的，K8s将Docker容器通过各种资源定义组织在一起。K8s中管理的最小单位是pod，K8s需要对容器进行管理，所以抽象了一个pod作为管理单元。具体地，在本技术方案中，K8s可以用于为多租户平台kyuubi和计算引擎平台中的计算引擎提供容器，从而为kyuubi和计算引擎提供一个运行环境。为kyuubi和计算引擎在K8中完成容器化部署之后，可以在服务系统中正常运行，从而调度和管理用户通过平面服务端提交的多种查询语句。

对象存储平台可以是指minio，minio是一个高性能、分布式的对象存储平台，其提供高性能、S3协议兼容的对象存储，非常适合于存储大容量非结构化的数据。minio作为一个对象存储平台，其所处理的对象是以文件为粒度，即只需要把承载海量数据的各种数据文件（电子化的各式文件）通过minio客户端以文件的形式上传上去即可以完成数据的存储。其中，对象存储平台中的存储桶可以是指bucket，minio中存在多个bucket，每一个bucket均可用于存储计算引擎平台分析处理后的数据。同时，每一个bucket还可以用于存储用户通过平面服务端提交的用于后续进行计算分析任务所需的数据即多种查询语句，以及用户所需的历史数据，其中，多种查询语句可以包括半结构化代码，或者混合式代码，半结构例如XML、JSON等，混合式代码例如由Python+Sql+Scala等共同构成。

多租户平台可以是指kyuubi，在本技术方案中，kyuubi需与集成有多种计算引擎的计算引擎平台进行集成，因此，提供了容器编排平台K8s，kyuubi与多种计算引擎在K8s中完成容器化部署之后，当存在数据分析任务时，kyuubi即可在K8s的容器中拉起一个与数据分析任务对应的计算引擎。当数据分析任务结束之后，计算引擎自动退出容器释放资源，以节约资源空间，实现提高响应速度和资源利用率。具体地，多租户平台kyuubi部署至容器编排平台K8s时，需先定义容器化部署脚本yaml文件，并在容器化部署脚本yaml文件中定义kyuubi镜像文件、kyuubi对外暴露服务端口yaml文件以及kyuubi configmap容器化资源配置文件。在容器化部署脚本定义完成之后，通过容器编排平台K8s获取到运行指令，容器编排平台K8s的客户端kubectl则可以执行kubectl apply -f xxx.yaml运行指令的方式执行容器化部署脚本文件，以将多租户平台kyuubi的服务层kyuubi server部署至多个容器中。应当理解的是，只有服务层kyuubi server层是一个常驻服务，可以以pod的形式在k8s容器中运行，引擎层kyuubi engine作为一个功能性模块，并不会以常驻服务的形式运行。所以kyuubi engine层作为与底层计算引擎的交互层，无需进行容器化安装部署。kyuubi的用户层提供JDBC接口服务，平面服务端通过JDBC接口服务与kyuubi server进行通信，然后提交计算任务到kyuubi server层，kyuubi server负责登录鉴权和分析任务的转发。

计算引擎平台可以是指集成有spark，flink，starrocks，mapreduce(hive)等计算引擎的服务平台，在本技术方案中，每种计算引擎需在容器编排平台K8s中完成容器化部署。具体地，针对任意一种计算引擎，先获取该计算引擎的安装包，并基于安装包构建针对计算引擎的第二镜像文件。具体地，以计算引擎为spark为例，可以通过获取spark-3.2.2的安装包来制作spark容器化运行的docker镜像。在获取到spark的镜像文件之后，将该镜像文件添加至多租户平台kyuubi的容器资源配置文件kyuubi configmap中。容器资源配置文件kyuubi configmap更新之后，对应的kyuubi的镜像文件也会更新，此时，重新基于K8s的客户端kubectl执行kubectl apply -f xxx.yaml运行指令的方式执行容器化部署脚本文件，以将计算引擎部署spark至多个容器中。具体地，基于spark-3.2.2的安装包制作spark容器化运行的docker镜像，然后在kyuubi configmap的容器配置文件中指定spark任务运行的容器镜像，并将spark运行的相关参数在kyuubi configmap的容器配置文件进行配置。此时，升级kyuubi的docker镜像，即重新以spark镜像为基础，重新制作kyuubi的docker镜像，并升级k8s容器化部署的kyuubi服务。最后计算引擎spark完成容器化部署之后，通过kyuubi server提交spark sql分析任务时，即可在k8s容器中自动拉起spark的计算集群。除此之外，flink，starrocks，hive的k8s容器化部署过程与上述spark容器化部署过程基本相似，此处不再做详细介绍。

kyuubi包括的用户层、kyuubi server层以及kyuubi engine层中，用户层就是通过kyuubi向外提供计算函数的接口服务JDBC，kyuubi server层是一个轻量级常驻服务，而kyuubi engine层则是按需启停的计算引擎。平面服务端发起连接后，kyuubi server会根据路由规则基于kyuubi engine寻找合适的计算引擎，若没有命中，则会主动拉起一个新的计算引擎，当计算引擎闲置一段时段后，会主动退出释放资源。

对象存储平台可以是指minio，在本技术方案中，minio可以用于存储计算引擎平台分析处理后的数据、用户通过平面服务端提交的用于后续进行计算分析任务所需的数据即多种查询语句，以及供用户使用的历史数据。因此，对象存储平台minio需与容器编排平台K8s建立连接。具体地，minio与K8s建立连接需先获取对象存储平台的探索内置依赖包和访问信息，从而基于探索内置依赖包重新构建计算引擎的第二镜像文件，并将访问信息添加至多租户平台的容器资源配置文件中，以更新kyuubi的容器化部署脚本。重新基于K8s的客户端kubectl执行kubectl apply -f xxx.yaml运行指令的方式执行容器化部署脚本文件，以使K8s与minio建立连接。具体地，通过minio二进制文件安装包进行minio集群的安装，设置好minio的登录用户名和密码等访问信息，并在minio中创建好用于数据存储的桶bucket。在制作的计算引擎部署docker镜像时，在安装包中增加hadoop-aws-3.2.0.jar，aws-java-sdk-bundle-1.11.375.jar依赖包，因为minio对外提供服务是遵从标准的S3协议，新增的依赖包中封装了minio相关的数据传输方法。然后重新制作各计算引擎的docker镜像，并在kyuubi-configmap资源配置文件中增加minio的相关配置，相关配置中分别包括minio集群的登录用户名、密码、连接地址和数据读取的实现类等访问信息。有了这些配置，计算引擎在执行计算任务时就可以据此找到minio相应桶中的数据进行计算，升级部署的kyuubi集群，即可完成K8s中计算引擎与minio的集成。

分布式计算服务化一方面要解决如何使分布式计算便利化，简单化，易操作，同时还要解决使海量数据存取简单，便利和安全的问题。传统的大数据存储都需要通过各种ETL工具将数据经过清洗，结构化处理之后存储到hdfs分布式文件系统，然后再加载到hive数仓，这种方式的缺点就是数据的ETL过程复杂，需要各种ETL工具的支撑以及较好的编程技巧，最重要的是这种方式是以数据行的颗粒度来进行数据的处理，很多数据分析者不具备这样的能力，大多数的数据分析需求都是握有一堆数据文件（包括txt格式或者excel格式的或者json格式等），如何从中提取出有价值的信息。在本技术方案中，选择对象存储平台minio来作为数据的存储平台。minio是一个高性能、分布式的对象存储平台，其提供高性能、S3协议兼容的对象存储，非常适合于存储大容量非结构化的数据。其次，minio作为一个对象存储系统，其所处理的对象是以文件为粒度，即只需要把承载海量数据的各种数据文件（电子化的各式文件）通过minio客户端以文件的形式上传上去即可以完成数据的存储。且minio具备数据加密和安全认证机制，可以保障数据的安全，用户只需要通过我们提供的数据服务接口，即可完成数据的上传，存储及后续的计算分析，用后即删除，整个过程只有用户可以操控自己的数据，可以很好地保障数据的隐私，安全和保密性。其中，对象存储平台中的存储桶可以是指bucket，minio中存在多个bucket，每一个bucket均可用于存储计算引擎平台分析处理后的数据、用户通过平面服务端提交的用于后续进行计算分析任务所需的数据即多种查询语句，以及用户可使用的历史数据。

在平面服务端接入不同的用户时，对象存储平台可以基于平面服务端的多个用户信息分别创建与每个用户信息对应的存储桶bucket。minio中的存储桶bucket是为每个用户分配的独立存储单元，用户与用户之间数据做了完全的资源隔离，以保障用户数据的隐私和安全。因此，在通过计算引擎平台完成对多种查询语句的分析处理之后，基于数据传输信息中携带的预设传输协议与计算引擎平台建立连接，并查询与多种查询语句的用户信息匹配的存储桶bucket，以将分析处理后的数据传输至匹配的存储桶bucket中进行存储。

将对象存储平台minio与容器编排平台K8s进行集成之后，为了进一步简化数据分析者上传数据的复杂程度，可以将minio的客户端与平面服务端进行集成，用户仅需要在控制平面服务通过upload操作就可以安全，可靠地将要分析的数据文件通过minio客户端上传到minio分布式对象存储。具体地，如图4所示，提供了一种大数据服务系统的流程示意图。多租户平台kyuubi和多种计算引擎spark，flink，starrocks，mapreduce(hive)等分别部署在容器编排平台K8s提供的多个容器中。多租户平台kyuubi包括用户层、kyuubiserver层以及kyuubi engine层，用户层为平面服务端提供JDBC接口服务，用户提交的多种查询语句基于JDBC接口服务进入kyuubi server层，kyuubi server层进行规范化处理和编译生成对应的数据分析任务之后，传递至kyuubi server层，kyuubi server层匹配对应的计算引擎，并把编译后的代码传递给该计算引擎进行执行。在这个过程中，产生的数据均加密传输至通过S3协议与容器编排平台K8s连接的minio中进行存储，minio中包括多个存储桶bucket是为每个用户分配的独立存储单元，用户与用户之间数据做了完全的资源隔离，保障用户数据的隐私和安全。上传数据成功之后，用户就可以提交计算任务进而通过k8s基于S3协议访问到minio中属于自己的数据，最后完成数据分析需求。

在本技术方案中，平面服务端还包括：交互模块，包括用户交互界面，用于获取用户提交的多种查询语句，并将接收到的多种计算函数进行展示，用户交互界面上包括多个组件，多个组件至少包括多种计算引擎组件、多个计算函数组件、用户登录组件、混合编程组件以及数据分析组件；后端服务模块，用于基于统一查询接口服务与用户层建立连接，以将用户通过用户交互界面提交的多种查询语句传输至服务层，根据用户通过用户交互界面选定的目标计算函数生成对应的第一选择指令，并将第一选择指令通过引擎层传输至与目标计算函数对应的第一目标计算引擎。

在本技术方案中，为了给用户带来更好的计算服务体验，在用户与计算服务之间设计了一个控制平面服务，即本技术方案中的平面服务端，该控制平面有前端用户交互界面（数据开发，计算函数列表，计算引擎选择，用户登录等）以及后端处理服务两部分组成，用户交互界面通过vue技术进行开发，提供给用户进行具体的数据分析和相关操作控制。后端服务负责与kyuubi提供的JDBC连接进行集成，并处理前端界面的数据分析脚本和配置参数，用户登录请求，并把这些任务通过JDBC转发给K8s容器中的kyuubi server层。具体地，本技术方案中平面服务端可以包括用于与用户交互的前端：交互模块，以及用于将前端接收到的数据进行传递处理的后端：后端服务模块。其中，前端的交互模块包括用户交互界面，用户可以通过用户交互界面提交多种查询语句，因此，用户交互界面也可以称之为混合编程界面，例如用户可以在同一个会话框中通过：set kyuubi.operation.language=SQL（scala，python）来进行编程语言的切换，也就是说，同一个数据分析任务中分析逻辑代码既可以有SQL，也可以有scala代码或者python代码。同时，在用户交互界面上还包括多个组件，多个组件至少包括多种计算引擎组件、多个计算函数组件、用户登录组件、混合编程组件以及数据分析组件，例如，用户可以通过用户登录组件进行身份信息验证，验证通过后即可通过kyuubi提供的JDBC调用数据存储平台minio中与自己身份信息对应的数据桶中的数据，且后续生成的数据也会存储至该数据桶中。

处于平面服务端后端的后端服务模块，可以基于kyuubi提供的JDBC统一查询接口服务与用户层建立连接，以将用户通过用户交互界面提交的多种查询语句传输至服务层kyuubi server层，根据用户通过用户交互界面选定的目标计算函数生成对应的第一选择指令，并将第一选择指令通过引擎层传输至与目标计算函数对应的第一目标计算引擎。具体地，在平面服务端将不同计算引擎的所有函数功能进行了罗列并按照计算引擎类型即kyuubi.engine.type进行分类，同时将kyuubi提供的JDBC接口服务封装到该服务中，对用户屏蔽kyuubi的JDBC接口服务连接细节，连接过程通过编写的后端代码去完成。不同编程语言编写的数据分析脚本经过用户交互界面基于后端服务模块提交到kyuubi server时，kyuubi server会将数据分析脚本转发到kyuubi engine层。kyuubi engine层会对该脚本中的不同代码编写的计算逻辑进行处理，分别转换为对应的计算子任务DAG，然后按顺序提交到对应的计算引擎上进行执行，这个过程都在后端进行处理，用户直接面向的是控制平面的数据开发界面，对用户屏蔽后端计算引擎和存储的所有细节，极大简化了传统数据开发过程的复杂流程。用户只需要选择自己需要的计算引擎，使用任何编程语言进行非标准，片段式混合编程，与操作EXCEL一样调用任何计算和分析函数调用minio中存储的数据进行数据解析，统计分析，分析结果会立即计算完并返回到平面服务端供用户查询预览分析使用。虽然像EXCEL式分析，但是本方案中的计算函数的功能和种类要比EXCEL丰富很多，能满足各种场景下的分析，并且本技术方案中采用的是分布式计算，具有极高的计算效率和数据处理能力。

在本技术方案中，引擎层kyuubi engine负责与底层计算引擎平台中的各种计算引擎进行交互，通过程序设计和代码开发，可以使kyuubi engine可以适配不同的计算引擎。将所有计算引擎适配好之后，启动kyuubi服务，当有分析需求从kyuubi server传递过来时，kyuubi engine就会从匹配对应的计算引擎进行连接，并把编译后的代码传递给该计算引擎进行执行。具体地，为了使kyuubi engine可以适配不同的计算引擎，针对计算引擎平台中的任意一个计算引擎，需先获取该计算引擎的计算实例，并构建针对该计算实例的远程调用服务端，基于远程服务端即可实现kyuubi engine与该计算引擎适配。其中，远程调用服务端可以是指RPC服务端。具体地，以计算引擎为spark为例，获取计算引擎spark的计算实例SparkSession，基于Apache Thrift构建一个SparkSession实例的RPC服务端，其可以接收来自kyuubi server实例的请求，并通过SparkSession实例来执行。可以在kyuubiengine维护多个不同的Spark实例，当有计算请求过来之后，kyuubi engine层可以找到与计算请求匹配的Spark实例来执行相应的spark SQL任务。同时，可以基于Apache Thrift来实现并且持有相应会话信息（Session）的其余计算引擎的RPC服务端，包括flink，starrocks，mapreduce(hive)，当有相应的计算请求从kyuubi-server传递过来时，可以根据请求选择相应的RPC服务端来进行相应计算任务的执行，从而达到kyuubi engine对不同计算引擎的适配。

引擎层kyuubi engine负责与底层计算引擎平台中的各种计算引擎进行交互，当有分析需求从kyuubi server传递过来时，kyuubi engine就会从匹配对应的计算引擎进行连接，并把编译后的代码传递给该计算引擎进行执行。具体地，当所有计算引擎适配好之后，kyuubi服务启动时，kyuubi engine需与底层计算引擎建立连接，因此，针对任意一个引擎，kyuubi engine需先确定与该计算引擎对应的调用链接，并将多个调用链接注册至预设应用程序协调服务中进行存储。其中，预设应用程序协调服务可以是指zookeeper，调用链接可以是指rpc thrift链接。具体地，kyuubi engine层会维护一个与该计算引擎相对应的rpc thrift链接，连接信息会在zookeeper中进行注册，当有分析需求从kyuubi server传递过来时，kyuubi engine就会从zookeeper中基于rpc thrift链接查找对应的计算引擎连接，并把编译后的代码传递给该计算引擎进行执行。

在本技术方案中，第一计算引擎、第二计算引擎、第三计算引擎以及第四计算引擎可以分别是指spark，flink，starrocks，mapreduce(hive)。kyuubi与各种计算引擎的集成，并且kyuubi通过用户层对外提供了JDBC接口，用户可以通过该JDBC接口向后端计算引擎提交查询服务。相应的后端计算引擎也可以通过该JDBC接口将相应计算引擎涵盖的所有计算函数暴露给前端用户。在本技术方案中，为了让用户更好直观地区分各种不同计算引擎，可以在kyuubi Server侧维护了不同计算引擎的类型标识，譬如spark计算引擎维护的第一标识可以是指kyuubi.engine.type=spark，flink计算引擎维护的第二标识可以是指kyuubi.engine.type=flink，starrocks计算引擎维护的第三标识可以是指kyuubi.engine.type=starrocks，mapreduce计算引擎维护的第四标识可以是指kyuubi.engine.type=hive。用户通过平面服务端在进行数据分析时，只需要指定一下所需的计算引擎类型，当数据计算任务提交到后台计算引擎时，引擎层kyuubi engine就可以维护的标识快速选择相应的引擎进行计算。当用户确定了要使用的具体计算引擎，并且后端计算引擎各种计算函数可以通过JDBC端口暴露给用户，用户在进行数据分析混合编程时直接通过spark.function(x)或者flink.function(x)或者starrocks.function(x)或者hive.function(x)类似的方式进行调用计算引擎的各种计算函数进行计算即可。

还需要说明的是，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所做的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种大数据服务系统，其特征在于，所述服务系统包括：

多租户平台，包括用户层、服务层以及引擎层，所述用户层用于提供统一查询接口服务，并通过所述统一查询接口服务获取平面服务端提交的多种查询语句；所述服务层用于对所述多种查询语句进行处理，以将所述多种查询语句的格式转化成与计算引擎平台对应的预设格式，并生成针对所述多种查询语句的数据分析任务并传输至所述引擎层；所述引擎层用于查询与所述数据分析任务匹配的计算引擎，并将所述数据分析任务传输至匹配的计算引擎，针对任意一个计算引擎，获取所述计算引擎的计算实例，构建针对所述计算实例的远程过程调用服务端，基于多个远程过程调用服务端以使所述引擎层与所述计算引擎平台中的多种计算引擎适配，确定与每种计算引擎对应的调用链接，并将多个调用链接注册至预设应用程序协调服务中进行存储，在根据所述数据分析任务查询到与所述数据分析任务匹配的计算引擎之后，针对与所述数据分析任务匹配的计算引擎，基于所述应用程序协调服务查询与所述计算引擎对应的第一目标调用链接，基于所述第一目标调用链接与所述计算引擎建立连接，并将所述数据分析任务传输至所述计算引擎；

所述计算引擎平台，包括多种计算引擎，针对任意一种计算引擎，所述计算引擎用于接收所述引擎层发送的数据分析任务，并根据所述数据分析任务向所述平面服务端提供对应的多种计算函数，并基于所述平面服务端选定的目标计算函数对所述多种查询语句进行分析处理；

所述平面服务端，用于获取用户提交的多种查询语句，并将接收到的多种计算函数进行展示，在获取用户触发的针对所述目标计算函数的第一选择指令之后，将所述第一选择指令通过所述多租户平台传输至与所述目标计算函数对应的第一目标计算引擎。

2.根据权利要求1所述的大数据服务系统，其特征在于，所述服务系统还包括：

容器编排平台，用于为所述多租户平台和所述计算引擎平台提供多个容器，以及为所述多种查询语句提供管理和调度功能；

对象存储平台，与所述容器编排平台连接，所述对象存储平台包括多个存储桶，用于存储所述计算引擎平台分析处理后的数据。

3.根据权利要求2所述的大数据服务系统，其特征在于，所述多租户平台还用于：

确定所述多租户平台的容器化部署脚本文件，其中，所述容器化部署脚本文件包括所述多租户平台的容器资源配置文件、对外端口服务文件以及第一镜像文件；

在通过所述容器编排平台获取到运行指令的情况下，根据所述运行指令执行所述容器化部署脚本文件，以将所述多租户平台的服务层部署至多个容器中。

4.根据权利要求3所述的大数据服务系统，其特征在于，所述计算引擎平台还用于：

针对任意一个计算引擎，获取所述计算引擎的安装包，并基于所述安装包构建针对所述计算引擎的第二镜像文件；

将所述第二镜像文件和运行参数添加至所述多租户平台的容器资源配置文件中；

基于所述第二镜像文件重新构建所述第一镜像文件，以得到更新后的容器化部署脚本文件；

在通过所述容器编排平台获取到所述运行指令的情况下，根据所述运行指令执行更新后的容器化部署脚本文件，以将所述计算引擎部署至所述多个容器中。

5.根据权利要求4所述的大数据服务系统，其特征在于，所述容器编排平台还用于：

获取所述对象存储平台的探索内置依赖包和访问信息，所述探索内置依赖包包括所述对象存储平台的数据传输信息；

针对任意一个计算引擎，基于所述探索内置依赖包重新构建所述第二镜像文件，并将所述访问信息添加至所述多租户平台的容器资源配置文件中，以得到更新后的容器资源配置文件；

在通过所述容器编排平台获取到所述运行指令的情况下，根据所述运行指令执行更新后的容器化部署脚本文件，以使所述容器编排平台与所述对象存储平台建立连接。

6.根据权利要求5所述的大数据服务系统，其特征在于，所述对象存储平台还用于：

基于所述平面服务端的多个用户信息分别创建与每个用户信息对应的存储桶；

在通过所述计算引擎平台完成对所述多种查询语句的分析处理之后，基于所述数据传输信息中携带的预设传输协议与所述计算引擎平台建立连接；

查询与所述多种查询语句的用户信息匹配的存储桶，以将分析处理后的数据传输至匹配的存储桶中进行存储。

7.根据权利要求1所述的大数据服务系统，其特征在于，所述平面服务端还包括：

交互模块，包括用户交互界面，用于获取所述用户提交的多种查询语句，并将接收到的多种计算函数进行展示，所述用户交互界面上包括多个组件，所述多个组件至少包括多种计算引擎组件、多个计算函数组件、用户登录组件、混合编程组件以及数据分析组件；

后端服务模块，用于基于所述统一查询接口服务与所述用户层建立连接，以将所述用户通过用户交互界面提交的多种查询语句传输至所述服务层，根据所述用户通过用户交互界面选定的目标计算函数生成对应的第一选择指令，并将所述第一选择指令通过所述引擎层传输至与所述目标计算函数对应的第一目标计算引擎。

8.根据权利要求1所述的大数据服务系统，其特征在于，所述多种计算引擎至少包括第一计算引擎、第二计算引擎、第三计算引擎以及第四计算引擎，所述引擎层还用于：

分别构建与所述第一计算引擎、所述第二计算引擎、所述第三计算引擎以及所述第四计算引擎对应的第一标识、第二标识、第三标识以及第四标识；

在接收到所述平面服务端通过所述服务层传输的针对计算引擎的第二选择指令的情况下，确定与所述第二选择指令对应的目标标识；

根据所述目标标识确定所述用户通过平面服务端选定的第二目标计算引擎，并基于所述应用程序协调服务查询与所述第二计算引擎对应的第二目标调用链接，以基于所述第二目标调用链接与所述第二目标计算引擎建立连接。