CN111221858B

CN111221858B - 一种数据处理方法、装置及设备

Info

Publication number: CN111221858B
Application number: CN201811414613.4A
Authority: CN
Inventors: 王烨; 周祥
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2023-07-04
Anticipated expiration: 2038-11-26
Also published as: CN111221858A

Abstract

本申请提供一种数据处理方法、装置及设备，该方法包括：获取与用户对应的数据请求；根据所述数据请求获取第一类执行计划和第二类执行计划；利用所述用户对应的用户独占资源处理所述第一类执行计划；利用全局共享资源处理所述第二类执行计划。通过本申请的技术方案，可以利用用户的空闲资源处理第一类执行计划，大幅降低用户的成本，提高处理性能。

Description

一种数据处理方法、装置及设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及设备。

背景技术

数据湖分析(Data Lake Analytics)用于为用户提供无服务器化(Serverless)的查询分析服务，能够对海量的数据进行任意维度的分析和查询，支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。在数据湖分析系统中，为了支持查询分析服务，需要提供大量计算资源，使用这些计算资源实现任意维度的分析和查询。例如，在接收到SQL((Structured Query Language，结构化查询语言)语句后，需要从数据库中获取与该SQL语句对应的所有数据，这个任务的工作量非常大，需要使用大量计算资源。又例如，针对获取到的数据，可能对数据进行过滤、聚合等，这些任务也需要使用大量计算资源。

综上所述，在现有技术中，数据湖分析系统需要使用大量计算资源来处理每个用户的SQL语句，随着用户数量的增加，对计算资源的需求也随之增加。

发明内容

本申请提供一种数据处理方法，所述方法包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

利用所述用户对应的用户独占资源处理所述第一类执行计划；

利用全局共享资源处理所述第二类执行计划。

本申请提供一种数据处理方法，所述方法包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

将所述第一类执行计划发送给所述用户对应的用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划；

将所述第二类执行计划发送给计算节点，以使所述计算节点利用全局共享资源处理所述第二类执行计划。

本申请提供一种数据处理方法，所述方法包括：

获取与用户对应的数据请求；

根据所述数据请求获取执行计划；

利用所述用户对应的用户独占资源处理所述执行计划。

本申请提供一种数据处理装置，所述装置包括：

获取模块，用于获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

处理模块，用于利用所述用户对应的用户独占资源处理所述第一类执行计划，并利用全局共享资源处理所述第二类执行计划。

本申请提供一种数据处理装置，所述装置包括：

获取模块，用于获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

发送模块，用于将所述第一类执行计划发送给所述用户对应的用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划；将所述第二类执行计划发送给计算节点，以使所述计算节点利用全局共享资源处理所述第二类执行计划。

本申请提供一种数据处理设备，包括：

处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

利用全局共享资源处理所述第二类执行计划。

本申请提供一种数据处理设备，包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

基于上述技术方案，本申请实施例中，可以根据数据请求获取第一类执行计划和第二类执行计划，并利用用户独占资源处理第一类执行计划，利用全局共享资源处理第二类执行计划，这样，可以利用用户的空闲资源处理第一类执行计划，从而大幅降低用户的成本，提高数据请求的处理性能。而且，可以避免利用全局共享资源处理所有执行计划，节省数据湖分析系统的计算资源。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其它的附图。

图1是本申请一种实施方式中的数据处理方法的流程图；

图2是本申请另一种实施方式中的数据处理方法的流程图；

图3是本申请一种实施方式中的数据湖分析系统的结构示意图；

图4是本申请一种实施方式中的前端节点的操作示意图；

图5是本申请一种实施方式中的数据处理方法的流程图；

图6是本申请一种实施方式中的数据处理装置的结构图；

图7是本申请另一种实施方式中的数据处理装置的结构图；

图8是本申请一种实施方式中的数据处理设备的硬件结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种数据处理方法，该方法可以应用于数据湖分析系统中的前端节点，参见图1所示，为该方法的流程图，该方法可以包括：

步骤101，获取与用户对应的数据请求，如SQL语句等。

步骤102，根据该数据请求获取第一类执行计划和第二类执行计划。

具体的，可以根据该数据请求获取多个待执行计划，并根据用户独占资源的能力信息，从多个待执行计划中选择与该能力信息匹配的待执行计划，并将选择的待执行计划确定为第一类执行计划；将多个待执行计划中剩余的待执行计划(即第一类执行计划之外的其它待执行计划)确定为第二类执行计划。

在一个例子中，在根据用户独占资源的能力信息，从多个待执行计划中选择与该能力信息匹配的待执行计划之前，还可以获取与该用户独占资源对应的能力列表；其中，该能力列表可以包括该用户独占资源的能力信息。

在一个例子中，获取与该用户独占资源对应的能力列表，可以包括：方式一、与用户独占资源对应的云服务器建立连接；接收云服务器通过该连接发送的用户独占资源的能力信息；将该能力信息记录到该用户独占资源对应的能力列表中；或者，方式二、从登记服务器获取与该用户独占资源对应的能力列表。

在方式二中，登记服务器与用户独占资源对应的云服务器建立连接，接收云服务器通过该连接发送的用户独占资源的能力信息，将该能力信息记录到该用户独占资源对应的能力列表中；这样，前端节点可以从登记服务器获取与该用户独占资源对应的能力列表，且能力列表用于记录用户独占资源的能力信息。

在方式一和方式二中，还可以开通云服务器的受限网络权限，基于此，由于开通云服务器的受限网络权限，因此，云服务器可以建立连接。例如，在方式一中，云服务器可以与前端节点建立连接，对此连接建立过程不做限制；在方式二中，云服务器可以与登记服务器建立连接，对此连接建立过程不做限制。

步骤103，利用该用户对应的用户独占资源处理第一类执行计划。

具体的，可以将该第一类执行计划发送给该用户独占资源对应的云服务器，以使该云服务器利用该用户独占资源处理该第一类执行计划。

步骤104，利用全局共享资源处理第二类执行计划。

具体的，可以将该第二类执行计划发送给计算节点，以使该计算节点利用该全局共享资源处理该第二类执行计划。

在一个例子中，利用全局共享资源处理第二类执行计划，可以包括但不限于：获取该第一类执行计划的处理结果；基于处理结果，利用全局共享资源处理该第二类执行计划。可以将该第二类执行计划以及该处理结果发送给计算节点，以使该计算节点利用该全局共享资源和该处理结果处理该第二类执行计划。

在一个例子中，利用全局共享资源处理第二类执行计划之后，还可以获取数据请求对应的统计信息，并向用户展示该统计信息。

在一个例子中，上述第一类执行计划可以包括但不限于以下之一或任意组合：与扫描操作相关的待执行计划；与过滤操作相关的待执行计划；与聚合操作相关的待执行计划。当然，上述只是示例，对此第一类执行计划不做限制。

在一个例子中，上述执行顺序只是为了方便描述给出的一个示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

基于与上述方法同样的构思，本申请实施例中提出另一种数据处理方法，可以应用于前端节点，参见图2所示，为该方法的流程图，该方法可以包括：

步骤201，获取与用户对应的数据请求，如SQL语句等。

步骤202，根据该数据请求获取第一类执行计划和第二类执行计划。

步骤203，将该第一类执行计划发送给该用户对应的用户独占资源对应的云服务器，以使云服务器利用该用户独占资源处理该第一类执行计划。

步骤204，将该第二类执行计划发送给计算节点，以使该计算节点利用全局共享资源处理该第二类执行计划。

在一个例子中，还可以获取该第一类执行计划的处理结果，并将该第一类执行计划的处理结果发送给计算节点，以使计算节点利用全局共享资源以及该处理结果处理第二类执行计划，对此处理过程不做限制。

以下结合具体应用场景，对上述技术方案进行进一步的说明。

参见图3所示，为数据湖分析(Data Lake Analytics)系统的结构示意图，数据湖分析系统可以包括客户端、负载均衡设备、前端节点(front node，也可以称为前端服务器)、计算节点(compute node，也可以称为计算服务器)、云服务器、登记服务器和数据库，当然，在图3中，还可以包括其它服务器，例如，还可以包括资源调度服务器等，对此数据湖分析系统的结构不做限制。

在图3中，以3个前端节点(如前端节点320、前端节点321和前端节点322)为例，实际应用中，前端节点的数量还可以为其它数量，对此不做限制。在图3中，以2个计算节点(如计算节点310和计算节点311)为例，实际应用中，计算节点的数量还可以为其它数量，对此不做限制。由于每个前端节点的处理流程相同，每个计算节点的处理流程相同，因此，为了方便描述，后续实施例中，以1个前端节点的处理流程为例，以1个计算节点的处理流程为例。

在图3中，以5个数据库(如数据库300-数据库304)为例，在实际应用中，数据库的数量还可以为其它数量，对此不做限制。本实施例中，这些数据库可以是相同类型的数据库，也可以是不同类型的数据库。此外，这些数据库可以是关系型数据库，也可以是非关系型数据库，对此不做限制。对于每个数据库来说，数据库的类型可以包括但不限于：OSS(Object Storage Service，对象存储服务)、TableStore(表格存储)、HBase(HadoopDatabase，Hadoop数据库)、HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)、MySQL等，当然，上述只是数据库类型的几个示例，对此数据库类型不做限制。

其中，数据库用于存储各种类型的数据，对此数据类型不做限制，如可以是用户数据、商品数据、地图数据、视频数据、图像数据、音频数据等。

在一个例子中，客户端(如客户端340和客户端341)可以是终端设备(如PC(Personal Computer，个人计算机)、笔记本电脑、移动终端等)包括的APP(Application，应用)，也可以是终端设备包括的浏览器，对此不做限制。

在一个例子中，负载均衡设备330用于对客户端的数据请求进行负载均衡，如接收到数据请求后，将数据请求负载均衡到各前端节点，对此不做限制。

在一个例子中，多个前端节点用于提供相同功能，形成前端节点的资源池。针对资源池中的每个前端节点，用于接收客户端发送的数据请求，并对数据请求进行SQL(Structured Query Language，结构化查询语言)解析，根据解析结果生成多个待执行计划，并处理这些待执行计划。例如，前端节点可以将这些待执行计划发送给一个或者多个计算节点，由计算节点处理待执行计划。

在一个例子中，多个计算节点用于提供相同的功能，形成计算节点的资源池。针对该资源池中的每个计算节点，若该计算节点接收到前端节点发送的待执行计划，则可以处理该待执行计划，并将处理结果返回给前端节点。

在传统方式中，前端节点生成多个待执行计划后，是将所有待执行计划发送给一个或者多个计算节点，计算节点可以利用自身的计算资源执行这些待执行计划。例如，从数据库中扫描数据，对数据进行过滤，对过滤后的数据进行聚合等，这些操作都是在计算节点完成，需要使用大量计算资源。因此，数据湖分析系统需要使用大量计算资源来处理每个用户的数据请求，随着用户数量的增加，对计算资源的需求也随之增加，即需要部署大量的计算节点。

针对上述发现，本实施例中，前端节点生成多个待执行计划后，不是将所有待执行计划发送给计算节点，而是将部分待执行计划发送给计算节点，由计算节点利用自身的计算资源执行该部分待执行计划，将其它待执行计划发送给用户的云服务器，由云服务器利用自身的计算资源执行该其它待执行计划，这样，云服务器可以分担部分待执行计划，从而节省计算节点的计算资源。

本实施例中，计算节点的计算资源是所有用户均可以使用的，即数据湖分析系统在提供云数据库服务时，就是使用这些计算节点的计算资源提供云数据库服务，因此，计算节点的计算资源还可以称为全局共享资源，表示所有用户均可以使用全局共享资源，即全局共享资源是所有用户共享。

本实施例中，云服务器的计算资源可以是单个用户独自使用的，因此，云服务器的计算资源还可以称为该用户对应的用户独占资源，表示只有该用户能够使用用户独占资源，即用户独占资源是单个用户独占，而不是所有用户共享。

例如，用户350可以在数据湖分析系统购买云数据库服务，这样，可以在数据湖分析系统为用户350创建云服务器312，并创建数据库303，这样，云服务器312用于为用户350提供服务，且数据库303可以存储用户350的数据，云服务器312能够访问数据库303中的数据，但是不访问其它数据库的数据。同理，用户351可以在数据湖分析系统购买云数据库服务，这样，可以在数据湖分析系统为用户351创建云服务器313，并创建数据库304，这样，云服务器313用于为用户351提供服务，且数据库304可以存储用户351的数据，云服务器313能够访问数据库304中的数据，但是不访问其它数据库的数据。

在实际应用中，云服务器312和云服务器313的大部分用户独占资源是空闲的，因此，可以将待执行计划发送给云服务器312和云服务器313，以使云服务器312和云服务器313利用空闲的用户独占资源处理待执行计划。

针对上述应用场景，本实施例中，针对用户350的数据请求，前端节点根据该数据请求生成多个待执行计划后，可以将部分待执行计划发送给计算节点，由计算节点利用自身的全局共享资源执行接收到的待执行计划；此外，前端节点可以将其它待执行计划发送给云服务器312(这里不是发送给云服务器313)，由云服务器312利用自身的用户独占资源执行接收到的待执行计划。

同理，针对用户351的数据请求，前端节点根据该数据请求生成多个待执行计划后，可以将部分待执行计划发送给计算节点，计算节点利用自身的全局共享资源执行接收到的待执行计划；前端节点可以将其它待执行计划发送给云服务器313，云服务器313利用自身的用户独占资源执行接收到的待执行计划。

在上述实施例中，参见图3所示，数据湖分析系统还可以包括登记服务器360，登记服务器360用于与各云服务器交互，获取各云服务器的能力信息，收集各云服务器的状态(如在线状态或者离线状态)等。其中，登记服务器360可以是一个独立设备，也可以作为一个功能模块(如Registry模块)部署在前端节点，图3中以独立设备为例，在前端节点部署Registry模块的实现流程类似。

在上述实施例中，各云服务器可以是ECS(Elastic Compute Service，弹性计算服务)实现的服务器，也可以是其它形式的服务器，对此不做限制。

在一个例子中，参见图4所示，前端节点可以执行如下的操作：Performance CostAnalyzer(性能和开销的分析)；SQL Optimizer(结构化查询语言优化)；PhysicalResource Plan(物理资源计划)；Execution Scheduler(执行调度)；Stage Execution(阶段执行)；Result Merger(结果合并)。在上述操作中，Stage Execution操作用于下发待执行计划，本实施例中，针对生成的多个待执行计划，可以将部分待执行计划下发给计算节点，而剩余的待执行计划下发给云服务器。

在上述应用场景下，如图5所示，为数据处理方法的流程图，该方法包括：

步骤501，在云服务器(后续以云服务器312为例)配置代码，以使云服务器312能够处理待执行计划，例如，用户350在云服务器312配置代码，对此代码的内容不做限制，只要云服务器312能够利用该代码处理待执行计划即可。

例如，针对SQL语句的处理过程，可以涉及扫描操作(Table Scan Operator)、过滤操作(Filter Operator)、聚合操作(Agg Operator)、关联操作(Join Operator)、输出操作(Output Operator)等。在上述操作中，关键的性能和成本取决于扫描操作(涉及从数据库中读取大量数据、大量的序列化、加解密等)和过滤操作(涉及对大量数据的过滤)，因此，可以将扫描操作的代码和过滤操作的代码部署到云服务器312，以使云服务器312支持扫描操作和过滤操作。当然，还可以在云服务器312部署其它操作的代码，如部署聚合操作的代码，以使云服务器312支持聚合操作。当然，上述只是本申请的一个示例，对此不做限制。

综上所述，可以在云服务器312部署与扫描操作相关的代码，以使云服务器312能够处理与扫描操作相关的待执行计划；可以在云服务器312部署与过滤操作相关的代码，以使云服务器312能够处理与过滤操作相关的待执行计划；可以在云服务器312部署与聚合操作相关的代码，以使云服务器312能够处理与聚合操作相关的待执行计划。当然，上述只是一个示例，对此不做限制。

步骤502，用户350通过客户端340向登记服务器360注册云服务器312的地址信息，如云服务器312的IP地址和端口等，对此地址信息不做限制。

步骤503，登记服务器360在能力列表中记录云服务器312的地址信息。

具体的，登记服务器360可以生成能力列表，该能力列表用于记录云服务器的地址信息和能力信息。在用户350向登记服务器360注册云服务器312的地址信息时，可以在能力列表中记录云服务器312的地址信息，参见表1所示。

表1

地址信息	能力信息
		云服务器312的IP地址和端口

步骤504，登记服务器360利用云服务器312的地址信息与云服务器312建立连接，如登记服务器360与云服务器312建立长连接，对此过程不做限制。

在一个例子中，为了使云服务器312能够与登记服务器360建立连接，还可以开通云服务器312的受限网络权限；其中，在未开通云服务器312的受限网络权限时，不允许云服务器312访问外部设备，在开通云服务器312的受限网络权限后，则允许云服务器312访问登记服务器360。由于开通云服务器312的受限网络权限，因此，云服务器312可以与登记服务器360建立连接。

步骤505，云服务器312通过该连接向登记服务器360发送用户独占资源的能力信息，而登记服务器360可以将该能力信息记录到能力列表中。

其中，云服务器312的用户独占资源的能力信息，可以包括但不限于：云服务器312支持的操作类型。例如，若云服务器312支持扫描操作、过滤操作和聚合操作，则上述能力信息可以包括扫描操作、过滤操作和聚合操作等。

登记服务器360在接收到扫描操作、过滤操作和聚合操作等能力信息后，可以将上述能力信息记录到能力列表中，参见表2所示，为能力列表的示例。

表2

地址信息	能力信息
		云服务器312的IP地址和端口	扫描操作、过滤操作和聚合操作

基于上述流程，针对每个云服务器，登记服务器360可以在能力列表中记录该云服务器的用户独占资源的能力信息。此外，若登记服务器360是一个部署在前端节点的功能模块，则登记服务器360的功能可以由前端节点实现。

在上述流程的基础上，则数据处理方法还可以包括以下步骤：

步骤506，前端节点(后续以前端节点320为例)获取与用户对应的数据请求，如SQL语句等。例如，用户350可以通过客户端340发送数据请求，负载均衡设备在接收到该数据请求后，将该数据请求发送给前端节点320。

步骤507，前端节点320根据该数据请求获取多个待执行计划。

前端节点320在接收到数据请求后，可以根据该数据请求获取多个待执行计划，对此不做限制，与数据请求的内容有关。例如，前端节点320可以生成与扫描操作有关的待执行计划1、待执行计划2和待执行计划3，与过滤操作有关的待执行计划4和待执行计划5，与聚合操作有关的待执行计划6和待执行计划7，与关联操作有关的待执行计划8，与输出操作有关的待执行计划9。

步骤508，前端节点320从登记服务器360获取用户独占资源对应的能力列表，该能力列表用于记录用户独占资源的能力信息。例如，由于数据请求是用户350发送的，因此，前端节点320可以从登记服务器360获取用户350对应的用户独占资源对应的能力列表，参见表2所示，基于该能力列表，前端节点320确定用户独占资源对应的能力信息是：扫描操作、过滤操作和聚合操作。

步骤509，前端节点320根据用户独占资源的能力信息，从多个待执行计划中选择与该能力信息匹配的待执行计划，并将选择的待执行计划确定为第一类执行计划，并将多个待执行计划中剩余的待执行计划确定为第二类执行计划。

其中，可以将与该能力信息匹配的所有待执行计划确定为第一类执行计划，或者，可以将与该能力信息匹配的部分待执行计划确定为第一类执行计划。

例如，假设用户独占资源对应的能力信息是：扫描操作、过滤操作和聚合操作，前端节点320生成与扫描操作有关的待执行计划1、待执行计划2和待执行计划3，与过滤操作有关的待执行计划4和待执行计划5，与聚合操作有关的待执行计划6和待执行计划7，与关联操作有关的待执行计划8，与输出操作有关的待执行计划9。基于此，前端节点320可以将待执行计划1、待执行计划2、待执行计划3、待执行计划4、待执行计划5、待执行计划6和待执行计划7，确定为第一类执行计划，并将待执行计划8和待执行计划9确定为第二类执行计划；或者，前端节点320可以将待执行计划1、待执行计划2、待执行计划4、待执行计划6和待执行计划7，确定为第一类执行计划，并将待执行计划3、待执行计划5、待执行计划8和待执行计划9确定为第二类执行计划。当然，上述方式只是示例，对此第一类执行计划和第二类执行计划的确定不做限制。

步骤510，前端节点320利用云服务器312的用户独占资源处理该第一类执行计划。具体的，前端节点320可以将该第一类执行计划发送给云服务器312，以使云服务器312利用该用户独占资源处理该第一类执行计划。

例如，前端节点320将待执行计划1、待执行计划2、待执行计划3、待执行计划4、待执行计划5、待执行计划6和待执行计划7发送给云服务器312。

由于云服务器312能够处理与扫描操作相关的待执行计划、与过滤操作相关的待执行计划、与聚合操作相关的待执行计划，因此，云服务器312可以处理上述待执行计划1、待执行计划2、待执行计划3、待执行计划4、待执行计划5、待执行计划6和待执行计划7，并将处理结果返回给前端节点320。

云服务器312在处理待执行计划1、待执行计划2和待执行计划3时，可以从数据库303中扫描数据，对此不做限制。云服务器312在处理待执行计划4和待执行计划5时，可以对扫描后的数据进行过滤，对此不做限制。云服务器312在处理待执行计划6和待执行计划7时，可以对过滤后的数据进行聚合，对此不做限制。聚合后的数据，也就是需要返回给前端节点320的处理结果。

步骤511，前端节点320利用全局共享资源处理第二类执行计划。具体的，前端节点320可以将该第二类执行计划发送给计算节点(如计算记得310)，以使计算节点310利用全局共享资源处理该第二类执行计划。

例如，前端节点320将待执行计划8和待执行计划9发送给计算节点310，以使计算节点310处理待执行计划8和待执行计划9，对此过程不做限制。

在一个例子中，前端节点320还可以将第一类执行计划的处理结果发送给计算节点310。基于计算节点310本地的全局共享资源，计算节点310可以利用第一类执行计划的处理结果处理待执行计划8和待执行计划9，对此不做限制。

例如，待执行计划8用于将聚合后的数据进行关联，则前端节点320可以获取待执行计划6的处理结果(如数据A)和待执行计划7的处理结果(如数据B)，前端节点320在处理待执行计划8时，是将数据A和数据B进行关联。

在一个例子中，云服务器312可以将第一类执行计划的处理结果发送给前端节点320，由前端节点320将第一类执行计划的处理结果发送给计算节点310。云服务器312也可以直接将第一类执行计划的处理结果发送给计算节点310。

步骤512，前端节点320获取统计信息，并向用户展示该统计信息。

其中，统计信息可以包括但不限于以下之一或者任意组合：执行细节，收费细则，节约成本等，对此不做限制。例如，执行细节可以是执行耗时(如消耗在数据表A的时间、消耗在数据表B的时间等)、消耗性能等。收费细则可以是：云服务器312完成50G扫描工作，收取20元的费用，计算节点310完成50G扫描工作，收取200元的费用，云服务器312完成过滤工作，收取5元的费用，计算节点310完成过滤工作，收取50元的费用，以此类推。节约成本可以是云服务器312的操作所节省的成本，如扫描工作节省180元等，以此类推。

其中，通过向用户展示统计信息，可以将非常详尽的报告呈现给用户。

针对多个待执行计划，可以根据用户的成本和性能需求，将部分待执行计划分配给云服务器312，将剩余待执行计划分配给计算节点310，从而为用户节省成本。当然，也可以将耗时、耗成本的待执行计划分配给云服务器312，从而大幅降低用户的成本。采用上述方式的原因是：云服务器312通常存在大量空闲计算能力，且存在并行计算能力，比如，云服务器312是具有GPU(Graphics Processing Unit，图像处理器)、FPGA(Field ProgrammableGate Array，现场可编程门阵列)、TPU(Tensor Processing Unit，高性能处理器)等的硬件设备。

基于上述方式，可以保证用户数据的安全性。具体的，在计算节点310或者云服务器312访问数据库时，都是以云上严格的安全认证和鉴权方式从数据库中获取数据，用户的数据安全是完全可以保障的，并且，云服务器312有权限访问用户的数据库。由于不同用户间的云服务器完全隔离，因此，能够确保不会发生跨用户的数据访问，即云服务器312无法访问数据库304的数据，保障用户数据安全性。用户在注册云服务器312的信息时，为其提供秘钥和加密通道，因此，云服务器312与登记服务器360建立长连接时，是独立使用各自的加密通道传输数据，不存在被其他用户截取数据，导致致数据泄露的问题。

基于上述方式，可以保证计费准确性。具体的，对于用户的消耗成本的操作，可以通过与第三方云服务接口合作的方式，基于唯一的、用户无法伪造的子任务号，间接获取当前的成本信息，从而可以确保计费的准确性。

基于上述方式，可以保证服务稳定性。具体的，用户注册云服务器312的信息时，可以指定云服务器312的最大物理资源利用率、最大可用资源范围等指标，从而保护云服务器312上核心服务的稳定性。每个SQL在执行前可以绑定用户的计算资源，从而实现不同SQL之间的资源排他性，确保用户资源性能在安全范围。考虑到云服务器312的稳定性，在待执行计划的处理过程中，通过超时机制发现任务无法执行时，通过降级机制将云服务器312短暂删除，并将待执行计划重新分配到计算节点中执行，及时恢复云服务器312的性能。

基于上述方式，可以自动化、从用户视角，提供可预判、可预执行的方式，为用户提供可靠的混合资源型SQL执行方案，供用户参考和选择，帮助用户在云上数据湖场景下，在成本、性能方面有更多的选择和业务优化。

在上述实施例中，是将执行计划划分为第一类执行计划和第二类执行计划，由利用用户对应的用户独占资源处理第一类执行计划，并利用全局共享资源处理第二类执行计划。进一步的，本申请实施例中，还可以利用用户对应的用户独占资源处理所有执行计划，即不需要将执行计划划分为第一类执行计划和第二类执行计划，而是利用用户对应的用户独占资源处理所有执行计划。

具体的，可以获取与用户对应的数据请求，并根据该数据请求获取执行计划，然后，利用用户对应的用户独占资源处理所述执行计划。例如，可以将所述执行计划(即数据请求对应的所有执行计划)发送给用户独占资源对应的云服务器，以使所述云服务器利用用户独占资源处理所述执行计划。

与上述实施例不同的是，本实施例中，是利用用户独占资源处理所有执行计划，而不是处理第一类执行计划，其它过程与上述实施例类似，不再赘述。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理装置，如图6所示，为所述数据处理装置的结构图，所述数据处理装置包括：

获取模块601，用于获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

处理模块602，用于利用所述用户对应的用户独占资源处理所述第一类执行计划，并利用全局共享资源处理所述第二类执行计划。

所述获取模块601根据所述数据请求获取第一类执行计划和第二类执行计划时具体用于：根据所述数据请求获取多个待执行计划；

根据所述用户独占资源的能力信息，从所述多个待执行计划中选择与所述能力信息匹配的待执行计划，并将选择的待执行计划确定为第一类执行计划；

将所述多个待执行计划中剩余的待执行计划确定为第二类执行计划。

所述处理模块602利用所述用户对应的用户独占资源处理所述第一类执行计划时具体用于：将所述第一类执行计划发送给所述用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划；

所述处理模块602利用全局共享资源处理所述第二类执行计划时具体用于：将所述第二类执行计划发送给计算节点，以使所述计算节点利用所述全局共享资源处理所述第二类执行计划。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理设备，包括：处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

利用全局共享资源处理所述第二类执行计划。

本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令；所述计算机指令被执行时进行如下处理：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

利用全局共享资源处理所述第二类执行计划。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理装置，如图7所示，为该数据处理装置的结构图，该数据处理装置包括：

获取模块701，用于获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

发送模块702，用于将所述第一类执行计划发送给所述用户对应的用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划；将所述第二类执行计划发送给计算节点，以使所述计算节点利用全局共享资源处理所述第二类执行计划。

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

参见图8所示，为本申请实施例中提出的数据处理设备的结构图，所述数据处理设备80可以包括：处理器81，网络接口82，总线83，存储器84。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

利用全局共享资源处理所述第二类执行计划；

所述根据所述数据请求获取第一类执行计划和第二类执行计划，包括：

根据所述数据请求获取多个待执行计划；

2.根据权利要求1所述的方法，其特征在于，

所述根据所述用户独占资源的能力信息，从所述多个待执行计划中选择与所述能力信息匹配的待执行计划之前，所述方法还包括：

获取与所述用户独占资源对应的能力列表；

其中，所述能力列表包括所述用户独占资源的能力信息。

3.根据权利要求2所述的方法，其特征在于，

所述获取与所述用户独占资源对应的能力列表，包括：

与所述用户独占资源对应的云服务器建立连接；

接收所述云服务器通过所述连接发送的所述用户独占资源的能力信息；

将所述能力信息记录到所述用户独占资源对应的能力列表中；或者，

从登记服务器获取与所述用户独占资源对应的能力列表。

4.根据权利要求1所述的方法，其特征在于，

所述利用所述用户对应的用户独占资源处理所述第一类执行计划，包括：

将所述第一类执行计划发送给所述用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划。

5.根据权利要求1所述的方法，其特征在于，

所述利用全局共享资源处理所述第二类执行计划，包括：

将所述第二类执行计划发送给计算节点，以使所述计算节点利用所述全局共享资源处理所述第二类执行计划。

6.根据权利要求1所述的方法，其特征在于，

所述利用全局共享资源处理所述第二类执行计划，包括：

获取所述第一类执行计划的处理结果；

基于所述处理结果，利用全局共享资源处理所述第二类执行计划。

7.根据权利要求6所述的方法，其特征在于，所述基于所述处理结果，利用全局共享资源处理所述第二类执行计划，包括：

将所述第二类执行计划以及处理结果发送给计算节点，以使计算节点利用所述全局共享资源和所述处理结果处理第二类执行计划。

8.根据权利要求1所述的方法，其特征在于，

所述第一类执行计划包括以下之一或任意组合：与扫描操作相关的待执行计划；与过滤操作相关的待执行计划；与聚合操作相关的待执行计划。

9.一种数据处理方法，其特征在于，所述方法包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

将所述第二类执行计划发送给计算节点，以使所述计算节点利用全局共享资源处理所述第二类执行计划；

根据所述数据请求获取多个待执行计划；

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

获取所述第一类执行计划的处理结果；

将所述处理结果发送给所述计算节点，以使所述计算节点利用全局共享资源以及所述处理结果处理所述第二类执行计划。

11.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

处理模块，用于利用所述用户对应的用户独占资源处理所述第一类执行计划，并利用全局共享资源处理所述第二类执行计划；

其中，所述获取模块根据所述数据请求获取第一类执行计划和第二类执行计划时具体用于：

根据所述数据请求获取多个待执行计划；

12.根据权利要求11所述的装置，其特征在于，

所述处理模块利用所述用户对应的用户独占资源处理所述第一类执行计划时具体用于：将所述第一类执行计划发送给所述用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划；

所述处理模块利用全局共享资源处理所述第二类执行计划时具体用于：将所述第二类执行计划发送给计算节点，以使所述计算节点利用所述全局共享资源处理所述第二类执行计划。

13.一种数据处理装置，其特征在于，所述装置包括：

获取模块，用于获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

发送模块，用于将所述第一类执行计划发送给所述用户对应的用户独占资源对应的云服务器，以使所述云服务器利用所述用户独占资源处理所述第一类执行计划；将所述第二类执行计划发送给计算节点，以使所述计算节点利用全局共享资源处理所述第二类执行计划；

根据所述数据请求获取多个待执行计划；

14.一种数据处理设备，其特征在于，包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

利用全局共享资源处理所述第二类执行计划；

根据所述数据请求获取多个待执行计划；

15.一种数据处理设备，其特征在于，包括：

获取与用户对应的数据请求；

根据所述数据请求获取第一类执行计划和第二类执行计划；

根据所述数据请求获取多个待执行计划；