CN111723161A

CN111723161A - 一种数据处理方法、装置及设备

Info

Publication number: CN111723161A
Application number: CN201910213125.5A
Authority: CN
Inventors: 王烨; 周祥
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2020-09-29

Abstract

本申请提供一种数据处理方法、装置及设备，该方法包括：获取数据处理请求，所述数据处理请求包括数据源的位置信息；根据所述位置信息从数据源的数据集中获取属性信息；所述数据源包括多个数据集，所述数据集包括所述数据集的属性信息；根据所述属性信息创建数据表，所述数据表对应至少一个数据集，将所述至少一个数据集对应的元信息与所述数据表进行关联；利用所述数据表和所述数据表关联的元信息进行数据处理。通过本申请的技术方案，可以自动关联元信息与数据表，从而减少用户的工作量，提高用户体验。

Description

一种数据处理方法、装置及设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、装置及设备。

背景技术

数据湖分析(Data Lake Analytics)用于为用户提供无服务器化(Serverless)的查询分析服务，能够对海量的数据进行任意维度的分析和查询，并可以支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。

在传统的关系型数据库中，如果用户需要使用数据库进行查询和分析，则进行如下操作：创建数据库；创建Table(数据表)，Table是指关联和维护所有同构记录的集合；将数据导入到Table；基于Table中的数据进行查询和分析。在数据湖分析系统中，其提供的是云关系型数据库，与传统的关系型数据库不同的是，如果用户需要使用数据库进行查询和分析，则进行如下操作：创建Table，将Table映射到当前所属数据源的部分数据集；基于Table进行查询和分析。

综上可以看出，在传统的关系型数据库中，是先创建Table，然后，将数据导入到Table；在云关系型数据库中，是在已有数据的基础上，创建Table，但是，不需要将数据导入到Table，只需要将Table与数据进行映射即可。

显然，在云关系型数据库中，核心工作之一就是如何实现映射。在传统方式中，为了实现映射，则可以采用如下方式：由用户指定Table与数据的映射关系，也就是说，由用户给出数据的元信息，并将该元信息与Table绑定。但是，由用户给出元信息时，用户的工作量很大，而且容易出错，用户体验较差。

发明内容

本申请提供一种数据处理方法，所述方法包括：

获取数据处理请求，所述数据处理请求包括数据源的位置信息；

根据所述位置信息从所述数据源的数据集中获取属性信息；其中，所述数据源包括多个数据集，且所述数据集包括所述数据集的属性信息；

根据所述属性信息创建数据表，所述数据表对应至少一个数据集，并将所述至少一个数据集对应的元信息与所述数据表进行关联；

利用所述数据表和所述数据表关联的元信息进行数据处理。

本申请提供一种数据处理方法，应用于数据湖分析平台，所述数据湖分析平台用于为用户提供无服务器化的数据处理服务，所述方法包括：

利用所述数据表和所述数据表关联的元信息进行数据处理；

其中，所述数据源包括所述数据湖分析平台提供的云数据库。

本申请提供一种数据处理方法，所述方法包括：

根据所述位置信息从所述数据源的数据集中获取属性信息；

根据所述属性信息创建数据表，所述数据表对应所述数据源的至少一个数据集，并将所述至少一个数据集对应的元信息与所述数据表进行关联；

其中，所述数据表与所述元信息的关联关系用于进行数据处理。

本申请提供一种数据处理方法，所述方法包括：

根据所述多个数据集分别对应的属性信息，对所述多个数据集进行聚类，得到聚类集合，其中，所述聚类集合包括至少一个数据集；

为所述聚类集合创建数据表，所述数据表对应所述至少一个数据集；

将所述至少一个数据集对应的元信息与所述数据表进行关联；

利用所述数据表和所述数据表关联的元信息进行数据处理。

本申请提供一种数据处理方法，所述方法包括：

获取数据查询请求，所述数据查询请求包括数据表信息；

获取与所述数据表信息对应的数据表、与所述数据表关联的元信息；其中，所述数据表是根据数据源中数据集的属性信息创建的，与所述数据表关联的元信息包括所述数据源的至少一个数据集对应的元信息；

利用所述数据表和所述数据表关联的元信息对所述查询请求进行处理。

本申请提供一种数据处理装置，所述装置包括：

获取模块，用于获取数据处理请求，所述数据处理请求包括数据源的位置信息；根据所述位置信息从所述数据源的数据集中获取属性信息；其中，所述数据源包括多个数据集，且所述数据集包括所述数据集的属性信息；

关联模块，用于根据所述属性信息创建数据表，所述数据表对应至少一个数据集，并将所述至少一个数据集对应的元信息与所述数据表进行关联；

处理模块，用于利用所述数据表和所述数据表关联的元信息进行数据处理。

本申请提供一种数据处理设备，包括：

处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

利用所述数据表和所述数据表关联的元信息进行数据处理。

基于上述技术方案，本申请实施例中，可以从数据源的数据集中获取属性信息，并根据所述属性信息创建数据表，并将数据集对应的元信息与数据表进行关联，也就是说，可以自动关联元信息与数据表，而不需要用户给出元信息，并将元信息与数据表关联，从而减少用户的工作量，提高用户体验，可以大幅提高元信息的构建效率，提升数据湖分析系统整体的使用效率和体验。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其它的附图。

图1是本申请一种实施方式中的数据处理方法的流程示意图；

图2是本申请一种实施方式中的数据湖分析系统的结构示意图；

图3是本申请一种实施方式中的数据源信息的获取示意图；

图4是本申请一种实施方式中的数据处理方法的流程示意图；

图5是本申请一种实施方式中的数据处理装置的结构示意图；

图6是本申请一种实施方式中的数据处理设备的结构示意图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种数据处理方法，可以应用于任意设备，如数据湖分析系统的任意设备，参见图1所示，为该方法的流程图，该方法可以包括：

步骤101，获取数据处理请求，该数据处理请求包括数据源的位置信息。

步骤102，根据该位置信息从该数据源的数据集中获取属性信息；其中，该数据源包括多个数据集，且每个数据集均包括该数据集的属性信息。

其中，本实施例中的数据集可以是数据源的子文件，也可以是其它类型的数据集，对此不做限制，只要数据集中包括数据源的多个数据即可。

在一个例子中，根据该位置信息从该数据源的数据集中获取属性信息，可以包括：判断是否为该数据处理请求使能数据表发现功能；如果是，则根据该位置信息从该数据源的数据集中获取属性信息。如果否，则不需要根据该位置信息从该数据源的数据集中获取属性信息，而是采用传统流程处理。

其中，判断是否为该数据处理请求使能数据表发现功能，可以包括：若该数据处理请求还包括自动发现指示信息，则可以根据该自动发现指示信息判断是否为该数据处理请求使能数据表发现功能。例如，自动发现指示信息用于指示是否使能数据表发现功能，若该自动发现指示信息用于指示使能数据表发现功能，则可以根据该自动发现指示信息确定为该数据处理请求使能数据表发现功能。若该自动发现指示信息用于指示不使能数据表发现功能，则可以根据该自动发现指示信息确定不需要为该数据处理请求使能数据表发现功能。

步骤103，根据该属性信息创建数据表，该数据表对应至少一个数据集，并将所述至少一个数据集对应的元信息与该数据表进行关联。

在一个例子中，根据该属性信息创建数据表，该数据表对应至少一个数据集，可以包括：根据多个数据集分别对应的属性信息，对多个数据集进行聚类，得到聚类集合，其中，每个聚类集合可以包括至少一个数据集。针对每个聚类集合，为该聚类集合创建数据表，该数据表对应所述至少一个数据集。

进一步的，根据多个数据集分别对应的属性信息，对多个数据集进行聚类，得到聚类集合，可以包括但不限于：获取聚类指示信息，所述聚类指示信息可以用于指示聚类子属性；然后，基于多个数据集分别对应的属性信息，可以根据所述聚类指示信息确定多个数据集分别对应的聚类子属性，并根据多个数据集分别对应的聚类子属性，对多个数据集进行聚类，得到聚类集合。

其中，根据多个数据集分别对应的聚类子属性，对多个数据集进行聚类，得到聚类集合，可以包括但不限于：基于多个数据集分别对应的聚类子属性，可以将聚类子属性相同的数据集聚类到同一聚类集合，并将聚类子属性不同的数据集聚类到不同的聚类集合，也就是说，聚类子属性相同的数据集可以对应同一个聚类集合，聚类子属性不同的数据集可以对应不同的聚类集合。

其中，获取聚类指示信息，可以包括但不限于：若该数据处理请求还包括聚类指示信息，则可以从该数据处理请求中获取该聚类指示信息；或者，获取预先配置的聚类指示信息，如从本设备获取预先配置的聚类指示信息。

在一个例子中，根据多个数据集分别对应的属性信息，对多个数据集进行聚类，得到聚类集合，可以包括：若该数据处理请求还包括过滤指示信息，则可以根据该过滤指示信息对多个数据集进行过滤，得到目标数据集；然后，基于目标数据集对应的属性信息，对目标数据集进行聚类，得到聚类集合。

在一个例子中，根据该属性信息创建数据表之后，还可以包括：若数据处理请求还包括命名指示信息，则根据该命名指示信息对该数据表进行命名。

在一个例子中，将所述至少一个数据集对应的元信息与该数据表进行关联，可以包括但不限于：根据所述至少一个数据集对应的属性信息，确定所述至少一个数据集对应的元信息，并将该元信息与该数据表进行关联。

步骤104，利用该数据表和该数据表关联的元信息进行数据处理。

在一个例子中，上述执行顺序只是为了方便描述给出的一个示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

基于与上述方法同样的申请构思，本申请实施例还提出另一种数据处理方法，可以应用于数据湖分析平台(即数据湖分析系统中的云计算平台)，所述数据湖分析平台用于为用户提供无服务器化的数据处理服务，该方法包括：

获取数据处理请求，该数据处理请求可以包括数据源的位置信息，该数据源可以包括数据湖分析平台提供的云数据库。然后，根据该位置信息从该数据源的数据集中获取属性信息；其中，该数据源可以包括多个数据集，且每个数据集可以包括该数据集的属性信息。根据该属性信息创建数据表，该数据表可以对应至少一个数据集，并将所述至少一个数据集对应的元信息与该数据表进行关联。然后，利用该数据表和该数据表关联的元信息进行数据处理。

其中，上述数据源可以包括数据湖分析平台提供的云数据库，且云数据库可以用于提供无服务器化的查询分析服务。数据湖分析平台可以是以数据存储为主的存储型云平台，或者，以数据处理为主的计算型云平台，或者，计算和数据存储处理兼顾的综合云计算平台，对此数据湖分析平台不做限制。

针对数据湖分析平台提供的云数据库，可以用于为用户提供无服务器化(Serverless)的查询分析服务，能够对海量的数据进行任意维度的分析和查询，支持高并发、低延时(毫秒级响应)、实时在线分析、海量数据查询等功能。

基于与上述方法同样的申请构思，本申请实施例中还提出一种数据处理方法，该方法可以包括：获取数据处理请求，该数据处理请求可以包括数据源的位置信息；根据该位置信息从该数据源的数据集中获取属性信息；然后，根据该属性信息创建数据表，该数据表可以对应该数据源的至少一个数据集，并将所述至少一个数据集对应的元信息与该数据表进行关联；其中，该数据表与该元信息的关联关系可以用于进行数据处理，对此数据处理过程不做限制。

基于与上述方法同样的申请构思，本申请实施例中还提出一种数据处理方法，该方法可以包括：获取数据处理请求，该数据处理请求可以包括数据源的位置信息。根据该位置信息从该数据源的数据集中获取属性信息；其中，该数据源可以包括多个数据集，且每个数据集可以包括该数据集的属性信息。然后，根据多个数据集分别对应的属性信息，对多个数据集进行聚类，得到聚类集合，其中，该聚类集合可以包括至少一个数据集。为该聚类集合创建数据表，该数据表可以对应所述至少一个数据集；将所述至少一个数据集对应的元信息与该数据表进行关联。利用该数据表和该数据表关联的元信息进行数据处理。

基于与上述方法同样的申请构思，本申请实施例中还提出一种数据处理方法，该方法可以包括：获取数据查询请求，该数据查询请求包括数据表信息。

获取与该数据表信息对应的数据表、与该数据表关联的元信息；其中，该数据表是根据数据源中数据集的属性信息创建的，与该数据表关联的元信息可以包括数据源的至少一个数据集对应的元信息；具体的，数据表的创建过程、数据表与元信息的关联过程，可以参见上述实施例，在此不再赘述。

利用数据表和数据表关联的元信息对查询请求进行处理，对此不再赘述。

以下结合具体的应用场景，对上述数据处理方法进行进一步的说明。

参见图2所示，为数据湖分析(Data Lake Analytics)系统的结构示意图，数据湖分析系统可以包括客户端、负载均衡设备、前端节点(front node，也可以称为前端服务器)、计算节点(compute node，也可以称为计算服务器)和数据库，当然，数据湖分析系统还可以包括其它服务器，对此不做限制。

在图2中，以3个前端节点为例，在实际应用中，前端节点的数量还可以为其它数量，对此不做限制。在图2中，以4个计算节点为例，在实际应用中，计算节点的数量还可以为其它数量，对此不做限制。由于每个前端节点的处理流程相同，每个计算节点的处理流程相同，因此，为方便描述，后续实施例中，以1个前端节点的处理流程为例，以1个计算节点的处理流程为例。

在图2中，以5个数据库为例，实际应用中，数据库的数量还可以为其它数量，对此不做限制，这些数据库就是数据源。本实施例中，可以是针对异构数据源的场景，也就是说，这些数据库可以是相同类型的数据库，也可以是不同类型的数据库。这些数据库可以是关系型数据库，或是非关系型数据库。

进一步的，对于每个数据库来说，该数据库的类型还可以包括但不限于：OSS(Object Storage Service，对象存储服务)、TableStore(表格存储)、HBase(HadoopDatabase，Hadoop数据库)、HDFS(Hadoop Distributed File System，Hadoop分布式文件系统)、MySQL(即关系型数据库)、RDS(Relational Database Service，关系型数据库服务)、DRDS(Distribute Relational Database Service，分布式关系型数据库服务)、RDBMS(Relational Database Management System，关系数据库管理系统)、SQLServer(即关系型数据库)、PostgreSQL(即对象关系型数据库)，MongoDB(即基于分布式文件存储的数据库)等，当然，上述只是数据库类型的几个示例，对此数据库的类型不做限制。

其中，数据库用于存储各种类型的数据，对此数据类型不做限制，如可以是用户数据、商品数据、地图数据、视频数据、图像数据、音频数据等。

其中，客户端可以是终端设备(如PC(Personal Computer，个人计算机)、笔记本电脑、移动终端等)包括的APP(Application，应用)，也可以是终端设备包括的浏览器，对此不做限制。负载均衡设备用于对客户端的数据请求进行负载均衡，如接收到数据请求后，将数据请求负载均衡到各个前端节点。

在一个例子中，多个前端节点可以用于提供相同的功能，形成前端节点的资源池。针对资源池中的每个前端节点，用于接收客户端发送的数据请求，并对数据请求进行SQL(Structured Query Language，结构化查询语言)解析，根据解析结果生成多个执行计划，并处理这些执行计划。例如，前端节点可以将这些执行计划发送给一个或者多个计算节点，由计算节点处理执行计划。

在一个例子中，多个计算节点用于提供相同的功能，形成计算节点的资源池。针对资源池中的每个计算节点，若该计算节点接收到前端节点发送的执行计划，则该计算节点可以处理该执行计划，并将处理结果返回给前端节点。

综上所述，数据湖分析系统采用存储、计算分离的架构，计算节点从不同的数据源(Data Source)读取数据，这些数据源就是各种类型的数据库。

在数据湖分析系统中，其提供的是云关系型数据库，如图2所示的各个数据库，就是云关系型数据库。如果用户需要使用数据库进行处理，则数据湖分析系统可以创建数据库，并在该数据库中创建数据表。而且，数据湖分析系统只需要将数据源(即图2的数据库)的元信息与该数据表进行关联即可，而不需要将数据源中的数据拷贝到该数据表中。这样，针对访问该数据源的处理请求(即访问该数据表的处理请求)，数据湖分析系统可以利用元信息与数据表的关联关系，链接到数据源，并从数据源中查询数据，并基于数据进行处理(如查询和分析等)，在数据处理完成后，可以删除当前创建的数据表和数据库。

综上所述，数据湖分析系统在创建数据表时，不需要将数据源中的数据拷贝到该数据表中，只需要将数据源的元信息与该数据表进行关联即可，也就是说，数据湖分析系统可以获取并存储数据源的元信息，并将该元信息与该数据表进行关联。进一步的，参见图2所示，在前端节点和计算节点的执行过程中，可以由Meta(元数据)模块向前端节点和计算节点提供数据表的元信息。

在一个例子中，数据湖分析系统在创建数据库之后，在创建数据表之前，还可以在该数据库中创建Schema(模式)，然后，在该Schema中创建数据表。Schema映射到数据源的数据集上，Schema是指管理和关联一组表或关系。

综上所述，数据湖分析系统创建数据表时，需要获取数据源的元信息，并将元信息与数据表进行关联。在传统方式中，需要用户定义数据源的元信息，但是，由于数据湖分析系统支持很多类型的数据源，且不同类型的数据源的元信息差别较大，如OSS类型的数据源，需要定义不同的序列化工具和格式，而这些定义对于RDBMS类型的数据源是不需要的，因此，由用户定义数据源的元信息，存在工作量很大、元信息容易出错、用户体验比较差等问题。

与上述方式不同的是，本申请实施例中，数据湖分析系统(如数据湖分析系统的任意设备，如前端节点、计算节点、Meta模块等)可以探测数据源的元信息，并将元信息与数据表进行关联，从而将元信息与数据表映射起来。

具体的，针对每个类型的数据源，其数据相关的元信息会体现在数据源和原始数据中，因此，数据湖分析系统可以探测数据源的元信息，从而提高元信息的构建效率，提升数据湖分析系统整体的使用效率和体验，优化用户的使用路径，在一定程度上提升元信息构建效率，让用户更适应云时代的到来。

参见图3所示，不同类型的数据源具有不同的协议方式，针对这些类型的数据源，数据湖分析系统均能够获取到相关的元信息，并将元信息与数据表关联起来。例如，针对RDBMS、RDS、SQLServer、PostgreSQL等类型的数据源来说，本身就有数据表的概念，因此，数据湖分析系统可以通过SQL语句直接获取到数据表的相关信息，并基于这些信息确定数据源的元信息。又例如，针对TableStore、HBase等类型的数据源来说，也有数据表的概念，是宽表的概念，每行数据都有主键和非主键信息，因此，数据湖分析系统可以通过RPC(RemoteProcedure Call，远程过程调用)接口获取每个数据表内部的定义信息，并基于这些信息确定数据源的元信息。又例如，针对OSS、file(文件)、NAS(Network Attached Storage，网络附属存储)等类型的数据源来说，数据湖分析系统可以通过文件接口或类文件接口，获取到相关的文件内容，并根据不同的文件类型(如csv、json、parquet、orc等)探测文件中的部分内容，分析文件中的字段信息，然后构建出每个数据表的结构，这样，就可以分析出数据源的元信息。

在上述应用场景下，针对OSS、file、NAS等类型的数据源，为了获取元信息，并将元信息与数据表关联，其数据处理方法可以参见图4所示。

步骤401，数据湖分析系统获取数据处理请求，如数据表建立请求等。

具体的，客户端可以通过负载均衡设备向数据湖分析系统发送数据处理请求，这样，数据湖分析系统就可以获取到该数据处理请求。

步骤402，数据湖分析系统判断是否为数据处理请求使能数据表发现功能。

如果是，则执行步骤403；如果否，则可以采用传统流程处理。

在一个例子中，该数据处理请求可以包括自动发现指示信息，该自动发现指示信息用于指示是否使能数据表发现功能。基于此，若该自动发现指示信息用于指示使能数据表发现功能，则确定为该数据处理请求使能数据表发现功能，执行步骤403。若该自动发现指示信息用于指示不使能数据表发现功能，则确定不为该数据处理请求使能数据表发现功能，采用传统流程处理。

例如，数据处理请求可以包括自动发现指示信息“discovertables＝true”，这个自动发现指示信息用于指示使能数据表发现功能。或者，数据处理请求可以包括自动发现指示信息“discovertables＝false”，这个自动发现指示信息用于指示不使能数据表发现功能。当然，上述只是一个示例，对此不做限制。

在另一个例子中，若数据处理请求未包括自动发现指示信息，则默认使能数据表发现功能，或者，默认不使能数据表发现功能，对此不做限制。

步骤403，数据湖分析系统从数据源的数据集中获取属性信息。

在一个例子中，该数据处理请求可以包括数据源的位置信息，且该数据源可以包括多个数据集，每个数据集均包括该数据集的属性信息，基于此，数据湖分析系统可以根据该位置信息从该数据源的数据集中获取属性信息。

例如，数据源可以包括数据集1、数据集2和数据集3，数据处理请求可以包括位置信息“location＝OSS://x.x.x.x:xxx/xxx”，基于这个位置信息，数据湖分析系统确定数据源的类型为OSS，且数据源的位置信息是“x.x.x.x:xxx/xxx”。然后，可以从该位置信息获取到数据集1、数据集2和数据集3，并获取数据集1的属性信息1、数据集2的属性信息2、数据集3的属性信息3。

数据湖分析系统可以读取数据集1的部分数据，继而得到数据集1的属性信息1。例如，读取数据集1的前几行数据，在这些数据中，可以包括数据集1的属性信息1，该属性信息1可以包括但不限于：文件后缀(如txt、jpg、png等)、文件类型(如csv、json、parquet、orc等)、字段信息(即列属性，如姓名、年龄、手机号、身份证等)、对此属性信息1的内容不做限制。

类似的，参见数据集1的属性信息1的获取方式，数据湖分析系统可以读取数据集2的部分数据，继而得到数据集2的属性信息2。数据湖分析系统可以读取数据集3的部分数据，继而得到数据集3的属性信息3，对此不再赘述。

步骤404，数据湖分析系统对多个数据集进行过滤，得到目标数据集。

在一个例子中，该数据处理请求可以包括过滤指示信息，该过滤指示信息用于指示如何对数据源的多个数据集进行过滤，因此，数据湖分析系统可以根据该过滤指示信息对数据源的多个数据集进行过滤，得到目标数据集。

例如，数据处理请求可以包括过滤指示信息“filefilters＝json，csv”，这个过滤指示信息“filefilters＝json，csv”用于过滤出json类型的数据集和csv类型的数据集，也就是说，json类型的数据集可以作为目标数据集，csv类型的数据集也可以作为目标数据集，但是，其它类型的数据集不作为目标数据集。

基于此，假设数据集1的属性信息1中的文件类型为csv，且数据集2的属性信息2中的文件类型为csv，且数据集3的属性信息3中的文件类型为orc，则数据湖分析系统可以将数据集1和数据集2确定为目标数据集。

步骤405，数据湖分析系统根据目标数据集对应的属性信息，对目标数据集进行聚类，得到至少一个聚类集合，每个聚类集合包括至少一个目标数据集。

具体的，数据湖分析系统可以获取聚类指示信息，该聚类指示信息用于指示聚类子属性，基于目标数据集对应的属性信息，根据聚类指示信息确定目标数据集对应的聚类子属性，根据目标数据集对应的聚类子属性，对目标数据集进行聚类，得到至少一个聚类集合。例如，将聚类子属性相同的目标数据集聚类到同一聚类集合，将聚类子属性不同的目标数据集聚类到不同的聚类集合。

例如，数据处理请求可以包括聚类指示信息“clusterAsTable＝file type”，这个聚类指示信息“clusterAsTable＝file type”用于指示聚类子属性是文件类型，基于此，数据湖分析系统可以确定每个目标数据集对应的文件类型(文件类型是目标数据集的属性信息的一种)，并可以将文件类型相同的目标数据集聚类到同一聚类集合，将文件类型不同的目标数据集聚类到不同的聚类集合。

假设目标数据集包括数据集1和数据集2，若数据集1的文件类型与数据集2的文件类型相同，则将数据集1和数据集2聚类到聚类集合A。假设目标数据集包括数据集1和数据集2，若数据集1的文件类型与数据集2的文件类型不同，则将数据集1聚类到聚类集合B1，并将数据集2聚类到聚类集合B2。

当然，文件类型只是聚类子属性的一个示例，聚类子属性还可以是其它子属性，如文件后缀、字段信息等，对此聚类子属性不做详加限制。在实际应用中，由于用户知道哪些数据集对应同一个数据表，且知道这些数据集的共性特征，因此，可以将这个共享特征作为聚类子属性。例如，若相同文件类型的数据集对应同一个数据表时，则聚类子属性可以是文件类型，因此，数据处理请求携带的聚类指示信息用于指示聚类子属性是文件类型；又例如，若相同文件后缀的数据集对应同一个数据表时，则聚类子属性可以是文件后缀，因此，数据处理请求携带的聚类指示信息用于指示聚类子属性是文件后缀；又例如，若相同字段信息的数据集对应同一个数据表时，则聚类子属性可以是字段信息，因此，数据处理请求携带的聚类指示信息用于指示聚类子属性是字段信息。

在一个示例中，若聚类指示信息用于指示聚类子属性是文件后缀，则数据湖分析系统可以确定每个目标数据集对应的文件后缀，将文件后缀相同的目标数据集聚类到同一聚类集合，将文件后缀不同的目标数据集聚类到不同的聚类集合。若聚类指示信息用于指示聚类子属性是字段信息，则数据湖分析系统可以确定每个目标数据集对应的字段信息，将字段信息相同的目标数据集聚类到同一聚类集合，将字段信息不同的目标数据集聚类到不同的聚类集合。

其中，字段信息相同的数据集可以是指：若数据集1的字段信息与数据集2的字段信息的相似度大于阈值，则确定数据集1的字段信息与数据集2的字段信息相同；若数据集1的字段信息与数据集2的字段信息的相似度不大于所述阈值，则确定数据集1的字段信息与数据集2的字段信息不同。

例如，数据集1的字段信息为姓名、年龄、手机号、身份证，数据集2的字段信息为姓名、年龄、手机号、家庭住址，则数据集1的字段信息与数据集2的字段信息的相似度为75％。若相似度75％大于预先配置的阈值，则说明字段信息相同；若相似度75％不大于预先配置的阈值，则说明字段信息不同。

步骤406，数据湖分析系统为每个聚类集合创建一个数据表，该数据表对应至少一个目标数据集，即该数据表对应的聚类集合对应的目标数据集。

例如，假设聚类集合A对应数据集1和数据集2，则数据湖分析系统可以为聚类集合A创建一个数据表A，且数据表A对应数据集1和数据集2。

又例如，假设聚类集合B1对应数据集1，聚类集合B2对应数据集2，则数据湖分析系统可以为聚类集合B1创建一个数据表B1，且数据表B1对应数据集1，并为聚类集合B2创建一个数据表B2，且数据表B2对应数据集2。

步骤407，数据湖分析系统对数据表进行命名。

在一个例子中，该数据处理请求可以包括命名指示信息，该命名指示信息用于指示数据表的命名方式，因此，可以根据命名指示信息对数据表进行命名。

例如，数据处理请求包括命名指示信息“tableRenamePrefix＝XXX_”和命名指示信息“tableRenameSuffix＝_YYY”，命名指示信息“tableRenamePrefix＝XXX_”表示数据表的前缀，命名指示信息“tableRenameSuffix＝_YYY”表示数据表的后缀。基于此，数据湖分析系统在对数据表进行命名时，前缀为“XXX_”，后缀为“_YYY”，对于前缀与后缀之间的内容，可以是数据源的名称，也可以在数据处理请求中指定，还可以是数据湖分析系统自身生成，对此不做限制。

步骤408，数据湖分析系统将数据集对应的元信息与数据表进行关联。

例如，若数据表A对应数据集1和数据集2，则可以将数据集1对应的元信息、数据集2对应的元信息与数据表A进行关联。又例如，若数据表B1对应数据集1，数据表B2对应数据集2，则可以将数据集1对应的元信息与数据表B1进行关联，并将数据集2对应的元信息与数据表B2进行关联。

在一个例子中，数据湖分析系统可以根据数据集对应的属性信息确定数据集对应的元信息，并将数据集对应的元信息与数据表进行关联。

在一个例子中，数据集对应的元信息可以包括但不限于以下之一或者任意组合：数据源的位置信息、通信协议、数据分布方式、数据读写协议、存储格式、字段信息(即列属性)、字段类型(如字段存储类型和字段处理类型)。

基于数据集对应的属性信息，如文件后缀、文件类型、字段信息等，数据湖分析系统可以确定如下元信息：存储格式(即文件后缀对应的存储格式，如txt、jpg、png等)、字段类型(即文件类型对应的字段类型，如json、csv、parquet、orc等)、字段信息(即列属性，如姓名、年龄、手机号、身份证等)。

此外，数据湖分析系统还可以获取其它元信息，如数据源的位置信息(可以携带于数据处理请求中)、通信协议、数据分布方式、数据读写协议(如OSS等，可以携带于数据处理请求中)，对此获取方式不做限制。

步骤409，数据湖分析系统利用数据表和数据表关联的元信息进行数据处理。具体的，在将数据集对应的元信息与数据表进行关联后，即已经建立数据表之后，就可以利用数据表和数据表关联的元信息进行数据处理。

例如，在获取到数据查询请求后，数据查询请求可以包括数据表信息，可以获取与该数据表信息对应的数据表(即根据数据源中数据集的属性信息创建的数据表，具体创建过程参见上述实施例)、与该数据表关联的元信息(即数据源的至少一个数据集对应的元信息，具体内容参见上述实施例)。然后，可以利用数据表和数据表关联的元信息对查询请求进行处理，例如，对查询请求进行数据查询和数据分析等处理，对此处理过程不做限制。

在上述实施例中，通过修改DDL(Data Definition Language，数据定义语言，用于创建、修改、删除、查询数据表的定义信息)增强能力(即增加数据表自动发现能力)，并配合数据源探测能力(探测表列表，探测表结构，探测文件内局部数据等)，可以在创建数据表时，主动发现各个数据集的属性信息，然后通过过滤、聚合、重命名等机制，创建数据表，并将元信息与数据表进行关联，从而主动获取数据表的元信息，从而大幅提高用户使用数据湖分析系统这种异构云数据库产品时的效率和体验。例如，如果一个数据库有100个数据表，传统方式中，为了创建一套库表结构，需要执行101次SQL，而本方案可以将SQL缩减到1个，大大提高了使用效率，提高使用体验，实现简单且通用。

在实际应用中，若数据集未包括对应的属性信息(如某些数据格式的数据集本身不带字段信息)，还可以由用户给出数据集对应的属性信息，这样，数据湖分析系统可以采用上述流程进行处理，对于这种场景的处理不再赘述。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理装置，如图5所示，为所述数据处理装置的结构图，所述数据处理装置包括：

获取模块51，用于获取数据处理请求，所述数据处理请求包括数据源的位置信息；根据所述位置信息从所述数据源的数据集中获取属性信息；其中，所述数据源包括多个数据集，且所述数据集包括所述数据集的属性信息；

关联模块52，用于根据所述属性信息创建数据表，所述数据表对应至少一个数据集，并将所述至少一个数据集对应的元信息与所述数据表进行关联；

处理模块53，用于利用所述数据表和该数据表关联的元信息进行数据处理。

所述关联模块52根据所述属性信息创建数据表时具体用于：

为所述聚类集合创建数据表，所述数据表对应所述至少一个数据集。

所述关联模块52根据所述多个数据集分别对应的属性信息，对所述多个数据集进行聚类，得到聚类集合时具体用于：

获取聚类指示信息，所述聚类指示信息用于指示聚类子属性；

基于所述多个数据集分别对应的属性信息，根据所述聚类指示信息确定所述多个数据集分别对应的聚类子属性，并根据所述多个数据集分别对应的聚类子属性，对所述多个数据集进行聚类，得到聚类集合。

基于与上述方法同样的申请构思，本申请实施例还提供一种数据处理设备，包括：处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

利用所述数据表和所述数据表关联的元信息进行数据处理。

本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令；所述计算机指令被执行时进行如下处理：

利用所述数据表和所述数据表关联的元信息进行数据处理。

参见图6所示，为本申请实施例中提出的数据处理设备(即数据湖分析系统中的任意设备，如前端节点、计算节点等)的结构图，所述数据处理设备60可以包括：处理器61，网络接口62，总线63，存储器64。存储器64可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据等等。例如，存储器64可以是：RAM(Radom AccessMemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

利用所述数据表和所述数据表关联的元信息进行数据处理。

2.根据权利要求1所述的方法，其特征在于，

根据所述属性信息创建数据表，所述数据表对应至少一个数据集，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述多个数据集分别对应的属性信息，对所述多个数据集进行聚类，得到聚类集合，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述多个数据集分别对应的聚类子属性，对所述多个数据集进行聚类，得到聚类集合，包括：

基于所述多个数据集分别对应的聚类子属性，将聚类子属性相同的数据集聚类到同一聚类集合，将聚类子属性不同的数据集聚类到不同的聚类集合。

5.根据权利要求3所述的方法，其特征在于，获取聚类指示信息，包括：

若所述数据处理请求还包括聚类指示信息，则从所述数据处理请求中获取所述聚类指示信息；或者，获取预先配置的聚类指示信息。

6.根据权利要求2所述的方法，其特征在于，根据所述多个数据集分别对应的属性信息，对所述多个数据集进行聚类，得到聚类集合，包括：

若所述数据处理请求还包括过滤指示信息，则根据所述过滤指示信息对所述多个数据集进行过滤，得到目标数据集；基于所述目标数据集对应的属性信息，对所述目标数据集进行聚类，得到聚类集合。

7.根据权利要求1所述的方法，其特征在于，

根据所述位置信息从所述数据源的数据集中获取属性信息，包括：

判断是否为所述数据处理请求使能数据表发现功能；

如果是，则根据所述位置信息从所述数据源的数据集中获取属性信息。

8.根据权利要求7所述的方法，其特征在于，

所述判断是否为所述数据处理请求使能数据表发现功能，包括：

若所述数据处理请求还包括自动发现指示信息，则根据所述自动发现指示信息判断是否为所述数据处理请求使能数据表发现功能。

9.根据权利要求1所述的方法，其特征在于，

所述根据所述属性信息创建数据表之后，还包括：若所述数据处理请求还包括命名指示信息，则根据所述命名指示信息对所述数据表进行命名。

10.根据权利要求1所述的方法，其特征在于，

所述将所述至少一个数据集对应的元信息与所述数据表进行关联，包括：

根据所述至少一个数据集对应的属性信息，确定所述至少一个数据集对应的元信息，并将所述元信息与所述数据表进行关联。

11.一种数据处理方法，其特征在于，应用于数据湖分析平台，所述数据湖分析平台用于为用户提供无服务器化的数据处理服务，所述方法包括：

利用所述数据表和所述数据表关联的元信息进行数据处理；

12.一种数据处理方法，其特征在于，所述方法包括：

根据所述位置信息从所述数据源的数据集中获取属性信息；

13.一种数据处理方法，其特征在于，所述方法包括：

利用所述数据表和所述数据表关联的元信息进行数据处理。

14.一种数据处理方法，其特征在于，所述方法包括：

获取数据查询请求，所述数据查询请求包括数据表信息；

15.一种数据处理装置，其特征在于，所述装置包括：

16.根据权利要求15所述的装置，其特征在于，

所述关联模块根据所述属性信息创建数据表时具体用于：

17.根据权利要求16所述的装置，其特征在于，

所述关联模块根据所述多个数据集分别对应的属性信息，对所述多个数据集进行聚类，得到聚类集合时具体用于：

18.一种数据处理设备，其特征在于，包括：

利用所述数据表和所述数据表关联的元信息进行数据处理。