CN110008257B

CN110008257B - 数据处理方法、装置、系统、计算机设备和存储介质

Info

Publication number: CN110008257B
Application number: CN201910284179.0A
Authority: CN
Inventors: 陈曦; 姜国强
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2024-04-16
Anticipated expiration: 2039-04-10
Also published as: CN110008257A

Abstract

本发明涉及一种数据处理方法、装置、系统、计算机设备和存储介质，方法包括：获取目标数据处理任务，目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据任务信息生成的；根据目标数据处理任务生成数据查询请求，向分布式存储集群发送数据查询请求，以使得分布式存储集群根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果；将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中。上述方法可以提高查询效率。

Description

数据处理方法、装置、系统、计算机设备和存储介质

技术领域

本发明涉及网络技术领域，特别是涉及数据处理方法、装置、系统、计算机设备和存储介质。

背景技术

随着网络技术的飞速发展和广泛应用，人们在日常生活以及工作中经常使用互联网，互联网上产生的数据越来越多，需要存储的数据也越来越多，因此现在已然进入了大数据时代。目前经常存在通过分析数据得到分析结果的需求，例如通过财务数据确定公司的运营情况，然而，由于存储的数据是海量的，导致获取数据困难，数据查询效率低。

发明内容

基于此，有必要针对上述获取数据困难，数据查询效率低的问题，提供一种数据处理方法、装置、系统、计算机设备和存储介质。

一种数据处理系统，所述数据处理系统包括任务管理节点以及数据处理节点，其中，所述任务管理节点，用于从分布式存储集群中获取任务信息，根据所述任务信息生成目标数据处理任务，将所述目标数据处理任务发送给所述数据处理节点，所述任务信息是所述分布式存储集群根据用户请求存储的；所述数据处理节点，用于根据所述目标数据处理任务生成数据查询请求，向所述分布式存储集群发送所述数据查询请求，以使得所述分布式存储集群根据所述目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据所述目标数据处理任务对应的数据处理规则对所述目标待处理数据进行处理，得到所述数据查询请求对应的查询结果；所述数据处理节点，还用于将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中。

在一些实施例中，所述数据处理节点，还用于获取所述查询结果的数据量，根据所述查询结果的数据量确定查询请求的次数，所述查询结果的数据量与所述查询请求的次数成正相关关系。

一种数据处理方法，所述方法包括：获取目标数据处理任务，所述目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据所述任务信息生成的，所述任务信息是所述分布式存储集群根据用户请求存储的；根据所述目标数据处理任务生成数据查询请求，向所述分布式存储集群发送所述数据查询请求，以使得所述分布式存储集群根据所述目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据所述目标数据处理任务对应的数据处理规则对所述目标待处理数据进行处理，得到所述数据查询请求对应的查询结果；将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中。

在一些实施例中，所述方法还包括：获取所述查询结果的数据量，根据所述查询结果的数据量确定查询请求的次数，所述查询结果的数据量与所述查询请求的次数成正相关关系。

在一些实施例中，所述任务管理节点执行的数据处理方法包括：获取所述分布式存储集群的集群资源配置信息，根据所述集群资源配置信息确定任务并发数量；将所述目标数据处理任务加入到任务等待队列中，基于所述任务并发数量从所述任务等待队列获取对应数量的目标数据处理任务，并发送到数据处理节点。

在一些实施例中，所述将所述目标数据处理任务加入到任务等待队列中，基于所述任务并发数量从所述任务等待队列获取对应数量的目标数据处理任务，并发送到数据处理节点包括：创建所述目标数据处理任务对应的任务等待队列，将所述目标数据处理任务加入到任务等待队列中；根据所述任务并发数量创建对应数量的任务调度单元；利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点；当所述任务调度单元获取的目标数据处理任务在所述数据处理节点执行完成时，返回利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点的步骤，直至所述任务等待队列的目标数据处理任务发送完毕。

在一些实施例中，所述数据处理节点包括多个，所述利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点包括：获取各个所述数据处理节点对应的任务执行状态，当查找到任务执行状态为完成的目标数据数据处理节点时，利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务，发送给所述目标数据数据处理节点。

在一些实施例中，至少一个所述数据处理节点与所述分布式存储集群中的至少一个数据存储节点设置在同一计算机设备上，设置于同一计算机设备上的数据处理节点与数据存储节点之间相互独立运行，所述向分布式存储集群发送所述数据查询请求包括：根据所述目标数据处理任务生成数据查询请求，向位于同一计算机设备上的数据存储节点发送所述数据查询请求。

在一些实施例中，所述分布式存储集群执行的数据处理方法包括：接收用户设备发送的任务配置请求，所述任务配置请求中携带所述任务信息，存储所述任务配置请求对应的任务信息，所述任务信息包括任务触发条件、所述数据处理范围以及所述数据处理规则；所述任务管理节点从所述分布式存储集群中获取任务信息，当所述任务触发条件满足时，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务。

在一些实施例中，所述目标数据处理任务包括目标数据聚合任务，所述数据处理规则包括聚合算法以及聚合维度，所述分布式存储集群获取所述数据处理范围对应的数据作为所述目标待处理数据，根据所述聚合维度，利用所述聚合算法对所述目标待处理数据进行处理，得到所述聚合维度对应的聚合结果，作为所述查询结果。

在一些实施例中，所述任务触发条件包括任务执行时间间隔，所述从所述分布式存储集群中获取所述任务信息，当所述任务触发条件满足时，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务包括：从所述分布式存储集群中获取所述任务信息中的任务执行时间间隔，获取上一次根据所述任务信息执行数据处理任务的历史执行时间，当确定当前时间与所述历史执行时间的间隔满足所述任务执行时间间隔时，确定所述任务触发条件满足，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务。

在一些实施例中，所述将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中包括：获取所述查询结果对应的属性名称以及属性值，将属性名称作为属性对象中的键名，将属性值作为属性对象中的键值，得到属性对象；将所述查询结果作为查询结果对象中的键值，将查询结果名称作为查询结果对象中的键名，得到查询结果对象；将所述属性对象以及所述查询结果对象组合成文本格式的目标对象，将所述目标对象作为所述目标数据写入到所述分布式存储集群中。

在一些实施例中，所述将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中包括：在所述分布式存储集群中创建数据存储索引，将所述目标对象写入到所述数据存储索引中。

一种数据处理装置，所述装置包括：任务获取模块，用于获取目标数据处理任务，所述目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据所述任务信息生成的，所述任务信息是所述分布式存储集群根据用户请求存储的；查询模块，用于根据所述目标数据处理任务生成数据查询请求，向所述分布式存储集群发送所述数据查询请求，以使得所述分布式存储集群根据所述目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据所述目标数据处理任务对应的数据处理规则对所述目标待处理数据进行处理，得到所述数据查询请求对应的查询结果；解析模块，用于将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中。

在一些实施例中，所述数据处理装置包括查询次数确定模块，用于获取所述查询结果的数据量，根据所述查询结果的数据量确定查询请求的次数，所述查询结果的数据量与所述查询请求的次数成正相关关系。

在一些实施例中，任务管理节点中的数据处理装置还包括任务发送模块，用于获取所述分布式存储集群的集群资源配置信息，根据所述集群资源配置信息确定任务并发数量；将所述目标数据处理任务加入到任务等待队列中，基于所述任务并发数量从所述任务等待队列获取对应数量的目标数据处理任务，并发送到数据处理节点。

在一些实施例中，所述任务发送模块用于：创建所述目标数据处理任务对应的任务等待队列，将所述目标数据处理任务加入到任务等待队列中；根据所述任务并发数量创建对应数量的任务调度单元；利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点；当所述任务调度单元获取的目标数据处理任务在所述数据处理节点执行完成时，返回利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点的步骤，直至所述任务等待队列的目标数据处理任务发送完毕。

在一些实施例中，所述数据处理节点包括多个，所述任务发送模块用于：获取各个所述数据处理节点对应的任务执行状态，当查找到任务执行状态为完成的目标数据数据处理节点时，利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务，发送给所述目标数据数据处理节点。

在一些实施例中，至少一个所述数据处理节点与所述分布式存储集群中的至少一个数据存储节点设置在同一计算机设备上，设置于同一计算机设备上的数据处理节点与数据存储节点之间相互独立运行，所述查询模块，用于根据所述目标数据处理任务生成数据查询请求，向位于同一计算机设备上的数据存储节点发送所述数据查询请求。

在一些实施例中，所述分布式存储集群中的数据处理装置包括任务信息接收模块，用于接收用户设备发送的任务配置请求，所述任务配置请求中携带所述任务信息，存储所述任务配置请求对应的任务信息，所述任务信息包括任务触发条件、所述数据处理范围以及所述数据处理规则；所述任务管理节点中的任务发送模块用于从所述分布式存储集群中获取任务信息，当所述任务触发条件满足时，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务。

在一些实施例中，所述目标数据处理任务包括目标数据聚合任务，所述数据处理规则包括聚合算法以及聚合维度，所述分布式存储集群中的查询处理模块用于获取所述数据处理范围对应的数据作为所述目标待处理数据，根据所述聚合维度，利用所述聚合算法对所述目标待处理数据进行处理，得到所述聚合维度对应的聚合结果，作为所述查询结果。

在一些实施例中，所述任务管理节点的任务发送模块用于：从所述分布式存储集群中获取所述任务信息中的任务执行时间间隔，获取上一次根据所述任务信息执行数据处理任务的历史执行时间，当确定当前时间与所述历史执行时间的间隔满足所述任务执行时间间隔时，确定所述任务触发条件满足，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务。

在一些实施例中，所述数据解析模块包括：属性对象得到单元，用于获取所述查询结果对应的属性名称以及属性值，将属性名称作为属性对象中的键名，将属性值作为属性对象中的键值，得到属性对象；查询结果对象得到单元，用于将所述查询结果作为查询结果对象中的键值，将查询结果名称作为查询结果对象中的键名，得到查询结果对象；目标对象得到单元，用于将所述属性对象以及所述查询结果对象组合成文本格式的目标对象，将所述目标对象作为所述目标数据写入到所述分布式存储集群中。

在一些实施例中，所述数据解析模块用于：在所述分布式存储集群中创建数据存储索引，将所述目标对象写入到所述数据存储索引中。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上述数据处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述数据处理方法的步骤。

上述数据处理方法、装置、系统、计算机设备和存储介质，数据处理任务是根据用户请求中的任务信息创建的，由数据处理节点根据数据处理任务请求查询对应的数据，使得分布式存储集群可以根据查询请求进行数据处理，得到查询结果，再将查询结果解析为符合预设数据格式的数据存入到分布式存储集群中，因此分布式存储集群中存储了符合用户要求的数据，当接收到用户设备发送的数据获取请求时，可以根据目标数据及时返回对应的查询数据，用户查询效率高。

附图说明

图1为一些实施例中提供的数据处理方法的应用环境图；

图2为一些实施例中数据处理系统的架构图；

图3为一些实施例中任务信息的示意图；

图4为一些实施例中在计算机设备上设置的节点的示意图；

图5为一些实施例中利用数据处理系统实现数据处理方法的交互时序图；

图6为一些实施例中数据处理方法的流程图；

图7为一些实施例中将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中的流程图；

图8为一些实施例中数据处理装置的结构框图；

图9为一些实施例中解析模块的结构框图；

图10为一些实施例中计算机设备的内部结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一数据处理任务称为第二数据处理任务，且类似地，可将第二数据处理任务称为第一数据处理任务。

图1为一些实施例中提供的数据处理方法的应用环境图，如图1所示，在该应用环境中，包括终端110以及数据处理系统120。数据处理系统120包括分布式存储集群121、任务管理节点122以及数据处理节点123。分布式存储集群121包括至少两个数据存储节点，例如第一数据存储节点121a以及第二数据存储节点121b。用户可以通过终端110向分布式存储集群121发送任务配置请求，分布式存储集群121根据任务配置请求存储任务信息，任务管理节点122从分布式存储集群121中获取任务信息，根据任务信息生成目标数据处理任务，将目标数据处理任务发送给数据处理节点123，数据处理节点123根据目标数据处理任务生成数据查询请求，向分布式存储集群121发送数据查询请求，分布式存储集群121根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果，将查询结果返回给数据处理节点123。数据处理节点123将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群121中。其中，任务管理节点122以及数据处理节点123可以是和分布式存储集群121中的其中一个数据存储节点进行交互。例如，任务管理节点122可以从第一数据存储节点121a中获取任务信息，数据处理节点123可以将查询请求发送给第二数据存储节点121b，得到查询结果并解析得到目标数据后，数据处理节点123可以将目标数据通过第二数据存储节点121b写入到分布式存储集群121中。

任务管理节点122以及数据处理节点123均可以为多个，“多”是指至少两个。例如可以是一个地理区域对应一个任务管理节点以及多个数据处理节点，一个区域的任务管理节点负责获取该地理区域对应的分布式存储集群的业务配置信息，当存在多个数据处理任务时，一个数据处理节点可以处理一个或多个数据处理任务。本发明实施例提供的数据处理系统可以应用在存储海量数据的系统中，例如存储海量商品交易数据的业务系统中，通过根据用户配置的任务信息对存储海量商品交易数据的分布式存储集群的数据进行查询，使得分布式存储集群输出查询结果，再由数据处理节点对查询结果进行解析，得到符合预设数据格式的数据，再写入到分布式存储集群中，这样分布式存储集群中存储了符合用户要求的数据，当用户需要查询数据时，通过用户终端进行查询，从目标数据中查询得到数据，可以提高用户查询商品交易数据的速度。

其中，一个节点可以是指一个计算机设备，例如服务器，可以是提供云服务器、云数据库、云存储和CDN等基础云计算服务的云服务器。终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端110以及数据处理系统120可以通过网络进行连接，数据处理系统120的各节点间也可以通过网络进行连接，本发明在此不做限制。

如图2所示，在一些实施例中，提出了一种数据处理系统，数据处理可以包括任务管理节点122以及数据处理节点123，具体可以用于：

任务管理节点122，用于从分布式存储集群中获取任务信息，根据任务信息生成目标数据处理任务，将目标数据处理任务发送给数据处理节点，任务信息是分布式存储集群根据用户请求存储的。

具体地，任务信息配置了与任务相关的信息，例如可以包括任务的触发条件、任务的数据处理范围以及数据的处理规则。任务的触发条件例如是时间触发条件、数据触发条件中的一种或多种。时间触发条件是指当时间满足条件时则触发任务，数据触发条件是指当数据满足条件时则触发任务。数据满足条件可以是指数据量满足条件例如数据量大于预设阈值。任务的数据处理范围用于确定任务要处理的数据。数据处理范围可以包括数据的存储位置、数据的属性以及数据的标识中的一个或多个。例如数据的存储位置可以是存储在分布式存储集群A分片中的数据，数据的属性例如可以是数据产生的时间、数据所属的地理区域以及产生数据的服务器等。例如，对于服务器监控数据而言，服务器可以设置在不同的区域，分布式存储集群在存储数据时，存储了数据对应的服务器的地理区域。

数据的处理规则用于表示数据是如何处理的，例如可以包括求和、求最大值、求最大值、求最小值、计算数据个数、设置新值、随机选值、求最新值、求最旧值以及计算百分比中的一个或多个计算算法。设置新值是指为数据设置新的数值，例如可以添加一个新的字段，字段值由用户设定。随机选值是指在众多数据中随机选取数值。数据的处理规则还可以包括数据处理的维度，数据处理的维度用于表示处理的视角，即从哪些方面对数据进行处理。在服务器监控领域，处理维度可以是IP地址维度，可以对各个IP地址对应的监控数据例如数据流量进行统计，得到每个IP地址对应的监控统计数据。而在商品交易领域，处理维度可以是商品类型，可以对各个商品类型对应的交易数据进行统计，得到各个商品类型在各个时间段对应的交易总量。任务信息还可以包括根据任务得到的目标数据的写入位置，例如，是写入某一个索引中。索引是Elasticsearch中的数据存储单元，包含一个或多个字段，且可以指定各个字段类型，索引含有相同属性的文档集合。其中Elasticsearch是一个分布式全文搜索引擎，可以使用JSON进行数据索引。

任务信息是分布式存储集群根据用户请求存储的。比如，用户可以通过终端向分布式存储集群发送任务配置请求，任务配置请求中携带任务信息。分布式存储集群可以将任务信息存储在集群中，例如可以将任务信息存储在预先设定的索引中，该索引对于集群中各个数据存储节点是共享的，这样，任务管理节点可以通过访问该索引，获取任务信息。

例如，以分布式存储集群为Elasticsearch集群为例，假设数据处理任务为对数据进行聚合，如图3所示为一些实施例中的任务信息的示意图，base_metric是指存储数据的索引的名称，rollup_metric是指进行聚合得到的目标数据写入的索引的名称，query是指要处理的数据要满足的条件，可以用于确定数据处理范围。group_tags是指聚合的维度，copy_tags是指目标数据所需要携带的属性信息，field是指Elasticsearch集群的域，相当于关系型数据表中列的名称，即字段名称。sum指处理数据对应的算法为求和。Interval指数据处理的时间粒度。Delay是指数据处理任务的延迟执行时间，start_time是指执行第一次数据处理任务的时间，expire_day是指写入到分布式存储集群的目标数据的过期时间，1h表示1小时，5m表示5分钟，cpuusage表示cpu的使用率，region表示区域，host是指主机。因此，图3的任务信息所表示的意思为：从时间戳为1511918989对应的时间开始，按1小时的时间粒度对ctsdb_test索引中cpu使用率为20的数据进行聚合，聚合任务的延迟时间为5分钟，聚合的维度为按ip地址进行聚合，目标数据所要写入的索引的名称为ctsdb_rollup_metric_test，写入的目标数据中，包括了数据所对应的地理区域以及主机等属性信息，目标数据的域为“cpuusage”。

其中，任务延迟时间为5分钟，是指是延迟5分钟才触发数据处理任务的，例如，假设要处理的是8:30至9:30产生的数据，则在9:35即延迟5分钟后再触发数据处理任务，这样可以减少有些数据存储到分布式存储集群时有所延迟，还未存储到分布式存储集群就触发了数据处理任务，进行了数据查询，得到了查询结果，导致得到查询结果的数据并不是完整的数据的情况发生。

分布式存储集群包括至少两个数据存储节点。分布式存储集群将数据分散存储在多台设备上，以利用多台设备分担存储负荷，并作为一个整体向用户提供数据。在访问分布式存储集群时，可以访问集群中的任一个数据存储节点，由该数据存储节点获取分布式存储集群中存储的数据，返回给对应的设备。其中，分布式存储集群可以是基于Elasticsearch的存储集群，例如可以是基于Elasticsearch的分布式时序数据库。时序数据库是存放时序数据的数据库，包括数据对应的时间戳，时间戳代表数据产生的时间。任务管理节点可以是分布式存储集群中的管理控制节点。任务管理节点可以为多个，可以是一个任务管理节点管理一个地理区域的分布式存储集群，例如北京区域的分布式存储集群。

得到任务信息后，任务管理节点可以在满足任务触发条件时，生成数据处理任务。目标数据处理任务可以为一个或多个，目标数据数据任务中包括用于执行任务的任务执行参数，例如目标数据处理任务可以包括任务的数据处理范围以及数据的处理规则。任务管理节点将生成的目标数据处理任务发送给数据处理节点。任务信息还可以包括目标数据的写入位置。

在一些实施例中，当数据处理任务为每隔预设时长执行一次时，还可以存储上一次执行数据处理任务的数据对应的产生时间，根据上一次执行数据处理任务的数据对应的产生时间确定本次执行数据处理任务对应的目标待处理数据，例如，假设上一次执行数据处理任务需要处理的数据对应的时间段为2019年1月21日8点到9点的数据，数据处理粒度为1小时，则本次执行数据处理任务需要处理的数据的时间段为2019年1月21日9点到10点的数据。

数据处理节点123，用于根据目标数据处理任务生成数据查询请求。向分布式存储集群发送数据查询请求，以使得分布式存储集群根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果。

具体地，数据处理节点接收到目标数据处理任务后，根据数据处理任务生成数据查询请求，数据查询请求中携带目标数据处理任务对应的数据处理范围以及目标数据处理任务对应的数据处理规则。这样，分布式存储集群接收到数据查询请求时，根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果，数据处理节点获取查询结果。

举个实际的例子，对于图3所示的任务信息，假设上一次执行数据处理任务所处理的数据为当天8点到9点产生的监控数据，则本次执行的目标数据处理任务携带的信息包括：目标待处理数据存储在ctsdb_test索引中，cpu使用率为20且数据对应的时间为当天9点到10点，目标数据所要写入的索引的名称为ctsdb_rollup_metric_test，写入的目标数据中，包括了数据所对应的地理区域以及主机等属性信息，聚合规则为求和，聚合维度为按ip地址进行聚合。这样，在生成查询请求时，则生成查询符合上述条件的数据的查询请求。使得分布式存储集群可以根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果，将查询结果返回给数据处理节点。

在一些实施例中，当数据处理节点有多个时，目标数据处理任务中还可以包括数据处理节点的标识，例如ip(Internet Protocol，互联网协议)地址。任务管理节点可以查询数据处理节点的任务执行状态，向任务执行完毕的数据处理节点发送新的数据处理任务。

数据处理节点123，还用于将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中。

具体地，数据格式描述数据保存在文件或记录中的规则。例如可以是关系型数据库中的数据的保存格式，也可以是非关系型数据库的数据的保存格式。预设数据格式具体可以根据需要设置。

上述数据处理系统，数据处理任务是根据用户请求中的任务信息创建的，由数据处理节点根据数据处理任务请求查询对应的数据，使得分布式存储集群可以根据查询请求进行数据处理，得到查询结果，再将查询结果解析为符合预设数据格式的数据存入到分布式存储集群中，因此分布式存储集群中存储了符合用户要求的数据，当接收到用户设备发送的数据获取请求时，可以根据目标数据及时返回对应的查询数据，用户查询效率高，而且，将查询结果进行解析得到目标数据是在数据处理节点进行的，因此能够减轻分布式存储集群的压力。

在一些实施例中，预设数据格式可以是与目标待处理数据的格式相同。这样，使得用户在请求查询数据时，可以利用分布式存储集群中用于查询未进行处理的数据的查询接口进行查询目标数据。即查询分布式存储集群中未进行处理的数据与根据查询结果写入的目标数据的查询接口是一致的，使得目标数据兼容分布式存储集群中用于查询未处理数据的查询接口。这样，当用户查询的数据既包括未处理的数据又包括根据查询结果写入的目标数据时，可以利用同一个数据查询接口进行查询。举个实际的例子，假设数据处理任务为对一天之前的数据按照一个小时的时间粒度进行聚合，以减少分布式存储集群中数据存储的数量。则当用户查询时要查询的数据为当天某一分钟的数据以及2天前某一小时的数据时，当天某一分钟的数据为还未进行聚合的数据，而2天前某一小时的数据为已经聚合，得到查询结果再写入分布式存储集群的目标数据。如果目标数据的数据格式与未进行聚合的数据的数据格式相同，则可以利用同一个数据查询接口进行数据查询。

在一些实施例中，将目标输入写入分布式存储集群后，分布式存储集群还可以接收用户设备发送的数据获取请求，根据数据获取请求调用预设数据格式对应的数据查询接口，利用数据查询接口从目标数据中查询得到数据获取请求对应的数据，将数据获取请求对应的数据返回给用户设备。

具体地，用户设备可以向分布式存储集群发送获取数据的请求，分布式存储集群调用该预设数据格式对应的数据查询接口进行数据查询。例如，假设预设数据格式为与目标待处理数据相同的数据格式，则可以调用与目标待处理数据相同的数据查询接口进行数据获取。举个实际的例子，假设用户要获取1月份商品的销售总数量，由于分布式存储集群中已经写入了根据1月份每天的商品销售数量处理得到的1月份商品的销售总数量，而预设数据格式为json格式，则可以调用查询json数据的数据查询接口进行数据查询。从目标数据查询得到数据获取请求对应的数据时，也可以对目标数据进行进一步处理。例如，假设用户要获取的是过去一年商品的销售总数量，分布式存储集群中已经写入了各个月份商品的销售总数量，则对各个月份商品的销售总数量进行求和，得到过去一年商品的销售总数量。

在一些实施例中，在写入目标数据时，目标数据的属性的字段名可以与目标待处理数据的字段名相同，任务信息中也可以设置各个属性的字段名，实现字段名的自定义，这样用户可以根据需要更改数据的字段名称。

在一些实施例中，在写入目标数据时，可以按照目标数据对应的数据产生时间将目标数据依次写入索引中，这样，在任务信息中包括数据失效时间时，可以按照索引的生成顺序依次对各个失效数据进行删除，方便快捷。

在一些实施例中，任务管理节点还用于当确认目标数据写入到分布式存储集群中时，从分布式存储集群中删除目标待处理数据。

具体地，任务管理节点可以从各个数据处理节点获取数据处理任务的执行状态，如果任务执行成功，即当确认目标数据已经写入到分布式存储集群中时，则可以向分布式存储集群发送数据删除指令，指示分布式存储集群删除目标待处理数据，由于目标数据是根据用户设置的任务信息进行处理得到的，能够满足用户的数据存储需求，因此可以从分布式存储集群删除目标待处理数据，以减少分布式存储集群中存储的数据量。例如，假设任务信息为对每一小时的数据进行聚合，则在数据聚合成功后，删除原始的目标待处理数据。

在一些实施例中，数据处理系统包括分布式存储集群121，分布式存储集群接收用户设备发送的任务配置请求，任务配置请求中携带任务信息，任务信息包括任务触发条件、数据处理范围以及数据处理规则，存储任务配置请求对应的任务信息。任务管理节点用于从分布式存储集群中获取任务信息，当任务触发条件满足时，根据数据处理范围以及数据处理规则生成目标数据处理任务。

具体地，用户设备是用户登录的设备，用户可以通过操作用户设备发送任务配置请求。任务配置请求用于请求进行任务配置。分布式存储集群存储该任务信息。例如将任务信息存储在预先设置的文件名称中。任务管理节点可以从分布式存储集群中获取任务信息，例如任务管理节点可以管理多个分布式存储集群，任务管理节点可以定时轮询各个分布式存储集群中存储任务信息的文件，根据任务配置信中的任务触发条件确定是否可以触发任务，当满足任务信息的任务触发条件时，则生成携带数据处理范围以及数据处理规则的数据处理任务。

例如，可以根据任务信息中用户指定的时间聚合粒度、延迟执行时间、上次聚合任务处理的执行时间以及聚合任务状态等信息，并结合当前的实际时间，判定是否要执行下次聚合任务。假设时间聚合粒度为2小时，延迟执行时间为10分钟，上次聚合任务的执行时间为8点40分，聚合的数据为6：30到8：30的数据。任务状态为正常，如果当前的实际时间为10：35分，则不满足任务触发条件。如果当前的实际时间为10：40分时，则满足任务触发条件，需要聚合的数据为8：30到10：30的数据。

在一些实施例中，目标数据处理任务包括目标数据聚合任务，数据处理规则包括聚合算法以及聚合维度，数据处理系统包括分布式存储集群121，分布式存储集群用于获取数据处理范围对应的数据作为目标待处理数据，根据聚合维度，利用聚合算法对目标待处理数据进行处理，得到聚合维度对应的聚合结果，作为查询结果。

具体地，聚合可以是指将多个数据合并为一个或多个数据。例如可以对一个月的数据进行统计，得到统计数据。统计可以是求和、求平均值以及求最小值等。聚合维度是用于确定聚合时是基于哪个维度进行聚合的，即聚合的角度。例如，如果是基于地理区域维度统计平均值，则计算各个地理区域的数据的平均值。如果是基于性别维度统计年龄的平均值，则计算各个性别的年龄平均值。聚合算法是指聚合的计算方法。可以是求和、求最大值、求最小值、计算数据个数、设置新值、随机选值、求最新值、求最旧值以及计算百分比中的一个或多个。用户可以根据需要选择进行聚合的维度，例如从产品的角度，可以按产品的类别、品牌以及型号中的一个或多个维度进行聚合，以查看产品的销售情况；从客户的角度，可以按客户的类别及地区中的一个或多个维度进行聚合，以查看产品的购买情况；从销售代表的角度，可以按销售代表的部门以及级别中的一个或多个维度进行聚合，以查看产品销售业绩。分布式存储集群根据聚合维度，利用聚合算法对目标待处理数据进行处理，得到聚合维度对应的聚合结果，作为查询结果。

本发明实施例通过对数据进行聚合，能够减少数据存储量。例如，在海量数据存储场景中，数据的存储成本是一个痛点，而使用数据时，通常只需要最近时间段内的高精度数据，而历史数据只需降低时间精度保存即可。因此用户可以通过设置任务信息，任务信息中包括任务的执行时间间隔，以每隔一段时间对对Elasticsearch集群中的历史数据做预聚合，将原始细时间粒度数据聚合为粗时间粒度数据。在聚合完成后，可删除原始细时间粒度的数据，只保留新的粗时间粒度数据，以降低历史数据的存储量。例如，将原始秒级粒度的数据预聚合为小时级粒度的数据，数据总量会下降3600倍。这样既能极大的降低存储成本，同时由于查询数据量的降低，能够显著提升查询的效率。

举个实际的例子，假设聚合维度为产品的类别，聚合算法为进行求和计算，数据处理范围对应的目标待处理数据为1月份的销售数据，则可以计算1月份各个产品类别的销售总数据，作为1月份的销售查询结果。

在一些实施例中，任务触发条件包括任务执行间隔，从分布式存储集群中获取任务信息，当任务触发条件满足时，根据数据处理范围以及数据处理规则生成目标数据处理任务包括：从分布式存储集群中获取任务信息中的任务执行时间间隔，获取上一次根据任务信息执行数据处理任务的历史执行时间，当确定当前时间与历史执行时间的间隔满足任务执行时间间隔时，确定任务触发条件满足，根据数据处理范围以及数据处理规则生成目标数据处理任务。

具体地，任务执行时间间隔表示上一次执行任务的时间与下一次执行任务的时间的间隔。例如，如果任务信息中的任务执行时间间隔为1小时，则根据任务信息每隔1小时执行一次任务。历史执行时间是指上一次执行数据处理任务的时间。当前时间是指当前的时间，可以存储上一次根据任务信息执行数据处理任务的历史执行时间，判断当前时间与历史执行时间的间隔是否大于或者等于任务执行时间间隔，如果是，则确定任务触发条件满足，根据数据处理范围以及数据处理规则生成目标数据处理任务。

在一些实施例中，任务管理节点还可以获取分布式存储集群的集群资源配置信息，根据集群资源配置信息确定任务并发数量。任务管理节点将目标数据处理任务发送给数据处理节点包括：将目标数据处理任务加入到任务等待队列中，基于任务并发数量从任务等待队列获取对应数量的目标数据处理任务，并发送到数据处理节点。

具体地，资源配置信息可包括软件资源配置信息以及硬件资源配置信息，软件资源可包括操作系统资源，如集群中配置的操作系统的版本以及处理查询请求的程序的处理能力等。硬件资源可包括内存以及处理器等资源。集群资源配置信息可以用于评价集群的运行能力，集群资源配置信息可以用集群所拥有的资源的资源总量来表示，资源总量越多，则任务并发数量越大。集群资源配置信息也可以用资源的占用量表示，资源的占用量越多，则任务并发数量越小。资源的占用量可以用集群负载表示，集群负载是对集群工作量的度量，负载过高则会由于工作量过大导致集群的运行系统崩溃。集群的负载可以用集群各个节点的cpu(Central Processing Unit，中央处理器)使用率、内存使用率以及运行的任务个数中的一个或多个来表示。负相关关系是指因变量值随自变量值的增大而减小，随自变量值的减小而增大。任务并发数量是指同时执行数据处理任务的数量。集群负载与任务并发数量成负相关关系，可以使得集群负载越大，则任务并发数量越小，可以减少因为查询请求过多，给集群带来过大的压力甚至使集群崩溃等情况发生。

任务等待队列中的任务是按照在队列的排列顺序依次发送到数据处理节点中的，将目标数据处理任务加入到任务等待队列中后，根据任务并发数量发送相同数量的任务到数据处理节点中，可以使得数据处理节点中处理的目标数据处理任务量与分布式存储集群的处理能力匹配，减少分布式存储集群的查询压力。例如，假设任务并发数量为8，则向数据处理节点发送8个目标数据处理任务，使得数据处理节点中同时处理的数据处理任务为8个。

在一些实施例中，可以根据集群的节点的cpu使用率、内存使用率来确定任务并发数量，例如，任务并发数量可以为：c*(d-a*sum(各数据存储节点cpu平均负载)-b*sum(各数据存储节点内存平均负载))/集群的数据存储节点数量。其中，sum是指求和。a,b,c,d为系数，具体可以根据需要设置，例如，a可以为0.2，b可以为0.8，c可以为2，d可以为30。cpu平均负载可以用预设时长内CPU在单位时间的平均使用率表示，内存平均负载可以用预设时长内内存在单位时间的平均占用率表示。如果计算得到的任务并发数量不是整数，则可以舍去小数点后面的数字，得到整数。本发明实施例中，根据集群资源配置信息确定任务并发数量，且任务并发数量与集群负载成负相关关系，因此可以在集群负载高时，减少任务并发数量，减轻集群的负载压力。在集群负载低时，提高任务并发数量，提高任务处理速度。

在一些实施例中，将目标数据处理任务加入到任务等待队列中，基于任务并发数量从任务等待队列获取对应数量的目标数据处理任务，并发送到数据处理节点包括：创建目标数据处理任务对应的任务等待队列，将目标数据处理任务加入到任务等待队列中，根据任务并发数量创建对应数量的任务调度单元；利用任务调度单元从任务等待队列中依次获取目标数据处理任务并发送给数据处理节点，当任务调度单元获取的目标数据处理任务在数据处理节点执行完成时，返回利用任务调度单元从任务等待队列中依次获取目标数据处理任务并发送给数据处理节点的步骤，直至任务等待队列的目标数据处理任务发送完毕。

具体地，任务调度单元用于进行任务调度，例如可以创建任务调度线程用于任务调度，任务调度单元的数量与任务并发数量相同。可以创建任务等待队列，将目标数据处理任务加入到任务等待队列中。任务等待队列中的任务是按照在队列的排列顺序依次发送到数据处理节点中的。执行完成是指目标数据已经写入到分布式存储集群中。一个任务调度单元一次可以从任务等待队列中调度一个数据处理任务。当任务调度单元所调度的目标数据处理任务在数据处理节点中执行完成，如果任务等待队列中还有目标数据待处理任务，则任务调度单元继续从任务等待队列中获取目标数据处理任务并发送给数据处理节点，即返回利用任务调度单元从任务等待队列中依次获取目标数据处理任务并发送给数据处理节点的步骤，直至任务等待队列的目标数据处理任务发送完毕。

在一些实施例中，数据处理节点有多个，任务调度单元也有多个，在发送数据处理任务时，利用任务调度单元从任务等待队列中依次获取目标数据处理任务并发送给数据处理节点包括：获取各个数据处理节点对应的任务执行状态，当查找到任务执行状态为完成的目标数据数据处理节点时，利用任务调度单元从任务等待队列中依次获取目标数据处理任务，发送给目标数据数据处理节点。

具体地，任务管理节点可以向各个数据处理节点发送数据处理任务。可以是一个任务调度单元对应一个数据处理节点，即一个任务调度单元向一个数据处理节点发送数据处理任务。例如假设任务并发数量有2个，创建了2个任务调度单元：r1以及r2，数据处理节点有3个：s1、s2以及s3。则可以利用r1任务调度单元向s1发送任务等待队列中的第1个数据处理任务，可以利用r2任务调度单元向s2发送任务等待队列中的第2个数据处理任务，任务管理节点可以轮询各个数据处理节点的任务处理状态，假设第2个数据处理任务处理完毕，则s2为目标数据处理节点，利用r2任务调度单元向s2发送任务等待队列中的第3个数据处理任务。

在一些实施例中，至少一个数据处理节点与分布式存储集群中的至少一个数据存储节点设置在同一计算机设备上，设置于同一计算机设备上的数据处理节点与数据存储节点之间相互独立运行，向分布式存储集群发送数据查询请求包括：根据目标数据处理任务生成数据查询请求，向位于同一计算机设备上的数据存储节点发送数据查询请求。

具体地，数据处理节点与分布式存储集群中的数据存储节点可以是设置在同一个计算机设备上。在该计算机设备中，数据处理节点与数据存储节点之间相互独立运行，即数据处理节点与数据存储节点之间的运行环境相互隔离，互不干扰。例如可以在一个服务器中通过虚拟机技术虚拟得到具有完整硬件系统功能的、运行在相互隔离的环境中的多个完整计算机系，将其中的一个计算机体系作为数据处理节点，将另一个计算机体系作为数据存储节点。数据处理节点在接收到数据处理任务时，如果存在位于同一计算机设备的数据存储节点，则向该数据存储节点发送数据存储请求。通过在同一计算机设备中设置数据处理节点与数据存储节点，可以实现计算机设备资源的有效利用，而且还可以设置数据存储节点与数据处理节点位于同一局域网中，使得同一主机上设置的数据处理节点以及数据存储节点可以通过局域网相互访问，提高访问速度。

如图4所示，为一些实施例中计算机设备上设置的节点的示意图，第一计算机设备上可以设置有数据存储节点g1、数据存储节点h1以及数据处理节点k1，第二计算机设备上可以设置有数据存储节点g2、数据存储节点h2以及数据处理节点k2，第三计算机设备上可以设置有数据存储节点g3、数据存储节点h3以及数据处理节点k3。数据存储节点g1、数据存储节点g2以及数据存储节点g3属于分布式存储集群g，数据存储节点h1、数据存储节点h2以及数据存储节点h3属于分布式存储集群h。任务管理节点可以管理分布式存储集群g以及分布式存储集群h，任务管理节点获取得到目标数据处理任务后，发送到各个数据处理节点，数据处理节点将数据查询请求发送到位于同一计算机设备上的数据存储节点中，由该数据处理节点进行数据处理，得到查询结果后返回给数据处理节点，数据处理节点对查询结果进行数据解析，得到目标数据，将目标数据发送给位于同一计算机设备上的数据存储节点，以存储到分布式存储集群中。

在一些实施例中，将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中包括：获取查询结果对应的属性名称以及属性值，将属性名称作为属性对象中的键名，将属性值作为属性对象中的键值，得到属性对象；将查询结果作为查询结果对象中的键值，将数据查询结果名称作为查询结果对象中的键名，得到查询结果对象；将属性对象以及查询结果对象组合成文本格式的目标对象数据，将目标对象作为目标数据写入到分布式存储集群中。

具体地，分布式存储集群中存储的数据是以键值对的方式存储的，例如可以是以json(JavaScript Object Notation,JS对象简谱))数据格式。在json中，数据以对象为单位进行存储，一个对象可以嵌套有多个子对象。对象通过键值对(key-value)表示，键名为key，键值为value。得到查询结果后，获取查询结果对应的属性名称，例如假设查询结果为服务器的监控统计数据，则获取各个监控统计数据对应的属性信息。假设监控统计数据要获取的属性信息为服务器所属的地理区域。则属性名称可以为“地理区域”，属性值为各个地理区域的具体名称，例如“北京”、“上海”等，假设监控统计数据要获取的属性信息为数据对应的月份。则属性名称可以为“月份”，属性值为该月份的名称，例如“1月份”、“2月份”等。查询结果对象的键名为查询结果的名称，具体根据查询结果确定。例如假设查询结果为8月份的监控数据统计结果，则查询结果的名称可以为“8月份监控数据统计结果”。

得到属性对象以及查询结果对象后，将属性对象以及查询结果对象组成聚合维度下数据元素对应的目标对象，一个数据元素对应的目标对象可以作为一条文本格式的json数据。这样查询结果作为数据写入到了分布式存储集群中，用户可以在分布式存储集群中对该目标数据进行查询。举个实际的例子，假设查询结果为1月份各个ip地址的服务器的流量监控数据，服务器的属性包括地理区域以及月份，则属性对象包括表示月份属性的属性对象以及表示地理区域的属性对象，查询结果对象为流量监控数据查询结果对象，一个ip地址对应一个目标对象。可以理解，由于一个数据处理维度例如聚合维度下可以包括多个数据元素，因此一个数据元素可以对应一个目标对象。例如，当聚合维度为ip地址时，具有多个ip地址，查询结果包括各个ip地址对应的服务器监控数据，则一个ip地址可以对应一个目标对象。

在一些实施例中，将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中包括：在所述分布式存储集群中创建数据存储索引，将所述目标对象写入到所述数据存储索引中。

数据存储索引是用于存储文档类型的数据的单元，一个数据存储索引中可以包括多个对象。数据存储索引例如可以是elasticsearch的索引(index)。通过创建数据存储索引，将目标对象存储到数据存储索引中，这样，在查询目标数据时，可以在创建的数据存储索引中进行查询，提高查询效率。由于一个数据存储索引分配的存储空间是有限的，即存储的数据量是有所限制的，因此，在一个数据存储索引对应的存储空间已满的时候，再创建新的数据存储索引，用于存储新产生的目标数据，在写入目标数据时，可以按照得到目标数据的时间将目标数据依次写入数据存储索引中。这样，数据存储索引是随着目标数据的增加滚动生成的，即随着时间滚动生成的，当存储的目标数据存在有效期时，可以按照数据存储索引的生成顺序依次删除过期的数据存储索引，方便快捷。

在一些实施例中，当目标数据写入到分布式存储集群后，任务管理节点还更新任务的执行状态以及更新任务信息中的上次聚合任务处理的执行时间。如果执行状态为成功，则任务管理节点在任务信息的任务触发条件满足时，再次生成目标数据处理任务。如果执行状态为失败，则可以重新生成目标数据处理任务。

在一些实施例中，数据处理节点在生成查询请求时，可以对查询结果的数据量进行估计，根据估计的查询结果的数据量计算目标数据处理任务对应的查询请求的个数，其中，估计的查询结果的数据量与查询请求的次数成正相关关系，即估计的查询结果的数据量越大，则查询请求的次数越多。例如，在Elasticsearch分布式存储集群中，可以根据任务信息创建Aggregation Search(聚合搜索)请求，得到以用户指定的时间粒度进行聚合的聚合结果。可以先利用Elasticsearch的Cardinality Aggregation预估聚合后的总数据量。而后用总数量除以K计算出查询次数N，K为一次查询允许获取的最大数据量,可以根据需要设置。然后利用Elasticsearch集群的Terms Aggregation Partition功能分N次查询，获取聚合结果。从而将一个任务对应的大查询划分为N个小查询，避免大查询给集群带来过大的压力甚至使集群崩溃等情况。Agent解析N次查询得到的聚合结果后，将查询结果解析为json格式的数据，通过Elasticsearch集群的接口批量写入用户指定的索引中。其中，Cardinality Aggregation指基数集合，可以基于文档的一些文档值，计算文档非重复的个数。Terms Aggregation Partition是指将基于字段对聚合任务进行划分，可以是一个字段对应一个聚合任务。

在一些实施例中，接收到任务配置请求后，分布式存储集群可以对任务配置请求中的信息进行校验，如果校验得到请求非法，例如任务配置请求对应的任务为对用户不具有管理权限的数据进行处理，则请求非法，向用户设备返回请求错误的信息。

在一些实施例中，任务信息与目标数据具有绑定关系，当根据用户的操作删除了任务信息，则管理节点可以删除分布式存储集群中依据该任务信息创建的任务处理得到的目标数据。当然也可以设置任务信息与目标数据也可以不具有绑定关系，这样，即使根据用户的操作删除了任务信息，也不会删除分布式存储集群中依据该任务信息创建的任务处理得到的目标数据。

图5为一些实施例中利用数据处理系统实现数据处理方法的交互时序图，包括以下步骤：

S1:发送任务配置请求。

具体地，用户在需要配置数据处理任务时，可以在用户设备上点击任务配置对应的按键，并设置任务信息，向分布式存储集群发送任务配置请求。

S2:存储任务信息。

具体地，分布式存储集群中的数据存储节点可以将任务信息存储在预先设置的存储任务信息的索引中。

S3:获取任务信息。

具体地，任务管理节点可以轮询各个分布式存储集群的任务信息。

S4:生成目标数据处理任务。

具体地，当任务管理节点根据任务信息确定任务触发条件满足时，则生成目标数据处理任务。

S5:发送目标数据处理任务。

具体地，任务管理节点向数据处理节点发送目标数据处理任务。

S6:生成查询请求。

具体地，数据处理节点根据目标数据处理任务生成查询请求。

S7:发送查询请求。

具体地，数据处理节点向分布式存储集群发送查询请求，例如，可以向分布式集群中与数据处理节点设置于同一计算机设备的数据存储节点发送查询请求。

S8:进行数据处理，得到数据查询请求对应的查询结果。

具体地，分布式存储集群根据数据查询请求进行数据处理，得到数据查询请求对应的查询结果。

S9:返回查询结果。

具体地，分布式存储集群中的数据存储节点向数据处理节点返回查询结果。

S10:将查询结果解析为符合预设数据格式的目标数据。

具体地，数据处理节点将查询结果解析为符合预设数据格式的目标数据，例如解析为json格式的数据。

S11:写入目标数据。

具体地，数据处理节点将目标数据写入到分布式存储集群中。

S12:返回任务执行状态。

具体地，数据处理节点可以向任务管理节点返回任务执行状态，任务执行状态可以是任务执行成功或者任务执行失败。

S13:发送数据删除指令。

具体地，如果任务执行状态为任务执行成功，则任务管理节点向分布式存储集群发送数据删除指令

S14:发送数据获取请求。

具体地，当用户需要查询数据时，可以通过用户设备向分布式存储集群发送数据获取请求，数据获取请求中可以携带查询的条件。

S15:从目标数据中获取数据获取请求对应的数据。

具体地，由于分布式存储集群中已经存储了根据用户请求进行数据处理得到的目标数据，因此分布式存储集群从目标数据中符合数据获取请求中的查询条件的数据。

S16:返回数据获取请求对应的数据。

具体地，分布式存储集群向用户设备返回数据获取请求对应的数据。

如图6所示，在一些实施例中，提出了一种数据处理方法，本实施例主要以该方法应用于上述图1中的数据处理节点123来举例说明。具体可以包括以下步骤：

步骤S602，获取目标数据处理任务，目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据任务信息生成的，任务信息是分布式存储集群根据用户请求存储的。

步骤S604，根据目标数据处理任务生成数据查询请求，向分布式存储集群发送数据查询请求，以使得分布式存储集群根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果。

步骤S606，将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中。

在一些实施例中，如图7所示，步骤S606即将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中包括：

步骤S702，获取查询结果对应的属性名称以及属性值，将属性名称作为属性对象中的键名，将属性值作为属性对象中的键值，得到属性对象。

步骤S704，将查询结果作为查询结果对象中的键值，将查询结果名称作为查询结果对象中的键名，得到查询结果对象。

步骤S706，将属性对象以及查询结果对象组合成文本格式的目标对象，将目标对象作为目标数据写入到分布式存储集群中。

以下以分布式存储集群是为用户提供云存储服务的云存储系统，分布式存储集群以json格式存储数据为例，对本发明实施例提供的数据处理方法进行说明，云存储系统为包括多个数据存储节点，对外提供数据存储和业务访问功能的系统，用户可以通过购买或租赁存储空间的方式，来满足数据存储的需求，用户所存储的数据被分布在众多的数据存储节点上。

由于数据是随着时间不断增加的，例如存储的服务器流量监控数据是每一秒钟的流量数据，而用户购买的存储空间是有限的，而用户对历史流量数据的数据粒度要求比较低，因此可以将历史流量数据由细时间粒度数据聚合为粗时间粒度数据，以减少数据量。例如将每一秒钟的流量数据聚合为每一小时的流量数据，则数据总量会下降3600倍。因此用户可以通过用户设备发送任务配置请求，请求每隔一小时，则将过去一小时中每一秒钟的流量数据统计为每一小时的流量数据，分布式存储集群存储任务配置请求中的任务信息。任务管理节点轮询各个分布式存储集群的任务信息，根据任务信息确定每间隔一小时，则触发生成目标数据处理任务，该目标数据处理任务的数据处理范围为该用户对应的数据存储空间中过去一小时产生的数据，数据处理规则为对流量数据进行求和，处理维度为以服务器为维度，即分别求和得到每台服务器的流量数据，由于设置的任务信息可以有多个，例如可以是多个用户均设置了任务信息，因此生成的目标数据处理任务可以有多个。

生成的目标数据处理任务后，任务管理节点将生成的目标数据处理任务加入到任务等待队列中，根据分布式存储集群的集群资源配置信息确定任务的并发数量，向数据处理节点发送对应数量的目标数据处理任务，这样，数据处理节点可以根据目标数据处理任务，向分布式存储集群发送查询请求，由分布式存储集群对过去一小时产生的每秒钟的流量数据进行求和，得到以小时为时间单位计算的目标流量数据，数据处理节点对每台服务器的目标流量数据进行解析，得到json格式的目标数据，一台服务器可以对应目标数据中的一个目标对象，数据处理节点将目标数据再写入到分布式存储集群中，任务管理节点在确定目标流量数据已经存储到分布式存储集群后，删除分布式存储集群存储的过去一小时产生的每秒钟的流量数据，因此可以减少分布式存储集群中存储的数据的数据量，而且用户在进行流量数据查询时，由于每小时的流量数据是解析为符合分布式存储集群的存储格式的数据，因此可以对每小时的流量数据进行查询。

如图8所示，在一些实施例中，提供了一种数据处理装置，该数据处理装置可以集成于上述的数据处理节点123中，具体可以包括任务获取模块802，查询模块804以及解析模块806。

任务获取模块802，用于获取目标数据处理任务，目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据任务信息生成的，任务信息是分布式存储集群根据用户请求存储的。

查询模块804，用于根据目标数据处理任务生成数据查询请求，向分布式存储集群发送数据查询请求，以使得分布式存储集群根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果。

解析模块806，用于将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中。

在一些实施例中，如图9所示，解析模块806包括

属性对象得到单元806A，用于获取查询结果对应的属性名称以及属性值，将属性名称作为属性对象中的键名，将属性值作为属性对象中的键值，得到属性对象。

查询结果对象得到单元806B，用于将查询结果作为查询结果对象中的键值，将查询结果名称作为查询结果对象中的键名，得到查询结果对象。

目标对象得到单元806C，用于将属性对象以及查询结果对象组合成文本格式的目标对象，将目标对象作为目标数据写入到分布式存储集群中。

图10示出了一些实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的任务执行节点123。如图10所示，该计算机设备包括通过系统总线连接的处理器、存储器以及网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行数据处理方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，本申请提供的数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图10所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据处理装置的各个程序模块，比如，图8所示的任务获取模块802，查询模块804以及解析模块806。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据处理方法中的步骤。例如，图10所示的计算机设备可以通过如图10所示的数据处理装置中的任务获取模块802获取目标数据处理任务，目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据任务信息生成的，任务信息是分布式存储集群根据用户请求存储的。通过查询模块804根据目标数据处理任务生成数据查询请求，向分布式存储集群发送数据查询请求，以使得分布式存储集群根据目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据目标数据处理任务对应的数据处理规则对目标待处理数据进行处理，得到数据查询请求对应的查询结果。通过解析模块806将查询结果解析为符合预设数据格式的目标数据，将目标数据写入到分布式存储集群中。

在一些实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述数据处理方法的步骤。此处数据处理方法的步骤可以是上述各个实施例的数据处理方法中的步骤。在一些实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述数据处理方法的步骤。此处数据处理方法的步骤可以是上述各个实施例的数据处理方法中的步骤。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种数据处理系统，所述数据处理系统包括任务管理节点以及数据处理节点，其中，

所述任务管理节点，用于从分布式存储集群中获取任务信息，获取所述分布式存储集群的集群资源配置信息，根据所述集群资源配置信息确定任务并发数量，根据所述任务信息生成目标数据处理任务，将所述目标数据处理任务发送给所述数据处理节点，包括：创建所述目标数据处理任务对应的任务等待队列，将所述目标数据处理任务加入到任务等待队列中；根据所述任务并发数量创建对应数量的任务调度单元；利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点；当所述任务调度单元获取的目标数据处理任务在所述数据处理节点执行完成时，返回利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点的步骤，直至所述任务等待队列的目标数据处理任务发送完毕，所述任务信息是所述分布式存储集群根据用户请求存储的，所述任务信息是携带在任务配置请求中，所述任务配置请求是终端向所述分布式存储集群发送的，所述分布式存储集群将所述任务信息存储在集群中，所述任务信息配置了与任务相关的信息，包括任务的触发条件、任务的数据处理范围以及数据的处理规则，所述任务管理节点在满足所述任务的触发条件时，生成数据处理任务；

所述数据处理节点，用于根据所述目标数据处理任务生成数据查询请求，向所述分布式存储集群发送所述数据查询请求，以使得所述分布式存储集群根据所述目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据所述目标数据处理任务对应的数据处理规则对所述目标待处理数据进行处理，得到所述数据查询请求对应的查询结果；

所述数据处理节点，还用于将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中，所述分布式存储集群当接收到用户设备发送的数据获取请求时，根据所述目标数据及时返回对应的查询数据。

2.根据权利要求1所述的系统，其特征在于，所述资源配置信息包括软件资源配置信息以及硬件资源配置信息。

3.根据权利要求2所述的系统，其特征在于，所述根据所述集群资源配置信息确定任务并发数量包括：根据集群的节点的cpu使用率、内存使用率来确定任务并发数量。

4.根据权利要求3所述的系统，其特征在于，所述数据处理节点包括多个，所述利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点包括：

获取各个所述数据处理节点对应的任务执行状态，当查找到任务执行状态为完成的目标数据数据处理节点时，利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务，发送给所述目标数据数据处理节点。

5.根据权利要求1所述的系统，其特征在于，至少一个所述数据处理节点与所述分布式存储集群中的至少一个数据存储节点设置在同一计算机设备上，设置于同一计算机设备上的数据处理节点与数据存储节点之间相互独立运行，所述向所述分布式存储集群发送所述数据查询请求包括：

根据所述目标数据处理任务生成数据查询请求，向位于同一计算机设备上的数据存储节点发送所述数据查询请求。

6.根据权利要求1所述的系统，其特征在于，所述将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中包括：

获取所述查询结果对应的属性名称以及属性值，将所述属性名称作为属性对象中的键名，将所述属性值作为所述属性对象中的键值，得到所述属性对象；

将所述查询结果作为查询结果对象中的键值，将查询结果名称作为所述查询结果对象中的键名，得到所述查询结果对象；

将所述属性对象以及所述查询结果对象组合成文本格式的目标对象，将所述目标对象作为所述目标数据写入到所述分布式存储集群中。

7.根据权利要求6所述的系统，其特征在于，所述将所述目标对象作为所述目标数据写入到所述分布式存储集群中包括：

在所述分布式存储集群中创建数据存储索引，将所述目标对象写入到所述数据存储索引中。

8.根据权利要求1所述的系统，其特征在于，所述数据处理系统包括所述分布式存储集群，其中，

所述分布式存储集群，用于接收用户设备发送的任务配置请求，所述任务配置请求中携带所述任务信息，存储所述任务配置请求对应的任务信息，所述任务信息包括任务触发条件、所述数据处理范围以及所述数据处理规则；

所述任务管理节点，用于从所述分布式存储集群中获取任务信息，当所述任务触发条件满足时，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务。

9.根据权利要求8所述的系统，其特征在于，所述目标数据处理任务包括目标数据聚合任务，所述数据处理规则包括聚合算法以及聚合维度，

所述分布式存储集群，用于获取所述数据处理范围对应的数据作为所述目标待处理数据，根据所述聚合维度，利用所述聚合算法对所述目标待处理数据进行处理，得到所述聚合维度对应的聚合结果，作为所述查询结果。

10.根据权利要求8所述的系统，其特征在于，所述任务触发条件包括任务执行时间间隔，所述从所述分布式存储集群中获取任务信息，当所述任务触发条件满足时，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务包括：

从所述分布式存储集群中获取所述任务信息中的任务执行时间间隔，获取上一次根据所述任务信息执行数据处理任务的历史执行时间，当确定当前时间与所述历史执行时间的间隔满足所述任务执行时间间隔时，确定所述任务触发条件满足，根据所述数据处理范围以及所述数据处理规则生成所述目标数据处理任务。

11.根据权利要求1所述的系统，其特征在于，所述数据处理系统包括所述分布式存储集群，其中，

所述分布式存储集群，用于接收用户设备发送的数据获取请求，根据所述数据获取请求调用所述预设数据格式对应的数据查询接口，利用所述数据查询接口从所述目标数据中查询得到所述数据获取请求对应的数据，将所述数据获取请求对应的数据返回给所述用户设备。

12.根据权利要求1所述的系统，其特征在于，

所述任务管理节点，用于当确认所述目标数据写入到所述分布式存储集群中时，从所述分布式存储集群中删除所述目标待处理数据。

13.一种数据处理方法，所述方法包括：

获取目标数据处理任务，所述目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据所述任务信息生成的，所述任务信息是所述分布式存储集群根据用户请求存储的，所述任务信息是携带在任务配置请求中，所述任务配置请求是终端向所述分布式存储集群发送的，分布式存储集群将所述任务信息存储在集群中，所述任务信息配置了与任务相关的信息，包括任务的触发条件、任务的数据处理范围以及数据的处理规则，所述任务管理节点在满足所述任务的触发条件时，生成数据处理任务；所述目标数据处理任务用于从所述任务管理节点发送给数据处理节点，包括：所述任务管理节点获取所述分布式存储集群的集群资源配置信息，根据所述集群资源配置信息确定任务并发数量，创建所述目标数据处理任务对应的任务等待队列，将所述目标数据处理任务加入到任务等待队列中；根据所述任务并发数量创建对应数量的任务调度单元；利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点；当所述任务调度单元获取的目标数据处理任务在所述数据处理节点执行完成时，返回利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点的步骤，直至所述任务等待队列的目标数据处理任务发送完毕；

根据所述目标数据处理任务生成数据查询请求，向所述分布式存储集群发送所述数据查询请求，以使得所述分布式存储集群根据所述目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据所述目标数据处理任务对应的数据处理规则对所述目标待处理数据进行处理，得到所述数据查询请求对应的查询结果；

将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中，所述分布式存储集群当接收到用户设备发送的数据获取请求时，根据所述目标数据及时返回对应的查询数据。

14.根据权利要求13所述的方法，其特征在于，所述将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中包括：

获取所述查询结果对应的属性名称以及属性值，将属性名称作为属性对象中的键名，将属性值作为属性对象中的键值，得到属性对象；

将所述查询结果作为查询结果对象中的键值，将查询结果名称作为查询结果对象中的键名，得到查询结果对象；

15.一种数据处理装置，所述装置包括：

任务获取模块，用于获取目标数据处理任务，所述目标数据处理任务是任务管理节点从分布式存储集群中获取任务信息，根据所述任务信息生成的，所述任务信息是所述分布式存储集群根据用户请求存储的，所述任务信息是携带在任务配置请求中，所述任务配置请求是终端向所述分布式存储集群发送的，所述分布式存储集群将所述任务信息存储在集群中，所述任务信息配置了与任务相关的信息，包括任务的触发条件、任务的数据处理范围以及数据的处理规则，所述任务管理节点在满足所述任务的触发条件时，生成数据处理任务，所述目标数据处理任务用于从所述任务管理节点发送给数据处理节点，包括：所述任务管理节点获取所述分布式存储集群的集群资源配置信息，根据所述集群资源配置信息确定任务并发数量，创建所述目标数据处理任务对应的任务等待队列，将所述目标数据处理任务加入到任务等待队列中；根据所述任务并发数量创建对应数量的任务调度单元；利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点；当所述任务调度单元获取的目标数据处理任务在所述数据处理节点执行完成时，返回利用所述任务调度单元从所述任务等待队列中依次获取目标数据处理任务并发送给所述数据处理节点的步骤，直至所述任务等待队列的目标数据处理任务发送完毕；

查询模块，用于根据所述目标数据处理任务生成数据查询请求，向所述分布式存储集群发送所述数据查询请求，以使得所述分布式存储集群根据所述目标数据处理任务对应的数据处理范围获取对应的目标待处理数据，根据所述目标数据处理任务对应的数据处理规则对所述目标待处理数据进行处理，得到所述数据查询请求对应的查询结果；

解析模块，用于将所述查询结果解析为符合预设数据格式的目标数据，将所述目标数据写入到所述分布式存储集群中，所述分布式存储集群当接收到用户设备发送的数据获取请求时，根据目标数据及时返回对应的查询数据。

16.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求13至14中任一项权利要求所述数据处理方法的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求13至14中任一项权利要求所述数据处理方法的步骤。