CN104102646A

CN104102646A - 数据处理的方法、装置及系统

Info

Publication number: CN104102646A
Application number: CN201310117121.XA
Authority: CN
Inventors: 廖龙; 秦晓强; 答治茜; 罗建国
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-04-07
Filing date: 2013-04-07
Publication date: 2014-10-15
Anticipated expiration: 2033-04-07
Also published as: CN104102646B

Abstract

本发明公开了一种数据处理的方法、装置及系统，涉及电通信技术领域，能够解决系统整体处理效率低下的问题。本发明的方法包括：获取当前批次数据并确定当前处理节点数量；根据所述当前处理节点数量对所述当前批次数据进行平均切片，获得与所述当前处理节点数量等同的至少两个数据子集；将所述至少两个数据子集分配给各个当前处理节点进行处理。本发明主要应用于网络数据处理的过程中。

Description

数据处理的方法、装置及系统

技术领域

本发明涉及电通信技术领域，尤其涉及一种数据处理的方法、装置及系统。

背景技术

随着互联网的普及和发展，网络侧的数据量成几何形态增长，如何利用有限的处理节点对庞大的数据量进行有效处理，已然成为业界面临的一大课题。

目前比较主流的数据处理方式为：系统根据数据的属性信息对数据进行分类，将不同类别的数据分配给不同的处理节点进行处理。例如，系统可以根据数据类型、数据关键字或者数据来源对数据进行分类，每个处理节点处理一种类别的数据。这种数据处理的方式能够较好的利用处理节点的性能差异对不同类别的数据进行处理，实现对数据的专一化处理。

在上述数据处理的过程中，发明人发现现有技术中至少存在如下问题：由于系统根据数据的类别对处理节点进行数据分配，各个处理节点分配到的数据量往往彼此不同，因此会常常出现某些处理节点数据量较少、某些处理节点数据量较大的情况。由于系统整体的处理效率是基于系统中所有处理节点的处理效率而言的，只有在所有处理节点均完成各自的数据处理任务后系统的数据处理任务才算完成，所以如果某个处理节点分配的数据量过大，则该处理节点处理数据所耗费的时间过长，继而会影响到系统整体的处理效率。

发明内容

本发明实施例提供一种数据处理的方法、装置及系统，能够解决系统整体处理效率低下的问题。

一方面，本发明实施例提供了一种数据处理的方法，包括：

获取当前批次数据并确定当前处理节点数量；

根据所述当前处理节点数量对所述当前批次数据进行平均切片，获得与所述当前处理节点数量等同的至少两个数据子集；

将所述至少两个数据子集分配给各个当前处理节点进行处理。

另一方面，本发明实施例还提供了一种数据处理的装置，包括：

获取单元，用于获取当前批次数据；

确定单元，用于确定当前处理节点数量；

处理单元，用于根据所述确定单元确定的所述当前处理节点数量对所述获取单元获取的所述当前批次数据进行平均切片，获得与所述当前处理节点数量等同的至少两个数据子集；

发送单元，用于将所述处理单元获得的所述至少两个数据子集分配给各个当前处理节点进行处理。

再一方面，本发明实施例还提供了一种数据处理的系统，包括：中央控制设备以及至少两个处理节点，其中，所述中央控制设备包含前述数据处理的装置；

所述中央控制设备，用于获取当前批次数据并确定当前处理节点数量，根据所述当前处理节点数量对所述当前批次数据进行平均切片，获得与所述当前处理节点数量等同的至少两个数据子集，将所述至少两个数据子集分配给各个当前处理节点进行处理；

所述当前处理节点，用于获取所述中央控制设备分配的数据子集，并对所述数据子集进行处理。

本发明实施例提供的数据处理的方法、装置及系统，能够获取当前批次数据并确定当前处理节点数量，然后根据当前处理节点数量对当前批次数据进行平均切片，获得与当前处理节点数量等同的至少两个数据子集，最后将至少两个数据子集分配给各个当前处理节点进行处理。与现有技术中根据数据类型、数据关键字或者数据来源等数据属性信息为处理节点分配数据相比，可以将数据平均分配给各个处理节点，由此使得处理节点之间不会存在过大的数据量差异，继而解决个别处理节点处理时间过长的问题，从而提高系统整体的处理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所基于的数据处理的系统示意图；

图2为本发明实施例中数据处理的方法流程图；

图3为本发明实施例中向当前处理节点分配数据子集的示意图；

图4为本发明实施例中另一个数据处理的方法流程图；

图5(a)为本发明实施例中对当前批次数据进行排序的示意图；

图5(b)为本发明实施例中为数据子集轮询分配数据的示意图；

图5(c)为本发明实施例中另一个为数据子集轮询分配数据的示意图；

图5(d)为本发明实施例中再一个为数据子集轮询分配数据的示意图；

图5(e)为本发明实施例中为数据子集轮询分配数据的效果图；

图6为本发明实施例中再一个数据处理的方法流程图；

图7为本发明实施例中第一个数据处理装置的结构示意图；

图8为本发明实施例中第二个数据处理装置的结构示意图；

图9为本发明实施例中第三个数据处理装置的结构示意图；

图10为本发明实施例中第四个数据处理装置的结构示意图；

图11为本发明实施例中第五个数据处理装置的结构示意图；

图12为本发明实施例中数据处理的系统示意图。

具体实施方式

下面将结合本实施例中的附图，对本实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一个典型的数据处理系统包括一个中央控制设备以及多个处理节点。中央控制节点用于为各个处理节点分配待处理数据，并且对处理节点的数据处理过程进行监测和控制；处理节点用于接收中央控制设备分配的数据，对接收的数据进行诸如分析、提取等处理，并将处理完毕的反馈给中央控制设备。如图1中直线所示，中央控制设备与各个处理节点之间具有连接关系，用于与处理节点进行数据交互或者向处理节点发送控制信令。

下面，基于图1所示的系统架构对本实施例进行说明。

为提高系统整体的数据处理效率，本实施例提供了一种数据处理的方法，如图2所示，所述方法包括：

201、获取当前批次数据并确定当前处理节点数量。

通常，中央控制设备按照批次获取数据，并将获取的数据分配给各个处理节点进行处理。例如对于某社交网站产生的数据，中央控制设备可以在每天00：00时获取前一天所有用户的数据，然后在00：00时以后将获取的数据分配各处理节点进行处理。本实施例以批次作为数据处理单位对本实施例的实现方式进行说明，但不对每一批次数据的数据来源、数据量大小或者数据内容进行限制。

所述当前批次数据为当前待处理的数据，与其对应的还包括前一批次数据以及下一批次数据。当前批次数据的表述仅为着眼于单一批次数据对本实施例进行说明，实际应用中数据处理系统处理的批次数量包括但不仅限于一个批次数据。

在获取到当前批次数据后，中央控制设备确定当前处理节点数量，所述当前处理节点的数量不多于数据处理系统中处理节点的总数量。例如，在图1中，数据处理系统中共有20个处理节点，中央控制设备可以选择其中的8个处理节点对当前批次数据进行处理。

在本实施例中，中央控制设备结合服务质量(Quality of Service，简称QoS)要求以及节约系统资源等因素确定处理节点的数量，其中所述QoS主要是指满足用户服务要求的数据处理时长，中央控制设备通常可以在处理各批次数据的过程中获取运营商发送的时长要求反馈，当数据处理时长超过时长要求时，中央控制设备需要增加处理节点的数量，以便分担其他处理节点的负荷。同时，中央控制设备还需要在满足QoS的基础上尽量降低处理节点的数量，由此节约系统资源。

需要说明的是，中央控制设备在确定当前处理节点数量时，可以不针对具体的处理节点进行选择。中央控制设备在确定处理节点数量后，可以在20个处理节点中随机选择出8个处理节点处理当前批次数据。优选的，中央控制设备按照处理节点设备编号从小到大的顺序，连续选取8个处理节点作为当前处理节点，例如选择图1中设备编号为1、2、3、4、5、6、7以及8的8个处理节点作为当前处理节点。

中央控制设备随机选择处理节点的前提是数据处理系统中所有处理节点均为同质处理节点，即各个处理节点的处理效率相同。所谓处理效率相同具体可以是每个处理节点在单位时间内处理的数据量相同。本实施例后续基于这一前提进行说明。

202、根据当前处理节点数量对当前批次数据进行平均切片。

在确定当前处理节点数量后，中央控制设备根据当前处理节点数量对当前批次数据进行平均切片，获得与当前处理节点数量等同的至少两个数据子集。例如，当当前处理节点数量为8时，中央控制设备将当前批次数据平均切分为8等分，得到8个数据子集。

通常待处理数据的基本单位为条，一个批次的数据包含多条数据。所谓对当前批次数据进行平均切片是指对当前批次数据整体进行切分，获得包含数据条数相等的多个数据子集。例如当前批次数据包含24000条数据，将24000条数据平均切分成8等分，获得每等分为3000条数据的数据子集。本实施例以一条数据作为数据切片的最小粒度进行说明，实际应用中还可以对某条数据做进一步切分，获得更小的切分粒度。此外在实际应用中，数据的基本单位还可以是页、块或者片，本实施例后续以条作为数据的基本单位进行说明，对于基于其他数据基本单位的实现方式不做赘述。

203、将至少两个数据子集分配给各个当前处理节点进行处理。

在获得与当前处理节点数量等同的多个数据子集后，中央控制设备通过与当前处理节点之间建立的连接关系为每一个数据节点分配一个数据子集进行处理。例如如图3所示，中央处理设备按照数据子集编号与处理节点设备编号一致的规则，将数据子集1至数据子集8依次分配给处理节点1至处理节点8进行处理。

此外，中央控制设备还可以将8个数据子集随机分配给8个处理节点，或者按照网络运营商的配置规则分配数据子集，本实施例对此不做具体限制。

现有技术中通常是通过数据类型、数据关键字或者数据来源等数据属性信息对待处理数据进行分类，然后将分类后的多个数据组分配给各个处理节点处理。以当前较为主流的映射化简(MapReduce)模型为例，MapReduce技术通过数据中的关键字(Key Word)对待处理数据进行分类，将包含同一类关键字的数据划分为一种类别的数据组。这种数据分类的方式主要依据数据内容对数据进行分类，而非依据数据量大小对数据进行分类。通常网络侧获取的数据内容随机性较大，这种依据数据内容分类数据的方式容易导致各个处理节点处理的数据量大小存在差异，特别是当出现热点事件时，对于网站获取的待处理数据，包含热点事件关键字的数据组的数据量会远大于包含其他关键字的数据组的数据量，由此使某些处理节点的处理时长远大其他处理节点的处理时长。通常只有当数据处理系统中的所有处理节点都完成数据处理后，数据处理系统才能处理下一批次的数据，因此当某个处理节点处理数据耗时过长时，将影响到数据处理系统的数据周转速度，同时对于数据处理耗时较短的处理节点，在等待其他处理节点的过程中还会对其自身的处理资源造成浪费。

本实施例提供的数据处理的方法，能够获取当前批次数据并确定当前处理节点数量，然后根据当前处理节点数量对当前批次数据进行平均切片，获得与当前处理节点数量等同的至少两个数据子集，最后将至少两个数据子集分配给各个当前处理节点进行处理。与现有技术中根据数据类型、数据关键字或者数据来源等数据属性信息为处理节点分配数据相比，可以将数据平均分配给各个处理节点，由此使得处理节点之间不会存在过大的数据量差异。由于数据量在处理节点之间的均衡等同于数据处理时长在各个处理节点之间的均衡，因此从数据处理系统整体来看，能够缩短系统的数据处理时长，并且避免部分处理节点闲置的情况，继而从缩短系统数据处理时长以及充分利用处理节点资源两方面提高系统整体的处理效率。

进一步的，作为对图2所示方法的详细说明及进一步扩展，本实施例还提供了一种数据处理的方法。如图4所示，所述方法包括：

401、获取当前批次数据。

本步骤的实现方式与图2中步骤201的相应实现方式相同，此处不再赘述。

402、确定当前处理节点数量。

具体的，中央控制设备确定当前处理节点数量的实现方式可以分为三个步骤：

402a、获取预设处理时长。

所述预设处理时长为满足QoS要求的处理时长，例如可以是2小时或者4小时。以2小时为例，当处理时长不超过2小时时，数据处理系统的处理时长能够满足QoS要求。本实施例中的预设处理时长可以是网络运营商根据用户行为习惯特点进行的设置，亦可以是根据网络运营条件进行的配置，本实施例对预设处理时长的具体数值不做限制。

402b、根据预设处理时长以及处理节点的标准处理效率计算标准数据子集的大小。

其中，所述处理节点的标准处理效率可以是处理节点单位时间处理的数据量，中央控制设备可以在系统初始配置的过程中从处理节点的出厂参数信息中获取该标准处理效率，也可以在数据处理的过程中监测处理节点的历次处理时长，然后计算处理节点的历次处理效率，通过对具有一定样本空间规模的处理效率的加权获得标准处理效率。

在获得预设处理时长以及处理节点的标准处理效率后，中央控制设备开始计算标准数据子集的大小。在计算标准数据子集大小的过程中，中央控制设备将预设处理时长与处理节点的标准处理效率相乘，获得单台处理节点在预设处理时长内可处理的数据量，即标准数据子集大小Y。计算标准数据子集大小Y的算法如下述公式(1)所示：

Y＝预设处理时长*单台处理节点的标准处理效率； (1)

402c、将当前批次数据与标准数据子集的大小相除，获得当前处理节点数量。

在计算出标准数据子集大小Y之后，中央控制设备将当前批次数据的数据量大小X除以标准数据子集大小Y，计算得到当前处理节点数量N。计算当前处理节点数量N的算法如下述公式(2)所示：

N＝X/Y； (2)

需要说明的是，由于计算标准数据子集大小Y所需的预设处理时长以及单台处理节点的标准处理效率始终不变，因此在处理每一批次数据时中央控制设备所计算得到的标准数据子集大小Y均相同。同时，又由于每一批次数据的数据量大小并不一定相同，因此在处理每一批次数据时中央控制设备所计算得到的当前处理节点数量N并不一定相同。

当计算得到的当前处理节点数量N不为整数时，中央控制设备可以对当前处理节点数量N进行取整调节。例如，当N为7.32时，中央控制设备可以将当前处理节点数量确定为7或者8，由此导致实际数据子集大小的浮动对本实施例的实现影响甚微。可选的，中央控制设备可以根据送四舍五入规则进行取整调节，例如，当N为7.32时将当前处理节点数量确定为7，当N为7.72时将当前处理节点数量确定为8。

403、根据当前处理节点数量对当前批次数据进行平均切片。

中央控制设备可以采用下述三种切片规则之一，对当前批次数据进行平均切片：

1)根据当前批次数据中每条数据的标识信息以及哈希散列(Hash)算法，对当前批次数据进行平均切片。

其中，中央控制设备可以通过对Hash算法的调整使得Hash算法结果中散列值的数量与当前处理节点数量相等。例如，当当前处理节点为3时，将Hash算法的结果散列值设置为24、3和8，中央控制设备依次将每条数据的标识信息输入到Hash算法中，根据得出的结果值将每条数据分配给与其结果值对应的数据子集中。

2)根据当前批次数据中每条数据的标识信息以及除余算法，对当前批次数据进行平均切片。

其中，中央控制设备将当前处理节点的数量设置为除余算法中的除数，然后依次将每条数据的标识信息作为被除数参与除余算法，根据得出的余数值将每条数据分配给与其余数值对应的数据子集中。例如当前处理节点数量为3，数据1的标识信息为24，24除3余0，则将数据1分配给对应0的数据子集1；数据2的标识信息为25，25除3余1，则将数据2分配给对应1的数据子集2；数据3的标识信息为26，26除3余2，则将数据3分配给对应2的数据子集3。

3)根据当前批次数据中每条数据的标识信息对当前批次数据进行轮询分配。

具体的，中央控制设备根据当前批次数据中每条数据的标识信息对当前批次数据进行排序，获得数据序列。然后从数据序列的第一条数据开始，轮询为每一个数据子集分配至少一条数据，直到当前批次数据分配完尽为止。

如图5(a)所示，中央控制设备对当前批次数据中的12条数据进行排序，获得的数据序列从前至后依次为数据1至数据12。中央控制设备从数据1开始，依次为数据子集A、B和C轮询分配数据，每次分配一条数据。数据子集A、B和C被分配到的数据如图5(b)所示。

此外，中央控制设备还可以每次分配两条数据，对于图5(a)所示的数据序列，数据子集A、B和C被分配到的数据如图5(c)所示。当中央控制设备每次分配三条数据时，对于图5(a)所示的数据序列，数据子集A、B和C被分配到的数据如图5(d)所示。需要说明的是，当分配数据的轮询次数为1(即图5(d)中所示的分配方式)时，相当于将数据序列等分为三份，其中每一份数据为一个数据子集，其分配效果如图5(e)所示。

需要说明的是，在对当前批次数据切片的过程中，中央控制设备并不是每次都能恰好将所有数据平均分配给各个数据子集，例如如果要将13条数据轮询分配给3个数据子集，则必然导致某个数据子集中的数据条数比其他两个数据子集中的数据条数多一条。但这并不对本实施例的实现构成实质影响，这是因为在实际应用中，数据处理系统处理的数据量十分庞大(通常在Tb级别)，在如此庞大的数据样本空间中，一条或几条数据的多寡对处理节点处理时长的影响微乎其微。

在本实施例中，所述标识信息可以是数据的时间戳、数据的标识ID编号、数据源端的设备编号或者数据大小中的任意一种或者至少两种的组合，所述标识信息以数值的形式体现。其中，数据的时间戳可以是数据生成的时间值；数据的标识ID编号可以是每条数据中携带的ID编号，也可以是中央控制设备在接收到当前批次数据时根据预设规则(例如随机编号)为每条数据分配的ID编号；数据源端的设备编号可以是每条数据中携带的生成该条数据的终端的物理编号，例如介质访问控制层(Media Access Control，简称MAC)地址；数据大小为每条数据本身的大小值，例如25Kb。需要说明的是，当标识信息为数据大小时，中央控制设备需要对数据大小的单位进行统一转换，以避免出现两条数据大小数值相同但是单位不同的情况。例如对于数据大小分别为25Kb和25Mb的两条数据，中央控制设备可以将25Mb转换为25600Kb，即25*1024＝25600Kb。

404、将至少两个数据子集分配给各个当前处理节点进行处理。

在当前处理节点对数据处理完毕后，中央控制设备向各个当前处理节点获取处理完毕的数据，返回给运营商进行分析。本步骤的实现方式与图2步骤203的实现方式相同，此处不再赘述。

作为对本实施例的进一步扩展，在每处理完一个批次的数据后，中央控制设备还可以记录该批次数据的处理时长，以便根据该处理时长对下一批次的数据处理过程中处理节点数量进行负反馈调节，从而进一步提高数据处理系统的处理效率。

由于处理节点并不总是在理想条件下进行工作，因此处理节点的实际处理效率与中央控制设备获取的标准处理效率相比会有所偏差。当处理节点的实际处理效率低于标准处理效率时，系统实际的处理时长要大于理想条件下的处理时长，无法满足QoS要求，此时需要增加当前处理节点的数量以对已有处理节点的处理负荷进行分担；当处理节点的实际处理效率高于标准处理效率时，系统实际的处理时长要小于理想条件下的处理时长，此时可以减少当前处理节点的数量，在满足QoS要求的前提下节约系统的处理资源。

具体的如图6所示，图6中步骤601至步骤603的实现方式分别与图2中步骤201至步骤203的实现方式对应相同。在步骤604中，中央控制设备记录前一批次数据的处理时长，然后根据前一批次数据的处理时长对当前处理节点数量进行调整(如图6中步骤604的箭头所示)。其中所述处理时长为系统处理前一批次数据时整体的数据处理时长，数据处理系统在处理每一批次数据时都可以根据处理前一批次数据的处理时长对确定的当前处理节点数量进行增减调整。

作为对图6步骤602的细化，中央控制设备确定当前处理节点数量的实现方式包括：

602a、确定当前处理节点数量。

本步骤的实现方式与图2中步骤202或者图4中步骤402的实现方式相同，此处不再赘述。

602b、判断前一批次数据的处理时长是否落入预设处理时长区间。

当前一批次数据的处理时长小于预设处理时长区间下限值时，执行步骤602c；当前一批次数据的处理时长大于预设处理时长区间上限值时，执行步骤602d。其中，所述预设处理时长区间为网络运营商可以容忍的数据处理时间段，与预设处理时长的设置类似，预设处理时长区间也可以由网络运营商根据用户行为习惯特点进行设置，或者根据网络运营条件进行配置。

需要说明的是，所述预设处理时长与所述预设处理时长区间两者的区别在于：所述预设处理时长为一个时长数值，是能够满足网络运营商处理要求的理想处理时长；所述预设处理时长区间为一个时间段，是实际处理时长在网络运营商可容忍的范围内围绕理想处理时长上下浮动的时长范围。通常预设处理时长包含于预设处理时长区间内，为预设处理时长区间中的一个离散值(一般情况下为处理时长区间的中点值)。

在本实施例中，中央控制节点调节当前处理节点数量时参考预设处理时长区间而非预设处理时长的目的在于，如果参考预设处理时长调节当前处理节点数量，则当实际处理时长大于预设处理时长时需要增加处理节点数量，当实际处理时长小于预设处理时长时需要减少处理节点数量。由于在实际应用中系统的实际处理时长很难恰好等同于预设处理时长，所以中央控制设备在处理每一批次数据时都要根据前一批次的实际处理时长调节当前处理节点数量，如此反复增减处理节点数量会造成系统震荡，增加系统的处理负荷。

602c、减少当前处理节点数量。

中央控制设备首先计算预设处理时长区间下限值与前一批次数据的处理时长之间的第一时长差值a，然后根据第一时长差值a检索第一映射关系表，获得需要减少的处理节点数量N，其中第一映射关系表用于表征第一时长差值与第一浮动数量之间的对应关系，所述第一浮动数量为需要减少的处理节点数量。事例性的，所述第一映射关系表可以形如下表，其中h为小时单位：

第一时长差值	第一浮动数量
		0.5h	1
1h	3
		…	…
2.5h	8

在查表获得需要减少的处理节点数量N后，中央控制设备对当前处理节点中的N个处理节点进行冻结，由此完成当前处理节点数量的调节。其中所述a及所述N均为大于0的正整数。

例如，数据处理系统处理前一批次数据的处理时长为2.4h，而预设处理时长区间为3h至5h，则中央控制设备计算得到3h与2.4h的差值为0.6h(即第一时长差值为0.6h)。然后中央控制设备查表得到与0.6h最为接近的第一时长差值为0.5h，将0.5h对应的数量1确定为当前处理节点需要减少的数量。在根据步骤402的实现方式计算出当前处理节点数量为8后，中央控制设备将最后的当前处理节点数量确定为8-1＝7。如果前次数据处理所使用的处理节点为8，则中央控制设备随机将其中一个处理节点进行冻结，保留剩余的7个处理节点。

602d、增加当前处理节点数量。

中央控制设备首先计算前一批次数据的处理时长与预设处理时长区间下限值之间的第二时长差值b，然后根据第二时长差值b检索第二映射关系表，获得需要减少的处理节点数量M，其中第二映射关系表用于表征第二时长差值与第二浮动数量之间的对应关系，所述第二浮动数量为需要增加的处理节点数量。事例性的，所述第二映射关系表可以形如下表，其中h为小时单位：

第一时长差值

第一浮动数量

0.5h	2
		1h	5
…	…
		2.5h	9

在查表获得需要增加的处理节点数量M后，中央控制设备对备用处理节点中的M个处理节点进行激活，由此完成当前处理节点数量的调节。其中所述b及所述M均为大于0的正整数。

例如，数据处理系统处理前一批次数据的处理时长为6.2h，而预设处理时长区间为3h至5h，则中央控制设备计算得到6.2h与5h的差值为1.2h(即第二时长差值为01.2h)。然后中央控制设备查表得到与1.2h最为接近的第二时长差值为1h，将1h对应的数量5确定为当前处理节点需要增加的数量。在根据步骤402的实现方式计算出当前处理节点数量为8后，中央控制设备将最后的当前处理节点数量确定为8+5＝13。如果前次数据处理所使用的处理节点为8，则中央控制设备在备用处理节点中随机激活5个处理节点，完成当前处理节点数量的调节。

对于步骤602c和步骤602d，本实施例中有两点需要说明：1)由于处理节点的浮动数量与第一时长差值或第二时长差值之间并不一定存在严格的线性关系，因此中央控制设备在增加或减少当前处理节点数量时，需要查找不同的映射关系表；2)步骤602c和602d是对已确定的当前处理节点数量的二次调整，而非直接确定当前处理节点数量。在处理每一批次数据时，中央控制设备都需要首先按照步骤202或步骤402的实现方式确定当前处理节点数量，然后再按照步骤602c或步骤602d的实现方式对已确定的当前处理节点数量进行二次调整。

在本实施例的一个应用场景中，数据处理系统首先对第一批次的400Tb数据进行处理。中央控制设备计算得出当前处理节点的数量为4，然后为每个数据子集分配100Tb大小的数据。中央控制设备在备用的15个处理节点中随机激活4个处理节点，然后将4个数据子集随机分配给这4个已激活的处理节点进行处理。

在处理完第一批次数据后，数据处理系统对第二批次的600Tb数据进行处理。中央控制设备首先计算得出当前处理节点的数量为6，然后获取处理第一批次数据的处理时长2.5h，将2.5h其与预设处理时长区间进行比对，得出与预设处理时长区间下限值2h的差值为0.5h。中央控制设备查表获得需要减少的当前处理节点数量为1，从而将当前处理节点数量确定为6-1＝5。中央控制设备在剩余的11个备用处理节点中随机激活1个处理节点，将当前处理节点数量调整为5个，然后为每个数据子集分配120Tb大小的数据并将5个数据子集随机分配给这5个已激活的处理节点进行处理。

参考前述方法的实现，本实施例还提供了一种数据处理的装置，所述装置主要位于中央控制设备中，用于实现前述方法。如图7所示，所述装置71包括：获取单元711、确定单元712、处理单元713、发送单元714、记录单元715以及调整单元716，其中，

所述获取单元711，用于获取当前批次数据；

所述确定单元712，用于确定当前处理节点数量；

所述处理单元713，用于根据所述确定单元712确定的所述当前处理节点数量对所述获取单元711获取的所述当前批次数据进行平均切片，获得与所述当前处理节点数量等同的至少两个数据子集；

所述发送单元714，用于将所述处理单元713获得的所述至少两个数据子集分配给各个当前处理节点进行处理。

进一步的，如图8所示，所述确定单元712包括：

获取子单元811，用于获取预设处理时长，所述预设处理时长为满足服务质量QoS要求的处理时长；

第一计算子单元812，用于根据所述获取子单元811获取的所述预设处理时长以及处理节点的标准处理效率计算标准数据子集的大小；

第二计算子单元813，用于将所述当前批次数据与所述第一计算子单元812计算的所述标准数据子集的大小相除，获得所述当前处理节点数量。

进一步的，如图9所示，所述处理单元713包括：

第一处理子单元911，用于根据所述当前批次数据中每条数据的标识信息以及哈希散列Hash算法，对所述当前批次数据进行平均切片，其中所述Hash算法中散列值的数量与所述当前处理节点数量相等。

第二处理子单元912，用于根据所述当前批次数据中每条数据的标识信息以及除余算法，对所述当前批次数据进行平均切片，其中所述除余算法中的除数为所述当前处理节点的数量。

第三处理子单元913，用于根据所述当前批次数据中每条数据的标识信息对所述当前批次数据进行排序，获得数据序列，从所述数据序列的第一条数据开始，轮询为每一个数据子集分配至少一条数据，直到所述当前批次数据分配完尽为止。

所述记录单元715，用于记录前一批次数据的处理时长，所述处理时长为系统处理所述前一批次数据时整体的数据处理时长；

所述调整单元716，用于根据所述记录单元715记录的所述前一批次数据的处理时长对所述确定单元确定的当前处理节点数量进行调整。

进一步的，如图10所示，所述调整单元716包括：

判断子单元1011，用于判断所述前一批次数据的处理时长是否落入预设处理时长区间；

第一调整子单元1012，用于当所述判断子单元1011判断所述前一批次数据的处理时长小于所述预设处理时长区间下限值时，减少所述当前处理节点数量；

第二调整子单元1013，用于当所述判断子单元1011判断所述前一批次数据的处理时长大于所述预设处理时长区间上限值时，增加所述当前处理节点数量。

进一步的，如图11所示，所述第一调整子单元1012包括：

第一计算模块1111，用于计算所述预设处理时长区间下限值与所述前一批次数据的处理时长之间的第一时长差值a；

第一检索模块1112，用于根据所述第一计算模块1111计算的所述第一时长差值a检索第一映射关系表，获得需要减少的处理节点数量N，其中所述第一映射关系表用于表征第一时长差值与第一浮动数量之间的对应关系；

第一执行模块1113，用于根据所述第一检索模块1112的检索结果对所述当前处理节点中的N个处理节点进行冻结，其中所述a及所述N均为大于0的正整数。

所述第二调整子单元1013包括：

第二计算模块1114，用于计算所述前一批次数据的处理时长与所述预设处理时长区间上限值之间的第二时长差值b；

第二检索模块1115，用于根据所述第二计算模块1114计算的所述第二时长差值b检索第二映射关系表，获得需要减少的处理节点数量M，其中所述第二映射关系表用于表征第二时长差值与第二浮动数量之间的对应关系；

第二执行模块1116，用于根据所述第二检索模块1115的检索结果对备用处理节点中的M个处理节点进行激活，其中所述b及所述M均为大于0的正整数。

本实施例提供的数据处理的装置71，能够获取当前批次数据并确定当前处理节点数量，然后根据当前处理节点数量对当前批次数据进行平均切片，获得与当前处理节点数量等同的至少两个数据子集，最后将至少两个数据子集分配给各个当前处理节点进行处理。与现有技术中根据数据类型、数据关键字或者数据来源等数据属性信息为处理节点分配数据相比，可以将数据平均分配给各个处理节点，由此使得处理节点之间不会存在过大的数据量差异。由于数据量在处理节点之间的均衡等同于数据处理时长在各个处理节点之间的均衡，因此从数据处理系统整体来看，能够缩短系统的数据处理时长，并且避免某些处理节点闲置的情况，继而从缩短系统数据处理时长以及充分利用处理节点资源两方面提高系统整体的处理效率。

此外本实施例提供的数据处理的装置71，还能够根据前一批次数据的处理时长对当前处理节点的数量进行增减调节，在保证当前批次数据处理的处理时长不超过预设处理时长的基础上进一步节约系统的处理资源，提高系统的处理效率。

参考图7至图11中任一幅所示的数据处理的装置71，本实施例还提供了一种数据处理的系统。如图12所示，所述系统包括一个中央控制设备1201以及至少两个处理节点1202，其中所述中央控制设备1201中包含如图7至图11中任一幅所示的数据处理的装置1211，所述中央控制设备1201分别与每个处理节点1202之间建立连接关系。

所述中央控制设备1201，用于获取当前批次数据并确定当前处理节点1202数量，根据所述当前处理节点1202数量对所述当前批次数据进行平均切片，获得与所述当前处理节点1202数量等同的至少两个数据子集，将所述至少两个数据子集分配给各个当前处理节点1202进行处理；

所述当前处理节点1202，用于获取所述中央控制设备1201分配的数据子集，并对所述数据子集进行处理。

本实施例提供的数据处理的系统，能够获取当前批次数据并确定当前处理节点1202数量，然后根据当前处理节点1202数量对当前批次数据进行平均切片，获得与当前处理节点1202数量等同的至少两个数据子集，最后将至少两个数据子集分配给各个当前处理节点1202进行处理。与现有技术中根据数据类型、数据关键字或者数据来源等数据属性信息为处理节点分配数据相比，可以将数据平均分配给各个处理节点，由此使得处理节点之间不会存在过大的数据量差异。由于数据量在处理节点之间的均衡等同于数据处理时长在各个处理节点之间的均衡，因此从数据处理系统整体来看，能够缩短系统的数据处理时长，并且避免某些处理节点闲置的情况，继而从缩短系统数据处理时长以及充分利用处理节点资源两方面提高系统整体的处理效率。

此外本实施例提供的数据处理的系统，还能够根据前一批次数据的处理时长对当前处理节点1202的数量进行增减调节，在保证当前批次数据处理的处理时长不超过预设处理时长的基础上进一步节约系统的处理资源，提高系统的处理效率。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数据处理的方法，其特征在于，包括：

获取当前批次数据并确定当前处理节点数量；

2.根据权利要求1所述的数据处理的方法，其特征在于，所述确定当前处理节点数量的步骤包括：

获取预设处理时长，所述预设处理时长为满足服务质量要求的处理时长；

根据所述预设处理时长以及处理节点的标准处理效率计算标准数据子集的大小；

将所述当前批次数据与所述标准数据子集的大小相除，获得所述当前处理节点数量。

3.根据权利要求2所述的数据处理的方法，其特征在于，所述根据所述当前处理节点数量对所述当前批次数据进行平均切片的步骤包括：

根据所述当前批次数据中每条数据的标识信息以及哈希散列算法，对所述当前批次数据进行平均切片，其中所述哈希散列算法中散列值的数量与所述当前处理节点数量相等。

4.根据权利要求2所述的数据处理的方法，其特征在于，所述根据所述当前处理节点数量对所述当前批次数据进行平均切片的步骤包括：

根据所述当前批次数据中每条数据的标识信息以及除余算法，对所述当前批次数据进行平均切片，其中所述除余算法中的除数为所述当前处理节点的数量。

5.根据权利要求2所述的数据处理的方法，其特征在于，所述根据所述当前处理节点数量对所述当前批次数据进行平均切片的步骤包括：

根据所述当前批次数据中每条数据的标识信息对所述当前批次数据进行排序，获得数据序列；

从所述数据序列的第一条数据开始，轮询为每一个数据子集分配至少一条数据，直到所述当前批次数据分配完尽为止。

6.根据权利要求3至5中任一项所述的数据处理的方法，其特征在于，所述标识信息包括下述信息中的至少一种信息：数据的时间戳、数据的标识编号、数据源端的设备编号或者数据大小。

7.根据权利要求6所述的数据处理的方法，其特征在于，所述方法进一步包括：

记录前一批次数据的处理时长，所述处理时长为系统处理所述前一批次数据时整体的数据处理时长；

根据所述前一批次数据的处理时长对当前处理节点数量进行调整。

8.根据权利要求7所述的数据处理的方法，其特征在于，所述根据所述前一批次数据的处理时长对当前处理节点数量进行调整的步骤包括：

判断所述前一批次数据的处理时长是否落入预设处理时长区间；

当所述前一批次数据的处理时长小于所述预设处理时长区间下限值时，减少所述当前处理节点数量；

当所述前一批次数据的处理时长大于所述预设处理时长区间上限值时，增加所述当前处理节点数量。

9.根据权利要求8所述的数据处理的方法，其特征在于，所述当所述前一批次数据的处理时长小于所述预设处理时长区间下限值时，减少所述当前处理节点数量的步骤包括：

计算所述预设处理时长区间下限值与所述前一批次数据的处理时长之间的第一时长差值a；

根据所述第一时长差值a检索第一映射关系表，获得需要减少的处理节点数量N，其中所述第一映射关系表用于表征第一时长差值与第一浮动数量之间的对应关系；

对所述当前处理节点中的N个处理节点进行冻结，其中所述a及所述N均为大于0的正整数。

10.根据权利要求8所述的数据处理的方法，其特征在于，所述当所述前一批次数据的处理时长大于所述预设处理时长区间上限值时，增加所述当前处理节点数量的步骤包括：

计算所述前一批次数据的处理时长与所述预设处理时长区间上限值之间的第二时长差值b；

根据所述第二时长差值b检索第二映射关系表，获得需要减少的处理节点数量M，其中所述第二映射关系表用于表征第二时长差值与第二浮动数量之间的对应关系；

对备用处理节点中的M个处理节点进行激活，其中所述b及所述M均为大于0的正整数。

11.一种数据处理的装置，其特征在于，所述装置包括：

获取单元，用于获取当前批次数据；

确定单元，用于确定当前处理节点数量；

12.根据权利要求11所述的数据处理的装置，其特征在于，所述确定单元包括：

获取子单元，用于获取预设处理时长，所述预设处理时长为满足服务质量要求的处理时长；

第一计算子单元，用于根据所述获取子单元获取的所述预设处理时长以及处理节点的标准处理效率计算标准数据子集的大小；

第二计算子单元，用于将所述当前批次数据与所述第一计算子单元计算的所述标准数据子集的大小相除，获得所述当前处理节点数量。

13.根据权利要求12所述的数据处理的装置，其特征在于，所述处理单元包括：

第一处理子单元，用于根据所述当前批次数据中每条数据的标识信息以及哈希散列算法，对所述当前批次数据进行平均切片，其中所述哈希散列算法中散列值的数量与所述当前处理节点数量相等。

14.根据权利要求12所述的数据处理的装置，其特征在于，所述处理单元包括：

第二处理子单元，用于根据所述当前批次数据中每条数据的标识信息以及除余算法，对所述当前批次数据进行平均切片，其中所述除余算法中的除数为所述当前处理节点的数量。

15.根据权利要求12所述的数据处理的装置，其特征在于，所述处理单元包括：

第三处理子单元，用于根据所述当前批次数据中每条数据的标识信息对所述当前批次数据进行排序，获得数据序列，从所述数据序列的第一条数据开始，轮询为每一个数据子集分配至少一条数据，直到所述当前批次数据分配完尽为止。

16.根据权利要求13至15中任一项所述的数据处理的装置，其特征在于，所述装置还包括：

记录单元，用于记录前一批次数据的处理时长，所述处理时长为系统处理所述前一批次数据时整体的数据处理时长；

调整单元，用于根据所述记录单元记录的所述前一批次数据的处理时长对所述确定单元确定的当前处理节点数量进行调整。

17.根据权利要求16所述的数据处理的装置，其特征在于，所述调整单元包括：

判断子单元，用于判断所述前一批次数据的处理时长是否落入预设处理时长区间；

第一调整子单元，用于当所述判断子单元判断所述前一批次数据的处理时长小于所述预设处理时长区间下限值时，减少所述当前处理节点数量；

第二调整子单元，用于当所述判断子单元判断所述前一批次数据的处理时长大于所述预设处理时长区间上限值时，增加所述当前处理节点数量。

18.根据权利要求17所述的数据处理的装置，其特征在于，所述第一调整子单元包括：

第一计算模块，用于计算所述预设处理时长区间下限值与所述前一批次数据的处理时长之间的第一时长差值a；

第一检索模块，用于根据所述第一计算模块计算的所述第一时长差值a检索第一映射关系表，获得需要减少的处理节点数量N，其中所述第一映射关系表用于表征第一时长差值与第一浮动数量之间的对应关系；

第一执行模块，用于根据所述第一检索模块的检索结果对所述当前处理节点中的N个处理节点进行冻结，其中所述a及所述N均为大于0的正整数。

19.根据权利要求17所述的数据处理的装置，其特征在于，所述第二调整子单元包括：

第二计算模块，用于计算所述前一批次数据的处理时长与所述预设处理时长区间上限值之间的第二时长差值b；

第二检索模块，用于根据所述第二计算模块计算的所述第二时长差值b检索第二映射关系表，获得需要减少的处理节点数量M，其中所述第二映射关系表用于表征第二时长差值与第二浮动数量之间的对应关系；

第二执行模块，用于根据所述第二检索模块的检索结果对备用处理节点中的M个处理节点进行激活，其中所述b及所述M均为大于0的正整数。

20.一种数据处理的系统，其特征在于，包括：中央控制设备以及至少两个处理节点，其中，所述中央控制设备包含如权利要求11至权利要求19中任一项所述的数据处理的装置；