CN109933436B

CN109933436B - 处理方法和处理装置

Info

Publication number: CN109933436B
Application number: CN201910228710.2A
Authority: CN
Inventors: 李栋
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2021-10-22
Anticipated expiration: 2039-03-25
Also published as: CN109933436A

Abstract

本申请公开一种处理方法，应用于集群中的计算节点，包括：统计计算节点中待处理数据的数据量；获得计算节点的指定的初始并行度，并基于待处理数据的数据量处理初始并行度。通过待处理数据的数据量处理指定的初始并行度，可以动态调整Shuffle任务所占用的计算资源，从而提高平台整体的计算效率和资源利用率。

Description

处理方法和处理装置

技术领域

本申请涉及大数据技术领域，更具体地说，涉及一种处理方法和处理装置。

背景技术

Spark是一种基于内存计算的分布式大数据并行处理平台，它集批处理、实时流处理、交互式查询与图计算于一体。

现有Spark往往基于预设参数确定Shuffle的并行度，但在处理过程中就很容易出现物理资源浪费。

发明内容

为解决上述问题，本申请提供如下技术方案：

一种处理方法，应用于集群中的计算节点，包括：

统计所述计算节点中待处理数据的数据量；

获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度。

优选的，其中，所述统计所述计算节点中待处理数据的数据量，包括：

至少获得所述待处理数据的需求内存。

优选的，其中，所述基于所述待处理数据的数据量处理所述初始并行度，包括：

至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围；

根据所述并行度允许范围处理所述初始并行度。

优选的，其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围，包括：

根据所述待处理数据的需求内存和预设内存分区规则确定所述计算节点的第一并行度允许范围。

优选的，其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围，还包括：

根据所述待处理数据的数据行数和预设行数分区规则处理所述第一并行度允许范围，得到第二并行度允许范围。

优选的，所述方法还包括：

获得所述计算节点的硬件状态，并基于所述计算节点的硬件状态调整所述初始并行度的处理结果。

优选的，其中，所述获得所述计算节点的硬件状态，包括：

获得所述计算节点中CPU核的数量。

优选的，其中，所述获得所述计算节点的硬件状态，还包括：

获得所述CPU核的资源占用情况，所述资源占用情况至少包括占用内存。

优选的，其中，所述资源占用情况还包括：

网络传输速率和/或I/O读写速率。

一种处理装置，包括：

统计模块，用于统计所述计算节点中待处理数据的数据量；

处理模块，用于获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度。

经由上述的技术方案可知，本申请实施例提供一种处理方法，针对现有处理过程中所出现的物理资源浪费，通过待处理数据的数据量处理指定的初始并行度，可以动态调整Shuffle任务所占用的计算资源，从而提高平台整体的计算效率和资源利用率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例集群的架构图示例；

图2为本申请实施例一公开的处理方法的方法流程图；

图3为本申请实施例二公开的处理方法的方法流程图；

图4为本申请实施例三公开的处理方法的方法流程图；

图5为本申请实施例四公开的处理方法的方法流程图；

图6为本申请实施例五公开的处理方法的方法流程图；

图7为本申请实施例六公开的处理方法的方法流程图；

图8为本申请公开的处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请公开的处理方法，应用于集群中的计算节点，以下首先对于该计算节点做如下说明：

计算节点所在的集群具有计算功能，该集群由多个计算节点构成。如图1所示的集群的架构图示例，该集群中有N个计算节点，以计算节点1为例进行说明，该计算节点中3个executor(执行器)，以executor作为基础计算单位，每个executor占用相同的物理资源，比如CPU核。

集群的数据分布式存储于各计算节点中，基于预设参数可以确定集群的Shuffle并行度，而针对每一个计算节点来说，相应可以确定该计算节点用于处理本地存储数据的并行度。其中，所有计算节点的并行度之和就等于集群的Shuffle并行度。

在计算节点执行Shuffle任务之前，首先按照该计算节点的并行度对本地存储数据进行数据分片，分片所得到的数据片的数量即为该计算节点的并行度。而计算节点在执行Shuffle任务的过程中，每个CPU核同一时间最多处理一个数据片，且一旦数据片存在数据缺失、数据异常等情况，还可以向其他计算节点请求数据片。

因此，计算节点如果仅基于指定的并行度进行数据分区，很容易出现数据片的数据量过大或者过小的情况，过小数据量的数据片占用过多资源、过大数据量的数据片带给局部资源压力过大，都会造成物理资源浪费。

本申请公开的一种处理方法实施例一中，如图2所示，该方法包括如下步骤：

步骤101：统计计算节点中待处理数据的数据量。

首先，可以根据配置信息从本地存储数据中确定待处理数据。具体的：

一般来说，本地存储数据以文件的形式存储。因此，通过遍历指定文件存储目录下的数据文件可以获得数据文件的相关属性信息，比如文件名称，再比如文件扩展名等。进而，可以基于选取指定属性信息的数据文件中的数据作为待处理数据，比如选取文件名称包含A的数据文件中的数据作为待处理数据。

当然，还可以进一步设置筛选条件，比如，去除文件扩展名为a的数据文件，再比如，去除数据文件下表格扩展名为b的数据表等等。本实施例对于待处理数据的筛选方式并不限定，可以理解的是，其他未列举的方式也在本实施例的保护范围内。

需要说明的是，还可以将该指定文件存储目录下所有数据文件中的数据作为待处理数据，此时，也就无需遍历属性信息。

进一步，针对待处理数据的数据量，可以以遍历的方式精确统计，还可以按照指定规则进行预估统计，本实施例对此不做限定。

假设待处理数据确定为数据文件1下的数据表1和数据表2，以数据表1为例进行说明：

遍历数据表1中的所有数据，确定数据表1的所有属性信息，比如数据行数、数据列数以及数据占用内存等等。

而为节约计算资源，可以仅遍历其中的数据行数，并按照预先设置的数据行与数据占用内存的对应关系，预测数据表1的数据占用内存。当然，还可以设置其他预估规则，本实施例对此不做限定，可以理解的是，其他未列举的规则也在本实施例的保护范围内。

步骤102：获得计算节点的指定的初始并行度，并基于待处理数据的数据量处理初始并行度。

本实施例中，计算节点的指定的初始并行度，即该计算节点基于预设参数确定的用于处理本地存储数据的并行度。

另外，基于待处理数据的数据量处理初始并行度的过程如下：

首先可以指定用于处理初始并行度的属性信息，以数据行数为例，可以预先指定不同数据行数对应的目标并行度，并按照所指定的目标并行度调整初始并行度。

继续以数据文件1为例进行说明，该数据文件1下存在数据表1和数据表2，可以分别统计数据表1和数据表2的数据行数。以数据表1为例，假设数据表1的数据行数为a，通过查表方式确定数据行数a对应的目标并行度为b。以同样的方式确定数据表2对应的目标并行度c，此时可以确定待处理数据的目标并行度为b+c，此时可以将初始并行度直接调整至b+c，且后续执行Shuffle任务时也分别按照目标并行度b和c分别对数据表1和数据表2进行数据分区。

当然，在此基础上，还可以针对初始并行度设置误差允许范围，进而基于误差允许范围动态调整初始并行度。假设误差允许范围为±10、数据表1的目标并行度为200、数据表2的目标并行度为300、初始并行度为495，此时可以确定初始并行度495在待处理数据的目标并行度500的误差允许范围，可以不对初始并行度进行调整。而为保证后续数据分区的合理性，可以基于数据表1和数据表2的目标并行度确定两者的权重2:3，进一步，将数据表1的实际目标并行度确定为198、数据表2的实际目标并行度确定为297。

可以理解的是，不同属性下其他未列举的并行度调整规则，均在本实施例的保护范围内。

由此可见，本申请通过待处理数据的数据量处理指定的初始并行度，可以动态调整Shuffle任务所占用的计算资源，从而提高平台整体的计算效率和资源利用率。

作为统计计算节点中待处理数据的数据量的一种实现方式，本申请实施例二公开了一种处理方法，如图3所示，该方法包括如下步骤：

步骤201：至少获得待处理数据的需求内存。

本实施例中，由于部分待处理数据是以压缩文件的形式存储，而在后续执行Shuffle任务时还是需要将压缩文件解压处理，并且解压后的待处理数据所占用的内存，也就是需求内存要远大于以压缩文件形式存储时的数据占用内存，这对于数据分区的影响极大。当然，对于未压缩的部分待处理数据，其需求内存也就等于数据占用内存。

综上，为保证并行度调整的准确度，可以将统计数据占用内存调整为需求内存。此时，待处理数据的数据量至少包括待处理数据的需求内存，在需求内存的基础上，还可以进一步包括数据行数和数据列数等，本实施例对此不做限定。

步骤202：获得计算节点的指定的初始并行度，并至少基于待处理数据的需求内存处理初始并行度。

本实施例中，在待处理数据的数据量至少包括需求内存时，至少基于待处理数据的需求内存处理初始并行度的过程参见实施例一，本实施例对此不再赘述。

由此可见，本申请至少通过待处理数据的需求内存处理指定的初始并行度，可以动态调整Shuffle任务所占用的计算资源，从而提高平台整体的计算效率和资源利用率。

作为实施例二中基于待处理数据的数据量处理初始并行度的一种实现方式，本申请实施例三公开了一种处理方法，如图4所示，该方法包括如下步骤：

步骤301：至少获得待处理数据的需求内存。

步骤302：获得计算节点的指定的初始并行度。

步骤303：至少基于待处理数据的需求内存确定计算节点的并行度允许范围。

本实施例中，可以预先指定不同需求内存对应的并行度允许范围，在此基础上，如果还获得待处理数据的其他属性信息，比如数据行数或者数据列数等，还可以基于其他属性信息对并行度允许范围进行调整。

继续以数据文件1为例进行说明，该数据文件1下存在数据表1和数据表2，可以统计数据表1和数据表2的需求内存。以数据表1为例，假设数据表1的需求内存为d，通过查表方式确定需求内存d对应的并行度允许范围为A～B，后续可以从并行度允许范围A～B中随机或者按照指定规则选取数据表1对应的目标并行度e。以同样的方式确定数据表2对应的目标并行度f。

在此基础上，如果还获得数据表1的数据行数，还可以基于数据行数对数据表1对应的目标并行度允许范围A～B进行调整，具体的，可以确定数据行数对应的调整因子g，进一步将调整因子与目标并行度允许范围A～B的乘积作为新的目标并行度允许范围A*g～B*g。可以理解的，其他未列举的其他并行度允许范围的调整方式，也在本实施例保护范围内。

步骤304：根据并行度允许范围处理初始并行度。

本实施例中，在确定各数据表对应的并行度允许范围后，可以从并行度允许范围中选取该数据表对应的目标并行度。此时可按照实施例一公开内容对待处理数据的目标并行度进行调整，以及对待处理数据进行数据分区。本实施例对此不再赘述。

作为实施例三中至少基于待处理数据的需求内存确定计算节点的并行度允许范围的一种实现方式，本申请实施例四公开了一种处理方法，如图5所示，该方法包括如下步骤：

步骤401：至少获得待处理数据的需求内存。

步骤402：获得计算节点的指定的初始并行度。

步骤403：根据待处理数据的需求内存和预设内存分区规则确定计算节点的第一并行度允许范围。

本实施例中，可以按照预设内存分区规则对待处理数据进行数据分区，分区所得到的数据片均满足该预设内存分区规则，此时数据片的数量取值范围即为第一并行度允许范围。

继续以数据文件1为例进行说明，该数据文件1下存在数据表1和数据表2，针对数据表1和数据表2，可以结合预设内存分区规则分别进行数据分区。以数据表1为例，假设数据表1的需求内存为d、预设内存分区规则为“数据片所占内存处于h～i之间”，此时可以分别按照数据片所占内存h和数据片所占内存i对数据表1进行分区，相应可以得到对应的数据片数量m和n，此时可以确定数据表1所对应的第一并行度允许范围为n～m。以同样的方式确定数据表2对应的第一并行度允许范围为q～p。

在此基础上，对于相同需求内存的数据片，其中所包含的空值不同，这就导致数据片的行数可能存在极大差异。因此，为进一步解决数据倾斜的问题，在根据待处理数据的需求内存确定计算节点的第一并行度允许范围的基础上，还可以根据待处理数据的数据行数和预设行数分区规则处理第一并行度允许范围，此时得到第二并行度允许范围，相应的，后续根据第二并行度允许范围处理初始并行度。

继续以数据表1为例，数据表1所对应的第一并行度允许范围为n～m，假设预设行数分区规则为“数据片行数小于s”，针对占用内存处于h～i之间的数据片来说，结合该规则可以对行数大于s的数据片进一步分区，从而确定了不同占用内存的数据片对应的数据片数量，此时也就可以确定数据表1所对应的第二并行度允许范围。

需要说的是，根据第二并行度允许范围处理初始并行度的过程可以参见步骤404公开部分，在此不再赘述。

步骤404：根据第一并行度允许范围处理初始并行度。

本实施例中，在确定各数据表对应的第一并行度允许范围后，可以从第一并行度允许范围中选取该数据表对应的目标并行度。此时可以按照实施例一公开内容对待处理数据的目标并行度进行调整，以及对待处理数据进行数据分区，本实施例对此不再赘述。

为充分利用整个集群计算资源，在实施例一的基础上，本申请实施例五公开了一种处理方法，如图6所示，该方法包括如下步骤：

步骤501：统计计算节点中待处理数据的数据量。

步骤502：获得计算节点的指定的初始并行度，并基于待处理数据的数据量处理初始并行度。

步骤503：获得计算节点的硬件状态，并基于计算节点的硬件状态调整初始并行度的处理结果。

本实施例中，计算节点的硬件状态包括但不局限于计算节点的最大内存、网络传输速率以及I/O读写速率等，按照预先设置的对应关系确定硬件状态所对应的最大并行度阈值。此时，选取最大并行度阈值和初始并行度的处理结果之间的最小值作为实际的并行度。

由此可见，本申请通过待处理数据的数据量处理指定的初始并行度，并通过计算节点的硬件状态进行调整，可以最大化利用计算资源，从而提高平台整体的计算效率和资源利用率。

作为实施例五中获得计算节点的硬件状态的一种实现方式，本申请实施例六公开了一种处理方法，如图7所示，该方法包括如下步骤：

步骤601：统计计算节点中待处理数据的数据量。

步骤602：获得计算节点的指定的初始并行度，并基于待处理数据的数据量处理初始并行度。

步骤603：获得计算节点中CPU核的数量，并基于计算节点中CPU核的数量调整初始并行度的处理结果。

本实施例中，通过确定计算节点中CPU核的数量，可以确定计算节点的并行性能，也就是同时处理数据片的最大数量。为尽可能占用多的CPU核，如果初始并行度的处理结果小于CPU核的数量，则可以选取CPU核数量和初始并行度的处理结果之间的最大值作为实际的并行度。

在此基础上，为保证调整的准确性，在获得CPU核的数量的同时，还获得CPU核的资源占用情况，比如CPU核的占用内存。此时，以初始并行度的处理结果对待处理数据进行数据分区，判断分区得到的数据分片的数据占用内存是否大于CPU核的占用内存，如果大于，则对数据分片进一步分区直至其数据占用内存不大于CPU核的占用内存，而每分区一次，并行度就增加1。

当然，为进一步提高数据分区的可靠性，CPU核的资源占用情况还包括CPU核的网络传输速率和/或CPU核的I/O读写速率，也就是说，数据分区不仅要满足CPU核的占用内存的限制，还要满足CPU核的网络传输速率和/或CPU核的I/O读写速率的限制，分区的结束条件为数据分片满足上述限制条件，而每分区一次，并行度就增加1。

由此可见，本申请通过待处理数据的数据量处理指定的初始并行度，并通过CPU核的数量进行调整，可以最大化利用计算资源，从而提高平台整体的计算效率和资源利用率。

与上述处理方法对应的，本申请还公开了一种处理装置，如图8所示，该处理装置包括：

统计模块10，用于统计计算节点中待处理数据的数据量。

处理模块20，用于获得计算节点的指定的初始并行度，并基于待处理数据的数据量处理初始并行度。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种处理方法，应用于集群中的计算节点，包括：

统计所述计算节点中待处理数据的数据量，包括：至少获得所述待处理数据的需求内存；

获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度，所述指定的初始并行度是指所述计算节点基于预设参数确定的用于处理本地存储数据的并行度；

其中，所述基于所述待处理数据的数据量处理所述初始并行度，包括：

至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围；其中，所述至少基于所述待处理数据的需求内存确定所述计算节点的并行度允许范围，包括：根据所述待处理数据的需求内存和预设内存分区规则确定所述计算节点的第一并行度允许范围；根据所述待处理数据的数据行数和预设行数分区规则处理所述第一并行度允许范围，得到第二并行度允许范围；

根据所述第二并行度允许范围处理所述初始并行度。

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求1所述的方法，其中，所述获得所述计算节点的硬件状态，包括：

获得所述计算节点中CPU核的数量。

4.根据权利要求3所述的方法，其中，所述获得所述计算节点的硬件状态，还包括：

5.根据权利要求4所述的方法，其中，所述资源占用情况还包括：

网络传输速率和/或I/O读写速率。

6.一种处理装置，包括：

统计模块，用于统计计算节点中待处理数据的数据量，包括：至少获得所述待处理数据的需求内存；

处理模块，用于获得所述计算节点的指定的初始并行度，并基于所述待处理数据的数据量处理所述初始并行度，所述指定的初始并行度是指所述计算节点基于预设参数确定的用于处理本地存储数据的并行度

根据所述第二并行度允许范围处理所述初始并行度。