CN112114972B

CN112114972B - 数据倾斜的预测方法及装置

Info

Publication number: CN112114972B
Application number: CN202011046715.2A
Authority: CN
Inventors: 严琳; 徐雅光; 韩路; 刘利刚; 俞浩; 陈世强
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2023-09-26
Anticipated expiration: 2040-09-29
Also published as: CN112114972A

Abstract

本发明提供了一种数据倾斜的预测方法及装置，该方法包括：响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；基于待执行任务的任务算子、运行状态信息和数据量信息生成待执行任务对应的预测参数；将预测参数输入至预先设置的数据倾斜预测模型中，得到待执行任务对应的数据倾斜预测结果。应用本发明提供的方法，能够在待执行任务执行之前，得到该待执行任务对应的数据倾斜预测结果，能够避免在执行任务过程中发生数据倾斜，从而避免影响到使用集群的其他业务。

Description

数据倾斜的预测方法及装置

技术领域

本发明涉及计算机应用技术领域，特别涉及一种数据倾斜的预测方法及装置。

背景技术

随着计算机技术的发展，在面临日益增长的海量数据的情况下，大数据处理技术也得到了普及，然而，在处理大量数据的过程中也出现了很多问题，其中，数据倾斜是大数据计算的过程中最为常见的问题。

数据倾斜指的是集群在执行大数据任务过程中，由于缓存数据分散度不够，从而导致大量的数据集中到集群中的一个或几个数据节点上；这样会使得这些数据节点的处理速度低于平均的处理速度，拖慢整个任务执行过程。若倾斜数据超过数据节点本身设置的内存上限，则会使数据节点宕掉。

现有技术中，通常是在执行大数据任务的过程中检测到被执行的任务运行时间过长或者发生内存不足(Out Of Memory，OOM)异常时，才能发现集群中有数据倾斜发生，在数据倾斜发生后，需要花费大量的时间去解决数据倾斜问题，使得当前正在使用集群的其他业务受到影响。

发明内容

本发明所要解决的技术问题是提供一种数据倾斜的预测方法，能够在待执行任务执行之前，得到该待执行任务对应的数据倾斜预测结果。

本发明还提供了一种数据倾斜的预测装置，用以保证上述方法在实际中的实现及应用。

一种数据倾斜的预测方法，包括：

响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；

获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；

基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数；

将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。

上述的方法，可选的，所述获取节点集群当前的运行状态信息，包括：

确定所述待执行任务对应的节点集群；

获取所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态；

由所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态组成所述节点集群当前的运行状态信息。

上述的方法，可选的，所述数据倾斜预测模型的设置过程，包括：

获取预先生成的初始预测模型以及预先存储的训练数据集；所述训练数据集中包含多个训练参数；

依次应用所述训练数集中的每个训练参数训练所述初始预测模型，直到所述初始预测模型满足预先设置的停止训练条件；

将满足该停止训练条件的初始预测模型作为数据倾斜预测模型。

上述的方法，可选的，还包括：

若该数据倾斜预测结果表征为发生数据倾斜，则基于所述数据倾斜预测结果生成告警信息，以进行告警，并基于所述数据倾斜预测结果调整所述任务算子。

上述的方法，可选的，所述确定所述数据倾斜预测指令对应的待执行任务，包括：

获取所述数据倾斜预测指令包含的任务标识；

基于所述任务标识在预先设置的任务集合中确定所述数据倾斜预测指令对应的待执行任务。

一种数据倾斜的预测装置，包括：

确定单元，用于响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；

获取单元，用于获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；

生成单元，用于基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数；

预测单元，用于将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。

上述的装置，可选的，所述获取节点集群当前的运行状态信息的获取单元，包括：

第一确定单元，用于确定所述待执行任务对应的节点集群；

第一获取单元，用于获取所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态；

第一执行单元，用于由所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态组成所述节点集群当前的运行状态信息。

上述的装置，可选的，还包括：模型设置单元；

所述模型设置单元，用于获取预先生成的初始预测模型以及预先存储的训练数据集；所述训练数据集中包含多个训练参数；依次应用所述训练数集中的每个训练参数训练所述初始预测模型，直到所述初始预测模型满足预先设置的停止训练条件；将满足该停止训练条件的初始预测模型作为数据倾斜预测模型。

上述的装置，可选的，还包括：告警单元；

所述告警单元，用于若该数据倾斜预测结果表征为发生数据倾斜，则基于所述数据倾斜预测结果生成告警信息，以进行告警，并基于所述数据倾斜预测结果调整所述任务算子。

上述的装置，可选的，所述确定单元，包括：

第二获取子单元，用于获取所述数据倾斜预测指令包含的任务标识；

第二确定子单元，用于基于所述任务标识在预先设置的任务集合中确定所述数据倾斜预测指令对应的待执行任务。

与现有技术相比，本发明包括以下优点：

本发明提供了一种数据倾斜的预测方法和装置，该方法包括：响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数；将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。应用本发明提供的方法，能够在待执行任务执行之前，得到该待执行任务对应的数据倾斜预测结果，能够避免在执行任务过程中发生数据倾斜，从而避免影响到使用该节点集群的其他业务的正常运行。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种数据倾斜的预测方法的方法流程图；

图2为本发明提供的一种获取节点集群当前的状态信息的过程的流程图；

图3为本发明提供的一种设置数据倾斜预测模型的过程的流程图；

图4为本发明提供的一种数据倾斜的预测装置的结构示意图；

图5为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明实施例提供了一种数据倾斜的预测方法，该方法可以应用在多种系统平台，其执行主体可以为计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，具体包括：

S101：响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务。

本发明实施例提供的方法中，该待执行任务可以为待执行的大数据处理任务，该大数据处理任务可以为MapReduce任务。

其中，用户可以在节点集群执行该待执行任务之前，触发该数据倾斜预测指令。

S102：获取节点集群当前的运行状态信息以及源系统的数据量信息。

其中，源系统待用于提供待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据。

本发明实施例提供的方法中，该运行状态信息可以包含每个数据节点的负载信息、所述节点集群中当前处于数据映射阶段的数据量以及所述节点集群的带宽状态。

具体的，该源系统的数据量信息可以为该待执行任务对应的任务数据的数据量大小。

S103：基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数。

本发明实施例提供的方法中，该任务算子为用于处理该待执行任务对应的任务数据的算子，即，大数据加工程序的基本算子，该任务算子可以包括count算子、distinct算子、join算子以及group by算子等。

其中，可以通过对任务算子、运行状态信息以及源系统的数据量信息进行预处理，得到该预测参数。

S104：将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。

本发明实施例提供的方法中，该数据倾斜预测模型可以为SVM模型，可以将预测参数输入至该数据倾斜预测模型中，使得该数据倾斜预测模型对该预测参数进行处理，得到该预测参数对应的数据倾斜预测结果。

其中，可以通过该数据倾斜预测结果确定该节点集群在执行该待执行任务的过程中是否会发生数据倾斜。

具体的，在该数据倾斜预测结果表征为会发生数据倾斜的情况下，可以基于该数据倾斜预测结果生成告警信息，以向用户进行告警。

本发明实施例提供的一种数据倾斜的预测方法，包括：响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数；将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。应用本发明实施例提供的方法，能够在待执行任务执行之前，得到该待执行任务对应的数据倾斜预测结果，能够避免在执行任务过程中发生数据倾斜，从而避免影响到使用该节点集群的其他业务的正常运行。

本发明实施例提供的方法，基于上述的实施过程，具体的，所述获取节点集群当前的运行状态信息，如图2所述，具体包括：

S201：确定所述待执行任务对应的节点集群。

本发明实施例提供的方法中，可以获取该数据倾斜预测指令包含的集群标识，基于该集群标识确定该待执行任务对应的节点集群。

S202：获取所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态。

本发明实施例提供的方法中，该节点集群的带宽状态可以包含集群带宽以及带宽占用情况。

具体的，数据节点的负载信息可以包含计算资源占用情况以及存储资源占用情况等。

S203：由所述节点集群中的每个数据节点的负载信息、所述节点集群中当前处于数据映射MAP阶段的数据量以及所述节点集群的带宽状态组成所述节点集群当前的运行状态信息。

本发明实施例提供的方法，基于上述的实施过程，具体的，所述数据倾斜预测模型的设置过程，如图3所示，具体包括：

S301：获取预先生成的初始预测模型以及预先存储的训练数据集；所述训练数据集中包含多个训练参数；

本发明实施例提供的方法中，训练数据集中的训练参数可以由历史待执行任务的任务算子、历史运行状态信息和历史数据量信息得到。

具体的，生成初始预测模型的一种可行的方式，可以为：

在接收到模型生成指令时，获取该模型生成指令对应的目标方程，应用拉格朗日乘子法对所述目标方程进行计算，得到与所述目标方程对应的对偶方程；其中，可以获取预先设置的各个拉格朗日乘子；将所述拉格朗日乘子代入至所述目标方程中，以得到与所述目标方程对应的拉格朗日方程；对所述拉格朗日方程中的各个参数进行求导，以得到各个所述参数的代数式；将各个所述代数式代入至所述目标方程中，得到与所述目标方程对应的对偶方程；

基于所述训练数据集对所述对偶方程进行求解，得到目标方程中的各个参数的参数值，将已确定参数值的目标方程封装为初始预测模型。

S302：依次应用所述训练数集中的每个训练参数训练所述初始预测模型，直到所述初始预测模型满足预先设置的停止训练条件。

本发明实施例提供的方法中，可以将训练参数输入至初始预测模型中，得到该训练参数对应的输出结果，将该输出结果与该训练参数的标签信息进行比对，并根据比对结果对该初始预测模型进行调参。

其中，该停止训练条件可以包括：已用于训练该初始预测模型的训练参数的数量等于预先设置的数量阈值，或者该初始预测模型的预测准确率大于预先设置的准确率阈值。

S303：将满足该停止训练条件的初始预测模型作为数据倾斜预测模型。

本发明实施例提供的方法中，在该初始预测模型满足该停止训练条件后，则可以将该初始预测模型进行上线应用，即，将满足停止训练条件的初始预测模型作为数据倾斜预测模型。

本发明实施例提供的方法，基于上述的实施过程，具体的，还包括：

若该数据倾斜预测结果表征为将发生数据倾斜，则基于所述数据倾斜预测结果生成告警信息，以进行告警，并基于所述数据倾斜预测结果调整所述任务算子。

本发明实施例提供的方法，基于该数据倾斜结果调整该任务算子，能够避免在执行该待执行任务时发生数据倾斜，还可以对大数据程序资源以及key进行修改，通过对多方面影响因素的调整，能够提前解决数据倾斜问题。

本发明实施例提供的方法，基于上述的实施过程，具体的，所述确定所述数据倾斜预测指令对应的待执行任务，包括：

获取所述数据倾斜预测指令中包含的任务标识；

本发明实施例提供的方法中，可以对该数据倾斜预测指令进行解析，得到该数据倾斜预测指令中的指令信息，该指令信息中包含任务标识。

其中，该任务集合中包含至少一个当前待执行的大数据任务，在该任务集合中确定出与该任务标识相匹配的大数据任务，将该大数据任务确定为该数据倾斜预测指令对应的待执行任务。

在本发明实施例提供的一实施例中，该数据倾斜的预测方法可以应用于多种大数据处理场景中，例如，可以应用于银行系统的大数据处理，当需要对银行系统中的某一业务系统的业务数据进行处理时，可以生成该业务数据对应的待执行任务，当检测到当前存在待执行任务时，触发数据倾斜预测指令，当电子设备接收到高数据倾斜预测指令时，响应于数据倾斜预测指令，确定数据倾斜预测指令对应的待执行任务；获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统即为该业务系统，该节点集群待用于处理该待执行任务对应的任务数据；基于待执行任务的任务算子、所述运行状态信息和数据量信息生成待执行任务对应的预测参数；将预测参数输入至预先设置的数据倾斜预测模型中，得到待执行任务对应的数据倾斜预测结果。若该数据倾斜预测结果表征为发生数据倾斜，则基于数据倾斜预测结果生成告警信息，以进行告警，并自动基于所述数据倾斜预测结果调整所述任务算子，也可以由技术人员对该任务算子、大数据程序资源以及进行调整，并在调整完毕后，重新返回执行获取节点集群当前的运行状态信息以及源系统的数据量信息的步骤，直至得到的数据倾斜预测结果表征为不发生数据倾斜。

与图1所述的方法相对应，本发明实施例还提供了一种数据倾斜的预测装置，用于对图1中方法的具体实现，本发明实施例提供的数据倾斜的预测装置可以应用于计算机终端或各种移动设备中，其结构示意图如图4所示，具体包括：

确定单元401，用于响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；

获取单元402，用于获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；

生成单元403，用于基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数；

预测单元404，用于将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。

本发明实施例提供的一种数据倾斜的预测装置，通过响应于数据倾斜预测指令，确定所述数据倾斜预测指令对应的待执行任务；获取节点集群当前的运行状态信息以及源系统的数据量信息；所述源系统待用于提供所述待执行任务对应的任务数据，所述节点集群待用于处理所述待执行任务对应的任务数据；基于所述待执行任务的任务算子、所述运行状态信息和所述数据量信息生成所述待执行任务对应的预测参数；将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果。应用本发明实施例提供的方法，能够在待执行任务执行之前，得到该待执行任务对应的数据倾斜预测结果，能够避免在执行任务过程中发生数据倾斜，从而避免影响到使用该节点集群的其他业务的正常运行。

在本发明提供的一实施例中，基于上述的方案，具体的，所述获取节点集群当前的运行状态信息的获取单元402，包括：

第一确定单元，用于确定所述待执行任务对应的节点集群；

在本发明提供的一实施例中，基于上述的方案，具体的，还包括：模型设置单元；

在本发明提供的一实施例中，基于上述的方案，具体的，还包括：告警单元；

在本发明提供的一实施例中，基于上述的方案，具体的，所述确定单元401，包括：

上述本发明实施例公开的数据倾斜的预测装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的数据倾斜的预测方法相同，可参见上述本发明实施例提供的数据倾斜的预测方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述数据倾斜的预测方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种数据倾斜的预测方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据倾斜的预测方法，其特征在于，包括：

将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果；

所述数据倾斜预测模型的设置过程，包括：

依次应用所述训练数据集中的每个训练参数训练所述初始预测模型，直到所述初始预测模型满足预先设置的停止训练条件；

2.根据权利要求1所述的方法，其特征在于，所述获取节点集群当前的运行状态信息，包括：

确定所述待执行任务对应的节点集群；

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述确定所述数据倾斜预测指令对应的待执行任务，包括：

获取所述数据倾斜预测指令包含的任务标识；

5.一种数据倾斜的预测装置，其特征在于，包括：

预测单元，用于将所述预测参数输入至预先设置的数据倾斜预测模型中，得到所述待执行任务对应的数据倾斜预测结果；

模型设置单元，用于获取预先生成的初始预测模型以及预先存储的训练数据集；所述训练数据集中包含多个训练参数；依次应用所述训练数据集中的每个训练参数训练所述初始预测模型，直到所述初始预测模型满足预先设置的停止训练条件；将满足该停止训练条件的初始预测模型作为数据倾斜预测模型。

6.根据权利要求5所述的装置，其特征在于，所述获取节点集群当前的运行状态信息的获取单元，包括：

第一确定单元，用于确定所述待执行任务对应的节点集群；

7.根据权利要求5所述的装置，其特征在于，还包括：告警单元；

8.根据权利要求5所述的装置，其特征在于，所述确定单元，包括：