CN115495202A

CN115495202A - 一种异构集群下的大数据任务实时弹性调度方法

Info

Publication number: CN115495202A
Application number: CN202211437135.5A
Authority: CN
Inventors: 李凡; 牛新征; 黄明峰; 李博嘉; 郑云红; 罗涛; 马勇; 王流一
Original assignee: Guizhou Haiyou Science And Technology Co ltd; Chengdu Wisersoft Information Technology Co ltd
Current assignee: Guizhou Haiyou Science And Technology Co ltd; Chengdu Wisersoft Information Technology Co ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2022-12-20
Anticipated expiration: 2042-11-17
Also published as: CN115495202B

Abstract

本发明公开了一种异构集群下的大数据任务实时弹性调度方法，包括：获取实时计算异构集群的资源使用数据并进行预处理；将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练；将预处理后的当前资源使用指标数据输入到训练好的ARIMA模型中预测未来资源需求情况；根据实时计算异构集群资源状态构建实时计算任务打分模型；根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果给出实时计算任务弹性调度方案；本发明将ARIMA模型引入到实时计算的弹性调度中，通过弹性的修改任务分配的实时计算Slots数量，提升了实时计算异构集群的资源使用效率，保证实时计算任务在异构集群中也能正常运行。

Description

一种异构集群下的大数据任务实时弹性调度方法

技术领域

本发明涉及云计算任务调度领域，特别是涉及一种异构集群下的大数据任务实时弹性调度方法。

背景技术

随着实时计算的快速发展，实时计算流计算引擎作为该领域的代表被以阿里为代表的各大互联网公司大规模使用，其优秀的实时性使其能适用于常规业务的大多数场景。但是，随着公司业务数据量的持续增长，实时计算传统任务调度算法的弊端不断显现，例如不能够弹性的增加或减少资源、无法运行在实时计算异构集群上以及无法满足大规模业务数据量的实时性要求等。

综上所述，现有实时计算流计算引擎存在如下缺点：实时计算流计算引擎对于多任务调度一般采用基础的轮询调度策略，即将任务按节点顺序循环发送到不同的计算节点中，该方法在一定程度上能解决集群负载问题，避免资源倾斜和单节点计算任务过重影响总体计算时间。但是，由于没有考虑各节点的异同，即集群的异构性，以及任务本身的特点，极大可能还是会出现资源倾斜、网络传输开销过高等问题，从而影响流任务的实时性。

公布号为CN 104243617 A，名称为一种异构集群中面向混合负载的任务调度方法及系统的专利文献，通过一种易拓展的约束描述方法来表示异构化的机器属性和任务需求，在此基础上，将硬约束作为过滤标准，将软约束作为选择标准，为任务分配最优机器，显著提高了任务的执行效率和系统的整体性能。但是，在调度机制中未涉及到弹性调度机制，不管是单一任务还是多任务调度本身，都是响应式调度模式，即当任务调度时，资源才做相应的调整，并且在运行过程中资源总量是固定的，这使得任务和资源调整之间存在时间差，严重影响了流任务的实时性。

上述现有技术存在的缺点会影响实时计算在更大规模流数据计算上的能力，这不符合未来数据引擎发展的要求，所以本发明提出了一种异构集群下的大数据任务实时弹性调度方法。

名词解释：

Flink是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算；

Storm是Twitter开源的分布式实时大数据处理框架；

Spark是一种通用的大数据计算框架，主要用于大数据的计算；

资源充足状态：表示具备充足资源的设备，例如云节点、服务器节点、PC节点等；

资源受限状态：表示具备有限资源的设备，例如嵌入式设备、板卡等。

发明内容

为解决上述技术问题，本发明采用的一个技术方案是：提供一种异构集群下的大数据任务实时弹性调度方法，其特征在于，所述包括：

S10.获取实时计算异构集群的资源使用数据，并对所述资源使用数据进行预处理，得到预处理后的历史资源使用指标数据，预处理后的当前资源使用指标数据；

所述实时计算是针对海量数据进行的，所述实时计算的方法包括：Flink、Storm和Spark；

所述异构集群是指集群由不同设备组成；

所述资源使用数据是通过第三方监控软件对实时计算异构集群收集得到，包括历史资源使用指标数据和当前资源使用指标数据；

S20.将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练，得到训练好的ARIMA模型；

S30.将预处理后的当前资源使用指标数据输入到所述训练好的ARIMA模型中进行预测，得到未来资源需求情况；

S40.根据实时计算异构集群资源状态构建实时计算任务打分模型，通过所述实时计算打分模型计算得到实时计算任务打分模型的结果；

所述异构集群资源状态包括：资源充足状态和资源受限状态；

S50.根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果得到实时计算任务的弹性调度方案。

进一步的，所述历史资源使用指标数据，包括：历史异构集群中具备资源充足的设备数量、历史异构集群中具备资源受限的设备数量、历史CPU使用比、历史内存使用比、历史网络平均损耗、历史现有实时计算Slot数量、历史背压发生率和历史前五次非稳定结果发生时间，所述Slot表示资源管理基本单元；

所述当前资源使用指标数据，包括：异构集群中具备资源充足的设备数量、异构集群中具备资源受限的设备数量、CPU使用比、内存使用比、网络平均损耗、现有实时计算Slot数量、背压发生率和历史最近一次非稳定结果发生时间；

所述预处理，包括：对所述资源使用数据进行空值填充和数据脱敏，将空值填充和数据脱敏后的资源使用数据按照时间段T进行分组聚合，对分组聚合后的资源使用数据进行时间序列化和归一化处理，所述时间段T为5分钟。

进一步的，所述将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练，得到训练好的ARIMA模型，包括：

S21.将所述预处理后的历史资源使用指标数据分为训练集和测试集；

S22.分别对ARIMA模型的自回归部分AR、差分阶数部分I和移动平均部分MA进行训练；

自回归部分AR主要用于表示实时计算系统资源使用情况与历史资源使用情况的关系，公式为：

其中，

表示模型的一个阶数，

表示时刻

的实时计算异构集群资源需求序列，

表示自回归系数，

是时刻

的误差值，

为常数项；

差分阶数部分I表示d 阶差分，用于体现模型的稳定性，公式为：

其中，C表示AR模型中定义的滞后算子，

表示差分序列后的时间序列；

移动平均部分MA主要用于消除预测误差，减少回归预测中的波动，公式为：

其中，

表示预测函数，

为MA部分模型参数；

S23.将所述训练集和测试集输入到训练好的ARIMA模型中进行训练和测试后最终得到ARIMA模型的表达式。

进一步的，所述最终得到ARIMA模型的表达式为：

其中，

是MA模型中第t期的误差值。

是MA模型中的移动平均系数。

进一步的，所述未来资源需求情况包括：稳定、增加、减少、资源过剩和资源瓶颈。

进一步的，所述构建实时计算任务打分模型，就是实时计算异构集群给当前的所有符合条件的实时计算任务构建一个计划表，所述计划表中包括任务周期内背压发生率

、内存使用比

、网络延迟时间比

和CPU使用比

，每个指标都存在不同的比例系数，最终得出一个资源需求量分数RDS；

所述任务周期内背压发生率

，表达式为：

其中，i，j表示任务数，

表示任务i在任务周期内发生的背压次数，

表示所有任务在任务周期内发生的背压次数；

所述内存使用比

，表达式为：

其中，

表示任务i在任务周期内使用的内存，

表示任务i在任务周期内分配的总内存；

所述网络延迟时间比

，表达式为：

其中，

表示任务i在任务周期内网络延迟时间，

表示所有任务发生网络延迟时间；

所述CPU使用比

，表达式为：

其中，

表示任务i在任务周期内的CPU占用时间，

表示所有任务在任务周期内的CPU占用时间；

所述资源需求量分数，表达式为：

其中，

表示任务i的资源需求量分数，公式中的

、

和

系数表示得失不同情况的比值系数；当执行的任务无法容忍高频率的背压情况发生时，用户提高

的比值，其中

。

进一步的，所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态，分别在未来资源需求情况为稳定、增加、减少、资源过剩和资源瓶颈的情况下结合实时计算任务打分模型的结果制定相应的任务弹性调度策略。

进一步的，所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态，包括：若实时计算异构集群资源状态为资源充足状态，当未来资源需求情况为稳定时，若实时计算任务中最大的RDS中

，则增加分配给实时计算任务的Slots数，其计算公式为：

，其中，

为0.3，

是实时计算任务最高

分数，

是实时计算异构集群可使用的最大Slot数；

当未来资源需求情况为增加，若RDS分数最高的实时计算任务中

，其中，m为0.5，则增加分配给该实时计算任务的Slots数，其计算公式为：

；

当未来资源需求情况为减少时，若

分数最高的实时计算任务中

，则减少分配给该实时计算的Slot数，从而减少

分数最低实时计算任务的资源，其计算公式为：

，其中

为实时计算任务的最低RDS分数，

是一个控制超参数，用于控制资源的减少量，减少资源减少对系统稳定性的影响，并将减少的资源分配给

分数最高的实时计算任务，实现实时计算异构集群弹性调度的目标；

当未来资源需求情况为资源过剩时，则减少

分数最低实时计算任务的资源，其计算公式为：

；

当未来资源需求情况为资源瓶颈时，则增加分配给该实时计算任务的Slots数，且会将所有的Slots分配给选出来的

分数最高的实时计算任务，其计算公式为：

。

进一步的，所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态，包括：若实时计算异构集群资源状态为资源受限状态，当未来资源需求情况为稳定时，则不增加资源；

当未来资源需求情况为增加时，若RDS分数最高的实时计算任务中

，则减少

分数最低实时计算任务的资源，其计算公式为：

；

当未来资源需求情况为减少时，若

分数最高的实时计算任务中

，则减少分配给该实时计算的Slot数，从而减少

分数最低实时计算任务的资源，其计算公式为：

；

当未来资源需要求情况为资源过剩时，则减少

分数最低实时计算任务的资源，其计算公式为：

；

当未来资源需要求情况为资源瓶颈时，则减少

分数最低实时计算任务的资源，其计算公式为：

。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明一种异构集群下的大数据任务实时弹性调度方法，创新性的将ARIMA模型引入到实时计算任务调度前的资源预测中，使弹性调度算法调度时能更了解系统的资源使用情况。

2.本发明一种异构集群下的大数据任务实时弹性调度方法，提出了一种打分模型，该模型融合了任务周期内背压发生率、内存使用比、网络延迟时间比和CPU使用比等指标，能更好的反应实时计算任务的资源需求量。

3.本发明一种异构集群下的大数据任务实时弹性调度方法，在实时计算异构集群的任务弹性调度方案中，考虑了异构集群出现时的解决方案，使本发明能更好的适配实时计算异构集群，能更好的适应未来的实时计算需求。

附图说明

图1是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的流程图。

图2是本发明提供的一种异构集群下的大数据任务实时弹性调度方法结构示意图。

图3是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的弹性调度方案结构图左图。

图4是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的弹性调度方案结构图右图。

图5是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的实时计算Slot数量变化示意图。

图6是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的系统背压情况示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但本发明还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本发明的一部分实施例，而不是全部的实施例。

图1是本发明实施例提供的一种异构集群下的大数据任务实时弹性调度方法的流程图，该方法包括：

所述异构集群是指集群由不同设备组成；

所述资源使用数据是通过第三方监控软件对实时计算异构集群收集得到，包括历史资源使用指标数据和当前资源使用指标数据。

S20.将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练，得到训练好的ARIMA模型。

进一步的，参阅图2，所述将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练，得到训练好的ARIMA模型，包括：

进一步的，自回归部分AR主要用于表示实时计算系统资源使用情况与历史资源使用情况的关系，公式为：

其中，

表示模型的一个阶数，

表示时刻

的实时计算异构集群资源需求序列，

表示自回归系数，

是时刻

的误差值，

为常数项；

其中，C表示AR模型中定义的滞后算子，

表示差分序列后的时间序列；

其中，

表示预测函数，

为MA部分模型参数；

进一步的，所述最终得到ARIMA模型的表达式为：

其中，

是MA模型中第t期的误差值，

是MA模型中的移动平均系数。

S30.将预处理后的当前资源使用指标数据输入到所述训练好的ARIMA模型中进行预测得到未来资源需求情况；

S40.根据实时计算异构集群资源状态构建实时计算任务打分模型后通过计算得到实时计算任务打分模型的结果；

所述异构集群资源状态包括：资源充足状态和资源受限状态。

、内存使用比

、网络延迟时间比

和CPU使用比

所述任务周期内背压发生率

，表达式为：

其中，i，j表示任务数，

表示任务i在任务周期内发生的背压次数，

表示所有任务在任务周期内发生的背压次数；

所述内存使用比

，表达式为：

其中，

表示任务i在任务周期内使用的内存，

表示任务i在任务周期内分配的总内存；

所述网络延迟时间比

，表达式为：

其中，

表示任务i在任务周期内网络延迟时间，

表示所有任务发生网络延迟时间；

所述CPU使用比

，表达式为：

其中，

表示任务i在任务周期内的CPU占用时间，

表示所有任务在任务周期内的CPU占用时间；

所述资源需求量分数，表达式为：

其中，

表示任务i的资源需求量分数，公式中的

、

和

的比值，其中

。

S50.根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果得到实时计算任务的弹性调度方案；

进一步的，参阅图3、图4，所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态，分别在未来资源需求情况为稳定、增加、减少、资源过剩和资源瓶颈的情况下结合实时计算任务打分模型的结果制定相应的任务弹性调度策略。

进一步的，所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态，包括：若实时计算异构集群资源状态为资源充足状态，

当未来资源需求情况为稳定时，若实时计算任务中最大的RDS中

，则增加分配给实时计算任务的Slots数，其计算公式为：

，其中

为0.3，

是实时计算任务最高 RDS分数，

是实时计算异构集群可使用的最大Slot数；

；

当未来资源需求情况为减少时，若RDS分数最高的实时计算任务中

，则减少分配给该实时计算的Slot数，从而减少 RDS分数最低实时计算任务的资源，其计算公式为：

，其中

为实时计算任务的最低RDS分数，

是一个控制超参数，用于控制资源的减少量，减少资源减少对系统稳定性的影响，并将减少的资源分配给RDS分数最高的实时计算任务，实现实时计算异构集群弹性调度的目标；

当未来资源需要求情况为资源过剩时，则减少RDS分数最低实时计算任务的资源，其计算公式为：

；

当未来资源需求情况为资源瓶颈时，则增加分配给该实时计算任务的Slots数，且会将所有的Slots分配给选出来的RDS分数最高的实时计算任务，其计算公式为：

。

进一步的，所述弹性调度方案指的是根据实时计算异构集群的资源状态是资源充足状态或资源受限状态，包括：若实时计算异构集群资源状态为资源受限状态，

当未来资源需求情况为稳定时，则不增加资源；

，则减少RDS分数最低实时计算任务的资源，其计算公式为：

；

；

当未来资源需求情况为资源过剩时，则减少RDS分数最低实时计算任务的资源，其计算公式为：

；

当未来资源需求情况为资源瓶颈时，则减少RDS分数最低实时计算任务的资源，其计算公式为：

。

以下结合实施例1对本发明的特征和性能作进一步的详细描述，本实施例中实时计算使用的是Flink。

进一步的，参阅图5，使用第三方监控软件对Flink异构集群资源使用数据进行收集，使用WordCount数据集进行测试，通过Kafka实现数据发送，由Kafka不规律的发送10MB/s数据、20MB/s、40MB/s的WordCount数据，采集Kafka数据池中堆积的数据，统计第三方监控软件传出的内存使用比，网络延迟，CPU使用比以及背压发生次数，对数据进行清洗得到初始输入数据。

设置Kafka发送数据的频次总时间为30分钟，每5分钟变化一次，数据发送变化采用匀速增加，匀速减少的次序如下：

资源使用数据初始化格式如下：

其中

表示第三方监控软件对Flink异构集群资源的监控时刻，

表示当前时刻发生的背压发生次数，

表示当前时刻的内存使用比，

表示当前时刻的网络延迟情况，

表示当前时刻Cpu使用比。

根据Kafka输入数据得到资源使用部分数据如下：

将前一步得到的资源使用数据，分为训练集和测试集。其中训练集占70%，测试集占30%。把清洗后的训练数据集输入到ARIMA模型中，得到训练好的ARIMA模型。

最后输入测试集得到预测结果，预测结果用于表示未来资源使用情况：稳定、增加和减少三种情况。

ARIMA模型预测结果表如下：

打分器会根据当前Flink异构集群资源使用情况结合背压发生次数、内存使用比、网络延迟时间比、CPU使用比得到一个资源需求分数RDS。由前面第三方监控软件得到的资源使用数据求出各数据：

所述任务周期内背压发生率

，表达式为：

所述内存使用比

，表达式为：

所述网络延迟时间比

，表达式为：

所述CPU使用比

，表达式为：

所述资源需求量分数，表达式为：

其中，

表示任务i的资源需求量分数，公式中的

、

和

的比值，其中

。在本次实现过程中将比值系数设置为

。

，则增加分配给实时计算任务的Slots数，其计算公式为：

；

，则增加分配给该实时计算任务的Slots数，其计算公式为：

；

；

；

。

进一步的，所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态，包括：若实时计算异构集群资源状态为资源受限状态，

当未来资源需求情况为稳定时，则不增加资源；

，则减少RDS分数最低实时计算任务的资源，其计算公式为：

；

，则减少分配给该实时计算的Slot数，从而减少RDS分数最低实时计算任务的资源，其计算公式为：

；

；

当未来资源需要求情况为资源瓶颈时，则减少RDS分数最低实时计算任务的资源，其计算公式为：

。

进一步的，参阅图6，采用弹性调度后，系统的背压发生率将得到降低。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种异构集群下的大数据任务实时弹性调度方法，其特征在于，包括：

S10.获取实时计算异构集群的资源使用数据，并对所述资源使用数据进行预处理；

所述异构集群是指集群由不同设备组成；

2.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法，其特征在于，所述历史资源使用指标数据，包括：历史异构集群中具备资源充足的设备数量、历史异构集群中具备资源受限的设备数量、历史CPU使用比、历史内存使用比、历史网络平均损耗、历史现有实时计算Slot数量、历史背压发生率和前五次非稳定结果发生时间，所述Slot表示资源管理基本单元；

所述当前资源使用指标数据，包括：异构集群中具备资源充足的设备数量、异构集群中具备资源受限的设备数量、CPU使用比、内存使用比、网络平均损耗、现有实时计算 Slot数量、背压发生率和历史最近一次非稳定结果发生时间；

3.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法，其特征在于，所述将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练，得到训练好的ARIMA模型，包括：

4.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法，其特征在于，所述未来资源需求情况包括：稳定、增加、减少、资源过剩和资源瓶颈。

5.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法，其特征在于，所述构建实时计算任务打分模型，就是实时计算异构集群给当前的所有符合条件的实时计算任务构建一个计划表，所述计划表中包括任务周期内背压发生率