CN115495202A - 一种异构集群下的大数据任务实时弹性调度方法 - Google Patents
一种异构集群下的大数据任务实时弹性调度方法 Download PDFInfo
- Publication number
- CN115495202A CN115495202A CN202211437135.5A CN202211437135A CN115495202A CN 115495202 A CN115495202 A CN 115495202A CN 202211437135 A CN202211437135 A CN 202211437135A CN 115495202 A CN115495202 A CN 115495202A
- Authority
- CN
- China
- Prior art keywords
- real
- resource
- time
- task
- heterogeneous cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种异构集群下的大数据任务实时弹性调度方法,包括:获取实时计算异构集群的资源使用数据并进行预处理;将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练;将预处理后的当前资源使用指标数据输入到训练好的ARIMA模型中预测未来资源需求情况;根据实时计算异构集群资源状态构建实时计算任务打分模型;根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果给出实时计算任务弹性调度方案;本发明将ARIMA模型引入到实时计算的弹性调度中,通过弹性的修改任务分配的实时计算Slots数量,提升了实时计算异构集群的资源使用效率,保证实时计算任务在异构集群中也能正常运行。
Description
技术领域
本发明涉及云计算任务调度领域,特别是涉及一种异构集群下的大数据任务实时弹性调度方法。
背景技术
随着实时计算的快速发展,实时计算流计算引擎作为该领域的代表被以阿里为代表的各大互联网公司大规模使用,其优秀的实时性使其能适用于常规业务的大多数场景。但是,随着公司业务数据量的持续增长,实时计算传统任务调度算法的弊端不断显现,例如不能够弹性的增加或减少资源、无法运行在实时计算异构集群上以及无法满足大规模业务数据量的实时性要求等。
综上所述,现有实时计算流计算引擎存在如下缺点:实时计算流计算引擎对于多任务调度一般采用基础的轮询调度策略,即将任务按节点顺序循环发送到不同的计算节点中,该方法在一定程度上能解决集群负载问题,避免资源倾斜和单节点计算任务过重影响总体计算时间。但是,由于没有考虑各节点的异同,即集群的异构性,以及任务本身的特点,极大可能还是会出现资源倾斜、网络传输开销过高等问题,从而影响流任务的实时性。
公布号为CN 104243617 A,名称为一种异构集群中面向混合负载的任务调度方法及系统的专利文献,通过一种易拓展的约束描述方法来表示异构化的机器属性和任务需求,在此基础上,将硬约束作为过滤标准,将软约束作为选择标准,为任务分配最优机器,显著提高了任务的执行效率和系统的整体性能。但是,在调度机制中未涉及到弹性调度机制,不管是单一任务还是多任务调度本身,都是响应式调度模式,即当任务调度时,资源才做相应的调整,并且在运行过程中资源总量是固定的,这使得任务和资源调整之间存在时间差,严重影响了流任务的实时性。
上述现有技术存在的缺点会影响实时计算在更大规模流数据计算上的能力,这不符合未来数据引擎发展的要求,所以本发明提出了一种异构集群下的大数据任务实时弹性调度方法。
名词解释:
Flink是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算;
Storm是Twitter开源的分布式实时大数据处理框架;
Spark是一种通用的大数据计算框架,主要用于大数据的计算;
资源充足状态:表示具备充足资源的设备,例如云节点、服务器节点、PC节点等;
资源受限状态:表示具备有限资源的设备,例如嵌入式设备、板卡等。
发明内容
为解决上述技术问题,本发明采用的一个技术方案是:提供一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述包括:
S10.获取实时计算异构集群的资源使用数据,并对所述资源使用数据进行预处理,得到预处理后的历史资源使用指标数据,预处理后的当前资源使用指标数据;
所述实时计算是针对海量数据进行的,所述实时计算的方法包括:Flink、Storm和Spark;
所述异构集群是指集群由不同设备组成;
所述资源使用数据是通过第三方监控软件对实时计算异构集群收集得到,包括历史资源使用指标数据和当前资源使用指标数据;
S20.将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型;
S30.将预处理后的当前资源使用指标数据输入到所述训练好的ARIMA模型中进行预测,得到未来资源需求情况;
S40.根据实时计算异构集群资源状态构建实时计算任务打分模型,通过所述实时计算打分模型计算得到实时计算任务打分模型的结果;
所述异构集群资源状态包括:资源充足状态和资源受限状态;
S50.根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果得到实时计算任务的弹性调度方案。
进一步的,所述历史资源使用指标数据,包括:历史异构集群中具备资源充足的设备数量、历史异构集群中具备资源受限的设备数量、历史CPU使用比、历史内存使用比、历史网络平均损耗、历史现有实时计算Slot数量、历史背压发生率和历史前五次非稳定结果发生时间,所述Slot表示资源管理基本单元;
所述当前资源使用指标数据,包括:异构集群中具备资源充足的设备数量、异构集群中具备资源受限的设备数量、CPU使用比、内存使用比、网络平均损耗、现有实时计算Slot数量、背压发生率和历史最近一次非稳定结果发生时间;
所述预处理,包括:对所述资源使用数据进行空值填充和数据脱敏,将空值填充和数据脱敏后的资源使用数据按照时间段T进行分组聚合,对分组聚合后的资源使用数据进行时间序列化和归一化处理,所述时间段T为5分钟。
进一步的,所述将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型,包括:
S21.将所述预处理后的历史资源使用指标数据分为训练集和测试集;
S22.分别对ARIMA模型的自回归部分AR、差分阶数部分I和移动平均部分MA进行训练;
自回归部分AR主要用于表示实时计算系统资源使用情况与历史资源使用情况的关系,公式为:
差分阶数部分I表示d 阶差分,用于体现模型的稳定性,公式为:
移动平均部分MA主要用于消除预测误差,减少回归预测中的波动,公式为:
S23.将所述训练集和测试集输入到训练好的ARIMA模型中进行训练和测试后最终得到ARIMA模型的表达式。
进一步的,所述最终得到ARIMA模型的表达式为:
进一步的,所述未来资源需求情况包括:稳定、增加、减少、资源过剩和资源瓶颈。
进一步的,所述构建实时计算任务打分模型,就是实时计算异构集群给当前的所有符合条件的实时计算任务构建一个计划表,所述计划表中包括任务周期内背压发生率、内存使用比、网络延迟时间比和CPU使用比,每个指标都存在不同的比例系数,最终得出一个资源需求量分数RDS;
所述资源需求量分数,表达式为:
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,分别在未来资源需求情况为稳定、增加、减少、资源过剩和资源瓶颈的情况下结合实时计算任务打分模型的结果制定相应的任务弹性调度策略。
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源充足状态,当未来资源需求情况为稳定时,若实时计算任务中最大的RDS中,则增加分配给实时计算任务的Slots数,其计算公式为:,其中,为0.3,是实时计算任务最高分数,是实时计算异构集群可使用的最大Slot数;
当未来资源需求情况为减少时,若分数最高的实时计算任务中,则减少分配给该实时计算的Slot数,从而减少分数最低实时计算任务的资源,其计算公式为:,其中为实时计算任务的最低RDS分数,是一个控制超参数,用于控制资源的减少量,减少资源减少对系统稳定性的影响,并将减少的资源分配给分数最高的实时计算任务,实现实时计算异构集群弹性调度的目标;
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源受限状态,当未来资源需求情况为稳定时,则不增加资源;
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明一种异构集群下的大数据任务实时弹性调度方法,创新性的将ARIMA模型引入到实时计算任务调度前的资源预测中,使弹性调度算法调度时能更了解系统的资源使用情况。
2.本发明一种异构集群下的大数据任务实时弹性调度方法,提出了一种打分模型,该模型融合了任务周期内背压发生率、内存使用比、网络延迟时间比和CPU使用比等指标,能更好的反应实时计算任务的资源需求量。
3.本发明一种异构集群下的大数据任务实时弹性调度方法,在实时计算异构集群的任务弹性调度方案中,考虑了异构集群出现时的解决方案,使本发明能更好的适配实时计算异构集群,能更好的适应未来的实时计算需求。
附图说明
图1是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的流程图。
图2是本发明提供的一种异构集群下的大数据任务实时弹性调度方法结构示意图。
图3是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的弹性调度方案结构图左图。
图4是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的弹性调度方案结构图右图。
图5是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的实时计算Slot数量变化示意图。
图6是本发明提供的一种异构集群下的大数据任务实时弹性调度方法的系统背压情况示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
图1是本发明实施例提供的一种异构集群下的大数据任务实时弹性调度方法的流程图,该方法包括:
S10.获取实时计算异构集群的资源使用数据,并对所述资源使用数据进行预处理,得到预处理后的历史资源使用指标数据,预处理后的当前资源使用指标数据;
所述实时计算是针对海量数据进行的,所述实时计算的方法包括:Flink、Storm和Spark;
所述异构集群是指集群由不同设备组成;
所述资源使用数据是通过第三方监控软件对实时计算异构集群收集得到,包括历史资源使用指标数据和当前资源使用指标数据。
进一步的,所述历史资源使用指标数据,包括:历史异构集群中具备资源充足的设备数量、历史异构集群中具备资源受限的设备数量、历史CPU使用比、历史内存使用比、历史网络平均损耗、历史现有实时计算Slot数量、历史背压发生率和历史前五次非稳定结果发生时间,所述Slot表示资源管理基本单元;
所述当前资源使用指标数据,包括:异构集群中具备资源充足的设备数量、异构集群中具备资源受限的设备数量、CPU使用比、内存使用比、网络平均损耗、现有实时计算Slot数量、背压发生率和历史最近一次非稳定结果发生时间;
所述预处理,包括:对所述资源使用数据进行空值填充和数据脱敏,将空值填充和数据脱敏后的资源使用数据按照时间段T进行分组聚合,对分组聚合后的资源使用数据进行时间序列化和归一化处理,所述时间段T为5分钟。
S20.将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型。
进一步的,参阅图2,所述将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型,包括:
S21.将所述预处理后的历史资源使用指标数据分为训练集和测试集;
S22.分别对ARIMA模型的自回归部分AR、差分阶数部分I和移动平均部分MA进行训练;
进一步的,自回归部分AR主要用于表示实时计算系统资源使用情况与历史资源使用情况的关系,公式为:
差分阶数部分I表示d 阶差分,用于体现模型的稳定性,公式为:
移动平均部分MA主要用于消除预测误差,减少回归预测中的波动,公式为:
S23.将所述训练集和测试集输入到训练好的ARIMA模型中进行训练和测试后最终得到ARIMA模型的表达式。
进一步的,所述最终得到ARIMA模型的表达式为:
S30.将预处理后的当前资源使用指标数据输入到所述训练好的ARIMA模型中进行预测得到未来资源需求情况;
进一步的,所述未来资源需求情况包括:稳定、增加、减少、资源过剩和资源瓶颈。
S40.根据实时计算异构集群资源状态构建实时计算任务打分模型后通过计算得到实时计算任务打分模型的结果;
所述异构集群资源状态包括:资源充足状态和资源受限状态。
进一步的,所述构建实时计算任务打分模型,就是实时计算异构集群给当前的所有符合条件的实时计算任务构建一个计划表,所述计划表中包括任务周期内背压发生率、内存使用比、网络延迟时间比和CPU使用比,每个指标都存在不同的比例系数,最终得出一个资源需求量分数RDS;
所述资源需求量分数,表达式为:
S50.根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果得到实时计算任务的弹性调度方案;
进一步的,参阅图3、图4,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,分别在未来资源需求情况为稳定、增加、减少、资源过剩和资源瓶颈的情况下结合实时计算任务打分模型的结果制定相应的任务弹性调度策略。
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源充足状态,
当未来资源需求情况为稳定时,若实时计算任务中最大的RDS中 ,则增加分配给实时计算任务的Slots数,其计算公式为:,其中为0.3,是实时计算任务最高 RDS分数,是实时计算异构集群可使用的最大Slot数;
当未来资源需求情况为减少时,若RDS分数最高的实时计算任务中 ,则减少分配给该实时计算的Slot数,从而减少 RDS分数最低实时计算任务的资源,其计算公式为:,其中 为实时计算任务的最低RDS分数,是一个控制超参数,用于控制资源的减少量,减少资源减少对系统稳定性的影响,并将减少的资源分配给RDS分数最高的实时计算任务,实现实时计算异构集群弹性调度的目标;
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态是资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源受限状态,
当未来资源需求情况为稳定时,则不增加资源;
以下结合实施例1对本发明的特征和性能作进一步的详细描述,本实施例中实时计算使用的是Flink。
S10.获取实时计算异构集群的资源使用数据,并对所述资源使用数据进行预处理,得到预处理后的历史资源使用指标数据,预处理后的当前资源使用指标数据;
进一步的,参阅图5,使用第三方监控软件对Flink异构集群资源使用数据进行收集,使用WordCount数据集进行测试,通过Kafka实现数据发送,由Kafka不规律的发送10MB/s数据、20MB/s、40MB/s的WordCount数据,采集Kafka数据池中堆积的数据,统计第三方监控软件传出的内存使用比,网络延迟,CPU使用比以及背压发生次数,对数据进行清洗得到初始输入数据。
设置Kafka发送数据的频次总时间为30分钟,每5分钟变化一次,数据发送变化采用匀速增加,匀速减少的次序如下:
资源使用数据初始化格式如下:
根据Kafka输入数据得到资源使用部分数据如下:
S20.将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型;
将前一步得到的资源使用数据,分为训练集和测试集。其中训练集占70%,测试集占30%。把清洗后的训练数据集输入到ARIMA模型中,得到训练好的ARIMA模型。
S30.将预处理后的当前资源使用指标数据输入到所述训练好的ARIMA模型中进行预测得到未来资源需求情况;
最后输入测试集得到预测结果,预测结果用于表示未来资源使用情况:稳定、增加和减少三种情况。
ARIMA模型预测结果表如下:
S40.根据实时计算异构集群资源状态构建实时计算任务打分模型,通过所述实时计算打分模型计算得到实时计算任务打分模型的结果;
打分器会根据当前Flink异构集群资源使用情况结合背压发生次数、内存使用比、网络延迟时间比、CPU使用比得到一个资源需求分数RDS。由前面第三方监控软件得到的资源使用数据求出各数据:
所述资源需求量分数,表达式为:
S50.根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果得到实时计算任务的弹性调度方案。
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源充足状态,
进一步的,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源受限状态,
当未来资源需求情况为稳定时,则不增加资源;
进一步的,参阅图6,采用弹性调度后,系统的背压发生率将得到降低。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种异构集群下的大数据任务实时弹性调度方法,其特征在于,包括:
S10.获取实时计算异构集群的资源使用数据,并对所述资源使用数据进行预处理;
S20.将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型;
S30.将预处理后的当前资源使用指标数据输入到所述训练好的ARIMA模型中进行预测,得到未来资源需求情况;
S40.根据实时计算异构集群资源状态构建实时计算任务打分模型,通过所述实时计算打分模型计算得到实时计算任务打分模型的结果;
S50.根据所述未来资源需求情况、异构集群资源状态和实时计算任务打分模型的结果得到实时计算任务的弹性调度方案;
所述实时计算是针对海量数据进行的,所述实时计算的方法包括:Flink、Storm和Spark;
所述异构集群是指集群由不同设备组成;
所述资源使用数据是通过第三方监控软件对实时计算异构集群收集得到,包括历史资源使用指标数据和当前资源使用指标数据;
所述异构集群资源状态包括:资源充足状态和资源受限状态。
2.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述历史资源使用指标数据,包括:历史异构集群中具备资源充足的设备数量、历史异构集群中具备资源受限的设备数量、历史CPU使用比、历史内存使用比、历史网络平均损耗、历史现有实时计算Slot数量、历史背压发生率和前五次非稳定结果发生时间,所述Slot表示资源管理基本单元;
所述当前资源使用指标数据,包括:异构集群中具备资源充足的设备数量、异构集群中具备资源受限的设备数量、CPU使用比、内存使用比、网络平均损耗、现有实时计算 Slot数量、背压发生率和历史最近一次非稳定结果发生时间;
所述预处理,包括:对所述资源使用数据进行空值填充和数据脱敏,将空值填充和数据脱敏后的资源使用数据按照时间段T进行分组聚合,对分组聚合后的资源使用数据进行时间序列化和归一化处理,所述时间段T为5分钟。
3.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述将预处理后的历史资源使用指标数据输入到ARIMA模型中进行模型训练,得到训练好的ARIMA模型,包括:
S21.将所述预处理后的历史资源使用指标数据分为训练集和测试集;
S22.分别对ARIMA模型的自回归部分AR、差分阶数部分I和移动平均部分MA进行训练;
S23.将所述训练集和测试集输入到训练好的ARIMA模型中进行训练和测试后最终得到ARIMA模型的表达式。
4.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述未来资源需求情况包括:稳定、增加、减少、资源过剩和资源瓶颈。
5.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述构建实时计算任务打分模型,就是实时计算异构集群给当前的所有符合条件的实时计算任务构建一个计划表,所述计划表中包括任务周期内背压发生率、内存使用比、网络延迟时间比和CPU使用比,每个指标都存在不同的比例系数,最终得出一个资源需求量分数RDS;
所述资源需求量分数,表达式为:
6.如权利要求1所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,分别在未来资源需求情况为稳定、增加、减少、资源过剩和资源瓶颈的情况下结合实时计算任务打分模型的结果制定相应的任务弹性调度策略。
7.如权利要求6所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源充足状态,当未来资源需求情况为稳定时,若实时计算任务中最大的RDS中,则增加分配给实时计算任务的Slots数,其计算公式为:,其中,为0.3,是实时计算任务最高分数,是实时计算异构集群可使用的最大Slot数;
当未来资源需求情况为减少时,若分数最高的实时计算任务中,则减少分配给该实时计算的Slot数,从而减少分数最低实时计算任务的资源,其计算公式为:,其中为实时计算任务的最低RDS分数,是一个控制超参数,用于控制资源的减少量,减少资源减少对系统稳定性的影响,并将减少的资源分配给分数最高的实时计算任务,实现实时计算异构集群弹性调度的目标;
8.如权利要求6所述的一种异构集群下的大数据任务实时弹性调度方法,其特征在于,所述弹性调度方案指的是根据实时计算异构集群的资源状态为资源充足状态或资源受限状态,包括:若实时计算异构集群资源状态为资源受限状态,当未来资源需求情况为稳定时,则不增加资源;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211437135.5A CN115495202B (zh) | 2022-11-17 | 2022-11-17 | 一种异构集群下的大数据任务实时弹性调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211437135.5A CN115495202B (zh) | 2022-11-17 | 2022-11-17 | 一种异构集群下的大数据任务实时弹性调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115495202A true CN115495202A (zh) | 2022-12-20 |
CN115495202B CN115495202B (zh) | 2023-04-07 |
Family
ID=85115988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211437135.5A Active CN115495202B (zh) | 2022-11-17 | 2022-11-17 | 一种异构集群下的大数据任务实时弹性调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495202B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841649A (zh) * | 2023-08-28 | 2023-10-03 | 杭州玳数科技有限公司 | 一种基于flink on yarn的热重启方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535763B1 (en) * | 2015-11-30 | 2017-01-03 | International Business Machines Corporation | System and method for runtime grouping of processing elements in streaming applications |
CN107038071A (zh) * | 2017-05-26 | 2017-08-11 | 重庆邮电大学 | 一种基于数据流预测的Storm任务伸缩调度算法 |
US20200167191A1 (en) * | 2018-11-26 | 2020-05-28 | Advanced Micro Devices, Inc. | Laxity-aware, dynamic priority variation at a processor |
CN113703917A (zh) * | 2021-08-26 | 2021-11-26 | 上海道客网络科技有限公司 | 一种多集群资源数据处理系统与方法、非暂态存储介质 |
US20220029874A1 (en) * | 2019-09-24 | 2022-01-27 | Intradiem, Inc. | Optimized Automation Triggering in Live-Monitoring of Agent Instances |
CN114579271A (zh) * | 2022-02-28 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 任务调度方法、分布式系统及存储介质 |
CN115330015A (zh) * | 2022-06-29 | 2022-11-11 | 西安交通大学 | 考虑余热的数据中心参与综合需求响应分布式优化方法 |
-
2022
- 2022-11-17 CN CN202211437135.5A patent/CN115495202B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535763B1 (en) * | 2015-11-30 | 2017-01-03 | International Business Machines Corporation | System and method for runtime grouping of processing elements in streaming applications |
CN107038071A (zh) * | 2017-05-26 | 2017-08-11 | 重庆邮电大学 | 一种基于数据流预测的Storm任务伸缩调度算法 |
US20200167191A1 (en) * | 2018-11-26 | 2020-05-28 | Advanced Micro Devices, Inc. | Laxity-aware, dynamic priority variation at a processor |
US20220029874A1 (en) * | 2019-09-24 | 2022-01-27 | Intradiem, Inc. | Optimized Automation Triggering in Live-Monitoring of Agent Instances |
CN113703917A (zh) * | 2021-08-26 | 2021-11-26 | 上海道客网络科技有限公司 | 一种多集群资源数据处理系统与方法、非暂态存储介质 |
CN114579271A (zh) * | 2022-02-28 | 2022-06-03 | 阿里巴巴(中国)有限公司 | 任务调度方法、分布式系统及存储介质 |
CN115330015A (zh) * | 2022-06-29 | 2022-11-11 | 西安交通大学 | 考虑余热的数据中心参与综合需求响应分布式优化方法 |
Non-Patent Citations (3)
Title |
---|
"孟宪令": ""移动边缘网络中的低时延计算卸载技术"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
THILINA BUDDHIKA: ""Online Scheduling and Interference Alleviation for Low-Latency, High-Throughput Processing of Data Streams"", 《 IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS》 * |
郑云红: ""基于Flink的受限状态下弹性调度策略研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841649A (zh) * | 2023-08-28 | 2023-10-03 | 杭州玳数科技有限公司 | 一种基于flink on yarn的热重启方法及装置 |
CN116841649B (zh) * | 2023-08-28 | 2023-12-08 | 杭州玳数科技有限公司 | 一种基于flink on yarn的热重启方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115495202B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106648904B (zh) | 一种流式数据处理自适应速率控制方法 | |
CN109324875B (zh) | 一种基于强化学习的数据中心服务器功耗管理与优化方法 | |
CN109788315A (zh) | 视频转码方法、装置及系统 | |
CN107038071B (zh) | 一种基于数据流预测的Storm任务伸缩调度算法 | |
CN108270805B (zh) | 用于数据处理的资源分配方法及装置 | |
CN112162865A (zh) | 服务器的调度方法、装置和服务器 | |
CN103500123B (zh) | 异构环境中并行计算调度方法 | |
CN115495202A (zh) | 一种异构集群下的大数据任务实时弹性调度方法 | |
CN112685153A (zh) | 微服务调度方法、装置以及电子设备 | |
CN112130966A (zh) | 任务调度方法和系统 | |
CN115373835A (zh) | Flink集群的任务资源调整方法、装置及电子设备 | |
WO2022252546A1 (zh) | 一种信息调节方法、设备及存储介质 | |
CN112463390A (zh) | 一种分布式任务调度方法、装置、终端设备及存储介质 | |
CN106293947B (zh) | 虚拟化云环境下gpu-cpu混合资源分配系统和方法 | |
CN114936086B (zh) | 一种多计算中心场景下的任务调度器、调度方法及装置 | |
CN112052092A (zh) | 一种风险感知的边缘计算任务分配方法 | |
CN111857990B (zh) | 一种加强yarn长类型服务调度的方法、系统 | |
CN116643844B (zh) | 面向电力超算云资源自动扩展的智能化管理系统及方法 | |
CN109885384A (zh) | 任务并行度优化方法、装置、计算机设备及存储介质 | |
CN116302578B (zh) | 一种QoS约束的流应用延迟确保方法及系统 | |
CN115562841B (zh) | 一种云视频服务自适应资源调度系统和方法 | |
CN111629216A (zh) | 边缘网络环境下基于随机森林算法的vod业务缓存替换方法 | |
CN116028193A (zh) | 一种混部集群的大数据任务动态高能效调度方法和系统 | |
CN115543582A (zh) | 超算算力网络统一调度方法、系统及设备 | |
CN114283007A (zh) | 一种解决支付热点账户问题的方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |