CN111813548A - 一种资源调度方法、装置、电子设备及存储介质 - Google Patents

一种资源调度方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111813548A
CN111813548A CN202010619438.3A CN202010619438A CN111813548A CN 111813548 A CN111813548 A CN 111813548A CN 202010619438 A CN202010619438 A CN 202010619438A CN 111813548 A CN111813548 A CN 111813548A
Authority
CN
China
Prior art keywords
memory
computing
scheduling
determining
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010619438.3A
Other languages
English (en)
Inventor
王森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Cloud Network Technology Co Ltd
Original Assignee
Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Cloud Network Technology Co Ltd filed Critical Beijing Kingsoft Cloud Network Technology Co Ltd
Priority to CN202010619438.3A priority Critical patent/CN111813548A/zh
Publication of CN111813548A publication Critical patent/CN111813548A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5022Mechanisms to release resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种资源调度方法、装置、电子设备及存储介质,该方法包括:实时监测计算集群中计算作业的资源使用信息;当根据所述资源使用信息确定所述计算作业存在资源使用异常时,确定所述计算作业对应的执行器的调度策略;对所述执行器执行所述调度策略对应的调度操作。该技术方案在计算作业执行过程中动态地对每个执行器的内存和/或CPU使用进行调整,为计算作业分配正常执行所需的资源,保证其性能和执行速度,又减少资源空闲,避免资源浪费,提高整个计算集群的资源使用率。

Description

一种资源调度方法、装置、电子设备及存储介质
技术领域
本申请涉及大数据处理技术领域,尤其涉及一种资源调度方法、装置、电子设备及存储介质。
背景技术
Spark是专为大规模数据处理而设计的快速通用的计算集群,采用分布式计算框架,在海量数据的处理与计算、机器学习和数据挖掘方面具有重要意义。
在Spark中执行计算作业时,资源分配是非常重要的一方面。目前,无论是静态资源分配还是动态资源分配,都是在任务执行之初就已根据设定值或根据计算数据量、任务完成时间、总资源量、任务数量等指标为每个计算作业分配好资源。在计算作业执行完毕之前,其对应的资源不会发生变化。
但是,由于资源配置固定不变,无法根据计算作业的变化而自动调整,从而出现计算作业可能由于得不到足够的资源而计算缓慢,或者计算作业还存在资源空闲,造成资源浪费。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请实施例提供了一种资源调度方法、装置、电子设备及存储介质。
根据本申请实施例的一个方面,提供了一种资源调度方法,包括:
实时监测计算集群中计算作业的资源使用信息;
当根据所述资源使用信息确定所述计算作业存在资源使用异常时,确定所述计算作业对应的执行器的调度策略;
对所述执行器执行所述调度策略对应的调度操作。
可选的,所述实时监测计算集群中计算作业的资源使用信息,包括:
实时采集所述计算集群中计算作业的以下至少一项资源使用数据:CPU利用数据、内存利用数据及垃圾回收数据;
将预设时长内的所述资源使用数据汇总为所述计算作业的资源使用信息。
可选的,所述确定所述计算作业对应的执行器的调度策略,包括:
确定所述资源使用异常对应的异常类型;
当所述异常类型为内存异常时,确定所述异常类型对应的调度策略为:调整所述计算作业对应的执行器数量和/或调整所述执行器的内存分配量;
当所述异常类型为CPU异常时,确定所述异常类型对应的调度策略为:调整所述计算作业对应的执行器数量和/或调整所述执行器对应的CPU核芯数量。
可选的,所述资源使用异常包括内存不足或内存空闲,所述根据所述资源使用信息确定所述计算作业存在资源使用异常,包括:
根据所述内存利用数据确定预设时长内的内存利用率,并根据所述垃圾回收数据确定所述预设时长内的平均垃圾回收时长;
当在所述预设时长内所述内存利用率大于或等于第一内存阈值,且所述平均垃圾回收时长大于或等于第一时长阈值时,确定所述资源使用异常为内存不足;
当在所述内存利用率小于或等于第二内存阈值,且所述平均垃圾回收时长小于或等于第二时长阈值时,确定所述资源使用异常为内存空闲。
可选的,当确定所述资源使用异常为内存不足时,所述确定所述计算作业对应的执行器的调度策略,包括:
获取所述执行器对应的内存分配量及所述计算集群中单个计算节点的最大可分配内存量;
当所述内存分配量与所述最大可分配内存量之间的差值满足第一预设条件时,确定所述调度策略为增加所述执行器的内存分配量;
当所述内存分配量与所述最大可分配内存量之间的差值不满足所述第一预设条件时,确定所述调度策略为增加所述计算作业对应的执行器数量。
可选的,当确定所述计算作业存在内存空闲时,所述确定所述计算作业对应的执行器的调度策略,包括:
根据所述CPU利用数据确定所述预设时长内的CPU利用率;
当所述CPU利用率大于或等于第一CPU阈值时,确定所述调度策略为降低所述执行器的内存分配量;
当所述CPU利用率小于所述第一CPU阈值时,确定所述调度策略为减少所述计算作业对应的执行器数量。
可选的,所述调度策略还包括:调度持续时长;
所述对所述执行器执行所述调度策略对应的调度操作,包括:
在所述调度持续时长内,对所述内存分配量、所述执行器数量和/或所述CPU核芯数量进行调整。
可选的,所述根据所述垃圾回收数据确定预设时长内的平均垃圾回收时长,包括:
根据所述垃圾回收数据统计所述预设时长内所述计算作业对应的总垃圾回收时长;
获取所述计算作业对应的执行器数量;
将所述总垃圾回收时长除以所述执行器数量,得到每个所述执行器对应的所述平均垃圾回收时长。
根据本申请实施例的另一个方面,提供了一种资源调度装置,包括:
监测模块,用于实时监测计算集群中计算作业的资源使用信息;
分析模块,用于当根据所述资源使用信息确定所述计算作业存在资源使用异常时,确定所述计算作业对应的执行器的调度策略;
调度模块,用于对所述执行器执行所述调度策略对应的调度操作。
根据本申请实施例的另一个方面,提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行计算机程序时,实现上述方法步骤。
根据本申请实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
实时根据监测到的计算作业的资源使用情况判断每个计算作业是否出现资源使用异常,当出现异常时,可实时对计算作业的每个执行器进行资源调整。这样,在计算作业执行过程中动态地对每个执行器的内存和/或CPU使用进行调整,为计算作业分配正常执行所需的资源,保证其性能和执行速度,又减少资源空闲,避免资源浪费,提高整个计算集群的资源使用率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种资源调度方法的流程图;
图2为本申请另一实施例提供的一种资源调度方法的流程图;
图3为本申请另一实施例提供的一种资源调度方法的流程图;
图4为本申请另一实施例提供的一种资源调度方法的流程图;
图5为本申请另一实施例提供的一种资源调度方法的流程图;
图6为本申请实施例提供的一种资源调度装置的框图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在计算集群Spark中,存在分布式部署的多个计算节点,每个计算节点上可运行多个执行器(Executor)。Spark将提交的计算作业(Job)转化为任务(Task),将Task调度到各个Executor,由Executor执行被分配的Task。
Executor是一个工作进程,负责在Spark作业中运行Task,各个Task间相互独立。Spark应用启动时,Executor被同时启动,并且始终伴随着整个Spark应用的生命周期而存在。如果有Executor发生了故障或崩溃,Spark应用也可以继续执行,会将出错Task上的任务调度到其他Executor上继续运行。
Spark根据Job对应的数据量、完成时间、计算复杂度等为Job分配资源。Spark分配给每个Job的资源包括:Executor的数量、每个Executor的内存分配量、每个Executor的CPU核芯(core)分配数量,等等。因此,本实施例中对资源的调度主要是对Executor的数量、内存分配量、CPU core分配数量进行调整。
其中,Executor的数量及每个Executor对应的CPU core数量,决定了能够并行执行的Task的数量。例如,有6个Executor,每个Executor对应的2个CPU core,则可并行执行12个Task,12个Task执行完毕后,再换下一批12个Task。如果将Executor数量增加到10个,每个Executor对应的CPU core数量不变,则并行执行的Task为20个。若Executor数量不变,每个Executor对应的CPU core数量增加到5个,则并行执行的Task为30个。由此可见,通过增加Executor的数量或每个Executor对应的CPU core数量,可以增加任务并行能力,计算性能即计算速度也相应提升。
每个Executor的内存分配量决定了在计算过程中可以缓存多少数据、写磁盘的频率为多少、以及垃圾回收(Garbage Collect,GC)的频率和时间。如果为每个Executor分配的内存量较少,在执行Task时,可能会导致频繁出现Java虚拟机(Java Virtual Machine,JVM)堆内存写满,频繁进行垃圾回收,计算速度减慢;另外,如果内存不足,需要将更多的数据写入磁盘,磁盘输入输出量(读写次数)较高。若每个Executor的内存量提高,则可减少GC频率和时间,提高计算速度;可以在内存中缓存更多的数据,减少写入磁盘的数据量,降低磁盘输入输出量,提升计算性能。
一般来说,每个计算节点的节点内存量是固定的,且需要留有一部分内存用于操作系统和Spark的守护进程。因此,每个计算节点上Executor的数量与每个Executor的内存分配量的乘积小于该计算节点的最大可分配内存量。如计算节点的节点内存量为64GB,其中1GB用于操作系统和Spark的守护进程,则其最大可分配内存量为63GB。
本申请实施例,实时监测计算集群(Spark)中各个计算作业的资源使用情况,判断计算作业是否出现资源不足或资源浪费等资源使用异常,当出现资源使用异常时,确定执行该计算作业的Executor的调度策略,根据调度策略对Executor进行调整。
下面首先对本发明实施例所提供的一种资源调度方法进行介绍。
图1为本申请实施例提供的一种资源调度方法的流程图。如图1所示,该方法包括以下步骤:
步骤S11,实时监测计算集群中计算作业的资源使用信息。
可选的,步骤S11包括:实时采集计算集群中计算作业的以下至少一项资源使用数据:CPU利用数据、内存利用数据及垃圾回收数据;将预设时长内的所述资源使用数据汇总为所述计算作业的资源使用信息。
其中,GC主要是清理掉内存中不再使用的对象,腾出内存空间用户创建其它新对象。每当GC发生时,都会在工作日志中打印消息。因此,通过日志分析,可以统计得到包括每个计算作业对应总GC时长。可选的,本实施例基于总GC时长确定是否存在资源异常,GC数据中除了总GC时长外,还可以包括GC频率等等。
步骤S12,当根据资源使用信息确定计算作业存在资源使用异常时,确定计算作业对应的执行器的调度策略。
资源使用异常包括资源不足或资源空闲。本实施例中的资源主要包括内存和/或CPU,即内存不足或内存空闲,CPU不足或CPU空闲。
当Job存在内存不足时,调度策略可以为增加Executor的数量或增加每个Executor的内存分配量;反之,当Job存在内存空闲时,调度策略为减少Executor的数量或降低每个Executor的内存分配量。
当Job存在CPU不足时,调度策略可以为增加每个Executor的CPUcore分配数量;反之,当Job存在CPU空闲时,调度策略为减少每个Executor的CPU core分配数量。
步骤S13,对执行器执行调度策略对应的调度操作。
在Spark中,可以调整spark-submit shell脚本中的参数,以实现对Executor的资源调度操作。
例如,spark-submit shell脚本中的具体参数如下:
(1)num-executors 3,配置Executor的数量为3;
(2)executor-memory 100m,配置每个Executor的内存分配量为100MB;
(3)executor-cores 3,配置每个Executor对应的CPU core数量为3。
本实施例中,实时根据监测到的计算作业的资源使用情况判断每个计算作业是否出现资源使用异常,当出现异常时,可实时对计算作业的每个执行器进行资源调整。这样,在计算作业执行过程中动态地对每个执行器的内存和/或CPU使用进行调整,为计算作业分配正常执行所需的资源,保证其性能和执行速度,又减少资源空闲,避免资源浪费,提高整个计算集群的资源使用率。
在可选实施例中,根据CPU利用数据可以计算计算作业的总CPU利用率,若总CPU利用率均小于或等于一个预设的CPU阈值,如小于30%,则可减少每个Executor对应的CPUcore;反之,若各Executor在预设时长内的CPU利用率均大于或等于另一个预设的CPU阈值,如小于90%,则可增加每个Executor对应的CPU core。
Spark作为一个基于内存的分布式计算引擎,且执行的作业大多是内存密集型的计算任务,集群的资源利用率和计算效率与内存使用情况是强依赖的关系,因此,对于内存资源的调度至关重要。在可选实施例中,可以根据内存使用数据和GC数据确定计算作业是否存在内存不足或内存空闲。
可选的,步骤S12中,确定计算作业对应的执行器的调度策略,包括:
确定所述资源使用异常对应的异常类型;
当所述异常类型为内存异常时,确定所述异常类型对应的调度策略为:调整所述计算作业对应的执行器数量和/或调整所述执行器的内存分配量;
当所述异常类型为CPU异常时,确定所述异常类型对应的调度策略为:调整所述计算作业对应的执行器数量和/或调整所述执行器对应的CPU核芯数量。
可选的,调度策略还包括:调度持续时长。上述步骤S13包括:在调度持续时长内,对内存分配量、执行器数量和/或CPU核芯数量进行调整。
例如,该调度持续时长为30分钟,在30分钟内,执行相应的调度操作,当到达30分钟后,可以恢复Job之前的资源使用情况,或者再次根据这30分钟内的资源使用信息进行新一次的资源调度。
图2为本申请另一实施例提供的一种资源调度方法的流程图。如图2所示,资源使用异常包括内存不足或内存空闲,步骤S12中根据资源使用信息确定计算作业存在资源使用异常,包括:
步骤S21,根据内存利用数据确定预设时长内的内存利用率,并根据垃圾回收数据确定预设时长内的平均垃圾回收时长;
步骤S22,当在预设时长内内存利用率大于或等于第一内存阈值,且平均垃圾回收时长大于或等于第一时长阈值时,确定资源使用异常为内存不足;
步骤S23,当在内存利用率小于或等于第二内存阈值,且平均垃圾回收时长小于或等于第二时长阈值时,确定资源使用异常为内存空闲。
可选的,第一内存阈值和第二内存阈值可以设置为相同或不同。第一时长阈值和第二时长阈值可以设置为相同或不同。
可选的,预设时长可以与调度持续时长相等,如都是30分钟,或者预设时长也可以为于或小于调度时长。
例如,预设时长可以为30分钟。30分钟内Job的内存利用率大于50%,且平均GC时长大于1分钟,确定内存不足。又例如,当30分钟内Job的内存利用率大于或等于30%,且平均GC时长小于30秒,确定内存空闲。
其中,步骤S21中平均GC时长可以通过如下步骤计算得到:
步骤A1,根据垃圾回收数据统计预设时长内计算作业对应的总垃圾回收时长;
步骤A2,获取计算作业对应的执行器数量;
步骤A3,将总垃圾回收时长除以执行器数量,得到每个执行器对应的平均垃圾回收时长。
例如,统计30分钟内Job对应的总GC时长为T,Executor数量为n,则每个Executor对应的平均垃圾回收时长
Figure BDA0002562514690000121
在可选实施例中,当确定资源使用异常为内存不足时,可以通过增加Executor的内存分配量或增加Executor数量来增加计算作业所使用的内存量。图3为本申请另一实施例提供的一种资源调度方法的流程图。如图3所示,上述步骤S12中确定计算作业对应的执行器的调度策略,包括:
步骤S31,获取执行器对应的内存分配量及计算集群中单个计算节点的最大可分配内存量。
步骤S32,当内存分配量与最大可分配内存量之间的差值满足第一预设条件时,确定调度策略为增加执行器的内存分配量。
例如,第一预设条件为内存分配量与预设倍数的乘积小于最大可分配内存量,或者第一预设条件为内存分配量与最大可分配内存量之间的差值大于或等于预设值。
步骤S33,当内存分配量与最大可分配内存量之间的差值不满足第一预设条件时,确定调度策略为增加计算作业对应的执行器数量。
例如,内存分配量与预设倍数的乘积大于或等于最大可分配内存量,或者,内存分配量与最大可分配内存量之间的差值小于或等于预设值。
例如,每个Executor的内存分配量为m,最大可分配内存量为M。例如,第一预设条件为内存分配量与预设倍数的乘积小于最大可分配内存量,预设倍数可设置为1.5。
当1.5m<M时,即在该计算节点上还存在一定可分配内存空间,则可提高Executor的内存分配量。每一次对Executor增加/减少的内存量可以为内存分配量的一定倍数,如每次提高0.5m的内存量;或者根据最大可分配内存量确定每次增加/减少的内存量,如每次增加0.2M;或者设定每次增加/减少固定的内存量,如增加200MB;等等。
若提高Executor的内存分配量,可保持Executor数量不变。
当1.5m≥M时,计算节点可分配内存空间不足,则无法再增加每个Executor的内存量,可增加Executor数量。例如,每次增加/减少固定的Executor数量,如每次增加2个Executor;或者,每一次增加/减少的Executor数量可以为Executor数量n的一定倍数,如当n=1时,每次增加1个Executor,当n≥2时,每次增加INT(0.5n)个Executor;等等。
若增加Executor数量,可保持Executor的内存分配量不变。
可选的,当内存分配量与预设倍数的乘积小于最大可分配内存量时,也可同时提高每个Executor的内存分配量并增加Executor数量。如,当1.5m<M时,每个Executor增加200MB的内存,并且增加2个Executor。
本实施例中,根据内存使用数据和GC数据分析Job是否存在内存不足,当存在内存不足时,通过提高每个Executor的内存分配量和/或增加Executor数量的方式进行内存调度。当提高Executor的内存分配量时,可以减少GC频率和时间,提高计算速度,减少计算过程中写入磁盘的数据量,降低磁盘输入输出量,提升计算性能。而当增加Executor数量时,可以增加并行处理的Task数量,计算速度的提升使得Job的完成时间减少。因此,本实施例可以通过对单个Task计算性能的提升和/或对批量处理Task个数的增加来提高整个Job的计算性能。
在可选实施例中,当确定资源使用异常为内存空闲时,可以基于计算作业对应的CPU使用情况选择如何释放空闲的内存。
图4为本申请另一实施例提供的一种资源调度方法的流程图。如图4所示,当确定计算作业存在内存空闲时,上述步骤S12中确定计算作业对应的执行器的调度策略,包括:
步骤S41,根据CPU利用数据确定预设时长内的CPU利用率;
步骤S42,当CPU利用率大于或等于第一CPU阈值时,确定调度策略为降低执行器的内存分配量;
步骤S43,当CPU利用率小于第一CPU阈值时,确定调度策略为减少计算作业对应的执行器数量。
例如,第一CPU阈值为50%。当CPU利用率大于或等于50%,即虽然内存空闲,当CPU利用率确较高,此时如果减少Executor数量,也会减少Job对应的总CPU core数量,则任务并行处理能力降低,计算速度下降,CPU利用率上升,这样,对于Job的计算性能也将下降。因此,此时可以降低Executor的内存分配量,在保证任务并行处理能力不变的同时,释放空闲内存。
当CPU利用率小于50%时,即内存空闲,CPU利用率也不高,可以通过减少Executor数量,不仅释放分配给Executor的内存,还释放分配给Executor的CPU core。可选的,也可同时减少Executor数量且降低Executor的内存分配量。
本实施例中,当出现内存空闲时,基于CPU使用情况进行空闲内存的释放,提高内存资源利用率,避免对内存资源的浪费。另外,当CPU使用情况不同时,采用不同的内存释放策略,在保证计算性能的前提下提高内存调度的精确度,避免影响对任务的正常处理。
下面以对内存资源进行调度为例,对本实施例的方法进行详细说明。图5为本申请另一实施例提供的一种资源调度方法的流程图。如图5所示,该资源调度方法包括以下步骤:
步骤S501,监测Job的CPU利用数据、内存利用数据及GC数据;
步骤S502,判断距离上一次资源调度是否间隔30分钟,如果是,执行步骤S503,如果否,返回步骤S501;
步骤S503,计算内存利用率、平均GC时长及CPU利用率,获取Job对应的Executor数量n,每个Executor对应的内存分配量m及单个计算节点的最大可分配内存量M;
步骤S504,判断内存利用率是否大于或等于50%,且平均GC时长是否大于或等于1分钟,如果是,即Job对应的内存不足,执行步骤S508,如果否,则Job对应的内存空闲,执行步骤S505;
步骤S505,判断CPU利用率是否大于或等于50%,如果是,执行步骤S506,如果否,执行步骤S507;
步骤S506,降低Executor的内存分配量为0.5m;
步骤S507,减少为Job分配的Executor数量到0.5n;
步骤S508,判断1.5m是否大于或等于M,如果是,执行步骤S510,如果否,执行步骤S509;
步骤S509,提高Executor的内存分配量为1.5m;
步骤S510,增加Executor数量到1.5n;
步骤S511,判断Job是否执行完毕,如果是,执行步骤S512,如果否,返回步骤S501;
步骤S512,释放为Job分配的Executor。
本实施例中,实时根据监测到Job的资源使用情况判断Job是否出现内存不足或内存空闲,当出现内存不足或内存空闲时,可实时根据内存利用率、平均GC时长及CPU利用率对Executor数量或Executor的内存分配量进行调整。当存在内存不足时,提高Executor的内存分配量时,可以减少GC频率和时间,提高计算速度,减少计算过程中写入磁盘的数据量,降低磁盘输入输出量,提升计算性能。而增加Executor数量,可以增加并行处理的Task数量,计算速度的提升使得Job的完成时间减少。从而通过对单个Task计算性能的提升和/或对批量处理Task个数的增加来提高整个Job的计算性能。另外,当出现内存空闲时,基于CPU使用情况进行空闲内存的释放,提高内存资源利用率,避免对内存资源的浪费。另外,当CPU使用情况不同时,采用不同的内存释放策略,在保证计算性能的前提下提高内存调度的精确度,避免影响对任务的正常处理。
下述为本申请装置实施例,可以用于执行本申请方法实施例。
图6为本申请实施例提供的一种资源调度装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示,该资源调度装置包括:
监测模块61,用于实时监测计算集群中计算作业的资源使用信息;
分析模块62,用于当根据资源使用信息确定计算作业存在资源使用异常时,确定计算作业对应的执行器的调度策略;
调度模块63,用于对执行器执行调度策略对应的调度操作。
本申请实施例还提供一种电子设备,如图7所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现以下上述方法实施例的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect,P C I)总线或扩展工业标准结构(Extended IndustryStandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下上述方法实施例的步骤。
需要说明的是,对于上述装置、电子设备及计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
进一步需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种资源调度方法,其特征在于,包括:
实时监测计算集群中计算作业的资源使用信息;
当根据所述资源使用信息确定所述计算作业存在资源使用异常时,确定所述计算作业对应的执行器的调度策略;
对所述执行器执行所述调度策略对应的调度操作。
2.根据权利要求1所述的方法,其特征在于,所述实时监测计算集群中计算作业的资源使用信息,包括:
实时采集所述计算集群中计算作业的以下至少一项资源使用数据:CPU利用数据、内存利用数据及垃圾回收数据;
将预设时长内的所述资源使用数据汇总为所述计算作业的资源使用信息。
3.根据权利要求2所述的方法,其特征在于,所述确定所述计算作业对应的执行器的调度策略,包括:
确定所述资源使用异常对应的异常类型;
当所述异常类型为内存异常时,确定所述异常类型对应的调度策略为:调整所述计算作业对应的执行器数量和/或调整所述执行器的内存分配量;
当所述异常类型为CPU异常时,确定所述异常类型对应的调度策略为:调整所述计算作业对应的执行器数量和/或调整所述执行器对应的CPU核芯数量。
4.根据权利要求3所述的方法,其特征在于,所述资源使用异常包括内存不足或内存空闲,所述根据所述资源使用信息确定所述计算作业存在资源使用异常,包括:
根据所述内存利用数据确定预设时长内的内存利用率,并根据所述垃圾回收数据确定所述预设时长内的平均垃圾回收时长;
当在所述预设时长内所述内存利用率大于或等于第一内存阈值,且所述平均垃圾回收时长大于或等于第一时长阈值时,确定所述资源使用异常为内存不足;
当在所述内存利用率小于或等于第二内存阈值,且所述平均垃圾回收时长小于或等于第二时长阈值时,确定所述资源使用异常为内存空闲。
5.根据权利要求4所述的方法,其特征在于,当确定所述资源使用异常为内存不足时,所述确定所述计算作业对应的执行器的调度策略,包括:
获取所述执行器对应的内存分配量及所述计算集群中单个计算节点的最大可分配内存量;
当所述内存分配量与所述最大可分配内存量之间的差值满足第一预设条件时,确定所述调度策略为增加所述执行器的内存分配量;
当所述内存分配量与所述最大可分配内存量之间的差值不满足所述第一预设条件时,确定所述调度策略为增加所述计算作业对应的执行器数量。
6.根据权利要求4所述的方法,其特征在于,当确定所述计算作业存在内存空闲时,所述确定所述计算作业对应的执行器的调度策略,包括:
根据所述CPU利用数据确定所述预设时长内的CPU利用率;
当所述CPU利用率大于或等于第一CPU阈值时,确定所述调度策略为降低所述执行器的内存分配量;
当所述CPU利用率小于所述第一CPU阈值时,确定所述调度策略为减少所述计算作业对应的执行器数量。
7.根据权利要求3所述的方法,其特征在于,所述调度策略还包括:调度持续时长;
所述对所述执行器执行所述调度策略对应的调度操作,包括:
在所述调度持续时长内,对所述内存分配量、所述执行器数量和/或所述CPU核芯数量进行调整。
8.根据权利要求4所述的方法,其特征在于,所述根据所述垃圾回收数据确定预设时长内的平均垃圾回收时长,包括:
根据所述垃圾回收数据统计所述预设时长内所述计算作业对应的总垃圾回收时长;
获取所述计算作业对应的执行器数量;
将所述总垃圾回收时长除以所述执行器数量,得到每个所述执行器对应的所述平均垃圾回收时长。
9.一种资源调度装置,其特征在于,包括:
监测模块,用于实时监测计算集群中计算作业的资源使用信息;
分析模块,用于当根据所述资源使用信息确定所述计算作业存在资源使用异常时,确定所述计算作业对应的执行器的调度策略;
调度模块,用于对所述执行器执行所述调度策略对应的调度操作。
10.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述计算机程序时,实现权利要求1-8任一项所述的方法步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。
CN202010619438.3A 2020-06-30 2020-06-30 一种资源调度方法、装置、电子设备及存储介质 Pending CN111813548A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010619438.3A CN111813548A (zh) 2020-06-30 2020-06-30 一种资源调度方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010619438.3A CN111813548A (zh) 2020-06-30 2020-06-30 一种资源调度方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111813548A true CN111813548A (zh) 2020-10-23

Family

ID=72855815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010619438.3A Pending CN111813548A (zh) 2020-06-30 2020-06-30 一种资源调度方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111813548A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596886A (zh) * 2020-12-29 2021-04-02 中国建设银行股份有限公司 一种批处理调度资源调节方法及装置
CN113742085A (zh) * 2021-09-16 2021-12-03 中国科学院上海高等研究院 一种基于分支过滤的执行端口时间信道安全防护系统及方法
CN113806080A (zh) * 2021-08-30 2021-12-17 济南浪潮数据技术有限公司 一种基于slurm系统的作业内存管理方法及系统
CN113867972A (zh) * 2021-12-06 2021-12-31 北京广通优云科技股份有限公司 一种基于内存资源和服务性能结合的容器内存负载预测方法
CN117971712A (zh) * 2024-03-29 2024-05-03 阿里云计算有限公司 内存回收方法、装置、电子设备、存储介质及程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166803A1 (zh) * 2016-03-30 2017-10-05 华为技术有限公司 一种资源调度方法及装置
CN110086855A (zh) * 2019-03-29 2019-08-02 江苏开拓信息与系统有限公司 基于蚁群算法的Spark任务智能感知调度方法
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166803A1 (zh) * 2016-03-30 2017-10-05 华为技术有限公司 一种资源调度方法及装置
CN110086855A (zh) * 2019-03-29 2019-08-02 江苏开拓信息与系统有限公司 基于蚁群算法的Spark任务智能感知调度方法
CN110502340A (zh) * 2019-08-09 2019-11-26 广东浪潮大数据研究有限公司 一种资源动态调整方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈重韬;: "面向多用户环境的MapReduce集群调度算法研究", 高技术通讯, no. 04 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112596886A (zh) * 2020-12-29 2021-04-02 中国建设银行股份有限公司 一种批处理调度资源调节方法及装置
CN113806080A (zh) * 2021-08-30 2021-12-17 济南浪潮数据技术有限公司 一种基于slurm系统的作业内存管理方法及系统
CN113742085A (zh) * 2021-09-16 2021-12-03 中国科学院上海高等研究院 一种基于分支过滤的执行端口时间信道安全防护系统及方法
CN113742085B (zh) * 2021-09-16 2023-09-08 中国科学院上海高等研究院 一种基于分支过滤的执行端口时间信道安全防护系统及方法
CN113867972A (zh) * 2021-12-06 2021-12-31 北京广通优云科技股份有限公司 一种基于内存资源和服务性能结合的容器内存负载预测方法
CN113867972B (zh) * 2021-12-06 2022-03-15 北京广通优云科技股份有限公司 一种基于内存资源和服务性能结合的容器内存负载预测方法
CN117971712A (zh) * 2024-03-29 2024-05-03 阿里云计算有限公司 内存回收方法、装置、电子设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN111813548A (zh) 一种资源调度方法、装置、电子设备及存储介质
US8365183B2 (en) System and method for dynamic resource provisioning for job placement
US8516462B2 (en) Method and apparatus for managing a stack
WO2021159638A1 (zh) 集群队列资源的调度方法、装置、设备及存储介质
EP2199915B1 (en) Monitoring memory consumption
CN106452818A (zh) 一种资源调度的方法和系统
CN115373835A (zh) Flink集群的任务资源调整方法、装置及电子设备
CN110968425B (zh) 一种任务资源动态分配方法及系统
US8286192B2 (en) Kernel subsystem for handling performance counters and events
WO2021253851A1 (zh) 一种集群分布式资源调度方法、装置、设备及存储介质
US20220374273A1 (en) Computing resource autoscaling based on predicted metric behavior
CN106933673B (zh) 调整组件逻辑线程数量的方法及装置
US11797355B2 (en) Resolving cluster computing task interference
CN113032102A (zh) 资源重调度方法、装置、设备和介质
CN110096339B (zh) 一种基于系统负载实现的扩缩容配置推荐系统及方法
CN111782466A (zh) 一种大数据任务资源利用检测方法及装置
Rao et al. Online measurement of the capacity of multi-tier websites using hardware performance counters
CN113064765B (zh) 节点异常处理方法、装置、电子设备及机器可读存储介质
CN115480924A (zh) 作业数据的处理方法及装置、存储介质、电子设备
CN115858667A (zh) 用于同步数据的方法、装置、设备和存储介质
CN111090627B (zh) 基于池化的日志存储方法、装置、计算机设备及存储介质
CN111352710A (zh) 进程管理方法及装置、计算设备、存储介质
CN113806050A (zh) 一种计算资源的处理方法、装置、电子设备及存储介质
CN115373829A (zh) Cpu资源的调度方法、装置及系统
CN115840635A (zh) 计算资源管理方法、电子设备和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination