CN112181613A - 异构资源分布式计算平台批量任务调度方法及存储介质 - Google Patents

异构资源分布式计算平台批量任务调度方法及存储介质 Download PDF

Info

Publication number
CN112181613A
CN112181613A CN202010943286.2A CN202010943286A CN112181613A CN 112181613 A CN112181613 A CN 112181613A CN 202010943286 A CN202010943286 A CN 202010943286A CN 112181613 A CN112181613 A CN 112181613A
Authority
CN
China
Prior art keywords
task
queue
tasks
distributed computing
heterogeneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010943286.2A
Other languages
English (en)
Other versions
CN112181613B (zh
Inventor
李扬曦
杜翠兰
佟玲玲
项菲
柳毅
段东圣
任博雅
李鹏霄
段运强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN202010943286.2A priority Critical patent/CN112181613B/zh
Publication of CN112181613A publication Critical patent/CN112181613A/zh
Application granted granted Critical
Publication of CN112181613B publication Critical patent/CN112181613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种异构资源分布式计算平台批量任务调度方法及存储介质,本发明在由几个计算中心组成的异构资源分布式计算集群中,将每个计算中心中的异构资源进行整合与分组,针对分布式计算平台中常见任务的需求,将这些资源合理地分配到预设的具有相应资源偏好的任务队列中。当有一批新任务提交时,根据用户提交的每个任务的相应特征以及各个中心的任务队列当前状态,分析全局最优解,为每个任务选择合适的队列。从而高效利用跨中心多集群中的异构资源,合理进行批量任务调度,解决现有技术中任务调度性能低、任务等待时间长的问题。

Description

异构资源分布式计算平台批量任务调度方法及存储介质
技术领域
本发明涉及自动化测试技术领域,特别是涉及一种异构资源分布式计算平台批量任务调度方法及计算机可读存储介质。
背景技术
随着互联网的发展,海量的网络数据对数据分析业务的处理能力和速度提出了新的要求,机器学习和人工智能的兴起也为数据处理业务提供了新的可能,单一服务器的计算资源不再能满足数据分析业务的需要,分布式计算成为一种新的解决方案。
分布式计算,将每个任务分解成多个部分,分配给多台计算机进行处理,可以高效运用计算资源,节约时间和成本。不同的计算资源,因其特点和功能差异,能满足不同的任务需求,例如CPU适合用于执行批处理计算任务,GPU适合执行图像解析、机器学习等任务,FPGA在数据并行处理方面较之以上资源更加高效。异构资源分布式计算集群,集合了CPU、GPU、FPGA等多种异构资源。为了充分利用资源,需要根据用户提交任务需求在集群中进行高效的任务调度,选择合适的计算资源,将任务分解到多个由互联网连接的计算中心内的多个异构资源机器中进行分布式计算。因此,设计一个高效的任务调度方法,对于提高异构资源分布式计算平台的运行效率和性能稳定性,有着至关重要的意义。
现有技术的实现过程是将任务分成四类:CPU密集型任务、I/O密集型且占用内存资源多的任务、I/O密集型且占用内存资源少的任务、操作系统内部任务。为每类任务分别创建一个任务组,并为每个任务组绑定相应的cpu和内存资源,并监控其资源利用率,视资源繁忙程度对组内资源进行动态增减。资源占用率大于预设阈值,则从别的任务组借用部分资源;小于预设阈值时,则归还资源给该任务组,并根据任务类型,将新任务绑定至某一任务组,具体如图1所示。
但是这种动态调度任务组绑定资源的方式,存在资源利用不充分的问题。因为任务在计算平台执行时,并不是时刻都可以对资源进行回收和利用的,需待任务结束释放资源,才能进行动态调整,对于被借用资源的任务组,若收到新一批任务,也需等待其他任务组释放资源,反映实际慢,效率低下。
发明内容
本发明提供了一种异构资源分布式计算平台批量任务调度方法及计算机可读存储介质,以解决现有对任务调度方法效率低的问题。
第一方面,本发明提供了一种异构资源分布式计算平台批量任务调度方法,该方法包括:所述分布式计算平台是由多个计算中心组成的异构资源分布式计算集群,在所述计算集群中,将每个计算中心的异构资源以计算中心为单位进行整合与分组,并将整合与分组后的异构资源,按照预设规则分配到对应的任务队列中,其中,所述任务队列为多个,且所述任务队列是根据任务类型来确定的;当接收到新任务时,根据该新任务的特征和各个计算中心内的任务队列的当前状态,分析全局最优解,以为每个新任务选择合适的任务队列。
可选地,所述方法还包括:实时监控各任务队列的资源占用和任务执行情况。
可选地,所述实时监控各任务队列的资源占用和任务执行情况,包括:实时监控各任务队列的每个队列的资源拥有数、资源占用率、任务队列中的任务数、任务执行进度和任务占用资源数。
可选地,当接收到新任务时,对所述新任务进行特征分析;所述特征分析包括以下中的一种或多种:任务类型、任务所需的函数库、训练参数数量和数据集大小;通过特征分析以获知处理所述新任务所需的异构资源的下限。
可选地,所述异构资源包括以下中的一种或多种:CPU、GPU、FPGA和内存。
可选地,所述根据该新任务的特征以及各个计算中心内的任务队列的当前状态,分析全局最优解,以为每个新任务选择合适的任务队列,包括:
根据各计算中心内每个任务队列的异构资源拥有情况,分析计算集群中所有能满足该任务运行最小需求的有效任务队列,以及所述新任务在每个有效队列中运行可达到的运行效率,分析全局最优解,以为每个新任务选择合适的任务队列。
可选地,该方法还包括:当有任务状态发生变化时,则对所述计算集群中所有的待处理的任务进行整体的调度。
可选地,所述对所述计算集群中所有的待处理的任务进行整体的调度,包括:根据所述待处理任务的特征以及各个计算中心内的任务队列的当前状态,分析全局最优解,以为每个所述待处理任务选择合适的任务队列。
可选地,所述任务类型包括以下中的一种或多种:普通任务、批处理任务、实时计算任务、机器学习任务和深度学习任务。
第二方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现上述任意一种所述的异构资源分布式计算平台批量任务调度方法。
本发明有益效果如下:
本发明在由几个计算中心组成的异构资源分布式计算集群中,将每个计算中心中的异构资源进行整合与分组,针对分布式计算平台中常见任务的需求,将这些资源合理地分配到预设的具有相应资源偏好的任务队列中。当有一批新任务提交时,根据用户提交的每个任务的相应特征以及各个中心的任务队列当前状态,分析全局最优解,为每个任务选择合适的队列。从而高效利用跨中心多集群中的异构资源,合理进行批量任务调度,解决现有技术中任务调度性能低、任务等待时间长的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是现有技术的异构资源分布方法的示意图;
图2是本发明第一实施例提供的一种异构资源分布式计算平台批量任务调度方法的流程示意图;
图3是本发明第一实施例提供另一种异构资源分布式计算平台批量任务调度方法的流程示意图;
图4是本发明第一实施例提供再一种异构资源分布式计算平台批量任务调度方法的流程示意图;
图5是本发明第一实施例提供又再一种异构资源分布式计算平台批量任务调度方法的流程示意图。
具体实施方式
本发明实施例针对现有对任务调度方法效率低的问题,本发明提出一种异构资源分布式计算平台批量任务调度方法。在由几个计算中心组成的异构资源分布式计算集群中,将每个计算中心中的异构资源进行整合与分组,针对分布式计算平台中常见任务的需求,将这些资源合理地分配到预设的具有相应资源偏好的任务队列中。当有一批新任务提交时,根据用户提交的每个任务的相应特征以及各个中心的任务队列当前状态,分析全局最优解,为每个任务选择合适的队列。高效利用跨中心多集群中的异构资源,合理进行批量任务调度,解决现有技术中任务调度性能低、任务等待时间长的问题。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
本发明第一实施例提供了一种异构资源分布式计算平台批量任务调度方法,所述分布式计算平台是由多个计算中心组成的异构资源分布式计算集群,参见图2,该方法包括:
S201、在所述计算集群中,将每个计算中心的异构资源以计算中心为单位进行整合与分组,并将整合与分组后的异构资源,按照预设规则分配到对应的任务队列中;
其中,本发明实施例中的所述任务队列为多个,且所述任务队列是根据任务类型来确定的;
需要说明的是,本发明实施例中所述任务类型包括:普通任务、批处理任务、实时计算任务、机器学习任务和深度学习任务等等,具体实施时,本领域技术人员可以根据实际需要进行设置,本发明对此不作具体限定。
具体实施时,本发明实施例中的预设规则也可以根据实际需要进行设置。
S202、当接收到新任务时,根据该新任务的特征和各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列。
具体实施时,本发明实施例是在接收到新任务时,对所述新任务进行特征分析,通过特征分析以获知处理所述新任务所需的异构资源的下限,然后根据该新任务的特征和各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列;其中,本发明实施例所述特征分析包括:任务类型、任务所需的函数库、训练参数数量和数据集大小等等。
需要说明的是,本发明实施例中中央处理器(central processing unit,CPU)作为计算机系统的运算和控制核心,是信息处理、程序运行的最终执行单元;图形处理器(Graphics Processing Unit,GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器;现场可编程门阵列(Field Programmable GateArray,FPGA)是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路(ASIC)领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。
具体实施时,本发明实施例是实时监控各任务队列的资源占用和任务执行情况,即,通过实时监控各任务队列的每个队列的资源拥有数、资源占用率、任务队列中的任务数、任务执行进度和任务占用资源数。
需要说明的是,本发明实施例所述的异构资源包括以下中的一种或多种:CPU、GPU、FPGA和内存,当然本领域技术人员也可以根据实际需要来选择其他的异构资源,本发明对此不作具体限定。
另外,本发明实施例的预设规则可以是资源均分规则,资源按要求分配规则以及资源阶梯分配规则等等,具体本领域技术人员可以根据实际需要进行任意设定。
并且,在具体实施时,本发明实施例是根据任务类型来划分任务队列的,本发明实施例的任务类型包括:普通任务、批处理任务、实时计算任务、机器学习任务和深度学习任务等等。
也就是说,本发明实施例是根据任务类型来划分不同的任务队列,然后将不同的任务再根据新任务的特征和各个计算中心内的任务队列的当前状态,来进行分配。
具体实施时,本发明实施例所述根据该新任务的特征以及各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列,包括:根据各计算中心内每个任务队列的异构资源拥有情况,分析计算集群中所有能满足该任务运行最小需求的有效任务队列,以及所述新任务在每个有效队列中运行可达到的运行效率,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列。
并且,本发明实施例是在有任务状态发生变化时,则对所述计算集群中所有的待处理的任务进行整体的调度。
具体来说,本发明实施例是根据所述待处理任务的特征以及各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个所述待处理任务选择合适的任务队列。
下面将通过一个具体的例子对本发明所述的方法进行详细的解释和说明:
现有技术是将任务分成四类:CPU密集型任务、I/O密集型且占用内存资源多的任务、I/O密集型且占用内存资源少的任务、操作系统内部任务。为每类任务分别创建一个任务组,为每个任务组绑定相应的cpu和内存资源,并监控其资源利用率,视资源繁忙程度对组内资源进行动态增减。资源占用率大于预设阈值,则从别的任务组借用部分资源;小于预设阈值时,则归还资源给该任务组,具体现有技术是根据任务类型,将新任务绑定至某一任务组。
但是现有任务绑定至任务组的过程由提交的用户进行操作,可能存在用户对任务组定义不了解,分配有误的情况,以及动态调度任务组绑定资源的方式,存在资源利用不充分的问题。因为任务在计算平台执行时,并不是时刻都可以对资源进行回收和利用的,需待任务结束释放资源,才能进行动态调整,对于被借用资源的任务组,若收到新一批任务,也需等待其他任务组释放资源,反映实际慢,效率低下,还有未考虑跨计算中心的情况,以及在任务绑定和资源分配时,只考虑到了某个任务或某类资源,未综合各种因素,寻求让所有任务运行总时长最低的全局最优解等等的问题。
即如何将每个数据中心中对应的异构资源进行整合,更准确地把当前的具有不同功能的资源针对任务需求分配给具有相应偏好的任务队列,如何根据运行在分布式计算平台上的每个任务的总体特征和各中心异构资源的使用情况进行全局优化成为现在亟待需要解决的问题。
基于上述问题,本发明实施例提出一种异构资源分布式计算平台批量任务调度方法,在由几个计算中心组成的异构资源分布式计算集群中,将每个计算中心中的异构资源进行整合与分组,针对分布式计算平台中常见任务的需求,将这些资源合理地分配到预设的具有相应资源偏好的任务队列中。当有一批新任务提交时,根据用户提交的每个任务的相应特征以及各个中心的任务队列当前状态,分析全局最优解,为每个任务选择合适的队列。高效利用跨中心多集群中的异构资源,合理进行批量任务调度,解决现有技术中任务调度性能低、任务等待时间长的问题。
本发明实施例在系统启动时,对各计算中心内的所有异构资源进行整合监控,按分布式计算平台上常见的任务类型和资源偏好,将任务划分为几种类型,在每个中心内,单独为每个任务类型创建一个任务队列。将每个中心的异构资源,按每个任务队列的需求和分布式计算平台所拥有的资源情况,依照预设的规则按比例分配到任务队列中,并实时监控各队列的资源占用和任务执行情况,如当前每个队列的资源拥有数、各资源占用率、队列中的任务数、任务执行进度、任务占用资源数等。
新任务提交时,对每个任务进行特征分析:当有用户提交一个或一批新任务时,分析每个任务的自身特征,如任务类型、任务所需函数库、训练参数数量、数据集大小等,通过任务特征分析任务所需的CPU、GPU、FPGA、内存等异构资源的下限。获取资源监控中各中心内每个队列异构资源拥有情况,分析集群中所有能满足该任务运行最小需求的“有效队列”,以及该任务在每个队列中运行可达到的运行效率等。
每当有任务状态变化,对平台上的任务进行批量调度:当分布式计算平台中有任务发生状态变化时,如有新任务提交、有任务执行完毕时,启动批量调度程序,分析当前的队列分配方案是否为能够让所有任务运行总效率达到最高的全局最优解,若并非全局最优解,则按最优方案进行批量调度。
如图3所示,当启动分布式计算平台时,对分布式计算集群中每个计算中心拥有的异构资源进行整合与监控,为任务调度做准备。
1.分析分布式计算平台上常见的任务,按照常见任务的类型以及对于异构资源的偏好不同,将常见任务划分为几种类型,如普通任务、批处理任务、实时计算任务、机器学习任务和深度学习任务,在每个计算中心内单独为每个任务类型创建一个任务队列。
2.在每个计算中心内,按每个队列的需求和该计算中心所拥有的资源情况,依照预设的规则按不同的比例,将CPU、GPU、FPGA、内存等异构资源按需分配到该计算中心内的每个队列中。例如GPU的分配,按照各个队列中任务的需求,只有深度学习任务队列和机器学习任务队列需要GPU资源,其中深度学习任务任务数量少,但每个任务内部需要的GPU资源量大,因此,在综合考虑这些情况后按照适当的比例将GPU资源分配给深度学习任务队列和机器学习任务队列。
3.时刻监控每个中心内每个队列的资源占用和任务执行情况,如当前每个队列的各异构资源的拥有数、各资源当前的占用率、队列中的任务数及每个任务的执行状态(如执行状态、执行百分比、预测剩余执行时间、占用资源情况等)。
如图4所示,本发明实施例当有一批新任务提交时,通过特征分析,根据每个任务的自身情况和各计算中心内每个队列的资源拥有情况,分析每个任务的有效队列。
1.当有用户提交一个或一批新任务时,针对其中的每个任务,获取其任务特征,如任务所需函数库、数据集大小、训练参数数量等,通过分析任务的特征,计算任务所需的CPU、GPU、FPGA、内存等异构资源的下限。
2.获取资源监控中各中心内每个队列异构资源拥有情况。例如,计算中心A的机器学习队列内,共有10块GPU、20块CPU、0块FPGA、20T内存。
3.计算整个集群内各个中心中能满足该任务执行所有最低条件的所有“有效队列”,以及在每个有效队列中运行该任务,分配占比为a的队列内资源时该任务可达到的运行速度e。
如图5所示,当有任务状态变化时,通过根据任务自身情况和各队列的运行状态,寻找全局最优解,对任务进行批量调度。
1.当分布式计算平台中有任务发生状态变化时,如有新任务提交、有任务执行完毕时,启动批量调度程序,分析能够让所有任务运行总效率达到最高的全局最优解。
其中,任务运行总效率的计算方法如下所示:
对于当前系统中编号为k,k∈(1,2,…K)的任务Mk,以及计算中心j中编号为i的队列Qji,当Mk在Qji中执行时,若分配占比为αk的队列内资源,则Mk的运行速率为ek,若Qji不是任务Mk的有效队列,则ek=0。其中,资源分配比例α满足,每个队列内∑αk≤1。
总效率E为每个队列中正在运行的各个任务效率之和:E=∑ek
2.分析当前运行状态是否是能够让所有任务运行总效率达到最高的最优分配方式。若是最优方案,则按照此分配方法继续执行各个任务;若非最优方案,则综合任务特征、各中心异构资源状态及中心间传输带宽等限制,计算当前的最优全局调度方案,并按照最优调度方案进行批量任务调度。
其中,最优全局调度方案的计算方法如下所示:
当前状态下各个任务运行总效率为E′,设某分配方式下能达到的总效率为E,E-E′=ΔE>0,则该分配方案较之现在的方案更优。若将当前方案转化为该方案,需要将受影响任务暂停,并跨计算中心或跨队列按贷款将任务和数据集传输到新队列的硬件资源中,转移损耗为t。
则调度收益R=ΔE-t。寻找最优解的过程即为寻找使调度收益最大的调度方案的过程;
3.按最优方案进行调度后,继续在分布式计算平台上执行任务,直到有任务状态变化,按步骤1和2所述方案进行批量调度。
总体来说,本发明实施例所针对的是分布式计算领域,在拥有异构资源、多个计算中心的分布式计算平台上,设计了任务调度算法,针对运行在平台上的所有任务调度的全局优化来对每一个任务进行分析和调度。并且,本发明的任务调度算法是融合了“任务特征分析”与“异构资源整合监控”,来共同辅助批量任务调度来进行任务调度工作。从而最大化利用每个计算中心的异构资源,使分布式计算平台中的任务执行最高效,加快任务调度的处理和传输速度,减少任务在分布式计算平台中的等待时间,减少调度损耗,使分布式计算平台效率最大化。
本发明第二实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现本发明第一实施例中任一种所述的异构资源分布式计算平台批量任务调度方法。
本发明实施例的相关内容可参见本发明第一实施例进行理解,在此不做详细论述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (10)

1.一种异构资源分布式计算平台批量任务调度方法,其特征在于,包括:
所述分布式计算平台是由多个计算中心组成的异构资源分布式计算集群;
在所述计算集群中,将每个计算中心的异构资源以计算中心为单位进行整合与分组,并将整合与分组后的异构资源,按照预设规则分配到对应的任务队列中,其中,所述任务队列为多个,且所述任务队列是根据任务类型来确定的;
当接收到新任务时,根据该新任务的特征和各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
实时监控各任务队列的资源占用和任务执行情况。
3.根据权利要求2所述的方法,其特征在于,所述实时监控各任务队列的资源占用和任务执行情况,包括:
实时监控各任务队列的每个队列的资源拥有数、资源占用率、任务队列中的任务数、任务执行进度和任务占用资源数。
4.根据权利要求1所述的方法,其特征在于,
当接收到新任务时,对所述新任务进行特征分析,通过特征分析以获知处理所述新任务所需的异构资源的下限,然后根据该新任务的特征和各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列;
其中,所述特征分析包括以下中的一种或多种:任务类型、任务所需的函数库、训练参数数量和数据集大小。
5.根据权利要求4所述的方法,其特征在于,
所述异构资源包括以下中的一种或多种:CPU、GPU、FPGA和内存。
6.根据权利要求4所述的方法,其特征在于,所述根据该新任务的特征以及各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列,包括:
根据各计算中心内每个任务队列的异构资源拥有情况,分析计算集群中所有能满足该任务运行最小需求的有效任务队列,以及所述新任务在每个有效队列中运行可达到的运行效率,在所述分布式计算平台内分析全局最优解,以为每个新任务选择合适的任务队列。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
当有任务状态发生变化时,则对所述计算集群中所有的待处理的任务进行整体的调度。
8.根据权利要求7所述的方法,其特征在于,所述对所述计算集群中所有的待处理的任务进行整体的调度,包括:
根据所述待处理任务的特征以及各个计算中心内的任务队列的当前状态,在所述分布式计算平台内分析全局最优解,以为每个所述待处理任务选择合适的任务队列。
9.根据权利要求1-8中任意一项所述的方法,其特征在于,
所述任务类型包括以下中的一种或多种:普通任务、批处理任务、实时计算任务、机器学习任务和深度学习任务。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有信号映射的计算机程序,所述计算机程序被至少一个处理器执行时,以实现权利要求1-9中任意一项所述的异构资源分布式计算平台批量任务调度方法。
CN202010943286.2A 2020-09-09 2020-09-09 异构资源分布式计算平台批量任务调度方法及存储介质 Active CN112181613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010943286.2A CN112181613B (zh) 2020-09-09 2020-09-09 异构资源分布式计算平台批量任务调度方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010943286.2A CN112181613B (zh) 2020-09-09 2020-09-09 异构资源分布式计算平台批量任务调度方法及存储介质

Publications (2)

Publication Number Publication Date
CN112181613A true CN112181613A (zh) 2021-01-05
CN112181613B CN112181613B (zh) 2023-02-17

Family

ID=73920396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010943286.2A Active CN112181613B (zh) 2020-09-09 2020-09-09 异构资源分布式计算平台批量任务调度方法及存储介质

Country Status (1)

Country Link
CN (1) CN112181613B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905317A (zh) * 2021-02-04 2021-06-04 西安电子科技大学 快速可重构信号处理异构平台下任务调度方法和系统
CN113391905A (zh) * 2021-06-25 2021-09-14 图灵人工智能研究院(南京)有限公司 基于多gpu的任务调度方法、装置
CN113535387A (zh) * 2021-06-23 2021-10-22 之江实验室 一种异构感知的gpu资源分配与调度方法及系统
CN114936086A (zh) * 2022-07-26 2022-08-23 之江实验室 一种多计算中心场景下的任务调度器、调度方法及装置
WO2023087658A1 (zh) * 2021-11-19 2023-05-25 浪潮电子信息产业股份有限公司 一种任务调度方法、装置、设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131957A1 (en) * 2007-04-13 2010-05-27 Nobuharu Kami Virtual computer system and its optimization method
CN110704186A (zh) * 2019-09-25 2020-01-17 国家计算机网络与信息安全管理中心 基于混合分布架构的计算资源分配方法、装置和存储介质
CN110908782A (zh) * 2019-11-01 2020-03-24 湖北省楚天云有限公司 一种基于遗传算法优化的封装类分布式作业任务调度方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131957A1 (en) * 2007-04-13 2010-05-27 Nobuharu Kami Virtual computer system and its optimization method
CN110704186A (zh) * 2019-09-25 2020-01-17 国家计算机网络与信息安全管理中心 基于混合分布架构的计算资源分配方法、装置和存储介质
CN110908782A (zh) * 2019-11-01 2020-03-24 湖北省楚天云有限公司 一种基于遗传算法优化的封装类分布式作业任务调度方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905317A (zh) * 2021-02-04 2021-06-04 西安电子科技大学 快速可重构信号处理异构平台下任务调度方法和系统
CN112905317B (zh) * 2021-02-04 2023-12-15 西安电子科技大学 快速可重构信号处理异构平台下任务调度方法和系统
CN113535387A (zh) * 2021-06-23 2021-10-22 之江实验室 一种异构感知的gpu资源分配与调度方法及系统
CN113535387B (zh) * 2021-06-23 2024-10-18 之江实验室 一种异构感知的gpu资源分配与调度方法及系统
CN113391905A (zh) * 2021-06-25 2021-09-14 图灵人工智能研究院(南京)有限公司 基于多gpu的任务调度方法、装置
CN113391905B (zh) * 2021-06-25 2024-05-14 图灵人工智能研究院(南京)有限公司 基于多gpu的任务调度方法、装置
WO2023087658A1 (zh) * 2021-11-19 2023-05-25 浪潮电子信息产业股份有限公司 一种任务调度方法、装置、设备及可读存储介质
CN114936086A (zh) * 2022-07-26 2022-08-23 之江实验室 一种多计算中心场景下的任务调度器、调度方法及装置

Also Published As

Publication number Publication date
CN112181613B (zh) 2023-02-17

Similar Documents

Publication Publication Date Title
CN112181613B (zh) 异构资源分布式计算平台批量任务调度方法及存储介质
CN111176852B (zh) 资源分配方法、装置、芯片及计算机可读存储介质
CN111488205B (zh) 面向异构硬件架构的调度方法和调度系统
CN111464659A (zh) 节点的调度、节点的预选处理方法、装置、设备及介质
WO2022247105A1 (zh) 一种任务调度方法、装置、计算机设备和存储介质
KR101471749B1 (ko) 클라우드 서비스의 가상자원 할당을 위한 퍼지 로직 기반의 자원평가 장치 및 방법
CN113946431B (zh) 一种资源调度方法、系统、介质及计算设备
CN114356587B (zh) 算力任务跨区域调度方法、系统及设备
CN106528288A (zh) 一种资源管理方法、装置和系统
CN111506434A (zh) 一种任务处理方法、装置及计算机可读存储介质
CN115658311A (zh) 一种资源的调度方法、装置、设备和介质
US11521042B2 (en) System and method to dynamically and automatically sharing resources of coprocessor AI accelerators
CN107203256B (zh) 一种网络功能虚拟化场景下的节能分配方法与装置
CN115640113A (zh) 多平面弹性调度方法
CN114764371A (zh) 任务调度方法及管理系统
CN112445618A (zh) 多服务器集群任务分配方法、装置、设备及可读存储介质
Bey et al. New tasks scheduling strategy for resources allocation in cloud computing environment
CN116450290A (zh) 计算机资源的管理方法、装置、云服务器及存储介质
CN116010051A (zh) 一种联邦学习多任务调度方法及装置
CN114489978A (zh) 资源调度方法、装置、设备及存储介质
CN110415162B (zh) 大数据中面向异构融合处理器的自适应图划分方法
CN110297693B (zh) 一种分布式软件任务分配的方法及其系统
CN111459651B (zh) 一种负载均衡方法、装置、存储介质及调度系统
TWI821038B (zh) 運算工作分派方法及應用其之終端電子裝置與運算系統
WO2024055168A1 (zh) 一种资源分配方法、处理器和计算平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant