CN111880911A - 一种任务负载调度方法、装置、设备及可读存储介质 - Google Patents

一种任务负载调度方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111880911A
CN111880911A CN202010568709.7A CN202010568709A CN111880911A CN 111880911 A CN111880911 A CN 111880911A CN 202010568709 A CN202010568709 A CN 202010568709A CN 111880911 A CN111880911 A CN 111880911A
Authority
CN
China
Prior art keywords
equipment
computing
connection side
task
load scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010568709.7A
Other languages
English (en)
Inventor
郭振华
范宝余
王丽
赵雅倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202010568709.7A priority Critical patent/CN111880911A/zh
Publication of CN111880911A publication Critical patent/CN111880911A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种任务负载调度方法,该方法包括以下步骤:对接收到的任务负载调度请求进行解析,得到待调度的目标任务;将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。应用本发明实施例所提供的技术方案,满足了多模态人工智能算法模型的计算要求,实现了不同计算架构的计算设备间的高效计算协同,提升了混合异构分布式计算系统的整体性能。本发明还公开了一种任务负载调度装置、设备及存储介质,具有相应技术效果。

Description

一种任务负载调度方法、装置、设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,特别是涉及一种任务负载调度方法、装置、设备及计算机可读存储介质。
背景技术
随着人工智能技术的不断发展,人工智能(AI,Artificial Intelligence)算法模型对算力的需求持续增长,并且伴随着多模态人工智能的发展,人工智能算法模型训练任务的计算特性差异化也在不断扩大,例如,卷积神经网络(CNN,Convolutional NeuralNetwork)模型包含大量的矩阵运算,适合于GPU设备进行异构加速;图神经模型包含了大量非规则性计算,更加适用于定制化处理器,包括FPGA或ASIC芯片;而同时包含视觉和语言处理的多模态人工智能则同时需要矩阵运算加速和时序空间上的异构加速,同时需要两种处理器架构进行协同加速。
现有人工智能计算系统中,由于人工智能计算框架的限制,在进行人工智能算法模型训练任务时,往往只能同时采用同一种架构的处理器进行人工智能算法模型的分布式训练,例如大规模GPU板卡组成的分布式系统,大量CPU组成的分布式系统,或者大量定制化AI芯片组成的分布式系统。单一计算架构的分布式计算系统可以高效处理现有的深度学习网络模型训练任务,但是随着多模态人工智能的发展,在同一个人工智能算法网络模型结构中,既包含大量类似于矩阵运算的规则化数据处理过程,又包含大量复杂维度的非规则化数据处理过程,同时还需要进行复杂的计算任务调度,单一计算架构处理器组成的分布式系统无法满足多模态人工智能算法模型的计算要求。
因此需要构建同时包含多种计算架构的混合异构分布式计算系统,但是现有的人工智能计算框架只把人工智能算法网络模型抽象成计算任务图,在任务负载调度时将各子任务分配给不同的处理器进行处理,通过任务分配的方式进行负载调度不能充分利用处理器的计算资源,造成计算资源浪费,任务处理效率低。
综上所述,如何有效地解决单一计算架构处理器组成的分布式系统无法满足多模态人工智能算法模型的计算要求,通过任务分配的方式进行负载调度造成计算资源浪费,任务处理效率低等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种任务负载调度方法,该方法满足了多模态人工智能算法模型的计算要求,实现了不同计算架构的计算设备间的高效计算协同,提升了混合异构分布式计算系统的整体性能;本发明的另一目的是提供一种任务负载调度装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种任务负载调度方法,包括:
对接收到的任务负载调度请求进行解析,得到待调度的目标任务;
将所述目标任务发送到混合异构分布式计算系统中;其中,所述混合异构分布式计算系统包括多个不同计算架构的计算设备;
利用所述混合异构分布式计算系统根据预建立的设备拓扑结构图对所述目标任务进行负载调度处理。
在本发明的一种具体实施方式中,所述设备拓扑结构图的建立过程包括:
遍历所述混合异构分布式计算系统中各计算节点,得到由各所述计算节点中各所述计算设备构成的设备集合;
对所述设备集合中的各所述计算设备进行编号操作,得到各所述计算设备分别对应的设备编号信息;
分别获取各所述计算设备的设备类型及算力能力信息;
遍历相互直连的各所述计算设备的物理链路信息,得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合;
根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述设备间连接边信息集合,建立所述设备拓扑结构图。
在本发明的一种具体实施方式中,在得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合之后,建立所述设备拓扑结构图之前,还包括:
判断所述设备间连接边信息集合中是否存在冗余的设备间连接边信息;
若是,则对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合;
根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述设备间连接边信息集合,建立所述设备拓扑结构图,包括:
根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述目标设备间连接边信息集合,建立所述设备拓扑结构图。
在本发明的一种具体实施方式中,利用所述混合异构分布式计算系统根据预建立的设备拓扑结构图对所述目标任务进行负载调度处理,包括:
利用所述混合异构分布式计算系统根据所述设备拓扑结构图按照负载均衡原则对所述目标任务进行负载调度处理。
一种任务负载调度装置,包括:
任务获得模块,用于对接收到的任务负载调度请求进行解析,得到待调度的目标任务;
任务发送模块,用于将所述目标任务发送到混合异构分布式计算系统中;其中,所述混合异构分布式计算系统包括多个不同计算架构的计算设备;
负载调度模块,用于利用所述混合异构分布式计算系统根据预建立的设备拓扑结构图对所述目标任务进行负载调度处理。
在本发明的一种具体实施方式中,包括拓扑图建立模块,所述拓扑图建立模块包括:
设备集合获得子模块,用于遍历所述混合异构分布式计算系统中各计算节点,得到由各所述计算节点中各所述计算设备构成的设备集合;
编号信息获得子模块,用于对所述设备集合中的各所述计算设备进行编号操作,得到各所述计算设备分别对应的设备编号信息;
类型及算力获取子模块,用于分别获取各所述计算设备的设备类型及算力能力信息;
连接边信息获得子模块,用于遍历相互直连的各所述计算设备的物理链路信息,得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合;
拓扑图建立子模块,用于根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述设备间连接边信息集合,建立所述设备拓扑结构图。
在本发明的一种具体实施方式中,所述拓扑图建立模块还包括:
判断子模块,用于在得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合之后,建立所述设备拓扑结构图之前,判断所述设备间连接边信息集合中是否存在冗余的设备间连接边信息;
连接边信息删除子模块,用于当所述设备间连接边信息集合中存在冗余的设备间连接边信息时,对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合;
所述拓扑图建立子模块具体为根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述目标设备间连接边信息集合,建立所述设备拓扑结构图的模块。
在本发明的一种具体实施方式中,所述负载调度模块具体为利用所述混合异构分布式计算系统根据所述设备拓扑结构图按照负载均衡原则对所述目标任务进行负载调度处理的模块。
一种任务负载调度设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述任务负载调度方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述任务负载调度方法的步骤。
应用本发明实施例所提供的方法,对接收到的任务负载调度请求进行解析,得到待调度的目标任务;将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。通过预先设置包括多个不同计算架构的计算设备的混合异构分布式计算系统,并建立混合异构分布式计算系统对应的设备拓扑结构图,利用混合异构分布式计算系统按照设备拓扑结构图进行任务负载调度,满足了多模态人工智能算法模型的计算要求,通过按照设备拓扑结构图对任务进行细粒度负载调度,实现了不同计算架构的计算设备间的高效计算协同,提升了混合异构分布式计算系统的整体性能。
相应的,本发明实施例还提供了与上述任务负载调度方法相对应的任务负载调度装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中任务负载调度方法的一种实施流程图;
图2为本发明实施例中任务负载调度方法的另一种实施流程图;
图3为本发明实施例中一种混合异构分布式计算系统的结构框图;
图4为本发明实施例中一种任务负载调度装置的结构框图;
图5为本发明实施例中一种任务负载调度设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
参见图1,图1为本发明实施例中任务负载调度方法的一种实施流程图,该方法可以包括以下步骤:
S101:对接收到的任务负载调度请求进行解析,得到待调度的目标任务。
当需要对某深度学习网络模型训练任务进行处理时,向任务负载调度中心发送任务负载调度请求,任务负载调度请求中包含待调度的目标任务。任务负载调度中心接收任务负载调度请求,并对接收到的任务负载调度请求进行解析,得到待调度的目标任务。
S102:将目标任务发送到混合异构分布式计算系统中。
其中,混合异构分布式计算系统包括多个不同计算架构的计算设备。
预先部署包括多个不同计算架构的计算设备的混合异构分布式计算系统。在解析得到待调度的目标任务之后,将目标任务发送到混合异构分布式计算系统中。混合异构分布式计算系统中的计算设备可以包括CPU、GPU、FPGA、ASIC处理器等。
S103:利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。
预先建立混合异构分布式计算系统中各计算设备对应的设备拓扑结构图DeviceGraph。在将目标任务发送到混合异构分布式计算系统之后,利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。通过将混合异构分布式计算系统中各计算设备抽象成一个包含计算设备特性和设备间互联状态信息的设备拓扑结构图,从而实现复杂人工智能网络模型训练任务在此设备拓扑结构图上的细粒度任务调度,实现不同异构计算设备间的高效计算协同,提升了混合异构分布式计算系统的整体能效。
应用本发明实施例所提供的方法,对接收到的任务负载调度请求进行解析,得到待调度的目标任务;将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。通过预先设置包括多个不同计算架构的计算设备的混合异构分布式计算系统,并建立混合异构分布式计算系统对应的设备拓扑结构图,利用混合异构分布式计算系统按照设备拓扑结构图进行任务负载调度,满足了多模态人工智能算法模型的计算要求,通过按照设备拓扑结构图对任务进行细粒度负载调度,实现了不同计算架构的计算设备间的高效计算协同,提升了混合异构分布式计算系统的整体性能。
需要说明的是,基于上述实施例一,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
实施例二:
参见图2,图2为本发明实施例中任务负载调度方法的另一种实施流程图,该方法可以包括以下步骤:
S201:遍历混合异构分布式计算系统中各计算节点,得到由各计算节点中各计算设备构成的设备集合。
混合异构分布式计算系统中包含多个计算节点,每个计算节点至少包含一个计算设备Device_Num。遍历混合异构分布式计算系统中各计算节点,得到由各计算节点中各计算设备构成的设备集合。
S202:对设备集合中的各计算设备进行编号操作,得到各计算设备分别对应的设备编号信息。
在得到由各计算节点中各计算设备构成的设备集合之后,对设备集合中的各计算设备进行编号操作,得到各计算设备分别对应的设备编号信息device_id,计算设备的编号信息device_id可以从0开始进行累加。
S203:分别获取各计算设备的设备类型及算力能力信息。
分别获取各计算设备的设备类型device_type及算力能力信息device_perf,从而通过设备编号信息、设备类型及算力能力信息三元组对分别每个计算设备进行表示,即<device_id,device_type,device_perf>。设备类型device_type包括CPU、GPU、FPGA、ASIC芯片,如果是ASIC芯片则可以详细到具体芯片架构类型,例如是ARM架构、RISC-V架构等。算力能力信息device_perf表示计算设备的官方理论算力性能,例如NVIDIA的Tesla V100 GPU单精度理论算力是15.7TeraFLOPS。
S204:遍历相互直连的各计算设备的物理链路信息,得到由各计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合。
在得到由各计算节点中各计算设备构成的设备集合之后,遍历相互直连的各计算设备的物理链路信息,得到由各计算设备的设备间连接边关系<device_i,device_j>、物理链路类型DE_type_ij、以及通信理论带宽DE_bandwidth_ij构成的设备间连接边信息集合Device_Edge。即通过设备间连接边关系、物理链路类型、以及通信理论带宽三元组<<device_i,device_j>,DE_type_ij,DE_bandwidth_ij>对计算设备的物理链路信息进行表示,其中,<device_i,device_j>表示计算设备device_i与计算设备device_j之间的硬件连接关系。物理链路类型可以包括如GPU之间采用NVLink2.0、PCIe3.0等进行互联,FPGA板卡之间可以采用P2P点对点通信。通信理论带宽可以根据网络连接则需要结合实际的物理网络设备设置,如GPU之间采用NVLink2.0互联时,单条连接线的理论带宽设置为25Gbps,PCIe3.0的理论带宽是8Gbps。
S205:判断设备间连接边信息集合中是否存在冗余的设备间连接边信息,若是,则执行步骤S206,若否,则执行步骤S207。
由于当针对设备集合中的每个计算设备均进行了物理链路信息遍历时,两个直连计算设备之间的设备连接边信息被收集了两次,因此在遍历相互直连的各计算设备的物理链路信息,得到设备间连接边信息集合之后,判断设备间连接边信息集合中是否存在冗余的设备间连接边信息,若是,则执行步骤S206,若否,则执行步骤S207。
S206:对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合。
当确定设备间连接边信息集合中存在冗余的设备间连接边信息时,说明确实在物理链路信息遍历时,存在针对两个直连计算设备之间的设备连接边信息进行收集了两次的现象,例如<device_i,device_j>与<device_j,device_i>,指的是默认所有计算设备之间采用的互联通信方式均是全双工模式,计算设备device_i和计算设备device_j间的设备间连接边信息与计算设备device_j和计算设备device_i之间的设备间连接边信息是相同的。在这种情况下,对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合,从而得到信息简化后的目标设备间连接边信息集合。
S207:将预构成的设备间连接边信息集合确定为目标设备间连接边信息集合。
当确定设备间连接边信息集合中不存在冗余的设备间连接边信息时,说明在物理链路信息遍历时,针对两个直连计算设备之间的设备连接边信息进行了单次收集,说明进行物理链路信息遍历收集得到的设备间连接边信息集合已经为最简化。在这种情况下,直接将预构成的设备间连接边信息集合确定为目标设备间连接边信息集合。
S208:根据各计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及目标设备间连接边信息集合,建立设备拓扑结构图。
在获取得到各计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及目标设备间连接边信息集合之后,根据各计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及目标设备间连接边信息集合,建立设备拓扑结构图,从而完成对混合异构分布式计算系统中异构计算设备及其互联拓扑结构信息的建模,为人工智能计算框架提供理论化的计算设备图数据。
S209:对接收到的任务负载调度请求进行解析,得到待调度的目标任务。
S210:将目标任务发送到混合异构分布式计算系统中。
其中,混合异构分布式计算系统包括多个不同计算架构的计算设备。
S211:利用混合异构分布式计算系统根据设备拓扑结构图按照负载均衡原则对目标任务进行负载调度处理。
预先将混合异构分布式计算系统的任务负载调度原则设置为负载均衡原则,在将目标任务发送到混合异构分布式计算系统中之后,利用混合异构分布式计算系统根据设备拓扑结构图按照负载均衡原则对目标任务进行负载调度处理。
在一种具体实例应用中,参见图3,图3为本发明实施例中一种混合异构分布式计算系统的结构框图。该混合异构分布式计算系统包括Node1和Node2两个计算节点,Node1中包含CPU(id为0)、GPU0(id为1)、GPU1(id为2)、GPU2(id为3)、GPU3(id为4)五个计算设备,Node2中包含CPU(id为5)、FPGA0(id为6)、FPGA1(id为7)、FPGA2(id为8)、FPGA3(id为9)五个计算设备。Node1中的CPU(id为0)与Node2中包含CPU(id为5)之间可通过1Gbps network进行通信;GPU0与GPU1之间、GPU0与GPU2之间、GPU1与GPU3之间、GPU2与GPU3均可通过50Gbps2xNVLink2.0进行通信;CPU(id为0)与GPU0之间、CPU(id为0)与GPU1之间、CPU(id为0)与GPU2之间、CPU(id为0)与GPU3之间、GPU0与GPU2之间、GPU1与GPU3之间、CPU(id为5)与FPGA0之间、CPU(id为5)与FPGA1之间、CPU(id为5)与FPGA2之间、CPU(id为5)与FPGA3之间均可通过8Gbps PCIe3.0进行通信;GPU0与GPU3之间、GPU1与GPU2之间均可通过25Gbps NVLink2.0进行通信;FPGA0与FPGA1之间、FPGA0与FPGA2之间、FPGA0与FPGA3之间、FPGA1与FPGA2之间、FPGA1与FPGA3之间、FPGA2与FPGA3之间均可通过20Gbps network进行通信。
相应于上面的方法实施例,本发明实施例还提供了一种任务负载调度装置,下文描述的任务负载调度装置与上文描述的任务负载调度方法可相互对应参照。
参见图4,图4为本发明实施例中一种任务负载调度装置的结构框图,该装置可以包括:
任务获得模块41,用于对接收到的任务负载调度请求进行解析,得到待调度的目标任务;
任务发送模块42,用于将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;
负载调度模块43,用于利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。
应用本发明实施例所提供的装置,对接收到的任务负载调度请求进行解析,得到待调度的目标任务;将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。通过预先设置包括多个不同计算架构的计算设备的混合异构分布式计算系统,并建立混合异构分布式计算系统对应的设备拓扑结构图,利用混合异构分布式计算系统按照设备拓扑结构图进行任务负载调度,满足了多模态人工智能算法模型的计算要求,通过按照设备拓扑结构图对任务进行细粒度负载调度,实现了不同计算架构的计算设备间的高效计算协同,提升了混合异构分布式计算系统的整体性能。
在本发明的一种具体实施方式中,该装置包括拓扑图建立模块,拓扑图建立模块包括:
设备集合获得子模块,用于遍历混合异构分布式计算系统中各计算节点,得到由各计算节点中各计算设备构成的设备集合;
编号信息获得子模块,用于对设备集合中的各计算设备进行编号操作,得到各计算设备分别对应的设备编号信息;
类型及算力获取子模块,用于分别获取各计算设备的设备类型及算力能力信息;
连接边信息获得子模块,用于遍历相互直连的各计算设备的物理链路信息,得到由各计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合;
拓扑图建立子模块,用于根据各计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及设备间连接边信息集合,建立设备拓扑结构图。
在本发明的一种具体实施方式中,拓扑图建立模块还包括:
判断子模块,用于在得到由各计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合之后,建立设备拓扑结构图之前,判断设备间连接边信息集合中是否存在冗余的设备间连接边信息;
连接边信息删除子模块,用于当设备间连接边信息集合中存在冗余的设备间连接边信息时,对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合;
拓扑图建立子模块具体为根据各计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及目标设备间连接边信息集合,建立设备拓扑结构图的模块。
在本发明的一种具体实施方式中,负载调度模块43具体为利用混合异构分布式计算系统根据设备拓扑结构图按照负载均衡原则对目标任务进行负载调度处理的模块。
相应于上面的方法实施例,参见图5,图5为本发明所提供的任务负载调度设备的示意图,该设备可以包括:
存储器51,用于存储计算机程序;
处理器52,用于执行上述存储器51存储的计算机程序时可实现如下步骤:
对接收到的任务负载调度请求进行解析,得到待调度的目标任务;将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。
对于本发明提供的设备的介绍请参照上述方法实施例,本发明在此不做赘述。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
对接收到的任务负载调度请求进行解析,得到待调度的目标任务;将目标任务发送到混合异构分布式计算系统中;其中,混合异构分布式计算系统包括多个不同计算架构的计算设备;利用混合异构分布式计算系统根据预建立的设备拓扑结构图对目标任务进行负载调度处理。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种任务负载调度方法,其特征在于,包括:
对接收到的任务负载调度请求进行解析,得到待调度的目标任务;
将所述目标任务发送到混合异构分布式计算系统中;其中,所述混合异构分布式计算系统包括多个不同计算架构的计算设备;
利用所述混合异构分布式计算系统根据预建立的设备拓扑结构图对所述目标任务进行负载调度处理。
2.根据权利要求1所述的任务负载调度方法,其特征在于,所述设备拓扑结构图的建立过程包括:
遍历所述混合异构分布式计算系统中各计算节点,得到由各所述计算节点中各所述计算设备构成的设备集合;
对所述设备集合中的各所述计算设备进行编号操作,得到各所述计算设备分别对应的设备编号信息;
分别获取各所述计算设备的设备类型及算力能力信息;
遍历相互直连的各所述计算设备的物理链路信息,得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合;
根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述设备间连接边信息集合,建立所述设备拓扑结构图。
3.根据权利要求2所述的任务负载调度方法,其特征在于,在得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合之后,建立所述设备拓扑结构图之前,还包括:
判断所述设备间连接边信息集合中是否存在冗余的设备间连接边信息;
若是,则对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合;
根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述设备间连接边信息集合,建立所述设备拓扑结构图,包括:
根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述目标设备间连接边信息集合,建立所述设备拓扑结构图。
4.根据权利要求1至3任一项所述的任务负载调度方法,其特征在于,利用所述混合异构分布式计算系统根据预建立的设备拓扑结构图对所述目标任务进行负载调度处理,包括:
利用所述混合异构分布式计算系统根据所述设备拓扑结构图按照负载均衡原则对所述目标任务进行负载调度处理。
5.一种任务负载调度装置,其特征在于,包括:
任务获得模块,用于对接收到的任务负载调度请求进行解析,得到待调度的目标任务;
任务发送模块,用于将所述目标任务发送到混合异构分布式计算系统中;其中,所述混合异构分布式计算系统包括多个不同计算架构的计算设备;
负载调度模块,用于利用所述混合异构分布式计算系统根据预建立的设备拓扑结构图对所述目标任务进行负载调度处理。
6.根据权利要求5所述的任务负载调度装置,其特征在于,包括拓扑图建立模块,所述拓扑图建立模块包括:
设备集合获得子模块,用于遍历所述混合异构分布式计算系统中各计算节点,得到由各所述计算节点中各所述计算设备构成的设备集合;
编号信息获得子模块,用于对所述设备集合中的各所述计算设备进行编号操作,得到各所述计算设备分别对应的设备编号信息;
类型及算力获取子模块,用于分别获取各所述计算设备的设备类型及算力能力信息;
连接边信息获得子模块,用于遍历相互直连的各所述计算设备的物理链路信息,得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合;
拓扑图建立子模块,用于根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述设备间连接边信息集合,建立所述设备拓扑结构图。
7.根据权利要求6所述的任务负载调度装置,其特征在于,所述拓扑图建立模块还包括:
判断子模块,用于在得到由各所述计算设备的设备间连接边关系、物理链路类型、以及通信理论带宽构成的设备间连接边信息集合之后,建立所述设备拓扑结构图之前,判断所述设备间连接边信息集合中是否存在冗余的设备间连接边信息;
连接边信息删除子模块,用于当所述设备间连接边信息集合中存在冗余的设备间连接边信息时,对冗余的设备间连接边信息进行删除操作,得到目标设备间连接边信息集合;
所述拓扑图建立子模块具体为根据各所述计算设备分别对应的设备编号信息、设备类型、算力能力信息、以及所述目标设备间连接边信息集合,建立所述设备拓扑结构图的模块。
8.根据权利要求5至7任一项所述的任务负载调度装置,其特征在于,所述负载调度模块具体为利用所述混合异构分布式计算系统根据所述设备拓扑结构图按照负载均衡原则对所述目标任务进行负载调度处理的模块。
9.一种任务负载调度设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述任务负载调度方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述任务负载调度方法的步骤。
CN202010568709.7A 2020-06-19 2020-06-19 一种任务负载调度方法、装置、设备及可读存储介质 Withdrawn CN111880911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010568709.7A CN111880911A (zh) 2020-06-19 2020-06-19 一种任务负载调度方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010568709.7A CN111880911A (zh) 2020-06-19 2020-06-19 一种任务负载调度方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111880911A true CN111880911A (zh) 2020-11-03

Family

ID=73156872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010568709.7A Withdrawn CN111880911A (zh) 2020-06-19 2020-06-19 一种任务负载调度方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111880911A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422169A (zh) * 2020-11-04 2021-02-26 中国空间技术研究院 复合链路节点协同方法、装置及系统
CN113239243A (zh) * 2021-07-08 2021-08-10 湖南星汉数智科技有限公司 基于多计算平台的图数据分析方法、装置和计算机设备
CN113377520A (zh) * 2021-07-07 2021-09-10 北京百度网讯科技有限公司 资源调度方法、装置、设备以及存储介质
CN113590301A (zh) * 2021-09-30 2021-11-02 苏州浪潮智能科技有限公司 一种深度学习业务的任务调度方法及相关装置
CN113609056A (zh) * 2021-06-25 2021-11-05 曙光信息产业(北京)有限公司 数据传输测试方法、装置、设备以及存储介质
CN114884908A (zh) * 2022-04-29 2022-08-09 浪潮电子信息产业股份有限公司 一种数据同步方法、装置、设备及存储介质
WO2023020502A1 (zh) * 2021-08-17 2023-02-23 华为技术有限公司 数据处理方法及装置
WO2023165105A1 (zh) * 2022-03-04 2023-09-07 深圳海星智驾科技有限公司 负载均衡控制方法、装置电子设备、存储介质和计算机程序

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138138A (zh) * 2008-08-18 2011-07-27 国际商业机器公司 用于实现流处理计算机架构的方法及系统
CN106776014A (zh) * 2016-11-29 2017-05-31 科大讯飞股份有限公司 异构计算中的并行加速方法及系统
CN109240832A (zh) * 2018-09-25 2019-01-18 中国电子科技集团公司电子科学研究院 一种硬件重构系统及方法
CN109918182A (zh) * 2019-01-23 2019-06-21 中国人民解放军战略支援部队信息工程大学 虚拟化技术下的多gpu任务调度方法
CN110196750A (zh) * 2018-02-26 2019-09-03 华为技术有限公司 一种设备的分配方法及其相关设备
US20190312772A1 (en) * 2018-04-04 2019-10-10 EMC IP Holding Company LLC Topology-aware provisioning of hardware accelerator resources in a distributed environment
CN110415160A (zh) * 2019-06-29 2019-11-05 苏州浪潮智能科技有限公司 一种gpu拓扑分区方法与装置
CN110618870A (zh) * 2019-09-20 2019-12-27 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138138A (zh) * 2008-08-18 2011-07-27 国际商业机器公司 用于实现流处理计算机架构的方法及系统
CN106776014A (zh) * 2016-11-29 2017-05-31 科大讯飞股份有限公司 异构计算中的并行加速方法及系统
CN110196750A (zh) * 2018-02-26 2019-09-03 华为技术有限公司 一种设备的分配方法及其相关设备
US20190312772A1 (en) * 2018-04-04 2019-10-10 EMC IP Holding Company LLC Topology-aware provisioning of hardware accelerator resources in a distributed environment
CN109240832A (zh) * 2018-09-25 2019-01-18 中国电子科技集团公司电子科学研究院 一种硬件重构系统及方法
CN109918182A (zh) * 2019-01-23 2019-06-21 中国人民解放军战略支援部队信息工程大学 虚拟化技术下的多gpu任务调度方法
CN110415160A (zh) * 2019-06-29 2019-11-05 苏州浪潮智能科技有限公司 一种gpu拓扑分区方法与装置
CN110618870A (zh) * 2019-09-20 2019-12-27 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112422169A (zh) * 2020-11-04 2021-02-26 中国空间技术研究院 复合链路节点协同方法、装置及系统
CN112422169B (zh) * 2020-11-04 2022-07-26 中国空间技术研究院 复合链路节点协同方法、装置及系统
CN113609056A (zh) * 2021-06-25 2021-11-05 曙光信息产业(北京)有限公司 数据传输测试方法、装置、设备以及存储介质
CN113609056B (zh) * 2021-06-25 2023-08-25 曙光信息产业(北京)有限公司 数据传输测试方法、装置、设备以及存储介质
CN113377520A (zh) * 2021-07-07 2021-09-10 北京百度网讯科技有限公司 资源调度方法、装置、设备以及存储介质
CN113239243A (zh) * 2021-07-08 2021-08-10 湖南星汉数智科技有限公司 基于多计算平台的图数据分析方法、装置和计算机设备
WO2023020502A1 (zh) * 2021-08-17 2023-02-23 华为技术有限公司 数据处理方法及装置
CN113590301A (zh) * 2021-09-30 2021-11-02 苏州浪潮智能科技有限公司 一种深度学习业务的任务调度方法及相关装置
WO2023165105A1 (zh) * 2022-03-04 2023-09-07 深圳海星智驾科技有限公司 负载均衡控制方法、装置电子设备、存储介质和计算机程序
CN114884908A (zh) * 2022-04-29 2022-08-09 浪潮电子信息产业股份有限公司 一种数据同步方法、装置、设备及存储介质
CN114884908B (zh) * 2022-04-29 2024-02-13 浪潮电子信息产业股份有限公司 一种数据同步方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111880911A (zh) 一种任务负载调度方法、装置、设备及可读存储介质
TWI547817B (zh) 叢集運算架構的資源規劃方法、系統及裝置
CN111459665A (zh) 一种分布式边缘计算系统及分布式边缘计算方法
CN112650590A (zh) 任务的处理方法、装置及系统、分配方法和装置
CN111614769B (zh) 一种深度学习技术的行为智能分析引擎系统及控制方法
CN107343302B (zh) 一种基于多核处理器的传感网路由结构优化方法
CN111597043B (zh) 一种全场景边缘计算方法、装置及系统
CN111090268B (zh) 基于线程划分的数据采集方法、装置及数据采集设备
CN110688213B (zh) 一种基于边缘计算的资源管理方法、系统及电子设备
CN109819032B (zh) 一种联合考虑基站选择与计算迁移的云机器人任务分配方法
CN110347515B (zh) 一种适合边缘计算环境的资源优化分配方法
CN114816721B (zh) 一种基于边缘计算的多任务优化调度方法及系统
CN112202679B (zh) 用于分层网络拓扑自动路由分发的硬件设备量化方法及系统
CN115134371A (zh) 包含边缘网络算力资源的调度方法、系统、设备及介质
CN115460216A (zh) 算力资源调度方法和装置、算力资源调度设备、系统
CN114327811A (zh) 一种任务调度方法、装置、设备及可读存储介质
CN112286688A (zh) 一种内存管理和使用方法、装置、设备和介质
CN112433844B (zh) 一种资源分配方法、系统、设备及计算机可读存储介质
CN112799829A (zh) 一种知识驱动的网络资源编排方法
CN104090813A (zh) 一种云数据中心的虚拟机cpu使用率的分析建模方法
CN114035906A (zh) 虚拟机迁移方法、装置、电子设备及存储介质
TW202315360A (zh) 微服務分配方法、電子設備及儲存介質
Chen et al. Optimization of the overload detection algorithm for virtual machine consolidation
CN110769037A (zh) 嵌入式边缘计算平台资源配置方法
CN116743589B (zh) 云主机迁移方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201103