CN114461355A - 异构计算集群统一管理方法、装置、电子设备及存储介质 - Google Patents

异构计算集群统一管理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114461355A
CN114461355A CN202111574814.2A CN202111574814A CN114461355A CN 114461355 A CN114461355 A CN 114461355A CN 202111574814 A CN202111574814 A CN 202111574814A CN 114461355 A CN114461355 A CN 114461355A
Authority
CN
China
Prior art keywords
computing power
task
executed
computing
power node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111574814.2A
Other languages
English (en)
Inventor
袁瑞峰
齐向东
吴云坤
王志杰
索海龙
胡康宁
李振博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Original Assignee
Qianxin Technology Group Co Ltd
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qianxin Technology Group Co Ltd, Secworld Information Technology Beijing Co Ltd filed Critical Qianxin Technology Group Co Ltd
Priority to CN202111574814.2A priority Critical patent/CN114461355A/zh
Publication of CN114461355A publication Critical patent/CN114461355A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供一种异构计算集群统一管理方法、装置、电子设备及存储介质,其中方法包括:获取多个算力节点集的访问资质信息,所述访问资质信息包括每个算力节点集所支持的架构类型及算力节点类型;基于访问资质信息和待执行任务的访问资质需求,从多个算力节点集中确定目标算力节点集;根据目标算力节点集的剩余算力和待执行任务的优先级,得到待执行任务的任务调度统计结果;基于任务调度统计结果更新所述目标算力节点集,以使目标算力节点集基于更新结果集中算力完成待执行任务。使用本发明方法能够整合大量不同架构的算力资源进行统一调度,从而实现最大化、最优化应对大量待执行任务的算力调度目的。

Description

异构计算集群统一管理方法、装置、电子设备及存储介质
技术领域
本发明涉及任务调度技术领域,尤其涉及一种异构计算集群统一管理方法、装置、电子设备及存储介质。
背景技术
随着异构平台技术的不断发展,越来越多的架构可以用于同一应用场景下进行不同鉴定任务的调度,以实现异构平台的任务调度。
相关技术中,通常针对同一架构配置算力调度模式,以进行同一架构下的算力调度或软件运行,比如超威半导体(Advanced Micro Devices,AMD)64架构的电脑上的常用软件则只能在AMD64架构下运行,若更换至新的平台或新的架构时其计算资源则不能正常运行。因此,当同一应用场景下架构的数量较多时,则需要针对每个架构配置一套单独的算力调度模式,从而导致异构平台进行任务调度时的维护成本和人力成本消耗均很大。
发明内容
本发明提供一种异构计算集群统一管理方法、装置、电子设备及存储介质,用以解决现有技术中架构的数量越多时需要配置多个不同的算力调度模式而导致的异构平台进行任务调度时的维护成本和人力成本消耗均很大的缺陷,实现通过整合多个不同架构的算力进行统一调度的方式达到最大化调度算力资源及减轻管理成本的目的。
本发明提供一种异构计算集群统一管理方法,包括:
获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
根据本发明提供的一种异构计算集群统一管理方法,所述根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
根据所述目标算力节点集的剩余算力,判断所述剩余算力是否足够完成所述待执行任务;
若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果。
根据本发明提供的一种异构计算集群统一管理方法,所述若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级相同且对应满足不同的所述目标算力节点集,根据每个所述待执行任务的算力需求,对相应所述目标算力节点集进行算力节点的数量增加统计操作,得到所述待执行任务的任务调度统计结果。
根据本发明提供的一种异构计算集群统一管理方法,所述若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级不同且每个所述目标算力节点集支持多个不同优先级的所述待执行任务,调用算力节点抢占策略;
基于所述算力节点抢占策略和所述目标算力节点集的剩余算力,对每个所述目标算力节点集中优先级高的目标待执行任务优先统计足够算力的算力节点,得到所述待执行任务的任务调度统计结果。
根据本发明提供的一种异构计算集群统一管理方法,所述方法还包括:
若所述剩余算力不足以完成所述待执行任务,则输出当前算力不足的提示信息,并根据所述待执行任务的优先级将所述待执行任务存入任务队列中。
根据本发明提供的一种异构计算集群统一管理方法,在所述获取多个算力节点集的访问资质信息的步骤之前,所述方法还包括:
预先在数据库中存储多个算力节点集的配置信息,所述配置信息包括每个所述算力节点集的访问资质信息和访问凭证信息;
从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例。
根据本发明提供的一种异构计算集群统一管理方法,所述从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例,包括:
从所述数据库中获取所述配置信息,并读取所述配置信息中的所述访问凭证信息;
基于所述访问凭证信息,通过调用部署器进入每个所述算力节点集中各个算力节点的算力实例访问凭证页面;
基于所述算力实例访问凭证页面所接收的输入密码,获取每个所述算力节点集中各个算力节点的算力实例。
根据本发明提供的一种异构计算集群统一管理方法,所述访问资质需求包括所述待执行任务的架构类型需求和算力需求时,所述基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集,包括:
根据所述待执行任务的架构类型需求和算力需求,分别与每个所述算力节点集所支持的架构类型及算力节点类型进行匹配,并确定匹配成功时对应的目标算力节点集。
本发明还提供一种异构计算集群统一管理装置,包括:
获取模块,用于获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
确定模块,用于基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
处理模块,用于根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
调度模块,用于基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述异构计算集群统一管理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述异构计算集群统一管理方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述异构计算集群统一管理方法的步骤。
本发明提供的异构计算集群统一管理方法、装置、电子设备及存储介质,其中异构计算集群统一管理方法,先将获取的多个算力节点集的访问资质信息和待执行任务的访问资质需求,从多个算力节点集中确定目标算力节点集,再进一步根据目标算力节点集的剩余算力和待执行任务的优先级,得到待执行任务的任务调度统计结果,最后基于任务调度统计结果更新目标算力节点集,以使目标算力节点集基于更新结果集中算力完成待执行任务。由于访问资质信息包括每个算力节点集所支持的架构类型及算力节点类型,因此针对不同的待执行任务都能在大量不同的架构中匹配出满足待执行任务需求的目标架构,无需重新配置算力调度模式,不用花费大量维护成本和人力成本即可快速实现针对不同架构的计算资源进行整合算力并统一调度的目的,从而实现最大化、最优化应对大量待执行任务的算力调度目的。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的异构计算集群统一管理方法的流程示意图;
图2是本发明提供的待执行任务的任务调度统计结果的示意图之一;
图3是本发明提供的待执行任务的任务调度统计结果的示意图之二;
图4是本发明提供的异构计算集群统一管理装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的异构计算集群统一管理方法、装置、电子设备及存储介质,其中异构计算集群统一管理方法的执行主体可以为调度区中的策略模块,调度区具备提供针对待执行任务和算力的能力,策略模块具备调度算力服务的能力。
图1为本发明提供的异构计算集群统一管理方法的流程示意图,如图1所示,该异构计算集群统一管理方法,包括以下步骤:
步骤110、获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型。
具体的,多个算力节点集构成同一应用场景下整个异构算力集合且统称为算力区,算力区中包括多个算力节点集,每个算力节点集分别为一个算力池,每个算力池是一组算力节点的集合且支持相同的架构类型,比如算力区中包括算力池1、算力池2和算力池3时,算力池1所支持的架构类型为AMD64架构、算力池2所支持的架构类型为精简指令集计算机微处理器(Android Advanced Reduced Instruction Set Computer Machines,ARM)64架构,算力池3所支持的架构类型为内核虚拟机(Kernel Virtual Machine,KVM)特性;并且,每个算力节点集(也即每个算力池)所支持的算力节点类型表征对应算力池中每个算力节点的类型,每个算力池中算力节点的数量可以为1个、也可以为多个,当某一算力池中算力节点的数量为多个时其每个算力节点的类型可以相同、也可以不同,每个算力节点的类型可以表征对应算力节点的鉴定速率。此外,当同一算力池中算力节点的类型不同时,可以匹配同一架构下不同的待执行任务。
步骤120、基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集。
具体的,策略模块基于每个算力池所支持的架构类型和每个算力池中算力节点的类型,将待执行任务的访问资质需求分别与每个算力池所支持的架构类型和每个算力池中算力节点的类型进行比对,以从多个算力池中选取出与待执行任务的访问资质需求匹配的目标算力节点集(也即目标算力池)。
步骤130、根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果。
具体的,策略模块针对所确定的目标算力池,可以首先统计目标算力池的剩余算力,再进一步基于待执行任务的优先级统计算力节点的数量调整。比如,目标算力池的剩余算力包括5个第一算力节点和2个第二算力节点,且待执行任务1的优先级为4且需要目标算力池中的5个第一算力节点、待执行任务2的优先级为4且需要目标算力池中的2个第二算力节点时,可以确定待执行任务1和待执行任务2的任务调度统计结果为目标算力池中第一算力节点增加5及第二算力节点增加2。
需要说明的是,本发明中每个待执行任务的优先级可以预先设置,且每个待执行任务均可以分为1~5五个等级,且5表征最高优先级、1表征最低优先级。
步骤140、基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
具体的,当待执行任务的任务调度统计结果包括目标算力池中第一算力节点增加5及第二算力节点增加2时,可以向目标算力池中发送第一算力节点增加5及第二算力节点增加2的节点更新指示信息,以使得目标算力池基于该节点更新指示信息进行更新操作后集中算力完成待执行任务。
示例性的,当待执行任务的任务调度统计结果包括对目标算力池1完成任务A的算力节点统计增加5个算力实例、对目标算力池2完成任务B的算力节点统计增加5个算力实例以及对目标算力池3完成任务D的算力节点统计增加5个算力实例时,可以向目标算力池1发送任务A增加为5、向目标算力池2发送任务B增加为5以及向目标算力池3发送任务D增加为5的节点更新指示信息,以使得目标算力池1、目标算力池2及目标算力池3基于该节点更新指示信息进行更新操作后集中算力完成任务A、任务B及任务D这3个待执行任务。
同理,当待执行任务的任务调度统计结果包括将目标算力池1完成任务A的第一算力节点统计减少为3个第一算力实例、将目标算力池1完成任务F的第二算力节点统计增加为5个第二算力实例、将目标算力池2完成任务B的第三算力节点统计减少为3个第三算力实例、将目标算力池2完成任务C的第四算力节点统计增加为5个第四算力实例、将目标算力池3完成任务D的第五算力节点统计减少为3个第五算力实例、将目标算力池3完成任务E的第六算力节点统计增加为5个第六算力实例时,可以向目标算力池1发送任务A减少为3、向目标算力池1发送任务F增加为5、向目标算力池2发送任务B减少为3、向目标算力池2发送任务C增加为5、向目标算力池3发送任务D减少为3以及向目标算力池3发送任务E增加为5的节点更新指示信息,以使得目标算力池1、目标算力池2及目标算力池3基于该节点更新指示信息进行更新操作后集中算力完成任务A、任务F、任务B、任务C、任务D及任务E这6个待执行任务。
本发明提供的异构计算集群统一管理方法,先将获取的多个算力节点集的访问资质信息和待执行任务的访问资质需求,从多个算力节点集中确定目标算力节点集,再进一步根据目标算力节点集的剩余算力和待执行任务的优先级,得到待执行任务的任务调度统计结果,最后基于任务调度统计结果更新目标算力节点集,以使目标算力节点集基于更新结果集中算力完成待执行任务。由于访问资质信息包括每个算力节点集所支持的架构类型及算力节点类型,因此针对不同的待执行任务都能在大量不同的架构中匹配出满足待执行任务需求的目标架构,无需重新配置算力调度模式,不用花费大量维护成本和人力成本即可快速实现针对不同架构的计算资源进行整合算力并统一调度的目的,从而实现最大化、最优化应对大量待执行任务的算力调度目的。
可选的,在步骤110之前,所述方法还可以包括:
首先,预先在数据库中存储多个算力节点集的配置信息,所述配置信息包括每个所述算力节点集的访问资质信息和访问凭证信息;然后,从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例。
具体的,调度区的数据库中预先存储有多个算力池的配置信息,每个算力池的配置信息包含对应算力池所支持的架构类型及对应算力池内每个算力节点的类型,算力节点的类型不同时对应满足的待执行任务的类型也不同,且每个算力节点的算力均由其对应的算力实例提供,因此,当算力节点的数量改变时,对应算力实例的数量也会相应变化,以此满足待执行任务的算力需求。然后,策略模块从数据库中获取多个算力池的配置信息,并进一步通过调用部署器获取每个算力池中各个算力节点的算力实例。
本发明提供的异构计算集群统一管理方法,通过从数据库中获取多个算力节点集的配置信息以及通过调用部署器获取每个算力节点集中各个算力节点的算力实例,实现了预先整合所有架构的算力资源的目的,以为后续对不同架构下算力资源进行最大化且最优化统一调度和管理提供有力依据。
可选的,所述从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例,包括:
首先,从所述数据库中获取所述配置信息,并读取所述配置信息中的所述访问凭证信息;再次,基于所述访问凭证信息,通过调用部署器进入每个所述算力节点集中各个算力节点的算力实例访问凭证页面;进一步,基于所述算力实例访问凭证页面所接收的输入密码,获取每个所述算力节点集中各个算力节点的算力实例。
具体的,策略模块从数据库中获取多个算力池的配置信息时,可以先读取每个算力池的访问凭证信息,然后基于每个算力池的访问凭证信息,通过调用调度模块进入每个算力池中各个算力节点的算力实例访问凭证页面,并基于算力实例访问凭证页面所显示的设置固定密码对话框,接收输入的密码和确认密码,以此进行访问资格验证,当验证成功时,可以获取每个算力节点集中各个算力节点的算力实例。
本发明提供的异构计算集群统一管理方法,首先基于每个算力节点集的配置信息中的访问凭证信息进入每个算力节点集中各个算力节点的算力实例访问凭证页面,再基于算力实例访问凭证页面所接收的输入密码,获取每个算力节点集中各个算力节点的算力实例,以此提高访问各个算力节点集及获取每个算力实例的安全性和可靠性。
可选的,所述访问资质需求包括所述待执行任务的架构类型需求和算力需求时,步骤S120具体可以包括:
根据所述待执行任务的架构类型需求和算力需求,分别与每个所述算力节点集所支持的架构类型及算力节点类型进行匹配,并确定匹配成功时对应的目标算力节点集。
具体的,当待执行任务的访问资质需求包括待执行任务的架构类型需求和算力需求时,可以将该架构类型需求和算力需求分别与每个算力池所支持的架构类型及每个算力池内各个算力节点的类型进行匹配,首先从所有算力池中匹配出符合待执行任务的架构类型需求的目标算力池,比如待执行任务的架构类型需求为ARM64架构且算力池1支持ARM64架构时,可确定算力池1为目标算力池;然后,在目标算力池中匹配符合待执行任务的算力需求的目标算力节点,比如当目标算力池中包括算力节点1和算力节点2且算力节点1和算力节点2的执行速率不同时,如果算力节点2的执行速率满足待执行任务的效率需求,可以确定目标算力池中的算力节点2为目标算力节点。
本发明提供的异构计算集群统一管理方法,通过将待执行任务的架构类型需求和算力需求,分别与每个算力节点集所支持的架构类型及算力节点类型进行匹配的方式,实现从多个算力节点集中匹配出满足待执行任务的目标算力节点集的目的,从而实现了从多个不同架构中匹配出满足不同待执行任务需求的目标架构,大大降低了异构平台算力调度的维护成本和人力成本消耗,提高了异构算力资源调度的合理性和调度效率。
可选的,步骤130具体可以包括:
根据所述目标算力节点集的剩余算力,判断所述剩余算力是否足够完成所述待执行任务;若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果。
具体的,策略模块在确定出目标算力池的剩余算力时,可以首先判断目标算力池的剩余算力是否足够完成待执行任务,也即将目标算力池的剩余算力与待执行任务的算力需求进行匹配,当确定目标算力池的剩余算力满足待执行任务的算力需求,则认为目标算力池的剩余算力足够完成待执行任务,此时再进一步根据待执行任务的优先级,得到待执行任务的任务调度统计结果。
本发明提供的异构计算集群统一管理方法,判断目标算力节点集的剩余算力是否足够完成待执行任务,并且在目标算力节点集的剩余算力足够完成待执行任务时才根据待执行任务的优先级得到待执行任务的任务调度统计结果,以此提高任务调度统计结果的灵活性和可靠性。
可选的,所述若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级相同且对应支持不同的所述目标算力节点集,根据每个所述待执行任务的算力需求,对相应所述目标算力节点集进行算力节点的数量增加统计操作,得到所述待执行任务的任务调度统计结果。
具体的,当策略模块确定目标算力池的剩余算力足够完成待执行任务时,针对每个待执行任务的优先级相同且对应满足不同的目标算力节点集,比如待执行任务有3个且3个待执行任务为任务A、任务B、任务D,任务A、任务B、任务D的优先级均为3,任务A满足目标算力池1所支持的AMD64架构、任务B满足目标算力池2所支持的ARM64架构、任务D满足目标算力池3所支持的KVM特性,如果设定目标算力池1、目标算力池2、目标算力池3均包括1个算力节点且配置为8核CPU+8GB内存,以及目标算力池1、目标算力池2及目标算力池3的算力节点均需要1核CPU+1Gb内存方可正常运行,此时可以如图2所示,当任务A优先级3的算力节点需求为5个算力实例、任务B优先级3的算力节点需求为5个算力实例、任务D优先级3的算力节点需求为5个算力实例时,对目标算力池1完成任务A的算力节点统计增加为5个算力实例(也即任务A算力实例*5)、对目标算力池2完成任务B的算力节点统计增加为5个算力实例(也即任务B算力实例*5)以及对目标算力池3完成任务D的算力节点统计增加为5个算力实例(也即任务D算力实例5),以此得到任务A、任务B及任务D这3个待执行任务的任务调度统计结果。
本发明提供的异构计算集群统一管理方法,针对每个待执行任务的优先级相同且对应满足不同的所述目标算力节点集,根据每个待执行任务的算力需求,对相应所述目标算力节点集进行算力节点的数量增加统计操作,得到待执行任务的任务调度统计结果,以此针对每个算力节点集均含有一个算力节点时通过增加对应算力节点的数量的方式实现正常算力调度的目的,提高了异构算力调度的可靠性。
可选的,所述若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级不同且每个所述目标算力节点集支持多个不同优先级的所述待执行任务,调用算力节点抢占策略;基于所述算力节点抢占策略和所述目标算力节点集的剩余算力,对每个所述目标算力节点集中优先级高的目标待执行任务优先统计足够算力的算力节点,得到所述待执行任务的任务调度统计结果。
具体的,当策略模块确定目标算力池的剩余算力足够完成待执行任务时,针对每个待执行任务的优先级不同且每个目标算力节点集支持多个不同优先级的所述待执行任务,比如待执行任务有6个且6个待执行任务为任务A、任务F、任务B、任务C、任务D、任务E,任务A、任务B和任务D的优先级均为3,任务C、任务E和任务F的优先级均为4,任务A、任务F满足目标算力池1所支持的AMD64架构,任务B、任务C满足目标算力池2所支持的ARM64架构,任务D、任务E满足目标算力池3所支持的KVM特性,如果设定目标算力池1包括第一算力节点和第二算力节点、目标算力池2包括第三算力节点和第四算力节点、目标算力池3包括第五算力节点和第六算力节点,此时,当任务A优先级3的第一算力节点需求为5、任务F优先级4的第二算力节点需求为5、任务B优先级3的第三算力节点需求为5、任务C优先级4的第四算力节点需求为5、任务D优先级3的第五算力节点需求为5、任务E优先级4的第六算力节点需求为5时,如图3所示,可以调用算力节点抢占策略,以使优先保证高优先级别的待执行任务优先调度算力完成,也即将目标算力池1完成任务A的第一算力节点统计减少为3个第一算力实例(也即任务A第一算力实例*3)、将目标算力池1完成任务F的第二算力节点统计增加为5个第二算力实例(也即任务F第二算力实例*5)、将目标算力池2完成任务B的第三算力节点统计减少为3个第三算力实例(也即任务B第三算力实例*3)、将目标算力池2完成任务C的第四算力节点统计增加为5个第四算力实例(也即任务C第四算力实例*5)、将目标算力池3完成任务D的第五算力节点统计减少为3个第五算力实例(也即任务D第五算力实例*3)、将目标算力池3完成任务E的第六算力节点统计增加为5个第六算力实例(也即任务E第六算力实例*5),以此得到任务A、任务F、任务B、任务C、任务D及任务E这6个待执行任务的任务调度统计结果。
本发明提供的异构计算集群统一管理方法,针对每个待执行任务的优先级不同且每个目标算力节点集支持多个不同优先级的待执行任务,基于算力节点抢占策略和目标算力节点集的剩余算力,对每个目标算力节点集中优先级高的目标待执行任务优先统计足够算力的算力节点,得到待执行任务的任务调度统计结果,以此针对每个算力节点集均包括多个算力节点且同一架构下多个待执行任务的优先级不同时通过算力资源抢占的方式削减优先级较低的算力资源,从而实现每一架构下均能够确保高优先级的待执行任务优先调度算力完成的目的,提高了异构算力调度的灵活性和可靠性。
可选的,在根据目标算力节点集的剩余算力,判断所述剩余算力是否足够完成所述待执行任务时,所述方法还可以包括:
若所述剩余算力不足以完成所述待执行任务,则输出当前算力不足的提示信息,并根据所述待执行任务的优先级将所述待执行任务存入任务队列中。
具体的,当策略模块确定目标算力池的剩余算力小于待执行任务的优先级所需的算力时,可以认为目标算力池的剩余算力不足以完成待执行任务,此时可以输出表征目标算力池的当前算力不足的提示信息,以提醒待执行任务将延迟完成调度,然后根据待执行任务的优先级将待执行任务存储至任务队列中,以使目标算力池的算力足够时优先完成任务队列中优先级最高的待执行任务。
本发明提供的异构计算集群统一管理方法,当确定目标算力节点集的剩余算力不足以完成待执行任务时,输出表征目标算力池的当前算力不足的提示信息,并根据待执行任务的优先级存储待执行任务,以使得目标算力节点集的算力足够时优先完成优先级最高的待执行任务,从而实现灵活且最优化调度算力资源的目的。
下面对本发明提供的异构计算集群统一管理装置进行描述,下文描述的异构计算集群统一管理装置与上文描述的异构计算集群统一管理方法可相互对应参照。
图4示例了一种异构计算集群统一管理装置,如图4所示,该异构计算集群统一管理装置400,包括:
获取模块410,用于获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;确定模块420,用于基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;处理模块430,用于根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;调度模块440,用于基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
可选的,处理模块430,具体可以用于根据所述目标算力节点集的剩余算力,判断所述剩余算力是否足够完成所述待执行任务;若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果。
可选的,处理模块430,具体还可以用于若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级相同且对应满足不同的所述目标算力节点集,根据每个所述待执行任务的算力需求,对相应所述目标算力节点集进行算力节点的数量增加统计操作,得到所述待执行任务的任务调度统计结果。
可选的,处理模块430,具体还可以用于若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级不同且每个所述目标算力节点集支持多个不同优先级的所述待执行任务,调用算力节点抢占策略;基于所述算力节点抢占策略和所述目标算力节点集的剩余算力,对每个所述目标算力节点集中优先级高的目标待执行任务优先统计足够算力的算力节点,得到所述待执行任务的任务调度统计结果。
可选的,处理模块430,具体还可以用于若所述剩余算力不足以完成所述待执行任务,则输出当前算力不足的提示信息,并根据所述待执行任务的优先级将所述待执行任务存入任务队列中。
可选的,获取模块410,具体还可以用于预先在数据库中存储多个算力节点集的配置信息,所述配置信息包括每个所述算力节点集的访问资质信息和访问凭证信息;从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例。
可选的,获取模块410,具体还可以用于从所述数据库中获取所述配置信息,并读取所述配置信息中的所述访问凭证信息;基于所述访问凭证信息,通过调用部署器进入每个所述算力节点集中各个算力节点的算力实例访问凭证页面;基于所述算力实例访问凭证页面所接收的输入密码,获取每个所述算力节点集中各个算力节点的算力实例。
可选的,确定模块420,具体可以用于所述访问资质需求包括所述待执行任务的架构类型需求和算力需求时,根据所述待执行任务的架构类型需求和算力需求,分别与每个所述算力节点集所支持的架构类型及算力节点类型进行匹配,并确定匹配成功时对应的目标算力节点集。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备500可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行异构计算集群统一管理方法,该方法包括:
获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的异构计算集群统一管理方法,该方法包括:
获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的异构计算集群统一管理方法,该方法包括:
获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (12)

1.一种异构计算集群统一管理方法,其特征在于,包括:
获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
2.根据权利要求1所述的异构计算集群统一管理方法,其特征在于,所述根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
根据所述目标算力节点集的剩余算力,判断所述剩余算力是否足够完成所述待执行任务;
若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果。
3.根据权利要求2所述的异构计算集群统一管理方法,其特征在于,所述若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级相同且对应满足不同的所述目标算力节点集,根据每个所述待执行任务的算力需求,对相应所述目标算力节点集进行算力节点的数量增加统计操作,得到所述待执行任务的任务调度统计结果。
4.根据权利要求2所述的异构计算集群统一管理方法,其特征在于,若所述剩余算力足够完成所述待执行任务,则根据所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果,包括:
若所述剩余算力足够完成所述待执行任务,针对每个所述待执行任务的优先级不同且每个所述目标算力节点集支持多个不同优先级的所述待执行任务,调用算力节点抢占策略;
基于所述算力节点抢占策略和所述目标算力节点集的剩余算力,对每个所述目标算力节点集中优先级高的目标待执行任务优先统计足够算力的算力节点,得到所述待执行任务的任务调度统计结果。
5.根据权利要求2所述的异构计算集群统一管理方法,其特征在于,所述方法还包括:
若所述剩余算力不足以完成所述待执行任务,则输出当前算力不足的提示信息,并根据所述待执行任务的优先级将所述待执行任务存入鉴定任务队列中。
6.根据权利要求1所述的异构计算集群统一管理方法,其特征在于,在所述获取多个算力节点集的访问资质信息的步骤之前,所述方法还包括:
预先在数据库中存储多个算力节点集的配置信息,所述配置信息包括每个所述算力节点集的访问资质信息和访问凭证信息;
从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例。
7.根据权利要求6所述的异构计算集群统一管理方法,其特征在于,所述从所述数据库中获取所述配置信息,并通过调用部署器获取每个所述算力节点集中各个算力节点的算力实例,包括:
从所述数据库中获取所述配置信息,并读取所述配置信息中的所述访问凭证信息;
基于所述访问凭证信息,通过调用部署器进入每个所述算力节点集中各个算力节点的算力实例访问凭证页面;
基于所述算力实例访问凭证页面所接收的输入密码,获取每个所述算力节点集中各个算力节点的算力实例。
8.根据权利要求1所述的异构计算集群统一管理方法,其特征在于,所述访问资质需求包括所述待执行任务的架构类型需求和算力需求时,所述基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集,包括:
根据所述待执行任务的架构类型需求和算力需求,分别与每个所述算力节点集所支持的架构类型及算力节点类型进行匹配,并确定匹配成功时对应的目标算力节点集。
9.一种异构计算集群统一管理装置,其特征在于,包括:
获取模块,用于获取多个算力节点集的访问资质信息,所述访问资质信息包括每个所述算力节点集所支持的架构类型及算力节点类型;
确定模块,用于基于所述访问资质信息和待执行任务的访问资质需求,从所述多个算力节点集中确定目标算力节点集;
处理模块,用于根据所述目标算力节点集的剩余算力和所述待执行任务的优先级,得到所述待执行任务的任务调度统计结果;
调度模块,用于基于所述任务调度统计结果更新所述目标算力节点集,以使所述目标算力节点集基于更新结果集中算力完成所述待执行任务。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述异构计算集群统一管理方法的步骤。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述异构计算集群统一管理方法的步骤。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述异构计算集群统一管理方法的步骤。
CN202111574814.2A 2021-12-21 2021-12-21 异构计算集群统一管理方法、装置、电子设备及存储介质 Pending CN114461355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111574814.2A CN114461355A (zh) 2021-12-21 2021-12-21 异构计算集群统一管理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111574814.2A CN114461355A (zh) 2021-12-21 2021-12-21 异构计算集群统一管理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114461355A true CN114461355A (zh) 2022-05-10

Family

ID=81405322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111574814.2A Pending CN114461355A (zh) 2021-12-21 2021-12-21 异构计算集群统一管理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114461355A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237581A (zh) * 2022-09-21 2022-10-25 之江实验室 一种面向异构算力的多策略智能调度方法和装置
CN115562870A (zh) * 2022-10-25 2023-01-03 北京京航计算通讯研究所 一种集群的任务节点资源构建方法
CN116136799A (zh) * 2023-04-14 2023-05-19 亚信科技(中国)有限公司 算力调度管理侧设备及方法、算力提供侧设备及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115237581A (zh) * 2022-09-21 2022-10-25 之江实验室 一种面向异构算力的多策略智能调度方法和装置
CN115237581B (zh) * 2022-09-21 2022-12-27 之江实验室 一种面向异构算力的多策略智能调度方法和装置
CN115562870A (zh) * 2022-10-25 2023-01-03 北京京航计算通讯研究所 一种集群的任务节点资源构建方法
CN115562870B (zh) * 2022-10-25 2023-07-21 北京京航计算通讯研究所 一种集群的任务节点资源构建方法
CN116136799A (zh) * 2023-04-14 2023-05-19 亚信科技(中国)有限公司 算力调度管理侧设备及方法、算力提供侧设备及方法

Similar Documents

Publication Publication Date Title
CN114461355A (zh) 异构计算集群统一管理方法、装置、电子设备及存储介质
Zhang et al. Online adaptive interference-aware VNF deployment and migration for 5G network slice
CN109656782A (zh) 可视化调度监控方法、装置及服务器
CN110838065A (zh) 一种交易数据处理方法及装置
CN111459754B (zh) 异常任务的处理方法、装置、介质及电子设备
CN106557369A (zh) 一种多线程的管理方法及系统
CN112099935B (zh) 一种任务处理方法及装置
CN108604193A (zh) 异构系统、计算任务分配方法及装置
CN115964153A (zh) 一种异步任务处理方法、装置、设备以及存储介质
CN110213250B (zh) 数据处理方法及终端设备
Khazaei et al. Modeling the performance of heterogeneous IaaS cloud centers
CN114327894A (zh) 资源分配方法、装置、电子设备及存储介质
CN108509264B (zh) 超时任务调度系统及方法
CN109324872A (zh) 一种对虚拟机改变的请求进行验证的方法和系统
CN113191889A (zh) 风控配置方法、配置系统、电子设备及可读存储介质
CN117135130A (zh) 服务器控制方法、装置、电子设备及存储介质
CN112600842A (zh) 集群shell方法、装置、电子设备及计算机可读存储介质
CN112395062A (zh) 任务处理方法、装置、设备及计算机可读存储介质
US9323509B2 (en) Method and system for automated process distribution
CN116302420A (zh) 并发调度方法、装置、计算机设备及计算机可读存储介质
CN113419842B (zh) 一种基于JavaScript构建边缘计算微服务的方法、装置
CN110018906B (zh) 调度方法、服务器及调度系统
CN110809062B (zh) 公有云语音识别资源调用控制方法和装置
Medhioub et al. Adaptive risk management framework for cloud computing
CN114036250A (zh) 高精地图任务处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination