CN117971509A - 异构算力集群的运行性能优化方法、装置、设备及介质 - Google Patents
异构算力集群的运行性能优化方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117971509A CN117971509A CN202410383000.8A CN202410383000A CN117971509A CN 117971509 A CN117971509 A CN 117971509A CN 202410383000 A CN202410383000 A CN 202410383000A CN 117971509 A CN117971509 A CN 117971509A
- Authority
- CN
- China
- Prior art keywords
- power
- calculation
- computing power
- module
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000005457 optimization Methods 0.000 title description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 283
- 238000005265 energy consumption Methods 0.000 claims abstract description 86
- 230000008569 process Effects 0.000 claims abstract description 22
- 230000001105 regulatory effect Effects 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims description 35
- 238000013507 mapping Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 16
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 230000008447 perception Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005059 dormancy Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种异构算力集群的运行性能优化方法、装置、设备及介质。该方法包括:在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整。本发明实施例的技术方案提供了一种基于业务压力感知进行能效调节的新方式,可以在有效满足集群算力需求的前提下,提升集群能效比,并可以有效降低集群的整体PUE。
Description
技术领域
本发明涉及算力集群的能效调节技术领域,尤其涉及一种异构算力集群的运行性能优化方法、装置、设备及介质。
背景技术
随着算力芯片技术的不断发展,可以通过建设异构算力集群的方式,来满足各行各业的数字化转型需求。
在构建异构算力集群时,主要使用的算力资源包括CPU(Central ProcessingUnit,中央处理器)和GPU(graphics processing unit,图形处理器)。主要的业务规模有单卡的,多卡,甚至多机的计算业务。对于大部分的应用,业务可能会使用到多种类型的异构算力,通过多级的计算支持整个应用。
发明人在实现本发明的过程中发现:在异构算力的需求下,如何提高各级算力资源的能效比,以及如何在满足算力需求的前提下,有效控制各级算力资源的能耗,从而有效提高整体集群的能效比和降低整体PUE(Power Usage Effectiveness,电源使用效率),是目前有待解决的重要技术难点。
发明内容
本发明提供了一种异构算力集群的运行性能优化方法、装置、设备及介质,以在有效满足集群算力需求的前提下,提升集群能效比。
根据本发明实施例的一方面,提供了一种异构算力集群的运行性能优化方法,包括:
在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;其中,运行状态描述信息包括当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息;
根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;
根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整;
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
根据本发明实施例的另一方面,提供了一种异构算力集群的运行性能优化装置,包括:
实时信息获取模块,用于在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;其中,运行状态描述信息包括当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息;
算力需求获取模块,用于根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;
能耗调整模块,用于根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整;
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
根据本发明实施例的另一方面,还提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的异构算力集群的运行性能优化方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的异构算力集群的运行性能优化方法。
本发明实施例的技术方案,通过在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整的实现方式,提供了一种基于业务压力感知进行能效调节的新方式,可以在有效满足集群算力需求的前提下,提升集群能效比,并可以有效降低集群的整体PUE。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种异构算力集群的运行性能优化方法的流程图;
图2是根据本发明实施例二提供的另一种异构算力集群的运行性能优化方法的流程图;
图3是根据本发明实施例三提供的另一种异构算力集群的运行性能优化方法的流程图;
图4是本发明实施例所适用的一种异构算力集群的运行性能优化场景的架构图;
图5是根据本发明实施例四提供的一种异构算力集群的运行性能优化装置的结构示意图;
图6是实现本发明实施例的异构算力集群的运行性能优化方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供的一种异构算力集群的运行性能优化方法的流程图,本实施例可适用于在异构算力集群架构中,实时根据集群内的业务负载状态和算力使用状态,对该集群进行功耗调节的情况,该方法可以由异构算力集群的运行性能优化装置来执行,该装置可以采用硬件和/或软件的形式实现,并一般可配置于具有数据处理功能的电子设备中(例如,终端或者服务器等)。如图1所示,该方法包括:
S110、在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息。
具体的,算力模块可以理解为专门用于加速处理数学计算的硬件器件,也称为加速器或协处理器。它采用专门的算法,能够在较短的时间内完成大量的计算任务(也可以称为业务)。算力模块的类型可以为CPU、GPU、TPU(Tensor Processing Unit,张量处理器)或者GCU(General calculation Unit,通用计算单元)等,本实施例对此并不进行限制。
相应的,异构算力集群中包括多个算力模块,且上述多个算力模块的类型不完全相同。例如,一个异构算力集群中包括有上述两种或者两种以上类型的算力模块。
进一步的,多个同类型的算力模块可以配置于同一个服务器中,通过板卡插接的方式进行互联。相应的,上述异构算力集群可以由多个服务器互联构成,以实现异构算力集群中两两算力模块之间均可以互联互通。
在本实施例中,业务执行过程,可以理解为异构算力集群中的部分或者全部算力模块处于运行状态,且上述处于运行状态的各算力模块独立处理或者协同处理集群为其所分配的一个或者多个计算业务的过程。
其中,运行状态描述信息包括异构算力集群的当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息。
其中,当前业务负载信息可以理解在当前时间点下,该异构算力集群内当前未被处理的业务计算请求(request)的数量。具体的,可以将一个业务计算请求作为一个整体的计算业务分配至同一个算力模块执行,或者,还可以将一个业务计算请求作为一个流水线任务,依次分配给多个同类型或者不同类型的算力模块进行串行执行等,本实施例对此并不进行限制。
算力模块的当前算力状态信息可以理解为算力模块在当前时间点下的算力使用情况,例如,可以包括算力模块的当前已使用算力,还可以包括算力模块当前剩余算力,或者,还可以包括算力使用率等。进一步的,算力模块的当前算力状态信息还可以包括:算力模块的类型(例如,CPU、GPU或者GCU等),以及算力模块当前所适配的计算场景(例如,模型训练、模型推理或者普通计算)等,本实施例对此并不进行限制。
S120、根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求。
在本实施例中,通过汇总一段时间内,例如10分钟,或者20分钟等的当前业务负载信息,可以统计出一段时间内的业务负载总量。上述业务负载总量可以通过乘加计算量的数量值来衡量,也即,通过获取每个业务计算请求所需的乘加计算量,可以最终汇总得到预设时长下的乘加计算总量,进而,可以得到单位时间(例如,1s或者1ms等)内所需的标准乘加计算量。
具体的,可以通过分析每个业务计算请求中的计算任务类型(例如,卷积计算或者是梯度计算等),通过预设的映射关系或者预先构建的评估模型,计算出每个业务计算请求所需的乘加计算量。其中,所谓乘加计算是指向计算乘法后在将计算结果加上一个或者多个数,在本实施例中,通过以乘加次数为单位,可以衡量该异构算力集群在单位时间内所需承接的业务负载量,也即,前述标准乘加计算量。
其中,异构算力集群的当前平均业务算力需求,可以理解为:为了保证该异构算力集群在单位时间内能够承接上述业务负载量,该异构算力集群需要在单位时间内具有的计算能力。
在获取标准乘加计算量后,可以将上述标准乘加计算量直接确定为异构算力集群的当前平均业务算力需求,进一步的,如果上述异构算力集群处于特定的业务场景中,例如,图像处理场景,还可以将上述标准乘加计算量转换为图像处理场景中的算力描述信息,典型的,FPS(Frame Per Second,每秒帧数)。通常,算力模块还可以通过单位时间执行的浮点运算次数来衡量算力,进而,可以通过预设的映射公式将标准乘加计算量转换为匹配的浮点运算次数,以获取异构算力集群的当前平均业务算力需求。
S130、根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整。
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
在本实施例中,能耗调节的目的是:在满足异构算力集群的当前平均业务算力需求时,使得整个异构算力集群具有最低的功耗,进而可以有效提高整体集群的能耗比,也即,控制整个异构算力集群能够在满足工作需求的前提下,工作在最小的功耗下。
发明人通过研究发现,异构算力集群中各服务器中所运行的算力模块数量不同,算力模块的工作频率不同,以及算力模块的工作模式(正常工作状态或者待机状态等)不同,均会使得异构算力集群的功耗不同。
在本实施例中,通过将上述各项能够对集群功耗造成影响的参数作为调节参数,并探求上述各调节参数与异构算力集群的当前平均业务算力需求和当前运行的各算力模块的当前算力状态信息之间的关系,可以获取异构算力集群在满足当前平均业务算力需求时,最优的能耗调节策略,也即目标能耗调节策略。通过使用目标能耗调节策略中定义的各项调节参数的理想值对异构算力集群进行参数调整,可以使得该异构算力集群的功耗达到最低。
在本实施例的一个可选的实施方式中,根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,可以包括:
获取能耗策略查询表,其中,能耗策略查询表中记录有在不同平均业务算力需求的不同平均算力状态信息下的不同能耗调节策略;
按照当前平均业务算力需求以及当前算力状态信息,在能耗策略查询表中进行查找,获取目标能耗调节策略。
在本可选实施方式中,可以预先通过控制变量的实验生成能耗策略查询表。该能耗策略查询表中记录有在不同平均业务算力需求的不同平均算力状态信息下的不同能耗调节策略。
具体的,该能耗策略查询表中可以包括形如:
平均业务算力需求范围:[A1,A2],平均算力状态信息范围:[B1,B2],能耗调节策略:Y。
相应的,在实时获取各算力模块的当前算力状态信息(例如,算力利用率)之后,可以将上述各当前算力状态信息按照预设的公式进行加权求和再求平均,得到异构算力集群的当前平均业务算力状态信息。之后,基于当前平均业务算力需求以及当前平均业务算力状态信息进行查表,可以相应获取目标能耗调节策略。
本发明实施例的技术方案,通过在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整的实现方式,提供了一种基于业务压力感知进行能效调节的新方式,可以在有效满足集群算力需求的前提下,提升集群能效比,并有效降低集群的整体PUE。
在上述各实施例的基础上,所述运行状态描述信息还可以包括:异构算力集群中当前运行的各算力模块的当前环境状态信息;
相应的,所述方法还可以包括:
每当有待处理业务进入至异构算力集群时,根据各算力模块的当前环境状态信息和当前算力状态信息,确定并执行目标调度策略。
其中,当前环境状态信息可以包括:算力模块的进出口温度信息,算力模块所在服务器机柜内的温湿度信息等,用于描述算力模块当前所处的工作环境。
在本实施例中,每当有待处理业务进入至异构算力集群时,需要在异构算力集群中,选取一个或者多个算力模块(针对流水线业务)执行该待处理业务。该目标调度策略具体用于指定将该有待处理业务调度至异构算力集群中的哪个或者哪几个算力模块中执行。
具体的,本实施例在确定目标调度策略时,除了考虑根据各算力模块的当前算力状态信息之外,还综合考虑了各算力模块的当前环境状态信息,进而可以从工作环境较优,且剩余算力能够满足该有待处理业务的算力需求的算力模块中,选择出最优算力模块分配该有待处理业务。
通过上述设置,可以在异构算力集群中更加合理的为待处理业务分配算力资源,提高算力资源的利用率,并有效提高业务执行效率。
实施例二
图2为本发明实施例二提供的另一种异构算力集群的运行性能优化方法的流程图,本实施例以上述实施例为基础进行优化。在本实施例中,将根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,具体化为:获取功耗值与算力模块的算力能力之间的映射关系;根据各算力模块的当前算力状态信息,确定与各算力模块分别对应的更新映射关系;使用所述更新映射关系,确定与各算力模块对应的算力能力表达式;根据与各算力模块对应的算力能力表达式,构建满足所述当前平均业务算力需求且以最小化集群总功率为目标的所述目标能耗调节策略。
相应的,如图2所示,该方法包括:
S210、在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息。
S220、根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求。
S230、获取功耗值与算力模块的算力能力之间的映射关系。
其中,在所述映射关系中,包含算力状态信息中的至少一项,以及能耗调节策略中的至少一个调节参数。
在本实施例中,可以通过各类数据拟合算法,拟合得到功耗值与算力模块的算力能力之间的映射关系。可以理解的是,功耗值与算力能力之间具有非线性关系,进而,拟合得到的上述映射关系可以为一个分段函数。
在该分段函数中,除了具有至少一个调节参数之外,还具有算力模块的算力状态。
在一个简单的示例中,可以通过公式:φ=Ax+By+Cz+m表达上述映射关系,其中,φ=算力模块的算力能力FPS/算力模块的功耗值。
其中,A、B、C为拟合得到的权重值,x为算力模块所在服务器内运行的算力模块数量,y为算力模块的剩余算力(或者算力利用率),z为算力模块的工作频率(或者由工作频率离散化得到的数值),m为由算力模块的工作模式离散化得到的数值。
S240、根据各算力模块的当前算力状态信息,确定与各算力模块分别对应的更新映射关系。
通过将上述各算力模块的当前算力状态信息的具体值分别带入至该映射关系,可以得到与每个算力模块分别对应的更新映射关系。可以理解的是,上述每个更新映射关系中,仅包括能耗调节策略中的至少一个调节参数作为变量。
S250、使用所述更新映射关系,确定与各算力模块对应的算力能力表达式。
续前例,可以基于每个算力模块的更新映射关系结合每个算力模块的功耗值,表达每个算力模块的算力能力。
例如,第i个算力模块的算力能力FPSi=φi*Pi,其中Pi为第i个算力模块的功耗值。
其中,在算力能力表达式中,以每个算力模块的功耗值和至少一个调节参数为自变量。
S260、根据与各算力模块对应的算力能力表达式,构建满足所述当前平均业务算力需求且以最小化集群总功率为目标的所述目标能耗调节策略。
续前例,可以构建形如:的限制条件,其中,FPSavg为所述当前平均业务算力需求,n为异构算力集群中当前运行的算力模块的总数量,其中,n值也可以作为一个自变量进行实时确定。
最后,由于异构算力集群的功耗可以表达为:/>,进而,通过以最小化集群总功率为目标,结合上述限制条件,遍历获取该目标能耗调节策略。
S270、按照目标能耗调节策略,对异构算力集群进行调整。
在本实施例中,在获取目标能耗调节策略之后,可以按照目标能耗调节策略中定义的各项调节参数,对该异构算力集群进行调整,以达到最小化集群总功率的目的。
进一步的,还可以在循环进行功耗调整的过程中,实时对每个算力模块在承接业务后的表现进行监控分析,并进行反馈,从而形成调节闭环,保证整个功耗调节过程准确、有效。
本发明实施例的技术方案,通过获取功耗值与算力模块的算力能力之间的映射关系;根据各算力模块的当前算力状态信息,确定与各算力模块分别对应的更新映射关系;使用所述更新映射关系,确定与各算力模块对应的算力能力表达式;根据与各算力模块对应的算力能力表达式,构建满足所述当前平均业务算力需求且以最小化集群总功率为目标的所述目标能耗调节策略的实现方式,提供了一种通用性更强的能耗调节策略确定方式,无需建立负载的能耗策略查询表,只要能够挖掘出功耗值与算力模块的算力能力之间的映射关系(例如,可以通过各类预训练的神经网络模型确定),即可实时针对各算力模块的当前算力状态信息以及当前平均业务算力需求,实时确定出最能满足当前业务状态的最优能耗调节策略,使得本发明实施例方法的通用性和适用性更强,可以更加准确的在满足集群算力需求的前提下,提升集群能效比,并有效降低集群的整体PUE。
实施例三
图3为本发明实施例三提供的另一种异构算力集群的运行性能优化方法的流程图,本实施例以上述实施例为基础进行优化。在本实施例中,将“根据各算力模块的当前环境状态信息和当前算力状态信息,确定并执行目标调度策略”的操作,具体化为:根据所述异构算力集群中各算力模块的当前算力状态信息,检测异构算力集群中的各算力模块是否处于满载状态;若否,则根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块;如果成功筛选出备选算力模块,则根据各备选算力模块的当前算力状态信息,对各备选算力模块进行打分;根据打分值,确定与待处理任务匹配的目标算力模块,并将待处理任务调度至目标算力模块中执行。
相应的,如图3所示,该方法包括:
S310、在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息。
其中,运行状态描述信息包括当前业务负载信息、异构算力集群中当前运行的各算力模块的当前算力状态信息和当前环境状态信息。
S320、根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求。
S330、根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整。
S340、每当有待处理业务进入至异构算力集群时,根据所述异构算力集群中各算力模块的当前算力状态信息,检测异构算力集群中的各算力模块是否处于满载状态:若否,执行S350;若是,执行S360。
在本实施例中,每当确定有业务负载请求(request)流入至该异构算力集群时,确定检测到待处理业务。此时,首先需要检测该异构算力集群中当前运行的各算力模块是否处于满载状态。具体的,可以预先规定如果一个算力模块的算力使用率超过了95%,则确定该算力模块处于满载状态,或者如果一个算力模块的当前剩余算力小于或者等于1浮点运算次数,则确定该算力模块处于满载状态等,本实施例对此并不进行限制。
进一步的,如果确定异构算力集群的全部或者超过设定比例(例如,90%或者95%等)算力模块均处于满载状态,则确定异构算力集群中的各算力模块处于满载状态,或者说该异构算力集群处于满载状态。
可以理解的是,在该异构算力集群当前处于满载状态时,如果将待处理业务分配至当前处于运行状态的任一算力模块执行,则该待处理任务的处理等待时间可能都会比较长,因此,说明当前开启的算力模块已经无法负荷新加入的负载业务了。此时,可以直接在异构算力集群当前未启动的算力模块中,筛选与待处理任务匹配的目标算力模块,并在启动目标算力模块后,将待处理任务调度至目标算力模块中执行。
具体的,在异构算力集群当前未启动的算力模块中,筛选与待处理任务匹配的目标算力模块的方式可以为:根据该待处理任务所需的算力模块类型(例如,CPU或者是GPU)以及该待处理任务的实际计算场景(例如,推理场景或者是模型训练场景),在未启动的算力模块中,筛选出与上述计算模块类型和实际计算场景相适配的目标算力模块。
可以理解的是,当异构算力集群中启动的算力模块数量远远多于该异构算力集群所需负荷的业务负载时,会降低整个异构算力集群的能效比,此时,可以通过实时进行的能耗调节策略选择对一个或者多个算力模块进行休眠处理。也即,通过将能耗调节策略和调度策略共同作用在该异构算力集群中,可以在有效满足集群算力需求的前提下,实现对业务执行效率和集群能效比的双重优化。
S350、根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块。
其中,如果成功筛选出备选算力模块,则执行S370;如果未成功筛选出备选算力模块,则执行S360。
在本实施例中,如果异构算力集群未处于满载状态,则可以从当前运行的算力模块中,筛选出一个与该待处理任务最适配的算力模块,并将该待处理任务调度至该算力模块中执行。
可以理解的是,根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,在异构算力集群执行备选算力模块的筛选操作时,可能筛选成功,也可能筛选失败。如果筛选失败,则同样可以直接在异构算力集群当前未启动的算力模块中,筛选与待处理任务匹配的目标算力模块,并在启动目标算力模块后,将待处理任务调度至目标算力模块中执行。
在本实施例的一个可选的实施方式中,根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块,可以包括:
将待处理业务的业务需求信息与各算力模块的当前算力状态信息进行匹配,获取初筛算力模块;
具体的,待处理任务的任务需求信息可以包括:待处理任务所需的算力模块类型,以及该待处理任务所需的具体计算场景。
通过将待处理业务的业务需求信息与各算力模块的当前算力状态信息进行匹配,可以在当前运行的全部算力模块中,筛选出能够用来执行该待处理任务的各算力模块,也即初筛算力模块。
根据各初筛算力模块的当前算力状态信息和当前环境状态信息,在各初筛算力模块中进行二次筛选,获取满足任务调度条件的备选算力模块。
在本实施例中,在获取各初筛算力模块后,可以进一步结合这些初筛算力模块的算力使用率或者当前剩余算力,以及进出口温度或者所在机柜的温湿度等信息,过滤掉那些所处环境恶劣,以及当前负载压力较大的算力模块,以得到那些可以低延时、高性能执行该待处理业务的备选算力模块。
具体的,该任务调度条件可以为对初筛算力模块的当前算力状态信息和当前环境状态信息进行限定的条件,例如,进出口温度不大于50℃,机柜湿度不大于60%,机柜温度不大于45℃以及算力使用率不超过60%等。
S360、在异构算力集群当前未启动的算力模块中,筛选与待处理任务匹配的目标算力模块,并在启动目标算力模块后,将待处理任务调度至目标算力模块中执行。
S370、根据各备选算力模块的当前算力状态信息,对各备选算力模块进行打分,执行S380。
在本实施例中,如果确定出的备选算力模块的数量不止一个,则可以根据各备选算力模块的当前算力状态信息,对各备选算力模块进行打分。
具体的,可以实时维护每个算力模块的算力模块权重,该算力模块权重可以由算力模块的最大最小算力之间的算力范围以及实时的健康状态信息共同确定。
相应的,可以通过各备选算力模块的算力使用率,确定各备选算力模块的算力可用率(100%-算力使用率)后,计算算力可用率和算力模块权重之间的乘积,作为各备选算力模块的打分值。
S380、根据打分值,确定与待处理任务匹配的目标算力模块,并将待处理任务调度至目标算力模块中执行。
具体的,可以获取与最大打分值对应的备选算力模块作为目标算力模块,并将待处理任务调度至目标算力模块中执行。
本发明实施例的技术方案通过每当有待处理业务进入至异构算力集群时,根据所述异构算力集群中各算力模块的当前算力状态信息,检测异构算力集群中的各算力模块是否处于满载状态;若否,则根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块;如果成功筛选出备选算力模块,则根据各备选算力模块的当前算力状态信息,对各备选算力模块进行打分;根据打分值,确定与待处理任务匹配的目标算力模块,并将待处理任务调度至目标算力模块中执行的实现方式,可以有效提升算力资源的利用率,有效提升异构算力集群对实际业务需求的满足度,提升单个业务的处理效率和处理性能。
具体应用场景
图4是本发明实施例所适用的一种异构算力集群的运行性能优化场景的架构图。
如图4所示,整个异构算力集群的运行性能优化场景包括三个架构层次,分别为算力集群层、算力和业务感知层以及部署和能效调节层。
具体的,按照实际的计算场景可以将算力集群层划分为:包含多个用于实现模型训练功能的GCU芯片作为算力模块的训练GCU服务器机柜,包含多个用于实现模型推理功能的GCU芯片作为算力模块的推理GCU服务器机柜以及包含多个用于实现普通计算功能的普通计算模块的普通服务器机柜。其中,上述算力集群中包括的各算力模块的类型不完全相同,这些异构的算力模块之间互联互通,共同构成异构算力集群。
算力和业务感知层可以获取算力集群层中包括的各项信息。具体的,可以通过环境感知管理模块获取每个算力模块的进出口温度,每个服务器机柜的温湿度信息,进一步的,还可以获取每个服务器机柜内的设备密度、位置管理信息以及柜内设备的运行状态信息等。
该算力感知配置发现模块,可以通过算力感知功能获取每个算力模块的算力类型,例如,CPU、GPU或者Memory,负载状态以及算力模块余量,进而可以获取异构算力集群中,整个集群系统的算力余量。进一步的,还可以通过配置发现模块,获取算力资源的规格,逻辑配置设备互联状态,每个子系统的功能等,此外,还可以对每个算力模块进行健康检查,获取每个算力模块的max和min计算能力以及算力的已使用情况,并发现算力模块之间的关系,生成服务器内工作拓扑,进而可以进行全集群的工作拓扑和全链路能力分析,同时,通过将如下的组件间拓扑关系,存储在数据库中,并为后续调度和能效管理提供数据支撑。
该业务负载感知管理模块,可以获知进入至算力集群层中的每个业务请求。
最终,部署和能效调节层在综合获取环境感知管理模块、算力感知配置发现模块以及业务负载感知管理模块针对该算力集群层所采集的各项信息后,可以通过算力业务调度模块将实时进入至算力集群层的每个待处理业务调度至最适配的算力模块中执行,并通过能效管理模块对该算力集群层进行实时的能效管理,以使得整个集群在满足实际算力需求下,工作在最优的能效比之下。
实施例四
图5为本发明实施例四提供的一种异构算力集群的运行性能优化装置的结构示意图。如图5所示,该装置包括:实时信息获取模块510、算力需求获取模块520以及能耗调整模块530,其中:
实时信息获取模块510,用于在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;其中,运行状态描述信息包括当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息;
算力需求获取模块520,用于根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;
能耗调整模块530,用于根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整;
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
本发明实施例的技术方案,通过在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整的实现方式,提供了一种基于业务压力感知进行能效调节的新方式,可以在有效满足集群算力需求的前提下,提升集群能效比,并有效降低集群的整体PUE。
在上述各实施例的基础上,能耗调整模块530,可以具体用于:
获取能耗策略查询表,能耗策略查询表中记录在不同平均业务算力需求的不同平均算力状态信息下的不同能耗调节策略;
按照当前平均业务算力需求以及当前算力状态信息,在能耗策略查询表中进行查找,获取目标能耗调节策略。
在上述各实施例的基础上,能耗调整模块530,可以具体用于:
获取功耗值与算力模块的算力能力之间的映射关系;其中,在所述映射关系中,包含算力状态信息中的至少一项以及能耗调节策略中的至少一个调节参数;
根据各算力模块的当前算力状态信息,确定与各算力模块分别对应的更新映射关系;
使用所述更新映射关系,确定与各算力模块对应的算力能力表达式;其中,在算力能力表达式中,以每个算力模块的功耗值和至少一个调节参数为自变量;
根据与各算力模块对应的算力能力表达式,构建满足所述当前平均业务算力需求且以最小化集群总功率为目标的所述目标能耗调节策略。
在上述各实施例的基础上,所述运行状态描述信息还可以包括:异构算力集群中当前运行的各算力模块的当前环境状态信息;
相应的,所述装置还可以包括,调度执行模块,可以用于:
每当有待处理业务进入至异构算力集群时,根据各算力模块的当前环境状态信息和当前算力状态信息,确定并执行目标调度策略。
在上述各实施例的基础上,调度执行模块,具体可以包括:
满载状态检测单元,用于根据所述异构算力集群中各算力模块的当前算力状态信息,检测异构算力集群中的各算力模块是否处于满载状态;
备选算力模块筛选单元,用于若确定异构算力集群中的各算力模块未处于满载状态,则根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块;
备选算力模块打分单元,用于如果成功筛选出备选算力模块,则根据各备选算力模块的当前算力状态信息,对各备选算力模块进行打分;
第一目标算力模块确定单元,用于根据打分值,确定与待处理任务匹配的目标算力模块,并将待处理任务调度至目标算力模块中执行。
在上述各实施例的基础上,备选算力模块筛选单元,可以具体用于:
将待处理业务的业务需求信息与各算力模块的当前算力状态信息进行匹配,获取初筛算力模块;
根据各初筛算力模块的当前算力状态信息和当前环境状态信息,在各初筛算力模块中进行二次筛选,获取满足任务调度条件的备选算力模块。
在上述各实施例的基础上,所述调度执行模块还可以进一步包括,第二目标算力模块确定单元,用于:
在根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块之后,如果未成功筛选出备选算力模块,则在异构算力集群当前未启动的算力模块中,筛选与待处理任务匹配的目标算力模块;
在启动目标算力模块后,将待处理任务调度至目标算力模块中执行。
本发明实施例所提供的异构算力集群的运行性能优化装置可执行本发明任意实施例所提供的异构算力集群的运行性能优化方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如执行如本发明任意实施例所述的异构算力集群的运行性能优化方法。
也即,在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;其中,运行状态描述信息包括当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息;
根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;
根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整;
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
在一些实施例中,如本发明任意实施例所述的异构算力集群的运行性能优化方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的如本发明任意实施例所述的异构算力集群的运行性能优化方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行如本发明任意实施例所述的异构算力集群的运行性能优化方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种异构算力集群的运行性能优化方法,其特征在于,包括:
在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;其中,运行状态描述信息包括当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息;
根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;
根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整;
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
2.根据权利要求1所述的方法,其特征在于,根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,包括:
获取能耗策略查询表,其中,能耗策略查询表中记录有在不同平均业务算力需求的不同平均算力状态信息下的不同能耗调节策略;
按照当前平均业务算力需求以及当前算力状态信息,在能耗策略查询表中进行查找,获取目标能耗调节策略。
3.根据权利要求1所述的方法,其特征在于,根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,包括:
获取功耗值与算力模块的算力能力之间的映射关系;其中,在所述映射关系中,包含算力状态信息中的至少一项,以及能耗调节策略中的至少一个调节参数;
根据各算力模块的当前算力状态信息,确定与各算力模块分别对应的更新映射关系;
使用所述更新映射关系,确定与各算力模块对应的算力能力表达式;其中,在算力能力表达式中,以每个算力模块的功耗值和至少一个调节参数为自变量;
根据与各算力模块对应的算力能力表达式,构建满足所述当前平均业务算力需求且以最小化集群总功率为目标的所述目标能耗调节策略。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述运行状态描述信息还包括:异构算力集群中当前运行的各算力模块的当前环境状态信息;
所述方法还包括:
每当有待处理业务进入至异构算力集群时,根据各算力模块的当前环境状态信息和当前算力状态信息,确定并执行目标调度策略。
5.根据权利要求4所述的方法,其特征在于,根据各算力模块的当前环境状态信息和当前算力状态信息,确定并执行目标调度策略,包括:
根据所述异构算力集群中各算力模块的当前算力状态信息,检测异构算力集群中的各算力模块是否处于满载状态;
若否,则根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块;
如果成功筛选出备选算力模块,则根据各备选算力模块的当前算力状态信息,对各备选算力模块进行打分;
根据打分值,确定与待处理任务匹配的目标算力模块,并将待处理任务调度至目标算力模块中执行。
6.根据权利要求5所述的方法,其特征在于,根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块,包括:
将待处理业务的业务需求信息与各算力模块的当前算力状态信息进行匹配,获取初筛算力模块;
根据各初筛算力模块的当前算力状态信息和当前环境状态信息,在各初筛算力模块中进行二次筛选,获取满足任务调度条件的备选算力模块。
7.根据权利要求5所述的方法,其特征在于,在根据待处理业务的业务需求信息、各算力模块的当前算力状态信息和当前环境状态信息,筛选能够承载待处理业务的备选算力模块之后,还包括:
如果未成功筛选出备选算力模块,则在异构算力集群当前未启动的算力模块中,筛选与待处理任务匹配的目标算力模块;
在启动目标算力模块后,将待处理任务调度至目标算力模块中执行。
8.一种异构算力集群的运行性能优化装置,其特征在于,包括:
实时信息获取模块,用于在异构算力集群的业务执行过程中,实时获取异构算力集群的运行状态描述信息;其中,运行状态描述信息包括当前业务负载信息,以及异构算力集群中当前运行的各算力模块的当前算力状态信息;
算力需求获取模块,用于根据预设时长内的当前业务负载信息,获取异构算力集群的当前平均业务算力需求;
能耗调整模块,用于根据各算力模块的当前算力状态信息,确定异构算力集群在满足当前平均业务算力需求时的目标能耗调节策略,并按照目标能耗调节策略,对异构算力集群进行调整;
其中,目标能耗调节策略中包括至少一个调节参数的理想值,调节参数包括异构算力集群中至少一个服务器内运行的算力模块数量、各算力模块的工作频率或者各算力模块的工作模式。
9. 一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的异构算力集群的运行性能优化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的异构算力集群的运行性能优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410383000.8A CN117971509B (zh) | 2024-04-01 | 2024-04-01 | 异构算力集群的运行性能优化方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410383000.8A CN117971509B (zh) | 2024-04-01 | 2024-04-01 | 异构算力集群的运行性能优化方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117971509A true CN117971509A (zh) | 2024-05-03 |
CN117971509B CN117971509B (zh) | 2024-06-21 |
Family
ID=90858163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410383000.8A Active CN117971509B (zh) | 2024-04-01 | 2024-04-01 | 异构算力集群的运行性能优化方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117971509B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063066A (ja) * | 2003-08-08 | 2005-03-10 | Internatl Business Mach Corp <Ibm> | 分散コンピューティングシステム |
US20100228861A1 (en) * | 2009-03-04 | 2010-09-09 | International Business Machines Corporation | Environmental and computing cost reduction with improved reliability in workload assignment to distributed computing nodes |
CN104808770A (zh) * | 2015-04-23 | 2015-07-29 | 南京大学 | 基于动态调频的数据中心能耗管理方法及系统 |
CN113599803A (zh) * | 2021-07-28 | 2021-11-05 | 腾讯科技(深圳)有限公司 | 一种基于边缘计算的数据处理方法、设备及可读存储介质 |
CN115292046A (zh) * | 2022-08-10 | 2022-11-04 | 中国电信股份有限公司 | 算力分配方法、装置、存储介质及电子设备 |
WO2024007171A1 (zh) * | 2022-07-05 | 2024-01-11 | 北京小米移动软件有限公司 | 一种算力负载均衡方法及装置 |
CN117435329A (zh) * | 2022-07-14 | 2024-01-23 | 华为技术有限公司 | 调节计算平台的方法、装置和智能设备 |
WO2024041578A1 (zh) * | 2022-08-25 | 2024-02-29 | 杭州阿里巴巴飞天信息技术有限公司 | 数据中心的能效及碳排放计算方法、装置及电子设备 |
-
2024
- 2024-04-01 CN CN202410383000.8A patent/CN117971509B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005063066A (ja) * | 2003-08-08 | 2005-03-10 | Internatl Business Mach Corp <Ibm> | 分散コンピューティングシステム |
US20100228861A1 (en) * | 2009-03-04 | 2010-09-09 | International Business Machines Corporation | Environmental and computing cost reduction with improved reliability in workload assignment to distributed computing nodes |
CN104808770A (zh) * | 2015-04-23 | 2015-07-29 | 南京大学 | 基于动态调频的数据中心能耗管理方法及系统 |
CN113599803A (zh) * | 2021-07-28 | 2021-11-05 | 腾讯科技(深圳)有限公司 | 一种基于边缘计算的数据处理方法、设备及可读存储介质 |
WO2024007171A1 (zh) * | 2022-07-05 | 2024-01-11 | 北京小米移动软件有限公司 | 一种算力负载均衡方法及装置 |
CN117435329A (zh) * | 2022-07-14 | 2024-01-23 | 华为技术有限公司 | 调节计算平台的方法、装置和智能设备 |
CN115292046A (zh) * | 2022-08-10 | 2022-11-04 | 中国电信股份有限公司 | 算力分配方法、装置、存储介质及电子设备 |
WO2024041578A1 (zh) * | 2022-08-25 | 2024-02-29 | 杭州阿里巴巴飞天信息技术有限公司 | 数据中心的能效及碳排放计算方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117971509B (zh) | 2024-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021197364A1 (zh) | 一种用于服务的扩缩容的方法及相关设备 | |
CN109324875B (zh) | 一种基于强化学习的数据中心服务器功耗管理与优化方法 | |
CN112261120B (zh) | 一种配电物联网云边协同任务卸载方法及装置 | |
CN114500578B (zh) | 分布式存储系统负载均衡调度方法、装置及存储介质 | |
CN115915708B (zh) | 制冷设备控制参数预测方法、装置、电子设备及存储介质 | |
CN109947558A (zh) | 主机资源利用率计算方法和资源调度方法 | |
CN116069152A (zh) | 针对ai计算集群的运行频率控制方法、系统及相关设备 | |
CN117785465A (zh) | 一种资源调度方法、装置、设备及存储介质 | |
Dogani et al. | K-agrued: A container autoscaling technique for cloud-based web applications in kubernetes using attention-based gru encoder-decoder | |
CN117632431A (zh) | 云计算任务的调度方法、装置、设备及存储介质 | |
CN117971509B (zh) | 异构算力集群的运行性能优化方法、装置、设备及介质 | |
Zhu et al. | A multi-resource scheduling scheme of Kubernetes for IIoT | |
CN116937645A (zh) | 充电站集群调控潜力评估方法、装置、设备及介质 | |
CN115859808B (zh) | 一种泵组工作预测方法、装置、电子设备及存储介质 | |
CN116703109A (zh) | 一种配电网项目选取方法、装置、设备及存储介质 | |
CN116523249A (zh) | 一种生产线确定方法、装置、设备和存储介质 | |
CN115269145A (zh) | 一种面向海上无人设备的高能效异构多核调度方法及装置 | |
CN112737422B (zh) | 一种基于云计算的电机设备调速控制方法 | |
CN115269176A (zh) | 任务分配方法、装置、计算机设备、存储介质和产品 | |
CN114997400A (zh) | 一种神经网络加速推理方法 | |
CN115373449B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN117117978A (zh) | 一种虚拟电厂系统的调度方法、装置及虚拟电厂系统 | |
CN118607656A (zh) | 一种回归计算模型的参数确定方法、装置、设备及介质 | |
CN118014024A (zh) | 神经网络模型的评估方法、装置、电子设备以及存储介质 | |
CN117010712A (zh) | 虚拟电厂的响应策略确定方法、装置及虚拟电厂系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |