CN117311989B - 一种gpu集群动态功率管理系统及方法 - Google Patents

一种gpu集群动态功率管理系统及方法 Download PDF

Info

Publication number
CN117311989B
CN117311989B CN202311595821.XA CN202311595821A CN117311989B CN 117311989 B CN117311989 B CN 117311989B CN 202311595821 A CN202311595821 A CN 202311595821A CN 117311989 B CN117311989 B CN 117311989B
Authority
CN
China
Prior art keywords
gpu
subtask
task
cluster
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311595821.XA
Other languages
English (en)
Other versions
CN117311989A (zh
Inventor
王晓丹
王曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Bingji Technology Co ltd
Original Assignee
Sichuan Bingji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Bingji Technology Co ltd filed Critical Sichuan Bingji Technology Co ltd
Priority to CN202311595821.XA priority Critical patent/CN117311989B/zh
Publication of CN117311989A publication Critical patent/CN117311989A/zh
Application granted granted Critical
Publication of CN117311989B publication Critical patent/CN117311989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Supply And Distribution Of Alternating Current (AREA)
  • Control Of Temperature (AREA)

Abstract

本发明涉及设备管理领域,公开了一种GPU集群动态功率管理系统及方法,包括如下步骤:任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,并生成对应GPU子任务集群的GPU任务容器,获取GPU子任务集群的基础数据,并存储到对应GPU子任务集群的GPU任务容器;温度策略控制模块根据连接的GPU任务容器,建立GPU子任务集群温度策略动态调节列表;任务管理模块接收待处理任务,得到GPU子任务集群的数据处理特征,温度策略控制模块根据数据处理特征,生成温度控制策略,并将温度控制策略发送到散热管理模块;完成GPU集群动态功率管理。通过本发明,可以实现动态调节散热功率,确保GPU集群的稳定运行。

Description

一种GPU集群动态功率管理系统及方法
技术领域
本发明涉及设备管理领域,具体是一种GPU集群动态功率管理系统及方法。
背景技术
在现有的计算机技术中,GPU(图形处理器)集群被广泛应用于各种高性能计算和人工智能应用中。随着这些应用的复杂性和计算需求的增加,对GPU集群的效率和性能的要求也在不断提高。为了满足这种需求,许多技术都在试图优化GPU集群的功率管理。
现有的GPU集群功率管理系统主要可以分为两大类。一类是静态功率管理系统,这种系统预先根据应用的特性分配每个GPU的功率预算。这种方法的优点是简单易行,但在面对动态变化的应用负载时,无法做到实时调整,从而可能导致能源的浪费或者性能的不足。
另一类是动态功率管理系统,这种系统能够根据实时应用负载动态调整每个GPU的功率。例如,有些系统通过监测GPU集群的负载情况,根据负载对GPU的频率和电压进行动态调整。这些方法的优点是在面对动态应用负载时能够更有效地利用能源,但需要实时监测集群的负载情况,并且对控制算法的精度和响应速度有很高的要求。
此外,无论是静态还是动态功率管理系统,它们大多只考虑了GPU的计算功率本身,而忽视了其他资源的影响。例如,散热对GPU的影响。
因此,如何通过基于GPU计算任务的情况,来对散热功率进行调节,是当下行业研究人员需要研究的课题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种GPU集群动态功率管理方法,包括如下步骤:
步骤一,任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,并生成对应GPU子任务集群的GPU任务容器,获取GPU子任务集群的基础数据,并存储到对应GPU子任务集群的GPU任务容器;
步骤二,通过GPU单元检测装置对各个GPU子任务集群进行测试,得到各个GPU子任务集群的性能测试数据;若得到的性能测试数据与基础数据中的标准性能数据一致,则测试通过,进入步骤三;
步骤三,将测试通过的GPU子任务集群对应的GPU任务容器与温度策略控制模块连接,温度策略控制模块根据连接的GPU任务容器,建立GPU子任务集群温度策略动态调节列表;
步骤四,任务管理模块接收待处理任务,并根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器,并将待处理任务发送到对应的GPU任务容器,GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征,得到GPU子任务集群的数据处理特征,温度策略控制模块根据数据处理特征,生成温度控制策略,并将温度控制策略发送到散热管理模块;
步骤五,散热管理模块根据温度控制策略对GPU子任务集群进行温度控制,并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动,若GPU子任务集群温度波动在设定的波动阈值范围内,则进入步骤七,否者进入步骤六;
步骤六,根据GPU子任务集群温度波动与波动阈值的差值反馈调节温度控制策略,使GPU子任务集群温度波动在设定的波动阈值范围内,返回步骤五;
步骤七,直到GPU子任务集群完成待处理任务的处理,完成GPU集群动态功率管理。
进一步的,所述的任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,包括:根据设定的任务处理周期,得到同类任务的处理频率,根据处理频率不小于设定的频率阈值的任务的GPU算力需求信息,分别建立GPU子任务集群,得到多个GPU子任务集群。
进一步的,所述的获取GPU子任务集群的基础数据,包括:获取GPU子任务集群的标准性能数据以及标准功率数据。
进一步的,所述的通过GPU单元检测装置对各个GPU子任务集群进行测试,得到各个GPU子任务集群的性能测试数据;若得到的性能测试数据与基础数据中的标准性能数据一致,包括:
通过测试任务数据分别对各个GPU子任务集群进行测试,得到各个GPU子任务集群在各标准功率数据下的算力输出数据,若算力输出数据与标准性能数据中的算力差值在设定算力差值范围内,则性能测试数据与基础数据中的标准性能数据一致,否则,则不一致。
进一步的,所述的根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器,包括:根据待处理任务需求的算力数据,在GPU子任务集群温度策略动态调节列表匹配到不小于待处理任务需求的算力数据且为空闲状态的GPU任务容器。
进一步的,所述的GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征,得到GPU子任务集群的数据处理特征,包括:
所述的待处理任务的任务特征包括需求算力的大小以及运行时长,根据需求算力与GPU子任务集群的算力比例和运行时长,在云端数据服务器匹配到对应的温度上升率和温度波动阈值。
进一步的,所述的温度策略控制模块根据数据处理特征,生成温度控制策略,包括:根据温度上升率动态调节散热模块的散热功率,使GPU子任务集群的温度上升率在匹配的温度上升率范围内。
进一步的,所述的散热管理模块根据温度控制策略对GPU子任务集群进行温度控制,并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动,包括:所述的温度波动为在设定采集时长内,温度最高值与最低值的差值。
一种 GPU 集群动态功率管理系统,应用所述的一种 GPU 集群动态功率管理方法,包括GPU单元检测装置、任务管理模块、云端数据服务器、散热管理模块、故障检测装置、温度策略控制模块、通信装置和数据处理模块;
所述的GPU单元检测装置、任务管理模块、散热管理模块、故障检测装置、温度策略控制模块、通信装置分别与所述的数据处理模块连接,所述的云端数据服务器与所述的通信装置通信连接。
本发明的有益效果是: 通过本发明所提供的技术方案,可以实现基于GPU集群的负载的情况,来动态调节散热功率,确保GPU集群的稳定运行。
附图说明
图1为一种GPU集群动态功率管理方法的流程示意图;
图2为一种GPU集群动态功率管理系统的原理示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
为了使本发明的目的,技术方案及优点更加清楚明白,结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,一种GPU集群动态功率管理方法,包括如下步骤:
步骤一,任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,并生成对应GPU子任务集群的GPU任务容器,获取GPU子任务集群的基础数据,并存储到对应GPU子任务集群的GPU任务容器;
步骤二,通过GPU单元检测装置对各个GPU子任务集群进行测试,得到各个GPU子任务集群的性能测试数据;若得到的性能测试数据与基础数据中的标准性能数据一致,则测试通过,进入步骤三;
步骤三,将测试通过的GPU子任务集群对应的GPU任务容器与温度策略控制模块连接,温度策略控制模块根据连接的GPU任务容器,建立GPU子任务集群温度策略动态调节列表;
步骤四,任务管理模块接收待处理任务,并根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器,并将待处理任务发送到对应的GPU任务容器,GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征,得到GPU子任务集群的数据处理特征,温度策略控制模块根据数据处理特征,生成温度控制策略,并将温度控制策略发送到散热管理模块;
步骤五,散热管理模块根据温度控制策略对GPU子任务集群进行温度控制,并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动,若GPU子任务集群温度波动在设定的波动阈值范围内,则进入步骤七,否者进入步骤六;
步骤六,根据GPU子任务集群温度波动与波动阈值的差值反馈调节温度控制策略,使GPU子任务集群温度波动在设定的波动阈值范围内,返回步骤五;
步骤七,直到GPU子任务集群完成待处理任务的处理,完成GPU集群动态功率管理。
所述的任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,包括:根据设定的任务处理周期,得到同类任务的处理频率,根据处理频率不小于设定的频率阈值的任务的GPU算力需求信息,分别建立GPU子任务集群,得到多个GPU子任务集群。
所述的获取GPU子任务集群的基础数据,包括:获取GPU子任务集群的标准性能数据以及标准功率数据。
所述的通过GPU单元检测装置对各个GPU子任务集群进行测试,得到各个GPU子任务集群的性能测试数据;若得到的性能测试数据与基础数据中的标准性能数据一致,包括:
通过测试任务数据分别对各个GPU子任务集群进行测试,得到各个GPU子任务集群在各标准功率数据下的算力输出数据,若算力输出数据与标准性能数据中的算力差值在设定算力差值范围内,则性能测试数据与基础数据中的标准性能数据一致,否则,则不一致。
所述的根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器,包括:根据待处理任务需求的算力数据,在GPU子任务集群温度策略动态调节列表匹配到不小于待处理任务需求的算力数据且为空闲状态的GPU任务容器。
所述的GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征,得到GPU子任务集群的数据处理特征,包括:
所述的待处理任务的任务特征包括需求算力的大小以及运行时长,根据需求算力与GPU子任务集群的算力比例和运行时长,在云端数据服务器匹配到对应的温度上升率和温度波动阈值。
所述的温度策略控制模块根据数据处理特征,生成温度控制策略,包括:根据温度上升率动态调节散热模块的散热功率,使GPU子任务集群的温度上升率在匹配的温度上升率范围内。
所述的散热管理模块根据温度控制策略对GPU子任务集群进行温度控制,并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动,包括:所述的温度波动为在设定采集时长内,温度最高值与最低值的差值。
如图2所示,一种GPU集群动态功率管理系统,应用所述的一种GPU集群动态功率管理方法,包括GPU单元检测装置、任务管理模块、云端数据服务器、散热管理模块、故障检测装置、温度策略控制模块、通信装置和数据处理模块;
所述的GPU单元检测装置、任务管理模块、散热管理模块、故障检测装置、温度策略控制模块、通信装置分别与所述的数据处理模块连接,所述的云端数据服务器与所述的通信装置通信连接。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种GPU集群动态功率管理方法,其特征在于,包括如下步骤:
步骤一,任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,并生成对应GPU子任务集群的GPU任务容器,获取GPU子任务集群的基础数据,并存储到对应GPU子任务集群的GPU任务容器;
步骤二,通过GPU单元检测装置对各个GPU子任务集群进行测试,得到各个GPU子任务集群的性能测试数据;若得到的性能测试数据与基础数据中的标准性能数据一致,则测试通过,进入步骤三;
步骤三,将测试通过的GPU子任务集群对应的GPU任务容器与温度策略控制模块连接,温度策略控制模块根据连接的GPU任务容器,建立GPU子任务集群温度策略动态调节列表;
步骤四,任务管理模块接收待处理任务,并根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器,并将待处理任务发送到对应的GPU任务容器,GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征,得到GPU子任务集群的数据处理特征,温度策略控制模块根据数据处理特征,生成温度控制策略,并将温度控制策略发送到散热管理模块;
步骤五,散热管理模块根据温度控制策略对GPU子任务集群进行温度控制,并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动,若GPU子任务集群温度波动在设定的波动阈值范围内,则进入步骤七,否者进入步骤六;
步骤六,根据GPU子任务集群温度波动与波动阈值的差值反馈调节温度控制策略,使GPU子任务集群温度波动在设定的波动阈值范围内,返回步骤五;
步骤七,直到GPU子任务集群完成待处理任务的处理,完成GPU集群动态功率管理;
所述的根据待处理任务的任务信息在GPU子任务集群温度策略动态调节列表匹配到对应的GPU任务容器,包括:根据待处理任务需求的算力数据,在GPU子任务集群温度策略动态调节列表匹配到不小于待处理任务需求的算力数据且为空闲状态的GPU任务容器;
所述的GPU任务容器根据GPU子任务集群的基础数据以及待处理任务的任务特征,得到GPU子任务集群的数据处理特征,包括:
所述的待处理任务的任务特征包括需求算力的大小以及运行时长,根据需求算力与GPU子任务集群的算力比例和运行时长,在云端数据服务器匹配到对应的温度上升率和温度波动阈值;
所述的温度策略控制模块根据数据处理特征,生成温度控制策略,包括:根据温度上升率动态调节散热模块的散热功率,使GPU子任务集群的温度上升率在匹配的温度上升率范围内。
2.根据权利要求1所述的一种GPU集群动态功率管理方法,其特征在于,所述的任务管理模块基于历史任务数据对GPU集群进行分组,分成多个GPU子任务集群,包括:根据设定的任务处理周期,得到同类任务的处理频率,根据处理频率不小于设定的频率阈值的任务的GPU算力需求信息,分别建立GPU子任务集群,得到多个GPU子任务集群。
3.根据权利要求2所述的一种GPU集群动态功率管理方法,其特征在于,所述的获取GPU子任务集群的基础数据,包括:获取GPU子任务集群的标准性能数据以及标准功率数据。
4.根据权利要求3所述的一种GPU集群动态功率管理方法,其特征在于,所述的通过GPU单元检测装置对各个GPU子任务集群进行测试,得到各个GPU子任务集群的性能测试数据;若得到的性能测试数据与基础数据中的标准性能数据一致,包括:
通过测试任务数据分别对各个GPU子任务集群进行测试,得到各个GPU子任务集群在各标准功率数据下的算力输出数据,若算力输出数据与标准性能数据中的算力差值在设定算力差值范围内,则性能测试数据与基础数据中的标准性能数据一致,否则,则不一致。
5.根据权利要求1所述的一种GPU集群动态功率管理方法,其特征在于,所述的散热管理模块根据温度控制策略对GPU子任务集群进行温度控制,并采集GPU子任务集群执行待处理任务过程中的GPU子任务集群温度波动,包括:所述的温度波动为在设定采集时长内,温度最高值与最低值的差值。
6.一种GPU集群动态功率管理系统,其特征在于,应用权利要求1-5任一所述的一种GPU 集群动态功率管理方法,包括GPU单元检测装置、任务管理模块、云端数据服务器、散热管理模块、故障检测装置、温度策略控制模块、通信装置和数据处理模块;
所述的GPU单元检测装置、任务管理模块、散热管理模块、故障检测装置、温度策略控制模块、通信装置分别与所述的数据处理模块连接,所述的云端数据服务器与所述的通信装置通信连接。
CN202311595821.XA 2023-11-28 2023-11-28 一种gpu集群动态功率管理系统及方法 Active CN117311989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311595821.XA CN117311989B (zh) 2023-11-28 2023-11-28 一种gpu集群动态功率管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311595821.XA CN117311989B (zh) 2023-11-28 2023-11-28 一种gpu集群动态功率管理系统及方法

Publications (2)

Publication Number Publication Date
CN117311989A CN117311989A (zh) 2023-12-29
CN117311989B true CN117311989B (zh) 2024-02-02

Family

ID=89250197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311595821.XA Active CN117311989B (zh) 2023-11-28 2023-11-28 一种gpu集群动态功率管理系统及方法

Country Status (1)

Country Link
CN (1) CN117311989B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8397088B1 (en) * 2009-07-21 2013-03-12 The Research Foundation Of State University Of New York Apparatus and method for efficient estimation of the energy dissipation of processor based systems
CN111190471A (zh) * 2020-01-02 2020-05-22 联想(北京)有限公司 控制方法、控制装置及电子设备
CN112114599A (zh) * 2020-09-25 2020-12-22 中车株洲电力机车研究所有限公司 一种功率器件的温度控制方法及其装置
CN113867941A (zh) * 2021-09-09 2021-12-31 苏州浪潮智能科技有限公司 一种应用于服务器集群的任务管理系统
WO2022028061A1 (zh) * 2020-08-03 2022-02-10 苏州浪潮智能科技有限公司 一种基于侦测调节模块的gpu管理装置、方法及gpu服务器
WO2022246759A1 (zh) * 2021-05-27 2022-12-01 华为技术有限公司 一种功耗调节方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10747286B2 (en) * 2018-06-11 2020-08-18 Intel Corporation Dynamic power budget allocation in multi-processor system
US20230230194A1 (en) * 2022-01-19 2023-07-20 Dell Products, Lp System and method for balancing containerized application offloading and burst transmission for thermal control

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8397088B1 (en) * 2009-07-21 2013-03-12 The Research Foundation Of State University Of New York Apparatus and method for efficient estimation of the energy dissipation of processor based systems
CN111190471A (zh) * 2020-01-02 2020-05-22 联想(北京)有限公司 控制方法、控制装置及电子设备
WO2022028061A1 (zh) * 2020-08-03 2022-02-10 苏州浪潮智能科技有限公司 一种基于侦测调节模块的gpu管理装置、方法及gpu服务器
CN112114599A (zh) * 2020-09-25 2020-12-22 中车株洲电力机车研究所有限公司 一种功率器件的温度控制方法及其装置
WO2022246759A1 (zh) * 2021-05-27 2022-12-01 华为技术有限公司 一种功耗调节方法及装置
CN113867941A (zh) * 2021-09-09 2021-12-31 苏州浪潮智能科技有限公司 一种应用于服务器集群的任务管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Task Scheduling Scheme for Preventing Temperature Hotspot on GPU Heterogeneous Cluster;Yunpeng Cao 等;《2017 International Conference on Green Informatics (ICGI)》;117-121 *
考虑电压/温度变化的电热综合分析及其并行加速技术;赵国兴 等;《计算机学报》;第36卷(第4期);747-756 *

Also Published As

Publication number Publication date
CN117311989A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN104298550A (zh) 一种面向Hadoop的动态调度方法
US20190245756A1 (en) Performance adjustment method, apparatus for peformance adjustment, and non-transitory computer-readable storage medium for storing program
CN110532152A (zh) 一种基于Kapacitor计算引擎的监控告警处理方法及系统
CN106656669B (zh) 一种基于阈值自适应设置的设备参数异常检测系统及方法
Mellit et al. A low-cost monitoring and fault detection system for stand-alone photovoltaic systems using IoT technique
CN116263701A (zh) 算力网络任务调度方法、装置、计算机设备及存储介质
CN115080373A (zh) 配电终端操作系统的性能检测方法、装置、设备及介质
CN117311989B (zh) 一种gpu集群动态功率管理系统及方法
CN114003345A (zh) 一种基于云原生的Kubernetes平台健康度确定方法和装置
CN110569170A (zh) 服务器利用率的评价方法、装置、设备及其存储介质
Zhu et al. A multi-resource scheduling scheme of Kubernetes for IIoT
Raj et al. Augmenting hierarchical load balancing with intelligence in grid environment
CN107239341B (zh) 一种资源折算方法、系统及虚拟机资源调度系统
CN112214303A (zh) Kubernetes集群自动缩放系统
CN115373836A (zh) 计算网络、算力度量方法、调度装置及相关产品
CN117472551B (zh) 基于gpu集成的云计算硬件加速控制系统及方法
CN111539863B (zh) 一种基于多源任务线的智能城市运行的方法和系统
CN112488416A (zh) 一种电网运行态势监测方法及系统
Ardebili et al. Rule-Based Thermal Anomaly Detection for Tier-0 HPC Systems
CN116610513B (zh) 一种自动化进行昇腾环境搭建并验证的方法及系统
Viody et al. Container Migration for Distributed Deep Learning Training Scheduling in Kubernetes
Huang et al. Study of performance measures and energy consumption for cloud computing centers based on queueing theory
Huo et al. Selection of the order of autoregressive models for host load prediction in grid
WO2022052523A1 (zh) 晶圆检测任务的处理方法、装置、系统及存储介质
CN118034855A (zh) 一种算力资源的管理调度方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant