CN111562837B - 一种多cpu/gpu异构服务器的功耗控制方法 - Google Patents

一种多cpu/gpu异构服务器的功耗控制方法 Download PDF

Info

Publication number
CN111562837B
CN111562837B CN202010368714.3A CN202010368714A CN111562837B CN 111562837 B CN111562837 B CN 111562837B CN 202010368714 A CN202010368714 A CN 202010368714A CN 111562837 B CN111562837 B CN 111562837B
Authority
CN
China
Prior art keywords
power consumption
job
server
strategy
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010368714.3A
Other languages
English (en)
Other versions
CN111562837A (zh
Inventor
敬超
胡君达
董明刚
邱斌
陈文鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Technology
Original Assignee
Guilin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Technology filed Critical Guilin University of Technology
Priority to CN202010368714.3A priority Critical patent/CN111562837B/zh
Publication of CN111562837A publication Critical patent/CN111562837A/zh
Application granted granted Critical
Publication of CN111562837B publication Critical patent/CN111562837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3243Power saving in microcontroller unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/329Power saving characterised by the action undertaken by task scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4893Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues taking into account power or heat criteria
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Power Sources (AREA)

Abstract

一种多CPU/GPU异构服务器的功耗控制方法。首先用户将作业提交到服务器功耗控制框架,其中的作业调度器接收到作业后初始化,获取作业信息;接着,作业调度器将作业信息发送到功耗控制器,对信息进行绑定后,功耗控制器内部的最佳选择方法按照作业信息选取一种策略给每个处理组件分配功率预算。然后每个处理组件向功耗控制器返回功耗情况,按照返回的功耗情况,功耗控制器中的最佳选择方法自我更新,完成后方法重置。本发明以服务器吞吐量最大化为目标,提出了一种采用强化学习的功耗控制方法,其时间复杂度是多项式时间,可以适用于处理在线的、大规模作业;采用强化学习的方法自动选取策略,能够自我学习、自我更新,可以适用于各种不同场景。

Description

一种多CPU/GPU异构服务器的功耗控制方法
技术领域
本发明涉及一种多CPU/GPU异构服务器的功耗控制方法,即在满足服务器总功耗和作业优先级以及作业时限的前提下,采用合理的功耗预算分配方法,从而保证作业的顺利完成并且最大化服务器吞吐量。
背景技术
云计算提供商和高性能计算(HPC)集群通常依赖于由多个CPU和GPU组成的服务器节点来处理高性能密集型计算。多CPU/GPU服务器提供了高并行性,减少了网络上的通信需求。从本质上讲,这些服务器要比普通服务器消耗更多的能量。由于有多个CPU、GPU和大量内存,单个服务器的峰值功耗可以根据其具体配置轻松达到500-1000瓦。考虑到服务器的功耗因负载而异,超级计算机和云提供商通常使用功率上限机制将功耗限制在符合电气规范(如断路器额定值)和冷却设备的安全级别。一个集中式或层级化的功率上限系统会持续工作,一旦感知到不安全的功率级别,它就会指示各个服务器节点将其功耗限制在某个级别。每个节点上的功率上限控制器通过减小CPU的功耗来控制功率上限。
多CPU、GPU服务器在功率上限控制上有三个的突出问题。第一,这些服务器有多个CPU和GPU,每个都有自己的功率控制器,因此,满足给定的功率上限必须涉及同一服务器上的各个处理组件控制器之间的协调。第二,CPU和GPU之间的工作负载特性经常发生变化,这就要求控制器在CPU和GPU之间进行功率预算的转移,同时仍然不超过功率上限。第三,多CPU/GPU异构服务器常常同时处理许多作业以充分利用服务器资源,这些作业有各种不同的优先级和截止时间的要求,必须在功率控制时加以考虑,以减轻功率控制对性能的影响。
发明内容
本发明主要针对多CPU/GPU异构服务器控制功率上限的三个突出问题:同一服务器上的各个处理组件控制器之间的协调、CPU和GPU之间进行功率预算的转移、作业有各种不同的优先级和截止时间的要求,提出了一种多CPU/GPU异构服务器的功耗控制方法。
本发明中功耗控制器在多CPU/GPU异构服务器的各类处理组件控制器功耗之间动态地调节预算,在满足服务器功耗上限的同时最大化性能。本发明中提出了适用于不同工作负载特征场景的4种重启发式策略,分别为(1)统一分配策略:将总预算平均分配给各个处理组件;(2)功耗优先策略:将某些处理组件中预算多余的功耗分配至功耗预算不足的处理组件上;(3)截止时间优先策略:把更多的功率预算分配给正在运行且临近作业截止日期的处理组件;(4)截止时间-功耗优先策略:同时考虑功耗和截止时间的优先性。这些策略在不同的处理组件(如CPU和GPU)之间协调和转移功率预算,同时试图最大化节点的性能。由于每个策略针对不同的工作负载特性,本发明提出了最佳选择方法,该方法使用强化学习的参与者批评者方法在线选择策略。根据所观察到的系统状态,最佳选择方法能够进行学习,并将根据工作负载特征的自动进行策略选择。最佳选择方法能通过系统的性能反馈不断地更新自己。
功耗控制方法主要是采用强化学习的方法,动态地选取功率分配策略来为每个处理组件分配功率预算,根据本次预算分配后各个处理组件产生的功耗情况,最佳选择方法进行学习,并更新自己。具体功耗控制方法步骤如下:
(1)用户将作业提交到服务器功耗控制框架;
(2)服务器功耗上限控制框架中的作业调度器接收用户提交的作业;
(3)初始化处理到达作业调度器的作业,获取作业信息:截止时间,优先级等;
(4)作业调度器将作业信息发送到功耗控制器;
(5)对信息进行绑定后,功耗控制器内部的最佳选择方法按照接收到的作业信息选取一种策略给每个处理组件分配功率预算;
(6)每个处理组件向功耗控制器返回功耗情况;
(7)按照各个处理器返回的功耗情况,功耗控制器中的最佳选择方法自我更新;
(8)完毕后进入下一时刻,同时进入步骤(1);
本发明的优点在于:
(1)本发明以服务器吞吐量最大化为目标,提出了一种采用强化学习的功耗控制方法,其时间复杂度是多项式时间的,说明该方法可以适用于处理在线的、大规模作业。
(2)本发明采用强化学习的方法自动选取策略,能够自我学习、自我更新,可以适用于各种不同场景。
本发明主要解决了当多任务在多CPU/GPU异构服务器上运行时的功耗控制问题。对于动态到达的用户作业请求,满足作业截止时间和优先级的前提下,通过强化学习的方法选择最优的策略以最大化服务器吞吐量。最后通过仿真实验的实验结果证明了本发明的优越性。
附图说明
图1是服务器功耗控制框架示意图。
图2是最佳选择方法示意图。
图3是CPU/GPU异构服务器功耗控制方法图
具体实施方式
本发明是一种多CPU/GPU异构服务器功耗控制方法。在本发明中核心设计是一种采用强化学习的多CPU/GPU异构服务器功耗上限控制方法,这种方法复杂度低,运行速度快,并且能够自我学习,可以适应各种场景。
下面结合附图2对本发明设计多CPU/GPU异构服务器功耗控制方法进行详细说明。
如附图2,本发明所述包括以下步骤:
(1)用户将作业提交到服务器功耗控制框架;
(2)服务器功耗上限控制框架中的作业调度器接收用户提交的作业;
(3)初始化处理到达作业调度器的作业,获取作业信息:截止时间,优先级等;
(4)作业调度器将作业信息发送到功耗控制器;
(5)对信息进行绑定后,功耗控制器内部的最佳选择方法按照接收到的作业信息选取一种策略给每个处理组件分配功率预算;
(6)每个处理组件向功耗控制器返回功耗情况;
(7)按照各个处理器返回的功耗情况,功耗控制器中的最佳选择方法自我更新;
(8)完毕后进入下一时刻,同时进入步骤(1)。

Claims (1)

1.一种多CPU/GPU异构服务器的功耗控制方法,其核心部分在于:基于强化学习的多CPU/GPU异构服务器功耗上限控制方法,具体步骤如下:
(1)用户将作业提交到服务器功耗控制框架;
(2)服务器功耗上限控制框架中的作业调度器接收用户提交的作业;
(3)初始化处理到达作业调度器的作业,获取作业信息:截止时间,优先级;
(4)作业调度器将作业信息发送到功耗控制器;
(5)对信息进行绑定后,根据所观察到的系统状态,结合工作负载特征,采用强化学习的参与者批评者方法使得功耗控制器在线选择最佳策略,其中可选择的策略包括四种启发式策略:功率预算均分策略、基于负载量的功率预算分配策略、基于作业时限的功率预算分配策略、基于作业优先级和时限的功率预算分配策略,从中选取一种最佳策略给每个处理器域分配功率预算以达到最大化吞吐量的目的;
(6)每个处理器域向功耗控制器返回功耗情况;
(7)按照各个处理器返回的功耗情况,功耗控制器中的最佳选择方法自我更新;
(8)完毕后进入下一时刻,同时进入步骤(1)。
CN202010368714.3A 2020-05-02 2020-05-02 一种多cpu/gpu异构服务器的功耗控制方法 Active CN111562837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010368714.3A CN111562837B (zh) 2020-05-02 2020-05-02 一种多cpu/gpu异构服务器的功耗控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010368714.3A CN111562837B (zh) 2020-05-02 2020-05-02 一种多cpu/gpu异构服务器的功耗控制方法

Publications (2)

Publication Number Publication Date
CN111562837A CN111562837A (zh) 2020-08-21
CN111562837B true CN111562837B (zh) 2023-05-05

Family

ID=72070739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010368714.3A Active CN111562837B (zh) 2020-05-02 2020-05-02 一种多cpu/gpu异构服务器的功耗控制方法

Country Status (1)

Country Link
CN (1) CN111562837B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214295B (zh) * 2020-09-23 2024-02-06 桂林理工大学 一种多cpu/gpu异构服务器集群的低能耗作业调度方法
CN114924640A (zh) * 2022-05-13 2022-08-19 海光信息技术股份有限公司 异构处理器及其功耗管理方法、功耗管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577730A (zh) * 2013-11-15 2014-02-12 桂林理工大学 整数小波变换的可逆数据库水印的嵌入和提取方法
CN109324875A (zh) * 2018-09-27 2019-02-12 杭州电子科技大学 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN109783412A (zh) * 2019-01-18 2019-05-21 电子科技大学 一种深度强化学习加速训练的方法
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法
CN111027709A (zh) * 2019-11-29 2020-04-17 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
US11269386B2 (en) * 2018-03-30 2022-03-08 Huawei Technologies Co., Ltd. Chassis of server and server

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10154265B2 (en) * 2013-06-21 2018-12-11 Nvidia Corporation Graphics server and method for streaming rendered content via a remote graphics processing service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577730A (zh) * 2013-11-15 2014-02-12 桂林理工大学 整数小波变换的可逆数据库水印的嵌入和提取方法
US11269386B2 (en) * 2018-03-30 2022-03-08 Huawei Technologies Co., Ltd. Chassis of server and server
CN109324875A (zh) * 2018-09-27 2019-02-12 杭州电子科技大学 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN109783412A (zh) * 2019-01-18 2019-05-21 电子科技大学 一种深度强化学习加速训练的方法
CN111027709A (zh) * 2019-11-29 2020-04-17 腾讯科技(深圳)有限公司 信息推荐方法、装置、服务器及存储介质
CN110971706A (zh) * 2019-12-17 2020-04-07 大连理工大学 Mec中近似最优化与基于强化学习的任务卸载方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Reza Azimi.PowerCoord: Power Capping Coordination for Multi-CPU/GPU Servers using Reinforcement Learning.《PowerCoord: Power Capping Coordination for Multi-CPU/GPU Servers using Reinforcement Learning》.2020,全文. *
陈文鹏.智能电网中基于深度学习的用户短期负荷预测研究.《智能电网中基于深度学习的用户短期负荷预测研究》.2018,(第undefined期),第84-86页. *

Also Published As

Publication number Publication date
CN111562837A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
Zhang et al. Dynamic cloud task scheduling based on a two-stage strategy
CN111562837B (zh) 一种多cpu/gpu异构服务器的功耗控制方法
CN110308967B (zh) 一种基于混合云的工作流成本-延迟最优化任务分配方法
Changtian et al. Energy-aware genetic algorithms for task scheduling in cloud computing
CN113064712B (zh) 基于云边环境的微服务优化部署控制方法、系统及集群
CN111782355B (zh) 一种基于混合负载的云计算任务调度方法及系统
CN104657221A (zh) 一种云计算中基于任务分类的多队列错峰调度模型及方法
Li et al. An energy-efficient scheduling approach based on private clouds
CN106357823B (zh) 一种节能控制的云资源优化分配方法
CN102508714A (zh) 一种云计算中基于绿色计算的虚拟机调度方法
Kessaci et al. A pareto-based GA for scheduling HPC applications on distributed cloud infrastructures
Liu et al. A survey on virtual machine scheduling in cloud computing
Li et al. EXR: Greening data center network with software defined exclusive routing
CN114710563A (zh) 一种集群节能方法及装置
CN103944997A (zh) 结合随机抽样和虚拟化技术的负载均衡方法
Kao et al. Data-locality-aware mapreduce real-time scheduling framework
Shahapure et al. Load balancing with optimal cost scheduling algorithm
Fang et al. Job scheduling to minimize total completion time on multiple edge servers
Terzopoulos et al. Bag-of-task scheduling on power-aware clusters using a dvfs-based mechanism
Rajabi et al. Communication-aware and energy-efficient resource provisioning for real-time cloud services
Bestavros Load profiling: A methodology for scheduling real-time tasks in a distributed system
Atiewi et al. A power saver scheduling algorithm using DVFS and DNS techniques in cloud computing data centres
Alsbatin et al. An overview of energy-efficient cloud data centres
Sultanpure et al. An energy aware resource utilization framework to control traffic in cloud network and overloads
Ren et al. Balancing performance, resource efficiency and energy efficiency for virtual machine deployment in DVFS-enabled clouds: An evolutionary game theoretic approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200821

Assignee: Guangxi Taiyao Technology Co.,Ltd.

Assignor: GUILIN University OF TECHNOLOGY

Contract record no.: X2023980044022

Denomination of invention: A Power Control Method for Multi CPU/GPU Heterogeneous Servers

Granted publication date: 20230505

License type: Common License

Record date: 20231023

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200821

Assignee: GUILIN JINYIXING TECHNOLOGY DEVELOPMENT Co.,Ltd.

Assignor: GUILIN University OF TECHNOLOGY

Contract record no.: X2023980044509

Denomination of invention: A Power Control Method for Multi CPU/GPU Heterogeneous Servers

Granted publication date: 20230505

License type: Common License

Record date: 20231030