CN109960632A - 一种实现gpu服务器电源冗余的方法及系统 - Google Patents

一种实现gpu服务器电源冗余的方法及系统 Download PDF

Info

Publication number
CN109960632A
CN109960632A CN201910212595.XA CN201910212595A CN109960632A CN 109960632 A CN109960632 A CN 109960632A CN 201910212595 A CN201910212595 A CN 201910212595A CN 109960632 A CN109960632 A CN 109960632A
Authority
CN
China
Prior art keywords
power consumption
gpu
power supply
bmc
gpu server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910212595.XA
Other languages
English (en)
Inventor
吕东波
张锋
宋晓锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910212595.XA priority Critical patent/CN109960632A/zh
Publication of CN109960632A publication Critical patent/CN109960632A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Power Sources (AREA)

Abstract

本发明提出了一种实现GPU服务器电源冗余的方法,该方法首先设定GPU服务器整机电源输出功耗的阈值,BMC实时监控和记录GPU服务器的整机输入功耗,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制,本发明实时动态监控GPU服务器的整机输入功耗,通过限制整机输入功耗,在整机系统功耗不高的情况下,当个GPU的性能可以完全发挥出来,特别是虚机中指定一个GPU处理任务时,指定的GPU的性能不再受限制。本发明既能实现服务器整机系统的电源冗余,又能保证整机系统低功耗时单个GPU的性能.提高产品竞争力。

Description

一种实现GPU服务器电源冗余的方法及系统
技术领域
本发明涉及GPU服务器电源冗余管理技术领域,具体提供了一种实现GPU服务器电源冗余的方法及系统。
背景技术
冗余电源是用于服务器中的一种电源,是由两个完全一样的电源组成,由芯片控制电源进行负载均衡,当一个电源出现故障时,另一个电源马上可以接管其工作,在更换电源后,又是两个电源协同工作,冗余电源是为了实现服务器系统的高可用性。对于2U8卡GPU服务器,因为结构空间限制电源只能做到两个电源最大功率3000W,而整机因为8个GPU功耗过大,整机功耗在全负载下达到3800W,不能实现电源冗余,不能满足大部分客户的需求,使产品失去竞争力。
在现有技术中,实时的把单个GPU功耗限制在固定的功率数,以达到整机功耗控制在冗余范围内,整机系统功耗不高的情况下,单个GPU的性能不能完全发挥出来,特别是虚机中指定一个GPU处理任务时,性能也不能完全表现。
发明内容
针对以上缺点,本发明实施例提出了一种实现GPU服务器电源冗余的方法及系统,既能实现服务器整机系统的电源冗余,又能保证整机系统低功耗时单个GPU的性能。
一种实现GPU服务器电源冗余的方法,包括以下步骤:
S1:设定GPU服务器整机电源输出功耗的阈值;
S2:BMC实时监控和记录GPU服务器的整机输入功耗,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
进一步的,所述整机电源输出功耗的阈值设定范围为[整机电源功率最大值*0.85,整机电源功率最大值*0.9]。
进一步的,在步骤S2中,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC通过IPMI指令分别对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC通过IPMI指令分别取消对单个GPU功耗限制。
进一步的,所述BMC实时监控和记录GPU服务器的整机输入功耗的方法为,BMC通过I2C实时读取整机电源的输出功耗,来获取GPU服务器的整机输入功耗。
进一步的,所述GPU服务器为2U8卡GPU服务器。
一种实现GPU服务器电源冗余的系统,包括设定模块、监控模块和控制模块;
所述设定模块用于设定GPU服务器的整机电源输出功耗的阈值;
所述监控模块用于BMC实时监控和记录GPU服务器的整机输入功耗;
所述控制模块用于当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
进一步的,所述控制模块包括第一控制模块和第二控制模块;
所述第一控制模块用于当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;
所述第二控制模块用于当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例提出了一种实现GPU服务器电源冗余的方法和系统,该方法首先设定GPU服务器整机电源输出功耗的阈值,BMC实时监控和记录GPU服务器的整机输入功耗,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制,基于本发明提出的一种实现GPU服务器电源冗余的方法,还提出了一种实现GPU服务器电源冗余的系统,本发明实时动态监控GPU服务器的整机输入功耗,通过限制整机输入功耗,在整机系统功耗不高的情况下,当个GPU的性能可以完全发挥出来,特别是虚机中指定一个GPU处理任务时,指定的GPU的性能不再受限制。本发明既能实现服务器整机系统的电源冗余,又能保证整机系统低功耗时单个GPU的性能.提高产品竞争力。
附图说明
图1是本发明实施例1提出的2U8卡GPU服务器的结构示意图;
图2是本发明实施例1提出的一种实现GPU服务器电源冗余的方法流程图;
图3是本发明实施例1提出的一种实现GPU服务器电源冗余的系统连接图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了一种实现GPU服务器电源冗余的方法及系统,该方法和系统主要适用于2U8卡GPU服务器,如图1所示给出了2U8卡GPU服务器的结构示意图。在2U机箱里布放有第一电源、第二电源、BMC以及8个GPU。第一电源和第二电源分别与BMC通过线缆连接;BMC与8个GPU分别通过线缆连接。
为了实现2U8卡GPU服务器整机系统的电源冗余,又能保证整机系统低功耗时单个GPU的性能,本发明首先设定GPU服务器整机电源输出功耗的阈值,为了保证电源冗余以及单个GPU的性能可以尽可能充分发挥,整机电源输出功耗的阈值设定范围为[整机电源功率最大值*0.85,整机电源功率最大值*0.9]。整机电源输出功率即第一电源和第二电源合计输出功耗。然后BMC通过I2C实时读取整机电源的输出功耗,来获取GPU服务器的整机输入功耗,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC通过IPMI指令分别对8个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC通过IPMI指令分别取消对单个GPU功耗限制。
通过限制GPU服务器整机输入功耗的方式,使整机系统功耗不高的情况下,单个GPU的性能不受限制。BMC实时监控GPU服务器整机输入功耗,当服务器整机输入功耗超过整机电源输出的阈值时,通过限制单个GPU功耗的方式来保证电源冗余,动态监控的方式,使GPU的性能尽可能发挥。当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC通过IPMI指令分别取消对单个GPU功耗限制。
如图2所示为本发明实施例1提出的一种实现GPU服务器电源冗余的方法流程图;
在步骤S201中,开始处理该流程;
在步骤S202中,设定GPU服务器整机电源输出功耗的阈值;
在步骤S203中,BMC实时监控和记录GPU服务器的整机输入功耗;
在步骤S204中,判断GPU服务器的整机输入功耗是否超过整机电源输出功耗的阈值,如果GPU服务器的整机输入功耗未超过整机电源输出功耗的阈值,则返回步骤S203;如果GPU服务器的整机输入功耗达到整机电源输出功耗的阈值,则执行步骤S205。
在步骤S205中,BMC通过IPMI指令分别对单个GPU功耗进行限制。
在步骤S206中,BMC继续实时监控和记录GPU服务器的整机输入功耗。
在步骤S207中,判断GPU服务器的整机输入功耗是否超过整机电源输出功耗的阈值,如果GPU服务器的整机输入功耗达到整机电源输出功耗的阈值,则返回步骤S205;如果GPU服务器的整机输入功耗小于整机电源输出功耗的阈值,则执行步骤S208。
在步骤S208中,BMC通过IPMI指令分别取消对单个GPU功耗进行限制。
在步骤S208中,整个流程结束。
本发明实施例还提出了一种实现GPU服务器电源冗余的系统,如图3所示为本发明实施例1提出的一种实现GPU服务器电源冗余的系统连接图。该系统包括包括设定模块、监控模块和控制模块;
设定模块用于设定GPU服务器的整机电源输出功耗的阈值;
监控模块用于BMC实时监控和记录GPU服务器的整机输入功耗;
控制模块用于当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
控制模块包括包括第一控制模块和第二控制模块;
第一控制模块用于当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;
第二控制模块用于当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
尽管说明书及附图和实施例对本发明创造已进行了详细的说明,但是,本领域技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换;而一切不脱离本发明创造的精神和范围的技术方案及其改进,其均涵盖在本发明创造专利的保护范围当中。

Claims (7)

1.一种实现GPU服务器电源冗余的方法,其特征在于,包括:
S1:设定GPU服务器整机电源输出功耗的阈值;
S2:BMC实时监控和记录GPU服务器的整机输入功耗,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
2.根据权利要求1所述的一种实现GPU服务器电源冗余的方法,其特征在于,所述整机电源输出功耗的阈值设定范围为[整机电源功率最大值*0.85,整机电源功率最大值*0.9]。
3.根据权利要求1或2所述的一种实现GPU服务器电源冗余的方法,其特征在于,在步骤S2中,当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC通过IPMI指令分别对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC通过IPMI指令分别取消对单个GPU功耗限制。
4.根据权利要求1所述的一种实现GPU服务器电源冗余的方法,其特征在于,所述BMC实时监控和记录GPU服务器的整机输入功耗的方法为,BMC通过I2C实时读取整机电源的输出功耗,来获取GPU服务器的整机输入功耗。
5.根据权利要求1所述的一种实现GPU服务器电源冗余的方法,其特征在于,所述GPU服务器为2U8卡GPU服务器。
6.一种实现GPU服务器电源冗余的系统,其特征在于,包括设定模块、监控模块和控制模块;
所述设定模块用于设定GPU服务器的整机电源输出功耗的阈值;
所述监控模块用于BMC实时监控和记录GPU服务器的整机输入功耗;
所述控制模块用于当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
7.根据权利要求6所述的一种实现GPU服务器电源冗余的系统,其特征在于,所述控制模块包括第一控制模块和第二控制模块;
所述第一控制模块用于当BMC监控到GPU服务器的整机输入功耗达到整机电源输出功耗的阈值时,BMC对单个GPU功耗进行限制;
所述第二控制模块用于当BMC监控到GPU服务器的整机输入功耗小于整机电源输出功耗的阈值时,BMC取消对单个GPU功耗限制。
CN201910212595.XA 2019-03-20 2019-03-20 一种实现gpu服务器电源冗余的方法及系统 Withdrawn CN109960632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910212595.XA CN109960632A (zh) 2019-03-20 2019-03-20 一种实现gpu服务器电源冗余的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910212595.XA CN109960632A (zh) 2019-03-20 2019-03-20 一种实现gpu服务器电源冗余的方法及系统

Publications (1)

Publication Number Publication Date
CN109960632A true CN109960632A (zh) 2019-07-02

Family

ID=67024613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910212595.XA Withdrawn CN109960632A (zh) 2019-03-20 2019-03-20 一种实现gpu服务器电源冗余的方法及系统

Country Status (1)

Country Link
CN (1) CN109960632A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111025178A (zh) * 2019-12-29 2020-04-17 苏州浪潮智能科技有限公司 一种电源模块主备切换的稳定性测试方法及相关组件
CN111475009A (zh) * 2020-04-16 2020-07-31 苏州浪潮智能科技有限公司 一种服务器内gpu的降功耗电路及服务器
CN113064479A (zh) * 2021-03-03 2021-07-02 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质
CN116661580A (zh) * 2023-07-25 2023-08-29 深圳市旭锦科技有限公司 一种服务器的电源控制方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111025178A (zh) * 2019-12-29 2020-04-17 苏州浪潮智能科技有限公司 一种电源模块主备切换的稳定性测试方法及相关组件
CN111475009A (zh) * 2020-04-16 2020-07-31 苏州浪潮智能科技有限公司 一种服务器内gpu的降功耗电路及服务器
US11656674B2 (en) 2020-04-16 2023-05-23 Inspur Suzhou Intelligent Technology Co., Ltd. Power consumption reduction circuit for GPUs in server, and server
CN113064479A (zh) * 2021-03-03 2021-07-02 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质
WO2022183877A1 (zh) * 2021-03-03 2022-09-09 山东英信计算机技术有限公司 一种gpu服务器的电源冗余控制系统、方法及介质
CN116661580A (zh) * 2023-07-25 2023-08-29 深圳市旭锦科技有限公司 一种服务器的电源控制方法及系统
CN116661580B (zh) * 2023-07-25 2023-12-19 深圳市旭锦科技有限公司 一种服务器的电源控制方法及系统

Similar Documents

Publication Publication Date Title
CN109960632A (zh) 一种实现gpu服务器电源冗余的方法及系统
CN105426292A (zh) 一种游戏日志实时处理系统及方法
DE112007001713T5 (de) System und Verfahren zum Steuern von Zuständen niedriger Energie bei Prozessoren
CN102707680B (zh) 水电机组全方位一体化协同在线监测系统及使用方法
DE102015211561A1 (de) Leistungsverfolgungsanschluss zum Verfolgen von Zuständen von Leistungsdomänen
DE112013006005T5 (de) Verfahren und Vorrichtung zum Verwalten der Datenverarbeitungssystemleistung
CN104932481A (zh) 一种炼油化工设备故障管控及检维修优化系统
CN107315675A (zh) 一种服务器开关电源保护装置和方法
CN106341467B (zh) 基于大数据并行计算的用电信息采集设备状态分析方法
CN111323675A (zh) 一种故障录波装置的状态可视化监测系统及监测方法
US20190324515A1 (en) Architecture for improving reliability of mult-server system
CN110362180A (zh) 一种服务器电源寿命均衡控制装置及方法
CN104466992B (zh) 一种链式svg链节控制系统及方法
CN202616774U (zh) 一种简易直流电源均流并联系统
CN104465233A (zh) 一种兼顾低压脱扣器电压暂降特性的配置方法
CN104834562B (zh) 一种异构数据中心及该数据中心的运行方法
CN105892596A (zh) 一种信息处理方法及电子设备
CN109408269A (zh) 一种基板管理控制器宕机重启系统及重启方法
CN105511980A (zh) 一种高端容错服务器的电源故障记录方法
CN107391324A (zh) 一种存储系统的测试控制装置及方法
CN113300420A (zh) 远程一次调频试验方法及装置
CN113741280A (zh) 一种国产化的vpx架构的智能管理控制装置
CN107015623A (zh) 系统功耗改善方法及其实施改善功耗的系统
CN112330102A (zh) 一种供电可靠性数据分析系统
CN112486762A (zh) 一种基于cpu压力测试的功耗调整方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190702