CN105005373A - 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 - Google Patents

超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 Download PDF

Info

Publication number
CN105005373A
CN105005373A CN201510409049.7A CN201510409049A CN105005373A CN 105005373 A CN105005373 A CN 105005373A CN 201510409049 A CN201510409049 A CN 201510409049A CN 105005373 A CN105005373 A CN 105005373A
Authority
CN
China
Prior art keywords
gpu
power supply
express bus
power
gauge tap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510409049.7A
Other languages
English (en)
Inventor
赵地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201510409049.7A priority Critical patent/CN105005373A/zh
Publication of CN105005373A publication Critical patent/CN105005373A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Direct Current Feeding And Distribution (AREA)

Abstract

本发明公开了一种基于PCI?Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,GPU通过其对应的耗电管理接口与PCI?Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI?Express总线之间的通电和断电。本发明能够根据GPU的工作状态开启或关闭该GPU,且在空闲状态时,能彻底使GPU断电,使GPU在空闲状态下的能耗为0。

Description

超级计算机中基于PCI Express总线的多GPU供电控制装置及方法
技术领域
本发明涉及超级计算机的多GPU节点耗电管理的技术领域,具体涉及在超级计算机的GPU节点内,一种基于PCI Express总线的多GPU的供电控制装置及方法。
背景技术
GPU是图形加速卡(Graphics Processing Unit)的简称,是提高计算机处理大量图像或大规模计算的加速卡。现代GPU大多基于PCI Express总线,而PCI Express总线是从2001年春季开始发展起来的总线接口。现代GPU的主要生产商包括美国英伟达(NVIDIA)公司和美国AMD公司。
超级计算机的多GPU节点(multi-GPU node)是含有两个或两个以上的GPU的服务器。在此发明中,超级计算机的多GPU节点(multi-GPUnode)的两个或两个以上的GPU是指同型号的GPU。现有的多GPU技术包括美国NVIDIA公司开发出的SLI技术和美国AMD公司开发出的CrossFireX技术。
现有超级计算机的GPU节点(multi-GPU node)能够提供几十T级别的浮点计算能力,在商业计算和科学计算领域,比如计算金融学,计算机辅助设计,图像处理,动画设计等领域有着广泛的应用。在使用多用户软件比如Linux的情况下,超级计算机的多GPU节点(multi-GPU node)在系统负荷内也提供一定的多用户使用的能力。
现在多家公司开发的超级计算机的多GPU节点(multi-GPU node)产品,比如中科曙光,超微(Supermicro),等公司。这些公司开发的超级计算机的GPU节点都具有耗电管理的功能。比如NVIDIA公司的NVIDIAManagement Library(包括NVIDIA-smi和NVIDIA-healthmon)和超微(Supermicro)公司的Supermicro Power Manager。
PCI Express总线包含供电针脚和信号针脚两个部分。单GPU能在软件的控制下进入空闲(idle)状态。此时,单GPU处于最低功率,存在一定的耗电。本发明采用CMOS模拟开关(analog switch)对单GPU进行完全控制,使单GPU能够处于彻底的“开启”或“关闭”的状态。然而,即使多个GPU同时处于空闲(idle)状态,因为单GPU的空闲(idle)状态存在耗电,超级计算机的多GPU节点的耗电仍然不小。例如,在工作状态下,四NVIDIA TITAN的工作站的峰值功率约有几千瓦特;在空闲(idle)状态下,其功率仍然在百瓦特以上。
因此,对于长期使用超级计算机的多GPU节点的用户,或者对于超级计算机的多GPU节点耗能比较敏感的用户,需要一种更为有效的供电控制装置及方法。
发明内容
(一)要解决的技术问题
本发明的目的在于,提供一种基于PCI Express总线的多GPU的供电控制装置及方法,解决超级计算机的多GPU节点在空闲状态下的能耗问题,使GPU在空闲状态下的能耗为0。
(二)技术方案
本发明提供一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,其中:
每个GPU对应有一个耗电管理接口及一个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线连接,该GPU对应的控制开关电连接于耗电管理接口,用于控制GPU与PCI Express总线之间的通断电。
本发明还提供一种基于PCI Express总线的多GPU的供电控制方法,包括以下步骤:
S1,检测多个GPU的工作状态;
S2,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与PCI Express总线之间断电;当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与PCI Express总线之间通电。
(三)有益效果
本发明提供的多GPU的供电控制装置及方法,采用CMOS模拟开关(analog switch)对单GPU进行完全控制,使单GPU能够处于彻底的“开启”或“关闭”的状态,能在空闲状态彻底使GPU断电,使GPU能耗为0。
附图说明
图1是本发明实施例中多GPU的供电控制装置的示意图。
图2是本发明实施例中耗电管理接口的结构图。
图3是本发明实施例中控制开关的示意图。
具体实施方式
本发明提供一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI Express总线之间的通电和断电。
在一种实施方式中,供电控制装置还包括一个检测装置,用于检测多个GPU的工作状态,当检测到某一GPU没有运算负载,则其对应的控制开关关闭,使该GPU与所述PCI Express总线之间断电,其中,检测装置可以是NVIDIA公司提供的GPU管理工具,比如nvidia-smi。
在一种实施方式中,每个耗电管理接口包括针脚、CMOS模拟开关及插槽,CMOS模拟开关分别与针脚及插槽电连接,插槽供GPU插入,针脚与PCI Express总线电连接,CMOS模拟开关与控制开关连接。
在一种实施方式中,插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中供电插槽通过CMOS模拟开关与供电针脚电连接,信号插槽通过CMOS模拟开关与信号针脚电连接。
在一种实施方式中,控制开关开启或关闭时,产生一个电子信号发送到CMOS模拟开关,CMOS模拟开关根据该电子信号,接通或切断供电插槽与供电针脚的通路。
在一种实施方式中,多个控制开关均设置在机箱的控制面板上。
在一种实施方式中,每个控制开关上设有指示灯,用于显示GPU的工作状态。
本发明还提供一种基于PCI Express总线的多GPU的供电控制方法,包括以下步骤:
S1,检测多个GPU的工作状态;
S2,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与PCI Express总线之间断电;当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与PCI Express总线之间通电。
本发明提供的多GPU的供电控制装置及方法,能够根据GPU的工作状态开启或关闭该GPU,且在空闲状态时,能彻底使GPU断电,使GPU在空闲状态下的能耗为0。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明一实施例中多GPU的供电控制装置的示意图,如图1所示,供电控制装置包括4个耗电管理接口及4个控制开关,其中耗电管理接口与控制开关一一对应,耗电管理接口与GPU一一对应,GPU通过其对应的耗电管理接口与PCI Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI Express总线之间的通断电。
图2是本发明实施例中耗电管理接口的结构图,如图2所示,耗电管理接口包括针脚、CMOS模拟开关及插槽,CMOS模拟开关分别与针脚及插槽电连接,插槽供GPU插入,针脚与PCI Express总线电连接,CMOS模拟开关与控制开关电连接,其中,插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中供电插槽通过CMOS模拟开关与供电针脚电连接,信号插槽通过CMOS模拟开关与信号针脚电连接。控制开关开启或关闭时,产生一个电子信号发送到CMOS模拟开关,CMOS模拟开关根据该电子信号,接通或切断供电插槽与供电针脚的通路。
优选地,采用nvidia-smi检测每个GPU的工作状态,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,控制开关产生一个关闭电子信号发送到CMOS模拟开关,CMOS模拟开关根据关闭电子信号,切断供电插槽与供电针脚的通路。当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,控制开关产生一个开启电子信号发送到CMOS模拟开关,CMOS模拟开关根据开启电子信号,接通供电插槽与供电针脚的通路。
图3是本发明实施例中控制开关的示意图,如图3所示,多个控制开关均设置在机箱的控制面板上,并且每个控制开关上设有指示灯1~4,用于显示GPU的工作状态。用户通过指示灯1~4,了解到相应的GPU的工作状态后,可以手动打开或关闭相应的控制开关,从而控制GPU的通断电。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于PCI Express总线的多GPU的供电控制装置,其特征在于,包括多个耗电管理接口及多个控制开关,其中:
每个GPU对应有一个耗电管理接口及一个控制开关,该GPU通过其对应的耗电管理接口与所述PCI Express总线连接,该GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与所述PCI Express总线之间的通断电。
2.根据权利要求1所述的供电控制装置,其特征在于,还包括一个检测装置,用于检测多个GPU的工作状态,当检测到某一GPU没有运算负载,则控制开关关闭,使该GPU与所述PCI Express总线之间断电。
3.根据权利要求1所述的供电控制装置,其特征在于,所述每个耗电管理接口包括针脚、CMOS模拟开关及插槽,所述CMOS模拟开关分别与所述针脚及插槽电连接,所述插槽供所述GPU插入,所述针脚与所述PCI Express总线电连接,所述CMOS模拟开关与所述控制开关电连接。
4.根据权利要求3所述的供电控制装置,其特征在于,所述插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中所述供电插槽通过所述CMOS模拟开关与所述供电针脚电连接,所述信号插槽通过所述CMOS模拟开关与所述信号针脚电连接。
5.根据权利要求4所述的供电控制装置,其特征在于,控制开关开启或关闭时,产生一个电子信号发送到所述CMOS模拟开关,所述CMOS模拟开关根据该电子信号,接通或切断所述供电插槽与供电针脚的通路。
6.根据权利要求1所述的供电控制装置,其特征在于,所述多个控制开关均设置在机箱的控制面板上。
7.根据权利要求5所述的供电控制装置,其特征在于,所述每个控制开关上设有指示灯,用于显示GPU的工作状态。
8.一种基于PCI Express总线的多GPU的供电控制方法,其特征在于,包括:
S1,检测所述多个GPU的工作状态;
S2,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与所述PCI Express总线之间断电;当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与所述PCI Express总线之间通电。
CN201510409049.7A 2015-07-13 2015-07-13 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 Pending CN105005373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510409049.7A CN105005373A (zh) 2015-07-13 2015-07-13 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510409049.7A CN105005373A (zh) 2015-07-13 2015-07-13 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法

Publications (1)

Publication Number Publication Date
CN105005373A true CN105005373A (zh) 2015-10-28

Family

ID=54378072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510409049.7A Pending CN105005373A (zh) 2015-07-13 2015-07-13 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法

Country Status (1)

Country Link
CN (1) CN105005373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897416A (zh) * 2018-06-28 2018-11-27 郑州云海信息技术有限公司 一种控制gpu下电的方法、装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192053A (zh) * 2007-12-12 2008-06-04 福建星网锐捷网络有限公司 模块化设备中热插拔模块的上电方法及热插拔控制电路
CN101770273A (zh) * 2008-12-29 2010-07-07 中兴通讯股份有限公司 一种实现服务器多中央处理器系统节能的方法和装置
CN102799259A (zh) * 2012-07-26 2012-11-28 泰州市众泰自动化设备有限公司 一种计算机节电控制器
US20130031391A1 (en) * 2010-03-31 2013-01-31 Fujitsu Limited Multi-core processor system, electrical power control method, and computer product
CN103150005A (zh) * 2013-03-01 2013-06-12 福州瑞芯微电子有限公司 非对称低功耗移动设备的多核结构

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192053A (zh) * 2007-12-12 2008-06-04 福建星网锐捷网络有限公司 模块化设备中热插拔模块的上电方法及热插拔控制电路
CN101770273A (zh) * 2008-12-29 2010-07-07 中兴通讯股份有限公司 一种实现服务器多中央处理器系统节能的方法和装置
US20130031391A1 (en) * 2010-03-31 2013-01-31 Fujitsu Limited Multi-core processor system, electrical power control method, and computer product
CN102799259A (zh) * 2012-07-26 2012-11-28 泰州市众泰自动化设备有限公司 一种计算机节电控制器
CN103150005A (zh) * 2013-03-01 2013-06-12 福州瑞芯微电子有限公司 非对称低功耗移动设备的多核结构

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108897416A (zh) * 2018-06-28 2018-11-27 郑州云海信息技术有限公司 一种控制gpu下电的方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US20190011967A1 (en) Enhanced re-hosting capability for legacy hardware and software
US7388508B2 (en) Uninterruptible power supply controller and method
CN102597908B (zh) 禁用装置的方法和装置
CN106339058A (zh) 动态管理电力供应的方法和系统
CN102710477A (zh) 一种基于vpx总线结构的数据处理系统
CN109447288A (zh) 多能源运维管理方法及终端设备
CN104679093B (zh) 功率控制
CN206058080U (zh) 一种基于飞腾处理器的服务器主板
CN109976779A (zh) 机器人软件在线升级发布方法、装置、设备及存储介质
CN105005373A (zh) 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法
CN109033184A (zh) 数据处理方法及装置
CN102722232B (zh) 一种atca刀片上电的控制系统和方法
CN109783286A (zh) 机内测试方法、测试装置、及终端设备和存储介质
CN204595694U (zh) 一种基于申威410处理器的cpci计算机主板
CN102221867A (zh) 一种实现计算机软关机的电路及其控制方法
CN205318283U (zh) 基于申威410处理器和申威套片的专用隔离设备主板
CN114385453A (zh) 数据库集群异常处理方法、装置、设备及介质
CN204695300U (zh) 一种计算机软件测试装置
CN205016211U (zh) Led大屏幕信息显示系统
CN205540464U (zh) 一种高端服务器扩展机箱电源底板
EP3376341B1 (en) Power supply system for a semiconductor processing system
CN104090632A (zh) 一种模块化笔记本电脑
CN110288316A (zh) 变电站一次设备工作牌布置的方法及终端设备
CN113094341A (zh) 隐藏文件夹显示选项控制平台
CN204595693U (zh) 一种基于申威处理器和申威套片的计算机主板

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151028