CN105005373A - 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 - Google Patents
超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 Download PDFInfo
- Publication number
- CN105005373A CN105005373A CN201510409049.7A CN201510409049A CN105005373A CN 105005373 A CN105005373 A CN 105005373A CN 201510409049 A CN201510409049 A CN 201510409049A CN 105005373 A CN105005373 A CN 105005373A
- Authority
- CN
- China
- Prior art keywords
- gpu
- power supply
- express bus
- power
- gauge tap
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Direct Current Feeding And Distribution (AREA)
Abstract
本发明公开了一种基于PCI?Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,GPU通过其对应的耗电管理接口与PCI?Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI?Express总线之间的通电和断电。本发明能够根据GPU的工作状态开启或关闭该GPU,且在空闲状态时,能彻底使GPU断电,使GPU在空闲状态下的能耗为0。
Description
技术领域
本发明涉及超级计算机的多GPU节点耗电管理的技术领域,具体涉及在超级计算机的GPU节点内,一种基于PCI Express总线的多GPU的供电控制装置及方法。
背景技术
GPU是图形加速卡(Graphics Processing Unit)的简称,是提高计算机处理大量图像或大规模计算的加速卡。现代GPU大多基于PCI Express总线,而PCI Express总线是从2001年春季开始发展起来的总线接口。现代GPU的主要生产商包括美国英伟达(NVIDIA)公司和美国AMD公司。
超级计算机的多GPU节点(multi-GPU node)是含有两个或两个以上的GPU的服务器。在此发明中,超级计算机的多GPU节点(multi-GPUnode)的两个或两个以上的GPU是指同型号的GPU。现有的多GPU技术包括美国NVIDIA公司开发出的SLI技术和美国AMD公司开发出的CrossFireX技术。
现有超级计算机的GPU节点(multi-GPU node)能够提供几十T级别的浮点计算能力,在商业计算和科学计算领域,比如计算金融学,计算机辅助设计,图像处理,动画设计等领域有着广泛的应用。在使用多用户软件比如Linux的情况下,超级计算机的多GPU节点(multi-GPU node)在系统负荷内也提供一定的多用户使用的能力。
现在多家公司开发的超级计算机的多GPU节点(multi-GPU node)产品,比如中科曙光,超微(Supermicro),等公司。这些公司开发的超级计算机的GPU节点都具有耗电管理的功能。比如NVIDIA公司的NVIDIAManagement Library(包括NVIDIA-smi和NVIDIA-healthmon)和超微(Supermicro)公司的Supermicro Power Manager。
PCI Express总线包含供电针脚和信号针脚两个部分。单GPU能在软件的控制下进入空闲(idle)状态。此时,单GPU处于最低功率,存在一定的耗电。本发明采用CMOS模拟开关(analog switch)对单GPU进行完全控制,使单GPU能够处于彻底的“开启”或“关闭”的状态。然而,即使多个GPU同时处于空闲(idle)状态,因为单GPU的空闲(idle)状态存在耗电,超级计算机的多GPU节点的耗电仍然不小。例如,在工作状态下,四NVIDIA TITAN的工作站的峰值功率约有几千瓦特;在空闲(idle)状态下,其功率仍然在百瓦特以上。
因此,对于长期使用超级计算机的多GPU节点的用户,或者对于超级计算机的多GPU节点耗能比较敏感的用户,需要一种更为有效的供电控制装置及方法。
发明内容
(一)要解决的技术问题
本发明的目的在于,提供一种基于PCI Express总线的多GPU的供电控制装置及方法,解决超级计算机的多GPU节点在空闲状态下的能耗问题,使GPU在空闲状态下的能耗为0。
(二)技术方案
本发明提供一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,其中:
每个GPU对应有一个耗电管理接口及一个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线连接,该GPU对应的控制开关电连接于耗电管理接口,用于控制GPU与PCI Express总线之间的通断电。
本发明还提供一种基于PCI Express总线的多GPU的供电控制方法,包括以下步骤:
S1,检测多个GPU的工作状态;
S2,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与PCI Express总线之间断电;当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与PCI Express总线之间通电。
(三)有益效果
本发明提供的多GPU的供电控制装置及方法,采用CMOS模拟开关(analog switch)对单GPU进行完全控制,使单GPU能够处于彻底的“开启”或“关闭”的状态,能在空闲状态彻底使GPU断电,使GPU能耗为0。
附图说明
图1是本发明实施例中多GPU的供电控制装置的示意图。
图2是本发明实施例中耗电管理接口的结构图。
图3是本发明实施例中控制开关的示意图。
具体实施方式
本发明提供一种基于PCI Express总线的多GPU的供电控制装置,包括多个耗电管理接口及多个控制开关,GPU通过其对应的耗电管理接口与PCI Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI Express总线之间的通电和断电。
在一种实施方式中,供电控制装置还包括一个检测装置,用于检测多个GPU的工作状态,当检测到某一GPU没有运算负载,则其对应的控制开关关闭,使该GPU与所述PCI Express总线之间断电,其中,检测装置可以是NVIDIA公司提供的GPU管理工具,比如nvidia-smi。
在一种实施方式中,每个耗电管理接口包括针脚、CMOS模拟开关及插槽,CMOS模拟开关分别与针脚及插槽电连接,插槽供GPU插入,针脚与PCI Express总线电连接,CMOS模拟开关与控制开关连接。
在一种实施方式中,插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中供电插槽通过CMOS模拟开关与供电针脚电连接,信号插槽通过CMOS模拟开关与信号针脚电连接。
在一种实施方式中,控制开关开启或关闭时,产生一个电子信号发送到CMOS模拟开关,CMOS模拟开关根据该电子信号,接通或切断供电插槽与供电针脚的通路。
在一种实施方式中,多个控制开关均设置在机箱的控制面板上。
在一种实施方式中,每个控制开关上设有指示灯,用于显示GPU的工作状态。
本发明还提供一种基于PCI Express总线的多GPU的供电控制方法,包括以下步骤:
S1,检测多个GPU的工作状态;
S2,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与PCI Express总线之间断电;当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与PCI Express总线之间通电。
本发明提供的多GPU的供电控制装置及方法,能够根据GPU的工作状态开启或关闭该GPU,且在空闲状态时,能彻底使GPU断电,使GPU在空闲状态下的能耗为0。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1是本发明一实施例中多GPU的供电控制装置的示意图,如图1所示,供电控制装置包括4个耗电管理接口及4个控制开关,其中耗电管理接口与控制开关一一对应,耗电管理接口与GPU一一对应,GPU通过其对应的耗电管理接口与PCI Express总线电连接,GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与PCI Express总线之间的通断电。
图2是本发明实施例中耗电管理接口的结构图,如图2所示,耗电管理接口包括针脚、CMOS模拟开关及插槽,CMOS模拟开关分别与针脚及插槽电连接,插槽供GPU插入,针脚与PCI Express总线电连接,CMOS模拟开关与控制开关电连接,其中,插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中供电插槽通过CMOS模拟开关与供电针脚电连接,信号插槽通过CMOS模拟开关与信号针脚电连接。控制开关开启或关闭时,产生一个电子信号发送到CMOS模拟开关,CMOS模拟开关根据该电子信号,接通或切断供电插槽与供电针脚的通路。
优选地,采用nvidia-smi检测每个GPU的工作状态,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,控制开关产生一个关闭电子信号发送到CMOS模拟开关,CMOS模拟开关根据关闭电子信号,切断供电插槽与供电针脚的通路。当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,控制开关产生一个开启电子信号发送到CMOS模拟开关,CMOS模拟开关根据开启电子信号,接通供电插槽与供电针脚的通路。
图3是本发明实施例中控制开关的示意图,如图3所示,多个控制开关均设置在机箱的控制面板上,并且每个控制开关上设有指示灯1~4,用于显示GPU的工作状态。用户通过指示灯1~4,了解到相应的GPU的工作状态后,可以手动打开或关闭相应的控制开关,从而控制GPU的通断电。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于PCI Express总线的多GPU的供电控制装置,其特征在于,包括多个耗电管理接口及多个控制开关,其中:
每个GPU对应有一个耗电管理接口及一个控制开关,该GPU通过其对应的耗电管理接口与所述PCI Express总线连接,该GPU对应的控制开关电连接于该耗电管理接口,用于控制该GPU与所述PCI Express总线之间的通断电。
2.根据权利要求1所述的供电控制装置,其特征在于,还包括一个检测装置,用于检测多个GPU的工作状态,当检测到某一GPU没有运算负载,则控制开关关闭,使该GPU与所述PCI Express总线之间断电。
3.根据权利要求1所述的供电控制装置,其特征在于,所述每个耗电管理接口包括针脚、CMOS模拟开关及插槽,所述CMOS模拟开关分别与所述针脚及插槽电连接,所述插槽供所述GPU插入,所述针脚与所述PCI Express总线电连接,所述CMOS模拟开关与所述控制开关电连接。
4.根据权利要求3所述的供电控制装置,其特征在于,所述插槽包括供电插槽及信号插槽,所述针脚包括供电针脚和信号针脚,其中所述供电插槽通过所述CMOS模拟开关与所述供电针脚电连接,所述信号插槽通过所述CMOS模拟开关与所述信号针脚电连接。
5.根据权利要求4所述的供电控制装置,其特征在于,控制开关开启或关闭时,产生一个电子信号发送到所述CMOS模拟开关,所述CMOS模拟开关根据该电子信号,接通或切断所述供电插槽与供电针脚的通路。
6.根据权利要求1所述的供电控制装置,其特征在于,所述多个控制开关均设置在机箱的控制面板上。
7.根据权利要求5所述的供电控制装置,其特征在于,所述每个控制开关上设有指示灯,用于显示GPU的工作状态。
8.一种基于PCI Express总线的多GPU的供电控制方法,其特征在于,包括:
S1,检测所述多个GPU的工作状态;
S2,当检测到某一GPU没有运算负载时,且该GPU是通电的,则关闭该GPU对应的控制开关,使该GPU与所述PCI Express总线之间断电;当检测到某一GPU有运算负载时,且该GPU是断电的,则开启该GPU对应的控制开关,使该GPU与所述PCI Express总线之间通电。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510409049.7A CN105005373A (zh) | 2015-07-13 | 2015-07-13 | 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510409049.7A CN105005373A (zh) | 2015-07-13 | 2015-07-13 | 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105005373A true CN105005373A (zh) | 2015-10-28 |
Family
ID=54378072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510409049.7A Pending CN105005373A (zh) | 2015-07-13 | 2015-07-13 | 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005373A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897416A (zh) * | 2018-06-28 | 2018-11-27 | 郑州云海信息技术有限公司 | 一种控制gpu下电的方法、装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192053A (zh) * | 2007-12-12 | 2008-06-04 | 福建星网锐捷网络有限公司 | 模块化设备中热插拔模块的上电方法及热插拔控制电路 |
CN101770273A (zh) * | 2008-12-29 | 2010-07-07 | 中兴通讯股份有限公司 | 一种实现服务器多中央处理器系统节能的方法和装置 |
CN102799259A (zh) * | 2012-07-26 | 2012-11-28 | 泰州市众泰自动化设备有限公司 | 一种计算机节电控制器 |
US20130031391A1 (en) * | 2010-03-31 | 2013-01-31 | Fujitsu Limited | Multi-core processor system, electrical power control method, and computer product |
CN103150005A (zh) * | 2013-03-01 | 2013-06-12 | 福州瑞芯微电子有限公司 | 非对称低功耗移动设备的多核结构 |
-
2015
- 2015-07-13 CN CN201510409049.7A patent/CN105005373A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192053A (zh) * | 2007-12-12 | 2008-06-04 | 福建星网锐捷网络有限公司 | 模块化设备中热插拔模块的上电方法及热插拔控制电路 |
CN101770273A (zh) * | 2008-12-29 | 2010-07-07 | 中兴通讯股份有限公司 | 一种实现服务器多中央处理器系统节能的方法和装置 |
US20130031391A1 (en) * | 2010-03-31 | 2013-01-31 | Fujitsu Limited | Multi-core processor system, electrical power control method, and computer product |
CN102799259A (zh) * | 2012-07-26 | 2012-11-28 | 泰州市众泰自动化设备有限公司 | 一种计算机节电控制器 |
CN103150005A (zh) * | 2013-03-01 | 2013-06-12 | 福州瑞芯微电子有限公司 | 非对称低功耗移动设备的多核结构 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897416A (zh) * | 2018-06-28 | 2018-11-27 | 郑州云海信息技术有限公司 | 一种控制gpu下电的方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190011967A1 (en) | Enhanced re-hosting capability for legacy hardware and software | |
US7388508B2 (en) | Uninterruptible power supply controller and method | |
CN102597908B (zh) | 禁用装置的方法和装置 | |
CN106339058A (zh) | 动态管理电力供应的方法和系统 | |
CN102710477A (zh) | 一种基于vpx总线结构的数据处理系统 | |
CN109447288A (zh) | 多能源运维管理方法及终端设备 | |
CN104679093B (zh) | 功率控制 | |
CN206058080U (zh) | 一种基于飞腾处理器的服务器主板 | |
CN109976779A (zh) | 机器人软件在线升级发布方法、装置、设备及存储介质 | |
CN105005373A (zh) | 超级计算机中基于PCI Express总线的多GPU供电控制装置及方法 | |
CN109033184A (zh) | 数据处理方法及装置 | |
CN102722232B (zh) | 一种atca刀片上电的控制系统和方法 | |
CN109783286A (zh) | 机内测试方法、测试装置、及终端设备和存储介质 | |
CN204595694U (zh) | 一种基于申威410处理器的cpci计算机主板 | |
CN102221867A (zh) | 一种实现计算机软关机的电路及其控制方法 | |
CN205318283U (zh) | 基于申威410处理器和申威套片的专用隔离设备主板 | |
CN114385453A (zh) | 数据库集群异常处理方法、装置、设备及介质 | |
CN204695300U (zh) | 一种计算机软件测试装置 | |
CN205016211U (zh) | Led大屏幕信息显示系统 | |
CN205540464U (zh) | 一种高端服务器扩展机箱电源底板 | |
EP3376341B1 (en) | Power supply system for a semiconductor processing system | |
CN104090632A (zh) | 一种模块化笔记本电脑 | |
CN110288316A (zh) | 变电站一次设备工作牌布置的方法及终端设备 | |
CN113094341A (zh) | 隐藏文件夹显示选项控制平台 | |
CN204595693U (zh) | 一种基于申威处理器和申威套片的计算机主板 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151028 |