CN110941313A - 控制风扇转速的方法、服务器系统及计算机可读储存介质 - Google Patents

控制风扇转速的方法、服务器系统及计算机可读储存介质 Download PDF

Info

Publication number
CN110941313A
CN110941313A CN201910018571.0A CN201910018571A CN110941313A CN 110941313 A CN110941313 A CN 110941313A CN 201910018571 A CN201910018571 A CN 201910018571A CN 110941313 A CN110941313 A CN 110941313A
Authority
CN
China
Prior art keywords
pci express
image processor
card
temperature information
server system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910018571.0A
Other languages
English (en)
Other versions
CN110941313B (zh
Inventor
王钧弘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN110941313A publication Critical patent/CN110941313A/zh
Application granted granted Critical
Publication of CN110941313B publication Critical patent/CN110941313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D27/00Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
    • F04D27/004Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20718Forced ventilation of a gaseous coolant
    • H05K7/20727Forced ventilation of a gaseous coolant within server blades for removing heat from heat source
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F05INDEXING SCHEMES RELATING TO ENGINES OR PUMPS IN VARIOUS SUBCLASSES OF CLASSES F01-F04
    • F05DINDEXING SCHEME FOR ASPECTS RELATING TO NON-POSITIVE-DISPLACEMENT MACHINES OR ENGINES, GAS-TURBINES OR JET-PROPULSION PLANTS
    • F05D2270/00Control
    • F05D2270/30Control parameters, e.g. input parameters
    • F05D2270/303Temperature
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/21Pc I-O input output
    • G05B2219/21156Over temperature protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Abstract

本公开提供一种系统与方法,通过快速外围组件互连拓朴以撷取服务器系统的图像处理器的温度信息,以及至少基于图像处理器的温度信息,使用基板管理控制器控制冷却风扇的风扇转速。在一些实施例中,管理控制器可通过操作系统来决定服务器系统的快速外围组件互连拓朴,并取得服务器系统每个图像处理器或是图像处理器卡的总线识别。基于总线识别,管理控制器可以从图像处理器数据库(例如:辉达管理数据库)中撷取与图像处理器相关的温度信息,甚至是至少基于温度信息来控制冷却风扇的风扇转速。

Description

控制风扇转速的方法、服务器系统及计算机可读储存介质
技术领域
本公开涉及一种计算机系统中的温度管理。
背景技术
现代的计算机系统包括了许多电子组件,例如:图像处理器(GPU)、中央处理器(CPU)、以及随机存取存储器(RAM)等。当电子组件变得越快速且更有效能时(例如:具有更小型要素且更快的图形处理器或中央处理器),电子组件内也伴随着产生更多的热量。若没有充分冷却,有可能发生过热并对组件造成物理上的损害;有时候甚至会导致系统当机以及数据遗失。
因此,监控系统的关键组件(例如:图像处理器)的温度以避免过热就很重要。传统的系统中,系统可以通过集成电路连结(Inter-Integrated Circuit(I2C)connection)读取图像处理器的温度,接着再使用冷却风扇主动地排出累积的热空气来消除过多的热量,从而在图像处理器内维持合适的温度。
然而,在某些计算机系统中,图像处理器并没有集成电路连结可以传输温度信息。
发明内容
根据本公开各种例示的系统与方法,提供了上述问题一种解法,该解法系通过快速外围组件互连拓朴,撷取服务器系统的图像处理器的温度信息,并且至少基于图像处理器的温度,使用管理控制器(例如:基板管理控制器)来控制冷却风扇的风扇转速。在某些实施中,管理控制器可藉由操作系统决定服务器系统的快速外围组件互连拓朴;并取得服务器系统每个图像处理器或是图像处理器卡的总线识别。基于总线识别,管理控制器可以从图像处理器数据库(例如:辉达管理数据库)中撷取与图像处理器相关的温度信息,甚至是至少基于温度信息来控制相关冷却风扇的风扇转速。在某些实施中,管理控制器管理冷却风扇的风扇转速,使得对应的图像处理器可运作在合适的温度,并且达到优化的使用率。
在某些实施中,服务器系统使用快速外围组件互连拓朴树,以识别服务器系统中的快速外围组件互连拓朴,接着通过操作系统代理传输快速外围组件互连总线信息给基板管理控制器。在快速外围组件互连总线识别信息与图像处理器卡有关的情况下,基板管理控制器可以根据快速外围组件互连总线识别信息,从图像处理器数据库中撷取图像处理器卡的温度信息。至少基于图像处理器卡的温度信息,基板管理控制器可通过频内集成电路,控制与图像处理器卡有关的冷却风扇的风扇转速。
在快速外围组件互连总线识别信息与快速外围组件互连交换器有关的情况下,基板管理控制器可以使用快速外围组件互连交换器的快速外围组件互连总线识别信息,从图像处理器数据库中撷取与快速外围组件互连交换器有关的图像处理器的温度信息。基于与快速外围组件互连交换器有关的图像处理器的温度信息,并且基于服务器系统的中央处理器的温度信息,基板管理控制器可通过频内集成电路,控制与快速外围组件互连交换器有关的冷却风扇的风扇转速。举例来说,传感器组可设置在中央处理器以及快速外围组件互连交换器之间,用以侦测中央处理器的温度,或是侦测在中央处理器以及快速外围组件互连交换器之间的温度。基板管理控制器至少基于图像处理器的温度信息,以及中央处理器的温度信息,控制与快速外围组件互连交换器有关的冷却风扇的风扇转速。
在快速外围组件互连总线识别信息与复位时器卡有关的情况下,基板管理控制器可以使用复位时器卡的快速外围组件互连总线识别信息,从图像处理器数据库中撷取与复位时器卡有关的图像处理器的温度信息。基于与复位时器卡有关的图像处理器的温度信息,基板管理控制器可通过频外集成电路,调整与复位时器卡有关的冷却风扇的风扇转速。举例来说,集束磁盘(JBOD)可包括图像处理器、快速外围组件互连交换器、复位时器卡、以及冷却风扇。基板管理控制器可以使用复位时器卡的快速外围组件互连总线识别信息,从图像处理器数据库中撷取与复位时器卡有关的图像处理器的温度信息。至少基于图像处理器的温度信息,基板管理控制器可通过频外集成电路,控制与复位时器卡有关的冷却风扇的风扇转速。
根据本公开其中之一的观点,一种计算机实施方法,通过服务器系统的快速外围组件互连拓朴,用以控制风扇转速,包括:使用快速外围组件互连拓朴树,决定服务器系统的快速外围组件互连拓朴;通过操作系统代理,传输快速外围组件互连总线识别信息;在快速外围组件互连总线识别信息对应图像处理器卡的情况下,根据快速外围组件互连总线识别信息,从图像处理器数据库中撷取图像处理器卡的温度信息;以及至少基于图像处理器卡的温度信息,通过频内集成电路管理与图像处理器卡有关的冷却风扇的风扇转速。在某些实施中,计算机实施方法更包括:在快速外围组件互连总线识别信息对应复位时器卡的情况下,根据快速外围组件互连总线识别信息,从图像处理器数据库中撷取与复位时器卡有关的图像处理器的温度信息;以及至少基于图像处理器的温度信息,通过频外集成电路管理与复位时器卡有关的冷却风扇的风扇转速。
根据本公开其中之一的观点,提供了一种的储存指令非瞬时计算机可读储存介质,当指令由处理器执行时,使得处理器执行操作,操作包括:使用快速外围组件互连拓朴树,决定服务器系统的快速外围组件互连拓朴;通过操作系统代理,传输快速外围组件互连总线识别信息;在快速外围组件互连总线识别信息对应图像处理器卡的情况下,根据快速外围组件互连总线识别信息,从图像处理器数据库中撷取图像处理器卡的温度信息;以及至少基于图像处理器卡的温度信息,通过频内集成电路管理与图像处理器卡有关的冷却风扇的风扇转速。
本公开的其他特征和优点将于下面的说明中阐述,并且从说明中部份系显而易见;或者可以通过实践本文阐述的原理来学习。本公开的特征和优点,可以藉由所附的申请专利范围中特别指出的仪器和组合加以理解和实现。
附图说明
本公开及其优点以及图式,在参考以下的示例性实施例的說明并配合所附图式后,将明显易懂。以下图式仅为示例性实施例,并非用于限制本发明之各种实施方式或申请专利范围。
第1A图描述一个在数据中心的系统之范例,该系统根据本公开的实施具有图像处理器,该图像处理器不含集成电路连结而不能传输温度信息之示意图。
第1B图描述第1A图所述的系统之范例中,该系统根据本公开的实施包括复数图像处理器及中央处理器之示意图。
第1C图描述第1A图所述的系统之范例中,该系统根据本公开的实施,藉由快速外围组件互连拓朴来控制风扇转速之示意图。
第1D图描述第1C图所述的系统之范例中,该系统根据本公开的实施,其图像处理器卡的快速外围组件互连总线识别被传输至基板管理控制器之示意图。
第1E图描述第1C图所述的系统之范例中,该系统根据本公开的实施,其快速外围组件互连交换器的快速外围组件互连总线识别被传输至基板管理控制器之示意图。
第1F图描述第1C图所述的系统之范例中,该系统根据本公开的实施,其复位时器卡的快速外围组件互连总线识别被传输至基板管理控制器之示意图。
第1G图描述第1A图所述的系统之范例中,该系统根据本公开的实施,有效地控制图像处理器的温度,不必要求图像处理器藉由集成电路连结来传输温度信息之示意图。
第2图为一种方法之范例,该方法根据本公开的实施,通过服务器系统的快速外围组件互连拓朴,用以控制风扇转速之示意图。
附图标记列表
100A-100F~服务器系统
101~电源
102~供电单元
103~管理装置
104~处理器
104-1、104-2~中央处理器
104-3~超级通道互连
105~基本输出入系统
106~北桥逻辑
107~外围组件互连总线
108~南桥逻辑
109~储存装置
110~冷却模块
110-1、110-2~冷却风扇
111~主存储器
112~图像处理器
113~快速外围组件互连交换器
113-1、113-2、113-3~快速外围组件互连交换器
114~辉达管理数据库
115~复位时器卡
115-1、115-2~复位时器卡
116~操作系统代理
117~风扇控制服务
118~快速外围组件互连拓朴树
119~基板管理控制器(BMC)主板
120~频外集成电路连结
121~统一计算架构驱动器
122~传感器组
150、151~工业标准结构(ISA)插槽
160、161~快速外围组件互连(PCIe)插槽
170、171~外围组件互连(PCI)插槽
200~流程
202、204、206、208、210、212、214、216、218、210~步骤
具体实施方式
本公开可用各种不同的形式据以实施。见于图式的代表性实施例将于此详细说明。这些实施例为本公开的原理之范例或解说,但不应将本公开宽广的观点限缩至这些实施例。至于,若在本案发明摘要、发明内容、以及实施方式等当中所公开的组件与限制,而不在申请专利范围所阐明者,不应用隐含、推论或其它方式将其单独或统合纳入申请专利范围之中。本案的实施方式,除非特别声明,否则凡是涉及到单数名词,则应包括复数名词,且反之亦然;文中“包括”一词系指“不排除未记载之项目”。另外,“大约”、“几乎”、“大致上”、“近似于”等表示近似的词汇,在此可解释为“于”、“接近”、“差不多”、“在3%-5%的范围内”、“在可接受的制造公差内”或是任何逻辑上的组合。
本公开的各种例示提供系统与方法,通过快速外围组件互连(PeripheralComponent Interconnect express;PCIe)拓朴,用以撷取服务器系统的图像处理器的温度信息,并且至少基于图像处理器的温度,使用基板管理控制器来控制冷却风扇的风扇转速。在某些实施中,管理控制器可藉由操作系统决定服务器系统的快速外围组件互连拓朴,并取得服务器系统每个图像处理器或是图像处理器卡的总线识别。基于总线识别,管理控制器可以从图像处理器数据库(例如:辉达(NVIDIA)管理数据库)中撷取与图像处理器相关的温度信息,甚至是至少基于温度信息来控制冷却风扇的风扇转速。
第1A图描述一个在数据中心的系统之范例,该系统根据本公开的实施具有图像处理器(Graphic processing unit;GPU),该图像处理器不含集成电路连结(I2Cconnection)而没有传输温度信息之示意图。在本例中,服务器系统100A包括图像处理器(GPU)112、处理器104、快速外围组件互连(PCIe)交换器113、一个或多个冷却模块110、主存储器(MEM)111、以及至少一个供电单元(PSU)102,用来接收源自于交流电源101的交流电,并供电给服务器系统100A的各种组件,例如处理器104、北桥(NB)逻辑106、快速外围组件互连(PCIe)插槽160、南桥(SB)逻辑108、储存装置109、工业标准结构(ISA)插槽150、外围组件互连(PCI)插槽170、以及管理装置103。在本例中,至少有一个图像处理器112不具有集成电路连结,而不能传输与图像处理器112相关的温度信息。快速外围组件互连交换器113使多个输入/输出装置以及图像处理器112之间能够进行高速串行的点对点连结,而处理器104用于优化与端点流量到主机之间的聚合、扇出、或者同级间通讯。在某些例子中,服务器系统100A更包括复位时器卡(retimer card,图中并未画出),连接处理器104以及快速外围组件互连交换器113。复位时器卡为一种混合讯号装置,具有等化功能和频率数据回复(clockdata recovery;CDR)功能,以对确定性抖动和随机抖动进行补偿,并依次向下游传输干净的讯号。
处理器104可以是中央处理器(CPU),被配置来执行特定功能的程序指令。举例来说,在开机流程中,处理器104可以存取储存在管理装置103或快闪储存装置的韧体数据,并执行基本输出入系统(BIOS)105以初始化服务器系统100A。在开机流程之后,处理器104可以执行操作系统,以执行和管理服务器系统100A的特定任务。
在某些配置中,处理器104可以是多核心处理器,每个核心处理器通过连接到北桥逻辑106的中央处理器总线耦接在一起。在某些配置中,北桥逻辑106可以整合到处理器104。北桥逻辑106还可以连接到多个快速外围组件互连插槽160以及南桥逻辑108(选用)。多个快速外围组件互连插槽160可用来作为连结以及总线,例如PCI Express x1、USB 2.0、系统管理总线(SMBus)、SIM卡、快速外围组件互连插槽信道的另一个将来扩充、1.5V和3.3V电源、以及诊断服务器系统100A机壳上的发光二极管的导线。
在服务器系统100A中,北桥逻辑106与南桥逻辑108由外围组件互连(PCI)总线107所连接。南桥逻辑108可以通过扩充总线将外围组件互连总线107耦接到工业标准结构插槽150(例如:工业标准结构插槽151)的扩充卡。南桥逻辑108更耦接到管理装置103,该管理装置103至少连结一个供电单元102。在某些实施中,管理装置103可以是基板管理控制器或是机柜管理控制器。
管理装置103可以使用快速外围组件互连拓朴树(图中并未画出)来识别服务器系统100A中的快速外围组件互连拓朴,接着通过操作系统代理(图中并未画出),接收快速外围组件互连总线识别信息。在某些实施中,快速外围组件互连拓朴树可以是从lspci查询到的信息。lspci是用来测量系统中的硬件的实际快速外围组件互连信息之系统工具。顺序可以是:根复合体(Root Complex)→根埠(Root Port)→桥/端点(Bridge/End Point)。lspci可以显示从根复合体到端点的架构。在某些实施中,不同的中央处理器插座可以有各自不同的根复合体。利用快速外围组件互连总线识别以及它们的分支,可以协助确定服务器系统100A的硬件拓朴中的硬件的实体位置。
基于快速外围组件互连(PCIe)总线识别信息,管理装置103可以从辉达管理数据库(图中并未画出)中撷取与图像处理器112相关的温度信息,以及进一步至少基于温度信息来控制与图像处理器112有关的冷却风扇110的风扇转速。
在快速外围组件互连总线识别信息与图像处理器卡112有关的情况下,管理装置103可以根据快速外围组件互连总线识别信息,从辉达管理数据库中撷取图像处理器卡112的温度信息。至少基于图像处理器卡的温度信息,管理装置103可通过频内集成电路(in-band I2C)连结,控制与图像处理器卡有关的冷却风扇110的风扇转速。在快速外围组件互连总线识别信息与快速外围组件互连交换器113有关的情况下,管理装置103可以使用快速外围组件互连交换器113的快速外围组件互连总线识别信息,从辉达管理数据库中撷取与快速外围组件互连交换器113有关的图像处理器112的温度信息。基于与快速外围组件互连交换器113有关的图像处理器112的温度信息,管理装置103可通过频内集成电路连结,控制与快速外围组件互连交换器113有关的冷却风扇110的风扇转速。在快速外围组件互连总线识别信息与复位时器卡(图中并未画出)有关的情况下,管理装置103可以使用复位时器卡的快速外围组件互连总线识别信息,从辉达管理数据库中撷取与复位时器卡有关的图像处理器112的温度信息。基于与复位时器卡有关的图像处理器卡112的温度信息,管理装置103可通过频外集成电路(out-band I2C)连结,控制与复位时器卡有关的冷却风扇110的风扇转速。
在某些实施中,风扇控制服务可以是管理装置103的服务,为管理装置103所提供的软件服务。软件服务可以查询图像处理器112的信息。若操作系统执行嵌入在操作系统中的操作系统代理,则操作系统代理传送2字节的服务代码(例如0x0A),通知管理装置103开始风扇控制服务。
第1B图中更描述了第1A图配置的一个范例。在第1B图中,服务器系统100B包括中央处理器(CPU)104-1与中央处理器104-2,以及图像处理器卡112,图像处理器卡112拥有多个图像处理器,且图像处理器卡112连接到辉达管理数据库114。中央处理器104-1与中央处理器104-2彼此之间通过超级通道互连(UltraPath Interconnect;UPI)104-3连接。至少有一个图像处理器(即GPU0、GPU1、GPU2及GPU3)不具有集成电路连结,而不能传输温度信息。
第1C图中更描述了第1A图风扇转速控制的一个范例。在第1C图中,服务器系统100C包括快速外围组件互连(PCIe)拓朴树118、中央处理器(CPU)根复合体104、操作系统(OS)代理116、以及基板管理控制器103,且中央处理器根复合体104连接图像处理器(GPU)112、快速外围组件互连交换器113、复位时器卡115、以及其他快速外围组件互连装置。快速外围组件互连拓朴树118可以识别在服务器系统100C中的快速外围组件互连拓朴,接着通过操作系统(OS)代理116传输快速外围组件互连总线识别信息给基板管理控制器103。基于快速外围组件互连总线识别信息,基板管理控制器103可以从数据库(例如:辉达管理数据库114)撷取与图像处理器112相关的温度信息,以及进一步至少基于温度信息来控制有关的冷却风扇110的风扇转速。在某些实施中,基板管理控制器103可通过风扇控制服务117,来控制冷却风扇110的风扇转速。
第1D图描述第1C图中,图像处理器卡112的快速外围组件互连总线识别信息被传输到基板管理控制器(BMC)103的情形。在本例中,中央处理器(CPU)104-1与中央处理器(CPU)104-2直接连结到图像处理器卡112,该图像处理器卡112具有多个图像处理器。辉达管理数据库114通过统一计算架构(CUDA)驱动器121收集图像处理器(例如GPU0、GPU1、GPU2及GPU3)的温度信息。通过操作系统(OS)116,基板管理控制器103可以根据图像处理器卡112的快速外围组件互连总线识别信息,从辉达管理数据库114撷取图像处理器(例如GPU0、GPU1、GPU2及GPU3)的温度信息。至少基于图像处理器(例如GPU0、GPU1、GPU2及GPU3)的温度信息,基板管理控制器103通过频内集成电路连结,控制与图像处理器卡112有关的冷却风扇110的风扇转速。
第1E图描述第1C图中,快速外围组件互连(PCIe)交换器113-1、113-2的快速外围组件互连总线识别信息被传输到基板管理控制器103的情形。在本例中,快速外围组件互连交换器113-1连接中央处理器104-1,以及连接包括GPU0、GPU1、GPU2及GPU3之图像处理器丛集;而快速外围组件互连交换器113-2连接中央处理器104-2,以及连接包括GPU4、GPU5、GPU6及GPU7之图像处理器丛集。辉达管理数据库114通过统一计算架构(CUDA)驱动器121收集图像处理器112的温度信息。通过操作系统(OS)116,基板管理控制器103可以根据快速外围组件互连交换器113-1、113-2的快速外围组件互连总线识别信息,从辉达管理数据库114撷取图像处理器(例如GPU0-GPU7)的温度信息。至少基于图像处理器(例如GPU0-GPU7)的温度信息,基板管理控制器103可通过频内集成电路连结,控制与图像处理器112有关的冷却风扇110的风扇转速。
在某些实施中,传感器组122被设置在中央处理器(即104-1、104-2)以及快速外围组件互连交换器(即113-1、113-2)之间。传感器组122被设置来侦测中央处理器(即104-1、104-2)的温度,或者侦测中央处理器(即104-1、104-2)以及快速外围组件互连交换器(即113-1、113-2)之间的温度。至少基于中央处理器(即104-1、104-2)以及图像处理器(例如GPU0-GPU7)的温度信息,基板管理控制器103可通过频内集成电路连结,控制与快速外围组件互连交换器(即113-1、113-2)有关的冷却风扇110的风扇转速。
在某些实施中,当lspci侦测到服务器系统100E的拓朴包含快速外围组件互连交换器时,基板管理控制器(BMC)103可以自动考虑中央处理器(即104-1、104-2)的温度,使风扇控制服务117去收集传感器组122的温度数据。
在某些实施中,IPMITOOL用来通过键盘讯号控制(keyboard signal control;KSC)呼叫基板管理控制器103,以控制基板管理控制器103的服务。基板管理控制器原始数据为一个储存由图像处理器(例如GPU0-GPU7)所收到的图像处理器信息的空间。当操作系统116使基板管理控制器103启动基板管理控制器服务时,风扇控制服务117可自动从基板管理控制器原始数据中加载图像处理器信息。
第1F图描述第1C图中,复位时器卡115-1、115-2的快速外围组件互连总线识别信息被传输到基板管理控制器(BMC)103-1的情形。在本例中,复位时器卡115-1连接中央处理器(CPU)104-1以及快速外围组件互连(PCIe)交换器113-1;而复位时器卡115-2连接中央处理器(CPU)104-2以及快速外围组件互连(PCIe)交换器113-1。快速外围组件互连交换器113-1连接快速外围组件互连交换器113-2,且快速外围组件互连交换器113-2耦接至GPU0、GPU1、GPU2及GPU3;快速外围组件互连交换器113-1还连接快速外围组件互连交换器113-3,且快速外围组件互连交换器113-3耦接至GPU4、GPU5、GPU6及GPU7。辉达管理数据库114通过统一计算架构(CUDA)驱动器121收集图像处理器112的温度信息。
在本例中,通过操作系统(OS)116,基板管理控制器103-1可以根据复位时器卡115-1、115-2的快速外围组件互连总线识别信息,从辉达管理数据库114撷取图像处理器(例如GPU0-GPU7)的温度信息。至少基于图像处理器(例如GPU0-GPU7)的温度信息,基板管理控制器103-1可通过频外集成电路连结(I2C to BMC)120,控制与图像处理器(例如GPU0-GPU7)有关的冷却风扇110-2的风扇转速。
在某些实施中,频外(out-band)被用来连接复位时器卡115-1、115-2到集束磁盘系统(just-bunch-of-disks:JBOD;第1F图左下部分)。集束磁盘系统并不需要任何中央处理器,可以只拥有迷你序列先进技术附件(SATA)以连接复位时器卡115-1、115-2。
在本例中,复位时器卡115-1、115-2将第1F图的左上部分和左下部分这两个独立的系统连接在一起。当操作系统代理116检查拓朴以识别服务器系统100F的快速外围组件互连拓朴时,它可以确定某些信息没办法从本地的组件中取得,并且自动考虑集束磁盘的基板管理控制器103-2的信息,该信息包括图像处理器(例如GPU0-GPU7)的温度信息。因此,操作系统代理116会使用键盘讯号控制来启用风扇控制服务117,风扇控制服务117为独立于与基板管理控制器(BMC)103-2、103-1之程序。
如上所述,服务器系统100A-100F不必要求图像处理器(GPU)112藉由集成电路连结传输温度信息,即可有效控制图像处理器的温度。第1G图为一个特定范例。在本例中,图像处理器与基板管理控制器的温度各别达到了84℃和32℃,且冷却风扇110的风扇转速为60%。一旦基板管理控制器(BMC)103撷取图像处理器温度,基板管理控制器103可以确定图像处理器的温度84℃太接近减速温度的85℃。基板管理控制器103则可将冷却风扇110的风扇转速从60%增加到80%。因此,图像处理器与基板管理控制器的温度各自降低到82℃和30℃。因此,图像处理器112可有效地运作在合适的温度,并维持高使用率。
上述讨论用以描述本公开的原理以及各种范例。一旦完全理解上述公开,多种变化和更改将变得显而易知。
第2图为根据本公开的实施,通过服务器系统的快速外围组件互连拓朴,用以控制风扇转速的方法之范例。应该理解的是,范例的方法200仅出自于说明之目的而呈现,且根据本公开的其他方法,可涵盖用类似、交换顺序、或同步的方式来执行增加、减少、或替代的步骤。范例的方法200由步骤202:决定服务器系统的快速外围组件互连拓朴开始。在某些实施中,服务器系统中的快速外围组件互连拓朴树可用来决定服务器系统的快速外围组件互连拓朴。
于步骤204,快速外围组件互连总线识别信息可以通过操作系统代理,而被传输到服务器系统的管理控制器(例如:基板管理控制器),如第1A-1F图所示。在某些实施中,快速外围组件互连拓朴树可以通过操作系统代理,传输快速外围组件互连总线识别信息给管理控制器。于步骤206,管理控制器可以识别与接收到快速外围组件互连总线识别信息有关的特定装置。
于步骤208,如第1C、1D图所示,在快速外围组件互连总线识别信息与图像处理器卡有关的情况下,管理控制器可以根据快速外围组件互连总线识别信息,从图像处理器数据库(例如:辉达管理数据库)中撷取与图像处理器卡有关的温度信息。于步骤210,至少基于图像处理器卡的温度信息,管理控制器可通过频内集成电路连结,控制与图像处理器卡有关的冷却风扇的风扇转速。
于步骤212,如第1C、1E图所示,在快速外围组件互连总线识别信息与快速外围组件互连交换器有关的情况下,管理控制器可以根据快速外围组件互连总线识别信息,从图像处理器数据库中撷取与快速外围组件互连交换器有关的温度信息。在某些实施中,如第1E图所示,传感器组可设置在中央处理器以及快速外围组件互连交换器之间,用以侦测中央处理器的温度,或是侦测在中央处理器以及快速外围组件互连交换器之间的温度。于步骤214,管理控制器可使用传感器组来决定中央处理器的温度。于步骤216,至少基于图像处理器卡与中央处理器的温度信息,管理控制器可通过频内集成电路连结,控制与快速外围组件互连交换器有关的冷却风扇的风扇转速。
于步骤218,如第1C、1F图所示,在快速外围组件互连总线识别信息与复位时器卡有关的情况下,管理控制器可以根据快速外围组件互连总线识别信息,从图像处理器数据库中撷取与复位时器卡有关的图像处理器的温度信息。于步骤220,至少基于图像处理器的温度信息,管理控制器可以通过频外集成电路连结,控制与复位时器卡有关的冷却风扇的风扇转速。

Claims (10)

1.一种计算机实施方法,通过一快速外围组件互连(PCIe)拓朴,用以控制一服务器系统的复数冷却风扇的风扇转速,包括:
决定该服务器系统的该快速外围组件互连拓朴;
通过一操作系统代理,传输一快速外围组件互连总线识别信息;
在该快速外围组件互连总线识别信息对应一图像处理器卡的情况下,根据该快速外围组件互连总线识别信息,从一图像处理器数据库中撷取该图像处理器卡的温度信息;以及
至少基于该图像处理器卡的该温度信息,通过复数频内集成电路(in-band I2C)连结,管理与该图像处理器卡有关的复数冷却风扇的风扇转速。
2.如权利要求1所述的计算机实施方法,包括:
在该快速外围组件互连总线识别信息对应一快速外围组件互连交换器的情况下,根据该快速外围组件互连总线识别信息,从该图像处理器数据库中撷取与该快速外围组件互连交换器有关的图像处理器的温度信息;以及
至少基于该至少一图像处理器的温度信息,通过该等频内集成电路连结,管理与该快速外围组件互连交换器有关的复数冷却风扇的该风扇转速。
3.如权利要求1所述的计算机实施方法,包括:
在该快速外围组件互连总线识别信息对应一复位时器卡的情况下,根据该快速外围组件互连总线识别信息,从该图像处理器数据库中撷取与该复位时器卡有关的至少一图像处理器的温度信息;以及
基于该图像处理器的温度信息,通过复数频外集成电路连结,管理与该复位时器卡有关的复数冷却风扇的风扇转速。
4.一种服务器系统,包括:
一处理器;
一管理控制器;以及
一计算机可读介质,储存复数指令,当该等指令由该处理器执行时,使得该服务器系统执行复数操作,该等操作包括:
决定该服务器系统的一快速外围组件互连(PCIe)拓朴;
通过一操作系统代理,传输一快速外围组件互连总线识别信息;
在该快速外围组件互连总线识别信息对应一图像处理器卡的情况下,根据该快速外围组件互连总线识别信息,从一图像处理器数据库中撷取该图像处理器卡的温度信息;以及
至少基于该图像处理器卡的该温度信息,通过复数频内集成电路连结,管理与该图像处理器卡有关的复数冷却风扇的风扇转速。
5.如权利要求4所述的服务器系统,其中该计算机可读介质,储存该等指令,当该等指令由该处理器执行时,更使得该服务器系统执行:
在该快速外围组件互连总线识别信息对应一快速外围组件互连交换器的情况下,根据该快速外围组件互连总线识别信息,从该图像处理器数据库中撷取与该快速外围组件互连交换器有关的图像处理器的温度信息;以及
至少基于该图像处理器的温度信息,通过该等频内集成电路连结,管理与该快速外围组件互连交换器有关的复数冷却风扇的该风扇转速。
6.如权利要求4所述的服务器系统,其中,该计算机可读介质储存复数指令,当该等指令由该处理器执行时,还使得该服务器系统执行复数操作,该等操作包括:
在该快速外围组件互连总线识别信息对应一复位时器卡的情况下,根据该快速外围组件互连总线识别信息,从该图像处理器数据库中撷取与该复位时器卡有关的至少一图像处理器的温度信息;以及
基于该至少一图像处理器的温度信息,通过复数频外集成电路连结,管理与该复位时器卡有关的复数冷却风扇的风扇转速。
7.如权利要求4所述的服务器系统,其中,该服务器系统的该快速外围组件互连拓朴被决定使用一快速外围组件互连拓朴树,其中,该快速外围组件互连拓朴树通过该操作系统代理传输该快速外围组件互连总线识别信息给该管理控制器。
8.一种非瞬时计算机可读储存介质,包括复数指令,当该等指令由一服务器系统的至少一处理器执行时,使得该服务器系统执行复数操作,该等操作包括:
决定该服务器系统的一快速外围组件互连拓朴;
通过一操作系统代理,传输一快速外围组件互连总线识别信息;
在该快速外围组件互连总线识别信息对应一图像处理器卡的情况下,根据该快速外围组件互连总线识别信息,从一图像处理器数据库中撷取该图像处理器卡的温度信息;以及
至少基于该图像处理器卡的该温度信息,通过复数频内集成电路连结,管理与该图像处理器卡有关的复数冷却风扇的风扇转速。
9.如权利要求8所述的非瞬时计算机可读储存介质,其中,当该等指令由至少一处理器执行时,还使得该服务器系统执行复数操作,该等操作包括:
在该快速外围组件互连总线识别信息对应一快速外围组件互连交换器的情况下,根据该快速外围组件互连总线识别信息,从该图像处理器数据库中撷取与该快速外围组件互连交换器有关的图像处理器的温度信息;以及
至少基于该至少一图像处理器的温度信息,通过该等频内集成电路连结,管理与该快速外围组件互连交换器有关的复数冷却风扇的该风扇转速。
10.如权利要求8所述的非瞬时计算机可读储存介质,其中,当该等指令由至少一处理器执行时,还使得该服务器系统执行复数操作,该等操作包括:
在该快速外围组件互连总线识别信息对应一复位时器卡的情况下,根据该快速外围组件互连总线识别信息,从该图像处理器数据库中撷取与该复位时器卡有关的至少一图像处理器的温度信息;以及
基于该至少一图像处理器的温度信息,通过复数频外集成电路连结,管理与该复位时器卡有关的复数冷却风扇的风扇转速。
CN201910018571.0A 2018-09-21 2019-01-09 控制风扇转速的方法、服务器系统及计算机可读储存介质 Active CN110941313B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/138,260 2018-09-21
US16/138,260 US10776304B2 (en) 2018-09-21 2018-09-21 Fan speed control via PCIE topology

Publications (2)

Publication Number Publication Date
CN110941313A true CN110941313A (zh) 2020-03-31
CN110941313B CN110941313B (zh) 2022-03-15

Family

ID=66397123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910018571.0A Active CN110941313B (zh) 2018-09-21 2019-01-09 控制风扇转速的方法、服务器系统及计算机可读储存介质

Country Status (5)

Country Link
US (1) US10776304B2 (zh)
EP (1) EP3627283B1 (zh)
JP (1) JP6876105B2 (zh)
CN (1) CN110941313B (zh)
TW (1) TWI684866B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI710953B (zh) * 2019-05-31 2020-11-21 緯創資通股份有限公司 韌體更新裝置以及韌體更新方法
CN114579385A (zh) * 2020-11-18 2022-06-03 英业达科技有限公司 服务器的PCIe芯片的温度预测系统及方法
US11509751B2 (en) * 2020-12-23 2022-11-22 Dell Products L.P. Self-describing system using single-source/multi-destination cable
JP7174281B2 (ja) * 2021-02-17 2022-11-17 富士通クライアントコンピューティング株式会社 情報処理装置、情報処理システムおよびプログラム
TWI786829B (zh) * 2021-09-16 2022-12-11 英業達股份有限公司 具人工智慧的效能調節系統及其調節方法
CN114035662B (zh) * 2021-10-15 2023-07-14 苏州浪潮智能科技有限公司 Ai服务器散热调控方法、系统、终端及存储介质
WO2023075750A1 (en) * 2021-10-25 2023-05-04 Hewlett-Packard Development Company, L.P. Temperature settings for temperature control circuits
CN114253897B (zh) * 2021-12-16 2023-07-14 苏州浪潮智能科技有限公司 一种系统PCIe拓扑动态切换系统与方法
CN114356057A (zh) * 2021-12-30 2022-04-15 浙江大华技术股份有限公司 控制PCIe卡散热的方法、装置、设备及存储介质
US20230213999A1 (en) * 2022-01-06 2023-07-06 Nvidia Corporation Techniques for controlling computing performance for power-constrained multi-processor computing systems
CN117591378B (zh) * 2024-01-17 2024-04-05 苏州元脑智能科技有限公司 一种服务器的温度控制方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253918A (zh) * 2010-05-05 2011-11-23 英业达股份有限公司 计算机系统
CN202183065U (zh) * 2011-07-25 2012-04-04 华美科技(苏州)有限公司 塔式4gpu计算机装置
CN104202194A (zh) * 2014-09-10 2014-12-10 华为技术有限公司 PCIe拓扑的配置方法和装置
US20150108934A1 (en) * 2013-10-17 2015-04-23 Nvidia Corporation Distributed fan control
CN106640721A (zh) * 2016-12-28 2017-05-10 郑州云海信息技术有限公司 一种改善服务器噪声的风扇控制方法及系统
CN106815156A (zh) * 2017-01-22 2017-06-09 联想(北京)有限公司 一种实现固态硬盘交互的装置、方法和和电子设备
CN108196999A (zh) * 2018-01-02 2018-06-22 郑州云海信息技术有限公司 服务器bmc获取gpu温度的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130342989A1 (en) * 2012-06-21 2013-12-26 Gregory L. Singleton Disk drive carrier apparatus for a computer system
US9244872B2 (en) * 2012-12-21 2016-01-26 Ati Technologies Ulc Configurable communications controller
US20150212755A1 (en) * 2014-01-30 2015-07-30 Avalanche Technology, Inc. Method of managing throughput of redundant array of independent disks (raid) groups in a solid state disk array
US10127055B2 (en) * 2015-10-16 2018-11-13 Quanta Computer Inc. iSCSI based bare metal OS image deployment and diskless boot
CN105808499A (zh) * 2016-04-01 2016-07-27 浪潮电子信息产业股份有限公司 一种cpu互联装置以及多路服务器cpu互联拓扑结构
CN107819834A (zh) * 2017-10-27 2018-03-20 郑州云海信息技术有限公司 Linux下快速确认服务器PCIe设备的状态及位置的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253918A (zh) * 2010-05-05 2011-11-23 英业达股份有限公司 计算机系统
CN202183065U (zh) * 2011-07-25 2012-04-04 华美科技(苏州)有限公司 塔式4gpu计算机装置
US20150108934A1 (en) * 2013-10-17 2015-04-23 Nvidia Corporation Distributed fan control
CN104202194A (zh) * 2014-09-10 2014-12-10 华为技术有限公司 PCIe拓扑的配置方法和装置
CN106640721A (zh) * 2016-12-28 2017-05-10 郑州云海信息技术有限公司 一种改善服务器噪声的风扇控制方法及系统
CN106815156A (zh) * 2017-01-22 2017-06-09 联想(北京)有限公司 一种实现固态硬盘交互的装置、方法和和电子设备
CN108196999A (zh) * 2018-01-02 2018-06-22 郑州云海信息技术有限公司 服务器bmc获取gpu温度的方法及装置

Also Published As

Publication number Publication date
US10776304B2 (en) 2020-09-15
TWI684866B (zh) 2020-02-11
US20200097431A1 (en) 2020-03-26
CN110941313B (zh) 2022-03-15
TW202013198A (zh) 2020-04-01
EP3627283B1 (en) 2022-04-06
JP6876105B2 (ja) 2021-05-26
EP3627283A1 (en) 2020-03-25
JP2020053032A (ja) 2020-04-02

Similar Documents

Publication Publication Date Title
CN110941313B (zh) 控制风扇转速的方法、服务器系统及计算机可读储存介质
US9934187B2 (en) Hot-pluggable computing system
US10127170B2 (en) High density serial over LAN management system
TWI624758B (zh) 指示燈控制系統以及發光二極體控制方法
EP3261420A1 (en) Virtual chassis management controller
US20170220506A1 (en) Modular Software Defined Storage Technology
US9804980B2 (en) System management through direct communication between system management controllers
CN106155813B (zh) 管理计算系统中的计算设备
US20170329736A1 (en) Flexible nvme drive management solution
CN113821091B (zh) 风扇故障补偿
CN114116378A (zh) 获取PCIe设备温度的方法、系统、终端及存储介质
TWI791913B (zh) 經由邊帶介面恢復場域可程式閘陣列韌體之系統及方法
CN117041184B (zh) Io拓展装置及io交换机
CN104049692A (zh) 一种刀片服务器
US11366696B2 (en) System, board card and electronic device for data accelerated processing
US10585833B1 (en) Flexible PCIe topology
CN109976478B (zh) 多cpu散热控制系统和散热控制方法
CN107659413B (zh) 小型通信设备
CN107643990B (zh) 可配置架构的通信设备
JP2007094470A (ja) 情報処理装置のホットプラグ処理方法
TWI819746B (zh) 燈號控制裝置、燈號控制方法及其伺服器
US10409940B1 (en) System and method to proxy networking statistics for FPGA cards
CN114924998B (zh) 内存信息读取装置及方法、计算设备主板、设备和介质
CN117076354A (zh) 一种硬件管理卡及相关产品
CN117931582A (zh) 一种服务器监控管理系统、系统主板、监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant