CN112114631A - 显卡服务器、控制方法、系统、设备及存储介质 - Google Patents

显卡服务器、控制方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN112114631A
CN112114631A CN202011040555.0A CN202011040555A CN112114631A CN 112114631 A CN112114631 A CN 112114631A CN 202011040555 A CN202011040555 A CN 202011040555A CN 112114631 A CN112114631 A CN 112114631A
Authority
CN
China
Prior art keywords
display card
power
controller
power supply
computing node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011040555.0A
Other languages
English (en)
Other versions
CN112114631B (zh
Inventor
朱鹤洲
李庚�
范建根
梅田
张琦
蒲一超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Lingshi Communication Technology Development Co ltd
Suzhou Keda Technology Co Ltd
Original Assignee
Shanghai Lingshi Communication Technology Development Co ltd
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Lingshi Communication Technology Development Co ltd, Suzhou Keda Technology Co Ltd filed Critical Shanghai Lingshi Communication Technology Development Co ltd
Priority to CN202011040555.0A priority Critical patent/CN112114631B/zh
Publication of CN112114631A publication Critical patent/CN112114631A/zh
Application granted granted Critical
Publication of CN112114631B publication Critical patent/CN112114631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/183Internal mounting support structures, e.g. for printed circuit boards, internal connecting means
    • G06F1/185Mounting of expansion boards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/181Enclosures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/183Internal mounting support structures, e.g. for printed circuit boards, internal connecting means
    • G06F1/188Mounting of power supply units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/266Arrangements to supply power to external peripherals either directly from the computer or under computer control, e.g. supply of power through the communication port, computer controlled power-strips
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • G06F13/4081Live connection to bus, e.g. hot-plugging

Abstract

本发明提供了一种显卡服务器、控制方法、系统、设备及存储介质,该显卡服务器包括:两个显卡组,所述两个显卡组相对设置,所述两个显卡组之间形成有沿第一方向的风道,每个所述显卡组包括多个显卡计算节点,同一组的所述显卡计算节点沿所述第一方向排列,每个所述显卡计算节点包括电源接口和通信接口;至少一电源模块,与所述显卡计算节点的电源接口以热插拔方式连接;以及控制器,与所述显卡计算节点的通信接口以热插拔方式连接。本发明实现了显卡计算单元模块化设计,在不关机不断电的情况下实现了显卡计算单元的热插拔。

Description

显卡服务器、控制方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种显卡服务器、控制方法、系统、设备及存储介质。
背景技术
现有的显卡服务器一般可以支持2-10张不等的显卡,在使用过程中如果因为算力需求的改变需要增减显卡时,则必须要关机断电,然后拆机箱后增减显卡。一方面拆装比较麻烦,另外一方面需要关机断电中断使用。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种显卡服务器、控制方法、系统、设备及存储介质,在不关机不断电的情况下实现显卡计算单元的热插拔。
本发明实施例提供一种显卡服务器,包括:
两个显卡组,所述两个显卡组相对设置,所述两个显卡组之间形成有沿第一方向的风道,每个所述显卡组包括多个显卡计算节点,同一组的所述显卡计算节点沿所述第一方向排列,每个所述显卡计算节点包括电源接口和通信接口;
至少一电源模块,与所述显卡计算节点的电源接口以热插拔方式连接;
控制器,与所述显卡计算节点的通信接口以热插拔方式连接。
可选地,还包括机箱,所述机箱的前侧和后侧分别设置有插入口,所述两个显卡组的各个显卡计算节点分别通过所述机箱的前侧和后侧的插入口插入所述机箱,所述机箱的左右两端对应于所述风道的位置分别设置有机箱进风口。
可选地,所述机箱包括上部的显卡区域和下部的电源区域,所述显卡组设置于所述显卡区域中,所述电源模块设置于所述电源区域中。
可选地,每个所述显卡计算节点包括一显卡控制单元和至少一个显卡,所述显卡控制单元与所述显卡相连接,所述显卡控制单元通过所述通信接口与所述控制器相连接。
可选地,所述电源模块包括电源控制开关,所述电源控制开关由所述控制器控制;
各个所述电源模块包括一状态检测接口,所述状态检测接口与所述控制器相连接;
所述电源模块与所述显卡计算节点的电源接口之间还设置有显卡上电开关,所述显卡上电开关由所述控制器控制。
本发明的显卡服务器中,通过将显卡计算节点形成单个可以热插拔的显卡模块,并且显卡计算节点只通过通信接口以及电源接口进行连接,实现了显卡计算单元模块化设计,在不关机不断电的情况下实现了显卡计算单元的热插拔,从而可以实现对于已部署的产品可以灵活地增减显卡计算单元,来满足业务扩容以及后期维护等需求,极大地方便了显卡计算单元的增减,以及在显卡计算单元不良后维修维护的便捷性。
本发明实施例还提供一种显卡服务器的控制方法,用于控制所述的显卡服务器,所述电源模块与所述显卡计算节点的电源接口之间还设置有显卡上电开关,所述显卡上电开关由所述控制器控制;
所述方法包括如下步骤:
所述控制器检测当前已连接的显卡计算节点的数量,所述显卡计算节点通过通信接口与所述控制器相连接;
所述控制器检测当前状态有效的电源模块的数量;
所述控制器判断当前状态有效的电源模块是否满足当前已连接的显卡计算节点的供电需求;
如果是,则所述控制器控制所述已连接的显卡计算节点所对应的显卡上电开关导通;
如果否,则所述控制器控制所述已连接的显卡计算节点所对应的显卡上电开关断开。
可选地,所述电源模块包括电源控制开关,所述电源控制开关由所述控制器控制,各个所述电源模块包括一状态检测接口,所述状态检测接口与所述控制器相连接;
所述控制器检测当前状态有效的电源模块的数量,包括如下步骤:
所述控制器控制所述电源控制开关导通,启动所述电源模块;
所述控制器通过各个所述电源模块的状态检测接口,检测各个所述电源模块的状态;
所述控制器统计当前状态有效的电源模块的数量。
可选地,还包括如下步骤:
所述控制器检测到新的显卡计算节点的通信接口连接;
所述控制器判断当前状态有效的电源模块是否满足增加新的显卡计算节点后所有已连接的显卡计算节点的供电需求;
如果是,则所述控制器控制所述新的显卡计算节点所对应的显卡上电开关导通;
如果否,则所述控制器控制所述新的显卡计算节点所对应的显卡上电开关断开。
本发明通过采用显卡在位侦测可以获得当前在位的显卡计算节点的数量,通过电源状态检测可以检测可以使用的电源模块数量,从而可以判断当前是否可以正常供电,进而控制显卡上电开关的导通状态,支持显卡计算节点的支持热插拔的动态电源管理,在不关机不断电的情况下实现了显卡计算单元的热插拔,从而可以实现对于已部署的产品可以灵活地增减显卡计算单元,来满足业务扩容以及后期维护等需求,极大地方便了显卡计算单元的增减,以及在显卡计算单元不良后维修维护的便捷性。
本发明实施例还提供一种显卡服务器的控制系统,用于实现所述的显卡服务器的控制方法,所述系统包括设置于所述控制器中的如下模块:
显卡在位侦测模块,用于检测当前已连接的显卡计算节点的数量,所述显卡计算节点通过通信接口与所述控制器相连接;
电源状态检测模块,用于检测当前状态有效的电源模块的数量;
显卡上电控制模块,用于判断当前状态有效的电源模块是否满足当前已连接的显卡计算节点的供电需求,如果是,则控制所述已连接的显卡计算节点所对应的显卡上电开关导通,如果否,则控制所述已连接的显卡计算节点所对应的显卡上电开关断开。
本发明通过采用显卡在位侦测模块可以获得当前在位的显卡计算节点的数量,通过电源状态检测模块可以检测可以使用的电源模块数量,从而可以采用显卡上电控制模块判断当前是否可以正常供电,进而控制显卡上电开关的导通状态,支持显卡计算节点的支持热插拔的动态电源管理,在不关机不断电的情况下实现了显卡计算单元的热插拔,从而可以实现对于已部署的产品可以灵活地增减显卡计算单元,来满足业务扩容以及后期维护等需求,极大地方便了显卡计算单元的增减,以及在显卡计算单元不良后维修维护的便捷性。
本发明实施例还提供一种显卡服务器的控制设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的显卡服务器的控制方法的步骤。
通过采用本发明所提供的显卡服务器的控制设备,所述处理器在执行所述可执行指令时执行所述的显卡服务器的控制方法,由此可以获得上述显卡服务器的控制方法的有益效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的显卡服务器的控制方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
通过采用本发明所提供的计算机可读存储介质,所述程序在执行时实现所述的显卡服务器的控制方法,由此可以获得上述显卡服务器的控制方法的有益效果。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的显卡服务器的后面板正视图;
图2是本发明一实施例的显卡服务器的前面板正视图;
图3是本发明一实施例的显卡服务器的俯视图;
图4是本发明一实施例的显卡服务器的立体图;
图5是本发明一实施例的用于控制器的单片机的示意图;
图6是本发明一实施例的显卡服务器的控制方法的流程图;
图7是本发明一实施例的显卡服务器的控制系统的结构示意图;
图8是本发明一实施例的显卡服务器的控制设备的结构示意图;
图9是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1~3所示,本发明实施例提供一种显卡服务器,包括:
两个显卡组,所述两个显卡组相对设置,所述两个显卡组之间形成有沿第一方向的风道F,每个所述显卡组包括多个显卡计算节点,同一组的所述显卡计算节点沿所述第一方向排列,每个所述显卡计算节点包括电源接口和通信接口;
至少一电源模块,与所述显卡计算节点的电源接口以热插拔方式连接;
控制器,与所述显卡计算节点的通信接口以热插拔方式连接。
本发明的显卡服务器中,通过将显卡计算节点形成单个可以热插拔的显卡模块,并且显卡计算节点只通过通信接口以及电源接口进行连接,实现了显卡计算单元模块化设计,在不关机不断电的情况下实现了显卡计算单元的热插拔,从而可以实现对于已部署的产品可以灵活地增减显卡计算单元,来满足业务扩容以及后期维护等需求,极大地方便了显卡计算单元的增减,以及在显卡计算单元不良后维修维护的便捷性。
在该实施例中,并且可以实现实时地增减显卡计算节点而不影响整机的使用。每个显卡计算节点都独立运行,热插拔过程中不会影响其他节点运行。各个显卡计算节点通过通信接口与控制器连接,实现互联。其中,所述通信接口可以为网络接口,例如以太网接口等,各个显卡计算节点通过网络接口实现与控制器连接。服务器整体也可以通过网络对外互联,方便级联部署。
图1-3示出了一个具体实例中的显卡服务器的结构。其中,服务器的尺寸可以按照标准服务器设计,宽度W为19英寸,显卡计算节点的总宽度W1为440mm,每个显卡计算节点的宽度W2为144mm。服务器总高度4U。其中下面1U高度H1可以用于电源模块以及机箱外部接口使用,上面3U的高度H2用于可插拔的显卡计算节点。服务器总长度L1为780mm,其中风道F的长度L2为180mm,单个显卡组的长度L3为300mm。风道F的两端为风道进风口F2,前后面板为风道出风口F1。通过中部进风,两侧出风的方式,有利于散热风道的设计,各个节点和模块之间散热进出风都比较合理,不会互相影响。
在该实例中,一共设置6个显卡计算节点GM1~GM6,并分为前面的一个显卡组和后面的一个显卡组,前面的一个显卡组包括3个显卡计算节点GM4~GM6,后面的显卡组也包括3个显卡计算节点GM1~GM3。每个显卡计算节点可以组装1~2张显卡。这样可以实现整个显卡服务器1~12张显卡灵活搭配。
如图4所示,在该实施例中,所述显卡服务器还包括机箱J1,所述机箱J1的左右两端对应于所述风道F的位置分别设置有机箱进风口J2。因此,整机的散热方案是机箱中部为进风口,两侧出风,这样有利于散热风道设计,各个节点、模块之间散热进出风都比较合理,不会相互影响。所述机箱J1的前侧和后侧分别设置有插入口,所述两个显卡组的各个显卡计算节点可以分别通过所述机箱J1的前侧和后侧的插入口插入所述机箱J1。这样,在需要热插拔显卡计算节点时,可以直接从插入口处将显卡计算节点插入或拔出,而无需再拆装机箱,大大节省了显卡计算节点插入拔出的效率,并且有利于显卡计算节点前侧和后侧的散热。
如图1~4所示,所述机箱J1包括上部的显卡区域和下部的电源区域,所述显卡组设置于所述显卡区域中,所述电源模块POW1~POW4设置于所述电源区域中。在该实例中,电源模块POW1~POW4选用3+1冗余设计,使用标准可插拔的CRPS(Common Redundant PowerSupplies,通用冗余电源)电源。电源模块POW1~POW4放置在机箱J1底部1U的空间,采用额定功率为1200W的电源。这样对于每个显卡计算节点最大可支持的功耗是600W。3个电源模块可以支持6个显卡计算节点,还有一个电源模块是热备份使用的。在其他实施方式中,有更高的功耗需求时,可以选用更大的电源模块,或者根据实际情况也可以选择更小的电源模块。
在该实施例中,每个所述显卡计算节点包括一显卡控制单元和至少一个显卡,所述显卡控制单元与所述显卡相连接,所述显卡控制单元通过所述通信接口与所述控制器相连接。所述显卡控制单元可以设置有X86小系统。由此每个显卡计算节点可以独立运行。由于此显卡计算节点是纯粹的计算节点,因此无需引出多余的接口。显卡计算节点与机箱互联的接口只有网络接口以及电源。这样大大简化了显卡计算节点与其他模块的互联设计,方便实现各个显卡计算节点的热插拔。在该实例中,由于每个显卡计算单元最大功耗在600W之内,一个显卡计算节点可以包括一个X86小系统和2张显卡。
在该实施例中,所述电源模块包括电源控制开关,所述电源控制开关由所述控制器控制。由此,所述控制器可以实现自动控制各个电源模块的开关。进一步地,各个所述电源模块可以包括一状态检测接口,所述状态检测接口与所述控制器相连接,所述控制器可以通过所述状态检测接口获取所述电源模块的运行参数,以判断所述电源模块是否正常运行。例如,所述控制器可以通过所述状态检测接口获取所述电源模块的电流值、电压值和/或温度值等。
所述电源模块与所述显卡计算节点的电源接口之间还设置有显卡上电开关,所述显卡上电开关由所述控制器控制,在所述显卡上电开关导通时,已启动的电源模块可以为对应的显卡计算节点供电,在所述显卡上电开关断开时,电源模块不可以为对应的显卡计算节点供电。
如图5所示,为本发明一实施例的控制器所采用的单片机的结构示意图。在其他实施例中,所述控制器也可以采用CPLD(Complex Programming logic device,复杂可编程逻辑器件)来实现。控制器需要至少包括如下控制管脚:(1)显卡计算节点在位侦测管脚(与每个显卡计算节点一一对应,在该实例中,为Node0_Present~Node5_Present引脚),用于检测当前已连接的显卡计算节点的数量;(2)电源模块启动信号引脚(在该实例中为PSON1_BPK_N和PSON2_BKP_N引脚),用于开启电源模块,即对应于电源控制开关;(3)电源模块状态信号引脚(与每个电源模块一一对应,在该实例中,为PS_PWROK1~PS_PWROK4引脚),即对应于所述电源模块的状态检测接口的检测结果;(4)每个显卡计算节点的显卡上电开关的控制引脚(在该实例中,即对应于Node0_PSON~Node5_PSON引脚)。进一步地,所述控制器还可以增加(5)告警灯信号引脚(Alerm_LED引脚)和蜂鸣器控制信号引脚(BEEP_ALM引脚)。告警灯信号引脚与告警灯连接,用于显卡服务器发生故障时采用灯光告警,蜂鸣器控制信号引脚与蜂鸣器连接,用于显卡服务器发生故障时采用声音告警。
如图6所示,本发明实施例还提供一种显卡服务器的控制方法,用于控制所述的显卡服务器,即实现所述显卡服务器的可热插拔的动态电源管理。为了减少插拔浪涌以及优化电源管理,所述控制器对每个显卡计算节点与电源模块的连接都设置了显卡上电开关,并且通过预先判断是否能满足供电需求的方式实现缓启动控制。
所述显卡服务器的控制方法包括如下步骤:
S100:所述控制器检测当前已连接的显卡计算节点的数量,所述显卡计算节点通过通信接口与所述控制器相连接;
以图5的控制器为例进行说明,控制器侦测显卡计算节点在位侦测管脚,即Node0_Present~Node5_Present这几个信号,当侦测到节点插入引脚有效时候,输出PSON1_BKP_N与PSON2_BKP_N信号,开启电源模块的开关,电源模块开始输出;
S200:所述控制器检测当前状态有效的电源模块的数量;
控制器送出PSON1_BKP_N与PSON2_BKP_N信号以后,侦测PS_PWROK1~PS_PWROK4以及Node0_Sence~Node5_Sence信号,从而获取当前已连接的显卡计算节点的数量以及当前状态有效的电源模块的数量;
S300:所述控制器判断当前状态有效的电源模块是否满足当前已连接的显卡计算节点的供电需求;
S400:如果是,则所述控制器控制所述已连接的显卡计算节点所对应的显卡上电开关导通;
S500:如果否,则所述控制器控制所述已连接的显卡计算节点所对应的显卡上电开关断开。
在该实例中,已连接的显卡计算节点数量小于等于2倍的可使用的电源模块的数量的时候,控制器才允许显卡计算节点上电。例如说PS_PWROK1~PS_PWROK4中有1个信号有效,Node0_Sence~Node5_Sence信号中有1个或者2个信号有效,这时候都可以让显卡计算节点上电,如果Node0_Sence~Node5_Sence信号中有超过2个信号有效,这时候就不允许显卡计算节点上电。控制器通过Node_PSON信号控制开关给显卡计算节点上电。当出现不允许给显卡计算节点上电的情况时,控制器通过Alerm_LED点亮告警灯,并且通过BEEP_ALM来控制蜂鸣器告警通知用于查看是否电源线没插好。
该实施例的显卡服务器的控制方法中,每个步骤的序号仅为区分各个步骤,而不作为各个步骤的具体执行顺序的限定,上述各个步骤之间的执行顺序可以根据需要调整改变,例如,所述步骤S100和S200的顺序可以调换。
本发明通过采用步骤S100获得当前在位的显卡计算节点的数量,通过步骤S200检测可以使用的电源模块数量,从而可根据步骤S300判断当前是否可以正常供电,进而控制显卡上电开关的导通状态,支持显卡计算节点的支持热插拔的动态电源管理,在不关机不断电的情况下实现了显卡计算单元的热插拔,从而实现对于已部署的产品可以灵活地增减显卡计算单元,来满足业务扩容以及后期维护等需求,极大地方便了显卡计算单元的增减,以及在显卡计算单元不良后维修维护的便捷性。
在该实施例中,所述电源模块包括电源控制开关,所述电源控制开关由所述控制器控制,各个所述电源模块包括一状态检测接口,所述状态检测接口与所述控制器相连接;
所述控制器检测当前状态有效的电源模块的数量,包括如下步骤:
所述控制器控制所述电源控制开关导通,启动所述电源模块,即控制器发出PSON1_BKP_N与PSON2_BKP_N;
所述控制器通过各个所述电源模块的状态检测接口,检测各个所述电源模块的状态,即控制器侦测PS_PWROK1~PS_PWROK4的信号,判断电源模块是否为PWROK状态,即状态有效可用于正常供电;
所述控制器统计当前状态有效的电源模块的数量。
在该实施例中,所述显卡服务器的控制方法还包括如下步骤:
所述控制器检测到新的显卡计算节点的通信接口连接;
所述控制器判断当前状态有效的电源模块是否满足增加新的显卡计算节点后所有已连接的显卡计算节点的供电需求;
如果是,则所述控制器控制所述新的显卡计算节点所对应的显卡上电开关导通;
如果否,则所述控制器控制所述新的显卡计算节点所对应的显卡上电开关断开。
当有外部显卡计算节点插入时候,同样控制器需要判断是否满足上电条件。如果满足则给显卡计算节点正常供电,如果不满足则不给新插入的显卡计算节点供电,其他显卡计算节点正常运行。控制器输出告警通知用户电源功率不足。因此,在电源模块供电不足的情况下如果有热插拔插入显卡计算节点,则不能给显卡计算节点供电,以防影响其他正在运行的节点。比如说只有2个电源模块在供电,其他两个可能没插220V电源线或者插头松了以及电源模块损坏等情况不在供电。
进一步地,如果显卡服务器正常运行过程中有电源模块插拔,由于是3+1冗余设计因此支持热插拔更换电源模块。这时候同样单片机需要判断拔出电源模块以后,目前的电源是否满足正在工作的节点供电需求。如果不满足则点亮告警灯,驱动蜂鸣器告警,并且计时30秒。如果在30秒以内都是如此则关闭所有正在运行的显卡计算节点。此处30秒时间是留给用户误拔电源模块后自行恢复的时间。
因此,本发明支持不断电,不影响其他显卡计算节点和电源模块正常运行的情况下,热插拔增加或者减少显卡计算节点数量。支持动态电源管理以及缓启动,减少插拔电源浪涌,确保热插拔显卡计算节点和电源模块不会影响整机电源供给。
如图7所示,本发明实施例还提供一种显卡服务器的控制系统,用于实现所述的显卡服务器的控制方法,所述系统包括设置于所述控制器中的如下模块:
显卡在位侦测模块M100,用于检测当前已连接的显卡计算节点的数量,所述显卡计算节点通过通信接口与所述控制器相连接;
电源状态检测模块M200,用于检测当前状态有效的电源模块的数量;
显卡上电控制模块M300,用于判断当前状态有效的电源模块是否满足当前已连接的显卡计算节点的供电需求,如果是,则控制所述已连接的显卡计算节点所对应的显卡上电开关导通,如果否,则控制所述已连接的显卡计算节点所对应的显卡上电开关断开。
本发明的显卡服务器的控制系统中,各个模块的功能可以采用如上所述的显卡服务器的控制方法的具体实施方式来实现,此处不予赘述。
本发明通过采用显卡在位侦测模块M100可以获得当前在位的显卡计算节点的数量,通过电源状态检测模块M200可以检测可以使用的电源模块数量,从而可以采用显卡上电控制模块M300判断当前是否可以正常供电,进而控制显卡上电开关的导通状态,支持显卡计算节点的支持热插拔的动态电源管理,在不关机不断电的情况下实现了显卡计算单元的热插拔,从而可以实现对于已部署的产品可以灵活地增减显卡计算单元,来满足业务扩容以及后期维护等需求,极大地方便了显卡计算单元的增减,以及在显卡计算单元不良后维修维护的便捷性。
本发明实施例还提供一种显卡服务器的控制设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的显卡服务器的控制方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图8来描述根据本发明的这种实施方式的电子设备600。图8显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述显卡服务器的控制方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过采用本发明所提供的显卡服务器的控制设备,所述处理器在执行所述可执行指令时执行所述的显卡服务器的控制方法,由此可以获得上述显卡服务器的控制方法的有益效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现所述的显卡服务器的控制方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上执行时,所述程序代码用于使所述终端设备执行本说明书上述显卡服务器的控制方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图9所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上执行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过采用本发明所提供的计算机可读存储介质,所述程序在执行时实现所述的显卡服务器的控制方法,由此可以获得上述显卡服务器的控制方法的有益效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种显卡服务器,其特征在于,包括:
两个显卡组,所述两个显卡组相对设置,所述两个显卡组之间形成有沿第一方向的风道,所述风道的两端设置有进风口,每个所述显卡组包括多个显卡计算节点,同一组的所述显卡计算节点沿所述第一方向排列,每个所述显卡计算节点包括电源接口和通信接口;
至少一电源模块,与所述显卡计算节点的电源接口以热插拔方式连接;
控制器,与所述显卡计算节点的通信接口以热插拔方式连接。
2.根据权利要求1所述的显卡服务器,其特征在于,还包括机箱,所述机箱的前侧和后侧分别设置有插入口,所述两个显卡组的各个显卡计算节点分别通过所述机箱的前侧和后侧的插入口插入所述机箱,所述机箱的左右两端对应于所述风道的位置分别设置有机箱进风口。
3.根据权利要求2所述的显卡服务器,其特征在于,所述机箱包括上部的显卡区域和下部的电源区域,所述显卡组设置于所述显卡区域中,所述电源模块设置于所述电源区域中。
4.根据权利要求1所述的显卡服务器,其特征在于,所述电源模块包括电源控制开关,所述电源控制开关由所述控制器控制;
各个所述电源模块包括一状态检测接口,所述状态检测接口与所述控制器相连接;
所述电源模块与所述显卡计算节点的电源接口之间还设置有显卡上电开关,所述显卡上电开关由所述控制器控制。
5.一种显卡服务器的控制方法,其特征在于,用于控制权利要求1至4任一项所述的显卡服务器,所述电源模块与所述显卡计算节点的电源接口之间还设置有显卡上电开关,所述显卡上电开关由所述控制器控制;
所述方法包括如下步骤:
所述控制器检测当前已连接的显卡计算节点的数量,所述显卡计算节点通过通信接口与所述控制器相连接;
所述控制器检测当前状态有效的电源模块的数量;
所述控制器判断当前状态有效的电源模块是否满足当前已连接的显卡计算节点的供电需求;
如果是,则所述控制器控制所述已连接的显卡计算节点所对应的显卡上电开关导通;
如果否,则所述控制器控制所述已连接的显卡计算节点所对应的显卡上电开关断开。
6.根据权利要求5所述的显卡服务器的控制方法,其特征在于,所述电源模块包括电源控制开关,所述电源控制开关由所述控制器控制,各个所述电源模块包括一状态检测接口,所述状态检测接口与所述控制器相连接;
所述控制器检测当前状态有效的电源模块的数量,包括如下步骤:
所述控制器控制所述电源控制开关导通,启动所述电源模块;
所述控制器通过各个所述电源模块的状态检测接口,检测各个所述电源模块的状态;
所述控制器统计当前状态有效的电源模块的数量。
7.根据权利要求5所述的显卡服务器的控制方法,其特征在于,还包括如下步骤:
所述控制器检测到新的显卡计算节点的通信接口连接;
所述控制器判断当前状态有效的电源模块是否满足增加新的显卡计算节点后所有已连接的显卡计算节点的供电需求;
如果是,则所述控制器控制所述新的显卡计算节点所对应的显卡上电开关导通;
如果否,则所述控制器控制所述新的显卡计算节点所对应的显卡上电开关断开。
8.一种显卡服务器的控制系统,用于实现权利要求5至7中任一项所述的显卡服务器的控制方法,其特征在于,所述系统包括设置于所述控制器中的如下模块:
显卡在位侦测模块,用于检测当前已连接的显卡计算节点的数量,所述显卡计算节点通过通信接口与所述控制器相连接;
电源状态检测模块,用于检测当前状态有效的电源模块的数量;
显卡上电控制模块,用于判断当前状态有效的电源模块是否满足当前已连接的显卡计算节点的供电需求,如果是,则控制所述已连接的显卡计算节点所对应的显卡上电开关导通,如果否,则控制所述已连接的显卡计算节点所对应的显卡上电开关断开。
9.一种显卡服务器的控制设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求5至7中任一项所述的显卡服务器的控制方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求5至7中任一项所述的显卡服务器的控制方法的步骤。
CN202011040555.0A 2020-09-28 2020-09-28 显卡服务器、控制方法、系统、设备及存储介质 Active CN112114631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011040555.0A CN112114631B (zh) 2020-09-28 2020-09-28 显卡服务器、控制方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011040555.0A CN112114631B (zh) 2020-09-28 2020-09-28 显卡服务器、控制方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112114631A true CN112114631A (zh) 2020-12-22
CN112114631B CN112114631B (zh) 2022-03-01

Family

ID=73796898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011040555.0A Active CN112114631B (zh) 2020-09-28 2020-09-28 显卡服务器、控制方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112114631B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887292A (zh) * 2009-05-12 2010-11-17 鸿富锦精密工业(深圳)有限公司 电脑主机板及其上的供电控制电路
CN202677260U (zh) * 2012-06-08 2013-01-16 联想(北京)有限公司 计算机及其显卡、主板
CN105739652A (zh) * 2016-01-28 2016-07-06 浪潮电子信息产业股份有限公司 一种新型集成高密度gpu的散热方法
CN106774772A (zh) * 2017-01-16 2017-05-31 郑州云海信息技术有限公司 一种热插拔模块供电装置、方法及系统
WO2018040309A1 (zh) * 2016-08-30 2018-03-08 深圳市元创时代科技有限公司 电力供应扩展卡及电脑机箱
CN208400055U (zh) * 2018-05-29 2019-01-18 联想(北京)有限公司 一种显卡安装盒及电子设备
CN210348361U (zh) * 2019-11-01 2020-04-17 杭州冰特科技股份有限公司 一种刀片式多gpu服务器
CN111339011A (zh) * 2020-02-21 2020-06-26 银河水滴科技(北京)有限公司 主控装置及阵列服务器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101887292A (zh) * 2009-05-12 2010-11-17 鸿富锦精密工业(深圳)有限公司 电脑主机板及其上的供电控制电路
CN202677260U (zh) * 2012-06-08 2013-01-16 联想(北京)有限公司 计算机及其显卡、主板
CN105739652A (zh) * 2016-01-28 2016-07-06 浪潮电子信息产业股份有限公司 一种新型集成高密度gpu的散热方法
WO2018040309A1 (zh) * 2016-08-30 2018-03-08 深圳市元创时代科技有限公司 电力供应扩展卡及电脑机箱
CN106774772A (zh) * 2017-01-16 2017-05-31 郑州云海信息技术有限公司 一种热插拔模块供电装置、方法及系统
CN208400055U (zh) * 2018-05-29 2019-01-18 联想(北京)有限公司 一种显卡安装盒及电子设备
CN210348361U (zh) * 2019-11-01 2020-04-17 杭州冰特科技股份有限公司 一种刀片式多gpu服务器
CN111339011A (zh) * 2020-02-21 2020-06-26 银河水滴科技(北京)有限公司 主控装置及阵列服务器

Also Published As

Publication number Publication date
CN112114631B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN1920746B (zh) 用于在刀片中心机架内加强供电控制的方法和装置
JP4015990B2 (ja) 電力供給装置、非中断電力供給方法、およびシステム
US6948021B2 (en) Cluster component network appliance system and method for enhancing fault tolerance and hot-swapping
US20080259555A1 (en) Modular blade server
US8874817B2 (en) System for out of band management of rack-mounted field replaceable units
CN105718408A (zh) 可热插拔的计算系统、计算机实施方法及系统
CN110489367B (zh) 一种灵活调配且易于cpld管理背板的方法与系统
CN102478800A (zh) 电力顺序信号的监控系统与其方法
CN104572226A (zh) 一种侦测主板开机异常的方法和装置
US7447816B2 (en) Disk array system and disk drive unit
KR100373995B1 (ko) 컴퓨터 시스템의 전압 조정기 모듈 보수 방법 및 파워서브시스템
CN111864885B (zh) 一种硬盘供电控制装置和方法
TW201403404A (zh) 具觸控顯示模組的伺服器及其觸控顯示模組
US10628338B2 (en) Selection of a location for installation of a CPU in a compute node using predicted performance scores
CN112114631B (zh) 显卡服务器、控制方法、系统、设备及存储介质
CN102508759A (zh) 一种嵌入式智能平台管理系统
CN115224555A (zh) 电源转接板、电子设备和电源提供方法
CN111367392A (zh) 一种动态电源管理系统
JP2007018034A (ja) 制御装置及び制御方法
CN212723896U (zh) 显卡服务器
CN107291206A (zh) 一种主板与bbu的互联架构
CN102420706B (zh) 一种设置在交换机中的管理板以及交换机
US20140032946A1 (en) Power supply control across independently powered modules in a storage library
CN108874598A (zh) 一种内存故障信息诊断系统
CN108279763A (zh) 一种高可靠性服务器板卡电源系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant