CN114253897B - 一种系统PCIe拓扑动态切换系统与方法 - Google Patents

一种系统PCIe拓扑动态切换系统与方法 Download PDF

Info

Publication number
CN114253897B
CN114253897B CN202111546310.XA CN202111546310A CN114253897B CN 114253897 B CN114253897 B CN 114253897B CN 202111546310 A CN202111546310 A CN 202111546310A CN 114253897 B CN114253897 B CN 114253897B
Authority
CN
China
Prior art keywords
port
pcie switch
pcie
application
bmc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111546310.XA
Other languages
English (en)
Other versions
CN114253897A (zh
Inventor
张宥骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111546310.XA priority Critical patent/CN114253897B/zh
Publication of CN114253897A publication Critical patent/CN114253897A/zh
Application granted granted Critical
Publication of CN114253897B publication Critical patent/CN114253897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种系统PCIe拓扑动态切换系统与方法,本发明可最大提升硬件设备的使用效率,减少硬件设备闲置的机会,当System1与System2都连上应用端时,系统可发挥最大效能,应用端设备之间也可通过Fabric连接去做点对点最短路径通讯,即动态调配两个系统的应用端设备使用率。而当两台系统中有一台故障时,可动态调配Switch韧体端口配置,使得单系统也可将所有应用端设备挂载,大大提升系统实用性与方便性。另外当用户主动调配端口配置时,也可通过IP KVM的方式去调整端口配置,线上即时更新选择最有利的拓扑进行系统优化。

Description

一种系统PCIe拓扑动态切换系统与方法
技术领域
本发明涉及服务器结构设计技术领域,特别是一种系统PCIe拓扑动态切换系统与方法。
背景技术
服务器在设计时会考虑故障排除与维护的问题,当服务器故障时,会造成其底下的应用设备也同时无法使用,应用设备通常会是昂贵的GPU、运算装置或是存储装置。若因为主机端故障而导致应用设备随之闲置,这将造成更大的损失。因此若将系统主机端和应用端分开设计,并且使用外部线缆做连接,当系统故障时可以分散风险,若是主机端故障,则更换主机端设备,若是应用端故障,则替换应用端设备。
发明内容
本发明的目的是提供一种系统PCIe拓扑动态切换系统与方法,旨在解决现有技术中主机端故障导致应用端设备闲置的问题,实现动态调配系统的应用端设备使用率,提高实用性。
为达到上述技术目的,本发明提供了一种系统PCIe拓扑动态切换系统,所述系统包括:
多个主机端与应用端连接;
所述应用端包括多个PCIe Switch芯片、多个EEPROM存储以及BMC;
所述主机端分别通过PCI Express接口与应用端的PCIe Switch芯片的上行端口连接,PCIe Switch芯片的下行端口与应用端设备通过PCI Express接口连接;多个PCIeSwitch芯片之间通过Fabric结构端口连接;PCIe Switch芯片与对应的EEPROM存储通过SPI连接;BMC与多个PCIe Switch芯片通过I2C连接;
所述PCIe Switch芯片的Fabric结构端口通过修改内部韧体可重新配置成上行端口或下行端口,所述韧体内容存储于EEPROM存储中。
优选地,所述主机端包括根复合体、CPU以及内存,所述根复合体将CPU与内存连接到PCI Express接口上。
优选地,所述BMC通过GPIO电压准位判断主机端是否存在;当GPIO为高电位时,为主机端已插入应用端;当GPIO为低电位时,为主机端已拔出应用端。
优选地,所述系统还包括交换机,远程用户通过IP Network对BMC下指令、监控系统状态以及拓扑切换。
优选地,所述应用端设备为GPU。
本发明还提供了一种利用所述系统实现的系统PCIe拓扑动态切换方法,所述方法包括以下操作:
当主机端均正常时,应用端的PCIe Switch芯片之间通过Fabric结构端口的Fabric连接通讯;
当主机端被拆除或故障时,BMC监测到该状态时通过I2C接口修改与该故障主机端连接的PCIe Switch芯片的端口配置,将与正常主机端连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与故障主机端连接的PCIe Switch中的Fabric结构端口修改为上行端口;
将修改后的端口配置存入各自的EEPROM中,重开机后PCIe Switch芯片加载EEPROM中的配置信息并修改端口配置,正常主机端接收与故障主机端连接的应用端设备。
优选地,所述Fabric结构端口支持PCIe Switch与PCIe Switch之间点对点最短路径的通讯。
优选地,所述方法还包括远程用户利用IP KVM方式通过IP Network对BMC下指令、监控系统状态以及拓扑切换。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明可最大提升硬件设备的使用效率,减少硬件设备闲置的机会,当System1与System2都连上应用端时,系统可发挥最大效能,应用端设备之间也可通过Fabric连接去做点对点最短路径通讯,即动态调配两个系统的应用端设备使用率。而当两台系统中有一台故障时,可动态调配Switch韧体端口配置,使得单系统也可将所有应用端设备挂载,大大提升系统实用性与方便性。另外当用户主动调配端口配置时,也可通过IPKVM的方式去调整端口配置,线上即时更新选择最有利的拓扑进行系统优化。
附图说明
图1为本发明实施例中所提供的一种系统PCIe拓扑动态切换系统结构示意图;
图2为本发明实施例中所提供的检查主机端是否连接上应用端结构示意图;
图3为本发明实施例中所提供的当主机端System1故障或拔除应用端时结构示意图;
图4为本发明实施例中所提供的当主机端System2故障或拔除应用端时结构示意图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种系统PCIe拓扑动态切换系统与方法进行详细说明。
如图1所示,本发明实施例公开了一种系统PCIe拓扑动态切换系统,所述系统包括:
多个主机端与应用端连接;
所述应用端包括多个PCIe Switch芯片、多个EEPROM存储以及BMC;
所述主机端分别通过PCI Express接口与应用端的PCIe Switch芯片的上行端口连接,PCIe Switch芯片的下行端口与应用端设备通过PCI Express接口连接;多个PCIeSwitch芯片之间通过Fabric结构端口连接;PCIe Switch芯片与对应的EEPROM存储通过SPI连接;BMC与多个PCIe Switch芯片通过I2C连接;
所述PCIe Switch芯片的Fabric结构端口通过修改内部韧体可重新配置成上行端口或下行端口,所述韧体内容存储于EEPROM存储中。
本发明实施例利用PCIe Switch各个端口可重新配置的特点,达成动态切换系统拓扑的目的。
在本发明实施例多系统架构中,System1与System2为主机端部分,其组成包含CPU与内存,而根复合体(Root complex)将CPU与内存连接到多个交换装置组合而成的PCIExpress交换结构。一个根复合体可以包含多个PCI Express埠,另外应用端将会包含PCISwitch、BMC与应用装置,在本发明实施例中以GPU为例作为应用装置。
其中,PCI Switch具有7个端口,每个端口可通过修改芯片内部韧体的方式让端口重新配置,端口配置可设定成上行端口(Upstream Port)、下行端口(Downstream Port)以及结构端口(Fabric Port)。本发明利用BMC通过I2C接口去修改PCIe Switch芯片内部韧体,PCIe Switch将韧体内容通过SPI存入EEPROM中,重新开机后,PCIe Switch再将EEPROM的内容加载到芯片中,进而修改端口配置。
应用端的多个PCI Switch之间通过Fabric结构端口通讯,Fabric结构端口支持PCIe Switch与PCIe Switch之间点对点最短路径的通讯。GPU1、GPU2、GPU3、GPU4、GPU5、GPU6、GPU7、GPU8相互之间可通过Fabric Link通讯,并支持互相交换数据。
本发明实施例通过BMC判断System1与System2是否存在,如图2所示,当系统System1或System2插入应用端时,BMC会通过GPIO1与GPIO2的电压准位,去判断系统System1或System2是否存在,当GPIO1为高电位时,代表System1已插入应用端,反之若为低电位则代表System1已拔出应用端,同理GPIO2的电位代表System2是否插入应用端。
如图3所示,BMC实时监控系统状态,当System1被拆除或故障时,与System1连接的PCIe Switch上行端口将会无数据传输,此时BMC接收到该状态时可通过I2C接口修改接口设定,将与System2连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与System1连接的PCIe Switch中的Fabric结构端口修改为上行端口,此时System2将接管原本与System1通讯的GPU1、GPU2、GPU3、GPU4等应用端设备。
当BMC通过GPIO监控到System1已拔出应用端时,BMC随即通过I2C接口切换PCIeSwitch的端口配置,此时PCIe Switch会将修改后的端口配置存入各自的EEPROM中,然后重开机后PCIe Switch会将EEPROM的设定加载芯片中的RAM并修改端口配置,此时System2会接收GPU1、GPU2、GPU3、GPU4等应用装置。
如图4所示,当System2被拆除或故障时,与System2连接的PCIe Switch上行端口将会无数据传输,将原本与System1连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与System2连接的PCIe Switch中的Fabric结构端口修改为上行端口,此时System1将接管原本与System2通讯的GPU5、GPU6、GPU7、GPU8等应用端设备。
当BMC通过GPIO监控到System2已拔出应用端时,BMC随即通过I2C接口切换PCIeSwitch的端口配置,此时PCIe Switch会将修改后的端口配置存入各自的EEPROM中,然后重开机后PCIe Switch会将EEPROM的设定加载芯片中的RAM并修改端口配置,此时System1会接收GPU5、GPU6、GPU7、GPU8等应用装置。
本发明除了可通过BMC实时监控外,在另一实施例中,可通过IP KVM,即带有远程管理功能的KVM切换器,调整PCIe拓扑,远程用户可通过IP Network去对BMC下指令与监控系统状态,通过BMC I2C也可以达成拓扑切换的目的。
本发明实施例可最大提升硬件设备的使用效率,减少硬件设备闲置的机会,当System1与System2都连上应用端时,系统可发挥最大效能,应用端设备之间也可通过Fabric连接去做点对点最短路径通讯,即动态调配两个系统的应用端设备使用率。而当两台系统中有一台故障时,可动态调配Switch韧体端口配置,使得单系统也可将所有应用端设备挂载,大大提升系统实用性与方便性。另外当用户主动调配端口配置时,也可通过IPKVM的方式去调整端口配置,线上即时更新选择最有利的拓扑进行系统优化。
本发明实施例还公开了一种利用所述系统实现的系统PCIe拓扑动态切换方法,所述方法包括以下操作:
当主机端均正常时,应用端的PCIe Switch芯片之间通过Fabric结构端口的Fabric连接通讯;
当主机端被拆除或故障时,BMC监测到该状态时通过I2C接口修改与该故障主机端连接的PCIe Switch芯片的端口配置,将与正常主机端连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与故障主机端连接的PCIe Switch中的Fabric结构端口修改为上行端口;
将修改后的端口配置存入各自的EEPROM中,重开机后PCIe Switch芯片加载EEPROM中的配置信息并修改端口配置,正常主机端接收与故障主机端连接的应用端设备。
BMC实时监控系统状态,当System1被拆除或故障时,与System1连接的PCIeSwitch上行端口将会无数据传输,此时BMC接收到该状态时可通过I2C接口修改接口设定,将与System2连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与System1连接的PCIe Switch中的Fabric结构端口修改为上行端口,此时System2将接管原本与System1通讯的GPU1、GPU2、GPU3、GPU4等应用端设备。
当BMC通过GPIO监控到System1已拔出应用端时,BMC随即通过I2C接口切换PCIeSwitch的端口配置,此时PCIe Switch会将修改后的端口配置存入各自的EEPROM中,然后重开机后PCIe Switch会将EEPROM的设定加载芯片中的RAM并修改端口配置,此时System2会接收GPU1、GPU2、GPU3、GPU4等应用装置。
当System2被拆除或故障时,与System2连接的PCIe Switch上行端口将会无数据传输,将原本与System1连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与System2连接的PCIe Switch中的Fabric结构端口修改为上行端口,此时System1将接管原本与System2通讯的GPU5、GPU6、GPU7、GPU8等应用端设备。
当BMC通过GPIO监控到System2已拔出应用端时,BMC随即通过I2C接口切换PCIeSwitch的端口配置,此时PCIe Switch会将修改后的端口配置存入各自的EEPROM中,然后重开机后PCIe Switch会将EEPROM的设定加载芯片中的RAM并修改端口配置,此时System1会接收GPU5、GPU6、GPU7、GPU8等应用装置。
本发明除了可通过BMC实时监控外,在另一实施例中,可通过IP KVM,即带有远程管理功能的KVM切换器,调整PCIe拓扑,远程用户可通过IP Network去对BMC下指令与监控系统状态,通过BMC I2C也可以达成拓扑切换的目的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种系统PCIe拓扑动态切换方法,利用了一种系统PCIe拓扑动态切换系统来实现,所述系统包括:
多个主机端与应用端连接;
所述应用端包括多个PCIe Switch芯片、多个EEPROM存储以及BMC;
所述主机端分别通过PCI Express接口与应用端的PCIe Switch芯片的上行端口连接,PCIe Switch芯片的下行端口与应用端设备通过PCI Express接口连接;多个PCIe Switch芯片之间通过Fabric结构端口连接;PCIe Switch芯片与对应的EEPROM存储通过SPI连接;BMC与多个PCIe Switch芯片通过I2C连接;
所述PCIe Switch芯片的Fabric结构端口通过修改内部韧体可重新配置成上行端口或下行端口,所述韧体内容存储于EEPROM存储中;
所述主机端包括根复合体、CPU以及内存,所述根复合体将CPU与内存连接到PCIExpress接口上;
所述BMC通过GPIO电压准位判断主机端是否存在;当GPIO为高电位时,为主机端已插入应用端;当GPIO为低电位时,为主机端已拔出应用端;
所述系统还包括交换机,远程用户通过IP Network对BMC下指令、监控系统状态以及拓扑切换;
所述应用端设备为GPU;
其特征在于,所述方法包括以下操作:
当主机端均正常时,应用端的PCIe Switch芯片之间通过Fabric结构端口的Fabric连接通讯;
当主机端被拆除或故障时,BMC监测到该状态时通过I2C接口修改与该故障主机端连接的PCIe Switch芯片的端口配置,将与正常主机端连接的PCIe Switch中的Fabric结构端口修改为下行端口,将与故障主机端连接的PCIe Switch中的Fabric结构端口修改为上行端口;
将修改后的端口配置存入各自的EEPROM中,重开机后PCIe Switch芯片加载EEPROM中的配置信息并修改端口配置,正常主机端接收与故障主机端连接的应用端设备。
2.根据权利要求1所述的一种系统PCIe拓扑动态切换方法,其特征在于,所述Fabric结构端口支持PCIe Switch与PCIe Switch之间点对点最短路径的通讯。
3.根据权利要求1所述的一种系统PCIe拓扑动态切换方法,其特征在于,所述方法还包括远程用户利用IP KVM方式通过IP Network对BMC下指令、监控系统状态以及拓扑切换。
CN202111546310.XA 2021-12-16 2021-12-16 一种系统PCIe拓扑动态切换系统与方法 Active CN114253897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111546310.XA CN114253897B (zh) 2021-12-16 2021-12-16 一种系统PCIe拓扑动态切换系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111546310.XA CN114253897B (zh) 2021-12-16 2021-12-16 一种系统PCIe拓扑动态切换系统与方法

Publications (2)

Publication Number Publication Date
CN114253897A CN114253897A (zh) 2022-03-29
CN114253897B true CN114253897B (zh) 2023-07-14

Family

ID=80792750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111546310.XA Active CN114253897B (zh) 2021-12-16 2021-12-16 一种系统PCIe拓扑动态切换系统与方法

Country Status (1)

Country Link
CN (1) CN114253897B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994107B (zh) * 2023-03-22 2023-07-14 苏州浪潮智能科技有限公司 存储设备的存取加速系统
CN117349217A (zh) * 2023-09-28 2024-01-05 无锡芯光互连技术研究院有限公司 Pcie扩展设备及子卡自适应选择方法、扩展系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3627283A1 (en) * 2018-09-21 2020-03-25 Quanta Computer Inc Fan speed control via pcie topology
CN111737184A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种ai服务器计算单元架构及实现方法
CN112181888A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种cpu拓扑装置、电子设备及拓扑切换方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3627283A1 (en) * 2018-09-21 2020-03-25 Quanta Computer Inc Fan speed control via pcie topology
CN111737184A (zh) * 2020-05-29 2020-10-02 苏州浪潮智能科技有限公司 一种ai服务器计算单元架构及实现方法
CN112181888A (zh) * 2020-08-28 2021-01-05 苏州浪潮智能科技有限公司 一种cpu拓扑装置、电子设备及拓扑切换方法

Also Published As

Publication number Publication date
CN114253897A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN114253897B (zh) 一种系统PCIe拓扑动态切换系统与方法
CN102752150B (zh) 提供远程板卡调试的分布式通信设备及方法
US9154579B2 (en) Method, service board, and system for transmitting KVM data
CN109120624B (zh) 一种多平面松耦合高带宽数据交换系统
CN116501681B (zh) Cxl数据传输板卡及控制数据传输的方法
CN113645047B (zh) 一种基于智能网卡的带外管理系统和服务器
US9384102B2 (en) Redundant, fault-tolerant management fabric for multipartition servers
CN101557379B (zh) 一种pcie接口的链路重组方法和装置
CN102724093A (zh) 一种atca机框及其ipmb连接方法
CN110868278A (zh) 一种轨道交通综合监控系统通信前置机双机冗余的方法
US20220255991A1 (en) Methods and apparatus for peer-to-peer data channels for storage devices
CN113630265A (zh) 一种基于智能网卡的虚拟网络冗余备份方法及装置
CN109684257B (zh) 一种远程内存扩展管理系统
CN116881053B (zh) 数据处理方法及交换板、数据处理系统、数据处理装置
CN111338676B (zh) 一种兼具带内和带外两种方式的bmc固件升级系统及方法
US20130013830A1 (en) Method for managing subnet in computer system, bus adaptor and computer system
CN111858441A (zh) 一种cpu共享串口的设置方法及系统
CN201285536Y (zh) 一种服务器远程管理系统
CN113190184B (zh) 一种硬件集群装置及一种存储设备管理方法
CN109039680A (zh) 一种切换主宽带网络网关bng和备bng的方法、系统和bng
CN111416726A (zh) 一种资源管理的方法、发送端设备和接收端设备
CN220553140U (zh) 通信系统及芯片测试机
CN210629525U (zh) 一种基于can总线通信的服务器机框管理系统架构
CN215181949U (zh) 一种存储设备
CN114398302B (zh) Poe供电的自适应协议嵌入式空管设备数据采集单元

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant