CN104125049A - 一种基于brickland平台的pcie设备冗余实现方法 - Google Patents

一种基于brickland平台的pcie设备冗余实现方法 Download PDF

Info

Publication number
CN104125049A
CN104125049A CN201410387756.6A CN201410387756A CN104125049A CN 104125049 A CN104125049 A CN 104125049A CN 201410387756 A CN201410387756 A CN 201410387756A CN 104125049 A CN104125049 A CN 104125049A
Authority
CN
China
Prior art keywords
pcie
cpu0
cpu1
cpu
brickland
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410387756.6A
Other languages
English (en)
Inventor
牟茜
刘振东
李萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410387756.6A priority Critical patent/CN104125049A/zh
Publication of CN104125049A publication Critical patent/CN104125049A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种基于BRICKLAND平台的PCIE设备冗余实现方法,属于计算机技术领域,该方法步骤如下:将两个相邻的CPU分别设置为CPU0和CPU1,将系统中PCIEDEVICE通过PCIESwitch分别连接到CPU0和CPU1,系统通过FPGA/CPLD来监控CPU0和CPU1的状态,通过监控到CPU0和CPU1的状态结果来控制PCIESwitchPort连接状态,从而确定PCIEDEVICE连接CPU0还是CPU1。本发明可以实现服务器系统在某个CPU出现故障时,将PCIE设备切换到其他CPU上,可以在不用关闭系统的情况下,保证故障CPU下的PCIE设备正常工作,以提高整个系统稳定性。

Description

一种基于BRICKLAND平台的PCIE设备冗余实现方法
 
技术领域
本发明涉及计算机技术领域,具体地说是一种基于BRICKLAND平台的PCIE设备冗余实现方法。
背景技术
现今服务器技术的发展对服务器的可维护性及服务器维护的简便性要求越来越高,目前的Brickland平台服务器,PCIE控制器集成在CPU内部,部分服务器并未使用对应CPU的所有PCIE资源,且系统已经可以支持CPU的online和offline功能,但当出现CPU offline状况时,offline CPU下的PCIE设备是不可用的,导致PCIE设备工作的不延续性。
当前Brickland平台服务器多为多处理器平台,在一颗CPU出现offline或者其他错误时,对应CPU下的PCIE槽位即刻失效,导致PCIE设备无法正常工作,大大降低了整个系统的稳定性。
文中英文解释如下:
PCIE Slot:即PCI Express插槽,该插槽是PCE总线在服务器主板上的实际体现;PCI Express,简称PCI-E,是电脑总线PCI的一种,它沿用了现有的PCI编程概念及通信标准,但建基于更快的串行通信系统。英特尔是该接口的主要支持者。PCIe仅应用于内部互连。由于PCIe是基于现有的PCI系统,只需修改物理层而无须修改软件就可将现有PCI系统转换为PCIe。PCIe拥有更快的速率,以取代几乎全部现有的内部总线(包括AGP和PCI)。
PCIE Passive Switch:PCIE被动switch,需要事件触发;
CPU Online/Offline: 系统体系结构上的现代高级特性使处理器具备了错误报告与错误更正的能力。CPU体系结构支持分区,这使得单个CPU的计算资源也能够满足虚拟机的需要。一些OEM已经支持了NUMA硬件的热插拔,物理节点的插入与移除需要处理器热插拔技术的支持。这种高级特性需要内核在必要时能移除正在使用的CPU.比如,为了RAS的需要,必须将一个执行恶意代码的CPUoffline将该CPU保持在系统执行路径之外,更换该CPU后需要做online操作,将其重新导入系统执行路径之内继续使用。
Brickland平台:即‘Brickland’的服务器平台,是由Intel Xeon系列的Ivy Bridge制品处理器与C602J服务器芯片组组成平台代号‘Brickland’的服务器平台。
发明内容
本发明的技术任务是提供一种基于BRICKLAND平台的PCIE设备冗余实现方法。
本发明的技术任务是按以下方式实现的,该方法步骤如下:
将两个相邻的CPU分别设置为CPU0和CPU1,将系统中PCIE DEVICE通过PCIE Switch分别连接到CPU0和CPU1,系统通过FPGA/CPLD来监控CPU0和CPU1的状态,通过监控到CPU0和CPU1的状态结果来控制PCIE Switch Port连接状态,从而确定PCIE DEVICE连接CPU0还是CPU1。
当所述的CPU0工作正常时,FPGA/CPLD将PCIE Switch连接设置在Port0,PCIE DEVICE通过PCIE Switch的Port0连接到CPU0,此时,PCIE Switch Port1为关闭状态。
当所述的CPU0出现offline或出现其他错误时,FPGA/CPLD监控CPU0出现故障,自动将PCIE Switch切换到Port1,PCIE DEVICE通过Port1连接到CPU1,保证PCIE DEVICE正常工作。
本发明的一种基于BRICKLAND平台的PCIE设备冗余实现方法和现有技术相比,可以实现服务器系统在某个CPU出现故障时,将PCIE设备切换到其他CPU上,可以在不用关闭系统的情况下,保证故障CPU下的PCIE设备正常工作,以提高整个系统稳定性。
附图说明
附图1为一种基于BRICKLAND平台的PCIE设备冗余实现方法的PCIE冗余设计示意图。
附图2为一种基于BRICKLAND平台的PCIE设备冗余实现方法的CPU0正常工作时连接示意图。
附图3为一种基于BRICKLAND平台的PCIE设备冗余实现方法的CPU0 offline时连接示意图。
图中英文解释如下:
PCIE DEVICE: PCIe设备包括EP(如网卡、显卡等设备)、Switch和PCIe桥。PCIe总线采用端到端的连接方式,每一个PCIe端口只能连接一个EP,当然PCIe端口也可以连接Switch进行链路扩展。通过Switch扩展出的PCIe链路可以继续挂接EP或者其他Switch
PCIE Switch:在PCIe体系结构中,Switch处于核心地位。PCIe总线使用Switch进行链路扩展,在Switch中,每一个端口对应一个虚拟PCI桥。
具体实施方式                  
  实施例1:
将两个相邻的CPU分别设置为CPU0和CPU1,将系统中PCIE 设备通过PCIE Switch分别连接到CPU0和CPU1,系统通过FPGA/CPLD来监控CPU0和CPU1的状态,通过监控到CPU0和CPU1的状态结果来控制PCIE Switch Port连接状态;当所述的CPU0工作正常时,FPGA/CPLD将PCIE Switch连接设置在Port0,PCIE DEVICE通过PCIE Switch的Port0连接到CPU0,此时,PCIE Switch Port1为关闭状态。
实施例2:
将两个相邻的CPU分别设置为CPU0和CPU1,将系统中PCIE 设备通过PCIE Switch分别连接到CPU0和CPU1,系统通过FPGA/CPLD来监控CPU0和CPU1的状态,通过监控到CPU0和CPU1的状态结果来控制PCIE Switch Port连接状态;当所述的CPU0出现offline或出现其他错误时,FPGA/CPLD监控CPU0出现故障,自动将PCIE Switch切换到Port1,PCIE DEVICE通过Port1连接到CPU1,保证PCIE DEVICE正常工作。
实施例3:
将两个相邻的CPU分别设置为CPU0和CPU1,将系统中PCIE Slot通过PCIE Switch分别连接到CPU0和CPU1,系统通过FPGA/CPLD来监控CPU0和CPU1的状态,通过监控到CPU0和CPU1的状态结果来控制PCIE Switch Port连接状态;当所述的CPU0工作正常时,FPGA/CPLD将PCIE Switch连接设置在Port0,PCIE DEVICE通过PCIE Switch的Port0连接到CPU0,此时,PCIE Switch Port1为关闭状态;当所述的CPU0出现offline或出现其他错误时,FPGA/CPLD监控CPU0出现故障,自动将PCIE Switch切换到Port1,PCIE DEVICE通过Port1连接到CPU1,保证PCIE DEVICE正常工作。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (3)

1.一种基于BRICKLAND平台的PCIE设备冗余实现方法,其特征在于,该方法步骤如下:
将两个相邻的CPU分别设置为CPU0和CPU1,将系统中PCIE DEVICE通过PCIE Switch分别连接到CPU0和CPU1,系统通过FPGA/CPLD来监控CPU0和CPU1的状态,通过监控到CPU0和CPU1的状态结果来控制PCIE Switch Port连接状态,从而确定PCIE DEVICE连接CPU0还是CPU1。
2.根据权利要求1所述的一种基于BRICKLAND平台的PCIE设备冗余实现方法,其特征在于,当所述的CPU0工作正常时,FPGA/CPLD将PCIE Switch连接设置在Port0,PCIE DEVICE通过PCIE Switch的Port0连接到CPU0,此时,PCIE Switch Port1为关闭状态。
3.  根据权利要求1所述的一种基于BRICKLAND平台的PCIE设备冗余实现方法,其特征在于,当所述的CPU0出现offline或出现其他错误时,FPGA/CPLD监控CPU0出现故障,自动将PCIE Switch切换到Port1,PCIE DEVICE通过Port1连接到CPU1,保证PCIE DEVICE正常工作。
CN201410387756.6A 2014-08-08 2014-08-08 一种基于brickland平台的pcie设备冗余实现方法 Pending CN104125049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410387756.6A CN104125049A (zh) 2014-08-08 2014-08-08 一种基于brickland平台的pcie设备冗余实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410387756.6A CN104125049A (zh) 2014-08-08 2014-08-08 一种基于brickland平台的pcie设备冗余实现方法

Publications (1)

Publication Number Publication Date
CN104125049A true CN104125049A (zh) 2014-10-29

Family

ID=51770323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410387756.6A Pending CN104125049A (zh) 2014-08-08 2014-08-08 一种基于brickland平台的pcie设备冗余实现方法

Country Status (1)

Country Link
CN (1) CN104125049A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104579802A (zh) * 2015-02-15 2015-04-29 浪潮电子信息产业股份有限公司 一种多路服务器快速故障恢复的方法
CN105550075A (zh) * 2015-12-11 2016-05-04 浪潮电子信息产业股份有限公司 一种实现内存设备冗余的方法
CN105718333A (zh) * 2016-01-26 2016-06-29 山东超越数控电子有限公司 双路服务器主板主从cpu切换装置及其切换控制方法
CN106161169A (zh) * 2016-09-30 2016-11-23 郑州云海信息技术有限公司 一种多主机网络交换系统
CN106250349A (zh) * 2016-08-08 2016-12-21 浪潮(北京)电子信息产业有限公司 一种高能效异构计算系统
CN107894961A (zh) * 2017-12-07 2018-04-10 郑州云海信息技术有限公司 一种多路cpu对外接口互联的对称设计架构
CN109726055A (zh) * 2017-10-31 2019-05-07 杭州华为数字技术有限公司 检测PCIe芯片异常的方法及计算机设备
CN117591457A (zh) * 2024-01-17 2024-02-23 苏州元脑智能科技有限公司 Pcie扩展盒、服务器、控制数据传输的方法、装置及产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1373427A (zh) * 2001-03-01 2002-10-09 深圳市中兴通讯股份有限公司 一种实现双系统槽的装置和方法
CN101071407A (zh) * 2007-06-22 2007-11-14 中兴通讯股份有限公司 主备系统及主备系统间实现外部部件互连设备切换的方法
US20100229050A1 (en) * 2009-03-06 2010-09-09 Fujitsu Limited Apparatus having first bus and second bus connectable to i/o device, information processing apparatus and method of controlling apparatus
CN102486759A (zh) * 2010-12-03 2012-06-06 国际商业机器公司 用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1373427A (zh) * 2001-03-01 2002-10-09 深圳市中兴通讯股份有限公司 一种实现双系统槽的装置和方法
CN101071407A (zh) * 2007-06-22 2007-11-14 中兴通讯股份有限公司 主备系统及主备系统间实现外部部件互连设备切换的方法
US20100229050A1 (en) * 2009-03-06 2010-09-09 Fujitsu Limited Apparatus having first bus and second bus connectable to i/o device, information processing apparatus and method of controlling apparatus
CN102486759A (zh) * 2010-12-03 2012-06-06 国际商业机器公司 用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104579802A (zh) * 2015-02-15 2015-04-29 浪潮电子信息产业股份有限公司 一种多路服务器快速故障恢复的方法
CN105550075A (zh) * 2015-12-11 2016-05-04 浪潮电子信息产业股份有限公司 一种实现内存设备冗余的方法
CN105718333A (zh) * 2016-01-26 2016-06-29 山东超越数控电子有限公司 双路服务器主板主从cpu切换装置及其切换控制方法
CN106250349A (zh) * 2016-08-08 2016-12-21 浪潮(北京)电子信息产业有限公司 一种高能效异构计算系统
CN106161169A (zh) * 2016-09-30 2016-11-23 郑州云海信息技术有限公司 一种多主机网络交换系统
CN109726055A (zh) * 2017-10-31 2019-05-07 杭州华为数字技术有限公司 检测PCIe芯片异常的方法及计算机设备
CN109726055B (zh) * 2017-10-31 2021-01-12 华为技术有限公司 检测PCIe芯片异常的方法及计算机设备
CN107894961A (zh) * 2017-12-07 2018-04-10 郑州云海信息技术有限公司 一种多路cpu对外接口互联的对称设计架构
CN117591457A (zh) * 2024-01-17 2024-02-23 苏州元脑智能科技有限公司 Pcie扩展盒、服务器、控制数据传输的方法、装置及产品
CN117591457B (zh) * 2024-01-17 2024-04-19 苏州元脑智能科技有限公司 Pcie扩展盒、服务器、控制数据传输的方法、装置及产品

Similar Documents

Publication Publication Date Title
CN104125049A (zh) 一种基于brickland平台的pcie设备冗余实现方法
EP2811413B1 (en) Computer system, access method and apparatus for peripheral component interconnect express endpoint device
JP4934642B2 (ja) 計算機システム
US8677180B2 (en) Switch failover control in a multiprocessor computer system
US8656228B2 (en) Memory error isolation and recovery in a multiprocessor computer system
US8521929B2 (en) Virtual serial port management system and method
US9772912B2 (en) Configurable and fault-tolerant baseboard management controller arrangement
US20170147456A1 (en) PCIe NETWORK SYSTEM WITH FAIL-OVER CAPABILITY AND OPERATION METHOD THEREOF
CN102622279B (zh) 冗余控制系统、方法及管理控制器
US8843688B2 (en) Concurrent repair of PCIE switch units in a tightly-coupled, multi-switch, multi-adapter, multi-host distributed system
DE102015107990A1 (de) Verfahren und Vorrichtung zur dynamischen Knotenreparatur in einer Mehrfachknotenumgebung
CN103635884A (zh) 用于使用控制器操作的冗余的系统和方法
US20200193077A1 (en) Detection and isolation of faults to prevent propagation of faults in a resilient system
CN110109782B (zh) 一种故障PCIe设备的更换方法、装置及系统
WO2020125041A1 (zh) 一种网络切换方法及装置
CN115550291B (zh) 交换机的复位系统及方法、存储介质、电子设备
CN104579802A (zh) 一种多路服务器快速故障恢复的方法
CN102169454B (zh) 多处理器调试串口电路切换方法、装置及系统
US20180267870A1 (en) Management node failover for high reliability systems
CN109684257B (zh) 一种远程内存扩展管理系统
CN105009086A (zh) 一种实现处理器切换的方法、计算机和切换装置
JP6135403B2 (ja) 情報処理システム、情報処理システムの障害処理方法
CN107861763A (zh) 一种面向飞腾处理器休眠过程的中断路由环境恢复方法
CN109995597B (zh) 一种网络设备故障处理方法及装置
US9524259B2 (en) Method for operating an automation device to reduce dead time on account of a physical interruption in a ring or a failed unit

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141029

WD01 Invention patent application deemed withdrawn after publication