CN102486759A - 用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置 - Google Patents

用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置 Download PDF

Info

Publication number
CN102486759A
CN102486759A CN2011102640738A CN201110264073A CN102486759A CN 102486759 A CN102486759 A CN 102486759A CN 2011102640738 A CN2011102640738 A CN 2011102640738A CN 201110264073 A CN201110264073 A CN 201110264073A CN 102486759 A CN102486759 A CN 102486759A
Authority
CN
China
Prior art keywords
road
pcie
switch
link
cable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102640738A
Other languages
English (en)
Other versions
CN102486759B (zh
Inventor
P·A·巴克兰
J·R·赫林
G·M·诺德斯特龙
W·A·汤普森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102486759A publication Critical patent/CN102486759A/zh
Application granted granted Critical
Publication of CN102486759B publication Critical patent/CN102486759B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2017Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where memory access, memory control or I/O control functionality is redundant
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/85Active fault masking without idle spares

Abstract

本发明的实施方式涉及用于为多道PCI高速IO互连提供线缆冗余和故障转移的方法和装置。具体地,提供了用于为第一PCIE桥接装置和第一输入/输出(IO)设备之间的连接提供故障转移操作的方法和装置。通过使用第一PCIE桥接装置的道的第一集合,通过第一链路在第一PCIE桥接装置和第一IO设备之间交换总线化位的第一集合。响应于检测到第一链路中的故障,通过使用连接第二PCIE桥接装置和第二IO设备的第二链路的未使用部分,在第一PCIE桥接装置和第一IO设备之间交换总线化位的第一集合。

Description

用于为多道PCI高速IO互连提供线缆冗余和故障转移的方法和装置
技术领域
本发明的实施方式总体上涉及外围组件互连高速(PCIE)总线,并且更具体地,涉及为多道(multi-lane)PCIE IO互连提供线缆冗余和故障转移(failover)的方法和装置。
背景技术
外围组间互连(PCI)标准首先在1990年代早期引入。通过使用连接至前侧总线和处理器的PCI桥接芯片,PCI针对连接至PCI总线的任何外围设备提供对计算机系统内的系统存储器的直接访问。PCI桥接芯片独立于处理器的速度而调整PCI总线的速度,从而实现高度的可靠性。
PCI高速(PCIE)标准是PCI标准的后继,在此通过引用将其相关内容结合于此。相比于PCI,PCI高速可以利用更少的物理管脚实现更高的传输速率。不同于先前一代的PCI总线,PCI高速使用点对点的总线架构。相应地,专用总线用于在使用PCIE总线系统的任何两个设备之间的数据事务。该专用总线由在通信设备之间建立点对点连接的交换机辅助。由此,该交换机用作设备之间的中介设备,并且物理地并且逻辑地位于附接至计算机系统的任何两个设备之间。
PCIE交换机包括多个端口以促进向计算机系统附接设备。交换机的端口和设备之间的物理连接通常被称作链路。每个链路包括一个或者多个道,并且每个道能够双向传输数据。由此,每个道是全双工连接。
包括单个道的链路被称作x 1链路。类似地,包括两道或者四道的链路分别被称作x2链路或者x4链路。PCI高速允许具有不同宽度的接口,诸如x1、x2、x8、x12、x16和x32链路,以便满足各种外围设备对于带宽的不同需求。由此,专用总线可以是1道、2道、4道、8道、12道、16道或者32道的宽度。
当代的服务器类计算机频繁地使用PCIE IO适配器作为主要的IO适配器技术。通常,CPU附件包括有限数量的PCIE适配器插槽以定制特定服务器的IO选项。然而,CPU机架封装(chassispackaging)典型地将其限制为很少数量的此类插槽,而每个机架的计算机功率随着多核处理器芯片而显著地增长。通常,服务器提供机制以向一个或者多个附加“IO扩展”机架中的PCI适配器连接CPU。例如,在PCIE系统中,PCI根端口(PRP)(也称作PCIE主机桥接(PHB))是CPU电子设备的组件,并且创建直接连接单一PCIE IO适配器插槽的、或者连接IO扩展机架中的PCIE交换机的PCI总线,该IO扩展机架将该PHB总线扩展为该交换机之下的多个PCIE适配器插槽。IO扩展需要将一个或者多个PCIE适配器插槽置于扩展机架中,并且向CPU机架内的PHB连接这些插槽。
典型地,由于这些IO扩展机架是物理上不同的电子机架或者附件,因此在CPU机架内的PHB和IO扩展机架内的PCIE适配器插槽之间的电子连接在这些附件之间需要物理线缆连接。这些线缆在PHB和PCIE适配器插槽之间可能需要多于数英寸的互连距离,并且甚至可能在包括CPU和IO扩展附件的不同物理框架之间进行扩展。
发明内容
本公开的特定方面提供了为第一PCIE桥接装置和第一输入/输出(IO)设备之间的连接提供故障转移操作的方法,该方法总体上包括:通过使用第一PCIE桥接装置的道的第一集合,通过第一链路在第一PCIE桥接装置和第一IO设备之间交换总线化位的第一集合;以及响应于检测到第一链路中的故障,通过使用连接第二PCIE桥接装置和第二IO设备的第二链路的未使用部分,在第一PCIE桥接装置和第一IO设备之间交换总线化位的第二集合。
本公开的特定方面提供了一种为第一PCIE桥接装置和第一输入/输出(IO)设备之间的连接提供故障转移操作的装置。所述装置总体上包括:连接第一PCIE桥接装置与第一IO设备的第一链路,以及连接第二PCIE桥接装置与第二IO设备的至少一个第二链路,第一链路用于通过使用第一PCIE桥接装置的道的第一集合,在第一PCIE桥接装置和第一IO设备之间交换总线化位的第一集合;其中响应于检测到第一链路中的故障,通过使用第二链路的未使用部分,在第一PCIE桥接装置和第一IO设备之间交换总线化位的第二集合。
本公开的特定方面提供了用于为第一PCIE桥接装置和第一输入/输出(IO)设备之间的连接提供故障转移操作的计算机程序产品,所述计算机程序产品总体上包括:包括代码的计算机可读介质。代码总体上包括用于执行如下的代码:通过使用第一PCIE桥接装置的道的第一集合,通过第一链路在第一PCIE桥接装置和第一IO设备之间交换总线化位的第一集合;以及响应于检测到第一链路中的故障,通过使用连接第二PCIE桥接装置和第二IO设备的第二链路的未使用部分,在第一PCIE桥接装置和第一IO设备之间交换总线化位的第二集合。
附图说明
从而,可以详细地理解和获得关于所引用方面的方式,通过参考附图可以获得上文概括的、本发明实施方式的更具体描述。
然而,应当注意,附图仅示出本发明的典型实施方式,并且由此不应被认为是对本发明范围的限制,而是本发明可以承认其他等同效果的实施方式。
图1是根据本公开一个实施方式的图示,其示出了结合PCI高速(PCIE)构造(fabric)拓扑的示例计算机系统;
图2是根据本公开一个实施方式的图示,其示出了用于通过在CPU端和交换机端两者处使用复用器、而提供线缆故障转移机制的PCIE系统的示例基础操作;
图3是根据本公开一个实施方式的图示,其示出了在图2的PCIE系统中的线缆故障期间使用的故障转移机制的示例;
图4是根据本公开一个实施方式的流程图,其示出了用于通过在CPU端和交换机端两者处使用复用器、使用图2和图3的PCIE系统提供线缆故障转移机制的示例过程;
图5是根据本公开一个实施方式的流程图,其示出了用于提供线缆故障转移机制的示例操作;
图6是根据本公开一个实施方式的示例图示,其示出了用于通过在交换机端使用复用器而提供故障转移机制的PCIE系统的基础操作;
图7是根据本公开一个实施方式的示例图示,其示出了在图6的PCIE系统中的线缆故障期间的故障转移机制;
图8是根据本公开一个实施方式的流程图,其示出了用于通过在交换机端使用复用器、使用图6和图7的PCIE系统提供线缆故障转移机制的示例过程;以及
图9是根据本公开一个实施方式的流程图,其示出了用于提供线缆故障转移机制的示例操作。
具体实施方式
图1是根据本公开一个实施方式的图示,其示出了结合PCI高速(PCIE)构造拓扑的计算机系统100。该计算机系统包括连接至根复合体104的CPU 102。根复合体104典型地代表CPU 102生成事务请求。根复合体功能可以实现为分立的设备,或者可以在处理器(例如,CPU 102)内集成。根复合体104可以包括一个以上的PCI高速端口,并且多个PCIE交换机设备可以连接至端口或者从一个或者多个端口级联。
根复合体104可以包括多个PCIE主机桥接装置(PHB),例如PHB 106和108。根据特定方面,PHB 106、108可以实现为分立的设备,或者可以在根复合体104内集成。每个PHB 106、108可以经由输入/输出(I/O)总线130、132而连接至相应的PCIE交换机142、144。例如,PHB 106经由总线130连接至PCIE交换机142,而PHB108经由总线132连接至PCIE交换机144。每个交换机142、144可以进一步经由链路152连接至PCIE端点(EP)150。交换机142、144典型地针对其相应I/O总线130、132提供扇出(fan-out)。这样可以提高PHB对PCIE的适配器比率,并且将CPU机架中所需的PHB数量最小化。
根据特定方面,交换机142、144具有经由链路152附接的连接器的一个或者多个端口,并且每个连接器进一步附接至端点150。端点典型地使用链路152来与计算机系统上的任何其他设备(包括另一端点)交互(transact)数据。每个交换机142、144在上游根端口和连接至计算机系统中的这些交换机的端点设备150之间建立多个点对点连接。
链路是在计算机系统100中的两个组件之间的双单工通信路径。在逻辑上,端口是组件和PCI高速链路之间的接口。在物理上,端口是位于限定链路的同一芯片上的一组发射机和接收机。链路必须支持至少一个道,其中每个道表示一组差分信号对(一个发射对和一个接收对)。为了缩放带宽,链路可以整合由xN表示的多个道,其中N是所支持的链路宽度之一。例如,x1表示具有1个物理道的链路,而x8表示具有8个物理道的链路。PCI高速提供多个物理道,诸如单一道、4道、8道、16道和32道,以便适应于PCI高速兼容外围设备的不同带宽需求。在某些方面,每个IO总线130、132还可以具有多个道,其中道的数量典型地对应于连接至端点150的链路的道的数量。例如,总线130和132中的每个是x8总线。根据特定方面,PCIE链路包括线缆、嵌入式板连线(board wiring)、板到板连接和支持在PCIE桥接装置和PCIE交换机或者设备之间进行通信的任何其他连接。
根据特定方面,链路/总线的道在物理上可以被划分为道的多个集合。例如,连接PHB 106和PCIE交换机142的I/O总线130被划分为道的两个集合110和112,其中每个集合4个道。类似地,连接PHB 108与PCIE交换机144的I/O总线132被划分为道的两个集合114和116,其中每个集合4个道。可以领会到,仅出于说明性目的而将每个链路/总线划分为道的两个集合,并且总线/链路可以被划分为道的任意数目的集合,其中道的每个集合所具有道的最小数量为1个道。例如,x16总线/链路可以被划分为两个x8总线、4个x4总线、8个x2总线或者16个x1总线。根据特定方面,总线的这种物理划分不受到软件控制,并且该划分基于硬件设计是永久性的。
在启动时,PCI高速设备典型地与交换机协商以确定其链路可以包括的道的最大数目。此链接宽度协商依赖于链路自身的最大宽度(即,链路包括的物理信号对的实际数量),依赖于设备被附接至的连接器的宽度以及设备自身的宽度。
在特定方面,由于PCIE交换机142、144是物理上不同的电子机架或者附件,将PHB与其相应交换机连接的每个I/O总线通过诸如物理线缆134、136之类的单独链路运行。例如,总线130通过线缆134运行,而总线132通过线缆136运行。在每个线缆134、136的任一端处提供的线缆连接器(CC)160,其在道的集合与线缆之间提供电连接。根据特定方面,由于将CPU和PCIE交换机与外部线缆连接导致的一个问题在于,丢失了与通过该线缆通信的IO插槽的连接,这是由于线缆或者线缆连接器的故障、在一个或者另一个机架处线缆连接的偶然移除、或者需要移除线缆以修复线缆的服务动作。
根据特定方面,通过使用单独物理线缆将每个PHB 106、108与交换机142、144分别连接,这提供冗余线缆并且有助于在如果一个线缆134或者另一线缆136故障时提供故障转移机制。在特定方面,根据故障转移机制,如果连接第一PHB和第一PCIE交换机的线缆出现故障,则可以通过使用第二激活线缆(连接第二PHB和第二PCIE交换机的第二激活线缆),在第一PHB和第一PCIE交换机之间交换数据的至少一部分。例如,如果计算机系统100检测到线缆136已出现故障,则可以通过使用仍然激活的线缆134内的某些道来在PHB 108和交换机144之间交换数据,而PHB 106和交换机142继续在线缆134内的其他道上交换数据。
PCIE架构允许将道降档(down-shift)和升档(up-shift)。这允许CPU固件将PHB和相应交换机之间的道的数量减少(降档),以及将其恢复(升档)至激活道的原始数量。在特定方面,PCIE系统的这种能力用于在线缆故障期间提供故障转移机制。例如,当检测到线缆136中的故障时,总线130和132两者被降档以仅使用道的一个集合。由此,每个总线被从x8总线降档至x4总线。一旦完成道降档,则通过使用总线130的未使用的道的集合,在PHB 108和交换机144之间交换总线132的激活的道的集合上的数据。在特定方面,仅有总线130从x8被降档至x4,并且总线130的非激活的道的集合用于在PHB 108和交换机144之间交换数据。
图2是根据本公开一个实施方式的图示,其示出了用于通过在CPU端和交换机端两者处使用复用器而提供线缆故障转移机制的PCIE系统200的基础操作。
如图2中所示,PCIE根复合体104包括PHB 106和108。PHB 106通过使用I/O总线130与PCIE交换机142交换数据,而PHB 108通过使用I/O总线132与PCIE交换机144交换数据。总线130和132中的每一个都是x8总线。I/O总线130被划分为道的两个集合110和112,其中每个集合4个道。类似地,I/O总线132被划分为道的两个集合114和116,其中每个集合4个道。在特定方面,对于总线130,道的集合110表示较高阶的道0-3,而道的集合112表示较低阶的道4-7。类似地,对于总线132,道的集合114表示较高阶的道0-3,而道的集合116表示较低阶的道4-7。在每个线缆134、136的任一端处提供的线缆连接器160a-160d在道的集合与线缆之间提供电连接。
道复用器(MUX)(或者交叉点电交换机)202a-202d支持在线缆134和136的两端(CPU端和交换机端)上的每个总线130和132中道的集合之间的道切换。在特定方面,在PCIE系统的基本操作期间,线缆134和136两者是激活的。下文是在基本操作期间的MUX的典型配置:
·在CPU端处,MUX 202a将道的集合110与CC 160a连接,并将道的集合116与CC 160c连接;
·在CPU端处,MUX 202c将道的集合114与CC 160c连接,并将道的集合112与CC 160a连接;
·在交换机端处,MUX 220b将道的集合110与PCIE交换机142连接,并将道的集合116与PCIE交换机144连接;
·在交换机端处,MUX 220d将道的集合114与PCIE交换机144连接,并将道的集合112与PCIE交换机142连接;
由此,在基本操作期间,总线130的道的集合110和112将PHB 106与交换机142连接,而总线132的道的集合114和116将PHB 108与交换机144连接。在交换机处的MUX可以集成到包括PCIE交换机的IO机架中。在特定方面,在CPU端,全部道可以通过使用复用器从每个PHB向两个线缆路由。例如,MUX 202a可以将道的集合110与CC 160a连接,或者切换道的集合以将道的集合110与CC160c连接。类似地,在交换机端处的复用器允许将每个线缆内的道的子集重新路由至任一交换机。当然,本领域普通技术人员将领会到,在图2中示出的MUX的配置的数量是出于说明性目的,并且可以使用MUX的任何配置或者任何数量以实现本公开的各种方面。
根据特定方面,CPU固件控制PHB和MUX 202a和202c的操作。在特定方面,MUX 202b和202d由连接至交换机142和144中任意一个的一个或者多个设备(或者EP)来控制。例如,分别连接至交换机142和144的MUX控制设备204a和204b可以被编程,以便控制MUX 202b和202d。在特定方面,CPU固件配置MUX控制设备204a和204b、或者与其通信,以便通过使用MUX 202b和202d来在交换机端处施加道切换。在特定方面,MUX控制设备204a和204b中的每一个都可以控制MUX 202b和202d两者。在特定方面,MUX控制设备是特殊类型的IO机架元件,其也是连接至交换机的PCIE设备。
图3是根据本公开一个实施方式的示例图示,其示出了在图2的PCIE系统中的线缆故障期间的故障转移机制。
如上文针对图2所述,在基础操作期间,连接在IO机架中的PHB和交换机之间的PCIE总线的全部道。由此,两个x8 PHB 106、108中的每一个将总线130、132中的全部8个道连接至IO机架中的相应交换机。当一个线缆丢失时,CPU固件使用PCIE“道降档”来首先降低在另一PHB及其相应交换机之间激活的道的数量,例如,将该数量从x8总线降低至x4总线。这释放4个道以供由已经丢失了对其交换机的线缆连接的I/O总线和PHB使用。在特定方面,被释放的线缆典型地是x8PCIE总线中的道4-7。根据特定方面,PHB或者根端口可以将链路状态改变事件(诸如链路不运行(Link Down)事件)信令发送到相关于PCIE链路连接(或者线缆)的故障或者丢失的CPU固件,激励CPU固件来检查线缆或者链路的操作状态。其他实施方式可以使用其他指示或者机制来激励CPU固件来检查线缆故障以实现相同效果。
根据特定方面,CPU固件还将具有线缆丢失的CPU固件设置至x4总线。如已经讨论的那样,通过利用“复用器”或者交叉点电交换机,全部道可以从每个PHB路由至两个线缆。由此,当线缆134、136之一故障时,故障转移机制触发并且CPU固件设置CPU端处的复用器以将道的集合(典型地,道0-3)从丢失线缆的PHB路由至另一激活PHB线缆的那些未使用道(典型地,道4-7)。另外如所述,交换机端处的复用器允许将每个线缆内的道的子集重新路由至任一交换机。另外,作为故障转移机制的一部分,CPU固件通过激活的PHB线缆与PCIE交换机上的MUX控制器设备通信,以便将针对PHB的激活线缆的现在的路由道4-7设置为另一交换机的道0-3。由此,通过利用激活连接线缆中的PHB的道4-7,将已经丢失线缆连接的PHB的道0-3连接至其原始连接至的交换机的道0-3;同时保持激活PHB道0-3对于其交换机道0-3的连接,除了PCIE降档协议以外同一线缆在该连接性不间断。
例如,图3示出了当线缆132出现故障并且仅有线缆130为激活时的线缆故障转移机制。CPU检测线缆132的故障,并且作为响应而使用道降档,将总线130和132中的激活道的数量从x8总线减少至x4总线。在此示例中,道降档引导PHB 106来仅仅使用道的集合110(道0-3),并引导PHB 108来仅仅使用道的集合114(道0-3)。CPU固件引导MUX 202c来在激活的总线130的道的集合114和道4-7之间建立连接。CPU固件使用激活的线缆134的I/O总线130来与MUX控制设备204a同时通信。MUX控制设备204a引导MUX202d来在PCIE交换机144的道0-3和总线130的道4-7之间建立连接。因此,故障转移机制由此通过使用激活连接的线缆134中的PHB106的道4-7,将已经丢失线缆连接的PHB 108的道0-3连接至其原始连接至的PCIE交换机144的道0-3。
根据特定方面,一旦完成服务动作来恢复丢失的线缆连接,向CPU固件通知(或者备选地可以经由电子线缆呈现信号检测)被恢复的线缆连接,并且可以将在故障转移机制期间执行的MUX的配置反向,由此改变道复用器设置,从而直接通过其相对应的线缆而将针对每个PHB的全部道重新路由至连接至其的交换机的上游端口。
图4是根据本公开一个实施方式的流程图,其示出了用于通过在CPU端和交换机端两者处使用复用器、使用图2和图3的PCIE系统提供线缆故障转移机制的示例过程400。在402处,CPU固件检查分别将PHB 106和108连接至其相应交换机142和144的线缆134和136中的故障。在404处,如果CPU固件检测到线缆中(例如,线缆136)的故障,则在406处,CPU固件将总线130和132从x8向x4总线降档。在408处,固件引导CPU端处的MUX 202c将具有线缆故障的PHB的交换机道的集合114切换至激活总线130的道4-7。在410处,固件通过使用交换机端的MUX控制设备204a,引导MUX 202d将激活总线130的交换机道4-7切换到交换机144的道0-3。在412处,如果线缆136未恢复至完全连接,则过程400继续以故障转移模式操作,并且针对恢复的连接而继续检查线缆136。在412处,如果CPU固件检测到线缆136的连接已恢复,则PCIE系统被恢复至图2中的基础操作,其中总线恢复至x8总线。
根据特定方面,可以在线缆的CPU端省略道的复用电子装置(或者MUX),以实现降低电子装置成本和封装需求的优势。然而,其缺点在于可能限制线缆的长度并且由于电子装置的定时需求(其要求为这些冗余配置而使用的两个线缆之间的窄线缆长度容限)而约束某些IO机架线缆配置。每个冗余配置在故障转移和恢复机制的固件序列中具有相应的区别。本领域普通技术人员可以选择任一冗余配置以适合于特定的PCIE实现的需求。
图5是根据本公开一个实施方式的流程图,其示出了用于提供线缆故障转移机制的示例操作500。
操作500在502处开始,通过使用第一PCIE桥接装置的道的第一集合,通过第一线缆在第一PCIE桥接装置和第一IO设备之间交换总线化位(bussed bit)的第一集合。总线化位通常是指在总线上传输的数据位。在504处,在第一线缆中检测故障。在506处,响应于在第一线缆中检测到故障,通过使用连接第二PCIE桥接装置和第二IO设备的第二线缆的未使用部分,在第一PCIE桥接装置和第一IO设备之间交换总线化位的第一集合。
图6是根据本公开一个实施方式的示例图示,其示出了用于通过仅仅在交换机端使用复用器而提供故障转移机制的PCIE系统600的基础操作。
如图6中所示,道复用器(MUX)(或者交叉点电交换机)202b和202d支持在线缆134和136的交换机端上的总线130和132中的每一个的道的集合之间进行道切换。然而,在CPU端上没有MUX,并且道的集合直接连接至线缆。在特定方面,在PCIE系统的基础操作期间,线缆134和136两者均是激活的。下文是在基础操作期间PCIE系统600的典型配置:
·在CPU端:
·对于PHB 106,道的集合110与CC 160a直接连接,而道的集合112与CC 160c直接连接。
·对于PHB 108,道的集合114与CC 160c直接连接,而道的集合116与CC 160a直接连接。
·在交换机端:
·MUX 202b将道的集合110和112与PCIE交换机142连接,并且可以用于在道的集合110和112之间切换。
·MUX 202d将道的集合114和116与PCIE交换机144连接,并且可以用于在道的集合114和112之间切换。
由此,在基础操作期间,总线130的道的集合110和112将PHB 106与交换机142连接,总线132的道的集合114和116将PHB 108与交换机144连接。在特定方面,在CPU端通过利用道交换,可以将全部道从每个PHB路由至两个线缆。例如,道的集合114可以与道的集合116交换,从而支持道的集合114通过线缆160a而不是160c被路由。类似地,道的集合110和112可以被交换以便通过线缆160a和160b中的任一而路由每个道的集合。如在上文段落中所示,交换机端的MUX 202b和202d允许将每个线缆内的道的子集重新路由至任一交换机。当然,本领域普通技术人员将认识到,MUX的配置和数量仅用于说明性目的,并且MUX的任意配置或者任意数量可以用于实现本公开的各种方面。
根据特定方面,CPU固件在CPU端控制道的交换。如上文已经讨论的,CPU固件控制PHB的操作,而MUX 202b和202d由连接至交换机142和144中任一的一个或者多个设备(或者EP)例如MUX控制设备204a和204b控制。另外,MUX控制设备204a和204b中的每一个可以控制MUX 202b和202d两者。
图7是根据本公开一个实施方式的示例图示,其示出了响应于在图6的PCIE系统中检测线缆故障的故障转移机制。如上文关于图6所述,在基础操作期间,连接在IO机架中的PHB及其相应交换机之间的每个PCIE总线130和132中的全部道。由此,两个x8 PHB 106和108中的每一个将总线130、132中的全部8个道连接至IO机架中的相应交换机。当线缆134、136之一丢失连接时,CPU固件使用PCIE“道降档”来减少在另一PHB及其相应交换机之间的激活的道的数量,例如,将其从x8总线减少到x4总线。这释放出4个道,以供由已经丢失了到其交换机的线缆连接的I/O总线和PHB使用。在特定方面,被释放的道通常是x8 PCIE总线中的道4-7。
根据特定方面,CPU固件还将具有线缆丢失的PHB设置为x4总线。如已经关于图6中的PCIE系统的基础操作所讨论的,利用道交换将全部道从每个PHB路由至两个线缆。由此,在线缆故障状况下,故障转移机制发起,并且CPU固件交换具有线缆丢失的PHB的道的集合,以便将道的集合(典型地,道0-3)从具有线缆丢失的PHB重新路由至另一激活PHB线缆的那些未使用道(典型地,道4-7)。同样地,如所讨论的,交换机端的复用器允许将每个线缆内的道的子集重新路由至任一交换机。由此,作为故障转移机制的一部分,CPU固件通过激活的PHB线缆向PCIE交换机上的MUX控制器设备通信,以便将复用器设置为:现在将激活线缆的道4-7路由至具有线缆丢失的PHB原始链接到的另一交换机的道0-3。这利用激活连接的线缆中的PHB的道4-7,将已经丢失线缆连接的PHB的道0-3连接至其原始连接至的交换机的道0-3,同时保留激活的PHB道0-3对于其交换机道0-3的连接,除了PCIE降档协议以外同一线缆在该连接性不间断。
例如,如图7中所示,线缆132已经出现故障,并且仅有线缆130是激活的。CPU检测线缆132的故障,并且作为响应,CPU固件使用道降档来将总线130和132中的激活道的数量从x8减少至x4总线。在此示例中,道降档引导PHB 106仅使用道的集合110(道0-3),并且引导PHB 108仅使用道的集合114(道0-3)。CPU固件引导PHB 108来在道的集合114和116之间交换,从而使得道的集合114(道3-0)通过激活线缆134中的总线130的道4-7被路由,而不是通过故障的线缆136被路由。CPU固件通过使用激活的线缆134的I/O总线130来与MUX控制设备204a同时通信,以引导MUX202d在总线130的道4-7和PCIE交换机144的道3-0之间建立连接。通过使用激活连接的线缆134中的PHB 106的道4-7,线缆故障转移机制由此将具有丢失线缆连接的PHB 108的道3-0连接至PHB 108原始连接到的PCIE交换机144的道3-0。
根据特定的方面,一旦完成服务动作以恢复丢失的线缆连接,向CPU固件通知(或者备选地可以经由电缆呈现信号检测)恢复的线缆连接,并且可以交换回道的集合116和114,并且将在故障转移机制期间执行的MUX 202b和202d的配置反向。
图8是根据本公开一个实施方式的图示,其示出了用于通过仅在交换机端使用复用器而使用图6和图7的PCIE系统提供线缆故障转移机制的示例过程800。在802处,CPU固件检查分别将PHB 106和108连接至其相应交换机142和144的线缆134和136中的故障。在804处,如果CPU固件检测到线缆(例如,线缆136)中的故障,则过程800前进至806,在806处CPU固件将两个总线130和132从x8降档至x4。在808处,固件引导CPU端的PHB 108,以在道的集合114和116之间交换,以便通过使用激活的总线130的道4-7来路由道的集合114。在810处,固件通过使用交换机端的MUX控制设备204a来引导MUX 202d,以建立PCIE交换机144的道3-0和总线130的道4-7之间的连接。在812处,如果线缆136没有恢复至完全连接,则过程400继续以故障转移模式操作,并且针对恢复的连接而继续检查线缆136。在412处,如果CPU固件检测到线缆136的连接已恢复,则PCIE系统被恢复至图6中的基础操作,其中总线被恢复至x8总线。
图9是根据本公开一个实施方式的图示,其示出了用于提供线缆故障转移机制的示例操作900。如所示,操作900开始于902,其中使用第一PCIE桥接装置的道的第一集合通过第一线缆,在第一PCIE桥接装置和第一IO设备之间交换总线化位中的第一集合。在904处,检测第一线缆中的故障。在906中,响应于检测到第一线缆中的故障,通过使用第一PCIE桥接装置的道的第二集合,通过第二线缆在第一PCIE桥接装置和第一IO设备之间交换总线化位的第二集合。
在下文中,对本发明的实施方式进行参考。然而,应当理解,本发明不限于特别描述的实施方式。而是,以下特征和元件的任意组合(无论是否涉及不同实施方式)均旨在实现和实践本发明。例如,本领域技术人员将意识到,本发明可以等效地应用于不使用线缆的、或者不涉及多个物理附件的PCIE链路。此类其他实施方式的PCIE链路(如通过使用嵌入在计算机电路板中的、或者在诸如通过中间平面连接器的计算机电路板之间的、以及在相同或相邻物理附件内的线缆)等效地由本发明所服务,以提供针对丢失PCIE链路的故障转移。还应当领会到,上文讨论的故障转移机制可以会适用于PCIE配置,其中IO设备或者适配器直接地连接至PHB而不是经由交换机连接。另外,类似的故障转移过程可以用于通过利用MUX控制设备,而管理连接至交换机的IO设备和交换机之间的故障连接。
此外,尽管本发明的实施方式可以通过其他可能的方案和/或通过现有技术而实现优势,但是由给定实施方式实现或者不实现特定优势不限制本发明。由此,除非在权利要求书中明确记载,下文的方面、特征、实施方式和优势仅仅是说明性的,不构成对所附权利要求书的限制或者考虑元素。另外,除非在权利要求书中明确记载,对于“本发明”的引用不构成在此公开的任何创造性主题的概括,并且不应当被认为是所附权利要求书的限制或者元素。
如本领域技术人员将领会的,本发明的方面可以体现为系统、方法或者计算机程序产品。相应地,本发明的方面可以采取完全硬件实施方式、完全软件实施方式(包括,固件、驻留软件、微代码等)或者组合软件和硬件方面的实施方式的形式,在此可以将其统称为“电路”、“模块”或者“系统”。此外,本发明的方面可以采取在一个或者多个计算机可读介质(其上体现有计算机可读程序代码)中体现的计算机程序产品的形式。
可以使用一个或者多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电的、磁的、光学、电磁的、红外的或者半导体系统、装置或者设备、或者前述的任意适合的组合。计算机可读存储介质的更多具体示例(非穷尽性列表)将包括以下:具有一个或者多个连线的电连接、便携式计算机磁带、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者闪存)、光纤、便携式压缩盘只读存储器(CD-ROM)、光学存储设备、磁存储设备、或者以上的任意适合的组合。在本文档的上下文中,计算机可读存储介质可以是任意有形介质,其包括或者存储程序,以供由指令执行系统、装置或者设备使用,或者与其结合来使用。
计算机可读信号介质可以包括其中体现有计算机可读程序代码的传播数据信号,例如,在基带中或者作为载波的一部分。此类传播信号可以采取各种形式中的任意一种,包括但不限于,电磁、光学或者它们的任意适合组合。计算机可读信号介质可以是如下任意计算机可读介质,该介质不是计算机可读存储介质而是可以传输、传播或者传递程序,以供由指令执行系统、装置或者设备使用,或者与其结合来使用。
计算机可读介质上实现的程序代码可以使用任意适合的介质来传输,包括但不限于,无线、有线、光纤线缆、RF等,或者上述的任意适合的组合。
用于执行本发明的方面的操作的计算机程序代码可以按照以一种或者多种编程语言的任意组合的形式来编写,包括面向对象编程语言(诸如Java、Smalltalk、C++等)以及传统的过程化编程语言(诸如“C”编程语言或者类似的编程语言)。程序代码可以完全在用户的计算机上执行,部分地在用户的计算机上执行,作为单独的软件包、部分地在用户的计算机上并且部分地在远程计算机上、或者完全在远程计算机或者服务器上执行。在后一情况下,远程计算机可用通过任意类型的网络连接至用户的计算机,该网络包括局域网(LAN)或者广域网(WAN),或者可以向外部计算机(例如,使用因特网服务提供商来通过因特网)进行连接。
下文参考根据本发明实施方式的方法、装置(系统)和计算机程序产品的流程图示和/或框图描述本发明的方面。应当注意,流程图示和/或框图中的每个框、以及流程图示和/或框图中框的组合可以由计算机程序指令实现。这些计算机程序指令可以被提供至通用计算机、专用计算机的处理器、或者可编程数据处理装置以便形成机器,从而使得经由计算机或者其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图图示的一个或者多个框中指定的功能/动作。
这些计算机程序指令还可以存储在计算机可读介质中,其引导计算机、其他可编程数据处理装置或者其他设备已特定方式操作,从而使得计算机可读存储介质中存储的指令产生制品,其包括实现在流程图和/或框图图示的一个或者多个框中指定的功能/动作的指令。
计算机程序指令还被加载至计算机、其他可编程数据处理装置或者其他设备,以使得在计算机、其他可编程装置或者其他设备上执行的一系列动作,以便生成计算机实现的过程,从而使得在计算机或者其他可编程装置上执行的指令提供用于实现在流程图和/或框图图示的一个或者多个框中指定的功能/动作的过程。
在附图中的流程图和框图示出了根据本发明各种实施方式的系统、方法和计算机程序产品的可能的实现的架构、功能性和操作。在此方面,流程图或者框图中的每个框可以表示模块、片段或者代码段,其包括用于实现指定逻辑功能的一个或者多个可执行指令。还应当注意,在某些备选实现中,框中标注的功能可以按照不同于附图中标注的顺序出现。例如,依赖于所涉及的功能,相继示出的两个框可以基本上并发地执行,或者框有时可以按相反顺序执行。还应当注意,框图和/或流程图示的每个框、以及框图和/或流程图示中的框的组合可以由专用的基于硬件的系统实现,其执行特定功能或者动作、或者专用硬件和计算机指令的组合。
尽管上文涉及本发明的实施方式,在不脱离其中基本范围的情况下,本发明的其他和进一步的实施方式可以有所变化,并且随附权利要求书确定本发明的范围。

Claims (18)

1.一种用于为第一PCIE桥接装置和第一输入/输出IO设备之间的连接提供故障转移操作的方法,所述方法包括:
通过使用所述第一PCIE桥接装置的道的第一集合,通过第一链路在所述第一PCIE桥接装置和所述第一IO设备之间交换总线化位的第一集合;
响应于检测到所述第一链路中的故障,通过使用连接第二PCIE桥接装置和第二IO设备的第二链路的未使用部分,在所述第一PCIE桥接装置和所述第一IO设备之间交换总线化位的第二集合。
2.根据权利要求1所述的方法,其中,响应于检测到所述故障而交换所述总线化位的第二集合包括:
在PCIE桥接装置端,通过使用所述第二链路的所述未使用部分,在所述第二PCIE桥接装置的道的第一集合和道的第二集合之间执行第一切换,以供在所述第一PCIE桥接装置和所述第一IO设备之间交换所述总线化位的所述第二集合。
3.根据权利要求2所述的方法,其中,响应于检测到所述故障而交换所述总线化位的所述第二集合进一步包括:
在IO设备端,通过使用所述第二链路的所述未使用部分,在所述道的第一集合和所述道的第二集合之间执行第二切换,以供在所述第一PCIE桥接装置和所述第一IO设备之间交换所述总线化位的所述第二集合。
4.根据权利要求3所述的方法,进一步包括:
响应于检测到所述第一链路中的所述故障,配置所述第二PCIE桥接装置以停止使用所述道的第二集合。
5.根据权利要求4所述的方法,进一步包括:
响应于检测到所述第一链路中的所述故障,配置所述第一PCIE桥接装置以停止使用所述道的第一集合以外的道。
6.根据权利要求1所述的方法,其中,所述第一PCIE桥接装置和所述第二PCIE桥接装置中的每一个包括PCIE主机桥接装置PHB。
7.根据权利要求1所述的方法,其中,所述第一IO设备和所述第二IO设备中的每一个包括PCIE交换机。
8.根据权利要求1所述的方法,其中,所述第一PCIE桥接装置和所述第二PCIE桥接装置被罩在PCIE根复合体中。
9.一种用于为第一PCIE桥接装置和第一输入/输出IO设备之间的连接提供故障转移操作的装置,所述装置包括:
连接第一PCIE桥接装置与第一IO设备的第一链路,所述第一链路用于通过使用所述第一PCIE桥接装置的道的第一集合,在所述第一PCIE桥接装置和所述第一IO设备之间交换总线化位的第一集合;
连接第二PCIE桥接装置与第二IO设备的至少一个第二链路,其中响应于检测到所述第一链路中的故障,通过使用所述第二链路的未使用部分,在所述第一PCIE桥接装置和所述第一IO设备之间交换总线化位的第二集合。
10.根据权利要求9所述的装置,进一步包括:
PCIE桥接装置端处的至少一个第一交换机,用于通过使用所述第二链路的所述未使用部分,在所述第二PCIE桥接装置的道的第一集合和道的第二集合之间执行第一切换,以供在所述第一PCIE桥接装置和所述第一IO设备之间交换所述总线化位的所述第二集合,其中所述未使用的部分包括所述道的第二集合。
11.根据权利要求10所述的装置,进一步包括:
在IO设备端处的至少一个第二交换机,用于通过使用所述第二链路的所述未使用部分,在所述道的第一集合和所述道的第二集合之间执行第二切换,以供在所述第一PCIE桥接装置和所述第一IO设备之间交换所述总线化位的所述第二集合。
12.根据权利要求11所述的装置,其中:
响应于检测到所述第一链路中的所述故障,配置所述第二PCIE桥接装置以停止使用所述道的第二集合。
13.根据权利要求12所述的装置,其中:
响应于检测到所述第一链路中的所述故障,配置所述第一PCIE桥接装置以停止使用所述道的第一集合以外的道。
14.根据权利要求11所述的装置,其中,由中央处理单元CPU固件控制所述第一交换机和所述第二交换机。
15.根据权利要求14所述的装置,进一步包括:
连接至所述第二IO设备的控制设备,用于控制所述第二交换机,所述控制设备由所述CPU固件控制。
16.根据权利要求9所述的装置,其中,所述第一PCIE桥接装置和所述第二桥接装置中的每一个包括PCIE主机桥接装置PHB。
17.根据权利要求9所述的装置,其中,所述第一IO设备和所述第二IO设备中的每一个包括PCIE交换机。
18.根据权利要求9所述的装置,其中,所述第一PCIE桥接装置和所述第二PCIE桥接装置被罩在PCIE根复合体中。
CN201110264073.8A 2010-12-03 2011-09-02 用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置 Active CN102486759B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/959,917 US8645746B2 (en) 2010-12-03 2010-12-03 Cable redundancy and failover for multi-lane PCI express IO interconnections
US12/959,917 2010-12-03

Publications (2)

Publication Number Publication Date
CN102486759A true CN102486759A (zh) 2012-06-06
CN102486759B CN102486759B (zh) 2015-05-13

Family

ID=46152253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110264073.8A Active CN102486759B (zh) 2010-12-03 2011-09-02 用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置

Country Status (3)

Country Link
US (2) US8645746B2 (zh)
JP (2) JP5932287B2 (zh)
CN (1) CN102486759B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125049A (zh) * 2014-08-08 2014-10-29 浪潮电子信息产业股份有限公司 一种基于brickland平台的pcie设备冗余实现方法
CN104641360A (zh) * 2012-10-19 2015-05-20 英特尔公司 对存储器及对等设备的双播PCIe入站写入
CN106776159A (zh) * 2015-11-25 2017-05-31 财团法人工业技术研究院 具有故障转移的快速外围元件互连网络系统与操作方法
CN107809325A (zh) * 2016-09-09 2018-03-16 佛山市顺德区顺达电脑厂有限公司 外围元件互连的拓朴方法、网络拓朴系统及网络拓朴方法
CN107918594A (zh) * 2016-10-05 2018-04-17 三星电子株式会社 半导体装置、操作半导体装置的方法和包括该装置的系统
CN109495463A (zh) * 2018-11-02 2019-03-19 郑州云海信息技术有限公司 一种链路宽度协商方法、装置及计算机可读存储介质
CN110489366A (zh) * 2019-07-12 2019-11-22 苏州浪潮智能科技有限公司 一种服务器主板连接器信号复用系统
CN110583104A (zh) * 2017-03-07 2019-12-17 利奇得公司 用于高速外设部件互连(PCIe)系统的机架式交换机设备

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8539134B2 (en) * 2010-02-15 2013-09-17 International Business Machines Corporation PCI express multiplier device
US8645746B2 (en) 2010-12-03 2014-02-04 International Business Machines Corporation Cable redundancy and failover for multi-lane PCI express IO interconnections
US8677176B2 (en) 2010-12-03 2014-03-18 International Business Machines Corporation Cable redundancy and failover for multi-lane PCI express IO interconnections
JP5346978B2 (ja) * 2011-04-15 2013-11-20 シャープ株式会社 インターフェイス装置、配線基板、及び情報処理装置
JP5346979B2 (ja) * 2011-04-18 2013-11-20 シャープ株式会社 インターフェイス装置、配線基板、及び情報処理装置
US8661178B2 (en) * 2011-07-27 2014-02-25 Agilent Technologies, Inc. PCI-E system having reconfigurable link architecture
JP5915086B2 (ja) * 2011-10-31 2016-05-11 富士通株式会社 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
JP5542787B2 (ja) * 2011-12-08 2014-07-09 シャープ株式会社 画像形成装置
JP6135114B2 (ja) * 2012-12-13 2017-05-31 富士通株式会社 ストレージ装置、エラー処理方法及びエラー処理プログラム
CN103972735A (zh) * 2013-01-30 2014-08-06 鸿富锦精密电子(天津)有限公司 信号切换电路及包括该电路的pcie连接器组合
JP2014183482A (ja) * 2013-03-19 2014-09-29 Fujitsu Ltd 送受信システム、送信装置、受信装置、及び送受信システムの制御方法
US9727409B2 (en) 2014-06-17 2017-08-08 Samsung Electronics Co., Ltd. Device and system including adaptive repair circuit
WO2016048374A1 (en) 2014-09-26 2016-03-31 Hewlett Packard Enterprise Development Lp Receptacle for connecting a multi-lane or one-lane cable
US10741963B2 (en) 2015-02-27 2020-08-11 Hewlett Packard Enterprise Development Lp Cable assembly with conjoined one-lane cable assemblies
JPWO2016151774A1 (ja) * 2015-03-24 2018-01-11 富士通株式会社 情報処理装置、情報処理システムおよび情報処理装置の制御プログラム
US11868301B1 (en) * 2015-03-25 2024-01-09 Amazon Technologies, Inc. Symmetrical multi-processor serial links
WO2016175795A1 (en) 2015-04-29 2016-11-03 Hewlett Packard Enterprise Development Lp Cable assembly
US9859974B2 (en) * 2015-06-25 2018-01-02 International Business Machines Corporation Rerouting bus data signals from faulty signal carriers to existing healthy signal carriers
US9858161B2 (en) * 2015-10-27 2018-01-02 International Business Machines Corporation Implementing cable failover in multiple cable PCI express IO interconnections
US9985876B2 (en) 2015-11-20 2018-05-29 International Business Machines Corporation Determining cable connections in a multi-cable link
US10073751B2 (en) 2015-11-20 2018-09-11 International Business Machines Corporation Determining cable connections in a multi-cable link
US10235317B1 (en) 2016-09-22 2019-03-19 EMC IP Holding Company LLC Fabric management system and method
US10503678B1 (en) 2016-09-22 2019-12-10 EMC IP Holding Company LLC Fabric management system and method
US10324880B1 (en) * 2016-09-22 2019-06-18 EMC IP Holding Company LLC Fabric management system and method
US10235316B1 (en) 2016-09-22 2019-03-19 EMC IP Holding Company LLC Fabric management system and method
CN108008657B (zh) * 2016-10-28 2020-07-21 北京计算机技术及应用研究所 一种控制板和交换板总线直连的负载均衡冗余交换系统
US10592285B2 (en) 2017-05-31 2020-03-17 Dell Products, Lp System and method for information handling system input/output resource management
JP7052386B2 (ja) 2018-02-01 2022-04-12 富士通株式会社 転送装置及び転送方法
US11157356B2 (en) * 2018-03-05 2021-10-26 Samsung Electronics Co., Ltd. System and method for supporting data protection across FPGA SSDs
JP6996757B2 (ja) * 2019-03-27 2022-01-17 Necプラットフォームズ株式会社 カード、システム、カードが実行する制御方法及びプログラム
CN112699073A (zh) * 2021-01-06 2021-04-23 同方计算机有限公司 Bmc系统可控的pcie卡在线更换方法及系统
KR102635457B1 (ko) 2021-05-24 2024-02-13 에스케이하이닉스 주식회사 PCIe 장치 및 이를 포함하는 컴퓨팅 시스템
KR102559387B1 (ko) 2021-05-25 2023-07-26 에스케이하이닉스 주식회사 PCIe 인터페이스 장치 및 그 동작 방법
US11960367B2 (en) 2021-05-24 2024-04-16 SK Hynix Inc. Peripheral component interconnect express device and operating method thereof

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1714343A (zh) * 2002-08-02 2005-12-28 草谷(U.S)公司 用于媒体区域网络的实时故障切换恢复
CN101727297A (zh) * 2008-10-30 2010-06-09 株式会社日立制作所 存储装置、存储控制器内部网络的数据路径故障切换方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5826066A (en) 1996-08-08 1998-10-20 Tandem Computers Incorporated Method for keeping accurate time in a computer system
US8364829B2 (en) 2004-09-24 2013-01-29 Hewlett-Packard Development Company, L.P. System and method for ascribing resource consumption to activity in a causal path of a node of a distributed computing system
US7743197B2 (en) 2006-05-11 2010-06-22 Emulex Design & Manufacturing Corporation System and method for virtualizing PCIe devices
JP4877482B2 (ja) * 2006-04-11 2012-02-15 日本電気株式会社 PCIExpressリンク、マルチホストコンピュータシステム、およびPCIExpressリンクの再構成方法
US7594134B1 (en) 2006-08-14 2009-09-22 Network Appliance, Inc. Dual access pathways to serially-connected mass data storage units
US7676625B2 (en) 2006-08-23 2010-03-09 Sun Microsystems, Inc. Cross-coupled peripheral component interconnect express switch
US7562264B2 (en) 2006-09-06 2009-07-14 Intel Corporation Fault tolerant soft error detection for storage subsystems
US8285893B2 (en) 2006-10-13 2012-10-09 Dell Products L.P. System and method for adaptively setting connections to input/output hubs within an information handling system
US7574551B2 (en) 2007-03-23 2009-08-11 International Business Machines Corporation Operating PCI express resources in a logically partitioned computing system
US8305879B2 (en) 2007-03-30 2012-11-06 International Business Machines Corporation Peripheral component switch having automatic link failover
US7752346B2 (en) 2007-12-21 2010-07-06 Aprius, Inc. Universal routing in PCI-Express fabrics
JP5151500B2 (ja) * 2008-01-18 2013-02-27 日本電気株式会社 コンピュータシステム、障害処理方法および障害処理プログラム
US8151145B2 (en) * 2008-04-03 2012-04-03 Oracle America, Inc. Flow control timeout mechanism to detect PCI-express forward progress blockage
JP2009267771A (ja) * 2008-04-25 2009-11-12 Hitachi Ltd 情報処理装置及びパス制御方法
US8031731B2 (en) 2008-06-09 2011-10-04 Oracle America, Inc. System for sharing a network port of a network interface including a link for connection to another shared network interface
US8346997B2 (en) 2008-12-11 2013-01-01 International Business Machines Corporation Use of peripheral component interconnect input/output virtualization devices to create redundant configurations
US8122274B2 (en) 2009-02-27 2012-02-21 International Business Machines Corporation Method, system and computer program product for certifying a timestamp of a data processing system
JP5267943B2 (ja) * 2009-03-30 2013-08-21 日本電気株式会社 PCI−Express通信システム、及びPCI−Express通信方法
US20100280855A1 (en) 2009-04-30 2010-11-04 Vinay Gupta Management of a first stand-alone system used as a subsystem within a second system
JP5074457B2 (ja) 2009-06-04 2012-11-14 株式会社日立製作所 計算機システム、スイッチ切り替え方法及びpciスイッチ
US9094564B2 (en) 2010-05-07 2015-07-28 Microsoft Technology Licensing, Llc Clock synchronization for shared media playback
US8645746B2 (en) 2010-12-03 2014-02-04 International Business Machines Corporation Cable redundancy and failover for multi-lane PCI express IO interconnections
US8677176B2 (en) 2010-12-03 2014-03-18 International Business Machines Corporation Cable redundancy and failover for multi-lane PCI express IO interconnections

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1714343A (zh) * 2002-08-02 2005-12-28 草谷(U.S)公司 用于媒体区域网络的实时故障切换恢复
CN101727297A (zh) * 2008-10-30 2010-06-09 株式会社日立制作所 存储装置、存储控制器内部网络的数据路径故障切换方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104641360A (zh) * 2012-10-19 2015-05-20 英特尔公司 对存储器及对等设备的双播PCIe入站写入
CN104641360B (zh) * 2012-10-19 2018-10-26 英特尔公司 对存储器及对等设备的双播PCIe入站写入
CN104125049A (zh) * 2014-08-08 2014-10-29 浪潮电子信息产业股份有限公司 一种基于brickland平台的pcie设备冗余实现方法
CN106776159A (zh) * 2015-11-25 2017-05-31 财团法人工业技术研究院 具有故障转移的快速外围元件互连网络系统与操作方法
CN107809325A (zh) * 2016-09-09 2018-03-16 佛山市顺德区顺达电脑厂有限公司 外围元件互连的拓朴方法、网络拓朴系统及网络拓朴方法
CN107918594A (zh) * 2016-10-05 2018-04-17 三星电子株式会社 半导体装置、操作半导体装置的方法和包括该装置的系统
CN107918594B (zh) * 2016-10-05 2023-09-12 三星电子株式会社 半导体装置、操作半导体装置的方法和包括该装置的系统
CN110583104A (zh) * 2017-03-07 2019-12-17 利奇得公司 用于高速外设部件互连(PCIe)系统的机架式交换机设备
CN109495463A (zh) * 2018-11-02 2019-03-19 郑州云海信息技术有限公司 一种链路宽度协商方法、装置及计算机可读存储介质
CN110489366A (zh) * 2019-07-12 2019-11-22 苏州浪潮智能科技有限公司 一种服务器主板连接器信号复用系统

Also Published As

Publication number Publication date
US20130080678A1 (en) 2013-03-28
JP5878656B2 (ja) 2016-03-08
JP2015135697A (ja) 2015-07-27
JP2012118969A (ja) 2012-06-21
US20120144087A1 (en) 2012-06-07
JP5932287B2 (ja) 2016-06-08
US8645747B2 (en) 2014-02-04
CN102486759B (zh) 2015-05-13
US8645746B2 (en) 2014-02-04

Similar Documents

Publication Publication Date Title
CN102486759A (zh) 用于为多道pci高速io互连提供线缆冗余和故障转移的方法和装置
CN102541790B (zh) 用于为多通路pci特快io互连提供故障保护的方法和装置
US10467110B2 (en) Implementing cable failover in multiple cable PCI Express IO interconnections
US10838816B2 (en) Detecting and sparing of optical PCIE cable channel attached IO drawer
ES2323508T3 (es) Sistema de comunicacion que tiene una funcion de reserva para varios dispositivos serie y procedimiento para llevar a cabo la funcion de conmutacion.
KR102147629B1 (ko) 플렉시블 서버 시스템
TWI603202B (zh) 具有通道資源重定向的設備及系統
CN106713184A (zh) 一种双冗余数据交换装置
CN207232852U (zh) 一种基于Purley平台的8路服务器计算板
US20200110372A1 (en) Control Device for Redundant Execution of an Operating Function and Motor Vehicle
US7639037B1 (en) Method and system for sizing flow control buffers
US7814347B2 (en) Power supply device
KR102033112B1 (ko) Pci 익스프레스 스위치 장치 및 그의 접속 제어 방법
US7656789B2 (en) Method, system and storage medium for redundant input/output access
CN104933001A (zh) 一种基于RapidIO技术的双控制器数据通信方法
JP5176816B2 (ja) 情報処理装置、モジュール、及び通信リンクの形成方法
CN103399836B (zh) 双iic链路的管理系统及其复位方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant