CN1828574A - 使用串行连接总线的计算机系统及多cpu互连方法 - Google Patents

使用串行连接总线的计算机系统及多cpu互连方法 Download PDF

Info

Publication number
CN1828574A
CN1828574A CNA2005100860865A CN200510086086A CN1828574A CN 1828574 A CN1828574 A CN 1828574A CN A2005100860865 A CNA2005100860865 A CN A2005100860865A CN 200510086086 A CN200510086086 A CN 200510086086A CN 1828574 A CN1828574 A CN 1828574A
Authority
CN
China
Prior art keywords
management controller
cpu element
exchanger unit
interchanger
series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100860865A
Other languages
English (en)
Other versions
CN100445981C (zh
Inventor
小原成介
增山和则
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN1828574A publication Critical patent/CN1828574A/zh
Application granted granted Critical
Publication of CN100445981C publication Critical patent/CN100445981C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bus Control (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Abstract

一种计算机系统,通过隐蔽计算机系统(其中通过PCI Express交换器互连多个CPU单元)中的交换器的上游端口的特殊性使得系统能够工作。当一CPU单元(其连接到对多个CPU单元进行互连的串行连接交换器的上游端口)不能工作,并且无法建立CPU单元和交换器之间的链接时,交换器单元的管理控制器被选作上游端口的设备。

Description

使用串行连接总线的计算机系统及多CPU互连方法
技术领域
本发明涉及一种由串行连接总线互连的多个CPU单元构成的计算机系统,以及通过串行连接总线互连多个CPU单元的方法,更具体地,涉及如下一种计算机系统,其中多个单元由串行连接交换器进行互连,该串行连接交换器具有为系统初始化而设置的上游端口;还涉及用于通过串行连接总线互连多个CPU单元的方法。
背景技术
近年来,由于电子数据使用的扩展,由计算机系统处理的数据量急剧增长。为了满足这样的需求,目前正在开发用于在计算机系统内进行互连的互连技术(内部连接),从而获得高速且大容量的数据传输。
在LSI和印刷电路板中都采用了这种互连技术,并且该技术被广泛用作计算机系统内的互连装置。一个已得到广泛使用的典型示例是用于并行数据传输的PCI(外围设备互连)总线。
图9示出了采用传统PCI总线的计算机系统的配置。CPU(中央处理单元)100经由存储控制器102连接到存储器(主存储器)104和输入/输出控制器(I/O控制器)104。该I/O控制器104具有多个PCI总线108-1、108-2。PCI总线108-1、108-2具有PCI槽106-1至106-4。
在这些PCI槽106-1至106-4中,插入其上安装有PCI设备(主要是外围设备)的卡。该PCI总线的工作频率范围从33MHz到133MHz,具有32位和64位两种类型的总线宽度。每槽两个方向上的总的总线带宽最大为每秒1千兆字节(gigabyte per second,GB/s)
与这种并行PCI总线相比,串行式互连由于除高速和大容量外,安装成本还很低,因此被认为在近期将成为主流。具体地,PCI-SIG(PCI特殊兴趣组PCI Special Interest Group,)继PCI总线之后已经开发出了PCI Express总线(一种串行互连总线)。PCI Express总线被期待可以用于从台式计算机到大规模服务器的各种计算机系统及存储系统。
图10示出了采用传统PCI Express总线的计算机系统的配置图。CPU100经由存储控制器102连接到存储器104。该存储控制器102具有多个PCI Express总线110-1至110-4。其上安装有PCI Express总线设备的卡可以安装在各PCI Express总线槽106-1至106-4上。
这些PCI Express总线110-1至110-4为串行传输总线,其中每个都具有相互分开的上行路径和下行路径。由于类型不同,信号线总数为4。为了串行执行数据包传输,每槽带宽在一个方向上为1GB/s,这是PCI总线所提供带宽的两倍。
如此,由于PCI Express总线中的信号线数量少于PCI总线中的该数量,因此可以减少芯片组、基板上的电线并减小连接器尺寸,其中每项都有助于降低成本。同时,提供的带宽超过PCI带宽的两倍,可以满足高速和高性能的要求。
该PCI Express总线逻辑上继承了PCI总线架构(外围设备的连接)。根据PCI Express总线标准,与USB集线器相类似,用于切换存储控制器中的连接路径的交换器中的一个端口具有特殊任务,如用于对整个系统进行初始化,该端口称为“上游端口”。(例如,参见日本特开2001-229119号公报)。
在正常情况下,在图10所示的配置中,一个CPU 100连接到该上游端口以使用PCI Express总线(即,用于外围设备的串行互连总线),因为一个CPU 100连接到外围设备。
如上所述,期望诸如PCI Express总线的串行互连可以作为高性能低成本互连用于各种领域中。然而,最初,PCI Express总线用于将外围设备连接到CPU。当PCI Express总线用于多个CPU的互连时,当打算不进行任何修改而采用PCI Express总线时就存在需要解决的问题。
即,当使用具有多个端口的PCI Express交换器连接多个CPU节点时,对于连接到该交换器的上游端口的特定CPU节点分配特权。没有该CPU节点,则该PCI Express交换器无法执行初始化操作(链接建立)。
同时,在由多个CPU节点构成的服务器或存储系统中,为了增加灵活性,可以将CPU节点视为多个单元,单元的数量可以根据产品配置来增加或减少。因此,如果在该系统中不存在该特殊CPU,则不能操作交换器,结果导致无法操作系统。所以随意增加或减少CPU节点变得很困难。应尽可能避免这种情况。
此外,当连接到上游端口的CPU节点中出现故障时,无法操作PCIExpress交换器,这也导致难于进行系统操作。
发明内容
因此,本发明的一个目的是提供一种使用串行连接总线的计算机系统,使得可以通过隐蔽串行连接交换器上游端口的特殊性,实现经由串行连接交换器在多个CPU节点间进行互连;还提供了一种使用串行连接总线互连多个CPU单元的方法。
本发明的另一目的是提供一种使用串行连接总线的计算机系统,即使当CPU节点没有连接到串行连接交换器的上游端口,也能够建立与其它连接到串行连接交换器的CPU节点的链接;还提供了一种使用串行连接总线互连多个CPU单元的方法。
本发明的又一目的是提供一种使用串行连接总线的计算机系统,即使当连接到串行连接交换器的上游端口的CPU节点不能正常工作时,也使得能够建立与其它连接到串行连接交换器的CPU节点的链接;还提供了一种使用串行连接总线互连多个CPU单元的方法。
为了实现上述目的,根据本发明的计算机系统包括多个CPU单元和一交换器单元,该交换器单元具有多个端口,该交换器单元用于互连各个通过串行连接总线连接到这些端口的CPU单元。该交换器单元包括:串行连接交换器,其具有被设定为上游端口的多个端口之一;以及管理控制器,其判断上游端口的链接建立,并且当链接建立失败时,该管理控制器用作该串行连接交换器的上游设备。
根据本发明的互连方法是通过串行连接总线经由具有多个端口的交换器单元对多个CPU单元进行互连的方法。该方法包括以下步骤:判断是否在串行连接交换器(其中多个端口之一被设定为上游端口)和串行连接总线的连接目的地之间建立了链接;以及当链接建立失败时,由用作串行链接交换器的上游设备的管理控制器执行链接建立序列。
根据本发明,优选地,串行连接总线为PCI Express总线,并且串行连接交换器为PCI Express交换器。
根据本发明,优选地,交换器单元还包括切换电路,该切换电路将串行连接交换器切换到管理控制器或交换器单元的外部端口。当判定链接建立失败时,管理控制器对切换电路进行切换,以使其连接到管理控制器。
根据本发明,优选地,管理控制器解除串行连接交换器的复位,并且串行连接交换器响应于该复位解除,对于连接到上游端口的外部单元执行链接建立序列。
根据本发明,优选地,连接到交换器单元的各CPU单元包括第二管理控制器,其经由通信路径连接到交换器单元的管理控制器。交换器单元的管理控制器通过与各CPU单元的第二管理控制器的通信,进行交换器单元与各个CPU单元之间的同步,并解除复位。
根据本发明,优选地,当判定成功地建立了链接时,交换器单元的管理控制器经由通信链路向CPU单元的第二管理控制器报告该成功,并且CPU单元的第二管理控制器根据该报告起动CPU单元。
根据本发明,优选地,切换电路包括:选择电路,选择串行连接交换器的输入和输出以连接到管理控制器或交换器单元的外部端口;以及捆绑(strap)端口,其连接到选择电路,从交换器单元的管理控制器接收选择信号。
根据本发明,优选地,切换电路包括:选择电路,选择串行连接交换器的输入和输出以连接到管理控制器或交换器单元的外部端口;以及内部寄存器,其连接到选择电路,从交换器单元的管理控制器接收选择信号。
根据本发明,优选地,各个CPU单元包括存储服务器,该存储服务器控制多个存储设备。各存储服务器经由交换器单元交换数据。
根据本发明,优选地,各个存储服务器将从连接到各存储服务器的主计算机接收到的写入数据经由交换器单元传输到另一存储服务器。
通过以下结合附图对实施例的说明,本发明的其它范围和特征将更为显而易见。
附图说明
图1示出了根据本发明一实施例的计算机系统的配置图。
图2示出了图1所示的CPU单元之间的互连操作的说明图。
图3示出了包括图1所示的路由的地址映射的说明图。
图4示出了图1中所示的交换器单元的配置图。
图5示出了图4中所示的交换中继器的配置图。
图6示出了图1和图4中所示配置中的初始化处理的流程图。
图7示出了图7中所示的初始化处理序列的说明图。
图8示出了根据本发明另一实施例的计算机系统的配置图。
图9示出了使用传统PCI总线的计算机系统的框图。
图10示出了使用传统PCI Express总线的计算机系统的配置图。
具体实施方式
下面参照图表,按照计算机系统、串行连接总线的初始化及其它实施例的顺序说明本发明的优选实施例。
计算机系统
图1是根据本发明一实施例的计算机系统的配置图;图2是使用图1中所示的PCI Express交换器的连接操作的说明图;以及图3是从图1所示的DMA观察到的每个CPU单元的地址映射图。尽管图1所示的实施例表示了作为示例计算机系统的盘阵列单元,但本发明的应用领域并不限于盘阵列单元。
如图1所示,盘阵列单元1包括四个CPU单元(节点)4-0至4-3以及两个交换器单元3-1、3-2。CPU 4-0至4-3经由PCI Express总线54连接到交换器单元3-1、3-2。
四个CPU单元4-0至4-3构成了存储控制模块(CM),各个CPU单元具有在主机接口(HI)48和磁盘接口(DI)50中的多个端口。主机端口48根据所连接主机的类型和数据传输目的,使用如光纤通道、iSCSI、ESCON等的各种协议。
盘接口50通过电缆52连接到多个盘盒2-1至2-4。根据所使用的盘类型,在盘接口50中使用诸如光纤通道、串行ATA的协议。在各个盘盒2-1至2-4上都安装有多个磁盘存储驱动器(例如,15个硬盘驱动器)。
此外,各个CPU单元4-0至4-3包括CPU40、存储器(具有高速缓存区)42、DMA(直接存储访问)电路46和存储控制器(MCH)44。通过该存储控制器44,CPU 40、存储器(具有高速缓存区)42、DMA电路46、主机接口48和盘接口50互连。
此外,主板管理控制器(BMC)32-0、32-1、32-2和32-3分别安装在CPU单元4-0至4-3上。而且,主板管理控制器30安装在各个交换器单元3-1、3-2上。BMC 32-0至32-3和30通过通信信道(通信路径)60(专为其间的通信而设)相互连接。根据本发明的该实施例,各个BMC与Ethernet(注册商标)(100Base-TX)连接以进行上述通信。
主板管理控制器(BMC)32-0至32-3和30对安装在主板上的各个设备(这里为单元4-0至4-3、3-1和3-2)执行复位解除、初始化等,这将在下面进行说明。
接下了,说明盘阵列单元1的操作。各个CPU单元4-0至4-3通过主机接口48从主计算机接收读取/写入命令,并执行数据读取/写入处理。即,各个CPU单元4-0至4-3按照写入请求将从主计算机接收的用户数据写入磁盘,并按照从主计算机接收到的读取请求从盘读取用户数据。
此时,各个CPU单元4-0至4-3用作各主计算机的盘高速缓冲存储器。更具体地,各个CPU单元4-0至4-3并不立即将从各主计算机接收到的数据写入磁盘。而是各个CPU单元4-0至4-3将数据存入存储器42中的高速缓冲存储器区中。当接收到读取请求时,各个CPU单元4-0至4-3通过从存储器42而不是从盘读取数据来进行应答。这样,从主计算机的角度看,可以加快响应速度。
当在存储器42的高速缓冲存储器区中不存在读取请求的用户数据时,相关的CPU单元4-0至4-3通过盘接口50向其中存储有相关数据的盘驱动器发出读取请求,从该盘驱动器读取数据。CPU单元将读出的数据存储在存储器42的高速缓冲存储器区中,然后,将读出的数据传送到主计算机。
类似地,至于存储在存储器42的高速缓冲存储器区中的写入数据,根据CPU单元的内部进度表,经由盘接口50执行向其中待存储数据的盘驱动器进行写入的写入处理(称为回写)。
如上所述,把待保存在盘中的数据高速缓存到存储器42中能够实现高响应速度。然而,与盘2-1相比,存储器42为可靠性相当差的存储单元。另外,由于存储器42为易失性存储器,在断电等的情况下存在数据丢失的危险。
为了避免这样的风险,将高速缓存数据映射到盘阵列单元1。也就是,将一个CPU单元(称为“主”CPU单元)接收的用户数据存储在相关CPU单元的存储器42中,并且还在另一CPU单元(称为“副”CPU单元)的存储器42中进行复制。
利用上述方法,即使当主CPU单元的存储器42中的数据丢失时,也可以使用存储在副CPU单元的存储器42中的数据来响应主计算机的请求。
当该CPU单元将数据复制到其它CPU单元的存储器42中时,通过使用DMA功能经由交换器单元3-1(3-2)传输数据包。当DMA电路46传输数据时,将数据和地址打包到单个数据包中。该地址包括传输目的地的CPU单元中的存储器地址,和交换器单元中使用的路由地址。
参照图2,下面将以CPU单元4-1将数据写入CPU单元4-3的存储器42中的情况为例,说明由上述DMA功能处理的两个地址。
各个CPU单元4-0至4-3中的存储器地址由40位(通过其可对一千吉字节进行编址,这个容量即使在大规模存储系统中也是足够的)指定。
交换器单元3-1(3-2)中的交换器10可以处理64位地址。进行如下构造:接收到的数据包中的传送目的地地址由64位地址的前2位(地址[63:62])决定。当地址[63:62]为“0x00”时,将数据包传送到CPU单元4-0。类似地,当地址为“0x01”时,将数据包传送到CPU单元4-1,当地址为“0x02”时,传送到CPU单元4-2,并且当地址为“0x03”时,传送到CPU单元4-3。
在图2所示的示例中,当将数据写入地址为“0012 3456 7800”的CPU单元4-3的存储器中时,CPU单元4-1中的DMA电路46将“0xC000 0012 3456 7800”指定为要添加到数据包中的地址。交换器单元3-1中的交换器10解析数据包地址,并使用该地址的前2位作为路由地址,将数据包传输到CPU单元4-3。
当接收到数据包时,CPU单元4-3中的DMA电路46提取出该地址的后40位,即仅“123 456 7800”。然后,DMA电路46将提取出的地址传到存储控制器44。从而,存储控制器44将附随的复制数据存储到存储器42的上述地址中。
图3是从各个CPU单元4-0至4-3(0-3)的DMA察看到的地址映射。即,为了使用前2位作为路由地址,设定如下所示的地址范围与CPU(CM)单元4-0至4-3(0-3)的组合。
(0x0000_0000_0000_0000-0x3FFF_FFFF_FFFF_FFFF)…CM单元0
(0x4000_0000_0000_0000-0x7FFF_FFFF_FFFF_FFFF)…CM单元1
(0x8000_0000_0000_0000-0xBFFF_FFFF_FFFF_FFFF)…CM单元2
(0xC000_0000_0000_0000-0xFFFF_FFFF_FFFF_FFFF)…CM单元3
串行连接交换器的初始化
由于对于切换操作而设置的上述交换器10为PCI Express交换器,所以必须通过从上游端口起动的链接建立序列操作,对于建立到各个CPU单元4-0至4-3的链接进行初始化。
图4是交换器单元3-1的框图,而图5是图4所示的交换中继器34的电路图。如图4所示,PCI Express交换器单元3-1包括进行上述操作的PCI Express交换器10、BMC 30和交换中继器34。图1所示的其它PCI Express交换器单元3-2具有与PCI Express交换器单元3-1相同的配置。
BMC 30由处理器构成,且包括PCI Express端口、一个GPIO(通用输入/输出)和复位输出端口。PCI Express端口连接到交换中继器34的一个端口。GPIO连接到交换中继器34的选择(SEL)端口。复位输出端口连接到PCI Express交换器10的复位端口。而且,BMC 30接收PCIExpress交换器10的上游端口上的输入/输出信号,并监控上游端口的链接建立状态。
PCI Express交换器10具有四个端口,每个都连接到各CPU单元4-0至4-3(如图4中的CPU 0-3所示)。这里,至于仅到CPU 4-0的连接,交换中继器34介入PCI Express交换器10与CPU 4-0之间。换言之,交换中继器34介入上游端口。该交换中继器34从CPU单元4-0(0)和BMC 30之间选择交换器连接的对方。
如图5所示,交换中继器34为并不影响协议的IC。如在PCI Ex交换中继器34具有以2.5千兆比特每秒(Gbps)接收高速差分信号(press标准中规定的)、并输出具有相同的2.5Gbps速度的差分信号的功能。该交换中继器34主要为波形整形而设,并且也具有静态切换功能。交换中继器34可以通过将选择(SEL)端口切换到“0”或“1”来选择两个输入/输出中的任意一个。
参照图5,具体说明上述内容。对于至交换器10的上行方向,交换中继器34包括:差分放大器340、342,用于当分别收到来自BMC 30和CPU单元4-0(0)的成对信号时生成差分输出;选择器344,用于选择差分放大器340、342的输出中的一个;以及转换器346,用于将选择器344的输出转换为一对信号。
此外,对于自交换器10的下行方向,交换中继器34包括:差分放大器350,用于当接收到来自交换器10的一对信号时生成差分输出;选择器352,用于选择差分放大器350的输出的传输目的地;以及转换器354、356,分别用于将选择器352的输出转换为成对信号,并输出到BMC30或CPU单元4-0(0)。上述选择器344、352由选择(SEL)端口上的发自BMC 30的选择信号来选择。
接下来,说明初始化处理。初始化处理使用设置在交换器单元3-1的BMC 30以及分别设置在CPU单元4-0至4-3中的BMC 32-0至32-3。图6是交换器单元3-1(3-2)和CPU单元4-0至4-3的初始化处理流程图,而图7是图6中所示的操作序列的说明图。参照图7说明图6所示的初始化处理。
(S10)当在系统中接通电源时,单元3-1、3-2以及4-0至4-3中的BMC 30、32-0至32-3开始运行。
(S12)交换器单元3-1(3-2)中的BMC 30对于CPU单元4-0(0)设置交换器10的上游端口。即,BMC 30在交换中继器34的选择(SEL)端口上提供CPU 4-0(例如“0”)的选择信号,从而指示选择CPU 4-0(0)。更具体地,如上所述,通过设定,连接到交换器10的上游端口的交换中继器34可以选择待连接到交换器10的CPU单元4-0和交换器单元3-1中的BMC 30中的一个。在初始条件下,交换中继器34选择CPU 4-0。
(S14)接下来,在各单元3-1、3-2以及4-0至4-3中的BMC 30和32-0至32-3解除各单元3-1、3-2以及4-0至4-3的复位,使用通信路径60相互同步。
(S16)如果连接到上游端口的CPU单元4-0正常运行,则交换器10的PCI Express链接功能和CPU单元4-0中的PCI Express链接功能(更详细地,DMA电路46)自动起动各个初始化序列。从而建立链接,并且该链接变成运行的。在上游端口建立了以上链接之后,交换器10中除上游端口外的端口执行各初始化序列。因此,完成链接建立,并且整个系统变成运行的。
如果CPU 4-0不存在或不能正常工作,则不能建立交换器10与CPU单元4-0之间的PCI Express链接。结果,交换器10中的其余端口无法起动初始化序列,并且整个系统不能工作。
(S18)为了避免上述情况,在解除了复位状态后,交换器单元3-1中的BMC 30开始监控是否已经建立了与交换器10的链接。即,在解除了复位状态后,BMC 30监控“链接建立状态输出信号”,该信号要出现在交换器10的上游端口上的输入/输出信号中。
(S20)BMC 30判断该链接建立状态输出信号是否表示建立了链接。当判定表示链接建立时,处理进行到步骤S28。
(S22)另一方面,如果BMC 30判定链接未建立,则BMC 30判断监控计时器中的从复位解除时刻开始的时间是否超时。如果尚未超时,则处理返回到步骤S20。
(S24)当BMC 30判定出现超时,即,当没有在特定时间周期内建立链接时,BMC 30设置交换中继器34以将BMC 30本身连接到上游端口。BMC 30也再次对交换器10进行复位。即,BMC 30将BMC 30的选择信号(例如,“1”)输出到交换中继器34的选择(SEL)端口,从而使交换选择器344、352切换至BMC 30侧(也就是,将上游端口连接到BMC 30)。而且,BMC 30将复位信号输出到交换器10。
(S26)当解除复位时,与步骤S16类似,在交换器10和BMC 30中起动链接初始化序列。然后,BMC 30以类似的方式监控链接建立状态。
(S28)因此,建立了BMC 30与交换器单元3-1的PCI Express交换器10之间的链接,并且随后建立交换器单元3-1与CPU单元4-1至4-3之间的PCI Express链接。结果,系统变成运行的。当判定链接已经建立时,BMC 30经由通信路径60通知各CPU单元4-1至4-3的BMC 32-1至32-3链接建立。当从交换器单元3-1的BMC 30收到通知时,CPU单元4-1至4-3的BMC 32-1至32-3分别起动CPU单元4-1至4-3。例如,通过实现CPU 40中的DMA功能来执行这些起动操作。
这样,BMC监控在CPU单元的复位解除后在执行交换器和CPU单元的链接序列期间,是否已经建立了与交换器10的链接。如果不能在特定时间期间内建立链接,则BMC将BMC自身连接到上游端口,并代替CPU单元执行链接序列。
因此,即使CPU单元没有连接到上游端口,或所连接的CPU单元发生故障,仍可以使用交换器10正常建立至其它CPU的链接,且通过使用交换器10使系统可以运行。
即,在具有使用PCI Express交换器结合在一起的多个CPU节点的计算机系统中,可以隐蔽适合PCI Express标准的上游端口的特殊性,并且对应于CPU节点的增加或删减系统可进行工作。
此外,通过在上游端口上设置交换中继器34,和通过在BMC 30上设置链接建立监控功能、交换中继器34的切换功能和链接序列功能,可以很容易以低成本构建系统。
其它实施例
图8是根据本发明另一实施例的计算机系统配置。如图8所示,计算机系统由八个CPU单元(节点)0-7,和一个交换器单元3-1构成。CPU单元(节点)0-7通过PCI Express总线54连接到交换器单元3-1。
此外,各个CPU单元0-7包括CPU 40、存储器42和具有DMA(直接存储访问)电路的存储控制器(MCH)44。
在本实施例中,与图1、4和5相同,在交换器单元3-1中设置有BMC 30和交换中继器34,并且在各CPU节点0-7中设置有BMC 32-0至32-7。通过以上配置,也可以实现图6、7中所示的替代操作。
在前述实施例中,使用PCI Express总线来描述计算机系统中的信号线。然而,也可以使用其它高速串行总线,如Rapid-IO。可以根据需要增加或减少控制模块中的通道适配器的数量和盘适配器的数量。类似地,在以上说明中,使用选择端口来选择交换中继器的连接目的地。然而,也可以通过设定交换中继器中的内部寄存器来选择连接目的地。在这种情况下,优选地,BMC 30经由通信路径60通过访问内部寄存器来改变连接目的地。
进而,作为盘驱动器,可以采用任何存储设备,包括硬盘驱动器、光盘驱动器、磁光盘驱动器。而且,存储系统和计算机系统的配置并不限于图1和图8所示的配置,也可以采用其它配置。
总之,在具有相互连接的多个CPU单元的计算机系统中,使用串行连接交换器,在由于连接到串行连接交换器的上游端口的CPU单元不能工作而无法建立链接的情况下,通过切换,选择设置在交换器单元中的管理控制器,作为上游端口的设备。因此,即使当产品由任意数量个CPU单元构成时,系统仍可进行工作。即,可以隐蔽上游端口的特殊性,并且对应于CPU节点的增加和删减系统可进行工作。
上述对实施例的说明不旨在将本发明限于所示示例的具体细节。可以在本发明的范围内进行任何适当的修改及其等同物。所附权利要求涵盖落入本发明范围内的本发明的全部特征和优点。
本申请基于2005年3月4日提交的在先日本特开2005-060807号公报,并要求其权益,在此通过引用并入其全部内容。

Claims (20)

1、一种计算机系统,包括:
多个CPU单元;以及
交换器单元,其具有多个端口,并用于对通过串行连接总线连接到各个端口的各个CPU单元进行互连,
其中交换器单元包括:
串行连接交换器,其具有被设定为上游端口的多个端口之一;以及
管理控制器,判断上游端口的链接建立,并且当链接建立失败时,该管理控制器用作串行连接交换器的上游设备。
2、根据权利要求1所述的计算机系统,
其中串行连接总线是PCI Express总线,并且串行连接交换器是PCIExpress交换器。
3、根据权利要求1所述的计算机系统,
其中交换器单元还包括:
切换电路,其将串行连接交换器切换到管理控制器或交换器单元的外部端口,
并且其中当管理控制器判断链接建立失败时,管理控制器对切换电路进行切换,以使其连接到管理控制器。
4、根据权利要求1所述的计算机系统,
其中管理控制器解除串行连接交换器的复位,
并且串行连接交换器响应于该复位解除,对连接到上游端口的外部单元执行链接建立序列。
5、根据权利要求4所述的计算机系统,
其中各个CPU单元包括:
第二管理控制器,其经由通信路径连接到交换器单元的管理控制器,并且
其中交换器单元的管理控制器通过与各CPU单元的第二管理控制器进行通信来执行交换器单元与各CPU单元之间的同步,并解除复位。
6、根据权利要求4所述的计算机系统,
其中,当管理控制器判定链接建立成功时,交换器单元的管理控制器将该成功经由通信路径报告给CPU单元的第二管理控制器,
并且CPU单元的第二管理控制器根据该报告起动CPU单元。
7、根据权利要求3所述的计算机系统,
其中切换电路包括:
选择电路,其选择串行连接交换器的输入和输出以连接到管理控制器或交换器单元的外部端口;以及
捆绑端口,其连接到选择电路,从交换器单元的管理控制器接收选择信号。
8、根据权利要求3所述的计算机系统,
其中切换电路包括:
选择电路,其选择串行连接交换器的输入和输出以连接到管理控制器或交换器单元的外部端口;以及
内部寄存器,其连接到选择电路,从交换器单元的管理控制器接收选择信号。
9、根据权利要求1所述的计算机系统,
其中各个CPU单元包括:
存储服务器,其控制多个存储设备,并将数据经由交换器单元交换到另一CPU单元的另一存储服务器。
10、根据权利要求9所述的计算机系统,
其中各存储服务器经由交换器单元将从连接到各存储服务器的主计算机接收的写入数据传输到另一存储服务器。
11、一种用于通过串行连接总线经由具有多个端口的交换器单元互连多个CPU单元的方法,包括以下步骤:
判断其中多个端口之一被设定为上游端口的串行连接交换器是否与串行连接总线的连接目的地之间的链接建立成功;以及
当链接建立失败时,由用作串行连接交换器的上游设备的管理控制器执行链接建立序列。
12、根据权利要求11所述的用于通过串行连接总线互连多个CPU单元的方法,
其中执行步骤还包括以下步骤:
通过被设置为串行连接总线的PCI Express总线,执行各CPU单元与被设置为串行连接交换器的PCI Express交换器之间的链接建立序列。
13、根据权利要求11所述的用于通过串行连接总线互连多个CPU单元的方法,
其中执行步骤还包括以下步骤:
当链接建立失败时,对被设置为用于将串行连接交换器切换到管理控制器或交换器单元的外部端口的切换电路进行切换,以使其连接到管理控制器。
14、根据权利要求11所述的用于通过串行连接总线互连多个CPU单元的方法,
其中执行步骤还包括以下步骤:
通过管理控制器解除串行连接交换器的复位;以及
通过串行连接交换器对连接到上游端口的外部单元执行链接建立序列。
15、根据权利要求14所述的用于通过串行连接总线互连多个CPU单元的方法,还包括以下步骤:
通过使交换器单元的管理控制器与连接到交换器单元的各CPU单元的第二管理控制器进行通信,使交换器单元与各CPU单元同步来解除复位。
16、根据权利要求14所述的用于通过串行连接总线互连多个CPU单元的方法,还包括以下步骤:
当交换器单元的管理控制器判定链接建立成功时,将该成功经由通信路径报告给各CPU单元的管理控制器;以及
由CPU单元的管理控制器根据该报告起动CPU单元。
17、根据权利要求13所述的用于通过串行连接总线互连多个CPU单元的方法,
其中切换步骤还包括以下步骤:
使用从交换器单元的管理控制器接收选择信号的捆绑端口上的选择信号,对用于选择串行连接交换器的输入和输出以连接到管理控制器或交换器单元的外部端口的选择电路进行切换。
18、根据权利要求13所述的用于通过串行连接总线互连多个CPU单元的方法,
其中切换步骤还包括以下步骤:
使用从交换器单元的管理控制器接收选择信号的内部寄存器的状态,对用于选择串行连接交换器的输入和输出以连接到管理控制器或交换器单元的外部端口的选择电路进行切换。
19、根据权利要求11所述的用于通过串行连接总线互连多个CPU单元的方法,还包括以下步骤:
通过对构成各个CPU单元的多个存储设备进行控制的存储服务器,经由交换器单元交换数据。
20、根据权利要求19所述的用于通过串行连接总线互连多个CPU单元的方法,
其中交换步骤还包括以下步骤:
将从连接到各服务器的主计算机接收的写入数据经由交换器单元传输到另一存储服务器。
CNB2005100860865A 2005-03-04 2005-07-21 使用串行连接总线的计算机系统及多cpu互连方法 Expired - Fee Related CN100445981C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005060807A JP4509827B2 (ja) 2005-03-04 2005-03-04 シリアルコネクトバスを使用したコンピュータシステム及び複数cpuユニットのシリアルコネクトバスによる接続方法
JP2005060807 2005-03-04

Publications (2)

Publication Number Publication Date
CN1828574A true CN1828574A (zh) 2006-09-06
CN100445981C CN100445981C (zh) 2008-12-24

Family

ID=36945367

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100860865A Expired - Fee Related CN100445981C (zh) 2005-03-04 2005-07-21 使用串行连接总线的计算机系统及多cpu互连方法

Country Status (4)

Country Link
US (1) US7565474B2 (zh)
JP (1) JP4509827B2 (zh)
KR (1) KR100709540B1 (zh)
CN (1) CN100445981C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320361B (zh) * 2008-02-27 2011-12-07 中兴通讯股份有限公司 一种多cpu通讯方法及系统
CN102694719A (zh) * 2011-03-25 2012-09-26 研祥智能科技股份有限公司 微型电信计算架构系统、载板集线器模块及pci-e交换器的端口配置方法
CN103746941A (zh) * 2014-01-18 2014-04-23 浪潮集团有限公司 一种板级互联大数据一体机
CN104536702A (zh) * 2014-12-31 2015-04-22 华为技术有限公司 一种存储阵列系统及数据写请求处理方法
CN108337307A (zh) * 2018-01-31 2018-07-27 郑州云海信息技术有限公司 一种多路服务器及其节点间通信方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4878849B2 (ja) * 2006-01-30 2012-02-15 アルパイン株式会社 情報処理システム、情報処理端末およびファイル管理方法
US20090157949A1 (en) * 2007-12-18 2009-06-18 Leibowitz Robert N Address translation between a memory controller and an external memory device
KR100922635B1 (ko) * 2008-12-02 2009-10-22 (주) 제노맥스 Pci 익스프레스 버스 기반 테스터 인터페이스 장치
TW201222274A (en) * 2010-11-30 2012-06-01 Inventec Corp Computer chassis system
CN107766282B (zh) * 2017-10-27 2021-04-27 郑州云海信息技术有限公司 一种八路服务器背板与双扣板互联系统的设计方法
US10853248B1 (en) * 2018-02-05 2020-12-01 Amazon Technologies, Inc. In-rack network for power signals
CN112511394B (zh) * 2020-11-05 2022-02-11 中国航空工业集团公司西安航空计算技术研究所 一种RapidIO总线系统的管理维护方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU650242B2 (en) * 1989-11-28 1994-06-16 International Business Machines Corporation Methods and apparatus for dynamically managing input/output (I/O) connectivity
JPH05120207A (ja) * 1991-10-25 1993-05-18 Takaoka Electric Mfg Co Ltd デ−タ転送方式
JP3363645B2 (ja) * 1995-02-10 2003-01-08 キヤノン株式会社 オプションユニット統括制御装置およびシリアル通信装置
JP3346079B2 (ja) 1995-03-10 2002-11-18 株式会社デンソー マルチcpuシステムのデータ入出力処理装置
JP3505963B2 (ja) * 1996-08-06 2004-03-15 ヤマハ株式会社 データ中継装置
US6189040B1 (en) 1996-08-06 2001-02-13 Yahama Corporation Data relaying unit and method of transmitting data between host and client devices
JP2000183939A (ja) * 1998-12-21 2000-06-30 Nec Corp データ転送装置
JP2000196648A (ja) * 1998-12-28 2000-07-14 Toshiba Corp 電子機器制御方法および電子機器制御装置
US6324613B1 (en) * 1999-01-05 2001-11-27 Agere Systems Guardian Corp. Port router
JP3371953B2 (ja) * 1999-03-05 2003-01-27 日本電気株式会社 Usbネットワーク構成システム
JP2001229119A (ja) 2000-02-16 2001-08-24 Hitachi Ltd 複数コンピュータによるデバイス選択hubbox
AU3510801A (en) 2000-08-17 2002-02-21 Xybernaut Corporation Computer system absent a parallel system bus
CN1172248C (zh) * 2001-10-26 2004-10-20 华为技术有限公司 一种利用同步串口实现多个cpu全互连的方法
US7103064B2 (en) * 2003-01-21 2006-09-05 Nextio Inc. Method and apparatus for shared I/O in a load/store fabric
US7188209B2 (en) * 2003-04-18 2007-03-06 Nextio, Inc. Apparatus and method for sharing I/O endpoints within a load store fabric by encapsulation of domain information in transaction layer packets
JP2004295407A (ja) * 2003-03-26 2004-10-21 Olympus Corp Usbハブ装置
JP4210993B2 (ja) * 2003-04-23 2009-01-21 日本電気株式会社 Usbハブ装置、usb周辺装置及びデータ送受信方法
US7096308B2 (en) * 2003-08-29 2006-08-22 Texas Instruments Incorporated LPC transaction bridging across a PCI—express docking connection
US7058738B2 (en) * 2004-04-28 2006-06-06 Microsoft Corporation Configurable PCI express switch which allows multiple CPUs to be connected to multiple I/O devices
US20060149977A1 (en) * 2004-12-31 2006-07-06 Barnes Cooper Power managing point-to-point AC coupled peripheral device

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101320361B (zh) * 2008-02-27 2011-12-07 中兴通讯股份有限公司 一种多cpu通讯方法及系统
CN102694719A (zh) * 2011-03-25 2012-09-26 研祥智能科技股份有限公司 微型电信计算架构系统、载板集线器模块及pci-e交换器的端口配置方法
CN102694719B (zh) * 2011-03-25 2017-08-15 研祥智能科技股份有限公司 微型电信计算架构系统、载板集线器模块及pci‑e交换器的端口配置方法
CN103746941A (zh) * 2014-01-18 2014-04-23 浪潮集团有限公司 一种板级互联大数据一体机
CN104536702A (zh) * 2014-12-31 2015-04-22 华为技术有限公司 一种存储阵列系统及数据写请求处理方法
CN104536702B (zh) * 2014-12-31 2017-12-15 华为技术有限公司 一种存储阵列系统及数据写请求处理方法
CN107844270A (zh) * 2014-12-31 2018-03-27 华为技术有限公司 一种存储阵列系统及数据写请求处理方法
CN108337307A (zh) * 2018-01-31 2018-07-27 郑州云海信息技术有限公司 一种多路服务器及其节点间通信方法
CN108337307B (zh) * 2018-01-31 2021-06-29 郑州云海信息技术有限公司 一种多路服务器及其节点间通信方法

Also Published As

Publication number Publication date
JP4509827B2 (ja) 2010-07-21
JP2006244258A (ja) 2006-09-14
US20060200614A1 (en) 2006-09-07
US7565474B2 (en) 2009-07-21
KR100709540B1 (ko) 2007-04-20
CN100445981C (zh) 2008-12-24
KR20060096238A (ko) 2006-09-11

Similar Documents

Publication Publication Date Title
CN1828574A (zh) 使用串行连接总线的计算机系统及多cpu互连方法
US7552289B2 (en) Method and apparatus for arbitrating access of a serial ATA storage device by multiple hosts with separate host adapters
CN100405352C (zh) 通过串行总线互连多个处理节点的装置及方法
JP4869065B2 (ja) 仮想周辺コンポーネントインターコネクト多重ファンクション装置
US7412544B2 (en) Reconfigurable USB I/O device persona
EP0798894B1 (en) Management communication bus for networking devices
US20040083324A1 (en) Large array of mass data storage devices connected to a computer by a serial link
TW201937381A (zh) 支援多模式及/或多速度之跨架構高速非揮發性記憶體裝置的系統與方法及儲存裝置
CN1553346A (zh) 冗余外部储存虚拟化计算机系统
JP2004005429A (ja) Usbシステム、多数のideデバイスをプロセッサに接続するための方法、およびデータ記憶システム
CN1812693A (zh) 一种双总线接口电路板组件及其装配方法
JP2008021024A (ja) 情報処理装置およびデータ通信装置
US20170220506A1 (en) Modular Software Defined Storage Technology
JP2014506362A (ja) 構成可能なポート.タイプのペリフェラル・インターコネクト・エクスプレス/シリアル・アドバンスト・テクノロジー・アタッチメントのホスト・コントローラ・アーキテクチャを容易にするための機構
JP2006195870A (ja) データ転送システム及び電子機器
JP2006211532A (ja) 通信デバイス、データ転送システム及び電子機器
CN113297122A (zh) 基于串行总线聚合io连接管理来影响处理器调节
TWI465922B (zh) 介面裝置的資料流量分析管理裝置、系統與方法
CN1561492A (zh) 用于与总线连接的总线系统和总线接口
CN100351824C (zh) 总线系统和用于连接到总线的总线接口
CN107643881A (zh) 一种大容量可扩展全闪存阵列控制节点的方法及系统
US20070150683A1 (en) Dynamic memory buffer allocation method and system
CN117041184B (zh) Io拓展装置及io交换机
JP3636160B2 (ja) データ転送制御装置、電子機器及びデータ転送制御方法
Otani et al. Peach: A multicore communication system on chip with PCI Express

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20081224

Termination date: 20160721