JP2011107858A - 通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム - Google Patents

通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム Download PDF

Info

Publication number
JP2011107858A
JP2011107858A JP2009260620A JP2009260620A JP2011107858A JP 2011107858 A JP2011107858 A JP 2011107858A JP 2009260620 A JP2009260620 A JP 2009260620A JP 2009260620 A JP2009260620 A JP 2009260620A JP 2011107858 A JP2011107858 A JP 2011107858A
Authority
JP
Japan
Prior art keywords
computer
communication interface
bus
upstream
standby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009260620A
Other languages
English (en)
Inventor
Daisuke Gako
大輔 賀口
Yutaka Tawara
豊 俵
Yoshinori Wakai
義憲 若井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009260620A priority Critical patent/JP2011107858A/ja
Publication of JP2011107858A publication Critical patent/JP2011107858A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Bus Control (AREA)

Abstract

【課題】通信インタフェースの種類が異なる複数の入出力装置に複数の現用系計算機が通信可能に接続される計算機システムに必要とされる待機系計算機の数を抑える。
【解決手段】複数の計算機と複数の入出力装置との間に、一以上のスイッチ装置が介在する。一以上スイッチ装置が、入出力装置の第1の通信インタフェースの種類に合わせた第3の通信インタフェースと、複数の第3の通信インタフェースに接続される一以上のスイッチデバイスとを有する。各計算機は、第2の通信インタフェースを通じてスイッチデバイスに接続される。このため、複数の計算機が有する複数の第2の通信インタフェースは同じ種類の通信インタフェースで良く、複数の計算機が、複数の第2の通信インタフェースを通じて各種の第3の通信インタフェースを共有することができる
【選択図】図1

Description

本発明は、通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システムでの計算機の系の切り替えに関する。
ストレージエリアネットワーク(SAN)に接続されているRAID(Redundant Array of Independent (or Inexpensive) Disks)装置が、オペレーティングシステムを含むソフトウェアイメージを記憶し、現用系計算機と待機系計算機、SANを介してそのソフトウェアイメージを共有することが可能である。特許文献1によれば、現用系計算機のFC(Fibre Channel)ポートに割り当てられた固有のID(World Wide Name)を待機系計算機のFCポートに設定することで、現用系計算機のソフトウェアイメージを待機系計算機でそのまま利用することが可能となる。
特開2007−94611号公報
現用系計算機及び待機系計算機を有する計算機システム(以下、冗長計算機システム)において、現用系計算機及び待機系計算機には、現用系計算機及び待機系計算機が共有するソフトウェアイメージ(オペレーティングシステムを含む)を記憶するRAID装置(RAID構成を有するストレージ装置)の他に、そのRAID装置の通信インタフェースとは異なる種類の通信インタフェースを有する入出力装置が接続される場合がある。以下、通信インタフェースが異なる複数の入出力装置を有する冗長計算機システムを、便宜上、「マルチインタフェースシステム」と言う。
図9に、従来のマルチインタフェースシステムの一例を示す。
現用系計算機及び待機系計算機の各々に、プロトコルが異なる複数の入出力装置が接続されている。具体的には、例えば、以下の通りである。
現用系計算機a100は、FCで通信するための通信インタフェース(以下、FCカード)104と、SAS(Serial Attached SCSI)で通信するための通信インタフェース(以下、SASカード)105とを有する。なぜなら、FCで通信する入出力装置(例えば、RAID装置118及び119)と、SASで通信する入出力装置(例えばRAID装置120及びテープ装置121)との両方と通信するためである。FCカード104が、FCスイッチ(FCでの通信を中継する装置)112及び113を経由して、RAID装置118及び119に接続されている。SASカード105が、SASスイッチ(SASでの通信を中継する装置)114及び115を経由して、RAID装置120及びテープ装置121に接続されている。
現用系計算機b101は、FCカード106と、IPで通信するための通信インタフェース(以下、LAN(Local Area Network)カード)107とを有する。なぜなら、FCで通信する入出力装置(例えば、RAID装置118及び119)と、IP(Internet Protocol)で通信する入出力装置(例えば、計算機122及び123)との両方と通信するためである。FCカード106が、FCスイッチ112及び113を経由して、RAID装置118及び119に接続されている。LANカード107が、LANスイッチ(IPでの通信を中継しLANを構成する装置)116及び117を経由して、計算機122及び123に接続されている。
このように、マルチインタフェースシステムでは、現用系計算機が、接続する入出力装置の通信インタフェースに合わせた通信インタフェース(以下、I/O拡張カード)を有する必要がある。このため、複数の現用系計算機に接続される複数の入出力装置の通信インタフェースの種類が異なっている場合、複数の現用系計算機が有するI/O拡張カードの種類が異なる。
また、マルチインタフェースシステムでは、現用系計算機に代わって待機系計算機が現用系となる計算機切り替えが行われた後に待機系計算機が入出力装置を利用できるように、待機系計算機が、現用系計算機と同様のI/O拡張カードを有する必要がある。
具体的には、現用系計算機a100と同様のI/O拡張カードを有する待機系計算機として、待機系計算機a102が用意されている。待機系計算機a102は、現用系計算機a100と同様に、FCカード108とSASカード109とを有している。FCカード108は、現用系計算機a100のFCカード104と同様に、FCスイッチ112及び113を経由してRAID装置118及び119に接続されている。SASカード109は、現用系計算機a100のSASカード105と同様に、SASスイッチ114及び115を経由してRAID装置120及びテープ装置121に接続されている。
現用系計算機b101と同様のI/O拡張カードを有する待機系計算機として、待機系計算機b103が用意されている。待機系計算機b103は、現用系計算機b101と同様に、FCカード110とLANカード111とを有する。FCカード110は、現用系計算機b101のFCカード104と同様に、FCスイッチ112及び113を経由してRAID装置118及び119に接続されている。LANカード111は、現用系計算機b101のLANカード107と同様に、LANスイッチ116及び117を経由して計算機122及び123に接続されている。
このシステムによれば、現用計算機a100に着目とすると、図9に太線で示すように、現用計算機a100がスイッチ112、113、114、115を介して入出力装置118、119、120及び121にアクセス可能となっている。しかし、図10に示すように、現用系計算機a100に障害が発生した場合は、現用計算機a100に代わって待機系計算機a102が現用系となるので、図10に太線で示すように、待機系計算機a102がスイッチ112、113、114、115を介して入出力装置118、119、120及び121にアクセス可能となる。
このように、マルチインターフェースシステムでは、現用系計算機と同様のI/O拡張カードを有する待機系計算機を用意する必要がある。このため、複数の現用系計算機のそれぞれのI/O拡張カードの種類が異なると、現用系計算機毎に、現用計算機のI/O拡張カードの種類と同じ種類のI/O拡張カードを有した待機系計算機を用意しなければならない。
本発明の目的は、通信インタフェースの種類が異なる複数の入出力装置に複数の現用系計算機が通信可能に接続される計算機システムに必要とされる待機系計算機の数を抑えることにある。
複数の計算機と複数の入出力装置との間に、一以上のスイッチ装置が介在する。一以上スイッチ装置が、入出力装置の第1の通信インタフェースの種類に合わせた第3の通信インタフェースと、複数の第3の通信インタフェースに接続される一以上のスイッチデバイスとを有する。各計算機は、第2の通信インタフェースを通じてスイッチデバイスに接続される。このため、複数の計算機が有する複数の第2の通信インタフェースは同じ種類の通信インタフェースで良く、複数の計算機が、複数の第2の通信インタフェースを通じて各種の第3の通信インタフェースを共有することができる。
複数の入出力装置には、例えば、現用系計算機が実行するオペレーティングシステムを記憶するストレージ装置(RAID構成を有していてもいなくても良い)が含まれている。待機系計算機は、ブートするために、そのストレージ装置からそのオペレーティングシステムを読み出し実行する。それにより、現用系計算機に代わって待機系計算機が現用系になることができる。
本発明により、通信インタフェースの種類が異なる複数の入出力装置に複数の現用系計算機が通信可能に接続される計算機システムに必要とされる待機系計算機の数を抑えることができる。
本発明の一実施形態に係る計算機システムを示す。 I/Oドロワ12の構成を示す。 入出力構成情報テーブル2の構成を示す。 ルーティングテーブル75の構成を示す。 バス番号管理テーブルの構成を示す。 バス番号テーブルの構成を示す。 系切り替えのフローチャートである。 図7のステップ60の処理のフローの詳細を示す。 従来のマルチインタフェースシステム(通信インタフェースの種類が異なる複数の入出力装置に複数の現用系計算機が通信可能に接続された計算機システム)の一例を示す。 図9のマルチインタフェースシステムでの計算機の系切り替えを示す。 入出力構成情報テーブル2の更新前と更新後とを示す。 更新前のルーティングテーブルが表すポート間接続を示す。 更新後のルーティングテーブルが表すポート間接続を示す。 バス番号管理テーブル40の更新前と更新後とを示す。 バス番号テーブル76の更新前と更新後とを示す。
Peripheral
Component Interconnect(PCI)規格を改良したPCIe(以下、「PCIe」と表記する)が近年普及している。PCIeでは、バスに接続されているデバイスが、バス番号、デバイス番号、ファンクション番号と呼ばれる三種類の番号の組み合わせで識別される。これらの番号は、一般に、バスにつながるデバイスの検索時に割り当てられる。計算機の系の切替えを契機に待機計算機からデバイスの検索が行われると、待機系計算機で動作するソフトウェアが、現用系計算機が認識していたデバイスと同じデバイスを認識できない。
また、通信インタフェースの種類が異なる複数の入出力装置に複数の現用系計算機が通信可能に接続される計算機システムでは、複数の現用系計算機のそれぞれのI/O拡張カード(通信インタフェース)の種類が異なると、現用系計算機毎に、現用計算機のI/O拡張カードの種類と同じ種類のI/O拡張カードを有した待機系計算機を用意しなければならない。
そこで、本発明の一実施形態に係る計算機システムは、以下に説明する構成及び機能を有する。以下、図面を参照して、本実施形態に係る計算機システムを説明する。
図1は、本発明の一実施形態に係る計算機システムを示す。なお、以下の説明では、「通信インタフェース」というデバイスを「カード」と表記する。
計算機システムは、複数の入出力装置(例えば、計算機22、RAID装置24、テープ装置30)と、複数の計算機(例えば、現用計算機A3、現用計算機B4、待機系計算機C5)と、一以上のI/Oドロワ(例えば、二つのI/Oドロワ12、13)と、管理サーバ1とを有する。
計算機22、RAID装置24及びテープ装置30の各々のカードが異なっている。具体的には、計算機22は、LANカード23を有し、RAID装置(RAID構成を有するストレージ装置)24は、FCカード112を有し、テープ装置30は、SASカード111を有する。このように、複数の入出力装置のカードの種類が異なっている。
各計算機3、4、5は、二つのスロット(以下、便宜上「PCIeスロット」と言う)(6、7)、(8、9)、(10、11)を有する。各PCIeスロット6、7、8、9、10、11に、PCIeの信号を通す機能をもつデバイス(以下、PCIe信号中継カード)44、45、46、47、48、49が搭載される。なお、PCIeスロット及びPCIe信号中継カード(以下、中継カード)の数は、2より多くても良い。
I/Oドロワ12(及び13)は、PCIeスイッチF14(及びPCIeスイッチG15)と、スロット(以下、PCIeスロット)16、17、及び18(19、20及び21)と、スイッチコントローラ38(及び39)とを有する装置である。
PCIeスイッチF14(及びPCIeスイッチG15)は、PCIeに従うパケットを転送するデバイスである。PCIeスイッチF14(及びPCIeスイッチG15)は、複数のポートを有する。複数のポートには、中継カード44、45及び46(47、48及び49)と、PCIeスロット16、17、及び18(19、20及び21)とが接続される。以下、中継カードが接続されているポートのことを「アップストリームポート」と言い、PCIeスロットが接続されているポートのことを「ダウンストリームポート」と言う。PCIeスイッチF14(及びPCIeスイッチG15)は、スイッチコントローラ38(及び39)によって制御される。
PCIeスロット16、17、及び18(19、20及び21)には、接続される入出力装置のカードに合わせたI/O拡張カードが搭載される。
具体的には、PCIeスロット18(19)には、LANカード34(35)が搭載される。LANカード34は、固有のID(MACアドレス)を有し、LANカード35は、LANカード34と異なるMACアドレスを有する。LANカード34と35は、LANスイッチ31を介して、計算機22のLANカード23に接続されている。
PCIeスロット20(21)には、SASカード36(37)が搭載される。SASカード36は、固有のID(World
Wide Name=WWN)を有し、SASカード37は、SASカード36と異なるWWNを有する。SASカード36と37は、SASスイッチ29を介して、テープ装置30のSASカード111に接続される。
PCIeスロット16(17)には、FCカード32(33)が搭載される。FCカード32は、固有のID(World Wide Name=WWN)を有し、FCカード33は、FCカード32と異なるWWNを有する。FCカード32と33は、FCスイッチ27を介して、RAID装置24のFCカード112に接続される。なお、RAID装置24は、現用系計算機A3(現用系計算機B4)のブート用オペレーティングシステムであるOS-A25(OS-B26)と、LUNマッピングテーブル28とを記憶している。OS-A25は、LUN(Logical Unit Number)0のLU(Logical Unit)に格納されており、OS-B26は、LUN1のLUに格納されている。LUNマッピングテーブル28は、現用系計算機A3(B4)に割り当てられるFCカード16の固有のID(WWN)とLUNとの論理的な接続(対応関係)を表す。この論理的な接続により、現用計算機がアクセス可能なLUが制限されている(例えば、現用系計算機A3からOS-B26へのアクセスは禁止されている)。
計算機3、4及び5は、それぞれ、プロセッサ及びメモリ等のハードウェア資源(図示せず)を有し、プロセッサで、ソフトウェア41、42及び43が実行される。ソフトウェア41(42及び43)は、プロセッサで実行されることにより、計算機3(4及び5)の初期設定、計算機3(4及び5)の初期診断、及び、計算機3(4及び5)の起動用デバイスの検出と管理などを行う。ソフトウェア41(42及び43)は、起動用デバイスの検出の一環で、PCIeのバスに接続するデバイスの検索時に、以下の処理、
*PCI
to PCIブリッジ(以下、PCI-PCIブリッジ)がバス番号指定機能を有しているか否かを判定すること、
*指定されたバス番号の使用有無を示すフラグを参照することで、指定されたバス番号の使用有無を判断し、使用しない場合は、通常のデバイス検索処理でバス番号を割り当て、一方、使用する場合は、指定されたバス番号を割り当てること、
を行う。
計算機3(4及び5も同様)において、PCIeに従うパケットが流れる。例えば、計算機3において、プロセッサから入出力回路(例えばLSI(Large Scale
Integration))が入力を受け、その入力に応答して、入出力回路から、PCIeに従うパケットが出力される。パケットには、バス番号、デバイス番号及びファンクション番号が指定されている。これらの番号が、I/O拡張カード(I/Oドロワ内のFCカード、SASカード又はLANカード)を表す。パケットは、そのI/O拡張カードに接続されている中継カードを通過し、PCIeスイッチのアップストリームポートに着く。PCIeスイッチでは、ルーティングにより、そのパケットを受けたアップストリームポートに接続されているダウンストリームポートが特定され、そのダウンストリームポートからパケットが出力される。そのパケットは、そのダウンストリームポートに接続されているI/O拡張カードに着く。そして、そのI/O拡張カードにより、PCIeに従うパケットがそのI/O拡張カードの種類に従うパケットに変換され、変換後のパケットが、そのI/O拡張カードから入出力装置に送信される。
すなわち、本実施形態に係る計算機システムによれば、計算機内での通信プロトコルであるPCIeで通信可能な範囲が、計算機内に閉じているのではなく、計算機の外(具体的には、I/Oドロワ内のPCIeスロット)まで広げられており、複数の計算機が、計算機の外にあるI/O拡張カード(入出力装置のカードの種類に対応した種類のI/O拡張カード)を共有できるようになっている。従って、複数の計算機の各々には、割り当てられる入出力装置のカードの種類に合わせたI/O拡張カードを搭載する必要が無く、計算機内での通信プロトコルであるPCIeに従うパケットを単純に通過させるカードが搭載されれば良い。つまり、全ての計算機が有するカードの種類は同じである。これにより、図1に示すように、待機系計算機を現用系計算機よりも少なくすることができる。別の言い方をすれば、現用系の計算機の数に関わらず、待機系計算機の数を、少なくとも一つという、最小限の数に抑えることができる。
I/Oドロワ12(及び13)のスイッチコントローラ39(及び38)と、計算機3、4及び5に、管理サーバ1が接続されている。管理サーバ1は、カード121と、記憶デバイス(例えばメモリ)122と、カード121及び記憶デバイス122に接続されているプロセッサ123とを有する。カード121に、スイッチコントローラ39(及び38)、計算機3、4及び5が接続されている。記憶デバイス122が、各PCIeスイッチでのアップストリームポートとダウンストリームポートとの対応関係を表す入出力構成情報テーブル2と、各PCIeスイッチでのバス構成を表すバス番号管理テーブル40とを記憶する。プロセッサ123は、以下の処理、
*計算機3、4及び5に関する情報である装置情報の管理、
*計算機3、4及び5の電源操作(例えば、電源のターンオン及びターンオフ)、
*計算機3、4及び5に障害が発生したか否かの監視(障害監視)、
*PCIeスイッチF14及びPCIeスイッチG15が有する後述のルーティングテーブル及びバス番号テーブルの管理、
*計算機の系の切り替え処理、
を行う。切り替え処理は、例えば、以下の処理、
(処理A)上記障害監視により障害が発生したと検出された現用系計算機(以下、障害計算機)に割り当てられていたI/O拡張カード(I/Oドロワ12又は13内のI/O拡張カード)を待機系計算機C5に割り当てる処理、
(処理B)上記(処理A)の後に、待機系計算機C5の電源をターンオンすることにより(或いは、待機系計算機C5にブート命令を発行することにより)、待機系計算機C5にデバイス検索及びブートをさせる処理、
を含む。上記(処理A)では、管理サーバ1内の入出力構成情報テーブル2の更新とPCIeスイッチ内のルーティングテーブルの更新とが行われ、それにより、障害計算機に接続されているアップストリームに対応したダウンストリームポートが、待機系計算機C5に接続されているアップストリームに対応付けられる。また、上記(処理A)では、管理サーバ1内のバス番号管理テーブル40の更新とPCIeスイッチ内のバス番号テーブルの更新とが行われ、それにより、デバイス検索では、待機計算機C5に、障害計算機に割り当てられていたデバイス(I/O拡張カード)が認識される。待機系計算機C5は、障害計算機のOSをRAID装置24から読み込むことで起動し、障害計算機の処理を引き継ぐことができる。
すなわち、管理サーバ1は、例えば現用系計算機A1に代えて待機系計算機C5を現用系に切り替える際に、現用系計算機A1でソフトウェア41が参照していたバス番号の構成を、待機系計算機C5に接続されているアップストリームポートに切り替え、その後に、待機系計算機C5を起動することで、現用系計算機A1が認識していたPCIバスツリー構成と同じ構成で待機系計算機C5を起動させることができる。
図2は、I/Oドロワ12の構成を示す。なお、図2では、I/Oドロワ12を例に採っているが、I/Oドロワ13の構成は、I/Oドロワ12の構成と実質的に同じである。
ポート1、2、3が、アップストリームポートであり、ポート4、5、6が、ダウンストリームポートである。ポート4は、PCIeスロット20に接続され、ポート5は、PCIeスロット18に接続され、ポート6は、PCIeスロット16に接続される。PCIeスイッチF14は、ルーティングテーブル75とバス番号テーブル76とを有する。
ルーティングテーブル75は、スイッチコントローラ39から設定可能なポート1、2、3それぞれの仮想のPCI-PCIブリッジ77、78、79と、ポート4、5、6それぞれの仮想のPCI-PCIブリッジ80、81、82との接続関係を表す。
バス番号テーブル76は、スイッチコントローラ39から設定可能なポート毎にサボーディネイトバス番号とセカンダリバス番号とプライマリバス番号とを有する。サボーディネイトバス番号とセカンダリバス番号とプライマリバス番号は、仮想のPCI-PCIブリッジ77、78、79、80、81、82に付与される。
PCIeスイッチF12は、以下の機能及びデバイス、
*ポート毎に仮想のPCI-PCIブリッジがあるように振舞う機能、
*アップストリームポートの仮想のPCI-PCIブリッジとダウンストリームポートの仮想のPCI-PCIブリッジとを接続して、アップストリームからダウンストリームポートへのルーティングを行う機能、
*仮想のPCI-PCIブリッジ毎に、サボーディネイトバス番号とセカンダリバス番号とプライマリバス番号を設定する機能、
*ポート毎に設定されたサボーディネイトバス番号とセカンダリバス番号とプライマリバス番号を使用するか、それとも、計算機3、4、5で動作するソフトウェア41、42、43がデバイスを検索するときに割り当てたそれらのバス番号を使用するかを示す記憶資源(例えばレジスタ)、
を有する(ソフトウェア41、42、43は、当該記憶資源を参照して、使用するバス番号を切り替える機能を有する)。
図3は、入出力構成情報テーブル2の構成を示す。
入出力構成情報テーブル2は、アップストリームポート毎に、計算機名、状態、PCIeスイッチ名、アップストリームポート番号及びダウンストリームポート番号を有する。以下、これらの要素を、一つのアップストリームポート(図3の説明において「対象アップストリームポート」と言う)を例に採り説明する。
「計算機名」は、対象アップストリームポートに接続されている計算機の名称である。計算機名に代えて又は加えて他種の識別情報で計算機が識別されても良い。
「状態」は、対象アップストリームポートに接続されている計算機の状態、具体的には、稼働中か停止中かである。すなわち、本実施形態において、現用系の計算機とは、稼働中の計算機であり、待機中の計算機とは、停止中の計算機である。
「PCIeスイッチ名」は、対象アップストリームポートを有するPCIeスイッチの名称である。PCIeスイッチ名に代えて又は加えて他種の識別情報でPCIeスイッチが識別されても良い。
「アップストリームポート番号」は、対象アップストリームポートのポート番号である。番号に代えて又は加えて他種の識別情報でポートが識別されても良い。
「ダウンストリームポート番号」は、対象アップストリームポートに接続されているダウンストリームポートのポート番号である。
入出力構成テーブル2の設定内容は、中継カード44、45、46、47、48、49と、PCIeスイッチF14及びPCIeスイッチG15の接続と、各計算機に対する入出力装置の割り当てとに従って決まる。
図4は、PCIeスイッチF14のルーティングテーブル75の構成を示す。なお、PCIeスイッチG15のルーティングテーブルの構成も、図4のテーブル75の構成と実質的に同じである。
ルーティングテーブル75は、どのアップストリームポートがどのダウンストリームポートに接続されているかを表す。具体的には、ルーティングテーブル75は、アップストリームポートのポート番号とダウンストリームポートのポート番号との対応関係を表す。
このテーブル75の設定内容は、前述した入出力構成情報テーブル2の一部分に相当する。具体的には、管理サーバ1のプロセッサ123が、入出力構成情報テーブル2から、PCIeスイッチF14に対応した「アップストリームポート番号」及び「ダウンストリームポート番号」を抽出する。そして、プロセッサ123が、抽出した「アップストリームポート番号」及び「ダウンストリームポート番号」を、スイッチコントローラ39を経由して、PCIeスイッチF14のテーブル75に設定する。
図5は、バス番号管理テーブル40の構成を示す。
バス番号管理テーブル40は、各PCIeスイッチのポート毎に、PCIeスイッチ名、ポート番号、サボーディネイトバス番号、セカンダリバス番号及びプライマリバス番号を有する。以下、これらの要素を、一つのポート(図5の説明において「対象ポート」と言う)を例に採り説明する。
「PCIeスイッチ名」は、対象ポートを有するPCIeスイッチの名称である。
「ポート番号」は、対象ポートのポート番号である。
「サボーディネイトバス番号」は、対象ポートの仮想のPCI-PCIブリッジの下位のバスに接続しているバスのうち最も大きいバス(つまり最も下位のバス)のバス番号である。番号に代えて又は加えて他種の識別情報でバスが識別されても良い。
「セカンダリバス番号」は、対象ポートの仮想のPCI-PCIブリッジに接続される下位のバスのバス番号である。
「プライマリバス番号」は、対象ポートの仮想のPCI-PCIブリッジに接続される上位のバスのバス番号である。
図6は、PCIeスイッチF14のバス番号テーブル76の構成を示す。なお、PCIeスイッチG15のバス番号テーブルの構成も、図6のテーブル76の構成と実質的に同じである。
バス番号テーブル76は、PCIeスイッチ14Fのポート毎に、ポート番号、サボーディネイトバス番号、セカンダリバス番号、プライマリバス番号及びバス番号の使用有無を有する。以下、これらの要素を、一つのポート(図6の説明において「対象ポート」と言う)を例に採り説明する。
「ポート番号」、「サボーディネイトバス番号」、「セカンダリバス番号」及び「プライマリバス番号」については、図5を参照して説明した通りである。
「バス番号の使用有無」は、対象ポートについて設定された「サボーディネイトバス番号」、「セカンダリバス番号」及び「プライマリバス番号」を使用するか否かである。使用しない場合には、計算機3、4、5で動作するソフトウェア41、42、43がデバイスを検索するときに割り当てたバス番号(サボーディネイトバス番号、セカンダリバス番号、プライマリバス番号)が使用される。
このテーブル76の設定内容は、前述したバス番号管理テーブル40の一部分と「バス番号の使用有無」との組合せに相当する。具体的には、管理サーバ1のプロセッサ123が、バス番号管理テーブル40から、PCIeスイッチF14に対応した「ポート番号」、「サボーディネイトバス番号」、「セカンダリバス番号」及び「プライマリバス番号」を抽出する。そして、プロセッサ123が、抽出した「ポート番号」、「サボーディネイトバス番号」、「セカンダリバス番号」及び「プライマリバス番号」を、スイッチコントローラ39を経由して、PCIeスイッチF14のテーブル76に設定する。また、プロセッサ123は、テーブル76に、PCIeスイッチF14のポート毎に「バス番号の使用有無」を、スイッチコントローラ39を経由して設定する。
以下、本実施形態において、現用系計算機A3が障害により停止した場合、現用系計算機A3に障害が生じたことが、管理サーバ1によって検出される。以下、管理サーバ1によって現用計算機A3の障害が検出されたときに行われる処理の概要を説明する。なお、以下の説明において、PCIeスイッチx(xはF又はG)のポート番号がN(Nは整数)のポートを、「ポートxN」と表す。
管理サーバ1が、図3に示した入出力構成情報テーブル2を、現用系計算機A3に接続されているアップストリームポートF1(G1)に対応したダウンストリームポートF6(G5)が同一のPCIeスイッチ内の待機系計算機C5に接続されているアップストリームポートF3(G3)と接続するよう変更する。具体的には、管理サーバ1は、図11に示すように入出力構成情報テーブル2を更新する。矢印の左側が、更新前の値であり、矢印の右側が、更新後の値である(なお、これは、後の図14及び図15でも同様である)。
管理サーバ1が、更新後の入出力構成情報テーブル2の内容を、PCIeスイッチF14及びPCIeスイッチG15の両方のルーティングテーブルに反映する(テーブル2のうちの更新後の内容をルーティングテーブルにコピーする)。図12が、PCIeスイッチF14及びPCIeスイッチG15の両方の更新前のルーティングテーブルが表すポート間接続(アップストリームポートに対するダウンストリームポートの接続)を太線で示し、図13が、両方の更新後のルーティングテーブルが表すポート間接続を太線で示す。
現用系計算機A3には、中継カード44、45が搭載され、待機系計算機C5には、中継カード48、49が搭載されている。PCIeの信号(パケット)が、各計算機3、5と各計算機3、5の外にあるPCIeスイッチF14及びPCIeスイッチG15との間で中継される。このため、PCIeスイッチF14及びPCIeスイッチG15のルーティングテーブルを変更すれば、I/Oドロワ内のI/O拡張カードのアクセス元の計算機を切り替えることができる。つまり、現用系計算機A3が使用していたI/O拡張カードを待機系計算機C5が引き継いで使用することができる。
また、管理サーバ1は、図5のバス番号管理テーブル40を、現用系計算機A3が接続していたアップストリームポートに対応しているサボーディネイトバス番号、セカンダリバス番号及びプライマリバス番号を、待機系計算機C5が接続しているアップストリームポートに対応したサボーディネイトバス番号、セカンダリバス番号及びプライマリバス番号にコピーする。具体的には、管理サーバ1は、図14に示すようにバス番号管理テーブル40を更新する。
管理サーバ1が、更新後のバス番号管理テーブル40の内容を、PCIeスイッチF14及びPCIeスイッチG15の両方のバス番号テーブルに反映する(テーブル40における更新後の内容をバス番号テーブルにコピーする)。これにより、PCIeスイッチF14のバス番号テーブル76は、例えば図15に示すように更新される。
入出力管理情報テーブル2の更新、ルーティングテーブルの更新、バス番号管理テーブル40の更新、及び、バス番号テーブルの更新が行われた後に、管理サーバ1が、待機系計算機C5を起動する。それにより、現用系計算機A3が使用していた入出力装置を各入出力装置の設定を変更することなく待機系計算機C5でそのまま使用することが可能となる。
図7は、系切り替えのフローチャートである。
現用系計算機に障害が発生する(ステップ50)。
管理サーバ1は、現用系計算機の障害発生を検知すると(ステップ51)、その現用系計算機(障害計算機)の電源をターンオフする(ステップ52)。
その後、管理サーバ1は、障害計算機の接続している各PCIeスイッチに待機系計算機が接続しているか否かを、入出力構成情報テーブル2を参照して調査する(ステップ53)。
調査の結果、障害計算機が接続されているPCIeスイッチとして待機系計算機が接続されていないPCIeスイッチが一つでもあれば(ステップ54:NO)、管理サーバ1は、系切り替えを中止する(ステップ55)。
一方、調査の結果、障害計算機が接続されている全てのPCIeスイッチに待機系計算機が接続されていれば(ステップ54:YES)、管理サーバ1は、入出力構成管理情報テーブル2を更新する。具体的には、管理サーバ1は、障害計算機が接続されている全てのPCIeスイッチについて、障害計算機が接続されているアップストリームに接続していたダウンストリームポートを待機系計算機が接続されているアップストリームに接続する更新を行う(ステップ56)。
その後、管理サーバ1は、待機系計算機が接続されている全てのPCIeスイッチのルーティングテーブルに、更新後の入出力構成情報テーブル2の設定内容(ルーティング設定)を、スイッチコントローラ経由で反映する(ステップ57)。
少なくとも一つのPCIeスイッチについて、ルーティング設定を反映できなければ(ステップ58:NO)、管理サーバ1は、系切り替えを中止する(ステップ59)。
待機系計算機が接続されている全てのPCIeスイッチのルーティングテーブルにルーティング設定を反映できたら(ステップ58:YES)、管理サーバ1は、バス番号管理テーブル40についても設定を更新し、更新後のテーブル40の設定内容(バス番号設定)を、待機系計算機が接続されている全てのPCIeスイッチのバス番号テーブルに反映する(ステップ60)。
少なくとも一つのPCIeスイッチについて、バス番号設定を反映できなければ(ステップ61:NO)、管理サーバ1は、系切り替えを中止する(ステップ62)。
待機系計算機が接続されている全てのPCIeスイッチのバス番号テーブルにバス番号設定を反映できたら(ステップ61:YES)、管理サーバ1は、待機系計算機の電源をターンオンする(ステップ63)。これにより、待機系計算機において実行されるソフトウェアが、デバイス検索を行い、その際に、更新後のバス番号設定を使用する。このため、待機系計算機が、障害計算機が使用していたI/O拡張カードを認識し、RAID装置24に格納されているオペレーティングシステム(障害計算機で実行されたオペレーティングシステム)を起動することができる。
図8は、図7のステップ60の処理のフローの詳細を示す。
管理サーバ1は、障害計算機が接続されている全てのPCIeスイッチについて、障害計算機が接続されているアップストリームポートのポート番号と、待機系計算機が接続されているアップストリームポートのポート番号とを調べる(ステップ90)。
次に、管理サーバ1は、バス番号管理テーブル40を更新する。具体的には、管理サーバ1は、障害計算機が接続されている全てのPCIeスイッチについて、障害計算機が接続されているアップストリームポートのポート番号に対応しているサボーディネイトバス番号、セカンダリバス番号及びプライマリバス番号を、待機系計算機が接続されているアップストリームポートのポート番号に対応するサボーディネイトバス番号、セカンダリバス番号及びプライマリバス番号にコピーする(ステップ91)。
管理サーバ1は、更新後のバス番号管理テーブル40の設定内容(バス番号設定)を、障害計算機が接続されている全てのPCIeスイッチのバス番号テーブルに反映する(ステップ92)。その際、管理サーバ1は、バス番号テーブルにおける、待機系計算機が接続されているアップストリームポートのポート番号に対応する「バス番号の使用有無」を、「使用する」に設定する(ステップ93)。
以上、本発明の好適な実施形態を説明したが、本発明は、この実施形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
例えば、PCIeスイッチに代えて他種のスイッチが採用されても良い。他種のスイッチが採用される場合、必要に応じて種々のカスタマイズが行われてよい。例えば、他種のスイッチとして、コンバージド・エンハンスド・イーサネット(「イーサネット」は登録商標)の規格に従うスイッチを採用することができる。この場合、計算機のソフトウェア、もしくはI/O拡張カードが、計算機内で流れるFCプロトコルなどに従うデータを含んだイーサネットフレームを作成する機能を有する必要があり、また、スイッチが、イーサネットフレームからFCプロトコルなどに従うデータを取り出しその取り出したデータをI/O拡張カード、あるいは直接入出力装置に出力する機能を有する必要がある。
また、例えば、入出力構成情報テーブ2、バス番号管理テーブル40、ルーティングテーブル75及びバス番号テーブル76のうちの少なくとも一つのテーブルが有する情報は、テーブル以外のデータ構造で表現されても良い。
1…管理サーバ 3,4…現用系計算機 5…待機系計算機 12,13…I/Oドロワ

Claims (11)

  1. 複数の第1の通信インタフェースを有する複数の入出力装置と、
    複数の第2の通信インタフェースを有する複数の計算機と、
    前記複数の入出力装置が有する複数の第1の通信インタフェースと前記複数の計算機が有する前記複数の第2の通信インタフェースとに接続される一以上のスイッチ装置と
    を有し、
    前記複数の第1の通信インタフェースには、種類が異なる第1の通信インタフェースが含まれており、
    前記一以上のスイッチ装置が、
    前記複数の第1の通信インタフェースに接続される複数の第3の通信インタフェースと、
    前記複数の第3の通信インタフェースに接続されている複数のポートである複数のアップストリームと前記複数の第2の通信インタフェースに接続されている複数のポートである複数のダウンストリームポートとを有する一以上のスイッチデバイスと
    を有し、
    前記一以上のスイッチデバイスが、アップストリームで、計算機の第2の通信インタフェースから出力されたパケットを受信し、そのパケットをダウンストリームポートから出力し、
    各第3の通信インタフェースの種類は、接続されている第1の通信インタフェースの種類に対応した種類であり、
    前記複数の計算機は、複数の現用系の計算機と一以上の待機系の計算機とで構成されており、
    前記待機系計算機は、障害が生じた現用系計算機である障害計算機に代わって現用系とされる、
    計算機システム。
  2. 請求項1記載の計算機システムであって、
    前記一以上のスイッチ装置に接続されているサーバである管理サーバを更に有し、
    前記管理サーバが、前記障害計算機に接続されていた第3の通信インタフェースを前記待機計算機に接続するための処理を含んだ処理である切り替え処理を行う、
    計算機システム。
  3. 請求項2記載の計算機システムであって、
    前記一以上のスイッチデバイスが、どのアップストリームとどのダウンストリームポートとが対応しているかを表すルーティング情報を有し、前記ルーティング情報を基に、アップストリームからそのアップストリームに対応したダウンストリームポートにパケットを転送するルーティングを行い、
    前記切り替え処理は、前記待機系計算機に接続されているアップストリームに対応するダウンストリームポートが前記障害計算機に接続されているアップストリームに対応するダウンストリームポートとなるよう前記一以上のスイッチデバイスに前記ルーティング情報を更新する処理を含む、
    計算機システム。
  4. 請求項3記載の計算機システムであって、
    各アップストリームに、一以上のバスを介し、アップストリームポートに対応するダウンストリームポートを通じて、第3の通信インタフェースが接続されており、
    前記一以上のスイッチデバイスが、バス管理情報を有し、前記バス管理情報が、アップストリームと第3の通信インタフェースとの間の一以上のバスに関するバス情報を有し、
    前記管理サーバが、前記切り替え処理において、前記待機系計算機を起動させ、それにより、前記待機系計算機が、前記待機計算機の第2の通信インタフェースが接続されているアップストリームについてのバス情報に基づくデバイス検索を行い、
    前記切り替え処理は、前記バス管理情報における、前記待機計算機の第2の通信インタフェースが接続されているアップストリームについてのバス情報を、前記障害計算機の第2の通信インタフェースが接続されているアップストリームについてのバス情報と同じバス情報に更新する処理を含み、その処理が、前記待機系計算機を起動させる前に行われる、
    計算機システム。
  5. 請求項4記載の計算機システムであって、
    各第2の通信インタフェースは、計算機内での通信プロトコルに従って計算機内を流れるパケットをプロトコル変換を行うことなく中継する通信インタフェースである、
    計算機システム。
  6. 請求項5記載の計算機システムであって、
    前記通信プロトコルは、PCI-Expressであり、
    前記一以上のスイッチデバイスは、PCI-Expressに従うパケットを転送するスイッチデバイスであり、
    前記一以上のPCI-Expressスイッチデバイスは、ポート毎に、仮想PCI- PCIブリッジを有し、
    前記第2の通信インタフェースは、PCI-Expressに従うパケットを流すデバイスであり、
    前記バス情報は、プライマリバス番号、セカンダリバス番号及びサボーディネイトバス番号で構成されており、
    前期プライマリバス番号は、仮想PCI- PCIブリッジが接続されているバスの番号のうちの第2の通信インタフェース側のバスの番号であり、
    前記セカンダリバス番号は、仮想PCI- PCIブリッジに接続されているバスの番号のうちの第3の通信インタフェース側のバスの番号であり、
    前記サボーディネイトバス番号は、仮想PCI- PCIブリッジの第3の通信インタフェース側に存在するバスの番号のうち最も第3の通信インタフェースに近いバスの番号である、
    計算機システム。
  7. 請求項2記載の計算機システムであって、
    各アップストリームに、一以上のバスを介しダウンストリームポートを通じて第3の通信インタフェースが接続されており、
    前記一以上のスイッチデバイスが、バス管理情報を有し、前記バス管理情報が、アップストリームと第3の通信インタフェースとの間の一以上のバスに関するバス情報を有し、
    前記管理サーバが、前記切り替え処理において、前記待機系計算機を起動させ、それにより、前記待機系計算機が、前記待機計算機の第2の通信インタフェースが接続されているアップストリームについてのバス情報に基づくデバイス検索を行い、
    前記切り替え処理は、前記バス管理情報における、前記待機計算機の第2の通信インタフェースが接続されているアップストリームについてのバス情報を、前記障害計算機の第2の通信インタフェースが接続されているアップストリームについてのバス情報と同じバス情報に更新する処理を含み、その処理が、前記待機系計算機を起動させる前に行われる、
    計算機システム。
  8. 請求項1記載の計算機システムであって、
    各第2の通信インタフェースは、計算機内での通信プロトコルに従って計算機内を流れる信号を流す装置である、
    計算機システム。
  9. 請求項8記載の計算機システムであって、
    前記通信プロトコルは、PCI-Expressであり、
    前記一以上のスイッチデバイスは、PCI-Expressに従うパケットを転送するスイッチデバイスであり、
    前記第2の通信インタフェースは、PCI-Expressに従うパケットを流すデバイスであり、
    前記一以上のPCI-Expressスイッチデバイスは、ポート毎に、仮想PCI- PCIブリッジを有する、
    計算機システム。
  10. 計算機システムに含まれるサーバであって、
    前記計算機システムが、
    複数の第1の通信インタフェースを有する複数の入出力装置と、
    複数の第2の通信インタフェースを有する複数の計算機と、
    前記複数の入出力装置が有する複数の第1の通信インタフェースと前記複数の計算機が有する前記複数の第2の通信インタフェースとに接続される一以上のスイッチ装置と
    を有し、
    記複数の第1の通信インタフェースには、種類が異なる第1の通信インタフェースが含まれており、
    前記一以上のスイッチ装置が、
    前記複数の第1の通信インタフェースに接続される複数の第3の通信インタフェースと、
    前記複数の第3の通信インタフェースに接続されている複数のポートである複数のアップストリームと前記複数の第2の通信インタフェースに接続されている複数のポートである複数のダウンストリームポートとを有する一以上のスイッチデバイスと
    を有し、
    前記一以上のスイッチデバイスが、アップストリームで、計算機の第2の通信インタフェースから出力されたパケットを受信し、そのパケットをダウンストリームポートから出力し、
    各第3の通信インタフェースの種類は、接続されている第1の通信インタフェースの種類に対応した種類であり、
    前記複数の計算機は、複数の現用系の計算機と一以上の待機系の計算機とで構成されており、
    前記サーバが、
    前記一以上のスイッチ装置に接続される通信インタフェースと、
    前記通信インタフェースに接続されており、障害が生じた現用系計算機である障害計算機に接続されていた第3の通信インタフェースを前記待機計算機に接続するための処理である切り替え処理を行い、前記通信インタフェースを通じて前記待機計算機を前記障害計算機に代わって現用系とするプロセッサと
    を有する、
    サーバ。
  11. 請求項10記載のサーバであって、
    前記待機系計算機は、前記現用系計算機より少ない、
    サーバ。
JP2009260620A 2009-11-16 2009-11-16 通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム Pending JP2011107858A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009260620A JP2011107858A (ja) 2009-11-16 2009-11-16 通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009260620A JP2011107858A (ja) 2009-11-16 2009-11-16 通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム

Publications (1)

Publication Number Publication Date
JP2011107858A true JP2011107858A (ja) 2011-06-02

Family

ID=44231272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009260620A Pending JP2011107858A (ja) 2009-11-16 2009-11-16 通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム

Country Status (1)

Country Link
JP (1) JP2011107858A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015045030A1 (ja) * 2013-09-25 2015-04-02 株式会社日立製作所 ドライブの増設可能な情報システムおよび該情報システムのバス番号割り当て方法
JP2015219810A (ja) * 2014-05-20 2015-12-07 富士通株式会社 情報処理装置およびバス制御方法
US9479461B2 (en) 2012-03-16 2016-10-25 Hitachi, Ltd. Computer system and method for communicating data between computers

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9479461B2 (en) 2012-03-16 2016-10-25 Hitachi, Ltd. Computer system and method for communicating data between computers
WO2015045030A1 (ja) * 2013-09-25 2015-04-02 株式会社日立製作所 ドライブの増設可能な情報システムおよび該情報システムのバス番号割り当て方法
US9575919B2 (en) 2013-09-25 2017-02-21 Hitachi, Ltd. Information system capable of expanding drive and bus number allocation method of the information system
JP2015219810A (ja) * 2014-05-20 2015-12-07 富士通株式会社 情報処理装置およびバス制御方法

Similar Documents

Publication Publication Date Title
EP3173937B1 (en) Pcie network system with fail-over capability and operation method thereof
US7934033B2 (en) PCI-express function proxy
US8583848B2 (en) Switching circuit connected to an I/O device, and switching circuit connected to an I/O device control method
JP5297310B2 (ja) 単一のsasエクスパンダとして動作する複数のsasエクスパンダのためにパスフェールオーバーを提供するための方法、システム、及び、コンピュータ可読媒体
JP5182771B2 (ja) 共有i/oにおけるリセットの変換
US8074105B2 (en) High data availability SAS-based RAID system
JP5363924B2 (ja) 単一sasエクスパンダの機能性を提供するために複数のsasエクスパンダを組み合わせる方法、及び、単一sasエクスパンダ
WO2017121376A1 (zh) 交换设备、外围部件互连高速系统及其初始化方法
US8346997B2 (en) Use of peripheral component interconnect input/output virtualization devices to create redundant configurations
US7631050B2 (en) Method for confirming identity of a master node selected to control I/O fabric configuration in a multi-host environment
US7672226B2 (en) Method, apparatus and program storage device for verifying existence of a redundant fibre channel path
US7725632B2 (en) Computer system and management method thereof
JP5460188B2 (ja) Sasワイドポート接続のためのレーンの指定
KR20110010696A (ko) Pci 메모리 공간 예약 방법 및 컴퓨터 시스템
JP4411602B2 (ja) フォールトトレラント・コンピュータシステム
US20030182482A1 (en) Mechanism for PCI I/O-initiated configuration cycles
US20080240134A1 (en) Multi-node, peripheral component switch for a computer system
JP2011107858A (ja) 通信インタフェースの種類が異なる複数の入出力装置に複数の計算機が通信可能に接続される計算機システム
Tu et al. Seamless fail-over for PCIe switched networks
JP6155500B2 (ja) 中継装置
JP2010039729A (ja) I/o管理システム、サーバシステム及びそのi/oスイッチの管理方法
JP7142503B2 (ja) 管理装置、情報処理装置、及びプログラム
EP2648101B1 (en) Storage system and device and connection configuration method thereof
Kong Using PCI Express® as the Primary System Interconnect in Multiroot Compute, Storage, Communications and Embedded Systems