JP3961517B2 - システム、クロスバ装置及びそれらに用いる障害通知方法 - Google Patents

システム、クロスバ装置及びそれらに用いる障害通知方法 Download PDF

Info

Publication number
JP3961517B2
JP3961517B2 JP2004206663A JP2004206663A JP3961517B2 JP 3961517 B2 JP3961517 B2 JP 3961517B2 JP 2004206663 A JP2004206663 A JP 2004206663A JP 2004206663 A JP2004206663 A JP 2004206663A JP 3961517 B2 JP3961517 B2 JP 3961517B2
Authority
JP
Japan
Prior art keywords
port
partition
crossbar
failure
partition information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004206663A
Other languages
English (en)
Other versions
JP2006031199A (ja
Inventor
浩二 鐙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Computertechno Ltd
Original Assignee
NEC Computertechno Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Computertechno Ltd filed Critical NEC Computertechno Ltd
Priority to JP2004206663A priority Critical patent/JP3961517B2/ja
Publication of JP2006031199A publication Critical patent/JP2006031199A/ja
Application granted granted Critical
Publication of JP3961517B2 publication Critical patent/JP3961517B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Maintenance And Management Of Digital Transmission (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明はシステム、クロスバ装置及びそれらに用いる障害通知方法に関し、特に大規模システムにおけるクロスバ内のエラー通知に関する。
従来、大規模システムにおいては、図1に示すように、各々CPU(中央処理装置)111,112,121,122,131,132,141,142が接続されたクロスバ101〜104から構成されている。このクロスバ101〜104は、図5に示すように、4つのポート部(Port1〜Port4)と、クロスバ制御部401とを持つ4×4クロスバ400からなっている。
クロスバ制御部401は各ポート(Port1〜Port4)を相互に接続し、各ポート(Port1〜Port4)から受信したパケットを他のポートに転送する。各ポート(Port1〜Port4)は同じ構成となっており、受信制御部411,421,431,441と、エラーパケット受信部412,422,432,442と、送信制御部413,423,433,443と、エラーパケット送信部414,424,434,444とから構成されている。
以下、ポート部についてはポート(Port1)を例にとって説明する。受信制御部411はCPUや他クロスバから命令等のパケットを受信する。エラーパケット受信部412は受信制御部411で受信したパケットのうちエラー通知パケットのみを受信し、他ポートへ報告するためにクロスバ制御部401へ送信する。
送信制御部413は接続されるCPUや他クロスバにパケットの送信を行う。エラーパケット送信部414はクロスバ制御部401からエラー通知パケットを受信すると、送信制御部413へパケットを転送して送信してもらう。この大規模システムについては本願出願人から提案されている。
また、他の大規模システムとしては、上記と同様に、クロスバの各ポートにエラー制御部を持ち、エラー通知パケットを発行可能とし、クロスバの障害を全装置にブロードキャスト可能とするシステムがある。この大規模システムでは、エラー通知パケット受信でポート/トレーサ停止回路へポートの動作停止指示を出力している(例えば、特許文献1参照)。
特開平2−125550号公報
上述した従来の大規模システムにおける障害通知方式では、クロスバの各ポート部にそのインタフェースを使用するパーティション情報を持たないため、エラー通知パケットを受信しても、他ポートへ転送するだけで、インタフェースの動作を停止することができず、クロスバ内部の障害情報を採取することができないという問題がある。
また、従来の障害通知方式では、上記と同様に、クロスバの各ポート部にインタフェースを使用するパーティション情報を持たないため、クロスバ部で障害が発生しても、障害箇所に関連するパーティションに属するCPUや他のクロスバに対して障害報告のエラー通知パケットを発行することができないという問題がある。
従来、ネットワーク内で障害があった場合には、インタフェースの接続を切断することで、関連するCPUにタイムアウト等の障害を見つけてもらったり、サービスプロセッサに障害を報告して障害パーティションを特定して制御してもらったりしている。そのため、クロスバ等のネットワーク障害の報告には時間がかかってしまい、有効なデータを採取することができない。
さらに、従来の障害通知方式では、クロスバの各ポート部にインタフェースを使用するパーティション情報を持たないため、クロスバ部で障害が発生することによってエラー通知パケットを発行可能としても、障害パーティション情報の識別が不可能であるため、全パーティションをダウンさせてしまうという問題がある。
つまり、従来の障害通知方式では、ネットワーク構成のクロスバ部にインタフェースを使用するパーティション情報を保持していないため、エラー通知パケットを受信しても、クロスバ部の内部では使用せずに、他ポートに対してブロードキャストしているだけである。そのため、クロスバ部間のインタフェースの動作を停止することができず、障害発生時においてもクロスバ部内の有効な情報を採取することができず、各CPU内部の情報だけで障害のデータ解析を行うことになり、クロスバ部の内部の動作をCPUの情報から予測するしかなく、十分な解析を行うことができない。
また、従来の障害通知方式では、クロスバ部の故障時にも、クロスバ部のポート部がパーティション情報を保持していないため、インタフェース単位の動作停止を行うことができず、クロスバ部が停止せずに、CPU側で障害を検出させてパーティションを動作停止するか、全パーティションを停止させてしまっている。
そこで、本発明の目的は上記の問題点を解消し、クロスバ間のインタフェースの停止の可否を判断することができるシステム、クロスバ装置及びそれらに用いる障害通知方法を提供することにある。
本発明によるシステムは、複数のクロスバ装置を相互に接続したネットワーク構成からなり、前記複数のクロスバ装置各々に接続された複数の中央処理装置を複数のパーティションに分けて運用するシステムであって、
前記複数のクロスバ装置各々は、前記クロスバ装置内の外部との接続用の複数のポート各々において前記クロスバ装置が接続されるインタフェースに対して使用されるパーティション情報を保持する保持手段と、受信したエラー通知によって報告された障害に前記複数のポートが関係するかを前記保持手段に保持されたパーティション情報に基づいて識別する比較手段と、前記比較手段で前記障害に関係すると識別されたポートの動作を停止させる停止手段と、前記エラー通知から前記パーティション情報を抽出する抽出手段とを備え
前記エラー通知は、前記障害が発生したパーティション情報を含み、
前記比較手段は、その抽出されたパーティション情報と前記保持手段に保持されたパーティション情報とを比較し、前記障害に関係するポートを検出している。
本発明によるクロスバ装置は、自装置と他の装置とが相互に接続されるネットワーク構成からなり、自装置及び前記他の装置各々に接続される複数の中央処理装置が複数のパーティションに分けて運用されるシステムに用いられるクロスバ装置であって、
前記クロスバ装置内の外部との接続用の複数のポート各々において前記クロスバ装置が接続されるインタフェースに対して使用されるパーティション情報を保持する保持手段と、受信したエラー通知によって報告された障害に前記複数のポートが関係するかを前記保持手段に保持されたパーティション情報に基づいて識別する比較手段と、前記比較手段で前記障害に関係すると識別されたポートの動作を停止させる停止手段と、前記エラー通知から前記パーティション情報を抽出する抽出手段とを備え
前記エラー通知は、前記障害が発生したパーティション情報を含み、
前記比較手段は、その抽出されたパーティション情報と前記保持手段に保持されたパーティション情報とを比較し、前記障害に関係するポートを検出している。
本発明による障害通知方法は、複数のクロスバ装置を相互に接続したネットワーク構成からなり、前記複数のクロスバ装置各々に接続された複数の中央処理装置を複数のパーティションに分けて運用するシステムに用いる障害通知方法であって、
前記クロスバ装置側に、前記クロスバ装置内の外部との接続用の複数のポート各々において前記クロスバ装置が接続されるインタフェースに対して使用されるパーティション情報を保持手段に保持する処理と、受信したエラー通知によって報告された障害に前記複数のポートが関係するかを前記保持手段に保持されたパーティション情報に基づいて識別する処理と、前記障害に関係すると識別されたポートの動作を停止させる処理と、前記エラー通知から前記パーティション情報を抽出する処理とを備え
前記エラー通知が、前記障害が発生したパーティション情報を含み、
前記複数のポートが関係するかを識別する処理は、その抽出されたパーティション情報と前記保持手段に保持されたパーティション情報とを比較し、前記障害に関係するポートを検出している。
すなわち、本発明の大規模システムにおける障害通知方法は、複数のクロスバを相互に接続したネットワーク構成からなり、かつ各々のクロスバに接続された複数のCPU(中央処理装置)を複数のパーティションに分けて運用される大規模システムにおいて、CPUで障害が発生した場合に、障害CPUでエラー通知パケットを生成してシステム内の同一パーティションに含まれる他のCPUに対して高速に障害発生を報告することで、障害発生前後の状態を保持してデータ解析に役立てることが可能となる。
その場合には、途中の経路のクロスバにおいても、ポート毎に使用されるパーティション番号を認識することによって、障害が発生したパーティションでのみ使用されているインタフェースの動作を停止させ、障害発生前後のクロスバ内の状態をも採取することが可能となる。
また、クロスバで障害が発生した場合には、クロスバのポート部がパーティション番号を認識することで、障害箇所に関連するパーティションで使用されているインタフェースだけを動作停止可能としている。
システム内の各パーティション単位に立ち上げを行う際に、ネットワーク構成のクロスバ内の各ポートに対して、クロスバ間のインタフェースを使用する場合には、パーティション情報の自パーティション番号に対応するビットをセットする。
一つのインタフェースを複数のパーティションによって共用する場合には、複数のパーティション情報内のビットがセットされることになる。任意のCPUで障害が発生した場合には、CPUが属するパーティション番号をエラー通知パケットに載せて発行することで、クロスバ経由で受信した他のすべてのCPUが自パーティション番号と比較して一致すれば、障害によって自パーティションが動作を停止することが分かり、すぐにCPUの動作を停止する。
その時、エラー通知パケットが経由するクロスバにおいても、エラー通知パケット内のパーティション番号を抽出して、各ポート部において立ち上げ時に設定されたパーティション情報と比較することで、対応するインタフェースが障害を検出したパーティションでしか使用されていないことが認識された時に、それに対応するインタフェースの動作を停止することが可能となり、データ解析用の障害情報を採取することが可能となる。
また、障害以外のパーティションと共用しているインタフェースにおいては、動作を停止することができないため、クロスバ内の動作履歴を採取しているトレーサのみを停止させ、その動作履歴を採取することで、データ解析に役立たせることが可能となる。
さらに、クロスバのポート部で障害が発生した時に、クロスバのポート部にインタフェースを使用する場合には、パーティション情報の自パーティション番号に対応するビットがセットされているため、動作を停止させるパーティションを認識することが可能となる。
よって、クロスバのポート部が障害を検出した場合でも、エラー通知パケットを発行することが可能となり、他クロスバやCPUでエラー通知パケットで報告されるパーティション番号に関連するパーティションのみの動作を停止することが可能となる。
つまり、本発明の障害通知方法では、クロスバ等のネットワークで構成された大規模システムにおいて、CPUやネットワーク内のどんな場所で障害が発生しても全ての関連する装置に障害発生がすばやく報告することが可能となり、障害に関する多くの情報が採取可能となる。
本発明の障害通知方法では、クロスバの各ポート部に使用するパーティション情報を設定しているので、エラー通知パケットを転送する時にパーティション情報を抽出することで、クロスバ間のインタフェースの停止の可否を判断することが可能となる。
また、本発明の障害通知方法では、障害パーティションにのみ使用されるクロスバ間のインタフェースを停止するので、クロスバ内の停止したポート部の障害発生前後の情報を障害解析用に採取することが可能となる。
さらに、本発明の障害通知方法では、動作停止ができないが、障害パーティションに関連するインタフェースの両端のポート部においてはトレーサを停止させるので、クロスバ内の対象ポート部の動作履歴が障害解析用に採取可能となる。
さらにまた、本発明の障害通知方法では、クロスバで障害が発生した場合にクロスバの各ポート部に使用するパーティション情報を設定しているので、クロスバからエラー通知パケットを発行して障害インタフェースに関連するパーティションのみの動作停止が可能となる。
本発明は、以下に述べるような構成及び動作とすることで、クロスバ間のインタフェースの停止の可否を判断することができるという効果が得られる。
次に、本発明の実施例について図面を参照して説明する。図1は本発明の一実施例による大規模システムの構成を示すブロック図である。図1において、本発明の一実施例による大規模システムは各々CPU(中央処理装置)111,112,121,122,131,132,141,142が接続されたクロスバ101〜104から構成されている。
クロスバ101〜104は2×2の構成で接続され、CPU111,112,121,122,131,132,141,142から発行された命令をクロスバ経由で他のCPUへ転送する。クロスバ101とクロスバ102とはインタフェース105で接続され、クロスバ101とクロスバ103とはインタフェース106で接続され、クロスバ102とクロスバ104とはインタフェース107で接続され、クロスバ103とクロスバ104とはインタフェース108で接続されている。
クロスバ101〜104各々にはCPUが2個接続されており、クロスバ101にはCPU111とCPU112とが接続され、クロスバ102にはCPU121とCPU122とが接続され、クロスバ103にはCPU131とCPU132とが接続され、クロスバ104にはCPU141とCPU142とが接続されている。
図2は図1のクロスバ101〜104の構成を示すブロック図である。図2において、クロスバ101〜104は4×4クロスバ200からなり、4ポート(Port1〜Port4)と、クロスバ制御部201とから構成されている。各ポート(Port1〜Port4)は受信制御部211,221,231,241と、エラーパケット受信部212,222,232,242と、エラー制御部213,223,233,243と、送信制御部214,224,234,244と、エラーパケット生成部215,225,235,245と、トレーサ216,226,236,246とから構成されている。
クロスバ制御部201は各ポート(Port1〜Port4)を相互に接続し、各ポート(Port1〜Port4)から受信したパケットを他のポートに転送する。各ポート(Port1〜Port4)は、上記のように、同じ構成となる。
よって、ポート(Port1〜Port4)についてはポート(Port1)を例にとって説明する。受信制御部211はCPUや他クロスバから命令等のパケットを受信する。エラーパケット受信部212は受信制御部211で受信したパケットのうち、エラー通知パケットのみを受信する。
エラー制御部213はエラーパケット受信部212で受信したエラー通知パケットを受け取り、エラー通知パケットからパーティション情報を抽出してパーティション番号をチェックしたり、受信したエラー通知パケットを他ポートへ報告するためにクロスバ制御部201へ送信したり、またクロスバ制御部201から他ポートが受信したエラー通知パケットを受け取ってエラーパケット生成部215へエラー通知パケットの発行を指示したりする。
送信制御部214は接続されるCPUや他のクロスバにパケットの送信を行う。エラーパケット生成部215はエラー制御部213から発行指示を受信すると、エラー通知パケットのフォーマットを生成して送信制御部214へエラー通知パケットを転送して送信してもらう。トレーサ216は受信制御部211や送信制御部214から動作信号を受け取り、動作履歴を採取する機能である。
図3は図2に示すエラー制御部213,223,233,243の構成を示すブロック図である。図3において、エラー制御部213,223,233,243は以下に示す構成のエラー制御部300を備えている。
エラー制御部300はパーティション情報抽出回路A301と、クロスバ送信部302と、パーティション情報比較回路A303と、自ポートパーティション情報304と、ポート内エラー検出制御回路305と、ポート/トレーサ停止回路306と、パーティション情報比較回路B307と、パーティション情報抽出回路B308と、エラーパケット発行指示回路309とから構成されている。
図4は図3のエラー制御部300の動作を示すフローチャートである。これら図3及び図4を参照してエラー制御部300の動作について説明する。
パーティション情報抽出回路A301は同一ポート内のエラーパケット受信部212,222,232,242からエラー通知パケットを受信すると(図4ステップS1)、パケット内から障害が発生したパーティション情報を抜き出し、パーティション情報比較回路A303に渡す(図4ステップS3)。クロスバ送信部302はエラーパケット受信部212,222,232,242から受信したエラー通知パケットを他ポートにも報告するためにクロスバ制御部201に出力する(図4ステップS2)。
パーティション情報比較回路A303はパーティション情報抽出回路A301から報告されたパーティション情報と、各パーティションの立ち上げ時に設定した自ポートパーティション情報304とを比較し(図4ステップS4)、自ポートパーティション情報304のセットされているビットに一部でも一致する場合に(図4ステップS5)、ポート/トレーサ停止回路306にトレーサ216,226,236,246の停止指示を行い、トレーサ216,226,236,246が動作履歴の採取を停止する(図4ステップS6)。
また、パーティション情報比較回路A303は自ポートパーティション情報304の1にセットされている全ビットに対して、パーティション情報抽出回路A301から報告されたパーティション情報がすべて1であった場合(図4ステップS7)、インタフェースを使用しているパーティションが全て障害を起こしたことになり、インタフェースを動作し続ける必要がないので、ポート/トレーサ停止回路306へポートの動作停止指示を行う(図4ステップS8)。
自ポートパーティション情報304は最大パーティション数のビット数からなり、各パーティションの立ち上げ時に使用するインタフェースの両端のポート部に対して、パーティション番号に対応するビットをセットし、セットしたパーティションが本インタフェースを使用することを示すことに使用する。
ポート内エラー検出制御回路305はポート単位でエラーチェックを管理し、エラーを検出した場合、エラーパケット発行指示回路309へエラー通知パケットの発行指示を行う。ポート/トレーサ停止回路306はパーティション情報比較回路A303またはパーティション情報比較回路B307からのトレーサ停止指示やポートの動作停止指示によって、ポート内の各制御部に停止指示を行う。
パーティション情報比較回路B307はパーティション情報抽出回路B308から報告されたパーティション情報と、各パーティションの立ち上げ時に設定した自ポートパーティション情報304とを比較し(図4ステップS4)、自ポートパーティション情報304のセットされているビットに一部でも一致する場合(図4ステップS5)、ポート/トレーサ停止回路306にトレーサの停止指示を行う(図4ステップS6)。
また、パーティション情報比較回路B307は自ポートパーティション情報304の1にセットされている全ビットに対して、パーティション情報抽出回路B308から報告されたパーティション情報がすべて1であった場合(図4ステップS7)、インタフェースを使用しているパーティションが全て障害を起こしたことになり、インタフェースを動作し続ける必要がないので、ポート/トレーサ停止回路306へポートの動作停止指示を行う(図4ステップS8)。
パーティション情報抽出回路B308はエラーパケット発行指示回路309経由でエラー通知パケットを受信すると、パケット内から障害が発生したパーティション情報を抜き出し、パーティション情報比較回路B307に渡す。エラーパケット発行指示回路309は他ポートからのエラー通知パケットをクロスバ制御部201経由で受け取るか、自ポート内の障害によってポート内エラー検出制御回路305から発行指示を受け取ると、エラーパケット生成部215,225,235,245に対して発行指示を行う。
図2に示すクロスバ200内の通常命令のパスは、当業者にとってよく知られており、また本発明とは直接関係しないので、その詳細な構成は省略する。尚、本実施例では、図1に示すクロスバ101〜104によるネットワークの構成として2×2の構成で説明しているが、それ以上の大きいネットワーク構成であってもよく、またクロスバ101〜104に接続されるCPU数も図1に示すCPU数より多くてもまたは少なくても良い。その場合、図2に示すクロスバ200は4ポートであるが、それより多いポート数や少ないポートとしても良い。
図1のシステム構成で障害が発生した場合の動作について図2及び図3を参照して説明する。図1及び図2のクロスバ内のポート番号は、図の向きを合わせて対応させて使用している。
つまり、クロスバ101においては、ポート(Port1)がCPU111に接続され、ポート(Port2)がCPU112に接続され、ポート(Port3)がインタフェース105に接続され、ポート(Port4)がインタフェース106に接続されている。
クロスバ102においては、ポート(Port1)がCPU121に接続され、ポート(Port2)がインタフェース105に接続され、ポート(Port3)がCPU122に接続され、ポート(Port4)がインタフェース107に接続されている。
クロスバ103においては、ポート(Port1)がインタフェース106に接続され、ポート(Port2)がCPU132に接続され、ポート(Port3)がインタフェース108に接続され、ポート(Port4)がCPU131に接続されている。
クロスバ104においては、ポート(Port1)がインタフェース107に接続され、ポート(Port2)がインタフェース105に接続され、ポート(Port3)がCPU142に接続され、ポート(Port4)がCPU141に接続されている。
まず、システムのパーティション構成について説明する。本実施例のシステム構成は3つのパーティションからなり、パーティション#1にはCPU111とCPU121とが、パーティション#2にはCPU131とCPU141とが、パーティション#3にはCPU112とCPU122とCPU132とCPU142とがそれぞれ割り当てられることとする。
そうすると、インタフェース105はパーティション#1とパーティション#3とに使用されるので、クロスバ101のインタフェース105が接続されるポート(Port3)とクロスバ102のインタフェース105が接続されるポート(Port2)とがそれぞれ持つ自ポートパーティション情報304には、パーティション#1とパーティション#3とに対応するビットがセットされる。
同様に、インタフェース106はパーティション#3にのみ使用されるので、インタフェース106が接続されるクロスバ101のポート(Port4)とクロスバ103のポート(Port1)とが持つ自ポートパーティション情報304には、パーティション#3に対応するビットがセットされる。
インタフェース107もパーティション#3にのみ使用されるので、インタフェース107が接続されるクロスバ102のポート(Port4)とクロスバ104のポート(Port1)とが持つ自ポートパーティション情報304には、パーティション#3に対応するビットがセットされる。
インタフェース108はパーティション#2とパーティション#3とに使用されるので、インタフェース108が接続されるクロスバ103のポート(Port3)とクロスバ104のポート(Port2)とが持つ自ポートパーティション情報304には、パーティション#2とパーティション#3とに対応するビットがセットされる。
CPUが接続されるポート部が持つ自ポートパーティション情報304にも、それぞれのCPUが属するパーティションに対応するビットがセットされる。以上のシステムのパーティション構成と立ち上げ時の設定とで、パーティション#3に属するCPU112にエラーが発生した場合について説明する。
パーティション#3に属するCPU112で障害が検出されると、CPU112はパーティション#3の情報を載せたエラー通知パケットを生成し、そのエラー通知パケットをクロスバ101のポート(Port2)に発行する。クロスバ101のポート(Port2)内では受信制御部221がエラー通知パケットを受信すると、そのエラー通知パケットをエラーパケット受信部222を経由してエラー制御部223に転送する。
エラー制御部223内ではクロスバ送信部302を経由して他ポートに送信するためにクロスバ制御201へ送信する。同時に、パーティション情報抽出回路A301ではエラー通知パケットから障害が発生したパーティション情報を抜き出し、そのパーティション情報をパーティション情報比較回路A303へ送る。
クロスバ101のポート(Port2)には障害を検出したCPU112が接続されているので、自ポートパーティション情報304にはパーティション#3に対応するビットがセットされている。よって、パーティション情報比較回路A303はパーティション情報抽出回路A301からの障害パーティション情報と自ポートパーティション情報304のパーティション情報との比較結果が一致するため、ポート/トレーサ停止回路306に対してポート(Port2)の動作停止指示を行い、クロスバ101のポート(Port2)は送受信の動作を停止する。クロスバ制御部201へ送信されたエラー通知パケットは、他の3ポートに転送される。
ポート(Port1)ではクロスバ制御部201からエラーパケット発行指示回路309に受信したエラー通知パケットに対してチェックを行うが、パーティション#1に属するCPU111が接続されているため、パーティション情報抽出回路B308で抜き出したパーティション情報はパーティション比較回路B307でパーティション情報の比較結果が一致しないため、ポート/トレーサ停止回路306へは何もせず、またCPU111に対してもエラー通知パケットの送信を行わない。
ポート(Port3)においては、インタフェース105がパーティション#1とパーティション#3とに使用されているため、ポート(Port3)内のパーティション比較回路B307ではパーティション情報の比較結果がその一部のみ一致することになるので、ポート/トレーサ停止回路306にトレーサ236の停止指示だけを行い、トレーサ236が動作履歴の採取を停止する。
この場合には、障害に関係ないパーティション#1が使用しているので、インタフェース105の動作を停止することができない。また、パーティション情報の一部でも一致した場合には、その接続先に障害パーティションの装置が接続されている可能性があるため、エラー通知パケットをインタフェース105経由でクロスバ102へ送出する。
ポート(Port4)では、インタフェース106がパーティション#3にのみ使用されるため、ポート(Port4)内のパーティション比較回路B307ではパーティション情報のすべてを障害と認識することができるので、ポート/トレーサ停止回路306にポート(Port4)の動作停止指示を行い、ポート(Port4)のパケット送受信を停止する。
但し、この場合にも、その接続先に障害パーティションの装置が接続されている可能性があるため、インタフェース106経由でクロスバ103へエラー通知パケットを送出してから動作を停止することとなる。
ポート(Port2)からエラー通知パケットを受け取ったクロスバ102は、上記と同様に、各ポートでパーティション情報のチェックを行う。受信したポート(Port2)ではパーティション情報比較回路303において、パーティション情報の比較結果がその一部のみ一致するので、トレーサ226の停止指示をポート/トレーサ停止回路306に行う。
ポート(Port1)はパーティション#1に属するCPU121が接続されているため、何もしない。ポート(Port3)はパーティション#3に属するCPU122が接続されるので、パーティション情報比較回路B307において自ポートパーティション情報304の全ビットが障害と認識されるので、ポート/トレーサ停止回路306へポート(Port3)の停止指示を行い、エラー通知パケットを発行後にポート(Port3)を停止する。
ポート(Port4)はインタフェース107がパーティション#3にのみ使用されるため、ポート(Port4)内のパーティション比較回路B307ではパーティション情報のすべてを障害と認識することができるので、ポート/トレーサ停止回路306にポート(Port4)の動作停止指示を行い、エラー通知パケットを送信してからポート(Port4)のパケット送受信を停止する。
クロスバ103も、上記のクロスバ102と同様に、各ポートでパーティション情報のチェックを行う。クロスバ104においてもエラー通知パケットが受信されると、各ポートでチェックを始めるが、クロスバ102及びクロスバ103の両方からエラー通知パケットを受信する可能性がある。その場合、一度エラー通知パケットを送受信したポートに対しては再度エラー通知パケットを送信しないようにする。
これは、クロスバ101〜104間のインタフェースを停止するケースでは良いが、パーティション構成によってはクロスバ101〜104間のインタフェースが停止しないケースもあり、その場合に一度送受信したインタフェースに再度エラー通知パケットを送信してしまうと、永遠にクロスバ101〜104のネットワーク内をエラー通知パケットが送信され続けてしまうことになるからである。
各ポートの動作はポート(Port1)とポート(Port3)とがパーティション#3にのみ使用されるので、それらのポート(Port1)及びポート(Port3)の動作を停止する。その場合、ポート(Port3)にはエラー通知パケットを送信し、ポート(Port1)がまだエラー通知パケットを受信していなければ、ポート(Port1)にもエラー通知パケットを送信する。
ポート(Port2)はパーティション#2とパーティション#3とによる共用部であるため、パーティション情報は一部しか一致しない。よって、トレーサ226のみ停止となり、まだエラー通知パケットを受信していなければ、エラー通知パケットを送信する。ポート(Port4)はパーティション#2のCPU141が接続されるので、何もしない。
全てのクロスバ101〜104の全ポートで受信したエラー通知パケットによってパーティション情報がチェックされると、障害を検出したパーティション#3にのみ関連する装置及びインタフェースが停止することになり、また動作を停止できないが障害パーティションに関連するインタフェースの両端のポート部ではトレーサを停止することができることによって、障害解析に対して有効な情報を採取することができる。
このように、本実施例では、クロスバ101〜104の各ポート部に使用するパーティション情報を設定しているので、エラー通知パケットを転送する時にパーティション情報を抽出することで、クロスバ101〜104間のインタフェースの停止の可否を判断することができる。
また、本実施例では、障害パーティションにのみ使用されるクロスバ101〜104間のインタフェースを停止するので、クロスバ101〜104内の停止したポート部の障害発生前後の情報を障害解析用に採取することができる。
さらに、本実施例では、動作停止を行うことができないが、障害パーティションに関連するインタフェースの両端のポート部においてトレーサを停止させるので、クロスバ101〜104内の対象ポート部の動作履歴を障害解析用に採取することができる。
さらにまた、本実施例では、クロスバ101〜104で障害が発生した場合にクロスバ101〜104の各ポート部に使用するパーティション情報を設定しているので、クロスバ101〜104からエラー通知パケットを発行して障害インタフェースに関連するパーティションのみを動作停止とすることができる。
次に、CPUにおける障害以外に、クロスバのポート部やクロスバ間のインタフェースにおける障害に対してさらに工夫したものを本発明の他の実施例として説明する。本発明の他の実施例の基本的構成は、上記の通りであり、その構成は上述した図1〜図3に示す本発明の一実施例と同様である。尚、図3において、上述した本発明の一実施例では使用しなかったポート内エラー検出制御回路305を本実施例では使用する。
システムのパーティション構成と、立ち上げ時の設定も上述した本発明の一実施例と同様とし、パーティション#1とパーティション#3とで共用されているクロスバ101のポート(Port3)で障害が発生したケースについて以下説明する。
クロスバ101のポート(Port3)で障害が発生すると、ポート(Port3)のポート内エラー検出制御回路305に障害発生が報告される。ポート内エラー検出制御回路305ではクロスバ送信部302とエラーパケット発行指示回路307とに対して、自ポートパーティション情報304からのパーティション情報と一緒に、エラー通知パケットの発行指示を行う。
本実施例では、インタフェース105を使用しているのがパーティション#1とパーティション#3との2つであるため、エラー通知パケットにも2つのパーティション情報を載せる必要がある。エラー通知パケットのビット構成によっては、パーティション番号をそのまま複数載せるのが厳しい場合もあるため、パーティション情報304内と同じく、最大パーティションのビット数を用意してパーティション番号に対応するビットをセットして複数パーティションの情報を転送する方法もある。
クロスバ101において、ポート(Port3)はエラーパケット発行指示回路307からパーティション情報抽出回路B308にエラー通知パケットが送られ、パーティション情報が抜き取られてパーティション情報比較回路B307で比較される。障害ポートであるため、パーティション情報が一致するので、パーティション情報比較回路B307はポート/トレーサ停止回路306へポート(Port3)の停止指示を行い、エラーパケット生成部235を経由して送信制御部234からクロスバ102へエラー通知パケットを送出後、ポート(Port3)の動作を停止する。
また、ポート(Port3)からはエラー通知パケットを送信するが、障害内容によっては、クロスバ102へエラー通知パケットを送信することができないケースもある。その場合には、クロスバ102のポート(Port2)側でパケットが受信されなくなってインタフェース切断の障害を検出するため、クロスバ102側でもエラー通知パケットが生成されて発行され始めるので問題ない。
クロスバ101のポート(Port1)及びポート(Port2)にはそれぞれパーティション#1に属するCPU111とパーティション#3に属するCPU112とが接続されている。しかしながら、クロスバ制御部201経由でポート(Port3)から受信したエラー通知パケットによってパーティション情報抽出回路B308においてパーティション#1及びパーティション#3のパーティション情報が抽出されるため、それぞれのポート(Port1)及びポート(Port2)のパーティション情報比較回路B307では自ポートパーティション情報304からのパーティション情報が含まれてしまう。
そのため、ポート(Port1)及びポート(Port2)は障害対象となり、それぞれのCPU111及びCPU112へエラー通知パケットを送信してポート/トレーサ停止回路306によってポート(Port1)及びポート(Port2)の動作を停止する。CPU111及びCPU112も受信したエラー通知パケットのパーティション情報によって動作を停止する。ポート(Port4)はパーティション#3にのみ使用されるため、上記と同様に、エラー通知パケットを送信後、ポート(Port4)の動作を停止する。
ポート(Port2)からエラー通知パケットを受信するか、もしくはポート(Port2)でエラーを検出したクロスバ102は、全ポートでパーティション情報をチェックし、全てのポートが障害対象のパーティションに含まれるため、エラー通知パケットを送信後、全てのポートの動作を停止する。但し、ポート(Port2)においてはエラー通知パケットを受信している場合、再度エラー通知パケットの発行を行わない。
ポート(Port1)からエラー通知パケットを受信したクロスバ103は、全てのポートでパーティション情報をチェックし、ポート(Port1)が障害対象のパーティションに含まれるため、そのままポート(Port1)の動作を停止する。ポート(Port2)はパーティション#3に属するCPU132が接続されているので、エラー通知パケットを送信後、ポート(Port2)の動作を停止する。
ポート(Port3)では、エラー通知パケットで報告されるパーティション情報がパーティション#1及びパーティション#3で、自ポートパーティション情報304の設定がパーティション#2及びパーティション#3であるため、パーティション情報比較回路B307でパーティション#3のみ一致するため、トレーサ236の停止指示のみポート/トレーサ停止回路306へ行い、エラー通知パケットを送信してトレーサ236のみ停止する。ポート(Port4)はパーティション#2に属するCPU131が接続されているため、何もしない。
クロスバ104においても、ポート(Port1)またはポート(Port2)からエラー通知パケットを受信すると、各ポートでチェックを始めるが、ポート(Port1)及びポート(Port3)は、パーティション#3にのみ使用されるので、ポート(Port1)及びポート(Port3)の動作を停止する。その場合、ポート(Port3)にはエラー通知パケットを送信し、ポート(Port1)がまだエラー通知パケットを受信していなければ、ポート(Port1)にエラー通知パケットを送信する。
ポート(Port2)はパーティション#2とパーティション#3とによる共用部であるため、パーティション情報はパーティション#3しか一致しない。よって、トレーサ226のみ停止となり、まだエラー通知パケットを受信していなければ、ポート(Port2)にエラー通知パケットを送信する。ポート(Port4)はパーティション#2のCPU141が接続されるので、パーティション情報も一致しないため、何もしない。
全てのクロスバ101〜104の全ポートで受信したエラー通知パケットによってパーティション情報がチェックされると、パーティション#1とパーティション#3とのどちらかのみ、または両方にのみ関連する装置及びインタフェースが動作を停止したことになり、またパーティション#1とパーティション#3とに関係するが、パーティション#2と共用しているため、動作を停止することができないインタフェースのポート部ではトレーサを停止することによって、障害解析に対して有効な情報を採取することができる。
本発明の一実施例による大規模システムの構成を示すブロック図である。 図1のクロスバの構成を示すブロック図である。 図2に示すエラー制御部の構成を示すブロック図である。 図4は図3のエラー制御部の動作を示すフローチャートである。 従来のクロスバの構成を示すブロック図である。
符号の説明
101〜104 クロスバ
105〜108 インタフェース
111,112,121,122,
131,132,141,142 CPU
200 4×4クロスバ
201 クロスバ制御部
211,221,231,241 受信制御部
212,222,232,242 エラーパケット受信部
213,223,233,243 エラー制御部
214,224,234,244 送信制御部
215,225,235,245 エラーパケット生成部
216,226,236,246 トレーサ
300 エラー制御部
301 パーティション情報抽出回路A
302 クロスバ送信部
303 パーティション情報比較回路A
304 自ポートパーティション情報
305 ポート内エラー検出制御回路
306 ポート/トレーサ停止回路
307 パーティション情報比較回路B
308 パーティション情報抽出回路B
309 エラーパケット発行指示回路
Port1〜Port4 ポート

Claims (20)

  1. 複数のクロスバ装置を相互に接続したネットワーク構成からなり、前記複数のクロスバ装置各々に接続された複数の中央処理装置を複数のパーティションに分けて運用するシステムであって、
    前記複数のクロスバ装置各々は、前記クロスバ装置内の外部との接続用の複数のポート各々において前記クロスバ装置が接続されるインタフェースに対して使用されるパーティション情報を保持する保持手段と、受信したエラー通知によって報告された障害に前記複数のポートが関係するかを前記保持手段に保持されたパーティション情報に基づいて識別する比較手段と、前記比較手段で前記障害に関係すると識別されたポートの動作を停止させる停止手段と、前記エラー通知から前記パーティション情報を抽出する抽出手段とを有し、
    前記エラー通知は、前記障害が発生したパーティション情報を含み、
    前記比較手段は、その抽出されたパーティション情報と前記保持手段に保持されたパーティション情報とを比較し、前記障害に関係するポートを検出することを特徴とするシステム
  2. 前記クロスバ装置は、障害箇所に関連するパーティションで使用されているインタフェースだけを動作停止可能とする特徴とする請求項1記載システム
  3. 前記ポートの故障が検出された時に関連する装置にエラー通知を発行する発行手段を前記複数のクロスバ装置各々に含むことを特徴とする請求項1または請求項2記載のシステム
  4. 前記保持手段は、前記パーティション単位に立ち上げを行う際に前記ポートにに対して前記クロスバ装置間のインタフェースを使用する時に当該パーティションに対応する前記パーティション情報のビットがセットされた情報を保持することを特徴とする請求項1から請求項のいずれか記載のシステム
  5. 前記保持手段は、前記インタフェースを複数のパーティションによって共用する際に複数のパーティション情報内の対応するビットがセットされた情報を保持することを特徴とする請求項1から請求項のいずれか記載のシステム
  6. 前記クロスバ装置内の動作履歴を採取するトレーサを前記複数のクロスバ装置各々に含み、
    前記障害が発生したパーティションとそれ以外のパーティションとが共用しているインタフェースにおいて動作を停止することができない時に前記トレーサのみを停止させてその動作履歴を採取することを特徴とする請求項記載のシステム
  7. 前記保持手段と、前記比較手段と、前記停止手段と、前記発行手段と、前記抽出手段と、前記トレーサとを前記クロスバ装置内の複数のポート各々に配設したことを特徴とする請求項記載の大規模システム。
  8. 自装置と他の装置とが相互に接続されるネットワーク構成からなり、自装置及び前記他の装置各々に接続される複数の中央処理装置が複数のパーティションに分けて運用されるシステムに用いられるクロスバ装置であって、
    前記クロスバ装置内の外部との接続用の複数のポート各々において前記クロスバ装置が接続されるインタフェースに対して使用されるパーティション情報を保持する保持手段と、受信したエラー通知によって報告された障害に前記複数のポートが関係するかを前記保持手段に保持されたパーティション情報に基づいて識別する比較手段と、前記比較手段で前記障害に関係すると識別されたポートの動作を停止させる停止手段と、前記エラー通知から前記パーティション情報を抽出する抽出手段とを有し、
    前記エラー通知は、前記障害が発生したパーティション情報を含み、
    前記比較手段は、その抽出されたパーティション情報と前記保持手段に保持されたパーティション情報とを比較し、前記障害に関係するポートを検出することを特徴とするクロスバ装置。
  9. 障害箇所に関連するパーティションで使用されているインタフェースだけを動作停止可能とする特徴とする請求項8記載のクロスバ装置。
  10. 前記ポートの故障が検出された時に関連する装置にエラー通知を発行する発行手段を含むことを特徴とする請求項8または請求項9記載のクロスバ装置。
  11. 前記保持手段は、前記パーティション単位に立ち上げを行う際に前記ポートにに対して前記クロスバ装置間のインタフェースを使用する時に当該パーティションに対応する前記パーティション情報のビットがセットされた情報を保持することを特徴とする請求項から請求項10のいずれか記載のクロスバ装置。
  12. 前記保持手段は、前記インタフェースを複数のパーティションによって共用する際に複数のパーティション情報内の対応するビットがセットされた情報を保持することを特徴とする請求項から請求項11のいずれか記載のクロスバ装置。
  13. 自装置内の動作履歴を採取するトレーサを含み、
    前記障害が発生したパーティションとそれ以外のパーティションとが共用しているインタフェースにおいて動作を停止することができない時に前記トレーサのみを停止させてその動作履歴を採取することを特徴とする請求項12記載のクロスバ装置。
  14. 前記保持手段と、前記比較手段と、前記停止手段と、前記発行手段と、前記抽出手段と、前記トレーサとを自装置内の複数のポート各々に配設したことを特徴とする請求項13記載のクロスバ装置。
  15. 複数のクロスバ装置を相互に接続したネットワーク構成からなり、前記複数のクロスバ装置各々に接続された複数の中央処理装置を複数のパーティションに分けて運用するシステムに用いる障害通知方法であって、
    前記クロスバ装置側に、前記クロスバ装置内の外部との接続用の複数のポート各々において前記クロスバ装置が接続されるインタフェースに対して使用されるパーティション情報を保持手段に保持する処理と、受信したエラー通知によって報告された障害に前記複数のポートが関係するかを前記保持手段に保持されたパーティション情報に基づいて識別する処理と、前記障害に関係すると識別されたポートの動作を停止させる処理と、前記エラー通知から前記パーティション情報を抽出する処理とを有し、
    前記エラー通知が、前記障害が発生したパーティション情報を含み、
    前記複数のポートが関係するかを識別する処理は、その抽出されたパーティション情報と前記保持手段に保持されたパーティション情報とを比較し、前記障害に関係するポートを検出することを特徴とする障害通知方法。
  16. 前記クロスバ装置が、障害箇所に関連するパーティションで使用されているインタフェースだけを動作停止可能とする特徴とする請求項15記載の障害通知方法。
  17. 前記クロスバ装置側に、前記ポートの故障が検出された時に関連する装置にエラー通知を発行する処理を含むことを特徴とする請求項15または請求項16記載の障害通知方法。
  18. 前記保持手段が、前記パーティション単位に立ち上げを行う際に前記ポートにに対して前記クロスバ装置間のインタフェースを使用する時に当該パーティションに対応する前記パーティション情報のビットがセットされた情報を保持することを特徴とする請求項15から請求項17のいずれか記載の障害通知方法。
  19. 前記保持手段が、前記インタフェースを複数のパーティションによって共用する際に複数のパーティション情報内の対応するビットがセットされた情報を保持することを特徴とする請求項15から請求項18のいずれか記載の障害通知方法。
  20. 前記クロスバ装置内の動作履歴を採取するトレーサを前記クロスバ装置に配設し、前記障害が発生したパーティションとそれ以外のパーティションとが共用しているインタフェースにおいて動作を停止することができない時に前記トレーサのみを停止させてその動作履歴を採取することを特徴とする請求項19記載の障害通知方法。
JP2004206663A 2004-07-14 2004-07-14 システム、クロスバ装置及びそれらに用いる障害通知方法 Expired - Fee Related JP3961517B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004206663A JP3961517B2 (ja) 2004-07-14 2004-07-14 システム、クロスバ装置及びそれらに用いる障害通知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206663A JP3961517B2 (ja) 2004-07-14 2004-07-14 システム、クロスバ装置及びそれらに用いる障害通知方法

Publications (2)

Publication Number Publication Date
JP2006031199A JP2006031199A (ja) 2006-02-02
JP3961517B2 true JP3961517B2 (ja) 2007-08-22

Family

ID=35897500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206663A Expired - Fee Related JP3961517B2 (ja) 2004-07-14 2004-07-14 システム、クロスバ装置及びそれらに用いる障害通知方法

Country Status (1)

Country Link
JP (1) JP3961517B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100995621B1 (ko) 2006-02-24 2010-11-22 후지쯔 가부시끼가이샤 에러 제어 장치
EP2302524B1 (en) 2008-06-02 2019-01-23 Fujitsu Limited Data processing system, data processing method, and data processing program
JP5535471B2 (ja) * 2008-12-05 2014-07-02 エヌイーシーコンピュータテクノ株式会社 マルチパーティション・コンピュータシステム、障害処理方法及びそのプログラム
JP5326673B2 (ja) 2009-03-06 2013-10-30 富士通株式会社 制御回路、情報処理装置及び情報処理装置の制御方法
JP5233898B2 (ja) * 2009-07-31 2013-07-10 富士通株式会社 ルーティングテーブルの書き換え方法、データ転送装置およびプログラム
JP5685993B2 (ja) * 2011-03-04 2015-03-18 日本電気株式会社 障害処理回路を含むマルチノードシステム及び障害処理方法

Also Published As

Publication number Publication date
JP2006031199A (ja) 2006-02-02

Similar Documents

Publication Publication Date Title
US9106523B2 (en) Communication device and method of controlling the same
US10708132B2 (en) Technique for handling a status change in an interconnect node
JPH04229741A (ja) リンク結合システム内の故障を分離し分析する装置及び方法
CN101884196A (zh) 提供故障检测功能的系统和方法
US20110131348A1 (en) Control system and cpu unit
JP3961517B2 (ja) システム、クロスバ装置及びそれらに用いる障害通知方法
JP2012019276A (ja) 通信装置、及び通信方法
CN101126994B (zh) 数据处理装置及其模式管理装置以及模式管理方法
JP4472535B2 (ja) 情報伝送システム、鉄道車両用情報伝送システム及び車両用情報伝送端末装置
JP4340731B2 (ja) ネットワークの障害監視処理システム及び方法
US8111625B2 (en) Method for detecting a message interface fault in a communication device
JP4287734B2 (ja) ネットワーク装置
JP2778625B2 (ja) 故障評定方式
US6870814B1 (en) Link extenders with error propagation and reporting
CN1286014C (zh) 从代理模块故障中恢复的方法
JP4994438B2 (ja) 監視装置及び監視システム
CN116192555A (zh) 远程终端的体系结构
JP2000151663A (ja) 故障検知装置及び故障検知方法
JP2022035335A (ja) 誤接続判定装置、誤接続判定方法、プログラム
JP2002044113A (ja) ハブ装置
CN117111587A (zh) 一种航电系统交互通道的故障检测和重构方法
JP2006101409A (ja) Atm多重装置の障害検出システム
JP2008152643A (ja) 障害切り分けシステム、障害切り分け方法、およびプログラム
KR20000044319A (ko) 교환기 아이.피.씨 네트웍에서 게이트웨이의 이상상태 복구방법
JPH01166638A (ja) 障害切分け機能を有する通信システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070516

R150 Certificate of patent or registration of utility model

Ref document number: 3961517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140525

Year of fee payment: 7

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees