JP2008046996A - データ処理装置、モード管理装置、及びモード管理方法 - Google Patents

データ処理装置、モード管理装置、及びモード管理方法 Download PDF

Info

Publication number
JP2008046996A
JP2008046996A JP2006223663A JP2006223663A JP2008046996A JP 2008046996 A JP2008046996 A JP 2008046996A JP 2006223663 A JP2006223663 A JP 2006223663A JP 2006223663 A JP2006223663 A JP 2006223663A JP 2008046996 A JP2008046996 A JP 2008046996A
Authority
JP
Japan
Prior art keywords
mode
error
crossbar
crossbars
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006223663A
Other languages
English (en)
Other versions
JP4755050B2 (ja
Inventor
Shintaro Itozawa
慎太郎 糸澤
Takayuki Kinoshita
貴行 木下
Junji Ichimiya
淳次 市宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006223663A priority Critical patent/JP4755050B2/ja
Priority to DE200760002956 priority patent/DE602007002956D1/de
Priority to EP20070106998 priority patent/EP1890439B1/en
Priority to US11/741,993 priority patent/US7823027B2/en
Priority to CN2007101041704A priority patent/CN101126994B/zh
Priority to KR20070049764A priority patent/KR100936203B1/ko
Publication of JP2008046996A publication Critical patent/JP2008046996A/ja
Application granted granted Critical
Publication of JP4755050B2 publication Critical patent/JP4755050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • H04L49/1515Non-blocking multistage, e.g. Clos
    • H04L49/1523Parallel switch fabric planes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/552Prevention, detection or correction of errors by ensuring the integrity of packets received through redundant connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】アドレス・クロスバを2重化したコンピュータ(データ処理装置)のエラー耐性をより向上させるための技術を提供する。
【解決手段】エラーが発生したアドレス・クロスバ30#1は、その旨を通知するためのエラー通知信号S1をマネージメントボート50に送信し、自身をシステムから切り離すことを要求するためのGAC#1切り離し指示信号S2を各システムボード10、及び各IOユニット20に送信する。マネージメントボード50の制御部50は、レジスタ50に格納された通知信号S1の情報によりアドレス・クロスバ30#1でのエラーの発生を確認すると、アドレス・クロスバ30#0に、2重化のための2重化モードから独立に動作させるための1重化モードにモード変更させるための設定信号S4を生成して送信する。それにより、アドレス・クロスバ30#0を1重化モードで動作させる。
【選択図】図3

Description

本発明は、1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを接続可能なユニットとするデータ処理装置に関する。
近年、コンピュータ(データ処理装置)のなかには、物理的に分離したユニットを複数、実装可能な構成が採用されたものがある。そのユニットとしては、CPUとメモリを搭載したシステムボード(SB)と、ハードディスク装置やPCIスロットなどのIOデバイスを搭載したIOユニットとが用意されるのが普通である。そのようなユニットを用意するのは、CPU資源やメモリ資源を状況に応じて柔軟に割り当てられるためである。つまり、それらをより効率的に活用できるという利点があるためである。その構成を採用したコンピュータには、システムボード、及びIOユニットはそれぞれ1つ以上、搭載される。クロスバは、それらのユニット間の相互接続に用いられる。そのようなコンピュータでは、1つ以上のシステムボートと、1つ以上のIOユニットとを1つの独立したシステムとして分割することが可能である。そのように分割してできる「独立したシステム」は「パーティション」と呼ばれる。
図9は、クロスバにより複数のユニットを接続したコンピュータの構成を説明する図である。図9に示すように、1つ以上のシステムボード1、及びIOユニット2は共に、2つのグローバル・アドレス・クロスバ(以降「アドレス・クロスバ」或いは「GAC」と略記)3、及び4つのグローバル・データ・クロスバ(以降「データ・クロスバ」或いは「GDX」と略記)4とそれぞれ接続されている。マネージメントボード(MMB:Management Board)5は、管理専用ユニットであり、各ユニット1〜4とはSMバスにより接続されている。
2つのアドレス・クロスバ3は、同時に同じリクエスト制御を行っている。それにより、アドレス・クロスバ3はハードウェア的に2重化され、その2重化によってより高い信頼性を実現させている。ここでは便宜的に、2重化のための動作モードを「2重化モード」と呼ぶことにする。4つのデータ・クロスバ4が用意されているのは、通常、一度に大量のデータが転送されるためである。
2つのアドレス・クロスバ3にはそれぞれ「#0」「#1」が表記されている。このことから、2つのアドレス・クロスバ3のうちの一方のみを指す場合には、符号の後に「#0」或いは「#1」を付すことにする。これは他でも同様である。
2つのアドレス・クロスバ3は、同期して動作する。他方のデータ・クロスバ4では、2つのデータ・クロスバ4#0、及び4#2、2つのデータ・クロスバ4#1、及び4#3がそれぞれ同期して動作する。
アドレス・クロスバ3内に実装されているメモリやバッファ、或いはキューといったデータや制御情報を蓄えておく機構では、ECC(Error Correcting Code)、或いはパリティが付加される。それにより、訂正不可能なエラーの発生を認識するようになっている。また、他の部分の動作を監視して、フリーズ等のエラーの発生を認識するようになっている。2重化モードで動作中にエラーが発生した場合、従来のコンピュータでは以下のように対応するようになっている。
図10は、アドレス・クロスバ3#1にエラーが発生した場合に、従来のコンピュータ各部が実行する処理の流れを示すフローチャートである。その図10を参照して、エラーが発生したクロスバ3#1を含む各部の動作について具体的に説明する。その図10では、各部を、システムボード1及びIOユニット2(図中「SB/IOU」と表記)、アドレス・クロスバ3#0(図中「GAC#0」と表記)、アドレス・クロスバ3#1(図中「GAC3#1」と表記)、及びマネージメントボード5(図中「MMB」と表記)の4つに分けている。
アドレス・クロスバ3#1は、エラーの発生を認識(検出)すると、その旨をマメージメントボード5、各システムボード1、及び各IOユニット2にそれぞれ通知する(SA1)。各システムボード1、及び各IOユニット2には、アドレス・クロスバ3#1をシステムから論理的に切り離すことを求める信号(GAC#1切り離し信号)を送信する。その後、動作を停止させる(SA2)。
GAC#1切り離し信号を受信した各システムボード1、及び各IOユニット2はそれぞれ、エラーが発生したアドレス・クロスバ3#1を切り離す動作(処理)を行う(SC1)。その後は、切り離したクロスバ3#1を使用しないことを除き、それまでと同様の動作を継続させる(SC2)。
マネージメントボード5では、上記通知をシステム管理に反映させる。他方のアドレス・クロスバ3#0には、アドレス・クロスバ3#1に発生したエラーは通知されず、それまでと同じ動作を継続させる。
このように、2重化したアドレス・クロスバ3の一方にエラーが発生すると、以降、そのエラーが発生したクロスバ3は使用せず、システムから切り離している。これは、データ信頼性の観点からである。このことから、2重化モードで動作していたアドレス・クロスバ3は、エラーの発生により動作を停止するようになっている(図10)。
特開平09−179838号公報 特公平07−82479号公報
アドレス・クロスバ3を2重化することにより、より高い信頼性が実現される。2つのアドレス・クロスバ3のうちの一方にエラーが発生しても、他方を用いてシステムを動作させることができる。しかし、その他方にもエラーが発生することがありうる。そのようなエラーが発生すると、そのエラーの発生により他方も停止するから、システムも停止することになる。
アドレス・クロスバ3に発生したエラーは、そのクロスバ3を停止すべきものでない場合がある。特定のユニット間にのみ影響するような部分的なエラーが発生することも多い。このことから、独立に動作させるモード(以降「1重化モード」)の設定時には、エラーの発生により停止が必要な部分のみを停止させ、エラーの影響を受けない部分は動作を継続させるようになっている。システムのより高い稼働率を実現させるためには、このようなことに着目し、エラー耐性を向上させることも重要と考えられる。
本発明は、アドレス・クロスバを2重化したコンピュータ(データ処理装置)のエラー耐性をより向上させるための技術を提供することを目的とする。
本発明の第1の態様のデータ処理装置は、1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを実装可能なユニットとするものであり、ユニット間の接続に採用された、複数モードで動作可能な複数のクロスバと、複数のクロスバを2重化のための第1のモードで動作させていた場合に、該複数のクロスバのうちの一つに発生したエラーにより、該エラーが影響する他のクロスバのモード設定を該第1のモードから独立に動作させるための第2のモードに変更するモード変更手段と、を具備する。
なお、上記モード変更手段は、複数のクロスバのなかでエラーが発生したクロスバから、該エラーの発生を通知するエラー通知信号を受信し、他のクロスバに、第1のモードから第2のモードに変更するための設定信号を送信することにより、該他のクロスバのモード変更を行う、ことが望ましい。また、そのモード変更手段は、複数のクロスバのなかでエラーが発生したクロスバから、該エラーの発生を通知する信号を他のクロスバに送信させ、該他のクロスバにモード変更を行わせることにより実現させている、ことが望ましい。
本発明の第2の態様のデータ処理装置は、それぞれが処理部を搭載する複数の処理ユニットと、それぞれが複数の処理ユニットに接続され、複数の処理ユニット間のデータ転送に介在する、動作モードが二重化モードと一重化モードとに切り替えられる、二重化された複数のクロスバユニットと、二重化された複数のクロスバユニットのうちいずれか一方にエラーが発生した場合、動作モードを二重化モードから一重化モードに切り替える指示を他方のクロスバユニットに送出するモード変更手段と、を備えている。
本発明のモード管理装置は、1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを実装可能なユニットとするデータ処理装置に搭載されることを前提とし、ユニット間の接続に採用された、複数モードで動作可能な複数のクロスバとそれぞれ送受信可能な送受信手段と、2重化のための第1のモードで動作していた複数のクロスバのうちの一つから、エラーの発生を通知するエラー通知信号を送受信手段が受信した場合に、該エラーが影響する他のクロスバのモード設定を該第1のモードから独立に動作させるための第2のモードに変更するための設定信号を送受信手段により送信させて、該他のクロスバのモード変更を行うモード制御手段と、を具備する。
本発明のモード管理方法は、1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを実装可能なユニットとするデータ処理装置に該ユニット間の接続に採用されたクロスバのモード管理に用いられる方法であって、ユニット間の接続に複数のクロスバを配置し、該複数のクロスバを2重化のための第1のモードで動作させ、複数のクロスバのうちの一つに発生したエラーにより、該エラーが影響する他のクロスバのモード設定を第1のモードから独立に動作させるための第2のモードにモード変更する。
本発明では、実装されたユニット(処理ユニット)間の接続に複数のクロスバ(クロスバユニット)を配置し、その複数のクロスバを2重化のための第1のモード(二重化モード)で動作させていた場合に、その複数のクロスバのうちの一つに発生したエラーにより、そのエラーが影響する他のクロスバのモード設定を第1のモードから独立に動作させるための第2のモード(一重化モード)にモード変更する。
第1のモードでは、データ信頼性の観点から、エラーが発生したクロスバは動作を停止させる。第2のモードでは、動作の停止が必要な部分のみを停止させる。このことから、他のクロスバでのエラーの発生により、エラーが発生していないクロスバを第1のモードから第2のモードにモード変更すると、部分的なエラーが発生したとしても、正常に動作可能な部分を用いたシステムの動作を継続させることができる。それにより、エラー耐性が向上し、システムのより高い稼働率を実現できるようになる。
以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
図1は、本実施の形態によるデータ処理装置(コンピュータ)の構成を説明する図である。図1に示すように、1つ以上のシステムボード10、及びIOユニット20は共に、2つのグローバル・アドレス・クロスバ(以降「アドレス・クロスバ」或いは「GAC」と略記)30、及び4つのグローバル・データ・クロスバ(以降「データ・クロスバ」或いは「GDX」と略記)40とそれぞれ接続されている。マネージメントボード(MMB:Management Board)50は、管理専用ユニットであり、各ユニット10〜40とはSMバスにより接続されている。
アドレス・クロスバ30は2重化され、2つのクロスバ30は同時に同じリクエスト制御を行っている。それにより、高い信頼性を実現させている。4つのデータ・クロスバ40が用意されているのは、通常、一度に大量のデータが転送されるためである。2つのアドレス・クロスバ3は同期して動作し、データ・クロスバ40では、2つのデータ・クロスバ40#0、及び40#2、2つのデータ・クロスバ40#1、及び40#3がそれぞれ同期して動作する。
図2は、システムボード10、及びIOユニット20の構成例を説明する図である。
システムボード10は、4つのCPU101、2つのFWH(Firm Ware Hub)102、ノース・ブリッジ(North Bridge)103、4つのメモリ・スイッチ(図中「Mem Swich」と表記)104、及び各メモリ・スイッチ104に接続された複数のメモリ105を備えた構成となっている。他方のIOユニット20は、サウス・ブリッジ(South Bridge)201、そのブリッジ201に接続された2つのSER202およびPCIポートに接続されたPCIデバイス、各SER202およびサウス・ブリッジ201に接続されたICH6 203、及び各ICH6 203に接続された6個のコントローラ211〜216を備えた構成となっている。ICH6 203は、I/Oコントローラ・ハブである。図2に示すコントローラ211〜216は一例であり、その種類や数は任意に変更できる。それらはIOユニット20単位で任意に決定しても良い。
IOユニット20のサウス・ブリッジ201は、2つのアドレス・クロスバ30、及び4つのデータ・クロスバ40とそれぞれ接続されている。そのブリッジ201は、SER202、及びICH6を介して各コントローラ211〜216を制御する。たとえばPCIからの書き込みデータがあった場合、サウス・ブリッジ201からアドレス・クロスバ30に対してリクエストが出される。システムボード10からデータ・クロスバ40を介して転送されるデータを受信した場合には、SER202、及びICH6を介して送出すべきコントローラおよびPCIに送出し、データの格納、出力、或いは送信を行わせる。
システムボード10上の4つのCPU101は、メモリ105、他のシステムボード1b0、或いはIOユニット20へのリード/ライトコマンドをノース・ブリッジ103に発行する。ノース・ブリッジ103は、各CPU101から入力したコマンドを一旦、格納し、優先順位に従ってそのなかから一つを選択し、それをリクエスト(アドレスリクエストとして発行し、アドレス・クロスバ30、及び4つのメモリ・スイッチ104にそれぞれ出力する。
データ・クロスバ40を介して転送されるデータは、メモリ・スイッチ104により受信されてノース・ブリッジ103に出力され、そのブリッジ103によりそれを必要とするCPU101に渡される。他のシステムボード10、或いはIOユニット20に転送すべきデータは、メモリ・スイッチ104によりデータ・クロスバ40に送信され転送される。
アドレス・クロスバ3内に実装されているメモリやバッファ、或いはキューといったデータや制御情報を蓄えておく機構では、ECC(Error Correcting Code)、或いはパリティが付加される。それにより、訂正不可能なエラーの発生を認識するようになっている。また、他の部分の動作を監視して、フリーズ等のエラーの発生を認識するようになっている。2重化モードで動作中にエラーが発生した場合、本実施の形態では以下のように対応するようになっている。図3〜図6を参照して、具体的に説明する。
図3は、エラー発生時に送受信される信号を説明する図である。その図3は、アドレス・クロスバ30#1にエラーが発生した場合のものである。このことから、そのクロスバ30#1にエラーが発生した場合を想定して、以降の説明も行う。
エラーが発生したアドレス・クロスバ30#1は、その旨を通知するためのエラー通知信号S1をマネージメントボート50に送信し、自身をシステムから切り離すことを要求するためのGAC#1切り離し指示信号S2を各システムボード10、及び各IOユニット20に送信する。
エラー通知信号S1としてマネージメントボード50に送信された情報は、レジスタ52に格納される。マネージメントボード50の制御部50は、レジスタ50に格納された情報によりアドレス・クロスバ30#1でのエラーの発生を確認すると、エラーが発生していないアドレス・クロスバ30#0に、2重化のための2重化モードから独立に動作させるための1重化モードにモード変更させるための設定信号S4を生成して送信する。それにより、その信号S4を受信したアドレス・クロスバ30#0は、以降、1重化モードで動作する。
図6は、設定されたモード、及び発生したエラーが影響する範囲によるエラーへの対応を説明する図である。
図6に示すように、1重化モードで動作するアドレス・クロスバ30は、システム全体に影響するエラーが発生しない限り、動作は停止させない。発生したエラーがそのようなものでなければ、発生したエラーが影響するパーティションに対応する部分のみ停止(ダウン)させ、他の部分の動作を継続させる。システム全体に影響するエラーが発生した場合には、その旨をマネージメントボード50に報告し、動作を全体的に停止させる。そのようにして、不必要な動作の停止は行わないため、処理が行えるパーティションは継続して処理を行うことができる。処理が行えないパーティションを構成するユニット10、20の停止(ダウン)はマネージメントボード50によって行われる。
一方、2重化モードで動作するアドレス・クロスバ30では、エラーが影響する範囲に係わらず、動作を全体的に停止させる。このようなことから、エラーが発生していないアドレス・クロスバ30を2重化モードで動作させる場合と比較して、エラー耐性が向上し、それによってシステムのより高い稼働率を実現させることができる。
図4は、アドレス・クロスバ30の構成を説明する図である。
クロスバ30は、図4に示すように、内部にLSI31が搭載され、そのLSI31上には、構成設定レジスタ32、複数の制御部33、エラーレジスタ34、及びエラー処理部35が搭載されている。構成設定レジスタ32は、各種設定変更を行うためのレジスタであり、設定変更はそれに格納された内容を書き換えることで行われる。各制御部33はそれぞれ、対応するユニット間の通信を実現させるためのものであり、各制御部33には、複数のエラー検出機能や、各ユニット10、及び20から発行されたリクエストのうちの一つを選択するための調停回路、ユニット間の通信を実現させるための通信回路などが搭載されている。エラー検出機能により検出したエラーに関する情報はエラーレジスタ34に格納する。エラー処理部35は、エラーレジスタ34に格納された情報により、発生したエラーに対応するための処理を行う。その処理の実行により、発生したエラーをマネージメントボート50に通知するためのエラー通知信号S1の送信、及びシステムから切り離すことを要求するための切り離し指示信号S2の各ユニット10、及び20への送信が実現される。
その指示信号S2は、各ユニット10、及び20にそれぞれ搭載されたLSI11、及び21に送信される。LSI11、及び21はそれぞれ、例えば図2に示す構成ではノース・ブリッジ103、サウス・ブリッジ201に対応するものである。それらLSI11、及び21が指示信号S2を受け取ることにより、その指示信号S2を送信したアドレス・クロスバ30は切り離されることとなる。
図5は、アドレス・クロスバ30#1にエラーが発生した場合に、各部が実行する処理の流れを示すフローチャートである。次に図5を参照して、エラーが発生したクロスバ30#1を含む各部の動作について具体的に説明する。その図5では、図10と同様に、各部を、システムボード10及びIOユニット20(図中「SB/IOU」と表記)、アドレス・クロスバ30#0(図中「GAC#0」と表記)、アドレス・クロスバ30#1(図中「GAC3#1」と表記)、及びマネージメントボード50(図中「MMB」と表記)の4つに分けている。
アドレス・クロスバ30#1は、制御部33のうちの何れかがエラーの発生を認識(検出)すると、エラー処理部35がエラー通知信号S1をマメージメントボード50に、エラー切り離し指示信号S2(図中「GAC#1切り離し信号」と表記)を各システムボード1、及び各IOユニット2にそれぞれ送信する(SA11)。その後、動作を停止させる(SA2)。
各システムボード10、及び各IOユニット20にそれぞれ搭載されたLSI11、及び21は、GAC#1切り離し指示信号S2の受信に応答して、アドレス・クロスバ30#1をシステムから切り離す動作(処理)を行う(SC11)。その後は、切り離したクロスバ30#1を使用しないことを除き、それまでと同様の動作を継続させる(SC12)。
マネージメントボード50では、制御部52がレジスタ52を介してエラー通知信号S1を受信すると、エラーが発生していないアドレス・クロスバ30#0のモード設定を2重化モードから1重化モードに変更する決定を行い、そのための設定信号S4を生成してそのクロスバ30#0に送信する(SD11)。
アドレス・クロスバ30#0に送信された設定信号S4は、構成設定レジスタ32に格納され、各制御部33はそのレジスタ32の内容を参照して、モード設定を2重化モードから1重化モードに変更する(SB11)。それにより、その後の各制御部33は1重化モードで動作を継続させる(SB12)。
なお、本実施の形態では、2重化したアドレス・クロスバ30のうちの一方にエラーが発生した場合、他方のアドレス・クロスバ30のモード変更をマネージメントボード50により行うようにしているが、これは、マネージメントボード50は各ユニット10〜40と通信が可能なためである。つまり、仕様の変更を抑えつつ対応が可能なためである。しかし、マネージメントボード50を用いない方法によりそのモード変更を実現させても良い。例えば図7に示すように、2つのアドレス・クロスバ30間で信号を送受信可能にして、エラーが発生したアドレス・クロスバ30(ここではクロスバ30#1)から他のアドレス・クロスバ30に、エラーの発生を通知する信号S11を送信することにより、その信号S11を受信したクロスバ30にモード変更を行わせても良い。或いは図8に示すように、例えば切り離し指示信号S2を受信したシステムボード10に、別のアドレス・クロスバ30にエラーが発生したことを通知する信号S21を、その指示信号S2を送信していない正常のアドレス・クロスバ30に送信させて、モード変更を行わせても良い。その信号S21を送信させるシステムボード10、或いはIOユニット20は、例えば予め優先順位を定め、正常に動作しているもののなかで最も優先順位の高いものを選択するようにしても良い。アドレス・クロスバ30のモード変更用の専用ユニットを設け、その専用ユニットを介してモード変更を実現させても良い。
また本実施の形態では、アドレス・クロスバ30を2重化しているが、3重化、或いはそれ以上の多重化を行うことも考えられる。3重化以上の多重化を行っている場合には、例えば2重化以上の多重化を行えなくなった状況下で、エラーが発生していないアドレス・クロスバ30のモード変更を行えば良い。アドレス・クロスバ30により相互接続させるユニットとしては、システムボード10、及びIOユニット20に限定されるものではない。その種類、及び組み合わせは任意に変更しても良い。
本実施の形態によるデータ処理装置(コンピュータ)の構成を説明する図である。 システムボード10、及びIOユニット20の構成例を説明する図である。 エラー発生時に送受信される信号を説明する図である。 アドレス・クロスバ30の構成を説明する図である。 アドレス・クロスバ30#1にエラーが発生した場合に、各部が実行する処理の流れを示すフローチャートである。 設定されたモード、及び発生したエラーが影響する範囲によるエラーへの対応を説明する図である。 エラーが発生していないアドレス・クロスバ30におけるモード変更を実現させる他の方法を説明する図である(その1)。 エラーが発生していないアドレス・クロスバ30におけるモード変更を実現させる他の方法を説明する図である(その1)。 クロスバにより複数のユニットを接続したコンピュータの構成を説明する図である。 アドレス・クロスバ3#1にエラーが発生した場合に、従来のコンピュータ各部が実行する処理の流れを示すフローチャートである。
符号の説明
10 システムボード
11、21、31 LSI
20 IOユニット
30 グローバル・アドレス・クロスバ
32 構成設定レジスタ
33、51 制御部
34 エラーレジスタ
35 エラー処理部
50 マネージメントボード
52 レジスタ

Claims (6)

  1. 1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを実装可能なユニットとするデータ処理装置において、
    前記ユニット間の接続に採用された、複数モードで動作可能な複数のクロスバと、
    前記複数のクロスバを2重化のための第1のモードで動作させていた場合に、該複数のクロスバのうちの一つに発生したエラーにより、該エラーが影響する他のクロスバのモード設定を該第1のモードから独立に動作させるための第2のモードに変更するモード変更手段と、
    を具備することを特徴とするデータ処理装置。
  2. 前記モード変更手段は、前記複数のクロスバのなかでエラーが発生したクロスバから、該エラーの発生を通知するエラー通知信号を受信し、前記他のクロスバに、前記第1のモードから前記第2のモードに変更するための設定信号を送信することにより、該他のクロスバのモード変更を行う、
    ことを特徴とする請求項1記載のデータ処理装置。
  3. 前記モード変更手段は、前記複数のクロスバのなかでエラーが発生したクロスバから、該エラーの発生を通知する信号を前記他のクロスバに送信させ、該他のクロスバにモード変更を行わせることにより実現させている、
    ことを特徴とする請求項1記載のデータ処理装置。
  4. 1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを実装可能なユニットとするデータ処理装置に搭載される装置であって、
    前記ユニット間の接続に採用された、複数モードで動作可能な複数のクロスバとそれぞれ送受信可能な送受信手段と、
    2重化のための第1のモードで動作していた前記複数のクロスバのうちの一つから、エラーの発生を通知するエラー通知信号を前記送受信手段が受信した場合に、該エラーが影響する他のクロスバのモード設定を該第1のモードから独立に動作させるための第2のモードに変更するための設定信号を前記送受信手段により送信させて、該他のクロスバのモード変更を行うモード制御手段と、
    を具備することを特徴とするモード管理装置。
  5. 1つ以上のCPUを搭載したシステムボード、及び周辺装置との接続用のIOユニットを実装可能なユニットとするデータ処理装置に該ユニット間の接続に採用されたクロスバのモード管理に用いられる方法であって、
    前記ユニット間の接続に複数のクロスバを配置し、該複数のクロスバを2重化のための第1のモードで動作させ、
    前記複数のクロスバのうちの一つに発生したエラーにより、該エラーが影響する他のクロスバのモード設定を前記第1のモードから独立に動作させるための第2のモードにモード変更する、
    ことを特徴とするモード管理方法。
  6. それぞれが処理部を搭載する複数の処理ユニットと、
    それぞれが前記複数の処理ユニットに接続され、前記複数の処理ユニット間のデータ転送に介在する、動作モードが二重化モードと一重化モードとに切り替えられる、二重化された複数のクロスバユニットと、
    前記二重化された複数のクロスバユニットのうちいずれか一方にエラーが発生した場合、動作モードを二重化モードから一重化モードに切り替える指示を他方のクロスバユニットに送出するモード変更手段と、を備えたことを特徴とするデータ処理装置。
JP2006223663A 2006-08-18 2006-08-18 データ処理装置、モード管理装置、及びモード管理方法 Expired - Fee Related JP4755050B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2006223663A JP4755050B2 (ja) 2006-08-18 2006-08-18 データ処理装置、モード管理装置、及びモード管理方法
DE200760002956 DE602007002956D1 (de) 2006-08-18 2007-04-26 Datenverarbeitungsverwaltungsvorrichtung, Modusverwaltungsvorrichtung und Modusverwaltungsverfahren
EP20070106998 EP1890439B1 (en) 2006-08-18 2007-04-26 Data processing management apparatus, mode management apparatus and mode management method
US11/741,993 US7823027B2 (en) 2006-08-18 2007-04-30 Data processing management apparatus, mode management apparatus and mode management method
CN2007101041704A CN101126994B (zh) 2006-08-18 2007-05-21 数据处理装置及其模式管理装置以及模式管理方法
KR20070049764A KR100936203B1 (ko) 2006-08-18 2007-05-22 데이터 처리 장치, 모드 관리 장치 및 모드 관리 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006223663A JP4755050B2 (ja) 2006-08-18 2006-08-18 データ処理装置、モード管理装置、及びモード管理方法

Publications (2)

Publication Number Publication Date
JP2008046996A true JP2008046996A (ja) 2008-02-28
JP4755050B2 JP4755050B2 (ja) 2011-08-24

Family

ID=38669390

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006223663A Expired - Fee Related JP4755050B2 (ja) 2006-08-18 2006-08-18 データ処理装置、モード管理装置、及びモード管理方法

Country Status (6)

Country Link
US (1) US7823027B2 (ja)
EP (1) EP1890439B1 (ja)
JP (1) JP4755050B2 (ja)
KR (1) KR100936203B1 (ja)
CN (1) CN101126994B (ja)
DE (1) DE602007002956D1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011036727A1 (ja) 2009-09-25 2011-03-31 富士通株式会社 メモリシステム及びメモリシステムの制御方法
WO2012032653A1 (ja) * 2010-09-10 2012-03-15 富士通株式会社 処理システム,通信装置および処理装置
WO2014002174A1 (ja) * 2012-06-25 2014-01-03 富士通株式会社 情報処理装置および情報処理装置の故障検出方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101250881B1 (ko) * 2011-04-07 2013-04-04 주식회사 넥스알 클라우드 컴퓨팅의 블럭 스토리지 서비스의 데이터 이중화 방법
KR102210408B1 (ko) * 2014-03-26 2021-01-29 에스케이텔레콤 주식회사 가상화 서버의 이중화를 위한 제어 방법 및 이를 위한 가상화 제어 장치
US9501222B2 (en) 2014-05-09 2016-11-22 Micron Technology, Inc. Protection zones in virtualized physical addresses for reconfigurable memory systems using a memory abstraction

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000013407A (ja) * 1998-05-29 2000-01-14 Internatl Business Mach Corp <Ibm> 交換システム及び交換モジュ―ル
US6195351B1 (en) * 1998-01-28 2001-02-27 3Com Corporation Logical switch set
JP2001127828A (ja) * 1999-10-29 2001-05-11 Fujitsu Ltd Adslモデム
JP2001256203A (ja) * 2000-03-09 2001-09-21 Nec Corp 冗長構成クロスバスイッチシステム
JP2003178045A (ja) * 2001-09-25 2003-06-27 Sun Microsyst Inc システム・ドメインを対象とした構成可能な相互接続
JP2003178044A (ja) * 2001-09-25 2003-06-27 Sun Microsyst Inc 動的再構成が可能な相互接続
JP2005196683A (ja) * 2004-01-09 2005-07-21 Hitachi Ltd 情報処理システム、情報処理装置、及び情報処理システムの制御方法
JP2005302020A (ja) * 2004-04-06 2005-10-27 Hewlett-Packard Development Co Lp コアレベルプロセッサのロックステップ
JP2006039897A (ja) * 2004-07-27 2006-02-09 Nec Corp マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム
US20060109782A1 (en) * 2004-11-25 2006-05-25 Ra Yongwook Apparatus and method for redundancy control of duplex switch board

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4627054A (en) 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US4644353A (en) * 1985-06-17 1987-02-17 Intersil, Inc. Programmable interface
EP0598027A1 (en) * 1991-08-05 1994-05-25 Honeywell Inc. Crossbar with return net for scalable self-routing non-blocking message switching and routing system
JP2529081B2 (ja) 1993-09-01 1996-08-28 財団法人工業技術研究院 耐酸化性ポリフェニレンスルフィド系組成物の製造法
US5754865A (en) * 1995-12-18 1998-05-19 International Business Machines Corporation Logical address bus architecture for multiple processor systems
CA2347556A1 (en) * 2001-05-10 2002-11-10 Bombardier Inc. Unknown
JP2005267502A (ja) * 2004-03-22 2005-09-29 Hitachi Ltd データ転送用スイッチ

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195351B1 (en) * 1998-01-28 2001-02-27 3Com Corporation Logical switch set
JP2000013407A (ja) * 1998-05-29 2000-01-14 Internatl Business Mach Corp <Ibm> 交換システム及び交換モジュ―ル
JP2001127828A (ja) * 1999-10-29 2001-05-11 Fujitsu Ltd Adslモデム
JP2001256203A (ja) * 2000-03-09 2001-09-21 Nec Corp 冗長構成クロスバスイッチシステム
JP2003178045A (ja) * 2001-09-25 2003-06-27 Sun Microsyst Inc システム・ドメインを対象とした構成可能な相互接続
JP2003178044A (ja) * 2001-09-25 2003-06-27 Sun Microsyst Inc 動的再構成が可能な相互接続
JP2005196683A (ja) * 2004-01-09 2005-07-21 Hitachi Ltd 情報処理システム、情報処理装置、及び情報処理システムの制御方法
JP2005302020A (ja) * 2004-04-06 2005-10-27 Hewlett-Packard Development Co Lp コアレベルプロセッサのロックステップ
JP2006039897A (ja) * 2004-07-27 2006-02-09 Nec Corp マルチノードシステム、ノード間クロスバスイッチ、ノード、スイッチプログラム及びノードプログラム
US20060109782A1 (en) * 2004-11-25 2006-05-25 Ra Yongwook Apparatus and method for redundancy control of duplex switch board

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011036727A1 (ja) 2009-09-25 2011-03-31 富士通株式会社 メモリシステム及びメモリシステムの制御方法
JP5348248B2 (ja) * 2009-09-25 2013-11-20 富士通株式会社 メモリシステム及びメモリシステムの制御方法
US8667228B2 (en) 2009-09-25 2014-03-04 Fujitsu Limited Memory system and method for controlling memory system
WO2012032653A1 (ja) * 2010-09-10 2012-03-15 富士通株式会社 処理システム,通信装置および処理装置
JP5365747B2 (ja) * 2010-09-10 2013-12-11 富士通株式会社 処理システム,通信装置および処理装置
US8972619B2 (en) 2010-09-10 2015-03-03 Fujitsu Limited Processing system, communication apparatus, and processing apparatus
WO2014002174A1 (ja) * 2012-06-25 2014-01-03 富士通株式会社 情報処理装置および情報処理装置の故障検出方法
JPWO2014002174A1 (ja) * 2012-06-25 2016-05-26 富士通株式会社 情報処理装置および情報処理装置の故障検出方法
US9891981B2 (en) 2012-06-25 2018-02-13 Fujitsu Limited Information processing apparatus and switch failure detection method

Also Published As

Publication number Publication date
JP4755050B2 (ja) 2011-08-24
KR20080016438A (ko) 2008-02-21
EP1890439A1 (en) 2008-02-20
US20080046629A1 (en) 2008-02-21
CN101126994B (zh) 2010-08-18
EP1890439B1 (en) 2009-10-28
US7823027B2 (en) 2010-10-26
DE602007002956D1 (de) 2009-12-10
KR100936203B1 (ko) 2010-01-11
CN101126994A (zh) 2008-02-20

Similar Documents

Publication Publication Date Title
US7334070B2 (en) Multi-channel memory architecture for daisy chained arrangements of nodes with bridging between memory channels
US7873773B2 (en) Multi-node architecture with daisy chain communication link configurable to operate in unidirectional and bidirectional modes
KR100806447B1 (ko) 단방향 링크를 가지는 메모리 채널
US6131169A (en) Reliability of crossbar switches in an information processing system
KR100806446B1 (ko) 비트 레인 장애극복을 가지는 메모리 채널
KR100806445B1 (ko) 핫 추가/제거 기능을 갖춘 메모리 채널
JP4331756B2 (ja) 一部のフレームについての早期crc供給
US8880768B2 (en) Storage controller system with data synchronization and method of operation thereof
US7633856B2 (en) Multi-node system, internodal crossbar switch, node and medium embodying program
US8924772B2 (en) Fault-tolerant system and fault-tolerant control method
US20060161714A1 (en) Method and apparatus for monitoring number of lanes between controller and PCI Express device
JP2007514216A (ja) 可変マッピングを備えたレーン検査
JPH11232237A (ja) クロスバースイッチを有する情報処理装置およびクロスバースイッチ制御方法
JP4755050B2 (ja) データ処理装置、モード管理装置、及びモード管理方法
JP2006244258A (ja) シリアルコネクトバスを使用したコンピュータシステム及び複数cpuユニットのシリアルコネクトバスによる接続方法
KR20060029221A (ko) 치환 상태 패턴을 이용하는 메모리 채널
JP2007280313A (ja) 冗長化システム
CN115408318A (zh) 高速外围组件互连装置及其操作方法
JP2010136038A (ja) 伝送装置及び冗長構成部の系切替え方法
US8639967B2 (en) Controlling apparatus, method for controlling apparatus and information processing apparatus
JP5145860B2 (ja) メモリ二重化システム及び情報処理装置
JP2006309292A (ja) サーバ装置、サーバシステム、及びサーバシステムでの系切り換え方法
JP2018050172A (ja) 情報処理装置、演算処理装置、及び情報処理装置の制御方法
CN113282231B (zh) 存储装置以及相关闪存控制器
US20220382696A1 (en) Peripheral component interconnect express device and operating method thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110526

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4755050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees