JPH1027115A

JPH1027115A - コンピュータシステムの障害情報採取回路

Info

Publication number: JPH1027115A
Application number: JP8181878A
Authority: JP
Inventors: Makoto Okajima; 眞岡島
Original assignee: NEC Engineering Ltd
Current assignee: NEC Engineering Ltd
Priority date: 1996-07-11
Filing date: 1996-07-11
Publication date: 1998-01-27

Abstract

(57)【要約】【課題】膨大なハードウェアを必要とすることなく、
障害情報の採取時間を短縮する。【解決手段】エラー検出回路２１はチェック回路２６
から障害発生が通知されると、上位装置１の診断制御装
置１１に障害割込みを出力し、エラー収集指示を出力す
る。バッファ制御回路２４はエラー収集指示が入力され
ると、エラー収集回路２３で収集された障害情報をデー
タバッファ２８に書込むよう制御する。診断制御装置１
１は障害割込みが入力されると、予め設定された一定時
間後にリセット指示を出力する。バッファ制御回路２４
は下位装置２のリセット直後にデータバッファ２８内の
障害情報を主記憶装置１３の障害情報専用エリアに通常
のデータ転送と同じ方法で転送するよう制御する。診断
制御装置１１はリセット指示を出力してから所定時間後
に主記憶装置１３から障害情報を読出す。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はコンピュータシステ
ムの障害情報採取回路に関し、特に複数のコンピュータ
システム各々の主記憶装置を互いに共有させることによ
って接続するクラスタシステムの接続装置（フルクロス
スイッチング装置）において障害が発生した場合の障害
情報採取方式に関する。

【０００２】

【従来の技術】従来、この種の障害情報採取方式におい
ては、図５に示すように、上位装置５に診断制御装置５
１と主記憶制御装置５２と主記憶装置５３とを備え、下
位装置６にエラー収集回路６１と入力レジスタ６２とチ
ェック回路６３とバッファ制御回路６４とデータバッフ
ァ６５とを備えている。

【０００３】診断制御装置５１は下位装置６からの障害
情報採取や下位装置６のリセット／立上げを行い、障害
情報の番地を示すアドレス５１１のエラー収集回路６１
への送出や下位装置６を再立上げするためのリセット指
示５１２の出力を行う。主記憶制御装置５２は主記憶装
置５３に対する読出し書込みを制御する。

【０００４】エラー収集回路６１は下位装置６内部の障
害情報（ＬＯＧともいう）を集め、障害情報採取用の専
用パスである障害データ６１１を介して上位装置５に一
定量ずつ（主記憶装置５３の番地毎に）転送する。チェ
ック回路６３は下位装置６内部のハードウェア故障を検
出し、障害割込み６３１によって障害発生を上位装置５
に通知する。バッファ制御回路６４は入力レジスタ６２
のデータのデータバッファ６５への書込みと、データバ
ッファ６５からのデータの読出しと、データバッファ６
５から読出したデータの主記憶装置５３への転送とを夫
々制御する。

【０００５】上記の構成において、上位装置５から下位
装置６にデータを転送している時に下位装置６内部で障
害が発生すると、例えばデータ転送中に入力レジスタ６
２が故障すると、チェック回路６３はその故障を検出
し、障害割込み６３１によって障害発生を上位装置５の
診断制御装置５１に通知する。

【０００６】診断制御装置５１はチェック回路６３から
の障害割込み６３１が入力されると、下位装置６の障害
情報を採取するためにエラー収集回路６１に送出するア
ドレス５１１のアドレスを“０”（ワード０）にする。
すると、エラー収集回路６１はアドレス“０”に対応す
る障害情報を障害データ６１１に乗せて診断制御装置５
１に送出する。

【０００７】診断制御装置５１はワード０のデータを採
取すると、エラー収集回路６１に送出するアドレス５１
１のアドレスを“１”（ワード１）とし、上記と同様に
して、ワード１のデータを採取する。診断制御装置５１
はこの操作を繰返し行って全ての障害情報を採取する
と、リセット指示５１２を下位装置６に出力し、下位装
置６の再立上げを行う。

【０００８】

【発明が解決しようとする課題】上述した従来の障害情
報採取方式では、上位装置が下位装置の障害情報をワー
ド単位にアドレスを切替えて読出しているので、障害情
報の採取に時間がかかってしまう。

【０００９】また、上位装置が下位装置の障害情報を採
取する際に使用する診断パスは、コンピュータシステム
における本来の目的（演算等）のために用意されている
ものではないため、診断パスに膨大なハードウェアを費
やすことができない。そのため、一般的な診断系のパス
はシステムバス（データパス）に比べてかなり小規模な
ものとなるので、障害情報の採取に時間がかかる原因に
もなっている。

【００１０】さらに、障害情報の収集用の専用パスとし
てアドレス線や障害データ線を必要とするので、特にユ
ニット間が離れている装置（上位装置と下位装置との間
が離れているコンピュータシステム等）ではこれらの専
用パスを設置しなければならず、膨大なハードウェアを
必要とする。

【００１１】そこで、本発明の目的は上記の問題点を解
消し、膨大なハードウェアを必要とすることなく、障害
情報の採取時間を短縮することができるコンピュータシ
ステムの障害情報採取回路を提供することにある。

【００１２】

【課題を解決するための手段】本発明によるコンピュー
タシステムの障害情報採取回路は、主記憶装置と、前記
主記憶装置との間で専用のデータパスを介してデータの
授受を行う処理装置とを含むコンピュータシステムの障
害情報採取回路であって、前記主記憶装置との間のデー
タ授受に用いるデータバッファと、自装置の故障を検出
する検出手段と、前記検出手段により前記故障が検出さ
れたことを保持する保持手段と、前記検出手段により前
記故障が検出された時に自装置内部の障害情報を収集す
る収集手段と、前記収集手段が収集した前記障害情報を
前記データバッファに書込む書込み手段と、自装置のリ
セット直後に前記データバッファに書込まれた前記障害
情報を前記専用のデータパスを介して前記主記憶装置の
予め設定された領域に転送する手段とを前記処理装置に
有することを特徴とする障害情報採取回路。

【００１３】本発明による他のコンピュータシステムの
障害情報採取回路は、上記の構成のほかに、前記検出手
段から前記故障の検出が通知されてから予め設定された
所定時間後に前記処理装置にリセット指示を与える手段
と、前記処理装置に前記リセット指示を与えてから予め
設定された一定時間後に前記主記憶装置の前記領域から
前記障害情報を読取る手段とを具備している。

【００１４】本発明による別のコンピュータシステムの
障害情報採取回路は、主記憶装置と、前記主記憶装置と
の間で専用のデータパスを介してデータの授受を行う処
理装置と、前記処理装置の診断を行う診断制御装置とを
含むコンピュータシステムの障害情報採取回路であっ
て、前記主記憶装置との間のデータ授受に用いるデータ
バッファと、自装置の故障を検出する検出手段と、前記
検出手段により前記故障が検出されたことを保持する保
持手段と、前記検出手段により前記故障が検出された時
に自装置内部の障害情報を収集する収集手段と、前記収
集手段が収集した前記障害情報を前記データバッファに
書込む書込み手段と、自装置のリセット直後に前記デー
タバッファに書込まれた前記障害情報を前記専用のデー
タパスを介して前記主記憶装置の予め設定された領域に
転送する手段とを前記処理装置に備え、前記検出手段か
ら前記故障の検出が通知されてから予め設定された所定
時間後に前記処理装置にリセット指示を与える手段と、
前記処理装置に前記リセット指示を与えてから予め設定
された一定時間後に前記主記憶装置の前記領域から前記
障害情報を読取る手段とを前記診断制御装置に備えてい
る。

【００１５】本発明によるさらに別のコンピュータシス
テムの障害情報採取回路は、複数の主記憶装置と、前記
複数の主記憶装置各々に対応して設けられかつ前記複数
の主記憶装置を互いに共有する複数の処理装置と、互い
に対応する前記主記憶装置と前記処理装置との間でデー
タの授受を行うための専用の複数のデータパスと、前記
複数の処理装置のうちの対応する前記処理装置の診断を
行う複数の診断制御装置とを含むコンピュータシステム
の障害情報採取回路であって、対応する前記主記憶装置
との間のデータ授受に用いるデータバッファと、自装置
の故障を検出する検出手段と、前記検出手段により前記
故障が検出されたことを保持する保持手段と、前記検出
手段により前記故障が検出された時に自装置内部の障害
情報を収集する収集手段と、前記収集手段が収集した前
記障害情報を前記データバッファに書込む書込み手段
と、自装置のリセット直後に前記データバッファに書込
まれた前記障害情報を前記専用のデータパスを介して対
応する前記主記憶装置の予め他装置と共通に設定された
共通領域に転送する手段とを前記処理装置に備え、前記
検出手段から前記故障の検出が通知されてから予め設定
された所定時間後に前記処理装置にリセット指示を与え
る手段と、対応する前記処理装置に前記リセット指示を
与えてから予め設定された一定時間後に前記複数の主記
憶装置各々の前記共通領域から前記障害情報を読取る手
段とを前記複数の診断制御装置各々に備えている。

【００１６】

【発明の実施の形態】まず、本発明の作用について以下
に述べる。

【００１７】本発明による障害情報採取回路は上位装置
と下位装置との間に障害情報転送用の専用パスを設置す
ることなく、上位装置と下位装置との間に設けられた通
常のデータ転送用のパスを介して障害情報を採取してい
る。

【００１８】すなわち、故障が検出されると、その故障
による通常運転が不可能となるために通常のデータ転送
を中止し、故障が発生した装置内部の障害情報を、通常
のデータ転送用のパスに接続されたデータバッファに格
納して当該装置の運転を停止する。

【００１９】障害の規模によってリセット範囲は異なる
が、故障ユニットをリセットした直後にデータバッファ
に格納しておいた障害情報を上位装置の主記憶装置の障
害情報専用エリアに通常のデータと同じ転送方法で転送
し、診断制御装置がその障害情報専用エリアから障害情
報を読出すことで障害情報の採取を実現している。

【００２０】これによって、通常のデータパスの使用し
て障害情報を採取することができるので、障害情報を高
速に転送することができ、障害情報の採取時間を従来よ
りも短縮することができると共に、障害復旧時間をも短
縮することができる。

【００２１】また、障害情報採取用の専用パスが不要と
なるので、上位装置と下位装置との間の距離が離れてい
ても、ハードウェアの増加を招くことなく、短時間での
障害情報の採取を実現することができ、特に特にユニッ
ト間が離れている装置に対して有効となる。したがっ
て、近年、光ケーブル技術等の向上によってユニット間
の距離がかなり離れたコンピュータの分野においても、
短時間での障害情報の採取を実現することができる。

【００２２】次に、本発明の実施例について図面を参照
して説明する。図１は本発明の一実施例の構成を示すブ
ロック図である。図において、上位装置１は診断制御装
置１１と主記憶制御装置１２と主記憶装置１３とを備
え、下位装置２はエラー収集回路２１とエラー検出フラ
グ２２とエラー収集回路２３とバッファ制御回路２４と
入力レジスタ２５とチェック回路２６とセレクタ２７と
データバッファ２８とを備えている。

【００２３】診断制御装置１１は下位装置２からの障害
情報採取や下位装置２のリセット／立上げを行い、下位
装置２のエラー検出回路２１からの障害割込み２００を
受付けると、予め設定された一定時間後にリセット指示
１０１を下位装置２に出力し、その時刻からさらに所定
時間後に主記憶装置１３から障害情報を読取る機能を持
つ。

【００２４】主記憶制御装置１２は主記憶装置１３に対
する通常動作の主記憶アクセスや診断制御装置１１から
のアクセスを制御する。主記憶装置１３は上記の上位装
置１及び下位装置２からなるコンピュータシステムのメ
インメモリである。

【００２５】エラー検出回路２１は障害が発生すると、
その障害の詳細情報を記憶すると同時に下位装置２の内
部をホールドし、エラーデータの伝搬を防止する。ま
た、エラー検出回路２１は上位装置１の診断制御装置１
１に障害割込み２００を出力するとともに、エラー検出
フラグ２２及びエラー収集回路２３にエラー収集指示２
０１を出力する。

【００２６】エラー検出フラグ２２にはエラー検出回路
２１からのエラー収集指示２０１によって検出情報がセ
ットされ、バッファ制御回路２４からの転送完了信号２
０５によって検出情報がリセットされる。下位装置２内
のハードウェアは診断制御装置１１からのリセット指示
１０１によって全てリセットされるが、エラー検出フラ
グ２２及びデータバッファ２８は診断制御装置１１から
下位装置２にリセット指示１０１が入力されてもリセッ
トされない。

【００２７】エラー収集回路２３は下位装置２内部の障
害情報を収集し、その収集した障害情報２０４をセレク
タ２７に出力すると共に、その障害情報２０４を格納す
べきアドレスをエラー情報書込みアドレス２０３として
バッファ制御回路２４に出力する。

【００２８】バッファ制御回路２４はデータバッファ２
８に対する読出し及び書込みを制御し、エラー検出回路
２１からのエラー収集指示２０１が“０”の時に通常論
理によるバッファアクセスを行うよう制御し、エラー収
集指示２０１が“１”の時にエラー収集回路２３で収集
された障害情報２０４をエラー情報書込みアドレス２０
３で示されるデータバッファ２８のアドレスに書込むよ
う制御する。

【００２９】また、バッファ制御回路２４は下位装置２
のリセット直後にエラー検出フラグ２２からのエラー検
出情報２０２が“１”の時にデータバッファ２８内の障
害情報を主記憶装置１３に転送するよう制御し、主記憶
装置１３への転送が完了すると、転送完了信号２０５を
出力してエラー検出フラグ２２をリセットするよう制御
する。

【００３０】入力レジスタ２５は上位装置１からのデー
タを受信すると、そのデータをセレクタ２７に送出す
る。チェック回路２６は入力レジスタ２５からセレクタ
２７に送出されるデータをパリティチェック方式あるい
はＥＣＣ（ＥｒｒｏｒＣｈｅｃｋｉｎｇａｎｄＣ
ｏｒｒｅｃｔｉｏｎ）方式等でチェックし、入力レジス
タ２５の故障を検出する。

【００３１】セレクタ２７はエラー検出回路２１からの
エラー収集指示２０１が“０”の時に入力レジスタ２５
からの通常のデータを選択してデータバッファ２８に出
力し、エラー検出回路２１からのエラー収集指示２０１
が“１”の時にエラー収集回路２３からの障害情報２０
４を選択してデータバッファ２８に出力する。

【００３２】この図１を用いて本発明の一実施例の動作
について説明する。以下、データパス１０３を介して上
位装置１と下位装置２との間でデータ転送中に入力レジ
スタ２５が故障した場合について説明する。

【００３３】入力レジスタ２５が故障すると、チェック
回路２６がエラーを検出してエラー検出回路２１への障
害発生２０６を“１”とする。エラー検出回路２１はチ
ェック回路２６からの障害発生２０６が“１”になる
と、エラーの詳細情報を記憶すると同時に下位装置２内
部をホールドし、上位装置１の診断制御装置１１に障害
割込み２００を出力すると共に、エラー検出フラグ２２
とエラー収集回路２３とバッファ制御回路２４とにエラ
ー収集指示２０１を出力する。

【００３４】エラー検出フラグ２２にはエラー検出回路
２１からのエラー収集指示２０１によって検出情報がセ
ットされる。エラー収集回路２３はエラー検出回路２１
からエラー収集指示２０１が入力されると、下位装置２
内部の障害情報を収集し、その収集した障害情報２０４
をセレクタ２７に出力すると共に、その障害情報２０４
を格納すべきアドレスをエラー情報書込みアドレス２０
３としてバッファ制御回路２４に出力する。

【００３５】バッファ制御回路２４はエラー収集指示２
０１が“１”の時、セレクタ２７を介してデータバッフ
ァ２８に入力されるエラー収集回路２３からの障害情報
２０４を、エラー収集回路２３からのエラー情報書込み
アドレス２０３で示されるアドレスに書込むよう制御す
る。

【００３６】一方、診断制御装置１１はエラー検出回路
２１から障害割込み２００が入力されると、予め設定さ
れた一定時間後に、つまり下位装置２において障害情報
をデータバッファ２８に格納するのに必要な時間を十分
待ってからリセット指示１０１を出力する。

【００３７】下位装置２は診断制御装置１１からリセッ
ト指示１０１を受取ると、エラー検出フラグ２２及びデ
ータバッファ２８を除く装置内のハードウェアを全てリ
セットする。尚、データバッファ２８は通常ＲＡＭ（ラ
ンダムアクセスメモリ）で構成されており、“０”を書
込まないとリセットされないハードウェアである。

【００３８】下位装置２のリセット直後にはエラー検出
フラグ２２が“１”にセットされたままなので、バッフ
ァ制御回路２４はデータバッファ２８内の障害情報を主
記憶装置１３の予め設定された障害情報専用エリア（図
示せず）に通常のデータ転送と同じ方法で、つまり通常
のデータパス２０８を介して転送するよう制御する。ま
た、バッファ制御回路２４は主記憶装置１３への障害情
報の転送が完了すると、転送完了信号２０５を出力して
エラー検出フラグ２２をリセットする。

【００３９】診断制御装置１１はリセット指示１０１を
下位装置２に出力すると、その出力時刻からさらに予め
設定された所定時間後に主記憶装置１３の障害情報専用
エリアからデータパス１０３を介して障害情報を読出す
ことによって障害情報を採取する。

【００４０】図２は図１のエラー検出回路２１、エラー
収集回路２３、チェック回路２６各々の詳細な構成を示
すブロック図である。図において、エラー検出回路２１
は障害表示レジスタ２１ａと論理和回路２１ｂとから構
成され、エラー収集回路２３はカウンタ２３ａとセレク
タ２３ｂとから構成され、チェック回路２６はレジスタ
２５ａ，２５ｂ各々に対応するチェック回路２６ａ，２
６ｂから構成されている。

【００４１】障害表示レジスタ２１ａはエラーの詳細情
報を記憶し、その詳細情報をエラー収集回路２３に出力
するとともに、詳細情報の各ビットを夫々論理和回路２
１ｂに出力する。

【００４２】論理和回路２１ｂは障害表示レジスタ２１
ａからの詳細情報の各ビットのうちいずれかがセットさ
れると、エラー収集指示２０１として“１”を出力し、
ファーストイベントホールドで障害情報を持っているレ
ジスタ類をホールドする。

【００４３】カウンタ２３ａは論理和回路２１ｂからの
エラー収集指示２０１が“１”になるとカウントアップ
を開始し、そのカウント値をセレクタ２３ｂに出力する
と共に、そのカウント値をエラー情報書込みアドレス２
０３としてバッファ制御回路２４に出力する。

【００４４】セレクタ２３ｂはカウンタ２３ａからのカ
ウント値に応じて、障害表示レジスタ２１ａからの詳細
情報やレジスタ２５ａ，２５ｂの情報を切替えて障害情
報２０４として出力する。その際、セレクタ２３ｂがそ
の切替え動作をワード単位に行うよう構成しておけば、
障害情報２０４はワード単位にデータバッファ２８に書
込まれる。

【００４５】この図２を用いてエラー検出回路２１、エ
ラー収集回路２３、チェック回路２６各々の動作につい
て説明する。尚、レジスタ２５ａ，２５ｂは図１の入力
レジスタ２５に対応するものとする。

【００４６】まず、レジスタ２５ｂで故障が発生する
と、その故障がチェック回路２６ｂで検出され、障害表
示レジスタ２１ａのチェック回路２６ｂに対応するビッ
トが“１”となる。

【００４７】そのビットが“１”となることによって、
論理和回路２１ｂはエラー収集指示２０１として“１”
を出力し、ファーストイベントホールドで障害情報を持
っているレジスタ類（レジスタ２５ａ，２５ｂ等）をホ
ールドする。この場合、エラー検出フラグ２２には
“１”がセットされる。

【００４８】カウンタ２３ａは論理和回路２１ｂからの
エラー収集指示２０１が“１”になるとカウントアップ
を開始し、そのカウント値をセレクタ２３ｂに出力する
と共に、そのカウント値をエラー情報書込みアドレス２
０３としてバッファ制御回路２４に出力する。

【００４９】セレクタ２３ｂはカウンタ２３ａからのカ
ウント値に応じて、障害表示レジスタ２１ａからの詳細
情報やレジスタ２５ａ，２５ｂの情報を切替えて障害情
報２０４として出力する。この障害情報２０４はバッフ
ァ制御回路２４の制御によってセレクタ２７を介してデ
ータバッファ２８に順次書込まれる。

【００５０】障害情報２０４のデータバッファ２８への
格納が終了した後に、上位装置１からリセット指示１０
１が入力されると、エラー検出フラグ２２及びデータバ
ッファ２８を除くハードウェア全てが、図２の場合、障
害表示レジスタ２１ａとカウンタ２３ａとレジスタ２５
ａ，２５ｂとが夫々リセットされる。

【００５１】図３は図１のバッファ制御回路２４の詳細
な構成を示すブロック図である。図において、バッファ
制御回路２４はセレクタ２４ａ，２４ｂと、カウンタ２
４ｃと、フリップフロップ（以下、Ｆ／Ｆとする）２４
ｄ，２４ｆと、論理積回路２４ｅ，２４ｇと、論理比較
器２４ｈとから構成されている。

【００５２】Ｆ／Ｆ２４ｄ，２４ｆはリセット指示１０
１の立下りを検出するためのもので、Ｆ／Ｆ２４ｄ及び
論理積回路２４ｅによってリセット指示１０１の立下り
が検出されると、Ｆ／Ｆ２４ｆには“１”がセットされ
る。つまり、Ｆ／Ｆ２４ｄ及び論理積回路２４ｅはリセ
ット指示１０１の後縁微分をとってその立下りを検出す
る。

【００５３】カウンタ２４ｃはデータバッファ２８に格
納された障害情報を順次上位装置１に転送するためのも
のである。論理比較器２４ｈはカウンタ２４ｃのカウン
ト値が障害情報量に達すると、転送完了信号２０５とし
て“１”を出力する。

【００５４】セレクタ２４ａはエラー検出回路２１から
のエラー収集指示２０１に応じて、エラー情報書込みア
ドレス２０３と一般論理とを切替えてデータバッファ２
８に書込みアドレスＷＡとして出力する。

【００５５】セレクタ２４ｂはエラー検出フラグ２２か
らのエラー検出情報２０２に応じて、カウンタ２４ｃの
カウント値と一般論理とを切替えてデータバッファ２８
に読出しアドレスＲＡとして出力する。

【００５６】この図３を用いてバッファ制御回路２４の
動作について説明する。まず、通常動作中にエラー収集
指示２０１が“１”になると、セレクタ２４ａは一般論
理からエラー情報書込みアドレス２０３に切替えて書込
みアドレスＷＡとしてデータバッファ２８に出力する。
これによって、データバッファ２８にはエラー収集回路
２３からの障害情報２０４が書込まれる。

【００５７】この障害情報２０４がデータバッファ２８
に格納された後に、上位装置１からリセット指示１０１
が入力されると、Ｆ／Ｆ２４ｄ及び論理積回路２４ｅに
よってリセット指示１０１の立下りが検出され、Ｆ／Ｆ
２４ｆには“１”がセットされる。

【００５８】このとき、エラー検出フラグ２２からのエ
ラー検出情報２０２が“１”であれば、論理積回路２４
ｇからカウンタ２４ｃに“１”が出力されるので、カウ
ンタ２４ｃはカウントアップする。

【００５９】また、セレクタ２４ｂはエラー検出フラグ
２２からのエラー検出情報２０２が“１”なると、一般
論理からカウンタ２４ｃのカウント値に切替えてデータ
バッファ２８に読出しアドレスＲＡとして出力する。よ
って、データバッファ２８に格納された障害情報が読出
しアドレスＲＡによって読出されて上位装置１に転送さ
れる。

【００６０】論理比較器２４ｈはカウンタ２４ｃのカウ
ント値が障害情報量に達すると、転送完了信号２０５と
して“１”を出力する。この転送完了信号２０５が
“１”となることによって、エラー検出フラグ２２はリ
セットされ、同時にＦ／Ｆ２４ｆもリセットされる。

【００６１】図４は本発明の他の実施例の構成を示すブ
ロック図である。図において、本発明の他の実施例によ
る障害情報採取回路は図１に示す本発明の一実施例によ
る障害情報採取回路をフルクロススイッチング装置３に
適用した例を示している。

【００６２】すなわち、複数の上位装置１−１〜１−４
各々はサブ診断制御装置１１−１〜１１−４（サブ診断
制御装置１１−２〜１１−４は図示せず）と、主記憶制
御装置１２−１〜１２−４（主記憶制御装置１２−２〜
１２−４は図示せず）と、主記憶装置１３−１〜１３−
４（主記憶装置１３−２〜１３−４は図示せず）とから
構成されている。尚、上位装置１−１〜１−４各々の各
回路の構成及び動作は図１〜図３に示す本発明の一実施
例と同様である。

【００６３】また、複数の下位装置２−１〜２−４各々
はエラー収集回路２１−１〜２１−４（エラー収集回路
２１−２〜２１−４は図示せず）と、エラー検出フラグ
２２−１〜２２−４（エラー検出フラグ２２−２〜２２
−４は図示せず）と、エラー収集回路２３−１〜２３−
４（エラー収集回路２３−２〜２３−４は図示せず）
と、バッファ制御回路２４−１〜２４−４（バッファ制
御回路２４−１〜２４−４は図示せず）と、入力レジス
タ２５−１〜２５−４（入力レジスタ２５−１〜２５−
４は図示せず）と、チェック回路２６−１〜２６−４
（チェック回路２６−２〜２６−４は図示せず）と、セ
レクタ２７−１〜２７−４（セレクタ２７−２〜２７−
４は図示せず）と、データバッファ２８−１〜２８−４
（データバッファ２８−２〜２８−４は図示せず）とか
ら構成されている。尚、下位装置２−１〜２−４各々の
各回路の構成及び動作は図１〜図３に示す本発明の一実
施例と同様である。

【００６４】上記のフルクロススイッチング装置３の場
合、下位装置２−１〜２−４各々のデータバッファ２８
−１〜２８−４の出力を夫々入力し、それらのうちのい
ずれか一つを対応する上位装置１−１〜１−４の主記憶
装置１３−１〜１３−４に出力するセレクタ３１〜３４
を設け、上位装置１−１〜１−４の主記憶装置１３−１
〜１３−４を互いに共有させる下位装置２−１〜２−４
（フルクロススイッチング装置３）をクロス接続させて
いる。

【００６５】例えば、上位装置１−１の主記憶装置１３
−１のデータを上位装置１−４の主記憶装置１３−４に
送る場合、セレクタ３４は主記憶装置１３−１に対応す
る下位装置２−１のデータバッファ２８−１の出力を選
択して主記憶装置１３−４に転送する。これによって、
主記憶装置１３−１のデータを主記憶装置１３−４に送
ることができる。セレクタ３１〜３４においては他の装
置と組合せることで、上記と同様に、主記憶装置１３−
１〜１３−４間においてデータ転送することができる。

【００６６】尚、図４においては図１の診断制御装置１
１をサブ診断制御装置１１−１〜１１−４としている
が、これは複数のサブ診断制御装置１１−１〜１１−４
を制御するメイン診断制御装置４と区別するためであ
る。メイン診断制御装置４はシステムの電源オン／オフ
や障害情報採取等を行う装置である。

【００６７】上記の構成においては、主記憶装置１３−
１〜１３−４各々に予め下位装置２−１〜２−４各々に
共通して障害情報専用エリア（下位装置２−１〜２−４
各々の障害情報を全て格納可能な容量のエリア）を配設
しており、障害情報採取時に下位装置２−１〜２−４の
データバッファ２８−１〜２８−４から出力される情報
をセレクタ３１〜３４の全てあるいはいずれか一つを用
いて障害情報専用エリアに転送することで、故障してい
ない下位装置に対応する主記憶装置から障害情報を採取
することが可能となる。

【００６８】このように、エラー検出回路２１，２１−
１〜２１−４でエラーが検出された時にエラー収集回路
２３，２３−１〜２３−４で収集した障害情報を主記憶
装置１３，１３−１〜１３−４との間のデータ授受に用
いるデータバッファ２８，２８−１〜２８−４に格納し
ておき、上位装置１，１−１〜１−４からのリセット指
示１０１によってリセットが実行された直後にデータバ
ッファ２８，２８−１〜２８−４から主記憶装置１３，
１３−１〜１３−４の障害情報専用エリアに通常動作の
データ転送と同様の方法で通常動作のデータ転送に用い
る専用のパス２０８を使用して転送することで、通常動
作のデータ転送に用いる専用のパス２０８を使用して障
害情報を採取することができるので、障害情報を高速に
転送することができ、障害情報の採取時間を従来よりも
短縮することができると共に、障害復旧時間をも短縮す
ることができる。

【００６９】また、障害情報採取用の専用パスが不要と
なるので、上位装置１，１−１〜１−４と下位装置２，
２−１〜２−４との間の距離が離れていても、ハードウ
ェアの増加を招くことなく、短時間での障害情報の採取
を実現することができ、特に特にユニット間が離れてい
る装置に対して有効となる。したがって、近年、光ケー
ブル技術等の向上によってユニット間の距離がかなり離
れたコンピュータの分野においても、短時間での障害情
報の採取を実現することができる。

【００７０】

【発明の効果】以上説明したように本発明によれば、主
記憶装置と、主記憶装置との間で専用のデータパスを介
してデータの授受を行う処理装置とを含むコンピュータ
システムの障害情報採取回路において、自装置の故障が
検出された時に収集された自装置内部の障害情報を、主
記憶装置との間のデータ授受に用いるデータバッファに
格納しておき、自装置のリセット直後にデータバッファ
に書込まれた障害情報を上記の専用のデータパスを介し
て主記憶装置の予め設定された領域に転送することによ
って、膨大なハードウェアを必要とすることなく、障害
情報の採取時間を短縮することができるという効果があ
る。

【図面の簡単な説明】

【図１】本発明の一実施例の構成を示すブロック図であ
る。

【図２】図１のエラー検出回路、エラー収集回路、チェ
ック回路各々の詳細な構成を示すブロック図である。

【図３】図１のバッファ制御回路の詳細な構成を示すブ
ロック図である。

【図４】本発明の他の実施例の構成を示すブロック図で
ある。

【図５】従来例の構成を示すブロック図である。

【符号の説明】

１，１−１〜１−４上位装置２，２−１〜２−４下位装置３フルクロススイッチング装置４メイン診断制御装置１１診断制御装置１１−１サブ診断制御装置１２，１２−１主記憶制御装置１３，１３−１主記憶装置２１，２１−１エラー検出回路２２，２２−１エラー検出フラグ２３，２３−１エラー収集回路２４，２４−１バッファ制御回路２５，２５−１入力レジスタ２６，２６−１チェック回路２７，２７−１セレクタ２８，２８−１データバッファ３１〜３４セレクタ

Claims

【特許請求の範囲】

【請求項１】主記憶装置と、前記主記憶装置との間で
専用のデータパスを介してデータの授受を行う処理装置
とを含むコンピュータシステムの障害情報採取回路であ
って、前記主記憶装置との間のデータ授受に用いるデー
タバッファと、自装置の故障を検出する検出手段と、前
記検出手段により前記故障が検出されたことを保持する
保持手段と、前記検出手段により前記故障が検出された
時に自装置内部の障害情報を収集する収集手段と、前記
収集手段が収集した前記障害情報を前記データバッファ
に書込む書込み手段と、自装置のリセット直後に前記デ
ータバッファに書込まれた前記障害情報を前記専用のデ
ータパスを介して前記主記憶装置の予め設定された領域
に転送する手段とを前記処理装置に有することを特徴と
する障害情報採取回路。
【請求項２】前記検出手段から前記故障の検出が通知
されてから予め設定された所定時間後に前記処理装置に
リセット指示を与える手段と、前記処理装置に前記リセ
ット指示を与えてから予め設定された一定時間後に前記
主記憶装置の前記領域から前記障害情報を読取る手段と
を含むことを特徴とする請求項１記載の障害情報採取回
路。
【請求項３】主記憶装置と、前記主記憶装置との間で
専用のデータパスを介してデータの授受を行う処理装置
と、前記処理装置の診断を行う診断制御装置とを含むコ
ンピュータシステムの障害情報採取回路であって、前記主記憶装置との間のデータ授受に用いるデータバッ
ファと、自装置の故障を検出する検出手段と、前記検出
手段により前記故障が検出されたことを保持する保持手
段と、前記検出手段により前記故障が検出された時に自
装置内部の障害情報を収集する収集手段と、前記収集手
段が収集した前記障害情報を前記データバッファに書込
む書込み手段と、自装置のリセット直後に前記データバ
ッファに書込まれた前記障害情報を前記専用のデータパ
スを介して前記主記憶装置の予め設定された領域に転送
する手段とを前記処理装置に有し、前記検出手段から前記故障の検出が通知されてから予め
設定された所定時間後に前記処理装置にリセット指示を
与える手段と、前記処理装置に前記リセット指示を与え
てから予め設定された一定時間後に前記主記憶装置の前
記領域から前記障害情報を読取る手段とを前記診断制御
装置に有することを特徴とする障害情報採取回路。
【請求項４】複数の主記憶装置と、前記複数の主記憶
装置各々に対応して設けられかつ前記複数の主記憶装置
を互いに共有する複数の処理装置と、互いに対応する前
記主記憶装置と前記処理装置との間でデータの授受を行
うための専用の複数のデータパスと、前記複数の処理装
置のうちの対応する前記処理装置の診断を行う複数の診
断制御装置とを含むコンピュータシステムの障害情報採
取回路であって、対応する前記主記憶装置との間のデータ授受に用いるデ
ータバッファと、自装置の故障を検出する検出手段と、
前記検出手段により前記故障が検出されたことを保持す
る保持手段と、前記検出手段により前記故障が検出され
た時に自装置内部の障害情報を収集する収集手段と、前
記収集手段が収集した前記障害情報を前記データバッフ
ァに書込む書込み手段と、自装置のリセット直後に前記
データバッファに書込まれた前記障害情報を前記専用の
データパスを介して対応する前記主記憶装置の予め他装
置と共通に設定された共通領域に転送する手段とを前記
処理装置に有し、前記検出手段から前記故障の検出が通知されてから予め
設定された所定時間後に前記処理装置にリセット指示を
与える手段と、対応する前記処理装置に前記リセット指
示を与えてから予め設定された一定時間後に前記複数の
主記憶装置各々の前記共通領域から前記障害情報を読取
る手段とを前記複数の診断制御装置各々に有することを
特徴とする障害情報採取回路。