JPH1027115A - コンピュータシステムの障害情報採取回路 - Google Patents

コンピュータシステムの障害情報採取回路

Info

Publication number
JPH1027115A
JPH1027115A JP8181878A JP18187896A JPH1027115A JP H1027115 A JPH1027115 A JP H1027115A JP 8181878 A JP8181878 A JP 8181878A JP 18187896 A JP18187896 A JP 18187896A JP H1027115 A JPH1027115 A JP H1027115A
Authority
JP
Japan
Prior art keywords
main storage
failure
fault information
data
circuit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP8181878A
Other languages
English (en)
Inventor
Makoto Okajima
眞 岡島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Engineering Ltd
Original Assignee
NEC Engineering Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Engineering Ltd filed Critical NEC Engineering Ltd
Priority to JP8181878A priority Critical patent/JPH1027115A/ja
Publication of JPH1027115A publication Critical patent/JPH1027115A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】 膨大なハードウェアを必要とすることなく、
障害情報の採取時間を短縮する。 【解決手段】 エラー検出回路21はチェック回路26
から障害発生が通知されると、上位装置1の診断制御装
置11に障害割込みを出力し、エラー収集指示を出力す
る。バッファ制御回路24はエラー収集指示が入力され
ると、エラー収集回路23で収集された障害情報をデー
タバッファ28に書込むよう制御する。診断制御装置1
1は障害割込みが入力されると、予め設定された一定時
間後にリセット指示を出力する。バッファ制御回路24
は下位装置2のリセット直後にデータバッファ28内の
障害情報を主記憶装置13の障害情報専用エリアに通常
のデータ転送と同じ方法で転送するよう制御する。診断
制御装置11はリセット指示を出力してから所定時間後
に主記憶装置13から障害情報を読出す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はコンピュータシステ
ムの障害情報採取回路に関し、特に複数のコンピュータ
システム各々の主記憶装置を互いに共有させることによ
って接続するクラスタシステムの接続装置(フルクロス
スイッチング装置)において障害が発生した場合の障害
情報採取方式に関する。
【0002】
【従来の技術】従来、この種の障害情報採取方式におい
ては、図5に示すように、上位装置5に診断制御装置5
1と主記憶制御装置52と主記憶装置53とを備え、下
位装置6にエラー収集回路61と入力レジスタ62とチ
ェック回路63とバッファ制御回路64とデータバッフ
ァ65とを備えている。
【0003】診断制御装置51は下位装置6からの障害
情報採取や下位装置6のリセット/立上げを行い、障害
情報の番地を示すアドレス511のエラー収集回路61
への送出や下位装置6を再立上げするためのリセット指
示512の出力を行う。主記憶制御装置52は主記憶装
置53に対する読出し書込みを制御する。
【0004】エラー収集回路61は下位装置6内部の障
害情報(LOGともいう)を集め、障害情報採取用の専
用パスである障害データ611を介して上位装置5に一
定量ずつ(主記憶装置53の番地毎に)転送する。チェ
ック回路63は下位装置6内部のハードウェア故障を検
出し、障害割込み631によって障害発生を上位装置5
に通知する。バッファ制御回路64は入力レジスタ62
のデータのデータバッファ65への書込みと、データバ
ッファ65からのデータの読出しと、データバッファ6
5から読出したデータの主記憶装置53への転送とを夫
々制御する。
【0005】上記の構成において、上位装置5から下位
装置6にデータを転送している時に下位装置6内部で障
害が発生すると、例えばデータ転送中に入力レジスタ6
2が故障すると、チェック回路63はその故障を検出
し、障害割込み631によって障害発生を上位装置5の
診断制御装置51に通知する。
【0006】診断制御装置51はチェック回路63から
の障害割込み631が入力されると、下位装置6の障害
情報を採取するためにエラー収集回路61に送出するア
ドレス511のアドレスを“0”(ワード0)にする。
すると、エラー収集回路61はアドレス“0”に対応す
る障害情報を障害データ611に乗せて診断制御装置5
1に送出する。
【0007】診断制御装置51はワード0のデータを採
取すると、エラー収集回路61に送出するアドレス51
1のアドレスを“1”(ワード1)とし、上記と同様に
して、ワード1のデータを採取する。診断制御装置51
はこの操作を繰返し行って全ての障害情報を採取する
と、リセット指示512を下位装置6に出力し、下位装
置6の再立上げを行う。
【0008】
【発明が解決しようとする課題】上述した従来の障害情
報採取方式では、上位装置が下位装置の障害情報をワー
ド単位にアドレスを切替えて読出しているので、障害情
報の採取に時間がかかってしまう。
【0009】また、上位装置が下位装置の障害情報を採
取する際に使用する診断パスは、コンピュータシステム
における本来の目的(演算等)のために用意されている
ものではないため、診断パスに膨大なハードウェアを費
やすことができない。そのため、一般的な診断系のパス
はシステムバス(データパス)に比べてかなり小規模な
ものとなるので、障害情報の採取に時間がかかる原因に
もなっている。
【0010】さらに、障害情報の収集用の専用パスとし
てアドレス線や障害データ線を必要とするので、特にユ
ニット間が離れている装置(上位装置と下位装置との間
が離れているコンピュータシステム等)ではこれらの専
用パスを設置しなければならず、膨大なハードウェアを
必要とする。
【0011】そこで、本発明の目的は上記の問題点を解
消し、膨大なハードウェアを必要とすることなく、障害
情報の採取時間を短縮することができるコンピュータシ
ステムの障害情報採取回路を提供することにある。
【0012】
【課題を解決するための手段】本発明によるコンピュー
タシステムの障害情報採取回路は、主記憶装置と、前記
主記憶装置との間で専用のデータパスを介してデータの
授受を行う処理装置とを含むコンピュータシステムの障
害情報採取回路であって、前記主記憶装置との間のデー
タ授受に用いるデータバッファと、自装置の故障を検出
する検出手段と、前記検出手段により前記故障が検出さ
れたことを保持する保持手段と、前記検出手段により前
記故障が検出された時に自装置内部の障害情報を収集す
る収集手段と、前記収集手段が収集した前記障害情報を
前記データバッファに書込む書込み手段と、自装置のリ
セット直後に前記データバッファに書込まれた前記障害
情報を前記専用のデータパスを介して前記主記憶装置の
予め設定された領域に転送する手段とを前記処理装置に
有することを特徴とする障害情報採取回路。
【0013】本発明による他のコンピュータシステムの
障害情報採取回路は、上記の構成のほかに、前記検出手
段から前記故障の検出が通知されてから予め設定された
所定時間後に前記処理装置にリセット指示を与える手段
と、前記処理装置に前記リセット指示を与えてから予め
設定された一定時間後に前記主記憶装置の前記領域から
前記障害情報を読取る手段とを具備している。
【0014】本発明による別のコンピュータシステムの
障害情報採取回路は、主記憶装置と、前記主記憶装置と
の間で専用のデータパスを介してデータの授受を行う処
理装置と、前記処理装置の診断を行う診断制御装置とを
含むコンピュータシステムの障害情報採取回路であっ
て、前記主記憶装置との間のデータ授受に用いるデータ
バッファと、自装置の故障を検出する検出手段と、前記
検出手段により前記故障が検出されたことを保持する保
持手段と、前記検出手段により前記故障が検出された時
に自装置内部の障害情報を収集する収集手段と、前記収
集手段が収集した前記障害情報を前記データバッファに
書込む書込み手段と、自装置のリセット直後に前記デー
タバッファに書込まれた前記障害情報を前記専用のデー
タパスを介して前記主記憶装置の予め設定された領域に
転送する手段とを前記処理装置に備え、前記検出手段か
ら前記故障の検出が通知されてから予め設定された所定
時間後に前記処理装置にリセット指示を与える手段と、
前記処理装置に前記リセット指示を与えてから予め設定
された一定時間後に前記主記憶装置の前記領域から前記
障害情報を読取る手段とを前記診断制御装置に備えてい
る。
【0015】本発明によるさらに別のコンピュータシス
テムの障害情報採取回路は、複数の主記憶装置と、前記
複数の主記憶装置各々に対応して設けられかつ前記複数
の主記憶装置を互いに共有する複数の処理装置と、互い
に対応する前記主記憶装置と前記処理装置との間でデー
タの授受を行うための専用の複数のデータパスと、前記
複数の処理装置のうちの対応する前記処理装置の診断を
行う複数の診断制御装置とを含むコンピュータシステム
の障害情報採取回路であって、対応する前記主記憶装置
との間のデータ授受に用いるデータバッファと、自装置
の故障を検出する検出手段と、前記検出手段により前記
故障が検出されたことを保持する保持手段と、前記検出
手段により前記故障が検出された時に自装置内部の障害
情報を収集する収集手段と、前記収集手段が収集した前
記障害情報を前記データバッファに書込む書込み手段
と、自装置のリセット直後に前記データバッファに書込
まれた前記障害情報を前記専用のデータパスを介して対
応する前記主記憶装置の予め他装置と共通に設定された
共通領域に転送する手段とを前記処理装置に備え、前記
検出手段から前記故障の検出が通知されてから予め設定
された所定時間後に前記処理装置にリセット指示を与え
る手段と、対応する前記処理装置に前記リセット指示を
与えてから予め設定された一定時間後に前記複数の主記
憶装置各々の前記共通領域から前記障害情報を読取る手
段とを前記複数の診断制御装置各々に備えている。
【0016】
【発明の実施の形態】まず、本発明の作用について以下
に述べる。
【0017】本発明による障害情報採取回路は上位装置
と下位装置との間に障害情報転送用の専用パスを設置す
ることなく、上位装置と下位装置との間に設けられた通
常のデータ転送用のパスを介して障害情報を採取してい
る。
【0018】すなわち、故障が検出されると、その故障
による通常運転が不可能となるために通常のデータ転送
を中止し、故障が発生した装置内部の障害情報を、通常
のデータ転送用のパスに接続されたデータバッファに格
納して当該装置の運転を停止する。
【0019】障害の規模によってリセット範囲は異なる
が、故障ユニットをリセットした直後にデータバッファ
に格納しておいた障害情報を上位装置の主記憶装置の障
害情報専用エリアに通常のデータと同じ転送方法で転送
し、診断制御装置がその障害情報専用エリアから障害情
報を読出すことで障害情報の採取を実現している。
【0020】これによって、通常のデータパスの使用し
て障害情報を採取することができるので、障害情報を高
速に転送することができ、障害情報の採取時間を従来よ
りも短縮することができると共に、障害復旧時間をも短
縮することができる。
【0021】また、障害情報採取用の専用パスが不要と
なるので、上位装置と下位装置との間の距離が離れてい
ても、ハードウェアの増加を招くことなく、短時間での
障害情報の採取を実現することができ、特に特にユニッ
ト間が離れている装置に対して有効となる。したがっ
て、近年、光ケーブル技術等の向上によってユニット間
の距離がかなり離れたコンピュータの分野においても、
短時間での障害情報の採取を実現することができる。
【0022】次に、本発明の実施例について図面を参照
して説明する。図1は本発明の一実施例の構成を示すブ
ロック図である。図において、上位装置1は診断制御装
置11と主記憶制御装置12と主記憶装置13とを備
え、下位装置2はエラー収集回路21とエラー検出フラ
グ22とエラー収集回路23とバッファ制御回路24と
入力レジスタ25とチェック回路26とセレクタ27と
データバッファ28とを備えている。
【0023】診断制御装置11は下位装置2からの障害
情報採取や下位装置2のリセット/立上げを行い、下位
装置2のエラー検出回路21からの障害割込み200を
受付けると、予め設定された一定時間後にリセット指示
101を下位装置2に出力し、その時刻からさらに所定
時間後に主記憶装置13から障害情報を読取る機能を持
つ。
【0024】主記憶制御装置12は主記憶装置13に対
する通常動作の主記憶アクセスや診断制御装置11から
のアクセスを制御する。主記憶装置13は上記の上位装
置1及び下位装置2からなるコンピュータシステムのメ
インメモリである。
【0025】エラー検出回路21は障害が発生すると、
その障害の詳細情報を記憶すると同時に下位装置2の内
部をホールドし、エラーデータの伝搬を防止する。ま
た、エラー検出回路21は上位装置1の診断制御装置1
1に障害割込み200を出力するとともに、エラー検出
フラグ22及びエラー収集回路23にエラー収集指示2
01を出力する。
【0026】エラー検出フラグ22にはエラー検出回路
21からのエラー収集指示201によって検出情報がセ
ットされ、バッファ制御回路24からの転送完了信号2
05によって検出情報がリセットされる。下位装置2内
のハードウェアは診断制御装置11からのリセット指示
101によって全てリセットされるが、エラー検出フラ
グ22及びデータバッファ28は診断制御装置11から
下位装置2にリセット指示101が入力されてもリセッ
トされない。
【0027】エラー収集回路23は下位装置2内部の障
害情報を収集し、その収集した障害情報204をセレク
タ27に出力すると共に、その障害情報204を格納す
べきアドレスをエラー情報書込みアドレス203として
バッファ制御回路24に出力する。
【0028】バッファ制御回路24はデータバッファ2
8に対する読出し及び書込みを制御し、エラー検出回路
21からのエラー収集指示201が“0”の時に通常論
理によるバッファアクセスを行うよう制御し、エラー収
集指示201が“1”の時にエラー収集回路23で収集
された障害情報204をエラー情報書込みアドレス20
3で示されるデータバッファ28のアドレスに書込むよ
う制御する。
【0029】また、バッファ制御回路24は下位装置2
のリセット直後にエラー検出フラグ22からのエラー検
出情報202が“1”の時にデータバッファ28内の障
害情報を主記憶装置13に転送するよう制御し、主記憶
装置13への転送が完了すると、転送完了信号205を
出力してエラー検出フラグ22をリセットするよう制御
する。
【0030】入力レジスタ25は上位装置1からのデー
タを受信すると、そのデータをセレクタ27に送出す
る。チェック回路26は入力レジスタ25からセレクタ
27に送出されるデータをパリティチェック方式あるい
はECC(Error Checking and C
orrection)方式等でチェックし、入力レジス
タ25の故障を検出する。
【0031】セレクタ27はエラー検出回路21からの
エラー収集指示201が“0”の時に入力レジスタ25
からの通常のデータを選択してデータバッファ28に出
力し、エラー検出回路21からのエラー収集指示201
が“1”の時にエラー収集回路23からの障害情報20
4を選択してデータバッファ28に出力する。
【0032】この図1を用いて本発明の一実施例の動作
について説明する。以下、データパス103を介して上
位装置1と下位装置2との間でデータ転送中に入力レジ
スタ25が故障した場合について説明する。
【0033】入力レジスタ25が故障すると、チェック
回路26がエラーを検出してエラー検出回路21への障
害発生206を“1”とする。エラー検出回路21はチ
ェック回路26からの障害発生206が“1”になる
と、エラーの詳細情報を記憶すると同時に下位装置2内
部をホールドし、上位装置1の診断制御装置11に障害
割込み200を出力すると共に、エラー検出フラグ22
とエラー収集回路23とバッファ制御回路24とにエラ
ー収集指示201を出力する。
【0034】エラー検出フラグ22にはエラー検出回路
21からのエラー収集指示201によって検出情報がセ
ットされる。エラー収集回路23はエラー検出回路21
からエラー収集指示201が入力されると、下位装置2
内部の障害情報を収集し、その収集した障害情報204
をセレクタ27に出力すると共に、その障害情報204
を格納すべきアドレスをエラー情報書込みアドレス20
3としてバッファ制御回路24に出力する。
【0035】バッファ制御回路24はエラー収集指示2
01が“1”の時、セレクタ27を介してデータバッフ
ァ28に入力されるエラー収集回路23からの障害情報
204を、エラー収集回路23からのエラー情報書込み
アドレス203で示されるアドレスに書込むよう制御す
る。
【0036】一方、診断制御装置11はエラー検出回路
21から障害割込み200が入力されると、予め設定さ
れた一定時間後に、つまり下位装置2において障害情報
をデータバッファ28に格納するのに必要な時間を十分
待ってからリセット指示101を出力する。
【0037】下位装置2は診断制御装置11からリセッ
ト指示101を受取ると、エラー検出フラグ22及びデ
ータバッファ28を除く装置内のハードウェアを全てリ
セットする。尚、データバッファ28は通常RAM(ラ
ンダムアクセスメモリ)で構成されており、“0”を書
込まないとリセットされないハードウェアである。
【0038】下位装置2のリセット直後にはエラー検出
フラグ22が“1”にセットされたままなので、バッフ
ァ制御回路24はデータバッファ28内の障害情報を主
記憶装置13の予め設定された障害情報専用エリア(図
示せず)に通常のデータ転送と同じ方法で、つまり通常
のデータパス208を介して転送するよう制御する。ま
た、バッファ制御回路24は主記憶装置13への障害情
報の転送が完了すると、転送完了信号205を出力して
エラー検出フラグ22をリセットする。
【0039】診断制御装置11はリセット指示101を
下位装置2に出力すると、その出力時刻からさらに予め
設定された所定時間後に主記憶装置13の障害情報専用
エリアからデータパス103を介して障害情報を読出す
ことによって障害情報を採取する。
【0040】図2は図1のエラー検出回路21、エラー
収集回路23、チェック回路26各々の詳細な構成を示
すブロック図である。図において、エラー検出回路21
は障害表示レジスタ21aと論理和回路21bとから構
成され、エラー収集回路23はカウンタ23aとセレク
タ23bとから構成され、チェック回路26はレジスタ
25a,25b各々に対応するチェック回路26a,2
6bから構成されている。
【0041】障害表示レジスタ21aはエラーの詳細情
報を記憶し、その詳細情報をエラー収集回路23に出力
するとともに、詳細情報の各ビットを夫々論理和回路2
1bに出力する。
【0042】論理和回路21bは障害表示レジスタ21
aからの詳細情報の各ビットのうちいずれかがセットさ
れると、エラー収集指示201として“1”を出力し、
ファーストイベントホールドで障害情報を持っているレ
ジスタ類をホールドする。
【0043】カウンタ23aは論理和回路21bからの
エラー収集指示201が“1”になるとカウントアップ
を開始し、そのカウント値をセレクタ23bに出力する
と共に、そのカウント値をエラー情報書込みアドレス2
03としてバッファ制御回路24に出力する。
【0044】セレクタ23bはカウンタ23aからのカ
ウント値に応じて、障害表示レジスタ21aからの詳細
情報やレジスタ25a,25bの情報を切替えて障害情
報204として出力する。その際、セレクタ23bがそ
の切替え動作をワード単位に行うよう構成しておけば、
障害情報204はワード単位にデータバッファ28に書
込まれる。
【0045】この図2を用いてエラー検出回路21、エ
ラー収集回路23、チェック回路26各々の動作につい
て説明する。尚、レジスタ25a,25bは図1の入力
レジスタ25に対応するものとする。
【0046】まず、レジスタ25bで故障が発生する
と、その故障がチェック回路26bで検出され、障害表
示レジスタ21aのチェック回路26bに対応するビッ
トが“1”となる。
【0047】そのビットが“1”となることによって、
論理和回路21bはエラー収集指示201として“1”
を出力し、ファーストイベントホールドで障害情報を持
っているレジスタ類(レジスタ25a,25b等)をホ
ールドする。この場合、エラー検出フラグ22には
“1”がセットされる。
【0048】カウンタ23aは論理和回路21bからの
エラー収集指示201が“1”になるとカウントアップ
を開始し、そのカウント値をセレクタ23bに出力する
と共に、そのカウント値をエラー情報書込みアドレス2
03としてバッファ制御回路24に出力する。
【0049】セレクタ23bはカウンタ23aからのカ
ウント値に応じて、障害表示レジスタ21aからの詳細
情報やレジスタ25a,25bの情報を切替えて障害情
報204として出力する。この障害情報204はバッフ
ァ制御回路24の制御によってセレクタ27を介してデ
ータバッファ28に順次書込まれる。
【0050】障害情報204のデータバッファ28への
格納が終了した後に、上位装置1からリセット指示10
1が入力されると、エラー検出フラグ22及びデータバ
ッファ28を除くハードウェア全てが、図2の場合、障
害表示レジスタ21aとカウンタ23aとレジスタ25
a,25bとが夫々リセットされる。
【0051】図3は図1のバッファ制御回路24の詳細
な構成を示すブロック図である。図において、バッファ
制御回路24はセレクタ24a,24bと、カウンタ2
4cと、フリップフロップ(以下、F/Fとする)24
d,24fと、論理積回路24e,24gと、論理比較
器24hとから構成されている。
【0052】F/F24d,24fはリセット指示10
1の立下りを検出するためのもので、F/F24d及び
論理積回路24eによってリセット指示101の立下り
が検出されると、F/F24fには“1”がセットされ
る。つまり、F/F24d及び論理積回路24eはリセ
ット指示101の後縁微分をとってその立下りを検出す
る。
【0053】カウンタ24cはデータバッファ28に格
納された障害情報を順次上位装置1に転送するためのも
のである。論理比較器24hはカウンタ24cのカウン
ト値が障害情報量に達すると、転送完了信号205とし
て“1”を出力する。
【0054】セレクタ24aはエラー検出回路21から
のエラー収集指示201に応じて、エラー情報書込みア
ドレス203と一般論理とを切替えてデータバッファ2
8に書込みアドレスWAとして出力する。
【0055】セレクタ24bはエラー検出フラグ22か
らのエラー検出情報202に応じて、カウンタ24cの
カウント値と一般論理とを切替えてデータバッファ28
に読出しアドレスRAとして出力する。
【0056】この図3を用いてバッファ制御回路24の
動作について説明する。まず、通常動作中にエラー収集
指示201が“1”になると、セレクタ24aは一般論
理からエラー情報書込みアドレス203に切替えて書込
みアドレスWAとしてデータバッファ28に出力する。
これによって、データバッファ28にはエラー収集回路
23からの障害情報204が書込まれる。
【0057】この障害情報204がデータバッファ28
に格納された後に、上位装置1からリセット指示101
が入力されると、F/F24d及び論理積回路24eに
よってリセット指示101の立下りが検出され、F/F
24fには“1”がセットされる。
【0058】このとき、エラー検出フラグ22からのエ
ラー検出情報202が“1”であれば、論理積回路24
gからカウンタ24cに“1”が出力されるので、カウ
ンタ24cはカウントアップする。
【0059】また、セレクタ24bはエラー検出フラグ
22からのエラー検出情報202が“1”なると、一般
論理からカウンタ24cのカウント値に切替えてデータ
バッファ28に読出しアドレスRAとして出力する。よ
って、データバッファ28に格納された障害情報が読出
しアドレスRAによって読出されて上位装置1に転送さ
れる。
【0060】論理比較器24hはカウンタ24cのカウ
ント値が障害情報量に達すると、転送完了信号205と
して“1”を出力する。この転送完了信号205が
“1”となることによって、エラー検出フラグ22はリ
セットされ、同時にF/F24fもリセットされる。
【0061】図4は本発明の他の実施例の構成を示すブ
ロック図である。図において、本発明の他の実施例によ
る障害情報採取回路は図1に示す本発明の一実施例によ
る障害情報採取回路をフルクロススイッチング装置3に
適用した例を示している。
【0062】すなわち、複数の上位装置1−1〜1−4
各々はサブ診断制御装置11−1〜11−4(サブ診断
制御装置11−2〜11−4は図示せず)と、主記憶制
御装置12−1〜12−4(主記憶制御装置12−2〜
12−4は図示せず)と、主記憶装置13−1〜13−
4(主記憶装置13−2〜13−4は図示せず)とから
構成されている。尚、上位装置1−1〜1−4各々の各
回路の構成及び動作は図1〜図3に示す本発明の一実施
例と同様である。
【0063】また、複数の下位装置2−1〜2−4各々
はエラー収集回路21−1〜21−4(エラー収集回路
21−2〜21−4は図示せず)と、エラー検出フラグ
22−1〜22−4(エラー検出フラグ22−2〜22
−4は図示せず)と、エラー収集回路23−1〜23−
4(エラー収集回路23−2〜23−4は図示せず)
と、バッファ制御回路24−1〜24−4(バッファ制
御回路24−1〜24−4は図示せず)と、入力レジス
タ25−1〜25−4(入力レジスタ25−1〜25−
4は図示せず)と、チェック回路26−1〜26−4
(チェック回路26−2〜26−4は図示せず)と、セ
レクタ27−1〜27−4(セレクタ27−2〜27−
4は図示せず)と、データバッファ28−1〜28−4
(データバッファ28−2〜28−4は図示せず)とか
ら構成されている。尚、下位装置2−1〜2−4各々の
各回路の構成及び動作は図1〜図3に示す本発明の一実
施例と同様である。
【0064】上記のフルクロススイッチング装置3の場
合、下位装置2−1〜2−4各々のデータバッファ28
−1〜28−4の出力を夫々入力し、それらのうちのい
ずれか一つを対応する上位装置1−1〜1−4の主記憶
装置13−1〜13−4に出力するセレクタ31〜34
を設け、上位装置1−1〜1−4の主記憶装置13−1
〜13−4を互いに共有させる下位装置2−1〜2−4
(フルクロススイッチング装置3)をクロス接続させて
いる。
【0065】例えば、上位装置1−1の主記憶装置13
−1のデータを上位装置1−4の主記憶装置13−4に
送る場合、セレクタ34は主記憶装置13−1に対応す
る下位装置2−1のデータバッファ28−1の出力を選
択して主記憶装置13−4に転送する。これによって、
主記憶装置13−1のデータを主記憶装置13−4に送
ることができる。セレクタ31〜34においては他の装
置と組合せることで、上記と同様に、主記憶装置13−
1〜13−4間においてデータ転送することができる。
【0066】尚、図4においては図1の診断制御装置1
1をサブ診断制御装置11−1〜11−4としている
が、これは複数のサブ診断制御装置11−1〜11−4
を制御するメイン診断制御装置4と区別するためであ
る。メイン診断制御装置4はシステムの電源オン/オフ
や障害情報採取等を行う装置である。
【0067】上記の構成においては、主記憶装置13−
1〜13−4各々に予め下位装置2−1〜2−4各々に
共通して障害情報専用エリア(下位装置2−1〜2−4
各々の障害情報を全て格納可能な容量のエリア)を配設
しており、障害情報採取時に下位装置2−1〜2−4の
データバッファ28−1〜28−4から出力される情報
をセレクタ31〜34の全てあるいはいずれか一つを用
いて障害情報専用エリアに転送することで、故障してい
ない下位装置に対応する主記憶装置から障害情報を採取
することが可能となる。
【0068】このように、エラー検出回路21,21−
1〜21−4でエラーが検出された時にエラー収集回路
23,23−1〜23−4で収集した障害情報を主記憶
装置13,13−1〜13−4との間のデータ授受に用
いるデータバッファ28,28−1〜28−4に格納し
ておき、上位装置1,1−1〜1−4からのリセット指
示101によってリセットが実行された直後にデータバ
ッファ28,28−1〜28−4から主記憶装置13,
13−1〜13−4の障害情報専用エリアに通常動作の
データ転送と同様の方法で通常動作のデータ転送に用い
る専用のパス208を使用して転送することで、通常動
作のデータ転送に用いる専用のパス208を使用して障
害情報を採取することができるので、障害情報を高速に
転送することができ、障害情報の採取時間を従来よりも
短縮することができると共に、障害復旧時間をも短縮す
ることができる。
【0069】また、障害情報採取用の専用パスが不要と
なるので、上位装置1,1−1〜1−4と下位装置2,
2−1〜2−4との間の距離が離れていても、ハードウ
ェアの増加を招くことなく、短時間での障害情報の採取
を実現することができ、特に特にユニット間が離れてい
る装置に対して有効となる。したがって、近年、光ケー
ブル技術等の向上によってユニット間の距離がかなり離
れたコンピュータの分野においても、短時間での障害情
報の採取を実現することができる。
【0070】
【発明の効果】以上説明したように本発明によれば、主
記憶装置と、主記憶装置との間で専用のデータパスを介
してデータの授受を行う処理装置とを含むコンピュータ
システムの障害情報採取回路において、自装置の故障が
検出された時に収集された自装置内部の障害情報を、主
記憶装置との間のデータ授受に用いるデータバッファに
格納しておき、自装置のリセット直後にデータバッファ
に書込まれた障害情報を上記の専用のデータパスを介し
て主記憶装置の予め設定された領域に転送することによ
って、膨大なハードウェアを必要とすることなく、障害
情報の採取時間を短縮することができるという効果があ
る。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】図1のエラー検出回路、エラー収集回路、チェ
ック回路各々の詳細な構成を示すブロック図である。
【図3】図1のバッファ制御回路の詳細な構成を示すブ
ロック図である。
【図4】本発明の他の実施例の構成を示すブロック図で
ある。
【図5】従来例の構成を示すブロック図である。
【符号の説明】
1,1−1〜1−4 上位装置 2,2−1〜2−4 下位装置 3 フルクロススイッチング装置 4 メイン診断制御装置 11 診断制御装置 11−1 サブ診断制御装置 12,12−1 主記憶制御装置 13,13−1 主記憶装置 21,21−1 エラー検出回路 22,22−1 エラー検出フラグ 23,23−1 エラー収集回路 24,24−1 バッファ制御回路 25,25−1 入力レジスタ 26,26−1 チェック回路 27,27−1 セレクタ 28,28−1 データバッファ 31〜34 セレクタ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 主記憶装置と、前記主記憶装置との間で
    専用のデータパスを介してデータの授受を行う処理装置
    とを含むコンピュータシステムの障害情報採取回路であ
    って、前記主記憶装置との間のデータ授受に用いるデー
    タバッファと、自装置の故障を検出する検出手段と、前
    記検出手段により前記故障が検出されたことを保持する
    保持手段と、前記検出手段により前記故障が検出された
    時に自装置内部の障害情報を収集する収集手段と、前記
    収集手段が収集した前記障害情報を前記データバッファ
    に書込む書込み手段と、自装置のリセット直後に前記デ
    ータバッファに書込まれた前記障害情報を前記専用のデ
    ータパスを介して前記主記憶装置の予め設定された領域
    に転送する手段とを前記処理装置に有することを特徴と
    する障害情報採取回路。
  2. 【請求項2】 前記検出手段から前記故障の検出が通知
    されてから予め設定された所定時間後に前記処理装置に
    リセット指示を与える手段と、前記処理装置に前記リセ
    ット指示を与えてから予め設定された一定時間後に前記
    主記憶装置の前記領域から前記障害情報を読取る手段と
    を含むことを特徴とする請求項1記載の障害情報採取回
    路。
  3. 【請求項3】 主記憶装置と、前記主記憶装置との間で
    専用のデータパスを介してデータの授受を行う処理装置
    と、前記処理装置の診断を行う診断制御装置とを含むコ
    ンピュータシステムの障害情報採取回路であって、 前記主記憶装置との間のデータ授受に用いるデータバッ
    ファと、自装置の故障を検出する検出手段と、前記検出
    手段により前記故障が検出されたことを保持する保持手
    段と、前記検出手段により前記故障が検出された時に自
    装置内部の障害情報を収集する収集手段と、前記収集手
    段が収集した前記障害情報を前記データバッファに書込
    む書込み手段と、自装置のリセット直後に前記データバ
    ッファに書込まれた前記障害情報を前記専用のデータパ
    スを介して前記主記憶装置の予め設定された領域に転送
    する手段とを前記処理装置に有し、 前記検出手段から前記故障の検出が通知されてから予め
    設定された所定時間後に前記処理装置にリセット指示を
    与える手段と、前記処理装置に前記リセット指示を与え
    てから予め設定された一定時間後に前記主記憶装置の前
    記領域から前記障害情報を読取る手段とを前記診断制御
    装置に有することを特徴とする障害情報採取回路。
  4. 【請求項4】 複数の主記憶装置と、前記複数の主記憶
    装置各々に対応して設けられかつ前記複数の主記憶装置
    を互いに共有する複数の処理装置と、互いに対応する前
    記主記憶装置と前記処理装置との間でデータの授受を行
    うための専用の複数のデータパスと、前記複数の処理装
    置のうちの対応する前記処理装置の診断を行う複数の診
    断制御装置とを含むコンピュータシステムの障害情報採
    取回路であって、 対応する前記主記憶装置との間のデータ授受に用いるデ
    ータバッファと、自装置の故障を検出する検出手段と、
    前記検出手段により前記故障が検出されたことを保持す
    る保持手段と、前記検出手段により前記故障が検出され
    た時に自装置内部の障害情報を収集する収集手段と、前
    記収集手段が収集した前記障害情報を前記データバッフ
    ァに書込む書込み手段と、自装置のリセット直後に前記
    データバッファに書込まれた前記障害情報を前記専用の
    データパスを介して対応する前記主記憶装置の予め他装
    置と共通に設定された共通領域に転送する手段とを前記
    処理装置に有し、 前記検出手段から前記故障の検出が通知されてから予め
    設定された所定時間後に前記処理装置にリセット指示を
    与える手段と、対応する前記処理装置に前記リセット指
    示を与えてから予め設定された一定時間後に前記複数の
    主記憶装置各々の前記共通領域から前記障害情報を読取
    る手段とを前記複数の診断制御装置各々に有することを
    特徴とする障害情報採取回路。
JP8181878A 1996-07-11 1996-07-11 コンピュータシステムの障害情報採取回路 Withdrawn JPH1027115A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8181878A JPH1027115A (ja) 1996-07-11 1996-07-11 コンピュータシステムの障害情報採取回路

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8181878A JPH1027115A (ja) 1996-07-11 1996-07-11 コンピュータシステムの障害情報採取回路

Publications (1)

Publication Number Publication Date
JPH1027115A true JPH1027115A (ja) 1998-01-27

Family

ID=16108453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8181878A Withdrawn JPH1027115A (ja) 1996-07-11 1996-07-11 コンピュータシステムの障害情報採取回路

Country Status (1)

Country Link
JP (1) JPH1027115A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100367699B1 (ko) * 1999-12-23 2003-01-10 엘지전자 주식회사 병렬 버스 시스템의 에러 제어 장치
US7039825B2 (en) 2001-06-08 2006-05-02 Nec Corporation Clock reproducing method and receiving clock producing apparatus allowing for absorption of transmission channel jitter
KR100710988B1 (ko) * 2005-05-31 2007-04-24 지멘스 오토모티브 주식회사 마이컴 고장 발생 시 고장 코드 저장 장치 및 방법
JP2009294881A (ja) * 2008-06-04 2009-12-17 Fujitsu Ltd 情報処理装置および情報処理方法
JP2020145730A (ja) * 2012-12-21 2020-09-10 デカ・プロダクツ・リミテッド・パートナーシップ データ通信のためのシステム、方法及び装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100367699B1 (ko) * 1999-12-23 2003-01-10 엘지전자 주식회사 병렬 버스 시스템의 에러 제어 장치
US7039825B2 (en) 2001-06-08 2006-05-02 Nec Corporation Clock reproducing method and receiving clock producing apparatus allowing for absorption of transmission channel jitter
KR100710988B1 (ko) * 2005-05-31 2007-04-24 지멘스 오토모티브 주식회사 마이컴 고장 발생 시 고장 코드 저장 장치 및 방법
JP2009294881A (ja) * 2008-06-04 2009-12-17 Fujitsu Ltd 情報処理装置および情報処理方法
JP2020145730A (ja) * 2012-12-21 2020-09-10 デカ・プロダクツ・リミテッド・パートナーシップ データ通信のためのシステム、方法及び装置

Similar Documents

Publication Publication Date Title
JP4107083B2 (ja) 高可用ディスク制御装置とその障害処理方法及び高可用ディスクサブシステム
EP0397476B1 (en) Error logging data storing system
JP3645281B2 (ja) 共用メモリを有するマルチプロセッサ・システム
JP5285690B2 (ja) 並列コンピュータ・システム、並列コンピュータ・システム上のノード・トラフィックを動的に再経路指定するためのコンピュータ実装方法、コンピュータ可読記録媒体及びコンピュータ・プログラム
JPH04227574A (ja) ロジック・シミュレーション・マシンのための全イベント・トレース・ギャザラ
EP0333593B1 (en) A data processing system capable of fault diagnosis
JPH1027115A (ja) コンピュータシステムの障害情報採取回路
US5206952A (en) Fault tolerant networking architecture
US20050165974A1 (en) Computer apparatus and computer system
JP2000353154A (ja) 障害監視システム
JPH07321795A (ja) バッファアドレス管理方法
US20080052473A1 (en) Information processing apparatus
JPH0255816B2 (ja)
KR0121442B1 (ko) 멀티프로세서 시스템에서 캐쉬부 오류검출 및 그 처리장치와 방법
JP2756315B2 (ja) 系構成情報の更新制御方式
JPS5870495A (ja) 多重化記憶装置の制御装置
JPH079636B2 (ja) バス診断装置
JP2510663B2 (ja) エラ―制御方式
JPH11102325A (ja) メモリ監視方式
JPH086909A (ja) 並列計算機システム
JPH10124338A (ja) 並列処理装置
JPH08314843A (ja) 計算機システム
JPH05289896A (ja) フォールトトレラントコンピュータ
JPH07271679A (ja) メモリ診断回路
JPH0523254U (ja) 記憶回路

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20031007