JPH0465411B2 - - Google Patents

Info

Publication number
JPH0465411B2
JPH0465411B2 JP1099052A JP9905289A JPH0465411B2 JP H0465411 B2 JPH0465411 B2 JP H0465411B2 JP 1099052 A JP1099052 A JP 1099052A JP 9905289 A JP9905289 A JP 9905289A JP H0465411 B2 JPH0465411 B2 JP H0465411B2
Authority
JP
Japan
Prior art keywords
interrupt
interrupt request
maintenance interface
interface
machine check
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1099052A
Other languages
English (en)
Other versions
JPH0227450A (ja
Inventor
Changuuchi Hangu Kebin
Jeraado Santoni Jon
Sukotsuto Suteiru Guregorii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH0227450A publication Critical patent/JPH0227450A/ja
Publication of JPH0465411B2 publication Critical patent/JPH0465411B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test

Description

【発明の詳細な説明】 A 産業上の利用分野 本発明は、コンピユータ・システムに関し、具
体的には、エラーすなわち誤りの割込み信号及び
そのデータを支援プロセツサに同時に提示するコ
ンピユータ・システムの装置に関する。
B 従来技術及びその問題点 コンピユータ・システムは、主プロセツサと、
主プロセツサに接続された支援プロセツサを含む
場合が非常に多い。機械チエツクがプロセツサで
検出されると、サービスが必要なことを示す割込
み信号が支援プロセツサ(SP)に提示される。
SPが走査を開始する前に、影響を受けるプロセ
ツサ(または緊密に結合されたシステム中のすべ
てのプロセツサ)へのシステム・クロツクが、停
止されなければならない。走査により、SPは機
械チエツクの発生源とチエツクによつて生じる損
害の規模を決定するのに必要なデータを集めるこ
とができる。システムの各走査リングが、SPに
よつて中央プロセツサ複合体(CPC)から走査
される。走査されたデータ・ビツトは、システム
中で活動状態になつている機械チエツクを決定す
るため、SPマイクロコードが容易にアクセスで
きる構造化形式に変換される。機械チエツク状況
が決定されると、再試行手順を開始することがで
きる。
機械チエツクの発生源を決定するためにデー
タ・ビツトを走査し変換する処理はいくつかの欠
点を伴つている。第1に、機械チエツクの発生源
が、割込み信号をSPが受け取つた時点でわかつ
ていないので、その割込み信号で表わされるあら
ゆるプロセツサが、走査を準備するために停止さ
れなければならない。その結果、システムに損害
を与えシステム全体の可用性が低下する。という
のは機能プロセツサはそれが停止したときに再試
行不能状態で走行していることがあるからであ
る。そうなつた場合、システムを再起動させるの
に初期マイクロコード・ロード(IML)が必要
となる。第2に、走査は、各チツプ上の各走査リ
ングを通常はCPCの動作速度よりもかなり遅い
速度で順次アドレス指定することを必要とする逐
次動作なので、非常に時間がかかる。SPが機械
チエツク発生源及び関連する誤り情報を決定する
ために走査データ・ビツトの変換を実行すると
き、大きな追加遅延が発生する。これらの遅延の
結果、ダウン時間が延引し、入出力装置が切断さ
れることもある。最後に、多数の機械チエツクが
活動状態の場合、どの機械チエツクが最初に起こ
つたかを必ずしも判定できない。この誤り分離の
不十分さのため、余分の機械部品を交換しなけれ
ばならなくなることもある。初期機械チエツク割
込み信号と同時に機械チエツクの発生源と損害の
程度をSPが入手できるなら、SPがもはやこの情
報を判定する必要はないので、割込み信号に対処
するのに必要な時間がかなり減少する。多重プロ
セツサ環境では、問題の発生源がSPにとつて分
離され、SPは損害を受けた領域だけを修復し、
他の独立なプロセツサは走行を継続するので、シ
ステムの可用性が増大するという追加の利益が得
られる。
C 問題点を解決するための手段 したがつて、本発明の目的は、初期機械チエツ
ク割込み信号、機械チエツクの発生源及び損害の
程度を同時にコンピユータ・システムの支援プロ
セツサに提示することにある。
本発明の目的には、サービス・プロセツサと主
プロセツサの間にシステム支援アダプタ(SSA)
を配設することも含まれる。SSAがまず初期機
械チエツク割込み信号を受け取り、機械チエツク
割込み信号、機械チエツクの発生源、及び機械チ
エツクによつて生じる損害の程度に関する情報を
主プロセツサから収集して、それらの情報を同時
にSPに提示するとき、機械チエツクの発生源と、
機械チエツクによつて主プロセツサ中に生じる損
害の程度を主プロセツサに照会する機能をシステ
ム支援アダプタはもつ。
本発明の上記及びその他の目的は、支援プロセ
ツサ(SP)と主プロセツサの中央プロセツサ複
合体(CPC)の間にシステム支援アダプタ
(SSA)を配設することによつて達成される。
SSAは、CPCからSPに向かう途中の機械チエツ
ク信号を傍受し、機械チエツク及びその結果発生
する損害を分離するのに不可欠な誤りデータをす
べて収集してから、SPに機械チエツク信号と誤
りデータを同時に提示する。機械チエツク・デー
タ収集機構が主プロセツサのCPC上にあり、
CPCのあらゆる論理カード上の事前定義された
レジスタ位置に入る、マイクロコードで駆動され
る一連の迅速保守アクセス経路(RMAP)コマ
ンドを起動する。RMAPコマンドは独立した固
有の保守クロツクだけに基づいて実行されるの
で、システム・クロツクは、データ収集中にどの
論理カード上でも停止される必要はない。保守ク
ロツクはCPCクロツク速度で動作する。収集さ
れた誤りデータは、機械チエツクの発生源、(チ
エツクの広がりを示す)機械チエツクのレベル、
及び機械チエツクの形式(たとえば、システム機
械チエツクか保守形式の機械チエツクか)を記述
する。誤りデータがSSAによつて収集されSSA
のメモリ・バツフア記憶域に記憶された後、
SSAにより機械チエツク割込み信号が重要な誤
り情報と同時にSPに提示される。SPは、システ
ム内での割込みの量を制限しながらより好都合な
形で必要なサービスを行なうので、ダウン時間が
最小となり、システム全体の可用性が増大する。
本発明のより広い適用範囲は、以下に示す詳細
な説明から明らかになるはずである。ただし、詳
細な記載と特定の例は、本発明の好ましい実施例
を表わしているが、例示として示したものに過ぎ
ず、当業者なら、以下に示す詳細な説明を読め
ば、本発明の範囲内で様々な変更及び修正が、明
らかになるはずである。
D 実施例 第2図に、従来技術の誤り割込み・誤りデータ
収集システムの概略図を示す。第2図で、支援プ
ロセツサ(SP)10は、バスQBUSを介して中
央プロセツサ複合体(CPC)20に直接接続さ
れている。動作に当つては、CPC20中で機械
チエツクが生じると、CPC20はCPCに誤りが
発生したことを示す割込み信号をSP10に送る。
SP10はその動作が中断される。SP10はCPC
20に照会して、割込みの原因を読み取り、
CPC20から誤りデータを読み取る。次いで、
SP10はこの割込み信号及び誤りデータを使つ
て誤りを訂正する。SP10が割込み信号を受け
取つたとき、割込みの原因を読み取り、CPC2
0から誤りデータを読み取るのに時間がかかつ
た。
第1図に、本発明の誤り割込み・誤りデータ収
集システムの概略図を示す。第1図では、SP1
0はシステム支援アダプタ(SSA)15を介し
てCPC20に接続されている。動作に当つては、
主プロセツサまたはCPC20に誤り状態が発生
したことを示すCPC機械チエツクが生じる。
SSA15は中断される。SSA15は、CPC20
から割込みの原因と割込みに関連するデータ(誤
りデータ)を読み取る。SSA15は、初期割込
み信号、割込みの原因及び誤りデータを同時に
SP10に送る。SP10は直ちに誤り訂正を開始
することができる。SP10は誤りデータを読み
取る際に時間がかからない。
第3図は、第1図のSSAカード15を介して
主プロセツサのCPC20に接続された支援プロ
セツサ(SP)10の3次元図である。SP10は
パーソナル・コンピユータである。SSA15は、
主プロセツサのラツクに収容されたカードであ
る。CPC20は、主プロセツサのラツクに収容
された他のカードから構成される。
第4図は、SP10とCPC20の間に接続され
たSSAカード15のより詳細な構成を示す。
SSAカード15は、遠隔PC支援プロセツサ10
を主プロセツサのCPC20に接続するための手
段をもたらし、プロセツサ複合体内の複数バス・
アーキテクチヤにデータを知能的に分配する。
SSA15は、動的にプログラミング可能な独立
型装置であり、ローカル・エリア・ネツトワーク
(LAN)インターフエースを介して外部接続され
たSP10から初期プログラム・ロードを要求す
るための手段であるブートストラツプ読取り専用
記憶装置(ROS)を含む。SSA15は次の3つ
の論理要素から構成される。(1)LANインターフ
エース15a、(2)パリテイ・誤り訂正(ECC)
を含む512kランダム・アクセス・メモリを備え
たSOLOマイクロプロセツサ15b、及び(3)迅速
保守アクセス(RMA)アダプタ論理モジユール
15c。
LANインターフエース15aは、オンカード
ROSによつて制御される。このオンカードROS
は、トークン・リングLANアーキテクチヤに電
気的に応答するようにLAN論理モジユールを制
御する。LANインターフエース15aモジユー
ルは、各SSAカードに独自なLANアドレスに応
答する機能ももつ。この機能により、最高256枚
までの任意の数のSSAカードが単一LANネツト
に結合できる。この機能により、複数のプロセツ
サ群が、その群に対する支援プロセツサとして動
作するようにプログラミングされた単一SP10
によつてサービスされる。さらに、単一のPCが
故障した場合、バツクアツプ・パーソナル・コン
ピユータをLANネツトに接続して、高度の可用
性をもたらすことができる。
SOLOマイクロプロセツサ15bは、このSSA
カード15用のマイクロプロセツサ・コントロー
ラである。このマイクロプロセツサは、512Kの
RAMをもち、外部SP10を介してそれに制御プ
ログラムを動的にロードできる。この動的ロード
により、カードの機能を上位プロセツサまたは主
プロセツサの必要に応じて調整または修正するこ
とができる。このSOLOプロセツサ15bの主な
機能は、LANインターフエース15aとの間で
データを送受し、RMAモジユール15cとの間
でデータを送受することである。さらに、SOLO
15bは、その制御プログラムを用いて独立した
決定を下し、任意の望ましい方式でこのデータを
操作することができる。
迅速保守アダプタ(RMA)モジユール15c
は、SSA15と上位プロセツサまたは主プロセ
ツサのCPC20との間の1次インターフエース
である。このアダプタ15cは、SSAカード1
5と上位プロセツサ内の3本の独自な保守バスの
うちのいずれかとの間でのデータの移動を制御す
る論理手段となる。この3本の保守バスは、R−
MAPインターフエース・バス、走査インターフ
エース・バス及び特殊電力制御バスである。
RMAモジユール15cは、上位プロセツサまた
は主プロセツサ内のこれら3本の保守バスすべて
とSOLOマイクロプロセツサ15bのRAMとの
インターフエースをとる手段である。
第4図で、CPC20は複数のカードを含み、
各カード上に複数のモジユール(M)が配置され
ていることに留意されたい。
第5図は、本発明による保守支援サブシステム
(MSS)の図である。
第5図で、MSSは、支援プロセツサ(SP)1
0とCPC20の間に相互接続された第4図の
SSA15を含む。SP10はパーソナル・コンピ
ユータであり、ローカル・エリア・ネツトワーク
(LAN)接続を介して主プロセツサに接続されて
いる。LANは、ネツトワーク上の各ステーシヨ
ンに通信プロトコルを解釈するための処理形式を
必要とする。これは、SSA15カードに収納さ
れたSOLOマイクロプロセツサ15bによつてリ
ンクのラツク側で処理される。SOLOは、LAN
接続を受け入れて要求された動作を、RMAモジ
ユール(R−MAPアダプタ)15cに含まれる
1連のメモリ・マツプ式バツフアに転送する働き
をする。RMA15cにより、CPC20は拡張並
列保守インターフエース(EPMI)と呼ばれるイ
ンターフエースを介してRMA15c内のこれら
のバツフアにアクセスでき、必要な機能が物理的
に実現される。CPC20は1次保守
(PRIMAINT)インターフエース20aと2次
保守(SECMAINT)インターフエース20bを
含む。1次保守インターフエース20aは論理的
に2つの部分、すなわち、1次ユニツトと2次マ
スタ・イメージ・ユニツト(図示せず)に分かれ
る。1次ユニツトは、RMA15cと2次保守イ
ンターフエース20bの間でデータをパスする移
動インターフエースとして働く。2次マスタ・イ
メージ・ユニツトは、1次ユニツトがあるクロツ
ク保守カード上の論理機能を操作し、かつ2次保
守インターフエース20b上の他のすべての2次
ユニツトを比較して動作が適切に行なわれること
を確認する際の基準となる2次ユニツトとしても
機能する。2次保守インターフエース20bは、
SP10から要求される動作を実際に実行する。
2次保守インターフエース20bチツプは、通
常、CPC20のあらゆるカード上にあり、CPC
20の各論理チツプとのインターフエースを取
る。このため、論理チツプの走査を行なうことが
できる。第5図では、1次保守インターフエース
20aは、拡張並列保守インターフエース
(EPMI)を介してSSA15のRMA15cに接続
されている。1次保守インターフエース20a
は、(第4図に示すように)CPC20の各カード
の2次保守インターフエース20bに接続され、
2次保守インターフエース20bはCPC20の
各カード上の各論理チツプとのインターフエース
を取る。
第6図に、第5図の1次保守インターフエース
20aのより詳しい構成を示す。
第6図で、1次保守インターフエース20a
は、第1の論理部分20a1と第2の論理部分2
0a2を含む。第1論理部分20a1は、2次保
守インターフエース20bから1次保守インター
フエース(PMI)システム割込み線を受け、シ
ステム割込みレジスタ20a1bに接続される方
向制御論理機能20a1aを含む。システム割込
みレジスタ20a1bには、SSA15のSOLOマ
イクロプロセツサ15b内で実行されるR−
MAP DE(0:15)コマンドが入る。システム割
込みレジスタ20a1bは、第2論理部分20a
2のORゲート20a2aに接続されている。第
2論理部分20a2は、第2論理部分20a2の
割込み状況レジスタ20a2bのある位置に接続
されたORゲート20a2aを含み、状況レジス
タ20a2bには、SSA15のSOLOマイクロプ
ロセツサ15b内で実行されるR−MAP F0
(0:4)コマンドが入る。状況レジスタ20a
2bは第2論理部分20a2のORゲート20a
2cに接続され、このORゲートは、SSA15の
RMA15cを付勢するシステム割込み信号を生
成する。割込み状況レジスタ20a2bは、5ビ
ツトを保持でき、各ビツトが、特定の割込み状況
形式を表わす。これらの各形式を、第6図で、割
込み状況レジスタ20a2bの隣にリストする。
第7図に、第5図の2次保守インターフエース
20bのより詳しい構成を示す。
2次保守インターフエース20bは、割込み形
式レジスタ20b1を含む、レジスタ20b1
は、CPC20の各カード上の論理チツプからの
割込み線を受ける。割込み形式レジスタ20b1
には、SSA15のSOLOマイクロプロセツサ15
b内で実行されるR−MAP D6(1:8)コマ
ンドが入る。割込み形式レジスタ20b1はOR
ゲート20b2に接続され、ORゲート20b2
は、1次保守インターフエース20aを付勢する
システム割込み信号を生成する。割込み形式レジ
スタ20b1は、8ビツトを保持でき、各ビツト
が特定の割込み形式を表わす。割込み形式を、第
7図で割込みレジスタ20b1の隣にリストす
る。
以下では、第5図ないし第7図を主に参照し、
第1図ないし第4図を補助的に参照して、本発明
の保守支援サブシステム(MSS)の機能の説明
を行なう。
システム支援アダプタ(SSA)15は、支援
プロセツサ(SP)10と主プロセツサの中央プ
ロセツサ複合体(CPC)20の間に配設されて
いる。SSA15は、CPC20からSP10に向か
う途中の機械チエツク信号を傍受する。この信号
を受けると、SSA15はCPC20に照会して、
機械チエツク及びその結果発生する損害を分離す
るのに不可欠な誤りデータをすべて収集してか
ら、SP10に機械チエツク信号と誤りデータを
同時に提示する。機械チエツク誤りデータ収集機
構(第5図参照)は主プロセツサのCPC20上
にあり、CPCのあらゆる論理カード上の事前定
義されたレジスタ位置に入る、マイクロコードで
駆動される一連の迅速保守アクセス経路
(RMAP)コマンドを起動する。これらのレジス
タの内容が、SSA15に送られる。RMAPコマ
ンドは独立した固有の保守クロツクだけに基づい
て実行されるので、システム・クロツクは、デー
タの収集中にどの論理カード上でも停止する必要
はない。保守クロツクはCPCクロツク速度で動
作する。事前定義されたレジスタ位置から収集さ
れた誤りデータは、機械チエツクの発生源、(チ
エツクの広がりを示す)機械チエツクのレベル、
及び機械チエツクの形式(たとえば、システム機
械チエツクか保守形式の機械チエツクか)を記述
する。誤りデータがSSA15によつて収集され
SSA15のメモリ・バツフア記憶域に記憶され
た後、SSA15により機械チエツク割込み信号
が重要な誤り情報と同時にSP10に提示される。
SP10は、システム内での割込みの量を制限し
ながらより好都合な形で必要なサービスを行なう
ので、ダウン時間が最小となり、システム全体の
可用性が増大する。
第5図で、各2次保守インターフエース20b
はそれぞれCPC20のカード上に常駐する。特
定の2次保守インターフエース20bがその関連
するカードから機械チエツク割込み信号を傍受す
ると、その2次保守インターフエースは、PMI
システム割込み線を活動状態の1次保守インター
フエース20aにセツトする。すなわち、第6図
の方向制御論理機能20a1aに入力される
PMIシステム割込み線は活動状態にある。その
結果、第6図の1次保守インターフエース20a
のシステム割込みレジスタ20a1bがセツトさ
れ、第6図の1次保守インターフエース20aの
システム割込み状況ラツチ20a2bがセツトさ
れる。したがつて、第6図の1次保守インターフ
エース20aのORゲート20a2cからSSA1
5のRMA15cに出るシステム割込み線が活動
状態になる。それを受けて、第5図において、
RMA15cがSOLOマイクロプロセツサ15b
に割込み、その結果、SSAメモリ・ランダム・
アクセス・メモリ(RAM)に常駐する割込み処
理コードを開始する。割込み処理コードは一連の
RMAP読取りコマンドを含む。これらのコマン
ドは主プロセツサのCPC20の各カードに常駐
する2次保守インターフエースから誤り/機械デ
ータを収集するように、設計されている。SOLO
マイクロプロセツサ15bは、割込み処理コード
に関連するRMAP読取りコマンドを実行して、
2次保守インターフエースから誤り/機械データ
を収集する。誤り/機械データは、機械チエツク
を示したCPC20の各カード上の各2次保守イ
ンターフエースからSSA15によつて以下の方
法で収集される。
(1) 第6図で、SSA15のSOLOマイクロプロセ
ツサ15bによつて実行される読取りコマンド
F0(0:4)は、第6図の1次保守インターフ
エース20aの割込み状況レジスタ20a2b
の内容を提供する。このコマンドはCPC20
内で発生する割込みの形式を捕捉する。
(2) 第6図で、SOLOマイクロプロセツサ15b
によつて実行される読取りコマンドDE(0:
15)は、第6図の1次保守インターフエース2
0aのシステム割込みレジスタ20a1bに入
る。このコマンドは2次保守インターフエース
から傍受された割込み信号の発生源を捕捉す
る。
(3) 第7図で、SOLOマイクロプロセツサ15b
によつて実行される読取りコマンドD6(1:
8)は、CPC20の各論理カード上のシステ
ム割込みレジスタ20a1bによつて指示され
る、第7図の各2次保守インターフエース20
bの割込み形式レジスタ20b1に入り、機械
チエツク割込みのレベルを捕捉する。このレベ
ルは、事前定義された現場交換可能ユニツト
(FRU)の境界内で行なわれるクロツク動作を
示し、このクロツク動作は再試行概念の一環と
して設計されている。
(4) SSA15のSOLOマイクロプロセツサ15b
によつて実行される読取りコマンド00−0F(図
示せず)は、各論理カードの2次保守インター
フエースの機械チエツク・ラツチとともに補足
及びロツクアウト・レジスタを探索し、これに
よつて(欠陥分離のため)最初の機械チエツク
の発生を判定するとともに論理カードで生じた
すべての機械チエツクを補足する。これは、機
械チエツクが生じたことを示した各2次保守イ
ンターフエースについて行なわれる。
(5) 第7図で、SOLOマイクロプロセツサが、機
械チエツクが存在していることを示した各1次
保守インターフエース20aごとに読取りコマ
ンド0A−0Fを実行することが可能である。こ
の読取りコマンドの実行の結果は、どの2次保
守インターフエースが機械チエツクを捕捉した
かを示すと共に(追加的欠陥分離のために)機
械チエツクを示す第1の2次保守インターフエ
ースを示す。割込み形式1の機械チエツクでは
(割込み形式1の機械チエツクがレベル1/2機械
チエツクであることを示す第7図を参照)、機
械チエツクを示したCPC20の各カード上の
各2次保守インターフエースを完全に走査し
て、その機械チエツクに関する詳細な情報を得
ることも可能である。
初期機械チエツク割込み信号をSSA15の
SOLOマイクロプロセツサ15bが受け取り、全
ての誤り/機械データをSOLO15bが上記の手
順に従つて収集した後、SOLO15bによつて収
集された初期機械チエツク割込み信号とすべての
誤り/機械データが、分析、回復及び記録のため
同時にSSA15から支援プロセツサに送られる。
再試行マイクロコードがSPによつて呼び出され
ると、機械チエツクが発生したことが明らかなだ
けでなく、初期分析及び回復手順を実行するのに
十分な量の機械チエツクについての情報もあるこ
とが明らかである。場合によつては、CPC20
に追加データを供給する必要なくチエツクを完全
に分析するのに十分な情報が利用できることがあ
る。これは、機械チエツク発生1回当りのサービ
ス・タイムを減少させるには非常に重要なことで
ある。関連する機械チエツク・データと機械チエ
ツク割込み信号をSPへ同時に送ることにより、
処理や機械チエツクからの回復に必要な時間が減
る。従来技術では、機械チエツク情報は、プロセ
ツサのダウン時間を犠牲にして、SPのラツチ値
を走査し比較する長い処理によつてしか決定でき
なかつた。機械チエツク割込み信号と一緒にSP
に送られるデータは、機械チエツクの数、位置、
レベル(形式)及び順序を示す。SP中の再試行
マイクロコードは、この情報から機械チエツクを
分析し、もつとデータを得るために走査が必要か
つ可能であるかどうか判定することができる。割
込み形式1の機械チエツク(第7図参照)では、
2次保守インターフエースについての走査データ
も機械チエツク割込み信号と一緒に送られる場
合、再試行マイクロコードはそれ以上の走査を必
要としない。再試行マイクロコードは、データを
分析した後、機械チエツクから回復するために
CPCに送る必要のあるリセツトまたは再構成あ
るいはその両方を決定する。次いで再試行マイク
ロコードは可能ならプロセツサを再起動する。最
後に、機械チエツク・データが将来の参照及び分
析のため記録される。SPに初期割込み信号と誤
り/機械データの両方が同時に提示されるため、
問題の領域を分離してアドレスできるので、SP
はシステム・レベルの干渉の量を制限することが
できる。マルチプロセツサ構成では、この結果、
システムの可用性が増大する。
第8図に、1次保守インターフエース20aの
保守割込み収集機能を示す。
第8図で、保守割込み収集機能は、第6図に示
したものと同じ第2の論理部分20a2を含む
が、それは第3の論理部分20a3に接続されて
いる。第3論理部分20a3は、ロツクアウト論
理機能20a3aを含み、論理機能20a3a
は、CPC20の各カード上にある2次保守イン
ターフエース20bからのPMI保守割込み(1
次保守割込み)線に接続されている。ロツクアウ
ト論理機能20a3aは、MNT割込みレジスタ
20a3bに接続され、MNT割込みレジスタ2
0a3bには、SOLOマイクロプロセツサ15b
で実行中のRAMP FE(0:15)読取りコマンド
が入る。MNT割込みレジスタ20a3bの各ビ
ツトは、ANDゲート20a3d中のMNT割込
みマスク・レジスタ20a3cの同様のビツトに
接続され、ANDゲート20a3dの出力は、第
2論理部分20a2のORゲート20a2aの入
力に接続されている。第3論理部分20a3は、
ORゲート20a2aに接続されたMNT割込み
マスク・レジスタ20a3cを含む。通常通り、
第6図及び第8図に示した第2論理部分のORゲ
ート20a2cは、SSA15のRMA15cに通
じるシステム割込み線をもつ。
次に、第8図の保守割込み収集機能の動作につ
いて詳しい機能の説明を行なう。
SSA15のRMA15cに伝えらる割込みの形
式は5種ある。(1)2次保守割込み、(2)検査バイト
不一致割込み、(3)2次システム割込み、(4)無効コ
マンド割込み、及び(5)無効2次割込み。上記のい
ずれかの割込みと関連する初期システム割込み信
号は、第8図に示すように、読取りコマンドR−
MAP F0(0:4)を用いて1次保守インターフ
エース20aの第2論理部分20a2の割込み状
況レジスタ20a2bの内容を読み取ることによ
り、1次保守インターフエース20aレベルで検
出される。以下で、これらの割込み、それに関連
するハードウエア及びそれにサービスするのに必
要なステツプについて説明する。
1次保守インターフエース20aと2次保守イ
ンターフエース20bの間の通信信号に問題が発
生したり、特定の2次保守インターフエース20
bによつて監視されるチツプ上にデータ・パリテ
イが存在すると、その特定の2次保守インターフ
エース20bは、関連する1次保守インターフエ
ース20aに通じるそのPMI保守割込み線を、
割込みの発生を示すようにセツトする。そうする
と、第8図に示すように、関連する1次保守イン
ターフエース20a中で、MNT割込みレジスタ
20a3bの保守割込みレジスタ・ビツトがセツ
トされ、MNT割込み状況ラツチ20a2bがセ
ツトされる。このため、第8図の1次保守インタ
ーフエース20aは、SSA15のRMA15cに
通じるシステム割込み線をセツトする。RMA1
5cに通じるシステム割込み線がセツトされる
と、第2論理部分20a2の割込み状況ラツチ2
0a2bの内容が、SOLOマイクロプロセツサ1
5bで実行中の読取りコマンド、R−MAP F0
(0:4)に応じてRMA15cを介してSOLOマ
イクロプロセツサ15bに読み取られ、発生した
割込みの形式が判定される。RMA15cに伝え
られた割込みが、「2次保守割込み」と呼ばれる
形式である場合、保守割込みビツト、すなわち割
込み状況ラツチ20a2bのビツト・ゼロがセツ
トされる。特定の障害のある2次保守インターフ
エース20b(複数個あることがある)の識別は、
SSA15のSOLOマイクロプロセツサで実行中の
読取りコマンドR−MAP FE(0:15)を用いて
MNT割込みレジスタ20a3bを読み取ること
によつて決定できる。MNT割込みレジスタ20
a3bのいずれかのビツト位置が「1」になる
と、その「1」が入つているレジスタ20a3b
のビツト位置で識別される特定の2次保守インタ
ーフエース20bに誤りがあつたことを示す。誤
りのある2次保守インターフエースが複数個ある
こもある。したがつて、MNT割込みレジスタ2
0a3bの様々なビツト位置に複数の「1」ビツ
トが記憶されていることもある。複数の2次保守
インターフエース20bに誤りがある場合、各2
次保守インターフエースに別々にサービスしなけ
ればならない。次に、2次保守インターフエース
からの割込みを禁止して、1次保守インターフエ
ース20aとSSA15のRMA15cの間で、拡
張並列保守インターフエース(EPMI)システム
割込み線を低レベルにして、他のシステム割込み
が検出できるようにしなければならない。2次保
守インターフエースからの割込みを禁止するた
め、第8図のMNT割込みマスク20a3cの内
容を、SOLOマイクロプロセツサ15bで実行中
の書込みコマンドR−MAP FE(0:15)に応じ
てSOLOマイクロプロセツサ15bが書き込む。
「保守割込み禁止」コマンド(IMM FE)がマイ
クロプロセツサ15bによつて発行される。その
結果、割込みレジスタ20a3d内の(MNTマ
スク・レジスタ20a3cの「1」ビツトによつ
て指示される)割込みを禁止しなければならない
2次保守インターフエースに対応するビツト位置
に「1」が重ね書きされる(他のビツト位置は
「0」である)。2次保守インターフエース20b
からの割込みを禁止すると、マイクロプロセツサ
15bは2次保守インターフエースを走査するこ
とにより2次保守インターフエースに照会するこ
とができる。受け取つた誤りデータはマイクロプ
ロセツサ15bによつて処理される。問題の判定
後に、その2次保守インターフエース及びそれに
関連する割込み経路をリセツトしなけらばならな
い。そうするには、SP10に記憶された所定の
テーブルからSP10中の関連する初期マイクロ
コード・ロード(IML)データを走査する。1
次保守インターフエース20aのMNT割込みレ
ジスタ20a3bをリセツトしなけらばならな
い。このレジスタをリセツトするには、対応する
MNT割込みマスク20a3cを、リセツトが必
要なビツト位置に「1」を入れて(他のビツト位
置は「0」)重ね書きしなければならない。
SOLOマイクロプロセツサ15bによつて実行さ
れる「MNT割込みリセツト」(1MM F2)コマ
ンドが、割込み20a3cにこの「1」を重ね書
きする。最後に、MNT割込みを可能にしなけれ
ばならない。
第9図に、1次保守インターフエース20a検
査バイト不一致割込み収集機能を示す。
第9図で、検査バイト不一致割込み収集機能
は、第6図に示したものと同じ第2の論理部分2
0a2を含むが、それは第4の論理部分20a4
に接続されている。第4論理部分20a4は、
CPC20の各カード上にある2次保守インター
フエース20bからのPMI1次保守割込みシステ
ム割込み線に接続された方向制御論理機能20a
4aを含む。方向制御論理機能20a4aは、
CBM(検査バイト不一致)割込みレジスタ20a
4bに接続され、割込みレジスタ20a4bには
SOLOマイクロプロセツサ15bで実行中の
RMAP FC(0:15)読取りコマンドが入る。
CBM割込みレジスタ20a4bは、割込みマス
ク20a4bの関連ビツトをもつANDゲート2
0a4bを介して第2論理部分20a2のORゲ
ート20a2aの入力に接続されている。第3論
理部分20a3も、ORゲート20a2aに接続
されたCBM割込みマスク・レジスタ20a4c
を含む。通常通り、第6図及び第9図に示すよう
に第2論理部分のORゲート20a2cはSSA1
5のRMA15cへのシステム割込み線をもつ。
次に、第9図の検査バイト不一致割込み収集機
能の動作について機能の説明を行なう。
CPC20の論理チツプはそれぞれ走査リング
と呼ばれるものを含む。誤りデータの有無につい
て2次保守インターフエース20b論理チツプが
走査された後、2次保守インターフエース20b
は、走査リング中に走査された最初の検査バイト
と走査リングから走査された最後のバイトの比較
を行なう。不一致が検出されると、2次保守イン
ターフエース20bは、所定の1サイクル・ウイ
ンドウの間に線上に誤り信号を載せることによ
り、PMIシステム割込み線を使つて誤り信号を
1次保守インターフエース20aに提示する(他
の場合には、この線は通常のシステム割込み信号
を提示する)。1次保守インターフエースは、こ
の誤りを検出すると、検査バイト不一致(CBM)
レジスタ、CBM割込みレジスタ20a4bの1
ビツトをセツトする。したがつて、CBM割込み
状況ラツチ20a2bがセツトされ、そのために
1次保守インターフエースが、SSA15のRMA
15cに通じる「システム割込み」線をセツトす
る。RMA15c(「システム割込み」線)に通じ
る検査バイト不一致割込み線がセツトされると、
SSA15のSOLOマイクロプロセツサ15cで実
行中の読取りコマンドR−MAP F(0:4)に
応じて、割込み状況レジスタ20a2bが読み取
られ、発生した割込みの形式が決定される。検査
バイト不一致割込みが発生すると、CBM割込み
レジスタ20a4bのビツトが、関連する2次保
守インターフエース20bからのPMIシステム
割込み線によつてセツトされる。したがつて、2
次保守インターフエース20bは、CBM割込み
レジスタ20a4bを読み取ることによつて識別
できる。CBM割込みレジスタ20a4bには、
SSA15のSOLOマイクロプロセツサ15bで実
行中の読取りコマンドR−MAP FC(0:15)が
入る。レジスタ20a4bの任意のビツト位置が
「1」になると、レジスタ20a4bのビツト位
置で示される、対応する2次保守インターフエー
ス20bに誤りがあることを示す。複数の2次保
守インターフエースに誤りがある場合、レジスタ
20a4b中に複数の対応する「1」ビツトが現
われ、それぞれ個別にサービスしなければならな
い。次に、2次保守インターフエースからの割込
みを禁止しなければならない。そうすると、1次
保守インターフエース・システム割込み線が低レ
ベルになり(EPMI線)、他の割込みが検出でき
る。障害のある2次保守インターフエースからの
割込みを禁止するには、「CBM割込み禁止」コマ
ンド(IMM FC)を、SOLOマイクロプロセツ
サ15bが出さなければならない。このコマンド
は、CBM割込みマスク・レジスタ20a4bの
割込み禁止が必要なビツト位置、すなわち、障害
のある2次保守インターフエースに対応するビツ
ト位置に「1」を重ね書きする(他のビツト位置
は「0」のままである)。次に、SOLOマイクロ
プロセツサ15bは、診断コマンドを用いて2次
保守インターフエース20bに照会し、受け取つ
た誤りデータをそれに応じて処理することができ
る。誤りデータを受け取つて処理した後、2次保
守インターフエース及び関連する割込み経路をリ
セツトしなければならない。2次保守インターフ
エースは「CBMリセツトコマンド」によつて2
次レベルでリセツトされる。次いで、1次保守イ
ンターフエースのCBM割込みレジスタ20a4
bを、リセツトしなければならない。このレジス
タをリセツトするには、SOLOマイクロプロセツ
サ15bが、「CBM割込み」コマンドを実行す
る。このコマンドは、CBM割込みマスク20a
4cのリセツトが必要な位置に「1」を書き込
む。これによつて、CBM割込みレジスタ20a
4bがリセツトされる。
以上、本発明について説明したが、様々な変形
が可能なことは明らかである。こうした変形は本
発明の精神及び範囲からの逸脱とみなされず、当
業者にとつて自明な修正は、すべて頭記の特許請
求の範囲に含まれるものと意図される。
E 発明の効果 本発明により、初期機械チエツク割込み信号、
機械チエツクの発生源、及び損害の程度を同時に
コンピユータ・システムの支援プロセツサに提示
することができる。
【図面の簡単な説明】
第1図は、本発明の誤り割込み・誤りデータ収
集システムの概略説明図である。第2図は、従来
技術の誤り割込み・誤りデータ収集システムの概
略説明図である。第3図は、第1図の誤り割込
み・誤りデータ収集システムの3次元概略説明図
である。第4図は、第3図の支援プロセツサ
(SP)と中央プロセツサ複合体(CPC)に接続さ
れた第3図のSSAカードのより詳細な説明図で
ある。第5図は、第4図のSSAカードに接続さ
れた第1図、第3図及び第4図のCPCのより詳
細な説明図を含む、本発明による、保守支援サブ
システム(MSS)の説明図である。第6図は、
第5図の1次保守(PRIMAINT)インターフエ
ースのうち、1次システム割込み収集機能を表わ
す部分の実施例を示す説明図である。第7図は、
第5図の2次保守(SECMAINT)インターフエ
ースのうち、2次システム割込み収集機能を表わ
す部分の実施例を示す説明図である。第8図は、
第5図の1次保守インターフエースのうち、1次
保守割込み収集機能を表わす別の部分の実施例を
示す説明図である。第9図は、第5図の1次保守
インターフエースのうち、1次チエツクバイト不
一致割込み収集機能を表わすさらに別の部分の実
施例を示す説明図である。 10……支援プロセツサ(SP)、15……シス
テム支援アダプタ(SSA)、15a……LANイン
ターフエース、15b……SOLOマイクロプロセ
ツサ、15c……迅速保守アクセス(RMA)ア
ダプタ、20……中央プロセツサ複合体
(CPC)、20a……1次保守インターフエース、
20b……2次保守インターフエース。

Claims (1)

  1. 【特許請求の範囲】 1 中央プロセツサ複合体からの機械チエツク割
    込み要求を収集分析する方法であつて、 前記中央プロセツサ複合体の各論理カードにつ
    いて、誤りデータの存在を検出する誤り信号を発
    生し、該誤り信号に応答して割込み要求を発生す
    る段階と、 保守インターフエースにおいて、前記論理カー
    ドから発生したすべての割込み要求を収集し、割
    込み状況レジスタに各割込み要求の形式に関する
    データを記憶するとともに、システム割込みレジ
    スタに各割込み要求の発生源に関するデータを記
    憶する段階と、 前記保守インターフエースでの前記割込み要求
    の受取りに応答してシステム割込み要求を発生
    し、該システム割込み要求をシステム支援アダプ
    タに伝送する段階と、 前記システム割込み要求に応答して、前記シス
    テム支援アダプタ中のプロセツサから前記保守イ
    ンターフエースに読取りコマンドを発生し、該保
    守インターフエースの前記割込み状況レジスタの
    内容を読取つて各論理カードについて発生した割
    込み要求の形式を決定するとともに、前記システ
    ム割込みレジスタの内容を読取つて割込み要求の
    発生源を決定する段階と、 前記システム支援アダプタにより読取られた割
    込み要求の形式及び発生源に関する前記データと
    ともに、割込み要求の発生を支援プロセツサへ提
    示する段階と、 を有する機械チエツク割込み要求の収集分析方
    法。 2 中央プロセツサ複合体からの機械チエツク割
    込み要求を収集分析するシステムであつて、 前記中央プロセツサ複合体の複数の論理カード
    の各々に関係付けられ、各論理カードの複数の保
    守動作を実行して検査し、該保守動作より生成さ
    れた誤りデータを記憶し、データ誤りの発生時に
    は割込み要求を発生する2次保守インターフエー
    スと、 前記2次保守インターフエースにより発生され
    た割込み要求を収集する1次インターフエース
    と、 前記1次インターフエースがいつ割込み要求を
    受け取るかを監視し、前記2次保守インターフエ
    ースから前記データを読み取り、かつこの読取つ
    たデータをローカル・エリア・ネツトワークを通
    じて転送するプロセツサを含むシステム支援アダ
    プタと、 前記ローカル・エリア・ネツトワークを介して
    前記システム支援アダプタに接続され、前記読取
    つたデータを受け取つてこれを処理する支援プロ
    セツサと、 を備えた機械チエツク割込み要求の収集分析シス
    テム。
JP1099052A 1988-06-30 1989-04-20 機械チェック割込み要求の収集分析方法及び収集分析システム Granted JPH0227450A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US07/213,560 US5267246A (en) 1988-06-30 1988-06-30 Apparatus and method for simultaneously presenting error interrupt and error data to a support processor
US213560 1998-12-17

Publications (2)

Publication Number Publication Date
JPH0227450A JPH0227450A (ja) 1990-01-30
JPH0465411B2 true JPH0465411B2 (ja) 1992-10-20

Family

ID=22795576

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1099052A Granted JPH0227450A (ja) 1988-06-30 1989-04-20 機械チェック割込み要求の収集分析方法及び収集分析システム

Country Status (4)

Country Link
US (1) US5267246A (ja)
EP (1) EP0348704B1 (ja)
JP (1) JPH0227450A (ja)
DE (1) DE68922440T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2268292A (en) * 1992-06-16 1994-01-05 Ibm Error handling in a state-free system
US5515501A (en) * 1994-01-21 1996-05-07 Unisys Corporation Redundant maintenance architecture
US5864659A (en) * 1995-03-07 1999-01-26 Intel Corporation Computer server with improved reliability, availability and serviceability
US5675768A (en) * 1996-02-01 1997-10-07 Unisys Corporation Store software instrumentation package instruction
US6000040A (en) * 1996-10-29 1999-12-07 Compaq Computer Corporation Method and apparatus for diagnosing fault states in a computer system
US6502208B1 (en) 1997-03-31 2002-12-31 International Business Machines Corporation Method and system for check stop error handling
US6065139A (en) * 1997-03-31 2000-05-16 International Business Machines Corporation Method and system for surveillance of computer system operations
US6119246A (en) * 1997-03-31 2000-09-12 International Business Machines Corporation Error collection coordination for software-readable and non-software readable fault isolation registers in a computer system
US6557121B1 (en) 1997-03-31 2003-04-29 International Business Machines Corporation Method and system for fault isolation for PCI bus errors
US5951686A (en) * 1997-03-31 1999-09-14 International Business Machines Corporation Method and system for reboot recovery
US5872956A (en) * 1997-04-24 1999-02-16 International Business Machines Corporation Design methodology for device drivers supporting various operating systems network protocols and adapter hardware
US6634505B1 (en) * 1999-04-26 2003-10-21 Durex Products, Inc. Sieve bed for a sifting machine
US6957741B2 (en) * 2001-08-07 2005-10-25 Manfred Franz Axel Freissle Screening arrangement
WO2004042580A1 (fr) * 2002-10-29 2004-05-21 Stmicroelectronics S.A. Correlation temporelle de messages transmis par un circuit de surveillance d'un microprocesseur
US7339885B2 (en) * 2003-06-05 2008-03-04 International Business Machines Corporation Method and apparatus for customizable surveillance of network interfaces
US7367016B2 (en) * 2003-07-14 2008-04-29 Sun Microsystems, Inc. Method and system for expressing the algorithms for the manipulation of hardware state using an abstract language
US20070088988A1 (en) * 2005-10-14 2007-04-19 Dell Products L.P. System and method for logging recoverable errors
US8122291B2 (en) * 2010-01-21 2012-02-21 Hewlett-Packard Development Company, L.P. Method and system of error logging
JP2016186719A (ja) * 2015-03-27 2016-10-27 富士通株式会社 入出力制御装置、情報処理装置及び入出力制御装置の制御方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56118128A (en) * 1980-02-22 1981-09-17 Matsushita Electric Ind Co Ltd Interruption controlling system for peripheral control chip of microcomputer

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3930146A (en) * 1974-01-18 1975-12-30 Gte Automatic Electric Lab Inc Input/output controller maintenance arrangement for a communication switching system
DE3237716C2 (de) * 1982-10-12 1984-09-06 Aeg-Elotherm Gmbh, 5630 Remscheid Wechselrichter für einen Parallel-Schwingkreis-Umrichter
JPS59100959A (ja) * 1982-12-02 1984-06-11 Hitachi Ltd 複合プロセツサシステム
NO843375L (no) * 1983-10-06 1985-04-09 Honeywell Inf Systems Databehandlingssystem og fremgangsmaate til vedlikehold samt anrodning
US4627054A (en) * 1984-08-27 1986-12-02 International Business Machines Corporation Multiprocessor array error detection and recovery apparatus
US4701845A (en) * 1984-10-25 1987-10-20 Unisys Corporation User interface processor for computer network with maintenance and programmable interrupt capability
US4868818A (en) * 1987-10-29 1989-09-19 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fault tolerant hypercube computer system architecture

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56118128A (en) * 1980-02-22 1981-09-17 Matsushita Electric Ind Co Ltd Interruption controlling system for peripheral control chip of microcomputer

Also Published As

Publication number Publication date
EP0348704B1 (en) 1995-05-03
DE68922440T2 (de) 1996-01-25
DE68922440D1 (de) 1995-06-08
EP0348704A2 (en) 1990-01-03
JPH0227450A (ja) 1990-01-30
US5267246A (en) 1993-11-30
EP0348704A3 (en) 1991-08-07

Similar Documents

Publication Publication Date Title
JPH0465411B2 (ja)
US4775976A (en) Method and apparatus for backing up data transmission system
EP0179425B1 (en) Maintenance subsystem for computer network
EP0010211B1 (en) Data storage subsystem comprising a pair of control units and method for the automatic recovery of data from a defaulting one of these control units
JPH02202638A (ja) 多重プロセッサを備えたフォールトトレラントなコンピュータシステム
JPH01154240A (ja) 単一レールインターフェイスにエラーチェック機能を有する二重レールプロセッサ
JPH01154242A (ja) 二重ゾーンの耐欠陥コンピュータシステム
JP2996440B2 (ja) データ処理システムの診断方式
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPS6119061B2 (ja)
JPH02132528A (ja) 二重化処理装置におけるチェック方法
JP3127941B2 (ja) 二重化装置
JP2645021B2 (ja) バス異常検査システム
JPH05224964A (ja) バス異常通知方式
KR940006834B1 (ko) 다중처리기 시스템에서 처리기들 간의 인터럽트 기능장애 진단 및 복구자료 산출방법
JP3334174B2 (ja) 障害処理検証装置
JPH0434184B2 (ja)
JP2584466B2 (ja) ディスクコントローラの自己診断方法
JPS61195444A (ja) コンピユ−タシステム
JP3340284B2 (ja) 冗長システム
JP3019409B2 (ja) マルチプロセッサシステムのマシンチェックテスト方法
JP3341738B2 (ja) メモリのエラー検出方式
JPH02297650A (ja) 受信装置
JPH0746344B2 (ja) 通信システムの障害情報収集方法
JPH0553934A (ja) バスライン監視方式