JPH0224731A - エラー処理方法 - Google Patents

エラー処理方法

Info

Publication number
JPH0224731A
JPH0224731A JP63175561A JP17556188A JPH0224731A JP H0224731 A JPH0224731 A JP H0224731A JP 63175561 A JP63175561 A JP 63175561A JP 17556188 A JP17556188 A JP 17556188A JP H0224731 A JPH0224731 A JP H0224731A
Authority
JP
Japan
Prior art keywords
degradation
machine check
processing routine
error
check processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63175561A
Other languages
English (en)
Inventor
Teru Shinohara
篠原 てる
Tsutomu Tanaka
勉 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP63175561A priority Critical patent/JPH0224731A/ja
Publication of JPH0224731A publication Critical patent/JPH0224731A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [概要] デグラデーション機能を有する情報処理装置におけるマ
シンチェック割り込み発生に係るエラー処理方法に関し
、 マシンチェック処理ルーチンが動作していない状態にお
いて障害が発生した場合は構成要素の早期のデグラデー
ションを行い、その後マシンチェック処理ルーチンが動
作可能になった時点で直ちにマシンチェック割り込みを
発生することができるようにすることを目的とし、 マシンチェック処理ルーチンが動作状態になるまでの期
間では、1回のエラー発生でデグラデーションを行い、 マシンチェック処理ルーチンが動作状態になると、直ら
にそのデグラデーションの事実を通知するためのマシン
チェック割り込みを発生させると共に、マシンチェック
処理ルーチンが動作状態になった後に発生するエラーに
ついては所定の回数でマシンチェック割り込みを発生さ
せるように構成する。
[産業上の利用分野〕 本発明は、一定回数の障害が発生すると部分的に構成要
素を切り離すデグラデーシ1ン機能を有する情報処理装
置において、オペレーティングシステムのローディング
の際、まだマシンチェック処理ルーチンが動作状態にな
いときのデグラデーションと、マシンチェック処理ルー
チンが動作可能になったときにマシンチェック割り込み
信号を発生させるエラー処理方法に関する。
近年のコンピュータシステムは、オンライン業務での大
量使用や、様々な分野への利用拡大に伴い、高信頼性が
要求されている。このため、障害の発生した構成要素を
より早期に検出し、切り離すこと(これをデグラデーシ
ョンという)により、システムダウンを減少させ、メン
テナンス時に部品交換を行う必要がある。
[従来の技術] 一般的にメモリ素子にはソフトウェア的エラーがある。
しかし、エラーがあったときに直ちに接続を切り離すの
は必ずしも有効でない。その理由は、ソフトエラーの殆
んどがRAM等へのデータ書込みミスであり、再トライ
することによりソフトエラーが解消することがあるから
である。このため従来はすべてのタイミングにおいてm
回(m〉1)のエラー検出によりデグラデーションを行
い、オペレーティングシステムのローディングの際、ま
だ、マシンチェック処理ルーチンが動作状態にないとき
のデグラデーションに対してはマシンチェックt18埋
ルーチンが動作可能になった後もマシンチェック割り込
みの発生は行わないようにしている。
しかしながら、このような方式では、バッファメモリな
どで障害箇所が複数あった場合、デグラデーションを行
ったにもがかわらず侵にマシンチェック割り込みが発生
しないのでエラー回復の処置を施さないままにしている
。そのため、リトライに失敗し、システムダウンするこ
とがある。また、割り込みの発生がないので、デグラデ
ーションの事実を知ることなく運用を続けてしまうこと
がある。
[発明が解決しようとする課題] すなわち、従来の方式では、リトライ失敗によるシステ
ムダウンや、デグラデーションの事実を知らずに性能低
下の状態のまま運用を継続してしまい、故障部品の交換
を迅速に行えない等の問題があった。
本発明はこのような課題に鑑みてみなされたものであっ
て、オペレーティングシステムのローディング(IPL
)時におけるまだマシンチェック処理ルーチンが動作し
ていない状態において障害が発生した場合は構成要素の
早期のデグラデーションを行い、その後マシンチェック
処理ルーチンが動作可能になった時点で直ちにマシンチ
ェック割り込みを発生することができるようにして、シ
ステムダウンを減少させ、障害の発生した構成要素を容
易に知り得るようにしたエラー処理方法を提供すること
を目的としている。
[課題を解決するための手段] 第1図は本発明の方法の原理フローである。本発明では
、 マシンチェック処理ルーチンが動作状態になるまでの期
間では、1回のエラー発生でデグラデーションを行うと
共にデグラデーションを行ったことを記憶しておき(ス
テップ■)、 マシンチェック処理ルーチンが動作状態になると直ちに
前記記憶に基づきデグラデーションの事実を通知するた
めのマシンチェック割り込みを発生させると共に、マシ
ンチェック処理ルーチンが動作状態になった後に発生す
るエラーについては所定のエラー発生回数でマシンチェ
ック割り込みを発生させる(ステップ■)ことを特徴と
している。
[作用] オペレーティングシステムのD−ディング(IPL)に
はマシンチェック処理ルーチンのローディングが含まれ
る。このローディングが済むまではマシンチェック処理
ルーチンが動作しないため、PSW (program
  5tatus Word )のMACHINE  
CI−IEcK  MASK(以下MCMと略す)フラ
グがOFFになっており、その状態ではデグラデーショ
ンが行われてもマシンチェック割り込みは発生しない。
本発明ではMCMフラグがOFFのときデグラデーショ
ンの対象となる構成要素がエラーを起こすと、1回のエ
ラーでデグラデーションを行うようにすると共に、デグ
ラデーションを行ったことを記憶しておく。
オペレーティングシステムのローディング終了後マシン
チェック処理ルーチンが動作状態になると(すなわち、
MCMフラグがONとなると)、前記記憶したデグラデ
ーションの事実からマシンチェック割り込みを行うため
の割り込み信号を発生ずる。また、マシンチェック処理
ルーチンが動作状態になった後では所定の回数だけエラ
ー発生があったときにマシンチェック割り込みを発生す
る。
[実論例1 第2図は本発明の方法を実施するための回路の一実施例
を示す要部構成図である。図において、G11はMCM
がON (MCM−ONの信号がHIGH>の間のみエ
ラー化@ERR−1を通過させるANDゲート、GI2
はMCMがOFF (MCMOFFの信号がHrGl−
1)の間のみエラー信号FRR−1を通過させるAND
ゲートである。CR1はエラー発生の回数を計数するデ
グラデーションカウンタ、DGIはデグラデーションラ
ッチである。
このようなゲート、hウンタ、デグラデーションカウン
タでなる構成部分は、他のエラー信号(ERR−2,E
RR−3,、、、)に対しても同一の構成である。
各デグラデーションカウンタの出力はORゲートG1で
ORされ、その出力信号は割り込み信号発生器INTG
ENに与えられる。割り込み信号発生器INTGENは
、ORゲートG1の出力信号が1−11GI−1になる
とマシンチェック削り込み信号を発生する。
他方、MCMフラグがOFFのときに入力ゲートが開く
各ゲートG12. G22. G32の出力は、ORゲ
ートG2でORされ、エラー信号保持用うッヂDG−R
のセット信号となる。ANDゲートG3では、このエラ
ー信号保持用ラッチDG−Rの出力とMCM−ON(7
)信号(MCM7ラグがONのときHI G Hとなる
信@)とのAN(5をとる。
このような構成における動作を第3図のタイムチャート
を参照して次に説明する。システムのパワーオンの後オ
ペレーティングシステムのローディング(I P L 
: I n1tial  p rogram  l o
ading)が行われる(これにはマシンチェック処理
ルーチンのローディングも含まれる)。このローディン
グが終了するまでの期間は、マシンチェック処理ルーチ
ンが動作しないためMCMフラグはOFF(MCM−O
Nの信号はLOW、MCM−OFFの信号はI−IIG
H)である。この期間中は、デグラデーションが行われ
ても、マシンチェック割り込み信号は発生しないが、デ
グラデーションラッチDG−Rは1回のエラー信号でセ
ットされる。
なお、デグラデーションの対象となる構成要素臼1が持
つデグラデーションラッチ(図示せず)もデグラデーシ
ョンの情報を保持するが、そこからはマシンチェック割
り込み信号は発生しない。
マシンチェック処理ルーチンのローディングが終了する
と、MCMフラグがONとなる(MCMON信号がl−
11GHとなる)。これにより、デグラデーションラッ
チDG−Rの出力は、ANDゲートG3を通って、マシ
ンチェック割り込み信号として出力される。MCMフラ
グがOFFのときにデグラデーションが行われなかった
ときは、エラー信号がないため、デグラデーションラッ
チ[)G−Rもリセット状態のままであり、MCMフラ
グがONになってもANDゲートG3からは当然マシン
チェック割り込み信号は出力しない。
MCMフラグがONになった後にデグラデーションが行
われた場合には、エラー信号はゲートG12(あるいは
G22またはG32)の方を通過してデグラデーション
カウンタCR1(あるいはCR2またはCR3)に入力
される。カウンタは、予め設定した数だけエラー発生を
カウントすると、そこではじめてデグラデーションラツ
チDG1 (あるいはDG2またはDG3)をセットす
る。割り込み信号発生器INTGENは、ORゲートG
1を経由して与えられる前記デグラデーションラッチD
GI (あるいはDG2またはDG3’)の出力信号に
よりマシンチェック割り込み信号を発生する。
なお、デグラデーションラッチDG−Rは、マシンチェ
ック割り込みがシステムに受は付けられると、システム
側から与えられるリセット信号によりリセットされる。
本発明では、特にMCMがOFFのときデグラデーショ
ンラッチが1回のエラーでオンとなるようにして、命令
リトライの最高回数弁だけデグラデーションを行うこと
ができるという利点がある。
この点を更に詳しく説明する。第4図は、命令リトライ
の最高回数を4とした場合のバッファメモリで、エラー
回数m−2とm−1の場合の例について示したものであ
る。
バッファメモリは、デグラデーションの対象となる構成
要素の中位として、複数のウェイ(WAY)を持つ。m
=2の場合、同図(a)に示すように、命令制御部(図
示せず)からWAYOにアクセスが来たときエラーがあ
ると命令リトライが行われるが、再度エラーがあると、
このWAYOはデグラデーションされ、デグラデーショ
ンラッチがオンとなる。
2回目のりトライは、次のWAYIに対して行われる。
このWAYIでもエラーがあると、3回目のりトライが
同じWAYlに対して行われる。
そのとき再びエラーがあると、WAYlのデグラデーシ
ョンラッチがオンとなる。
4回目のりトライは、次のWAY2に対して行われる。
この時リトライが成功すれば、WAYO。
WAYIの2つのWAYのデグラデーションが行われた
ことになるが、このWAY2も本来デグラデーションさ
れるべき故障要素であるので、再度エラーが・あった場
合にはシステムダウンとなってしまう。
他方、m−1の場合は、同図(b)に示すように、−度
エラーがあるとすぐデグラデーションされるため、デグ
ラデーションされるべき故障要素が、最高4つあった場
合までのデグラデーションが可能である。
したがって、m−1とした場合には、リトライ失敗の確
率を減少させ、システムダウンを防ぐことができる。更
に、MCMフラグがONとなった時にマシンチェック割
り込みを発生させることにより、この結果をオペレーテ
ィングシステムに通知し、システムダウンを減少させ、
メンテナンス時に部品交換を行うことができるなどの利
点がある。
[発明の効果] 以上説明したように、本発明によれば、障害の発生した
構成要素の早期の切り離しを行ってリトライの失敗を減
少させ、マシンチェック処理ルーチンが動作可能になっ
たときは直ちにデグラデーション割り込みを発生し、ソ
フトウェアに通知する。これにより、システムダウンを
減少させることができると共に、コンピュータシステム
の信頼性を向上・させることができる。
【図面の簡単な説明】
第1図は本発明の方法の原理フロー 第2図は本発明の方法を実施するための回路の一実施例
図、 第3図は動作を説明するためのタイムチャート、第4図
は命令リトライ回数とデグラデーションとの関係を示す
図である。 第2図において、 G11〜Q32.G3・・・ANDゲート、CRI〜C
R3・・・デラグレーションカウンタ、DG1〜DG3
・・・デグラデーションラッチ、G1.G2・・・OR
ゲート、 INTGEN・・・割り込み信号発生器、DG−R・・
・エラー信号保持用ラッチ。 角等 図

Claims (1)

  1. 【特許請求の範囲】 一定回数の障害が発生すると部分的に構成要素を切り離
    すデグラデーション機能を有する情報処理装置において
    、 マシンチェック処理ルーチンが動作状態になるまでの期
    間では、1回のエラー発生でデグラデーシヨンを行うと
    共にデグラデーションを行ったことを記憶しておき(ス
    テップ(1))、 マシンチェック処理ルーチンが動作状態になると、直ち
    に前記記憶に基づきデグラデーシヨンの事実を通知する
    ためのマシンチェック割り込みを発生させると共に、マ
    シンチェック処理ルーチンが動作状態になつた後に発生
    するエラーについては所定のエラー発生回数でマシンチ
    ェック割り込みを発生させる(ステップ(2)) ようにしたことを特徴とするエラー処理方法。
JP63175561A 1988-07-13 1988-07-13 エラー処理方法 Pending JPH0224731A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63175561A JPH0224731A (ja) 1988-07-13 1988-07-13 エラー処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63175561A JPH0224731A (ja) 1988-07-13 1988-07-13 エラー処理方法

Publications (1)

Publication Number Publication Date
JPH0224731A true JPH0224731A (ja) 1990-01-26

Family

ID=15998234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63175561A Pending JPH0224731A (ja) 1988-07-13 1988-07-13 エラー処理方法

Country Status (1)

Country Link
JP (1) JPH0224731A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0574477U (ja) * 1992-03-17 1993-10-12 シンガー日鋼株式会社 タオル生地の位置決め装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0574477U (ja) * 1992-03-17 1993-10-12 シンガー日鋼株式会社 タオル生地の位置決め装置

Similar Documents

Publication Publication Date Title
EP1380953B1 (en) Fault-tolerant computer system, re-synchronization method thereof and re-synchronization program thereof
US4339657A (en) Error logging for automatic apparatus
US6012148A (en) Programmable error detect/mask utilizing bus history stack
US20060150009A1 (en) Computer system and method for dealing with errors
EP0201356A2 (en) High level self-checking intelligent I/O controller
US6845469B2 (en) Method for managing an uncorrectable, unrecoverable data error (UE) as the UE passes through a plurality of devices in a central electronics complex
JPH07129426A (ja) 障害処理方式
JPH0227450A (ja) 機械チェック割込み要求の収集分析方法及び収集分析システム
US7346812B1 (en) Apparatus and method for implementing programmable levels of error severity
JP2770913B2 (ja) パリティの置換装置及び方法
EP0125797A1 (en) Interrupt signal handling apparatus
CN100392608C (zh) 错误通知方法及信息处理装置
JPH0224731A (ja) エラー処理方法
US20060195849A1 (en) Method for synchronizing events, particularly for processors of fault-tolerant systems
JPH0535616A (ja) データ転送システム
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
US4587654A (en) System for processing machine check interruption
JPS6146535A (ja) 擬似エラ−設定制御方式
JPS60543A (ja) 入出力制御装置の状態情報報告方法
JPS62113241A (ja) 障害回復装置
JPS60195649A (ja) マイクロプログラム制御型デ−タ処理装置におけるエラ−報告方式
JPS6339065A (ja) デ−タ転送装置
JPS6123240A (ja) デ−タ処理装置
JPS5896353A (ja) 情報処理装置の誤動作検出装置
JPH01236331A (ja) エラー検出方式