JPH0224731A

JPH0224731A - エラー処理方法

Info

Publication number: JPH0224731A
Application number: JP63175561A
Authority: JP
Inventors: Teru Shinohara; 篠原　てる; Tsutomu Tanaka; 勉田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1988-07-13
Filing date: 1988-07-13
Publication date: 1990-01-26

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［概要］デグラデーション機能を有する情報処理装置におけるマ
シンチェック割り込み発生に係るエラー処理方法に関し
、マシンチェック処理ルーチンが動作していない状態にお
いて障害が発生した場合は構成要素の早期のデグラデー
ションを行い、その後マシンチェック処理ルーチンが動
作可能になった時点で直ちにマシンチェック割り込みを
発生することができるようにすることを目的とし、マシンチェック処理ルーチンが動作状態になるまでの期
間では、１回のエラー発生でデグラデーションを行い、マシンチェック処理ルーチンが動作状態になると、直ら
にそのデグラデーションの事実を通知するためのマシン
チェック割り込みを発生させると共に、マシンチェック
処理ルーチンが動作状態になった後に発生するエラーに
ついては所定の回数でマシンチェック割り込みを発生さ
せるように構成する。

［産業上の利用分野〕本発明は、一定回数の障害が発生すると部分的に構成要
素を切り離すデグラデーシ１ン機能を有する情報処理装
置において、オペレーティングシステムのローディング
の際、まだマシンチェック処理ルーチンが動作状態にな
いときのデグラデーションと、マシンチェック処理ルー
チンが動作可能になったときにマシンチェック割り込み
信号を発生させるエラー処理方法に関する。

近年のコンピュータシステムは、オンライン業務での大
量使用や、様々な分野への利用拡大に伴い、高信頼性が
要求されている。このため、障害の発生した構成要素を
より早期に検出し、切り離すこと（これをデグラデーシ
ョンという）により、システムダウンを減少させ、メン
テナンス時に部品交換を行う必要がある。

［従来の技術］一般的にメモリ素子にはソフトウェア的エラーがある。

しかし、エラーがあったときに直ちに接続を切り離すの
は必ずしも有効でない。その理由は、ソフトエラーの殆
んどがＲＡＭ等へのデータ書込みミスであり、再トライ
することによりソフトエラーが解消することがあるから
である。このため従来はすべてのタイミングにおいてｍ
回（ｍ〉１）のエラー検出によりデグラデーションを行
い、オペレーティングシステムのローディングの際、ま
だ、マシンチェック処理ルーチンが動作状態にないとき
のデグラデーションに対してはマシンチェックｔ１８埋
ルーチンが動作可能になった後もマシンチェック割り込
みの発生は行わないようにしている。

しかしながら、このような方式では、バッファメモリな
どで障害箇所が複数あった場合、デグラデーションを行
ったにもがかわらず侵にマシンチェック割り込みが発生
しないのでエラー回復の処置を施さないままにしている
。そのため、リトライに失敗し、システムダウンするこ
とがある。また、割り込みの発生がないので、デグラデ
ーションの事実を知ることなく運用を続けてしまうこと
がある。

［発明が解決しようとする課題］すなわち、従来の方式では、リトライ失敗によるシステ
ムダウンや、デグラデーションの事実を知らずに性能低
下の状態のまま運用を継続してしまい、故障部品の交換
を迅速に行えない等の問題があった。

本発明はこのような課題に鑑みてみなされたものであっ
て、オペレーティングシステムのローディング（ＩＰＬ
）時におけるまだマシンチェック処理ルーチンが動作し
ていない状態において障害が発生した場合は構成要素の
早期のデグラデーションを行い、その後マシンチェック
処理ルーチンが動作可能になった時点で直ちにマシンチ
ェック割り込みを発生することができるようにして、シ
ステムダウンを減少させ、障害の発生した構成要素を容
易に知り得るようにしたエラー処理方法を提供すること
を目的としている。

［課題を解決するための手段］第１図は本発明の方法の原理フローである。本発明では
、マシンチェック処理ルーチンが動作状態になるまでの期
間では、１回のエラー発生でデグラデーションを行うと
共にデグラデーションを行ったことを記憶しておき（ス
テップ■）、マシンチェック処理ルーチンが動作状態になると直ちに
前記記憶に基づきデグラデーションの事実を通知するた
めのマシンチェック割り込みを発生させると共に、マシ
ンチェック処理ルーチンが動作状態になった後に発生す
るエラーについては所定のエラー発生回数でマシンチェ
ック割り込みを発生させる（ステップ■）ことを特徴と
している。

［作用］オペレーティングシステムのＤ−ディング（ＩＰＬ）に
はマシンチェック処理ルーチンのローディングが含まれ
る。このローディングが済むまではマシンチェック処理
ルーチンが動作しないため、ＰＳＷ　（ｐｒｏｇｒａｍ
　　５ｔａｔｕｓ　Ｗｏｒｄ　）のＭＡＣＨＩＮＥ　　
ＣＩ−ＩＥｃＫ　　ＭＡＳＫ（以下ＭＣＭと略す）フラ
グがＯＦＦになっており、その状態ではデグラデーショ
ンが行われてもマシンチェック割り込みは発生しない。

本発明ではＭＣＭフラグがＯＦＦのときデグラデーショ
ンの対象となる構成要素がエラーを起こすと、１回のエ
ラーでデグラデーションを行うようにすると共に、デグ
ラデーションを行ったことを記憶しておく。

オペレーティングシステムのローディング終了後マシン
チェック処理ルーチンが動作状態になると（すなわち、
ＭＣＭフラグがＯＮとなると）、前記記憶したデグラデ
ーションの事実からマシンチェック割り込みを行うため
の割り込み信号を発生ずる。また、マシンチェック処理
ルーチンが動作状態になった後では所定の回数だけエラ
ー発生があったときにマシンチェック割り込みを発生す
る。

［実論例１第２図は本発明の方法を実施するための回路の一実施例
を示す要部構成図である。図において、Ｇ１１はＭＣＭ
がＯＮ　（ＭＣＭ−ＯＮの信号がＨＩＧＨ＞の間のみエ
ラー化＠ＥＲＲ−１を通過させるＡＮＤゲート、ＧＩ２
はＭＣＭがＯＦＦ　（ＭＣＭＯＦＦの信号がＨｒＧｌ−
１）の間のみエラー信号ＦＲＲ−１を通過させるＡＮＤ
ゲートである。ＣＲ１はエラー発生の回数を計数するデ
グラデーションカウンタ、ＤＧＩはデグラデーションラ
ッチである。

このようなゲート、ｈウンタ、デグラデーションカウン
タでなる構成部分は、他のエラー信号（ＥＲＲ−２，Ｅ
ＲＲ−３，、、、）に対しても同一の構成である。

各デグラデーションカウンタの出力はＯＲゲートＧ１で
ＯＲされ、その出力信号は割り込み信号発生器ＩＮＴＧ
ＥＮに与えられる。割り込み信号発生器ＩＮＴＧＥＮは
、ＯＲゲートＧ１の出力信号が１−１１ＧＩ−１になる
とマシンチェック削り込み信号を発生する。

他方、ＭＣＭフラグがＯＦＦのときに入力ゲートが開く
各ゲートＧ１２．　Ｇ２２．　Ｇ３２の出力は、ＯＲゲ
ートＧ２でＯＲされ、エラー信号保持用うッヂＤＧ−Ｒ
のセット信号となる。ＡＮＤゲートＧ３では、このエラ
ー信号保持用ラッチＤＧ−Ｒの出力とＭＣＭ−ＯＮ（７
）信号（ＭＣＭ７ラグがＯＮのときＨＩ　Ｇ　Ｈとなる
信＠）とのＡＮ（５をとる。

このような構成における動作を第３図のタイムチャート
を参照して次に説明する。システムのパワーオンの後オ
ペレーティングシステムのローディング（Ｉ　Ｐ　Ｌ　
：　Ｉ　ｎ１ｔｉａｌ　　ｐ　ｒｏｇｒａｍ　　ｌ　ｏ
ａｄｉｎｇ）が行われる（これにはマシンチェック処理
ルーチンのローディングも含まれる）。このローディン
グが終了するまでの期間は、マシンチェック処理ルーチ
ンが動作しないためＭＣＭフラグはＯＦＦ（ＭＣＭ−Ｏ
Ｎの信号はＬＯＷ、ＭＣＭ−ＯＦＦの信号はＩ−ＩＩＧ
Ｈ）である。この期間中は、デグラデーションが行われ
ても、マシンチェック割り込み信号は発生しないが、デ
グラデーションラッチＤＧ−Ｒは１回のエラー信号でセ
ットされる。

なお、デグラデーションの対象となる構成要素臼１が持
つデグラデーションラッチ（図示せず）もデグラデーシ
ョンの情報を保持するが、そこからはマシンチェック割
り込み信号は発生しない。

マシンチェック処理ルーチンのローディングが終了する
と、ＭＣＭフラグがＯＮとなる（ＭＣＭＯＮ信号がｌ−
１１ＧＨとなる）。これにより、デグラデーションラッ
チＤＧ−Ｒの出力は、ＡＮＤゲートＧ３を通って、マシ
ンチェック割り込み信号として出力される。ＭＣＭフラ
グがＯＦＦのときにデグラデーションが行われなかった
ときは、エラー信号がないため、デグラデーションラッ
チ［）Ｇ−Ｒもリセット状態のままであり、ＭＣＭフラ
グがＯＮになってもＡＮＤゲートＧ３からは当然マシン
チェック割り込み信号は出力しない。

ＭＣＭフラグがＯＮになった後にデグラデーションが行
われた場合には、エラー信号はゲートＧ１２（あるいは
Ｇ２２またはＧ３２）の方を通過してデグラデーション
カウンタＣＲ１（あるいはＣＲ２またはＣＲ３）に入力
される。カウンタは、予め設定した数だけエラー発生を
カウントすると、そこではじめてデグラデーションラツ
チＤＧ１　（あるいはＤＧ２またはＤＧ３）をセットす
る。割り込み信号発生器ＩＮＴＧＥＮは、ＯＲゲートＧ
１を経由して与えられる前記デグラデーションラッチＤ
ＧＩ　（あるいはＤＧ２またはＤＧ３’）の出力信号に
よりマシンチェック割り込み信号を発生する。

なお、デグラデーションラッチＤＧ−Ｒは、マシンチェ
ック割り込みがシステムに受は付けられると、システム
側から与えられるリセット信号によりリセットされる。

本発明では、特にＭＣＭがＯＦＦのときデグラデーショ
ンラッチが１回のエラーでオンとなるようにして、命令
リトライの最高回数弁だけデグラデーションを行うこと
ができるという利点がある。

この点を更に詳しく説明する。第４図は、命令リトライ
の最高回数を４とした場合のバッファメモリで、エラー
回数ｍ−２とｍ−１の場合の例について示したものであ
る。

バッファメモリは、デグラデーションの対象となる構成
要素の中位として、複数のウェイ（ＷＡＹ）を持つ。ｍ
＝２の場合、同図（ａ）に示すように、命令制御部（図
示せず）からＷＡＹＯにアクセスが来たときエラーがあ
ると命令リトライが行われるが、再度エラーがあると、
このＷＡＹＯはデグラデーションされ、デグラデーショ
ンラッチがオンとなる。

２回目のりトライは、次のＷＡＹＩに対して行われる。

このＷＡＹＩでもエラーがあると、３回目のりトライが
同じＷＡＹｌに対して行われる。

そのとき再びエラーがあると、ＷＡＹｌのデグラデーシ
ョンラッチがオンとなる。

４回目のりトライは、次のＷＡＹ２に対して行われる。

この時リトライが成功すれば、ＷＡＹＯ。

ＷＡＹＩの２つのＷＡＹのデグラデーションが行われた
ことになるが、このＷＡＹ２も本来デグラデーションさ
れるべき故障要素であるので、再度エラーが・あった場
合にはシステムダウンとなってしまう。

他方、ｍ−１の場合は、同図（ｂ）に示すように、−度
エラーがあるとすぐデグラデーションされるため、デグ
ラデーションされるべき故障要素が、最高４つあった場
合までのデグラデーションが可能である。

したがって、ｍ−１とした場合には、リトライ失敗の確
率を減少させ、システムダウンを防ぐことができる。更
に、ＭＣＭフラグがＯＮとなった時にマシンチェック割
り込みを発生させることにより、この結果をオペレーテ
ィングシステムに通知し、システムダウンを減少させ、
メンテナンス時に部品交換を行うことができるなどの利
点がある。

［発明の効果］以上説明したように、本発明によれば、障害の発生した
構成要素の早期の切り離しを行ってリトライの失敗を減
少させ、マシンチェック処理ルーチンが動作可能になっ
たときは直ちにデグラデーション割り込みを発生し、ソ
フトウェアに通知する。これにより、システムダウンを
減少させることができると共に、コンピュータシステム
の信頼性を向上・させることができる。

【図面の簡単な説明】

第１図は本発明の方法の原理フロー第２図は本発明の方法を実施するための回路の一実施例
図、第３図は動作を説明するためのタイムチャート、第４図
は命令リトライ回数とデグラデーションとの関係を示す
図である。第２図において、Ｇ１１〜Ｑ３２．Ｇ３・・・ＡＮＤゲート、ＣＲＩ〜Ｃ
Ｒ３・・・デラグレーションカウンタ、ＤＧ１〜ＤＧ３
・・・デグラデーションラッチ、Ｇ１．Ｇ２・・・ＯＲ
ゲート、ＩＮＴＧＥＮ・・・割り込み信号発生器、ＤＧ−Ｒ・・
・エラー信号保持用ラッチ。角等図

Claims

【特許請求の範囲】一定回数の障害が発生すると部分的に構成要素を切り離
すデグラデーション機能を有する情報処理装置において
、マシンチェック処理ルーチンが動作状態になるまでの期
間では、１回のエラー発生でデグラデーシヨンを行うと
共にデグラデーションを行ったことを記憶しておき（ス
テップ（１））、マシンチェック処理ルーチンが動作状態になると、直ち
に前記記憶に基づきデグラデーシヨンの事実を通知する
ためのマシンチェック割り込みを発生させると共に、マ
シンチェック処理ルーチンが動作状態になつた後に発生
するエラーについては所定のエラー発生回数でマシンチ
ェック割り込みを発生させる（ステップ（２））ようにしたことを特徴とするエラー処理方法。