JPH05108391A

JPH05108391A - プログラムの実行を続行する方法

Info

Publication number: JPH05108391A
Application number: JP4020741A
Authority: JP
Inventors: Arthur J Sutton; アーサー・ジエームス・サツトン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1991-03-26
Filing date: 1992-01-10
Publication date: 1993-04-30
Anticipated expiration: 2011-03-04
Also published as: US5214652A; EP0505706B1; DE69219657D1; EP0505706A1; JPH0820965B2; DE69219657T2; WO1992017841A1

Abstract

(57)【要約】【目的】複数のＣＰＵのシステムにおける１つのＣＰ
Ｕの誤動作によつて中止されたプログラムのタスクの実
行を、組み込まれた訂正コードを使用することなく、他
のＣＰＵで完了させる方法を与える。【構成】誤動作を起したＣＰＵ中の予め決められたレ
ジスタ中の情報が、誤動作を起したＣＰＵによつて、予
め決められたストレージ位置にストアされるか、また
は、誤動作を起したＣＰＵが上述の情報をストアできな
い場合には、サービス・プロセツサ（ＳＰ）が予め決め
られたストレージ位置に上述の情報をストアする。誤動
作を起したＣＰＵが検出された時、ＳＰはシステム中の
他のＣＰＵに外部割込みを発生する。必要な情報がスト
アされた後、他のＣＰＵは誤動作のＣＰＵのタスクを続
行する。ＳＰでアクセスできるシステム、またはマイク
ロコードのメモリ中の所定の位置に、特別の表示子がス
トアされている。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセツサ（Ｍ
Ｐ）で構成されたシステムにおいて、プログラムを実行
しているプロセツサ（ＣＰＵ）が実行中に誤動作を起し
た時、そのプログラムが完了する前に、チエツクポイン
ト・リトライとか、プログラムの再実行とか、プログラ
ムの実行の反復等の動作を行なうことなく、プログラム
の実行を他のプロセツサによつて続行させることに関す
る。

【０００２】

【従来の技術】１台以上のプロセツサ（ＣＰＵ）によつ
て動作するように設計された最近のコンピユータ・シス
テムにおいて、エラーが発生したインストラクシヨンを
リトライ（再試行）するとか、または、エラーが発生し
たプログラムを再実行することによつて、問題を訂正す
ることが行われている。プログラムの実行中の幾つかの
時点でチエツクポイントのデータをストアするようにプ
ログラムが指定されている場合だけに、チエツクポイン
ト・リトライ復旧が利用可能である。リトライ技術は、
間欠的に生じるエラーに限定されており、ハードウエア
中においてソリツド・エラー（回復不可能なエラー）が
発生した場合、ソリツド・エラーはすべてのリトライの
処理を通して持続され、最大回数のリトライが行なわれ
た後でも、エラーが残存しているので、ソリツド・エラ
ーが宣言される。ソリツド・エラーの検出は、ＣＰＵに
マシン・チエツク（machine check-ＭＣ）割込みを発生
させる。

【０００３】ＭＣ割込みはシステム制御プログラムに信
号を送り、そして、システム制御プログラムの復旧管理
プログラム中のリトライ・インストラクシヨンをアドレ
スするＭＣの新しいプログラム・ステータス・ワード
（programstatus word-ＰＳＷ）を与える。次に、シス
テム制御プログラムは、エラー状態が無くなるか否かを
見るために、割込みインストラクシヨンを再実行する。
若し、エラー状態が無くなつたならば、システム制御プ
ログラムは、実行したプロセツサ中でエラー状態によつ
て中止されたプロセツサの実行を持つタスクに対して異
常終了（abnormalend-ＡＢＥＮＤ）を宣言する。そのプ
ログラムは復旧可能であるか、あるいは、復旧不能であ
るかは、中止されたプログラム中に組み込まれた復旧サ
ポートのタイプに応じる。プログラムがその入力データ
を喪失していない時であつてさえも、プログラムが計画
していない実行位置で中止された場合、そのプログラム
は、復旧能力を持つていないことがしばしばある。ま
た、プログラムの実行が完了する前に、計画されていな
い中止によつて、入力データが失われた時、実時間デー
タ（テラー・マシンとか、プロセス制御のセンサからな
どのデータ）を使用するプログラムは、それらの入力デ
ータを復旧することができないので、間欠的に発生され
るハードウエア・エラーが訂正された時でも、リトライ
による復旧はできない。

【０００４】指名されたタスクを実行する通常のプロセ
ツサ（ＣＰＵ）動作は、若し、インストラクシヨンの再
実行が連続して誤動作を生じて、ハードウエアのソリツ
ド・エラーが存在することが決定されたならば、ＣＰＵ
がチエツク停止された状態（プロセツサの内部サイクル
・クロツクが停止された状態）にすることによつて中止
される。オペレーテイング・システムのソフトウエア
は、ＣＰＵがチエツク停止された後に、リトライ閾値を
維持することができる。

【０００５】チエツク停止されたＣＰＵはシステム制御
プログラムによつて、誤動作を起したＣＰＵとしてマー
クされるので、誤動作を起したＣＰＵは、指名されたプ
ログラムのタスクを持つていない。

【０００６】

【発明が解決しようとする課題】本発明は、ハードウエ
アのリトライのすべての試行が失敗した後に、プロセツ
サの誤動作によつて割り込まれた殆どのプログラムのタ
スクの実行を続行することを可能にすることができる。
従つて、本発明は、プログラムの実行中において、異常
終了（ＡＢＥＮＤ）を与えることなく、オペレーテイン
グ・システム、またはアプリケーシヨン・プログラムの
ハードウエアで中止される実行を成功裡に完結するよう
続けるのに用いられる。本発明を使用すると、すべての
組み込まれた復旧コード、または訂正コードを持つ中止
プログラムは無関係になる。

【０００７】本発明を使用することにより、プロセツサ
のエラーによつて中止されたプログラムのタスクにおい
て、成功裡に完了されるインストラクシヨンの再実行処
理が回避され、あるいは、プロセツサのエラーによつて
中止されたプログラムのタスクを、チエツクポイント・
リトライする処理動作がすべて回避される。換言すれ
ば、本発明は、タスクの中止を生じる殆どのエラーに対
して、中止されたタスクを他のＣＰＵ中において完結さ
せることが可能であるということを意味する。

【０００８】然しながら、プログラムの実行を中止した
エラーが非常に重大でなければ、本発明に従つて、プロ
セツサはシステムの動作から取り除かれないのが望まし
い。特に、短時間で消滅するような間欠的に発生するエ
ラーは、コンピユータ・システムにおいて共通した問題
であり、しばしば、アルフア粒子によつて発生される。
本発明において、ハードウエアのエラー状態が短時間で
消滅するタイプであつて、エラーが間欠的に生じるタイ
プであれば、エラーを消滅させるのに十分な時間の間、
つまり、ある閾値を持つリトライの反復回数まで、エラ
ーを持つインストラクシヨンのリトライを行なわせるこ
とを考慮している。従つて、若し、エラーが消滅するな
らば、そのＣＰＵはシステムのリソースとして保管する
ことができ、コンピユータ・システムによつてそのリソ
ースの使用を続行することができる。

【０００９】更に、本発明は中止されたタスクによつて
使用されたシステム・リソースを識別するための、前に
利用可能ではなかつた情報を得ることができるので、そ
のＣＰＵの誤動作の後に、中止されたタスクを続行する
ことができない時でも、コンピユータ・システムの動作
効率は、本発明によつて向上される。本発明はオペレー
テイング・システムに上述の情報を与えるので、オペレ
ーテイング・システムは、解放されたこれらのシステム
・リソースを、他のタスクによつて使用されうるように
システム・リソースを解放することができる（復旧する
ことのできないタスクに拘束し続けることによつて、リ
ソースを使用できない状態に持続するのではなく）。シ
ステムの効率はシステム・リソースの効率的な使用に依
存する。

【００１０】本発明は、本発明によつて必要とされる新
規な方法を遂行するために、サービス・プロセツサ（Ｓ
Ｐ）と、オペレーテイング・システム（ＯＳ）のソフト
ウエアを修正することが必要である。システム中のＣＰ
Ｕのハードウエア、またはマイクロコードを修正するこ
とは、ＣＰＵのアーキテクチヤに従つて付加的なもので
ある。

【００１１】他のプロセツサによる誤動作をＳＰが検知
することは、１つ、またはそれ以上の他のプロセツサに
特別な信号を送ることによつて誤動作を生じたプロセツ
サがＳＰに信号を送ることにより、または、或るプロセ
ツサが特別な要求に応答しないことをＯＳが検出するこ
とにより、または、或るプロセツサがタスクに必要な動
作を遂行するのに予め決められた時間内に何もしないこ
とをＯＳが検出することによるなどの幾つかの方法によ
つて検出することができる。

【００１２】

【課題を解決するための手段】本発明は、従来殆どの場
合に異常終了（ＡＢＥＮＤ）処理を使用しなければなら
なかつたプロセツサの誤動作によつて中止されたタスク
に対して、ＡＢＥＮＤ処理を回避することができる。そ
の代わりに、中止されたタスクによつて示されたタスク
は、ＳＰによる割込みによつて、他のプロセツサで続け
られる。上述の割込みを起すＳＰは、誤動作を起したプ
ロセツサ中の予め決められたレジスタをアクセスし、そ
して、誤動作を生じたプロセツサが、中止されるタスク
の情報をストアすることが不可能な時に、予め決められ
たメモリ位置にそのタスクの内容をストアする。誤動作
を起したプロセツサ中のこれらの予め決められたレジス
タは、プログラムによる割込みの後、プログラムの実行
を続行することができるように、プログラムの割込みに
関するメモリ中にストアされるための、システム・アー
キテクチヤによつて要求されるすべてのレジスタである
（例えば、ＣＰＵのＰＳＷ、ＣＲ、ＦＰＲ、ＧＰＲ、Ａ
Ｒ等のすべてのレジスタの内容をストアし、復帰するも
のである）。

【００１３】誤動作を生じたプロセツサをＳＰが検出し
た時、ＳＰは、誤動作を生じたタスクの実行を続行する
ために使用することのできるシステム中の他のプロセツ
サに対して外部割込みを発生する。ＳＰか、または誤動
作を生じたプロセツサが必要とする割込み情報及び特別
の表示子がシステム中の所定の位置にストアされた後
か、または、ＳＰと、タスクの実行を続行するために選
択可能なシステム中の健康な（異常のない）プロセツサ
とにアクセス可能なマイクロコードのメモリ中にストア
された後に、外部割込み信号が送られる。

【００１４】誤動作を起したプロセツサのタスクの中止
の後、システム中の健康なプロセツサが、タスクの実行
を続けるために選択される。選択された健康なプロセツ
サは、誤動作を起したプロセツサを制御するオペレーテ
イング・システム（ＯＳ）と同じＯＳによつて動作さ
れ、または共有されるシステム中の任意のプロセツサで
あつてよい。

【００１５】プロセツサの選択処理はシステムの通常の
割込み動作を含んでおり、これにより、外部割込みを受
け取ることのできる第１の健康的なプロセツサが検知さ
れ、タスクが完了するか、または、次の割り込みが生じ
るまで、誤動作を起したＣＰＵのタスクを割込みの時点
から続行するように、検知された健康なプロセツサ（Ｃ
ＰＵ）がその割込みを処理する。ＡＢＥＮＤされたこと
により通常は喪失されるタスクが、タスクを喪失するこ
となく、本発明によつて成功裡に完了することができる
ことが、本発明によつて見い出されている。

【００１６】誤動作を起したプロセツサのレジスタの内
容は、それらの内容がＳＰによつてストアされた時に検
証され、そして、中止されたタスクを続行することがで
きるか否かを決定するために、それらの内容の有効性が
表示される。検証は、例えば、誤動作を生じたプロセツ
サがストアされる時に、誤動作を生じたプロセツサの各
レジスタの内容をパリテイ・チエツクし、ストアされる
各タイプのレジスタのための特別のメモリ領域中に有効
ビツトを設定することによつて行なわれる。

【００１７】誤動作を起したプロセツサのこれらの幾つ
かのレジスタの内容が有効ではないとしても（有効でな
ければ、中止されたプロセツサのプログラムの実行を続
行はできない）、システム・リソースを自由に利用でき
るよう解放するために、本発明は中止されたプログラム
に割り当てられた幾つかの、またはすべてのシステム・
リソースを識別するために、有効にストアされたレジス
タの情報の使用を可能とし、これにより、次に続くタス
クにより使用される予備的なリソースの数を増加して、
後続するシステムの動作効率を向上する。

【００１８】本発明はシステムのハードウエア、マイク
ロコード、またはオペレーテイング・システム（例え
ば、ＭＶＳ、ＶＭ、またはＰＲ／ＳＭ）に特別なサポー
トを必要とする場合があり、かつ、他のプロセツサによ
りプログラムの実行を続行するのに必要とする、誤動作
を生じたプロセツサの未完成のタスクの存在を知らせる
ために、システムのストレージ中の誤動作プロセツサの
ＰＳＡ（プログラム記憶領域）のログアウト領域中に特
別な「チエツク停止ログアウト・ビツト」を与える必要
がある。

【００１９】また、性能を低下する訂正（例えば、ＣＰ
Ｕのキヤツシユ・メモリの誤動作部分が再構成される訂
正）を生じる過去のエラーによつて、ハードウエアは性
能が低下するので、許容限界を越えてハードウエアが更
に性能低下したことにより、ＣＰＵがソリツド・エラー
状態に到達する前に、サービス・プロセツサ（ＳＰ）
は、ＣＰＵのチエツク停止を決定し、そして、ＣＰＵの
マシン・チエツク停止を行なつて、性能の低下の問題を
訂正する部分を置き換える。これは、エラーを事前に防
止する動作（上述のＳＰの動作は、プロセツサがエラー
を持つ前に、エラーの訂正を行なうので）をする問題の
事前排除の役目を持つことになり、高い確率でＣＰＵの
エラー発生を防止する。この決定は、他のＣＰＵでタス
クを完了する本発明を用いることによつてタスクを実行
している間で行なうことができる。

【００２０】

【実施例】本発明の実施例は図１で開始し、図１０乃至
図１１に続く処理方法の流れ図によつて説明される。図
１乃至図３に示した大部分のステツプは、本発明の背景
となる従来の技術による処理方法の流れ図であつて、本
発明の理解を助けるために示したものである。本発明
は、複数プロセツサ（ＭＰ）システム中のいずれかのＣ
ＰＵに、そのＣＰＵの現在のプログラムが実行できない
ハードウエアの状態が発生している場合において、ＭＰ
システム中の任意のＣＰＵで実行するプログラムを取り
扱つている。ハードウエアの状態（ハードウエア・エラ
ー状態と呼ばれる）はハードウエア回路の誤動作か、あ
るいは、ＣＰＵのマイクロ・コードの誤動作である。こ
の誤動作はプログラム中の或るインストラクシヨンの実
行中に生じるけれども、誤動作はインストラクシヨンの
実行の間の割込みの実行の間でも発生することがある。

【００２１】エラーを持つプロセツサ（ＣＰＵ）は、誤
動作（failure）を生じたＣＰＵを意味するＣＰＵｆと
いう記号で表わす。システム中のエラーを持たないオペ
レーテイングＣＰＵは、健康な（helthy）ＣＰＵを意味
するＣＰＵｈという記号で表わす。

【００２２】大型のコンピユータ・システムは、タスク
と呼ばれるプログラムの実行の仕事単位中のプログラム
を指名する。各タスクは、一緒に実行する１つ、または
それ以上のプログラム及びデータを含んでいる。本発明
の良好な実施例は、ＩＢＭ社のＥＳＡ／３７０システム
で開発されたものであつて、「ＥＳＡ／３７０の動作原
理」（ESA/370 principle of Operation）と題するＩＢ
Ｍ社の刊行物、フオーム番号ＳＡ２２−７２００に記載
されたアーキテクチヤを持つており、この刊行物の第
４、５、６及び１１章が特に本発明と関連深い技術を記
載している。

【００２３】図４は本発明の実施例を使用することので
きるＭＰシステムを示している。このＭＰシステムは複
数個のＣＰＵ１乃至Ｎとサービス・プロセツサ（ＳＰ）
とを含んでいる。然しながら、ＳＰの機能は独立したプ
ロセツサの必要を避けるために、ＣＰＵ１乃至Ｎのうち
の任意のＣＰＵで遂行することができる。然しながら、
本発明において、サービス・プロセツサを持つことなく
幾つかのＣＰＵのうちの１つのＣＰＵを使用して本発明
のサービス・プロセツサ（ＳＰ）のステツプを遂行する
１つの実施例を含んでいるけれども、本発明の良好な実
施例においてはサービス・プロセツサとして独立したプ
ロセツサを持つのが望ましい。

【００２４】図４のＭＰは、オペレーテイング・システ
ム（ＯＳ）のソフトウエアによつて使用可能な任意の絶
対的なアドレスと、オペレーテイング・システムで動作
する任意のアプリケーシヨン・プログラム（アプリケー
シヨン）とを含んでいるシステムの主メモリ、即ち主記
憶（ＭＳ）と呼ばれるハードウエアの部分４１を含んで
いる。マイクロコード領域（microcode area-ＭＡ）と
呼ばれる他のハードウエア部分４２は、ＣＰＵ及びシス
テムによつて使用されるマイクロコードをストアしてい
る。ＭＳはＯＳによつてアクセスされるシステムの夫々
のＣＰＵのための接頭部領域を含んでいる。ＭＡは夫々
のＣＰＵのマイクロコードによつてアクセスされるＣＰ
Ｕのために夫々のハードウエアの記憶領域を含んでい
る。

【００２５】図５は、各ＣＰＵ中にある最も重要なレジ
スタを表しており、それらのレジスタの内容は、ＣＰＵ
動作の割込みのときに、夫々のＣＰＵのＭＳのプログラ
ム記憶領域（program save area-ＰＳＡ）中にストア
（保管）される必要がある。これらのレジスタは、割込
みのときにストアするのに必要とするレジスタだけでは
なく、上述したＥＳＡのアーキテクチヤの刊行物の第１
１章の「マシン・チエツク停止状態」、「マシン・チエ
ツク割込み」及び「マシン・チエツク割込みコード」と
題する部分に、より詳細に定義されているレジスタを含
む。図７はマシン・チエツク（ＭＣ）割込みが発生した
時に、ＣＰＵのプログラム記憶領域（ＰＳＡ）の一部
と、ＰＳＡ中のマシン・チエツク割込みコード（ＭＣＩ
Ｃ）のフイールドの拡大図を示している。図７の表示
は、単なる例示であつて、完全なＭＣＩＣの表示は上述
の刊行物の「マシン・チエツク割込みコード」と題する
部分に記載されている。

【００２６】プロセツサのＰＳＡに割込み信号を送るこ
とは、上述の刊行物、ＥＳＡ／３７０の第６章の「外部
割込み」と題する部分に記載されている。また、信号プ
ロセツサ（signal processor-ＳＩＧＰ）のインストラ
クシヨン動作は、上述の刊行物の「ＣＰＵの信号発生及
びその応答」と題する第４章に記載されている。

【００２７】図８は任意の１つのＣＰＵｆのためのハー
ドウエアのストレージ領域（hardware storage area-Ｈ
ＳＡ）ブロツク中の信号プロセツサ（ＳＩＧＰ）のステ
ータス・ブロツクを示している。誤動作を起した任意の
ＣＰＵｆのＨＳＡブロツク中のチエツク停止フイールド
はサービス・プロセツサ（ＳＰ）によつてセツトされ
る。ＣＰＵｆへのＳＩＧＰのインストラクシヨンは、関
連するＣＰＵがチエツク停止状態にあることを表示す
る。

【００２８】図９は任意の１つのＣＰＵｈのためのハー
ドウエアのストレージ領域（ＨＳＡ）中にある外部割込
みＣＰＵの識別ブロツクを示している。このブロツク中
のＣＰＵ識別フイールドはサービス・プロセツサ（Ｓ
Ｐ）によつてセツトされた誤動作ＣＰＵｆのＣＰＵ識別
子を受け取る。

【００２９】本発明の処理ステツプを説明するための流
れ図（図１乃至図３と、図１０及び図１１）において、
各ステツプには参照数字が与えられており、参照数字の
左側は図面の番号と同じ（ただし、図１は除く）であ
り、残りの右側の数字は夫々の図に特有の一連番号であ
る。

【００３０】図１のステツプ１は複数プロセツサ・シス
テム中にある任意の１つのＣＰＵによつて任意の１つの
プログラムのタスク中の任意の１つのインストラクシヨ
ン、または任意の１つの割込みの実行を表わしている。
ステツプ２は、任意の１つのＣＰＵ中のハードウエア・
エラーの状態を示しており、従つて、そのＣＰＵは、複
数プロセツサ・システムの中のＣＰＵｆになる。

【００３１】すべてのハードウエア・エラーはサービス
・プロセツサ（ＳＰ）によつて複数プロセツサ（ＭＰ）
システム中で追跡される。ステツプ３において、ＣＰＵ
中でハードウエア・エラーが検出される度に、そのハー
ドウエア・エラーは、サービス・プロセツサ（ＳＰ）に
エラー信号を送るＣＰＵによつて報告される。

【００３２】図６において、インストラクシヨンの実行
中に発生したハードウエア・エラーが、オペランドの取
り出し及び実行の間で発生したことが示されている。

【００３３】ステツプ３において、ＣＰＵｆがＳＰにイ
ンストラクシヨンの処理中に生じたエラーを報告したと
きに、ＳＰは、リトライ可能なエラー、またはリトライ
不能なエラー、またはチエツク停止エラーの３つの範疇
のエラーのうちの１つにそのエラーを類別する。大部分
のエラーはリトライ可能なエラーであるから、ステツプ
５に入り、ＣＰＵｆによつて処理される。然しながら、
例えば、アドレスのエラーがＣＰＵｆの接頭部レジスタ
中に発生した場合のようなリトライ不能なエラー状態が
ある場合、そのプログラム記憶領域（ＰＳＡ）は見い出
すことができず、このことは、そのＣＰＵｆのためのす
べての割込み処理が阻止され、そのＣＰＵに対するリト
ライは不可能となり、そのＰＳＡは見い出すことが不可
能となるから、ステツプ１７において、直ちに、ＣＰＵ
ｆのチエツク停止に入る。若し、接頭部アドレスが有効
ならば、エラーがインストラクシヨンのリトライを阻止
したとしても、割込みを設定することができ、ＣＰＵｆ
は知ることができる。従つて、ステツプ１０において、
サービス・プロセツサ（ＳＰ）は、プロセツサ・ダメー
ジ（processor damage-ＰＤ）ビツトがオンにセツトさ
れているか否かをチエツクする処理が遂行され、若し、
ＰＤビツトがオンにセツトされていれば、ＳＰはＣＰＵ
ｆをチエツク停止させるが、若し、リトライの閾値を越
えていなければ、ステツプ１１において、サービス・プ
ロセツサ（ＳＰ）は単に、プロセツサ・ダメージ（Ｐ
Ｄ）ビツトをオンに設定し、バツクアツプ（Ｂ）ビツト
をオフにセツトする。

【００３４】ステツプ５において、エラーを持つインス
トラクシヨンをＣＰＵｆによりリトライさせて、ソリツ
ド・エラーか、または間欠的なエラーかを決定する。若
し、エラーが間欠的なエラーであれば、エラーはリトラ
イのループの１つの中で消失し、次のインストラクシヨ
ンが実行され、若し、その後エラーが検出されなけれ
ば、そのタスクは成功裡に完了する。

【００３５】ステツプ５においてテストされ、呼び出さ
れるインストラクシヨンのリトライの閾値を、何回かの
リトライ動作数を越えるまで、エラーがインストラクヨ
ンの各リトライの間で続くならば、ソリツド・エラーで
あると決定される。従つて、若し、上述のリトライの閾
値に達した時にエラーが続いていれば（時間の経過によ
つて訂正されることがあり得ない）、そのエラーはソリ
ツド・エラーであると見做される。

【００３６】若し、ソリツドなＣＰＵのハードウエア・
エラーがＣＰＵの割込み動作の間で発生するならば、割
込みはインストラクシヨンの実行の中間で発生するの
で、リトライするための未完成のインストラクシヨンは
ない。そして、この処理は、インストラクシヨンのリト
ライの動作をするために、ステツプ１に分岐することは
ない。その代わりに、システム中のハードウエアは、同
等な従来の技術によつて割込みを回復するための動作を
して、同じようにソリツド・エラーであることを決定す
る。然しながら、ソリツド・エラーが、インストラクシ
ヨンの動作の間で発生しても、または割込み動作の間で
発生しても、誤動作を起したＣＰＵｆのその時のプログ
ラムは、誤動作をしたＣＰＵｆ中で終了する。

【００３７】ソリツド・エラーの状態が決定された後、
従来の処理はステツプ６に入ることによつて続行される
か、または、図１０に示した本発明の良好な実施例の新
規な処理によつて遂行される。然しながら、先ず、従来
の処理方法を説明したほうが、本発明を理解するのが容
易になるので、ここではステツプ６に入るものと仮定す
る。

【００３８】ソリツド・エラーが存在することを従来の
処理方法が決定した時、ステツプ６は、プロセツサ・ダ
メージ（processor damage-ＰＤ）のカウントを増加し
て、そのカウントをＰＤカウントの閾値と比較する。Ｐ
Ｄカウントは、例えば８時間以上のような或る時間の間
で検出されたソリツド・エラーの数である。ＰＤカウン
トは、ソリツド・エラーであると決定される度に１だけ
増加され、そして、その結果の数が、例えば８時間のよ
うな選ばれた時間の間でＣＰＵに許容されたソリツド・
エラーの最大数であるＰＤ閾値と比較される。若し、ス
テツプ６において、ＰＤカウントが閾値を越えなけれ
ば、ステツプ７が実行される。若し、ＰＤカウントが閾
値を越えたならば、ステツプ１２に入る。

【００３９】ステツプ１２において、サービス・プロセ
ツサ（ＳＰ）はＣＰＵｆをチエツク停止する。ステツプ
１３において、ＳＰは故障警告（mulfunction alart-Ｍ
ＦＡ）信号をシステム中の他のＣＰＵに送り、ＣＰＵｆ
が誤動作したことを他のＣＰＵに知らせる。ステツプ１
３のＭＦＡの信号の発生は図３に詳しく示されている。
ステツプ１４において、ＳＰによつてＭＦＡ信号を送る
ことは、他のＣＰＵのうちの任意の１つのＣＰＵの外部
割込みを発生して、任意の１つのＣＰＵの主メモリ（Ｍ
Ｓ）中のプログラム記憶領域（ＰＳＡ）における外部割
込み領域において、通常のプログラム・ステータス・ワ
ード（program status word-ＰＳＷ）の交換が行なわれ
る。システム中の任意の割込み可能ＣＰＵは、ＣＰＵｆ
の現在のタスクをＡＢＥＮＤするＯＳルーチンをアドレ
スするために、任意の他のＣＰＵのＰＳＡ中の新しいＰ
ＳＷを使用する通常の外部割込みを取ることができる。

【００４０】次に、ステツプ１５において、ＯＳルーチ
ンは、残りの健康なＣＰＵ（ＣＰＵｆを除く）だけでシ
ステムの動作を続行する。

【００４１】通常、殆どのプログラムは全く復旧能力を
もたないか、または、充分でない復旧能力を持つている
けれども、幾つかのプログラムは、或るタイプのエラー
状態を復旧するための能力を、それらのコード中に含ま
せているので、ステツプ１６を付加的に示している。若
し、中止されたプログラムが、プログラムに組み込んだ
内部的な復旧能力を持つているならば、そのプログラム
はその能力を使用して実行を完了する。

【００４２】本発明は、組み込まれた内部的な復旧能力
とは独立してプログラムの実行を続けることができるの
で、本発明はプログラムの中に組み込まれた内部復旧能
力を使用しない。

【００４３】然しながら、若し、ステツプ６において、
プロセツサ・ダメージ（ＰＤ）の閾値が超過されなかつ
たことが見い出されたならば、ステツプ７において、サ
ービス・プロセツサ（ＳＰ）はＣＰＵｆのＰＳＡ中のＭ
ＣＩＣ（マシン・チエツク割込みコード）フイールド内
のＰＤビツトと、バツクアツプ（Ｂ）ビツトとをセツト
する。次に、ステツプ８において、サービス・プロセツ
サ（ＳＰ）は、古いマシン・チエツク（ＭＣ）のプログ
ラム・ステータス・ワード（ＰＳＷ）としてＣＰＵｆの
現在のＰＳＷをストアすることによつてＭＣ割込みを与
え、そして、図２のステツプ２１を呼び出す新しいＭＣ
のＰＳＷにアクセスするためにＣＰＵｆに信号を送る。

【００４４】ステツプ９において、ＣＰＵｆ中の主要な
すべての貯蔵内容（ＣＰＵｆによつて記憶処理が完了さ
れたデータの内容）がＭＳ中にストアされることを保証
することが要求される。この保証は、ＣＰＵｆの動作が
チエツク停止された時に影響を受けないＣＰＵｆの外側
のＭＳへのバスに重要な貯蔵内容のすべてを送ることに
よつて、ＣＰＵｆによつて達成することができる。ステ
ツプ９は図１の中の処理の終り部分に示されているけれ
ども、ステツプ９はＳＰのステツプ６、７及び８のいず
れか１つ、またはそれ以上のステツプと並行して行なう
ことができる。

【００４５】図２において、ステツプ２１はＣＰＵｆの
終了されたプログラムを復旧するための処理を行なうオ
ペレーテイング・システム（ＯＳ）の復旧ルーチンに入
るために、新しいマシン・チエツクのＰＳＷのアドレス
を使用する。ステツプ２２は、ハードウエア・エラーが
ＯＳプログラムの実行の間か、またはアプリケーシヨン
・プログラムの実行の間で発生したかを決定する。若
し、エラーがＯＳプログラムの実行の間で発生したなら
ば、ステツプ２３に入つて、エラー・ダメージがどの程
度広がつているかが決定され、そして、若し、そのエラ
ーがシステムの保全性（integurity）に影響するエラー
のタイプであれば、エラーを訂正する手操作の割込みを
行なうために、システムを不動作にするよう出口を塞ぐ
（つまり、システムの動作を終止させる）。然しなが
ら、若し、エラーがＣＰＵｆの動作に影響するだけか、
またはエラーが修正可能ならば、ステツプ２３はＹｅｓ
の出口を取つて、ＯＳプログラムの実行と、中止された
プログラムの実行を続ける。

【００４６】然しながら、若し、ステツプ２２におい
て、エラーがＯＳのソフトウエアの中にはなく、現在実
行中のアプリケーシヨン・プログラムの中にあれば、現
在のアプリケーシヨンだけが、ＡＢＥＮＤされ、そし
て、システムは残りのＣＰＵ（ＣＰＵｆ以外のＣＰＵ）
の動作を続ける。然しながら、ＡＢＥＮＤされたタスク
は、この従来の処理による処理経路においては復旧され
ない。

【００４７】図３は、図１のステツプ１３によつて示さ
れ、かつ、図１０のステツプ１０において用いられてい
る従来のＳＰによつて、どのようにしてＭＦＡ（誤動作
の警告）の信号発生が行なわれるかを示している。ＭＦ
Ａの処理は誤動作のＣＰＵｆのＳＰによつて発生された
チエツク停止信号によつて開始される。

【００４８】図３のステツプ３１において、ＳＰはＣＰ
ＵｆのプライベートＨＳＡ中にＭＣのチエツク停止コー
ドを書き込む。ハードウエアのストレージ領域（ＨＳ
Ａ）はマイクロコードのみがアクセス可能である（Ｏ
Ｓ、または他のどんなアプリケーシヨン・プログラムで
もアクセスできない）。このチエツク停止コードは、Ｃ
ＰＵｆが無能にされ、動作できないことをＣＰＵｆに知
らせる。ステツプ３２において、ＳＰは、システム中の
すべてのＣＰＵ（ＣＰＵｆを除く）のプライベートのＨ
ＳＡ中にＣＰＵｆの識別子（ＩＤ）を書き込み、これ
は、システム中のすべてのＣＰＵｈに対して、ＣＰＵｆ
の誤動作を知らせる。次に、ステツプ３３において、Ｓ
ＰはすべてのＣＰＵに対してＭＦＡ外部割込み信号を送
り、割込みを取るよう、それらのＣＰＵに通知する。ス
テツプ３４において、外部割込みの処理が可能である第
１のＣＰＵとして、複数個のＣＰＵ（システムの中に複
数個のＣＰＵがあれば）の中の１つのＣＰＵを、ＭＦＡ
割込みを処理するＣＰＵとして表示し、その後、そのＭ
ＦＡ割込みは、後で割込み可能となる他のすべてのＣＰ
Ｕに対して受け入れ不能にされる。

【００４９】本発明の良好な実施例を示した図１０の処
理は、エラーを訂正するためのすべてのリトライ動作が
失敗した後、ソリツド・エラーが図１のステツプ５によ
つて検出された時に呼び出される。図１０のステツプ１
０１において、ＣＰＵｆはＳＰへチエツク停止信号を送
り、ＣＰＵｆの動作はＣＰＵｆ中のサイクル・クロツク
を停止させることを含んで停止されることを表示する。

【００５０】次に、ステツプ１０２において、サービス
・プロセツサ（ＳＰ）はＣＰＵｆのレジスタ中のデータ
内容をストアするためにＣＰＵｆに信号を送る。これ
は、ＣＰＵｆのプログラム記憶領域（ＰＳＡ）のログア
ウト（logout）領域における割込みに必要とされるすべ
てのレジスタのデータ内容（例えば、ＧＰＲ、ＦＰＲ、
ＣＲ、ＡＲ等のデータ内容）をストアすることを含む。
ＣＰＵｆは、ＣＰＵｆ中にあるソリツド・エラーのタイ
プに従つて、このレジスタのストア動作が成功裡に行な
われる場合と、あるいは、成功裡に行なわれない場合が
ある。通常、ＳＰはＣＰＵｆよりも動作速度が低いの
で、ＳＰによるストア動作でなく、できればＣＰＵｆが
ストア動作を行なうことが好ましい。若し、ＣＰＵｆの
ストレージの内容のストア処理動作が成功裡に終了すれ
ば、ステツプ１０３、１０４及び１０５の処理は飛び越
される。

【００５１】然しながら、若し、ＣＰＵｆのストレージ
の内容のストア処理動作が成功しなければ、ステツプ１
０３に入り、ステツプ１０２においてＣＰＵｆのストレ
ージ内容のストア処理動作が不成功であつたＣＰＵｆの
ストア処理動作を、ＳＰが遂行する。従つて、ＳＰは、
ＣＰＵｆのＰＳＡのログアウト領域中のレジスタの内容
のストア動作を行ない、ステツプ１０４に入り、このス
テツプで、ＳＰはＣＰＵｆの主要なデータ内容のストア
動作を完了する。ステツプ１０４におけるＳＰのこのス
トア処理動作は成功する場合と、あるいは不成功の場合
とがあり、ステツプ１０５Ａ及び１０５Ｂにおいて、こ
の状態は、ＭＣＩＣｆ中のストア・ロジカル・バリツド
（store logical valid-ＳＬＶ）フラグをオン、または
オフにセツトすることによつて表示される。若し、スト
ア・エラーが発生したならば、ステツプ１０５Ｂにおい
て、ＳＬＶビツトは０にセツトされ、若し、ストア・エ
ラーが発生しなければ、ステツプ１０５Ａにおいて、Ｓ
ＬＶビツトは１にセツトされ、いずれの場合でもステツ
プ１０６に入る。

【００５２】ステツプ１０６において、サービス・プロ
セツサ（ＳＰ）は、ＯＳがＣＰＵｆのＰＳＡを検査する
時、ＣＰＵｆのチエツク停止状態をオペレーテイング・
システム（ＯＳ）に表示するために、有効フラグ・ビツ
ト、プロセツサ・ダメージ（ＰＤ）ビツト及びチエツク
停止ログアウト（checkstop logout-ＣＳＬＯ）ビツト
をセツトする。ステツプ１０３において、各タイプのレ
ジスタの内容は、エラーが無いか、またはエラーを含む
ことになるから、ステツプ１０６において、各レジスタ
に関する有効フラグ・ビツトはオン、またはオフにセツ
トされる。従つて、ＭＣＩＣｆ中の有効ビツトの組は、
すべてのタイプのレジスタにストアされた内容がエラー
を含まないことを表示しているか、あるいは、ＭＣＩＣ
ｆ中のビツトの組は、すべてのタイプのレジスタにスト
アされた内容の内の幾つかの内容がエラーを含む内容で
あることを表示することになる。ＭＣＩＣｆの有効ビツ
トによつて、すべてのレジスタ中の内容がエラーを含ま
ずにストアされたことが表示されたか、または、レジス
タの幾つかのタイプだけの内容が、エラーなしでストア
されたことが表示されたかに従つて、本発明は異なつた
動作を行なう（図１０の最後の部分に表示されてい
る）。

【００５３】ステツプ１０７において、サービス・プロ
セツサ（ＳＰ）はＣＰＵｆのプログラム記憶領域（ＰＳ
Ａ）中にあるマシン・チエツク（ＭＣ）の古いプログラ
ム・ステータス・ワード（ＰＳＷ）に現在のＣＰＵｆの
ＰＳＷをストアし、ステツプ１０８において、ＳＰは、
ＣＰＵｆをチエツク停止状態に設定し、このチエツク停
止状態において、ＣＰＵｆはプロセツサのサイクル・ク
ロツクを停止されるので、そのＣＰＵｆは最早、通常の
ＣＰＵとして機能することができない。ステツプ１０９
において、ＳＰは、ＣＰＵｆを除くすべてのＣＰＵに故
障警告（ＭＦＡ）（図３に処理ステツプの細部が示され
ている）に信号を送る。

【００５４】ステツプ１０１０において、終了されたＣ
ＰＵｆのタスクを指名することができる動作可能なＣＰ
Ｕがあるか否かが決定される。本発明は、中止されたタ
スクをＣＰＵｆからＣＰＵｈに切り換えることを必要と
するので、複数個のＣＰＵを持つシステムが要求され
る。然しながら、ＣＰＵに対して最大限の柔軟性と共用
とを与えるシステムにおいては、すべてのタスクは、そ
のようなシステム中の任意のＣＰＵに指名することがで
きる。然しながら、他のＭＰシステムにおいては、ＭＰ
システム中の１つ、またはそれ以上のＣＰＵが、１つの
タイプの仕事か、または、複数個のＯＳの内のただ１つ
のＯＳに専任されている。特定のＯＳを遂行するＣＰＵ
を持つそのようなＭＰシステムの例は、ＩＢＭ社のＰＲ
／ＳＭハイパーバイザ（PR/SM hypervisor）を使用する
ＥＳＡ／３７０複数ＣＰＵシステムである。

【００５５】若し、ＣＰＵｆから割込まれたタスクを続
行するための健康なＣＰＵを入手することが不可能なら
ば、ステツプ１０１０からの出口はなく、ＣＰＵｆのプ
ログラムの実行を続けるＣＰＵリソースがないから、ス
テツプ１０１１に進み、ＣＰＵｆの中止されたタスクを
ＡＢＥＮＤ（異常終了）する。然しながら、若し、ＣＰ
Ｕｈの入手が可能ならば、中止されたＣＰＵｆのタスク
の実行を続行する処理を進行するために、ステツプ１０
１０において、Ｙｅｓの経路が出口１１の方に取られ
て、ステツプは図１１に移動する。

【００５６】図１１のステツプ１１１は、ＣＰＵｆで終
了されたタスクの実行を続けるために利用可能な１つ以
上の動作可能プロセツサ（ＣＰＵ）の内から任意の１つ
のＣＰＵを選択することを含んでいる。１つ、または２
つのＣＰＵがステツプ１１１の処理に含ませることがで
きる。主要な外部割込みを取るのに利用可能な最初の動
作可能プロセツサはこのＭＦＡ外部割込みを取る。次
に、割り込まれたＣＰＵは、ステツプ３２においてハー
ドウエアのストレージ領域（ＨＳＡ）中に前に入れられ
たＣＰＵｆの識別子を受け取り、ＣＰＵｆのチエツク停
止状態を検証するために、図８中の信号プロセツサ（Ｓ
ＩＧＰ）中のＣＰＵｆのチエツク停止フイールドを関知
し、そして、ＣＰＵｈとして動作可能プロセツサ（ＣＰ
Ｕ）の１つを割り当てる。ＣＰＵｆは、図９のブロツク
８２の中のＣＰＵの識別子フイールドを読み取るマイク
ロコードを持つているＳＩＧＰインストラクシヨンを用
いて識別される。

【００５７】次に、ステツプ１１２において、ＣＰＵｈ
のＯＳのルーチンはＣＰＵｆ（即ちＭＣＩＣｆ）のプロ
グラム記憶領域（ＰＳＡ）中のマシン・チエツク割込み
コード（ＭＣＩＣ）を読み取る。ステツプ１１３におい
て、ＯＳルーチンはＭＣＩＣｆ中のＣＳＬＯフラグ・ビ
ツトの状態をテストする。ＣＳＬＯビツトは本発明のこ
の実施例において新しいビツトであつて、若し、図１乃
至図３で説明した従来の処理が用いられたとすれば、Ｃ
ＳＬＯビツトはオンにセツトされず、ＣＰＵｆで中止さ
れたタスクをＡＢＥＮＤするステツプ１１１０への「Ｎ
Ｏ」の経路を取る。

【００５８】然しながら、ＣＰＵｆが誤動作した時に、
チエツク停止ログアウト（checkstop logout-ＣＳＬ
Ｏ）ビツトがセツトされるので、ステツプ１１４へのＹ
ｅｓ経路は、本発明の実施例における通常の経路であ
る。ステツプ１１４において、ＯＳは、ＭＣＩＣｆ中の
有効ビツトの状態をテストし、若し、そのレジスタのタ
イプが有効にストアされていないことが表示されたなら
ば、ＯＳはＣＰＵｆの中止タスクをＡＢＥＮＤするステ
ツプ１１７への「ＮＯ」の経路を取る。従つて、この実
施例の動作ステツプ１１８は、例えば、レジスタにスト
アされたデータをフアイル中にストアし、ＯＳによつ
て、フアイル中のそのデータをＣＰＵｆの中止プログラ
ムにリンクすることなどにより、ＣＰＵｆのＰＳＡｆに
ストアされたレジスタの内容を、早期に中止されたアプ
リケーシヨン・プログラムにリンクさせる。次に、ＯＳ
は新しいタスクにおいて指名されるためのプログラムを
スケジユールし、そのプログラムは、そのＣＰＵの最後
の実行のＡＢＥＮＤ動作の間で獲得された割込みデータ
を持つており、このデータは、復旧し、訂正することが
でき、或は、所望の結果を得るためのプログラムの完全
な実行をより一層効果的にすることができる。

【００５９】そして、ステツプ１１９において、ＣＰＵ
ｆタスクをＡＢＥＮＤした後、本発明はＣＰＵｆのスト
アされたデータ内容を、ＣＰＵｆの中止したタスクによ
つて拘束されたシステムのリソースを識別するためのデ
ータ内容を分析するＯＳに与え、そして、次に、ＯＳは
これらのリソースを解放するので、それらのリソースは
次のタスクに再度割り当てすることができる。リソース
のＯＳによるこの解放は、システム全体をより効率的に
動作させるために、将来のタスクに対してリソースを割
り当てる時に、システム中で利用可能なリソースをより
多くすることができる。

【００６０】然しながら、多くの場合、すべての割込み
情報は有効にストアされているから、ステツプ１１４は
ＭＣＩＣｆ中の有効ビツトのすべてがオンにセツトされ
ていることを見い出して、ステツプ１１５に進む。ステ
ツプ１１５において、ＯＳはＣＰＵｈにＣＰＵｆの中止
タスクを指名し、そのＣＰＵｈのＯＳはＣＰＵｆ中のＣ
ＰＵｆのレジスタの幾つかの内容を指名し、ＣＰＵｈ中
の対応するレジスタにこれらの内容をロードし、そし
て、タスクがＣＰＵｆの誤動作によつて中止された後、
エラーなしで実行された最後のインストラクシヨンに続
くタスクのインストラクシヨンのアドレスにより引き続
いて動作を開始可能とするために、ＯＳは、これらの内
容を、ストアされたマシン・チエツク（ＭＣ）の元のプ
ログラム・ステータス・ワード（ＰＳＷ）にロードする
ことによつて、ＣＰＵｈの現在のＰＳＷをセツトする。

【００６１】

【発明の効果】複数プロセツサで構成されたシステムに
おいて、ハードウエアのエラー状態においてプログラム
を実行しているプロセツサが誤動作を起した場合、プロ
セツサの誤動作によつて割り込まれたプログラムのタス
クの処理を、その後も続行して、プログラムの実行を完
了することができる。

【図面の簡単な説明】

【図１】複数プロセツサ・システム中で誤動作を起した
プロセツサ（ＣＰＵｆ）中で発生したエラーに起因して
中止したプログラムのタスクを検出する流れ図である。

【図２】図１に示した処理ステツプに続く流れ図であ
る。

【図３】図１に示した誤動作警告（ＭＦＡ）信号を発生
するステツプを示す流れ図である。

【図４】本発明を適用する複数プロセツサ・システムを
説明するためのブロツク図である。

【図５】本発明に使用するために利用可能な複数プロセ
ツサ・システム中の各プロセツサの幾つかのタイプのレ
ジスタを例示する図である。

【図６】ある１つのインストラクヨンの処理中に発生し
たエラーの１例を示すインストラクシヨンの処理のタイ
ミング図である。

【図７】本発明の良好な実施例におけるＥＳＡ／３７０
アーキテクチヤを用いたシステム中の任意の１つのプロ
セツサのマシン・チエツク停止割込みによつてストアさ
れる重要な情報が含まれているシステムの主メモリ（Ｍ
Ｓ）中のプログラム記憶領域（ＰＳＡ）の一部を示す図
である。

【図８】ＣＰＵｆのハードウエアのストレージ領域（Ｈ
ＳＡ）中のＳＩＧＰの状態を示す図である。

【図９】ＣＰＵｆのハードウエアのストレージ領域中の
外部割込み識別子ブロツクを示す図である。

【図１０】本発明の良好な実施例によつて用いられる処
理ステツプの流れ図である。

【図１１】本発明の良好な実施例によつて用いられる処
理ステツプの流れ図である。

【符合の説明】

４１システムの主メモリ（ＭＳ）４２マイクロコード領域（ＭＡ）４３キヤツシユ・メモリ４４サービス・プロセツサ（ＳＰ）７１プログラム記憶領域（ＰＳＡ）８１誤動作を起したプロセツサのハードウエアのスト
レージ領域（ＣＰＵｆのＨＳＡ）８２健康なプロセツサのハードウエアのストレージ領
域（ＣＰＵｈのＨＳＡ）

Claims

【特許請求の範囲】

【請求項１】ハードウエアのエラー状態においてプロ
グラムを実行しているプロセツサが誤動作を起した時、
中止されたプログラム、またはプログラムのタスクが完
了する前に、上記中止されたプログラム、またはプログ
ラムのタスクの実行を続行する方法において、プロセツサがハードウエアのエラー状態を検出した時、
予め決められたプログラム続行の割込み状態をストアす
るために、故障を起したプロセツサ中のレジスタの内容
をストレージの中にコピーするステツプと、故障を起したプロセツサを識別する信号を、少なくとも
他の１つのプロセツサに送るステツプと、上記信号を受け取るプロセツサの動作に割り込み、プロ
グラム、またはプログラムのタスクの実行を続行するた
めのプロセツサを選択し、そして、プログラム、または
プログラムのタスクの異常終了を表示することなく、最
後に成功裡に実行されたインストラクシヨンからのプロ
グラム、またはプログラムのタスクの実行を続行するた
めに、誤動作を起したプロセツサのストアされたプログ
ラム続行の割込み状態を、ストレージから選択されたプ
ロセツサ中にロードするステツプとを含むプログラムの
実行を続行する方法。
【請求項２】オペレーテイング・システムの中で故障
を起したプロセツサを識別し、そして、故障を起したプ
ロセツサがプログラム、またはプログラムのタスクの動
作を中止することを表示するための、ストレージ中の表
示フイールドを設定するステツプを含むことを特徴とす
る請求項１に記載のプログラムの実行を続行する方法。
【請求項３】故障を起したプロセツサによつて、プロ
セツサの故障をサービス・プロセツサに知らせるステツ
プと、若し、故障を起したプロセツサが動作可能ならば、故障
を起したプロセツサのレジスタの内容を、故障を起した
プロセツサによつてコピーするが、若し、故障を起した
プロセツサが動作不能ならば、故障を起したプロセツサ
のレジスタの内容をサービス・プロセツサによつてコピ
ーするステツプとを含むことを特徴とする請求項１に記
載のプログラムの実行を続行する方法。
【請求項４】中止されたプログラムを続けて処理する
ために、動作可能プロセツサを要求する少なくとも１つ
の動作可能プロセツサに対して、故障を起したプロセツ
サの故障警告（ＭＦＡ）を、サービス・プロセツサによ
つて知らせるステツプを含むことを特徴とする請求項３
に記載のプログラムの実行を続行する方法。
【請求項５】故障を起したプロセツサによつて使用す
るために割り当てられたシステムの主ストレージのログ
アウト領域中に、完了されたレジスタの内容をストアす
るステツプを含むことを特徴とする請求項３に記載のプ
ログラムの実行を続行する方法。
【請求項６】故障を起したプロセツサ及び少なくとも
１つの他の動作可能プロセツサの動作を制御するシステ
ム制御プログラムによつてアクセス可能なストレージ領
域中にフラグ・ビツトを、サービス・プロセツサによつ
てセツトするステツプを含むことを特徴とする請求項３
に記載のプログラムの実行を続行する方法。
【請求項７】問題を事前に予防することを可能にする
ために、故障を起したプロセツサの動作を停止するステ
ツプと、マイクロコード／プロセツサのハードウエア動作によつ
てアクセス可能であるが、オペレーテイング・システ
ム、またはアプリケーシヨン・プログラムではアクセス
できないハードウエア・ストレージ領域中に、故障を起
したプロセツサの動作を停止するプロセツサ停止の表示
フイールドを、サービス・プロセツサによつてセツトす
るステツプを含むことを特徴とする請求項３に記載のプ
ログラムの実行を続行する方法。
【請求項８】インストラクシヨンの実行がエラーを持
つていることを検出されている間は、複数回のインスト
ラクシヨンの実行を繰り返し、そして、エラーを持たず
に実行されたインストラクシヨンなしで反復された実行
回数が、予め決められた回数になつた時に、プロセツサ
のハードウエアのソリツド・エラーを検出するステツプ
と、その後、請求項１に記載された処理を開始するステツプ
とを含むことを特徴とする請求項１に記載のプログラム
の実行を続行する方法。
【請求項９】インストラクシヨンの実行がエラー状態
を生じた時、プロセツサのハードウエア中のエラーを検
出するステツプと、プロセツサのハードウエアのエラー状態が間欠的なタイ
プのエラー状態であつたとしても、請求項１に記載され
た処理を開始するステツプで請求項１の処理を制御する
ことを特徴とする請求項１に記載のプログラムの実行を
続行する方法。
【請求項１０】誤動作を起したハードウエアの素子の
除去によつて惹起され、プロセツサのハードウエアの状
態の性能低下を検出するステツプと、プロセツサの性能低下状態が予め決められた閾値のレベ
ルを越えた時を決定するステツプと、予め決められた閾値のレベルが超過された時、プロセツ
サがシステムから除外される前に、システムの保全の目
的を果たすために、他のプロセツサに現在のタスクを続
行させるために、請求項１に記載の処理を開始するステ
ツプとで請求項１の処理を制御することを含む請求項１
に記載のプログラムの実行を続行する方法。