JPH09251443A - 情報処理システムのプロセッサ障害回復処理方法 - Google Patents

情報処理システムのプロセッサ障害回復処理方法

Info

Publication number
JPH09251443A
JPH09251443A JP8061313A JP6131396A JPH09251443A JP H09251443 A JPH09251443 A JP H09251443A JP 8061313 A JP8061313 A JP 8061313A JP 6131396 A JP6131396 A JP 6131396A JP H09251443 A JPH09251443 A JP H09251443A
Authority
JP
Japan
Prior art keywords
processor
processing
failure
instruction
system support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8061313A
Other languages
English (en)
Inventor
Tadashi Noda
正 能田
Hitoshi Ueno
仁 上野
Yuki Kashiyama
由紀 柏山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8061313A priority Critical patent/JPH09251443A/ja
Priority to US08/820,232 priority patent/US5983359A/en
Publication of JPH09251443A publication Critical patent/JPH09251443A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • G06F11/201Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components

Abstract

(57)【要約】 【課題】 システム支援プロセッサSSP障害時に、命
令プロセッサIPをシステム支援プロセッサに変更可能
とする。 【解決手段】 複数のプロセッサを備え、少なくとも1
個のプロセッサをシステム支援プロセッサSSPとして
動作させ、その他のプロセッサを命令プロセッサIPと
して動作させる。SSPの障害発生時、少なくとも1個
のIP上で動作しているOSに割り込みを発生し、前記
OSが、前記IPにおいて障害が発生したことを認識
し、前記IP上で前記割込み発生時に動作していたアプ
リケーションプログラムを異常終了させ、あるいは、前
記IPをハードウェア障害状態として命令処理を停止さ
せ、あるいは、システム支援プロセッサ交代用命令プロ
セッサの切り離しコマンドを投入し、前記IPがSSP
の機能を引き継ぐ。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、マルチプロセッサ
構成の情報処理システムのプロセッサ障害回復処理方法
に係り、特に、プロセッサで固定障害が発生した場合
に、プロセッサ制御プログラム障害を回復させることに
よる情報処理システムのプロセッサ障害回復処理方法に
関する。
【0002】
【従来の技術】近年、計算機システムの進歩により、様
々な分野に計算機システムが活用されており、その利用
形態も複雑になっている。このため、計算機システムの
ダウンによる社会へ与える影響が大きくなり、計算機シ
ステムは、高い信頼性が要求されている。
【0003】計算機システムに要求される高い信頼性を
得るための技術として、単一のオペレーティングシステ
ムが動作する複数のプロセッサを持つマルチプロセッサ
構成の情報処理システムにおいて、リトライ等によるプ
ロセッサの間欠障害に対する回復技術、構成要素の冗長
性を利用したプロセッサの固定障害に対する処理の救済
技術等が知られている。
【0004】そして、処理の実行制御方法に関する従来
技術として、例えば、特開平2−266457号公報等
に記載された技術がある。この従来技術は、マルチプロ
セッサ構成の情報処理システムにおいて、1つのプロセ
ッサに固定障害が発生した場合に、正常なプロセッサで
仮想プロセッサを作成し、障害となったプロセッサが実
行していた処理を仮想プロセッサで引継ぐことにより、
システムの停止及び処理の中断を救済するというもので
ある。
【0005】また、疎結合マルチプロセッサ構成におけ
る計算機システムの処理継続方式に関する従来技術とし
て、例えば、特開昭60−54052号公報等に記載さ
れた技術が知られている。この従来技術は、1つのプロ
セッサがダウンしたとき、共有メモリを介して、他の正
常なプロセッサが管理情報を引き継ぐことにより、処理
を継続可能にするというものである。
【0006】また、プロセッサの固定障害に対する処理
の救済に関する従来技術として、例えば、特開平5ー1
08391号公報等に記載された技術が知られている、
この従来技術は、マルチプロセッサ構成の計算機システ
ムにおいて、固定障害が発生したプロセッサが実行して
いた命令を、組み込まれた訂正コードを使用することな
く、他の正常なプロセッサで実行することによって、障
害により中断した処理を救済するというものである。
【0007】また、多重プロセッサを持つフォールトト
レラント計算機システムに関する従来技術として、例え
ば、特開平2−202636〜202638号公報等に
記載された技術が知られている。この従来技術は、多重
プロセッサ構成で、処理及びデータを多重化することに
より、フォールトトレラントシステムを構成するという
ものである。
【0008】さらに、他の従来技術として、例えば、特
開平4−213736号公報等に記載された技術が知ら
れている。この従来技術は、活動プロセッサとバックア
ッププロセッサとにより構成され、活動プロセッサに障
害が発生した場合に、信頼できる最新のチェックポイン
トからバックアッププロセッサが処理を再開する2重プ
ロセッサ構成のデータ処理装置に関する技術である。
【0009】前述したように、一般に、フォールトトレ
ラント計算機システムは、プロセッサまたはソフトウエ
アの冗長構成と、故障の相互診断とにより、障害発生時
またはプロセッサ交換時にバックアッププロセッサによ
る処理の継続を可能にするというものである。フォール
トトレラント計算機システムは、各プロセッサでオペレ
ーションシステムが走行し、同じプロセスを複数のプロ
セッサ上で実行し、信頼性を向上させている。しかし、
フォールトトレラント計算機システムは、冗長構成のた
めシステムの構成が非常に複雑となる。
【0010】本発明は、システム制御用プロセッサを持
つマルチプロセッサ構成の計算機システムにおいて、1
つのプロセッサに固定障害が発生した場合のプロセッサ
障害回復技術に関するものであり、いか、この種の計算
機システムにおけるプロセッサの障害回復に関する従来
技術を図面により説明する。
【0011】図26は従来技術による制御用プロセッサ
を持つマルチプロセッサ構成の計算機システムの構成を
示すブロック図である。図26において、2600は計
算機内部動作を制御するシステム支援プロセッサSS
P、2601、2602はOSが動作する命令プロセッ
サIP0、IP1、2603は前記プロセッサが共有す
るハードウエア記憶領域(HSA)及びユーザ領域を有
する主記憶装置MS、2604はサービスプロセッサ、
2690〜2692はプロセッサ2600〜2602と
サービスプロセッサ2604とを接続する信号線であ
る。2693はプロセッサ2600〜2602と主記憶
装置2603とを接続する内部バス、2610、262
0、2630はプロセッサ上で動作するμプログラム
(μP)、2611、2621はμPの障害検出処理、
2640はSSPで動作するシステム制御プログラム
(SCP0)、2650、2660はIP0、IP1で
動作するシステム制御プログラム(SCP1、SCP
2)、2641、2651、2661はSCP0〜SC
P2が使用するシステム制御テーブル、2670はIP
0で動作するOS退避情報領域、2642、2652、
2662はSCP0〜SCP2のPU情報、2680は
OS割り当て領域、2681はプロセッサ障害により中
断した処理の回復処理、2683はアプリケーション割
り当て領域、2612、2622、2632はプロセッ
サのプリフックスレジスタ、2613、2623、26
33はシステム制御テーブルアドレス保存レジスタ、2
684はSVP2604のシステム障害処理、2685
はPU構成情報である。
【0012】図26に示す従来技術によるマルチプロセ
ッサは、OSが動作する複数の命令プロセッサ260
1、2602と、システム支援プロセッサ2600と、
サービスプロセッサ2604と、主記憶装置2603と
を備えて構成されている。そして、システム支援プロセ
ッサ2600は、OSを実行しないシステム制御専用プ
ロセッサであり、サービスプロセッサSVPと命令プロ
セッサIPとの間の通信、I/O処理、ES非同期命令
等を実行する。システム制御プログラム(SCP)は、
μP上で動作するプログラムコードであり、マクロコー
ドとも呼ばれる場合がある。
【0013】図27は命令プロセッサ(IP)に固定障
害が発生した時に動作していたOS処理の状態を退避す
るOS障害退避情報領域2670の構成を示す図であ
る。
【0014】OS障害退避情報領域2670内には、保
存状態を示す有効フラグ2710、プログラム状態語
(PSW)2720、CPUタイマ2721、クロック
コンパレータ2722、汎用レジスタ2723、制御レ
ジスタ2724、浮動小数点レジスタ2725、アクセ
スレジスタ2726等が退避される。
【0015】図28は前述のように構成されるマルチプ
ロセッサ計算機システムにおいて、命令プロセッサ1つ
に固定障害が発生したとき、そのプロセッサで走行して
いたOS処理を救済する方法を説明するフローチャート
であり、以下、これについて説明する。この例は、命令
プロセッサIP0、IP1でOSがマルチプロセッサ構
成で動作しているものとした場合の例である。
【0016】(1)いま、命令プロセッサIP0上でO
Sの処理Aが動作しているときに、命令プロセッサIP
0に固定障害が発生したとすると、命令プロセッサIP
0での処理Aが中断する(ステップ2800〜280
2)。
【0017】(2)命令プロセッサIP0内の障害検出
処理2621は、中断した処理Aの情報をIP0用OS
退避情報領域2670へ退避し、命令プロセッサIP1
へ誤動作警報を発行した後、チェックストップ状態とな
る(ステップ2803〜2805)。
【0018】(3)命令プロセッサIP1上で動作して
いたOSの処理Bが、IP0からの誤動作警報により中
断され、中断処理回復処理2681がIP0の誤動作警
報を検出する(ステップ2806〜2808)。
【0019】(4)中断処理回復処理2681は、命令
プロセッサIP0をオフライン制御する。これにより、
IP0上のOSがオフライン状態となる(ステップ28
09、2810)。
【0020】(5)その後、中断処理回復処理2681
は、中断処理A情報をIP0用OS退避情報領域267
0から採取し、処理Aを再開させた後、処理Bを再開さ
せる(ステップ2811〜2813)。
【0021】図29はマルチプロセッサ計算機システム
において、システム制御プログラム動作中のプロセッサ
SSPに固定障害が発生した場合の動作を説明するフロ
ーチャートであり、以下、これについて説明する。
【0022】(1)いま、SSP2600に固定障害が
発生したとすると、μPの障害検出処理2611は、障
害プロセッサがシステム制御プログラム動作中であると
判断して、SVP2604へSSP2600の固定障害
を報告し、チェックストップ状態となる(ステップ29
00〜2903)。
【0023】(2)SVP2604は、SSP2600
の固定障害を検出した後、システムチェックストップ要
因であると判断して、全ての命令プロセッサIPの動作
を停止させる。これにより、全ての命令プロセッサIP
0、IP1が停止する(ステップ2904〜290
7)。
【0024】
【発明が解決しようとする課題】前述した従来技術によ
るマルチプロセッサ構成の計算機システムは、命令プロ
セッサのOS処理中に命令プロセッサで固定障害が発生
した場合、他の正常な命令プロセッサ上のOSが、障害
の発生した命令プロセッサで実行していた処理を一時的
に引き継ぐことによりシステムの停止を救済することが
できる。
【0025】しかし、前述の従来技術は、システム制御
プログラムが、マルチプロセッサ構成で動作していない
システム支援プロセッサSSP内で動作しているため、
システム制御プログラム実行中に、そのプロセッサすな
わちSSPに固定障害が発生した場合、中断したシステ
ム制御プログラムを回復することができないという問題
点を有している。
【0026】すなわち、前述の従来技術は、システム制
御プログラムのみが動作するシステム支援プロセッサで
固定障害が発生した場合、これを引き継ぐプロセッサの
確保を行うことができないため、システムの動作を継続
することができなくなるという問題点を有している。
【0027】本発明の目的は、マルチプロセッサ構成の
計算機システムにおいて、システム制御プログラム実行
中のプロセッサに固定障害が発生した場合にも、中断し
たシステム制御プログラムを回復させることができる情
報処理システムのプロセッサ障害回復処理方法を提供す
ることにある。
【0028】すなわち、本発明の目的は、命令処理を実
行する命令プロセッサと、入出力処理、保守インターフ
ェース機能を持つシステム支援プロセッサにより構成さ
れる計算機システムにおいて、システム支援プロセッサ
の障害発生時に複数の命令プロセッサの内の1台の命令
プロセッサをシステム支援プロセッサに切り替えてシス
テムの動作を継続させることのできる情報処理システム
のプロセッサ障害回復処理方法を提供することにある。
【0029】
【課題を解決するための手段】本発明によれば前記目的
は、システム支援プロセッサの障害発生時、少なくとも
1個の命令プロセッサ上で動作しているオペレーティン
グシステムに割り込みを発生し、前記オペレーティング
システムが、前記命令プロセッサにおいて障害が発生し
たことを認識し、前記命令プロセッサ上で前記割込み発
生時に動作していたアプリケーションプログラムを異常
終了させ、前記命令プロセッサをシステム支援プロセッ
サと交代させることにより達成される。
【0030】また、前記目的は、前記システム支援プロ
セッサの障害発生時、少なくとも1個の命令プロセッサ
が実行中の命令処理を中断し、命令プロセッサで動作し
ていたプログラムの処理の継続に必要なプロセッサ資源
を主記憶装置に待避して、ハードウェア障害状態に入っ
て命令処理を停止し、前記命令プロセッサとは別の少な
くとも1個の命令プロセッサにハードウェア障害を報告
し、報告を受けた前記別の命令プロセッサはオペレーテ
ィングシステムに障害発生命令プロセッサの動作継続を
指示する割り込みを発生させ、前記命令プロセッサをシ
ステム支援プロセッサと交代させることにより達成され
る。
【0031】さらに、前記目的は、前記システム支援プ
ロセッサの障害発生時、少なくとも1個の命令プロセッ
サに対して障害発生を報告し、前記命令プロセッサ上で
動作中のオペレーティングシステムに対してシステム支
援プロセッサの交代を意味する割り込みを発生し、前記
割り込みを受信したオペレーティングシステムは、割り
込みが発生したことを示すシステムメッセージを表示
し、システムメッセージを受信して予め登録されたメッ
セージに対する自動応答コマンドを投入するプログラム
により前記システムメッセージに対応するシステム支援
プロセッサ交代用命令プロセッサの切り離しコマンドを
投入し、前記命令プロセッサをシステム支援プロセッサ
と交代させることにより達成される。
【0032】また、前記目的は、前記システム支援プロ
セッサの障害発生時、システム支援プロセッサで実行中
であったシステム制御プログラム処理の中断情報を退避
し、正常な命令プロセッサでシステム支援プロセッサの
障害発生を検出し、障害となったシステム支援プロセッ
サと正常な命令プロセッサとの構成情報を変更し、正常
な命令プロセッサが中断したシステム制御プログラムを
再開することにより達成される。
【0033】
【発明の実施の形態】以下、本発明による情報処理シス
テムのプロセッサ障害回復処理方法の実施形態を図面に
より詳細に説明する。
【0034】図1は本発明が適用される計算機システム
の構成例を示すブロック図である。図1において、10
1は中央処理装置CPU、102〜104は命令プロセ
ッサIP0〜IP2、105はシステム支援プロセッサ
SSP、107は主記憶装置MS、106は拡張記憶装
置ES、108、109はバスアダプタ、111は入出
力処理装置IOP、119はサービスプロセッサSV
P、112はシステムコンソールである。
【0035】図示計算機システムにおいて、中央処理装
置CPU101は、バスライン110に接続されている
命令プロセッサ(以下、IPという)102〜104、
システム支援プロセッサ(以下、SSPという)10
5、主記憶装置(以下、MSという)107、拡張記憶
装置(以下、ESという)106、バスアダプタ10
8、109、バスアダプタ108に信号線117を介し
て接続された入出力処理装置(以下、IOPという)1
11、バスアダプタ109に信号線118を介して接続
されたサービスプロセッサ(以下、SVPという)11
9等により構成されている。
【0036】前述において、IP102〜104とSS
P105とは、全く同一の仕様を持つハードウェアによ
り構成されており、IPとSSPとの区別は、MS10
7内に設けられている構成テーブル151の設定により
定められる。そして、IPとは、オペレーティングシス
テム(以下、OSという)、アプリケーションプログラ
ム等のソフトウェアの命令処理を実行するプロセッサを
意味し、SSPとは、ソフトウェアの命令処理を実行す
ることはなく、バスアダプタ108、109及びES1
06などの制御を専門に行うプロセッサを意味する。バ
スアダプタ108、109には、SSP構成記憶レジス
タ155、156が備えられており、これによりIOP
111、SVP119等からの制御要求をSSP105
に正しく送出することができる。
【0037】また、IOP111は、多数の入出力チャ
ネル装置(以下、CHという)112〜116を備え、
端末制御装置(TCE)124を介して接続されたオペ
レータコンソール126、ディスク制御装置(DKC)
129を介して接続されたディスク装置(DK)132
〜133、磁気テープ制御装置(MTC)135を介し
て接続された磁気テープ装置(MT)137〜138、
通信制御装置(CCP)140等にコマンドを送出する
ことによりデータの送受信を行う。また、SVP119
は、CPU101全体の初期化、障害時の回復処理、オ
ペレータへの状況表示、オペレータからの指示を受け付
けるシステムコンソール122との通信を行う。
【0038】図2はSSP105が制御を行うために使
用する制御ブロックを示す図である。この図2におい
て、SVP転送要求ブロック211、SVP転送要求キ
ュー234、転送ステータスワード221、転送コマン
ド231、データ232、エンドデータ233は、SS
P105がSVP119に要求を発行し、SVP119
からの要求を受信するために用いられる。そして、割り
込み制御ブロック241、ジャーナル制御領域251
は、SSP105がIOP111からの要求を受信する
制御のために用いられ、ES転送要求キュー271は、
ES106とMS107との間のデータ転送要求の実行
を制御するために用いられる。
【0039】次に、前述の個々の制御ブロックの詳細に
ついて説明する。
【0040】SVP転送要求ブロック211は、バスア
ダプタ109に対する起動命令による受信処理起動後、
転送完了時に“0”から“1”にされる転送完了フラグ
212、バスアダプタ109に対する起動命令による送
信処理起動後、転送完了時に“0”から“1”にされる
転送完了フラグ214、送受信処理のデータ転送対象と
なるMS107上の転送アドレス216及びデータの長
さを指示する転送バイト数217を格納するフィールド
と未使用のフィールド213、215を持つ。この要求
ブロック211は、SSP105で動作するプログラム
がSVP119とのデータ送受信処理を行うときに用い
るバスアダプタ109起動命令の発行時に参照される。
【0041】SVP転送要求キュー234は、要求要素
239をキューに登録する際の排他制御を目的としたロ
ックバイト235、キューから要素を外してはあるが処
理実行中であり一旦処理を中断した後も再度この処理を
開始する必要があることを示すリジューム表示バイト2
36、空きフィールド237、要求の種類を示すキュー
要素239のアドレスを示すキューポインタ238から
構成される。
【0042】コマンド231、データ232、エンドデ
ータ233は、バスアダプタに対する1回の起動命令で
転送するデータブロックの単位となっており、SSP1
05は、それぞれの送受信のためにそれぞれのデータ毎
に1回のバスアダプタ起動命令を発行する必要がある。
【0043】転送ステータスワード221は、コマンド
231を転送中であることを表示するコマンドビット2
22、データ232の転送中であることを表示するデー
タビット223、エンドデータ233の転送中であるこ
とを表示するエンドデータビット224及び空きフィー
ルド225から構成されている。
【0044】割り込み制御ブロック241は、この制御
ブロックの更新を排他制御するためのロックバイト24
2、ES割り込みビット244、I/O割り込み情報2
46及び空き領域243、245により構成される。
【0045】ジャーナル領域251は、最も古い有効な
ジャーナルが入っているエントリを指す読み出しポイン
タ252、新しいジャーナルを書き込む書き込みポイン
タ253、ジャーナルレコード255、256から構成
され、ジャーナルレコードは、ジャーナルタイプ25
7、259及びパラメータ258、260等から構成さ
れる。
【0046】ES転送要求キュー271は、ロックバイ
ト272、要求要素275を指すキューポインタ274
及び空き領域273から構成されている。
【0047】前述した各制御ブロックは、ハードウェア
システム領域(HSA)202とユーザ領域203とに
分かれて構成されるMS201上のHSA202上に配
置されている。
【0048】図3はSSP105の通常の処理動作を説
明するフローチャートであり、以下、図3を参照して、
SSP105の通常の処理動作を説明する。
【0049】(1)SSP105における以下に説明す
る処理は、図1に示す計算機システムの起動時に始ま
り、システムが終了するまで処理要求の有無を監視しな
がらループして待ち、システム終了時には終了する(ス
テップ301〜303)。
【0050】(2)ステップ302における処理要求の
有無の監視の第1は、SVP転送要求キュー234に要
求があるか、または、送信完了フラグ214=“1”
で、かつ、リジューム要求バイト236が“1”かの検
査であり、この条件が成立すると、SSP105は、S
VP119へのコマンド送出処理を実行する(ステップ
311、312)。
【0051】(3)ステップ302における処理要求の
有無の監視の第2は、バスアダプタ108からのI/O
割り込み要求があるか否かの検査であり、もし、I/O
割り込み要求があれば、SSP105はI/O割り込み
処理を実行する(ステップ321、322)。
【0052】(4)ステップ302における処理要求の
有無の監視の第3は、ES転送要求キュー271にIP
からの処理要求が来ているか否かの検査であり、もし、
IPからの処理要求があれば、ES転送処理を実行する
(ステップ331、332)。
【0053】(5)さらに、ステップ302において、
他の要求についても前述と同様に検査し、もし要求があ
れば、その要求に対応する処理を実行する(ステップ3
41、342)。
【0054】図4はSVPへのコマンド送出処理(図3
のステップ312)の詳細な動作を説明するフローチャ
ートであり、次に、図4を参照して、SSP105から
のSVP119へのコマンド送出処理の詳細について説
明する。
【0055】(1)処理が開始されると、まず、キュー
ポインタ238に要求要素239が繋がれているか否か
を検査し、もし、繋がれていれば、要求要素239をデ
キューする(ステップ401〜403)。
【0056】(2)そして、要求要素239の内容から
SVP119へ送信すべき内容を、制御ブロックに書き
込む。すなわち、コマンドの内容をコマンド領域231
に書き込み、データの内容をデータ領域232に書き込
み、エンドデータの内容をエンドデータ領域233に書
き込む(ステップ404)。
【0057】(3)次に、データ231のアドレスを転
送アドレス216にセットし、データのバイト数を転送
バイト数217に設定し、バスアダプタ109に対する
起動命令を発行する(ステップ406)。
【0058】(4)バスアダプタ109を起動した後、
データ転送を完了するまでには長い時間を要するので、
SSP105は、一旦送信処理を抜けて再度続きを実行
することを可能とするために、転送ステータスワード2
21のコマンドビット222を“1”にセットし、リジ
ュームバイト236に“1”をセットする(ステップ4
07、408)。
【0059】(5)データ転送が完了して次のデータ転
送に入るときには、要求要素が無い状態で再度この図4
に示す処理に入ってくるので、ステップ402で、キュ
ーポインタ238に要求要素が繋がれていないことが判
れば、転送ステータスワード221の最初の3ビットの
パターンを検査する(ステップ411)。
【0060】(6)ステップ411の検査で、ビットパ
ターンが“100”であれば、コマンドの転送が完了し
たことを示すので、次に、データ部232に転送アドレ
ス216とバイト数217とを設定し、バスアダプタ1
09に対する起動命令を発行して、転送ステータスワー
ド221のコマンドビット222を“0”に設定し、デ
ータビット223を“1”に設定する(ステップ412
〜414)。
【0061】(7)ステップ411の検査で、ビットパ
ターンが“010”であれば、データ部分の転送が完了
したことを示すので、次に、エンドデータ部23に転送
アドレス216とバイト数217とを設定し、バスアダ
プタ109に対して起動命令を発行して、転送ステータ
スワード221のデータビット223を“0”に、エン
ドデータビット224を“1”に設定する(ステップ4
15〜417)。
【0062】(8)ステップ411の検査で、ビットパ
ターンが“001”であれば、エンドデータ部分の転送
が完了したことを意味するので、次に、転送ステータス
ワード221のエンドデータビット224を“0”にリ
セットし、リジュームバイト236を“0”にリセット
する(ステップ418、419)。
【0063】図5はSSP105によるI/O割り込み
処理(図3のステップ322)を説明するフローチャー
トであり、次に、図5を参照して、SSP105による
I/O割り込み処理を説明する。
【0064】(1)バスアダプタ108からの要求でこ
の処理が起動されると、ジャーナルタイプが“10”で
あるI/O割り込み処理開始ジャーナルをジャーナル領
域251に出力する(ステップ501、502)。
【0065】(2)次に、I/O割り込み制御ブロック
241にロックをかけ、I/O割り込み情報246を読
み込み、ジャーナルタイプが“11”であるジャーナル
を出力し、I/O割り込み情報246をクリアして、ジ
ャーナルタイプが“12”であるジャーナルを出力する
(ステップ503〜507)。
【0066】(3)その後、バスアダプタ108に表示
されている割り込み要因ビットをリセットし、ジャーナ
ルタイプが“13”であるジャーナルを出力して、I/
O割り込み制御ブロック241のロックを解放する(ス
テップ508〜510)。
【0067】(4)次に、ジャーナルタイプが“14”
であるジャーナルを出力し、IP102〜104にI/
O割り込みを通知して、ジャーナルタイプが“15”で
あるジャーナルを出力して処理を終了する(ステップ5
11〜513、520)。
【0068】図6はSSP105によるES転送処理
(図3のステップ332)を説明するフローチャートで
あり、次に、図6を参照して、SSP105によるES
転送処理を説明する。
【0069】(1)この処理が起動されると、ES転送
要求キュー271から要求要素275の内容を読み、要
求に従ってES106からMS107へのデータ転送ま
たはMS107からES106へのデータ転送を実行す
る(ステップ601〜603)。
【0070】(2)次に、割り込み制御ブロック241
にロックをかけ、ES割り込みビット244を“1”に
セットする(ステップ604、605)。
【0071】(3)そして、ES転送要求キュー271
から実行済みの要求要素275をデキューし、割り込み
制御ブロック241のロックを解除して処理を終了する
(ステップ606〜608)。
【0072】前述ではSSP105が正常な場合の通常
の処理動作を説明したが、次に、SSP105に障害が
発生した場合の動作を説明する。
【0073】図7はSSPに障害が発生した場合の交代
IPの動作を説明するフローチャートであり、以下、こ
れについて説明する。
【0074】(1)SSP105で障害が発生すると、
SSPのハードウェアは、バス110を通してすべての
IP102〜104に障害の発生を通知し、各IPの障
害処理を起動する(ステップ701)。
【0075】(2)起動を受けた各IPの障害処理マイ
クロプログラムは、発生した障害の情報を読み込み、障
害プロセッサがSSPであり、かつ、自IPがSSPの
交代用のIPであるか否か検査する(ステップ702〜
704)。
【0076】(3)ステップ703、704の検査で、
障害プロセッサがSSPであり、かつ、自IPがSSP
の交代用のIPであると判定された場合、そのIPは、
他の全てのIPに対してSSPへの要求の発行を禁止す
るメッセージを送る(ステップ705)。
【0077】(4)また、前記IPは、SSPのプロセ
ッサをシステム構成から切離すために構成情報151を
更新し、自IP上でマシンチェック割り込みをOSに対
して報告する(ステップ706、707)。
【0078】前述でマシンチェック割り込みを受けたO
Sは、障害内容を判定しこのIPでソフトウェアの実行
が不可能であると判断し、IPのオフライン命令を発行
する。これにより切離されたIPのマイクロプログラム
は、自プロセッサをIPからSSPに変更する動作を開
始する。
【0079】図8はこの自プロセッサをIPからSSP
に変更する処理を説明するフローチャートであり、以
下、これについて説明する。
【0080】(1)OSによるIPのオフライン命令の
発行により、この処理が起動されると、このIPをオフ
ライン状態に変更し、自プロセッサがSSP交代用プロ
セッサか否かを検査する(ステップ801〜803)。
【0081】(2)ステップ803の検査で自プロセッ
サが交代用プロセッサであれば、構成情報151に自プ
ロセッサをSSPとして登録し、バスアダプタ108の
SSP登録レジスタ155とバスアダプタ109のSS
P登録レジスタ156に自プロセッサの番号を登録する
(ステップ804〜806)。
【0082】(3)そして、SVP119へのコマンド
送出処理の回復を実行し、I/O割り込み処理の回復を
実行し、ES転送処理の回復を実行し、さらに、その他
の処理の回復を実行する(ステップ811〜814)。
【0083】(4)前述までのステップの処理が終わる
と、全てのIPにSSPへの要求の発行を許可するメッ
セージを通知する(ステップ815)。
【0084】図9はSVPへのコマンド送出の回復処理
(図8のステップ811)の処理を説明するフローチャ
ートであり、以下、これについて説明する。
【0085】(1)この処理が起動されると、転送ステ
ータスワード221を読み出して、転送ステータスワー
ドの最上位3ビットのパターンを検査し、パターンに対
応する回復処理を実行する処理に移る(ステップ901
〜903)。
【0086】(2)ステップ903で検出されたビット
パターンが“000”の場合、キュー234からデキュ
ーされたまま、バスアダプタ109を未起動の状態にあ
る要求要素が存在するか否かチェックする(ステップ9
11)。
【0087】(3)ステップ911のチェックで、バス
アダプタ109を未起動の状態にある要求要素が存在す
る場合、要求要素からコマンド231、データ232、
エンドデータ233を作成し、コマンド部231の転送
アドレス216と転送バイト数217を設定して、バス
アダプタ109に体する起動命令を発行する(ステップ
912〜914)。
【0088】(4)次に、転送ステータスワード221
のコマンドビット222を“1”に設定し、リジューム
バイト236に“1”を設定する(ステップ916)。
【0089】(5)ステップ903で検出されたビット
パターンが“100”の場合、転送完了フラグ214が
“1”で、かつ、バスアダプタ109を起動済みである
ことを確認して、転送ステータスワード221のコマン
ドビット222を“0”に設定し、データビット223
を“1”に設定する(ステップ921〜923)。
【0090】(6)ステップ903で検出されたビット
パターンが“010”の場合、転送完了フラグ214が
“1”か否かを検査し、“1”であればバスアダプタ1
09が起動済みであるか否かを検査し、起動済みであれ
ば転送ステータスワード221のデータビット223を
“0”にリセットし、エンドデータビット224を
“1”にセットする(ステップ931〜933)。
【0091】(7)ステップ903で検出されたビット
パターンが“001”の場合、何もせずに処理を終了す
る(ステップ951)。
【0092】図10はI/O割り込み実行の回復処理
(図8のステップ812)を説明するフローチャートで
あり、以下、これについて説明する。
【0093】(1)この処理が起動されると、まず、ジ
ャーナル251を書き込みポインタ253が指すレコー
ドから読み込みポインタ252が指すレコードの方向へ
逆順にサーチし、ジャーナルタイプが“10”以上“1
4”以下のレコードを見つける(ステップ1001〜1
003)。
【0094】(2)ステップ1003で見つけられたジ
ャーナルタイプの最大値が“14”であった場合、IP
102〜104にI/O割り込みを通知する(ステップ
1004、1012)。
【0095】(3)ステップ1003で見つけられたジ
ャーナルタイプの最大値が“13”であった場合、I/
O割り込み制御ブロックのロックを解放した後、IPへ
の割り込み通知を行う(ステップ1005、1011、
1012)。
【0096】(4)ステップ1003で見つけられたジ
ャーナルタイプの最大値が“12”であった場合、バス
アダプタ108の割り込み要因をリセットした後、割り
込み制御ブロックのロックを解放し、IP102〜10
4への割り込み通知を行う(ステップ1006、101
0〜1012)。
【0097】(5)ステップ1003で見つけられたジ
ャーナルタイプの最大値が“11”であった場合、I/
O割り込み情報246をクリアした後、バスアダプタ1
08の割り込み要因をリセットし、さらに、割り込み制
御ブロックのロックを解放して、IP102〜104へ
の割り込み通知を行う(ステップ1007、1009〜
1012)。
【0098】(6)ステップ1003で見つけられたジ
ャーナルタイプの最大値が“10”であった場合、I/
O割り込み制御ブロックをロックし、I/O割り込み情
報246をクリアした後、バスアダプタ108の割り込
み要因をリセットし、さらに、割り込み制御ブロックの
ロックを解放して、IP102〜104への割り込み通
知を行う(ステップ1007、1009〜1012)。
【0099】図11はES転送実行の回復処理(図8の
ステップ813の処理)を説明するフローチャートであ
り、以下、これについて説明する。
【0100】(1)この処理が起動されると、まず、E
S転送要求キューから読み込み済みの要求要素があるか
否かを検査し、もしあれば、さらに割り込み制御ブロッ
クのロックを持っているか否かを検査する(ステップ1
101〜1103)。
【0101】(2)ステップ1103で、割り込み制御
ブロックのロックを持っていると検出された場合、ES
割り込みビット244を“1”にセットし、ES転送要
求キューから実行済みの要求要素275を外し、割り込
み制御ブロック241のロックを解放する(ステップ1
104〜1106)。
【0102】前述した本発明の実施形態による動作例
は、SSPの障害に対して交代するIPが、自IPでの
それまでの処理を中止するものであったが、次に、プロ
セスを継続させることのできるSSPの交代処理につい
て説明する。
【0103】図12はSSPに障害が発生した場合に交
代IPのプロセスを継続させることができる交代IPの
動作を説明するフローチャートであり、以下、これにつ
いて説明する。
【0104】(1)図7により説明した場合と同様に、
SSPから障害通知を受けたIPは、まず、プロセスサ
クセション用のパラメタとして、障害通知を受けた時点
で実行中であったプログラムのプログラムステータスワ
ード(PSW)と汎用レジスタとをPSW退避領域及び
汎用レジスタ退避領域から読み込み、HSA上のプロセ
スサクセション用のパラメータ領域に格納する。次に、
CPUタイマ、クロックコンパレータ、制御レジスタ、
浮動小数点レジスタ、アクセスレジスタ、プリフィック
スレジスタの値を直接読み出してパラメータ領域に格納
する。そして、これらのパラメタ格納動作が全て成功し
たなら、自IPの番号であるCPUアドレスとプロセス
サクセション有効フラグとをパラメタ領域に格納する
(ステップ1201)。
【0105】(2)次に、IPは、発生した障害の情報
を読み込み、障害プロセッサがSSPであり、かつ、自
IPがSSPに対する交代用のIPであるか否か検査す
る(ステップ1201〜1204)。
【0106】(3)ステップ1203、1204の検査
で、障害プロセッサがSSPであり、かつ、自IPがS
SPの交代用のIPであると判定された場合、そのIP
は、他の全てのIPに対してSSPへの要求の発行を禁
止するメッセージを通知する(ステップ1205)。
【0107】(4)また、前記IPは、SSPのプロセ
ッサをシステム構成から切離すために構成情報151を
非構成状態に更新する(ステップ1206)。
【0108】(5)次に、IPは、汎用レジスタ、浮動
小数点レジスタ等の実行中であったソフトウェアのプロ
セスの継続(プロセスサクセション)に必要なアーキテ
クチャ上の資源を、プロセスサクセション用のパラメー
タとして格納し、自IPをチェックストップ状態にし、
他のIPに対して自IPの障害発生を報告する(ステッ
プ1207、1208)。
【0109】(6)ステップ1208によりSSP交代
IPからの障害発生の報告を受けた他のIPは、まず、
障害情報を読み込み、障害プロセッサがSSPでなく、
その障害プロセッサがプロセスサクセションに必要な情
報をパラメータとして格納済みであることを確認して、
自IPで動作中のOSに対してプロセスサクセション割
り込みを発生する(ステップ1221〜1225)。
【0110】図13はプロセスサクセション割り込みを
受けたOSの処理を説明するフローチャートであり、以
下、これについて説明する。
【0111】(1)前述したステップ1225によるプ
ロセスサクセション割り込みを受けたOSは、まず、プ
ロセスサクセション用のパラメータを読み込み、SSP
交代用IPで動作していたソフトウェアの継続動作を実
行する(ステップ1301〜1303)。
【0112】(2)次に、チェックストップしたSSP
交代用IPに対してオフライン命令を発行する。これに
より、SSP交代用IPは、図8により説明した処理を
実行して、SSPとして動作することができるようにな
る(ステップ1304)。
【0113】図14はSSP交代処理の他の処理れいと
して、OSのメッセージ自動応答を利用したSSP障害
の回復処理を説明するフローチャートであり、以下、こ
れについて説明する。
【0114】(1)図7により説明した場合と同様に、
SSPから障害通知を受けたIPは、まず、発生した障
害の障害情報を読み込み、障害プロセッサがSSPであ
り、かつ、自IPがSSPに対する交代用のIPである
か否か検査する(ステップ1401〜1404)。
【0115】(2)ステップ1403、1404の検査
で、障害プロセッサがSSPであり、かつ、自IPがS
SPの交代用のIPであると判定された場合、そのIP
は、他の全てのIPに対してSSPへの要求の発行を禁
止するメッセージを通知する(ステップ1405)。
【0116】(3)次に、前記IPは、SSPのプロセ
ッサをシステム構成から切離すために構成情報151を
非構成状態に更新し、自IPのOSに対して、このプロ
セッサがSSP交代用IPであることを通知する外部割
り込みを発生する(ステップ1406、1407)。
【0117】図15は前述のステップ1407による外
部割り込みを受けたOSの処理を説明するフローチャー
トであり、以下、これについて説明する。
【0118】(1)前述したステップ1407によるS
SP交代を通知する外部割り込みを受けたOSは、ま
ず、割り込み処理ルーチンにより、SSP交代通知割り
込みが発生したことを示すシステムメッセージをオペレ
ータコンソールに出力する(ステップ1501、150
2)。
【0119】(2)このシステムメッセージにより自動
運転ソフトウェアが起動され、システムメッセージの内
容がSSP交代メッセージか否か検査される(ステップ
1521、1522)。
【0120】(3)システムメッセージの内容がSSP
交代メッセージであれば、そのメッセージに対する自動
応答コマンドとして、そのメッセージを出力したIPを
切離すCPUオフラインコマンドを発生する。これによ
り、SSP交代用IPは、図8により説明した処理を実
行して、SSPとして動作することができるようになる
(ステップ1523)。
【0121】前述した本発明の実施形態によれば、図2
に示すように、MSのHSA内に制御ブロックを設けて
おくだけで、SSP障害時に、IPのうちの1台をSS
Pに交代させることができる。また、このような交代方
法は、SSPの交代の他にも、メモリ共有型のマルチプ
ロセッサにおいてプロセッサ毎に機能が異なるソフトウ
ェアが動作している場合に、特定のプロセッサの障害を
回復するために利用することができる。
【0122】前述までに、システム支援プロセッサ交代
の方法を3種説明したが、本発明は、これらの方法を、
計算機システム内に設けたシステム支援プロセッサ交代
モード記憶領域内に予め登録しておき、システム支援プ
ロセッサ障害時に、前記記憶領域内に記憶されている交
代モードにより交代動作を開始させるようにすることが
できる。
【0123】前述で説明した本発明の実施形態は、SS
P自身のプロセスサクセション情報を保持することなく
SSPの交代を行うものであったが、次に、SSP自身
にプロセスサクセション情報を保持させてSSPの交代
を行うこととした本発明の他の実施形態を説明する。こ
の実施形態では、SSP、IP、SVPに僅かのハード
ウエアの追加を必要とする。
【0124】図16はOSが動作するIPの内部構成を
示すブロック図である。図16において、1601はプ
ロセッサ上で動作するμP、1602は障害検出処理、
1603はプロセッサのプリフックスレジスタ、160
4はシステム制御テーブルアドレス保存レジスタであ
り、全てのIP102〜104が、これらを備えて構成
されている。
【0125】図17は計算機内部動作を制御するSSP
の内部構成を示すブロック図である。図17において、
1701はプロセッサ上で動作するμP、1702は障
害検出処理、1703はプロセッサのプリフックスレジ
スタ、1704はシステム制御テーブルアドレス保存レ
ジスタであり、SSP105はこれらを備えて構成され
ている。
【0126】図18はMSの内部構成を説明する図であ
る。図18において、1810、1820、1830、
1840はSSP、IP0〜IP2で動作するシステム
制御プログラム(SCP0〜SCP3)、1821は他
のプロセッサで固定障害が発生したとき実行される誤動
作警報処理、1811、1822、1831、1841
はSCP0〜SCP3が使用するシステム制御テーブル
SCT0〜SCT3、1850はSSP用障害退避情報
領域、1851はPU1用障害退避情報領域、181
2、1823、1832はSCP〜SCP3のPU情
報、1855はPU交代処理、1860はOS割り当て
領域、1861はプロセッサ障害により中断したOS処
理の回復処理、1870はアプリケーション割り当て領
域である。
【0127】以下に説明する本発明の実施形態は、SS
P105のプロセッサの固定障害により中断したシステ
ム制御プログラムを回復するため、システム制御プログ
ラムにPU交代処理1855を設け、マルチプロセッサ
構成の正常プロセッサ上で中断したシステム制御プログ
ラムを救済し、計算機システムを救済することができる
ようにしたものである。
【0128】図19はSVP119の内部構成を示すブ
ロックである。図19において、1910は、システム
障害を検出しシステムを停止させる処理、1920はP
U構成情報である。
【0129】図20はSVP119に設定されているP
U構成情報1920の詳細を説明する図である。PU構
成情報1920内には、構成情報2010及びSSP、
IPのCPUアドレス2020が設定される。そして、
構成情報2010内には、実装PUビット2011、S
SP動作PUビット2012、IP動作PUビット20
13が設定され、PUのCPUアドレス2020内に
は、SSPのCPUアドレス2021、IP0のCPU
アドレス2022、IP1のCPUアドレス2023、
IP2のCPUアドレス2024が設定される。
【0130】図21はSCP0が使用するシステム制御
テーブルSCT0のPU情報1812の構成を説明する
図であり、SCP1〜SCP3に対応するPU情報も同
一のフォーマットを有している。
【0131】そして、このPU情報は、システムPU構
成情報2110、PU動作情報2120、SCP用制御
情報2130により構成される。構成情報2110に
は、SVP上にあるPU構成情報がコピーされた内容で
あり、実装PUビット2111、SSP動作PUビット
2112、IP動作PUビット2113が設定される。
また、動作情報2120には、SCPが動作しているP
U番号2121、PUシリアル番号(S/N番号)21
22、CPUアドレス2123が設定される。
【0132】図22はSSPに固定障害が発生したとき
に動作していたSCP処理及びOS処理の状態を退避す
るSSP用障害退避情報領域1850の構成を説明する
図であり、IP0用障害退避情報領域1851も、SS
P用障害退避情報領域1850と同一のフォーマットに
より構成される。
【0133】図22に示すように、SSP用障害退避情
報領域1850内には、保存状態を示す有効フラグ22
10、固定障害が発生したとき実行していた処理がSC
PであるかOSであるかを示す動作状態フラグ221
1、SCTアドレス2212、CPUアドレス221
3、プリフィックスレジスタ2214、プログラム状態
後(PSW)2215、CPUタイマ2216、クロッ
クコンパレータ2217、汎用レジスタ2218、制御
レジスタ2219、浮動小数点レジスタ2220、アク
セスレジスタ2221が退避される。
【0134】次に、前述したように構成される本発明の
他の実施形態において、システム制御プログラムのみが
動作するシステム支援プロセッサSSPに固定障害が発
生した場合のSSP回復方法を説明する。説明の前提と
して、IP0上でOSの処理Aが動作状態にあり、IP
1上でOSの処理Bが動作状態であるものとする。この
状態でSSPのSCP0動作中にSSPに固定障害が発
生すると、SCP0はその動作を中断し、μP1701
内の障害検出処理1702が実行される。
【0135】図23はμP内の障害検出処理動作を説明
するフローチャートであり、以下、これについて説明す
る。
【0136】(1)μP内の障害検出処理1702は、
SSPの固定障害を検出し、SSPの内部状態をSSP
退避情報領域1850のSCP退避情報領域に退避させ
る(ステップ2300、2301)。
【0137】(2)他のIPに対してSSPの固定障害
を報告した後、SSPは、チェックストップ状態とな
る。従来の障害検出処理では、OS処理の中断回復情報
のみを退避していたが、本発明によるこの処理では、シ
ステム制御プログラムの中断を回復するため、システム
制御テーブルのアドレス、CPUアドレスを退避させ。
また、プロセッサの固定障害により中断した処理が、O
S処理であるかシステム制御プログラムであるかを示す
フラグを退避させる(ステップ2302、2303)。
【0138】図24はSSPの固定障害を検出したIP
0のSCP1による誤動作警報処理を説明するフローチ
ャートであり、以下、これについて説明する。
【0139】(1)SSPからの固定障害の報告を受
け、これを検出したIP0のSCP1は、誤動作警報処
理開始し、SSPの固定障害を検出して、IP0で動作
していた処理AをI−STOP状態にし、OSの動作状
態をIP0退避情報領域1851に退避する(ステップ
2400〜2402)。
【0140】(2)ステップ2402の処理で状態退避
完了後、SSPの退避情報をSSP退避情報領域から採
取し、障害発生時のSSPの動作状態を判断する(ステ
ップ2403、2404)。
【0141】(3)ステップ2404でプロセッサの固
定障害により中断した処理がOS処理であると判定され
た場合、IP0のOSへ誤動作警報を報告し、IP0の
OSをI−STARTさせる(ステップ2405、24
06)。
【0142】(4)ステップ2404でプロセッサの固
定障害により中断した処理がシステム制御プログラム
(SCP)処理であると判定された場合、全IPをI−
STOP状態にする。これにより、IP1での処理Bは
I−STOP状態となる。そして、SSP、IP0交代
のためPU交代処理175を起動する(ステップ240
7、2408)。
【0143】前述の処理において、プロセッサの固定障
害によりOS処理が中断した場合、従来のOSの中断処
理回復処理により中断処理が救済される。
【0144】図25はステップ2408で起動されるP
U交代処理を説明するフローチャートであり、以下、こ
れについて説明する。
【0145】(1)障害プロセッサであるSSPの退避
情報をSSP退避情報領域から採取して、SCT0、S
CT1内のPU番号及びPUシリアル番号を入れ換える
ように再設定する(ステップ2500、2501)。
【0146】(2)SVP内のPU構成情報185とS
CT0、SCT1内のCPUアドレスとを再設定し、S
VP内のPU構成情報185とSCT0、SCT1、S
CT2内のPU構成情報を再設定する(ステップ250
2、2503)。
【0147】(3)SSP退避情報領域1850とIP
0退避情報領域1851間で、SSP、IP0の退避情
報を交換する。これまでの処理でのPU構成情報、退避
情報の入れ替えにより、IP0で動作していたOS、S
CPはSSPで動作していたように、SSPで動作して
いたSCPはIP0で動作していたように他のPUから
見える。すなわち、SSPとIP0とが交代したことに
なる(ステップ2504)。
【0148】(4)その後、IP0内のシステム制御テ
ーブルアドレス保存レジスタに、SCP0用のSCT0
のアドレスを再設定し、IP0内のプリフィックスレジ
スタに、SSPのプリフィックスレジスタの内容を再設
定する(ステップ2505、2506)。
【0149】(5)ステップ2500の処理において、
SSPの退避情報から採取した内容をIP0の内部に設
定し、SSPの固定障害状態を発行して、全IPをI−
START状態にする。さらに、SCP0をリスタート
させる。これにより、SCP0がIP0上で動作を継続
することができる。すなわち、これ以後、いままでのI
P0がSSPとして動作することになる(ステップ25
07〜2510)。
【0150】前述において、IP1は、交代処理からの
I−START要求によりOSをI−STARTさせた
後、動作を再開したOSがステップ2508で発行され
たSSPの固定障害状態による誤動作警報を検出し、中
断処理回復処理を実行する。この中断処理回復処理は、
従来の中断したOSを再開する処理であり、SSPをオ
フライン制御した後、中断処理Aの情報をSSP用退避
情報領域から採取し、処理Aを再開する。
【0151】前述したように、本発明の他の実施形態に
よれば、マルチプロセッサ構成の計算機システムにおい
て、システム制御プログラムのみが動作するシステム支
援プロセッサで固定障害が発生したとき、正常なプロセ
ッサをシステム支援プロセッサに変更し、システムを継
続することができる。
【0152】
【発明の効果】本発明によれば、SSP交代時に交代用
IPで動作中だったソフトウェアの継続実行が可能とな
り、また、SSPにおいて実行中であった処理も確実に
交代SSPにおいて継続実行可能となり、信頼性が向上
する。
【0153】本発明によれば、マルチプロセッサ計算機
システム、プロセッサの固定障害発生時に実行中であっ
たシステム制御プログラム処理の中断情報を退避し、正
常プロセッサでプロセッサの固定障害発生を検出し、障
害となったプロセッサと正常なプロセッサの構成情報を
変更しすることにより、正常プロセッサ上で中断したシ
ステム制御プログラムを再開することが可能となる。
【0154】マルチプロセッサ計算機システムにおい
て、プロセッサの固定障害発生時に、プロセッサが共有
するハードウエアの記憶領域に退避領域を確保し、シス
テム制御プログラムが動作するための制御テーブルアド
レスおよび動作状態フラグと、OSを制御するためのC
PUアドレスを退避し、実行中であったシステム制御プ
ログラム処理の中断情報を退避できる。
【0155】マルチプロセッサ構成の計算機システムに
おいて、他のプロセッサの固定障害発生時に、退避され
ている情報を採取し、中断した処理がプロセッサ制御プ
ログラムであるかOS処理であるかを判断し、障害プロ
セッサと正常プロセッサを交代する処理を起動できる。
【0156】マルチプロセッサ構成の計算機システムに
おいて、正常プロセッサ上で動作していた処理情報を退
避し、障害プロセッサと正常プロセッサの交代後、他の
正常プロセッサで再開することが可能となる。
【図面の簡単な説明】
【図1】本発明が適用される計算機システムの構成例を
示すブロック図である。
【図2】SSPが制御を行うために使用する制御ブロッ
クを示す図である。
【図3】SSPの通常の処理動作を説明するフローチャ
ートである。
【図4】SVPへのコマンド送出処理(図3のステップ
312)の詳細な動作を説明するフローチャートであ
る。
【図5】SSP105によるI/O割り込み処理(図3
のステップ322)を説明するフローチャートである。
【図6】SSPによるES転送処理(図3のステップ3
32)を説明するフローチャートである。
【図7】SSPに障害が発生した場合の交代IPの動作
を説明するフローチャートである。
【図8】自プロセッサをIPからSSPに変更する処理
を説明するフローチャートである。
【図9】SVPへのコマンド送出の回復処理(図8のス
テップ811)の処理を説明するフローチャートであ
る。
【図10】I/O割り込み実行の回復処理(図8のステ
ップ812)を説明するフローチャートである。
【図11】ES転送実行の回復処理(図8のステップ8
13の処理)を説明するフローチャートである。
【図12】SSPに障害が発生した場合に交代IPのプ
ロセスを継続させることができる交代IPの動作を説明
するフローチャートである。
【図13】プロセスサクセション割り込みを受けたOS
の処理を説明するフローチャートである。
【図14】SSP交代処理の他の処理れいとして、OS
のメッセージ自動応答を利用したSSP障害の回復処理
を説明するフローチャートである。
【図15】図14のステップ1407による外部割り込
みを受けたOSの処理を説明するフローチャートであ
る。
【図16】OSが動作するIPの内部構成を示すブロッ
ク図である。
【図17】計算機内部動作を制御するSSPの内部構成
を示すブロック図である。
【図18】MSの内部構成を説明する図である。
【図19】SVPの内部構成を示すブロックである。
【図20】SVPに設定されているPU構成情報の詳細
を説明する図である。
【図21】SCPが使用するシステム制御テーブルSC
TのPU情報の構成を説明する図である。
【図22】SSPに固定障害が発生したときに動作して
いたSCP処理及びOS処理の状態を退避するSSP用
障害退避情報領域の構成を説明する図である。
【図23】μP内の障害検出処理動作を説明するフロー
チャートである。
【図24】SSPの固定障害を検出したIPのSCPに
よる誤動作警報処理を説明するフローチャートである。
【図25】ステップ2408で起動されるPU交代処理
を説明するフローチャートである。
【図26】従来技術による制御用プロセッサを持つマル
チプロセッサ構成の計算機システムの構成を示すブロッ
ク図である。
【図27】IPに固定障害が発生した時に動作していた
OS処理の状態を退避するOS障害退避情報領域の構成
を示す図である。
【図28】マルチプロセッサ計算機システムにおいて、
命令プロセッサ1つに固定障害が発生したとき、そのプ
ロセッサで走行していたOS処理を救済する方法を説明
するフローチャートである。
【図29】マルチプロセッサ計算機システムにおいて、
システム制御プログラム動作中のプロセッサSSPに固
定障害が発生した場合の動作を説明するフローチャート
である。
【符号の説明】
101 CPU 102〜104 命令プロセッサ(IP) 105 システム支援プロセッサ(SSP) 106 拡張記憶装置(ES) 107 主記憶装置(MS) 108、109 バスアダプタ 110 バスライン 111 入出力制御装置(IOP) 119 サービスプロセッサ(SVP)

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 複数のプロセッサを備え、少なくとも1
    個のプロセッサをシステム支援プロセッサとして動作さ
    せ、その他のプロセッサを命令プロセッサとして動作さ
    せるマルチプロセッサ構成の計算機システムでプロセッ
    サに固定障害が発生したときのプロセッサの障害回復処
    理方法において、前記システム支援プロセッサの障害発
    生時、少なくとも1個の命令プロセッサ上で動作してい
    るオペレーティングシステムに割り込みを発生し、前記
    オペレーティングシステムが、前記命令プロセッサにお
    いて障害が発生したことを認識し、前記命令プロセッサ
    上で前記割込み発生時に動作していたアプリケーション
    プログラムを異常終了させ、前記命令プロセッサをシス
    テム支援プロセッサと交代させることを特徴とする情報
    処理システムのプロセッサ障害回復処理方法。
  2. 【請求項2】 複数のプロセッサを備え、少なくとも1
    個のプロセッサをシステム支援プロセッサとして動作さ
    せ、その他のプロセッサを命令プロセッサとして動作さ
    せるマルチプロセッサ構成の計算機システムでプロセッ
    サに固定障害が発生したときのプロセッサの障害回復処
    理方法において、前記システム支援プロセッサの障害発
    生時、少なくとも1個の命令プロセッサが実行中の命令
    処理を中断し、命令プロセッサで動作していたプログラ
    ムの処理の継続に必要なプロセッサ資源を主記憶装置に
    待避して、ハードウェア障害状態に入って命令処理を停
    止し、前記命令プロセッサとは別の少なくとも1個の命
    令プロセッサにハードウェア障害を報告し、報告を受け
    た前記別の命令プロセッサはオペレーティングシステム
    に障害発生命令プロセッサの動作継続を指示する割り込
    みを発生させ、前記命令プロセッサをシステム支援プロ
    セッサと交代させることを特徴とする情報処理システム
    のプロセッサ障害回復処理方法。
  3. 【請求項3】 複数のプロセッサを備え、少なくとも1
    個のプロセッサをシステム支援プロセッサとして動作さ
    せ、その他のプロセッサを命令プロセッサとして動作さ
    せるマルチプロセッサ構成の計算機システムでプロセッ
    サに固定障害が発生したときのプロセッサの障害回復処
    理方法において、前記システム支援プロセッサの障害発
    生時、少なくとも1個の命令プロセッサに対して障害発
    生を報告し、前記命令プロセッサ上で動作中のオペレー
    ティングシステムに対してシステム支援プロセッサの交
    代を意味する割り込みを発生し、前記割り込みを受信し
    たオペレーティングシステムは、割り込みが発生したこ
    とを示すシステムメッセージを表示し、システムメッセ
    ージを受信して予め登録されたメッセージに対する自動
    応答コマンドを投入するプログラムにより前記システム
    メッセージに対応するシステム支援プロセッサ交代用命
    令プロセッサの切り離しコマンドを投入し、前記命令プ
    ロセッサをシステム支援プロセッサと交代させることを
    特徴とする情報処理システムのプロセッサ障害回復処理
    方法。
  4. 【請求項4】 前記システム支援プロセッサで障害が発
    生したとき、前記システム支援プロセッサに対する交代
    用の命令プロセッサは、1個以上の構成情報記憶領域に
    自命令プロセッサがシステム支援プロセッサであること
    を登録し、前記システム支援プロセッサの障害発生時点
    で実行中であったために中断されている処理の有無を検
    査し、中断している前記システム支援プロセッサの処理
    を継続して実行することを特徴とする請求項1、2また
    は3記載の情報処理システムのプロセッサ障害回復処理
    方法。
  5. 【請求項5】 前記交代用の命令プロセッサは、システ
    ム支援プロセッサの処理を実行するプログラムを備え、
    このプログラムは、前記システム支援プロセッサで処理
    中の状態を主記憶装置上の状態記憶領域に格納し、処理
    状態を検査してその処理状態に対応した継続処理を実行
    することにより前記システム支援プロセッサの障害発生
    後の回復処理の実行を行うことを特徴とする請求項4記
    載の情報処理システムのプロセッサ障害回復処理方法。
  6. 【請求項6】 前記交代用の命令プロセッサは、システ
    ム支援プロセッサの処理を実行するプログラムを備え、
    このプログラムは、前記システム支援プロセッサの障害
    発生以前に、前記システム支援プロセッサが主記憶装置
    に対して実行中の処理の予め定めた処理単位の終了毎に
    格納した進行状況の記録を検査し、前記進行状況の記録
    が残っていれば記録内容を検査し、未完了の処理を実行
    することにより前記システム支援プロセッサの障害発生
    後の回復処理の実行を行うことを特徴とする請求項4記
    載の情報処理システムのプロセッサ障害回復処理方法。
  7. 【請求項7】 前記交代用の命令プロセッサは、システ
    ム支援プロセッサの処理を実行するプログラムを備え、
    このプログラムは、前記システム支援プロセッサの障害
    発生以前に、前記プログラムの起動契機情報として起動
    要求が設定されると処理を開始し、処理を終了すると前
    記プログラムが起動要求を消去し、前記システム支援プ
    ロセッサの障害発生時、前記プログラムの起動契機とな
    る情報により前記プログラムが実行中であったか否かを
    検査し、前記起動契機情報が起動要求が存在することを
    意味しているとき、前記プログラムの実行を最初から起
    動することにより、前記システム支援プロセッサの障害
    発生後の回復処理の実行を行うことを特徴とする請求項
    4記載の情報処理システムのプロセッサ障害回復処理方
    法。
  8. 【請求項8】 複数のプロセッサを備え、少なくとも1
    個のプロセッサをシステム支援プロセッサとして動作さ
    せ、その他のプロセッサを命令プロセッサとして動作さ
    せるマルチプロセッサ構成の計算機システムでプロセッ
    サに固定障害が発生したときのプロセッサの障害回復処
    理方法において、前記システム支援プロセッサの障害発
    生時、システム支援プロセッサで実行中であったシステ
    ム制御プログラム処理の中断情報を退避し、正常な命令
    プロセッサでシステム支援プロセッサの障害発生を検出
    し、障害となったシステム支援プロセッサと正常な命令
    プロセッサとの構成情報を変更し、正常な命令プロセッ
    サが中断したシステム制御プログラムを再開することを
    特徴とする情報処理システムのプロセッサ障害回復処理
    方法。
  9. 【請求項9】 前記システム支援プロセッサの障害発生
    時、複数のプロセッサが共有する主記憶のハードウエア
    領域に退避領域を確保し、システム制御プログラムが動
    作するための制御テーブルアドレス及び動作状態フラグ
    と、オペレーティングシステムを制御するためのCPU
    アドレスとを退避し、実行中であったシステム制御プロ
    グラム処理の中断情報を退避することを特徴とする請求
    項8記載の情報処理システムのプロセッサ障害回復処理
    方法。
  10. 【請求項10】 前記退避されている情報を採取し、中
    断した処理がシステム制御プログラムであるかオペレー
    ティングシステム処理であるかを判断し、障害となった
    システム支援プロセッサと正常な命令プロセッサとを交
    代する処理を起動することを特徴とする請求項9記載の
    情報処理システムのプロセッサ障害回復処理方法。
  11. 【請求項11】 前記システム支援プロセッサの障害発
    生時、前記システム制御プログラムを再開する正常な命
    令プロセッサ上で動作していた処理情報を退避し、前記
    障害となったシステム支援プロセッサと正常な命令プロ
    セッサとの交代の後、前記正常な命令プロセッサ上で動
    作していた処理を他の正常な命令プロセッサで再開させ
    ることを特徴とする請求項8記載の情報処理システムの
    プロセッサ障害回復処理方法。
JP8061313A 1996-03-18 1996-03-18 情報処理システムのプロセッサ障害回復処理方法 Pending JPH09251443A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP8061313A JPH09251443A (ja) 1996-03-18 1996-03-18 情報処理システムのプロセッサ障害回復処理方法
US08/820,232 US5983359A (en) 1996-03-18 1997-03-18 Processor fault recovering method for information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8061313A JPH09251443A (ja) 1996-03-18 1996-03-18 情報処理システムのプロセッサ障害回復処理方法

Publications (1)

Publication Number Publication Date
JPH09251443A true JPH09251443A (ja) 1997-09-22

Family

ID=13167557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8061313A Pending JPH09251443A (ja) 1996-03-18 1996-03-18 情報処理システムのプロセッサ障害回復処理方法

Country Status (2)

Country Link
US (1) US5983359A (ja)
JP (1) JPH09251443A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7441150B2 (en) 2004-12-21 2008-10-21 Nec Corporation Fault tolerant computer system and interrupt control method for the same
WO2011061828A1 (ja) * 2009-11-19 2011-05-26 富士通株式会社 情報処理装置、情報処理装置の制御方法及び制御プログラム
JP2012059098A (ja) * 2010-09-10 2012-03-22 Nec Commun Syst Ltd 情報処理システム、および、情報処理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6418540B1 (en) * 1999-08-27 2002-07-09 Lucent Technologies Inc. State transfer with throw-away thread
US6574748B1 (en) * 2000-06-16 2003-06-03 Bull Hn Information Systems Inc. Fast relief swapping of processors in a data processing system
US6691250B1 (en) * 2000-06-29 2004-02-10 Cisco Technology, Inc. Fault handling process for enabling recovery, diagnosis, and self-testing of computer systems
JP4394298B2 (ja) * 2001-02-20 2010-01-06 日本電気株式会社 マルチプロセッサシステムとその共有メモリ制御方法、及び共有メモリ制御プログラム
US6859866B2 (en) * 2001-10-01 2005-02-22 International Business Machines Corporation Synchronizing processing of commands invoked against duplexed coupling facility structures
WO2005041539A2 (en) * 2003-10-09 2005-05-06 Telecom Italia S.P.A. Method and system for fault protection in a communication network
JP4831599B2 (ja) 2005-06-28 2011-12-07 ルネサスエレクトロニクス株式会社 処理装置
US7502957B2 (en) * 2005-09-09 2009-03-10 International Business Machines Corporation Method and system to execute recovery in non-homogeneous multi processor environments
US20070124522A1 (en) * 2005-11-30 2007-05-31 Ellison Brandon J Node detach in multi-node system
JP2012027544A (ja) * 2010-07-20 2012-02-09 Toshiba Corp ライトバックキャッシュを備える情報処理装置、及びその主メモリ診断方法
JP5983746B2 (ja) * 2012-07-05 2016-09-06 富士通株式会社 処理装置、処理システム、及びプログラム
JP2019160253A (ja) * 2018-03-16 2019-09-19 株式会社リコー 情報処理システム、情報処理システムの制御方法、及び情報処理システムの制御プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0228559A1 (de) * 1985-12-17 1987-07-15 BBC Brown Boveri AG Fehlertolerante Mehrrechneranordnung
CA2003338A1 (en) * 1987-11-09 1990-06-09 Richard W. Cutts, Jr. Synchronization of fault-tolerant computer system having multiple processors
US4965717A (en) * 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
JP2823230B2 (ja) * 1989-04-06 1998-11-11 株式会社日立製作所 処理の継続実行方法
DE69021712T2 (de) * 1990-02-08 1996-04-18 Ibm Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme.
US5214652A (en) * 1991-03-26 1993-05-25 International Business Machines Corporation Alternate processor continuation of task of failed processor
US5815651A (en) * 1991-10-17 1998-09-29 Digital Equipment Corporation Method and apparatus for CPU failure recovery in symmetric multi-processing systems
JPH0654052A (ja) * 1992-07-31 1994-02-25 Nec Corp Isdn回線起動方式
JP2886093B2 (ja) * 1994-07-28 1999-04-26 株式会社日立製作所 障害処理方法および情報処理システム
US5799323A (en) * 1995-01-24 1998-08-25 Tandem Computers, Inc. Remote duplicate databased facility with triple contingency protection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7441150B2 (en) 2004-12-21 2008-10-21 Nec Corporation Fault tolerant computer system and interrupt control method for the same
WO2011061828A1 (ja) * 2009-11-19 2011-05-26 富士通株式会社 情報処理装置、情報処理装置の制御方法及び制御プログラム
JP2012059098A (ja) * 2010-09-10 2012-03-22 Nec Commun Syst Ltd 情報処理システム、および、情報処理方法

Also Published As

Publication number Publication date
US5983359A (en) 1999-11-09

Similar Documents

Publication Publication Date Title
US7716520B2 (en) Multi-CPU computer and method of restarting system
EP0505706B1 (en) Alternate processor continuation of the task of a failed processor
JP2505928B2 (ja) フォ―ルト・トレラント・システムのためのチェックポイント機構
EP0433979A2 (en) Fault-tolerant computer system with/config filesystem
JPH09251443A (ja) 情報処理システムのプロセッサ障害回復処理方法
KR20000011834A (ko) 고장-허용오차를계산하는컴퓨터시스템및이를동작시키는방법,고장-관리컴퓨터장치,및고장-허용오차계산장치
JPH08263454A (ja) 障害回復処理方法
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
KR20040047209A (ko) 네트워크 상의 컴퓨터 시스템의 자동 복구 방법 및 이를구현하기 위한 컴퓨터 시스템의 자동 복구 시스템
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JPH10154085A (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法および二重化監視/制御プロセッサ・システム
WO2008004330A1 (fr) Système à processeurs multiples
JPH02294739A (ja) 障害検出方式
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JP2814988B2 (ja) 障害処理方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
JPS6128141B2 (ja)
JP2922981B2 (ja) タスクの実行継続方法
JP2002244885A (ja) コンピュータシステム監視システム
JP2815730B2 (ja) アダプタ及びコンピュータシステム
JPH0395634A (ja) 計算機システム再起動制御方式
JPS6077252A (ja) 入出力制御装置
JP2000194677A (ja) 交代プロセッサを備えた情報処理装置
JPH04252316A (ja) 停電通知方式