JPH04349538A - 障害装置の復旧方式 - Google Patents

障害装置の復旧方式

Info

Publication number
JPH04349538A
JPH04349538A JP3123413A JP12341391A JPH04349538A JP H04349538 A JPH04349538 A JP H04349538A JP 3123413 A JP3123413 A JP 3123413A JP 12341391 A JP12341391 A JP 12341391A JP H04349538 A JPH04349538 A JP H04349538A
Authority
JP
Japan
Prior art keywords
failure
peripheral
fault
peripheral control
faulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3123413A
Other languages
English (en)
Inventor
Kitsuya Tsuchiya
土屋 ▲喫▼哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3123413A priority Critical patent/JPH04349538A/ja
Publication of JPH04349538A publication Critical patent/JPH04349538A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Hardware Redundancy (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は情報処理装置の障害装置
の復旧方式に関し、特に障害装置の初期化により障害要
因をなくすことができる障害時の装置の可用性を高める
ようにした障害装置の復旧方式に関する。
【0002】
【従来の技術】従来、この種の障害処理は、RAMのソ
フトエラーなどのように一度リセットした後利用可能と
なる故障モードの障害や間欠障害であっても障害装置や
障害装置内の機能切り離しを行う方式であった。
【0003】
【発明が解決しようとする課題】上述した従来の障害処
理は、RAMソフトエラーなどのように一度リセットし
た後利用可能となる故障モードの障害や間欠障害であっ
ても障害装置や障害装置内の機能切り離しを行っていた
ため、リセットにより利用可能な装置の有効利用ができ
なかった。
【0004】本発明の目的は、このような問題点を解決
した障害装置の復旧方式を提供することにある。
【0005】
【課題を解決するための手段】本発明の障害装置の復旧
方式は、2つ以上の演算処理装置(以下EPUと記す)
と1つ以上の入出力処理装置(以下IOPと記す)、主
記憶装置(以下MMUと記す)と保守診断処理装置(以
下SVPと記す)を有する情報処理システムにおいて、
SVPに前記EPU,IOPなどの本体系装置の障害を
検出する障害検出手段と、本体系装置の初期化を行う本
体系装置初期化手段と、本体系装置の組み込みを行う本
体系装置組込手段とを有し、本体系装置の障害時に障害
装置を障害検出手段で検出し、障害装置の初期化を本体
系装置初期化手段で行った直後、または、装置管理手段
により管理されている障害状態の組込可能と判定した後
、または、障害装置に対する試験診断の実行で正常終了
した後、または、障害管理手段で組込可能と判断し試験
診断の実行で正常終了した後、本体系装置のシステムへ
の組み込みを行うようにすることにより、本体系装置の
初期化により障害要因をなくすことができる障害時の本
体系装置の可用性を高めることを特徴とする。
【0006】また本発明の障害装置の復旧方式は、オペ
レーティングシステム(以下OSと記す)が走行してい
るEPUとIOPとMMUと周辺制御装置(以下PCU
と記す)とを有する情報処理システムにおいて、IOP
にIOP内のPCU制御部分の初期化を行うPCU部初
期化手段を有し、OSにPCUの障害を検出する障害検
出手段と、PCUの初期化を行う装置初期化手段と、P
CUの組み込みを行う装置組込手段とを有し、PCUの
障害時にPCUを前記障害検出手段で検出し、IOP内
のPCU制御部分とPCUの初期化をPCU部初期化手
段と装置初期化手段により行った直後、または、装置管
理手段により管理されている障害状態の組込可能と判定
した後、または、障害装置に対する試験診断の実行で正
常終了した後、または、障害管理手段で組込可能と判断
し試験診断の実行で正常終了した後、PCUの前記シス
テムへの組み込みを行うようにすることにより、PCU
の初期化により障害要因をなくすことができる障害時の
PCUの可用性を高めることを特徴とする。
【0007】さらに本発明の障害装置の復旧方式は、O
Sが実行しているEPUとIOPとMMUとPCUと周
辺装置(以下デバイスと記す)とを有する情報処理シス
テムにおいて、IOPにIOP内のデバイス制御部分の
初期化を行うデバイス部初期化手段を有し、PCUにP
CU内のデバイス制御部分の初期化を行うデバイス部初
期化手段を有し、OSにデバイスの障害を検出する障害
検出手段と、デバイスの初期化を行う装置初期化手段と
、デバイスの組み込みを行う装置組込手段とを有し、デ
バイスの障害時にデバイスを障害検出手段で検出し、I
OP内のデバイス制御部分とPCU内のデバイス制御部
分とデバイスの初期化をIOP/PCUデバイス部初期
化手段と装置初期化手段により行った直後、または、装
置管理手段により管理されている障害状態の組込可能と
判定した後、または、障害装置に対する試験診断の実行
で正常終了した後、または、障害管理手段で組込可能と
判断し試験診断の実行で正常終了した後、デバイスのシ
ステムへの組み込みを行うようにすることにより、デバ
イスの初期化により障害要因をなくすことができる障害
時のデバイスの可用性を高めることを特徴とする。
【0008】
【実施例】次に、本発明の実施例について図面を参照し
て説明する。
【0009】図1は本発明の一実施例を示す本体系障害
装置の復旧機能を有するシステムの構成図である。EP
U11,EPU12の2台のEPUと、MMU13と、
IOP15とを接続したSCU14からなる本体系装置
に、障害検出処理161、装置初期化処理162、装置
組込処理163を具備したSVP16が接続されている
ことを示している。
【0010】この情報処理システムで運用中に、EPU
11が障害になったときを例として説明する。EPU1
1が障害になると、SCU14を介してSVP16に障
害の報告がされる。障害報告を受けたSVP16は障害
報告の情報から障害装置であるEPU11を特定し、障
害装置のログ採取などを行った後、図21に示す障害装
置復旧処理を起動する。障害検出処理2101はログ採
取などのためすでに特定した障害装置情報を受け取るか
、または、図13に示す障害検出処理を行う。障害検出
処理1301で障害報告を受け、この障害報告から障害
装置判定処理1302でEPU11を障害装置と判定す
る。いずれにしろ特定された障害装置であるEPU11
に対し図21に示す障害検出装置の初期化処理2102
に引き継がれる。障害検出装置の初期化処理2102は
図14に示す装置初期化処理1401を実行させる。 引き継がれた障害装置EPU11に対し指定装置の初期
化処理1401にて初期化を行う。指定装置の初期化処
理14は障害処理で通常行われる障害状態の表示状態を
単にリセットするのではなく、装置そのものの初期化を
行うようになっている。続いて、図21に示す装置組み
込み処理2103を実行する。装置組み込み処理210
3は図15に示す指定装置の組込処理1501を実行さ
せる。指定装置の組み込み処理1501は先に初期化さ
れたEPU11のシステムへの組み込みを行う。このよ
うに、障害のあった装置に対し単に障害表示程度のリセ
ットに留まらず装置の初期化を行うことにより、RAM
のソフトエラーなどの固定障害に見える障害であっても
システムへの復旧を可能にできる。
【0011】図2は本発明の一実施例を示す本体系障害
装置の復旧機能を有するシステムの構成図である。図1
のSVPに装置障害管理処理21を具備していることを
示している。
【0012】図2に示す情報処理システムで運用中にE
PU11が障害になったときを例として説明する。まず
SVP16が立ち上がると障害装置管理前処理211が
起動される。障害装置管理前処理211により図18に
示す障害装置管理前処理を実行する。障害カウント初期
化処理1801により全管理装置の障害カウントテーブ
ルの初期化を行い、処障害カウント監視タイマ起動処理
1802により障害カウント監視用のタイマを起動する
。この状態でシステム運用されていると、障害カウント
監視用のタイマがタイムアウトになる度に図2に示す障
害装置管理タイマランアウト処理213が起動される。 障害装置管理タイマランアウト処理213により図20
に示す障害装置管理タイマランアウト処理を実行する。 障害カウント0クリア処理2001により障害カウント
テーブル内の全装置の障害カウントを0クリアする。つ
づいて、障害カウント監視タイマ起動処理2002によ
り障害カウント監視タイマを起動する。この状態でEP
U11が障害になると、図1を用いて説明したのと同様
にして図22に示す障害装置復旧処理が起動される。障
害検出処理2201,障害検出装置の初期化処理220
2は、図21に示す障害検出処理2101、障害検出装
置の初期化処理2102と同様に処理された後、障害装
置の障害管理情報チェック処理2203を実行する。障
害装置の障害管理情報チェック処理2203により図1
9に示す処理が実行される。障害検出装置の障害カウン
トアップ処理1901によりEPU11の障害カウント
をカウントアップする。判定処理1902によりEPU
11の障害カウントが規定値を越えているかチェックさ
れ、越えていなければ障害装置の組込指示設定処理19
03でEPU11の組み込みを指示の設定をする。越え
ていれば、障害装置の組込不可処理1904でEPU1
1の組込不可の設定をする。図22に示す判定処理22
04により組込の指示があれば装置組み込み処理220
5によりEPU11をシステムに組み込み、組込不可で
あればEPU11をシステムに組み込まないようにして
いる。このように、障害のあった装置に対し単に障害表
示程度のリセットに留まらず装置の初期化を行うことに
より、RAMのソフトエラーなどの固定障害に見える障
害であってもシステムへの復旧を行うとともに、障害が
規定時間内に規定回数を越えて障害が発生する場合に組
み込まないようにしている。なお、このケースでは規定
時間内の規定回数の障害管理を例にとったが、保守交換
時までの規定回数であってもいいし、障害の内容までを
管理し同一障害の連続障害を管理など管理の方法がある
。ここでは、管理の方式よりも障害管理することで障害
装置の組込判定をすることが重要である。
【0013】図3は本発明の一実施例を示す本体系障害
装置の復旧機能を有するシステムの構成図である。図1
のSVPにT&D実行処理31とT&D実行結果判定処
理32を具備していることを示している。
【0014】図3に示す情報処理システムで運用中にE
PU11が障害になったときを例として説明する。EP
U11が障害になると、図1を用いて説明したのと同様
にして図23に示す障害装置復旧処理が起動される。障
害検出処理2301,障害検出装置の初期化処理230
2は、図21に示す障害検出処理2101,障害検出装
置の初期化処理2102と同様に処理された後、障害検
出装置を対象としたT&Dの実行処理2303を実行す
る。指定装置を対象としたT&Dの実行処理2303に
より図16に示す処理が実行される。指定装置に対する
T&Dの選択処理1601によりEPU11のT&Dを
選択する。選択T&Dの実行処理1602により選択し
たT&Dを実行する。つづいてT&D実行結果による組
込指示設定処理1603により図17に示すT&D実行
結果判定処理を行う。判定処理1701によりT&D実
行結果がGOODなら障害装置の組込指示設定処理17
02でEPU11の組み込みを指示の設定をする。NO
  GOODなら障害装置の組込不可設定処理1703
でEPU11の組込不可の設定をする。図23に示す判
定処理2304により組込の指示があれば装置組み込み
処理2305によりEPU11をシステムに組み込み、
組込不可であればEPU11をシステムに組み込まない
ようにしている。このように、障害のあった装置に対し
単に障害表示程度のリセットに留まらず装置の初期化を
行うことにより、RAMのソフトエラーなどの固定障害
に見える障害であってもシステムへの復旧を行うことを
目的にしている。しかしながら、システムへの組込のま
えにT&Dによりその装置の正常性を確認し、正常と判
定したときに組み込み対象とし、正常でないと判定した
ときに組み込まないようにする。これにより、装置の初
期化によっても障害状態を消せない固定障害などの障害
のある装置をシステムに組み込まないようにした上で、
復旧可能な装置を選別して組み込むようにした。
【0015】図4は本発明の一実施例を示す本体系障害
装置の復旧機能を有するシステムの構成図である。図1
,図2,図3のSVPに具備した処理を備えていること
を示している。
【0016】図4に示す情報処理システムで運用中にE
PU11が障害になったときを例として説明する。まず
図22の処理2201,2202,2203,2204
と同様にして図24の処理2401,2402,240
3,2404を行う。装置組み込み処理2407による
EPU11の組み込みを行う前に、図23の処理230
3,2304と同様にして図24の2405,2406
を行い、障害装置の障害管理情報から障害装置の組込指
示となり、障害装置のT&DでGOODになったときに
、障害装置であるEPU11の組み込みを行うようにす
る。これにより障害管理上組み込み可能状態であっても
、装置の正常性を確認した上で問題ないと判定したもの
のみ組み込み対象としている。また、装置の正常性を確
認した上で問題ないと判定されても運用環境との違いか
ら運用でのみ障害を検出する場合もあり、これをガード
することを目的として、正常性の確認後さらに障害管理
上組み込み可能条件を設定するのを対象として、処理2
403,2404と処理2405,2406を入れ替え
る方法もあるが、結果としての処理の差異は装置の正常
性の確認時間程度の差異があるだけである。
【0017】図5は本発明の一実施例を示すPCU障害
装置の復旧機能を有するシステムの構成図である。PC
U17を接続しIOP  PCUチャネル部初期化手段
151を具備したIOP15と、障害検出処理511と
装置初期化処理512と装置組込処理513を具備した
OS51を格納したMMU13と、EPU11とを接続
したSCU14からなることを示している。
【0018】図5に示す情報処理システムで運用中にI
OP15内のPCUチャネル部またはPCU17が障害
になったときの内IOP15内のPCUチャネル部が障
害になったときを例として説明する。IOP15のPC
Uチャネル部の障害になると、SCU14,EPU11
を介してOS51にも障害の報告がされる。障害報告を
受けたOS51は障害報告の情報から障害範囲がIOP
15PCUチャネル部かPCU17であることを認識し
障害情報を採取した後、OS51の障害検出処理511
が起動されると、図25に示す障害装置復旧処理を起動
する。障害検出処理2501は障害情報採取などのため
すでに特定した障害範囲情報を受け取るか、または、図
13に示す障害検出処理を行う。障害検出処理1301
で障害報告を受け、この障害報告から障害装置判定処理
1302でIOP15のPCUチャネル部かPCU17
を障害範囲と判定する。いずれにしろ特定された障害範
囲であるPCU17に該当するPCUチャネル部に対し
図5に示す装置初期化処理512を起動し、図25に示
すIOP  PCUチャネル部初期化処理2502、障
害検出装置の初期化処理2503に引き継がれる。処理
2502,2503から順次図14に示す装置初期化処
理1401を実行させる。装置初期化処理1401によ
りIOP15のPCUチャネル部,デバイス18の初期
化を行う。指定装置の初期化処理1401は障害処理で
通常行われる障害状態の表示状態を単にリセットするの
ではなく、IOP15のPCUチャネル部、PCU17
そのものの初期化を行うようになっている。続いて、図
5に示す装置組込処理513が起動され、図25に示す
装置組み込み処理2504を実行する。装置組み込み処
理2504は図15に示す指定装置の組み込み処理15
01を実行させる。指定装置の組み込み処理1501は
先に初期化されたPCU17のシステムへの組み込みを
行う。このように、障害のあったIOP  PCUチャ
ネル部,PCUに対し単に障害表示程度のリセットに留
まらず装置の初期化を行うことにより、RAMのソフト
エラーなどの固定障害に見える障害であってもシステム
への復旧を可能にできる。
【0019】図6は本発明の一実施例を示すPCU障害
装置の復旧機能を有するシステムの構成図である。図5
のOSに装置障害管理処理61を具備していることを示
している。
【0020】図6に示す情報処理システムで運用中にI
OP15内のPCUチャネル部またはPCU17が障害
になったときの内、IOP15内のPCUチャネル部が
障害になったときを例として説明する。まずOS51が
立ち上がると障害装置管理前処理611が起動される。 装置管理前処理611により図18に示す障害装置管理
前処理を実行する。障害カウント初期化処理1801に
より全管理装置の障害カウントテーブルの初期化を行い
、障害カウント監視タイマ起動処理1802により障害
カウント監視用のタイマを起動する。この状態でシステ
ム運用されていると、障害カウント監視用のタイマがタ
イムアウトになる度に図10に示す障害装置管理タイマ
ランアウト処理613が起動される。障害装置管理タイ
マランアウト処理613により図20に示す障害装置管
理タイマランアウト処理を実行する。障害カウント0ク
リア処理2001により障害カウントテーブル内の全装
置の障害カウントを0クリアする。つづいて、障害カウ
ント監視タイマ起動処理2002により障害カウント監
視タイマを起動する。この状態でIOP15のPCUチ
ャネル部の障害になると、図5を用いて説明したのと同
様にして図26に示す障害装置復旧処理が起動される。 障害検出処理2601、IOPのPCUチャネル部初期
化処理2602、障害検出装置の初期化処理2603と
同様に処理された後、障害装置の障害管理情報チェック
処理2604を実行する。障害装置の障害管理情報チェ
ック処理2604により図19に示す処理が実行される
。障害検出装置の障害カウントアップ処理1901によ
りデバイス18の障害カウントをカウントアップする。 判定処理1902によりデバイス18の障害カウントが
規定値を越えているかチェックされ、越えていなければ
障害装置の組込指示設定処理1903でデバイス18の
組み込みを指示の設定をする。越えていれば、障害装置
の組込不可処理1904でデバイス18の組込不可の設
定をする。図26に示す判定処理2605により組込の
指示があれば装置組み込み処理2606によりPCU1
7をシステムに組み込み、組込不可であればPCU17
をシステムに組み込まないようにしている。このように
、障害のあったIOP  PCUチャネル部、PCUに
対し単に障害表示程度のリセットに留まらず装置の初期
化を行うことにより、RAMのソフトエラーなどの固定
障害に見える障害であってもシステムへの復旧を行うと
ともに、障害が規定時間内に規定回数を越えて障害が発
生する場合に組み込まないようにしている。なお、この
ケースでは規定時間内の規定回数の障害管理を例にとっ
たが、保守交換時までの規定回数であってもいいし、障
害の内容までを管理し同一障害の連続障害を管理など管
理の方法がある。ここでは、管理の方式よりも障害管理
することで障害装置の組込判定をすることが重要である
【0021】図7は本発明の一実施例を示すPCU障害
装置の復旧機能を有するシステムの構成図である。図5
のOSにT&D実行処理71とT&D実行結果判定処理
72を具備していることを示している。
【0022】図7に示す情報処理システムで運用中にI
OP15内のPCUチャネル部またはPCU17が障害
になったときの内、IOP15内のPCUチャネル部が
障害になったときを例として説明する。IOP15のデ
バイスチャネル部が障害になると、図5を用いて説明し
たのと同様にして図27に示す障害装置復旧処理が起動
される。障害検出処理2701、IOPのPCUチャネ
ル部初期化処理2702、障害検出装置の初期化処理2
703は、図25に示した障害検出処理2501、IO
PのPCUチャネル部初期化処理2502、障害検出装
置の初期化処理2503と同様に処理された後、障害装
置の障害管理情報チェック処理2704を実行する。障
害検出装置を対象としたT&Dの実行処理2704によ
り図16に示す処理が実行される。指定装置に対するT
&Dの選択処理1601によりPCU17のT&Dを選
択する。選択T&Dの実行処理1602により選択した
T&Dを実行する。つづいてT&D実行結果による組込
指示設定処理1603により図17に示すT&D実行結
果判定処理を行う。判定処理1701によりT&D実行
結果がGOODなら障害装置の組込指示設定処理170
2でPCU17の組み込みを指示の設定をする。NO 
 GOODなら障害装置の組込不可設定処理1703で
PCU17の組込不可の設定をする。図27に示す判定
処理2705により組込の指示があれば装置組み込み処
理2705によりPCU17をシステムに組み込み、組
込不可であればPCU17をシステムに組み込まないよ
うにしている。このように、障害のあったIOP  P
CUチャネル部、PCUに対し単に障害表示程度のリセ
ットに留まらず装置の初期化を行うことにより、RAM
のソフトエラーなどの固定障害に見える障害であっても
システムへの復旧を行うことを目的にしている。しかし
ながら、システムへの組み込みのまえにT&Dによりそ
の装置の正常性を確認し、正常と判定したときに組み込
み対象とし、正常でないと判定したときに組み込まない
ようにする。これにより、装置の初期化によっても障害
状態を消せない固定障害などの障害のある装置をシステ
ムに組み込まないようにした上で、復旧可能な装置を選
別して組み込むようにした。
【0023】図8は本発明の一実施例を示すPCU障害
装置の復旧機能を有するシステムの構成図である。図5
,図6,図7のOSに具備した処理を備えていることを
示している。
【0024】図8に示す情報処理システムで運用中にI
OP15内のPCUチャネル部またはPCU17が障害
になったときを例として説明する。まず図26の処理2
601,2602,2603,2604,2605と同
様にして図28の処理2801,2802,2803,
2804,2805を行う。装置組み込み処理2808
によるPCU17の組み込を行う前に、図27の処理2
704,2705と同様にして図28の処理2806,
2807を行い、障害装置の障害管理情報から障害装置
の組込指示となり、障害装置のT&DでGOODになっ
たときに、障害装置であるPCU17の組み込みを行う
ようにする。これにより障害管理上組み込み可能状態で
あっても、装置の正常性を確認した上で問題ないと判定
したもののみ組み込み対象としている。また、装置の正
常性を確認した上で問題ないと判定されても運用環境と
の違いから運用でのみ障害を検出する場合もあり、これ
をガードすることを目的として、正常性の確認後さらに
障害管理上組み込み可能条件を設定するのを対象として
、処理2804,2805と処理2806,2807を
入れ替える方法もあるが、結果としての処理の差異は装
置の正常性の確認時間程度の差異があるだけである。
【0025】図9は本発明の一実施例を示すデバイス障
害装置の復旧機能を有するシステムの構成図である。デ
バイス18を接続しPCUデバイスチャネル部初期化手
段171を具備したPCU17を接続し、IOPデバイ
スチャネル部初期化手段152を具備したIOP15と
、障害検出処理511と装置初期化処理512と装置組
込処理513を具備したOS51を格納したMMU13
と、EPU11とを接続したSCU14からなることを
示している。
【0026】図9に示す情報処理システムで運用中にI
OP15内のデバイスチャネル部またはPCU17内の
デバイスチャネル部またはデバイス18が障害になった
ときの内、IOP15内のデバイスチャネル部が障害に
なったときを例として説明する。IOP15のデバイス
チャネル部の障害になると、SCU14、EPU11を
介してOS51にも障害の報告がされる。障害報告を受
けたOS51は障害報告の情報から障害範囲がIOP1
5デバイスチャネル部かPCU17デバイスチャネル部
かデバイス18であることを認識し障害情報を採取した
後、OS51の障害検出処理511が起動されると、図
29に示す障害装置復旧処理を起動する。障害検出処理
2901は障害情報採取などのためすでに特定した障害
範囲情報を受け取るか、または、図13に示す障害検出
処理を行う。障害検出処理1301で障害報告を受け、
この障害報告から障害装置判定処理1302でIOP1
5デバイスチャネル部かPCUデバイスチャネル部かデ
バイス18を障害範囲と判定する。いずれにしろ特定さ
れた障害範囲であるデバイス18に該当するデバイスチ
ャネル部に対し図9に示す装置初期化処理512を起動
し、図29に示すIOPデバイスチャネル部初期化処理
2902,PCUデバイスチャネル部初期化処理290
3,障害検出装置の初期化処理2904に引き継がれる
。処理2902,2903,2904から順次図14に
示す装置初期化処理1401を実行させる。装置初期化
処理1401により、IOP15デバイスチャネル部,
PCU17デバイスチャネル部,デバイス18の初期化
を行う。指定装置の初期化処理14は障害処理で通常行
われる障害状態の表示状態を単にリセットするのではな
く、IOP15のデバイスチャネル部、PCU17のデ
バイスチャネル部、デバイス18そのものの初期化を行
うようになっている。続いて、図9に示す装置組込処理
513が起動され、図29に示す装置組込処理2905
を実行させる。装置組込処理2905は図15に示す指
定装置の組込処理1501を実行させる。指定装置の組
込処理1501は先に初期化されたデバイス18のシス
テムへの組み込みを行う。このように、障害のあったI
OPデバイスチャネル部,PCUチャネルデバイス部,
デバイスに対し単に障害表示程度のリセットに留まらず
装置の初期化を行うことにより、RAMのソフトエラー
などの固定障害に見える障害であってもシステムへの復
旧を可能にできる。
【0027】図10は本発明の一実施例を示すデバイス
障害装置の復旧機能を有するシステムの構成図である。 図9のOSに装置障害管理処理61を具備していること
を示している。
【0028】次に、図10に示す情報処理システムで運
用中にIOP15内のデバイスチャネル部またはPCU
17内のデバイスチャネル部またはデバイス18が障害
になったときの内、IOP15内のデバイスチャネル部
が障害になったときを例として説明する。まずOS51
が立ち上がると障害装置管理前処理611が起動される
。装置管理前処理611により図18に示す障害装置管
理前処理を実行する。障害カウント初期化処理1801
により全管理装置の障害カウントテーブルの初期化を行
い、処障害カウント監視タイマ起動処理1802により
障害カウント監視用のタイマを起動する。この状態でシ
ステム運用されていると、障害カウント監視用のタイマ
がタイムアウトになる度に図10に示す障害装置管理タ
イマランアウト処理613が起動される。障害装置管理
タイマランアウト処理613により図20に示す障害装
置管理タイマランアウト処理を実行する。障害カウント
0クリア処理2001により障害カウントテーブル内の
全装置の障害カウントを0クリアする。つづいて、障害
カウント監視タイマ起動処理2002により障害カウン
ト監視タイマを起動する。この状態でIOP15のデバ
イスチャネル部の障害になると、図9を用いて説明した
のと同様にして図30に示す障害装置復旧処理が起動さ
れる。障害検出処理3001,IOPのデバイスチャネ
ル部初期化3002,PCUのデバイスチャネル初期化
処理3003,障害検出装置の初期化処理3004と同
様に処理された後、障害装置の障害管理情報チェック処
理3005を実行する。障害装置の障害管理情報チェッ
ク処理3005により図19に示す処理が実行される。 障害検出装置の障害カウントアップ処理1901により
デバイス18の障害カウントをカウントアップする。判
定処理1902によりデバイス18の障害カウントが規
定値を越えているかチェックされ、越えていなければ障
害装置の組込指示設定処理1903でデバイス18の組
込指示の設定をする。越えていれば、障害装置の組込不
可処理1904でデバイス18の組込不可の設定をする
。図30に示す判定処理3006により組込の指示があ
れば装置組み込み処理3007によりデバイス18をシ
ステムに組み込み、組込不可であればデバイス18をシ
ステムに組み込まないようにしている。このように、障
害のあったIOPデバイスチャネル部,PCUデバイス
チャネル部,デバイスに対し単に障害表示程度のリセッ
トに留まらず装置の初期化を行うことにより、RAMの
ソフトエラーなどの固定障害に見える障害であってもシ
ステムへの復旧を行うとともに、障害が規定時間内に規
定回数を越えて障害が発生する場合に組み込まないよう
にしている。なお、このケースでは規定時間内の規定回
数の障害管理を例にとったが、保守交換時までの規定回
数であってもいいし、障害の内容までを管理し同一障害
の連続障害を管理など管理の方法がある。ここでは、管
理の方式よりも障害管理することで障害装置の組込判定
をすることが重要である。
【0029】図11は本発明の一実施例を示すPCU障
害装置の復旧機能を有するシステムの構成図である。図
9のOSにT&D実行処理71とT&D実行結果判定処
理72を具備していることを示している。
【0030】つづいて、図11に示す情報処理システム
で運用中にIOP15内のデバイスチャネル部またはP
CUデバイスチャネル部またはデバイス18が障害にな
ったときの内、IOP15内のデバイスチャネル部が障
害になったときを例として説明する。IOP15のデバ
イスチャネル部の障害になると、図9を用いて説明した
のと同様にして図31に示す障害装置復旧処理が起動さ
れる。障害検出処理3101,IOPのデバイスチャネ
ル部初期化3102,PCUのデバイスチャネル初期化
処理3103,障害検出装置の初期化処理3104は、
図29に示した障害検出処理2901,IOPのデバイ
スチャネル部初期化処理2902,PCUのデバイスチ
ャネル初期化処理2903、障害検出装置の初期化処理
2904と同様に処理された後、障害装置の障害管理情
報チェック処理3105を実行する。障害検出装置を対
象としたT&Dの実行処理3105により図16に示す
処理が実行される。指定装置に対するT&Dの選択処理
1601によりデバイス18のT&Dを選択する。選択
T&Dの実行処理1602により選択したT&Dを実行
する。つづいてT&D実行結果による組込指示設定処理
1603により図17に示すT&D実行結果判定処理を
行う。判定処理1701によりT&D実行結果がGOO
Dなら障害装置の組込指示設定処理1702でデバイス
18の組み込みを指示の設定をする。NO  GOOD
なら障害装置の組込不可設定処理1703でデバイス1
8の組込不可の設定をする。図31に示す判定処理31
06により組込の指示があれば装置組込処理3107に
よりデバイス18をシステムに組み込み、組込不可であ
ればデバイス18をシステムに組み込まないようにして
いる。このように、障害のあったIOPデバイスチャネ
ル部,PCUデバイスチャネル部,デバイスに対し単に
障害表示程度のリセットに留まらず装置の初期化を行う
ことにより、RAMのソフトエラーなどの固定障害に見
える障害であってもシステムへの復旧を行うことを目的
にしている。しかしながら、システムへの組込のまえに
T&Dによりその装置の正常性を確認し、正常と判定し
たときに組み込み対象とし、正常でないと判定したとき
に組み込まないようにする。これにより、装置の初期化
によっても障害状態を消せない固定障害などの障害のあ
る装置をシステムに組み込まないようにした上で、復旧
可能な装置を選別して組み込むようにした。
【0031】図12は本発明の一実施例を示すPCU障
害装置の復旧機能を有するシステムの構成図である。図
9,図10,図11のOSに具備した処理を備えている
ことを示している。
【0032】さらに、図12に示す情報処理システムで
運用中にIOP15内のデバイスチャネル部またはPC
U17内のデバイスチャネル部またはデバイス18が障
害になったときを例として説明する。まず図30の処理
3001,3002,3003,3004,3005,
3006と同様にして図21の処理3201,3203
,3203,3204,3205,3206を行う。 装置組み込み処理3209によるデバイス18の組み込
みを行う前に、図31の処理3105,3106と同様
にして図32の処理3207,3208を行い、障害装
置の障害管理情報から障害装置の組込指示となり、障害
装置のT&DでGOODになったときに、障害装置であ
るデバイス18の組み込みを行うようにする。これによ
り障害管理上組み込み可能状態であっても、装置の正常
性を確認した上で問題ないと判定したもののみ組み込み
対象としている。また、装置の正常性を確認した上で問
題ないと判定されても運用環境との違いから運用でのみ
障害を検出する場合もあり、これをガードすることを目
的として、正常性の確認後さらに障害管理上組み込み可
能条件を設定するのを対象として、処理3205,32
06と処理3207,3208を入れ替える方法もある
が、結果としての処理の差異は装置の正常性の確認時間
程度の差異があるだけである。
【0033】
【発明の効果】以上説明したように本発明は、RAMの
ソフトエラーなどのように一度リセットした後利用可能
となる故障モードの障害や間欠障害では装置、装置内の
機能切り離しをすることなくシステム運用するようにす
ることができるようになり、また、これにより本来の固
定障害や場合によっては間欠障害の頻度や発生件数によ
り装置交換することになり、装置交換の回数を減らすこ
とができるようになる。このため、前者では保守部品の
保管数や保守工数の削減が可能となり、後者では計画保
守が可能となる。
【図面の簡単な説明】
【図1】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図2】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図3】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図4】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図5】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図6】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図7】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図8】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図9】本発明の一実施例を示す本体系障害装置の復旧
機能を有するシステムの構成図である。
【図10】本発明の一実施例を示す本体系障害装置の復
旧機能を有するシステムの構成図である。
【図11】本発明の一実施例を示す本体系障害装置の復
旧機能を有するシステムの構成図である。
【図12】本発明の一実施例を示す本体系障害装置の復
旧機能を有するシステムの構成図である。
【図13】図1から図4に示す障害検出処理161およ
び図5から図12に示す障害検出処理511の流れ図で
ある。
【図14】図1から図4に示す装置初期化処理162お
よび図5から図12に示す装置初期化処理512の流れ
図である。
【図15】図1から図4に示す装置組込処理163およ
び図5から図12に示す装置組込処理513の流れ図で
ある。
【図16】図3,図4に示すT&D実行処理31および
図7,図8,図11,図12に示すT&D実行処理71
の流れ図である。
【図17】図3,図4に示すT&D実行結果判定処理3
1および図7,図8,図11,図12に示すT&D実行
結果判定処理71の流れ図である。
【図18】図2,図4に示す障害装置管理前処理211
および図6,図8,図10,図12に示す障害装置管理
前処理611の流れ図である。
【図19】図2,図4に示す障害装置管理処理212お
よび図6,図8,図10,図12に示す障害装置管理処
理612の流れ図である。
【図20】図2,図4に示す障害装置管理タイマランア
ウト処理213および図6,図8,図10,図12に示
す障害装置管理タイマランアウト処理613の流れ図で
ある。
【図21】図1の本体系障害装置の復旧処理の流れ図で
ある。
【図22】図2の本体系障害装置の復旧処理の流れ図で
ある。
【図23】図3の本体系障害装置の復旧処理の流れ図で
ある。
【図24】図4の本体系障害装置の復旧処理の流れ図で
ある。
【図25】図5のPCU障害装置の復旧処理の流れ図で
ある。
【図26】図6のPCU障害装置の復旧処理の流れ図で
ある。
【図27】図7のPCU障害装置の復旧処理の流れ図で
ある。
【図28】図8のPCU障害装置の復旧処理の流れ図で
ある。
【図29】図9のデバイス障害装置の復旧処理の流れ図
である。
【図30】図10のデバイス障害装置の復旧処理の流れ
図である。
【図31】図11のデバイス障害装置の復旧処理の流れ
図である。
【図32】図12のデバイス障害装置の復旧処理の流れ
図である。
【符号の説明】
11,12  EPU 13  MMU 14  SCU 15  IOP 151  IOP  PCUチャネル部初期化手段15
2  IOPデバイスチャネル部初期化手段16  S
VP 17  PCU 171  PCUデバイスチャネル部初期化手段18 
 デバイス

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】2つ以上の演算処理装置と、1つ以上の入
    出力処理装置と、主記憶装置と、保守診断処理装置を有
    する情報処理システムにおいて、前記保守診断処理装置
    に前記演算処理装置,入出力処理装置などの本体系装置
    の障害を検出する障害検出手段と、この本体系装置の初
    期化を行う本体系装置初期化手段と、前記本体系装置の
    組み込みを行う本体系装置組込手段とを有し、前記本体
    系装置の障害時に障害装置を前記障害検出手段で検出し
    、前記障害装置の初期化を前記本体系装置初期化手段で
    行った後、前記障害装置の前記システムへの組み込みを
    行うようにすることにより、前記障害装置の初期化によ
    り障害要因をなくすことができる障害時の本体系装置の
    可用性を高めることを特徴とする障害装置の復旧方式。
  2. 【請求項2】前記情報処理システムの前記保守診断処理
    装置に前記本体系装置に対する障害状態を管理する装置
    障害管理手段を有し、前記障害装置の初期化後、前記障
    害装置の前記システムへの組み込みを行う前に、前記装
    置障害管理手段により前記障害装置の障害状態により前
    記障害装置の前記システムへの組み込みの可否を判断し
    、前記障害装置の前記システムへの組み込み後における
    再障害による前記システムに重大な影響を与えないよう
    にしたことを特徴とする請求項1記載の障害装置の復旧
    方式。
  3. 【請求項3】前記情報処理システムの前記保守診断処理
    装置に前記障害装置に対する試験診断を行う試験診断実
    行手段と、試験診断実行の結果を基に前記障害装置の組
    み込みの可否を判定する試験診断実行結果判定手段とを
    有し、前記障害装置の初期化後、前記障害装置の前記シ
    ステムへの組み込みを行う前に、前記障害装置の初期化
    により障害要因がなくなったことを前記試験診断の実行
    により確認するようにし、前記障害装置の前記システム
    への組み込み後の再障害を発生させないようにしたこと
    を特徴とする請求項1記載の障害装置の復旧方式。
  4. 【請求項4】請求項2記載の装置障害管理手段を具備す
    ることにより、前記試験診断の実行により検出できない
    タイミングの障害などにより前記システムへの組み込み
    後に前記システムに重大な影響を与えないようにしたこ
    とを特徴とする請求項3記載の障害装置の復旧方式。
  5. 【請求項5】オペレーティングシステムが走行している
    演算処理装置と入出力処理装置と主記憶装置と周辺制御
    装置とを有する情報処理システムにおいて、前記入出力
    処理装置にこの入出力処理装置内の周辺制御装置制御部
    分の初期化を行う周辺制御装置部初期化手段と、前記オ
    ペレーティングシステムに前記周辺制御装置の障害を検
    出する障害検出手段と、前記周辺制御装置の初期化を行
    う装置初期化手段と、前記周辺制御装置の組み込みを行
    う装置組込手段とを有し、前記周辺制御装置の障害時に
    前記周辺制御装置を前記障害検出手段で検出し、前記入
    出力処理装置内の周辺制御装置制御部分とこの周辺制御
    装置の初期化を前記周辺制御装置部初期化手段と前記装
    置初期化手段により行った後、前記周辺制御装置の前記
    システムへの組み込みを行うようにすることにより、周
    辺制御装置の初期化により障害要因をなくし障害時の周
    辺制御装置の可用性を高めることを特徴とする障害装置
    の復旧方式。
  6. 【請求項6】前記情報処理システムの前記オペレーティ
    ングシステムに前記周辺制御装置に対する障害状態を管
    理する装置障害管理手段を有し、前記周辺制御装置の初
    期化後、前記周辺制御装置の前記システムへの組み込み
    を行う前に、前記装置障害管理手段により前記周辺制御
    装置の障害状態により前記周辺制御装置の前記システム
    への組み込みの可否を判断し、前記周辺制御装置の前記
    システムへの組み込み後における再障害による前記シス
    テムに重大な影響を与えないようにしたことを特徴とす
    る請求項5記載の障害装置の復旧方式。
  7. 【請求項7】前記情報処理システムの前記オペレーティ
    ングシステムに前記周辺制御装置に対する試験診断を行
    う試験診断実行手段と、試験診断実行の結果を基に前記
    周辺制御装置の組み込みの可否を判定する試験診断実行
    結果判定手段を有し、前記周辺制御装置の初期化後、前
    記周辺制御装置の前記システムへの組み込みを行う前に
    、前記周辺制御装置の初期化により障害要因がなくなっ
    たことを前記試験診断の実行により確認するようにし、
    前記周辺制御装置の前記システムへの組み込み後の再障
    害を発生させないようにしたことを特徴とする請求項5
    記載の障害装置の復旧方式。
  8. 【請求項8】前記情報処理システムに、請求項6記載の
    装置障害管理手段を具備することにより、前記試験診断
    の実行により検出できないタイミングの障害などにより
    前記システムへの組み込み後に前記システムに重大な影
    響を与えないようにしたことを特徴とする請求項7記載
    の障害装置の復旧方式。
  9. 【請求項9】オペレーティングシステムが走行している
    演算処理装置と入出力処理装置と主記憶装置と周辺制御
    装置と周辺装置とを有する情報処理システムにおいて、
    前記入出力処理装置にこの入出力処理装置内の周辺装置
    制御部分の初期化を行う周辺装置部初期化手段と、前記
    周辺制御装置にこの周辺制御装置内の周辺装置制御部分
    の初期化を行う周辺装置部初期化手段と、前記オペレー
    ティングシステムに前記周辺装置の障害を検出する障害
    検出手段と、前記周辺装置の初期化を行う装置初期化手
    段と、前記周辺装置の組み込みを行う装置組込手段とを
    有し、前記周辺装置の障害時に前記周辺装置を前記障害
    検出手段で検出し、前記入出力処理装置内の周辺装置制
    御部分と前記周辺制御装置内の周辺装置制御部分とこの
    周辺装置の初期化を前記入出力処理装置/周辺制御装置
    周辺装置部初期化手段と前記装置初期化手段により行っ
    た後、前記周辺装置の前記システムへの組み込みを行う
    ようにすることにより、デバイスの初期化により障害要
    因をなくし障害時のデバイスの可用性を高めることを特
    徴とする障害装置の復旧方式。
  10. 【請求項10】前記情報処理システムの前記オペレーテ
    ィングシステムに前記周辺装置に対する障害状態を管理
    する装置障害管理手段を有し、前記デバイスの初期化後
    、前記周辺装置の前記システムへの組み込みを行う前に
    、前記装置障害管理手段により前記周辺装置の障害状態
    により前記周辺装置の前記システムへの組み込みの可否
    を判断し、前記周辺装置の前記システムへの組み込み後
    における再障害による前記システムに重大な影響を与え
    ないようにしたことを特徴とする請求項9記載の障害装
    置の復旧方式。
  11. 【請求項11】前記情報処理システムの前記オペレーテ
    ィングシステムに前記周辺装置に対する試験診断を行う
    試験診断実行手段と、試験診断実行の結果を基に前記周
    辺装置の組み込みの可否を判定する試験診断実行結果判
    定手段とを有し、前記周辺装置の初期化後、前記周辺装
    置の前記システムへの組み込みを行う前に、前記周辺装
    置の初期化により障害要因がなくなったことを前記試験
    診断の実行により確認するようにし前記周辺装置の前記
    システムへの組み込み後の再障害を発生させないように
    したことを特徴とする請求項9記載の障害装置の復旧方
    式。
  12. 【請求項12】前記情報処理システムに、請求項10記
    載の装置障害管理手段を具備することにより、前記試験
    診断の実行により検出できないタイミングの障害などに
    より前記システムへの組み込み後にこのシステムに重大
    な影響を与えないようにしたことを特徴とする請求項1
    1記載の障害装置の復旧方式。
JP3123413A 1991-05-28 1991-05-28 障害装置の復旧方式 Pending JPH04349538A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3123413A JPH04349538A (ja) 1991-05-28 1991-05-28 障害装置の復旧方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3123413A JPH04349538A (ja) 1991-05-28 1991-05-28 障害装置の復旧方式

Publications (1)

Publication Number Publication Date
JPH04349538A true JPH04349538A (ja) 1992-12-04

Family

ID=14859944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3123413A Pending JPH04349538A (ja) 1991-05-28 1991-05-28 障害装置の復旧方式

Country Status (1)

Country Link
JP (1) JPH04349538A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013522785A (ja) * 2010-03-23 2013-06-13 コンチネンタル・テベス・アーゲー・ウント・コンパニー・オーハーゲー 制御用コンピュータシステム、制御用コンピュータシステムを制御する方法、および制御用コンピュータシステムの使用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013522785A (ja) * 2010-03-23 2013-06-13 コンチネンタル・テベス・アーゲー・ウント・コンパニー・オーハーゲー 制御用コンピュータシステム、制御用コンピュータシステムを制御する方法、および制御用コンピュータシステムの使用

Similar Documents

Publication Publication Date Title
US8190396B2 (en) Failure diagnosis system for cooling fans, a failure diagnosis device for cooling fans, a failure diagnosis method for cooling fans, a computer readable medium therefor and a cooling device
JP3206738B2 (ja) 自律的故障検出、隔離、修復のための原位置法及びシステム
CN100388217C (zh) 用于通信系统中的动态阈值缩放的方法和系统
JPH0820965B2 (ja) プログラムの実行を続行する方法
CN100383747C (zh) 通信系统中失效隔离的系统和方法
JPH09258995A (ja) 計算機システム
JPH0721049A (ja) 障害処理システム
JP2009003592A (ja) コンピュータの異常検出・復旧方式
JPH04349538A (ja) 障害装置の復旧方式
CN111737039A (zh) 一种错误信息辅助提取方法、装置、设备及可读存储介质
CN111124729A (zh) 一种故障盘判定方法、装置、设备及计算机可读存储介质
US20030131289A1 (en) Method for detecting failure when installing input-output controller
JP2924732B2 (ja) 情報処理装置の自己診断方法
JP2836084B2 (ja) 計算機の検査装置
JPS6125250A (ja) 情報処理装置の障害回復方法
CN112486720A (zh) 提高计算机系统稳定性的方法及计算机系统
KR100303341B1 (ko) 소형컴퓨터시스템인터페이스버스비지상태회복방법
JPS63136142A (ja) 論理装置のエラ−回復方式
JPH04369046A (ja) 活性チェック回路のテスト方式
JP2002108638A (ja) マイクロコンピュータのエラー検出方法及びエラー検出回路及びマイクロコンピュータシステム
GAWHON SAFEGUARD Data-Processing System
JP2023161635A (ja) プラント制御装置およびプラント制御装置の自動再起動方法
CN113419888A (zh) 一种PCIe链路的修复方法、装置、设备及存储介质
CN116737435A (zh) 一种基于IOT Agent的5G摄像头系统诊断和升级方法
JPH04177538A (ja) エラー検出方式