JPH04365145A - メモリ障害処理方法 - Google Patents

メモリ障害処理方法

Info

Publication number
JPH04365145A
JPH04365145A JP3141578A JP14157891A JPH04365145A JP H04365145 A JPH04365145 A JP H04365145A JP 3141578 A JP3141578 A JP 3141578A JP 14157891 A JP14157891 A JP 14157891A JP H04365145 A JPH04365145 A JP H04365145A
Authority
JP
Japan
Prior art keywords
memory
data processing
system information
area
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3141578A
Other languages
English (en)
Inventor
Masayuki Sugioka
杉岡 雅行
Makoto Yamagata
良 山縣
Takashi Kobayashi
孝 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Computer Engineering Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Computer Engineering Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Computer Engineering Co Ltd filed Critical Hitachi Ltd
Priority to JP3141578A priority Critical patent/JPH04365145A/ja
Publication of JPH04365145A publication Critical patent/JPH04365145A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、メモリ障害処理方法に
関し、特に、データ処理装置のメモリ障害に関して、障
害回復,障害箇所の指摘およびログ情報採取方法を改善
して、速やかにメモリ障害を回復するメモリ障害処理方
法に関するものである。
【0002】
【従来の技術】従来、データ処理システムでは内部メモ
リとして複数のメモリを用いた構成となっている場合が
多く、データ処理システム内のメモリアクセスにおいて
、メモリ障害が発生した場合には、障害発生時にアクセ
スしたメモリアドレスを即時に保持して、障害発生時の
ログアウト情報を採取し、また、当該メモリアドレスを
障害箇所指摘の保守情報として採取するように構成され
ている。
【0003】また、特に、データ処理装置の内部メモリ
は、データ処理装置の処理の高速化をはかるため、個別
に制御されている場合が多く、データ処理装置の内部メ
モリにおいて、メモリ書き込み時に、メモリアクセスア
ドレス自体に障害が発生した場合には、メモリ書き込み
動作の起動前に、データ処理装置を凍結(停止)させる
ことが不可能な場合が多い。このため、データ処理装置
が凍結した時点ではすでにメモリの不当な箇所を更新し
てしまっている場合がある。したがって、このような場
合には、システムにとって重要なデータを破壊したと判
定して、データ処理システムの全体障害として、オペレ
ーティングシステムに報告し、これに対応した障害処理
を行う。なお、この種のメモリ障害の処理方法に関連す
る文献としては、例えば、特開平2−144632号公
報が挙げられる。
【0005】
【発明が解決しようとする課題】ところで、上述したよ
うな従来の技術におけるメモリ障害の処理では、メモリ
読み出し時の障害は、障害が発生した障害アドレスを瞬
時にハードウェアにて保持させる必要があり、このよう
な障害処理のためのハードウェアは、その制御論理が複
雑となり、ハードウェアの物量が多くなるという問題が
ある。
【0006】また、メモリ書き込み時のアドレス障害お
よび制御系の障害は、システムの重要情報が破壊されて
いる可能性があることから、システム重大障害として扱
い、障害処理を行わなければならないという問題がある
【0007】本発明は、このような問題点を解決するた
めになされたものであり、本発明の目的は、データ処理
装置のメモリ障害に関して、障害回復,障害箇所の指摘
およびログ情報の採取方法を改善して、速やかにメモリ
障害を回復するメモリ障害処理方法を提供することにあ
る。
【0008】
【課題を解決するための手段】上記目的を達成するため
、本発明のメモリ障害処理方法は、複数のメモリを有す
るマイクロプログラム制御のデータ処理装置と、前記デ
ータ処理装置に障害が発生した場合に障害処理を行うサ
ービスプロセッサと、前記データ処理装置のシステム情
報を格納するシステム情報領域およびデータ処理情報領
域とを区分した第1のメモリと、前記システム情報領域
と同一内容の情報を持つ第2のメモリとを有するデータ
処理システムにおけるメモリ障害処理方法であって、デ
ータ処理中に、データ処理装置がメモリ書き込み制御で
障害が発生したことを検出すると、障害発生をサービス
プロセッサに一旦報告した後、マイクロプログラム制御
により、第2のメモリに格納されているシステム情報を
第1のメモリのシステム情報領域に格納することを特徴
とする。
【0009】
【作用】本発明のメモリ障害処理方法を行うデータ処理
システムには、複数のメモリを有するマイクロプログラ
ム制御のデータ処理装置と、前記データ処理装置に障害
が発生した場合に障害処理を行うサービスプロセッサと
、前記データ処理装置のシステム情報を格納するシステ
ム情報領域およびデータ処理情報領域とを区分した第1
のメモリと、前記システム情報領域と同一内容の情報を
持つ第2のメモリとが備えられている。このようなデー
タ処理システムにおいて、データ処理中に、データ処理
装置がメモリ書き込み制御で障害が発生したことを検出
すると、データ処理装置はこの障害発生をサービスプロ
セッサに報告し、次に、マイクロプログラム制御により
、第2のメモリに格納されているシステム情報を第1の
メモリのシステム情報領域に格納する。これにより、デ
ータ処理システムは、障害発生前と同様な状態となり、
システム障害が回避される。
【0010】メモリ障害を検出した際にも、サービスプ
ロセッサに報告するだけで、メモリ障害検出データの読
み出しを行い、その後、ゼロパターンを格納して再試行
を行うことによりシステム状態を回復することが可能と
なる。この場合にも、マイクロプログラム制御により障
害アドレスの採取が可能であるので、特に、データ処理
装置内のメモリにおける障害処理のためのハードウェア
を設ける必要はなく、ハードウェアの物量を大幅に低減
することができる。
【0011】
【実施例】以下、本発明の一実施例を図面を参照して具
体的に説明する。図1は本発明の一実施例にかかるデー
タ処理システムの全体の構成を示す図である。データ処
理システムは、データ処理装置10,主記憶装置20,
およびサービスプロセッサ(SVP)25から構成され
ている。データ処理装置10には、内部メモリユニット
(LSU)11,内部メモリユニット11のメモリアド
レスをポイントするアドレスレジスタ(LSPTR)1
2,演算器(ALU)13が設けられており、それぞれ
アドレス線19およびデータ線14,16,17によっ
て結線されている。
【0012】主記憶装置20内には、オペレーティング
システムおよびユーザプログラムなどがローディングさ
れ使用するソフトウェア領域(SFA)21と、ハード
ウェアが固有に使用するハードウェアシステム領域(H
SA)22とが設けられており、また、ハードウェアシ
ステム領域22内には、内部メモリワーク領域(HLS
)23が設けられている。データ処理装置10から主記
憶装置20に対するデータの読み出し,書き込みは、デ
ータ線15およびデータ線18によって行われる。
【0013】サービスプロセッサ25には、障害処理プ
ログラム26が設けられている。障害処理プログラム2
6は、データ処理装置に障害が発生した際のログ情報の
採取,障害解析,リスタート処理の各々の処理を手順化
したものである。障害処理プログラム26は、スキャン
パス24を用いて、ログ情報を採取し、ファイル装置2
7内のログエリア28へ格納する。
【0014】図2は、データ処理装置における障害処理
の論理構成および周辺回路を説明するためのブロック回
路図であり、図3はデータ処理システムのメモリ構成の
一例を説明する図である。図2および図3を参照して説
明する。図2において、30はメンテナンスコントロー
ルレジスタ(MCW)であり、電源投入時には“0”に
初期設定されている。メンテナンスコントロールレジス
タ30は、セレクタ37およびアントゲート38を制御
しており、通常“0”であることから、セレクタ37に
おいては内部メモリ(LS)31の内容をデータ線33
→セレクタ37→データ線17を通して、演算器(AL
U)13へ送るデータパスと、アンドゲート38を介し
て信号線36の内容を信号線41に送る信号パスを有効
にしている。
【0015】内部メモリ31よりデータが読み出された
場合、読み出されたデータは、データ線33→セレクタ
37→データ線17のデータパスを通して演算器13に
送られ、また、同時に信号線34にチェックデータが送
られる。チェッカ32では、信号線34のチェックデー
タをもとにデータ線33のデータの正常性をチェックし
、正常ならば信号線35,36に“0”を送出し、また
、異常ならば信号線35,36にエラー信号“1”を送
出するような設定となる。例えば、エラー信号が設定さ
れた場合、アンドゲート38,信号線41,オアゲート
43を通過して、信号線44までエラー信号が送られる
。このエラー信号により、データ処理装置10のクロッ
クを停止し、更に、障害が発生したことをSVP割り込
み信号29によりサービスプロセッサ25に報告する。
【0016】SVP割り込み信号29により割り込みを
受けたサービスプロセッサ25は、障害処理プログラム
26を起動する。障害処理プログラム26は予じめ設定
されてる障害処理手順を実行し、データ処理装置10内
のマイクロプログラムマシンチェックハンドラ(MCK
H)を起動する。
【0017】次に、マイクロプログラムマシンチェック
ハンドラ(MCKH)により、障害発生アドレス(FS
A)を採取する方法について述べる。マイクロプログラ
ムマシンチェックハンドラでは、まず、メンテナンスコ
ントロールレジスタ(MCW)30に対して“1”をス
キャンインする。これにより、セレクタ37は、信号線
35の信号をデータ線17を通して、演算器13へ送出
する。また、アンドゲート38からの常に“0”の信号
が出力されるように制御される。このため、チェッカ3
2から信号線36にエラー信号“1”が送出されていて
も、アンドゲート38の出力は常にエラー無し状態の“
0”となっており、クロックを停止させないようにする
。次に、内部メモリユニット11に対するアドレスレジ
スタ(LSPTR)12に、内部メモリ31の最若番の
アドレス“000”をスキャンインした後、内部メモリ
31に対してデータ読み出し指示を行い、チェッカ32
の出力を演算器13にセットする。演算器13では、デ
ータ線17からの入力データ、すなわちチェッカ32の
出力をデータ線14に送る指示を行い、演算器13から
出力される出力データの内容をテストする。テスト方法
は、データ線14の内容が“0”ならば、アドレスレジ
スタ(LSPTR)12で示す内部メモリ31のアドレ
スに障害が発生してないことが判かり、データ線14の
内容が“0”以外ならば、アドレスレジスタ(LSPT
R)12で示す内部メモリ31のアドレスに障害が発生
していることが判定される。このようにして、順次に、
アドレスレジスタ(LSPTR)12の内容に1を加算
し、内部メモリ31の全アドレスについて順次に障害発
生のテストを行って、障害発生アドレス(FSA)の採
取を行う。
【0018】また、内部メモリ31の構成は、図3に示
すように、汎用レジスタ,浮動小数点レジスタなどのデ
ータ領域であるソフトウェア資源領域51,システム構
成情報などのシステム情報を格納するシステム情報領域
52,ワークメモリとしてのマイクロプログラム一時作
業領域53に区分されて構成されている。ここでのシス
テム情報領域52に格納されるシステム情報は、電源投
入時に作成されて、このシステム情報領域52に格納さ
れると共に、ハードウェアシステム領域(HSA)にお
ける内部メモリワーク領域(HLS)23内のシステム
構成情報保持領域54に格納される。
【0019】前述したようなアドレスレジスタ(LSP
TR)12の制御によるテストにより採取した障害アド
レス(FSA)を基に、ソフトウェア資源領域51,シ
ステム情報領域52,およびマイクロプログラム一時作
業領域53の3領域のどの領域で障害が発生したかを判
定し、メンテナンスコントロールレジスタ(MCW)3
0を電源投入時の“0”に再びスキャンインした後、次
のような処理を行うことにより、メモリ障害の障害状態
を解除することができる。
【0020】すなわち、障害アドレス(FSA)がソフ
トウェア資源領域51ならば、障害アドレス(FSA)
の示す内部メモリ31のアドレスの全ワードに、ゼロパ
ターンで有効化し、ソフトウェアに対してはマシンチェ
ック割り込みを行い、ソフトウェア資源が保証できない
割り込みコードによる報告ソフトウェアのブレークポイ
ントからの再開により、リカバリを行う。
【0021】障害アドレス(FSA)がシステム情報領
域52の場合は、内部メモリワーク領域(HLS)23
内のシステム構成情報保持領域54の全データをシステ
ム情報領域52に全面複写し、命令を再試行することに
より、データ処理装置10の処理はリカバリされる。
【0022】また、障害アドレス(FSA)がマイクロ
プログラム一時的作業領域53の場合は、このマイクロ
プログラム一時的作業領域53の全ワードをゼロパター
ンで有効化し、命令を再試行することにより、データ処
理装置10の処理をリカバリすることができる。
【0023】次に、アドレス系(制御系)の障害処理に
ついて説明する。演算器13の演算結果を内部メモリ3
1にデータ線14およびデータ線16を通して書き込み
を行う場合、内部メモリ31内のアドレスをアドレスレ
ジスタ(LSPTR)12で指定する。アドレスレジス
タ(LSPTR)12の内容は、アドレス線19を通し
て内部メモリ31に送られ、この時、同時にアドレス線
19のチェック情報が信号線39を通してチェッカ40
へ送られる。チェッカ40では、信号線39のチェック
データをもとにアドレス線19の内容の正常性をチェッ
クし、正常ならば、信号線42に“0”を送出し、異常
ならば、信号線42にエラー信号“1”を送出するよう
に設定される。信号線42にエラー信号“1”がセット
された場合には、オアゲート43を通過して信号線44
までエラー信号が送られ、このエラー信号により、デー
タ処理装置10のクロックを停止し、また、障害が発生
したことをSVP割り込み信号29でサービスプロセッ
サ25に報告する。
【0024】SVP割り込み信号29での割り込みを受
けたサービスプロセッサ25は、障害処理プログラム2
6を起動し、予じめ設定された障害処理手順の処理を実
行し、データ処理装置10内のマイクロプログラムマシ
ンチェックハンドラ(MCKH)を起動する。
【0025】マイクロプログラムマシンチェックハンド
ラ(MCKH)は、内部メモリ31のアドレス系の障害
と認識すると、内部メモリ31のどのアドレスが不当に
更新されたか不明のため、ソフトウェア資源領域51に
対しては、全ワードにゼロパターンで有効化し、システ
ム情報領域52に対しては、内部メモリワーク領域(H
LS)23内のシステム構成情報保持領域54の全デー
タをシステム情報領域52に全面複写する。また、マイ
クロプログラム一時的作業領域53に対しては、当該マ
イクロプログラム一時的作業領域53の全ワードをゼロ
パターンで有効化することにより、ソフトウェアに対し
てマシンチェック割り込みを行い、ソフトウェア資源が
保証できない割り込みコードによる報告ソフトウェアの
ブレークポイントからの再開により、リカバリを行う。
【0026】このように、本実施例のデータ処理システ
ムでは、マイクロプログラム制御されるデータ処理装置
内のメモリ領域をシステム情報領域、データ処理情報領
域(ソフトウェア資源領域,マイクロプログラム一時作
業領域)に区分し、システムにとって重要なデータであ
るシステム情報領域と同一内容の情報を、第2のメモリ
の内部メモリワーク領域内のシステム構成情報保持領域
に格納しておき、この第2のメモリによりシステム情報
を回復することにより、データ処理システムのシステム
障害を未然に防ぐことができる。
【0027】以上、本発明を実施例に基づき具体的に説
明したが、本発明は前記実施例に限定されるものではな
く、その要旨が逸脱しない範囲で数々変更可能であるこ
とは言うまでもない。
【0028】
【発明の効果】以上、説明したように、本発明のメモリ
障害処理方法によれば、少量のハードウェア論理を追加
することにより、マイクロプログラムにて障害アドレス
(FSA)を採取可能となる。また、障害アドレス(F
SA)をハードウェアにて保持する必要がなくなり、こ
のための複雑なハードウェア論理は不要となり、障害処
理のための論理を大幅に低減可能となる。また、メモリ
の書き込みアドレスに障害が発生し不当なアドレスを変
更した場合でも、データ処理システム全体に影響を与え
ると考えるメモリ領域を回復することにより、システム
障害を未然に防ぐことが可能となる。
【図面の簡単な説明】
【図1】図1は本発明の一実施例にかかるデータ処理シ
ステムの全体の構成を示す図、
【図2】図2はデータ処理装置における障害処理の論理
構成および周辺回路を説明するためのブロック回路図、
【図3】図3はデータ処理システムのメモリ構成の一例
を説明する図である。
【符号の説明】
10…データ処理装置、11…内部メモリユニット、1
2…アドレスレジスタ、13…演算器、14〜18…デ
ータ線、20…主記憶装置、21…ソフトウェア領域、
22…ハードウェアシステム領域、23…内部メモリワ
ーク領域、24…スキャンパス、25…サービスプロセ
ッサ、26…障害処理プログラム、27…ファイル装置
、28…ログエリア、29…信号線、30…メンテナン
スコントロールレジスタ、31…内部メモリ、32…チ
ェッカ、33…データ線、34〜36…信号線、37…
セレクタ、38…アンドゲート、39…信号線、40…
チェッカ、41〜42…信号線、43…オアゲート、4
4…信号線、51…ソフトウェア資源領域、52…シス
テム構成情報、53…マイクロプログラム一時作業領域
、54…システム構成情報保持領域。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  マイクロプログラム制御を行うデータ
    処理装置と、前記データ処理装置に障害が発生した場合
    に障害処理を行うサービスプロセッサと、前記データ処
    理装置のシステム情報を格納するシステム情報領域およ
    びデータ処理情報領域とを区分した第1のメモリと、前
    記システム情報領域と同一内容の情報を持つ第2のメモ
    リとを有するデータ処理システムにおけるメモリ障害処
    理方法であって、データ処理中に、データ処理装置がメ
    モリ書き込み制御で障害が発生したことを検出すると、
    障害発生をサービスプロセッサに一旦報告した後、マイ
    クロプログラム制御により、第2のメモリに格納されて
    いるシステム情報を第1のメモリのシステム情報領域に
    格納することを特徴とするメモリ障害処理方法。
JP3141578A 1991-06-13 1991-06-13 メモリ障害処理方法 Pending JPH04365145A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3141578A JPH04365145A (ja) 1991-06-13 1991-06-13 メモリ障害処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3141578A JPH04365145A (ja) 1991-06-13 1991-06-13 メモリ障害処理方法

Publications (1)

Publication Number Publication Date
JPH04365145A true JPH04365145A (ja) 1992-12-17

Family

ID=15295250

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3141578A Pending JPH04365145A (ja) 1991-06-13 1991-06-13 メモリ障害処理方法

Country Status (1)

Country Link
JP (1) JPH04365145A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008111124A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited マルチcpu異常検出復旧システム、方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008111124A1 (ja) * 2007-03-12 2008-09-18 Fujitsu Limited マルチcpu異常検出復旧システム、方法及びプログラム
US8074123B2 (en) 2007-03-12 2011-12-06 Fujitsu Limited Multi-CPU failure detection/recovery system and method for the same
JP5212357B2 (ja) * 2007-03-12 2013-06-19 富士通株式会社 マルチcpu異常検出復旧システム、方法及びプログラム

Similar Documents

Publication Publication Date Title
CA1235816A (en) Error recovery system in a data processor having a control storage
Namjoo et al. Watchdog processors and capability checking
JPH04338849A (ja) 記憶エラー訂正方法及び過剰エラー状態を報告する方法
US5363502A (en) Hot stand-by method and computer system for implementing hot stand-by method
US7139942B2 (en) Method and apparatus for memory redundancy and recovery from uncorrectable errors
JPH02156357A (ja) プログラム破壊防止方法
JPH02294739A (ja) 障害検出方式
JPH04365145A (ja) メモリ障害処理方法
JP2513060B2 (ja) 故障回復型計算機
EP0113982B1 (en) A data processing system
JP2004252525A (ja) エミュレータおよびプログラム
EP0655686B1 (en) Retry control method and device for control processor
JP2922981B2 (ja) タスクの実行継続方法
JP2776815B2 (ja) 多重プロセッサシステムの障害回復方法
JPH11119992A (ja) ファームウェアのトレース制御装置
JP3340284B2 (ja) 冗長システム
JPH02301836A (ja) データ処理システム
JPS62113241A (ja) 障害回復装置
JPH07117902B2 (ja) 情報処理装置の再立ち上げ装置
JPS6155744A (ja) エラ−のリカバリ処理方式
JPH07244613A (ja) 二重化メモリ制御方法
JPH07295807A (ja) マイクロプログラム制御装置
JPS62180440A (ja) 記憶領域テスト方式
JPS6146535A (ja) 擬似エラ−設定制御方式
JPH0644145A (ja) メモリエラー回避システム