JPH08137764A - 記憶装置のソフトエラー回復方法と固定障害検出方法 - Google Patents

記憶装置のソフトエラー回復方法と固定障害検出方法

Info

Publication number
JPH08137764A
JPH08137764A JP6276277A JP27627794A JPH08137764A JP H08137764 A JPH08137764 A JP H08137764A JP 6276277 A JP6276277 A JP 6276277A JP 27627794 A JP27627794 A JP 27627794A JP H08137764 A JPH08137764 A JP H08137764A
Authority
JP
Japan
Prior art keywords
error
processing unit
storage device
central processing
storage area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP6276277A
Other languages
English (en)
Inventor
Kunio Yajima
邦夫 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP6276277A priority Critical patent/JPH08137764A/ja
Publication of JPH08137764A publication Critical patent/JPH08137764A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

(57)【要約】 【目的】 中央処理装置のRAMに生じるソフトエラー
の回復方法と固定障害の検出方法に関し,ソフトエラー
と固定障害を判別でき,ハードウェアによらずに低コス
トで実現することを目的とする。 【構成】 記憶装置の記憶領域の参照処理と更新処理を
行うためのプログラムを有するファームウェアを備え,
メモリ制御部は記憶領域の記憶保護を図る保護キーを備
え,サービス処理部は記憶装置のロギング情報を収集す
るエラーログ情報収集手段とロギング情報からエラーア
ドレスを求めるエラー解析手段を備え,記憶装置にエラ
ーが発生すると,サービス処理部はロギング情報を収集
し,エラーアドレスを求め,中央処理部に対してエラー
を生じた記憶領域の更新依頼をし,中央処理部は該記憶
領域を更新し,メモリ制御部は保護キーに参照情報,更
新情報を記録する構成を持つ。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は,中央処理装置のRAM
に生じるソフトエラーの回復方法と固定障害の検出方法
に関する。
【0002】α線照射等によりRAMに間欠的に発生す
るソフトエラーは,データの再書き込みを行うことで回
復することができる。本発明は,頁単位に記憶領域の保
護を図る保護キーを持つRAMにソフトエラーが発生し
た時にエラーを生じた保護キーの記憶領域に再書き込み
(更新)を行いエラーを回復するソフトエラー回復方法
と,RAMに発生したエラーがソフトエラーであるのか
固定障害であるのかを判定する固定障害検出方法に関す
る。
【0003】
【従来の技術】従来のRAMのエラーの回復方法は,
エラーコレクション回路(ECC)によりデータを訂
正して再書き込みする方法と, ハードウェアによる
データの再書き込み回路を設ける方法があった。
【0004】
【発明が解決しようとする課題】上記のエラーコレクシ
ョン回路,ハードウェアによる再書き込み回路でのエラ
ー回復は発生したエラーがソフトエラーによるものであ
るのか,あるいは固定障害によるものであるのかを判定
することができない。また,いずれも高価なハードウェ
ア回路を多数必要とするためコストが高いものであっ
た。
【0005】本発明は,ソフトエラーと固定障害を判別
でき,ハードウェアによらずに低コストで実現できる記
憶装置のソフトエラー回復方法と固定障害検出方法を提
供することを目的とする。
【0006】
【課題を解決するための手段】図1は本発明の基本構成
を示す。図1において,1は中央処理部(CPU)であ
る。
【0007】2はメモリ制御部(MCU)であって,記
憶装置3の書き込み(更新に同じ)と読み出しの制御を
行うものである。またメモリ制御部2は記憶装置3にエ
ラーが発生した時に,エラーを生じた記憶領域のアドレ
ス(メモリキーのアドレスであって,以後,エラーアド
レスと称する)を求め,ロギング情報を収集してロギン
グ情報にエラーアドレスを格納するものである。
【0008】3は記憶装置(MSU)であって,頁単位
に記憶保護のためのメモリキー(保護キーに同じ)を備
えるものである。4はサービス処理部(SVP)であっ
て,監視,エラー解析等のサービス処理を行うものであ
る。
【0009】中央処理部1において,5はファームウェ
アであって,中央処理部1の制御命令等を保持し,記憶
領域に対する参照,更新等の制御プログラムを保持する
ものである。
【0010】5’はマイクロ制御プログラムであって,
中央処理部1の制御プログラムであり,メモリキーのR
C領域の書込み,記憶装置の記憶領域の更新処理等のプ
ログラムを保持するものである。
【0011】メモリ制御部2において,10はメモリキ
ー(保護キー)であって,記憶装置3の頁単位の記憶領
域の記憶保護を図るものであり,記憶領域を読み出した
時に参照情報をセットするR領域と更新した時に更新情
報をセットするC領域よりなるRC領域を持つものであ
る。
【0012】12はエラーが発生したことにより収集さ
れたロギング情報である。13はロギング情報に格納さ
れたエラーアドレスである。サービス処理部4におい
て,15はエラーログ情報収集手段であって,メモリ制
御部2に保持されているロギング情報(以後,エラーロ
グ情報と称するものに同じ)を収集するプログラムであ
る。
【0013】16はエラー解析手段であって,エラーロ
グ情報に基づいてエラー解析し,エラーアドレスを求め
るものである。17’はエラーアドレステーブルであっ
て,エラーアドレスを記録するものである(エラーアド
レステーブル17’は請求項2に対応する)。
【0014】17はエラー管理テーブルであって,メモ
リキーのRC領域のリセット回数とエラー発生回数を記
録するものである(エラー管理テーブル17は請求項4
に対応する)。
【0015】18は固定エラー判定手段である。
【0016】
【作用】図1の本発明の基本構成の動作を説明する前
に,図2によりメモリキーの参照情報と更新情報につい
て説明する。
【0017】図2は本発明の記憶装置の参照処理と更新
処理の説明図である。図2において,2はメモリ制御部
である。
【0018】10はメモリキーであって,記憶装置の記
憶領域(MSU0)のメモリキー(保護キー)である。
10’はメモリキーであって,記憶装置の記憶領域(M
SU1)のメモリキー(保護キー)である。
【0019】11はメモリキー10のRC領域であり,
MSU0の内容が読み出された時にR領域に1がセット
され,MSU0に再書き込みがなされた時にC領域に1
がセットされるものである。
【0020】20は参照処理であって,記憶領域(MS
U0,MSU1)の読み出し処理である。21は再書き
込み処理であって,記憶領域(MSU0,MSU1)に
対する再書き込み処理(更新処理)である。
【0021】3は記憶装置である。25はMSU0であ
って,記憶装置3の記憶領域であり,メモリキー10に
より保護されている領域である。
【0022】26はエラーを記録した領域である。27
はMSU1であって,記憶装置3の記憶領域であり,メ
モリキー10’により保護されている領域である。
【0023】図2の構成において,中央処理部1からの
記憶領域に対する読み出し指示により,例えば,MSU
0が読み出されると参照処理20によりメモリキーのR
領域に1がセットされる。また,例えば,領域26にエ
ラーが発生し,中央処理部1からの記憶領域(MSU
0)に対する再書込みの指示によりMSU0に再書き込
みがなされるとメモリキー10のC領域に「1」がセッ
トされる。
【0024】図1の本発明の基本構成の動作を説明す
る。 (a) ソフトエラーの回復方法(1) 本発明は,システム運用中に動的に記憶装置のソフトエ
ラーを回復する方法である(請求項1に対応する)。
【0025】記憶装置3にエラーが発生すると,メモリ
制御部2はエラーアドレスを求め,ロギング情報を収集
してロギング情報にエラーアドレスを格納する。そし
て,メモリ制御部2はロギング情報の回収と解析をサー
ビス処理部4に要求する。サービス処理部4はメモリ制
御部2の収集したロギング情報を回収し,エラー解析し
てエラーアドレスを求める。そして,中央処理部1に対
してエラーを生じた記憶領域の再書き込みを依頼する。
中央処理部1は実行契機において,ファームウェア5の
制御コマンドによりエラーアドレスの記憶領域に再書き
込みをし,メモリキー10の領域Cに更新情報をセット
する。
【0026】(b) 固定障害の検出方法(1) 本発明は,システム運用中に動的に記憶装置のソフトエ
ラーを回復するとともに,固定障害があればその障害を
検出する方法である(請求項2に対応する)。
【0027】記憶装置3にエラーが発生すると,メモリ
制御部2はエラーアドレスを求め,ロギング情報を収集
してロギング情報にエラーアドレスを格納する。そし
て,メモリ制御部2はロギング情報の回収とエラー解析
をサービス処理部4に要求する。サービス処理部4はメ
モリ制御部2の収集したロギング情報を回収し,エラー
解析してエラーアドレスを求め,中央処理部1に対して
再書き込みを依頼する。中央処理部1は実行契機におい
て,ファームウェア5の制御コマンドによりエラーアド
レスの記憶領域に再書き込みをし,メモリキー10の領
域Cに更新情報をセットする。サービス処理部4はエラ
ーアドレステーブル17’にエラーアドレスを記録す
る。
【0028】次に,中央処理部1は,再書き込みを行っ
たアドレスに対してフェッチ(読み出し)を行い,サー
ビス処理部4は,エラーアドレステーブル17’を参照
し,更新後に検出されたエラーアドレスがエラーアドレ
ステーブル17’に記録されていれば固定エラーがある
として,外部装置(図示せず)に固定障害の発生を通知
する。
【0029】(c) ソフトエラーの回復方法(2) 本発明は,中央処理部(1) のマイクロ制御プログラムを
使用してソフトエラーの回復を図る方法である(請求項
3に対応する)。
【0030】中央処理部1は,電源投入時等のリセット
時において,メモリキー10の領域Rと領域Cを初期化
する(例えば,0にクリアする)。記憶装置3にエラー
が発生すると,メモリ制御部2はエラーアドレスを求
め,ロギング情報を収集してロギング情報にエラーアド
レスを格納する。そして,メモリ制御部2はロギング情
報の回収とエラー解析をサービス処理部4に要求する。
サービス処理部4はメモリ制御部2の収集したロギング
情報を回収し,エラー解析してエラーアドレスを求め
る。そして,中央処理部1に対してキーメモリのRC領
域への参照情報と更新情報の書き込み要求をする。
【0031】この報告を基に,中央処理部1は実行契機
において,マイクロ制御プログラム5’によりキーメモ
リのRC領域に参照情報と更新情報をセットし,記憶領
域を更新する。
【0032】(d) 固定障害の検出方法(2) 本発明は,統計的な処理により記憶装置の固定障害を検
出する方法である。電源投入時等にリセットするメモリ
キーのRC領域のリセット回数とエラー発生回数をアド
レスメモリのアドレス毎に記録し,エラー回数がリセッ
ト回数より多い場合には,固定障害と判定する方法であ
る(請求項4に対応する)。
【0033】電源投入時等において,中央処理部1はメ
モリキーのRC領域をリセットする。記憶装置3にエラ
ーが発生すると,メモリ制御部2はエラーアドレスを求
め,ロギング情報を収集し,ロギング情報にエラーアド
レスを格納する。そして,メモリ制御部2はロギング情
報の回収とエラー解析をサービス処理部4に要求する。
サービス処理部4はメモリ制御部2の収集したロギング
情報を回収し,エラー解析してエラーアドレスを求め,
中央処理部1に対してメモリキーのRC領域への参照情
報と更新情報の書き込み要求をする。
【0034】この報告を基に,中央処理部1は実行契機
において,マイクロ制御プログラム5’によりメモリキ
ーのRC領域に参照情報と更新情報をセットし,記憶領
域を更新する。
【0035】サービス処理部4はエラー管理テーブル1
7にメモリキー10のRC領域のリセット回数とエラー
発生回数を記録する。そして,固定エラー判定手段18
はエラー回数がリセット回数より大きい場合には,その
エラーアドレスの領域に固定エラーがあると判定し,外
部装置(図示せず)に固定障害の発生を通知する。
【0036】本発明によれば,ソフトエラーと固定障害
を確実に区別することができ,固定障害の発生を保守要
員等に確実に通知することができる。また,ソフトエラ
ーの回復も確実に行うことができる。また,エラー回復
のために専用のハードウェアを必要としないので開発コ
ストを低減することができる。
【0037】
【実施例】図3は本発明の実施例1を示す。図3におい
て,30は中央処理装置である。
【0038】31は中央処理部(CPU)である。32
はメモリ制御部(MCU)である。33は記憶装置であ
る。
【0039】メモリ制御部(MCU)32において,4
1は記憶領域MSU0(45)のメモリキーである。4
2は記憶領域MSU1(46)のメモリキーである。
【0040】43はロギング情報を表す。44はロギン
グ情報に格納されたエラーアドレスを表す。記憶装置3
3において,35はファームウェアである。
【0041】36は参照コマンドであって,記憶領域の
内容を読み出す(参照する)ためのコマンドである。3
7は書き込みコマンド37であって,記憶領域に書き込
み(更新)をするためのコマンドである。
【0042】45は記憶領域MSU0である。46は記
憶領域MSU0である。50はサービスプロセッサ(S
VP)である(図1のサービス処理部に相当する)。
【0043】55はエラーログ情報収集プログラムであ
って,エラーログを収集するものである(図1のエラー
ログ情報収集手段に相当する)。56はエラー解析プロ
グラムであって,収集したエラー情報に基づいてエラー
解析を行うものである(図1のエラー解析手段に相当す
る)。
【0044】図3の構成の動作を図4により説明する。
図4は実施例1のフローチャートである。図3の構成に
おいて,MSU0(45)にエラーが発生したとする。
【0045】 記憶装置33にエラーが発生し,メモ
リ制御部(MCU)32はエラーアドレスを求め,ロン
ギング情報にエラーアドレスを格納する。 メモリ制御部32はサービスプロセッサSVP(5
0)にエラーアドレスを通知し,エラーログ情報の回収
を要求する。
【0046】 サービスプロセッサ50はエラーログ
情報収集プログラム55によりエラーログ情報(ロギン
グ情報)を回収し,解析を行う。以下は,エラーログ情
報の解析処理である。
【0047】S1 エラーログ情報の解析を行う。 S2 エラーアドレスを求める。 S3 エラーログ情報には複数の記憶領域のアドレスが
含まれ,エラーがあればエラー情報を備えているのでエ
ラー情報からエラーアドレスを判定する。エラーアドレ
スであればS4の処理を行い,エラーアドレスでなけれ
ば次のアドレスについてエラーアドレスか判定する。
【0048】S4 CPUと共通のハードウェア固定領
域(Hardware Storage Area(H
SA))に,解析したエラーアドレスの書き込みを行
う。 CPUのファームウェア35の制御コマンド(書き
込みコマンド37)により更新処理を行う。以下はその
処理である。
【0049】S5,S6 CPUの動作契機において,
ハードウェア固定領域(HSA)に書き込まれたアドレ
スについて,キーエラーが発生しているか(エラーアド
レスがあるか)判定する。
【0050】S7 固定領域を参照し,キーエラーが発
生していれば(エラーアドレスがあれば)その記憶領域
(MSU0)にエラーアドレスのチェンジ付きのストア
(再書き込み)を行う。チェンジ付きの再書き込みは更
新処理を行うとともにメモリキーのC領域に更新情報
(1のビット)をセットするものである。
【0051】図5は本発明の実施例2であって,固定障
害の検出方法(1) を示す。図5において,30は中央処
理装置である。
【0052】31は中央処理部(CPU)である。3
5’はエラー検出部であって,記憶領域のエラーを判定
するものである。32はメモリ制御部(MCU)であ
る。
【0053】41は記憶領域MSU0(45)のメモリ
キーである。42は記憶領域MSU1(46)のメモリ
キーである。43はロギング情報である。
【0054】44はエラーアドレスである。33は記憶
装置である。35はファームウェアである。
【0055】36は参照コマンドである。37は書き込
みコマンドである。45は記憶領域MSU0である。
【0056】46は記憶領域MSU1である。50はサ
ービスプロセッサ(SVP)である。55はエラーログ
情報収集プログラムである。
【0057】56はエラー解析プログラムである。57
はエラーアドレステーブルであって,エラーアドレスと
エラーアドレスに対する再書き込み(ストア(更新))
とフェッチ(読み出し(参照))についての情報を記録
するものである。
【0058】図5の構成の動作を図6,図7により説明
する。図6,図7は実施例2のフローチャートである。 記憶装置3にエラーが発生し,メモリ制御部(MC
U)32はエラーアドレスを求め,ロギング情報を収集
し,ロギング情報にエラーアドレスを格納する。
【0059】 メモリ制御部32はサービスプロセッ
サSVP(50)にエラーログ情報(ロギング情報)の
回収を要求する。 サービスプロセッサ50はエラーログ情報収集プロ
グラム55によりエラーログ情報を収集し解析を行う。
以下はエラーログ情報の解析処理である。
【0060】S1 エラーログ情報の解析を行う。 S2 エラーログ情報に含まれるアドレスからエラーア
ドレスを求める。 S3 エラーアドレスか判定する。エラーアドレスであ
ればS4の処理を行い,エラーアドレスでなければ次の
アドレスについてエラーアドレスか判定する。
【0061】S4 サービスプロセッサ50とCPU3
1の共通のハードウェア固定領域(HSA)に,解析し
たエラーアドレスの書き込みを行う。 S5,S6 エラーアドレステーブル57にエラーアド
レスとストアビット(ON=1)を書き込む(S6にエ
ラーテーブルの例を示す)。
【0062】 CPUのファームウェアの処理におい
て,更新処理を行なう。 S7,S8 CPUのファームウェアの動作契機におい
て,ハードウェア固定領域(HSA)に書き込まれたア
ドレスについて,キーエラーが発生しているか判定す
る。キーエラーが発生していなければ終了する。
【0063】S9 ハードウェア固定領域(HSA)を
参照し,キーエラーが発生していれば記憶領域にエラー
アドレスのチェンジ付きのストア(再書き込み)を行
う。 S10 再書き込みを行ったエラーアドレスを参照コマ
ンド36によりフェッチ(参照)する。
【0064】S11 CPUのエラー検出部35’にお
いてエラー検出をする。 S13,S14 キーエラーが発生しているか判定し,
エラーが発生していればS13においてメモリ制御部
(MCU)32にエラー通知を行い,キーエラーが発生
していなければ終了する。
【0065】 メモリ制御部(MCU)32はCPU
31からエラー通知を受け取ると,キーエラーの発生を
サービスプロセッサ50に通知し,エラーログ情報の
回収要求をする。
【0066】サービスプロセッサ50において, S14 エラーログ情報の解析を行い,今回求めたエラ
ーアドレスが前回のエラー解析において作成したエラー
テーブルに記録されているエラーアドレスと同じアドレ
スであればそのフェッチ情報をON(=1)とする。
【0067】S15,S16 エラーアドレステーブル
を参照し,ストアビットとフェッチビットが共にON
(=1)であれば,メモリキーアドレスに固定障害があ
ると判定し,S17において外部装置に通知する。スト
アビットとフェッチビットが共にON(=1)のエラー
アドレスがなければ終了する。
【0068】図8は本発明の実施例3であって,ソフト
エラーの回復方法(2) である。30は中央処理装置であ
る。31は中央処理部(CPU)である。
【0069】35’はマイクロ制御プログラムであっ
て,中央処理部31の制御プログラムである。38はR
C領域書き込みの処理である。
【0070】39は記憶領域の更新処理である。32は
メモリ制御部(MCU)である。41は記憶領域MSU
0(45)のメモリキーである。
【0071】42は記憶領域MSU1(46)のメモリ
キーである。43はロギング情報である。44はエラー
アドレスである。
【0072】33は記憶装置である。45は記憶領域M
SU0である。46は記憶領域MSU1である。
【0073】50はサービスプロセッサ(SVP)であ
る。55はエラーログ情報収集プログラムである。56
はエラー解析プログラムである。
【0074】61はエラー解析の処理である。62はキ
ー書き込み要求の処理である。60は初期化プログラム
である。
【0075】図9を参照して図8の本発明の実施例3の
動作を説明する。図9は本発明の実施例3のフローチャ
ートである。 S1,S2 サービスプロセッサ(SVP)50は本体
初期化を開始し,電源ON時に初期化プログラム60は
キーRC領域の初期化を設定する。
【0076】S3 SVP50−CPU31の共通固定
領域(HSA)にキーRCの初期化を指示する。 S4 CPU31の初期化において,HSAを参照す
る。
【0077】S5 CPU31のマイクロ制御プログラ
ム35’は,キーRC領域に‘00’を書き込む。 メモリキー(メモリキーの記憶領域)にエラーが発
生する。
【0078】 メモリ制御部(MCU)32はエラー
アドレスをサービスプロセッサ50に通知し,エラーロ
グ情報の回収要求をする。 サービスプロセッサ(SVP)50において, S6 サービスプロセッサ(SVP)50はエラーログ
情報を集め,エラー解析を行う。
【0079】S7 エラーログ情報からエラーアドレス
を求める。 S8 エラーアドレスか判定する。エラーアドレスであ
ればS9において,SVP−CPUの共通固定領域(H
SA)にキーRCの更新指示を行う。エラーアドレスで
なければS7に戻る。
【0080】CPU31において, S10,S11 CPU31の動作契機において,SV
P50−CPU31の共通固定領域(HSA)を参照
し,キーRCの更新指示があると,CPUのマイクロ制
御プログラム35’は,メモリキーのRC領域に無条件
に‘11’を書き込み,エラーアドレスの記憶領域を更
新する。
【0081】図10は本発明の実施例4である。図10
において,30は中央処理装置である。
【0082】31は中央処理部(CPU)である。3
5’はマイクロ制御プログラムである。38はRC領域
書き込みの処理である。
【0083】39は更新処理である。32はメモリ制御
部(MCU)である。41は記憶領域MSU0(45)
のメモリキーである。
【0084】42は記憶領域MSU1(46)のメモリ
キーである。43はロギング情報である。44はエラー
アドレスである。
【0085】33は記憶装置である。45は記憶領域M
SU0である。46は記憶領域MSU1である。
【0086】50はサービスプロセッサ(SVP)であ
る。55はエラーログ情報収集プログラムである。56
はエラー解析プログラムである。
【0087】61はエラー解析の処理である。62はキ
ー書き込み要求の処理である。60は初期化プログラム
である。
【0088】63はエラー管理テーブル作成手段であ
る。65はエラー管理テーブルであって,メモリキーの
アドレス毎にキーRC領域のリセット回数とエラー発生
回数を記録するものである。
【0089】図10の構成の動作は後述する。図11は
本発明の実施例4のエラー管理テーブルの例を示す。エ
ラー管理テーブル65はメモリキーのアドレス対応にリ
セット回数とエラー発生回数を記録する。そしてサービ
スプロセッサ50はエラー管理テーブルを参照し,リセ
ット回数よりエラー回数が多くなると固定エラーと判定
する。
【0090】図12,図13を参照して図10の実施例
4の動作を説明する。図12,図13は本発明の実施例
4のフローチャートである。 S1,S2 サービスプロセッサの初期化プログラム6
0は電源投入時等において,キーRC領域の初期化を設
定する。
【0091】S3 初期化プログラム60はSVP50
−CPU31の共通固定領域(HSA)にキーRCの初
期化を指示する。 S4,S5 エラー管理テーブルを初期化し,リセット
回数1,エラー回数0を設定する(S5はエラー管理テ
ーブルの例である)。
【0092】CPUにおいて, S6 CPU31は初期化時にHSAを参照する。 S7 SVP50−CPU31の共通固定領域(HS
A)にキーRCの初期化指示があればマイクロ制御プロ
グラム35’はメモリキーのRC領域に‘00’を書き
込む。
【0093】 メモリキー(メモリキーの記憶領域)
にエラーが発生すると,メモリ制御部(MCU)32は
エラーアドレスを求め,ロギング情報を収集し,ロギン
グ情報にエラーアドレスを格納する。
【0094】 メモリ制御部(MCU)32はサービ
スプロセッサ50にエラーログ情報の回収と解析を要求
する。 S8 サービスプロセッサ50において,エラーログ情
報の解析を行う。
【0095】S9,S10エラーログ情報からエラーア
ドレスを求め,エラーアドレスであれば,S11でSV
P50−CPU31の共通固定領域(HSA)にキーR
Cの更新指示を行う。エラーアドレスでなければS9に
戻る。
【0096】CPUにおいて, S12,S13 CPUの動作契機において,CPU3
1はSVP50−CPU31の共通固定領域のキーRC
更新指示を参照し,更新指示があればマイクロ制御プロ
グラム35’はメモリキーのキーRC領域に無条件に
‘11’を書き込み,該当する記憶領域(MSU0,M
SU1)を更新する。
【0097】サービスプロセッサにおいて, S14,S15 SVP−CPUの共通固定領域にキー
RCの更新指示がなされると,エラー管理テーブル作成
手段63はエラー管理テーブル65を更新する。
【0098】S16,S17 サービスプロセッサ50
はエラー管理テーブル65を参照し,リセット回数とエ
ラー回数を比較し,リセット回数<エラー回数であれ
ば,固定エラーと判定し,外部装置に固定障害を通知す
る。
【0099】
【発明の効果】本発明によれば,RAMのソフトウェア
エラーとハードウェアの障害による固定エラーを区別す
ることができ,ハードウェア障害を確実に検出すること
ができる。また,ハードウェアによるエラーコレクショ
ン回路等が不要になり開発コストを大幅に低減すること
ができる。
【図面の簡単な説明】
【図1】本発明の基本構成を示す図である。
【図2】メモリキーのRC領域についての説明図であ
る。
【図3】本発明の実施例1を示す図である。
【図4】本発明の実施例1のフローチャートを示す図で
ある。
【図5】本発明の実施例2を示す図である。
【図6】本発明の実施例2のフローチャートを示す図で
ある。
【図7】本発明の実施例2のフローチャートを示す図で
ある。
【図8】本発明の実施例3を示す図である。
【図9】本発明の実施例3のフローチャートを示す図で
ある。
【図10】本発明の実施例4である。
【図11】本発明の実施例4のエラー管理テーブルの例
を示す図である。
【図12】本発明の実施例4のフローチャートを示す図
である。
【図13】本発明の実施例4のフローチャートを示す図
である。
【符号の説明】
1:中央処理部(CPU) 2:メモリ制御部(MCU) 3:記憶装置 4:サービス処理部(SVP) 5:ファームウェア 5’:マイクロ制御プログラム 10:メモリキー(保護キー) 12:ロギング情報 13:エラーアドレス 15:エラーログ情報収集手段 16:エラー解析手段 17:エラー管理テーブル 18:固定エラー判定手段

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 演算処理をする中央処理部と,記憶装置
    を制御するメモリ制御部と,サービス処理をするサービ
    ス処理部と,記憶装置とを備えた中央処理装置におい
    て,記憶装置の記憶領域の参照処理と更新処理を行うた
    めのプログラムを有するファームウェアを備え,メモリ
    制御部は記憶領域の記憶保護を図る保護キーを備え,サ
    ービス処理部は記憶装置のロギング情報を収集するエラ
    ーログ情報収集手段とロギング情報からエラーアドレス
    を求めるエラー解析手段を備え,記憶装置にエラーが発
    生すると,サービス処理部はロギング情報を収集し,エ
    ラーアドレスを求め,中央処理部に対してエラーを生じ
    た記憶領域の更新依頼をし,中央処理部は該記憶領域を
    更新し,メモリ制御部は保護キーに参照情報,更新情報
    を記録することを特徴とする記憶装置のソフトエラー回
    復方法。
  2. 【請求項2】 演算処理をする中央処理部と,記憶装置
    を制御するメモリ制御部と,サービス処理をするサービ
    ス処理部と,記憶装置とを備えた中央処理装置におい
    て,記憶装置の記憶領域の参照処理と更新処理を行うた
    めのプログラムを有するファームウェアを備え,メモリ
    制御部は記憶領域の記憶保護を図る保護キーを備え,サ
    ービス処理部はロギング情報を収集するエラーログ情報
    収集手段とロギング情報からエラーアドレスを求めるエ
    ラー解析手段とエラーアドレスを書き込むエラー管理テ
    ーブルを備え,記憶装置にエラーが発生すると,サービ
    ス処理部はロギング情報を収集し,エラーアドレスを求
    め,エラー管理テーブルにエラーアドレスを記録し,中
    央処理部に対してエラーを生じた記憶領域の更新依頼を
    し,中央処理部は該記憶領域を更新し,更新後に再度読
    み出してエラー検出を行い,サービス処理部は該記憶領
    域の更新後にもエラーを生じている場合にはハードウェ
    アの固定障害があると判定して,固定障害の発生を外部
    装置に通知することを特徴とする記憶装置の固定障害検
    出方法。
  3. 【請求項3】 演算処理をする中央処理部と,記憶装置
    を制御するメモリ制御部と,サービス処理をするサービ
    ス処理部と記憶装置とを備えた中央処理装置において,
    メモリ制御部は記憶装置の記憶領域の記憶保護を図る保
    護キーを備え,中央処理部は保護キーの更新と記憶領域
    の更新を行うためのマイクロ制御プログラムを備え,サ
    ービス処理部はロギング情報を収集するエラーログ情報
    収集手段とロギング情報からエラーアドレスを求めるエ
    ラー解析手段を備え,中央処理部はシステムの起動時に
    保護キーの初期化を行い,サービス処理部は記憶装置に
    エラーが発生すると,エラー情報を収集し,エラーアド
    レスを求め,中央処理部に対してエラーを生じた記憶領
    域の更新を依頼し,中央処理部はマイクロ制御プログラ
    ムにより保護キーに更新情報を書込み,該記憶領域を更
    新することを特徴とする記憶装置のソフトエラー回復方
    法。
  4. 【請求項4】 演算処理をする中央処理部と,記憶装置
    を制御するメモリ制御部と,サービス処理をするサービ
    ス処理部と,記憶装置とを備えた中央処理装置におい
    て,メモリ制御部は記憶装置の記憶領域の記憶保護を図
    る保護キーを備え,サービス処理部はロギング情報を収
    集するエラー情報収集手段とロギング情報からエラーア
    ドレスを求めるエラー解析手段とエラーアドレス対応に
    保護キーのリセット回数とエラー発生回数を記憶するエ
    ラー管理テーブルを備え,記憶装置にエラーが発生する
    と,サービス処理部はロギング情報を収集し,エラーア
    ドレスを求め,中央処理部に対してエラーを生じた記憶
    領域に書き込み依頼をし,中央処理部はエラーを生じた
    記憶領域の保護キーに参照情報と更新情報を書き込み,
    該記憶領域を更新し,サービス処理部は保護キーのリセ
    ット回数とエラー発生回数をエラー管理テーブルに記録
    し,該エラー管理テーブルを参照してエラー発生回数が
    リセット回数より大きい場合に固定障害があると判定
    し,外部装置に通知することを特徴とする記憶装置の固
    定障害検出方法。
JP6276277A 1994-11-10 1994-11-10 記憶装置のソフトエラー回復方法と固定障害検出方法 Withdrawn JPH08137764A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6276277A JPH08137764A (ja) 1994-11-10 1994-11-10 記憶装置のソフトエラー回復方法と固定障害検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6276277A JPH08137764A (ja) 1994-11-10 1994-11-10 記憶装置のソフトエラー回復方法と固定障害検出方法

Publications (1)

Publication Number Publication Date
JPH08137764A true JPH08137764A (ja) 1996-05-31

Family

ID=17567208

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6276277A Withdrawn JPH08137764A (ja) 1994-11-10 1994-11-10 記憶装置のソフトエラー回復方法と固定障害検出方法

Country Status (1)

Country Link
JP (1) JPH08137764A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6920587B2 (en) 2002-04-25 2005-07-19 International Business Machines Corporation Handling multiple operating system capabilities in a logical partition data processing system
US6981079B2 (en) 2002-03-21 2005-12-27 International Business Machines Corporation Critical datapath error handling in a multiprocessor architecture
US7325179B2 (en) 2005-08-23 2008-01-29 Hitachi, Ltd. Storage system comprising logical circuit configured in accordance with information in memory on PLD
JP2009252026A (ja) * 2008-04-08 2009-10-29 Kyocera Mita Corp メモリ診断装置、及び情報処理装置
WO2019000206A1 (en) * 2017-06-27 2019-01-03 Intel Corporation METHODS AND APPARATUS FOR PERFORMING ERROR DETECTION AND / OR CORRECTION IN A MEMORY DEVICE

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6981079B2 (en) 2002-03-21 2005-12-27 International Business Machines Corporation Critical datapath error handling in a multiprocessor architecture
US6920587B2 (en) 2002-04-25 2005-07-19 International Business Machines Corporation Handling multiple operating system capabilities in a logical partition data processing system
US7325179B2 (en) 2005-08-23 2008-01-29 Hitachi, Ltd. Storage system comprising logical circuit configured in accordance with information in memory on PLD
JP2009252026A (ja) * 2008-04-08 2009-10-29 Kyocera Mita Corp メモリ診断装置、及び情報処理装置
WO2019000206A1 (en) * 2017-06-27 2019-01-03 Intel Corporation METHODS AND APPARATUS FOR PERFORMING ERROR DETECTION AND / OR CORRECTION IN A MEMORY DEVICE

Similar Documents

Publication Publication Date Title
US20030070115A1 (en) Logging and retrieving pre-boot error information
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPH07117903B2 (ja) 障害回復方法
US7574621B2 (en) Method and system for identifying and recovering a file damaged by a hard drive failure
JPH08137764A (ja) 記憶装置のソフトエラー回復方法と固定障害検出方法
US7315961B2 (en) Black box recorder using machine check architecture in system management mode
JP3342039B2 (ja) ファイルを管理する処理装置
JPH06342387A (ja) 情報処理装置に於ける障害情報採取方式
JPS6051142B2 (ja) ロギングエラ−制御方式
JP2870202B2 (ja) プロセッサ間相互監視方法及びその装置
JPH05324367A (ja) 障害情報記録方法
JPH09204205A (ja) プログラム制御システム
JPS6349805B2 (ja)
JPH02194444A (ja) 情報処理装置の再立ち上げ装置
JP3262094B2 (ja) メモリ制御装置及びメモリ制御方法
JPS5862900A (ja) メモリの単一ビツトエラ−処理方式
JPH05274093A (ja) ボリューム障害防止制御方式
JPH0230060B2 (ja)
JPH11184736A (ja) プロセッサ情報収集装置およびそのプログラム記録媒体
JPS59231798A (ja) デ−タ処理装置
JP3114200B2 (ja) 状態記録方法
CN117271190A (zh) 硬件可纠正错误处理方法及系统
JPS6265139A (ja) マルチプロセツサシステムの故障回復方式
JPH02246004A (ja) 磁気ディスク装置の媒体障害早期検出方式
JPH05298157A (ja) 情報処理システムのログファイル格納方式

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20020115