JPH1097473A - メモリエラー修復診断装置 - Google Patents

メモリエラー修復診断装置

Info

Publication number
JPH1097473A
JPH1097473A JP8251192A JP25119296A JPH1097473A JP H1097473 A JPH1097473 A JP H1097473A JP 8251192 A JP8251192 A JP 8251192A JP 25119296 A JP25119296 A JP 25119296A JP H1097473 A JPH1097473 A JP H1097473A
Authority
JP
Japan
Prior art keywords
memory
error
information
bit
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8251192A
Other languages
English (en)
Inventor
Shigemi Tomita
成美 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP8251192A priority Critical patent/JPH1097473A/ja
Publication of JPH1097473A publication Critical patent/JPH1097473A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Memory System (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

(57)【要約】 【課題】局所的であったメモリエラー修復を全メモリ空
間に対し範囲を広げ、メモリの異常を抑制し稼働の向上
が期待できる信頼性の高いメモリエラー修復診断装置を
提供する。 【解決手段】演算処理装置と1ビットエラー修復機構を
有するメモリコントローラと主記憶装置とこれらをつな
ぐバスとからなるマイクロコンピュータシステムにおい
て、上記主記憶装置のメモリ構成情報と、最新1ビット
エラーのアドレスとエラー回数を検出し、これらをメモ
リエラー情報として具備する主記憶エラー管理機構と、
上記演算処理装置のアイドル時間を利用して、上記主記
憶エラー管理機構から上記主記憶装置の上記メモリエラ
ー情報を取得し、上記メモリ構成情報の実装開始アドレ
スとメモリ容量に従いメモリ空間のデータを読み込むメ
モリアクセス操作手段を設けた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はマイクロコンピュー
タシステムに係り、特に、メモリの修復が不可能な2ビ
ットエラー発生の危険を診断し、1ビットエラー修復
(以下ECC)するメモリエラー修復診断装置に関す
る。
【0002】
【従来の技術】従来より1ビットのメモリエラーの修復
を図るため、メモリコントローラの内部にECC機構を
用いて、プログラムが実行する際に読み出すデータとメ
モリの誤りを修復するものがあった。
【0003】ECC機構(SEC/DED(Single Err
or Correction/Double Error Detectiom )符号
法)は、図3に示すように、情報ビットkに対し検査ビ
ットmを付加し、メモリの内容を読み出した時、情報ビ
ットKと検査ビットmからシンドローム(誤り訂正,検
出に用いられるビットパターン)を生成しこのシンドロ
ームの“1”の数が奇数ならば1ビット誤り、偶数なら
ば2ビット誤りとする。1ビット誤りの場合は、シンド
ローム解析回路により、誤りビット位置を特定し、ビッ
ト位置を反転させて誤りを訂正するというものであっ
た。(コンピュータシステムの高信頼化技術入門P.4
1〜P.42(日本規格協会、1989年6月30日発
行))即ち、ECC機構は、ECC機構を通過して読み
出したデータとメモリの誤りを修復する。
【0004】従来技術は、プログラムが実行される際に
読み出されるデータとメモリの誤りを修復するものであ
ったため、プログラムの実行時間のみである。このた
め、MPUのアイドル時間についてのメモリ修復が行わ
れないという問題があった。また、プログラムによって
実行頻度が異なるためメモリ空間内の読みだしは局所的
となる。このため実行頻度の低い領域では読みだしが行
われず1ビットメモリエラー修復が行われないことにな
り、メモリシステムの信頼性の低下をまねく原因ともな
っている。
【0005】また、従来の方法では、メモリエラーの発
生場所や発生回数に対する測定が行われないため、メモ
リエラーの増加が検出できず、システムダウンとなる2
ビットエラーが発生する危険性について診断がおこなわ
れていないという問題があった。
【0006】そのため、2ビットエラーが発生した場合
は、メモリ修復が不可能なためメモリを使用するプログ
ラムは中断されるのが常だった。
【0007】この様に、従来の方式では、プログラムの
局所性に対するメモリシステムの信頼性低下と2ビット
エラー発生時のプログラムの継続実行に対する配慮が欠
けていた。
【0008】
【発明が解決しようとする課題】本開発の目的は、従来
局所的であったメモリエラー修復を全メモリ空間に対し
範囲を広げ、メモリの異常を抑制し稼働の向上が期待で
きる信頼性の高いメモリエラー修復診断装置を提供する
ことにある。
【0009】
【課題を解決するための手段】本発明は、従来局所的で
あったメモリエラー修復を全メモリ空間に対し1ビット
エラー修復を行うため、図1に示すように、演算処理装
置(以下MPU)110とECC機構170を有するメモ
リコントローラ160と主記憶装置とこれらをつなぐバ
ス150とから構成されるマイクロコンピュータシステ
ムにおいて、主記憶装置のメモリ容量,実装開始アドレ
ス等のメモリ構成情報130と、最新1ビットエラーの
アドレスとエラー回数を検出し、これらをメモリエラー
情報140として具備する主記憶エラー管理機構120
と、MPUのアイドル時間を利用して主記憶エラー管理
機構から主記憶装置のメモリエラー情報を取得し、メモ
リ構成情報の実装開始アドレスとメモリ容量に従いメモ
リ空間のデータを読み込むメモリアクセス操作手段19
0を設けた。
【0010】また好ましくは、メモリエラー回数の増加
が異常であれば2ビットエラーの危険性があると判断し
異常のあるメモリエリアの特定を行うため、請求項1記
載のメモリアクセス操作手段190の読み込みに対しあ
るメモリ領域毎に主記憶エラー管理機構内のメモリエラ
ー情報140より1ビットエラー回数の値を取得する1
ビットエラー回数記録手段210と、1ビットエラー回
数記録よりエラー回数増加を分析するエラー回数増加分
析手段220とエラー回数増加の値を予め設定したエラ
ー回数増加許容値と比較を行う許容増加規準比較手段2
30とこの比較において許容範囲を越えたとき許容範囲
を越えたメモリ空間のメモリ領域を特定するエラー発生
箇所特定手段240とを具備するメモリエラー許容範囲
診断手段200を設けた。
【0011】また更に好ましくは、システムダウンとな
る2ビットエラー発生率の高い危険なメモリ領域を別メ
モリに移し換えることで装置のダウンタイムを抑制し稼
働率の向上を図るため、請求項2記載のメモリエラー許
容範囲診断手段200が許容範囲を越えたと判断した場
合、許容範囲を越えた危険性のあるメモリ領域を変換テ
ーブル260を用いて空きエリアをサーチし、空きエリ
アへデータをコピーするMMUアドレス置換手段250
を設けた。
【0012】またより更に好ましくは、メモリの異常を
報告するため、請求項2記載のモリエラー許容範囲診断
手段200が許容範囲を越え危険があると判断したメモ
リ領域と請求項3記載のMMUアドレス置換手段250
で置き換えたアドレスとを情報機器280に報告し、情
報機器がこのメモリエラー情報を画面に表示することに
より、情報機器上でメモリの診断を可能とするエラー報
告手段270を設けた。
【0013】メモリアクセス操作手段は、MPUのアイ
ドル時間を利用して実行され、全メモリ空間に対してE
CC機構を通して読み出しを行い、データとメモリの誤
りを修復する。このように、MPUのアイドル時間を利
用して常時1ビットメモリエラー修復を行うので1ビッ
トメモリエラーの増大を防ぎ、かつ2ビットメモリエラ
ーの発生を抑制することで2ビットメモリエラーによる
システムダウンの発生を抑制することができる。
【0014】しかも、1ビットメモリエラーの発生場所
と1ビットメモリエラーの発生回数を記録する主記憶エ
ラー管理機構でメモリ空間における特定範囲の1ビット
メモリエラー発生増加分析を行えるようにし、この分析
値と許容増加値との比較を行い2ビットメモリエラーに
よるシステムダウンの予測とそのシステムダウンにつな
がる危険性を持つ特定範囲(メモリ領域)には別メモリ
アドレスを割り与えデータを書き移すことで2ビットメ
モリエラーによるシステムダウンの発生を抑制すること
ができる。
【0015】さらに、メモリの異常を画面表示すること
で情報機器上でメモリの診断を可能とすることができ
る。
【0016】
【発明の実施の形態】本発明の一実施例は、マイクロコ
ンピュータ内のプログラムで実現できる。図1にブロッ
ク図、図2にフローチャートを示す。以下これらの図を
用いて説明する。
【0017】図1において本発明の一実施例の構成を示
す。
【0018】MPU110とECC機構170を有するメモリ
コントローラ160と主記憶装置180とこれらをつな
ぐバス150と主記憶装置のメモリ容量,実装開始アド
レス等のメモリ構成情報130と、最新1ビットエラー
のアドレスとエラー回数を検出し、これらをメモリエラ
ー情報140として具備する主記憶エラー管理機構12
0から主記憶装置のメモリ構成情報130を取得し、メ
モリ情報の実装開始アドレスとメモリ容量に従いメモリ
空間のデータを読み込むメモリアクセス操作手段190
とこれらをつなぐバス150とから構成され、メモリエ
ラー許容範囲診断手段200は、メモリアクセス操作手
段190の読み込みに対しメモリ領域毎の主記憶エラー
管理機構120内メモリエラー情報140より1ビット
エラー回数の値を取得する1ビットエラー回数記録手段
210と、1ビットエラー回数記録よりエラー回数増加
を分析するエラー回数増加分析手段220とエラー回数
増加の値を予め設定したエラー回数増加許容値と比較を
行う許容増加規準比較手段230とこの比較で許容範囲
を越えたとき許容範囲を越えたメモリ空間のメモリ領域
を特定するエラー発生箇所特定手段240とから構成さ
れ、MMUアドレス置換手段は、メモリエラー許容範囲
診断手段200が許容範囲を越えたと判断した場合、変
換テーブル260を用い空きエリアをサーチし、空きエ
リアへデータをコピーするMMUアドレス置換手段25
0から構成され、エラー報告手段は、MMUアドレス置
換手段250からどこのメモリ空間で許容範囲を超え、
どこの別メモリアドレスに書き換えたかのエラー情報を
受け取り、画面に表示する情報機器であり、例えば出力
装置とから構成される。
【0019】次に図1の装置を利用した例と装置の動作
例を図2のソフトウエアで実現した場合のフローチャー
トで示す。
【0020】例えば、リアルタイムOSを使用した一例
を示す。
【0021】まず始めに、310でタスクレベルが最下
位のタスクを生成する。タスクレベルが最下位としたの
は、MPU110がアイドル時間にある時は、310で生成し
たタスクへ処理を渡し、再開タスクを実行させるためで
ある。
【0022】次に、主記憶エラー管理機構120より主
記憶メモリ容量を取得する320。次に330において
主記憶エラー管理機構を用いて実装メモリの開始位置を
取得する。本タスクが、実装メモリの開始位置からEC
C機構170経由で主記憶のメモリ容量分のデータを読
み込み、メモリの修復を行う。
【0023】次にブロック340は、動作350〜48
0を無限に繰り返す。ブロック350〜480処理では、
実装容量のページをページ毎にメモリの修復とメモリの
診断を行い、MPU110がアイドル時間になる時は常にメモ
リの修復診断処理が行われる。
【0024】次に、350で指定回数のページの読み出
し360〜370を指定回数繰り返す。
【0025】ブロック370では、メモリのデータをE
CC機構170を経由して読み込み、メモリの修復を行
う。360では、メモリ修復動作をページ分繰り返す。
ECC機構170を通過してメモリデータを読み込むの
で、1ビットエラーが発生すれば、主記憶エラー管理機
構120にエラー情報が蓄積される。380〜400で
は、エラー回数記録手段により主記憶エラー管理機構1
20からエラー回数を取得し、取得したエラー回数を格
納する。410では、1ページ分のエラー回数を指定回
数記録するために主記憶エラー管理機構120のエラー
回数をクリアする。
【0026】指定回数ページの読み込みが終わると次
に、ページのメモリ診断を行うために420で格納した
エラー回数よりエラー回数の増加を分析する。
【0027】ブロック430で予め設定した基準値と4
20で分析した増加を比較し、ブロック420で分析し
た増加が基準値以内であれば、次の処理に移る。基準値
以上であれば、読み込みを繰り返したページは、2ビッ
トエラー発生の危険性があると判断する。
【0028】2ビットエラー発生の危険性があると判断
したページは、440で別物理アドレスのページを割り
与える。すなわち、ブロック450で空きエリアをサー
チし、460で空きエリアへデータをコピーする。これ
により、2ビットエラー発生の危険性が高い領域を別メ
モリに移し換えることが可能となり、装置のダウンタイ
ムを抑制しかつ装置の稼働率向上が期待出来る。
【0029】次にブロック470でメモリのエラー情報
を画面に表示する。これにより、メモリの異常を画面表
示することで情報機器上でメモリの診断を可能とするこ
とができる。
【0030】次にこの手順と同様のことを次のページに
対しても実行する。これにより、全領域にわたったメモ
リ修復と診断が実現出来る。
【0031】
【発明の効果】メモリデータの読み出しは、MPUのア
イドル時間を利用して実行され、全メモリ空間に対し読
み出しを行いECC機構を通してメモリデータチェック
を行う。このように常時1ビットメモリエラー修復を行
うので1ビットメモリエラーの増大を防ぎ、かつ2ビッ
トメモリエラーの発生を抑制することで2ビットメモリ
エラーによるシステムダウンの発生を抑制することがで
きる。
【0032】しかも、1ビットメモリエラーの発生場所
と1ビットメモリエラーの発生回数を記録し、メモリ空
間における特定範囲の1ビットメモリエラー発生増加分
析を行えるようにした。この分析値と許容増加値との比
較を行い、2ビットメモリエラーによるシステムダウン
の予知とそのシステムダウンにつながる危険性を持つ特
定範囲(メモリエリア)には別メモリアドレスを割り与
えデータを書き移すことで2ビットメモリエラーによる
システムダウンの発生を抑制することができる。さら
に、メモリの異常を画面表示することで情報機器上でメ
モリの診断を可能とすることができる。
【図面の簡単な説明】
【図1】本発明のメモリ修復診断のシステムのブロック
図。
【図2】図1のフローチャート。
【図3】従来メモリ修復方式のブロック図。
【符号の説明】
110…演算処理装置、120…主記憶管理機構、13
0…メモリ構成情報、140…メモリエラー情報、15
0…バス、160…メモリコントローラ、170…ECC
機構、180…主記憶装置、190…メモリアクセス操
作手段、200…メモリエラー許容範囲診断手段、21
0…エラー回数記録手段、220…エラー回数増加分析
手段、230…許容増加規準比較手段、240…エラー
発生箇所特定手段、250…MMUアドレス置換手段、
260…変換テーブル。

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】演算処理装置と1ビットエラー修復機構を
    有するメモリコントローラと主記憶装置とこれらをつな
    ぐバスとからなるマイクロコンピュータシステムにおい
    て、上記主記憶装置のメモリ構成情報と、最新1ビット
    エラーのアドレスとエラー回数を検出し、これらをメモ
    リエラー情報として具備する主記憶エラー管理機構と、
    上記演算処理装置のアイドル時間を利用して、上記主記
    憶エラー管理機構から上記主記憶装置の上記メモリエラ
    ー情報を取得し、上記メモリ構成情報の実装開始アドレ
    スとメモリ容量に従いメモリ空間のデータを読み込むメ
    モリアクセス操作手段を設けたことを特徴とするメモリ
    エラー修復診断装置。
  2. 【請求項2】請求項1において、上記メモリアクセス操
    作手段の読み込みに対しエリア毎の主記憶エラー管理機
    構内メモリエラー情報より1ビットエラー回数の値を取
    得する1ビットエラー回数記録手段と、上記1ビットエ
    ラー回数記録よりエラー回数増加を分析するエラー回数
    増加分析手段と、上記エラー回数増加の値を予め設定し
    たエラー回数増加許容値と比較を行う許容増加規準比較
    手段と、この比較で許容範囲を越えたとき許容範囲を越
    えたメモリ空間のエリアを特定するエラー発生箇所特定
    手段とを具備するメモリエラー許容範囲診断手段を設け
    たメモリエラー修復診断装置。
  3. 【請求項3】請求項2において、上記メモリエラー許容
    範囲判断手段が許容範囲を超えたと判断した場合、許容
    範囲を超えた危険性のあるメモリ空間を別メモリアドレ
    スに書き換える変換テーブルを有するMMUアドレス置
    換手段を設けたメモリエラー修復診断装置。
  4. 【請求項4】請求項3において、どこのメモリ空間で許
    容範囲を超え、どこの別メモリアドレスに書き換えたか
    を情報機器に報告し、情報機器がこのメモリエラー情報
    を画面に表示することにより、情報機器上でメモリの診
    断を可能とするエラー報告手段を設けたメモリエラー診
    断装置。
JP8251192A 1996-09-24 1996-09-24 メモリエラー修復診断装置 Pending JPH1097473A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8251192A JPH1097473A (ja) 1996-09-24 1996-09-24 メモリエラー修復診断装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8251192A JPH1097473A (ja) 1996-09-24 1996-09-24 メモリエラー修復診断装置

Publications (1)

Publication Number Publication Date
JPH1097473A true JPH1097473A (ja) 1998-04-14

Family

ID=17219060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8251192A Pending JPH1097473A (ja) 1996-09-24 1996-09-24 メモリエラー修復診断装置

Country Status (1)

Country Link
JP (1) JPH1097473A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205212A (ja) * 2008-02-26 2009-09-10 Nec Corp メモリ障害処理システム、メモリ障害処理方法、及びメモリ障害処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009205212A (ja) * 2008-02-26 2009-09-10 Nec Corp メモリ障害処理システム、メモリ障害処理方法、及びメモリ障害処理プログラム

Similar Documents

Publication Publication Date Title
US7971112B2 (en) Memory diagnosis method
US4922491A (en) Input/output device service alert function
US20030145257A1 (en) Method and system for handling multiple bit errors to enhance system reliability
JPH0758474B2 (ja) デジタルデータ処理システムにおいて複数の構成要素の起こりそうな故障の一つを検出するエキスパートシステム
JP4387968B2 (ja) 障害検出装置および障害検出方法
US7574621B2 (en) Method and system for identifying and recovering a file damaged by a hard drive failure
US7139942B2 (en) Method and apparatus for memory redundancy and recovery from uncorrectable errors
GB2268295A (en) Detecting defective memory locations
CN113961478A (zh) 一种内存故障记录方法以及装置
JPH1097473A (ja) メモリエラー修復診断装置
JP7273669B2 (ja) ストレージシステム及びその制御方法
JP3342039B2 (ja) ファイルを管理する処理装置
JPH10302485A (ja) フラッシュ・メモリを有する情報処理装置
JP2868114B2 (ja) 監視診断機能付計算機
JP2806856B2 (ja) 誤り検出訂正回路の診断装置
JPH05181617A (ja) ディスクサブシステムの高信頼化方式
JPH01156834A (ja) チェック回路の診断装置
JPH0793225A (ja) メモリチェック方式
JPS60142759A (ja) Lru決定用記憶装置のエラ−検出方式
JP2878014B2 (ja) Ram試験方式
KR950015087A (ko) 메모리 진단장치 및 방법
JPH07261989A (ja) 制御プログラム復旧方式
CN117609024A (zh) 自动定位异常部件的方法、装置、电子设备及存储介质
JPH07306811A (ja) メモリ故障診断方法
JPH0254342A (ja) 論理装置の診断方式