JP2009015553A - 記憶装置およびプログラムおよびメモリ故障救済方法 - Google Patents

記憶装置およびプログラムおよびメモリ故障救済方法 Download PDF

Info

Publication number
JP2009015553A
JP2009015553A JP2007175812A JP2007175812A JP2009015553A JP 2009015553 A JP2009015553 A JP 2009015553A JP 2007175812 A JP2007175812 A JP 2007175812A JP 2007175812 A JP2007175812 A JP 2007175812A JP 2009015553 A JP2009015553 A JP 2009015553A
Authority
JP
Japan
Prior art keywords
area
memory
address
failure
movement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007175812A
Other languages
English (en)
Inventor
Arata Kondo
新 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007175812A priority Critical patent/JP2009015553A/ja
Publication of JP2009015553A publication Critical patent/JP2009015553A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Techniques For Improving Reliability Of Storages (AREA)
  • Debugging And Monitoring (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)

Abstract

【課題】記憶装置に搭載されるメモリが間欠的に故障し、その後、復旧し再現しない場合には継続して装置を使用し続け、かつ、ハードウェア要因の故障も検出する。
【解決手段】メモリのプログラム領域およびデータ領域をそれぞれ複数の領域に分割すると共に管理領域および予備領域を備え、プログラム領域およびデータ領域の複数に分割した領域のそれぞれについてメモリの正常性を確認し、メモリの異常を検出した回数をそれぞれの領域について記録し、記録された回数が閾値を越えた領域が有るときにはメモリの障害発生と判断し、記録された回数が閾値以下の領域についてはその領域に格納されている情報を予備領域に移動させると共に当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、この移動回数が閾値を越えたときにもメモリの障害発生と判断する。
【選択図】図1

Description

本発明は、メモリの異常検出に利用する。特に、一時的で軽微なメモリ異常についてはメモリを継続使用するメモリ故障救済方法に関する。
記憶装置に搭載されたファームウェアによりメモリの故障を検出した場合に、その対応方法として、故障部位の交換、故障部位の非使用化、または、被疑箇所が特定できる場合は修理などの対応方法があるが、その場で被疑箇所が特定できない場合には、故障部位交換後に故障被疑箇所調査を実施しても、問題が再現せず故障原因や被疑箇所が不明となる場合が多い。
また、昨今のメモリは超微細なゲート間隔となっているため、外部からの電磁波等の影響により間欠的にリーク電流が発生することがあり、それが原因でメモリ故障を検出することがあるが、このような場合には、一時的なメモリ故障に留まるため、メモリ内の他の箇所が誘発して故障する可能性は低いので、メモリ故障個所を非使用化することにより、継続してメモリを使用することが可能であると考えられる。
しかしながら、従来、メモリチェックを行う際、メモリの正常性確認を行い、メモリ異常を検出した場合は障害通知を行うなどの方法で、ハードウェア交換を含む物理的な対処が必要であった。
さらに、メモリにパリティビットを付与してハードウェア的にメモリ故障を検出するアルゴリズムの場合は、そのメモリ故障がハードウェア的に故障し他の部位にも波及するものなのか、間欠故障のため他の部位に波及しないものなのかを検出できないため、一様に障害とする必要があり、ハードウェア的な交換を行う必要があった。
図12に従来のメモリの構成を示す。従来のメモリ40は大きくプログラム領域41とデータ領域42とに分けられている。図13に従来のメモリチェック処理を示す。従来のメモリチェック処理は、メモリの正常性確認処理(S30)と、その処理結果からメモリが正常か否かを判断する処理(S31)と、メモリが異常だった場合にメモリ障害を検出する処理(S32)とを備えている。
従来のメモリチェック処理では、メモリ正常性確認処理によりメモリが異常と検出された場合には、その異常原因が一時的な間欠故障なのか、物理的に故障しておりハードウェア交換以外に復旧方法が無いのかを判断できない。そのため、メモリ異常の原因が間欠的なもの、部分的なものに限られていても、装置全体の障害として検出してしまいハードウェア交換などが必要であった。
このような課題を解決するために、一時的なメモリの間欠故障が発生した場合に、それをハードウェア交換により解決するのではなく、ファームウェア処理によりメモリを復旧させることで解決する方法が提案されている(例えば、特許文献1〜4参照)。
再特WO2001022232号公報 特開2004−310770号公報 特開平11−175409号公報 特表2001−501000号公報
上記特許文献1〜4の方法は、一時的で軽微なメモリ異常が発生した場合には、そのメモリ領域毎に発生回数をカウントしておき、発生回数が閾値を越えた場合には、そのメモリ領域に記憶されている内容を予備のメモリ領域に複写し、複写元のメモリ領域を非使用にするというものである。
これによれば、一時的で軽微なメモリ異常についてはハードウェア交換をせずにそのまま継続使用できる利点がある。しかしその一方で、このまま継続使用することに何ら問題がないのか、あるいは、このまま継続使用することは可能ではあるが、なるべく近い内にハードウェア交換した方が良い状態であるのかなどの詳細な分析は行っていない。これにより、ハードウェア交換を行うべき適切な時期を見落とす可能性が否めなかった。
本発明は、このような課題を解決するために行われたものであって、記憶装置に搭載されるメモリが間欠的に故障し、その後、復旧して再現しない場合には継続して装置を使用し続けることができ、かつ、ハードウェア要因の故障とファームウェア原因の故障とを分けて判定することができる記憶装置およびプログラムおよびメモリ故障救済方法を提供することを目的とする。
本発明は、プログラム領域とデータ領域とを有するメモリを備えた記憶装置であって、本発明の特徴とするところは、前記メモリのプログラム領域およびデータ領域をそれぞれ複数の領域に分割すると共に管理領域および予備領域を備え、プログラム領域およびデータ領域の複数に分割した領域のそれぞれについてメモリの正常性を確認するメモリ正常性確認処理手段と、このメモリ正常性確認処理手段がメモリの異常を検出した回数をそれぞれの領域について記録するメモリ異常カウント手段と、このメモリ異常カウント手段に記録された回数が閾値を越えた領域が有るときにはメモリの障害発生と判断する障害検出手段と、前記メモリ異常カウント手段に記録された回数が閾値以下の領域についてはその領域に格納されている情報を予備領域に移動させると共に当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録するメモリ故障救済処理手段とを備え、前記障害検出手段は、前記移動回数が閾値を越えたときにもメモリの障害発生と判断するところにある。
また、本発明は、汎用の記憶装置にインストールすることにより、その汎用の記憶装置に、本発明の記憶装置における前記メモリ正常性確認処理手段、前記メモリ異常カウント手段、前記障害検出手段、前記メモリ故障救済処理手段、前記取得する手段に相応する機能を有するファームウェアを実現させるプログラムとしての観点から観ることもできる。
また、本発明は、プログラム領域とデータ領域とを有するメモリを備えた記憶装置が行うメモリ故障救済方法としての観点から観ることもできる。これによれば、本発明は、前記メモリのプログラム領域およびデータ領域をそれぞれ複数の領域に分割すると共に管理領域および予備領域を備え、プログラム領域およびデータ領域の複数に分割した領域のそれぞれについてメモリの正常性を確認し、メモリの異常を検出した回数をそれぞれの領域について記録し、記録された回数が閾値を越えた領域が有るときにはメモリの障害発生と判断し、記録された回数が閾値以下の領域についてはその領域に格納されている情報を予備領域に移動させると共に当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、前記移動回数が閾値を越えたときにはメモリの障害発生と判断することを特徴とするメモリ故障救済方法である。
第一の効果は、メモリのハードウェア交換頻度を低減できることにある。その理由は、メモリのハードウェア交換をせずに、メモリ内の領域の交換を実施することで、メモリ故障が他の領域に影響を与えるか否かの確認を行って、他の箇所にも障害があることが判明してから装置としての障害を検出するためである。
第二の効果は、ハードウェアの設計変更をすることなく、本発明のアルゴリズムを起用したファームウェアへの更新でメモリ故障を低減できることにある。その理由は、本発明がファームウェアによるアルゴリズムのみで提案しているためである。
第三の効果は、ハードウェア要因によるメモリ障害の検出回数と、ファームウェア要因によるメモリ障害の検出回数とを分けて閾値判定させることができるため、障害を検出した場合でもその後の調査が容易になることである。
本発明の実施形態の記憶装置を図1を参照して説明する。図1は本実施形態の記憶装置の構成図である。
本実施形態の記憶装置は、図1に示すように、プログラム領域11とデータ領域12とを有するメモリ10を備え、メモリ10のプログラム領域11およびデータ領域12をそれぞれ複数の領域に分割すると共に管理領域13および予備領域14を備え、プログラム領域11およびデータ領域12の複数に分割した領域のそれぞれについてメモリ10の正常性を確認するメモリ正常性確認処理部1と、このメモリ正常性確認処理部1がメモリの異常を検出した回数をそれぞれの領域について記録するメモリ異常カウント部2と、このメモリ異常カウント部2に記録された回数が閾値を越えた領域が有るときにはメモリ10の障害発生と判断する障害検出部3と、メモリ異常カウント部2に記録された回数が閾値以下の領域についてはその領域に格納されている情報を予備領域14に移動させると共に当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録するメモリ故障救済処理部4とを備え、障害検出部3は、前記移動回数が閾値を越えたときにもメモリ10の障害発生と判断することを特徴とする。なお、以下では、この移動回数を無効回数カウンタ値と呼ぶ。
管理領域13は、メモリ異常カウント部2によるカウンタ値が記録される。また、メモリ故障救済処理部4による無効回数カウンタ値および予備領域アドレスが記録される。
なお、図1に示すメモリ正常性確認処理部1、メモリ異常カウント部2、障害検出部3、メモリ故障救済処理部4は、ファームウェアの有する機能として実現される。また、当該ファームウェアは、汎用の記憶装置にインストールすることにより、その汎用の記憶装置に、本実施形態の記憶装置におけるメモリ正常性確認処理部1、メモリ異常カウント部2、障害検出部3、メモリ故障救済処理部4などに相応する機能を有するファームウェアを実現させるプログラムによって実現することができる。
このプログラムは記録媒体に記録されることにより、前記汎用の記憶装置は、この記録媒体を用いてこのプログラムをインストールすることができる。あるいは、このプログラムを保持するサーバからネットワークを介して直接前記汎用の記憶装置にこのプログラムをインストールすることもできる。
これにより、汎用の記憶装置を用いて、本実施形態の記憶装置の機能に相応する機能を実現することができる。
なお、このプログラムは、汎用の記憶装置によって直接実行可能なものだけでなく、ハードディスクなどにインストールすることによって実行可能となるものも含む。また、圧縮されたり、暗号化されたりしたものも含む。
このように、本実施形態の記憶装置では、図1に示すように、プログラム領域11とデータ領域12とに大きく2種に分けられていたメモリ領域を、複数の領域に分割して設定する。その上で、分割して設定したメモリの一部が故障した場合に、分割した領域単位で予備領域と機能を交換することにより、メモリの部分故障や間欠故障を救済する。
すなわち、プログラム領域11とデータ領域12と管理領域13と予備領域14とが等間隔に分割されて定義されている。このように分割してメモリを定義することで、プログラム領域11やデータ領域12でメモリ異常を検出した場合に、その領域単位で予備領域14と機能を交換することにより、メモリ故障を救済することができる。
また、管理領域13は、プログラム領域11およびデータ領域12の各メモリ領域が有効であるか無効であるかの管理やメモリ故障により予備領域と機能が交換されているか否か、および、移動先の予備領域14のアドレスを管理している。
本処理により、障害領域を使用しないで済むため、メモリ10の部分故障が起きた際、ハードウェア交換をせずにメモリを使用し続けることができる。さらに、ハードウェア要因によるメモリ障害の検出回数と、ファームウェア要因によるメモリ障害の検出回数とを分けて閾値判定させることができるため、障害を検出した場合でもその後の調査が容易になる。
(第一実施例)
本発明の第一実施例について図面を参照して詳細に説明する。図2を参照すると、不揮発データ記憶部20と演算機21と外部メモリ23とを有する装置30があり、演算機21は内部メモリ22を有する。装置30は各種IF24を介して外部25と接続されている。不揮発データ記憶部20および外部メモリ23は演算機21と接続されている。
本実施例は、図2で定義されている内部メモリ22および外部メモリ23でのメモリ故障について救済を行う。すなわち、内部メモリ22および外部メモリ23は、上述した図1の本実施形態の記憶装置により構成されている。
図3に、図2で定義される内部メモリ22および外部メモリ23の構成を示す。図3に示すように、メモリ10はプログラム領域11、データ領域12、管理領域13−1、予備領域14で構成されている。プログラム領域11、データ領域12、および、予備領域14は、それぞれ同じサイズに区切られた領域で構成されている。
プログラム領域11はプロセッサを動作させるためのプログラム等を格納しており、データ領域12はプログラム内の各処理が使用するデータ・パラメータ等を格納している。
図4に、管理領域13−1に格納されている各領域のアドレスに対応する管理パラメータの概要を示す。図4に示すように、ある領域aに対応する管理領域13−1には「無効回数カウンタ値」および「予備領域アドレス」が格納されている。
管理領域13−1は、図4に示す管理パラメータをメモリ上のプログラム領域11、データ領域12、予備領域14の分のリスト形式で格納したものと、メモリ異常カウンタ値とを格納している。
図5に本実施例でのメモリチェック処理のフローを示す。この処理は、メモリ10の障害を検出し、その障害がハードウェア交換を必要とするか否かを判断する。メモリチェック処理は、ハードウェア交換が必要な場合はメモリ障害を検出し、ハードウェア交換が必要ではない場合はメモリの故障を救済する「メモリ故障救済処理」をコールする。
すなわち、図1に示すメモリ正常性確認処理部1によりメモリ10のプログラム領域11およびデータ領域12の各分割された領域毎にメモリ正常性確認処理(S1)を行う。いずれかの領域が正常ではないときには(S2)、その領域についてのメモリ異常カウンタ値に“1”を加算する(S3)。これは、メモリ故障救済処理にて、使用するメモリ領域が移動し、故障領域に格納されていたメモリ機能が救済された後、別の領域で再度メモリ故障が繰り返す場合など、メモリ全体で起きたメモリ異常の延べ回数を検出するためのものである。
このとき、メモリ異常カウンタ値が閾値より大きければ(S4)、障害検出部3は、メモリ障害検出(S5)として障害通知を行う。また、メモリ異常カウンタ値が閾値以下であれば(S4)、メモリ故障救済処理をコールする(S6)。
ここで、閾値以下の場合にメモリ故障救済処理をコールすると説明したが、例えば、閾値が“3”に設定されていた場合には、閾値が“1”、“2”、“3”のいずれの時点であってもメモリ故障救済処理をコールすることができることになる。このような場合に、いずれの時点でメモリ故障救済処理をコールするかはメモリ10の設置環境に応じて管理者が適宜設定すればよい。
例えば、一時的に軽微なメモリ異常が頻発するが直ぐに正常に復旧するような設置環境下であるならば最大値“3”になった時点でメモリ故障救済処理をコールするように設定すればよい。あるいは、1回でもメモリ異常が発生した場合には安全性を重視して直ちにメモリ故障救済処理をコールしたいならば最小値“1”になった時点でメモリ故障救済処理をコールするように設定すればよい。
本処理では、図3で示すプログラム領域11、データ領域12、予備領域14の全ての領域で起きたメモリ障害の延べ回数をカウントし、その回数を閾値判定しメモリ障害を検出している。そのため、外的要因でのメモリ故障など、メモリの部位に左右されないメモリ障害や、ファームウェアがメモリ障害を誤検出している場合や、ファームウェアがメモリ破壊をしている場合などのように内部要因によるメモリ障害を、分けて検出することができる。
図6に本実施例でのメモリ故障救済処理のフローを示す。この処理は、メモリ故障を検出した領域を非使用化し、予備領域14に機能を移す機能を持つ。すなわち、図5のフローのステップS6においてメモリ故障救済処理がコールされたときには、メモリ故障救済処理部4は、無効回数カウンタ値を“1”加算する(S10)。無効回数カウンタ値は、それぞれの領域についてメモリ故障救済処理がコールされた回数を示し、同時に予備領域14への移動回数を示す。
無効回数カウンタ値が閾値よりも大きければ(S11)、障害検出部3は、障害通知を行う。また、無効回数カウンタ値が閾値以下であれば(S11)、予備領域14のアドレスを障害検出元の「予備領域アドレス」に設定する(S12)。
障害検出元のメモリ領域に格納されている情報を予備領域14にコピーする(S13)。障害検出元のメモリ領域の「無効回数カウンタ値」を、予備領域の「無効回数カウンタ値」に設定する(S14)。
メモリ救済処理は、図5のメモリチェック処理でメモリ異常を検出した場合に、その領域に対応する管理領域(例えば図3の「a」でメモリ異常検出した場合それに対応する管理領域の「アドレス“a”に対応」するパラメータ)の「無効回数カウンタ値」を“1”加算する。その後、無効回数カウンタが閾値以下の場合は、メモリの救済を実施する。
本処理により、障害が発生した領域では「予備領域アドレス」が初期値から実アドレスへ設定されるので「予備領域アドレス」が初期値か設定済みかを判断することで、その領域が有効であるか否かの判断をすることができる。
本処理により、障害が発生した領域の代わりとして取得された予備領域14でも障害を検出した場合には、予備領域14の「無効回数カウンタ値」は障害検出元の「無効回数カウンタ値」をさらにカウントアップした値が設定されることになる。これは、同じ機能を持つメモリ領域で検出した障害の延べ回数を示すことになるので、ファームウェア不具合のように同一処理によるメモリ破壊などが障害の要因となっている場合など、メモリに格納されている機能に依存するメモリ障害を検出することができる。
図7に本実施例でのメモリ読み出し処理のフローを示す。この処理は、図6で説明したメモリ故障救済処理により故障領域のメモリ機能が予備領域14に移された場合に、移動先のメモリから情報を読み取る機能を持つ。
すなわち、メモリを読み出すときには、読み出し先のメモリアドレスを取得し(S20)、そのメモリアドレスに対応する管理領域13−1を参照する(S21)。このときに、予備領域アドレスが未設定であれば(S22)、取得したアドレスからデータを読み出す(S25)。また、予備アドレスが設定済みであれば(S22)、メモリアドレスを予備領域アドレスに読み替えて(S23)、メモリを読み出す(S24)。
このように本実施例では、図5に示す処理により、メモリ故障を検出し、図6に示す処理により、メモリの故障部位に格納されている機能を救済し、図7に示す処理により、救済されたメモリの機能を使用する。
すなわち本実施例では、メモリチェック処理での「メモリ異常カウンタ値」閾値判定と、メモリ救済処理での「無効回数カウンタ値」閾値判定の2種類の判定を行うことで「メモリ異常カウンタ値」閾値判定では、メモリ全体で起きたメモリ障害を検出し、「無効回数カウンタ値」閾値判定では、機能に依存したメモリ障害を検出することができる。
そのため、外的要因やハードウェアの故障などメモリ内に格納されている機能に依存しないメモリ障害を「メモリ異常カウンタ値」閾値判定で検出し、ファームウェア不具合などのようにメモリの機能に依存したメモリ障害を「無効回数カウンタ値」閾値判定で検出することができる。
一方で、ハードウェア故障でもファームウェア不具合でもないメモリ故障(例えば間欠的な故障)は、メモリ全体で頻発するわけではないので「メモリ異常カウンタ値」閾値判定で検出されず、また、ファームウェアに依存することも無いので「無効回数カウンタ値」閾値判定でも検出されない。このことから、間欠的故障を本実施例のメモリ救済処理で救うことができるため、無用な障害検出やハードウェア交換を回避することができる。
(第二実施例)
本発明の第二実施例のメモリについて図8を参照して説明する。図8の例では、分割したメモリ領域の各領域の先頭に管理領域13−2をそれぞれ設定し、その管理領域13−2の中に、無効回数カウンタ値と予備領域アドレスとを設定している。実施例の動作の説明は、第一実施例の動作の説明と同様になるので省略する。
図9に本実施例での管理領域13−2を拡大したものを示す。各プログラム領域11およびデータ領域12内の先頭部に管理領域13−2を設定し、その中に、無効回数カウンタ値と予備領域アドレスとを設定している。
(第三実施例)
本発明の第三実施例のメモリについて図10を参照して説明する。図10の例では、各領域に設定する管理領域13−3に無効回数カウンタ値を設けていない。本実施例では、予備領域のアドレスが設定されているか否かを基に、対象となる領域が有効であるか否かを判断し、予備領域14のアドレスが設定されている場合に、領域が無効と判断されて予備領域14を参照することとなる。
図11に本実施例での管理領域13−3を拡大したものを示す。各プログラム領域11およびデータ領域12内の先頭部に管理領域13−3を設定し、その中に、予備領域アドレスを設定している。
すなわち、他実施例において無効回数カウンタ値によって示される情報の移動回数については情報の移動元の領域のアドレスに対応する移動先の予備領域のアドレスを順次検索することにより取得する。
例えば、図10の例で、プログラム領域11の領域♯1の情報が予備領域14の領域♯nにコピーされて移動した時点で他実施例における無効回数カウンタ値は“1”となる。また、予備領域14の領域♯nに移動した情報が再度、予備領域14の領域♯(n+1)にコピーされて移動した場合には他実施例における無効回数カウンタ値は“2”となる。
本実施例では、無効回数カウンタ値の設定を行わないが
領域♯1→領域♯n→領域♯ (n−1)
と情報の移動履歴を検索することにより無効回数カウンタ値に相応する値を取得する。これによれば、管理領域13−3に割当てるメモリ量を他実施例と比較して少なくすることができる利点がある。
(第四実施例)
図6で説明した障害検出元のメモリ領域に設定されている情報を予備領域14にコピーする処理で、障害検出元のデータが既に破壊されている場合は、図2に示す不揮発データ記憶部20からデータのコピーを行うことができる。
本発明によれば、メモリのハードウェア交換頻度を低減でき、また、ハードウェアの設計変更をすることなく、本発明のアルゴリズムを起用したファームウェアへの更新でメモリ故障を低減でき、また、ハードウェア要因によるメモリ障害の検出回数と、ファームウェア要因によるメモリ障害の検出回数とを分けて閾値判定させることができるため、障害を検出した場合でもその後の調査が容易になるので、メモリの運用効率の改善に利用することができる。
本発明の実施形態の記憶装置の構成図。 本発明の実施形態の記憶装置が適用される装置の例を示す図。 第一実施例のメモリ構成を示す図。 第一実施例のメモリ構成における管理領域を示す図。 第一実施例のメモリチェック処理のフローチャート。 第一実施例のメモリ故障救済処理のフローチャート。 第一実施例のメモリ読み出し処理のフローチャート。 第二実施例のメモリ構成を示す図。 第二実施例のメモリ構成における管理領域を示す図。 第三実施例のメモリ構成を示す図。 第三実施例のメモリ構成における管理領域を示す図。 従来のメモリ構成を示す図。 従来のメモリチェック処理のフローチャート。
符号の説明
1 メモリ正常性確認処理部
2 メモリ異常カウント部
3 障害検出部
4 メモリ故障救済処理部
10、40 メモリ
11、41 プログラム領域
12、42 データ領域
13、13−1〜3 管理領域
14 予備領域
15 メモリ異常カウンタ値
20 不揮発データ記憶部
21 演算機
22 内部メモリ
23 外部メモリ
24 各種IF
25 外部
30 装置

Claims (9)

  1. プログラム領域とデータ領域とを有するメモリを備えた記憶装置において、
    前記メモリのプログラム領域およびデータ領域をそれぞれ複数の領域に分割すると共に管理領域および予備領域を備え、
    プログラム領域およびデータ領域の複数に分割した領域のそれぞれについてメモリの正常性を確認するメモリ正常性確認処理手段と、
    このメモリ正常性確認処理手段がメモリの異常を検出した回数をそれぞれの領域について記録するメモリ異常カウント手段と、
    このメモリ異常カウント手段に記録された回数が閾値を越えた領域が有るときにはメモリの障害発生と判断する障害検出手段と、
    前記メモリ異常カウント手段に記録された回数が閾値以下の領域についてはその領域に格納されている情報を予備領域に移動させると共に当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録するメモリ故障救済処理手段と
    を備え、
    前記障害検出手段は、前記移動回数が閾値を越えたときにもメモリの障害発生と判断する
    ことを特徴とする記憶装置。
  2. 前記管理領域を前記メモリの中に一元的に設け、各領域に関する前記異常を検出した回数および前記情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録する請求項1記載の記憶装置。
  3. 前記管理領域を領域毎にそれぞれ設け、自己の領域に格納されている情報について当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、
    前記異常を検出した回数については前記メモリの中に別途領域を設けて一元的に記録する
    請求項1記載の記憶装置。
  4. 前記管理領域を領域毎にそれぞれ設け、自己の領域に格納されている情報について当該情報の移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、
    前記異常を検出した回数については前記メモリの中に別途領域を設けて一元的に記録し、
    前記情報の移動回数については前記情報の移動元の領域のアドレスに対応する移動先の予備領域のアドレスを順次検索することにより取得する手段を備えた
    請求項1記載の記憶装置。
  5. 汎用の記憶装置にインストールすることにより、その汎用の記憶装置に、請求項1ないし4のいずれかに記載の記憶装置における前記メモリ正常性確認処理手段、前記メモリ異常カウント手段、前記障害検出手段、前記メモリ故障救済処理手段、前記取得する手段に相応する機能を有するファームウェアを実現させるプログラム。
  6. プログラム領域とデータ領域とを有するメモリを備えた記憶装置が行うメモリ故障救済方法において、
    前記メモリのプログラム領域およびデータ領域をそれぞれ複数の領域に分割すると共に管理領域および予備領域を備え、
    プログラム領域およびデータ領域の複数に分割した領域のそれぞれについてメモリの正常性を確認し、
    メモリの異常を検出した回数をそれぞれの領域について記録し、
    記録された回数が閾値を越えた領域が有るときにはメモリの障害発生と判断し、
    記録された回数が閾値以下の領域についてはその領域に格納されている情報を予備領域に移動させると共に当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、
    前記移動回数が閾値を越えたときにはメモリの障害発生と判断する
    ことを特徴とするメモリ故障救済方法。
  7. 前記管理領域を前記メモリの中に一元的に設け、各領域に関する前記異常を検出した回数および前記情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録する請求項6記載のメモリ故障救済方法。
  8. 前記管理領域を領域毎にそれぞれ設け、自己の領域に格納されている情報について当該情報の移動回数および移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、
    前記異常を検出した回数については前記メモリの中に別途領域を設けて一元的に記録する
    請求項6記載のメモリ故障救済方法。
  9. 前記管理領域を領域毎にそれぞれ設け、自己の領域に格納されている情報について当該情報の移動元の領域のアドレスに対応する移動先の予備領域のアドレスをそれぞれ記録し、
    前記異常を検出した回数については前記メモリの中に別途領域を設けて一元的に記録し、
    前記情報の移動回数については前記情報の移動元の領域のアドレスに対応する移動先の予備領域のアドレスを順次検索することにより取得する
    請求項6記載のメモリ故障救済方法。
JP2007175812A 2007-07-04 2007-07-04 記憶装置およびプログラムおよびメモリ故障救済方法 Pending JP2009015553A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007175812A JP2009015553A (ja) 2007-07-04 2007-07-04 記憶装置およびプログラムおよびメモリ故障救済方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007175812A JP2009015553A (ja) 2007-07-04 2007-07-04 記憶装置およびプログラムおよびメモリ故障救済方法

Publications (1)

Publication Number Publication Date
JP2009015553A true JP2009015553A (ja) 2009-01-22

Family

ID=40356387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007175812A Pending JP2009015553A (ja) 2007-07-04 2007-07-04 記憶装置およびプログラムおよびメモリ故障救済方法

Country Status (1)

Country Link
JP (1) JP2009015553A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10372558B2 (en) 2016-05-02 2019-08-06 Samsung Electronics Co., Ltd. Storage device, an operating method of the storage device and an operating method of a computing system including the storage device and a host device
US10445200B2 (en) 2016-05-02 2019-10-15 Samsung Electronics Co., Ltd. Storage device having various recovery methods and recovery modes

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10372558B2 (en) 2016-05-02 2019-08-06 Samsung Electronics Co., Ltd. Storage device, an operating method of the storage device and an operating method of a computing system including the storage device and a host device
US10445200B2 (en) 2016-05-02 2019-10-15 Samsung Electronics Co., Ltd. Storage device having various recovery methods and recovery modes

Similar Documents

Publication Publication Date Title
US7774651B2 (en) System and method to detect errors and predict potential failures
JP5052193B2 (ja) 記憶制御装置および記憶制御方法
JP4387968B2 (ja) 障害検出装置および障害検出方法
US9990245B2 (en) Electronic device having fault monitoring for a memory and associated methods
CN102135925B (zh) 用于检测错误检查和纠正内存的方法和装置
WO2017215377A1 (zh) 内存硬错误的处理方法及装置
CN111104238B (zh) 一种基于ce的内存诊断的方法、设备及介质
JP5451087B2 (ja) 障害処理装置および方法
US7506224B2 (en) Failure recovering method and recording apparatus
JP2009015553A (ja) 記憶装置およびプログラムおよびメモリ故障救済方法
JP4012420B2 (ja) 磁気ディスク装置及びディスク制御装置
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
JP7057168B2 (ja) 故障検出装置および故障解析方法
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
US20100169572A1 (en) Data storage method, apparatus and system for interrupted write recovery
CN114461436A (zh) 一种内存故障处理方法、装置及计算机可读存储介质
CN112084097A (zh) 一种磁盘告警方法及装置
CN112562774B (zh) 存储设备挂载方法、装置、计算机设备和存储介质
CN111610778B (zh) 一种提高工控系统稳定性的自适应监测系统
JP2014093012A (ja) ディスクアレイコントローラ、方法、及び、プログラム
JP2009175818A (ja) 稼働監視によるシステム内のハードディスクを交替するディスク管理方式
CN114816267A (zh) 一种存储设备的监控方法及系统
CN116610495A (zh) 数据库异常的恢复方法、存储介质及设备
CN117472623A (zh) 处理内存故障的方法、装置、设备及存储介质
KR20230060261A (ko) 네트워크 자동 복구 제어 장치 및 방법