JP2004038468A - Memory device and system with function to automatically fix software error, and method for automatically fixing software error - Google Patents
Memory device and system with function to automatically fix software error, and method for automatically fixing software error Download PDFInfo
- Publication number
- JP2004038468A JP2004038468A JP2002193523A JP2002193523A JP2004038468A JP 2004038468 A JP2004038468 A JP 2004038468A JP 2002193523 A JP2002193523 A JP 2002193523A JP 2002193523 A JP2002193523 A JP 2002193523A JP 2004038468 A JP2004038468 A JP 2004038468A
- Authority
- JP
- Japan
- Prior art keywords
- data
- memory
- error
- read
- redundant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Techniques For Improving Reliability Of Storages (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、ソフトエラー自動修復機能付メモリ装置及びシステム並びにソフトエラー自動修復方法に関し、特にソフトエラーをメモリ装置内で自動修復すると共に、必要な場合には外部サーバーにアクセスして自動修復することを可能とする、ソフトエラー自動修復機能付メモリ装置及びシステム並びにソフトエラー自動修復方法に関する。
【0002】
【従来の技術】
一般に、メモリが高集積化されメモリセルの面積が小さくなると、メモリセルの蓄積電荷量が低下していく。蓄積電荷量の低下に伴い、パッケージ材料や配線材料などに微量に含まれるウランやトリウムの放射線崩壊により放出されるα粒子、或いは宇宙空間からの中性子粒子などがメモリ中に侵入し、シリコンとの相互作用で発生した電子・正孔対がメモリセルで雑音となり一過性のエラーを起こし易くなってくる。このエラーは永久的なものでは無くメモリへの再書込みによって正常に戻るものであるため、「ソフトエラー」と呼ばれている。
【0003】
ソフトエラーと言えども、装置やシステムの誤動作を招く要因となるものであるため、ソフトエラーが起こった際の対策を充分行っておくことが重要となってきており、このようなソフトエラー対策の一例として、特開平10−049448号公報記載の「冗長化メモリのエラー訂正機構」が知られている。
【0004】
この公報では、メモリのソフトエラーの蓄積によってリカバリー不可能なエラーに発展することを防止し、信頼性の高い冗長化メモリを実現する技術が記載されている。
【0005】
【発明が解決しようとする課題】
上述した従来のソフトエラー対策の方式は、メモリ装置内で該ソフトエラーを自動修復できるようにはなっていない。
【0006】
そこで本発明の目的は、ソフトエラーをメモリ装置内で自動修復すると共に、必要な場合には外部サーバーにアクセスして自動修復することを可能とする、ソフトエラー自動修復機能付メモリ装置及びシステム並びにソフトエラー自動修復方法、を提供することにある。
【0007】
【課題を解決するための手段】
本発明のソフトエラー自動修復機能付メモリ装置は、CPU(CentralProcessing Unit:中央処理装置)とデータの記憶部としてのメモリ装置とを有する装置において、前記メモリ装置が、データを記憶保持すると共にデータのリード/ライトが可能な3個一組のメモリと、前記CPUの制御により前記メモリへのデータのリード/ライトを実行すると共に前記メモリ内に発生したソフトエラーなどの不具合の検出/修復を行うエラー検出制御回路と、を備えたことを特徴とする。
【0008】
また、前記メモリの各々は、前記メモリ装置を使用するユーザのデータを記憶するユーザデータ領域と、前記ユーザデータ領域に記憶されるデータのソフトエラー検出用冗長データを記憶する冗長データ領域とを備え、前記エラー検出制御回路は、前記CPUからのデータのライト要求に応じて前記メモリにデータを書込むメモリライト部と、前記CPUからのデータのリード要求に応じて前記メモリからデータを読み出すメモリリード部と、前記メモリリード部が前記メモリからデータをリードした際に該データにソフトエラーが発生していることを検出した場合に、該エラーの発生したデータの修復を行うエラー修復部とを備える、ことを特徴とする。
【0009】
さらに、前記メモリライト部は、前記CPUからアドレスを指定してライト要求されたデータを、3個のメモリの内の何れか1個のメモリの前記ユーザデータ領域内の該当アドレスにライトすると共に、該データの冗長データを生成し、該冗長データを前記メモリの前記冗長データ領域の該当アドレス対応部分にライトし、該データと該冗長データを、前記メモリの他の2個のメモリの該当アドレス対応部分にコピーして上書きする、ことを特徴とする。
【0010】
また、前記メモリリード部は、前記CPUからアドレスを指定してリード要求されたデータを、3個のメモリの内の何れか1個のメモリ(第1メモリ)の前記ユーザデータ領域内の該当アドレスからリードすると共に、該データの冗長データを前記メモリ(第1メモリ)の前記冗長データ領域の該当アドレス対応部分からリードし、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの第1の検査を行い、前記第1の検査の結果、該データにソフトエラー等の不具合が検出されなければ、該データを前記CPUに送出し、前記第1の検査の結果、該データにソフトエラー等の不具合が検出された場合には、該データのアドレスを前記エラー修復部に通知する、ことを特徴とする。
【0011】
さらに、前記エラー修復部は、前記メモリリード部から通知された前記アドレスのデータを、前記メモリリード部がリード済みのメモリ(第1メモリ)の他の2個の内の何れか1個のメモリ(第2メモリ)の前記ユーザデータ領域内の該当アドレスからリードすると共に、該データの冗長データを前記メモリ(第2メモリ)の前記冗長データ領域の該当アドレス対応部分からリードし、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの第2の検査を行い、前記第2の検査の結果、該データに不具合が検出されなければ、該データを前記メモリリード部に送出して前記メモリリード部が該データを前記CPUに送出し、さらに前記エラー修復部は、前記メモリ(第2メモリ)の該データと該冗長データを、前記メモリリード部がリード済みのメモリ(第1メモリ)の前記ユーザデータ領域と前記冗長データ領域とにライトし直すことにより、前記メモリリード部がリード済みのメモリ(第1メモリ)の修復を行う、ことを特徴とする。
【0012】
また、前記エラー修復部の前記第2の検査の結果、前記データに不具合が検出された場合には、前記エラー修復部は、前記アドレスのデータを、既にリードを行ったメモリ(第1メモリと第2メモリ)の他の1個のメモリ(第3メモリ)の前記ユーザデータ領域内の該当アドレスからリードすると共に、該データの冗長データを前記メモリ(第3メモリ)の前記冗長データ領域の該当アドレス対応部分からリードし、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの第3の検査を行い、前記第3の検査の結果、該データに不具合が検出されなければ、該データを前記メモリリード部に送出して前記メモリリード部が該データを前記CPUに送出し、さらに前記エラー修復部は、前記メモリ(第3メモリ)の該データと該冗長データを、前記第1メモリ及び前記第2メモリの前記ユーザデータ領域と前記冗長データ領域とにそれぞれライトし直すことにより、前記第1メモリと前記第2メモリの修復を行い、前記第3の検査の結果、該データに不具合が検出された場合には、前記メモリリード部に対してエラー修復不可能の旨を通知し前記メモリリード部が前記エラー修復不可能の旨を前記CPUに通知する、ことを特徴とする。
【0013】
本発明のソフトエラー自動修復機能付メモリシステムは、CPUとデータの記憶部としてのメモリ装置とを有する装置において、前記メモリ装置が、データを記憶保持すると共にデータのリード/ライトが可能な3個一組のメモリと、前記CPUの制御により前記メモリへのデータのリード/ライトを実行すると共に前記メモリ内に発生したソフトエラーなどの不具合の検出/修復を行うエラー検出制御回路とを備え、前記装置が、前記CPUに接続された無線通信を行うことが可能な無線インタフェース部と、前記CPUに接続された有線通信を行うことが可能な有線インタフェース部とを備え、前記エラー検出制御回路が前記メモリ内に発生したソフトエラーなどの不具合を修復できない場合には、前記CPUが前記無線インタフェース部或いは前記有線インタフェース部を起動して前記装置の外部に設置されているサーバーに接続し、前記サーバーが記憶保持するエラー修復用のデータを前記装置にダウンロードし、前記エラー修復用のデータを前記メモリに再ライトすることにより、前記メモリ内に発生したソフトエラーなどの不具合を修復する、ことを特徴とする。
【0014】
また、前記サーバーは、前記メモリ内に発生したソフトエラーなどの不具合の履歴を前記サーバー内部に記憶保持する、ことを特徴とする。
【0015】
本発明のソフトエラー自動修復方法は、データを記憶保持すると共にデータのリード/ライトが可能な3個一組のメモリを備えたメモリ装置におけるソフトエラー自動修復方法であって、前記メモリの各々を、前記メモリ装置を使用するユーザのデータを記憶するユーザデータ領域と前記ユーザデータ領域に記憶されるデータのソフトエラー検出用冗長データを記憶する冗長データ領域とに区分しておき、前記メモリに対してアドレスを指定してデータを書込むライト要求が出された場合には、ライト要求されたデータを、3個のメモリの内の何れか1個のメモリの前記ユーザデータ領域内の該当アドレスにライトすると共に、該データの冗長データを生成し、該冗長データを前記メモリの前記冗長データ領域の該当アドレス対応部分にライトし、該データと該冗長データを、前記メモリの他の2個のメモリの該当アドレス対応部分にコピーして上書きする、ことを特徴とする。
【0016】
また、アドレスを指定して前記メモリ内のデータを読み出すリード要求が出された場合には、リード要求されたデータを、3個のメモリの内の何れか1個のメモリ(第1メモリ)の前記ユーザデータ領域内の該当アドレスからリードすると共に、該データの冗長データを前記メモリ(第1メモリ)の前記冗長データ領域の該当アドレス対応部分からリードし、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの第1の検査を行い、前記第1の検査の結果、該データにソフトエラー等の不具合が検出されなければ、該データをエラーの無い正規のデータとして前記リード要求の要求元に送出し、前記第1の検査の結果、該データにソフトエラー等の不具合が検出された場合には、該データのアドレスをエラー修復手段に通知する、ことを特徴とする。
【0017】
さらに、前記エラー修復手段は、前記アドレスのデータを、リード済みのメモリ(第1メモリ)の他の2個の内の何れか1個のメモリ(第2メモリ)の前記ユーザデータ領域内の該当アドレスからリードすると共に、該データの冗長データを前記メモリ(第2メモリ)の前記冗長データ領域の該当アドレス対応部分からリードし、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの第2の検査を行い、前記第2の検査の結果、該データに不具合が検出されなければ、該データをエラーの無い正規のデータとして前記リード要求の要求元に送出し、さらに、前記メモリ(第2メモリ)の該データと該冗長データを、前記リード済みのメモリ(第1メモリ)の前記ユーザデータ領域と前記冗長データ領域とにライトし直すことにより、前記リード済みのメモリ(第1メモリ)の修復を行う、ことを特徴とする。
【0018】
また、前記エラー修復手段の前記第2の検査の結果、前記データに不具合が検出された場合には、前記エラー修復手段は、前記アドレスのデータを、既にリードを行ったメモリ(第1メモリと第2メモリ)の他の1個のメモリ(第3メモリ)の前記ユーザデータ領域内の該当アドレスからリードすると共に、該データの冗長データを前記メモリ(第3メモリ)の前記冗長データ領域の該当アドレス対応部分からリードし、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの第3の検査を行い、前記第3の検査の結果、該データに不具合が検出されなければ、該データをエラーの無い正規のデータとして前記リード要求の要求元に送出し、さらに、前記メモリ(第3メモリ)の該データと該冗長データを、前記第1メモリ及び前記第2メモリの前記ユーザデータ領域と前記冗長データ領域とにそれぞれライトし直すことにより、前記第1メモリと前記第2メモリの修復を行い、前記第3の検査の結果、該データに不具合が検出された場合には、前記リード要求の要求元に対してエラー修復不可能の旨を通知する、ことを特徴とする。
【0019】
さらに、前記エラー修復不可能の旨を通知された前記リード要求の要求元は、外部のサーバーに無線通信或いは有線通信によって接続し、前記サーバーが記憶保持するエラー修復用のデータをダウンロードし、前記エラー修復用のデータを前記メモリに再ライトすることにより、前記メモリ内に発生したソフトエラーなどの不具合を修復する、ことを特徴とする。
【0020】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0021】
図1は、本発明のソフトエラー自動修復機能付メモリシステムの一実施形態を示すブロック図である。
【0022】
図1に示す本実施の形態は、コンピュータプログラムやデータを記憶保持するメモリ装置80と、メモリ装置80にアクセスして計算・演算・制御などの処理を実行するCPU(Central Processing Unit:中央処理装置)35と、CPU35に接続された無線I/F(Interface:インタフェース)40と、CPU35に接続された有線I/F50と、を備える制御装置90と、コンピュータプログラムやデータを記憶保持し、これを要求により配信可能な機能を有する情報処理装置であるところのサーバー60と、から構成されている。
【0023】
制御装置90からサーバー60にアクセスを行う場合には、制御装置90の備える無線I/F40から、無線回線70と無線端末45と無線ネットワーク65を介してサーバー60にアクセスする方法と、或いは、制御装置90の備える有線I/F50から、有線ネットワーク55を介してサーバー60にアクセスする方法と、の二通りのアクセスルートが用意されている。
【0024】
すなわち、無線I/F40は、無線接続によって外部と通信する機能を備える通信インタフェース装置であり、有線I/F50は、有線接続によって外部と通信する機能を備える通信インタフェース装置である。
【0025】
制御装置90は、CPU35とメモリ装置80とを備える装置であれば、如何なる機能を有する装置であっても良く、例えば、通信装置や監視制御装置、パーソナルコンピュータや各種のサーバー、携帯電話や携帯端末、或いは、宇宙機器への搭載装置などであり、従って本実施の形態においては、これらの装置が備える周辺機器や入出力装置など、本発明に関連しない装置・機器については、図示を省略している。
【0026】
制御装置90の備えるメモリ装置80は、コンピュータプログラムやデータ(以下、これらを単にデータと称することとする)を記憶保持し、これらのデータをリード(読出し)/ライト(書込み)可能な、3個で一組のメモリ10−1、メモリ10−2、メモリ10−3と、該メモリ10へのデータのリード/ライトを行うと共に、該メモリ10内に発生したソフトエラーなどの不具合の検出/修復を行うエラー検出制御回路20と、から構成されている。
【0027】
次に、図2を参照して、本実施形態のメモリ装置80の詳細構成について説明する。
【0028】
図2は、本実施形態のメモリ装置の一例を示す詳細ブロック図である。なお、図2において図1に示す構成要素に対応するものは同一の参照数字または符号を付し、その説明を省略する。
【0029】
図2において、先ず、3個で一組のメモリ10の各々は、ユーザデータ領域11(11−1、11−2、11−3)と冗長データ領域12(12−1、12−2、12−3)とに区分されている。ユーザデータ領域11は、本メモリ装置80を使用するユーザが自由にアクセス可能な領域であり、CPU35の制御により自由にデータをリード/ライト可能な領域である。データのリード/ライトの単位は、本メモリ装置80の使用形態に応じて、如何様な単位のデータでも良く、例えばバイト単位、ワード単位、或いはレコード(複数バイト或いは複数ワードから構成される記憶の単位)単位とすることが可能である。
【0030】
冗長データ領域12は、メモリ10内に生ずるソフトエラー検出用の冗長データを記録する領域であり、ユーザが使用することは出来ない領域である。冗長データ領域12に記録される冗長データは、本メモリ装置80の使用形態に応じて、如何様な冗長データとすることも可能である。例えば、ユーザデータ領域11のバイト毎に対応する1ビットのパリティビットであっても良いし、ユーザデータ領域11のバイト毎、ワード毎、或いはレコード(複数バイト或いは複数ワードから構成される記憶の単位)毎に対応する複数ビットの誤り検出符号であっても良く、複数ビットの誤り訂正符号であっても良い。
【0031】
次に、エラー検出制御回路20は、CPU35からのデータのライト要求に応じてメモリ10にデータをライトするメモリライト部21と、CPU35からのデータのリード要求に応じてメモリ10からデータをリードするメモリリード部22と、メモリリード部22がデータをリードした際に、該データにソフトエラーが発生している場合には、該エラーの発生したデータの修復を行うエラー修復部23と、から構成されている。
【0032】
メモリライト部21は、ライト要求されたデータを、例えばメモリ10−1のユーザデータ領域11−1内の該当アドレスにライトすると共に、該データの冗長データを自動的に生成し、該冗長データを冗長データ領域12−1の該当アドレス対応部分にライトし蓄積する。そして、該データと該冗長データを、他の2つのメモリ10−2とメモリ10−3の該当アドレス対応部分にコピーして上書きする。すなわち、データのライト時点では、ライト要求されたデータと該データの冗長データとは、3つのメモリ10(10−1、10−2、10−3)内で同一となる。
【0033】
また、3つのメモリ10(10−1、10−2、10−3)にデータのライトを終了した時点で、該3つのメモリ10内に記憶保持されたデータの一致性を確認するようにすれば、より一層信頼性の高いデータの記憶保持を行うことが可能となる。
【0034】
メモリリード部22は、リード要求されたデータを、例えばメモリ10−1のユーザデータ領域11−1内の該当アドレスからリードすると共に、該データの冗長データを冗長データ領域12−1の該当アドレス対応部分からリードする。そして、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの検査を行う。
【0035】
検査の結果、該データにソフトエラー等の不具合が検出されなければ、該データにはエラーが無いので、これをCPU35に送出する。
【0036】
メモリリード部22による検査の結果、該データにソフトエラー等の不具合が検出された場合には、メモリリード部22は、該データのアドレスをエラー修復部23に通知する。
【0037】
エラー修復部23は、該アドレスのデータを、既にリードを行ったメモリ10−1からでなく、例えばメモリ10−2のユーザデータ領域11−2内の該当アドレスからリードすると共に、該データの冗長データを冗長データ領域12−2の該当アドレス対応部分からリードする。そして、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの検査を行う。検査の結果、該データに不具合が検出されなければ、該データ、すなわち、メモリ10−2からリードしたデータをメモリリード部22に送出する。さらに、エラー修復部23は、メモリ10−2の該データと該冗長データを、メモリ10−1のユーザデータ領域11−1と冗長データ領域12−1とにライトし直すことにより、メモリ10−1の修復を行う。
【0038】
エラー修復部23がメモリ10−2をリードした際、メモリ10−2からもエラーが検出された場合には、エラー修復部23は、該アドレスのデータを、既にリードを行ったメモリ10−1、10−2からでなく、メモリ10−3のユーザデータ領域11−3内の該当アドレスからリードすると共に、該データの冗長データを冗長データ領域12−3の該当アドレス対応部分からリードする。そして、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの検査を行う。検査の結果、該データに不具合が検出されなければ、該データ、すなわち、メモリ10−3からリードしたデータをメモリリード部22に送出する。さらに、エラー修復部23は、メモリ10−3の該データと該冗長データを、メモリ10−1及び10−2のユーザデータ領域11−1、11−2と冗長データ領域12−1、12−2とにライトし直すことにより、メモリ10−1、10−2の修復を行う。
【0039】
エラー修復部23が、メモリ10−2及びメモリ10−3の両者からエラーを検出した場合には、エラー修復部23によるエラー修復は不可能であるため、メモリリード部22に対してエラー修復不可能の旨を通知する。
【0040】
次に、図1、図2に示した本実施形態の動作について詳細に説明する。
【0041】
制御装置90のCPU35は、メモリ10にメモリ装置80を使用するユーザのデータを書込む場合には、メモリ10の指定するアドレスに該データをライトするよう、メモリ装置80に対してライト要求を送出する。ライト要求は、本メモリ装置80の使用形態に応じて、バイト単位、ワード単位、或いはレコード単位の何れでも可能であり、メモリ装置80は、バイト単位のライト要求であればバイト単位の冗長データを生成し、ワード単位のライト要求であればワード単位の冗長データを生成し、レコード単位のライト要求であればレコード単位の冗長データを生成するようになっている。
【0042】
データのライト要求を受けたメモリ装置80は、該ライト要求をエラー検出制御回路20のメモリライト部21に送出し、メモリライト部21は、ライト要求されたデータを、メモリ10−1のユーザデータ領域11−1内の該当アドレスにライトすると共に、該データの冗長データを自動的に生成し、該冗長データを冗長データ領域12−1の該当アドレス対応部分にライトし蓄積する。そして、該データと該冗長データを、他の2つのメモリ10−2とメモリ10−3の該当アドレス対応部分にコピーして上書きする。そして、メモリライト部21は、3つのメモリ10(10−1、10−2、10−3)にデータのライトを終了した時点で、該3つのメモリ10内に記憶保持されたデータの一致性を確認して、データのライト終了通知をCPU35に対して送出する。
【0043】
データのライト終了通知を受けたCPU35は、次にメモリ10にライトすべきデータが存在する場合には、該次のデータのライト要求をメモリ装置80に送出することにより、メモリ装置80は上述と同様の動作を行って、3つのメモリ10(10−1、10−2、10−3)内に同一のデータを記憶保持する。
【0044】
次に、CPU35がメモリ10からデータを読み出す場合には、メモリ10のアドレスを指定したデータのリード要求を、メモリ装置80に送出する。
【0045】
データのリード要求を受けたメモリ装置80は、該リード要求をエラー検出制御回路のメモリリード部22に送出し、メモリリード部22は、リード要求されたデータを、メモリ10−1のユーザデータ領域11−1内の該当アドレスからリードすると共に、該データの冗長データを冗長データ領域12−1の該当アドレス対応部分からリードする。そして、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの検査を行う。
【0046】
検査の結果、該データにソフトエラー等の不具合が検出されなければ、該データにはエラーが無いので、これをリード終了通知と共にCPU35に送出する。
【0047】
メモリリード部22による検査の結果、該データにソフトエラー等の不具合が検出された場合には、メモリリード部22は、該データのアドレスをエラー修復部23に通知する。
【0048】
エラー修復部23は、該アドレスのデータを、既にリードを行ったメモリ10−1からでなく、メモリ10−2のユーザデータ領域11−2内の該当アドレスからリードすると共に、該データの冗長データを冗長データ領域12−2の該当アドレス対応部分からリードする。そして、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの検査を行う。検査の結果、該データに不具合が検出されなければ、該データ、すなわち、メモリ10−2からリードしたデータをメモリリード部22に送出し、メモリリード部22は該データをリード終了通知と共にCPU35に送出する。さらに、エラー修復部23は、メモリ10−2の該データと該冗長データを、メモリ10−1のユーザデータ領域11−1と冗長データ領域12−1とにライトし直すことにより、メモリ10−1の修復を行う。
【0049】
エラー修復部23がメモリ10−2をリードした際、メモリ10−2からもエラーが検出された場合には、エラー修復部23は、該アドレスのデータを、既にリードを行ったメモリ10−1、10−2からでなく、メモリ10−3のユーザデータ領域11−3内の該当アドレスからリードすると共に、該データの冗長データを冗長データ領域12−3の該当アドレス対応部分からリードする。そして、該データと該冗長データとから、該データにソフトエラー等の不具合が発生しているか否かの検査を行う。検査の結果、該データに不具合が検出されなければ、該データ、すなわち、メモリ10−3からリードしたデータをメモリリード部22に送出し、メモリリード部22は該データをリード終了通知と共にCPU35に送出する。さらに、エラー修復部23は、メモリ10−3の該データと該冗長データを、メモリ10−1及び10−2のユーザデータ領域11−1、11−2と冗長データ領域12−1、12−2とにライトし直すことにより、メモリ10−1、10−2の修復を行う。
【0050】
エラー修復部23が、メモリ10−2及びメモリ10−3の両者からエラーを検出した場合には、エラー修復部23によるエラー修復は不可能であるため、メモリリード部22に対してエラー修復不可能の旨を通知し、メモリリード部22は、エラー修復不可能通知をエラーの発生したアドレスと共にCPU35に対して送出する。
【0051】
CPU35が、メモリリード部22からリード終了通知を受けた場合には、CPU35は、該リード終了通知と共に送出された該データすなわちエラーの無いデータを使用して、必要とする処理を実行する。
【0052】
CPU35が、メモリリード部22からエラー修復不可能通知を受けた場合には、CPU35は、有線I/F50を起動してエラーの発生したデータのアドレス情報をサーバー60に送信するよう指示を行う。有線I/F50は、有線ネットワーク55に接続し、エラーの発生したデータのアドレス情報を、有線ネットワーク55を介してサーバー60に送出する。サーバー60は、該当アドレスにエラーが発生したことを履歴として記憶蓄積すると共に、該当アドレスのデータを自身が記憶保持している記憶装置から取り出し、これを有線ネットワーク55を介して配信し、有線I/F50に対して送出する。有線I/F50は、サーバー60から配信された該当データをCPU35に送出する。
【0053】
サーバー60から配信された該当データを有線I/F50から受けたCPU35は、該当データをメモリ10の該当アドレスに再度ライトするよう、メモリ装置80に対してライト要求を送出する。メモリ装置80は、上述した通常時のライト要求を受けたと同様の動作を行い、該当データをメモリ10(10−1、10−2、10−3の3つのメモリ)の該当アドレスにライトする。これにより、該当アドレスのデータは、元通りのエラーの無いデータとして修復されることとなる。なお、CPU35がメモリ10に再ライトした該当データにつき、再度、有線I/F50を介してサーバー60への問合せを送出し、サーバー60から再度、該当データを配信させ、該当データの正当性をチェックさせるようにすることにより、データの修復の信頼性を一層高めることが可能となる。
【0054】
次に、CPU35が有線I/F50を起動したが、有線I/F50が接続しようとした有線ネットワーク55が異常であった場合、或いはネットワークビジーであった場合の動作について説明する。
【0055】
CPU35が、メモリリード部22からエラー修復不可能通知を受けた場合であって、かつ、有線ネットワーク55が異常であった場合、或いはネットワークビジーであった場合には、CPU35は、無線I/F40を起動してエラーの発生したデータのアドレス情報をサーバー60に送信するよう指示を行う。無線I/F40は、無線回線70に接続し、エラーの発生したデータのアドレス情報を、無線端末45及び無線ネットワーク65を介してサーバー60に送出する。サーバー60は、該当アドレスにエラーが発生したことを履歴として記憶蓄積すると共に、該当アドレスのデータを自身が記憶保持している記憶装置から取り出し、これを無線ネットワーク65、無線端末45及び無線回線70を介して配信し、無線I/F40に対して送出する。無線I/F40は、サーバー60から配信された該当データをCPU35に送出する。この後のCPU35の動作は、上述した有線I/F50を起動した場合と全く同様であり、CPU35がメモリ10に該当データを再ライトして該当データの修復を行う。
【0056】
以上、本実施形態の動作について詳細に説明した。本実施形態によれば、同一記憶内容を有する3つのメモリ10(10−1、10−2、10−3)を備えているため、メモリ内の1ビット程度の少数ビットの「1」と「0」レベルが反転する所謂ソフトエラーが、3つのメモリ10の同一アドレスに一斉に生起する確率は非常に小さなものとなり、従って、何れかのメモリ10にソフトエラーが発生した場合であっても、メモリ装置内だけで容易にこれを修復することが可能となる。また、メモリ装置内でエラー修復が出来なかった場合であっても、有線I/F50或いは無線I/F40により外部サーバー60からエラーの無いデータをダウンロード可能であるため、容易にエラーの修復が可能となる。さらに、外部サーバー60内にメモリ10のエラー発生の履歴情報が記憶蓄積されるため、サーバー60の履歴情報からエラーに関する統計分析を行うことが可能となると共に、保守情報の提供を行うことも可能となる。
【0057】
なお、本実施形態において、一定時間ごとに各メモリ10のデータをリードし、エラーの有無をチェックした後、再ライトするようにすれば、各メモリ10の蓄積電荷量が徐々に低下してしまうという現象を防ぐことが可能となり、ソフトエラー自体が発生しにくくなる、という更なる効果を有するものとなる。
【0058】
また、本実施形態は外部のサーバー60を備えているため、外部サーバー60から、エラーの生じたデータをダウンロード可能であるばかりでなく、コンピュータプログラムやデータ全体の修正やバージョンアップをも容易に実施することが可能となる。
【0059】
【発明の効果】
以上説明したように、本発明のソフトエラー自動修復機能付メモリ装置及びシステム並びにソフトエラー自動修復方法は、同一記憶内容の3つのメモリを有するメモリ装置を備えているため、ソフトエラーをメモリ装置内だけで自動修復することが可能となるという効果を有すると共に、外部サーバーへの通信インタフェースを備えているため、必要な場合には外部サーバーにアクセスしてデータをダウンロードすることによりエラーの自動修復を図ることが可能となる、という効果を有している。
【図面の簡単な説明】
【図1】本発明のソフトエラー自動修復機能付メモリシステムの一実施形態を示すブロック図である。
【図2】本実施形態のメモリ装置の一例を示す詳細ブロック図である。
【符号の説明】
10 メモリ
11 ユーザデータ領域
12 冗長データ領域
20 エラー検出制御回路
21 メモリライト部
22 メモリリード部
23 エラー修復部
35 CPU
40 無線I/F
45 無線端末
50 有線I/F
55 有線ネットワーク
60 サーバー
65 無線ネットワーク
70 無線回線
80 メモリ装置
90 制御装置[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a memory device and a system with a soft error automatic repair function, and a method for automatically repairing a soft error, and more particularly to automatically repairing a soft error in a memory device and, when necessary, automatically accessing an external server. The present invention relates to a memory device and a system having a soft error automatic repair function, and a soft error automatic repair method, which makes possible.
[0002]
[Prior art]
Generally, as the memory is highly integrated and the area of the memory cell is reduced, the amount of charge stored in the memory cell is reduced. As the amount of stored charge decreases, alpha particles emitted by radiation decay of uranium and thorium contained in trace amounts in package materials and wiring materials, or neutron particles from outer space, etc., enter the memory, causing Electron-hole pairs generated by the interaction become noise in the memory cell, and a transient error tends to occur. This error is called a "soft error" because it is not permanent and returns to normal by rewriting to memory.
[0003]
Even soft errors can cause equipment and system malfunctions, so it is important to take sufficient measures when a soft error occurs. As an example, an “error correction mechanism for redundant memory” described in Japanese Patent Application Laid-Open No. 10-49448 is known.
[0004]
This publication describes a technique for preventing a non-recoverable error from developing due to accumulation of soft errors in a memory and realizing a highly reliable redundant memory.
[0005]
[Problems to be solved by the invention]
The above-mentioned conventional countermeasures against soft errors do not automatically recover the soft errors in the memory device.
[0006]
Therefore, an object of the present invention is to provide a memory device with a soft error automatic repair function, a memory device and a system capable of automatically repairing a soft error in a memory device and, when necessary, accessing an external server to automatically repair the soft error. It is to provide a soft error automatic repair method.
[0007]
[Means for Solving the Problems]
A memory device with a soft error automatic repair function according to the present invention is a device having a CPU (Central Processing Unit) and a memory device as a data storage unit, wherein the memory device stores and holds data and A set of three readable / writable memories, and an error for reading / writing data to / from the memory under the control of the CPU and detecting / repairing a defect such as a soft error occurring in the memory. And a detection control circuit.
[0008]
Each of the memories includes a user data area for storing data of a user who uses the memory device, and a redundant data area for storing redundant data for soft error detection of data stored in the user data area. A memory write unit that writes data to the memory in response to a data write request from the CPU; and a memory read that reads data from the memory in response to a data read request from the CPU. And an error repair unit that, when the memory read unit reads data from the memory, detects that a soft error has occurred in the data and repairs the data in which the error has occurred. , Is characterized.
[0009]
Further, the memory write unit writes the data requested to be written by designating an address from the CPU to a corresponding address in the user data area of any one of the three memories, Generating redundant data of the data, writing the redundant data to a corresponding address corresponding portion of the redundant data area of the memory, and writing the data and the redundant data to a corresponding address of the other two memories of the memory; It is characterized by copying over a part and overwriting.
[0010]
Further, the memory read unit specifies data read from the CPU by designating an address, and stores the data in the user data area of any one of the three memories (first memory) in the user data area. And the redundant data of the data is read from the corresponding address portion of the redundant data area of the memory (first memory). A first test is performed to determine whether a data error has occurred. If the first test does not detect a defect such as a soft error in the data, the data is sent to the CPU. As a result, when a defect such as a soft error is detected in the data, the address of the data is notified to the error repair unit.
[0011]
Further, the error repair unit may store the data at the address notified from the memory read unit in any one of the other two memories (first memory) from which the memory read unit has read. (2) reading from the corresponding address in the user data area of the user data area, and reading the redundant data of the data from the corresponding address section of the redundant data area in the memory (second memory); From the redundant data, a second check is performed to determine whether or not a defect such as a soft error has occurred in the data. As a result of the second check, if no defect is detected in the data, the data is replaced with the data. The data is sent to the memory read unit, and the memory read unit sends the data to the CPU. Further, the error repair unit sends the data of the memory (second memory) and the redundant data. Is written to the user data area and the redundant data area of the memory (first memory) to which the memory read unit has already read, thereby restoring the memory (first memory) to which the memory read unit has already read. Is performed.
[0012]
Further, when a defect is detected in the data as a result of the second inspection by the error repair unit, the error repair unit reads the data at the address into the memory that has already read the data (the first memory and the first memory). The data is read from the corresponding address in the user data area of another memory (third memory) of the second memory), and the redundant data of the data is read from the corresponding address of the redundant data area of the memory (third memory). The data is read from the address corresponding portion, and a third check is performed from the data and the redundant data to determine whether or not a defect such as a soft error has occurred in the data. As a result of the third check, If no defect is detected, the data is sent to the memory read unit, the memory read unit sends the data to the CPU, and the error repair unit further sends the data to the memory (third memory). B) rewriting the data and the redundant data in the user data area and the redundant data area of the first memory and the second memory, respectively, thereby restoring the first memory and the second memory. If a defect is detected in the data as a result of the third inspection, the memory read unit is notified that the error cannot be repaired, and the memory read unit determines that the error cannot be repaired. The effect is notified to the CPU.
[0013]
A memory system with a soft error automatic recovery function according to the present invention is a device having a CPU and a memory device as a data storage unit, wherein the memory device stores and holds data and is capable of reading / writing data. A set of memories; and an error detection control circuit that reads / writes data to / from the memories under the control of the CPU and detects / repairs a defect such as a soft error that has occurred in the memories. The apparatus includes a wireless interface unit connected to the CPU and capable of performing wireless communication, and a wired interface unit connected to the CPU and capable of performing wired communication. If a fault such as a soft error occurring in the memory cannot be repaired, the CPU Alternatively, the wired interface unit is activated to connect to a server installed outside the device, download the error repair data stored and held by the server to the device, and store the error repair data in the memory. In this case, a defect such as a soft error occurring in the memory is repaired by re-writing.
[0014]
Further, the server stores and retains a history of defects such as soft errors occurring in the memory in the server.
[0015]
An automatic soft error recovery method according to the present invention is an automatic soft error recovery method for a memory device having a set of three memories capable of storing and holding data and capable of reading / writing data. A user data area for storing data of a user who uses the memory device and a redundant data area for storing redundant data for soft error detection of data stored in the user data area, When a write request for writing data by designating an address is issued, the write-requested data is stored in a corresponding address in the user data area of any one of the three memories. Write, generate redundant data of the data, and write the redundant data to a corresponding address portion of the redundant data area of the memory. And, the data and the redundant data, overwrite copied to the other two of the address corresponding portion of memory of said memory, characterized in that.
[0016]
When a read request for reading data in the memory by designating an address is issued, the read-requested data is stored in one of the three memories (first memory). While reading from the corresponding address in the user data area, the redundant data of the data is read from the corresponding address portion of the redundant data area of the memory (first memory). A first test is performed to determine whether or not a defect such as a soft error has occurred in the data. As a result of the first test, if no defect such as a soft error is detected in the data, the data has no error. The data is sent as legitimate data to the request source of the read request, and as a result of the first inspection, if a defect such as a soft error is detected in the data, the address of the data is changed. Notifying the error repair means, characterized in that.
[0017]
Further, the error repairing means stores the data of the address in the user data area of any one of the other two memories (the second memory) from which the data has been read (the first memory). At the same time as reading from the address, the redundant data of the data is read from the corresponding portion of the redundant data area of the memory (second memory) at the corresponding address, and the data and the redundant data are added to the data. A second check is performed to determine whether or not an error has occurred. If no defect is detected in the data as a result of the second check, the data is sent to the request source of the read request as legitimate data without errors. Sending the data and the redundant data in the memory (second memory) to the user data area and the redundant data area in the read memory (first memory). By re-writing in, to repair of the lead already memory (first memory), characterized in that.
[0018]
Further, when a defect is detected in the data as a result of the second inspection by the error repairing means, the error repairing means reads the data at the address into the memory that has already read the data (the first memory and the first memory). The data is read from the corresponding address in the user data area of another memory (third memory) of the second memory), and the redundant data of the data is read from the corresponding address of the redundant data area of the memory (third memory). The data is read from the address corresponding portion, and a third check is performed from the data and the redundant data to determine whether or not a defect such as a soft error has occurred in the data. As a result of the third check, If no defect is detected, the data is sent to the request source of the read request as normal data without error, and the data in the memory (third memory) and the redundant data are transmitted. And restoring the first memory and the second memory by rewriting the user data area and the redundant data area of the first memory and the second memory, respectively, and performing the third inspection. When a defect is detected in the data, the source of the read request is notified that the error cannot be repaired.
[0019]
Further, the request source of the read request notified that the error cannot be repaired is connected to an external server by wireless communication or wired communication, and the error repair data stored and held by the server is downloaded. By rewriting the data for error repair to the memory, a defect such as a soft error occurring in the memory is repaired.
[0020]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0021]
FIG. 1 is a block diagram showing an embodiment of a memory system with a soft error automatic recovery function according to the present invention.
[0022]
The present embodiment shown in FIG. 1 includes a memory device 80 that stores and retains computer programs and data, and a CPU (Central Processing Unit: Central Processing Unit) that accesses the memory device 80 and executes processing such as calculation, operation, and control. ) 35, a control device 90 including a wireless I / F (interface) 40 connected to the
[0023]
When the control device 90 accesses the
[0024]
That is, the wireless I /
[0025]
The control device 90 may be a device having any function as long as the device includes the
[0026]
The memory device 80 included in the control device 90 stores and holds computer programs and data (hereinafter, these are simply referred to as data), and is capable of reading (reading) / writing (writing) these data. And a set of memories 10-1, 10-2, and 10-3 to read / write data to / from the
[0027]
Next, a detailed configuration of the memory device 80 of the present embodiment will be described with reference to FIG.
[0028]
FIG. 2 is a detailed block diagram illustrating an example of the memory device according to the present embodiment. In FIG. 2, components corresponding to those shown in FIG. 1 are denoted by the same reference numerals or symbols, and description thereof will be omitted.
[0029]
In FIG. 2, first, a set of three
[0030]
The redundant data area 12 is an area for recording redundant data for detecting a soft error generated in the
[0031]
Next, the error
[0032]
The
[0033]
At the time when the writing of data to the three memories 10 (10-1, 10-2, 10-3) is completed, the consistency of the data stored and held in the three
[0034]
The memory read
[0035]
As a result of the inspection, if a defect such as a soft error is not detected in the data, there is no error in the data, and the data is sent to the
[0036]
When a defect such as a soft error is detected in the data as a result of the inspection by the memory read
[0037]
The
[0038]
When the
[0039]
When the
[0040]
Next, the operation of the present embodiment shown in FIGS. 1 and 2 will be described in detail.
[0041]
When writing data of a user who uses the memory device 80 to the
[0042]
The memory device 80 that has received the data write request sends the write request to the
[0043]
When there is data to be written to the
[0044]
Next, when reading data from the
[0045]
The memory device 80 that has received the data read request sends the read request to the memory read
[0046]
As a result of the inspection, if a defect such as a soft error is not detected in the data, since there is no error in the data, the data is transmitted to the
[0047]
When a defect such as a soft error is detected in the data as a result of the inspection by the memory read
[0048]
The
[0049]
When the
[0050]
When the
[0051]
When the
[0052]
When the
[0053]
The
[0054]
Next, the operation when the
[0055]
When the
[0056]
The operation of the present embodiment has been described above in detail. According to the present embodiment, since three memories 10 (10-1, 10-2, 10-3) having the same storage contents are provided, "1" and "1" of a small number of bits of about 1 bit in the memories are provided. The probability that a so-called soft error in which the “0” level is inverted occurs at the same address in the three
[0057]
In this embodiment, if the data in each
[0058]
Further, since the present embodiment includes the
[0059]
【The invention's effect】
As described above, the memory device and system with the soft error automatic repair function and the soft error automatic repair method according to the present invention include the memory device having three memories having the same storage contents. It has the effect of being able to automatically repair itself, and has a communication interface to an external server, so if necessary, access the external server and download data to automatically repair errors. This has the effect of making it possible to achieve this.
[Brief description of the drawings]
FIG. 1 is a block diagram showing an embodiment of a memory system with a soft error automatic recovery function according to the present invention.
FIG. 2 is a detailed block diagram illustrating an example of a memory device according to the embodiment;
[Explanation of symbols]
10 memory
11 User data area
12 Redundant data area
20 Error detection control circuit
21 Memory write section
22 Memory read section
23 Error restoration unit
35 CPU
40 Wireless I / F
45 wireless terminal
50 Wired I / F
55 Wired Network
60 servers
65 Wireless Network
70 wireless line
80 Memory device
90 Control device
Claims (13)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002193523A JP2004038468A (en) | 2002-07-02 | 2002-07-02 | Memory device and system with function to automatically fix software error, and method for automatically fixing software error |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002193523A JP2004038468A (en) | 2002-07-02 | 2002-07-02 | Memory device and system with function to automatically fix software error, and method for automatically fixing software error |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004038468A true JP2004038468A (en) | 2004-02-05 |
Family
ID=31702467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002193523A Pending JP2004038468A (en) | 2002-07-02 | 2002-07-02 | Memory device and system with function to automatically fix software error, and method for automatically fixing software error |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004038468A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011188203A (en) * | 2010-03-08 | 2011-09-22 | Renesas Electronics Corp | Semiconductor integrated circuit |
-
2002
- 2002-07-02 JP JP2002193523A patent/JP2004038468A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011188203A (en) * | 2010-03-08 | 2011-09-22 | Renesas Electronics Corp | Semiconductor integrated circuit |
US8843800B2 (en) | 2010-03-08 | 2014-09-23 | Renesas Electronics Corporation | Semiconductor integrated circuit |
US9665448B2 (en) | 2010-03-08 | 2017-05-30 | Renesas Electronics Corporation | Semiconductor integrated circuit |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6715116B2 (en) | Memory data verify operation | |
JP3937214B2 (en) | Storage device for recording error correction count | |
US5912906A (en) | Method and apparatus for recovering from correctable ECC errors | |
US6976197B2 (en) | Apparatus and method for error logging on a memory module | |
EP1659494B1 (en) | Method and apparatus for classifying memory errors | |
US7900084B2 (en) | Reliable memory for memory controller with multiple channels | |
US20090150721A1 (en) | Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System | |
US7356744B2 (en) | Method and system for optimizing testing of memory stores | |
US20030037280A1 (en) | Computer memory error management system and method | |
NZ232458A (en) | Fault tolerant memory error correction: each memory unit has lock-up feature | |
US8433950B2 (en) | System to determine fault tolerance in an integrated circuit and associated methods | |
US5933592A (en) | Promoting device level error to raidset level error to restore redundacy in a raid array data storage system | |
US9208027B2 (en) | Address error detection | |
US7624301B2 (en) | Method and apparatus for identifying failure module | |
JP2015529927A (en) | Notification of address range with uncorrectable errors | |
CN113835923A (en) | Reset system, data processing system and related equipment | |
WO2024113685A1 (en) | Data recovery method for raid array and related apparatus | |
US9086990B2 (en) | Bitline deletion | |
US20090125753A1 (en) | Handling of data storage within a flash media device | |
AU615373B2 (en) | Fault tolerant computer memory systems and components employing dual level error correction and detection with disablement feature | |
JP2004342112A (en) | Device and method for responding to data retention loss in nonvolatile memory unit using error-checking and correction techniques | |
JP2004038468A (en) | Memory device and system with function to automatically fix software error, and method for automatically fixing software error | |
US20140053016A1 (en) | Using A Buffer To Replace Failed Memory Cells In A Memory Component | |
JP3314719B2 (en) | Flash EEPROM and its test method | |
US8595570B1 (en) | Bitline deletion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040423 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050322 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061024 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061222 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070126 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20070423 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070612 |