JP4877396B2 - メモリ障害処理システム、および、メモリ障害処理方法 - Google Patents

メモリ障害処理システム、および、メモリ障害処理方法 Download PDF

Info

Publication number
JP4877396B2
JP4877396B2 JP2010009992A JP2010009992A JP4877396B2 JP 4877396 B2 JP4877396 B2 JP 4877396B2 JP 2010009992 A JP2010009992 A JP 2010009992A JP 2010009992 A JP2010009992 A JP 2010009992A JP 4877396 B2 JP4877396 B2 JP 4877396B2
Authority
JP
Japan
Prior art keywords
memory chip
memory
switching
cache line
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010009992A
Other languages
English (en)
Other versions
JP2011150469A (ja
Inventor
崇人 関本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010009992A priority Critical patent/JP4877396B2/ja
Priority to US13/009,565 priority patent/US8261137B2/en
Publication of JP2011150469A publication Critical patent/JP2011150469A/ja
Application granted granted Critical
Publication of JP4877396B2 publication Critical patent/JP4877396B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1008Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices
    • G06F11/1048Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's in individual solid state devices using arrangements adapted for a specific error detection or correction feature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/073Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a memory management context, e.g. virtual memory or cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C16/00Erasable programmable read-only memories
    • G11C16/02Erasable programmable read-only memories electrically programmable
    • G11C16/06Auxiliary circuits, e.g. for writing into memory
    • G11C16/34Determination of programming status, e.g. threshold voltage, overprogramming or underprogramming, retention
    • G11C16/349Arrangements for evaluating degradation, retention or wearout, e.g. by counting erase cycles
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C29/00Checking stores for correct operation ; Subsequent repair; Testing stores during standby or offline operation
    • G11C29/70Masking faults in memories by using spares or by reconfiguring
    • G11C29/78Masking faults in memories by using spares or by reconfiguring using programmable devices
    • G11C29/80Masking faults in memories by using spares or by reconfiguring using programmable devices with improved layout
    • G11C29/816Masking faults in memories by using spares or by reconfiguring using programmable devices with improved layout for an application-specific layout
    • G11C29/82Masking faults in memories by using spares or by reconfiguring using programmable devices with improved layout for an application-specific layout for EEPROMs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • For Increasing The Reliability Of Semiconductor Memories (AREA)
  • Debugging And Monitoring (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

本発明は、情報処理装置に搭載されるメモリに発生する障害を処理するメモリ障害処理システムに関する。
ハイエンドサーバ等の情報処理装置では、搭載されるメモリに障害がおきてもシステムダウンに至らないことが要求される。このため、近年では、搭載されるメモリに障害がおきても情報処理装置のシステムダウンを防止するメモリ障害処理システムが知られている。
このようなメモリ障害処理システムとしては、メモリと予備メモリとを備え、障害が発生した不良メモリアドレスを記憶し、アクセスされたアドレスが不良メモリアドレスに一致するとメモリを予備メモリに切り替えることにより、システムダウンを防ぐものがある(例えば、特許文献1参照)。
また、他のメモリ障害処理システムとして、メモリの障害を検出すると障害ページを閉塞するものがある。そして、このメモリ障害処理システムは、あらかじめメモリの更新イメージのコピーを保持しておき、閉塞した障害ページのデータのコピーを仮想メモリとしての二次記憶装置に出力することにより、システムダウンを防ぐ(例えば、特許文献2参照)。
特開平3−147162号公報 特開平9−81464号公報
しかしながら、特許文献1に記載されたメモリ障害処理システムは、予備メモリの数を超えてメモリに障害が発生するとシステムダウンに至ってしまうという課題があった。
そこで、特許文献1に記載されたものに特許文献2に記載されたものを組み合わせ、予備メモリ切替とページ閉塞とを連動させると、障害が発生したメモリを健全な予備メモリへ切り替えたにも関わらず、障害が発生したメモリに対応していたメモリページを閉塞してしまい効率的でないという課題があった。
すなわち、特許文献1に記載されたものおよび特許文献2に記載されたものは、予備メモリ切替とページ閉塞とを効率的に連動させてシステムダウンを防止することができなかった。
本発明は、上述の課題を解決するためになされたもので、予備メモリ切替とページ閉塞とを効率的に連動させてシステムダウンを防止することができるメモリ障害処理システムを提供することを目的とする。
本発明のメモリ障害処理システムは、メモリチップおよび予備メモリチップを有するメモリ装置と、情報処理装置とを含み、前記情報処理装置は、前記メモリチップに発生する障害の発生回数の総和をカウントする発生回数総和カウント手段と、前記発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替手段と、前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウント手段と、前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞し、前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞するページ閉塞手段と、を備える。
また、本発明の情報処理装置は、メモリチップおよび予備メモリチップを有するメモリ装置に接続され、前記メモリチップに発生する障害の発生回数の総和をカウントする発生回数総和カウント手段と、前記発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替手段と、前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウント手段と、前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞し、前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞するページ閉塞手段と、を備える。
また、本発明のメモリ障害処理方法は、メモリチップおよび予備メモリチップを有するメモリ装置と、前記メモリ装置に接続された情報処理装置とを備えたメモリ障害処理システムを用いて、前記メモリチップに発生する障害の発生回数の総和をカウントする発生回数総和カウントステップと、前記発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替ステップと、
前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウントステップと、
前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞するメモリページ閉塞ステップと、前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞する障害発生毎ページ閉塞ステップと、を実行する。
また、本発明のメモリ障害処理プログラムは、メモリチップおよび予備メモリチップを有するメモリ装置と、前記メモリ装置に接続された情報処理装置とを備えたメモリ障害処理システムに、前記メモリチップに発生する障害の発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替ステップと、前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウントステップと、前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞するページ閉塞ステップと、前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞する障害発生毎ページ閉塞ステップと、を実行させる。
本発明は、予備メモリ切替とページ閉塞とを効率的に連動させてシステムダウンを防止することができる。
本発明の第1の実施の形態としてのメモリ障害処理システムの構成を示すブロック図である。 本発明の第1の実施の形態としてのメモリ障害処理システムの予備メモリチップ切替の動作を示すフローチャートである。 本発明の第1の実施の形態としてのメモリ障害処理システムの予備メモリチップ切替後の動作を示すフローチャートである。 本発明の第2の実施の形態としてのメモリ障害処理システムの構成を示すブロック図である。 本発明の第2の実施の形態としてのメモリ障害処理システムの動作を示すフローチャートである。 本発明の第3の実施の形態としてのメモリ障害処理システムの構成を示すブロック図である。 本発明の第3の実施の形態としてのメモリ障害処理システムの動作を示すフローチャートである。
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
本発明の第1の実施の形態としてのメモリ障害処理システム1の構成を図1に示す。図1において、メモリ障害処理システム1は、メモリチップ21および予備メモリチップ22を有するメモリ装置2と、情報処理装置3とを備えている。また、情報処理装置3は、発生回数総和カウント部31と、予備メモリチップ切替部32と、キャッシュライン単位カウント部33と、ページ閉塞部34とを有している。
なお、図1には、2つのメモリチップ21と1つの予備メモリチップ22とを示したが、本発明のメモリ障害処理システムが備えるメモリチップおよび予備メモリチップの数を限定するものではない。
まず、メモリ装置2の構成について説明する。
メモリ装置2は、DIMM(Dual Inline Memory Module)等のメモリモジュールによって構成される。メモリ装置2は、たとえば、RAM(Random Access Memory)として情報処理装置3に搭載される。
メモリチップ21は、情報処理装置3から入力されるデータを指定されたアドレスに記憶し、情報処理装置3からのアクセスに応じて指定されたアドレスに記憶したデータを出力する。メモリチップ21は、例えばDRAM(Dynamic Random Access Memory)等の半導体記憶素子によって構成される。
予備メモリチップ22は、メモリチップ21と同様に構成され、図示しない切替回路によってメモリチップ21の代わりに情報処理装置3に接続されて情報処理装置3との間でデータを入出力する。
次に、情報処理装置3の構成について説明する。
情報処理装置3は、メモリ装置2を制御するメモリコントローラとCPU(Central Processing Unit)とROM(Read Only Memory)と記憶装置とを少なくとも有する汎用的なコンピュータ装置によって構成されてもよい。この場合、発生回数総和カウント部31はメモリコントローラによって構成される。また、予備メモリチップ切替部32、キャッシュライン単位カウント部33、ページ閉塞部34は、プログラムモジュールとしてROMまたは記憶装置に記憶され、CPUによって実行されるコンピュータ回路によって実現される。 例えば、予備メモリチップ切替部32とキャッシュライン単位カウント部33の実行機能に対応するプログラムは、BIOS(Basic Input/Output System)としてROMに記憶される。また、ページ閉塞部34の実行機能に対応するプログラムは、OS(Operating System)として記憶装置に記憶される。
発生回数総和カウント部31は、例えば、ECC(Error Check and Correct)回路等のエラー訂正回路およびカウンタ回路によって構成されてもよい。
以上のような構成において、発生回数総和カウント部31は、メモリチップ21に発生するマルチビットエラー等の障害を検出し、訂正可能なエラーを訂正する。 また、発生回数総和カウント部31は、メモリコントローラによって管理される各メモリチップ21において検出した障害の発生回数の総和をカウントして記憶する。
予備メモリチップ切替部32は、発生回数総和が総和閾値を超えると、障害が発生したメモリチップ21を予備メモリチップ22に切り替える。
ここで、総和閾値は、メモリチップ21に発生する障害がソフトエラーではなくハードエラーであるとみなすことができメモリチップ21が故障している可能性が高いと判断するのに好適な値が設定される。
ここで、予備メモリチップ切替部32は、発生回数総和が総和閾値を超えるまでに障害が発生したメモリチップ21のうちいずれかのメモリチップ21を、故障したメモリチップとみなして予備メモリチップ22に切り替える。
例えば、予備メモリチップ切替部32は、発生回数総和が総和閾値を超えたときに障害が発生したメモリチップ21を予備メモリチップ22に切り替える。
キャッシュライン単位カウント部33は、メモリチップ21が予備メモリチップ22へ切り替えられた後メモリチップ21に発生する障害の発生回数を、障害の発生箇所を含むメモリブロックに対応するキャッシュライン単位でカウントする。
ページ閉塞部34は、予備メモリチップ切替後の発生回数総和が総和閾値を超える前にキャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、障害の発生箇所に対応するキャッシュラインを含むメモリページを閉塞する。
ここで、キャッシュライン単位閾値は、メモリチップに発生する障害が、キャッシュラインに対応するメモリブロックに含まれる特定箇所の故障に起因する可能性が高いと判断するのに好適な値が設定される。
また、ページ閉塞部34は、キャッシュライン単位発生回数がキャッシュライン単位閾値を超える前に発生回数総和が総和閾値を超えた場合、これ以降、メモリチップ21に障害が発生する毎に、障害の発生箇所に対応するキャッシュラインを含むメモリページを閉塞する。
以上のように構成されたメモリ障害処理システム1の動作について、図2および図3を用いて説明する。
まず、メモリ障害処理システム1の予備メモリチップ切替動作を図2に示す。
ここでは、まず、メモリチップ21に障害が発生したことが発生回数総和カウント部31によって検出される(ステップS1)。
次に、発生回数総和が総和閾値を超えたか否かが発生回数総和カウント部31によって判断される(ステップS2)。
ここで、発生回数総和が総和閾値を超えていないと判断された場合、発生回数総和カウント部31によって、発生回数総和のカウントが1つ増やされる(ステップS3)。このとき、メモリチップ21に発生した障害は予備メモリチップ切替部32に通知されないでフィルタリングされる。ここで、メモリ障害処理システム1の動作はステップS1に戻る。
一方、発生回数総和が総和閾値を超えていると判断された場合、発生回数総和カウント部31によって、メモリチップ21に発生した障害が予備メモリチップ切替部32に通知される。そして、予備メモリチップ切替部32によって、障害が発生したメモリチップ21が予備メモリチップ22に切り替えられる(ステップS4)。このとき、メモリチップ21に発生した障害はページ閉塞部34に通知されないでフィルタリングされる。
以上で、メモリ障害処理システム1は、予備メモリチップ切替動作を終了する。
次に、メモリ障害処理システム1は、発生回数総和カウント部31をリセットして、以下に述べるページ閉塞動作を実行する。
メモリ障害処理システム1において予備メモリチップ22に切替後(ステップS4の後)のページ閉塞動作について図3を用いて説明する。 ここでは、まず、切替後に、メモリチップ21に障害が発生したことが、発生回数総和カウント部31によって検出される(ステップS11)。
次に、発生回数総和が総和閾値を超えたか否かが、発生回数総和カウント部31によって判断される(ステップS12)。
ここで、発生回数総和が総和閾値を超えていないと判断された場合、発生回数総和カウント部31によって、発生回数総和のカウントが1つ増やされる(ステップS13)。そして、メモリチップ21に発生した障害は、発生回数総和カウント部31によってキャッシュライン単位カウント部33に通知される。
次に、キャッシュライン単位発生回数がキャッシュライン単位閾値を超えたか否かが、キャッシュライン単位カウント部33によって判断される(ステップS14)。
ここで、キャッシュライン単位発生回数がキャッシュライン単位閾値を超えていないと判断された場合、キャッシュライン単位カウント部33によって、キャッシュライン単位発生回数が1つ増やされる(ステップS15)。このとき、メモリチップ21に発生した障害は、ページ閉塞部34に通知されないでフィルタリングされる。ここで、メモリ障害処理システム1の動作はステップS11に戻る。
一方、ステップS12で、切替後の発生回数総和が総和閾値を超えたと判断された場合、これ以降障害が発生する毎に、発生回数総和カウント部31によって障害の発生がページ閉塞部34に通知される。そして、障害が発生する毎に、障害の発生箇所に対応するキャッシュラインを含むメモリページが、ページ閉塞部34によって閉塞される(ステップS16)。なお、ここで、発生回数総和カウント部31はリセットされる。
また、ステップS14でキャッシュライン単位発生回数がキャッシュライン単位閾値を超えたと判断された場合、キャッシュライン単位カウント部33によって障害の発生がページ閉塞部34に通知される。そして、障害の発生箇所に対応するキャッシュラインを含むメモリページが、ページ閉塞部34によって閉塞される(ステップS17)。なお、ここで、発生回数総和カウント部31はリセットされる。
以上で、メモリ障害処理システム1は、予備メモリ切替後のページ閉塞動作を終了する。
次に、本発明の第1の実施の形態の効果について説明する。
本発明の第1の実施の形態のメモリ障害処理システムは、予備メモリ切替とページ閉塞とを効率的に連動させてシステムダウンを防止することができる。
その第1の理由は、予備メモリチップ切替手段が、メモリチップに発生する障害の発生回数総和が閾値を超えると、障害が発生したメモリチップが故障した可能性が高いとして、故障したメモリチップを予備メモリチップに切り替えるためである。また、本発明の第1の実施の形態のメモリ障害処理システムは、故障したメモリチップを予備メモリチップに切り替えるまではページ閉塞を実行しないため、ページ閉塞によるパフォーマンスの低下を防ぎながら効率的に予備メモリ切替を行うことができる。
また、その第2の理由は、ページ閉塞手段が、キャッシュライン単位の発生回数がキャッシュライン単位閾値を超える前に切替後の発生回数総和が総和閾値を超えると、複数のメモリチップで故障が発生している可能性が高いとして、以降、障害が発生する毎に障害発生箇所を含むメモリページを閉塞するためである。これにより、本発明の第1の実施の形態のメモリ障害処理システムは、予備メモリチップの数を超えてメモリチップが故障してもページ閉塞を効率的に動作させることによって保守交換までの間システムダウンを防止することができる。
また、その第3の理由は、ページ閉塞手段が、切替後の発生回数総和が総和閾値を超える前にキャッシュライン単位発生回数がキャッシュライン単位閾値を超えると、キャッシュラインに対応するメモリブロックに含まれる特定箇所の故障である可能性が高いとして、キャッシュラインを含むメモリページを閉塞するためである。これにより、本発明の第1の実施の形態のメモリ障害処理システムは、故障したメモリチップを予備メモリチップへ切り替えた後に、他のメモリチップに含まれる特定箇所が故障した場合にも、故障箇所を含むメモリページを閉塞してシステムダウンを防止することができる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
本発明の第2の実施の形態としてのメモリ障害処理システム4の構成を図4に示す。なお、図4において、本発明の第1の実施の形態としてのメモリ障害処理システム1と同一の構成要素には同一の符号を付して詳細な説明を省略する。
図4に示すように、メモリ障害処理システム4は、メモリ装置5と、メモリ装置5が搭載された情報処理装置6とを備えている。
まず、メモリ装置5の構成について説明する。
メモリ装置5は、メモリチップ21と予備メモリチップ22とをそれぞれ有する複数のランク52を備えている。
なお、図4には、3つのランク52を示したが、本発明のメモリ装置が有するランクの数を限定するものではない。
ランク52は、メモリ装置5に対するデータ入出力の管理単位である。また、ランク52は、1つ以上のメモリモジュールによって構成される。
次に、情報処理装置6の構成について説明する。
情報処理装置6は、本発明の第1の実施の形態における情報処理装置3と同様に、メモリ装置5が搭載された汎用的なコンピュータ装置によって構成される。
情報処理装置6は、機能ブロックとして、切替前後判断部61と、発生回数総和カウント部31と、予備メモリチップ切替部32と、キャッシュライン単位カウント部33と、障害ページ通知部62と、ページ閉塞部63とを有している。
ここで、障害ページ通知部62およびページ閉塞部63は、本発明のページ閉塞手段の一実施形態を構成する。また、切替前後判断部61はメモリコントローラによって構成される。また、障害ページ通知部62はBIOSとしてROMに記憶され、ページ閉塞部63はOSとして記憶装置に記憶され、それぞれCPUによって実行されるコンピュータ回路によって実現される。
切替前後判断部61は、障害が発生したメモリチップ21が含まれるランク52が予備メモリチップへの切替前であるか切替後であるかを判断する。
例えば、切替前後判断部61は、各ランク52が切替前であるか切替後であるかを表す情報を記憶するレジスタを有し、レジスタの値に基づいて切替前か切替後かの判断を行う。
障害ページ通知部62は、予備メモリチップ切替後の発生回数総和が総和閾値を超える前にキャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、障害の発生箇所に対応するキャッシュラインを含むメモリページを、ページ閉塞部63に通知する。
また、障害ページ通知部62は、キャッシュライン単位発生回数がキャッシュライン単位閾値を超える前に発生回数総和が総和閾値を超えた場合、これ以降、メモリチップ21に障害が発生する毎に、障害の発生箇所に対応するキャッシュラインを含むメモリページをページ閉塞部63に通知する。
ページ閉塞部63は、障害ページ通知部62から通知されたメモリページを閉塞する。
以上のように構成されたメモリ障害処理システム4の動作について図5を用いて説明する。
なお、図5において、本発明の第1の実施の形態としてのメモリ障害処理システム1と同様に動作するステップには同一の符号を付して詳細な説明を省略する。
ここでは、まず、メモリチップ21に障害が発生したことが、発生回数総和カウント部31によって検出される(ステップS21)。
次に、障害が発生したメモリチップ21が含まれるランク52が予備メモリチップ切替前であるか切替後であるかが、切替前後判断部61によって判断される(ステップS22)。
ここで、該当するランク52が予備メモリチップ切替前であると判断された場合、本発明の第1の実施の形態としてのメモリ障害処理システム1と同様に、図2に示した予備メモリチップ切替動作を実行する。
すなわち、予備メモリチップ切替前のランク52に含まれるメモリチップ21に障害が発生したとき、発生回数総和が総和閾値を超えていれば、予備メモリチップ切替部32によって障害が発生したメモリチップ21が予備メモリチップ22に切り替えられる。また、発生回数総和が総和閾値を超えていなければ、発生回数総和カウント部31によって発生回数総和がカウントされる。
一方、ステップS2で該当するランク52が予備メモリチップ切替後であると判断された場合、ステップS12〜S15まで本発明の第1の実施の形態としてのメモリ障害処理システム1と同様に動作する。
すなわち、予備メモリチップ切替後のランク52に含まれるメモリチップ21に障害が発生したとき、発生回数総和が総和閾値を超えておらず、キャッシュライン単位発生回数がキャッシュライン単位閾値を超えていなければ、発生回数総和およびキャッシュライン単位発生回数がそれぞれカウントされる。
また、キャッシュライン単位発生回数がキャッシュライン単位閾値を超えておらず発生回数総和が総和閾値を超えていれば(ステップS12でYes)、以降、障害が発生する毎にこの障害の発生箇所に対応するキャッシュラインを含むメモリページが障害ページ通知部62によってページ閉塞部63に通知される(ステップS23)。
また、発生回数総和が総和閾値を超えておらずキャッシュライン単位発生回数がキャッシュライン単位閾値を超えていれば(ステップS14でYes)、障害の発生箇所に対応するキャッシュラインを含むメモリページが障害ページ通知部62によってページ閉塞部63に通知される(ステップS24)。
次に、通知されたメモリページがページ閉塞部63によって閉塞される(ステップS25)。
以上で、メモリ障害処理システム4は動作を終了する。
次に、本発明の第2の実施の形態の効果について説明する。
本発明の第2の実施の形態としてのメモリ障害処理システムは、それぞれ予備メモリを有する複数のランクによって管理されるメモリ装置が搭載されている場合に、ランク毎に予備メモリチップへの切替とページ閉塞とを効率的に連動させてシステムダウンを防止することができる。
その第1の理由は、切替前後判断手段が、障害が発生したメモリチップを含むランクが予備メモリチップ切替前であるか切替後であるかを判断し、予備メモリチップ切替手段が、障害が発生したランクが予備メモリチップ切替前であれば、発生回数総和に基づいて予備メモリチップへの切替を実行するためである。これにより、本発明の第2の実施の形態としてのメモリ障害処理システムは、切替前のランクに発生する障害に対してページ閉塞を実行せず、ランク毎に効率的な予備メモリチップ切替を行うことができるからである。
また、その第2の理由は、キャッシュライン単位カウント手段が、切替後のランクに発生する障害の発生回数をカウントし、ページ閉塞手段が、キャッシュライン単位発生回数および発生回数総和に基づいて該当するメモリページを閉塞するためである。これにより、本発明の第2の実施の形態としてのメモリ障害処理システムは、予備メモリチップ切替後のランクに発生する障害に対して効率的にページ閉塞を行うことができる。
次に、本発明の第3の実施の形態について図面を用いて詳細に説明する。
本発明の第3の実施の形態としてのメモリ障害処理システム7の構成を図6に示す。なお、図6において、本発明の第2の実施の形態としてのメモリ障害処理システム4の構成と同一のものには同一の符号を付して詳細な説明を省略する。
図6に示すように、メモリ障害処理システム7は、メモリ装置5と、情報処理装置8とを備えている。
情報処理装置8は、本発明の第2の実施の形態における情報処理装置6と同一の構成に加えて、ランク単位発生回数カウント部81を備えている。
ここで、ランク単位発生回数カウント部81は、BIOSを構成するプログラムモジュールとしてROMに記憶にされ、CPUによって実行されるコンピュータ回路によって実現される。
ランク単位発生回数カウント部81は、メモリチップ21が予備メモリチップ22へ切り替えられた後、メモリチップ21に発生する障害の発生回数を、障害が発生したメモリチップ21を含むランク52単位でカウントする。
障害ページ通知部62は、ランク52に対応づけられた各キャッシュラインをあらかじめ記憶しておく。そして、障害ページ通知部62は、予備メモリチップ切替後の発生回数総和が総和閾値を超える前にランク単位発生回数がランク単位閾値を超えた場合、閾値を超えたランク52に対応づけられた各キャッシュラインをそれぞれ含むメモリページをページ閉塞部63に通知する。
ここで、ランク単位閾値は、ランク52内のメモリチップ21に発生する障害がランク52内に含まれる複数のメモリモジュールの故障による可能性が高いと判断するのに好適な値が設定される。
以上のように構成されたメモリ障害処理システム7の動作について図7を用いて説明する。
なお、図7において、本発明の第2の実施の形態としてのメモリ障害処理システム4と同様に動作するステップには同一の符号を付して詳細な説明を省略する。
まず、メモリ障害処理システム7は、ステップS21〜S22まで本発明の第2の実施の形態としてのメモリ障害処理システム4と同様に動作することにより、予備メモリチップ22へ切替前のランク52で障害が発生した場合は、図2に示した予備メモリチップ切替動作を実行する。
一方、メモリ障害処理システム7は、予備メモリチップ22へ切替後のランク52で障害が発生した場合は、ステップS12、S13、S23を、本発明の第2の実施の形態としてのメモリ障害処理システム4と同様に実行する。すなわち、発生回数総和が総和閾値を超えていれば、以降、障害が発生する毎に障害の発生箇所に対応するキャッシュラインを含むメモリページが、障害ページ通知部62によってページ閉塞部63に通知される。また、発生回数総和が総和閾値を超えていなければ、発生回数総和のカウントが発生回数総和カウント部31によって1つ増やされる。
次に、ランク単位発生回数がランク単位閾値を超えたか否かが、ランク単位発生回数カウント部81によって判断される(ステップS31)。
ここで、ランク単位発生回数がランク単位閾値を超えたと判断された場合、閾値を超えたランク52に対応づけられた各キャッシュラインをそれぞれ含むメモリページが、障害ページ通知部62によってページ閉塞部63に通知される(ステップS32)。
一方、ランク単位発生回数がランク単位閾値を超えていないと判断された場合、障害が発生したメモリチップ21を含むランク52のランク単位発生回数のカウントが、ランク単位発生回数カウント部81によって1つ増やされる(ステップS33)。
次に、メモリ障害処理システム7は、ステップS14、S15、S24を、本発明の第2の実施の形態としてのメモリ障害処理システム4と同様に実行する。すなわち、キャッシュライン単位発生回数がキャッシュライン単位閾値を超えていなければ、キャッシュライン単位発生回数のカウントがキャッシュライン単位カウント部33によって1つ増やされ、動作はステップS21に戻る。また、キャッシュライン単位発生回数がキャッシュライン単位閾値を超えていれば、障害の発生箇所に対応するキャッシュラインを含むメモリページが障害ページ通知部62によってページ閉塞部63に通知される。
次に、障害ページ通知部62によって通知されたメモリページが、ページ閉塞部63によって閉塞され(ステップS25)、メモリ障害処理システム7は動作を終了する。
次に、本発明の第3の実施の形態の効果について説明する。
本発明の第3の実施の形態のメモリ障害処理システムは、特定ランク内の複数のメモリチップが故障している場合に、効率的にページ閉塞を行うことができる。
その理由は、ランク単位カウント手段が、障害が発生したメモリチップが含まれるランク単位での発生回数をカウントし、ページ閉塞手段が、発生回数総和が総和閾値を超える前にランク単位発生回数がランク単位閾値を超えると、該当するランクに対応付けられた各キャッシュラインを含むメモリページを閉塞するからである。
なお、上述の本発明の各実施の形態において、総和閾値はキャッシュライン単位閾値より大きな値があらかじめ設定される。
これにより、本発明のメモリ障害処理システムは、キャッシュライン単位発生回数がキャッシュライン単位閾値を超える前に発生回数総和が総和閾値を超えたとき、複数のメモリチップにわたって故障が発生している可能性が高いことをより確実に判断して、より効率的なページ閉塞を実行することができる。
また、これにより、本発明のメモリ障害処理システムは、発生回数総和が総和閾値を超えるより先にキャッシュライン単位発生回数がキャッシュライン単位閾値を超えたとき、特定箇所が故障している可能性が高いことをより確実に判断して、より効率的なページ閉塞を実行することができる。
また、上述の本発明の第3の実施の形態において、ランク単位閾値には、総和閾値より小さくキャッシュライン単位閾値より大きな値があらかじめ設定される。
これにより、本発明のメモリ障害処理システムは、発生回数総和が総和閾値を超える前にランク単位発生回数がランク単位閾値を超えたとき、特定のランクを構成する複数のメモリチップにわたって故障が発生している可能性が高いことをより確実に判断して、より効率的なページ閉塞を実行することができる。
また、上述の本発明の実施の形態において、情報処理装置の動作は、本発明のメモリ障害処理プログラムを構成するプログラムモジュールとして情報処理装置のROMおよび記憶装置に記憶され、CPUによって実行されるようにしてもよい。
また、上述した本発明の各実施の形態は、適宜組み合わせて実施されることが可能である。
また、本発明は、上述した各実施の形態に限定されず、様々な態様で実施されることが可能である。
(付記1)
前記メモリ装置が前記メモリチップおよび前記予備メモリチップによってそれぞれ構成される複数のランクを有するとき、前記メモリ障害処理システムに、
前記障害が発生したメモリチップを含むランクが前記予備メモリチップ切替前であるか切替後であるかを判断する切替前後判断ステップをさらに実行させ、
前記予備メモリチップ切替ステップは、前記発生回数総和が前記総和閾値を超えたとき前記ランクが前記予備メモリチップ切替前であれば前記メモリチップを前記予備メモリチップへ切り替え、
前記キャッシュライン単位カウントステップは、前記予備メモリチップ切替後であると判断されたランクに含まれるメモリチップで発生した障害の発生回数を前記キャッシュライン単位でカウントすることを特徴とする請求項10に記載のメモリ障害処理プログラム。
本発明は、予備メモリ切替とページ閉塞とを効率的に連動させてシステムダウンを防止することができるメモリ障害処理システムを提供することができ、ハイエンドサーバ等システムダウンの防止が要求される情報処理システムとして好適である。
1、4、7 メモリ障害処理システム
2、5 メモリ装置
3、6、8 情報処理装置
21 メモリチップ
22 予備メモリチップ
31 発生回数総和カウント部
32 予備メモリチップ切替部
33 キャッシュライン単位カウント部
34、63 ページ閉塞部
52 ランク
61 切替前後判断部
62 障害ページ通知部
81 ランク単位発生回数カウント部

Claims (10)

  1. メモリチップおよび予備メモリチップを有するメモリ装置と、
    情報処理装置とを含み、
    前記情報処理装置は、
    前記メモリチップに発生する障害の発生回数の総和をカウントする発生回数総和カウント手段と、
    前記発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替手段と、
    前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウント手段と、
    前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞し、前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞するページ閉塞手段と、
    を備えたメモリ障害処理システム。
  2. 前記メモリ装置は、前記メモリチップおよび前記予備メモリチップによってそれぞれ構成される複数のランクを有し、
    前記情報処理装置は、
    前記障害が発生したメモリチップを含むランクが前記予備メモリチップ切替前であるか切替後であるかを判断する切替前後判断手段をさらに有し、
    前記予備メモリチップ切替手段は、前記発生回数総和が前記総和閾値を超えたとき前記ランクが前記予備メモリチップ切替前であれば前記メモリチップを前記予備メモリチップへ切り替え、
    前記キャッシュライン単位カウント手段は、前記予備メモリチップ切替後であると判断されたランクに含まれるメモリチップで発生した障害の発生回数を前記キャッシュライン単位でカウントすることを特徴とする請求項1に記載のメモリ障害処理システム。
  3. 前記情報処理装置は、
    前記予備メモリチップ切替後に発生する障害の発生回数を前記ランク単位でカウントするランク単位カウント手段をさらに備え、
    前記ページ閉塞手段は、前記発生回数総和が前記総和閾値を超える前に前記ランク単位発生回数がランク単位閾値を超えた場合、該当するランクに対応付けられた各キャッシュラインをそれぞれ含むメモリページを閉塞すること特徴とする請求項2に記載のメモリ障害処理システム。
  4. 前記総和閾値は、前記キャッシュライン単位閾値より大きいことを特徴とする請求項1から請求項3のいずれかに記載のメモリ障害処理システム。
  5. 前記ランク単位閾値は、前記総和閾値より小さく前記キャッシュライン単位閾値より大きいことを特徴とする請求項3に記載のメモリ障害処理システム。
  6. メモリチップおよび予備メモリチップを有するメモリ装置に接続され、
    前記メモリチップに発生する障害の発生回数の総和をカウントする発生回数総和カウント手段と、
    前記発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替手段と、
    前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウント手段と、
    前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞し、前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞するページ閉塞手段と、
    を備えた情報処理装置。
  7. 前記メモリ装置が前記メモリチップおよび前記予備メモリチップによってそれぞれ構成される複数のランクを有するとき、
    前記障害が発生したメモリチップを含むランクが前記予備メモリチップ切替前であるか切替後であるかを判断する切替前後判断手段をさらに備え、
    前記予備メモリチップ切替手段は、前記発生回数総和が前記総和閾値を超えたとき前記ランクが前記予備メモリチップ切替前であれば前記メモリチップを前記予備メモリチップへ切り替え、
    前記キャッシュライン単位カウント手段は、前記予備メモリチップ切替後であると判断されたランクに含まれるメモリチップで発生した障害の発生回数を前記キャッシュライン単位でカウントすることを特徴とする請求項6に記載の情報処理装置。
  8. メモリチップおよび予備メモリチップを有するメモリ装置と、前記メモリ装置に接続された情報処理装置とを備えたメモリ障害処理システムを用いて、
    前記メモリチップに発生する障害の発生回数の総和をカウントする発生回数総和カウントステップと、
    前記発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替ステップと、
    前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウントステップと、
    前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞するメモリページ閉塞ステップと、
    前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞する障害発生毎ページ閉塞ステップと、
    を実行するメモリ障害処理方法。
  9. 前記メモリ装置が前記メモリチップおよび前記予備メモリチップによってそれぞれ構成される複数のランクを有するとき、前記メモリ障害処理システムを用いて、
    前記障害が発生したメモリチップを含むランクが前記予備メモリチップ切替前であるか切替後であるかを判断する切替前後判断ステップをさらに実行し、
    前記予備メモリチップ切替ステップは、前記発生回数総和が前記総和閾値を超えたとき前記ランクが前記予備メモリチップ切替前であれば前記メモリチップを前記予備メモリチップへ切り替え、
    前記キャッシュライン単位カウントステップは、前記予備メモリチップ切替後であると判断されたランクに含まれるメモリチップで発生した障害の発生回数を前記キャッシュライン単位でカウントすることを特徴とする請求項8に記載のメモリ障害処理方法。
  10. メモリチップおよび予備メモリチップを有するメモリ装置と、前記メモリ装置に接続された情報処理装置とを備えたメモリ障害処理システムに、
    前記メモリチップに発生する障害の発生回数総和が総和閾値を超えると、前記障害が発生したメモリチップを前記予備メモリチップに切り替える予備メモリチップ切替ステップと、
    前記予備メモリチップ切替後に発生する障害の発生回数を、前記障害の発生箇所に対応するキャッシュライン単位でカウントするキャッシュライン単位カウントステップと、
    前記切替後の発生回数総和が前記総和閾値を超える前に前記キャッシュライン単位発生回数がキャッシュライン単位閾値を超えた場合、該キャッシュラインを含むメモリページを閉塞するページ閉塞ステップと、
    前記キャッシュライン単位発生回数が前記キャッシュライン単位閾値を超える前に前記切替後の発生回数総和が前記総和閾値を超えた以降は、前記障害が発生する毎に前記メモリページを閉塞する障害発生毎ページ閉塞ステップと、
    を実行させるメモリ障害処理プログラム。
JP2010009992A 2010-01-20 2010-01-20 メモリ障害処理システム、および、メモリ障害処理方法 Expired - Fee Related JP4877396B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010009992A JP4877396B2 (ja) 2010-01-20 2010-01-20 メモリ障害処理システム、および、メモリ障害処理方法
US13/009,565 US8261137B2 (en) 2010-01-20 2011-01-19 Apparatus, a method and a program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010009992A JP4877396B2 (ja) 2010-01-20 2010-01-20 メモリ障害処理システム、および、メモリ障害処理方法

Publications (2)

Publication Number Publication Date
JP2011150469A JP2011150469A (ja) 2011-08-04
JP4877396B2 true JP4877396B2 (ja) 2012-02-15

Family

ID=44278441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010009992A Expired - Fee Related JP4877396B2 (ja) 2010-01-20 2010-01-20 メモリ障害処理システム、および、メモリ障害処理方法

Country Status (2)

Country Link
US (1) US8261137B2 (ja)
JP (1) JP4877396B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719493B2 (en) * 2012-03-21 2014-05-06 Dell Products L.P. Memory controller-independent memory sparing
JP6163855B2 (ja) * 2013-04-30 2017-07-19 富士通株式会社 ストレージシステム、制御装置、制御プログラムおよび制御方法
WO2015059804A1 (ja) * 2013-10-24 2015-04-30 株式会社日立製作所 ストレージシステムおよびその制御方法
CN104991835A (zh) * 2015-06-11 2015-10-21 浪潮电子信息产业股份有限公司 一种rank的备份方法及装置
JP6679122B1 (ja) * 2019-03-19 2020-04-15 Necプラットフォームズ株式会社 メモリ障害対処システム、情報処理装置及びメモリ障害対処方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01204165A (ja) * 1988-02-09 1989-08-16 Fujitsu Ltd メモリ縮退制御方式
JPH03147162A (ja) * 1989-11-02 1991-06-24 Nec Field Service Ltd 交代メモリーへの自動切替え方式
JP3022687B2 (ja) * 1992-08-12 2000-03-21 北陸日本電気ソフトウェア株式会社 メモリ障害処理方式
JPH0827733B2 (ja) * 1993-07-06 1996-03-21 日本電気株式会社 障害処理システム
JP3070453B2 (ja) * 1995-09-20 2000-07-31 日本電気株式会社 計算機システムのメモリ障害回復方法および回復システム
JPH09146849A (ja) * 1995-11-21 1997-06-06 Nec Corp 情報処理システム及びそのメモリ再構成方法
US5835930A (en) * 1996-04-09 1998-11-10 International Business Machines Corporation One or more logical tracks per physical track in a headerless disk drive
DE19838861A1 (de) * 1998-08-26 2000-03-02 Siemens Ag Verfahren zur Reparatur von defekten Speicherzellen eines integrierten Speichers
DE19917588A1 (de) * 1999-04-19 2000-11-02 Siemens Ag Halbleiterspeicheranordnung mit BIST
US6691252B2 (en) * 2001-02-23 2004-02-10 Hewlett-Packard Development Company, L.P. Cache test sequence for single-ported row repair CAM
DE10131015C2 (de) * 2001-06-27 2003-12-04 Infineon Technologies Ag Verfahren zur Beurteilung der Qualität einer eine Vielzahl von Speicherzellen aufweisenden Speichereinheit
US20030023922A1 (en) * 2001-07-25 2003-01-30 Davis James A. Fault tolerant magnetoresistive solid-state storage device
US7424663B2 (en) * 2005-01-19 2008-09-09 Intel Corporation Lowering voltage for cache memory operation
JP4369523B2 (ja) * 2006-02-27 2009-11-25 富士通株式会社 縮退制御装置
JP2007299213A (ja) * 2006-04-28 2007-11-15 Fujitsu Ltd Raid制御装置および障害監視方法
JP2008204041A (ja) * 2007-02-19 2008-09-04 Hitachi Ltd ストレージ装置及びデータ配置制御方法
US8527819B2 (en) * 2007-10-19 2013-09-03 Apple Inc. Data storage in analog memory cell arrays having erase failures
US8400854B2 (en) * 2009-09-11 2013-03-19 Sandisk Technologies Inc. Identifying at-risk data in non-volatile storage
US7954021B2 (en) * 2009-10-23 2011-05-31 International Business Machines Corporation Solid state drive with flash sparing

Also Published As

Publication number Publication date
US20110179318A1 (en) 2011-07-21
US8261137B2 (en) 2012-09-04
JP2011150469A (ja) 2011-08-04

Similar Documents

Publication Publication Date Title
KR101374455B1 (ko) 메모리 에러와 리던던시
US7350007B2 (en) Time-interval-based system and method to determine if a device error rate equals or exceeds a threshold error rate
KR100878550B1 (ko) 메모리 컨트롤러 및 메모리 제어 방법
US8689041B2 (en) Method for protecting data in damaged memory cells by dynamically switching memory mode
US20040168101A1 (en) Redundant memory system and memory controller used therefor
JP4877396B2 (ja) メモリ障害処理システム、および、メモリ障害処理方法
US7734949B2 (en) Information error recovery apparatus and methods
JP2012113466A (ja) メモリコントローラ及び情報処理システム
US8782485B2 (en) Hierarchical channel marking in a memory system
CN106463179A (zh) 利用存储器控制器处理数据错误事件的方法、装置和系统
EP2770507B1 (en) Memory circuits, method for accessing a memory and method for repairing a memory
JP5506908B2 (ja) 集積回路における故障耐性
US20160357650A1 (en) Dynamic cache row fail accumulation due to catastrophic failure
WO2023020031A1 (zh) 一种内存故障恢复方法、系统以及内存
US20140101481A1 (en) Per-rank channel marking in a memory system
JP2019095893A (ja) 半導体装置
JP5451087B2 (ja) 障害処理装置および方法
CN114360623A (zh) 用于存储器纠错的方法、存储器控制器及计算机系统
CN100437527C (zh) 存储器装置
CN116401085A (zh) 内存异常处理方法、设备及存储介质
WO2008004330A1 (fr) Système à processeurs multiples
CN102479119A (zh) 动态切换存储器模式以保护受损记忆胞数据的方法
JP5910356B2 (ja) 電子装置、電子装置制御方法及び電子装置制御プログラム
CN115421962A (zh) 可纠正内存故障的处置方法、系统、存储介质和终端
WO2020189617A1 (ja) メモリ障害対処システム、情報処理装置及びメモリ障害対処方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

R150 Certificate of patent or registration of utility model

Ref document number: 4877396

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees