JP5464347B2 - メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム - Google Patents

メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム Download PDF

Info

Publication number
JP5464347B2
JP5464347B2 JP2010035991A JP2010035991A JP5464347B2 JP 5464347 B2 JP5464347 B2 JP 5464347B2 JP 2010035991 A JP2010035991 A JP 2010035991A JP 2010035991 A JP2010035991 A JP 2010035991A JP 5464347 B2 JP5464347 B2 JP 5464347B2
Authority
JP
Japan
Prior art keywords
memory
node controller
data
failure
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010035991A
Other languages
English (en)
Other versions
JP2011170755A (ja
Inventor
英之 和田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010035991A priority Critical patent/JP5464347B2/ja
Publication of JP2011170755A publication Critical patent/JP2011170755A/ja
Application granted granted Critical
Publication of JP5464347B2 publication Critical patent/JP5464347B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明はメモリDIMM(Dual Inline Memory Module)のマルチビットエラーやメモリコントローラ障害が発生した場合でもシステムの運用を継続することに関する。
近年では障害が発生しても動作が停止することなく、保守介入が可能なシステムが求められている。メモリに関しても同様の要求があり、その対策の1つがメモリRAIDによる冗長化である。
このような、メモリRAIDの冗長化に関する技術が例えば特許文献1に記載されている。特許文献1に記載の技術では、以下のような構成を提案している。
特許文献1に記載のメモリシステムにおいては、第1のデータ・メモリは、第1のメモリ・コントローラに、第2のデータ・メモリは、第2のメモリ・コントローラに、パリティ・メモリは、パリティ・コントローラに結合され、パリティ・コントローラは、第1および第2のメモリ・コントローラに直接結合される。パリティ・データ制御ロジックは、第1および第2のデータ・メモリ内のデータと関連付けられたパリティ情報を記憶して取り出し、パリティ・データ制御ロジックは、第1のデータ・メモリ内のデータと関連付けられたパリティ・データを、前記第2のデータ・メモリ内のデータと関連付けられたパリティ・データと、パリティ・メモリ内でインタリーブする。そして、上述のような構成をとることによりメモリ・コントローラ・レベルのRAIDに必要とされるシステムの複雑化を防ぐことが可能となる。
特開2005−108224号公報
マルチビットエラーなどのメモリDIMMの障害やメモリコントローラの障害が発生した場合、当該DIMMやメモリコントローラは自配下のデータが保証できなくなるためシステムの停止などを引き起こしていた。これを回避するために例えば特許文献1に記載の技術のようにメモリの二重化やメモリRAIDが行われている。しかし、二重化やデータのストライピング及びパリティ生成・チェックを集中管理しているため、パリティ生成部やデータ復号部に負荷が集中し、性能の低下が発生していた。また、複数のストライピングデータを1つのRAIDメモリコントローラが制御しているため、当該コントローラで障害が発生した場合にシステムダウンが回避できなかった。例えば特許文献1に記載の技術では、メモリへの書き込みに関してはパリティデータ制御ロジック460が、メモリからの読み出しデータのパリティチェック及びデータ復号化は各Dコントローラ内のパリティ制御ロジックが行っている。また、各Dコントローラ内のメモリ制御ロジックが一括して配下のメモリへのアクセスを行っている。(図6参照。なお図6は特許文献1の図4に相当する図面である。)
つまり、一般的なメモリRAIDはRAIDアーキテクチャが集中管理されており、システムの性能がRAIDコントローラの性能に左右されていた。また、当該RAIDコントローラ部で障害が発生した場合にシステムの停止を引き起こすことが懸念されていた。
そこで、本発明は、RAIDコントローラ部で障害が発生した場合にシステムの停止を引き起こすことがないメモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラムを提供することを目的とする。
本発明の第1の観点によれば、演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置であって、前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をし、該格納は前記複数のメモリコントローラのそれぞれが、前記データを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われることを特徴とするメモリ障害処理装置が提供される。
本発明の第2の観点によれば、複数のメモリ障害装置を有するメモリ障害処理システムにおいて、前記複数のメモリ障害装置が上記のメモリ障害装置であることを特徴とするメモリ障害処理システムが提供される。
本発明の第3の観点によれば、演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置が行うメモリ障害処理方法であって、前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をし、該格納は前記複数のメモリコントローラのそれぞれが、前記データを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われることを特徴とするメモリ障害処理方法が提供される。
本発明の第4の観点によれば、演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置であって、前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をし、該格納は前記複数のメモリコントローラのそれぞれが、前記データを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われるメモリ障害処理装置としてコンピュータを機能させることを特徴とするメモリ障害処理プログラムが提供される。
本発明によれば、RAID機能の分散化によりRAID構築処理が分散・平準化されることから、RAID機能を持つメモリコントローラの1つが障害により停止或いはデータの不整合が発生しても、データの再構築が可能となる。
本発明の実施形態の基本的構成を表す図である。 書き込みアクセス時のデータのやり取りを模式的に表す図である。 本発明の実施形態の基本的動作を表すフローチャートである。 読み込みアクセス時のデータのやり取りを模式的に表す図である。 書き込みアクセス時の動作を表すフローチャートである。 関連する技術を説明するための図である(特許文献1の図4に相当する図である。)。
まず、本発明の実施形態の概略を説明する。本発明の実施形態は、概略、以下のようなものである。
CPUからのメモリへのデータ書き込み時は、メモリアクセスをノードコントローラで一旦受けた後、全てのメモリコントローラへとトランザクションを転送する。トランザクションを受け取った各メモリコントローラは共通するRAIDアーキテクチャを持ち、アドレスから自配下のメモリへのアクセスであるかを判断し、自配下のメモリに対するアクセスである場合は、該当するストライピングデータの書き込みを行う。
CPUからメモリへのデータ読み出し時は、書き込み時と同様にメモリアクセスをノードコントローラで一旦受けた後、全てのメモリコントローラへとトランザクションを転送する。各メモリコントローラはアドレスから自配下のメモリへのアクセスであるかを判断し、自配下のメモリに対するアクセスである場合は、該当するストライピングデータを返却する。ノードコントローラは各メモリコントローラと同等のRAIDアーキテクチャを持ち、各メモリコントローラから返却されたデータを取りまとめてCPUへとデータを返却する。メモリDIMMの訂正不可能なエラーやメモリコントローラの障害が発生した場合には、ノードコントローラがデータを訂正してCPUへとデータを転送する。
次に、本発明の実施形態について図面を用いて詳細に説明する。
図1を参照すると、図1には本実施形態である複数のCELLからなるシステムが示されている。本システムは第1のCELL100、第2のCELL200、第3のCELL300及び第4のCELL400を有する。なお今回は説明の便宜上CELLの数を4つとしているが、これは本実施形態のCELLの数を限定するものではない。4つ以外の個数のCELLで本システムを実現するようにしてもよい。
第1のCELL100は、CPU111〜114、ノードコントローラ121及びメモリコントローラ131、132を有している。また、同様に第2のCELL200は、CPU211〜214、ノードコントローラ221及びメモリコントローラ231、232を有している。また、第3のCELL300は、CPU311〜314、ノードコントローラ321及びメモリコントローラ331、332を有している。また、第4のCELL400は、CPU411〜414、ノードコントローラ421及びメモリコントローラ431、432を有している。また、各CELLに実装されている各メモリコントローラにはメモリDIMMが接続されている。なお、各CELLのそれぞれは、本願発明の「メモリ障害処理装置」に相当する。また、複数のCELLを組み合わせたシステムは、本願発明の「メモリ障害処理システム」に相当する。
次に、上述した各部の機能について説明する。
CPU111〜114、CPU211〜214、CPU311〜314及びCPU411〜414は演算処理装置である。これら各CPUは各CELLのノードコントローラを経由して、メモリに対してのアクセス要求を行う。アクセス要求には書き込み及び読み込みの2つがある。
ノードコントローラ121、ノードコントローラ221、ノードコントローラ321及びノードコントローラ421は、各CPU唐のアクセス要求を受け取り他のノードコントローラに転送する。また、各メモリコントローラから返却されたストライピングデータやパリティは読み出し要求を行ったCPU配下のノードコントローラへと集められ、当該ノードコントローラによりデータの組み立てを行う。メモリコントローラやメモリDIMMの障害によりデータの一部が欠落した場合は、当該ノードコントローラによりデータの再構築を行ない、要求元のCPUへとデータを返却する。
メモリコントローラ131、132、231、232、331、332、431及び432は、書き込み要求があった場合に、アドレスより自配下のメモリDIMMへのアクセスであるか判断すると同時に、共通したRAIDアーキテクチャにより自配下のメモリDIMMが担当するストライピングデータ或いはパリティのみを保存する。また、読み込み要求があった場合に、各メモリコントローラは自配下のメモリDIMMへのアクセスであるかを判断すると同時に、共通したRAIDアーキテクチャにより自配下のメモリDIMMから担当するストライピングデータ或いはパリティを読み出し、上位のノードコントローラへと転送する。
次に、データのやり取りを模式的に表す図である図2と、動作を表すフローチャートである図3を用いてCPUからメモリへの書き込みアクセスが発生した場合の動作について説明する。今回は、具体例としてCPU212からメモリへの書き込みアクセスが発生した場合について説明するが、これは本実施形態の動作を限定するものではない。本実施形態では何れのCPUからもメモリへの書き込みアクセスが可能である。
まず、各々にCPU、ノードコントローラ及びメモリコントローラを有する第1のCELL100、第2のCELL200、第3のCELL300及び第4のCELL400から構成されるシステムにおいて、第2のCELL200上のCPU212からメモリへの書き込みアクセスが発生する(ステップS11)。
上記の書き込みアクセスが発生した場合、CPU212からの書き込み要求をノードコントローラ221で受け取った後、各CELLのノードコントローラ121、321、421へとそのまま転送する(ステップS12)。
次に、各ノードコントローラは配下のメモリコントローラへと当該アクセスをそのまま転送する(ステップS13)。
続いて、各メモリコントローラは予め設定された情報を元に自配下のメモリDIMMへのアクセスであるか否かを判断し、自配下のメモリアクセスである場合は、予め設定された情報を元にデータを分割してストライピングデータ或いはパリティを生成し、メモリDIMMに該当するデータ或いはパリティを格納する(ステップS14)。今回の例では、CPU212から発行されたメモリコントローラ131、132、231、232及び331の5つのメモリコントローラが処理対象となるアドレスへのメモリ書き込み要求がなされたものとする。この場合は、これらの5つのメモリコントローラのみによって処理され、各コントローラ配下のメモリDIMMにストライピングデータと場合によってはパリティを格納する。この時、データのどの部分或いはパリティを格納するかは、アドレス及び設定されたオフセットから判定される。
次に、データのやり取りを模式的に表す図である図4と、動作を表すフローチャートである図5を用いてCPUからメモリへの読み出しアクセスが発生した場合の動作について説明する。上述の書き込みアクセスと同様、本実施形態では何れのCPUからもメモリへの読み込みアクセスが可能である。
第4のCELL400上のCPU413からメモリへの読み出しアクセスが発生する(ステップS21)。
上記の読み込みアクセスが発生した場合、CPU413からの読み出し要求をノードコントローラ421で受け取った後、各CELLのノードコントローラ121、221、321へとそのまま転送する(ステップS22)。
次に、各ノードコントローラは配下のメモリコントローラへと当該アクセスをそのまま転送する(ステップS23)。
続いて、各メモリコントローラは予め設定された情報を元に自配下のメモリDIMMへのアクセスであるか否かを判断し、自配下のメモリアクセスである場合は、メモリDIMMへのデータの読み出しを行う(ステップS24)。
メモリDIMMより読み出されたデータは下位アドレス或いはパリティフラグを付加してノードコントローラへと返却される(ステップS25においてYes)。
各ノードコントローラで受け取ったデータは発行元のCPU413配下のノードコントローラ421へと集められ、当該ノードコントローラでデータの組み立てを行い、要求元のCPU413へと返却される(ステップS26)。
この際、障害によりデータが返却できない場合は(ステップS25においてNo)、メモリコントローラからエラーフラグを付加して返却する。これを受け取ったノードコントローラ421は残りのストライピングデータ及びパリティからデータを再構築し、要求元のCPU413へと返却する(ステップS27)。
以上説明した本発明の実施形態は、以下に示すような効果を奏する。
第1の効果は集中管理方式に比べてデータのストライピングやパリティの生成のための時間を短くできることである。
その理由は、RAID機能の分散化によりRAID構築処理が分散・平準化されるからである。
第2の効果はRAID機能を持つメモリコントローラの1つが障害により停止或いはデータの不整合が発生しても、データの再構築が可能となることである。
その理由は、ストライピングデータ及びパリティ生成部とデータの再構築部を分離するからである。
なお、本発明の実施形態であるメモリ障害処理装置は、ハードウェアにより実現することもできるが、コンピュータをそのメモリ障害処理装置として機能させるためのプログラムをコンピュータがコンピュータ読み取り可能な記録媒体から読み込んで実行することによっても実現することができる。
また、本発明の実施形態によるメモリ障害処理方法は、ハードウェアにより実現することもできるが、コンピュータにその方法を実行させるためのプログラムをコンピュータがコンピュータ読み取り可能な記録媒体から読み込んで実行することによっても実現することができる。
また、上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1) 演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置であって、
前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、
前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、
前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をするメモリ障害処理装置としてコンピュータを機能させることを特徴とするメモリ障害処理プログラム。
(付記2) 付記1に記載のメモリ障害処理プログラムであって、
前記ノードコントローラが、前記演算処理装置からメモリ読み込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ読み込み要求を転送し、
前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ読み込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ読み込み要求を転送し、
前記複数のメモリコントローラのそれぞれは、前記メモリ読み込み要求が転送されてきた場合であって、当該読み込み要求が自配下のメモリDIMMへのものである場合に当該
読み込み要求に従ってデータの読み込みを試み、当該データの読み込みが成功した場合は前記ノードコントローラに読み込んだデータを返却し、当該データの読み込みが失敗した場合は前記ノードコントローラに失敗をした旨を返却することを特徴とするメモリ障害処理プログラム。
(付記3) 付記2に記載のメモリ障害処理プログラムであって、
前記ノードコントローラは、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ読み込み要求を転送された場合には、自配下の前記メモリDIMMから返却された前記読み込んだデータ若しくは前記失敗をした旨を、自身に接続されている他のメモリ障害処理装置のノードコントローラに転送し、
前記ノードコントローラは、自身が前記演算処理装置からメモリ読み込み要求を受けつけた場合には、自身に接続されている他のメモリ障害処理装置のノードコントローラから転送されてきた前記読み込んだデータ若しくは前記失敗をした旨、及び、自配下の前記メモリDIMMから返却された前記読み込んだデータ若しくは前記失敗をした旨、を用いてデータを組み立て又は再構築し、当該組み立て又は再構築したデータを前記メモリ読み込み要求した前記演算処理装置に返却することを特徴とするメモリ障害処理プログラム。
(付記4) 付記1乃至3の何れか1項に記載のメモリ障害処理プログラムであって、
前記データの格納は、予め設定された情報を元にデータを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われることを特徴とするメモリ障害処理プログラム。
100 第1のCELL
111、112、113、114、211、212、213、214、311、312、313、314、411、412、413、414 CPU
121、221、321、421 ノードコントローラ
131、132、231、232、331、332、431、432 メモリコントローラ
200 第2のCELL
300 第3のCELL
400 第4のCELL

Claims (10)

  1. 演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置であって、
    前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、
    前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、
    前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をし、該格納は前記複数のメモリコントローラのそれぞれが、前記データを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われることを特徴とするメモリ障害処理装置。
  2. 請求項1に記載のメモリ障害処理装置であって、
    前記格納された前記データの読み込み時には、前記ノードコントローラが、前記データを組み立て又は再構築し、当該組み立て又は再構築したデータをメモリ読み込み要求した前記演算処理装置に返却することを特徴とするメモリ障害処理装置。
  3. 請求項1又は2に記載のメモリ障害処理装置であって、
    前記ノードコントローラが、前記演算処理装置からメモリ読み込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ読み込み要求を転送し、
    前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ読み込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ読み込み要求を転送し、
    前記複数のメモリコントローラのそれぞれは、前記メモリ読み込み要求が転送されてきた場合であって、当該読み込み要求が自配下のメモリDIMMへのものである場合に当該読み込み要求に従ってデータの読み込みを試み、当該データの読み込みが成功した場合は前記ノードコントローラに読み込んだデータを返却し、当該データの読み込みが失敗した場合は前記ノードコントローラに失敗をした旨を返却することを特徴とするメモリ障害処理装置。
  4. 請求項に記載のメモリ障害処理装置であって、
    前記ノードコントローラは、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ読み込み要求を転送された場合には、自配下の前記メモリDIMMから返却された前記読み込んだデータ若しくは前記失敗をした旨を、自身に接続されている他のメモリ障害処理装置のノードコントローラに転送し、
    前記ノードコントローラは、自身が前記演算処理装置からメモリ読み込み要求を受けつけた場合には、自身に接続されている他のメモリ障害処理装置のノードコントローラから転送されてきた前記読み込んだデータ若しくは前記失敗をした旨、及び、自配下の前記メモリDIMMから返却された前記読み込んだデータ若しくは前記失敗をした旨、を用いてデータを組み立て又は再構築し、当該組み立て又は再構築したデータを前記メモリ読み込み要求した前記演算処理装置に返却することを特徴とするメモリ障害処理装置。
  5. 複数のメモリ障害装置を有するメモリ障害処理システムにおいて、前記複数のメモリ障害処理装置が請求項1乃至4の何れか1項に記載のメモリ障害処理装置であることを特徴とするメモリ障害処理システム。
  6. 演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置が行うメモリ障害処理方法であって、
    前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、
    前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、
    前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をし、該格納は前記複数のメモリコントローラのそれぞれが、前記データを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われることを特徴とするメモリ障害処理方法。
  7. 請求項6に記載のメモリ障害処理方法であって、
    前記格納された前記データの読み込み時には、前記ノードコントローラが、前記データを組み立て又は再構築し、当該組み立て又は再構築したデータをメモリ読み込み要求した前記演算処理装置に返却することを特徴とするメモリ障害処理方法。
  8. 請求項6又は7に記載のメモリ障害処理方法であって、
    前記ノードコントローラが、前記演算処理装置からメモリ読み込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ読み込み要求を転送し、
    前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ読み込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ読み込み要求を転送し、
    前記複数のメモリコントローラのそれぞれは、前記メモリ読み込み要求が転送されてきた場合であって、当該読み込み要求が自配下のメモリDIMMへのものである場合に当該読み込み要求に従ってデータの読み込みを試み、当該データの読み込みが成功した場合は前記ノードコントローラに読み込んだデータを返却し、当該データの読み込みが失敗した場合は前記ノードコントローラに失敗をした旨を返却することを特徴とするメモリ障害処理方法。
  9. 請求項に記載のメモリ障害処理方法であって、
    前記ノードコントローラは、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ読み込み要求を転送された場合には、自配下の前記メモリDIMMから返却された前記読み込んだデータ若しくは前記失敗をした旨を、自身に接続されている他のメモリ障害処理装置のノードコントローラに転送し、
    前記ノードコントローラは、自身が前記演算処理装置からメモリ読み込み要求を受けつけた場合には、自身に接続されている他のメモリ障害処理装置のノードコントローラから転送されてきた前記読み込んだデータ若しくは前記失敗をした旨、及び、自配下の前記メモリDIMMから返却された前記読み込んだデータ若しくは前記失敗をした旨、を用いてデータを組み立て又は再構築し、当該組み立て又は再構築したデータを前記メモリ読み込み要求した前記演算処理装置に返却することを特徴とするメモリ障害処理方法。
  10. 演算処理装置と、前記演算処理装置に接続されたノードコントローラと、前記ノードコントローラに接続された複数のメモリコントローラと、前記複数のメモリコントローラのそれぞれの配下にあるメモリDIMM(Dual Inline Memory Module)と、を備えたメモリ障害処理装置であって、
    前記ノードコントローラが、前記演算処理装置からメモリ書き込み要求を受けつけた場合には、自身に接続されている前記複数のメモリコントローラのそれぞれと、自身に接続されている他のメモリ障害処理装置のノードコントローラと、に当該メモリ書き込み要求を転送し、
    前記ノードコントローラが、自身に接続されている他のメモリ障害処理装置のノードコントローラからメモリ書き込み要求を転送された場合には、自身に接続されている前記複数のメモリコントローラのそれぞれに当該メモリ書き込み要求を転送し、
    前記複数のメモリコントローラのそれぞれは、前記メモリ書き込み要求が転送されてきた場合であって、当該書き込み要求が自配下のメモリDIMMへのものである場合に当該書き込み要求に従ってデータの格納をし、該格納は前記複数のメモリコントローラのそれぞれが、前記データを分割してストライピングデータ或いはパリティを生成し、当該生成したストライピングデータ或いはパリティを格納することにより行われるメモリ障害処理装置としてコンピュータを機能させることを特徴とするメモリ障害処理プログラム。
JP2010035991A 2010-02-22 2010-02-22 メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム Expired - Fee Related JP5464347B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010035991A JP5464347B2 (ja) 2010-02-22 2010-02-22 メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010035991A JP5464347B2 (ja) 2010-02-22 2010-02-22 メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム

Publications (2)

Publication Number Publication Date
JP2011170755A JP2011170755A (ja) 2011-09-01
JP5464347B2 true JP5464347B2 (ja) 2014-04-09

Family

ID=44684789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010035991A Expired - Fee Related JP5464347B2 (ja) 2010-02-22 2010-02-22 メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム

Country Status (1)

Country Link
JP (1) JP5464347B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3736134B2 (ja) * 1998-08-28 2006-01-18 日本電信電話株式会社 分散記憶方法及び分散記憶システム及び分散記憶プログラムを記録した記録媒体
US6904556B2 (en) * 2001-08-09 2005-06-07 Emc Corporation Systems and methods which utilize parity sets
US7099994B2 (en) * 2003-09-29 2006-08-29 Hewlett-Packard Development Company, L.P. RAID memory system

Also Published As

Publication number Publication date
JP2011170755A (ja) 2011-09-01

Similar Documents

Publication Publication Date Title
US10452498B2 (en) Fault tolerance for persistent main memory
US10191676B2 (en) Scalable storage protection
US8307159B2 (en) System and method for providing performance-enhanced rebuild of a solid-state drive (SSD) in a solid-state drive hard disk drive (SSD HDD) redundant array of inexpensive disks 1 (RAID 1) pair
JP5404804B2 (ja) ストレージサブシステム
US20090327803A1 (en) Storage control device and storage control method
US9632870B2 (en) Memory system with multiple striping of raid groups and method for performing the same
US20120324156A1 (en) Method and system of organizing a heterogeneous memory architecture
US20160217040A1 (en) Raid parity stripe reconstruction
US20220035529A1 (en) Memory system with multiple striping of raid groups and method for performing the same
TW201324130A (zh) 複數個磁碟陣列系統之資料儲存方法及資料儲存系統
CN112912851B (zh) 用于寻址的系统和方法、以及媒体控制器
TW201107981A (en) Method and apparatus for protecting the integrity of cached data in a direct-attached storage (DAS) system
JP2013125513A (ja) 不揮発性半導体記憶装置及びその管理方法
CN105786721A (zh) 一种内存地址映射管理方法及处理器
US20200341873A1 (en) Data access method, apparatus and computer program product
US9147499B2 (en) Memory operation of paired memory devices
JP5464347B2 (ja) メモリ障害処理装置、メモリ障害処理方法及びメモリ障害処理プログラム
US20150162102A1 (en) Method and System for Reliable Big Capacity Storage System Protected by Triple Protection
JP4843695B2 (ja) ディスクアレイ制御装置及びディスクアレイ装置
JP5213061B2 (ja) ミラーリング制御装置、ミラーリング制御回路、ミラーリング制御方法およびそのプログラム
WO2016122602A1 (en) Systems and methods for sharing non-volatile memory between multiple access models
KR20210093821A (ko) Raid 기반의 스토리지 장치
JP2014106811A (ja) 記憶装置、冗長性回復方法、およびプログラム
JP2012185575A (ja) ストレージシステム及びリビルド処理高速化方法
JP2015194942A (ja) キャッシュ装置、ストレージ装置、キャッシュ制御方法、及びストレージ制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140107

R150 Certificate of patent or registration of utility model

Ref document number: 5464347

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees