JP6558012B2 - ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム - Google Patents

ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム Download PDF

Info

Publication number
JP6558012B2
JP6558012B2 JP2015060432A JP2015060432A JP6558012B2 JP 6558012 B2 JP6558012 B2 JP 6558012B2 JP 2015060432 A JP2015060432 A JP 2015060432A JP 2015060432 A JP2015060432 A JP 2015060432A JP 6558012 B2 JP6558012 B2 JP 6558012B2
Authority
JP
Japan
Prior art keywords
information
storage system
failure
node
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015060432A
Other languages
English (en)
Other versions
JP2016181079A (ja
Inventor
津代志 葛西
津代志 葛西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015060432A priority Critical patent/JP6558012B2/ja
Publication of JP2016181079A publication Critical patent/JP2016181079A/ja
Application granted granted Critical
Publication of JP6558012B2 publication Critical patent/JP6558012B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラムに関する。
多くのデータを記憶するストレージシステムにおいて、グリッドストレージと呼ばれる技術が用いられつつある。グリッドストレージ技術を用いたストレージシステム10は、各々がディスクドライブ等を備える複数のノードにて構成される。そして、このストレージシステムにおいては、複数のノードが一つのストレージとして動作する。
ストレージシステムの稼働中には、個々のノードに障害が発生する場合がある。この場合に、当該ストレージシステムを用いた業務が継続できるよう、障害が発生したノードに関して適切に処置が行われることが必要となる。
特許文献1には、仮想化ストレージを備える計算機システムの管理サーバ等に関する技術が記載されている。特許文献1に記載の技術においては、仮想化ストレージもしくはストレージ管理サーバで、被仮想化ストレージの障害を検知した場合、管理サーバで当該障害による波及範囲を調べ、対処が必要なデバイスが特定される。また、特許文献1に記載の技術においては、当該デバイスの性能や信頼性等の属性に適用する移行先デバイスを決定し、仮想化ストレージに対してデバイス移行が指示される。そして、特許文献1に記載の技術において、仮想化ストレージでは、指示された被仮想化ストレージ内デバイスが、管理サーバにより指定される自装置内デバイスもしくは別の被仮想化ストレージ内デバイスへ移行される。
特許文献2には、ストレージ装置等に関する技術が記載されている。特許文献2に記載のストレージ装置は、判定部と、選択部とを有する。判定部は、複数の記憶媒体で構成されるストレージグループの運用を、ストレージグループのアクセス対象である論理ボリュームへのアクセス動作に基づいて判定する。選択部は、ストレージグループを構成する記憶媒体の故障が検知された場合、判定部によって判定されたストレージグループの運用に基づいて、故障が検知された記憶媒体の代替記憶媒体を選択する。
特許文献3には、ディスク制御装置に関する技術が記載されている。特許文献3に記載されている制御装置において、コントローラモジュールは、閉塞経路判定手段と、切り離し制御手段とを備える。この閉塞経路判定手段は、通信経路上で異常が生じた部位の閉塞によって複数のコントロールモジュール間で通信ができなくなった場合に、二重化されていないデータを保持するコントロールモジュールを優先的に切り離し対象とする。また、切り離し制御手段は、閉塞経路判定手段によって切り離し対象とされたコントロールモジュールを使用不可の状態に設定する。
特許文献4には、ストレージ機器管理方法等に関する技術が記載されている。特許文献3に記載のストレージ機器管理方法は、ストレージ機器に関して、どのような判定対象が、どのような条件を満たしたとき、どのようなアクションを実行するかを規定したポリシーを設定する。そして、特許文献3に記載のストレージ機器管理方法は、ストレージ機器の使用状況に関する情報を収集し、収集した情報に基づいてポリシーの判定対象の値を求め、判定対象の値がポリシーの条件を満足するか否かを判定する。この判定で、ポリシーの条件を満足するとき、特許文献3に記載のストレージ機器管理方法は、ポリシーのアクションを実行する。
特開2005−326935号公報 特開2013−020544号公報 特開2007−200171号公報 特開2003−345632号公報
グリッドストレージ技術を用いたストレージシステムにおいて、ノードに障害が発生した場合の処置は、使用状況や障害の内容等を考慮して選択される必要がある。すなわち、ストレージシステムを構成するノードに障害が発生した場合には、当該ストレージシステムを利用する他のシステム等への影響が小さくなるような処置が行われることが好ましい。しかしながら、上述した各特許文献に記載の技術では、障害発生時の処置に改善の余地がある。
本発明は、上記課題を解決するためになされたものであって、障害発生時における影響を軽減するストレージ管理装置等を提供することを主たる目的とする。
本発明の一態様におけるストレージ管理装置は、ストレージシステムを構成する複数のノードの各々における障害に関する情報である障害情報を取得する障害情報取得手段と、ストレージステムの使用状況の予測に関する情報である使用状況情報を取得する使用状況取得手段と、ノードの各々に障害が発生した場合における影響に関する情報である影響度情報を取得する影響度取得手段と、障害情報がノードの少なくとも一つにおける障害を示す場合に、使用状況情報及び影響度情報に基づいて、障害の発生を示すノードの各々をストレージシステムから切り離すか否かを判断する判断手段とを備える。
本発明の一態様におけるストレージ管理方法は、ストレージシステムを構成する複数のノードの各々における障害に関する情報である障害情報を取得し、ストレージステムの使用状況の予測に関する情報である使用状況情報を取得し、ノードの各々に障害が発生した場合における影響に関する情報である影響度情報を取得し、障害情報が前記ノードの少なくとも一つにおける障害を示す場合に、使用状況情報及び影響度情報に基づいて、障害の発生を示すノードの各々をストレージシステムから切り離すか否かを判断する。
本発明の一態様におけるプログラムは、コンピュータに、ストレージシステムを構成する複数のノードの各々における障害に関する情報である障害情報を取得する処理と、ストレージステムの使用状況の予測に関する情報である使用状況情報を取得する処理と、ノードの各々に障害が発生した場合における影響に関する情報である影響度情報を取得する処理と、障害情報がノードの少なくとも一つにおける障害を示す場合に、使用状況情報及び影響度情報に基づいて、障害の発生を示すノードの各々をストレージシステムから切り離すか否かを判断する処理とを実行させる
本発明によると、障害発生時における影響を軽減するストレージ管理装置等を提供することができる。
本発明の第1の実施形態におけるストレージ管理装置の構成を示す図である。 本発明の実施形態におけるストレージ管理装置が管理の対象とするストレージシステムの例を説明する図である。 本発明の実施形態におけるストレージ管理装置が管理の対象とするストレージシステムにおいてデータが格納される場合の例を説明する図である。 本発明の第1の実施形態におけるストレージ管理装置の使用状況取得部にて用いられる使用状況テーブルの一例を示す図である。 本発明の第1の実施形態におけるストレージ管理装置の使用状況取得部にて用いられる影響度テーブルの一例を示す図である。 本発明の第1の実施形態におけるストレージ管理装置の一動作例に関する図である。 本発明の第1の実施形態におけるストレージ管理装置の別の一動作例に関する図である。 本発明の第1の実施形態におけるストレージ管理装置の別の一動作例に関する図である。 本発明の第1の実施形態におけるストレージ管理装置の動作を示すフローチャートである。 本発明の第1の実施形態の変形例におけるストレージ管理装置の一動作例に関する図である。 本発明の実施形態におけるストレージ管理装置を実現する情報処理装置の例を示す図である。
本発明の実施形態について、添付の図面を参照して説明する。なお、本発明の実施形態において、各装置の各構成要素は、機能単位のブロックを示している。各装置の各構成要素は、例えば図11に示すような情報処理装置500とソフトウェアとの任意の組み合わせにより実現することができる。情報処理装置500は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)501
・ROM(Read Only Memory)502
・RAM(Ramdom Access Memory)503
・RAM503にロードされるプログラム504
・プログラム504を格納する記憶装置505
・記録媒体506の読み書きを行うドライブ装置507
・ネットワーク509と接続する通信インターフェース508
・データの入出力を行う入出力インターフェース510
・各構成要素を接続するバス511
各装置の実現方法には様々な変形例がある。例えば、各装置は、専用の装置として実現することができる。また、各装置は、複数の装置の組み合わせにより実現することができる。
まず、本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態におけるストレージ管理装置の構成を示す図である。図3は、本発明の各実施形態におけるストレージ管理装置が管理の対象とするストレージシステムを説明する図である。図4は、本発明の第1の実施形態におけるストレージ管理装置の使用状況取得部にて用いられる使用状況テーブルの一例を示す図である。図5は、本発明の第1の実施形態におけるストレージ管理装置の使用状況取得部にて用いられる影響度テーブルの一例を示す図である。図6は、本発明の第1の実施形態におけるストレージ管理装置の一動作例に関する図である。図7は、本発明の第1の実施形態におけるストレージ管理装置の別の一動作例に関する図である。図8は、本発明の第1の実施形態におけるストレージ管理装置の別の一動作例に関する図である。図9は、本発明の第1の実施形態におけるストレージ管理装置の動作を示すフローチャートである。
図1に示すとおり、本発明の第1の実施形態におけるストレージ管理装置100は、障害情報取得部110と、使用状況取得部120と、影響度取得部130と、判断部140とを有する。障害情報取得部110は、ストレージシステム10を構成する複数のノード11の各々における障害に関する情報である障害情報を取得する。使用状況取得部120は、ストレージステムの使用状況の予測に関する情報である使用状況情報を取得する。影響度取得部130は、ノード11の各々に障害が発生した場合における影響に関する情報である影響度情報を取得する。判断部140は、障害情報がノード11の少なくとも一つにおける障害を示す場合に、使用状況情報及び影響度情報に基づいて、障害を示すノード11の各々をストレージシステム10から切り離すか否かを判断する。本実施形態におけるストレージ管理装置100は、例えば任意の形態にてストレージシステム10に組み込まれて実現される。なお、ノード11をストレージシステム10から切り離すとは、例えば、切り離しの対象となるノード11を論理的にストレージシステム10から分離することを意味する。すなわち、当該ノード11をストレージシステム10から切り離した場合には、ストレージシステム10は、当該ノード11を除く他のノード11によって構成されて動作する。
なお、本実施形態において、障害発生時等における影響とは、当該障害の発生に起因した各装置における動作の変化又はその程度を表す。
最初に、本発明の実施形態におけるストレージ管理装置100が主に管理の対象とするグリッドストレージ技術を用いたストレージシステムについて説明する。図2は、本発明の実施形態におけるストレージ管理装置100が主に管理の対象とするストレージシステム10の構成例を示す図である。ストレージシステム10は、各々がディスクドライブ等を備える複数のノード11であるノード11−1から11−4にて構成される。そして、ストレージシステム10においては、ノード11−1から11−4の4つのノード11が一つのストレージとして動作する。本発明の実施形態におけるストレージ管理装置100が主に管理の対象とするストレージシステム10は、ノード11が4つの場合に限られない。
ノード11−1から11−4の各々は、一つ以上のハードディスクドライブ(Hard Disk Drive:HDD)やソリッドステートドライブ(Solid State Drive)等のディスクドライブを備えるストレージ装置である。ノード11の各々においては、複数のディスクドライブが、一つの記憶領域として利用できるように構成されていてもよい。また、ノード11−1から11−4の各々を実現するストレージ装置は、自身を制御するCPUやメモリ等を備えていてもよい。そして、ノード11−1から11−4の各々を実現するストレージ装置の間は、任意の通信インターフェースにてデータの送受信が可能な形態にて接続されている。
図3を用いて、グリッドストレージ技術を用いたストレージシステム10にデータが格納される場合の例を説明する。格納対象となるデータは、図3(1)のとおり、複数のブロックに分割される。そして、分割されたブロックに対して、図3(2)に示すように、誤り訂正のためのデータであるパリティが付与される。そして、この複数のブロックに分割されたデータ及びパリティが、図3(3)に示すように、複数のノードやディスクに分割して格納される。図3(3)に示す例では、ストレージシステム10は、ノード11−1からノード11−4までの4つのノード11によって構成される。上述したデータやパリティは、ノード11−1からノード11−4までの4つのノード11に分散して格納される。
続いて、本発明の第1の実施形態におけるストレージ管理装置100の各構成要素について説明する。
障害情報取得部110は、ストレージシステム10を構成する複数のノード11の各々に関する障害情報を取得する。障害情報は、ストレージシステム10を構成する複数のノード11の各々において、主にそのハードウェアに発生した障害に関する情報である。すなわち、障害情報は、各々のノード11を構成するハードウェアに含まれる各要素の停止等を表す。上述したノード11を構成するハードウェアに含まれる要素は、例えば、ディスク、CPU、メモリ等である。しかしながら、障害情報は、各々のノード11を構成するハードウェアに含まれるその他の要素の停止等を表してもよい。
ストレージシステム10においては、複数のノード11の各々に関して、当該ノード11を構成するハードウェアの動作情報を監視する監視機構が備えられている場合がある。障害情報取得部110は、例えば、当該監視機構がノード11の各々に関する障害を検知した場合に、その障害に関する情報を障害情報として取得する。また、障害情報取得部110は、監視機構そのものを備えていてもよい。
使用状況取得部120は、使用状況情報を取得する。使用状況情報は、上述のように、ストレージシステム10の使用状況の予測に関する情報である。使用状況情報は、ストレージシステム10に対する将来の使用状況を予想するために用いられる。使用状況情報は、例えばストレージシステム10の性能を示す任意の指標毎に表される。
使用状況情報は、一例として、図4のような使用状況テーブルとして表される。図4に示す使用状況テーブルでは、各曜日について、1時間毎に、ストレージシステム10の性能を示す指標であるストレージ装置への負荷やストレージ装置に対して要求される容量の増減が表されている。
具体的には、図4に示す使用状況テーブルにおいては、負荷として、各時間帯において、ストレージ装置に備えられているCPUへの負荷が、CPUの処理能力に対する割合(%:パーセント)として表示されている。また、容量増減として、各時間帯においてストレージ装置に対して要求されるストレージの容量の変化がTB(テラバイト)単位にて表示される。
使用状況情報において、ストレージシステム10の使用状況を表す単位となる時間の間隔は、図4に示す1時間毎ではなくてもよい。すなわち、使用状況の単位となる時間の間隔は、1時間毎より短い間隔でもよいし、1時間毎より長い間隔であってもよい。また、この間隔は、一定であってもよいし、ストレージシステム10の使用状況等に応じて変化するように設定されてもよい。
図4に示す使用状況テーブルは、ストレージシステム10の使用状況の期間として、週単位での使用状況を含んでいる。しかしながら、使用状況情報は、月単位等のストレージシステム10に関するより長い期間における使用状況を含んでもよい。また、使用状況情報は、より短い期間における情報であってもよい。使用状況情報に含まれるストレージシステム10の使用状況の期間は、ストレージシステム10に関する種々の条件等に応じて適宜定められる。すなわち、使用状況情報は、例えば任意の期間における任意の間隔毎のストレージステム10の使用状況の予測に関する情報を表す。
また、使用状況情報に含まれる容量に関する情報は、図4に示す使用状況テーブルのように、必要とされる容量の増減ではなくてもよい。例えば、使用状況情報は、容量に関する条件として、必要とされる容量そのものを含んでもよい。
更に、使用状況情報として、図4に示す使用状況テーブルに含まれる情報と異なる情報が用いられてもよい。例えば、ストレージシステム10に対するアクセス数などが用いられてもよい。すなわち、使用状況情報には、ストレージステム10の使用状況の予測に関する情報として、ストレージシステム10の使用状況を示す任意の指標が含まれていてもよい。
なお、使用状況情報は、例えば予め図示しない任意の記憶手段に格納される。すなわち、使用状況取得部120は、使用状況情報として、予め図示しない任意の記憶手段に格納された情報を、必要に応じて読み込んで取得してもよい。また、使用状況取得部120は、使用状況情報を、必要に応じて図示しない任意の通信ネットワーク等を介して取得してもよい。
使用状況取得部120は、使用状況情報として、予め定められた一つの情報を、繰り返し取得して使用してもよい。又は、使用状況取得部120は、使用状況情報において規定された期間を経過した場合に、新たな使用状況情報を取得してもよい。
影響度取得部130は、影響度情報を取得する。影響度情報は、上述のように、ストレージシステムを構成するノード11の各々に障害が発生した場合における影響に関する情報である。影響度情報は、使用状況情報と同様に、例えばストレージシステム10の性能を示す任意の指標毎に表される。障害度情報は、判断部140にて当該ノード11をストレージシステム10から切り離すか否かを判断可能とするよう、ノード11をストレージシステム10から切り離した場合の影響と、ノード11の使用を継続した場合の影響とを含むことが好ましい。
本実施形態においては、ノード11をストレージシステム10から切り離すことは、当該ノード11を論理的にストレージシステム10から分離することを表す。すなわち、あるノード11がストレージシステム10から切り離された場合には、当該ストレージシステム10は、当該ノード11を除く他のノード11によって構成される。
影響度情報の一例は、一例として、図5に示すような影響度テーブルとして表される。図5に示す影響度テーブルでは、ノード11を実現するハードウェアの各構成要素に障害が発生した場合において、当該ノード11をストレージシステム10から切り離した場合の影響と、その使用を継続した場合の影響とが表されている。また、図5に示す影響度テーブルにおいては、障害が発生したノード11に起因する影響については、その程度が任意の基準にて表されている。
図5の番号「1」の欄によると、ノード11に含まれるCPUの1つが停止する障害が生じた場合には、当該ノード11をストレージシステム10から切り離すことで、ストレージシステム10の容量に対して程度が「大」の影響が生じる。また、この場合においては、当該ノード11をストレージシステム10から切り離すことによって、ストレージシステム全体の性能(処理能力)に対して、程度が「中」である影響が生じる。
これに対して、図5の上述の欄によると、ノード11に含まれるCPUの1つが停止する障害が発生した場合には、当該ノード11の使用を継続することで、ストレージシステム10全体の性能に対して程度が「小」との影響が生じる。また、この場合には、ストレージシステム10の容量に対する影響は生じない。
なお、図5に示す影響度テーブルでは、障害として、ノード11を実現するハードウェアを構成する一つの種類の要素に障害が発生した場合の影響に関する情報がそれぞれ表されている。しかしながら、影響度情報には、ノード11を実現するハードウェアの複数種類の構成要素に関して同時期に障害が発生した場合の影響に関する情報が含まれていてもよい。また、ストレージシステム10を構成するノード11の障害に起因して、ストレージシステム10の容量や、ストレージシステム10全体の性能以外の影響が発生する場合には、影響度情報は、そのような影響に関する情報を含んでもよい。すなわち、影響度情報は、ストレージシステム10の動作に関する任意の指標に対する影響を、任意の期間における任意の間隔毎に示す情報であってもよい。
また、影響度情報として、ストレージシステム10を構成する全てのノード11に対して同一の影響度情報が用いられてもよい。又は、影響度情報として、ストレージシステム10を構成するノード11毎に異なる影響度情報が用いられてもよい。その他、同一の構成を有するノード11毎に影響度情報が定められてもよい。影響度情報は、ストレージシステム10の構成や使用状況等に応じて適宜定められる。
影響度情報は、使用状況情報と同様に、例えば予め図示しない任意の記憶手段に格納される。すなわち、影響度取得部130は、影響度情報として、予め図示しない任意の記憶手段に格納された情報を、必要に応じて読み込んで取得してもよい。また、影響度取得部130は、影響度情報を、必要に応じて図示しない任意の通信ネットワーク等を介して取得してもよい。
判断部140は、ストレージシステム10を構成するノード11の少なくとも一つに障害が生じていることを障害情報が示す場合に、障害を示すノード11の各々をストレージシステム10から切り離すか否かを判断する。判断部140は、上述のように、使用状況情報及び影響度情報に基づいて、この判断を実行する。
判断部140は、一例として、ストレージシステム10に障害が発生した際の使用状況と、影響度情報が示すストレージシステム10への影響の程度とに基づいて、障害を示すノード11の各々をストレージシステム10から切り離すか否かを判断する。すなわち、判断部140は、ストレージシステム10への影響が小さくなる(つまり、ストレージシステム10が障害の未発生時に近い状態にて稼働できる)ように、障害を示すノード11の各々をストレージシステム10から切り離すか否かを判断する。
例えば、判断部140は、ノード11の少なくとも一つに障害が生じていることを障害情報が示す場合に、当該ノード11をストレージシステム10から切り離すことに起因する影響と、当該ノード11の使用を継続することに起因する影響とを比較する。そして、判断部140は、障害が発生した時点又はそれ以降の時点におけるストレージシステム10の使用状況に基づいて、影響が小さいと判断される処置を選択する。この場合における影響の程度等は、予め取得された使用状況情報及び影響度情報に基づいて、適宜定められる。
図6から図8の例を用いて、判断部140における判断の例を説明する。なお、図6から図8の例では、それぞれ、使用状況取得部120において図4に示す使用状況情報が取得され、かつ、影響度取得部130において図5に示す影響度情報が取得されるが想定されている。
図6に示す例では、障害情報取得部110が、月曜日の18時に一つのノード11において1台のディスクに障害が発生したことを示す障害情報を取得する場合が想定されている。この場合に、判断部140は、それぞれ使用状況取得部120及び影響度取得部130にて取得された使用状況情報及び影響度情報を参照する。
この場合においては、図4に示す使用状況情報によると、当該障害情報を取得した時点においては、ストレージシステム10に対する負荷は45%である。そこで、負荷は「低」(すなわち、ストレージシステム10に対する負荷は小さい)とすることができる。また、当該使用状況情報によると、ストレージシステム10に対して要求される容量の増減は0であり、ストレージシステム10に要求される容量は変化しない。
一方で、図5に示す影響度情報によると、ストレージシステム10の性能について、ストレージシステム10からノード11を切り離す場合においては、ストレージシステム10の性能への影響があり、その影響度は「中」である。また、ノード11の使用を継続する場合においては、ストレージシステム10の性能への影響はない。そして、当該影響度情報によると、ストレージシステム10の容量に関して、ストレージシステム10からノード11を切り離す場合においては、容量に影響があり、その影響度は「大」である。また、ノード11の使用を継続する場合においては、容量への影響はない。
すなわち、当該障害情報を取得した時点においては、ストレージシステム10に対して、より高い負荷が課される状況ではない。一方で、この時点においては、当該ノード11の使用を継続しても、ストレージシステム10に及ぼす影響は小さい。したがって、この場合においては、判断部140は、これらの情報に基づき、当該ディスクの障害が生じたノード11の使用を継続すると判断する。
また、図7に示す例では、障害情報取得部110が、月曜日の14時に一つのノード11において3台のディスクに障害が発生したことを示す障害情報を取得する場合が想定されている。
この場合においては、図4に示す使用状況情報によると、当該障害情報を取得した時点においては、ストレージシステム10に対する負荷は60%である。そこで、負荷は例えば「高」(すなわち、ストレージシステム10に対して高い負荷が課される)とすることができる。また、当該使用状況情報によると、ストレージシステム10に対して要求される容量の増減は0であり、ストレージシステム10に要求される容量は変化しない。
一方で、図5に示す影響度情報によると、ストレージシステム10の性能について、ストレージシステム10からノード11を切り離す場合においては、ストレージシステム10の性能への影響があり、その影響度は「中」である。また、ノード11の使用を継続する場合においても、ストレージシステム10の性能への影響があり、その影響度は「大」である。そして、当該影響度情報によると、ストレージシステム10の容量に関して、ストレージシステム10からノード11を切り離す場合においては、容量に影響があり、その影響度は「大」である。また、ノード11の使用を継続する場合においては、容量への影響はない。
すなわち、当該障害情報を取得した時点においては、ストレージシステム10に対して、より高い負荷が要求される状況である。一方で、この時点においては、当該ノード11の使用を継続することは、性能(処理能力)に関する影響が大きいことから、ストレージシステム10への負荷に関する影響が大きい。したがって、この場合においては、判断部140は、これらの情報に基づき、ストレージシステム10の負荷(処理の性能)に関する影響を小さくするよう、当該ディスクの障害が生じたノード11をストレージシステム10から切り離すと判断する。
また、図8に示す例では、障害情報取得部110が、月曜日の19時に一つのノード11において3台のディスクに障害が発生したことを示す障害情報を取得する場合が想定されている。
この場合においては、図4に示す使用状況情報によると、当該障害情報を取得した時点においては、ストレージシステム10に対する負荷は10%である。そして、その前の時点と比較すると、負荷は小さくなっている。そこで、負荷は例えば「低」(すなわち、ストレージシステム10に対する負荷は小さい)とすることができる。また、当該使用状況情報によると、ストレージシステム10に対して要求される容量の増減は+1であり、ストレージシステム10に要求される容量が増加する。
一方で、図5に示す影響度情報によると、ストレージシステム10の性能について、ストレージシステム10からノード11を切り離す場合においては、ストレージシステム10の性能への影響があり、その影響度は「中」である。また、ノード11の使用を継続する場合においても、ストレージシステム10の性能への影響があり、その影響度は「大」である。そして、当該影響度情報によると、ストレージシステム10の容量に関して、ストレージシステム10からノード11を切り離す場合においては、容量に影響があり、その影響度は「大」である。また、ノード11の使用を継続する場合においては、容量への影響はない。
すなわち、当該障害情報を取得した時点においては、ストレージシステム10に対して、より高い負荷が課される状況ではない。一方で、この時点においては、ストレージシステム10に対してより大きな容量が必要とされている。したがって、この場合においては、判断部140は、これらの情報に基づき、ストレージシステム10の容量に関する影響を小さくするよう、当該ディスクの障害が生じたノード11の使用を継続すると判断する。
つまり、一つの動作例として、判断部140は、使用状況情報に基づいて、処理能力や容量等のストレージシステム10の動作に関する指標のうちストレージシステム10の動作に対して相対的に大きな影響を及ぼす可能性がある指標を特定する。例えば、判断部140は、使用状況情報に基づいて、ストレージシステム10の動作に関する指標のうち、大きな記憶容量や高速な処理性能等の高い能力が必要とされる指標を特定する。指標が特定されると、判断部140は、当該指標に関して、当該ノード11をストレージシステム10から切り離すことに起因する影響と、当該ノード11の使用を継続することに起因する影響とを比較する。そして、判断部140は、当該指標に関して、当該ノード11をストレージシステム10から切り離すこと、及び、当該ノード11の使用を継続することのうち、影響が小さい方を選択する。
このようにすることで、判断部140は、例えばストレージシステム10を利用する他のシステム等への影響を低減するように、障害を示すノード11の各々をストレージシステム10から切り離すか否かを判断することができる。
判断部140にて判断された結果は、ストレージシステム10に通知される。ストレージ管理装置100は、例えば通信ネットワーク等を介して通知してもよい。そして、ストレージシステム10は、ストレージ管理装置100から通知された判断の結果に基づいて、必要に応じて障害が生じたノード11を切り離す等の処置を行う。
続いて、図9に示すフローチャートを用いて、本発明の第1の実施形態におけるストレージ管理装置100の動作の一例を説明する。
最初に、障害情報取得部110は、例えばストレージシステム10のノード11を構成するハードウェアの動作情報を監視する監視機構等から、障害情報を取得する(ステップS101)。
障害情報が取得されると、使用状況取得部120は、例えば予め任意の記憶手段に格納されている使用状況情報を取得する(ステップS102)。併せて、影響度取得部130は、例えば使用状況取得部120と同様にして影響度情報を取得する(ステップS103)。なお、ステップS102及びステップS103の動作は、それぞれ互いに異なる順番で行われてもよい。
続いて、判断部140は、障害が発生したノード11をストレージシステム10から切り離すことに起因する影響と、当該ノード11の使用を継続することに起因する影響とを比較する(ステップS104)。そして、判断部140は、障害の発生時点に関する使用状況情報に基づいて、影響が小さくなるように、障害が発生したノード11をストレージシステム10から切り離すか否かを判断する(ステップS105)。
判断部140にて判断された結果は、適宜ストレージシステム10に通知される。この場合に、ストレージシステム10は、判断部140にて判断された結果に応じて、ノード11の切り離し等の処理を行う。すなわち、ストレージシステム10は、判断部140にて当該ノード11をストレージシステム10から切り離すと判断された場合には、当該ノード11を切り離す。また、ストレージシステム10は、判断部140にて当該ノード11を継続して使用すると判断された場合には、当該ノード11を切り離さずに、そのまま継続して使用する。
以上のとおり、本発明の第1の実施形態におけるストレージ管理装置100は、ストレージシステム10を構成するノード11に障害が発生した場合に、使用状況情報及び影響度情報に基づいて、当該のノード11をストレージシステム10から切り離すか否かを判断する。
ストレージシステム10において、障害が発生したノード11をストレージシステム10から切り離すことで、ストレージシステム10全体の容量が減少する場合がある。この場合に、当該ストレージシステム10の運用を継続すると、ストレージシステム10の容量が不足する可能性がある。一方、障害が発生したノード11の使用を継続すると、当該ノード11の動作が遅くなることで、ストレージシステム10全体の性能が影響を受ける場合がある。この場合には、当該ストレージシステム10の運用を継続すると、ストレージシステム10は、高い負荷に対応できなくなる可能性がある。
すなわち、ストレージシステム10のノード11に障害が発生した場合に、使用状況情報や影響度情報を用いずに当該ノード11を切り離すか否かが判断されると、その後のストレージシステム10の運用に悪影響が生じる可能性がある。
これに対して、本実施形態におけるストレージ管理装置100は、上述のように、障害が生じたノード11をストレージシステム10から切り離すか否かを使用状況情報及び影響度情報に基づいて判断する。すなわち、本実施形態におけるストレージ管理装置は、ストレージシステム10を構成するノード11の障害発生時に、その後のストレージシステム10の状況に応じて、当該ノード11をストレージシステム10から切り離すか否かを判断することができる。そして、ストレージシステム10は、例えば本実施形態におけるストレージ管理装置100の判断に基づいて、必要に応じて障害が発生したノード11の切り離しを行う。そのため、ストレージシステム10を構成するノード11に障害が発生した場合においても、ストレージシステム10は、その場合におけるストレージシステム10の使用状況に応じて、障害の未発生時に近い状態にて稼働することが可能となる。したがって、本実施形態におけるストレージ管理装置100は、ストレージシステム10を構成するノード11の障害発生時における影響を軽減することを可能とする。
(第1の実施形態の変形例)
本実施形態におけるストレージ管理装置100には、主にその動作に関する変形例が考えられる。図10は、本発明の第1の実施形態の変形例におけるストレージ管理装置の一動作例に関する図である。
図6から図8の例では、判断部140は、障害情報取得部110が障害情報を取得した時点における使用状況情報及び影響度情報に基づいて、障害の発生したノード11を切り離すか否かを判断するとした。しかしながら、判断部140は、障害情報取得部110から障害情報を取得した時点に限らず、その後の時点における使用状況情報及び影響度情報に基づいて、障害の発生したノード11を切り離すか否かを判断してもよい。
この場合には、判断部140は、障害情報取得部110が障害情報を取得した時点から所定の期間だけ後の時点における使用状況情報及び影響度情報に基づいて、障害の発生したノード11を切り離すか否かを判断してもよい。または、判断部140は、障害情報取得部110が障害情報を取得した時点から所定の期間における状況使用状況情報及び影響度情報に基づいて、障害の発生したノード11を切り離すか否かを判断してもよい。
また、判断部140は、障害情報取得部110が障害情報を取得した後の複数の時点における使用状況情報及び影響度情報に基づいて、障害の発生したノード11を切り離す時期を判断してもよい。
この場合には、判断部140は、例えば、障害情報取得部110が当該障害情報を取得した時点における使用状況情報及び影響度情報に基づいて、その時点においてはノード11を継続して使用すると判断する。そして、判断部140は、障害情報取得部110が当該障害情報を取得した時点から後の時点における使用状況情報及び影響度情報に基づいて、ノード11を切り離すと判断する場合には、当該時点においてノード11を切り離すと判断する。
このようにすることで、判断部140は、障害情報取得部110が障害情報を取得した後のストレージシステム10の使用状況の変化に応じて、障害が発生したノード11を切り離すか否かを判断することが可能となる。すなわち、本変形例におけるストレージ管理装置100は、障害発生時における影響を更に軽減することが可能となる。
図10の例を用いて、本変形例における判断部140にて行われる判断の例を説明する。この例では、障害情報取得部110が、月曜日の13時に一つのノード11において3台のディスクに障害が発生したことを示す障害情報を取得する場合が想定されている。なお、図10の例では、月曜日の13時及び14時の時点に関して、使用状況取得部120において図4に示す使用状況情報が取得され、かつ、影響度取得部130において図5に示す影響度情報が取得される場合が想定されている。
この場合においては、図4に示す使用状況情報によると、当該障害情報を取得した時点においては、ストレージシステム10に対する負荷は30%である。そこで、負荷は例えば「低」とすることができる。また、当該使用状況情報によると、ストレージシステム10に対して要求される容量の増減は+1であり、ストレージシステム10に要求される容量は増加する。
一方で、図5に示す影響度情報によると、ストレージシステム10の性能について、ストレージシステム10からノード11を切り離す場合においては、ストレージシステム10の性能への影響があり、その影響度は「中」である。また、ノード11の使用を継続する場合においても、ストレージシステム10の性能への影響があり、その影響度は「大」である。そして、当該影響度情報によると、ストレージシステム10の容量に関して、ストレージシステム10からノード11を切り離す場合においては、容量に影響があり、その影響度は「大」である。また、ノード11の使用を継続する場合においては、容量への影響はない。
つまり、当該障害情報を取得した時点ある月曜日の13時においては、ストレージシステム10に対して、より多くの容量が要求される状況である。一方で、この時点においては、ストレージシステム10に対して高い負荷は必要とされていない。したがって、この場合においては、判断部140は、ストレージシステム10への容量に関する影響を小さくするよう、当該ディスクの障害が生じたノード11を継続して使用すると判断する。
一方、図4に示す使用状況情報によると、当該障害情報を取得した時点より後の時点である月曜日の14時の時点においては、ストレージシステム10に対する負荷は60%である。そのため、負荷は例えば「高」とすることができる。また、当該使用状況情報によると、ストレージシステム10に対して要求される容量の増減は0であり、ストレージシステム10に要求される容量は変化しない。
つまり、先に図6の例にて説明したように、月曜日の14時においては、ストレージシステム10に対して、より多くの容量は必要とされていない。一方で、当該ノード11の使用を継続することは、性能(処理能力)に関する影響が大きい。したがって、この場合においては、判断部140は、ストレージシステムへの性能に関する影響を小さくするよう、当該ディスクの障害が生じたノード11をストレージシステム10から切り離すと判断する。
すなわち、障害情報取得部110が例えば月曜日の13時にノード11に障害が発生したことを示す障害情報を取得する場合において、判断部140は、その後の複数時点における使用状況情報及び影響度情報を参照する。そして、判断部140は、当該ノード11をストレージシステム10から切り離した方が使用を継続した場合と比較して影響が小さいと判断される時点において、当該ノード11をストレージシステム10から切り離す。この例においては、判断部140は、例えば月曜日の14時に当該ノード11をストレージシステム10から切り離すと判断する。
このようにすることで、本変形例におけるストレージ管理装置100は、ストレージシステム10に関する将来の使用状況に応じて、障害が生じたノード11をストレージシステム10から切り離す時期を判断することが可能となる。したがって、本変形例におけるストレージ管理装置100は、障害発生時における影響を更に軽減することが可能となる。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、各実施形態における構成は、本発明のスコープを逸脱しない限りにおいて、互いに組み合わせることが可能である。
10 ストレージシステム
11 ノード
100 ストレージ管理装置
110 障害情報取得部
120 使用状況取得部
130 影響度取得部
140 判断部
500 情報処理装置
501 CPU
502 ROM
503 RAM
504 プログラム
505 記憶装置
506 記録媒体
507 ドライブ装置
508 通信インターフェース
509 ネットワーク
510 入出力インターフェース
511 バス

Claims (9)

  1. ストレージシステムを構成する複数のノードの各々における障害に関する情報である障害情報を取得する障害情報取得手段と、
    前記ストレージシステムの使用状況の予測に関する情報を示す使用状況情報を取得する使用状況取得手段と、
    前記ノードの各々に障害が発生した場合における影響に関する情報を示す影響度情報を取得する影響度取得手段と、
    前記障害情報が前記ノードの少なくとも一つにおける障害を示す場合に、前記使用状況情報及び前記影響度情報に基づいて、前記障害発生した前記ノードを前記ストレージシステムから切り離すか否かを判定する判定手段とを備え
    前記影響度情報は、前記ノードを前記ストレージシステムから切り離した場合及び前記ノードの使用を継続した場合のそれぞれにおける前記ストレージシステムの容量に関する情報を含む、
    ストレージ管理装置。
  2. 前記判定手段は、前記障害情報取得手段が前記障害情報を取得した場合に関する前記使用状況情報と、前記影響度情報が示す前記影響の程度とに基づいて、前記障害発生した前記ノードを前記ストレージシステムから切り離すか否かを判定する、請求項1に記載のストレージ管理装置。
  3. 前記影響度情報は、前記ストレージシステムの容量を含む複数の指標の各々について、前記ノードの各々に障害が発生した場合における、前記ノードの使用を継続した場合の当該指標への影響の程度及び前記ノードを前記ストレージシステムから切り離した場合の当該指標への影響の程度を示し、
    前記判定手段は、前記使用状況情報に基づいて、前記複数の指標のうち、前記影響の程度が大きい前記指標を特定し、前記特定した指標に関して前記影響度情報が示す前記影響の程度に基づいて、前記障害発生した前記ノードを前記ストレージシステムから切り離すか否かを判定する、請求項1又は2に記載のストレージ管理装置。
  4. 前記判定手段は、前記障害情報取得手段が前記障害情報を取得した時点以降の複数の時点に関する前記使用状況及び前記影響度情報に基づいて、前記複数の時点のいずれかのうち、前記障害発生した前記ノードを前記ストレージシステムから切り離す時点を判定する、請求項1から3のいずれか一項に記載のストレージ管理装置。
  5. 前記使用状況情報は、前記ストレージシステムの動作に関する指標に対する状況の予測を所定の期間における所定の間隔毎に表す情報を含む、請求項1から4のいずれか一項に記載のストレージ管理装置。
  6. 前記影響度情報は、前記ノードを前記ストレージシステムから切り離した場合及び前記ノードの使用を継続した場合のそれぞれにおける前記ストレージシステムの処理性能に関する情報を含む、請求項1から5のいずれか一項に記載のストレージ管理装置。
  7. 請求項1からのいずれか一項に記載のストレージ管理装置と、
    前記複数のノードに相当する複数のストレージ装置
    備えるストレージシステム。
  8. ストレージ管理装置が、
    ストレージシステムを構成する複数のノードの各々における障害に関する情報である障害情報を取得し、
    前記ストレージシステムの使用状況の予測に関する情報である使用状況情報を取得し、
    前記ノードの各々に障害が発生した場合における影響に関する情報である影響度情報を取得し、
    前記障害情報が前記ノードの少なくとも一つにおける障害を示す場合に、前記使用状況情報及び前記影響度情報に基づいて、前記障害発生した前記ノードの各々を前記ストレージシステムから切り離すか否かを判定し、
    前記影響度情報は、前記ノードを前記ストレージシステムから切り離した場合及び前記ノードの使用を継続した場合のそれぞれにおける前記ストレージシステムの容量に関する情報を含む、
    ストレージ管理方法。
  9. コンピュータに、
    ストレージシステムを構成する複数のノードの各々における障害に関する情報である障害情報を取得する処理と、
    前記ストレージシステムの使用状況の予測に関する情報である使用状況情報を取得する処理と、
    前記ノードの各々に障害が発生した場合における影響に関する情報である影響度情報を取得する処理と、
    前記障害情報が前記ノードの少なくとも一つにおける障害を示す場合に、前記使用状況情報及び前記影響度情報に基づいて、前記障害発生した前記ノードの各々を前記ストレージシステムから切り離すか否かを判定する処理とを実行させ
    前記影響度情報は、前記ノードを前記ストレージシステムから切り離した場合及び前記ノードの使用を継続した場合のそれぞれにおける前記ストレージシステムの容量に関する情報を含む、
    プログラム。
JP2015060432A 2015-03-24 2015-03-24 ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム Active JP6558012B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015060432A JP6558012B2 (ja) 2015-03-24 2015-03-24 ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015060432A JP6558012B2 (ja) 2015-03-24 2015-03-24 ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016181079A JP2016181079A (ja) 2016-10-13
JP6558012B2 true JP6558012B2 (ja) 2019-08-14

Family

ID=57131105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015060432A Active JP6558012B2 (ja) 2015-03-24 2015-03-24 ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6558012B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4012498B2 (ja) * 2003-11-18 2007-11-21 株式会社日立製作所 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
JP2005157509A (ja) * 2003-11-21 2005-06-16 Hitachi Ltd 通信端末
JP2006277690A (ja) * 2005-03-30 2006-10-12 Nec Corp クラスタシステム、クラスタ切り替え方法、クラスタ切り替え制御プログラム
JP4480756B2 (ja) * 2007-12-05 2010-06-16 富士通株式会社 ストレージ管理装置、ストレージシステム制御装置、ストレージ管理プログラム、データ記憶システムおよびデータ記憶方法

Also Published As

Publication number Publication date
JP2016181079A (ja) 2016-10-13

Similar Documents

Publication Publication Date Title
EP2672387B1 (en) A distributed object storage system
US9348724B2 (en) Method and apparatus for maintaining a workload service level on a converged platform
JP4012498B2 (ja) 情報処理システム、情報処理装置、情報処理装置の制御方法及びプログラム
US11221935B2 (en) Information processing system, information processing system management method, and program thereof
US20170139605A1 (en) Control device and control method
US9507664B2 (en) Storage system including a plurality of storage units, a management device, and an information processing apparatus, and method for controlling the storage system
US9535619B2 (en) Enhanced reconstruction in an array of information storage devices by physical disk reduction without losing data
JP2014197266A (ja) 情報処理システム,情報処理装置,情報処理装置の制御プログラム,及び情報処理システムの制御方法
CN110737924B (zh) 一种数据保护的方法和设备
CN104735107A (zh) 分布式存储系统中数据副本恢复方法及装置
US20140156853A1 (en) Computer and resource retrieval method
US20110208910A1 (en) Storage Control Device for Storage System Provided with Storage Device Coupled to Switch Network
US20190384508A1 (en) Method, electronic device and computer program product for maintenance of component in storage system
JP2011108201A (ja) 情報処理装置、診断方法および診断プログラム
CN112748856A (zh) 管理盘的方法、电子设备和计算机程序产品
JP6996602B1 (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
CN109271270A (zh) 存储系统中底层硬件的故障排除方法、系统及相关装置
US9116859B2 (en) Disk array system having a plurality of chassis and path connection method
JP6558012B2 (ja) ストレージ管理装置、ストレージシステム、ストレージ管理方法及びプログラム
US20160188254A1 (en) Lifecycle management of solid state memory adaptors
US9563512B1 (en) Host recovery based on rapid indication of estimated recovery time
US20220030093A1 (en) Selective tcp/ip stack reconfiguration
WO2014108943A1 (ja) ディスクアレイ制御装置およびサーバ
JP7537134B2 (ja) コンテナ管理装置、コンテナ管理方法及びプログラム
JPWO2012023198A1 (ja) バス制御装置及びバス制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190701

R150 Certificate of patent or registration of utility model

Ref document number: 6558012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150