JP5556192B2 - ストレージシステム - Google Patents

ストレージシステム Download PDF

Info

Publication number
JP5556192B2
JP5556192B2 JP2010013890A JP2010013890A JP5556192B2 JP 5556192 B2 JP5556192 B2 JP 5556192B2 JP 2010013890 A JP2010013890 A JP 2010013890A JP 2010013890 A JP2010013890 A JP 2010013890A JP 5556192 B2 JP5556192 B2 JP 5556192B2
Authority
JP
Japan
Prior art keywords
storage
data
storage means
stored
fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010013890A
Other languages
English (en)
Other versions
JP2011154428A (ja
Inventor
スムドゥ デマタピティヤ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010013890A priority Critical patent/JP5556192B2/ja
Priority to US13/522,886 priority patent/US9652325B2/en
Priority to PCT/JP2010/005216 priority patent/WO2011092760A1/ja
Publication of JP2011154428A publication Critical patent/JP2011154428A/ja
Application granted granted Critical
Publication of JP5556192B2 publication Critical patent/JP5556192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1092Rebuilding, e.g. when physically replacing a failing disk
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0689Disk arrays, e.g. RAID, JBOD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1088Reconstruction on already foreseen single or plurality of spare disks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ストレージシステムにかかり、特に、データを分散して複数の記憶装置に記憶するストレージシステムに関する。
近年、コンピュータの発達及び普及に伴い、種々の情報がデジタルデータ化されている。このようなデジタルデータを保存しておく装置として、磁気テープや磁気ディスクなどの記憶装置がある。そして、保存すべきデータは日々増大し、膨大な量となるため、大容量なストレージシステムが必要となっている。また、記憶装置に費やすコストを削減しつつ、信頼性も必要とされる。これに加えて、後にデータを容易に取り出すことが可能であることも必要である。その結果、自動的に記憶容量や性能の増大を実現できると共に、重複記憶を排除して記憶コストを削減し、さらには、冗長性の高いストレージシステムが望まれている。
このような状況に応じて、近年では、特許文献1に示すように、コンテンツアドレスストレージシステムが開発されている。このコンテンツアドレスストレージシステムは、データを分散して複数の記憶装置に記憶すると共に、このデータの内容に応じて特定される固有のコンテンツアドレスによって、当該データを格納した格納位置が特定される。
具体的に、コンテンツアドレスストレージシステムでは、所定のデータを複数のフラグメントに分割すると共に、冗長データとなるフラグメントをさらに付加して、これら複数のフラグメントをそれぞれ複数の記憶装置にそれぞれ格納している。そして、後に、コンテンツアドレスを指定することにより、当該コンテンツアドレスにて特定される格納位置に格納されているデータつまりフラグメントを読み出し、複数のフラグメントから分割前の所定のデータを復元することができる。
また、上記コンテンツアドレスは、データの内容に応じて固有となるよう生成される。このため、重複データであれば同じ格納位置のデータを参照することで、同一内容のデータを取得することができる。従って、重複データを別々に格納する必要がなく、重複記録を排除し、データ容量の削減を図ることができる。
そして、上記のようなストレージシステムにおいて、データを記憶するストレージノードに障害が生じ、当該ストレージノードがシステムから切り離された場合には、そのストレージノード上のコンポーネントは他のストレージノード上で再生成される。つまり、上述したストレージシステムでは、所定のデータを複数のフラグメントに分割すると共に、冗長データとなるフラグメントをさらに付加しているため、このうち所定のフラグメントを失ったとしても、他のフラグメントからデータを復元することができる。
ここで、図1及び図2を参照して、ストレージノードに障害が発生した場合における当該ストレージノードに記憶されていたデータの再生成処理について説明する。
まず、図1の上側に示すように、複数のストレージノード401〜404を装備したストレージシステム300において、各ストレージノード401等にそれぞれ形成された各コンポートネント1〜12に、記憶対象データを分割したフラグメントデータが分散して格納されている。このような状態において、所定のストレージノードがダウンしたとすると、直ちに残りのストレージノードに保存されているフラグメントから、失われたフラグメントを再生成する処理が開始される。
具体的に、再生成処理では、まず、図1の下側に示すように、ダウンしたストレージノード404に形成されていたデータを格納するコンポーネント10,11,12を、作動しているストレージノード401〜403に再生成する。そして、図2の上側に示すように、作動しているストレージノード401〜403に記憶されているフラグメント1〜9を読み込み、かかるデータからダウンしたストレージノード404に記憶されていたデータDを再生成し、そのデータDを再度分割することで失ったフラグメントを再生成する。その後、図2の下側に示すように、再生成したフラグメントを新たに生成したコンポーネント10,11,12内、つまり、作動している各ストレージノード401〜403に分散して格納する。なお、この一連の処理が完了するまで一部のデータはアクセス不可能である。
また、上述したようなストレージシステムでは、システムから切断されたストレージノードが復旧した場合には、直ちに他のストレージノードから復旧したストレージノードへのデータ復旧が開始される。ここで、図3を参照して、ノードが復旧した場合におけるデータ復旧処理について説明する。
まず、図3の上側に示すように、ダウンしたストレージノード404が復旧すると、当該復旧したストレージノード404に属していたコンポーネント10,11,12を元の位置に戻し、その後、図3の下側に示すように、ストレージノード401〜403から復旧したストレージノード404にデータを転送する。
なお、図3の上側の状態で復旧したストレージノード404に戻したコンポートネントには、当該ストレージノード404がダウンする前から格納されていたフラグメントがすでに存在するため、ダウン後に他のストレージノード404に生成されたコンポーネントに新たに格納されたデータのみを転送すればよいこととなる。このため、転送元となるストレージノード401〜403のデータと、転送先となるストレージノード404のデータとを比較し、差分だけを転送する。例えば、データの比較処理を軽減させるため、データのハッシュ値などで構成されたメタデータのみ比較する。
このように、復旧したストレージノード404に存在するフラグメントをそのまま利用し、当該ストレージノード404がダウンしていた時間帯に新たに書き込まれたデータのフラグメントのみ転送することで、余分なデータ転送を省くことができる。
なお、ストレージノードがダウンして開始されたフラグメント再生成処理が完了する前に、当該ダウンしたストレージノードが復旧した場合には、他のストレージノードへのデータの再生成が完全に完了していない状態となる。しかし、再生成中のデータフラグメントは元々ダウンしたノードに存在するものであるため、復旧処理に影響を及ばさない。また、ダウンしたストレージノードが復旧した際に実行される他のストレージノードからのデータ転送が完了前にデータ読み込みが要求された場合には、転送元のストレージノードからフラグメントを読み込めばよい。
特開2005−235171号公報 特開2008−204206号公報
しかしながら、上述したストレージシステムにおいては、ストレージノードの一台が切断された場合には、その原因や状態復旧見込みに関わらず、ストレージノードのデータが直ちに他のストレージノードにて再生成され、システムに多大な負荷が生じる。また、ダウンしたストレージノードが復旧した場合にも、無条件に他のストレージノードからデータが復帰される処理が生じ、システムに負荷が生じる。
具体的には、予測可能な保守などのオペレーションの結果としてストレージノードが見えない場合でも、オペレーション開始後にデータ再生成が開始されるため、システムに負荷がかかってしまい、性能劣化が起きる。また、データ再生成の期間中に重なって障害がおきた場合には、データロスが起きるリスクがある。さらには、一時的な原因でストレージノードの再起動などが起き、グリッドからみえなくなった場合にも、直ちにストレージノードのデータ復旧が起きるため、システムに負荷がかかってしまい、性能劣化が生じる。また、ハードウェア原因などで頻繁に再起動するような障害発生の場合にも、再生成処理・データ復旧などが繰り返し多発してしまい、システムが不安定になる、という問題が生じる。
このため、本発明の目的は、上述した課題である、ストレージシステムの負荷の増大及び性能劣化、ということを解決することにある。
かかる目的を達成するため本発明の一形態であるストレージシステムは、
複数の記憶手段と、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出すデータ処理手段と、を備える。
そして、上記データ処理手段は、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、上記複数の記憶手段に分散して記憶する分散記憶処理手段と、
上記各記憶手段の作動状態を検出する作動状態検出手段と、
上記作動状態検出手段による検出結果に応じて、上記記憶手段のいずれかがダウンした場合に、当該ダウンした上記記憶手段に記憶されていた上記フラグメントデータを、当該ダウンした上記記憶手段とは異なる他の上記記憶手段に記憶されている他の上記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶するデータ再生成手段と、を備える。
さらに、上記データ再生成手段は、予めダウンすることが予定されている上記記憶手段に記憶されている上記フラグメントデータを、ダウン前に他の上記記憶手段に転送して記憶する機能を有する、
という構成をとる。
また、本発明の他の形態である情報処理装置は、
複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す装置である。
そして、上記情報処理装置は、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、上記複数の記憶手段に分散して記憶する分散記憶処理手段と、
上記各記憶手段の作動状態を検出する作動状態検出手段と、
上記作動状態検出手段による検出結果に応じて、上記記憶手段のいずれかがダウンした場合に、当該ダウンした上記記憶手段に記憶されていた上記フラグメントデータを、当該ダウンした上記記憶手段とは異なる他の上記記憶手段に記憶されている他の上記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶するデータ再生成手段と、を備える。
さらに、上記データ再生成手段は、予めダウンすることが予定されている上記記憶手段に記憶されている上記フラグメントデータを、ダウン前に他の上記記憶手段に転送して記憶する機能を有する、
という構成をとる。
また、本発明の他の形態であるプログラムは、
複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置に、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、上記複数の記憶手段に分散して記憶する分散記憶処理手段と、
上記各記憶手段の作動状態を検出する作動状態検出手段と、
上記作動状態検出手段による検出結果に応じて、上記記憶手段のいずれかがダウンした場合に、当該ダウンした上記記憶手段に記憶されていた上記フラグメントデータを、当該ダウンした上記記憶手段とは異なる他の上記記憶手段に記憶されている他の上記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶すると共に、予めダウンすることが予定されている上記記憶手段に記憶されている上記フラグメントデータを、ダウン前に他の上記記憶手段に転送して記憶するデータ再生成手段と、
を実現させるためのプログラムである。
また、本発明の他の形態である情報処理方法は、
複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置にて、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、上記複数の記憶手段に分散して記憶し、
上記各記憶手段の作動状態を検出し、
上記作動状態検出手段による検出結果に応じて、上記記憶手段のいずれかがダウンした場合に、当該ダウンした上記記憶手段に記憶されていた上記フラグメントデータを、当該ダウンした上記記憶手段とは異なる他の上記記憶手段に記憶されている他の上記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶すると共に、
予めダウンすることが予定されている上記記憶手段に記憶されている上記フラグメントデータを、ダウン前に他の上記記憶手段に転送して記憶する、
情報処理方法である。
本発明は、以上のように構成されることにより、ストレージシステムの信頼性を維持しつつ、処理負荷を抑制し、性能の向上を図ることができる。
本発明に関連するストレージシステムの動作を示す図である。 本発明に関連するストレージシステムの動作を示す図である。 本発明に関連するストレージシステムの動作を示す図である。 本発明の実施形態1におけるシステム全体の構成を示すブロック図である。 図4に開示したストレージシステムの構成の概略を示すブロック図である。 図5に開示したストレージシステムの構成を示す機能ブロック図である。 図6に開示したストレージシステムの動作を説明するための説明図である。 図6に開示したストレージシステムの動作を説明するための説明図である。 図6に開示したストレージシステムの動作を示すフローチャートである。 図6に開示したストレージシステムの動作を示すフローチャートである。 図6に開示したストレージシステムの動作を示すフローチャートである。 図6に開示したストレージシステムの動作を説明するための説明図である。 図6に開示したストレージシステムの動作を説明するための説明図である。 図6に開示したストレージシステムの動作を説明するための説明図である。 図6に開示したストレージシステムの動作を説明するための説明図である。 図6に開示したストレージシステムの動作を説明するための説明図である。 本発明におけるストレージシステムの構成を示す機能ブロック図である。
<実施形態1>
本発明の第1の実施形態を、図4乃至図16を参照して説明する。図4は、システム全体の構成を示すブロック図である。図5は、ストレージシステムの概略を示すブロック図であり、図6は、ストレージシステムの詳細な構成を示す機能ブロック図である。図7乃至図8は、ストレージシステムの基本的な動作を説明するための説明図である。図9乃至図11は、ストレージシステムの動作を示すフローチャートである。図12乃至図16は、ストレージシステムの動作を説明するための説明図である。
ここで、本実施形態では、ストレージシステムが、複数台のサーバコンピュータが接続されて構成されている場合を説明する。但し、本発明におけるストレージシステムは、複数台のコンピュータにて構成されることに限定されず、1台のコンピュータで構成されていてもよい。
[構成]
図4に示すように、本発明におけるストレージシステム10は、ネットワークNを介してバックアップ処理を制御するバックアップシステム11に接続している。そして、バックアップシステム11は、ネットワークNを介して接続されたバックアップ対象装置12に格納されているバックアップ対象データを取得し、ストレージシステム10に対して記憶するよう要求する。これにより、ストレージシステム10は、記憶要求されたバックアップ対象データをバックアップ用に記憶する。
そして、図5に示すように、本実施形態におけるストレージシステム10は、複数のサーバコンピュータが接続されて構成を採っている。具体的に、ストレージシステム10は、ストレージシステム10自体における記憶再生動作を制御するサーバコンピュータであるアクセラレータノード20と、データを格納する記憶装置を備えたサーバコンピュータであるストレージノード30と、を備えている。なお、アクセラレータノード20の数とストレージノード30の数は、図4に示したものに限定されず、さらに多くの各ノード20,30が接続されて構成されていてもよい。
さらに、本実施形態におけるストレージシステム10は、データを分割及び冗長化し、分散して複数の記憶装置に記憶すると共に、記憶するデータの内容に応じて設定される固有のコンテンツアドレスによって、当該データを格納した格納位置を特定するコンテンツアドレスストレージシステムである。このコンテンツアドレスストレージシステムについては、後に詳述する。
図6に、ストレージシステム10の構成を示す。この図に示すように、まず、ストレージシステム10を構成するアクセラレータノード20は、装備されたCPU(Central Processing Unit)などの複数の演算装置にプログラムが組み込まれることによって構成された、記録再生処理部1と、スケジュール制御部2と、ノード状態検出部3と、データ再生成制御部4と、データ復旧制御部5と、を備えている。また、アクセラレータノード20は、装備されたて記憶装置に、スケジュール記憶部6を備えている。なお、上述した機能の全部または一部は、ストレージシステム10を構成するストレージノード30に装備されていてもよい。以下、各構成について詳述する。
上記記録再生制御部1は、ストレージシステム10に接続されている装置からの要求に応じて、データをストレージノード30に分散記憶したり、当該ストレージノード30に記憶されているデータを読み出す処理を行う。ここで、分散記憶処理の一例を図7及び図8に示す。なお、以下に説明する分散記憶処理は、記録再生制御部1からの指示に応じてストレージノード30にて行われてもよく、アクセラレータノード20にて実行されてもよい。
まず、ストレージシステム10は、データAの入力を受けると(図8の矢印Y1)、図8の矢印Y2に示すように、当該データAを、所定容量(例えば、64KB)のブロックデータDに分割する。そして、このブロックデータDのデータ内容に基づいて、当該データ内容を代表する固有のハッシュ値Hを算出する(図8の矢印Y3)。例えば、ハッシュ値Hは、予め設定されたハッシュ関数を用いて、ブロックデータDのデータ内容から算出する。なお、このハッシュ値Hは、同じ内容のデータの重複記録を排除するため、及び、データの格納箇所を表すコンテンツアドレスを生成するために用いられるが、その詳細についての説明は省略する。
続いて、ストレージシステム10は、ブロックデータDを複数の所定の容量のフラグメントデータに分割する。例えば、図7の符号D1〜D9に示すように、9つのフラグメントデータ(分割データ41)に分割する。さらに、ストレージシステム10は、分割したフラグメントデータのうちいくつかが欠けた場合であっても、元となるブロックデータを復元可能なよう冗長データを生成し、上記分割したフラグメントデータ41に追加する。例えば、図7の符号D10〜D12に示すように、3つのフラグメントデータ(冗長データ42)を追加する。これにより、9つの分割データ41と、3つの冗長データ42とにより構成される12個のフラグメントデータからなるデータセット40を生成する(図8の矢印Y4)。
そして、上述したように生成された各フラグメントデータは、後述する各ストレージノード30に形成された各コンポーネント31に分散記憶される。例えば、図7に示すように、12個のフラグメントデータD1〜D12を生成した場合には、ストレージノード30に形成されたデータ格納領域である各コンポーネント31に、各フラグメントデータD1〜D12を1つずつそれぞれ格納する(図8の矢印Y5参照)。なお、上述した分散記憶処理は、ストレージノード30に装備された機能によって行われてもよい。
ここで、上述したようにフラグメントデータが格納されると、ストレージノード30にて、当該フラグメントデータD1〜D12の格納位置、つまり、当該フラグメントデータD1〜D12にて復元されるブロックデータDの格納位置を表す、コンテンツアドレスCAが生成される。このとき、コンテンツアドレスCAは、例えば、格納したブロックデータDの内容に基づいて算出したハッシュ値Hの一部(ショートハッシュ)(例えば、ハッシュ値Hの先頭8B(バイト))と、論理格納位置を表す情報と、を組み合わせて、生成される。そして、このコンテンツアドレスCAは、ストレージシステム10内のファイルシステムを管理するアクセラレータノード20にて、バックアップ対象データのファイル名などの識別情報と、コンテンツアドレスCAとが関連付けられて、ファイルシステムで管理される。
そして、ストレージシステム10では、ファイルの読み出し要求を受けると、要求されたファイルに対応するコンテンツアドレスCAにて指定される格納位置を特定し、この特定された格納位置に格納されている各フラグメントデータを、読み出し要求されたデータとして読み出すことができる。以上のように、ストレージシステム10は、データを読み書きする機能(データ処理手段、分散記憶処理手段)を有する。
また、アクセラレータノード20に形成されたスケジュール記憶部6は、ストレージシステム20を管理する管理者によって設定された保守スケジュールなどを表す作動スケジュールデータを記憶している。例えば、作動スケジュールデータは、特定のストレージノード30を保守のために一時的に停止(ダウン)させるスケジュールを表すデータであり、具体的には、ダウンさせるストレージノードを特定する情報、停止日時を含む。なお、作動スケジュールデータは、上述した内容であることに限定されない。
そして、アクセラレータノード20に設けられたスケジュール制御部2は、上記作動スケジュールデータに従って、特定のストレージノード30の保守を行うために、当該ストレージノード30を設定された日時に停止するよう制御する。また、スケジュール制御部2は、上記作動スケジュールデータつまり停止予定のストレージノードとその日時を、データ再生成制御部4に通知する機能も有する。
また、上記スケジュール制御部2は、管理者などからストレージシステム10に対して入力された操作指令に応じて、ストレージノード30の作動状態を制御する機能を有する。例えば、管理者が、ストレージシステム10の操作画面から保守日時を指定して当該日時特定のストレージノード30の停止を指示した場合や、特定のストレージノード30の再起動を指示した場合には、かかる操作指令に応じて、ストレージノード30を停止(ダウン)させる。そして、その旨をデータ再生成制御部4に通知する。
また、アクセラレータノード20に設けられたノード状態検出部3(作動状態検出手段)は、各ストレージノード30の作動状態、つまり、各ストレージノード30が、作動していて使用可能であるか、停止(ダウン)していて使用不可能であるか、といった状態を検出する。そして、検出した各ストレージノード30の作動状態を、データ再生成制御部4と、データ復旧制御部5とに、通知する機能を有する。
さらに、ノード状態検出部3は、各ストレージノード30の停止頻度、例えば、予め設定された時間内(例えば、1時間)に停止(ダウン)した回数を、ストレージノード30毎にカウントする。そして、カウントしたダウン回数をデータ再生成制御部4及びデータ復旧制御部5に通知する。
また、アクセラレータノード20に設けられたデータ再生成制御部4(データ再生成手段)は、上記ノード状態検出部3からの検出結果により、あるストレージノード30がダウンしたことの通知を受けると、そのストレージノード30が記憶していたフラグメントデータを、作動している他のストレージノード30に記憶されているフラグメントデータに基づいて再生成して、当該作動している他のストレージノード30に分散して記憶する。なお、このデータ再生成処理は、上述した図1及び図2に示して説明した処理と同様であるため、その詳細な説明は省略する。
上記機能に加えて、データ再生成制御部4は、作動スケジュールデータに基づいて、停止される予定のストレージノード30に記憶されているデータを、他のストレージノード30に分散して記憶するよう、各ストレージノード30の動作を制御する。具体的には、作動スケジュールにて、あるストレージノードが所定の日時に停止することが予定されていると、停止日時が来る前までに、停止予定のストレージノード30内に記憶されているデータを、他の複数のストレージノード30に分散して転送し、かかるデータ転送が完了するよう制御する。これにより、停止予定のストレージノード30がスケジュール通りに停止されるときには、当該ストレージノード30内のデータは他のストレージノードに分散されて記憶された状態となる。従って、停止されたストレージノード30内のデータを読み出す際には、データを転送した他のストレージノード30から読み出せばよい。なお、上記データ転送処理は、停止予定のストレージノード30に記憶されているデータを、そのまま他のストレージノード30に転送するだけであるため、ストレージシステム10に生じる処理負荷は低い。
また、上述したように、停止予定のストレージノード30に記憶されているデータは、当該ストレージノード30が停止した直後であっても、他のストレージノード30から読み出すことができるため、停止したストレージノード30に記憶されているデータを再生成する必要はない。つまり、データ再生成制御部4は、ダウンしたストレージノード30が作動スケジュールデータに従って予定通りにダウンしたものである場合には、当該ダウンしたストレージノード30に記憶されていたデータ再生成処理は実行しない。
以上のように、作動スケジュールに従って停止されたストレージノード30については、停止前に、記憶されているデータを他のストレージノード30に転送し、また、停止した際にデータ再生成処理は実行しない。これは、当該ストレージノード30は保守等を行うために意図的に管理者によって停止されたものであるため、後に復旧することが確実であるからである。これにより、データ再生成処理の実行が抑制されるため、ストレージシステム10における処理負荷を軽減でき、性能の向上を図ることができる。
また、データ再生成制御部4は、上記ノード状態検出部3からの検出結果により、あるストレージノード30が停止(ダウン)したことの通知を受けると、当該ストレージノード30のダウンが管理者などによって入力された操作指示によるものであるか、さらには、所定時間内のダウン回数が予め設定された規定最大回数以上であるか、ということを調べる。
そして、ストレージノード30のダウンが、操作指示によるものではなく、また、ダウン回数が規定最大回数以上である場合には、このダウンしたストレージノード30に記憶されていたデータを、作動している他のストレージノード30に記憶されているフラグメントデータに基づいて再生成して、当該作動している他のストレージノード30に分散して記憶するデータ再生成処理を実行する。このとき、データ再生成処理は、ストレージシステム10内における他の処理よりも優先して実行されるよう、当該他の処理に設定されている優先度よりも高い優先度にて実行する。例えば、このときのデータ再生成処理は、ストレージシステム10内において最も高い優先度にて実行される。
また、データ再生成制御部4は、ストレージノード30のダウンが、操作指示によるものであったり、あるいは、このストレージノード30のダウン回数が規定最大回数に満たない場合には、当該ダウンしたストレージノード30に記憶されていたデータを、作動している他のストレージノード30に記憶されているフラグメントデータに基づいて再生成して、当該作動している他のストレージノード30に分散して記憶するデータ再生成処理を実行する。ただし、この場合におけるデータ再生成処理は、ストレージシステム10内における他の処理に設定されている優先度よりも低い優先度で実行される。例えば、上述した、ダウン回数が規定最大回数以上であるストレージノード30がダウンした場合に実行されるデータ再生成処理の優先度よりも低い優先度にて実行される。
さらに、データ再生成制御部4は、上述したように、ダウンしたストレージノード30に記憶されていたデータの再生成処理を低い優先度にて実行しており、その実行時間が予め設定された時間を超えてもなお当該ダウンしたストレージノード30が復旧しない場合には、このストレージノード30に記憶されていたデータの再生成処理を、高い優先度にて実行する。例えば、データ再生成処理の優先度を、ストレージシステム10内において最も高い優先度に変更して実行する。
また、上記データ復旧制御部5(データ復帰手段)は、ノード状態検出部3から検出結果に応じて、ダウンしたストレージノード30が復旧したことの通知を受けた際には、当該ダウンしたストレージノード30に対して、他のストレージノード30からフラグメントデータを復帰させるよう、各ストレージノード30を制御する。なお、データの復帰処理は、上述した図3に示して説明した処理と同様であるため、その詳細な説明は省略する。
但し、上記データ復旧制御部5は、復旧したストレージノード30の過去にダウンした回数が規定最大回数を超えているものである場合には、このストレージノード30に対するフラグメントデータの復帰は行わない。つまり、復旧したストレージノード30に記憶されていたデータは、データ再生成時に他のストレージノード30に記憶されたままである。そして、復旧したストレージノード30は、ストレージシステム10から切り離して、交換するなど対処する。
[動作]
次に、上述したストレージシステム10の動作を、図9乃至図11のフローチャート及び図12乃至図16の説明図を参照して説明する。なお、ここでは、図12に示すように、ストレージシステム10に符号31〜34に示す4台のストレージノードが搭載されていることとする。
まず、図9を参照して、作動スケジュールが存在する場合の動作を説明する。ストレージシステム10は、予め設定された作動スケジュールを確認し、後に保守のためにストレージノードを停止(ダウン)する予定があるかどうかを確認する(ステップS1)。そして、後に符号34に示すストレージノードのダウンが予定されている場合には(ステップS1:Yes)、保守開始つまりストレージノード34がダウンされるまでに、当該ストレージノード34に記憶されているデータ10,11,12を、他のストレージノード31,32,33に転送する(ステップS2)。このとき、例えば、図12の上側の矢印に示すように、データをコンポーネント10,11,12毎に各ストレージノード31,32,33に分散して転送する。
そして、停止予定の日時までにデータ転送が完了すると(ステップS3:No、ステップS4)、図12の下側に示すように、スケジュール通りにストレージノード34のダウンが実行される。
次に、図10を参照して、ストレージシステム10がストレージノードのダウンを検出した時の動作を説明する。まず、ストレージシステム10は、図13の上側に示すような正常の状態から、ストレージノード34のダウンを検出したとする(ステップS11)。すると、ストレージシステム10は、ストレージノード34のダウンが、管理者などから入力された操作によるものであるかどうかを調べる(ステップS12)。なお、この場合に、上述した作動スケジュールに従ってストレージノード34がダウンした場合も、操作によるダウンであると判断する。
そして、ストレージノード34のダウンが、上述した図9で説明した予め設定された作動スケジュールに従ってのダウンである場合には(ステップS13:Yes)、何もせずに終了する。つまり、既にストレージノード34内のデータ12,11,10は、図12の下側に示すように他のストレージノード31,32,33に転送してあるため、データの再生成処理は実行しない。なお、ストレージノード34がダウンしている最中に新たに書き込まれるデータは、他のストレージノード31,32,33内に形成されたコンポーネント12,11,10内に書き込まれる。
また、ストレージノード34のダウンが、管理者などの操作によるものであっても(ステップS12:No)、作動スケジュールによるものでない場合(ステップS13:No)には、当該ストレージノード34に記憶されていたデータの再生成処理を行う。具体的には、まず、図13の上側から下側に示すように、ダウンしたストレージノード34に形成されていたデータを格納するコンポーネント10,11,12を、作動している他のストレージノード33,32,31に再生成する(ステップS14)。そして、図14の上側に示すように、作動している他のストレージノード31,32,33に記憶されているフラグメント1〜9を読み込み、かかるデータからダウンしたストレージノード34に記憶されていたデータDを再生成し、そのデータDを再度分割することで失ったフラグメントを再生成する。その後、図14の下側に示すように、再生成したフラグメントを新たに生成したコンポーネント10,11,12内、つまり、作動している他のストレージノード33,32,31に分散して格納する(ステップS15)。
但し、上述したデータの再生成処理は、ストレージシステム10内において低い優先度で実行される。例えば、後述するステップS19の時に実行されるデータ再生成処理の優先度よりも低い優先度で実行される。
そして、その後、予め設定された時間、上述した低い優先度でデータ再生成処理が継続し、その間にダウンしたストレージノード34が復旧しない場合には(ステップS16:Yes)、これまでよりも高い優先度でデータ再生処理が実行される(ステップS19)。
また、ストレージシステム10がストレージノード34のダウンを検出したのちに(ステップS11)、かかるダウンが管理者などの操作によるものでない場合には(ステップS12:No)、このダウンしたストレージノード34の一定期間T内におけるダウン回数nが規定最大回数よりも小さいか否かを調べる(ステップS17)。このとき、ダウンしたストレージノード34の一定期間T内におけるダウン回数nが規定最大回数よりも小さい場合には(ステップS17:No)、ステップS14,15に進み、上述同様に、低い優先度にてダウンしたストレージノード34に記憶されていたデータの再生成処理を行う(ステップS14,S15)。そして、予め設定された時間、低い優先度でデータ再生成処理が継続し、その間にダウンしたストレージノード34が復旧しない場合には(ステップS16:Yes)、これまでよりも高い優先度でデータ再生処理が実行される(ステップS19)。
また、ストレージシステム10がストレージノード34のダウンを検出したのちに(ステップS11)、かかるダウンが管理者などの操作によるものでない場合であって(ステップS12:No)、このダウンしたストレージノード34の一定期間T内におけるダウン回数nが規定最大回数以上であるとする(ステップS17:Yes)。この場合には、上述同様に、図13の下側に示すように、ダウンしたストレージノード34に形成されていたデータを格納するコンポーネント10,11,12を、作動している他のストレージノード33,32,31に再生成する(ステップS18)。そして、図14の上側に示すように、作動している他のストレージノード31,32,33に記憶されているフラグメント1〜9を読み込み、かかるデータからダウンしたストレージノード34に記憶されていたデータDを再生成し、そのデータDを再度分割することで失ったフラグメントを再生成する。その後、図14の下側に示すように、再生成したフラグメントを新たに生成したコンポーネント10,11,12内、つまり、作動している他のストレージノード33,32,31に分散して格納する(ステップS19)。このとき、特に、データの再生成処理は、ストレージシステム10内において高い優先度で実行される。例えば、上述したステップS15の時に実行されるデータ再生成処理の優先度よりも高い優先度で実行される。
次に、図11を参照して、ダウンしたストレージノードの復旧を検出した時の動作を説明する。まず、ストレージシステム10は、ストレージノード34がダウンした状態から、図15の上側に示すように当該ダウンしたストレージノード34が復旧したことを検出したとする(ステップS21)。すると、ストレージシステム10は、復旧したストレージノード34のダウンが、管理者などから入力された操作によるものであったかどうかを調べる(ステップS22)。
そして、復旧したストレージノード34のダウンが、管理者などから入力された操作によるものであった場合には(ステップS22:Yes)、図15の下側に示すように、他のストレージノード31,32,33から復旧したストレージノード34に、データを復帰する。なお、このときのデータの復帰処理については、上述した図3を参照して説明したとおりであるため、その詳細な説明は省略する。
また、復旧したストレージノード34のダウンが、管理者などから入力された操作によるものではない場合であり(ステップS22:No)、この復旧したストレージノード34の一定期間T内におけるダウン回数nが規定最大回数に満たないとする(ステップS24:No)。この場合には、上述同様に、図15の下側に示すように、他のストレージノード31,32,33から復旧したストレージノード34に、データを復帰する。
また、復旧したストレージノード34のダウンが、管理者などから入力された操作によるものではない場合であり(ステップS22:No)、この復旧したストレージノード34の一定期間T内におけるダウン回数nが規定最大回数以上であるとする(ステップS24:Yes)。この場合には、図16に示すように、復旧したストレージノード34に対してデータ復帰は行わず、そのままとする。つまり、復旧したストレージノード34は使用せず、管理者などから指示が入力されるまでは、ストレージシステム10から切り離した状態とする。
以上のように、本実施形態におけるストレージシステム10によると、ストレージノードがダウンすることが予めスケジュールにて設定されている場合には、予定されているダウン前にストレージノードに記憶されているフラグメントデータを他のストレージノードに転送して記憶しておく。これにより、このストレージノードがダウンした場合であっても、当該ストレージノードに記憶されていたデータは既に他のストレージノードに記憶されているため、再生成処理を実行する必要がない。従って、データの信頼性を維持しつつ、ストレージシステムにおける処理負荷を軽減することができる。
また、ストレージノードがダウンすることがユーザの操作による場合や、ダウンしたストレージノードのダウン回数が少ない場合には、当該ダウンしたストレージノードに記憶されていたフラグメントデータの再生成を行うが、このとき、再生成処理の優先度を低く設定して実行する。従って、ダウンしたストレージノードがすぐに復旧した場合には、その間は低い優先度にて再生成処理が実行されているため、ストレージシステムにおける処理負荷を軽減することができる。一方で、ダウンした回数が多い場合や、ダウンしたストレージノードが長時間復旧しない場合には、高い優先度にて再生成の処理を実行することで、データを迅速に復旧し、データの信頼性の向上を図ることができる。
さらに、ストレージノードが復旧した場合であっても、そのストレージノードが復旧する前にダウンした回数が多いものについては復旧を行なわずに使用しない。これにより、信頼性の低いストレージノードをストレージシステムから切り離すことで、当該ストレージシステム全体の信頼性の向上を図ることができる。
<付記>
以下、本発明におけるストレージシステムの構成について図17を参照して説明する。また、本発明における、情報処理装置、プログラム、情報処理方法の構成について説明する。
(付記1)
複数の記憶手段200と、これら複数の記憶手段200に対してデータを記憶すると共に当該記憶手段200に記憶されているデータを読み出すデータ処理手段100と、を備え、
前記データ処理手段100は、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段200に分散して記憶する分散記憶処理手段101と、
前記各記憶手段200の作動状態を検出する作動状態検出手段102と、
前記作動状態検出手段102による検出結果に応じて、前記記憶手段200のいずれかがダウンした場合に、当該ダウンした前記記憶手段200に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段200とは異なる他の前記記憶手段200に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段200に記憶するデータ再生成手段103と、を備えると共に、
前記データ再生成手段103は、予めダウンすることが予定されている前記記憶手段200に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段200に転送して記憶する機能を有する、
ストレージシステム。
(付記2)
付記1に記載のストレージシステムであって、
前記データ再生成手段は、前記記憶手段がダウンすることが予め設定された作動スケジュールデータに基づいて、前記記憶手段がダウンする前に当該記憶手段に記憶されている前記フラグメントデータを他の前記記憶装置に転送して記憶するとともに、前記ダウンする予定の記憶手段がダウンした場合には、当該記憶手段に記憶されていた前記フラグメントデータの前記再生成は行わない、
ストレージシステム。
上記発明によると、まず、ストレージシステムは、記憶対象データを複数の分割データに分割し、当該記憶対象データを復元するための冗長データを生成し、これら分割データと冗長データとからなる複数のフラグメントデータを、複数の記憶手段に分散して記憶する。また、ストレージシステムは、記憶手段に障害が発生してダウンすると、当該ダウンした記憶手段に記憶されていたフラグメントデータを、他のフラグメントデータに基づいて再生成して、他の記憶手段に記憶する。
そして、このストレージシステムでは、記憶手段がダウンすることが予めスケジュールにて設定されている場合には、予定されているダウン前に記憶手段に記憶されているフラグメントデータを他の記憶手段に転送して記憶しておく。これにより、この記憶手段がダウンした場合であっても、当該記憶手段に記憶されていたデータは既に他の記憶手段に記憶されているため、再生成処理を実行する必要がない。従って、データの信頼性を維持しつつ、ストレージシステムにおける処理負荷を軽減することができる。
(付記3)
付記1又は2に記載のストレージシステムであって、
前記データ再生成手段は、入力された操作指令に応じて前記記憶手段のいずれかがダウンした場合に、このダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を、ストレージシステム内における他の処理に設定された優先度よりも低い優先度で実行する、
ストレージシステム。
(付記4)
付記1乃至3のいずれか一項に記載のストレージシステムであって、
前記データ再生成手段は、前記記憶手段のいずれかがダウンした場合に、当該ダウンした記憶手段の予め設定された時間内におけるダウン回数が予め設定された回数に満たない場合に、このダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を、ストレージシステム内における他の処理に設定された優先度よりも低い優先度で実行する、
ストレージシステム。
(付記5)
付記3又は4のいずれか一項に記載のストレージシステムであって、
前記データ再生成手段は、前記記憶手段のいずれかがダウンした場合に、当該ダウンした記憶手段の予め設定された時間内におけるダウン回数が予め設定された回数以上である場合に、このダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を、ストレージシステム内における他の処理に設定された優先度よりも高い優先度で実行する、
ストレージシステム。
(付記6)
付記3乃至5のいずれか一項に記載のストレージシステムであって、
前記データ再生成手段は、前記ダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を前記低い優先度にて実行している時間が予め設定された時間を超えた場合に、当該低い優先度よりも高い優先度にて前記再生成の処理を実行する、
ストレージシステム。
上記発明によると、ストレージシステムにおいて記憶手段がダウンすることがユーザの操作による場合や、ダウンした記憶手段のダウン回数が少ない場合には、当該ダウンした記憶手段に記憶されていたフラグメントデータの再生成を行うが、このとき、再生成処理の優先度を低く設定する。従って、ダウンした記憶手段がすぐに復旧した場合には、その間は低い優先度にて再生成処理が実行されているため、ストレージシステムにおける処理負荷を軽減することができる。一方で、ダウンした回数が多い場合や、ダウンした記憶手段が長時間復旧しない場合には、高い優先度にて再生成の処理を実行することで、データを迅速に復旧し、データの信頼性の向上を図ることができる。
(付記7)
付記1乃至6のいずれか一項に記載のストレージシステムであって、
前記ダウンした記憶手段が復旧したときに、当該復旧した記憶手段に、前記再生成の処理により前記他の記憶手段に記憶された前記フラグメントデータを復帰させるデータ復帰手段を備え、
前記データ復帰手段は、前記復旧した記憶手段の予め設定された時間内におけるダウン回数が予め設定された回数以上である場合に、当該記憶手段に対する前記フラグメントデータの復帰は行わない、
ストレージシステム。
上記発明によると、記憶手段が復旧した場合であっても、その記憶手段が復旧する前にダウンした回数が多いものについては復旧を行なわずに使用しない。これにより、信頼性の低い記憶手段をストレージシステムから切り離すことで、当該ストレージシステム全体の信頼性の向上を図ることができる。
(付記8)
複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置であって、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶する分散記憶処理手段と、
前記各記憶手段の作動状態を検出する作動状態検出手段と、
前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶するデータ再生成手段と、を備えると共に、
前記データ再生成手段は、予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶する機能を有する、
情報処理装置。
(付記9)
付記8に記載の情報処理装置であって、
前記データ再生成手段は、前記記憶手段がダウンすることが予め設定された作動スケジュールデータに基づいて、前記記憶手段がダウンする前に当該記憶手段に記憶されている前記フラグメントデータを他の前記記憶装置に転送して記憶するとともに、前記ダウンする予定の記憶手段がダウンした場合には、当該記憶手段に記憶されていた前記フラグメントデータの前記再生成は行わない、
情報処理装置。
(付記10)
複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置に、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶する分散記憶処理手段と、
前記各記憶手段の作動状態を検出する作動状態検出手段と、
前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶すると共に、予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶するデータ再生成手段と、
を実現させるためのプログラム。
(付記11)
付記10に記載のプログラムであって、
前記データ再生成手段は、前記記憶手段がダウンすることが予め設定された作動スケジュールデータに基づいて、前記記憶手段がダウンする前に当該記憶手段に記憶されている前記フラグメントデータを他の前記記憶装置に転送して記憶するとともに、前記ダウンする予定の記憶手段がダウンした場合には、当該記憶手段に記憶されていた前記フラグメントデータの前記再生成は行わない、
プログラム。
(付記12)
複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置にて、
記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶し、
前記各記憶手段の作動状態を検出し、
前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶すると共に、
予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶する、
情報処理方法。
(付記13)
付記12に記載の情報処理方法であって、
前記記憶手段がダウンすることが予め設定された作動スケジュールデータに基づいて、前記記憶手段がダウンする前に当該記憶手段に記憶されている前記フラグメントデータを他の前記記憶装置に転送して記憶するとともに、前記ダウンする予定の記憶手段がダウンした場合には、当該記憶手段に記憶されていた前記フラグメントデータの前記再生成は行わない、
情報処理方法。
1 記録再生処理部
2 スケジュール制御部
3 ノード状態検出部
4 データ再生成制御部
5 データ復旧制御部
6 スケジュール記憶部
10 ストレージシステム
11 バックアップシステム
12 バックアップ対象装置
20 アクセラレータノード
30,31,32,33,34 ストレージノード
100 データ処理装置
101 分散記憶処理手段
102 作動状態検出手段
103 データ再生成手段
200 記憶手段
300 ストレージシステム
401〜404 ストレージノード

Claims (10)

  1. 複数の記憶手段と、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出すデータ処理手段と、を備え、
    前記データ処理手段は、
    記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶する分散記憶処理手段と、
    前記各記憶手段の作動状態を検出する作動状態検出手段と、
    前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶するデータ再生成手段と、を備えると共に、
    前記データ再生成手段は、作動スケジュールにより予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶する機能を有する、
    ストレージシステム。
  2. 請求項1に記載のストレージシステムであって、
    前記データ再生成手段は、前記記憶手段がダウンすることが予め設定された作動スケジュールデータに基づいて、前記記憶手段がダウンする前に当該記憶手段に記憶されている前記フラグメントデータを他の前記記憶装置に転送して記憶するとともに、前記ダウンする予定の記憶手段がダウンした場合には、当該記憶手段に記憶されていた前記フラグメントデータの前記再生成は行わない、
    ストレージシステム。
  3. 請求項1又は2に記載のストレージシステムであって、
    前記データ再生成手段は、入力された操作指令に応じて前記記憶手段のいずれかがダウンした場合に、このダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を、ストレージシステム内における他の処理に設定された優先度よりも低い優先度で実行する、
    ストレージシステム。
  4. 請求項1乃至3のいずれか一項に記載のストレージシステムであって、
    前記データ再生成手段は、前記記憶手段のいずれかがダウンした場合に、当該ダウンした記憶手段の予め設定された時間内におけるダウン回数が予め設定された回数に満たない場合に、このダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を、ストレージシステム内における他の処理に設定された優先度よりも低い優先度で実行する、
    ストレージシステム。
  5. 請求項3又は4のいずれか一項に記載のストレージシステムであって、
    前記データ再生成手段は、前記記憶手段のいずれかがダウンした場合に、当該ダウンした記憶手段の予め設定された時間内におけるダウン回数が予め設定された回数以上である場合に、このダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を、ストレージシステム内における他の処理に設定された優先度よりも高い優先度で実行する、
    ストレージシステム。
  6. 請求項3乃至5のいずれか一項に記載のストレージシステムであって、
    前記データ再生成手段は、前記ダウンした記憶手段に記憶されていた前記フラグメントデータの前記再生成の処理を前記低い優先度にて実行している時間が予め設定された時間を超えた場合に、当該低い優先度よりも高い優先度にて前記再生成の処理を実行する、
    ストレージシステム。
  7. 請求項1乃至6のいずれか一項に記載のストレージシステムであって、
    前記ダウンした記憶手段が復旧したときに、当該復旧した記憶手段に、前記再生成の処理により前記他の記憶手段に記憶された前記フラグメントデータを復帰させるデータ復帰手段を備え、
    前記データ復帰手段は、前記復旧した記憶手段の予め設定された時間内におけるダウン回数が予め設定された回数以上である場合に、当該記憶手段に対する前記フラグメントデータの復帰は行わない、
    ストレージシステム。
  8. 複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置であって、
    記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶する分散記憶処理手段と、
    前記各記憶手段の作動状態を検出する作動状態検出手段と、
    前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶するデータ再生成手段と、を備えると共に、
    前記データ再生成手段は、作動スケジュールにより予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶する機能を有する、
    情報処理装置。
  9. 複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置に、
    記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶する分散記憶処理手段と、
    前記各記憶手段の作動状態を検出する作動状態検出手段と、
    前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶すると共に、作動スケジュールにより予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶するデータ再生成手段と、
    を実現させるためのプログラム。
  10. 複数の記憶手段に接続され、これら複数の記憶手段に対してデータを記憶すると共に当該記憶手段に記憶されているデータを読み出す情報処理装置にて、
    記憶対象データを複数に分割した分割データ及び当該記憶対象データを復元するための冗長データからなる複数のフラグメントデータを、前記複数の記憶手段に分散して記憶し、
    前記各記憶手段の作動状態を検出し、
    前記作動状態検出手段による検出結果に応じて、前記記憶手段のいずれかがダウンした場合に、当該ダウンした前記記憶手段に記憶されていた前記フラグメントデータを、当該ダウンした前記記憶手段とは異なる他の前記記憶手段に記憶されている他の前記フラグメントデータに基づいて再生成して、当該他の記憶手段に記憶すると共に、
    作動スケジュールにより予めダウンすることが予定されている前記記憶手段に記憶されている前記フラグメントデータを、ダウン前に他の前記記憶手段に転送して記憶する、
    情報処理方法。
JP2010013890A 2010-01-26 2010-01-26 ストレージシステム Active JP5556192B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010013890A JP5556192B2 (ja) 2010-01-26 2010-01-26 ストレージシステム
US13/522,886 US9652325B2 (en) 2010-01-26 2010-08-25 Storage system and method to support scheduled and operational going down of a storing unit
PCT/JP2010/005216 WO2011092760A1 (ja) 2010-01-26 2010-08-25 ストレージシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010013890A JP5556192B2 (ja) 2010-01-26 2010-01-26 ストレージシステム

Publications (2)

Publication Number Publication Date
JP2011154428A JP2011154428A (ja) 2011-08-11
JP5556192B2 true JP5556192B2 (ja) 2014-07-23

Family

ID=44318776

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010013890A Active JP5556192B2 (ja) 2010-01-26 2010-01-26 ストレージシステム

Country Status (3)

Country Link
US (1) US9652325B2 (ja)
JP (1) JP5556192B2 (ja)
WO (1) WO2011092760A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5891842B2 (ja) * 2012-02-24 2016-03-23 日本電気株式会社 ストレージシステム
JP6269120B2 (ja) * 2014-02-06 2018-01-31 日本電気株式会社 ストレージシステム
EP3208714B1 (en) * 2015-12-31 2019-08-21 Huawei Technologies Co., Ltd. Data reconstruction method, apparatus and system in distributed storage system
JP6705255B2 (ja) * 2016-03-30 2020-06-03 日本電気株式会社 制御装置、制御方法及びプログラム、および、ストレージシステム
EP3792766A1 (en) * 2017-12-20 2021-03-17 Huawei Technologies Co., Ltd. Data storage method, apparatus, and system
JP7491545B2 (ja) 2019-12-27 2024-05-28 Necソリューションイノベータ株式会社 情報処理方法
CN114253460A (zh) * 2020-09-23 2022-03-29 伊姆西Ip控股有限责任公司 管理存储池的方法、设备和计算机程序产品

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2923702B2 (ja) * 1991-04-01 1999-07-26 株式会社日立製作所 記憶装置及びそのデータ修復方法
JPH08249133A (ja) * 1994-12-15 1996-09-27 Internatl Business Mach Corp <Ibm> ディスク・ドライブ・アレイの故障対策の方法及びシステム
US5680539A (en) * 1995-07-11 1997-10-21 Dell Usa, L.P. Disk array system which performs data reconstruction with dynamic load balancing and user-specified disk array bandwidth for reconstruction operation to maintain predictable degradation
US6799283B1 (en) * 1998-12-04 2004-09-28 Matsushita Electric Industrial Co., Ltd. Disk array device
JP2000200157A (ja) * 1999-01-08 2000-07-18 Nec Corp ディスクアレイ装置およびディスクアレイ装置におけるデ―タ復旧方法
US6516425B1 (en) * 1999-10-29 2003-02-04 Hewlett-Packard Co. Raid rebuild using most vulnerable data redundancy scheme first
US6996742B2 (en) * 2000-11-28 2006-02-07 Sedna Patent Services, Llc Method for regenerating and streaming content from a video server using RAID 5 data striping
US6934904B2 (en) * 2001-04-30 2005-08-23 Sun Microsystems, Inc. Data integrity error handling in a redundant storage array
US7434097B2 (en) * 2003-06-05 2008-10-07 Copan System, Inc. Method and apparatus for efficient fault-tolerant disk drive replacement in raid storage systems
US7444389B2 (en) 2003-12-09 2008-10-28 Emc Corporation Methods and apparatus for generating a content address to indicate data units written to a storage system proximate in time
JP2007233903A (ja) * 2006-03-03 2007-09-13 Hitachi Ltd 記憶制御装置及び記憶制御装置のデータ回復方法
US7685463B1 (en) * 2006-06-23 2010-03-23 Emc Corporation Disk drive management system
US7849261B2 (en) * 2006-06-29 2010-12-07 Seagate Technology Llc Temperature control to reduce cascade failures in a multi-device array
JP5320678B2 (ja) 2007-02-20 2013-10-23 日本電気株式会社 データ分散格納システム及びデータ分散方法、それに用いる装置並びにそのプログラム
JP2009211349A (ja) * 2008-03-04 2009-09-17 Nec Corp ディスクアレイ制御装置
JP4467624B2 (ja) * 2008-03-24 2010-05-26 富士通株式会社 ソフトウェアアップデート管理プログラム、ソフトウェアアップデート管理装置、およびソフトウェアアップデート管理方法
US8006128B2 (en) * 2008-07-31 2011-08-23 Datadirect Networks, Inc. Prioritized rebuilding of a storage device
WO2010109675A1 (en) * 2009-03-24 2010-09-30 Hitachi, Ltd. Storage system

Also Published As

Publication number Publication date
JP2011154428A (ja) 2011-08-11
WO2011092760A1 (ja) 2011-08-04
US9652325B2 (en) 2017-05-16
US20120297154A1 (en) 2012-11-22

Similar Documents

Publication Publication Date Title
JP5637552B2 (ja) ストレージシステム
JP5556192B2 (ja) ストレージシステム
US8725969B2 (en) Distributed content storage system supporting different redundancy degrees
JP2011060055A (ja) 仮想計算機システム、仮想マシンの復旧処理方法及びそのプログラム
US8676750B2 (en) Efficient data synchronization in a distributed data recovery system
CN104735107A (zh) 分布式存储系统中数据副本恢复方法及装置
US20170004051A1 (en) Workflows for series of snapshots
WO2015043155A1 (zh) 一种基于命令集的网元备份与恢复方法及装置
JP5517224B2 (ja) ストレージ装置
JP5365236B2 (ja) ストレージシステム
JP6269120B2 (ja) ストレージシステム
JP5891842B2 (ja) ストレージシステム
JP2012208650A (ja) ストレージ装置
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
JP5464675B2 (ja) ミラーリングシステム、ノード、ミラーリング方法、及びプログラム
JP2013025655A (ja) ログファイル管理モジュールおよびログファイル管理方法
CN111400098A (zh) 一种副本管理方法、装置、电子设备及存储介质
JP4464872B2 (ja) 計算機システムおよび計算機制御方法
JP2004078437A (ja) ファイルシステム管理情報の二重化方法および方式
JP6705255B2 (ja) 制御装置、制御方法及びプログラム、および、ストレージシステム
JP2021105964A (ja) 情報処理方法
JP5907100B2 (ja) ディスク制御装置およびディスクの減設方法、ストレージシステム、並びにコンピュータ・プログラム
CN118034577A (zh) 文件目录重定向方法、装置、计算机可读介质及电子设备
JP2021149133A (ja) クラスタリングシステム、クラスタリングシステムの運用方法、及びプログラム
JP2006053621A (ja) 計算機システムおよびそのトランザクション回復方法

Legal Events

Date Code Title Description
RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120717

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140225

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140520

R150 Certificate of patent or registration of utility model

Ref document number: 5556192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150