JP2005166016A - ディスクアレイ装置 - Google Patents

ディスクアレイ装置 Download PDF

Info

Publication number
JP2005166016A
JP2005166016A JP2004272947A JP2004272947A JP2005166016A JP 2005166016 A JP2005166016 A JP 2005166016A JP 2004272947 A JP2004272947 A JP 2004272947A JP 2004272947 A JP2004272947 A JP 2004272947A JP 2005166016 A JP2005166016 A JP 2005166016A
Authority
JP
Japan
Prior art keywords
data
disk
physical
physical disk
divided
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004272947A
Other languages
English (en)
Inventor
Tsutomu Ishizaki
勉 石崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004272947A priority Critical patent/JP2005166016A/ja
Priority to US10/974,955 priority patent/US20050102470A1/en
Publication of JP2005166016A publication Critical patent/JP2005166016A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2069Management of state, configuration or failover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2087Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring with a common controller

Abstract

【課題】 対をなす関係に設定された、異なる物理ディスクの分割された記憶領域を利用して、データ管理を行うため、信頼性の向上、低コスト化、小型化を図ることができる。
【解決手段】 複数の物理ディスクと、上位装置からの指令に基づいて前記物理ディスクの記憶領域に対してデータの読み書きを行う制御部とを有している。前記各物理ディスクは、記憶領域がそれぞれ複数の領域に分割され、前記一の物理ディスクの分割された記憶領域は、前記他の物理ディスクの分割された記憶領域と対をなす関係に設定されている。
【選択図】 図1

Description

本発明は、ディスクアレイ装置にかかり、特に物理ディスクの耐故障性能を向上させると共に、製品コストの削減及び小型化を図るディスクアレイ装置に関する。
近年、企業のみならず一般家庭にもコンピュータが導入され、IT(Information Technology)への依存度が増している。これに伴って、コンピュータシステムで取り扱う電子データの重要性はますます増大しており、当該電子データを記憶するコンピュータシステムにおける記憶装置の役割はますます大きくなってきている。このため、記憶装置の高性能化,大容量化はもとより、特に、高信頼性化の要求が高まる一方である。
そして、記憶容量の大容量化が進む中で、電子データの信頼性を保つためには、大記憶容量の物理ディスクの障害に備えて、前記物理ディスクに記憶された電子データを予備物理ディスク等に複写することが従来より行われている。
しかしながら、かかる方法では、前記物理ディスク(メインディスク)の障害を修復させた後に、前記予備物理ディスクに退避させた電子データを前記メインディスクに再度複写する必要がある。この複写に費やす時間は物理ディスクの記憶容量に比例するため、記憶容量の大容量化の下では、かかる時間が増大するという問題が生じる。
これに対して、データの冗長性を維持しつつ、物理ディスクに対するデータ読み書き速度の向上を図るために、現在のハードディスクの多くは複数の物理ディスクから構成され、かつ、それぞれの物理ディスクにデータを分割して記憶する、という手法(いわゆるRAID(Redundant Arrays of Inexpensive Disks))が採られている。そして、このような多重ハードディスクにおける障害対策技術、すなわち、データの冗長性を確保するための技術が、従来より研究されている。その一例として、特許文献1,2に示すものがある。
特開平7−129331号公報 特開2000−148409号公報
上記特許文献1に示す技術を、図5を参照して説明する。まず、特許文献1に開示されているディスクアレイ装置200は、上位装置300からの指令を受けて、RAIDコントローラ250による制御にて、RAID方式によるデータの記録が行われるものである。具体的には、図5はRAID5方式を示すものであり、この方式は、書込みデータを物理ディスクの台数分に分割し、かつ分割したデータに対応させてパリティデータをそれぞれ生成し、分割された書込みデータとパリティデータとを1組として、10台の物理ディスク210〜219にそれぞれ記録する方式を採っている。但し、これら10台の物理ディスクには、それぞれ対となる別の物理ディスク220〜229が備えられている。
すなわち、かかる例では2台が1対の物理ディスクを構成している。この1対の物理ディスクは図5において仮想線にて囲まれた2台の物理ディスクであり、例えば、符号210と220で示す物理ディスクがこれらに相当する。そして、一方の各物理ディスク210〜219のデータエリアに記録した書込みデータDA1〜DA10を、対となる他の物理ディスク220〜229にコピーする。従って、分割した書込みデータ及びパリティデータである各データDA1〜DA10と同一内容のミラーデータDA1’〜DA10’が、対となる別の物理ディスクに記録されることとなる。
しかしながら、このような方式では、物理ディスク台数の増加により、ディスク装置にかかるコストが増大するという問題が生じる。さらに物理ディスクが占有するスペースが増大し、ディスクアレイ装置自体の小型化を図ることができない、という問題が生じる。
また、上記特許文献2に開示されている技術を図6に示すが、これもRAID5方式を使用しており、上位装置500からの指令によりデータを記憶する際に、RAIDコントローラ450にて、図示された10台の物理ディスクの台数分に書込みデータが分割し、それぞれの書込みデータに対応させてパリティデータを生成し、分割した書込みデータとパリティデータとを1組として10台の物理ディスクDA1,・・・DA10(410)に記録する構成である。
かかるディスクアレイ装置400は、冗長ディスクの方式を用いたものであり、図示するように、データ用ディスクドライブ410に対して、列方向用冗長ディスクドライブ420と行方向用冗長ディスクドライブ430とを備えている。そして、分割データとパリティデータとが格納されるデータ用ディスクドライブ410の行、列方向それぞれのパリティを生成して、列方向用冗長ディスクドライブ420と行方向用冗長ディスクドライブ430とに格納しておくことにより、データ用ディスクドライブ410のうち、複数台の物理ディスクが故障した場合に、より確実にデータの復旧を図る。
しかしながら、かかる構成であっても、上記特許文献1と同様に、物理ディスクの台数が多いため、当該物理ディスクに費やされるコストの増加という問題や、収納スペースの増大に伴い小型化を図ることができないという問題が生じる。また、物理ディスクが1台故障した場合には、当該物理ディスクに記憶させたデータに相当するデータを冗長ディスクへ一旦複写し、その後、交換した物理ディスクに冗長ディスクから複写することで再構築が完了するため、冗長ディスクを使用する方式では非冗長状態が存在する、という問題も生じる。
このため、データ復旧に費やされる時間の増加や、物理ディスク数の増加を抑制することができるディスクアレイ装置が望まれている。
本発明の目的は、大容量かつ信頼性の向上、記録速度の高速化、さらには低コスト化、小型化を図ることができるディスクアレイ装置を提供することにある。
前記目的を達成するため、本発明は、複数の物理ディスクと、上位装置からの指令に基づいて前記物理ディスクの記憶領域に対してデータの読み書きを行う制御部とを有し、
前記各物理ディスクは、記憶領域がそれぞれ複数の領域に分割され、前記一の物理ディスクの分割された記憶領域は、前記他の物理ディスクの分割された記憶領域と対をなす関係に設定されていることを特徴とする。
なお、前記対をなす関係は、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの分割された一の記憶領域との間に設定されるとともに、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの他の記憶領域との間に設定されている。或は、前記対をなす関係は、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの分割された一の記憶領域との間に設定されている。
また前記制御部は、前記対をなす記憶領域を対応させるための対応関係データを保有し、前記対応関係データに基づいて、前記対をなす関係の記憶領域に同一データを保持する管理機能を有する。
前記各物理ディスクの記憶領域は、同一の記憶容量を有する2つの記憶領域に分割されていることが望ましいものである。
このような構成にすることにより、一の物理ディスクの分割された記憶領域のデータが、他の物理ディスクの分割された記憶領域にコピーされることとなる。また上記物理ディスクの他の分割領域内のデータは、上記2つの物理ディスクとは別の物理ディスクの分割領域(記憶領域)にコピーされることとなる。そして、さらに分割領域がある場合には、さらに別の物理ディスクの分割領域にコピーされて記録されることとなる。
従って、一台の物理ディスクが複数のデータを共有することにより、一台の物理ディスク内に記録されているデータは、分割領域毎にそれぞれ異なる物理ディスク上に形成された分割領域にコピーされて記憶されるこことなるため、物理ディスクが複数台故障したとしても、容易にデータの復旧を図ることができ、データの信頼性の向上を図ることができる。また、物理ディスクの設置台数の増加を抑制することができ、装置の低コスト化、小型化を図ることができる。特に、分割領域を総て同一容量にすることにより、総てのデータが確実にコピーされることとなり、データの信頼性が増す。
対をなす一の記憶領域は、オリジナルなデータを書き込む領域として設定されている。前記制御部は、前記記憶領域をデータ書込み領域として特定するための書込領域特定データを保有し、上位装置からの指令に応じた書込みデータを前記書込領域特定データに基いて前記記憶領域に書込む機能を有するとともに、前記対応関係データに基いて、前記記憶領域に書込まれたデータと同一のデータを、前記記憶領域と対をなす他の記憶領域にコピーする機能を有することが望ましい。
これにより、上述したようにデータの信頼性が確保されると共に、物理ディスクの不要な増加を抑制しつつ、読み出し時にはアクセス時間の短縮化を図ることができる。またデータ記録時には、対となる物理ディスクの一方に対して記録すればよく、後にコピーが行われるため、データの信頼性の向上を図りつつ、データ記憶の高速化を図ることができる。
前記制御部は、前記物理ディスクの交換を認識する交換認識機能を有するとともに、物理ディスクの交換を認識して、対をなす関係にある他の物理ディスクの記憶領域のデータを前記交換された物理ディスクの記憶領域に書込む機能を有することが望ましいものである。
これにより、物理ディスクが故障した際には、当該物理ディスクを交換することにより、交換された分割領域にデータがコピーされ、迅速且つ容易に復旧が行われ、データのさらなる信頼性化の向上を図ることができる。
以上説明したように本発明は、物理ディスクが障害により縮退した場合に、物理ディスク内のデータが他の物理ディスクにコピーされているため、冗長状態を維持した状態で物理ディスク交換が可能であり、危険な非冗長期間を伴わず、データの信頼性が増す。従って、従来技術におけるディスク装置では、大容量の物理ディスクが障害により縮退した場合、冗長ディスク(ホットスペア等)への複写が完了するまでは非冗長状態となり、この危険な時間は物理ディスクの容量に比例することとなることになるが、これに対して本発明では、非常に優れた効果を有する。
また、上述したような冗長性を有しており、かつ、信頼性の高いディスクアレイ装置であるにもかかわらず、不要な物理ディスク台数の増加を抑制し、低コスト且つ小型な装置を実現できる。従って、データ記録用として使用する物理ディスク台数の多い構成であればあるほど、多重障害に対する耐故障性能を向上させることが可能であり、かつ、低コスト化を図ることができる、という優れた効果を有する。
本発明の実施形態を、図1乃至図4を参照して説明する。
図1に示すように、本発明に係るディスクアレイ装置1は、上位装置30に接続され、当該上位装置30からの指令に基づいてデータの読み書きを行うディスクアレイ装置であって、複数の物理ディスクにて構成されるディスクドライブ10と、物理ディスクに対してデータの読み書きの制御を行う制御部20(RAIDコントローラ)とを備えている。すなわち、前記制御部20は後述するように、対をなす記憶領域を対応させるための対応関係データを保有し、前記対応関係データに基づいて、前記対をなす関係の記憶領域に同一データを保持する管理機能を有している。
ディスクドライブ10内には、図1においては6台の物理ディスク11〜16が格納されている。そして、それぞれの物理ディスク11〜16は、データの記憶領域が同一の記憶容量となる2つの領域に分割されてあらかじめ設定されている。ここでは、各物理ディスク11〜16の分割領域をブロックと呼び、一方をAブロック、他方をBブロックと呼ぶ。
そして、分割されたAブロック及びBブロックは、同一の記憶容量に設定されている。すなわち、各物理ディスク11〜16は、データの記憶領域が1/2の記憶容量をもつ分割領域11Aと11B,12Aと12B,13Aと13B,14Aと14B,15Aと15B,16Aと16Bに分割されている。但し、物理ディスクの数や、分割領域の数は、上述したものに限定されない。また、各物理ディスクの記憶領域を分割した記憶容量は、同一であることに限定されず、それぞれの記憶容量が異なっていてもよいものである。
さらに本発明において、一の物理ディスクの分割された記憶領域は、他の物理ディスクの分割された記憶領域と対をなす関係に設定されている。
前記対をなす関係の例を説明すると、前記対をなす関係は後述の図3(a)に示すように、前記一の物理ディスクの分割された一の記憶領域(分割領域)と前記他の物理ディスクの分割された一の記憶領域(分割領域)との間に設定されるとともに、前記一の物理ディスクの分割された一の記憶領域(分割領域)と前記他の物理ディスクの他の記憶領域(分割領域)との間に設定されている。或は前記対をなす関係は後述の図3(b)に示すように、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの分割された一の記憶領域との間に設定されている。
上記例に共通する、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの分割された一の記憶領域との間に設定される対をなす関係について説明する。この場合、同一内容のデータが記憶される対をなす一方の分割領域は、一の物理ディスクのAブロックに設定され、対をなす他方の分割領域は、前記一の物理ディスクと異なる他の物理ディスクのBブロックに設定される。また前記別の物理ディスクのAブロックは、上記一の物理ディスク及び別の物理ディスクとは異なるさらに別の物理ディスクのBブロックと対をなすように予め設定されている。
さらに、図1を参照して具体的に説明する。符号12で示す物理ディスクについて説明すると、同一内容のデータが記憶される対をなす分割領域は、一の物理ディスク12のAブロック12Aと他の物理ブロック13のBブロック13Bとにそれぞれ設定される。したがって、物理ディスク12のAブロック12Aと物理ディスク13のBブロック13Bとは対をなすこととなり、これらのAブロック12AとBブロック13Bとに同一内容のデータが書き込まれる。また物理ディスク13のAブロック13Aと物理ディスク14のBブロック14Bとは、同一内容のデータが書き込まれる対をなす分割領域として設定される。同様に図2に示すように、物理ディスク14,15,16,11のAブロック14A,15A,16A,11Aと、物理ディスク15,16,11,12のBブロック15B,16B,11B,12Bとは、同一内容のデータが書き込まれる対をなす分割領域としてそれぞれ設定される。なお、対をなすAブロックとBブロックとの関係を矢印Y1〜Y6で示している。
上述した対をなす分割領域として設定されたAブロックとBブロックとの対応関係を示す対となる分割領域同士の対応関係データは、制御部であるRAIDコントローラ20内の記憶領域(不揮発メモリ等)に記憶されている。RAIDコントローラ20は、前記対応関係データに基いて、一の物理ディスク11〜16のAブロックと他の物理ディスク12,13,14,15,16,11のBブロックとに同一データを保持する管理機能を実行する。
ここで、制御部であるRAIDコントローラ20には、RAID構築の管理を行うRAIDコントロール部21と、物理ディスクへのアクセスを管理するディスクドライバ22と、コピーを実行するミラー制御部23とが構築されている。そして、特に、このミラー制御部23には、上記RAIDコントローラ20内に記憶されている対応関係データに基づいて、対となる物理ディスク11〜16の分割領域(A,Bブロック)に対してそれぞれ同一データを書き込む機能、すなわち、ミラーリング実行機能が備えられている。
なお、RAID方式のうち、特にRAID1及びRAID5の方式について説明する。RAID1方式は、2台の物理ディスクに対して同一データを書込み、一方の物理ディスクの障害発生に対処してデータを保護する方式である。RAID5方式は、書込みデータを複数に分割し、かつ分割した書込みデータに対応させてパリティデータをそれぞれ生成し、これらの分割した書込みデータとパリティデータとを1組として、複数の物理ディスクにそれぞれ記録する方式である。
本発明のディスクアレイ装置において、対となる分割領域のうちいずれか一方がデータ書込用領域に設定される。例えば、物理ディスク12の分割領域12Aと物理ディスク13の分割領域13Bとが対となっている場合に、その一方の分割領域12Aがデータ書込用領域として設定される。
そして、かかる一対の分割領域において、分割領域12Aがデータ書込用領域である旨を表す書込領域特定データが、RAIDコントローラ20内の記憶領域に記録される。前記書込領域特定データは、例えばディスクドライバ22内のメモリに記憶されている。なお、それぞれ対となる他の分割領域についても同様である。
そして、これに伴い、RAIDコントローラ20、例えば、ディスクドライバ22は、上記書込領域特定データに基づいて、データ書込用領域に上位装置30からの指令に応じて書き込みデータを書き込む機能を有している。そして、上述したミラーリング実行機能にて、対となる分割領域の対応関係を表した対応関係データに基づいて、当該データ書込用領域内のデータと同一のデータを当該領域と対となる分割領域に書き込まれる(コピー)。
このように、対となる一方の物理ディスクのみにデータを書込むことにより、この書込まれたデータは前記ミラーリング機能により他方の物理ディスクにコピーされるため、データの書込みは一方の物理ディスクのみに行えばよく、データの冗長性を維持しつつ、データ書込みの高速化を図ることができる。なお、このミラーリング機能の動作について、図2を参照して詳細に説明する。
図2は、図1に開示したディスクドライブを示したものである。図2における各物理ディスク11〜16の各ブロック11A,11B等には、それぞれデータDA1,DA2等が書込まれている。そして、例えば、物理ディスク12は、その記憶領域が上述したように同容量のAブロック(12A)とBブロック(12B)とに領域分割されており、Aブロック(12A)は物理ディスク13のBブロック(13B)と対をなしている(矢印Y2参照)。
また、物理ディスク12のBブロック(12B)は物理ディスク11のAブロック(11A)と対をなしている(矢印Y1参照)。そして、ディスクドライバ22から物理ディスク12のAブロック(12A)にコマンドが発行された場合、ミラー制御部23が当該Aブロック(12A)と対となっている物理ディスク13のBブロック(13B)に対してコピーを実行する。
これにより、物理ディスク12のAブロック(12A)に書込まれているデータ(DA2)が、物理ディスク13のBブロック(13B)にコピーされることとなる(DA2’)。
また、ミラー制御部23は、他のブロックに対しても同様に作動する。すなわち、ディスクドライブ10がN台の物理ディスクで構成されている場合、N台目の物理ディスク(図2では符号16で示す物理ディスク)のAブロック(16A)は、一台目の物理ディスク11のBブロック(11B)と対をなしており、N台目の物理ディスク16のBブロック(16B)は、N−1台目の物理ディスク15のAブロック(15A)と対をなしている。このようにして、各ブロック同士は対をなしている(矢印Y1〜Y6参照)。
そして、ディスクドライバ22から各Aブロック(11A,12A,13A,14A,15A,16A)にコマンドが発行された場合、ミラー制御部23は、あらかじめ記憶している対応関係データに基づいて各Aブロック(11A,12A,13A,14A,15A,16A)と対を成す各Bブロック(12B,13B,14B,15B,16B,11B)を認識し、各Aブロックのデータ(DA1,DA2,DA3,DA4,DA5,DA6)を対となる各Bブロックにコピーするミラーリング処理を実行する。前記ミラーリング処理により、前記Aブロックのデータに対応して、各Bブロックにコピーされたデータに、符号DA1’,DA2’,DA3’,DA4’,DA5’,DA6’を付して示している。
このように、本発明では、ディスクアレイ装置における、物理ディスク単体のディスク(記憶容量)容量を同容量の2ブロックに領域分割し、それぞれAブロック、Bブロックとし、Aブロックは同容量である別の物理ディスクのBブロックと、Bブロックは前記別の物理ディスクとは別の物理ディスクのAブロックと対をなし、Aブロックにデータを書込み、Aブロックに書込まれたデータをBブロックにコピーする。
このため、物理ディスクに突発的な障害が生じた場合でも、物理ディスクを領域分割して自動的にデータを異なる物理ディスクに二重化していることにより、予備ディスクを用いることなく耐故障性能の向上を図ることができる。このとき、不必要な予備ディスクを用いていないため、物理ディスクの台数の増加を抑制することができ、装置の低コスト化、小型化を図ることができる。特に、分割領域を総て同一容量にすることにより、総てのデータが確実にコピーされることとなり、データの信頼性が増す。
さらには、RAIDコントローラ20は、物理ディスクが交換されたことを認識する交換認識機能を有している。例えば、ディスクドライバ22が各物理ディスク11〜16の稼働状況を常に監視し、障害時には縮退すると共に、取り外された後に新たな物理ディスクが装着されたことを認識する。そして、これに伴い、上記ミラー制御部23は、対応関係データに基づいて交換された物理ディスクの分割領域に対して対となる分割領域を認識し、当該領域に記憶されているデータと同一のデータを交換された物理ディスクの分割領域に書き込む機能を有する。
これにより、物理ディスクが故障した際には、当該物理ディスクを交換することにより、交換された分割領域にデータがコピーされる(コピー)。その後、RAIDコントローラ部21は、データ復旧処理機能に基いて、故障した物理ディスクから他の物理ディスクにコピーしたデータと、正常な物理ディスクに書込まれたデータとから、故障した物理ディスクに代えて交換する新たな物理ディスクに書込むために必要なデータを復旧させる。
また、本ディスクアレイ装置1の上記RAIDコントローラ20、特に、RAIDコントロール部21及びディスクドライバ22は、データ読み出し時には、物理ディスク11〜16から対応関係データに基づいて対となる分割領域のいずれか一方のみからデータを読み出す機能を有する。例えば、各物理ディスク11〜16のAブロック(11A等)のみから、上位装置30からの指令にて、当該ブロックに記憶されているデータDA1等を読み出す。
これにより、上述したように冗長性を維持し、物理ディスクの不要な増加を抑制しつつ、読み出し時には対となる物理ディスクのうち一方のみにアクセスすればよいため、アクセス時間の短縮化を図ることができる。
以下、本発明の具体的な実施例について、図3乃至図4を参照して説明する。以上の説明ではRAID適用しない場合について説明したが、図3(a)は、本発明のディスクアレイ装置1をRAID1レベル相当のRAID装置に適用した一例を示すものである。
この図に示すディスクドライブ100は、10台の物理ディスク101〜110にて構成されており、各物理ディスクの記憶領域(分割領域)は、同一容量の2つの記憶領域(分割領域)に分割されている。そして、上述したように、相互に物理ディスクが異なることを前提として、各分割領域は他の分割領域と対を成している。
例えば、物理ディスク101のAブロック(101A)と物理ディスク102のBブロック(102B)とが対となっている(図中の矢印参照)。他の分割領域も同様である。このような構成において、まず、物理ディスク101の分割領域101Aに記憶されたデータDA1が、RAID1の作用により、物理ディスク102の分割領域102AにデータDA1’として書き込まれる。同様に、物理ディスク101の分割領域101Aと対となる物理ディスク102の分割領域102Bにも、上述したミラーリング機能の作用により、データDA1’が書き込まれる。
さらに、上記RAID1の作用により物理ディスク102の分割領域102Aに書込まれたデータDA1’も、物理ディスク102の分割領域102Aと対となる物理ディスク103の分割領域103Bに、上記ミラーリング機能にて複写される(データDA1”)。これにより、物理ディスクの台数の不必要な増加を抑制しつつ、物理ディスクの耐故障性能の向上を図ることができる。
次に、本発明のディスクアレイ装置をRAID5レベル相当のRAID装置に適用した場合の一例を図3(b)に示して説明する。この図に示す例においては、図3(a)の場合と同様に、ディスクドライブ100に10台の物理ディスク101〜110が備えられており、それぞれの物理ディスクの記憶領域が2つの分割領域に分割されている(領域101A,101B等)。
RAID5では、図示しない上位装置からの指令にて書き込まれる書込み用データは、複数のデータに分割され、その分割された複数のデータに対応させて、パリティデータがそれぞれ生成される。そして、分割された複数の書込み用データと、それぞれに対応するパリティデータとを組とし、前記組をなすそれぞれのデータが各物理ディスク101〜110のAブロックにそれぞれ記憶される。そして、これらAブロックに書き込まれたデータ(DA1〜DA10)は、それぞれのAブロック(101A〜110A)と対となる別の物理ディスクのBブロック(101A〜110B)にコピーされることとなる(DA1’〜DA10’)。この対応関係は、図2に示したものとほぼ同様である。
そして、RAID5に適用した場合に、複数の物理ディスクが故障したときの復旧動作を、図4を参照して説明する。まず、図4(a)に示す状態は、2台の物理ディスク102,103が故障した場合である。この場合、障害を起した2台の物理ディスク102,103を正常な2台の物理ディスク102,103に交換する。物理ディスク102,103が交換されると、RAIDコントローラ20は、2台の新規な物理ディスク102,103を認識する。
次にRAIDコントローラ20は、物理ディスク101のAブロックからデータDA1を読み出し、物理ブロック104のBブロックからデータDA3’を読み出し、さらに残りの正常な物理ディスク104,105,106,107,108,109及び110のAブロックからデータDA4,DA5,DA6,DA7,DA8,DA9及びDA10をそれぞれ読み出す。
そしてRAIDコントローラ20は、読み出した複数のデータDA1,DA3’,DA4,DA5,DA6,DA7,DA8,DA9及びDA10と、パリティデータとを利用して、消失したデータDA2を再構築する。このデータを再構築する方式は、RAID5におけるデータ再構築に用いられる汎用のものであり、その詳細を省略する。
次にRAIDコントローラ20は、再構築したデータDA2を新規な物理ディスク102のAブロックに書込む。さらにRAIDコントローラ20は、物理ディスク102のAブロックに書き込んだデータDA2を新規な物理ディスク103のBブロックに、物理ディスク104のBブロックに書き込まれているデータDA3’を新規な物理ブロック103のAブロックにそれぞれコピーする(矢印YA2)。さらにRAIDコントローラ20は、物理ディスク101のAブロックに書き込んだデータDA1を新規な物理ディスク102のBブロックにコピーする(矢印YA1)。
以上の処理を経て、障害を起した物理ディスク102,103に記憶させておくべきデータDA1’,DA2,DA3を復旧させる。
また、図4(b)に示すように、3台の物理ディスク102,103,105が故障した場合、障害を起した3台の物理ディスク102,103,105を正常な3台の物理ディスク102,103,105に交換する。物理ディスク102,103,105が交換されると、RAIDコントローラ20は、3台の新規な物理ディスク102,103,105を認識する。
次にRAIDコントローラ20は、物理ディスク101のAブロックからデータDA1を読み出し、物理ブロック104のBブロックからデータDA3’を読み出し、物理ブロック104のAブロックからデータDA4を読み出し、物理ブロック106のBブロックからデータDA5’を読み出す。さらに残りの正常な物理ディスク106,107,108,109及び110のAブロックからデータDA6,DA7,DA8,DA9及びDA10をそれぞれ読み出す。
そしてRAIDコントローラ20は、読み出した複数のデータDA1,DA3’,DA4,DA5’,DA6,DA7,DA8,DA9及びDA10と、パリティデータとを利用して、消失したデータDA2を再構築する。このデータを再構築する方式は、RAID5におけるデータ再構築に用いられる汎用のものであり、その詳細を省略する。
次にRAIDコントローラ20は、再構築したデータDA2を新規な物理ディスク102のAブロックに書込む。さらにRAIDコントローラ20は、物理ディスク102のAブロックに書き込んだデータDA2を新規な物理ディスク103のBブロックに、物理ディスク104のBブロックに書き込まれているデータDA3’を新規な物理ブロック103のAブロックにそれぞれコピーする(矢印YB2)。
さらにRAIDコントローラ20は、物理ディスク101のAブロックに書き込んだデータDA1を新規な物理ディスク102のBブロックにコピーする(矢印YB1)。さらにRAIDコントローラ20は、物理ディスク104のAブロックに書き込んだデータDA4を新規な物理ディスク105のBブロックにコピーする(矢印YB3)。さらにRAIDコントローラ20は、物理ディスク106のBブロックに書き込んだデータDA5’を新規な物理ディスク105のAブロックにコピーする(矢印YB4)。
以上の処理を経て、障害を起した物理ディスク102,103,105に記憶させておくべきデータを復旧させる。
さらに、図4(c)に示すように、4台の物理ディスク102,103,105,107が故障した場合、障害を起した4台の物理ディスク102,103,105,107を正常な4台の物理ディスク102,103,105,107に交換する。物理ディスク102,103,105,107が交換されると、RAIDコントローラ20は、4台の新規な物理ディスク102,103,105,107を認識する。
次にRAIDコントローラ20は、物理ディスク101のAブロックからデータDA1を読み出し、物理ブロック104のBブロックからデータDA3’を読み出す。さらに、物理ブロック104のAブロックからデータDA4を読み出し、物理ブロック106のBブロックからデータDA5’を読み出し、物理ブロック108のBブロックからデータDA7’を読み出す。さらに残りの正常な物理ディスク108,109及び110のAブロックからデータDA8,DA9及びDA10をそれぞれ読み出す。
そしてRAIDコントローラ20は、読み出した複数のデータDA1,DA3’,DA4,DA5’,DA6,DA7’,DA8,DA9及びDA10と、パリティデータとを利用して、消失したデータDA2を再構築する。このデータを再構築する方式は、RAID5におけるデータ再構築に用いられる汎用のものであり、その詳細を省略する。
次にRAIDコントローラ20は、再構築したデータDA2を新規な物理ディスク102のAブロックに書込む。さらにRAIDコントローラ20は、物理ディスク102のAブロックに書き込んだデータDA2を新規な物理ディスク103のBブロックに、物理ディスク104のBブロックに書き込まれているデータDA3’を新規な物理ブロック103のAブロックにそれぞれコピーする(矢印YC2)。さらにRAIDコントローラ20は、物理ディスク101のAブロックに書き込んだデータDA1を新規な物理ディスク102のBブロックにコピーする(矢印YC1)。
さらにRAIDコントローラ20は、物理ディスク104のAブロック(分割領域)に書き込んだデータDA4を新規な物理ディスク105のBブロック(分割領域)にコピーする(矢印YC3)。さらにRAIDコントローラ20は、物理ディスク106のBブロックに書き込んだデータDA5’を新規な物理ディスク105のAブロックにコピーする(矢印YC4)。さらにRAIDコントローラ20は、物理ディスク106のAブロックに書き込んだデータDA6を新規な物理ディスク107のBブロックにコピーする(矢印YC5)。さらにRAIDコントローラ20は、物理ディスク108のBブロックに書き込んだデータDA7’を新規な物理ディスク107のAブロックにコピーする(矢印YC6)。
以上の処理を経て、障害を起した物理ディスク102,103,105,107に記憶させておくべきデータを復旧させる。
このように、本発明に係るディスクアレイ装置1は、多くのディスクが故障した場合であっても、データ冗長率が高く、かつ、ディスク台数の増加を抑制し、小型化、低コスト化を図ることができる。例えば、上述した特許文献1に記載したミラー/RAID組合せ方式の従来例におけるディスクアレイ装置と本発明におけるディスクアレイ装置と比較する。本発明における物理ディスク1台当たりの物理ディスクの記憶容量をXとし、仮に、特許文献1の物理ディスクの1台当たりの記憶容量を1/2とする。この条件の下において、本発明における記憶全容量は、物理ディスクが10台の場合に10X、従来技術における記憶全容量も、物理ディスクがl0組20台で10Xとなり同じとなる。
ここで、1台当たりの物理ディスクのコストは、例えば、(記億容量Xのもの:記憶容量l/2・Xのもの)=(7:4)であるとすると、全体のディスクコストは70:80となり、本発明の方がコストは小さい。本発明は、データ書込みの記憶容量が同一であるにも関わらず、物理ディスクにかかるコストを抑えることが可能である。従って、台数の構成が大きくなればなるほどディスクコストの差は開くだけでなく、本発明は.複数の物理ディスクのために必要とする占有スペースを減らすことができるため、コストをさらに抑えることが可能である。
また、上述した特許文献2に記載した冗長ディスク方式の従来例におけるディスクアレイ装置と本発明におけるディスクアレイ装置とを比較する。本発明における1台当たりの物理ディスクの記憶容量をXとし、仮に、特許文献2の物理ディスクの1台当たりの記憶容量を1/2とする。この条件の下において本発明における記憶全容量は、物理ディスクが10台の場合に10Xとなる。従来技術における記憶全容量は、物理ディスクが17台の場合にデータ用と冗長用との合計で8.5Xと小さくなる。
ここで、1台当たりの物理ディスクのコストは、例えば、(記憶容量Xのもの:記憶容量1/2・Xのもの)=(7:4)であるとすると、全体のディスクコストは70:68となり、ほぼ変わらない。これは、記憶容量が小さい物理ディスクであっても、物理ディスクへのデータの書込み・読出しをするためのディスク装置の基本的な構成のコストは、記憶容量が大きい物理ディスクの場合と同じようにかかるため、結果として、上述したように全体の物理ディスクコストの割合が近似するためである。
従って、台数の構成が大きくなればなるほど従来技術の冗長ディスク方式の冗長ディスク台数は多くなるため、費やされるコストは逆転し、本発明によるものの方が低くなる。
また本発明は物理ディスク台数が少ないため、物理ディスクを収納するスペースが冗長ディスク台数分少なくなり、物理ディスクを搭載する筐体も少なくて済む。このため、コストを押さえることが可能である。さらには、物理ディスクが1台故障した場合、本発明はコピー完了にて再構築が完了するが、冗長ディスクを使用した場合、冗長ディスクへの複写、そして冗長ディスクから交換した物理ディスクへの複写処理により再構築が完了するため、冗長ディスクを使用する方式では非冗長状態が存在しうる。これに対し、本発明では、非冗長期間を伴わないため、データの信頼性の向上を図ることができる。
以上のように、本発明では、一台の物理ディスクが複数のデータを共有することにより、一台の物理ディスク内に記録されているデータは、分割領域毎にそれぞれ異なる物理ディスク上に形成された分割領域にコピーされて記憶されるため、物理ディスクが複数台故障したとしても、容易にデータの復旧を図ることができ、データの冗長性を維持することができる。また、物理ディスクの台数の増加を抑制することができ、装置の低コスト化、小型化を図ることができる。特に、分割領域を総て同一容量にすることにより、総てのデータが確実にコピーされることとなり、データの信頼性が増す。
なお、上述した実施形態では、RAID1とRAID5とに適用した場合について説明したが、これ以外にもRAID0,2,3,4の方式がある。
RAID0方式は、データをブロック単位に分割し、複数の物理ディスクに渡って分散してデータを記録する(ストライピング)方式である。RAID2方式は、データの誤りを検出・訂正するために、主記憶装置などで使用されるECC(ErrorCorrectionCode:「ハミングコード」、「エラー訂正コード」とも呼ばれる)を使用し、データはビットまたはバイト単位に分割し、データ専用の複数の物理ディスクに記憶する方式である。RAID3方式は、データをブロック単位,ビットまたはバイト単位に分割し、データ専用の複数の物理ディスクへ同時に書き込み、パリティは分割されたデータから生成され、パリティ専用の物理ディスクに書き込まれ、常に全ての物理ディスクに並行してアクセスし、データを一括して転送する方式である。RAID4方式は、RAID0のストライピングに、パリティ専用の物理ディスクを追加してデータを再生成する機能を持たせたものであり、データはブロック単位に分割し、データ用物理ディスクヘ記録され、パリティは1台のパリティ専用の物理ディスクに記録される方式である。これらのRAID方式にも本発明を同様に適用することができる。
本発明は、上述したように、記憶するデータの高信頼性化を図る記憶装置として、コンピュータなどの上位装置に接続して利用することができ、産業上利用可能である。
本発明であるディスクアレイ装置の構成を示す概略図である。 図1に開示した物理ディスクへのデータの記憶状態を示す概念図である。 実施例における物理ディスクへのデータの記憶状態を示す概念図である。図3(a)はRAID1の場合であり、図3(b)は、RAID5の場合を示す。 実施例における物理ディスクへのデータの記憶状態を示す概念図であり、図4(a)〜(c)は、それぞれ物理ディスクが数台故障したときの状態を示す。 従来例におけるディスクアレイ装置の構成を示す概略図である。 従来例におけるディスクアレイ装置の構成を示す概略図である。
符号の説明
1 ディスクアレイ装置
10 ディスクドライブ
11〜16 物理ディスク
20 RAIDコントローラ(制御部)
21 RAIDコントロール部
22 ディスクドライバ
23 ミラー制御部
11A〜16A、11B〜16B 分割領域

Claims (10)

  1. 複数の物理ディスクと、
    上位装置からの指令に基づいて前記物理ディスクの記憶領域に対してデータの読み書きを行う制御部とを有し、
    前記各物理ディスクは、記憶領域がそれぞれ複数の領域に分割され、
    前記一の物理ディスクの分割された記憶領域は、前記他の物理ディスクの分割された記憶領域と対をなす関係に設定されていることを特徴とするディスクアレイ装置。
  2. 前記対をなす関係は、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの分割された一の記憶領域との間に設定されるとともに、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの他の記憶領域との間に設定されていることを特徴とする請求項1に記載のディスクアレイ装置。
  3. 前記対をなす関係は、前記一の物理ディスクの分割された一の記憶領域と前記他の物理ディスクの分割された一の記憶領域との間に設定されていることを特徴とする請求項1に記載のディスクアレイ装置。
  4. 前記制御部は、前記対をなす記憶領域を対応させるための対応関係データを保有し、前記対応関係データに基づいて、前記対をなす関係の記憶領域に同一データを保持する管理機能を有することを特徴とする請求項1に記載のディスクアレイ装置。
  5. 前記対をなす関係の複数の記憶領域は、同一の記憶容量を有することを特徴とする請求項1に記載のディスクアレイ装置。
  6. 前記各物理ディスクの記憶領域は、2つの記憶領域に分割されていることを特徴とする請求項1に記載のディスクアレイ装置。
  7. 前記分割された2つの記憶領域は、同一の記憶容量を有することを特徴とする請求項6に記載のディスクアレイ装置。
  8. 対をなす一の記憶領域は、データを書き込む領域として設定され、
    前記制御部は、前記記憶領域をデータ書込み領域として特定するための書込領域特定データを保有し、上位装置からの指令に応じた書込みデータを前記書込領域特定データに基いて前記記憶領域に書込む機能を有するとともに、前記対応関係データに基いて、前記記憶領域に書込まれたデータと同一のデータを、前記記憶領域と対をなす他の記憶領域にコピーする機能を有することを特徴とする請求項4に記載のディスクアレイ装置。
  9. 前記制御部は、前記対応関係データに基いて前記対をなす記憶領域のいずれか一方から書込みデータを読み出す機能を有することを特徴とする請求項4に記載のディスクアレイ装置。
  10. 前記制御部は、前記物理ディスクの交換を認識する交換認識機能を有するとともに、物理ディスクの交換を認識して、対をなす関係にある他の物理ディスクの記憶領域のデータを前記交換された物理ディスクの記憶領域にコピーする機能を有することを特徴とする請求項4に記載のディスクアレイ装置。
JP2004272947A 2003-11-11 2004-09-21 ディスクアレイ装置 Pending JP2005166016A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004272947A JP2005166016A (ja) 2003-11-11 2004-09-21 ディスクアレイ装置
US10/974,955 US20050102470A1 (en) 2003-11-11 2004-10-28 Disk array device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003381044 2003-11-11
JP2004272947A JP2005166016A (ja) 2003-11-11 2004-09-21 ディスクアレイ装置

Publications (1)

Publication Number Publication Date
JP2005166016A true JP2005166016A (ja) 2005-06-23

Family

ID=34554833

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004272947A Pending JP2005166016A (ja) 2003-11-11 2004-09-21 ディスクアレイ装置

Country Status (2)

Country Link
US (1) US20050102470A1 (ja)
JP (1) JP2005166016A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524124A (ja) * 2005-12-15 2009-06-25 ネットアップ,インコーポレイテッド ストレージアレイにおける三重故障からの効率的な復旧を可能にする三重パリティ技術
JP2015158768A (ja) * 2014-02-24 2015-09-03 富士通株式会社 ストレージ装置、及びストレージ装置の制御方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101923496A (zh) * 2010-07-30 2010-12-22 华中科技大学 一种raid的数据并行重构方法
US9430367B1 (en) * 2011-04-18 2016-08-30 American Megatrends, Inc. Systems and methods for active raid
US9207879B2 (en) * 2011-07-06 2015-12-08 Taejin Info Tech Co., Ltd. Redundant array of independent disk (RAID) controlled semiconductor storage device (SSD)-based system having a high-speed non-volatile host interface
KR101566467B1 (ko) 2011-11-02 2015-11-05 엠파이어 테크놀로지 디벨롭먼트 엘엘씨 데이터 복원을 용이하게 하기 위한 트리플 패리티 인코딩
CN111782135A (zh) * 2019-06-14 2020-10-16 北京京东尚科信息技术有限公司 数据存储方法、系统、数据节点和计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0823802B2 (ja) * 1991-11-13 1996-03-06 富士通株式会社 アレイディスク装置の状態表示方式
US7076606B2 (en) * 2002-09-20 2006-07-11 Quantum Corporation Accelerated RAID with rewind capability
US7024526B2 (en) * 2002-10-31 2006-04-04 Hitachi, Ltd. Apparatus and method of null data skip remote copy

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524124A (ja) * 2005-12-15 2009-06-25 ネットアップ,インコーポレイテッド ストレージアレイにおける三重故障からの効率的な復旧を可能にする三重パリティ技術
JP2015158768A (ja) * 2014-02-24 2015-09-03 富士通株式会社 ストレージ装置、及びストレージ装置の制御方法
US9858147B2 (en) 2014-02-24 2018-01-02 Fujitsu Limited Storage apparatus and method of controlling storage apparatus

Also Published As

Publication number Publication date
US20050102470A1 (en) 2005-05-12

Similar Documents

Publication Publication Date Title
US5566316A (en) Method and apparatus for hierarchical management of data storage elements in an array storage device
US7529970B2 (en) System and method for improving the performance of operations requiring parity reads in a storage array system
JP3742494B2 (ja) 大容量記憶装置
JP3226370B2 (ja) 高可用度ディスク配列に関する改善
JP4821448B2 (ja) Raidコントローラおよびraid装置
US7640452B2 (en) Method for reconstructing data in case of two disk drives of RAID failure and system therefor
JP2912802B2 (ja) ディスクアレイ装置の故障対処方法および装置
US20060190683A1 (en) Disk array apparatus and backup method of data
JP2000207136A (ja) 複数ドライブ故障トレラントraidアルゴリズム
US20060215456A1 (en) Disk array data protective system and method
JP2005099995A (ja) 磁気ディスク装置のディスク共有方法及びシステム
JP2000200157A (ja) ディスクアレイ装置およびディスクアレイ装置におけるデ―タ復旧方法
JP2005166016A (ja) ディスクアレイ装置
JP2010026812A (ja) 磁気ディスク装置
JP2008217395A (ja) ディスクアレイ装置
JP2010267037A (ja) ディスクアレイ装置
JP2005107675A (ja) ディスクアレイコントローラ及びディスクドライブの複製方法
JP2004164675A (ja) ディスクアレイ装置
JP2570614B2 (ja) デイスクアレイ装置
JP2007128183A (ja) ストレージシステム
JP3991947B2 (ja) 2種類のパリティと複数のデータ復旧方式とを有するディスクアレイ装置
JP2778268B2 (ja) 記録媒体制御装置
JP4609034B2 (ja) ディスクアレイ装置
JP6734305B2 (ja) ディスクアレイコントローラ、ストレージ装置、ストレージ装置の復旧方法、及びディスクアレイコントローラの復旧プログラム
JP2006268286A (ja) ディスクアレイ装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070814

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071022

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080422