JP4234730B2 - Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム - Google Patents
Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム Download PDFInfo
- Publication number
- JP4234730B2 JP4234730B2 JP2006130737A JP2006130737A JP4234730B2 JP 4234730 B2 JP4234730 B2 JP 4234730B2 JP 2006130737 A JP2006130737 A JP 2006130737A JP 2006130737 A JP2006130737 A JP 2006130737A JP 4234730 B2 JP4234730 B2 JP 4234730B2
- Authority
- JP
- Japan
- Prior art keywords
- raid
- disk
- raid group
- belonging
- disks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 116
- 230000000903 blocking effect Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 description 84
- 238000012545 processing Methods 0.000 description 55
- 238000011084 recovery Methods 0.000 description 24
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 239000000835 fiber Substances 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 101100048046 Arabidopsis thaliana UGT84A2 gene Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000011900 installation process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
- G06F11/1662—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
- G06F11/201—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Description
ホストアクセスは、閉塞したRAIDグループにおいて、閉塞となった要因が解消された時点から受付可能となる。
図12に、従来のRAID閉塞判定方法の一例を示す。尚、図12には、判定対象となるRAIDグループがRAID1の場合に対応した閉塞判定方法を示す。
まず、DLUについて説明する。図13(a)、(b)に示すように、RLUはRAIDグループそのものを意味し、DLUは、RLUという論理ボリュームと、ディスクという物理的ボリュームを結合する為の概念である。尚、DISKは、各ハードディスクそのものである。また、尚、図13(a)に示すように、RAID1の場合には、DLUとRLUとは同じ内容となる。よって、図12に示すDLUはRLUに置き換えても良い。
すなわち、
Av(Available;通常状態)、Br(Broken;故障状態)、Fu(Failed Usable;RAID故障時にRead(読出し)のみ許可状態)、Ex(Exposed;縮退状態)、Ne(Not Exist;loop down等が原因でDiskが一時的に見えなくなる状態)、Rb(Rebuild;Rebuild状態)、Spr(Sparing;Redundant Copy状態)、SiU(Spare In Use;Hot Spare使用状態)、Cp(Copyback;Copyback状態)、SpW(Spr+WF)である。
尚、図12に示す通り、故障状態(Br)ではなく、Ne状態になった場合でも、そのDLUは縮退状態となる。あるいは、例えば、ディスクP1が不調になった為に、ディスクP1をSpr状態にしディスクHS1をRb状態にして、ディスクP1のデータをディスクHS1にコピーしている状態で、更にディスクP2がBrとなった場合も、そのDLUは縮退状態となる。
そして、図14(b)の状態になったら、レイド1では2つ以上のディスクに同一データを格納する必要があるので、上記Hot Spare(ここではHS1)を使用する為に、図14(c)に示す通り、ディスクP1の格納データをディスクHS1にコピーする。この状態では、ディスクHS1はRb状態であり、DLUもRb状態である。そして、コピー完了したら、図14(d)に示す通り、ディスクHS1は通常状態となり、この様にHot Spareを用いて通常運用しているDLUの状態は、SiU状態となる。
特許文献1の発明は、ディスク装置を有する周辺装置に対する入出力動作要求で障害が発生した場合に、コンピュータによる判断処理の軽減を図ると共に、障害回復処理における無駄なリトライ処理を低減できるエラーリトライ方法である。
(1)“RAIDが閉塞し得る事象”が増えた場合、その都度、この事象を表に追加すると共に、この追加事象と各種“RAIDグループがとりうる状態”との組み合わせに応じたRAID閉塞の可否の設定を行わなければならず、非常に手間が掛かる。
(3)(2)の例外処理を追加していった結果、論理が複雑化し、メンテナンスし難くなる。
尚、上記特許文献1〜3は、上記問題点を解決することには何等関係がない。すなわち、特許文献1の発明は、ディスク装置に対するリトライ処理に係るものであり、ディスク装置内でのエラー発生時の対処方法とは関係ない。特許文献2の発明は、システムとして、あるサブシステムにおいて障害が発生した場合の、システムとしてのリカバリ方法と障害情報/ログ情報の採取に係るものであり、サブシステム(ここではディスク装置)内でのエラー発生時の対処方法とは関係ない。特許文献3は、デバイスパスに着目し、デバイスパス異常時にはデバイスパスを自律的に閉塞させ、システムへの影響を最小限にする発明であり、デバイスパス閉塞後に閉塞されたデバイスパスに存在するRAIDグループのデータ保護に関するものではない。
図1に、本例のRAID装置1の構成図を示す。
図示のRAID装置1は、2つのCM10(10a、10b)、FRT3、BRT4、BRT5、DE6、DE7を有する。
BRT4の各ポートはPBC6a、PBC7aに接続しており、BRT5の各ポートはPBC6b、PBC7bに接続しており、各CM10は、BRT4又はBRT5とPBCを介して、ディスク群6c、ディスク群7cにアクセスする。
尚、各CM10と各BRT4,5とは、Back Panelによって接続されており、I/F(インタフェース)はFC(ファイバーチャネル)である。各BRT4,5と各DE6,7とは、FCケーブルによって接続されており、I/F(インタフェース)はFC(ファイバーチャネル)である。各DE6,7内の各ディスクは、Back Panelによって接続されており、I/F(インタフェース)はFC(ファイバーチャネル)である。そして、各ディスクへのアクセスは、FCループにより行う。この為、FCループ上の複数のディスクのうち、上流のディスクの不具合等によってループが途切れると、下流のディスクにアクセスできなくなる場合がある。
図2に示すCM10は、各DI31、各DMA32、2つのCPU33,34、MCH(Memory Controller Hub)35、メモリ36、及びCA37を有する。
第1の実施形態における後述する各種フローチャートの処理は、メモリ36に予め格納されているアプリケーションプログラムを、CPU33又はCPU34が読出し・実行することにより実現される。尚、これは、後述する第2の実施形態についても同様である。また、後述する図3(b)に示す閾値条件データ等も、予めメモリ36に格納されており、この閾値条件データは後述するように上記閉塞可否判定処理の際に参照される。
本例の閉塞可否判断処理は、例えば、上記“RAIDが閉塞し得る事象”の何れかが発生すると処理開始する。本手法では、従来のように各“RAIDが閉塞し得る事象”毎に閉塞可否を登録しておくものではない。“RAIDが閉塞し得る事象”の発生は、単なる処理開始のトリガとなるに過ぎず、閉塞可否の判断は、各ディスクの状態や各ディスクへのアクセスパスの有無等に基づいて、図3(a)に示す基準に従った集計を行い(各ディスクを複数のカテゴリ(ここでは、図示の3種類の集計単位)に分類して、各カテゴリ毎に該当したディスクの数をカウントする)、この集計結果を図3(b)に示す閾値条件と比較することにより行う。
ここで、RAID閉塞判定を行ううえでは、任意のRAIDグループ毎に、どのディスクが使用でき、どのディスクが使用できないかを区別し、RAIDグループとしてアクセスが可能なのかを判定する必要がある。
図3(a)に示すように、“Use Disk”に分類されるディスクは、そのディスクの状態が、Available(通常状態)、Failed Usable(RAID故障時にRead(読出し)のみ許可状態)、Sparing(Redundant Copy状態)の何れかの状態であるディスクである。但し、これらの状態であっても、後述する“Loop Down Disk”の条件に該当するものは、“Loop Down Disk”に分類する。
『・Not Available;ディスクが搭載されていない状態。
・Not Supported;定義よりも容量が小さいディスクが搭載された状態。
・Present;Rebuild/Copyback待ちディスク。
・Readying;ディスク組み込み処理中の状態。
・Spare;Hot Spareとして正常状態のディスク(RAIDグループに含まれない為、Unuse Diskとして扱う) 』
“Loop Down Disk”に分類されるディスクは、以下の(4)、(5)の何れかの条件に該当するディスクである。
(5)Available、Failed Usable、Sparingの何れかの状態であるが、Not Exist状態へ遷移(変更)途中の場合
但し、特例として、以下の条件が加わる形態もある。
特例2;Sparing状態であっても“Write Failあり”のディスクは、“Use Disk”ではなく、“Unuse Disk” に分類する。
(1)論理共通化によるコーディング量の削減
(2)論理共通化によるメンテナンス性の向上
(3)発生事象が増えても論理を追加・変更する必要がない(処理開始のトリガが増えるだけ)
(4)RAIDレベルが増えても、新たな閾値条件を追加することで対応可能
図4〜図7に、本例のRAID閉塞判定処理のフローチャート図を示す。これらフローチャート図は、基本的には、上記図3(a)、(b)で説明して分類方法、閾値を用いた判定方法を、コンピュータによる実行処理手順として示したものである。尚、ここでいうコンピュータとは、上記CMのことである。CM内のメモリには、図4〜図7に示すRAID閉塞判定処理をCPU33又はCPU34によって実行させる為のプログラムが格納されている。但し、機能的に言えば、図4〜図7に示すフローチャートの処理は、RAID管理・制御部22が行なう。他のフローチャートの処理も同様である。
図示の処理において、本例のRAID閉塞判定処理(ステップS14以降)は、何等かの部品故障が発生したときに(ステップS11)、この故障によって両系ともFC Loop Down状態となった場合に(ステップS12,YES)実行する。よって、両系ともFC Loop Down状態となる状況にならない場合には(ステップS12,NO)、本処理は実行しない(ステップS13)。
尚、ここでは、図4の処理に上記特例1、特例2を適用した処理を示すが、当然、図5の処理に上記特例1、特例2を適用してもよい。この処理は特に図示しないが、上記ステップS83の判定がNOの場合に対して上記ステップS31の処理が加わり、ステップS91の処理の代わりに上記ステップS41,S42,S43の処理を行うことになる。
まず、図8(a)に具体例の1つを示す。ここでは、RAIDレベルがRAID1のRAIDグループの2つのディスクP1,P2のうち、ディスクP1がBr状態(故障状態)、ディスクP2がAv状態(通常状態)であったが、何等かの原因でディスクP2に対するアクセスパスが消失した例を示す。この例では、図4の処理を実行すると、ディスクP1に関してはステップS16でNOとなるので“Unuse Disk”としてカウントし、ディスクP2に関してはステップS18でNOとなるので“Loop Down Disk”としてカウントする。尚、Br状態のディスクは、通常、RAIDグループから外れるものとして管理されるが、図8(a)の例から明らかなように、本例の集計処理に関してはBr状態のディスクもRAIDグループに属するものとして集計対象に含めている。
図8(b)に示す通り、この例では、ディスクP2が故障(Br)した為、上記Hot Spare(ここではHS1)を使用し、ディスクHS1がAv状態になった。その後、ディスクP1にも不具合が生じた為、ディスクP1をSpr状態にして、Hot Spare(ここではHS2)に対してディスクP1のデータをコピーする処理(Redundant Copy)を実行している。しかし、コピー処理実行中に、ディスクP1に対するアクセスパスが、何等かの理由により消失してしまったケースを示している。
しかしながら、図4の処理に従うと、ディスクP1はステップS18でYESとなるので“Loop Down Disk”としてカウントされ、ディスクHS1は“Use Disk” としてカウントされ、ディスクP2とHS2は“Unuse Disk”としてカウントされるので、集計結果は以下の通りとなる。
一方、図3(b)において、RAID5に対応する閉塞条件は、以下の2種類ある。
・“Unuse Disk”=‘0’、“Loop Down Disk”=‘2以上’
・“Unuse Disk”=‘1’、“Loop Down Disk”=‘1以上’
従って、上記集計結果は、上記2種類の閉塞条件のどちらにも該当しないので、閉塞しないと判定されてしまう。
従って、上記2種類の閉塞条件のうち、
・“Unuse Disk”=‘1’、“Loop Down Disk”=‘1以上’
に該当することになるので、当該RAIDグループは閉塞させるものと判定される(誤判定しない)ことになる。
まず、既に説明してあるが、図12の図上右側に示すように、Redundant Copy(Sparing)には、“Write失敗あり”(SpW)という状態が存在する。この状態は、Redundant Copyの完了率を向上させる為に設けられたものである。すなわち、上記従来技術で説明した通り、全てのディスクに対してWriteを行った結果、Redundant Copyのコピー元でWriteが失敗する場合がある。この場合に、直ぐに故障状態とはせずに、Copyを継続させる場合がある。この状態の一例を図8(c)に示す。図8(c)に示す一例では、ディスクP2とHS1はAv状態であり、ディスクP1をコピー元としてディスクHS2をコピー先としてRedundant Copyを実行したが、ディスクP1でWriteが失敗している。この場合、図示の通り、ディスクP1の状態は、Br状態とはせずに、“Spr+WF”状態とし、コピーを継続させる。この状態で、図示の例では、ディスクP2に対するアクセスパスが、何等かの理由により消失してしまったケースを示している。
“Use Disk”=‘2’、“Unuse Disk”=‘0’、“Loop Down Disk”=‘1’
従って、上記2種類の閉塞条件のどちらにも該当しないので、閉塞しないことになってしまう。そこで、図7の処理では、ディスクP1は、“Use Disk”ではなく、“Unuse Disk”としてカウントするようにしている。つまり、Writeが失敗したRedundant Copyのコピー元ディスクは、故障状態と同様に扱い、RAIDグループの状態は冗長性がない状態と同じに扱う。
“Use Disk”=‘1’、“Unuse Disk”=‘1’、“Loop Down Disk”=‘1’
従って、上記2種類の閉塞条件の一方に該当することになるので、当該RAIDグループは閉塞させるものと判定される(適切な判定が行われる)。
(a)RAID装置による自動リカバリ機能が動作する部品故障の場合(但し、自動リカバリ機能が動作する故障と動作しない故障が同時に発生した場合は、短時間でリカバリ可能な場合として扱う。2つのBRTによる2系統によってアクセスする為、一方の系統だけでも自動リカバリ機能によって復旧すれば、使用可能となるからである。)。
上記(a)に関して、具体的には、例えば、BRTのポートが故障した場合、CE(作業者:人)が強制的に故障させた場合等には、自動リカバリ機能は動作しない。一方、同じくBRTのポートが故障した場合に、RAID装置側で異常として切り離した場合(例えばPBCが異常と判断したディスク切り離した場合)は、自動リカバリ機能が動作する。
図9において、図7における処理ステップと同じ処理ステップには、同一のステップ番号を付してあり、その説明は省略する。
図10に、RAID閉塞からの復旧時の処理フローチャート図を示す。
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクの状態又は前記各ディスクへのアクセスパスの有無に基づいて、前記各ディスクを複数のカテゴリに分類して当該分類単位毎に該当するディスクの数を集計し、該各集計結果と予め設定される閾値条件とを比較することによって、該RAIDグループを閉塞させるか否かを判定するRAID管理・制御手段、
を有することを特徴とするコントローラ・モジュール。
前記閾値条件は各RAIDレベル毎に設定され、前記判定は処理対象の前記RAIDグループのRAIDレベルに応じた閾値条件を用いて行うことを特徴とする付記1記載のコントローラ・モジュール。
RAIDレベルがRAID0の前記RAIDグループであって前記集計結果が該閾値条件に該当したRAIDグループは、閉塞させると判定することを特徴とする付記2記載のコントローラ・モジュール。
RAIDレベルがRAID1又はRAID0+1の前記RAIDグループであって前記集計結果が該閾値条件に該当したRAIDグループは、閉塞させると判定することを特徴とする付記2記載のコントローラ・モジュール。
RAIDレベルがRAID5又はRAID0+5の前記RAIDグループであって前記集計結果が該2種類の閾値条件の何れか一方に該当したRAIDグループは、閉塞させると判定することを特徴とする付記2記載のコントローラ・モジュール。
(付記8) Sparing状態であっても“Write失敗あり”のディスクは、前記“Use Disk”ではなく、前記“Unuse Disk” に分類することを特徴とする付記2記載のコントローラ・モジュール。
該コントローラ・モジュールと外部の任意のホスト装置とのインタフェースであるI/O制御手段と、
前記RAID装置内の任意の前記RAIDグループの閉塞可否の判定、閉塞の実行を管理・制御するRAID管理・制御手段とを有し、
前記RAID管理・制御手段は、任意の前記RAIDグループの閉塞を実行する場合、該RAIDグループが短時間でリカバリ可能か否かを判定し、短時間でリカバリ可能と判定した場合、その旨を前記I/O制御手段に通知し、
前記I/O制御手段は、該通知を受けた場合であって前記ホスト装置が前記閉塞されたRAIDグループへのアクセスを要求した場合には、該ホスト装置に対してダミーの応答を返信することを特徴とするコントローラ・モジュール。
該Busyの応答により、前記ホスト装置は、リトライ処理を繰返すことを特徴とする付記9記載のコントローラ・モジュール。
複数のディスクより成るRAIDグループと、
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクの状態又は前記各ディスクへのアクセスパスの有無に基づいて、該各ディスクを複数のカテゴリに分類して当該分類単位毎に該当するディスクの数を集計し、該各集計結果と予め設定される閾値条件とを比較することによって、該RAIDグループを閉塞させるか否かを判定するコントローラ・モジュールと、
を有することを特徴とするRAID装置。
該RAID装置と外部の任意のホスト装置とのインタフェースであるI/O制御手段と、
該RAID装置内の任意のRAIDグループの閉塞可否の判定、閉塞の実行を管理・制御するRAID管理・制御手段とを有し、
前記RAID管理・制御手段は、前記任意のRAIDグループの閉塞を実行する場合、該RAIDグループが短時間で復旧するか否かを判定し、短時間で復旧すると判定した場合、その旨を前記I/O制御手段に通知し、
前記I/O制御手段は、該通知を受けた場合、前記ホスト装置が前記閉塞されたRAIDグループへのアクセスを要求した場合、該ホスト装置に対してダミーの応答を返信することを有することを特徴とするRAID装置。
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクの状態や前記各ディスクへのアクセスパスの有無に基づいて、該各ディスクを複数のカテゴリに分類して当該分類単位毎に該当するディスクの数を集計する機能と
該各集計結果と予め設定される閾値条件とを比較することによって、該RAIDグループを閉塞させるか否かを判定する機能と、
を実現させる為のプログラム。
該RAID装置内の任意のRAIDグループの閉塞可否の判定、閉塞の実行を管理・制御する機能と、
前記任意のRAIDグループの閉塞を実行する場合、該RAIDグループが短時間で復旧するか否かを判定し、短時間で復旧すると判定した場合であって該閉塞されるRAIDグループへのアクセスを外部のホスト装置が要求する場合、該ホスト装置に対してダミーの応答を返信する機能と、
を実現させる為のプログラム。
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクの状態や前記各ディスクへのアクセスパスの有無に基づいて、該各ディスクを複数のカテゴリに分類して当該分類単位毎に該当するディスクの数を集計し、
該各集計結果と予め設定される閾値条件とを比較することによって、該RAIDグループを閉塞させるか否かを判定することを特徴とするRAID閉塞判定方法。
2(2a、2b) ホスト
10(10a、10b) CM
3 FRT
4,5 BRT
6,7 DE
6a,6b、7a、7b PBC
6c、7c ディスク群
21 I/O制御部
22 RAID管理・制御部
22a 構成情報
31 DI
32 DMA
33,34 CPU
35 MCH(Memory Controller Hub)
36 メモリ
37 CA
Claims (8)
- 複数のディスクより成るRAIDグループを有するRAID装置内のコントローラ・モジュールにおいて、
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクを、前記RAIDグループに属する前記各ディスクへのアクセスパスの有無および前記RAIDグループに属する前記各ディスクの状態に基づいた複数の分類単位に分類した上で、前記複数の分類単位にそれぞれ属する前記RAIDグループに属する前記特定の事象が発生したディスクの数を集計し、
ここで前記複数の分類単位は前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた分類単位を含み、
該各集計結果のうちの少なくとも前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果と対応する予め設定される閾値条件とを比較し、
前記各集計結果のうちの前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果が対応する前記閾値条件を満たしたときに該RAIDグループを閉塞させると判定する、
RAID管理・制御手段、
を有することを特徴とするコントローラ・モジュール。 - 前記閾値条件は各RAIDレベル毎に設定され、前記判定は処理対象の前記RAIDグ
ループのRAIDレベルに応じた閾値条件を用いて行うことを特徴とする請求項1記載のコントローラ・モジュール。 - 前記複数の分類単位が、第一の分類単位および第三の分類単位を含み、
前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位が、前記第三の分類単位に相当し、
前記RAIDレベルがRAID1又はRAID0+1の場合、前記閾値条件は、前記第一の分類単位に属する前記特定の事象が発生したディスクの数が0且つ前記第三の分類単位に属する前記特定の事象が発生したディスクの数が1以上、であり、
RAIDレベルがRAID1又はRAID0+1の前記RAIDグループであって前記集計結果が該閾値条件に該当したRAIDグループは、閉塞させると判定することを特徴とする請求項2記載のコントローラ・モジュール。 - 前記複数の分類単位が、第二の分類単位および第三の分類単位を含み、
前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位が、前記第三の分類単位に相当し、
前記RAIDレベルがRAID5又はRAID0+5の場合、前記閾値条件は、前記第二の分類単位に属する前記特定の事象が発生したディスクの数が0且つ前記第三の分類単位に属する前記特定の事象が発生したディスクの数が2以上、であるか又は、前記第二の分類単位に属する前記特定の事象が発生したディスクの数が1且つ前記第三の分類単位に属する前記特定の事象が発生したディスクの数が1以上、であり、
RAIDレベルがRAID5又はRAID0+5の前記RAIDグループであって前記集計結果が該2種類の閾値条件の何れか一方に該当したRAIDグループは、閉塞させると判定することを特徴とする請求項2記載のコントローラ・モジュール。 - 該コントローラ・モジュールと外部の任意のホスト装置とのインタフェースであるI/O制御手段
をさらに含み、
前記RAID管理・制御手段は、任意の前記RAIDグループの閉塞を実行する場合、該RAIDグループが短時間でリカバリ可能か否かを判定し、短時間でリカバリ可能と判定した場合、その旨を前記I/O制御手段に通知し、
前記I/O制御手段は、該通知を受けた場合であって前記ホスト装置が前記閉塞されたRAIDグループへのアクセスを要求した場合には、該ホスト装置に対してダミーの応答を返信することを特徴とする請求項1記載のコントローラ・モジュール。 - RAID装置において、
複数のディスクより成るRAIDグループと、
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクを、前記RAIDグループに属する前記各ディスクへのアクセスパスの有無および前記RAIDグループに属する前記各ディスクの状態に基づいた複数の分類単位に分類した上で、前記複数の分類単位にそれぞれ属する前記RAIDグループに属する前記特定の事象が発生したディスクの数を集計し、
ここで前記複数の分類単位は前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた分類単位を含み、
該各集計結果のうちの少なくとも前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果と対応する予め設定される閾値条件とを比較し、
前記各集計結果のうちの前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果が対応する前記閾値条件を満たしたときに該RAIDグループを閉塞させると判定する、
コントローラ・モジュールと、
を有することを特徴とするRAID装置。 - 複数のディスクより成るRAIDグループを有するRAID装置内のコントローラ・モジュールが実行するRAID閉塞判定方法であって、
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクを、前記RAIDグループに属する前記各ディスクへのアクセスパスの有無および前記RAIDグループに属する前記各ディスクの状態に基づいた複数の分類単位に分類した上で、前記複数の分類単位にそれぞれ属する前記RAIDグループに属する前記特定の事象が発生したディスクの数を集計し、
ここで前記複数の分類単位は前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた分類単位を含み、
該各集計結果のうちの少なくとも前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果と対応する予め設定される閾値条件とを比較し、
前記各集計結果のうちの前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果が対応する前記閾値条件を満たしたときに該RAIDグループを閉塞させると判定する
ことを特徴とするRAID閉塞判定方法。 - 複数のディスクより成るRAIDグループを有するRAID装置におけるコンピュータに、
前記RAID装置内でRAID閉塞可否を判定すべき特定の事象が発生する毎に、閉塞判定対象となる前記各RAIDグループ毎に、前記RAIDグループに属する前記各ディスクを、前記RAIDグループに属する前記各ディスクへのアクセスパスの有無および前記RAIDグループに属する前記各ディスクの状態に基づいた複数の分類単位に分類した上で、前記複数の分類単位にそれぞれ属する前記RAIDグループに属する前記特定の事象が発生したディスクの数を集計し、ここで前記複数の分類単位は前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた分類単位を含む、という機能と
該各集計結果のうちの少なくとも前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果と対応する予め設定される閾値条件とを比較し、前記各集計結果のうちの前記RAIDグループに属する前記各ディスクへのアクセスパスが無い場合に応じた前記分類単位に属する前記特定の事象が発生したディスクの数の集計結果が対応する前記閾値条件を満たしたときに該RAIDグループを閉塞させると判定する機能と、
を実現させる為のプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006130737A JP4234730B2 (ja) | 2006-05-09 | 2006-05-09 | Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム |
US11/537,230 US7779203B2 (en) | 2006-05-09 | 2006-09-29 | RAID blocking determining method, RAID apparatus, controller module, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006130737A JP4234730B2 (ja) | 2006-05-09 | 2006-05-09 | Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007304728A JP2007304728A (ja) | 2007-11-22 |
JP4234730B2 true JP4234730B2 (ja) | 2009-03-04 |
Family
ID=38838620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006130737A Active JP4234730B2 (ja) | 2006-05-09 | 2006-05-09 | Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7779203B2 (ja) |
JP (1) | JP4234730B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5729084B2 (ja) | 2011-03-30 | 2015-06-03 | 富士通株式会社 | ストレージシステム、ストレージ制御装置およびストレージ制御方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04291649A (ja) | 1991-03-20 | 1992-10-15 | Fujitsu Ltd | デバイスパス閉塞方式 |
JP3139548B2 (ja) | 1998-10-22 | 2001-03-05 | 日本電気株式会社 | エラーリトライ方法、エラーリトライシステム及びその記録媒体 |
JP3211799B2 (ja) | 1999-01-25 | 2001-09-25 | 日本電気株式会社 | Fc−alの障害情報収集装置、障害情報収集方法および記録媒体 |
JP4248164B2 (ja) | 2001-06-14 | 2009-04-02 | 株式会社東芝 | ディスクアレイのエラー回復方法、ディスクアレイ制御装置及びディスクアレイ装置 |
-
2006
- 2006-05-09 JP JP2006130737A patent/JP4234730B2/ja active Active
- 2006-09-29 US US11/537,230 patent/US7779203B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007304728A (ja) | 2007-11-22 |
US7779203B2 (en) | 2010-08-17 |
US20080010495A1 (en) | 2008-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100353328C (zh) | 用于控制存储的装置和方法 | |
JP5887757B2 (ja) | ストレージシステム、ストレージ制御装置およびストレージ制御方法 | |
US7529965B2 (en) | Program, storage control method, and storage system | |
US7457916B2 (en) | Storage system, management server, and method of managing application thereof | |
US8806125B2 (en) | Storage system comprising power saving function | |
US7565573B2 (en) | Data-duplication control apparatus | |
US8219748B2 (en) | Storage system comprising both power saving and diagnostic functions | |
US8677181B2 (en) | Storage apparatus and method of detecting power failure in storage apparatus | |
WO2011141963A1 (en) | Information processing apparatus and data transfer method | |
US7698592B2 (en) | Apparatus and method for controlling raid array rebuild | |
JPH11345095A (ja) | ディスクアレイ装置およびその制御方法 | |
JP2005100259A (ja) | ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法 | |
WO2017158666A1 (ja) | 計算機システム、計算機システムのエラー処理方法 | |
JP2007058419A (ja) | Pld上のメモリ内の情報に従って構築される論理回路を備えたストレージシステム | |
CN102880522A (zh) | 面向硬件故障的系统关键文件故障纠正方法及装置 | |
WO2014132373A1 (ja) | ストレージシステム及び記憶デバイス障害回復方法 | |
JP2002007077A (ja) | ディスクアレイ装置のループ診断システム及びその方法 | |
JP2009205316A (ja) | ディスクアレイ装置、ディスクアレイ制御方法及びディスクアレイ制御装置 | |
JP2006268673A (ja) | 記憶制御装置及び記憶デバイスのエラー制御方法 | |
JP2009026240A (ja) | 記憶制御システムおよび記憶制御方法 | |
JP4516993B2 (ja) | 仮想テープシステム | |
JP4234730B2 (ja) | Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム | |
JP2006164304A (ja) | ドライブの2重障害を防止するアレイ型ディスク装置、プログラム、及び方法 | |
JP3063666B2 (ja) | アレイディスク制御装置 | |
JP5760585B2 (ja) | ストレージシステムおよび異常発生箇所判定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081211 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4234730 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111219 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121219 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131219 Year of fee payment: 5 |