JP2007334770A - Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム - Google Patents

Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム Download PDF

Info

Publication number
JP2007334770A
JP2007334770A JP2006168110A JP2006168110A JP2007334770A JP 2007334770 A JP2007334770 A JP 2007334770A JP 2006168110 A JP2006168110 A JP 2006168110A JP 2006168110 A JP2006168110 A JP 2006168110A JP 2007334770 A JP2007334770 A JP 2007334770A
Authority
JP
Japan
Prior art keywords
disk
identification name
module
arbitrary
satisfied
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006168110A
Other languages
English (en)
Inventor
Koichi Tsukada
孝一 塚田
Satoshi Yazawa
悟史 矢澤
Shoji Oshima
章二 大嶋
Tatsuhiko Machida
達彦 町田
Hirokazu Matsubayashi
宏和 松林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006168110A priority Critical patent/JP2007334770A/ja
Priority to US11/588,230 priority patent/US20080010403A1/en
Publication of JP2007334770A publication Critical patent/JP2007334770A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1076Parity data used in redundant arrays of independent storages, e.g. in RAID systems
    • G06F11/1096Parity calculation or recalculation after configuration or reconfiguration of the system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • G06F11/1662Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】同一ディスクによる活性交換が行われた場合でも、所定の条件を満たす場合には当該ディスクの組み込みを許可する。
【解決手段】Disk組み込み処理部54は、Disk統計部53が管理する情報を共有化し(共通テーブル)、任意のディスクが切り離された後、当該ディスクが搭載された場合、この共通テーブルを参照して、このディスクの再組み込みを許可するか否かを判定する。
【選択図】図3

Description

本発明は、RAID装置に関する。
従来のRAID装置では、ディスク故障が発生した場合等、ディスクを交換する必要が生じた場合は、新しく保守部品を取り寄せて、ディスクの活性交換を実施する。RAID装置は、搭載している各ディスクのDisk WWN(World Wide Name)を記憶・管理しており、活性交換の際には、RAID装置内に登録されていないDisk WWNをもつディスクのみを組み込み対象としている。これは、故障ディスクが再度組み込まれることを防止する為である。もし、交換前と同一のDisk WWNを有するディスクがRAID装置に搭載された場合、これを組み込み対象としない制御をおこなっている。つまり、一度でもRAID装置に組み込まれたディスクは、2度とそのRAID装置に組み込めない。
図8(a),(b)に、従来の活性交換制御の一例を示す。図8(a)、(b)では、あるRAID装置に搭載される複数のディスクA〜Eのうち、ディスクBが故障した例を示す。この場合、図8(a)の例では、ディスクBを取り外して、代わりに新たなディスクFを搭載しているので、RAID装置側ではディスクFの組み込みを行う。一方、図8(b)の例では、ディスクBを取り外し後、そのままディスクBを再搭載しているので、RAID装置側ではディスクBの組み込みを行わない。
尚、もし、ディスクB(故障)を取り外し後、ディスクD(正常)も取り外して、ディスクBの位置にディスクDを搭載した場合でも、交換前と同一のDisk WWNを有するディスクと判定され、ディスクDの組み込みは許可されない。つまり、交換後のディスクのDisk WWNは、そのRAID装置に登録されている全てのディスクのDisk WWNと比較され、一致するものがあれば、交換前と同一のDisk WWNを有するディスクが搭載されたものと判定される。
但し、組み込みが完了した場合には、交換前のディスクのDisk WWNは消去される。従って、上記例において、ディスクDの位置にディスクFを搭載して組み込みが完了した後に、ディスクBの位置にディスクDを搭載したならば、ディスクDの組み込みは許可されることになる。
尚、以下の説明において“装置”とは、RAID装置を意味するものとする。また、上記Disk WWN、活性交換について、一応、以下に説明しておく。
・Disk WWN:各ディスクは世界でひとつだけの名前(Disk WWN)を保持しており、これによりディスクの個別判断が可能となる。
・活性交換:装置の運用を停止させず、部品交換を可能とする機能。
上記の通り、従来では、同一ディスクによる活性交換を許可していない。その理由は以下の点が挙げられる。
(1)故障したディスクが再度装置に搭載された場合、場合によっては当該故障ディスクがシステムに悪影響を及ぼすことがあり得る為、組み込まずに切り離す
(2)ディスクが物理的に装置から抜き差しされたかリアルタイムに検出することができず、実際にはディスクが装置から抜かれなくとも、装置Firmからはディスクが装置から抜かれたと見える場合がある。その場合、組み込みを行うと切り離すべきディスクが再度組み込まれるという悪影響があるため、切り離したディスクは組み込まないよう制御している。
尚、ディスク装置の障害に関して、以下の公知技術が知られている。
特許文献1に記載の発明は、ディスク装置のオフトラックが測定可能限界に達したときのエラーに対し、ディスク装置を交換することなくリカバリできるディスクアレイ装置である。
特許文献2に記載の発明は、障害情報を確実に取得可能とすることを目的とし、ディスクアレイ装置において物理ドライブのいずれかに障害発生時に障害情報を格納するトレースバッファを備え、トレースバッファに記憶された障害情報を、障害採取用ドライブとして設定された物理ドライブに書き込むようにした発明である。
特許文献3に記載の発明は、ディスク障害そのものの発生頻度を下げ、データロストの危険性を回避することを目的とし、ディスクの状態を統計的に分析して、ディスク障害が発生する前に自動的に正常なディスクを使用してアレイディスクを組み替える機構を備えるものである。
特開平9−167427号公報 特開平11−353127号公報 特開2000−305720号公報
上記の通り、従来では、ディスク故障が発生した場合、ディスクの活性交換を実施するが、同一ディスクによる活性交換を許可していない。
しかし、実際には、ディスク故障となる場合は、ディスクが異常であるケースだけでなく、他部品の影響で故障とみえるケースもある。例えば、装置に搭載されるディスクはFC(Fiber Channel)で接続されており、FC伝送路の異常が時としてディスク異常にみえることがある。この様なディスク要因ではないディスク故障の場合でも(実際にはディスク自体は故障していなくとも)新しいディスクと交換しなければならず、余計な手間が掛かり、コスト増となるというデメリットが存在する。
また、あるディスク要因で他ディスクも故障した場合(但し、何れも、ディスク自体には異常が無いにも係らず、故障と見做されたものとする)、交換の際は保守ディスクを用いて順繰りに交換しなければならず手間がかかる。例えば、ディスクA〜Eが存在し、ディスクAが要因となって、ディスクAだけでなくディスクB〜Eも故障と見做されてしまった場合、まず、ディスクAの代わりに保守ディスクFを搭載して組み込みが行われると、上記の通りディスクAの登録が抹消されるので、今度はディスクBの位置にディスクAを搭載する。その後も、同様に、ディスクCの位置にディスクB、ディスクDの位置にディスクCというように、順繰りに交換する(実際には故障していないので、新しいディスクを用いるのはもったいない為)。
尚、上記特許文献1〜3は、何れも、Disk WWNを用いた管理を行う場合の上記問題に関係するものではない。
本発明の課題は、Disk WWNを用いて活性交換の管理を行うRAID装置に係わり、同一ディスクによる活性交換が行われた場合でも、所定の条件を満たす場合には当該ディスクの組み込みを許可することで上記デメリットを解消できるRAID装置、そのモジュール等を提供することである。
本発明によるRAID装置内のモジュールは、複数のディスクより成るRAIDグループを有するRAID装置内のモジュールにおいて、前記各ディスクの識別名が登録される第1の記憶手段と、前記各ディスクの切離要因が格納される第2の記憶手段と、任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、前記第1の記憶手段に登録されている識別名と該搭載されたディスクの識別名とが一致する場合であっても、前記第2の記憶手段を参照して所定の各種条件を満たすか否かを判定し、該条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行するディスク組み込み処理手段とを有する。
従来では、登録されている識別名と搭載されたディスクの識別名とが一致する場合、すなわち切り離されたディスクが再搭載された場合には、必ず、当該ディスクの組み込みは行わなかった。一方、上記本発明のモジュールでは、前記各ディスクで発生するエラー内容、前記各ディスクの状態、前記各ディスクの切離要因等に基づく所定の条件を満たす場合に限り、同一ディスクが再搭載された場合であっても組み込みを許可し、組み込み処理を実行する。所定の条件を満たす場合とは、切り離されたディスクを再度組み込んでも問題が生じる可能性は低いと考えられる場合であり、例えば上記のようにディスク要因ではないディスク故障の場合等である。
但し、上記モジュールにおいて、例えば、前記ディスク組み込み処理手段は、前記搭載されたディスクの組み込み処理を実行後、所定時間以内に該ディスクが再び切り離された場合には、前記条件を満たすか否かに関係なく、該ディスクを再度組み込むことは許可しない。
尚、本発明は、上記モジュールの形態に限らず、その方法、プログラム、あるいは上記モジュールを有するRAID装置として構成することもできる。
本発明のRAID装置、そのモジュール等では、識別名を用いて活性交換の管理を行うRAID装置に係わり、同一ディスクによる活性交換が行われた場合でも、所定の条件を満たす場合には当該ディスクの組み込みを許可する。上記の通り、新しいディスクと交換する場合には、余計な手間が掛かり、コスト増となったが、この様な問題を解消できる。
以下、図面を参照して、本発明の実施の形態について説明する。
図1に、RAID装置の一般的な構成図を示す。
図示のRAID装置1は、2つのCM10(10a、10b)、FRT3、BRT4、BRT5、DE6、DE7を有する。
CM(Centralized Module)10は、RAID装置1内における各種ディスクアクセス処理、エラーリカバリ処理等を管理・制御する。BRT(Backend Router)4、5は、CM10とDE6、7との間に位置し、CM10と各DE(各ディスク群)とを繋ぐ為のスイッチの役割を果たす。ホスト2がCM10を介して任意のDEにアクセスする経路(パス)は2つあり、この2つのアクセス経路の各々にBRT4、5が設けられている。従って、どちらか一方のアクセス経路が何等かの理由(例えば、BRTの故障等)によって使用不可となっても、他方のアクセス経路を用いてアクセスすることができる。
ここでは、CM10aは、BRT4とBRT5の両系統に接続しており、CM10bも、BRT4とBRT5の両系統に接続している。尚、後述する再組み込み可否判定処理等は、CM10a、10bが各々個別に実行する。また、FRT3は、CM10a−10b間の通信を中継制御するものである。
DE(ドライブエンクロージャー)6は、PBC6a,6bと、ディスク群6cを有する。同様に、DE(ドライブエンクロージャー)7は、PBC7a,7bと、ディスク群7cとを有する。
PBCはポート・バイパス・サーキットである。PBCは、Loopで形成されるFC伝送路において、あるディスクが異常となったときにLoopをせき止めることを防ぐため、そのディスクをLoopからBypassさせる機能(つまり、そのディスクを切り離す機能)を持つハードウェアである。PBCは、切り離したディスクについてCM10に通知する。
BRT4の各ポートはPBC6a、PBC7aに接続しており、BRT5の各ポートはPBC6b、PBC7bに接続しており、各CM10は、BRT4又はBRT5とPBCを介して、ディスク群6c、ディスク群7cにアクセスする。
各CM10は、任意の通信線を介してホスト2(2a、2b)に接続している。
また、各CM10には、必要に応じて(例えば保守/修理作業の際)、FST20が接続される。FST20は、保守専用PC(パソコン)である。そして、オペレータ(保守作業員等)は、必要に応じて、FST20を操作して、任意のディスクの切り離しをCM10に対して指示する。
図2に上記CM10のハードウェア構成図を示す。
図2に示すCM10は、各DI31、各DMA32、2つのCPU33,34、MCH(Memory Controller Hub)35、メモリ36、及び各CA37を有する。
DI31は、各BRTと接続するFCコントローラである。DMA32はFRT3に接続する通信回路である。MCH35は、CPU33,34の外部バス等の所謂ホスト側のバスを、PCIバスと接続し、相互に通信できるようにする為の回路である。CA37は、ホストと接続する為のアダプタである。
後述する図5や図7等に示す各種フローチャートの処理や図3に示す各機能部の機能は、メモリ36に予め格納されているアプリケーションプログラムを、CPU33又はCPU34が読出し・実行することにより実現される。また、後述する共通テーブル60等も、メモリ36に格納される。
図3に、CM10の機能ブロック図を示す。
CM10は、監視部51、構成管理部52、Disk統計部53、及びDisk組み込み処理部54を有する。このうち、監視部51、構成管理部52、Disk統計部53の機能は、従来とほぼ同じであってよい(違いは、それぞれが検出/管理するデータを共通テーブル60に反映させる点である)。
本例のCMの特徴は、主にDisk組み込み処理部54にある。従来でも、Disk組み込み可否を判定する機能部は存在したが、上述してある通り、単に、Disk WWNを用いて判定しているだけである為、上述した問題が生じていた。
監視部51は、上記PBC判断で切り離した場合にPBCから上記の通り通知を受けるので、これを後述する共通テーブル60のPBC要因63に設定する。構成管理部52は、各ディスクがリカバリ中(Rebuild/Copyback状態)であるか否かを判定し、この判定結果を後述する共通テーブル60のリカバリ中64に設定する。
また、各ディスクで発生したエラーの情報は、Disk統計部53に集約される。すなわち、Disk統計部53は、RAID装置1内に搭載されている各ディスク毎に、Error発生毎にこのError事象に対応する点数を加点していき、閾値を超えたディスクを切り離すといった処理を行うモジュールである。
そして、本例のDisk統計部53は、更に、ディスクを切り離す場合には、切離要因を共通テーブル60の切離要因61に設定する。切離要因は、Device系ErrorとFC系Errorの2種類ある。Device系ErrorとFC系Errorの違いは、前者はハードウェア的な異常であり、後者はFC LoopからみたErrorとなる。更に、切離要因の更に詳細な情報として、Disk切り離しFactorを共通テーブル60のFactor65に設定する。Disk切り離しFactorは、例えば、Disk統計による切り離し、強制縮退による切り離し、Disk Not Readyによる切り離しなどがある。
Disk組み込み処理部54は、Disk統計部53が管理する情報を共有しており、この共通テーブル60を参照して、切り離されたディスクの再組み込みを許可するか否かを判定する。尚、Disk組み込み処理部54は、まず、従来通り、Disk WWNによる判定を行っている。よって、任意のディスクを切り離し後に搭載されたディスクのDisk WWNが、登録されているDisk WWNとは異なる場合(保守用ディスク等の新たなディスクが搭載された場合)には、当然、組み込みを許可する。一方、任意のディスクを切り離し後に搭載されたディスクのDisk WWNが、登録されているDisk WWNと同じ場合(上記同一ディスクを用いた活性交換が行われた場合)、従来では必ず、組み込みを許可しなかったが、本手法では以下に示す判定を行うことで、組み込みを許可する場合もある。
*一旦装置から切り離されたディスクを再度組み込むことを許可するか否かの判定方法
(1)基本的には、以下の条件1〜条件4の全ての条件に合致した場合のみ、再組み込みを許可し、組み込み処理を実施する。但し、必ずしも全ての条件を満たさなければならないわけではない。但し、全ての条件を満たす場合、切り離されたディスクを再度組み込んでも問題が生じる可能性は極めて低いと考えられる。
条件1; 切り離し要因がDevice系Error(ディスクのハード的な故障)ではないこと
条件2; FC系Error(ディスク伝送路のError)の場合は、FC Errorの種類に応じて、組み込みを許可するか否かを判断する。すなわち、以下の条件のうち1つでも満たさない場合は、再組み込みは許可しない。
・リカバリ中(Rebuild/Copyback状態)ではないこと(FC系Errorによるリカバリ失敗ディスク(Rebuild/Copyback中 ディスク) は、Rebuild/ Copyback処理遅延を防止する目的で、組み込みを行わない)
・明らかにディスク要因の統計加点による切り離しではないこと
条件3; PBC判断の切り離しではないこと(PBC が自発的に切り離したディスクの再組み込みは許可しない)
条件4; 上記“Disk切り離しFactor”が、組み込み対象のFactorであること(Disk切り離しFactorを参照し、それが組み込み対象Factorである場合には再組み込みを許可して組み込み実施する)
(2)Disk組み込み処理部54は、再組み込みを実施した場合、組み込んだ後、一定時間Disk統計部53を監視し、他のディスクへ加点されているようであれば、組み込んだディスクが原因として当該ディスクを切り離す。換言すれば、再組み込み後は、一定時間、当該ディスクが組み込まれたFC伝送路の統計を監視し、伝送路に加点されているようであれば、当該ディスクを被疑ディスクとして切り離す。尚、上記“他のディスク”とは、例えば、組み込んだディスクと同じLoop上にあるディスク(例えば同じDE内にあるディスク)全てである。
図4に、上記共通テーブルの構成の一例を示す。
図示の共通テーブル60は、各ディスク毎に上記切り離し要因〜Factor等の各種情報を記憶する記憶領域を用意しており、記憶されたデータはディスク交換時にクリアされる。
図示の共通テーブル60は、各ディスク毎に、切離要因61、再組込62、PBC要因63、リカバリ中64、及びFactor65を記憶する。Factor65以外の情報(切離要因61、再組込62、PBC要因63、リカバリ中64)は、例えば1Bitのフラグ情報である。
切離要因61には、当該ディスクが、Device系Error(ハード的な壊れ)、FC系Error(伝送路異常)のどちらの要因によって切り離されたかが、Disk統計部53によって判断されて設定される。例えば、Device系Errorは‘1’、FC系Errorは‘0’が設定される。
再組込62には、当該ディスクが再組み込みされた場合に、Disk組み込み処理部54によって例えば‘1’が設定される。‘1’に設定後、一定時間経過したら、‘0’クリアされる。
PBC要因63には、当該ディスクがPBC判断による切り離しが実施された場合に、PBCからの通知に応じて監視部51によって例えば‘1’が設定される。
リカバリ中64には、当該ディスクに関して、再組み込み以前に、Rebuild/Copybackが動作していた場合に(つまり、当該ディスクの状態がリカバリ中であった場合に)、構成管理部52によって例えば‘1’が設定される。
Factor65には、最終的な切り離し要因(例えば後述する‘0x0028’等のエラーコード)が、Disk統計部53によって判断されて設定される。つまり、上記“Disk切り離しFactor”が設定される。
尚、特に図示しないが、現在搭載されている各ディスクのDisk WWNも記憶されている。
図5に、Disk組み込み処理部54の処理フローチャート図を示す。この処理は、実施例1に係る処理であるものとする。
例えばPBC等は、任意のディスクが一旦外された後にディスクが接続されたことを検出すると、このディスク(以下、対象ディスクという)のDisk WWNを読み取ってDisk組み込み処理部54に通知する(ステップS11)。Disk組み込み処理部54はステップS12以降の処理を実行する。
すなわち、まず、通知されたDisk WWNと上記記憶してあるDisk WWNとを比較して(ステップS12)、一致しない場合、すなわち例えば切り離されたディスクとは異なるディスクが搭載された場合には(ステップS13,NO)、通常の組み込み処理を実行する(ステップS14)。一方、Disk WWNが一致した場合、すなわち切り離したディスクが再度搭載された場合には(ステップS13,YES)、ステップS15以降の処理を実行する。
ステップS15以降の処理は、共通テーブル60において上記再搭載された対象ディスクに関する各種情報を参照して行う。
すなわち、まず、切離要因61を参照することで、対象ディスクの切り離し要因が、Device系Error(ディスク自体のハード的な壊れ)であるか、FC系Error(伝送路異常)であるかが分かるので、Device系Errorであれば(ステップS16,YES)、対象ディスクの組み込み処理を中断する(再組み込みは許可しない)(ステップS21)。
一方、対象ディスクの切り離し要因が、FC系Error(伝送路異常)である場合でも(ステップS17,YES)、対象ディスクの状態が“リカバリ中”である場合には(リカバリ中64が例えば‘1’の場合)(ステップS18,YES)、組み込み処理を中断する(再組み込みは許可しない)(ステップS21)。
更に、対象ディスクがPBC判断で切り離されたものである場合(PBC要因63が例えば‘1’の場合)(ステップS19,YES)、又は対象ディスクの“Disk切り離しFactor”(Factor65参照)が、“組み込み対象Factor”ではない場合(ステップS20,NO)にも、組み込み処理を中断する(再組み込みは許可しない)(ステップS21)。
尚、組み込み対象Factorについては、後に、具体例を示して説明する。また、尚、ステップS19の判定がNOになる場合(PBC判断での切り離しではない場合)とは、例えば、オペレータ(保守作業員等)がFST20を操作して対象ディスクの切り離しをCM10に対して指示した場合や、CM10側の判断によって対象ディスクが切り離された場合等である。
上記組み込み処理を中断する(再組み込みは許可しない)と判定される場合以外は、当該対象ディスクの組み込み処理を許可し実行する(ステップS22)。
そして、対象ディスクの組み込み処理完了後、予め決められている所定時間でタイムアウトするタイマーを起動する(ステップS23)。そして、タイマーがタイムアウトするまでの間、Disk統計部53を監視し(Disk統計部53による上記加点処理状況を監視し)、他のディスクへの加点が、予め設定される第2閾値を越えるか否かを判定し、閾値を超えた場合には(ステップS24,YES)、組み込んだディスクの切り離し処理を実行する(ステップS26)。一方、他のディスクへの加点が閾値を超えることなくタイマーがタイムアウトした場合には(ステップS24,NO)、そのまま何もしない(ステップS25)。尚、上記ステップS24で用いる第2閾値は、上記切り離しを行うか否かを判定する為の閾値(第1閾値と呼ぶ)とは異なる閾値である(第2閾値<第1閾値)。
以上説明したように、実施例1による処理では、上記ステップS16〜S20に示す全ての条件を満たした場合には、同一ディスクが再搭載された場合であっても、組み込みを許可する。換言すれば、ディスク故障の要因や故障時の状況が、同一ディスクを再搭載しても基本的には問題ないと考えられるものである場合には、同一ディスクの組み込みを許可する。但し、組み込んだディスクが他のディスクに影響を及ぼす可能性がある為、組み込み処理後、所定時間監視を行い、問題があれば、再度切り離すようにしている。
図6(a)に、FC系エラーの一例を示す。
図示の‘0x0028’、‘0x100b’等は、FC系エラーのエラーコードであり、その意味と、障害要因が、図示の通り、一覧で示してある。
エラーコード‘0x0028’は「構成情報上では存在することになっているが、FCループ上にディスクが存在しなかった」ことを意味し、エラーコード‘0x1083’は「FCループ上にディスクが存在しなかった」ことを意味する。これら2つのエラーが、上記“FC系Error(ディスク伝送路のError)であるが明らかにディスク要因のエラー”の一例である。
尚、同図には、一応、障害要因が伝送路であるFC系Errorの一例も示しておく。すなわち、エラーコード‘0x0002’は「データ転送中にDMAエラーを検出した」ことを意味し、エラーコード‘0x0015’は「データランダーランを検出した」ことを意味し、エラーコード‘0x100b’は「ドライバタイムアウトを検出した」ことを意味する。
また、図6(b)には、上記“Disk切り離しFactor”の具体例を示す。同図に示す“再組み込み可否”が“可”であるFactorが、上記“組み込み対象Factor”である。すなわち、図示の一例では「Disk統計による切り離し」、「強制縮退による切り離し」、「予防保守による切り離し」、及び「Disk Not Ready」の各Factorが、上記“組み込み対象Factor”である。図示の例では、これら以外の各Factorは、上記“組み込み対象Factor”とはならないので、たとえ他の条件を満たしていても再組み込みは許可されない。
すなわち、図示の一例における「Write&Verify Error」、「ディスクからのSMART通知」、「RAIDリカバリからのディスク切り離し」、「Disk Event検出の切り離し」、及び「DE Off/Onによる切り離し」の各Factorは、上記“組み込み対象Factor”とはならない。
次に、以下、実施例2について説明する。
図7に、実施例2に係るDisk組み込み処理部54の処理フローチャート図を示す。
実施例2では、図5のステップS13の判定がYESとなった直後に、ある処理を行うことを前提とする。すなわち、「共通テーブル60の再組込62を参照し、もし‘1’であった場合(当該ディスクが再組み込みされたものであることを意味する)、ステップS15に移行することなく直ちに“組み込みを中断する”」という処理を行うことを前提とする。更に、上記ステップS24の判定がNOとなった場合、何もしないのではなく、再組込62に‘1’をセットする(ステップS31)。
そして、上記ステップS23のタイマーとは異なるタイマー(監視タイマーと呼ぶ)をスタートさせる(ステップS32)。この監視タイマーの設定時間は、基本的には、ステップS23のタイマーより長い時間とする。
そして、上記再組み込みしたディスクが、監視タイマーがタイムアウトする前に再び切り離された場合には(ステップS33,YES)、図5の処理を実行するが、ステップS31で再組込62が‘1’にセットされたままであるので、上記追加処理によって“組み込みを中断する”と判定される。つまり、図5の判定論理を適用することなく、強制的に“組み込みを中断する”と判定させる(ステップS35)。
一方、上記再組み込みしたディスクが再び切り離されることなく上記監視タイマーがタイムアウトした場合には(ステップS33,NO)、再組込62を‘0’クリアする(ステップS34)。従って、この場合には、もしその後に再組み込みしたディスクが再び切り離された場合でも、強制的に“組み込みを中断する”と判定されることはなく、図5の判定論理が適用されることになる。
(付記1) 複数のディスクより成るRAIDグループを有するRAID装置内のモジュールにおいて、
前記各ディスクの識別名が登録される第1の記憶手段と、
前記各ディスクの切離要因が格納される第2の記憶手段と、
任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、前記第1の記憶手段に登録されている識別名と該搭載されたディスクの識別名とが一致する場合であっても、前記第2の記憶手段を参照して所定の各種条件を満たすか否かを判定し、該条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行するディスク組み込み処理手段と、
を有することを特徴とするモジュール。
(付記2) 前記各ディスク毎に、エラー発生毎に該エラー事象に対応する点数を加点していき、該加点結果が予め設定される第1閾値を超えたディスクを切り離す処理を行うディスク統計手段を更に有し、
前記ディスク組み込み処理手段は、前記搭載されたディスクの組み込み処理を実行後に一定時間、該ディスク統計手段による加点状況を監視し、前記搭載されたディスク以外の他のディスクに対する加点結果が、予め設定される第2閾値を越えた場合には、前記搭載されたディスクを切り離すことを特徴とする付記1記載のモジュール。
(付記3) 前記所定の各種条件は、少なくとも、前記切り離されたディスクの前記切離要因が、該ディスク自体のハード的な要因ではないことであることを特徴とする付記1記載のモジュール。
(付記4) 前記所定の各種条件には、更に、詳細なFactorが“組み込み対象Factor”であるという条件が加わることを特徴とする付記3記載のモジュール。
(付記5) 前記第2の記憶手段には、更に、前記各ディスク毎に、PBC判断で切り離されたか否かを示す情報が格納され、
前記所定の各種条件には、更に、前記切り離されたディスクが、PBC判断で切り離されたものではないという条件が加わることを特徴とする付記3記載のモジュール。
(付記6) 前記第2の記憶手段には、更に、前記各ディスクの状態がリカバリ中であるか否かを示す情報が格納され、
前記所定の各種条件には、更に、前記切り離されたディスクの状態がリカバリ中ではないという条件が加わることを特徴とする付記3記載のモジュール。
(付記7) 前記ディスク組み込み処理手段は、前記搭載されたディスクの組み込み処理を実行後、所定時間以内に該ディスクが再び切り離された場合には、前記条件を満たすか否かに関係なく、該ディスクを再度組み込むことは許可しないことを特徴とする付記1記載のモジュール。
(付記8) RAID装置において、
複数のディスクより成るRAIDグループと、
前記各ディスクで発生するエラー内容、前記各ディスクの状態を収集・管理すると共に任意のディスクの組み込み処理を実行するモジュールとを有し、
該モジュールは、
前記各ディスクの識別名が登録される第1の記憶手段と、
前記各ディスクの切離要因が格納される第2の記憶手段と、
任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、前記第1の記憶手段に登録されている識別名と該搭載されたディスクの識別名とが一致する場合であっても、前記第2の記憶手段を参照して所定の各種条件を満たすか否かを判定し、該条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行するディスク組み込み処理手段と、
を有することを特徴とするRAID装置。
(付記9) 複数のディスクより成るRAIDグループを有するRAID装置内のコントローラ・モジュールにおけるディスク組込み可否判定方法であって、
任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、記憶されている前記各ディスクの識別名と該搭載されたディスクの識別名とが一致する場合であっても、所定の条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行することを特徴とするディスク組込み可否判定方法。
(付記10) 複数のディスクより成るRAIDグループを有するRAID装置におけるコンピュータに、
任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、記憶されている前記各ディスクの識別名と該搭載されたディスクの識別名とが一致する場合であっても、所定の条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行する機能、
を実現させる為のプログラム。
RAID装置の一般的な構成図である。 図1に示すCMのハードウェア構成図である。 図1に示すCMの機能ブロック図である。 共通テーブルの構成の一例を示す図である。 実施例1に係るDisk組み込み処理部の処理フローチャート図である。 (a)はFC系エラーの一例、(b)は“Disk切り離しFactor”の具体例を示す図である。 実施例2に係るDisk組み込み処理部の処理フローチャート図である。 (a)、(b)は、従来の活性交換の一例を示す図である。
符号の説明
1 RAID装置
2(2a,2b) ホスト
3 FRT
4 BRT
5 BRT
6 DE
6a,6b PBC
6c ディスク群
7 DE
7a,7b PBC
7c ディスク群
10(10a,10b) CM
20 FST
31 DI
32 DMA
33,34 CPU
35 MCH
36 メモリ
37 CA
51 監視部
52 構成管理部
53 Disk統計部
54 Disk組み込み処理部
60 共通テーブル
61 切離要因
62 再組込
63 PBC要因
64 リカバリ中
65 Factor

Claims (5)

  1. 複数のディスクより成るRAIDグループを有するRAID装置内のモジュールにおいて、
    前記各ディスクの識別名が登録される第1の記憶手段と、
    前記各ディスクの切離要因が格納される第2の記憶手段と、
    任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、前記第1の記憶手段に登録されている識別名と該搭載されたディスクの識別名とが一致する場合であっても、前記第2の記憶手段を参照して所定の各種条件を満たすか否かを判定し、該条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行するディスク組み込み処理手段と、
    を有することを特徴とするモジュール。
  2. 前記ディスク組み込み処理手段は、前記搭載されたディスクの組み込み処理を実行後、所定時間以内に該ディスクが再び切り離された場合には、前記条件を満たすか否かに関係なく、該ディスクを再度組み込むことは許可しないことを特徴とする請求項1記載のモジュール。
  3. RAID装置において、
    複数のディスクより成るRAIDグループと、
    前記各ディスクで発生するエラー内容、前記各ディスクの状態を収集・管理すると共に任意のディスクの組み込み処理を実行するモジュールとを有し、
    該モジュールは、
    前記各ディスクの識別名が登録される第1の記憶手段と、
    前記各ディスクの切離要因が格納される第2の記憶手段と、
    任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、前記第1の記憶手段に登録されている識別名と該搭載されたディスクの識別名とが一致する場合であっても、前記第2の記憶手段を参照して所定の各種条件を満たすか否かを判定し、該条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行するディスク組み込み処理手段と、
    を有することを特徴とするRAID装置。
  4. 複数のディスクより成るRAIDグループを有するRAID装置内のコントローラ・モジュールにおけるディスク組込み可否判定方法であって、
    任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、記憶されている前記各ディスクの識別名と該搭載されたディスクの識別名とが一致する場合であっても、所定の条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行することを特徴とするディスク組込み可否判定方法。
  5. 複数のディスクより成るRAIDグループを有するRAID装置におけるコンピュータに、
    任意の前記ディスクが切り離され、任意のディスクが搭載されたことが検出されると、記憶されている前記各ディスクの識別名と該搭載されたディスクの識別名とが一致する場合であっても、所定の条件を満たす場合には、前記搭載されたディスクの組み込み処理を実行する機能、
    を実現させる為のプログラム。
JP2006168110A 2006-06-16 2006-06-16 Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム Pending JP2007334770A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006168110A JP2007334770A (ja) 2006-06-16 2006-06-16 Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム
US11/588,230 US20080010403A1 (en) 2006-06-16 2006-10-27 RAID apparatus, module therefor, disk incorporation appropriateness judgment method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006168110A JP2007334770A (ja) 2006-06-16 2006-06-16 Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2007334770A true JP2007334770A (ja) 2007-12-27

Family

ID=38920314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006168110A Pending JP2007334770A (ja) 2006-06-16 2006-06-16 Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム

Country Status (2)

Country Link
US (1) US20080010403A1 (ja)
JP (1) JP2007334770A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5640543B2 (ja) * 2010-08-10 2014-12-17 富士通株式会社 ストレージシステム及びその制御方法
US9619353B2 (en) 2010-10-06 2017-04-11 International Business Machines Corporation Redundant array of independent disk (RAID) storage recovery
US8990494B2 (en) * 2010-11-01 2015-03-24 Taejin Info Tech Co., Ltd. Home storage system and method with various controllers

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007213721A (ja) * 2006-02-10 2007-08-23 Hitachi Ltd ストレージシステム及びその制御方法

Also Published As

Publication number Publication date
US20080010403A1 (en) 2008-01-10

Similar Documents

Publication Publication Date Title
JP4039794B2 (ja) マルチパス計算機システム
JP5052193B2 (ja) 記憶制御装置および記憶制御方法
US8015434B2 (en) Management apparatus, storage system, and storage apparatus management method
US20100262863A1 (en) Method and device for the administration of computers
JP4438010B2 (ja) 中継装置、中継方法および中継制御プログラム
JP6078984B2 (ja) 処理装置,処理方法,処理プログラム及び管理装置
CN105607973B (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
JP4584853B2 (ja) 被疑箇所特定装置および処理方法
JP2007334770A (ja) Raid装置、そのモジュール、ディスク組込み可否判定方法、及びプログラム
US9251016B2 (en) Storage system, storage control method, and storage control program
JP4854522B2 (ja) アレイディスク群の保守管理システム、アレイディスク群の保守管理装置、アレイディスク群の保守管理方法およびアレイディスク群の保守管理プログラム
JP4500346B2 (ja) ストレージシステム
JP2005267056A (ja) ソフトウェアミラーリングディスク障害監視・復旧システム、その障害監視・復旧方法及びプログラム
JP5663981B2 (ja) ストレージ装置、ストレージ装置のコントローラおよびストレージ装置の制御方法
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
JPH10275060A (ja) アレイディスク制御装置
JP4830698B2 (ja) 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法
JP4893781B2 (ja) 記憶制御システムおよび記憶制御装置
CN113901530A (zh) 一种硬盘防御性预警保护的方法、装置、设备及可读介质
CN111124729A (zh) 一种故障盘判定方法、装置、设备及计算机可读存储介质
JP2008084168A (ja) 情報処理装置及びデータ修復方法
JP6863037B2 (ja) ストレージ制御装置およびストレージ制御プログラム
JP4234730B2 (ja) Raid閉塞判定方法、raid装置、そのコントローラ・モジュール、プログラム
KR102526368B1 (ko) 멀티벤더를 지원하는 서버 관리 시스템
JP4893180B2 (ja) 記憶装置の故障回復方法、故障回復プログラムおよび制御装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080415

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080616

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081118