JP2005222379A - ディスクアレイ装置およびその障害回避制御方法 - Google Patents
ディスクアレイ装置およびその障害回避制御方法 Download PDFInfo
- Publication number
- JP2005222379A JP2005222379A JP2004030792A JP2004030792A JP2005222379A JP 2005222379 A JP2005222379 A JP 2005222379A JP 2004030792 A JP2004030792 A JP 2004030792A JP 2004030792 A JP2004030792 A JP 2004030792A JP 2005222379 A JP2005222379 A JP 2005222379A
- Authority
- JP
- Japan
- Prior art keywords
- interface connection
- disk
- housing
- controller
- drive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2089—Redundant storage control functionality
- G06F11/2092—Techniques of failing over between control units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0635—Configuration or reconfiguration of storage systems by changing the path, e.g. traffic rerouting, path reconfiguration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0661—Format or protocol conversion arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0683—Plurality of storage devices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computer Networks & Wireless Communication (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
【課題】 FCループを介して複数のSATAドライブ筺体を接続したディスクアレイ装置における障害発生時でも処理を継続できるようにする。
【解決手段】 正常動作時(A)は、1番目のシステムコントローラ(CTL♯0)1Aと2番目のシステムコントローラ(CTL♯1)1Bは、それぞれFCループを介してSATAドライブ筺体(DISK−ENC♯0)3の第1のインターフェース回路(I/F−0)4A、第2のインターフェース回路(I/F−1)4Bを通してディスクアレイのディスク7、ディスク9と通信してデータの読み書きを実行している。第2のバックエンドFCループ♯1にエラーが発生した場合(B)、2番目のシステムコントローラ(CTL♯1)1Bは、エラーが発生した第2のバックエンドFCループ♯1との接続を止め、正常なバックエンドFCループである1番目のシステムコントローラ(CTL♯0)1Aに切り替えてディスク装置へのアクセスを実施する。
【選択図】 図5
【解決手段】 正常動作時(A)は、1番目のシステムコントローラ(CTL♯0)1Aと2番目のシステムコントローラ(CTL♯1)1Bは、それぞれFCループを介してSATAドライブ筺体(DISK−ENC♯0)3の第1のインターフェース回路(I/F−0)4A、第2のインターフェース回路(I/F−1)4Bを通してディスクアレイのディスク7、ディスク9と通信してデータの読み書きを実行している。第2のバックエンドFCループ♯1にエラーが発生した場合(B)、2番目のシステムコントローラ(CTL♯1)1Bは、エラーが発生した第2のバックエンドFCループ♯1との接続を止め、正常なバックエンドFCループである1番目のシステムコントローラ(CTL♯0)1Aに切り替えてディスク装置へのアクセスを実施する。
【選択図】 図5
Description
本発明は、ディスクアレイ装置に係り、特に複数のディスク構成要素をファイバチャネルループ等のループ状通信手段にて接続して構成したディスクアレイ装置およびその障害回避制御方法に適用して有効な技術に関する。
超高速ギガビット・ネットワーク技術の一つとして、ANSI NCITS T11(旧ANSI X3 T11)で標準化が進められているファイバチャネルが知られている。このようなファイバチャネル(Fibre Channel:FC)のループ(以下、FCループと称する)を利用すれば、複数のハードディスク装置を接続して1つの大きな大規模記憶装置、所謂ディスクアレイ装置を構築することができる。
一方、近年、シリアルインターフェースによってデータの読み書きを行うドライブ装置、所謂SATA(Serial Advanced Technology Attachment)ドライブ装置が考えされている。特許文献1は情報処理装置にSATAドライブ装置を利用したものを開示する。
米国特許公開公報:US2003/0135577 A1
しかし、SATAドライブ装置は、ディスクアレイ装置に容易に適用できるものではなく、特にSATAドライブ装置をディスクアレイ装置に適用するには、複数のSATAドライブ装置を搭載する筐体の管理のやり方、SATAドライブ装置に対するデータの読み書きを制御するコントローラとの接続の方法等の多くの課題を解決することが要求される。
本発明の目的は、上記従来技術の課題を解決して、SATAドライブ装置をディスクアレイ装置として用いた大規模記憶装置を提供することにある。
本発明は、ディスクアレイ装置のドライブ筺体(すなわち、ディスクドライブ筐体)を構成するハードディスク装置(ディスクドライブ装置、またはディスクドライブ、あるいは単にドライブとも称する)にSATAドライブ装置を用い、2重のFCループを介して複数のドライブ筐体を接続したディスクアレイ装置とし、このディスクアレイ装置におけるエラー(すなわち、障害)発生側のSATAドライブ装置を特定し、これをFCループから切離し、かつこの切り離しの際のコントローラ(以下、システムコントローラ)とドライブ筺体を構成するドライブコントローラ間の切り替わり制御のすれ違いを回避して正常側のディスクドライブ筺体へのアクセスを継続できるようにした。
このようなSATAドライブ装置を用いたディスクアレイ装置において、FCループを2重に設定し、エラーが発生したドライブ筺体のディスク装置をFCループから切り離す際に、そのドライブコントローラも閉塞させないと、インターフェース接続装置のファームウエア暴走や潜在バグ等の誤動作が起きる可能性がある。または、ドライブ筐体のドライブコントローラとシステムコントローラ筺体のシステムコントローラのエラー検出時のすれ違いで、障害側のドライブ筺体のドライブコントローラから正常側のドライブ筺体のドライブコントローラに切り替わろうとしている時に、システムコントローラが正常側のドライブ筺体のドライブコントローラ側を閉塞させるような事態が発生する場合があり、その結果、システム全体のダウンを招くことがある。
また、エラー発生側のドライブ筺体のドライブコントローラの切離し不可エラーすなわちループ障害が起きると、システムからの当該エラー発生側のドライブ筺体の切り分けができないためFCループによるシステムコントローラと各ドライブ筺体間の通信を維持することができなくなる。
FCループの規格上、当該FCループが1カ所でも切断されると、システムコントローラとFCループ上の各ドライブ装置との通信が不可能になる。
このような事態に対処するため、本発明は、FCループを利用して構築されたSATAドライブ装置のディスクアレイで構成した記憶装置システム(以下、単にシステムとも称する)では、個々のディスク装置を切り離す場合に、例えばポートバイパス回路(PBC)によって接続を繋ぎ替えてFCループが途切れない様に制御する。
FCループを利用して、ディスク装置とそのディスク装置自身をコントロールするコントローラ(以下、ドライブコントローラ)を収容して1つのドライブ筺体とし、複数のドライブ筺体の全体をコントロールするシステムコントローラを収容したシステムコントローラ筺体を接続したディスクアレイ装置が構築される。なお、追加するドライブ筺体は増設筺体とも称する。このようなディスクアレイ装置においては、特定のドライブ筐体に障害が発生した場合は、前記したPBCによって、障害(以下、エラーとも称する)が発生したのドライブ筺体をFCループから切り離すことによって、他のドライブ筺体の動作を継続させる手法が採用される。しかし、何らかの理由でFCループの接続が切れた場合やFCループの通信を妨害された場合は、FCループに接続されている全ドライブ筺体が使用不可になる。
本発明は、このようなFCループ接続したシステムコントローラ筺体と複数のドライブ筺体とからなる大容量の記憶装置における障害発生に対処するために、FCループを2重に設定し、片方のループで障害が発生した場合、もう一方のループを使用して通信を続けさせるようにし、エラーが発生したドライブ筺体を特定して、当該ドライブ筺体のドライブをFCループから切り離すようにする。
また、本発明は、FCループとドライブ筐体のコントローラ(ドライブコントローラ)間にFCループデータをSATAドライブ装置で読み書きできるデータに変換するインターフェース接続装置を設けた。そして、本発明では、複数のドライブ筺体の何れかにエラーが発生した時は当該ドライブコントローラ(RAIDコントローラとも称する)あるいは正常側のドライブコントローラの指示でエラー側のドライブコントローラの電源をオフまたはリセットさせる。
さらに、本発明では、ドライブコントローラのエラー発生に備えて、FCループと各インターフェース接続装置の間にポートバイパス回路(PBC)を設ける。このポートバイパス回路(PBC)により、FCループをエラー発生側のドライブ筺体より後段のドライブ筺体以降からバイパスさせ、あるいはエラー発生側のドライブ筺体をバイパスさせることで、FCループのエラーの切り分けを可能とする。
すなわち本発明は、ディスクアレイ装置(記憶装置)の構成単位となるドライブとディスクコントローラとからなる。そして、このドライブコントローラを2重に設けてドライブ筐体を構成する。この2重構成のドライブコントローラを制御する如く2つのシステムコントローラを配置したコントローラ筺体である基本筺体(RAIDコントローラとも称する)を備える。ドライブ筺体およびシステムコントローラをFC等の通信線で2系統のループ状に接続してFCループとし、システムコントローラおよびドライブ筺体の相互間におけるデータの授受を行う。そして、ドライブ筺体およびシステムコントローラの上記FCループに対する接続および切り離しを個別に制御する前記したポートバイパス回路PBCを設ける。なお、ポートバイパス回路PBCは、単に信号の有無によりポートをバイパスするもので、実際の制御はシステムコントローラが行う。
このように、本発明によるディスクアレイ装置は、2つのシステムコントローラを有する少なくとも1つのコントローラ筐体と、複数のドライブ筐体と、複数のコントローラ筐体と複数のドライブ筐体を接続する複数のFCループとから構成する。
そして、コントローラ筐体は、ホストコンピュータ等の上位装置に接続されて該上位装置からデータを受ける通信制御部と、この通信制御部に接続されて上位装置との間でやり取りされるデータを保存するキャッシュメモリと、通信制御部およびキャッシュメモリに接続されてFCループを介して上位装置との間でやり取りされるデータを通信制御部に対して転送、又は前記通信制御部からの受信を制御する複数のコントローラ部とを少なくとも有する。
また、SATAディスク装置で構成したドライブ筐体は、FCループと接続されてコントローラ筐体との間の接続の切り替えを行う複数のポートバイパス回路PBCと、コントローラ筺体と複数のFCループにより接続されて当該複数のFCループにおいて利用されるファイバチャネルインターフェースと、ディスクドライブ用のインターフェースと接続する複数のインターフェース接続装置と、複数のインターフェース接続装置に接続されて該複数のインターフェース接続装置からのデータの受信の切り替えを制御する複数のデュアルポート切り替え装置と、複数のデュアルポート切り替え回路に接続されてコントローラ筺体により転送されたデータをFCループ、ポートバイパス回路、インターフェース接続回路、およびデュアルポート切り替え回路を介して受信し、格納する。
そして、2重構成としたドライブ筺体の各々のドライブコントローラには、該ドライブ筺体の動作を監視する筐体管理用プロセッサをそれぞれ有する。この筐体管理用プロセッサにはファイバチャンネルのアドレス(FC−ALのアドレス、ALPA(Arbitrated Loop Physical Address))を割り当てておく。
上記構成において、筐体管理用プロセッサは、2重構成とされる他の筐体管理用プロセッサと通信し、他の筐体管理用プロセッサが監視しているドライブコントローラにエラーが発生したことを認識した場合には、これをシステムコントローラに通知する。システムコントローラは、この通知に応じてエラーが発生したドライブ筺体の動作を閉塞させる。
本発明によれば、SATAドライブ装置を適用したディスクアレイ装置を提供できる。
なお、本発明は、上記の構成および後述する実施の形態に記述される構成に限定されるものではなく、特許請求の範囲に記載された本発明の技術思想を逸脱することなく種々の変更が可能である。
以下、本発明の実施の形態につき、実施例を図面を用いて詳細に説明する。最初に本発明に係るディスクアレイ装置の構成について説明する。
図1は本発明のディスクアレイ装置の全体を説明する外観図であり、図1(a)は正面図、図1(b)は背面図を示す。図2は図1における基本筺体の構成の説明図であり、図2(a)は一部の構成部材を引き出した正面斜視図、図2(b)は一部の構成部材を引き出した背面斜視図である。図3は図1における増設筺体の構成の説明図であり、図3(a)は一部の構成部材を引き出した正面斜視図、図3(b)は一部の構成部材を引き出した背面斜視図である。図4は図2または図3に示したディスクドライブユニットの構成例の説明図である。
図1(a)に示したように、本発明のディスクアレイ装置10はラックフレーム11に形成された複数段のマウントフレーム12を有し、このマウントフレーム12に基本筺体20および増設筺体30が引出し式に装着されている。図1中、参照符号52は図4に示されているディスクドライブ51が装填されたディスクドライブユニット、53はバックアップ電源であるバッテリーユニット、54はディスクドライブ51の稼働状態などを表示するLEDランプ等の表示デバイスを有する表示パネル、55はメンテナンスプログラムをロードする場合などに用いるフレキシブルディスクドライブである。
図1(b)に示したように、ラックフレーム11の背面には電源コントローラボード56が設置されている。電源コントローラボード56は複数のディスクドライブ51間のFCループの制御を行うPBC(ポートバイパス回路)やAC/DC電源57の状態監視、ディスクドライブ51の電源供給の制御、冷却ファン66(図2、図3参照)の制御、表示パネル54上の表示デバイスの制御、基本筺体や増設筺体の各部の温度監視、などを行う回路等が実装されている。
また、電源コントローラボード56にはFCケーブル91のコネクタ67が設けられている。なお、図1における参照符号48は制御ライン、49は電源供給ライン、58は冷却ファンユニット、59はコントローラボード、63はコネクタ、92は1または複数の上位装置(ホストコンピュータ100と接続する通信ケーブルである。
基本筺体20は、図2(a)に示したように、多数のディスクドライブユニット52が引出し式に装填されている。また、ディスクドライブユニット52の下側にはバッテリーユニット53、フレキシブルディスクドライブ55が収納され、表示パネル54が装着されている。
基本筺体20の背面には、図2(b)に示したように、複数のディスクドライブ51の電源を制御する電源コントローラボード56が設けられている。電源コントローラボード56にはコネクタ67が設けられており、このコネクタ67にFCループの一部となるFCケーブルが接続される。また、基本筺体20の背面には、各部に電源を供給するAC/DC電源57が装着され、電源コントローラボード56と接続される。参照符号64はブレーカスイッチである。AC/DC電源57の下側には冷却ファン66を有する冷却装置58が設けられている。そしてさらに、インターフェースボード61を搭載したコントローラボード59が装着されている。コントローラボード59にはキャッシュメモリ62、前記した上位装置(ホストコンピュータ)100と接続する通信ケーブル92を接続するコネクタ63を有する。同図では、上位装置を1個のみ示した。
インターフェースボード61のコネクタ63は、ホストコンピュータ100と接続するためのファイバチャンネル(FC)、イーサネット(Ethernet、登録商標)、などのプロトコルで構築されたSAN(Storage Area Network)、LAN(Local Erea Network)、SCSIなどのインターフェース規格に準拠している。
増設筺体30は、図3(a)に示した正面側に多数のディスクドライブユニット52が引出し式に装填されている。背面側には、図2で説明した基本筺体20と同様の電源コントローラボード56とAC/DC電源57および冷却装置58が設けられている。
基本筺体20と増設筺体30におけるディスクドライブユニット52を構成するディスクドライブ51は、図4に示すように、筺体70内に磁気ディスク(ハードディスク)73、アクチュエータ71、スピンドルモータ72、データの読み書きを行う磁気ヘッド74、磁気ヘッド74を含む各機構部分を制御する機構制御回路75、データの読み書き信号を制御する信号処理回路、通信インターフェース回路77、各種コマンドやデータが入出力されるインターフェースコネクタ79、電源コネクタ80を備えている。
ディスクドライブ51は、例えば、コンタクト・スタート・ストップ(CSS)方式の公称3.5インチサイズ、ロード/アンロード方式の公称2.5インチサイズの磁気ディスクを用いることができる。ディスクドライブ51は、例えばシリアルATA(SATA)の通信インターフェースを有している。なお、以下では、ディスクドライブ装置としてSATAディスクドライブ装置を用いたものとして説明する。
図5は本発明の実施例1におけるディスクアレイ装置の障害回避制御方法の基本を説明する模式図であり、2重構成されたSATAドライブ筺体の一方に障害(エラー)が発生した時のアクセスパス切り替えの基本的な制御方法を示す。図5の(A)は正常動作時、図5の(B)は障害動作時のアクセスパスを説明する模式図である。図中、参照符号1Aは2重構成されたシステムコントローラの1番目のシステムコントローラ(CTL♯0)、1Bは2番目のシステムコントローラ(CTL♯1)である。
また、参照符号2はバックエンド(システムコントローラとドライブコントローラを接続する)、3は増設ディスクアレイ装置としてのSATAドライブ筺体(DISK−ENC♯0)、DISK−ENC♯1は増設ドライブ筺体である。4Aは第1のインターフェース接続装置(I/F−0)、4Bは第2のインターフェース接続装置(I/F−1)、5Aは第1のドライブ筺体管理プロセッサ(EMP−0)、5Bは第2のドライブ筺体管理プロセッサ(EMP−1)、6A,6Bはポートバイパス回路(PBC)、7はデュアルポートデバイス(DPD)、8はSATAディスクを示す。そして、L−♯0は第1のバックエンドFCループ、L−♯1は第2のバックエンドFCループである。
1番目のシステムコントローラ(CTL♯0)1Aと2番目のシステムコントローラ(CTL♯1)1BはバックエンドFCループL−♯0、L−♯1でそれぞれSATAドライブ筺体(DISK−ENC♯0)、DISK−ENC♯1、・・・に接続している。第1のドライブ筺体管理プロセッサ(EMP−0)5A、第2のドライブ筺体管理プロセッサ(EMP−1)5Bは、ポートバイパス回路(PBC)6A,6Bを介して第1のインターフェース接続装置(I/F−0)4A、第2のインターフェース接続装置(I/F−1)4Bに接続している。SATAディスク8はデュアルポートデバイス(DPD)7を介して第1のインターフェース接続装置(I/F−0)4A、第2のインターフェース接続装置(I/F−1)4Bに接続している。
正常動作時は、図5(A)に示したように、1番目のシステムコントローラ(CTL♯0)1Aと2番目のシステムコントローラ(CTL♯1)1Bは、それぞれバックエンド2を介してSATAドライブ筺体(DISK−ENC♯0)3のポートバイパス回路6A,6B、第1のインターフェース接続装置(I/F−0)4A、第2のインターフェース接続装置(I/F−1)4B、デュアルポートデバイス7を通してディスクアレイを構成するディスク8と通信してデータの読み書きを実行している。この状態を図中に太い矢印で示す。
ここでは、第2のバックエンドFCループ♯1にエラーが発生した場合を想定する。第2のバックエンドループL−♯1にエラーが発生すると、第2のドライブ筺体管理プロセッサ(EMP−1)5Bがディスク装置に接続しているパスコントローラのパスを切り替える。また、2番目のシステムコントローラ(CTL♯1)1Bは、エラーが発生した第2のバックエンドFCループ♯1との接続を止め、正常なバックエンドFCループである1番目のシステムコントローラ(CTL♯0)1Aに切り替えてディスク装置へのアクセスを実施する。こうして、バックエンドFCループにエラーが発生しても、ディスク装置へのアクセスが継続される。
以下、上記した本発明の基本的な障害回避制御方法に基づく本発明の実施例について、さらに詳細に説明する。
図6は本発明によるディスクアレイ装置の実施例1の構成を説明する機能ブロック図である。また、図7は図6におけるシステムコントローラの内部構成例を説明する機能ブロック図である。ディスクアレイ装置は、基本筺体110と増設筺体140を有する。基本筺体110はこのディスクアレイ装置(記憶装置)を制御する2つのシステムコントローラ120Aと120Bを有している。このシステムコントローラ120Aと120Bは、所謂RAID(Redundant Arrays of Inexpensive Disks)コントローラである。基本筺体110はSAN(Strage Area Network)130で上位装置であるPCサーバなどのホストコンピュータ100A,100Bに接続されている。ホストコンピュータ100A,100BはFC/SCSIインターフェースボードであるホストアダプター102A,102Bを有している。基本筺体110と増設筺体140はバックエンドFCループ160で接続されている。
増設筺体140はドライブ筺体であり、ここでは1個のみを示したが、実際には前記図1等で説明したように、複数個設置される(以下では、増設筺体140をドライブ筺体とも称する)。増設筺体140はSATAドライブであるディスク装置171,173を有し、このディスク装置171,173に対して、ドライブコントローラは第1のドライブコントローラ150Aと第2のドライブコントローラ150Bからなる2重構成とされている。第1のドライブコントローラ150Aはドライブ筺体のコントローラ(ドライブコントローラ)であり、第1のポートバイパス回路151A、第1のインターフェース接続装置152A、第1の筺体管理プロセッサ153Aを有している。
なお、増設筐体のドライブコントローラにはインテリジェントな半導体チップ(プロセッサ)が載っている。これは、基本筐体のシステムコントローラと増設筐体のドライブコントローラに指揮系統が2つあるということである。このような構成において、仮にドライブコントローラのインターフェース接続装置にエラーが発生すると、インテリジェントな半導体チップなために、該チップの予期しない暴走や潜在バグなどの誤動作が起きる可能性がある。誤動作が起きることでシステムに影響を与えることのないように、リセットまたは電源のオフを行うことで完全に停止させる。こうすることで、誤動作を防止する。
第1のドライブコントローラ150Aの第1のインターフェース接続装置152AはFCループ上に転送されるFC形式のデータをSATA形式に変換する機能を有する。第2のドライブコントローラ150Bについても同様である。第1の筺体管理プロセッサ153A、第2の筺体管理プロセッサ153Bはドライブ筺体140の状態(電源異常、温度異常、パス異常など)を監視し管理するプロセッサである。両筺体管理プロセッサ153A、153Bはお互いに専用線180で接続されて管理情報を通知し合っている。筺体管理プロセッサ153A、153Bは第1のポートバイパス回路151A、第2のポートバイパス回路151Bに接続されている。そして、この筺体管理プロセッサ153A、153BにはFC-ALのアドレスが割り当てられている。
SATAドライブはディスク171、173およびデュアルポートデバイス(2ポート装置)DPD170,172から構成される。デュアルポートデバイスDPD170,172はディスク171、173を第1のドライブコントローラ150Aの第1のインターフェース接続装置152Aと第2のドライブコントローラ150Bの第2のインターフェース接続装置152Bとにアクセスパスを切り分ける機能を有する。すなわち、第1のドライブコントローラ150Aの第1のインターフェース接続装置152Aと第2のドライブコントローラ150Bの第2のインターフェース接続装置152Bからのデータ線のどちらかをディスク171,173に繋げる機能を有する。
第1のポートバイパス回路151A、第2のポートバイパス回路151Bはパス(データ線)の経路を切り分ける回路で、これら自身がパス切り分けを実行するのではなく、システムコントローラ120A,120Bの指示に従ってパスを切り分ける。
図6におけるシステムコントローラ120Aは、例えば図7に示したような構成を有する。システムコントローラ120Aはホストコンピュータ100A,100Bとの通信を司るインターフェースを備えた通信制御装置121A、通信制御装置121Aとコントローラ部123Aの間で授受されるデータを一時的に記憶するキャッシュメモリ122Aを有する。参照符号124Aはデータバスを示す。コントローラ部123Aは。通信制御装置121Aからのデータ入出力要求によりドライブ(ディスク)へのデータの書き込みや読み出しをキャッシュメモリ122Aを介して実行する。システムコントローラ120Bについても同様である。
図8はRAIDコントローラを有する基本筺体110に有する制御プログラムの内容の説明図である。この(RAID CTL)400は、システム全体を制御する基本プログラムであるRAID制御プログラム401、システム全体の障害(エラー)を検出する障害検出プログラム402、障害の発生したドライブコントローラ(250Aまたは250B)を閉塞処理させた後に当該障害の発生したドライブコントローラが本当に閉塞しているか否かを確認する無応答指示プログラム403で構成される。
上記の構成としたディスクアレイ装置において、何れかの増設筺体のドライブコントローラの一方に異常が起きてエラーとなった場合のシステム動作を図9と図10を参照して説明する。なお、以下の説明では、2重構成部分については、繰り返しの説明による煩雑さを避けるため、必要な場合を除いてその一方についてのみ説明するが、他方の動作も同様であることに留意すべきである。実施例2以降の説明でも同様である。
図9は図6に示した本発明の実施例1をさらに詳細に説明するディスクアレイ装置の構成を説明する機能ブロック図である。また、図10は図9の動作を説明する流れ図である。図9の構成は、基本的には図6と同一構成であるが、本実施例に必要な機能部分をさらに図面に挙げてある。なお、図9では図6と同一機能部分の100番台の符号を200番台を基本とした符号で示してある。基本筺体210については、そのシステムコントローラ220Aがホストインターフェース221Aとパス切り替えスイッチ222Aを有していることを示している。また、第1のドライブコントローラ250Aには、異常のあるドライブコントローラのインターフェース接続装置252Aおよび筺体管理プロセッサにリセットもしくは、その電源をオフ状態とするためのリセット発生回路254Aを有している。
参照符号281はリセット発生回路254Bから第1のドライブコントローラ250Aの筺体管理プロセッサ253Aにリセットもしくは、その電源をオフ状態とするための信号を伝送するための信号線である。そして、第1のドライブコントローラ250Aおよび第2のドライブコントローラ250Bには、それぞれ筺体管理プロセッサ制御プログラム256A,256Bを格納したメモリ255A,255Bが設けられている。筺体管理プロセッサ253A、253Bは第1のポートバイパス回路251A、第2のポートバイパス回路251Bに接続されている。そして、この筺体管理プロセッサ253A、253BにはFC-ALのアドレスが割り当てられている
図10は図9の動作を説明する流れ図である。図9の構成では、筺体管理プロセッサ253A,253Bがポートバイパス回路251A,251Bと直接接続されている。また、図10は、正常側のポートバイパス回路251Bが直接筐体管理プロセッサ253Bに筐体管理プロセッサ253Aのリセット/電源オフコマンドを渡し、このコマンドに基づいてリセット発生回路254Aにリセット/電源オフ信号を発信させる。
次に、図10を参照して図9の構成における障害発生時の処理の流れを説明する。ここでは、増設筺体240の第1のドライブコントローラ250Aに異常(エラー)が発生した場合について、その閉塞指示が当該第1のドライブコントローラ250Aから発行された場合を例として説明するが、エラー発生により閉塞指示が第2のドライブコントローラ250Bから発行された場合も同様である。また、ここでは、異常が発生したドライブコントローラが第2のドライブコントローラ250Bである場合も同様である。図10では、上部横方向に左からシステムコントローラ220A(220B)、障害側ポートバイパス回路251A、障害側インターフェース接続装置252A、障害側筐体管理プロセッサ253A、障害側リセット発生回路254A、正常側のポートバイパス回路251B、正常側筐体管理プロセッサ253Bの順で表記し、各機能部分の動作の順を矢印で示す。
まず、システムコントローラ220Aは、図8の障害検出プログラム402で、定期的に、両ドライブコントローラ250A,250Bに「Receive diag」コマンドで筺体管理プロセッサ253A,253Bのログを採取して、障害発生の有無を監視している。システムコントローラ220Bの場合も同様である。
ここで、インターフェース接続装置252Aで障害が発生したものとする。
障害側ポートバイパス回路251Aは筐体管理プロセッサ253Aへの「Receive diag」コマンドを受信する。
インターフェース接続装置252Aは通信ができなくなる。障害側筐体管理プロセッサ253Aは、ポートバイパス回路251Aを介してインターフェース接続装置252Aからの障害を検知しているので、その情報をシステムコントローラ220Aに返信する。
システムコントローラ220Aは筺体管理プロセッサ253Aから障害情報を採取、若しくはシステムコントローラ220Aにコマンドが帰ってこないので、正常側のドライブコントローラ250Bへのパス切り換えを行う。そして、正常側の筺体管理プロセッサ253Bに対して、無応答指示プログラム403により、障害側のインターフェース接続装置252Aと筺体管理プロセッサ253Aを停止させるためのリセット/電源オフ指示を発行する(Send diag コマンド発行)。
正常側ポートバイパス回路251Bは、障害側のインターフェース接続装置252Aと筺体管理プロセッサ253Aを停止させるためのリセット/電源オフコマンドを受信する。
正常側の筺体管理プロセッサ253Bは、障害側のインターフェース接続装置252Aと筺体管理プロセッサ253Aを停止させるためのリセット/電源オフコマンドを受信し、リセット/電源オフコマンドをリセット発行回路254Aへ発行する。
障害側のリセット発生回路254Aは、リセット/電源オフコマンドを受信し、障害側のインターフェース接続装置252Aと筺体管理プロセッサ253Aへリセット/電源オフ信号を発信する。
障害側の筺体管理プロセッサ253Aはこのリセット/電源オフ信号を受信して停止する。
同様に、障害側のインターフェース接続装置252Aもこのリセット/電源オフ信号を受信して停止する。
以上説明した一連の動作により、障害発生側のドライブコントローラ(SATAドライブ)の切離しが確実に行われ、システムダウンを招くことなく、FCループによるシステムコントローラと各ドライブ筺体間の通信を維持することができる。
本実施例によれば、筐体管理プロセッサを設けることで、SATA増設筐体内の障害に迅速に対応できる。また、本実施例によれば、システムコントローラが、FCループ、PBC、およびインターフェース接続装置を介して、SATAドライブ装置へデータを読み書きできるため、ディスクアレイ装置として大量のデータの読み書きを制御できる。そして、本実施例によれば、複数のシステムコントローラが複数のFCループを介してSATA増設筐体に接続されているため、耐障害性の高いディスクアレイ装置を構成できる。
実施例2は、障害が発生した増設筐体のドライブコントローラを正常な増設筺体のドライブコントローラにバイパスすることで、上位装置との間のデータのやりとりを継続して実行できるようにするものである。
図11は本発明によるディスクアレイ装置の実施例2の構成を説明する機能ブロック図であり、通常動作の状態にある基本筐体710と複数の増設筐体740、760、780からなるディスクアレイ装置の構成を示す。なお、前記各実施例と同じ機能部分についての参照符号は700番台で記してある。基本筐体710は2重構成としたRAIDコントローラであるシステムコントローラ720A、720Bからなる。システムコントローラ720A、720Bは、ホストインターフェース721A、721Bを介して上位装置(ホストコンピュータ等)700A、700Bと通信を行う。また、システムコントローラ720A、720Bは、それぞれパス切り替えスイッチ722A、722Bを有する。
増設筐体740は第1のドライブコントローラ750A、第2のドライブコントローラ750Bからなり、それぞれはポートバイパス回路751A、751Bを有している。そして、第1のドライブコントローラ750A、第2のドライブコントローラ750Bは、そのポートバイパス回路751A、751Bをを介してシステムコントローラ720A、720Bのパス切り替えスイッチ722A、722BにFCループで接続している。図中、FCループの経路を太線矢印で示してある。
図12は図11の増設筐体の詳細な構成を示す図である。なお、図12は図11の増設筐体740の構成を示すが、他の増設筐体760、780、・・も同じ構成である。増設筺体740はSATAドライブであるディスク装置771,773を有し、このディスク装置771,773に対して、ドライブコントローラは第1のドライブコントローラ750Aと第2のドライブコントローラ750Bからなる2重構成とされている。第1のドライブコントローラ750Aはドライブ筺体のコントローラ(ドライブコントローラ)であり、第1のポートバイパス回路751A、第1のインターフェース接続装置752A、第1の筺体管理プロセッサ753Aを有している。
なお、増設筐体740のドライブコントローラにはインテリジェントな半導体チップ(プロセッサ)が載っている。これは、基本筐体のシステムコントローラと増設筐体のドライブコントローラに指揮系統が2つあるということである。このような構成において、仮にドライブコントローラのインターフェース接続装置にエラーが発生すると、インテリジェントな半導体チップなために、該チップの予期しない暴走や潜在バグなどの誤動作が起きる可能性がある。誤動作が起きることでシステムに影響を与えることのないように、リセットまたは電源のオフを行うことで完全に停止させる。こうすることで、誤動作を防止する。
第1のドライブコントローラ750Aの第1のインターフェース接続装置752AはFCループ上に転送されるFC形式のデータをSATA形式に変換する機能を有する。第2のドライブコントローラ750Bについても同様である。第1の筺体管理プロセッサ753A、第2の筺体管理プロセッサ753Bはドライブ筺体740の状態(電源異常、温度異常、パス異常など)を監視し管理するプロセッサである。両筺体管理プロセッサ753A、753Bはお互いに専用線780で接続されて管理情報を通知し合っている。筺体管理プロセッサ753A、753Bは第1のポートバイパス回路751A、第2のポートバイパス回路751Bに接続されている。そして、この筺体管理プロセッサ753A、753BにはFC-ALのアドレスが割り当てられている。
SATAドライブはディスク771、773およびデュアルポートデバイス(2ポート装置)DPD770,772から構成される。デュアルポートデバイスDPD770,772はディスク771、773を第1のドライブコントローラ750Aの第1のインターフェース接続装置752Aと第2のドライブコントローラ750Bの第2のインターフェース接続装置752Bとにアクセスパスを切り分ける機能を有する。すなわち、第1のドライブコントローラ750Aの第1のインターフェース接続装置752Aと第2のドライブコントローラ750Bの第2のインターフェース接続装置752Bからのデータ線のどちらかをディスク771,773に繋げる機能を有する。
第1のポートバイパス回路751A、第2のポートバイパス回路751Bはパス(データ線)の経路を切り分ける回路で、これら自身がパス切り分けを実行するのではなく、システムコントローラ720A,720Bの指示に従ってパスを切り分ける。なお、システムコントローラ720Aは、例えば図7に示した構成を有する。
図11におけるFCループの経路は、障害の無い通常状態での基本筐体と増設筐体740、760、780の各筐体間でのアクセス経路を示している。増設筐体は3個に限られるものでは無いが、煩雑さをさけるため3個のみが接続されているものとして説明する。後段に増設筐体が繋がれないときは、図中に矢印Aで示したように、FCケーブルはポートバイパス回路791Aで折り返す形になる。なお、図11では、基本筐体710のシステムコントローラ720A側についてのみ示してあるが、システムコントローラ720B側についても同様である。
通常の状態では、増設筐体740、760、780は、その各第1のドライブコントローラ750A、770A、790Aを図示したようにFCループで接続されている。基本筐体710のシステムコントローラ720Aに有するパス切り替えスイッチ722Aから増設筐体740の第1のドライブコントローラ750Aに有するポートバイパス回路751Aを介して第1のインターフェース接続装置752Aに入り、当該第1のインターフェース接続装置752Aに図示しないデュアルポートデバイスで接続されているSATAドライブであるディスク装置に対してホストコンピュータ700Aあるいは700Bとの間で転送されるデータの書込み/読出しを実行している。また、その後段の増設筐体760、780についても同様の構成でFCループ接続され、全体として2重のFCループ接続されたSATAディスクアレイ装置を構成している。
図13は本発明によるディスクアレイ装置の実施例3の構成を説明する機能ブロック図である。図11と同じ機能部分の参照符号は800番台で記してある。本実施例は、異常発生時の基本筐体810と複数の増設筐体840、860、880からなるディスクアレイ装置の構成を示す。増設筐体840、860,880、・・・の詳細構成は図12と同様で、図12の700番台の参照符号を800番台に読み替えればよい。
また、図14は図13の動作を説明する流れ図である。図14には、左から順にシステムコントローラ820A(820B)、障害側のポートバイパス回路871A、障害側のインターフェース接続装置872A、障害側の筐体管理プロセッサ873A、障害側のリセット発生回路874A、正常側のポートバイパス回路871B、正常側の筐体管理プロセッサ873Bの動作を示す。
ここでは、図13の通常動作状態から増設筐体860の第1のドライブコントローラ870A側に障害が発生した場合における障害発生筐体バイパス制御方法を図14の流れ図を参照して説明する。
(1)システムコントローラ820Aは、図8の障害検出プログラム402で、定期的に、各増設筐体840、860、880のドライブコントローラ850A,850B、870A,870B、890A,890Bに「Receive diag」コマンドでそれぞれの筺体管理プロセッサのログを採取して、障害発生の有無を監視している。システムコントローラ820Bの場合も同様である。
(2)増設筐体860の第1のインターフェース接続装置872Aで障害が発生する。
(3)ポートバイパス回路871Aはシステムコントローラ820Aからの「Receive diag」コマンドを受信する。
障害側の筐体管理プロセッサ873Aはポートバイパス回路871Aを介してインターフェース接続装置872Aからの障害を検知しているので、「Receive diag」コマンドに対して、その情報をシステムコントローラ820Aに返信する。
システムコントローラ820Aは、筐体管理プロセッサ873Aからのインターフェース接続装置872Aの障害情報を採取。正常側のパスへ切り換える。正常側の筐体管理プロセッサ873Bへ障害側の筐体管理プロセッサ873Aとインターフェース接続装置872Aを停止させるためのリセット/電源オフ指示を発行する(無応答指示プログラム403による)。
正常側のポートバイパス回路871Bは障害側のインターフェース接続装置872Aと筐体管理プロセッサ873Aを停止するためのリセット/電源オフコマンドを受信する。
正常側の筐体管理プロセッサ873Bは、障害側のインターフェース接続装置872Aと筐体管理プロセッサ873Aを停止させるためのリセット/電源オフマンドを受信し、このリセット/電源オフ信号をリセット発生回路874Aへ発行する。
障害側のリセット発生回路874Aは、このリセット/電源オフ信号を受信し、障害側のインターフェース接続装置872Aと筐体管理プロセッサ873Aへリセット/電源オフ信号を送信する。
障害側の筐体管理プロセッサ873Aはリセット/電源オフ信号を受信し、当該筐体管理プロセッサ873Aを停止させる。
障害側のインターフェース接続装置872Aもリセット/電源オフ信号を受信し、当該インターフェース接続装置872Aを停止させる。
ポートバイパス回路871Aからは、インターフェース接続装置を認識できなくなり、システムコントローラは当該筐体をバイパスして後段の増設筐体に行く。
このように、各筐体の入口にポートバイパス回路(PBC)を設けて、図13の矢印Bに示したように、障害が発生したドライブコントローラ870Aをバイパスして後段の増設筐体880に行く制御を採用したことにより、FCループを閉鎖することなく、システム全体の動作を継続でき、障害の影響を最小限とすることができる。
本実施例によれば、筐体管理プロセッサを有するため、SATA増設筐体内の障害に迅速に対応できる。また、本実施例によれば、システムコントローラが、FCループ、PBC、およびインターフェース接続装置を介して、SATAドライブ装置へデータを読み書きできるため、ディスクアレイ装置として大量のデータの読み書きを制御できる。そして、本実施例によれば、複数のシステムコントローラが複数のFCループを介してSATA増設筐体に接続されているため、耐障害性の高いディスクアレイ装置を構成できる。
図15は本発明によるディスクアレイ装置の実施例4の構成を説明する機能ブロック図である。図13と同じ機能部分の参照符号は900番台で記してある。異常発生時の基本筐体910と複数の増設筐体940、960、980からなるディスクアレイ装置の構成を示す。増設筐体940、960,980、・・・の詳細構成は図12と同様で、図12の700番台の参照符号を900番台に読み替えればよい。なお、ここでは、説明の煩雑をさけるため、増設筐体は3個とし、制御指示が基本筐体910のシステムコントローラ920Aからでるものとする(システムコントローラ920Bについても同様)。また、図16は図15の動作を説明する流れ図である。本実施例は、ディスクアレイ装置に障害が発生した時に、その障害がどの増設筐体で発生したのかを特定するための“後段バイパス”法と称する障害切り分けの制御方法に係る実施例である。以下、本実施例の後段バイパスによる障害筐体の特定手法について図16を参照して説明する。
(1)ここで、あるFCループ上でエラーが発生していて、発生場所が分からない(エラーがあらゆるところで起きているように見える)とすると、基本筐体910のシステムコントローラ920Aはエラー場所を特定することができない。そのため、増設筐体毎にエラーの切り分けを行う。ここでは複数の増設筐体の中央より後段の増設筐体を先ずバイパスし、問題がなければ順次バイパスした後段筐体中央のバイパス、すなわちFCループから切り離す。ここでは、増設筐体980をバイパスすることとする。
(2)増設筐体960より後段の筐体を、矢印Cで示した当該増設筐体960のポートバイパス回路971Aでバイパスする。このバイパスで、基本筐体910、増設筐体940、および増設筐体960でのFCループが形成される。
(3)このFCループでの動作に問題があるか否か(エラーの有無)を判断する。
(4)この判断で問題がなければ、2分法で後段の増設筺体をエラー検索して行く。すなわち、後段の増設筐体980でバイパスする。図21では、増設筐体が3個であるが、実際にはさらに多数の増設筐体が設置されているので、これを順次さらに2分法でバイパスし、そのときのFCループでの動作に問題があるか否かを判断する。
(5)(3)のFCループでの動作に問題があるか否か(エラーの有無)の判断で、FCループでの動作に問題がある場合、今度は前段の増設筐体について2分法で同様の後段バイパスを行って問題の有無を検索して行く。このときも、(4)と同様に増設筐体が3個であるが、実際にはさらに多数の増設筐体が設置されているので、これを順次さらに2分法でバイパスし、そのときのFCループでの動作に問題があるか否かを判断する。
(6)上記(4)での後段でのエラー検索あるいは(5)における前段でのエラー検索でエラーのある筐体あるいはエラーのあるドライブコントローラを検知したときは、当該箇所をバイパスする。
このような後段バイパスによるエラー検索により、エラーが発生している増設筐体をバイパスすることで、ディスクアレイ装置全体として上位装置との間のデータのやりとりが継続される。
本実施例によれば、筐体管理プロセッサを有するため、SATA増設筐体内の障害に迅速に対応できる。また、本実施例によれば、システムコントローラが、FCループ、PBC、およびインターフェース接続装置を介して、SATAドライブ装置へデータを読み書きできるため、ディスクアレイ装置として大量のデータの読み書きを制御できる。そして、本実施例によれば、複数のシステムコントローラが複数のFCループを介してSATA増設筐体に接続されているため、耐障害性の高いディスクアレイ装置を構成できる。
以上、本発明を実施例に基づき具体的に説明したが、前記したように、本発明はこれら実施例に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の説明では、情報処理システムの一例として、記憶装置に適用した場合を例にとって説明したが、FC等のループ状通信手段にて接続された一般の情報処理システム等に広く適用することができる。
このように、本発明によれば、ループ状通信手段を備えた構成においてエラー発生時のデータの書き込みあるいは読出しを停止する必要がなくなり、信頼性を向上したディスクアレイ装置を提供できる。また、本発明によれば、FCループ状通信手段等を備えた情報処理装置において、障害が発生した増設筐体をループか切り離すことで、回復作業を迅速かつ的確に行うことができる。
100A,100B・・・・ホストコンピュータ、110・・・・基本筺体、140・・・・増設筺体、120A,120B・・・・システムコントローラ(RAIDコントローラ)、130・・・・SAN、102A,102B・・・・ホストアダプター、171,173・・・・ディスク装置(SATAドライブ)、150A・・・・第1のドライブコントローラ、150B・・・・第2のドライブコントローラ、151A・・・・第1のポートバイパス回路、151B・・・・第2のポートバイパス回路、152A・・・・第1のインターフェース接続装置、152B・・・・第2のインターフェース接続装置、153A・・・・第1の筺体管理プロセッサ、153A・・・・第2の筺体管理プロセッサ、180・・・・専用線。
Claims (17)
- コントローラ筐体と、1または複数のシリアルディスクドライブ筐体と、前記コントローラ筐体と前記シリアルディスクドライブ筐体をそれぞれ接続する複数のファイバチャネルループとから構成されるディスクアレイ装置であって、
前記コントローラ筐体は、
上位装置に接続されて該上位装置からデータを受ける通信制御部と、
前記通信制御部に接続され、前記上位装置との間でやり取りされるデータを保存するキャッシュメモリと、
前記上位装置及び前記キャシュメモリに接続され、前記上位装置との間でやり取りされるデータを前記通信制御部に対して転送し又は前記通信制御部から受信するように制御する複数のシステムコントローラとを有し、
前記ディスクドライブ筐体は、
前記複数のファイバチャネルループと接続され、前記コントローラ筐体と自身の筐体との接続の切り替えに利用される複数の切り替え回路と、
前記複数のシステムコントローラと前記複数のファイバチャネルループによって接続され、該複数のファイバチャネルループにおいて利用されるファイバチャネルループとシリアルディスクドライブ用のインターフェースと接続させる複数のインターフェース接続装置と、
前記複数のインターフェース接続装置に接続され、該複数のインターフェース接続装置からのデータの受信の切り替えを制御する複数のデュアルポートデバイスと、
前記複数のポートバイパス回路に接続され、前記システムコントローラによって転送されたデータを、前記ファイバチャネルループ、前記切り替え回路、前記インターフェース接続装置、及び前記デュアルポートデバイスを介して受信して格納する複数のシリアルディスクドライブと、
前記複数のインターフェース接続装置に前記デュアルポート切り替え装置を介して接続され、該インターフェース接続装置の動作を監視する筐体管理用プロセッサと、を有するディスクアレイ装置。 - コントローラ筐体と、1または複数のディスクドライブ筐体と、前記コントローラ筐体と前記ディスクドライブ筐体をそれぞれ接続する2重のファイバチャネルループとから構成されるディスクアレイ装置であって、
前記コントローラ筐体は2つのシステムコントローラを有し、
前記ディスクドライブ筐体は1または複数のハードディスクからなるディスクドライブと、該ディスクドライブをコントロールする2つのドライブコントローラからなり、前記コントローラ筺体の2つのシステムコントローラのそれぞれとの間を前記2重のFCループで接続されていることを特徴とするディスクアレイ装置。 - 前記コントローラ筺体を構成する2つのシステムコントローラのそれぞれは、
上位装置に接続されて該上位装置からデータを受ける通信制御部と、
前記通信制御部に接続され、前記上位装置との間でやり取りされるデータを保存するキャッシュメモリと、
前記通信制御部および前記キャッシュメモリに接続され、前記ファイバチャネルループに接続されて前記上位装置との間やり取りされるデータを前記通信制御部に対する転送、又は前記通信制御部からの受信を制御することを特徴とする請求項2に記載のディスクアレイ装置。 - 前記コントローラ筺体を構成する2つのシステムコントローラのそれぞれは、
前記ファイバチャネルループを前記ディスクドライブの一方から他方に切り替えるパス切り替え手段を有することを特徴とする請求項2に記載のディスクアレイ装置。 - 前記ディスクドライブ筐体を構成する前記ドライブコントローラのそれぞれは、前記ファイバチャネル上のデータを変換するインターフェース接続装置を有することを特徴とする請求項2に記載のディスクアレイ装置。
- 前記ディスクドライブ筐体を構成する前記ドライブコントローラのそれぞれは、当該ドライブコントローラの前記インターフェース接続装置を前記ポートバイパス回路を通して管理する筺体管理手段を有することを特徴とする請求項5に記載のディスクアレイ装置。
- 前記ディスクドライブ筐体を構成する前記ドライブコントローラのそれぞれは、
前記コントローラ筺体の2つのシステムコントローラの一方または他方を前記インターフェース接続装置の他方または一方のポートに切り替えるポートバイパス回路を有することを特徴とする請求項6に記載のディスクアレイ装置。 - 前記ディスクドライブ筺体を構成する前記ディスクドライブは、前記インターフェース接続装置のそれぞれと切り替え接続するデュアルポートデバイスを有することを特徴とする請求項7に記載のディスクアレイ装置。
- 前記ディスクドライブ筐体を構成する前記ディスクドライブコントローラのそれぞれは、前記筺体管理手段の一方からの指令により他方の筺体管理手段、前記インターフェース接続装置の何れかまたは全部を前記ポートバイパス回路を通してリセットまたはその電源をオフするリセット発生手段を有することを特徴とする請求項8に記載のディスクアレイ装置。
- 前記ディスクドライブ筐体を構成する前記ディスクドライブのそれぞれに有する前記筺体管理手段が専用線により相互に接続されていることを特徴とする請求項7に記載のディスクアレイ装置。
- コントローラ筐体と、1または複数のシリアルディスクドライブ筐体と、前記コントローラ筐体と前記シリアルディスクドライブ筐体をそれぞれ接続する複数のファイバチャネルループとから構成されるディスクアレイ装置の障害回避制御方法であって、
前記コントローラ筐体は、
上位装置に接続されて該上位装置からデータを受ける通信制御部と、
前記通信制御部に接続され、前記上位装置との間でやり取りされるデータを保存するキャッシュメモリと、
前記上位装置及び前記キャシュメモリに接続され、前記上位装置との間でやり取りされるデータを前記通信制御部に対して転送し又は前記通信制御部から受信するように制御する複数のシステムコントローラとを有し、
前記ディスクドライブ筐体は、
前記複数のファイバチャネルループと接続され、前記コントローラ筐体と自身の筐体との接続の切り替えに利用される複数の切り替え回路と、
前記複数のシステムコントローラと前記複数のファイバチャネルループによって接続され、該複数のファイバチャネルループにおいて利用されるファイバチャネルループとシリアルディスクドライブ用のインターフェースと接続させる複数のインターフェース接続装置と、
前記複数のインターフェース接続装置に接続され、該複数のインターフェース接続装置からのデータの受信の切り替えを制御する複数のデュアルポートデバイスと、
前記複数のポートバイパス回路に接続され、前記システムコントローラによって転送されたデータを、前記ファイバチャネルループ、前記切り替え回路、前記インターフェース接続装置、及び前記デュアルポート切り替え装置を介して受信して格納する複数のシリアルディスクドライブと、
前記複数のインターフェース接続装置に前記ポートバイパス回路を介して接続され、該インターフェース接続装置の動作を監視する筐体管理用プロセッサと、
を有し、
前記筐体管理用プロセッサは、他の筐体管理用プロセッサと通信し、前記他の筐体管理用プロセッサが監視しているインターフェース接続装置に障害が生じたことを認識した場合、これを前記システムコントローラに通知することにより、前記システムコントローラを介して前記障害が生じたインターフェース接続装置の動作を前記ポートバイパス回路を通して停止させることを特徴とするディスクアレイ装置の障害回避制御方法。 - コントローラ筐体と、1または複数のディスクドライブ筐体と、前記コントローラ筐体と前記ディスクドライブ筐体をそれぞれ接続する2重のファイバチャネルループとから構成されるディスクアレイ装置の障害回避制御方法であって、
前記ディスクドライブ筐体は、ディスクドライブと2つのドライブコントローラで構成され、前記ドライブコントローラのそれぞれには、前記ファイバチャネルループ上のデータを変換するインターフェース接続装置と、該インターフェース接続装置を前記ポートバイパス回路を通して管理する筺体管理手段とを有しており、
前記筺体管理手段の一方の筺体管理手段が管理しているインターフェース接続装置に障害が発生した場合には、前記筺体管理手段の他方の筺体管理手段が該一方の筺体管理手段が管理しているインターフェース接続装置の動作を前記ポートバイパス回路を通して停止させることを特徴とするディスクアレイ装置の障害回避制御方法。 - 前記ディスクドライブ筐体を構成する前記ドライブコントローラのそれぞれは、前記コントローラ筺体の2つのシステムコントローラの一方または他方を前記インターフェース接続装置の他方または一方のポートに切り替えるポートバイパス回路に接続されており、
前記ファイバチャネルループの切り替えを前記ポートバイパス回路で行うことを特徴とする請求項12に記載のディスクアレイ装置の障害回避制御方法。 - 前記ディスクドライブ筺体を構成する前記ディスクドライブは、前記インターフェース接続装置のそれぞれと切り替え接続するデュアルポートデバイスを有し、インターフェース接続装置の切り替えを前記ポートバイパス回路で行うことを特徴とする請求項12に記載のディスクアレイ装置の障害回避制御方法。
- 前記ディスクドライブ筐体を構成する前記ディスクドライブのそれぞれは、前記筺体管理手段の一方からの指令により他方の筺体管理手段、前記インターフェース接続装置の何れかまたは全部をリセットまたはその電源をオフするリセット発生手段を有し、
前記リセット発生手段により前記インターフェース接続装置の停止を前記ポートバイパス回路を通して停止させることを特徴とする請求項12に記載のディスクアレイ装置の障害回避制御方法。 - 前記ディスクドライブ筐体を構成する前記ディスクドライブのそれぞれに有する前記筺体管理手段の相互を接続する専用線を有し、前記一方の筺体管理手段が管理しているインターフェース接続装置に障害が発生したことを前記専用線で前記他方の筺体管理手段に通知することを特徴とする請求項12に記載のディスクアレイ装置の障害回避制御方法。
- 前記リセット手段は前記リセット発生手段により停止された前記インターフェース接続装置を管理する筺体管理手段の動作も停止することを特徴とする請求項16に記載のディスクアレイ装置の障害回避制御方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004030792A JP2005222379A (ja) | 2004-02-06 | 2004-02-06 | ディスクアレイ装置およびその障害回避制御方法 |
US10/835,074 US7234023B2 (en) | 2004-02-06 | 2004-04-30 | Disk array system and fault-tolerant control method for the same |
US11/798,063 US20070214318A1 (en) | 2004-02-06 | 2007-05-10 | Disk array system and fault-tolerant control method for the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004030792A JP2005222379A (ja) | 2004-02-06 | 2004-02-06 | ディスクアレイ装置およびその障害回避制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005222379A true JP2005222379A (ja) | 2005-08-18 |
Family
ID=34857633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004030792A Pending JP2005222379A (ja) | 2004-02-06 | 2004-02-06 | ディスクアレイ装置およびその障害回避制御方法 |
Country Status (2)
Country | Link |
---|---|
US (2) | US7234023B2 (ja) |
JP (1) | JP2005222379A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009157859A (ja) * | 2007-12-28 | 2009-07-16 | Fujitsu Ltd | ストレージシステム及び情報処理装置のアクセス制御方法 |
JP2009530728A (ja) * | 2006-03-21 | 2009-08-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Raidアダプタからのディスク関連タスクのオフロードのための方法、システム、プログラム(raidアダプタからのディスク関連タスクのオフロード) |
JP2012511770A (ja) * | 2008-12-11 | 2012-05-24 | エルエスアイ コーポレーション | 独立ドライブ電源制御 |
US9838285B2 (en) | 2014-08-06 | 2017-12-05 | Fujitsu Limited | Connection monitoring device and connection monitoring method |
WO2021161442A1 (ja) * | 2020-02-13 | 2021-08-19 | 日本電信電話株式会社 | 通信装置及びエラー対処方法 |
WO2021161441A1 (ja) * | 2020-02-13 | 2021-08-19 | 日本電信電話株式会社 | 通信装置及びエラー検出方法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2552019A1 (en) * | 2003-12-29 | 2005-07-21 | Sherwood Information Partners, Inc. | System and method for reduced vibration interaction in a multiple-hard-disk-drive enclosure |
US7853741B2 (en) * | 2005-04-11 | 2010-12-14 | Emulex Design & Manufacturing Corporation | Tunneling SATA targets through fibre channel |
US20060288155A1 (en) * | 2005-06-03 | 2006-12-21 | Seagate Technology Llc | Storage-centric computer system |
US8352649B2 (en) * | 2005-06-09 | 2013-01-08 | Infortrend Technology, Inc. | Storage virtualization subsystem architecture |
DE602006001446D1 (de) * | 2005-09-23 | 2008-07-24 | Infortrend Technology Inc | Redundantes Speichervirtualisierungssubsystem mit Datenpfadverzweigungsfunktion |
US7903556B2 (en) * | 2005-11-03 | 2011-03-08 | Hewlett-Packard Development Company, L.P. | Method of controlling data transfers between nodes in a computer system |
US7676694B2 (en) * | 2006-03-31 | 2010-03-09 | Emc Corporation | Managing system components |
JP2007280258A (ja) * | 2006-04-11 | 2007-10-25 | Hitachi Ltd | 記憶制御装置 |
JP2007334764A (ja) * | 2006-06-16 | 2007-12-27 | Hitachi Ltd | Nasシステムおよびnasシステムの情報処理方法 |
US7596723B2 (en) * | 2006-09-22 | 2009-09-29 | International Business Machines Corporation | Apparatus, system, and method for selective cross communications between autonomous storage modules |
JP4982304B2 (ja) * | 2007-09-04 | 2012-07-25 | 株式会社日立製作所 | 電源障害の発生を把握するストレージシステム |
US20090125754A1 (en) * | 2007-11-08 | 2009-05-14 | Rashmi Chandra | Apparatus, system, and method for improving system reliability by managing switched drive networks |
JP4500346B2 (ja) * | 2007-11-21 | 2010-07-14 | 富士通株式会社 | ストレージシステム |
JP2009129418A (ja) * | 2007-11-28 | 2009-06-11 | Hitachi Ltd | ディスク制御装置とストレージシステム |
JP5127491B2 (ja) | 2008-02-08 | 2013-01-23 | 株式会社日立製作所 | ストレージサブシステム及びこれの制御方法 |
US8555042B2 (en) * | 2008-05-29 | 2013-10-08 | International Business Machines Corporation | Apparatus, system, and method for resetting and bypassing microcontroller stations |
GB2508178B (en) * | 2012-11-22 | 2014-10-15 | Xyratex Tech Ltd | Data storage device enclosure and module |
US9268493B2 (en) * | 2012-11-28 | 2016-02-23 | Dell Products L.P. | Systems and methods for smart storage interconnection in a heterogeneous storage environment |
WO2015151239A1 (ja) * | 2014-04-02 | 2015-10-08 | 株式会社日立製作所 | 通信用半導体集積回路、ストレージ装置およびストレージ装置の障害管理方法 |
US9645872B1 (en) * | 2015-03-27 | 2017-05-09 | EMC IP Holding Company LLC | Method to use multipath to reduce IO error handle duration |
US10419278B2 (en) * | 2015-10-02 | 2019-09-17 | Ricoh Company, Ltd. | Device management system, information processing apparatus, and information processing method |
US10372364B2 (en) * | 2016-04-18 | 2019-08-06 | Super Micro Computer, Inc. | Storage enclosure with daisy-chained sideband signal routing and distributed logic devices |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6638185B2 (en) | 1993-06-01 | 2003-10-28 | The Top-Flite Golf Company | Multi-layer golf ball |
US5898828A (en) * | 1995-12-29 | 1999-04-27 | Emc Corporation | Reduction of power used by transceivers in a data transmission loop |
US5812754A (en) * | 1996-09-18 | 1998-09-22 | Silicon Graphics, Inc. | Raid system with fibre channel arbitrated loop |
US6504817B2 (en) * | 1997-03-31 | 2003-01-07 | Hewlett-Packard Company | Fiber channel arbitrated loop dynamic loop sizing |
JP2001216206A (ja) * | 2000-02-01 | 2001-08-10 | Nec Corp | ループ状インターフェースの障害解析方法及び障害解析機能を有するシステム |
US6658504B1 (en) | 2000-05-16 | 2003-12-02 | Eurologic Systems | Storage apparatus |
US6725394B1 (en) | 2000-10-02 | 2004-04-20 | Quantum Corporation | Media library with failover capability |
US6898730B1 (en) | 2001-11-30 | 2005-05-24 | Western Digital Technologies, Inc. | System and method for fail-over switching in a disk storage medium |
JP3714613B2 (ja) | 2001-12-12 | 2005-11-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 記憶装置、該記憶装置を含む情報処理装置および情報記憶システムのリカバリ方法 |
US20030135577A1 (en) * | 2001-12-19 | 2003-07-17 | Weber Bret S. | Dual porting serial ATA disk drives for fault tolerant applications |
JP4060235B2 (ja) | 2003-05-22 | 2008-03-12 | 株式会社日立製作所 | ディスクアレイ装置及びディスクアレイ装置の制御方法 |
-
2004
- 2004-02-06 JP JP2004030792A patent/JP2005222379A/ja active Pending
- 2004-04-30 US US10/835,074 patent/US7234023B2/en not_active Expired - Fee Related
-
2007
- 2007-05-10 US US11/798,063 patent/US20070214318A1/en not_active Abandoned
Non-Patent Citations (2)
Title |
---|
CSNA200604307001, IBM TotalStorage FAStT EXP100ストレージ拡張ユニット インストールとユー, 20031231, 初版, 1〜10頁、41〜46頁、81〜86頁, 日本アイ・ビー・エム株式会社 * |
JPN6009062619, IBM TotalStorage FAStT EXP100ストレージ拡張ユニット インストールとユー, 20031231, 初版, 1〜10頁、41〜46頁、81〜86頁, 日本アイ・ビー・エム株式会社 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009530728A (ja) * | 2006-03-21 | 2009-08-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Raidアダプタからのディスク関連タスクのオフロードのための方法、システム、プログラム(raidアダプタからのディスク関連タスクのオフロード) |
JP2009157859A (ja) * | 2007-12-28 | 2009-07-16 | Fujitsu Ltd | ストレージシステム及び情報処理装置のアクセス制御方法 |
JP2012511770A (ja) * | 2008-12-11 | 2012-05-24 | エルエスアイ コーポレーション | 独立ドライブ電源制御 |
US9838285B2 (en) | 2014-08-06 | 2017-12-05 | Fujitsu Limited | Connection monitoring device and connection monitoring method |
WO2021161442A1 (ja) * | 2020-02-13 | 2021-08-19 | 日本電信電話株式会社 | 通信装置及びエラー対処方法 |
WO2021161441A1 (ja) * | 2020-02-13 | 2021-08-19 | 日本電信電話株式会社 | 通信装置及びエラー検出方法 |
JPWO2021161441A1 (ja) * | 2020-02-13 | 2021-08-19 | ||
JPWO2021161442A1 (ja) * | 2020-02-13 | 2021-08-19 | ||
JP7360063B2 (ja) | 2020-02-13 | 2023-10-12 | 日本電信電話株式会社 | 通信装置及びエラー対処方法 |
US11863230B2 (en) | 2020-02-13 | 2024-01-02 | Nippon Telegraph And Telephone Corporation | Communication apparatus and error detection method |
JP7477780B2 (ja) | 2020-02-13 | 2024-05-02 | 日本電信電話株式会社 | 通信装置及びエラー検出方法 |
Also Published As
Publication number | Publication date |
---|---|
US20050188247A1 (en) | 2005-08-25 |
US7234023B2 (en) | 2007-06-19 |
US20070214318A1 (en) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005222379A (ja) | ディスクアレイ装置およびその障害回避制御方法 | |
US6826714B2 (en) | Data gathering device for a rack enclosure | |
US7441130B2 (en) | Storage controller and storage system | |
US7356638B2 (en) | Using out-of-band signaling to provide communication between storage controllers in a computer storage system | |
JP4982304B2 (ja) | 電源障害の発生を把握するストレージシステム | |
US7412628B2 (en) | Storage system and disconnecting method of a faulty storage device | |
US20050120264A1 (en) | Disk array system and method for controlling disk array system | |
US7650532B2 (en) | Storage system | |
US7111087B2 (en) | Storage control system and operating method for storage control system | |
JP2005293595A (ja) | 多数パスの冗長ストーレジ・システム構造及び方法 | |
US7568119B2 (en) | Storage control device and storage control device path switching method | |
JP2001222385A (ja) | 記憶装置および情報処理システム | |
JP2007206766A (ja) | データストレージシステム、データストレージ制御装置及びその障害箇所診断方法。 | |
JP2006072717A (ja) | ディスクサブシステム | |
US7216195B1 (en) | Architecture for managing disk drives | |
JP2007305150A (ja) | 高速欠陥許容大量記憶ネットワーク情報サーバ | |
US20110185226A1 (en) | Storage system and control methods for the same | |
US8161316B1 (en) | Managing loop interface instability | |
US7487293B2 (en) | Data storage system and log data output method upon abnormality of storage control apparatus | |
WO2010100018A1 (en) | Managing redundant non-volatile storage backup in a multi-cluster data storage system | |
JP4799273B2 (ja) | ストレージシステム及びループ異常時の自動復旧方法 | |
US7486083B2 (en) | Managing system stability | |
JP4658114B2 (ja) | 記憶装置 | |
US20130212302A1 (en) | Disk array apparatus | |
JP2020024558A (ja) | 情報処理装置および制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100218 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101116 |