JP2002041348A - 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法 - Google Patents

可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法

Info

Publication number
JP2002041348A
JP2002041348A JP2001155798A JP2001155798A JP2002041348A JP 2002041348 A JP2002041348 A JP 2002041348A JP 2001155798 A JP2001155798 A JP 2001155798A JP 2001155798 A JP2001155798 A JP 2001155798A JP 2002041348 A JP2002041348 A JP 2002041348A
Authority
JP
Japan
Prior art keywords
communication
blade
processor
client
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001155798A
Other languages
English (en)
Inventor
John A Scott
エー スコット ジョン
James Gregory Jones
グレゴリー ジョーンズ ジェームズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Publication of JP2002041348A publication Critical patent/JP2002041348A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2097Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements maintaining the standby controller/processing unit updated

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 共有システムリソースとシステムリソースの
クライアントとの間で可用性の高いネットワーク通信を
提供する通信パススルー機構を提供する。 【解決手段】 システムリソースは、多数のピアブレイ
ドプロセッサを備えた制御/処理サブシステムを備え
る。各ブレイドプロセッサのポートは、各クライアント
/サーバネットワークパスに接続され、各クライアント
は、各ブレイドプロセッサの対応するポートに接続され
ている。各ブレイドプロセッサは、対応するブレイドプ
ロセッサポート及びネットワークパスを介して他のブレ
イドプロセッサとビーコン伝送をやりとりするネットワ
ーク故障検出器を備える。各ブレイドプロセッサは、他
のブレイドプロセッサの故障したポートからビーコン伝
送を受領できなかったことを受けて、他のブレイドプロ
セッサの故障したポートへのクライアント通信をブレイ
ドプロセッサの対応するポートへリダイレクトする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークファ
イルサーバのような、故障に耐性がありレイテンシが低
い共有システムリソースにおける高レベルトランザクシ
ョンロギング機構のためのシステム及び方法、特に、多
重サーバシステムリソースにおいて利用されるクロスサ
ーバ高レベルミラードトランザクションロギング機構に
関する。
【0002】
【従来の技術】コンピュータシステムにおいて絶えず問
題となるのは、安全で故障に耐性があるリソースを提供
すること、例えばコンピュータシステムとコンピュータ
システムのクライアントまたはユーザとの間の通信が故
障の際にも維持されるような通信リソース、そして故障
の際にデータが失われずかつ損失を被ることなく回復ま
たは再構築されるようなデータ記憶リソースを提供する
ことである。この問題は、システムデータ記憶機器のよ
うに、通常、共有リソースが1つ以上のシステムリソー
ス、例えば、多数のクライアント間で共有され、システ
ムネットワークを通じてアクセスされるファイルサーバ
から構成されるネットワークシステムにおいては特に解
決するのが難しい。共有リソースにおける故障、例え
ば、ファイルサーバのデータ記憶機能における故障、あ
るいはファイルサーバのクライアントとファイルサーバ
によりサポートされるクライアントファイルシステムと
の間の通信における故障は、システム全体の故障に発展
する恐れがある。この問題は、データ量及び通信量と、
ファイルサーバのような共有リソースによってサポート
されるデータトランザクション数とが単一クライアント
システム内におけるそれらに比べて著しく大きいという
点で特に厳しいものであり、その結果、リソース、デー
タトランザクション、クライアント/サーバ通信におけ
る複雑さを著しく大きくしてしまう。この複雑さの増大
は故障の可能性を増大させ、故障からの回復をより難し
くする。さらに、その問題は、故障が、ディスクドライ
ブや制御プロセッサ、あるいはネットワーク通信のよう
な、数多くのリソースコンポーネントまたは関連する機
能のどれにでも起こりうるという点で多次元的である。
また、共有リソース通信及びサービスが1つ以上のコン
ポーネントに故障が起きても利用可能であり続け、さら
に、リソースの操作が、完了した操作及びトランザクシ
ョンと、故障が起きたときに実行されていた操作及びト
ランザクションとの両方について保存され回復されるこ
とが望ましい。
【0003】ネットワークファイルサーバシステムを従
来技術の共有システムリソースの典型的な例として考え
ると、従来技術のファイルサーバシステムは、クライア
ント/サーバ通信及びファイルサーバのファイルトラン
ザクション機能においてフォールトトレランスを達成す
るため、そしてデータの回復または再構築のために数多
くの方法を採用してきた。これらの方法は、リダンダン
シ、すなわち、複写システムエレメントの供給と、故障
したエレメントの複写エレメントへの置き換え、あるい
は失われた情報を再構築するのに用いられる情報の複写
コピーの作成とに基づくものが代表的である。
【0004】例えば、従来技術の多くのシステムが、デ
ータ及びファイルトランザクションの保存及び回復に業
界標準のRAID技術を組み込んでいる。RAID技術
は、予備のデータ及びエラー訂正情報を複数のディスク
ドライブの予備アレイに渡って分散する一群の方法であ
る。故障したディスクドライブは予備のドライブに置換
され、故障したディスクのデータは予備のデータ及びエ
ラー訂正情報から再構築される。従来技術のその他のシ
ステムは、クライアント/ファイルサーバ通信及びクラ
イアント/クライアントファイルシステム通信の信頼性
及び可用性を高めるために、故障した通信パスまたはフ
ァイルプロセッサからの通信またはファイル処理を同等
の並列パスまたはプロセッサに切り換える適当なスイッ
チング機能を備えた多重複写式並列通信パスまたは多重
複写式並列処理ユニットを採用している。しかしなが
ら、これらの方法は、主要な通信パス及び処理パスの複
写、そして、故障したエレメントを機能するエレメント
に交換するのに複雑な管理及び同期機構を必要とするの
で、システムリソースに多額の費用がかかる。また、こ
れらの方法により、故障の際にサービス及び機能が継続
して実行され、例えばRAIDの利用により、完了した
データトランザクション、すなわち、ディスク上の固定
記憶装置にコミットされたトランザクションが回復また
は再構築されるが、これらの方法は、トランザクション
の実行中の故障により失われたトランザクションの再構
築または回復をサポートしない。
【0005】この結果、従来技術の別の方法において
は、トランザクションの実行中に起きる故障により失わ
れたトランザクションの回復及び再構築のために情報リ
ダンダンシが利用される。これらの方法には、キャッシ
ング、トランザクションロギング、ミラーリングが含ま
れる。キャッシングとは、固定記憶装置、すなわちディ
スクドライブへのデータの移動により固定記憶装置にデ
ータトランザクションがコミットされるまで、あるいは
データトランザクションが固定記憶装置から読み取られ
て受け手に送られるまで、固定記憶装置への及びそれか
らのデータフローパスのメモリ中にデータを一時的に記
憶することである。トランザクションロギング、あるい
はジャーナリングとは、データトランザクションが固定
記憶装置にコミットされるまで、すなわちファイルサー
バにおいて完了されるまで、一時的にデータトランザク
ションを記述する情報、すなわち要求されたファイルサ
ーバ操作を記憶し、さらに、記憶された情報から失われ
たデータトランザクションを再構築または再実行するこ
とである。ミラーリングは、多くの場合キャッシングま
たはトランザクションロギングと共に用いられ、基本的
に、キャッシュまたはトランザクションログの記録がフ
ァイルプロセッサで生成されるときに、例えば、別のプ
ロセッサのメモリまたは固定記憶空間にキャッシュまた
はトランザクションログの内容のコピーを保存すること
である。
【0006】しかしながら、キャッシング、トランザク
ションロギング、ミラーリングは、あまり満足のいくも
のではない。なぜなら、それらは多くの場合システムリ
ソースを高額にし、キャッシング、トランザクションロ
ギング、ミラーリング機能及びそれに続くトランザクシ
ョンの回復操作を行うために複雑な管理及び同期操作
と、機構とを必要とし、著しくファイルサーバのレイテ
ンシ、すなわちファイルトランザクションを完了するの
に要する時間を増加するからである。また、キャッシン
グ及びトランザクションロギングは、キャッシング及び
ロギング機構が存在するプロセッサの故障に弱いこと、
また、ミラーリングがキャッシュまたはトランザクショ
ンログの内容の損失問題への解決である一方で、ミラー
リングは、キャッシングまたはトランザクションロギン
グと同様の欠点を有することに注意しなければならな
い。これらの問題は、キャッシングと、特にトランザク
ションロギング及びミラーリングとがトランザクション
ロギングの間に莫大な量の情報の保存を必要とする点、
及び、ログファイルトランザクションの再構築または再
実行が、ファイルトランザクションの再構築のために、
トランザクションログを分析し、再生し、ロールバック
する複雑なアルゴリズムの実装を必要とする点でより複
雑となる。また、これらの方法が、各データトランザク
ションが非常に多くの詳細で複雑なファイルシステム操
作として実行されているようなより低いレベルのファイ
ルサーバ機能で実装される場合が多いという点で、これ
らの問題はさらに複雑になる。その結果、抽出され保存
されるべき情報量と、データあるいはデータトランザク
ションを抽出して保存し、データまたはデータトランザ
クションを回復及び再構築するために必要となる操作の
数及び複雑さとは著しく増大する。
【0007】また、これらの方法はシステムリソースを
割高にし、それらの方法を管理するための複雑な管理及
び同期機構を必要とする。そして、システムリソースが
割高であるために、これらの方法が提供できるリダンダ
ンシの度合いは制限されるので、システムは、多くの場
合、複数のソースに起こる故障に対応できない。例え
ば、システムがある機能のために複写式並列プロセッサ
ユニットまたは通信パスを設けても、両方のプロセッサ
ユニットまたは通信パスで故障が起きればシステム全体
が失われてしまう。さらに、通信及びデータの保存及び
回復を保証するこれらの従来技術は、通常、互いから隔
絶された状態で、そして異なるレベルまたはサブシステ
ムで動作する。このため、通常、これらの方法は協力し
てまたは連動して動作するわけではなく、互いに相反し
て動作するかもしれず、複数の故障または連動した故
障、またはいくつかの方法を組み合わせて対処する必要
のある故障に対応できない。従来技術のいくつかのシス
テムは、この問題を解決しようと努力しているが、それ
には、中央統一的な調整機構、またはサブシステムと、
協調操作を行い、故障を扱う機構間の衝突を避けるため
の互いに関連する複雑な管理及び同期機構を必要とし、
そのためにまたシステムリソースにお金がかかるととも
に、それ自体が故障の原因となる。
【0008】
【発明が解決しようとする課題】本発明の目的は、これ
らの、そしてその他の従来技術に関連する問題への解決
を提供することである。本発明は、複数のクライアント
/サーバ通信パスを含むネットワークを介して、システ
ムリソースとシステムリソースのクライアントとの間に
可用性の高い通信を提供するための、故障に耐性のある
共有システムリソース、例えばネットワークファイルサ
ーバ、に使用される通信パススルー機構及び通信パスス
ルー機構の操作方法に関する。
【0009】
【課題を解決するための手段及び発明の効果】本発明に
よると、システムリソースには、システムリソース操作
を実行するためのシステムリソースサブシステムと、多
数のピアブレイドプロセッサを備えた制御/処理サブシ
ステムとが含まれる。各ブレイドプロセッサは、各クラ
イアント/サーバネットワーク通信パスに接続されたポ
ートを備え、各クライアントは、各ブレイドプロセッサ
の対応するポートに接続されている。各ブレイドプロセ
ッサは、各クライアントの通信ルートを決定する通信ル
ーティングテーブルを備えた、ブレイドプロセッサとク
ライアントとの間の通信操作をサポートするネットワー
ク機構と、ブレイドプロセッサとシステムリソースサブ
システムとの間で通信を提供する相互プロセッサ通信プ
ロセッサと、ブレイドプロセッサ間の相互プロセッサ通
信リンクとを備える。各ブレイドプロセッサは、さら
に、ブレイドプロセッサの対応するポートを接続するネ
ットワーク通信パスを介して、別のブレイドプロセッサ
とビーコン伝送をやりとりするためのネットワーク故障
検出器を備えた通信モニタリング機構を備える。各ブレ
イドプロセッサは、他のブレイドプロセッサの故障した
ポートからビーコン伝送を受領できなかった際、ネット
ワーク故障検出器に応えて、ブレイドプロセッサの対応
するポートへ反対側のブレイドプロセッサの故障したポ
ートへのクライアント通信をリダイレクトするクライア
ントへのリダイレクションメッセージを送信するための
応答ジェネレータを備える。ブレイドプロセッサのパス
マネージャは、応答ジェネレータの操作に応えて、リダ
イレクションメッセージに対応するように通信ルーティ
ングテーブルを修正し、相互プロセッサ通信リンクを介
して他のブレイドプロセッサへ他のブレイドプロセッサ
の故障したポートへのクライアント通信をルーティング
する。
【0010】本発明のさらなる実施例において、各ブレ
イドプロセッサは、相互ブレイド通信モニタを備え、別
のブレイドプロセッサとの相互プロセッサ通信リンクの
故障を検出し、通信ルーティングテーブルを読み取って
ブレイドポート間の機能するネットワーク通信パスを選
択し、通信ルーティングテーブルを修正して相互プロセ
ッサ通信リンクからの相互プロセッサ通信を選択された
機能するネットワーク通信パスへリダイレクトする。
【0011】
【発明の実施の形態】本発明の前述及びその他の目的、
特徴、利点を、添付の図を参照しながら、実施例を用い
て以下に説明する。 A.高可用性を備えた共有リソースの概略説明(図1) 1.序論 以下に記述するように、本発明は、ネットワークシステ
ムにおいて多数のユーザ間で共有されるファイルサー
バ、通信サーバ、あるいはプリンタサーバのように、可
用性の高いリソースに関するものである。本発明のリソ
ースは、統合された協働クラスタからなる階層及びピア
ドメインから構成される。各ドメインは、リソースによ
ってサポートされた機能またはサービスに不可欠な1つ
以上の関連した機能を実行あるいは提供する。1つのド
メインは、複数のサブドメインから構成されてもよい
し、あるいは複数のサブドメインを具備していてもよ
い。例えば、1つ以上のドメインが、リソースとネット
ワーククライアントとの間で通信サービスを提供し、そ
の他のドメインが、高レベルファイルシステム、通信、
または印刷機能を実行し、その一方で、別のドメインが
低レベルファイルシステム、通信及びプリント機能を実
行してもよい。階層的に関連したドメインの場合、1つ
のドメインが別のドメインを制御するか、または、関連
したより高いあるいは低いレベルの機能を実行すること
により、より高いあるいは低いレベルのドメインをサポ
ートすることができる。例えば、より高レベルのドメイ
ンは、関連した低レベルドメインがより低レベルのファ
イルまたは通信機能を実行する間、高レベルのファイル
または通信機能を実行することができる。ピアドメイン
は、例えばタスクの負荷を分担してある機能についての
リソース容量を増やすために、同一あるいは並列の機能
を実行したり、あるいは、共に1つのドメインを構成す
るために中立的なサポート関係で関連するタスクまたは
機能を実行することができる。さらに、他のドメイン
は、ある機能についてはピアドメインであったり、他の
機能については階層的に関連したドメインであったりも
できる。最後に、以下に説明するように、あるドメイン
は、他のドメインの故障処理機構とは別に独立して動作
するが、高レベルのリソース可用性を達成するために協
調的に動作する故障処理機構を備える。
【0012】本発明は、例えば、そして以下に説明する
目的で、高可用性を備えたネットワークファイルサーバ
(HANファイルサーバ)10に実装される。この実装
の形態を、本発明の実施例として以下に詳細に記述す
る。図1に示すように、本発明が実装されているHAN
ファイルサーバ10には、例えば、データジェネラルコ
ーポレーション(Data General Corp
oration)のCLARiiONTMファイルサーバ
を使用する。CLARiiONTMファイルサーバは、高
い可用性を備えたファイルシステム共有資源、すなわ
ち、記憶空間をネットワーククライアントに提供すると
ともに、ジャーナルファイルシステム、ネットワークフ
ェイルオーバー能力、データのバックエンドレイド(R
AID)記憶装置を利用して、共有資源に書き込まれた
データに高い整合性を提供する。本実装においては、H
ANファイルサーバ10は、業界標準の共通インターネ
ットファイルシステムプロトコル(CIFS)とネット
ワークファイルシステム(NFS)共有資源との両方を
サポートしており、CIFS及びNFSによって使用さ
れるようなファイルアクセス制御のための対照モデルが
外からはわからないように実装されている。HANファ
イルサーバ10はまた、マイクロソフトウィンドウズN
T環境におけるドメインコントローラあるいはUNIX
(登録商標)環境のためのネットワークファイルシステ
ム(NFS)などの既存の業界標準管理データベースを
統合している。
【0013】本実装は、ゼロコピーIPプロトコルスタ
ックを利用して高いパフォーマンスを提供する。そのた
めに、ファイルシステムキャッシング方式をバックエン
ドRAID機構と緊密に統合するとともに、保存用のデ
ィスクへの書き込みを廃するために、ピア記憶プロセッ
サ上でミラーリングすることにより重要なデータの可用
性を提供できるデュアル記憶プロセッサを使用する。以
下に詳細に説明するように、本実装のHANファイルサ
ーバ10は、デュアルプロセッサファンクショナルマル
チプロセッシングモードで動作している。このモードで
は、1つのプロセッサが、クライアントとディスクに存
在するファイルシステムとの間でデータを転送するため
の全てのネットワーク及びファイルシステム操作を実行
するフロントエンドプロセッサとして働き、ネットワー
クスタック、CIFS/NFSの実装、ジャーナルファ
イルシステムをサポートする。第二プロセッサは、ブロ
ック記憶プロセッサとして働き、可用性の高いRAID
構成において管理されたひとまとまりのディスクへの及
びそれからのデータの読み取り及び書き込みの全ての機
能を実行する。
【0014】本実装において、ファイルシステムは、カ
ーネルベースのCIFSネットワークスタックを備えた
ジャーナル機能付きクイックリカバリファイルシステム
として実装され、第二モードでNFS操作をサポートす
るが、本発明によると、ファイルシステムのデータへの
アクセスに高い可用性を提供するために修正を加えられ
ている。ファイルシステムはさらに、ある記憶プロセッ
サ上のメモリに記憶されたデータ変更がその記憶プロセ
ッサのハードウェアまたはソフトウェア故障の際に保存
されるというデータ反映機能を使って、ネットワークク
ライアントがファイルシステムに加える全てのデータ変
更を記憶することにより記憶プロセッサの損失に対する
保護を提供する。ファイルシステムに対するコア内部の
データ変更の反映は、相互記憶プロセッサ通信システム
を通じて達成され、これにより、一方の記憶プロセッサ
上でクライアントによってNFSまたはCIFSを使用
して伝達されたファイルシステムへのデータ変更は、デ
ータを記憶しているネットワーククライアントに通知が
返される前に、他方の記憶プロセッサにより反映され、
受領確認される。このことは、最初の記憶プロセッサ上
での故障の際に代わりの記憶プロセッサにデータ変更の
コピーが取り込まれ、万が一故障が起きた際には、ファ
イルシステムが代わりの記憶プロセッサに引き継がれた
後に、その変更がファイルシステムに適用されることを
保証する。後述するように、この反映機構が、ファイル
を追跡するために用いられるシステムメタデータを回復
及び修復する基本的なファイルシステム回復機構の頂点
に構築される一方で、反映機構はユーザデータを回復あ
るいは修復する機構を提供する。ブロック記憶サブシス
テムは、RAID技術を使用してディスクユニットの損
失に対しディスクレベルでの保護を提供する。ディスク
ドライブが失われると、RAID機構は、代わりのドラ
イブにデータを再構築する機構を提供し、失われたドラ
イブなしで動作する際、そのデータへのアクセスを提供
する。
【0015】後述するように、本実装のHANファイル
サーバ10は、サーバのクライアントと、予備のコンポ
ーネント及びデータパスを利用してサーバ上でサポート
されたクライアントファイルシステムとの間で可用性の
高い通信を提供し、クライアントとクライアントファイ
ルシステムとの間の通信を維持するための通信故障処理
機構を提供する。本発明のHANファイルサーバ10は
また、ファイルトランザクション及びデータのバックア
ップ及び回復システムを備え、ファイルトランザクショ
ン及びデータの損失を防ぐとともに、ファイルトランザ
クション及びデータの回復または再構築を許容する。シ
ステムハードウェアまたはソフトウェア故障の際には、
システムの生き残ったコンポーネントが故障したコンポ
ーネントのタスクを引き継ぐ。例えば、記憶プロセッサ
上のイーサネット(登録商標)ポートが1つ失われる
と、そのポートからのネットワークトラフィックは代わ
りの記憶プロセッサの別のポートによって引き継がれ
る。同様に、記憶プロセッサのどの部分かにその処理機
能を危うくするような故障が起きたならば、全てのネッ
トワークトラフィック及びファイルシステムが生き残っ
た記憶プロセッサへ移転される。さらなる例では、デー
タ及びファイルトランザクション及びバックアップ機構
は、故障したコンポーネントが回復した際、故障したコ
ンポーネントによる、あるいは対応するコンポーネント
によるデータ及びファイルトランザクションの回復及び
再構築を可能にするとともに、生き残ったコンポーネン
トが故障したコンポーネントのファイルトランザクショ
ンを引き継ぐことを可能にする。さらに、ディスクドラ
イブが1つ失われても、そのディスクのデータへのアク
セスが失われない。なぜなら、RAID機構が生き残っ
たディスクを用いて、失われたドライブ上にあった再構
築されたデータへのアクセスを提供するからである。全
てのファイルサーバに影響を及ぼす停電の際には、停電
の際のファイルサーバ状態が保存され、コア内部のデー
タは固定記憶装置にコミットされて電源が復旧すると回
復される。これにより、停電前になされた全てのデータ
変更が保存される。最後に、HANファイルサーバ10
の通信そしてデータ及びファイルトランザクションの故
障回復機構は、サーバの各ドメインまたはサブシステム
に設けられ、互いに別々に独立して機能するが、ファイ
ルシステム通信へのクライアントの可用性を高レベルに
保ち、データ及びファイルトランザクションの損失を防
いで回復を可能にするために、協調的に動作する。それ
にも関わらず、HANファイルサーバ10の故障回復機
構は、故障のソースを特定して隔離するのに通常必要な
複雑な機構や手続き、さらには衝突する可能性のある故
障管理操作を調整し、同期させ、管理するのに通常必要
な複雑な機構及び操作を必要としない。
【0016】2.HANファイルサーバ10の詳細説明
(図1) 図1には、データジェネラルコーポレーションのCLA
RiiONTMファイルサーバのような、本発明が実装さ
れうる典型的なHANファイルサーバ10が示されてい
る。図に示すように、HANファイルサーバ10は、記
憶サブシステム12と、記憶サブシステム12を共有す
るデュアルコンピュートブレイド(ブレイド)14A及
び14Bからなる制御/プロセッササブシステム14と
を備える。コンピュートブレイド14A及び14Bは、
HANファイルサーバ10のクライアントに、ネットワ
ークアクセス及びファイルシステム機能を提供及びサポ
ートするために独立して動作し、相互バックアップと、
ネットワークアクセス及び互いのファイルシステム機能
のサポートとを提供するために協調的に動作する。
【0017】a.記憶サブシステム12(図1) 記憶サブシステム12は、複数のハードディスクドライ
ブ18からなるドライブバンク16を備える。各ディス
クドライブ18は、記憶ループモジュール20A及び2
0Bとして示されるデュアル記憶ループモジュール20
(20A及び20Bを総称して20ともいう。以下同
じ。)を通して双方向に読み取り/書き込みアクセスさ
れる。図に示すように、記憶ループモジュール20A及
び20Bにはそれぞれ、MUXBANK22A及び22
Bとして示されるマルチプレクサバンク(MUXBAN
K)22が含まれる。MUXBANK22A及び22B
にはそれぞれ、複数のマルチプレクサ(MUX)24
と、ループコントローラ26A及び26Bとして示され
るループコントローラ26とが含まれる。各ループコン
トローラモジュール20のMUX24とループコントロ
ーラ26とは、MUXループバス28A及び28Bとし
て示されたMUXループバス28を介して双方向に相互
接続されている。
【0018】図に示すように、MUXBANK22A及
び22Bにはそれぞれ、対応するディスクドライブ18
に対応して接続されているディスクドライブMUX24
(MUX24D)が含まれる。そのため、ドライブバン
ク16の各ディスクドライブ18は、MUXBANK2
2A及び22Bのそれぞれにおいて、対応するDMUX
24Dに接続され、双方向に読み取り/書き込みされ
る。MUXBANK22A及び22Bはさらに、それぞ
れ、対応するコンピュートブレイド14A及び14Bの
一方と、MUX24CA及びMUX24CBそれぞれを
介して双方向に接続されており、コンピュートブレイド
14A及び14Bはブレイドバス30を介して双方向に
接続されている。さらに、MUXBANK22A及び2
2Bは、それぞれ、MUX24EA及び24EBで示さ
れる外部ディスクアレイMUX24を備えていてもよ
い。外部ディスクアレイMUX24は、対応するMUX
ループバス28A及び28Bから双方向に接続され、外
部ディスクアレイMUX(EDISKA)32に双方向
に接続されている。外部ディスクアレイMUX32は、
図において、それぞれEDISKA32A及び32Bと
して示され、予備のあるいは代わりのディスク記憶空間
を提供する。
【0019】従って、各ディスクドライブ18は、MU
XBANK22AのMUX24及びMUXBANK22
BのMUX24と双方向に通信する。そしてMUXBA
NK22AのMUX24が、ループバス26Aを介して
相互接続されている一方で、MUXBANK22BのM
UX24は、ループバス26Bを介して相互接続されて
いる。そのため、各ディスクドライブ18は、ループバ
ス26A及びループバス26Bの両方を介してアクセス
可能である。さらに、プロセッサブレイド14Aがルー
プバス26Aと双方向に通信する一方で、プロセッサブ
レイド14Bはループバス26Bと双方向に通信する。
プロセッサブレイド14A及び14Bは、直接相互接続
され、ブレイドループ(ブレイド)バス30を介して通
信する。このため、プロセッサブレイド14A及び14
Bは、対応するループバス26を介して直接、または他
方のプロセッサブレイド14を介して間接的に、どのデ
ィスクドライブ18とも双方向に通信できるとともに、
相互に直接通信できる。
【0020】最後に、記憶サブシステム12について、
本実施例のHANファイルサーバ10においては、例え
ば、各ディスクドライブ18は、簡単にユーザが置換で
きるキャリアに入れられたホットスワップファイバチャ
ネルディスクドライブであり、ドライブ及びキャリア
は、電気を供給し、MUXループバス26A及び26B
を含む中央平面にプラグ接続される。これにより、各デ
ュアルポートドライブをMUX24に、そしてMUX2
4をループコントローラ26と相互接続することができ
る。MUX24はファイバチャネルMUXデバイスであ
り、ループコントローラ26は、各MUXデバイスのパ
ス選択を制御するマイクロコントローラを備え、各ディ
スクドライブ18のデュアルポートのファイバチャネル
MUXループバス26A及び26Bとの接続の実行又は
解除を選択的に行う。MUX24CA及び24CB、M
UX24EA及び24Eは同様に、ファイバチャネルM
UXデバイスであり、記憶サブシステム12をファイバ
チャネルループバスを介してコンピュートブレイド14
A及び14BとEDISKA32A及び32Bとに接続
する。コンピュートブレイドバス30も同様にファイバ
チャネルバスである。
【0021】b.制御/プロセッササブシステム14
(図1及び2) 前述のように、制御/プロセッササブシステム14は、
コンピュートブレイドバス30を介して相互接続される
デュアルコンピュートブレイド(ブレイド)14A及び
14Bからなる。コンピュートブレイド14A及び14
Bは、共有記憶サブシステム12の操作を制御する計算
及び制御用のサブシステムを併せ持つ。コンピュートブ
レイド14A及び14Bは、HANファイルサーバ10
のクライアントにネットワークアクセスとファイルシス
テム機能とを独立して提供及びサポートし、相互バック
アップと互いのネットワーク34アクセス及びファイル
システム機能のためのサポートとを協調的に提供する。
図1及び2に示すように、各ブレイド14はネットワー
ク34に接続された多数のネットワークポート(ポー
ト)34Pを備える。ネットワーク34は、HANファ
イルサーバ10とHANファイルサーバ10のクライア
ント34Cとの間の双方向データ通信接続を構成する。
図に示すように、ネットワークには、例えば、クライア
ント34Cに接続する複数のクライアントネットワーク
34Nと管理ネットワーク34Mとが含まれ、さらにリ
モートクライアント34Cに接続するルータ34Rを含
むこともできる。当業者には理解されるように、ネット
ワーク34は、例えば、ローカルエリアネットワーク
(LAN)、広域ネットワーク(WAN)、直接プロセ
ッサ接続またはバス、ファイバオプティックリンク、あ
るいは前記の組み合わせから構成することができる。
【0022】図2に示すように、各ブレイド14は、メ
モリへの、そして通信コンポーネントのような他のエレ
メントへの緊密なアクセスを共有するデュアル処理ユニ
ット36A及び36Bから構成される。各処理ユニット
36A及び36Bは、フルオペレーティングシステムカ
ーネルを実行する十分に機能的な計算処理ユニットであ
り、ファンクショナルマルチプロセッシング構造におい
て協働する。例えば、後述されるような実装において
は、一方の処理ユニット36がRAID機能を実行し、
他方の処理ユニット36はネットワーク機能、プロトコ
ルスタック機能、CIFS及びNSF機能、ファイルシ
ステム機能を実行する。
【0023】c.HANファイルサーバ10の全体的な
アーキテクチャ及びHANファイルサーバ10の故障処
理機構(図1及び2) 上述のように、本発明のHANファイルサーバ10は階
層及びピアドメインの集まり、すなわちノードあるいは
サブシステムから構成され、各ドメインはファイルサー
バの1つ以上のタスクまたは機能を実行するとともに故
障処理機構を備えている。例えば、HANファイルサー
バ10は、それぞれ、ネットワーク34N、制御/プロ
セッササブシステム14、記憶サブシステム12を有す
る3つの階層ドメイン10A、10B、10Cから構成
され、ファイルサーバの独立した及び相補的な機能を実
行する。つまり、ドメイン10Aは、クライアント34
とHANファイルサーバ10との間のクライアント/サ
ーバ通信を提供し、ドメイン10B、すなわち、制御/
プロセッササブシステム14は、ドメイン10Aのクラ
イアント/サーバ通信をサポートするとともに高レベル
ファイルシステムトランザクションをサポートし、ドメ
イン10C、すなわち、記憶サブシステム12は、クラ
イアントのファイルシステムをサポートする。制御/プ
ロセッササブシステム14は、2つのピアドメイン10
D及び10E、すなわち、ブレイド14A及び14Bか
らなり、並列機能、特にクライアント/サーバ通信機能
及びより高い及び低いレベルのファイルシステム操作を
実行し、それにより、クライアント通信及びファイル操
作のタスクの負荷を分担する。後に詳細に説明されるよ
うに、ブレイド14A及び14Bを備えたドメインはま
た、クライアント/サーバ通信、ブレイド14の相互通
信、高レベルファイルシステム機能、記憶サブシステム
12で実行される低レベルファイルシステム機能の故障
処理及びサポートを提供する独立して機能する故障処理
機構を備える。各ブレイド14は、処理ユニット36A
及び36Bに基づく2つの階層ドメイン10F及び10
Gから構成されるドメインであり、ブレイド14A及び
14Bの機能を併せ持つ別個ではあるものの相補的な機
能を実行する。後述するように、一方の処理ユニット3
6は、高レベルファイル操作及びクライアント/サーバ
通信を両機能のための故障処理機構に提供する上層ドメ
イン10Fを形成する。他方の処理ユニット36は、低
レベルファイル操作及びブレイド14の相互通信を提供
する下層ドメイン10Gを形成し、両機能及び上層ドメ
イン10Fのサーバ機能と故障処理機構とをサポートす
る独立して機能する故障処理機構を備える。最後に、記
憶サブシステム12は、同様に、ディスクドライブ1
8、すなわち、サーバの記憶エレメントを構成して、ブ
レイド14のドメイン10EによりサポートされるRA
ID機構を間接的にサポートする下層ドメイン10H
と、ドメイン10D及び10Eとドメイン10Hとの間
の通信をサポートする記憶ループモジュール20A及び
20Bを備えたピア上層ドメイン10I及び10Jとか
ら構成される。
【0024】従って、以下に記述するように、各HAN
ファイルサーバ10ドメインは、1つの中央統一機構あ
るいは調整機構なしに、互いに独立して別々に、しかし
ながら互いに協調的に動作する1つ以上の故障処理機構
を直接あるいは間接的に有するまたは備える。そのた
め、あるドメインのコンポーネントの機能あるいは操作
が故障しても、関連するドメインの対応するコンポーネ
ントが後を引き継ぐ。さらに、以下に記述するように、
HANファイルサーバ10の故障処理機構は、一箇所あ
るいは複数箇所に故障が起きても継続した機能を提供で
きるように、複数の異なる技術あるいは方法を外からは
わからないように採用している。
【0025】HANファイルサーバ10の全体構造及び
操作をこれまで説明してきたが、以下には、HANファ
イルサーバ10の各ドメインをさらに詳細に、そしてH
ANファイルサーバ10の故障処理機構の構造及び操作
を説明する。 1.ブレイド14の処理と制御コア 図2に、本実装のブレイド14を示す。ブレイド14
は、デュアル処理ユニット36A及び36Bの計算コア
をそれぞれ形成するプロセッサ38A及び38Bと、メ
モリコントローラハブ(MCH)38C、メモリ38
D、入出力コントローラハブ(ICH)38Eのような
多数の共有エレメントとを備える。本実装において、例
えば、プロセッサ38A及び38Bは、それぞれ、内蔵
のレベル2キャッシュを有するインテルペンティアムI
IIであり、MCH38C及びICH38Eはインテル
820チップセットであり、メモリ38DはRDRAM
あるいはSDRAMの512MB以上からなる。
【0026】図に示すように、プロセッサ38A及び3
8Bは、パイプラインフロントサイドバス(FSB)3
8F及びMCH38Cの対応するFSBポート38CA
を介してMCH38Cと相互接続されている。当業者に
は理解されるように、MCH38C及びMCH38Cの
FSBポートは、プロセッサ38A及び38Bからのメ
モリ参照の初期化及び受信と、プロセッサ38A及び3
8Bからの入出力(I/O)及びメモリマップI/O要
求の初期化及び受信と、メモリ38Cからプロセッサ3
8A及び38Bへのメモリデータの受け渡しと、メモリ
I/O要求から生じるメモリスヌープサイクルの初期化
とをサポートする。さらに、MCH38Cはメモリ38
Dへのメモリポート38CBと、ICH38Eへのハブ
リンクバス38Gに接続するハブリンクポート38CC
と、業界標準パーソナルコンピュータ相互接続(PC
I)バスとして機能する4つのAGPポート38CDと
を備えている。各PCIバスは、インテル21154チ
ップのようなプロセッサツープロセッサブリッジユニッ
ト(P−Pブリッジ)38Hへのプロセッサに接続され
ている。
【0027】ICH38Eは、MCH38Cへのハブリ
ングバス38Gに接続するハブリンクポート38EA、
ファームウェアメモリ38Iに接続するファームウェア
ポート38EB、ハードウェアモニタ(HM)38Jに
接続するモニタポート38EC、ブートドライブ38K
に接続するIDEドライブポート38ED、スーパーI
/Oデバイス(スーパーI/O)38Lに接続するI/
Oポート38EE、他のエレメントと共に、VGAデバ
イス(VGA)38M及び管理ローカルエリアネットワ
ークデバイス(LAN)38Nに接続するPCIポート
38EFを含んでいる。当業者には上記の説明で十分理
解されるであろう。
【0028】2.ブレイド14のパーソナルコンピュー
タ互換サブシステム ICH38E、スーパーI/O38L、VGA38Mは
併せてパーソナルコンピュータ(PC)互換サブシステ
ムを構成し、ローカル制御及び表示の目的でHANファ
イルサーバ10のためのPC機能及びサービスを提供す
る。この目的のために、当業者には理解されるように、
ICH38Eは、IDEコントローラ機能、IO AP
IC、82C59ベースのタイマ及びリアルタイムクロ
ックを備える。スーパーI/O38Lは、例えば、標準
マイクロシステムデバイスLPC47B27xであって
もよく、8042キーボード/マウスコントローラ、
2.88MBスーパーI/Oフロッピィディスクコント
ローラ、フル機能デュアルシリアルポートを提供する。
一方、VGA38Mは、例えば、1MBフレームバッフ
ァメモリをサポートするシーラスロジック(Cirru
s Logic)64ビットビジュアルメディア(Vi
sualMediaR)アクセラレータCL−GD54
46−QCであってもよい。
【0029】3.ブレイド14のファームウェア及びB
IOSサブシステム ICH38E及びファームウェアメモリ38Iは、併せ
て、通常のファームウェア及びBIOS機能を実行する
ファームウェア及びBIOSサブシステムを構成し、そ
の機能には、ブレイド14A及び14Bリソースのパワ
ーオンセルフテスト(POST)及びフル設定が含まれ
る。例えば、AMI/Phoenixから利用できるよ
うな標準BIOSであるファームウェア及びBIOS
は、1MBのフラッシュメモリを備えたファームウェア
メモリ38Iに存在する。POSTが完了すると、BI
OSは上述したPCIバスをスキャンし、このスキャン
の間、上述及び後述する2つのPCIツーPCIブリッ
ジを設定し、以下に記述するバックエンド及びフロント
エンドPCIバス上のファイバチャネル及びLANコン
トローラの存在を検出してPCIアドレス空間にマップ
する。この情報は、PC互換IOやメモリサイズなどの
他の標準サイジング情報とともにIOサブシステムのト
ポロジを記述するMP対応テーブルに書き留められ、P
OSTは単純なパスチェックとメモリ診断とを実行す
る。POSTの終了後、綿密なリブート診断パッケージ
を含むフラッシュレジデントユーザバイナリコードセグ
メントがロードされる。リブート診断パッケージはま
た、ファイバチャネルデバイスを初期化するとともに、
パターンセンシティブデータを使ってデータパス及びD
RAMセルを試験することにより、コンピュートブレイ
ド上のコンポーネントの整合性をチェックする。診断が
実行されると、制御はBIOSあるいはブートストラッ
プユーティリティに戻される。制御がBIOSに移され
る場合は、システムはブートを続け、制御がブートスト
ラップユーティリティに移される場合は、ブートブロッ
クがファイバディスクから読み取られ、制御は新しくロ
ードされたオペレーティングシステムのイメージに引き
渡される。さらに、このサブシステムは、全体のシステ
ム管理アーキテクチャをサポートする、エラーチェック
ロジック、環境モニタリング、エラー及びスレッショル
ドロギングなどの機能を提供する。最下層レベルでは、
内蔵プロセッサキャッシュパリティ/ECCエラー、P
CIバスパリティエラー、RDRAM ECCエラー、
フロントサイドバスECCエラーを含むハードウェアエ
ラー及び環境スレッショルドチェックが実行される。エ
ラー及び超過の環境スレッショルドイベントは、DMI
互換レコードフォーマットでフラッシュプロムの一部に
ロギングされる。
【0030】4.ブレイド14のI/Oバスサブシステ
ム 最後に、MCH38C及びICH38Eは、ブレイド1
4の2つの入出力(I/O)バスサブシステムをサポー
トする。うち一方はMCH38Cによってサポートされ
るバックエンドバスサブシステム(BE BusSy
s)38Oであり、前述のブレイド14及び記憶サブシ
ステム12の対応するループバス26間の双方向接続
と、コンピュートブレイドバス30を介したブレイド1
4A及び14B間の双方向接続とを提供する。他方はI
CH38Eによってサポートされるフロントエンドバス
サブシステム(FE BusSys)38Pであり、前
述のネットワーク34への及びそれからの双方向接続を
提供する。ネットワーク34は、前述のように、例え
ば、ローカルエリアネットワーク(LAN)、広域ネッ
トワーク(WAN)、直接プロセッサ接続またはバス、
ファイバオプティックリンク、あるいは前記の組み合わ
せであることができる。
【0031】まず、BE BusSys38Oについて
考えると、上述のように、MCH38Cは、業界標準パ
ーソナルコンピュータ相互接続(PCI)バスとして機
能する4つのAGPポート38CDをサポートする。各
AGPポート38CDは、インテル21154チップの
ようなプロセッサツープロセッサブリッジユニット(P
−Pブリッジ)38Hに接続される。P−Pブリッジ3
8Hは、例えば、タックライト(Tach Lite)
ファイバチャネルコントローラから構成される2つのフ
ァイバチャネルコントローラ(FCC)38Qの双方向
バスポートに接続される。FCC38Qの並列ファイバ
チャネルインターフェイスは、2つの対応するシリアラ
イザ/デシリアライザデバイス(SER−DES)38
Rの並列ファイバチャネルインターフェイスに接続され
ている。一方のSER−DES38Rのシリアルインタ
ーフェイスはコンピュートブレイドバス30に接続さ
れ、他方のデュアルブレイド14への通信接続を提供す
る。他方のSER−DES38Rのシリアルインターフ
ェイスは記憶サブシステム12の対応するループバス2
6に接続されている。
【0032】FE BusSys38Pでは、上述のよ
うに、ICH38EがPCIポート38EFを備えてお
り、図に示すように、PCIポート38EFは、PCI
バスツーPCIバスブリッジユニット(P−Pブリッ
ジ)38Hと双方向に接続されている。P−Pブリッジ
38Hは、例えば、双方向32ビット33MHzフロン
トエンドPCIバスセグメントをサポートするインテル
21152から構成される。フロントエンドPCIバス
セグメントは、ネットワーク34に接続する1群の双方
向ネットワークデバイス(NETDEV)38Tに接続
されていて、NETDEV38Tは、例えば、インテル
82559 10/100イーサネットコントローラデ
バイスである。前述のように、ネットワーク34は、例
えば、ローカルエリアネットワーク(LAN)、広域ネ
ットワーク(WAN)、直接プロセッサ接続またはバ
ス、ファイバオプティックリンク、あるいは前記の組み
合わせであることができ、NETDEV38Tはそれに
応じて選択されることが理解されるであろう。
【0033】最後に、BE BusSys38O及びF
E BusSys38Pについて、本実施例において
は、BE BusSys38O及びFE BusSys
38Pの両方がPCIタイプのバスであり、そのため、
共通の割り込み構造を有している。このため、BE B
usSys38O及びFE BusSys38PのPC
I割り込みは、BE BusSys38OのPCIバス
デバイスがFE BusSys38PのPCIバスデバ
イスと割り込みを共有しないようにルーティングされ
る。
【0034】c.HANファイルサーバ10の操作(図
1、2、3) 1.HANファイルシステム10の全体的な操作 上述のように、HANファイルシステム10は、デュア
ルコンピュートブレイド14を備え、各コンピュートブ
レイド14は記憶サブシステム12の全てのディスクド
ライブ18への完全なアクセスと、全てのクライアント
ネットワーク34Nへの接続とを有し、それぞれ独立し
てHANファイルシステム10の全ての機能及び操作を
実行できる。ブレイド14の機能及び操作構造の概略図
を図3に示す。図3は、ブレイド14A及び14Bのう
ちの一方を示し、他方のブレイド14は図のブレイド1
4と同一であり、かつミラーイメージであることが理解
されるだろう。
【0035】ブレイド14の内部では、上述のように、
デュアル処理ユニット36A及び36Bが、例えば、メ
モリコントローラハブ(MCH)38C、メモリ38
D、入出力コントローラハブ(ICH)38Eのよう
な、多数のブレイド14エレメントを共有している。処
理ユニット36A及び36Bはそれぞれ、互いに独立し
ながらも協調的に動作し、それぞれがメモリ38Aに存
在するリアルタイムオペレーティングシステム(OS)
40の別々のコピーを実行する。OS40の各コピー
は、例えば、処理ユニット36A及び36Bの対応する
一方のために、基本メモリ管理、タスクスケジューリン
グ、同期機能、他の基本オペレーティングシステム機能
を提供する。処理ユニット36A及び36Bは、共有メ
モリ38Aに設けられたメッセージパッシング機構(メ
ッセージ)42を介して通信し、メッセージは、例え
ば、I/Oの開始、I/Oの終了、ディスク故障のよう
なイベント通知、ステータスクエリー、ブレイドバス3
0を介してミラーリングされる、ファイルシステムジャ
ーナルのような重要なデータ構造のミラーリングのため
に規定される。初期設定時、各ブレイド14はOS40
と、RAIDファイルシステム及びネットワークイメー
ジとの両方のコピーをバックエンドディスクドライブ1
8からロードする。それぞれ処理ユニット36A及び3
6Bの一方を実行する2つのRAIDカーネルは、その
後、OS40の2つのインスタンス間でブレイド14の
メモリ38Aを協力して分割し、OS40カーネルのコ
ピーがロードされた後、処理ユニット36A及び36B
の操作を開始する。初期設定の後、OS40カーネルは
メッセージ42を介して通信する。
【0036】図3に示すように、各ブレイド14の内部
で、処理ユニット36A及び36Bの一方はバックエン
ドプロセッサ(BEP)44Bと称されて動作する。そ
して、上述のように、RAID設定ディスクへの及びそ
れからのデータの書き込み及び読み出しのためのブロッ
ク記憶システムとして動作するとともに、RAID機構
(RAID)46を備える。RAID46には、RAI
Dデータ記憶及びバックアップ機能を実行するRAID
ファイル機構(RAIDF)46Fと、RAID関連の
システムモニタリング機能及び以下に示す他の機能を実
行するRAIDモニタ機構(RAIDM)46Mとが含
まれる。処理ユニット36A及び36Bの他方はフロン
トエンドプロセッサ(FEP)44Fと称されて動作
し、クライアントとディスクレジデントブロック記憶シ
ステムとの間でデータを移動するための全てのネットワ
ーク及びファイルシステム操作、そして、ネットワーク
ドライバ、CIFS及びNFSプロトコルを含むプロト
コルスタックのサポートとジャーナルファイルシステム
の維持とを含めたBEP44Bの対応するRAID機能
を実行する。
【0037】ブロック記憶システム操作に加えて、BE
P44Bの機能には、RAIDF46F及びRAIDM
46Mを介してのコアRAIDファイルシステムサポー
トアルゴリズムの実行、ディスクドライブ18の操作の
モニタリング、自身が存在するブレイド14及びピアブ
レイド14の両方の操作及び状態のモニタリング、管理
機能への故障の連絡が含まれる。図2及びBE Bus
Sys38Oについて上述したように、BEP44Bは
また、BE BusSys38Oとブレイドバス30と
を介してブレイド14A及び14B間の通信を、そして
BE BusSys38Oと記憶サブシステム12の対
応するループバス26とを介してディスクドライブ18
との通信をサポートする。RAIDM46Mはまた、ブ
レイド14の電源装置をモニタし、停電の際には適切な
処理を実行する。例えば、ディスクドライブ18に重要
なデータ構造の緊急書き込みを行ったり、処理ユニット
36A及び36Bの生き残った方が適切な処理を開始で
きるように処理ユニット36A及び36Bの一方に通知
をする。BEP44Bはさらに、確実なブートストラッ
プサポート機能を提供し、それによりランタイムカーネ
ルがディスクドライブ18に保存され、システムブート
の際ロードされることができる。
【0038】FEP44Fは、ブレイド14の全てのネ
ットワーク34関連機能及び操作を実行するネットワー
ク機構(ネットワーク)48を備え、FE BusSy
s38P及びNetDev38Tのエレメントを含んで
いる。例えば、ネットワーク48は、FE BusSy
s38Pを含むネットワーククライアントに利用可能な
リソースを管理及び提供し、ネットワーク34を介して
クライアント34CにHANファイルシステム10への
アクセスを提供する。後述するように、ネットワーク4
8はまた、FEP44Fに存在する通信フェイルオーバ
ー機構と、ここに記載されるその他の高可用性機能とを
サポートする。
【0039】FEP44Fはまた、ジャーナルファイル
システム(JFile)50を含む。ジャーナルファイ
ルシステム(JFile)50は、ネットワーク48を
介してHANファイルシステム10のクライアントと、
そしてメッセージ42を介してRAIDM46FのRA
IDファイルシステム機能と通信する。図に示すよう
に、JFile50は、JFile50のファイルシス
テム機能を実行するファイルシステム機構(FSM)5
0Fと、FSM50Fと相互作用してそれぞれデータト
ランザクションのデータ及び操作をキャッシュし、デー
タトランザクションのジャーナルを維持する内蔵書き込
みキャッシュ(WCache)50C及びトランザクシ
ョンログ(ログ)50Lとを含む。ログ50Lには、要
求されたデータトランザクションを表すログエントリ
(SE)50Eを生成するためのログジェネレータ(L
Gen)50Gと、SE50Eを記憶するログメモリ
(LogM)50Mとが含まれる。LogM50Mの大
きさは、以下に記述されるように、ジャーナルされるべ
きデータトランザクションの数に依存する。図に示すよ
うに、BEP44Bには、WCache50Cと通信し
て、WCache50Cの中身をミラーリングするキャ
ッシュミラー機構(CMirror)54Mが含まれ
る。さらに、各ブレイド14のログ50Lは、反対側の
ピアブレイド14に存在するログ50Lのミラー機構
(LMirror)54Lによってミラーリングされ、
各ブレイド14のログ50Lは、メッセージ42、BE
BusSys38O、ブレイドバス30を含むパスを
介して対応するLMirror54Lと通信する。
【0040】最後に、FEP44Fには、ステータスモ
ニタ機構(モニタ)52が含まれる。モニタ52は、H
ANファイルシステム10の変更に関するBEP44B
からの通知をモニタし、その変更を受けて適切な処理を
開始する。この通知には、例えば、RAIDグループに
新しく挿入されたディスクのバインディングに関する、
あるいは故障したディスクのためのSNMPトラップを
起動するRAIDM46Mからの通知が含まれ、モニタ
52により開始される操作には、例えば、以下に記述す
るように、RAID機能が非常に重大なエラーに遭遇し
た場合等に、HANファイルサーバ10の故障処理機構
によりフェイルオーバー動作を開始すること、あるいは
ブレイド14を完全にシャットダウンすることが含まれ
る。
【0041】2.HANファイルサーバ10のファイル
システム機構の操作(図1、2、3) 上記及び図3に示したように、HANファイルサーバ1
0のファイルサーバ機構は、3つの主要なコンポーネン
トあるいは層を含む。1つ目の最上層は、ブレイド14
A及び14Bそれぞれのフロントエンドプロセッサ44
Fに存在するWCache50C及びLog50Lを含
むJFile50のファイルシステム機構である。最下
層には、ディスクドライブ18を備えた記憶サブシステ
ム12と、ブレイド14A及び14BそれぞれのBEP
44Bに存在するブロック記憶システム機能及びRAI
DF46F機能とが含まれる。HANファイルサーバ1
0ファイルシステム機構の3番目の層あるいはコンポー
ネントは、ファイルシステム機構の操作に影響する故障
を検出して処理し、ファイルシステム故障からの回復を
行う故障処理機構から構成される。上層及び下層ファイ
ルシステムエレメントの構造及び操作はすでに上述され
ており既知のエレメントと類似しているので当業者には
よく理解されることであろう。そのため、本実施例のH
ANファイルサーバ10ファイル機構のこれらのエレメ
ントは、本発明を完全に理解するのに必要でない限りこ
こでは詳細に説明されない。以下の記述は、その代わり
に、HANファイルサーバ10ファイル機構の故障処理
機構、特にHANファイルサーバ10の上層レベルのフ
ァイルシステムエレメントの操作に関する故障処理機構
に焦点をあてる。
【0042】上述のように、HANファイルサーバ10
ファイル機構の第3のコンポーネントは、HANファイ
ルサーバ10コンポーネントの損失から生じるデータの
損失に対する保護を提供するミラーリング機構から構成
される。図3に示すように、ミラーリング機構には、各
ブレイド14毎に、ブレイド14のBEP44Bに存在
するキャッシュミラー機構(CMirror)54M
と、反対側のピアブレイド14のBEP44Bに存在す
るログミラー機構(LMirror)54Lとが含まれ
る。CMirror54Mは、メッセージ42を介して
JFile50のWCache50Cと通信する継続動
作キャッシュミラーリング機構である。ログ50Lは、
ピアブレイド14のBEP44Bに存在するLMirr
or54Lにより要求に応じてミラーリングされ、メッ
セージ42、BE BusSys38O、コンピュート
ブレイドバス30を介して対応するLogM50Mと通
信する。これにより、クライアントに通知される前に、
ブレイド14Aあるいは14Bの一方を介したファイル
システムへの全データ変更が、ブレイド14Aあるいは
14Bの他方に反映される。これに関連して、本実施例
においては、ログ50Lのミラーリングは、各ファイル
システムトランザクションの処理中に実行される。その
ため、トランザクションログミラーリングのレイテンシ
は実際のファイルシステムトランザクションの実行によ
り限度ぎりぎりまで掩蔽される。最後に、RAIDF4
6Fによりサポートされ提供されるディスクドライブ1
8ファイルシステム、制御、モニタリング、データ回復
/再構築機能は、HANファイルサーバ10データ保護
機構の一部でもあり、記憶サブシステム12内部へのデ
ータミラーリング法を使用していることが理解されるだ
ろう。
【0043】以下に記述されるように、これらのミラー
リング機構は、よって、故障のタイプによって、ブレイ
ド14における故障を処理する数多くの代替法をサポー
トしている。例えば、ブレイド14の一方が故障した
際、生き残ったブレイド14は、そのLMirror5
4Lに保存されたファイルトランザクションを読み取
り、故障したブレイド14が復帰したときに故障してい
たブレイド14に戻す。その際には、復帰したブレイド
14により失われたファイルトランザクションが再実行
され回復される。他の方法では、ブレイド14のネット
ワーク34フェイルオーバー機構について以下に記述す
るように、故障したブレイド14あてのファイルトラン
ザクションが、ブレイド14間のブレイドバス30のパ
スを介して、あるいはブレイド14のネットワーク34
ファイルオーバー機構によって生き残ったブレイド14
へのクライアントのリダイレクションにより、生き残っ
ているブレイド14にリダイレクトされる。生き残った
ブレイド14は、それにより、故障したブレイド14あ
てのファイルトランザクションの実行を引き継ぐ。以下
に記述するように、生き残ったブレイド14は、この操
作の一部として、そのLMirror54Lに保存され
ている故障したブレイド14からのファイルトランザク
ションを再実行することにより故障したブレイド14の
失われたファイルトランザクションを再実行して回復す
るか、あるいは、故障したブレイド14が復帰した後に
故障していたブレイド14にファイルトランザクション
を読み戻す。これにより、故障の際の故障したブレイド
14上のファイルシステムの状態が再構築され、確認済
みのトランザクションのために、故障したブレイドから
データが失われることはない。
【0044】3.HANファイルサーバ10の通信機構
の操作(図1、2、3) 図1、2、3に示すように、本発明に組み込まれている
HANファイルサーバ10の通信機構は、3つのレベル
あるいは層の通信機構から構成されるとみなすことがで
きる。説明のために、最上層レベルは、クライアント3
4Cと、HANファイルサーバ10によってサポートさ
れるクライアントファイルシステム構造との間のファイ
ルトランザクション通信のためのネットワーク34関連
通信機構、及び、関連する通信故障処理機構から構成さ
れる。通信機構の中間層には、ブレイドバス30及びメ
ッセージ42を介したブレイド14A及び14B間の通
信をサポートする通信機構と、関連する通信故障処理機
構とが含まれる。通信機構の最下層には、ブレイド14
及び記憶サブシステム12間、そして記憶サブシステム
12のエレメント間の通信パス及び機構とが含まれる。
前記は、すでに説明されており、本発明を理解するため
に必要でない限りさらには説明されない。
【0045】まず、HANファイルサーバ10の通信機
構の上層レベルについて考える。図3に示すように、ブ
レイド14A及び14BそれぞれのFEP44Fに存在
するネットワーク機構(ネットワーク)48は、TCP
/IPプロトコルスタック(TCP/IPスタック)5
8を含むネットワークスタックオペレーティングシステ
ム(NetSOS)56とネットワークデバイスドライ
バ(NetDD)60とを含み、以下に記述するよう
に、これらの機構には、単一ポート34Pの故障、ネッ
トワーク34の故障、ブレイド14全体の故障を調整し
て処理する機能が含まれる。これに関連して、本文の他
の箇所にも記載するように、ネットワーク34は、例え
ば、ローカルエリアネットワーク(LAN)、広域ネッ
トワーク(WAN)、直接プロセッサ接続またはバス、
ファイバオプティックリンク、あるいは前記の組み合わ
せから構成されることができ、NETDEV38T及び
NetDD60はそれに応じて実装される。
【0046】また、図3に示され、HANファイルサー
バ10の通信機構の高可用性について以下に説明される
ように、各ネットワーク48はさらに、クライアントル
ーティングテーブル(CRT)48Aを含む。CRT4
8Aは、ブレイド14によりサポートされるクライアン
ト34Cに付随するルーティング及びアドレス情報を含
むクライアントルーティングエントリ(CRE)48E
と、反対側のピアブレイド14によってサポートされる
クライアント34CのCRE48Eとを保存する。当業
者には理解されるように、CRE48Eは、ネットワー
ク48によって、所定のクライアント34Cへファイル
トランザクション通信を送るために利用されることがで
き、必要であるならば、ブレイド14に割り当てられた
クライアント34Cから受領したファイルトランザクシ
ョン通信を識別、あるいは確認するために利用されるこ
ともできる。図に示すように、各ネットワーク48には
また、ブレイドルーティングテーブル(BRT)48B
が含まれる。BRT48Bは、ブレイド14にアクセス
可能でブレイド14によって共有されるネットワーク3
4通信パスに関するアドレス及びルーティング情報を含
み、これにより、ブレイド14間の利用可能な通信バス
を形成する。典型的な本実装のネットワーク48におい
て、CRT48A及びBRT48B情報は、ブレイドバ
ス30を含む通信パスを介してブレイド14A及び14
B間で通信されるが、例えば、ネットワーク34Mを介
して各ブレイド14に提供されることもできる。
【0047】HANファイルサーバ10のネットワーク
34通信機構の全体的な操作を説明する。図1及び2を
見ると、HANファイルサーバ10の各ブレイド14
は、ネットワーク34と接続して通信する複数のポート
34Pをサポートしている。例えば、本実装において、
各ブレイド14は合計5つのポート34Pをサポートし
ていて、うち4つのポート34Pはネットワーク34N
に接続されてクライアント34Cにサービスを提供し、
1つのポートは、HANファイルサーバ10の管理のた
めに予約されて管理ネットワーク34Mに接続されてい
る。図に示すように、ブレイド14A及び14Bそれぞ
れの対応するポート34Pは同じネットワーク34に接
続されており、そのため、各ネットワーク34は、対応
するポート34Pを介して、ブレイド14A及び14B
それぞれに接続される。本実施例において、HANファ
イルサーバ10のポート34Pは、10個の異なるIP
アドレス、すなわち、各ポートにつき1アドレスを設定
され、ブレイド14のそれぞれ対応する組み合わせのポ
ート34Pのポート34Pが同じネットワーク34に接
続されている。そのため、各ネットワーク34は、2つ
のアドレス、すなわちブレイド14A及び14Bそれぞ
れの一方へのアドレスを介してHANファイルサーバ1
0をアドレス指定することができる。HANファイルサ
ーバ10の各クライアントが割り当てられるポート34
Pは、従来技術であり当業者には簡単に理解されるよう
に、クライアントに存在するARPテーブルにより各ク
ライアント内で決定される。さらに、図2に示すよう
に、クライアント34Cは、HANファイルサーバ10
がデフォルトのルートを設定されるかまたはRIPまた
はOSPのようなルーティングプロトコルを備える場
合、直接接続されたネットワーク34通信のうちの一方
を介して、あるいは任意のルータ34Rを介して、HA
Nファイルサーバ10にアクセスできる。HANファイ
ルサーバ10の別の実装では、各クライアント34C
は、複数のネットワーク34を介してHANファイルサ
ーバ10のポート34Pに接続されることができ、ネッ
トワーク34は、以下に記述するように、クライアント
34CのARPテーブル及びHANファイルサーバ10
を適切に改良することにより、ローカルエリアネットワ
ーク(LAN)、広域ネットワーク(WAN)、直接プ
ロセッサ接続またはバス、ファイバオプティックリン
ク、あるいは前記の組み合わせのような異なる技術を利
用することができる。
【0048】図3に示すように、ブレイド14A及び1
4Bそれぞれの各FEP44Fに存在するネットワーク
48機構はさらに、CIFS62及びNFS64ネット
ワークファイルシステムと、その他の必要なサービスと
を備える。図3には示されていないこれらの付加的なサ
ービスには、以下のものが含まれる。
【0049】NETBIOS − リモートリソースに
アクセスするためにPCクライアントによって使用され
るマイクロソフト/IBM/インテルプロトコル。この
プロトコルの重要な特徴の1つは、サーバ名をトランス
ポートアドレスに変更することであり、サーバは、共有
資源、すなわち、\\server\shareを識別するためにクラ
イアントにより用いられるUNC名のコンポーネントと
なる。HANファイルサーバ10では、サーバはブレイ
ド14Aまたは14Bを表す。NETBIOSはまた、
CIFS62パケットフレーミングを提供し、HANフ
ァイルサーバ10はRFC1001及びRFC1002
に規定されるようなTCP/IPに優先してNETBI
OSを使用する。
【0050】SNMP − Simple Netwo
rk Management Protocol。HA
Nファイルサーバ10に、エージェントと呼ばれる処理
を提供する。エージェントは、システムについての情報
を提供するとともに、通常でないイベントが起きた際、
トラップを送信する機能を提供する。
【0051】SMTP − Simple Mail
Transport Protocol。通常でないイ
ベントが起きた際、電子メールメッセージを送信するた
めにHANファイルサーバ10により用いられる。 NFS − サンマイクロシステムズネットワーク情報
サービス。NSFファイルシステムへのアクセス制御に
用いられるユーザIDを識別するためにNFSサーバに
よって用いられるプロトコルを提供する。
【0052】RIP − 動的ルーティングプロトコ
ル。ルータ34Rのようなルータの背後で動作している
クライアントのサポートによりネットワークトポロジを
明らかにするために使用される。本実装のHANファイ
ルサーバ10においては、このプロトコルは、ルーティ
ング情報のモニタのために受動モードで動作する。別の
実装においては、ユーザがシステム初期設定の間にデフ
ォルトルートを設定または明示してもよい。
【0053】本発明の説明では、HANファイルサーバ
10の正常動作時は、各ネットワーク48のエレメン
ト、すなわち、NetSOS56、TCP/IPスタッ
ク58、NetDD60、CRT48Aは、クライアン
ト34CとHANファイルサーバ10との間のネットワ
ーク通信操作を実行するのに当業者には明らかな従来方
法で動作することが当業者には理解されるであろう。こ
のため、HANファイルサーバ10のこれらの機能につ
いてはこれ以上説明をしない。以下はHANファイルサ
ーバ10のネットワーク関連通信機構の高可用性に焦点
をあてて説明する。
【0054】4.HANファイルサーバ10の通信故障
処理機構(図1、2、3) a.ネットワーク通信故障機構 通信または接続故障が簡単に検出される一方、どのコン
ポーネントが故障したのかを見極め、どんな訂正手段を
とるのが適当かを判断することが難しくかつ複雑である
ことは当業者には明白に理解されることであろう。例え
ば、故障の可能性のあるソースには、ポート34P、あ
るいはポート34Pとネットワーク34のハブまたはス
イッチとの間のリンク、あるいはブレイド14間のネッ
トワークのパーティションが含まれるがこれに限定され
るわけではない。しかしながら、HANファイルサーバ
10は、ブレイド14故障と同様に、1つ以上のネット
ワーク34インターフェイス故障及び、異なるタイプの
ネットワーク34故障とに対処できるIPネットワーク
通信サービスを提供し、さらに、さまざまな故障を徐々
に減少させる機能をサーバシステムに提供するために、
異なるクラスあるいはタイプの故障を処理する多数の協
調的あるいは補足的な機構を実装する。例えば、ブレイ
ド14のポート34Pインターフェイス故障の際、HA
Nファイルサーバ10は、ブレイド14A及び14B間
のコンピュートブレイドバス30接続を利用して、ネッ
トワークトラフィックをピアブレイド14上の機能して
いる対応ポート34Pからポート34Pが故障したブレ
イド14へ転送することができる。この機能により、1
つのネットワークポート34Pの故障によりブレイド1
4全体が動かなくなるのが防がれ、その結果、ブレイド
14によってサポートされるファイルシステムを移動す
る必要がなくなる。この機能はまた、故障が異なるネッ
トワーク34上で起きる限り、すなわち、故障がブレイ
ド14上の対応するポート34Pの両方に起きない限
り、片方あるいは両方のブレイド14上での複数のネッ
トワークポート34P故障を調整できることが明らかで
ある。各ネットワーク34のブレイド14の一方で少な
くとも1つのポート34Pが機能する限り、クライアン
トには故障が起きていることがわからない。
【0055】HANファイルサーバ10の高可用性通信
機構は、各ブレイド14ドメインに存在する通信フェイ
ルオーバー機構(CFail)66により提供される。
CFail66は、各ブレイド14のネットワーク48
の機構とブレイド14A及び14Bのメッセージ42機
構とについての通信故障処理のために別々に動作するも
のの協調的な機構を含む。
【0056】まず、ネットワーク48、すなわち、クラ
イアント34C及び制御/プロセッササブシステム14
ドメイン間の通信についてのCFail66の機能及び
操作について考える。CFail66はIPパススルー
と呼ばれる操作を実行し、これにより、一方のブレイド
14に関連する故障したネットワーク34サービスは、
反対側のピアブレイド14の故障していない対応ポート
34Pに移され、以下に記述するように、ブレイド14
を通る代わりのパスを介してルーティングされる。図3
に示すように、各CFail66には、ブレイド14の
FEP44Fに存在する通信モニタリング処理/プロト
コル機構(CMonitor)66Cが含まれる。CM
onitor66Cは、ブレイド14A及び14BのN
etSOS56の操作と、ポート34P及びネットワー
ク34を介した通信と、ブレイド14A及び14B間の
ブレイドバス30とを介した通信を含めたブレイド14
の全ての通信機能をモニタして調整する。ポート34P
及びネットワーク34を介した通信のモニタリングと故
障検出のために、各CFail66は、ネットワーク4
8とブレイド14のポート34Pとを介して動作するS
LIPインターフェイス(SLIP)66Sを備えてお
り、SLIP66Sは、ブレイド14に存在し、ネット
ワーク調整パケット(NCPack)66Pを反対側の
ピアブレイド14とやりとりする。NCPAck66P
は、例えば、ネットワーク調整情報及び通知を備え、C
Monitor66Cによって故障したポート34Pを
検出及び識別するために用いられる。特に、各SLIP
66Sは、ブレイド14間の各ネットワーク34パスを
介して、定期的に、反対側のピアブレイド14のSLI
P66S及びCMonitor66CにビーコンNCP
ack66Pを送信する。ブレイド14のCMonit
or66Cが、所定の故障検出間隔で、パスを介して反
対側のピアブレイド14からビーコンNCPack66
Pを受領しない場合、ブレイド14間のネットワーク3
4パスが、故障したものとして検出される。そして、反
対側のブレイド14のポート34Pインターフェイスに
故障が起こったと想定される。所定故障検出間隔は、N
CPack66P通信間の間隔より長く、通常CIFS
クライアントタイムアウト間隔より短い。本実装におい
ては、この間隔は、15秒のCIFSタイムアウト間隔
に対し、ほぼ5秒に設定される。
【0057】図3に示すように、各CFail66は、
CMonitor66Cに応答して任意のARP応答6
6Rを生成するARP応答ジェネレータ(ARPGe
n)66Gと、ネットワーク48によるクライアント3
4C通信のリダイレクションを管理するために、CFa
il66の操作にしたがってCRT48Aに存在するC
RE48Eの内容を管理するパスマネージャ(PM)6
6Mとを含んでいる。ブレイド14のCMonitor
66Cが、ポート34Pインターフェイスの故障のよう
な、ピアブレイド14の通信パス故障を判断すると、そ
の情報はARPGen66Gに引き渡され、ARPGe
n66Gは、クライアント34Cの故障箇所に割り当て
られた、あるいは関連するネットワークアドレスを識別
するためにARPテーブル66Tに保存された情報を使
用して、故障に関係するポート34Pから接続されたク
ライアントへの、任意の対応ARP応答66Rを生成す
る。ARP応答66Rは、目標となるクライアント34
CのARPテーブルの情報の修正または書き換えを行
い、クライアント34Cを対応するポート34Pの動作
しているポート34P、すなわち、ARP応答66Rを
生成しているCFail66のポート34Pにリダイレ
クトする。より具体的には、ARPGen66Gにより
送信された任意のARP応答66Rは、各クライアント
34Cに存在するARPテーブルの修正または書き換え
を行い、クライアント34Cからの通信を、ARP応答
66Rを送信するARPGen66Gを含むブレイド1
4の対応するポート34Pに向けようとする。各CFa
il66は、それにより、故障した通信パスのクライア
ント34CをCFail66が存在するブレイド14の
対応するポート34Pにリダイレクトしようとし、その
結果、以下に記述するように、故障したポート34Pと
通信するクライアントを機能しているポート34Pを備
えたブレイド14の機能している対応ポート34Pにリ
ダイレクトする。
【0058】さらに、各ブレイド14のPM66Mは、
CMonitor66Cの操作と、APRPGen66
Gによる1つ以上のARP応答66Rの生成とに、AR
P応答66Rの目標であるクライアント34Cに対応す
るCRT48AのCRE48Eを修正することにより応
じる。特に、PM66Mは、故障したエントリ(FE)
48FをARP応答が向けられていた各クライアント3
4Cに対応するCRE48Eに書き込んで、対応するク
ライアント48Cの通信がリダイレクトされたことを示
し、CRT48Aにパススルーフィールド(PF)48
Pを設定して、ブレイド14が1つのモードで動作して
いることを各ネットワーク48に知らせる。
【0059】この後、それ自身のポート34Pを介し
て、ピアブレイド14、すなわち、ピアブレイド14上
でサポートされるクライアントファイルシステムあての
クライアント34Cからの通信が受領されると、ネット
ワーク48はPF48Pをチェックしてパススルーモー
ド操作が有効であるかどうか判断する。パススルーモー
ドが有効である場合、ネットワーク48は、ブレイド1
4のBEP44間のブレイドバス30パスからなるパス
スルーパスを介してピアブレイド14に通信を向ける。
さらに、先に記述したリダイレクションの結果として、
ネットワーク48は、ブレイド14のポート34Pあて
のブレイドバス30パススルーパスを介した通信ではあ
っても、他方のブレイド14を通るリダイレクションに
よりブレイドバス30パススルーパスを介してリダイレ
クトされた通信を受領できる。このような場合、CMo
nitor66C及びPM66Mは、通信ソースであっ
たクライアント34Cに対応するCRE48Eを修正す
ることで、ネットワーク48による通信の受領に応じ、
ブレイドバス30パススルーパス及びピアブレイド14
を介してクライアント34Cに通信をルーティングす
る。これにより、影響を受けたクライアント34Cへの
及びそれからのパスの両方向において通信のリダイレク
ションが完了する。
【0060】HANファイルサーバ10の別の実装にお
いて、各クライアント34Cは、複数のネットワーク3
4を介してHANファイルサーバ10のポート34Pに
接続されることができ、ネットワーク34は、ローカル
エリアネットワーク(LAN)、広域ネットワーク(W
AN)、直接プロセッサ接続またはバス、ファイバオプ
ティックリンク、あるいは前記の組み合わせなどの異な
る技術を使用することができることを上述した。これら
の実装において、CFail66機構は、ネットワーク
34通信の故障が検出されると上述のように動作する
が、さらに、生き残ったブレイド14にクライアント3
4C通信をリダイレクトするのと同様に、クライアント
34Cとポート34Pが故障したブレイド14との間の
利用可能及び機能している代わりのネットワーク34パ
スを選択してもよい。この実装において、CFail6
6機構は、上述のように、クライアント34C ARP
テーブル及びCRE48Eを修正してクライアント34
C通信をリダイレクトするが、代わりのパスを選択する
際に付加的なオプションを選択する。
【0061】上述のIPパススルー操作に関して、HA
Nファイルサーバ10のCFail66機構が、ネット
ワーク34とブレイド14との間の接続場所または原因
を識別しようとしないことに注目すべきである。その代
わりに、各CFail66は、反対側のブレイド14の
ポート34Pインターフェイスに故障が起きたと想定
し、IPパススルー操作を開始する。その結果、所定の
通信パスのためのIPパススルー操作が、ブレイド14
A及び14Bによって同時に実行される。しかしなが
ら、ブレイド14A及び14Bによって同時に実行され
るIPパススルー操作は、本発明においては衝突しな
い。すなわち、例えば、パススルー操作が、ブレイド1
4A及び14Bの一方のポート34Pインターフェイス
の故障、あるいはブレイド14A及び14Bの一方への
ネットワーク34リンクの故障の結果である場合、故障
に関連するブレイド14のCFail66は、そのポー
ト34Pあるいはネットワーク34リンクを介して接続
されるクライアント34CにARP応答66Rを伝達す
ることができない。その結果、故障に関連するブレイド
14のCFail66は、そのブレイド14に対応する
クライアント34Cトラフィックをリダイレクトするこ
とができない。しかしながら、反対側のブレイド14、
すなわち、故障に関連しないブレイド14のCFail
66は、故障したパスに関連したクライアント34Cに
ARP応答66Rを送信し、その結果、ブレイド14に
対応するクライアント34Cトラフィックをリダイレク
トことに成功する。ネットワークのパーティションから
生じる故障の際には、以下に記述するように、両方のポ
ート34Pインターフェイスがブレイド14A及び14
B間のブレイドバス30通信パスを介してネットワーク
パーティションを「橋渡し」できる。その結果、全ての
クライアント34Cがブレイド14A及び14Bのどち
らかと通信できる。
【0062】最後に、ブレイド14A及び14Bのどち
らかが完全に故障した際には、他方のブレイド14の生
き残った対応ポート34Pにより、故障したポート34
Pのサービスの引き継ぎに関して上述した方法で、CF
ail66を介してIPパススルー操作が実行される。
ただし、故障したブレイド14のポート34P全てのネ
ットワークサービスは、生き残ったブレイド14の対応
ポート34Pによって引き継がれる。しかしながら、一
方のブレイド14が完全に故障してしまうと、故障した
ブレイド14により提供されていたクライアントのTC
P接続が断ち切られてしまうので、IPパススルーの完
了後再構築されなければならないことが当業者には明ら
かであるだろう。その後、故障したブレイド14上で利
用可能だったサービスが生き残ったブレイド14上で利
用可能になり、故障したブレイド14のクライアントは
生き残ったブレイド14に対してTCP接続を再構築で
きる。
【0063】最後に、上述したIPパススルー機構の操
作に関して、HANファイルサーバ10によってサポー
トされるネットワーク34関連通信操作には、上述した
ポイントツーポイント、またはクライアント34Cから
HANファイルサーバ10への通信と同様に、例えば、
ネットワーク48のNetBIOS機構により、必要に
応じてブロードキャスト通信が含まれることが理解され
ることと思う。当業者には明らかであるように、ブロー
ドキャスト通信は、特定の受け手へというより複数の受
け手にあてられる点でポイントツーポイント通信とは異
なるが、ブレイド14がパススルーモードで動作してい
る時には、クライアント34C通信に似た方法で管理さ
れる。この場合、ブロードキャスト通信を受けるネット
ワーク48は、上述のように、ブレイドがパススルーモ
ードで動作しているかどうかを調べ、もしそうであるな
らば、ブレイドバス30パススルーパスを介して反対側
のブレイド14のネットワーク48に各ブロードキャス
ト通信を転送する。その結果、その通信は、他のネット
ワーク48により直接受けたブロードキャスト通信と同
様に取り扱われる。
【0064】上記に関して、業界標準CIFS仕様書に
はクライアントシステム上で動作しているアプリケーシ
ョンが接続を失った場合の影響が記載、あるいは特定さ
れていないことが当業者にはよく知られている。経験及
び実験及びアプリケーション説明書によれば、アプリケ
ーションのTCP接続が失われた場合の影響はアプリケ
ーションに依存しており、それぞれが故障に対して異な
る処理を行う。例えば、あるアプリケーションは、クラ
イアントにTCP接続を使用する操作を再実行するよう
に指示し、いくつかのアプリケーションは自動的に操作
を再実行する。別のアプリケーションは、ユーザに故障
を報告するのみである。このため、本実装のネットワー
クポートフェイルオーバー機構は、これらの機能を実装
するための機能を組み込んでおり、それには、各ポート
34Pが複数のアドレスに対応することを可能にする、
複数のIPアドレスをサポートするためにポート34P
を制御するNetDD60の機能と、故障したブレイド
14からのIPアドレスを転送し、生き残ったブレイド
14上のIPアドレスを作成するために必要な機能とが
含まれる。ネットワークポートフェイルオーバー機構に
はまた、任意のARP応答66Rを生成して故障したポ
ート34Pに接続されたクライアントに送信し、さらに
クライアントのARPテーブルのIPアドレスが新しい
ポート34Pをポイントするように変更したり、他のサ
ブシステムの可用性及び故障モニタリング機能と接続し
てブレイド14の完全な故障がいつ起きたかを知った
り、故障したブレイド14リソース名のためのNetB
IOS名の変更を行ったりする上述した機能が含まれ
る。
【0065】よって、HANファイルサーバ10のCF
ail66機構が、ブレイド14A及び14Bのポート
34Pインターフェイス内のサブネットワークレベルを
も含めたどのネットワークレベルに故障が起きても、ク
ライアント34CとHANファイルサーバ10のブレイ
ド14との間の通信を維持あるいは回復できることは明
らかである。唯一の必要条件は、ブレイド14Aあるい
は14Bの少なくとも一方で、1つのネットワーク通信
パス及びネットワークインターフェイスが各ネットワー
ク34のために機能することである。従って、本発明の
CFail66機構は、従来技術に典型的な、ネットワ
ーク通信故障のソースと原因とを識別し隔離するのに必
要とされる複雑な機構や手順を必要とせず、その一方で
また、衝突する可能性のある故障管理操作を調節し、同
期させ、管理するのに必要とされる、これもまた従来技
術に典型的な複雑な機構や操作を必要としない。
【0066】b.ブレイド14/ブレイド14通信及び
故障処理機構 HANファイルサーバ10の通信機構の中間層が、ブレ
イドバス30及びメッセージ42のような、制御/プロ
セッササブシステム14ドメインのブレイド14A及び
14Bドメイン間及びその内部の通信をサポートする通
信機構を含むことを上述した。例えば、前述のように、
ブレイドバス30パス及びメッセージ42は、ブレイド
14間の一連のHANファイルサーバ10管理運営通信
のために、通信引き継ぎ操作の際のファイルトランザク
ション操作パスのセグメントとして、CMirror5
4M及びLMirror54L操作においても使用され
る。
【0067】上述し及び図2に示すように、ブレイド1
4間のブレイドバス30通信パスは、ブレイドバス3
0、及び、各ブレイド14のBEP44Bに存在するB
E BusSys38Oから構成され、BE BusS
ys38Oには、Ser−Des38R、FCC38
Q、P−Pブリッジ38H、MCH38C、プロセッサ
36Aなどのエレメントが含まれる。図2には示されて
いないものの、BE BusSys38Oはまた、プロ
セッサ36Aで、すなわち、BEP44Bで動作するB
E BusSys38O制御通信機構を備えている。B
E BusSys38O制御通信機構は、通常、当業者
には明らかな方法で動作し、BE BusSys38O
及びブレイドバス30を介する通信操作を実行する。プ
ロセッサ36A及び36B、すなわち、各ブレイド14
のFEP44F及びBEP44Bはまた、図2あるいは
3に示されていないメッセージ42制御通信機構を実行
することが理解されるだろう。メッセージ42制御通信
機構は、通常、当業者には明らかな方法で動作し、メッ
セージ42を介する通信操作を実行する。
【0068】BEP44B及びFEP44A間の通信を
提供するメッセージ42は、各ブレイド14のメモリ3
8Aの共有メッセージ通信空間と、プロセッサ36A及
び36Bで動作するメッセージング機構とから構成され
る。メッセージング機構は、通常、当業者には明らかな
方法で動作し、メッセージ42を介する通信操作を実行
する。
【0069】図3に示すように、CFail66には、
SLIP66S、CMonitor66C、ARPGe
n66Gとは別の独立した故障処理機構が含まれる。S
LIP66S、CMonitor66C、ARPGen
66Gは、制御/プロセッササブシステム14ドメイン
のブレイド14A及び14Bドメイン間及びその内部の
通信についての故障処理のために、制御/プロセッササ
ブシステム14ドメインへの及びそれからの通信と関連
して機能する。図からわかるように、CFail66の
相互ブレイド14ドメイン通信故障処理機構には、ブレ
イドバス30及びブレイド14のBE BusSys3
8Oを含めた、ブレイド14A及び14B間のブレイド
バス30通信リンクの操作をモニタするブレイド通信モ
ニタ(BMonitor)66Bと、ブレイド14のメ
ッセージ42の操作とが含まれる。しかしながら、この
接続は図3には示されていない。まずブレイドバス30
を取り上げると、ブレイド14間、すなわち、ブレイド
バス30あるいはBE BusSys38Oのブレイド
バス30通信パスが何らかの理由で故障すると、この故
障はBMonitor66Bによって検出され、通常、
プロセッサ36Aで動作するBE BusSys38O
制御機構が、ブレイドバス30パスを介して試みられた
通信が受領確認されていないと通知する。
【0070】ブレイドバス30通信パスの故障の際に
は、BMonitor66Bは、ブレイド14A及び1
4B間の利用可能な通信ルーティングパスに関する情報
を保存しているブレイドルーティングテーブル(BR
T)48Bを読み取る。そこに保存されたパス情報は、
例えば、ブレイドバス30を介する通信のルーティング
情報を含み、さらに、ブレイド14A及び14B間の利
用可能なネットワーク34パスのルーティング情報も含
む。BRT48BはCFail66に関連して保存され
るが、図3に示すように、本実施例のブレイド14にお
いては、BRT48Bはネットワーク48と関連して存
在する。そのため、ネットワーク34に関連するルーテ
ィングパス情報はすぐに利用されることができ、CRT
48Aの構築などのネットワーク48の正常動作時には
ネットワーク48にアクセスすることができる。BMO
NITOR66Bは、故障したブレイドバス30のパス
を除いて、ブレイド14間の利用可能な通信パスについ
てのルーティング情報を読み取り、ブレイドバス30パ
スの後継あるいは代理で使用される、ブレイド14のネ
ットワーク48間の利用可能なネットワーク34パスを
選択する。この関係で、BMONITOR66Bが、P
M66MがCRT48AのCRE48Eを修正するのと
同様かつ同時に、全てのIPパススルー操作の間にBR
T48Bの内容を修正して、ブレイド14間の機能して
いないネットワーク34パスを示すことに注意しなけれ
ばならない。この結果、ブレイドバス30パスの後継パ
スは、機能しているネットワーク34パスのみから選択
される。
【0071】BMonitor66Bは、その後、FE
P44F及びBEP44Bで動作するBE BusSy
s38O及びメッセージ42制御通信機構に、ブレイド
バス30パスにルーティングされる全ての通信を、BE
P44Bにより直接、あるいはFEP44Fによりメッ
セージ42を介して間接的に、ネットワーク48及びP
M66Mにより選択されたネットワーク34パスへリダ
イレクトするという通知を出す。
【0072】従って、どんな理由によりブレイド14間
のブレイドバス30通信パスに故障が起きても、CFa
il66のCMonitor66C及びBMonito
r66B機構は、ネットワーク34を介してブレイド1
4からブレイド14への通信のために代わりの通信パス
を見つけて使用できる。この関係で、CFail66機
構が、故障の場所あるいは原因を識別しようとしないの
で、故障のソースを識別して隔離するのに通常必要とな
る複雑な機構及び手続と、衝突する可能性のある故障管
理操作を調整し、同期させ、管理するのに通常必要とな
る複雑な機構及び操作とを必要としないことに再び注目
すべきである。
【0073】また、HANファイルサーバ10の通信故
障処理機構は、互いに別個に独立して動作するが、これ
によりまた、衝突する可能性のある故障管理操作を調節
し、同期させ、管理するための複雑な機構及び操作を利
用する必要がなく、複数の故障ソースあるいは複数の故
障を協調して処理できることに注目しなければならな
い。例えば、CFail66ネットワーク34故障機
構、すなわち、CMonitor66C関連機構によっ
て実行される操作は、CFail66ブレイドバス30
故障機構、すなわち、BMonitor66B関連機構
によって実行される操作とは別に実行されるが、クライ
アント34C及びブレイド14間、そしてブレイド14
間の通信を維持するために機能的に協調して実行され
る。ブレイド14間の、そして各クライアント34Cへ
のネットワーク34パスが、ブレイドバス30パスが故
障を起こした時に、1つでも機能していれば、通信は、
故障のソースあるいは故障の順番に関わらず維持され
る。
【0074】例を示すと、第一ブレイド14と関連する
ネットワーク34に故障が起きると、上述のように、第
二ブレイド14を介しての、そしてCFail66ネッ
トワーク34故障機構によりブレイド14間のブレイド
バス30リンクを介しての第一ブレイド14への、クラ
イアント34C通信のリダイレクションが生じる。次に
ブレイドバス30リンクに故障が起こると、CFail
66ブレイドバス30故障機構により、第二及び第一ブ
レイド14間で機能している代わりのネットワーク34
パスを介して、第二ブレイド14及びブレイドバス30
リンクを介してリダイレクトされたクライアント34通
信が再び、第二ブレイド14から第一ブレイド14へリ
ダイレクトされる。
【0075】さらなる例では、第一の故障がブレイドバ
ス30リンクで起きた場合、ブレイド14間の通信は、
上述のように、CFail66ブレイドバス30故障機
構により、ネットワーク34を介してブレイド14間で
機能している代わりのパスへリダイレクトされる。この
代わりのネットワーク34パスにおいて次なる故障が起
きた場合、この故障はネットワーク34関連の故障とし
て検出され、ブレイド14のCFail66ネットワー
ク34故障機構は、まず、ブレイドバス30リンクを介
してブレイド14間の先にリダイレクトされた通信をル
ーティングしようとする。しかしながら、CFail6
6ブレイドバス30故障機構は、ブレイドバス30リン
クが機能していないために、ブレイド14間の利用可能
で機能している代わりのネットワーク34パスを介して
先にリダイレクトされた通信をリダイレクトする。
【0076】従って、ネットワーク34及びブレイドバ
ス30の故障がどんな組み合わせあるいは順番で起こっ
ても、クライアント34Cとブレイド14との間、そし
てブレイド14間の通信を維持するために、CFail
66ネットワーク34及びブレイドバス30故障機構が
さまざまな組み合わせ及び順番で別個の独立した操作を
実行することが明らかであろう。また、ブレイドバス3
0パスに故障が起きた際に、ブレイド14間、そして各
クライアントへのネットワーク34パスがたった1つで
も機能している限り、故障のソースあるいは故障の順番
に関係なく通信は維持される。
【0077】最後に、この関係で、ブレイド14のFE
P44F及びBEP44B間のメッセージ42リンクに
故障が起きる可能性があることに注意しなければならな
い。多くの場合、これはブレイド14が完全に故障した
結果であるが、幾つかの場合において、故障はメッセー
ジ42機構に限定されることができる。メッセージ42
機構に限定された故障の場合、故障が起きたブレイド1
4のFEP44Fは、ブレイド14のBEP44Bと、
あるいは反対側のブレイド14と通信することができな
くなり、BEP44BはブレイドのFEP44Bと通信
できなくなるが、ブレイド14間のブレイドバス30リ
ンクを介して反対側のブレイド14のBEP44B及び
FEP44Fと通信できる。
【0078】従って、本発明のさらなる実装において
は、メッセージ42に故障が起きたブレイド14のBM
onitor66Bは、FEP44Fに関連してブレイ
ドバス30の明らかな故障を検出するが、BEP44B
に関連するブレイドバス30の故障を検出しない。従っ
て、このブレイド14のBMonitor66B及びC
Monitor66C機構は、PM66Mによって選択
されたネットワーク34パスを介して、FEP44Pか
ら全ての通信をBEP44Bへ、あるいは反対側のブレ
イド14へリダイレクトし、BEP44BからFEP4
4Fへの全ての通信をブレイドバス30、及びFEP4
4Fのために選択されたネットワーク34パスを介する
ルートへリダイレクトするが、ブレイドバス30を介す
るBEP44B通信をリダイレクトしない。
【0079】故障が起きなかったブレイド14において
は、BMonitor66B機構は、メッセージ42が
故障したブレイド14のFEP44Pへの通信について
明らかなブレイドバス30パス故障を検出するが、その
ブレイド14のBEP44Bへの通信についてのブレイ
ドバス30パス故障を検出しない。従って、このブレイ
ド14のBMonitor66B及びCMonitor
66C機構は、反対側のブレイド14のFEP44Fあ
ての全ての通信を、上述のように、代わりのネットワー
ク34パスを介してリダイレクトするが、反対側のブレ
イド14のBEP44Bあての通信をリダイレクトしな
い。
【0080】c.記憶サブシステム12/ブレイド14
故障処理機構 上述のように、HANファイルサーバ10の故障処理機
構の最下層レベルには、記憶サブシステム12の通信パ
ス構造及びRAID46によって提供されるRAIDF
46F機構とが含まれる。RAIDファイル機能は、当
業者にはよく知られているため、ここでは本発明を理解
するのに必要な場合のみ説明し、以下には、記憶サブシ
ステム12内部の、そしてサブシステム12及びブレイ
ド14間の通信パスに焦点を当てて説明する。
【0081】図1に示すように、そして上述したよう
に、記憶サブシステム12には複数のハードディスクド
ライブ18から構成されるドライブバンク16が含まれ
る。各ハードディスクドライブ18は、デュアル記憶ル
ープモジュール20A及び20Bを介して双方向に読み
取り/書き込みアクセスされる。記憶ループモジュール
20A及び20Bそれぞれには、MUXBANK22A
及び22Bが含まれ、各MUXBANK22には、複数
のMUX24とループコントローラ26A及び26Bと
が含まれる。各ループコントローラモジュール20のM
UX24とループコントローラ26とは、MUXループ
バス28A及び28Bを介して双方向に相互接続されて
いる。図からわかるように、MUXBANK22A及び
22Bそれぞれには、対応するディスクドライブ18の
1つに対応して接続されるMUX24Dが含まれる。そ
のため、ドライブバンク16の各ディスクドライブ18
は、MUXBANK22A及び22Bそれぞれの対応す
るMUX24Dに接続されて双方向に読み取り/書き込
みされる。MUXBANK22A及び22Bそれぞれに
は、さらに、MUX24CA及びMUX24CBを介し
て対応するコンピュートブレイド14A及び14Bの一
方が双方向に接続されており、コンピュートブレイド1
4A及び14Bは、ブレイドバス30を介して双方向に
接続されている。
【0082】従って、各ディスクドライブ18は、MU
Xバンク22AのMUX24DとMUXバンク22Bの
MUX24Dとに双方向に接続されている。MUXバン
ク22AのMUX24は、ループバス26Aを介して相
互接続されている一方、MUXバンク22BのMUX2
4は、ループバス26Bを介して接続されている。その
ため、各ディスクドライブ18は、ループバス26A及
びループバス26B両方を介してアクセス可能である。
さらに、プロセッサブレイド14Aは、ループバス26
Aと双方向に通信する一方、プロセッサブレイド14B
は、ループバス26Bと双方向に通信し、プロセッサブ
レイド14A及び14Bは、ブレイドループ(ブレイ
ド)バス30を介して直接相互接続されて通信する。
【0083】従って、記憶サブシステム12内部の下層
レベルの通信故障処理機構が、基本的に、各ディスクド
ライブ18とプロセッサブレイド14A及び14Bとの
間に複数の予備のアクセスパスを提供する受動的なパス
構造であることがわかるだろう。このため、プロセッサ
ブレイド14A及び14Bは、記憶サブシステム12内
部の1つ以上の通信パスで故障が起きた際には、対応す
るループバス26を介して直接、あるいは他方のプロセ
ッサブレイド14を介して間接的に、ディスクドライブ
18のどれとでも双方向通信が可能であり、互いに直接
通信できる。1つ以上のディスクドライブ18内で起き
る故障のための故障処理機構は、上述のRAIDF48
F機構から構成される。
【0084】また、記憶サブシステム12の受動パス構
造が、通信機構と、ブレイド14のCFail66ネッ
トワーク34及びブレイドバス30故障機構とは別々に
独立して動作するものの、クライアント34Cと、クラ
イアント34のファイルシステムが存在するディスクド
ライブ18との間の通信を保証するために、ブレイド1
4の機構と協調して動作することがわかるだろう。ま
た、これらの機構は、複雑な故障検出、識別、隔離機構
の利用と、複雑な故障管理調整、同期、管理機構の利用
とを廃して、高レベルのファイルシステム可用性を提供
する。
【0085】5.HANファイルサーバ10のファイル
トランザクション故障処理機構とHANファイルサーバ
10の通信故障処理機構の相互運用(図1、2、3) 本実施例のHANファイルサーバ10が、多数の高可用
性機構、すなわち、HANファイルサーバ10の1つ以
上のコンポーネントに故障が起きた際にも、HANファ
イルサーバ10がクライアントへのファイルサーバサー
ビスを中断せずに提供し続けることを可能にする機構を
備えることを上述した。これらの機構の多くは、基本R
AIDF46F機能のように、従来技術の代表的なもの
であり、当業者にとっては周知のものである。そのた
め、本発明に関係しない限り詳細な説明を省く。
【0086】しかしながら、一般的には、HANファイ
ルサーバ10のコンポーネントに故障が起きた際には、
HANファイルサーバ10の生き残ったコンポーネント
が、高可用性機構の操作により、故障したコンポーネン
トによって実行されていたタスク及びサービスを引き継
ぎ、これらのサービスの提供を続ける。このような高可
用性機構の操作には数多くの機能があり、そのような機
構がこれらの機能を達成するためには幾つかの操作を実
行する必要があることが当業者には明らかであろう。例
えば、高可用性機構は、コンポーネントの故障を識別
し、故障したコンポーネントから生き残ったコンポーネ
ントへソースあるいは機能の引き渡しあるいは移転を行
い、故障したコンポーネントによって提供されていたサ
ービス及び機能が外からわかるように中断されないよう
に生き残ったコンポーネントに引き継がれたリソースの
状態を回復し、故障したコンポーネントの置換あるいは
訂正を行ない、修復後には故障していたコンポーネント
にリソースを引き渡すあるいは移動する必要がある。
【0087】通信に関して上述したように、HANファ
イルサーバ10のファイルトランザクション及び通信機
構は、独立して動作する。そして以下にさらに詳細に説
明されるように、本発明のHANファイルサーバ10の
高可用性機構は、HANファイルサーバ10の多数の異
なる機能レベルで動作する。通常、異なるグループ、あ
るいは異なるタイプの操作及び機能は、HANファイル
サーバ10の各機能レベルで実行される。従って、高可
用性機構はそれぞれ異なり、各レベルで、そしてシステ
ムとしてのHANファイルサーバ10のために、独立し
ながらも協調して動作して高レベルのサーバ可用性を提
供する。以下にさらに詳細にこれらの機構の構造及び操
作と、これらの機構の相互運用とを説明する。
【0088】例えば、HANファイルサーバ10におけ
る最上層レベルの機能は、クライアント通信タスク及び
サービスを実行する通信レベル、すなわち、クライアン
トと、ネットワーク34を介してHANファイルサーバ
10によってサポートされるクライアントファイルシス
テムとの間の通信である。この通信レベルの中心機能
は、ネットワーク48の機構とHANファイルサーバ1
0の関連コンポーネントとによって提供される。通信レ
ベルでの高可用性機構には、CFail66のような故
障検出機構が含まれ、通信レベルでの故障を処理する多
数の異なる機構を提供する。例えば、ブレイド14A及
び14Bのうちの一方で1つ以上のポート34Pを介す
る通信に故障が起きた場合、ピアブレイド14のCFa
il66は故障を検出し、ネットワーク48と連携し
て、クライアントと故障したポート34Pとの間の全て
の通信を、ピアブレイド14の機能している対応ポート
34Pにリダイレクトする。ピアブレイド14では、そ
の内部のネットワーク48が、ブレイドバス30を介し
て、故障したポート34Pを有するブレイド14のJF
ile50に通信をルーティングする。その結果、故障
したポート34Pは、ピアブレイド14のポート34P
と、ブレイドバス30及びメッセージ42を介するFE
P44F−BEP44P通信パスからなる相互ブレイド
14通信パスとを介してバイパスされる。この関係で、
ブレイド14の高レベルファイルトランザクション機構
について以下の記述により説明されるように、ネットワ
ーク48の高可用性機構は、高レベルファイルトランザ
クション機構の高可用性機構を相互運用して、実際の、
そして例えば、ブレイド14JFile50のあるいは
ブレイド14全体の故障から生じる明らかなネットワー
ク34関連通信故障に対処する。
【0089】ブレイド14における次のレベルの機能
は、高レベルファイルトランザクション機能及びサービ
スから構成される。そこでは、高レベルトランザクショ
ン機能の中心機能及び操作は、JFile50及び関連
する高レベルファイル機構により提供される。上述のよ
うに、HANファイルサーバ10の高レベルファイル機
能レベルでの高可用性機構には、CMirror54M
を備えたWCache50CとLMirror54Lを
備えたログ50Lとが含まれ、これらの機構は、ブレイ
ド14内部の高レベルファイル機構の故障を処理する。
上述のように、WCache50Cは、従来方法で動作
してデータトランザクションをキャッシュし、CMir
ror54Mは、WCache50Cに影響するFEP
44Fに故障が起きた際、WCache50Cの内容を
回復できる。ログ50Lは、ブレイド14とともに動作
してJFile50により実行されるファイルトランザ
クションの履歴を保存する。これにより、ログ50L
は、例えば、トランザクションが記憶サブシステム12
の固定記憶装置に完全にコミットされる前にファイルト
ランザクションの損失を生じる、JFile50あるい
は記憶サブシステム12の故障の際、失われたファイル
トランザクションを再実行及び回復させることができ
る。
【0090】しかしながら、LMirror54L機構
は、LMirror54Lがミラーリングするログ50
Lが存在するブレイド14内部で動作せず、代わりに、
ブレイド14を横断して動作して、各LMirror5
4Lが、反対側のピアブレイド14のログ50Lの内容
をミラーリングして保存できるようにしている。その結
果、LMirror54L機構は、反対側のピアブレイ
ド14に壊滅的な故障が起きた場合にも反対側のピアブ
レイド14のログ50Lの内容を保存し、故障していた
ブレイド14がサービスを再開した際に、失われたファ
イルトランザクションを故障していたブレイド14で再
実行及び回復することができる。
【0091】さらに、生き残ったブレイド14内部に故
障したブレイド14の失われた可能性のあるファイルト
ランザクションのレジデント履歴を備えることにより、
LMirror54L機構はまた、生き残ったブレイド
14に故障したブレイド14によってサポートされてい
たクライアントのサポートを引き継がせることができる
ことに注目すべきである。すなわち、ネットワーク48
機構について上述したように、生き残ったブレイド14
のネットワーク48及びJFile50は、故障したブ
レイド14のクライアントを生き残ったブレイド14に
リダイレクトすることにより、故障したブレイド14に
よって先にサポートされていたクライアントのサービス
を引き継ぐ。この処理では、上述のように、生き残った
ブレイド14のネットワーク48機構は、生き残ったブ
レイド14のJFile50に、引き継がれたIPアド
レスあてのデータトランザクションを向けることによ
り、故障したブレイド14のIPアドレスを引き継ぐ。
生き残ったブレイド14のJFile50は、生き残っ
たブレイド14がローカルファイルシステムを備えると
いう仮定の下に、新しいクライアントとして故障したブ
レイド14のクライアントを引き継ぎ、その後は、引き
継がれたクライアントを自分のクライアントとしてサー
ビスを行う。そのサービスには、引き継がれたデータト
ランザクションを処理することと並行して全ての引き継
がれたデータトランザクションを記録することが含まれ
る。生き残ったブレイド14は、ローカルリカバリロ
グ、すなわち、生き残ったブレイド14に存在するLM
irror54Lを使って引き継いだIPアドレスのデ
ータトランザクションを記録するとともに、レジデント
LMirror54Lに保存されたファイルトランザク
ション履歴を使用して故障したブレイド14の失われた
ファイルトランザクションを再実行及び再構成し、故障
したブレイド14のクライアントのファイルシステムを
所望の状態に回復することができる。この関係で、生き
残ったブレイド14のJFile50は、故障したブレ
イド14に向けられていたファイルトランザクションの
初期アドレスを基にしてネットワーク48からの通知に
より、あるいはレジデントLMirror54Lの内容
を調べて保存されたファイルトランザクションと相互に
関連する「新しい」クライアントファイルトランザクシ
ョンがあるかどうか判断することにより、「新しい」ク
ライアントが故障したブレイド14から移転されたクラ
イアントであるかを判断できる。
【0092】最後に、HANファイルサーバ10の最下
層レベルのファイルトランザクション機能は、RAID
46によってサポートされるRAID46ファイルトラ
ンザクション機能及びサービスから構成される。RAI
DF46F機能は、それ自身、上層レベルの高可用性機
構から独立して動作することがわかるだろう。しかしな
がら、通信レベル及び高レベルファイルトランザクショ
ン機構は、例えば、デュアルブレイド14A及び14
B、ループバス26A及び26B、MUXループバス2
8A及び28Bを介する代わりの通信パスの提供と連携
してRAIDF46F機能と協調的に動作し、ディスク
ドライブ18へのアクセス可能性を高めていることがわ
かるだろう。
【0093】従って、HANファイルサーバ10に設け
られた通信レベル及び高レベルファイルトランザクショ
ン機構と代わりの通信パスとは、RAIDF46F機能
と協力してネットワーククライアントへのファイルシス
テム共有資源、すなわち、記憶空間の可用性を高めるこ
とが上記より理解されることができる。また、HANフ
ァイルサーバ10に設けられた通信レベル及び高レベル
ファイルトランザクション機構と代わりの通信パスと
が、複雑な故障検出、識別、隔離機構の利用、及び複雑
な故障管理調整、同期、管理機構の利用を廃して、上記
の効果を達成することが理解されるだろう。
【0094】よって、要約すると、数多くの異なる機構
が故障したコンポーネントを識別するために用いられ、
その機構は、コンポーネントと、コンポーネントが存在
するHANファイルサーバ10のサブシステムと、コン
ポーネントの故障によるHANファイルサーバ10の操
作への影響とに依存して特定されることが上記から理解
される。例えば、RAIDM46M機能が、ファンや電
源装置のようなコンポーネント、及びブレイド14A及
び14Bの類似のコンポーネントの故障をモニタして検
出する一方、RAIDF46F機能は、ディスクドライ
ブ18のファイルシステム操作のエラー及び故障をモニ
タ、検出、修正あるいは補正する。RAID46機構に
よってモニタされるコンポーネントの多くは故障が起き
ても、システムとしてのHANファイルサーバ10レベ
ルでのデータの可用性を危うくすることはないが、その
コンポーネントを修復するための処置を取ることができ
るように管理インターフェースを通じて検出及び連絡さ
れなければならないことがわかるだろう。さらなる例で
は、HANファイルサーバ10のネットワーク管理機能
は、ネットワーク34の状態と、HANファイルサーバ
10のネットワーク34通信関連コンポーネントとをモ
ニタし、それぞれの故障に適した方法で、HANファイ
ルサーバ10とHANファイルサーバ10のクライアン
トとの間での通信の故障に対応する。ネットワークをモ
ニタするために、ネットワーク管理機能は、HANファ
イルサーバ10自身のネットワーク通信をテストするた
めのセルフチェックを生成し、外部ネットワークと通信
しているかどうか判断する。例えば、このセルフチェッ
クがネットワークパスのどれかで失敗する場合、故障し
たネットワークパスによってサポートされていた通信
は、上述のように別のネットワークパスに引き継がれ
る。さらに別の例においては、RAID46機能がブレ
イド14の故障を検出すると、この故障が上述のように
ファイルシステム機能に連絡され、その結果、フェイル
オーバー処理が適切なファイルシステムレベルで実行さ
れることができる。
【0095】故障処理過程での次のステップ、すなわ
ち、生き残ったリソースへの故障したリソースの移転
は、通常、既知の生き残った場所にリソースを再割り当
てすることにより実行される。ネットワーク機能の故障
の場合、移転は、上述のように、故障したデバイスの機
能を引き継ぐことのできる、先に識別されたネットワー
クアダプタに対して行われる。故障したのがブレイド1
4である場合は、ピアブレイド14が故障したブレイド
14からファイルシステムを引き継ぐ。
【0096】故障したコンポーネントから生き残ったコ
ンポーネントへのリソースの移転には、そのリソースが
生き残ったコンポーネント上で利用可能にされる前にリ
ソースの動作状態を変更あるいは修正する必要がある。
例えば、ネットワークコンポーネントの故障の場合、新
しいネットワークアドレスが既存のアダプタに付加され
なければならず、ブレイド14の故障のようにファイル
システムに影響を与える故障の場合には、トランザクシ
ョンログを再実行して故障で失われたデータを置換す
る。
【0097】先に記述したように、HANファイルサー
バ10のコンポーネントの多くは、HANファイルサー
バ10から取り外して、動作しているコンポーネントに
置換することができる、ホットスワップ可能なコンポー
ネントである。一旦コンポーネントを置換すると、生き
残ったコンポーネントにより引き継がれたリソースは初
期のコンポーネントに、つまりは、初期のコンポーネン
トが置換されたものに戻されなくてはならない。従っ
て、上述のような適切なサブシステムの回復機構では、
生き残ったコンポーネントに移転されたリソースは置換
されたコンポーネントに移行される。この処置は、通
常、システムアドミニストレータにより手動で、そして
サービスの中断が受け入れ可能及び処理可能な時に行な
われる。
【0098】本発明が、ここに例として使われたファイ
ルサーバと同様に、例えば通信サーバ、さまざまなタイ
プのデータプロセッササーバ、プリンタサーバなどの、
クライアントとの信頼できる通信と、データあるいは処
理トランザクションの保存及び回復とを必要とするあら
ゆる形式の共有リソースに実装可能であることが当業者
には明らかであろう。また、本発明が、例えば、異なる
RAID技術、異なる保存技術、異なる通信技術、そし
て画像処理などの他の情報処理手法及び技術を使用する
ファイルサーバの実装にも、同様に適応できるとともに
実装可能であることが明らかであろう。異なる形式の共
有リソース、異なるリソースマネージャ、異なるシステ
ム構成及びアーキテクチャ、異なるプロトコルにも本発
明が適応できることは当業者には明らかであろう。
【0099】従って、本発明が、実施例の装置及び方法
について特に説明され記述されてはいても、ここに説明
され、付属の請求項によって規定される本発明の範囲を
超えない限り、形式、詳細、実装におけるさまざまな変
更、変形、修正を本発明に加えることができることが当
業者には明らかであろう。よって、本発明のあらゆる変
形及び修正を本発明の範囲内に収まるようにカバーする
ことが付属の請求項の目的である。
【図面の簡単な説明】
【図1】 本発明が実装されることのできるネットワー
クファイルサーバのブロック図である。
【図2】 図1のファイルサーバのドメインにおけるプ
ロセッサのコアのブロック図である。
【図3】 図1のファイルサーバのドメインをさらに詳
細に示した概略図である。
【符号の説明】
10 HANファイルサーバ 12 記憶サブシステム 14 制御/プロセッササブシステム 14A、14B プロセッサブレイド 16 ドライブバンク 18 ディスクドライブ 20A、20B 記憶ループモジュール 22A、22B マルチプレクサバンク 26A、26B ループコントローラ 28A、28B MUXループバス 30 ブレイドバス 32A、32B 外部ディスクアレイ 34C クライアント 34M 管理ネットワーク 34N クライアントネットワーク 34P ネットワークポート 34R ルータ 36A、36B 処理ユニット 38C メモリコントローラハブ 38D メモリ 38E 入出力コントローラハブ 38F フロントサイドバス 38G ハブリンクバス 38H P−Pブリッジ 38I ファームウェアメモリ 38J ハードウェアモニタ 38K ブートドライブ 38L スーパーI/Oデバイス 38M VGAデバイス 38N ネットワークデバイス 38O バックエンドバスサブシステム 38P フロントエンドバスサブシステム 38Q ファイバチャネルコントローラ 38R シリアライザ/デシリアライザデバイ
ス 38T ネットワークデバイス 40 オペレーティングシステム 42 メッセージパッシング機構 44B バックエンドプロセッサ 44F フロントエンドプロセッサ 46 RAID機構 46M RAIDモニタ機構 46F RAIDファイル機構 48 ネットワーク機構 48A クライアントルーティングテーブル 48B ブレイドルーティングテーブル 48E クライアントルーティングエントリ 48P パススルーフィールド 50 ジャーナルファイルシステム 50C 書き込みキャッシュ 50F ファイルシステム機構 50G ログジェネレータ 50L トランザクションログ 50M ログメモリ 54L ログミラー機構 54M キャッシュミラー機構 56 ネットワークスタックオペレーティン
グシステム 58 TCP/IPプロトコルスタック 60 ネットワークデバイスドライバ 62 CIFS 64 NFS 66 通信フェイルオーバー機構 66B ブレイド通信モニタ 66C 通信モニタリング処理/プロトコル機
構 66G ARP応答ジェネレータ 66M パスマネージャ 66P ネットワーク調整パケット 66R ARP応答 66S SLIPインターフェイス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェームズ グレゴリー ジョーンズ アメリカ合衆国 ノースカロライナ州 27615 ローリー モントーク ドライブ 8708 Fターム(参考) 5B082 DD00 DE02 5B083 AA08 BB01 CD11 EE11 5B089 GA12 JB17 KA12 KB02 KC15 KG05 KG08 ME02 ME04

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 複数のクライアント/サーバ通信パスを
    含むネットワークを介してシステムリソースと通信する
    クライアントにシステムリソースサービスを提供するシ
    ステムリソースが、 システムリソース操作を実行するためのシステムリソー
    スサブシステムと、 制御/処理サブシステムとを備え、制御/処理サブシス
    テムが 多数のピアブレイドプロセッサを備え、各ブレイドプロ
    セッサが各クライアント/サーバネットワーク通信パス
    に接続されたポートを備えるとともに各クライアントが
    各ブレイドプロセッサの対応するポートに接続され、 各ブレイドプロセッサが、 各クライアントの通信ルートを決定する通信ルーティン
    グテーブルを備えた、ブレイドプロセッサとクライアン
    トとの間の通信操作をサポートするネットワーク機構
    と、 ブレイドプロセッサ及びシステムリソースサブシステム
    間の通信とブレイドプロセッサ間の相互プロセッサ通信
    リンクとを提供する相互プロセッサ通信プロセッサと、 通信モニタリング機構とを備え、通信モニタリング機構
    が、 ブレイドプロセッサの対応するポートに接続するネット
    ワーク通信パスを介して別のブレイドプロセッサとビー
    コン伝送をやりとりするためのネットワーク故障検出器
    と、 他のブレイドプロセッサの故障したポートからのビーコ
    ン伝送を受領できなかった際、ネットワーク故障検出器
    に応えて、そのブレイドプロセッサの対応するポート
    に、故障したポートへのクライアント通信をリダイレク
    トするクライアントへのリダイレクションメッセージを
    送信するための応答ジェネレータと、 応答ジェネレータの操作に応えて、リダイレクションメ
    ッセージに対応するように通信ルーティングテーブルを
    修正し、相互プロセッサ通信リンクを介して他のブレイ
    ドプロセッサとのクライアント通信をルーティングする
    ためのパスマネージャとを備えるシステムリソース。
  2. 【請求項2】 各ブレイドプロセッサが、さらに、 別のブレイドプロセッサとの相互プロセッサ通信リンク
    の故障を検出し、 通信ルーティングテーブルを読み取ってそのブレイドプ
    ロセッサと他のブレイドプロセッサとの対応するポート
    間の機能するネットワーク通信パスを選択し、 通信ルーティングテーブルを修正して選択された機能す
    るネットワーク通信パスを介した相互プロセッサ通信リ
    ンクを介して相互プロセッサ通信をリダイレクトするた
    めの、 相互ブレイド通信モニタを備えることを特徴とする請求
    項1に記載のシステムリソース。
  3. 【請求項3】 複数のクライアント/サーバ通信パスを
    含むネットワークを介してシステムリソース及びシステ
    ムリソースと通信するクライアント間で高可用性を備え
    た通信を提供する、故障に耐性がある共有システムに使
    用される通信パススルー機構であって、通信パススルー
    機構が、 システムリソース操作を実行するためのシステムリソー
    スサブシステムと、 多数のピアブレイドプロセッサを備えた制御/処理サブ
    システムとを備え、各ブレイドプロセッサが各クライア
    ント/サーバネットワーク通信パスに接続されたポート
    を備えるとともに各クライアントが各ブレイドプロセッ
    サの対応するポートに接続され、 各ブレイドプロセッサが、 各クライアントの通信ルートを決定する通信ルーティン
    グテーブルを備えた、ブレイドプロセッサとクライアン
    トとの間の通信操作をサポートするネットワーク機構
    と、 ブレイドプロセッサ及びシステムリソースサブシステム
    間の通信とブレイドプロセッサ間の相互プロセッサ通信
    リンクとを提供する相互プロセッサ通信プロセッサと、 通信モニタリング機構とを備え、通信モニタリング機構
    が、 ブレイドプロセッサの対応するポートに接続するネット
    ワーク通信パスを介してブレイドプロセッサと別のブレ
    イドプロセッサとの間でビーコン伝送をやりとりするた
    めのネットワーク故障検出器と、 他のブレイドプロセッサの故障したポートからのビーコ
    ン伝送を受領できなかった際、ネットワーク故障検出器
    に応えて、そのブレイドプロセッサの対応するポート
    に、故障したポートへのクライアント通信をリダイレク
    トするクライアントへのリダイレクションメッセージを
    送信するための応答ジェネレータと、 応答ジェネレータの操作に応えて、リダイレクションメ
    ッセージに対応するように通信ルーティングテーブルを
    修正し、相互プロセッサ通信リンクを介して他のブレイ
    ドプロセッサとのクライアント通信をルーティングする
    ためのパスマネージャとを備えることを特徴とする通信
    パススルー機構。
  4. 【請求項4】 各ブレイドプロセッサが、さらにブレイ
    ドプロセッサと別のブレイドプロセッサとの間の相互プ
    ロセッサ通信リンクの故障を検出し、 通信ルーティングテーブルを読み取ってそのブレイドプ
    ロセッサと他のブレイドプロセッサとの対応するポート
    間の機能するネットワーク通信パスを選択し、 通信ルーティングテーブルを修正して選択された機能す
    るネットワーク通信パスを介して相互プロセッサ通信を
    リダイレクトするための、 相互ブレイド通信モニタを備えることを特徴とする請求
    項3に記載のシステムリソース。
  5. 【請求項5】複数のクライアント/サーバ通信パスを含
    むネットワークを介してファイルサーバ及びファイルサ
    ーバのクライアント間で高可用性を備えた通信を提供す
    る通信パススルー機構を備えた、故障に耐性があるネッ
    トワークサーバであって、ネットワークサーバが、 クライアントファイルシステム共有資源を保存するため
    の記憶サブシステムと、 多数のピアブレイドプロセッサを備えた制御/処理サブ
    システムとを備え、各ブレイドプロセッサが各クライア
    ント/サーバネットワーク通信パスに接続されたポート
    を備えるとともに各クライアントが各ブレイドプロセッ
    サの対応するポートに接続され、 各ブレイドプロセッサが、 各クライアントの通信ルートを決定する通信ルーティン
    グテーブルを備えた、ブレイドプロセッサとクライアン
    トとの間の通信操作をサポートするネットワーク機構
    と、 ブレイドプロセッサ及び記憶サブシステム間の通信とブ
    レイドプロセッサ間の相互プロセッサ通信リンクとを提
    供する相互プロセッサ通信プロセッサと、 通信モニタリング機構とを備え、通信モニタリング機構
    が、 ブレイドプロセッサの対応するポートに接続するネット
    ワーク通信パスを介してブレイドプロセッサと別のブレ
    イドプロセッサとの間でビーコン伝送をやりとりするた
    めのネットワーク故障検出器と、 他のブレイドプロセッサの故障したポートからのビーコ
    ン伝送を受領できなかった際、ネットワーク故障検出器
    に応えて、そのブレイドプロセッサの対応するポート
    に、故障したポートへのクライアント通信をリダイレク
    トするクライアントへのリダイレクションメッセージを
    送信するための応答ジェネレータと、 応答ジェネレータの操作に応えて、リダイレクションメ
    ッセージに対応するように通信ルーティングテーブルを
    修正し、相互プロセッサ通信リンクを介して他のブレイ
    ドプロセッサとのクライアント通信をルーティングする
    ためのパスマネージャとを備えることを特徴とするネッ
    トワークファイルサーバ。
  6. 【請求項6】 各ブレイドプロセッサが、さらに、 ブレイドプロセッサと別のブレイドプロセッサとの間の
    相互プロセッサ通信リンクの故障を検出し、 通信ルーティングテーブルを読み取ってそれらのブレイ
    ドプロセッサのポート間の機能するネットワーク通信パ
    スを選択し、 通信ルーティングテーブルを修正して選択された機能す
    るネットワーク通信パスを介して相互プロセッサ通信を
    リダイレクトするための、 相互ブレイド通信モニタを備えることを特徴とする請求
    項5のファイルサーバ。
  7. 【請求項7】複数のクライアント/サーバ通信パスを含
    むネットワークを介してシステムリソースと通信するク
    ライアントにシステムリソースサービスを提供するリソ
    ースシステムにおいて、システムリソースとシステムリ
    ソースのクライアントとの間で高可用性を備えた通信を
    提供する方法であって、システムリソースが、システム
    リソース操作を実行するためのシステムリソースサブシ
    ステムと多数のピアブレイドプロセッサを備えた制御/
    処理サブシステムとを備え、各ブレイドプロセッサが各
    クライアント/サーバネットワーク通信パスに接続され
    たポートを備えるとともに各クライアントが各ブレイド
    プロセッサの対応するポートに接続され、各ブレイドプ
    ロセッサが、ブレイドプロセッサとクライアントとの間
    の通信操作をサポートするネットワーク機構と、ブレイ
    ドプロセッサとシステムリソースサブシステムとの間の
    通信を提供する相互プロセッサ通信プロセッサとを備
    え、方法が、 ブレイドプロセッサにおいて、 ブレイドプロセッサの対応するポートを接続するネット
    ワーク通信パスを介して他のブレイドプロセッサとビー
    コン伝送をやりとりすることにより別のブレイドプロセ
    ッサの通信操作をモニタリングするステップと、 他のブレイドプロセッサの故障したポートからのビーコ
    ン伝送を受領できなかった際、そのブレイドプロセッサ
    の対応するポートに、故障したポートへのクライアント
    通信をリダイレクトするクライアントへのリダイレクシ
    ョンメッセージを送信するステップと、 相互プロセッサ通信リンクを介して他のブレイドプロセ
    ッサとのリダイレクトされたクライアント通信をルーテ
    ィングするステップとを備えた方法。
  8. 【請求項8】 システムリソースとシステムリソースの
    クライアントとの間で高可用性を備えた通信を提供する
    請求項7の方法であって、方法が、さらに、 ブレイドプロセッサにおいて、 ブレイドプロセッサと別のブレイドプロセッサとの間の
    相互プロセッサ通信リンクの故障を検出するステップ
    と、 ブレイドプロセッサと他のブレイドプロセッサとの対応
    するポートの間の機能するネットワーク通信パスを選択
    するステップと、 選択された機能するネットワーク通信パスを介して相互
    プロセッサ通信をリダイレクトするステップとを備える
    ことを特徴とする方法。
JP2001155798A 2000-05-26 2001-05-24 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法 Pending JP2002041348A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/579428 2000-05-26
US09/579,428 US6865157B1 (en) 2000-05-26 2000-05-26 Fault tolerant shared system resource with communications passthrough providing high availability communications

Publications (1)

Publication Number Publication Date
JP2002041348A true JP2002041348A (ja) 2002-02-08

Family

ID=24316865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001155798A Pending JP2002041348A (ja) 2000-05-26 2001-05-24 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法

Country Status (4)

Country Link
US (1) US6865157B1 (ja)
JP (1) JP2002041348A (ja)
DE (1) DE10124514A1 (ja)
GB (1) GB2367921B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970972B2 (en) 2002-12-27 2005-11-29 Hitachi, Ltd. High-availability disk control device and failure processing method thereof and high-availability disk subsystem
JP2008521127A (ja) * 2004-11-17 2008-06-19 レイセオン カンパニー ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ

Families Citing this family (117)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654241B2 (en) * 2001-06-29 2003-11-25 Intel Corporation High availability small foot-print server
US20030033463A1 (en) * 2001-08-10 2003-02-13 Garnett Paul J. Computer system storage
US7403475B1 (en) * 2002-02-11 2008-07-22 Utstarcom, Inc. Method and apparatus for allocating data packet pathways
CA2434899C (en) * 2002-07-12 2011-02-22 Tundra Semiconductor Corporation Fault tolerance
US7154886B2 (en) * 2002-07-22 2006-12-26 Qlogic Corporation Method and system for primary blade selection in a multi-module fiber channel switch
US7230929B2 (en) * 2002-07-22 2007-06-12 Qlogic, Corporation Method and system for dynamically assigning domain identification in a multi-module fibre channel switch
US20040017779A1 (en) * 2002-07-25 2004-01-29 Moxa Technologies Co., Ltd. Remote equipment monitoring system with active warning function
US7334046B1 (en) 2002-08-05 2008-02-19 Qlogic, Corporation System and method for optimizing frame routing in a network
US7096383B2 (en) * 2002-08-29 2006-08-22 Cosine Communications, Inc. System and method for virtual router failover in a network routing system
US7397768B1 (en) 2002-09-11 2008-07-08 Qlogic, Corporation Zone management in a multi-module fibre channel switch
US7362717B1 (en) 2002-10-03 2008-04-22 Qlogic, Corporation Method and system for using distributed name servers in multi-module fibre channel switches
US7583591B2 (en) * 2002-12-08 2009-09-01 Intel Corporation Facilitating communications with clustered servers
US20040122973A1 (en) * 2002-12-19 2004-06-24 Advanced Micro Devices, Inc. System and method for programming hyper transport routing tables on multiprocessor systems
US8805981B2 (en) * 2003-03-25 2014-08-12 Advanced Micro Devices, Inc. Computing system fabric and routing configuration and description
US7739543B1 (en) * 2003-04-23 2010-06-15 Netapp, Inc. System and method for transport-level failover for loosely coupled iSCSI target devices
CA2524570A1 (en) * 2003-05-02 2004-11-18 Op-D-Op, Inc. Lightweight ventilated face shield frame
US7210069B2 (en) * 2003-05-13 2007-04-24 Lucent Technologies Inc. Failure recovery in a multiprocessor configuration
US8041915B1 (en) 2003-06-11 2011-10-18 Globalfoundries Inc. Faster memory access in non-unified memory access systems
US7620059B2 (en) * 2003-07-16 2009-11-17 Qlogic, Corporation Method and apparatus for accelerating receive-modify-send frames in a fibre channel network
US7463646B2 (en) * 2003-07-16 2008-12-09 Qlogic Corporation Method and system for fibre channel arbitrated loop acceleration
US7525910B2 (en) * 2003-07-16 2009-04-28 Qlogic, Corporation Method and system for non-disruptive data capture in networks
US7388843B2 (en) * 2003-07-16 2008-06-17 Qlogic, Corporation Method and apparatus for testing loop pathway integrity in a fibre channel arbitrated loop
US7471635B2 (en) * 2003-07-16 2008-12-30 Qlogic, Corporation Method and apparatus for test pattern generation
US7355966B2 (en) * 2003-07-16 2008-04-08 Qlogic, Corporation Method and system for minimizing disruption in common-access networks
US7453802B2 (en) * 2003-07-16 2008-11-18 Qlogic, Corporation Method and apparatus for detecting and removing orphaned primitives in a fibre channel network
US7466700B2 (en) * 2003-07-21 2008-12-16 Qlogic, Corporation LUN based hard zoning in fibre channel switches
US7894348B2 (en) * 2003-07-21 2011-02-22 Qlogic, Corporation Method and system for congestion control in a fibre channel switch
US7512067B2 (en) * 2003-07-21 2009-03-31 Qlogic, Corporation Method and system for congestion control based on optimum bandwidth allocation in a fibre channel switch
US7447224B2 (en) * 2003-07-21 2008-11-04 Qlogic, Corporation Method and system for routing fibre channel frames
US7420982B2 (en) * 2003-07-21 2008-09-02 Qlogic, Corporation Method and system for keeping a fibre channel arbitrated loop open during frame gaps
US7525983B2 (en) * 2003-07-21 2009-04-28 Qlogic, Corporation Method and system for selecting virtual lanes in fibre channel switches
US7522529B2 (en) * 2003-07-21 2009-04-21 Qlogic, Corporation Method and system for detecting congestion and over subscription in a fibre channel network
US7792115B2 (en) * 2003-07-21 2010-09-07 Qlogic, Corporation Method and system for routing and filtering network data packets in fibre channel systems
US7477655B2 (en) * 2003-07-21 2009-01-13 Qlogic, Corporation Method and system for power control of fibre channel switches
US7573909B2 (en) * 2003-07-21 2009-08-11 Qlogic, Corporation Method and system for programmable data dependant network routing
US7430175B2 (en) * 2003-07-21 2008-09-30 Qlogic, Corporation Method and system for managing traffic in fibre channel systems
US7522522B2 (en) * 2003-07-21 2009-04-21 Qlogic, Corporation Method and system for reducing latency and congestion in fibre channel switches
US7558281B2 (en) * 2003-07-21 2009-07-07 Qlogic, Corporation Method and system for configuring fibre channel ports
US7583597B2 (en) * 2003-07-21 2009-09-01 Qlogic Corporation Method and system for improving bandwidth and reducing idles in fibre channel switches
US7646767B2 (en) 2003-07-21 2010-01-12 Qlogic, Corporation Method and system for programmable data dependant network routing
US7406092B2 (en) * 2003-07-21 2008-07-29 Qlogic, Corporation Programmable pseudo virtual lanes for fibre channel systems
US7684401B2 (en) * 2003-07-21 2010-03-23 Qlogic, Corporation Method and system for using extended fabric features with fibre channel switch elements
KR100548274B1 (ko) * 2003-07-23 2006-02-02 엘지전자 주식회사 세탁기의 포량 검출방법
JP4437650B2 (ja) 2003-08-25 2010-03-24 株式会社日立製作所 ストレージシステム
US7352701B1 (en) 2003-09-19 2008-04-01 Qlogic, Corporation Buffer to buffer credit recovery for in-line fibre channel credit extension devices
JP4257783B2 (ja) * 2003-10-23 2009-04-22 株式会社日立製作所 論理分割可能な記憶装置及び記憶装置システム
US7564789B2 (en) * 2004-02-05 2009-07-21 Qlogic, Corporation Method and system for reducing deadlock in fibre channel fabrics using virtual lanes
US7480293B2 (en) * 2004-02-05 2009-01-20 Qlogic, Corporation Method and system for preventing deadlock in fibre channel fabrics using frame priorities
JP2005267008A (ja) 2004-03-17 2005-09-29 Hitachi Ltd ストレージ管理方法およびストレージ管理システム
US9178784B2 (en) 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
US8336040B2 (en) 2004-04-15 2012-12-18 Raytheon Company System and method for topology-aware job scheduling and backfilling in an HPC environment
US8335909B2 (en) 2004-04-15 2012-12-18 Raytheon Company Coupling processors to each other for high performance computing (HPC)
US7340167B2 (en) * 2004-04-23 2008-03-04 Qlogic, Corporation Fibre channel transparent switch for mixed switch fabrics
US7930377B2 (en) 2004-04-23 2011-04-19 Qlogic, Corporation Method and system for using boot servers in networks
US7254016B1 (en) 2004-05-25 2007-08-07 Emc Corporation Data storage system with improved serviceability features
US7703073B2 (en) * 2004-06-08 2010-04-20 Covia Labs, Inc. Device interoperability format rule set and method for assembling interoperability application package
US7404020B2 (en) * 2004-07-20 2008-07-22 Qlogic, Corporation Integrated fibre channel fabric controller
US7590727B1 (en) * 2004-09-28 2009-09-15 Sprint Communications Company L.P. System and method for software failover on a bladed system
US7380030B2 (en) * 2004-10-01 2008-05-27 Qlogic, Corp. Method and system for using an in-line credit extender with a host bus adapter
US8295299B2 (en) * 2004-10-01 2012-10-23 Qlogic, Corporation High speed fibre channel switch element
US7593997B2 (en) * 2004-10-01 2009-09-22 Qlogic, Corporation Method and system for LUN remapping in fibre channel networks
US7411958B2 (en) * 2004-10-01 2008-08-12 Qlogic, Corporation Method and system for transferring data directly between storage devices in a storage area network
US7739244B2 (en) * 2004-10-14 2010-06-15 Oracle International Corporation Operating logging for online recovery in shared memory information systems
US7519058B2 (en) * 2005-01-18 2009-04-14 Qlogic, Corporation Address translation in fibre channel switches
US7836387B1 (en) * 2005-04-29 2010-11-16 Oracle America, Inc. System and method for protecting data across protection domain boundaries
US7739668B2 (en) * 2005-05-16 2010-06-15 Texas Instruments Incorporated Method and system of profiling applications that use virtual memory
US20070038703A1 (en) * 2005-07-14 2007-02-15 Yahoo! Inc. Content router gateway
US7623515B2 (en) * 2005-07-14 2009-11-24 Yahoo! Inc. Content router notification
US20070014307A1 (en) * 2005-07-14 2007-01-18 Yahoo! Inc. Content router forwarding
US20070016636A1 (en) * 2005-07-14 2007-01-18 Yahoo! Inc. Methods and systems for data transfer and notification mechanisms
US7631045B2 (en) * 2005-07-14 2009-12-08 Yahoo! Inc. Content router asynchronous exchange
US7849199B2 (en) * 2005-07-14 2010-12-07 Yahoo ! Inc. Content router
US7757015B2 (en) * 2005-09-13 2010-07-13 International Business Machines Corporation Device, method and computer program product readable medium for determining the identity of a component
US20070086350A1 (en) * 2005-10-13 2007-04-19 International Business Machines Corporation Method, system, and computer program product for providing failure detection with minimal bandwidth usage
US7779157B2 (en) * 2005-10-28 2010-08-17 Yahoo! Inc. Recovering a blade in scalable software blade architecture
US7873696B2 (en) * 2005-10-28 2011-01-18 Yahoo! Inc. Scalable software blade architecture
US7870288B2 (en) * 2005-10-28 2011-01-11 Yahoo! Inc. Sharing data in scalable software blade architecture
US8024290B2 (en) 2005-11-14 2011-09-20 Yahoo! Inc. Data synchronization and device handling
US8065680B2 (en) * 2005-11-15 2011-11-22 Yahoo! Inc. Data gateway for jobs management based on a persistent job table and a server table
US7624250B2 (en) * 2005-12-05 2009-11-24 Intel Corporation Heterogeneous multi-core processor having dedicated connections between processor cores
US7574560B2 (en) * 2006-01-03 2009-08-11 Emc Corporation Methods, systems, and computer program products for dynamic mapping of logical units in a redundant array of inexpensive disks (RAID) environment
US9367832B2 (en) * 2006-01-04 2016-06-14 Yahoo! Inc. Synchronizing image data among applications and devices
US7548560B1 (en) 2006-02-27 2009-06-16 Qlogic, Corporation Method and system for checking frame-length in fibre channel frames
US7965771B2 (en) 2006-02-27 2011-06-21 Cisco Technology, Inc. Method and apparatus for immediate display of multicast IPTV over a bandwidth constrained network
US8218654B2 (en) * 2006-03-08 2012-07-10 Cisco Technology, Inc. Method for reducing channel change startup delays for multicast digital video streams
US7603529B1 (en) 2006-03-22 2009-10-13 Emc Corporation Methods, systems, and computer program products for mapped logical unit (MLU) replications, storage, and retrieval in a redundant array of inexpensive disks (RAID) environment
US20070234118A1 (en) * 2006-03-30 2007-10-04 Sardella Steven D Managing communications paths
US7836020B1 (en) * 2006-04-03 2010-11-16 Network Appliance, Inc. Method and apparatus to improve server performance associated with takeover and giveback procedures
US7958396B2 (en) * 2006-05-19 2011-06-07 Microsoft Corporation Watchdog processors in multicore systems
US20080034008A1 (en) * 2006-08-03 2008-02-07 Yahoo! Inc. User side database
US7549018B2 (en) * 2006-08-03 2009-06-16 International Business Machines Corporation Configurable blade enclosure
US7681101B2 (en) * 2007-04-16 2010-03-16 Cisco Technology, Inc. Hybrid corrective scheme for dropped packets
US8031701B2 (en) 2006-09-11 2011-10-04 Cisco Technology, Inc. Retransmission-based stream repair and stream join
US7817538B2 (en) * 2006-09-13 2010-10-19 Rockwell Automation Technologies, Inc. Fault-tolerant Ethernet network
US7661006B2 (en) * 2007-01-09 2010-02-09 International Business Machines Corporation Method and apparatus for self-healing symmetric multi-processor system interconnects
US7937531B2 (en) * 2007-02-01 2011-05-03 Cisco Technology, Inc. Regularly occurring write back scheme for cache soft error reduction
US8769591B2 (en) 2007-02-12 2014-07-01 Cisco Technology, Inc. Fast channel change on a bandwidth constrained network
US7940644B2 (en) * 2007-03-14 2011-05-10 Cisco Technology, Inc. Unified transmission scheme for media stream redundancy
US20080253369A1 (en) * 2007-04-16 2008-10-16 Cisco Technology, Inc. Monitoring and correcting upstream packet loss
US20080270629A1 (en) * 2007-04-27 2008-10-30 Yahoo! Inc. Data snychronization and device handling using sequence numbers
US7991822B2 (en) * 2007-08-29 2011-08-02 International Business Machines Corporation Propagation of updates for attributes of a storage object from an owner node of the storage object to other nodes
US8787153B2 (en) * 2008-02-10 2014-07-22 Cisco Technology, Inc. Forward error correction based data recovery with path diversity
US7937453B1 (en) 2008-09-24 2011-05-03 Emc Corporation Scalable global namespace through referral redirection at the mapping layer
US8688838B2 (en) * 2009-12-14 2014-04-01 Hewlett-Packard Development Company, L.P. Profile management systems
US9168946B2 (en) * 2010-03-19 2015-10-27 Javad Gnss, Inc. Method for generating offset paths for ground vehicles
US8402226B1 (en) 2010-06-18 2013-03-19 Emc Corporation Rate proportional cache write-back in a storage server
JP5229696B2 (ja) * 2011-03-04 2013-07-03 日本電気株式会社 情報処理システム、情報処理装置、その制御方法、及びその制御プログラム、通信環境監視復旧方法
US8862537B1 (en) * 2011-06-30 2014-10-14 Sumo Logic Selective structure preserving obfuscation
US9015555B2 (en) 2011-11-18 2015-04-21 Cisco Technology, Inc. System and method for multicast error recovery using sampled feedback
US9069682B1 (en) 2012-06-29 2015-06-30 Emc Corporation Accelerating file system recovery by storing file system metadata on fast persistent storage during file system recovery
US8904229B1 (en) 2012-06-29 2014-12-02 Emc Corporation Online recovery of a file system experiencing failure of redundant logical storage storing a single point of failure
US9146928B1 (en) 2012-12-31 2015-09-29 Emc Corporation Techniques for storing metadata of a filesystem in persistent memory
US10007629B2 (en) 2015-01-16 2018-06-26 Oracle International Corporation Inter-processor bus link and switch chip failure recovery
US10713175B2 (en) 2015-12-02 2020-07-14 Telefonaktiebolaget Lm Ericsson (Publ) Method and memory availability managing module for managing availability of memory pages
CN107852349B (zh) 2016-03-31 2020-12-01 慧与发展有限责任合伙企业 用于多节点集群的事务管理的系统、方法及存储介质
US10496307B1 (en) 2016-12-30 2019-12-03 EMC IP Holding Company LLC Reaching a normal operating mode via a fastboot procedure
CN113157216B (zh) 2017-04-17 2024-02-06 伊姆西Ip控股有限责任公司 用于存储管理的方法、设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212095A (ja) * 1994-10-31 1996-08-20 Hitachi Ltd クライアントサーバ制御システム
JPH10224378A (ja) * 1996-12-02 1998-08-21 Toshiba Corp クライアントサーバシステムの制御方法及びクライアントサーバシステム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4228496A (en) * 1976-09-07 1980-10-14 Tandem Computers Incorporated Multiprocessor system
US4710926A (en) * 1985-12-27 1987-12-01 American Telephone And Telegraph Company, At&T Bell Laboratories Fault recovery in a distributed processing system
JP2937232B2 (ja) * 1996-05-20 1999-08-23 日本電気株式会社 通信ネットワーク、及び、通信ネットワークの障害回復方式、及び、光通信ネットワーク・ノード
JP2933021B2 (ja) * 1996-08-20 1999-08-09 日本電気株式会社 通信網障害回復方式
US5982595A (en) * 1998-06-05 1999-11-09 General Electric Company Redundant communications in a protective relay
US6578160B1 (en) * 2000-05-26 2003-06-10 Emc Corp Hopkinton Fault tolerant, low latency system resource with high level logging of system resource transactions and cross-server mirrored high level logging of system resource transactions
US6594775B1 (en) * 2000-05-26 2003-07-15 Robert Lawrence Fair Fault handling monitor transparently using multiple technologies for fault handling in a multiple hierarchal/peer domain file server with domain centered, cross domain cooperative fault handling mechanisms

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08212095A (ja) * 1994-10-31 1996-08-20 Hitachi Ltd クライアントサーバ制御システム
JPH10224378A (ja) * 1996-12-02 1998-08-21 Toshiba Corp クライアントサーバシステムの制御方法及びクライアントサーバシステム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6970972B2 (en) 2002-12-27 2005-11-29 Hitachi, Ltd. High-availability disk control device and failure processing method thereof and high-availability disk subsystem
JP2008521127A (ja) * 2004-11-17 2008-06-19 レイセオン カンパニー ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ

Also Published As

Publication number Publication date
GB2367921B (en) 2002-09-04
US6865157B1 (en) 2005-03-08
DE10124514A1 (de) 2001-12-06
GB2367921A (en) 2002-04-17
GB0111233D0 (en) 2001-06-27

Similar Documents

Publication Publication Date Title
JP2002041348A (ja) 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法
JP2002024069A (ja) 実行状態の回復が可能なファイルサーバ、トランザクションロギング機構、システムリソース及び実行状態の回復方法
US6594775B1 (en) Fault handling monitor transparently using multiple technologies for fault handling in a multiple hierarchal/peer domain file server with domain centered, cross domain cooperative fault handling mechanisms
US6718481B1 (en) Multiple hierarichal/peer domain file server with domain based, cross domain cooperative fault handling mechanisms
US7219260B1 (en) Fault tolerant system shared system resource with state machine logging
US6678788B1 (en) Data type and topological data categorization and ordering for a mass storage system
US6691209B1 (en) Topological data categorization and formatting for a mass storage system
JP5102901B2 (ja) データセンタにわたる複数データサーバ間のデータ完全性を保持する方法およびシステム
JP4457184B2 (ja) ストレージシステムにおけるフェイルオーバー処理
US7028218B2 (en) Redundant multi-processor and logical processor configuration for a file server
US20090276654A1 (en) Systems and methods for implementing fault tolerant data processing services
US20050283641A1 (en) Apparatus, system, and method for verified fencing of a rogue node within a cluster
US7490205B2 (en) Method for providing a triad copy of storage data
US8191078B1 (en) Fault-tolerant messaging system and methods
Angel et al. Disaggregation and the application
KR102016095B1 (ko) 트랜잭셔널 미들웨어 머신 환경에서 트랜잭션 레코드들을 유지하기 위한 시스템 및 방법
US20050102549A1 (en) Network storage appliance with an integrated switch
KR20030066331A (ko) 플렉서블 리모트 데이터 미러링
US8683258B2 (en) Fast I/O failure detection and cluster wide failover
US8108580B1 (en) Low latency synchronous replication using an N-way router
US20040255187A1 (en) Data synchronization for system controllers
Vallath Oracle real application clusters
US8095828B1 (en) Using a data storage system for cluster I/O failure determination
EP3167372B1 (en) Methods for facilitating high availability storage services and corresponding devices
US11210034B2 (en) Method and apparatus for performing high availability management of all flash array server

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050215

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20050516

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20050607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050815

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060221