JP2002041348A

JP2002041348A - 可用性が高い通信を提供する通信パススルー共有システムリソース、ネットワークファイルサーバ及び方法

Info

Publication number: JP2002041348A
Application number: JP2001155798A
Authority: JP
Inventors: John A Scott; エースコットジョン; James Gregory Jones; グレゴリージョーンズジェームズ
Original assignee: EMC Corp
Current assignee: EMC Corp
Priority date: 2000-05-26
Filing date: 2001-05-24
Publication date: 2002-02-08
Also published as: GB2367921B; US6865157B1; DE10124514A1; GB2367921A; GB0111233D0

Abstract

(57)【要約】【課題】共有システムリソースとシステムリソースの
クライアントとの間で可用性の高いネットワーク通信を
提供する通信パススルー機構を提供する。【解決手段】システムリソースは、多数のピアブレイ
ドプロセッサを備えた制御／処理サブシステムを備え
る。各ブレイドプロセッサのポートは、各クライアント
／サーバネットワークパスに接続され、各クライアント
は、各ブレイドプロセッサの対応するポートに接続され
ている。各ブレイドプロセッサは、対応するブレイドプ
ロセッサポート及びネットワークパスを介して他のブレ
イドプロセッサとビーコン伝送をやりとりするネットワ
ーク故障検出器を備える。各ブレイドプロセッサは、他
のブレイドプロセッサの故障したポートからビーコン伝
送を受領できなかったことを受けて、他のブレイドプロ
セッサの故障したポートへのクライアント通信をブレイ
ドプロセッサの対応するポートへリダイレクトする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ネットワークファ
イルサーバのような、故障に耐性がありレイテンシが低
い共有システムリソースにおける高レベルトランザクシ
ョンロギング機構のためのシステム及び方法、特に、多
重サーバシステムリソースにおいて利用されるクロスサ
ーバ高レベルミラードトランザクションロギング機構に
関する。

【０００２】

【従来の技術】コンピュータシステムにおいて絶えず問
題となるのは、安全で故障に耐性があるリソースを提供
すること、例えばコンピュータシステムとコンピュータ
システムのクライアントまたはユーザとの間の通信が故
障の際にも維持されるような通信リソース、そして故障
の際にデータが失われずかつ損失を被ることなく回復ま
たは再構築されるようなデータ記憶リソースを提供する
ことである。この問題は、システムデータ記憶機器のよ
うに、通常、共有リソースが１つ以上のシステムリソー
ス、例えば、多数のクライアント間で共有され、システ
ムネットワークを通じてアクセスされるファイルサーバ
から構成されるネットワークシステムにおいては特に解
決するのが難しい。共有リソースにおける故障、例え
ば、ファイルサーバのデータ記憶機能における故障、あ
るいはファイルサーバのクライアントとファイルサーバ
によりサポートされるクライアントファイルシステムと
の間の通信における故障は、システム全体の故障に発展
する恐れがある。この問題は、データ量及び通信量と、
ファイルサーバのような共有リソースによってサポート
されるデータトランザクション数とが単一クライアント
システム内におけるそれらに比べて著しく大きいという
点で特に厳しいものであり、その結果、リソース、デー
タトランザクション、クライアント／サーバ通信におけ
る複雑さを著しく大きくしてしまう。この複雑さの増大
は故障の可能性を増大させ、故障からの回復をより難し
くする。さらに、その問題は、故障が、ディスクドライ
ブや制御プロセッサ、あるいはネットワーク通信のよう
な、数多くのリソースコンポーネントまたは関連する機
能のどれにでも起こりうるという点で多次元的である。
また、共有リソース通信及びサービスが１つ以上のコン
ポーネントに故障が起きても利用可能であり続け、さら
に、リソースの操作が、完了した操作及びトランザクシ
ョンと、故障が起きたときに実行されていた操作及びト
ランザクションとの両方について保存され回復されるこ
とが望ましい。

【０００３】ネットワークファイルサーバシステムを従
来技術の共有システムリソースの典型的な例として考え
ると、従来技術のファイルサーバシステムは、クライア
ント／サーバ通信及びファイルサーバのファイルトラン
ザクション機能においてフォールトトレランスを達成す
るため、そしてデータの回復または再構築のために数多
くの方法を採用してきた。これらの方法は、リダンダン
シ、すなわち、複写システムエレメントの供給と、故障
したエレメントの複写エレメントへの置き換え、あるい
は失われた情報を再構築するのに用いられる情報の複写
コピーの作成とに基づくものが代表的である。

【０００４】例えば、従来技術の多くのシステムが、デ
ータ及びファイルトランザクションの保存及び回復に業
界標準のＲＡＩＤ技術を組み込んでいる。ＲＡＩＤ技術
は、予備のデータ及びエラー訂正情報を複数のディスク
ドライブの予備アレイに渡って分散する一群の方法であ
る。故障したディスクドライブは予備のドライブに置換
され、故障したディスクのデータは予備のデータ及びエ
ラー訂正情報から再構築される。従来技術のその他のシ
ステムは、クライアント／ファイルサーバ通信及びクラ
イアント／クライアントファイルシステム通信の信頼性
及び可用性を高めるために、故障した通信パスまたはフ
ァイルプロセッサからの通信またはファイル処理を同等
の並列パスまたはプロセッサに切り換える適当なスイッ
チング機能を備えた多重複写式並列通信パスまたは多重
複写式並列処理ユニットを採用している。しかしなが
ら、これらの方法は、主要な通信パス及び処理パスの複
写、そして、故障したエレメントを機能するエレメント
に交換するのに複雑な管理及び同期機構を必要とするの
で、システムリソースに多額の費用がかかる。また、こ
れらの方法により、故障の際にサービス及び機能が継続
して実行され、例えばＲＡＩＤの利用により、完了した
データトランザクション、すなわち、ディスク上の固定
記憶装置にコミットされたトランザクションが回復また
は再構築されるが、これらの方法は、トランザクション
の実行中の故障により失われたトランザクションの再構
築または回復をサポートしない。

【０００５】この結果、従来技術の別の方法において
は、トランザクションの実行中に起きる故障により失わ
れたトランザクションの回復及び再構築のために情報リ
ダンダンシが利用される。これらの方法には、キャッシ
ング、トランザクションロギング、ミラーリングが含ま
れる。キャッシングとは、固定記憶装置、すなわちディ
スクドライブへのデータの移動により固定記憶装置にデ
ータトランザクションがコミットされるまで、あるいは
データトランザクションが固定記憶装置から読み取られ
て受け手に送られるまで、固定記憶装置への及びそれか
らのデータフローパスのメモリ中にデータを一時的に記
憶することである。トランザクションロギング、あるい
はジャーナリングとは、データトランザクションが固定
記憶装置にコミットされるまで、すなわちファイルサー
バにおいて完了されるまで、一時的にデータトランザク
ションを記述する情報、すなわち要求されたファイルサ
ーバ操作を記憶し、さらに、記憶された情報から失われ
たデータトランザクションを再構築または再実行するこ
とである。ミラーリングは、多くの場合キャッシングま
たはトランザクションロギングと共に用いられ、基本的
に、キャッシュまたはトランザクションログの記録がフ
ァイルプロセッサで生成されるときに、例えば、別のプ
ロセッサのメモリまたは固定記憶空間にキャッシュまた
はトランザクションログの内容のコピーを保存すること
である。

【０００６】しかしながら、キャッシング、トランザク
ションロギング、ミラーリングは、あまり満足のいくも
のではない。なぜなら、それらは多くの場合システムリ
ソースを高額にし、キャッシング、トランザクションロ
ギング、ミラーリング機能及びそれに続くトランザクシ
ョンの回復操作を行うために複雑な管理及び同期操作
と、機構とを必要とし、著しくファイルサーバのレイテ
ンシ、すなわちファイルトランザクションを完了するの
に要する時間を増加するからである。また、キャッシン
グ及びトランザクションロギングは、キャッシング及び
ロギング機構が存在するプロセッサの故障に弱いこと、
また、ミラーリングがキャッシュまたはトランザクショ
ンログの内容の損失問題への解決である一方で、ミラー
リングは、キャッシングまたはトランザクションロギン
グと同様の欠点を有することに注意しなければならな
い。これらの問題は、キャッシングと、特にトランザク
ションロギング及びミラーリングとがトランザクション
ロギングの間に莫大な量の情報の保存を必要とする点、
及び、ログファイルトランザクションの再構築または再
実行が、ファイルトランザクションの再構築のために、
トランザクションログを分析し、再生し、ロールバック
する複雑なアルゴリズムの実装を必要とする点でより複
雑となる。また、これらの方法が、各データトランザク
ションが非常に多くの詳細で複雑なファイルシステム操
作として実行されているようなより低いレベルのファイ
ルサーバ機能で実装される場合が多いという点で、これ
らの問題はさらに複雑になる。その結果、抽出され保存
されるべき情報量と、データあるいはデータトランザク
ションを抽出して保存し、データまたはデータトランザ
クションを回復及び再構築するために必要となる操作の
数及び複雑さとは著しく増大する。

【０００７】また、これらの方法はシステムリソースを
割高にし、それらの方法を管理するための複雑な管理及
び同期機構を必要とする。そして、システムリソースが
割高であるために、これらの方法が提供できるリダンダ
ンシの度合いは制限されるので、システムは、多くの場
合、複数のソースに起こる故障に対応できない。例え
ば、システムがある機能のために複写式並列プロセッサ
ユニットまたは通信パスを設けても、両方のプロセッサ
ユニットまたは通信パスで故障が起きればシステム全体
が失われてしまう。さらに、通信及びデータの保存及び
回復を保証するこれらの従来技術は、通常、互いから隔
絶された状態で、そして異なるレベルまたはサブシステ
ムで動作する。このため、通常、これらの方法は協力し
てまたは連動して動作するわけではなく、互いに相反し
て動作するかもしれず、複数の故障または連動した故
障、またはいくつかの方法を組み合わせて対処する必要
のある故障に対応できない。従来技術のいくつかのシス
テムは、この問題を解決しようと努力しているが、それ
には、中央統一的な調整機構、またはサブシステムと、
協調操作を行い、故障を扱う機構間の衝突を避けるため
の互いに関連する複雑な管理及び同期機構を必要とし、
そのためにまたシステムリソースにお金がかかるととも
に、それ自体が故障の原因となる。

【０００８】

【発明が解決しようとする課題】本発明の目的は、これ
らの、そしてその他の従来技術に関連する問題への解決
を提供することである。本発明は、複数のクライアント
／サーバ通信パスを含むネットワークを介して、システ
ムリソースとシステムリソースのクライアントとの間に
可用性の高い通信を提供するための、故障に耐性のある
共有システムリソース、例えばネットワークファイルサ
ーバ、に使用される通信パススルー機構及び通信パスス
ルー機構の操作方法に関する。

【０００９】

【課題を解決するための手段及び発明の効果】本発明に
よると、システムリソースには、システムリソース操作
を実行するためのシステムリソースサブシステムと、多
数のピアブレイドプロセッサを備えた制御／処理サブシ
ステムとが含まれる。各ブレイドプロセッサは、各クラ
イアント／サーバネットワーク通信パスに接続されたポ
ートを備え、各クライアントは、各ブレイドプロセッサ
の対応するポートに接続されている。各ブレイドプロセ
ッサは、各クライアントの通信ルートを決定する通信ル
ーティングテーブルを備えた、ブレイドプロセッサとク
ライアントとの間の通信操作をサポートするネットワー
ク機構と、ブレイドプロセッサとシステムリソースサブ
システムとの間で通信を提供する相互プロセッサ通信プ
ロセッサと、ブレイドプロセッサ間の相互プロセッサ通
信リンクとを備える。各ブレイドプロセッサは、さら
に、ブレイドプロセッサの対応するポートを接続するネ
ットワーク通信パスを介して、別のブレイドプロセッサ
とビーコン伝送をやりとりするためのネットワーク故障
検出器を備えた通信モニタリング機構を備える。各ブレ
イドプロセッサは、他のブレイドプロセッサの故障した
ポートからビーコン伝送を受領できなかった際、ネット
ワーク故障検出器に応えて、ブレイドプロセッサの対応
するポートへ反対側のブレイドプロセッサの故障したポ
ートへのクライアント通信をリダイレクトするクライア
ントへのリダイレクションメッセージを送信するための
応答ジェネレータを備える。ブレイドプロセッサのパス
マネージャは、応答ジェネレータの操作に応えて、リダ
イレクションメッセージに対応するように通信ルーティ
ングテーブルを修正し、相互プロセッサ通信リンクを介
して他のブレイドプロセッサへ他のブレイドプロセッサ
の故障したポートへのクライアント通信をルーティング
する。

【００１０】本発明のさらなる実施例において、各ブレ
イドプロセッサは、相互ブレイド通信モニタを備え、別
のブレイドプロセッサとの相互プロセッサ通信リンクの
故障を検出し、通信ルーティングテーブルを読み取って
ブレイドポート間の機能するネットワーク通信パスを選
択し、通信ルーティングテーブルを修正して相互プロセ
ッサ通信リンクからの相互プロセッサ通信を選択された
機能するネットワーク通信パスへリダイレクトする。

【００１１】

【発明の実施の形態】本発明の前述及びその他の目的、
特徴、利点を、添付の図を参照しながら、実施例を用い
て以下に説明する。Ａ．高可用性を備えた共有リソースの概略説明（図１）１．序論以下に記述するように、本発明は、ネットワークシステ
ムにおいて多数のユーザ間で共有されるファイルサー
バ、通信サーバ、あるいはプリンタサーバのように、可
用性の高いリソースに関するものである。本発明のリソ
ースは、統合された協働クラスタからなる階層及びピア
ドメインから構成される。各ドメインは、リソースによ
ってサポートされた機能またはサービスに不可欠な１つ
以上の関連した機能を実行あるいは提供する。１つのド
メインは、複数のサブドメインから構成されてもよい
し、あるいは複数のサブドメインを具備していてもよ
い。例えば、１つ以上のドメインが、リソースとネット
ワーククライアントとの間で通信サービスを提供し、そ
の他のドメインが、高レベルファイルシステム、通信、
または印刷機能を実行し、その一方で、別のドメインが
低レベルファイルシステム、通信及びプリント機能を実
行してもよい。階層的に関連したドメインの場合、１つ
のドメインが別のドメインを制御するか、または、関連
したより高いあるいは低いレベルの機能を実行すること
により、より高いあるいは低いレベルのドメインをサポ
ートすることができる。例えば、より高レベルのドメイ
ンは、関連した低レベルドメインがより低レベルのファ
イルまたは通信機能を実行する間、高レベルのファイル
または通信機能を実行することができる。ピアドメイン
は、例えばタスクの負荷を分担してある機能についての
リソース容量を増やすために、同一あるいは並列の機能
を実行したり、あるいは、共に１つのドメインを構成す
るために中立的なサポート関係で関連するタスクまたは
機能を実行することができる。さらに、他のドメイン
は、ある機能についてはピアドメインであったり、他の
機能については階層的に関連したドメインであったりも
できる。最後に、以下に説明するように、あるドメイン
は、他のドメインの故障処理機構とは別に独立して動作
するが、高レベルのリソース可用性を達成するために協
調的に動作する故障処理機構を備える。

【００１２】本発明は、例えば、そして以下に説明する
目的で、高可用性を備えたネットワークファイルサーバ
（ＨＡＮファイルサーバ）１０に実装される。この実装
の形態を、本発明の実施例として以下に詳細に記述す
る。図１に示すように、本発明が実装されているＨＡＮ
ファイルサーバ１０には、例えば、データジェネラルコ
ーポレーション（ＤａｔａＧｅｎｅｒａｌＣｏｒｐ
ｏｒａｔｉｏｎ）のＣＬＡＲｉｉＯＮ^TMファイルサーバ
を使用する。ＣＬＡＲｉｉＯＮ^TMファイルサーバは、高
い可用性を備えたファイルシステム共有資源、すなわ
ち、記憶空間をネットワーククライアントに提供すると
ともに、ジャーナルファイルシステム、ネットワークフ
ェイルオーバー能力、データのバックエンドレイド（Ｒ
ＡＩＤ）記憶装置を利用して、共有資源に書き込まれた
データに高い整合性を提供する。本実装においては、Ｈ
ＡＮファイルサーバ１０は、業界標準の共通インターネ
ットファイルシステムプロトコル（ＣＩＦＳ）とネット
ワークファイルシステム（ＮＦＳ）共有資源との両方を
サポートしており、ＣＩＦＳ及びＮＦＳによって使用さ
れるようなファイルアクセス制御のための対照モデルが
外からはわからないように実装されている。ＨＡＮファ
イルサーバ１０はまた、マイクロソフトウィンドウズＮ
Ｔ環境におけるドメインコントローラあるいはＵＮＩＸ
（登録商標）環境のためのネットワークファイルシステ
ム（ＮＦＳ）などの既存の業界標準管理データベースを
統合している。

【００１３】本実装は、ゼロコピーＩＰプロトコルスタ
ックを利用して高いパフォーマンスを提供する。そのた
めに、ファイルシステムキャッシング方式をバックエン
ドＲＡＩＤ機構と緊密に統合するとともに、保存用のデ
ィスクへの書き込みを廃するために、ピア記憶プロセッ
サ上でミラーリングすることにより重要なデータの可用
性を提供できるデュアル記憶プロセッサを使用する。以
下に詳細に説明するように、本実装のＨＡＮファイルサ
ーバ１０は、デュアルプロセッサファンクショナルマル
チプロセッシングモードで動作している。このモードで
は、１つのプロセッサが、クライアントとディスクに存
在するファイルシステムとの間でデータを転送するため
の全てのネットワーク及びファイルシステム操作を実行
するフロントエンドプロセッサとして働き、ネットワー
クスタック、ＣＩＦＳ／ＮＦＳの実装、ジャーナルファ
イルシステムをサポートする。第二プロセッサは、ブロ
ック記憶プロセッサとして働き、可用性の高いＲＡＩＤ
構成において管理されたひとまとまりのディスクへの及
びそれからのデータの読み取り及び書き込みの全ての機
能を実行する。

【００１４】本実装において、ファイルシステムは、カ
ーネルベースのＣＩＦＳネットワークスタックを備えた
ジャーナル機能付きクイックリカバリファイルシステム
として実装され、第二モードでＮＦＳ操作をサポートす
るが、本発明によると、ファイルシステムのデータへの
アクセスに高い可用性を提供するために修正を加えられ
ている。ファイルシステムはさらに、ある記憶プロセッ
サ上のメモリに記憶されたデータ変更がその記憶プロセ
ッサのハードウェアまたはソフトウェア故障の際に保存
されるというデータ反映機能を使って、ネットワークク
ライアントがファイルシステムに加える全てのデータ変
更を記憶することにより記憶プロセッサの損失に対する
保護を提供する。ファイルシステムに対するコア内部の
データ変更の反映は、相互記憶プロセッサ通信システム
を通じて達成され、これにより、一方の記憶プロセッサ
上でクライアントによってＮＦＳまたはＣＩＦＳを使用
して伝達されたファイルシステムへのデータ変更は、デ
ータを記憶しているネットワーククライアントに通知が
返される前に、他方の記憶プロセッサにより反映され、
受領確認される。このことは、最初の記憶プロセッサ上
での故障の際に代わりの記憶プロセッサにデータ変更の
コピーが取り込まれ、万が一故障が起きた際には、ファ
イルシステムが代わりの記憶プロセッサに引き継がれた
後に、その変更がファイルシステムに適用されることを
保証する。後述するように、この反映機構が、ファイル
を追跡するために用いられるシステムメタデータを回復
及び修復する基本的なファイルシステム回復機構の頂点
に構築される一方で、反映機構はユーザデータを回復あ
るいは修復する機構を提供する。ブロック記憶サブシス
テムは、ＲＡＩＤ技術を使用してディスクユニットの損
失に対しディスクレベルでの保護を提供する。ディスク
ドライブが失われると、ＲＡＩＤ機構は、代わりのドラ
イブにデータを再構築する機構を提供し、失われたドラ
イブなしで動作する際、そのデータへのアクセスを提供
する。

【００１５】後述するように、本実装のＨＡＮファイル
サーバ１０は、サーバのクライアントと、予備のコンポ
ーネント及びデータパスを利用してサーバ上でサポート
されたクライアントファイルシステムとの間で可用性の
高い通信を提供し、クライアントとクライアントファイ
ルシステムとの間の通信を維持するための通信故障処理
機構を提供する。本発明のＨＡＮファイルサーバ１０は
また、ファイルトランザクション及びデータのバックア
ップ及び回復システムを備え、ファイルトランザクショ
ン及びデータの損失を防ぐとともに、ファイルトランザ
クション及びデータの回復または再構築を許容する。シ
ステムハードウェアまたはソフトウェア故障の際には、
システムの生き残ったコンポーネントが故障したコンポ
ーネントのタスクを引き継ぐ。例えば、記憶プロセッサ
上のイーサネット（登録商標）ポートが１つ失われる
と、そのポートからのネットワークトラフィックは代わ
りの記憶プロセッサの別のポートによって引き継がれ
る。同様に、記憶プロセッサのどの部分かにその処理機
能を危うくするような故障が起きたならば、全てのネッ
トワークトラフィック及びファイルシステムが生き残っ
た記憶プロセッサへ移転される。さらなる例では、デー
タ及びファイルトランザクション及びバックアップ機構
は、故障したコンポーネントが回復した際、故障したコ
ンポーネントによる、あるいは対応するコンポーネント
によるデータ及びファイルトランザクションの回復及び
再構築を可能にするとともに、生き残ったコンポーネン
トが故障したコンポーネントのファイルトランザクショ
ンを引き継ぐことを可能にする。さらに、ディスクドラ
イブが１つ失われても、そのディスクのデータへのアク
セスが失われない。なぜなら、ＲＡＩＤ機構が生き残っ
たディスクを用いて、失われたドライブ上にあった再構
築されたデータへのアクセスを提供するからである。全
てのファイルサーバに影響を及ぼす停電の際には、停電
の際のファイルサーバ状態が保存され、コア内部のデー
タは固定記憶装置にコミットされて電源が復旧すると回
復される。これにより、停電前になされた全てのデータ
変更が保存される。最後に、ＨＡＮファイルサーバ１０
の通信そしてデータ及びファイルトランザクションの故
障回復機構は、サーバの各ドメインまたはサブシステム
に設けられ、互いに別々に独立して機能するが、ファイ
ルシステム通信へのクライアントの可用性を高レベルに
保ち、データ及びファイルトランザクションの損失を防
いで回復を可能にするために、協調的に動作する。それ
にも関わらず、ＨＡＮファイルサーバ１０の故障回復機
構は、故障のソースを特定して隔離するのに通常必要な
複雑な機構や手続き、さらには衝突する可能性のある故
障管理操作を調整し、同期させ、管理するのに通常必要
な複雑な機構及び操作を必要としない。

【００１６】２．ＨＡＮファイルサーバ１０の詳細説明
（図１）図１には、データジェネラルコーポレーションのＣＬＡ
ＲｉｉＯＮ^TMファイルサーバのような、本発明が実装さ
れうる典型的なＨＡＮファイルサーバ１０が示されてい
る。図に示すように、ＨＡＮファイルサーバ１０は、記
憶サブシステム１２と、記憶サブシステム１２を共有す
るデュアルコンピュートブレイド（ブレイド）１４Ａ及
び１４Ｂからなる制御／プロセッササブシステム１４と
を備える。コンピュートブレイド１４Ａ及び１４Ｂは、
ＨＡＮファイルサーバ１０のクライアントに、ネットワ
ークアクセス及びファイルシステム機能を提供及びサポ
ートするために独立して動作し、相互バックアップと、
ネットワークアクセス及び互いのファイルシステム機能
のサポートとを提供するために協調的に動作する。

【００１７】ａ．記憶サブシステム１２（図１）記憶サブシステム１２は、複数のハードディスクドライ
ブ１８からなるドライブバンク１６を備える。各ディス
クドライブ１８は、記憶ループモジュール２０Ａ及び２
０Ｂとして示されるデュアル記憶ループモジュール２０
（２０Ａ及び２０Ｂを総称して２０ともいう。以下同
じ。）を通して双方向に読み取り／書き込みアクセスさ
れる。図に示すように、記憶ループモジュール２０Ａ及
び２０Ｂにはそれぞれ、ＭＵＸＢＡＮＫ２２Ａ及び２２
Ｂとして示されるマルチプレクサバンク（ＭＵＸＢＡＮ
Ｋ）２２が含まれる。ＭＵＸＢＡＮＫ２２Ａ及び２２Ｂ
にはそれぞれ、複数のマルチプレクサ（ＭＵＸ）２４
と、ループコントローラ２６Ａ及び２６Ｂとして示され
るループコントローラ２６とが含まれる。各ループコン
トローラモジュール２０のＭＵＸ２４とループコントロ
ーラ２６とは、ＭＵＸループバス２８Ａ及び２８Ｂとし
て示されたＭＵＸループバス２８を介して双方向に相互
接続されている。

【００１８】図に示すように、ＭＵＸＢＡＮＫ２２Ａ及
び２２Ｂにはそれぞれ、対応するディスクドライブ１８
に対応して接続されているディスクドライブＭＵＸ２４
（ＭＵＸ２４Ｄ）が含まれる。そのため、ドライブバン
ク１６の各ディスクドライブ１８は、ＭＵＸＢＡＮＫ２
２Ａ及び２２Ｂのそれぞれにおいて、対応するＤＭＵＸ
２４Ｄに接続され、双方向に読み取り／書き込みされ
る。ＭＵＸＢＡＮＫ２２Ａ及び２２Ｂはさらに、それぞ
れ、対応するコンピュートブレイド１４Ａ及び１４Ｂの
一方と、ＭＵＸ２４ＣＡ及びＭＵＸ２４ＣＢそれぞれを
介して双方向に接続されており、コンピュートブレイド
１４Ａ及び１４Ｂはブレイドバス３０を介して双方向に
接続されている。さらに、ＭＵＸＢＡＮＫ２２Ａ及び２
２Ｂは、それぞれ、ＭＵＸ２４ＥＡ及び２４ＥＢで示さ
れる外部ディスクアレイＭＵＸ２４を備えていてもよ
い。外部ディスクアレイＭＵＸ２４は、対応するＭＵＸ
ループバス２８Ａ及び２８Ｂから双方向に接続され、外
部ディスクアレイＭＵＸ（ＥＤＩＳＫＡ）３２に双方向
に接続されている。外部ディスクアレイＭＵＸ３２は、
図において、それぞれＥＤＩＳＫＡ３２Ａ及び３２Ｂと
して示され、予備のあるいは代わりのディスク記憶空間
を提供する。

【００１９】従って、各ディスクドライブ１８は、ＭＵ
ＸＢＡＮＫ２２ＡのＭＵＸ２４及びＭＵＸＢＡＮＫ２２
ＢのＭＵＸ２４と双方向に通信する。そしてＭＵＸＢＡ
ＮＫ２２ＡのＭＵＸ２４が、ループバス２６Ａを介して
相互接続されている一方で、ＭＵＸＢＡＮＫ２２ＢのＭ
ＵＸ２４は、ループバス２６Ｂを介して相互接続されて
いる。そのため、各ディスクドライブ１８は、ループバ
ス２６Ａ及びループバス２６Ｂの両方を介してアクセス
可能である。さらに、プロセッサブレイド１４Ａがルー
プバス２６Ａと双方向に通信する一方で、プロセッサブ
レイド１４Ｂはループバス２６Ｂと双方向に通信する。
プロセッサブレイド１４Ａ及び１４Ｂは、直接相互接続
され、ブレイドループ（ブレイド）バス３０を介して通
信する。このため、プロセッサブレイド１４Ａ及び１４
Ｂは、対応するループバス２６を介して直接、または他
方のプロセッサブレイド１４を介して間接的に、どのデ
ィスクドライブ１８とも双方向に通信できるとともに、
相互に直接通信できる。

【００２０】最後に、記憶サブシステム１２について、
本実施例のＨＡＮファイルサーバ１０においては、例え
ば、各ディスクドライブ１８は、簡単にユーザが置換で
きるキャリアに入れられたホットスワップファイバチャ
ネルディスクドライブであり、ドライブ及びキャリア
は、電気を供給し、ＭＵＸループバス２６Ａ及び２６Ｂ
を含む中央平面にプラグ接続される。これにより、各デ
ュアルポートドライブをＭＵＸ２４に、そしてＭＵＸ２
４をループコントローラ２６と相互接続することができ
る。ＭＵＸ２４はファイバチャネルＭＵＸデバイスであ
り、ループコントローラ２６は、各ＭＵＸデバイスのパ
ス選択を制御するマイクロコントローラを備え、各ディ
スクドライブ１８のデュアルポートのファイバチャネル
ＭＵＸループバス２６Ａ及び２６Ｂとの接続の実行又は
解除を選択的に行う。ＭＵＸ２４ＣＡ及び２４ＣＢ、Ｍ
ＵＸ２４ＥＡ及び２４Ｅは同様に、ファイバチャネルＭ
ＵＸデバイスであり、記憶サブシステム１２をファイバ
チャネルループバスを介してコンピュートブレイド１４
Ａ及び１４ＢとＥＤＩＳＫＡ３２Ａ及び３２Ｂとに接続
する。コンピュートブレイドバス３０も同様にファイバ
チャネルバスである。

【００２１】ｂ．制御／プロセッササブシステム１４
（図１及び２）前述のように、制御／プロセッササブシステム１４は、
コンピュートブレイドバス３０を介して相互接続される
デュアルコンピュートブレイド（ブレイド）１４Ａ及び
１４Ｂからなる。コンピュートブレイド１４Ａ及び１４
Ｂは、共有記憶サブシステム１２の操作を制御する計算
及び制御用のサブシステムを併せ持つ。コンピュートブ
レイド１４Ａ及び１４Ｂは、ＨＡＮファイルサーバ１０
のクライアントにネットワークアクセスとファイルシス
テム機能とを独立して提供及びサポートし、相互バック
アップと互いのネットワーク３４アクセス及びファイル
システム機能のためのサポートとを協調的に提供する。
図１及び２に示すように、各ブレイド１４はネットワー
ク３４に接続された多数のネットワークポート（ポー
ト）３４Ｐを備える。ネットワーク３４は、ＨＡＮファ
イルサーバ１０とＨＡＮファイルサーバ１０のクライア
ント３４Ｃとの間の双方向データ通信接続を構成する。
図に示すように、ネットワークには、例えば、クライア
ント３４Ｃに接続する複数のクライアントネットワーク
３４Ｎと管理ネットワーク３４Ｍとが含まれ、さらにリ
モートクライアント３４Ｃに接続するルータ３４Ｒを含
むこともできる。当業者には理解されるように、ネット
ワーク３４は、例えば、ローカルエリアネットワーク
（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、直接プロセ
ッサ接続またはバス、ファイバオプティックリンク、あ
るいは前記の組み合わせから構成することができる。

【００２２】図２に示すように、各ブレイド１４は、メ
モリへの、そして通信コンポーネントのような他のエレ
メントへの緊密なアクセスを共有するデュアル処理ユニ
ット３６Ａ及び３６Ｂから構成される。各処理ユニット
３６Ａ及び３６Ｂは、フルオペレーティングシステムカ
ーネルを実行する十分に機能的な計算処理ユニットであ
り、ファンクショナルマルチプロセッシング構造におい
て協働する。例えば、後述されるような実装において
は、一方の処理ユニット３６がＲＡＩＤ機能を実行し、
他方の処理ユニット３６はネットワーク機能、プロトコ
ルスタック機能、ＣＩＦＳ及びＮＳＦ機能、ファイルシ
ステム機能を実行する。

【００２３】ｃ．ＨＡＮファイルサーバ１０の全体的な
アーキテクチャ及びＨＡＮファイルサーバ１０の故障処
理機構（図１及び２）上述のように、本発明のＨＡＮファイルサーバ１０は階
層及びピアドメインの集まり、すなわちノードあるいは
サブシステムから構成され、各ドメインはファイルサー
バの１つ以上のタスクまたは機能を実行するとともに故
障処理機構を備えている。例えば、ＨＡＮファイルサー
バ１０は、それぞれ、ネットワーク３４Ｎ、制御／プロ
セッササブシステム１４、記憶サブシステム１２を有す
る３つの階層ドメイン１０Ａ、１０Ｂ、１０Ｃから構成
され、ファイルサーバの独立した及び相補的な機能を実
行する。つまり、ドメイン１０Ａは、クライアント３４
とＨＡＮファイルサーバ１０との間のクライアント／サ
ーバ通信を提供し、ドメイン１０Ｂ、すなわち、制御／
プロセッササブシステム１４は、ドメイン１０Ａのクラ
イアント／サーバ通信をサポートするとともに高レベル
ファイルシステムトランザクションをサポートし、ドメ
イン１０Ｃ、すなわち、記憶サブシステム１２は、クラ
イアントのファイルシステムをサポートする。制御／プ
ロセッササブシステム１４は、２つのピアドメイン１０
Ｄ及び１０Ｅ、すなわち、ブレイド１４Ａ及び１４Ｂか
らなり、並列機能、特にクライアント／サーバ通信機能
及びより高い及び低いレベルのファイルシステム操作を
実行し、それにより、クライアント通信及びファイル操
作のタスクの負荷を分担する。後に詳細に説明されるよ
うに、ブレイド１４Ａ及び１４Ｂを備えたドメインはま
た、クライアント／サーバ通信、ブレイド１４の相互通
信、高レベルファイルシステム機能、記憶サブシステム
１２で実行される低レベルファイルシステム機能の故障
処理及びサポートを提供する独立して機能する故障処理
機構を備える。各ブレイド１４は、処理ユニット３６Ａ
及び３６Ｂに基づく２つの階層ドメイン１０Ｆ及び１０
Ｇから構成されるドメインであり、ブレイド１４Ａ及び
１４Ｂの機能を併せ持つ別個ではあるものの相補的な機
能を実行する。後述するように、一方の処理ユニット３
６は、高レベルファイル操作及びクライアント／サーバ
通信を両機能のための故障処理機構に提供する上層ドメ
イン１０Ｆを形成する。他方の処理ユニット３６は、低
レベルファイル操作及びブレイド１４の相互通信を提供
する下層ドメイン１０Ｇを形成し、両機能及び上層ドメ
イン１０Ｆのサーバ機能と故障処理機構とをサポートす
る独立して機能する故障処理機構を備える。最後に、記
憶サブシステム１２は、同様に、ディスクドライブ１
８、すなわち、サーバの記憶エレメントを構成して、ブ
レイド１４のドメイン１０ＥによりサポートされるＲＡ
ＩＤ機構を間接的にサポートする下層ドメイン１０Ｈ
と、ドメイン１０Ｄ及び１０Ｅとドメイン１０Ｈとの間
の通信をサポートする記憶ループモジュール２０Ａ及び
２０Ｂを備えたピア上層ドメイン１０Ｉ及び１０Ｊとか
ら構成される。

【００２４】従って、以下に記述するように、各ＨＡＮ
ファイルサーバ１０ドメインは、１つの中央統一機構あ
るいは調整機構なしに、互いに独立して別々に、しかし
ながら互いに協調的に動作する１つ以上の故障処理機構
を直接あるいは間接的に有するまたは備える。そのた
め、あるドメインのコンポーネントの機能あるいは操作
が故障しても、関連するドメインの対応するコンポーネ
ントが後を引き継ぐ。さらに、以下に記述するように、
ＨＡＮファイルサーバ１０の故障処理機構は、一箇所あ
るいは複数箇所に故障が起きても継続した機能を提供で
きるように、複数の異なる技術あるいは方法を外からは
わからないように採用している。

【００２５】ＨＡＮファイルサーバ１０の全体構造及び
操作をこれまで説明してきたが、以下には、ＨＡＮファ
イルサーバ１０の各ドメインをさらに詳細に、そしてＨ
ＡＮファイルサーバ１０の故障処理機構の構造及び操作
を説明する。１．ブレイド１４の処理と制御コア図２に、本実装のブレイド１４を示す。ブレイド１４
は、デュアル処理ユニット３６Ａ及び３６Ｂの計算コア
をそれぞれ形成するプロセッサ３８Ａ及び３８Ｂと、メ
モリコントローラハブ（ＭＣＨ）３８Ｃ、メモリ３８
Ｄ、入出力コントローラハブ（ＩＣＨ）３８Ｅのような
多数の共有エレメントとを備える。本実装において、例
えば、プロセッサ３８Ａ及び３８Ｂは、それぞれ、内蔵
のレベル２キャッシュを有するインテルペンティアムＩ
ＩＩであり、ＭＣＨ３８Ｃ及びＩＣＨ３８Ｅはインテル
８２０チップセットであり、メモリ３８ＤはＲＤＲＡＭ
あるいはＳＤＲＡＭの５１２ＭＢ以上からなる。

【００２６】図に示すように、プロセッサ３８Ａ及び３
８Ｂは、パイプラインフロントサイドバス（ＦＳＢ）３
８Ｆ及びＭＣＨ３８Ｃの対応するＦＳＢポート３８ＣＡ
を介してＭＣＨ３８Ｃと相互接続されている。当業者に
は理解されるように、ＭＣＨ３８Ｃ及びＭＣＨ３８Ｃの
ＦＳＢポートは、プロセッサ３８Ａ及び３８Ｂからのメ
モリ参照の初期化及び受信と、プロセッサ３８Ａ及び３
８Ｂからの入出力（Ｉ／Ｏ）及びメモリマップＩ／Ｏ要
求の初期化及び受信と、メモリ３８Ｃからプロセッサ３
８Ａ及び３８Ｂへのメモリデータの受け渡しと、メモリ
Ｉ／Ｏ要求から生じるメモリスヌープサイクルの初期化
とをサポートする。さらに、ＭＣＨ３８Ｃはメモリ３８
Ｄへのメモリポート３８ＣＢと、ＩＣＨ３８Ｅへのハブ
リンクバス３８Ｇに接続するハブリンクポート３８ＣＣ
と、業界標準パーソナルコンピュータ相互接続（ＰＣ
Ｉ）バスとして機能する４つのＡＧＰポート３８ＣＤと
を備えている。各ＰＣＩバスは、インテル２１１５４チ
ップのようなプロセッサツープロセッサブリッジユニッ
ト（Ｐ−Ｐブリッジ）３８Ｈへのプロセッサに接続され
ている。

【００２７】ＩＣＨ３８Ｅは、ＭＣＨ３８Ｃへのハブリ
ングバス３８Ｇに接続するハブリンクポート３８ＥＡ、
ファームウェアメモリ３８Ｉに接続するファームウェア
ポート３８ＥＢ、ハードウェアモニタ（ＨＭ）３８Ｊに
接続するモニタポート３８ＥＣ、ブートドライブ３８Ｋ
に接続するＩＤＥドライブポート３８ＥＤ、スーパーＩ
／Ｏデバイス（スーパーＩ／Ｏ）３８Ｌに接続するＩ／
Ｏポート３８ＥＥ、他のエレメントと共に、ＶＧＡデバ
イス（ＶＧＡ）３８Ｍ及び管理ローカルエリアネットワ
ークデバイス（ＬＡＮ）３８Ｎに接続するＰＣＩポート
３８ＥＦを含んでいる。当業者には上記の説明で十分理
解されるであろう。

【００２８】２．ブレイド１４のパーソナルコンピュー
タ互換サブシステムＩＣＨ３８Ｅ、スーパーＩ／Ｏ３８Ｌ、ＶＧＡ３８Ｍは
併せてパーソナルコンピュータ（ＰＣ）互換サブシステ
ムを構成し、ローカル制御及び表示の目的でＨＡＮファ
イルサーバ１０のためのＰＣ機能及びサービスを提供す
る。この目的のために、当業者には理解されるように、
ＩＣＨ３８Ｅは、ＩＤＥコントローラ機能、ＩＯＡＰ
ＩＣ、８２Ｃ５９ベースのタイマ及びリアルタイムクロ
ックを備える。スーパーＩ／Ｏ３８Ｌは、例えば、標準
マイクロシステムデバイスＬＰＣ４７Ｂ２７ｘであって
もよく、８０４２キーボード／マウスコントローラ、
２．８８ＭＢスーパーＩ／Ｏフロッピィディスクコント
ローラ、フル機能デュアルシリアルポートを提供する。
一方、ＶＧＡ３８Ｍは、例えば、１ＭＢフレームバッフ
ァメモリをサポートするシーラスロジック（Ｃｉｒｒｕ
ｓＬｏｇｉｃ）６４ビットビジュアルメディア（Ｖｉ
ｓｕａｌＭｅｄｉａR）アクセラレータＣＬ−ＧＤ５４
４６−ＱＣであってもよい。

【００２９】３．ブレイド１４のファームウェア及びＢ
ＩＯＳサブシステムＩＣＨ３８Ｅ及びファームウェアメモリ３８Ｉは、併せ
て、通常のファームウェア及びＢＩＯＳ機能を実行する
ファームウェア及びＢＩＯＳサブシステムを構成し、そ
の機能には、ブレイド１４Ａ及び１４Ｂリソースのパワ
ーオンセルフテスト（ＰＯＳＴ）及びフル設定が含まれ
る。例えば、ＡＭＩ／Ｐｈｏｅｎｉｘから利用できるよ
うな標準ＢＩＯＳであるファームウェア及びＢＩＯＳ
は、１ＭＢのフラッシュメモリを備えたファームウェア
メモリ３８Ｉに存在する。ＰＯＳＴが完了すると、ＢＩ
ＯＳは上述したＰＣＩバスをスキャンし、このスキャン
の間、上述及び後述する２つのＰＣＩツーＰＣＩブリッ
ジを設定し、以下に記述するバックエンド及びフロント
エンドＰＣＩバス上のファイバチャネル及びＬＡＮコン
トローラの存在を検出してＰＣＩアドレス空間にマップ
する。この情報は、ＰＣ互換ＩＯやメモリサイズなどの
他の標準サイジング情報とともにＩＯサブシステムのト
ポロジを記述するＭＰ対応テーブルに書き留められ、Ｐ
ＯＳＴは単純なパスチェックとメモリ診断とを実行す
る。ＰＯＳＴの終了後、綿密なリブート診断パッケージ
を含むフラッシュレジデントユーザバイナリコードセグ
メントがロードされる。リブート診断パッケージはま
た、ファイバチャネルデバイスを初期化するとともに、
パターンセンシティブデータを使ってデータパス及びＤ
ＲＡＭセルを試験することにより、コンピュートブレイ
ド上のコンポーネントの整合性をチェックする。診断が
実行されると、制御はＢＩＯＳあるいはブートストラッ
プユーティリティに戻される。制御がＢＩＯＳに移され
る場合は、システムはブートを続け、制御がブートスト
ラップユーティリティに移される場合は、ブートブロッ
クがファイバディスクから読み取られ、制御は新しくロ
ードされたオペレーティングシステムのイメージに引き
渡される。さらに、このサブシステムは、全体のシステ
ム管理アーキテクチャをサポートする、エラーチェック
ロジック、環境モニタリング、エラー及びスレッショル
ドロギングなどの機能を提供する。最下層レベルでは、
内蔵プロセッサキャッシュパリティ／ＥＣＣエラー、Ｐ
ＣＩバスパリティエラー、ＲＤＲＡＭＥＣＣエラー、
フロントサイドバスＥＣＣエラーを含むハードウェアエ
ラー及び環境スレッショルドチェックが実行される。エ
ラー及び超過の環境スレッショルドイベントは、ＤＭＩ
互換レコードフォーマットでフラッシュプロムの一部に
ロギングされる。

【００３０】４．ブレイド１４のＩ／Ｏバスサブシステ
ム最後に、ＭＣＨ３８Ｃ及びＩＣＨ３８Ｅは、ブレイド１
４の２つの入出力（Ｉ／Ｏ）バスサブシステムをサポー
トする。うち一方はＭＣＨ３８Ｃによってサポートされ
るバックエンドバスサブシステム（ＢＥＢｕｓＳｙ
ｓ）３８Ｏであり、前述のブレイド１４及び記憶サブシ
ステム１２の対応するループバス２６間の双方向接続
と、コンピュートブレイドバス３０を介したブレイド１
４Ａ及び１４Ｂ間の双方向接続とを提供する。他方はＩ
ＣＨ３８Ｅによってサポートされるフロントエンドバス
サブシステム（ＦＥＢｕｓＳｙｓ）３８Ｐであり、前
述のネットワーク３４への及びそれからの双方向接続を
提供する。ネットワーク３４は、前述のように、例え
ば、ローカルエリアネットワーク（ＬＡＮ）、広域ネッ
トワーク（ＷＡＮ）、直接プロセッサ接続またはバス、
ファイバオプティックリンク、あるいは前記の組み合わ
せであることができる。

【００３１】まず、ＢＥＢｕｓＳｙｓ３８Ｏについて
考えると、上述のように、ＭＣＨ３８Ｃは、業界標準パ
ーソナルコンピュータ相互接続（ＰＣＩ）バスとして機
能する４つのＡＧＰポート３８ＣＤをサポートする。各
ＡＧＰポート３８ＣＤは、インテル２１１５４チップの
ようなプロセッサツープロセッサブリッジユニット（Ｐ
−Ｐブリッジ）３８Ｈに接続される。Ｐ−Ｐブリッジ３
８Ｈは、例えば、タックライト（ＴａｃｈＬｉｔｅ）
ファイバチャネルコントローラから構成される２つのフ
ァイバチャネルコントローラ（ＦＣＣ）３８Ｑの双方向
バスポートに接続される。ＦＣＣ３８Ｑの並列ファイバ
チャネルインターフェイスは、２つの対応するシリアラ
イザ／デシリアライザデバイス（ＳＥＲ−ＤＥＳ）３８
Ｒの並列ファイバチャネルインターフェイスに接続され
ている。一方のＳＥＲ−ＤＥＳ３８Ｒのシリアルインタ
ーフェイスはコンピュートブレイドバス３０に接続さ
れ、他方のデュアルブレイド１４への通信接続を提供す
る。他方のＳＥＲ−ＤＥＳ３８Ｒのシリアルインターフ
ェイスは記憶サブシステム１２の対応するループバス２
６に接続されている。

【００３２】ＦＥＢｕｓＳｙｓ３８Ｐでは、上述のよ
うに、ＩＣＨ３８ＥがＰＣＩポート３８ＥＦを備えてお
り、図に示すように、ＰＣＩポート３８ＥＦは、ＰＣＩ
バスツーＰＣＩバスブリッジユニット（Ｐ−Ｐブリッ
ジ）３８Ｈと双方向に接続されている。Ｐ−Ｐブリッジ
３８Ｈは、例えば、双方向３２ビット３３ＭＨｚフロン
トエンドＰＣＩバスセグメントをサポートするインテル
２１１５２から構成される。フロントエンドＰＣＩバス
セグメントは、ネットワーク３４に接続する１群の双方
向ネットワークデバイス（ＮＥＴＤＥＶ）３８Ｔに接続
されていて、ＮＥＴＤＥＶ３８Ｔは、例えば、インテル
８２５５９１０／１００イーサネットコントローラデ
バイスである。前述のように、ネットワーク３４は、例
えば、ローカルエリアネットワーク（ＬＡＮ）、広域ネ
ットワーク（ＷＡＮ）、直接プロセッサ接続またはバ
ス、ファイバオプティックリンク、あるいは前記の組み
合わせであることができ、ＮＥＴＤＥＶ３８Ｔはそれに
応じて選択されることが理解されるであろう。

【００３３】最後に、ＢＥＢｕｓＳｙｓ３８Ｏ及びＦ
ＥＢｕｓＳｙｓ３８Ｐについて、本実施例において
は、ＢＥＢｕｓＳｙｓ３８Ｏ及びＦＥＢｕｓＳｙｓ
３８Ｐの両方がＰＣＩタイプのバスであり、そのため、
共通の割り込み構造を有している。このため、ＢＥＢ
ｕｓＳｙｓ３８Ｏ及びＦＥＢｕｓＳｙｓ３８ＰのＰＣ
Ｉ割り込みは、ＢＥＢｕｓＳｙｓ３８ＯのＰＣＩバス
デバイスがＦＥＢｕｓＳｙｓ３８ＰのＰＣＩバスデバ
イスと割り込みを共有しないようにルーティングされ
る。

【００３４】ｃ．ＨＡＮファイルサーバ１０の操作（図
１、２、３）１．ＨＡＮファイルシステム１０の全体的な操作上述のように、ＨＡＮファイルシステム１０は、デュア
ルコンピュートブレイド１４を備え、各コンピュートブ
レイド１４は記憶サブシステム１２の全てのディスクド
ライブ１８への完全なアクセスと、全てのクライアント
ネットワーク３４Ｎへの接続とを有し、それぞれ独立し
てＨＡＮファイルシステム１０の全ての機能及び操作を
実行できる。ブレイド１４の機能及び操作構造の概略図
を図３に示す。図３は、ブレイド１４Ａ及び１４Ｂのう
ちの一方を示し、他方のブレイド１４は図のブレイド１
４と同一であり、かつミラーイメージであることが理解
されるだろう。

【００３５】ブレイド１４の内部では、上述のように、
デュアル処理ユニット３６Ａ及び３６Ｂが、例えば、メ
モリコントローラハブ（ＭＣＨ）３８Ｃ、メモリ３８
Ｄ、入出力コントローラハブ（ＩＣＨ）３８Ｅのよう
な、多数のブレイド１４エレメントを共有している。処
理ユニット３６Ａ及び３６Ｂはそれぞれ、互いに独立し
ながらも協調的に動作し、それぞれがメモリ３８Ａに存
在するリアルタイムオペレーティングシステム（ＯＳ）
４０の別々のコピーを実行する。ＯＳ４０の各コピー
は、例えば、処理ユニット３６Ａ及び３６Ｂの対応する
一方のために、基本メモリ管理、タスクスケジューリン
グ、同期機能、他の基本オペレーティングシステム機能
を提供する。処理ユニット３６Ａ及び３６Ｂは、共有メ
モリ３８Ａに設けられたメッセージパッシング機構（メ
ッセージ）４２を介して通信し、メッセージは、例え
ば、Ｉ／Ｏの開始、Ｉ／Ｏの終了、ディスク故障のよう
なイベント通知、ステータスクエリー、ブレイドバス３
０を介してミラーリングされる、ファイルシステムジャ
ーナルのような重要なデータ構造のミラーリングのため
に規定される。初期設定時、各ブレイド１４はＯＳ４０
と、ＲＡＩＤファイルシステム及びネットワークイメー
ジとの両方のコピーをバックエンドディスクドライブ１
８からロードする。それぞれ処理ユニット３６Ａ及び３
６Ｂの一方を実行する２つのＲＡＩＤカーネルは、その
後、ＯＳ４０の２つのインスタンス間でブレイド１４の
メモリ３８Ａを協力して分割し、ＯＳ４０カーネルのコ
ピーがロードされた後、処理ユニット３６Ａ及び３６Ｂ
の操作を開始する。初期設定の後、ＯＳ４０カーネルは
メッセージ４２を介して通信する。

【００３６】図３に示すように、各ブレイド１４の内部
で、処理ユニット３６Ａ及び３６Ｂの一方はバックエン
ドプロセッサ（ＢＥＰ）４４Ｂと称されて動作する。そ
して、上述のように、ＲＡＩＤ設定ディスクへの及びそ
れからのデータの書き込み及び読み出しのためのブロッ
ク記憶システムとして動作するとともに、ＲＡＩＤ機構
（ＲＡＩＤ）４６を備える。ＲＡＩＤ４６には、ＲＡＩ
Ｄデータ記憶及びバックアップ機能を実行するＲＡＩＤ
ファイル機構（ＲＡＩＤＦ）４６Ｆと、ＲＡＩＤ関連の
システムモニタリング機能及び以下に示す他の機能を実
行するＲＡＩＤモニタ機構（ＲＡＩＤＭ）４６Ｍとが含
まれる。処理ユニット３６Ａ及び３６Ｂの他方はフロン
トエンドプロセッサ（ＦＥＰ）４４Ｆと称されて動作
し、クライアントとディスクレジデントブロック記憶シ
ステムとの間でデータを移動するための全てのネットワ
ーク及びファイルシステム操作、そして、ネットワーク
ドライバ、ＣＩＦＳ及びＮＦＳプロトコルを含むプロト
コルスタックのサポートとジャーナルファイルシステム
の維持とを含めたＢＥＰ４４Ｂの対応するＲＡＩＤ機能
を実行する。

【００３７】ブロック記憶システム操作に加えて、ＢＥ
Ｐ４４Ｂの機能には、ＲＡＩＤＦ４６Ｆ及びＲＡＩＤＭ
４６Ｍを介してのコアＲＡＩＤファイルシステムサポー
トアルゴリズムの実行、ディスクドライブ１８の操作の
モニタリング、自身が存在するブレイド１４及びピアブ
レイド１４の両方の操作及び状態のモニタリング、管理
機能への故障の連絡が含まれる。図２及びＢＥＢｕｓ
Ｓｙｓ３８Ｏについて上述したように、ＢＥＰ４４Ｂは
また、ＢＥＢｕｓＳｙｓ３８Ｏとブレイドバス３０と
を介してブレイド１４Ａ及び１４Ｂ間の通信を、そして
ＢＥＢｕｓＳｙｓ３８Ｏと記憶サブシステム１２の対
応するループバス２６とを介してディスクドライブ１８
との通信をサポートする。ＲＡＩＤＭ４６Ｍはまた、ブ
レイド１４の電源装置をモニタし、停電の際には適切な
処理を実行する。例えば、ディスクドライブ１８に重要
なデータ構造の緊急書き込みを行ったり、処理ユニット
３６Ａ及び３６Ｂの生き残った方が適切な処理を開始で
きるように処理ユニット３６Ａ及び３６Ｂの一方に通知
をする。ＢＥＰ４４Ｂはさらに、確実なブートストラッ
プサポート機能を提供し、それによりランタイムカーネ
ルがディスクドライブ１８に保存され、システムブート
の際ロードされることができる。

【００３８】ＦＥＰ４４Ｆは、ブレイド１４の全てのネ
ットワーク３４関連機能及び操作を実行するネットワー
ク機構（ネットワーク）４８を備え、ＦＥＢｕｓＳｙ
ｓ３８Ｐ及びＮｅｔＤｅｖ３８Ｔのエレメントを含んで
いる。例えば、ネットワーク４８は、ＦＥＢｕｓＳｙ
ｓ３８Ｐを含むネットワーククライアントに利用可能な
リソースを管理及び提供し、ネットワーク３４を介して
クライアント３４ＣにＨＡＮファイルシステム１０への
アクセスを提供する。後述するように、ネットワーク４
８はまた、ＦＥＰ４４Ｆに存在する通信フェイルオーバ
ー機構と、ここに記載されるその他の高可用性機能とを
サポートする。

【００３９】ＦＥＰ４４Ｆはまた、ジャーナルファイル
システム（ＪＦｉｌｅ）５０を含む。ジャーナルファイ
ルシステム（ＪＦｉｌｅ）５０は、ネットワーク４８を
介してＨＡＮファイルシステム１０のクライアントと、
そしてメッセージ４２を介してＲＡＩＤＭ４６ＦのＲＡ
ＩＤファイルシステム機能と通信する。図に示すよう
に、ＪＦｉｌｅ５０は、ＪＦｉｌｅ５０のファイルシス
テム機能を実行するファイルシステム機構（ＦＳＭ）５
０Ｆと、ＦＳＭ５０Ｆと相互作用してそれぞれデータト
ランザクションのデータ及び操作をキャッシュし、デー
タトランザクションのジャーナルを維持する内蔵書き込
みキャッシュ（ＷＣａｃｈｅ）５０Ｃ及びトランザクシ
ョンログ（ログ）５０Ｌとを含む。ログ５０Ｌには、要
求されたデータトランザクションを表すログエントリ
（ＳＥ）５０Ｅを生成するためのログジェネレータ（Ｌ
Ｇｅｎ）５０Ｇと、ＳＥ５０Ｅを記憶するログメモリ
（ＬｏｇＭ）５０Ｍとが含まれる。ＬｏｇＭ５０Ｍの大
きさは、以下に記述されるように、ジャーナルされるべ
きデータトランザクションの数に依存する。図に示すよ
うに、ＢＥＰ４４Ｂには、ＷＣａｃｈｅ５０Ｃと通信し
て、ＷＣａｃｈｅ５０Ｃの中身をミラーリングするキャ
ッシュミラー機構（ＣＭｉｒｒｏｒ）５４Ｍが含まれ
る。さらに、各ブレイド１４のログ５０Ｌは、反対側の
ピアブレイド１４に存在するログ５０Ｌのミラー機構
（ＬＭｉｒｒｏｒ）５４Ｌによってミラーリングされ、
各ブレイド１４のログ５０Ｌは、メッセージ４２、ＢＥ
ＢｕｓＳｙｓ３８Ｏ、ブレイドバス３０を含むパスを
介して対応するＬＭｉｒｒｏｒ５４Ｌと通信する。

【００４０】最後に、ＦＥＰ４４Ｆには、ステータスモ
ニタ機構（モニタ）５２が含まれる。モニタ５２は、Ｈ
ＡＮファイルシステム１０の変更に関するＢＥＰ４４Ｂ
からの通知をモニタし、その変更を受けて適切な処理を
開始する。この通知には、例えば、ＲＡＩＤグループに
新しく挿入されたディスクのバインディングに関する、
あるいは故障したディスクのためのＳＮＭＰトラップを
起動するＲＡＩＤＭ４６Ｍからの通知が含まれ、モニタ
５２により開始される操作には、例えば、以下に記述す
るように、ＲＡＩＤ機能が非常に重大なエラーに遭遇し
た場合等に、ＨＡＮファイルサーバ１０の故障処理機構
によりフェイルオーバー動作を開始すること、あるいは
ブレイド１４を完全にシャットダウンすることが含まれ
る。

【００４１】２．ＨＡＮファイルサーバ１０のファイル
システム機構の操作（図１、２、３）上記及び図３に示したように、ＨＡＮファイルサーバ１
０のファイルサーバ機構は、３つの主要なコンポーネン
トあるいは層を含む。１つ目の最上層は、ブレイド１４
Ａ及び１４Ｂそれぞれのフロントエンドプロセッサ４４
Ｆに存在するＷＣａｃｈｅ５０Ｃ及びＬｏｇ５０Ｌを含
むＪＦｉｌｅ５０のファイルシステム機構である。最下
層には、ディスクドライブ１８を備えた記憶サブシステ
ム１２と、ブレイド１４Ａ及び１４ＢそれぞれのＢＥＰ
４４Ｂに存在するブロック記憶システム機能及びＲＡＩ
ＤＦ４６Ｆ機能とが含まれる。ＨＡＮファイルサーバ１
０ファイルシステム機構の３番目の層あるいはコンポー
ネントは、ファイルシステム機構の操作に影響する故障
を検出して処理し、ファイルシステム故障からの回復を
行う故障処理機構から構成される。上層及び下層ファイ
ルシステムエレメントの構造及び操作はすでに上述され
ており既知のエレメントと類似しているので当業者には
よく理解されることであろう。そのため、本実施例のＨ
ＡＮファイルサーバ１０ファイル機構のこれらのエレメ
ントは、本発明を完全に理解するのに必要でない限りこ
こでは詳細に説明されない。以下の記述は、その代わり
に、ＨＡＮファイルサーバ１０ファイル機構の故障処理
機構、特にＨＡＮファイルサーバ１０の上層レベルのフ
ァイルシステムエレメントの操作に関する故障処理機構
に焦点をあてる。

【００４２】上述のように、ＨＡＮファイルサーバ１０
ファイル機構の第３のコンポーネントは、ＨＡＮファイ
ルサーバ１０コンポーネントの損失から生じるデータの
損失に対する保護を提供するミラーリング機構から構成
される。図３に示すように、ミラーリング機構には、各
ブレイド１４毎に、ブレイド１４のＢＥＰ４４Ｂに存在
するキャッシュミラー機構（ＣＭｉｒｒｏｒ）５４Ｍ
と、反対側のピアブレイド１４のＢＥＰ４４Ｂに存在す
るログミラー機構（ＬＭｉｒｒｏｒ）５４Ｌとが含まれ
る。ＣＭｉｒｒｏｒ５４Ｍは、メッセージ４２を介して
ＪＦｉｌｅ５０のＷＣａｃｈｅ５０Ｃと通信する継続動
作キャッシュミラーリング機構である。ログ５０Ｌは、
ピアブレイド１４のＢＥＰ４４Ｂに存在するＬＭｉｒｒ
ｏｒ５４Ｌにより要求に応じてミラーリングされ、メッ
セージ４２、ＢＥＢｕｓＳｙｓ３８Ｏ、コンピュート
ブレイドバス３０を介して対応するＬｏｇＭ５０Ｍと通
信する。これにより、クライアントに通知される前に、
ブレイド１４Ａあるいは１４Ｂの一方を介したファイル
システムへの全データ変更が、ブレイド１４Ａあるいは
１４Ｂの他方に反映される。これに関連して、本実施例
においては、ログ５０Ｌのミラーリングは、各ファイル
システムトランザクションの処理中に実行される。その
ため、トランザクションログミラーリングのレイテンシ
は実際のファイルシステムトランザクションの実行によ
り限度ぎりぎりまで掩蔽される。最後に、ＲＡＩＤＦ４
６Ｆによりサポートされ提供されるディスクドライブ１
８ファイルシステム、制御、モニタリング、データ回復
／再構築機能は、ＨＡＮファイルサーバ１０データ保護
機構の一部でもあり、記憶サブシステム１２内部へのデ
ータミラーリング法を使用していることが理解されるだ
ろう。

【００４３】以下に記述されるように、これらのミラー
リング機構は、よって、故障のタイプによって、ブレイ
ド１４における故障を処理する数多くの代替法をサポー
トしている。例えば、ブレイド１４の一方が故障した
際、生き残ったブレイド１４は、そのＬＭｉｒｒｏｒ５
４Ｌに保存されたファイルトランザクションを読み取
り、故障したブレイド１４が復帰したときに故障してい
たブレイド１４に戻す。その際には、復帰したブレイド
１４により失われたファイルトランザクションが再実行
され回復される。他の方法では、ブレイド１４のネット
ワーク３４フェイルオーバー機構について以下に記述す
るように、故障したブレイド１４あてのファイルトラン
ザクションが、ブレイド１４間のブレイドバス３０のパ
スを介して、あるいはブレイド１４のネットワーク３４
ファイルオーバー機構によって生き残ったブレイド１４
へのクライアントのリダイレクションにより、生き残っ
ているブレイド１４にリダイレクトされる。生き残った
ブレイド１４は、それにより、故障したブレイド１４あ
てのファイルトランザクションの実行を引き継ぐ。以下
に記述するように、生き残ったブレイド１４は、この操
作の一部として、そのＬＭｉｒｒｏｒ５４Ｌに保存され
ている故障したブレイド１４からのファイルトランザク
ションを再実行することにより故障したブレイド１４の
失われたファイルトランザクションを再実行して回復す
るか、あるいは、故障したブレイド１４が復帰した後に
故障していたブレイド１４にファイルトランザクション
を読み戻す。これにより、故障の際の故障したブレイド
１４上のファイルシステムの状態が再構築され、確認済
みのトランザクションのために、故障したブレイドから
データが失われることはない。

【００４４】３．ＨＡＮファイルサーバ１０の通信機構
の操作（図１、２、３）図１、２、３に示すように、本発明に組み込まれている
ＨＡＮファイルサーバ１０の通信機構は、３つのレベル
あるいは層の通信機構から構成されるとみなすことがで
きる。説明のために、最上層レベルは、クライアント３
４Ｃと、ＨＡＮファイルサーバ１０によってサポートさ
れるクライアントファイルシステム構造との間のファイ
ルトランザクション通信のためのネットワーク３４関連
通信機構、及び、関連する通信故障処理機構から構成さ
れる。通信機構の中間層には、ブレイドバス３０及びメ
ッセージ４２を介したブレイド１４Ａ及び１４Ｂ間の通
信をサポートする通信機構と、関連する通信故障処理機
構とが含まれる。通信機構の最下層には、ブレイド１４
及び記憶サブシステム１２間、そして記憶サブシステム
１２のエレメント間の通信パス及び機構とが含まれる。
前記は、すでに説明されており、本発明を理解するため
に必要でない限りさらには説明されない。

【００４５】まず、ＨＡＮファイルサーバ１０の通信機
構の上層レベルについて考える。図３に示すように、ブ
レイド１４Ａ及び１４ＢそれぞれのＦＥＰ４４Ｆに存在
するネットワーク機構（ネットワーク）４８は、ＴＣＰ
／ＩＰプロトコルスタック（ＴＣＰ／ＩＰスタック）５
８を含むネットワークスタックオペレーティングシステ
ム（ＮｅｔＳＯＳ）５６とネットワークデバイスドライ
バ（ＮｅｔＤＤ）６０とを含み、以下に記述するよう
に、これらの機構には、単一ポート３４Ｐの故障、ネッ
トワーク３４の故障、ブレイド１４全体の故障を調整し
て処理する機能が含まれる。これに関連して、本文の他
の箇所にも記載するように、ネットワーク３４は、例え
ば、ローカルエリアネットワーク（ＬＡＮ）、広域ネッ
トワーク（ＷＡＮ）、直接プロセッサ接続またはバス、
ファイバオプティックリンク、あるいは前記の組み合わ
せから構成されることができ、ＮＥＴＤＥＶ３８Ｔ及び
ＮｅｔＤＤ６０はそれに応じて実装される。

【００４６】また、図３に示され、ＨＡＮファイルサー
バ１０の通信機構の高可用性について以下に説明される
ように、各ネットワーク４８はさらに、クライアントル
ーティングテーブル（ＣＲＴ）４８Ａを含む。ＣＲＴ４
８Ａは、ブレイド１４によりサポートされるクライアン
ト３４Ｃに付随するルーティング及びアドレス情報を含
むクライアントルーティングエントリ（ＣＲＥ）４８Ｅ
と、反対側のピアブレイド１４によってサポートされる
クライアント３４ＣのＣＲＥ４８Ｅとを保存する。当業
者には理解されるように、ＣＲＥ４８Ｅは、ネットワー
ク４８によって、所定のクライアント３４Ｃへファイル
トランザクション通信を送るために利用されることがで
き、必要であるならば、ブレイド１４に割り当てられた
クライアント３４Ｃから受領したファイルトランザクシ
ョン通信を識別、あるいは確認するために利用されるこ
ともできる。図に示すように、各ネットワーク４８には
また、ブレイドルーティングテーブル（ＢＲＴ）４８Ｂ
が含まれる。ＢＲＴ４８Ｂは、ブレイド１４にアクセス
可能でブレイド１４によって共有されるネットワーク３
４通信パスに関するアドレス及びルーティング情報を含
み、これにより、ブレイド１４間の利用可能な通信バス
を形成する。典型的な本実装のネットワーク４８におい
て、ＣＲＴ４８Ａ及びＢＲＴ４８Ｂ情報は、ブレイドバ
ス３０を含む通信パスを介してブレイド１４Ａ及び１４
Ｂ間で通信されるが、例えば、ネットワーク３４Ｍを介
して各ブレイド１４に提供されることもできる。

【００４７】ＨＡＮファイルサーバ１０のネットワーク
３４通信機構の全体的な操作を説明する。図１及び２を
見ると、ＨＡＮファイルサーバ１０の各ブレイド１４
は、ネットワーク３４と接続して通信する複数のポート
３４Ｐをサポートしている。例えば、本実装において、
各ブレイド１４は合計５つのポート３４Ｐをサポートし
ていて、うち４つのポート３４Ｐはネットワーク３４Ｎ
に接続されてクライアント３４Ｃにサービスを提供し、
１つのポートは、ＨＡＮファイルサーバ１０の管理のた
めに予約されて管理ネットワーク３４Ｍに接続されてい
る。図に示すように、ブレイド１４Ａ及び１４Ｂそれぞ
れの対応するポート３４Ｐは同じネットワーク３４に接
続されており、そのため、各ネットワーク３４は、対応
するポート３４Ｐを介して、ブレイド１４Ａ及び１４Ｂ
それぞれに接続される。本実施例において、ＨＡＮファ
イルサーバ１０のポート３４Ｐは、１０個の異なるＩＰ
アドレス、すなわち、各ポートにつき１アドレスを設定
され、ブレイド１４のそれぞれ対応する組み合わせのポ
ート３４Ｐのポート３４Ｐが同じネットワーク３４に接
続されている。そのため、各ネットワーク３４は、２つ
のアドレス、すなわちブレイド１４Ａ及び１４Ｂそれぞ
れの一方へのアドレスを介してＨＡＮファイルサーバ１
０をアドレス指定することができる。ＨＡＮファイルサ
ーバ１０の各クライアントが割り当てられるポート３４
Ｐは、従来技術であり当業者には簡単に理解されるよう
に、クライアントに存在するＡＲＰテーブルにより各ク
ライアント内で決定される。さらに、図２に示すよう
に、クライアント３４Ｃは、ＨＡＮファイルサーバ１０
がデフォルトのルートを設定されるかまたはＲＩＰまた
はＯＳＰのようなルーティングプロトコルを備える場
合、直接接続されたネットワーク３４通信のうちの一方
を介して、あるいは任意のルータ３４Ｒを介して、ＨＡ
Ｎファイルサーバ１０にアクセスできる。ＨＡＮファイ
ルサーバ１０の別の実装では、各クライアント３４Ｃ
は、複数のネットワーク３４を介してＨＡＮファイルサ
ーバ１０のポート３４Ｐに接続されることができ、ネッ
トワーク３４は、以下に記述するように、クライアント
３４ＣのＡＲＰテーブル及びＨＡＮファイルサーバ１０
を適切に改良することにより、ローカルエリアネットワ
ーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、直接プ
ロセッサ接続またはバス、ファイバオプティックリン
ク、あるいは前記の組み合わせのような異なる技術を利
用することができる。

【００４８】図３に示すように、ブレイド１４Ａ及び１
４Ｂそれぞれの各ＦＥＰ４４Ｆに存在するネットワーク
４８機構はさらに、ＣＩＦＳ６２及びＮＦＳ６４ネット
ワークファイルシステムと、その他の必要なサービスと
を備える。図３には示されていないこれらの付加的なサ
ービスには、以下のものが含まれる。

【００４９】ＮＥＴＢＩＯＳ − リモートリソースに
アクセスするためにＰＣクライアントによって使用され
るマイクロソフト／ＩＢＭ／インテルプロトコル。この
プロトコルの重要な特徴の１つは、サーバ名をトランス
ポートアドレスに変更することであり、サーバは、共有
資源、すなわち、\\server\shareを識別するためにクラ
イアントにより用いられるＵＮＣ名のコンポーネントと
なる。ＨＡＮファイルサーバ１０では、サーバはブレイ
ド１４Ａまたは１４Ｂを表す。ＮＥＴＢＩＯＳはまた、
ＣＩＦＳ６２パケットフレーミングを提供し、ＨＡＮフ
ァイルサーバ１０はＲＦＣ１００１及びＲＦＣ１００２
に規定されるようなＴＣＰ／ＩＰに優先してＮＥＴＢＩ
ＯＳを使用する。

【００５０】ＳＮＭＰ − ＳｉｍｐｌｅＮｅｔｗｏ
ｒｋＭａｎａｇｅｍｅｎｔＰｒｏｔｏｃｏｌ。ＨＡ
Ｎファイルサーバ１０に、エージェントと呼ばれる処理
を提供する。エージェントは、システムについての情報
を提供するとともに、通常でないイベントが起きた際、
トラップを送信する機能を提供する。

【００５１】ＳＭＴＰ − ＳｉｍｐｌｅＭａｉｌ
ＴｒａｎｓｐｏｒｔＰｒｏｔｏｃｏｌ。通常でないイ
ベントが起きた際、電子メールメッセージを送信するた
めにＨＡＮファイルサーバ１０により用いられる。ＮＦＳ − サンマイクロシステムズネットワーク情報
サービス。ＮＳＦファイルシステムへのアクセス制御に
用いられるユーザＩＤを識別するためにＮＦＳサーバに
よって用いられるプロトコルを提供する。

【００５２】ＲＩＰ − 動的ルーティングプロトコ
ル。ルータ３４Ｒのようなルータの背後で動作している
クライアントのサポートによりネットワークトポロジを
明らかにするために使用される。本実装のＨＡＮファイ
ルサーバ１０においては、このプロトコルは、ルーティ
ング情報のモニタのために受動モードで動作する。別の
実装においては、ユーザがシステム初期設定の間にデフ
ォルトルートを設定または明示してもよい。

【００５３】本発明の説明では、ＨＡＮファイルサーバ
１０の正常動作時は、各ネットワーク４８のエレメン
ト、すなわち、ＮｅｔＳＯＳ５６、ＴＣＰ／ＩＰスタッ
ク５８、ＮｅｔＤＤ６０、ＣＲＴ４８Ａは、クライアン
ト３４ＣとＨＡＮファイルサーバ１０との間のネットワ
ーク通信操作を実行するのに当業者には明らかな従来方
法で動作することが当業者には理解されるであろう。こ
のため、ＨＡＮファイルサーバ１０のこれらの機能につ
いてはこれ以上説明をしない。以下はＨＡＮファイルサ
ーバ１０のネットワーク関連通信機構の高可用性に焦点
をあてて説明する。

【００５４】４．ＨＡＮファイルサーバ１０の通信故障
処理機構(図１、２、３) ａ．ネットワーク通信故障機構通信または接続故障が簡単に検出される一方、どのコン
ポーネントが故障したのかを見極め、どんな訂正手段を
とるのが適当かを判断することが難しくかつ複雑である
ことは当業者には明白に理解されることであろう。例え
ば、故障の可能性のあるソースには、ポート３４Ｐ、あ
るいはポート３４Ｐとネットワーク３４のハブまたはス
イッチとの間のリンク、あるいはブレイド１４間のネッ
トワークのパーティションが含まれるがこれに限定され
るわけではない。しかしながら、ＨＡＮファイルサーバ
１０は、ブレイド１４故障と同様に、１つ以上のネット
ワーク３４インターフェイス故障及び、異なるタイプの
ネットワーク３４故障とに対処できるＩＰネットワーク
通信サービスを提供し、さらに、さまざまな故障を徐々
に減少させる機能をサーバシステムに提供するために、
異なるクラスあるいはタイプの故障を処理する多数の協
調的あるいは補足的な機構を実装する。例えば、ブレイ
ド１４のポート３４Ｐインターフェイス故障の際、ＨＡ
Ｎファイルサーバ１０は、ブレイド１４Ａ及び１４Ｂ間
のコンピュートブレイドバス３０接続を利用して、ネッ
トワークトラフィックをピアブレイド１４上の機能して
いる対応ポート３４Ｐからポート３４Ｐが故障したブレ
イド１４へ転送することができる。この機能により、１
つのネットワークポート３４Ｐの故障によりブレイド１
４全体が動かなくなるのが防がれ、その結果、ブレイド
１４によってサポートされるファイルシステムを移動す
る必要がなくなる。この機能はまた、故障が異なるネッ
トワーク３４上で起きる限り、すなわち、故障がブレイ
ド１４上の対応するポート３４Ｐの両方に起きない限
り、片方あるいは両方のブレイド１４上での複数のネッ
トワークポート３４Ｐ故障を調整できることが明らかで
ある。各ネットワーク３４のブレイド１４の一方で少な
くとも１つのポート３４Ｐが機能する限り、クライアン
トには故障が起きていることがわからない。

【００５５】ＨＡＮファイルサーバ１０の高可用性通信
機構は、各ブレイド１４ドメインに存在する通信フェイ
ルオーバー機構（ＣＦａｉｌ）６６により提供される。
ＣＦａｉｌ６６は、各ブレイド１４のネットワーク４８
の機構とブレイド１４Ａ及び１４Ｂのメッセージ４２機
構とについての通信故障処理のために別々に動作するも
のの協調的な機構を含む。

【００５６】まず、ネットワーク４８、すなわち、クラ
イアント３４Ｃ及び制御／プロセッササブシステム１４
ドメイン間の通信についてのＣＦａｉｌ６６の機能及び
操作について考える。ＣＦａｉｌ６６はＩＰパススルー
と呼ばれる操作を実行し、これにより、一方のブレイド
１４に関連する故障したネットワーク３４サービスは、
反対側のピアブレイド１４の故障していない対応ポート
３４Ｐに移され、以下に記述するように、ブレイド１４
を通る代わりのパスを介してルーティングされる。図３
に示すように、各ＣＦａｉｌ６６には、ブレイド１４の
ＦＥＰ４４Ｆに存在する通信モニタリング処理／プロト
コル機構（ＣＭｏｎｉｔｏｒ）６６Ｃが含まれる。ＣＭ
ｏｎｉｔｏｒ６６Ｃは、ブレイド１４Ａ及び１４ＢのＮ
ｅｔＳＯＳ５６の操作と、ポート３４Ｐ及びネットワー
ク３４を介した通信と、ブレイド１４Ａ及び１４Ｂ間の
ブレイドバス３０とを介した通信を含めたブレイド１４
の全ての通信機能をモニタして調整する。ポート３４Ｐ
及びネットワーク３４を介した通信のモニタリングと故
障検出のために、各ＣＦａｉｌ６６は、ネットワーク４
８とブレイド１４のポート３４Ｐとを介して動作するＳ
ＬＩＰインターフェイス（ＳＬＩＰ）６６Ｓを備えてお
り、ＳＬＩＰ６６Ｓは、ブレイド１４に存在し、ネット
ワーク調整パケット（ＮＣＰａｃｋ）６６Ｐを反対側の
ピアブレイド１４とやりとりする。ＮＣＰＡｃｋ６６Ｐ
は、例えば、ネットワーク調整情報及び通知を備え、Ｃ
Ｍｏｎｉｔｏｒ６６Ｃによって故障したポート３４Ｐを
検出及び識別するために用いられる。特に、各ＳＬＩＰ
６６Ｓは、ブレイド１４間の各ネットワーク３４パスを
介して、定期的に、反対側のピアブレイド１４のＳＬＩ
Ｐ６６Ｓ及びＣＭｏｎｉｔｏｒ６６ＣにビーコンＮＣＰ
ａｃｋ６６Ｐを送信する。ブレイド１４のＣＭｏｎｉｔ
ｏｒ６６Ｃが、所定の故障検出間隔で、パスを介して反
対側のピアブレイド１４からビーコンＮＣＰａｃｋ６６
Ｐを受領しない場合、ブレイド１４間のネットワーク３
４パスが、故障したものとして検出される。そして、反
対側のブレイド１４のポート３４Ｐインターフェイスに
故障が起こったと想定される。所定故障検出間隔は、Ｎ
ＣＰａｃｋ６６Ｐ通信間の間隔より長く、通常ＣＩＦＳ
クライアントタイムアウト間隔より短い。本実装におい
ては、この間隔は、１５秒のＣＩＦＳタイムアウト間隔
に対し、ほぼ５秒に設定される。

【００５７】図３に示すように、各ＣＦａｉｌ６６は、
ＣＭｏｎｉｔｏｒ６６Ｃに応答して任意のＡＲＰ応答６
６Ｒを生成するＡＲＰ応答ジェネレータ（ＡＲＰＧｅ
ｎ）６６Ｇと、ネットワーク４８によるクライアント３
４Ｃ通信のリダイレクションを管理するために、ＣＦａ
ｉｌ６６の操作にしたがってＣＲＴ４８Ａに存在するＣ
ＲＥ４８Ｅの内容を管理するパスマネージャ（ＰＭ）６
６Ｍとを含んでいる。ブレイド１４のＣＭｏｎｉｔｏｒ
６６Ｃが、ポート３４Ｐインターフェイスの故障のよう
な、ピアブレイド１４の通信パス故障を判断すると、そ
の情報はＡＲＰＧｅｎ６６Ｇに引き渡され、ＡＲＰＧｅ
ｎ６６Ｇは、クライアント３４Ｃの故障箇所に割り当て
られた、あるいは関連するネットワークアドレスを識別
するためにＡＲＰテーブル６６Ｔに保存された情報を使
用して、故障に関係するポート３４Ｐから接続されたク
ライアントへの、任意の対応ＡＲＰ応答６６Ｒを生成す
る。ＡＲＰ応答６６Ｒは、目標となるクライアント３４
ＣのＡＲＰテーブルの情報の修正または書き換えを行
い、クライアント３４Ｃを対応するポート３４Ｐの動作
しているポート３４Ｐ、すなわち、ＡＲＰ応答６６Ｒを
生成しているＣＦａｉｌ６６のポート３４Ｐにリダイレ
クトする。より具体的には、ＡＲＰＧｅｎ６６Ｇにより
送信された任意のＡＲＰ応答６６Ｒは、各クライアント
３４Ｃに存在するＡＲＰテーブルの修正または書き換え
を行い、クライアント３４Ｃからの通信を、ＡＲＰ応答
６６Ｒを送信するＡＲＰＧｅｎ６６Ｇを含むブレイド１
４の対応するポート３４Ｐに向けようとする。各ＣＦａ
ｉｌ６６は、それにより、故障した通信パスのクライア
ント３４ＣをＣＦａｉｌ６６が存在するブレイド１４の
対応するポート３４Ｐにリダイレクトしようとし、その
結果、以下に記述するように、故障したポート３４Ｐと
通信するクライアントを機能しているポート３４Ｐを備
えたブレイド１４の機能している対応ポート３４Ｐにリ
ダイレクトする。

【００５８】さらに、各ブレイド１４のＰＭ６６Ｍは、
ＣＭｏｎｉｔｏｒ６６Ｃの操作と、ＡＰＲＰＧｅｎ６６
Ｇによる１つ以上のＡＲＰ応答６６Ｒの生成とに、ＡＲ
Ｐ応答６６Ｒの目標であるクライアント３４Ｃに対応す
るＣＲＴ４８ＡのＣＲＥ４８Ｅを修正することにより応
じる。特に、ＰＭ６６Ｍは、故障したエントリ（ＦＥ）
４８ＦをＡＲＰ応答が向けられていた各クライアント３
４Ｃに対応するＣＲＥ４８Ｅに書き込んで、対応するク
ライアント４８Ｃの通信がリダイレクトされたことを示
し、ＣＲＴ４８Ａにパススルーフィールド（ＰＦ）４８
Ｐを設定して、ブレイド１４が１つのモードで動作して
いることを各ネットワーク４８に知らせる。

【００５９】この後、それ自身のポート３４Ｐを介し
て、ピアブレイド１４、すなわち、ピアブレイド１４上
でサポートされるクライアントファイルシステムあての
クライアント３４Ｃからの通信が受領されると、ネット
ワーク４８はＰＦ４８Ｐをチェックしてパススルーモー
ド操作が有効であるかどうか判断する。パススルーモー
ドが有効である場合、ネットワーク４８は、ブレイド１
４のＢＥＰ４４間のブレイドバス３０パスからなるパス
スルーパスを介してピアブレイド１４に通信を向ける。
さらに、先に記述したリダイレクションの結果として、
ネットワーク４８は、ブレイド１４のポート３４Ｐあて
のブレイドバス３０パススルーパスを介した通信ではあ
っても、他方のブレイド１４を通るリダイレクションに
よりブレイドバス３０パススルーパスを介してリダイレ
クトされた通信を受領できる。このような場合、ＣＭｏ
ｎｉｔｏｒ６６Ｃ及びＰＭ６６Ｍは、通信ソースであっ
たクライアント３４Ｃに対応するＣＲＥ４８Ｅを修正す
ることで、ネットワーク４８による通信の受領に応じ、
ブレイドバス３０パススルーパス及びピアブレイド１４
を介してクライアント３４Ｃに通信をルーティングす
る。これにより、影響を受けたクライアント３４Ｃへの
及びそれからのパスの両方向において通信のリダイレク
ションが完了する。

【００６０】ＨＡＮファイルサーバ１０の別の実装にお
いて、各クライアント３４Ｃは、複数のネットワーク３
４を介してＨＡＮファイルサーバ１０のポート３４Ｐに
接続されることができ、ネットワーク３４は、ローカル
エリアネットワーク（ＬＡＮ）、広域ネットワーク（Ｗ
ＡＮ）、直接プロセッサ接続またはバス、ファイバオプ
ティックリンク、あるいは前記の組み合わせなどの異な
る技術を使用することができることを上述した。これら
の実装において、ＣＦａｉｌ６６機構は、ネットワーク
３４通信の故障が検出されると上述のように動作する
が、さらに、生き残ったブレイド１４にクライアント３
４Ｃ通信をリダイレクトするのと同様に、クライアント
３４Ｃとポート３４Ｐが故障したブレイド１４との間の
利用可能及び機能している代わりのネットワーク３４パ
スを選択してもよい。この実装において、ＣＦａｉｌ６
６機構は、上述のように、クライアント３４ＣＡＲＰ
テーブル及びＣＲＥ４８Ｅを修正してクライアント３４
Ｃ通信をリダイレクトするが、代わりのパスを選択する
際に付加的なオプションを選択する。

【００６１】上述のＩＰパススルー操作に関して、ＨＡ
Ｎファイルサーバ１０のＣＦａｉｌ６６機構が、ネット
ワーク３４とブレイド１４との間の接続場所または原因
を識別しようとしないことに注目すべきである。その代
わりに、各ＣＦａｉｌ６６は、反対側のブレイド１４の
ポート３４Ｐインターフェイスに故障が起きたと想定
し、ＩＰパススルー操作を開始する。その結果、所定の
通信パスのためのＩＰパススルー操作が、ブレイド１４
Ａ及び１４Ｂによって同時に実行される。しかしなが
ら、ブレイド１４Ａ及び１４Ｂによって同時に実行され
るＩＰパススルー操作は、本発明においては衝突しな
い。すなわち、例えば、パススルー操作が、ブレイド１
４Ａ及び１４Ｂの一方のポート３４Ｐインターフェイス
の故障、あるいはブレイド１４Ａ及び１４Ｂの一方への
ネットワーク３４リンクの故障の結果である場合、故障
に関連するブレイド１４のＣＦａｉｌ６６は、そのポー
ト３４Ｐあるいはネットワーク３４リンクを介して接続
されるクライアント３４ＣにＡＲＰ応答６６Ｒを伝達す
ることができない。その結果、故障に関連するブレイド
１４のＣＦａｉｌ６６は、そのブレイド１４に対応する
クライアント３４Ｃトラフィックをリダイレクトするこ
とができない。しかしながら、反対側のブレイド１４、
すなわち、故障に関連しないブレイド１４のＣＦａｉｌ
６６は、故障したパスに関連したクライアント３４Ｃに
ＡＲＰ応答６６Ｒを送信し、その結果、ブレイド１４に
対応するクライアント３４Ｃトラフィックをリダイレク
トことに成功する。ネットワークのパーティションから
生じる故障の際には、以下に記述するように、両方のポ
ート３４Ｐインターフェイスがブレイド１４Ａ及び１４
Ｂ間のブレイドバス３０通信パスを介してネットワーク
パーティションを「橋渡し」できる。その結果、全ての
クライアント３４Ｃがブレイド１４Ａ及び１４Ｂのどち
らかと通信できる。

【００６２】最後に、ブレイド１４Ａ及び１４Ｂのどち
らかが完全に故障した際には、他方のブレイド１４の生
き残った対応ポート３４Ｐにより、故障したポート３４
Ｐのサービスの引き継ぎに関して上述した方法で、ＣＦ
ａｉｌ６６を介してＩＰパススルー操作が実行される。
ただし、故障したブレイド１４のポート３４Ｐ全てのネ
ットワークサービスは、生き残ったブレイド１４の対応
ポート３４Ｐによって引き継がれる。しかしながら、一
方のブレイド１４が完全に故障してしまうと、故障した
ブレイド１４により提供されていたクライアントのＴＣ
Ｐ接続が断ち切られてしまうので、ＩＰパススルーの完
了後再構築されなければならないことが当業者には明ら
かであるだろう。その後、故障したブレイド１４上で利
用可能だったサービスが生き残ったブレイド１４上で利
用可能になり、故障したブレイド１４のクライアントは
生き残ったブレイド１４に対してＴＣＰ接続を再構築で
きる。

【００６３】最後に、上述したＩＰパススルー機構の操
作に関して、ＨＡＮファイルサーバ１０によってサポー
トされるネットワーク３４関連通信操作には、上述した
ポイントツーポイント、またはクライアント３４Ｃから
ＨＡＮファイルサーバ１０への通信と同様に、例えば、
ネットワーク４８のＮｅｔＢＩＯＳ機構により、必要に
応じてブロードキャスト通信が含まれることが理解され
ることと思う。当業者には明らかであるように、ブロー
ドキャスト通信は、特定の受け手へというより複数の受
け手にあてられる点でポイントツーポイント通信とは異
なるが、ブレイド１４がパススルーモードで動作してい
る時には、クライアント３４Ｃ通信に似た方法で管理さ
れる。この場合、ブロードキャスト通信を受けるネット
ワーク４８は、上述のように、ブレイドがパススルーモ
ードで動作しているかどうかを調べ、もしそうであるな
らば、ブレイドバス３０パススルーパスを介して反対側
のブレイド１４のネットワーク４８に各ブロードキャス
ト通信を転送する。その結果、その通信は、他のネット
ワーク４８により直接受けたブロードキャスト通信と同
様に取り扱われる。

【００６４】上記に関して、業界標準ＣＩＦＳ仕様書に
はクライアントシステム上で動作しているアプリケーシ
ョンが接続を失った場合の影響が記載、あるいは特定さ
れていないことが当業者にはよく知られている。経験及
び実験及びアプリケーション説明書によれば、アプリケ
ーションのＴＣＰ接続が失われた場合の影響はアプリケ
ーションに依存しており、それぞれが故障に対して異な
る処理を行う。例えば、あるアプリケーションは、クラ
イアントにＴＣＰ接続を使用する操作を再実行するよう
に指示し、いくつかのアプリケーションは自動的に操作
を再実行する。別のアプリケーションは、ユーザに故障
を報告するのみである。このため、本実装のネットワー
クポートフェイルオーバー機構は、これらの機能を実装
するための機能を組み込んでおり、それには、各ポート
３４Ｐが複数のアドレスに対応することを可能にする、
複数のＩＰアドレスをサポートするためにポート３４Ｐ
を制御するＮｅｔＤＤ６０の機能と、故障したブレイド
１４からのＩＰアドレスを転送し、生き残ったブレイド
１４上のＩＰアドレスを作成するために必要な機能とが
含まれる。ネットワークポートフェイルオーバー機構に
はまた、任意のＡＲＰ応答６６Ｒを生成して故障したポ
ート３４Ｐに接続されたクライアントに送信し、さらに
クライアントのＡＲＰテーブルのＩＰアドレスが新しい
ポート３４Ｐをポイントするように変更したり、他のサ
ブシステムの可用性及び故障モニタリング機能と接続し
てブレイド１４の完全な故障がいつ起きたかを知った
り、故障したブレイド１４リソース名のためのＮｅｔＢ
ＩＯＳ名の変更を行ったりする上述した機能が含まれ
る。

【００６５】よって、ＨＡＮファイルサーバ１０のＣＦ
ａｉｌ６６機構が、ブレイド１４Ａ及び１４Ｂのポート
３４Ｐインターフェイス内のサブネットワークレベルを
も含めたどのネットワークレベルに故障が起きても、ク
ライアント３４ＣとＨＡＮファイルサーバ１０のブレイ
ド１４との間の通信を維持あるいは回復できることは明
らかである。唯一の必要条件は、ブレイド１４Ａあるい
は１４Ｂの少なくとも一方で、１つのネットワーク通信
パス及びネットワークインターフェイスが各ネットワー
ク３４のために機能することである。従って、本発明の
ＣＦａｉｌ６６機構は、従来技術に典型的な、ネットワ
ーク通信故障のソースと原因とを識別し隔離するのに必
要とされる複雑な機構や手順を必要とせず、その一方で
また、衝突する可能性のある故障管理操作を調節し、同
期させ、管理するのに必要とされる、これもまた従来技
術に典型的な複雑な機構や操作を必要としない。

【００６６】ｂ．ブレイド１４／ブレイド１４通信及び
故障処理機構ＨＡＮファイルサーバ１０の通信機構の中間層が、ブレ
イドバス３０及びメッセージ４２のような、制御／プロ
セッササブシステム１４ドメインのブレイド１４Ａ及び
１４Ｂドメイン間及びその内部の通信をサポートする通
信機構を含むことを上述した。例えば、前述のように、
ブレイドバス３０パス及びメッセージ４２は、ブレイド
１４間の一連のＨＡＮファイルサーバ１０管理運営通信
のために、通信引き継ぎ操作の際のファイルトランザク
ション操作パスのセグメントとして、ＣＭｉｒｒｏｒ５
４Ｍ及びＬＭｉｒｒｏｒ５４Ｌ操作においても使用され
る。

【００６７】上述し及び図２に示すように、ブレイド１
４間のブレイドバス３０通信パスは、ブレイドバス３
０、及び、各ブレイド１４のＢＥＰ４４Ｂに存在するＢ
ＥＢｕｓＳｙｓ３８Ｏから構成され、ＢＥＢｕｓＳ
ｙｓ３８Ｏには、Ｓｅｒ−Ｄｅｓ３８Ｒ、ＦＣＣ３８
Ｑ、Ｐ−Ｐブリッジ３８Ｈ、ＭＣＨ３８Ｃ、プロセッサ
３６Ａなどのエレメントが含まれる。図２には示されて
いないものの、ＢＥＢｕｓＳｙｓ３８Ｏはまた、プロ
セッサ３６Ａで、すなわち、ＢＥＰ４４Ｂで動作するＢ
ＥＢｕｓＳｙｓ３８Ｏ制御通信機構を備えている。Ｂ
ＥＢｕｓＳｙｓ３８Ｏ制御通信機構は、通常、当業者
には明らかな方法で動作し、ＢＥＢｕｓＳｙｓ３８Ｏ
及びブレイドバス３０を介する通信操作を実行する。プ
ロセッサ３６Ａ及び３６Ｂ、すなわち、各ブレイド１４
のＦＥＰ４４Ｆ及びＢＥＰ４４Ｂはまた、図２あるいは
３に示されていないメッセージ４２制御通信機構を実行
することが理解されるだろう。メッセージ４２制御通信
機構は、通常、当業者には明らかな方法で動作し、メッ
セージ４２を介する通信操作を実行する。

【００６８】ＢＥＰ４４Ｂ及びＦＥＰ４４Ａ間の通信を
提供するメッセージ４２は、各ブレイド１４のメモリ３
８Ａの共有メッセージ通信空間と、プロセッサ３６Ａ及
び３６Ｂで動作するメッセージング機構とから構成され
る。メッセージング機構は、通常、当業者には明らかな
方法で動作し、メッセージ４２を介する通信操作を実行
する。

【００６９】図３に示すように、ＣＦａｉｌ６６には、
ＳＬＩＰ６６Ｓ、ＣＭｏｎｉｔｏｒ６６Ｃ、ＡＲＰＧｅ
ｎ６６Ｇとは別の独立した故障処理機構が含まれる。Ｓ
ＬＩＰ６６Ｓ、ＣＭｏｎｉｔｏｒ６６Ｃ、ＡＲＰＧｅｎ
６６Ｇは、制御／プロセッササブシステム１４ドメイン
のブレイド１４Ａ及び１４Ｂドメイン間及びその内部の
通信についての故障処理のために、制御／プロセッササ
ブシステム１４ドメインへの及びそれからの通信と関連
して機能する。図からわかるように、ＣＦａｉｌ６６の
相互ブレイド１４ドメイン通信故障処理機構には、ブレ
イドバス３０及びブレイド１４のＢＥＢｕｓＳｙｓ３
８Ｏを含めた、ブレイド１４Ａ及び１４Ｂ間のブレイド
バス３０通信リンクの操作をモニタするブレイド通信モ
ニタ（ＢＭｏｎｉｔｏｒ）６６Ｂと、ブレイド１４のメ
ッセージ４２の操作とが含まれる。しかしながら、この
接続は図３には示されていない。まずブレイドバス３０
を取り上げると、ブレイド１４間、すなわち、ブレイド
バス３０あるいはＢＥＢｕｓＳｙｓ３８Ｏのブレイド
バス３０通信パスが何らかの理由で故障すると、この故
障はＢＭｏｎｉｔｏｒ６６Ｂによって検出され、通常、
プロセッサ３６Ａで動作するＢＥＢｕｓＳｙｓ３８Ｏ
制御機構が、ブレイドバス３０パスを介して試みられた
通信が受領確認されていないと通知する。

【００７０】ブレイドバス３０通信パスの故障の際に
は、ＢＭｏｎｉｔｏｒ６６Ｂは、ブレイド１４Ａ及び１
４Ｂ間の利用可能な通信ルーティングパスに関する情報
を保存しているブレイドルーティングテーブル（ＢＲ
Ｔ）４８Ｂを読み取る。そこに保存されたパス情報は、
例えば、ブレイドバス３０を介する通信のルーティング
情報を含み、さらに、ブレイド１４Ａ及び１４Ｂ間の利
用可能なネットワーク３４パスのルーティング情報も含
む。ＢＲＴ４８ＢはＣＦａｉｌ６６に関連して保存され
るが、図３に示すように、本実施例のブレイド１４にお
いては、ＢＲＴ４８Ｂはネットワーク４８と関連して存
在する。そのため、ネットワーク３４に関連するルーテ
ィングパス情報はすぐに利用されることができ、ＣＲＴ
４８Ａの構築などのネットワーク４８の正常動作時には
ネットワーク４８にアクセスすることができる。ＢＭＯ
ＮＩＴＯＲ６６Ｂは、故障したブレイドバス３０のパス
を除いて、ブレイド１４間の利用可能な通信パスについ
てのルーティング情報を読み取り、ブレイドバス３０パ
スの後継あるいは代理で使用される、ブレイド１４のネ
ットワーク４８間の利用可能なネットワーク３４パスを
選択する。この関係で、ＢＭＯＮＩＴＯＲ６６Ｂが、Ｐ
Ｍ６６ＭがＣＲＴ４８ＡのＣＲＥ４８Ｅを修正するのと
同様かつ同時に、全てのＩＰパススルー操作の間にＢＲ
Ｔ４８Ｂの内容を修正して、ブレイド１４間の機能して
いないネットワーク３４パスを示すことに注意しなけれ
ばならない。この結果、ブレイドバス３０パスの後継パ
スは、機能しているネットワーク３４パスのみから選択
される。

【００７１】ＢＭｏｎｉｔｏｒ６６Ｂは、その後、ＦＥ
Ｐ４４Ｆ及びＢＥＰ４４Ｂで動作するＢＥＢｕｓＳｙ
ｓ３８Ｏ及びメッセージ４２制御通信機構に、ブレイド
バス３０パスにルーティングされる全ての通信を、ＢＥ
Ｐ４４Ｂにより直接、あるいはＦＥＰ４４Ｆによりメッ
セージ４２を介して間接的に、ネットワーク４８及びＰ
Ｍ６６Ｍにより選択されたネットワーク３４パスへリダ
イレクトするという通知を出す。

【００７２】従って、どんな理由によりブレイド１４間
のブレイドバス３０通信パスに故障が起きても、ＣＦａ
ｉｌ６６のＣＭｏｎｉｔｏｒ６６Ｃ及びＢＭｏｎｉｔｏ
ｒ６６Ｂ機構は、ネットワーク３４を介してブレイド１
４からブレイド１４への通信のために代わりの通信パス
を見つけて使用できる。この関係で、ＣＦａｉｌ６６機
構が、故障の場所あるいは原因を識別しようとしないの
で、故障のソースを識別して隔離するのに通常必要とな
る複雑な機構及び手続と、衝突する可能性のある故障管
理操作を調整し、同期させ、管理するのに通常必要とな
る複雑な機構及び操作とを必要としないことに再び注目
すべきである。

【００７３】また、ＨＡＮファイルサーバ１０の通信故
障処理機構は、互いに別個に独立して動作するが、これ
によりまた、衝突する可能性のある故障管理操作を調節
し、同期させ、管理するための複雑な機構及び操作を利
用する必要がなく、複数の故障ソースあるいは複数の故
障を協調して処理できることに注目しなければならな
い。例えば、ＣＦａｉｌ６６ネットワーク３４故障機
構、すなわち、ＣＭｏｎｉｔｏｒ６６Ｃ関連機構によっ
て実行される操作は、ＣＦａｉｌ６６ブレイドバス３０
故障機構、すなわち、ＢＭｏｎｉｔｏｒ６６Ｂ関連機構
によって実行される操作とは別に実行されるが、クライ
アント３４Ｃ及びブレイド１４間、そしてブレイド１４
間の通信を維持するために機能的に協調して実行され
る。ブレイド１４間の、そして各クライアント３４Ｃへ
のネットワーク３４パスが、ブレイドバス３０パスが故
障を起こした時に、１つでも機能していれば、通信は、
故障のソースあるいは故障の順番に関わらず維持され
る。

【００７４】例を示すと、第一ブレイド１４と関連する
ネットワーク３４に故障が起きると、上述のように、第
二ブレイド１４を介しての、そしてＣＦａｉｌ６６ネッ
トワーク３４故障機構によりブレイド１４間のブレイド
バス３０リンクを介しての第一ブレイド１４への、クラ
イアント３４Ｃ通信のリダイレクションが生じる。次に
ブレイドバス３０リンクに故障が起こると、ＣＦａｉｌ
６６ブレイドバス３０故障機構により、第二及び第一ブ
レイド１４間で機能している代わりのネットワーク３４
パスを介して、第二ブレイド１４及びブレイドバス３０
リンクを介してリダイレクトされたクライアント３４通
信が再び、第二ブレイド１４から第一ブレイド１４へリ
ダイレクトされる。

【００７５】さらなる例では、第一の故障がブレイドバ
ス３０リンクで起きた場合、ブレイド１４間の通信は、
上述のように、ＣＦａｉｌ６６ブレイドバス３０故障機
構により、ネットワーク３４を介してブレイド１４間で
機能している代わりのパスへリダイレクトされる。この
代わりのネットワーク３４パスにおいて次なる故障が起
きた場合、この故障はネットワーク３４関連の故障とし
て検出され、ブレイド１４のＣＦａｉｌ６６ネットワー
ク３４故障機構は、まず、ブレイドバス３０リンクを介
してブレイド１４間の先にリダイレクトされた通信をル
ーティングしようとする。しかしながら、ＣＦａｉｌ６
６ブレイドバス３０故障機構は、ブレイドバス３０リン
クが機能していないために、ブレイド１４間の利用可能
で機能している代わりのネットワーク３４パスを介して
先にリダイレクトされた通信をリダイレクトする。

【００７６】従って、ネットワーク３４及びブレイドバ
ス３０の故障がどんな組み合わせあるいは順番で起こっ
ても、クライアント３４Ｃとブレイド１４との間、そし
てブレイド１４間の通信を維持するために、ＣＦａｉｌ
６６ネットワーク３４及びブレイドバス３０故障機構が
さまざまな組み合わせ及び順番で別個の独立した操作を
実行することが明らかであろう。また、ブレイドバス３
０パスに故障が起きた際に、ブレイド１４間、そして各
クライアントへのネットワーク３４パスがたった１つで
も機能している限り、故障のソースあるいは故障の順番
に関係なく通信は維持される。

【００７７】最後に、この関係で、ブレイド１４のＦＥ
Ｐ４４Ｆ及びＢＥＰ４４Ｂ間のメッセージ４２リンクに
故障が起きる可能性があることに注意しなければならな
い。多くの場合、これはブレイド１４が完全に故障した
結果であるが、幾つかの場合において、故障はメッセー
ジ４２機構に限定されることができる。メッセージ４２
機構に限定された故障の場合、故障が起きたブレイド１
４のＦＥＰ４４Ｆは、ブレイド１４のＢＥＰ４４Ｂと、
あるいは反対側のブレイド１４と通信することができな
くなり、ＢＥＰ４４ＢはブレイドのＦＥＰ４４Ｂと通信
できなくなるが、ブレイド１４間のブレイドバス３０リ
ンクを介して反対側のブレイド１４のＢＥＰ４４Ｂ及び
ＦＥＰ４４Ｆと通信できる。

【００７８】従って、本発明のさらなる実装において
は、メッセージ４２に故障が起きたブレイド１４のＢＭ
ｏｎｉｔｏｒ６６Ｂは、ＦＥＰ４４Ｆに関連してブレイ
ドバス３０の明らかな故障を検出するが、ＢＥＰ４４Ｂ
に関連するブレイドバス３０の故障を検出しない。従っ
て、このブレイド１４のＢＭｏｎｉｔｏｒ６６Ｂ及びＣ
Ｍｏｎｉｔｏｒ６６Ｃ機構は、ＰＭ６６Ｍによって選択
されたネットワーク３４パスを介して、ＦＥＰ４４Ｐか
ら全ての通信をＢＥＰ４４Ｂへ、あるいは反対側のブレ
イド１４へリダイレクトし、ＢＥＰ４４ＢからＦＥＰ４
４Ｆへの全ての通信をブレイドバス３０、及びＦＥＰ４
４Ｆのために選択されたネットワーク３４パスを介する
ルートへリダイレクトするが、ブレイドバス３０を介す
るＢＥＰ４４Ｂ通信をリダイレクトしない。

【００７９】故障が起きなかったブレイド１４において
は、ＢＭｏｎｉｔｏｒ６６Ｂ機構は、メッセージ４２が
故障したブレイド１４のＦＥＰ４４Ｐへの通信について
明らかなブレイドバス３０パス故障を検出するが、その
ブレイド１４のＢＥＰ４４Ｂへの通信についてのブレイ
ドバス３０パス故障を検出しない。従って、このブレイ
ド１４のＢＭｏｎｉｔｏｒ６６Ｂ及びＣＭｏｎｉｔｏｒ
６６Ｃ機構は、反対側のブレイド１４のＦＥＰ４４Ｆあ
ての全ての通信を、上述のように、代わりのネットワー
ク３４パスを介してリダイレクトするが、反対側のブレ
イド１４のＢＥＰ４４Ｂあての通信をリダイレクトしな
い。

【００８０】ｃ．記憶サブシステム１２／ブレイド１４
故障処理機構上述のように、ＨＡＮファイルサーバ１０の故障処理機
構の最下層レベルには、記憶サブシステム１２の通信パ
ス構造及びＲＡＩＤ４６によって提供されるＲＡＩＤＦ
４６Ｆ機構とが含まれる。ＲＡＩＤファイル機能は、当
業者にはよく知られているため、ここでは本発明を理解
するのに必要な場合のみ説明し、以下には、記憶サブシ
ステム１２内部の、そしてサブシステム１２及びブレイ
ド１４間の通信パスに焦点を当てて説明する。

【００８１】図１に示すように、そして上述したよう
に、記憶サブシステム１２には複数のハードディスクド
ライブ１８から構成されるドライブバンク１６が含まれ
る。各ハードディスクドライブ１８は、デュアル記憶ル
ープモジュール２０Ａ及び２０Ｂを介して双方向に読み
取り／書き込みアクセスされる。記憶ループモジュール
２０Ａ及び２０Ｂそれぞれには、ＭＵＸＢＡＮＫ２２Ａ
及び２２Ｂが含まれ、各ＭＵＸＢＡＮＫ２２には、複数
のＭＵＸ２４とループコントローラ２６Ａ及び２６Ｂと
が含まれる。各ループコントローラモジュール２０のＭ
ＵＸ２４とループコントローラ２６とは、ＭＵＸループ
バス２８Ａ及び２８Ｂを介して双方向に相互接続されて
いる。図からわかるように、ＭＵＸＢＡＮＫ２２Ａ及び
２２Ｂそれぞれには、対応するディスクドライブ１８の
１つに対応して接続されるＭＵＸ２４Ｄが含まれる。そ
のため、ドライブバンク１６の各ディスクドライブ１８
は、ＭＵＸＢＡＮＫ２２Ａ及び２２Ｂそれぞれの対応す
るＭＵＸ２４Ｄに接続されて双方向に読み取り／書き込
みされる。ＭＵＸＢＡＮＫ２２Ａ及び２２Ｂそれぞれに
は、さらに、ＭＵＸ２４ＣＡ及びＭＵＸ２４ＣＢを介し
て対応するコンピュートブレイド１４Ａ及び１４Ｂの一
方が双方向に接続されており、コンピュートブレイド１
４Ａ及び１４Ｂは、ブレイドバス３０を介して双方向に
接続されている。

【００８２】従って、各ディスクドライブ１８は、ＭＵ
Ｘバンク２２ＡのＭＵＸ２４ＤとＭＵＸバンク２２Ｂの
ＭＵＸ２４Ｄとに双方向に接続されている。ＭＵＸバン
ク２２ＡのＭＵＸ２４は、ループバス２６Ａを介して相
互接続されている一方、ＭＵＸバンク２２ＢのＭＵＸ２
４は、ループバス２６Ｂを介して接続されている。その
ため、各ディスクドライブ１８は、ループバス２６Ａ及
びループバス２６Ｂ両方を介してアクセス可能である。
さらに、プロセッサブレイド１４Ａは、ループバス２６
Ａと双方向に通信する一方、プロセッサブレイド１４Ｂ
は、ループバス２６Ｂと双方向に通信し、プロセッサブ
レイド１４Ａ及び１４Ｂは、ブレイドループ（ブレイ
ド）バス３０を介して直接相互接続されて通信する。

【００８３】従って、記憶サブシステム１２内部の下層
レベルの通信故障処理機構が、基本的に、各ディスクド
ライブ１８とプロセッサブレイド１４Ａ及び１４Ｂとの
間に複数の予備のアクセスパスを提供する受動的なパス
構造であることがわかるだろう。このため、プロセッサ
ブレイド１４Ａ及び１４Ｂは、記憶サブシステム１２内
部の１つ以上の通信パスで故障が起きた際には、対応す
るループバス２６を介して直接、あるいは他方のプロセ
ッサブレイド１４を介して間接的に、ディスクドライブ
１８のどれとでも双方向通信が可能であり、互いに直接
通信できる。１つ以上のディスクドライブ１８内で起き
る故障のための故障処理機構は、上述のＲＡＩＤＦ４８
Ｆ機構から構成される。

【００８４】また、記憶サブシステム１２の受動パス構
造が、通信機構と、ブレイド１４のＣＦａｉｌ６６ネッ
トワーク３４及びブレイドバス３０故障機構とは別々に
独立して動作するものの、クライアント３４Ｃと、クラ
イアント３４のファイルシステムが存在するディスクド
ライブ１８との間の通信を保証するために、ブレイド１
４の機構と協調して動作することがわかるだろう。ま
た、これらの機構は、複雑な故障検出、識別、隔離機構
の利用と、複雑な故障管理調整、同期、管理機構の利用
とを廃して、高レベルのファイルシステム可用性を提供
する。

【００８５】５．ＨＡＮファイルサーバ１０のファイル
トランザクション故障処理機構とＨＡＮファイルサーバ
１０の通信故障処理機構の相互運用（図１、２、３）本実施例のＨＡＮファイルサーバ１０が、多数の高可用
性機構、すなわち、ＨＡＮファイルサーバ１０の１つ以
上のコンポーネントに故障が起きた際にも、ＨＡＮファ
イルサーバ１０がクライアントへのファイルサーバサー
ビスを中断せずに提供し続けることを可能にする機構を
備えることを上述した。これらの機構の多くは、基本Ｒ
ＡＩＤＦ４６Ｆ機能のように、従来技術の代表的なもの
であり、当業者にとっては周知のものである。そのた
め、本発明に関係しない限り詳細な説明を省く。

【００８６】しかしながら、一般的には、ＨＡＮファイ
ルサーバ１０のコンポーネントに故障が起きた際には、
ＨＡＮファイルサーバ１０の生き残ったコンポーネント
が、高可用性機構の操作により、故障したコンポーネン
トによって実行されていたタスク及びサービスを引き継
ぎ、これらのサービスの提供を続ける。このような高可
用性機構の操作には数多くの機能があり、そのような機
構がこれらの機能を達成するためには幾つかの操作を実
行する必要があることが当業者には明らかであろう。例
えば、高可用性機構は、コンポーネントの故障を識別
し、故障したコンポーネントから生き残ったコンポーネ
ントへソースあるいは機能の引き渡しあるいは移転を行
い、故障したコンポーネントによって提供されていたサ
ービス及び機能が外からわかるように中断されないよう
に生き残ったコンポーネントに引き継がれたリソースの
状態を回復し、故障したコンポーネントの置換あるいは
訂正を行ない、修復後には故障していたコンポーネント
にリソースを引き渡すあるいは移動する必要がある。

【００８７】通信に関して上述したように、ＨＡＮファ
イルサーバ１０のファイルトランザクション及び通信機
構は、独立して動作する。そして以下にさらに詳細に説
明されるように、本発明のＨＡＮファイルサーバ１０の
高可用性機構は、ＨＡＮファイルサーバ１０の多数の異
なる機能レベルで動作する。通常、異なるグループ、あ
るいは異なるタイプの操作及び機能は、ＨＡＮファイル
サーバ１０の各機能レベルで実行される。従って、高可
用性機構はそれぞれ異なり、各レベルで、そしてシステ
ムとしてのＨＡＮファイルサーバ１０のために、独立し
ながらも協調して動作して高レベルのサーバ可用性を提
供する。以下にさらに詳細にこれらの機構の構造及び操
作と、これらの機構の相互運用とを説明する。

【００８８】例えば、ＨＡＮファイルサーバ１０におけ
る最上層レベルの機能は、クライアント通信タスク及び
サービスを実行する通信レベル、すなわち、クライアン
トと、ネットワーク３４を介してＨＡＮファイルサーバ
１０によってサポートされるクライアントファイルシス
テムとの間の通信である。この通信レベルの中心機能
は、ネットワーク４８の機構とＨＡＮファイルサーバ１
０の関連コンポーネントとによって提供される。通信レ
ベルでの高可用性機構には、ＣＦａｉｌ６６のような故
障検出機構が含まれ、通信レベルでの故障を処理する多
数の異なる機構を提供する。例えば、ブレイド１４Ａ及
び１４Ｂのうちの一方で１つ以上のポート３４Ｐを介す
る通信に故障が起きた場合、ピアブレイド１４のＣＦａ
ｉｌ６６は故障を検出し、ネットワーク４８と連携し
て、クライアントと故障したポート３４Ｐとの間の全て
の通信を、ピアブレイド１４の機能している対応ポート
３４Ｐにリダイレクトする。ピアブレイド１４では、そ
の内部のネットワーク４８が、ブレイドバス３０を介し
て、故障したポート３４Ｐを有するブレイド１４のＪＦ
ｉｌｅ５０に通信をルーティングする。その結果、故障
したポート３４Ｐは、ピアブレイド１４のポート３４Ｐ
と、ブレイドバス３０及びメッセージ４２を介するＦＥ
Ｐ４４Ｆ−ＢＥＰ４４Ｐ通信パスからなる相互ブレイド
１４通信パスとを介してバイパスされる。この関係で、
ブレイド１４の高レベルファイルトランザクション機構
について以下の記述により説明されるように、ネットワ
ーク４８の高可用性機構は、高レベルファイルトランザ
クション機構の高可用性機構を相互運用して、実際の、
そして例えば、ブレイド１４ＪＦｉｌｅ５０のあるいは
ブレイド１４全体の故障から生じる明らかなネットワー
ク３４関連通信故障に対処する。

【００８９】ブレイド１４における次のレベルの機能
は、高レベルファイルトランザクション機能及びサービ
スから構成される。そこでは、高レベルトランザクショ
ン機能の中心機能及び操作は、ＪＦｉｌｅ５０及び関連
する高レベルファイル機構により提供される。上述のよ
うに、ＨＡＮファイルサーバ１０の高レベルファイル機
能レベルでの高可用性機構には、ＣＭｉｒｒｏｒ５４Ｍ
を備えたＷＣａｃｈｅ５０ＣとＬＭｉｒｒｏｒ５４Ｌを
備えたログ５０Ｌとが含まれ、これらの機構は、ブレイ
ド１４内部の高レベルファイル機構の故障を処理する。
上述のように、ＷＣａｃｈｅ５０Ｃは、従来方法で動作
してデータトランザクションをキャッシュし、ＣＭｉｒ
ｒｏｒ５４Ｍは、ＷＣａｃｈｅ５０Ｃに影響するＦＥＰ
４４Ｆに故障が起きた際、ＷＣａｃｈｅ５０Ｃの内容を
回復できる。ログ５０Ｌは、ブレイド１４とともに動作
してＪＦｉｌｅ５０により実行されるファイルトランザ
クションの履歴を保存する。これにより、ログ５０Ｌ
は、例えば、トランザクションが記憶サブシステム１２
の固定記憶装置に完全にコミットされる前にファイルト
ランザクションの損失を生じる、ＪＦｉｌｅ５０あるい
は記憶サブシステム１２の故障の際、失われたファイル
トランザクションを再実行及び回復させることができ
る。

【００９０】しかしながら、ＬＭｉｒｒｏｒ５４Ｌ機構
は、ＬＭｉｒｒｏｒ５４Ｌがミラーリングするログ５０
Ｌが存在するブレイド１４内部で動作せず、代わりに、
ブレイド１４を横断して動作して、各ＬＭｉｒｒｏｒ５
４Ｌが、反対側のピアブレイド１４のログ５０Ｌの内容
をミラーリングして保存できるようにしている。その結
果、ＬＭｉｒｒｏｒ５４Ｌ機構は、反対側のピアブレイ
ド１４に壊滅的な故障が起きた場合にも反対側のピアブ
レイド１４のログ５０Ｌの内容を保存し、故障していた
ブレイド１４がサービスを再開した際に、失われたファ
イルトランザクションを故障していたブレイド１４で再
実行及び回復することができる。

【００９１】さらに、生き残ったブレイド１４内部に故
障したブレイド１４の失われた可能性のあるファイルト
ランザクションのレジデント履歴を備えることにより、
ＬＭｉｒｒｏｒ５４Ｌ機構はまた、生き残ったブレイド
１４に故障したブレイド１４によってサポートされてい
たクライアントのサポートを引き継がせることができる
ことに注目すべきである。すなわち、ネットワーク４８
機構について上述したように、生き残ったブレイド１４
のネットワーク４８及びＪＦｉｌｅ５０は、故障したブ
レイド１４のクライアントを生き残ったブレイド１４に
リダイレクトすることにより、故障したブレイド１４に
よって先にサポートされていたクライアントのサービス
を引き継ぐ。この処理では、上述のように、生き残った
ブレイド１４のネットワーク４８機構は、生き残ったブ
レイド１４のＪＦｉｌｅ５０に、引き継がれたＩＰアド
レスあてのデータトランザクションを向けることによ
り、故障したブレイド１４のＩＰアドレスを引き継ぐ。
生き残ったブレイド１４のＪＦｉｌｅ５０は、生き残っ
たブレイド１４がローカルファイルシステムを備えると
いう仮定の下に、新しいクライアントとして故障したブ
レイド１４のクライアントを引き継ぎ、その後は、引き
継がれたクライアントを自分のクライアントとしてサー
ビスを行う。そのサービスには、引き継がれたデータト
ランザクションを処理することと並行して全ての引き継
がれたデータトランザクションを記録することが含まれ
る。生き残ったブレイド１４は、ローカルリカバリロ
グ、すなわち、生き残ったブレイド１４に存在するＬＭ
ｉｒｒｏｒ５４Ｌを使って引き継いだＩＰアドレスのデ
ータトランザクションを記録するとともに、レジデント
ＬＭｉｒｒｏｒ５４Ｌに保存されたファイルトランザク
ション履歴を使用して故障したブレイド１４の失われた
ファイルトランザクションを再実行及び再構成し、故障
したブレイド１４のクライアントのファイルシステムを
所望の状態に回復することができる。この関係で、生き
残ったブレイド１４のＪＦｉｌｅ５０は、故障したブレ
イド１４に向けられていたファイルトランザクションの
初期アドレスを基にしてネットワーク４８からの通知に
より、あるいはレジデントＬＭｉｒｒｏｒ５４Ｌの内容
を調べて保存されたファイルトランザクションと相互に
関連する「新しい」クライアントファイルトランザクシ
ョンがあるかどうか判断することにより、「新しい」ク
ライアントが故障したブレイド１４から移転されたクラ
イアントであるかを判断できる。

【００９２】最後に、ＨＡＮファイルサーバ１０の最下
層レベルのファイルトランザクション機能は、ＲＡＩＤ
４６によってサポートされるＲＡＩＤ４６ファイルトラ
ンザクション機能及びサービスから構成される。ＲＡＩ
ＤＦ４６Ｆ機能は、それ自身、上層レベルの高可用性機
構から独立して動作することがわかるだろう。しかしな
がら、通信レベル及び高レベルファイルトランザクショ
ン機構は、例えば、デュアルブレイド１４Ａ及び１４
Ｂ、ループバス２６Ａ及び２６Ｂ、ＭＵＸループバス２
８Ａ及び２８Ｂを介する代わりの通信パスの提供と連携
してＲＡＩＤＦ４６Ｆ機能と協調的に動作し、ディスク
ドライブ１８へのアクセス可能性を高めていることがわ
かるだろう。

【００９３】従って、ＨＡＮファイルサーバ１０に設け
られた通信レベル及び高レベルファイルトランザクショ
ン機構と代わりの通信パスとは、ＲＡＩＤＦ４６Ｆ機能
と協力してネットワーククライアントへのファイルシス
テム共有資源、すなわち、記憶空間の可用性を高めるこ
とが上記より理解されることができる。また、ＨＡＮフ
ァイルサーバ１０に設けられた通信レベル及び高レベル
ファイルトランザクション機構と代わりの通信パスと
が、複雑な故障検出、識別、隔離機構の利用、及び複雑
な故障管理調整、同期、管理機構の利用を廃して、上記
の効果を達成することが理解されるだろう。

【００９４】よって、要約すると、数多くの異なる機構
が故障したコンポーネントを識別するために用いられ、
その機構は、コンポーネントと、コンポーネントが存在
するＨＡＮファイルサーバ１０のサブシステムと、コン
ポーネントの故障によるＨＡＮファイルサーバ１０の操
作への影響とに依存して特定されることが上記から理解
される。例えば、ＲＡＩＤＭ４６Ｍ機能が、ファンや電
源装置のようなコンポーネント、及びブレイド１４Ａ及
び１４Ｂの類似のコンポーネントの故障をモニタして検
出する一方、ＲＡＩＤＦ４６Ｆ機能は、ディスクドライ
ブ１８のファイルシステム操作のエラー及び故障をモニ
タ、検出、修正あるいは補正する。ＲＡＩＤ４６機構に
よってモニタされるコンポーネントの多くは故障が起き
ても、システムとしてのＨＡＮファイルサーバ１０レベ
ルでのデータの可用性を危うくすることはないが、その
コンポーネントを修復するための処置を取ることができ
るように管理インターフェースを通じて検出及び連絡さ
れなければならないことがわかるだろう。さらなる例で
は、ＨＡＮファイルサーバ１０のネットワーク管理機能
は、ネットワーク３４の状態と、ＨＡＮファイルサーバ
１０のネットワーク３４通信関連コンポーネントとをモ
ニタし、それぞれの故障に適した方法で、ＨＡＮファイ
ルサーバ１０とＨＡＮファイルサーバ１０のクライアン
トとの間での通信の故障に対応する。ネットワークをモ
ニタするために、ネットワーク管理機能は、ＨＡＮファ
イルサーバ１０自身のネットワーク通信をテストするた
めのセルフチェックを生成し、外部ネットワークと通信
しているかどうか判断する。例えば、このセルフチェッ
クがネットワークパスのどれかで失敗する場合、故障し
たネットワークパスによってサポートされていた通信
は、上述のように別のネットワークパスに引き継がれ
る。さらに別の例においては、ＲＡＩＤ４６機能がブレ
イド１４の故障を検出すると、この故障が上述のように
ファイルシステム機能に連絡され、その結果、フェイル
オーバー処理が適切なファイルシステムレベルで実行さ
れることができる。

【００９５】故障処理過程での次のステップ、すなわ
ち、生き残ったリソースへの故障したリソースの移転
は、通常、既知の生き残った場所にリソースを再割り当
てすることにより実行される。ネットワーク機能の故障
の場合、移転は、上述のように、故障したデバイスの機
能を引き継ぐことのできる、先に識別されたネットワー
クアダプタに対して行われる。故障したのがブレイド１
４である場合は、ピアブレイド１４が故障したブレイド
１４からファイルシステムを引き継ぐ。

【００９６】故障したコンポーネントから生き残ったコ
ンポーネントへのリソースの移転には、そのリソースが
生き残ったコンポーネント上で利用可能にされる前にリ
ソースの動作状態を変更あるいは修正する必要がある。
例えば、ネットワークコンポーネントの故障の場合、新
しいネットワークアドレスが既存のアダプタに付加され
なければならず、ブレイド１４の故障のようにファイル
システムに影響を与える故障の場合には、トランザクシ
ョンログを再実行して故障で失われたデータを置換す
る。

【００９７】先に記述したように、ＨＡＮファイルサー
バ１０のコンポーネントの多くは、ＨＡＮファイルサー
バ１０から取り外して、動作しているコンポーネントに
置換することができる、ホットスワップ可能なコンポー
ネントである。一旦コンポーネントを置換すると、生き
残ったコンポーネントにより引き継がれたリソースは初
期のコンポーネントに、つまりは、初期のコンポーネン
トが置換されたものに戻されなくてはならない。従っ
て、上述のような適切なサブシステムの回復機構では、
生き残ったコンポーネントに移転されたリソースは置換
されたコンポーネントに移行される。この処置は、通
常、システムアドミニストレータにより手動で、そして
サービスの中断が受け入れ可能及び処理可能な時に行な
われる。

【００９８】本発明が、ここに例として使われたファイ
ルサーバと同様に、例えば通信サーバ、さまざまなタイ
プのデータプロセッササーバ、プリンタサーバなどの、
クライアントとの信頼できる通信と、データあるいは処
理トランザクションの保存及び回復とを必要とするあら
ゆる形式の共有リソースに実装可能であることが当業者
には明らかであろう。また、本発明が、例えば、異なる
ＲＡＩＤ技術、異なる保存技術、異なる通信技術、そし
て画像処理などの他の情報処理手法及び技術を使用する
ファイルサーバの実装にも、同様に適応できるとともに
実装可能であることが明らかであろう。異なる形式の共
有リソース、異なるリソースマネージャ、異なるシステ
ム構成及びアーキテクチャ、異なるプロトコルにも本発
明が適応できることは当業者には明らかであろう。

【００９９】従って、本発明が、実施例の装置及び方法
について特に説明され記述されてはいても、ここに説明
され、付属の請求項によって規定される本発明の範囲を
超えない限り、形式、詳細、実装におけるさまざまな変
更、変形、修正を本発明に加えることができることが当
業者には明らかであろう。よって、本発明のあらゆる変
形及び修正を本発明の範囲内に収まるようにカバーする
ことが付属の請求項の目的である。

【図面の簡単な説明】

【図１】本発明が実装されることのできるネットワー
クファイルサーバのブロック図である。

【図２】図１のファイルサーバのドメインにおけるプ
ロセッサのコアのブロック図である。

【図３】図１のファイルサーバのドメインをさらに詳
細に示した概略図である。

【符号の説明】

１０ＨＡＮファイルサーバ１２記憶サブシステム１４制御／プロセッササブシステム１４Ａ、１４Ｂプロセッサブレイド１６ドライブバンク１８ディスクドライブ２０Ａ、２０Ｂ記憶ループモジュール２２Ａ、２２Ｂマルチプレクサバンク２６Ａ、２６Ｂループコントローラ２８Ａ、２８ＢＭＵＸループバス３０ブレイドバス３２Ａ、３２Ｂ外部ディスクアレイ３４Ｃクライアント３４Ｍ管理ネットワーク３４Ｎクライアントネットワーク３４Ｐネットワークポート３４Ｒルータ３６Ａ、３６Ｂ処理ユニット３８Ｃメモリコントローラハブ３８Ｄメモリ３８Ｅ入出力コントローラハブ３８Ｆフロントサイドバス３８Ｇハブリンクバス３８ＨＰ−Ｐブリッジ３８Ｉファームウェアメモリ３８Ｊハードウェアモニタ３８Ｋブートドライブ３８ＬスーパーＩ／Ｏデバイス３８ＭＶＧＡデバイス３８Ｎネットワークデバイス３８Ｏバックエンドバスサブシステム３８Ｐフロントエンドバスサブシステム３８Ｑファイバチャネルコントローラ３８Ｒシリアライザ／デシリアライザデバイ
ス３８Ｔネットワークデバイス４０オペレーティングシステム４２メッセージパッシング機構４４Ｂバックエンドプロセッサ４４Ｆフロントエンドプロセッサ４６ＲＡＩＤ機構４６ＭＲＡＩＤモニタ機構４６ＦＲＡＩＤファイル機構４８ネットワーク機構４８Ａクライアントルーティングテーブル４８Ｂブレイドルーティングテーブル４８Ｅクライアントルーティングエントリ４８Ｐパススルーフィールド５０ジャーナルファイルシステム５０Ｃ書き込みキャッシュ５０Ｆファイルシステム機構５０Ｇログジェネレータ５０Ｌトランザクションログ５０Ｍログメモリ５４Ｌログミラー機構５４Ｍキャッシュミラー機構５６ネットワークスタックオペレーティン
グシステム５８ＴＣＰ／ＩＰプロトコルスタック６０ネットワークデバイスドライバ６２ＣＩＦＳ６４ＮＦＳ６６通信フェイルオーバー機構６６Ｂブレイド通信モニタ６６Ｃ通信モニタリング処理／プロトコル機
構６６ＧＡＲＰ応答ジェネレータ６６Ｍパスマネージャ６６Ｐネットワーク調整パケット６６ＲＡＲＰ応答６６ＳＳＬＩＰインターフェイス

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジェームズグレゴリージョーンズアメリカ合衆国ノースカロライナ州 27615 ローリーモントークドライブ 8708 Ｆターム(参考） 5B082 DD00 DE02 5B083 AA08 BB01 CD11 EE11 5B089 GA12 JB17 KA12 KB02 KC15 KG05 KG08 ME02 ME04

Claims

【特許請求の範囲】

【請求項１】複数のクライアント／サーバ通信パスを
含むネットワークを介してシステムリソースと通信する
クライアントにシステムリソースサービスを提供するシ
ステムリソースが、システムリソース操作を実行するためのシステムリソー
スサブシステムと、制御／処理サブシステムとを備え、制御／処理サブシス
テムが多数のピアブレイドプロセッサを備え、各ブレイドプロ
セッサが各クライアント／サーバネットワーク通信パス
に接続されたポートを備えるとともに各クライアントが
各ブレイドプロセッサの対応するポートに接続され、各ブレイドプロセッサが、各クライアントの通信ルートを決定する通信ルーティン
グテーブルを備えた、ブレイドプロセッサとクライアン
トとの間の通信操作をサポートするネットワーク機構
と、ブレイドプロセッサ及びシステムリソースサブシステム
間の通信とブレイドプロセッサ間の相互プロセッサ通信
リンクとを提供する相互プロセッサ通信プロセッサと、通信モニタリング機構とを備え、通信モニタリング機構
が、ブレイドプロセッサの対応するポートに接続するネット
ワーク通信パスを介して別のブレイドプロセッサとビー
コン伝送をやりとりするためのネットワーク故障検出器
と、他のブレイドプロセッサの故障したポートからのビーコ
ン伝送を受領できなかった際、ネットワーク故障検出器
に応えて、そのブレイドプロセッサの対応するポート
に、故障したポートへのクライアント通信をリダイレク
トするクライアントへのリダイレクションメッセージを
送信するための応答ジェネレータと、応答ジェネレータの操作に応えて、リダイレクションメ
ッセージに対応するように通信ルーティングテーブルを
修正し、相互プロセッサ通信リンクを介して他のブレイ
ドプロセッサとのクライアント通信をルーティングする
ためのパスマネージャとを備えるシステムリソース。
【請求項２】各ブレイドプロセッサが、さらに、別のブレイドプロセッサとの相互プロセッサ通信リンク
の故障を検出し、通信ルーティングテーブルを読み取ってそのブレイドプ
ロセッサと他のブレイドプロセッサとの対応するポート
間の機能するネットワーク通信パスを選択し、通信ルーティングテーブルを修正して選択された機能す
るネットワーク通信パスを介した相互プロセッサ通信リ
ンクを介して相互プロセッサ通信をリダイレクトするた
めの、相互ブレイド通信モニタを備えることを特徴とする請求
項１に記載のシステムリソース。
【請求項３】複数のクライアント／サーバ通信パスを
含むネットワークを介してシステムリソース及びシステ
ムリソースと通信するクライアント間で高可用性を備え
た通信を提供する、故障に耐性がある共有システムに使
用される通信パススルー機構であって、通信パススルー
機構が、システムリソース操作を実行するためのシステムリソー
スサブシステムと、多数のピアブレイドプロセッサを備えた制御／処理サブ
システムとを備え、各ブレイドプロセッサが各クライア
ント／サーバネットワーク通信パスに接続されたポート
を備えるとともに各クライアントが各ブレイドプロセッ
サの対応するポートに接続され、各ブレイドプロセッサが、各クライアントの通信ルートを決定する通信ルーティン
グテーブルを備えた、ブレイドプロセッサとクライアン
トとの間の通信操作をサポートするネットワーク機構
と、ブレイドプロセッサ及びシステムリソースサブシステム
間の通信とブレイドプロセッサ間の相互プロセッサ通信
リンクとを提供する相互プロセッサ通信プロセッサと、通信モニタリング機構とを備え、通信モニタリング機構
が、ブレイドプロセッサの対応するポートに接続するネット
ワーク通信パスを介してブレイドプロセッサと別のブレ
イドプロセッサとの間でビーコン伝送をやりとりするた
めのネットワーク故障検出器と、他のブレイドプロセッサの故障したポートからのビーコ
ン伝送を受領できなかった際、ネットワーク故障検出器
に応えて、そのブレイドプロセッサの対応するポート
に、故障したポートへのクライアント通信をリダイレク
トするクライアントへのリダイレクションメッセージを
送信するための応答ジェネレータと、応答ジェネレータの操作に応えて、リダイレクションメ
ッセージに対応するように通信ルーティングテーブルを
修正し、相互プロセッサ通信リンクを介して他のブレイ
ドプロセッサとのクライアント通信をルーティングする
ためのパスマネージャとを備えることを特徴とする通信
パススルー機構。
【請求項４】各ブレイドプロセッサが、さらにブレイ
ドプロセッサと別のブレイドプロセッサとの間の相互プ
ロセッサ通信リンクの故障を検出し、通信ルーティングテーブルを読み取ってそのブレイドプ
ロセッサと他のブレイドプロセッサとの対応するポート
間の機能するネットワーク通信パスを選択し、通信ルーティングテーブルを修正して選択された機能す
るネットワーク通信パスを介して相互プロセッサ通信を
リダイレクトするための、相互ブレイド通信モニタを備えることを特徴とする請求
項３に記載のシステムリソース。
【請求項５】複数のクライアント／サーバ通信パスを含
むネットワークを介してファイルサーバ及びファイルサ
ーバのクライアント間で高可用性を備えた通信を提供す
る通信パススルー機構を備えた、故障に耐性があるネッ
トワークサーバであって、ネットワークサーバが、クライアントファイルシステム共有資源を保存するため
の記憶サブシステムと、多数のピアブレイドプロセッサを備えた制御／処理サブ
システムとを備え、各ブレイドプロセッサが各クライア
ント／サーバネットワーク通信パスに接続されたポート
を備えるとともに各クライアントが各ブレイドプロセッ
サの対応するポートに接続され、各ブレイドプロセッサが、各クライアントの通信ルートを決定する通信ルーティン
グテーブルを備えた、ブレイドプロセッサとクライアン
トとの間の通信操作をサポートするネットワーク機構
と、ブレイドプロセッサ及び記憶サブシステム間の通信とブ
レイドプロセッサ間の相互プロセッサ通信リンクとを提
供する相互プロセッサ通信プロセッサと、通信モニタリング機構とを備え、通信モニタリング機構
が、ブレイドプロセッサの対応するポートに接続するネット
ワーク通信パスを介してブレイドプロセッサと別のブレ
イドプロセッサとの間でビーコン伝送をやりとりするた
めのネットワーク故障検出器と、他のブレイドプロセッサの故障したポートからのビーコ
ン伝送を受領できなかった際、ネットワーク故障検出器
に応えて、そのブレイドプロセッサの対応するポート
に、故障したポートへのクライアント通信をリダイレク
トするクライアントへのリダイレクションメッセージを
送信するための応答ジェネレータと、応答ジェネレータの操作に応えて、リダイレクションメ
ッセージに対応するように通信ルーティングテーブルを
修正し、相互プロセッサ通信リンクを介して他のブレイ
ドプロセッサとのクライアント通信をルーティングする
ためのパスマネージャとを備えることを特徴とするネッ
トワークファイルサーバ。
【請求項６】各ブレイドプロセッサが、さらに、ブレイドプロセッサと別のブレイドプロセッサとの間の
相互プロセッサ通信リンクの故障を検出し、通信ルーティングテーブルを読み取ってそれらのブレイ
ドプロセッサのポート間の機能するネットワーク通信パ
スを選択し、通信ルーティングテーブルを修正して選択された機能す
るネットワーク通信パスを介して相互プロセッサ通信を
リダイレクトするための、相互ブレイド通信モニタを備えることを特徴とする請求
項５のファイルサーバ。
【請求項７】複数のクライアント／サーバ通信パスを含
むネットワークを介してシステムリソースと通信するク
ライアントにシステムリソースサービスを提供するリソ
ースシステムにおいて、システムリソースとシステムリ
ソースのクライアントとの間で高可用性を備えた通信を
提供する方法であって、システムリソースが、システム
リソース操作を実行するためのシステムリソースサブシ
ステムと多数のピアブレイドプロセッサを備えた制御／
処理サブシステムとを備え、各ブレイドプロセッサが各
クライアント／サーバネットワーク通信パスに接続され
たポートを備えるとともに各クライアントが各ブレイド
プロセッサの対応するポートに接続され、各ブレイドプ
ロセッサが、ブレイドプロセッサとクライアントとの間
の通信操作をサポートするネットワーク機構と、ブレイ
ドプロセッサとシステムリソースサブシステムとの間の
通信を提供する相互プロセッサ通信プロセッサとを備
え、方法が、ブレイドプロセッサにおいて、ブレイドプロセッサの対応するポートを接続するネット
ワーク通信パスを介して他のブレイドプロセッサとビー
コン伝送をやりとりすることにより別のブレイドプロセ
ッサの通信操作をモニタリングするステップと、他のブレイドプロセッサの故障したポートからのビーコ
ン伝送を受領できなかった際、そのブレイドプロセッサ
の対応するポートに、故障したポートへのクライアント
通信をリダイレクトするクライアントへのリダイレクシ
ョンメッセージを送信するステップと、相互プロセッサ通信リンクを介して他のブレイドプロセ
ッサとのリダイレクトされたクライアント通信をルーテ
ィングするステップとを備えた方法。
【請求項８】システムリソースとシステムリソースの
クライアントとの間で高可用性を備えた通信を提供する
請求項７の方法であって、方法が、さらに、ブレイドプロセッサにおいて、ブレイドプロセッサと別のブレイドプロセッサとの間の
相互プロセッサ通信リンクの故障を検出するステップ
と、ブレイドプロセッサと他のブレイドプロセッサとの対応
するポートの間の機能するネットワーク通信パスを選択
するステップと、選択された機能するネットワーク通信パスを介して相互
プロセッサ通信をリダイレクトするステップとを備える
ことを特徴とする方法。