JP2001519565A

JP2001519565A - キャッシュコヒーレンス共用ディスクコンピュータシステムにおけるｉ／ｏ転送

Info

Publication number: JP2001519565A
Application number: JP2000515231A
Authority: JP
Inventors: バムフォード，ロジャー・ジェイ; クロッツ，ボリス
Original assignee: オラクル・コーポレイション
Priority date: 1997-10-07
Filing date: 1998-10-05
Publication date: 2001-10-23
Anticipated expiration: 2018-10-05
Also published as: DE69803478T2; AU9601898A; AU749592B2; JP3748774B2; DE69803478D1; EP1021764B1; CA2305510A1; US6112281A; CA2305510C; HK1028825A1; WO1999018510A1; EP1021764A1

Abstract

(57)【要約】キャッシュコヒーレンス共用ディスクコンピュータシステムにおけるＩ／Ｏ転送のための方法および装置が提供される。この方法に従うと、要求ノードが要求されたデータを求める要求を管理ノードに送る。管理ノードは要求ノードから読出要求を受取り、要求されたデータに対するロックを許可する。管理ノードは次に、要求されたデータを識別するデータをディスクコントローラに転送する。ディスクコントローラは要求されたデータを識別するデータを管理ノードから受取り、要求されたデータを識別するデータに基づいて共用ディスクからデータ項目を読出す。共用ディスクからデータ項目を読出した後、ディスクコントローラはデータ項目を要求ノードに送る。一実施例では、読出要求と、データ項目がコピーされるべきバッファキャッシュアドレスとを識別するＩ／Ｏ宛先ハンドルが発生される。Ｉ／Ｏ宛先ハンドルはディスクコントローラに送られて、ディスクコントローラから要求ノードへのデータ項目の送りおよび処理を容易にする。要求されたデータを識別するデータを管理ノードからディスクコントローラへと直接的に転送する（「Ｉ／Ｏ転送」）結果として、機能停止期間が低減し、システムの資源に対するコンテンションが低減し、コンテキスト切換がなくなる。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】

この発明は共用ディスクコンピュータシステムに関し、特に、キャッシュコヒ
ーレンス共用ディスクコンピュータシステムにおけるキャッシュコヒーレンス管
理に関する。

【０００２】

【発明の背景】

キャッシュコヒーレンス共用ディスクコンピュータシステムにおいて、１つ以
上の永続的ディスクが複数のノード間で共用され、各ノードがメモリとそのメモ
リを共用する１つ以上のプロセッサとを含む。各ノードのメモリの一部が、その
ノードのプロセッサがアクセスするディスクレジデントデータを一時的に記憶す
る「バッファキャッシュ」として用いられ得る。

【０００３】ディスク上のデータがノード間で共用されるので、システムには、共用データ
に対して読出または書込を行う各プロセッサまたは装置がそのデータを矛盾のな
い状態に保つよう読出または書込を行うことを確実とするように、共用データを
管理する必要がある。２つのノードがあるデータ項目を共用する別個の処理を行
っており、そのデータ項目のコピーが現在各ノードにある状況を考える。第１の
ノードがデータ項目のそのコピーを変更し、第２のノードがその変更を通知され
なければ、第２のノードはデータ項目の古いものをその処理のために与え、エラ
ーを起こしてしまう。しかしながら、（たとえば、第１のノードにおける更新に
応答して第２のノードにおけるデータ項目を更新するか無効にすることによって
）データ項目の各コピーを単一の（整合した）データ項目であるように見せかけ
るようデータ項目を維持する資源管理システムが確立されれば、そのデータ項目
は「整合した」または「一貫した」状態にあると言える。

【０００４】各バッファキャッシュはキャッシュコヒーレンスマネージャによって管理され
る。所与のバッファキャッシュのためのキャッシュコヒーレンスマネージャはそ
のバッファキャッシュに対するアクセスを制御し、１つ以上のバッファキャッシ
ュ内のデータを一貫したまたは整合した状態に保つ。加えて、各バッファキャッ
シュは以下により詳細に述べる「局所性」を確立することができる。

【０００５】共用ディスクコンピュータシステムは、１つ以上の共用ディスク上に持続的に
記憶される共通のデータベースへのアクセスを多数のユーザまたは処理が必要と
し得る、データベースシステムのような演算環境においてよく用いられる。

【０００６】図１はキャッシュコヒーレンス共用ディスクコンピュータシステム１００を示
す。図１において、２つのデータブロック１５２および１５４を含むディスク１
５０がローカルバス１４５によってディスクコントローラ１４０に接続される。
ディスクコントローラ１４０はＩ／Ｏネットワーク１３５によって第１のノード
１９０および第２のノード１９２に接続される。

【０００７】第１のノード１９０はプロセッサ１０２、バッファキャッシュ１０４およびキ
ャッシュコヒーレンスマネージャ１０６を含む。バッファキャッシュ１０４は（
キャッシュ内データブロック１５４'と表される）データブロック１５４のコピーを内蔵する。プロセッサ１０２、バッファキャッシュ１０４およびキャッシコ
ヒーレントマネージャ１０６はローカルバス１０８によって相互接続される。

【０００８】同様に、第２のノード１９２はプロセッサ１１２、バッファキャッシュ１１４
およびキャッシュコヒーレンスマネージャ１１６を含む。バッファキャッシュ１
１４は（キャッシュ内データブロック１５４'と表わされる）データブロック１５４のコピーを内蔵する。プロセッサ１１２、バッファキャッシュ１１４および
キャッシュコヒーレンスマネージャ１１６はローカルバス１１８によって相互接
続される。

【０００９】図１に示すキャッシュコヒーレンス共用ディスクコンピュータシステム内の第
１のノード１９０および第２のノード１９２はシステムエリアネットワーク１３
０によって相互接続される。たとえば、システムエリアネットワーク１３０はプ
ロセッサ１０２および１１２ならびにキャッシュコヒーレンズマネージャ１０６
および１１６を相互接続する。

【００１０】プロセッサ１０２をバッファキャッシュ１０４およびキャッシュコヒーレンス
マネージャ１０６に相互接続するためにさまざまな構成が用いられ得る（たとえ
ば、ローカルバス１０８）。同様に、第１のノードを第２のノードに相互接続す
るためにさまざまな構成が用いられ得る（たとえば、システムエリアネットワー
ク１３０）。同様に、第１のノード１９０、第２のノード１９２およびディスク
コントローラ１４０を接続するためにさまざまな構成が用いられ得る（たとえば
、Ｉ／Ｏネットワーク１３５）。図１に示す相互接続構成は例示的であり、共用
ディスクコンピュータシステムの説明を簡単にするためのものである。

【００１１】コンピュータシステムにおける局所性は空間的局所性、時間的局所性およびプ
ロセッサの局所性のような多数の異なる形態を取る。空間的局所性は、同時のメ
モリ参照が隣接するまたは近くのメモリアドレスにアクセスする可能性がある場
合に存在すると言われる。時間的局所性は、最近のメモリ参照が再びアクセスさ
れる可能性がある場合に存在すると言われる。さらに、並列演算はプロセッサの
局所性と呼ばれるもう１つの形態の局所性を生むことができる。プロセッサの局
所性は、同時のメモリ参照が（多くの異なるものの代わりに）単一のマルチプロ
セッサから行われる可能性がある場合に存在すると言われる。

【００１２】バッファキャッシュを用いると、プロセッサが必要とするデータが将来におい
てそのプロセッサの近くに置かれる可能性を高めることによって、ディスク１５
０と、相互接続されたプロセッサにおいて開始される処理との間の局所性を作る
ことができる。キャッシュコヒーレンスマネージャ１１６を用いて、プロセッサ
１０２上で開始された局所処理は、ディスク１５０からデータブロック１５４を
連続的に再読出しすることから生じるであろう処理および通信のレイテンシによ
って遅延される代わりに、隣接するバッファキャッシュ１０４内にある間にキャ
ッシュ内データブロック１５４'へのアクセスの時間的局所性を利用することができる。

【００１３】図１において、各キャッシュコヒーレンスマネージャはキャッシュコヒーレン
スプロトコルを用いることによって、ディスク１５０からのデータブロックを整
合した状態に保つ。キャッシュコヒーレンスプロトコルは、キャッシュ内データ
ブロック１５４'が多数のバッファキャッシュに分散されても、各プロセッサ１０２および１１２がデータブロック１５４の類似したまたは整合したコピーにア
クセスすることを確実とする。たとえば、キャッシュコヒーレンスマネージャ１
０６は、コピーがバッファキャッシュ１０４および１１４内にある間にデータブ
ロック１５２を整合した状態に保つ。同様に、キャッシュコヒーレンスマネージ
ャ１１６は、バッファキャッシュ１０４および１１４に分散されている間にデー
タブロック１５４を整合した状態に保つ。

【００１４】図１に示す共用ディスクコンピュータシステムのためのキャッシュコヒーレン
スマネージャ１０６および１１６は、バッファキャッシュ１０４と１１４との間
、プロセッサ１０２と１１２との間、ディスク１５０内のデータブロック１５２
と１５４との間に局所性を作るのに役立つ。

【００１５】キャッシュコヒーレンス管理典型的なキャッシュコヒーレンス管理プロトコルのための通信シーケンスを図
２に示す。図２において、プロセッサ１０２が開始する処理がデータブロック１
５４の読出を要求したと想定する。加えて、データブロック１５４のコピーが現
在はバッファキャッシュ１０４内にないと想定する。さらに、キャッシュコヒー
レンス管理システムがデータブロック１５４のためのキャッシュコヒーレンスマ
ネージャとしてノード１９２を選択したと想定する。

【００１６】データブロック１５４が処理によって読出されるために、データブロック１５
４のコピーがバッファキャッシュ１０４内に配置されなければならない。まず、
第１のノード１９０がロック要求を第２のノード１９２に渡す。第２のノード１
９２は第１のノード１９０からロック要求を受取り、ロック要求が有効であれば
、ロック許可を第１のノード１９０に戻す。第１のノード１９０はロック許可を
受取り、データブロック１５４のコピーのためにバッファキャッシュ１０４を準
備する処理を開始する。第１のノード１９０は次に読出要求をディスクコントロ
ーラ１４０に渡す。次に、ディスクコントローラ１４０はディスク１５０からデ
ータブロック１５４を読出し、データブロック１５４のコピーを第１のノード１
９０に送る。第１のノード１９０はデータブロック１５４のコピーを受取り、デ
ータブロック１５４のコピーをキャッシュ内データブロック１５４'としてバッファキャッシュ１０４内へと記憶する。

【００１７】上述のプロトコルの問題は、データブロック１５４を要求するノード１９０上
の処理（「要求処理」）が、データブロック１５４のコピーを待っている間に止
まってしまうことである。これらの条件下で要求処理が停止すると、アプリケー
ションプログラムに著しい性能問題が生じ得る。さらに、同期したコンテキスト
切換が経路２と経路３との間で第１のノード１９０によって必要とされる。上述
の問題は多量のノードが同じ共用ディスク上のデータにアクセスする場合にさら
に悪化する。たとえば、何千ものノードがディスク１５０を共用すると、ディス
ク１５０が何百万ものデータブロックを有し、各ノードが毎分１０００個のデー
タブロックを要求することになるかもしれない。これらの条件下では、通信レイ
テンシ、プロセッサ機能停止およびコンテキスト切換が著しい量の処理時間を浪
費するであろう。

【００１８】可能な解決法要求処理の機能停止の問題を解決する１つのアプローチが、引用によりここに
援用される、M. D. HillおよびJ. R. Larusによる「マルチプロセッサプログラマのためのキャッシュ研究（“Cache Considerations for Multiprocessor Prog
rammers”）」、ＡＣＭ通信（“Communications of The ACM”）、第３３巻、第
８号、１９９０年８月、第９７−１０２頁に取上げられている。この論文におい
て、HillおよびLarusは、機能停止の問題が共用ディスクの余分なアクセス（読出）を回避するようにバッファキャッシュに特別の注意を払うプログラミング技
術によって少なくとも部分的に緩和され得ることを示唆している。４つのメモリ
モデルが提案され、単一プロセッサおよびマルチプロセッサのプログラミングの
ための規則が示唆されている。

【００１９】 Hill他のアプローチの問題は、情報を与えられたプログラミングモデルは機能
停止の頻度を低減できるが、それらは根底にある問題、すなわち機能停止の持続
に対処していない。

【００２０】もう１つのアプローチが、引用によりここに援用される、J. B. Carter、J. K
. Bennett、およびW. Zwaenepoelによる「分散型共用メモリシステムにおける整
合性に関連した通信を低減するための技術（“Techniques for Reducing Consis
tency-Related Communication in Distributed Shared-Memory Systems”）」、
ＡＣＭコンピュータシステム会報（“ACM Transactions on Computer Systems”
）、第１３巻、第３号、１９９５年８月、第２０５−２４３頁において提案され
ている。この論文において、Carter他は、ある処理におけるバッファ処理および
マージ更新が共用データ（すなわち、ディスク１５０、またはバッファキャッシ
ュ１０４および１１４間に分散されるデータブロック１５４）への書込のレイテ
ンシをマスクし、更新作業のための全体のオーバーヘッドを効果的に低減すると
示唆している。Carter他のアプローチは通信の頻度、したがって機能停止の頻度
を低減することに向けられている。Carter他のアプローチは（機能停止が「一括
」更新の数にわたって分けられるならば）機能停止の有効コストを低減するが、
機能停止の個々のコストはより高くなる可能性がある。たとえば、読出要求が直
ちに必要であれば、Carter他のアプローチは不十分である。なぜなら、十分な数
の要求が集まるまで読出要求を待ち行列に入れる結果として機能停止の持続期間
がより長くなるためである。

【００２１】したがって、キャッシュコヒーレンス共用ディスクコンピュータシステムを実
現するための改良された方法および装置が必要である。

【００２２】

【発明の概要】

キャッシュコヒーレンス共用ディスクコンピュータシステムにおけるＩ／Ｏ転
送のための方法および装置が提供される。

【００２３】この方法に従うと、要求ノードが要求されたデータを求める要求を送る。管理
ノードが要求ノードから読出要求を受取り、要求されたデータへのロックを許可
する。管理ノードは次に要求されたデータを識別するデータをディスクコントロ
ーラに転送する。ディスクコントローラは要求されたデータを識別するデータを
管理ノードから受取り、要求されたデータを識別するデータに基づいて共用ディ
スクからデータ項目を読出す。共用ディスクからデータ項目を読出した後、ディ
スクコントローラはデータ項目を要求ノードに送る。

【００２４】一実施例では、読出要求とデータ項目がコピーされるべきバッファキャッシュ
アドレスとを識別するＩ／Ｏ宛先ハンドルが発生される。Ｉ／Ｏ宛先ハンドルは
、ディスクコントローラから要求ノードへのデータ項目の送信および処理を容易
にするためにディスクコントローラに送られる。

【００２５】要求されたデータを識別するデータを管理ノードからディスクコントローラへ
と直接的に転送する（「Ｉ／Ｏ転送」）結果として、機能停止の持続期間が低減
し、システムの資源に対するコンテンションが低減し、コンテキスト切換がなく
なる。

【００２６】

【好ましい実施例の詳細な説明】

この発明を、同じ参照番号が同様の要素を指す添付の図面において限定的では
なく例示的に示す。

【００２７】キャッシュコヒーレンス共用ディスクコンピュータシステムにおけるＩ／Ｏ転
送のための方法および装置を説明する。以下の説明において、説明の目的のため
に数多くの具体的な細部が記載されてこの発明の完全な理解を与える。しかしな
がら、この発明がこれらの具体的な細部なしで実行され得ることは当業者には明
らかであろう。他の例では、この発明を不必要に不明瞭にすることを避けるため
に周知の構造および装置がブロック図に示される。

【００２８】ハードウェア全体像図３はこの発明の実施例に従うキャッシュコヒーレンス共用ディスクコンピュ
ータシステム３００を示す。

【００２９】第１のノード３０２がプロセッサ３０４および３０６、ネットワークドライバ
３０８、Ｉ／Ｏコントローラ３１０ならびにバッファキャッシュ３１２を含む。
ローカルバス３１６がプロセッサ３０４および３０６、ネットワークドライバ３
０８、Ｉ／Ｏコントローラ３１０ならびにバッファキャッシュ３１２を相互接続
する。

【００３０】第２のノード３２２がプロセッサ３２４および３２６、ネットワークドライバ
３２８、Ｉ／Ｏコントローラ３３０ならびにバッファキャッシュ３３２を含む。
ローカルバス３３６がプロセッサ３２４および３２６、ネットワークドライバ３
２８、Ｉ／Ｏコントローラ３３０ならびにバッファキャッシュ３３２を相互接続
する。

【００３１】第１のノード３０２は、ネットワークドライバ３０８をネットワークドライバ
３２８に相互接続するシステムエリアネットワーク３５０によって第２のノード
３２２に結合される。バッファキャッシュ３１２内のＩ／Ｏ宛先ハンドル３１４
はバッファキャッシュ３１２内の宛先メモリアドレスを識別するデータを含む。
同様に、バッファキャッシュ３３２内のＩ／Ｏ宛先ハンドル３３４はバッファキ
ャッシュ３３２内の宛先メモリアドレスを識別するデータを含む。

【００３２】システム３００はディスクコントローラ３６０を含む。ディスクコントローラ
３６０はローカルバス３６２によってディスク３６４およびディスク３６６に結
合される。同様に、ディスクコントローラ３７０はローカルバス３７２によって
ディスク３７４およびディスク３７６に結合される。ディスク３６４、３６６、
３７４および３７６は各々データブロック（それぞれ３６８、３６９、３７８お
よび３７９）を含む。ディスクコントローラ３６０および３７０はＩ／Ｏネット
ワーク３５５によって接続される。Ｉ／Ｏネットワーク３５５はまたそれぞれＩ
／Ｏコントローラ３１０および３３０によって第１のノード３０２および第２の
ノード３２２を相互接続する。

【００３３】システム３００におけるキャッシュコヒーレンス管理の課題は各ノードにおけ
るプロセッサが実行する１組の処理である。たとえば、第１のノード３０２内の
プロセッサ３０４および３０６が実行する処理はデータブロック３６８および３
６９を管理する。同様に、第２のノード３２２内のプロセッサ３２４および３２
６が実行する処理はデータブロック３７８および３７９を管理する。

【００３４】図４はキャッシュコヒーレント共用ディスクコンピュータシステム４００のた
めの代替的な実施例を示す。システム４００において、２つのデータブロック１
５２および１５４を含むディスク１５０がローカルバス１４５によってディスク
コントローラ１４０に相互接続される。ディスクコントローラ１４０はＩ／Ｏネ
ットワーク１３５によって第１のノード１９０および第２のノード１９２に相互
接続される。

【００３５】第１のノード１９０はプロセッサ１０２、バッファキャッシュ１０４およびキ
ャッシュコヒーレンスマネージャ１０６を含む。バッファキャッシュ１０４はＩ
／Ｏ宛先ハンドル３１４を内蔵する。ローカルバス１０８がプロセッサ１０２、
バッファキャッシュ１０４およびキャッシュコヒーレンスマネージャ１０６を相
互接続する。

【００３６】同様に、第２のノード１９２はプロセッサ１１２、バッファキャッシュ１１４
およびキャッシュコヒーレンスマネージャ１１６を含む。バッファキャッシュ１
１４はＩ／Ｏ宛先ハンドル３３４を内蔵する。ローカルバス１１８がプロセッサ
１１２、バッファキャッシュ１１４およびキャッシュコヒーレンスマネージャ１
１６を相互接続する。

【００３７】システム４００内のノードはシステムエリアネットワーク１３０によって相互
接続される。たとえば、第１のノードおよび第２のノード１９２は、プロセッサ
１０２および１１２ならびにキャッシュコヒーレンスマネージャ１０６および１
１６を相互接続するシステムエリアネットワーク１３０によって結合される。

【００３８】システム３００に類似しているが、システム４００はシステム３００とは異な
る。すなわち、システム３００はソフトウェアベースのキャッシュコヒーレンス
管理システムであり、キャッシュコヒーレンス管理が各ノードに関連したプロセ
ッサによって実行される一連の処理であることを意味するが、システム４００は
特にキャッシュコヒーレンス管理のために用いられる専用ハードウェアを有する
。

【００３９】以下の説明を簡単にするために、「要求ノード」および「管理ノード」という
用語が「第１のノード」および「第２のノード」という用語と互換的に用いられ
る。「要求ノード」は読出要求を開始したノードを機能上特定するが、「管理ノ
ード」は要求されたデータ項目のキャッシュコヒーレンス管理の責任を有するノ
ードを機能上特定する。しかしながら、ここに説明されるキャッシュコヒーレン
ス共用ディスクコンピュータシステムにおけるどのノードが要求ノードまたは送
りノードであってもよいことが当業者には明らかであろう。

【００４０】動作全体像この発明の一実施例に従うと、要求ノード内で実行する処理はデータ項目を要
求する前にデータ項目を受取るためのメモリを割当てる。次に、要求ノードはデ
ータ項目の要求により割当てられたメモリの場所を識別するデータ（「Ｉ／Ｏ宛
先ハンドル」）を要求されたデータ項目を管理するノードに送る。管理ノードは
次に、データ項目を含むディスクに、Ｉ／Ｏ宛先ハンドルが識別する場所へと直
接的にデータ項目を送らせる。

【００４１】一実施例では、要求ノードは要求されたデータ項目の論理アドレス（たとえば
、資源名）を要求されたデータ項目の物理アドレスへと変換する。他の実施例で
は、管理ノードが要求されたデータ項目の論理アドレスを物理アドレスへと変換
する。さらに他の実施例では、要求ノードおよび管理ノードの両方が要求された
データ項目の論理アドレスを物理アドレスに変換する。さらに他の実施例では、
ディスクコントローラが論理アドレスを物理アドレスへと変換することができる
であろう。上の実施例のいずれにおいても、変換工程はオペレーティングシステ
ムの呼出、Ｉ／Ｏサブシステムの呼出または他のプロセスによって開始され得る
であろう。

【００４２】Ｉ／Ｏ宛先ハンドルの発生図３および図４に示すＩ／Ｏ宛先ハンドル３１４および３３４は各々、データ
ブロックがコピーされるべきバッファキャッシュ（たとえば、バッファキャッシ
ュ３１２、３３２、１０４または１１４）内の要求されたデータブロックのため
の宛先メモリアドレスを識別するデータを含む。たとえば、Ｉ／Ｏ宛先ハンドル
３１４はデータ「０００１Ｅ２００Ｆ０００」によって要求ノード３０２とバッ
ファキャッシュ３１２内の宛先メモリアドレスＥ２００Ｆ０００を識別すること
ができるであろう。先行例では、初めの２バイトが要求ノードを識別し、次の４
バイトが特定のメモリアドレスを識別する。

【００４３】代替的実施例では、Ｉ／Ｏ宛先ハンドル３１４および３３４が宛先メモリアド
レスおよび状態情報を含む。状態情報は特定のＩ／Ｏ要求を一意に識別するため
に用いられるタイムスタンプまたは他の情報を含み得るであろう。たとえば、先
行するＩ／Ｏ宛先ハンドル３１４「０００１Ｅ２００Ｆ０００」は読出要求のた
めの時点またはシーケンス番号を表わすために３バイト「２Ａ０２３４」をその
最後に添えていた可能性があるだろう。加えて、Ｉ／Ｏ宛先ハンドルはＩ／Ｏ宛
先ハンドルの認証または正確さを検証するためにチェックサムを含み得るであろ
う。

【００４４】一実施例に従うと、Ｉ／Ｏ宛先ハンドル３１４および３３４はオペレーティン
グシステムの呼出またはＩＯサブシステムの呼出によって発生される。一実施例
では、ＩＯ宛先ハンドルの発生は事象の発生時に暗黙のうちに行なわれる。他の
実施例では、Ｉ／Ｏ宛先ハンドルの発生は機能呼出によって明らかに行なわれる
。たとえば、処理がプロセッサ３０４上で開始され、処理がデータブロック３７
９の読出を要求すれば、そのプロセスにおける読出要求が、バッファキャッシュ
３１２内の特定の宛先メモリアドレスのためにＩ／Ｏ宛先ハンドル３１４を発生
するオペレーティングシステムの呼出を引き起こす。

【００４５】代替的実施例では、Ｉ／Ｏ宛先ハンドル（たとえば、Ｉ／Ｏ宛先ハンドル３１
４）はキャッシュコヒーレンス管理に責任を有する局所装置（たとえば、キャッ
シュコヒーレンスマネージャ１０６またはプロセッサ３０４によって発生される
。局所装置は、読出要求において明白であるか暗黙であるオペレーティングシス
テムの呼出またはＩ／Ｏサブシステムの呼出を行なうであろう。Ｉ／Ｏ宛先ハン
ドルは、管理ノードおよびディスクコントローラを通るときにデータ（たとえば
、状態情報）を添付し、除去しているかもしれない。

【００４６】別の実施例では、バッファキャッシュ（たとえば、バッファキャッシュ３１２
）内のデータブロックのために予約されているメモリの量をデータブロック（た
とえば、データブロック３７９）の最大サイズで割算した結果がｐである、ｐ個
のメモリアドレスを含むバンクがＩ／Ｏ宛先ハンドルを発生するために用いられ
得るであろう。Ｉ／Ｏ宛先ハンドルは特定のサイズ（少なくともデータブロック
のサイズ）のバッファキャッシュ内のメモリブロックを指すであろう。Ｉ／Ｏ宛
先ハンドルが発生されると、それは未解決のＩ／Ｏ要求に対応しないｐ個のメモ
リアドレスのバンクから選択される。ｐ個のメモリアドレスのバンクにおける未
解決または現在割当てられていないメモリアドレスを識別するために状態フラグ
が用いられ得るであろう。このように、特定のＩ／Ｏ宛先ハンドルでのデータブ
ロックが到着すると、データブロックはバッファキャッシュ内の適切な場所へと
コピーされ得る。読出要求を開始した処理が終了すると、メモリアドレスは有効
メモリアドレスのバンクに戻されるであろう。

【００４７】Ｉ／Ｏ転送図５に示す通信流れ図を参照すると、データに対する要求を含む第１のメッセ
ージが、要求処理を実行する要求ノードから要求されたデータを管理する責任を
有する管理ノードへと渡される。管理ノードは要求ノードから第１のメッセージ
を受取り、要求されたデータに対するロックを要求ノードに許可する。管理ノー
ドは第２のメッセージをディスクコントローラに転送する。ディスクコントロー
ラは第２のメッセージを受取り、要求されたデータを共有ディスクから、Ｉ／Ｏ
割当ハンドルが識別する要求ノード内の場所へとコピーする。

【００４８】Ｉ／Ｏ宛先ハンドルは要求されたデータに添えられてもよく、要求されたデー
タとは別に送られてもよい。一実施例では、Ｉ／Ｏ宛先ハンドルは要求ノードか
ら管理ノードへのＩ／Ｏ要求に添えられ、Ｉ／Ｏ要求とは別に管理ノードからデ
ィスクコントローラへと送られる。

【００４９】他の実施例に従うと、Ｉ／Ｏ宛先ハンドルは未解決の読出要求を一意に識別す
るので、要求されたデータがディスクコントローラから要求ノードに到着し、バ
ッファキャッシュ内の特定の記憶場所に与えられると、要求されたデータが到着
したという事実がロック要求の許可を示す。したがって、ロック許可をディスク
コントローラから要求ノードへの通信において送ることが必要ではない。代替的
実施例では、ロック許可が要求ノードによって必要とされれば、管理ノードがロ
ック許可を（Ｉ／Ｏ要求の転送とは別に）要求ノードに戻すことができるか、ま
たはディスクコントローラがロック許可を要求ノードに送ることができるであろ
う。

【００５０】例図３および図６を参照して、要求ノード３０２上でプロセッサ３０４が開始す
る処理がディスク３７６上にあるデータブロック３７９を要求する（ステップ６
０５）状況を考える。上述のように、データブロック３７９は管理ノード３２２
内のプロセッサ３２４および３２６に対して実行する処理によって管理される。

【００５１】ステップ６１０において、プロセッサ３０４はデータブロック３７９の受取り
のためにバッファキャッシュ３１２の一部を割当てる。ステップ６１５において
、Ｉ／Ｏ宛先ハンドル３１４が要求ノード３０２内においてオペレーティングシ
ステムの呼出によって発生される。Ｉ／Ｏ宛先ハンドルはステップ６１０におい
てデータブロック３７９のために割当てられたバッファキャッシュ３１２の部分
を識別する。次にステップ６２０において、ロック要求、読出要求およびＩ／Ｏ
宛先ハンドル３１４を含むＩＯ要求が要求ノード３０２からネットワークドライ
バ３０８によって管理ノード３２２に送られる。

【００５２】ステップ６２５において、管理ノード３２２内のネットワークドライバ３２８
が要求ノード３０２内のネットワークドライバ３０８からＩ／Ｏ要求を受取る。
管理ノード３２２内のプロセッサ３２４がビジーではなく、プロセッサ３２６が
ビジーであると想定する。（両方のプロセッサがビジーであれば、そのプロセッ
サの一方、通常は管理ノード３２２内のデフォルトのプロセッサがＩ／Ｏ要求を
処理するタスクを割当てられるであろう。）管理ノード３２２内のプロセッサ３
２４はステップ６３０において要求ノード３０２にロック要求を許可し、ステッ
プ６３２において、管理ノード３２２が要求されたデータの論理アドレスを物理
アドレスに変換する。（物理アドレスは論理アドレスではなくＩ／Ｏ要求ととも
に送られる。）次にステップ６３５において、管理ノード３２２はＩ／Ｏコント
ローラ３３０を介してＩ／Ｏ要求をディスクコントローラ３７０に転送する。Ｉ
／Ｏネットワーク３５５の構成の中には、Ｉ／Ｏ要求が解体され、Ｉ／Ｏ宛先ハ
ンドル３１４が別個のメッセージで送られ得るものもある。

【００５３】ステップ６４０において、ディスクコントローラ３７０は管理ノード３２２内
のＩ／Ｏコントローラ３３０からＩ／Ｏ要求（およびＩ／Ｏ宛先ハンドル３１４
）を受取る。次にステップ６４５において、ディスクコントローラ３７０はデー
タブロック３７９をフェッチすることによってＩ／Ｏ要求を処理する。ステップ
６５０において、ディスクコントローラ３７０は、要求ノード３１２内のバッフ
ァキャッシュ３１２にアドレス指定されたデータブロック３７９をＩ／Ｏ宛先ハ
ンドル３１４とともに送る。

【００５４】ステップ６５５において、要求ノード３０２内のコントローラ３１０がデータ
ブロック３７９を受取る。データブロック３７９はＩ／Ｏコントローラ３１０に
よって処理され、ステップ６６０において、それは、データブロック３７９をバ
ッファキャッシュ３１２のＩ／Ｏ宛先ハンドル３１４によって識別されたアドレ
スへと移動する。Ｉ／Ｏ要求を開始したプロセッサ３０４はステップ６６５にお
いてＩ／Ｏコントローラ３１０によってデータブロック３７９の到着を通知され
、処理が完了する。

【００５５】上述の実施例において、データブロック３７９の到着は要求ノード３０２が発
生したロック要求が許可されたことを意味することに注意されたい。しかしなが
ら、代替的実施例において、ロック許可はディスクコントローラ３７０または管
理ノード３２２によって明らかに要求ノード３０２に与えられ得るであろう。

【００５６】以上において、この発明はその具体的実施例を参照して説明された。しかしな
がら、この発明のより広い趣旨および範囲から逸脱せずにさまざまな変更および
変化が行なわれ得ることが明らかである。たとえば、ここに説明されたＩ／Ｏ要
求は、実現される特定のキャッシュコヒーレンスプロトコルに特定的なネットワ
ークおよびプロトコルヘッダ、チェクサムならびに状態情報のような付加的情報
を含んでもよい。加えて、Ｉ／Ｏ宛先ハンドルはバッファキャッシュまたは可変
長タイムスタンプまたはシーケンス番号における可変量のノード、可変長のアド
レス空間（たとえば、１６、４８または６４ビットのアドレス）を識別するため
に上に述べられたバイトの数よりも多くまたは少なく含んでもよい。さらに、特
定の構成を有する２つのキャッシュコヒーレンス共用ディスクコンピュータシス
テムが例示の目的のために説明された。他の構成のキャッシュコヒーレンス共用
ディスクコンピュータシステム（たとえば、共用メモリ並列プロセッサを用いる
システム）もまたＩ／Ｏ転送から利益を得ることが明らかであろう。したがって
、明細書および図面は限定的な意味合いではなく例示的なものとして見られるべ
きである。

【図面の簡単な説明】

【図１】従来のキャッシュコヒーレンス共用ディスクコンピュータシステ
ムのブロック図である。

【図２】従来のキャッシュコヒーレンスプロトコルのための通信経路を示
すフロー図である。

【図３】この発明の実施例に従うキャッシュコヒーレンス共用ディスクコ
ンピュータシステムのブロック図である。

【図４】この発明の代替的実施例に従うキャッシュコヒーレンス共用ディ
スクコンピュータシステムのブロック図である。

【図５】この発明の実施例に従うキャッシュコヒーレンスプロトコルのた
めの通信経路を示すフロー図である。

【図６】この発明の実施例に従うデータ要求を扱うための工程を示すフロ
ー図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年４月６日（２０００．４．６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１９

【補正方法】変更

【補正内容】

【００１９】 Hill他のアプローチの問題は、情報を与えられたプログラミングモデルは機能
停止の頻度を低減できるが、それらは根底にある問題、すなわち機能停止の持続
に対処していない。 Mohan C.による「マルチシステム共用ディスクトランザクション環境における
効率的ロッキングおよびキャッシュング（"Efficient locking and caching of
data in the multisystem shared disks transaction environment"）」、１９９２年３月２３日、第４５３−４６８頁、ＸＰ−００２０５５７７９では、大域
的ロックマネージャおよび局所的ロックマネージャを用いるロッキング方法が開
示されている。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１２年４月６日（２０００．４．６）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】００１８

【補正方法】変更

【補正内容】

【００１８】可能な解決法要求処理の機能停止の問題を解決する１つのアプローチが、M. D. Hillおよび
J. R. Larusによる「マルチプロセッサプログラマのためのキャッシュ研究（“C
ache Considerations for Multiprocessor Programmers”）」、ＡＣＭ通信（“
Communications of The ACM”）、第３３巻、第８号、１９９０年８月、第９７ −１０２頁に取上げられている。この論文において、HillおよびLarusは、機能停止の問題が共用ディスクの余分なアクセス（読出）を回避するようにバッファ
キャッシュに特別の注意を払うプログラミング技術によって少なくとも部分的に
緩和され得ることを示唆している。４つのメモリモデルが提案され、単一プロセ
ッサおよびマルチプロセッサのプログラミングのための規則が示唆されている。

【手続補正３】

【補正対象書類名】明細書

【補正対象項目名】００２０

【補正方法】変更

【補正内容】

【００２０】もう１つのアプローチが、J. B. Carter、J. K. Bennett、およびW. Zwaenepo
elによる「分散型共用メモリシステムにおける整合性に関連した通信を低減する
ための技術（“Techniques for Reducing Consistency-Related Communication
in Distributed Shared-Memory Systems”）」、ＡＣＭコンピュータシステム会
報（“ACM Transactions on Computer Systems”）、第１３巻、第３号、１９９
５年８月、第２０５−２４３頁において提案されている。この論文において、Ca
rter他は、ある処理におけるバッファ処理およびマージ更新が共用データ（すな
わち、ディスク１５０、またはバッファキャッシュ１０４および１１４間に分散
されるデータブロック１５４）への書込のレイテンシをマスクし、更新作業のた
めの全体のオーバーヘッドを効果的に低減すると示唆している。Carter他のアプ
ローチは通信の頻度、したがって機能停止の頻度を低減することに向けられてい
る。Carter他のアプローチは（機能停止が「一括」更新の数にわたって分けられ
るならば）機能停止の有効コストを低減するが、機能停止の個々のコストはより
高くなる可能性がある。たとえば、読出要求が直ちに必要であれば、Carter他の
アプローチは不十分である。なぜなら、十分な数の要求が集まるまで読出要求を
待ち行列に入れる結果として機能停止の持続期間がより長くなるためである。

【手続補正４】

【補正対象書類名】明細書

【補正対象項目名】００４１

【補正方法】変更

【補正内容】

【００４１】一実施例では、要求ノードは要求されたデータ項目の論理アドレス（たとえば
、資源名）を要求されたデータ項目の物理アドレスへと変換する。他の実施例で
は、管理ノードが要求されたデータ項目の論理アドレスを物理アドレスへと変換
する。さらに他の実施例では、要求ノードおよび管理ノードの両方が要求された
データ項目の論理アドレスを物理アドレスに変換する。さらに他の実施例では、
ディスクコントローラが論理アドレスを物理アドレスへと変換する。上の実施例
のいずれにおいても、変換工程はオペレーティングシステムの呼出、Ｉ／Ｏサブ
システムの呼出または他のプロセスによって開始され得る。

【手続補正５】

【補正対象書類名】明細書

【補正対象項目名】００４３

【補正方法】変更

【補正内容】

【００４３】代替的実施例では、Ｉ／Ｏ宛先ハンドル３１４および３３４が宛先メモリアド
レスおよび状態情報を含む。状態情報は特定のＩ／Ｏ要求を一意に識別するため
に用いられるタイムスタンプまたは他の情報を含み得る。たとえば、先行するＩ
／Ｏ宛先ハンドル３１４「０００１Ｅ２００Ｆ０００」は読出要求のための時点
またはシーケンス番号を表わすために３バイト「２Ａ０２３４」をその最後に添
えていた可能性がある。加えて、Ｉ／Ｏ宛先ハンドルはＩ／Ｏ宛先ハンドルの認
証または正確さを検証するためにチェックサムを含み得る。

【手続補正６】

【補正対象書類名】明細書

【補正対象項目名】００４６

【補正方法】変更

【補正内容】

【００４６】別の実施例では、バッファキャッシュ（たとえば、バッファキャッシュ３１２
）内のデータブロックのために予約されているメモリの量をデータブロック（た
とえば、データブロック３７９）の最大サイズで割算した結果がｐである、ｐ個
のメモリアドレスを含むバンクがＩ／Ｏ宛先ハンドルを発生するために用いられ
得る。Ｉ／Ｏ宛先ハンドルは特定のサイズ（少なくともデータブロックのサイズ
）のバッファキャッシュ内のメモリブロックを指すであろう。Ｉ／Ｏ宛先ハンド
ルが発生されると、それは未解決のＩ／Ｏ要求に対応しないｐ個のメモリアドレ
スのバンクから選択される。ｐ個のメモリアドレスのバンクにおける未解決また
は現在割当てられていないメモリアドレスを識別するために状態フラグが用いら
れ得る。このように、特定のＩ／Ｏ宛先ハンドルでのデータブロックが到着する
と、データブロックはバッファキャッシュ内の適切な場所へとコピーされ得る。
読出要求を開始した処理が終了すると、メモリアドレスは有効メモリアドレスの
バンクに戻されるであろう。

【手続補正７】

【補正対象書類名】明細書

【補正対象項目名】００４９

【補正方法】変更

【補正内容】

【００４９】他の実施例に従うと、Ｉ／Ｏ宛先ハンドルは未解決の読出要求を一意に識別す
るので、要求されたデータがディスクコントローラから要求ノードに到着し、バ
ッファキャッシュ内の特定の記憶場所に与えられると、要求されたデータが到着
したという事実がロック要求の許可を示す。したがって、ロック許可をディスク
コントローラから要求ノードへの通信において送ることが必要ではない。代替的
実施例では、ロック許可が要求ノードによって必要とされれば、管理ノードがロ
ック許可を（Ｉ／Ｏ要求の転送とは別に）要求ノードに戻すことができるか、ま
たはディスクコントローラがロック許可を要求ノードに送ることができる。

【手続補正８】

【補正対象書類名】明細書

【補正対象項目名】００５６

【補正方法】削除

【手続補正書】

【提出日】平成１３年１月１９日（２００１．１．１９）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】特許請求の範囲

【補正方法】変更

【補正内容】

【特許請求の範囲】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ，ＹＵ，ＺＷ (72)発明者クロッツ，ボリスアメリカ合衆国、94002 カリフォルニア州、ベルモント、ワインディング・ウェイ、1566 Ｆターム(参考） 5B005 KK13 MM11 5B045 BB34 DD13 【要約の続き】（「Ｉ／Ｏ転送」）結果として、機能停止期間が低減し、システムの資源に対するコンテンションが低減し、コンテキスト切換がなくなる。

Claims

【特許請求の範囲】

【請求項１】キャッシュコヒーレンス共用ディスクコンピュータシステム
におけるＩ／Ｏ転送のための方法であって、管理ノードが要求されたデータのための読出要求を受取るステップを含み、前
記読出要求は要求ノードにおいて開始され、前記管理ノードが、前記要求ノードが前記要求されたデータを読出すことを許
す、前記要求されたデータに対するロックの許可を行なうステップと、前記管理ノードが前記要求されたデータを識別するデータをディスクコントロ
ーラに転送するステップと、前記ディスクコントローラが前記要求されたデータを識別する前記データを前
記管理ノードから受取るステップと、前記ディスクコントローラが前記要求されたデータを識別する前記データに基
づいて共用ディスクからデータ項目を読出すステップと、前記ディスクコントローラが前記データ項目を前記要求ノードに送るステップ
とを含む、方法。
【請求項２】前記要求されたデータが記憶されるべき場所を示す宛先デー
タを発生するステップをさらに含む、請求項１に記載の方法。
【請求項３】前記管理ノードが前記宛先データを受取るステップをさらに
含む、請求項２に記載の方法。
【請求項４】前記読出要求を一意に識別する宛先データを発生するステッ
プをさらに含む、請求項１に記載の方法。
【請求項５】前記要求ノードが、前記読出要求を送る前に、前記要求され
たデータを受取るために第１のバッファキャッシュの一部を割当てるステップを
さらに含む、請求項１に記載の方法。
【請求項６】データブロックを含む共用ディスクと、前記共用ディスクに結合され、前記データブロックを要求ノードに送ることに
よって管理ノードからの第２のメッセージに応答するよう構成されるディスクコ
ントローラと、前記ディスクコントローラに結合され、要求されたデータのための第１のメッ
セージを送るよう構成される前記要求ノードとを含み、前記要求ノードは、第１のプロセッサと、前記第１のプロセッサに結合される第１のバッファキャッシュとを含み、前記ディスクコントローラおよび前記要求ノードに結合され、前記第１のメッ
セージを受取り、前記要求ノードからのロック要求を許可し、前記第１のメッセ
ージに基づいて前記第２のメッセージを前記ディスクコントローラに転送するよ
う構成される前記管理ノードを含み、前記管理ノードは第２のプロセッサを含む
、装置。
【請求項７】前記要求ノードは、前記要求されたデータが記憶されるべき
場所を示す宛先データを発生するよう構成される、請求項６に記載の装置。
【請求項８】前記管理ノードは前記宛先データを受取るよう構成される、
請求項７に記載の装置。
【請求項９】前記要求ノードは前記要求されたデータを一意に識別する宛
先データを発生するよう構成される、請求項６に記載の装置。
【請求項１０】前記要求ノードは、前記第１のメッセージを送る前に、前
記要求されたデータを受取るために前記第１のバッファキャッシュの一部を割当
てるよう構成される、請求項６に記載の装置。
【請求項１１】Ｉ／Ｏ転送のステップを行なうための一連の命令が記憶さ
れているコンピュータ読出可能媒体であって、前記一連の命令は、管理ノードが要求されたデータのための読出要求を受取るステップを含み、前
記読出要求は要求ノードにおいて開始され、前記管理ノードが、前記要求ノードが前記要求されたデータを読出すことを許
す、前記要求されたデータに対するロックの許可を行なうステップと、前記管理ノードが前記要求されたデータを識別するデータをディスクコントロ
ーラに転送するステップと、前記ディスクコントローラが前記要求されたデータを識別する前記データを前
記管理ノードから受取るステップと、前記ディスクコントローラが前記要求されたデータを識別する前記データに基
づいて共用ディスクからデータ項目を読出すステップと、前記ディスクコントローラが前記データ項目を前記要求ノードに送るステップ
とを含む、コンピュータ読出可能媒体。
【請求項１２】前記要求されたデータが記憶されるべき場所を示す宛先デ
ータを発生するステップをさらに含む、請求項１１に記載のコンピュータ読出可
能媒体。
【請求項１３】前記管理ノードが前記宛先データを受取るステップをさら
に含む、請求項１２に記載のコンピュータ読出可能媒体。
【請求項１４】前記読出要求を一意に識別する宛先データを発生するステ
ップをさらに含む、請求項１１に記載のコンピュータ読出可能媒体。
【請求項１５】前記要求ノードが、前記読出要求を送る前に、前記要求さ
れたデータを受取るために第１のバッファキャッシュの一部を割当てるステップ
をさらに含む、請求項１１に記載のコンピュータ読出可能媒体。