JPH10240707A

JPH10240707A - 主記憶共有型マルチプロセッサ

Info

Publication number: JPH10240707A
Application number: JP9059914A
Authority: JP
Inventors: Toshiaki Tarui; 俊明垂井; Koichi Okazawa; 宏一岡澤; Yasuyuki Okada; 康行岡田; Toru Shonai; 亨庄内; Toshio Okochi; 俊夫大河内; Hideya Akashi; 英也明石
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-02-27
Filing date: 1997-02-27
Publication date: 1998-09-11
Anticipated expiration: 2017-02-27
Also published as: US6088770A; JP3849951B2; US6546471B1

Abstract

(57)【要約】【課題】自ノード内の主記憶のアクセス、パーティシ
ョンの管理の効率化。【解決手段】ノード内の主記憶の各ページに対応し
て、該ページが他のノードからアクセスされたかどかを
記憶するためのビットを１ビット設ける。該ビットが０
の場合は他のノードへのキャッシュコヒーレントコマン
ド送出を行わない。該ビットは、初期化、メモリ割り当
て時にソフトウェアでリセットされ、主記憶のページが
他のノードからアクセスされるとハードウェアでセット
される。また、ＳＭＰ内をパーティションに分けた際
に、各ノードの主記憶をローカル、共有領域に分け、各
々別個のアドレスを指定できるようにする。各ノードで
は、共有領域、ローカル領域の構成情報をレジスタで記
憶する。共有領域のアクセスコマンドは全ノードにマル
チキャストするのに対し、ローカル領域へのアクセスが
行われた際は、パーティション内のノードにのみコマン
ドをマルチキャストする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報処理装置、特
に、パーソナルコンピュータ（ＰＣ）、ワークステーシ
ョン（ＷＳ）、サーバ機等に用いられる主記憶共有型の
並列計算機システムに係り、特に、主記憶の制御方式に
関する。

【０００２】

【従来の技術】近年ＰＣ，ＷＳの上位機種及びサーバ機
などでは、主記憶共有型のマルチプロセッサ（ＳＭＰ）
構成が広まっており、性能を向上させるために、２０〜
３０台以上の多数台のプロセッサの間で主記憶を共有す
ることが重要な課題になってきている。主記憶共有型の
マルチプロセッサの構成方法として広く使われている方
式として共有バスがあるが、バスではバスのスループッ
トがネックになるため、接続可能なプロセッサの数は高
々８台程度である。従って、多数台のプロセッサを接続
する方式としては適さない。

【０００３】現在行われている、多数台のプロセッサを
接続する主記憶共有マルチプロセッサの構成方法には、
大きく２つの方式がある。その一つに、クロスバスイッ
チによる構成があり、例えば、「進化したシステム・ア
ーキテクチャ」（ＳｕｎＷｏｒｌｄ誌１９９６年１月号
第２９頁〜第３２頁）に開示されている。この方式で
は、プロセッサと主記憶を持つ各ボードを、高速なクロ
スバスイッチで接続し、プロセッサ間のキャッシュ一貫
性を保持する。この方式では、キャッシュ一貫性の保持
が高速にできるという利点が有る。しかし、キャッシュ
の一貫性を保持するためのトランザクションが全プロセ
ッサにブロードキャストされるため、クロスバスイッチ
にかかるトラフィックが非常に高く、性能的に隘路にな
るとともに、高速なスイッチが必要になるためコスト高
を招くという欠点がある。さらに、キャッシュ一貫性保
持のためのトランザクションをブロードキャストしなけ
ればならないため、台数が非常に多いシステムを実現す
ることは困難であり、数十台程度が限度である。以下で
はこの方式をスイッチ型ＳＭＰ（Ｓｙｍｍｅｔｒｉｃａ
ｌＭｕｌｔｉＰｒｏｃｅｓｓｏｒ）と呼ぶ。

【０００４】それに対して、ディレクトリ方式によるマ
ルチプロセッサの構成があり、たとえば「ＴｈｅＳｔ
ａｎｆｏｒｄＦＬＡＳＨＭｕｌｔｉｐｒｏｃｅｓｓ
ｏｒ」（第２１回ＩＳＣＡＰｒｏｃｅｅｄｉｎｇｓ）
に開示されている。この方式では、主記憶のデータライ
ン毎に、そのデータラインがどこのプロセッサのキャッ
シュに接続されているかを示すビットマップであるディ
レクトリを設けることにより、必要なプロセッサにのみ
キャッシュ一貫性を保持するためのトランザクションを
送る。それにより、スイッチにかかるトラフィックを大
幅に削減することができ、スイッチのハードウェアコス
トを削減することができる。しかし、キャッシュ一貫性
を保持するためのトランザクションを出す際には、必
ず、主記憶に置かれたディレクトリの内容をチェックし
なければならないため、アクセスレーテンシが大幅に増
えるという欠点がある。さらに、ディレクトリを置くた
めのメモリのコストが高くなると言う欠点を持つ。

【０００５】上記のようにスイッチ型ＳＭＰとディレク
トリ方式は一長一短である。一般にスイッチ型ＳＭＰの
方がハードウェア規模は大きくなり、台数が多くなった
場合のスケーラビリティは良くないが、高性能を達成で
きる。したがって、ＰＣやサーバ機等の、台数のそれほ
ど多くない（３０台程度までの）システムでは、スイッ
チ型ＳＭＰで実現する方が得策である。

【０００６】ここで、主記憶共有型マルチプロセッサを
構成する上でのもう一つの問題点として、信頼性の問題
がある。従来の主記憶共有型マルチプロセッサは、シス
テム全体で一つのＯＳを持つ。この方式は、システムの
全てのプロセッサを一つのＯＳで管理できるため、柔軟
なシステム運用（負荷分散等）をできるという利点を持
つ。しかし、多数台のプロセッサを主記憶共有のマルチ
プロセッサ構成で接続した場合、システムの信頼性が低
下するという欠点を持つ。複数のプロセッサをネットワ
ークで接続したクラスタ構成のサーバや、ＭＰＰ（Ｍａ
ｓｓｉｖｅｌｙＰａｒａｌｌｅｌＰｒｏｃｅｓｓｏ
ｒｓ）では、ノード毎にＯＳは別なので、ＯＳなどのバ
グ等のためにシステムダウンしても、システムダウンす
るのは当該のノードのみである。それに対して主記憶共
有型のマルチプロセッサで、システム全体を１つのＯＳ
で制御する場合、あるプロセッサがシステムバグ等のた
めにダウンすると、ＯＳがダウンしてしまうため、全て
のプロセッサが影響を受けてしまう。

【０００７】上記の問題を避けるために、主記憶共有型
のマルチプロセッサにおいて、複数のＯＳを走らせる方
式が「Ｈｉｖｅ：ＦａｕｌｔＣｏｎｔａｉｎｍｅｎｔ
ｆｏｒＳｈａｒｅｄ−ＭｅｍｏｒｙＭｕｌｔｉｐ
ｒｏｃｅｓｓｏｒｓ」（第１５回ＡＣＭＳｙｍｐｏ
ｓｉｕｍｏｎＯｐｅｒａｔｉｎｇＳｙｓｔｅｍｓ
Ｐｒｉｎｃｉｐｌｅｓ）において開示されている。こ
の方式では、ディレクトリ方式の主記憶共有のマルチプ
ロセッサに、以下の２つの機構を持たせる。（１）システム全体を複数のセル（パーティション）に
わけ、各パーティション毎に、独立したＯＳを走らせ
る。全体のアドレス空間は一つであり、ＯＳごとに担当
するアドレス範囲が異なる。（２）主記憶のページ毎に書き込みアクセス可能なプロ
セッサを表すビットマップを設け、書き込みアクセスを
ビットマップが１であるプロセッサのみに許す。各プロ
セッサの主記憶に書き込みが行われる場合（Ｆｅｔｃｈ
＆Ｉｎｖａｌｉｄａｔｅ命令によりデータがキャッシン
グされる場合、もしくはＷｒｉｔｅＢａｃｋ要求が到来
した場合）、ビットマップの内容がチェックされ、ビッ
トマップが１であるプロセッサからのアクセスのみが許
される。上記の（１）の機構により、たとえ、１つのパ
ーティションのＯＳがダウンしても、他のパーティショ
ンがダウンする事を避けることができる。さらに、
（２）の機構を設けることにより、バグにより暴走した
パーティションのプロセッサが、他のパーティションが
使用するデータを破壊することを防止することができ
る。以上のように、主記憶共有型のマルチプロセッサ内
を複数のパーティションに分けることにより、システム
の信頼性を大幅に向上させることができる。

【０００８】

【発明が解決しようとする課題】上記従来技術で述べ
た、スイッチ型ＳＭＰを構成し、さらにＳＭＰ内をパー
ティションに分けようとする場合、以下に示す３つの問
題点がある。

【０００９】（Ａ）ローカル主記憶のアクセスが遅いプロセッサが同一ボード内の主記憶をアクセスする場
合、理想的にはクロスバスイッチを経由せずに高速にア
クセスを行うことができるはずである。しかし、実際
は、必ず他のプロセッサへのキャッシュ一貫性保持のた
めのトランザクションを出し、他のプロセッサのキャッ
シュのチェック（以下ではこの処理をＣＣＣ：Ｃａｃｈ
ｅＣｏｈｅｒｅｎｔＣｈｅｃｋと呼ぶ）を行わなけ
ればならない。なぜなら、他のプロセッサのキャッシュ
の上に、アクセスされたデータのコピーがキャッシング
されている可能性があるからである。実際に他のプロセ
ッサのキャッシュにデータがキャッシングされていた場
合は、上記のＣＣＣは無駄にはならない。しかし、アク
セスされたデータが、他のプロセッサから一回もアクセ
スされていないローカルなデータの場合は、該当するデ
ータが他のプロセッサのキャッシュ上にキャッシングさ
れている可能性は０であり、本来は、ＣＣＣの処理は全
く不要である。そのため、無駄なＣＣＣのために、アク
セスレーテンシを増加させてしまうのみならず、スイッ
チ上のトラフィックを増大させてしまうという問題点が
ある。

【００１０】ディレクトリ方式では、キャッシュライン
単位でどのプロセッサにキャッシングされているかが管
理されているため、無駄なＣＣＣは生じない。しかし、
先に述べたように、ディレクトリのためのハードウェア
量が多いのみならず、ディレクトリを管理するためのオ
ーバヘッドが非常に大きいという欠点を持つ。たとえ
ば、１６プロセッサ、４ＧＢ主記憶、６４Ｂ／ラインの
システムのディレクトリとしては、４ＧＢ／６４Ｂ＊１６ｂｉｔ＝１２８ＭＢもの主記憶が必要になる。従って、大幅なハードウェア
量の削減が必要になる。

【００１１】（Ｂ）パーティションのアドレスが０番地
から始まらない上記の従来のパーティション管理機構では、システム全
体でアドレス空間が一つである。従って、各パーティシ
ョンの分担するアドレスが０番地から始まらない。例え
ば、パーティション数が２、各パーティションの主記憶
容量が１ＭＢとすると、パーティション０は０番地から
１Ｍ番地までのアドレス空間を持つのに対し、パーティ
ション１は１Ｍ番地から２Ｍ番地までのアドレス空間を
持たなければならないことになる。既存のＯＳは、アド
レスが０番地から主記憶が実装されていることを前提と
しているため、上記の制限は従来ＯＳを使用する場合、
大きな障害になる。

【００１２】（Ｃ）パーティション管理のためのハード
ウェア量が多い上記従来例のパーティション管理機構を用いる場合、４
ＫＢのページ毎に、各プロセッサが該当するページへの
アクセスを許されるかどうかがビットマップで記憶され
ている。したがって、該当するビットマップのハードウ
ェア量が非常に大きいという問題点がある。例えば、プ
ロセッサの台数を１６台、システムの主記憶容量を４Ｇ
Ｂとすると、４ＧＢ／４ＫＢ×１６＝１６ＭＢものメモリがパーティション管理のために必要になり、
コストの増大を招く。

【００１３】従って、本発明の第一の目的は、他のプロ
セッサから全くアクセスされていないローカルなデータ
を、他のノードへのＣＣＣを行わずに高速にアクセスす
ることが可能な、主記憶共有型のマルチプロセッサを、
少ないハードウェアオーバヘッドで実現することであ
る。本発明のもう一つの目的は、主記憶共有型のマルチ
プロセッサをパーティションに分けた際に、各パーティ
ションの持つローカルな主記憶が独立したアドレス空間
を持つことによりローカルな主記憶を０番地から始める
ことができ、かつ、必要な領域を共有することができる
主記憶共有型のマルチプロセッサを構成することであ
る。本発明のさらなる目的は、上記のパーティション管
理を少ないハードウェア量で実現することである。

【００１４】

【課題を解決するための手段】上記目的を達成するた
め、本発明は、１つ以上のＣＰＵ、キャッシュと、主記
憶を備える複数のノードと、ノード間を結ぶネットワー
クとからなり、ネットワークを用いてノード間でキャッ
シュコヒーレント制御を行う主記憶共有型マルチプロセ
ッサにおいて、各ノードは、自ノードの主記憶の各ペー
ジ対応に、該当するページが他のノードからアクセスさ
れたかどうかを記憶する第１のビットが１ビット割り当
てられ、該第１のビットはシステムの初期化時にリセッ
トされ、主記憶の該当するページが他のノードからアク
セスされた場合に、ハードウェアによりセットされるテ
ーブルと、自ノードのＣＰＵが自ノードの主記憶をアク
セスする際に、アクセスするページに該当する前記テー
ブルの前記第１のビットを検査し、該第１のビットがセ
ットされていた場合には他のノードへのキャッシュコヒ
ーレント制御を行い、該第１のビットがセットされてい
なかった場合には他のノードへのキャッシュコヒーレン
ト制御を行わない手段を備えるようにしている。

【００１５】さらに、システムソフトウェアが主記憶の
ページをアロケートする際に、アロケートするページに
対応する前記テーブルのビットを該システムソフトウェ
アがリセットするようにしている。

【００１６】また、前記テーブルに、前記主記憶の各ペ
ージ対応に該ページに対してキャッシュコヒーレント制
御が必要で無いことを記憶する第２のビットを１ビット
割り当て、前記手段は、自ノードのＣＰＵが自ノードの
主記憶をアクセスする際に該第２のビットを検査し、該
ビットがセットされていない場合には、前記第１のビッ
トの値にしたがって他のノードへのキャッシュコヒーレ
ント制御の要否を判断し、前記第２のビットがセットさ
れていた場合には他のノードへのキャッシュコヒーレン
ト制御を行わないようにしている。

【００１７】１つ以上のＣＰＵ、キャッシュと、主記憶
を備える複数のノードと、ノード間を結ぶネットワーク
とからなり、ネットワークを使ってノード間でキャッシ
ュコヒーレント制御を行い、主記憶を共有している各ノ
ードを１つ以上のノードからなる複数のパーティション
に分けることが可能な主記憶共有型マルチプロセッサに
おいて、各ノードの主記憶を、全ノードからアクセス可
能な共有領域と、パーティション内からのみアクセス可
能なローカル領域に分割し、各々の領域について別個の
開始アドレスを指定するようにしている。

【００１８】さらに、前記各ノードは、アクセスされた
アドレスがローカル領域であるか共有領域であるかを判
定する手段と、パーティション内にどのノードが含まれ
ているかを判定する手段を備え、他のノードへキャッシ
ュコヒーレンス制御のためのコマンドを出すとき、共有
領域へのアクセスコマンドに関しては、システム内の全
ノードにコマンドをブロードキャストし、ローカル領域
へのアクセスコマンドに関しては、パーティション内の
ノードにのみコマンドをマルチキャストするようにして
いる。

【００１９】また、前記各パーティションのローカル領
域のアドレスが０番地から始まるようにしている。ま
た、他のノードからキャッシュコヒーレントコマンドが
到来した際に、アクセスアドレスがローカル領域か共有
領域かを判定する手段と、アクセス元のノードがパーテ
ィション内かパーティション外かを判定する手段を備
え、ローカル領域にパーティション外のノードからコマ
ンドが到来したと判定された場合には、アクセスを抑止
し、エラーを報告するようにしている。また、前記各ノ
ードは前記共有領域の構成情報を記憶するレジスタを備
えるようにしている。また、前記共有領域の構成情報
は、共有領域の開始アドレスと、１プロセッサの担当す
る共有領域の大きさからなるようにしている。また、前
記共有領域の構成情報は、共有領域の開始アドレスと終
了アドレスの組からなるようにしている。また、前記各
ノードは、パーティションの構成情報を記憶する手段と
して、パーティション内のノードの分布をビットマップ
で記憶する手段を備えるようにしている。

【００２０】

【発明の実施の形態】以下、本発明に係る主記憶共有型
マルチプロセッサを、図面に示した実施の形態を参照し
てさらに詳細に説明する。

【００２１】（１）装置の概要図１は本発明に係る主記憶共有型マルチプロセッサのブ
ロック図である。本システムは６４ノードのシステムで
あり、複数のノード、例えば１００、２００（これらは
ノード０、ノード６３と呼ぶことがある）が、ネットワ
ーク９００により接続される。各ノードは同じ構造を有
する。すなわち、各ノードは、ＣＰＵ１１０〜１１２、
（部分）主記憶１６０、主記憶アクセス回路１３０、ネ
ットワークコマンド送信／受信回路１８０／１９０を持
つ。１８０、１９０、９００については、公知の技術で
あるので内部の説明は省略する。主記憶１６０は、この
システムに共通の主記憶の一部を構成し、各ノードで実
行されるプログラムおよびデータの一部を保持するもの
で、このシステムはいわゆる分散共有メモリ型の並列計
算機システムである。主記憶は、ローカル主記憶１６
１、共有主記憶１６２に分けられ、ベースアドレスレジ
スタ１６１０、１６２０により、それぞれ別個のアドレ
スを指定できる。ベースアドレスレジスタ１６１０、１
６２０はシステムの立ち上げ時に、システムのアドレス
マップに応じて、後に述べるパーティション／主記憶構
成情報レジスタ１５０とともにセットされる。図ではノ
ード内のＣＰＵはバスにより接続されているが、バス以
外の結合方式、例えば一対一結合、スイッチによる結合
でもよい。これらノード内の接続方法については公知の
技術であるので内部構造の詳細な説明は行わない。

【００２２】主記憶アクセス回路１３０は、ＣＰＵから
主記憶アクセス命令が発行されたときに、他のノードへ
のＣＣＣのためのネットワークコマンドの発行、他ノー
ドへの主記憶アクセスコマンドの発行、自ノード内の主
記憶のアクセス、および、他のノードから送られてきた
ＣＣＣコマンド、主記憶アクセスコマンドを実行するた
めの回路である。先ず、送信側の回路を説明すると、１
３１はＣＰＵから送られてきたバスコマンドの受信／バ
スコマンドの分類を行うための回路である。１３２はＣ
ＰＵからアクセスされたアドレスが内部（ノード内の主
記憶のアドレス）かリモート（他のノードが持つ主記憶
のアドレス）かを判断するための回路である。１３２は
パーティション構成情報１５０の内容を用いて内部／リ
モートを判断する。１３２、１５０は本実施の形態に特
有の回路である。

【００２３】１３８は自ノード内の主記憶の各ページの
属性（他のノードからアクセスされたか否か、及び他の
ノードへのＣＣＣが不要であるかどうか）を、記憶する
ためのテーブルＲＡＴ（ＲｅｍｏｔｅＡｃｃｅｓｓ
Ｔａｂｌｅ）、１３３はＣＰＵからアクセスされたアド
レスのＲＡＴの値をチェックし、必要な動作を起動する
ための回路、１４８は他のノードからアクセスされたペ
ージのＲＡＴの値を変更するための回路である。これら
の１３８、１３３、１４８は本実施の形態に特有の回路
である。

【００２４】１３７はＲＡＴを初期化等のためにＣＰＵ
からアクセスするための回路である。１３４はＣＣＣコ
マンド、他ノード主記憶アクセスコマンド、他ノードへ
の返答コマンド等のネットワークコマンドを生成するた
めの回路である。１３９はアクセスアドレス、アクセス
コマンドより、ネットワークコマンドをどのノードに出
すかを判断する回路である。１３９は本実施の形態に特
有の動作を行う。１３５はＣＰＵが自ノードの主記憶上
のデータをアクセスする際に、他ノードへ出したＣＣＣ
の内容を記憶し、他のノードから帰ってきたＣＣＣに対
する返答コマンドを集計するためのＣＣＣ待ち合わせ回
路Ａ、１３６はＣＰＵがアクセスした自ノードの主記憶
１６０の内容をアクセスするための主記憶アクセス回路
Ａである。

【００２５】次に受信側の回路を説明すると、１４１は
ネットワークコマンドのアドレス、送信元ノード番号
と、パーティション構成情報１５０の内容の整合性をチ
ェックするための回路であり、本実施の形態に特有の回
路である。１４２は他のノードから送られてきたネット
ワークコマンドの分類を行う回路、１４７は他のノード
から送られてきたコマンドのアクセスアドレスが内部か
リモートかを判断する回路である。１４７は、本実施の
形態に特有の回路である。１４３は他のノードから送ら
れてきたＣＣＣコマンドなどを、ノード内のバスに出力
するための回路である。１４４は、他のノードへのデー
タフェッチ要求の回答を集計し、ＣＰＵに返送するデー
タを選択するための回路である。１４５は、他のノード
が自ノード内の主記憶をアクセスした際に、自ノードの
バスに出したＣＣＣコマンドの内容を記憶し、自ノード
のバスからの返答を待ち合わせるためのＣＣＣ待ち回路
Ｂ、１４６は、他のノードからの要求に応じて自ノード
内の主記憶１６０をアクセスするための回路である。１
４９は他のノードからのアクセスコマンドが来た際に、
アクセス元のノード番号を一時的に記憶するためのラッ
チである。返答先のノード番号を知るために用いられ
る。

【００２６】（２）バス、ネットワークコマンドの説明ノード内のバス上では、以下の６つのコマンドが使われ
る。括弧内はこの実施例で使われる略号である。・Ｆｅｔｃｈ（Ｆ）データのライン転送を要求する。ＣＰＵの読み出しコマ
ンドがミスした場合に出される。ＣＣＣコマンドの一つ
である。・Ｆｅｔｃｈ＆Ｉｎｖａｌｉｄａｔｅ（ＦＩ）データのライン転送と同時に、他のキャッシュ上のデー
タの無効化を要求する。ＣＰＵの書き込みコマンドがミ
スした場合に出される。ＣＣＣコマンドの一つである。・Ｉｎｖａｌｉｄａｔｅ（Ｉ）他のキャッシュ上のデータの無効化を要求する。ＣＰＵ
が、他のキャッシュと共有されているキャッシュライン
に対して書き込み要求を出した場合に出される。ＣＣＣ
コマンドの一つである。・ＷｒｉｔｅＢａｃｋ（ＷＢ）キャッシュラインの書き戻しを要求する。リプレースに
より、データが追い出されたときに生じる。・Ｄａｔａ（Ｄ）データ転送を要求する。Ｆ，ＦＩコマンドへの返答。・ＮｏＤａｔａ（ＮＤ）Ｆ，ＦＩコマンドに対し、どのＣＰＵもＤコマンドを出
さない状態。これは、バス上では明示的なコマンドとし
ては存在しないが、便宜的にコマンドとして扱う。バス
上では、コマンドに付随して、アドレスが転送され、さ
らにＷＢ，Ｄコマンドではデータ（キャッシュライン）
が転送される。

【００２７】ネットワークコマンドは以下の７種類が存
在する。バスコマンドと同じものについては意味の説明
を略する。・Ｆｅｔｃｈ（Ｆ）・Ｆｅｔｃｈ＆Ｉｎｖａｌｉｄａｔｅ（ＦＩ）・Ｉｎｖａｌｉｄａｔｅ（Ｉ）・ＷｒｉｔｅＢａｃｋ（ＷＢ）・Ｄａｔａ（Ｄ）Ｆ，ＦＩコマンドに対し、キャッシュ上のデータを返送
するためのコマンド。・ＤａｔａＭｅｍ（ＤＭ）Ｆ，ＦＩコマンドに対し、主記憶上のデータを返送する
ためのコマンド。ここで、他のいずれかのノードのキャ
ッシュよりＤコマンドが来た場合は、ＤＭコマンドで返
送されたデータは無視されなければならない。・ＮｏＤａｔａ（ＮＤ）Ｆ，ＦＩコマンドに対し、該当するノードではどのＣＰ
ＵもＤコマンドを出さないことを示す返答。

【００２８】図６、図７にバスコマンドのフォーマット
を示す。図６はＦ，ＦＩ，Ｉ，ＮＤコマンドであり、コ
マンドの他に、宛先ノード番号を表すビットマップ、ア
クセス元ノード番号、アクセスアドレスを含む。ここ
で、宛先ノード番号はビットマップで表されているた
め、複数のビットを立てることにより、特定の複数のノ
ード（例えばパーティション内のノード）に向けたマル
チキャスト、さらには、全ビットを立てることにより、
システムの全プロセッサに向けたブロードキャストを容
易に実現することができる。図７はＷＢ，Ｄ，ＤＭコマ
ンドのフォーマットであり、上記の情報の他にキャッシ
ュラインのデータを含む。

【００２９】（３）ＣＰＵのからのアクセスに対する動
作以下では、ＣＰＵからのアクセスに対する主記憶をアク
セス回路１３０の動作を場合に分けて順に説明する。共
有バス上にコマンドが出されると、バスコマンド受信／
バスコマンド分類回路１３１は、アクセスされたアドレ
スをリモート判定回路１３２に送り、アクセスされたコ
マンドが自ノードの主記憶のアドレスをアクセスしてい
るか（内部）、他ノードの主記憶のアドレスをアクセス
しているか（リモート）を判断する。リモート判定回路
１３２では、パーティション／主記憶構成情報１５０の
内容を使用し、内部／リモートの判定を行う。

【００３０】図５にパーティション／主記憶構成情報１
５０の内容を示す。パーティション／主記憶構成情報１
５０は、パーティション内にどのノードが属しているか
を示すビットマップ１５００、パーティション内のノー
ドの数を表すレジスタ１５０６を持ち、さらに、共有領
域に関しては、共有領域の先頭アドレス（ベースアドレ
ス）１５０１、１ノードあたりの共有領域の大きさ１５
０２を記憶する。ここでは、各ノードの共有領域は、全
て同じ大きさである。さらに、ローカル領域に関して
は、パーティション内の各ノードに対して、ローカル領
域の開始アドレス１５０３と終了アドレス１５０４を記
憶する。パーティションレジスタ１５００の該当するビ
ットが１であるノードに対してのみこの情報は有効であ
る。各ノード毎に別個のレジスタを持つことにより、ロ
ーカル領域に関しては各ノードの主記憶容量は異なって
も良い。

【００３１】リモート判定回路１３２では、アクセスア
ドレスをＡとすると、Ａが自ノードのローカル領域の開
始アドレス１５０３と終了アドレス１５０４の間にある
かを調べる。さらに、自ノードの番号をＮ、共有領域ベ
ースアドレスレジスタ１５０１の内容をＢ、共有領域サ
イズ／ノードレジスタ１５０２の内容をＳとすると、Ｂ＋Ｓ×Ｎ≦Ａ＜Ｂ＋Ｓ×（Ｎ＋１）であるかどうかを調べる。いずれかが成り立つ場合はバ
スコマンド受信／バスコマンド分類回路１３１に、アク
セスされたアドレスが内部であることを、そうでない場
合はリモートの主記憶であることを知らせる。その後、
バスコマンド受信／バスコマンド分類回路１３１は、ア
クセスコマンド、アクセスアドレスが内部であるかリモ
ートであるかによって、異なった動作をする。

【００３２】（Ａ）内部アドレスへのＦ、ＦＩコマンド
の場合まず、１３１ａを通してＲＡＴチェック回路１３３にア
クセスアドレス、コマンドが送られる。ＲＡＴチェック
回路１３３では、アクセスされたページに該当するＲＡ
Ｔ１３８の内容をチェックし、他のノードへのＣＣＣが
要るかどうかを判断する。

【００３３】図３にＲＡＴの詳細を示す。ＲＡＴでは、
ページ毎にＡ，Ｎの２つのビットを記憶するメモリであ
る。Ａビットは他のノードへのＣＣＣが必要であるかど
うかを示す。Ａが０の場合、該当するページが他のノー
ドからアクセスされていない（従って他のノードへのＣ
ＣＣは不要である）ことを示し、Ａが１の場合該当する
ページが他のノードからアクセスされたこと（従って、
他のノードへのＣＣＣが必要であること）を示す。Ａビ
ットは立ち上げ時に０に初期化されるほか、ソフトウェ
アがあるページを割り当てる際にソフトウェアにより０
にリセットされる。

【００３４】図９に本実施例におけるページ割り当ての
アルゴリズムを示す。これにより、ページがシステムソ
フトウェアにより回収され、再利用された場合にも、Ｒ
ＡＴが正しく動作することを保証することができる。Ａ
ビットはハードウェア（ＲＡＴ変更回路１４８）で１に
セットされる。これについては後ほど述べる。

【００３５】Ｎビットは通常のキャッシュコヒーレント
管理が不要であるページを示すのに用いる。Ｎビットが
０の場合該当するページは通常のキャッシュコヒーレン
ト管理の対象になることを示し、Ｎが１の場合は、該当
するページは（パージ、フラッシュ等の命令を用いて）
ソフトウェアによりコヒーレント管理が行われるため通
常のキャッシュコヒーレント管理は不要であることを示
す。Ｎビットが１のページに対しては、他のノードへの
ＣＣＣのためのコマンドは出されない。Ｉ／Ｏ領域や、
数値計算の配列がおかれる領域などで有効である。Ｎビ
ットはアプリケーションソフトウェアが定義したアドレ
ス情報に基づき、システムソフトウエアが管理する。

【００３６】図２にＲＡＴチェック回路１３３の詳細を
示す。先ず、１３３３、１３３４でアクセスされたペー
ジに該当するＲＡＴの値が読み出しされた後、ゲート１
３３５により、Ａ＝１かつＮ＝０であるかどうか（すな
わち、他のノードへのＣＣＣが必要であるかどうか）を
判断する。他のノードへのＣＣＣが必要である場合、ス
イッチ１３３０、信号１３３ａを通してネットワークコ
マンド生成回路１３４に他ノードへのコマンドを出すこ
とを依頼するとともに、他ノードへのＣＣＣが必要で、
かつコマンドがＦかＦＩの場合（コマンドデコード回路
１３３２およびゲート１３３６により判断する）スイッ
チ１３３１、信号１３３ｂを通してＣＣＣ待ち回路Ａに
ＣＣＣの結果を待ちあわせることを依頼する。それに対
して、他ノードへのＣＣＣが必要でない場合（Ａ＝０も
しくはＮ＝１の場合）は、ゲート１３３７でコマンドが
ＦかＦＩかどうかが判断され、ＦかＦＩで外部へのＣＣ
Ｃが不要な場合には、スイッチ１３３８、信号１３３ｃ
を通じて主記憶アクセス回路Ａ１３６に主記憶の内容を
読み出すことを依頼する。すなはち、外部へのＣＣＣを
省略し、即座に主記憶をアクセスできる。

【００３７】（Ａ１）他のノードへのＣＣＣが不要の場
合この場合、信号１３３ｃを通じて主記憶アクセス回路Ａ
１３６にアクセスアドレスが伝えられる。主記憶アクセ
ス回路Ａ１３６はアクセスされたデータラインを自ノー
ド内の主記憶１６０から読み出し（ローカル領域１６
１、共有領域１６２の何れの場合も同じである）、読み
出されたデータを１３６ａ、１４３を通じて自ノード内
のＣＰＵに返す。

【００３８】（Ａ２）他のノードへのＣＣＣが必要な場
合先ず、信号１３３ａを通じてネットワークコマンド生成
回路１３４に他のノードにＦ，ＦＩコマンドを送出する
ことを依頼する。それと同時に信号１３３ｂを通じてＣ
ＣＣ待ち回路Ａ１３５に対して他のノードからの返答を
待ち合わせることを依頼する。ネットワークコマンド生
成回路１３４は、宛先生成回路１３９により判断された
ノードにコマンドを送付する。ここで、注意しなければ
ならないのは、宛先ノードは図６、図７に示すように全
ての（６４個の）ノードに対応するビットマップで表さ
れるため、複数のノードを指定すればブロードキャス
ト、マルチキャストを指定することができる。

【００３９】図１１に宛先生成回路１３９の構成を示
す。宛先生成回路では、先ず、アクセスアドレスが内部
であるかリモートであるか（リモート判定回路１３９
１）が判断され、さらに、アクセスアドレスが共有メモ
リであるかどうかが（共有メモリ判定回路１３９２）が
判断される。１３９１の動作は１３２と同一である。共
有メモリ判定回路１３９２では、アクセスアドレスを
Ａ、共有領域ベースアドレスレジスタ１５０１の内容を
Ｂ、共有領域サイズ／ノードレジスタ１５０２の内容
をＳとすると、Ｂ≦Ａ＜Ｂ＋Ｓ×６４で有るかどうかが調べられる（アクセスアドレスが上記
の範囲内に入っていれば共有メモリである）。さらに、
回路１３９４により、アクセスアドレスのｈｏｍｅノー
ドが求められる。ｈｏｍｅノードとは、アクセスアドレ
スを主記憶上に持つノードである。具体的には以下の手
順で求められる（以下ではアクセスアドレスをＡとす
る）。・Ａと全てのノードに対応するローカル領域レジスタ１
５０３、１５０４の値が比較され、Ａが何れかのノード
ＨＬの開始アドレスと終了アドレスの間に有る場合、Ｈ
Ｌがｈｏｍｅノードである（Ａはローカル領域であ
る）。・さらに、共有領域ベースアドレスレジスタ１５０１の
内容をＢ、共有領域サイズ／ノードレジスタ１５０２
の内容をＳとすると、以下の計算を行う。ＨＳ＝（Ａ−Ｂ）／Ｓ（小数点以下切り捨て）ＨＳが０以上６４未満の場合、ＨＳがｈｏｍｅノード番
号である（Ａは共有領域である）。

【００４０】セレクタ１３９０は、上記の判断結果、及
び、アクセスコマンドにより、図１２に示す動作をす
る。つまり、コマンドがＦ、ＦＩ、Ｉの場合は、共有領
域の場合は全ノードへブロードキャストするためオール
１のビットマップ１３９３ａが選ばれ（ここでは説明を
簡単にするため６４個全ノードが実装されているとする
が、実装されているノードが６４未満でも、ビットマッ
プを変えることにより対応できる）、ローカル領域の場
合は、パーティション内のノードにのみマルチキャスト
するため、パーティションレジスタ１５００の内容が選
ばれる。Ｄ、ＮＤコマンドの場合、及びリモート主記憶
からのＤＭコマンドの場合、アクセス元ノード番号レジ
スタ１４９の値をデコードした（ビットマップにした）
結果が選ばれ、アクセス元のノードに結果が返送され
る。リモートの主記憶へのＷＢコマンドの場合は、回路
１３９４で求められたｈｏｍｅノード番号をデコードし
た結果が選ばれ、データをｈｏｍｅノードに書き戻す。
内部のアドレスへのＷＢ、ＮＤコマンドはエラーである
（あり得ないはずである）。この場合、Ｆ，ＦＩコマン
ドであるので、ローカル領域の場合はパーティション内
の全ノードにマルチキャストされ、、共有領域の場合は
システム内の全ノードにブロードキャストされる。他ノ
ードへＦ，ＦＩコマンドを出した結果は、ＤもしくはＮ
Ｄコマンドにより、返送される。他のノードより返送さ
れたコマンドはネットワークコマンドチェック回路１４
１でパーティション／主記憶構成情報１５０との整合性
をチェックされた後、ネットワークコマンド分類回路１
４２に送付される。

【００４１】ネットワークコマンド分類回路１４２は、
コマンドの種類、アクセスされたアドレスが内部（自ノ
ードの主記憶）かリモート（他ノードの主記憶）か（リ
モート判定回路１４７を用いてを判断される、リモート
判定回路１４７の動作は１３２と全く同一である）に応
じ、該当する出力にコマンドを出す。内部アドレスへの
Ｎ、ＮＤコマンドの場合は、信号１４２ａを通じてＣＣ
Ｃ待ち回路Ａ（１３５）にコマンドを送る。

【００４２】図１４にネットワークコマンドチェック回
路１４１の詳細を示す。ネットワークコマンドチェック
回路１４１では、ローカル領域へのパーティション外の
ノードへのアクセスをエラーとして検出するための回路
である（ローカル領域を他のパーティションからの不正
なアクセスから守るために、ローカル領域へはパーティ
ション内のノードからのみしかアクセスが許されな
い）。まず、アクセスアドレスが共有メモリか否かが共
有メモリ判定回路１４１０により判断される（共有メモ
リ判定回路１４１０の動作は、１３９２と同一であ
る）。さらに、パーティション内外判定回路１４１１に
よりアクセス元のノードがパーティションの中であるか
どうかが判断される。具体的には、ネットワークコマン
ドのアクセス元ノード番号をデコーダ１４１２でデコー
ドした結果と、パーティションレジスタ１５００（パー
ティション内のノードを表すビットマップ）をＡＮＤ−
ＯＲゲートでゲートした結果により、アクセス元のノー
ド番号に相当するビットがパーティションレジスタ１５
００の中で立っているかどうかがチェックされる。その
結果、正しいアクセスの場合、つまりアクセスアドレス
が共有メモリであるか、アクセス元のノードがパーティ
ション内である場合は、スイッチ１４１５を通じてアク
セスコマンドがネットワークコマンド分類回路１４２に
送られる。不正なアクセスの場合は、ゲート１４１６に
より、エラーが報告される（スイッチ１４１５によりア
クセスは抑止される）。これにより、ローカル領域への
他のパーティションからの不正なアクセスを防止するこ
とができる。

【００４３】内部のアドレスに対して他のノードへＦ，
ＦＩコマンドを出した結果としては、全てのノードから
ＮＤが返る場合と、１つ以上のノードからＤコマンドが
返る（それ以外のノードからはＮＤが返る）場合に分け
られる。他のノードからの返答はＣＣＣ待ち回路Ａ（１
３５）で集計され、該当する動作がとられる。

【００４４】図１０にＣＣＣ待ち回路Ａ（１３５）の詳
細を示す。信号１３３ｂを通じて与えられたＣＣＣアド
レスはレジスタ１３５０６に蓄えられる。後に他のノー
ドからＣＣＣの返答（ＤもしくはＮＤコマンド）が来る
と、先ず、コンパレータ１３５０７でＣＣＣアドレス１
３５０６と比較される。比較した結果が一致した場合
は、コマンドがＤであるかＮＤであるかが、デコーダ１
３５００とゲート１３５０１、１３５０２で判断され
る。Ｄコマンドが（１つでも）到来した場合（つまり他
のキャッシュから最新のデータが送られて来た場合）
は、フリップフロップ（ＦＦ）１３５０４がセットさ
れ、Ｄコマンドが到来したことが記憶されると同時に、
ラッチ１３５１４にＤコマンドの内容が記憶される（Ｄ
コマンドにより送られてきた値は、後にＣＰＵに返され
る）。それとは別に、Ｄ、ＮＤコマンドが１個到来する
毎に、ゲート１３５０３を通じてカウンタ１３５０５が
カウントアップされ、今までに何個の返答が来たかが数
えられる。カウンタの値が信号１３５１１ａで示され
る、期待される返答数と一致すると、全ての返答が返っ
たとして、ＣＣＣの待ち合わせが終了する。

【００４５】その際にフリップフロップ１３５０４が１
の場合、スイッチ１３５１５がＯＮになり、ラッチ１３
５１４に記憶されていたＤコマンドにより返送されたデ
ータが信号１３５ｂ、バスコマンド生成回路１４３を通
じてＣＰＵに返される。それに対して、フリップフロッ
プ１３５０４が０の場合（全てのノードからＮｏＤａｔ
ａコマンドが返された場合）は、スイッチ１３５１６が
ＯＮになり、信号１３５ａを通じて、ＣＣＣアドレスレ
ジスタ１３５０６に記憶されていたアクセスアドレスが
主記憶アクセス回路Ａ（１３６）に伝えられ、主記憶上
のデータをアクセスすることが依頼される。

【００４６】信号１３５１１ａで示される期待される返
答数は、次の手順で求められる。まず、ＣＣＣアドレス
レジスタ１３５０６で記憶されているアクセスアドレス
が共有主記憶であるかどうかが、共有メモリ判定回路１
３５０８で判断され（共有メモリ判定回路１３５０８の
動作は１３９２と同一である）、セレクタ１３５１１に
伝えられる。セレクタ１３５１１は、アクセスアドレス
が共有メモリの場合は６４（システムの全ノード数、た
だし、実装されているノード数が６４未満の場合は実装
されているノード数を指定する）を出力し、アクセスア
ドレスが共有メモリでない（ローカルメモリの場合）は
パーティション内ノード数レジスタ１５０６の値を出力
する。これにより、該当するデータをアクセスするノー
ドの数を求めることができる。

【００４７】（Ａ２ａ）他のノードからの回答が全てＮ
Ｄの場合ＣＣＣ待ち回路Ａ（１３５）より信号１３５ａを通じて
主記憶アクセス回路Ａ（１３６）に、自ノード上の主記
憶１６０をアクセスすることが依頼され、アクセスされ
たデータがＣＰＵに返される。

【００４８】（Ａ２ｂ）何れかのノードよりＤコマンド
が返ってきた場合ＣＣＣ待ち回路Ａ（１３５）より、信号１３５ｂ、バス
コマンド生成回路１４３を通じて、Ｄコマンドにより返
送された最新のデータが、ＣＰＵに返される。

【００４９】（Ｂ）内部アドレスへのＩコマンドの場合この場合、ＲＡＴチェック回路１３５により、他のノー
ドへのＣＣＣの要不要がチェックされるところまでは
（Ａ）と同様である。

【００５０】（Ｂ１）他のノードへのＣＣＣが必要な場
合信号１３３ａを通じてネットワークコマンド生成回路１
３４に他のノードへのＩコマンドの生成を依頼する（Ｉ
コマンドに返答はない）。ネットワークコマンド生成回
路１３４は宛先生成回路１３９の指定するノードにコマ
ンドを送る。つまり、ローカル領域へのＩコマンドの場
合、パーティション内の全ノードにマルチキャストさ
れ、共有領域へのＩコマンドの場合、システムの全ノー
ドにブロードキャストされる。

【００５１】（Ｂ２）他のノードへのＣＣＣが不要な場
合Ｉコマンドの場合、主記憶のデータアクセスは不要なの
で何も起こらない。すなわち、コマンドデコード回路１
３３２は０を出力するため、ゲート１３３７の出力は０
であり、信号１３３ｃには何も出力されない。

【００５２】（Ｃ）内部アドレスへのＷＢコマンドの場
合この場合、バスコマンド受信／バスコマンド分類回路１
３１は信号１３１ｃを通じて主記憶アクセス回路１３６
に、書き戻されたデータを主記憶１６０に書き込むこと
を依頼する。

【００５３】（Ｄ）リモートアドレスへのＦ，ＦＩコマ
ンドの場合この場合、信号１３１ｂを通じてネットワークコマンド
生成回路に、他ノードへＦ，ＦＩコマンドを生成する事
を要求する。ネットワークコマンド生成回路１３４は宛
先生成回路１３９の指定するノードにコマンドを送る。
つまり、ローカル領域へのＦ，ＦＩコマンドの場合、パ
ーティション内の全ノードにマルチキャストされ、共有
領域へのＦ，ＦＩコマンドの場合、システムの全ノード
にブロードキャストされる。リモートアドレスへのＦ，
ＦＩに対しては、Ｄ，ＤＭ，ＮＤの３種のコマンドが到
来する。ネットワークコマンド分類回路１４２は、リモ
ートアドレスに対するＤ，ＤＭ，ＮＤコマンドが到来し
た場合は、信号１４２ｅを通じて返答集計回路１４４に
送出する。

【００５４】この場合、返答されるコマンドの組み合わ
せとしては、（あ）ｈｏｍｅノードからＤＭコマンドが、その他のノ
ードからは全てＮＤが返る場合（い）ｈｏｍｅノードからＤＭコマンドが、他の何れか
一つ以上のノードからＤコマンドが返る（その他のノー
ドからはＮＤコマンドが返る）場合（う）ｈｏｍｅノードを含む何れか１つ以上のノードか
らＤコマンドが返る（その他のノードからはＮＤコマン
ドが返る）場合に分けられる。（あ）ではＤＭコマンドより送られたｈ
ｏｍｅノードの主記憶から読み出された値が使われるの
に対し、（い）では、他のノードのキャッシュの上のデ
ータを優先しなければならず（なぜならキャッシュ上の
データは変更されている可能性があるため）、ＤＭコマ
ンドでｈｏｍｅノードの主記憶から送られたデータは捨
てられ、Ｄコマンドによりキャッシュから送られたデー
タが活用される。（う）では、Ｄコマンドにより何れか
のノードのキャッシュから送られてきたデータが用いら
れる。各ノードからの返答は返答集計回路１４４で集計
され、（あ）（い）（う）の何れかの場合であるかが判
断され、アクセスされた結果（データライン）がアクセ
ス元のＣＰＵに返される。

【００５５】図１３に返答集計回路１４４の詳細を示
す。先ず、他ノードから送られてきたコマンドが１４４
００によりデコードされる。Ｄコマンドの場合はラッチ
１４４０１によりＤコマンドの内容（アドレス、デー
タ）が記憶されるとともに、フリップフロップ１４４０
３によりＤコマンドが１つ以上到来したことが記憶され
る。ＤＭコマンドの場合はラッチ１４４０２によりＤＭ
コマンドの内容が記憶される。それと並行して、Ｄ、Ｄ
Ｍ、ＮＤコマンドが１つ到来する毎に、ゲート１４４０
４を通じてカウンタ１４４０５がカウントアップされ、
到着した返答の数を数える。カウンタの値が信号１４４
１３ａで示される期待される返答数と一致した場合（コ
ンパレータ１４４０６で判断される）、全ての返答が到
着したと判断し、Ｄコマンドが一つでも来ていた場合
（フリップフロップ１４４０３が１の時）はゲート１４
４０８、スイッチ１４４１０によりＤコマンドの内容
が、信号１４４ａを通じてバスコマンド生成回路１４３
に供給される。それに対しＤコマンドが一つも来ていな
かった場合は、ゲート１４４０７、スイッチ１４４０９
により、ＤＭコマンドの内容がバスコマンド生成回路に
供給される。これにより、Ｄコマンドが一つ以上来てい
た場合は、Ｄコマンドにより返送された他のノードのキ
ャッシュ上のデータがアクセスを行ったＣＰＵに返さ
れ、Ｄコマンドが一つも来ていなかった場合は、ＤＭコ
マンドにより返送された、ｈｏｍｅノードの主記憶上の
値がアクセスを行ったＣＰＵに返される。１４１１、１
４１３等の期待される返答数を求める回路は、アドレス
ラッチ１４４１４にラッチされたアクセスアドレスに対
して、ＣＣＣの返答の数を求める。詳細な動作は、ＣＣ
Ｃ待ち回路Ａ（１３５）の回路（１３５０８、１３５１
１等）と全く同一である。

【００５６】（Ｅ）リモートアドレスへのＩコマンドの
場合この場合はＲＡＴのチェックは行われず、信号１３１ｂ
により直接ネットワークコマンド生成回路１３４に他の
ノードへのコマンドの送出の依頼が行われる。その後の
動作は（Ｂ１）と同様である。

【００５７】（Ｆ）リモートアドレスへのＷＢコマンド
の場合この場合、バスコマンド受信／バスコマンド分類回路１
３１は信号１３１ｂを通じてネットワークコマンド生成
回路１３４に、ＷＢコマンドを送付することを依頼す
る。宛先生成回路が出す宛先は、ｈｏｍｅノードであ
り、ＷＢコマンドはｈｏｍｅノードに送られる。

【００５８】（４）他のノードからのアクセスに対する
動作ここでは、主記憶アクセス回路１３０が、ネットワーク
９００を通じて送られてきた、他のノードからのコマン
ドに対してどのように動作するかを述べる。ここで、
Ｄ，ＤＭ，ＮＤコマンドに対する動作は既に（３）で述
べてあるので、その他のＦ，ＦＩ，Ｉ，ＷＢに対する動
作を述べる。他のノードから送られてきたコマンドは、
ネットワークコマンドチェック回路１４１によりチェッ
クされた後、ネットワークコマンド分類回路１４２に送
られる。ネットワークコマンド分類回路１４２では、ア
クセスコマンドの種類、アクセスアドレスが内部かリモ
ートか（リモート判定回路１４７により判断される）に
より、該当する出力にコマンドを送る。また、Ｆ，Ｆ
Ｉ，Ｉコマンドの場合は、アクセス元ノード番号レジス
タ１４９にアクセス元ノード番号をセットする。

【００５９】（Ａ）内部アドレスへのＦ，ＦＩコマンド
の場合ネットワークコマンド分類回路１４２は、信号１４２ｄ
を通じてバスコマンド生成回路１４３にバスコマンドの
生成を依頼する。バスコマンド生成回路１４３は、ノー
ド内の共有バス１２０を通じてノード内のＣＰＵにＦ，
ＦＩコマンドを出す。それと同時に、信号１４２ｃを通
じてＣＣＣ待ち回路Ｂ（１４５）に、ノード内の共有バ
スに出されたコマンドを待ち合わせることを依頼する。

【００６０】図１５にＣＣＣ待ち回路Ｂ（１４５）の詳
細を示す。信号１４２ｃを通じて送られてきた、ＣＣＣ
を行うアドレスは、ＣＣＣアドレスレジスタ１４５１に
記憶される。後にノード内の共有バス１２０からバスコ
マンド受信／バスコマンド分類回路１３１を通じて、Ｃ
ＣＣの返答（ＤもしくはＮＤコマンド）が来ると、先
ず、コンパレータ１４５２でＣＣＣアドレス１４５１と
比較される。比較した結果が一致した場合は、コマンド
がＮＤであるかどうかが、デコーダ１４５０とゲート１
４５３で判断される。ＮＤコマンドが返送された場合
は、スイッチ１４５５を通じて、ＣＣＣアドレスレジス
タ１４５１に記憶されていたアクセスアドレスが、信号
１４５ａを通して主記憶アクセス回路Ｂ１４６に伝えら
れ、主記憶上のデータをアクセスすることが依頼され
る。

【００６１】ノード内の共有バスに出したＦ，ＦＩコマ
ンドの結果は、Ｄ（ノード内のいずれかのＣＰＵのキャ
ッシュに該当するデータがある場合）、もしくはＮＤ
（ノード内の何れのＣＰＵのキャッシュにも該当するデ
ータが無い場合）により返送される。Ｄコマンドの場合
は、データも同時に返送される。バスコマンド受信／バ
スコマンド分類回路１３１は、コマンド、および、アク
セスアドレスが内部であるか、リモートであるか（リモ
ート判定回路１３２により判定される）に応じて、該当
する出力にコマンドを送る。

【００６２】（Ａａ）内部アドレスへのアクセスに対
し、Ｄコマンドが返送された場合自ノードのキャッシュ上にアクセスデータがあった場
合、バスコマンド受信／バスコマンド分類回路１３１
は、Ｄコマンド（コマンド、アドレス、データ）を、信
号１３１ｂを通じて、ネットワークコマンド生成回路１
３４に送る。ネットワークコマンド生成回路１３４は、
アクセス元のノードにアクセスデータをＤコマンドを用
いて返送する（宛先生成回路１３９は、アクセス元ノー
ド番号１４９を選択する）。これにより、自ノードのＣ
ＰＵのキャッシュ上のデータがアクセス元のノードに返
送される。

【００６３】（Ａｂ）内部アドレスへのアクセスに対
し、ＮＤコマンドが返送された場合。

【００６４】自ノードのキャッシュ上にはアクセスデー
タが無かった場合、バスコマンド受信／バスコマンド分
類回路１３１は、ＮＤコマンドを信号１３１ｄを通じて
ＣＣＣ待ち回路Ｂ（１４５）に送付する。ＣＣＣ待ち回
路Ｂは信号１４５ａを通じて、主記憶アクセス回路Ｂ
（１４６）に主記憶１６０上のアクセスアドレスの内容
（キャッシュライン）を読み出すことを依頼する。主記
憶アクセス回路Ｂ（１４６）は、信号１６０ａを通じて
アクセスラインを読み出すと、信号１４６ａを通じてネ
ットワークコマンド生成回路１３４に送る。ネットワー
クコマンド生成回路１３４は、アクセス元のノードにア
クセスデータをＤＭコマンドを用いて返送する（宛先生
成回路１３９は、アクセス元ノード番号１４９を選択す
る）。これにより、自ノードの主記憶上のデータがアク
セス元のノードに返送される。それと同時に、主記憶ア
クセス回路Ｂ（１４６）は、信号１４６ｂを通じてＲＡ
Ｔ変更回路１４８にアクセスされたページに該当する、
ＲＡＴ１３８のＡビットに１を設定することを依頼す
る。

【００６５】図４にＲＡＴ変更回路１４８の詳細を示
す。アクセスされたアドレスのページ番号に対応するＲ
ＡＴのＡビットに１が書き込まれる。

【００６６】（Ｂ）内部アドレスへのＩコマンドの場合ネットワークコマンド分類回路１４２は、信号１４２ｄ
を通じてバスコマンド生成回路１４３にバスコマンドの
生成を依頼する。バスコマンド生成回路１４３は、ノー
ド内の共有バス１２０を通じてノード内のＣＰＵにＩコ
マンドを出す（Ｉコマンドには返答は無い）。

【００６７】（Ｃ）内部アドレスへのＷＢコマンドの場
合ネットワークコマンド分類回路１４２は、信号１４２ｂ
を通じて、主記憶アクセス回路Ｂ（１４６）に、ＷＢさ
れたデータを主記憶に書き込むことを依頼する。主記憶
アクセス回路Ｂ（１４６）は、信号１６０ａを通じて主
記憶１６０へＷＢされたデータを書き込む。それと同時
に、主記憶アクセス回路Ｂ（１４６）は、信号１４６ｂ
を通じてＲＡＴ変更回路１４８にアクセスされたページ
に該当する，ＲＡＴ１３８のＡビットに１を設定するこ
とを依頼する。

【００６８】（Ｄ）リモートアドレスへのＦ，ＦＩコマ
ンドの場合ネットワークコマンド分類回路１４２は、信号１４２ｄ
を通じてバスコマンド生成回路１４３にバスコマンドの
生成を依頼する。バスコマンド生成回路１４３は、ノー
ド内の共有バス１２０を通じてノード内のＣＰＵにＦ，
ＦＩコマンドを出す。ノード内の共有バスに出したＦ，
ＦＩコマンドの結果は、Ｄ（ノード内のいずれかのＣＰ
Ｕのキャッシュに該当するデータがある場合）、もしく
はＮＤ（ノード内の何れのＣＰＵのキャッシュにも該当
するデータが無い場合）により返送される。Ｄコマンド
の場合は、データも同時に返送される。

【００６９】リモートアドレスに対するＤ，ＮＤコマン
ドの場合、何れの場合も、バスコマンド受信／バスコマ
ンド分類回路１３１は、Ｄコマンド（コマンド、アドレ
ス、データ）もしくはＮＤコマンド（コマンド、アドレ
ス）を、信号１３１ｂを通じて、ネットワークコマンド
生成回路１３４に送る。ネットワークコマンド生成回路
１３４は、アクセス元のノードにアクセス結果をＤ又は
ＮＤコマンドを用いて返送する（宛先生成回路１３９
は、アクセス元ノード番号１４９を選択する）。これに
より、Ｄコマンドの場合、自ノードのＣＰＵのキャッシ
ュ上のデータがアクセス元のノードに返送され、ＮＤコ
マンドの場合、自ノードのＣＰＵのキャッシュ上には該
当するデータが無いことが伝えられる。

【００７０】（Ｅ）リモートアドレスへのＩコマンドの
場合この場合、内部アドレスへのＩコマンドの場合（Ｂ）と
全く同じ動作を行う。

【００７１】（Ｆ）リモートアドレスへのＷＢコマンド
の場合他のノードからリモートアドレスへのＷＢコマンドが来
ることはあり得ない。

【００７２】ネットワークコマンド分類回路１４２はエ
ラーを報告する。

【００７３】以上述べた手順によりクロスバネットワー
クにより接続されたノード間でキャッシュコヒーレンス
をとることができる。その際に、リモートアクセステー
ブル（ＲＡＴ）１３８を用いて他のノードへのＣＣＣを
削減することができる。さらに、主記憶共有マルチプロ
セッサ内をパーティションに分ける際に、主記憶を、各
パーティションのローカル領域／パーティション間共有
領域の２つに分け、ローカル領域に対しては各パーティ
ション間で独立したアドレス空間とすることにより、各
パーティションのアドレスを０番地より始めるようにす
ることができる。さらに、パーティション／主記憶構成
情報１５０をレジスタにより記憶することにより、少な
いハードウェア量でパーティションの管理を実現するこ
とができる。

【００７４】＜変形例＞本発明は以上の実施の形態に限
定されるのではなくいろいろの変形例にも適用可能であ
る。例えば、（１）以上においては、ノード内のＣＰＵはバス１２０
により接続されているが、その他の接続形態（スイッチ
による接続、主記憶アクセス回路１３０への一対一接
続）も可能である。（２）また、以上においては、ＲＡＴ１４８は、主記憶
アクセス回路１３０に内蔵される、専用メモリにより、
構成されているが、外付けのメモリにすることも可能で
ある。さらに、ＲＡＴを物理的にはローカル主記憶１６
１上に置くことも可能である。さらに、この場合、ＲＡ
Ｔの内容を主記憶アクセス回路１３０内にキャッシング
する事も可能である。

【００７５】（３）上記実施の形態において、パーティ
ション／主記憶構成情報１５０では、共有領域の構成情
報は、共有領域ベースアドレス１５０１及び、共有領域
サイズ／ノードレジスタ１５０２の２つのレジスタに
より記憶されている。しかし、ローカル領域レジスタ１
５０３、１５０４のように、ノード毎に開始アドレス、
終了アドレスの組で覚えることも可能である（これによ
り、各ノードの共有領域の大きさを変えることができ
る）。この場合、上記実施の形態においては共有領域ベ
ースアドレス１５０１及び、共有領域サイズ／ノードレ
ジスタ１５０２を用いて計算で求めていた、共有メモリ
判定回路、ｈｏｍｅノード判定回路は、コンパレータに
より構成することができる。

【００７６】（４）以上においては、ノード内の各ＣＰ
Ｕ（１１０〜１１２）は独立したキャッシュを持ってい
るが、複数のＣＰＵに共有される外付けの２次キャッシ
ュを持たせることも可能である。各ノードの主記憶アク
セス回路１３０に、ＣＰＵのキャッシュＴＡＧのコピー
を持ち、他のノードから到来するキャッシュコヒーレン
トトランザクションをフィルタリングする事も可能であ
る。

【００７７】（５）以上においては、ノード間はクロス
バネットワークにより接続されているが、他の形式のネ
ットワーク（多段網等）により接続することも可能であ
る。（６）上記実施の形態においては、他のノードへのネッ
トワークコマンドを出す際に、宛先のノードをビットマ
ップにより指定することにより、ブロードキャスト、マ
ルチキャストを指示しているが、ネットワークコマンド
生成回路１３４が、宛先のノード毎に複数のコマンドを
出すことにより、ブロードキャスト、マルチキャストを
実現することも可能である。

【００７８】

【発明の効果】本発明によれば、主記憶共有型のマルチ
プロセッサにおいて、リモートアクセステーブル（ＲＡ
Ｔ）を置くことにより、少ないハードウェア量の追加に
より、自ノード内の主記憶をアクセスする際に、他のノ
ードからアクセスされていないページに関しては、ノー
ド間のＣＣＣを省くことができる。従って、アクセスレ
ーテンシを削減するとともに、ノード間のネットワーク
にかかるトラフィックを削減することができる。さら
に、本発明によれば、主記憶共有マルチプロセッサ内を
複数のパーティションに分ける際に、主記憶をパーティ
ション毎のローカルな領域とパーティション間で共有さ
れる領域に分け、ローカル領域に対しては各ノードのア
ドレス空間を独立することにより、各パーティションの
開始アドレスを０番地から始めることを可能にすること
ができる。さらに、各パーティションのローカル領域、
共有領域の範囲をレジスタにより記憶することにより、
パーティション管理のためのハードウェア量を従来のペ
ージ毎の管理と比較して大幅に削減することができる。

【図面の簡単な説明】

【図１】本発明のキャッシュコヒーレンス保持機構を持
つ主記憶共有型マルチプロセッサである。

【図２】各ノードのＲＡＴチェック回路のブロック図で
ある。

【図３】各ノードのＲＡＴのブロック図である。

【図４】各ノードのＲＡＴ変更回路のブロック図であ
る。

【図５】各ノードにおいて、パーティション／主記憶構
成情報を表すレジスタ群の詳細図である。

【図６】ネットワーク上の、Ｆ，ＦＩ，Ｉ，ＮＤコマン
ドのパケットフォーマットである。

【図７】ネットワーク上の、ＷＢ，Ｄ，ＤＭコマンドの
パケットフォーマットである。

【図８】各ノードの主記憶のブロック図である。

【図９】本発明のマルチプロセッサシステムにおいて、
主記憶のページをアロケートする際のフロー図である。

【図１０】各ノードのＣＣＣ待ち回路Ａのブロック図で
ある。

【図１１】各ノードの宛先生成回路のブロック図であ
る。

【図１２】各ノードの宛先生成回路内の、宛先セレクタ
の入力と出力の関係の表を示す図である。

【図１３】各ノードの返答集計回路のブロック図であ
る。

【図１４】各ノードのネットワークコマンドチェック回
路のブロック図である。

【図１５】各ノードのＣＣＣ待ち回路Ｂのブロック図で
ある。

【符号の説明】

１００、２００ノード１１０〜１１２ＣＰＵ１１０ａ〜１１２ａキャッシュ１２０バス１３１バスコマンド受信／バスコマンド分類回路１３２、１４７リモート判定回路１３３ＲＡＴチェック回路１３４ネットワークコマンド生成回路１３５ＣＣＣ待ち回路Ａ１３６主記憶アクセス回路Ａ１３７ＲＡＴアクセス回路１３８ＲＡＴ（ＲｅｍｏｔｅＡｃｃｅｓｓＴａｂ
ｌｅ）１３９宛先生成回路１４１ネットワークコマンドチェック回路１４２ネットワークコマンド分類回路１４３バスコマンド生成回路１４４返答集計回路１４５ＣＣＣ待ち回路Ｂ１４６主記憶アクセス回路Ｂ１４８ＲＡＴ変更回路１４９アクセス元ノード番号レジスタ１５０パーティション／主記憶構成情報１６０主記憶１６１ローカル主記憶１６２共有主記憶１８０ネットワークコマンド送信回路１９０ネットワークコマンド受信回路９００ノード間クロスバネットワーク

───────────────────────────────────────────────────── フロントページの続き (72)発明者庄内亨東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者大河内俊夫東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者明石英也東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】１つ以上のＣＰＵ、キャッシュと、主記
憶を備える複数のノードと、ノード間を結ぶネットワー
クとからなり、ネットワークを用いてノード間でキャッ
シュコヒーレント制御を行う主記憶共有型マルチプロセ
ッサにおいて、前記各ノードは、自ノードの主記憶の各ページ対応に、
該当するページが他のノードからアクセスされたかどう
かを記憶する第１のビットが１ビット割り当てられ、該
第１のビットはシステムの初期化時にリセットされ、主
記憶の該当するページが他のノードからアクセスされた
場合に、ハードウェアによりセットされるテーブルと、自ノードのＣＰＵが自ノードの主記憶をアクセスする際
に、アクセスするページに該当する前記テーブルの前記
第１のビットを検査し、該第１のビットがセットされて
いた場合には他のノードへのキャッシュコヒーレント制
御を行い、該第１のビットがセットされていなかった場
合には他のノードへのキャッシュコヒーレント制御を行
わない手段を備えることを特徴とする主記憶共有型マル
チプロセッサ。
【請求項２】請求項１記載の主記憶共有型マルチプロ
セッサにおいて、システムソフトウェアが主記憶のページをアロケートす
る際に、アロケートするページに対応する前記テーブル
のビットを該システムソフトウェアがリセットすること
を特徴とする主記憶共有型マルチプロセッサ。
【請求項３】請求項１記載の主記憶共有型マルチプロ
セッサにおいて、前記テーブルに、前記主記憶の各ページ対応に該ページ
に対してキャッシュコヒーレント制御が必要で無いこと
を記憶する第２のビットを１ビット割り当て、前記手段は、自ノードのＣＰＵが自ノードの主記憶をア
クセスする際に該第２のビットを検査し、該ビットがセ
ットされていない場合には、前記第１のビットの値にし
たがって他のノードへのキャッシュコヒーレント制御の
要否を判断し、前記第２のビットがセットされていた場
合には他のノードへのキャッシュコヒーレント制御を行
わないことを特徴とする主記憶共有型マルチプロセッ
サ。
【請求項４】１つ以上のＣＰＵ、キャッシュと、主記
憶を備える複数のノードと、ノード間を結ぶネットワー
クとからなり、ネットワークを使ってノード間でキャッ
シュコヒーレント制御を行い、主記憶を共有している各
ノードを１つ以上のノードからなる複数のパーティショ
ンに分けることが可能な主記憶共有型マルチプロセッサ
において、各ノードの主記憶を、全ノードからアクセス可能な共有
領域と、パーティション内からのみアクセス可能なロー
カル領域に分割し、各々の領域について別個の開始アド
レスを指定することを特徴とする主記憶共有型マルチプ
ロセッサ。
【請求項５】請求項４記載の主記憶共有型マルチプロ
セッサにおいて、前記各ノードは、アクセスされたアドレスがローカル領
域であるか共有領域であるかを判定する手段と、パーテ
ィション内にどのノードが含まれているかを判定する手
段を備え、他のノードへキャッシュコヒーレンス制御のためのコマ
ンドを出すとき、共有領域へのアクセスコマンドに関し
ては、システム内の全ノードにコマンドをブロードキャ
ストし、ローカル領域へのアクセスコマンドに関して
は、パーティション内のノードにのみコマンドをマルチ
キャストすることを特徴とする主記憶共有型マルチプロ
セッサ。
【請求項６】請求項４記載の主記憶共有型マルチプロ
セッサにおいて、前記各パーティションのローカル領域のアドレスが０番
地から始まることを特徴とする主記憶共有型マルチプロ
セッサ。
【請求項７】請求項５記載の主記憶共有型マルチプロ
セッサにおいて、他のノードからキャッシュコヒーレントコマンドが到来
した際に、アクセスアドレスがローカル領域か共有領域
かを判定する手段と、アクセス元のノードがパーティション内かパーティショ
ン外かを判定する手段を備え、ローカル領域にパーティション外のノードからコマンド
が到来したと判定された場合には、アクセスを抑止し、
エラーを報告することを特徴とする主記憶共有型マルチ
プロセッサ。
【請求項８】請求項４記載の主記憶共有型マルチプロ
セッサにおいて、前記各ノードは前記共有領域の構成情報を記憶するレジ
スタを備えることを特徴とする主記憶共有型マルチプロ
セッサ。
【請求項９】請求項８記載の主記憶共有型マルチプロ
セッサにおいて、前記共有領域の構成情報は、共有領域の開始アドレス
と、１プロセッサの担当する共有領域の大きさからなる
ことを特徴とする主記憶共有型マルチプロセッサ。
【請求項１０】請求項８記載の主記憶共有型マルチプ
ロセッサにおいて、前記共有領域の構成情報は、共有領域の開始アドレスと
終了アドレスの組からなることを特徴とする主記憶共有
型マルチプロセッサ。
【請求項１１】請求項５記載の主記憶共有型マルチプ
ロセッサにおいて、前記各ノードは、パーティションの構成情報を記憶する
手段として、パーティション内のノードの分布をビット
マップで記憶する手段を備えることを特徴とする主記憶
共有型マルチプロセッサ。