JP2618178B2

JP2618178B2 - スカラ／ベクトル複合処理システム、スカラ／ベクトル複合処理システム用の相互問い合わせ装置及びデータ・コヒーレンスを維持するための方法

Info

Publication number: JP2618178B2
Application number: JP5075849A
Authority: JP
Inventors: ドナルド、ジョージ、グライス; ドナルド、ウォルター、プライス; リザ、セイエド、ラジ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-05-26
Filing date: 1993-04-01
Publication date: 1997-06-11
Anticipated expiration: 2012-06-11
Also published as: US5426754A; JPH0635953A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、スカラ／ベクトル複合
処理システム内の相互問い合わせに係り、更に詳細に説
明すれば、各プロセッサが専用のキャッシュをそれぞれ
備えている多重プロセッサ形式のスカラ／ベクトル複合
処理システム・システム内のデータのコヒーレンス（一
貫性又は完全性）を保証することに係る。なお、明細書
の以下の記述を簡潔にするため、「ＸＩ」という略語が
「相互問い合わせ」を表し、「ＥＸ」が「排他的所有
権」（書き込み権限）を表し、「ＲＯ」が「共有所有
権」（読み取り専用権限）を表すものとする。また、
「Ｌ１」、「Ｌ２」、「Ｌ３」という略語がシステム記
憶階層のそれぞれのレベルを表し、数字が小さいほどプ
ロセッサの側に接近して位置するものとする。例えば、
Ｌ１メモリは、それぞれのプロセッサ専用に設けられる
キャッシュ・メモリであり、以下これを「Ｌ１キャッシ
ュ」と呼び、Ｌ１キャッシュに付随するデイレクトリを
「Ｌ１デイレクトリ」と呼ぶ。同様に、Ｌ２メモリは、
複数のプロセッサによって共有されたキャッシュ・メモ
リであり、以下これを「Ｌ２キャッシュ」と呼ぶ。更
に、複数のプロセッサによって共有された主記憶装置に
ついては、以下これを「Ｌ３メモリ」と呼ぶことにす
る。

【０００２】

【従来の技術及びその課題】各プロセッサがＬ１キャッ
シュをそれぞれ備えている多重プロセッサ・システムで
は、データ・コヒーレンスの問題、即ちＬ２キャッシュ
又はＬ３メモリ内のデータ内容と、幾つかのＬ１キャッ
シュ内に存在するそのデータの対応するコピーとの整合
性を維持しなければならないという問題が存在する。こ
のような整合性が失われるのは、或るプロセッサが、Ｌ
３メモリ又は自己のＬ１キャッシュの何れかに書き込み
を行う際に、他のプロセッサのＬ１キャッシュ内に存在
するそのデータの全てのコピーが無効（古いデータ）で
あることをマークしないか、又はこれらのコピーを同時
に更新することを保証しない場合である。本発明は、複
数の実行要素を備えた高性能のスーパコンピュータ・シ
ステムについて、この問題を解決することに向けられて
いる。

【０００３】各プロセッサが１つ以上のスカラ・プロセ
ッサ要素（ＳＸＥ）及び１つ以上のベクトル・プロセッ
サ要素（ＶＸＥ）をそれぞれ備えている高性能の多重プ
ロセッサ・システムでは、それぞれのＳＸＥがＬ１キャ
ッシュを通してＬ３メモリをアクセスし、それぞれのＶ
ＸＥがＬ１キャッシュをバイパスしてＬ３メモリとの間
でデータを直接的にフェッチ（読み取り又は取り出し）
及びストア（書き込み又は変更）することが極めて有利
である。このことは、主として大規模な先端科学技術ア
プリケーション及び高性能のスーパコンピュータ向けに
設計された「密結合」型の多重プロセッサ・システムに
おいて特に当てはまる。

【０００４】これには、幾つかの理由がある。Ｌ１キャ
ッシュが必要となるのは、スカラ専用アプリケーション
の性能を向上させるためであり、また、科学技術計算を
主とするアプリケーションのスカラ部分についてもそう
である。これに対し、ＶＸＥの演算が支配的な高度並列
アプリケーションについては、Ｌ１キャッシュの容量
や、帯域幅や、キャッシュのブロッキング機構が、性能
を著しく制限することがあるから、ＶＸＥの「パイプラ
イン化」オペランドを、Ｌ３メモリとの間で直接的に要
求することが重要となる。このことは、次のようなシス
テム設計上の２つの重要な要件をもたらす。

【０００５】（ａ）ＶＸＥ要求のトラヒック・レートが
高いので、Ｌ３メモリの設計は、全ての要求をＬ１キャ
ッシュを通して行うような設計に比べて、一層多い数の
オペランド要求に適応しなければならない。

【０００６】（ｂ）「データ・コヒーレンス」を保証す
るために、システムは、極めて高いＶＸＥ要求のトラヒ
ック・レートにサービスできる処の、集中型のコヒーレ
ンス機構を備えなければならない。

【０００７】現行の多重プロセッサ型スーパコンピュー
タの設計は、データ・コヒーレンスの問題を回避するた
め、通常のスカラ型のＬ１キャッシュを含めないか、又
はＬ１キャッシュを設ける場合には、データ・コヒーレ
ンスの解決をオペレーティング・システム又はアプリケ
ーションに負わせるようにしている。もし、Ｌ１キャッ
シュを含めないように設計されていれば、高性能ではあ
るが高価なＳＲＡＭチップを使用して、Ｌ３メモリへの
アクセス回数を最少化することができる。しかし、この
ような設計手法は、アプリケーションの性能を向上させ
るのと引き換えに、アプリケーションの範囲を限定する
か、又はソフトウェアに相当の複雑さを加えることにな
る。他方、各プロセッサがＬ１キャッシュをそれぞれ備
えている従来の多重プロセッサ・システムでは、全ての
Ｌ１ディレクトリのコピーである１組のコピー・ディレ
クトリを使用して、データ・コヒーレンスを維持するよ
うにしている。即ち、各プロセッサの読み取り要求につ
いて、他の全てのプロセッサのコピー・ディレクトリ内
で相互問い合わせを行って、他の任意のプロセッサが要
求されたデータ・ユニットのコピーを格納しているかを
否かを確認する、ということである。このプロセスは、
一度にただ１つのプロセッサだけが、一のデータ・ユニ
ットのＥＸ所有権を有することを保証する。即ち、一の
データ・ユニットのＥＸ所有権を有する唯１つのプロセ
ッサだけが、そのデータ・ユニットに書き込むことを許
されるのである。また、各データ・ユニットには、ＲＯ
所有権を設定することもできる。その場合、全てのプロ
セッサは、そのデータ・ユニットの読み取りを行うこと
を許されるが、どのプロセッサもそのデータ・ユニット
への書き込みを行うことはできない。

【０００８】データ・コヒーレンスの問題は、ストアス
ルー型のＬ１キャッシュについては、比較的簡明であ
る。なぜなら、ストアスルー型のＬ１キャッシュ内で書
き込みを行う場合、複数のプロセッサによって共有され
た補助メモリでも書き込みを同時に行う必要があるから
である。Ｌ１キャッシュをバックアップする補助メモリ
は、Ｌ２キャッシュである場合もあり、Ｌ３メモリであ
る場合もある。Ｌ２キャッシュは、ストアイン型又はス
トアスルー型のどちらでもよいが、Ｌ３メモリに至る書
き込みバスのトラフィックを減少させるためには、スト
アイン型であることが望ましい。

【０００９】ストアイン型のＬ１キャッシュを使用する
理由は、主として、補助メモリとＬ１キャッシュとの間
に設けられるメモリ・バスの帯域幅が、同じ頻度のプロ
セッサ・アクセスについて、ストアスルー型のＬ１キャ
ッシュよりも小さい、という点にある。一のキャッシュ
・ロケーションを一のプロセッサの要求に割り当てる
と、この要求に応じてＬ３メモリ又は他のキャッシュか
ら読み取られたデータ・ユニットのコピーを受け取るこ
とができる。ストアイン型のＬ１キャッシュを使用する
場合には、プロセッサは、一のキャッシュ・ロケーショ
ン内にある一のデータ・ユニットにのみ書き込みを行っ
て、Ｌ３メモリ内の対応するアドレスにあるデータ・ユ
ニットへの書き込みを行わない。従って、そのキャッシ
ュ・ロケーションは、そのデータ・ユニットの最新の変
更バージョンを格納する処の、システム内の唯１つの記
憶位置となる。プロセッサは、その実行中プログラムが
必要とするたびに、そのデータ・ユニットへ書き込みを
行うことができる。システム内のデータ・コヒーレンス
を維持するには、各データ・ユニットの最新のバージョ
ンを、その後続処理に用いることが不可欠である。

【００１０】ストアスルー型のＬ１キャッシュは、読み
取りアクセスについては単独で用いられるが、書き込み
アクセスについては、アクセスされたデータ・ユニット
の最新のバージョンを維持するように、このＬ１キャッ
シュ及び次の記憶階層レベルにある補助メモリ（Ｌ２キ
ャッシュ又はＬ３メモリ）内の同じデータ・ユニット
を、両者ともに変更することが必要である。しかし、こ
のようなキャッシュのストアスルー特性は、システム内
のデータ・コヒーレンスの問題を解決しない。なぜな
ら、ストアスルー型の他のＬ１キャッシュが、同じデー
タ・ユニットの古いバージョンを格納することがあり得
るからである。従って、多重プロセッサ・システム内の
複数のＬ１キャッシュがストアイン型又はストアスルー
型のどちらであろうとも、新しく要求されたデータ・ユ
ニットを一のＬ１キャッシュに読み取る際に、これらの
Ｌ１キャッシュの内容について相互問い合わせを行うこ
とが必要となるのである。

【００１１】任意のプロセッサが一のデータ・ユニット
へ最初の書き込みを行う場合は、これに先立ち、そのプ
ロセッサに対し、そのデータ・ユニットのＥＸ所有権が
割り当てられる。従来技術では、プロッセッサに所有権
を割り当てるため、Ｌ１キャッシュ内のそれぞれのデー
タ・ユニットに関連するＬ１デイレクトリ内の、ＥＸフ
ラグ・ビットを設定するようにしている。例えば、オン
状態にあるＥＸフラグ・ビットはＥＸ所有権を表し、オ
フ状態にあるＥＸフラグ・ビットはＲＯ所有権を表す。
一のデータ・ユニットのＥＸ所有権が一のプロセッサに
割り当てられている場合には、そのプロセッサだけが、
そのデータ・ユニットへ書き込みを行うことができる。
これに対し、一のデータ・ユニットのＲＯ所有権が割り
当てられている場合は、どのプロセッサも、そのデータ
・ユニットへの書き込みを行うことができない。即ち、
システム内の全てのプロセッサは、そのデータ・ユニッ
トを読み取ることができるに過ぎず、従って複数のＬ１
キャッシュ内に、変更不能なデータ・ユニットの多数の
コピーが存在することがあり得るのである。

【００１２】一般に、キャッシュは、要求に基づいて、
そのシステム記憶階層からデータ・ユニットを読み取
る。キャッシュ・ミスが生ずる場合は、ミスしたデータ
・ユニットを読み取るために、一の読み取り要求を生成
してこれを次の記憶階層レベルに送信する。

【００１３】ストアイン型のＬ１キャッシュは、その置
換制御部（ＬＲＵ制御部）の制御下で、変更済みのデー
タ・ユニットをＬ３メモリに送信する。一のデータ・ユ
ニットの置換が行われるのは、そのデータ・ユニットが
Ｌ１キャッシュ内で最も長い間使用されておらず、しか
もこのＬ１キャッシュ内にある他のエントリのどれも
が、新しい要求について使用できないような場合であ
る。最も長い間使用されなかったＬＲＵエントリを、新
しい要求と置換するために選択する場合、この置換プロ
セスを「エージング・アウト」と呼ぶこともある。置換
制御部は、これが選択したＬＲＵエントリ内にあるデー
タ・ユニットを、その変更の有無に拘わらず、キャッシ
ュ・ミスの結果として読み取られた新しいデータ・ユニ
ットと置換させる。Ｌ１キャッシュ内にある置換すべき
データ・ユニットが変更済みである場合は、Ｌ３メモリ
から読み取り中の新しく要求されたデータ・ユニットを
重ね書きする前に、かかる変更済みのデータ・ユニット
をＬ１キャッシュから放出して、Ｌ３メモリのような他
の記憶位置に書き込まねばならない。例えば、一のプロ
セッサが、そのＬ１キャッシュ内に現に存在しないデー
タ・ユニットを要求する場合には、要求されたアドレス
を使用して、そのデータ・ユニットをＬ３メモリ（又は
他のキャッシュ）から読み取るとともに、そのデータ・
ユニットを新しく割り当てたＬＲＵキャッシュ・ロケー
ションに書き込まねばならない。この新しいデータ・ユ
ニットを受け取るべきＬＲＵキャッシュ・ロケーション
は、現に使用されていないキャッシュ・ロケーションで
ある。もし、使用可能な全てのキャッシュ・ロケーショ
ンが変更済みのデータ・ユニットで以て現に占有されて
いれば、そのうちの１つを新しいデータ・ユニットのた
めに再割り当てしなければならない。しかし、再割り当
てしたキャッシュ・ロケーションにその新しいデータ・
ユニットを書き込む前に、このキャッシュ・ロケーショ
ン内にある変更済みのデータ・ユニットを、Ｌ３メモリ
へ放出することが必要となる。即ち、この放出プロセス
は、新しいデータ・ユニットをＬ１キャッシュに書き込
む前に、行わなければならない。放出されたデータ・ユ
ニットの所有権は、プロセッサのＥＸ所有権からＬ３メ
モリの所有権に変更される。

【００１４】もし、Ｌ１キャッシュ内にある一のデータ
・ユニットが変更済みでなければ、そのデータ・ユニッ
トとＬ３メモリ内にあるバックアップ・コピーとは同じ
であるから、そのデータ・ユニットを置換するに当たっ
ては、放出を行わないで、そのデータ・ユニットに単に
重ね書きすればよい。

【００１５】米国特許第４３９４７３１号は、多重プロ
セッサ・システム内のデータ・コヒーレンスを制御する
ために、ストアイン型のＬ１キャッシュに付随するＬ１
デイレクトリの各エントリ内で、ＥＸ／ＲＯフラグ・ビ
ットを使用することを開示している。この開示内容を簡
述すると、各Ｌ１キャッシュ内に現に存在する全てのデ
ータ・ユニットの各プロセッサによる所有権を識別する
ために、各Ｌ１デイレクトリごとに一のコピー・デイレ
クトリをそれぞれ設ける。そして、他のプロセッサがＥ
Ｘ所有権を取得することを要求している一のデータ・ユ
ニットを、どのプロセッサが現に所有又は共通に使用し
ているかを識別するため、全てのコピー・デイレクトリ
を１組として使用する。相互問い合わせ（ＸＩ）とは、
任意のデータ・ユニットのＥＸ所有権又はＲＯ所有権を
有する任意のプロセッサを識別するため、これらのコピ
ー・デイレクトリ相互間で用いられるプロセスであり、
具体的には、要求されたデータ・ユニットのアドレス
を、全てのコピー・デイレクトリ内にあるアドレスと比
較することによって行われる。もし、要求されたデータ
・ユニットのアドレスが一のコピー・デイレクトリ内で
検出されるならば、これは、そのアドレスに対応するデ
ータ・ユニットを格納する一のＬ１キャッシュ、従って
そのプロセッサを識別することになる。かくて、識別さ
れたプロセッサのコピー・デイレクトリからそのＬ１キ
ャッシュに相互無効化信号を送信して、そのデータ・ユ
ニットのエントリを無効化した後に、そのデータ・ユニ
ットの所有権を他のプロセッサのＬ１キャッシュに引渡
す。

【００１６】このＸＩプロセスは、一度に唯１つのプロ
セッサだけが一のデータ・ユニットを排他的に所有する
（そのＥＸ所有権を有する）ことを保証するように、他
のＬ１キャッシュで検出されたそのデータ・ユニットの
全てのコピーを無効化することを特徴としている。

【００１７】従って、何れの時点においても、多重プロ
セッサ・システム内の複数のプロセッサのうち唯１つの
プロセッサだけが、任意のデータ・ユニットのＥＸ所有
権を有することができる。一のデータ・ユニットのＥＸ
所有権を他のプロセッサが要求する場合、そのデータ・
ユニットのＥＸ所有権を、（現所有者である）一のプロ
セッサから当該他のプロセッサに変更することができ
る。プロセッサにＥＸ所有権を割り当てるための従来の
機構は、Ｌ１デイレクトリ・エントリの各々にＥＸ／Ｒ
Ｏフラグ・ビットを設けて、このエントリに関連するデ
ータ・ユニットが当該プロセッサによって「所有」され
ていることを表すように、このＥＸ／ＲＯフラグ・ビッ
トをオン状態に設定する、というものである。このＥＸ
／ＲＯフラグ・ビットがオフ状態にあると、これは関連
するデータ・ユニットのＲＯ所有権を表し、この場合に
は、システム内の全てのプロセッサが関連するデータ・
ユニットを同時に使用することができる。かくて、任意
のＬ１キャッシュ内にある有効な各データ・ユニット
は、ＥＸ所有権又はＲＯ所有権のどちらかを有する。

【００１８】前掲の米国特許第４３９４７３１号に係る
コピー・デイレクトリを用いたＸＩ機構は、Ｌ３メモリ
からストアイン型の一のＬ１キャッシュに読み取られる
データ・ユニットについて、次の所有権を自動的に割り
当てるようにしている。１．ＥＸ所有権：全てのプロセッサのコピー・デイレク
トリ内で、そのデータ・ユニットが検出されない場合。２．ＥＸ所有権：他のプロセッサのコピー・デイレクト
リ内で、そのデータ・ユニットが変更済みで且つＥＸ所
有権を有するものして検出される場合。要求されたその
データ・ユニットは、要求元プロセッサのＬ１キャッシ
ュに読み取られる前に、前記他のプロセッサのＬ１キャ
ッシュから放出される。３．ＲＯ所有権：他のプロセッサのコピー・デイレクト
リ内で、そのデータ・ユニットが変更済みでなく且つＥ
Ｘ所有権を有するものとして検出され、また新しい要求
がそのデータ・ユニットを変更しそうにない場合（新し
い要求が読み取り要求に相当する場合）。このようにし
て検出されたそのデータ・ユニットは、前記他のプロセ
ッサのＬ１キャッシュ内に残され、そのＥＸ所有権がＲ
Ｏ所有権に変更される。４．ＥＸ所有権：１以上の他のプロセッサのコピー・デ
イレクトリ内で、そのデータ・ユニットがＲＯ所有権を
有するものとして検出され、そして新しい要求がそのデ
ータ・ユニットを変更しそうな場合（新しい要求が書き
込み要求に相当する場合）。このようにして検出された
そのデータ・ユニットは、前記他のプロセッサのＬ１キ
ャッシュ内で無効化される。このような無効化動作は、
「ＥＸ所有権へのプロモート」と呼ばれる、時間のかか
るプロセスを用いる。５．ＲＯ所有権：他のプロセッサのコピー・デイレクト
リ内で、そのデータ・ユニットがＲＯ所有権を有するも
のとして検出される場合。このようにして検出されたそ
のデータ・ユニットは、そのＲＯ所有権のまま、前記他
のプロセッサのＬ１キャッシュ内に残される。６．ＲＯ所有権：プロセッサ要求の型に関係なく、その
データ・ユニットがページ・テーブル・エントリであり
且つこのエントリ内でＲＯ所有権を有するように設定さ
れていることが検出される場合。

【００１９】Ｇａｎｎｏｎらによる米国特許第５２６５
２３２号（１９９１年４月３日付けの米国特許出願第６
７９９００号及び特願平４−２９５３７号に対応）に開
示されている設計は、データ・コヒーレンスの問題を論
理的に解決してはいるが、前述のように全てのメモリ要
求がＬ１キャッシュを通ることを必要としているため
に、システムの性能を全体として制限している。

【００２０】Ｂｅａｎらによる米国特許第５４９０２６
１号（１９９１年４月３日付けの米国特許出願第６８０
１７６号及び特願平４−３９４８２号に対応）は、Ｌ１
キャッシュ内にあるデータ・ユニットの所有権のインタ
ーロック制御を開示する。このインターロック制御は、
ストアイン型の一のＬ１キャッシュ内で排他的に所有さ
れている一のデータ・ユニットの所有権の変更を、その
プロセッサが発行するそのデータ・ユニットを対象とす
る全ての書き込みの完了とインターロックさせることを
意図する。かかるインターロックは、そのプロセッサ
が、そのデータ・ユニットのＥＸ所有権又はＲＯ所有権
のどちらかを要求する他のプロセッサから一の相互無効
化（ＸＩ）信号を受け取り且つこれに応答するまで、継
続して行われる。

【００２１】

【課題を解決するための手段】本発明の目的は、データ
・コヒーレンスの問題を解決するとともに、「パイプラ
イン化」オペランドのＶＸＥ要求をＬ３メモリに対し直
接的に与えることを可能にすることによって、スカラ型
のＬ１キャッシュから得られる利点を格納すると同時
に、通常のスーパコンピュータ設計の利点を得るため
の、手段及び方法を提供することである。本発明のアプ
ローチによれば、結果的に得られるハードウェア・シス
テムの設計は、より広範囲のアプリケーションに対して
最適化されるだけでなく、データ・コヒーレンスを保証
するというタスクをシステム・ソフトウェアに課さな
い。

【００２２】本発明の１実施例において、スカラ／ベク
トル複合処理システムは、Ｌ３メモリと、複数のベクト
ル・プロセッサ要素（以下「ＶＸＥ」と略記）と、それ
ぞれ各自のキャッシュを備えたスカラ・プロセッサ要素
（以下「ＳＸＥ」と略記）とから構成されている。ＳＸ
Ｅ相互間に設けられている相互問い合わせ（ＸＩ）手段
は、最新のコピーがＬ３メモリ及びＬ１キャッシュ内に
書き込まれていることを保証するためのものである。こ
の相互問い合わせ手段内のＸＩディレクトリは、それぞ
れのＳＸＥ内にあるデータ・ユニット（キャッシュ・ラ
イン）の状態を格納している。また、それぞれのＳＸＥ
が無効データを読み取らないように、ＶＸＥが現に書き
込み中のデータ・ユニットを記録するためのベクトル・
ストア・レジスタ（以下「ＶＳＲ」と略記）スタックが
設けられている。

【００２３】

【実施例】本発明は、相互問い合わせ（ＸＩ）機構を使
用して、データ・コヒーレンスを保証し且つ超高速のＶ
ＸＥ要求トラヒック・レートにサービスすることができ
るように、書き込みを行うべくＶＸＥが現にアドレス中
のＬ３メモリのデータ・ユニットのアドレスを格納する
１組のＶＳＲスタックを設けることを特徴とする。これ
らのデータ・ユニットは、キャッシュ・ラインのサイズ
（例えば、１２８バイト境界上の１２８連続バイト）を
増分単位とする。本発明の主題は、多重プロセッサ・シ
ステム内のデータ・コヒーレンスを維持するために、こ
れらのＶＳＲスタックをどのように使用するかという点
に向けられている。

【００２４】本発明を使用するための重要な「前提条
件」がある。即ち、このＶＳＲ設計の機構を、前掲の米
国特許第５２６５２３２号に記載されたものと同様の、
集中型のコヒーレンス手段（ＸＩディレクトリ）と連係
して使用しなければならない、ということである。この
特許を、以下、「Ｇａｎｎｏｎらの出願」と称する。な
お、Ｇａｎｎｏｎらの出願は、前掲のＢｅａｎらによる
米国特許第５４９０２６１号を援用している。

【００２５】Ｇａｎｎｏｎらの出願では、Ｌ１キャッシ
ュからの全てのメモリ要求が、集中型のＸＩディレクト
リを通して与えられるようになっている。各プロセッサ
がＶＸＥを備えているものと仮定すると、Ｇａｎｎｏｎ
らの出願では、ＶＸＥのデータ要求は、他の全ての型の
データ要求と同様に、各プロセッサのＬ１キャッシュを
通して与えられることになる。

【００２６】Ｇａｎｎｏｎらの出願では、全てのＬ１キ
ャッシュは、ストアスルー機構を使用している。即ち、
各プロセッサは、自己のＬ１キャッシュにデータを書き
込むと同時に、同じデータをＬ３メモリに書き込む。一
のプロセッサが書き込みを行うことを許されるのは、そ
のプロセッサが自己のＬ１キャッシュ内にあるそのアド
レスされたデータ・ユニットについてＥＸ所有権を有す
る場合だけである。即ち、多重プロセッサ・システム内
にある唯１つのプロセッサだけが、一のデータ・ユニッ
トのＥＸ所有権を有することができるに過ぎない。従っ
て、もし、一のプロセッサが自己のＬ１キャッシュ内に
ある一のデータ・ユニットのＥＸ所有権を有していれ
ば、他の如何なるＬ１キャッシュも、ＥＸ所有権又はＲ
Ｏ所有権を以て、そのデータ・ユニットを格納すること
ができない。しかし、任意の数のＬ１キャッシュが、Ｒ
Ｏ所有権を以て一のデータ・ユニットを格納することが
できる。Ｇａｎｎｏｎらの出願は、コヒーレンス手段の
実施例として、Ｌ２キャッシュを備えたもの（図１）
と、備えないもの（図９）とを幾つか開示している。説
明を簡潔にするため、本明細書では、Ｌ２キャッシュを
一切備えていない実施例のみを開示する。これは、Ｇａ
ｎｎｏｎらの出願の図９の実施例に相当する。この実施
例の場合、Ｇａｎｎｏｎらの出願は、スカラ型のデータ
要求についてコヒーレンスを維持するための手段及び方
法を開示している。それらの手段及び方法は、本発明に
おけるスカラ型のデータ要求についても適用されるもの
とする。

【００２７】本発明は、スカラ／ベクトル複合処理シス
テム内の各ＶＸＥごとに、１組（例えば、２５６個）の
ＶＳＲスタックを設けている。ＶＳＲスタックの各組
は、唯１つのＶＸＥと関連付けられている。一のＶＸＥ
がＬ３メモリへ直接的にオペランドを書き込むための準
備を完了する場合、そのＶＸＥは、図１のＸＩ要求バス
を通して空きのＶＳＲスタックを取得した後、図１のＸ
Ｉ応答バスを通して相互問い合わせ（ＸＩ）機構から、
Ｌ３メモリへの書き込みを行うための許可を受けなけれ
ばならない。この許可が付与されるのは、このデータ・
ユニットを格納する全てのＬ１キャッシュが、このデー
タ・ユニットを無効とマークした後だけである。各ＶＳ
Ｒスタックは、一のデータ・ユニットの実アドレスを格
納する。一旦、一のＶＳＲスタックを取得すると、その
ＶＸＥは、Ｌ３メモリ内にあるそのデータ・ユニットを
対象として、所要数のオペランドを書き込むことができ
る。もし、そのＶＸＥがストライド１（連続オペラン
ド）を書き込んでいるのであれば、同一のＶＳＲスタッ
クを使用して、１６個までの連続的なフルワード・オペ
ランド又は３２個までの連続的なダブルワード・オペラ
ンドを書き込むことができる。１以外のストライドにつ
いては、１つのＶＳＲスタックによって「カバーされ
る」書き込みの数は減少する。キャッシュ・ラインのサ
イズが１２８バイトであり、またストライドが１６（フ
ルワード・オペランドの場合）又は３２（ダブルワード
・オペランドの場合）よりも大きい場合、そのＶＳＲス
タックは、１つのＶＸＥ書き込みを行うのに十分である
に過ぎない。そのＶＸＥがＬ３メモリへ実際に書き込む
べき値の計算を完了する時点の十分前に、そのＶＸＥが
必要なＶＳＲスタックを取得できるようにするには、大
きなＶＳＲスタックの組が必要になる。このようにする
と、そのＶＸＥは、実際の書き込みを行う準備を完了す
る時点の十分前に、複数のＶＳＲスタックを取得するこ
とができるので、将来の書き込みのためのＶＳＲスタッ
クを事前に割り当てるようにしても、性能に悪影響を及
ぼさないのである。更に、そのＶＸＥは、ベクトル命令
に格納されているベクトル長さ及びストライド値によっ
て、各ＶＳＲスタックによって「カバーされる」オペラ
ンドの数及び各ＶＳＲスタックに記入すべきデータユニ
ット・アドレスを決定するのに必要な情報を有してい
る。

【００２８】１つ以上のベクトル書き込みを行うに当た
って一のＶＳＲスタックを取得するには、通常のＸＩ要
求機構を経なければならない。なぜなら、１つ以上のＬ
１キャッシュがその要求されたデータ・ユニットを格納
しているか否かを決定するためには、集中型のＸＩディ
レクトリをアクセスしなければならないからである。も
し、１つ以上のＬ１キャッシュがそのデータ・ユニット
を格納していれば、要求されたＶＳＲスタックを有効と
マークする前に、これらのＬ１キャッシュ内のそのデー
タ・ユニットを無効化しなければならない。この点に関
し、そのＶＸＥが一のＶＳＲスタックを取得することを
要求して、Ｌ３メモリへの書き込みの許可を得るという
動作は、Ｇａｎｎｏｎらの出願に開示されているよう
に、通常のＬ１キャッシュ内にあるデータ・ユニットに
ついてＥＸ所有権を要求するという動作と類似してい
る。しかし、そのＶＸＥが一のＶＳＲスタックによって
カバーされている一のデータ・ユニットへの書き込みを
完了した場合は、そのＶＸＥは、ＸＩ機構内の他の活動
とは無関係にそのＶＳＲスタックをリセット（解除）す
ることができる。かくて、単一のＶＸＥは、１つのＶＳ
Ｒスタックを取得すると同時に、他のＶＳＲスタックを
解除することができる。このことは、ＶＸＥトラヒック
についてのＸＩ機構の要求処理能力を倍増する効果を有
する。このことは、データ・コヒーレンスを維持するた
めに本発明を使用する際の重要な利点となる。

【００２９】ベクトル・オペランドの読み取りは、如何
なるＶＳＲスタックも使用せず、従って如何なる場合で
もＸＩ機構に干渉することはない。なぜなら、ベクトル
・オペランドの読み取りは、ＸＩ機構に対していかなる
要求も行わずに、Ｌ３メモリからデータを読み取るに過
ぎないからである。これが可能である所以は、Ｌ１キャ
ッシュがストアスルー型であり、従ってＬ３メモリが常
に論理的にコヒーレント、即ちデータの最新の状態がＬ
３メモリ内に存在するからである。もし、Ｌ１キャッシ
ュがストアイン型であれば、このことは当てはまらない
であろう。

【００３０】ベクトル処理では、１つのＶＸＥが偶数オ
ペランドを処理しているのと同時に、他のＶＸＥが奇数
オペランドを処理しているということが、屡々あり得
る。従って、両方のＶＸＥが、それぞれの別個のＶＳＲ
スタックを通して、Ｌ３メモリ内の同一のデータ・ユニ
ットを同時にアクセスしているということがあり得る。
この場合、設計者は、次の２つの選択肢を有する。

【００３１】（ａ）両方のＶＸＥが、それぞれの別個の
ＶＳＲスタックを通して、Ｌ３メモリ内の同一のデータ
・ユニットに同時に書き込むことができるようにする。

【００３２】（ｂ）一度に何れか一方のＶＸＥが、Ｌ３
メモリ内の所定のデータ・ユニットに書き込むことがで
きるようにする。

【００３３】何れの選択も可能であり、明らかに（ｂ）
の選択肢のほうが安全であるが、それにも拘わらず、本
発明者は、（ａ）の選択肢を実現するほうが性能上の観
点から遥かに好ましいと結論した。一のアプリケーショ
ンが、そのアプリケーション又はシステム・ソフトウェ
アを通してＬ３メモリのセクションをインタロックせず
に、同一オペランドのロケーションに２つの別個のＶＸ
Ｅを通して書き込みを行うというリスクは、殆どないか
らである。ここで留意すべきは、Ｌ３メモリ内にある同
一のデータ・ユニットへの並行的なＶＸＥ書き込みは許
されるが、１つ以上のＶＸＥによって現に書き込み中の
任意のデータ・ユニット（即ち、有効なＶＳＲスタック
内に格納されているデータユニット・アドレスに対応す
るデータ・ユニット）をどのＬ１キャッシュも格納でき
ないことに留意されたい。

【００３４】一のＬ１キャッシュ内にあるデータ・ユニ
ットのＥＸ又はＲＯアクセスのためにＳＸＥによってな
されたＸＩ要求は、ＸＩ要求バスを介してＸＩ機構へ与
えられる。このＸＩ機構は、（Ｇａｎｎｏｎらの出願に
開示されているように）そのデータ・ユニットを格納し
ている他のＬ１キャッシュを検査することに加えて、そ
のデータ・ユニットが任意のＶＸＥによって現に書き込
み中であるか否かを検出するために全てのＶＳＲスタッ
クを検査する。もし、そのデータ・ユニットのアドレス
が（有効ビットをオン状態に設定されている）有効なＶ
ＳＲスタックによって格納されているのであれば、ＸＩ
機構は、全てのＶＸＥがそのデータ・ユニットを解除す
るまで、そのデータ・ユニットについてＥＸ所有権又は
ＲＯ所有権を許可することを遅延（待機）させなければ
ならない。

【００３５】図１には、Ｎ個のＣＰＵ（ＣＰＵ１〜Ｎ）
から成る多重プロセッサ・システム１００が示されてい
る。ＣＰＵ１〜Ｎの各々は、例えば、ストアスルー型の
Ｌ１キャッシュ１０４及びＬ１ディレクトリ１０５を備
える１つのＳＸＥ１０３と、１つのＶＸＥ１０７と
から構成されている。また、各ＣＰＵは、読み取り専用
であり且つそのＣＰＵの命令ストリームを格納する命令
キャッシュも含むことができる。もし、各ＣＰＵが命令
キャッシュを含んでいるのであれば、そのメモリ要求
は、Ｌ１キャッシュによって使用されるものと同じイン
タフェースを介して行われ、ＲＯデータに対するＬ１キ
ャッシュ要求とは識別できない。説明を簡潔にするた
め、好ましい実施例は、命令キャッシュを含んでいない
ものとする。

【００３６】図１において、ＳＸＥ１０３及びＶＸＥ
１０７の各々は、集中型のＸＩ機構１０６との間に、
ＸＩ要求／応答インタフェースを有する。ＸＩ機構１０
６は、優先順位回路１２１と、スカラＸＩディレクトリ
１２３と、複数のＶＳＲスタック１２５と、ＸＩ応答論
理１２７とを含んでいる。ＸＩ要求バス１１０は、ＸＩ
機構１０６と各ＣＰＵ内に含まれているＳＸＥ１０３
及びＶＸＥ１０７との間に結合されている。一のＣＰ
Ｕ内に含まれているＳＸＥ１０３及びＶＸＥ１０７か
らの全ての組み合わせ要求は、ＸＩ要求バス１１０を介
して、待ち行列式のクロスバー・スイッチとすることが
できる優先順位回路１２１へ個別に供給される。ＸＩ機
構１０６からの全ての応答は、マルチドロップ式のＸＩ
応答バス１１１を介して、適切なＳＸＥ１０３及びＶ
ＸＥ１０７へ供給される。更に、ＶＸＥ１０７の各
々からＸＩ機構１０６へ延びているＶＳＲ解除バス１１
３は、前述のように、有効なデータユニット・アドレス
を現に格納していないＶＳＲスタック１２５をリセット
するための解除信号（コマンド）を供給する。ＸＩディ
レクトリ１２３の内容は、その置換手段１０８によって
置換することができる。Ｌ３メモリには、参照番号１０
１が付されている。ＣＰＵ１〜Ｎの各々に含まれている
ＶＸＥ１０７並びにＳＸＥ１０３内にあるＬ１キャ
ッシュ１０４との書き込みデータ及び読み取りデータの
授受は、書き込み／読み取りバス１３３を通して行われ
る。図１において、ＳＸＥ１０３からのＬ３メモリ１
０１への全ての要求は、Ｌ１キャッシュ１０４を通して
Ｌ３メモリ１０１に対して行われるのに対し、ＶＸＥ
１０７からの全ての要求は、キャッシュ機構を経ずに、
Ｌ３メモリ１０１に対して直接的に行われる。図１は、
Ｇａｎｎｏｎらの出願の図９を修正したものである。本
発明では、ＸＩ機構１０６は、ＶＳＲスタック１２５を
含むように修正されている。更に、ＶＸＥ１０７とＶ
ＳＲスタック１２５との間に直結された別個のＶＳＲ解
除バス１１３が新たに設けられている。

【００３７】Ｍ個のＸＩインタリーブについては、Ｌ３
メモリ１０１の１／Ｍだけが単一のＸＩインタリーブに
よって参照されるように、Ｌ３メモリ１０１内のそれぞ
れのデータ・ユニットが分割されている。これらのデー
タ・ユニットは、キャッシュ・ラインのサイズ（例え
ば、１２８バイト境界上の１２８連続バイト）に相当
し、そしてデータユニット・アドレスとは、Ｌ３メモリ
１０１内にあるこれらのデータ・ユニットのアドレスを
意味する。Ｌ３メモリ１０１内にあるデータ・ユニット
のアドレスは、何れかの論理方式でＸＩインタリーブに
割り当てることができるが、ラウンド・ロビン方式が好
ましいと考えられる。

【００３８】通常の待ち行列式クロスバー・スイッチと
することができる優先順位回路１２１は、Ｍ個のＸＩイ
ンタリーブの各々ごとに、Ｎ個のＣＰＵからのＸＩ要求
バス１１０を、ＸＩ機構１０６へ接続する。ＳＸＥ１
０３及びＶＸＥ１０７は、セレクタ１０９を介してＸ
Ｉ要求バス１１０に結合されている。ＶＳＲ解除バスの
各々は全てのＸＩインタリーブに接続されるので、ＶＸ
Ｅ１０７からのＶＳＲ解除バス１１３は、優先順位回
路１２１をバイパスするようになっている。一般に、Ｎ
個のＣＰＵからの予想ピーク・トラヒックを処理するの
に十分なＸＩインタリーブが存在しなければならない。
各ＣＰＵは、１マシン・サイクル当たり２つのＸＩ要求
（１つはＶＸＥから、もう１つはＳＸＥから）を生成す
ることができるが、ＳＸＥ１０３からのトラヒック
は、（キャッシュ・ミス時にだけＳＸＥ１０３からの
要求が行われるに過ぎないので）、相当に低頻度で生起
する筈である。

【００３９】ＸＩ要求バス１１０は、図２に示されてい
るように、次の情報フィールドを含んでいる。

【００４０】Ｖ＝一の要求がバス１１０上で有効である
ことを指示する有効ビット。

【００４１】ＶＸＥ＝その要求が一のＶＸＥ１０７か
らのものであることを指示する１ビット。

【００４２】ＳＸＥ＝その要求がＳＸＥ１０３からの
ものであることを指示する１ビット。

【００４３】ＩＤ＝要求元のＳＸＥ１０３又はＶＸＥ
１０７の識別子。

【００４４】ＶＳＲＩＤ＝一のＶＸＥ要求について要
求されたＶＳＲスタック１２５。

【００４５】ＤＵＡＤＤＲ＝参照中のデータユニット
・アドレス。

【００４６】ＲＥＱＴＹＰＥ＝ＳＸＥ要求の型を指示
する符号化フィールド（以下を参照）。

【００４７】読み取り専用排他的ＥＸ所有権へのプロモート条件付き読み取り専用無効化肯定応答ＲＯ所有権へのデモート肯定応答放出−参照済みのデータ・ユニットがＬ１キャッシュか
ら除去された。このメッセージは、ＶＸＥ１０７又はＳＸＥ１０３
内で生成され、セレクタ１０９及びＸＩ要求バス１１０
を介して送信された後、ＸＩ機構１０６において復号化
される。セレクタ１０９は、マルチプレクサである。

【００４８】ＸＩ応答バス１１１は、図３に示されてい
るように、次の情報フィールドを含んでいる。Ｖ、ＶＸ
Ｅ、ＳＸＥ、ＩＤ、ＤＵＡＤＤＲ及びＶＳＲＩＤの
各フィールドは、前述と同じである。

【００４９】ＲＥＳＰＯＮＳＥＴＹＰＥ＝応答の型を
指示する符号化フィールド（以下を参照）。

【００５０】ＶＳＲの許可読み取り専用要求を許可排他的要求を許可アドレスされたデータ・ユニットを無効化アドレスされたデータ・ユニットを読み取り専用にデモ
ートこれらの応答フィールドは、ＸＩ機構１０６内で生成さ
れ、共通のＸＩ応答バス１１１及びＳＸＥ／ＶＸＥデコ
ーダ１０９ａを介して、ＶＸＥ１０７及びＳＸＥ１
０３に送られる。このメッセージは、ＳＸＥ１０３又
はＶＸＥ１０７において復号化される。

【００５１】ＶＳＲ解除バス１１３は、図４に示されて
いるように、次の情報フィールドを含んでいる。

【００５２】Ｖ＝一のＶＳＲスタックをリセット（解
除）するための有効なコマンドがＶＳＲ解除バス１１３
上に存在する。

【００５３】ＶＸＥＩＤ＝要求元のＶＸＥ１０７の
識別子。

【００５４】ＶＳＲＩＤ＝リセットすべきＶＳＲスタ
ック１２５の識別子。

【００５５】このメッセージは、ＶＸＥ１０７内で生
成され、ＶＳＲ解除バス１１３を介して送信された後、
ＶＳＲスタック１２５において復号化される。

【００５６】図５には、ＸＩ機構１０６の１つのＸＩ機
構インタリーブ内に含まれる論理が示されている。一の
ＳＸＥ１０３又はＶＸＥ１０７からの一のＸＩ要求
は、図２のフォーマットで生成され、セレクタ１０９
（図１）を介してＸＩ要求バス１１０に供給された後、
セレクタ１２９を介してスカラＸＩディレクトリ１２３
及びシステム内の各ＶＸＥ１０７に対応する１組のＶ
ＳＲスタック１２５に供給される。図６には、ＸＩディ
レクトリ１２３の構成が示されている。ＸＩディレクト
リ１２３へのＸＩ要求は、ＸＩディレクトリ・アレイ１
２６に制御信号を供給するために、デコーダ１２４によ
って復号化される。ＸＩディレクトリ・アレイ１２６
は、システム内にある任意のＬ１キャッシュ１０３によ
って格納されている一意的なデータ・ユニットの各々ご
とに一のエントリを格納し、そしてかかるエントリを正
確に維持するため、キャッシュされたデータ・ユニット
が変更される場合には、常にＸＩ要求バス１１０を介し
てＸＩディレクトリ１２３へ送られるＸＩ要求によっ
て、その内容が更新されるようになっている。図７に
は、ＸＩディレクトリ・アレイ１２６内の一のエントリ
が示されている。このエントリは、これに対応するデー
タ・ユニットを格納するＣＰＵの識別子であるＣＰＵＩ
Ｄと、そのデータ・ユニットのＲＯ所有権及びＥＸ所有
権をそれぞれ表すＲＯフラグ・ビット及びＥＸフラグ・
ビットと、有効ビット（有効な場合）と、アドレスとを
それぞれ格納している。従って、任意のＸＩ要求が供給
される場合、Ｇａｎｎｏｎらの出願に開示されているよ
うに、このＸＩ要求でＸＩディレクトリ１２３を問い合
わせることにより、その要求されたデータ・ユニットが
任意のＬ１キャッシュ１０４内においてＥＸ所有権又は
ＲＯ所有権を以て格納されているか、或いはどのＬ１キ
ャッシュ１０４内にも格納されていないかを決定するこ
とができる。このようなＸＩディレクトリ１２３の問い
合わせを行うためには、各エントリ内の上位のデータユ
ニット・アドレスを、比較手段（コンパレータ）１２９
ａにおいてＸＩ要求バス１１０上の上位アドレスと比較
することにより、両アドレスが一致するか否かを決定す
ればよい。その比較状態は、状態線１３０に出力され
る。アドレス情報を含まないアドレスされたディレクト
リ・エントリは、バス１３５を介して、ＸＩ応答バス論
理１２７に供給される。このＸＩディレクトリ１２３の
問い合わせと並行して、有効なＶＳＲスタック１２５の
各々に格納されているデータユニット・アドレスが、Ｘ
Ｉ要求バス１１０ａ上に供給されているアドレスと比較
される。この比較動作の目的は、現に進行中のベクトル
書き込みの対象であるメモリ・ロケーションの内容を、
任意のＬ１キャッシュ１０４が現に格納しているか否か
を決定することにある。このＸＩ要求に対する諸応答
は、図３のフォーマットを有するように、ＸＩ応答バス
論理１２７内で符号化された後、ＸＩ応答バス１１１へ
多重化される。ＸＩ応答バス１１１上のＸＩ応答は、そ
れぞれのデコーダ１０９ａで復号化された後、ＶＸＥ
１０７又はＳＸＥ１０３へ送られる。応答不能なＸＩ
要求は、ＸＩ応答バス論理１２７の制御下で、再循環待
ち行列１２８（図５を参照）に入れられる。許可される
と、セレクタ１２９はその状態を変更して、再循環待ち
行列１２８からのＸＩ要求をＸＩディレクトリ１２３及
びＶＳＲスタック１２５に供給することができる。

【００５７】図８には、ＶＸＥ１０７−１に関連する
１組のＶＳＲスタックとして、１６個のＶＳＲスタック
１２５−１〜１２５−１６が示されている。ＶＳＲスタ
ック１２５−１〜１２５−１６は、それぞれのＶＳＲレ
ジスタ３０１−１〜３０１−１６内に、Ｌ３メモリ１０
１内にある一のデータ・ユニットのアドレスと、そのア
ドレスがＶＸＥ１０７−１によってデータを書き込む
ために現に使用されているか否かを指示する有効ビット
とをそれぞれ格納する。この有効ビットがリセットされ
ていると、ＶＸＥ１０７−１がそのＶＳＲスタック１
２５を使用して現に書き込みを行っていないことを指示
するので、有効ビットがリセット状態にある場合のアド
レス比較は無視される。この有効ビットがオン状態に設
定されるのは、一のＶＸＥ１０７がＸＩ要求バス１１
０を通して一のＶＳＲスタックを取得する場合であり、
この有効ビットがリセット状態に設定されるのは、ＶＸ
Ｅ解除バス１１３から一のコマンドが受け取られる場合
である。ＶＳＲレジスタ３０１１〜３０１−１６内に現
に格納されているデータユニット・アドレスは、ＶＳＲ
スタック１２５−１〜１２５−１６の比較手段３０３−
１〜３０３−１６において、ＸＩ要求バス１１０上のア
ドレスと比較される。もし、有効ビットがオン状態に設
定されていないか、又はアドレスの一致が検出されなけ
れば、ＡＮＤゲート３０５−１〜３０５−１６は、それ
ぞれの応答を供給しない。これらのＶＳＲスタック１２
５−１〜１２５−ｎからの出力は、ＯＲゲート３０７を
通して、ＸＩ応答バス論理１２７に結合されている。

【００５８】この実施例では、ＸＩインタリーブ当た
り、１６個のＶＳＲスタック１２５−１〜１２５−１６
が設けられている。ＸＩインタリーブ当たりのＶＳＲス
タックの数は、費用対効果比及びＶＸＥの設計特性に基
づいて決定すべき、設計上の選択事項である。

【００５９】図９には、ＶＳＲスタック１２５の有効ビ
ットを設定するのに必要なＸＩインタリーブ当たりの論
理が示されており、図１０には、同じくＶＳＲスタック
１２５の有効ビットをリセットするのに必要な論理が示
されている。特定のＶＳＲスタック１２５内にあるＶＳ
Ｒレジスタ３０１の有効ビットがオン状態に設定される
のは、一のＶＳＲスタック１２５を取得するために、Ｘ
Ｉ応答バス論理１２７から線１５０を介して供給される
ＶＳＲ設定制御信号及びＶＸＥ１０７からＸＩ要求バ
ス１１０を介して供給されるＸＩ要求（フォーマットに
ついては図２を参照）がＡＮＤゲート４０３において有
効となり、そしてＸＩ要求バス１１０からのＶＸＥＩ
Ｄフィールド及びＶＳＲＩＤフィールがそのＶＳＲス
タック１２５のデコーダ４０１及び４０２においてそれ
ぞれ復号化される場合である。有効ビットがそのＶＸＥ
１０７からの最初のＸＩ要求を受信する際に設定され
ていても、そのＶＸＥ１０７は、要求されたデータ・
ユニットをＥＸ所有権を以て格納するＬ１キャッシュ１
０４（それが存在する場合）がこのデータ・ユニットを
無効化した後、そのＶＸＥ１０７がそのデータ・ユニ
ットの書き込み権限を有する旨を通知されるまで、Ｌ３
メモリ１０１へのオペランド書き込みを開始することは
許されない。この通知は、適切なＸＩ応答バス１１１を
介してそのＶＸＥ１０７へ送られる処の、一の応答を
通して行われる。この通知は、ＸＩディレクトリ１２３
から線１３０に生ぜられる比較状態によって決定され
る。ＸＩ応答（フォーマットについては図３を参照）内
の一のフィールドは、前述のようにして有効に設定され
た（要求済み）のＶＳＲスタック１２５を識別し、従っ
て書き込み要求を受け取ることができるＬ３メモリ１０
１内の特定のデータ・ユニットを識別する。

【００６０】一旦、書き込み権限を有することを通知さ
れると、そのＶＸＥ１０７は、そのデータ・ユニット
への全ての書き込みが完了するまで、要求済みのＶＳＲ
スタック１２５を解除しない。そのＶＸＥ１０７が
（現に実行中のＶＸＥ命令について）特定のデータ・ユ
ニットへの最後の書き込みを完了する場合、そのＶＸＥ
１０７は、ＶＸＥ解除バス１１３を通して有効な一のＶ
ＳＲ解除コマンドを生成することによって、要求済みの
ＶＳＲスタック１２５を解除する。即ち、ＶＳＲ解除バ
ス１１３から有効なＶＳＲ解除コマンドを受信し且つデ
コーダ４０５においてＶＳＲＩＤフィールドを復号化
した後、要求済みのＶＳＲスタック１２５の有効ビット
が直ちにリセットされるのである。それぞれのＶＳＲス
タック１２５は、ＸＩ機構１０６内で生起している他の
活動とは無関係に解除される。このことは、一のＶＳＲ
スタック１２５をリセットするためにＸＩ要求バス１１
０のサイクルを必要としないから、ＸＩ機構１０６のＶ
ＸＥ要求処理能力を効果的に倍増するという、本発明の
重要な特徴をもたらすことになる。

【００６１】図１１には、ＸＩ要求バス１１０を介して
受け取られるＳＸＥ１０３からの排他的、読み取り専
用又は条件付き読み取り専用のライン・フェッチ要求に
応答して行われる処の、ＸＩ応答バス論理１２７の動作
の流れ図が示されている。全てのＶＳＲスタック１２５
内に格納されているデータユニット・アドレスは、図８
の比較手段３０３において、この要求のデータユニット
・アドレスと比較され、これらのアドレスが互いにヒッ
トすれば、その結果がＸＩ応答バス論理１２７へ供給さ
れる。もし、この「ＶＳＲヒット」が存在すれば、ＳＸ
Ｅ１０３からの要求は、その要求されたアドレスを格
納している全てのＶＳＲスタック１２５が解除されるま
で、ＸＩ応答バス論理１２７内の再循環待ち行列１２８
に格納される。前記全てのＶＳＲスタック１２５が解除
された時点で、（一のＶＳＲスタック１２５が同一のア
ドレスを格納しているか否かを確認するために）これら
のＶＳＲスタック１２５が再び問い合わせされる。も
し、この時点で、「ＶＳＲヒット」が全く存在しなけれ
ば、そのＸＩ要求は、図５のセレクタ１２９の制御下
で、Ｇａｎｎｏｎらの出願の流れ図（図１２ａ〜図１２
ｃ）に示すようにＸＩディレクトリ１２３に送られ、最
終的に、（読み取り専用又は排他的要求に応じた）デー
タ・ユニットの「許可」が、ＸＩ応答バス１１１を介し
て要求元のＳＸＥ１０３へ返信される。一般に、ＳＸＥ
１０３からの諸要求はＬ３メモリの異なる領域を対象
とするものであり、また前述のような「ＶＳＲヒット」
が存在する可能性は低いはずである。また、ＳＸＥ１
０３からの要求が、（Ｇａｎｎｏｎらの出願の図１２ｄ
に示されている）「ＥＸ所有権へのプロモート」に相当
する場合や、（Ｇａｎｎｏｎらの出願の図１２ｅに示さ
れている）ＸＩディレクトリ１２３のエントリを無効化
することに相当する場合は、Ｇａｎｎｏｎらの出願に示
すように処理されることに留意されたい。なぜなら、こ
れらの場合について、どのＶＳＲスタック１２５も有効
になることがないからである。

【００６２】図１２には、一のＶＸＥ１０７からのＸ
Ｉ要求に応答して行われる処の、ＸＩ応答バス論理１２
７の動作の流れ図が示されている。先ず、要求されたデ
ータ・ユニット（ＤＵ）を任意のＬ１キャッシュ１０４
が格納しているか否かを決定するために、スカラＸＩデ
ィレクトリ１２３がアクセスされる。もし、図６の比較
状態線１３０によって［ＸＩディレクトリのミス」が指
示され、従ってこのようなＬ１キャッシュ１０４が存在
しないことが分かれば、そのＶＸＥ１０７からＸＩ要
求バス１１０ａに供給されたデータユニット・アドレス
を、ＶＳＲ設定制御信号の制御下で、要求済みのＶＳＲ
スタック１２５内に記入するとともに、そのＶＳＲスタ
ック１２５の有効ビットをオン状態に設定して、そのＶ
ＳＲスタック１２５がそのＶＸＥ１０７によって現に
書き込み中の有効なデータユニット・アドレスを格納し
ていることを指示する。ＶＳＲ設定制御信号は、要求済
みのＶＳＲスタック１２５の有効ビットをオン状態に設
定するために、線１５０を介して図９のＡＮＤゲート４
０３に供給されるようになっている。他方、「ＸＩディ
レクトリのヒット」が生じて、１つ以上のＬ１キャッシ
ュ１０４がその要求されたデータ・ユニットを格納して
いることを指示する場合には、そのデータ・ユニットを
ＲＯ所有権を以て格納する全てのＬ１キャッシュ１０４
がそのデータ・ユニットを無効化するように通知され
（その応答は不要）、そしてそのデータ・ユニットをＥ
Ｘ所有権を以て格納する任意のＬ１キャッシュ１０４が
そのデータ・ユニットを無効化するように通知され且つ
そのようなＬ１キャッシュ１０４からそのデータ・ユニ
ットが無効化された旨の応答が受信されるまで、要求済
みのＶＳＲスタック１２５の有効ビットは、オン状態に
設定されないのである。そのデータ・ユニットをＥＸ所
有権を以て格納する後者のＬ１キャッシュ１０４からの
応答が必要となるのは、そのデータ・ユニットを無効化
する前に、ＳＸＥ１０３からの要求に基づく進行中の全
ての書き込みを完了できるようにするためである。その
間、ＶＸＥ１０７からの要求は、再循環待ち行列１２
８内に書き込まれる。ＳＸＥ１０３からの要求に基づ
く進行中の全ての書き込み動作が完了した後、要求済み
のＶＳＲスタック１２５の有効ビットがオン状態に設定
される。ＶＸＥ１０７からの要求を、再循環待ち行列
１２８からセレクタ１２９を通してゲートすることがで
きるのは、ＸＩ応答バス１１１上のＶＸＥ１０７への
ＸＩ応答についてヒットが存在せず、そしてＶＳＲ設定
制御信号が存在しない場合である。要求アドレスは、そ
の要求が最初にＸＩ要求バス１１０上に置かれる際に、
要求済みのＶＳＲスタック１２５内に記入できることに
留意されたい。要求済みのＶＳＲスタック１２５を有効
化するタイミングだけが重要である。要求済みのＶＳＲ
スタック１２５が有効化されるのは、そのデータユニッ
ト・アドレスに対応するデータ・ユニットへの書き込み
ストア許可（即ち、ＶＳＲ許可）を指示する応答を、そ
の要求元ＶＸＥ１０７がＸＩ応答バス１１１を介して
受信した後だけである。

【００６３】

【発明の効果】ＶＸＥからの高トラヒック・レートのＸ
Ｉ要求を処理するのに適したハードウェア手段は、過去
において全く存在していなかったか、又は存在していた
としても、不十分なものであった。その理由は、多重プ
ロセッサ・システムが通常のＬ１キャッシュを全く備え
ていないか、又はＧａｎｎｏｎらの出願のように、多重
プロセッサ・システムが通常のＬ１キャッシュを備えて
いる場合であっても、全てのベクトル・トラヒックがこ
れらのＬ１キャッシュを通るように設計されていたの
で、ベクトル処理を相当に利用するアプリケーションに
ついてＳＸＥ及びＶＸＥの両方の性能が著しく低下して
いた、という点にある。

【００６４】大型の科学技術アプリケーションのベクト
ル処理を効率的に行うためには、ＶＸＥからの要求を
（Ｌ１キャッシュをバイパスして）Ｌ３メモリに対し直
接的にインタフェースしなければならない。この方針が
正しいとすれば、ＶＳＲスタック（又はこれと類似の機
構）を全く持たないという代替的なアプローチは、全て
のＶＸＥトラヒックが集中型のＸＩディレクトリのエン
トリを使用しなければならないことを意味する。しか
し、このようなアプローチは、システムの性能について
深刻な影響を及ぼすことになろう。その主な理由は、各
ベクトル要求ごとに、ＸＩディレクトリを少なくとも３
回アクセスしなければならない、という点にある。詳述
すれば、該当するデータ・ユニットをＳＸＥが格納して
いるか否かを決定すべくＸＩディレクトリに問い合わせ
るための第１回目のアクセス、ＶＸＥが現に使用中の該
当するデータ・ユニットのアドレスをＸＩディレクトリ
に書き込むための第２回目のアクセス、そしてＶＸＥが
該当するデータ・ユニットのアドレスをＸＩディレクト
リから除去するための第３回目のアクセスと、総計で少
なくとも３回のアクセスを行わなければならないからで
ある。また、ＸＩディレクトリの大きな割合が、ＶＸＥ
エントリによって占有されるということもある。ＶＸＥ
からの要求が、各ＶＸＥごとにマシン・サイクル当たり
１回のレートで潜在的に生起するものとすれば、ＶＳＲ
スタックを用いない解決法は、最適のベクトル性能が設
計上の要件である場合、非実用的とならざるを得ない。
本発明に従って、複数のＶＳＲスタックを設けるように
すれば、要求されたデータ・ユニットをＳＸＥが格納し
ているか否かを決定するために、ＸＩディレクトリを１
回だけアクセスすればよいことになる。

【図面の簡単な説明】

【図１】本発明の好ましい実施例に従った高性能の密結
合型スカラ／ベクトル複合処理システムの構成を示すブ
ロック図である。

【図２】ＸＩ要求バス上のメッセージ・フォーマットを
示す図である。

【図３】ＸＩ応答バス上のメッセージ・フォーマットを
示す図である。

【図４】ＸＩ解除バス上のメッセージ・フォーマットを
示す図である。

【図５】ＸＩ機構の構成を示すブロック図である。

【図６】ＸＩディレクトリの構成を示すブロック図であ
る。

【図７】ＸＩディレクトリのエントリを示す図である。

【図８】各ＣＰＵに関連するベクトル・ストア・レジス
タ（ＶＳＲ）スタックの構成を示すブロック図である。

【図９】ＶＳＲの有効ビット設定論理の構成を示すブロ
ック図である。

【図１０】ＶＳＲの有効ビット・リセット論理の構成を
示すブロック図である。

【図１１】ＳＸＥから受信された排他的、読み取り専用
又は条件付き読出専用要求を処理するためのＸＩ機構の
アルゴリズムを示す流れ図である。

【図１２】ＶＸＥ要求を処理するためのＸＩ機能のアル
ゴリズムを示す流れ図である。

【符号の説明】

１００スカラ／ベクトル複合処理システム１０１主記憶装置（Ｌ３メモリ）１０３スカラ・プロセッサ要素（ＳＸＥ）１０４Ｌ１キャッシュ１０５Ｌ１ディレクトリ１０６相互問い合わせ（ＸＩ）機構１０７ベクトル・プロセッサ要素（ＶＸＥ）１０８ＸＩディレクトリ置換手段１１０ＸＩ要求バス１１１ＸＩ応答バス１１３ＶＳＲ解除バス１２１優先順位回路１２３ＸＩディレクトリ１２５ベクトル・ストア・レジスタ（ＶＳＲ）スタッ
ク１２７ＸＩ応答バス論理

───────────────────────────────────────────────────── フロントページの続き (72)発明者ドナルド、ウォルター、プライスアメリカ合衆国ニューヨーク州、レイク、カトライン、ドリス、レーン、57 (72)発明者リザ、セイエド、ラジアメリカ合衆国カリフォルニア州、パロ、アルト、ナンバー、308、アルマ、ストリート、427 (56)参考文献特開平２−77858（ＪＰ，Ａ) 特開平２−85960（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】スカラ・プロセッサ要素と、ベクトル・プ
ロセッサ要素と、共有メモリとを備え、読み取り又は書
き込み要求及び応答に従って、前記プロセッサ要素と前
記共有メモリとの間でデータ・ユニットの書き込み及び
読み取りを行うようにしたスカラ／ベクトル複合処理シ
ステムにおいて、一のデータ・ユニットの所有権を有する任意のスカラ・
プロセッサ要素を識別するための識別子及び前記共有メ
モリにおいて当該データ・ユニットを位置づけるための
一のアドレス表示を格納するとともに、どのスカラ・プ
ロセッサ要素も当該データ・ユニットの所有権を有して
いない場合には、前記スカラ・プロセッサ要素からの要
求に対する応答を供給して当該データ・ユニットのアク
セスを許可するための相互問い合わせディレクトリと、前記ベクトル・プロセッサ要素によって現に書き込み中
のデータ・ユニットのアドレス表示を格納するためのベ
クトル・ストア・レジスタ・スタックと、前記スカラ・プロセッサ要素からの要求が、前記ベクト
ル・ストア・レジスタ・スタック内に格納されているア
ドレス表示と一致するアドレス表示を有するデータ・ユ
ニットを対象としている場合には、当該要求に対応する
前記相互問い合わせディレクトリからの応答を遅延させ
るための手段とを備えて成る、スカラ／ベクトル複合処
理システム用の相互問い合わせ装置。
【請求項２】前記ベクトル・ストア・レジスタ・スタッ
クの各々が、前記アドレス表示を格納するための一のレ
ジスタと、当該レジスタ内に格納されているアドレス表
示を前記スカラ・プロセッサ要素から供給される要求の
アドレス表示と比較するための比較手段とを含んでいる
ことを特徴とする、請求項１記載のスカラ／ベクトル複
合処理システム用の相互問い合わせ装置。
【請求項３】各スカラ・プロセッサ要素が、一のデータ
・ユニットを読み取り又は書き込む際に、相互問い合わ
せ要求信号を送信し、相互問い合わせ応答信号に応答し
て動作するように待機する、複数のスカラ・プロセッサ
要素と、各ベクトル・プロセッサ要素が、一のデータ・ユニット
を読み取り又は書き込む際に、相互問い合わせ要求信号
を送信し、相互問い合わせ応答信号に応答して動作する
ように待機するとともに、当該各ベクトル・プロセッサ
要素がそれに関連するベクトル命令の処理を終了したと
きに一の解除信号を供給する、複数のベクトル・プロセ
ッサ要素と、共有メモリと、前記スカラ・プロセッサ要素及び前記ベクトル・プロセ
ッサ要素からの要求を受信するための複数のエントリを
有し、当該エントリの各々に、一のデータ・ユニットの
所有権を有する一のスカラ・プロセッサ要素の識別子及
び前記共有メモリにおいて当該データ・ユニットを位置
づけるための一のアドレス表示を格納するとともに、当
該アドレス表示を前記スカラ・プロセッサ要素及び前記
ベクトル・プロセッサ要素から供給される要求のアドレ
ス表示と比較して一致が存在する場合には第１の比較信
号を供給するための比較手段を有している相互問い合わ
せディレクトリと、各ベクトル・ストア・レジスタ・スタックが、前記ベク
トル・プロセッサ要素によって現に書き込み中のデータ
・ユニットのアドレス表示を一の設定信号に応答して格
納するための一のレジスタと、当該レジスタ内に格納さ
れているアドレス表示を前記スカラ・プロセッサ要素か
ら供給される要求のアドレス表示と比較して一致が存在
する場合には第２の比較信号を供給するための比較手段
とを含むとともに、前記解除信号によってリセットされ
る、複数のベクトル・ストア・レジスタ・スタックと、前記スカラ・プロセッサ要素及び前記ベクトル・プロセ
ッサ要素からの前記相互問い合わせ要求を前記相互問い
合わせディレクトリに供給するとともに、前記スカラ・
プロセッサ要素からの前記相互問い合わせ要求を前記ベ
クトル・ストア・レジスタ・スタックに供給するための
手段と前記解除信号を前記ベクトル・ストア・レジスタ
・スタックに結合するための手段と、前記第１の比較信号が存在せず且つ一のベクトル・スト
ア・レジスタ・スタックに対する一のベクトル・プロセ
ッサ要素からの要求が存在することに応答して、前記設
定信号を当該要求されたベクトル・ストア・レジスタ・
スタックに供給するとともに、前記第２の比較信号に応
答して、前記ベクトル・ストア・レジスタ・スタックが
前記ベクトル・プロセッサ要素からの解除信号によって
リセットされるまで、前記スカラ・プロセッサ要素から
供給され且つ前記レジスタ内に格納されているアドレス
表示と一致するアドレス表示を有する要求に対応する前
記相互問い合わせディレクトリからの応答を遅延させる
ための手段とを備えたことを特徴とする、スカラ／ベク
トル複合処理システム。
【請求項４】前記ベクトル・プロセッサ要素の各々ごと
に、複数の前記ベクトル・ストア・レジスタ・スタック
が設けられていることを特徴とする、請求項３記載のス
カラ／ベクトル複合処理システム。
【請求項５】前記スカラ・プロセッサ要素の各々に関連
して、排他的所有権又は共有所有権を以て一のデータ・
ユニットを格納するための一のキャッシュ・メモリがそ
れぞれ設けられ、前記第１の比較信号が存在する場合に
は、前記相互問い合わせディレクトリ内に格納されてい
るアドレス表示と一致するアドレス表示を有し且つ単一
のキャッシュ・メモリ内に排他的所有権を以て格納され
ているデータ・ユニットを無効化し、当該単一のキャッ
シュ・メモリが当該データ・ユニットを無効化したとい
う通知を受信した後に、前記設定信号を供給するととも
に、他のキャッシュ・メモリ内に共有所有権を以て格納
されている当該データ・ユニットを無効化することを特
徴とする、請求項３記載のスカラ／ベクトル複合処理シ
ステム。
【請求項６】前記相互問い合わせディレクトリからの応
答を遅延させるための手段が、前記解除信号によって解
除されるまで、当該遅延された応答を格納するための手
段を含んでいることを特徴とする、請求項３記載のスカ
ラ／ベクトル複合処理システム。
【請求項７】ストアスルー型のキャッシュ・メモリをそ
れぞれ有する複数のスカラ・プロセッサ要素と、共有メ
モリと、相互問い合わせディレクトリと、複数のベクト
ル・プロセッサ要素と、前記ベクトル・プロセッサ要素
によって書き込みを行うべきデータ・ユニットのアドレ
ス表示を格納するための複数のベクトル・ストア・レジ
スタ・スタックとを備えたスカラ／ベクトル複合処理シ
ステムにおいて、前記共有メモリ内にあるデータ・ユニットのうち、前記
スカラ・プロセッサ要素のキャッシュ・メモリ内に格納
されているデータ・ユニットのアドレス表示と、当該デ
ータ・ユニットを格納しているキャッシュ・メモリの識
別子とを、前記相互問い合わせディレクトリ内に格納す
る段階と、データ・ユニットに対する要求を、前記スカラ・プロセ
ッサ要素及び前記ベクトル・プロセッサ要素から前記相
互問い合わせディレクトリに送信する段階と、前記スカ
ラ・プロセッサ要素及び前記ベクトル・プロセッサ要素
から送信された前記要求のアドレス表示を、前記相互問
い合わせディレクトリ内に格納されているアドレス表示
と比較する段階と、前記スカラ・プロセッサ要素から送信された前記要求の
アドレス表示を、前記ベクトル・ストア・レジスタ・ス
タック内に格納されているアドレス表示と比較する段階
と前記相互問い合わせディレクトリ内に格納されている
アドレス表示との一致が存在せず且つ一のベクトル・ス
トア・レジスタ・スタックに対する一のベクトル・プロ
セッサ要素からの要求が存在する場合には、当該要求さ
れたベクトル・ストア・レジスタ・スタック内に当該ベ
クトル・プロセッサ要素によって書き込むべき一のデー
タ・ユニットのアドレス表示を格納する段階と、一のベクトル・ストア・レジスタ・スタック内に格納さ
れているアドレス表示との一致が存在する場合には、前
記一のベクトル・プロセッサ要素が当該アドレス表示を
使用して前記一のデータ・ユニットの書き込みを終了す
るまで、前記スカラ・プロセッサ要素から供給され且つ
当該アドレス表示と一致するアドレス表示を有する要求
に対応する前記相互問い合わせディレクトリからの応答
を遅延させる段階とを含むことを特徴とする、データ・
コヒーレンスを維持するための方法。
【請求項８】前記一のデータ・ユニットの書き込みの終
了時に、前記一のベクトル・プロセッサ要素が前記一の
ベクトル・ストア・レジスタ・スタックに解除信号を直
接的に供給することによって、当該ベクトル・ストア・
レジスタ・スタックをリセットすることを特徴とする、
請求項７記載のデータ・コヒーレンスを維持するための
方法。