JP3139392B2

JP3139392B2 - 並列処理システム

Info

Publication number: JP3139392B2
Application number: JP08289179A
Authority: JP
Inventors: 淳鳥居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-10-11
Filing date: 1996-10-11
Publication date: 2001-02-26
Anticipated expiration: 2016-10-11
Also published as: US6122712A; JPH10116192A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報処理装置に関
し、特に複数のスレッドを同時に実行する高性能マイク
ロプロセッサのキャッシュメモリの制御装置に関する。
より詳細には、本発明は、逐次実行の際の実行順序が定
まっているような複数スレッドを並列実行するようなシ
ステムのキャッシュメモリの制御装置に関する。

【０００２】

【従来の技術】問題が有する並列性を活用し、単一のプ
ログラムを複数の命令流（「スレッド」という）群に分
割して、これらを並列に実行することによって、性能を
向上させるプログラム実行方法として、マルチスレッド
実行方法が数多く提案されている。

【０００３】このマルチスレッド実行方法によれば、ス
レッドはスレッド生成を意味するフォーク動作によって
生成される。ここでは、フォーク動作を行なったスレッ
ドを「親スレッド」、生成された新しいスレッドを「子
スレッド」と呼ぶ。

【０００４】スレッドは、マルチスレッド化されたプロ
グラムにおいて、ある規定された動作を行なった後に消
滅する。すなわち、プログラム実行過程において、数々
のスレッドの生成と終了が繰り返されることになる。

【０００５】このスレッドは、プロセッシングユニット
などのスレッド実行部に割り当てられる。そして、スレ
ッド実行部が物理的に複数存在するシステムにおいて
は、複数のスレッドを同時に実行することが可能とな
り、逐次処理からの性能向上が期待できる。

【０００６】また、個々のスレッド実行部に複数のスレ
ッドを割り当てることによって、同期ミスや、資源競
合、キャッシュミスが生じた際に、現在実行しているス
レッドを待機状態にして、別のスレッドを起動すること
によって、これらの要因による遅延を見かけ上隠蔽し、
資源の利用効率をあげることが可能になる。

【０００７】このようなマルチスレッド実行方法を説明
した、代表的な文献としては、例えば、文献１（Ｒ.Ｓ.
Ｎikhil, Ｇ.Ｍ.Ｐapadopoulos and Ａrvind, *Ｔ: Ａ
Ｍultithreaded Ｍassively Ｐarallel Ａrchitecture.
Ｉn Ｐroceedings of the 19th Ａnnual Ｉnternation
al Ｓymposium on Ｃomputer Ａrchitecture, pages156
-167, Ｍay 1992）、文献２（Ｄ.Ｅ.Ｃuller, Ａ.Ｓah,
Ｋ.Ｅ.Ｓchauser,Ｔ.v.Ｅichen and Ｊ.Ｗawrzynek.
Ｆine-grain Ｐarallelism with ＭinimalＨardware Ｓ
upport: ＡＣompiler-Ｃontrolled Ｔhreaded Ａbstra
ct Ｍachine. Ｐroceedings of the Ｆourth Ｉnternat
ional Ｃonference on Ａrchitectural Ｓupport for
Ｐrogramming Ｌanguages and Ｏperating Ｓystems, p
ages164-175, Ａpril 1991）などがあげられる。

【０００８】しかしながら、このようなスレッド実行方
法では、並列性が限られる問題については、効率的に、
並列実行することはできなかった。

【０００９】これらの問題に対して、処理量の小さな、
細粒度スレッドを効率的に実行するスレッド実行方法と
実行装置が提案されている。例えば、細粒度スレッドの
並列処理プロセッサの例として、Ｇurinder Ｓ.Ｓohi氏
らが１９９５年に発表した論文（Ｇurinder Ｓ.Ｓohi,
Ｓcott Ｅ.Ｂreach and Ｔ.Ｎ.Ｖijaykumar, “Ｍultis
calar Ｐrocessor”, Ｔhe 22nd Ｉnternational Ｓymp
osium on ＣomputerＡrchitecture, ＩＥＥＥＣompute
r Ｓociety Ｐress, 1995, pp.414-425）（「文献３」
という）があげられる。

【００１０】上記文献等で提案される“Ｍultiscalar
Ｐrocessor”（マルチスカラプロセッサ）では、単一の
プログラムをいくつかの基本ブロックの集合である「タ
スク」に分割し、これを並列に実行処理できるプロセッ
サで処理する。

【００１１】図２３は、このマルチスカラプロセッサの
構成例を示す図である。

【００１２】図２３で参照すると、このマルチスカラプ
ロセッサは、シーケンサ６７、プロセッシングユニット
６８、結合ネットワーク６９、及びデータバンク７０を
備えて構成されている。

【００１３】プロセッシングユニット６８は、命令キャ
ッシュ７１、実行ユニット７２、及びレジスタファイル
７３を備えて構成され、プロセッシングユニット６８は
システムに複数存在する。また、プロセッシングユニッ
ト６８に対応してデータバンク７０も複数存在し、デー
タバンク７０は、ＡＲＢ（Ａddress Ｒesolution Ｂuff
er；アドレスレゾルーションバッファ）７４、データキ
ャッシュ７５を備える。

【００１４】複数のタスクの同時実行の管理は、制御フ
ロー情報が記載されたタスク記述子（task descripto
r；タスクデスクリプタ）を用いて、シーケンサ６７に
よって動的／静的に行なわれ、各プロセッシングユニッ
ト６８にタスクを割り付ける。シーケンサ６７は、タス
クをプロセッシングユニットに割り付けると、次のタス
クの割り付けを行なうべく、タスク記述子を調べる。

【００１５】また、似たようなスレッド実行方法として
は、Ｐradeep Ｋ.Ｄubey氏らが１９９５年に発表した論
文（Ｐradeep Ｋ.Ｄubey, Ｋevin Ｏ'Ｂrien, Ｋathryn
Ｏ'Ｂrien, Ｃharles Ｂarton, “Ｓingle-Ｐrogram
Ｓpeculative Ｍultithreading（ＳＰＳＭ）Ａrchitect
ure: Ｃompiler-assisted Ｆine-Ｇrained Ｍultithrea
ding”, Ｐarallel Ａrchitectures and Ｃompilation
Ｔechniques, ＩＦＩＰ1995）（「文献４」という）の
記載が参照される。

【００１６】図２４は、上記文献４に提案される、ＳＰ
ＳＭアーキテクチャにおける、スレッド実行方法の概念
を説明するための図である。

【００１７】図２４において、シングルプログラム７６
中に、スレッド生成命令７８とスレッド待ち合わせ命令
７９が組み込まれている。スレッド生成命令７８を実行
すると、実行を先回りするフューチャースレッド７７を
生成する。フューチャースレッド７７はスレッド待ち合
わせ命令７９まで実行して、本来の実行が追いつくのを
待ち合わせて結果をマージする。このフューチャースレ
ッド７７は本来の実行と並列に動作することによって、
速度向上を図るというものである。

【００１８】また、特開平５−２８２２６４号公報、特
開平５−２８２２６４号公報、及び特開平５−２８２２
６６号公報においてそれぞれ提案されている自己並列化
式のコンピュータシステムにおけるＭＳＩＳ（単一命令
シーケンスの多重ストリーム化）は、動的に並列化を行
うことが大きな特徴として挙げられるが、逐次ストリー
ムの並列処理と云う観点では、ほぼ同様の処理方式であ
ると言える。

【００１９】これらの方法に共通するのは、複数のスレ
ッド間に逐次的な時間順序関係が存在することがあげら
れる。従って、先行するスレッドがデータを読み出す前
に、後続のスレッドが同一アドレスに対して将来の値を
書き込んだ場合、先行スレッドは誤った値を読んでしま
うという問題が生じる。これを「データの逆依存関係」
と呼ぶ。

【００２０】マルチスカラプロセッサ（Ｍultiscalar
Ｐrocessor）の手法ではＡＲＢ、また上記ＭＳＩＳでは
ＯＳＣ制御部（オペランド記憶比較制御部）によって、
全てのロード、ストアについての情報を記憶しておき、
後続スレッドのストアデータが先行スレッドのロードに
対して働かないような制御を行い、誤った値が読み込ま
れるのを防いでいる。

【００２１】図２５は、マルチスカラプロセッサのデー
タバンクにおけるＡＲＢの構成をブロック図にて示した
ものである。図２５を参照すると、ＡＲＢエントリ８０
は、アドレス格納部８０と、各ステージ８５毎のロード
ビット８２、ストアビット８３、ストア値格納部８４
と、から構成されている。

【００２２】スレッドの実行状況に応じてステージ８５
に、ヘッド（Ｈead）／テイル（Ｔail）ポインタが設け
られ、このポインタ間で示されるステージ８５がアクテ
ィブＡＲＢウインドウ（Ａctive ＡＲＢＷindow）８６
として、有効に扱われる。

【００２３】各実行ユニット７２（図２３参照）がメモ
リの読み出しや書き込みを行った場合には、それぞれの
実行ユニット７２に対応するステージ８５のロードビッ
ト８２をセット、もしくはストアビット８３をセット
し、ストア値格納部８４にストアした値を書き込む。読
み出しの際には、対応するステージ８５よりも前のステ
ージ８５にストアビット８３がセットされているステー
ジ８５があれば、そのステージ８５のストア値格納部８
４の値を供給する。また、ストアを行った場合に後続ス
レッドのステージ８５にロードビット８２がセットされ
ている場合には、後続スレッドはそのロード命令以降の
実行を取り消して再実行するという投機的実行をサポー
トしている。

【００２４】また、図２６は、ＭＳＩＳのＯＳＣ制御部
の構成を示すブロック図である。図２６を参照すると、
ＭＳＩＳにおいても、複数の処理要素８７が存在し、メ
モリ階層９０に対するロードは、フェッチテーブル９
３、ストアは記憶テーブル９４にそれぞれ記憶をしてお
き、比較機構９２を用いることによって、ＡＲＢと同様
の機能を実現している。

【００２５】

【発明が解決しようとする課題】しかしながら、上記し
たＡＲＢ、ＯＳＣ制御部はともに、後続スレッドの書き
込みアドレスを記憶し比較を行う必要が有るため、専用
でかつ複雑なハードウェアを用意することが必要である
という問題を有している。

【００２６】また、記憶すべきアドレスやデータの数
は、実行する問題の性質によって、異なるため、メイン
メモリに対してのアクセスが少ないような問題では、ハ
ードウェアが無駄となったり、一方、メインメモリに対
してのアクセスが多い問題では、アドレス／データを登
録するエントリ数が足りなくなって並列度が制限される
という問題が有った。

【００２７】また、問題（システムで実行される問題）
に、並列度が潤沢に存在する場合には、時間的な順序関
係の存在しない従来スレッド間で、並列処理を行った方
が有利であるが、そのような処理を行う際には、ＡＲ
Ｂ、ＯＳＣ制御部共に用いられないものとなり、逐次的
な時間順序関係を持つスレッド並列実行システムとの共
用は、コスト的に不利になると言う問題があった。

【００２８】したがって、本発明は、上記事情に鑑みて
なされたものであって、その目的は、このような並列処
理システム上における逐次的な時間順序関係を持った複
数スレッドが、同一のメモリ空間を用いて同時に実行す
る際に、問題となるデータの逆依存関係を、キャッシュ
メモリを用いて自動的に解消する、ことを可能としたキ
ャッシュメモリの制御装置を提供することにある。

【００２９】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、その概略として、並列処理システム上に
おける逐次的な時間順序関係を持った複数のスレッド
が、同一のメモリ空間を用いて同時に実行する際に、問
題となるデータの逆依存関係を解消するために、キャッ
シュメモリに対して、整合性維持手段を付加してなるも
のである。

【００３０】より詳細には、本発明は、複数のスレッド
においてスレッド間は逐次的な実行順序関係を規定する
ことによって、依存関係が先行スレッドから後続スレッ
ドの単一方向に規定されるようなスレッド実行モデルで
あって、前記スレッドを複数同時に実行するために複数
のスレッド実行部を備え、前記複数のスレッド実行部は
それぞれ、スレッド実行に伴うデータの読み書きを高速
に行うためのキャッシュメモリと、前記キャッシュメモ
リの整合性を制御する整合性維持手段と、スレッド間の
順序関係を伝達する手段と、を備え、前記複数のスレッ
ド実行部間で共有する共有メモリを、具備してなる並列
システムであって、前記各整合性維持手段の間をバスに
よって接続し、前記スレッド実行部が書き込み要求を行
った際には、前記バスに書き込みアドレスとスレッド識
別の信号を放送し、前記各整合性維持手段は前記バスを
監視することによって、先行するスレッドの書き込みが
生じ、同一アドレスのラインを保持しているキャッシュ
メモリは、前記先行スレッドが書き込んだデータを取り
込んで、対応するキャッシュメモリに対して書き込み動
作を行い、後続スレッド実行部のキャッシュメモリがミ
スを起こした場合には、先行スレッド実行部からデータ
の供給を受ける動作を行うように制御し、逐次順序関係
上、先行するスレッドを実行するスレッド実行部が書き
込んだデータは後続のスレッドを実行するスレッド実行
部が読み出し可能とし、後続のスレッドを実行するスレ
ッド実行部が書き込んだデータは先行のスレッドを実行
するスレッド実行部に対しては書き込みを行う前のデー
タを読み出す制御を行い、後続スレッドを実行するスレ
ッド実行部が書き込んだデータは、先行スレッドが終了
するまでは、共有メモリに書き戻さないように制御し
て、データの整合性制御を行う、ことを特徴とする。

【００３１】

【発明の実施の形態】本発明の実施の形態について以下
に説明する。

【００３２】まず、本発明の原理を図１を参照して説明
する。本発明は、図１において、スレッド１に後続する
スレッド２が物理的な時刻で先行してライト（write）
オペレーション（例えば１００番地への書き込み）を実
行した場合でも、先行スレッドであるスレッド１のリー
ド（read）オペレーション（１００番地の読み出し）で
は、スレッド２のライトオペレーション実行前の値が読
み出されることを、キャッシュメモリによって保証する
ように構成したものである。本発明においては、従来方
式との親和性の大きいキャッシュメモリを用いることに
よって、時間的な順序関係の存在しない従来方式のスレ
ッド間の並列処理と、の共用を容易に実現したものであ
る。

【００３３】本発明は、その好ましい実施の形態におい
て、スレッドを複数同時に実行するために複数のスレッ
ド実行部（図２の２）を備え、複数のスレッド実行部は
それぞれ、スレッド実行に伴うデータの読み書きを高速
に行うためのキャッシュメモリ（図２の３）と、このキ
ャッシュメモリの整合性を制御する整合性維持手段（図
２の４）と、スレッド間の順序関係情報を伝達する手段
（図２の１０等）と、を備え、複数のスレッド実行部間
で共有する共有メモリを、供え、各整合性維持手段の間
を共有バス（図２の６）によって接続する。

【００３４】スレッド実行部が書き込み要求を行った際
には、バス（図２の６）に書き込みアドレスとスレッド
識別の信号を放送し、各整合性維持手段は、このバスを
監視することによって、先行するスレッドの書き込みが
生じ、同一アドレスのラインを保持しているキャッシュ
メモリは、先行スレッドが書き込んだデータを取り込ん
で、対応するキャッシュメモリに対して書き込み動作を
行い、後続スレッド実行部のキャッシュメモリがミスを
起こした場合には、先行スレッド実行部からデータの供
給を受ける動作を行うように制御し、逐次順序関係上、
先行するスレッドを実行するスレッド実行部が書き込ん
だデータについては後続のスレッドを実行するスレッド
実行部が読み出し可能とし、後続のスレッドを実行する
スレッド実行部が書き込んだデータについては、先行の
スレッドを実行するスレッド実行部に対しては、後続ス
レッドが書き込みを行う前のデータを読み出すように制
御し、後続スレッドを実行するスレッド実行部が書き込
んだデータは、先行スレッドが終了するまでは、共有メ
モリに書き戻さないように制御して、データの整合性制
御を行う。

【００３５】このように、本発明の実施の形態において
は、スレッド間に実行の逐次的な時間順序関係を持つ複
数スレッド間で並列実行を行う並列処理システム上にお
ける、複数スレッドが同一のメモリ空間を用いて並列に
実行する際に問題になるデータの逆依存関係を、キャッ
シュメモリを用いて自動的に解消する。

【００３６】本発明の実施の形態において、整合性維持
手段は、複数スレッド間の逐次順序と当該キャッシュエ
ントリの実行順序上の位置を把握することによって、逐
次順序関係上、先行するスレッドを実行するスレッド実
行部が書き込んだデータは後続のスレッドを実行するス
レッド実行部のキャッシュメモリに対して反映させ、後
続のスレッドを実行するスレッド実行部が書き込んだデ
ータは先行のスレッドを実行するスレッド実行部のバッ
ファメモリに対して反映させないという、データの整合
性制御を行う。

【００３７】更に、常に、最先行スレッドがメインメモ
リから必要なデータを取得するがあるため、後続スレッ
ドの書き込みはキャッシュメモリから書き戻すことを禁
止し、先行スレッドが終了後に書き戻しが許可される。

【００３８】このキャッシュメモリは、スレッド実行部
毎に分散している場合でも、スレッド実行部間で共有し
ている場合でも実現可能である。但し、共有している場
合には、単一アドレスに対して複数のラインを持つこと
が可能なマルチウェイのキャッシュメモリシステムにす
る必要が有る。

【００３９】すなわち、本発明は、その実施の形態にお
いて、複数のスレッド実行部（図７の２０）と、複数の
スレッド実行部にそれぞれ付随して設けられたキャッシ
ュメモリ（図７の２１）と、複数のスレッド実行部間で
共有する共有メインメモリ（図７の２８）と、を備え、
その間がネットワークによって結合され、共有メインメ
モリ（図７の２６）に付随して、前記キャッシュメモリ
間の整合性維持のためのディレクトリ（図７の２７）
と、整合性維持手段（図７の２６）と、を備えて構成さ
れている。

【００４０】この整合性維持手段は、スレッドの順序情
報を得ることによって逐次順序関係上、先行するスレッ
ドを実行するスレッド実行部が書き込んだデータは、後
続のスレッドを実行するスレッド実行部が読み出し可能
とし、後続のスレッドを実行するスレッド実行部が書き
込んだデータは先行のスレッドを実行するスレッド実行
部に対しては書き込みを行う前のデータを読み出すよう
に制御し、後続スレッドを実行するスレッド実行部が書
き込んだデータは、先行スレッドが終了するまでは、前
記共有メモリに書き戻さないように制御することによっ
て、データの整合性制御を行う。

【００４１】また、本発明は、その好ましい実施の形態
において、複数のスレッドを同時ないし時分割で実行す
るスレッド実行部（図１１の３４）を備え、スレッド実
行部には、スレッド実行に伴うデータの読み書きを高速
に行うための複数のスレッド間で共有されるキャッシュ
メモリ（図１１の３５）と、キャッシュメモリを制御す
るキャッシュ制御手段（図１１の３６）と、を備え、キ
ャッシュメモリには、同一のアドレスに対するデータを
複数のエントリで保持可能とし、各エントリ毎にスレッ
ドの順序関係を示す識別の情報を格納し、キャッシュ制
御手段（図１１の３６）によって、逐次順序関係上、先
行するスレッドを実行するスレッド実行部が書き込んだ
データについては、後続のスレッドを実行するスレッド
実行部が読み出し可能とし、後続のスレッドを実行する
スレッド実行部が書き込んだデータについては先行のス
レッドを実行するスレッド実行部に対しては書き込みを
行う前のデータを読み出す制御を行うようにして、デー
タの整合性制御を行う。

【００４２】

【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例を以下に図面を参照し
て説明する。なお、以下に例示する実施例は、あくまで
本発明を説明するためのものであり、本発明を限定する
ためのものではないことは勿論である。

【００４３】

【実施例１】図２は、本発明の第１の実施例に係る並列
処理システムの構成を示すブロック図である。図２を参
照すると、本実施例に係る並列処理システムは、４スレ
ッド並列実行型の並列処理システムとして構成され、第
１〜第４のスレッド実行部＃０（２ａ）、＃１（２
ｂ）、＃２（２ｃ）、＃３（２ｄ）は、スレッド管理部
１と接続されている。なお、図２は、本発明の一実施例
を例示したものであり、本発明において、スレッド実行
部の個数が４個に限定されるものでないことは勿論であ
る。

【００４４】各々のスレッド実行部２ａ〜２ｄは、対応
するキャッシュメモリ＃０（３ａ）〜＃３（３ｄ）と接
続され、キャッシュメモリ３ａ〜３ｄは、それぞれ整合
性維持部＃０（４ａ）〜＃３（４ｄ）を介して共有バス
６と接続される。

【００４５】共有バス６は、データバス７、アドレスバ
ス８、及び制御信号バス９から構成されており、制御信
号バス９はデータバス７やアドレスバス８上の信号の意
味等を示す信号を伝達する用途に用いられる。

【００４６】また、各整合性維持部４ａ〜４ｄは、スレ
ッド順序情報伝達バス１０、及び対向して設けられたス
レッド識別子格納部＃０（５ａ）〜＃３（５ｄ）とも接
続されている。

【００４７】スレッド順序情報伝達バス１０は、スレッ
ド管理部１とも接続され、スレッド管理部１からのスレ
ッドの先行／後続関係の情報を、各整合性維持部４ａ〜
４ｄに伝える。また、メインメモリ１１は、各スレッド
実行部２ａ〜２ｄにて共有され、共有バス６を介して接
続されている。

【００４８】スレッド管理部１は、スレッドの生成／終
了を管理する。スレッド管理部１は、スレッドの生成順
にスレッドＩＤが割り付け、このスレッドＩＤを、スレ
ッド識別子格納部５に通知する。なお、スレッド実行
部、スレッド識別子格納部、整合性維持部について個々
を特定しない場合、符号２、３、４で参照する。

【００４９】スレッド識別子格納部５はスレッド管理部
１から通知されたスレッドＩＤをスレッド終了まで保持
する。

【００５０】整合性維持部４は、対応するスレッド実行
部２の要求や、共有バス６上に放送される信号に基づい
て、キャッシュメモリ３の整合性の維持を行う。

【００５１】図３に、本実施例における整合性維持部４
の構成をブロック図にて示す。なお、整合性維持部４ａ
〜４ｄはいずれも同一構成とされるため、図３には、そ
の一つの構成が示されている。

【００５２】図３を参照すると、整合性維持部４は、ス
レッド順序情報テーブル１２と、比較器１３ａ、１３
ｂ、１３ｃと、整合性維持プロトコルシーケンサ１４
と、を備えて構成される。

【００５３】スレッド順序情報テーブル１２は、スレッ
ド順序情報伝達バス１０によって伝えられるスレッド順
序情報を受け取り、各スレッドＩＤがどの順序に位置す
るかを保持しておく。すなわち、スレッドＩＤに対して
対応する順序が格納保持される。

【００５４】比較器１３は、スレッド順序情報テーブル
１２を、スレッド実行部２と、共有バス６上に放送され
る信号を発したスレッドの順序と、比較し、どちらか先
行するものと比較した結果を整合性維持プロトコルシー
ケンサ１４に伝達する。

【００５５】図４は、本実施例におけるキャッシュメモ
リ３の１エントリ（キャッシュライン）の構成を示した
ものである。

【００５６】図４を参照すると、本実施例において、キ
ャッシュライン１８は、状態ビット１５、アドレスタグ
１６、及びデータアレイ１７を含んで構成され、キャッ
シュライン１８が複数集まってキャッシュメモリ３を構
成する。

【００５７】状態ビット１５は、キャッシュの内容が有
効で有るか否かという情報と、メインメモリとキャッシ
ュメモリの内容が一致しているか否かとい情報と、更
に、不一致の場合には、このキャッシュメモリに対応す
るスレッド実行部が書き込みを行うことによって不一致
となったものを区別することによって、表１に示す、４
状態を表す。

【００５８】

【表１】

【００５９】このキャッシュの状態に基づいて、整合性
維持部４は複数キャッシュ間の時間順序関係を保ちなが
ら整合性を維持する。

【００６０】図５、及び図６は、本実施例における整合
性維持部４における整合性維持プロトコルシーケンサ１
４の整合性維持のアルゴリズムを説明するためのフロー
チャートであり、図５は、リードミスが生じた時の動作
アルゴリズムを示し、図６は、他のスレッド実行部２が
書き込み動作を起こした時の動作アルゴリズムを示して
いる。なお、リードヒット時には、対応するキャッシュ
メモリ３がデータを供給するのみの動作であり、また、
ライトミス時にはリードミス動作とライトヒットの動作
が続けて行われるものとする。

【００６１】本実施例によるキャッシュメモリ３の動作
を順を追って具体的に説明する。以下の例では、スレッ
ド実行部２ａがメモリに対する動作を起こした場合につ
いて説明する。

【００６２】まず、スレッド実行部２ａが要求するアド
レスのデータがキャッシュメモリ３ａに存在しない場
合、すなわちキャッシュミスが生じた際に（図５の５０
１参照）、整合性維持部４ａは、共有バス６の使用権を
確保する。

【００６３】まず、他のスレッド実行部２ｂ、２ｃ、２
ｄに属するキャッシュメモリ３ｂ、３ｃ、３ｄのキャッ
シュライン１８中に、当該アドレスのエントリを保持し
ているか否かを調べる。これは、共有バス６のアドレス
バス８に対して要求アドレスを、制御信号バス９に対し
て、アクセスの種類として、リードミスによるデータ要
求であるという情報とスレッドＩＤを放送することによ
って行われる（図５のステップ５０２）。

【００６４】共有バス６の使用権を得ていない整合性維
持部４ｂ、４ｃ、４ｄは、バスの信号を監視することに
より、アクセスの種類（リード／ライト）とアドレスを
得る。このアドレスを対応するキャッシュメモリ３ｂ、
３ｃ、３ｄのキャッシュライン１８中に同一アドレスの
ラインが存在するか否か調べる。もし、同一アドレスの
ラインが存在し、複数存在した場合に、それが「Ｃ状態
（Ｃｌｅａｎ）」のみであれば、そのいずれかがデータ
をデータバスに放送する。

【００６５】また、「Ｄ／ＤＳＭ（Ｄirty Ｓelf-Ｍodi
fied）状態」のラインが存在した場合（図５のステップ
５０５のＹｅｓ）でも、要求を行ったスレッドＩＤより
も、当該キャッシュメモリ３に対応するスレッドＩＤが
先行する場合（図５のステップ５０６のＹｅｓ）には、
そのアドレスに対応するデータを、データバス７に放送
する。この場合、この条件内に、複数のラインが存在す
る場合には、先行スレッドで、かつ、要求スレッドＩＤ
に最も近い整合性維持部４からデータを供給するよう
に、バスの調停を行う。

【００６６】また、どの整合性維持部４ｂ、４ｃ、４ｄ
に対応するキャッシュライン１８に、同一アドレスライ
ンが存在しない場合には、メインメモリ１１からデータ
をデータバス７に放送する（図５のステップ５０４）。

【００６７】データを要求した整合性維持部４ａは、そ
の放送されたデータを受け取ることによって、所望デー
タをキャッシュライン１８に取り込むことができる。

【００６８】この時、キャッシュメモリ３ｂ、３ｃ、３
ｄから供給され、そのラインが「Ｄ状態」もしくは「Ｄ
ＳＭ状態」の場合には、要求を行ったキャッシュメモリ
３ａの状態ビット１５は「Ｄ状態」にセットされ（図５
のステップ５０８）、それ以外の場合には「Ｃ状態」に
セットされる。

【００６９】従来方式のマルチプロセッサのキャッシュ
メモリでは、リードミス時のデータ供給先が任意の他の
キャッシュ、あるいはメインメモリであるのに対して、
本実施例においては、スレッドＩＤによる順序関係によ
って、データの供給方法に制約を設けることによって、
後続スレッドが書き込んだデータが、先行スレッドに
は、供給されないようにして、スレッド間の時間順序関
係を保つ。

【００７０】次に、書き込みが発生した場合について説
明する。キャッシュメモリ３ａへの書き込みが生じた場
合には、整合性維持手段４ａは、共有バス６のアクセス
権を確保して、書き込みを行うアドレスを他のキャッシ
ュメモリ３ｂ、３ｃ、３ｄに伝達する必要が有る。

【００７１】整合性維持部４ａは、共有バス６のアドレ
スバス８にアドレスを、制御信号バス９に対しては、
「書き込みである」という情報とスレッドＩＤを放送す
る。また、データバス７に対して書き込んだデータを同
時に放送する。

【００７２】共有バス６上に書き込みに関する信号が放
送された場合、共有バス６のアクセス権を持っていない
整合性維持部４ｂ、４ｃ、４ｄは、図６に示すアルゴリ
ズムによって、整合性の維持を行う。

【００７３】具体的には、キャッシュライン１８がアド
レスバス８に放送されているアドレスと同一アドレスの
データを保持しており（図６のステップ６０２でＹｅ
ｓ）、保持しているキャッシュ３が属するスレッド実行
部２のスレッドＩＤが制御バス９上のスレッドＩＤより
も後続のものであれば（図６のステップ６０４でＹｅ
ｓ）、書き込み内容を対応するキャッシュライン１８に
反映させる。さらに、そのキャッシュライン１８の状態
ビット１５が「Ｃ状態」である場合は、「Ｄ状態」に変
更する（図６のステップ６０６）。また、書き込みを行
ったスレッド実行部２ａに対応するキャッシュメモリ３
ａの該当キャッシュライン１８の状態ビット１５は「Ｄ
ＳＭ状態」にセットされる。

【００７４】これによって、先行スレッドの書き込み
は、後続スレッドのキャッシュメモリ３にも自動的に反
映されるが、後続スレッドの書き込みは先行スレッドの
キャッシュメモリ３には反映されないため、スレッド間
の時間順序関係が保たれる。

【００７５】先行スレッドが存在する場合、後続スレッ
ドのＤＳＭ状態のキャッシュライン１８は、メインメモ
リ１１に対して書き戻しは禁止される。これは、同一ア
ドレスを先行スレッドが要求した場合に、メインメモリ
１１から、後続スレッドが書き込みを行う前の値として
供給するためである。他のアドレスのデータをキャッシ
ュメモリ３に格納するために、後続スレッドのメインメ
モリと不一致状態のキャッシュエントリ１８を書き戻す
必要が生じた場合には、後続スレッドは実行を中断し、
先行スレッドが終了するのを待つ必要が有る。また、先
行スレッドが終了する際には、「ＤＳＭ状態」のキャッ
シュライン１８のデータアレイ１７の内容をメインメモ
リ１１に書き戻す必要が生じる。

【００７６】一方、「Ｄ状態」のキャッシュライン１８
は、同一アドレスを持ち「ＤＳＭ状態」であるキャッシ
ュライン１８が他のスレッド実行部２に属するキャッシ
ュに存在するので、メインメモリへの書き戻しは行う必
要がない。また、「Ｄ状態」のまま、先行するスレッド
が全て終了した場合には、「Ｃ状態」に変更される。

【００７７】本実施例においては、上記したようなキャ
ッシュ制御を行うことによって、スレッド間の時間順序
関係は保ち、データの逆依存関係を、キャッシュメモリ
を用いて自動的に解消することが実現される。但し、後
続スレッドが既に書き込んだり読み出したりするアドレ
スに対して、先行スレッドが、後に、同一アドレスに書
き込みを起こした場合には、スレッド間の時間順序関係
をこのままでは保つことはできない。この場合には、ス
レッド間にソフトウェアによって同期を取る必要が生じ
る。

【００７８】

【実施例２】図７は、本発明の第２の実施例に係る並列
処理システムの構成を示すブロック図である。図７を参
照すると、本実施例に係る並列処理システムは、４スレ
ッド並列実行型の並列処理システムとして構成されてい
る。なお、以下では図２に示した前記第１の実施例と本
実施例との相違点を主に説明し、重複を回避するため同
一部分の説明は省略する。

【００７９】本実施例に係るシステムでは、図２に示し
た前記第１の実施例における共有バス６に代えて、ネッ
トワーク２３によって、キャッシュメモリ２１と、メイ
ンメモリ２８を接続している。このため、本実施例にお
いては、ネットワークインタフェース２２が新たに追加
され、整合性維持部２６は共有として、メインメモリ１
１に直結されている。また、メインメモリ１１に付随し
て、ディレクトリテーブル２７が接続されている。

【００８０】図８は、本実施例におけるメインメモリ１
１とディレクトリテーブル２７の構成の一例を示したも
のであり、各スレッド実行部２０に対応した状態ビット
２９によって、ディレクトリテーブル２７が構築され、
メインメモリ２８におけるメモリライン３２との対応が
とられている。

【００８１】図８を参照して、ディレクトリテーブル２
７の状態ビット２９は、スレッド実行部１９に付随する
キャッシュメモリ２１にコピーが存在するか否かを示す
有効ビット３０と、そのコピーが所属するスレッド実行
部２０によって書き込みが行われたか否かを示す不一致
ビット３１と、から構成されている。

【００８２】不一致ビット３１がセットされた状態を、
ここでは「Ｄ状態」と呼ぶ。また、スレッド管理部１９
からは、整合性維持部２６にスレッドの実行状態が変わ
る毎に対してスレッド順序情報をスレッド情報伝達バス
２５が伝えられる。

【００８３】整合性維持部２６は、各スレッド実行部２
０からのメインメモリ２８アクセス要求に対して、図
９、及び図１０に示すアルゴリズムによってキャッシュ
間の整合性を維持する。

【００８４】以下の例では、スレッド実行部２０ａがメ
モリに対する動作を起こした場合について説明する。は
じめに読み出し時の動作について説明する。

【００８５】まず、スレッド実行部２０ａが要求するア
ドレスのデータがキャッシュメモリ２１ａに存在しない
場合、すなわちキャッシュミスが生じると（図９の９０
１）、ネットワーク２３を介して、データの読み出し要
求を整合性維持部２６に対して行う。

【００８６】整合性維持部２６は、ディレクトリテーブ
ル２７を調べ（図９のステップ９０２）、「Ｄ状態」の
エントリが存在し（図９のステップ９０３でＹｅｓ）、
且つその「Ｄ状態」のエントリが先行スレッドのエント
リであれば（図９のステップ９０４でＹｅｓ）、「Ｄ状
態の」エントリを持つキャッシュメモリ２１に対してデ
ータの転送を要求する。要求されたキャッシュメモリ２
１は、要求ラインのデータを要求したスレッド実行部２
０ａのキャッシュメモリ２１ａに対して転送する（図９
のステップ９０７）。

【００８７】それ以外の場合は、メインメモリ２８か
ら、所望データを要求したスレッド実行部２０ａのキャ
ッシュメモリ２１ａに対してデータ転送する（図９のス
テップ９０４、９０６参照）。

【００８８】いずれの場合でも、要求スレッド実行部２
０ａに対応するディレクトリテーブル２７の状態ビット
２９ａの有効ビット（Ｖａｌｉｄビット）３０をセッ
トする。

【００８９】次に、書き込みの場合について説明する
と、書き込み時は、キャッシュのヒット／ミスに拘らず
ネットワーク２３を介してデータの書き込み要求を、整
合性維持部２６に対して行う。

【００９０】キャッシュヒット時は、その後、以下の動
作を、またキャッシュミス時の書き込みは、キャッシュ
ミス時の読みだし動作後に、以下の動作を行う。

【００９１】整合性維持部２６は、ディレクトリテーブ
ル２７を調べ、有効ビット３０がセットされたエントリ
のうち、後続スレッドのエントリに対して、書き込みデ
ータを送信する（図１０のステップ1006）。また、要求
スレッド実行部２０に対応するディレクトリテーブル２
７の不一致ビット３１をセットする。

【００９２】また、本実施例においては、前記第１の実
施例と同様に、先行スレッドが存在する場合、後続スレ
ッドの「Ｄ状態」のキャッシュメモリ２１のエントリ
は、メインメモリ２８に対して書き戻しは禁止され、メ
インメモリ２８には、最先行スレッド以外のスレッドの
書き込み結果が反映されることを抑止し、最先行スレッ
ドの読み出し要求の正当性を維持するこれによって、先
行スレッドの書き込みは、後続スレッドのキャッシュメ
モリ２１にも自動的に反映されるが、後続スレッドの書
き込みは先行スレッドのキャッシュメモリ２１には反映
されないため、スレッド間の時間順序関係が保たれる。

【００９３】

【実施例３】図１１は、本発明の第３の実施例に係る並
列処理システムの構成を示すブロック図である。本実施
例に係る並列処理システムは、４スレッド並列実行型の
並列処理システムである。

【００９４】図１１を参照すると、本実施例は、キャッ
シュメモリ３５を、各スレッド実行部＃０（３４ａ）、
＃１（３４ｂ）、＃２（３４ｃ）、＃３（３４ｄ）で共
有する構成としたものである。

【００９５】図１２は、本実施例におけるキャッシュメ
モリ３５の１エントリ４４の構成を示したものである。

【００９６】本実施例において、キャッシュメモリ３５
は、特定のアドレスのデータが複数のキャッシュライン
４３に格納されることができる構造（マルチウェイキャ
ッシュ）として構成され、図１２を参照すると、４ウェ
イ（ｗａｙ）構造とされている。

【００９７】図１２に示すように、本実施例において
は、通常のマルチウェイキャッシュに比して、各ライン
には、スレッドＩＤタグ３９を格納するように拡張され
ている。また、キャッシュの状態ビット４０は、表２に
示す状態を表す。

【００９８】

【表２】

【００９９】図１３は、本実施例におけるキャッシュメ
モリ３５と付随する整合性維持部３６について、その構
成の詳細を示したブロック図である。

【０１００】図１３において、要求アービタ４５は、キ
ャッシュメモリ３５を共有するために、各スレッド実行
部＃０（３４ａ）〜＃３（３４ｄ）からの要求を調停す
る役割を担う。

【０１０１】図１３を参照して、状態比較器４９、アド
レス比較器５０、プロトコルシーケンサ５１によって、
キャッシュのヒット／ミスを判定し、さらに、読み出し
時には、キャッシュの各ライン４３（図１２参照）から
供給されたデータの選択、書き込み時には書き込むライ
ン４３を決定する。ライトバッファ４７は、データアレ
イ４２の一部に対して書き込みを行うために、以前のデ
ータアレイ４２の値を読み込んでおいて、必要な部分を
修正し、再びデータアレイ４２に書き戻すためのバッフ
ァである。

【０１０２】以下、本実施例におけるキャッシュメモリ
の動作を順を追って具体的に説明する。まず、本実施例
における、キャッシュヒットの状態は、表３に示す３種
類が存在する。以下、自スレッドよりも先行するスレッ
ドを「親スレッド」、後続のスレッドを「子スレッド」
と呼ぶことにする。

【０１０３】

【表３】

【０１０４】スレッド実行部３４から、キャッシュ３５
へのアクセス要求があった場合、与えられた要求アドレ
ス信号５５の一部によって、キャッシュエントリ４４を
選択する。

【０１０５】選択されたキャッシュエントリからは、ス
レッドＩＤタグ３９、状態ビット４０、アドレスタグ４
１、データアレイ４２が全てのキャッシュライン４３す
なわち図１３では、ｗａｙ０からｗａｙ３まですべてを
出力する。

【０１０６】アドレス比較器５０では、アドレスタグ４
１から出力されたアドレスと、要求アドレス信号５５
と、を比較し、各キャッシュライン４３毎に一致／不一
致の情報を、プロトコルシーケンサ５１に対して送出す
る。

【０１０７】また、状態比較器４９では、要求を行った
スレッド実行手段２のスレッドＩＤ、およびスレッド順
序情報信号５３から、キャッシュライン４３のスレッド
ＩＤタグ３９が、自ＩＤ、親ＩＤ、子ＩＤのいずれに相
当するかを判断した情報を、プロトコルシーケンサ５１
に対して送出する。

【０１０８】これらの情報から、プロトコルシーケンサ
５１は、図１４、及び図１５に示すアルゴリズムで、デ
ータの供給／蓄積と整合性を維持する。

【０１０９】まず、スレッド実行部３４がリード要求を
行い（図１４の1401参照）、その要求が要求アービタ４
５によって調停され選択された場合の動作について説明
する。

【０１１０】最初に、要求アドレスがキャッシュライン
４３に存在するか否かを調べる（図１４のステップ140
2）。存在しない場合には、無条件にキャッシュミスと
なり、リプレイスするキャッシュライン４３を決定し
て、メインメモリからデータをフェッチする（図１４の
ステップ1402）。

【０１１１】要求アドレスと一致するキャッシュライン
４３が存在した場合には（図１４のステップ1402でＹｅ
ｓ）、さらに、スレッドＩＤタグ３９と要求したスレッ
ド実行部３４の実行スレッドＩＤとを比較し（図４のス
テップ1404）、同一ＩＤであれば、すなわち自ＩＤヒッ
トであれば、そのキャッシュライン４３（自ＩＤライ
ン）からのデータアレイ４２のデータを供給する（図１
４のステップ1407参照）。

【０１１２】同一ＩＤが存在しない場合（図１４のステ
ップ1404のＮｏ）、まず親ＩＤと一致しているものの存
在を調べ（図１４のステップ1405）、親ＩＤのキャッシ
ュライン４３があれば、そのキャッシュライン４３のデ
ータアレイ４２のデータを供給する（図１４のステップ
1408）。親ＩＤと一致するキャッシュライン４３が複数
ある場合には、自ＩＤに最も近いＩＤを保持するキャッ
シュライン４３のデータを優先する。

【０１１３】親ＩＤとヒットしなかった場合には、子Ｉ
Ｄと一致しているものの存在を調べる（図１４のステッ
プ1406）。子ＩＤで一致するものが存在し、「Ｃ状態」
であれば、当該キャッシュライン４３のデータライン４
２のデータを供給し、さらに、子ＩＤを自ＩＤに変更す
る（図１４のステップ1409）。

【０１１４】子ＩＤと一致するキャッシュライン４３が
存在しない場合には、メインメモリ３８からデータをフ
ェッチすることになる（図１４のステップ1402）。

【０１１５】例えば、あるキャッシュエントリ４４が図
１６に示すような状態において、スレッドＩＤが「２」
であるスレッド実行部３４において、キャッシュメモリ
３５のアドレスタグ４１が、０ｘ１００、０ｘ２００、
０ｘ３００、０ｘ４００番地のデータを要求した場合、
０ｘ１００番地のデータは、親ＩＤヒットとなり、先行
スレッドＩＤすなわちスレッドＩＤが「１」のウェイ
（ｗａｙ）０のデータアレイ４２から供給される。

【０１１６】また０ｘ２００番地のデータは、自ＩＤヒ
ット（キャッシュエントリのスレッドＩＤタグ３９が
「２」）となり、ｗａｙ１のデータアレイ４２から供給
される。

【０１１７】０ｘ３００番地のデータは、ウェイ（ｗａ
ｙ）２に存在するが、ｗａｙ２はスレッドＩＤタグ３９
が「３」で、後続スレッド、且つ「Ｄ状態」であるた
め、メモリからデータをフェッチすることになる。

【０１１８】０ｘ４００番地のデータは、ｗａｙ３に存
在し、スレッドＩＤタグ３９が「３」で後続スレッドで
あるが。「Ｃ状態」であるため、子ＩＤヒットとなり、
ｗａｙ３のデータアレイ４２から供給される。さらに、
ｗａｙ３のスレッドＩＤタグ３９は「２」に変更され
る。

【０１１９】次に、図１５を参照して、スレッド実行部
３４がライト要求を行い（図１５の1501）、その要求が
要求アービタ４５（図１３参照）によって調停され選択
された場合の動作について説明する。

【０１２０】最初に、要求アドレスがキャッシュライン
４３に存在するか否かを調べる（図１５のステップ150
2）。存在しない場合には、無条件にキャッシュミスと
なり、リプレイスするキャッシュライン４３を決定し
て、メモリからデータをフェッチ後、ライトバッファ４
７で書き込みデータをマージして、キャッシュライン４
３に書き込みを行う（図１５のステップ1503）。

【０１２１】要求アドレスと一致するキャッシュライン
４３が存在した場合には（図１５のステップ１５０２で
Ｙｅｓ）、さらに、スレッドＩＤタグ３９と、要求した
スレッド実行部３４の実行スレッドＩＤと、を比較し
（図１５のステップ1504）、これらが同一ＩＤであれ
ば、すなわち自ＩＤヒットであれば、そのキャッシュラ
イン４３のデータアレイ４２にデータを書き込む（図１
５のステップ1507）。後続の子スレッドＩＤを持ち「Ｄ
状態」のキャッシュライン４３が存在する場合、そのキ
ャッシュライン４３にも。同様のデータを書き込む。こ
れらの処理は、ライトバッファ４７を用いて行われる。

【０１２２】一方、同一ＩＤが存在しない場合（図１５
のステップ１５０４でＮｏ）、まず親ＩＤと一致してい
るものの存在を調べ、親ＩＤのキャッシュライン４３が
存在する場合（図１５のステップ１５０５でＹｅｓ）、
他にリプレイスするキャッシュライン４３を決定して、
親ＩＤのキャッシュライン４３を、自ＩＤのキャッシュ
ラインとして、ライン間コピー部４６によって別にコピ
ーし、その自ＩＤのキャッシュライン４３に対して書き
込みを行う（図１５のステップ1508）。親ＩＤのキャッ
シュライン４３には、書き込みは行わないが、後続の子
スレッドＩＤを持ちＤ状態のキャッシュライン４３が存
在する場合、当該キャッシュライン４３にも同様のデー
タを書き込む。そして、親ＩＤと一致するキャッシュラ
イン４３が複数ある場合には、自ＩＤに最も近いＩＤを
保持するキャッシュライン４３のデータを優先してライ
ン間コピーのソースとする。

【０１２３】親ＩＤとヒットしなかった場合には、子Ｉ
Ｄと一致しているものの存在を調べる（図１５のステッ
プ1506）。子ＩＤで一致するものが存在し「Ｃ状態」で
あれば、そのキャッシュライン４３のデータに対してラ
イトバッファ４７を介して書き込みを行う。さらに、子
ＩＤを自ＩＤに変更する（図１５のステップ1509）。

【０１２４】子ＩＤと一致するキャッシュライン４３が
存在しない場合には、キャッシュミスの動作となる（図
１５のステップ1502）。

【０１２５】例えば、あるキャッシュエントリ４４が、
図１６に示すような状態において、スレッドＩＤが
「２」であるスレッド実行部３４において、キャッシュ
メモリ３５のアドレスタグ４１が０ｘ１００番地のデー
タにライトを要求した場合、親ＩＤヒットとなり、ｗａ
ｙ１もしくはｗａｙ３に対してｗａｙ０のデータを自Ｉ
Ｄとしてコピーし、コピーを行ったデータアレイ４２、
すなわちｗａｙ１かｗａｙ３のデータアレイ４２に対し
て書き込みを行い、スレッドＩＤタグ３９は「２」に、
状態ビット４０は「Ｄ状態」に、アドレスタグ４１は０
ｘ１００に設定される。

【０１２６】また、０ｘ２００番地へのアクセスの場合
には、自ヒットのため、ライトバッファ４７を介してデ
ータアレイ４２に書き込みを行い、キャッシュエントリ
４４の状態ビット４０を「Ｄ状態」に設定する。

【０１２７】次に０ｘ３００番地へのアクセスである
が、０ｘ３００番地のデータはｗａｙ２に存在するが、
ｗａｙ２はスレッドＩＤタグ３９が「３」で後続スレッ
ド、且つ「Ｄ状態」であるため、キャッシュミスとな
る。

【０１２８】０ｘ４００番地のデータは、ｗａｙ３に存
在し、スレッドＩＤタグ３９が「３」で後続スレッドで
あるが、「Ｃ状態」であるため、子ＩＤヒットとなり、
ｗａｙ３のキャッシュライン４３のデータに対してライ
トバッファ４７を介して書き込みを行う。さらに、子Ｉ
Ｄを自ＩＤに変更する。

【０１２９】また、図１７（Ａ）に示すような、キャッ
シュエントリ４４の状態で、スレッドＩＤが２のスレッ
ド実行部３４がキャッシュメモリ３５のアドレスタグ４
１０ｘ２００番地のデータにライトを要求した場合、親
ＩＤヒットとなり、ｗａｙ１のデータはｗａｙ０もしく
はｗａｙ３にコピーされる。ここでは、ｗａｙ０にコピ
ーされるものとする。

【０１３０】したがって、ｗａｙ０は、スレッドＩＤタ
グ３９が「２」に設定され、アドレスタグ４１は０ｘ２
００、状態ビット４０は「Ｄ状態」に設定され、ｗａｙ
１のデータアレイ４２の内容をｗａｙ０にコピーしたも
のに対して書き込みを行った結果が、ｗａｙ０のデータ
アレイ４２に、ライトバッファ４７を介して、行われ
る。

【０１３１】同時に、ｗａｙ２のデータアレイ４２に対
しても、同じデータがライトバッファ４７を介して行わ
れる。図１７（Ｂ）には、これらが行われたあとの状態
が示されている。

【０１３２】さて、キャッシュライン４３のコピーや新
たなアドレスのデータをメインメモリ３８からフェッチ
する場合には、その時点で存在するキャッシュライン４
３のデータを置き換える必要が生じる。従来のキャッシ
ュメモリでは、この時点でランダムもしくは過去の参照
履歴に基づいて置き換えるキャッシュライン４３を決定
する。

【０１３３】これに対して、本実施例によるキャッシュ
メモリでは、後続スレッドが修正する前のデータを先行
スレッドが参照する必要が有るので、システム中の最先
行スレッドでなければ、「Ｄ状態」のデータアレイ４２
のメインメモリ３８への書き戻し動作を禁止する必要が
有る。

【０１３４】書き戻し禁止に伴い先行スレッドがキャッ
シュライン４３を確保できなくなることによるデッドロ
ックの発生を回避するため、１エントリ内で、最先行ス
レッドは、必ず１つのキャッシュライン４３を確保でき
るようにする。このため、後続スレッドがキャッシュラ
イン４３を確保できない場合には、先行スレッドの終了
を待つことになる。

【０１３５】スレッドの実行モデルとして、後続スレッ
ドから先行スレッドへの依存関係は定義しないモデルを
用いることによって、このような置き換えるキャッシュ
ライン４３に対して制約を付した場合においても、デッ
トロックを回避することが可能である。

【０１３６】上記したようなキャッシュ制御を行うこと
によって、本実施例においては、スレッド間の時間順序
関係を保ち、データの逆依存関係を、スレッド実行部３
４間で共有のキャッシュメモリを用いた場合にも、自動
的に解消することが実現される。但し、後続スレッドが
既に書き込んだり読み出したりするアドレスに対して、
先行スレッドが後に同一アドレスに書き込みを起こした
場合には、スレッド間の時間順序関係をこのままでは保
つことはできない。この場合には、スレッド間にソフト
ウェアによって同期をとる必要性が生じる。

【０１３７】

【実施例４】本発明の第４の実施例は、後続スレッドが
書き込みを行ったアドレスに対して、先行スレッドが書
き込みを行うような場合にも、後続スレッド側のキャッ
シュメモリには反映されない保証をハードウェアによっ
て行う拡張を、前記第１〜第３の実施例に対して行った
ものである。

【０１３８】本実施例に係るキャッシュメモリのキャッ
シュラインの一例を、図１８に示す。図１８を参照し
て、このキャッシュラインは、図４に示したキャッシュ
に対して、ライトマスク６２が追加されている。

【０１３９】ライトマスク６２は、データアレイ６１の
ワード単位か最小書き込み単位毎に設けられる。ライト
マスク６２は、キャッシュライン６３に新たにメモリも
しくは他のキャッシュからデータが格納された時にクリ
アされ、キャッシュライン６３が属するスレッドが書き
込みを行った場合には、好き込みを行ったワードもしく
は最小書き込み単位毎にセットされる。

【０１４０】さて、本実施例においても、前記第１の実
施例から第３の実施例で説明したように、スレッドの時
間順序関係を保つために、先行スレッドにおける書き込
みは、同一アドレスタグ６０の後続スレッドに属するキ
ャッシュライン６３のデータアレイ６１に対して反映さ
せる必要があり、そのための制御を行っている。

【０１４１】しかしながら、上記実施例においては、後
続スレッドが書き込みを行ったアドレスに対して、先行
スレッドが書き込みを行うような場合にも、後続スレッ
ド側のキャッシュメモリには反映されないという保証、
すなわち、複数スレッド間の書き込みの順序関係までは
保証していなかった。これらは、先行スレッドの書き込
みのデータを後続スレッドが読み出す時と同様にスレッ
ド間でソフトウェアを介在させた同期をとることが要求
される。

【０１４２】本実施例では、ライトマスク６２がセット
されている、ワードもしくは最小書き込み単位には、先
行スレッドからの書き込みを反映させない処理を、後続
スレッド側のキャッシュメモリによって行うことによっ
て、複数スレッド間の同一アドレスへの書き込みの時間
順序関係をキャッシュメモリの制御によって維持するこ
とが実現される。

【０１４３】以下、本実施例の動作の例として、図１９
〜図２２に示すキャッシュライン６３のデータアレイ６
１の状態の時の動作を説明する。なお、図１９、図２
０、図２１及び図２２は図面作成の都合で分図されたも
のである。

【０１４４】図１９を参照して、書き込み動作１（６
４）では、キャッシュラインが属するスレッド実行部に
よる書き込みで、０ｘ３００００番地に０ｘｆｆｆｆｆ
ｆｆｆが書き込まれる。

【０１４５】この動作が行われると、データアレイ６１
の０ｘ３００００番地の位置に、０ｘｆｆｆｆｆｆｆｆ
というデータが書き込まれると同時に、対応するライト
マスク６２がセットされる（図２０参照）。

【０１４６】次に、書き込み動作２（６５）は、０ｘ３
０００８番地に０ｘ０１２３４５６７というデータを先
行するスレッドが書き込んだ場合に、時間順序関係を保
つために行う動作を示す。

【０１４７】この場合、０ｘ３０００８番地に対応する
ライトマスク６２はセットされていないので、先行スレ
ッドの書き込み動作を反映し、データアレイ６１の０ｘ
３０００８番地の位置に、０ｘ０１２３４５６７という
データが書き込まれる（図２１参照）。

【０１４８】最後に書き込み動作３（６６）では、０ｘ
３００００番地に０ｘ００００００００というデータを
先行するスレッドが書き込んだ場合に、時間順序関係を
保つために行う動作を示す。この場合、０ｘ３００００
番地に対応するライトマスク６２はセットされているの
で、先行スレッドの書き込み動作を反映し、データアレ
イ６１の０ｘ３００００番地の位置には、先行スレッド
の書き込みは反映されない（図２２参照）。これは、ス
レッド間の時間順序関係の規定では、書き込み動作３
（６６）よりも、書き込み動作１（６４）のほうが、後
から起きる事象と規定されているためである。

【０１４９】

【実施例５】さらに本発明の第５の実施例として、並列
システムの動作モードを複数種類定義し切り替えること
を可能としている。本実施例に係るキャッシュの構成
は、前記第１〜第４の実施例のすべてのキャッシュメモ
リに対して適応可能である。

【０１５０】また前記第１〜第４の実施例におけるキャ
ッシュメモリでは、整合性維持機構が、スレッド管理ユ
ニットから受け取ったスレッド順序情報に基づいて、後
続スレッドのキャッシュに対してのみ書き込みを伝搬さ
せる制御を行う。

【０１５１】この書き込み伝搬制御を、同一アドレスを
保持するすべてのキャッシュメモリに対して行うよう
に、切り替えられるように拡張することによって、従来
のスレッド実行モデル、すなわちスレッド間の順序関係
はすべてソフトウェアによって保証して、複数スレッド
を実行するモデルの実行が可能になる。

【０１５２】以下、具体的に拡張方法を説明する。

【０１５３】まず、前記第１の実施例で示したバス結合
でスレッド実行部毎に分散型の整合性維持部を持ち、バ
ス結合された構成の並列システムについて説明する。

【０１５４】この場合、図２で示されるスレッド管理部
１から、整合性維持部４に対して、スレッドの順序を指
定しないという信号を、スレッド順序情報伝達バス１０
を介して伝える。このような情報が伝えられた場合に
は、整合性維持部４は、先行／後続スレッドによる制御
を行わない。すなわち、リードミス時には、図５のフロ
ーチャートにおいて先行スレッド判断は行わず（図５の
ステップ５０６の判断は行わない）、常に、Ｄ／ＤＳＭ
状態のキャッシュからデータの供給を受ける。

【０１５５】また、他のスレッドで書き込みが生じた場
合にも、図６に示す先行／後続の判断は行わず、自スレ
ッドのキャッシュに他のスレッド書き込みを反映させ
る。これらのモードの切り替えは、整合性維持機構４の
判断論理を各々１つを有効か無効かを切り替えるのみで
あり、ハードウェア的な拡張は最小規模に抑えられる。

【０１５６】次に、前記第２の実施例の拡張について説
明する。前記第２の実施例（図７参照）においては、整
合性維持機構２６はシステム中に共有で１つのみ存在す
る。バス結合方式と同様、従来スレッドモデルによる並
列処理を行う際には、スレッド管理部１９から、整合性
維持部２６に対して、スレッドの順序を指定しないとい
う信号を、スレッド順序情報伝達バス２５を介して伝え
る。この場合は、図９、図１０に示す先行スレッド／後
続スレッド判断を行わず、リード時にＤ状態のキャッシ
ュメモリ２１が存在すれば、そのキャッシュメモリ２１
からデータ転送を要求し、書き込みの際には共有するラ
インに書き込みデータを送信する。これらのモードの切
り替えも、バス結合の場合と同様、整合性維持機構４の
判断論理を各々１つを有効か無効かを切り替えるのみで
あり、ハードウェア的な拡張は最小規模に抑えることが
可能である。

【０１５７】前記第１の実施例については、従来スレッ
ドモデルによる並列処理を行う場合には、キャッシュは
全て共有として扱われる。すなわち、図１３で示したキ
ャッシュエントリ４４の、スレッドＩＤタグ３９の値を
比較する処理ステップを、図１４、図１５に示したフロ
ーチャートから外す。すなわち、要求アドレスとアドレ
スタグ４１の比較のみで、ヒット／ミスを判定する。

【０１５８】したがって、整合性維持部３６の判断論理
を各々１つを有効か無効かを切り替えるのみであり、ハ
ードウェア的な拡張は最小規模に抑えることが可能であ
る。また、この動作の場合、複数キャッシュライン４３
が同一アドレスのデータを持つことはなくなる。

【０１５９】

【実施例６】さらに本発明の第６の実施例においては、
要求するアドレスによって、前記第５の実施例を切り替
えることを行う。参照アドレスによってキャッシュのア
ルゴリズムを変えることは、ＴＬＢ（Ｔranslation Ｌo
okaside Ｂuffer）のエントリ毎に属性をつけることに
よって行う。これらは、例えば米ＭＩＰＳＴechnology
ＩＮＣ．社製のＲ４０００シリーズなどのプロセッサ
で公知の技術であり、これらの技術と、前記第５の実施
例を組み合わせることによって、この第６の実施例を実
現することが可能である。

【０１６０】以上、本発明の各種実施例を説明したが、
上記実施例は、本発明を限定するためのものでなく、本
発明は本発明の原理に準ずる各種実施形態及び変形を含
むこは勿論である。

【０１６１】

【発明の効果】以上説明したように本発明によれば、マ
イクロプロセッサで幅広く用いられているキャッシュメ
モリの整合性維持機能を拡張することによって、逐次的
な時間順序関係を持った複数スレッドが、同一のメモリ
空間を用いて、同時に実行するようなスレッド実行モデ
ルで、メモリ上のデータ逆依存関係をソフトウェア上か
らは隠蔽することを可能とし、これにより効率的な並列
実行を可能とする、という効果を奏する。

【０１６２】従来方式を拡張して同様の効果を達成しよ
うとした場合、専用のハードウェアが必要になり、ハー
ドウェアコストがかかるという問題があったが、本発明
によれば、キャッシュメモリを用いることによって、こ
の問題を解消している。

【０１６３】また、本発明によれば、キャッシュメモリ
を用いることによって、アドレスを示すビットのすべて
を比較する必要がなくなるという効果もあげられる。さ
らに、本発明においては、従来方式のスレッド並列実行
モデルとの共存が容易に行うことが可能になる。なお、
本発明では、データの正依存関係については、ハードウ
ェアによる解消を試みていないが、これは、並列処理本
質の問題点であり、ソフトウェアを含めた同期機構によ
って解消することとしてハードウェアの簡易化を実現し
いる。

【図面の簡単な説明】

【図１】本発明の原理を説明するスレッドの実行モデル
図である。

【図２】本発明の一実施例の構成を示すブロック図であ
る。

【図３】本発明の一実施例における整合性維持部の構成
の詳細を示すブロック図である。

【図４】本発明の一実施例におけるキャッシュメモリの
ライン構成を示すブロック図である。

【図５】本発明の一実施例における整合性維持部のリー
ドミス時の処理フローを説明するためのフローチャート
である。

【図６】本発明の一実施例における整合性維持部のライ
ト時の処理フローを説明するためのフローチャートであ
る。

【図７】本発明の第２の実施例の構成を示すブロック図
である。

【図８】本発明の第２の実施例におけるディレクトリテ
ーブル／メインメモリを示すブロック図である。

【図９】本発明の第２の実施例における整合性維持部の
リードミス時の処理フローを説明するためのフローチャ
ートである。

【図１０】本発明の第２の実施例における整合性維持部
のライト時の処理フローを説明するためのフローチャー
トである。

【図１１】本発明の第３の実施例の構成を示すブロック
図である。

【図１２】本発明の第３の実施例におけるキャッシュエ
ントリの構造を示すブロック図である。

【図１３】本発明の第３の実施例におけるキャッシュの
詳細構造を示すブロック図である。

【図１４】本発明の第３の実施例におけるプロトコルシ
ーケンサのリード時の処理フローを説明するためのフロ
ーチャートである。

【図１５】本発明の第３の実施例におけるプロトコルシ
ーケンサのライト時の処理フローを説明するためのフロ
ーチャートである。

【図１６】本発明の第３の実施例におけるキャッシュエ
ントリの状態例（１）を示す図である。

【図１７】本発明の第３の実施例におけるキャッシュエ
ントリの状態例（２）を示す図である。

【図１８】本発明の第４の実施例におけるキャッシュメ
モリのライン構成を示すブロック図である。

【図１９】本発明の第４の実施例におけるキャッシュメ
モリの動作例を示す図である。

【図２０】本発明の第４の実施例におけるキャッシュメ
モリの動作例を示す図である。

【図２１】本発明の第４の実施例におけるキャッシュメ
モリの動作例を示す図である。

【図２２】本発明の第４の実施例におけるキャッシュメ
モリの動作例を示す図である。

【図２３】従来のマルチスカラプロセッサ（Ｍultiscal
ar Ｐrocessor）の構成を示すブロック図である。

【図２４】従来のＳＰＳＭアーキテクチャにおけるスレ
ッド実行方法の概念図である。

【図２５】従来のマルチスケーラプロセッサ（Ｍultisc
alar Ｐrocessor）におけるＡＲＢの構成を示すブロッ
ク図である。

【図２６】従来のＭＳＩＳにおけるＯＳＣ制御部の構成
を示すブロック図である。

【符号の説明】

１スレッド管理部２スレッド実行部３キャッシュメモリ４整合性維持部５スレッド識別子格納部６共有バス７データバス８アドレスバス９制御信号バス１０スレッド順序情報伝達バス１１メインメモリ１２スレッド順序情報テーブル１３比較器１４整合性維持プロトコルシーケンサ１５状態ビット１６アドレスタグ１７データアレイ１８キャッシュライン１９スレッド管理部２０スレッド実行部２１キャッシュメモリ２２ネットワークインタフェース２３ネットワーク２４スレッド識別子格納部２５スレッド順序情報伝達バス２６整合性維持部２７ディレクトリテーブル２８メインメモリ２９状態ビット３０有効ビット３１不一致ビット３２メモリライン３３スレッド管理部３４スレッド実行部３５キャッシュメモリ３６整合性維持部３７スレッド順序情報伝達バス３８メインメモリ３９スレッドＩＤタグ４０状態ビット４１アドレスタグ４２データアレイ４３キャッシュライン４４キャッシュエントリ４５要求アービタ４６ライン間コピー部４７ライトバッファ４８ライトセレクタ４９状態比較器５０アドレス比較器５１プロトコルシーケンサ５２データセレクタ５３スレッド順序情報信号５４アクセス要求種別信号５５要求アドレス信号５６書き込みデータ５７読み出しデータ５８Ｈit／Ｍiss信号５９状態ビット６０アドレスタグ６１データアレイ６２ライトマスク６３キャッシュライン６４書き込み動作１６５書き込み動作２６６書き込み動作３６７シーケンサ６８プロセッシングユニット６９結合ネットワーク７０データバンク７１命令キャッシュ７２実行ユニット７３レジスタファイル７４ＡＲＢ（Ａddress Ｒesolution Ｂuffer）７５データキャッシュ７６シングルプログラム７７フューチャースレッド７８スレッド生成命令７９スレッド待ち合わせ命令８０ＡＲＢエントリ８１アドレス格納部８２ロードビット８３ストアビット８４ストア値格納部８５ステージ８６Ａctive ＡＲＢＷindow ８７処理要素８８Ｚキャッシュ８９デコーダ９０メモリ階層９１プルーニング・モニタ９２比較機構９３フェッチテーブル９７記憶テーブル９５エントリ９６記憶コミット機構

───────────────────────────────────────────────────── フロントページの続き (56)参考文献ＭａｎｏｊＦｒａｎｋｌｉｎ，”Ｍｕｌｔｉ−ＶｅｒｓｉｏｎＣａｃｈｅｓｆｏｒＭｕｌｔｉｓｃａｌａｒＰｒｏｃｅｓｓｏｒｓ”，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ１ｓｔＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍｐｕｔｉｎｇ，1995年 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 12/08 - 12/12 G06F 9/46 G06F 15/16 - 15/173

Claims

(57)【特許請求の範囲】

【請求項１】それぞれが固有のキャッシュメモリを有す
る複数のスレッド実行部と、前記複数のスレッド実行部
におけるスレッド実行を管理するスレッド管理手段と、
前記キャッシュメモリにおけるデータの整合性を維持す
る手段である整合性維持手段とを有する並列処理システ
ムであって、前記スレッド管理手段は、スレッドの時間順序関係に関
する情報を、前記整合性維持手段に対して送出するもの
であり、前記整合性維持手段は、あるスレッド実行部においてキ
ャッシュミス発生時に所望するデータを読み出す際に、
時間順序関係上、先行するスレッドを実行しているスレ
ッド実行部が有するキャッシュメモリにメインメモリと
不一致のデータがあれば、該不一致のデータを前記ある
スレッド実行部に転送し、一方、あるスレッド実行部が
データの書き込みを行う際に、時間順序関係上、後続す
るスレッドを実行しているスレッド実行部が有するキャ
ッシュメモリに同一アドレスのデータが保持されていれ
ば、該書き込みデータを、書き込みを行ったスレッド実
行部が有するキャッシュメモリと共に、前記後続するス
レッドを実行しているスレッド実行部が有するキャッシ
ュメモリにも書き込むことにより、データの整合性制御
を行うものである、ことを特徴とする、並列処理システム。
【請求項２】複数のスレッドにおいてスレッド間は逐次
的な実行順序関係を規定することによって、依存関係が
先行スレッドから後続スレッドの単一方向に規定される
ようなスレッド実行モデルを実行する並列処理システム
であって、前記スレッドを複数同時に実行するための複数のスレッ
ド実行部と前記複数のスレッド実行部間で共有される共
有メモリとを備え、前記スレッド実行部はそれぞれ、スレッド実行に伴うデ
ータの読み書きを高速に行うためのキャッシュメモリ
と、前記キャッシュメモリの整合性を制御する整合性維
持手段と、スレッド間の順序関係を伝達する手段とを備
えるものであり、前記各整合性維持手段の間はバスによって接続され、前記整合性維持手段は、自らに対応する前記スレッド実
行部が書き込み要求を行った際には、前記バスに書き込
みアドレスとスレッド識別の信号を放送するものであ
り、前記整合性維持手段は、前記バスを監視することによっ
て、先行するスレツドの書き込みが生じ、かつ、自らに
対応するキャッシュメモリが先行するスレッドの該書き
込みのアドレスと同一アドレスのラインを保持している
ことを検知した場合には、前記先行スレッドが書き込ん
だデータを取り込んで、自らに対応するキャッシュメモ
リに対して書き込み動作を行うものであり、前記各整合性維持手段は、後続するスレッドを実行して
いるスレッド実行部のキャッシュメモリがミスを起こし
た場合には、先行するスレッドを実行するスレッド実行
部からデータの供給を受ける動作を行うように制御し、逐次順序関係上、先行するスレッドを実行するスレッド
実行部が書き込んだデータは後続のスレッドを実行する
スレッド実行部が読み出し可能とし、後続のスレッドを実行するスレッド実行部が書き込んだ
データは先行のスレッドを実行するスレッド実行部に対
しては書き込みを行う前のデータを続み出す制御を行
い、後続スレッドを実行するスレッド実行部が書き込んだデ
ータは、先行スレッドが終了するまでは、前記共有メモ
リに書き戻さないように制御して、データの整合性制御
を行うものである、ことを特徴とする、並列処理システム。
【請求項３】複数のスレッドにおいてスレッド間は逐次
的な実行順序関係を規定することによって、依存関係が
先行スレッドから後続スレッドの単一方向に規定される
ようなスレッド実行モデルを実行する並列処理システム
であって、前記スレッドを複数同時に実行するための複数のスレッ
ド実行部と、前記複数のスレッド実行部間で共有される
共有メモリとを備え、前記複数のスレッド実行部と共有メモリとの間はネット
ワークにより結合されており、前記スレッド実行部は、それぞれ関連して設けられたキ
ャッシュメモリを備えるものであり、前記共有メモリに付随して、前記キャッシュメモリ間の
整合性維持のためのディレクトリと、整合性維持手段と
を備え、前記整合性維持手段は、スレッドの順序情報を得ること
によって逐次順序関係上、先行するスレッドを実行する
スレッド実行部が書き込んだデータは、後続のスレッド
を実行するスレッド実行部が読み出し可能とし、後続のスレッドを実行するスレッド実行部が書き込んだ
データは先行のスレッドを実行するスレッド実行部に対
しては書き込みを行う前のデータを読み出すように制御
し、後続スレッドを実行するスレッド実行部が書き込んだデ
ータは、先行スレッドが終了するまでは、前記共有メモ
リに書き戻さないように制御することによって、データ
の整合性制御を行うものである、ことを特徴とする並列処理システム。
【請求項４】複数のスレッドを同時ないし時分割で実行
する複数のスレッド実行部と、スレッド実行に伴うデータの読み書きを高速に行うため
の前記複数のスレッドで共有されるキャッシュメモリ
と、キャッシュメモリを制御する整合性維持手段と、を備え
た並列処理システムであって、前記キャッシュメモリには、同一のアドレスに対するデ
ータを複数のエントリで保持可能とし、各エントリ毎に
スレッドの順序関係を示す識別の情報を格納し、前記整合性維持手段は、逐次順序関係上、先行するスレ
ッドを実行するスレッド実行部が書き込んだデータにつ
いては後続のスレッドを実行するスレッド実行部が読み
出し可能となるように制御し、後続のスレッドを実行するスレッド実行部が書き込んだ
データについては先行のスレッドを実行するスレッド実
行部に対しては書き込みを行う前のデータを読み出す制
御を行うようにして、データの整合性制御を行うもので
ある、ことを特徴とする並列処理システム。
【請求項５】前記キャッシュメモリへの最小書き込み単
位毎に書き込み事象の発生を指示するフラグを備え、前記フラグは、対応するスレッド実行部が書き込みを行
った部分に対してセットされ、データを置き換えた時に
はリセットされ、先行スレッドが書き込み動作を行った際に、キャッシュ
メモリに格納された後続スレッドに関連するデータに対
して、その書き込み内容を反映させる動作を、前記フラ
グがセットされていない部分のみに対して行い、データ
の整合性制御を行う、請求項２〜４のいずれか一に記載
の並列処理システム。
【請求項６】請求項２〜４のいずれかひとつに記載され
た並列処理システムであって、実行中の複数スレッド間に逐次的な実行順序関係を規定
することによって、依存関係が先行スレッドから後続ス
レッドの単一方向に限定されるようなスレッド実行モデ
ルと、複数スレッド間で、共有メモリ上におけるデータ
依存関係を単一方向へ限定せずに、並列時に実行するス
レッド実行モデルとのいずれを並列処理システム上で実
行するかに応じて、前記整合性維持手段によりデータの整合性制御を行う
か、または、メモリへの書き込みを該書き込み対象のア
ドレスと同一アドレスのデータを保持するすべてのキャ
ッシュメモリに反映させることによりデータの整合性制
御を行うか、を切り替えることを特徴とする並列処理システム。
【請求項７】アドレス空間毎に前記整合性維持手段によ
りデータの整合性制御を行うか否かを指定するテーブル
を備え、登録したアドレス空間毎に、前記整合性維持手段により
データの整合性制御を行うか、または、メモリへの書き
込みを該書き込み対象のアドレスと同一アドレスのデー
タを保持するすべてのキャッシュメモリに反映させるこ
とによりデータの整合性制御を行うか、を切り替えるこ
とを特徴とする請求項６記載の並列処理システム。