JP2003030050A

JP2003030050A - マルチスレッド実行方法及び並列プロセッサシステム

Info

Publication number: JP2003030050A
Application number: JP2001218158A
Authority: JP
Inventors: Hiroshi Osawa; 拓大澤; Mitsufumi Shibayama; 充文柴山; Satoshi Matsushita; 智松下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-07-18
Filing date: 2001-07-18
Publication date: 2003-01-31
Anticipated expiration: 2021-07-18
Also published as: GB0216756D0; GB2382181B; JP3632635B2; US20030018684A1; US7082601B2; GB2382181A

Abstract

(57)【要約】【課題】プロセッサ資源の有効活用が可能でスレッド
並列度を高めることができるマルチスレッド実行方法及
び並列プロセッサシステムを提供する。【解決手段】単一のプログラムを複数のスレッドに分
割し複数のスレッド実行部1-0 〜1-3 で並列に実行する
並列プロセッサシステムにおいて、各スレッド実行部1-
0 〜1-3 をバス４で相互に接続し、個々のスレッド実行
部から任意の他のスレッド実行部への子スレッドのフォ
ークを可能にする。個々のスレッド実行部1-0 〜1-3
を、フォーク可能なフリー状態、スレッドを実行してい
るビジー状態、ターム後で確定前のスレッドを持つター
ム状態の３つの状態で管理する。新たなスレッドをフォ
ークする際、フリー状態のスレッド実行部が存在しない
場合、ターム状態のスレッド実行部が持つスレッドをそ
の直後の子スレッドへマージして当該スレッド実行部を
フリー状態にし、新たなスレッドをフォークする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は単一のプログラムを
複数のスレッドに分割して複数のプロセッサにより並列
に実行する並列プロセッサシステムに関し、特にターム
後で確定前のスレッドをもつプロセッサへのフォークを
可能にした並列プロセッサシステムに関する。

【０００２】

【従来の技術】単一のプログラムを並列プロセッサシス
テムで並列に処理する手法として、プログラムをスレッ
ドと呼ぶ命令流に分割して複数のプロセッサで並列に実
行するマルチスレッド実行方法があり、この方法を記載
した文献として、特開平１０−２７１０８号公報（以
下、文献１と称す）、「Ｏｎ−ＣｈｉｐＭｕｌｔｉｐ
ｒｏｃｅｓｓｏｒ指向制御並列アーキテクチャＭＵＳ
ＣＡＴの提案」（並列処理シンポジウムＪＳＰＰ９７論
文集、情報処理学会、ｐｐ．２２９−２３６、Ｍａｙ
１９９７）（以下、文献２と称す）、特開平１０−７８
８８０号公報（以下、文献３と称す）、「非数値計算プ
ログラムのスレッド間命令レベル並列を利用するプロセ
ッサ・アーキテクチャＳＫＹ」（並列処理シンポジウム
ＪＳＰＰ９８論文集、情報処理学会、ｐｐ．８７−９
４、平成１０年６月）（以下、文献４と称す）、「Ｍｕ
ｌｔｉｓｃａｌａｒＰｒｏｃｅｓｓｏｒ」（Ｇ．Ｓ．
Ｓｏｈｉ，Ｓ．Ｅ．ＢｒｅａｃｈａｎｄＴ．Ｎ．Ｖ
ｉｊａｙｋｕｍａｒ，Ｔｈｅ２２ｎｄＩｎｔｅｒｎ
ａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐ
ｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ，ＩＥＥＥＣｏ
ｍｐｕｔｅｒＳｏｃｉｅｔｙＰｒｅｓｓ，１９９５，
ページ４１４−４２５）（以下、文献５と称す）等があ
る。以下、これらの文献に記載された従来の技術につい
て説明する。

【０００３】一般にマルチスレッド実行方法において、
他のプロセッサ上に新たなスレッドを生成することを、
スレッドをフォーク（ｆｏｒｋ）すると言い、フォーク
動作を行った側のスレッドを親スレッド、生成された新
しいスレッドを子スレッド、スレッドをフォークする箇
所をフォーク点、子スレッドの先頭箇所をフォーク先ア
ドレスまたは子スレッドの開始点と呼ぶ。文献１〜４で
は、スレッドのフォークを指示するためにフォーク点に
フォーク命令が挿入される。フォーク命令にはフォーク
先アドレスが指定され、フォーク命令の実行によりその
フォーク先アドレスから始まる子スレッドが他プロセッ
サ上に生成され、子スレッドの実行が開始される。ま
た、スレッドの処理を終了させるターム（ｔｅｒｍ）命
令と呼ばれる命令が用意されており、各プロセッサはタ
ーム命令を実行することによりスレッドの処理を終了す
る。

【０００４】図１５にマルチスレッド実行方法の処理の
概要を示す。同図（ａ）は３つのスレッドＡ、Ｂ、Ｃに
分割された単一のプログラムを示す。このプログラムを
単一のプロセッサで処理する場合、同図（ｂ）に示すよ
うに１つのプロセッサＰＥがスレッドＡ、Ｂ、Ｃを順番
に処理していく。これに対して文献１〜５のマルチスレ
ッド実行方法では、同図（ｃ）に示すように、１つのプ
ロセッサＰＥ１にスレッドＡを実行させ、プロセッサＰ
Ｅ１でスレッドＡを実行している最中に、スレッドＡに
埋め込まれたフォーク命令によってスレッドＢを他のプ
ロセッサＰＥ２に生成し、プロセッサＰＥ２においてス
レッドＢを実行させる。また、プロセッサＰＥ２はスレ
ッドＢに埋め込まれたフォーク命令によってスレッドＣ
をプロセッサＰＥ３に生成する。プロセッサＰＥ１、Ｐ
Ｅ２はそれぞれスレッドＢ、Ｃの開始点の直前に埋め込
まれたターム命令によってスレッドの処理を終了し、プ
ロセッサＰＥ３はスレッドＣの最後の命令を実行する
と、その次の命令（一般にはシステムコール命令）を実
行する。このように複数のプロセッサでスレッドを同時
に並行して実行することにより、逐次処理に比べて性能
の向上が図られる。

【０００５】従来の他のマルチスレッド実行方法とし
て、図１５（ｄ）に示すように、スレッドＡを実行して
いるプロセッサＰＥ１からフォークを複数回行うことに
より、プロセッサＰＥ２にスレッドＢを、またプロセッ
サＰＥ３にスレッドＣをそれぞれ生成するマルチスレッ
ド実行方法も存在する。この図１５（ｄ）のモデルに対
して、同図（ｃ）に示したようにスレッドはその生存中
に高々１回に限って有効な子スレッドを生成することが
できるという制約を課したマルチスレッド実行方法をフ
ォーク１回モデルと呼ぶ。本発明はこのようなフォーク
１回モデルを前提とする。フォーク１回モデルでは、ス
レッド管理の大幅な簡略化が可能となり、現実的なハー
ドウェア規模でスレッド管理部のハードウェア化が実現
できる。また、個々のプロセッサは子スレッドを生成す
る他プロセッサが１プロセッサに限定される。このため
文献１〜４では、隣接するプロセッサを単方向にリング
状に接続した並列プロセッサシステムを使ってマルチス
レッド実行を行っている。

【０００６】従来の並列プロセッサシステムでは、個々
のプロセッサはフリー状態、ビジー状態の２種類の状態
で管理される。フリー状態は、プロセッサ資源が解放さ
れており、何時でも新たなスレッドの実行を開始できる
状態である。プロセッサを単方向にリング状に接続した
並列プロセッサシステムでは、或るプロセッサからフォ
ーク要求があった場合、その隣接プロセッサがフリー状
態である場合に限って子スレッドのフォークが行われ
る。フリー状態のプロセッサがスレッドの実行を開始す
るとビジー状態に遷移し、そのスレッドの実行が終了し
スレッド管理部で終了許可が得られるとフリー状態に戻
る。スレッド管理部で終了許可が得られることを条件と
しているのは、逐次的な実行順序関係を持つ複数のスレ
ッドを並列に実行する際、子スレッドは親スレッドが終
了しなければ終了できないという制約があり、この制約
をスレッドの生成、終了を管理するスレッド管理部で保
証するためである。

【０００７】子スレッドをフォークした場合、親スレッ
ドから子スレッドへのレジスタ継承が必要になる。この
レジスタ継承に関しては、一般に２通りの方式がある。
１つは、文献１〜３の並列プロセッサシステムで採用さ
れているように、親スレッドのフォーク時点のレジスタ
ファイルの内容だけを継承対象とし、フォーク後に更新
されたレジスタは継承しない方式である。もう１つは、
文献４、５の並列プロセッサシステムで採用されている
ように、フォーク後に更新されたレジスタも継承対象と
する方式である。前者をフォーク時レジスタ転送方式、
後者をフォーク後レジスタ転送方式と呼ぶ。

【０００８】マルチスレッド実行方法では、実行の確定
した先行スレッドを並列に実行することを基本とする
が、実際のプログラムでは実行の確定するスレッドが充
分に得られない場合も多い。また、動的に決定される依
存やコンパイラ解析能力の限界等により並列化率が低く
抑えられ所望の性能が得られない可能性が生じる。この
ためスレッド並列処理では、スレッド間の順序関係に起
因するメモリ依存関係に考慮し、プログラムの正しい実
行結果を保証しつつ、スレッド間の順序関係によらずに
スレッドの実行を並列に行うことで、プログラム実行を
高速化するというスレッド単位の非プログラム順序実行
が採用されている。

【０００９】スレッド単位の非プログラム順序実行にお
いても、正しいプログラムの実行結果を得るためには、
スレッドが含む命令間の依存関係の解消や保証が必要で
ある。しかしながら、命令単位の非プログラム順序実行
と同様に、特にメモリに関する正依存関係に対しては、
本質的にプログラム順序で実行する必要があり、かつ、
確定的にプログラム順序実行を行うと、非プログラム順
序実行の実行性能向上の効果が十分得られないという問
題がある。特に、スレッド単位の非プログラム順序実行
では、複数の命令からなるスレッド単位で、非プログラ
ム順序実行が妨げられるので、より問題は深刻である。
この問題への対応としては、命令単位の非プログラム順
序実行と同様に、データ依存投機実行が有効である。す
わなち、スレッドが含む命令間の正依存関係の有無が判
明するよりも以前に、正依存関係が存在しないと仮定し
て、投機的にスレッドの非プログラム順序実行を行う、
スレッド単位のデータ依存投機実行である。

【００１０】一方、メモリに関する逆依存関係及び出力
依存関係に対しては、命令単位の非プログラム順序実行
と同様に、ストア命令が書き込みを行うデータを、プロ
セッサに固有のバッファやメモリに一時的に格納するな
どの対応で、逆依存関係あるいは出力依存関係を解消し
て、非プログラム順序実行することが可能となる。

【００１１】例えば、それぞれが固有のキャッシュメモ
リを備える複数のプロセッサから構成される並列プロセ
ッサシステムにおけるスレッド並列処理に関して、例え
ば特許第３１３９３９２号公報（以下、文献６と称す）
に、メモリに関する逆依存関係及び出力依存関係を解消
するキャッシュメモリの制御方式が開示されている。ま
た、メモリに関する逆依存関係及び出力依存関係に加え
て、正依存関係にも対応するキャッシュメモリの制御方
式の例として、S.Gopal,T.N.Vijaykumar, J.E.Smith,
G.S.Sohi らによる論文 "Speculative Versioning Cach
e", In Proceedings of the 4th International Sympos
ium on High-Performance Computer Architecture,Febr
uary 1998. （以下、文献７と称す）がある。

【００１２】その他、文献２に記載のＭＵＳＣＡＴで
は、スレッド間の同期命令など、スレッドの並列動作を
柔軟に制御するための専用命令が数多く用意されてい
る。

【００１３】

【発明が解決しようとする課題】隣接するプロセッサを
単方向にリング状に接続した並列プロセッサシステムは
ハードウェアを簡素化できる利点を有するが、スレッド
の粒度が異なる場合などにプロセッサ資源を有効に利用
できず、スレッドの並列度が低下するという課題があ
る。図１６にその例を示す。同図（ａ）に示すように、
スレッドの粒度が比較的小さく略均一であると、スレッ
ドｔｈ０→スレッドｔｈ１→スレッドｔｈ２→スレッド
ｔｈ３と順次に子スレッドのフォークが行われ、最後の
プロセッサＰＥ３が子スレッドをフォークする時点で隣
接プロセッサＰＥ０がフリー状態になっている確率が高
い。このため、スレッドｔｈ３から子スレッドｔｈ４を
フォークできる。同様に、このスレッドｔｈ４から隣接
プロセッサＰＥ１に子スレッドｔｈ５をフォークでき、
高い並列度が確保できる。しかし、例えばスレッドｔｈ
０の粒度が他のスレッドに比べて大きいと、図１６
（ｂ）に示すように、プロセッサＰＥ３が子スレッドを
フォークする時点で隣接プロセッサＰＥ０はスレッドｔ
ｈ０を実行中で未だビジー状態にあるためフォークが行
えず、スレッドの並列度が低下する。

【００１４】他方、文献１の図３に示される並列化プロ
セッサシステムでは、複数のプロセッサを共通バスで相
互に接続することにより、個々のプロセッサから子スレ
ッドをフォークする他プロセッサを隣接プロセッサに限
定しない構成を採用している。しかし、個々のプロセッ
サの状態をフリー状態とビジー状態で管理し、フリー状
態のプロセッサの中から子スレッドをフォークするプロ
セッサを選択するようにしており、然も図１６（ｂ）の
プロセッサＰＥ１のように親スレッドｔｈ０が未だ終了
していないスレッドｔｈ１を実行しているプロセッサは
ビジー状態と管理している。従って、プロセッサＰＥ３
のスレッドｔｈ３からプロセッサＰＥ１に子スレッドを
フォークすることはできない。

【００１５】また、スレッドｔｈ１が投機スレッドの場
合、プロセッサＰＥ１の資源を解放する際にスレッドｔ
ｈ１の処理結果の取り扱いが問題となる。何故なら、ス
レッドｔｈ１は親スレッドｔｈ０から取り消される可能
性があり、スレッドｔｈ１の処理結果をメインメモリに
書き戻すことはできず、また、スレッドｔｈ２等のスレ
ッドｔｈ１の子スレッドはスレッドｔｈ１の処理結果を
引き継ぐ必要があるためスレッドｔｈ１の処理結果をキ
ャンセルすることはできないからである。

【００１６】本発明はこのような事情に鑑みて提案され
たものであり、その目的は、プロセッサ資源の有効活用
が可能でスレッド並列度を高めることができる新規なマ
ルチスレッド実行方法及び並列プロセッサシステムを提
供することにある。

【００１７】

【課題を解決するための手段】本発明は、単一のプログ
ラムを複数のスレッドに分割し複数のスレッド実行部で
並列に実行するマルチスレッド実行方法及び並列プロセ
ッサシステムにおいて、ターム後で確定前のスレッドを
持つスレッド実行部の前記スレッドをその直後の子スレ
ッドへマージし、前記スレッド実行部へ新たなスレッド
をフォークすることを基本とする。より具体的には、個
々のスレッド実行部を、フォーク可能なフリー状態、ス
レッドを実行しているビジー状態、ターム後で確定前の
スレッドを持つターム状態の３つの状態で管理し、新た
なスレッドをフォークする際、フリー状態のスレッド実
行部が存在しない場合、ターム状態のスレッド実行部が
持つスレッドをその直後の子スレッドへマージして当該
スレッド実行部をフリー状態にし、新たなスレッドをフ
ォークする。これにより、プロセッサ資源の有効活用が
可能になり、スレッド並列度を高めることができる。

【００１８】ターム後で確定前のスレッドの仮実行結果
の取り扱いに関しては、例えば、ターム状態のスレッド
実行部が持つスレッドをその直後の子スレッドへマージ
する際、ターム状態のスレッド実行部の仮実行用バッフ
ァに保存されている仮実行結果を前記子スレッドを実行
するスレッド実行部の仮実行用バッファへ転送すること
で対処する。また、より効率を高めるために、個々のス
レッド実行部毎に仮実行用バッファを兼ねるキャッシュ
メモリを備え、前記キャッシュメモリの各キャッシュラ
イン毎に、ターム後で確定前のスレッドが生成したデー
タと前記マージ後に新たに生成されたスレッドが生成し
たデータとを区別するバージョン情報を保持し、各スレ
ッド実行部のキャッシュメモリは、他のスレッド実行部
からのアクセスに対して、前記バージョン情報とスレッ
ドの逐次実行順序とを考慮した選択的な応答を行うこと
で対処する。また、各スレッド実行部で実行されるスレ
ッドが自身のキャッシュメモリに書き込みを行う際、書
き込み対象となるキャッシュラインのバージョン情報が
自スレッドのバージョンより古い場合、当該キャッシュ
ラインのバージョンが親スレッドの終了に応じて適宜変
更されて自スレッドのバージョンに一致するまで待ち合
わせを行うことで対処する。

【００１９】

【作用】ターム後で確定前のスレッドを持つスレッド実
行部は、従来の並列プロセッサシステムではビジー状態
として管理されていたが、本発明ではターム状態として
管理し、ビジー状態と区別する。そして、フリー状態の
スレッド実行部が１つも存在しない場合には、ターム状
態のスレッド実行部のスレッドをその直後の子スレッド
へマージすることにより、当該スレッド実行部をフリー
状態にし、新たなスレッドをフォークする。例えば図１
６（ｂ）と同様な状況を想定した図１の実行シーケンス
において、プロセッサＰＥ３が子スレッドをフォークす
る時点で他の全てのプロセッサＰＥ０、ＰＥ１、ＰＥ２
がビジー状態にあるため、従来の並列プロセッサシステ
ムではフォークは行えないが、本発明では、プロセッサ
ＰＥ１のターム後で確定前のスレッドｔｈ１をその直後
の子スレッドｔｈ２にマージすることにより、フリー状
態となったプロセッサＰＥ１にスレッドｔｈ３からスレ
ッドｔｈ４をフォークすることが可能になる。

【００２０】

【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。

【００２１】図２を参照すると、本発明の並列プロセッ
サシステムの一例は、４スレッド並列実行型プロセッサ
であり、４個のスレッド実行部１−ｉ（ｉ＝０〜３）が
第１のバス２及び第２のバス４に接続され、第１のバス
２にはスレッドの生成、終了を管理するスレッド管理部
３が接続され、第２のバス４には全てのスレッド実行部
１−ｉで共有のメモリ（メインメモリ）５が接続されて
いる。この例では、４スレッド並列実行型プロセッサを
取り上げたが、８スレッドや１６スレッドの並列実行型
プロセッサ等、一般にｎ（≧２）スレッド並列実行型プ
ロセッサに対して本発明は適用可能である。また、スレ
ッド実行部どうしを相互に接続する通信路（バス４）
は、本実施の形態では共通バス形式としたが、クロスバ
スイッチ等の他の種類の通信路を採用することも可能で
ある。なお、好ましくは、全てのスレッド実行部１−ｉ
はメモリ５及びスレッド管理部３と共に１つの半導体チ
ップ上に集積化される。

【００２２】各スレッド実行部１−ｉは、プロセッサを
含んでいる。各プロセッサは、プログラムカウンタ（以
下、ＰＣと称す）及びレジスタファイルを独立に有し、
ＰＣに従って、メモリ５中のスレッドの命令を同時にフ
ェッチ、解釈、実行する機能を有している。また、各ス
レッド実行部１−ｉは、スレッド実行の取り消し（キャ
ンセル）が可能なようにスレッドを仮実行状態で実行す
る機能を有している。仮実行状態でスレッドを実行した
際のそのスレッドの処理結果は、仮実行用バッファ（ｔ
ｅｍｐｏｒａｒｙｂｕｆｆｅｒ）に保存される。仮実
行用バッファとしては、それ専用のバッファを使用する
構成や、個々のプロセッサが独自に有するキャッシュメ
モリを仮実行用バッファとして兼ねる構成などが採用さ
れる。

【００２３】各スレッド実行部１−ｉは、スレッド管理
部３からバス２を通じてターゲットＰＣ値を伴うスレッ
ド開始要求が送信された時点で、スレッドの実行を仮実
行状態で開始する。この時点で当該スレッド実行部１−
ｉはビジー状態として管理される。スレッドの実行を終
了するスレッド実行部１−ｉは、スレッド管理部３に対
してバス２を通じてスレッド終了通知を送信する。この
スレッド終了通知は、当該スレッド実行部１−ｉが最古
親スレッドを実行していた場合にスレッド管理部３で受
理されて当該スレッド実行部１−ｉはフリー状態として
管理され、プロセッサ１−ｉにスレッド終了許可が返却
される。プロセッサ１−ｉはスレッド終了許可を受信し
た時点で仮実行状態を解き、スレッドの実行を終えてプ
ロセッサ資源を解放する。他方、スレッド終了通知を送
信したスレッド実行部１−ｉで実行されていたスレッド
が最古親スレッドでない場合、スレッド管理部３は当該
スレッド実行部１−ｉにスレッド終了許可を出さず、当
該スレッド実行部１−ｉをターム状態として管理する。
ターム状態のスレッド実行部１−ｉは、その親スレッド
が全て終了するか、または当該スレッド実行部１−ｉの
スレッドがその直後のスレッドにマージされた時点でフ
リー状態として管理される。

【００２４】各スレッド実行部１−ｉは、スレッド管理
部３を通じて、実行中の親スレッドに存在するフォーク
命令によって他のスレッド実行部１−ｊ（ｉ≠ｊ）に子
スレッドをフォークすることができる。本実施の形態で
は、各スレッド実行部１−ｉのフォーク先はその隣接す
るスレッド実行部にのみ限定されない。各スレッド実行
部１−ｉは、子スレッドのフォークを行う際、バス２を
通じてスレッド管理部３に対し、子スレッドのフォーク
先アドレス（開始ＰＣ値）を伴うフォーク要求を送信す
る。スレッド管理部３は、フォーク要求を受信すると、
他のスレッド実行部の状態に基づいて、他スレッド実行
部１−ｊに対するフォークが可能か否かを判定する。そ
の時点でフリー状態のスレッド実行部が存在していれば
直ちにフォーク可能である。また、その時点でフリー状
態のスレッド実行部が存在していなくてもターム状態の
スレッド実行部が存在していれば、ターム状態のスレッ
ド実行部のスレッドをその直後の子スレッドへマージす
ることによって、ターム状態のスレッド実行部をフリー
状態にすることでフォークが可能である。

【００２５】フォーク可能ならばフォーク先のスレッド
実行部１−ｊに対してフォーク先アドレスを伴うスレッ
ド開始要求を送信する一方、フォーク要求元のスレッド
実行部１−ｉに対しては、フォーク応答を返却する。フ
ォーク応答を受信したスレッド実行部１−ｉは、フォー
ク先のスレッド実行部１−ｊのレジスタファイルに対し
て、親スレッドのレジスタファイルの全内容をバス４を
通じてコピーするか、当該子スレッドで必要なレジスタ
の値だけをコピーすることにより、レジスタ継承を行
う。他方、スレッド実行部１−ｉからのフォーク要求
時、他スレッド実行部１−ｊに対するフォークが不可能
ならば、スレッド管理部３はその旨を要求元のスレッド
実行部１−ｉに通知する。スレッド実行部１−ｉは、例
えばフォークが可能になるまで処理を待ち合わせる。

【００２６】図３を参照すると、スレッド管理部３の一
例は、スレッド管理シーケンサ３０１とスレッド状態テ
ーブル３０２とから構成される。スレッド状態テーブル
３０２は、スレッド実行部１−ｉと１対１に対応する状
態エントリ３０３−ｉ、親スレッド実行部番号エントリ
３０４−ｉ及び子スレッド実行部番号エントリ３０５−
ｉを有する。個々の状態エントリ３０３−ｉは、対応す
るスレッド実行部１−ｉがビジー状態か、ターム状態
か、フリー状態かを記録するために使用される。個々の
親スレッド実行部番号エントリ３０４−ｉは、対応する
スレッド実行部１−ｉで実行中のスレッドの親スレッド
が実行されている他スレッド実行部の番号を示す。個々
の子スレッド実行部番号エントリ３０５−ｉは、対応す
るスレッド実行部１−ｉで実行中のスレッドの直後の子
スレッドが実行されている他スレッド実行部の番号を示
す。スレッド管理シーケンサ３０１は、このようなスレ
ッド状態テーブル３０２を用いて各スレッド実行部１−
ｉにおけるスレッド生成、スレッド終了を管理する。ス
レッド実行部１−ｉからフォーク要求、スレッド終了通
知を受信した際のスレッド管理シーケンサ３０１の処理
例を図４及び図５に示す。

【００２７】図４を参照すると、スレッド管理シーケン
サ３０１は、スレッド実行部１−ｉからフォーク要求を
受信すると、スレッド状態テーブル３０２を参照して、
フリー状態のスレッド実行部が存在するか否かを調べる
（ステップＳ１）。フリー状態のスレッド実行部が存在
した場合、その内から１つのスレッド実行部１−ｊを選
択し（ステップＳ２）、スレッド管理テーブル３０２を
更新する（ステップＳ３）。具体的には、ステップＳ２
で選択したスレッド実行部１−ｊに対応する状態エント
リ３０３−ｊをフリー状態からビジー状態に変更し、親
スレッド実行部番号エントリ３０４−ｊにフォーク要求
を行ったスレッド実行部１−ｉの番号を設定する。ま
た、フォーク要求を行ったスレッド実行部１−ｉに対応
する子スレッド実行部番号エントリ３０５−ｉに、ステ
ップＳ２で選択したスレッド実行部１−ｊの番号を設定
する。そして、フォーク要求に付随するフォーク先アド
レスを添えたスレッド開始要求をフォーク先のスレッド
実行部１−ｊに送信すると共に、要求元のスレッド実行
部１−ｉに対してフォーク応答を送信する（ステップＳ
４）。

【００２８】他方、フリー状態のスレッド実行部が１つ
も存在しなかった場合（ステップＳ１でＮＯ）、スレッ
ド管理部３は、スレッド状態テーブル３０２を参照し
て、ターム状態のスレッド実行部が存在するか否かを調
べる（ステップＳ５）。ターム状態のスレッド実行部が
１つも存在しない場合、子スレッドのフォークは物理的
に不可能なので、その旨をフォーク要求元のスレッド実
行部１−ｉへ送信する（ステップＳ８）。一方、ターム
状態のスレッド実行部が存在した場合、その内から１つ
のスレッド実行部１−ｊを選択し（ステップＳ６）、こ
の選択したスレッド実行部１−ｊのスレッドを当該スレ
ッドが生成した子スレッドへマージし、当該スレッド実
行部１−ｊをフリー状態とする（ステップＳ７）。そし
て、ステップＳ２〜Ｓ４を実行することにより、今回フ
リー状態にしたスレッド実行部に対する子スレッドのフ
ォークを可能にする。

【００２９】ステップＳ７の処理をより具体的に説明す
る。先ず、ステップＳ６で選択したスレッド実行部１−
ｊに対応する状態エントリ３０３−ｊをターム状態から
フリー状態に変更する。次に、子スレッド実行部番号エ
ントリ３０５−ｊに設定されている番号で特定されるス
レッド実行部１−ｋに対応する親スレッド実行部番号エ
ントリ３０４−ｋに、スレッド実行部１−ｊに対応する
親スレッド実行部番号エントリ３０３−ｊの内容を設定
する。次に、親スレッド実行部番号エントリ３０５−ｊ
に設定されている番号で特定されるスレッド実行部１−
ｍに対応する子スレッド実行部番号エントリ３０５−ｍ
に、スレッド実行部１−ｊに対応する子スレッド実行部
番号エントリ３０５−ｊの内容を設定する。最後に、ス
レッド実行部１−ｊに対応する子スレッド実行部番号エ
ントリ３０４−ｊをＮＵＬＬにする。これにより、スレ
ッドの管理上、スレッド実行部１−ｊのスレッドがその
直後の子スレッド実行部へマージされたことになる。

【００３０】図３でターム状態になっているスレッド実
行部１−１を例に説明すると、状態エントリ３０３−１
をターム状態からフリー状態に変更し、子スレッドを実
行しているスレッド実行部１−２の親スレッド実行部番
号エントリ３０４−２に親スレッド実行部番号エントリ
３０４−１の内容「０」を設定し、親スレッドを実行し
ているスレッド実行部１−０の子スレッド実行部番号エ
ントリ３０５−０に子スレッド実行部番号エントリ３０
５−１の内容「２」を設定し、子スレッド実行部番号エ
ントリ３０５−１の内容をＮＵＬＬにする。

【００３１】以上のような処理によって、スレッドの管
理上はスレッド実行部１−ｊのスレッドがその直後の子
スレッドへマージされたことになるわけであるが、スレ
ッド実行部１−ｊに残っている仮実行結果の取り扱いが
問題となる。この問題を解決する一つの方法は、スレッ
ド実行部１−ｊの仮実行バッファの内容を、バス４を通
じて、マージした子スレッドを実行しているスレッド実
行部の仮実行バッファに転送して格納し、スレッド実行
部１−ｊの仮実行バッファを解放することである。但
し、この方法はデータ転送に伴うオーバヘッドが大きい
ため、性能低下が懸念される。他の方法は、スレッド実
行部１−ｊの仮実行バッファにおいて、マージしたスレ
ッドの仮実行結果と、当該スレッド実行部１−ｊで新た
に実行される新スレッドの仮実行結果とを区別して管理
し、マージしたスレッドの仮実行結果はその子スレッド
に有効なデータとして扱うが、当該スレッド実行部１−
ｊで新たに実行された新スレッドの仮実行結果はマージ
したスレッドから当該新スレッドまでの間のスレッドで
は無効なデータとして扱う方法である。この後者の方法
については後に詳細な実施例を挙げて説明する。

【００３２】図５を参照すると、スレッド管理シーケン
サ３０１は、何れかのスレッド実行部１−ｉからスレッ
ド終了通知を受信すると、スレッド状態テーブル３０２
における当該スレッド実行部１−ｉに対応する親スレッ
ド実行部番号エントリ３０４−ｉがＮＵＬＬにクリアさ
れているか否かによって、当該スレッド実行部１−ｉで
実行中のスレッドの親スレッドが存在しているか否かを
判定する（ステップＳ１１）。親スレッドが存在してい
る場合、当該スレッド実行部１−ｉに対応する状態エン
トリ３０３−ｉをビジー状態からターム状態に更新する
（ステップＳ１２）。

【００３３】他方、親スレッドが存在していない場合、
ステップＳ１３でスレッド状態テーブル３０２を更新す
る。ここでは、当該スレッド実行部１−ｉに対応する状
態エントリ３０３−ｉをビジー状態からフリー状態に変
更し、その子スレッド実行部番号エントリ３０５−ｉが
ＮＵＬＬでなければその値で特定される子スレッドを実
行しているスレッド実行部１−ｊに対応する親スレッド
実行部番号エントリ３０４−ｊをＮＵＬＬにクリアし、
子スレッド実行部番号エントリ３０５−ｉもＮＵＬＬに
クリアする。また、親スレッド実行部番号エントリ３０
４−ｊをＮＵＬＬにしたスレッド実行部１−ｊの状態エ
ントリ３０３−ｊがターム状態なら、このスレッド実行
部１−ｊもフリー状態にする。具体的には、状態エント
リ３０３−ｊをフリー状態に設定し、その子スレッド実
行部番号エントリ３０５−ｊがＮＵＬＬでなければその
値で特定される子スレッドを実行しているスレッド実行
部１−ｋに対応する親スレッド実行部番号エントリ３０
４−ｋをＮＵＬＬにクリアし、子スレッド実行部番号エ
ントリ３０５−ｋもＮＵＬＬにクリアする。以下、同様
に親スレッドの終了によりフリー状態にできる全てのス
レッド実行部をフリー状態に変更する。そして、次のス
テップＳ１４では、フリー状態に変更した全てのスレッ
ド実行部に対してスレッド終了許可を送信する。

【００３４】例えば図３で、スレッド実行部１−０から
スレッド終了通知が出された場合、状態エントリ３０３
−０がフリー状態に変更され、子スレッドを実行してい
たスレッド実行部１−１の親スレッド実行部番号エント
リ３０４−１がＮＵＬＬに設定される。また、状態エン
トリ３０３−１がターム状態なので、状態エントリ３０
３−１がフリー状態に変更され、子スレッドを実行して
いるスレッド実行部１−２の親スレッド実行部番号エン
トリ３０４−１がＮＵＬＬに設定される。この場合、ス
レッド終了通知は、スレッド実行部１−０とスレッド実
行部１−１に送信される。

【００３５】以上のように本実施の形態によれば、個々
のスレッド実行部をフリー状態、ビジー状態、ターム状
態の３つの状態の何れかで管理し、何れかのスレッド実
行部から子スレッドのフォークが要求されたとき、フリ
ー状態のスレッド実行部が存在しなければ、ターム状態
のスレッド実行部で実行終了しているが未確定のスレッ
ドをその直後の子スレッドにマージすることによりフリ
ー状態のスレッド実行部を動的に生成し、そのスレッド
実行部に対するフォークを可能にしたことにより、プロ
セッサ資源の有効活用が可能になり、スレッド並列度を
高めることができる。

【００３６】次に、直後の子スレッドへマージされたス
レッドの仮実行結果を効率良く扱うことができる実施例
について詳細に説明する。なお、以下では、実行は終了
しているが親スレッドが未だ終了していない等により処
理が確定していないスレッドのことを、ｔｅｒｍ後で確
定前のスレッドと呼ぶ。また、ｔｅｒｍ後で確定前のス
レッドをもつプロセッサへのフォークを、空きフォーク
と呼ぶ。空きフォークは、ｔｅｒｍ後で確定前のスレッ
ドを直後の子スレッドへマージし、該フォークによる新
スレッドを実行することである。

【００３７】〔キャッシュメモリにおける問題点〕先
ず、個々のプロセッサが固有に備えるキャッシュメモリ
を仮実行用バッファとして兼用する場合の問題点を、ス
レッド実行シーケンス例を示す図６を参照して説明す
る。図６は以下のような実行シーケンスを示している。

【００３８】（１）プロセッサＰ０上のスレッドからプ
ロセッサＰｉにスレッドｔｈ０がフォークされ、このス
レッドｔｈ０からスレッドｃ００、ｃ０１、…、ｃ０ｎ
が順次に複数の他プロセッサ上にフォークされる。スレ
ッドｃ００〜ｃ０ｎは、スレッドｔｈ０から見て子スレ
ッドである。（２）スレッドｃ０ｎのフォーク時、プロセッサＰｉで
はスレッドｔｈ０はタームしているが、親スレッドがタ
ームしていないので、スレッドｔｈ０はｔｅｒｍ後で確
定前のスレッドである。このため、スレッドｔｈ０が直
後の子スレッドｃ００にマージされ、このマージにより
フリー状態となったプロセッサＰｉにスレッドｃ０ｎか
ら新スレッドｔｈ１がフォークされている。以後、この
新スレッドｔｈ１からスレッドｃ１０、ｃ１１、…、ｃ
１ｎが順次にフォークされる。スレッドｃ１０〜ｃ１ｎ
は、新スレッドｔｈ１から見て子スレッドである。（３）スレッドｃ１ｎのフォーク時、プロセッサＰｉで
はスレッドｔｈ１はタームしているが、親スレッドがタ
ームしていないので、スレッドｔｈ１はｔｅｒｍ後で確
定前のスレッドである。このため、スレッドｔｈ１が直
後の子スレッドｃ１０にマージされ、このマージにより
フリー状態となったプロセッサＰｉにスレッドｃ１ｎか
ら新スレッドｔｈ２がフォークされている。以後、この
新スレッドｔｈ２からスレッドｃ２０、ｃ２１、…、ｃ
２ｎが順次にフォークされる。スレッドｃ２０〜ｃ２ｎ
は、新スレッドｔｈ２から見て子スレッドである。（４）スレッドｃ２ｎのフォーク時、プロセッサＰｉで
はスレッドｔｈ２はタームしているが、親スレッドがタ
ームしていないので、スレッドｔｈ２はｔｅｒｍ後で確
定前のスレッドである。このため、スレッドｔｈ２が直
後の子スレッドｃ２０にマージされ、このマージにより
フリー状態となったプロセッサＰｉにスレッドｃ２ｎか
ら新スレッドｔｈ３がフォークされている。

【００３９】このようなシーケンスが実行されている場
合、ｔｅｒｍ後で確定前のスレッドｔｈ０が生成しプロ
セッサＰｉのキャッシュメモリ上に格納されているデー
タは、スレッドｔｈ０の子スレッドｃ００〜ｃ０ｎにと
って有効である。しかし、空きフォークにより生成され
たスレッドｔｈ１が生成しプロセッサＰｉのキャッシュ
メモリ上に格納されているデータは、スレッドｔｈ０か
らスレッドｔｈ１までのスレッドｔｈ０の子スレッドｃ
００〜ｃ０ｎに対しては、プログラム順序で後であるた
め、有効ではない。従って、スレッドｔｈ０が生成した
データとスレッドｔｈ１が生成したデータは、スレッド
ｃ００〜ｃ０ｎがすべてタームするまで区別する必要が
ある。同様にスレッドｔｈ２、ｔｈ３が生成したデータ
の区別も必要である。

【００４０】しかし、例えばスレッドｔｈ０は確定前な
ので、スレッドｔｈ０が生成したデータをメインメモリ
へ書き戻すことはできない。また、スレッドｔｈ０が生
成したデータを直後の子スレッドｃ００を実行するプロ
セッサのキャッシュメモリへ転送し格納する方法では、
そのオーバヘッドは大きく、性能低下等が発生するとい
う問題がある。

【００４１】〔解決する手段〕そこで、本実施例ではこ
の問題を以下のようにして解決する。１．同一キャッシュ上でデータの複数のバージョンを区
別し保持する。そのために、キャッシュライン毎にバー
ジョンを示す記憶手段（ｖｉｄ）を備え、キャッシュラ
イン毎にバージョンを管理する。新しいバージョンは、
空きフォークにより生成されて現在実行しているスレッ
ドがストア命令等で書き込みを行った場合に発生する。
それ以外では発生しない。例えば、プロセッサＰｉのキ
ャッシュ上に、スレッドｔｈ０が生成したバージョン、
スレッドｔｈ１が生成したバージョン、…、を区別して
保持する。

【００４２】２．他プロセッサ（他スレッド) からのア
クセスに対して、バージョンを参照して、スレッド順序
を考慮した選択的な応答を行う。例えば、スレッドｔｈ
０からスレッドｔｈ１までのスレッドｔｈ０の子スレッ
ドｃ００〜ｃ０ｎからのアクセスには、スレッドｔｈ０
のバージョンのキャッシュラインは応答するが、スレッ
ドｔｈ１以降のバージョンのキャッシュラインは応答し
ない。スレッドｔｈ１からスレッドｔｈ２までのスレッ
ドｔｈ１の子スレッドｃ１０〜ｃ１ｎからのアクセスに
は、スレッドｔｈ０，ｔｈ１のバージョンのキャッシュ
ラインは応答するが、スレッドｔｈ２以降のバージョン
のラインは応答しない。

【００４３】３．バージョンの区別が不要になった際に
バージョンの縮退を行う。例えば、スレッドｔｈ０から
スレッドｔｈ１までのスレッドｔｈ０の子スレッドｃ０
０〜ｃ０ｎがすべてタームしたら、スレッドｔｈ０のバ
ージョンとスレッドｔｈ１のバージョンの区別は不要な
ので、その時点でスレッドｔｈ０とスレッドｔｈ１のバ
ージョンを縮退する。

【００４４】４．バージョンを参照した選択的なスレッ
ド（データ) の確定を行う。例えば、スレッドｔｈ０が
確定した場合、スレッドｔｈ０のバージョンのキャッシ
ュラインのみを確定する。スレッドｔｈ１，ｔｈ２のバ
ージョンのラインは未確定（投機) のままである。

【００４５】５．同アドレスで異なるバージョンのキャ
ッシュラインの生成については、以下の３通りの方式の
何れかで対処することができる。ａ）；同アドレスで異なるバージョンのキャッシュライ
ンの生成を許可する。この場合、バージョンの縮退時に
複数の（同バージョンで) 同アドレスのラインが発生し
てしまう場合がある。そのため縮退時に、縮退の対象の
バージョンのうち、古いバージョンのラインを無効化す
る処理を行う。ｂ）；同アドレスで異なるバージョンのキャッシュライ
ンを生成しない。空きフォークにより生成されたスレッ
ドが書き込みを行う際に、その対象のラインが古いバー
ジョンをもち、かつ自プロセッサが前に書き込みを行っ
たライン（dirty なライン）の場合、前記古いバージョ
ンが現在のバージョンに縮退されるまで書き込みの実行
を遅らせて、複数のバージョンの発生を回避する。ｃ）；ｂと同様に同アドレスで異なるバージョンのキャ
ッシュラインを生成しないが、空きフォークにより生成
されたスレッドが書き込みを行う際に、その対象のライ
ンが古いバージョンをもつdirty なラインの場合、該ラ
インを直後の子スレッドを実行するプロセッサのキャッ
シュメモリに転送後、該ラインを無効化し、その後書き
込みを実行することで、複数のバージョンの発生を回避
する。ｄ）；ｂと同様に同アドレスで異なるバージョンのキャ
ッシュラインを生成しないが、空きフォークにより生成
されたスレッドが書き込みを行う際に、その対象のライ
ンが古いバージョンをもつdirty なラインの場合、その
まま書き込みを実行するとともに、前記古いバージョン
のデータを破棄したこと記憶しておくことで、複数のバ
ージョンの発生を回避する。前記破棄した古いバージョ
ンのデータに対して、他のプロセッサからアクセスがあ
った場合には、前記破棄した古いバージョンのデータを
生成したスレッド及びそのスレッドのすべての子スレッ
ドの実行を取り消し、その後取り消したスレッドの再実
行を行うことで、データの依存関係を保証する。本方式
は、例えばキャッシュライン毎に古いバージョンのデー
タを破棄した旨を示す記憶手段を備えることで実現でき
る。

【００４６】〔実施例〕以上のような方針に添った実施
例の概略を示せば以下のようになる。

【００４７】先ず、キャッシュラインは、有効フラグ、
変更フラグ、アドレスタグ、データエントリ等に加え
て、少なくともデータのバージョンを示すバージョン識
別子ｖｉｄを備える。バージョン識別子ｖｉｄは自プロ
セッサを除くマルチプロセッサシステムが備えるプロセ
ッサ数分のビット数をもち、それぞれが自プロセッサを
除く他プロセッサに対応する。

【００４８】ストア命令等の書き込みを行った場合、そ
の対象ラインのバージョン識別子ｖｉｄがセットされ
る。セットされるビットは、マージされたスレッドを除
く該スレッドのすべての親スレッドを実行するプロセッ
サに対応するビットであり、それ以外のビットはリセッ
トされる。

【００４９】あるスレッドがタームした場合、該スレッ
ドを実行していたプロセッサを除くすべてのプロセッサ
のキャッシュメモリのすべてのキャッシュラインのバー
ジョン識別子ｖｉｄにおいて、該スレッドを実行してい
たプロセッサに対応するビットをリセットする。この処
理は、例えばバージョン識別子ｖｉｄを一括リセット機
能付きメモリセルで構成することで容易に実現できる。

【００５０】すわなち、バージョン識別子ｖｉｄはその
時点での、自キャッシュラインを生成したスレッドのす
べての親スレッドのうち、いまだタームしていない親ス
レッドを実行するプロセッサを示している。あるプロセ
ッサＰｉ上で実行された２つのスレッドにより生成され
た異なるバージョンのキャッシュラインは、その２つの
スレッドのプログラム順序上で間のスレッドがすべてタ
ームした時点で、バージョン識別子ｖｉｄは同じバージ
ョンを示し、すなわち、縮退が行われたことになる。

【００５１】他プロセッサから自キャッシュメモリにア
クセスがあった場合にキャッシュヒットしたとき、バー
ジョン識別子ｖｉｄが参照される。バージョン識別子ｖ
ｉｄの前記他プロセッサに対応するビットがセットされ
ている場合、自キャッシュラインにとっての親スレッド
からのアクセスと判断できる。その場合、自キャッシュ
ラインのデータはプログラム順序で後に位置し有効では
ないので、前記アクセスに対して自キャッシュメモリか
らは応答しない。

【００５２】一方、バージョン識別子ｖｉｄの前記他プ
ロセッサに対応するビットがリセットされている場合、
自キャッシュラインにとっての子スレッドからのアクセ
スと判断できる。その場合、自キャッシュラインのデー
タはプログラム順序で前に位置し有効であるので、前記
アクセスに対して自キャッシュメモリから適切な応答処
理を行う。

【００５３】前記タームによるバージョン識別子ｖｉｄ
のリセットで、バージョン識別子ｖｉｄのすべてのビッ
トがリセットされた場合、自キャッシュラインのデータ
は少なくとも確定することになる。すなわち、バージョ
ン識別子ｖｉｄのすべてのビットがリセットされている
キャッシュラインのデータは、メインメモリ等に書き戻
すことができる。

【００５４】〔具体例〕次に図７を参照して、４つのプ
ロセッサＰ０〜Ｐ３からなるマルチプロセッサシステム
において、プロセッサＰ１に注目して本実施例の具体例
を示す。

【００５５】図７の（１）において、プロセッサＰ１上
で実行されているスレッドｔｈ０において、アドレスＡ
に対するストア命令（ｓｔＡ）が実行され、アドレスＡ
のキャッシュラインのバージョンは１００となる。図
中" Ａ、１００" はアドレスがＡでバージョン識別子ｖ
ｉｄの値が１００であることを示す。バージョン識別子
ｖｉｄのそれぞれのビットは左からそれぞれプロセッサ
Ｐ０、Ｐ２、Ｐ３に対応する。すなわち、この時点でス
レッドｔｈ０に対してプロセッサＰ０のみで親スレッド
が実行されているのでバージョン識別子ｖｉｄには１０
０が設定される。

【００５６】図７の（２）において、プロセッサＰ１で
スレッドｔｈ０のターム後、スレッドｃ０１から空きフ
ォークによりスレッドｔｈ１が生成される。スレッドｔ
ｈ０はスレッドｃ００にマージされる。このマージによ
ってデータの転送等の処理は発生しないので、従って、
空きフォークのオーバヘッドは小さい。

【００５７】図７の（３）において、スレッドｔｈ１で
アドレスＢに対するストア命令が実行される。スレッド
ｔｈ１の親スレッドはプロセッサＰ０、Ｐ２、Ｐ３で実
行されているので、アドレスＢのキャッシュラインのバ
ージョンは１１１（図中”Ｂ，１１１”）となる。

【００５８】図７の（４）において、プロセッサＰ３で
実行されているスレッドｃ０１で、アドレスＡに対する
ロード命令（ｌｄＡ）、続いてアドレスＢに対するロー
ド命令（ｌｄＢ）が実行される。ここで上記２つのロー
ド命令ともプロセッサＰ３のキャッシュメモリにミスす
るとすると、プロセッサＰ１のキャッシュメモリもアク
セスされる。プロセッサＰ１のキャッシュメモリに対す
るアクセスにおいてヒットすると、まずアドレスＡに対
してはバージョン識別子ｖｉｄが１００であるため、ス
レッドｃ０１はアドレスＡのキャッシュラインのバージ
ョンを生成したスレッドｔｈ０にとっての子スレッドで
あることが判明し、当該アクセスに対してデータの転送
等のヒット時の応答処理が行われる。一方、アドレスＢ
に対するアクセスにおいては、アドレスＢのキャッシュ
ラインのバージョン識別子ｖｉｄは１１１であるため、
スレッドｃ０１はアドレスＢのキャッシュラインを生成
したスレッドｔｈ１の親スレッドであることが判明し、
当該アクセスに対しては応答しない。このように、他プ
ロセッサからのアクセスに対して、バージョン識別子vi
d を参照するのみで、バージョンを考慮した選択的な応
答を容易に行うことができる。

【００５９】図７の（５）において、プロセッサＰ３で
実行されていたスレッドｃ０１がタームし、その旨がプ
ロセッサＰ１にも通知される。これにより、プロセッサ
Ｐ１のキャッシュメモリの全キャッシュラインのバージ
ョン識別子ｖｉｄにおいて、プロセッサＰ３に対応する
ビットがリセットされる。アドレスＡ及びアドレスＢの
キャッシュラインも該当ビットがリセットされ、それぞ
れ１００及び１１０になる。

【００６０】図７の（６）において、スレッドｔｈ１か
らプロセッサＰ３に空きフォークが実行され、プロセッ
サＰ３において、スレッドｃ１０が生成される。これに
よりタームしたスレッドｃ０１はスレッドｔｈ１にマー
ジされる。

【００６１】図７の（７）において、プロセッサＰ３で
実行されているスレッドｃ１０で、アドレスＡに対する
ロード命令（ｌｄＡ）、続いてアドレスＢに対するロー
ド命令（ｌｄＢ）が実行される。ここで上記２つのロー
ド命令ともプロセッサＰ３のキャッシュメモリにミスす
るとすると、プロセッサＰ１のキャッシュメモリもアク
セスされる。この場合、プロセッサＰ１のキャッシュメ
モリにおいてヒットすると、アドレスＡのラインのバー
ジョン識別子ｖｉｄは１００、アドレスＢのラインのバ
ージョン識別子ｖｉｄは１１０であるので、共にスレッ
ドｃ１０は子スレッドであることが判明し、今度は共に
当該アクセスに対して応答することになる。このよう
に、他プロセッサからのアクセスに対して、バージョン
識別子ｖｉｄを参照するのみで、バージョンを考慮した
選択的な応答が行われた。

【００６２】図７の（８）において、プロセッサＰ１に
おいて、スレッドｔｈ１のターム後、スレッドｃ１０か
ら空きフォークが実行され、スレッドｔｈ２が生成され
る。スレッドｔｈ１はスレッドｃ１０にマージされる。

【００６３】図７の（９）において、プロセッサＰ２で
実行されていたスレッドｃ００がタームし、その旨がプ
ロセッサＰ１にも通知される。これにより、プロセッサ
Ｐ１のキャッシュメモリの全キャッシュラインのバージ
ョン識別子ｖｉｄにおいて、プロセッサＰ２に対応する
ビットがリセットされる。アドレスＡ及びアドレスＢの
キャッシュラインも該当ビットがリセットされ、それぞ
れ１００及び１００になる。すなわち、上記２つのライ
ンは同じバージョンを持つことになる。これは、アドレ
スＡのバージョンを生成したスレッドｔｈ０からアドレ
スＢのバージョンを生成したスレッドｔｈ１までの間の
スレッドｃ００及びｃ０１がこの時点ですべてターム
し、前記２つのバージョンを区別する必要が無くなった
為、スレッドｔｈ０のバージョンがスレッドｔｈ１のバ
ージョンに縮退されたことに対応する。このように、バ
ージョンの区別が不要になった際のバージョンの縮退が
容易であることも本実施例の特徴である。

【００６４】図７の（１０）において、スレッドｔｈ２
でアドレスＣに対するストア命令（ｓｔＣ）が実行され
る。スレッドｔｈ２の親スレッドはプロセッサＰ０、Ｐ
３で実行されているので、アドレスＣのキャッシュライ
ンのバージョン識別子ｖｉｄは１０１にセットされる。

【００６５】図７の（１１）において、プロセッサＰ０
において実行されていたスレッドがタームし、それによ
り、プロセッサＰ１のキャッシュメモリの全キャッシュ
ラインのバージョン識別子ｖｉｄにおいて、プロセッサ
Ｐ０に対応するビットがリセットされる。アドレスＡ，
Ｂ，Ｃのキャッシュラインも該当ビットがリセットさ
れ、それぞれ０００、０００及び００１になる。すなわ
ち、アドレスＡ及びＢのラインは、バージョン識別子ｖ
ｉｄがすべてリセットされ、データが確定したことが判
明する。これは、それぞれのバージョンを生成したスレ
ッドｔｈ０及びｔｈ１が、その時点で最も古い親のスレ
ッドになったことに対応する。一方、アドレスＣのライ
ンのバージョン識別子ｖｉｄは００１であり、アドレス
Ｃのバージョンを生成したスレッドｔｈ２にとっての親
スレッドｃ１０がプロセッサＰ３に存在していて、デー
タが確定していないことがわかる。このように、本実施
例によれば、バージョン識別子ｖｉｄを参照するのみ
で、バージョンを考慮した選択的なキャッシュラインの
確定判定を容易に行うことができる。

【００６６】〔本実施例の効果〕このように本実施例に
よれば、１つのキャッシュメモリ上に複数のデータのバ
ージョンを管理することにより、スレッドのマージ、空
きフォーク時にデータの転送等のオーバヘッドが生じ
ず、高速なスレッド並列処理が実現できる。

【００６７】また、バージョンをその時点での親スレッ
ドを実行するプロセッサで表現することにより、アクセ
スに対するバージョンを考慮した選択的な応答、バージ
ョンの縮退、バージョンを考慮した選択的な確定処理、
等のデータ依存解消処理を容易、低オーバヘッドかつ高
速に実現できる。

【００６８】また、他スレッドのタームに応じて、バー
ジョン識別子ｖｉｄが適切に変更され、バージョンの縮
退が行われるので、空きフォークの回数に制限が存在し
ない。

【００６９】また、上記した選択的なアクセス応答や確
定処理に必要な情報はすべてバージョン識別子ｖｉｄに
記憶されている為、以前にタームし未確定のスレッドや
そのマージ、スレッド順序関係などの情報を別に記憶・
管理する必要がない。

【００７０】〔適用例〕次に、上述したキャッシュメモ
リの制御方法を図２の並列プロセッサシステムに適用し
た例について図面を参照しながら詳細に説明する。

【００７１】図８はスレッド実行部１−ｉの構成を示す
ブロック図である。図８を参照すると、スレッド実行部
１−ｉは、プロセッサ１０とキャッシュメモリ１１とキ
ャッシュ制御部１２とを含み、プロセッサ１０はバス２
に接続され、キャッシュ制御部１２はバス４に接続され
ている。バス４は、キャッシュ制御に関連するバスとし
て、要求バス１３、応答バス１４、データバス１５を含
んでいる。

【００７２】プロセッサ１０は、キャッシュメモリ１１
及びキャッシュ制御部１２と接続され、他のスレッド実
行部のプロセッサと並列にスレッドを実行する。プロセ
ッサ１０とスレッド管理部３及び他のスレッド実行部の
プロセッサとはバス２により接続され、スレッドの生
成、スレッド実行の終了や取り消し、スレッド間の順序
関係、等のスレッド実行に関する制御情報が伝達され
る。プロセッサ１０は、バス２により伝達されるスレッ
ド制御情報を参照して、自身が実行しているスレッドと
他のプロセッサが実行しているスレッドとの順序関係を
知ることができる。

【００７３】キャッシュ制御部１２は、要求バス１３、
応答バス１４及びデータバス１５を通じて、他のプロセ
ッサ及びメインメモリ５とメモリ操作命令が対象とする
メモリデータの受渡しを制御する。このとき、プロセッ
サより通知されるスレッドの順序関係を参照し、メモリ
に関する正依存関係、逆依存関係、及び出力依存関係を
考慮して、メモリデータ間の整合性の維持を図る。要求
バス１３、応答バス１４、データバス１５はそれぞれ一
本のバスを各プロセッサで共有してもよいし、プロセッ
サ数分だけ固有のバスを備えてもよい。以下では、要求
バス１３、応答バス１４、及びデータバス１５を総称し
て単にバスとも表記する。

【００７４】図９は、キャッシュメモリ１１を構成する
キャッシュラインの詳細を示す説明図である。一つのキ
ャッシュラインは、アドレスタグ２５によって示される
アドレス範囲にあるデータを保持する。図９を参照する
と、キャッシュメモリを構成するキャッシュラインは、
有効フラグ２０、変更フラグ２１、共有フラグ２２、投
機フラグ２３、更新フラグ２４、アドレスタグ２５、複
数のデータエントリ２６、複数のストア・フラグ２７、
複数の投機ロード・フラグ２８、バージョン識別子（ｖ
ｉｄ）２９、から構成される。

【００７５】有効フラグ２０は、そのキャッシュライン
が有効であることを示す。有効フラグ２０は、キャッシ
ュミスが発生した時など、データをキャッシュメモリに
転送し、キャッシュラインを生成する（リフィルする）
際にセットし、キャッシュラインを入れ換える時など、
キャッシュラインを無効化する際にリセットする。

【００７６】変更フラグ２１は、そのキャッシュライン
のデータをストア命令等で変更しており、メインメモリ
にあるデータと異なっている（ｄｉｒｔｙ）ことを示
す。変更フラグ２１は、ストア命令等のデータの書き込
みを実行した際にセットし、キャッシュラインのメイン
メモリへの書き戻し（ライトバック）を行った際にリセ
ットする。

【００７７】共有フラグ２２は、そのキャッシュライン
と同アドレスのキャッシュラインを、他のプロセッサに
固有のキャッシュメモリも保持し、データを共有してい
ることを示す。本実施例による共有フラグは、並列プロ
セッサシステムが備えるプロセッサ数分のフラグを備え
ている。すなわち、それぞれのフラグ部分が各プロセッ
サに対応しており、フラグがセットされている場合、該
フラグに対応するプロセッサとデータを共有しているこ
とを示し、フラグがリセットされている場合、該フラグ
に対応するプロセッサとデータを共有していないことを
示す。したがって、共有フラグ２２を参照すると、共有
対象のプロセッサを特定することが可能である。共有フ
ラグ２２はバスアクセスが行われた際にセットまたはリ
セットされる。詳細には、あるプロセッサがキャッシュ
制御部１２を通じてバスアクセスを行った際には、全て
のプロセッサのキャッシュ制御部１２には、応答バス１
４を通じてすべてのキャッシュメモリ１１のキャッシュ
ライン状態が通知される。このとき、どのプロセッサと
共有しているかが判明するので、共有フラグ２２を構成
するフラグのうち、共有しているプロセッサに対応する
フラグをセットし、共有していないプロセッサに対応す
るフラグをリセットする。

【００７８】投機フラグ２３は、そのキャッシュライン
のデータが投機的なデータを含んでいることを示す。本
実施例による投機フラグは、並列プロセッサシステムが
備えるプロセッサ数分のフラグを備えている。すなわ
ち、それぞれのフラグ部分が各プロセッサに対応してお
り、フラグがセットされている場合、該フラグに対応す
るプロセッサが、データが投機的である原因であること
を示す。したがって、投機フラグ２３を参照すると、該
キャッシュラインのデータを投機的にならしめた原因の
プロセッサを特定することが可能である。投機フラグ２
３は、キャッシュラインをリフィルする際、他のプロセ
ッサのキャッシュメモリが保持している投機的なキャッ
シュラインからリフィル・データを得た場合、投機フラ
グ２３の前記他のプロセッサに対応するフラグをセット
する。また、自プロセッサが実行するスレッド（以下で
は、自スレッドと表記する）が含む投機的なストア命令
により、投機的なデータでキャッシュラインを更新した
場合、投機フラグ２３の自プロセッサに対応するフラグ
をセットする。また、プログラム順序で先行するスレッ
ド（親スレッド）が含む投機的なストア命令により、投
機的なデータでキャッシュラインを更新した場合、投機
フラグ２３の前記親スレッドを実行するプロセッサに対
応するフラグ部分をセットする。一方、投機フラグ２３
は、自スレッドの投機的な実行が確定して、そのキャッ
シュラインのデータが確定した際にリセットされる。

【００７９】更新フラグ２４は、プログラム順序で後に
位置するスレッド（子スレッド）により、そのキャッシ
ュラインのデータが更新されたことを示す。すなわち、
そのキャッシュラインのデータは、該プロセッサが実行
する現スレッドには有効であるが、該プロセッサに次に
割り当てられるスレッドには有効でない可能性があるこ
とを意味する。更新フラグ２４は、１ビットの更新有効
フラグ２４ａと、並列プロセッサシステムが備える、自
プロセッサを除くプロセッサ数ビット分の更新対象フラ
グ２４ｂとから構成される。更新有効フラグ２４ａは更
新フラグ２４全体が有効であることを示す。スレッドが
終了した際には、すべての更新有効フラグ２４ａがセッ
トされるが、別の実施例として、更新対象フラグ２４ｂ
のいずれかがセットされている更新フラグ２４の更新有
効フラグ２４ａのみをセットしてもよい。更新有効フラ
グ２４ａがセットされていて、かつ、更新対象フラグ２
４ｂのいずれかがセットされている場合、当該キャッシ
ュラインは次に実行されるスレッドでは有効でない可能
性があることが示される。実際に当該キャッシュライン
が有効か否かは、キャッシュミス時などに伴うバス要求
の入出力時にキャッシュ制御部どうしで交換されるキャ
ッシュライン状態によって調べられ、若し有効であれば
更新対象フラグ２４ｂと共に更新有効フラグ２４ａがリ
セットされる。他方、更新有効フラグ２４ａがリセット
されているか、更新対象フラグ２４ｂの全てがリセット
されていれば、当該キャッシュラインは次に実行される
スレッドでも有効であることが示される。各更新対象フ
ラグ２４ｂは、それぞれが他のプロセッサに対応し、対
応するプロセッサにより該キャッシュラインが更新され
たことを示す。

【００８０】データエントリ２６は、そのキャッシュラ
インのメモリデータを保持する。通常、一つのキャッシ
ュラインは、アドレスタグ２５が指定するアドレス範囲
を構成する複数のデータエントリを備え、それぞれのデ
ータエントリは、ストア命令等による書き込みの最小の
データ単位である。図９においては、複数のデータエン
トリ２６のそれぞれをデータエントリ２６ａ、データエ
ントリ２６ｂ、データエントリ２６ｃ、データエントリ
２６ｄ、…、と表記して区別している。

【００８１】ストア・フラグ２７は、対応するデータエ
ントリに、自プロセッサがストア命令などで書き込みを
行ったことを示す。図９においては、ストア・フラグ２
７ａはデータエントリ２６ａに、ストア・フラグ２７ｂ
はデータエントリ２６ｂに、ストア・フラグ２７ｃはデ
ータエントリ２６ｃに、ストア・フラグ２７ｄはデータ
エントリ２６ｄに、それぞれ対応する。ストア・フラグ
は自プロセッサが書き込みを行った際にセットし、スレ
ッドの実行が終了した際にリセットされる。

【００８２】投機ロード・フラグ２８は、対応するデー
タエントリに、自プロセッサが投機的な読み出しを行っ
たことを示す。図９においては、投機ロード・フラグ２
８ａはデータエントリ２６ａに、投機ロード・フラグ２
８ｂはデータエントリ２６ｂに、投機ロード・フラグ２
８ｃはデータエントリ２６ｃに、投機ロード・フラグ２
８ｄはデータエントリ２６ｄに、それぞれ対応する。投
機ロード・フラグは投機的な読み出しを行い、かつ読み
出し対象のデータに対して先に書き込みを行っていな
い、すなわち対応するストア・フラグ２７がセットされ
ていないならばセットされる。一方、スレッドの投機実
行が確定した際にはリセットされる。

【００８３】図９に示したキャッシュラインの実施例で
は、書き込みの最小データ単位に対応するデータエント
リ２６ａ、２６ｂ、…、のそれぞれに固有のストア・フ
ラグ２７ａ、２７ｂ、…、及び投機ロード・フラグ２８
ａ、２８ｂ、…、を備えたが、複数のデータエントリに
対して単一のストア・フラグまたは投機ロード・フラグ
を代表させてもよい。例えば、図１０は４つのデータエ
ントリ２６ａ、２６ｂ、２６ｃ、２６ｄ、に対して、一
つの投機ロード・フラグ２８ａを備えたキャッシュライ
ンの第２の実施例である。データエントリ２６、ストア
・フラグ２７、投機ロード・フラグ２８以外の構成要素
は省略している。投機ロード・フラグ２８ａは、４つの
データエントリ２６ａ、２６ｂ、２６ｃ、２６ｄ、のい
ずれかに投機的な読み出しを行ったことを示す。この場
合、データエントリそれぞれに固有の投機ロード・フラ
グを備えるのに比べて、キャッシュメモリの実装に必要
なハードウェア量が小さくなるという効果がある。

【００８４】バージョン識別子（ｖｉｄ）２９は、自プ
ロセッサを除く並列プロセッサシステムが備えるプロセ
ッサ数分のビット数をもち、それぞれが自プロセッサを
除く他プロセッサに対応する。ストア命令等の書き込み
を行った場合、その対象ラインのバージョン識別子２９
がセットされる。セットされるビットは、マージされた
スレッドを除く該スレッドのすべての親スレッドを実行
するプロセッサに対応するビットであり、それ以外のビ
ットはリセットされる。あるスレッドがタームした場
合、該スレッドを実行していたプロセッサを除くすべて
のプロセッサのキャッシュメモリのすべてのキャッシュ
ラインのバージョン識別子２９において、該スレッドを
実行していたプロセッサに対応するビットがリセットさ
れる。すわなち、バージョン識別子２９はその時点で
の、自キャッシュラインを生成したスレッドのすべての
親スレッドのうち、いまだタームしていない親スレッド
を実行するプロセッサを示している。あるプロセッサＰ
ｉ上で実行された２つのスレッドにより生成された異な
るバージョンのキャッシュラインは、その２つのスレッ
ドのプログラム順序上で間のスレッドがすべてタームし
た時点で、バージョン識別子ｖｉｄは同じバージョンを
示し、すなわち、縮退が行われたことになる。他プロセ
ッサから自キャッシュメモリにアクセスがあった場合、
バージョン識別子２９が参照される。バージョン識別子
２９の前記他プロセッサに対応するビットがセットされ
ている場合、自キャッシュラインにとっての親スレッド
からのアクセスと判断できる。その場合、自キャッシュ
ラインのデータはプログラム順序で後に位置し有効では
ないので、前記アクセスに対して自キャッシュメモリか
らは応答しない。一方、バージョン識別子２９の前記他
プロセッサに対応するビットがリセットされている場
合、自キャッシュラインにとっての子スレッドからのア
クセスと判断できる。その場合、自キャッシュラインの
データはプログラム順序で前に位置し有効であるので、
前記アクセスに対して自キャッシュメモリから適切な応
答処理を行う。前記タームによるバージョン識別子２９
のリセットで、バージョン識別子２９のすべてのビット
がリセットされた場合、自キャッシュラインのデータは
少なくとも確定することになる。すなわち、バージョン
識別子２９のすべてのビットがリセットされているキャ
ッシュラインのデータは、メインメモリ等に書き戻すこ
とができる。なお、本実施例では、同アドレスで異なる
バージョンのキャッシュラインは生成せず、空きフォー
クにより生成されたスレッドが書き込みを行う際に、そ
の対象のラインが古いバージョンをもつdirty なライン
の場合、すべての古いバージョンが確定して縮退される
まで書き込みの実行を遅らせて、複数のバージョンの発
生を回避する。

【００８５】再び図８を参照すると、キャッシュ制御部
１２は少なくとも、バス要求制御部３０、キャッシュ要
求制御部３１、バス要求出力バッファ３２、バス要求入
力バッファ３３を含んでいる。

【００８６】バス要求制御部３０は、キャッシュメモリ
１１からのキャッシュミス通知、ストア通知やその対象
アドレス、ストア・データ、キャッシュライン状態等を
受け取り、それらを参照してバス要求を生成し、バス要
求出力バッファ３２に登録する。ここで、キャッシュラ
イン状態は、図９に示したキャッシュラインを構成す
る、有効フラグ２０、変更フラグ２１、共有フラグ２
２、投機フラグ２３、更新フラグ２４、ストア・フラグ
２７、バージョン識別子２９を含み、キャッシュミスし
た場合は、そのミスによるリフィル処理対象のキャッシ
ュラインの状態、キャッシュヒットした場合は、そのヒ
ットしたキャッシュラインの状態を示す。

【００８７】バス要求出力バッファ３２は、バス要求制
御部３０によって生成されたバス要求を格納し、順次バ
スを通じて他のプロセッサやメインメモリに出力する。
より詳細には、バス要求はコマンド、アドレス、キャッ
シュライン状態、データ等から構成され、コマンド、ア
ドレスは要求バス１３、キャッシュライン状態は応答バ
ス１４、データはデータバス１５に出力する。バス要求
出力バッファ３２は同時に、要求バス１３に出力したコ
マンド、アドレス、及び応答バス１４に出力したキャッ
シュライン状態を、バス要求入力バッファ３３にも転送
する。本実施例は、バス要求を出力する際には、キャッ
シュライン状態に含まれる共有フラグ２２を参照して、
データを共有しているプロセッサにのみ宛てて、バス要
求を出力する。すなわち、データを共有していないプロ
セッサでは、該バス要求によるキャッシュメモリへのア
クセスが発生せず、キャッシュメモリのアクセス競合に
よる性能低下が小さく、またキャッシュメモリにおいて
消費される電力を削減することができるという効果があ
る。

【００８８】バス要求入力バッファ３３は、他プロセッ
サやメインメモリから要求バス１３を通じて伝達される
バス要求のコマンド、アドレスや、応答バス１４を通じ
て伝達されるキャッシュライン状態や、データバス１５
を通じて伝達されるデータなどを格納する。バス要求入
力バッファ３３はまた、バス要求出力バッファ３２から
要求バス１３に出力されたバス要求のコマンド、アドレ
ス、及び応答バス１４に出力されたキャッシュライン状
態を格納し、さらに、バス要求に応じて他プロセッサが
応答バス１４に出力するキャッシュライン状態を、その
到着を待って格納する。同時にバス要求入力バッファ３
３は、格納しているバスから入力したバス要求、より詳
細には、コマンド、アドレス、キャッシュライン状態、
及びデータ、をキャッシュ要求制御部３１に順次出力し
ていく。

【００８９】キャッシュ要求制御部３１は、バス要求入
力バッファ３３が保持し、順次入力されるバス要求を順
次解釈する。まず、バスから入力された他プロセッサか
らのバス要求に対しては、キャッシュメモリ１１にアク
セスして、バス要求の対象のキャッシュラインを保持し
ているか否かを判定し、保持していなければその旨が、
保持していればそのキャッシュラインの状態が、バス要
求制御部３０及びバス要求出力バッファ３２を通じて、
応答バス１４に出力される。同時に、その自身のキャッ
シュメモリのキャッシュライン状態は、バス要求入力バ
ッファ３３の該当エントリに格納される。バス要求入力
バッファ３３において、自身のキャッシュライン状態も
含めて、他プロセッサからのキャッシュライン状態の応
答もすべて到着したら、再び、キャッシュ要求制御部３
１において、バス要求のコマンドと、自身のキャッシュ
ライン状態、及び他プロセッサのキャッシュライン状態
をすべて参照して、キャッシュラインの次の状態を決定
し、対象のキャッシュラインの更新を行う。

【００９０】一方、自身が出力したバス要求に対して
は、そのコマンド、アドレス、及びキャッシュライン状
態が、バス要求入力バッファ３３に格納されるので、バ
ス要求入力バッファ３３において、他プロセッサからの
キャッシュライン状態の応答もすべて到着したら、キャ
ッシュ要求制御部３１において、バス要求のコマンド
と、自身のキャッシュライン状態、及び他プロセッサの
キャッシュライン状態をすべて参照して、キャッシュラ
インの次の状態を決定し、対象のキャッシュラインの更
新を行う。

【００９１】次にフローチャートを参照しつつ、キャッ
シュメモリ１１及びキャッシュ制御部１２の動作の詳細
を説明する。図１１は、ロード命令が発行された場合の
キャッシュメモリ１１及びキャッシュ制御部１２の動作
を示すフローチャートである。まず、プロセッサ１０で
ロード命令が発行されると（図１１のステップ２０
０）、キャッシュメモリ１１がアクセスされ、キャッシ
ュメモリにヒットするか、ミスするかが判定される（図
１１のステップ２０１）。ここで、キャッシュメモリに
ヒットするとは、有効フラグ２０がセットされていて、
かつアドレスタグ２５で示されるアドレス範囲に該ロー
ド命令の対象アドレスが入っているキャッシュラインが
存在する場合である。前記条件を満たすキャッシュライ
ンが存在しない場合、キャッシュメモリにミスするとい
う。

【００９２】キャッシュメモリにヒットした場合、ヒッ
トしたキャッシュラインが読み出され、キャッシュライ
ン内の更新フラグ２４が参照される（図１１のステップ
２０２）。更新フラグ２４がセットされていない、すな
わち、更新有効フラグ２４ａがセットされていないか、
更新対象フラグ２４ｂのいずれもがセットされていない
場合、そのキャッシュラインは子スレッドにより更新さ
れておらず、そのキャッシュラインは有効であると判断
される。その場合、キャッシュメモリ１１からプロセッ
サ１０にロード対象のデータが転送される（図１１のス
テップ２０６）。次に、該ロード命令がスレッド間の正
依存関係に関して投機的な実行である場合、ロード対象
のデータを格納したデータエントリ２６に対応する投機
ロード・フラグ２８をセットして（図１１のステップ２
０７）、ロード命令の実行は終了する。発行されたロー
ド命令が投機的であるか、確定的であるかはプロセッサ
１０からキャッシュメモリ１１に通知される。

【００９３】一方、更新フラグ２４の参照（図１１のス
テップ２０２）で、更新フラグ２４がセットされてい
た、すなわち、更新有効フラグ２４ａがセットされてい
て、かつ、更新対象フラグ２４ｂのいずれかがセットさ
れている場合、そのキャッシュラインは子スレッドによ
り更新されていて、そのキャッシュラインは既に無効で
ある可能性があると判断される。ここで確定的に無効で
あると判定できないのは、子スレッドによる更新が投機
的であって、かつ取り消されている場合があり、実際に
は有効である可能性もあるからである。確定的な判断
は、子スレッドを実行したプロセッサのキャッシュメモ
リのキャッシュライン状態を参照する必要がある。そこ
で、バス要求制御部３０は他のプロセッサのキャッシュ
メモリを参照するリード要求を生成し、バス要求出力バ
ッファ３２を通じて、要求バス１３にリード要求を発行
する（図１１のステップ２０３）。同時にそのリード要
求、リード要求の対象アドレス、及び自身のキャッシュ
ライン状態は、バス要求入力バッファ３３に格納され、
他のプロセッサのキャッシュ制御部から、リード要求に
対する応答である、キャッシュライン状態が応答バス１
４を通じて到着するのを待機する（図１１のステップ２
０４）。

【００９４】リード要求に対して、すべてのプロセッサ
からの応答が到着すると、前記した自身のキャッシュラ
インが実際に無効であるか、それとも有効であるかを判
定する（図１１のステップ２０５）。より詳細には、セ
ットされている更新対象フラグ２４ｂに対応するプロセ
ッサのキャッシュライン状態を参照し、ヒットしていた
場合は、実際にそのプロセッサに更新されていたと判断
する。一方、セットされているすべての更新対象フラグ
２４ｂに対して、いずれのプロセッサでもミスしていた
場合、その更新は投機実行の失敗により取り消されてい
て、実際には更新されていないと判断する。

【００９５】実際には更新されていなかった場合、該キ
ャッシュラインは有効であるので、ただちに、読み出し
処理を実行することができる。この場合、リフィル処理
は必要なく、先に発行したリード要求を受信したプロセ
ッサでは、そのリード要求に対する処理は行われない。
読み出し処理では、キャッシュメモリ１１からプロセッ
サ１０にロード対象のデータを転送する（図１１のステ
ップ２０６）。次に、キャッシュライン状態を更新し
て、ロード命令の実行を終了する（図１１のステップ２
０７）。具体的には、まず、更新フラグ２４をリセット
し、次に、該ロード命令が投機的な実行である場合、ロ
ード対象のデータを格納したデータエントリ２６に対応
する投機ロード・フラグ２８をセットする。

【００９６】一方、実際に更新されていた場合、該キャ
ッシュラインは無効であるので、他のプロセッサのキャ
ッシュメモリ、またはメインメモリから、有効なデータ
をリフィルする必要がある。まず、リフィル処理の前
に、該キャッシュラインのデータをライトバックする必
要性を判断する（図１１のステップ２１１）。該キャッ
シュラインは、自プロセッサが現在実行しているスレッ
ドに対しては無効であるが、親スレッドに対しては有効
である場合がある。より詳細には、該キャッシュライン
を更新したプロセッサのキャッシュメモリに、確定した
キャッシュライン、すわなち投機フラグ２３がセットさ
れていないキャッシュラインが存在しなければ、該キャ
ッシュラインは唯一の確定したデータを保持しているた
め、ライトバックが必要であると判断する。一方、該キ
ャッシュラインの更新元のプロセッサのキャッシュライ
ンに、確定したキャッシュラインが存在すれば、ライト
バックは必要ないと判断する。

【００９７】ライトバックが必要であると判断した場
合、バス要求制御部３０はライトバック要求を生成し、
それをバス要求出力バッファ３２を通じて、要求バス１
３に出力し（図１１のステップ２１６）、次にデータバ
ス１５にライトバック対象のデータを出力する（図１１
のステップ２１７）。次に、先に発行しているリード要
求に対して、他のキャッシュメモリまたはメインメモリ
からデータバス１５を通じて伝達されるリフィル・デー
タの到着を待つ（図１１のステップ２１２）。次に、キ
ャッシュ要求制御部３１は到着したリフィル・データを
キャッシュメモリ１１へリフィルする処理を行い（図１
１のステップ２１３）、次に、キャッシュメモリ１１か
らプロセッサ１０にロード対象のデータを転送し（図１
１のステップ２０６）、キャッシュライン状態を更新し
て、ロード命令の実行を終了する（図１１のステップ２
０７）。

【００９８】一方、図１１のステップ２１１でライトバ
ックが必要でないと判断した場合、そのままリフィル・
データの到着を待ち（図１１のステップ２１２）、キャ
ッシュメモリ１１へのリフィルを行う（図１１のステッ
プ２１３）。次に、キャッシュメモリ１１からプロセッ
サ１０にロード対象のデータを転送し（図１１のステッ
プ２０６）、キャッシュライン状態を更新して、ロード
命令の実行を終了する（図１１のステップ２０７）。

【００９９】以上、図１１のステップ２０１において、
ロード命令がキャッシュメモリにヒットした場合の動作
について説明した。一方、ロード命令がキャッシュメモ
リにミスした場合は、スレッド実行が確定的か投機的か
で動作が異なる（図１１のステップ２０８）。スレッド
実行が投機的で、すなわち発行されたロード命令は投機
的である場合、キャッシュメモリ１１にリフィル可能か
否かを判断する（図１１のステップ２１４）。キャッシ
ュメモリ１１のリフィル先の候補のエントリに空きがな
く、かつ、それらエントリに格納されているすべてのキ
ャッシュラインの投機フラグ２３及びストア・フラグ２
７のいずれかがセットされているか、あるいは投機ロー
ド・フラグ２８のいずれかがセットされている場合、リ
フィルすることができない。この場合、スレッドが確定
するまで待機した後に（図１１のステップ２１５）、図
１１のステップ２０９よりリフィル処理を開始する。

【０１００】一方、キャッシュメモリ１１のリフィル先
の候補のエントリに少なくとも１つの空きがあれば、リ
フィルは可能である。また、空きが無い場合でも、それ
らリフィル先候補のエントリに格納されているいずれか
のキャッシュラインの投機フラグ２３かストア・フラグ
２７のいずれかがセットされてなく、かつ投機ロード・
フラグ２８のいずれもセットされていない場合、そのエ
ントリにリフィルすることが可能である。この場合、図
１１のステップ２０９よりリフィル処理を開始する。

【０１０１】一方、スレッド実行が確定的で、すなわち
発行されたロード命令は確定的である場合（図１１のス
テップ２０８、Ｙｅｓ）、常にリフィルは可能であるの
で、図１１のステップ２０９よりリフィル処理を開始す
る。具体的には、まず、要求バス１３にリード要求を出
力し（図１１のステップ２０９）、それに対する他プロ
セッサからの応答を待つ（図１１のステップ２１０）。

【０１０２】次に、ライトバックが必要か否かを判定す
る（図１１のステップ２１１）。リフィル先のエントリ
にストア命令により変更されたキャッシュライン、すわ
なち変更フラグ２１がセットされているキャッシュライ
ンが存在すれば、ライトバックが必要である。その場
合、ライトバック要求を要求バス１３に出力し（図１１
のステップ２１６）、次にデータバス１５にライトバッ
ク対象のデータを出力する（図１１のステップ２１
７）。次に、リフィル・データの到着を待ち（図１１の
ステップ２１２）、キャッシュメモリ１１へのリフィル
を行う（図１１のステップ２１３）。次に、キャッシュ
メモリ１１からプロセッサ１０にロード対象のデータを
転送し（図１１のステップ２０６）、キャッシュライン
状態を更新して、ロード命令の実行を終了する（図１１
のステップ２０７）。

【０１０３】ライトバックが必要でない場合は、そのま
まリフィル・データの到着を待ち（図１１のステップ２
１２）、キャッシュメモリ１１へのリフィルを行う（図
１１のステップ２１３）。次に、キャッシュメモリ１１
からプロセッサ１０にロード対象のデータを転送し（図
１１のステップ２０６）、キャッシュライン状態を更新
して、ロード命令の実行を終了する（図１１のステップ
２０７）。

【０１０４】以上、ロード命令が発行された場合のキャ
ッシュメモリ１１及びキャッシュ制御部１２の動作を説
明した。次に、図１２を参照して、ストア命令が発行さ
れた場合のキャッシュメモリ１１及びキャッシュ制御部
１２の動作を説明する。

【０１０５】まず、プロセッサ１０でストア命令が発行
されると（図１２のステップ２２０）、キャッシュメモ
リ１１がアクセスされ、キャッシュメモリにヒットする
か、ミスするかが判定される（図１２のステップ２２
１）。ここで、キャッシュメモリにヒットするとは、有
効フラグ２０がセットされていて、かつアドレスタグ２
５で示されるアドレス範囲にストア命令の対象アドレス
が入っているキャッシュラインが存在する場合である。
前記条件を満たすキャッシュラインが存在しない場合、
キャッシュメモリにミスするという。

【０１０６】キャッシュメモリにヒットした場合、ヒッ
トしたキャッシュラインが読み出され、まずキャッシュ
ライン内のバージョン識別子が参照される（図１２のス
テップ２４２）。ここで、バージョン識別子で示される
ヒットしたキャッシュラインのバージョンと現在実行し
ているスレッドのバージョンが一致せず、かつdirtyな
（変更フラグ２１がセットされている）キャッシュライ
ンの場合、一致するまで待機する。バージョン識別子に
記憶されるバージョンは、親スレッドの終了に応じて適
宜変更され、いずれ現在実行しているスレッドのバージ
ョンに一致する。バージョンが一致したか、あるいはdi
rty なキャッシュラインでない場合、次に図１２のステ
ップ２２２において、キャッシュライン内の更新フラグ
２４が参照される。

【０１０７】更新フラグ２４がセットされていない、す
なわち、更新有効フラグ２４ａがセットされていない
か、更新対象フラグ２４ｂのいずれもがセットされてい
ない場合、そのキャッシュラインは子スレッドにより更
新されておらず、そのキャッシュラインは有効であると
判断される。その場合、バス要求制御部３０は、ライト
要求を生成し、バス要求出力バッファ３２を通じて、要
求バス１３にライト要求を出力する（図１２のステップ
２２６）。ライト要求は、ストア命令を実行したこと、
及びそのストア・データを他のプロセッサやキャッシュ
メモリに通知し、それに対する処理を要求するバス要求
である。

【０１０８】次に、該ストア命令による書き込みの前
に、以前のデータのメインメモリへのライトバックが必
要か否かを判定する（図１２のステップ２２７）。該ス
トア命令がヒットしたキャッシュラインが確定的であ
る、すなわち投機フラグ２３がセットされてなく、かつ
該ストア命令が投機的な実行である場合、投機的なデー
タを書き込む前に、確定的なデータをメインメモリへラ
イトバックする処理を行う。具体的には、要求バス１３
にライトバック要求を出力し（図１２のステップ２３
０）、続いてデータバス１５を通じてライトバックする
データを転送する（図１２のステップ２３１）。その
後、該ストア命令が書き込みの対象とするキャッシュラ
インのデータエントリ２６に、ストア・データの書き込
みを行う（図１２のステップ２２８）。次に、キャッシ
ュライン状態を更新して、ストア命令の実行を終了する
（図１２のステップ２２９）。具体的には、まず、変更
フラグ２１、及びストア対象のデータを格納したデータ
エントリに対応するストア・フラグ２７をセットする。
さらに、該ストア命令が投機的な実行である場合、投機
フラグ２３の自プロセッサに対応するフラグ部分をセッ
トする。さらに、バージョン識別子２９に現在実行して
いるスレッドのバージョンの書き込みを行う。

【０１０９】一方、ライトバックが必要なかった場合
（図１２のステップ２２７、Ｎｏ）、そのまま該ストア
命令が書き込みの対象とするキャッシュラインのデータ
エントリに、ストア・データの書き込みを行う（図１２
のステップ２２８）。次に、キャッシュライン状態を更
新して、ストア命令の実行を終了する（図１２のステッ
プ２２９）。

【０１１０】一方、更新フラグの参照（図１２のステッ
プ２２２）で、更新フラグ２４がセットされていた、す
なわち、更新有効フラグ２４ａがセットされていて、か
つ、更新対象フラグ２４ｂのいずれかがセットされてい
る場合、そのキャッシュラインは子スレッドにより更新
されていて、そのキャッシュラインは既に無効である可
能性があると判断される。その場合、バス要求制御部３
０はリード・ライト要求を生成し、要求バス１３にリー
ド・ライト要求を発行する（図１２のステップ２２
３）。リード・ライト要求は、同時に要求バスに出力す
る対象のアドレスに対して、リード要求に対する処理の
後、ライト要求に対する処理を要求するバス要求であ
る。

【０１１１】次に、他のキャッシュ制御部からリード・
ライト要求に対する応答の到着を待機し（図１２のステ
ップ２２４）、その応答を参照して、該キャッシュライ
ンが子スレッドにより実際に更新されているか否かを判
定する（図１２のステップ２２５）。実際には更新され
ていなかった場合、該キャッシュラインは有効であるの
で、ただちにライト処理を開始することができる。この
場合、リフィル処理は必要なく、先に発行したリード・
ライト要求を受信したプロセッサでは、そのリード要求
部分に対する処理は行われない。ライト処理では、ま
ず、ライトバックが必要か否かの判断を行う（図１２の
ステップ２２７）。ライトバックが必要な場合、ライト
バック要求の発行（図１２のステップ２３０）及び、ラ
イトバック・データの転送（図１２のステップ２３１）
を行う。次に、該ストア命令が書き込みの対象とするキ
ャッシュラインのデータエントリに、ストア・データの
書き込みを行う（図１２のステップ２２８）。次に、キ
ャッシュライン状態を更新して、ストア命令の実行を終
了する（図１２のステップ２２９）。

【０１１２】一方、図１２のステップ２２５における子
スレッドによる更新の有無の判断で、実際に更新されて
いた場合、該キャッシュラインは無効であるので、ロー
ド命令の場合と同様に、他のプロセッサのキャッシュメ
モリ、またはメインメモリから、有効なデータをリフィ
ルする必要がある。まず、リフィル処理の前に、該キャ
ッシュラインのデータをライトバックする必要性を判断
する（図１２のステップ２３５）。該キャッシュライン
は、自プロセッサが現在実行するスレッドに対しては無
効であるが、親スレッドに対しては有効である場合があ
る。より詳細には、該キャッシュラインを更新したプロ
セッサのキャッシュラインに、確定したキャッシュライ
ン、すわなち投機フラグ２３がセットされていないキャ
ッシュラインが存在しなければ、該キャッシュラインは
唯一の確定したデータを保持しているため、ライトバッ
クが必要であると判断する。一方、該キャッシュライン
の更新元のプロセッサのキャッシュラインに、確定した
キャッシュラインが存在すれば、ライトバックは必要な
いと判断する。

【０１１３】ライトバックが必要であると判断した場合
は、ライトバック要求の発行（図１２のステップ２４
０）及び、ライトバック・データの転送（図１２のステ
ップ２４１）を行う。次に、先に発行しているリード・
ライト要求に対して、他のキャッシュメモリまたはメイ
ンメモリからデータバス１５を通じて伝達されるリフィ
ル・データの到着を待つ（図１２のステップ２３６）。
次に、キャッシュ要求制御部３１は到着したリフィル・
データをキャッシュメモリ１１へリフィルする処理を行
う（図１２のステップ２３７）。次に、該ストア命令が
書き込みの対象とするキャッシュラインのデータエント
リに、ストア・データの書き込みを行う（図１２のステ
ップ２２８）。次に、キャッシュライン状態を更新し
て、ストア命令の実行を終了する（図１２のステップ２
２９）。

【０１１４】一方、ライトバックが必要でないと判断し
た場合は、そのまま、リフィル・データの到着を待ち
（図１２のステップ２３６）、キャッシュメモリ１１へ
リフィルを行う（図１２のステップ２３７）。次に、該
ストア命令のストア・データの書き込みを行い（図１２
のステップ２２８）、キャッシュライン状態を更新し
て、ストア命令の実行を終了する（図１２のステップ２
２９）。

【０１１５】以上、図１２のステップ２２１において、
ストア命令がキャッシュメモリにヒットした場合の動作
について説明した。一方、ストア命令がキャッシュメモ
リにミスした場合は、ロード命令の場合と同様に、スレ
ッド実行が確定的か投機的かで動作が異なる（図１２の
ステップ２３２）。スレッド実行が投機的で、すなわち
発行されたストア命令は投機的である場合、キャッシュ
メモリ１１にリフィル可能か否かを判断する（図１２の
ステップ２３８）。キャッシュメモリ１１のリフィル先
の候補のエントリに空きがなく、かつ、それらエントリ
に格納されているすべてのキャッシュラインの投機フラ
グ２３及びストア・フラグ２７のいずれかがセットされ
ているか、あるいは投機ロード・フラグ２８のいずれか
がセットされている場合、リフィルすることができな
い。この場合、スレッドが確定するまで待機した後に
（図１２のステップ２３９）、リフィル処理を開始す
る。

【０１１６】一方、キャッシュメモリ１１のリフィル先
の候補のエントリに少なくとも１つの空きがあれば、リ
フィルは可能である。また、空きが無い場合でも、それ
らリフィル先候補のエントリに格納されているいずれか
のキャッシュラインの投機フラグ２３かストア・フラグ
２７のいずれかがセットされてなく、かつ投機ロード・
フラグ２８のいずれもセットされていない場合、そのエ
ントリにリフィルすることが可能である。この場合、そ
のままリフィル処理を開始する。

【０１１７】一方、スレッド実行が確定的で、すなわち
発行されたストア命令は確定的である場合（図１２のス
テップ２３２、Ｙｅｓ）、常にリフィルは可能であるの
で、そのままリフィル処理を開始する。具体的には、ま
ず、要求バス１３にリード・ライト要求を出力し（図１
２のステップ２３３）、それに対する他プロセッサから
の応答を待つ（図１２のステップ２３４）。

【０１１８】次に、ライトバックが必要か否かを判定す
る（図１２のステップ２３５）。リフィル先のエントリ
に変更されたキャッシュライン、すわなち変更フラグ２
１がセットされているキャッシュラインが存在すれば、
ライトバックが必要であると判断する。ライトバックが
必要であると判断した場合は、ライトバック要求の発行
（図１２のステップ２４０）及び、ライトバック・デー
タの転送（図１２のステップ２４１）を行った後、リフ
ィル処理を続行する。一方、ライトバックが必要でない
と判断した場合は、そのままリフィル処理を続行する。
リフィル処理は、先に発行しているリード・ライト要求
に対して、他のキャッシュメモリまたはメインメモリか
らデータバス１５を通じて伝達されるリフィル・データ
の到着を待つ（図１２のステップ２３６）。次に、キャ
ッシュ要求制御部３１は到着したリフィル・データのキ
ャッシュメモリ１１へのリフィルを行う（図１２のステ
ップ２３７）。次に、該ストア命令が書き込みの対象と
するキャッシュラインのデータエントリに、ストア・デ
ータの書き込みを行う（図１２のステップ２２８）。次
に、キャッシュライン状態を更新して、ストア命令の実
行を終了する（図１２のステップ２２９）。

【０１１９】以上、ストア命令が発行された場合のキャ
ッシュメモリ１１及びキャッシュ制御部１２の動作を説
明した。次に、図１３を参照して、他のプロセッサから
バスを通じてリード要求を受信した場合、及びリード・
ライト要求を受信した場合のリード要求部分に対する、
キャッシュメモリ１１及びキャッシュ制御部１２の動作
を説明する。リード・ライト要求を受信した場合は、リ
ード要求に対する処理を行った後、後述するライト要求
に対する処理を行う。以下の説明ではリード要求または
リード・ライト要求のリード要求部分を、単にリード要
求と表記する。

【０１２０】まず、他プロセッサのキャッシュ制御部１
２からのリード要求を、要求バス１３を通じて受信する
と、バス要求入力バッファ３３は、該リード要求のコマ
ンド、アドレス、リード要求を発行したプロセッサのキ
ャッシュライン状態などを格納し、キャッシュ要求制御
部３１に通知する（図１３のステップ２４５）。キャッ
シュ要求制御部３１はリード要求を解釈すると、キャッ
シュメモリ１１にアクセスし、リード要求の対象アドレ
スがキャッシュメモリにヒットするかミスするかを判定
する（図１３のステップ２４６）。ここで、キャッシュ
メモリにヒットするとは、有効フラグ２０がセットされ
ていて、かつアドレスタグ２５で示されるアドレス範囲
に当該リード要求の対象アドレスが入っているキャッシ
ュラインが存在する場合である。前記条件を満たすキャ
ッシュラインが存在しない場合、キャッシュメモリにミ
スするという。

【０１２１】リード要求がキャッシュメモリ１１にミス
した場合、その旨を、バス要求制御部３０、バス要求出
力バッファ３２、及び応答バス１４を通じて、他プロセ
ッサに通知し、リード要求に対する処理を終了する（図
１３のステップ２４７）。

【０１２２】一方、リード要求がキャッシュメモリ１１
にヒットした場合、ヒットしたキャッシュラインの状態
を、バス要求制御部３０、バス要求出力バッファ３２、
及び応答バス１４を通じて、その旨を他プロセッサに通
知し（図１３のステップ２４８）、他プロセッサからの
応答である他のキャッシュメモリのキャッシュライン状
態が到着するのを待機する（図１３のステップ２４
９）。次に、ヒットした自身のキャッシュライン状態の
更新フラグ２４を参照して、更新フラグ２４がセットさ
れているか否かを判定する（図１３のステップ２５
０）。

【０１２３】更新フラグ２４がセットされていない、す
なわち、更新有効フラグ２４ａがセットされていない
か、更新対象フラグ２４ｂのいずれもがセットされてい
ない場合、そのキャッシュラインは子スレッドにより更
新されておらず、そのキャッシュラインは有効であると
判断される。その場合、自身のキャッシュラインのデー
タをリフィル・データとして供給するか否かの判定を行
う（図１３のステップ２５６）。

【０１２４】一方、更新フラグ２４がセットされてい
た、すなわち、更新有効フラグ２４ａがセットされてい
て、かつ、更新対象フラグ２４ｂのいずれかがセットさ
れている場合、そのキャッシュラインは子スレッドによ
り更新されていて、そのキャッシュラインは既に無効で
ある可能性があると判断される。その場合、他プロセッ
サからのキャッシュライン状態の応答を参照して、前記
した自身のキャッシュラインが実際に無効であるか、そ
れとも有効であるかを判定する（図１３のステップ２５
１）。より詳細には、セットされている更新対象フラグ
２４ｂに対応するプロセッサのキャッシュライン状態を
参照し、ヒットしていた場合は、実際にそのプロセッサ
に更新されていたと判断する。一方、セットされている
すべての更新対象フラグ２４ｂに対して、いずれのプロ
セッサでもミスしていた場合、その更新は投機実行の失
敗に取り消されていて、実際には更新されていないと判
断する。

【０１２５】子スレッドにより、実際には更新されてい
なかった場合、自身のキャッシュラインのデータをリフ
ィル・データとして供給するか否かの判定を行う（図１
３のステップ２５６）。判定は、まず、リード要求を発
行したプロセッサが、実際にリフィル処理を必要として
いるか否かを判断する。これは、リード要求を発行した
が（図１１の２０３、または図１２の２２３）、実際に
はキャッシュラインが有効でリフィル処理が必要ない場
合（図１１の２０５、Ｎｏ、または図１２の２２５、Ｎ
ｏ）があるからである。リード要求を受信したプロセッ
サでも、すべてのキャッシュメモリのキャッシュライン
状態が参照できるので、リード要求を発行したプロセッ
サと同様の判断が可能である。

【０１２６】リード要求を発行したプロセッサで、実際
にリフィル処理を必要としていない場合は、リフィル・
データの供給は行わない。一方、リード要求を発行した
プロセッサで、実際にリフィル処理を必要としている場
合、次に、プログラム順序の上で、ヒットした自身のキ
ャッシュラインのデータを生成したスレッドと、リード
要求を発行したプロセッサが実行するスレッドの間に位
置するスレッドを実行するプロセッサのキャッシュライ
ン状態を参照する。これら間に位置するスレッドを実行
するプロセッサは、自身のキャッシュラインのバージョ
ン識別子、及び他プロセッサから通知される他のキャッ
シュメモリでヒットしたキャッシュラインのバージョン
識別子を参照して特定することができる。これは、バー
ジョン識別子のうち、セットされているビットを参照す
ると、そのキャッシュラインのデータを生成したスレッ
ドの親スレッドを実行しているプロセッサを特定できる
ためである。リフィル・データを供給するか否かは、そ
れらの間のスレッドのキャッシュライン状態と自身のキ
ャッシュライン状態により決定される。なお、スレッド
の順序関係は、自身のプロセッサ１０から各キャッシュ
制御部１２へ通知される。

【０１２７】まず、前記間のスレッドのキャッシュライ
ンの中に、投機的な（投機フラグ２３がセットされた）
キャッシュラインが存在する場合、自身のキャッシュラ
インのデータはリフィル・データとして無効であり、自
プロセッサはリフィル・データの供給は行わない。

【０１２８】次に、前記間のスレッドのキャッシュライ
ンの中に、投機的なキャッシュラインは存在しないが、
確定的なキャッシュラインは存在し、かつ自身のキャッ
シュラインも確定的である場合、自プロセッサはリフィ
ル・データの供給は行わない。

【０１２９】次に、間のスレッドのキャッシュラインの
中に、投機的なキャッシュラインは存在しないが、確定
的なキャッシュラインは存在し、かつ自身のキャッシュ
ラインは投機的である場合、自プロセッサは自身のキャ
ッシュラインからリフィル・データの供給を行う。

【０１３０】次に、間のスレッドを実行するプロセッサ
ではすべてキャッシュメモリにミスし、有効なキャッシ
ュラインが存在しない場合、自プロセッサは自身のキャ
ッシュラインからリフィル・データの供給を行う。

【０１３１】リフィル・データの供給を行わない場合、
キャッシュライン状態の更新、具体的には更新フラグ２
４のリセットを行い、リード要求に対する処理を終了す
る（図１３のステップ２５７）。一方、リフィル・デー
タの供給を行う場合、データバス１５を通じて、自身の
キャッシュラインが保持しているデータを転送し（図１
３のステップ２５８）、次に、キャッシュライン状態の
更新を行い、リード要求に対する処理を終了する（図１
３のステップ２５７）。

【０１３２】一方、子スレッドによる更新の有無判定で
（図１３のステップ２５１）、実際に更新されていた場
合、該キャッシュラインは既に無効であるので、キャッ
シュラインの無効化を行う。まず、無効化処理の前に、
該キャッシュラインのデータをライトバックする必要性
を判断する（図１３のステップ２５２）。該キャッシュ
ラインは、自プロセッサが現在実行するスレッドに対し
ては無効であるが、親スレッドに対しては有効である場
合がある。より詳細には、該キャッシュラインの更新元
のプロセッサのキャッシュラインに、確定したキャッシ
ュライン、すわなち投機フラグ２３がセットされていな
いキャッシュラインが存在しなければ、該キャッシュラ
インは唯一の確定したデータを保持しているため、ライ
トバックが必要であると判断する。一方、該キャッシュ
ラインの更新元のプロセッサのキャッシュラインに、確
定したキャッシュラインが存在すれば、ライトバックは
必要ないと判断する。

【０１３３】ライトバックが必要であると判断した場
合、要求バス１３にライトバック要求を出力し（図１３
のステップ２５４）、次にデータバス１５にライトバッ
ク対象のデータを出力する（図１３のステップ２５
５）。その後、キャッシュラインの有効フラグ２０をリ
セットしてキャッシュラインの無効化を行い、リード要
求に対する処理を終了する（図１３のステップ２５
３）。一方、ライトバックが必要でないと判断した場合
は、そのままキャッシュラインの有効フラグ２０をリセ
ットしてキャッシュラインの無効化を行い、リード要求
に対する処理を終了する（図１３のステップ２５３）。

【０１３４】以上、他のプロセッサからバスを通じてリ
ード要求を受信した場合、及びリード・ライト要求を受
信した場合のリード要求部分に対する、キャッシュメモ
リ１１及びキャッシュ制御部１２の動作を説明した。次
に、図１４を参照して、他のプロセッサからバスを通じ
てライト要求を受信した場合、及びリード・ライト要求
を受信した場合のライト要求部分に対する、キャッシュ
メモリ１１及びキャッシュ制御部１２の動作を説明す
る。リード・ライト要求を受信した場合は、上述したリ
ード要求に対する処理を行った後、ライト要求に対する
処理を行う。以下の説明では、ライト要求、及びリード
・ライト要求におけるライト要求部分を、単にライト要
求と表記する。

【０１３５】まず、他プロセッサのキャッシュ制御部１
２からのライト要求を、要求バス１３を通じて受信する
と、バス要求入力バッファ３３は、該ライト要求のコマ
ンド、アドレス、ライト要求を発行したプロセッサのキ
ャッシュライン状態、ライト・データなどを格納し、キ
ャッシュ要求制御部３１に通知する（図１４のステップ
２６０）。キャッシュ要求制御部３１はライト要求を解
釈すると、キャッシュメモリ１１にアクセスし、ライト
要求の対象アドレスがキャッシュメモリにヒットするか
ミスするかを判定する（図１４のステップ２６１）。こ
こで、キャッシュメモリにヒットするとは、有効フラグ
２０がセットされていて、かつアドレスタグ２５で示さ
れるアドレス範囲に当該ライト要求の対象アドレスが入
っているキャッシュラインが存在する場合である。前記
条件を満たすキャッシュラインが存在しない場合、キャ
ッシュメモリにミスするという。

【０１３６】ライト要求がキャッシュメモリ１１にミス
した場合、その旨を、バス要求制御部３０、バス要求出
力バッファ３２、及び応答バス１４を通じて、他プロセ
ッサに通知し、ライト要求に対する処理を終了する（図
１４のステップ２６２）。

【０１３７】一方、ライト要求がキャッシュメモリ１１
にヒットした場合、ヒットしたキャッシュラインの状態
を、バス要求制御部３０、バス要求出力バッファ３２、
及び応答バス１４を通じて、その旨を他プロセッサに通
知し（図１４のステップ２６３）、他プロセッサからの
応答である他のキャッシュメモリのキャッシュライン状
態が到着するのを待機する（図１４のステップ２６
４）。次に、ヒットした自身のキャッシュライン状態の
更新フラグ２４を参照して、更新フラグ２４がセットさ
れているか否かを判定する（図１４のステップ２６
５）。

【０１３８】更新フラグ２４がセットされていない、す
なわち、更新有効フラグ２４ａがセットされていない
か、更新対象フラグ２４ｂのいずれもがセットされてい
ない場合、そのキャッシュラインは子スレッドにより更
新されておらず、そのキャッシュラインは有効であると
判断される。その場合、自身のキャッシュラインへのラ
イト処理を開始する（図１４のステップ２６５、Ｎ
ｏ）。

【０１３９】一方、更新フラグ２４がセットされてい
た、すなわち、更新有効フラグ２４ａがセットされてい
て、かつ、更新対象フラグ２４ｂのいずれかがセットさ
れている場合、そのキャッシュラインは子スレッドによ
り更新されていて、そのキャッシュラインは既に無効で
ある可能性があると判断される。その場合、他プロセッ
サからのキャッシュライン状態の応答を参照して、前記
した自身のキャッシュラインが実際に無効であるか、そ
れとも有効であるかを判定する（図１４のステップ２６
６）。より詳細には、セットされている更新対象フラグ
２４ｂに対応するプロセッサのキャッシュライン状態を
参照し、ヒットしていた場合は、実際にそのプロセッサ
に更新されていたと判断する。一方、セットされている
すべての更新対象フラグ２４ｂに対して、いずれのプロ
セッサでもミスしていた場合、その更新は投機実行の失
敗に取り消されていて、実際には更新されていないと判
断する。

【０１４０】子スレッドにより、実際には更新されてい
なかった場合、自身のキャッシュラインへのライト処理
を開始する（図１４のステップ２６６、Ｎｏ）。ライト
処理はまず、ヒットした自身のキャッシュラインのデー
タを生成したスレッドにとって、親スレッドからのライ
ト要求か否かを判断する（図１４のステップ２７１）。
この判断は、自身のキャッシュラインのバージョン識別
子のうち、セットされているビットを参照して、該キャ
ッシュラインのデータを生成したスレッドの親スレッド
を実行するプロセッサを特定することで実現できる。子
スレッドからのライト要求であった場合、それはプログ
ラム順序の上で後に位置する書き込みなので、実際にデ
ータの更新は行わず、子スレッドによって更新されたこ
とを示す、キャッシュラインの更新フラグ２４のうち、
ライト要求を発行したプロセッサに対応する更新対象フ
ラグ２４ｂをセットして、ライト要求に対する処理を終
了する（図１４のステップ２７３）。

【０１４１】一方、親スレッドからのライト要求であっ
た場合、次に有効なライト・データ部分が存在するか否
かを判定する（図１４のステップ２７２）。判定には、
まず、プログラム順序の上で、ライト要求を発行したプ
ロセッサが実行するスレッドとヒットした自身のキャッ
シュラインのデータを生成したスレッドの間に位置する
スレッドを実行するプロセッサのキャッシュライン状態
を参照する。これら間に位置するスレッドを実行するプ
ロセッサは、自身のキャッシュラインのバージョン識別
子、及び他プロセッサから通知される他のキャッシュメ
モリでヒットしたキャッシュラインのバージョン識別子
を参照して特定することができる。これは、バージョン
識別子のうち、セットされているビットを参照すると、
そのキャッシュラインのデータを生成したスレッドの親
スレッドを実行しているプロセッサを特定できるためで
ある。有効なライト・データ部分が存在するか否かは、
それらの間のスレッドのキャッシュライン状態と自身の
キャッシュライン状態により決定される。具体的には、
ライト・データに対し、間のスレッドのキャッシュライ
ンの中で、ストア・フラグ２７がセットされているライ
ト・データ部分が存在する場合、そのライト・データ部
分は自スレッドに対して無効である。逆に、間のスレッ
ドのキャッシュラインのいずれにも、ストア・フラグ２
７がセットされていないライト・データ部分が存在する
場合、そのライト・データ部分は自スレッドに対して有
効である。

【０１４２】有効なライト・データ部分が存在しない場
合、キャッシュライン状態を更新して、ライト要求に対
する処理を終了する（図１４のステップ２７３）。一
方、有効なライト・データ部分が存在する場合、そのラ
イト・データ部分の書き込み処理を行う。まず、実際に
書き込みを行う前に、以前のデータのメインメモリへの
ライトバックが必要か否かを判定する（図１４のステッ
プ２７４）。該ライト要求がヒットしたキャッシュライ
ンが確定的である、すなわち投機フラグ２３がセットさ
れてなく、かつ該ライト要求が投機的な要求である場
合、投機的なデータを書き込む前に、確定的なデータを
メインメモリへライトバックする。具体的には、要求バ
ス１３にライトバック要求を出力し（図１４のステップ
２７５）、続いてデータバス１５を通じてライトバック
するデータを転送する（図１４のステップ２７６）。そ
の後、実際の書き込み処理を開始する。一方、ライトバ
ックが必要なかった場合（図１４のステップ２７４、Ｎ
ｏ）、そのまま実際の書き込み処理を開始する。ライト
要求が投機的であるか、確定的であるかは、ライト要求
の要因のストア命令が投機的であるか、確定的であるか
により、ライト要求と同時に要求を発行したプロセッサ
から与えられる。

【０１４３】実際の書き込み処理では（図１４のステッ
プ２７７）、前記した有効なライト・データ部分を自身
のキャッシュラインの対応するデータエントリ２６へ書
き込みを行う。ただし、自プロセッサが先に書き込みを
行い、ストア・フラグ２７がセットされている、データ
エントリに対しては書き込みを行わない。

【０１４４】次に、受信したライト要求のストア命令か
ら、自プロセッサが先に実行した正依存関係に対して投
機的なロード命令への、正依存関係の検出を行う（図１
４のステップ２７８）。上記した有効なライト・データ
部分に対応するデータエントリの投機ロード・フラグ２
８のいずれかがセットされていた場合、正依存関係が存
在し、投機的なロード命令の実行は失敗であったと判断
できる。その場合、キャッシュメモリ１１はプロセッサ
１０に投機実行失敗を通知し、プロセッサ１０はスレッ
ド実行の取消しを行う（図１４のステップ２８０）。

【０１４５】一方、上記した有効なライト・データ部分
に対応するデータエントリの投機ロード・フラグ２８の
いずれもセットされていない場合、正依存関係は存在せ
ず、投機的なロード命令の実行は成功したと判断でき
る。その場合、キャッシュライン状態を更新して、ライ
ト要求に対する処理を終了する（図１４のステップ２７
９）。

【０１４６】一方、子スレッドによる更新の有無判定で
（図１４のステップ２６６）、実際に更新されていた場
合、該キャッシュラインは既に無効であるので、キャッ
シュラインの無効化を行う。まず、無効化処理の前に、
該キャッシュラインのデータをライトバックする必要性
を判断する（図１４のステップ２６７）。該キャッシュ
ラインは、自プロセッサが現在実行するスレッドに対し
ては無効であるが、親スレッドに対しては有効である場
合がある。より詳細には、該キャッシュラインを更新し
たプロセッサのキャッシュラインに、確定したキャッシ
ュライン、すわなち投機フラグ２３がセットされていな
いキャッシュラインが存在しなければ、該キャッシュラ
インは唯一の確定したデータを保持しているため、ライ
トバックが必要であると判断する。一方、該キャッシュ
ラインの更新元のプロセッサのキャッシュラインに、確
定したキャッシュラインが存在すれば、ライトバックは
必要ないと判断する。

【０１４７】ライトバックが必要であると判断した場
合、要求バス１３にライトバック要求を出力し（図１４
のステップ２６９）、次にデータバス１５にライトバッ
ク対象のデータを出力する（図１４のステップ２７
０）。その後、キャッシュラインの有効フラグ２０をリ
セットしてキャッシュラインの無効化を行い、ライト要
求に対する処理を終了する（図１４のステップ２６
８）。一方、ライトバックが必要でないと判断した場合
は、そのままキャッシュラインの有効フラグ２０をリセ
ットしてキャッシュラインの無効化を行い、ライト要求
に対する処理を終了する（図１４のステップ２６８）。

【０１４８】以上、他のプロセッサからバスを通じてラ
イト要求を受信した場合、及びリード・ライト要求を受
信した場合のライト要求部分に対する、キャッシュメモ
リ１１及びキャッシュ制御部１２の動作を説明した。上
記したように、本実施形態の特徴の一つに、同じアドレ
スに対するバス要求を結合して同時に発行することがあ
る。さらに更新されて無効である可能性のあるキャッシ
ュラインへの処理を、前記バス要求により暗黙的に実行
することがある。これにより、発行されるバス要求を少
なくすることができ、バスの競合による性能低下が小さ
く、バスで消費される電力が小さいという効果がある。
上記説明では、同じアドレスに対するリード要求及びラ
イト要求を統合してリード・ライト要求としたが、さら
に同じアドレスに対するライトバック要求を統合しても
良い。

【０１４９】投機的なロード命令の実行に失敗した場合
など、スレッドの実行が取り消された場合には、まず、
キャッシュメモリ１１を構成するすべてのキャッシュラ
インのすべての投機ロード・フラグ２７をリセットする
ことで、投機実行したロード命令の記録を破棄する。次
に、キャッシュメモリ１１を構成するキャッシュライン
のうち、投機的なキャッシュラインの無効化を行うこと
で、投機実行に失敗して無効であるデータの破棄を行
う。具体的には、投機的なキャッシュラインのうち、該
キャッシュラインが投機的である原因のプロセッサで
も、スレッドの実行の取り消しが行われた場合、該キャ
ッシュラインの有効フラグ２０をリセットして無効化す
る。本実施例によれば、キャッシュラインが投機的なこ
とを示す投機フラグ２３を、複数のビットから構成して
おり、該キャッシュラインを投機的にならしめた原因の
プロセッサを特定することが可能である。このため、投
機フラグを１ビットで構成する従来の方法では、厳密に
は無効化が不必要なキャッシュラインも無効化されてし
まうのに対して、本実施例によれば、厳密に無効化が必
要なキャッシュラインのみが無効化されるため、キャッ
シュミスが発生する確率が小さく、高速なスレッド並列
処理が可能であるという効果がある。

【０１５０】一方、投機的なスレッドの実行が確定した
場合には、キャッシュメモリ１１を構成するキャッシュ
ラインのうち、投機的なキャッシュラインの確定を行う
ことで、投機実行に成功して確定したデータの有効化を
行う。この処理は、投機フラグ２３、ストア・フラグ２
７、及び投機ロード・フラグ２８をリセットすることで
実現できる。各プロセッサで実行されているスレッドの
うち、少なくともプログラム順序で最も先に位置するス
レッドは、実行が確定している。それ以外のスレッドの
実行は確定している場合と、投機的である場合がある
が、いずれにしても、先行するすべてのスレッドの実行
が終了し、自スレッドが実行中の最も先行するスレッド
になった時点で、実行が確定する。

【０１５１】以上、本発明を実施例を挙げて説明した
が、本発明は以上の実施例にのみ限定されず、その他各
種の付加変更が可能である。例えば、前記の実施例では
複数のスレッド実行部に共通にスレッド管理部を設ける
集中スレッド管理型の並列プロセッサシステムに本発明
を適用したが、スレッド実行部毎にスレッド管理部を設
ける分散スレッド管理型の並列プロセッサシステムにも
本発明は適用可能である。

【０１５２】

【発明の効果】以上説明したように本発明によれば、タ
ーム後で確定前のスレッドをその直後の子スレッドにマ
ージすることによってプロセッサ資源を有効に活用で
き、スレッドの並列度を高めることが可能となる。

【図面の簡単な説明】

【図１】本発明の作用の説明図である。

【図２】本発明の並列プロセッサシステムの一例を示す
ブロック図である。

【図３】本発明の並列プロセッサシステムにおけるスレ
ッド管理部の構成例を示すブロック図である。

【図４】本発明の並列プロセッサシステムにおけるスレ
ッド管理部のスレッド管理シーケンサがスレッド実行部
からフォーク要求を受信した際の処理例を示すフローチ
ャートである。

【図５】本発明の並列プロセッサシステムにおけるスレ
ッド管理部のスレッド管理シーケンサがスレッド実行部
からスレッド終了通知を受信した際の処理例を示すフロ
ーチャートである。

【図６】個々のプロセッサが固有に備えるキャッシュメ
モリを仮実行用バッファとして兼用する場合の問題点を
説明するためのスレッド実行シーケンス図である。

【図７】本発明の一実施例におけるキャッシュメモリの
制御方法の説明図である。

【図８】本発明の並列プロセッサシステムのスレッド実
行部の構成例を示すブロック図である。

【図９】キャッシュメモリを構成するキャッシュライン
の第１の実施例の詳細を示す説明図である。

【図１０】キャッシュメモリを構成するキャッシュライ
ンの第２の実施例の詳細を示す説明図である。

【図１１】ロード命令が発行された場合のキャッシュメ
モリ及びキャッシュ制御部の動作を示すフローチャート
である。

【図１２】ストア命令が発行された場合のキャッシュメ
モリ及びキャッシュ制御部の動作を示すフローチャート
である。

【図１３】リード要求を受信した場合のキャッシュメモ
リ及びキャッシュ制御部の動作を示すフローチャートで
ある。

【図１４】ライト要求を受信した場合のキャッシュメモ
リ及びキャッシュ制御部の動作を示すフローチャートで
ある。

【図１５】従来のマルチスレッド実行方法の処理の概要
を示す図である。

【図１６】従来の問題点の説明図である。

【符号の説明】

１−０〜１−３…スレッド実行部２…第１のバス３…スレッド管理部４…第２のバス５…メインメモリ

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 9/46 ３６０Ｇ０６Ｆ 9/46 ３６０Ｂ３６０Ｃ 15/16 ６１０ 15/16 ６１０Ｚ 15/177 ６７４ 15/177 ６７４Ａ (72)発明者松下智東京都港区芝五丁目７番１号日本電気株式会社内Ｆターム(参考） 5B005 JJ11 KK22 MM05 NN22 NN71 5B045 BB12 GG02 GG11 5B098 AA03 AA10 GA05 GC15 GD02 GD03 GD14 GD22

Claims

【特許請求の範囲】

【請求項１】単一のプログラムを複数のスレッドに分
割し複数のスレッド実行部で並列に実行するマルチスレ
ッド実行方法において、ターム後で確定前のスレッドを
持つスレッド実行部の前記スレッドをその直後の子スレ
ッドへマージし、前記スレッド実行部へ新たなスレッド
をフォークすることを特徴とするマルチスレッド実行方
法。
【請求項２】単一のプログラムを複数のスレッドに分
割し複数のスレッド実行部で並列に実行するマルチスレ
ッド実行方法において、個々のスレッド実行部を、フォ
ーク可能なフリー状態、スレッドを実行しているビジー
状態、ターム後で確定前のスレッドを持つターム状態の
３つの状態で管理し、新たなスレッドをフォークする
際、フリー状態のスレッド実行部が存在しない場合、タ
ーム状態のスレッド実行部が持つスレッドをその直後の
子スレッドへマージして当該スレッド実行部をフリー状
態にし、新たなスレッドをフォークすることを特徴とす
るマルチスレッド実行方法。
【請求項３】個々のスレッド実行部毎に仮実行用バッ
ファを備え、ターム状態のスレッド実行部が持つスレッ
ドをその直後の子スレッドへマージする際、ターム状態
のスレッド実行部の仮実行用バッファに保存されている
仮実行結果を前記子スレッドを実行するスレッド実行部
の仮実行用バッファへ転送する請求項１または２記載の
マルチスレッド実行方法。
【請求項４】個々のスレッド実行部毎に仮実行用バッ
ファを兼ねるキャッシュメモリを備え、前記キャッシュ
メモリの各キャッシュライン毎に、ターム後で確定前の
スレッドが生成したデータと前記マージ後に新たに生成
されたスレッドが生成したデータとを区別するバージョ
ン情報を保持し、各スレッド実行部のキャッシュメモリ
は、他のスレッド実行部からのアクセスに対して、前記
バージョン情報とスレッドの逐次実行順序とを考慮した
選択的な応答を行う請求項１または２記載のマルチスレ
ッド実行方法。
【請求項５】各スレッド実行部で実行されるスレッド
が自身のキャッシュメモリに書き込みを行う際、書き込
み対象となるキャッシュラインのバージョン情報が自ス
レッドのバージョンより古い場合、当該キャッシュライ
ンのバージョンが親スレッドの終了に応じて適宜変更さ
れて自スレッドのバージョンに一致するまで待ち合わせ
を行う請求項４記載のマルチスレッド実行方法。
【請求項６】単一のプログラムを複数のスレッドに分
割し複数のスレッド実行部で並列に実行する並列プロセ
ッサシステムにおいて、各スレッド実行部を相互に接続
する通信路と、ターム後で確定前のスレッドを持つスレ
ッド実行部の前記スレッドをその直後の子スレッドへマ
ージし、前記スレッド実行部へ新たなスレッドをフォー
クする手段とを含むことを特徴とする並列プロセッサシ
ステム。
【請求項７】単一のプログラムを複数のスレッドに分
割し複数のスレッド実行部で並列に実行する並列プロセ
ッサシステムにおいて、各スレッド実行部を相互に接続
する通信路と、個々のスレッド実行部を、フォーク可能
なフリー状態、スレッドを実行しているビジー状態、タ
ーム後で確定前のスレッドを持つターム状態の３つの状
態で管理する手段と、新たなスレッドをフォークする
際、フリー状態のスレッド実行部が存在しない場合、タ
ーム状態のスレッド実行部が持つスレッドをその直後の
子スレッドへマージして当該スレッド実行部をフリー状
態にし、新たなスレッドをフォークする手段とを含むこ
とを特徴とする並列プロセッサシステム。
【請求項８】個々のスレッド実行部毎に仮実行用バッ
ファを備え、ターム状態のスレッド実行部が持つスレッ
ドをその直後の子スレッドへマージする際、ターム状態
のスレッド実行部の仮実行用バッファに保存されている
仮実行結果を前記子スレッドを実行するスレッド実行部
の仮実行用バッファへ転送する構成を有する請求項６ま
たは７記載の並列プロセッサシステム。
【請求項９】個々のスレッド実行部毎に仮実行用バッ
ファを兼ねるキャッシュメモリを備え、前記キャッシュ
メモリの各キャッシュライン毎に、ターム後で確定前の
スレッドが生成したデータと前記マージ後に新たに生成
されたスレッドが生成したデータとを区別するバージョ
ン情報を保持し、各スレッド実行部のキャッシュメモリ
は、他のスレッド実行部からのアクセスに対して、前記
バージョン情報とスレッドの逐次実行順序とを考慮した
選択的な応答を行う構成を有する請求項６または７記載
の並列プロセッサシステム。
【請求項１０】各スレッド実行部のキャッシュメモリ
は、自スレッド実行部で実行されるスレッドからの書き
込み時、書き込み対象となるキャッシュラインのバージ
ョン情報が前記スレッドのバージョンより古い場合、当
該キャッシュラインのバージョンが親スレッドの終了に
応じて適宜変更されて前記スレッドのバージョンに一致
するまで待ち合わせを行う構成を有する請求項９記載の
並列プロセッサシステム。