JP2003030049A

JP2003030049A - キャッシュメモリ制御方法及びマルチプロセッサシステム

Info

Publication number: JP2003030049A
Application number: JP2001212250A
Authority: JP
Inventors: Mitsufumi Shibayama; 充文柴山; Satoshi Matsushita; 智松下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-07-12
Filing date: 2001-07-12
Publication date: 2003-01-31
Anticipated expiration: 2021-07-12
Also published as: GB0216270D0; GB2380292A; US6950908B2; JP3661614B2; GB2380292B; US20030014602A1

Abstract

(57)【要約】【課題】複数のプロセッサから構成されるマルチプロ
セッサシステムにおけるスレッド並列処理において、デ
ータ整合性を効率良く維持する。【解決手段】プロセッサ＃０〜＃３は実行順序関係が
規定された複数のスレッドを並列に実行する。或るスレ
ッドを実行するプロセッサ＃１が自キャッシュメモリ＃
１を更新すると、同アドレスのデータが、子スレッドを
実行するプロセッサ＃２のキャッシュメモリ＃２にあれ
ば同時に更新するが、親スレッドを実行するプロセッサ
＃０のキャッシュメモリ＃０にあっても書き換えず、書
き換えがあった旨を記録する。プロセッサ＃０でスレッ
ドが終了した際、子スレッドから書き込みのあった旨が
記録されたキャッシュラインは無効の可能性があり、記
録の無いキャッシュラインは有効と判断される。無効の
可能性があるキャッシュラインは、次のスレッドの実行
中に実際に無効か否かが調べられる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マイクロプロセッ
サ等のデータ処理装置に関し、特にマイクロプロセッサ
の性能向上に関する。より詳細には、複数のスレッドを
同時に実行するマイクロプロセッサのキャッシュメモリ
制御方法に関する。

【０００２】

【従来の技術】従来より、マイクロプロセッサの性能向
上技術として、マイクロプロセッサが実行するプログラ
ム中の命令の順序とは異なる順序で命令の実行を行う非
プログラム順序実行（アウトオブオーダ実行）技術が広
く使われている。プロセッサが非プログラム順序実行を
行う場合、実行可能になった命令から実行を行うため、
プログラム中の命令の順序で実行を行うプログラム順序
実行（インオーダ実行）を行うのに比べて、プロセッサ
の性能を向上させることが可能となる。

【０００３】しかしながら、非プログラム順序実行は無
条件に行えるわけではない。特にメモリに対して操作を
行う命令（メモリ操作命令）に対しては、非プログラム
順序実行に際して、メモリに関する依存関係に対して考
慮が必要となる。通常、メモリ操作命令にはメモリから
データを読み出すロード命令と、メモリへデータを書き
込むストア命令が含まれる。プログラム中に出現するあ
る２つのロード命令またはストア命令が対象とするアド
レスが互いに異なれば、メモリの異なる位置が読み出し
または書き込みの対象となるため、それら２つのロード
命令またはストア命令の間にはメモリに関して依存関係
は存在しない。すなわち、それら２つの命令は非プログ
ラム順序で実行することが可能である。

【０００４】一方、プログラム中に出現するある２つの
ロード命令またはストア命令が対象とするアドレスが同
じ場合、メモリの同じ位置が読み出しまたは書き込みの
対象となるため、それら２つのロード命令またはストア
命令間には、メモリに関して依存関係が存在する。例え
ば、プログラム順序で前にあるストア命令が書き込みを
行うアドレスに対して、プログラム順序でそれより後に
あるロード命令が読み出しを行う場合、前にあるストア
命令から後にあるロード命令へメモリに関する正依存関
係があるという。この場合、それら２つのロード命令、
ストア命令をプログラム順序とは逆の順序で実行を行う
と、プログラムの意味が変わってしまい、正しいプログ
ラムの実行結果を得ることができない。すなわち、メモ
リに関して正依存関係がある場合、非プログラム順序で
実行を行うことができない。同様にして、プログラム順
序で前にあるロード命令が読み出しを行うアドレスに対
して、プログラム順序でそれより後にあるストア命令が
書き込みを行う場合、前にあるロード命令から後にある
ストア命令へメモリに関する逆依存関係があるという。
また、プログラム順序で前にあるストア命令が書き込み
を行うアドレスに対して、プログラム順序でそれより後
にあるストア命令も書き込みを行う場合、前にあるスト
ア命令から後にあるストア命令へメモリに関する出力依
存関係があるという。いずれの場合も、それら２つのロ
ード・ストア命令をプログラム順序とは逆の順序で、そ
のまま実行してしまうと、プログラムの意味が変わって
しまい、正しいプログラムの実行結果を得ることができ
ない。

【０００５】メモリに関する逆依存関係及び出力依存関
係に対しては、ストア命令が書き込みを行うデータを一
時的なバッファ（通常ストアバッファと呼ばれる）に一
時的に格納するなどの対応で、逆依存関係あるいは出力
依存関係を解消し、非プログラム順序実行を可能とする
技術が従来より知られている。一方、正依存関係が存在
する場合は、本質的に非プログラム順序で実行を行うこ
とができず、プログラム順序で実行を行うことになる。
しかしながら、ロード・ストア命令が対象とするアドレ
スは実行時まで不明である場合が多いため、非プログラ
ム順序で実行を行えないことによる性能への影響が大き
いという問題がある。

【０００６】この問題に対して、正依存関係の有無が判
明するよりも以前に、正依存関係が存在しないと仮定し
て、投機的に非プログラム順序で実行する、データ依存
投機実行が従来より知られている。データ依存投機実行
においては、実際に正依存関係が存在せず投機実行が成
功する場合と、実際に正依存関係が存在して投機実行が
失敗する場合があり、正依存関係の有無が判明した時点
で、そのいずれであるかを判定する必要がある。実際に
正依存関係が存在せず投機実行が成功した場合、そのま
ま後続の命令実行を継続することが可能であり、データ
依存投機実行による非プログラム順序実行を行った分だ
け、実行性能の向上が期待できる。一方、実際に正依存
関係が存在して投機実行が失敗した場合、プログラムの
意味が変わってしまうため、プログラムの正しい実行結
果が保証できなくなる。そのため、データ依存投機実行
による非プログラム順序実行を行った命令の結果を取り
消して、再びプログラム順序で再実行するなどのデータ
依存投機実行の失敗に対する回復処理が必要となる。投
機実行が失敗した場合、失敗した命令の取り消しや回復
処理のために、プログラム順序実行するよりも性能が低
下することが多い。しかし、投機実行に失敗する場合よ
りも成功する場合の確率が十分に高ければ、プログラム
全体としての実行性能の向上が期待できることになる。
なお、非プログラム順序実行については、マイク・ジョ
ンソンによる文献、“スーパースカラ・プロセッサ”、
日経ＢＰ出版センター、１９９４年、に詳しい。また、
投機実行の失敗による回復処理方法については、例え
ば、特開平５−２２４９２７号公報に開示されている方
法がある。

【０００７】さらに近年、単一のプログラムあるいは複
数のプログラムをスレッドと呼ぶ複数のプログラムの部
分単位に分割し、それぞれのスレッドを複数のプロセッ
サなどで並列に処理することでプログラム実行を高速化
するスレッド並列処理が注目されている。スレッドはプ
ログラムの一部分単位であり、複数の命令からなる命令
列なので、複数のスレッド間で順序関係が定義される場
合がある。例えば、同一のプログラムに属する２つのス
レッドをそれぞれＴ０、Ｔ１としたとき、Ｔ０とＴ１の
間にはそのプログラム中の位置関係により、明確に順序
関係が存在する。仮に、プログラムにおいてＴ０がＴ１
よりも前に位置しているならば、プログラムの意味上、
Ｔ０がＴ１よりも前に実行されることを期待されている
ことになる。逆に、プログラムにおいてＴ１がＴ０より
も前に位置しているならば、プログラムの意味上、Ｔ１
がＴ０よりも前に実行されることを期待されていること
になる。スレッド並列処理では、スレッド間の順序関係
に起因するメモリ依存関係に考慮し、プログラムの正し
い実行結果を保証しつつ、スレッド間の順序関係によら
ずにスレッドの実行を並列に行うことで、プログラム実
行を高速化する。命令単位の非プログラム順序実行と対
比して、スレッド単位の非プログラム順序実行と位置づ
けられる。

【０００８】スレッド単位の非プログラム順序実行にお
いても、正しいプログラムの実行結果を得るためには、
スレッドが含む命令間の依存関係の解消や保証が必要で
ある。しかしながら、命令単位の非プログラム順序実行
と同様に、特にメモリに関する正依存関係に対しては、
本質的にプログラム順序で実行する必要があり、かつ、
確定的にプログラム順序実行を行うと、非プログラム順
序実行の実行性能向上の効果が十分得られないという問
題がある。特に、スレッド単位の非プログラム順序実行
では、複数の命令からなるスレッド単位で、非プログラ
ム順序実行が妨げられるので、より問題は深刻である。
この問題への対応としては、命令単位の非プログラム順
序実行と同様に、データ依存投機実行が有効である。す
わなち、スレッドが含む命令間の正依存関係の有無が判
明するよりも以前に、正依存関係が存在しないと仮定し
て、投機的にスレッドの非プログラム順序実行を行う、
スレッド単位のデータ依存投機実行である。

【０００９】一方、メモリに関する逆依存関係及び出力
依存関係に対しては、命令単位の非プログラム順序実行
と同様に、ストア命令が書き込みを行うデータを、プロ
セッサに固有のバッファやメモリに一時的に格納するな
どの対応で、逆依存関係あるいは出力依存関係を解消し
て、非プログラム順序実行することが可能となる。

【００１０】例えば、それぞれが固有のキャッシュメモ
リを備える複数のプロセッサから構成されるマルチプロ
セッサシステムにおけるスレッド並列処理に関して、例
えば特許第３１３９３９２号公報（以下、文献１と称
す）に、メモリに関する逆依存関係及び出力依存関係を
解消するキャッシュメモリの制御方式が開示されてい
る。

【００１１】図１１は、上記文献１によるマルチプロセ
ッサシステムの構成例を示す図である。図１１を参照す
ると、文献１によるマルチプロセッサシステムは、４つ
のスレッド実行部＃０〜＃３（符号１００）、４つのキ
ャッシュメモリ＃０〜＃３（符号１０１）、４つの整合
性維持部＃０〜＃３（符号１０２）、共有バス（符号１
０３）、及びメインメモリ（符号１０４）、から構成さ
れる。

【００１２】スレッド実行部＃０は、キャッシュメモリ
＃０、及び整合性維持部＃０と、スレッド実行部＃１
は、キャッシュメモリ＃１、及び整合性維持部＃１と、
スレッド実行部＃２は、キャッシュメモリ＃２、及び整
合性維持部＃２と、スレッド実行部＃３は、キャッシュ
メモリ＃３、及び整合性維持部＃３とそれぞれ接続さ
れ、それぞれ並列にスレッドを実行する。さらに、整合
性維持部＃０〜＃３は共有バス１０３を通じて、互い
に、及びメインメモリ１０４と接続され、他の整合性維
持部及びメインメモリとメモリ操作命令が対象とするメ
モリデータの受渡しをなどを制御する。このとき、メモ
リに関する逆依存関係、及び出力依存関係を考慮して、
メモリデータ間の整合性の維持が図られる。

【００１３】メモリデータ間の整合性の維持方法をより
詳細に説明する。まず、あるスレッド実行部がストア命
令を実行した際には、該スレッド実行部に固有のキャッ
シュメモリに、該ストア命令のストア・データを格納す
るとともに、該スレッド実行部が実行するスレッドより
も、プログラム順序で後に位置するスレッドを実行する
スレッド実行部に固有のキャッシュメモリに、該ストア
命令のストア・データを格納する。

【００１４】また、あるスレッド実行部が実行するスレ
ッドよりもプログラム順序で前に位置するスレッドが、
他のいずれかのスレッド実行部で実行されている場合に
は、該スレッド実行部に固有のキャッシュメモリに格納
したストア命令のストア・データの、メインメモリへの
書き戻しを禁止する。

【００１５】また、あるスレッド実行部が実行するスレ
ッド（自スレッド）が、他のいずれのスレッド実行部で
実行されているスレッドよりもプログラム順序で前に位
置し、かつ自スレッドの実行が終了したならば、該スレ
ッド実行部に固有のキャッシュメモリに格納したすべて
のストア命令のストア・データをメインメモリへ書き戻
した後、キャッシュメモリ上のすべてのデータを無効化
する。

【００１６】また、あるスレッド実行部に固有のキャッ
シュメモリでキャッシュミスが発生した場合、該スレッ
ド実行部が実行するスレッドよりもプログラム順序で前
に位置するスレッドを実行するスレッド実行部に固有の
キャッシュメモリに、発生したキャッシュミスと同じア
ドレスのデータが存在すれば、そのデータを前記キャッ
シュミスが発生したキャッシュメモリに転送し、発生し
たキャッシュミスと同じアドレスのデータが存在しなけ
れば、データをメインメモリから前記キャッシュミスが
発生したキャッシュメモリに転送する。

【００１７】整合性維持部＃０〜３は、上記した操作を
行うよう制御を行うことで、メモリに関する逆依存関
係、及び出力依存関係を解消し、スレッド単位の非プロ
グラム順序実行を実現する。一方、上記文献１によるマ
ルチプロセッサシステムは、正依存関係には対応してお
らず、正依存関係が存在する可能性のある場合、非プロ
グラム順序でスレッド実行を行うことはできない。

【００１８】また、それぞれが固有のキャッシュメモリ
を備える複数のプロセッサから構成されるマルチプロセ
ッサシステムにおけるスレッド並列処理に関して、メモ
リに関する逆依存関係及び出力依存関係に加えて、正依
存関係にも対応するキャッシュメモリの制御方式の例と
して、S.Gopal,T.N.Vijaykumar, J.E.Smith, G.S.Sohi
らによる論文 "Speculative Versioning Cache", In Pr
oceedings of the 4thInternationalSymposium on High
-Performance Computer Architecture, February 1998.
（以下、文献２と称す）があげられる。

【００１９】図１２は、上記文献２によるマルチプロセ
ッサシステムの構成例を示す図である。図１２を参照す
ると、文献２によるマルチプロセッサシステムは、４つ
のプロセッサ＃０〜＃３（符号１１０）、４つのキャッ
シュメモリであるＳＶＣ＃０〜＃３（符号１１１）、ス
ヌープ・バス（符号１１２）、バス・アービタ／バージ
ョン制御論理（符号１１３）、及びメインメモリ（符号
１１４）、から構成される。

【００２０】プロセッサ＃０はＳＶＣ＃０と、プロセッ
サ＃１はＳＶＣ＃１と、プロセッサ＃２はＳＶＣ＃２
と、プロセッサ＃３はＳＶＣ＃３と、それぞれ接続さ
れ、それぞれ並列にスレッドを実行する。さらに、各Ｓ
ＶＣ＃０〜３は、バス・アービタ／バージョン制御論理
１１３の制御下で、スヌープ・バス１１２を通じ、他の
ＳＶＣ及びメインメモリとメモリ操作命令が対象とする
メモリデータの受渡しを行う。このとき、メモリに関す
る逆依存関係、及び出力依存関係を考慮して、メモリデ
ータ間の整合性の維持が図られる。また、ＳＶＣはメモ
リに関する正依存関係を検出する機能、及び投機的なス
レッド実行の結果を取り消す機能を有し、正依存関係が
検出された場合には、スレッドを再実行することによ
り、データ依存投機実行を実現する。

【００２１】ＳＶＣを構成するキャッシュラインは、他
のＳＶＣを指し示すポインタを記憶するエントリを含
み、各ＳＶＣが同アドレスのデータを保持する場合、そ
れらデータ間のプログラム順序における前後関係を線形
リストの構造で記憶することを特徴とする。バス・アー
ビタ／バージョン制御論理１１３はこの線形リスト構造
を参照して、メモリに関する依存関係の制御を行う。

【００２２】上記文献２による、ＳＶＣを含むマルチプ
ロセッサシステムの動作の特徴をより詳細に説明する。
まず、あるプロセッサが正依存関係に関して投機的なロ
ード命令を実行した際には、該プロセッサに固有のＳＶ
Ｃに存在する、該ロード命令のデータを含むキャッシュ
ラインに、投機的なロード命令を実行したことを示すフ
ラグをセットする。

【００２３】また、あるプロセッサＰ０がストア命令を
実行した際には、プロセッサＰ０に固有のＳＶＣに該ス
トア命令のストア・データを格納する。同時に、プロセ
ッサＰ０が実行するスレッドＳ０よりもプログラム順序
で後に位置するスレッドＳ１を実行するプロセッサＰ１
に固有のＳＶＣに該ストア命令と同アドレスのデータが
存在し、かつスレッドＳ０よりもプログラム順序で後に
位置するスレッドにより更新されていないならば、プロ
セッサＰ１のＳＶＣにある前記該ストア命令と同アドレ
スのデータを含むキャッシュラインを無効化する。さら
に、そのキャッシュラインに前記投機的なロード命令を
実行したことを示すフラグがセットされていたならば、
ロード命令の投機実行は失敗したと判定し、プロセッサ
Ｐ１へスレッド実行の取り消し及び再実行を要求する機
能を有する。

【００２４】また、あるプロセッサが実行するスレッド
よりもプログラム順序で前に位置するスレッドが、他の
いずれかのプロセッサで実行されている場合には、該プ
ロセッサに固有のＳＶＣに格納したストア命令のストア
・データの、メインメモリへの書き戻しを禁止する。

【００２５】また、あるプロセッサが実行するスレッド
が、他のいずれのプロセッサで実行されているスレッド
よりも、プログラム順序で前に位置し、かつ該スレッド
の実行が終了したならば、該プロセッサに固有のＳＶＣ
に格納されているすべてのキャッシュラインに、データ
が確定されたことを示すフラグをセットする。一方、あ
るメモリ操作命令がＳＶＣをアクセスした際に、アクセ
ス対象のキャッシュラインの前記データが確定されたこ
とを示すフラグがセットされていたならば、バス・アー
ビタ／バージョン制御論理１１３により、すべてのＳＶ
Ｃを参照して、有効なキャッシュラインを得ることを特
徴とする。

【００２６】また、あるプロセッサに固有のＳＶＣでキ
ャッシュミスが発生した場合、該プロセッサが実行する
スレッドよりもプログラム順序で前に位置するスレッド
を実行するプロセッサに固有のＳＶＣに、発生したキャ
ッシュミスと同じアドレスのデータが存在すれば、その
データを前記キャッシュミスが発生したＳＶＣに転送
し、発生したキャッシュミスと同じアドレスのデータが
存在しなければ、データをメインメモリから前記キャッ
シュミスが発生したＳＶＣに転送する。

【００２７】すなわち、上記文献２によるＳＶＣは、各
ＳＶＣが保持するデータのプログラム順序上の前後関係
を線形リスト構造の形で、明示的に、キャッシュライン
単位で記憶及び管理を行い、バス・アービタ／バージョ
ン制御論理１１３がそれに基づいて、メモリ依存関係に
関する制御を行うことを特徴としている。

【００２８】

【発明が解決しようとする課題】しかしながら、上記し
た文献１に開示されたキャッシュメモリ制御方式は、ス
レッドの実行が終了してデータが確定した際に、該スレ
ッドが更新したすべてのデータのメインメモリへの書き
戻しが集中して発生する為、特にスレッドの大きさが小
さい場合にプログラムの実行性能が低下するという問題
がある。また、キャッシュメモリ上のすべてのデータが
無効化されるため、次に実行されるスレッドでキャッシ
ュミスが多発し、プログラムの実行性能が低下するとい
う問題がある。さらに、メモリに正依存関係が存在する
場合、スレッドを非プログラム順序で並列に実行するこ
とができないため、プログラムの実行性能が低下すると
いう問題がある。

【００２９】また、上記した文献２に記載されているキ
ャッシュメモリ制御方式は、文献１の上記問題は回避さ
れているものの、ストア命令等の書き込みを実行した際
には、プログラム順序で後に位置するスレッドを実行す
るプロセッサのＳＶＣが保持しているデータが無効化さ
れる為、スレッド間で通信が多い場合、キャッシュミス
が多発し、プログラムの実行性能が低下するという問題
がある。さらに、前記無効化を実行するためには、スト
ア命令による書き込みのデータ単位で、データの状態を
示すフラグや、データ間の順序関係を示す線形リスト構
造の保持や管理をする必要がある為、必要なハードウェ
ア量が大きいという問題がある。また、データのプログ
ラム順序上の前後関係を線形リスト構造で保持する為、
特にスレッド実行の取り消しなどでリストが切断された
時などに、依存関係の処理が複雑であり、高速化が困難
であるという問題がある。

【００３０】

【発明の目的】本発明は上述の問題に鑑みてなされたも
のであり、その目的は、それぞれが固有のキャッシュメ
モリを備える複数のプロセッサから構成されるマルチプ
ロセッサシステムにおけるスレッド並列処理に関して、
メモリに関する依存関係を解消するキャッシュメモリ制
御方法であって、スレッドの大きさが小さく、スレッド
間の通信が多い場合であっても、高速にスレッド並列処
理が可能なキャッシュメモリ制御方法を提供することに
ある。

【００３１】また、本発明の別の目的は、必要なハード
ウェア量が小さくなるキャッシュメモリ制御方法を提供
することにある。

【００３２】また、本発明の更に別の目的は、消費電力
が小さく、制御が単純で高速化が容易なキャッシュメモ
リ制御方法を提供することにある。

【００３３】

【課題を解決するための手段】上記の目的を達成する為
に、本発明は、それぞれが固有のキャッシュメモリを備
える複数のプロセッサから構成されるマルチプロセッサ
システムにおいて、スレッド間のメモリに関する依存関
係を効率的に解消するキャッシュメモリ制御方法及びマ
ルチプロセッサシステムを提供する。

【００３４】具体的には、キャッシュメモリを構成する
キャッシュライン毎に、そのキャッシュラインを更新し
たプロセッサを特定する更新フラグを具備し、キャッシ
ュメモリのあるキャッシュラインをアクセスした際に
は、前記更新フラグ及び必要であれば他のキャッシュメ
モリが保持するキャッシュラインの状態を参照して、前
記アクセスしたキャッシュラインが有効か否かを判定す
る。また、あるプロセッサがストア命令を実行した際に
は、該プロセッサに固有のキャッシュメモリに該ストア
命令のストア・データを格納するのに加えて、該プロセ
ッサが実行するスレッドよりもプログラム順序で後に位
置するスレッドを実行するプロセッサに固有のキャッシ
ュメモリに、該ストア命令と同アドレスのキャッシュラ
インが存在した場合、ストア・データのなかの有効なデ
ータ部分の更新を行う。一方、該プロセッサが実行する
スレッドよりもプログラム順序で前に位置するスレッド
を実行するプロセッサに固有のキャッシュメモリに、該
ストア命令と同アドレスのキャッシュラインが存在した
場合、前記更新フラグに該ストア命令を実行したプロセ
ッサにより更新された旨を記憶する。

【００３５】

【作用】本発明にあっては、キャッシュメモリを構成す
るキャッシュラインに、どのプロセッサが更新したかを
示す更新フラグを具備し、キャッシュメモリをアクセス
する際には、前記更新フラグ及び必要であれば他のキャ
ッシュメモリが保持するキャッシュラインの状態を参照
して、そのキャッシュラインが有効か否かを判定する。
また、あるプロセッサがストア命令を実行した際には、
該プロセッサに固有のキャッシュメモリに、該ストア命
令のストア・データを格納するのに加えて、該プロセッ
サが実行するスレッドよりも、プログラム順序で後に位
置するスレッドを実行するプロセッサに固有のキャッシ
ュメモリに、該ストア命令と同アドレスのキャッシュラ
インが存在した場合、同アドレスのデータを保持するす
べてのキャッシュラインを参照して、有効なデータ部分
を算出し、有効なデータ部分のみ更新を行う。一方、該
プロセッサが実行するスレッドよりも、プログラム順序
で前に位置するスレッドを実行するプロセッサに固有の
キャッシュメモリに、該ストア命令と同アドレスのキャ
ッシュラインが存在した場合、該ストア命令を実行した
プロセッサに対応する前記更新フラグをセットする。さ
らに、スレッドの実行が終了し、該スレッドにより生成
されたデータが確定した際には、前記更新フラグの効果
を有効にする。

【００３６】

【発明の実施の形態】図面を参照しながら、本発明の実
施の形態について詳細に説明する。

【００３７】図１は、本実施形態によるキャッシュメモ
リ装置を含むマルチプロセッサシステムの構成を示すブ
ロック図である。図１を参照すると、本実施形態による
マルチプロセッサシステムは、４つのプロセッサ＃０〜
＃３（符号１０）、４つのキャッシュメモリ＃０〜＃３
（符号１１）、４つのキャッシュ制御部＃０〜＃３（符
号１２）、要求バス（符号１３）、応答バス（符号１
４）、データバス（符号１５）、スレッド制御バス（符
号１６）、バス制御部（符号１７）、及びメインメモリ
（符号１８）から構成される。

【００３８】プロセッサ＃０は、キャッシュメモリ＃
０、及びキャッシュ制御部＃０と、プロセッサ＃１は、
キャッシュメモリ＃１、及びキャッシュ制御部＃１と、
プロセッサ＃２は、キャッシュメモリ＃２、及びキャッ
シュ制御部＃２と、プロセッサ＃３は、キャッシュメモ
リ＃３、及びキャッシュ制御部＃３と、それぞれ接続さ
れ、それぞれ並列にスレッドを実行する。さらに、各プ
ロセッサ＃０〜＃３は、互いにスレッド制御バス１６に
より接続され、スレッドの生成、スレッド実行の終了や
取り消し、スレッド間の順序関係、等のスレッド実行に
関する制御情報が伝達される。各プロセッサ＃０〜＃３
は、前記スレッド制御バス１６により伝達されるスレッ
ド制御情報を参照して、自身が実行しているスレッドと
他のプロセッサが実行しているスレッドとの順序関係を
知ることができる。また、各キャッシュ制御部＃０〜＃
３は、要求バス１３、応答バス１４、データバス１５を
通じて、他のプロセッサ及びメインメモリとメモリ操作
命令が対象とするメモリデータの受渡しを制御する。こ
のとき、プロセッサより通知されるスレッドの順序関係
を参照し、メモリに関する正依存関係、逆依存関係、及
び出力依存関係を考慮して、メモリデータ間の整合性の
維持を図る。要求バス１３、応答バス１４、データバス
１５はそれぞれ一本のバスを各プロセッサで共有しても
よいし、プロセッサ数分だけ固有のバスを備えてもよ
い。以下では、要求バス１３、応答バス１４、及びデー
タバス１５を総称して単にバスとも表記する。

【００３９】図２は、キャッシュメモリ１１を構成する
キャッシュラインの詳細を示す説明図である。一つのキ
ャッシュラインは、アドレスタグ２５によって示される
アドレス範囲にあるデータを保持する。図２を参照する
と、キャッシュメモリを構成するキャッシュラインは、
有効フラグ（符号２０）、変更フラグ（符号２１）、共
有フラグ（符号２２）、投機フラグ（符号２３）、更新
フラグ（符号２４）、アドレスタグ（符号２５）、複数
のデータエントリ（符号２６）、複数のストア・フラグ
（符号２７）、複数の投機ロード・フラグ（符号２
８）、から構成される。

【００４０】有効フラグ２０は、そのキャッシュライン
が有効であることを示す。有効フラグ２０は、キャッシ
ュミスが発生した時など、データをキャッシュメモリに
転送し、キャッシュラインを生成する（リフィルする）
際にセットし、キャッシュラインを入れ換える時など、
キャッシュラインを無効化する際にリセットする。

【００４１】変更フラグ２１は、そのキャッシュライン
のデータをストア命令等で変更しており、メインメモリ
にあるデータと異なっていることを示す。変更フラグ２
１は、ストア命令等のデータの書き込みを実行した際に
セットし、キャッシュラインのメインメモリへの書き戻
し（ライトバック）を行った際にリセットする。

【００４２】共有フラグ２２は、そのキャッシュライン
と同アドレスのキャッシュラインを、他のプロセッサに
固有のキャッシュメモリも保持し、データを共有してい
ることを示す。本実施形態による共有フラグは、マルチ
プロセッサシステムが備えるプロセッサ数分のフラグを
備えることを特徴とする。すなわち、それぞれのフラグ
部分が各プロセッサに対応しており、フラグがセットさ
れている場合、該フラグに対応するプロセッサとデータ
を共有していることを示し、フラグがリセットされてい
る場合、該フラグに対応するプロセッサとデータを共有
していないことを示す。したがって、共有フラグ２２を
参照すると、共有対象のプロセッサを特定することが可
能である。共有フラグ２２はバスアクセスが行われた際
にセットまたはリセットされる。詳細には、あるプロセ
ッサがキャッシュ制御部１２を通じてバスアクセスを行
った際には、全てのプロセッサのキャッシュ制御部１２
には、応答バス１４を通じてすべてのキャッシュメモリ
１１のキャッシュライン状態が通知される。このとき、
どのプロセッサと共有しているかが判明するので、共有
フラグ２２を構成するフラグのうち、共有しているプロ
セッサに対応するフラグをセットし、共有していないプ
ロセッサに対応するフラグをリセットする。

【００４３】投機フラグ２３は、そのキャッシュライン
のデータが投機的なデータを含んでいることを示す。本
実施形態による投機フラグは、マルチプロセッサシステ
ムが備えるプロセッサ数分のフラグを備えることを特徴
とする。すなわち、それぞれのフラグ部分が各プロセッ
サに対応しており、フラグがセットされている場合、該
フラグに対応するプロセッサが、データが投機的である
原因であることを示す。したがって、投機フラグ２３を
参照すると、該キャッシュラインのデータを投機的にな
らしめた原因のプロセッサを特定することが可能であ
る。投機フラグ２３は、キャッシュラインをリフィルす
る際、他のプロセッサのキャッシュメモリが保持してい
る投機的なキャッシュラインからリフィル・データを得
た場合、投機フラグ２３の前記他のプロセッサに対応す
るフラグをセットする。また、自プロセッサが実行する
スレッド（以下では、自スレッドと表記する）が含む投
機的なストア命令により、投機的なデータでキャッシュ
ラインを更新した場合、投機フラグ２３の自プロセッサ
に対応するフラグをセットする。また、プログラム順序
で先行するスレッド（以下では、親スレッドと表記す
る）が含む投機的なストア命令により、投機的なデータ
でキャッシュラインを更新した場合、投機フラグ２３の
前記親スレッドを実行するプロセッサに対応するフラグ
部分をセットする。一方、投機フラグ２３は、自スレッ
ドの投機的な実行が確定して、そのキャッシュラインの
データが確定した際にリセットされる。

【００４４】更新フラグ２４は、プログラム順序で後に
位置するスレッド（以下、子スレッドと表記する）によ
り、そのキャッシュラインのデータが更新されたことを
示す。すなわち、そのキャッシュラインのデータは、該
プロセッサが実行する現スレッドには有効であるが、該
プロセッサに次に割り当てられるスレッドには有効でな
い可能性があることを意味する。更新フラグ２４は、１
ビットの更新有効フラグ２４ａと、マルチプロセッサシ
ステムが備える、自プロセッサを除くプロセッサ数ビッ
ト分の更新対象フラグ２４ｂとから構成される。更新有
効フラグ２４ａは更新フラグ２４全体が有効であること
を示す。スレッドが終了した際には、すべての更新有効
フラグ２４ａがセットされるが、別の実施形態として、
更新対象フラグ２４ｂのいずれかがセットされている更
新フラグ２４の更新有効フラグ２４ａのみをセットして
もよい。更新有効フラグ２４ａがセットされていて、か
つ、更新対象フラグ２４ｂのいずれかがセットされてい
る場合、当該キャッシュラインは次に実行されるスレッ
ドでは有効でない可能性があることが示される。実際に
当該キャッシュラインが有効か否かは、キャッシュミス
時などに伴うバス要求の入出力時にキャッシュ制御部ど
うしで交換されるキャッシュライン状態によって調べら
れ、若し有効であれば更新対象フラグ２４ｂと共に更新
有効フラグ２４ａがリセットされる。他方、更新有効フ
ラグ２４ａがリセットされているか、更新対象フラグ２
４ｂの全てがリセットされていれば、当該キャッシュラ
インは次に実行されるスレッドでも有効であることが示
される。各更新対象フラグ２４ｂは、それぞれが他のプ
ロセッサに対応し、対応するプロセッサにより該キャッ
シュラインが更新されたことを示す。

【００４５】データエントリ２６は、そのキャッシュラ
インのメモリデータを保持する。通常、一つのキャッシ
ュラインは、アドレスタグ２５が指定するアドレス範囲
を構成する複数のデータエントリを備え、それぞれのデ
ータエントリは、ストア命令等による書き込みの最小の
データ単位である。図２においては、複数のデータエン
トリ２６のそれぞれをデータエントリ２６ａ、データエ
ントリ２６ｂ、データエントリ２６ｃ、データエントリ
２６ｄ、…、と表記して区別している。

【００４６】ストア・フラグ２７は、対応するデータエ
ントリに、自プロセッサがストア命令などで書き込みを
行ったことを示す。図２においては、ストア・フラグ２
７ａはデータエントリ２６ａに、ストア・フラグ２７ｂ
はデータエントリ２６ｂに、ストア・フラグ２７ｃはデ
ータエントリ２６ｃに、ストア・フラグ２７ｄはデータ
エントリ２６ｄに、それぞれ対応する。ストア・フラグ
は自プロセッサが書き込みを行った際にセットし、スレ
ッドの実行が終了した際にリセットされる。

【００４７】投機ロード・フラグ２８は、対応するデー
タエントリに、自プロセッサが投機的な読み出しを行っ
たことを示す。図２においては、投機ロード・フラグ２
８ａはデータエントリ２６ａに、投機ロード・フラグ２
８ｂはデータエントリ２６ｂに、投機ロード・フラグ２
８ｃはデータエントリ２６ｃに、投機ロード・フラグ２
８ｄはデータエントリ２６ｄに、それぞれ対応する。投
機ロード・フラグは投機的な読み出しを行い、かつ読み
出し対象のデータに対して先に書き込みを行っていな
い、すなわち対応するストア・フラグ２７がセットされ
ていないならばセットされる。一方、スレッドの投機実
行が確定した際にはリセットされる。

【００４８】図２に示したキャッシュラインの実施例で
は、書き込みの最小データ単位に対応するデータエント
リ２６ａ、２６ｂ、…、のそれぞれに固有のストア・フ
ラグ２７ａ、２７ｂ、…、及び投機ロード・フラグ２８
ａ、２８ｂ、…、を備えたが、複数のデータエントリに
対して単一のストア・フラグまたは投機ロード・フラグ
を代表させてもよい。例えば、図３は４つのデータエン
トリ２６ａ、２６ｂ、２６ｃ、２６ｄ、に対して、一つ
の投機ロード・フラグ２８ａを備えたキャッシュライン
の第２の実施形態である。データエントリ２６、ストア
・フラグ２７、投機ロード・フラグ２８以外の構成要素
は省略している。投機ロード・フラグ２８ａは、４つの
データエントリ２６ａ、２６ｂ、２６ｃ、２６ｄ、のい
ずれかに投機的な読み出しを行ったことを示す。この場
合、データエントリそれぞれに固有の投機ロード・フラ
グを備えるのに比べて、キャッシュメモリの実装に必要
なハードウェア量が小さくなるという効果がある。

【００４９】図４は、キャッシュ制御部１２の第1の実
施例の詳細を示すブロック図である。図４を参照する
と、キャッシュ制御部１２は少なくとも、バス要求制御
部（符号３０）、キャッシュ要求制御部（符号３１）、
バス要求出力バッファ（符号３２）、バス要求入力バッ
ファ（符号３３）、から構成される。

【００５０】バス要求制御部３０は、キャッシュメモリ
１１からのキャッシュミス通知、ストア通知やその対象
アドレス、ストア・データ、キャッシュライン状態等を
受け取り、それらを参照してバス要求を生成し、バス要
求出力バッファ３２に登録する。ここで、キャッシュラ
イン状態は、図２に示したキャッシュラインを構成す
る、有効フラグ２０、変更フラグ２１、共有フラグ２
２、投機フラグ２３、更新フラグ２４、ストア・フラグ
２７、を含み、キャッシュミスした場合は、そのミスに
よるリフィル処理対象のキャッシュラインの状態、キャ
ッシュヒットした場合は、そのヒットしたキャッシュラ
インの状態を示す。

【００５１】バス要求出力バッファ３２は、バス要求制
御部３０によって生成されたバス要求を格納し、順次バ
スを通じて他のプロセッサやメインメモリに出力する。
より詳細には、バス要求はコマンド、アドレス、キャッ
シュライン状態、データ等から構成され、コマンド、ア
ドレスは要求バス１３、キャッシュライン状態は応答バ
ス１４、データはデータバス１５に出力する。バス要求
出力バッファ３２は同時に、要求バス１３に出力したコ
マンド、アドレス、及び応答バス１４に出力したキャッ
シュライン状態を、バス要求入力バッファ３３にも転送
する。本実施形態は、バス要求を出力する際には、キャ
ッシュライン状態に含まれる共有フラグ２２を参照し
て、データを共有しているプロセッサにのみ宛てて、バ
ス要求を出力することを特徴とする。すなわち、データ
を共有していないプロセッサでは、該バス要求によるキ
ャッシュメモリへのアクセスが発生せず、キャッシュメ
モリのアクセス競合による性能低下が小さく、またキャ
ッシュメモリにおいて消費される電力を削減することが
できるという効果がある。

【００５２】バス要求入力バッファ３３は、他プロセッ
サやメインメモリから要求バス１３を通じて伝達される
バス要求のコマンド、アドレスや、応答バス１４を通じ
て伝達されるキャッシュライン状態や、データバス１５
を通じて伝達されるデータなどを格納する。バス要求入
力バッファ３３はまた、バス要求出力バッファ３２から
要求バス１３に出力されたバス要求のコマンド、アドレ
ス、及び応答バス１４に出力されたキャッシュライン状
態を格納し、さらに、バス要求に応じて他プロセッサが
応答バス１４に出力するキャッシュライン状態を、その
到着を待って格納する。同時にバス要求入力バッファ３
３は、格納しているバスから入力したバス要求、より詳
細には、コマンド、アドレス、キャッシュライン状態、
及びデータ、をキャッシュ要求制御部３１に順次出力し
ていく。

【００５３】キャッシュ要求制御部３１は、バス要求入
力バッファ３３が保持し、順次入力されるバス要求を順
次解釈する。まず、バスから入力された他プロセッサか
らのバス要求に対しては、キャッシュメモリ１１にアク
セスして、バス要求の対象のキャッシュラインを保持し
ているか否かを判定し、保持していなければその旨が、
保持していればそのキャッシュラインの状態が、バス要
求制御部３０及びバス要求出力バッファ３２を通じて、
応答バス１４に出力される。同時に、その自身のキャッ
シュメモリのキャッシュライン状態は、バス要求入力バ
ッファ３３の該当エントリに格納される。バス要求入力
バッファ３３において、自身のキャッシュライン状態も
含めて、他プロセッサからのキャッシュライン状態の応
答もすべて到着したら、再び、キャッシュ要求制御部３
１において、バス要求のコマンドと、自身のキャッシュ
ライン状態、及び他プロセッサのキャッシュライン状態
をすべて参照して、キャッシュラインの次の状態を決定
し、対象のキャッシュラインの更新を行う。

【００５４】一方、自身が出力したバス要求に対して
は、そのコマンド、アドレス、及びキャッシュライン状
態が、バス要求入力バッファ３３に格納されるので、バ
ス要求入力バッファ３３において、他プロセッサからの
キャッシュライン状態の応答もすべて到着したら、キャ
ッシュ要求制御部３１において、バス要求のコマンド
と、自身のキャッシュライン状態、及び他プロセッサの
キャッシュライン状態をすべて参照して、キャッシュラ
インの次の状態を決定し、対象のキャッシュラインの更
新を行う。

【００５５】次にフローチャートを参照しつつ、キャッ
シュメモリ１１及びキャッシュ制御部１２の動作の詳細
を説明する。図５は、ロード命令が発行された場合のキ
ャッシュメモリ１１及びキャッシュ制御部１２の動作を
示すフローチャートである。まず、プロセッサ１０でロ
ード命令が発行されると（図５のステップ２００）、キ
ャッシュメモリ１１がアクセスされ、キャッシュメモリ
にヒットするか、ミスするかが判定される（図５のステ
ップ２０１）。キャッシュメモリにヒットした場合、ヒ
ットしたキャッシュラインが読み出され、キャッシュラ
イン内の更新フラグ２４が参照される（図５のステップ
２０２）。更新フラグ２４がセットされていない、すな
わち、更新有効フラグ２４ａがセットされていないか、
更新対象フラグ２４ｂのいずれもがセットされていない
場合、そのキャッシュラインは子スレッドにより更新さ
れておらず、そのキャッシュラインは有効であると判断
される。その場合、キャッシュメモリ１１からプロセッ
サ１０にロード対象のデータが転送される（図５のステ
ップ２０６）。次に、該ロード命令がスレッド間の正依
存関係に関して投機的な実行である場合、ロード対象の
データを格納したデータエントリ２６に対応する投機ロ
ード・フラグ２８をセットして（図５のステップ２０
７）、ロード命令の実行は終了する。発行されたロード
命令が投機的であるか、確定的であるかはプロセッサ１
０からキャッシュメモリ１１に通知される。

【００５６】一方、更新フラグ２４の参照（図５のステ
ップ２０２）で、更新フラグ２４がセットされていた、
すなわち、更新有効フラグ２４ａがセットされていて、
かつ、更新対象フラグ２４ｂのいずれかがセットされて
いる場合、そのキャッシュラインは子スレッドにより更
新されていて、そのキャッシュラインは既に無効である
可能性があると判断される。ここで確定的に無効である
と判定できないのは、子スレッドによる更新が投機的で
あって、かつ取り消されている場合があり、実際には有
効である可能性もあるからである。確定的な判断は、子
スレッドを実行したプロセッサのキャッシュメモリのキ
ャッシュライン状態を参照する必要がある。そこで、バ
ス要求制御部３０は他のプロセッサのキャッシュメモリ
を参照するリード要求を生成し、バス要求出力バッファ
３２を通じて、要求バス１３にリード要求を発行する
（図５のステップ２０３）。同時にそのリード要求、リ
ード要求の対象アドレス、及び自身のキャッシュライン
状態は、バス要求入力バッファ３３に格納され、他のプ
ロセッサのキャッシュ制御部から、リード要求に対する
応答である、キャッシュライン状態が応答バス１４を通
じて到着するのを待機する（図５のステップ２０４）。

【００５７】リード要求に対して、すべてのプロセッサ
からの応答が到着すると、前記した自身のキャッシュラ
インが実際に無効であるか、それとも有効であるかを判
定する（図５のステップ２０５）。より詳細には、セッ
トされている更新対象フラグ２４ｂに対応するプロセッ
サのキャッシュライン状態を参照し、ヒットしていた場
合は、実際にそのプロセッサに更新されていたと判断す
る。一方、セットされているすべての更新対象フラグ２
４ｂに対して、いずれのプロセッサでもミスしていた場
合、その更新は投機実行の失敗により取り消されてい
て、実際には更新されていないと判断する。

【００５８】実際には更新されていなかった場合、該キ
ャッシュラインは有効であるので、ただちに、読み出し
処理を実行することができる。この場合、リフィル処理
は必要なく、先に発行したリード要求を受信したプロセ
ッサでは、そのリード要求に対する処理は行われない。
読み出し処理では、キャッシュメモリ１１からプロセッ
サ１０にロード対象のデータを転送する（図５のステッ
プ２０６）。次に、キャッシュライン状態を更新して、
ロード命令の実行を終了する（図５のステップ２０
７）。具体的には、まず、更新フラグ２４をリセット
し、次に、該ロード命令が投機的な実行である場合、ロ
ード対象のデータを格納したデータエントリ２６に対応
する投機ロード・フラグ２８をセットする。

【００５９】一方、実際に更新されていた場合、該キャ
ッシュラインは無効であるので、他のプロセッサのキャ
ッシュメモリ、またはメインメモリから、有効なデータ
をリフィルする必要がある。まず、リフィル処理の前
に、該キャッシュラインのデータをライトバックする必
要性を判断する（図５のステップ２１１）。該キャッシ
ュラインは、自プロセッサが現在実行しているスレッド
に対しては無効であるが、親スレッドに対しては有効で
ある場合がある。より詳細には、該キャッシュラインを
更新したプロセッサのキャッシュメモリに、確定したキ
ャッシュライン、すわなち投機フラグ２３がセットされ
ていないキャッシュラインが存在しなければ、該キャッ
シュラインは唯一の確定したデータを保持しているた
め、ライトバックが必要であると判断する。一方、該キ
ャッシュラインの更新元のプロセッサのキャッシュライ
ンに、確定したキャッシュラインが存在すれば、ライト
バックは必要ないと判断する。

【００６０】ライトバックが必要であると判断した場
合、バス要求制御部３０はライトバック要求を生成し、
それをバス要求出力バッファ３２を通じて、要求バス１
３に出力し（図５のステップ２１６）、次にデータバス
１５にライトバック対象のデータを出力する（図５のス
テップ２１７）。次に、先に発行しているリード要求に
対して、他のキャッシュメモリまたはメインメモリから
データバス１５を通じて伝達されるリフィル・データの
到着を待つ（図５のステップ２１２）。次に、キャッシ
ュ要求制御部３１は到着したリフィル・データをキャッ
シュメモリ１１へリフィルを行い（図５のステップ２１
３）、次に、キャッシュメモリ１１からプロセッサ１０
にロード対象のデータを転送し（図５のステップ２０
６）、キャッシュライン状態を更新して、ロード命令の
実行を終了する（図５のステップ２０７）。

【００６１】一方、図５のステップ２１１でライトバッ
クが必要でないと判断した場合、そのままリフィル・デ
ータの到着を待ち（図５のステップ２１２）、キャッシ
ュメモリ１１へのリフィルを行う（図５のステップ２１
３）。次に、キャッシュメモリ１１からプロセッサ１０
にロード対象のデータを転送し（図５のステップ２０
６）、キャッシュライン状態を更新して、ロード命令の
実行を終了する（図５のステップ２０７）。

【００６２】以上、図５のステップ２０１において、ロ
ード命令がキャッシュメモリにヒットした場合の動作に
ついて説明した。一方、ロード命令がキャッシュメモリ
にミスした場合は、スレッド実行が確定的か投機的かで
動作が異なる（図５のステップ２０８）。スレッド実行
が投機的で、すなわち発行されたロード命令は投機的で
ある場合、キャッシュメモリ１１にリフィル可能か否か
を判断する（図５のステップ２１４）。キャッシュメモ
リ１１のリフィル先の候補のエントリに空きがなく、か
つ、それらエントリに格納されているすべてのキャッシ
ュラインの投機フラグ２３及びストア・フラグ２７のい
ずれかがセットされているか、あるいは投機ロード・フ
ラグ２８のいずれかがセットされている場合、リフィル
することができない。この場合、スレッドが確定するま
で待機した後に（図５のステップ２１５）、図５のステ
ップ２０９よりリフィル処理を開始する。

【００６３】一方、キャッシュメモリ１１のリフィル先
の候補のエントリに少なくとも１つの空きがあれば、リ
フィルは可能である。また、空きが無い場合でも、それ
らリフィル先候補のエントリに格納されているいずれか
のキャッシュラインの投機フラグ２３かストア・フラグ
２７のいずれかがセットされてなく、かつ投機ロード・
フラグ２８のいずれもセットされていない場合、そのエ
ントリにリフィルすることが可能である。この場合、図
５のステップ２０９よりリフィル処理を開始する。

【００６４】一方、スレッド実行が確定的で、すなわち
発行されたロード命令は確定的である場合（図５のステ
ップ２０８、Ｙｅｓ）、常にリフィルは可能であるの
で、図５のステップ２０９よりリフィル処理を開始す
る。具体的には、まず、要求バス１３にリード要求を出
力し（図５のステップ２０９）、それに対する他プロセ
ッサからの応答を待つ（図５のステップ２１０）。

【００６５】次に、ライトバックが必要か否かを判定す
る（図５のステップ２１１）。リフィル先のエントリに
ストア命令により変更されたキャッシュライン、すわな
ち変更フラグ２１がセットされているキャッシュライン
が存在すれば、ライトバックが必要である。その場合、
ライトバック要求を要求バス１３に出力し（図５のステ
ップ２１６）、次にデータバス１５にライトバック対象
のデータを出力する（図５のステップ２１７）。次に、
リフィル・データの到着を待ち（図５のステップ２１
２）、キャッシュメモリ１１へのリフィルを行う（図５
のステップ２１３）。次に、キャッシュメモリ１１から
プロセッサ１０にロード対象のデータを転送し（図５の
ステップ２０６）、キャッシュライン状態を更新して、
ロード命令の実行を終了する（図５のステップ２０
７）。

【００６６】ライトバックが必要でない場合は、そのま
まリフィル・データの到着を待ち（図５のステップ２１
２）、キャッシュメモリ１１へのリフィルを行う（図５
のステップ２１３）。次に、キャッシュメモリ１１から
プロセッサ１０にロード対象のデータを転送し（図５の
ステップ２０６）、キャッシュライン状態を更新して、
ロード命令の実行を終了する（図５のステップ２０
７）。

【００６７】以上、ロード命令が発行された場合のキャ
ッシュメモリ１１及びキャッシュ制御部１２の動作を説
明した。次に、図６を参照して、ストア命令が発行され
た場合のキャッシュメモリ１１及びキャッシュ制御部１
２の動作を説明する。

【００６８】まず、プロセッサ１０でストア命令が発行
されると（図６のステップ２２０）、キャッシュメモリ
１１がアクセスされ、キャッシュメモリにヒットする
か、ミスするかが判定される（図６のステップ２２
１）。キャッシュメモリにヒットした場合、ヒットした
キャッシュラインが読み出され、キャッシュライン内の
更新フラグ２４が参照される（図６のステップ２２
２）。更新フラグ２４がセットされていない、すなわ
ち、更新有効フラグ２４ａがセットされていないか、更
新対象フラグ２４ｂのいずれもがセットされていない場
合、そのキャッシュラインは子スレッドにより更新され
ておらず、そのキャッシュラインは有効であると判断さ
れる。その場合、バス要求制御部３０は、ライト要求を
生成し、バス要求出力バッファ３２を通じて、要求バス
１３にライト要求を出力する（図６のステップ２２
６）。ライト要求は、ストア命令を実行したこと、及び
そのストア・データを他のプロセッサやキャッシュメモ
リに通知し、それに対する処理を要求するバス要求であ
る。

【００６９】次に、該ストア命令による書き込みの前
に、以前のデータのメインメモリへのライトバックが必
要か否かを判定する（図６のステップ２２７）。該スト
ア命令がヒットしたキャッシュラインが確定的である、
すなわち投機フラグ２３がセットされてなく、かつ該ス
トア命令が投機的な実行である場合、投機的なデータを
書き込む前に、確定的なデータをメインメモリへライト
バックを行う。具体的には、要求バス１３にライトバッ
ク要求を出力し（図６のステップ２３０）、続いてデー
タバス１５を通じてライトバックするデータを転送する
（図６のステップ２３１）。その後、該ストア命令が書
き込みの対象とするキャッシュラインのデータエントリ
２６に、ストア・データの書き込みを行う（図６のステ
ップ２２８）。次に、キャッシュライン状態を更新し
て、ストア命令の実行を終了する（図６のステップ２２
９）。具体的には、まず、変更フラグ２１、及びストア
対象のデータを格納したデータエントリに対応するスト
ア・フラグ２７をセットする。さらに、該ストア命令が
投機的な実行である場合、投機フラグ２３の自プロセッ
サに対応するフラグ部分をセットする。

【００７０】一方、ライトバックが必要なかった場合
（図６のステップ２２７、Ｎｏ）、そのまま該ストア命
令が書き込みの対象とするキャッシュラインのデータエ
ントリに、ストア・データの書き込みを行う（図６のス
テップ２２８）。次に、キャッシュライン状態を更新し
て、ストア命令の実行を終了する（図６のステップ２２
９）。

【００７１】一方、更新フラグの参照（図６のステップ
２２２）で、更新フラグ２４がセットされていた、すな
わち、更新有効フラグ２４ａがセットされていて、か
つ、更新対象フラグ２４ｂのいずれかがセットされてい
る場合、そのキャッシュラインは子スレッドにより更新
されていて、そのキャッシュラインは既に無効である可
能性があると判断される。その場合、バス要求制御部３
０はリード・ライト要求を生成し、要求バス１３にリー
ド・ライト要求を発行する（図６のステップ２２３）。
リード・ライト要求は、同時に要求バスに出力する対象
のアドレスに対して、リード要求に対する処理の後、ラ
イト要求に対する処理を要求するバス要求である。

【００７２】次に、他のキャッシュ制御部からリード・
ライト要求に対する応答の到着を待機し（図６のステッ
プ２２４）、その応答を参照して、該キャッシュライン
が子スレッドにより実際に更新されているか否かを判定
する（図６のステップ２２５）。実際には更新されてい
なかった場合、該キャッシュラインは有効であるので、
ただちにライト処理を開始することができる。この場
合、リフィル処理は必要なく、先に発行したリード・ラ
イト要求を受信したプロセッサでは、そのリード要求部
分に対する処理は行われない。ライト処理では、まず、
ライトバックが必要か否かの判断を行う（図６のステッ
プ２２７）。ライトバックが必要な場合、ライトバック
要求の発行（図６のステップ２３０）及び、ライトバッ
ク・データの転送（図６のステップ２３１）を行う。次
に、該ストア命令が書き込みの対象とするキャッシュラ
インのデータエントリに、ストア・データの書き込みを
行う（図６のステップ２２８）。次に、キャッシュライ
ン状態を更新して、ストア命令の実行を終了する（図６
のステップ２２９）。

【００７３】一方、図６のステップ２２５における子ス
レッドによる更新の有無の判断で、実際に更新されてい
た場合、該キャッシュラインは無効であるので、ロード
命令の場合と同様に、他のプロセッサのキャッシュメモ
リ、またはメインメモリから、有効なデータをリフィル
する必要がある。まず、リフィル処理の前に、該キャッ
シュラインのデータをライトバックする必要性を判断す
る（図６のステップ２３５）。該キャッシュラインは、
自プロセッサが現在実行するスレッドに対しては無効で
あるが、親スレッドに対しては有効である場合がある。
より詳細には、該キャッシュラインを更新したプロセッ
サのキャッシュラインに、確定したキャッシュライン、
すわなち投機フラグ２３がセットされていないキャッシ
ュラインが存在しなければ、該キャッシュラインは唯一
の確定したデータを保持しているため、ライトバックが
必要であると判断する。一方、該キャッシュラインの更
新元のプロセッサのキャッシュラインに、確定したキャ
ッシュラインが存在すれば、ライトバックは必要ないと
判断する。

【００７４】ライトバックが必要であると判断した場合
は、ライトバック要求の発行（図６のステップ２４０）
及び、ライトバック・データの転送（図６のステップ２
４１）を行う。次に、先に発行しているリード・ライト
要求に対して、他のキャッシュメモリまたはメインメモ
リからデータバス１５を通じて伝達されるリフィル・デ
ータの到着を待つ（図６のステップ２３６）。次に、キ
ャッシュ要求制御部３１は到着したリフィル・データを
キャッシュメモリ１１へリフィルを行う（図６のステッ
プ２３７）。次に、該ストア命令が書き込みの対象とす
るキャッシュラインのデータエントリに、ストア・デー
タの書き込みを行う（図６のステップ２２８）。次に、
キャッシュライン状態を更新して、ストア命令の実行を
終了する（図６のステップ２２９）。

【００７５】一方、ライトバックが必要でないと判断し
た場合は、そのまま、リフィル・データの到着を待ち
（図６のステップ２３６）、キャッシュメモリ１１へリ
フィルを行う（図６のステップ２３７）。次に、該スト
ア命令のストア・データの書き込みを行い（図６のステ
ップ２２８）、キャッシュライン状態を更新して、スト
ア命令の実行を終了する（図６のステップ２２９）。

【００７６】以上、図６のステップ２２１において、ス
トア命令がキャッシュメモリにヒットした場合の動作に
ついて説明した。一方、ストア命令がキャッシュメモリ
にミスした場合は、ロード命令の場合と同様に、スレッ
ド実行が確定的か投機的かで動作が異なる（図６のステ
ップ２３２）。スレッド実行が投機的で、すなわち発行
されたストア命令は投機的である場合、キャッシュメモ
リ１１にリフィル可能か否かを判断する（図６のステッ
プ２３８）。キャッシュメモリ１１のリフィル先の候補
のエントリに空きがなく、かつ、それらエントリに格納
されているすべてのキャッシュラインの投機フラグ２３
及びストア・フラグ２７のいずれかがセットされている
か、あるいは投機ロード・フラグ２８のいずれかがセッ
トされている場合、リフィルすることができない。この
場合、スレッドが確定するまで待機した後に（図６のス
テップ２３９）、リフィル処理を開始する。

【００７７】一方、キャッシュメモリ１１のリフィル先
の候補のエントリに少なくとも１つの空きがあれば、リ
フィルは可能である。また、空きが無い場合でも、それ
らリフィル先候補のエントリに格納されているいずれか
のキャッシュラインの投機フラグ２３かストア・フラグ
２７のいずれかがセットされてなく、かつ投機ロード・
フラグ２８のいずれもセットされていない場合、そのエ
ントリにリフィルすることが可能である。この場合、そ
のままリフィル処理を開始する。

【００７８】一方、スレッド実行が確定的で、すなわち
発行されたストア命令は確定的である場合（図６のステ
ップ２３２、Ｙｅｓ）、常にリフィルは可能であるの
で、そのままリフィル処理を開始する。具体的には、ま
ず、要求バス１３にリード・ライト要求を出力し（図６
のステップ２３３）、それに対する他プロセッサからの
応答を待つ（図６のステップ２３４）。

【００７９】次に、ライトバックが必要か否かを判定す
る（図６のステップ２３５）。リフィル先のエントリに
変更されたキャッシュライン、すわなち変更フラグ２１
がセットされているキャッシュラインが存在すれば、ラ
イトバックが必要であると判断する。ライトバックが必
要であると判断した場合は、ライトバック要求の発行
（図６のステップ２４０）及び、ライトバック・データ
の転送（図６のステップ２４１）を行った後、リフィル
処理を続行する。一方、ライトバックが必要でないと判
断した場合は、そのままリフィル処理を続行する。リフ
ィル処理は、先に発行しているリード・ライト要求に対
して、他のキャッシュメモリまたはメインメモリからデ
ータバス１５を通じて伝達されるリフィル・データの到
着を待つ（図６のステップ２３６）。次に、キャッシュ
要求制御部３１は到着したリフィル・データのキャッシ
ュメモリ１１へのリフィルを行う（図６のステップ２３
７）。次に、該ストア命令が書き込みの対象とするキャ
ッシュラインのデータエントリに、ストア・データの書
き込みを行う（図６のステップ２２８）。次に、キャッ
シュライン状態を更新して、ストア命令の実行を終了す
る（図６のステップ２２９）。

【００８０】以上、ストア命令が発行された場合のキャ
ッシュメモリ１１及びキャッシュ制御部１２の動作を説
明した。次に、図７を参照して、他のプロセッサからバ
スを通じてリード要求を受信した場合、及びリード・ラ
イト要求を受信した場合のリード要求部分に対する、キ
ャッシュメモリ１１及びキャッシュ制御部１２の動作を
説明する。リード・ライト要求を受信した場合は、リー
ド要求に対する処理を行った後、後述するライト要求に
対する処理を行う。以下の説明ではリード要求またはリ
ード・ライト要求のリード要求部分を、単にリード要求
と表記する。

【００８１】まず、他プロセッサのキャッシュ制御部１
２からのリード要求を、要求バス１３を通じて受信する
と、バス要求入力バッファ３３は、該リード要求のコマ
ンド、アドレス、リード要求を発行したプロセッサのキ
ャッシュライン状態などを格納し、キャッシュ要求制御
部３１に通知する（図７のステップ２４５）。キャッシ
ュ要求制御部３１はリード要求を解釈すると、キャッシ
ュメモリ１１にアクセスし、リード要求の対象アドレス
がキャッシュメモリにヒットするかミスするかを判定す
る（図７のステップ２４６）。

【００８２】リード要求がキャッシュメモリ１１にミス
した場合、その旨を、バス要求制御部３０、バス要求出
力バッファ３２、及び応答バス１４を通じて、他プロセ
ッサに通知し、リード要求に対する処理を終了する（図
７のステップ２４７）。

【００８３】一方、リード要求がキャッシュメモリ１１
にヒットした場合、ヒットしたキャッシュラインの状態
を、バス要求制御部３０、バス要求出力バッファ３２、
及び応答バス１４を通じて、その旨を他プロセッサに通
知し（図７のステップ２４８）、他プロセッサからの応
答である他のキャッシュメモリのキャッシュライン状態
が到着するのを待機する（図７のステップ２４９）。次
に、ヒットした自身のキャッシュライン状態の更新フラ
グ２４を参照して、更新フラグ２４がセットされている
か否かを判定する（図７のステップ２５０）。

【００８４】更新フラグ２４がセットされていない、す
なわち、更新有効フラグ２４ａがセットされていない
か、更新対象フラグ２４ｂのいずれもがセットされてい
ない場合、そのキャッシュラインは子スレッドにより更
新されておらず、そのキャッシュラインは有効であると
判断される。その場合、自身のキャッシュラインのデー
タをリフィル・データとして供給するか否かの判定を行
う（図７のステップ２５６）。

【００８５】一方、更新フラグ２４がセットされてい
た、すなわち、更新有効フラグ２４ａがセットされてい
て、かつ、更新対象フラグ２４ｂのいずれかがセットさ
れている場合、そのキャッシュラインは子スレッドによ
り更新されていて、そのキャッシュラインは既に無効で
ある可能性があると判断される。その場合、他プロセッ
サからのキャッシュライン状態の応答を参照して、前記
した自身のキャッシュラインが実際に無効であるか、そ
れとも有効であるかを判定する（図７のステップ２５
１）。より詳細には、セットされている更新対象フラグ
２４ｂに対応するプロセッサのキャッシュライン状態を
参照し、ヒットしていた場合は、実際にそのプロセッサ
に更新されていたと判断する。一方、セットされている
すべての更新対象フラグ２４ｂに対して、いずれのプロ
セッサでもミスしていた場合、その更新は投機実行の失
敗に取り消されていて、実際には更新されていないと判
断する。

【００８６】子スレッドにより、実際には更新されてい
なかった場合、自身のキャッシュラインのデータをリフ
ィル・データとして供給するか否かの判定を行う（図７
のステップ２５６）。判定は、まず、リード要求を発行
したプロセッサが、実際にリフィル処理を必要としてい
るか否かを判断する。これは、リード要求を発行したが
（図５の２０３、または図６の２２３）、実際にはキャ
ッシュラインが有効でリフィル処理が必要ない場合（図
５の２０５、Ｎｏ、または図６の２２５、Ｎｏ）がある
からである。リード要求を受信したプロセッサでも、す
べてのキャッシュメモリのキャッシュライン状態が参照
できるので、リード要求を発行したプロセッサと同様の
判断が可能である。

【００８７】リード要求を発行したプロセッサで、実際
にリフィル処理を必要としていない場合は、リフィル・
データの供給は行わない。一方、リード要求を発行した
プロセッサで、実際にリフィル処理を必要としている場
合、次に、プログラム順序の上で、自プロセッサが実行
するスレッドと、リード要求を発行したプロセッサが実
行するスレッドの間に位置するスレッドを実行するプロ
セッサのキャッシュライン状態を参照する。リフィル・
データを供給するか否かは、それらの間のスレッドのキ
ャッシュライン状態と自身のキャッシュライン状態によ
り決定される。なお、スレッドの順序関係は、自身のプ
ロセッサ１０から各キャッシュ制御部１２へ通知され
る。

【００８８】まず、前記間のスレッドのキャッシュライ
ンの中に、投機的な（投機フラグ２３がセットされた）
キャッシュラインが存在する場合、自身のキャッシュラ
インのデータはリフィル・データとして無効であり、自
プロセッサはリフィル・データの供給は行わない。

【００８９】次に、前記間のスレッドのキャッシュライ
ンの中に、投機的なキャッシュラインは存在しないが、
確定的なキャッシュラインは存在し、かつ自身のキャッ
シュラインも確定的である場合、自プロセッサはリフィ
ル・データの供給は行わない。

【００９０】次に、間のスレッドのキャッシュラインの
中に、投機的なキャッシュラインは存在しないが、確定
的なキャッシュラインは存在し、かつ自身のキャッシュ
ラインは投機的である場合、自プロセッサは自身のキャ
ッシュラインからリフィル・データの供給を行う。

【００９１】次に、間のスレッドを実行するプロセッサ
ではすべてキャッシュメモリにミスし、有効なキャッシ
ュラインが存在しない場合、自プロセッサは自身のキャ
ッシュラインからリフィル・データの供給を行う。

【００９２】リフィル・データの供給を行わない場合、
キャッシュライン状態の更新、具体的には更新フラグ２
４のリセットを行い、リード要求に対する処理を終了す
る（図７のステップ２５７）。一方、リフィル・データ
の供給を行う場合、データバス１５を通じて、自身のキ
ャッシュラインが保持しているデータを転送し（図７の
ステップ２５８）、次に、キャッシュライン状態の更新
を行い、リード要求に対する処理を終了する（図７のス
テップ２５７）。

【００９３】一方、子スレッドによる更新の有無判定で
（図７のステップ２５１）、実際に更新されていた場
合、該キャッシュラインは既に無効であるので、キャッ
シュラインの無効化を行う。まず、無効化処理の前に、
該キャッシュラインのデータをライトバックする必要性
を判断する（図７のステップ２５２）。該キャッシュラ
インは、自プロセッサが現在実行するスレッドに対して
は無効であるが、親スレッドに対しては有効である場合
がある。より詳細には、該キャッシュラインの更新元の
プロセッサのキャッシュラインに、確定したキャッシュ
ライン、すわなち投機フラグ２３がセットされていない
キャッシュラインが存在しなければ、該キャッシュライ
ンは唯一の確定したデータを保持しているため、ライト
バックが必要であると判断する。一方、該キャッシュラ
インの更新元のプロセッサのキャッシュラインに、確定
したキャッシュラインが存在すれば、ライトバックは必
要ないと判断する。

【００９４】ライトバックが必要であると判断した場
合、要求バス１３にライトバック要求を出力し（図７の
ステップ２５４）、次にデータバス１５にライトバック
対象のデータを出力する（図７のステップ２５５）。そ
の後、キャッシュラインの有効フラグ２０をリセットし
てキャッシュラインの無効化を行い、リード要求に対す
る処理を終了する（図７のステップ２５３）。一方、ラ
イトバックが必要でないと判断した場合は、そのままキ
ャッシュラインの有効フラグ２０をリセットしてキャッ
シュラインの無効化を行い、リード要求に対する処理を
終了する（図７のステップ２５３）。

【００９５】以上、他のプロセッサからバスを通じてリ
ード要求を受信した場合、及びリード・ライト要求を受
信した場合のリード要求部分に対する、キャッシュメモ
リ１１及びキャッシュ制御部１２の動作を説明した。次
に、図８を参照して、他のプロセッサからバスを通じて
ライト要求を受信した場合、及びリード・ライト要求を
受信した場合のライト要求部分に対する、キャッシュメ
モリ１１及びキャッシュ制御部１２の動作を説明する。
リード・ライト要求を受信した場合は、上述したリード
要求に対する処理を行った後、ライト要求に対する処理
を行う。以下の説明では、ライト要求、及びリード・ラ
イト要求におけるライト要求部分を、単にライト要求と
表記する。

【００９６】まず、他プロセッサのキャッシュ制御部１
２からのライト要求を、要求バス１３を通じて受信する
と、バス要求入力バッファ３３は、該ライト要求のコマ
ンド、アドレス、ライト要求を発行したプロセッサのキ
ャッシュライン状態、ライト・データなどを格納し、キ
ャッシュ要求制御部３１に通知する（図８のステップ２
６０）。キャッシュ要求制御部３１はライト要求を解釈
すると、キャッシュメモリ１１にアクセスし、ライト要
求の対象アドレスがキャッシュメモリにヒットするかミ
スするかを判定する（図８のステップ２６１）。

【００９７】ライト要求がキャッシュメモリ１１にミス
した場合、その旨を、バス要求制御部３０、バス要求出
力バッファ３２、及び応答バス１４を通じて、他プロセ
ッサに通知し、ライト要求に対する処理を終了する（図
８のステップ２６２）。

【００９８】一方、ライト要求がキャッシュメモリ１１
にヒットした場合、ヒットしたキャッシュラインの状態
を、バス要求制御部３０、バス要求出力バッファ３２、
及び応答バス１４を通じて、その旨を他プロセッサに通
知し（図８のステップ２６３）、他プロセッサからの応
答である他のキャッシュメモリのキャッシュライン状態
が到着するのを待機する（図８のステップ２６４）。次
に、ヒットした自身のキャッシュライン状態の更新フラ
グ２４を参照して、更新フラグ２４がセットされている
か否かを判定する（図８のステップ２６５）。

【００９９】更新フラグ２４がセットされていない、す
なわち、更新有効フラグ２４ａがセットされていない
か、更新対象フラグ２４ｂのいずれもがセットされてい
ない場合、そのキャッシュラインは子スレッドにより更
新されておらず、そのキャッシュラインは有効であると
判断される。その場合、自身のキャッシュラインへのラ
イト処理を開始する（図８のステップ２６５、Ｎｏ）。

【０１００】一方、更新フラグ２４がセットされてい
た、すなわち、更新有効フラグ２４ａがセットされてい
て、かつ、更新対象フラグ２４ｂのいずれかがセットさ
れている場合、そのキャッシュラインは子スレッドによ
り更新されていて、そのキャッシュラインは既に無効で
ある可能性があると判断される。その場合、他プロセッ
サからのキャッシュライン状態の応答を参照して、前記
した自身のキャッシュラインが実際に無効であるか、そ
れとも有効であるかを判定する（図８のステップ２６
６）。より詳細には、セットされている更新対象フラグ
２４ｂに対応するプロセッサのキャッシュライン状態を
参照し、ヒットしていた場合は、実際にそのプロセッサ
に更新されていたと判断する。一方、セットされている
すべての更新対象フラグ２４ｂに対して、いずれのプロ
セッサでもミスしていた場合、その更新は投機実行の失
敗に取り消されていて、実際には更新されていないと判
断する。

【０１０１】子スレッドにより、実際には更新されてい
なかった場合、自身のキャッシュラインへのライト処理
を開始する（図８のステップ２６６、Ｎｏ）。ライト処
理はまず、ライト要求が親スレッドからの要求か否かを
判断する（図８のステップ２７１）。スレッドの順序関
係は、自身のプロセッサ１０から各キャッシュ制御部１
２へ通知される。子スレッドからのライト要求であった
場合、それはプログラム順序の上で後に位置する書き込
みなので、実際にデータの更新は行わず、子スレッドに
よって更新されたことを示す、キャッシュラインの更新
フラグ２４のうち、ライト要求を発行したプロセッサに
対応する更新対象フラグ２４ｂをセットして、ライト要
求に対する処理を終了する（図８のステップ２７３）。

【０１０２】一方、親スレッドからのライト要求であっ
た場合、次に有効なライト・データ部分が存在するか否
かを判定する（図８のステップ２７２）。判定には、ま
ず、プログラム順序の上で、ライト要求を発行したプロ
セッサが実行するスレッドと自プロセッサが実行するス
レッドの間に位置するスレッドを実行するプロセッサの
キャッシュライン状態を参照する。有効なライト・デー
タ部分が存在するか否かは、それらの間のスレッドのキ
ャッシュライン状態と自身のキャッシュライン状態によ
り決定される。具体的には、ライト・データに対し、間
のスレッドのキャッシュラインの中で、ストア・フラグ
２７がセットされているライト・データ部分が存在する
場合、そのライト・データ部分は自スレッドに対して無
効である。逆に、間のスレッドのキャッシュラインのい
ずれにも、ストア・フラグ２７がセットされていないラ
イト・データ部分が存在する場合、そのライトデータ部
分は自スレッドに対して有効である。

【０１０３】有効なライト・データ部分が存在しない場
合、キャッシュライン状態を更新して、ライト要求に対
する処理を終了する（図８のステップ２７３）。一方、
有効なライト・データ部分が存在する場合、そのライト
・データ部分の書き込み処理を行う。まず、実際に書き
込みを行う前に、以前のデータのメインメモリへのライ
トバックが必要か否かを判定する（図８のステップ２７
４）。該ライト要求がヒットしたキャッシュラインが確
定的である、すなわち投機フラグ２３がセットされてな
く、かつ該ライト要求が投機的な要求である場合、投機
的なデータを書き込む前に、確定的なデータをメインメ
モリへライトバックを行う。具体的には、要求バス１３
にライトバック要求を出力し（図８のステップ２７
５）、続いてデータバス１５を通じてライトバックする
データを転送する（図８のステップ２７６）。その後、
実際の書き込み処理を開始する。一方、ライトバックが
必要なかった場合（図８のステップ２７４、Ｎｏ）、そ
のまま実際の書き込み処理を開始する。ライト要求が投
機的であるか、確定的であるかは、ライト要求の要因の
ストア命令が投機的であるか、確定的であるかにより、
ライト要求と同時に要求を発行したプロセッサから与え
られる。

【０１０４】実際の書き込み処理では（図８のステップ
２７７）、前記した有効なライト・データ部分を自身の
キャッシュラインの対応するデータエントリ２６へ書き
込みを行う。ただし、自プロセッサが先に書き込みを行
い、ストア・フラグ２７がセットされている、データエ
ントリに対しては書き込みを行わない。

【０１０５】次に、受信したライト要求のストア命令か
ら、自プロセッサが先に実行した正依存関係に対して投
機的なロード命令への、正依存関係の検出を行う（図８
のステップ２７８）。上記した有効なライト・データ部
分に対応するデータエントリの投機ロード・フラグ２８
のいずれかがセットされていた場合、正依存関係が存在
し、投機的なロード命令の実行は失敗であったと判断で
きる。その場合、キャッシュメモリ１１はプロセッサ１
０に投機実行失敗を通知し、プロセッサ１０はスレッド
実行の取消しを行う（図８のステップ２８０）。

【０１０６】一方、上記した有効なライト・データ部分
に対応するデータエントリの投機ロード・フラグ２８の
いずれもセットされていない場合、正依存関係は存在せ
ず、投機的なロード命令の実行は成功したと判断でき
る。その場合、キャッシュライン状態を更新して、ライ
ト要求に対する処理を終了する（図８のステップ２７
９）。

【０１０７】一方、子スレッドによる更新の有無判定で
（図８のステップ２６６）、実際に更新されていた場
合、該キャッシュラインは既に無効であるので、キャッ
シュラインの無効化を行う。まず、無効化処理の前に、
該キャッシュラインのデータをライトバックする必要性
を判断する（図８のステップ２６７）。該キャッシュラ
インは、自プロセッサが現在実行するスレッドに対して
は無効であるが、親スレッドに対しては有効である場合
がある。より詳細には、該キャッシュラインを更新した
プロセッサのキャッシュラインに、確定したキャッシュ
ライン、すわなち投機フラグ２３がセットされていない
キャッシュラインが存在しなければ、該キャッシュライ
ンは唯一の確定したデータを保持しているため、ライト
バックが必要であると判断する。一方、該キャッシュラ
インの更新元のプロセッサのキャッシュラインに、確定
したキャッシュラインが存在すれば、ライトバックは必
要ないと判断する。

【０１０８】ライトバックが必要であると判断した場
合、要求バス１３にライトバック要求を出力し（図８の
ステップ２６９）、次にデータバス１５にライトバック
対象のデータを出力する（図８のステップ２７０）。そ
の後、キャッシュラインの有効フラグ２０をリセットし
てキャッシュラインの無効化を行い、ライト要求に対す
る処理を終了する（図８のステップ２６８）。一方、ラ
イトバックが必要でないと判断した場合は、そのままキ
ャッシュラインの有効フラグ２０をリセットしてキャッ
シュラインの無効化を行い、ライト要求に対する処理を
終了する（図８のステップ２６８）。

【０１０９】以上、他のプロセッサからバスを通じてラ
イト要求を受信した場合、及びリード・ライト要求を受
信した場合のライト要求部分に対する、キャッシュメモ
リ１１及びキャッシュ制御部１２の動作を説明した。上
記したように、本実施形態の特徴の一つに、同じアドレ
スに対するバス要求を結合して同時に発行することがあ
る。さらに更新されて無効である可能性のあるキャッシ
ュラインへの処理を、前記バス要求により暗黙的に実行
することがある。これにより、発行されるバス要求を少
なくすることができ、バスの競合による性能低下が小さ
く、バスで消費される電力が小さいという効果がある。
上記説明では、同じアドレスに対するリード要求及びラ
イト要求を統合してリード・ライト要求としたが、さら
に同じアドレスに対するライトバック要求を統合しても
良い。

【０１１０】投機的なロード命令の実行に失敗した場合
など、スレッドの実行が取り消された場合には、まず、
キャッシュメモリ１１を構成するすべてのキャッシュラ
インのすべての投機ロード・フラグ２７をリセットする
ことで、投機実行したロード命令の記録を破棄する。次
に、キャッシュメモリ１１を構成するキャッシュライン
のうち、投機的なキャッシュラインの無効化を行うこと
で、投機実行に失敗して無効であるデータの破棄を行
う。具体的には、投機的なキャッシュラインのうち、該
キャッシュラインが投機的である原因のプロセッサで
も、スレッドの実行の取り消しが行われた場合、該キャ
ッシュラインの有効フラグ２０をリセットして無効化す
る。本実施形態によれば、キャッシュラインが投機的な
ことを示す投機フラグ２３を、複数のビットから構成し
ており、該キャッシュラインを投機的にならしめた原因
のプロセッサを特定することが可能である。このため、
投機フラグを１ビットで構成する従来の方法では、厳密
には無効化が不必要なキャッシュラインも無効化されて
しまうのに対して、本実施形態によれば、厳密に無効化
が必要なキャッシュラインのみが無効化されるため、キ
ャッシュミスが発生する確率が小さく、高速なスレッド
並列処理が可能であるという効果がある。

【０１１１】一方、投機的なスレッドの実行が確定した
場合には、キャッシュメモリ１１を構成するキャッシュ
ラインのうち、投機的なキャッシュラインの確定を行う
ことで、投機実行に成功して確定したデータの有効化を
行う。この処理は、投機フラグ２３、ストア・フラグ２
７、及び投機ロード・フラグ２８をリセットすることで
実現できる。各プロセッサで実行されているスレッドの
うち、少なくともプログラム順序で最も先に位置するス
レッドは、実行が確定している。それ以外のスレッドの
実行は確定している場合と、投機的である場合がある
が、いずれにしても、先行するすべてのスレッドの実行
が終了し、自スレッドが実行中の最も先行するスレッド
になった時点で、実行が確定する。

【０１１２】次に、上記した本実施形態による動作の具
体例を図５〜図８、及び図９を参照して説明する。図９
は、４つのプロセッサ＃０〜＃３を備えるマルチプロセ
ッサシステム上で、ある実行サイクル（サイクル０〜サ
イクル１９）における、スレッド実行の状態と、あるキ
ャッシュラインの状態を示した説明図であり、左からサ
イクル番号、スレッド実行状態、キャッシュライン状態
を示している。

【０１１３】スレッド実行状態（図９（ａ））を参照す
ると、８つのスレッド、スレッド０〜スレッド７（ｔｈ
＃０〜ｔｈ＃７）が実行されるとする。まず、０サイク
ル目においてプロセッサ＃０で実行されているスレッド
０からスレッド１が生成され、プロセッサ＃１において
実行が開始される。次に、１サイクル目においてスレッ
ド１からスレッド２が生成され、プロセッサ＃２におい
て実行が開始される。次に、２サイクル目においてスレ
ッド２からスレッド３が生成され、プロセッサ＃３にお
いて実行が開始される。また、１０サイクル目において
スレッド３からスレッド４が生成され、スレッド０の実
行が終了して空いているプロセッサ＃０において実行が
開始される。次に、１１サイクル目においてスレッド４
からスレッド５が生成され、プロセッサ＃１において実
行が開始される。次に、１２サイクル目においてスレッ
ド５からスレッド６が生成され、プロセッサ＃２におい
て実行が開始される。次に、１３サイクル目においてス
レッド６からスレッド７が生成され、プロセッサ＃３に
おいて実行が開始される。すなわち、プログラム上の順
序は、スレッド０が最も先であり、その後にスレッド
１、スレッド２、スレッド３、スレッド４、スレッド
５、スレッド６、の順序であり、最も後がスレッド７で
ある。

【０１１４】これらのスレッド上で、ある同じアドレス
を対象とする５つのストア命令、ストア０〜ストア４
（ＳＴ＃０〜ＳＴ＃４）、及び６つのロード命令、ロー
ド０〜ロード５（ＬＤ＃０〜ＬＤ＃５）が実行されると
する。これらストア命令及びロード命令が対象とするア
ドレスに対するキャッシュラインの状態をキャッシュラ
イン状態（図９（ｂ））に示す。左からプロセッサ＃０
に固有のキャッシュメモリ＃０の該キャッシュライン状
態、次に、プロセッサ＃１に固有のキャッシュメモリ＃
１の該キャッシュライン状態、次に、プロセッサ＃２に
固有のキャッシュメモリ＃２の該キャッシュライン状
態、次に、プロセッサ＃３に固有のキャッシュメモリ＃
３の該キャッシュライン状態である。各キャッシュライ
ン状態は、左から投機フラグ２３、更新フラグ２４、ス
トア・フラグ２７、投機ロード・フラグ２８、データエ
ントリ２６のみを表記し、他のフラグやエントリは省略
している。また、図のキャッシュライン状態において、
実線で表記しているキャッシュラインは有効である（有
効フラグ２０がセットされている）ことを示し、破線で
表記しているキャッシュラインは無効である（有効フラ
グ２０がセットされていない）ことを示す。

【０１１５】０サイクル目においては、いずれのキャッ
シュメモリでも、投機フラグ２３、更新フラグ２４、ス
トア・フラグ２７、及び投機ロード・フラグ２８はリセ
ットされていて、同一の確定的なデータ“Ｘ”を保持し
ているとする。

【０１１６】再び、スレッド実行状態（図９（ａ））を
参照すると、まず、３サイクル目においてプロセッサ＃
０でストア０が実行される。ストア０の書き込み値が
“０”であるとすると、まず、該アドレスのデータを共
有している他のプロセッサ、プロセッサ＃１、＃２、＃
３に対してライト要求を発行し（図６のステップ２２
６）、自身のキャッシュメモリ＃０に“０”を書き込む
（図６のステップ２２８）。どのプロセッサとデータを
共有しているかは、キャッシュラインの共有フラグ２２
を参照して判断する。

【０１１７】一方、ライト要求を受信したプロセッサ＃
１、＃２、＃３では、ライト要求に対する処理が行われ
る。具体的には、いずれのプロセッサにとっても親スレ
ッドからのライト要求で、かつ有効なライト・データな
ので、“０”の書き込みを行う（図８のステップ２７
７）。

【０１１８】次に、４サイクル目において、プロセッサ
＃３でストア３が実行される。ここでスレッド３は投機
的なスレッドであり、従って、ストア３は投機的な実行
であるとする。ストア３の書き込み値が“３”であると
すると、まず、データを共有している他のプロセッサ、
プロセッサ＃０、＃１、＃２に対してライト要求を発行
し（図６のステップ２２６）、自身のキャッシュメモリ
＃３に“３”を書き込む（図６のステップ２２８）。ま
た、投機フラグ２３の自プロセッサに対応するフラグ部
分、及びストア・フラグ２８をセットする。

【０１１９】一方、ライト要求を受信したプロセッサ＃
０、＃１、＃２では、ライト要求に対する処理が行われ
る。具体的には、いずれのプロセッサにとっても子スレ
ッドからのライト要求でなので、更新フラグ２４の更新
対象フラグ２４ｂのうち、更新の原因のプロセッサであ
るプロセッサ＃３に対応するフラグ部分をセットする
（図８のステップ２７３）。

【０１２０】次に、５サイクル目において、プロセッサ
＃１でストア１が実行される。ここでスレッド１は投機
的なスレッドであり、従って、ストア１は投機的な実行
であるとする。ストア１の書き込み値が“１”であると
すると、まず、データを共有している他のプロセッサ、
プロセッサ＃０、＃２、＃３に対してライト要求を発行
し（図６のステップ２２６）、自身のキャッシュメモリ
＃１に“１”を書き込む（図６のステップ２２８）。ま
た、投機フラグ２３の自プロセッサに対応するフラグ部
分、及びストア・フラグ２８をセットする。

【０１２１】一方、ライト要求を受信したプロセッサ＃
０、＃２、＃３では、ライト要求に対する処理が行われ
る。まず、プロセッサ＃０にとっては、子スレッドから
のライト要求なので、更新フラグ２４の更新対象フラグ
２４ｂのうち、更新の原因のプロセッサであるプロセッ
サ＃１に対応するフラグ部分をセットする（図８のステ
ップ２７３）。プロセッサ＃２にとっては、親スレッド
からのライト要求で、かつ有効なライト・データなの
で、“１”の書き込みを行う（図８のステップ２７
７）。また、投機的なデータの書き込みを行ったので、
投機フラグ２３のうち、書き込みの原因のプロセッサで
あるプロセッサ＃１に対応するフラグ部分をセットする
（図８のステップ２８０）。一方、プロセッサ＃３にと
っては、親スレッドからのライト要求で、かつ有効なラ
イト・データなのであるが、自スレッドが先に投機的な
書き込みを行っている（ストア・フラグ２８がセットさ
れている）ので、“１”の書き込みは行わない（図８の
ステップ２７７）。

【０１２２】次に、６サイクル目において、プロセッサ
＃０でロード０が実行される。ロード０はキャッシュメ
モリ＃０にヒットし、データ“０”が読み出される（図
５のステップ２０６）。ロード０からストア１及びスト
ア３には逆依存関係が存在している。すなわち、ロード
０は、時間上で先に実行されたがプログラム順序上は後
に位置するストア１やストア３のデータではなく、スト
ア０の値を参照する必要がある。上記したように、本実
施形態により、逆依存関係の解消が達成され、正しくス
トア０の値である“０”が参照された。

【０１２３】同様に、７サイクル目においては、プロセ
ッサ＃１でロード１が実行される。ロード１はキャッシ
ュメモリ＃１にヒットし、データ“１”が読み出される
（図５のステップ２０６）。また、ロード１は投機的な
実行であるので、投機ロード・フラグ２７がセットされ
る。

【０１２４】同様に、８サイクル目においては、プロセ
ッサ＃２でロード２が実行される。ロード２はキャッシ
ュメモリ＃２にヒットし、プロセッサ＃１が実行したス
トア１のデータ“１”が正しく読み出される（図５のス
テップ２０６）。また、ロード２は投機的な実行である
ので、投機ロード・フラグ２７がセットされる。このよ
うに本実施形態によれば、ストア命令を実行した際、子
スレッド側のキャッシュメモリにも同時に書き込みを行
うので、子スレッド側ではキャッシュメモリにミスする
ことなく、そのデータを参照することができる。すなわ
ち、ストア命令を実行した際に、子スレッド側のキャッ
シュメモリを無効化する従来の方法にくらべて、スレッ
ド間の通信コストが小さいため、スレッド間の通信が多
い場合でも性能の低下が小さいという効果がある。

【０１２５】次に、９サイクル目において、プロセッサ
＃３でロード３が実行される。ロード３はキャッシュメ
モリ＃３にヒットし、データ“３”が正しく読み出され
る（図５のステップ２０６）。ストア１とストア３には
出力依存関係が存在している。すなわち、ストア１は時
間上で後に実行されたにもかかわらず、プログラム順序
上は先に位置するストア１のデータではなくストア３の
値が、後続のロード命令であるロード３等に参照される
必要がある。上記したように、本実施形態により、出力
依存関係の解消が達成され、正しくストア３の値である
“３”が参照された。

【０１２６】また、７サイクル目でスレッド０の実行が
終了したため、キャッシュメモリ＃０においては、更新
フラグ２４の何れかの更新対象フラグ２４ｂがセットさ
れているので、更新有効フラグ２４ａがセットされる。
これにより、該キャッシュラインは、キャッシュメモリ
＃１やキャッシュメモリ＃３が保持するデータにより更
新されている為に、無効である可能性があることが示さ
れる。一方、スレッド０の実行の完了により、投機的な
実行を行っていたスレッド１の実行が確定する。キャッ
シュメモリ＃１では、投機フラグ２３、投機ロード・フ
ラグ２７、及びストア・フラグ２８がリセットされ、デ
ータ“１”が確定する。

【０１２７】同様に、８サイクル目でスレッド１の実行
が終了したため、キャッシュメモリ＃１においては、更
新フラグ２４の何れかの更新対象フラグ２４ｂがセット
されているので、更新有効フラグ２４ａがセットされ
る。これにより、該キャッシュラインは、キャッシュメ
モリ＃３が保持するデータにより更新されている為に、
無効である可能性があることが示される。一方、スレッ
ド１の実行の完了により、投機的な実行を行っていたス
レッド２の実行が確定する。キャッシュメモリ＃２で
は、投機フラグ２３、及び投機ロード・フラグ２７がリ
セットされ、データ“１”が確定する。

【０１２８】同様に、９サイクル目でスレッド２の実行
が終了したため、キャッシュメモリ＃２においては、更
新フラグ２４の何れかの更新対象フラグ２４ｂがセット
されているので、更新有効フラグ２４ａがセットされ
る。これにより、該キャッシュラインは、キャッシュメ
モリ＃３が保持するデータにより更新されている為に、
無効である可能性があることが示される。一方、スレッ
ド２の実行の完了により、投機的な実行を行っていたス
レッド３の実行が確定する。キャッシュメモリ＃３で
は、投機フラグ２３、及び投機ロード・フラグ２７がリ
セットされ、データ“３”が確定する。

【０１２９】次に、１１サイクル目にスレッド３の実行
が終了するが、キャッシュメモリ＃３は子スレッドによ
り更新されていない為（更新対象フラグ２４ｂがセット
されていない）、更新有効フラグ２４ａはセットしなく
てもよい。すなわち、キャッシュメモリ＃３のデータ
“３”は該アドレスのデータとして確定する。このよう
に、本実施形態によれば、スレッドが終了した際には、
更新対象フラグ２４ｂのセット、リセット状態に応じて
更新フラグ２４ａをセットするのみであり、ライトバッ
クの集中やキャッシュラインの無効化が発生する従来の
方法に比べて、スレッドの終了のコストが著しく小さ
く、スレッド並列処理の実行性能が高いという効果があ
る。

【０１３０】次に、１０サイクル目からプロセッサ＃０
において、スレッド４の実行が開始される。まず、１３
サイクル目において、ロード４が実行される。この時点
において、スレッド４は実行中のスレッドのなかで、プ
ログラム順序で最も先に位置しているスレッドなので、
スレッド実行は確定しており、従って、ロード４も確定
的に実行される。ロード４はキャッシュメモリ＃０にヒ
ットするが、更新フラグ２４がセットされている為、デ
ータを共有している他のプロセッサ、プロセッサ＃１、
＃２、＃３にリード要求を発行する（図５のステップ２
０３）。他プロセッサからの応答を参照すると、キャッ
シュメモリ＃１及びキャッシュメモリ＃３により、実際
に更新されていることが判明するので、キャッシュメモ
リ＃０へのリフィルが行われる（図５のステップ２１
３）。この場合、キャッシュメモリ＃３より、データ
“３”を含むキャッシュラインのデータが提供され、デ
ータ“３”が読み出される（図５のステップ２０６）。

【０１３１】一方、リード要求を受信したプロセッサ＃
１、＃２、＃３のうち、プロセッサ＃１、及びプロセッ
サ＃２では、更新フラグ２４がセットされていて、かつ
キャッシュメモリ＃３により実際に更新されていること
が判明するので、キャッシュラインが無効化される（図
７のステップ２５３）。一方、プロセッサ＃３では、キ
ャッシュメモリ＃３が有効なリフィル・データを保持し
ており、データ“３”を含むリフィル・データをプロセ
ッサ＃０に供給する（図７のステップ２５８）。

【０１３２】次に、１４サイクル目において、プロセッ
サ＃１でスレッド５に含まれるロード５が実行される。
ここで、スレッド５は投機的なスレッドであるとする。
ロード５はキャッシュメモリ＃１にミスするので、他の
すべてのプロセッサ、プロセッサ＃０、＃２、＃３に対
してリード要求を発行し（図５のステップ２０９）、リ
フィル・データの到着を待って、キャッシュメモリ＃１
へのリフィルを行う。この場合、キャッシュメモリ＃０
より、データ“３”を含むキャッシュラインのデータが
提供され、データ“３”が読み出される（図５のステッ
プ２０６）。また、ロード５は投機的な実行であるの
で、投機ロード・フラグ２７がセットされる（図５のス
テップ２０７）。

【０１３３】一方、リード要求を受信したプロセッサ＃
０、＃２、＃３のうち、プロセッサ＃０は、キャッシュ
メモリ＃０が有効なリフィル・データを保持しており、
データ“３”を含むリフィル・データをプロセッサ＃１
に供給する（図７のステップ２５８）。一方、プロセッ
サ＃２は、リード要求がキャッシュメモリ＃２にミスす
るので、その旨を応答する（図７のステップ２４７）。
また、プロセッサ＃３は、キャッシュメモリ＃３が有効
なリフィル・データを保持しているが、プログラム順序
で間のスレッドを実行しているプロセッサ＃０のキャッ
シュメモリ＃０も有効なデータを保持していることが判
明するので、リフィル・データの供給は行わない。

【０１３４】次に、１５サイクル目において、プロセッ
サ＃０でストア４が実行される。ストア４の書き込み値
が“４”であるとすると、まず、データを共有している
他のプロセッサ、プロセッサ＃１、＃３に対してライト
要求を発行し（図６のステップ２２６）、自身のキャッ
シュメモリ＃０に“４”を書き込む（図６のステップ２
２８）。

【０１３５】ライト要求を受信したプロセッサ＃１、＃
３では、ライト要求に対する処理が行われる。まず、プ
ロセッサ＃１にとっては、親スレッドからのライト要求
で、かつ有効なライト・データなので、“４”の書き込
みを行う（図８のステップ２７７）。次に、正依存関係
の検出処理において（図８のステップ２７８）、キャッ
シュメモリ＃１のキャッシュラインは、ライト要求に対
して、投機ロード・フラグ２８がセットされているの
で、正依存関係の存在が検出される。すなわち、先にプ
ロセッサ＃１が実行した投機的なロード５は、ライト要
求の要因であるプロセッサ＃０が実行したストア４か
ら、正依存関係が存在し、かつそれに違反している為、
ロード５の投機実行は失敗したことが判明する。具体的
には、ロード５はプログラム順序でストア４の後に位置
する為、ストア４の書き込みデータ“４”を読み出すべ
きが、誤った値であるストア３の書き込みデータ“３”
を読み出している。正依存関係の存在が検出された旨
は、プロセッサ＃１に通知され、投機実行失敗の回復処
理が開始される。

【０１３６】一方、ライト要求を受信したプロセッサ＃
３では、親スレッドからのライト要求で、かつ有効なラ
イト・データなので、“４”の書き込みを行う（図８の
ステップ２７７）。

【０１３７】プロセッサ＃１がロード５の投機実行を失
敗したことによる回復処理は、まず、その失敗したスレ
ッド、及びそのスレッドのすべての子スレッドの実行を
取り消して、スレッドの再実行を行うなどで、スレッド
の正常な実行を回復する。具体的には、投機実行の失敗
が判明した１５サイクル目で、失敗したスレッド５、及
びその子スレッドであるスレッド６とスレッド７の実行
が取り消され、１６サイクル目から再びスレッド５が、
続いてスレッド６及びスレッド７が再実行される。スレ
ッドの取り消し処理の際には、キャッシュメモリを構成
するすべてのキャッシュラインのすべての投機ロード・
フラグ２７をリセットと、無効化が必要な投機的なキャ
ッシュラインの無効化を行う。例えば、キャッシュメモ
リ＃１では、投機ロード・フラグ２８をリセットする。
キャッシュラインは確定的なので、無効化は行われな
い。キャッシュメモリ＃３でも、キャッシュラインは確
定的なので、無効化は行われない。スレッド５、及びス
レッド６、７の再実行が行われた結果、１９サイクル目
でプロセッサ＃１はロード５を再び実行し、正しいデー
タ“４”の読み出しが行われる。

【０１３８】以上、本実施形態による動作の具体例を説
明した。本実施形態によれば、あるスレッドを実行する
プロセッサがストア命令を実行した際には、該プロセッ
サに固有のキャッシュメモリに、該ストア命令のストア
・データを格納するのに加えて、該スレッドの子スレッ
ドを実行するプロセッサに固有のキャッシュメモリに、
該ストア命令と同アドレスのキャッシュラインが存在し
た場合、同アドレスのデータを保持するすべてのキャッ
シュラインのストア・フラグ２７を参照して、有効なデ
ータ部分を算出し、有効なデータ部分のみ更新を行うこ
とを特徴とする。このため、子スレッド側ではキャッシ
ュメモリにミスすることなく、親スレッドが生成したデ
ータを参照することができる。すなわち、ストア命令を
実行した際に、子スレッド側のキャッシュメモリを無効
化する従来の方法に比べて、スレッド間の通信コストが
小さいため、スレッド間の通信が多い場合でも性能の低
下が小さいという効果がある。

【０１３９】さらに、親スレッドの書き込み処理による
キャッシュラインの無効化が発生しないことは、複数の
データエントリ２６を一つのキャッシュライン内に備え
ることを可能にする。すなわち、ストア命令等の最小の
書き込み単位であるデータエントリ毎に、アドレスタグ
や各フラグが必要な従来のキャッシュラインに比べ、本
実施形態は、複数のデータエントリに対して、一組のア
ドレスタグや各フラグを設置すれば充分なので、実装に
必要なハードウエア量が小さいという効果がある。

【０１４０】一方、ストア命令を実行したスレッドに対
して、プログラム順序で前に位置する親スレッドを実行
するプロセッサに固有のキャッシュメモリに、該ストア
命令と同アドレスのキャッシュラインが存在した場合、
データの更新は行えず、更新フラグ２４をセットするこ
とで、次に実行されるスレッドではデータは無効である
可能性があることを記憶するのみである。そのため、実
行されるスレッドにおいて、該アドレスをアクセスした
場合、リフィル処理が発生する可能性が大きいため、ス
レッドの大きさが特に小さく、スレッド間の通信量が特
に多い状況では、スレッドの実行性能が低下する場合が
ある。

【０１４１】この問題に対して、本発明によるキャッシ
ュメモリにおいては、差分バッファと呼ぶバッファを設
置してもよい。差分バッファを具備する本発明の第２の
実施形態を図１０に示す。図１０を参照すると、キャッ
シュ制御部１９は少なくとも、バス要求制御部（符号３
０）、キャッシュ要求制御部（符号３１）、バス要求出
力バッファ（符号３２）、バス要求入力バッファ（符号
３３）、に加えて差分バッファ３４から構成される。

【０１４２】差分バッファ３４はキャッシュ制御部１９
において、キャッシュ要求制御部３１に接続される。差
分バッファ３４はアドレス及びそのデータを保持可能な
バッファであり、自スレッドに対してプログラム順序で
後に位置する子スレッドがストア命令を実行した際に、
自身のキャッシュメモリに該ストア命令と同アドレスの
キャッシュラインが存在した場合、該キャッシュライン
の更新フラグ２４をセットするとともに、差分バッファ
３４に該ストア命令のアドレス及びそのストア・データ
を格納するものである。

【０１４３】次に、スレッドの実行が終了した際に、差
分バッファ３４に格納されているアドレスに対するキャ
ッシュラインがキャッシュメモリ１１に存在する場合、
差分バッファ３４に格納されている該アドレスのデータ
を該キャッシュラインへ書き込み、さらに該キャッシュ
ラインの更新フラグ２４のリセットを行う。この処理に
より、自プロセッサに次に割り当てられるスレッドの該
アドレスへのアクセスは、キャッシュメモリにヒットす
ることになる。すなわち、差分バッファ３４を設置する
ことにより、スレッドの大きさが特に小さく、スレッド
間の通信量が特に多い状況においても、スレッドの実行
性能が低下しないという顕著な効果がある。

【０１４４】以上、本発明の実施形態について説明し
た。上記説明では、プロセッサ数が４つの場合について
説明したが、本発明はプロセッサ数が４つに限るもので
はなく、２つ以上の任意の数のプロセッサを備えるマル
チプロセッサシステムに同様に適用することができる。
なお、本発明が対象とするスレッドは、プログラムのコ
ンパイル時等に静的に生成してもよいし、プログラムの
実行時に動的に生成してもよく、スレッドの大きさは１
命令以上の任意の大きさである。

【０１４５】

【発明の効果】以上説明したように、本発明によれば、
親スレッドが書き換えたデータと同じアドレスのキャッ
シュラインが子スレッド側のキャッシュメモリに存在す
ればそれも書き換えるようにしたので、子スレッド側で
はキャッシュメモリにミスすることなく、親スレッドが
生成したデータを参照することが可能となった。従っ
て、ストア命令を実行した際に、子スレッド側のキャッ
シュメモリを無効化する文献２の従来の方法にくらべ
て、スレッド間の通信コストが小さいため、スレッド間
の通信が多い場合でも性能の低下が小さく、高速なスレ
ッド並列処理が可能であるという効果がある。

【０１４６】また、スレッドの終了時には更新フラグを
セットする操作を行えば良く、文献１の従来の方法のよ
うにスレッドの終了時にキャッシュメモリにおいて、デ
ータの書き戻し処理の集中や、キャッシュラインの無効
化が発生しない為、高速なスレッド並列処理が可能であ
るという効果がある。さらに、キャッシュミスにともな
うリフィル処理の回数が少なく、スレッド終了時に書き
戻し処理が発生しないので、キャッシュメモリにおいて
消費される電力が小さいという効果がある。

【０１４７】さらに、文献２のように親スレッドの書き
込み処理によるキャッシュラインの無効化が発生しない
ので、ストア命令等の最小の書き込み単位であるデータ
エントリを複数、一つのキャッシュライン内に備えるこ
とができる。すなわち、データエントリ毎に、アドレス
タグや各フラグが必要な従来のキャッシュラインに比
べ、本発明は、複数のデータエントリに対して、一組の
アドレスタグや各フラグを設置すれば充分なので、実装
に必要なハードウエア量が小さいという効果がある。

【０１４８】また、本発明の差分バッファ３４によれ
ば、スレッドの大きさが特に小さく、スレッド間の通信
量が特に多いという状況においても、スレッドの実行性
能が低下せず、高速なスレッド並列処理が可能であると
いう効果がある。

【０１４９】また、本発明によるキャッシュラインにお
いて、プロセッサ間でデータが共有されていることを示
す共有フラグ２２は、複数ビットから構成され、データ
を共有しているプロセッサを個別に保持可能であり、バ
ス要求を出力するときには、共有しているプロセッサの
みにバス要求を出力するので、共有していないプロセッ
サでは、キャッシュメモリへのアクセスが発生せず、キ
ャッシュメモリのアクセス競合による性能低下が小さ
く、またキャッシュメモリにおいて消費される電力が小
さいという効果がある。

【０１５０】また、本発明によるキャッシュラインにお
いて、該キャッシュラインのデータは投機的であること
を示す投機フラグ２３は、複数ビットから構成され、該
キャッシュラインを投機的にならしめた原因のプロセッ
サを特定することが可能である。このため、投機フラグ
を１ビットで構成する従来の方法では、厳密には無効化
が不必要なキャッシュラインも無効化されてしまうのに
対して、本発明によれば、厳密に無効化が必要なキャッ
シュラインのみが無効化されるため、キャッシュミスが
発生する確立が小さく、高速なスレッド並列処理が可能
であるという効果がある。

【０１５１】また、本発明によれば、同じアドレスに対
するバス要求を結合して同時に発行し、さらに更新され
て無効である可能性のあるキャッシュラインへの処理
を、前記バス要求により暗黙的に実行するので、発行さ
れるバス要求を少なくすることができ、バスの競合によ
る性能低下が小さく、バスで消費される電力が小さいと
いう効果がある。

【０１５２】また、本発明によれば、データのプログラ
ム順序上の前後関係を直接記憶や管理を行うのではな
く、更新フラグによる子スレッドにより更新されたか否
かの情報で管理する為、制御が単純で高速化が容易であ
り、必要なハードウエア量も小さいという効果がある。

【図面の簡単な説明】

【図１】本発明によるキャッシュメモリ装置を含むマル
チプロセッサシステムの構成を示すブロック図である。

【図２】キャッシュメモリを構成するキャッシュライン
の第１の実施形態の詳細を示す説明図である。

【図３】キャッシュメモリを構成するキャッシュライン
の第２の実施形態の詳細を示す説明図である。

【図４】キャッシュ制御部の第１の実施形態の詳細を示
すブロック図である。

【図５】ロード命令が発行された場合のキャッシュメモ
リ及びキャッシュ制御部の動作を示すフローチャートで
ある。

【図６】ストア命令が発行された場合のキャッシュメモ
リ及びキャッシュ制御部の動作を示すフローチャートで
ある。

【図７】リード要求を受信した場合のキャッシュメモリ
及びキャッシュ制御部の動作を示すフローチャートであ
る。

【図８】ライト要求を受信した場合のキャッシュメモリ
及びキャッシュ制御部の動作を示すフローチャートであ
る。

【図９】４つのプロセッサを備えるマルチプロセッサシ
ステムにおける、スレッド実行とキャッシュラインの状
態を示した説明図である。

【図１０】キャッシュ制御部の第２の実施形態の詳細を
示すブロック図である。

【図１１】従来のキャッシュメモリ装置を含むマルチプ
ロセッサシステムの構成を示すブロック図である。

【図１２】従来のキャッシュメモリ装置を含むマルチプ
ロセッサシステムの構成を示すブロック図である。

【符号の説明】

１０プロセッサ１１キャッシュメモリ１２キャッシュ制御部１３要求バス１４応答バス１５データバス１６スレッド制御バス１７バス制御部１８メインメモリ１９キャッシュ制御部２０有効フラグ２１変更フラグ２２共有フラグ２３投機フラグ２４更新フラグ２４ａ更新有効フラグ２４ｂ更新対象フラグ２５アドレスタグ２６、２６ａ、２６ｂ、２６ｃ、２６ｄデータエント
リ２７、２７ａ、２７ｂ、２７ｃ、２７ｄストア・フラ
グ２８、２８ａ、２８ｂ、２８ｃ、２８ｄ投機ロード・
フラグ３０バス要求制御部３１キャッシュ要求制御部３２バス要求出力バッファ３３バス要求入力バッファ３４差分バッファ１００スレッド実行部１０１キャッシュメモリ１０２整合性維持部１０３共有バス１０４メインメモリ１１０プロセッサ１１１ＳＶＣ１１２スヌープ・バス１１３バス・アービタ／バージョン制御論理１１４メインメモリ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 15/16 ６４５Ｇ０６Ｆ 15/16 ６４５ 15/177 ６８１ 15/177 ６８１ＺＦターム(参考） 5B005 JJ01 KK14 MM01 NN45 PP11 PP21 5B045 DD12 GG11 5B098 AA02 AA03 AA10 GA05 GD03 GD14

Claims

【特許請求の範囲】

【請求項１】それぞれが固有のキャッシュメモリを持
つ複数のプロセッサで構成され、逐次的な実行順序関係
が規定された複数のスレッドを並列に実行するマルチプ
ロセッサシステムにおけるキャッシュメモリ制御方法に
おいて、或るスレッドを実行するプロセッサがデータの
書き込みを行った際に、前記或るスレッドを実行するプ
ロセッサに固有のキャッシュメモリに前記データを書き
込むのに加えて、前記或るスレッドより実行順序が後の
スレッドを実行するプロセッサに固有のキャッシュメモ
リに前記データの書き込み対象アドレスのキャッシュラ
インが存在した場合にはそのキャッシュメモリに対する
更新処理を行うと共に、前記或るスレッドより実行順序
が先のスレッドを実行するプロセッサに固有のキャッシ
ュメモリに前記データの書き込み対象アドレスのキャッ
シュラインが存在した場合には、当該キャッシュライン
に前記或るスレッドを実行するプロセッサが書き込みを
行った旨を記憶することを特徴とするキャッシュメモリ
制御方法。
【請求項２】前記キャッシュメモリを構成するキャッ
シュライン毎に、該キャッシュメモリに固有のプロセッ
サが書き込みを実行した旨を書き込みのデータ幅単位で
管理するフラグであって書き込み時にセットされ且つ当
該プロセッサにおけるスレッド終了時にリセットされる
ストア・フラグを備え、前記更新処理においては、更新
処理の対象となるキャッシュメモリにおけるキャッシュ
ラインの前記ストア・フラグの内容と、実行順序が前記
或るスレッドから更新処理の対象となるキャッシュメモ
リを持つプロセッサで実行しているスレッドまでの間に
位置するスレッドを実行するプロセッサに固有のキャッ
シュメモリに存在するキャッシュラインの前記ストア・
フラグの内容とを参照して、更新処理の対象とするキャ
ッシュラインの更新可否及び更新対象データ部分を決定
する請求項１記載のキャッシュメモリ制御方法。
【請求項３】前記キャッシュメモリを構成するキャッ
シュライン毎に、プログラム順序で後に位置するスレッ
ドを実行するプロセッサ毎にそのプロセッサによりデー
タの書き込みが実行された旨を記憶する更新対象フラグ
と、該更新対象フラグが有効であるか否かを示す更新有
効フラグとを備え、或るスレッドを実行するプロセッサ
が自プロセッサ固有のキャッシュメモリの或るキャッシ
ュラインをアクセスした際に前記更新対象フラグ及び前
記更新有効フラグが共に有効であった場合、前記更新対
象フラグによって判明する前記データの書き込みを実行
したプロセッサに固有のキャッシュメモリに該書き込み
の対象アドレスのキャッシュラインが存在するか否かを
参照することによって該キャッシュラインが有効である
か無効であるかを判断し、無効である場合には、有効な
データをメインメモリまたは他のプロセッサに固有のキ
ャッシュメモリから転送し、該キャッシュラインへ格納
する請求項１記載のキャッシュメモリ制御方法。
【請求項４】前記キャッシュメモリを構成するキャッ
シュライン毎に、プログラム順序で後に位置するスレッ
ドを実行するプロセッサ毎にそのプロセッサによりデー
タの書き込みが実行された旨を記憶する更新対象フラグ
と、該更新対象フラグが有効であるか否かを示す更新有
効フラグとを備え、或るスレッドを実行するプロセッサ
に固有のキャッシュメモリの或るキャッシュラインを他
プロセッサがアクセスした際に前記更新対象フラグ及び
前記更新有効フラグが共に有効であった場合、前記更新
対象フラグによって判明する前記データの書き込みを実
行したプロセッサに固有のキャッシュメモリに該書き込
みの対象アドレスのキャッシュラインが存在するか否か
を参照することによって該キャッシュラインが有効であ
るか無効であるかを判断し、無効である場合には、該キ
ャッシュラインを無効化する請求項１記載のキャッシュ
メモリ制御方法。
【請求項５】プログラム順序で後に位置するスレッド
を実行するプロセッサによりデータの書き込みが実行さ
れた際に、該書き込みの対象アドレスと該書き込みデー
タを格納するバッファ装置を備え、スレッドの実行が終
了した際には、前記バッファ装置に格納されているアド
レスに対応するキャッシュラインが存在する場合、前記
バッファ装置に格納されている該アドレスのデータを該
キャッシュラインに書き込みを行う請求項１記載のキャ
ッシュメモリ制御方法。
【請求項６】前記キャッシュメモリを構成するキャッ
シュライン毎に、どのプロセッサとデータを共有してい
るかを記憶する共有フラグを備え、或るプロセッサがバ
ス要求を出力する際に、前記共有フラグを参照して、デ
ータを共有しているプロセッサを特定し、前記データを
共有しているプロセッサのみに前記バス要求を出力する
ことを特徴とする請求項１記載のキャッシュメモリ制御
方法。
【請求項７】前記キャッシュメモリを構成するキャッ
シュライン毎に、該キャッシュラインのデータが投機的
なデータである場合に、投機的である旨及び投機的にな
らしめた原因のプロセッサを特定する投機フラグを備
え、或るプロセッサでスレッドの実行の取り消しが発生
した場合に、該プロセッサに固有のキャッシュメモリに
存在する投機的なキャッシュラインのうち、該キャッシ
ュラインを投機的にならしめた原因のプロセッサでもス
レッドの実行の取り消しが行われた場合、該キャッシュ
ラインを無効化する請求項１記載のキャッシュメモリ制
御方法。
【請求項８】前記キャッシュメモリ毎にキャッシュ制
御部を備え、前記キャッシュ制御部どうし及び前記キャ
ッシュ制御部と前記プロセッサで共有されるメインメモ
リ間をバスによって相互に接続し、且つ、前記キャッシュメモリの各キャッシュライン毎に、当該
キャッシュラインが有効か否かを示す有効フラグと、当
該キャッシュラインがメインメモリと相違しているか否
かを示す変更フラグと、当該キャッシュラインが他のど
のプロセッサと共有しているか否かを示す共有フラグ
と、当該キャッシュラインが投機的なデータを含むか否
か及び含む場合には投機的にならしめた原因のプロセッ
サを示す投機フラグと、当該キャッシュラインが実行順
序で後に位置するスレッドを実行するプロセッサ毎にそ
のプロセッサによりデータの書き込みが実行された旨を
記憶する更新対象フラグと、何れかの前記更新対象フラ
グがセットされている場合には、セットされている更新
対象フラグに対応するプロセッサによって当該キャッシ
ュラインが更新されて無効になっている可能性があるこ
とを示す更新有効フラグと、当該キャッシュラインへの
自プロセッサによる書き込みの有無を、あらかじめ定め
たデータ幅の単位毎に示すストア・フラグと、当該キャ
ッシュラインへの自プロセッサによる投機的なデータの
読み出しの有無をあらかじめ定めたデータ幅の単位毎に
示す投機ロード・フラグとを備え、前記キャッシュ制御部は、リード及びライトにかかるバ
ス要求の入出力時に、前記有効フラグ、前記変更フラ
グ、前記共有フラグ、前記投機フラグ、前記更新対象フ
ラグ、前記更新有効フラグ及び前記ストア・フラグを含
むキャッシュライン状態を互いに交換することによって
得た他キャッシュメモリのキャッシュライン状態と、自
キャッシュメモリのキャッシュライン状態と、自プロセ
ッサで実行されているスレッドと他プロセッサで実行さ
れているスレッドとの実行順序関係とに基づいて、前記
キャッシュメモリのデータの整合性を維持する処理を行
うものである請求項１乃至７の何れか１項に記載のキャ
ッシュメモリ制御方法。
【請求項９】それぞれが固有のキャッシュメモリ及び
キャッシュ制御部を持ち且つメインメモリを共有する複
数のプロセッサで構成され、前記キャッシュ制御部どう
し及び前記キャッシュ制御部と前記メインメモリ間がバ
スで相互に接続され、逐次的な実行順序関係が規定され
た複数のスレッドを並列に実行するマルチプロセッサシ
ステムにおいて、前記キャッシュメモリの各キャッシュライン毎に、当該
キャッシュラインが有効か否かを示す有効フラグと、当
該キャッシュラインがメインメモリと相違しているか否
かを示す変更フラグと、当該キャッシュラインが他のど
のプロセッサと共有しているか否かを示す共有フラグ
と、当該キャッシュラインが投機的なデータを含むか否
か及び含む場合には投機的にならしめた原因のプロセッ
サを示す投機フラグと、当該キャッシュラインが実行順
序で後に位置するスレッドを実行するプロセッサ毎にそ
のプロセッサによりデータの書き込みが実行された旨を
記憶する更新対象フラグと、何れかの前記更新対象フラ
グがセットされている場合には、セットされている更新
対象フラグに対応するプロセッサによって当該キャッシ
ュラインが更新されて無効になっている可能性があるこ
とを示す更新有効フラグと、当該キャッシュラインへの
自プロセッサによる書き込みの有無をあらかじめ定めた
データ幅の単位毎に示すストア・フラグと、当該キャッ
シュラインへの自プロセッサによる投機的なデータの読
み出しの有無をあらかじめ定めたデータ幅の単位毎に示
す投機ロード・フラグとを備え、前記キャッシュ制御部は、リード及びライトにかかるバ
ス要求の入出力時に、前記有効フラグ、前記変更フラ
グ、前記共有フラグ、前記投機フラグ、前記更新対象フ
ラグ、前記更新有効フラグ及び前記ストア・フラグを含
むキャッシュライン状態を互いに交換することによって
得た他キャッシュメモリのキャッシュライン状態と、自
キャッシュメモリのキャッシュライン状態と、自プロセ
ッサで実行されているスレッドと他プロセッサで実行さ
れているスレッドとの実行順序関係とに基づいて、自キ
ャッシュメモリのキャッシュライン状態を適宜変更する
ものであり、前記キャッシュ制御部は、或るスレッドを実行するプロ
セッサがそのプロセッサに固有のキャッシュメモリを更
新した場合、同アドレスのデータが、実行順序で後のス
レッドを実行するプロセッサに固有のキャッシュメモリ
にあれば同時に更新処理を行うが、実行順序で先行する
スレッドを実行するプロセッサに固有のキャッシュメモ
リにあっても書き換えず、書き換えがあった旨を前記更
新対象フラグに記録する構成を有し、且つ、或るプロセ
ッサでスレッドが終了した際、すべてのキャッシュライ
ンあるいは前記更新対象フラグの何れかがセットされて
いるキャッシュラインは前記更新有効フラグをセット
し、前記更新有効フラグがセットされていてかつ前記更
新対象フラグの何れかがセットされているキャッシュラ
インは無効である可能性があることを示し、前記更新有
効フラグがリセットされているか前記更新対象フラグの
全てがリセットされているキャッシュラインは有効であ
ることを示し、前記無効の可能性があることが示されて
いるキャッシュラインは、次のスレッドの実行中に実際
に無効か否かを調べる構成を有するマルチプロセッサシ
ステム。
【請求項１０】前記キャッシュ制御部は、前記更新処
理においては、更新処理の対象となるキャッシュメモリ
におけるキャッシュラインの前記ストア・フラグの内容
と、実行順序が前記或るスレッドから更新処理の対象と
なるキャッシュメモリを持つプロセッサで実行している
スレッドまでの間に位置するスレッドを実行するプロセ
ッサに固有のキャッシュメモリに存在するキャッシュラ
インの前記ストア・フラグの内容とを参照して、更新処
理の対象とするキャッシュラインの更新可否及び更新対
象データ部分を決定する請求項９記載のマルチプロセッ
サシステム。
【請求項１１】前記キャッシュ制御部は、或るスレッ
ドを実行するプロセッサが自プロセッサ固有のキャッシ
ュメモリの或るキャッシュラインをアクセスした際に前
記更新対象フラグ及び前記更新有効フラグが共に有効で
あった場合、前記更新対象フラグによって判明する前記
データの書き込みを実行したプロセッサに固有のキャッ
シュメモリに該書き込みの対象アドレスのキャッシュラ
インが存在するか否かを参照することによって該キャッ
シュラインが有効であるか無効であるかを判断し、無効
である場合には、有効なデータをメインメモリまたは他
のプロセッサに固有のキャッシュメモリから転送し、該
キャッシュラインへ格納する請求項９記載のマルチプロ
セッサシステム。
【請求項１２】前記キャッシュ制御部は、或るスレッ
ドを実行するプロセッサに固有のキャッシュメモリの或
るキャッシュラインを他プロセッサがアクセスした際に
前記更新対象フラグ及び前記更新有効フラグが共に有効
であった場合、前記更新対象フラグによって判明する前
記データの書き込みを実行したプロセッサに固有のキャ
ッシュメモリに該書き込みの対象アドレスのキャッシュ
ラインが存在するか否かを参照することによって該キャ
ッシュラインが有効であるか無効であるかを判断し、無
効である場合には、該キャッシュラインを無効化する請
求項９記載のマルチプロセッサシステム。
【請求項１３】プログラム順序で後に位置するスレッ
ドを実行するプロセッサによりデータの書き込みが実行
された際に、該書き込みの対象アドレスと該書き込みデ
ータを格納するバッファ装置を備え、スレッドの実行が
終了した際には、前記バッファ装置に格納されているア
ドレスに対応するキャッシュラインが存在する場合、前
記バッファ装置に格納されている該アドレスのデータを
該キャッシュラインに書き込みを行う請求項９記載のマ
ルチプロセッサシステム。
【請求項１４】前記キャッシュ制御部は、バス要求を
出力する際に、前記共有フラグを参照して、データを共
有しているプロセッサを特定し、前記データを共有して
いるプロセッサのみに前記バス要求を出力することを特
徴とする請求項９記載のマルチプロセッサシステム。
【請求項１５】前記キャッシュ制御部は、或るプロセ
ッサでスレッドの実行の取り消しが発生した場合に、該
プロセッサに固有のキャッシュメモリに存在する投機的
なキャッシュラインのうち、該キャッシュラインを投機
的にならしめた原因のプロセッサでもスレッドの実行の
取り消しが行われた場合、該キャッシュラインを無効化
する請求項９記載のマルチプロセッサシステム。