JP2022015514A

JP2022015514A - 半導体装置

Info

Publication number: JP2022015514A
Application number: JP2020118410A
Authority: JP
Inventors: 寛之石井; Hiroyuki Ishii
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2022-01-21
Also published as: US20220012175A1; US11409656B2

Abstract

【課題】上位キャッシュと下位キャッシュとの間にリプレースバッファを設けることなく、データのリプレース機能を実現する半導体装置を提供する。
【解決手段】ＣＰＵの下位（Ｌ３）キャッシュ２０は、上位（Ｌ２）キャッシュから受信するリード命令を保持する第１ポートＭＩＰと、上位キャッシュから受信するライトバック命令を保持する第２ポートＷＢＰと、第１ポートから投入されるリード命令及び第２ポートから投入されるライトバック命令を処理する処理部と、データを保持するキャッシュ部と、上位キャッシュの状態を示す上位キャッシュタグ（Ｌ２ＴＡＧ）とを有する。処理部は、第１ポートから投入されたリード命令の対象アドレスのデータを上位キャッシュが所持していることを上位キャッシュタグが示す場合、対象アドレスのデータを上位キャッシュが所持していないことを上位キャッシュタグが示すまで第１ポートから投入されたリード命令をアボートする。
【選択図】図２

Description

本発明は、半導体装置に関する。

複数のプロセッサを有するマルチプロセッサシステムでは、各プロセッサに搭載されるキャッシュが保持するデータとメインメモリが保持するデータとのコヒーレンシを維持する制御が実行される。また、プロセッサからメインメモリにデータをストアする手法として、データを一時的にキャッシュにストアするコピーバック方式と、データをキャッシュとメインメモリの両方にストアするストアスルー方式とがある。さらに、コピーバック方式とストアスルー方式とが混在したキャッシュシステムが知られている（例えば、特許文献１、２参照）。

特開昭６２－２０３２５２号公報特開平４－９２９３８号公報

近時、ＣＰＵ（Central Processing Unit）等のプロセッサは、性能向上のために複数階層のキャッシュを有する。例えば、コアからのアクセス要求を受けた上位側キャッシュは、キャッシュミスした場合、下位側キャッシュに読み出し要求を発行する。下位側キャッシュは、読み出し要求の対象データを格納するキャッシュラインを上位側キャッシュに確保させるため、上位側キャッシュにリプレース要求を発行し、読み出し要求の対象データを上位側キャッシュに出力する。

例えば、上位側キャッシュは、読み出し要求の発行時にリプレースの対象データを予め追い出すためのリプレースバッファを有する。そして、上位側キャッシュは、リプレースの対象データをキャッシュラインからリプレースバッファに追い出すことでキャッシュラインを予め無効化し、読み出し要求の対象データを格納するキャッシュラインを確保する。上位側キャッシュは、下位側キャッシュからのリプレース要求に基づいて、リプレースバッファに保持したリプレースの対象データを下位側キャッシュに出力する。

複数階層のキャッシュを有するプロセッサの上位側キャッシュがリプレースバッファを有する場合、リプレースバッファ分の回路規模が増大するという問題がある。例えば、プロセッサが、キャッシュを各々有する複数のコアと、複数のコアに共通のＬＬＣ（Last Level Cache）とを有する場合、複数のコアのキャッシュの各々にリプレースバッファが設けられるため、プロセッサのチップサイズへの影響は大きい。

１つの側面では、本発明は、上位キャッシュと下位キャッシュとの間にリプレースバッファを設けることなく、データのリプレース機能を実現することを目的とする。

一つの観点によれば、半導体装置は、命令を実行する演算部と、前記演算部に接続される上位キャッシュと、前記上位キャッシュに接続される下位キャッシュと、を有する半導体装置であって、前記下位キャッシュは、前記上位キャッシュから受信するリード命令を保持する第１ポートと、前記上位キャッシュから受信するライトバック命令を保持する第２ポートと、前記第１ポートから投入される前記リード命令および前記第２ポートから投入される前記ライトバック命令を処理する処理部と、データを保持するキャッシュ部と、前記上位キャッシュの状態を示す上位キャッシュタグと、を有し、前記処理部は、前記第１ポートから投入された前記リード命令の対象アドレスのデータを前記上位キャッシュが所持していることを前記上位キャッシュタグが示す場合、前記対象アドレスのデータを前記上位キャッシュが所持していないことを前記上位キャッシュタグが示すまで、前記第１ポートから投入された前記リード命令をアボートする。

１つの側面では、本発明は、上位キャッシュと下位キャッシュとの間にリプレースバッファを設けることなく、データのリプレース機能を実現することができる。

一実施形態におけるＣＰＵの一例を示すブロック図である。図１のＬ３キャッシュの要部の一例を示すブロック図である。図１のＣＰＵの動作の一例を示すシーケンス図である。図１のＣＰＵの動作の別の例を示すシーケンス図である。図１のＣＰＵの動作のさらなる別の例を示すシーケンス図である。図１のＣＰＵの動作の別の例を示すシーケンス図である。図２のアボート判定部の要部の一例を示す回路図である。図１のＣＰＵに搭載される別のＬ３キャッシュの要部の一例（比較例）を示すブロック図である。図８のＬ３キャッシュを有するＣＰＵの動作の一例を示すシーケンス図である。図８のＬ３キャッシュを有するＣＰＵの動作の別の例を示すシーケンス図である。図８のＬ３キャッシュを有するＣＰＵの動作のさらなる別の例を示すシーケンス図である。図８のＬ３キャッシュを有するＣＰＵの動作の別の例を示すシーケンス図である。別の実施形態におけるＣＰＵの概要を示すブロック図である。図１３のＬ３キャッシュにおいて、Ｌ３バンクを選択するハッシュアドレスを生成する一例を示す説明図である。別の実施形態におけるＣＰＵの概要を示すブロック図である。

図１は、一実施形態におけるＣＰＵの一例を示す。図１に示すＣＰＵ１００は、複数のコア１０、複数のＬ３キャッシュ２０、オンチップネットワーク３０、ホームエージェント４０、メモリコントローラ５０、チップ間インターコネクト６０および通信制御部７０を有する。ＣＰＵ１００は、半導体装置の一例であり、各コア１０は、演算部の一例である。

各コア１０は、プライベートなＬ１キャッシュ１１およびＬ２キャッシュ１２と、図示しない複数の演算器等を有し、Ｌ１キャッシュ１１に格納されたデータを使用して演算を実行する。例えば、Ｌ３キャッシュ２０は、ＬＬＣ（Last Level Cache）であり、４つのコア１０に共有される。Ｌ２キャッシュ１２は、上位キャッシュの一例であり、Ｌ３キャッシュ２０は、下位キャッシュの一例である。

以下では、Ｌ２キャッシュ１２からＬ３キャッシュ２０に発行される命令をリクエストと称し、Ｌ３キャッシュ２０からＬ２キャッシュ１２に発行される命令をオーダーと称する。なお、以下の説明では、上位キャッシュをＬ１キャッシュ１１とし、下位キャッシュをＬ２キャッシュ１２としてもよい。この場合、Ｌ１キャッシュ１１からＬ２キャッシュ１２への命令がリクエストになり、Ｌ２キャッシュ１２からＬ１キャッシュ１１への命令がオーダーになる。

ＣＰＵ１００は、例えば、４つのコア１０と１つのＬ３キャッシュ２０とをそれぞれ含む複数のクラスタを有する。そして、Ｌ１キャッシュ１１、Ｌ２キャッシュ１２およびＬ３キャッシュ２０により、上位側のキャッシュが保持するデータを下位側のキャッシュでも保持するインクルーシブポリシーのキャッシュシステムが設計される。また、この実施形態のキャッシュシステムは、キャッシュ上で書き換えられたデータが、メインメモリにすぐに書き戻されることなく、モディファイ状態でキャッシュ上に保持されるライトバックポリシを採用する。

以下では、いわゆるＭＥＳＩプロトコルにより動作するキャッシュシステムの例を説明するが、キャッシュシステムは、他のプロトコルで動作してもよい。ＭＥＳＩプロトコルでは、データの状態は、データの転送の単位であるキャッシュライン（データを保持するキャッシュブロック）毎に、モディファイ状態Ｍ、エクスクルーシブ状態Ｅ、シェア状態Ｓおよびインバリッド状態Ｉのいずれかに分類される。

例えば、ストア動作により更新され、書き換えられたダーティなデータを保持するキャッシュラインは、モディファイ状態Ｍに分類される。同一レベルの複数のキャッシュのうちの１つのみに保持され、更新されていないクリーンなデータを保持するキャッシュラインは、エクスクルーシブ状態Ｅに分類される。同一レベルの複数のキャッシュに保持されているクリーンなデータを保持するキャッシュラインは、シェア状態Ｓに分類される。データの追い出し等により無効になったキャッシュラインは、インバリッド状態Ｉに分類される。以下では、モディファイ状態Ｍ、エクスクルーシブ状態Ｅ、シェア状態Ｓおよびインバリッド状態Ｉは、それぞれＭ状態、Ｅ状態、Ｓ状態およびＩ状態とも称する。

オンチップネットワーク３０は、各クラスタのＬ３キャッシュ２０、ホームエージェント４０、チップ間インターコネクト６０および通信制御部７０を相互に接続する。ホームエージェント４０は、メインメモリからＬ３キャッシュ２０に持ち出しているデータの情報を記録するディレクトリ資源を有し、メインメモリとＬ３キャッシュ２０との間のコヒーレンシを制御する。

メモリコントローラ５０は、Ｌ３キャッシュ２０が発行するメモリアクセス要求に基づいて、メインメモリのアクセスを制御する。チップ間インターコネクト６０は、他のＣＰＵ１００（チップ）との間での通信を制御する。通信制御部７０は、例えば、ＰＣＩｅ（Peripheral Component Interconnect express）バス等の通信バスを介して他のデバイスとの間での通信を制御する。

図２は、図１のＬ３キャッシュ２０の要部の一例を示す。Ｌ３キャッシュ２０は、ムーブインポートＭＩＰ、ムーブアウトポートＭＯＰ、ライトバックポートＷＢＰ、プライオリティ回路ＰＲＩＯ、パイプラインＬ３Ｐ、タグ部Ｌ３ＴＡＧ、参照タグ部Ｌ２ＴＡＧおよび資源ロック部Ｌ３ＯＬＫを有する。また、Ｌ３キャッシュ２０は、データキャッシュ部Ｌ３ＤＴ、アボート判定部ＡＢＴＪＤＧ、資源カウンタＬ３ＯＣＮＴおよびライトバックデータキューＷＢＤＱを有する。

ムーブインポートＭＩＰは、第1ポートの一例であり、ムーブアウトポートＭＯＰは第３ポートの一例であり、ライトバックポートＷＢＰは、第２ポートの一例である。パイプラインＬ３Ｐは、処理部の一例であり、参照タグ部Ｌ２ＴＡＧは、上位キャッシュタグの一例であり、データキャッシュ部Ｌ３ＤＴは、キャッシュ部の一例である。

ムーブインポートＭＩＰは、Ｌ２キャッシュ１２（コア１０）から出力されるリクエストを順次保持する複数のエントリを有し、保持した順にリクエストをプライオリティ回路ＰＲＩＯに出力する。例えば、ムーブインポートＭＩＰには、後述するリードリクエストＭＩ－ＳＨまたはリードリクエストＭＩ－ＥＸがＬ２キャッシュ１２から供給される。リードリクエストＭＩ－ＳＨは、シェア状態Ｓでデータを要求する場合に発行され、リードリクエストＭＩ－ＥＸは、エクスクルーシブ状態Ｅでデータを要求する場合に発行される。リードリクエストＭＩ－ＳＨおよびリードリクエストＭＩ－ＥＸは、リード命令の一例である。以下では、リード命令としてリードリクエストＭＩ－ＳＨが発行される場合について説明される。

ムーブアウトポートＭＯＰは、Ｌ３キャッシュ２０がＬ２キャッシュ１２に発行したオーダーに対するＬ２キャッシュ１２からの応答を順次保持する複数のエントリを有し、保持した順に応答をプライオリティ回路ＰＲＩＯに出力する。オーダーが複数のコア１０に発行された場合、ムーブアウトポートＭＯＰは、各コア１０からの応答が全て揃ったとき、パイプラインＬ３Ｐに応答を投入する。

例えば、オーダーには、Ｌ２キャッシュ１２に保持されたＭ状態のデータをＬ２キャッシュ１２から返却させる共有オーダーＭＢ－ＳＨと、Ｌ２キャッシュ１２に保持されたデータを無効化する無効化オーダーＭＢ－ＩＶがある。共有オーダーＭＢ－ＳＨおよび無効化オーダーＭＶ－ＩＶは、追い出し命令の一例である。なお、この実施形態では、Ｌ２キャッシュ１２に保持されたデータのリプレース（追い出し）は、Ｌ２キャッシュ１２が能動的に発行するライトバックリクエストＷＲＢＫまたはフラッシュバックリクエストＦＬＢＫにより実行される。このため、Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２からデータを追い出させるリプレースオーダーＭＯ－ＲＥ（図９）は発行しない。ここで、ライトバックリクエストＷＲＢＫは、追い出すデータが書き換えられてダーティな場合にデータ付きで発行される。フラッシュバックリクエストＦＬＢＫは、追い出すデータが書き換えられておらずクリーンな場合にデータなしで発行される。

ライトバックポートＷＢＰは、Ｌ２キャッシュ１２から出力されるライトバックリクエストＷＲＢＫまたはフラッシュバックリクエストＦＬＢＫを保持する複数のエントリを有する。ライトバックポートＷＢＰは、保持した順にライトバックリクエストＷＲＢＫまたはフラッシュバックリクエストＦＬＢＫをプライオリティ回路ＰＲＩＯに出力する。ライトバックリクエストＷＲＢＫは、データ付きのライトバック命令の一例であり、フラッシュバックリクエストＦＬＢＫはデータなしのライトバック命令の一例である。

リードリクエストＭＩ－ＳＨは、Ｌ３キャッシュ２０でキャッシュミスが発生した場合、メインメモリからデータが転送されるまでムーブインポートＭＩＰで待機されるため、Ｌ３キャッシュ２０での処理時間は長くなりやすい。これに対して、ライトバックリクエストＷＲＢＫは、Ｌ２キャッシュ１２から追い出されたデータをデータキャッシュ部Ｌ３ＤＴに上書きするため、資源の確保が不要である。このため、資源の確保が必要なムーブインポートＭＩＰおよびムーブアウトポートＭＯＰと異なり、ライトバックポートＷＢＰ内で待たされる可能性が低い。

例えば、ライトバックリクエストＷＲＢＫをムーブインポートＭＩＰで受ける場合、ムーブインポートＭＩＰに貯まったリードリクエストＭＩ－ＳＨにより、ライトバック処理が遅れるおそれがあり、キャッシュシステムの処理性能が低下するおそれがある。最悪の場合、ライトバックリクエストＷＲＢＫまたはフラッシュバックリクエストＦＬＢＫが、リードリクエストＭＩ－ＳＨ等の他のリクエストにより待たされることにより、パイプラインＬ３Ｐがデッドロックするおそれがある。この実施形態では、ライトバックリクエストＷＲＢＫ専用のライトバックポートＷＢＰを設けることで、リードリクエストＭＩ－ＳＨの処理と無関係にライトバックリクエストＷＲＢＫをパイプラインＬ３Ｐに投入することができる。この結果、リードリクエストＭＩ－ＳＨとライトバックリクエストＷＲＢＫとの競合を抑止することができ、キャッシュシステムの処理性能の低下を抑止することができる。

プライオリティ回路ＰＲＩＯは、ムーブインポートＭＩＰ、ムーブアウトポートＭＯＰおよびライトバックポートＷＢＰから出力されるリクエストまたは応答の１つを選択し、選択したリクエストまたは応答をパイプラインＬ３Ｐに投入する。

パイプラインＬ３Ｐは、例えば、プライオリティ回路ＰＲＩＯから受けるリードリクエストＭＩ－ＳＨに基づいて、タグ部Ｌ３ＴＡＧを参照し、キャッシュヒットまたはキャッシュミスを判定する。なお、タグ部Ｌ３ＴＡＧは、データキャッシュ部Ｌ３ＤＴの各キャッシュラインの状態を示すタグ情報を保持する。キャッシュヒットは、リードリクエストＭＩ－ＳＨの対象データがデータキャッシュ部Ｌ３ＤＴに保持されていることを示す。キャッシュミスは、リードリクエストＭＩ－ＳＨの対象データがデータキャッシュ部Ｌ３ＤＴに保持されていないことを示す。パイプラインＬ３Ｐは、データキャッシュ部Ｌ３ＤＴの状態が変わる毎に、タグ部Ｌ３ＴＡＧを更新する。

パイプラインＬ３Ｐは、キャッシュヒットを判定した場合、データキャッシュ部Ｌ３ＤＴからデータを読み出し、読み出したデータをリードリクエストＭＩ－ＳＨの応答としてデータバスＤＢを介してＬ２キャッシュ１２に出力する。なお、パイプラインＬ３Ｐは、キャッシュヒットに基づいて、参照タグ部Ｌ２ＴＡＧを参照する。そして、パイプラインＬ３Ｐは、リードリクエストＭＩ－ＳＨの対象データが、他のコア１０のＬ２キャッシュ１２に保持されている場合、対象データを保持するＬ２キャッシュ１２に共有オーダーＭＢ－ＳＨを発行する。共有オーダーＭＢ－ＳＨは、Ｌ３オーダバスを介してコア１０に供給される。

パイプラインＬ３Ｐは、共有オーダーＭＢ－ＳＨを発行する場合、ムーブアウトポートＭＯＰのエントリを予約し、共有オーダーＭＢ－ＳＨの対象アドレスを資源ロック部Ｌ３ＯＬＫのエントリに格納する。またパイプラインＬ３Ｐは、資源ロック部Ｌ３ＯＬＫのエントリの使用数を示す資源カウンタＬ３ＯＣＮＴを更新（例えば、カウントアップ）する。なお、資源ロック部Ｌ３ＯＬＫは、ムーブアウトポートＭＯＰのエントリと同じ数のエントリを有する。

これにより、共有オーダーＭＢ－ＳＨのＬ２キャッシュ１２への発行数を、資源ロック部Ｌ３ＯＬＫと資源カウンタＬ３ＯＣＮＴにより管理することができる。例えば、パイプラインＬ３Ｐは、資源ロック部Ｌ３ＯＬＫが保持するアドレスに対するリクエストを、ムーブインポートＭＩＰを介して受信した場合、資源ロック部Ｌ３ＯＬＫによるロックが解除されるまでリクエストをアボートし続ける。

Ｌ３キャッシュ２０は、共有オーダーＭＢ－ＳＨに対する応答をＬ２キャッシュ１２から受信した場合、受信した応答を、予約していたムーブアウトポートＭＯＰに格納する。ムーブアウトポートＭＯＰに格納された応答は、プライオリティ回路ＰＲＩＯを介してパイプラインＬ３Ｐに投入される。パイプラインＬ３Ｐは、Ｍ状態のデータを含むことを応答が示す場合、ライトバックデータバスＷＢＤＢを介してＬ２キャッシュ１２から受信するデータをライトバックデータキューＷＢＤＱに格納する。ライトバックデータキューＷＢＤＱに格納されたデータは、パイプラインＬ３Ｐの制御によりデータキャッシュ部Ｌ３ＤＴに格納される。

そして、パイプラインＬ３Ｐは、データキャッシュ部Ｌ３ＤＴに保持されたデータを、データバスＤＢを介してリードリクエストＭＩ－ＳＨの発行元のＬ２キャッシュ１２に応答する。また、パイプラインＬ３Ｐは、応答を受信したムーブアウトポートＭＯＰの予約を解除し、資源ロック部Ｌ３ＯＬＫのエントリの使用を解除し、資源カウンタＬ３ＯＣＮＴを更新（例えば、カウントダウン）する。これにより、アドレスのロックが解除され、同一アドレスのリクエストのアボートが解除される。

なお、パイプラインＬ３Ｐは、Ｌ２キャッシュ１２のデータの保持状態が変化する毎に、参照タグ部Ｌ２ＴＡＧを更新する。例えば、参照タグ部Ｌ２ＴＡＧは、Ｌ３キャッシュ２０を共有するＬ２キャッシュ１２毎に設けられる。これにより、参照タグ部Ｌ２ＴＡＧの状態は、常に、各Ｌ２キャッシュ１２のタグ領域の状態を示す。

パイプラインＬ３Ｐは、リードリクエストＭＩ－ＳＨに基づいてキャッシュミスを判定した場合、メインメモリに対してリード要求を発行する。パイプラインＬ３Ｐは、図示しないメモリバスを介してメインメモリから転送されるデータをデータキャッシュ部Ｌ３ＤＴに保持し、タグ部Ｌ３ＴＡＧを更新する。そして、パイプラインＬ３Ｐは、メインメモリから転送されたデータを、データバスＤＢを介してリードリクエストＭＩ－ＳＨの発行元のＬ２キャッシュ１２に応答する。

以下では、Ｌ２キャッシュ１２とＬ３キャッシュ２０間でのリプレース動作の説明をするが、他のキャッシュ階層間でのリプレース動作にも用可能である。

図３は、図１のＣＰＵ１００の動作の一例を示す。図３では、Ｌ２キャッシュ１２でキャッシュミスが発生したときの通常のリプレース動作について説明する。Ｌ２キャッシュ１２は、コア１０からのリード要求（ロード命令）のキャッシュミスを判定し、リードリクエストＭＩ－ＳＨ（リード要求）をＬ３キャッシュ２０に発行する。

Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２から受信したリードリクエストＭＩ－ＳＨをムーブインポートＭＩＰにセットする。リードリクエストＭＩ－ＳＨは、プライオリティ回路ＰＲＩＯを介してパイプラインＬ３Ｐに投入される。パイプラインＬ３Ｐは、リードリクエストＭＩ－ＳＨに含まれるアドレスＡＤをタグ部Ｌ３ＴＡＧに出力し、キャッシュのヒットミス判定（Ｈ／Ｍ）を行う。

リードリクエストＭＩ－ＳＨがキャッシュミスしたため、Ｌ３キャッシュ２０は、ホームエージェント４０を介してメインメモリにリード要求を発行する。なお、この実施形態では、Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２からＶｉｃｔｉｍデータを追い出させるリプレースオーダーをＬ２キャッシュ１２に発行しない。このため、Ｌ３キャッシュ２０は、ムーブアウトポートＭＯＰを予約せず、資源ロック部Ｌ３ＯＬＫおよび資源カウンタＬ３ＯＣＮＴの状態は変化しない。

Ｌ２キャッシュ１２は、リードリクエストＭＩ－ＳＨに基づいてＬ３キャッシュ２０から転送されるデータを保持可能にするため、追い出し対象であるＶｉｃｔｉｍキャッシュラインの追い出し処理を実行する。Ｌ２キャッシュ１２は、Ｖｉｃｔｉｍキャッシュラインのデータがモディファイ状態Ｍであるため、追い出し対象のアドレスとデータを含むライトバックリクエストＷＲＢＫをＬ３キャッシュ２０に発行する。Ｌ２キャッシュ１２は、Ｖｉｃｔｉｍデータを保持していたキャッシュラインをＭ状態からＩ状態に設定する。なお、ＶｉｃｔｉｍデータがＳ状態の場合、Ｌ２キャッシュ１２は、追い出し対象のアドレスを含みデータを含まないフラッシュバックリクエストＦＬＢＫをＬ３キャッシュ２０に発行する。

Ｌ３キャッシュ２０からのリプレースオーダーＭＯ－ＲＥ（図９）を待つことなく、リードリクエストＭＩ－ＳＨの発行に続いてライトバックリクエストＷＲＢＫを発行することで、Ｌ２キャッシュ１２からＶｉｃｔｉｍデータを迅速に追い出すことができる。この結果、リプレース処理中にＬ３キャッシュ２０から発行するリプレースオーダーＭＯ－ＲＥを不要にすることができ、リプレース処理を簡易にすることができる。

Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２から受信したライトバックリクエストＷＲＢＫを、ライトバックポートＷＢＰにセットする。ライトバックポートＷＢＰにセットされたライトバックリクエストＷＲＢＫは、プライオリティ回路ＰＲＩＯを介してパイプラインＬ３Ｐに投入される。パイプラインＬ３Ｐは、データキャッシュ部Ｌ３ＤＴにデータを書き戻し、参照タグ部Ｌ２ＴＡＧの対象領域を、所持を示すバリッド状態Ｖから所持していないことを示すインバリッド状態Ｉに更新する。すなわち、ライトバック処理が実行される。

ここで、バリッド状態Ｖは、Ｌ２キャッシュ１２が有効なデータ（Ｅ状態またはＳ状態）を保持していることを示す。Ｌ２キャッシュ１２は、Ｓ状態のデータを書き換えてＭ状態に変化させる場合、Ｅ状態で排他的にデータを保持した後、データを書き換えてＥ状態からＭ状態に変化させる。Ｌ３キャッシュ２０は、データがＳ状態からＥ状態に変化したかを知っているが、Ｅ状態からＭ状態に変化したかを判別できない。このため、Ｌ２キャッシュ１２でのＭ状態は、Ｌ３キャッシュ２０ではバリッド状態Ｖ（Ｅ状態）と判断される。なお、フラッシュバックリクエストＦＬＢＫを受信した場合のＬ３キャッシュ２０の動作は、データキャッシュ部Ｌ３ＤＴにデータを書き戻さないことを除き、ライトバックリクエストＷＲＢＫの処理と同様である。例えば、Ｌ３キャッシュ２０は、フラッシュバックリクエストＦＬＢＫの送信元のコア１０に対応するバリッドビットＶを"０"に設定し、全てのコア１０のバリッドビットＶが"０"の場合、Ｉ状態に設定する。

図３に示すように、Ｌ２キャッシュ１２は、キャッシュミスの発生時にライトバックリクエストＷＲＢＫ（または、フラッシュバックリクエストＦＬＢＫ）を能動的にＬ３キャッシュ２０に発行する。また、Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２からＶｉｃｔｉｍデータを追い出させるリプレースオーダーを発行しない。これにより、図９～図１２に示すリプレースバッファＲＰＢまたはムーブインデータバッファＭＩＤＱのような、リプレース処理が完了するまでＶｉｃｔｉｍデータを保持するデータバッファ資源をＬ２キャッシュ１２から削除することができる。Ｌ２キャッシュ１２は、コア１０毎に存在するため、データバッファ資源を削除することによるＣＰＵ１００のチップサイズおよび消費電力の削減効果は、ＣＰＵ１００に搭載されるコア１０の数が多いほど大きくなる。

Ｌ３キャッシュ２０は、リードリクエストＭＩ－ＳＨの対象データを、ホームエージェント４０を介してメインメモリから受信し、受信した対象データを含む応答ＤＯＷ（Ｅ）をＬ２キャッシュ１２に発行する。Ｌ２キャッシュ１２は、応答ＤＯＷ（Ｅ）に含まれるデータを、Ｖｉｃｔｉｍデータを追い出し済みのＩ状態のキャッシュラインに格納（ムーブイン）し、キャッシュラインの状態をＩ状態からＥ状態に設定する。

この実施形態では、Ｌ３キャッシュ２０は、リプレースオーダーを発行しないため、Ｌ３キャッシュ２０は、リプレースオーダーに対する応答をＬ２キャッシュ１２から受信しない。このため、Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２からのＶｉｃｔｉｍデータを受信するムーブアウトポートＭＯＰを予約せず、資源ロック部Ｌ３ＯＬＫによるアドレス資源のロックも行わない。

したがって、ムーブアウトポートＭＯＰの代わりに、ライトバックリクエストＷＲＢＫを受信する仕組みが必要になる。また、資源ロック部Ｌ３ＯＬＫのロック機能の代わりに、Ｖｉｃｔｉｍデータがデータキャッシュ部Ｌ３ＤＴに格納されるまで、Ｖｉｃｔｉｍデータの対象アドレスに対する他の処理を抑止する仕組みが必要になる。ライトバックリクエストＷＲＢＫによるＶｉｃｔｉｍデータの受信は、ライトバックポートＷＢＰにより実行される。ライトバックリクエストＷＲＢＫの受信に基づいて、Ｖｉｃｔｉｍデータの対象アドレスに対する他の処理を抑止する仕組みについては、図７および図８で説明する。

図４は、図１のＣＰＵ１００の動作の別の例を示す。図３と同様の動作については、詳細な説明は省略する。図４では、Ｌ２キャッシュ１２でのキャッシュミスによるリプレース動作と、Ｌ３キャッシュ２０でのキャッシュミスによる共有オーダーＭＢ－ＳＨとが競合する場合を説明する。

Ｌ２キャッシュ１２がキャッシュミスに基づいてリードリクエストＭＩ－ＳＨをＬ３キャッシュ２０に発行し、その後、ライトバックリクエストＷＲＢＫをＬ３キャッシュ２０に発行する動作は、図３と同様である。また、リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、キャッシュミスしてメインメモリにリード要求を発行し、メインメモリから受信したデータを応答ＤＯＷ（Ｅ）としてＬ２キャッシュ１２に出力する動作は、図３と同様である。

Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２からのリードリクエストＭＩ－ＳＨを受信する前に、他のコア１０のＬ２キャッシュ１２のキャッシュミスによるリードリクエストＭＩ－ＳＨを受信する。他のコア１０からのリードリクエストＭＩ－ＳＨは、ムーブインポートＭＩＰにセットされ、プライオリティ回路ＰＲＩＯを介してパイプラインＬ３Ｐに投入される。

パイプラインＬ３Ｐは、他のコア１０からのリードリクエストＭＩ－ＳＨに含まれるアドレスＡＤとタグ部Ｌ３ＴＡＧに保持されたアドレスとの比較に基づいてキャッシュヒットを判定する。ここで、他のコア１０からのリードリクエストＭＩ－ＳＨの対象アドレスは、ライトバックリクエストＷＲＢＫでの追い出し対象のＶｉｃｔｉｍアドレスであるとする。Ｌ３キャッシュ２０は、Ｌ２キャッシュ１２からのライトバックリクエストＷＲＢＫをまだ受信していない。

パイプラインＬ３Ｐは、参照タグ部Ｌ２ＴＡＧを参照して、他のコア１０からのリードリクエストＭＩ－ＳＨの対象データを、ライトバックリクエストＷＲＢＫを発行するＬ２キャッシュ１２がＭ状態で所持していることを検出する。パイプラインＬ３Ｐは、ＭＯＰポートを予約し、資源ロック部Ｌ３ＯＬＫのエントリの１つを確保し、資源カウンタＬ３ＯＣＮＴをインクリメントする。そして、Ｌ３キャッシュ２０は、ライトバックリクエストＷＲＢＫを発行するＬ２キャッシュ１２に共有オーダーＭＢ－ＳＨを発行する。

ライトバックリクエストＷＲＢＫを受信したＬ３キャッシュ２０は、ライトバックリクエストＷＲＢＫをライトバックポートＷＢＰにセットする。ライトバックリクエストＷＲＢＫは、プライオリティ回路ＰＲＩＯを介してパイプラインＬ３Ｐに投入される。パイプラインＬ３Ｐは、データキャッシュ部Ｌ３ＤＴにデータを書き戻すライトバック処理を実行する。

共有オーダーＭＢ－ＳＨを受信したＬ２キャッシュ１２は、自身のタグ情報がＩ状態であり、返却対象のデータを保持していないと判定する。これは、返却対象のデータをライトバックリクエストＷＲＢＫで追い出し済みであるためである。このため、Ｌ２キャッシュ１２は、共有オーダーＭＢ－ＳＨの応答として、データを付けない応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をＬ３キャッシュ２０に発行する。ここで、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）は、共有オーダーＭＢ－ＳＨの要求アドレスのキャッシュラインがＩ状態であったときに付けるクロスフラグＣＲＳを含む。なお、Ｌ２キャッシュ１２は、共有オーダーＭＢ－ＳＨと同じタイミングで無効化オーダーを受信した場合、応答ＮＯ－ＭＢ－ＩＶ（ＣＲＳ）をＬ３キャッシュ２０に発行する。応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）、ＮＯ－ＭＢ－ＩＶ（ＣＲＳ）は、追い出し応答の一例である。

Ｌ３キャッシュ２０は、受信した応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を、予約していたムーブアウトポートＭＯＰに格納する。応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）は、プライオリティ回路ＰＲＩＯを介してパイプラインＬ３Ｐに投入される。パイプラインＬ３Ｐは、対応する資源ロック部Ｌ３ＯＬＫによるロックを解除し、資源カウンタＬ３ＯＣＮＴをデクリメントする。この際、パイプラインＬ３Ｐは、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）に付加されたクロスフラグＣＲＳに基づいて、共有オーダーＭＢ－ＳＨの応答で返却されるべきデータが既に返却済みであると検出することができる。そして、パイプラインＬ３Ｐは、対応するデータを、リードリクエストＭＩ－ＳＨを発行した他のコア１０に応答する。

図５は、図１のＣＰＵ１００の動作のさらなる別の例を示す。図３と同様の動作については、詳細な説明は省略する。図５では、Ｌ２キャッシュ１２は、コア１０から受信したアドレス（Ａ）のリード要求がキャッシュミスしたため、リードリクエストＭＩ－ＳＨ（Ａ）をＬ３キャッシュ２０に発行する。リードリクエストＭＩ－ＳＨ（Ａ）の発行から応答ＤＯＷ（Ｅ）までの動作は、図３と同様である。なお、図５では、Ｌ２キャッシュ１２がライトバックリクエストＷＲＢＫを発行する動作の例を示すが、フラッシュバックリクエストＦＬＢＫを発行する動作も、図５と同様である。

Ｌ２キャッシュ１２は、コア１０からアドレス（Ｂ）に対応するデータをライトバックリクエストＷＲＢＫ（Ｂ）により追い出した後、アドレス（Ｂ）のリード要求をコア１０から受信する。Ｌ２キャッシュ１２は、アドレス（Ｂ）のデータを追い出し済みのためキャッシュミスを判定し、リードリクエストＭＩ－ＳＨ（Ｂ）をＬ３キャッシュ２０に発行する。ここで、ライトバックリクエストＷＲＢＫ（Ｂ）のＬ３キャッシュ２０への到達が遅れる場合がある。この場合、リードリクエストＭＩ－ＳＨ（Ｂ）がライトバックリクエストＷＲＢＫ（Ｂ）より先にＬ３キャッシュ２０に届く。

Ｌ３キャッシュ２０のパイプラインＬ３Ｐは、参照タグ部Ｌ２ＴＡＧに保持された情報に基づいて、リードリクエストＭＩ－ＳＨ（Ｂ）の対象データがＬ２キャッシュ１２に未だ保持されていると判定する（Ｖ状態）。この実施形態では、アボート判定部ＡＢＴＪＤＧが、リードリクエストＭＩ－ＳＨより前に発行されたライトバックリクエストＷＲＢＫが未達であると判定する。そして、パイプラインＬ３Ｐは、アボート判定部ＡＢＴＪＤＧによる判定結果に基づいて、ムーブインポートＭＩＰから投入されたリードリクエストＭＩ－ＳＨ（Ｂ）をアボートする。

アボートは、ライトバックリクエストＷＲＢＫ（Ｂ）を受信し、ライトバック処理が完了するまで繰り返し実行される。これにより、アドレス（Ｂ）に対する他の処理を抑止することができ、リプレース処理中に発生するアクセスの順序関係を保証することができる。すなわち、ＣＰＵ１００およびキャッシュシステムの誤動作を抑止することができ、データのコヒーレンシを維持することができる。

なお、ムーブインポートＭＩＰは、ライトバックリクエストＷＲＢＫ（Ｂ）がライトバックポートＷＢＰで受信され、パイプラインＬ３Ｐで処理されるまで、リードリクエストＭＩ－ＳＨ（Ｂ）をパイプラインＬ３Ｐに投入せずに待機してもよい。この場合、パイプラインＬ３ＰでのリードリクエストＭＩ－ＳＨ（Ｂ）のアボートが抑止されるため、パイプラインＬ３Ｐの処理効率を向上することができる。

パイプラインＬ３Ｐは、ライトバックリクエストＷＲＢＫ（Ｂ）に含まれるデータをデータキャッシュ部Ｌ３ＤＴに格納し、キャッシュの状態をＶ状態からＩ状態に変更した後、リードリクエストＭＩ－ＳＨ（Ｂ）の処理を開始する。そして、パイプラインＬ３Ｐは、リードリクエストＭＩ－ＳＨ（Ｂ）の応答（図示せず）をＬ２キャッシュ１２に返し、キャッシュの状態を再びＶ状態に設定する。なお、Ｌ２キャッシュ１２は、リードリクエストＭＩ－ＳＨ（Ｂ）の発行後、ライトバックリクエストＷＲＢＫ（Ｂ）を再度発行するが、図５での記載は省略する。

図６は、図１のＣＰＵ１００の動作の別の例を示す。図３および図４と同様の動作については、詳細な説明は省略する。図６の動作は、ライトバックリクエストＷＲＢＫのＬ３キャッシュ２０への到達が、共有オーダーＭＢ－ＳＨに対する応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）のＬ３キャッシュ２０への到達より遅れることを除き、図４の動作と同様である。また、図６では、Ｌ２キャッシュ１２がライトバックリクエストＷＲＢＫを発行する動作の例を示すが、フラッシュバックリクエストＦＬＢＫを発行する動作も、図６と同様である。

Ｌ３キャッシュ２０は、共有オーダーＭＢ－ＳＨに対する応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を、予約していたムーブアウトポートＭＯＰに格納する。パイプラインＬ３Ｐは、プライオリティ回路ＰＲＩＯを介して応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を受信する。しかし、参照タグ部Ｌ２ＴＡＧにおいて応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）に対応する領域がＶ状態のため、パイプラインＬ３Ｐは、対応するライトバックリクエストＷＲＢＫが未達であると判定する。この実施形態では、アボート判定部ＡＢＴＪＤＧが、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）より前に発行されたライトバックリクエストＷＲＢＫが未達であると判定する。

パイプラインＬ３Ｐは、アボート判定部ＡＢＴＪＤＧによる判定結果に基づいて、ライトバックリクエストＷＲＢＫを受信してライトバックの処理が完了するまで、ムーブアウトポートＭＯＰから投入される応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をアボートし続ける。なお、ムーブアウトポートＭＯＰは、ライトバックリクエストＷＲＢＫがライトバックポートＷＢＰで受信され、パイプラインＬ３Ｐで処理されるまで、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をパイプラインＬ３Ｐに投入せずに待機してもよい。

この後、パイプラインＬ３Ｐは、ライトバックリクエストＷＲＢＫを受信し、ライトバックの処理を実行する。そして、Ｌ３キャッシュ２０は、パイプラインＬ３ＰがライトバックリクエストＷＲＢＫに含まれる追い出し対象のデータをデータキャッシュ部Ｌ３ＤＴに上書きした後、上書きしたデータをリードリクエストＭＩ－ＳＨを発行した他のコア１０に応答する。

この実施形態では、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を受信したときに、ライトバックリクエストＷＲＢＫが未達であるとアボート判定部ＡＢＴＪＤＧが判定し、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をアボートする。これにより、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）に基づいて、ライトバックされる前の誤ったデータが他のコア１０に転送されることを抑止することができる。この結果、ＣＰＵ１００およびキャッシュシステムの誤動作を抑止することができ、データのコヒーレンシを維持することができる。

図７は、図２のアボート判定部ＡＢＴＪＤＧの要部の一例を示す。アボート判定部ＡＢＴＪＤＧは、第１判定部ＪＤＧ１、第２判定部ＪＤＧ２およびオア回路ＯＲを有する。第１判定部ＪＤＧ１は、Ｌ２キャッシュ１２からのリクエストの受信時に、リクエストの対象データがＶ状態である場合に、リクエストをアボートするために設けられる。例えば、第１判定部ＪＤＧ１は、図５に示したように、ライトバックリクエストＷＲＢＫ（Ｂ）より後に発行され、ライトバックリクエストＷＲＢＫ（Ｂ）より先にＬ３キャッシュ２０に届くリードリクエストＭＩ－ＳＨ（Ｂ）をアボートする。

第２判定部ＪＤＧ２は、Ｌ２キャッシュ１２からのクロスフラグＣＲＳを含むオーダー応答の受信時に、対象データがＶ状態である場合に、オーダー応答をアボートするために設けられる。例えば、第２判定部ＪＤＧ２は、図６に示したように、ライトバックリクエストＷＲＢＫより後に発行され、ライトバックリクエストＷＲＢＫより先にＬ３キャッシュ２０に届く応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をアボートする。

第１判定部ＪＤＧ１は、リクエスト処理信号ＭＩＰ－Ｖ、リクエストタグ信号Ｒ－Ｌ２ＴＡＧ－Ｖおよび除外信号ＮＯＴ－ＢＬＫ－ＣＨＧを受信するアンド回路ＡＮＤ５を有する。リクエスト処理信号ＭＩＰ－Ｖは、ムーブインポートＭＩＰに設定されたＬ２キャッシュ１２からのリクエストがパイプラインＬ３Ｐで処理されているときにハイレベルに設定され、リクエストの処理が完了されたときにロウレベルに設定される。

リクエストタグ信号Ｒ－Ｌ２ＴＡＧ－Ｖは、Ｌ２キャッシュ１２からのリクエストの対象データがＬ２キャッシュ１２に持ち出されているＶ状態を参照タグ部Ｌ２ＴＡＧが示す場合、ハイレベルに設定される。また、リクエストタグ信号Ｒ－Ｌ２ＴＡＧ－Ｖは、対象データがＬ２キャッシュ１２に持ち出されていないＩ状態を参照タグ部Ｌ２ＴＡＧが示す場合、ロウレベルに設定される。

除外信号ＮＯＴ－ＢＬＫ－ＣＨＧは、キャッシュラインをシェアで持っているＬ２キャッシュ１２からの排他権（Ｅ状態）を要求するリクエストがパイプラインＬ３Ｐで処理される場合にロウレベルに設定され、それ以外ではハイレベルに設定される。

リードリクエストＭＩ－ＳＨは、Ｌ２キャッシュ１２が対象データを保持していないＩ状態（キャッシュミス時）に発行される。例えば、図３に示すように、Ｌ３キャッシュ２０がリードリクエストＭＩ－ＳＨを受信したときに、参照タグ部Ｌ２ＴＡＧの対象領域はＩ状態である。このため、通常状態では、リクエスト処理信号ＭＩＰ－Ｖとリクエストタグ信号Ｒ－Ｌ２ＴＡＧ－Ｖとが同時にハイレベルになることはく、リクエストクロス信号ＲＥＱ－ＣＲＳ－Ｖは、ロウレベルに維持される。

一方、図５に示すように、リードリクエストＭＩ－ＳＨ（Ｂ）がパイプラインＬ３Ｐに投入されるときに、対象データのライトバック処理が実行されていない場合、リクエストの対象データに対応する参照タグ部Ｌ２ＴＡＧはＶ状態である。このため、ライトバックリクエストＷＲＢＫ（Ｂ）を受信してライトバック処理が実行されるまで、リクエスト処理信号ＭＩＰ－Ｖとリクエストタグ信号Ｒ－Ｌ２ＴＡＧ－Ｖとが同時にハイレベルになる。この結果、リクエストクロス信号ＲＥＱ－ＣＲＳ－Ｖがハイレベルに変化し、アボート信号ＡＢＴ－ＣＲＳがハイレベルに変化することで、リードリクエストＭＩ－ＳＨ（Ｂ）がアボートされる。

換言すれば、パイプラインＬ３Ｐは、アボート判定部ＡＢＴＪＤＧから出力されるアボート信号ＡＢＴ－ＣＲＳがハイレベルの場合、対象のリードリクエストＭＩ－ＳＨ（Ｂ）をアボートする。したがって、図５に示すように、Ｌ３キャッシュ２０は、ライトバックリクエストＷＲＢＫ（Ｂ）を処理するまで、リードリクエストＭＩ－ＳＨ（Ｂ）をアボートし続けることができる。この結果、ＣＰＵ１００およびキャッシュシステムの誤動作を抑止することができ、データのコヒーレンシを維持することができる。

なお、キャッシュラインをＳ状態で持っているＬ２キャッシュ１２から、排他権（Ｅ状態）を要求するリクエストをパイプラインＬ３Ｐで処理する場合、リクエスト処理信号ＭＩＰ－Ｖおよびリクエストタグ信号Ｒ－Ｌ２ＴＡＧ－Ｖがともにハイレベルになる。しかしながら、この場合、ロウレベルの除外信号ＮＯＴ－ＢＬＫ－ＣＨＧにより、アンド回路ＡＮＤ５からリクエストクロス信号ＲＥＱ－ＣＲＳ－Ｖ（ハイレベル）が出力されることを抑止することができる。したがって、排他権（Ｅ状態）を要求するリクエストのパイプラインＬ３Ｐでの処理時にアボート信号ＡＢＴ－ＣＲＳが出力されることを抑止することができ、パイプラインＬ３Ｐの誤動作を抑止することができる。

第２判定部ＪＤＧ２は、アンド回路ＡＮＤ０、ＡＮＤ１、ＡＮＤ２、ＡＮＤ３、オア回路ＯＲ１およびアンド回路ＡＮＤ４を有する。アンド回路ＡＮＤ０、ＡＮＤ１、ＡＮＤ２、ＡＮＤ３は、それぞれクロスフラグ信号ＣＲＳ－ＦＬＧおよびオーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖの論理積をオア回路ＯＲ１に出力する。クロスフラグ信号ＣＲＳ－ＦＬＧおよびオーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖの末尾のカギ括弧内の数値は、Ｌ２キャッシュ１２が搭載されるコア１０の識別番号を示す。例えば、ＣＰＵ１００がｎ個（ｎは２以上の整数）のコア１０を有する場合、コア１０のそれぞれに対応してクロスフラグ信号ＣＲＳ－ＦＬＧとオーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖとを受けるｎ個のアンド回路ＡＮＤが設けられる。

オア回路ＯＲ１の入力は、アンド回路ＡＮＤ０～ＡＮＤ３の出力にそれぞれ接続され、オア回路ＯＲ１の出力は、アンド回路ＡＮＤ４の入力に接続される。アンド回路ＡＮＤ４は、応答処理信号ＭＯＰ－Ｖとオア回路ＯＲ１の出力信号の論理積をオーダークロス信号ＯＤＲ－ＣＲＳ－Ｖとして出力する。応答処理信号ＭＯＰ－Ｖは、ムーブアウトポートＭＯＰに設定されたＬ２キャッシュ１２へのオーダーに対する応答がパイプラインＬ３Ｐで処理されているときにハイレベルに設定され、オーダーに対する応答の処理が完了されたときにロウレベルに設定される。

クロスフラグ信号ＣＲＳ－ＦＬＧは、Ｌ３キャッシュ２０が発行する共有オーダーＭＢ－ＳＨに対するクロスフラグＣＲＳ付きの応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をＬ２キャッシュ１２から受信した場合、ハイレベルに設定される。また、クロスフラグ信号ＣＲＳ－ＦＬＧは、共有オーダーＭＢ－ＳＨに対するクロスフラグＣＲＳ付きの応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をＬ２キャッシュ１２から受信していない場合、ロウレベルに設定される。

オーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖは、共有オーダーＭＢ－ＳＨの対象データのＬ２キャッシュ１２への持ち出し（Ｖ状態）を参照タグ部Ｌ２ＴＡＧが示す場合、ハイレベルに設定される。また、オーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖは、対象データがＬ２キャッシュ１２に持ち出されていないこと（Ｉ状態）を参照タグ部Ｌ２ＴＡＧが示す場合、ロウレベルに設定される。

例えば、図４の動作において、Ｌ３キャッシュ２０がライトバックリクエストＷＲＢＫを受信する前、クロスフラグ信号ＣＲＳ－ＦＬＧは、ロウレベルに設定され、オーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖは、ハイレベルに設定される。オーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖは、Ｌ３キャッシュ２０がライトバックリクエストＷＲＢＫを受信し、Ｖｉｃｔｉｍデータをタグ部Ｌ３ＴＡＧに書き戻したとき、ロウレベルに設定される。

そして、クロスコアフラグ信号ＣＲＳ－ＦＬＧは、Ｌ３キャッシュ２０が共有オーダーＭＢ－ＳＨに対応するクロスフラグ付きの応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を処理している間、ハイレベルに設定される。このため、Ｌ３キャッシュ２０がライトバックリクエストＷＲＢＫを受信後に応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を受信する場合、クロスフラグ信号ＣＲＳ－ＦＬＧとオーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖとが、ともにハイレベルに設定される期間は存在しない。したがって、図４の動作では、共有オーダーＭＢ－ＳＨに対する応答を待つ、応答処理信号ＭＯＰ－Ｖがハイレベルの期間に、オーダークロス信号ＯＤＲ－ＣＲＳ－Ｖがハイレベルに変化することはない。このため、アボート信号ＡＢＴ－ＣＲＳがハイレベルに変化することない。

一方、図６に示すように、ライトバックリクエストＷＲＢＫを受信する前に応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を受信する場合、オーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖがロウレベルに変化する前にクロスフラグ信号ＣＲＳ－ＦＬＧがハイレベルに変化する。これにより、クロスフラグ信号ＣＲＳ－ＦＬＧとオーダータグ信号Ｏ－Ｌ２ＴＡＧ－Ｖとがともにハイレベルの期間が発生し、対応するアンド回路ＡＮＤ（ＡＮＤ０～３のいずれか）は、クロス状態を示すハイレベルを出力する。

ここで、クロス状態とは、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）より先にＬ２キャッシュ１２から出力されたライトバックリクエストＷＲＢＫを、Ｌ３キャッシュ２０が、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）より後に受信することを示す。クロス状態が発生した場合、オーダークロス信号ＯＤＲ－ＣＲＳ－Ｖがハイレベルに変化し、アボート信号ＡＢＴ－ＣＲＳがハイレベルに変化する。パイプラインＬ３Ｐは、アボート判定部ＡＢＴＪＤＧから出力されるアボート信号ＡＢＴ－ＣＲＳがハイレベルの場合、対象の応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をアボートする。

したがって、図６に示すように、Ｌ３キャッシュ２０は、ライトバックリクエストＷＲＢＫを処理するまで、対象データが同じ応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をアボートし続けることができる。この結果、ＣＰＵ１００およびキャッシュシステムの誤動作を抑止することができ、データのコヒーレンシを維持することができる。

なお、ムーブアウトポートＭＯＰは、共有オーダーＭＢ－ＳＨを発行した全てのコア１０から応答（ＮＯ－ＭＢ－ＳＨまたはＮＯ－ＭＢ－ＳＨ（ＣＲＳ））を受信したことに基づいて、応答をパイプラインＬ３Ｐに投入する。

図８は、図１のＣＰＵ１００に搭載される別のＬ３キャッシュ２０Ａの要部の一例（比較例）を示す。Ｌ３キャッシュ２０Ａの構成は、ライトバックポートＷＢＰを持たないことを除き、図２のＬ３キャッシュ２０と同様の構成である。なお、図８のプライオリティ回路ＰＲＩＯおよびアボート判定部ＡＢＴＪＤＧの機能の一部は、図２のプライオリティ回路ＰＲＩＯおよびアボート判定部ＡＢＴＪＤＧの機能と相違する。

図９は、図８のＬ３キャッシュ２０Ａを有するＣＰＵ１００の動作の一例を示す。図３と同様の動作については、詳細な説明は省略する。図９は、Ｌ２キャッシュ１２がリプレースバッファＲＰＢを有する場合の動作の例を示す。リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、キャッシュミスしてメインメモリにリード要求を発行し、メインメモリから受信したデータを応答ＤＯＷ（Ｅ）としてＬ２キャッシュ１２に出力する動作は、図３と同様である。

Ｌ２キャッシュ１２は、リードリクエストＭＩ－ＳＨをＬ３キャッシュ２０に発行する場合、追い出し対象のＶｉｃｔｉｍデータ（Ｍ状態）をリプレースバッファＲＰＢに格納し、対応するタグ領域のタグ情報をＭ状態からＩ状態に変更する。Ｌ３キャッシュ２０は、リードリクエストＭＩ－ＳＨの受信に基づいて、参照タグ部Ｌ２ＴＡＧを検索し、Ｍ状態のＶｉｃｔｉｍデータの返却を指示するリプレースオーダーＭＯ－ＲＥをＬ２キャッシュ１２に発行する。この際、Ｌ３キャッシュ２０は、ムーブアウトポートＭＯＰを予約し、予約したＭＯＰに対応する資源ロック部Ｌ３ＯＬＫのエントリにリプレースオーダーＭＯ－ＲＥの対象アドレスを格納し、資源カウンタＬ３ＯＣＮＴをインクリメントする。

Ｌ２キャッシュ１２は、Ｌ３キャッシュ２０からリプレースオーダーＭＯ－ＲＥの受信に基づいて、リプレースバッファＲＰＢに保持したＶｉｃｔｉｍデータを、リプレースオーダーＭＯ－ＲＥの応答としてＬ３キャッシュ２０に発行する。Ｌ３キャッシュ２０は、リプレースオーダーＭＯ－ＲＥの応答に含まれるＶｉｃｔｉｍデータをデータキャッシュ部Ｌ３ＤＴに書き戻し、参照タグ部Ｌ２ＴＡＧの対象領域をＶ状態からＩ状態に変更する。また、Ｌ３キャッシュ２０は、受信したリプレースオーダーＭＯ－ＲＥの応答に対応する資源ロック部Ｌ３ＯＬＫのエントリを解放し、資源カウンタＬ３ＯＣＮＴをデクリメントする。

図１０は、図８のＬ３キャッシュ２０Ａを有するＣＰＵ１００の動作の別の例を示す。図４と同様の動作については、詳細な説明は省略する。図１０は、Ｌ２キャッシュ１２がリプレースバッファＲＰＢを有する場合の動作の例を示す。他のコア１０からリードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、Ｌ２キャッシュ１２に共有オーダーＭＢ－ＳＨを発行する動作は、図４と同様である。また、リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、キャッシュミスしてメインメモリにリード要求を発行し、メインメモリから受信したデータを応答ＤＯＷ（Ｅ）としてＬ２キャッシュ１２に出力する動作は、図４と同様である。

Ｌ２キャッシュ１２は、図９と同様に、リードリクエストＭＩ－ＳＨをＬ３キャッシュ２０に発行する場合、追い出し対象のＶｉｃｔｉｍデータ（Ｍ状態）をリプレースバッファＲＰＢに格納し、タグ情報をＭ状態からＩ状態に変更する。図１０では、Ｌ２キャッシュ１２は、リプレースバッファＲＰＢに保持したＶｉｃｔｉｍデータに対する共有オーダーＭＢ－ＳＨを受信する。

Ｌ２キャッシュ１２は、リプレースバッファＲＰＢに保持したＶｉｃｔｉｍデータを取り出し、取り出したＶｉｃｔｉｍデータを共有オーダーＭＢ－ＳＨに対する応答に含めて、Ｌ３キャッシュ２０に発行する。また、Ｌ２キャッシュ１２は、リプレースバッファＲＰＢに保持しているＶｉｃｔｉｍデータをＭ状態からＳ状態に変更する。

Ｌ３キャッシュ２０は、共有オーダーＭＢ－ＳＨの応答により、リプレースオーダーＭＯ－ＲＥの応答で受けるべきＶｉｃｔｉｍデータを受信し、受信したＶｉｃｔｉｍデータをデータキャッシュ部Ｌ３ＤＴにライトバックする。そして、Ｌ３キャッシュ２０は、Ｖｉｃｔｉｍデータのさらなる転送が不要であることを示すリプレースオーダーＮＯ－ＭＯ－ＲＥをＬ２キャッシュ１２に発行する。リプレースオーダーＮＯ－ＭＯ－ＲＥの"ＮＯ"は、応答にデータの付加が不要であることを示す。リプレースオーダーＮＯ－ＭＯ－ＲＥを受信したＬ２キャッシュ１２は、リプレースバッファＲＰＢに保持しているＶｉｃｔｉｍデータを削除する。

図９および図１０では、各コア１０に搭載されるＬ２キャッシュ１２は、リプレースバッファＲＰＢを有する。このため、リプレースバッファ分のハードウェアの回路規模が増大し、ＣＰＵ１００のチップサイズおよび消費電力が増大してしまう。

図１１は、図８のＬ３キャッシュ２０Ａを有するＣＰＵ１００の動作のさらなる別の例を示す。図３および図９と同様の動作については、詳細な説明は省略する。図１１は、Ｌ２キャッシュ１２がムーブインデータバッファＭＩＤＱを有する場合の動作の例を示す。リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、キャッシュミスしてメインメモリにリード要求を発行し、メインメモリから受信したデータを応答ＤＯＷ（Ｅ）としてＬ２キャッシュ１２に出力する動作は、図３と同様である。

リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０は、参照タグ部Ｌ２ＴＡＧを検索し、Ｍ状態のＶｉｃｔｉｍデータの返却を指示するリプレースオーダーをＬ２キャッシュ１２に発行する。Ｌ２キャッシュ１２は、Ｌ３キャッシュ２０からのリプレースオーダーＭＯ－ＲＥの受信に基づいて、ＶｉｃｔｉｍデータをリプレースオーダーＭＯ－ＲＥの応答に含めてＬ３キャッシュ２０に発行し、タグ情報をＭ状態からＩ状態に変更する。

Ｌ３キャッシュ２０は、リプレースオーダーＭＯ－ＲＥの応答に含まれるＶｉｃｔｉｍデータをデータキャッシュ部Ｌ３ＤＴに書き戻し、参照タグ部Ｌ２ＴＡＧの対象領域をＶ状態からＩ状態に変更する。Ｌ３キャッシュ２０は、メインメモリから受信したリードリクエストＭＩ－ＳＨの対象データを応答ＤＯＷ（Ｅ）としてＬ２キャッシュ１２に発行する。

リプレースオーダーＭＯ－ＲＥとリードリクエストＭＩ－ＳＨの応答ＤＯＷ（Ｅ）のＬ２キャッシュ１２への到着順は保証されない。このため、Ｌ２キャッシュ１２が、リプレースオーダーＭＯ－ＲＥより先にリードリクエストＭＩ－ＳＨの応答ＤＯＷ（Ｅ）を受信した場合、Ｌ２キャッシュ１２の追い出し対象のＶｉｃｔｉｍデータが応答ＤＯＷ（Ｅ）に含まれるデータで書き換わる可能性がある。

これを抑止するため、Ｌ２キャッシュ１２は、応答ＤＯＷ（Ｅ）に含まれるデータを一時的にムーブインデータバッファＭＩＤＱに格納する。そして、Ｌ２キャッシュ１２は、リプレースオーダーＭＯ－ＲＥの応答としてＶｉｃｔｉｍデータを追い出すまで、応答ＤＯＷ（Ｅ）に含まれるデータをムーブインデータバッファＭＩＤＱに保持する。なお、この例では、リプレースオーダーＭＯ－ＲＥが応答ＤＯＷ（Ｅ）より先に到着する。このため、Ｌ２キャッシュ１２は、ムーブインデータバッファＭＩＤＱに格納したデータをＬ２キャッシュ１２にすぐに格納し、対応するキャッシュラインをＩ状態からＥ状態に設定する。

図１２は、図８のＬ３キャッシュ２０Ａを有するＣＰＵ１００の動作の別の例を示す。図４、図１０および図１１と同様の動作については、詳細な説明は省略する。図１２は、Ｌ２キャッシュ１２がムーブインデータバッファＭＩＤＱを有する場合の動作の例を示す。他のコア１０からリードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、Ｌ２キャッシュ１２に共有オーダーＭＢ－ＳＨを発行する動作は、図４と同様である。リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０が、キャッシュミスしてメインメモリにリード要求を発行し、メインメモリから受信したデータを応答ＤＯＷ（Ｅ）としてＬ２キャッシュ１２に出力する動作は、図４と同様である。また、応答ＤＯＷ（Ｅ）に含まれるデータを、ムーブインデータバッファＭＩＤＱを介してＬ２キャッシュ１２に格納する動作は図１１と同様である。

Ｌ３キャッシュ２０は、図４と同様に、Ｌ２キャッシュ１２からのリードリクエストＭＩ－ＳＨを受信する前に、他のコア１０のＬ２キャッシュ１２からリードリクエストＭＩ－ＳＨを受信し、キャッシュヒットを判定する。Ｌ３キャッシュ２０は、他のコア１０からのリードリクエストＭＩ－ＳＨの対象データをＬ２キャッシュ１２が状態Ｍで保持しているため、Ｌ２キャッシュ１２に共有オーダーＭＢ－ＳＨを発行する。

共有オーダーＭＢ－ＳＨを受信したＬ２キャッシュ１２は、共有オーダーＭＢ－ＳＨの対象データ（Ｖｉｃｔｉｍデータを兼ねる）を共有オーダーＭＢ－ＳＨの応答としてＬ３キャッシュ２０に発行する。また、Ｌ２キャッシュ１２は、応答するデータを保持していたキャッシュラインの状態をＭ状態からＩ状態に変更する。

Ｌ３キャッシュ２０は、共有オーダーＭＢ－ＳＨの応答に含まれるデータをデータキャッシュ部Ｌ３ＤＴに格納（ライトバック）する。図１０と同様に、Ｌ３キャッシュ２０は、共有オーダーＭＢ－ＳＨの応答によりＶｉｃｔｉｍデータを受信するため、Ｖｉｃｔｉｍデータの転送が不要であることを示すリプレースオーダーＮＯ－ＭＯ－ＲＥをＬ２キャッシュ１２に発行する。Ｌ２キャッシュ１２は、リプレースオーダーＮＯ－ＭＯ－ＲＥに基づいて、Ｖｉｃｔｉｍデータを返却済みであると判断する。その後の動作は、図１１と同様である。

図１１および図１２では、リプレースバッファＲＰＢの資源削減ができる反面、新たにムーブインデータバッファＭＩＤＱのようなデータバッファ資源が必要になる。このため、キャッシュシステム全体として資源の削減にはならないという問題がある。また、図１１および図１２において、リプレースオーダーＭＯ－ＲＥのＬ２キャッシュ１２への到着が遅延すると、ムーブインデータバッファＭＩＤＱなど各種資源を占有する時間も伸びてしまう。このため、高スループットを持続させるためには、より多くのムーブインデータバッファＭＩＤＱのエントリを確保する必要があり、回路規模が増大してしまう。

以上、図１から図７に示す実施形態では、Ｌ３キャッシュ２０は、ライトバックリクエストＷＲＢＫと対象アドレスが同じリードリクエストＭＩ－ＳＨを、ライトバックリクエストＷＲＢＫより前に受信した場合、リードリクエストＭＩ－ＳＨをアボートする。また、Ｌ３キャッシュ２０は、参照タグ部Ｌ２ＴＡＧがＶ状態の応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）を受信した場合、ライトバックリクエストＷＲＢＫにより参照タグ部Ｌ２ＴＡＧがＩ状態になるまで、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）をアボートする。

これにより、ライトバックされる前の誤ったデータが、リードリクエストＭＩ－ＳＨに基づいて応答されることを抑止することができる。また、ライトバックされる前の誤ったデータが、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）に基づいて他のコア１０に転送されることを抑止することができる。この際、パイプラインＬ３Ｐは、応答ＮＯ－ＭＢ－ＳＨ（ＣＲＳ）に付加されたクロスフラグＣＲＳに基づいて、共有オーダーＭＢ－ＳＨの応答で返却されるべきデータが既に返却済みであると検出することができる。

この結果、Ｌ２キャッシュ１２にリプレースバッファＲＰＢまたはムーブインデータバッファＭＩＤＱを設けることなく、リプレース処理中に発生するアクセスの順序関係を保証することができる。すなわち、ＣＰＵ１００およびキャッシュシステムの誤動作を抑止することができ、データのコヒーレンシを維持することができる。

Ｌ２キャッシュ１２は、コア１０毎に存在するため、リプレースバッファＲＰＢまたはムーブインデータバッファＭＩＤＱを削除することによるＣＰＵ１００のチップサイズの削減効果は大きい。したがって、リプレースバッファＲＰＢまたはムーブインデータバッファＭＩＤＱ等のデータバッファ資源を設けることなく、リプレース処理を誤動作させることなく実行することができ、データのコヒーレンシを維持することができる。

Ｌ３キャッシュ２０は、リードリクエストＭＩ－ＳＨ等を受信するムーブインポートＭＩＰとは別にライトバックリクエストＷＲＢＫを受信するライトバックポートＷＢＰを有する。これにより、リードリクエストＭＩ－ＳＨの処理と無関係にライトバックリクエストＷＲＢＫをパイプラインＬ３Ｐに投入することができ、リードリクエストＭＩ－ＳＨとライトバックリクエストＷＲＢＫとの競合を抑止することができる。この結果、ライトバックリクエストＷＲＢＫまたはフラッシュバックリクエストＦＬＢＫが、リードリクエストＭＩ－ＳＨ等の他のリクエストにより待たされることを抑止することができ、パイプラインＬ３Ｐのデッドロックを抑止することができる。したがって、キャッシュシステムの処理性能の低下を抑止することができる。

Ｌ３キャッシュ２０からのリプレースオーダーＭＯ－ＲＥを待つことなく、リードリクエストＭＩ－ＳＨの発行に続いてライトバックリクエストＷＲＢＫを発行することで、Ｌ２キャッシュ１２からＶｉｃｔｉｍデータを迅速に追い出すことができる。この結果、リプレース処理中にＬ３キャッシュ２０から発行するリプレースオーダーＭＯ－ＲＥを不要にすることができ、リプレース処理を簡易にすることができる。

図１３は、別の実施形態におけるＣＰＵの概要を示す。図１３に示すＣＰＵ１００Ｂは、図１のＬ３キャッシュ２０およびオンチップネットワーク３０の代わりに、Ｌ３キャッシュ２０Ｂおよびオンチップネットワーク３０Ｂを有する。また、ＣＰＵ１００Ｂは、コア１０とＬ３キャッシュ２０Ｂとの間にコアインタフェースバス１５Ｂを有する。ＣＰＵ１００Ｂのその他の構成は、図１に示したＣＰＵ１００の構成と同様である。

この実施形態では、Ｌ３キャッシュ２０Ｂは、ハッシュアドレスＨＡ［９：８］で識別される４つのＬ３バンクＢＫ（ＢＫ０～ＢＫ３）を有する。Ｌ３バンクＢＫ０～ＢＫ３は、図２に示したＬ３キャッシュ２０の構成をそれぞれ有し、互いに独立に動作する。なお、Ｌ３バンクＢＫの数は、４つに限定されず、２つでもよく、８つでもよい。

例えば、各コア１０のＬ２キャッシュ１２は、キャッシュミス時にリードリクエストＭＩ－ＳＨを発行するＬ３バンクＢＫを、アドレスをハッシュ関数に入力することにより求める。そして、Ｌ２キャッシュ１２は、求めたＬ３バンクＢＫにリードリクエストＭＩ－ＳＨを発行する。また、各コア１０のＬ２キャッシュ１２は、ライトバックリクエストＷＲＢＫのアドレスが割り当てられたＬ３バンクＢＫをハッシュ関数により求める。そして、Ｌ２キャッシュ１２は、求めたＬ３バンクＢＫにライトバックリクエストＷＲＢＫを発行する。

これにより、ハッシュアドレスＨＡ［９：８］に応じて、リードリクエストＭＩ－ＳＨおよびライトバックリクエストＷＲＢＫを発行するＬ３バンクＢＫを分散させることができる。この結果、特定のＬ３バンクＢＫにアクセスが集中するバンクコンフリクトを軽減することができる。

この実施形態では、ハッシュアドレスＨＡ［９：８］の各ビットは、物理アドレスＰＡ［９：８］、ＰＡ［１１：１０］、ＰＡ［１３：１２］の排他的論理和により算出される。すなわち、ハッシュ関数は、物理アドレスＰＡ［９：８］、ＰＡ［１１：１０］、ＰＡ［１３：１２］の排他的論理和である。図中の符号"＾"は、排他的論理和を示す。なお、ハッシュアドレスＨＡ［９：８］は、他のハッシュ関数を使用して算出されてもよく、ハッシュアドレスＨＡを割り当てるビット位置は、［９：８］に限定されない。

コアインタフェースバス１５Ｂは、Ｌ２キャッシュ１２が出力するリクエストに含まれるハッシュアドレスＨＡ［９：８］に応じてＬ３バンクＢＫを選択し、選択したＬ３バンクＢＫにリクエストを出力する。また、コアインタフェースバス１５Ｂは、Ｌ３バンクＢＫが出力するオーダーに含まれるアドレスに応じてＬ２キャッシュ１２を選択し、選択したＬ２キャッシュ１２にオーダーを出力する。なお、ハッシュアドレスＨＡは、コアインタフェースバス１５Ｂにより算出されてもよい。

ところで、図８に示したＬ３キャッシュ２０Ａでは、図９～図１２に示したように、リードリクエストＭＩ－ＳＨを受信したＬ３キャッシュ２０がリプレースオーダーＭＯ－ＲＥを発行する。すなわち、リードリクエストＭＩ－ＳＨを受信するＬ３バンクＢＫと、リプレースオーダーＭＯ－ＲＥを発行するＬ３バンクＢＫとは同じである。換言すれば、リードリクエストＭＩ－ＳＨを受信するＬ３バンクＢＫと、Ｖｉｃｔｉｍキャッシュラインのアドレスを管理するＬ３バンクＢＫは、一致している必要がある。このため、図９～図１２に示した動作を実行するＣＰＵ１００では、ハッシュアドレス方式を採用することができず、バンクコンフリクトを軽減することが困難である。

図１３に示すＣＰＵ１００Ｂの動作は、Ｌ３キャッシュ２０がＬ３バンクＢＫに置き換わり、リードリクエストＭＩ－ＳＨとライトバックリクエストＷＲＢＫとの発行先のＬ３バンクＢＫが異なることを除き、図３～図６に示す動作と同様である。なお、図１３に示すＣＰＵ１００Ｂの動作において、図４および図５の共有オーダーＭＢ－ＳＨの発行元のＬ３バンクＢＫは、ライトバックリクエストＷＲＢＫを受信するＬ３バンクＢＫと同じである。

図１４は、図１３のＬ３キャッシュ２０Ｂにおいて、Ｌ３バンクＢＫを選択するハッシュアドレスＨＡ［９：８］を生成する一例を示す。ハッシュアドレスＨＡ［９］は、物理アドレスＰＡ［１３］、ＰＡ［１１］、ＰＡ［９］の排他的論理和により生成される。ハッシュアドレスＨＡ［８］は、物理アドレスＰＡ［１２］、ＰＡ［１０］、ＰＡ［８］の排他的論理和により生成される。物理アドレスＰＡ［９：８］は、Ｌ３バンクＢＫに元々割り当てられたアドレスである。

以上、図１３および図１４に示す実施形態においても、図１～図７に示した実施形態と同様の効果を得ることができる。さらに、図１３および図１４に示す実施形態では、ハッシュアドレスＨＡ［９：８］に応じて、リードリクエストＭＩ－ＳＨおよびライトバックリクエストＷＲＢＫを発行するＬ３バンクＢＫを分散させることができる。この結果、上位キャッシュがライトバックリクエストＷＲＢＫを発行するキャッシュシステムにおいて、リクエストの発行先の下位のＬ３バンクＢＫを分散させることができ、バンクコンフリクトの発生を軽減することができる。

図１５は、別の実施形態におけるＣＰＵの概要を示す。図１３と同様の要素については同じ符号を付し、詳細な説明は省略する。図１５に示すＣＰＵ１００Ｃは、図１のＬ３キャッシュ２０およびオンチップネットワーク３０の代わりに、Ｌ３キャッシュ２０Ｃおよびオンチップネットワーク３０Ｂを有する。また、ＣＰＵ１００Ｂは、コア１０とＬ３キャッシュ２０Ｂとの間にコアインタフェースバス１５Ｂを有する。ＣＰＵ１００Ｃのその他の構成は、図１に示したＣＰＵ１００の構成と同様である。

この実施形態では、Ｌ３キャッシュ２０Ｃは、物理アドレスＰＡ［９：８］で識別される４つのＬ３バンクＢＫ（ＢＫ０～ＢＫ３）を有する。Ｌ３バンクＢＫ０～ＢＫ３は、図２に示した構成をそれぞれ有し、互いに独立に動作する。Ｌ２キャッシュ１２は、コア１０からのリード要求がキャッシュミスした場合、対象アドレスが割り当てられたＬ３バンクＢＫにリードリクエストＭＩ－ＳＨを発行する。その後、Ｌ２キャッシュ１２は、リードリクエストＭＩ－ＳＨを発行したＬ３バンクＢＫにライトバックリクエストＷＲＢＫを発行する。図１５に示すＣＰＵ１００Ｃの動作は、Ｌ３キャッシュ２０がＬ３バンクＢＫに置き換わることを除き、図３～図６に示す動作と同様である。

以上、図１５に示す実施形態においても、図１～図７に示した実施形態と同様の効果を得ることができる。例えば、物理アドレスＰＡで識別される複数のＬ３バンクＢＫを有する場合においても、データバッファ資源を設けることなく、リプレース処理中に発生するアクセスの順序関係を保証することができ、データのコヒーレンシを維持することができる。

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。

１０コア
１１Ｌ１キャッシュ
１２Ｌ２キャッシュ
１５Ｂコアインタフェースバス
２０、２０Ａ、２０Ｂ、２０ＣＬ３キャッシュ
３０、３０Ｂオンチップネットワーク
４０ホームエージェント
５０メモリコントローラ
６０チップ間インターコネクト
７０通信制御部
ＢＫ（ＢＫ０～ＢＫ３）Ｌ３バンク
ＣＲＳクロスフラグ
ＤＢデータバス
ＤＯＷ（Ｅ）応答
ＨＡハッシュアドレス
ＪＤＧ１第１判定部
ＪＤＧ２第２判定部
Ｌ２ＴＡＧ参照タグ部
Ｌ３ＤＴデータキャッシュ部
Ｌ３ＯＣＮＴ資源カウンタ
Ｌ３ＯＬＫ資源ロック部
Ｌ３Ｐパイプライン
Ｌ３ＴＡＧタグ部
ＭＢ－ＳＨ共有オーダー
ＭＩＤＱムーブインデータバッファ
ＭＩＰムーブインポート
ＭＩＰ－Ｖリクエスト処理信号
ＭＩ－ＳＨリードリクエスト
ＭＯＰムーブアウトポート
ＭＯＰ－Ｖ応答処理信号
ＭＯ－ＲＥリプレースオーダー
Ｏ－Ｌ２ＴＡＧ－Ｖオーダータグ信号
ＰＲＩＯプライオリティ回路
Ｒ－Ｌ２ＴＡＧ－Ｖリクエストタグ信号
ＲＰＢリプレースバッファ
ＷＢＤＢライトバックデータバス
ＷＢＤＱライトバックデータキュー
ＷＢＰライトバックポート
ＷＲＢＫライトバックリクエスト

Claims

命令を実行する演算部と、前記演算部に接続される上位キャッシュと、前記上位キャッシュに接続される下位キャッシュと、を有する半導体装置であって、
前記下位キャッシュは、
前記上位キャッシュから受信するリード命令を保持する第１ポートと、
前記上位キャッシュから受信するライトバック命令を保持する第２ポートと、
前記第１ポートから投入される前記リード命令および前記第２ポートから投入される前記ライトバック命令を処理する処理部と、
データを保持するキャッシュ部と、
前記上位キャッシュの状態を示す上位キャッシュタグと、を有し、
前記処理部は、前記第１ポートから投入された前記リード命令の対象アドレスのデータを前記上位キャッシュが所持していることを前記上位キャッシュタグが示す場合、前記対象アドレスのデータを前記上位キャッシュが所持していないことを前記上位キャッシュタグが示すまで、前記第１ポートから投入された前記リード命令をアボートする
半導体装置。
前記処理部は、前記第２ポートから投入される前記ライトバック命令の処理により、前記上位キャッシュから追い出された前記対象アドレスのデータを前記キャッシュ部に上書きし、前記上位キャッシュが前記対象アドレスのデータを所持していないことを示す状態に前記上位キャッシュタグを更新した後、前記第１ポートから投入された前記リード命令の処理を実行する
請求項１に記載の半導体装置。
前記下位キャッシュは、
前記上位キャッシュに発行する追い出し命令に対する追い出し応答を前記上位キャッシュから受信する第３ポートを有し、
前記追い出し応答が追い出し対象のデータを含んでいないことを示し、前記上位キャッシュタグが前記追い出し対象のデータを所持していることを示す場合、前記上位キャッシュタグが前記追い出し対象のデータを前記上位キャッシュが所持していないことを示す状態に変化するまで、前記第３ポートから投入された前記追い出し応答をアボートする
請求項１または請求項２に記載の半導体装置。
前記下位キャッシュは、前記第２ポートから投入される前記ライトバック命令の処理により、前記上位キャッシュから追い出された前記追い出し対象のデータを前記上位キャッシュが所持していないことを示す状態に前記上位キャッシュタグを更新した後、前記第３ポートから投入された前記追い出し応答の処理を前記追い出し対象のデータを使用して実行する
請求項３に記載の半導体装置。
前記上位キャッシュは、
前記演算部から受信したロード命令がキャッシュミスした場合、前記リード命令を前記下位キャッシュに発行し、
前記リード命令の応答に含まれるデータを格納する領域を確保するために、追い出しデータを含む前記ライトバック命令を前記下位キャッシュに発行する
請求項１ないし請求項４のいずれか１項に記載の半導体装置。
前記下位キャッシュは、データを保持する複数のキャッシュブロックを含む複数のバンクを有し、
前記複数のキャッシュブロックのアドレスは、前記複数のバンクにまたがって分散して割り当てられる
請求項１ないし請求項５のいずれか１項に記載の半導体装置。
前記複数のキャッシュブロックに割り当てられるアドレスは、物理アドレスをハッシュ関数に入力して得られるハッシュアドレスである
請求項６に記載の半導体装置。