JP2023527735A

JP2023527735A - コア間キャッシュスタッシング及びターゲット発見

Info

Publication number: JP2023527735A
Application number: JP2022569593A
Authority: JP
Inventors: アルベルトジョアン、ジョゼ; ホジェリオムック、ティアゴ; ランドール、ジョシュア; カッロ、アレハンドロリコ; ジェイムズマシューソン、ブルース
Original assignee: アーム・リミテッド
Priority date: 2020-05-27
Filing date: 2021-05-25
Publication date: 2023-06-30
Also published as: US11263137B2; CN115605849A; US20210374059A1; WO2021240140A2; WO2021240140A3; EP4158487A2; KR20230017244A

Abstract

第１のプロセッサコアから第２のプロセッサコアにデータを転送するための方法及び装置が開示される。第１のプロセッサコアは、データのデータアドレスに関連付けられた第１のオペランドを有するスタッシュ命令を実行する。第２のプロセッサコアは、データアドレス又は第２のオペランドに基づいて、スタッシュメッセージのスタッシュターゲットであると判定される。スタッシュメッセージが第２のプロセッサコアに送信され、書き込まれたデータを第２のプロセッサコアに通知する。スタッシュメッセージの受信に応答して、第２のプロセッサコアは、そのキャッシュにデータを記憶することを選択することができる。データは、スタッシュメッセージに含まれ得る、又は第２の処理コアによる読み出し要求に応答して取り出され得る。第２のプロセッサコアは、監視されるデータトランザクションに少なくとも部分的に基づく予測によって判定され得る。【選択図】図１

Description

マルチコアデータ処理システムにおいて、第１のプロセッサコア上で実行される処理スレッドによって作り出されたデータは、第２のプロセッサコア上で実行される処理スレッドによって消費され得る。動作中、プロデューサコアは、データをローカルキャッシュ又は共有メモリに書き込む。新たに書き込まれたデータに対する第２のプロセッサコアによる次の読み出し動作は、データが第２のプロセッサのローカルキャッシュにロードされていないので、キャッシュミスをもたらす。コンシューミングコアのローカルキャッシュへのデータの移動は、処理遅延又はレイテンシを引き起こす。

添付図面は、様々な代表的な実施形態をより完全に説明するために使用される視覚的表示を提供し、当業者が、開示される代表的な実施形態及びそれらの利点をより良く理解するために使用され得る。これらの図面では、同様の参照番号は対応する又は類似した要素を特定する。

様々な代表的な実施形態に係る、マルチコアデータ処理システムの簡略ブロック図である。様々な代表的な実施形態に係る、マルチコアデータ処理システムにおけるデータ転送のための方法のフローチャートである。様々な代表的な実施形態に係る、例示的なコア間スタッシュ動作の相互作用チャートである。様々な代表的な実施形態に係る、コア間スタッシュ動作の更なる例についての相互作用チャートである。様々な代表的な実施形態に係る、スタッシュターゲットテーブル（ＳｔａｓｈＴａｒｇｅｔＴａｂｌｅ、ＳＴＴ）の一例を示す。様々な代表的な実施形態に係る、スタッシュターゲットテーブル（ＳＴＴ）の更なる例を示す。様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新するための方法を示す相互作用チャートである。様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新するための方法を示す相互作用チャートである。様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新するための方法を示す相互作用チャートである。様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新するための方法を示す相互作用チャートである。様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新するための方法を示す相互作用チャートである。様々な代表的な実施形態に係る、ホームエージェントによってスタッシュターゲットテーブルを作成及び更新するための方法のフローチャートである。様々な代表的な実施形態に係る、例示的なコア間スタッシュ動作の相互作用チャートである。様々な代表的な実施形態に係る、例示的なコア間スタッシュ動作の相互作用チャートである。様々な代表的な実施形態に係る、例示的なスタッシュターゲット登録動作の相互作用チャートである。様々な代表的な実施形態に係る、例示的なコア間スタッシュ動作の相互作用チャートである。

本明細書で説明される様々な装置、デバイス、及び方法は、マルチコアデータ処理システムにおけるコア間キャッシュスタッシングのメカニズムを提供する。

本開示は、多くの異なる形態の実施形態が可能であるが、本明細書に示され説明される実施形態は、本開示の原理の例を提供するものとみなされるべきであり、本開示を示され説明される特定の実施形態に限定することを意図するものではないという理解の下で、特定の実施形態が図面に示され、本明細書で詳細に説明される。以下の説明では、同様の参照番号は、図面中のいくつかの図において、同じ、類似の、又は対応する部分を説明するために使用される。例示の簡略化及び明確化のため、対応する要素又は類似の要素を示すために、図面の中で参照番号を繰り返してもよい。

本文書では、第１及び第２や頂部及び底部などの関係を示す用語は、そのような実体又はアクション間の実際のそのような関係又は順序を必ずしも要求したり示唆したりすることなく、ある実体又は動作を別の実体又はアクションと区別するためにのみ使用され得る。用語「備える（ｃｏｍｐｒｉｓｅ）」、「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「有する（ｈａｓ）」、「有する（ｈａｖｉｎｇ）」、又はそれらの任意の他の変形は、非排他的な包含を網羅することを意図しており、そのため、要素のリストを含むプロセス、方法、物品、又は装置は、少なくともそれらの要素を含み、更に、明示的に列挙されていない、又はそのようなプロセス、方法、物品、若しくは装置に固有の他の要素も含んでよい。「・・・ａを備える（ｃｏｍｐｒｉｓｅ．．．ａ）」によって先行される要素は、更なる制約なしには、その要素を含むプロセス、方法、物品、又は装置における追加の同一要素の存在を排除するものではない。

本明細書全体を通して言及される「一実施形態」、「特定の実施形態」、「実施形態」、「実装形態（単数又は複数）」、「態様（単数又は複数）」、又は類似の用語は、実施形態に関連して説明される特定の特徴、構造、又は特性が、本開示の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して様々な場所におけるこのような語句の出現は、必ずしも同じ実施形態を指すものではない。更に、特定の特徴、構造、又は特性は、限定することなく、１つ以上の実施形態において任意の好適な方法で組み合わされてもよい。

本明細書で使用されるとき、用語「又は（ｏｒ）」は、包括的に、又は任意の１つ若しくは任意の組み合わせを意味するものとして解釈されるべきである。したがって、「Ａ、Ｂ、又はＣ」は、以下のいずれかを意味する。Ａ；Ｂ；Ｃ；Ａ及びＢ；Ａ及びＣ；Ｂ及びＣ；Ａ、Ｂ、及びＣ。この定義の例外は、要素、機能、工程、又は作用の組み合わせが、何らかの点で本質的に相互排他的である場合にのみ生じる。

本明細書で使用される場合、「ように構成される（ｃｏｎｆｉｇｕｒｅｄｔｏ）」という用語は、要素に適用されるとき、その要素が指定された機能を実行するように設計若しくは構築され得ること、又はその要素がその機能を実行するように再構成若しくは適合されることを可能にするために必要とされる構造を有することを示す。

図１は、様々な代表的な実施形態に係る、マルチコアデータ処理システム１００の簡略ブロック図である。送信側コア又はプロデューサコアとも呼ばれる第１のプロセッサコア１０２は、（例えば、そのコア又はコアのクラスタに対してプライベートであり得る）少なくとも１つのローカルキャッシュ１０４を含み、第２のプロセッサコア１０６は、少なくとも１つのローカルキャッシュ１０８を含む。第２のプロセッサコア１０６は、受信側コア又はコンシューマコアとも呼ばれる。一般に、データ処理システム１００は、任意の数のプロセッサコアを含むことができ、プロセッサコアのうちのいくつかは、クラスタに構成され、下位レベルキャッシュを共有することができる。プロセッサコアはインターコネクトファブリック１１０によって結合され、インターコネクトファブリック１１０は、プロセッサコアと、インターコネクトファブリックに結合された他のデバイスとの間でメッセージを渡すように構成されている。インターコネクトファブリック１１０には、ホームエージェント１１２も結合されている。任意選択で、ホームエージェント１１２は、システムレベルキャッシュ１１４を含むことができる。共有メモリ１１６は、メモリコントローラ１１８を介してインターコネクトファブリック１１０に結合されている。プロセッサコアは、要求メッセージをホームエージェント１１２に送信することによって共有メモリ１１６にアクセスする。ホームエージェントは、メモリアドレスのセット又は範囲を管理して、データのコヒーレンシの地点及びシリアル化として機能し、キャッシュに記憶されたデータのコピーに一貫性があり最新であることを確実とする。Ｉ／Ｏデバイス、ネットワークインターフェース、追加のメモリ、処理アクセラレータなど、任意の数の他の構成要素をデータ処理システムに含めることができることは、当業者には明らかであろう。システムは、単一の集積モジュール、マルチチップモジュールに集積されてもよく、又は分散構成要素からなってもよい。

本開示の実施形態は、送信側プロセッサコア１０２によって書き込まれた、又は作り出されたデータを、第２のプロセッサコア１０６によって読み出される前に、第２のプロセッサコア１０６のキャッシュ１０８に転送することに関する。第２のプロセッサコアは、データを読み出す命令を実行するとき、データがすでにキャッシュ１０８に記憶されている場合、アクセス時間が大幅に短縮される。したがって、開示されたメカニズムは、データ処理システムの動作に改善をもたらす。データは、１つのキャッシュライン（例えば、６４バイト）内の情報を含むことができ、データアドレスの上位ビット又は何らかの他の識別子によって特定することができる。本明細書では、「データアドレス」という用語は、アドレスを含むデータブロックの識別子（要素アドレスの上位ビットなど）であるデータ要素（例えば、ワード又はバイト）のアドレスを意味する。データブロックがインターコネクトファブリック内のデータチャネルの幅よりも大きい場合、データは、データチャネルを介して２つ以上のフリット（ｆｌｏｗｃｏｎｔｒｏｌｄｉｇｉｔｓ、フロー制御ディジット）で転送され得る。

データは、データアドレスに関連付けられ得る。データアドレスは、例えば、バッキングメモリ又はストア内の物理アドレス、又は入力／出力デバイスのアドレスであり得る。プロセッサコアは、物理アドレス空間にマッピングされる仮想アドレス空間において動作することができる。仮想アドレスは、１つ以上の中間アドレスを介して物理アドレスにマッピングされてもよい。処理を高速化するために、データのコピーをデータ処理システム内の１つ以上のキャッシュに記憶することができる。そのようなデータは、データアドレスに「関連付けられる」と言われる。しかしながら、データは、プロセッサコアによって修正される又は書き込まれる場合があり、所与の時間において、関連付けられるアドレスに記憶されたデータと一致しない場合がある。

第１のプロセッサコア１０２上で実行されている処理スレッドによって作り出されたデータは、第２のプロセッサコア１０６上で実行されている処理スレッドによって消費され得る。以前のマルチコアデータ処理システムでは、プロデューサコアは、ローカルキャッシュ１０４、ホームエージェント１１４、又は共有メモリ１１６にデータを書き込む。新たに書き込まれたデータに対するコンシューミングコア１０６による読み出し動作は、キャッシュミスをもたらす。それからデータがコンシューミングコアのローカルキャッシュに移動されなければならず、処理遅延又はレイテンシを引き起こす。

コア間スタッシングは、本明細書で開示されるように、データが第２のプロセッサコアによって読み出される前に、第１のプロセッサコア１０２から第２のプロセッサコア１０６のローカルキャッシュ１０８にデータを転送するメカニズムを提供する。これにより、データ読み出し時のキャッシュヒットの確率が高くなる。

コア間スタッシングは、例えば、プロデューサ－コンシューマ通信パターンにおいてコンシューマプロセスにより生じるキャッシュミスによって引き起こされる性能低下を軽減する。一実施形態では、プロデューサコア１０２がキャッシュラインへの書き込みを完了すると、プロデューサコア１０２は、コンシューマコアのプライベートキャッシュ１０８へのキャッシュラインの転送を開始するスタッシュ命令を実行する。コンシューマコアがキャッシュラインに対する要求を発行する前に転送が完了すると、コンシューマはそのプライベートキャッシュ内でヒットし、キャッシュラインに対するアクセスレイテンシを大幅に短縮する。

いくつかの適用例では、プロデューサスレッドは、どのコアがコンシューマスレッドを実行しているかを知り、そのコアをスタッシュ動作のターゲットとして特定することができる。一実施形態では、スタッシュ動作のターゲットコアは、プロデューサプロセッサコアによって指定される。

他の適用例では、プロデューサスレッドがターゲットコアを判定すること、又はソフトウェアの複数のレイヤを通してその情報を伝播することは困難である又は費用がかかる場合がある。例えば、ＭＰＩ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＩｎｔｅｒｆａｃｅ、メッセージパッシングインターフェース）ライブラリからＵＣＸ（ＵｎｉｆｉｅｄＣｏｍｍｕｎｉｃａｔｉｏｎＸ、ユニファイドコミュニケーションＸ）ライブラリのような低レベル通信ライブラリに情報を伝播することは困難であり得る。

更なる実施形態では、ターゲットコアは、プロセッサコアによる以前のデータ使用に基づいて自動的に特定される。この実施形態では、データをキャッシュに割り当て及び割り当て解除する、プロセッサコアからのトランザクションは、スタッシュターゲットテーブル（ＳＴＴ）制御回路１２０によって監視され、スタッシュターゲットテーブル１２２内の情報を更新するために使用することができる。スタッシュターゲットテーブル１２２は、セットアソシアティブ型キャッシュなどのメモリであってもよい。キャッシュは、キャッシュラインの物理アドレス又は中間アドレスでインデックス付けされ、完全に又は部分的にタグ付けされてもよい。スタッシュターゲットテーブルは、いくつかのエントリを記憶する。各エントリは、そのアドレスに対するスタッシュターゲット（単数又は複数）の識別子を記憶する。スタッシュターゲットテーブル制御回路１２０及びスタッシュターゲットテーブル１２２は、ホームエージェント又は１つ以上のプロセッサコア内に実装されてもよく、１つ以上のプロセッサコアを、指定されたデータアドレスに関連付けられたデータに対するスタッシュターゲットコアとして特定するために使用される。

ホームエージェント１１２は、データをキャッシュに割り当て及び割り当て解除する、プロセッサコアからのトランザクションも監視するスヌープフィルタ１２４も含むことができる。ＳＴＴ１２２は、スヌープフィルタのキャッシュ内のエントリに、予測されたスタッシュターゲットを特定する追加のフィールドを追加することによって実装され得る。

このようにして、本開示の実施形態によれば、データ処理システム１００は、インターコネクトファブリック１１０を含み、複数のプロセッサコア（１０２、１０６）がインターコネクトファブリックによって相互接続されている。少なくとも１つのプロセッサコアが、第１のデータアドレスに関連付けられたデータをキャッシュに書き込み、第１のデータアドレスに対する第１のスタッシュ命令を実行するように構成されている。スタッシュターゲットテーブル制御回路１２０は、データをプロセッサコアのキャッシュに割り当て及び割り当て解除する、プロセッサコアからのトランザクションを監視し、スタッシュターゲットテーブル１２２内のエントリを作成及び更新するように構成されている。スタッシュターゲットテーブル制御回路１２０はまた、第１のスタッシュ命令に応答して、１つ以上のプロセッサコアが第１のデータアドレスに関連付けられたデータに対するスタッシュターゲットコアであると予測して、スタッシュメッセージは、第１のデータアドレスに関連付けられ、かつ第１のプロセッサコアによって作り出されたデータをスタッシュターゲットコアに通知するスタッシュメッセージを、スタッシュターゲットコアに送信するように構成されている。１つ以上のスタッシュターゲットコアのうちの第２のプロセッサコアは、スタッシュメッセージを受信したことに応答して、第１のデータアドレスに関連付けられたデータを第２のプロセッサコアのキャッシュに記憶するように構成されている。

図１に示すように、データ処理システムの実施形態は、インターコネクトファブリック１１０によってプロセッサコアに結合され、データ処理システムのコヒーレンスの地点及びシリアル化を提供する、ホームエージェント１１２も含むことができる。この実施形態では、ホームエージェントは、スタッシュターゲットテーブル制御回路１２０を含む。代替実施形態では、スタッシュターゲットテーブル制御回路１２０は、プロセッサコアのうちの１つ以上において実装されてもよい。

プロデューサスレッドによって実行されるスタッシュ命令は、データアドレスを指定する。命令は、また、意図されたスタッシュターゲットコアの識別子を指定してもよく、しなくてもよい。命令内に明示的なターゲットがない場合、スタッシュターゲットは様々な方法で判定され得る。例えば、受信側コアは、それ自体をスタッシュターゲットとしてホームエージェントに登録することができ、又はホームエージェントはスタッシュターゲットを予測することができる。いくつかの実施形態では、予測は、ホームエージェントが、データアドレスの共有から固有への遷移、固有から共有への遷移、及び以前にスタッシュされたデータアドレスに対する読み出し動作を監視することに基づく。

データ処理システムの第１のプロセッサコア（送信コア）が、第１のデータアドレスに関連付けられたデータを第１のキャッシュに書き込むデータ転送の方法が開示される。書き込みは、例えば、データを生成し、それをキャッシュ内の第１のデータアドレスに関連付けること、又は第１のアドレスに関連付けられたキャッシュ内のデータを修正することを含んでもよい。いずれの場合も、第１のプロセッサコアは、第１のアドレスに関連付けられたデータの所有権を要求し、他のキャッシュ内のデータのコピーを無効化させることができる。第１のデータアドレスは、例えば、仮想アドレス又は物理アドレスであってもよい。

図２は、様々な代表的な実施形態による、マルチコアデータ処理システムにおけるデータ転送のための方法のフローチャート２００である。図２の開始ブロック２０２に続いて、スタッシング動作は、ブロック２０４におけるプロデューサプロセッサコアによるスタッシュ命令の実行で始まる。スタッシュ命令は、スタッシュされるデータアドレスを指定する１つの入力レジスタ又はオペランドと、任意選択で、スタッシュターゲット（単数又は複数）を特定する別の入力レジスタ又はオペランドとを有する。第１のプロセッサコアのキャッシュにおいて、そのアドレスに関連付けられたデータを保持するキャッシュラインが動作の対象となる。スタッシュ命令は、データ処理システムの命令セットアーキテクチャ（ＩｎｓｔｒｕｃｔｉｏｎＳｅｔＡｒｃｈｉｔｅｃｔｕｒｅ、ＩＳＡ）に含まれてもよい。再び図２を参照すると、判断ブロック２０６からの肯定分岐によって示されるように、スタッシュ命令がスタッシュターゲットの識別子を含む場合、２０８において、インターコネクトファブリックを介して、スタッシュメッセージを特定されたスタッシュターゲット（受信側又はコンシューマプロセッサコア）に送信する。スタッシュメッセージは、データアドレスを特定して、アドレスに関連付けられたデータが利用可能であるという通知又はヒントをスタッシュターゲットに提供する。スタッシュメッセージは、直接的に又はホームエージェントを介して、スタッシュターゲットに送信され得る。ホームエージェントを介して送信される場合、ホームエージェントは、スタッシュメッセージを生成し、ターゲット識別子から、メッセージからの判定ターゲットをする。判断ブロック２１０からの肯定分岐によって示されるように、スタッシュターゲットがデータを受け入れることを選択する場合、ブロック２１２において、スタッシュターゲットは、データアドレスに関連付けられたデータをプリフェッチする。次いで、ブロック２１４に示すように、スタッシュ命令の実行が完了する。判断ブロック２１０からの否定分岐によって示されるように、実行は、スタッシュターゲットがデータを受け入れないと判定した場合にも完了する。

判断ブロック２０６からの否定分岐によって示されるように、スタッシュ命令がスタッシュターゲットの識別子を含まない場合、スタッシュターゲットが、データ処理システム内の以前のデータトランザクションから予測される。ブロック２１６において、データアドレスに基づいて、スタッシュターゲットテーブル（ＳＴＴ）にアクセスし、１つ以上のスタッシュターゲットを特定する。一実施形態では、プロデューサプロセッサコアによってＳＴＴにアクセスする。更なる実施形態では、プロデューシングプロセッサコアは、スタッシュ要求を、インターコネクトファブリックを介してホームエージェントに送信し、ホームエージェントはＳＴＴにアクセスする。スタッシュ要求は、第１のデータアドレスを含む。上述したように、ホームエージェントは、プロセッサコア間で共有されるメモリ又はデータ処理システムの他のアドレス指定可能要素に対するコヒーレンシの地点及びシリアル化として機能する。ホームエージェントは、データ処理システムの様々なキャッシュ内のデータの存在及びコヒーレンシ状態を記録するスヌープフィルタを含むことができる。スヌープフィルタのキャッシュ内のエントリは、データをそれらのキャッシュに割り当て及び割り当て解除する、プロセッサコアからのトランザクションを監視することによって更新される。ホームエージェントは、システムレベルキャッシュ又はラストレベルキャッシュを含むこともできる。ホームエージェントは、どのプロセッサコアがキャッシュラインのコピーを共有しているかを記録し（これは、例えば、存在ベクトルとして記録されてもよい）、かつ、該当がある場合、共有者のうちのどれがキャッシュラインの所有権を有するものとして指定されているかを記録する。

判断ブロック２１８からの肯定分岐によって示されるように、データアドレスに対するエントリがスタッシュターゲットテーブル内で見つかり、そのエントリが１つ以上の第２のプロセッサコアをターゲットとして特定する場合、フローはブロック２０８に続き、スタッシュメッセージをターゲットプロセッサコアのそれぞれに送信する。スタッシュメッセージは、新たに書き込まれた、第１のデータアドレスに関連付けられたデータが利用可能であることをターゲットプロセッサコアに通知する。ターゲットプロセッサコアは、スタッシュメッセージを更に無視すること、又は第１のデータアドレスに関連付けられたデータを第２のプロセッサコアのキャッシュ内にプリフェッチすることができる。これは、例えば、第２のプロセッサコアのローカル若しくはプライベートキャッシュ、又はコアのクラスタの下位レベルキャッシュであってもよい。第２のプロセッサコアが、データがキャッシュからエビクションされる前にデータを読み出す命令を実行する場合、キャッシュヒットが発生し、データを読み出す時間が短縮される。キャッシュヒットは、データに対する読み出し動作を実行する時間を短縮することによって、データ処理システムの性能を改善する。判断ブロック２１８からの否定分岐によって示されるように、データアドレスに対するエントリがスタッシュターゲットテーブル内に見つからない場合、又は見つかったエントリによりターゲットが特定されない場合、スタッシュ命令の実行はブロック２１４によって示されるように完了する。スタッシュターゲットテーブルは、しかしながら、以下に詳細に説明されるように更新されてもよい。

図３は、様々な代表的な実施形態に係る、例示的なコア間スタッシュ動作の相互作用チャート３００である。このチャートは、送信側又はプロデューサコアＳのタイムライン３０２、ホームエージェントのタイムライン３０４、及び受信側又はコンシューマコアＲのタイムライン３０６を示しており、時間は下方に流れている。３０８において、送信側コアは、データアドレスＡに関連付けられたデータを送信側コアのキャッシュラインに書き込む。３１０において、送信側コアは、コアＲをスタッシュターゲットとして示す、データアドレスＡに対するスタッシュ命令を実行する。スタッシュ命令は、次の形式をとることができる。
ＳＴＡＳＨｄａｔａ＿ａｄｄｒｅｓｓ，ｔａｒｇｅｔ＿ｉｄ
式中、オペランドｄａｔａ＿ａｄｄｒｅｓｓは、仮想アドレス、仮想アドレスの範囲のインジケータ、又は１つ以上のデータアドレスの何らかの他のインジケータであり得る。オペランドｔａｒｇｅｔ＿ｉｄは、１つ以上のプロセッサコアをキャッシュターゲットとして特定する。それは、例えば、数値識別子又はビットベクトルであってもよい。ビットベクトルにおいて、ビット位置はスタッシュターゲットに対応する。

メッセージ３１２がホームエージェントに送信される。これに応答して、ホームエージェントは、スタッシュメッセージ３１６をターゲットコアＲに送信する。スタッシュメッセージ３１６は、データアドレスＡに関連付けられたデータが修正されたことを示す。コアＲは、メッセージを無視すること、又はデータアドレスＡに関連付けられたデータをプリフェッチすることを選択することができる。コアＲが、データアドレスＡに関連付けられたデータをプリフェッチすることを選択すると、コアＲは、データに対する読み出し要求３１８をホームエージェントに送信する。ホームエージェントは、それに応答して、データアドレスＡに関連付けられたデータがコアＲに送信されることを要求するメッセージ３２０を送信側コアに送信する。ホームエージェントからプロセッサコアへのメッセージは、「スヌープ」メッセージと呼ばれることがある。送信側コアは、メッセージ３２２において、データアドレスＡに関連付けられたデータを受信側コアであるコアＲに送付することによってスタッシュ動作を完了する。送付されたデータは、コアＲのローカルキャッシュに記憶される。受信側コアＲが３２４において読み出し動作を実行するとき、データはすでにローカルキャッシュにあり、したがって、読み出しはキャッシュヒットをもたらし、データが最小レイテンシでロードされ得る。このようにして、データ処理システムの性能が改善される。

更なる実施形態では、スタッシュ命令がスタッシュターゲットを特定するとき、スタッシュメッセージは、送信側コアから直接的に受信側コアに送信され得る。この場合、データをコアＲに送付した後、ホームエージェントがデータコヒーレンシを監視することを可能にするために、肯定応答を送信側コアからホームエージェントに送信する必要があり得る。

図４は、様々な代表的な実施形態に係る、コア間スタッシュ動作の更なる例についての相互作用チャート４００である。このチャートは、送信側又はプロデューサコアＳのタイムライン４０２、ホームエージェントのタイムライン４０４、及び受信側又はコンシューマコアＲのタイムライン４０６を示しており、時間が下方に流れている。４０８において、送信側コアは、データアドレスＡに関連付けられたデータを送信側コアのキャッシュラインに書き込む。４１０において、送信側コアは、スタッシュターゲットの指示なしで、データアドレスＡに対するスタッシュ命令を実行する。スタッシュ命令は、次の形式をとることができる。
ＳＴＡＳＨｄａｔａ＿ａｄｄｒｅｓｓ
式中、オペランドｄａｔａ＿ａｄｄｒｅｓｓは、例えば、仮想アドレスであってもよい。

図３において、ホームエージェントは、メッセージ３１２から直接的にスタッシュターゲットを判定した。しかしながら、図４において、メッセージ４１２は、データアドレスＡを含むが、ターゲット識別子を含まない。この実施形態では、ホームエージェントは、スタッシュメッセージ４１２に示されたデータアドレスＡに基づいて、４１４においてスタッシュターゲットテーブルにアクセスすることによって、スタッシュターゲット（単数又は複数）を判定する。テーブルがデータアドレスＡのエントリを含み、そのエントリが１つ以上のスタッシュターゲットを特定する場合、スタッシュメッセージ４１６は、データアドレスＡに対して特定された受信側コアに送信される。方法は、図３を参照して説明されたように続き、相互作用４１８～４２４が要素３１８～３２４に対応する。コアＲが、データアドレスＡに関連付けられたデータをプリフェッチすることを選択すると、コアＲは、データに対する読み出し要求４１８をホームエージェントに送信する。ホームエージェントは、それに応答して、データアドレスＡに関連付けられたデータがコアＲに送信されることを要求するメッセージ４２０を送信側コアに送信する。送信側コアは、データアドレスＡに関連付けられたデータを、メッセージ４２２において受信側コアであるコアＲに送付することによってスタッシュ動作を完了する。送付されたデータは、コアＲのローカルキャッシュに記憶される。受信側コアであるコアＲが４２４において読み出し動作を実行するとき、データはすでにローカルキャッシュにあり、したがって、読み出しはキャッシュヒットをもたらし、データが最小レイテンシでロードされ得る。

図３を参照して説明された手法では、スタッシュメッセージ内の識別子を使用してスタッシュターゲットが判定される一方、図４を参照して説明された手法では、スタッシュターゲットテーブルを使用してスタッシュターゲットが判定される。スタッシュターゲットテーブルの生成及び維持のためのいくつかの例示的なメカニズムが、図７～図１１を参照して以下で説明される。一般に、ホームエージェントは、データ転送及びデータアドレスに対するデータコヒーレンシ動作を監視することによって、スタッシュターゲットを生成し、維持する。

したがって、図３及び図４は、データ処理システムにおけるデータ転送の方法の例を示す。この方法によれば、第１のプロセッサコアは、第１のデータアドレスに関連付けられたデータを第１のキャッシュに書き込み、第１のデータアドレスを含む第１のスタッシュ要求をデータ処理システムのホームエージェントに送信する。ホームエージェント又はプロデューサコアは、第１のスタッシュ要求に少なくとも部分的に基づいて、スタッシュメッセージを受信する第２のプロセッサコアを判定し、スタッシュメッセージを第２のプロセッサコアに送信する。スタッシュメッセージを受信すると、第２のプロセッサコアは、第１のデータアドレスに関連付けられたデータを第２のプロセッサコアのキャッシュ内にプリフェッチすることを選択し得る。一実施形態では、第１のスタッシュ要求は、第２のプロセッサコアの識別子を含む。更なる実施形態では、スタッシュターゲットは、スタッシュターゲットテーブル内の、第１のデータアドレスに関連付けられている第１のエントリにアクセスすることによって判定される。

図５は、様々な代表的な実施形態に係る、スタッシュターゲットテーブル（ＳＴＴ）５００の一例を示す。テーブル５００内の各エントリは、１つ以上のスタッシュターゲットのデータアドレス５０２及び識別子５０４を含む。最初に、エントリは、データアドレスを有し得るが、スタッシュターゲットを有しない。データアドレス５０２は、物理アドレスであってもよく、見かけ上の物理アドレス又はゴースト物理アドレスなどの中間アドレスであってもよい。データアドレスは、例えば、キャッシュライン又はキャッシュページの識別子であってもよい。より一般的には、メモリは、領域内で、（キャッシュラインよりも小さい、大きい、又はキャッシュラインに等しい）指定された粒度で論理的に分割されていてもよく、その場合、データアドレスは領域の識別子であってもよい。データ処理システムは、異なる粒度を使用する複数のＳＳＴを含むことができる。

図６は、様々な代表的な実施形態に係る、スタッシュターゲットテーブル（ＳＴＴ）６００の更なる例を示す。テーブル内の各エントリは、ベースデータアドレス６０２、１つ以上のスタッシュターゲットの識別子６０４、及びサイズ６０６を含む。ベースアドレス及びサイズは併せて、ｂａｓｅ＿ａｄｄｒｅｓｓからｂａｓｅ＿ａｄｄｅｓｓ＋ｓｉｚｅ－１までのサイズアドレスの範囲（例えば、サイズキャッシュライン数、サイズワード数、又はサイズバイト数）を示す。したがって、ＳＴＴ６００内の第１のエントリは、アドレスＡ、Ａ＋１、Ａ＋２、及びＡ＋３に対するスタッシュターゲットを示し、図５のテーブル５００内の最初の４つのエントリと等価である。この例では、スタッシュターゲットはビットベクトルとして特定される。例えば、テーブル６００の第２のエントリの識別子はビットベクトル００００１０１０であり、１の位置はデータアドレスＢに対するスタッシュターゲット２及び４を示す。

ベースデータアドレス６０２及びサイズ６０６によって指定されるエントリの範囲は、指定されたメモリ境界を越えないように制限され得る。これは、各テーブルルックアップ動作に対して１つのセットのみの検索を要する、セットアソシアティブ型テーブルとしての実装を可能とする。

ＳＴＴは、ホームエージェントに又はいくつかのプロセッサコアの各々に配置されてもよい。代替的に、スタッシュターゲット情報は、ホームエージェントのスヌープフィルタキャッシュに記憶されてもよい。各キャッシュラインに対して、スヌープフィルタキャッシュは、いくつかのキャッシュラインについての共有者、所有者、及びコヒーレンシ状態を記録するデータフィールドを有するエントリを含み得る。キャッシュラインに対するスタッシュターゲットを記録するために追加のフィールドが提供されてもよい。これは、キャッシュラインの大部分がキャッシュターゲットを有する適用例に対しては効率的であるが、キャッシュラインのわずかな割合のみがスタッシュターゲットを有する適用例に対してはあまり効率的ではない。

この続きにおいて、ＳＴＴを作成及び更新するための様々な例示的な方法が開示される。これらの例は、ホームエージェントを参照して説明される。しかしながら、等価の方法を使用してプロセッサコアにおいてＳＴＴを維持してもよい。

図７は、様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新する方法の相互作用チャート７００である。この方法によれば、受信側プロセッサコアは、データアドレスに対するターゲット登録メッセージをホームエージェントに送信する。これに応答して、ホームエージェントは、スタッシュターゲットテーブル内にエントリを生成し、第１のエントリは、受信側プロセッサコアをデータアドレスに関連付けられたデータのターゲットとして特定する。図７を参照すると、チャートは、送信側又はプロデューサコアＳのタイムライン７０２、ホームエージェントのタイムライン７０４、及び受信側又はコンシューマコアＲのタイムライン７０６を示し、時間は下方に流れている。７０８において、受信側コアＲは、受信側コア（将来のターゲット）上で実行されているソフトウェアが、別のコアによってスタッシュされることになるデータを読み出すことを予期することをハードウェアに示すレジスタ命令を実行する。データが仮想アドレスにより指定されてもよい。例えば、レジスタ命令は以下の形式をとることができる。
ＳＴＡＳＨ＿ＴＡＲＧＥＴｖｉｒｔｕａｌ＿ａｄｄｒｅｓｓ
この命令を実行するコアは、この仮想アドレスに対応する物理アドレスを含むキャッシュラインに対する将来のスタッシュのターゲットとして特定される。

代替的に、ＳＴＡＳＨ＿ＴＡＲＧＥＴ命令は、例えば、以下の形式をとる仮想アドレス範囲を指定することができる。
ＳＴＡＳＨ＿ＴＡＲＧＥＴｂａｓｅ＿ｖｉｒｔｕａｌ＿ａｄｄｒｅｓｓ，ｓｉｚｅ
この命令は、対応する物理アドレスに関連付けられたすべてのキャッシュラインを、ＳＴＡＳＨ＿ＴＡＲＧＥＴ命令を実行するコアをターゲットとするスタッシング動作の潜在的なターゲットとして特定する。

レジスタ命令の実行により、受信側コアＲからホームエージェントにメッセージ７１０が送信される。仮想アドレスを中間アドレス又は物理アドレスに変換してメッセージ７１０に含めることができることに留意されたい。

いくつかの適用例では、スレッドはコアに固定される。他の適用例では、ＳＴＡＳＨ＿ＴＡＲＧＥＴ命令は、コンシューマスレッドが移動された後に実行又は再実行される必要があり得る。これは、実際のスタッシュ動作が実行されるとき、報告されたターゲットコアが正しいことを確実とするためである。データバッファを初期化、読み出し、又はリサイクルするとき、ＳＴＡＳＨ＿ＴＡＲＧＥＴ命令を実行する様々な機会が存在する。したがって、各スレッド移動の直後にＳＴＡＳＨ＿ＴＡＲＧＥＴ命令を先を見越して実行する必要がない場合がある。スレッドが、スタッシングに従うプログラム反復よりも長い間、コアによって実行されることは一般的である。その結果、先を見越して登録しないことによって失われるのはスタッシング機会のうちのわずかな割合だけである可能性がある。

７１２において、ホームエージェントは、受信側コアＲをスタッシュターゲットとして示すデータアドレスＡに対するエントリをスタッシュターゲットテーブル内に作成又は更新する。

この場合も、ホームエージェント内のスヌープフィルタは、各キャッシュラインに関連付けられたメタデータ（様々なキャッシュ内のキャッシュラインのコヒーレンシ状態、どのコアがキャッシュラインのコピーを有するか、該当がある場合、どのコアがキャッシュラインを所有するか、を含む）を記録するので、メタデータは、キャッシュラインに対するスタッシュターゲットを記憶するスタッシュターゲットフィールド（ビットベクトルなど）を含むように拡張され得る。

代替実施形態では、上述したスタッシュターゲットテーブルを使用して、報告されたターゲットコア情報を記録することができる。このスタッシュターゲットテーブルは、キャッシュラインがスタッシュされるためのデータを記録することだけを必要とし、このデータは、スヌープフィルタキャッシュに記憶されたキャッシュラインの総数の小部分であり得る。スタッシュターゲットテーブルは、キャッシュライン物理アドレスでインデックス付けされ、完全に又は部分的にタグ付けされ、各エントリに１つ又は複数のスタッシュターゲットを記憶するセットアソシアティブ型キャッシュであってもよい。最新性ベースのキャッシュ置換ポリシーを使用してもよく、その結果、テーブル内の使用されてから最も日が経っているエントリは、スレッド移動などによって古くなったエントリなどを含めて、最終的に置換される。古いエントリによる不正確なスタッシュターゲットによる唯一の潜在的な影響は、スタッシュなしで発生するであろうキャッシュミスと同じキャッシュミスの発生である。ターゲットは、コンシューマスレッドがラインに対する新しいＳＴＡＳＨ＿ＴＡＲＧＥＴ命令を再実行するときに訂正されることになる。

上述したように、スタッシュターゲットテーブルは、アドレス範囲を指定することができる。これは、例えば、大きなメッセージをスタッシュするとき、又は通信ライブラリが大きなバッファで動作するときに、必要とされるエントリの数を減少させる。アドレス範囲が指定されると、エントリ間のアドレス範囲重複が検出され、重複を防止するために古いエントリが更新及び／又は無効化され得る。

図８は、様々な代表的な実施形態に係る、スタッシュターゲットテーブルの更なる例示的な更新の相互作用チャート８００である。このチャートは、送信側又はプロデューサコアＳのタイムライン８０２、ホームエージェントのタイムライン８０４、及び受信側又はコンシューマコアＲのタイムライン８０６を示しており、時間が下方に流れている。この実施形態では、ホームエージェントは、データのコヒーレンシ状態の変化が発生したときに、スタッシュターゲットテーブルを更新する。

キャッシュラインに書き込もうとしているコア（送信側）は、固有状態のラインを要求し、他のコアのプライベートキャッシュ内のラインのすべてのコピーを無効化しなければならない。これにより、コアは、キャッシュラインの所有権を有するものとして確立される。無効化メッセージを得るコア（ラインの共有者）は、ラインの以前の読み出し者又は書き込み者であり、したがって、送信側がラインに対してスタッシュ動作を実行するとき、新たに作り出されるキャッシュラインに対する潜在的なスタッシングターゲットである。通常、バッファキャッシュラインを書き込んでから、それをスタッシングするまでの時間は短く（しばしば、数千サイクル未満）、このことは、キャッシュラインのコピーが最近無効化されたコアを、後続のスタッシング動作のターゲットとして特定する機会を作り出す。

再び図８を参照すると、８０８において、送信側コアＳは、データアドレスＡに関連付けられたデータの書き込み動作を開始する。この例では、他のコアとキャッシュラインが共有されるので、メッセージ８１０をホームエージェントに送信して、コアＳのための適切なキャッシュラインの所有権を要求する。これに応答して、ホームエージェントは、そのスヌープフィルタにアクセスし、受信側コアＲをキャッシュラインの共有者として特定する。次に、ホームエージェントは、無効化メッセージ８１２を受信側コアＲに送信して、受信側コアのキャッシュ内のキャッシュラインを無効化する。

このトランザクションから、送信側コアがデータアドレスＡに関連付けられたデータのプロデューサである一方、受信側コアは、少なくとも以前に、データのコンシューマ（又はプロデューサ）であったことが明らかである。この知識に基づき、ホームエージェントは、８１４において、受信側コアＲが、データアドレスＡに関連付けられたデータの潜在的なスタッシュターゲットであることを示すエントリをスタッシュターゲットテーブル内に生成又はそれを更新する。動作は、受信側コアＲが、メッセージ８１６においてホームエージェントへの無効化メッセージを肯定応答し、ホームエージェントが、メッセージ８１８において肯定応答を送信側コアＳに送付することによって完了する。送信側コアＳのローカルキャッシュ内のデータは、今や固有のコヒーレンシ状態にあり、送信側コアＳはキャッシュラインの所有権を有する。

この手法は、コアがスタッシュターゲット又はスタッシュソースのアイデンティティを知る必要なしに、スタッシュターゲットテーブルがホームエージェントによって更新されることを可能にする。これは、例えば、仮想化環境においてなど、ソフトウェアがスタッシュターゲットＩＤにアクセスすることが困難である場合、及びネットワーキングスタックなどの複数のライブラリ層がある場合に有用である。

このメカニズムは、例えば、以前と同じ２つのコア間の通信のためにバッファを再使用する通信ライブラリと共に使用するのに有効である。この場合、スヌープフィルタは、所与のアドレス（キャッシュライン）に対する、同じ共有から固有への遷移を繰り返し見ることになる。

ホームエージェントにおいて固有化要求が受信されたときに２つ以上の共有者がある場合、ホームエージェントは、複数のターゲットをスタッシュターゲットテーブルに挿入することができる。

図９に示すように、スタッシュターゲットを予測する別の機会が、ダーティキャッシュライン（すなわち、書き込まれたが、まだメモリに書き記憶されていないデータを含むキャッシュライン）が別のコアにより要求され、送付されるときに存在する。要求コアは、スタッシング動作の潜在的なスタッシュターゲットである。ホームエージェントは、キャッシュコヒーレンスプロトコルに従って送信側から送付に対する肯定応答を受信すると、スタッシュターゲットテーブルにスタッシュターゲットを挿入することができる。

図９は、様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新する更なる方法の相互作用チャート９００である。このチャートは、送信側又はプロデューサコアＳのタイムライン９０２、ホームエージェントのタイムライン９０４、及び受信側又はコンシューマコアＲのタイムライン９０６を示しており、時間が下方に流れている。この実施形態では、ホームエージェントは、データのコヒーレンシ状態の変化が発生したときに、スタッシュターゲットテーブルを再び更新する。しかし、この場合、キャッシュが固有のダーティ状態から共有ダーティ状態に遷移するときに、テーブルが更新される。

図９を参照すると、受信側コアＲは、９０８において、要求９１０をホームエージェントに送信することによって、データアドレスＡに関連付けられたデータを要求する。ホームエージェントは、そのスヌープフィルタにアクセスし、キャッシュラインの所有者として送信側コアＳを特定し、スヌープ要求９１２を送信側コアＳに送信する。それに応じて、送信側コアＳは、メッセージ９１４においてキャッシュラインを受信側コアＲに送付し、メッセージ９１６においてトランザクションをホームエージェントに肯定応答する。このトランザクションと、データが「ダーティ」である（すなわち、変更されている）という知識とから、送信側コアＳがデータアドレスＡに関連付けられたデータのプロデューサであり、受信側コアＲがデータのコンシューマであることが明らかである。したがって、９１８において、ホームエージェントは、受信側コアＲをスタッシュターゲットとして特定するデータアドレスＡに対するエントリをスタッシュターゲットテーブル内に作成する。

図９の手法は、更新されたスタッシュターゲットテーブルエントリは、送信側がキャッシュラインに書き込み、スタッシュ命令を実行する時までに、スタッシュターゲットテーブルからエビクションされていない場合に有効である。しかしながら、すべての送付されたキャッシュラインが将来のスタッシング動作の実際のターゲットになるわけではないことが認識される。

図１０は、様々な代表的な実施形態に係る、スタッシュターゲットテーブルの更なる例示的な更新の相互作用チャート１０００である。このチャートは、送信側又はプロデューサコアＳのタイムライン１００２、ホームエージェントのタイムライン１００４、及び受信側又はコンシューマコアＲのタイムライン１００６を示しており、時間が下方に流れている。スタッシュターゲットなしのスタッシュ命令が１００８において実行されると、対応するメッセージ１０１０がホームエージェントに送信される。スタッシュターゲットテーブルが１０１２においてアクセスされ、受信側コアＲがスタッシュターゲットであると判定される。スタッシュメッセージ１０１４がスタッシュターゲットに送信される。この例では、受信側コアＲは、スタッシュメッセージを拒否することを選択し、スタッシュメッセージの受信を肯定応答し、データアドレスＡに関連付けられたデータを拒否するメッセージ１０１６を送信する。ホームエージェントは、１０１８において、データアドレスＡのスタッシュターゲットとしての受信側コアＲを除去するようにスタッシュターゲットテーブルを更新する。

図１１は、様々な代表的な実施形態に係る、スタッシュターゲットテーブルを更新するための更なる方法の相互作用チャート１１００である。図示の手法では、スタッシュターゲットテーブルへのエントリの挿入は、スタッシュ命令で指定されたキャッシュラインに対してのみ行われる。このチャートは、送信側又はプロデューサコアＳのタイムライン１１０２、ホームエージェントのタイムライン１１０４、及び受信側又はコンシューマコアＲのタイムライン１１０６を示しており、時間が下方に流れている。スタッシュターゲットなしのスタッシュ命令が１１０８において実行されると、対応するメッセージ１１１０がホームエージェントに送信される。図１１に示す例では、キャッシュラインは、固有のダーティ状態にある。すなわち、送信側コアのみがデータの有効なコピーを有する。データはまだメモリに書き戻されていないのでダーティである。スタッシュメッセージに応答して、ホームエージェントは、１１１２において、データアドレスＡに対するエントリをスタッシュターゲットテーブル内に生成する（そのようなエントリがまだ存在しないと仮定する）。しかし、１１１２において作成された新しいエントリは、いずれのスタッシュターゲットも特定しない。

後に、１１１４において、受信側コアＲが読み出し動作を開始する。データは、コアＲのローカルキャッシュ内にないので、データに対する要求１１１６がホームエージェントに送信される。ホームエージェントは、スヌープメッセージ１１１８を送信側コアＳに送信し、送信側コアＳは、要求されたデータをメッセージ１１２０において受信側コアＲに送付する。次に、送信側コアＳは、メッセージ１１２２において、ホームエージェントにトランザクションを肯定応答する。１１２４において、ホームエージェントは、受信側コアＲをデータアドレスＡのスタッシュターゲットとして示すようにデータアドレスＡのエントリを更新する。

他のイベントを使用してスタッシュターゲットテーブルのターゲットを特定できることが、当業者には明らかであろう。イベントは、例えば、受信側のプライベートキャッシュからのデータのエビクション、共有から固有への遷移、及びダーティキャッシュラインの送付を含む。その結果、ターゲットは、将来のスタッシュ命令のために利用可能となる。

スタッシュターゲットテーブル内のスタッシュターゲットは、指定された数のスタッシュ命令の実行時にリセットされてもよく、システムが次の反復のためにスタッシュターゲットを再学習することが可能とされる。代替的に、これは、スタッシュが有用であったかどうかに関する受信側からのフィードバックを用いて行われ得る。

スタッシュターゲットテーブルの容量は制限されているので、それは、エントリに関する最新性ベースの置換ポリシー（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅｄなど）に従うことができる。ソフトウェアは、スタッシュターゲットを指定することなく、いくつのラインを合理的にスタッシュできるかを判断する際に、スタッシュターゲットテーブル容量を考慮することができる。

図１２は、様々な代表的な実施形態による、ホームエージェントによってスタッシュターゲットテーブルを作成及び更新するための方法のフローチャート１２００である。ブロック１２０２において、ホームエージェントは、データアドレスを指定するメッセージをプロセッサコアから受信する。ホームエージェントが、判断ブロック１２０４からの否定分岐によって示されるように、現在、スタッシュターゲットテーブル内にデータアドレスに関連付けられたエントリがないと判定した場合、フローは判断ブロック１２０６に進む。判断ブロック１２０６からの否定分岐によって示されるように、プロセッサコアから受信されたメッセージがスタッシュメッセージでもレジスタターゲットメッセージでもない場合、ブロック１２０８によって示されるように、スタッシュターゲットテーブルに対する更新は行われない。プロセッサコアからのメッセージがスタッシュメッセージ又はターゲット登録メッセージである場合、判断ブロック１２０６からの肯定分岐によって示されるように、ブロック１２１０においてデータアドレスの新しいエントリがスタッシュターゲットテーブルを作成し、フローは判断ブロック１２１２に進む。判断ブロック１２０４からの肯定分岐によって示されるように、データアドレスのエントリがすでにテーブル内に存在する場合も、フローは判断ブロック１２１２に進む。

判断ブロック１２１２からの肯定分岐によって示されるように、受信されたメッセージが、プロデューサコアからの変更されたデータ又はダーティデータを読み出す要求、又はコアをスタッシュターゲットとして登録する明示的な要求である場合、ブロック１２１４において、メッセージをホームエージェントに送信したコアの識別子を、スタッシュターゲットテーブル内の指定されたデータアドレスのエントリに挿入する。

判断ブロック１２１６からの肯定分岐によって示されるように、受信されたメッセージが、キャッシュラインの所有権を求めるプロデューサコアからの要求（すなわち、キャッシュラインを固有にする要求）、又はプロデューサコアからのスタッシュ要求である場合、ホームエージェントは、スヌープフィルタから、該当がある場合、どの他のコアがキャッシュラインを共有しているかを判定し、ブロック１２１８において、それらのコアの識別子をデータアドレスに対するスタッシュターゲットテーブルエントリに挿入する。メッセージが何らかの他のメッセージである場合、判断ブロック１２１６からの否定分岐によって示されるように、スタッシュターゲットテーブルの更新は、受信されたメッセージについて、ブロック１２２０によって示されるように完了する。

このようにして、スタッシュターゲットテーブルは、プロセッサコアから受信されたメッセージに応答して、ホームエージェントによって作成及び更新されてもよい。送信側コアがスタッシュ動作のターゲットを知っている場合、ターゲットの識別子をスタッシュメッセージに含めることができる。スタッシュ動作の受信側が更新されたデータのソースを知っている場合、受信側はホームエージェントに登録することができる。他の場合には、ホームエージェントは、プロセッサコア間の相互作用に基づいてスタッシュターゲットを判定する。

一実施形態では、ホームエージェントは、データアドレスに対するスタッシュ要求を第１のプロセッサコアから受信したことに応答して、データアドレスに対するエントリをスタッシュターゲットテーブル内に生成する。データアドレスに関連付けられたデータが１つ以上の第２のプロセッサコアのキャッシュに記憶されているとき、キャッシュ内のデータは、第１のプロセッサコアのキャッシュ内のデータを固有にする、第１のプロセッサコアによる要求に応答して無効化される。ホームエージェントは、データアドレスに対する将来のスタッシュ要求のターゲットとして１つ以上の第２のプロセッサコアを特定するように、エントリを更新する。

データアドレスに関連付けられたデータに対する読み出し要求がホームエージェントによって第２のプロセッサコアから第１のプロセッサコアに送付されるときにも、また、エントリが作成又は更新されてもよい。更新されたエントリは、第２のプロセッサコアを、データアドレスに対するスタッシュ要求のターゲットとして特定する。

より一般的には、第１のプロセッサコアのキャッシュにおいて、第１のデータアドレスに関連付けられたデータのコヒーレンシ状態が固有から共有に、又は共有から固有に変化したことに応答して、ホームエージェントによって、第１のデータアドレスに対するスタッシュターゲットテーブル内のエントリが更新される。

例えば、ホームエージェントは、第１のプロセッサコアからのスタッシュメッセージに応答して、データアドレスに対するスタッシュターゲットテーブル内にエントリを生成し、後で、データアドレスに関連付けられたデータを第２のプロセッサコアに送付することに応答して、第２のプロセッサコアをデータアドレスに対するスタッシュターゲットとして特定するように、エントリを更新することができる。

図１３は、様々な代表的な実施形態に係る、コア間スタッシュ動作の相互作用チャート１３００である。このチャートは、送信側コア又はプロデューサコアＳのタイムライン１３０２、第１の受信側コアＲ１のタイムライン１３０４、及び第２の受信側コアＲ２のタイムライン１３０６を示しており、時間が下方に流れている。１３０８において、送信側コアは、データアドレスＡに関連付けられたデータを送信側コアのキャッシュラインに書き込む。１３１０において、送信コアは、コアＲ１及びＲ２をスタッシュターゲットとして示す、データアドレスＡに対するスタッシュ命令を実行する。送信側コアＳは、スタッシュメッセージ１３１２を受信側コアＲ１に送信し、スタッシュメッセージ１３１４を受信側コアＲ２に送信する。代替的に、スタッシュメッセージは、すべての他の受信側コアにブロードキャストされ得る。スタッシュメッセージは、アドレスＡに関連付けられたデータが送信側コアＳにおいて利用可能であるという通知又はヒントを受信側コアに提供する。示される例では、受信側コアＲ１は、１３１６において、データを拒否することを選択する一方、受信側コアＲ２は、１３１８において、データを受け入れることを選択する。受信側コアＲ２は、メッセージ１３２０においてデータを要求し、データは、送付メッセージ１３２２において送信側コアＳから返される。その後、１３２４において、受信側コアＲ２は、アドレスＡに関連付けられたデータの読み出し命令を実行する。データが受信側コアＲ２のローカルキャッシュにすでにスタッシュされているので、命令はキャッシュヒットをもたらす。この実施形態では、ホームエージェントは必要とされない。各コアは、データトランザクションを監視して、データコヒーレンシを追跡することができる。更に、各コアは、スタッシュターゲットテーブルを維持することができる。

図１４は、様々な代表的な実施形態に係る、更なるコア間スタッシュ動作の相互作用チャート１４００である。このチャートは、送信側コア又はプロデューサコアＳのタイムライン１４０２、第１の受信側コアＲ１のタイムライン１４０４、及び第２の受信側コアＲ２のタイムライン１４０６を示しており、時間が下方に流れている。１４０８において、送信側コアは、データアドレスＡに関連付けられたデータを送信側コアのキャッシュラインに書き込む。１４１０において、送信側コアは、スタッシュターゲットの特定なしで、データアドレスＡに対するスタッシュ命令を実行する。１４１２において、送信側コアは、スタッシュターゲットテーブルにアクセスする。データアドレスＡに対するスタッシュターゲットテーブル内にエントリが存在する場合、スタッシュメッセージは、エントリ内で特定されたスタッシュターゲットの各々に送信される。図示の例では、エントリは、受信側コアＲ１を唯一のターゲットとして特定し、スタッシュメッセージ１４１４が受信側コアＲ１に送信される。この実施形態では、スタッシュメッセージは、１４０８において書き込まれたデータを含む。１４１６において、受信側コアＲ１は、データを受け入れ、それをローカルキャッシュに記憶するか、又はデータを拒否するかを選択することができる。代替的に、受信側コアＲ１は、データを拒否することを選択することができ、その場合、肯定応答などの応答がプロトコルによって指定され得る。

図１３のスタッシュメッセージは代替的に通知ではなくデータを含むことができ、図１４のスタッシュメッセージは代替的にデータではなく通知を含むことができることは、当業者には明らかであろう。

図１５は、様々な代表的な実施形態に係る、例示的なスタッシュターゲット登録動作の相互作用チャート１５００である。このチャートは、第１のプロセッサコアのタイムライン１５０２、第２のプロセッサコアのタイムライン１５０４、及び第３のプロセッサコアのタイムライン１５０６を示しており、時間が下方に流れている。１５０８において、コア３は、データアドレスＡのスタッシュターゲットとして他のコアに登録するための登録命令を実行する。次いで、登録メッセージが、処理システム内の他のコアにブロードキャストされる。この例では、登録メッセージ１５１０はコア２に送信され、登録メッセージ１５１２はコア１に送信される。メッセージを受信すると、コアは、それぞれのスタッシュターゲットテーブル（１５１４においてコア２及び１５１６においてコア１）にデータアドレスを記録する。次に、アドレスＡに対するテーブルエントリは、コア３をスタッシュターゲットとして特定する。このようにして、スタッシュテーブルを各コアで作成することができる。同様に、コア間のデータトランザクションが監視され、どのコアがデータ又はスタッシュ通知を受信することから利益を得るかを予測するために使用され得る。

上述したように、スタッシュメッセージは、データ又はスタッシュ通知を含むことができる。一例を図１６に示す。

図１６は、様々な代表的な実施形態に係る、コア間スタッシュ動作の更なる例の相互作用チャート１６００である。このチャートは、送信側又はプロデューサコアＳのタイムライン１６０２、ホームエージェントのタイムライン１６０４、及び受信側又はコンシューマコアＲのタイムライン１６０６を示しており、時間が下方に流れている。１６０８において、送信側コアは、データアドレスＡに関連付けられたデータを送信側コアのキャッシュラインに書き込む。１６１０において、送信側コアは、スタッシュターゲットの指示なしで、データアドレスＡに対するスタッシュ命令を実行する。スタッシュ命令は、次の形式をとることができる。
ＳＴＡＳＨｄａｔａ＿ａｄｄｒｅｓｓ
式中、オペランドｄａｔａ＿ａｄｄｒｅｓｓは、仮想アドレス又はキャッシュラインの何らかの他のインジケータ（アドレスタグなど）であってもよく、あるいは、スタッシュ命令は、１つ以上のスタッシュターゲットを特定してもよい。

図１６に示す例では、メッセージ１６１２は、データアドレスＡと、データアドレスＡに関連付けられたデータとを含むが、ターゲット識別子は含まない。したがって、１６１４において、データは、ホームエージェントのシステムキャッシュに記憶される。また、１６１４において、ホームエージェントは、スタッシュメッセージ１６１２で特定されたデータアドレスＡに基づいてスタッシュターゲットテーブルにアクセスすることによって、スタッシュターゲット（単数又は複数）を判定する。テーブルがデータアドレスＡに対するエントリを含み、そのエントリが１つ以上のスタッシュターゲットを特定する場合、スタッシュメッセージ１６１６は、データアドレスＡに対して特定された受信側コアに送信される。コアＲがデータアドレスＡに関連付けられたデータをプリフェッチすることを選択するとき、コアＲは、データに対する読み出し要求１６１８をホームエージェントに送信する。ホームエージェントは、これに応答して、メッセージ１６２０において要求データを受信側コアＲに送信する。データは、コアＲのローカルキャッシュに記憶される。受信側コア、コアＲが１６２２において読み出し動作を実行するとき、データはすでにローカルキャッシュにあり、したがって、読み出しはキャッシュヒットをもたらし、データは最小レイテンシでロードされ得る。

本明細書に記載される実施形態の理解を提供するために、多数の詳細について説明してきた。実施形態は、これらの詳細を伴わずに実施されてもよい。他の例では、記載される実施形態を不明瞭にすることを避けるために、周知の方法、手順、及び構成要素については詳細に説明していない。本開示は、本明細書に記載された実施形態の範囲に限定されるものとみなされるべきではない。

当業者は、本開示が実施例によって説明されていることを認識するであろう。本開示は、説明及び特許請求される本開示の均等物である専用ハードウェア及び／又は専用プロセッサなどのハードウェア構成要素の等価物を使用して実装され得る。同様に、専用プロセッサ及び／又は専用ハードワイヤードロジックを使用して、本開示の代替的な等価の実施形態を構築することができる。

開示されるメカニズムを実装するために使用される専用又は再構成可能ハードウェア構成要素は、例えば、ＶＨＤＬ、Ｖｅｒｉｌｏｇ、若しくはＲＴＬ（ＲｅｇｉｓｔｅｒＴｒａｎｓｆｅｒＬａｎｇｕａｇｅ、レジスタ転送言語）なのハードウェア記述言語（ｈａｒｄｗａｒｅｄｅｓｃｒｉｐｔｉｏｎｌａｎｇｕａｇｅ、ＨＤＬ）の命令によって、又は構成要素及び接続のネットリストによって、記述されてもよい。命令は、機能レベル、論理レベル、又はそれらの組み合わせであってもよい。命令又はネットリストは、命令を解釈し、説明された機能又は論理を実装するデジタルハードウェアを作成する、自動化された設計プロセス又は製造プロセス（高レベル合成と呼ばれることもある）に入力され得る。

ＨＤＬ命令又はネットリストは、電気的消去可能プログラマブル読み出し専用メモリ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ、ＥＥＰＲＯＭ）；不揮発性メモリ（ｎｏｎ－ｖｏｌａｔｉｌｅｍｅｍｏｒｙ、ＮＶＭ）；ハードディスクドライブ、フロッピーディスクドライブ、光ディスクドライブなどの大容量記憶装置；光記憶素子、磁気記憶素子、光磁気記憶素子、フラッシュメモリ、コアメモリ、及び／又は本開示から逸脱しない他の等価の記憶技術などの非一時的コンピュータ可読媒体に記憶され得る。そのような代替的な記憶装置は、等価物とみなされるべきである。

本明細書で説明される様々な実施形態は、任意の好適な電子記憶媒体上に記憶され得る、又は任意の好適な電子通信媒体を介して送信され得る、フローチャート形式で大まかに説明されるプログラミング命令を実行する専用ハードウェア、構成可能ハードウェア、又はプログラムされたプロセッサを使用して実装される。これらの要素の組み合わせを使用してもよい。当業者であれば、上述のプロセス及びメカニズムは、本開示から逸脱することなく任意の数の変形形態で実装され得ることを理解するであろう。例えば、本開示から逸脱することなく、実行される特定の動作の順序をしばしば変更することができ、追加の動作を追加することができ、又は動作を削除することができる。そのような変形は、想到され、等価であるとみなされる。

本明細書で詳細に説明されている様々な代表的な実施形態は、例として提示されており、限定として提示されていない。当業者であれば、説明される実施形態の形態及び詳細において様々な変更がなされ得、添付の特許請求の範囲内に留まる等価な実施形態をもたらすことが理解されるであろう。

Claims

データ処理システムの第１のプロセッサコアによって、第１のデータアドレスに関連付けられたデータを第１のキャッシュに書き込むことと、
前記第１のプロセッサコアによって、前記第１のデータアドレスに対応する仮想アドレスを第１のオペランドとして有するスタッシュ命令を実行することと、
前記スタッシュ命令の前記第１のデータアドレス又は第２のオペランドに少なくとも部分的に基づいて、前記データ処理システムの第２のプロセッサコアがスタッシュメッセージのスタッシュターゲットであると判定することと、
前記第１のデータアドレスを含む前記スタッシュメッセージを前記第２のプロセッサコアに送信することと
前記スタッシュメッセージを受信したことに応答して、前記第２のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコア内のキャッシュに記憶することと、
を含む、データ転送の方法。
前記第１のプロセッサコアが、前記第２のプロセッサコアが前記スタッシュターゲットであると判定することと、前記スタッシュメッセージを前記第２のプロセッサコアに送信することと、を更に含む、請求項１に記載の方法。
前記スタッシュ命令の前記第２のオペランドは、前記第２のプロセッサコアの識別子を含む、請求項１に記載の方法。
前記スタッシュメッセージは、前記第１のデータアドレスに関連付けられた前記データを含む、請求項１に記載の方法。
前記第１のキャッシュは前記第１のプロセッサコアのキャッシュであり、
前記第２のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアの前記キャッシュに記憶することは、
前記第２のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを要求することと、
前記第１のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアに送付することと、
を含む、請求項１に記載の方法。
前記判定することは、スタッシュターゲットテーブル内の、前記第１のデータアドレスに関連付けられている第１のエントリにアクセスすることを含む、請求項１に記載の方法。
前記判定することに先立って、
前記第２のプロセッサコアによって、前記第１のデータアドレスに対するターゲット登録メッセージを送信することと、
前記スタッシュターゲットテーブル内に、前記第１のエントリを生成することであって、前記第１のエントリが、前記第２のプロセッサコアを前記第１のデータアドレスに関連付けられたデータのターゲットとして特定する、ことと、
を更に含む、請求項６に記載の方法。
前記判定することに先立って、
前記第１のデータアドレスを求める事前のスタッシュ要求を前記第１のプロセッサコアから受信したことに応答して、前記第１のデータアドレスに対する前記スタッシュターゲットテーブル内に前記第１のエントリを生成することを更に含む、請求項６に記載の方法。
前記第１のプロセッサコアのキャッシュにおいて、前記第１のデータアドレスに関連付けられた前記データのコヒーレンシ状態が固有から共有に、又は共有から固有に変化したことに応答して、前記スタッシュターゲットテーブル内の前記第１のエントリを更新すること、
を更に含む、請求項６に記載の方法。
前記書き込むことに先立って、
前記第１のデータアドレスに関連付けられた前記データの所有権を求める前記第１のプロセッサコアによる要求に応答して、前記１つ以上の第３のプロセッサコアのキャッシュに記憶された前記第１のデータアドレスに関連付けられたデータを無効化することと、
前記１つ以上の第３のプロセッサコアを前記第１のデータアドレスに対するスタッシュターゲットとして特定するように、前記スタッシュターゲットテーブル内の前記第１のエントリを更新することと、
を更に含む、請求項６に記載の方法。
前記第１のプロセッサコアによって、第１のスタッシュ要求を前記データ処理システムのホームエージェントに送信することを更に含み、前記第１のスタッシュ要求は、前記第１のデータアドレスと、前記データ処理システムの前記第２のプロセッサコアが前記スタッシュメッセージの前記スタッシュターゲットであると前記判定することと、前記スタッシュメッセージを前記第２のプロセッサコアに前記送信することと、を行うように構成された前記ホームエージェントとを含む、
請求項１に記載の方法。
前記判定することは、スタッシュターゲットテーブル内の、前記第１のデータアドレスに関連付けられている第１のエントリにアクセスすることを含む、請求項１１に記載の方法。
前記判定することに先立って、
前記第１のデータアドレスを求める事前のスタッシュ要求を前記第１のプロセッサコアから受信したことに応答して、前記ホームエージェントによって、前記第１のデータアドレスに対する前記スタッシュターゲットテーブル内に前記第１のエントリを生成すること
を更に含む、
請求項１２に記載の方法。
前記判定することに先立って、
前記ホームエージェントによって、前記第１のデータアドレスに関連付けられた前記データに対する読み出し要求を、前記第２のプロセッサコアから前記第１のプロセッサコアに送付することと、
前記ホームエージェントによって、前記スタッシュターゲットテーブル内の前記第１のエントリを更新又は作成して、前記第２のプロセッサコアを前記第１のデータアドレスのスタッシュターゲットとして特定することと、
前記第１のプロセッサコアによって、前記第２のプロセッサコアの前記キャッシュに記憶するために、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアに送付ことと、
を更に含む、請求項１３に記載の方法。
前記第１のプロセッサコアのキャッシュにおいて、前記第１のデータアドレスに関連付けられた前記データのコヒーレンシ状態が固有から共有に、又は共有から固有に変化したことに応答して、前記スタッシュターゲットテーブル内の前記第１のエントリを更新すること、
を更に含む、請求項１３に記載の方法。
前記第２のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアの前記キャッシュに記憶することは、
前記第２のプロセッサコアによって、前記ホームエージェントに要求を送信することと、
前記ホームエージェントが、前記第１のプロセッサコアにメッセージを送信することと、
前記第１のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアに送付することと、
を含む、請求項１１に記載の方法。
前記複数のプロセッサコアのキャッシュへのデータ割り当て及び割り当て解除する、データ処理システムの複数のプロセッサコアからのトランザクションを監視することと、
前記監視されたトランザクションに少なくとも部分的に基づいて、前記複数のプロセッサコアのうちの１つ以上のプロセッサコアが、第１のデータアドレスに関連付けられたデータに対するスタッシュターゲットコアであると予測することと、
前記複数のプロセッサコアのうちの第１のプロセッサコアによって、前記第１のデータアドレスに対する第１のスタッシュ命令を実行することと、
前記スタッシュターゲットコアに、前記第１のデータアドレスに関連付けられ、かつ前記第１のプロセッサコアによって作り出された前記データを通知するスタッシュメッセージを、前記スタッシュターゲットコアに送信することと、
前記スタッシュメッセージを受信したことに応答して、前記１つ以上のスタッシュターゲットコアのうちの第２のプロセッサコアが、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアのキャッシュに記憶することと、
を含む、データ転送の方法。
前記第１のスタッシュ命令を実行することに先立って、
前記第１のプロセッサコアによって、前記第１のデータアドレスに対する第２のスタッシュ命令を実行することと、
前記第２のスタッシュ命令の実行に応答して、前記第１のデータアドレスに対するスタッシュターゲットテーブル内にエントリを記憶することと、
前記第２のプロセッサコアが前記第１のデータアドレスに関連付けられた前記データの共有者になること、又は共有者でなくなることに応答して、前記第２のプロセッサコアをスタッシュターゲットコアとして特定するように、前記スタッシュターゲットテーブル内の前記エントリを更新することと、
を更に含む方法であって、
前記複数のプロセッサコアのうちの１つ以上のプロセッサコアが、前記第１のデータアドレスに関連付けられたデータに対するスタッシュターゲットコアであると前記予測することは、前記第１のデータアドレスに対する前記スタッシュターゲットテーブル内の前記エントリにアクセスすることを含む、
請求項１７に記載の方法。
前記第１のスタッシュ命令を実行することに先立って、
前記第２のプロセッサコアによって、前記第１のデータアドレスに対するレジスタ命令を実行することと、
前記レジスタ命令に応答して、スタッシュターゲットテーブル内に、前記第１のデータアドレスに対するスタッシュターゲットコアとして前記第２のプロセッサコアを特定するエントリを作成又は更新することと、
を更に含む方法であって、
前記複数のプロセッサコアのうちの１つ以上のプロセッサコアが、前記第１のデータアドレスに関連付けられたデータに対するスタッシュターゲットコアであると前記予測することは、前記第１のデータアドレスに対する前記スタッシュターゲットテーブル内の前記エントリにアクセスすることを含む、
請求項１７に記載の方法。
データ処理システムであって、
インターコネクトファブリックと、
前記インターコネクトファブリックによって相互接続された複数のプロセッサコアであって、前記複数のプロセッサコアのうちの第１のプロセッサコアは、第１のデータアドレスに関連付けられたデータをキャッシュに書き込み、前記第１のデータアドレスに対する第１のスタッシュ命令を実行するように構成されている、複数のプロセッサコアと、
スタッシュターゲットテーブル制御回路であって、
複数のプロセッサコアのキャッシュにデータ割り当て及び割り当て解除する、データ処理システムの前記複数のプロセッサコアからのトランザクションを監視し、
スタッシュターゲットテーブル内にエントリを作成及び更新し、
前記第１のスタッシュ命令に応答して、前記複数のプロセッサコアのうちの１つ以上のプロセッサコアが、第１のデータアドレスに関連付けられたデータに対するスタッシュターゲットコアであると予測し、
前記スタッシュメッセージは、前記第１のデータアドレスに関連付けられ、かつ前記第１のプロセッサコアによって作り出された前記データを、前記スタッシュターゲットコアに通知するように構成されたスタッシュメッセージを、前記スタッシュターゲットコアに送信する、
ように構成されている、スタッシュターゲットテーブル制御回路と、
を備え、
前記１つ以上のスタッシュターゲットコアのうちの第２のプロセッサコアは、前記スタッシュメッセージを受信したことに応答して、前記第１のデータアドレスに関連付けられた前記データを前記第２のプロセッサコアのキャッシュに記憶するように構成されている、
データ処理システム。
前記インターコネクトファブリックによって前記複数のプロセッサコアに結合され、前記データ処理システムのコヒーレンスの地点及びシリアル化を提供するように構成されている、ホームエージェントを更に備え、
前記ホームエージェントは、前記スタッシュターゲットテーブル制御回路を含む、
請求項２０に記載のデータ処理システム。
前記第１のプロセッサコアは、前記スタッシュターゲットテーブル制御回路を含む、請求項２０に記載のデータ処理システム。
前記スタッシュターゲットテーブル制御回路は、
前記第１のプロセッサコアからのスタッシュ命令又は前記第２のプロセッサコアからのレジスタ要求に応答して、前記スタッシュターゲットテーブル内にエントリを作成し、
前記第２のプロセッサコアから送信された読み出し要求又はスタッシュレジスタ要求に応答して、前記第２のプロセッサコアをスタッシュターゲットとして前記エントリに挿入し、
前記第１のプロセッサコアからのスタッシュ命令、又は前記第１のプロセッサコアによる共有から所有への第１のデータアドレスに関連付けられた前記データのコヒーレンシ状態の変更に応答して、前記第１のプロセッサコア以外の前記データの共有者をスタッシュターゲットとして前記エントリに挿入する
ように構成されている、請求項２０に記載のデータ処理システム。