JP2022549095A

JP2022549095A - キャッシュ禁止書き込みオペレーション

Info

Publication number: JP2022549095A
Application number: JP2022516628A
Authority: JP
Inventors: ウィリアムズ、デレク; ガスリー、ギー; シェン、ヒュー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-09-30
Filing date: 2020-08-20
Publication date: 2022-11-24
Also published as: GB2603693A; DE112020004672T5; GB2603693B; WO2021064484A1; US20210096990A1; CN114430819A; CN114430819B; US11176038B2; GB202205124D0

Abstract

データ処理システムが、ブロードキャスト・アドレス・インターコネクト及びデータ・インターコネクトを含むシステム・インターコネクトに結合された複数の処理ユニットを含む。処理ユニットは、メモリ・アクセス命令を実行するプロセッサ・コアと、プロセッサ・コアに結合され、プロセッサ・コアによるアクセスのためにデータを格納するように構成されたキャッシュ・メモリとを含む。処理ユニットは、アドレス・インターコネクト上で、システム・インターコネクトに結合された宛先デバイスに対するキャッシュ禁止書き込み要求及び書き込みデータをブロードキャストするように構成される。種々の実施形態において、最初のキャッシュ禁止要求及び書き込みデータは、アドレス・インターコネクト上の同じ又は異なる要求において通信することができる。

Description

本発明は、一般に、データ処理システムに関し、具体的には、データ処理システムにおける書き込みオペレーションに関する。さらにより具体的には、本発明は、データ処理システムにおけるキャッシュ禁止（cache-inhibited）書き込みオペレーションに関する。

共有メモリ・マルチプロセッサ（ＭＰ）データ処理システムにおいて、システム内の複数のプロセッサの各々は、一般に、共有メモリに格納されたデータにアクセスし、変更することができる。共有メモリに格納されたデータへのアクセス待ち時間を低減するために、プロセッサは、典型的には、プロセッサによりアクセスされる可能性の高い、共有メモリから取得したデータをバッファする高速のローカル・キャッシュを備える。プロセッサの様々なローカル・キャッシュに保持されるデータの一貫したビューは、一貫性プロトコルの実装によって維持される。

このような共有メモリＭＰシステムでは、例えば、共有メモリ内のページ・テーブルの適切な設定により、アドレス空間における特定のアドレスをキャッシュ禁止（キャッシュ不可能（non-cacheable））と指定することは一般的である。これらのキャッシュ禁止アドレスと関連付けられたデータは、プロセッサのローカル・キャッシュにキャッシュされることはない。キャッシュ禁止アドレスに対するデータのキャッシュを制限することによって、キャッシュ禁止アドレスと関連付けられたデータを変更しても、プロセッサのローカル・キャッシュに常駐するデータのあらゆる古いコピー又は複数のコピーの無効化を必要としないという点で、対応するメモリ位置のコンテンツの単一の一貫したビューの維持管理が、大幅に簡素化される。

１つ又は複数の実施形態において、データ処理システムのアドレス・インターコネクト上で、書き込みデータをブロードキャストすることにより、キャッシュ禁止アドレスへの書き込みが促進される。

例えば、少なくとも一実施形態において、データ処理システムは、ブロードキャスト・アドレス・インターコネクト及びデータ・インターコネクトを含むシステム・インターコネクトに結合された複数の処理ユニットを含む。処理ユニットは、メモリ・アクセス命令を実行するプロセッサ・コアと、プロセッサ・コアに結合され、プロセッサ・コアによるアクセスのためにデータを格納するように構成された、キャッシュ・メモリとを含む。処理ユニットは、アドレス・インターコネクト上で、システム・インターコネクトに結合された宛先デバイスに対するキャッシュ禁止書き込み要求及び書き込みデータをブロードキャストするように構成される。種々の実施形態において、最初のキャッシュ禁止要求及び書き込みデータは、アドレス・インターコネクト上の同じ又は異なる要求において通信することができる。

一実施形態による、例示的なデータ処理システムの高レベル・ブロック図である。一実施形態による、図１のデータ処理システム内の宛先デバイスのより詳細な図である。一実施形態による、データ処理システムのシステム・インターコネクト上の例示的なオペレーションの時間空間図である。データ処理システムのシステム・インターコネクト上で、キャッシュ不可能ユニット（ＮＣＵ）がキャッシュ禁止（ＣＩ）書き込み要求を発行する従来技術の方法の高レベル論理フローチャートである。宛先デバイスがＣＩ書き込み要求にサービスする従来技術の方法の高レベル論理フローチャートである。従来技術による、ＣＩ書き込み要求、コヒーレンス応答メッセージ、及びデータ・パケットを示す。従来技術による、ＣＩ書き込み要求、コヒーレンス応答メッセージ、及びデータ・パケットを示す。従来技術による、ＣＩ書き込み要求、コヒーレンス応答メッセージ、及びデータ・パケットを示す。一実施形態による、データ処理システムのシステム・インターコネクト上で、ＮＣＵがＣＩ書き込み要求を発行する、例示的な方法の高レベル論理フローチャートである。一実施形態による、宛先デバイスがＣＩ書き込み要求にサービスする、例示的な方法の高レベル論理フローチャートである。一実施形態による、ＣＩ書き込み要求及びコヒーレンス応答メッセージを示す。一実施形態による、ＣＩ書き込み要求及びコヒーレンス応答メッセージを示す。別の実施形態による、データ処理システムのシステム・インターコネクト上で、ＮＣＵがＣＩ書き込み要求を発行する、例示的な方法の高レベル論理フローチャートである。別の実施形態による、宛先デバイスがＣＩ書き込み要求にサービスする、例示的な方法の高レベル論理フローチャートである。別の実施形態による、ＣＩ書き込みオペレーションのための、第１の要求、第１のコヒーレンス応答メッセージ、第２の要求、及び第２のコヒーレンス応答メッセージを示す。別の実施形態による、ＣＩ書き込みオペレーションのための第１の要求、第１のコヒーレンス応答メッセージ、第２の要求、及び第２のコヒーレンス応答メッセージを示す。別の実施形態による、ＣＩ書き込みオペレーションのための第１の要求、第１のコヒーレンス応答メッセージ、第２の要求、及び第２のコヒーレンス応答メッセージを示す。別の実施形態による、ＣＩ書き込みオペレーションのための第１の要求、第１のコヒーレンス応答メッセージ、第２の要求、及び第２のコヒーレンス応答メッセージを示す。例示的な設計フローのブロック図である。

ここで図、特に図１を参照すると、一実施形態によるデータ処理システム１００の高レベル・ブロック図が示される。図示のように、データ処理システム１００は、データ及び命令を処理するための（少なくとも処理ユニット１０２ａ～１０２ｂを含む）複数の処理ユニット１０２を含む。処理ユニット１０２は、取り付けられたデバイス間でアドレス、データ及び制御情報を伝達するために、システム・インターコネクト（相互接続）１０４に通信するように結合される。好ましい実施形態では、システム・インターコネクト１０４は、分岐したアドレス・インターコネクト及びデータ・インターコネクトを含む。図３を参照して以下でさらに説明するように、要求及びコヒーレンス応答を伝達する、アドレス・インターコネクトは、全ての要求及びコヒーレンス応答を、全ての取り付けられたデバイスに伝達する、アドレス・バスなどのブロードキャスト・インターコネクトである場合にさらに好ましい。それとは対照的に、データ・インターコネクトが、データのソースから宛先への直接通信をサポートする、スイッチなどのポイント・ツー・ポイント・インターコネクトである場合は好ましい。

示される実施形態では、システム・インターコネクト１０４に結合されたデバイスは、処理ユニット１０２だけでなく、共有システム・メモリ１０８へのインターフェースを提供するメモリ・コントローラ１０６、及び各々がそれぞれのメザニン（Mezzanine）バス１１２へのインターフェースを提供する１つ又は複数のホスト・ブリッジ１１０も含む。メザニン・バス１１２はまた、ネットワーク・インターフェース・カード、Ｉ／Ｏアダプタ、不揮発性メモリ、不揮発性ストレージ・デバイス・アダプタ、付加的なバス・ブリッジなどを含むことができる、図示されていない付加的なデバイスを取り付けるためのスロットも提供する。

さらに図１に示すように、単一の集積回路として実現することができる各処理ユニット１０２は、命令及びデータを処理するための１つ又は複数のプロセッサ・コア１２０を含む（その１つのみが明示的に示される）。各プロセッサ・コア１２０は、実行のために命令をフェッチして指示する命令シーケンシング・ユニット（ＩＳＵ）１２２と、ＩＳＵ１２２からディスパッチされた命令を実行するための１つ又は複数の実行ユニット１２４と、データ及び制御情報を一時的にバッファするためのレジスタ１２３のセットとを含む。実行ユニット１２４により実行される命令は、キャッシュ可能なアドレス及びキャッシュ不可能なアドレスと関連付けられたデータを読み書きするロード及びストア命令などのメモリ・アクセス命令を含む。

各プロセッサ・コア１２０は、実行されたストア及びロード命令にそれぞれ対応するストア及びロード要求の完了を管理するための、Ｌ１ストア・キュー（ＳＴＱ）１２７及びロード・ユニット１２８をさらに含む。一実施形態では、Ｌ１ＳＴＱ１２７は、複数のキュー・エントリを含む先入れ先出し（ＦＩＦＯ）キューとして実装することができる。従って、ストア要求は、ターゲット・アドレスを決定するために、対応するストア命令の実行時にＬ１ＳＴＱ１２７の「上部」エントリにロードされ、ストア要求がＬ１ＳＴＱ１２７の「底部」又は「コミット」エントリに到達したときに開始される。

本出願は、ロード及びストア命令などの「命令」と、「要求」とを区別することに留意することが重要である。ロード及びストア「命令」は、本明細書では、命令のタイプを識別する要求コード（オペコード）と、アクセスされるデータもしくはそのアドレス又はその両方を指定する１つ又は複数のオペランドとを含む実行ユニットへの入力として定義される。ロード及びストア「要求」は、本明細書では、アクセスされる少なくともデータのターゲット・アドレスを指定する、命令実行に続いて生成されるデータもしくは信号又はその両方として定義される。従って、ロード及びストア要求は、データ・アクセスを開始するために、プロセッサ・コア１２０からメモリ・システムに伝送することができるが、ロード及びストア命令は伝送することができない。

プロセッサ・コア１２０のオペレーションは、共有システム・メモリ１０８をその最下位に有し、かつ、示される実施形態においてはＬ１キャッシュ１２６及びＬ２キャッシュ１３０を含むキャッシュ・メモリの２つ又はそれより多いレベルをその上位に有する、マルチ・レベル揮発性メモリ階層によってサポートされる。他の共有メモリ・マルチプロセッサ・データ処理システムにおけるように、メモリ階層のキャッシュ可能なコンテンツは、一般に、データ処理システム１００の任意の処理ユニット１０２における任意のプロセッサ・コア１２０で実行される実行スレッドによりアクセスし変更することができる。

一実施形態によれば、Ｌ１キャッシュ１２６はストア・スルー・キャッシュとして実装され、このことは、他のプロセッサ・コア１２０に対するキャッシュ・ヒーレンシのポイントがＬ１キャッシュ１２６の下に配置され、示される実施形態においては、ストア・インＬ２キャッシュ１３０に配置されることを意味する。従って、Ｌ１キャッシュ１２６は、そのキャッシュ・ラインについての真のキャッシュ・コヒーレンシ状態（例えば、変更済み（Modified）、排他的（Exclusive）、共有（Shared）、無効（Invalid）など）を維持せずに、有効／無効ビットを維持するのみである。Ｌ１キャッシュ１２６はストア・スルー・キャッシュとして実装されるので、ストア要求は、最初に、Ｌ１キャッシュ１２６内の関連付けられたプロセッサ・コア１２０に対して完了し、次いで、示される実施形態ではＬ２キャッシュ１３０である、システム全体のコヒーレンシのポイントで、他の処理ユニット１０２に対して完了する。

さらに図１に示すように、Ｌ２キャッシュ１３０は、命令及びデータのキャッシュ・ラインを、それぞれのメモリ・アドレス及びコヒーレンス状態と関連付けて格納するストレージ・アレイ及びディレクトリ１４０を含む。またＬ２キャッシュ１３０は、関連付けられたプロセッサ・コア１２０から受け取ったキャッシュ可能なメモリ・アクセス要求に独立して同時にサービスする、多数の読み出しクレーム（ＲＣ）状態機械１４２ａ～１４２ｎも含む。ＲＣ機械１４２は、ロード・バス１６０、イン・オーダＬ２ロード・キュー（ＬＤＱ）１６１、及びコマンド・バス１６２を介して、プロセッサ・コア１２０内のＬＤユニット１２８からコア・ロード要求を受け取る。同様に、ＲＣ機械１４２は、ストア・バス１６４、イン・オーダＬ２ストア・キュー（ＳＴＱ）１６６、及びコマンド・バス１６２を介して、プロセッサ・コア１２０内のＬ１ＳＴＱ１２７からコア・ストア要求を受け取る。

Ｌ２キャッシュ１３０はさらに、システム・インターコネクト１０４及びスヌープ・バス１７０を介して他の処理ユニット１０２から受け取ったキャッシュ可能なメモリ・アクセス及び他の要求にサービスするために、幾つかのスヌープ（ＳＮ）状態機械１４４ａ～１４４ｎを含む。ＳＮ機械１４４及びＲＣ機械１４２はそれぞれ、バック無効化（back-invalidation）バス１７２に接続され、それにより、いずれのＳＮ機械１４４又はＲＣ機械１４２も、キャッシュ・ラインの無効化をプロセッサ・コア１２０に信号で送ることができる。

少なくとも１つの実施形態において、Ｌ２キャッシュ１３０は、ＲＣ機械１４２及びＳＮ機械１４４のうち、最大でも１つが、任意の時間に所与のターゲット・キャッシュ・ライン・アドレスをターゲットとする要求にアクティブにサービスできるように構築される。その結果、同じキャッシュ・ラインをターゲットとする第１の要求が、アクティブなＲＣ機械１４２又はＳＮ機械１４４によって既にサービスされている間に、第２の要求を受け取った場合、第１の要求のサービスが完了し、アクティブな状態機械がアイドル状態に戻るまで、後の第２の要求をキューに入れるか又は拒否する必要がある。

Ｌ２キャッシュ１３０はさらに、プロセッサ・コア１２０から受け取ったキャッシュ禁止（ＣＩ）メモリ・アクセス要求にサービスするためのキャッシュ不可能ユニット（ＮＣＵ）１４６を含む。ＮＣＵ１４６は、キャッシュ不可能なアドレスをターゲットとする、関連付けられたプロセッサ・コア１２０から受け取ったメモリ・アクセス要求に独立して同時にサービスするための多数のＮＣＵストア（ＮＳＴ）状態機械１５０ａ～１５０ｎを含む。ＮＳＴ機械１５０は、ストア・バス１６４及びイン・オーダＮＣＵストア・キュー（ＮＳＱ）１４８を介して、プロセッサ・コア１２０内のＬ１ＳＴＱ１２７からコアＣＩ書き込み要求を受け取る。さらに、ＮＣＵ１４６は、ロード・バス１６０を介して、プロセッサ・コア１２０内のＬＤユニット１２８からコアＣＩの読み出し要求を受け取る、多数のＮＣＵロード（ＮＬＤ）状態機械１５２ａ～１５２ｎを含む。

当業者であれば、図１のデータ処理システム１００は、インターコネクト・ブリッジ、不揮発性ストレージ、ネットワークもしくは取り付けられたデバイスに接続するためのポート等のような図示されていない多くの付加的なコンポーネントを含むことができることもさらに理解するであろう。このような付加的なコンポーネントは、説明される実施形態の理解には必要ないため、図１には示されておらず、本明細書でさらに論じられてもいない。しかしながら、本明細書で説明される拡張機能は、多様なアーキテクチャのデータ処理システムに適用可能であり、図１に示される一般化されたデータ処理システムのアーキテクチャに決して限定されないことも理解されたい。例えば、図１は、キャッシュ禁止要求にサービスするための別個のＮＣＵを含む実施形態を示すが、他のアーキテクチャは、Ｌ２キャッシュ１３０内のキャッシュ論理などの他の論理を使用して、ＣＩ書き込みなどのキャッシュ禁止要求にサービスすることができる。

ここで図２を参照すると、一実施形態による宛先デバイス２００のより詳細な図が示される。宛先デバイス２００は、ＣＩ書き込み要求の宛先（ターゲット）として機能することができるシステム・インターコネクト１０４に結合された任意のデバイスとすることができる。例えば、図１の実施形態では、宛先デバイス２００は、ホスト・ブリッジ１１０又はメモリ・コントローラ１０６とすることができる。

示される実施形態では、宛先デバイス２００は、システム・インターコネクト１０４を形成するアドレス・インターコネクト２０２及びデータ・インターコネクト２０４の両方に結合される。前述のように、アドレス・インターコネクト２０２は、取り付けられたデバイスの各々が、アドレス・インターコネクト２０２上で伝送される全ての要求及びコヒーレンスメッセージに対する可視性をもつことを意味する、バスなどのブロードキャスト・インターコネクトであることが好ましい。一方、データ・インターコネクト２０４は、データ・パケットが経路指定される間、データ・パケットは、複数の（一般的には全てではない）スヌーパを送ることができるが、オペレーションの宛先だけが、データ・インターコネクト２０４上で伝送されるデータ・パケットを受け取り、処理することを意味する、ポイント・ツー・ポイント・インターコネクトとして実装されることが好ましい。示される実施形態では、宛先デバイス２００は、他のコンポーネントの中で、アドレス・インターコネクト２０２上で受け取った要求をバッファするための複数のキュー・エントリ２１２ａ～２１２ｎを有する要求キュー２１０を含む。各キュー・エントリ２１２は、少なくとも、要求の宛先（ターゲット）アドレスをバッファするためのアドレス・フィールド２１４と、要求タイプ（例えば、読み出し、書き込みなど）の表示をバッファするための要求フィールド２１６と、要求と関連付けられたデータをバッファするためのデータ・フィールド２１８とを含む。さらに図２に示すように、宛先デバイス２００はまた、アドレス・インターコネクト２０２及びデータ・インターコネクト２０４の両方からデータ・フィールド２１８内に入れられた情報を選択することができる選択論理２２０（マルチプレクサとして表される）を含む。

ここで図３を参照すると、一実施形態による、データ処理システム１００のシステム・インターコネクト１０４上の例示的なオペレーションの時間空間図が示される。オペレーションは、ＲＣ機械１４２又はＮＳＴ機械１５０などのマスタ３００が、データ処理システム１００のアドレス・インターコネクト２０２上で要求３０２を発行するときに開始する。要求３０２は、所望のアクセスのタイプを示すトランザクション・タイプと、要求によってアクセスされるリソースを示すリソース識別子（例えば、ターゲット実アドレス）とを含むことが好ましい。一般的なタイプの要求としては、以下の表Ｉに示すものを含むことが好ましい。

要求３０２は、宛先デバイス２００（例えば、ホスト・ブリッジ１１０及びメモリ・コントローラ１０６）及びＬ２キャッシュ１３０のＳＮ機械１４４などのスヌーパ３０４によって受け取られる。一般に、要求３０２は、処理ユニット１０２によって要求３０２に内部でサービスできない場合にのみ、アドレス・インターコネクト２０２上で伝送されるため、若干の例外はあるものの、要求３０２を開始するマスタと同じＬ２キャッシュ１３０内のＳＮ機械１４４は、その要求３０２をスヌープしない（すなわち、一般に、自己スヌープはない）。

要求３０２を受け取ることに応答して、スヌーパ３０４は、アドレス・インターコネクト２０２上で、それぞれの部分応答（Ｐｒｅｓｐ）３０６を提供することができ、各Ｐｒｅｓｐ３０６は、要求３０２に対する少なくともそのスヌーパ３０４のコヒーレンス応答を表す。宛先デバイス２００は、例えば、宛先デバイス２００が要求アドレスをもたらすかどうか、及び宛先デバイス２００が要求にサービスするために使用可能なリソースを有するかどうかに基づいて、（存在する場合には）その部分応答を決定する。Ｌ２キャッシュ１３０は、例えば、Ｌ２ストレージ・アレイ及びディレクトリ１４０の可用性、要求を処理するためのリソースの可用性（利用可能なＳＮ機械１４４を含む）、Ｌ２ストレージ・アレイ及びディレクトリ１４０内の要求アドレスと関連付けられたキャッシュ状態に基づいて、部分応答３０６を決定することができる。

様々なスヌーパ３０４の部分応答は、応答論理３０８の１つ又は複数のインスタンスによって、段階的に又は一度に論理的に組み合わされ、要求３０２に対するシステム全体の組み合わせ応答（combined response）（Ｃｒｅｓｐ）３１０が決定される。応答論理３０８は、要求３０２に対するシステム全体の応答（成功（Ｓｕｃｃｅｓｓ）、再試行（Ｒｅｔｒｙ）など）を示すために、アドレス・インターコネクト２０２を介してマスタ３００及びスヌーパ３０４に組み合わせ応答３１０を提供する。組み合わせ応答３１０が要求３０２の成功を示す場合、組み合わせ応答３１０は、例えば、書き込みデータについての宛先（該当する場合）、要求されたメモリ・ブロックがマスタ３００によってキャッシュされたキャッシュ状態（該当する場合）、もしくは１つ又は複数のキャッシュ１２６、１３０内の要求されたメモリ・ブロックを無効にする「クリーンアップ（cleanup）」オペレーションが必要１３０とされるかどうか（該当する場合）又はそれらの組み合わせを示すことができる。

組み合わせ応答３１０を受け取ることに応答して、マスタ３００及びスヌーパ３０４の１つ又は複数は、一般的には、要求３０２にサービスするために１つ又は複数のオペレーションを実行する。これらのオペレーションは、データをマスタ３００へ供給すること、１つ又は複数のキャッシュ１２６、１３０にキャッシュされたデータを無効化する又は別の方法で更新すること、キャストアウト・オペレーションを実行すること、データをシステム・メモリ１０８又はＩ／Ｏデバイスへ書き込むことなどを含むことができる。さらに後述するように、応答論理２１０による組み合わせ応答３１０の生成前又は生成後に、データをマスタ３００との間で伝送することができる。一般に、殆どのオペレーションでは、システム・インターコネクト１０４上のオペレーションと関連付けられたデータは、データ・インターコネクト２０４を介して伝送される。しかしながら、本明細書でさらに説明するように、少なくとも幾つかの実施形態においては、幾つかのオペレーションにおいて、データは、アドレス・インターコネクト２０２を介して伝送される。

要求に応答してスヌーパ３０４により提供される部分応答、及び要求に応答してスヌーパを実行したオペレーション、もしくはその組み合わせ応答又はそれらの組み合わせは、要求により指定されたターゲット・アドレスに関して、スヌーパがコヒーレンシの最高点（Highest Point of Coherency、ＨＰＣ）であるか、コヒーレンシの最低点（Lowest Point of Coherency、ＬＰＣ）であるか、又はそのどちらでもないかによって決まり得る。ＬＰＣは、本明細書では、メモリ・ブロックのためのリポジトリとして機能するメモリ・デバイス又はＩ／Ｏデバイスとして定義される。メモリ・ブロックのＨＰＣが存在しない場合、ＬＰＣはメモリ・ブロックの真のイメージを保持し、メモリ・ブロックの付加的なキャッシュされたコピーを生成する要求を許可する又は拒否する権限を有する。図１及び図２のデータ処理システムにおける典型的な要求においては、ＬＰＣは、参照されるメモリ・ブロックのためのリポジトリとして機能するシステム・メモリ１０８のメモリ・コントローラ１０６、又はメモリ・マップトＩ／Ｏアドレスをもたらすホスト・ブリッジ１１０となる。ＨＰＣは、本明細書では、メモリ・ブロックの真のイメージをキャッシュし（ＬＰＣにおける対応するメモリ・ブロックと一致する場合又は一致しない場合もある）、メモリ・ブロックを変更する要求を許可する又は拒否する権限を有する、一意に識別されるデバイスとして定義される。記述的に、ＨＰＣは、メモリ・ブロックを変更しないオペレーションに応答して、メモリ・ブロックの共有コピーを要求側に提供することもできる。このように、図１及び図２のデータ処理システムの実施形態における典型的な要求において、ＨＰＣは、存在する場合には、Ｌ２キャッシュ２３０となる。他の指標を使用してメモリ・ブロックのＨＰＣを指定することもできるが、本発明の好ましい実施形態は、Ｌ２キャッシュ１３０のディレクトリ内の選択されたキャッシュ状態を用いて、メモリ・ブロックのＨＰＣ（存在する場合）を指定する。

さらに図３を参照すると、存在する場合には要求３０２内で参照したメモリ・ブロックに対するＨＰＣは、又はＨＰＣが存在しない場合にはメモリ・ブロックのＬＰＣは、保護ウィンドウ３１２ａの間、要求４０２に応答してメモリ・ブロックのコヒーレンス所有権の移転を防止する責任を有することが好ましい。図３に示す例示的なシナリオにおいては、要求３０２の要求アドレスが指定するメモリ・ブロックに対するＨＰＣであるスヌーパ３０４は、少なくとも、スヌーパ３０４がその部分応答３０６を決定した時点からスヌーパ３０４が組み合わせ応答３１０を受け取るまで継続する保護ウィンドウ３１２ａの間（及び場合によってはその後）、マスタ３００への要求されたメモリ・ブロックの所有権の移転を必要に応じて防止する。保護ウィンドウ３１２ａの間、スヌーパ３０４は、同じ要求アドレスを指定している他の要求に部分応答３０６（例えば、再試行Ｐｒｅｓｐ）を提供することによって所有権の移転を防止し、この部分応答３０６は、そうした所有権がマスタ３００へ成功裡に移転されるまで、他のマスタがコヒーレンス所有権を取得することを防止する。マスタ３００は同様に、組み合わせ応答３１０を受け取った後に要求３０２内で要求されたメモリ・ブロックの所有権を保護するために、保護ウィンドウ３１２ｂを開始する。

スヌーパ３０４は全て、上述のＣＰＵ及びＩ／Ｏの要求を処理するためのリソースが限られているので、幾つかの異なるレベルの部分応答及び対応する組み合わせ応答が可能である。例えば、要求されたメモリ・ブロックを担当するメモリ・コントローラ１０６が、要求を処理するために使用可能なキュー・エントリを有する場合には、メモリ・コントローラ１０６は、要求に対してＬＰＣとして働くことができることを示す部分応答で応答することができる。一方、メモリ・コントローラ１０６が、要求を処理するために使用可能なキュー・エントリをもたない場合には、メモリ・コントローラ１０６は、メモリ・ブロックに対するＬＰＣであることを示す部分応答で応答することができるが、現時点で要求にサービスすることはできない。同様に、Ｌ２キャッシュ１３０は、スヌープされた要求３０２を処理するために、使用可能なＳＮ機械１４４を要求し、Ｌ２ストレージ・アレイ及びディレクトリ１４０へのアクセスすることがある。これらのリソースのいずれか（又は両方）にアクセスできない場合には、必要なリソースがないために要求にサービスできないこと（例えば、再試行）を知らせる部分応答（及び対応するＣＲ）をもたらす。

ここで図４を参照すると、データ処理システムのシステム・インターコネクト上で、キャッシュ不可能ユニット（ＮＣＵ）がキャッシュ禁止（ＣＩ）書き込み要求を発行する従来技術の方法の高レベル論理フローチャートが示される。理解を促進するために、図４の従来技術の方法は、図１の例示的なデータ処理システム１００及び図３に示される例示的なオペレーションを参照して説明する。

図４のプロセスは、ブロック４００で開始し、次いで、ＮＣＵ１４６のＮＳＴ機械１５０が、ストア・バス１６４及びＮＳＱ１４８を介して関連付けられたプロセッサ・コア１２０からＣＩ書き込み要求を受け取ることを示す、ブロック４０２に進む。ＣＩ書き込み要求は、例えば、キャッシュ禁止メモリの領域をターゲットとするプロセッサ・コア１２０による対応するストア命令の実行によって生成され、少なくともターゲット・アドレス及び書き込みデータを含む。

ＣＩ書き込み要求を受け取ることに応答して、ＮＳＴ機械１５０は、アドレス・インターコネクト２０２上でＣＩ書き込み要求を発行する（ブロック４０４）。図６Ａに示すように、ＣＩ書き込み要求６００は、少なくとも、要求をＣＩ書き込み要求として識別する要求タイプ・フィールド６０２と、ＣＩ書き込み要求を発行する、処理ユニット１０２、ＮＣＵ１４６、及びＮＳＴ機械１５０を識別するマスタ・タグ・フィールド６０４と、関連付けられたプロセッサ・コア１２０によって提供されるターゲット・アドレスを指定するアドレス・フィールド６０６とを含む。

図３を参照して上述したように、ＣＩ書き込み要求に応答して、データ処理システム１００内のスヌーパ３０４は、それぞれの部分応答（Ｐｒｅｓｐ）３０６を提供する。これらの部分応答３０６は論理的に組み合わされ、応答論理３０８のインスタンス（例えば、発行処理ユニット１０２内に常駐する）は、部分応答３０６に基づいて、ＣＩ書き込み要求に対する組み合わせ応答（Ｃｒｅｓｐ）３１０を形成する。キャッシュ・スヌーパは、典型的には、キャッシュ禁止要求に対するヌル部分応答を生成し、キャッシュ禁止要求に対する付加的な処理を行わない。

図６Ｂは、Ｐｒｅｓｐ３０６及びＣｒｅｓｐ３１０の両方に用いることができるコヒーレンス応答６１０の形式の一例を示す。コヒーレンス応答６１０は、処理ユニット１０２、ＮＣＵ１４６、及びＣＩ書き込み要求を発行するＮＳＴ機械１５０を識別するマスタ・タグ・フィールド６１２を含む。さらに、コヒーレンス応答６１０は、ＣＩ書き込み要求のＰｒｅｓｐ３０６及びＣｒｅｓｐ３１０において、ＣＩ書き込みデータの宛先（例えば、メモリ・コントローラ１０６又はホスト・ブリッジ１１０）であるスヌーパ３０４（より正確には、宛先デバイス２００及びキュー・エントリ２１２）を示す、宛先タグ・フィールド６１４を含む。Ｐｒｅｓｐ３０６において、宛先タグ・フィールド６１４は、ＣＩ書き込みデータの最終的な宛先ではないスヌーパ３０４によって変更されない。コヒーレンス応答６１０はまた、Ｐｒｅｓｐ３０６においてはスヌーパ３０４の蓄積されたコヒーレンス応答を示し（すなわち、要求に対するスヌーパ３０４の部分応答は、応答フィールド６１６内で互いに論理和演算することができ）、かつ、Ｃｒｅｓｐ３１０においては、部分応答３０６に基づいて、ＣＩ書き込み要求に対するシステム全体のコヒーレンス応答を示す、応答フィールド６１６も含む。ＣＩ書き込み要求のＣｒｅｓｐ３１０に対する、応答フィールド６１６内に示される可能なコヒーレンス応答は、例えば、成功又は再試行を含む。

図４に戻ると、ブロック４０６において、ＣＩ書き込み要求を発行したＮＳＴ機械１５０は、関連付けられたＣｒｅｓｐ３１０（コヒーレンス応答６１０のマスタ・タグ・フィールド６１２で識別される）を監視し、Ｃｒｅｓｐ３１０の応答フィールド６１６がＣＩ書き込み要求の成功を示すかどうかを判断する。示していない場合（例えば、Ｃｒｅｓｐ３１０が応答フィールド６１６で再試行を示す）、プロセスは、ＮＳＴ機械１５０がアドレス・インターコネクト２０２上でＣＩ書き込み要求を再発行する、ブロック４０４に戻る。ブロック４０６において、代わりにＮＳＴ機械１５０が、Ｃｒｅｓｐ３１０はＣＩ書き込み要求の成功を示すと判断したことに応答して、ＮＳＴ機械１５０は、Ｃｒｅｓｐ３１０の宛先タグ・フィールド６１４から、関連する宛先デバイス２００及びキュー・エントリ２１２を識別する宛先タグを抽出する（ブロック４０８）。ＮＳＴ機械１５０は最初に、ＣＩ書き込み用のデータ・パケットを形成する（ブロック４１０）。図６Ｃに示すように、データ・パケット６２０は、Ｃｒｅｓｐ３１０の宛先タグ・フィールド６１４から抽出された宛先タグ情報を含む宛先タグ・フィールド６２２、並びにプロセッサ・コア１２０から受け取った書き込みデータを含むデータ・フィールド６２４を含む。さらにブロック４１０に示すように、次いで、ＮＳＴ機械１５０は、ポイント・ツー・ポイントのデータ・インターコネクト２０４を介して、データ・パケットを関連する宛先デバイス２００に伝送する。その後、図４のプロセスはブロック４１２で終了する。

ここで図５を参照すると、宛先デバイス２００（例えば、メモリ・コントローラ１０６又はホスト・ブリッジ１１０など）がＣＩ書き込み要求にサービスする従来技術の方法の高レベル論理フローチャートが示される。図５のプロセスは、ブロック５００で開始し、次いで、宛先デバイス２００が、アドレス・フィールド６０６内で宛先デバイス２００が担当するターゲット・アドレスを指定するＣＩ書き込み要求６００を受け取ることを示す、ブロック５０２に進む。ＣＩ書き込み要求６００を受け取ることに応答して、宛先デバイス２００は、要求キュー２１０におけるキュー・エントリ２１２が、ＣＩ書き込み要求への割り当てのために利用可能かどうか判断する（ブロック５０４）。利用可能でない場合、宛先デバイス２００は、応答フィールド６１６において再試行を示すＰｒｅｓｐ３０６を提供する（ブロック５０６）。このＰｒｅｓｐ３０６は、応答論理３０８の関連するインスタンスに、同じく応答フィールド６１６における再試行を示すＣｒｅｓｐ３１０を生成させる。ブロック５０６に続いて、図５のプロセスは、ブロック５２０で終了する。

ブロック５０４に戻り、要求キュー２１０においてエントリ２１２がＣＩ書き込み要求のために利用可能であるとの判断に応答して、宛先デバイス２００は応答フィールド６１６における成功を示すＰｒｅｓｐ３０６を提供し、ＣＩ書き込み要求６００のアドレス・フィールド６０６において指定されたアドレスをアドレス・フィールド２１４にロードし、要求タイプ・フィールド６０２のコンテンツの表示を要求フィールド２１６にロードすることによって、ＣＩ書き込み要求を要求キュー２１０の利用可能なエントリ２１２にエンキューする（ブロック５１０）。ブロック５１２に示すように、次に、宛先デバイス２００は、データ・インターコネクト２０４を介して、ＣＩ書き込み要求のデータ・パケット６２０の受け取りを監視する。ＣＩ書き込み要求のデータ・パケット６２０を受け取ることに応答して、宛先タグ・フィールド６２２により識別された宛先デバイス２００は、データ・フィールド６２４からデータを抽出し、データをデータ・フィールド２１８にロードする（ブロック５１４）。次いで、宛先デバイス２００は、例えば、データをシステム・メモリ１０８に格納すること又はデータを取り付けられたＩ／Ｏデバイスに書き込むことによって、ＣＩ書き込み要求を処理する（ブロック５１６）。その後、宛先デバイス２００は、キュー・エントリ２１２を解放し（ブロック５１８）、図５のプロセスはブロック５２０で終了する。

本開示では、図４～図５に表されるようなＣＩ書き込みオペレーションを実行する従来技術のプロセスは、ＣＩ書き込みオペレーションに割り当てられたキュー・エントリ２１２が占有されたままであるが、割り当てからその後のデータ・パケット６２０の受け取りまでの間に有用な作業を行わないという点で非効率であることが認識される。本開示では、キュー・エントリ２１２のようなシステム・リソースは必然的に限られているため、非生産的な待機によりそうしたリソースが消費される時間を削減することによって、ＣＩ書き込みオペレーションにおいて、これらの限られたリソースがより効率的に使用される場合は好ましいことが認識される。また、本開示では、キャッシュ禁止書き込みオペレーションに対するデータ配信の待ち時間が、多くの場合、例えばＣＩ書き込みオペレーションを通じて、Ｉ／Ｏデバイスによる処理を開始することができるプログラムのクリティカル性能パスを決定し得ることも理解される。従って、本出願は、ブロードキャスト・アドレス・インターコネクト２０２を使用して、ＣＩ書き込みオペレーションを加速して、ＣＩ書き込みオペレーションの書き込みデータを通信するための複数の技術を開示する。マルチ・ビートのＣＩ書き込み要求を用いて、アドレス・インターコネクト２０２を介して書き込みデータを通信する第１の実施形態が、図７、図８、及び図９Ａ～図９Ｂを参照して開示される。アドレス・インターコネクト２０２上の別個の要求を用いて書き込みデータを通信する第２の実施形態が、図１０、図１１、及び図１２Ａ～図１２Ｄを参照して開示される。

ここで図７を参照すると、第１の実施形態による、ＮＣＵが、データ処理システムのシステム・インターコネクト上で、ＣＩ書き込み要求を発行する例示的な方法の高レベル論理フローチャートが示される。理解を促進するために、図７の方法は、図１の例示的なデータ処理システム１００及び図３に示される例示的なオペレーションを参照して説明される。

図７のプロセスは、ブロック７００で開始し、次いで、ＮＣＵ１４６のＮＳＴ機械１５０が、ストア・バス１６４及びＮＳＱ１４８を介して、関連付けられたプロセッサ・コア１２０からＣＩ書き込み要求を受け取ることを示す、ブロック７０２に進む。ＣＩ書き込み要求は、例えば、キャッシュ禁止メモリの領域をターゲットとするプロセッサ・コア１２０による対応するストア命令の実行によって生成され、少なくともターゲット・アドレス及び書き込みデータを含む。

ＣＩ書き込み要求を受け取ることに応答して、ＮＳＴ機械１５０は、アドレス・インターコネクト２０２を介して、ＣＩ書き込み要求を、システム・インターコネクト１０４に結合された全てのスヌーパ３０４にブロードキャストする（ブロック７０４）。図９Ａに示すように、ＣＩ書き込み要求９００は、少なくとも、要求をＣＩ書き込み要求として識別する要求タイプ・フィールド９０２と、処理ユニット１０２、ＮＣＵ１４６、及びＣＩ書き込み要求を発行するＮＳＴ機械１５０を識別するマスタ・タグ・フィールド９０４と、関連付けられたプロセッサ・コア１２０から受け取ったターゲット・アドレスを指定するアドレス・フィールド９０６とを含む。図６Ａの先行技術のＣＩ書き込み要求６００とは異なり、図９ＡのＣＩ書き込み要求９００は、データ・フィールド９１０内にＣＩ書き込みオペレーションのための書き込みデータをさらに含み、幾つかの実施形態では、それをブロードキャスト・アドレス・インターコネクト２０２上の付加的なビートで通信することができる。

前述のように、ＣＩ書き込み要求に応答して、データ処理システム１００内のスヌーパ３０４は、図３を参照して上述したように、それぞれの部分応答（Ｐｒｅｓｐ）３０６を提供する。次に、これらの部分応答３０６は、応答論理３０８のインスタンス（例えば、発行処理ユニット１０２内に常駐する）によって論理的に組み合わされ、ＣＩ書き込み要求に対する組み合わせ応答（Ｃｒｅｓｐ）３１０を形成する。キャッシュ・スヌーパは、典型的には、キャッシュ禁止要求に対するヌル部分応答を生成し、付加的な処理は行わない。

図９Ｂは、一実施形態による、ＣＩ書き込みオペレーションのＰｒｅｓｐ３０６及びＣｒｅｓｐ３１０の両方に用いることができるコヒーレンス応答９２０の形式の一例を示す。コヒーレンス応答９２０は、処理ユニット１０２、ＮＣＵ１４６、及びＣＩ書き込み要求を発行するＮＳＴ機械１５０を識別するマスタ・タグ・フィールド９２２を含む。さらに、コヒーレンス応答９２０は、ＣＩ書き込み要求のＰｒｅｓｐ３０６及びＣｒｅｓｐ３１０において、ＣＩ書き込みデータの宛先（例えば、メモリ・コントローラ１０６又はホスト・ブリッジ１１０）であるスヌーパ３０４（より正確には、宛先デバイス２００及びキュー・エントリ２１２）を示す宛先タグ・フィールド９２４を含む。Ｐｒｅｓｐ３０６において、宛先タグ・フィールド９２４は、ＣＩ書き込みデータの最終的な宛先ではないスヌーパ３０４によって変えられることはない。図７～図８では、この宛先タグ・フィールド９２４は、ＣＩ書き込みオペレーションの書き込みデータの配信を指示するために使用されていないことがわかる。コヒーレンス応答９２０はまた、Ｐｒｅｓｐ３０６において、スヌーパ３０４の蓄積されたコヒーレンス応答を示し（すなわち、要求に対するスヌーパ３０４の部分応答は応答フィールド９２６内で互いに論理和演算することができ）、かつ、Ｃｒｅｓｐ３１０においては、ＣＩ書き込み要求に対するシステム全体のコヒーレンス応答を示す、応答フィールド９２６も含む。従来技術と同様に、ＣＩ書き込み要求のＣｒｅｓｐ３１０に対する応答フィールド９２６内に示される可能なコヒーレンス応答は、例えば、成功又は再試行を含む。

図７に戻ると、ブロック７０６において、ＣＩ書き込み要求を発行したＮＳＴ機械１５０は、関連付けられたＣｒｅｓｐ３１０（コヒーレンス応答９２０のマスタ・タグ・フィールド９２２によって識別される）を監視し、Ｃｒｅｓｐ３１０の応答フィールド９２６がＣＩ書き込み要求の成功を示すかどうかを判断する。示していない場合（例えば、Ｃｒｅｓｐ３１０が応答フィールド９２６で再試行を示す）、プロセスは、ＮＳＴ機械１５０がアドレス・インターコネクト２０２上でＣＩ書き込み要求を再発行することを示すブロック７０４に戻る。ブロック７０６において、代わりにＮＳＴ機械１５０が、Ｃｒｅｓｐ３１０はＣＩ書き込み要求の成功を示すと判断したことに応答して、ＮＳＴ機械１５０は、割り当て解除され、図７のプロセスはブロック７０８で終了する。従って、本実施形態においては、ＮＳＴ機械１５０は、図４において与えられた従来技術の方法のブロック４０８～４１０に対応するいずれのステップも実行しない。

ここで図８を参照すると、第１の実施形態による、宛先デバイス２００（例えば、メモリ・コントローラ１０６又はホスト・ブリッジ１１０）がＣＩ書き込み要求にサービスする例示的なの方法の高レベル論理フローチャートが示される。図８のプロセスは、ブロック８００で開始し、次いで、宛先デバイス２００が、アドレス・フィールド９０６内で宛先デバイス２００が担当するターゲット・アドレスを指定するＣＩ書き込み要求９００を受け取ることを示す、ブロック８０２に進む。ＣＩ書き込み要求９００を受け取ることに応答して、宛先デバイス２００は、要求キュー２１０におけるキュー・エントリ２１２が、ＣＩ書き込み要求９００への割り当てのために利用可能かどうか判断する（ブロック８０４）。利用可能でない場合、宛先デバイス２００は、応答フィールド９２６において再試行を示すＰｒｅｓｐ３０６を提供する（ブロック８０６）。このＰｒｅｓｐ３０６は、応答論理３０８に、同じく応答フィールド９２６における再試行を示すＣｒｅｓｐ３１０を生成させる。ブロック８０６に続いて、図８のプロセスは、ブロック８２０で終了する。

ブロック８０４に戻り、要求キュー２１０においてエントリ２１２がＣＩ書き込み要求への割り当てに利用可能であるとの判断に応答して、宛先デバイス２００は、応答フィールド９２６における成功を示すＰｒｅｓｐ３０６を提供し、ＣＩ書き込み要求９００のアドレス・フィールド９０６で指定されたアドレスをアドレス・フィールド２１４にロードし、要求タイプ・フィールド９０２のコンテンツを要求フィールド２１６にロードし、選択論理２２０を介して、データ・フィールド９１０のコンテンツの表示をデータ・フィールド２１８にロードすることによって、ＣＩ書き込み要求を利用可能なエントリ２１２にエンキューする（ブロック８１０）。宛先デバイス２００が別個のデータ・パケット６２０の受け取りを待つ必要がある図５のプロセスとは対照的に、図８のプロセスでは、宛先デバイス２００は、例えば、データ・フィールド２１８からのデータをシステム・メモリ１０８に格納すること、又はデータ・フィールド２１８からのデータを取り付けられたＩ／Ｏデバイスに書き込むことによって、ＣＩ書き込み要求を直ちに処理することができる（ブロック８１２）。その後、宛先デバイス２００は、ＣＩ書き込み要求に割り当てられたキュー・エントリ２１２を解放し（ブロック８１４）、図８のプロセスは、ブロック８２０で終了する。

ここで図１０を参照すると、第２の実施形態による、データ処理システムのシステム・インターコネクト上で、ＮＣＵがＣＩ書き込み要求を発行する例示的な方法の高レベル論理フローチャートが示される。理解を促進するために、図１０の方法は、図１の例示的なデータ処理システム１００を参照して説明される。

図１０のプロセスは、ブロック１０００で開始し、次いで、ＮＣＵ１４６のＮＳＴ機械１５０が、ストア・バス１６４及びＮＳＱ１４８を介して、関連付けられたプロセッサ・コア１２０からＣＩ書き込み要求を受け取ることを示す、ブロック１００２に進む。ＣＩ書き込み要求は、例えば、キャッシュ禁止メモリの領域をターゲットとするプロセッサ・コア１２０による対応するストア命令の実行によって生成され、少なくともターゲット・アドレス及び書き込みデータを含む。

ＣＩ書き込み要求を受け取ることに応答して、ＮＳＴ機械１５０は、アドレス・インターコネクト２０２上で第１の要求をブロードキャストする（ブロック１００４）。図１２Ａに示すように、例示的な実施形態において、第１の要求１２００は、少なくとも、要求をＣＩ書き込み要求として識別する要求タイプ・フィールド１２０２と、処理ユニット１０２、ＮＣＵ１４６及びＣＩ書き込み要求を発行するＮＳＴ機械１５０を識別するマスタ・タグ・フィールド１２０４と、関連付けられたプロセッサ・コア１２０から受け取ったターゲット・アドレスを指定するアドレス・フィールド１２０６とを含む。このように、本実施形態では、第１の要求１２００は、図６Ａの従来技術のＣＩ書き込み要求６００と同じ又は類似したものとすることができる。

前述のように、第１の要求１２００に応答して、データ処理システム１００内のスヌーパ３０４は、図３を参照して上述したように、部分応答（Ｐｒｅｓｐ）３０６（ヌル応答の場合もある）を提供する。次いで、これらの部分応答３０６は、論理的に組み合わされ、応答論理３０８のインスタンス（例えば、発行処理ユニット１０２内に常駐する）は、Ｐｒｅｓｐ３０６に基づいて、ＣＩ書き込み要求に対する組み合わせ応答（Ｃｒｅｓｐ）３１０を形成する。

図１２Ｂは、第１の要求１２００に対して生成されたＰｒｅｓｐ３０６及びＣｒｅｓｐ３１０の両方に用いることができる第１のコヒーレンス応答１２１０の例示的な形式を示す。コヒーレンス応答１２１０は、第１の要求１２００のマスタ・タグＡフィールド１２０４のコンテンツを指定するマスタ・タグＡフィールド１２１２を含む。さらに、第１のコヒーレンス応答１２１０は、第１の要求１２００のＰｒｅｓｐ３０６及びＣｒｅｓｐ３１０について、ＣＩ書き込みデータの宛先（例えば、メモリ・コントローラ１０６又はホスト・ブリッジ１１０）であるスヌーパ３０４（より正確には、宛先デバイス２００及びキュー・エントリ２１２）を示す、宛先タグ・フィールド１２１４を含む。Ｐｒｅｓｐ３０６においては、宛先タグ・フィールド１２１４は、ＣＩ書き込みデータの最終的な宛先ではないスヌーパ３０４によって変更されない。図１０～図１１では、この宛先タグ・フィールド１２１４が、ＣＩ書き込みオペレーションのためのデータ配信を指示するために使用されていないことが観察される。コヒーレンス応答１２１０はまた、Ｐｒｅｓｐ３０６において、スヌーパ３０４の蓄積されたコヒーレンス応答を示し（すなわち、要求に対するスヌーパ３０４の部分応答は応答フィールド１２１６内で互いに論理和演算することができ）、Ｃｒｅｓｐ３１０においては、第１の要求１２００に対するシステム全体のコヒーレンス応答を示す。従来技術と同様に、第１の要求１２００のＣｒｅｓｐ３１０に対する応答フィールド１２１６内に示される可能なコヒーレンス応答は、例えば、成功又は再試行を含む。

図１０に戻ると、ブロック１００６において、ＮＳＴ機械１５０は、第１の要求１２００のＣｒｅｓｐ３１０の、ＮＳＴ機械１５０による受け取りと同期せずに、アドレス・インターコネクト２０２上で第２の要求をブロードキャストする。図１２Ｃに示すように、例示的な実施形態では、第２の要求１２２０は、少なくとも、要求をＣＩ書き込み要求として識別する要求タイプ・フィールド１２２２と、マスタ・タグＡ’フィールド１２２４と、ＣＩ書き込み要求の書き込みデータを指定するデータ・フィールド１２２６とを含む。好ましい実施形態では、マスタ・タグＡ’フィールド１２２４は、処理ユニット１０２、ＮＣＵ１４６、及び第２の要求１２２０を発行するＮＳＴ機械１５０を識別する一方で、マスタ・タグＡフィールド１２０４のコンテンツとは異なることが好ましく、従って、関連する宛先デバイス２００が、ＣＩ書き込み要求のターゲット・アドレスを提供する第１の要求１２００と、ＣＩ書き込み要求の書き込みデータを提供する第２の要求１２２０とを区別することを可能にする。アドレス・インターコネクト２０２は、好ましくは、第１の要求１２００と第２の要求１２２０が順序付けられたままにし、宛先デバイス２００が、第２の要求１２２０の前に第１の要求１２００を受け取ることを保証する。

図１０のブロック１００８は、ＮＳＴ機械１５０が、第１の要求１２００のＣｒｅｓｐ３１０（コヒーレンス応答１２１０のマスタ・タグＡフィールド１２１２で識別される）を監視し、Ｃｒｅｓｐ３１０の応答フィールド１２１６が第１の要求１２００の成功を示すどうか判断することを示す。示していない場合（例えば、Ｃｒｅｓｐ３１０が応答フィールド１２１６で再試行を示す）、プロセスは、ＮＳＴ機械１５０がブロック１００４において第１の要求１２００を再発行する前に、第２の要求１２２０のＣｒｅｓｐ３１０を受け取るのを待つことを示す、ブロック１０１０に進む。しかしながら、ＮＳＴ機械１５０が、ブロック１００８において、第１の要求１２００のＣｒｅｓｐ３１０が成功を示すと判断した場合には、ＮＳＴ機械１５０は、図１２Ｄのコヒーレンス応答１２３０の形をとることができる、第２の要求１２２０のＣｒｅｓｐ３１０を受け取るのを待つ（ブロック１０１２）。この例では、コヒーレンス応答１２３０は、マスタ・タグＡ’フィールド１２３２、宛先タグイールド１２３４、及び応答フィールド１２３６を含み、これらはそれぞれ上述のフィールド１２１２、１２１４及び１２１６に対応する。第２の要求１２２０のＣｒｅｓｐを受け取ること応答して、ＮＳＴ機械１５０は割り当て解除され、図１０のプロセスはブロック１０２０で終了する。

ここで図１１を参照すると、第２の実施形態による、宛先デバイス２００（例えば、メモリ・コントローラ１０６又はホスト・ブリッジ１１０）がＣＩ書き込み要求にサービスする例示的な方法の高レベル論理フローチャートが示される。図１１のプロセスは、ブロック１１００で開始し、次いで、宛先デバイス２００が、アドレス・フィールド１２０６内で宛先デバイス２００が担当するターゲット・アドレスを指定する第１の要求１２００を受け取ることを示す、ブロック１１０２に進む。第１の要求１２００を受け取ることに応答して、宛先デバイス２００は、キュー・エントリ２１２が、ＣＩ書き込み要求への割り当てのために利用可能かどうかを判断する（ブロック１１０４）。利用可能でない場合、宛先デバイス２００は、応答フィールド１２１６における再試行を示すＰｒｅｓｐ３０６を提供する（ブロック１１０６）。このＰｒｅｓｐ３０６は、応答論理３０８に、同じく応答フィールド１２１６における再試行を示すＣｒｅｓｐ３１０を生成させる。ブロック１１０６に続いて、図１１のプロセスは、ブロック１１２０で終了する。

ブロック１１０４に戻ると、エントリ２１２がＣＩ書き込み要求のために利用可能であるとの判断に応答して、宛先デバイス２００は、応答フィールド１２１６における成功を示すＰｒｅｓｐ３０６を提供し、第１の要求１２００のアドレス・フィールド１２０６で指定されたアドレスをアドレス・フィールド２１４にロードし、要求タイプ・フィールド１２０２のコンテンツの表示を要求フィールド２１６にロードすることによって、ＣＩ書き込み要求を利用可能なエントリ２１２にエンキューする（ブロック１１１０）。

ブロック１１１２に示すように、次いで、宛先デバイス２００は、アドレス・インターコネクト２０２上で、第２の要求１２２０におけるＣＩ書き込み要求の書き込みデータの受け取りを監視する。第２の要求１２２０を受け取ることに応答して、宛先デバイス２００は、ヌルＰｒｅｓｐ３０６を提供し、データ・フィールド１２２６からデータを抽出し、選択論理２２０を介して、データを関連するキュー・エントリ２１２のデータ・フィールド２１８にロードする（ブロック１１１４）。次いで、宛先デバイス２００は、例えば、データ・フィールド２１８からのデータをシステム・メモリ１０８に格納すること又はデータ・フィールド２１８からのデータを取り付けられたＩ／Ｏデバイスへ書き込むことによって、ＣＩ書き込み要求を処理する（ブロック１１１６）。その後、宛先デバイス２００は、キュー・エントリ２１２を解放し（ブロック１１１８）、図１１のプロセスはブロック１１２０で終了する。

ここで図１３を参照すると、例えば、半導体ＩＣ論理の設計、シミュレーション、試験、レイアウト及び製造に用いられる例示的な設計フロー１３００のブロック図が示される。設計フロー１３００は、上述され、本明細書に示される設計構造体（design structure）又はデバイスを処理して、上述の及び本明細書に示される設計構造もしくはデバイス又はその両方の論理的に又は別の方法で機能的に等価な表現を生成するように設計構造体又はデバイスを処理するためのプロセス、機械もしくは機構又はそれらの組み合わせを含む。設計フロー１３００によって処理もしくは生成又はその両方が行われる設計構造体は、データ処理システム上で実行又は他の方法で処理されたときに、ハードウェア・コンポーネント、回路、デバイス、又はシステムの論理的、構造的、機械的、又は他の方法で機能的に等価な表現を生成するデータもしくは命令又はその両方を含むように、機械可読伝送又はストレージ媒体上でコード化することができる。機械は、これらに限定されるものではないが、回路、コンポーネント、デバイス、又はシステムを設計、製造、又はシミュレートするといった、ＩＣ設計プロセスに用いられるあらゆる機械を含む。例えば、機械は、リソグラフィ機械、マスクを生成するための機械もしくは機器又はその両方（例えば、ｅビーム・ライタ）、設計構造体をシミュレートするためのコンピュータ又は機器、製造プロセス又は試験プロセスに用いられるいずれかの装置、又は設計構造体の機能的に等価な表現をいずれかの媒体にプログラミングするためのあらゆる機械（例えば、プログラマブル・ゲート・アレイをプログラミングするための機械）を含むことができる。

設計フロー１３００は、設計される表現のタイプに応じて異なり得る。例えば、特定用途向けＩＣ（ＡＳＩＣ）を構築するための設計フロー１３００は、標準的なコンポーネントを設計するための設計フロー１３００、又はプログラマブル・ゲート・アレイ（ＰＧＡ）、例えば、Ａｌｔｅｒａ（登録商標）Ｉｎｃ．又はＸｉｌｉｎｘ（登録商標）Ｉｎｃ．から提供されているプログラマブル・ゲート・アレイ（ＰＧＡ）又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）に設計をインスタンス化するための設計フロー１３００とは異なることがある。

図１３は、好ましくは設計プロセス１３１０によって処理される入力設計構造体１０２０を含む、複数のそのような設計構造体を示す。設計構造体１３２０は、設計プロセス１３１０によって生成及び処理され、ハードウェア・デバイスの論理的に等価な機能的表現を生じる、論理的シミュレーション設計構造体とすることができる。設計構造体１３２０はさらに、又は代替的に、設計プロセス１３１０によって処理されたときに、ハードウェア・デバイスの物理的構造の機能的表現を生成するデータもしくはプログラム命令又はその両方を含むこともできる。機能的もしくは構造的又はその両方の設計特徴のどちらを表すのであれ、設計構造体１３２０は、コア開発者／設計者によって実施されるような、電子コンピュータ支援設計（ＥＣＡＤ）を使用して生成することができる。機械可読データ伝送、ゲートアレイ、又はストレージ媒体上でコード化された場合、設計構造体１３２０を設計プロセス１３１０内の１つ又は複数のハードウェア・モジュールもしくはソフトウェア・モジュール又はその両方によってアクセス及び処理して、本明細書で示されるもののような電子コンポーネント、回路、電子もしくは論理モジュール、装置、デバイス、又はシステムをシミュレートするか、又は他の方法で機能的に表現することができる。そのため、設計構造体１３２０は、設計又はシミュレーション・データ処理システムによって処理されたときに回路又は他のレベルのハードウェア論理設計を機能的にシミュレートするか、又は他の方法で表現する、人間及び／又は機械可読ソース・コード、コンパイルされた構造体、及びコンピュータ実行可能コード構造体を含む、ファイル又は他のデータ構造体を含むことができる。このようなデータ構造体は、ハードウェア記述言語（ＨＤＬ）設計エンティティ、又は、Ｖｅｒｉｌｏｇ及びＶＨＤＬのような低レベルＨＤＬ設計言語及び／又はＣもしくはＣ＋＋のような高レベル設計言語に適合する及び／又はそれと互換性のある他のデータ構造体を含むことができる。

設計プロセス１３１０は、設計構造体１３２０のような設計構造体を含むことができるネットリスト１３８０を生成するために、本明細書に示されるコンポーネント、回路、デバイス、又は論理構造の設計／シミュレーションの機能的等価物を合成、変換、又はその他の方法で処理するためのハードウェア・モジュールもしくはソフトウェア・モジュール又はその両方を使用し、組み込むことが好ましい。ネットリスト１３８０は、例えば、集積回路設計内の他の素子及び回路への接続を記述する配線、個別部品、論理ゲート、制御回路、Ｉ／Ｏデバイス、モデル等のリストを表す、コンパイルされた又は他の方法で処理されたデータ構造体を含むことができる。ネットリスト１３８０は繰り返しプロセスを用いて合成することができ、このプロセスにおいて、ネットリスト１３８０は、デバイスの設計仕様及びパラメータに応じて１回又は複数回再合成される。本明細書で説明される他の設計構造体のタイプと同様に、ネットリスト１３８０を機械可読ストレージ媒体上に記録し、又はプログラマブル・ゲート・アレイにプログラムすることができる。媒体は、磁気又は光ディスク・ドライブのような不揮発性ストレージ媒体、プログラマブル・ゲート・アレイ、コンパクト・フラッシュ、又は他のフラッシュ・メモリとすることができる。それに加えて、又は代替的に、媒体は、システム又はキャッシュ・メモリ、又はバッファ領域とすることができる。

設計プロセス１３１０は、ネットリスト１３８０を含む様々な入力データ構造体のタイプを処理するためのハードウェア及びソフトウェア・モジュールを含むことができる。このようなデータ構造体のタイプは、例えば、ライブラリ要素１３３０内に常駐し、所与の製造技術（例えば、異なる技術ノード３２ｎｍ、４５ｎｍ、９０ｎｍ等）についての、モデル、レイアウト及び記号表示を含む、一般的に用いられる要素、回路及びデバイスのセットを含むことができる。データ構造体のタイプは、設計仕様１３４０と、特性データ１３５０と、検証データ１３６０と、設計規則１３９０と、入力試験パターン、出力試験結果及び他の試験情報を含むことができる試験データ・ファイル１３８５とをさらに含むことができる。設計プロセス１３１０は、例えば、応力分析、熱分析、機械イベント・シミュレーション、鋳造、成形、ダイ・プレス形成等のような動作のためのプロセス・シミュレーションのような標準的な機械設計プロセスをさらに含むことができる。機械設計の当業者であれば、本発明の範囲から逸脱することなく、設計プロセス１３１０に用いられる可能な機械設計ツール及びアプリケーションの範囲を認識することができる。設計プロセス１３１０はまた、タイミング分析、検証、設計規則照合、場所及びルート動作等のような標準的な回路設計プロセスを実行するためのモジュールを含むこともできる。

設計プロセス１３１０は、第２の設計構造体１３９０を作成するために、ＨＤＬコンパイラ及びシミュレーション・モデル構築ツールのような論理的及び物理的設計ツールを使用し、組み込んで、設計構造体１３２０を、図示された支持データ構造体のうちの幾つか又は全てと共に、いずれかの付加的な機械設計又はデータ（該当する場合）と併せて処理する。設計構造体１３９０は、機械的なデバイス及び構造体のデータの交換に用いられるデータ形式（例えば、ＩＧＥＳ、ＤＸＦ、ＰａｒａｓｏｌｉｄＸＴ、ＪＴ、ＤＲＧ、又はこのような機械的設計構造体を格納又はレンダリングするのに適した他のいずれかの形式で格納される情報）でストレージ媒体又はプログラマブル・ゲート・アレイ上に存在する。設計構造体１３２０と同様に、設計構造体１３９０は、好ましくは、１つ又は複数のファイル、データ構造体、又は他のコンピュータ・コード化データ又は命令を含み、これは、伝送又はデータ・ストレージ媒体上に存在し、かつ、ＥＣＡＤシステムによって処理されると本明細書に示される本発明の実施形態の１つ又は複数の論理的又は他の方式で機能的に等価な形態を生成する。１つの実施形態において、設計構造体１３９０は、例えば、本明細書に示されるデバイスを機能的にシミュレートする、コンパイルされた実行可能なＨＤＬシミュレーション・モデルを含むことができる。

設計構造体１３９０はまた、集積回路のレイアウト・データの交換に用いられるデータ形式もしくは記号データ形式（例えば、ＧＤＳＩＩ（ＧＤＳ２）、ＧＬ１、ＯＡＳＩＳ、マップファイル、又はこのような設計データ構造体を格納するためのいずれかの他の適切な形式で格納される情報）又はその両方を使用することもできる。設計構造体１３９０は、例えば、記号データ、マップファイル、試験データ・ファイル、設計コンテンツ・ファイル、製造データ、レイアウト・パラメータ、配線、金属のレベル、ビア、形状、製造ラインを通じた経路指定のためのデータ、並びに、上記に説明され、本明細書に示されるようなデバイス又は構造体を製造するために製造業者又は他の設計者／開発者により要求される他のいずれかのデータといった情報を含むことができる。次に、設計構造体１３９０はステージ１３９５に進むことができ、そこで、例えば、設計構造体１３９０は、テープに読み出されたり、製造のためにリリースされたり、マスク会社にリリースされたり、別の設計会社に送られたり、顧客に返送されたりする。

既述のように、少なくとも１つの実施形態において、データ処理システムは、ブロードキャスト・アドレス・インターコネクト及びデータ・インターコネクトを含むシステム・インターコネクトに結合された複数の処理ユニットを含む。処理ユニットは、メモリ・アクセス命令を実行するプロセッサ・コアと、プロセッサ・コアに結合され、プロセッサ・コアによるアクセスのためにデータを格納するように構成されたキャッシュ・メモリとを含む。処理ユニットは、アドレス・インターコネクト上で、システム・インターコネクトに結合された宛先デバイスに対するキャッシュ禁止書き込み要求及び書き込みデータをブロードキャストするように構成される。様々な実施形態において、最初のキャッシュ禁止要求及び書き込みデータは、アドレス・インターコネクト上の同じ又は異なる要求で通信することができる。

種々の実施形態が具体的に示され、説明されたが、当業者であれば、添付の特許請求の範囲から逸脱することなく、形態及び細部における種々の変更を成し得ること、及びこれらの代替的な実施は全て、添付の特許請求の範囲内に入ることを理解するであろう。

図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及びオペレーションを示す。この点に関して、フローチャート又はブロック図内の各ブロックは、指定された論理機能を実装するための１つ又は複数の実行可能命令を含む、モジュール、セグメント、又は命令の一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で行われることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には、実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又はその両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実施できることにも留意されたい。

さらに、コンピュータ・システムに関して態様が説明されたが、本発明は、データ処理システムによって処理することができるプログラム・コードを格納するコンピュータ可読ストレージ・デバイスを含むプログラム製品として代替的に実装できることを理解されたい。コンピュータ可読ストレージ・デバイスは、揮発性もしくは不揮発性メモリ、光ディスクもしくは磁気ディスク等を含むことができる。しかしながら、本明細書で用いられる場合、「ストレージ・デバイス」は、法定製造物品のみを含み、かつ、信号媒体自体、一時的伝搬信号自体及びエネルギー自体を除外するように具体的に定められる。

プログラム製品は、データ処理システム上で実行される又は他の方法で処理されるとき、本明細書で開示されるハードウェア・コンポーネント、回路、デバイス、又はシステムの論理的、構造的、又は他の方法で機能的に等価な表現（シミュレーション・モデルを含む）を生成する、データもしくは命令又はその両方を含むことができる。このようなデータもしくは命令又はその両方は、ハードウェア記述言語（ＨＤＬ）設計エンティティ、又はＶｅｒｉｌｏｇ及びＶＨＤＬなどの低レベルＨＤＬ設計言語、及び／又はＣもしくはＣ＋＋などの高レベル設計言語に適合する及び／又はそれと互換性のある他のデータ構造体を含むことができる。さらに、データもしくは命令又はその両方は、集積回路のレイアウト・データの交換に用いられるデータ形式、もしくは記号データ形式（例えば、ＧＤＳＩＩ（ＧＤＳ２）、ＧＬ１、ＯＡＳＩＳ、マップファイル、又はこのような設計データ構造体を格納するための他のいずれかの適切な形式で格納される情報）又はその両方を使用することもできる。

Claims

ブロードキャスト・アドレス・インターコネクト及びデータ・インターコネクトを有するシステム・インターコネクトを含むデータ処理システムのための処理ユニットであって、
メモリ・アクセス命令を実行するプロセッサ・コアと、
前記プロセッサ・コアに結合され、前記プロセッサ・コアによるアクセスのために、データを格納するように構成された、キャッシュ・メモリと、
を含み、
前記処理ユニットは、前記アドレス・インターコネクト上で、前記システム・インターコネクトに結合された宛先デバイスに対するキャッシュ禁止書き込み要求及び書き込みデータをブロードキャストするように構成される、
処理ユニット。
前記処理ユニットは、前記アドレス・インターコネクト上の第１のビートで前記キャッシュ禁止書き込み要求をブロードキャストし、前記アドレス・インターコネクト上の第２のビートで前記書き込みデータをブロードキャストする、請求項１に記載の処理ユニット。
前記処理ユニットは、前記書き込みデータを、前記キャッシュ禁止書き込み要求に含めてブロードキャストするように構成される、請求項１に記載の処理ユニット。
前記処理ユニットは、前記キャッシュ禁止書き込み要求内で、前記宛先デバイスを識別する宛先タグを指定することなく、前記キャッシュ禁止書き込み要求をブロードキャストするように構成される、請求項３に記載の処理ユニット。
前記キャッシュ禁止書き込み要求は第１の要求であり、
前記処理ユニットは、前記アドレス・インターコネクト上で、前記書き込みデータを、異なる第２の要求に含めてブロードキャストするように構成される、請求項１に記載の処理ユニット。
請求項１に記載の前記処理ユニットを含む前記複数の処理ユニットと、
前記宛先デバイスと、
前記宛先デバイス及び前記複数の処理ユニットを通信可能に結合する前記システム・インターコネクトと
を含む、データ処理システム。
前記宛先デバイスは、前記データ処理システムのシステム・メモリのメモリ・コントローラを含む、請求項６に記載のデータ処理システム。
前記宛先デバイスは、インターコネクト・ブリッジを含む、請求項６に記載のデータ処理システム。
前記データ・インターコネクトは、ポイント・ツー・ポイント・インターコネクトである、請求項６に記載のデータ処理システム。
ブロードキャスト・アドレス・インターコネクト及びデータ・インターコネクトを有するシステム・インターコネクトに結合された複数の処理ユニットを含むデータ処理システムの処理ユニットにおけるデータ処理方法であって、
前記処理ユニットが、前記処理ユニットのプロセッサ・コアから、キャッシュ禁止書き込み要求及び書き込みデータを受け取ることと、
前記キャッシュ禁止書き込み要求を受け取ることに応答して、前記処理ユニットは、前記データ処理システムの前記アドレス・インターコネクト上で、前記キャッシュ禁止書き込み要求及び前記書き込みデータをブロードキャストすることと
を含む、方法。
前記ブロードキャストすることは、前記アドレス・インターコネクト上の第１のビートで前記キャッシュ禁止書き込み要求をブロードキャストすることと、前記アドレス・インターコネクト上の第２のビートで前記書き込みデータをブロードキャストすることとを含む、請求項１０に記載の方法。
前記ブロードキャストすることは、前記処理ユニットが、前記書き込みデータを、前記キャッシュ禁止書き込み要求に含めてブロードキャストすることを含む、請求項１０に記載の方法。
前記ブロードキャストすることは、前記処理ユニットが、前記キャッシュ禁止書き込み要求内で、前記宛先デバイスを識別する宛先タグを指定することなく、前記キャッシュ禁止書き込み要求をブロードキャストすることを含む、請求項１２に記載の方法。
前記キャッシュ禁止書き込み要求は第１の要求であり、
前記ブロードキャストすることは、前記処理ユニットが、前記アドレス・インターコネクト上で、前記書き込みデータを、異なる第２の要求に含めてブロードキャストすることを含む、請求項１０に記載の方法。
前記宛先デバイスは、前記データ処理システムのシステム・メモリのメモリ・コントローラ及びインターコネクト・ブリッジを含むセットのうちの１つである、請求項１０に記載の方法。
集積回路を設計、製造又は試験するための、機械可読ストレージ・デバイス内に有形に具体化された設計構造体であって、前記設計構造体は、請求項１から請求項５までのいずれかに記載の前記処理ユニットを含む、設計構造体。