JP2021533464A - ハイブリッドの精密および非精密キャッシュスヌープフィルタリング - Google Patents

ハイブリッドの精密および非精密キャッシュスヌープフィルタリング Download PDF

Info

Publication number
JP2021533464A
JP2021533464A JP2021505657A JP2021505657A JP2021533464A JP 2021533464 A JP2021533464 A JP 2021533464A JP 2021505657 A JP2021505657 A JP 2021505657A JP 2021505657 A JP2021505657 A JP 2021505657A JP 2021533464 A JP2021533464 A JP 2021533464A
Authority
JP
Japan
Prior art keywords
group
cache
snoop filter
cache lines
snoop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021505657A
Other languages
English (en)
Other versions
JP7383007B2 (ja
JPWO2020028714A5 (ja
Inventor
ミッタル,ミリンド
ダスティダール,ジャディブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xilinx Inc
Original Assignee
Xilinx Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xilinx Inc filed Critical Xilinx Inc
Publication of JP2021533464A publication Critical patent/JP2021533464A/ja
Publication of JPWO2020028714A5 publication Critical patent/JPWO2020028714A5/ja
Application granted granted Critical
Publication of JP7383007B2 publication Critical patent/JP7383007B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • G06F12/0833Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means in combination with broadcast means (e.g. for invalidation or updating)
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • G06F12/0895Caches characterised by their organisation or structure of parts of caches, e.g. directory or tag array
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1032Reliability improvement, data loss prevention, degraded operation etc
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

組合された精密および非精密スヌープフィルタリングのための回路および方法である。メモリ(102)と、複数のプロセッサ(104、106、108、110)とが、相互接続回路(152)に結合される。複数のキャッシュ回路(たとえば138、122、124)が、複数のプロセッサ回路にそれぞれ結合される。第1のスヌープフィルタ(146)が相互接続に結合され、メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングするように構成される。第2のスヌープフィルタ(148)が相互接続に結合され、メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングするように構成される。各グループは複数のキャッシュラインを包含する。

Description

この開示は一般に、キャッシュスヌープフィルタリングに関する。
背景
キャッシュメモリは、マルチプロセッサデータ処理システムの共有メモリにおいて、性能を高めるために採用される。共有メモリ内のデータにアクセスするために必要とされる時間は、データのローカルコピーをキャッシュメモリに格納することによって減少させることができる。メモリは複数のプロセッサ間で共有されるため、各プロセッサがキャッシュメモリ内の最も最近の共有データを閲覧し、当該共有データへのアクセスを有することを保証するために、キャッシュコヒーレンシスキームが必要である。
スヌープベースのキャッシュコヒーレンシプロトコルでは、各プロセッサでのキャッシュ制御回路が、ローカルキャッシュメモリにキャッシュされるアドレスについて、メモリバスを監視する。キャッシュ制御回路が、別のプロセッサによるアドレスへの書き込み、および、そのアドレスがローカルにキャッシュされることを検出すると、キャッシュ制御回路は、ローカルコピーを無効としてマークすることができる。プロセッサが、キャッシュされ無効としてマークされたアドレスへのアクセスを求める場合、キャッシュ制御回路は、最新のデータをフェッチする。
スヌープ要求は、システム性能を低下させる場合がある。各キャッシュ制御回路は、他のすべてのキャッシュ制御回路に、キャッシュライン更新の表示をブロードキャストする。N個のプロセッサを有するシステムでは、スヌープトラフィックはN(N−1)に比例するであろう。多数のキャッシュラインがプロセッサ間で共有されないかもしれないため、スヌープトラフィックの多くは無駄になり得る。過剰なスヌープトラフィックは、共有メモリへのアクセスのために利用可能な帯域幅を減少させる。
キャッシュ制御回路は、不必要なスヌープトラフィックを減少させるためのスヌープフィルタを用いて実現され得る。一般に、スヌープフィルタは、どのアドレスがキャッシュされるかを追跡し、キャッシュされたアドレスを参照しない要求をフィルタリングする。さらに、スヌープフィルタはまた、どのプロセッサがキャッシュ可能アドレスのコピーを要求したかを、または当該プロセッサの数を追跡し、キャッシュされたアドレスへのスヌープをフィルタリングするだけではなく、それらの追跡されたアドレスがキャッシュされるようにするプロセッサへのスヌープもフィルタリングする。キャッシュフィルタは一般に、精密キャッシュフィルタおよび非精密キャッシュフィルタという2つのタイプがある。精密スヌープフィルタは、個々のキャッシュラインのアドレスによってスヌープ要求をフィルタリングする。非精密スヌープフィルタは、キャッシュラインのグループのアドレスによってスヌープ要求をフィルタリングする。
概要
開示される回路構成は、相互接続回路と、相互接続回路に結合されたメモリと、相互接続回路に結合された複数のプロセッサ回路とを含む。複数のキャッシュ回路が、複数のプロセッサ回路にそれぞれ結合される。第1のスヌープフィルタが相互接続回路に結合され、メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングするように構成される。第2のスヌープフィルタが相互接続回路に結合され、メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングするように構成される。各グループは複数のキャッシュラインを包含する。
方法は、メモリのキャッシュラインを、複数のプロセッサのキャッシュ回路にキャッシュするステップを含む。方法は、メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングする第1のスヌープフィルタと、メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングする第2のスヌープフィルタとを有する。各グループは複数のキャッシュラインを包含する。
他の特徴は、以下の詳細な説明および特許請求の範囲を考察することから認識されるであろう。
図面の簡単な説明
方法およびシステムのさまざまな局面および特徴は、以下の詳細な説明を考察し、図面を参照すれば、明らかになるであろう。
共有メモリと、共有メモリへのアクセスを有する複数のキャッシングエージェントとを有する例示的なシステムを示す図である。 精密スヌープフィルタ論理によって追跡される、精密に追跡されるキャッシュラインのディレクトリと、非精密スヌープフィルタ論理によって追跡される、非精密に追跡されるキャッシュラインのディレクトリとを示す図である。 精密スヌープフィルタリングと非精密スヌープフィルタリングとのハイブリッドであるスヌープフィルタリングプロセスのフローチャートを示す図である。 開示される方法および回路に従って構成され得る例示的なプログラマブルICを示す図である。
詳細な説明
以下の説明では、多くの特定の詳細が、ここに提示される特定の例を説明するために述べられる。しかしながら、1つ以上の他の例および/またはこれらの例の変形が、以下に与えられるすべての特定の詳細がなくても実践され得るということは、当業者には明らかであるはずである。他の例では、ここでの例の説明を不明瞭にしないように、周知の特徴は詳細には説明されていない。例示を容易にするために、異なる図において、同じ参照番号が、同じ要素、または同じ要素の追加の例を指すために使用されてもよい。
精密および非精密スヌープフィルタリングスキームは、スケールと精度との間のトレードオフを提示する。精密スヌープフィルタは、より低いスケーラビリティを提供するものの、正確なフィルタリングを提供する。精密スヌープフィルタは、個々のキャッシュラインのアドレスによってスヌープ要求をフィルタリングする。このため、精密スヌープフィルタによって発行されたスヌープ要求は典型的にはスプリアスではなく、追跡されるキャッシング要素のみをターゲットとする。精密スヌープフィルタは、うまくスケーリングしない。なぜなら、スヌープフィルタのサイズと、キャッシング要素の数と、すべてのキャッシング要素にわたって追跡されているキャッシュの累積サイズとの間で、トレードオフが必要とされるためである。
非精密スヌープフィルタは、より低い精度を提供するものの、スケーラビリティを提供する。非精密スヌープフィルタは、キャッシュラインのセットにわたってキャッシュ状態の集約的存在を追跡し、追跡は、キャッシュラインに基づくものよりも粗いきめで行なわれる。このため、非精密スヌープフィルタは、精密スヌープフィルタと比較して、より高いスケーラビリティを提供する。非精密スヌープフィルタに存在するとしてマークされた特定のキャッシュラインは、追跡されているキャッシング要素にわたって存在していてもいなくてもよいため、非精密スヌープフィルタによって発行されたスヌープ要求はスプリアスかもしれない。非精密スヌープフィルタはうまくスケーリングし、より多数の追跡されるキャッシング要素と、追跡されるキャッシング要素にわたる追跡されるキャッシュサイズのより大きい累積サイズとを提供する。
開示される回路および方法は、精密スヌープフィルタおよび非精密スヌープフィルタ双方の利点を提供するハイブリッドスヌープフィルタを提供する。ハイブリッドスヌープフィルタは、精密スヌープフィルタおよび非精密スヌープフィルタ双方を採用する。加えて、精度とスケールとの最適なバランスのために、複数の処理ユニットのキャッシュ状態のきめの細かい精密な追跡ときめの粗い非精密な追跡とを調節するために、回路が提供される。回路および方法はそれにより、精密スヌープフィルタリングのみを採用する、または非精密スヌープフィルタリングのみを採用するアプローチの欠点を回避する。
ハイブリッドスヌープフィルタは、プロセッサ間で共有されるメモリを有するとともに、プロセッサと共有メモリとの間、およびプロセッサ間の二地点間接続を提供する相互接続回路を有するマルチプロセッサシステムにおいて特に有用である。プロセッサの各々は、ローカルキャッシュを有する。精密スヌープフィルタは、個々のキャッシュラインのアドレスによってスヌープ要求をフィルタリングし、非精密スヌープフィルタは、キャッシュラインのグループを包含するアドレスによってスヌープ要求をフィルタリングする。精密スヌープフィルタリングおよび非精密スヌープフィルタリングの各々の欠点は、スヌープフィルタの容量およびアクセスパターンに基づいて、精密スヌープフィルタと非精密スヌープフィルタとの間でキャッシュラインの追跡を再割り当てすることによって減少させることができる。
図1は、共有メモリ102と、共有メモリへのアクセスを有する複数のキャッシングエージェント104、106、108、…110とを有する例示的なシステムを示す。各キャッシングエージェントは、共有メモリ内のデータにアクセス可能であるとともに、共有メモリからのデータのコピーをローカルキャッシュメモリにローカルに格納可能である処理回路を含む。例示的なシステムでは、キャッシングエージェント104、106、108、…、110は、プロセッサ回路114、116、118、120をそれぞれ含む。プロセッサ回路の例は、中央処理装置(central processing unit:CPU)、グラフィック処理装置(graphics processing unit:GPU)、デジタル信号プロセッサ(digital signal processor:DSP)、フィールドプログラマブルゲートアレイ(field programmable gate array:FPGA)において実現される回路、特定用途向け集積回路(application specific integrated circuit:ASIC)において実現される回路、および、前述のもののさまざまな組合せを含む。キャッシングエージェントおよび共有メモリ102は、部品間の二地点間接続を提供するスイッチまたは共有バスなどの相互接続回路によって結合される。
キャッシングエージェント104、106、108、…、110の各々は、キャッシュ回路を含む。キャッシュ回路は、キャッシュメモリとキャッシュ制御回路とを含む。キャッシュメモリは、キャッシュラインのデータのためのストレージを提供し、セットアソシアティブであってもよく、キャッシュラインのためのタグを含み得る。キャッシュ制御回路は、変換索引バッファ(translation look-aside buffer:TLB)を含んでいてもよく、ローカルキャッシュまたは共有メモリからのデータの検索、共有メモリへのデータの書き戻し、外部スヌープ要求のサービス、それらのスヌープ要求の結果としてのキャッシュされたデータおよびキャッシュ状態の管理、キャッシュ追い出しアルゴリズムを介したキャッシュメモリにおける利用可能なストレージの管理、および、キャッシュにおけるキャッシュラインの無効化などのために制御することができる。キャッシングエージェント104、106、108、および110は、キャッシュ制御回路138、140、142、および144をそれぞれ含む。
精密に追跡されるキャッシュおよび非精密に追跡されるキャッシュは、キャッシングエージェントの各々において別々のブロックとして示されているが、精密に追跡されるキャッシュラインは、キャッシュメモリにおいて、非精密に追跡されるキャッシュラインと交互配置され得る。精密スヌープフィルタ146は、精密に追跡されるキャッシュラインのアドレスを追跡し、非精密スヌープフィルタ148は、非精密に追跡されるキャッシュラインのアドレスを追跡する。精密に追跡されるキャッシュラインは、個々のキャッシュラインのアドレスによって追跡される。非精密スヌープフィルタリングでは、キャッシュラインのアドレスは、グループによって追跡される。精密に追跡されるキャッシュラインごとに、精密スヌープフィルタは、キャッシュラインのアドレスを格納する。非精密に追跡されるキャッシュラインについては、非精密スヌープフィルタは、複数のキャッシュラインのアドレスにマッピングするタグを格納する。精密スヌープフィルタ146が追跡する共有メモリのアドレスのサブセットは、キャッシングエージェント104、106、108、および110においてブロック122、126、130、および134としてそれぞれ示され、非精密スヌープフィルタ148が追跡する共有メモリのアドレスのサブセットは、キャッシングエージェント104、106、108、および110においてブロック124、128、132、および136としてそれぞれ示される。
精密スヌープフィルタ146および非精密スヌープフィルタ148は、制御回路150とともに、相互接続152に結合されたホームエージェント112によってホストされる。ホームエージェントは、キャッシングエージェント間のコヒーレントトランザクションをサービスする回路である。ホームエージェントは、所与のアドレス空間のためのコヒーレンシを維持するものであり、メインメモリのためのメモリコントローラ回路である必要はない。所与のトランザクションのフローによって必要とされるようなデータおよび所有権応答が、ホームエージェントによって提供される。
精密スヌープフィルタ(precise snoop filter:PSF)146は、個々のキャッシュラインのアドレスによってスヌープ要求をフィルタリングする。キャッシュラインAへのアクセスのために、PSFは、ローカルキャッシュにキャッシュラインAを有するキャッシングエージェントへのスヌープ要求の送信を制御する。非精密スヌープフィルタ(imprecise snoop filter:ISF)148は、キャッシュラインのグループによってスヌープ要求をフィルタリングする。キャッシュラインAへのアクセスのために、ISFは、キャッシュラインAと同じグループにマッピングするキャッシュラインを有し、キャッシュラインAを含むキャッシングエージェントへのスヌープ要求の送信を制御する。
制御回路150は、PSFによって追跡されるキャッシュラインとISFによって追跡されるキャッシュラインのグループとの間での割り振りおよび割り振り解除および/または移行を実施する。キャッシュラインの履歴アクセスパターンに依存して、キャッシングエージェントは潜在的に、精密に追跡されるキャッシュラインと非精密に追跡されるキャッシュラインとの組合せを有するか、すべて精密に追跡されるキャッシュラインを有するか、または、すべて非精密に追跡されるキャッシュラインを有し得る。異なるキャッシングエージェントは、キャッシュされたアドレスの精密に追跡される部分と非精密に追跡される部分との間で、異なる割り振りを有し得る。
制御回路150は、精密に追跡されるキャッシュラインを非精密に追跡されるグループに再割り当てすることができ、非精密に追跡されるグループを精密に追跡されるキャッシュラインに再割り当てすることができる。PSFからISFへのキャッシュラインの追跡の再割り当ては、新しいキャッシュラインアドレスのための空間を作るための、PSFからのキャッシュラインの追い出しに応答するものであってもよい。追い出されたキャッシュラインをカバーするために、新しいグループをISFに追加することができる。ISFからPSFへのキャッシュラインの再割り当ては、参照されるキャッシュラインが1つのキャッシングエージェントによって独占的に所有されていること、または、キャッシュラインアドレスへの参照の時間的局所性といった、ポリシー選択に応答するものであってもよい。
他のポリシー選択は、静的に割り振られるアドレスウィンドウへのアクセスと、動的に判定されるアドレスホットスポットへのアクセスとを含み得る。静的に割り振られるアドレスウィンドウは、性能が重要である同期データ構造が複数のプロセッサによって共有される、ある範囲のアドレスであり得る。ウィンドウ内のデータへのアクセスまたは所有権についての同時の要求は頻繁に生じ、アドレス範囲におけるキャッシュラインは、PSFによる管理にとって好適である。
動的に判定されるアドレスホットスポットは、キャッシュラインへのアクセスの長期監視を通して識別され得る。短期監視をカバーする、典型的なLRUベースの割り振りとは対照的に、アドレスホットスポット検出、およびその後のPSFにおける優先的割り振りは、頻繁にアクセスされるアドレス、または、特定のアドレスについての頻繁な競合の長期判定に基づく。
図2は、精密スヌープフィルタ論理202によって追跡される、精密に追跡されるキャッシュラインのディレクトリ204と、非精密スヌープフィルタ論理206によって追跡される、非精密に追跡されるキャッシュラインのディレクトリ208とを示す。ディレクトリ204は、キャッシュラインタグによってアドレス指定されるメモリ回路として実現可能であり、ディレクトリ208は、キャッシュグループタグによってアドレス指定されるメモリ回路として実現可能である。
ディレクトリ204における各エントリは、キャッシュラインタグ210と、ライン状態212と、存在ベクトル214とを含む。キャッシュラインタグは、PSF論理202によって追跡され、ライン状態および存在ベクトルによって記述されるキャッシュラインを識別する。ライン状態は、参照されるキャッシュラインが共有されるか、排他的に保持されるか、有効であるかなどを示すことができる。存在ベクトルは、各ビットが特定のキャッシングエージェントに対応するビットのグループであってもよく、ビットの状態は、参照されるキャッシュラインがキャッシングエージェントによってキャッシュされるかどうかを示す。
ディレクトリ208における各エントリは、キャッシュグループタグ216と、グループ状態218と、存在ベクトル220とを含む。キャッシュグループタグは、ISF論理206によって追跡され、グループ状態および存在ベクトルによって記述されるキャッシュラインのグループを識別する。グループ状態は、グループの任意のキャッシュラインが共有されるか、排他的に保持されるか、有効であるかなどを示すことができる。存在ベクトルは、各ビットが特定のキャッシングエージェントに対応するビットのグループであってもよく、ビットの状態は、グループの任意のキャッシュラインがキャッシングエージェントによってキャッシュされるかどうかを示す。
各グループ状態218は、アクセスカウントを含み得る。アクセスカウントは、キャッシングエージェントによる関連付けられたキャッシュグループタグへのアクセスに応答してインクリメントされ、関連付けられたキャッシュグループタグによって参照されるキャッシュラインについての追い出し通知に応答してデクリメントされる。アクセスカウントを維持することは、キャッシュグループタグに関連付けられたアクセスカウントが0までデクリメントされることに応答して、ISFからのキャッシュグループタグの自動追い出しをサポートする。アクセスカウントを維持することは、同じキャッシングエージェントによる同じキャッシュグループにおけるキャッシュラインへの複数のアクセスの追跡を可能にする。アクセスカウントがなければ、キャッシュグループにおける1つのキャッシュラインについての1つのキャッシングエージェントによる追い出し通知は作用されないであろう。なぜなら、存在ベクトルは、キャッシングエージェントのキャッシュに存在するキャッシュグループの他のキャッシュラインのために維持され続けなければならないためである。
図3は、精密スヌープフィルタリングと非精密スヌープフィルタリングとのハイブリッドであるスヌープフィルタリングプロセスのフローチャートを示す。制御回路150は、動作のうちのさまざまな動作を行ない、PSF146およびISF148において行なわれる他の動作を調整する。
ブロック302で、PSF−ISF割り振り回路は、たとえば特定のキャッシュラインAを参照するコヒーレンス要求を受信する。キャッシュコヒーレント要求は、書き込み要求と読み出し要求とを含む。キャッシュコヒーレント要求が書き込みまたはは読み出し(もしくは、書き込みまたは読み出しとして分類できない他のタイプ)であるかどうかを通信することに加えて、要求はまた、典型的には、他のキャッシュにおけるキャッシュラインの以前の状態および要求タイプに基づいて、追加情報を通信する。たとえば、キャッシュコヒーレント要求は、キャッシュラインを書き込むキャッシングエージェントが排他的なコピーを保管したこと(したがって、他のキャッシュに通信することなく将来の書き込みを行ないたいこと)または共有のコピーを保管したことを通信することができる。別の例は、キャッシュラインを読み出すキャッシングエージェントが排他的なコピーを受信したいこと(したがって、他のキャッシュに通信することなく将来の書き込みを行ないたいこと)または共有のコピーを受信したいことを通信するキャッシュコヒーレント要求である。
決定ブロック304で、制御回路150は、参照されるキャッシュラインAがPSF146またはISF148のいずれかに存在するかどうかをチェックする。PSFにおける存在は、コヒーレンス要求において特定されたキャッシュラインのアドレスを、PSFにおけるキャッシュラインタグと比較することによって判定され得る。同様に、ISFにおける存在は、特定されたキャッシュラインアドレスのグループタグを判定し、次に、判定されたグループタグがISFに存在するかどうかを判定することによって判定され得る。キャッシュラインアドレスをキャッシュグループタグにマッピングするために、ハッシュ関数が使用され得る。
決定ブロック306は、キャッシュアドレスラインがPSF146またはISF148において追跡されるかどうかに基づいてプロセスを方向付ける。キャッシュアドレスラインAがPSFにおいて追跡されていることに応答して、ブロック308で、制御回路150は、PSFにおけるキャッシュラインAの状態をコヒーレンス要求と一致するように更新し、必要であれば、PSFにおけるキャッシュラインに関連付けられた存在ベクトルにおいて示されたキャッシングエージェントのキャッシュコントローラにコヒーレンス要求を送信する。キャッシュコヒーレンス要求は、存在ベクトルのみが更新される共有グループ状態および共有読み出し要求のために送信される必要はない。
キャッシュラインAがISF148において追跡されるキャッシュラインのグループに属することに応答して、ブロック310で、割り振り回路は、ISFにおけるグループタグに関連付けられた存在ベクトルにおいて示されたキャッシングエージェントのキャッシュコントローラにコヒーレンス要求を送信する。しかしながら、キャッシュラインAのグループに存在するキャッシュラインを有するすべてのプロセッサにキャッシュコヒーレンス要求を送信することが必要ではない、要求タイプとISFにおけるキャッシュグループ状態との組合せがある。たとえば、キャッシュコヒーレンス要求は、存在ベクトルのみが更新される共有グループ状態および共有読み出し要求のために送信される必要はない。
決定ブロック312で、制御回路150は、キャッシュラインAをPSF146に追加するために、キャッシュラインAが属するグループをISF148から除去するべきか、または、グループをISFから単純に除去するべきかを判定する。判定は、用途に特有のポリシー選択に基づき得る。たとえば、いくつかの用途は、より高い精度およびより低いスケーラビリティを必要とするかもしれず、それは、ISFからPSFへの動きに対する抵抗がより小さいポリシーをもたらすであろう。いくつかの用途は、より高いスケーラビリティおよびより低い精度を必要とするかもしれず、それは、ISFからPSFへの動きに対する抵抗がより大きいポリシーをもたらすであろう。ISFからPSFへのキャッシュラインの再割り当てをトリガするために使用され得る単純な例示的指標は、キャッシングエージェントによってキャッシュラインの独占的所有権を特定するコヒーレンス要求である。キャッシュラインの共有コピーを特定するコヒーレンス要求は、ISFからPSFへのキャッシュラインの再割り当てをトリガしないであろう。同様に、制御回路が、キャッシュラインは単一の所有者においてのみ存在し得ること、および、それがまた、ISFにおける1という所有者カウントと一致することを、キャッシュコヒーレンス要求から判定する場合、グループはPSFに再割り当てされ得る。別の例は、制御回路が、要求を処理した後のキャッシュラインの所有者カウントは1になるであろうということを、キャッシュコヒーレンス要求のタイプから判定することである。所有者カウントは、存在ベクトルにおいて設定されたビット数によって示され得る。
グループにおけるキャッシュラインへのアクセスの数を追跡し、所定期間内にアクセスの数がしきい値数に達すると(時間的局所性)、キャッシュラインのグループをISF148からPSF146に再割り当てすることによって、ポリシーを多かれ少なかれ限定的にすることができる。キャッシュラインをPSFに再割り当てするべきでないという判定に応答して、ブロック314で、制御回路は、キャッシュラインAが属するキャッシュラインのグループのグループ状態を更新する。状態は、キャッシュコヒーレンス要求のタイプに基づく。
ブロック310での、アクセスカウントがゼロまでデクリメントされることに応答して、キャッシュラインをPSF146に再割り当てするべきである、または、単純に追い出すべきであるという判定に応答して、ブロック316で、割り振り回路は、キャッシュラインAが属するキャッシュラインのグループをISF148から追い出す。キャッシュラインのグループを追い出す際、割り振り回路は、ISFからグループタグを除去する。決定ブロック318およびブロック330によって示されるように、アクセスカウントがゼロである場合、さらなるアクションは必要とされない。アクセスカウントがゼロに等しくない場合、決定ブロック318は、プロセスをブロック320に方向付けて、グループにおけるキャッシュラインのすべてをPSFに追加し始める。ISFから追い出されたキャッシュラインのグループの状態は、グループにおけるすべてのキャッシュラインに適用可能であるため、個々のキャッシュラインの状態を判定することができず、それにより、グループにおけるすべてのキャッシュラインがPSFに追加される。ISFから除去されたグループの状態は、PSFに追加されたキャッシュラインの各々に適用される。キャッシュラインをグループタグにマッピングするために、ハッシュ関数を使用することができ、再割り当てのためのキャッシュラインアドレス全体を生成するために、ハッシュ関数の逆数を使用することができる。
ISF148からPSF146への移行の効率は、キャッシュグループにおけるすべてのキャッシュラインのための状態クエリスヌープを、存在ベクトルによって示された所有者に送信することによって高められ得る。このため、キャッシングエージェントのうちのいずれかに依然として存在するキャッシュラインのみが、PSFにおいて追跡される。さらに、キャッシングエージェントにわたる更新された累積キャッシュ状態も、PSFにおいて次に追跡され得る。状態クエリスヌープの全体的な効果は、PSFにおける場所および状態の精密性を取り戻すことである。
ブロック320、322、324、326、および328の処理は、ISF148から追い出されたグループからPSF146に追加されたキャッシュラインごとに行なわれ得る。同様に、ブロック320、322、324、326、および328の処理は、決定ブロック304で判定されるように、ISFおよびPSFのいずれも、参照されるキャッシュラインを追跡していない場合に行なわれてもよい。
決定ブロック320で、制御回路150は、PSF146が、追い出されたキャッシュラインのために、または、決定ブロック304で判定された見当たらないキャッシュラインのために利用可能である空間を有するかどうかを判定する。ディレクトリ204は、最大数のキャッシュラインタグおよび状態のための格納空間を有する。空間が利用可能である場合、ブロック322で、制御回路は、PSFディレクトリにおけるスロットをキャッシュラインに割り当て、それに応じてタグ、キャッシュライン状態、および存在ベクトルを更新する。
空間がPSF146においてキャッシュラインのために利用可能ではない場合、ブロック324で、制御回路は、PSFディレクトリにおいてキャッシュラインのための空間を作り、キャッシュラインをPSFからISF148に再割り当てするための追い出し処理の実行を開始する。ブロック326で、制御回路は、最も長い間アクセスされていないキャッシュラインといった、PSFからの追い出しのためのキャッシュラインを選択し、追い出しのために選択されたキャッシュラインと同じグループに属する、PSFにおけるすべてのキャッシュラインを判定する。同じグループに属するキャッシュラインも追い出される。
PSF146からキャッシュラインを追い出す際、ブロック322および328の処理の前に、キャッシュラインのタグ、状態、および存在情報が、ISF148に追加するために情報を保存するために読み出される。ブロック328で、制御回路は、追い出しのために選択されたキャッシュラインを含むキャッシュラインのグループのために、ISFにおけるスロットを割り振る。また、ブロック328で、制御回路は、追い出しのために選択されたキャッシュラインの集約されたキャッシュ状態(グループにおけるキャッシュライン状態の論理OR)と存在ベクトルとを、ISFにおける割り振られたスロットに格納する。キャッシュライングループの生成および追い出しに関連付けられた処理性能は、キャッシュラインをキャッシュグループタグにマッピングするためにハッシュ関数を使用することによって高められる。PSFからISFへのキャッシュラインの追い出しはそれにより、グループにおけるキャッシュライン間の空間的および/または時間的関係を減少させることができる。ブロック322で、制御回路は、上述のようにキャッシュラインをPSFに追加する。
図4は、開示される方法および回路に従って構成され得る例示的なプログラマブルIC402を示す。プログラマブルICは、システムオンチップ(System On Chip:SOC)とも呼ばれてもよく、それは、プロセッササブシステム410とプログラマブル論理サブシステム430とを含む。プロセッササブシステム410は、ユーザプログラムの実行を介してユーザ設計のソフトウェア部分を実現するようにプログラムされてもよい。プログラムは、構成データストリームの一部として特定されてもよく、または、オンチップもしくはオフチップデータ記憶デバイスから検索されてもよい。プロセッササブシステム410は、1つ以上のソフトウェアプログラムを実行するためのさまざまな回路412、414、416、および418を含んでいてもよい。回路412、414、416、および418は、たとえば、1つ以上のプロセッサコア、浮動小数点ユニット(floating point unit:FPU)、割り込み処理ユニット、オンチップメモリ、メモリキャッシュ、および/またはキャッシュコヒーレント相互接続を含んでいてもよい。
プログラマブルIC402のプログラマブル論理サブシステム430は、ユーザ設計のハードウェア部分を実現するようにプログラムされてもよい。たとえば、プログラマブル論理サブシステムは、複数のプログラマブルリソース432を含んでいてもよく、それらは、構成データストリームにおいて特定される回路のセットを実現するようにプログラムされてもよい。プログラマブルリソース432は、たとえば、プログラマブル相互接続回路、プログラマブル論理回路、および構成メモリセルを含む。プログラマブル論理は、たとえば関数発生器、レジスタ、算術論理などを含み得るプログラマブル要素を使用して、ユーザ設計の論理を実現する。プログラマブル相互接続回路は、プログラマブル相互接続点(programmable interconnect point:PIP)によって相互接続されるさまざまな長さの多数の相互接続線を含んでいてもよい。
プログラマブルリソース432は、構成データストリームを構成メモリセルにロードすることによってプログラムされてもよく、構成メモリセルは、プログラマブル相互接続回路およびプログラマブル論理回路がどのように構成されるかを定義する。たとえば、構成可能ラッチのための構成メモリセルを第1の値に設定することは、構成可能ラッチに、単一エッジ駆動型ラッチとして動作するよう指示してもよい。構成メモリセルを第2の値に設定することは、構成可能ラッチに、二重エッジ駆動型ラッチとして動作するよう指示してもよい。個々のメモリセルの集団状態は次に、プログラマブルリソース432の機能を決定する。構成データは、外部デバイスによって、メモリから(たとえば外部PROMから)読み出され、または、プログラマブルIC402に書き込まれ得る。いくつかの実現化例では、プログラマブル論理サブシステム430に含まれる構成コントローラ434は、プログラマブルICに結合された不揮発性メモリから構成データを検索し、構成データを構成メモリセルにロードすることによって、プログラマブルICの電源を入れることに応答してプログラマブルリソースをプログラムしてもよい。いくつかの他の実現化例では、構成データは、プロセッササブシステム410によって実行される起動プロセスによって構成メモリセルにロードされてもよい。
プログラマブルIC402は、プロセッササブシステム410をプログラマブル論理サブシステム430内に実現された回路と相互接続するためのさまざまな回路を含んでいてもよい。この例では、プログラマブルIC402は、プロセッササブシステム410およびプログラマブル論理サブシステム430のさまざまデータポート間でデータ信号をルーティングすることができるコアスイッチ426を含む。コアスイッチ426はまた、プログラマブル論理または処理サブシステム410および430のいずれかと、内部データバスなどのプログラマブルICのさまざまな他の回路との間で、データ信号をルーティングしてもよい。これに代えて、またはこれに加えて、プロセッササブシステム410は、コアスイッチ426をバイパスして、プログラマブル論理サブシステムと直接接続するためのインターフェイスを含んでいてもよい。そのようなインターフェイスは、たとえば、ARMによって公開されているようなAMBA AXIプロトコル仕様(AXI)を使用して実現されてもよい。
いくつかの実現化例では、プロセッササブシステム410およびプログラマブル論理サブシステム430はまた、メモリコントローラ421を介して、オンチップメモリ422またはオフチップメモリ(図示せず)のメモリ場所に読み出しまたは書き込みを行なってもよい。メモリコントローラ421は、ダブルデータレート(Double Data Rate:DDR)2、DDR3、低電力(Low Power:LP)DDR2タイプのメモリを、16ビット、32ビット、ECC付き16ビットなどであろうとなかろうと含むものの、それらに限定されない、1つ以上の異なるタイプのメモリ回路と通信するように実現され得る。メモリコントローラ421が通信できる異なるメモリタイプのリストは、例示のみのために提供されており、限定として、または網羅的であるよう意図されてはいない。図4に示すように、プログラマブルIC402は、メモリ管理ユニット420と、特定のメモリ場所にアクセスするためにサブシステム410および430によって使用される仮想メモリアドレスを、メモリコントローラ421によって使用される物理メモリアドレスに変換する変換索引バッファ424とを含んでいてもよい。
プログラマブルICは、外部回路とのデータの通信のための入力/出力(I/O)サブシステム450を含んでいてもよい。I/Oサブシステム450は、たとえばフラッシュメモリタイプのI/Oデバイス、より高性能のI/Oデバイス、より低性能のインターフェイス、デバッギングI/Oデバイス、および/またはRAM I/Oデバイスを含む、さまざまなタイプのI/Oデバイスまたはインターフェイスを含んでいてもよい。
I/Oサブシステム450は、460Aおよび460Bとして示される1つ以上のフラッシュメモリインターフェイス460を含んでいてもよい。たとえば、フラッシュメモリインターフェイス460のうちの1つ以上は、4ビット通信のために構成されたクワッドシリアルペリフェラルインターフェイス(Quad-Serial Peripheral Interface:QSPI)として実現され得る。フラッシュメモリインターフェイス460のうちの1つ以上は、パラレル8ビットNOR/SRAMタイプのインターフェイスとして実現され得る。フラッシュメモリインターフェイス460のうちの1つ以上は、8ビットおよび/または16ビット通信のために構成されたNANDインターフェイスとして実現され得る。記載された特定のインターフェイスは、限定のためではなく例示のために提供されているということが理解されるべきである。異なるビット幅を有する他のインターフェイスを使用することができる。
I/Oサブシステム450は、フラッシュメモリインターフェイス460よりも高いレベルの性能を提供する1つ以上のインターフェイス462を含み得る。インターフェイス462A〜462Cの各々は、DMAコントローラ464A〜464Cにそれぞれ結合され得る。たとえば、インターフェイス462のうちの1つ以上は、ユニバーサルシリアルバス(Universal Serial Bus:USB)タイプのインターフェイスとして実現され得る。インターフェイス462のうちの1つ以上は、ギガビットイーサネット(登録商標)タイプのインターフェイスとして実現され得る。インターフェイス462のうちの1つ以上は、セキュアデジタル(Secure Digital:SD)タイプのインターフェイスとして実現され得る。
I/Oサブシステム450はまた、インターフェイス462よりも低いレベルの性能を提供するインターフェイス466A〜466Dなどの1つ以上のインターフェイス466を含んでいてもよい。たとえば、インターフェイス466のうちの1つ以上は、汎用I/O(General Purpose I/O:GPIO)タイプのインターフェイスとして実現され得る。インターフェイス466のうちの1つ以上は、ユニバーサル非同期受信/送信機(Universal Asynchronous Receiver/Transmitter:UART)タイプのインターフェイスとして実現され得る。インターフェイス466のうちの1つ以上は、シリアルペリフェラルインターフェイス(SPI)バスタイプのインターフェイスの形で実現され得る。インターフェイス466のうちの1つ以上は、コントローラエリアネットワーク(Controller-Area-Network:CAN)タイプのインターフェイス、および/または、相互集積回路(inter-integrated circuit:IC)タイプのインターフェイスの形で実現され得る。インターフェイス466のうちの1つ以上はまた、タイマータイプのインターフェイスの形で実現され得る。
I/Oサブシステム450は、プロセッサJTAG(PJTAG)インターフェイス468Aおよびトレースインターフェイス468Bなどの1つ以上のデバッグインターフェイス468を含み得る。PJTAGインターフェイス468Aは、プログラマブルIC402のための外部デバッグインターフェイスを提供することができる。トレースインターフェイス468Bは、デバッグを受信するためのポートを提供し、たとえば、プロセッササブシステム410またはプログラマブル論理サブシステム430からの情報をトレースすることができる。
図示されるように、インターフェイス460、462、466、および468の各々は、マルチプレクサ470に結合され得る。マルチプレクサ470は、プログラマブルIC402の外部ピン、たとえば、プログラマブルIC402が内部に配置されるパッケージのボールに直接ルーティングまたは結合され得る複数の出力を提供する。たとえば、プログラマブルIC402のI/Oピンは、インターフェイス460、462、466、および468間で共有され得る。ユーザは、インターフェイス460〜468のうちのどれが使用されるべきか、ひいては、マルチプレクサ470を介してプログラマブルIC402のI/Oピンに結合されるべきかを選択するように、構成データストリームを介してマルチプレクサ470を構成することができる。I/Oサブシステム450はまた、インターフェイス460〜468をプログラマブル論理サブシステムのプログラマブル論理回路に接続するためのファブリックマルチプレクサI/O(fabric multiplexer I/O :FMIO)インターフェイス(図示せず)を含んでいてもよい。これに加えて、またはこれに代えて、プログラマブル論理サブシステム430は、プログラマブル論理内に1つ以上のI/O回路を実現するように構成され得る。いくつかの実現化例では、プログラマブルIC402はまた、電力および/または安全管理のためのさまざまな回路を有するサブシステム440を含んでいてもよい。たとえば、サブシステム440は、プログラマブルIC402のさまざまなサブシステムに電力を供給するために使用される1つ以上の電圧ドメインを監視し、維持するように構成された電力管理ユニット446を含んでいてもよい。いくつかの実現化例では、電力管理ユニット446は、消費電力を減少させるために、使用中のサブシステムへの電力を無効にすることなく、アイドル時の個々のサブシステムの電力を無効にしてもよい。
サブシステム440はまた、正常動作を保証するようにサブシステムのステータスを監視するための安全回路を含んでいてもよい。たとえば、サブシステム440は、(たとえばステータスレジスタ444において示されるような)さまざまなサブシステムのステータスを監視するように構成された1つ以上のリアルタイムプロセッサ442を含んでいてもよい。リアルタイムプロセッサ442は、エラーの検出に応答して複数のタスクを行なうように構成されてもよい。たとえば、いくつかのエラーについて、リアルタイムプロセッサ442は、エラーの検出に応答して警告を生成してもよい。別の例として、リアルタイムプロセッサ442は、サブシステムをリセットして、サブシステムを正常動作に戻そうとしてもよい。サブシステム440は、さまざまなサブシステムを相互接続するために使用され得るスイッチネットワーク448を含む。たとえば、スイッチネットワーク448は、さまざまなサブシステム410、430、および440を、I/Oサブシステム450のさまざまなインターフェイスに接続するように構成されてもよい。いくつかの用途では、スイッチネットワーク448はまた、監視されるべきサブシステムからリアルタイムプロセッサ442を隔離するために使用されてもよい。そのような隔離は、リアルタイムプロセッサ442が他のサブシステムで生じるエラーの影響を受けないことを保証するために、ある用途規格(たとえば、IEC−61508 SIL3またはISO−26262規格)によって必要とされる場合がある。
一例では、回路構成が提供される。そのような回路構成は、相互接続回路と、相互接続回路に結合されたメモリと、相互接続回路に結合された複数のプロセッサ回路と、複数のプロセッサ回路にそれぞれ結合された複数のキャッシュ回路と、相互接続に結合され、メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングするように構成された、第1のスヌープフィルタと、相互接続に結合され、メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングするように構成された、第2のスヌープフィルタとを含んでいてもよく、各グループは複数のキャッシュラインを包含する。
何らかのそのような回路構成はさらに、第1のスヌープフィルタおよび第2のスヌープフィルタに結合された制御回路を含んでいてもよく、制御回路は、第2のスヌープフィルタによってフィルタリングされるキャッシュラインのグループを、第1のスヌープフィルタによってフィルタリングされるキャッシュラインに再割り当てするように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のスヌープフィルタへの再割り当てのためのキャッシュラインのグループを、キャッシュラインのグループへの参照の時間的局所性に基づいて選択するように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のスヌープフィルタへの再割り当てのためのキャッシュラインのグループを、キャッシュラインのグループにおけるキャッシュラインの独占的所有権に基づいて選択するように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のスヌープフィルタへの再割り当てのためのキャッシュラインのグループを、キャッシュラインのグループにおける頻繁にアクセスされるキャッシュラインの判定に基づいて選択するように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、再割り当てのために選択されたグループに属するキャッシュラインを判定し、グループに属するキャッシュラインを第1のスヌープフィルタに再割り当てするように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のスヌープフィルタからの第1のキャッシュラインを、第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てするように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のグループに属する、第1のスヌープフィルタによってフィルタリングされるキャッシュラインを判定し、第1のグループに属するキャッシュラインのキャッシュライン状態を、グループ状態に集約し、グループ状態を、第1のグループのタグと関連付けて格納し、第1のスヌープフィルタから、第1のグループにおけるキャッシュラインを除去するように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のスヌープフィルタのディレクトリがいっぱいであることに応答して、第1のスヌープフィルタからの第1のキャッシュラインを、第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てするように構成されてもよい。
何らかのそのような回路構成では、制御回路はさらに、第1のスヌープフィルタから第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てされるべき第1のキャッシュラインを、第1のキャッシュラインが最も長い間使用されていないことに基づいて選択するように構成されてもよい。
何らかのそのような回路構成では、第1のスヌープフィルタは、個々のキャッシュラインの複数のキャッシュラインタグの格納のために構成された第1のメモリを含み、第2のスヌープフィルタは、キャッシュラインのグループにそれぞれ関連付けられた複数のグループタグの格納のために構成された第2のメモリを含み、各グループタグは、複数のキャッシュラインにマッピングする。
何らかのそのような回路構成では、制御回路はさらに、第2のスヌープフィルタによってフィルタリングされるキャッシュラインの第1のグループの所有者カウントを判定し、第1のグループの所有者カウントが1に等しく、かつ、第1のグループのアクセスカウントがゼロよりも大きいことに応答して、第2のスヌープフィルタからのキャッシュラインの第1のグループのキャッシュラインを、第1のスヌープフィルタに再割り当てするように構成されてもよい。
別の例では、方法が提供されてもよい。そのような方法は、メモリのキャッシュラインを、複数のプロセッサのキャッシュ回路にキャッシュするステップと、第1のスヌープフィルタが、メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングするステップと、第2のスヌープフィルタが、メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングするステップとを含んでいてもよく、各グループは複数のキャッシュラインを包含する。
何らかのそのような方法はさらに、制御回路が、第2のスヌープフィルタによってフィルタリングされるキャッシュラインのグループを、第1のスヌープフィルタによってフィルタリングされるキャッシュラインに再割り当てするステップを含んでいてもよい。
何らかのそのような方法はさらに、制御回路が、第1のスヌープフィルタへの再割り当てのためのキャッシュラインのグループを、キャッシュラインのグループへの参照の時間的局所性に基づいて選択するステップを含んでいてもよい。
何らかのそのような方法はさらに、制御回路が、第1のスヌープフィルタへの再割り当てのためのキャッシュラインのグループを、キャッシュラインのグループにおけるキャッシュラインの独占的所有権に基づいて選択するステップを含んでいてもよい。
何らかのそのような方法はさらに、制御回路が、第1のスヌープフィルタへの再割り当てのためのキャッシュラインのグループを、キャッシュラインのグループにおける頻繁にアクセスされるキャッシュラインの判定に基づいて選択するステップを含んでいてもよい。
何らかのそのような方法はさらに、再割り当てのために選択されたグループに属するキャッシュラインを判定するステップと、グループに属するキャッシュラインを第1のスヌープフィルタに再割り当てするステップとを含んでいてもよい。
何らかのそのような方法はさらに、第1のスヌープフィルタからの第1のキャッシュラインを、第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てするステップを含んでいてもよい。
何らかのそのような方法はさらに、第1のグループに属する、第1のスヌープフィルタによってフィルタリングされるキャッシュラインを判定するステップと、第1のグループに属するキャッシュラインのキャッシュライン状態を、グループ状態に集約するステップと、グループ状態を、第1のグループのタグと関連付けて格納するステップと、第1のスヌープフィルタから、第1のグループにおけるキャッシュラインを除去するステップとを含んでいてもよい。
局面および特徴は、場合により、個々の図面で説明され得るが、たとえ、組合せが明示的に示されていなくても、または、組合せとして明示的に説明されていなくても、1つの図面からの特徴を別の図面の特徴と組合わせることができるということが理解されるであろう。
開示される方法およびシステムは、キャッシュコヒーレンススヌープ要求をフィルタリングするためのさまざまなシステムに適用可能であると考えられる。他の局面および特徴は、明細書を考察すれば、当業者には明らかであろう。方法およびシステムは、ソフトウェアを実行するように構成された1つ以上のプロセッサとして、特定用途向け集積回路(ASIC)として、または、プログラマブル論理デバイス上の論理として実現されてもよい。明細書および図面は単なる例として考えられるよう意図されており、この発明の真の範囲は、以下の特許請求の範囲によって示される。

Claims (15)

  1. 回路構成であって、
    相互接続回路と、
    前記相互接続回路に結合されたメモリと、
    前記相互接続回路に結合された複数のプロセッサ回路と、
    前記複数のプロセッサ回路にそれぞれ結合された複数のキャッシュ回路と、
    前記相互接続に結合され、前記メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングするように構成された、第1のスヌープフィルタと、
    前記相互接続に結合され、前記メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングするように構成された、第2のスヌープフィルタとを含み、各グループは複数のキャッシュラインを包含する、回路構成。
  2. 前記第1のスヌープフィルタおよび前記第2のスヌープフィルタに結合された制御回路をさらに含み、前記制御回路は、前記第2のスヌープフィルタによってフィルタリングされるキャッシュラインのグループを、前記第1のスヌープフィルタによってフィルタリングされるキャッシュラインに再割り当てするように構成される、請求項1に記載の回路構成。
  3. 前記制御回路はさらに、前記第1のスヌープフィルタへの再割り当てのためのキャッシュラインの前記グループを、キャッシュラインの前記グループへの参照の時間的局所性に基づいて選択するように構成される、請求項2に記載の回路構成。
  4. 前記制御回路はさらに、前記第1のスヌープフィルタへの再割り当てのためのキャッシュラインの前記グループを、キャッシュラインの前記グループにおけるキャッシュラインの独占的所有権に基づいて選択するように構成される、請求項2に記載の回路構成。
  5. 前記制御回路はさらに、前記第1のスヌープフィルタへの再割り当てのためのキャッシュラインの前記グループを、キャッシュラインの前記グループにおける頻繁にアクセスされるキャッシュラインの判定に基づいて選択するように構成される、請求項2に記載の回路構成。
  6. 前記制御回路はさらに、
    再割り当てのために選択された前記グループに属するキャッシュラインを判定し、
    前記グループに属する前記キャッシュラインを前記第1のスヌープフィルタに再割り当てするように構成される、請求項2に記載の回路構成。
  7. 前記制御回路はさらに、前記第1のスヌープフィルタからの第1のキャッシュラインを、前記第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てするように構成される、請求項2〜6に記載の回路構成。
  8. 前記制御回路はさらに、
    前記第1のスヌープフィルタからの第1のキャッシュラインを、前記第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てし、
    前記第1のグループに属する、前記第1のスヌープフィルタによってフィルタリングされるキャッシュラインを判定し、
    前記第1のグループに属する前記キャッシュラインのキャッシュライン状態を、グループ状態に集約し、
    前記グループ状態を、前記第1のグループのタグと関連付けて格納し、
    前記第1のスヌープフィルタから、前記第1のグループにおける前記キャッシュラインを除去するように構成される、請求項2〜6のいずれか1項に記載の回路構成。
  9. 前記制御回路はさらに、
    前記第1のスヌープフィルタからの第1のキャッシュラインを、前記第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てし、
    前記第1のスヌープフィルタのディレクトリがいっぱいであることに応答して、前記第1のスヌープフィルタからの前記第1のキャッシュラインを、前記第2のスヌープフィルタによってフィルタリングされる前記第1のグループに再割り当てするように構成される、請求項2〜6のいずれか1項に記載の回路構成。
  10. 前記制御回路はさらに、
    前記第1のスヌープフィルタからの第1のキャッシュラインを、前記第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てし、
    前記第1のスヌープフィルタから前記第2のスヌープフィルタによってフィルタリングされる前記第1のグループに再割り当てされるべき前記第1のキャッシュラインを、前記第1のキャッシュラインが最も長い間使用されていないことに基づいて選択するように構成される、請求項2〜6のいずれか1項に記載の回路構成。
  11. 前記第1のスヌープフィルタは、個々のキャッシュラインの複数のキャッシュラインタグの格納のために構成された第1のメモリを含み、
    前記第2のスヌープフィルタは、キャッシュラインのグループにそれぞれ関連付けられた複数のグループタグの格納のために構成された第2のメモリを含み、各グループタグは、複数のキャッシュラインにマッピングする、請求項1〜6のいずれか1項に記載の回路構成。
  12. 前記制御回路はさらに、
    前記第2のスヌープフィルタによってフィルタリングされるキャッシュラインの第1のグループの所有者カウントを判定し、
    前記第1のグループの前記所有者カウントが1に等しく、かつ、前記第1のグループのアクセスカウントがゼロよりも大きいことに応答して、前記第2のスヌープフィルタからのキャッシュラインの前記第1のグループのキャッシュラインを、前記第1のスヌープフィルタに再割り当てするように構成される、請求項2に記載の回路構成。
  13. メモリのキャッシュラインを、複数のプロセッサのキャッシュ回路にキャッシュするステップと、
    第1のスヌープフィルタが、前記メモリのアドレスの第1のサブセットの個々のキャッシュラインによってスヌープ要求をフィルタリングするステップと、
    第2のスヌープフィルタが、前記メモリのアドレスの第2のサブセットのキャッシュラインのグループによってスヌープ要求をフィルタリングするステップとを含み、各グループは複数のキャッシュラインを包含する、方法。
  14. 制御回路が、前記第2のスヌープフィルタによってフィルタリングされるキャッシュラインのグループを、前記第1のスヌープフィルタによってフィルタリングされるキャッシュラインに再割り当てするステップをさらに含む、請求項13に記載の方法。
  15. 前記第1のスヌープフィルタからの第1のキャッシュラインを、前記第2のスヌープフィルタによってフィルタリングされる第1のグループに再割り当てするステップをさらに含む、請求項13〜14のいずれか1項に記載の方法。
JP2021505657A 2018-08-02 2019-08-01 ハイブリッドの精密および非精密キャッシュスヌープフィルタリング Active JP7383007B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/053,488 US10761985B2 (en) 2018-08-02 2018-08-02 Hybrid precise and imprecise cache snoop filtering
US16/053,488 2018-08-02
PCT/US2019/044742 WO2020028714A1 (en) 2018-08-02 2019-08-01 Hybrid precise and imprecise cache snoop filtering

Publications (3)

Publication Number Publication Date
JP2021533464A true JP2021533464A (ja) 2021-12-02
JPWO2020028714A5 JPWO2020028714A5 (ja) 2022-08-02
JP7383007B2 JP7383007B2 (ja) 2023-11-17

Family

ID=67659995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021505657A Active JP7383007B2 (ja) 2018-08-02 2019-08-01 ハイブリッドの精密および非精密キャッシュスヌープフィルタリング

Country Status (6)

Country Link
US (1) US10761985B2 (ja)
EP (1) EP3830699B1 (ja)
JP (1) JP7383007B2 (ja)
KR (1) KR20210035226A (ja)
CN (1) CN112513825B (ja)
WO (1) WO2020028714A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11099991B2 (en) 2019-01-24 2021-08-24 Vmware, Inc. Programming interfaces for accurate dirty data tracking
US11068400B2 (en) * 2019-01-24 2021-07-20 Vmware, Inc. Failure-atomic logging for persistent memory systems with cache-coherent FPGAs
US10817455B1 (en) * 2019-04-10 2020-10-27 Xilinx, Inc. Peripheral I/O device with assignable I/O and coherent domains
US10817462B1 (en) 2019-04-26 2020-10-27 Xilinx, Inc. Machine learning model updates to ML accelerators
US11586369B2 (en) 2019-05-29 2023-02-21 Xilinx, Inc. Hybrid hardware-software coherent framework
US11074208B1 (en) 2019-07-24 2021-07-27 Xilinx, Inc. Routing network using global address map with adaptive main memory expansion for a plurality of home agents
US11474871B1 (en) 2019-09-25 2022-10-18 Xilinx, Inc. Cache coherent acceleration function virtualization
US11556344B2 (en) 2020-09-28 2023-01-17 Xilinx, Inc. Hardware coherent computational expansion memory
US11567870B2 (en) * 2021-03-29 2023-01-31 Arm Limited Snoop filter with imprecise encoding

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6959364B2 (en) * 2002-06-28 2005-10-25 Intel Corporation Partially inclusive snoop filter
US7636815B1 (en) 2003-04-09 2009-12-22 Klaiber Alexander C System and method for handling direct memory accesses
US7380071B2 (en) * 2005-03-29 2008-05-27 International Business Machines Corporation Snoop filtering system in a multiprocessor system
US7392351B2 (en) * 2005-03-29 2008-06-24 International Business Machines Corporation Method and apparatus for filtering snoop requests using stream registers
JP2008310414A (ja) 2007-06-12 2008-12-25 Hitachi Ltd コンピュータシステム
US8015365B2 (en) * 2008-05-30 2011-09-06 Intel Corporation Reducing back invalidation transactions from a snoop filter
US8856456B2 (en) 2011-06-09 2014-10-07 Apple Inc. Systems, methods, and devices for cache block coherence
US8812786B2 (en) * 2011-10-18 2014-08-19 Advanced Micro Devices, Inc. Dual-granularity state tracking for directory-based cache coherence
US20140095806A1 (en) * 2012-09-29 2014-04-03 Carlos A. Flores Fajardo Configurable snoop filter architecture
JP6272011B2 (ja) 2013-12-24 2018-01-31 Necプラットフォームズ株式会社 キャッシュ装置、キャッシュ装置を備えるコンピュータ、および、キャッシュ制御方法
GB2522057B (en) * 2014-01-13 2021-02-24 Advanced Risc Mach Ltd A data processing system and method for handling multiple transactions
US9817760B2 (en) * 2016-03-07 2017-11-14 Qualcomm Incorporated Self-healing coarse-grained snoop filter
US9990292B2 (en) * 2016-06-29 2018-06-05 Arm Limited Progressive fine to coarse grain snoop filter
US20190073304A1 (en) * 2017-09-07 2019-03-07 Alibaba Group Holding Limited Counting cache snoop filter based on a bloom filter

Also Published As

Publication number Publication date
JP7383007B2 (ja) 2023-11-17
WO2020028714A1 (en) 2020-02-06
KR20210035226A (ko) 2021-03-31
US10761985B2 (en) 2020-09-01
EP3830699A1 (en) 2021-06-09
CN112513825B (zh) 2024-01-16
US20200042446A1 (en) 2020-02-06
CN112513825A (zh) 2021-03-16
EP3830699B1 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
JP7383007B2 (ja) ハイブリッドの精密および非精密キャッシュスヌープフィルタリング
US7380071B2 (en) Snoop filtering system in a multiprocessor system
US8677073B2 (en) Snoop filter for filtering snoop requests
US7386683B2 (en) Method and apparatus for filtering snoop requests in a point-to-point interconnect architecture
US7392351B2 (en) Method and apparatus for filtering snoop requests using stream registers
US6408362B1 (en) Data processing system, cache, and method that select a castout victim in response to the latencies of memory copies of cached data
US7603524B2 (en) Method and apparatus for filtering snoop requests using multiple snoop caches
US9355035B2 (en) Dynamic write priority based on virtual write queue high water mark for set associative cache using cache cleaner when modified sets exceed threshold
US7287122B2 (en) Data replication in multiprocessor NUCA systems to reduce horizontal cache thrashing
US7809889B2 (en) High performance multilevel cache hierarchy
US7380068B2 (en) System and method for contention-based cache performance optimization
CN106663061A (zh) 用于可编程逻辑的存储器的虚拟化
US7617366B2 (en) Method and apparatus for filtering snoop requests using mulitiple snoop caches
US9448937B1 (en) Cache coherency
US6442653B1 (en) Data processing system, cache, and method that utilize a coherency state to indicate the latency of cached data
WO2023113942A1 (en) Cache probe transaction filtering
US20040030950A1 (en) Apparatus for imprecisely tracking cache line inclusivity of a higher level cache
KR20070017551A (ko) Dma, 태스크 종료 및 동기화 동작들을 위한 캐시코히어런시 유지

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220725

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231107

R150 Certificate of patent or registration of utility model

Ref document number: 7383007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150