JP2022503558A

JP2022503558A - 命令キャッシュにおけるプリフェッチの強制終了及び再開

Info

Publication number: JP2022503558A
Application number: JP2021507837A
Authority: JP
Inventors: プラサドヘレマガルールラマプラサッドビピン; マシュートンプソンデヴィッド; アショクチャチャドアブヒジート; オングハング
Original assignee: テキサスインスツルメンツインコーポレイテッド
Priority date: 2018-08-14
Filing date: 2019-08-14
Publication date: 2022-01-12
Anticipated expiration: 2039-08-14
Also published as: EP3837610A4; JP2023179708A; EP3837610A1; WO2020037074A1; EP3837610B1; US20230251975A1; US10489305B1; US20200089622A1; CN112840330A; US11314660B2; US11620236B2; US20220245069A1; JP7376019B2

Abstract

システムが、ＣＰＵコア（１０２）、第１及び第２のメモリキャッシュ（１３０、１５５）、及びメモリコントローラサブシステム（１０１）を含む。メモリコントローラサブシステム（１０１）は、第１のメモリキャッシュ（１３０）における仮想アドレスのヒット又はミス状況を推論的に判定し、仮想アドレスを物理アドレスに推論的に変換する。メモリコントローラサブシステム（１０１）は、ヒット又はミス状況と物理アドレスとに関連して、ステータスを有効状態に構成する。仮想アドレスに関連するプログラム命令が不要であるとのＣＰＵコア（１０２）からの第１のインジケーションの受領に応答して、メモリコントローラサブシステム（１０１）はステータスを無効状態に再構成し、仮想アドレスに関連するプログラム命令が必要とされるとのＣＰＵコア（１０２）からの第２のインジケーションの受領に応答して、メモリコントローラサブシステム（１０１）はステータスを有効状態に再構成する。

Description

メモリシステムには、マルチレベルキャッシュシステムを含むものがある。特定のメモリのアドレスに対する要求メモリコントローラによってプロセッサコアから受信すると、メモリコントローラは、そのメモリアドレスに関連するデータが第１レベルのキャッシュ（Ｌ１）に存在するかどうかを判断する。データがＬ１キャッシュに存在する場合、データはＬ１キャッシュから返される。メモリアドレスに関連するデータがＬ１キャッシュに存在しない場合、メモリコントローラは、第２のレベルキャッシュ（Ｌ２）にアクセスする。Ｌ２は、Ｌ１キャッシュよりも大きいため、より多くのデータを保持し得る。データがＬ２キャッシュに存在する場合、データはＬ２キャッシュからプロセッサコアに返され、同じデータが再び要求された場合においてコピーもＬ１キャッシュに保存される。付加的なメモリレベルの階層も可能である。

一例において、システムがプロセッサを含み、プロセッサは、ＣＰＵコアと、第１及び第２のメモリキャッシュと、メモリコントローラサブシステムとを含む。メモリコントローラサブシステムは、第１のメモリキャッシュにおける仮想アドレスのヒット又はミス状況を推論的に判定し、仮想アドレスを物理アドレスに推論的に変換する。ヒット又はミス状況と物理アドレスとに関連して、メモリコントローラサブシステムは、ステータスを有効状態に構成する。仮想アドレスに関連するプログラム命令が必要とされないとのＣＰＵコアからの第１のインジケーションの受領に応答して、メモリコントローラサブシステムは、ステータスを無効状態に再構成し、第１の仮想アドレスに関連するプログラム命令が必要とされるとのＣＰＵコアからの第２のインジケーションの受領に応答して、メモリコントローラサブシステムは、ＴＡＧＲＡＭ又はアドレス変換論理への付加的なアクセスなしに、ステータスを有効状態に再構成する。

一例に従ったプロセッサを図示する。

一例に従った、Ｌ１メモリキャッシュアクセスのフルＬ２キャッシュラインアクセスへの昇格を図示する。

一例に従った性能改善を図示するフローチャートである。

一例に従った別の性能改善を図示するための別のフローチャートである。

図１のプロセッサを含むシステムを示す。

図１は、階層キャッシュサブシステムを含むプロセッサ１００の一例を示す。この例におけるプロセッサ１００は、中央処理装置（ＣＰＵ）コア１０２、メモリコントローラサブシステム１０１、Ｌ１データキャッシュ（Ｌ１Ｄ）１１５、Ｌ１プログラムキャッシュ（Ｌ１Ｐ）１３０、及びＬ２メモリキャッシュ１５５を含む。この例において、メモリコントローラサブシステム１０１は、データメモリコントローラ（ＤＭＣ）１１０、プログラムメモリコントローラ（ＰＭＣ）１２０、及び、統合メモリコントローラ（ＵＭＣ）１５０を含む。この例では、Ｌ１キャッシュレベルにおいて、データ及びプログラム命令が別個のキャッシュに分割される。ＣＰＵコア１０２によって実行される命令は、Ｌ１Ｐ１３０に格納され、その後、実行のためにＣＰＵコア１０２に提供される。一方、データはＬ１Ｄ１１５に格納される。ＣＰＵコア１０２は、Ｌ１Ｄ１１５からのデータの読み出し及びＬ１Ｄ１１５へのデータの書き込みをし得、Ｌ１Ｐ１３０への読み出しアクセスがある（Ｌ１Ｐ１３０への書き込みアクセスはなし）。Ｌ２メモリキャッシュ１５５は、データ及びプログラム命令の両方を格納することができる。

Ｌ１Ｄ１１５、Ｌ１Ｐ１３０、及びＬ２メモリキャッシュ１５５のサイズは実装によって異なり得るが、一例において、Ｌ２メモリキャッシュ１５５のサイズは、Ｌ１Ｄ１１５又はＬ１Ｐ１３０のいずれかのサイズより大きい。例えば、Ｌ１Ｄ１１５のサイズが３２キロバイトであり、Ｌ１Ｐのサイズも３２キロバイトである一方、Ｌ２メモリキャッシュのサイズは６４キロバイト～４ＭＢとし得る。また、Ｌ１Ｄ１１５のキャッシュラインサイズは、Ｌ２メモリキャッシュ１５５のキャッシュラインサイズ（例えば１２８）と同じであり、Ｌ１Ｐ１３０のキャッシュラインサイズは一層小さい（例えば６４バイト）。

ＣＰＵコア１０２によりデータが必要とされると、ＤＭＣ１１０は、ＣＰＵコア１０２からターゲットデータに対するアクセス要求を受け取る。アクセス要求は、ＣＰＵコア１０２からのアドレス（例えば、仮想アドレス）を含み得る。ＤＭＣ１１０は、ターゲットデータがＬ１Ｄ１１５に存在するかどうかを判定する。データがＬ１Ｄ１１５に存在する場合、データはＣＰＵコア１０２に返される。しかしながら、ＣＰＵコア１０２によって要求されたデータがＬ１Ｄ１１５内に存在しない場合、ＤＭＣ１１０は、ＵＭＣ１５０にアクセス要求を提供する。このアクセス要求は、ＣＰＵコア１０２によって提供される仮想アドレス（ＶＡ）に基づいてＤＭＣ１１０によって生成される物理アドレスを含み得る。ＵＭＣ１５０は、ＤＭＣ１１０によって提供された物理アドレスがＬ２メモリキャッシュ１５５内に存在するかどうかを判定する。データがＬ２メモリキャッシュ１５５に存在する場合、データはＬ２メモリキャッシュ１５５からＣＰＵコア１０２に返され、コピーがＬ１Ｄ１１５に格納される。キャッシュサブシステムの付加的な階層が存在する可能性もある。例えば、Ｌ３メモリキャッシュ又はシステムメモリがアクセスされるように利用可能であり得る。そのため、ＣＰＵコア１０２によって要求されたデータがＬ１Ｄ１１５又はＬ２メモリキャッシュ１５５のいずれにも存在しない場合、データは、付加的なキャッシュレベルにおいてアクセスされ得る。

プログラム命令に関して、実行する付加的な命令をＣＰＵコア１０２が必要とするとき、ＣＰＵコア１０２は、ＶＡ１０３をＰＭＣ１２０に提供する。ＰＭＣは、ワークフローを開始して、実行のためにプログラム命令のプリフェッチパケット１０５をＣＰＵ１０２に戻すことにより、ＣＰＵコア１０２によって提供されたＶＡ１０３に応答する。プリフェッチサイズのパケットは実装によって異なるが、一例において、プリフェッチパケットのサイズは、Ｌ１Ｐ１３０のキャッシュラインのサイズと等しい。Ｌ１Ｐキャッシュラインサイズが例えば６４バイトである場合、ＣＰＵコア１０２に戻されるプリフェッチパケットが、６４バイトのプログラム命令も含み得る。

ＣＰＵコア１０２はまた、プリフェッチカウント１０４をＰＭＣ１２０に提供する。幾つかの実装において、ＣＰＵコア１０２がＶＡ１０３を供給した後、プリフェッチカウント１０４がＰＭＣ１２０に供給される。プリフェッチカウント１０４は、ＶＡ１０３で始まるプリフェッチユニットに続くプログラム命令のプリフェッチユニットの数を示す。例えば、ＣＰＵコア１０２は、２００ｈのＶＡを提供し得る。このＶＡは、仮想アドレス２００ｈで始まる６４バイトのプリフェッチユニットに関連付けられている。ＣＰＵコア１０２が、仮想アドレス２００ｈに関連するプリフェッチユニットに続いて、メモリコントローラサブシステム１０１が実行のための付加的な命令を送信することを望む場合、ＣＰＵコア１０２は、０より大きい値を有するプリフェッチカウントを提示する。０のプリフェッチカウントは、ＣＰＵコア１０２がこれ以上プリフェッチユニットを必要としないことを意味する。例えば、６のプリフェッチカウントは、ＣＰＵコア１０２が、付加的な６プリフェッチユニット分の命令が、取得され、実行のためにＣＰＵコア１０２に送り返されることを要求する。返されるプリフェッチユニットは、プリフェッチパケット１０５として図１に示されている。

引き続き図１の例を参照すると、ＰＭＣ１２０は、ＴＡＧＲＡＭ１２１、アドレス変換器１２２、及びレジスタ１２３を含む。ＴＡＧＲＡＭ１２１は、その内容（プログラム命令）がＬ１Ｐ１３０にキャッシュされた仮想アドレスのリストを含む。アドレス変換器１２２は、仮想アドレスを物理アドレス（ＰＡ）に変換する。一例において、アドレス変換器１２２は、仮想アドレスから直に物理アドレスを生成する。例えば、ＶＡの下位１２ビットは、ＰＡの最下位１２ビットとして用いられ得、ＰＡの最上位ビット（下位１２ビットより上）は、プログラムの実行の前にメインメモリにおいて構成される一セットの表に基づいて生成される。この例では、Ｌ２メモリキャッシュ１５５は、仮想アドレスではなく、物理アドレスを用いてアドレス指定可能である。レジスタ１２３は、ＴＡＧＲＡＭ１２１ルックアップからのヒット／ミスインジケータ１２４と、アドレス変換器１２２によって生成された物理アドレス１２５と、対応するヒット／ミスインジケータ１２４及び物理アドレス１２５が有効であるか無効であるかを示す有効ビット１２６（本明細書ではステータスビットとも呼ばれる）とを格納する。

ＣＰＵ１０２からＶＡ１０３を受け取ると、ＰＭＣ１２０は、ＴＡＧＲＡＭ１２１ルックアップを実施して、Ｌ１Ｐ１３０がその仮想アドレスに関連するプログラム命令を含むかどうかを判定する。ＴＡＧＲＡＭルックアップの結果は、ヒット又はミスインジケータ１２４である。ヒットは、ＶＡがＬ１Ｐ１３０に存在することを意味し、ミスは、ＶＡがＬ１Ｐ１３０に存在しないことを意味する。Ｌ１Ｐ１３０ヒットの場合、ターゲットプリフェッチユニットは、ＰＭＣ１２０によってＬ１Ｐ１３０からリトリーブされ、プリフェッチパケット１０５としてＣＰＵコア１０２へ返される。

Ｌ１Ｐ１３０ミスの場合、（ＶＡに基づいて生成される）ＰＡは、１４２で示されるように、ＰＭＣ１２０によってＵＭＣ１５０に提供される。バイトカウント１４０も、ＰＭＣ１２０からＵＭＣ１５０に提供される。バイトカウントは、ＰＡ１４２で始まる（存在する場合）リトリーブされるべきＬ２メモリキャッシュ１５５のバイト数を示す。一例において、バイトカウント１４０は、Ｌ２メモリキャッシュ１５５から所望されるバイトの数を符号化するマルチビット信号である。一例において、Ｌ２メモリキャッシュのラインサイズは１２８バイトであり、各ラインは上半分（６４バイト）と下半分（６４バイト）に分割される。そのため、バイトカウント１４０は、数６４（所与のＬ２メモリキャッシュラインから上半分又は下半分の６４バイトのみが必要とされる場合）又は１２８（Ｌ２メモリキャッシュライン全体が必要とされる場合）を符号化し得る。別の例において、バイトカウントは、一つの状態（例えば、１）がＬ２メモリキャッシュライン全体を暗黙的に符号化し、別の状態（例えば、０）がＬ２メモリキャッシュラインの半分を暗黙的に符号化する、単一のビット信号とし得る。

ＵＭＣ１５０はＴＡＧＲＡＭ１５２も含む。ＵＭＣ１５０によってＰＭＣ１２０から受け取られたＰＡ１４２は、ターゲットＰＡがＬ２メモリキャッシュ１５５におけるヒットであるかミスであるかを判定するためにＴＡＧＲＡＭ１５２へのルックアップを実施するために用いられる。Ｌ２メモリキャッシュ１５５内にヒットがある場合、バイトカウント１４０に応じてキャッシュラインの２分の１又はキャッシュライン全体であり得るターゲット情報が、ＣＰＵコア１０２に返され、コピーがＬ１Ｐ１３０に格納され、そこから、次回、ＣＰＵコア１０２が、同じプログラム命令をフェッチしよう試みる同じプログラム命令がＣＰＵ１０２に提供される。

図１の例において、ＣＰＵコア１０２は、ＶＡ１０３及びプリフェッチカウント１０４をＰＭＣ１２０に提供する。ＰＭＣ１２０は、上記のように、Ｌ１Ｐ１３０又はＬ２メモリキャッシュ１５５からプリフェッチパケットをリトリーブするためのワークフローを開始する。プリフェッチカウント１０４と元のＶＡ１０３を用いて、ＰＭＣ１２０は、付加的な仮想アドレスを計算し、それらの計算されたＶＡに対応するプリフェッチパケットをＬ１Ｐ１３０又はＬ２メモリキャッシュ１５５からリトリーブし始める。例えば、プリフェッチカウントが２であり、ＣＰＵコア１０２からのＶＡ１０３が２００ｈである場合、ＣＰＵコア１０２がそうしたそれぞれのＶＡをＰＭＣ１２０に提供するのではなく、ＰＭＣ１２０は次の二つのＶＡを２４０ｈ及び２８０ｈとして計算する。

図２は、最適化によりプロセッサ１００の改善された性能がもたらされる具体的な例を図示する。前述したように、Ｌ２メモリキャッシュ１５５のライン幅はＬ１Ｐのライン幅よりも大きい。一例において、図２に示すように、Ｌ１Ｐの幅は６４バイトであり、Ｌ２メモリキャッシュ１５５のライン幅は１２８バイトである。Ｌ２メモリキャッシュ１５５は、上半分２２０及び下半分２２５として構成される。ＵＭＣ１５０は、Ｌ２メモリキャッシュ１５５から１２８バイトキャッシュライン全体を、又は、Ｌ２メモリキャッシュの半分（上半分２２０又は下半分２２５）のみを読み出し得る。

所与のＶＡが、Ｌ２メモリキャッシュ１５５に存在する場合に、特定のＰＡに変換し得、この特定のＰＡは、Ｌ２メモリキャッシュの所与のラインの下半分２２５にマップするか又は上半分２２０にマップする。ＶＡ及びＰＡを表すために用いられるアドレス指定方式に基づいて、ＰＭＣ１２０は、所与のＶＡが下半分２２５にマップするか又は上半分２２０にマップするかを判定し得る。例えば、ＶＡ内の特定のビット（例えば、ビット６）を用いて、対応するＰＡがＬ２メモリキャッシュのラインの上半分にマップするか又は下半分にマップするかを判定し得る。例えば、０であるビット６は下半分を示し得、１であるビット６は上半分を示し得る。

参照符号２０２は、ＣＰＵコア１０２によってＰＭＣ１２０に提供される２００ｈのＶＡと、対応するプリフェッチカウント６の例を示す。参照符号２１０は、上述したキャッシュパイプラインを介して実行されるＶＡのリストが、２００ｈ（ＣＰＵコア１０２から受け取られる）と、次の６つの連続する仮想アドレス２４０ｈ、２８０ｈ、２ｃ０ｈ、３００ｈ、３４０ｈ、及び３８０ｈ（ＰＭＣ１２０によって計算される）を含むことを例示している。

２００ｈから３８０ｈまでの各アドレスは上述のように処理される。ＶＡのうちの任意のもの又は全てが、Ｌ１Ｐ１３０におけるミスであり得る。ＰＭＣ１２０は、Ｌ１Ｐ１３０においてミスした二つの連続するＶＡを単一のＬ２キャッシュラインアクセス試行にまとめることができる。従って、２００ｈと２４０ｈが両方ともＬ１Ｐ１３０においてミスしており、２００ｈに対応する物理アドレスが、Ｌ２メモリキャッシュ１５５の特定のキャッシュラインの下半分２２５に対応しており、２４０ｈに対応する物理アドレスがＬ２メモリキャッシュの同じキャッシュラインの上半分２２５に対応している場合、ＰＭＣ１２０はＬ２メモリキャッシュからのキャッシュライン全体を特定するバイトカウント１４０と共に、単一のＰＡ１４２をＵＭＣ１５０に発行し得る。従って、Ｌ１Ｐ１３０における二つの連続したＶＡミスが、一つのフルラインＬ２メモリキャッシュルックアップに昇格され得る。

ＣＰＵコア１０２によって開始された一連のＶＡの最後のＶＡ（例えば、ＶＡシリーズ２１０のＶＡ３８０ｈ）が、Ｌ２メモリキャッシュ１５５のキャッシュラインの下半分の２２５にマップする場合、記載される例に従って、たとえ下半分の２２５しか必要とされなかった場合でも、Ｌ２メモリキャッシュ１５５のキャッシュライン全体がリトリーブされる。同じ反応は、プリフェッチカウントが０の状態でＣＰＵがＶＡ１０３をＰＭＣ１２０に提供した場合にも生じ、これは、ＣＰＵ１０２が単一のプリフェッチユニットのみを必要としたことを意味する。キャッシュライン全体をリトリーブし、キャッシュライン全体をＬ１Ｐ１３０に提供するために費やされる付加的なオーバーヘッド、時間、又は電力消費は、あるとしても非常に少ない。プログラム命令はしばしば線形順で実行されるので、上半分２２０におけるプログラム命令が、いずれにせよ下半分２２５における命令の実行に続いて実行される可能性は概して高くなる。そのため、次の命令セットは非常に少ないコストで受け取られ、そのような命令はいずれにしても必要とされる可能性が高い。

図２は、ＶＡ３８０ｈがＬ２メモリキャッシュ１５５におけるキャッシュライン２６０の下半分２２５にマップすることを、矢印２１３を介して図示する。ＰＭＣ１２０はこのマッピングを、例えば、ＶＡ、又は、アドレス変換器１２２による変換に続くその対応する物理アドレスのビットの一つ又は複数の検査を介して判定する。ＰＭＣ１２０は、キャッシュライン全体を特定するバイトカウント１０４と共にＶＡ３８０ｈに関連するＰＡを提示することにより、ＵＭＣ１５０によってルックアッププロセスをフルキャッシュラインまで昇格させる。その後、（Ｌ２メモリキャッシュ１５５に存在する場合）全１２８バイトキャッシュラインがリトリーブされ、２６５で示すように、二つの別個の６４バイトキャッシュラインにおいてＬ１Ｐ１３０に書き込まれる。

しかしながら、一連のＶＡにおける最後のＶＡ（又は、０のプリフェッチカウントに対して一つのＶＡしかない場合）が、Ｌ２メモリキャッシュ１５５のキャッシュラインの上半分２２０にマップする場合は、ＰＭＣ１２０は、ＵＭＣ１５０に、そのＴＡＧＲＡＭ１５２内をルックアップし、キャッシュラインの上半分のみをＣＰＵコア１０２及びＬ１Ｐ１３０に戻すように要求する。次のＰＡは、Ｌ２メモリキャッシュ１５５の次のキャッシュラインの下半分２２５にあり得、次のキャッシュラインを推測的にリトリーブするために付加的な時間、オーバーヘッド、及び電力が消費され得、ＣＰＵコア１０２がこれらの命令を実行する必要があることは確実ではない。

図３は、上述の方法のためのフローチャート３００の例を示す。オペレーションは、示された順で又は別の順で成され得る。また、オペレーションは連続的に成され得、又は二つ以上のオペレーションを同時に行うこともできる。

３０２において、この方法は、メモリコントローラサブシステム１０１によって、プログラム命令のＮ個のプリフェッチユニットに対するアクセス要求を受け取ることを含む。一実装において、このオペレーションはＣＰＵコア１０２によって行われ、ＰＭＣ１２０にアドレス及びカウント値が提供される。アドレスは、仮想アドレス又は物理アドレスであり得、カウント値は、ＣＰＵコア１０２によって必要とされる付加的なプリフェッチユニットの数を示し得る。

３０４において、インデックス値Ｉが値１に初期化される。このインデックス値は、一連の連続した仮想アドレスにおける最後の仮想アドレスがいつＰＭＣ１２０によって処理されるべきかを判定するために用いられる。３０６において、この方法は、プリフェッチユニットＩがＬ１Ｐ１３０へのヒットであるかミスであるかを判定する。この判定は、幾つかの例において、仮想アドレスがＰＭＣのＴＡＧＲＡＭ１２１内に存在するかどうかを判定することによって成される。判定３０６からは、ヒット又はミスという二つの結果が可能である。

仮想アドレスがＬ１Ｐ１３０へのヒットである場合、３０８において、所望のプリフェッチユニットを含むＬ１Ｐ１３０の対応するラインが、Ｌ１Ｐ１３０から返され、プリフェッチパケット１０５としてＣＰＵコア１０２に提供される。次に、３１０において、インデックスが増分される（Ｉ=Ｉ＋１）。ＩがまだＮ＋１に達していない場合（判定オペレーション３１２で判定される）、プリフェッチユニットのうちの最後のプリフェッチユニットのＶＡは、ヒット／ミス判定についてまだ評価されておらず、Ｌ１Ｐ１３０におけるヒット又はミスについて次のＩ番目のプリフェッチユニットを評価するために３０６に戻るよう制御ループする。ＩがＮ＋１に達すると、全てのＮ個のプリフェッチユニットが評価されており、対応するプログラム命令がＣＰＵコア１０２に提供されており、プロセスは停止する。

所与のＩ番目のプリフェッチユニットについて、３０６でＰＭＣ１２０がＬ１Ｐ１３０内にミスがあると判定した場合、３１４において、ＩがＮの値に達したかどうかについて判定が行われる。ＩがＮに等しくない（一連のＶＡにおける最後のＶＡが達していないことを示す）場合、３１６において、この方法は、メモリコントローラサブシステム１０１が、Ｌ２メモリキャッシュ１５５から（そこに存在する場合、又は、存在しない場合は、第３のレベルキャッシュ又はシステムメモリから）プログラム命令を得ることを含む。次に、インデックス値Ｉは、３１８で増分され、判定３０６に戻るよう制御ループされる。

３１４でＩがＮに達した（一連のＶＡの最後のＶＡが到達したことを示す）場合、この方法は、３２０において、Ｉ番目のプリフェッチユニットのＶＡがＬ２メモリキャッシュ１５５のキャッシュラインの下半分にマップするか又は上半分にマップするかの判定を含む。この判定がどのようにして成され得るかの例については、上述したとおりである。Ｉ番目のプリフェッチユニットのＶＡが上半分にマップする場合、この方法は、３２２において、Ｌ２メモリキャッシュのキャッシュラインの上半分のみからプログラム命令を得ることを含む。

しかしながら、Ｉ番目のプリフェッチユニットのＶＡが下半分にマップする場合、この方法は、３２４において、Ｌ２メモリキャッシュアクセスをフルキャッシュラインアクセスに昇格させ、３２６において、Ｌ２メモリキャッシュのフルキャッシュラインからプログラム命令を得ることを含む。

図１を再び参照すると、上述したように、ＣＰＵコア１０２からＶＡ１０３のＰＭＣ１２０への提示に続いて、ＣＰＵコア１０２は、ＰＭＣ１２０にプリフェッチカウント１０４を提供することもできる。プリフェッチカウントは０であり得、これは、ＣＰＵコア１０２がＶＡ１０３で始まるプリフェッチユニットに含まれるもの以外の命令をもはや必要としないことを意味する。しかしながら、ＶＡ１０３の受領と後続のプリフェッチカウントとの間に、ＰＭＣ１２０は以下に説明するように何らかの作業を行っている。

ＶＡ１０３を受け取ると、ＰＭＣ１２０は、ＴＡＧＲＡＭ１２１内のルックアップを実施して、（ＣＰＵコア１０２によって提供された）第１のＶＡがＬ１Ｐにおけるヒット又はミスであるかを判定し、さらに、アドレス変換器１２２を用いてＶＡからＰＡへの変換を実施する。ＰＭＣ１２０はまた、プリフェッチカウント１０４を受け取る前に、第２のＶＡ（ＣＰＵコアによって提供されるＶＡに続く次の連続ＶＡ）を計算する。ＰＭＣ１２０は、ＴＡＧＲＡＭ１２１に推論的にアクセスし、アドレス変換器１２２を用いて第２のＶＡのヒット／ミス・ステータスを判定し、レジスタ１２３にヒット／ミスインジケーション１２４及びＰＡ１２５を読み込む（populate）。レジスタ１２３における有効ビット１２６は有効状態に設定され、それにより、上述したような第２のＶＡのさらなる処理が可能となる（例えば、存在する場合はＬ１Ｐ１３０から、又は必要に応じてＬ２メモリキャッシュ１５５から、対応するキャッシュラインをリトリーブする）。

しかしながら、第２のＶＡのさらなる処理が発生する前に、ＣＰＵコア１０２がプリフェッチカウント０をＰＭＣ１２０に送ることが可能であり、これは、ＣＰＵコアが元のＶＡ１０３で始まるプリフェッチユニット以外にプリフェッチユニットを必要としないことを意味する。この時点で、ＰＭＣ１２０には、０のプリフェッチカウントが提供され、従って、第２のＶＡに関連するプリフェッチユニットは必要とされない。しかしながら、ＰＭＣはまた、第２のＶＡのヒット／ミス・ステータスを既に判定しており、対応するＰＡを生成している。ヒット／ミスインジケータ１２４とＰＡ１２５の両方は、０プリフェッチカウントがＰＭＣ１２０によって受け取られる時間までにレジスタ１２３に格納されている。ＰＭＣ１２０は有効ビット１２６のステータスを無効状態を示すように変更し、それにより第２のＶＡのさらなる処理を排除する。この状況（無効状態に設定された有効ビット）は「強制終了（kill）」と呼ばれ、そのため、ＰＭＣ１２０は第２のＶＡの処理を強制終了する。

しかしながら、場合によっては、ＣＰＵコア１０２は、前の強制終了にもかかわらず、第２のＶＡに関連するプリフェッチユニットが実際には、上述したようにＬ１Ｐ１３０又はＬ２メモリキャッシュ１５５からリトリーブされるべきであることを判定し得る。例えば、ＣＰＵコア１０２が次に要求された命令アドレスを知らせるためのさらなる内部予想情報を有していない場合、ＣＰＵコア１０２は、最後に要求されたアドレスから線形に開始するプリフェッチを継続すべきであることをＰＭＣ１２０に知らせる。この状況は、例えば、ＣＰＵコア１０２における分岐予測論理の予測ミスにより起こり得る。こうしてＣＰＵコア１０２は、再開信号１０６をＰＭＣ１２０に発行する。ＰＭＣ１２０は有効ビット１２６を有効状態に戻すことによって再開信号に応答し、それによって、上述したように、メモリサブシステムパイプラインを介する第２のＶＡの継続的な処理を可能にする。このように、ＣＰＵ１０２は、第２のＶＡをＰＭＣ１２０に直に提示する必要はない。その代わりに、ＰＭＣ１２０は、例えば、レジスタ１２３に第２のＶＡを保持し、そのヒット／ミスインジケータ１２４も保持し、それによって、第２のＶＡのヒット／ミス・ステータスを再び判定し、第２のＶＡをＰＡに変換するために費やされる電力消費及び時間を回避する。

図４は、メモリアドレスルックアップを開始し、強制終了し、再開するためのフローチャート４００の一例を示す。オペレーションは、示された順で又は別の順で実施され得る。また、オペレーションは連続的に行うことができ、又は二つ以上のオペレーションを同時に行うことができる。

４０２において、この方法は、メモリコントローラサブシステム１０１によって、第１のＶＡにおけるアクセス要求を受け取ることを含む。一実装において、このオペレーションは、第１のＶＡをＰＭＣ１２０に提供するＣＰＵコア１０２によって実施される。この方法は、４０４において、第１のＶＡがＬ１Ｐ３０におけるヒットであるかミスであるかを判定することを含む。一例において、このオペレーションは、第１のＶＡのヒット／ミス状況を判定するためにＰＭＣのＴＡＧＲＡＭ１２１にアクセスすることによって成される。第１のＶＡは、４０６において、例えば、アドレス変換器１２２を用いることによって第１のＰＡに変換される。

４０８において、この方法は、第１のＶＡに基づいて第２のＶＡを計算することを含む。第２のＶＡは、第１のＶＡに関連するバイトに続く６４バイトであるバイトのアドレスを生成するために、或る値で第１のＶＡを増分することによって計算され得る。この方法は、４１０において、第２のＶＡがＬ１Ｐ３０におけるヒット又はミスであるかを判定することを含む。一例において、このオペレーションは、第２のＶＡのヒット／ミス状況を判定するためにＰＭＣのＴＡＧＲＡＭ１２１にアクセスすることによって成される。第２のＶＡは、４１２において、上述のようにアドレス変換器１２２を用いることによって第２のＰＡに変換される。４１４において、この方法は、ヒット／ミスインジケータ１２４及び第２のＰＡでレジスタ（例えば、レジスタ１２３）を更新することを含む。また、有効ビット１２６は有効状態となるように構成される。

その後、ＰＭＣ１２０は、４１６でプリフェッチカウントを受け取る。次に、４１８においてプリフェッチカウントがゼロより大きい場合、４２０において、Ｌ１Ｐ１３０又はＬ２メモリキャッシュ１５５（又は付加的なレベル）からのプログラム命令が上述のようにリトリーブされる。しかしながら、プリフェッチカウントがゼロである場合、４２２において、有効ビット１２６は無効状態に変更される。そのため、ＰＭＣ１２０に０のプリフェッチカウントを提供したにもかかわらず、ＣＰＵコア１０２は、ＰＭＣ１２０に再開インジケーションを提供し得る（４２４）。４２６において、ＰＭＣ１２０は有効ビット１２６を有効状態に戻し、次いでメモリコントローラサブシステム１０１は、第２のＰＡに関連するプログラム命令を、適宜、Ｌ１Ｐ、Ｌ２メモリキャッシュ等から得る（４２８）。

図５は、本明細書で説明されるプロセッサ１００の例示的な使用を示す。この例では、プロセッサ１００は、プロセッサ１００と一つ又はそれ以上の周辺機器ポート又はデバイスとを含む、システムオンチップ（ＳｏＣ）５００の一部である。この例では、周辺機器は、汎用非同期トランスミッタ（ＵＡＲＴ）５０２、ＵＳＢ（ユニバーサルシリアルバス）ポート５０４、及びイーサネットコントローラ５０６を含む。ＳｏＣ５００は、例えば、プロセッサ１００によって実行されるプログラム命令によって実装される様々な機能のうちの任意の機能を実施し得る。複数のプロセッサ１００が設けられてもよく、所与のプロセッサ１００内に、複数のＣＰＵコア１０２が含まれ得る。

本記載では「結合する」という用語は、間接的又は直接的な有線又は無線接続のいずれかを意味する。そのため、第１のデバイスが第２のデバイスに結合する場合、その接続は、直接的接続を介するもの、又は、他のデバイス及び接続を介した間接的接続を介するものであり得る。また、本記載では、「～に基づく」は、「少なくとも部分的に～に基づく」ことを意味する。従って、ＸがＹに基づく場合、Ｘは、Ｙ及び任意の数の他の要因の関数とし得る。

本発明の特許請求の範囲内で、説明した例示の実施例に改変が成され得、他の実施例が可能である。

Claims

装置であって、
中央処理装置（ＣＰＵ）コア、
前記ＣＰＵコアによる実行のための命令を格納する第１のメモリキャッシュ、
前記ＣＰＵコアによる実行のための命令を格納するための第２のキャッシュであって、前記第１のメモリキャッシュにおけるミスに応答してアクセス可能な前記第２のキャッシュ、及び
前記ＣＰＵコア及び前記第１及び第２のメモリキャッシュに結合されるメモリコントローラサブシステム、
を含み、
前記メモリコントローラサブシステムが、
前記ＣＰＵコアから受け取った第１の仮想アドレスの前記第１のメモリキャッシュにおけるミス又はヒットを判別し、
前記第１の仮想アドレスに基づいて第２の仮想アドレスを生成し、
前記第２の仮想アドレスの前記第１のメモリキャッシュにおけるミス又はヒットを判定し、
前記第２の仮想アドレスを物理アドレスに変換し、
前記物理アドレスと前記第２の仮想アドレスのミス又はヒット判定とに関連するステータスビットを有効状態に設定し、
前記ＣＰＵコアからゼロのカウント値の受領に応答して、前記ステータスビットを無効状態に変更し、
前記ＣＰＵコアからの再開インジケーションの受領に応答して、前記ステータスビットを有効状態に戻す、
ように構成される、
装置。
請求項１に記載の装置であって、前記メモリコントローラサブシステムが、前記第２の仮想アドレスから変換された前記物理アドレスを用いて、第２のメモリキャッシュからプログラム命令をリトリーブするように構成される、装置。
請求項１に記載の装置であって、前記カウント値の受領が、前記第２の仮想アドレスを前記物理アドレスに変換した後に行われる、装置。
請求項１に記載の装置であって、前記ＣＰＵコアからの前記カウント値の受領が、前記ＣＰＵコアから前記再開インジケーションを受け取る前に行われる、装置。
請求項１に記載の装置であって、前記物理アドレス及び前記ステータスビットが格納されるレジスタをさらに備える、装置。
請求項５に記載の装置であって、前記第１のメモリキャッシュにおける前記第２の仮想アドレスの前記ヒット又はミスのインジケーションが、前記物理アドレス及び前記ステータスビットと共に前記レジスタに格納される、装置。
請求項１に記載の装置であって、前記第１のメモリキャッシュが、データではなくプログラム命令を格納するためのものである、装置。
装置であって、
中央処理装置（ＣＰＵ）コア、
前記ＣＰＵコアによる実行のための命令を格納するための第１のメモリキャッシュ、
前記ＣＰＵコアによる実行のための命令を格納するための第２のキャッシュであって、前記第１のメモリキャッシュにおけるミスに応答して命令をリトリーブするための前記第２のメモリキャッシュ、
前記ＣＰＵコア及び第１及び第２のメモリキャッシュに結合されるメモリコントローラサブシステム、
を含み、
前記メモリコントローラサブシステムが、
前記第１のメモリキャッシュにおける第１の仮想アドレスのヒット又はミス状況を推論的に判定し、
前記第１の仮想アドレスを物理アドレスに推論的に変換し、
前記ヒット又はミス状況と前記物理アドレスとに関連してステータスを有効状態に設定し、
前記第１の仮想アドレスに関連するプログラム命令が必要とされないとの前記ＣＰＵコアからの第１のインジケーションの受領に応答して、前記ステータスを無効状態に再設定し、
前記第１の仮想アドレスに関連するプログラム命令が必要とされるとの前記ＣＰＵコアからの第２のインジケーションの受領に応答して、前記ステータスを有効状態に再設定する、
ように構成される、
装置。
請求項８に記載の装置であって、前記メモリコントローラサブシステムが、前記ＣＰＵコアからメモリコントローラサブシステムに送信される第２の仮想アドレスから前記第１の仮想アドレスを推論的に生成するように構成される、装置。
請求項８に記載の装置であって、前記第１の仮想アドレスに関連するプログラム命令が必要とされないとの前記ＣＰＵコアからの前記第１のインジケーションがカウント値を含み、前記カウント値がゼロの値を有する、装置。
請求項８に記載の装置であって、前記第１の仮想アドレスに関連するプログラム命令が必要とされるとの前記ＣＰＵコアからの前記第２のインジケーションが、前記第１の仮想アドレスで始まるプログラム命令のリトリーブを継続するように前記メモリコントローラサブシステムに命令する信号を含む、装置。
請求項１１に記載の装置であって、前記第２のインジケーションを受け取ると、前記メモリコントローラサブシステムが、前記第１のメモリキャッシュにおける前記第１の仮想アドレスの前記ヒット又はミス状況を再び判定することなく、前記第１の仮想アドレスで始まるプログラム命令をリトリーブし続けるように構成される、装置。
請求項１２に記載の装置であって、前記第２のインジケーションを受け取ると、前記メモリコントローラサブシステムが、前記第１の仮想アドレスを前記物理アドレスに再び変換することもなく、前記第１の仮想アドレスで始まるプログラム命令をリトリーブし続けるように構成される、装置。
請求項８に記載の装置であって、前記ＣＰＵコアが、前記第１の仮想アドレスを前記メモリコントローラサブシステムに提供することもなく、前記第２のインジケーションを提供するように構成される、装置。
請求項８に記載の装置であって、前記第１のインジケーションの受領が、前記ヒット又はミス状況の推論的判定と、前記第１の仮想アドレスの前記物理アドレスへの推論的変換との後に成される、装置。
システムオンチップ（ＳｏＣ）であって、
入力／出力デバイス、及び
前記入力／出力デバイスに結合されるプロセッサ、
を含み、
前記プロセッサが、
中央処理装置（ＣＰＵ）コアと、前記ＣＰＵコアによる実行のための命令を格納するための第１のメモリキャッシュと、第２のメモリキャッシュと、前記ＣＰＵコア及び前記第１及び第２のメモリキャッシュに結合されるメモリコントローラサブシステムとを含み、前記メモリコントローラサブシステムが、
前記第１のメモリキャッシュにおける第１の仮想アドレスのヒット又はミス状況を推論的に判定し、
前記第１の仮想アドレスを物理アドレスに推論的に変換し、
前記ヒット又はミス状況と前記物理アドレスとに関連して、ステータスを有効状態に設定し、
前記第１の仮想アドレスに関連するプログラム命令が必要とされないとの前記ＣＰＵコアからの第１のインジケーションの受領に応答して、前記ステータスを無効状態に再設定し、
前記第１の仮想アドレスに関連するプログラム命令が必要とされるとの前記ＣＰＵコアからの第２のインジケーションの受領に応答して、前記ステータスを有効状態に再設定する、
ように構成される、
ＳｏＣ。
請求項１６に記載のＳｏＣであって、前記メモリコントローラサブシステムが、前記ＣＰＵコアから前記メモリコントローラサブシステムに送信される第２の仮想アドレスから前記第１の仮想アドレスを推論的に生成するように構成される、ＳｏＣ。
請求項１６に記載のＳｏＣであって、前記第１の仮想アドレスに関連するプログラム命令が必要とされないとの前記ＣＰＵコアからの前記第１のインジケーションがカウント値を含み、前記カウント値がゼロの値を有する、ＳｏＣ。
請求項１６に記載のＳｏＣであって、前記ＣＰＵコアが、前記第１の仮想アドレスを前記メモリコントローラサブシステムに提供することもなく、前記第２のインジケーションを提供するように構成される、装置。
請求項１６に記載のＳｏＣであって、前記第２のインジケーションを受け取ると、前記メモリコントローラサブシステムが、前記第１のメモリキャッシュにおける前記第１の仮想アドレスの前記ヒット又はミス状況を再び判定することもなく、かつ、前記第１の仮想アドレスを前記物理アドレスに再び変換することもなく、前記第１の仮想アドレスで始まるプログラム命令をリトリーブし続けるように構成される、ＳｏＣ。