JP7232331B2

JP7232331B2 - ループ終了予測器

Info

Publication number: JP7232331B2
Application number: JP2021529284A
Authority: JP
Inventors: ジャービスアンソニー; クルーカートーマス
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2018-11-26
Filing date: 2019-06-25
Publication date: 2023-03-02
Anticipated expiration: 2039-06-25
Also published as: EP3887942A4; WO2020112171A1; EP3887942B1; KR102571624B1; CN113168329A; JP2022509171A; KR20210084625A; EP3887942A1; US20200167164A1; US11216279B2

Description

分岐予測は、パイプライン処理プロセッサが命令を投機的に実行するために用いる技術である。分岐予測は、プロセッサによって分岐が取られるか否かの可能性を評価することによって、分岐が取るべき適切な経路を決定しようとする。分岐予測器が取るべき経路を正しく予測すると、分岐予測によって命令パイプラインのフローが改善される。しかし、分岐予測器が経路を誤って予測すると（分岐予測ミス）、プロセッサが、投機的に実行され又は部分的に実行される命令を破棄するので、プロセッサの時間及びリソースが無駄になる。

典型的な分岐予測技術は、一般的な条件付き予測器（conditional predictors）を分岐予測に利用する。これらの一般的な条件付き予測器は、関連する信頼レベルを用いて分岐予測を生成する。ただし、信頼レベルが信頼できない場合、分岐予測器は、誤予測率が高い分岐予測を生成する可能性がある。誤予測率が高くなると、処理システム全体の電力及びリソースの浪費につながる可能性がある。したがって、分岐誤予測率を改善する改良された分岐予測技術が望まれている。

本開示は、添付の図面を参照することによってより良く理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面で同じ符号を使用する場合には、類似又は同一の要素を示す。

いくつかの実施形態による、分岐予測をサポートするループ終了予測器を含むプロセッサのブロック図である。いくつかの実施形態による、図１の分岐予測器のブロック図である。いくつかの実施形態による、分岐予測方法のフロー図である。いくつかの実施形態による、リタイアされた予測ブロックの識別子を示す図である。いくつかの実施形態による、プロセッサにおけるループ終了予測の信頼レベルを達成する例を示す一連の表である。

投機的実行中の分岐の予測ミスは、無駄な作業とパイプライン処理の過度の遅延とを引き起こす。予測が間違って行われた場合には、予測パイプラインは一般的にフラッシュする必要があり、これにより、フラッシュに関連するパフォーマンス上の低下をもたらす。さらに、分岐の予測ミスは、例えば、誤って予測された分岐に続く命令を処理することによって電力を浪費することが知られている。パイプライン及びリソースが共有されるマルチスレッドモードでコアが動作している場合には、誤った分岐予測の間に処理帯域幅も浪費される。無駄な作業の量を減らして、電力を節約し、シングルスレッド及びマルチスレッドのパフォーマンスを改善するために、図１～図５は、ループ終了予測を実行するための処理システム及び方法を示す。ループ終了予測は、条件付き分岐予測を、分岐予測の精度向上と分岐誤予測の減少をもたらすループ終了予測によってオーバーライドするために用いられる技術である。

図１は、様々な実施形態による、ループ終了予測を実施するプロセッサ１００のブロック図である。プロセッサ１００は、メモリ１０２と、命令キャッシュ１０４と、命令フェッチユニット１０６と、処理パイプライン１１２と、を含む。命令フェッチユニット１０６は、分岐予測器１０８を含む。分岐予測器１０８は、１つ以上の分岐ターゲットバッファ（ＢＴＢ）テーブル１１０を含む予測エンジン１０７に結合されたトレーニングエンジン１０９を含む。処理パイプライン１１２は、デコードユニット１１４と、発行ユニット１１６と、実行ユニット１１８と、ライトバックユニット１２０と、を含む。様々な実施形態では、処理システムは、コンピュータプロセッサ内に含まれるか、コンピュータシステム内に分散されている。メモリ１０２は、命令及びデータを記憶するためのキャッシュメモリ等の任意のタイプの揮発性又は不揮発性メモリを含む。命令キャッシュ１０４は、メモリ１０２からの命令にアクセスし、フェッチされる命令を記憶する。様々な実施形態では、メモリ１０２及び命令キャッシュ１０４は、複数のキャッシュレベルを含む。さらに、プロセッサ１００は、データキャッシュ（図示省略）を含む。

図１には、説明を容易にするために、命令フェッチユニット１０６及び処理パイプライン１１２の簡単な例が示されている。様々な実施形態では、命令フェッチユニット１０６及び／又は分岐予測器１０８は、処理パイプライン１１２の一部である。処理パイプライン１１２は、エラーをチェックし処理するロジック、処理パイプライン１１２を通る１つ以上の並列経路、及び、本技術分野で知られている他の機能等の他の機能も含むことができる。処理パイプライン１１２を通る順方向経路が図１に示されているが、プロセッサ１００の要素間には、他のフィードバック経路及び信号経路が含まれてもよい。

様々な実施形態では、プロセッサ１００の動作中に、命令フェッチユニット１０６は、命令キャッシュ１０４から命令をフェッチして、デコードユニット１１４によってさらに処理する。一実施形態では、命令フェッチユニット１０６は、分岐予測器１０８を含むとともに他の分岐予測ロジック（図示省略）も含む。或いは、他の実施形態では、分岐予測器１０８は、命令フェッチユニット１０６とは別個に配置されている。分岐予測器１０８は、以下により詳細に説明するように、ループ終了予測を用いて分岐予測を実施する処理回路の一例である。

デコードユニット１１４は、命令をデコードし、デコードされた命令、命令の一部、又は、他のデコードされたデータを発行ユニット１１６に渡す。発行ユニット１１６は、命令又は他のデータを分析し、分析に基づいて、デコードされた命令、命令の一部、又は、他のデータを１つ以上の実行ユニット１１８に送信する。１つ以上の実行ユニット１１８は、命令を実行するための固定小数点実行ユニット、浮動小数点実行ユニット、ロード／ストア実行ユニット、ベクトル実行ユニット等の実行ユニットを含む。ライトバックユニット１２０は、命令の実行結果を宛先リソース（図示省略）に書き戻す。宛先リソースは、レジスタ、キャッシュメモリ、他のメモリ、他のデバイスと通信するためのＩ／Ｏ回路、他の処理回路、又は、実行される命令若しくはデータのための他の任意のタイプの宛先を含む、任意のタイプのリソースであってもよい。

プロセッサ１００のリタイア時間中に、トレーニングエンジン１０９は、リタイアされた予測ブロックを処理パイプライン１１２から受信する。リタイアされた予測ブロックの各々は、一緒に予測され、リタイアされた命令バイトのセットを記述する。トレーニングエンジン１０９は、分岐予測器１０８のトレーニング部分であり、リタイアされた予測ブロック及び後続のリタイアされた予測ブロックを使用した命令ストリーム内のループの評価に基づいて、ループを終了させる分岐を識別し、このような分岐の方向を予測するために使用される情報を予測エンジン１０７に提供する。予測エンジン１０７は、分岐予測器１０８の分岐予測出力として用いられるループ終了予測を生成するために、トレーニングエンジン１０９によって提供されるループ終了分岐情報を利用する分岐予測器１０８の一部である。様々な実施形態において、ループ終了予測が分岐予測器１０８の出力として利用されるかどうかは、信頼レベル閾値及び／又はトレーニングエンジン１０９によって提供される信頼レベルに基づいている。分岐予測器１０８が改善された分岐予測動作のためにループ終了予測を利用するために、分岐予測器１０８は、トレーニングエンジン１０９及び予測エンジン１０７をタンデム（tandem）に用いて、汎用の条件付き予測器によって生成される汎用の条件付き予測のためのオーバーライドメカニズムを提供する。汎用の条件付き予測器は、本技術分野で一般的に知られている技術を用いて分岐予測を確認する条件付き予測器である。

様々な実施形態では、トレーニングエンジン１０９は、リタイアされた予測ブロック及び後続のリタイアされた予測ブロックを監視して、プロセッサ１００の命令ストリームが現在ループ内にあるかどうかを判別し、ループを終了させる条件分岐を識別する。いくつかの実施形態では、ループは、例えば、コンピュータプログラム及び／又は命令内の特定の基準に基づいて繰り返される命令のシーケンスと考えられる。いくつかの実施形態では、ループは、例えば、コンピュータプログラム及び／又は命令内の特定の基準に基づいて繰り返されるのではなく、特定のコールリターンレベル（図２を参照して以下にさらに説明する）に属する命令のサブシーケンスを考慮する場合にのみ繰り返される命令のシーケンスと考えられる。ループのタイプは、例えば、特定回数の反復のために命令のシーケンスを繰り返すｆｏｒループ又はｗｈｉｌｅループの場合がある。ループ終了分岐の位置は、ループを終了するまでの反復回数に関する情報とともに、予測エンジン１０７によって、例えば、予測エンジン１０７内に配置され得る汎用の条件付き予測器をオーバーライドするために利用される。

命令ストリーム内の特定のコールリターンレベルでループが発生しているかどうかを判別した後に、トレーニングエンジン１０９は、ループ内にあるループ終了分岐を識別する。ループ終了分岐は、ループ内に留まっている間は同じ方向（取られる又は取られない）のままであり、ループを終了するときに反転する条件分岐である。ループ終了分岐は、ループ内にある条件分岐の方向挙動を監視することによって、トレーニングエンジン１０９で識別される。ループ終了分岐を識別すると、トレーニングエンジン１０９は、ループ反復カウントを監視して、ループ終了分岐に関連する信頼レベルを生成するために使用されるループ反復カウントの繰り返し頻度を決定する。ループ終了分岐、ループのサイズ及び予測時の反復カウントに関連する信頼レベルの評価に基づいて、予測エンジン１０７は、分岐予測器１０８によって出力される分岐方向の予測を（ループ予測器の出力を汎用の条件付き予測器と組み合わせることによって）生成する。次に、分岐予測器１０８は、１つ以上のＢＴＢテーブル（一般に、ＢＴバッファ及びＢＴＢとも呼ばれる）１１０によって記憶又は提供される分岐ターゲットアドレスを生成することができる。分岐予測器１０８は、プロセッサ（例えば、図１のプロセッサ１００）の命令フェッチユニット１０６内に少なくとも部分的に実装される。ＢＴＢテーブル１１０は、図１の分岐予測器１０８の内部に示されているが、ＢＴＢテーブル１１０は、プロセッサ１００内の命令フェッチユニット１０６又は分岐予測器１０８の特定の要素に近接して配置されてもよいし、配置されなくてもよい。いくつかの実施形態では、プロセッサ１００は、複数の命令フェッチユニット１０６及び処理パイプライン１１２をさらに含む。

図２は、いくつかの実施形態による、分岐予測器２０７のブロック図である。分岐予測器２０７は、トレーニングエンジン２１０に結合された予測エンジン２０６を含む。予測エンジン２０６は、条件付き予測器２２８と、分岐ターゲットバッファ２８６（ＢＴＢ２８６）と、間接予測器２３６と、次のプログラムカウンタ予測器２４６（ＮＸＴＰＣ予測器２４６）と、を含む。条件付き予測器２２８は、汎用の条件付き予測器２３０と、ループ終了予測器２３２と、マルチプレクサ２３３と、を含む。トレーニングエンジン２１０は、ループ終了分岐モニタ２５２と、ループ検出器２５４と、予測バッファ２５６と、を含む。様々な実施形態において、ループ終了予測器２３２は、ループ検出器２５４及びループ終了分岐モニタ２５２を含んでもよい。様々な実施形態において、ループ終了予測器２３２は、予測可能な反復カウントの後にループを終了する条件分岐のタグ付き幾何学長さ（ＴＡＧＥ）に対する補正器として用いられる条件付き予測器である。本明細書でさらに説明するように、分岐予測器２０７は、タイミングクリティカルでなく、プロセッサ１００への実装の影響を最小限に抑える低電力、低面積設計であるループ終了予測により、分岐予測アプリケーションのパフォーマンスの向上を提供しつつ、汎用の条件付き予測（例えば、ＴＡＧＥ予測）をオーバーライドすることができる。

分岐予測器２０７の動作中、トレーニングエンジン２１０のループ検出器２５４は、プロセッサ１００のリタイア時間中に、リタイアされた予測ブロック及び後続のリタイアされた予測ブロックを予測バッファ２５６から受信する。リタイア時間とは、命令の結果をプロセッサのアーキテクチャ状態にコミットする動作が発生する又は発生した（例えば、結果がレジスタ等に書き込まれた）時間を指す。予測ブロックは、予測された命令バイトのセットと、それに含まれる分岐に関する情報である。予測ブロックには、例えば、開始アドレス及び終了アドレス、記述子、予測ブロックに含まれる分岐の方向が含まれる。予測バッファ２５６に記憶される予測ブロック情報は、ブロックが予測されるときに最初に生成され、次いで、分岐が正しく予測されなかった場合でも、ブロックに属する分岐を追跡するために誤予測フラッシュ時に更新される。リタイアされた予測ブロックは、予測ブロックがリタイアされたものであり、リタイアされた予測ブロックによって提供される情報は、リタイアされた分岐のアーキテクチャ上の動作を反映している。様々な実施形態において、ループ検出器２５４は、リタイアされた予測ブロック及び後続のリタイアされた予測ブロックを用いて、トレーニングエンジン２１０でループが発生しているかどうかを識別する。

様々な実施形態では、予測バッファ２５６は、予測エンジン２０６によって行われた分岐予測に関連する情報を追跡する。予測情報は、例えば、予測アドレス、予測のターゲット、及び、予測の履歴を含む。様々な実施形態において、予測バッファ２５６は、リダイレクトの場合に用いられることがあり、この場合、フラッシュ及び回復を行ってから予測が再開される必要があり、その後に、回復のために予測バッファ２５６が読み出される。また、予測バッファ２５６は、トレーニング中に、リタイアされた予測ブロックをループ検出器２５４に提供するために用いられる。リタイアされた予測ブロックをループ検出器２５４に提供する前に、予測バッファ２５６は、ＮＸＴＰＣ予測器２４６から予測ブロックを受信し、リダイレクトを更新し、予測ブロックを処理パイプライン１１２からリタイアする。予測バッファ２５６の読み出しは、最近リタイアされた、リタイアされた予測ブロックに対して実行される。条件付き予測器２２８、ＢＴＢ２８６及び間接予測器２３６を含む予測エンジン２０６の予測器は、これに応じて、トレーニングエンジン２１０を用いてトレーニングされる。

様々な実施形態において、ループ検出器２５４に提供されるリタイアされた予測ブロックに関して、タグは、条件付き予測器２２８によって行われる予測のフェッチアドレス又は予測アドレスを表す。タグは、リタイアされた予測ブロックのアドレスのインジケータとして機能する。記述子は、リタイアされた予測ブロックの記述を提供し、フェッチアドレスにおいて、例えば分岐予測器２０７によって予測された分岐を表す。一実施形態では、分岐予測器２０７は、サイクル毎に最大２つの分岐を予測することができ、記述子は、サイクル毎に単一の分岐又は２つの分岐があるかどうか、及び、各分岐が条件付き又は無条件の分岐であるかどうかを記述する。方向エントリは、リタイアされた予測ブロックに関連する方向を提供する。様々な実施形態において、２つの分岐の予測の場合、予測されたブロックは、第１の分岐が取られていないと予測された場合にのみ２つの分岐を含むことができるので、方向は第２の分岐の方向である。様々な実施形態において、リタイアされた予測ブロックの両方のアドレスタグ、記述子及び／又は方向が、条件付き予測器２２８のループ終了予測器２３２によって提供されるループ終了予測を判別するために用いられる。

分岐予測器２０７の分岐予測出力として用いるループ終了予測を生成するために、ループ終了予測器２３２は、ループを識別するためにリタイア時に分岐を監視するループ検出器２５４に依存している。いくつかの実施形態では、ループ検出器２５４は、非投機的パス上で動作し、所定のコールリターンレベルでのみループを考慮する。つまり、コールリターンレベル内で繰り返される命令のシーケンスは、ループの反復毎に命令のシーケンスが異なる呼び出し及びリターンが命令に含まれている場合であっても、ループとみなされる場合がある。様々な実施形態において、例えば、各スレッドは、コールリターンレベル毎にループ検出器２５４を有する。ループ検出器２５４は、コールリターンレベル毎に、すなわち、各ループの内容が同等であることとは対照的に、コールリターンレベルに基づいてループ検出を実行するので、ループ検出器２５４は、各ループの内容が他の反復されるループと完全に同等ではない場合であっても、ループが発生したかどうかを検出することができる。例えば、命令ストリームは、コール（呼び出し）を実行することによってサブルーチンを呼び出すことができ、サブルーチンの終了時にリターン（戻り）が開始される。その結果、コールが実行されると、例えば、より高いコールリターンレベルにジャンプする。リターンが実行されると、より低いコールリターンレベルへのフォールバック（後退）が発生する。したがって、ループの反復毎にサブルーチンを呼び出すプログラム等の所定の命令の場合、命令は、ループの反復毎にサブルーチン内で異なることを実行している可能性がある。しかしながら、ループ検出器２５４は、コールリターンレベルに基づいて、所定の命令ストリームのループを依然として検出する。

所定のコールリターンレベルに対して、リタイアされた予測ブロックを受信した後に、ループ検出器２５４は、リタイアされた予測ブロックを表す状態のスナップショットを取得することによってループ検出を開始する。様々な実施形態において、スナップショットは、タグ、記述子、及び、リタイアされた予測ブロックの方向を含む。様々な実施形態において、スナップショットのタイミングは、リタイアの状態に応じて変化し得る。例えば、スナップショットは、周期的、及び／又は、ランダムな時間、及び／又は、リタイア状態内の異なる時間要因を表す間隔で取得されてもよい。様々な実施形態において、ループの識別は、リタイア時に発生する。これは、リタイア時には処理要素が非投機的であり、すなわち、実際のプログラム動作が知られているのに対し、予測時間は投機的であり、実際のプログラム動作が知られていないためである。

スナップショットがループ検出器２５４によって取得された後に、ループ検出器２５４は、アドレスのスナップショットを後続のリタイアされた予測ブロックと比較して、スナップショットと一致するかどうかを判別する。一実施形態では、ループ検出器２５４は、比較ロジックを用いて、アドレスのスナップショットを、リタイアされた予測ブロックの後続のストリーム内の各リタイアされた予測ブロックと比較して、スナップショットと一致するかどうかを判別する。スナップショットと一致する場合、ループ検出器２５４によってループが検出されている。

ループ検出器２５４によってループが検出されると、ループ検出器２５４は、ループを観察して、検出されたループ内のループを終了させるための条件分岐、すなわち、ループ終了分岐を識別する。様々な実施形態において、ループ終了分岐又はループ終了候補は、所定の条件を用いて識別される。例えば、ループ終了候補は、以下の条件が満たされた場合に識別され得る。（１）監視対象のループの反復カウントが、指定された飽和基準に達した。（２）２つの分岐のうち一方の分岐の方向が、記録されている予期された方向と一致しない。及び／又は（３）予測ブロックが、見つかった新しい分岐にリダイレクトされなかった。ループ終了分岐は、ループ検出器２５４によって記憶され、ループ終了分岐モニタ２５２に提供される。

ループ終了分岐モニタ２５２は、ループ検出器２５４からループ終了分岐を受信し、ループ終了分岐の方向を評価する。例えば、ループ終了分岐モニタ２５２は、ループ終了分岐の方向を、取られたか取られていないかの何れかとして評価する。ループ終了分岐モニタ２５２は、ループ終了分岐が別の方向に転換するまでに同じ方向を繰り返す回数を記録する。様々な実施形態において、ループ終了分岐における反復された方向から別の方向への転換は、ループが終了する前にループが受けた反復回数（ループ反復カウント）のインジケータである。ループ反復カウントは、ループ終了分岐モニタ２５２によって記憶され、ループ反復カウントが繰り返される回数、すなわち、ループ反復カウントの繰り返し頻度を決定する。一実施形態では、ループ終了分岐モニタ２５２は、現在のループ反復カウントを先行するループ反復カウントと比較してループ反復カウントの繰り返し頻度を判別することによって、ループ反復カウントを監視する。ループ反復カウントの繰り返し頻度は、ループ終了分岐モニタ２５２によって割り当てられる、対応する信頼レベルを確認するために用いられる。

様々な実施形態において、ループ終了予測の信頼レベル（ループ終了予測信頼レベル）は、ループ終了予測の強度の指標を提供し、信頼閾値と比較されて、ループ終了分岐の方向を予測する場合に、汎用の条件付き予測器２３０による条件付き予測出力をオーバーライドするかどうかを決定する。一実施形態では、対応する信頼レベルは、ループ反復カウントの繰り返し頻度（繰り返されるループ反復カウントの数）と同等であってもよく、ループ終了分岐モニタ２５２に記憶される。様々な実施形態において、信頼レベルの増加及び／又は減少は、ループ反復カウント繰り返し頻度の増加及び／又は減少に一致することによって決定される。例えば、様々な実施形態では、ループが同じ回数の反復後に連続して複数回終了すると、信頼レベルが増加する。様々な実施形態において、ループ終了分岐モニタ２５２によって、ループ反復カウントがもはや繰り返されていないと判別されると、信頼レベルは初期値ゼロに更新される。信頼レベルは、ループ終了予測器２３２の使用を開始するための閾値としてプログラム可能である。

信頼レベルが確認されると、ループ終了予測器２３２は、信頼レベルが信頼レベル閾値を超えるかどうかを判別する。一実施形態では、信頼レベル閾値は、ループ終了予測が、汎用の条件付き予測器２３０によって生成された条件付き予測をオーバーライドし得る閾値である。様々な実施形態において、設計上の選択に応じて、信頼レベル閾値が１から１０の間の値に設定され、信頼レベル閾値の信頼レベルが１から１０の間の値に設定される。例えば、信頼レベル閾値が６の場合、６から１０の間のループ終了予測信頼値は、ループ終了予測器２３２をトリガし、汎用の条件付き予測器２３０をオーバーライドする。信頼レベルが信頼レベル閾値に達するか超えると、ループ終了予測器２３２は、汎用の条件付き予測器２３０によって提供される条件付き予測をオーバーライドする。汎用の条件付き予測器２３０は、ループ終了予測器２３２がマルチプレクサ２３３を用いてループ終了予測をＮＸＴＰＣ予測器２４６に提供することによって、オーバーライドされる。信頼レベルが信頼レベル閾値に到達しないか超えない場合、ループ終了予測器２３２は、汎用の条件付き予測器２３０によって提供される条件付き予測をオーバーライドしない。次に、ＮＸＴＰＣ予測器２４６は、予測ブロックを予測バッファ２５６に提供し、分岐予測器２０７によって出力される分岐予測を提供する。分岐予測器２０７は、汎用の条件付き予測又はループ終了予測出力の何れかに基づいて、プロセッサ１００の命令フェッチユニットによる命令フェッチのために予測アドレスを提供する。

図３は、様々な実施形態による、ループ終了予測を用いて分岐を予測する方法３００を示すフロー図である。方法３００は、図１に示すプロセッサ１００及び図２に示す分岐予測器２０７のいくつかの実施形態で実施される。

様々な実施形態において、方法のフローは、ブロック３０８で始まる。ブロック３０８において、ループ検出器２５４は、第１のリタイア時間中に予測されたブロック、すなわち、リタイアされた予測ブロックを受信する。ブロック３１２において、コールリターンレベルに基づいて、ループ検出器２５４は、リタイアされた予測ブロックのスナップショットを取得するかどうかを決定する。スナップショットを取得しないと決定した場合、方法３００はブロック３０８に戻る。スナップショットを取得すると決定した場合、方法３００はブロック３１６に進む。ブロック３１６において、ループ検出器２５４は、リタイアされた予測ブロックのスナップショットを取得する。様々な実施形態では、スナップショットは、アドレスタグ、記述子及び方向のうち少なくとも１つを含む。ブロック３１８において、ループ検出器２５４は、第２のリタイア時間中に、後続のリタイアされた予測ブロックを受信する。様々な実施形態において、後続のリタイアされた予測ブロックは、アドレスタグ、記述子及び方向を含む。ブロック３２０において、ループ検出器２５４は、スナップショットされたリタイアされた予測ブロックのスナップショットを、後続のリタイアされた予測ブロックと比較する。ブロック３２４において、ループ検出器２５４は、ループが発生しているかどうかを判別する。様々な実施形態において、ループ検出器２５４は、スナップショットに関連する全てのタグ、記述子及び方向と、後続のリタイアされた予測ブロックに関連する全てのタグ、記述子及び方向と、の間に一致がある場合に、ループが発生していると判別する。ループ検出器２５４が、リタイアされた予測ブロックのセットに対してループが発生していないと判別すると、方法３００はブロック３１６に戻る。ループが発生しているとループ検出器２５４が判別した場合、方法３００はブロック３３０に進む。

ブロック３３０において、ループ検出器２５４は、例えば、ループ終了分岐を識別するために、ループ検出器２５４によって用いられるループ内の条件分岐を監視する。ブロック３３２において、ループ検出器２５４は、ループを終了させるループ終了分岐を識別する。様々な実施形態において、第１のスナップショットと第２のスナップショットとの間の一致において、全ての条件分岐の方向が記録される。後続のループ反復において、全ての条件分岐の方向が、以前に記録された全ての条件分岐の方向と比較される。様々な実施形態において、方向を変える最初の分岐が、ループ終了分岐として識別される。

ブロック３３４において、ループ終了分岐モニタ２５２は、ループ終了分岐を監視し、ループ検出器２５４によって識別されたループ終了分岐に基づいてループ反復カウントを決定する。

ブロック３４０において、ループ終了分岐モニタ２５２は、ループ反復カウントを監視して、ループ反復カウントの繰り返し頻度を判定する。ブロック３４４において、ループ終了分岐モニタ２５２は、ループ反復カウント繰り返し頻度を用いて信頼レベルを確認する。

ブロック３４８において、ループ終了予測器２３２は、信頼レベルをループ終了予測に割り当てる。様々な実施形態では、ループ終了分岐モニタ２５２は、信頼レベルをループ終了予測に割り当てることができる。いくつかの実施形態では、信頼レベル閾値は、設計上の選択に応じて変化し得る。

ブロック３４８において信頼レベルを割り当てると、方法３００は、ブロック３４０に戻り、ループの次の発生を監視し、ブロック３７０に続く。ブロック３７０において、信頼レベル閾値を超えると、ループ終了予測器２３２は、マルチプレクサ２３３を用いて汎用の条件付き予測をオーバーライドする。

図４は、いくつかの実施形態による、リタイアされた予測ブロックの識別子４０２を示す図である。識別子４０２は、タグ（ＴＡＧ＿１）と、記述子（ＤＥＳＣＲＩＰＴＯＲ＿１）と、方向（ＤＩＲＥＣＴＩＯＮ＿１）と、を含む。識別子４０２のＴＡＧ＿１は、所定の予測ブロックの次の命令をフェッチするためのフェッチアドレス又は予測アドレスを表す。ＤＥＳＣＲＩＰＴＯＲ＿１は、分岐予測器２０７によって予測された分岐、又は予測されたブロックに含まれる命令の実行中に検出された分岐を表す。図２を参照して上述したように、識別子４０２のスナップショットと後続のリタイアされた予測ブロックの識別子との比較結果は、分岐予測器２０７によって用いられ、分岐予測器２０７は、ループ終了予測を用いて分岐予測を生成する。

図５は、いくつかの実施形態による、分岐予測器を使用してループ終了予測のための信頼レベルを達成する例を示す一連の表である。図２に関連して、図５は、条件分岐テーブル５０２と、ループ反復カウントテーブル５０４と、ループ反復カウント繰り返し頻度テーブル５０６と、信頼レベルテーブル５０８と、を含む。様々な実施形態において、条件分岐テーブル５０２は、例えば、ループ検出器２５４によって観察されるループ終了分岐を含む条件分岐を示す。ループ反復カウントテーブル５０４は、例えば、ループ終了分岐モニタ２５２によって観察されたループ反復の数を示している。図５に提供された例では、ループの反復カウントは、５つの連続するインスタンスに対して３である。ループ反復カウント繰り返し頻度テーブル５０６は、例えば、ループ終了分岐モニタ２５２によって観察された、ループ反復カウントが繰り返された回数を示している。提供された例では、ループ反復カウントの繰り返し頻度は４である。信頼レベルテーブル５０８は、所定のループ反復カウント頻度に対してループ終了分岐モニタ２５２によって割り当てられた信頼レベルを示している。提供された例では、ループ終了予測器２３２によって使用されるためにループ終了分岐モニタ２５２によって割り当てられた信頼レベルは４である。例えば、信頼レベル閾値が２であると、ループ終了予測器２３２は、汎用の条件付き予測器２３０をオーバーライドし、関連するループ終了予測を、分岐予測のために分岐予測器２０７に提供する。

本明細書に開示されるように、いくつかの実施形態では、方法は、ループ終了予測器によって生成されたループ終了予測に信頼レベルを割り当てることと、信頼レベルが信頼レベル閾値を超えたことに基づいて、汎用の条件付き予測器の汎用の条件付き予測をオーバーライドすることと、を含む。一態様では、方法は、ループ検出器によって判別されたループ内で識別されたループ終了分岐に基づいてループ反復カウントを決定することによって、信頼レベルを生成することを含む。別の態様では、方法は、ループ反復カウントを監視してループ反復カウントの繰り返し頻度を決定して信頼レベルを生成することを含む。さらに別の態様では、方法は、リタイア時間中に、リタイアされた予測ブロックのスナップショットと後続のリタイアされた予測ブロックとを用いて、ループが発生しているかどうかを判別することを含む。

一態様では、スナップショットは、リタイアされた予測ブロックのアドレスタグ、記述子及び方向を含む。別の態様では、後続のリタイアされた予測ブロックは、後続のリタイアされた予測ブロックのアドレスタグ、記述子及び方向を含む。さらに別の態様では、汎用の条件付き予測をオーバーライドするためにマルチプレクサを用いる。さらに別の態様では、スナップショットは周期的に取得される。

本明細書に開示されるように、いくつかの実施形態では、プロセッサは、ループ終了予測器を含む予測エンジンと、ループ検出器に結合されたループ終了分岐モニタを含むトレーニングエンジンであって、予測エンジンに結合されたトレーニングエンジンと、を備える。プロセッサのループ検出器は、複数のコールリターンレベルのうち少なくとも１つのコールリターンレベルに基づいて、第１のリタイア時間中にリタイアされた予測ブロックのスナップショットを取得し、スナップショットを第２のリタイア時間における後続のリタイアされた予測ブロックと比較し、比較に基づいて、汎用の条件付き予測をオーバーライドするかどうかをループ終了分岐モニタ及びループ終了予測器が決定するのに用いられるループ及びループ内のループ終了分岐を識別する。一態様では、ループ終了分岐モニタは、ループ終了分岐に基づいてループ反復カウントを決定する。

別の態様では、ループ終了分岐モニタは、ループ反復カウントを監視して、ループ反復カウントの繰り返し頻度を決定する。さらに別の態様では、ループ終了予測器は、ループ反復カウントの繰り返し頻度を用いて、ループ終了予測の信頼レベルを生成する。さらに別の態様では、ループ終了予測の信頼レベルは、汎用の条件付き予測をオーバーライドするために用いられる。別の態様では、スナップショットは、リタイアされた予測ブロックのアドレスタグ、記述子及び方向を含む。さらに別の態様では、プロセッサは、リタイアされた予測ブロック及び後続のリタイアされた予測ブロックをトレーニングエンジンに提供するためにトレーニングエンジンに結合された処理パイプラインを備える。

別の態様では、複数のコールリターンレベルは４つに限られており、複数のコールリターンレベルの各コールリターンレベルは、少なくとも１つのループ検出器を含む。さらに別の態様では、プロセッサは、ループ終了予測器に結合されたマルチプレクサと、マルチプレクサに結合された汎用の条件付き予測器と、をさらに備え、汎用の条件付き予測をオーバーライドする決定がループ終了予測器によって行われると、マルチプレクサがループ終了予測器によってトリガされ、汎用の条件付き予測器をオーバーライドする。

本明細書に開示されるように、いくつかの実施形態では、方法は、コールリターンレベルに基づいて、第１のリタイア時間中にリタイアされた予測ブロックのスナップショットを取得することと、リタイアされた予測ブロックのスナップショットを後続のリタイアされた予測ブロックと比較して、ループがいつ発生しているかを判別することと、ループが発生している場合に、ループを終了させるループ内のループ終了分岐を識別することと、ループ終了分岐に基づいてループ反復カウントを決定することと、ループ反復カウントの繰り返し頻度を監視してループ反復カウントの繰り返し頻度を決定することと、ループ反復カウントの監視に基づいて汎用の条件付き予測をオーバーライドすることと、を含む。一態様では、方法は、ループ反復カウントの繰り返し頻度を用いて、ループ終了予測の信頼レベルを確認することを含む。別の態様では、汎用の条件付き予測をオーバーライドすることは、終了予測の信頼レベルが信頼レベル閾値を超えた場合に行われる。

いくつかの実施形態では、上記の装置及び技術は、上述したプロセッサ等の１つ以上の集積回路（ＩＣ）デバイス（集積回路パッケージ又はマイクロチップとも呼ばれる）を含むシステムに実装される。これらのＩＣデバイスの設計及び製造には、電子設計自動化（ＥＤＡ）及びコンピュータ支援設計（ＣＡＤ）ソフトウェアツールが使用される。これらの設計ツールは、通常、１つ以上のソフトウェアプログラムとして表される。１つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計又は適合するための処理の少なくとも一部を実行するように１つ以上のＩＣデバイスの回路を表すコードで動作するようにコンピュータシステムを操作する、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含むことができる。設計ツール又は製造ツールを表すソフトウェア命令は、通常、コンピューティングシステムがアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ＩＣデバイスの設計又は製造の１つ以上のフェーズを表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶されてもよいし、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体からアクセスされてもよい。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

ループ検出器によって判別されたループ内で識別されたループ終了分岐に基づいてループ反復カウントを決定することによって、ループが終了する信頼度を示す信頼レベルを生成することと、
ループ終了予測器によって生成されたループ終了予測に前記信頼レベルを割り当てることと、
前記信頼レベルが信頼レベル閾値を超えたことに基づいて、汎用の条件付き予測器の汎用の条件付き予測をオーバーライドすることと、を含む、
方法。
前記ループ反復カウントを監視してループ反復カウントの繰り返し頻度を決定して前記信頼レベルを生成することをさらに含む、
請求項１の方法。
リタイア時間中に、リタイアされた予測ブロックのスナップショットと後続のリタイアされた予測ブロックとを用いて、前記ループが発生しているかどうかを判別することをさらに含む、
請求項２の方法。
前記スナップショットは、前記リタイアされた予測ブロックのアドレスタグ、記述子及び方向を含む、
請求項３の方法。
前記後続のリタイアされた予測ブロックは、前記後続のリタイアされた予測ブロックのアドレスタグ、記述子及び方向を含む、
請求項４の方法。
前記汎用の条件付き予測をオーバーライドするためにマルチプレクサを用いる、
請求項１の方法。
前記スナップショットは周期的に取得される、
請求項３の方法。
プロセッサであって、
ループ終了予測器を含む予測エンジンと、
ループ検出器に結合されたループ終了分岐モニタを含むトレーニングエンジンであって、前記予測エンジンに結合されたトレーニングエンジンと、を備え、
前記プロセッサの前記ループ検出器は、複数のコールリターンレベルのうち少なくとも１つのコールリターンレベルに基づいて、第１のリタイア時間中にリタイアされた予測ブロックのスナップショットを取得し、前記スナップショットを第２のリタイア時間における後続のリタイアされた予測ブロックと比較し、前記比較に基づいて、汎用の条件付き予測をオーバーライドするかどうかを前記ループ終了分岐モニタ及び前記ループ終了予測器が決定するのに用いられるループ及び前記ループ内のループ終了分岐を識別する、
プロセッサ。
前記ループ終了分岐モニタは、前記ループ終了分岐に基づいてループ反復カウントを決定する、
請求項８のプロセッサ。
前記ループ終了分岐モニタは、前記ループ反復カウントを監視して、ループ反復カウントの繰り返し頻度を決定する、
請求項９のプロセッサ。
前記ループ終了予測器は、前記ループ反復カウントの繰り返し頻度を用いて、ループ終了予測の信頼レベルを生成する、
請求項１０のプロセッサ。
前記ループ終了予測の信頼レベルは、前記汎用の条件付き予測をオーバーライドするために用いられる、
請求項１１のプロセッサ。
前記スナップショットは、前記リタイアされた予測ブロックのアドレスタグ、記述子及び方向を含む、
請求項８のプロセッサ。
前記リタイアされた予測ブロック及び前記後続のリタイアされた予測ブロックを前記トレーニングエンジンに提供するために前記トレーニングエンジンに結合された処理パイプラインをさらに備える、
請求項８のプロセッサ。
前記複数のコールリターンレベルは４つに限られており、前記複数のコールリターンレベルの各コールリターンレベルは、少なくとも１つのループ検出器を含む、
請求項８のプロセッサ。
前記ループ終了予測器に結合されたマルチプレクサと、
前記マルチプレクサに結合された汎用の条件付き予測器と、をさらに備え、
前記汎用の条件付き予測をオーバーライドする決定が前記ループ終了予測器によって行われると、前記マルチプレクサが前記ループ終了予測器によってトリガされ、前記汎用の条件付き予測器をオーバーライドする、
請求項８のプロセッサ。
１つ以上のプロセッサが実行する方法であって、
コールリターンレベルに基づいて、第１のリタイア時間中にリタイアされた予測ブロックのスナップショットを取得することと、
前記リタイアされた予測ブロックの前記スナップショットを後続のリタイアされた予測ブロックと比較して、ループが発生する時間を判別することと、
前記ループが発生する時間の間に、前記ループを終了させる前記ループ内のループ終了分岐を識別することと、
前記ループ終了分岐に基づいてループ反復カウントを決定することと、
前記ループ反復カウントの繰り返し頻度を監視してループ反復カウントの繰り返し頻度を決定することと、
前記ループ反復カウントの監視に基づいて、汎用の条件付き予測をオーバーライドすることと、を含む、
方法。
前記ループ反復カウントの繰り返し頻度を用いて、ループ終了予測の信頼レベルを確認することをさらに含む、
請求項１７の方法。
前記汎用の条件付き予測をオーバーライドすることは、前記ループ終了予測の信頼レベルが信頼レベル閾値を超えた場合に行われる、
請求項１８の方法。