JP2023540036A

JP2023540036A - 分岐予測リダイレクトのための代替パス

Info

Publication number: JP2023540036A
Application number: JP2023513341A
Authority: JP
Inventors: チャンドラシェーカルマンクアパルナ; リンズ－ウェイ; ナヤックバウナ; アール．ハヴリールスティーブン; コーエンロバート; ティー．ベンカタチャーアショク
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-09-04
Filing date: 2021-08-26
Publication date: 2023-09-21
Also published as: WO2022051161A1; CN116324715A; EP4208783A1; KR20230058523A; US20220075624A1

Abstract

分岐予測回路［２１５］は、分岐命令の結果を予測する。パイプライン回路［２２５、２３０、２３５、２３１、２３２、２３３］は、分岐命令の予測された分岐からの第１のパスに沿った命令を処理する。第１のパスに沿った命令は、分岐命令の予測されていない分岐からの第２のパスに沿った命令を処理することと同時に処理される。第２のパスを処理している間の第２の部分の状態を表す情報は、１つ以上のバッファに記憶される。命令は、分岐命令の結果の誤予測に応じて、バッファに記憶された情報を使用して、第２のパスに沿って処理される。場合によっては、分岐予測回路は、予測された結果に対する信頼度レベルを判定し、予測されていない分岐からの第２のパスに沿った命令は、信頼度レベルが閾値信頼度を下回ることに応じて処理される。
【選択図】図７

Description

処理ユニットは、命令を実行するために１つ以上のパイプラインを実装する。パイプラインは、通常、分岐命令の最も可能性の高い結果を予測する分岐予測器を含み（又は関連付けられており）、それにより、パイプラインは、処理ユニットが分岐命令を評価する前に、予測された分岐からのパスに沿って、後続の命令を投機的に実行し始めることができる。本明細書で使用される場合、「パイプライン」という用語は、命令を処理するハードウェアコンポーネントの論理的又は物理的なグルーピングを指し、「パス」という用語は、実行されている命令のシーケンス又はグルーピングを指す。処理ユニットは、分岐予測構造内の情報を使用して、分岐命令の結果を予測する。例えば、処理ユニットは、ｉｆ－ｔｈｅｎ－ｅｌｓｅ及びｃａｓｅステートメント等のソフトウェア構成を実装する条件分岐命令の結果を予測することができる。分岐予測構造の例には、プログラムのフローを以前にアクセスされた命令にリダイレクトする間接分岐予測器、処理ユニット上で実行されるサブルーチンのリターンアドレスを含むリターンアドレススタック、条件分岐の方向（分岐又は非分岐）を予測する条件分岐予測器、並びに、分岐命令の場所、タイプ及びターゲットアドレスを予測する情報を含む分岐ターゲットバッファが含まれる。分岐予測構造のいくつかの実装形態は、予測アルゴリズムの一部として処理ユニット上で以前に実行されていた又は現在実行されているプロセスによって実行された分岐命令の結果の分岐履歴を使用する。例えば、分岐命令が以前にプログラムフローを現在の実行履歴で９０％の時間の第１のアドレス及び１０％の時間の第２のアドレスに向けていた場合、分岐予測構造内の対応するエントリは、分岐命令がプログラムフローを第１のアドレスに向け、それによってプロセスが、分岐命令の評価を待つことなく、第１のアドレスの命令から始まるパスに沿って命令を投機的に実行することを可能にすることを予測する。

本開示は、添付の図面を参照することによってより良好に理解され、その多くの特徴及び利点が当業者に明らかになる。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、処理システムのブロック図である。いくつかの実施形態による、プロセッサコアを含む処理システムの一部のブロック図である。いくつかの実施形態による、分岐予測リダイレクトのための分岐命令の予測された分岐からのメインパス及び予測されていない分岐からの代替パスに沿った同時実行をサポートするパイプラインの第１の部分のブロック図である。いくつかの実施形態による、分岐予測リダイレクトのためのメインパス及び代替パスに沿った実行をサポートするパイプラインの第２の部分のブロック図である。いくつかの実施形態による、分岐命令の予測された分岐からのメインパスに沿って命令を処理するための第１のパイプライン及び分岐命令の予測されていない分岐からの代替パスに沿って命令を処理するための第２のパイプラインを含む処理ユニットの第１の部分のブロック図である。いくつかの実施形態による、図５のパイプラインの第２の部分のブロック図である。いくつかの実施形態による、予測された分岐からのメインパスに沿った命令の同時実行及び予測されていない分岐からの代替パスに沿った命令の実行を使用して、リダイレクトを行う方法のフロー図である。

従来の投機的実行では、分岐命令は、予測されたパスに沿った投機的実行が開始した後に評価される。分岐命令の評価は、分岐命令の実際のターゲットアドレスを示し、これは、予測されたターゲットアドレスと比較されて、予測された結果が正しかったかどうかを判定する。予測された分岐からのパスに沿った命令の投機的実行の結果は、実際のターゲットアドレスが予測されたターゲットアドレスと同じである場合にコミットする。しかしながら、予測された分岐が誤っていることが判明した場合、誤って予測された分岐からのパスに沿った投機的実行が中断され、処理ユニットの状態は、正しいパスに沿って実行を開始するために、分岐命令における状態にロールバックされる。より具体的には、分岐予測ユニット及びフェッチユニットの両方がロールバックされて、分岐の正しいターゲットからの命令又は分岐が行われなかった場合には、分岐後のアドレスを処理する。処理パイプラインにおける主要な性能測定基準は、リダイレクト待ち時間であり、これは、例えば、誤って予測された分岐に続く正しいアドレスから処理するために処理ユニットの状態をロールバックすることによって、誤って予測されたパスから正しいパスにリダイレクトするのに必要なサイクル数として定義される。分岐予測に続いて分岐命令のリタイアメントまで命令を処理する処理パイプラインは、命令／演算キャッシュ、デコード、実行及びリタイアステージ等のいくつかのステージを含む。予測された分岐が正しいことの確認は、処理パイプラインの比較的深いところで行われ、その結果、誤った分岐予測に対するリダイレクト待ち時間が比較的長くなる。

図１～図７は、分岐命令の予測された分岐からの命令のメインパス（又は簡潔にするために「メインパス」）を処理するのと同時に、分岐命令の予測されていない分岐からの命令の代替パス（又は簡潔にするために「代替パス」）を処理することによって、処理ユニットにおける分岐予測に関連付けられたリダイレクト待ち時間を低減するための技術を開示する。パイプラインの第１の部分はメインパスとして処理し、パイプラインの第２の部分は代替パスを処理する。いくつかの実施形態では、パイプラインの第１及び第２の部分は、ハードウェアの異なるセットを使用して実装される。例えば、第１及び第２の部分は、パイプライン回路の一部を使用する個別のパイプラインとして実装することができる。いくつかの実施形態では、第１及び第２の部分は、共有ハードウェア、例えば、時分割多重化方式で異なる命令セットを実行するために第１及び第２の部分によって使用される単一パイプラインを用いて実装される。例えば、ハードウェア回路及びバッファの共有セットを介して、メインパス及び代替パスを処理するために、異なるスレッドを割り当てることができる。誤予測の場合、代替パスに割り振られたスレッドは、以下で説明するように、新しいメインパスになるようにリネーム（renamed）される。

代替パスを処理する結果は、１つ以上のリダイレクトバッファに記憶され、バッファされた結果を使用して、分岐命令に対する誤った予測に応じて、代替パスの実行を継続するようにパイプラインの第１の部分を再構成する。いくつかの実施形態では、パイプラインの第２の部分は、分岐予測器、変換索引バッファ、命令キャッシュ、演算キャッシュ、デコーダ、ディスパッチャ及び実行ステージ又はセクションのうち１つ以上に続くリダイレクトバッファを含む。次いで、１つ以上のマルチプレクサを使用して、誤った分岐予測に応じて、代替結果をバッファからパイプラインの第１の部分に伝達する。例えば、同時マルチスレッディングを実装するプロセッサ（又はプロセッサコア）は、第１の論理又は物理パイプライン（又は第１のハードウェアスレッド）を使用して、メインパスに沿ってソフトウェアスレッドを実行し、第２の論理又は物理パイプライン（又は第２のハードウェアスレッド）を使用して、代替パスを実行する。代替パス（場合によっては、メインパス）の状態情報は、リダイレクトバッファに記憶される。誤予測の検出に応じて、代替パスを実行していた第２のハードウェアスレッドの状態情報が第１のハードウェアスレッドに切り替えられ、プロセッサは、第１のハードウェアスレッドを使用して、代替パスを実行し続ける。いくつかの実施形態では、誤ったパスを保持する第２のハードウェアスレッドの状態情報が破棄され、別のフォークポイントに使用するために解放される。例えば、第２のハードウェアスレッドは、誤ったパスの代わりに使用される正しいパスの確認に応じて、破棄され得る。より多くのバッファをパイプラインのより深いところに含めることは、誤予測に続く命令が従来の実装における他の命令よりも早くリタイアされ得るので、リダイレクト待ち時間を低減するが、これは、代替パスに沿って命令を処理しているパイプラインに割り振られるリソースを増加させる。

パイプラインのいくつかの実施形態は、分岐予測が正しいという信頼度が低い場合、予測されていない分岐からの代替パスをメインパスと同時に選択的に処理する。例えば、代替パスは、分岐予測器によって返された信頼度レベルが閾値信頼度を下回ることに応じて、処理される。分岐予測器は、代替パスを実行するために使用する利用可能なハードウェアスレッドがある場合に、フォークポイントを生成し、状態を代替ハードウェアスレッドに同期させる。次いで、分岐予測器は、代替パス内の命令が別のソフトウェアスレッドの一部であるかのように、代替パスを処理する。分岐予測器によって返された信頼度レベルが閾値信頼度を上回る場合、代替パスが実行されない。タグ付けされた幾何学的（tagged geometric、ＴＡＧＥ）長予測器を使用して分岐予測を実装する実施形態では、分岐予測の信頼度レベルは、ＴＡＧＥ代替カウント、プロバイダカウント及びバイモーダルカウントの重み付けされた値又は正規化された値を加算し、結果を閾値と比較することによって判定される。ハッシュパーセプトロンアルゴリズムを使用して分岐予測を実装する実施形態では、信頼度レベルは、全てのテーブル読取りのカウントを加算し、結果を閾値と比較することによって判定される。分岐予測器のいくつかの実施形態は、分岐信頼度を判定するために使用されるフィードバックを受信する。フィードバックの例は、ヒューリスティック、分岐タイプ、ループ出口（loop exit）及び代替間接アドレスを含むが、これらに限定されない。いくつかの実施形態では、代替パスを実行するパイプラインを実装するために使用されるリソースは、分岐命令に対する分岐予測の信頼度レベルが閾値信頼度を上回る場合、他の命令を処理するために割り振られる。代替パスを実行するために使用されるパイプラインは、追加の変換索引バッファ、命令キャッシュ、演算キャッシュ、デコーダ、ディスパッチャ等の異なる回路を使用して、又は、メインパス及び代替パスによって共有される共通回路の時分割多重化割振りによって、又は、それらの組み合わせによって実装される。

図１は、いくつかの実施形態による、処理システム１００のブロック図である。処理システム１００は、ダイナミックランダムアクセスメモリ（dynamic random-access memory、ＤＲＡＭ）等の非一時的なコンピュータ可読記憶媒体を使用して実装されるメモリ１０５又は他の記憶コンポーネントを含むか、又は、それらへのアクセスを有する。しかしながら、場合によっては、メモリ１０５は、スタティックランダムアクセスメモリ（static random-access memory、ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装することもできる。メモリ１０５は、処理システム１００において実装される処理ユニットの外部に実装されるために外部メモリと呼ばれる。また、処理システム１００は、メモリ１０５等のように、処理システム１００において実装されるエンティティ間の通信をサポートするためのバス１１０を含む。処理システム１００のいくつかの実施形態は、他のバス、ブリッジ、スイッチ、ルータ等を含むが、これらは明確にするために図１に示されていない。

処理システム１００は、ディスプレイ１２０上で提示するための画像をレンダリングするグラフィックス処理ユニット（graphics processing unit、ＧＰＵ）１１５を含む。例えば、ＧＰＵ１１５は、オブジェクトをレンダリングして、ディスプレイ１２０に提供されるピクセルの値を生成し、ディスプレイ１２０は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。ＧＰＵ１１５は、命令を同時に又は並列に実行する複数のプロセッサコア１２１、１２２、１２３（本明細書ではまとめて「プロセッサコア１２１～１２３」と呼ばれる）を実装する。ＧＰＵ１１５において実装されるプロセッサコア１２１～１２３の数は、設計上の選択の問題であり、ＧＰＵ１１５のいくつかの実施形態は、図１に示されるよりも多い又は少ないプロセッサコアを含む。ＧＰＵ１１５のいくつかの実施形態は、汎用コンピューティングのために使用される。ＧＰＵ１１５は、メモリ１０５に記憶されたプログラムコード１２５等の命令を実行し、ＧＰＵ１１５は、実行された命令の結果等の情報をメモリ１０５に記憶する。

また、処理システム１００は、バス１１０に接続され、したがってバス１１０を介してＧＰＵ１１５及びメモリ１０５と通信する中央処理装置（ＣＰＵ）１３０を含む。ＣＰＵ１３０は、命令を同時に又は並列に実行する複数のプロセッサコア１３１、１３２、１３３（本明細書ではまとめて「プロセッサコア１３１～１３３」と呼ばれる）を実装する。ＣＰＵ１３０において実装されるプロセッサコア１３１～１３３の数は、設計上の選択の問題であり、いくつかの実施形態は、図１に示されるよりも多い又は少ないプロセッサコアを含む。プロセッサコア１３１～１３３は、メモリ１０５に記憶されたプログラムコード１３５等の命令を実行し、ＣＰＵ１３０は、実行された命令の結果等の情報をメモリ１０５に記憶する。また、ＣＰＵ１３０は、ＧＰＵ１１５にドローコールを発行することによって、グラフィック処理を開始することができる。ＣＰＵ１３０のいくつかの実施形態は、同時に又は並列に命令を独立して実行する複数のプロセッサコア（明確化のために図１に示されていない）を含む。

入力／出力（input/output、Ｉ／Ｏ）エンジン１４５は、ディスプレイ１２０と関連付けられた入力又は出力演算、並びに、キーボード、マウス、プリンタ、外部ディスク等の処理システム１００の他の要素を扱う。Ｉ／Ｏエンジン１４５は、Ｉ／Ｏエンジン１４５がメモリ１０５、ＧＰＵ１１５又はＣＰＵ１３０と通信するようにバス１１０に結合される。図示した実施形態では、Ｉ／Ｏエンジン１４５は、コンパクトディスク（compact disc、ＣＤ）、デジタルビデオディスク（digital versatile disc、ＤＶＤ）等の非一時的なコンピュータ可読記憶媒体を使用して実装される、外部記憶コンポーネント１５０に記憶された情報を読み取る。また、Ｉ／Ｏエンジン１４５は、ＧＰＵ１１５又はＣＰＵ１３０による処理の結果等の情報を外部記憶コンポーネント１５０に書き込むことができる。

処理システム１００は、パイプラインの複数のステージにおいて命令を実行するためのパイプライン回路を実装する。パイプライン回路は、プロセッサコア１２１～１２３又はプロセッサコア１３１～１３３のいくつかの実施形態において実装される。パイプラインにおいて実行される命令は、分岐命令の条件の結果に応じて、プログラムフローを異なるターゲットアドレスに向ける分岐命令を含む。本明細書で説明されるように、パイプライン回路は、分岐命令の結果を予測する分岐予測回路を含む（又はそれに関連付けられる）。パイプラインは、予測された結果に基づいて投機的実行を行い、例えば、パイプライン回路は、命令のいわゆるメインパス又は簡潔にするために「メインパス」に沿って、分岐命令の予測された分岐を行う。本明細書で説明するように、分岐予測器は、分岐命令の結果を誤って予測することがあり、これは、予測されていない分岐（例えば、分岐命令の予測されていないターゲットアドレス）へのリダイレクトを必要とする。したがって、処理システム１００は、第１のパイプラインに沿って予測された分岐からメインパスを実行するのと同時に、第２のパイプラインを使用して、分岐命令の予測されていない分岐から代替パス（又は簡潔にするために「代替パス」）に沿って命令を実行することによって、リダイレクト待ち時間を低減しようと試みる。第１及び第２のパイプラインは、互いに完全に若しくは部分的に物理的に個別であってもよく、又は、いくつかの実施形態では、第１及び第２のパイプラインは、互いに完全に若しくは部分的に論理的に個別であってもよい。第２のパイプライン内の代替パスの状態を表す情報は、１つ以上のバッファに記憶される。代替パスの実行は、分岐命令の結果の誤予測に応じて、１つ以上のバッファに記憶された情報を使用して、第２のパイプラインから第１のパイプラインに切り替えられる。分岐予測回路のいくつかの実施形態は、予測された結果に対する信頼度レベルを判定し、予測されていない分岐からの代替パスは、信頼度レベルが閾値信頼度を下回ることに応じて、第２のパイプラインを使用して処理される。

図２は、いくつかの実施形態による、プロセッサコア２０５を含むプロセッサシステムの一部（部分）２００のブロック図である。プロセッサコア２０５は、図１に示されるプロセッサコア１２１～１２３、１３１～１３３のいくつかの実施形態を実装するために使用される。また、処理システムの部分２００は、図１に示されるメモリ１０５のいくつかの実施形態を実装するために使用されるメモリ２１０を含む。図２に示されるエンティティのいくつかの実施形態は、特定用途向け集積回路（application-specific integrated circuits、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（field programmable gate arrays、ＦＰＧＡ）、他の回路、又は、それらの組み合わせを含む回路として実装される。プロセッサコア２００は、条件分岐予測器記憶装置及び条件分岐予測論理を含む分岐予測ユニット２１５を含む。条件分岐予測記憶装置は、メモリ２１０内の場所のアドレスを記憶し、条件分岐予測論理は、分岐命令の結果を予測する。メモリ２１０に記憶された情報の一部のコピーもキャッシュ２２０に記憶される。例えば、頻繁にアクセスされる命令は、キャッシュ２２０のキャッシュライン又はキャッシュブロックに記憶される。

また、分岐予測ユニット２１５のいくつかの実施形態は、分岐命令の予測された結果に対する信頼度レベルを推定する回路を含む。例えば、分岐予測がタグ付けされた幾何学的（ＴＡＧＥ）長予測器を使用して行われる場合、分岐予測の信頼度レベルは、ＴＡＧＥ代替カウント、プロバイダカウント及びバイモーダルカウントの重み付けされた値又は正規化された値を加算し、結果を閾値と比較することによって判定される。別の例では、分岐予測がハッシュパーセプトロンアルゴリズムを使用して行われる場合、信頼度レベルは、全てのテーブル読取りのカウントを加算し、結果を閾値と比較することによって判定される。

フェッチユニット２２５は、分岐予測ユニット２１５から受信したアドレスに基づいて、メモリ２１０又はキャッシュ２２０から命令等の情報をフェッチする。フェッチユニット２２５は、キャッシュ２２０又はメモリ２１０から命令を表すバイトを読み出し、命令をデコードユニット２３０に送信する。デコードユニット２３０は、命令バイトを検査し、命令の機能を判定する。デコードユニット２３０は、命令を変換（すなわち、デコード）して、プロセッサコア２０５によって行われる一連の演算を生成する。デコードされた演算は、スケジューラ２３５に書き込まれる。スケジューラ２３５は、演算のためのソース値の準備ができるときを判定し、演算を行うために、本明細書ではまとめて「実行ユニット２３１～２３３」と呼ばれる１つ以上の実行ユニット２３１、２３２、２３３にソース値を送信する。結果は、レジスタファイル２４０に書き戻される。

分岐予測ユニット２１５のいくつかの実施形態は、現在のプロセス又はプロセッサコア２０５上で以前に実行されたプロセスによって以前に実行された分岐命令に関連付けられたエントリを含む。分岐予測ユニット２１５の各エントリに記憶された分岐予測情報は、分岐命令がプログラムフローを命令のアドレスに向ける可能性を示す。分岐予測ユニット２１５内のエントリは、対応する分岐命令のアドレスに基づいてアクセスされる。例えば、分岐命令の物理アドレス、仮想アドレス又はキャッシュラインアドレスを表すビットの値（又はそのサブセット）が、分岐予測ユニット２１５へのインデックスとして使用される。別の例では、ビットのハッシュ値（又はそのサブセット）が、分岐予測ユニット２１５へのインデックスとして使用される。分岐予測構造の例は、間接分岐予測器、リターンアドレススタック、分岐ターゲットバッファ、条件分岐予測器、分岐履歴、又は、分岐予測情報を記憶するために使用される任意の他の予測器構造を含む。

スケジューラ２３５は、プロセッサコア２０５による命令の実行をスケジューリングする。スケジューラ２３５のいくつかの実施形態は、分岐命令によって示されるメモリ２１０（又は関連するキャッシュ２２０）内のアドレスにある命令にプログラムフローをリダイレクトする分岐命令に続く命令の投機的実行を行う。分岐命令は、条件が真であるか又は偽であるかに応じて、プログラムフローをアドレスにリダイレクトする条件分岐命令を含む。例えば、条件分岐命令は、ｉｆ－ｔｈｅｎ－ｅｌｓｅ及びｃａｓｅステートメント等のソフトウェア構成を実装するために使用される。また、分岐命令は、命令によって示されるアドレスにプログラムフローを常にリダイレクトする無条件分岐命令を含む。例えば、ジャンプ（jump、ＪＭＰ）命令は、常に、命令によって示されるアドレスにジャンプする。場合によっては、分岐が実行される度にターゲットが異なり得るように、ターゲットアドレスがレジスタ又はメモリ場所に提供される。このような分岐は間接分岐と呼ばれる。分岐予測器２１５によって予測されたメモリ２１０内のアドレスから開始して実行される命令を含むプログラムフローの部分は、投機的実行の「メイン」パスと呼ばれる。スケジューラ２３５は、プロセッサコア２００内に実装された処理パイプラインによって、メインパスに沿って実行される命令をスケジューリングする。

また、スケジューラ２３５はまた、メモリ２１０内の別の場所における代替ターゲットアドレス又は分岐命令に続くアドレス等の予測されていないアドレスから開始する命令をスケジューリングする。メモリ２１０内の予測されていないアドレスから開始して実行される命令を含むプログラムフローの部分は、投機的実行の「代替」パスと呼ばれる。いくつかの実施形態において、スケジューラ２３５は、予測についての信頼度レベルに基づいて、異なるパイプライン上での同時実行のために代替パスを選択的にスケジューリングする。例えば、スケジューラ２３５は、信頼度レベルが閾値信頼度レベルを下回ることに応じて、処理のために代替パスをスケジューリングする。スケジューラ２３５は、例えば、実行ユニット２３１～２３３によって実装される個別のパイプライン（又はその部分）を使用して、同時実行のためにメインパス及び代替パスをスケジューリングする。スケジューラ２３５のいくつかの実施形態は、実行ユニット２３１～２３３のうちの１つ又はそれらの組み合わせ等の共有回路の時分割多重化リソースを使用して、異なる回路（例えば、異なる実行ユニット２３１～２３３において実装されるパイプライン）上での同時実行のために、メインパス及び代替パスをスケジューリングする。

第１のパイプラインは、誤予測が検出されない限り、メインパスを処理し続ける。処理中に誤予測が検出されない場合、メインパス上の命令がリタイアされる。しかし、代替パスの状態は、第２のパイプラインに沿った代替パスの処理中に１つ以上のバッファに記憶される。誤予測が検出される場合、バッファに記憶された状態情報を使用して、代替パスが新しいメインパスになるように、代替パスを第２のパイプラインから第１のパイプラインに切り替える。本明細書で説明するように、バッファは、第２のパイプラインに沿った場所に実装される。したがって、誤予測に応じて、代替パスの実行を第２のパイプラインから第１のパイプラインに切り替えることは、予測されていない分岐からの代替パスに沿った処理が誤予測の後にのみ開始される場合に必要とされるリダイレクト待ち時間よりも短いリダイレクト待ち時間でリダイレクトを行うことを可能にする。したがって、処理システムの部分２００は、リダイレクト待ち時間の低減という利益を伴って、メインパス及び代替パスの同時実行をサポートするために、追加のハードウェア及びリソースのコストをトレードオフする。低い信頼度レベルを有する分岐予測に対してメイン及び代替パスの同時実行を選択的に行うことは、低い信頼度レベルを有する分岐予測が誤予測される可能性がより高いので、コストと利益との間のトレードオフが好ましい可能性を増大させる。

図３は、いくつかの実施形態による、分岐予測リダイレクトのためのメインパス及び代替パスの同時実行をサポートするパイプラインの第１の部分３００のブロック図である。パイプラインの第１の部分３００は、図１に示される処理システム１００及び図２に示される処理システムの部分２００のいくつかの実施形態において実装される。第１の部分３００は、パイプラインの第１の部分３００において処理されている分岐命令の結果を予測する分岐予測器３０５を含む。また、分岐予測器３０５のいくつかの実施形態は、予測された結果に対する信頼度レベルを生成する。例えば、分岐予測器３０５が、タグ付けされた幾何学的（ＴＡＧＥ）長予測器を使用して分岐予測を実装する場合、分岐予測器３０５は、ＴＡＧＥ代替カウント、プロバイダカウント及びバイモーダルカウントの重み付けされた値又は正規化された値を加算し、その結果を閾値と比較することによって、分岐予測の信頼度レベルを判定する。別の例では、分岐予測器３０５がハッシュパーセプトロンアルゴリズムを使用して分岐予測を実装する場合、分岐予測器３０５は、全てのテーブル読取りのカウントを加算し、その結果を閾値と比較することによって、信頼度レベルを判定する。

パイプラインの部分３００は、分岐命令の予測された分岐からのメインパス及び分岐命令の予測されていない分岐からの代替パスを同時に処理する。本明細書で説明するように、部分３００のいくつかの実施形態は、結果の信頼度レベルと信頼度閾値との比較に基づいて、代替パスを選択的に処理する。代替パスは、信頼度レベルが低い（例えば、信頼度閾値を下回る）場合に処理され、予測された結果における信頼度レベルが高い（例えば、信頼度閾値を上回る）場合には処理されない。メインパス及び代替パスの状態情報は、リダイレクトバッファ３１０に提供される。

コントローラ３１５は、リダイレクトバッファ３１０からの命令にアクセスし、メインパス又は代替パスに沿って命令を選択的に向ける。メインパスに沿って向けられる命令は、バッファ３２０に伝達され、代替パスに沿って向けられる命令は、バッファ３２５に伝達される。

命令キャッシュ（instruction cache、ＩＣ）３３０は、バッファ３２５からの命令にアクセスし、命令は、命令によって必要とされるデータが利用可能になるまで、命令キャッシュ３３０内に保持される。命令キャッシュ３３０は、メインパス及び代替パスに沿った同時処理中に、メインパスに沿った命令及び代替パスに沿った命令を保持するために使用される。いくつかの実施形態では、命令キャッシュ３３０は、異なるハードウェアコンポーネントがメインパスのための命令及び代替パスのための命令を記憶するために割り振られるように、複数のキャッシュ又は区分キャッシュ（partitioned cache）として実装される。いくつかの実施形態では、命令キャッシュ３３０は、例えば、パイプラインのリソースの時分割多重化をサポートするために、メインパス及び代替パスによって共有される共通リソースである。命令キャッシュ３３０の後に代替パスを実行しているパイプラインの部分３００の状態を示す状態情報が１つ以上のバッファ３３５に記憶される。

デコードの準備ができている命令は、命令キャッシュ３３０からデコーダ３４０に（バッファ３３５を介して）プッシュされ、デコーダ３４０は、命令のデコードを行う。デコーダ３４０は、デコーダ３４０の異なるハードウェアインスタンスを使用して、又は、デコーダ３４０の共通インスタンスの共有リソースを時分割多重化して、メインパス及び代替パスに沿って命令をデコードするために使用される。デコーダ３４０は、デコードされた命令をマルチプレクサ３４５に提供し、このマルチプレクサは、デコードされた命令を、ノード１に接続されている１つ以上のバッファ３５０に選択的に提供し、このノード１は、図４に示されるパイプラインの第２の部分４００に示される同じノード１に接続される。

いくつかの実施形態では、バッファ３５０は、図４に示される第１の部分３００において行われるフロントエンド作業と第２の部分４００において行われるバックエンド作業との間の区分（partition）として機能する。バッファ３５０は、第１の部分３００において行われる状態情報及び作業を記憶する。状態情報は、命令のデコードがバッファ３５０に記憶された後に代替パスを実行しているパイプラインの部分３００の状態を示す。フォークポイントである分岐が評価されることに応じて、例えば、図４に示される分岐確認ブロック４３５において、バッファ３５０からフラッシュされるパス及びメインパスとして維持又は確立されるパスが選択される。

また、部分３００はまた、以前にデコードされた命令をキャッシュする演算キャッシュ（operation cache、ＯＣ）３５５を含み、命令は、マルチプレクサ３４５に提供されるまで演算キャッシュ３５５に保持される。演算キャッシュ３５５は、メインパス及び代替パスに沿って以前にデコードされた命令をキャッシュするために使用される。いくつかの実施形態において、演算キャッシュ３５５は、異なるハードウェアコンポーネントがメインパス及び代替パスに沿って以前にデコードされた命令をキャッシュするために割り振られるように、複数のキャッシュ又は区分キャッシュとして実装される。いくつかの実施形態では、演算キャッシュ３５５は、例えば、パイプラインのリソースの時分割多重化をサポートするために、メインパス及び代替パスによって共有される共通リソースである。

図示した実施形態では、部分３００は、分岐予測器３０５による分岐命令の結果の誤予測に応じて生成されるリダイレクトの要求を保持するリダイレクトキュー３６０を含む。また、部分３００は、分岐命令の結果の誤予測に応じて、メインパスから代替パスへのリダイレクトの要求を保持する代替リダイレクトキュー３６５を含む。リダイレクト要求は、図４に示されるパイプラインの部分４００において、ノード２及び対応するノード２を介して受信される。リダイレクトキュー３６０及び代替リダイレクトキュー３６５のいくつかの実施形態は、パイプラインにおいて行われた演算の履歴を表す情報及び誤予測を検出することに応じてパイプライン状態のロールバックのために使用されるパス予測情報を記憶する。

図４は、いくつかの実施形態による、分岐予測リダイレクトのためのメインパス及び代替パスに沿った同時実行をサポートするパイプラインの第２の部分４００のブロック図である。パイプラインの第２の部分４００は、図１に示される処理システム１００及び図２に示される処理システムの部分２００のいくつかの実施形態において実装される。図４に示される第２の部分４００は、図３に示される第１の部分における対応するノード１及び２に接続するノード１及び２を介して、図３に示される第１の部分３００と通信する。

デコードされた命令は、ノード１を介して第２の部分４００で受信される。デコードされた命令は、次に、ディスパッチモジュール４１０に提供され、ディスパッチモジュール４１０は、１つ以上のバッファ４１５を介した実行モジュール４２０における実行のために、デコードされた命令をディスパッチする。命令のディスパッチ後に代替パスを実行しているパイプラインの部分４００の状態を示す状態情報は、１つ以上のバッファ４１５に記憶され、実行後の状態を示す状態情報は、１つ以上のバッファ４２５に記憶される。実行モジュール４２０が命令の実行を完了することに応じて、命令は、１つ以上のバッファ４２５を介して、リタイアモジュール４３０に提供され、命令をリタイアし、結果をメモリにコミットする。

図示した実施形態では、ディスパッチモジュール４１０、実行モジュール４２０及びリタイアモジュール４３０は、メインパス及び代替パスに沿って同時に命令を実行するパイプラインを実装するために使用される。いくつかの実施形態において、モジュールは、メインパス及び代替パスに沿って命令を実行するために個別に割り振られている異なるハードウェアコンポーネントを使用して実装される。いくつかの実施形態では、モジュールの各々は、例えば、パイプラインのリソースの時分割多重化をサポートするために、メインパス及び代替パスによって共有される共通リソースである。

分岐確認回路４３５は、分岐予測器（例えば、図３に示される分岐予測器３０５）が分岐命令の結果を正しく予測したかどうかを判定する。そうである場合、メインパスに沿って予測された分岐を処理した結果がリタイアされる。そうでない場合、分岐確認回路４３５は、代替パスをメインパスに切り替えるためのリダイレクト要求を生成する。切り替えパスは、図３に示されるバッファ３１０、３２０、３２５、３３５、３５０又は図４に示されるバッファ４１５、４２５のうち１つ以上に記憶された状態情報を使用する。例えば、バッファ４１５に記憶された状態情報を使用して、実行モジュール４２０の前に代替パスを実行していたパイプラインの状態に対応するように、メインパスに以前に割り振られていた実行モジュール４２０の部分を再構成することができる。次に、再構成メインパスに沿った処理が再開され、その結果、誤って予測されたメインパスから予測されていない代替パスへのリダイレクトが、リダイレクトが図３に示す分岐予測器３０５で予測された代替パスに沿って処理を開始することを必要とする場合に必要とされるより短いリダイレクト待ち時間で行われる。

パイプラインの図示した実施形態は、図３に示されるバッファ３１０、３２０、３２５、３３５、３５０、又は図４に示されるバッファ４１５、４２５を含むが、パイプラインのいくつかの実施形態は、パイプライン内の同じ又は異なる場所に実装されるより多くの又はより少ないバッファを含む。バッファの数又は場所は、コストの増加とリダイレクト待ち時間の減少との間のトレードオフに基づいて判定される。例えば、バッファ３１０、３２０、３２５、３３５、３５０を実装し、パイプラインからバッファ４１５、４２５を省略することによって、比較的長いリダイレクト待ち時間に対してコストがより低くなる。

図５は、いくつかの実施形態による、分岐命令の予測された分岐からのメインパスに沿って命令を処理するための第１のパイプライン５０１及び分岐命令の予測されていない分岐からの代替パスに沿って命令を処理するための第２のパイプライン５０２を含む処理ユニットの第１の部分５００のブロック図である。処理ユニットの第１の部分５００は、図１に示される処理システム１００及び図２に示される処理システムの部分２００のいくつかの実施形態において実装される。第１の部分５００は、パイプラインの第１の部分５００において処理されている分岐命令の結果を予測する分岐予測器５０５を含む。また、分岐予測器５０５のいくつかの実施形態は、本明細書で説明されるように、予測された結果に対する信頼度レベルを生成する。第１のパイプライン５０１を使用する予測された分岐からのメインパスの処理を表す状態情報がバッファ５１０に記憶され、第２のパイプライン５０２を使用する予測されていない分岐からの代替パスの処理を表す状態情報がバッファ５１１に記憶される。

パイプラインの第１の部分５００は、第１のパイプライン５０１を使用してメインパスを、第２のパイプライン５０２を使用して代替パスを同時に処理する。本明細書で説明するように、部分５００のいくつかの実施形態は、結果の信頼度レベルと信頼度閾値との比較に基づいて、代替パスを選択的に処理する。第２のパイプライン５０２は、信頼度レベルが低い（例えば、信頼閾度値を下回る）場合に代替パスを処理し、予測された結果における信頼度レベルが高い（例えば、信頼度閾値を上回る）場合に代替パス５０２を処理しない。第２のパイプライン５０２を実装するために使用されるハードウェアは、第２のパイプライン５０２が、第１のパイプライン５０１上の予測された分岐からのメインパスを処理することと同時に、予測されていない分岐からの代替パスを処理するために使用されない場合、他の演算を行うために使用され得る。

図示した実施形態において、第１の部分５００は、状態情報が第１のパイプライン５０１と第２のパイプライン５０２との間で交換されることを可能にするマルチプレクサ５１５、５１６を含む。例えば、バッファ５１０からの状態情報は、マルチプレクサ５１６を介して第２のパイプライン５０２に多重化することができ、バッファ５１１からの状態情報は、マルチプレクサ５１５を介して第１のパイプライン５０１に多重化することができる。したがって、マルチプレクサ５１５は、誤予測に応じてバッファ５１１に記憶された状態情報を使用して、例えば、代替パスを処理することに関連付けられた状態を第１のパイプライン５０１に切り替えるために、第１のパイプライン５０１のいくつかの実施形態を再構成するために使用される。いくつかの実施形態において、マルチプレクサ５１６は、予測されていない分岐を処理するために第２のパイプライン５０２が必要とされない場合に、第２のパイプライン５０２のリソースが他の命令を処理するために利用可能であるように、分岐予測器５０５からの情報を第２のパイプライン５０２に多重化するために使用される。

変換索引バッファ（Ｉ－ＴＬＢ）５２０、５２１は、それぞれ第１のパイプライン５０１及び第２のパイプライン５０２に沿って処理される命令によって頻繁に使用されるアドレスを記憶するために使用される。変換索引バッファ５２０、５２１は、矢印５２５、５２６によって示されるように、変換索引バッファ５２０、５２１によって受信された仮想アドレスのアドレス変換の要求を送信し、仮想アドレスから物理アドレスへの要求された変換を含む応答を受信する。変換索引バッファ５２０の演算に続く第１のパイプライン５０１に沿った予測された分岐からのメインパスの処理を表す状態情報がバッファ５１０に記憶され、変換索引バッファ５２１の演算に続く第２のパイプライン５０２に沿った予測されていない分岐からの代替パスの処理を表す状態情報がバッファ５１１に記憶される。

第１のパイプライン５０１及び第２のパイプライン５０２は、バッファ５３０、５３１からのアドレス変換を含む状態情報にアクセスする対応する命令キャッシュ（ＩＣ）５３５、５３６を含む。命令は、命令によって必要とされるデータが利用可能になるまで、命令キャッシュ５３５、５３６内に保持される。命令キャッシュ５３５は、Ｌ１キャッシュ５４０からの情報を要求する。第２のパイプライン５０２内の命令キャッシュ５３６も、Ｌ１キャッシュ５４０からの情報を要求することができるが、このパスは、明確にするために矢印によって示されていない。また、第１のパイプライン５０１及び第２のパイプライン５０２は、以前にデコードされた命令をキャッシュする対応する演算キャッシュ（ＯＣ）５４５、５４６を含み、命令は、演算キャッシュ５４５、５４６内に保持される。

情報は、マルチプレクサ等の回路を使用して、第１のパイプライン５０１と第２のパイプライン５０２との間で交換される。図示した実施形態では、第１のパイプライン５０１は、バッファ５３１からの状態情報を第１のパイプライン５０１内の命令キャッシュ５３５又は演算キャッシュ５４５に多重化するマルチプレクサ５５０、５５１を含む。したがって、マルチプレクサ５５０、５５１は、誤予測に応じてバッファ５３１に記憶された状態情報を使用して、例えば、代替パスを処理することに関連付けられた状態を、予測されていない分岐から第１のパイプライン５０１に切り替えるために、第１のパイプライン５０１のいくつかの実施形態を再構成するために使用される。図示した実施形態では、第２のパイプライン５０２は、バッファ５３０からの状態情報を第２のパイプライン５０２内の命令キャッシュ５３６又は演算キャッシュ５４６に多重化するマルチプレクサ５５２、５５３を含む。

図示した実施形態において、演算キャッシュ５４６は、ノード３を介してパイプラインの後続のステージと通信する。命令キャッシュ５３６は、ノード４を介してパイプラインの後続のステージと通信する。演算キャッシュ５４５は、ノード５を介してパイプラインの後続のステージと通信する。命令キャッシュ５３５は、ノード６を介してパイプラインの後続のステージと通信する。

図６は、いくつかの実施形態による、分岐命令の予測された及び予測されていない分岐からのメイン及び代替パスを処理するための第１のパイプライン５０１及び第２のパイプライン５０２を含むパイプラインの第２の部分６００のブロック図である。パイプラインの第２の部分６００は、図１に示される処理システム１００及び図２に示される処理システムの部分２００のいくつかの実施形態において実装される。第２の部分６００は、ノード３～６を介して図５に示される第１の部分５００にリンクされる。図示した実施形態では、バッファ６０１は、ノード３を介して図５に示された演算キャッシュ５４６に続くパイプラインの状態を表す状態情報を受信及び記憶し、バッファ６０２は、ノード４を介して図５に示された命令キャッシュ５３６に続くパイプラインの状態を表す状態情報を受信及び記憶し、バッファ６０３は、ノード５を介して図５に示された演算キャッシュ５４５に続くパイプラインの状態を表す状態情報を受信及び記憶し、バッファ６０４は、ノード６を介して命令キャッシュ５３５に続くパイプラインの状態を表す状態情報を受信及び記憶する。

第２のパイプライン５０２は、演算キャッシュ６１０及びデコーダ６１５を含む。図示した実施形態では、以前にデコードされた演算は、ノード３を介して演算キャッシュ５４６から演算キャッシュ６１０に伝達される。未だデコードされていない命令は、ノード４を介して命令キャッシュ５３６からデコーダ６１５に伝達される。デコーダ６１５は、受信された命令をデコードし、デコードされた命令をマルチプレクサ６２０に提供し、マルチプレクサ６２０は、デコーダ６１５からのデコードされた命令又は演算キャッシュ６１０からのデコードされた命令をバッファ６２５に選択的に提供する。バッファ６２５は、マルチプレクサ６２０に続くパイプラインの状態を表す状態情報、例えば、演算キャッシュ６１０又はデコーダ６１５から受信されたデコードされた命令に関連付けられた状態情報を記憶する。デコードされた命令及び関連付けられた状態情報は、実行のためにデコードされた命令をディスパッチするために、バッファ６２５からディスパッチ回路６３０に提供される。第１のパイプライン５０１は、演算キャッシュ６３５及びデコーダ６４０を含む。

第１のパイプライン５０１及び第２のパイプライン５００は、マルチプレクサ等の回路を介して情報を交換する。図示した実施形態では、第１のパイプライン５０１は、第１のパイプライン５０１内のバッファ６０３、６０４の何れかから又は第２のパイプライン５０２内のバッファ６０１、６０２のうちより多くから、演算キャッシュ６３５又はデコーダ６４０への情報を選択的に多重化するマルチプレクサ６４５、６５０を含む。いくつかの実施形態では、マルチプレクサ６４５、６５０は、本明細書で説明するように、誤予測に応じて、第２のパイプライン５０２内のバッファ６０１、６０２からの情報を演算キャッシュ６３５又はデコーダ６４０に多重化する。図示した実施形態では、第２のパイプライン５０２は、第１のパイプライン５０１内のバッファ６０３、６０４の何れかから又は第２のパイプライン５０２内のバッファ６０１、６０２のうちより多くから、演算キャッシュ６１０又はデコーダ６１５への情報を選択的に多重化するマルチプレクサ６４６、６５１を含む。

マルチプレクサ６５５は、デコーダ６４０からのデコードされた命令又は演算キャッシュ６３５からのデコードされた命令をバッファ６６０に選択的に提供し、バッファ６６０は、マルチプレクサ６５５に続くパイプラインの状態を表す状態情報、例えば、演算キャッシュ６３５又はデコーダ６４０から受信されたデコードされた命令に関連付けられた状態情報を記憶する。デコードされた命令及び関連付けられた状態情報は、バッファ６６０からマルチプレクサ６６５に提供され、このマルチプレクサは、第２のパイプライン５０２内のバッファ６６０又はバッファ６２５からの情報を、デコードされた命令を実行のためにディスパッチするためのディスパッチ回路６７０に選択的に提供する。いくつかの実施形態では、マルチプレクサ６６５は、本明細書で説明するように、誤予測に応じて、第２のパイプライン５０２内のバッファ６２５からディスパッチ回路６７０に情報を提供する。

図７は、いくつかの実施形態による、予測された分岐からのメインパスに沿った及び予測されていない分岐からの代替パスに沿った同時実行を使用して、リダイレクトを行う方法７００のフロー図である。方法７００は、図１に示される処理システム１００、図３及び図４に示されるパイプライン、並びに、図５及び図６に示されるパイプラインのいくつかの実施形態で実施される。

ブロック７０５で、分岐予測器は、分岐命令の結果を予測する。また、分岐予測器は、予測の信頼度レベルを予測する。いくつかの実施形態では、分岐予測の信頼度レベルは、ＴＡＧＥ代替カウント、プロバイダカウント及びバイモーダルカウントの重み付けされた値又は正規化された値を加算し、分岐予測器がＴＡＧＥ長予測器を使用して分岐予測を行う場合、その結果を閾値と比較することによって判定される。分岐予測器がハッシュパーセプトロンアルゴリズムを使用して分岐予測を行う場合、信頼度レベルは、全てのテーブル読取りのカウントを加算し、結果を閾値と比較することによって判定され得る。分岐予測器のいくつかの実施形態は、分岐信頼度を判定するために使用されるフィードバックを受信する。フィードバックの例は、ヒューリスティック、分岐タイプ、ループ出口及び代替間接アドレスを含むが、これらに限定されない。

判定ブロック７１０で、信頼度レベルは、閾値信頼度と比較される。信頼度レベルが閾値よりも大きく、予測において比較的高い信頼度を示す場合、方法７００はブロック７１５に進む。信頼度レベルが閾値以下であり、予測における信頼度が比較的低いことを示す場合、方法７００はブロック７２０に進む。

ブロック７１５で、パイプラインは、メインパスに沿って投機的実行を開始する。パイプラインは、予測における比較的高い信頼度のために、代替パスに沿った予測されていない分岐からの代替パスに沿った命令の同時実行を行わない。判定ブロック７２５で、パイプラインは、メインパスに沿った実行中に誤予測が検出されるかどうかを判定する。誤予測が検出されない場合、方法７００はブロック７３０に進み、メインパスに沿った実行の結果がリタイアされる。誤予測が検出された場合、方法７００はブロック７３５に進み、リダイレクト要求が発行される。リダイレクト要求に応じて、パイプラインがフラッシュされ、パイプラインの状態がロールバックされる。以前に予測されなかった分岐ターゲット又はパスからのパスに沿った命令の実行が開始する。

ブロック７２０で、パイプラインは、予測された分岐からのメインパスに沿った命令の投機的実行及び予測されていない分岐からの代替パスに沿った命令の同時実行を開始する。判定ブロック７４０で、パイプラインは、メインパスに沿った実行中に誤予測が検出されるかどうかを判定する。誤予測が検出されない場合、方法７００はブロック７３０に進み、メインパスに沿った実行の結果がリタイアされる。代替パスの同時実行の結果は破棄される。メインパスの実行中に誤予測が検出された場合、方法７００はブロック７４５に進む。ブロック７４５で、分岐後の現在のメインパスが破棄され、代替パスに関連付けられたバッファに記憶された状態情報が、代替パスをメインパスに切り替えるために使用される。代替分岐パスであったものの実行は、ここで新しいメインパスとして継続する。

本明細書で開示されるように、いくつかの実施形態では、装置は、分岐命令の結果を予測するように構成された分岐予測回路と、分岐命令の予測された分岐からの第１のパスに沿って命令を処理するように構成されたパイプライン回路であって、第１のパスに沿って命令を処理することが、分岐命令の予測されていない分岐からの第２のパスに沿って命令を処理することと時間多重化される、パイプライン回路と、パイプライン回路の少なくとも１つの状態を表す情報を記憶するように構成された少なくとも１つのバッファと、を備え、パイプライン回路は、分岐命令の結果の誤予測に応じて、少なくとも１つのバッファに記憶された情報を使用して、第２のパスに沿って命令を処理するように構成されている。一態様では、パイプライン回路は、第１のパスに沿って命令を処理するように構成されたパイプライン回路の第１の部分及び第２のパスに沿って命令を処理するように構成されたパイプライン回路の第２の部分を含む。別の態様では、少なくとも１つのバッファは、分岐予測回路、変換索引バッファ、命令キャッシュ、演算キャッシュ、デコーダ、ディスパッチャ及びパイプライン回路の実行セクションのうち少なくとも１つによる処理の後にパイプライン回路の第１の部分の状態を表す状態情報を記憶するように構成された少なくとも１つのバッファを含む。

一態様では、装置は、誤予測に応じて、少なくとも１つのバッファに記憶された情報を第２の部分から第１の部分に伝達するように構成された少なくとも１つのマルチプレクサを含む。別の態様では、パイプライン回路は、少なくとも１つのバッファに記憶された情報に基づいて、パイプライン回路の第１の部分を使用して、第１のパスに沿って予測された分岐に関連付けられたスレッドを実行し、第２の部分を使用して、第２のパスに沿って予測されていない分岐に関連付けられたスレッドを実行するように構成された少なくとも１つのプロセッサコアを含む。更に別の態様では、パイプライン回路は、誤予測に応じて、スレッドを第２の部分から第１の部分に切り替えるように構成されている。更に別の態様では、パイプライン回路は、誤予測の確認に応じて、第２の部分上で実行されているスレッドを破棄するように構成されている。

一態様では、分岐予測回路は、予測された結果に対する信頼度レベルを判定するように構成され、パイプライン回路の第２の部分は、信頼度レベルが閾値信頼度を下回ることに応じて、第２のパスに沿って予測されていない分岐を処理するように構成されている。別の態様では、分岐予測回路は、信頼度レベルが閾値信頼度を下回ることに応じて、第２のパスのためのフォークポイントを生成し、第１の部分及び第２の部分上のスレッドを同期させるように構成されている。

いくつかの実施形態では、方法は、分岐命令の結果を予測することと、パイプライン回路において、分岐命令の予測された分岐からの第１のパスに沿って命令を処理することであって、第１のパスに沿って命令を処理することが、分岐命令の予測されていない分岐からの第２のパスに沿って命令を処理することと時間多重化される、ことと、第２のパスを処理しているパイプライン回路の第２の部分の少なくとも１つの状態を表す情報を、少なくとも１つのバッファに記憶することと、分岐命令の結果の誤予測に応じて、少なくとも１つのバッファに記憶された情報を使用して、第２のパスの実行を継続するようにパイプライン回路の第１の部分を再構成することと、を含む。一態様では、パイプライン回路は、第１のパスに沿って命令を処理するように構成されたパイプライン回路の第１の部分及び第２のパスに沿って命令を処理するように構成されたパイプライン回路の第２の部分を含む。別の態様では、第２の部分の少なくとも１つの状態を表す情報を記憶することは、分岐予測器、変換索引バッファ、命令キャッシュ、演算キャッシュ、デコーダ、ディスパッチャ及びパイプライン回路の実行セクションのうち少なくとも１つによって第２のパスを処理した後に、第２の部分の状態を表す状態情報を記憶することを含む。

一態様では、パイプライン回路の第１の部分を再構成することは、誤予測に応じて、少なくとも１つのバッファに記憶された情報を第１の部分に伝達することを含む。別の態様では、予測された分岐から第１のパスに沿って命令を処理することは、予測された分岐に関連付けられたスレッドを実行することを含み、予測されていない分岐から第２のパスに沿って命令を処理することは、少なくとも１つのバッファに記憶された情報に基づいて、予測されていない分岐に関連付けられたスレッドを実行することを含む。更に別の態様では、第１の部分を再構成することは、誤予測に応じて、スレッドを第２の部分から第１の部分に切り替えることを含む。更に別の態様では、方法は、正しい予測の確認に応じて、第２の部分上で実行されているスレッドを破棄することを含む。

一態様では、方法は、予測された結果についての信頼度レベルを判定することと、信頼度レベルが閾値信頼度を下回ることに応じて、第２の部分を使用して、予測されていないものからの第２のパスに沿った命令を処理することと、を含む。別の態様では、方法は、第２のパスのためのフォークポイントを生成することと、信頼度レベルが閾値信頼度を下回ることに応じて、第１の部分及び第２の部分上のスレッドを同期させることと、を含む。

いくつかの実施形態では、方法は、分岐命令の結果及び予測の信頼度レベルを予測することと、パイプライン回路において、分岐命令の予測された分岐からの第１のパスに沿って命令を処理することと、信頼度レベルに基づいて、パイプライン回路を使用して、分岐命令の予測されていない分岐からの第２のパスに沿って命令を選択的に処理することであって、第２のパスに沿って命令を処理することが、第１のパスに沿って命令を処理することと時分割多重化される、ことと、分岐命令の結果の誤予測に応じて、少なくとも１つのバッファに記憶された情報を使用して、第２のパスを第１のパスに切り替えることと、を含む。一態様では、予測されていない分岐を選択的に処理することは、信頼度レベルが閾値信頼度を下回ることに応じて、予測されていない分岐から第２のパスに沿って命令を処理することを含む。別の態様では、予測されていない分岐からの第２のパスに沿って命令を選択的に処理することは、異なる回路及び共有回路の時分割多重化リソースのうち少なくとも１つを使用して、予測された分岐からの第１のパスに沿って命令を処理することと同時に、予測されていない分岐からの第２のパスに沿って命令を処理することを含む。

いくつかの実施形態では、上述の装置及び技術は、図１～図７を参照して上述したプロセッサ等の１つ以上の集積回路（integrated circuit、ＩＣ）デバイス（集積回路パッケージ又はマイクロチップとも呼ばれる）を含むシステムに実装される。電子設計自動化（electronic design automation、ＥＤＡ）及びコンピュータ支援設計（computer aided design、ＣＡＤ）ソフトウェアツールは、これらのＩＣデバイスの設計及び製造に使用することができる。これらの設計ツールは、典型的には、１つ以上のソフトウェアプログラムとして表される。１つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計するか又は適応させるためのプロセスの少なくとも一部を実行するために、１つ以上のＩＣデバイスの回路を表すコードで動作するようにコンピュータシステムを操作するための、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含み得る。設計ツール又は製造ツールを表すソフトウェア命令は、典型的には、コンピューティングシステムにアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ＩＣデバイスの設計又は製造の１つ以上の段階を表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶され、そこからアクセスされる。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

装置であって、
分岐命令の結果を予測するように構成された分岐予測回路と、
前記分岐命令の予測された分岐からの第１のパスに沿った命令を処理するように構成されたパイプライン回路であって、前記第１のパスに沿った命令を処理することは、前記分岐命令の予測されていない分岐からの第２のパスに沿った命令を処理することと時分割多重化される、パイプライン回路と、
前記パイプライン回路の少なくとも１つの状態を表す情報を記憶するように構成された少なくとも１つのバッファと、を備え、
前記パイプライン回路は、前記分岐命令の結果の誤予測に応じて、前記少なくとも１つのバッファに記憶された情報を使用して、前記第２のパスに沿った命令を処理するように構成されている、
装置。
前記パイプライン回路は、前記第１のパスに沿った命令を処理するように構成された前記パイプライン回路の第１の部分と、前記第２のパスに沿った命令を処理するように構成された前記パイプライン回路の第２の部分と、を含む、
請求項１の装置。
前記少なくとも１つのバッファは、前記分岐予測回路、変換索引バッファ、命令キャッシュ、演算キャッシュ、デコーダ、ディスパッチャ、及び、前記パイプライン回路の実行セクションのうち少なくとも１つによる処理の後に、前記パイプライン回路の前記第１の部分の状態を表す状態情報を記憶するように構成された少なくとも１つのバッファを含む、
請求項２の装置。
前記誤予測に応じて、前記少なくとも１つのバッファに記憶された情報を前記第２の部分から前記第１の部分に伝達するように構成された少なくとも１つのマルチプレクサを更に備える、
請求項２又は３の装置。
前記パイプライン回路は、前記少なくとも１つのバッファに記憶された情報に基づいて、前記パイプライン回路の前記第１の部分を使用して、前記第１のパスに沿った予測された分岐に関連付けられたスレッドを実行し、前記第２の部分を使用して、前記第２のパスに沿った予測されていない分岐に関連付けられたスレッドを実行するように構成された少なくとも１つのプロセッサコアを含む、
請求項４の装置。
前記パイプライン回路は、前記誤予測に応じて、前記スレッドを前記第２の部分から前記第１の部分に切り替えるように構成されている、
請求項５の装置。
前記パイプライン回路は、前記誤予測の確認に応じて、前記第２の部分で実行されている前記スレッドを破棄するように構成されている、
請求項６の装置。
前記分岐予測回路は、予測された結果に対する信頼度レベルを判定するように構成されており、前記パイプライン回路の前記第２の部分は、前記信頼度レベルが閾値信頼度を下回ることに応じて、前記第２のパスに沿った予測されていない分岐を処理するように構成されている、
請求項１～７の何れかの装置。
前記分岐予測回路は、前記第２のパスのフォークポイントを生成し、前記信頼度レベルが前記閾値信頼度を下回ることに応じて、前記第１の部分及び前記第２の部分のスレッドを同期させるように構成されている、
請求項８の装置。
方法であって、
分岐命令の結果を予測することと、
パイプライン回路において、前記分岐命令の予測された分岐からの第１のパスに沿った命令を処理することであって、前記第１のパスに沿った命令を処理することは、前記分岐命令の予測されていない分岐からの第２のパスに沿った命令を処理することと時間多重化される、ことと、
前記第２のパスを処理している前記パイプライン回路の前記第２の部分の少なくとも１つの状態を表す情報を、少なくとも１つのバッファに記憶することと、
前記分岐命令の結果の誤予測に応じて、前記少なくとも１つのバッファに記憶された情報を使用して、前記第２のパスの実行を継続するように前記パイプライン回路の前記第１の部分を再構成することと、を含む、
方法。
前記パイプライン回路は、前記第１のパスに沿った命令を処理するように構成された前記パイプライン回路の第１の部分と、前記第２のパスに沿った命令を処理するように構成された前記パイプライン回路の第２の部分と、を含む、
請求項１０の方法。
前記第２の部分の少なくとも１つの状態を表す情報を記憶することは、分岐予測器、変換索引バッファ、命令キャッシュ、演算キャッシュ、デコーダ、ディスパッチャ、及び、前記パイプライン回路の実行セクションのうち少なくとも１つによって前記第２のパスを処理した後に、前記第２の部分の状態を表す状態情報を記憶することを含む、
請求項１１の方法。
前記パイプライン回路の前記第１の部分を再構成することは、前記誤予測に応じて、前記少なくとも１つのバッファに記憶された情報を前記第１の部分に伝達することを含む、
請求項１１又は１２の方法。
前記予測された分岐からの第１のパスに沿った命令を処理することは、前記予測された分岐に関連付けられたスレッドを実行することを含み、前記予測されていない分岐からの第２のパスに沿った命令を処理することは、前記少なくとも１つのバッファに記憶された情報に基づいて、前記予測されていない分岐に関連付けられたスレッドを実行することを含む、
請求項１３の方法。
前記第１の部分を再構成することは、前記誤予測に応じて、前記スレッドを前記第２の部分から前記第１の部分に切り替えることを含む、
請求項１４の方法。
正しい予測の確認に応じて、前記第２の部分で実行されている前記スレッドを破棄することを更に含む、
請求項１５の方法。
予測された結果に対する信頼度レベルを判定することと、
前記信頼度レベルが閾値信頼度を下回ることに応じて、前記第２の部分を使用して、前記予測されていないパスからの前記第２のパスに沿った命令を処理することと、を更に含む、
請求項１０～１６の何れかの方法。
前記第２のパスのフォークポイントを生成することと、
前記信頼度レベルが前記閾値信頼度を下回ることに応じて、前記第１の部分及び前記第２の部分のスレッドを同期させることと、を更に含む、
請求項１７の方法。
方法であって、
分岐命令の結果と予測についての信頼度レベルとを予測することと、
パイプライン回路において、前記分岐命令の予測された分岐からの第１のパスに沿った命令を処理することと、
前記信頼度レベルに基づいて、前記パイプライン回路を使用して、前記分岐命令の予測されていない分岐からの第２のパスに沿った命令を選択的に処理することであって、前記第２のパスに沿った命令を処理することは、前記第１のパスに沿った命令を処理することと時分割多重化される、ことと、
前記分岐命令の結果の誤予測に応じて、少なくとも１つのバッファに記憶された情報を使用して、前記第２のパスを前記第１のパスに切り替えることと、を含む、
方法。
前記予測されていない分岐を選択的に処理することは、前記信頼度レベルが閾値信頼度を下回ることに応じて、前記予測されていない分岐からの前記第２のパスに沿った命令を処理することを含む、
請求項１９の方法。
前記予測されていない分岐からの前記第２のパスに沿った命令を選択的に処理することは、異なる回路及び共有回路の時分割多重化リソースのうち少なくとも１つを使用して、前記予測された分岐からの前記第２のパスに沿った命令を処理することと同時に、前記予測された分岐からの前記第１のパスに沿った命令を処理することを含む、
請求項１９又は２０の方法。