JP2022094507A

JP2022094507A - 演算処理回路及び演算処理方法

Info

Publication number: JP2022094507A
Application number: JP2020207435A
Authority: JP
Inventors: 亮平岡崎; Ryohei Okazaki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2022-06-27
Also published as: US20220188118A1; US11507377B2

Abstract

【課題】短いレイテンシで分岐予測可能な演算処理装置を提供する。【解決手段】演算処理回路は、１つのフェッチラインに複数の命令が含まれるようにフェッチアドレスを順次生成する命令フェッチアドレス生成器と、１つのフェッチライン内でビット値が変化する命令アドレスビットを少なくとも１ビット含むようにフェッチアドレスから抽出されたビット列をインデックスとした複数のインデックスの各々に対して、１個の分岐先アドレスとフェッチアドレスの上位側のビット列である１個の第１のタグとを格納するアドレステーブルと、フェッチアドレスに応じてアドレステーブルから読み出された第１のタグと上位タグ格納部に格納されている第２のタグとが、フェッチアドレスの対応部分に一致する場合に、フェッチアドレスに応じてアドレステーブルから読み出された分岐先アドレスを命令フェッチアドレス生成器に供給する分岐方向判定部とを含む。【選択図】図２

Description

本願開示は、演算処理回路及び演算処理方法に関する。

プロセッサの高速化技術のひとつである分岐予測技術では、実行される分岐命令に対して、分岐命令の分岐が成立する(TAKEN)又は成立しない(NOT_TAKEN)のいずれかを示す分岐方向と、分岐命令のターゲットアドレス（分岐先アドレス）とを予測する。分岐命令の処理によって実際に分岐したか否かが判定される前に、予測に応じて、先行して投機的に後続命令の処理を進めていくことが可能となる。

分岐予測が失敗した場合、先行して投機的に実行されていた後続命令の処理を全て破棄し、正しい後続命令について処理を実行し直さなければならないため、プロセッサの処理性能が低下する。分岐予測の精度を高めてプロセッサ処理性能の低下を避けるためには、計算量の多い複雑な分岐予測演算を実行することになるため、分岐予測を完了するまでにレイテンシ１よりも長いレイテンシが必要になってしまう。

しかしながら分岐予測のレイテンシが長いと、命令フェッチの進行に間隙が空いてしまい、十分なスループットを維持できないという問題がある。例えば、分岐予測のレイテンシが３サイクルであるとする。第１の命令をフェッチした後、シーケンシャル方向の命令フェッチ（一定のアドレス増分での命令フェッチ）がその後の各サイクルにおいて実行されつつ、第１の命令に対する分岐予測演算が実行される。この第１の命令に対する分岐予測の結果が得られるのは、第３の命令をフェッチした後（即ち３サイクル経過後）である。分岐予測の結果が分岐成立を示す場合、シーケンシャル方向にフェッチしていた第２の命令及び第３の命令はキャンセルされ、分岐予測の結果が示すターゲットアドレスに対する命令フェッチが新たに実行される。この場合、分岐予測のレイテンシの長さに応じてスループットが低下してしまう。

特開2018-063684号公報特開平05-143334号公報特表2017-509995号公報

以上を鑑みると、短いレイテンシで分岐予測可能な演算処理装置が望まれる。

演算処理回路は、１つのフェッチラインに複数の命令が含まれるようにフェッチアドレスを順次生成する命令フェッチアドレス生成器と、前記１つのフェッチライン内でビット値が変化する命令アドレスビットを少なくとも１ビット含むように前記フェッチアドレスから抽出されたビット列をインデックスとした複数のインデックスの各々に対して、１個の分岐先アドレスと、前記ビット列よりも前記フェッチアドレスの上位側のビット列である１個の第１のタグと、を格納するアドレステーブルと、前記フェッチアドレスを構成する複数個のビットのうち前記第１のタグよりも上位側のビット列である１個の第２のタグを格納する上位タグ格納部と、前記フェッチアドレスに応じて前記アドレステーブルから読み出された前記第１のタグと前記上位タグ格納部に格納されている前記第２のタグとが、前記フェッチアドレスの対応部分に一致する場合に、前記フェッチアドレスに応じて前記アドレステーブルから読み出された前記分岐先アドレスを前記命令フェッチアドレス生成器に供給する分岐方向判定部とを含む。

少なくとも１つの実施例によれば、短いレイテンシで分岐予測可能な演算処理装置が提供される。

プロセッサの構成の一例を示す図である。分岐予測機構の第１実施例の構成の一例を示す図である。図２に示す分岐予測機構及び命令フェッチアドレス生成器の動作を示すフローチャートである。フェッチラインの構成の一例を示す図である。第２実施例に用いられる分岐予測器の構成の一例を示す図である。分岐予測機構の第２実施例の構成の一例を示す図である。分岐予測機構の第２実施例における命令フェッチの一例を示す図である。分岐予測機構の第２実施例における命令フェッチの一例を示す図である。第１予測器におけるエントリ更新処理の一例を示すフローチャートである。分岐予測機構を備えたプロセッサを用いたシステム構成の一例を示す図である。

分岐予測機構においては、通常、複数ウェイの各々に対してターゲットアドレスを格納したテーブルと、分岐方向を予測するテーブルとを備え、それぞれのテーブルをフェッチアドレスの一部（インデックス）により参照することで予測を行うことが多い。しかしながら、複数ウェイを有するテーブルを用いて予測を行うためには、インデックスにより各ウェイを並列に引き、それぞれのウェイがヒットか否かを調べ、複数のウェイがヒットである場合には１つのウェイを選択する、という各動作を実行する必要がある。これらの動作を実行するためには論理回路の論理段数が多くなり、長いレイテンシがかかってしまう。またレイテンシを短くしようとすると、高い動作クロック周波数を維持することが困難になる。

ウェイの数が多いことが論理段数の増加に繋がるので、ウェイの個数を１個のみにすれば、分岐予測演算に必要な論理段数の観点からはレイテンシ１での高速な分岐予測を実装することが可能である。しかしながら単純にウェイの個数を１個のみにしてしまったのでは、以下のようなテーブル格納エントリの衝突という問題が生じる。

一般に、１つのフェッチアドレスにより読み出される１つのフェッチラインには複数（例えば８個）の命令が含まれており、これら複数の命令に対して纏めて分岐予測が実行される。例えば１つのフェッチラインに４バイト長の命令が８個含まれており、この８個の命令のうちで２個の命令が分岐命令である場合を考える。フェッチアドレスが０ｘ１０００であるとすると、対応フェッチラインに含まれる第１の命令乃至第８の命令の格納アドレスは、０ｘ１０００、０ｘ１００４、０ｘ１００８、０ｘ１００Ｃ、０ｘ１０１０、０ｘ１０１４、０ｘ１０１８、及び０ｘ１０１Ｃである。

複数ウェイを用いる分岐予測機構では、通常、フェッチアドレスがシーケンシャル方向に所定固定量ずつ増加する毎に、１ずつ増加するインデックスを用いる。具体的には、上記の例であれば、下位５ビット（ｂｉｔ０～ｂｉｔ４）より上に位置する例えばｂｉｔ５～ｂｉｔ８（以降ｂｉｔ［８：５］と表記する）をインデックスとして用いる。フェッチアドレス０ｘ１０００に対するインデックスｂｉｔ［８：５］は"００００"であり、シーケンシャル方向における次のフェッチアドレス０ｘ１１００に対するインデックスｂｉｔ［８：５］は"０００１"である。

上述の例のように、フェッチアドレス０ｘ１０００に対応するフェッチラインに２個の分岐命令が含まれている場合であっても、テーブルに複数のウェイが設けられていれば、２個の分岐命令がそれぞれ異なるウェイに対応してテーブルに格納されることになる。従って、インデックス"００００"における複数のウェイを並列に参照することにより、２個の分岐命令のそれぞれに対して分岐予測結果を得ることができる。

このような場合において、ウェイの個数を１個のみにしてしまうと、テーブル内でインデックス"００００"に対するエントリは１個のみとなる。従って、対応フェッチラインに含まれる２個の分岐命令のうちで、一方の命令はテーブル格納することができず、この命令についてレイテンシ１で予測を実行することはできない。以下に説明する本発明の実施例では上記の問題を解決するために、フェッチアドレスの一部を分岐予測に用いるインデックスとして用いる際に、１つのフェッチラインに対して少なくとも２つのインデックスが割り当てられるようにする。

以下に、本発明の実施例を添付の図面を用いて詳細に説明する。以下の各図において、同一又は対応する構成要素は同一又は対応する番号で参照し、その説明は適宜省略する。

図１は、プロセッサの構成の一例を示す図である。図１及び以下の同様の図において、各ボックスで示される各回路又は機能ブロックと他の回路又は機能ブロックとの境界は、基本的には機能的な境界を示すものであり、物理的な位置の分離、電気的な信号の分離、制御論理的な分離等に対応するとは限らない。各回路又は機能ブロックは、他のブロックと物理的にある程度分離された１つのハードウェアモジュールであってもよいし、或いは他のブロックと物理的に一体となったハードウェアモジュール中の１つの機能を示したものであってもよい。

図１に示すプロセッサは、分岐予測機構１０、命令フェッチアドレス生成器１１、命令バッファ１２、命令デコーダ１３、及びレジスタリネーミング１４を含む。プロセッサは更に、ＲＳＡ（Reservation Station for Address generate）１５、ＲＳＥ（Reservation Station for Execute）１６、ＲＳＦ（Reservation Station for Floating）１７、及びＲＳＢＲ（Reservation Station for Branch）１８を含む。プロセッサは更に、ＣＳＥ（Commit Stack Entry）１９、オペランドアドレス生成器２０、演算器２１、演算器２２、及びネクストプログラムカウンタ（ＰＣ）２３を含む。プロセッサは更に、固定小数点更新バッファ２６、浮動小数点更新バッファ２７、固定小数点レジスタ２８、及び浮動小数点レジスタ２９を含む。プロセッサは更に、２次命令キャッシュ１０２、１次命令キャッシュ１０３、及び１次データキャッシュ１０４を含んでよい。これらのキャッシュのうちの幾つかはプロセッサの外部に設けられていてもよい。２次命令キャッシュ１０２はメインメモリ１０１に接続されている。

命令フェッチアドレス生成器１１は、命令フェッチアドレスを格納するプログラムカウンタを内蔵し、当該プログラムカウンタの格納値を一定値ずつ増加させることにより、命令フェッチアドレスを順次生成する。１つのフェッチアドレスにより読み出される１つのフェッチラインには複数（例えば８個）の命令が含まれてよい。１つのフェッチラインに含まれる命令数は特に限定されるものではない。

分岐予測機構１０は、命令フェッチアドレス生成器１１から出力された命令フェッチアドレスを受け取り、命令フェッチと並行して分岐予測を実行する。分岐予測機構１０は、受け取った命令フェッチアドレスを基に分岐予測を行い、分岐成立又は分岐不成立を示す分岐方向と分岐先アドレス（ターゲットアドレス）とを命令フェッチアドレス生成器１１に返す。予測された分岐方向が分岐成立であった場合、命令フェッチアドレス生成器１１は次の命令フェッチアドレスとして分岐予測機構１０によって予測された分岐先アドレスを選択する。分岐予測機構１０の構成及び動作については後ほど説明する。

命令フェッチアドレス生成器１１は、命令フェッチアドレスと命令フェッチリクエストとを１次命令キャッシュ１０３に発行する。これに応じて、１次命令キャッシュ１０３から命令フェッチアドレスに対応するフェッチラインの命令が読み出され、読み出された命令が命令バッファ１２に格納される。

命令バッファ１２は、プログラムの命令順通り即ちインオーダーで格納した命令を命令デコーダ１３に供給する。命令デコーダ１３は、プログラムの命令順通り即ちインオーダーで命令のデコード処理を行い、インオーダーで命令を発行する。レジスタリネーミング１４は、命令に示されるレジスタと物理的なレジスタとの対応関係を動的に切り替えることにより、命令の並列実効性を高める。この命令発行処理及びレジスタリネーミング処理を介して、キュー構造のストレージであるＲＳＡ１５、ＲＳＥ１６、ＲＳＦ１７、又はＲＳＢＲ１８に、各命令を示すエントリが、デコードした命令の種類に従って作成される。

ＲＳＡ１５は、主記憶オペランドアドレスを生成してロード命令やストア命令を実行するために、作成されたエントリをプログラムの命令順に拘束されず即ちアウトオブオーダーで制御するリザベーションステーションである。ＲＳＡ１５による制御に基づいて、オペランドアドレス生成器２０がアクセス先のアドレスを生成し、１次データキャッシュ１０４の当該アドレスに対してロード命令やストア命令が実行される。ロード命令により読み出されたデータは、固定小数点更新バッファ２６又は浮動小数点更新バッファ２７の指定されたレジスタに格納される。

ＲＳＥ１６は、指定されたレジスタのデータに対して指定された固定小数点演算を実行するために、作成されたエントリをアウトオブオーダーで制御するリザベーションステーションである。ＲＳＥ１６は、実行対象の命令が参照するレジスタの依存性をチェックし、依存性のあるレジスタの更新状況や演算器２１のうちの同じ実行資源を用いる命令の実行状況等から、実行資源である演算器２１が命令を実行可能かどうかを判断する。実行可能であるなら、ＲＳＥ１６は、受け取った命令の順序によらずにアウトオブオーダーで各演算器２１に対してレジスタ番号やオペランドアドレス等の命令実行に必要な情報を出力する。ＲＳＥ１６による制御に基づいて、演算器２１が、固定小数点更新バッファ２６及び固定小数点レジスタ２８の指定されたレジスタのデータに対して指定された固定小数点演算を実行し、固定小数点更新バッファ２６の指定されたレジスタに演算結果を格納する。

ＲＳＦ１７は、指定されたレジスタのデータに対して指定された浮動小数点演算を実行するために、作成されたエントリをアウトオブオーダーで制御するリザベーションステーションである。ＲＳＦ１７は、上記説明したＲＳＥ１６と同様の動作により、アウトオブオーダーで各演算器２２に対してレジスタ番号やオペランドアドレス等の命令実行に必要な情報を出力する。ＲＳＦ１７による制御に基づいて、演算器２２が、浮動小数点更新バッファ２７及び浮動小数点レジスタ２９の指定されたレジスタのデータに対して指定された浮動小数点演算を実行し、浮動小数点更新バッファ２７の指定されたレジスタに演算結果を格納する。

ＲＳＢＲ１８は、分岐命令を実行するためのリザベーションステーションである。ＲＳＢＲ１８は、命令デコーダ１３から分岐命令の種別を受け取ると共に、命令アドレスバッファから分岐命令アドレスを受け取り、分岐命令毎にそれぞれの信号を格納する。その後、ＲＳＢＲ１８は、演算器２１から分岐先アドレスや分岐条件となる演算の結果を受け取り、得られた演算結果が分岐条件を満たしていれば分岐成立、満たしていなければ分岐不成立の判断を行い、分岐方向を確定する。

またＲＳＢＲ１８では、上記演算結果が示す実際の分岐アドレス及び分岐方向と分岐予測時の分岐アドレス及び分岐方向とが一致するか否かの判断や、分岐命令の順序関係の制御も行う。ＲＳＢＲ１８は、エントリ作成時に分岐予測時の分岐方向や分岐先アドレスを登録し、演算結果と予測との一致検証を実行後、演算結果によりエントリの置き換えを行う。具体的には、ＲＳＢＲ１８は、命令デコーダ１３から分岐命令の種別を受け取ると共に、分岐命令アドレスを受け取り、分岐命令毎にそれぞれの信号を格納する。

ＲＳＢＲ１８は、実際の分岐命令の実行結果と分岐予測結果とが一致した場合、ＣＳＥ１９へ分岐命令の完了報告を出力すると共に、分岐予測機構１０に完了した分岐命令の情報を供給する。ＲＳＢＲ１８は、実際の分岐命令の実行結果と分岐予測結果とが一致しなかった場合、ＣＳＥ１９へ分岐命令の完了報告と共に後続命令のキャンセル要求を出力する。ＲＳＢＲ１８は、実際の分岐命令の実行結果と分岐予測結果とが一致しなかった場合は更に、命令フェッチアドレス生成器１１へ再命令フェッチ要求と再命令フェッチのアドレスとを出力し、更に、分岐予測機構１０に完了した分岐命令の情報を供給する。

命令デコーダ１３は更に、全てのデコードされた命令に命令識別子を割り振り、命令識別子を命令の順番通りにＣＳＥ１９に送る。ＣＳＥ１９は、デコードされた命令の命令識別子を命令の実行順番通りに蓄積するキュー構造のストレージと、キューの情報と各処理パイプからの演算完了報告とに基づいてコミット処理を行う完了処理回路とに分けられる。デコーダで解読された命令の命令識別子はＣＳＥ１９のキューに蓄えられ、処理パイプからの完了報告を待つ。各リザベーションステーションがアウトオブオーダーで実行した命令についての完了報告をＣＳＥ１９に送ると、ＣＳＥ１９の完了処理回路が、キューに蓄えられた完了待ちの命令の中から完了報告に対応する命令をインオーダーで開放し、完了を確定させる。

ＣＳＥ１９から開放され完了が確定する命令については、対応する資源の更新を行なう。ロード命令や演算命令等の場合には、固定小数点更新バッファ２６や浮動小数点更新バッファ２７のデータを、固定小数点レジスタ２８や浮動小数点レジスタ２９に転送し、命令実行結果をソフトウェアからアクセス可能なレジスタに反映させる。また同時に、ネクストプログラムカウンタ２３の値を、実行完了して開放される命令の次の命令のアドレスを指し示すように適切な増分だけ変化させる。なおネクストプログラムカウンタ２３は、割り込み発生時等の特殊な場合に用いられるプログラムカウンタであり、プログラムの通常の進行中に用いられることはない。

図２は、分岐予測機構１０の第１実施例の構成の一例を示す図である。図２に示す分岐予測機構１０は、アドレステーブル３１、上位タグ格納部３２、及び分岐方向判定部３３を含む。

図２に示される命令フェッチアドレス生成器１１は、図１に示される命令フェッチアドレス生成器１１であり、１つのフェッチラインに複数の命令が含まれるようにフェッチアドレスを順次生成する。命令フェッチアドレス生成器１１がシーケンシャル方向に順次生成するフェッチアドレスにおいて、あるフェッチアドレスとその直後のフェッチアドレスとの差は所定の一定値（例えば３２バイト）である。この場合１つのフェッチラインの長さは、当該差に等しい長さ（例えば３２バイト）である。例えば３２バイト長である１つのフェッチラインには、例えば４バイト長の命令が８個含まれてよい。以下の説明においては、フェッチラインの長さが３２バイトであり、４バイト長の命令が８個含まれる場合を例として用いるが、この例の構成は限定を意図するものではない。

アドレステーブル３１は、１つのフェッチライン内でビット値が変化する命令アドレスビットを少なくとも１ビット含むようにフェッチアドレスから抽出されたビット列をインデックスとした複数のインデックスの各々に対して、エントリを格納する。各インデックスに対するエントリは、１個の分岐先アドレスと、インデックスのビット列よりもフェッチアドレスの上位側のビット列である１個の第１のタグと、エントリが有効か否かを示すフラグを含む。

アドレステーブル３１のインデックスは、フェッチラインが３２バイト長である場合、例えばフェッチアドレスの下位３ビット（ｂｉｔ０～ｂｉｔ２）より上に位置する例えばｂｉｔ［６：３］（ｂｉｔ３～ｂｉｔ６）である。アドレステーブル３１に格納される第１のタグは、インデックスよりも上位側のビット列であり、例えばｂｉｔ［１０：７］（ｂｉｔ７～ｂｉｔ１０）である。

アドレステーブル３１は、命令フェッチアドレス生成器１１が生成するフェッチアドレスに応じたエントリを出力する。具体的には、命令フェッチアドレス生成器１１からフェッチアドレスのｂｉｔ［６：３］がアドレステーブル３１に供給されると、アドレステーブル３１は、当該インデックスに対応した１個のターゲットアドレスと１個の第１のタグと１個のフラグとを出力する。出力された１個のターゲットアドレスと１個の第１のタグと１個のフラグとは、分岐方向判定部３３に供給される。

上位タグ格納部３２は、フェッチアドレスを構成する複数個のビットのうち上記第１のタグよりも上位側のビット列である１個の第２のタグを格納する。この例では、第１のタグｂｉｔ［１０：７］よりも上位側のビットとして、例えばｂｉｔ［１５：１１］が第２のタグであってよい。第２のタグｂｉｔ［１５：１１］はアドレスビットが１６ビットの場合であり、例えばアドレスビットが３２ビットであれば、第２のタグはｂｉｔ［３１：１１］であってよい。

命令フェッチアドレス生成器１１からフェッチアドレスのｂｉｔ［１５：１１］が上位タグ格納部３２に供給されると、上位タグ格納部３２は、格納されている第２のタグと供給されたｂｉｔ［１５：１１］とを比較し、比較結果を示す信号を出力してよい。比較結果を示す信号は分岐方向判定部３３に供給される。代替的に、上位タグ格納部３２は第２のタグを分岐方向判定部３３に供給し、分岐方向判定部３３が、命令フェッチアドレス生成器１１から供給されたフェッチアドレスのｂｉｔ［１５：１１］と上位タグ格納部３２から供給された第２のタグとを比較してもよい。

分岐方向判定部３３は、命令フェッチアドレス生成器１１から第１のタグに対応するフェッチアドレスの部分（ｂｉｔ［１０：７］）を命令フェッチアドレス生成器１１から受け取る。分岐方向判定部３３は、フェッチアドレスに応じてアドレステーブル３１から読み出された第１のタグと上位タグ格納部３２に格納されている第２のタグとが、前記フェッチアドレスのそれぞれ対応する部分に一致するか否かを判定する。分岐方向判定部３３は、判定結果が一致を示す場合に、フェッチアドレスに応じてアドレステーブル３１から読み出されたターゲットアドレスを命令フェッチアドレス生成器１１に供給する。即ち、分岐予測機構１０は、分岐予測演算の結果として分岐成立を予測し、ターゲットアドレスを命令フェッチアドレス生成器１１に供給する。

分岐方向判定部３３は、上記判定結果が一致を示している場合であっても、フェッチアドレスに応じてアドレステーブル３１から読み出されたフラグが無効を示す場合、ターゲットアドレスを命令フェッチアドレス生成器１１に供給しない。当該フラグは、アドレステーブル３１のエントリが有効であるか無効であるかを示す例えば１ビットのデータであり、当該フラグが無効を示す場合には、アドレステーブル３１に格納されるエントリを分岐予測に用いることは適切でない。

なお、例えば図１に示すＲＳＢＲ１８から供給される完了した分岐命令の情報に基づいて、実際の分岐命令の実行結果と分岐予測結果とが一致しなかった場合に、アドレステーブル３１のエントリが更新されてよい。例えば分岐不成立と予測されたフェッチラインに対してＲＳＢＲ１８からの情報が分岐成立を示す場合等に、アドレステーブル３１の対応するインデックスにおけるエントリ（ターゲットアドレス等）が新たに登録されてよい。また例えば分岐成立と予測されたフェッチラインに対してＲＳＢＲ１８からの情報が分岐不成立を示す場合等に、アドレステーブル３１の対応するインデックスにおけるフラグがリセット（無効状態に設定）されてよい。

また上位タグ格納部３２には、格納される第２のタグに関して有効度を示す飽和カウンタが設けられている。例えばＲＳＢＲ１８からの完了分岐命令の情報によれば実際に分岐成立した命令が第２のタグに対応する命令アドレスのものである場合には、飽和カウンタを＋１してよい。この際、飽和カウンタ値が既に上限値である場合には、値が＋１されることはなく上限値に維持される。また例えばＲＳＢＲ１８からの完了分岐命令の情報によれば実際に分岐成立した命令が第２のタグに対応しない命令アドレスのものである場合には、飽和カウンタを－１してよい。また例えばＲＳＢＲ１８からの完了分岐命令の情報によれば実際に分岐成立した命令が第２のタグに対応しない命令アドレスのものであり且つ飽和カウンタ値が下限値に等しい場合には、完了分岐命令の命令アドレスにより第２のタグを更新してよい。この更新作業と共に、有効度を示す飽和カウンタを上限値に設定し、アドレステーブル３１の全フラグをリセットしてよい。

上記のように構成された分岐予測機構１０においては、アドレステーブル３１のウェイ数を１個とすることにより、複数のウェイがヒットした場合にウェイを選択する処理が不要になる。従って分岐予測演算において実行される処理の論理段数を削減することができ、高速な分岐予測演算が可能になる。

また分岐予測機構１０においては、アドレステーブル３１のインデックスが例えば４ビットであることにより、アドレステーブル３１のエントリ数が１６個となる。エントリ数が１６個程度と少ない数とすることにより、アドレステーブル３１からインデックスに応じたエントリを読み出す論理演算処理を、少ない論理段数で実現することが可能となる。このようにして、アドレステーブル３１からの高速読み出しを実現することができる。

また分岐予測機構１０においては、タグとして用いるべきビット列の上位側の一部は、上位タグ格納部３２に第２のタグとして格納し、分岐予測機構１０全体で１つだけ保持している。このような構成とせずに、アドレステーブル３１に格納されるタグのビット数が多い構成にすると、アドレステーブル３１から読み出されたタグに対して分岐方向判定部３３が照合判定をするために必要な処理回路の論理段数が多くなってしまう。図２に示す分岐予測機構１０が想定するような命令列は、アドレス空間が比較的狭い範囲の命令列であり、上位ビットの変動は少ない。従って、タグとして用いるべきビット列の上位側の一部は、上位タグ格納部３２に第２のタグとして格納し、分岐予測機構１０全体で1つだけ保持することにすれば十分である。このようにすれば、アドレステーブル３１からインデックスに対応するエントリを読み出す動作と同時に、上位タグ格納部３２に格納される第２のタグを照合する動作を並行して実行することが可能になり、タグの照合にかかる時間が短くなる。

分岐予測機構１０を上述のような構成とすることにより、分岐予測演算にかかる時間を短くして、分岐予測演算を１レイテンシ内に完了させることができる。このことは具体的には以下の動作を意味する。まず命令フェッチアドレス生成器１１は所定のクロック信号に同期してフェッチアドレスを順次生成している。分岐方向判定部３３がクロック信号の第１のクロックサイクルで生成した第１のフェッチアドレスに応じて分岐成立を予測し、第１の分岐先アドレスを命令フェッチアドレス生成器１１に供給したとする。この場合、命令フェッチアドレス生成器１１は、クロック信号の第１のクロックサイクルに続く第２のクロックサイクルにおいて、上記第１の分岐先アドレスをフェッチアドレスとして生成する。即ち、命令フェッチアドレス生成器１１は、第１のクロックサイクルで生成したフェッチアドレスに対する分岐予測結果に基づいて、直後に続く第２のクロックにおいてフェッチアドレスを生成することができる。

分岐予測演算を１レイテンシ内に完了させることにより、分岐予測演算結果が分岐を示す場合に、フェッチされた命令をキャンセルする必要がなくなり、効率的なフェッチ動作を実現することができる。即ち、分岐予測結果に影響しない高いスループットを維持することができる。

図３は、図２に示す分岐予測機構１０及び命令フェッチアドレス生成器１１の動作を示すフローチャートである。なお図３及び以降の図において、フローチャートに記載された各ステップの実行順序は一例にすぎず、本願の意図する技術範囲が、記載された実行順番に限定されるものではない。例えば、Ａステップの次にＢステップが実行されるように本願に説明されていたとしても、Ａステップの次にＢステップを実行することが可能なだけでなく、Ｂステップの次にＡステップを実行することが、物理的且つ論理的に可能である場合がある。この場合、どちらの順番でステップを実行しても、当該フローチャートの処理に影響する全ての結果が同一であるならば、本願に開示の技術の目的のためには、Ｂステップの次にＡステップが実行されてもよいことは自明である。Ａステップの次にＢステップが実行されるように本願に説明されていたとしても、上記のような自明な場合を本願の意図する技術範囲から除外することを意図するものではなく、そのような自明な場合は、当然に本願の意図する技術範囲内に属する。

ステップＳ１において、命令フェッチアドレス生成器１１がフェッチアドレスを分岐予測機構１０に通知する。具体的には、フェッチアドレスのｂｉｔ［６：３］がアドレステーブル３１に供給され、フェッチアドレスのｂｉｔ［１０：７］が分岐方向判定部３３に供給され、フェッチアドレスのｂｉｔ［１５：１１］が上位タグ格納部３２に供給される。

ステップＳ２において分岐予測機構１０が予測成立を示す場合（ＹＥＳ）、ステップＳ３において、命令フェッチアドレス生成器１１は分岐予測機構１０から供給されたターゲットアドレスで次の命令フェッチを実行する。ステップＳ２において分岐予測機構１０が予測成立を示さない場合（ＮＯ）、命令フェッチアドレス生成器１１は、ターゲットアドレスを受け取ることなく、ステップＳ３においてシーケンシャル方向の次の命令アドレスで命令フェッチを実行する。

図４は、フェッチラインの構成の一例を示す図である。図４を用いて、図２に示されるアドレステーブル３１におけるエントリ登録を説明する
図４において、３２バイト長である１つのフェッチラインに、各々が４バイト長である８個の命令ｉ１乃至ｉ８が含まれている。このフェッチラインをフェッチするためのフェッチアドレスは０ｘ１０００である。このときフェッチラインに含まれる命令ｉ１乃至ｉ８の格納アドレスはそれぞれ、０ｘ１０００、０ｘ１００４、０ｘ１００８、０ｘ１００Ｃ、０ｘ１０１０、０ｘ１０１４、０ｘ１０１８、及び０ｘ１０１Ｃである。

図４に示される例では、この８個の命令ｉ１乃至ｉ８のうちで、２個の命令ｉ５及びｉ８が分岐命令である。図４において矢印Ｊ１で示されるように命令ｉ５の分岐先は命令ｉ８のアドレスであり、矢印Ｊ２で示されるように命令ｉ８の分岐先は命令ｉ１のアドレスである。

命令フェッチアドレス生成器１１は、フェッチアドレス０ｘ１０００で図４に示されるフェッチラインをフェッチすると共に、フェッチアドレス０ｘ１０００を分岐予測機構１０に供給して分岐予測演算を実行させる。分岐予測機構１０では、フェッチアドレス０ｘ１０００に応答して、命令ｉ１乃至ｉ８のうちでシーケンシャル方向に並ぶ順番で最初の分岐命令である命令ｉ５に対する分岐予測を行うことが期待される。フェッチアドレス０ｘ１０００のインデックス部分であるｂｉｔ［６：３］は"００００"であるので、アドレステーブル３１におけるインデックス"００００"の位置に命令ｉ５に対するエントリが格納されることになる。例えば、図１に示すＲＳＢＲ１８から供給される完了した分岐命令ｉ５の情報に基づいて、アドレステーブル３１に命令ｉ５に関するエントリが作成されてよい。

なお命令ｉ５のアドレス０ｘ１０１０のｂｉｔ［６：３］は"００１０"である。しかしながらフェッチアドレス０ｘ１０００に応答して命令ｉ５に対する分岐予測を行うことが期待されるので、上述のように、インデックス"００００"の位置に命令ｉ５に対するエントリが格納されることになる。

命令ｉ８に対する分岐予測演算が実行されるのは、命令ｉ５に対する分岐予測結果が分岐成立を示し命令フェッチアドレス生成器１１が命令ｉ８のアドレスに等しいターゲットアドレスで命令フェッチをしたときである。命令ｉ８のアドレス０ｘ１０１Ｃのインデックス部分であるｂｉｔ［６：３］は"００１１"であるので、アドレステーブル３１におけるインデックス"００１１"の位置に命令ｉ５に対するエントリが格納されることになる。例えば、図１に示すＲＳＢＲ１８から供給される完了した分岐命令ｉ８の情報に基づいて、アドレステーブル３１に命令ｉ８に関するエントリが作成されてよい。

図２に示されるアドレステーブル３１においては、各インデックスに対して１つのタグしか設けられておらず、ウェイ数が１となっている。このようにウェイ数が１であるにも関わらず、アドレステーブル３１には、１つのフェッチラインに含まれる２個又はそれ以上の個数の命令に対してエントリを登録することができる。これは、１つのフェッチライン内でビット値が変化する命令アドレスビットを少なくとも１ビット含むように選択されたビット列をインデックスとして用いているためである。

例えば、命令アドレスのｂｉｔ［５：２］をインデックスとして用いてもよい。この場合、１つのフェッチラインに含まれる８個の命令の各々が格納される命令アドレスは、そのｂｉｔ［５：２］のビットパターンが互いに異なる。従って、理論的には１つのフェッチラインに含まれる８個の命令全てについて、アドレステーブル３１にエントリを登録することができる。

但し連続する２つの命令が両方共に分岐命令である頻度は低いので、連続する２つの命令を両方ともアドレステーブル３１に登録することに対する必要性は低い。従って、上述の例のようにインデックスとしては、命令アドレスのｂｉｔ［６：３］を用いれば十分である。即ち、１つのフェッチラインに含まれる複数の命令のうちで連続する２つの命令の命令アドレス間で変化するビットより１つ上のビットが、インデックスの最下位ビットであってよい。このようなインデックス構成とすることにより、より広い命令アドレス範囲をアドレステーブル３１でカバーできることになり、効率的な分岐予測が可能になる。

図５は、第２実施例に用いられる分岐予測器の構成の一例を示す図である。第２実施例においては、図２に示す第１実施例の分岐予測機構１０（以降第１予測器と呼ぶ場合がある）に加え、更に、図５に示される第２予測器１１０を用いる。

第２予測器１１０は、分岐予測機構１０よりも複雑な分岐予測演算を実行し、分岐予測機構１０よりも長いレイテンシでの分岐予測演算を行う。第２予測器１１０は例えば、レイテンシ３（動作クロックの３サイクルをかけて）の分岐予測を実行する。第２予測器１１０の構成は特に限定されないが、図５に示す例では、アドレステーブル４１、バイモーダル予測部４２、予測生成部４３、フリップフロップ４４、フリップフロップ４５、及びフリップフロップ４６を含む。

図５に示される命令フェッチアドレス生成器１１は、図１に示される命令フェッチアドレス生成器１１であり、前述のように、１つのフェッチラインに複数の命令が含まれるようにフェッチアドレスを順次生成する。第１の実施例と同様に、以下の説明においては、フェッチラインの長さが３２バイトであり、４バイト長の命令が８個含まれる場合を例として用いるが、この例の構成は限定を意図するものではない。

アドレステーブル４１は、フェッチアドレスを構成する複数個のビットのうち、アドレステーブル３１のインデックスと比較して上位側にあり且つより長いビット列をインデックスとした複数のインデックスの各々に対して複数個のタグを有する。ここで「比較して上位側にあるビット列」とは、アドレステーブル４１のインデックスであるビット列の最下位ビットがアドレステーブル３１のインデックスの最下位ビットよりも上位側にあることを意味する。

命令フェッチアドレス生成器１１から、例えばフェッチアドレスのうちのｂｉｔ［１３：５］が、フリップフロップ４４を介してアドレステーブル４１に供給される。アドレステーブル４１には、このフェッチアドレスのｂｉｔ［１３：５］に対応する各々が９ビット幅である５１２個のインデックスにそれぞれ対応して５１２個のエントリが格納されており、１つのエントリには例えば８個のタグが対応付けられていてよい。即ち、アドレステーブル４１は８ウェイで５１２エントリの構成であってよい。

各タグは、アドレステーブル４１のインデックスのビット列よりもフェッチアドレス上位側のビット列である。この例では、インデックスであるｂｉｔ［１３：５］よりも上位側のビットとして、例えばｂｉｔ［３１：１４］がタグであってよい。一つ一つのタグに対応して、１個の分岐先アドレスと、当該分岐先アドレスが有効か否かを示すフラグとが、アドレステーブル４１に格納されている。

アドレステーブル４１は、命令フェッチアドレス生成器１１が生成するフェッチアドレスに応じた分岐先アドレス及びフラグを出力する。具体的には、フェッチアドレスのｂｉｔ［１３：５］がアドレステーブル４１にインデックスとして供給されると、アドレステーブル４１は、当該インデックスに対応した８個のタグと、８個のターゲットアドレスと、８個のフラグとを出力する。アドレステーブル４１から出力された８個のタグと、８個のターゲットアドレスと、８個のフラグとは、フリップフロップ４６に格納される。

バイモーダル予測部４２は、フェッチアドレスのｂｉｔ［１３：５］に対応する各々が９ビット幅である５１２個のインデックスにそれぞれ対応して５１２個の飽和カウンタが設けられていてよい。バイモーダル予測部４２は、命令フェッチアドレス生成器１１が生成するフェッチアドレスに応じた飽和カウンタ値を出力する。具体的には、フェッチアドレスのｂｉｔ［１３：５］がバイモーダル予測部４２にインデックスとして供給されると、バイモーダル予測部４２は、当該インデックスに対応した１個の飽和カウンタ値を出力する。アドレステーブル４１から出力された１個の飽和カウント値はフリップフロップ４５に格納される。

飽和カウンタは例えば２ビットのカウンタである。飽和カウンタの値として「００」が強い分岐不成立、「０１」が弱い分岐不成立、「１０」が弱い分岐成立、「１１」が強い分岐成立を意味する。飽和カウンタ値が「００」又は「０１」のときには分岐不成立と判定し、飽和カウンタ値が「１０」又は「１１」のときには分岐成立と判定する。飽和カウンタ値は、対応する分岐命令の実際の演算結果が分岐成立であれば＋１され、対応する分岐命令の実際の演算結果が分岐不成立であれば－１される。但し上限値「１１」以上に値は増大せず、下限値「００」以下に値は減少しない。このバイモーダル予測部４２では、過去に分岐成立が連続した場合には今回も分岐が成立する可能性が高く、過去に分岐不成立が連続した場合には今回も分岐が不成立である可能性が高いという事実を分岐予測の原理として用いている。

以下に、図５に示す第２予測器１１０の動作を、動作クロックのサイクル毎に説明する。まず動作クロックの第１サイクルにおいて命令フェッチアドレス生成器１１からのフェッチアドレスがフリップフロップ４４に格納される。第２サイクルにおいて、アドレステーブル４１から読み出されたデータをフリップフロップ４４に格納すると共に、バイモーダル予測部４２から読み出された飽和カウンタ値をフリップフロップ４５に格納する。第3サイクルにおいて、予測生成部４３が、フリップフロップ４５に格納された飽和カウンタ値とフリップフロップ４６に格納されたデータとに基づいて分岐予測を行う。

具体的には、予測生成部４３は、フリップフロップ４６から供給された８個のタグのうちで対応フラグが有効を示すタグとフェッチアドレスの対応部分とを照合し、一致（即ちヒット）するか否かを判定する。予測生成部４３は、対応する飽和カウンタ値が分岐成立を示す場合に、タグが一致したウェイに対応するターゲットアドレスを命令フェッチアドレス生成器１１に供給する。即ち、第２予測器１１０は、分岐予測演算の結果として分岐成立を予測し、ターゲットアドレスを命令フェッチアドレス生成器１１に供給する。飽和カウンタ値が分岐不成立を示す場合、又は、タグの一致するウェイが存在しない場合には、第２予測器１１０は分岐不成立を予測する。タグが一致したウェイが複数個存在する場合には、一致ウェイに対応する複数の命令アドレスのうちでフェッチアドレスからシーケンシャル方向に進んだときに最初に現れる命令アドレスに対応するウェイを選択する。

図６は、分岐予測機構の第２実施例の構成の一例を示す図である。分岐予測機構の第２実施例では、図６に示すように図２に示す第１予測器１０と図５に示す第２予測器１１０とを用い、第２予測器１１０の分岐予測結果により第１予測器１０による分岐予測結果を修正することで、より精度の高い分岐予測を行う。

動作クロックの第１サイクルで命令フェッチアドレス生成器１１からフェッチアドレスが第１予測器１０と第２予測器１１０とに供給されると、命令フェッチアドレス生成器１１がレイテンシ１で予測結果を生成する。この第１予測器１０が生成した予測結果は、セレクタ５４を介して命令フェッチアドレス生成器１１に供給される。これにより、命令フェッチアドレス生成器１１は、第１予測器１０による予測結果をレイテンシ１で受け取り、次のフェッチアドレス生成に用いることができる。なおセレクタ５４は、予測結果比較部５１から受け取る選択制御信号が例えば値０の場合に第２予測器１１０による予測結果を選択し、選択制御信号が例えば値１の場合に第１予測器１０による予測結果を選択する。選択制御信号は、通常、第１予測器１０による予測結果を選択する値（例えば１）に設定されている。

動作クロックの第２サイクルで、第１予測器１０の予測結果を示すデータはフリップフロップ５２に格納される。更に動作クロックの第３サイクルで、第１予測器１０の予測結果を示すデータはフリップフロップ５３に格納されると共に予測結果比較部５１に供給される。またこの第３サイクルにおいて、第２予測器１１０がレイテンシ３で予測結果を生成し、この予測結果が予測結果比較部５１に供給される。予測結果比較部５１は、第１予測器１０による予測結果と第２予測器１１０による予測結果とを比較し、両者が一致する場合にはセレクタ５４に供給する選択制御信号の値を１に設定する。両者が一致しない場合には、予測結果比較部５１は、セレクタ５４に供給する選択制御信号の値を０に設定する。

従って、第１予測器１０による予測結果と第２予測器１１０による予測結果とが一致する場合には、第１予測器１０による予測結果は追認されたことになり、第１予測器１０による予測結果に基づいて発行されたフェッチアドレスはそのまま維持される。一方、第１予測器１０による予測結果と第２予測器１１０による予測結果とが一致しない場合には、第１予測器１０による予測結果は否定されたことになる。このとき第１予測器１０による予測結果に基づいて既に発行されたフェッチアドレスはキャンセルされ、第２予測器１１０による予測結果に基づいて改めてフェッチアドレスが発行される。

このように図６に示される第２実施例では、第１予測器１０による第１の分岐予測に応じて命令フェッチアドレス生成器１１がフェッチアドレスを生成した後に第２予測器１１０による第２の分岐予測が得られる。第２の分岐予測が第１の分岐予測と異なる場合に、命令フェッチアドレス生成器１１は第２の分岐予測に基づいてフェッチアドレスを生成し直す。この構成により、第１予測器１０により短いレイテンシ（例えばレイテンシ１）での効率的な命令フェッチを可能にすると共に、第２予測器１１０による長いレイテンシ（例えばレイテンシ３）での信頼性の高い分岐予測を実現することができる。即ち、第１予測器１０が正しく分岐予測する場面では効率的な命令フェッチを実現することができると共に、第１予測器１０が正しく分岐予測できない場面では効率は落ちるが第２予測器１１０による信頼性のある分岐予測を実現することができる。

例えば第１予測器１０が第１サイクル乃至第３サイクルで分岐不成立を予測し、第２予測器１１０も第１サイクル乃至第３サイクルで分岐不成立を予測したとする。この場合、命令フェッチアドレス生成器１１は、第２サイクル及び第３サイクルでシーケンシャル方向のフェッチアドレスを生成する。第３サイクルにおいて、第３サイクルのフェッチアドレスに関する予測結果が第１予測器１０から命令フェッチアドレス生成器１１に通知される。その結果、命令フェッチアドレス生成器１１は、第４サイクルでもシーケンシャル方向のフェッチアドレスを生成する。

また例えば第１予測器１０が第１サイクル乃至第３サイクルで分岐不成立を予測し、第２予測器１１０が第１サイクル、第２サイクル、及び第３サイクルでそれぞれ分岐不成立、分岐不成立、及び分岐成立を予測したとする。この場合、命令フェッチアドレス生成器１１は、第２サイクル及び第３サイクルでシーケンシャル方向のフェッチアドレスを生成する。第３サイクルにおいて、第１サイクルのフェッチアドレスに関する予測結果が第２予測器１１０から命令フェッチアドレス生成器１１に通知される。その結果、第１予測器１０による予測結果が第２予測器１１０による予測結果で訂正されることになり、命令フェッチアドレス生成器１１は、第４サイクルにおいてターゲットアドレスをフェッチアドレスとして生成する。

また例えば第１サイクル、第２サイクル、及び第３サイクルで第１予測器１０がそれぞれ分岐成立、分岐不成立、及び分岐不成立を予測し、第２予測器１１０がそれぞれ分岐不成立、分岐不成立、及び分岐成立を予測したとする。即ち、第１サイクルでのフェッチアドレスに対する分岐予測が、第１予測器１０及び第２予測器１１０の両方共に分岐成立であったとする。この場合の命令フェッチシーケンスが図７に一例として示される。

図７は、分岐予測機構の第２実施例における命令フェッチの一例を示す図である。図７において、各フェッチアドレスに対する分岐予測動作がパイプラインとして実行される様子が示されており、パイプラインの各ステージにおける動作は以下の通りである。
Ａ：命令フェッチアドレスを決定し分岐予測機構に供給
Ｔ：アドレステーブルからデータを取り出し予測対象命令用の演算実行
Ｍ：分岐予測
Ｂ：分岐予測結果転送
Ｒ：後続する予測対象命令用の演算実行
なお上記各ステージは、レイテンシ３である分岐予測機構の動作に対応しており、第２実施例の例における第２予測器１１０が、上記のパイプラインに相当する分岐演算を実行してよい。

動作クロックの第１サイクルＣ１において、フェッチアドレスｉ１が発行され命令フェッチが実行されると共に、フェッチアドレスｉ１に対する分岐予測が開始される。フェッチアドレスｉ１に対する６個のステージＡ乃至Ｒの演算はそれぞれ対応する６個のサイクルで順次実行される。図７に示される例では、第１予測器１０により第１サイクルＣ１において分岐成立の予測結果が得られる場合を想定しており、分岐先のターゲットアドレスはｉ２５１である。第２サイクルＣ２において、フェッチアドレスｉ２５１が発行され命令フェッチが実行されると共に、フェッチアドレスｉ２５１に対する分岐予測が開始される。

更に第３サイクルＣ３において、シーケンシャル方向でフェッチアドレスｉ２５１に後続するフェッチアドレスｉ２５２が発行され命令フェッチが実行されると共に、フェッチアドレスｉ２５２に対する分岐予測が開始される。この第３サイクルＣ３において、第１サイクルのフェッチアドレスｉ１に対する分岐予測結果がステージＭ（図７においてハッチングされたステージ）において得られる。

この例では、第２予測器１１０が第３サイクルにおいて分岐成立を予測する場合を想定しているので、第１サイクルにおいて第１予測器１０が予測した分岐成立が追認されることになる。従って、既に発行された第２サイクルＣ２のフェッチアドレスｉ２５１及び第３サイクルＣ３のフェッチアドレスｉ２５２はそのまま維持される。更に、次の第４サイクルＣ４において、シーケンシャル方向でフェッチアドレスｉ２５２に後続するフェッチアドレスｉ２５３が発行され命令フェッチが実行される。

図８は、分岐予測機構の第２実施例における命令フェッチの別の一例を示す図である。図８には、第１サイクル、第２サイクル、及び第３サイクルで第１予測器１０がそれぞれ分岐成立、分岐不成立、及び分岐不成立を予測し、第２予測器１１０がそれぞれ分岐不成立、分岐不成立、及び分岐不成立を予測した場合が示されている。即ち、第１サイクルでのフェッチアドレスに対する分岐予測について、第１予測器１０による予測結果が分岐成立であり、第２予測器１１０による予測結果が分岐不成立であった場合である。

動作クロックの第１サイクルＣ１において、フェッチアドレスｉ１が発行され命令フェッチが実行されると共に、フェッチアドレスｉ１に対する分岐予測が開始される。図８に示される例では、第１予測器１０により第１サイクルＣ１において分岐成立の予測結果が得られる場合を想定しており、分岐先のターゲットアドレスはｉ２５１である。第２サイクルＣ２において、フェッチアドレスｉ２５１が発行され命令フェッチが実行されると共に、フェッチアドレスｉ２５１に対する分岐予測が開始される。

更に第３サイクルＣ３において、シーケンシャル方向でフェッチアドレスｉ２５１に後続するフェッチアドレスｉ２５２が発行され命令フェッチが実行されると共に、フェッチアドレスｉ２５２に対する分岐予測が開始される。この第３サイクルＣ３において、第１サイクルのフェッチアドレスｉ１に対する分岐予測結果がステージＭにおいて得られる。

この例では、第２予測器１１０が第３サイクルにおいて分岐不成立を予測する場合を想定しているので、第１サイクルにおいて第１予測器１０が予測した分岐成立が否定されることになる。従って、既に発行された第２サイクルＣ２のフェッチアドレスｉ２５１及び第３サイクルＣ３のフェッチアドレスｉ２５２はキャンセルされ、先読みで実行されていた命令実行シーケンスは取り消される。次の第４サイクルＣ４においては、シーケンシャル方向で第１サイクルＣ１のフェッチアドレスｉ１に後続するフェッチアドレスｉ２が発行され命令フェッチが実行される。

図９は、第１予測器におけるエントリ更新処理の一例を示すフローチャートである。第１実施例において分岐予測機構として第１予測器１０のみが用いられる場合には、前述のようにアドレステーブル３１のエントリ登録及びリセット並びに上位タグ格納部３２の更新は、ＲＳＢＲ１８からの情報に基づいて行われてよい。第２実施例においては第１予測器１０と第２予測器１１０とが用いられているので、第２予測器１１０による予測結果に基づいて第１予測器１０の登録、更新、及びリセットを行ってよい。

第２予測器１１０による予測が分岐成立を示す状況が発生すると（ステップＳ１１）、ステップＳ１２の処理が実行される。ステップＳ１２において、第１予測器１０は、第２予測器１１０により分岐成立と予測された命令アドレスの上位部分と上位タグ（上位タグ格納部３２に格納される第２のタグ）とが一致するか否かを判定する。両者が一致する場合、処理はステップＳ１３に進む。

ステップＳ１３において、第１予測器１０は、分岐成立と予測された命令に関するエントリを、アドレステーブル３１において対応フェッチアドレスが指し示すインデックス位置に作成する。具体的には、第１予測器１０は、当該インデックス位置において対応フェッチアドレスのｂｉｔ［１０：７］を第１のタグとして格納し、予測されたターゲットアドレスを格納し、フラグを有効に設定する。第１予測器１０は更に、上位タグ格納部３２の有効度（飽和カウンタ値）を＋１する。

ステップＳ１２において上位タグが一致しないと判定された場合、処理はステップＳ１４に進む。Ｓ１４において、第１予測器１０は、上位タグ格納部３２が保持する有効度（飽和カウンタ値）は０であるか否かを判定する。なおこの例において飽和カウンタは２ビットであり、上限値が３（＝１１）であり、下限値が０（＝００）である。有効度が０である場合、処理はステップＳ１５に進む。

ステップＳ１５において、第１予測器１０は、対応フェッチアドレスの上位ビット（例えばｂｉｔ［１５：１１］）を上位タグ格納部３２に第２のタグとして格納することにより、上位タグを更新する。第１予測器１０は更に、アドレステーブル３１の全フラグをリセットすると共に、分岐成立と予測された命令に関するエントリを、アドレステーブル３１において対応フェッチアドレスが指し示すインデックス位置に作成する。具体的には、第１予測器１０は、当該インデックス位置において対応フェッチアドレスのｂｉｔ［１０：７］を第１のタグとして格納し、予測されたターゲットアドレスを格納し、フラグを有効に設定する。第１予測器１０は更に、上位タグ格納部３２の有効度（飽和カウンタ値）を上限値３（＝１１）に変更する。

ステップＳ１４において有効度が０でないと判定された場合、処理はステップＳ１６に進む。ステップＳ１６において、第１予測器１０は、新たなエントリを作成することなく、上位タグ格納部３２に格納される有効度（飽和カウンタ値）を－１する。

図１０は、分岐予測機構を備えたプロセッサを用いたシステム構成の一例を示す図である。図１０に示されるシステムは、メモリ６１、ＣＰＵ（Central Processing Unit）６２、メモリ６３、ＣＰＵ６４、及びインターコネクト制御部６５を含む。ＣＰＵ６２及び６４は、例えば図１に示すようなプロセッサ構成を有し、上記説明した第１実施例又は第２実施例による分岐予測機構を内蔵する。インターコネクト制御部６５は、外部装置との入出力制御を行う。図１０に示されるような複数のプロセッサとメモリとを含む例えはサーバ装置等のシステムにおいて、上記説明した分岐予測機構を用いることができる。

以上、本発明を実施例に基づいて説明したが、本発明は上記実施例に限定されるものではなく、特許請求の範囲に記載の範囲内で様々な変形が可能である。

１０分岐予測機構
１１命令フェッチアドレス生成器
１２命令バッファ
１３命令デコーダ
１４レジスタリネーミング
１５ＲＳＡ
１６ＲＳＥ
１７ＲＳＦ
１８ＲＳＢＲ
１９ＣＳＥ
２０オペランドアドレス生成器
２１演算器
２２演算器
２３ネクストプログラムカウンタ
２６固定小数点更新バッファ
２７浮動小数点更新バッファ
２８固定小数点レジスタ
２９浮動小数点レジスタ
１０１メインメモリ
１０２２次命令キャッシュ
１０３１次命令キャッシュ
１０４１次データキャッシュ
３１アドレステーブル
３２上位タグ格納部
３３分岐方向判定部
４１アドレステーブル
４２バイモーダル予測部
４３予測生成部
５１予測結果比較部
５４セレクタ

Claims

１つのフェッチラインに複数の命令が含まれるようにフェッチアドレスを順次生成する命令フェッチアドレス生成器と、
前記１つのフェッチライン内でビット値が変化する命令アドレスビットを少なくとも１ビット含むように前記フェッチアドレスから抽出されたビット列をインデックスとした複数のインデックスの各々に対して、１個の分岐先アドレスと、前記ビット列よりも前記フェッチアドレスの上位側のビット列である１個の第１のタグと、を格納するアドレステーブルと、
前記フェッチアドレスを構成する複数個のビットのうち前記第１のタグよりも上位側のビット列である１個の第２のタグを格納する上位タグ格納部と、
前記フェッチアドレスに応じて前記アドレステーブルから読み出された前記第１のタグと前記上位タグ格納部に格納されている前記第２のタグとが、前記フェッチアドレスの対応部分に一致する場合に、前記フェッチアドレスに応じて前記アドレステーブルから読み出された前記分岐先アドレスを前記命令フェッチアドレス生成器に供給する分岐方向判定部と、
を含む演算処理回路。
前記命令フェッチアドレス生成器は所定のクロック信号に同期して前記フェッチアドレスを順次生成し、前記分岐方向判定部が前記クロック信号の第１のクロックサイクルで生成した第１のフェッチアドレスに応じて第１の分岐先アドレスを前記命令フェッチアドレス生成器に供給した場合、前記命令フェッチアドレス生成器は前記第１のクロックサイクルに続く第２のクロックサイクルにおいて前記第１の分岐先アドレスをフェッチアドレスとして生成する請求項１記載の演算処理回路。
前記１つのフェッチラインに含まれる前記複数の命令のうちで連続する２つの命令の命令アドレス間で変化するビットより１つ上のビットが、前記インデックスの最下位ビットである請求項１又は２記載の演算処理回路。
前記インデックスは４ビットである請求項１乃至３いずれか一項記載の演算処理回路。
前記フェッチアドレスを構成する前記複数個のビットのうち前記インデックスと比較して上位側にあり且つより長いビット列をインデックスとした複数のインデックスの各々に対して複数個のタグを有するアドレステーブルに基づいて分岐予測を行う予測器を更に含み、前記分岐方向判定部による第１の分岐予測に応じて前記命令フェッチアドレス生成器がフェッチアドレスを生成した後に前記予測器による第２の分岐予測が得られ、前記第２の分岐予測が前記第１の分岐予測と異なる場合に、前記命令フェッチアドレス生成器は前記第２の分岐予測に基づいてフェッチアドレスを生成し直す請求項１乃至４いずれか一項記載の演算処理回路。
１つのフェッチラインに複数の命令が含まれるようにフェッチアドレスを順次生成し、
前記１つのフェッチライン内でビット値が変化する命令アドレスビットを少なくとも１ビット含むように前記フェッチアドレスから抽出されたビット列をインデックスとした複数のインデックスの各々に対して、１個の分岐先アドレスと、前記ビット列よりも前記フェッチアドレスの上位側のビット列である１個の第１のタグと、を格納するアドレステーブルから、前記フェッチアドレスに応じて前記第１のタグと前記分岐先アドレスとを読み出し、
前記フェッチアドレスを構成する複数個のビットのうち前記第１のタグよりも上位側のビット列である１個の第２のタグと、前記フェッチアドレスに応じて前記アドレステーブルから読み出された前記第１のタグとが、前記フェッチアドレスのそれぞれの対応部分に一致する場合に、前記フェッチアドレスに応じて前記アドレステーブルから読み出された前記分岐先アドレスを前記フェッチアドレスとして用いる
各段階を実行する演算処理方法。