JP2024040922A

JP2024040922A - 演算処理装置、演算処理方法及び情報処理装置

Info

Publication number: JP2024040922A
Application number: JP2022145583A
Authority: JP
Inventors: 春▲よう▼ 尤; 亮平岡崎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2024-03-26
Also published as: US20240086197A1

Abstract

【課題】予測精度を維持しつつ演算性能を向上させる演算処理装置、演算処理方法及び情報処理装置を提供する。【解決手段】分岐予測機構１７０は、フェッチされたコール命令から得られる予測情報をＲＡＳフェッチ１７１に格納し且つリターン命令で使用される予測情報をＲＡＳフェッチ１７１から取得して削除し、コール命令の実行の完了後に予測情報をＲＡＳコンプリート１７２に格納し且つリターン命令の実行の完了後にＲＡＳコンプリート１７２から予測情報を削除する。分岐命令処理部１４０は、分岐命令を実行させる複数のエントリを格納するキューを有し、分岐予測ミスを検出した分岐命令を再実行せるエントリのうち、キューの先頭に最も近い第１エントリを特定し、第１エントリより先頭に近いエントリに格納されたコール命令及びリターン命令にしたがってＲＡＳフェッチ１７１に対して予測情報の格納及び削除を行い、第１エントリを再実行させる。【選択図】図２

Description

本発明は、演算処理装置、演算処理方法及び情報処理装置に関する。

プロセッサが実行するプログラムには、分岐命令を含むものがある。分岐命令の実行では、分岐せずにプログラムカウンタにおいて分岐命令直後に続く命令から実行を続ける場合と、分岐してプログラム内の異なる位置の命令から実行を続ける場合がある。分岐命令を実行した場合に、分岐するか分岐しないかは分岐命令が実行ステージを過ぎるまで確定しない。以下では、命令が命令パイプラインの実行ステージを過ぎることを、その命令の処理が完了すると言う。

分岐命令がある場合、それに続いて実行される命令は、分岐命令の実行結果に依存する。このため、分岐命令が実行ステージに至るまでの間、パイプラインはストールする。このストールをなくすため、一般的に採られている方策が命令の投機的実行である。命令の投機的実行とは、分岐命令の実行結果が判明する前に、分岐命令の実行結果を予測し、予測結果に基づいて分岐に続く命令の実行を開始することをいう。分岐命令の実行結果の予測は、分岐予測と呼ばれる。分岐予測が正しければ、パイプラインは分岐がなかったかのように流れ、ストールを除去することができる。

これに対して、分岐予測が誤っていれば、プロセッサは、分岐予測に基づいてパイプラインに投入された命令を無効化し、予測結果とは反対の方向の命令を改めてパイプラインに投入する。分岐予測が予測を外した場合、プロセッサは、分岐予測ミスを検出して再命令フェッチを正しい分岐命令のアドレスからかけなおし、同時に誤ったパスの実行をパイプラインからクリアする。再命令フェッチは、分岐命令用のリザベーションステーションなどの分岐命令を処理する機構から命令フェッチに向けて発行される。ここでは、分岐命令を処理する機構として、ＲＳＢＲ（Reservation Station for Branch）を用いる場合で説明する。

従来、ＲＳＢＲは、分岐命令をインオーダーで処理し、分岐予測ミスが判明して再命令フェッチを行うことが明らかになっても、その分岐命令が自己の有するキューの先頭（ＴＯＱ：Top Of Que）になるまでそれ以前の分岐命令の処理の完了を待つ。そして、ＲＳＢＲは、それ以前の分岐命令の処理が完了して分岐が確定し、再命令フェッチを求める分岐命令がＴＯＱになると、その分岐命令の再命令フェッチ要求を出力する。この場合、ＲＳＢＲは、分岐予測ミスが確定しても前方の分岐命令の処理が完了するまで再命令フェッチの出力を待機することになり、待機時間分処理が停止するため性能的な損失が生じる。

このような損失に対して、ＲＳＢＲは、先に再命令フェッチを出力できれば、命令フェッチまでのパイプラインの処理時間による遅延を隠すことができる。すなわち、ＲＳＢＲは、分岐予測ミスが発生した場合、分岐命令に対する再命令フェッチ要求をアウトオブオーダーで実行することで、インオーダーにより再命令フェッチ要求を出す場合に比べて、待ち時間分早く再命令フェッチで取得される命令が処理可能である。

しかし、再命令フェッチ要求をアウトオブオーダーで実行する場合、再命令フェッチの対象の分岐からＴＯＱ間のコール命令やリターン命令が分岐予測に反映されないことが考えられる。その場合、リターンアドレススタック（ＲＡＳ：Return Address Stack）による分岐予測精度が下がるという問題が生じる。

リターンアドレススタックでは、命令フェッチを基準に更新するインストラクションフェッチ（Instruction Fetch）に基づくＲＡＳフェッチと、分岐命令の実行が完了した状態である分岐完了（Branch complete）を基準に更新する分岐処理完了に基づくＲＡＳコンプリートとが用いられる。コール命令であれば、プロセッサは、命令フェッチ段階で、その戻り先のアドレスをＲＡＳフェッチに格納する。戻り先アドレスの格納は、プッシュ（push）と呼ばれる。また、リターン命令であれば、プロセッサは、命令フェッチ段階で、対応するコール命令の戻り先アドレスをＲＡＳフェッチから取得する。戻り先アドレスの取得は、ポップ（pop）と呼ばれる。また、バックアップとして命令の処理完了の段階で、プロセッサは、コール命令であればＲＡＳコンプリートをプッシュし、リターン命令であればＲＡＳコンプリートをポップする。基本的には、プロセッサは、ＲＡＳフェッチを用いてコール命令及びリターン命令のそれぞれに対してポップ及びプッシュを行いながら予測を行う。そして、再命令フェッチを行う場合、プロセッサは、ＲＡＳコンプリートの情報をＲＡＳフェッチにコピーして再命令フェッチを用いる分岐命令の情報を反映させてから再命令フェッチを始める。

こうすることで、再命令フェッチがＴＯＱから出力される場合、分岐命令の処理はインオーダーで行われるため、ＲＡＳコンプリートはＴＯＱまでの分岐命令の情報が反映される。プロセッサは、再命令フェッチとなった分岐命令以前の全てのコール命令及びリターン命令の情報を復元してから、再命令フェッチされた命令を処理するので、リターンアドレススタックによる予測を行うことが可能となる。

なお、分岐予測の技術として、ＴＯＱより後の最初の発行可能なエントリをアウトオブオーダーで発行を行うが、バリアマクロ命令より前のロード命令の場合、フェッチポートにキューインするまでロード命令の投機的な発行を抑止する技術が提案されている。また、プログラム識別情報及び分岐予測テーブルを基に分岐命令に対するターゲット予測情報を決定し、ターゲット予測情報に基づいて予測処理を行い、分岐命令に対する予測結果を生成する技術が提案されている。

特開２０１９－２００５２３号公報特表２０２１－５１６３８４号公報

しかしながら、アウトオブオーダーで再命令フェッチを発行する場合、アウトオブオーダーで再命令フェッチを発行したい分岐命令からＴＯＱまでの間にコール命令やリターン命令が存在すると、その情報はＲＡＳコンプリートに反映されない。そのため、プロセッサは、ＲＡＳコンプリートの情報をＲＡＳフェッチにコピーしても、それらの命令の戻り先アドレスをリターンアドレススタックの実行に反映することが困難となる。

例えば、コール命令Ａとコール命令Ｂとがこの順番で処理される場合で、且つ、それぞれの戻り先のアドレスがＡ＋４及びＢ＋４の場合で説明する。この場合に、コール命令Ａが処理完了段階に達した後に、コール命令Ｂが完了していないままに、後ろの分岐命令で分岐予測ミスが発生し、その分岐命令の再命令フェッチ要求がアウトオブオーダーで発行されると、以下のような問題が発生する。すなわち、再命令フェッチ要求が発行される時点で、ＲＡＳコンプリートには、コール命令Ａの戻り先のアドレスであるＡ＋４が反映されているが、コール命令Ｂの戻り先アドレスであるＢ＋４は反映されていない。そのため、ＲＡＳコンプリートの情報そのままＲＡＳフェッチにコピーすると、ＲＡＳフェッチにはコール命令Ｂの戻り先アドレスであるＢ＋４は反映されない。その結果、プロセッサは、リターンアドレススタックによる分岐予測に失敗する。

このように、分岐予測ミスが一度発生した場合に、分岐に対する再命令フェッチ要求をアウトオブオーダーで実行すると、リターンアドレススタックの分岐予測に影響を及ぼし、予測精度が悪化する可能性がある。そのため、従来は、分岐予測ミスが発生した場合に分岐に対する再命令フェッチ要求をアウトオブオーダーで実行することが困難であった。そのため、従来の技術では、予測精度を維持しつつ再命令フェッチの処理を高速化することは難しく、演算処理装置の演算性能を向上させることは困難であった。

開示の技術は、上記に鑑みてなされたものであって、予測精度を維持しつつ演算性能を向上させる演算処理装置、演算処理方法及び情報処理装置を提供することを目的とする。

本願の開示する演算処理装置、演算処理方法及び情報処理装置の一つの態様において、パイプラインは、命令をフェッチして実行する。分岐予測機構は、前記パイプラインによりフェッチされたコール命令から得られる予測情報を第１格納部に格納し且つ前記パイプラインによりフェッチされたリターン命令で使用される前記予測情報を前記第１格納部から取得して削除する。また、分岐予測機構は、前記パイプラインによる前記コール命令の実行の完了後に前記予測情報を第２格納部に格納し且つ前記パイプラインによる前記リターン命令の実行の完了後に前記第２格納部から前記予測情報を削除する。分岐命令処理部は、前記コール命令及び前記リターン命令を含む分岐命令を前記パイプラインに実行させる複数のエントリを格納するキューを有する。また、分岐命令処理部は、前記分岐命令に対する分岐予測ミスを検出し、前記分岐予測ミスを検出した前記分岐命令を再実行せるエントリのうち、前記キューの先頭に最も近い第１エントリを特定する。また、分岐命令処理部は、前記第１エントリより前記キューの先頭に近いエントリに格納された前記コール命令及び前記リターン命令にしたがって前記第１格納部に対して前記予測情報の格納及び削除を行い、前記第１エントリを前記パイプラインに再実行させる。

１つの側面では、本発明は、予測精度を維持しつつ演算性能を向上させることができる。

図１は、実施例に係るシステムの構成例を示す図である。図２は、実施例に係るスーパースカラプロセッサの構成例を示す図である。図３は、実施例に係る演算処理装置におけるアウトオブオーダーで再命令フェッチ要求を出力する場合の処理の概要を示す図である。図４は、アウトオブオーダーで再命令フェッチを行う場合のＲＳＢＲキューに格納された各エントリの処理順を示す図である。図５は、実施例に係る演算処理装置による再命令フェッチ処理のフローチャートである。

以下に、本願の開示する演算処理装置、演算処理方法及び情報処理装置の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する演算処理装置、演算処理方法及び情報処理装置が限定されるものではない。

図１は、実施例に係るシステムの構成例を示す図である。本実施例に係るシステムは、例えば、図１に示すサーバ１である。

サーバ１は、複数のＣＰＵ（Central Processing Unit）１０、複数のメモリ１１及びインターコネクト制御部１２を有する情報処理装置である。

インターコネクト制御部１２は、ＣＰＵ１０の通信を中継する。例えば、インターコネクト制御部１２は、ＣＰＵ１０同士の通信の中継を行う。また、インターコネクト制御部１２は、各ＣＰＵ１０と外部装置２との間の通信を中継する。

メモリ１１は、主記憶装置である。メモリ１１は、例えば、ＤＲＡＭ（Dynamic Random Access Memory）である。

ＣＰＵ１０は、それぞれが別々のメモリ１１に接続される。また、ＣＰＵ１０は、それぞれインターコネクト制御部１２に接続される。このＣＰＵ１０が、「演算処理装置」及び「演算処理部」の一例にあたる。

ＣＰＵ１０は、インターコネクト制御部１２を介して、他のＣＰＵ１０や外部装置２と通信を行う。また、ＣＰＵ１０は、メモリ１１を用いて各種プログラムを実行する。

また、本実施例に係るＣＰＵ１０は、パイプライン処理によりプログラムを実行する。さらに、ＣＰＵ１０は、プログラムの実行の際に、分岐命令を処理する機構が有するキューのエントリとして分岐命令を格納して管理する。さらに、ＣＰＵ１０は、分岐命令に対して分岐予測を行い、プログラムを実行する。

分岐予測ミスが発生した場合、ＣＰＵ１０は、分岐命令を格納するキューにおける分岐予測ミスが発生したエントリについて、正しい分岐命令のアドレスから処理を続行するための再命令フェッチをアウトオブオーダーで行う。この時、ＣＰＵ１０は、分岐命令を格納するキューにおいてそのエントリよりＴＯＱに近いエントリの中に再命令フェッチを行うエントリが存在するか否かを探索し、アウトオブオーダーで再命令フェッチを行う対象となるエントリを特定する。

そして、ＣＰＵ１０は、ＲＡＳコンプリートからＲＡＳフェッチへ情報をコピーする。さらに、ＣＰＵ１０は、特定したエントリとＴＯＱとの間に存在するコール命令及びリターン命令を探索する。コール命令を検出した場合、ＣＰＵ１０は、ＲＡＳフェッチをプッシュする。また、リターン命令を検出した場合、ＣＰＵ１０は、ＲＡＳフェッチをポップする。その後、ＣＰＵ１０は、特定したエントリで指定された分岐命令の再命令フェッチを実行する。以下に、ＣＰＵ１０の詳細の一例を説明する。

図２は、実施例に係るスーパースカラプロセッサの構成例を示す図である。ここでは、ＣＰＵ１０が複数のパイプライン処理を並列で行うスーパースカラプロセッサである場合を例に説明する。ただし、図２はＣＰＵ１０の一例であり、ＣＰＵ１０は、他の構成のプロセッサでもよい。

ＣＰＵ１０は、図２に示すように、命令フェッチアドレス生成器１０１、１次命令キャッシュ１０２、２次命令キャッシュ１０３、命令バッファ１０４、命令デコーダ１０５、リネーミングレジスタ１０６を有する。また、ＣＰＵ１０は、ＲＳＡ（Reservation Station for Address Generation）１１０、オペランドアドレス生成器１１１及び１次データキャッシュ１１２を有する。また、ＣＰＵ１０は、ＲＳＥ（Reservation Station for Execution）１２０、演算器１２１、固定小数点更新バッファ１２２、固定小数点レジスタ１２３、ＲＳＦ（Reservation Station for Floating Point）１３０、演算器１３１、浮動小数点更新バッファ１３２及び浮動小数点レジスタ１３３を有する。また、ＣＰＵ１０は、ＲＳＢＲ１４０、ＣＳＥ（Commit Stack Entry）１５０、プログラムカウンタ（ＰＣ：Program Counter）１６０及び分岐予測機構１７０を有する。ＣＰＵ１０における２次命令キャッシュ１０３以外の各部を含む機構は、コアと呼ばれる場合がある。ＲＳＡ１１０、ＲＳＥ１２０、ＲＳＦ１３０及びＲＳＢＲ１４０などの各リザベーションステーションは、命令が実行可能になるまで保持する機構である。ＲＳＡ１１０、ＲＳＥ１２０、ＲＳＦ１３０及びＲＳＢＲ１４０は、それぞれがキューを有する。

命令フェッチアドレス生成器１０１、命令バッファ１０４、命令デコーダ１０５は、命令実行のパイプラインにあたる。また、命令フェッチアドレス生成器１０１及び命令バッファ１０４が、命令フェッチ機構にあたる。

命令フェッチアドレス生成器１０１は、プログラムカウンタ１６０からプログラムの順番にしたがった命令のフェッチアドレスの入力を受ける。また、命令フェッチアドレス生成器１０１は、分岐予測機構１７０により分岐予測されたフェッチアドレスの入力を受ける。

命令フェッチアドレス生成器１０１は、分岐予測機構１７０からのフェッチアドレスの指定が無い場合、プログラムカウンタ１６０から取得した順に命令を処理する。また、命令フェッチアドレス生成器１０１は、分岐予測機構１７０からフェッチアドレスの指定を受けた場合、指定されたフェッチアドレスの命令を処理し、その後、プログラムカウンタ１６０から取得した順にその命令に続く命令の処理を継続する。

命令フェッチアドレス生成器１０１は、以下のように各命令を処理する。命令フェッチアドレス生成器１０１は、指定されたフェッチアドレスの命令が１次命令キャッシュ１０２でキャッシュヒットした場合、１次命令キャッシュ１０２が保持する命令を命令バッファ１０４に格納させる。これに対して、１次命令キャッシュ１０２でキャッシュミスした場合、命令フェッチアドレス生成器１０１は、２次命令キャッシュ１０３において対象の命令を探索する。２次命令キャッシュ１０３でキャッシュヒットした場合、命令フェッチアドレス生成器１０１は、２次命令キャッシュ１０３が保持する命令を１次命令キャッシュ１０２に格納させるとともに、命令バッファ１０４にその命令を格納させる。２次命令キャッシュ１０３でキャッシュミスした場合、命令フェッチアドレス生成器１０１は、メモリ１１から命令を取得する。その後、命令フェッチアドレス生成器１０１は、２次命令キャッシュ１０３が保持する命令を１次命令キャッシュ１０２に格納させるとともに、命令バッファ１０４にその命令を格納させる。

命令バッファ１０４は、将来実行する命令列を格納するバッファである。命令バッファ１０４は、命令実行の状態に関わらず、最大容量まで命令を格納する。また、命令バッファ１０４は、命令フェッチの状態に関わらず、保持する命令を出力可能である。命令バッファ１０４は、命令フェッチと命令実行とを分離することで、命令実行や命令フェッチによるレイテンシを隠蔽する。

命令デコーダ１０５は、命令バッファ１０４に格納された命令を処理順に取得する。そして、命令デコーダ１０５は、取得した命令をデコードする。そして、命令デコーダ１０５は、デコードした命令をリネーミングレジスタ１０６へ出力する。

リネーミングレジスタ１０６は、命令の実行がコミットされてレジスタに格納されるまで一時的に保持するバッファである。リネーミングレジスタ１０６は、デコードされた命令の入力を命令デコーダ１０５から受ける。次に、リネーミングレジスタ１０６は、命令の実行に用いる資源を、ＲＳＡ１１０、ＲＳＥ１２０、ＲＳＦ１３０及びＲＳＢＲ１４０の中から決定する。そして、リネーミングレジスタ１０６は、決定した資源に空きがあるか否かを判定する。決定した資源に空きがある場合、リネーミングレジスタ１０６は、決定した資源をデコードされた命令に割り当る。その後、リネーミングレジスタ１０６は、デコードされた命令に識別子を割り当てて、その命令を割り当てたＲＳＡ１１０、ＲＳＥ１２０、ＲＳＦ１３０及びＲＳＢＲ１４０のいずれかに発行する。

また、リネーミングレジスタ１０６は、デコードされた命令のそれぞれに対して順番通りに命令識別子（Instruction Identification：ＩＩＤ）を割り振る。そして、リネーミングレジスタ１０６は、命令識別子を割り振った順番にしたがってＣＳＥ１５０へ送信する。

ＲＳＡ１１０は、ロードストア命令のアドレス計算用のリザベーションステーションである。ロードストア命令とは、ロード命令又はストア命令のいずれかである。ＲＳＡ１１０は、オペランドアドレス生成器１１１による処理が可能になるまで、命令デコーダ１０５から取得した命令を保持する。その後、オペランドアドレス生成器１１１による処理が可能になると、ＲＳＡ１１０は、命令をオペランドアドレス生成器１１１へ出力する。ＲＳＡ１１０は、ロードストア命令をアウトオブオーダーで実行する。その後、ＲＳＡ１１０は、ロードストア命令の実行が完了すると、実行命令終了をＣＳＥ１５０に報告する。

オペランドアドレス生成器１１１は、複数存在する。オペランドアドレス生成器１１１は、ロードストア命令の入力をＲＳＡ１１０から受ける。そして、オペランドアドレス生成器１１１は、アドレス計算用のオペランドを生成して、生成したアドレスを用いてアドレス計算を実行して命令に応じたアドレスを生成する。その後、オペランドアドレス生成器１１１は、ストアデータを待ち合わせて、生成したアドレスを用いて１次データキャッシュ１１２にデータを書き込む。

ＲＳＥ１２０は、整数演算用のリザベーションステーションである。ＲＳＥ１２０は、演算器１２１による演算処理が可能になるまで、命令デコーダ１０５から取得した命令を保持する。その後、演算器１２１による演算処理が可能になると、ＲＳＥ１２０は、命令を演算器１２１へ出力する。ＲＳＥ１２０は、命令をアウトオブオーダーで実行する。その後、ＲＳＥ１２０は、演算命令の実行が完了すると、実行命令終了をＣＳＥ１５０に報告する。

演算器１２１は、複数存在する。演算器１２１は、固定小数点更新バッファ１２２及び固定小数点レジスタ１２３を用いて固定小数点演算を実行する。演算完了後、結果データは、固定小数点更新バッファ１２２を経由して固定小数点レジスタ１２３に書き込まれる。その後、計算データがコミットされると、コミットされた計算データが１次データキャッシュ１１２に送られる。

ＲＳＦ１３０は、浮動小数点演算用のリザベーションステーションである。ＲＳＦ１３０は、演算器１３１による演算処理が可能になるまで、命令デコーダ１０５から取得した命令を保持する。その後、演算器１３１による演算処理が可能になると、ＲＳＦ１３０は、命令を演算器１３１へ出力する。ＲＳＦ１３０は、命令をアウトオブオーダーで実行する。その後、ＲＳＦ１３０は、演算命令の実行が完了すると、実行命令終了をＣＳＥ１５０に報告する。

演算器１３１は、複数存在する。演算器１３１は、浮動小数点更新バッファ１３２及び浮動小数点レジスタ１３３を用いて浮動小数点演算を実行する。演算完了後、結果データは、浮動小数点更新バッファ１３２を経由して浮動小数点レジスタ１３３に書き込まれる。その後、計算データがコミットされると、コミットされた計算データが１次データキャッシュ１１２に送られる。

ＣＳＥ１５０は、コミット（確定）処理を実行する回路である。ＣＳＥ１５０は、デコードされた命令を命令の実行順番通りに溜めるキュー構造のストレージであるキュー１５１及びキュー１５１の情報と各処理パイプからの完了報告をもとにコミット処理を行う完了処理回路１５２を有する。

キュー１５１は、リネーミングレジスタ１０６から受信した命令を実行順番通りに格納して蓄積する。そして、ＣＳＥ１５０は、キュー１５１に命令を格納した状態で、命令の処理完了の報告を待つ。

完了処理回路１５２は、実行された各命令の終了報告をＲＳＡ１１０、ＲＳＥ１２０及びＲＳＦ１３０からアウトオブオーダーで受ける。また、完了処理回路１５２は、インオオーダーでＲＳＢＲ１４０から命令の処理完了の信号をインオーダーで受信する。

そして、完了処理回路１５２は、実行順序にしたがって命令をリオーダーして、キュー１５１に蓄積された終了報告待ちの命令の中から処理完了の信号による報告に対応する命令の終了を、キュー１５１に通知する。これにより、完了処理回路１５２は、キュー１５１に格納された命令のうち、終了を通知した命令をコミットして資源の更新を行う。

ＲＳＢＲ１４０は、分岐命令用のリザベーションステーションである。ＲＳＢＲ１４０は、リターンアドレススタックで用いられるＲＡＳフェッチ１７１及びＲＡＳコンプリート１７２の更新、並びに、再命令フェッチなどの信号を発行する。

ＲＳＢＲ１４０は、分岐命令の入力を命令デコーダ１０５から受ける。そして、ＲＳＢＲ１４０は、自己が有するＲＳＢＲキューに分岐命令を格納する。ＲＳＢＲキューは、ＦＩＦＯ（First In Frist Out）で動作するキューである。ＲＳＢＲキューの各エントリは、分岐予測での分岐する又は分岐しないを示す予測結果や予測されたアドレスを保持する。

ＲＳＢＲ１４０は、演算器１２１又は１３１による演算結果をＲＳＥ１２０又はＲＳＦ１３０から受け取る。そして、ＲＳＢＲ１４０は、各エントリについて取得した演算結果から分岐命令において分岐した（taken）又は分岐せず（not-taken）のいずれが発生したかを判定する。例えば、ＣＰＵ１０がＡＲＭベースのプロセッサの場合、ＲＳＢＲ１４０は、ＮＺＣＶ確定命令の演算結果に基づくＮＺＣＶレジスタに格納された値を取得して判定を行う。また、ＲＳＢＲ１４０は、各エントリについて格納された命令のターゲットアドレスを確定させる。

ＲＳＢＲ１４０は、通常はインオーダーでＲＳＢＲキューに格納された分岐命令を処理する。すなわち、ＲＳＢＲ１４０は、ＲＳＢＲキューのＴＯＱのエントリに格納される命令を順次処理する。ただし、以下に説明するように、ＲＳＢＲ１４０は、分岐予測ミスが発生した場合の再命令フェッチ要求の出力はアウトオブオーダーで行う。

ＲＳＢＲ１４０は、各エントリの分岐の判定結果を用いて、それぞれの分岐命令において分岐予測ミスが発生したか否かを判定する。ここでは、分岐予測ミスが発生したか否かを判定した分岐命令を、判定対象の分岐命令と呼ぶ。ＲＳＢＲ１４０は、分岐予測ミスが発生したと判定した場合、判定対象の分岐命令に対する再命令フェッチを決定する。そして、ＲＳＢＲ１４０は、判定対象の分岐命令の再命令フェッチ要求のエントリをＲＳＢＲキューに格納する。さらに、ＲＳＢＲ１４０は、パイプラインにおけるデコード以前の命令をクリアして、パイプラインのクリアを行う。

次に、ＲＳＢＲ１４０は、判定対象の分岐命令の再命令フェッチ要求のエントリとＴＯＱとの間のエントリを探索して、その間のエントリに他の再命令フェッチ要求のエントリが存在するか否かを判定する。

そして、ＲＳＢＲ１４０は、判定対象の分岐命令の再命令フェッチ要求のエントリからＴＯＱまでの間で、最もＴＯＱに近い再命令フェッチ要求のエントリを特定する。判定対象の分岐命令よりもＴＯＱ側に再命令フェッチ要求のエントリが無い場合、ＲＳＢＲ１４０は、判定対象の分岐命令を、最もＴＯＱに近い再命令フェッチ要求のエントリとして特定する。以下では、ＲＳＢＲ１４０により特定したエントリを、「再命令フェッチ要求のエントリ」と呼ぶ。この再命令フェッチ要求のエントリが、「第１エントリ」の一例にあたる。

次に、ＲＳＢＲ１４０は、再命令フェッチ要求のエントリよりもＴＯＱから遠いエントリの有効フラグを削除して無効化する。これにより、ＲＳＢＲ１４０は、予測ミスで生じた不要なエントリを削除する。

次に、ＲＳＢＲ１４０は、再命令フェッチ要求のエントリから取得した再命令フェッチ要求を命令フェッチアドレス生成器１０１及び分岐予測機構１７０へ出力する。ただし、ＲＳＢＲ１４０は、再命令フェッチ要求に再命令フェッチの開始を抑止するための情報を付加する。これにより、ＲＳＢＲ１４０は、再命令フェッチ要求は出力しつつ、再命令フェッチの実行を抑止する。また、ＲＳＢＲ１４０は、新規のエントリの作成を停止する。次に、ＲＳＢＲ１４０は、分岐予測機構１７０におけるＲＡＳコンプリート１７２の情報をＲＡＳフェッチ１７１にコピーする。さらに、ＲＳＢＲ１４０は、再命令フェッチのエントリの番号を記憶する。

次に、ＲＳＢＲ１４０は、再命令フェッチのエントリからＴＯＱのエントリまでを探索して、その間に存在するコール命令及びリターン命令を検出する。ここで、ＲＳＢＲキューの各エントリは、自己がコール命令か否かの情報及びリターン命令であるか否かの情報をフラグとして保持する。そして、ＲＳＢＲ１４０は、コール命令を検出すると、ＲＡＳフェッチ１７１をプッシュして、そのコール命令の戻り先のアドレスをＲＡＳフェッチ１７１に格納する。また、ＲＳＢＲ１４０は、リターン命令を検出すると、ＲＡＳフェッチ１７１からポップして、そのリターン命令に対応するコール命令の戻り先アドレスを取得しＲＡＳフェッチ１７１から削除する。

ＲＳＢＲ１４０は、各分岐命令の処理完了を通知する了信号をインオーダーでＣＳＥ１５０へ送信する。処理完了を通知する信号を送信することにより、ＲＳＢＲ１４０は、分岐命令が完了したとして分岐命令の終了を確定させる。さらに、ＲＳＢＲ１４０は、コール命令やリターン命令を、処理完了を通知する信号に対応付けて分岐予測機構１７０へ出力する。コール命令の処理完了を通知する信号を分岐予測機構１７０へ出力することで、ＲＳＢＲ１４０は、ＲＡＳコンプリート１７２をプッシュして、そのコール命令の戻り先のアドレスをＲＡＳコンプリート１７２に格納する。また、リターン命令の処理完了の信号を分岐予測機構１７０へ出力することで、ＲＳＢＲ１４０は、ＲＡＳコンプリート１７２をポップして、そのリターン命令に対応するコール命令の戻り先アドレスを削除する。

その後、ＲＳＢＲ１４０は、命令フェッチアドレス生成器１０１に送った再命令フェッチ要求に付加した再命令フェッチの開始を抑止するための情報を除去する。これにより、ＲＳＢＲ１４０は、再命令フェッチを命令フェッチアドレス生成器１０１に実行させる。このＲＳＢＲ１４０が、「分岐命令処理部」の一例にあたる。

分岐予測機構１７０は、リターンアドレススタックを実行する。分岐予測機構１７０は、ＲＡＳフェッチ１７１及びＲＡＳコンプリート１７２を有する。ＲＡＳフェッチ１７１が「第１格納部」の一例にあたり、ＲＡＳコンプリート１７２が「第２格納部」の一例にあたる。

分岐予測機構１７０は、コール命令が命令フェッチアドレス生成器１０１でフェッチされると、ＲＡＳフェッチ１７１をプッシュして、フェッチされたコール命令の戻り先アドレスをＲＡＳフェッチ１７１に格納する。また、リターン命令が命令フェッチアドレス生成器１０１でフェッチされると、分岐予測機構１７０は、ＲＡＳフェッチ１７１をポップして、フェッチされたリターン命令に対応するコール命令の戻り先アドレスを取得してＲＡＳフェッチ１７１から削除する。

また、分岐予測機構１７０は、コール命令の終了信号をＲＳＢＲ１４０から受信すると、ＲＡＳコンプリート１７２をプッシュして、フェッチされたコール命令の戻り先アドレスをＲＡＳコンプリート１７２に格納する。また、リターン命令の終了信号をＲＳＢＲ１４０から受信すると、分岐予測機構１７０は、ＲＡＳコンプリート１７２をポップして、フェッチされたリターン命令に対応するコール命令の戻り先アドレスを取得してＲＡＳコンプリート１７２から削除する。

分岐予測機構１７０は、分岐予測ミスが発生し、ＲＳＢＲ１４０から送られた再命令フェッチ要求を受信した場合、ＲＡＳコンプリート１７２の情報をＲＡＳフェッチ１７１へコピーする。その後、分岐予測機構１７０は、再命令フェッチ要求のエントリより前のエントリのコール命令について、ＲＳＢＲ１４０によりＲＡＳフェッチ１７１がプッシュされる。また、分岐予測機構１７０は、再命令フェッチ要求のエントリより前のエントリのリターン命令について、ＲＳＢＲ１４０によりＲＡＳフェッチ１７１がポップされる。

図３は、実施例に係る演算処理装置におけるアウトオブオーダーで再命令フェッチ要求を出力する場合の処理の概要を示す図である。次に、図３を参照して、より具体的な動作の説明とともにアウトオブオーダーで再命令フェッチ要求を出力する場合の処理の概要をまとめて説明する。

ここでは、ＲＳＢＲ１４０は、図３でTOP－out－ptrとして表されるポインタ１４１によりＴＯＱのエントリを管理する。すなわち、ポインタ１４１で指定されるエントリがＴＯＱのエントリである。

例えば、命令リスト２００は、プログラムカウンタ１６０に登録された順で並ぶ命令を表す。命令リスト２００の順序で命令が並ぶ場合、ＲＳＢＲ１４０は、Call func X、Call func. Y、Call func. Z、Cond. Branch、Call func. Tを順にＲＳＢＲキューに格納する。ここで、ＲＳＢＲ１４０は、分岐命令が終了して確定すると、ポインタ１４１を次の命令に移動する。すなわち、ＲＳＢＲ１４０は、図３の状態で、範囲１４２に存在するエントリの実行は終了しており、これらのエントリの命令の終了信号を分岐予測機構１７０に送信済みである。そのため、分岐予測機構１７０は、ＲＳＢＲキューの範囲１４２に存在するコール命令やリターン命令に対応するＲＡＳコンプリート１７２のプッシュ又はポップを実行済みである（ステップＳ１）。この場合、ＲＡＳコンプリート１７２には、Call func. Xの戻りアドレスであるＡ＋４が格納される。

この後、ＲＳＢＲ１４０は、矢印１４３の向かう方向に順にCall func. YのエントリからＲＳＢＲキューに格納された各エントリを処理する。ここで、ＲＳＢＲ１４０は、エントリ１４４のCond. Branchで分岐予測ミスを検出する。この時点で、Call func. Zはフェッチされているので、分岐予測機構１７０は、Call func. Zというコール命令の戻り先アドレスであるＸ＋８をＲＡＳフェッチ１７１にプッシュ済みである。しかし、Call func. Zの処理は完了していないため、分岐予測機構１７０は、Call func. Zというコール命令の戻り先アドレスであるＸ＋８をＲＡＳコンプリート１７２にプッシュしていない。

ＲＳＢＲ１４０は、エントリ１４４のCond. Branchで分岐予測ミスを検出すると、エントリ１４４のreifch_conditionというフラグ１４５の値を１に設定する。そして、ＲＳＢＲ１４０は、各エントリのreifch_conditionの値を参照し、ＲＳＢＲ１４０にreifch_conditionの値が１のエントリが１つでも存在する場合、デコード以前のパイプラインをクリアする。

次に、ＲＳＢＲ１４０は、reifch_conditionの値が１のエントリのうち、ＴＯＱにもっとも近いエントリを、再命令フェッチ要求のエントリとして特定する。この場合、ＲＳＢＲ１４０は、エントリ１４４を再命令フェッチ要求のエントリとして特定する。次に、ＲＳＢＲ１４０は、エントリ１４４よりもポインタ１４１で示されるＴＯＱのエントリから遠いエントリの有効フラグを削除して無効化する。

次に、ＲＳＢＲ１４０は、エントリ１４４に基づく再命令フェッチ要求を命令フェッチアドレス生成器１０１及び分岐予測機構１７０へ出力する。分岐予測機構１７０は、再命令フェッチ要求を受けると、ＲＡＳコンプリート１７２の情報をＲＡＳフェッチ１７１へコピーする（ステップＳ２）。これにより、ＲＡＳフェッチ１７１に反映されていたCall Fanc. Zというコール命令の戻りアドレスであるＸ＋８が、上書されてＲＡＳフェッチ１７１から消える。

さらに、ＲＳＢＲ１４０は、命令フェッチアドレス生成器１０１に送った再命令フェッチ要求に付加された、リターンアドレススタックを修復中であることを示すトリガであるreturn adrs stack repair tgrの値を１とする。ＲＳＢＲ１４０は、return adrs stack repair tgrの値を１とすることで、再命令フェッチ要求を出力した状態で、再命令フェッチの実行は抑止しておく。さらに、ＲＳＢＲ１４０は、新規のエントリの受付を停止する。

次に、ＲＳＢＲ１４０は、再命令フェッチ要求のエントリのエントリ番号を記憶する。そして、ＲＳＢＲ１４０は、記憶したエントリ番号を示すRTNSTK_REPAIR_END_POINTERというポインタ１４６をＲＳＢＲキューに付加する。

次に、ＲＳＢＲ１４０は、再命令フェッチ要求を出力した次のサイクルで、ポインタ１４１が示すＴＯＱのエントリから、ポインタ１４６が示す再命令フェッチ要求のエントリ１４４まで順に、コール命令及びリターン命令を探索する。例えば、ＲＳＢＲ１４０は、ポインタ１４１からポインタ１４６まで順番にエントリを示していくRTNSTK-REPAIR-PTRというポインタを用意する。次に、ＲＳＢＲ１４０は、RTNSTK-REPAIR-PTRで示されたエントリのコール命令であるか又はリターン命令であるかを示すフラグを読み出し、各エントリがコール命令かリターン命令かそれ以外かを判定する。そして、コール命令を検出した場合、ＲＳＢＲ１４０は、そのコール命令でＲＡＳフェッチ１７１をプッシュする。また、リターン命令を検出した場合、ＲＳＢＲ１４０は、そのリターン命令でＲＡＳフェッチ１７１をポップする。図３の場合、ＲＳＢＲ１４０は、ポインタ１４１からポインタ１４６の間にCall func. Zというコール命令を検出する。そこで、ＲＳＢＲ１４０は、Call func. ZでＲＡＳフェッチ１７１をプッシュする（ステップＳ３）。これにより、Call func. Zの戻り先アドレスであるｘ＋８が、ＲＡＳフェッチ１７１に再度反映される。

この後、ＲＳＢＲ１４０は、命令の処理完了の信号をインオーダーでＣＳＥ１５０へ送信する。ＣＳＥ１５０は、分岐命令が終了したとして分岐命令の実行終了を確定する。また、ＲＳＢＲ１４０は、命令の処理完了の信号を分岐予測機構１７０へ送信する。コール命令の処理が完了した場合、分岐予測機構１７０は、そのコール命令でＲＡＳコンプリート１７２をプッシュする。また、リターン命令の処理が完了した場合、分岐予測機構１７０は、そのリターン命令でＲＡＳコンプリート１７２をポップする。この時点で、ポインタ１４１は、終了していない先頭の分岐命令のエントリ番号を指す。すなわち、ＲＳＢＲ１４０は、ポインタ１４１が示すＴＯＱのエントリから実行を開始することで、処理を再開することができる。

図４は、アウトオブオーダーで再命令フェッチを行う場合のＲＳＢＲキューに格納された各エントリの処理順を示す図である。次に、図４を参照して、アウトオブオーダーで再命令フェッチを行なった場合のＲＳＢＲキューに格納された各エントリの処理について説明する。図４では、エントリ＃１がＲＳＢＲキューのＴＯＱのエントリであり、エントリ＃２がエントリ＃１より後のエントリである。

エントリ＃１の命令の実行の完了処理が終了していない状態で、ＲＳＢＲ１４０は、既に実行した分岐命令の分岐が確定して予測分岐ミスを検出し（ステップＳ１１）、再命令フェッチ要求のエントリ＃２をＲＳＢＲキューに格納する。

そして、ＲＳＢＲ１４０は、エントリ＃２がＴＯＱに到達する前に、エントリ＃２の分岐命令の再命令フェッチ要求を出力する（ステップＳ１２）。すなわち、ＲＳＢＲ１４０は、エントリ＃１の命令の実行を待たずに、アウトオブオーダーでエントリ＃２の分岐命令の再命令フェッチを命令フェッチアドレス生成器１０１に行わせる。

その後、ＲＳＢＲ１４０は、ＴＯＱに位置するエントリ＃１の命令を出力する。そして、エントリ＃１の命令による分岐が確定して、エントリ＃１の命令の実行の処理が完了する。これらのエントリ＃１の命令の実行と並行して、エントリ＃２から出力された再命令フェッチ要求を受けて、命令フェッチアドレス生成器１０１は、再命令フェッチを実行する（ステップＳ１３）。その後、命令デコーダ１０５は、フェッチされた命令をデコードする（ステップＳ１４）。

ＲＳＢＲ１４０は、エントリ＃１の命令の処理完了を待たずに再命令フェッチ要求を出力することで、エントリ＃１の命令の実行の処理完了までの待ち時間分早く、エントリ＃２の命令の処理を完了することができる（ステップＳ１５）。すなわち、ＲＳＢＲ１４０は、パイプラインにおける命令フェッチの処理による遅延時間を隠蔽することができる。

さらに、本実施例に係るＲＳＢＲ１４０は、ＲＳＢＲキューにおいて、分岐予測ミスが発生して再命令フェッチの対象となりアウトオブオーダーで実行されるエントリより前のエントリ中のコール命令やリターン命令の結果をＲＳＡコンプリートに反映する。これにより、パイプラインによる命令フェッチの処理時間を隠蔽しつつ、分岐予測精度を維持できる。

図５は、実施例に係る演算処理装置による再命令フェッチ処理のフローチャートである。次に、図５を参照して、ＣＰＵ１０による再命令フェッチ処理の流れを説明する。

ＲＳＢＲ１４０は、演算器１２１及び１３１で実行された演算の演算結果を取得して、既に実行された分岐命令についての予測分岐ミスを検出する（ステップＳ１０１）。

そして、ＲＳＢＲ１４０は、予測分岐ミスが検出された分岐命令の再命令フェッチ要求のエントリをＲＳＢＲキューに格納する。次に、ＲＳＢＲ１４０は、ＴＯＱに最も近い分岐予測ミスと判定された分岐命令のエントリを特定する（ステップＳ１０２）。

次に、ＲＳＢＲ１４０は、ＲＳＢＲキューに格納されたエントリのうち特定したエントリより若番のエントリ、すなわち、特定したエントリより後に格納されたエントリの有効フラグをクリアする。これにより、ＲＳＢＲ１４０は、命令パイプラインをクリアする（ステップＳ１０３）。

次に、ＲＳＢＲ１４０は、新規エントリの生成を抑制するとともに、再命令フェッチを行う分岐命令が登録されたエントリのエントリ番号を記憶する（ステップＳ１０４）。

次に、ＲＳＢＲ１４０は、特定したエントリに基づく再命令フェッチ要求を出力する（ステップＳ１０５）。

次に、ＲＳＢＲ１４０は、再命令フェッチ要求に対して、ＲＡＳフェッチ１７１の復元完了まで再命令フェッチを抑止するフラグを立てる（ステップＳ１０６）。

次に、ＲＳＢＲ１４０は、ＲＡＳコンプリート１７２からＲＡＳフェッチ１７１への情報のコピーを実行する（ステップＳ１０７）。

次に、ＲＳＢＲ１４０は、特定したエントリからＴＯＱの間のコール命令及びリターン命令を探索し、検出したコール命令及びリターン命令にしたがってＲＡＳフェッチ１７１をプッシュ及びポップする（ステップＳ１０８）。

その後、ＲＳＢＲ１４０は、再命令フェッチ要求に立てた再命令フェッチを抑止するフラグを解除して、再命令フェッチを命令フェッチアドレス生成器１０１に実行させる（ステップＳ１０９）。

以上に説明したように、本実施例に係る演算処理装置は、分岐予測ミスに応じて分岐命令に対する再命令フェッチの実行を決定し、その再命令フェッチよりも前のコール命令及びリターン命令による処理結果をＲＡＳフェッチに反映させる。そのうえで、演算処理装置は、アウトオブオーダーで再命令フェッチを行う。これにより、アウトオブオーダーで再命令フェッチを行う場合に、再命令フェッチよりも前にＲＡＳフェッチに格納された情報を維持することができ、リターンアドレススタックの予測精度を維持することができる。したがって、予測精度を維持しつつ演算性能を向上させることが可能となる。

以上に説明した、分岐命令処理機構及び分岐予測機構を有するプロセッサは、スーパースカラプロセッサに限らず一般的なプロセッサでよい。また、プロセッサは、ＡＲＭベースのプロセッサに限らず、他のプロセッサでもよい。また、プロセッサは、サーバやＨＰＣ（High Performance Computing）に用いられるコンピュータに搭載可能である。

１サーバ
２外部装置
１０ＣＰＵ
１１メモリ
１２インターコネクト制御部
１０１命令フェッチアドレス生成器
１０２１次命令キャッシュ
１０３２次命令キャッシュ
１０４命令バッファ
１０５命令デコーダ
１０６リネーミングレジスタ
１１０ＲＳＡ
１１１オペランドアドレス生成器
１１２１次データキャッシュ
１２０ＲＳＥ
１２１演算器
１２２固定小数点更新バッファ
１２３固定小数点レジスタ
１３０ＲＳＦ
１３１演算器
１３２浮動小数点更新バッファ
１３３浮動小数点レジスタ
１４０ＲＳＢＲ
１５０ＣＳＥ
１５１キュー
１５２完了処理回路
１６０プログラムカウンタ
１７０分岐予測機構
１７１ＲＡＳフェッチ
１７２ＲＡＳコンプリート

Claims

命令をフェッチして実行するパイプラインと、
前記パイプラインによりフェッチされたコール命令から得られる予測情報を第１格納部に格納し且つ前記パイプラインによりフェッチされたリターン命令で使用される前記予測情報を前記第１格納部から取得して削除し、前記パイプラインによる前記コール命令の実行の完了後に前記予測情報を第２格納部に格納し且つ前記パイプラインによる前記リターン命令の実行の完了後に前記第２格納部から前記予測情報を削除する分岐予測機構と、
前記コール命令及び前記リターン命令を含む分岐命令を前記パイプラインに実行させる複数のエントリを格納するキューを有し、前記分岐命令に対する分岐予測ミスを検出し、前記分岐予測ミスを検出した前記分岐命令を再実行せるエントリのうち、前記キューの先頭に最も近い第１エントリを特定し、前記第１エントリより前記キューの先頭に近いエントリに格納された前記コール命令及び前記リターン命令にしたがって前記第１格納部に対して前記予測情報の格納及び削除を行い、前記第１エントリを前記パイプラインに再実行させる分岐命令処理部と
を備えたことを特徴とする演算処理装置。
前記分岐命令処理部は、前記第２格納部が保持する情報を前記第１格納部にコピーし、且つ、前記第１エントリより前記キューの先頭に近いエントリに格納された前記コール命令及び前記リターン命令にしたがって前記第１格納部に対して前記予測情報の格納及び削除を行うことを特徴とする請求項１に記載の演算処理装置。
前記分岐命令処理部は、特定の分岐命令に対する前記分岐予測ミスを検出した場合、前記特定の分岐命令を再実行させるエントリから前記キューの先頭の間で前記第１エントリを特定することを特徴とする請求項１に記載の演算処理装置。
前記分岐命令処理部は、前記第１エントリよりも前記キューの先頭に近いエントリにより実行される分岐命令を前記パイプラインから除くことを特徴とする請求項１に記載の演算処理装置。
前記分岐命令処理部は、前記パイプラインに対して、前記第１エントリの再実行を要求し、且つ、前記第１格納部に対する前記予測情報の格納及び削除が完了するまで前記第１エントリの再実行を待機させることを特徴とする請求項１に記載の演算処理装置。
命令をフェッチして実行するパイプラインを有する演算処理装置が、
前記パイプラインによりフェッチされたコール命令から得られる予測情報を第１格納部に格納し且つ前記パイプラインによりフェッチされたリターン命令で使用される前記予測情報を前記第１格納部から取得して削除し、
前記パイプラインによる前記コール命令の実行の完了後に前記予測情報を第２格納部に格納し且つ前記パイプラインによる前記リターン命令の実行の完了後に前記第２格納部から前記予測情報を削除し、
前記コール命令及び前記リターン命令を含む分岐命令を前記パイプラインに実行させる複数のエントリをキューに格納し、
前記分岐命令に対する分岐予測ミスを検出し、
前記分岐予測ミスを検出した前記分岐命令を再実行せるエントリのうち、前記キューの先頭に最も近い第１エントリを特定し、
前記第１エントリより前記キューの先頭に近いエントリに格納された前記コール命令及び前記リターン命令にしたがって前記第１格納部に対して前記予測情報の格納及び削除を行い、
前記第１エントリを前記パイプラインにより再実行する
ことを特徴とする演算処理方法。
演算処理部を有する情報処理装置であって、
前記演算処理部は、
命令をフェッチして実行するパイプラインと、
前記パイプラインによりフェッチされたコール命令から得られる予測情報を第１格納部に格納し且つ前記パイプラインによりフェッチされたリターン命令で使用される前記予測情報を前記第１格納部から取得して削除し、前記パイプラインによる前記コール命令の実行の完了後に前記予測情報を第２格納部に格納し且つ前記パイプラインによる前記リターン命令の実行の完了後に前記第２格納部から前記予測情報を削除する分岐予測機構と、
前記コール命令及び前記リターン命令を含む分岐命令を前記パイプラインに実行させる複数のエントリを格納するキューを有し、前記分岐命令に対する分岐予測ミスを検出し、前記分岐予測ミスを検出した前記分岐命令を再実行せるエントリのうち、前記キューの先頭に最も近い第１エントリを特定し、前記第１エントリより前記キューの先頭に近いエントリに格納された前記コール命令及び前記リターン命令にしたがって前記第１格納部に対して前記予測情報の格納及び削除を行い、前記第１エントリを前記パイプラインに再実行させる分岐命令処理部とを備えた
ことを特徴とする情報処理装置。