JPH1069385A

JPH1069385A - 命令ループを推論的に実行するプロセッサ及び方法

Info

Publication number: JPH1069385A
Application number: JP9181943A
Authority: JP
Inventors: Terence M Potter; テレンス・エム・ポッター
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1996-07-22
Filing date: 1997-07-08
Publication date: 1998-03-10
Anticipated expiration: 2017-07-08
Also published as: US5740419A; JP3093684B2; EP0821305A2; TW386214B; KR100244842B1; KR980010787A; EP0821305A3

Abstract

(57)【要約】【課題】命令ループを推論的に実行するプロセッサ及
び方法を提供する。【解決手段】プロセッサにより、実行すべき命令ルー
プの実際の繰り返し回数と、実行された命令ループの繰
り返し回数との間の差が０になるまで、命令ループを繰
り返させる。前記差が０より小さいときは、前記誤予測
による命令ループの繰り返しにおいて実行していないフ
ェッチ命令を取り消し、命令ループの繰り返しのデータ
結果は無視する。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明の技術分野は、概要的
にデータ処理方法及びシステムに関し、特に分岐命令を
実行するプロセッサ及び方法に関する。更に詳細に述べ
ると、本発明の技術分野は、命令ループを推論的に実行
するプロセッサ及び方法に関する。

【０００２】

【従来の技術】最新のスーパースケーラ・プロセッサ
は、例えば、命令を記憶する命令キャッシュ、命令キャ
ッシュからフェッチした複数の命令を一時的に記憶して
実行する命令バッファ、命令シーケンスを実行する１以
上の実行ユニット、分岐命令を実行する分岐処理ユニッ
ト（ＢＰＵ）、命令バッファから特定の実行ユニットへ
命令シーケンスをディスパッチするディスパッチ・ユニ
ット、及び実行を終了したが、完結しなかった命令シー
ケンスを一時記憶する完了バッファを備えることができ
る。

【０００３】スーパースケーラ・プロセッサの分岐処理
ユニット（ＢＰＵ）により実行される分岐命令は、条件
分岐命令又は無条件分岐命令に分類され得る。無条件分
岐命令は、プログラム実行の流れを逐次的な実行パスか
ら指定された目標実行パスへ変更し、かつ他の命令の実
行により提供される条件に依存しない分岐命令である。
従って、常に無条件分岐命令により指定された分岐が行
われる。これに対して、条件分岐命令は、プロセッサ内
の条件、例えば指定されたレジスタの状態又はカウンタ
の値に従い、プログラムの流れにおいて指示された分岐
を行うか、又は行わない分岐命令である。更に、条件分
岐命令は、これが分岐処理ユニット（ＢＰＵ）により評
価されるときに、分岐が依存する条件が得られるか否か
に基づいて、決定済み又は未決定として分類できる。決
定された条件分岐命令が依存している条件は実行前に分
かっているので、典型的には、決定された条件分岐命令
を実行することができ、また目標実行パス内の命令を命
令シーケンスの実行において僅かな遅延又は遅延なしで
フェッチすることができる。他方、未解決の条件命令
は、分岐が依存する条件が入手可能となるまで、命令シ
ーケンスのフェッチを遅延させるのであれば、大きなパ
フォーマンスの低下を来す恐れがある。

【０００４】従って、いくつかのプロセッサは、パフォ
ーマンスを高めるために、指示された分岐をするのか、
しないのかを予測して、未決定の分岐命令を推論的に実
行する。次に、フェッチヤーは、予測の結果を利用し
て、分岐の決定前に、推論的な実行パス内の複数の命令
をフェッチすることにより、次に分岐が正しく予測され
たとして分岐を決定する場合に、実行パイプラインにお
けるストールをなくするすることができる。

【０００５】大抵の形式の条件命令は、例えば静的又は
動的な予測を用いて、ＢＰＵにより通常に予測される
が、命令ループのインデックスとして用いられるレジス
タ内に保持されている値に基づいて分岐する「カウント
による条件分岐」は、通常のプロセッサにより予測され
ることはない。カウント命令による分岐条件が通常のプ
ロセッサのＢＰＵによりデコードされると、命令は、分
岐インデックス値（典型的には特殊用レジスタ内に記憶
される）が利用可能になるまでストールする。このよう
にしてプロセッサがストールすると、特に実行している
プログラムが多数回のループを有するときは、大きなパ
フォーマンス劣化に帰結する。従って、プロセッサにカ
ウント命令による条件分岐を推論的に実行させ、次いで
分岐インデックス値を判断したときに、分岐を決定させ
る分岐予測方法論が必要とされるのは、明らかである。

【０００６】

【発明が解決しようとする課題】従って、本発明の第１
の目的はデータ処理方法及びシステムを提供することで
ある。

【０００７】本発明の他の目的は分岐命令を実行するプ
ロセッサ及び方法を提供することである。

【０００８】本発明の更に他の目的は推論的に命令ルー
プを実行するプロセッサ及び方法を提供することであ
る。

【０００９】

【課題を解決するための手段】以上の目的は、ここで説
明されているように達成される。命令ループを推論的に
実行するプロセッサ及び方法を開示する。この方法によ
れば、プロセッサが命令ループの実行を開始し、それぞ
れ実行された前記命令ループの繰り返しをカウントす
る。その後、命令ループが実行されるべき実際の繰り返
し回数を判断する。この判断に応答して、前記命令ルー
プが実行されるべき実際の繰り返し回数と、実行された
繰り返し回数との間の差を判断する。この差が０より大
きいという判断に応答して、その差に等しい付加的な繰
り返し回数につき命令ループが実行される。一実施例に
よれば、この差が０未満であるとの判断に応答して、誤
予測による命令ループの繰り返し内でフェッチされた未
実行命令は、取り消される。更に、実行された誤予測に
よる命令ループの繰り返しのデータ結果は、無視され
る。他の実施例によれば、実行された命令ループの繰り
返しは、カウント・レジスタを０にセットし、かつ実行
された命令ループの各繰り返しについて前記カウント・
レジスタを１つ減算することにより、カウントされる。
実行すべき実際の繰り返し回数と実行繰り返し回数との
間の差は、実際の繰り返しの数とカウント・レジスタの
値とを加算することにより、決定される。

【００１０】この実施例の付加的な目的、特徴及び効果
は以下に詳細に記載した説明により明らかとなる。

【００１１】

【発明の実施の形態】ここで図、特に図１を参照する
と、特許請求の範囲に記載され、本発明により情報を処
理するプロセッサの一実施例のブロック図が総体的に１
０により示されている。説明する図示の実施例におい
て、プロセッサ１０は一個の集積回路スーパースケーラ
・マイクロプロセッサを備えている。従って、以下で更
に説明しているように、プロセッサ１０は、集積回路に
より全て形成された種々の実行ユニット、複数のレジス
タ、複数バッファ、複数のメモリ、及び他の複数の機能
ユニットを備えている。プロセッサ１０は、好ましく
は、縮小命令セット（RISC）技術に従って動作し、IBM
マイクロエレクトロニクスから入手可能なマイクロプロ
セッサのPower PC（登録商標）ラインのうちの一つを備
えている。しかし、当該技術分野において習熟する者
は、他の適当なプロセッサを使用してもよいことを理解
すべきである。図１に示すように、プロセッサ１０は、
このプロセッサ１０内のバス・インターフェイス・ユニ
ット（ＢＩＵ）１２を介してシステム・バス１１に接続
されている。ＢＩＵ１２はプロセッサ１０とシステム・
バス１１に接続されている他の装置、例えばメイン・メ
モリ（図示なし）との間の情報の転送を制御する。プロ
セッサ１０、システム・バス１１、及びシステム・バス
１１に接続された他の装置は、相互にデータ処理システ
ムを形成している。

【００１２】ＢＩＵ１２はプロセッサ１０内の命令キャ
ッシュ１４及びデータ・キャッシュ１６に接続されてい
る。命令キャッシュ１４及びデータ・キャッシュ１６の
ような高速度キャッシュは、プロセッサ１０がメイン・
メモリから命令キャッシュ１４及びデータ・キャッシュ
１６へ前に転送されたデータ又は命令のサブセットに対
して比較的に速いアクセス時間を達成できるようにする
ものであり、従ってデータ処理システムの動作速度を改
善する。命令キャッシュ１４は、更に、各サイクルにお
いて１以上の命令をフェッチして命令キャッシュ１４か
ら実行するシーケンシャル・フェッチヤー１７に接続さ
れている。シーケンシャル・フェッチヤー１７は命令キ
ャッシュ１４からフェッチされた命令を分岐処理ユニッ
ト（ＢＰＵ）１８及び命令キュー１９へ転送し、これら
の命令が分岐か又は命令シーケンスかを判断する。分岐
命令は実行のためにＢＰＵ１８により保持され、かつ命
令キュー１９から取り消される。他方、命令シーケンス
はＢＰＵ１８から取り消されると共に、プロセッサ１０
内の他の実行回路による次の実行のために命令キュー１
９内に記憶される。前述のように、ＢＰＵ１８により実
行される分岐命令を条件命令又は無条件命令に分類する
ことができる。更に、条件分岐命令を決定済みか、又は
未決定かに分類することができる。条件分岐命令は、デ
ータ処理システム内の種々の条件に応答してセット若し
くはクリアされる条件レジスタ（ＣＲ）における特定の
ビット状態、及び／又はカウント・レジスタ（CTR）に
記憶した値に基づくことができる。

【００１３】この実施例において、プロセッサ１０の実
行回路は、ＢＰＵ１８に加えて、固定少数点ユニット
（ＦＸＵ）２２、ロード・ストア・ユニット（ＬＳＵ）
２８、浮動少数点ユニット（ＦＰＵ）３０を含むシーケ
ンシャル命令用の複数の実行ユニットを備えている。コ
ンピュータの技術分野に習熟する者にとっては周知のよ
うに、各実行ユニット２２、ＬＳＵ２８及びＦＰＵ３０
は、典型的には、各プロセッサ・サイクルにおいて特定
形式の命令シーケンスにおける１以上の命令を実行す
る。例えば、ＦＸＵ２２は、指定された汎用レジスタ
（ＧＰＲ）３２又はＧＰＲリネーム・バッファ３３から
受け取ったソース・オペランドを用いて加算、減算、論
理積、論理和及び排他的論理和のような固定少数点算術
及び論理演算を実行する。ＦＸＵ２２は、固定少数点命
令を実行した後に、ＧＰＲリネーム・バッファ３３に対
して命令の結果データを出力する。このＧＰＲリネーム
・バッファ３３は、命令を完了するまで、ＧＰＲリネー
ム・バッファ３３から１以上の汎用レジスタ（ＧＰＲ）
３２へ結果データを転送することにより、結果データを
一時的に記憶する。逆に、ＦＰＵ３０は、典型的には、
浮動少数点レジスタ（ＦＰＲ）３６又はＦＰＲリネーム
・バッファ３７から受け取ったソース・オペランにより
浮動少数点掛け算及び割り算のような単及び倍精度算術
及び論理演算を実行する。ＦＰＵ３０は浮動少数点命令
の実行結果によるデータを選択したＦＰＲリネーム・バ
ッファ３７に出力し、このＦＰＲリネーム・バッファ３
７は、命令を完了するまで、ＦＰＲリネーム・バッファ
３７から選択した浮動少数点レジスタ（ＦＰＲ）３６へ
結果データを転送することにより、結果データを一時的
に記憶する。ＬＳＵ２８は、その名称が意味するよう
に、ＬＳＵ２８は、典型的には、メモリ（即ち、データ
・キャッシュ１６又はメイン・メモリ）からのデータを
選択した汎用レジスタ（ＧＰＲ）３２若しくは浮動少数
点レジスタ（ＦＰＲ）３６にロードするか、又は汎用レ
ジスタ（ＧＰＲ）３２、ＧＰＲリネーム・バッファ３
３、浮動少数点レジスタ（ＦＰＲ）３６若しくはＦＰＲ
リネーム・バッファ３７のうちから選択した一つからの
データをメモリに記憶する固定少数点命令及び浮動少数
点命令を実行する。

【００１４】プロセッサ１０は、その推論的なアーキテ
クチャのパフォーマンスを更に改善するために、命令に
ついてのパイプライン処理実行及び順序通りでない実行
を共に採用する。従って、データ依存性を喪失しない限
り、実行ユニット２２、ＬＳＵ２８及びＦＰＵ３０によ
り、任意の順序で命令を便宜的に実行してもよい。更
に、命令はシーケンスのパイプライン段階により処理さ
れる。典型的な多くのハイ・パフォーマンス・プロセッ
サのように、各命令は、５つの異なるパイプライン段
階、即ちフェッチ、デコード／ディスパッチ、実行、終
了及び完了で処理される。

【００１５】フェッチ段階において、逐次フェッチヤー
１７は命令キャッシュ１４から、１又は複数のメモリ・
アドレスに関連づけられた１又は複数の命令を取り出
す。以上で述べたように、命令キャッシュ１４からフェ
ッチした命令シーケンスは逐次フェッチヤー１７により
命令キュー１９に記憶され、一方分岐命令は命令シーケ
ンス・ストリームから除去（フォールド・アウト）され
る。前述のように、第２図〜第６図を参照して以下で説
明するように、ＢＰＵ１８がカウント命令に基づき未決
定の分岐条件を推論的に実行できるようにする機能を含
む分岐命令は、ＢＰＵ１８により実行される。

【００１６】デコード／ディスパッチ段階において、デ
ィスパッチ・ユニット２０は命令キュー１９からの１以
上の命令を実行ユニット２２、ＬＳＵ２８及びＦＰＵ３
０へディスパッチする。更に、デコード／ディスパッチ
段階において、ディスパッチ・ユニット２０はＧＰＲリ
ネーム・バッファ３３又はＦＰＲリネーム・バッファ３
７内のリネーム・バッファを各ディスパッチされた命令
の結果データに割り付ける。この実施例によれば、更
に、ディスパッチ・ユニット２０によりディスパッチさ
れた命令は、完了ユニット４０内の完了バッファに転送
される。順序通りでない実行において、プロセッサ１０
は固有の命令識別を利用してディスパッチされた命令の
プログラム順序をトラッキングしている。

【００１７】実行段階において、実行ユニット２２、Ｌ
ＳＵ２８及びＦＰＵ３０は、指示されたオペレーション
用のオペランド及び実行リソースが利用可能になると、
ディスパッチ・ユニット２０から受け取った命令シーケ
ンスを便宜的に実行する。各実行ユニットのＦＸＵ２
２、ＬＳＵ２８及びＦＰＵ３０は、好ましくは、オペラ
ンド又は実行リソースが利用可能になるまで、その実行
ユニットにディスパッチされた命令を記憶する予約ステ
ーションを備えている。命令の実行を終結した後に、実
行ユニットのＦＸＵ２２、ＬＳＵ２８及びＦＰＵ３０
は、命令形式に従ってＧＰＲリネーム・バッファ３３か
又はＦＰＲリネーム・バッファ３７における命令のデー
タ結果を記憶する。次いで、実行ユニットのＦＸＵ２
２、ＬＳＵ２８及びＦＰＵ３０は、完了ユニット４０の
完了バッファ内に記憶された命令の実行を終了したこと
を完了ユニット４０に通知する。最後に、完了ユニット
４０がプログラム順序により、ＧＰＲリネーム・バッフ
ァ３３及びＦＰＲリネーム・バッファ３７から汎用レジ
スタ（ＧＰＲ）３２及び浮動少数点レジスタ（ＦＰＲ）
３６に命令のデータ結果をそれぞれ転送することによ
り、命令を完了する。

【００１８】ここで図２を参照すると、プロセッサ１０
におけるＢＰＵ１８の更に詳細なブロック図が示されて
いる。図示のように、ＢＰＵ１８はデコード・ロジック
５０を有する。このデコード・ロジック５０は、ＢＰＵ
１８が逐次フェッチヤー１７から受け取った各命令をデ
コードして、命令が分岐命令であるか否かを判断し、イ
エスであれば、どのような形式の分岐命令かを判断す
る。更に、ＢＰＵ１８は制御ロジック５２を有する。こ
の制御ロジック５２は、分岐をするのであれば目標実行
パスの有効アドレス（ＥＡ）を計算し、分岐をしないの
であれば逐次実行パスの有効アドレス（ＥＡ）を計算す
ることにより、デコード・ロジック５０が識別した各分
岐命令を実行する。図示のように、制御ロジック５２は
条件レジスタ（ＣＲ）５６、カウント・レジスタ（CT
R）６０、及び分岐履歴テーブル（ＢＨＴ）５４に接続
されている。条件レジスタ（ＣＲ）５６は３２ビット・
レジスタを備えており、これにはデータ処理システム内
の種々の条件に応答してセット又はリセットされるいく
つかのビット・フィールドが含まれている。従って、制
御ロジック５２は、条件レジスタ（ＣＲ）５６を参照し
て条件レジスタ（ＣＲ）５６内のビット・フィールドを
セット又はクリアする事象の発生に従って、各分岐条件
命令を決定する。カウント・レジスタ（CTR）６０は分
岐インデックス値を記憶する３２ビット・レジスタを備
えており、この分岐インデックス値はカウント命令に基
づく分岐条件を決定するために制御ロジック５２により
参照される。分岐履歴テーブル（ＢＨＴ）５４は、分岐
命令により指定された分岐をすべきか、又はすべきでな
いという予測に関連して、最近に実行された分岐命令の
アドレスを記憶する。制御ロジック５２は分岐履歴テー
ブル（ＢＨＴ）５４を参照して、条件レジスタ（ＣＲ）
５６内のビット・フィールドの状態に従う未決定の条件
分岐命令を推論的に実行する。

【００１９】図２を引き続いて参照すると、ＢＰＵ１８
は更に加算器６２及びマルチプレクサ６４を備えてお
り、これらはカウント命令による分岐条件を実行するた
めに用いられる。図示のように、マルチプレクサ６４
は、−１（FFFF FFFFh）に接続された第１の入力、及び
「特殊用レジスタに移動」（mtspr）命令の実行に応答
して、３２ビット分岐インデックス値をカウント・レジ
スタ（CTR）６０にロードすることを指定する第２の入
力を有する。制御ロジック５２から制御信号を受け取る
と、マルチプレクサ６４の選択入力に存在する値、及び
カウント・レジスタ（CTR）６０の値は、加算器６２に
より加算されて、カウント・レジスタ（CTR）６０に記
憶される。従って、カウント・レジスタ（CTR）６０を
クリアすることにより、及びマルチプレクサ６４の分岐
インデックス入力を選択することにより、制御ロジック
５２はカウント・レジスタ（CTR）６０に３２ビット分
岐インデックス値をロードすることができる。その代わ
りに、マルチプレクサ６４の−１入力を選択することに
より、制御ロジック５２はカウント・レジスタ（CTR）
６０内に記憶した分岐インデックス値を減少させてもよ
い。

【００２０】ここで図３を参照すると、参照番号７０に
より、プロセッサ１０の命令セット内のカウント命令に
基づく分岐条件の実施例が示されている。図示のよう
に、カウント命令７０による分岐条件には多数のフィー
ルドを有する３２ビット命令が含まれており、これらの
フィールドには、オペレーション・コード・フィールド
７２、分岐オプション（ＢＯ）フィールド７４、分岐条
件（ＢＣ）フィールド７６、アドレス計算フィールド７
８、及びリンク・フィールド８０が含まれる。オペレー
ション・コード・フィールド７２はカウント命令７０に
よる分岐条件の命令形式を固有に識別する。分岐オプシ
ョン（ＢＯ）フィールド７４は、指定された分岐インデ
ックス値の検出に応答して、分岐をするのか、しないの
かを指定する。更に、分岐オプション（ＢＯ）フィール
ド７４は、その分岐が分岐条件（ＢＣ）フィールド７６
で指定された条件レジスタ（ＣＲ）５６のビット・フィ
ールドに従うのか否かを表している。更に指示された分
岐が条件レジスタ（ＣＲ）５６内の選択したビット・フ
ィールドの状態に依存しているか、いないかに拘わら
ず、指示された分岐がカウント・レジスタ（CTR）６０
内の分岐インデックス値に依存するということを指定し
たＢＯ符号を有する全ての分岐インデックスは、カウン
ト命令による分岐条件を含んでいることに注意すること
が重要である。カウント命令７０による分岐条件を再び
参照すると、アドレス計算フィールド５８は、カウント
命令７０による分岐条件により表された分岐をするとき
に、実行を進める目標アドレスを指定する。最後に、リ
ンク・フィールド６０は、カウント命令５０による分岐
条件の実行に応答して、フォール・スルー（逐次的な次
の）アドレスをリンク・レジスタにロードするのか否か
を表している。

【００２１】図４を参照すると、プログラムにおけるカ
ウント命令による分岐条件の典型的な使用を説明する命
令シーケンス例が示されている。プログラム順序による
と、命令シーケンス１００はロード命令１００、及びmt
spr命令１０４により開始し、これらは汎用レジスタ
（ＧＰＲ）３２内のレジスタ２６から特殊用レジスタ
（ＳＰＲ）９、即ちカウント・レジスタ（CTR）６０に
分岐インデックス値をロードする。次に、命令シーケン
ス１００には、加算命令１０６及び１０８と、カウント
命令１１０による分岐条件とを備えた命令ループが含ま
れている。図示されているように、カウント命令１１０
による分岐条件は、分岐すると決定すれば実行し続ける
ことになる目標アドレスとして、加算命令１０６のアド
レスを指定することにより、命令ループを閉じている。
最後に、命令シーケンス１００にはストア命令１１２が
含まれており、この命令は、カウント命令１１０による
条件分岐をしないと決定するのであれば、実行されるシ
ーケンス命令である。

【００２２】多数の異なる実行シナリオにより、制御ロ
ジック５２がレディーであって、カウント命令１１０に
よる条件分岐を実行するときは、カウント命令１１０に
よる条件分岐が依存する分岐インデックス値をカウント
・レジスタ（CTR）６０にストアすることはできない。
例えば、mtspr命令１０４は、ロード命令１０２により
要求された分岐インデックス値がデータ・キャッシュ１
６におけるキャッシュ・ミスに応答してメイン・メモリ
から戻されるまで、ストールする恐れがある。その代り
に、ロード命令１０２の実行は、ＬＳＵ２８内に利用可
能な実行リソースがないために、単純に遅延されること
がある。このような場合には、分岐インデックス値がカ
ウント・レジスタ（CTR）６０から得られるまで、カウ
ント命令１１０による条件分岐によって指定された分岐
を決定することができない。図５を参照して以下で詳細
に説明するように、カウント命令により条件分岐が決定
されるまでストールする通常のプロセッサに対して、プ
ロセッサ１０は、プロセッサ・パフォーマンスを高める
ためにカウント命令（及び関連の命令ループ）による未
決定の分岐条件を推論的に実行する。

【００２３】ここで図５を参照すると、ＢＰＵ１８内の
カウント命令による条件分岐を推論的に実行する方法の
実施例の論理的なフローチャートが示されている。図５
に示した論理的なフローチャートは多数の逐次的なステ
ップを記載しているが、当該技術分野に習熟する者は、
記載したいくつかのステップを平行して実行ししてもよ
いことが以下の説明から明らかである。図４に示す命令
シーケンス例を参照して、カウントによる分岐命令を推
論的に実行する本発明の方法を説明することにより、記
載のステップを更に詳細に説明する。

【００２４】図示のように、処理はブロック２００から
開始し、その後、ブロック２０２及び２０４に進む。ブ
ロック２０２及び２０４は、逐次フェッチヤー１７が命
令シーケンスの次のセット、例えば命令キャッシュ１４
からロード命令１０２及びmtspr命令１０４を検索し
て、フェッチされた命令をＢＰＵ１８及び命令キュー１
９に転送する。図２に示すように、ＢＰＵ１８内のデコ
ード・ロジック５０は各サイクルにおいて逐次フェッチ
ヤー１７から１以上の命令を受け取る。デコード・ロジ
ック５０は、命令の受け取りに応答して、図５のブロッ
ク２０６に示すように命令をデコードする。次に、プロ
セスはブロック２０６からブロック２０８に進み、命令
が分岐命令を含むか否かを判断する。ブロック２０８に
おいて、デコード・ロジック５０によりデコードされた
命令が非分岐インデックスであるとの判断に応答して、
命令はデコード・ロジック５０により単に無視される。
しかし、ブロック２１０において、ディスパッチ・ユニ
ット２０により、命令はカウント・レジスタ（CTR）６
０に選択した値をロードするmtspr命令にあるか否かを
判断する。ノーのときは、処理がページ・コネクタＡを
介して、ＦＸＵ２２、ＬＳＵ２８及びＦＰＵ３０のうち
の一つによる通常の命令実行を表すブロック２１２に進
む。従って、例えば、図４を参照すると、ロード命令１
０２は、ＢＰＵ１８により無視されるが、ディスパッチ
・ユニット２０によりディスパッチされて実行される。
同様に、加算命令１０６及び１０８はＢＰＵ１８により
無視されるが、ＦＸＵ２２にディスパッチされて実行さ
れる。その後、処理はページ・コネクタＢを介してブロ
ック２０２に戻る。

【００２５】ブロック２１０に戻り、命令はカウント・
レジスタ（CTR）６０に選択した値をロードするmtspr命
令であるという判断をしたときは、更にブロック２１４
において、カウント・レジスタ（CTR）６０を目標とし
ている他のmtspr命令がディスパッチされ、未完了であ
るか否かを判断をする。例えば、mtspr命令用に完了ユ
ニット４０内の完了バッファを検索することにより、ブ
ロック２１４に示した判断をすることができる。未完了
のmtspr命令がカウント・レジスタ（CTR）６０を目標と
しているとの判断に応答して、処理はブロック２１６に
進む。ブロック２１６は、前にディスパッチしたmtspr
命令が完了するまで、ディスパッチ・ユニット２０がカ
ウント・レジスタ（CTR）６０内の分岐インデックス値
が重ね書きされないように、命令キュー１９にデコード
したmtspr命令を保持することを表している。次いで、
処理はページ・コネクタＢを介してブロック２０２に戻
る。

【００２６】しかし、ブロック２１４において、カウン
ト・レジスタ（CTR）６０を目標としている他のmtspr命
令はないという判断に応答して、処理はブロック２１８
に進む。ブロック２１８はディスパッチ・ユニット２０
がカウント・レジスタ（CTR）６０をクリアするように
制御ロジック５２に通知することを表している。カウン
ト・レジスタ（CTR）６０のクリアは他の２つの目的に
利用される。プログラム順序でmtspr命令及びカウント
命令による条件分岐を実行する場合に（分岐が非推論的
に実行される場合に）、カウント・レジスタ（CTR）６
０のクリアは、カウント命令による条件分岐が依存して
いる分岐インデックス値を、カウント・レジスタ（CT
R）６０の現在値と分岐インデックス値とを加算する加
算器６２を介してカウント・レジスタ（CTR）６０にロ
ードさせる。その代りとして、ＢＰＵ１８によるカウン
ト命令による未決定の条件分岐がデコードされる場合
に、このＢＰＵ１８の実施例は、常にカウント命令によ
る条件分岐をすると想定して、関連する命令ループの推
論的な実行を可能にする。従って、カウント・レジスタ
（CTR）６０の値がカウント命令による条件分岐により
指定された分岐オプションを満足させるか否かを判断す
る前に、制御ロジック５２はカウント・レジスタ（CT
R）６０を減算させるので、mtspr命令セットの検出に応
答して、カウント・レジスタ（CTR）６０のクリアによ
り、カウント・レジスタ（CTR）６０における値を推論
的に実行可能な命令ループの最大繰返し回数にセットす
る。更に、カウント命令による条件分岐を推論的に実行
する前に、カウント・レジスタ（CTR）６０をクリアす
ることにより、カウント・レジスタ（CTR）６０内の値
は、カウント命令による条件分岐の繰返し回数と、カウ
ント命令による条件分岐を決定する前に、推論的に実行
する関連の命令ループとの２の補数表示を指定する。ブ
ロック２１８を再び参照すると、処理はブロック２１８
からページ・コネクタＡを介してブロック２１２に進
む。ブロック２１２は、実行リソース及びオペランドが
利用可能になったときに、mtspr命令を実行することを
表している。

【００２７】ここで、図６を参照すると、mtspr命令の
実行に応答してカウント・レジスタ（CTR）６０を更新
する方法のフローチャートが示されている。図示のよう
に、ＢＰＵ１８が分岐インデックス値を受け取ることに
応答して、ブロック２５０から処理が開始される。その
後、処理はブロック２５２に進む。ブロック２５２は、
制御ロジック５２が分岐インデックス値をカウント・レ
ジスタ（CTR）６０に記憶されている２の補数値に加算
することを表している。次に、ブロック２５４におい
て、カウント・レジスタ（CTR）６０の値が０より大き
いか又は等しいかを判断する。この値が０より大きい又
は等しく、カウント命令による条件分岐が実行されなか
った、又はカウント命令による条件分岐が分岐インデッ
クス値により指定された回数より少ない回数について推
論的に実行されたことを示しているときは、処理はブロ
ック２６０に進み、終了する。いずれの場合も、カウン
ト・レジスタ（CTR）６０の値が０より大きいときは、
推論的な分岐オプションが満足されるまで、図５に示す
方法に従って命令ループの非推論的な実行が続く。

【００２８】ブロック２５４に戻り、カウント・レジス
タ（CTR）６０に記憶された値が０より小さく、カウン
ト命令による条件分岐の少なくとも一回の繰返しが誤っ
て予測されたことを示しているときは、処理はブロック
２５６に進む。ブロック２５６は、ＢＰＵ１８が命令キ
ュー１９、ＦＸＵ２２、ＬＳＵ２８、ＦＰＵ３０、及び
完了ユニット４０内の完了バッファによる誤予測の命令
ループの繰返し内の命令を取り消すことを表している。
更に、誤予測の命令ループの繰返し内で推論的に実行さ
れた命令のデータ結果は、ＧＰＲリネーム・バッファ３
３及びＦＰＲリネーム・バッファ３７が無視するものと
なる。次に、処理は、ブロック２５８に進む。ブロック
２５８は、制御ロジック５２がカウント・レジスタ（CT
R）６０をクリアして、ブロック２６０で終了する。

【００２９】図５のブロック２０８を再び参照して、デ
コード・ロジック５０によりデコードされた命令が分岐
命令であると判断されたときは、ブロック２３０に示す
ように、更に分岐命令がカウントによる条件分岐命令で
あるか否かを判断する。ノーのときは、処理はブロック
２３０からブロック２１２に進む。ブロック２１２は分
岐命令を通常的に実行することを表している。従って、
例えば、デコード・ロジック５０から無条件分岐命令を
受け取ったことに応答して、制御ロジック５２は単に分
岐命令により指示された目標命令パスの有効アドレス
（ＥＡ）を計算して、有効アドレス（ＥＡ）を命令キャ
ッシュ１４に送信する。しかし、制御ロジック５２は、
条件レジスタ（ＣＲ）５６におけるビット状態に依存す
る条件分岐命令を受け取ったことに応答して、まず条件
レジスタ（ＣＲ）５６における指定されたビット・フィ
ールドを調べることにより、分岐を決定しようとする。
条件分岐命令が依存するＣＲビット・フィールドが利用
可能でないときは、制御ロジック５２が分岐履歴テーブ
ル（ＢＨＴ）５４を利用して指定された分岐を予測す
る。その後、制御ロジック５２は、目標の推論的実行の
有効アドレス（ＥＡ）を計算して、命令キャッシュ１４
の有効アドレス（ＥＡ）に送信する。

【００３０】分岐２３０に戻り、フェッチ命令がカウン
トによる条件分岐命令であること、例えばカウントによ
る条件分岐命令１１０であることをデコード・ロジック
５０が判断したときは、処理がブロック２３２に進む。
このブロック２３２は、制御ロジック５２がカウント・
レジスタ（CTR）６０に記憶した値を減少させることを
表している。次に、ブロック２３４において、カウント
・レジスタ（CTR）６０に記憶した値がカウントによる
条件分岐命令のＢＯフィールド７４に符号化された分岐
オプションを満足させるか否か（例えば、分岐インデッ
クス値が０か否か）の判断する。カウントによる条件分
岐命令の分岐オプションが満足されないときは、処理が
ブロック２３６に進む。ブロック２３６は命令ループの
他の繰り返しを実行することを表している。次に、処理
は前述したようにページ・コネクタＢを介してブロック
２０２に戻る。しかし、ブロック２３４において、カウ
ント・レジスタ（CTR）６０に記憶されている分岐イン
デックス値が分岐オプションを満足させると判断された
ときは、処理がブロック２４０に進む。ブロック２４０
はカウントによる条件分岐命令を含む命令ループの実行
を終了させる。

【００３１】カウントによる条件分岐命令により閉じら
れた命令ループを推論的に実行するプロセッサ及び方法
を説明した。このプロセッサ及び方法はカウント命令に
よる未決定の条件分岐に応答してストールした従来のプ
ロセッサよりもパフォーマンスが高い。更に、このプロ
セッサ及び方法は、誤予測の命令ループの繰り返しを実
行することから立ち直る効果的な機構を提供する。カウ
ント命令の条件分岐により閉じられた命令ループの実行
を参照して、このプロセッサ及び方法を説明したが、当
該技術分野に習熟する者は、開示した実施例を参照し
て、ループ繰り返しを制御する推論的な命令構成を含ま
ないアーキテクチャに説明した概念を拡張できることを
理解すべきである。

【００３２】実施例を詳細に示し、かつ説明したが、当
該技術分野に習熟する者は、本発明の精神及び範囲から
逸脱することなく、形式及び細部において種々の変更を
行い得ることを理解すべきである。

【００３３】まとめとして、本発明の構成に関して以下
の項を開示する。

【００３４】（１）プロセッサ内で命令ループを推論的
に実行する方法であって、前記命令ループの実行を開始
して、実行された前記命令ループの繰り返しをそれぞれ
カウントするステップと、その後に、前記命令ループが
実行されるべき実際の繰り返し回数を判断するステップ
と、前記判断に応答して、前記実際の繰り返し回数と実
行された前記命令ループの繰り返しとの間の差を判断す
るステップと、前記差が０より大きいとの判断に応答し
て、前記差に等しい付加的な繰り返し回数につき前記命
令ループを実行するステップとを含む方法。（２）前記命令ループは条件分岐命令を含み、前記条件
分岐命令は前記実際の繰り返しについての前記判断に応
答して解決される（１）記載の方法。（３）前記プロセッサはカウント・レジスタを含み、更
に前記命令ループが実行される繰り返し回数を予測し、
前記予測を前記カウント・レジスタに記憶するステップ
を含む（１）記載の方法。（４）前記プロセッサはカウント・レジスタを含み、実
行された前記命令ループの繰り返しをそれぞれカウント
する前記ステップは、前記カウント・レジスタに前記実
行された繰り返し回数を保持するステップを含む（１）
記載の方法。（５）前記カウント・レジスタに前記実行された繰り返
し回数を保持するステップは、前記カウント・レジスタ
を０にセットし、かつ実行される前記命令ループの各繰
り返しについて前記カウント・レジスタを１つ減算する
ステップを含む（４）記載の方法。（６）前記差を判断するステップは、前記実際の繰り返
し値を前記カウント・レジスタ内の値に加算するステッ
プを含む（５）記載の方法。（７）前記命令ループが実行されるべき実際の繰り返し
回数を判断するステップは、前記実際の繰り返し回数を
供給する命令を実行するステップを含む（１）記載の方
法。（８）更に、前記差が０より小さいとする判断に応答し
て、前記誤予測の命令ループの繰り返し内で未だ実行し
ていない命令を取り消すステップを含む（１）記載の方
法。（９）更に、前記誤予測による命令ループの繰り返しの
データ結果を無視するステップを含む（８）記載の方
法。（１０）複数の命令を実行する１以上の実行ユニットで
あって、実行すべき前記命令ループの実際の繰り返し回
数が未知である間に、命令ループの実行を開始する前記
実行ユニットと、前記実行された前記命令ループの繰り
返し回数をカウントする手段と、前記実際の繰り返し回
数の判断に応答して、前記実際の繰り返し回数と前記実
行された繰り返し回数との間の差を判断する手段とを含
み、前記実行ユニットは前記差が０又は０より大である
との判断に応答して前記差に等しい付加的な繰り返し回
数につき前記命令ループを実行するプロセッサ。（１１）前記実行された繰り返し回数をカウントする手
段は、カウント・レジスタを含む（１０）記載のプロセ
ッサ。（１２）更に、前記命令ループが実行される繰り返しの
回数を予測する手段を含み、前記予測する手段は前記カ
ウント・レジスタに前記予測を記憶する（１１）記載の
プロセッサ。（１３）更に、前記実行された命令ループの各繰り返し
について前記カウント・レジスタを１つ減算させる手段
を含む（１１）記載の方法。（１４）前記差を判断する手段は前記実際の繰り返し回
数を前記カウント・レジスタ内の値に加算する手段を含
む（１３）記載のプロセッサ。（１５）前記実際の繰り返し回数についての判断は、前
記１以上の実行ユニットによる命令の実行に応答して行
われる（１０）記載のプロセッサ。（１６）更に、複数の命令を実行するためにフェッチす
るフェッチヤーと、実行の前にフェッチした複数の命令
を一時的に記憶するキューであって、前記差が０より小
さいとの判断に応答して前記キューから前記誤予測によ
る命令ループの繰り返し内の複数の命令を取り消す前記
キューとを含む（１０）記載のプロセッサ。（１７）更に、複数の命令のデータ結果を一時的に記憶
する１以上のレジスタであって、前記１以上のレジスタ
から誤予測による命令ループの繰り返し内の複数の命令
のデータ結果を無視する前記レジスタ含む（１６）記載
のプロセッサ。（１８）複数の命令を記憶するメモリと、前記メモリか
ら命令ループ内の複数の命令を実行のためにフェッチす
るフェッチヤーと、複数の命令を実行する１以上の実行
ユニットであって、実行すべき前記命令ループの実際の
繰り返し回数が未知である間に、命令ループの実行を開
始する前記実行ユニットと、実行された前記命令ループ
の繰り返し回数をカウントする手段と、前記実際の繰り
返し回数の判断に応答して、前記実際の繰り返し回数と
前記実行された繰り返し回数との間の差を判断する手段
とを含み、前記実行ユニットが前記差が０又はそれより
多いことを判断したことに応答して、前記差に等しい付
加的な繰り返し回数につき前記命令ループを実行するデ
ータ処理システム。（１９）前記実行された繰り返し回数をカウントする手
段は、カウント・レジスタを含む（１８）記載のデータ
処理システム。（２０）更に、前記命令ループが実行される繰り返し回
数を予測する手段を含み、前記予測する手段は前記カウ
ント・レジスタ内に前記予測を記憶する（１８）記載の
データ処理システム。（２１）更に、前記カウント・レジスタを、実行された
前記命令ループの各繰り返しについて１つ減算させる手
段を含む（１９）記載のデータ処理システム。（２２）前記差を判断する手段は、前記実際の繰り返し
回数を前記カウント・レジスタ内の値に加算する手段を
含む（２１）記載のデータ処理システム。（２３）前記実際の繰り返し回数の判断は、前記１以上
の実行ユニットによる命令の実行に応答して、行われる
（１８）記載のデータ処理システム。（２４）更に、実行の前にフェッチした複数の命令を一
時的に記憶するキューであって、前記キューから誤予測
による前記命令ループの繰り返し内の複数の命令を取り
消す前記キューを含む（１８）記載のデータ処理システ
ム。（２５）更に、複数の命令のデータ結果を一時的に記憶
する１以上のレジスタであって、前記１以上のレジスタ
から、誤予測による前記命令ループの繰り返しにおける
複数の命令のデータ結果を無視する（２４）記載のデー
タ処理システム。

【図面の簡単な説明】

【図１】カウントによる条件分岐命令を推論的に実行す
る機能を含むプロセッサの実施例を示すブロック図であ
る。

【図２】図１に示したプロセッサ内の分岐処理ユニット
（ＢＰＵ）の更に詳細なブロック図である。

【図３】カウントによる条件分岐命令の実施例を説明す
るビット・フィールド図である。

【図４】カウントによる条件分岐命令を含み、図５に示
す方法により推論的に実行し得る命令シーケンス例を説
明する図である。

【図５】カウントによる条件分岐命令を含む命令ループ
を推論的に実行する方法の実施例のフローチャートであ
る。

【図６】分岐インデックスの判断に応答して図２に示す
カウント・レジスタ（ＣＲＴ）内の値を更新する方法の
フローチャートである。

【符号の説明】

１０プロセッサ１２ＢＩＵ１４命令キャッシュ１６データ・キャッシュ１７逐次フェッチヤー１８ＢＰＵ１９命令キュー２０ディスパッチ・ユニット２２ＦＸＵ２８ＬＳＵ３０ＦＰＵ３２汎用レジスタ（ＧＰＲ）３３ＧＰＲリネーム・バッファ３６浮動少数点レジスタ（ＦＰＲ）３７ＦＰＲリネーム・バッファ４０完了ユニット５０デコード・ロジック５２制御ロジック５６条件レジスタ（ＣＲ）６０カウント・レジスタ（CTR）６２加算器

Claims

【特許請求の範囲】

【請求項１】プロセッサ内で命令ループを推論的に実行
する方法であって、前記命令ループの実行を開始して、実行された前記命令
ループの繰り返しをそれぞれカウントするステップと、その後に、前記命令ループが実行されるべき実際の繰り
返し回数を判断するステップと、前記判断に応答して、前記実際の繰り返し回数と実行さ
れた前記命令ループの繰り返しとの間の差を判断するス
テップと、前記差が０より大きいとの判断に応答して、前記差に等
しい付加的な繰り返し回数につき前記命令ループを実行
するステップとを含む方法。
【請求項２】前記命令ループは条件分岐命令を含み、前
記条件分岐命令は前記実際の繰り返しについての前記判
断に応答して解決される請求項１記載の方法。
【請求項３】前記プロセッサはカウント・レジスタを含
み、更に前記命令ループが実行される繰り返し回数を予測
し、前記予測を前記カウント・レジスタに記憶するステ
ップを含む請求項１記載の方法。
【請求項４】前記プロセッサはカウント・レジスタを含
み、実行された前記命令ループの繰り返しをそれぞれカウン
トする前記ステップは、前記カウント・レジスタに前記
実行された繰り返し回数を保持するステップを含む請求
項１記載の方法。
【請求項５】前記カウント・レジスタに前記実行された
繰り返し回数を保持するステップは、前記カウント・レ
ジスタを０にセットし、かつ実行される前記命令ループ
の各繰り返しについて前記カウント・レジスタを１つ減
算するステップを含む請求項４記載の方法。
【請求項６】前記差を判断するステップは、前記実際の
繰り返し値を前記カウント・レジスタ内の値に加算する
ステップを含む請求項５記載の方法。
【請求項７】前記命令ループが実行されるべき実際の繰
り返し回数を判断するステップは、前記実際の繰り返し
回数を供給する命令を実行するステップを含む請求項１
記載の方法。
【請求項８】更に、前記差が０より小さいとする判断に
応答して、前記誤予測の命令ループの繰り返し内で未だ
実行していない命令を取り消すステップを含む請求項１
記載の方法。
【請求項９】更に、前記誤予測による命令ループの繰り
返しのデータ結果を無視するステップを含む請求項８記
載の方法。
【請求項１０】複数の命令を実行する１以上の実行ユニ
ットであって、実行すべき前記命令ループの実際の繰り
返し回数が未知である間に、命令ループの実行を開始す
る前記実行ユニットと、前記実行された前記命令ループの繰り返し回数をカウン
トする手段と、前記実際の繰り返し回数の判断に応答して、前記実際の
繰り返し回数と前記実行された繰り返し回数との間の差
を判断する手段とを含み、前記実行ユニットは前記差が
０又は０より大であるとの判断に応答して前記差に等し
い付加的な繰り返し回数につき前記命令ループを実行す
るプロセッサ。
【請求項１１】前記実行された繰り返し回数をカウント
する手段は、カウント・レジスタを含む請求項１０記載
のプロセッサ。
【請求項１２】更に、前記命令ループが実行される繰り
返しの回数を予測する手段を含み、前記予測する手段は
前記カウント・レジスタに前記予測を記憶する請求項１
１記載のプロセッサ。
【請求項１３】更に、前記実行された命令ループの各繰
り返しについて前記カウント・レジスタを１つ減算させ
る手段を含む請求項１１記載の方法。
【請求項１４】前記差を判断する手段は前記実際の繰り
返し回数を前記カウント・レジスタ内の値に加算する手
段を含む請求項１３記載のプロセッサ。
【請求項１５】前記実際の繰り返し回数についての判断
は、前記１以上の実行ユニットによる命令の実行に応答
して行われる請求項１０記載のプロセッサ。
【請求項１６】更に、複数の命令を実行するためにフェッチするフェッチヤー
と、実行の前にフェッチした複数の命令を一時的に記憶する
キューであって、前記差が０より小さいとの判断に応答
して前記キューから前記誤予測による命令ループの繰り
返し内の複数の命令を取り消す前記キューとを含む請求
項１０記載のプロセッサ。
【請求項１７】更に、複数の命令のデータ結果を一時的に記憶する１以上のレ
ジスタであって、前記１以上のレジスタから誤予測によ
る命令ループの繰り返し内の複数の命令のデータ結果を
無視する前記レジスタ含む請求項１６記載のプロセッ
サ。
【請求項１８】複数の命令を記憶するメモリと、前記メモリから命令ループ内の複数の命令を実行のため
にフェッチするフェッチヤーと、複数の命令を実行する１以上の実行ユニットであって、
実行すべき前記命令ループの実際の繰り返し回数が未知
である間に、命令ループの実行を開始する前記実行ユニ
ットと、実行された前記命令ループの繰り返し回数をカウントす
る手段と、前記実際の繰り返し回数の判断に応答して、前記実際の
繰り返し回数と前記実行された繰り返し回数との間の差
を判断する手段とを含み、前記実行ユニットが前記差が
０又はそれより多いことを判断したことに応答して、前
記差に等しい付加的な繰り返し回数につき前記命令ルー
プを実行するデータ処理システム。
【請求項１９】前記実行された繰り返し回数をカウント
する手段は、カウント・レジスタを含む請求項１８記載
のデータ処理システム。
【請求項２０】更に、前記命令ループが実行される繰り
返し回数を予測する手段を含み、前記予測する手段は前
記カウント・レジスタ内に前記予測を記憶する請求項１
８記載のデータ処理システム。
【請求項２１】更に、前記カウント・レジスタを、実行
された前記命令ループの各繰り返しについて１つ減算さ
せる手段を含む請求項１９記載のデータ処理システム。
【請求項２２】前記差を判断する手段は、前記実際の繰
り返し回数を前記カウント・レジスタ内の値に加算する
手段を含む請求項２１記載のデータ処理システム。
【請求項２３】前記実際の繰り返し回数の判断は、前記
１以上の実行ユニットによる命令の実行に応答して、行
われる請求項１８記載のデータ処理システム。
【請求項２４】更に、実行の前にフェッチした複数の命令を一時的に記憶する
キューであって、前記キューから誤予測による前記命令
ループの繰り返し内の複数の命令を取り消す前記キュー
を含む請求項１８記載のデータ処理システム。
【請求項２５】更に、複数の命令のデータ結果を一時的に記憶する１以上のレ
ジスタであって、前記１以上のレジスタから、誤予測に
よる前記命令ループの繰り返しにおける複数の命令のデ
ータ結果を無視する請求項２４記載のデータ処理システ
ム。