JPH08179946A

JPH08179946A - プロセッサ

Info

Publication number: JPH08179946A
Application number: JP32185994A
Authority: JP
Inventors: Takashi Omizo; 孝大溝
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1994-12-26
Filing date: 1994-12-26
Publication date: 1996-07-12

Abstract

(57)【要約】【目的】プロセッサ内の資源を有効利用して複数のコン
テキストを同時に実行できるようにして命令の並列度を
高めた高速処理を可能とする。【構成】複数のファンクションユニットを有するプロセ
ッサ３０であって、複数の命令フェッチデコードユニッ
ト３１ａ，３１ｂを有し、同時に複数の命令を実行す
る。命令フェッチデコードユニット３１ａ，３１ｂと同
数のレジスタファイル３２ａ，３２ｂを有し、各命令フ
ェッチデコードユニット３１ａ，３１ｂは、何れのレジ
スタファイル３２ａ，３２ｂを使用するかを指定する命
令コンテクスト情報を付加して命令を発行する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数命令を同時に実行
することが可能なプロセッサに関する。

【０００２】

【従来の技術】近年では、スーパスカラプロセッサ等の
複数の命令を同時に実行することが可能なプロセッサが
存在する。この種、プロセッサでは、複数の命令を同時
に実行するためには命令同士が互いに独立でなければな
らないが、一般のプログラムコンテキスト（以下、コン
テキストと称する）には最大でも５命令程度の並列度し
かなく、通常ではより低い並列度しかないことが知られ
ている。このことは、例えば、David W.Wall. 「Limits
of Instruction-Level Parallelism 」ASPLOS-IV,199
1. に記載されている。コンテキストとは、プロセッサ
がプログラムを実行する時のダイナミックな命令のシー
ケンスである。

【０００３】プログラム中の命令の並列度が少なけれ
ば、いくら複数の命令を並列に実行できる能力をプロセ
ッサが有していても、その資源（整数、浮動少数演算
器、ロードストアユニット等のファンクションユニッ
ト）を有効に活用することができない。

【０００４】例えば、あるメモリ上のデータを読み込ん
で、そのデータに基づいて処理を行なう場合、そのデー
タがメモリからロードされてこない間はプロセッサは、
それより先に処理を進めることができない。

【０００５】また、同じ資源（レジスタ等）を同時に複
数の命令で使用することができない。例えば、２つのＡ
ＤＤ命令の対象が同じレジスタである場合には、その２
つの命令は並列に実行することができない。

【０００６】図６に従来のプロセッサ１０の構成を示し
ている。プロセッサ１０は、フェッチデコードユニット
１１によって、レジスタファイル１２中のプログラムカ
ウンタ１３に基づいて、命令キャッシュ１４を介してメ
モリ１５に格納されたプログラムをフェッチ・デコード
する。

【０００７】フェッチデコードユニット１１には、分岐
先バッファ１６（branch-target buffer：ＢＴＢ）が設
けられている。分岐先バッファ１６は、以前に実行され
た分岐命令の命令アドレスと、それぞれの分岐命令の結
果に対応する分岐先アドレス（次に来る命令の予測アド
レス）を格納するものである。この分岐先バッファ１６
によって、次命令アドレスを予測することができる。

【０００８】プロセッサ１０中には、複数のファンクシ
ョンユニットが設けられている。ファンクションユニッ
トとしては、例えば整数論理演算ＡＬＵ１７（ここでは
２つのユニットＡＬＵ１７ａ，１７ｂがあるものとす
る）、浮動小数点演算ＦＰＵ１８、ブランチユニットＢ
ＲＵ１９、ロードストアユニットＬＳＵ２０がある。ま
た、各ファンクションユニット１７〜２０に対応して、
リザベーションステーション２１ａ〜２１ｄが設けられ
ている。リザベーションステーション２１ａ〜２１ｄ
は、それぞれに対応するユニットの命令キューであり、
フェッチデコードユニット１１から発行されたが、まだ
実行できないでいる命令や、その実行制御に必要な情報
を保持する。

【０００９】各ファンクションユニット１７〜２０は、
スコアボード２２により実行が制御される。スコアボー
ド２２は、命令を実行するための資源があり、かつデー
タ依存性がなければ実行開始を許可することによって、
プロセッサ１０内の命令の並列実行を制御する。スコア
ボード２２は、プロセッサ１０内の資源（各ファンクシ
ョンユニット１７〜２０、レジスタファイル１２中の各
レジスタ）の状態や、命令の実行状態を管理しており、
それらの状態に基づいて命令の発行を制御する。各ファ
ンクションユニット１７〜２０は、レジスタファイル１
２中の各種レジスタ、データを保持するデータキャッシ
ュ２３を用いて処理を実行する。

【００１０】ここで、前述した構成による従来のプロセ
ッサ１０により、メモリ１５中に格納された図３（ａ）
に示す内容のプログラムＰ１を実行する場合を例にして
説明する。

【００１１】まず、最初の命令（Ｌｏａｄ）がフェッチ
デコードユニット１１によりフェッチ・デコードされ実
行される。この時点で、命令キャッシュ１４に対象とす
る命令が存在しないためにキャッシュミスが起こると、
プロセッサ１０は、メモリ１５からデータを読み出そう
とするが、これには通常数サイクルかかる。Ｌｏａｄ命
令が完了しなければ、次の命令以降は実行できないた
め、プロセッサ１０はその間無駄なサイクルを費やすこ
とになる。

【００１２】プログラムＰ１を実行した場合、各命令
が、図７に示すようにして各ファンクションユニット１
７〜２０に対して発行されて実行される。すなわち、デ
ータの依存関係やレジスタ等の資源の状態に応じて、各
ファンクションユニット１７〜２０における命令の実行
が制御される。図７に示すように、プログラムＰ１に関
する命令の並列度は最大でも「３」であり、サイクル６
では実行できる命令がないため空きサイクルが生じてい
る。（なお、図７中において「Ｐ１：１」はプログラム
Ｐ１の第１ラインの命令を実行することを示してい
る。）

【００１３】

【発明が解決しようとする課題】このように従来のプロ
セッサ１０では、１つのコンテキストしか実行すること
ができないため命令の実行の並列度が高められず、たと
えプロセッサ１０内に多くの資源を設けたとしても有効
利用されず高速処理が望めなかった。

【００１４】本発明は前記のような事情を考慮してなさ
れたもので、プロセッサ内の資源を有効利用して複数の
コンテキストを同時に実行できるようにして命令の並列
度を高めた高速処理が可能なプロセッサを提供すること
を目的とする。

【００１５】

【課題を解決するための手段】本発明は、複数の演算ユ
ニットを有するプロセッサにおいて、複数の命令フェッ
チデコード機能を有し、同時に複数の命令を実行するこ
とを特徴とする。また、前記複数の命令フェッチデコー
ド機能と同数のレジスタファイルを有し、各命令フェッ
チデコード機能は、何れのレジスタファイルを使用する
かを指定する情報を付加して命令を発行することを特徴
とする。

【００１６】また、前記複数の命令フェッチデコード機
能のそれぞれは、分岐命令を検出する分岐命令検出手段
を有し、前記分岐命令検出手段によってデコードの対象
とする命令が分岐命令であることを検出した場合には、
他に実行可能な命令が存在すれば、分岐先が既知である
場合を除き、分岐先が決定されるまで以降の命令デコー
ドを中止することを特徴とする。

【００１７】また、前記複数の命令フェッチデコード機
能のそれぞれは、分岐命令を検出する分岐命令検出手段
を有し、前記分岐命令検出手段によってデコードの対象
とする命令が分岐命令であることを検出した場合には、
他に実行可能な命令が存在すれば、分岐先が既知である
場合を除き、分岐先が決定されるまで以降の命令デコー
ドを中止し、他に実行可能な命令が存在しなければ分岐
予測により命令実行を行なうことを特徴とする。また、
前記複数の命令フェッチデコード機構は、１つの命令キ
ャッシュを共有することを特徴とする。

【００１８】

【作用】このような構成によれば、複数の命令フェッチ
デコード機能を設けることによって、同時に複数のプロ
グラムを実行させて同時に実行できる命令の数を増や
し、結果として複数の演算ユニットを有効に利用して命
令の並列度を上げることができる。

【００１９】また、各命令フェッチデコード機能におい
て何れのレジスタファイルを使用するかを指定するため
の情報（命令コンテクスト情報）を生成することで、各
演算ユニットが使用するレジスタファイルを特定でき、
同時に複数のプログラムを並行に実行できる。

【００２０】また、命令フェッチデコード機能において
フェッチした命令が分岐命令であった場合には、他の命
令フェッチデコード機能を用いて実行可能な命令が存在
すれば分岐予測を行なわず、その先の命令デコードを中
止する。すなわち、分岐予測が失敗した場合には、その
命令以降の全てを破棄しなければならずオーバヘッドを
生じるため、敢えて分岐予測による命令実行をせず、実
行可能な命令を優先して実行させることで、プロセッサ
の資源を有効利用する。

【００２１】また、他に実行可能な命令が存在しない場
合であれば、分岐予測による投機的命令実行を行なうこ
とで、分岐による命令実行の並列度の低下が抑えられ
る。分岐命令が実行された結果、予測した分岐先と等し
い場合には、そのまま処理を実行することができる。ま
た、複数の命令列が同一プロセッサにおいて同じキャッ
シュを共有するため、一貫性はプロセッサ内のみで保証
すれば良いため高速に実行できる。

【００２２】

【実施例】以下、図面を参照して本発明の一実施例を説
明する。図１は本実施例に係わるプロセッサの構成を示
すブロック図である。本実施例におけるプロセッサ３０
は、図１に示すように、複数のフェッチデコードユニッ
ト３１ａ，３１ｂ、複数のレジスタファイル３２ａ，３
２ｂ、命令キャッシュ３３、データキャッシュ３４、ス
コアボード３５、ファンクションユニット群３６が設け
られている。

【００２３】本実施例では、２つのフェッチデコードユ
ニット３１ａ，３１ｂが設けられている。フェッチデコ
ードユニット３１ａ，３１ｂは、メモリ１５中に格納さ
れた命令を、命令キャッシュ３３を用いて命令をフェッ
チ、デコードし、それぞれに割り当てられたコンテキス
トのプログラムカウンタ３７ａ，３７ｂ（各フェッチデ
コードユニット３１ａ，３１ｂに対応するレジスタファ
イル３２ａ，３２ｂ内）を用いて独立して命令を発行す
る。

【００２４】この際、フェッチデコードユニット３１
ａ，３１ｂは、各命令に対して、デコード時に何れのフ
ェッチデコードユニットから発行されたものかを区別す
るための命令コンテクスト情報を付加して発行する。コ
ンテキスト情報により各命令がファンクションユニット
において実行される際、何れのレジスタファイル３２
ａ，３２ｂを使用するか指定することができる。

【００２５】各フェッチデコードユニット３１ａ，１ｂ
は、それぞれ分岐先バッファ３８ａ，３８ｂ（分岐ター
ゲットバッファ：branch-target buffer：ＢＴＢ）、及
び分岐命令検出部３９ａ，３９ｂが設けられている。分
岐先バッファ３８ａ，３８ｂは、既知の分岐命令（以前
に実行された分岐命令）の命令アドレスと、それぞれの
分岐命令の結果に対応する分岐先アドレス（次に来る命
令の予測アドレス）を格納するものである。分岐命令検
出部３９ａ，３９ｂは、現在フェッチ中の命令が分岐命
令であるか否かを判別する。フェッチデコードユニット
３１ａ，３１ｂは、分岐命令検出部３９ａ，３９ｂによ
って現在フェッチ中の命令が分岐命令であると判別され
た場合、他方のフェッチデコードユニットによって実行
可能な命令が存在すれば、その分岐先が既知である場合
を除き、分岐先が決定されるまで命令デコードを中止す
る。また、フェッチデコードユニット３１ａ，３１ｂ
は、分岐命令検出部３９ａ，３９ｂによって現在フェッ
チ中の命令が分岐命令であると判別された場合、他方の
フェッチデコードユニットによって実行可能な命令が存
在しなければ、分岐先バッファ３８ａ，３８ｂを用いて
分岐予測を実行する。すなわち、分岐先バッファ３８
ａ，３８ｂに格納された既知の分岐命令の命令アドレス
と比較し、一致する命令アドレスに対応して格納された
次に来る命令の予測アドレスに対して命令フェッチを開
始する。

【００２６】本実施例では、２つのレジスタファイル３
２ａ，３２ｂが設けられている。レジスタファイル３２
ａ，３２ｂは、各フェッチデコードユニット３１ａ，３
１ｂのそれぞれに対応している。ここで、フェッチデコ
ードユニット３１ａは、レジスタファイル３２ａ、フェ
ッチデコードユニット３１ｂは、レジスタファイル３２
ｂに対応しているものとする。各レジスタファイル３２
ａ，３２ｂは、命令に付加された、何れの命令フェッチ
デコードユニットから発行されたかを区別するための命
令コンテキスト情報に応じて各ファンクションユニット
から指定される。レジスタファイル３２ａ，３２ｂは、
プログラムカウンタ３７ａ，３７ｂ、スタックポイン
タ、フレームポインタ、フラグレジスタ、汎用レジスタ
等が含まれている。

【００２７】命令キャッシュ３３は、フェッチデコード
ユニット３１ａ，３１ｂから要求された命令が既に外部
のメモリ１５から読み込まれ内部に存在するかどうかを
判断し、存在すればその命令を要求のあったフェッチデ
コードユニットに渡し、存在しなければ外部のメモリ１
５に対してアクセスを要求する。

【００２８】データキャッシュ３４は、メモリ１５から
読み込まれたデータを格納するもので、必要に応じて各
ファンクションユニットによりアクセスされる。スコア
ボード３５は、プロセッサ３０内の資源（ファンクショ
ンユニット、レジスタ等）について使用できるか否かを
記録し、命令が発行される時に、その命令が必要とする
資源が空いてるかどうかに基づいて命令の実行を制御す
るためのものである。必要とする資源が空いていれば命
令をすぐに発行させ、空いていない場合には対象とする
資源が空くまで待たせる。スコアボード３５は、各ファ
ンクションユニットの実行状態の監視、レジスタファイ
ル３２ａ，３２ｂの状態監視及び制御、フェッチデコー
ドユニット３１ａ，３１ｂに対する命令発行の制御を行
なう。

【００２９】ファンクションユニット群３６には、図２
に示すように、複数のファンクションユニットとそれぞ
れのユニットに対応するリザベーションステーションが
設けられている。本実施例においては、３つの整数論理
演算ＡＬＵ４０ａ，４０ｂ，４０ｃ、２つの浮動小数点
演算ＦＰＵ４１ａ，４１ｂ、２つのブランチユニットＢ
ＲＵ４２ａ，４２ｂ、２つのロードストアユニットＬＳ
Ｕ４３ａ，４３ｂが設けられている。各ファンクション
ユニットのそれぞれに対応して、リザベーションステー
ション４５ａ，４５ｂ，４５ｃ，４５ｄが設けられてい
る。

【００３０】リザベーションステーション４５ａ〜４５
ｄは、各ファンクションユニットに対応してそれぞれ設
けられた命令キューであり、フェッチデコードユニット
３１ａ，３１ｂから発行されたが、まだ実行できないで
いる命令や、命令コンテクスト情報を含む命令の実行制
御に必要な各種情報（その命令が使用すべきスタックポ
インタ、フレームポインタ、プログラムカウンタ等を指
示する情報）を保持する。

【００３１】次に、本実施例の動作について説明する。
各フェッチデコードユニット３１ａ，３１ｂは、それぞ
れに対応するレジスタファイル３２ａ，３２ｂのプログ
ラムカウンタ３７ａ，３７ｂに基づいて、独自に命令フ
ェッチ・デコードを行なう。すなわち、フェッチデコー
ドユニット３１ａは、プログラムカウンタ３７ａが示す
番地から命令をフェッチし、デコードする。この際、ス
コアボード３５によって管理されている情報に基づい
て、その命令がすぐに実行可能であるかが判定される。
フェッチデコードユニット３１ｂも同様にして動作す
る。

【００３２】フェッチデコードユニット３１ａ，３１ｂ
は、命令がすぐに実行可能であれば、命令に応じたファ
ンクションユニットのリザベーションステーションへ命
令コンテクスト情報を付加して送出する。

【００３３】各ファンクションユニットは、それぞれに
対応するリザベーションステーションからデコードされ
た命令を取り出して実行する。この時、命令に付加され
た命令コンテクスト情報に応じて、使用するレジスタフ
ァイルを特定する。

【００３４】一方のフェッチデコードユニットにおいて
命令デコードした時点で、その命令が分岐命令であり現
時点で分岐先が分からない場合、他方の命令デコードユ
ニットにおいて実行可能な命令があるかどうかを調べ
る。

【００３５】ここで、実行可能な命令が存在する場合に
は、分岐先が決まるまで命令デコードをストールさせ
る。また、実行可能な命令が存在しない場合には（すで
にストールしている）場合には、分岐先バッファ３８
ａ，３８ｂを用いた分岐予測を行ない投機的に命令を実
行する。

【００３６】ここで、具体例を用いて説明する。図３
（ａ）に示すプログラムＰ１と図３（ｂ）に示すプログ
ラムＰ２を実行すると、各命令が、図４に示すようにし
て各ファンクションユニットに対して発行されて実行さ
れる。

【００３７】図４に示すように、命令の並列度が最大５
に達する。また、プログラムＰ１には第９ラインに分岐
命令（ＢＥＱＬ１）が存在するため、サイクル６では
実行できる命令はないが（分岐先が決まるまで命令デコ
ードがストールされる）、他方の命令デコードユニット
によって実行可能な命令があるかどうか調べた結果、プ
ログラムＰ２に実行可能な命令が存在する。

【００３８】従って、ＡＬＵ４０ａ，４０ｂ，４０ｃの
それぞれに、「Ｐ２：１２」「Ｐ２：１３」「Ｐ２：１
４」が発行される。すなわち、分岐命令をデコードした
命令フェッチデコードユニットを補間するように命令が
発行され、全てのファンクションユニットが空くことは
ない。この結果、本実施例の構成では、プログラムＰ
１，Ｐ２について実行すると８サイクルで両方が完了し
てしまうことになる。

【００３９】また、図３（ａ）に示すプログラムＰ１と
図３（ｃ）に示すプログラムＰ３を実行すると、各命令
が、図５に示すようにして各ファンクションユニットに
対して発行されて実行される。

【００４０】図５に示すように、ＡＬＵ４０ａとＦＰＵ
４１ａが並列に使用されている。このようにして、２つ
の命令フェッチデコードユニット３１ａ，３１ｂが設け
られ、それぞれが独立して命令を発行できるので、同時
に複数のプログラムを実行させて同時に実行できる命令
の数を増やし、ファンクションユニットを有効に利用し
て、命令の並列度を向上させることができる。従って、
コストパフォーマンスの高いプロセッサを提供すること
ができる。複数のプログラム（コンテクスト）を並列実
行するためにマルチプロセッサシステムを用いることも
考えられるが、この場合、各プロセッサ間のキャッシュ
の一貫性保持のための機能が必要であり、このためのオ
ーバヘッドと外部バスやネットワークへの負荷を生じる
という問題がある。本発明では、複数の命令列が同一プ
ロセッサ３０において同じ命令キャッシュ３３を共有す
るので、一貫性はプロセッサ１０内のみで保証すれば良
いため高速に実行でき、しかも外部バス、ネットワーク
への負荷を発生することがないという効果がある。

【００４１】また、一方のフェッチデコードユニットが
分岐命令をフェッチした場合に、他方のフェッチデコー
ドユニットを用いて実行可能な命令が存在すれば分岐予
測を行なわず命令デコードを中止する。そして、他方の
フェッチデコードユニットから命令を発行することで、
互いに補間するようにして処理を行なうことが可能であ
り、結果として高いスループットを得ることができる。

【００４２】また、一方のフェッチデコードユニットが
分岐命令をフェッチした場合に、他方のフェッチデコー
ドユニットを用いて実行可能な命令が存在しない場合に
は、分岐予測に従って投機的に命令を実行することで高
速な処理が可能となる。

【００４３】なお、前記実施例では、２つのフェッチデ
コードユニット３１ａ，３１ｂを設ける構成としている
が、３つ以上であっても良い。この場合、各フェッチデ
コードユニットに対応するレジスタファイルが設けられ
る。

【００４４】また、前記実施例では、分岐予測を行なう
際には分岐先バッファ３８ａ，３８ｂ（ブランチターゲ
ットバッファ：ＢＴＢ）を用いるとして説明している
が、他の方法による分岐予測であっても良い。

【００４５】

【発明の効果】以上詳述したように本発明によれば、プ
ロセッサ内の資源を有効利用して複数のコンテキストを
同時に実行できるようにして命令の並列度を高めた高速
処理が可能となるものである。

【図面の簡単な説明】

【図１】本発明の一実施例に係わるプロセッサの構成を
示すブロック図。

【図２】本実施例におけるファンクションユニット群の
構成を示すブロック図。

【図３】本実施例の具体的な動作を説明するためのプロ
グラムの一例を示す図。

【図４】本実施例における図３中に示すプログラムＰ
１，Ｐ２を実行した際に各ファンクションユニットで実
行される命令を示す図。

【図５】本実施例における図３中に示すプログラムＰ
１，Ｐ３を実行した際に各ファンクションユニットで実
行される命令を示す図。

【図６】従来のプロセッサの構成を示すブロック図。

【図７】従来のプロセッサによって図３中に示すプログ
ラムＰ１を実行した際に各ファンクションユニットで実
行される命令を示す図。

【符号の説明】

３０…プロセッサ、３１ａ，３１ｂ…フェッチデコード
ユニット、３２ａ，３２ｂ…レジスタファイル、３３…
命令キャッシュ、３４…データキャッシュ、３５…スコ
アボード、３６…ファンクションユニット群、３８ａ，
３８ｂ…分岐先バッファ（分岐ターゲットバッファ：br
anch-target buffer：ＢＴＢ）、３９ａ，３９ｂ…分岐
命令検出部、４０ａ，４０ｂ，４０ｃ…ＡＬＵ（整数論
理演算）、４１ａ，４１ｂ…ＦＰＵ（浮動小数点演
算）、４２ａ，４２ｂ…ＢＲＵ（ブランチユニット、４
３ａ，４３ｂ…ＬＳＵ（ロードストアユニット）。

Claims

【特許請求の範囲】

【請求項１】複数の演算ユニットを有するプロセッサ
において、複数の命令フェッチデコード機能を有し、同時に複数の
命令を実行することを特徴とするプロセッサ。
【請求項２】前記複数の命令フェッチデコード機能と
同数のレジスタファイルを有し、各命令フェッチデコー
ド機能は、何れのレジスタファイルを使用するかを指定
するための情報を付加して命令を発行することを特徴と
する請求項１記載のプロセッサ。
【請求項３】前記複数の命令フェッチデコード機能の
それぞれは、分岐命令を検出する分岐命令検出手段を有
し、前記分岐命令検出手段によってデコードの対象とする命
令が分岐命令であることを検出した場合には、他に実行
可能な命令が存在すれば、分岐先が既知である場合を除
き、分岐先が決定されるまで以降の命令デコードを中止
することを特徴とする請求項１または請求項２記載のプ
ロセッサ。
【請求項４】前記複数の命令フェッチデコード機能の
それぞれは、分岐命令を検出する分岐命令検出手段を有
し、前記分岐命令検出手段によってデコードの対象とする命
令が分岐命令であることを検出した場合には、他に実行
可能な命令が存在すれば、分岐先が既知である場合を除
き、分岐先が決定されるまで以降の命令デコードを中止
し、他に実行可能な命令が存在しなければ分岐予測によ
り命令実行を行なうことを特徴とする請求項１または請
求項２記載のプロセッサ。
【請求項５】前記複数の命令フェッチデコード機構
は、１つの命令キャッシュを共有することを特徴とする
請求項１記載のプロセッサ。