JPH10214188A

JPH10214188A - プロセッサの命令供給方法及び装置

Info

Publication number: JPH10214188A
Application number: JP9016870A
Authority: JP
Inventors: Hisatomo Satou; 寿倫佐藤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-01-30
Filing date: 1997-01-30
Publication date: 1998-08-11
Also published as: US6119220A

Abstract

(57)【要約】【課題】プロセッサの性能の低下を招くことなく、命
令供給の効率化を図ることができるプロセッサの命令供
給方法及び装置を提供することを課題とする。【解決手段】命令キャッシュ１の他に命令を格納する
分岐先バッファ３３を別途設ける。分岐先バッファ３３
には分岐命令の分岐が成立した場合に実際に実行される
順序に命令を配置する。分岐先バッファ３３に対する上
記命令の配置は分岐予測装置３５による分岐の予測が終
了する前に実行され、分岐が成立すると予測された場合
には分岐先バッファ３３に格納された命令列を命令デコ
ーダ９に供給する。一方、分岐が成立しないと予測され
た場合には命令キャッシュ１から命令を供給する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プロセッサ(proce
sser )に関し、特に、プロセッサの命令供給に関する。

【０００２】

【従来の技術】近年、高性能プロセッサ(processer )に
おいては、その性能向上の目的で、機能ブロックが多く
備えられている。そして、それら機能ブロックを効率良
く実行させることにより、その動作効率、性能等を向上
させることができる。機能ブロックを効率良く実行させ
るためには、できるだけ多くの命令を同時に実行する必
要がある。すなわち、実行するプログラムから高い命令
並列度を引き出すことが、機能ブロックを効率良く動作
させ、プロセッサの性能を向上させる鍵となる。命令並
列度は、その中に分岐命令及び分岐先の命令を持たない
命令列である基本ブロックのサイズに大きく依存する。
実行プログラムは、分岐命令、分岐先命令により複数の
基本ブロックに分割され、基本的には、基本ブロックの
サイズが大きいほど高い命令並列度を取り出すことが可
能となる。

【０００３】図１３は、従来のＲＩＳＣ(Reduced Instr
uction Set Computer)型プロセッサの構成を示すブロッ
ク図である。このプロセッサは、命令専用のキャッシュ
である命令キャッシュ１と、オペランドデータ専用のキ
ャッシュであるデータキャッシュ３と、実行プログラ
ム、データを格納するメインメモリ５と、現在実行中の
命令のアドレスをラッチするプログラムカウンタ７と、
命令をデコードし、各種の制御信号を生成する命令デコ
ーダ９と、各種の演算を実行する複数の機能ユニット１
１と、機能ユニット１１による演算に用いられるデータ
を一時的に格納するレジスタファイル１３と、から構成
されている。

【０００４】このプロセッサでは、まず、プログラムカ
ウンタ７の示す命令アドレスを用いて命令キャッシュ１
にアクセスし、命令を取り出す。そして、取り出された
命令は命令デコーダ５に送られ、解読される。解読され
た命令に従い、各機能ユニット１１で演算が行われる。
演算にはレジスタファイル１３に格納されているデータ
を用いる。また、メインメモリ５に格納されているデー
タを用いる場合には、データキャッシュ３にアクセスし
てデータをレジスタファイル１３に移動させて行う。

【０００５】ところが、最近のプログラムは数値計算プ
ログラムを除いたほとんどのもので分岐命令が多数存在
する構造となっており、上記基本ブロックのサイズが必
然的に小さくなってきている。そのため、高い命令並列
度を取り出すことが困難となってきている。

【０００６】また、上記命令キャッシュ１は複数のキャ
ッシュラインから構成されており、命令キャッシュ１か
ら一度に読み出すことができる命令はその１つのキャッ
シュラインに記憶されている命令である。そのため、例
えば、異なる２つの基本ブロックが異なる２つのキャッ
シュラインに存在する場合には、かかる２つの基本ブロ
ックを構成する２つの命令列を同時に取り出すことは不
可能である。さらに、別個に取り出した２つの命令列を
整列させ、結合させる必要が生じる。このように、従来
のプロセッサはその命令供給の効率が非常に悪く、この
点からも高い命令並列度を抽出することは難しい。従っ
て、結果としてプロセッサの性能に制限が加えられるこ
とになる。

【０００７】そこで、上記の問題を解決するために、T.
M.Conte らは、“Optimization ofInstruction Fetch M
echanism for High Issue Rate",(Proceedings of the
22nd Annual International Symposium on Computer Ar
chitecture,pp.333-344,1995 ）において、Collapsing
Buffer （折り畳みバッファ、以下、「Collapsing Buff
er 」と記す）と呼ばれる方法を提案し、上記図１３に
示すプロセッサでは不可能であった、複数の基本ブロッ
クから構成される命令列を同時に供給することを可能と
した。Collapsing Buffer は、同時にアクセスされた２
つのキャッシュラインに分岐元の基本ブロックと分岐先
の基本ブロックが存在する場合、それらを構成するそれ
ぞれの命令列の中から実行される命令以外の命令を取り
除き、それにより、連続する２つの基本ブロックから構
成される命令列を供給する方法である。同様の方法は、
S.Dutta らの“Block-Level Prediction for Wide-Issu
eSuperscalar Processors",(Proceedings of 1st Inter
national Conference onAlgorithms and Architectures
for Parallel Processing,pp.143-152,1995) 、A.Sezn
ecらは“Multiple-Block Ahead Branch Predictors",(P
roceedings of Architectural Support for Programmin
g Languages and Operations Systemsm,1996) 、S.Wall
ace らの“Instruction Fetching Mechanism for Super
scalar Microprocessors",(Proceedings of Euro-Par,1
996 ）で提案されている。いずれの方法も、分岐先の命
令アドレスを予測し、同時に分岐元の命令列と分岐先の
命令列を格納するキャッシュラインにアクセスして、２
つの基本ブロックから構成される命令列を供給するもの
である。

【０００８】例えば、図１４は、上記Collapsing Buffe
r を備えたプロセッサの一構成例を示すブロック図であ
る。なお、図１３と同一部分には同一符号が付してあ
る。図１４に示すように、このプロセッサは、命令キャ
ッシュ１と命令デコーダ９との間に上記Collapsing Buf
fer １５を備え、さらに、プログラムカウンタ７の示す
アドレスを入力し、そのアドレスに格納された命令が分
岐命令である場合にはその分岐先命令のアドレスを予測
し、そのアドレスを出力する分岐先バッファ（branch t
arget buffer：ＢＴＢ）１７が設けられている。命令キ
ャッシュ１にはプログラムカウンタ７からだけでなく、
分岐先バッファ１７からもアドレスが供給される。そし
て、Collapsing Buffer １５はそれぞれのアドレスに格
納された２つの命令列を入力し、それら命令列を整列・
結合する。

【０００９】次に、具体的に、Collapsing Buffer １５
による命令列の整列・結合動作について図を用いて説明
する。図１５は、図１４のCollapsing Buffer １５の周
辺部の構成を示す図である。なお、ここでは、命令キャ
ッシュ１はバンク（bank）１９とバンク２１に分割さ
れ、それぞれのバンクにアクセスポートが設けられてい
る。それにより、２つのバンクにまたがる連続アドレス
の命令、すなわち、連続する２つの基本ブロックを同時
にアクセスすることが可能となる。

【００１０】図１５において、Collapsing Buffer １５
は、interchange switch（交換スイッチ、以下「interc
hange switch」と記す）２３と、第１の命令バッファ２
５と、第２の命令バッファ２７とから構成される。この
ような構成であるCollapsingBuffer １５は、まず、２
つのバンク１９及びバンク２１から供給された２つの命
令列を実行される順序となるようにinterchange switch
２３が並べ変える。第１の命令バッファ２５はintercha
nge switch２３で並べ変えられた命令列のうち、実際に
実行される命令を特定する。第２の命令バッファ２７
は、第１の命令バッファ２５が特定した命令列を受けと
り、命令デコーダ９に供給する。

【００１１】例えばプログラムカウンタ７が命令ｃが格
納されたアドレスを指したとすると、命令ｃが存在する
バンク１９内の１つのキャッシュラインから命令列
「ａ，ｂ，ｃ，ｄ」がinterchange switch２３に供給さ
れる。また、前記命令列の中の命令ｄが分岐命令である
とすると、分岐先バッファ１７はプログラムカウンタ７
からアドレスを受けとり、分岐命令ｄの分岐先アドレス
を決定する。命令ｆがその分岐先命令であるとすると、
バンク２１内の他の１つのキャッシュラインから命令列
「ｅ，ｆ，ｇ，ｈ」が供給される。interchange switch
２３は受けとった命令列「ａ，ｂ，ｃ，ｄ」及び「ｅ，
ｆ，ｇ，ｈ」を並べ変える。ここで、命令列「ａ，ｂ，
ｃ，ｄ」のアドレスよりも命令列「ｅ，ｆ，ｇ，ｈ」の
アドレスの方が小さい場合であっても、実行される命令
の順序は逆なので、interchange switch２３は２つの命
令列を「ａ，ｂ，ｃ，ｄ，ｅ，ｆ，ｇ，ｈ」の順に並べ
ることになる。

【００１２】そして、interchange switch２３は第１の
命令バッファ２５に命令列「ａ，ｂ，ｃ，ｄ，ｅ，ｆ，
ｇ，ｈ」を出力する。第１の命令バッファ２５は実際に
実行される命令を決定する。実行される命令は命令ｃ、
命令ｄ、命令ｆ及び命令ｇであるので、第２の命令バッ
ファ２７には命令列「ｃ，ｄ，ｆ，ｇ」が供給される。
その後、命令列「ｃ，ｄ，ｆ，ｇ」は命令デコーダ９に
渡される。

【００１３】なお、上記分岐先バッファ１７は次のよう
な構成によりプログラムカウンタ７からアドレスを入力
し、そのアドレスに格納された命令が分岐命令である場
合にその分岐先命令のアドレスを予測し、そのアドレス
を出力する。図１６は、分岐先バッファ１７の構成を示
す図である。分岐先バッファ１７は、プログラムカウン
タ７の示すアドレスとの比較に用いられる命令アドレス
タグ部（tag ）２９と、分岐先アドレスが格納された分
岐先アドレス部（address ）３１とから構成されてい
る。分岐先バッファ１７は、プログラムカウンタ７の示
すアドレスと命令アドレスタグ部２９に格納されたタグ
アドレスとを比較し、プログラムカウンタ７の示すアド
レスと一致するタグアドレスが存在すれば、そのエント
リに格納された分岐命令の分岐先アドレスを出力するも
のである。

【００１４】

【発明が解決しようとする課題】しかしながら、上述し
たCollapsing Buffer による命令供給方法にはプロセッ
サの速度が低下してしまうという問題があった。という
のは、上記の方法を実際に実現するには、分岐先バッフ
ァのような分岐先アドレス予測機構を複数必要とし、ま
た、ハードウェア量の増大を招いてしまう命令キャッシ
ュのバンク分けをしなければならない。さらに、Collap
sing Buffer のような命令整列機構、命令列結合機構と
いったハードウエアも必要とする。これらのハードウエ
アは非常に複雑であり、命令供給に必要な時間は増大す
る。現状、命令供給に必要な時間がプロセッサの速度を
律速しており、これが増大することはプロセッサの速度
を低下させることになる。上記ハードウエアの実行のた
めのパイプラインステージを増やせばプロセッサの速度
低下を防ぐことは可能であるが、逆にパイプラインステ
ージの増大はプロセッサ自体の性能低下を招く要因とな
る。

【００１５】例えば、図１４に示すプロセッサでは、分
岐先バッファ１７により示された分岐先命令アドレスを
用いて命令キャッシュ１からその分岐先命令を取り出す
処理と、プログラムカウンタ７の示すアドレスを用いて
命令キャッシュ１から命令を取り出す通常の命令フェッ
チ処理とは、その処理時間がほぼ同じである。そのた
め、プログラムカウンタ７の示すアドレスの命令が分岐
命令である場合には、命令フェッチの処理時間が、分岐
命令でない場合に比べて実質的には約２倍となってしま
う。すなわち、プログラムカウンタ７→分岐先バッファ
１７→命令キャッシュ１の経路がプロセッサの動作速度
を低下させる要因となる。一方、命令キャッシュ１と命
令デコーダ９との間にCollapsing Buffer １５を挿入す
ること自体も、動作速度を低下させる要因となり得る。

【００１６】このように、上述した従来の命令供給方法
には、現実にはプロセッサの速度を低下させ、ひいては
その性能を低下させていた。

【００１７】本発明は、上記事情に鑑みて成されたもの
であり、その目的は、プロセッサの性能の低下を招くこ
となく、命令供給の効率化を図ることができるプロセッ
サの命令供給方法及び装置を提供することにある。

【００１８】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明は、実行される命令のアドレスを保持す
るプログラムカウンタ７と、複数のブロックに分割さ
れ、各ブロックにアドレスの連続する複数個の命令を格
納する第１の命令メモリ部（命令キャッシュ）１と、複
数のブロックに分割され、各ブロックに前記第１の命令
メモリ部から供給されるアドレスの連続する複数個の命
令を実行される順序に再構成して格納する第２の命令メ
モリ部（分岐先バッファ）３３と、命令キャッシュ１、
分岐先バッファ３３から読み出された命令をデコードす
る命令デコード部（命令デコーダ）９と、命令キャッシ
ュ１、分岐先バッファ３３それぞれから読み出される２
つの命令列の内一方のみを選択して命令デコーダ９に供
給する選択部（セレクタ）３９と、命令デコーダ９によ
りデコードされた分岐命令の分岐が成立するか否かを予
測する分岐予測部（分岐予測装置）３５とから構成され
る。そして、命令キャッシュ１にはアドレスの連続した
複数個の命令、すなわち主記憶上の命令の一部をそのア
ドレス順に配置する。一方、分岐先バッファ３３には命
令キャッシュ１から供給される命令列をそのアドレスと
は無関係な実際に実行される順序に再構成して、すなわ
ち分岐命令があり、その分岐が成立した場合に実行され
る順序に配置する。さらに、分岐先バッファ３３に上記
のような命令の配置は分岐予測装置３５がその分岐が成
立するか否かの予測が終了する前に行われる。そして、
分岐命令が存在し、分岐が成立すると予測された場合に
は分岐先バッファ３３に格納された命令列をセレクタ３
９が選択して命令デコーダ９に供給する。従って、分岐
命令以降の命令を無駄にすることがなく、命令供給の効
率化を図ることが可能となる。

【００１９】また、第２の発明は、上記第１の発明にお
いて、上記分岐先バッファ３３を各ブロックのアドレス
を示すタグを保持するタグアレイ部６５を設けた分岐先
バッファ５９とし、分岐予測装置３５をハードウェアて
きには非常に小さい比較部（比較器６１）に置き換えて
いる。そして、プログラムカウンタ７で指定されたアド
レスとタグアレイ部６５に保持されたタグとが一致した
場合には、セレクタ３９は分岐先バッファ５９に格納さ
れた命令列を選択し、命令デコーダ９に供給する。従っ
て、第１の発明よりもプロセッサのハードウェア量の低
減を図ることができる。そして、プロセッサの表面積、
生産コストを抑えることが可能となる。

【００２０】

【発明の実施の形態】以下、本発明の実施の形態につい
て図面を用いて説明する。

【００２１】第１の実施の形態図１は、本発明の第１の実施の形態に係るプロセッサの
命令供給装置の構成を示す図であり、（ａ）がその具体
的なブロック図である。また、（ｂ）は後述する命令保
存装置とその他の部分との対応関係を示す図である。な
お、従来例と同一部分には同一符号が付してある。

【００２２】図１（ａ）において、この命令供給装置
は、命令キャッシュ１と、改良分岐先バッファ３３と、
分岐予測装置３５と、セレクタ３９と、命令デコーダ９
と、プログラムカウンタ７と、から構成される。

【００２３】命令キャッシュ１は、メインメモリ（図示
省略）内の命令の一部をコピーして格納する。ＣＰＵに
よるメインメモリへのアクセスを実際には命令キャッシ
ュ１へのアクセスとすることによりその高速化を図るも
のである。

【００２４】改良分岐先バッファ（以下、単に「分岐先
バッファ」と記す）３３は、図１４に示す従来の分岐先
バッファ１７を改良したものであり、命令キャッシュ１
と同様に複数のラインから構成され、各ラインには命令
キャッシュ１の異なる複数の基本ブロックを構成する命
令列を保存することを可能としたものである。

【００２５】分岐予測装置３５は、分岐命令の成立・不
成立のみを予測する。例えば、操作結果の状態を残して
おき、その情報をみて分岐が成立するか否かを予測すれ
ばよい。従って、分岐先のアドレスの予測は行わない。

【００２６】セレクタ３９は、命令キャッシュ１、分岐
先バッファ３３それぞれから命令列を入力する。そし
て、そのどちらか一方を分岐予測装置３５の予測結果に
基づき選択し、命令デコーダ９に出力する。

【００２７】次に、上述した構成である命令供給装置の
動作（すなわち、命令供給方法）について図２のフロー
チャートを用いて説明する。

【００２８】まず、ステップ１においてプログラムカウ
ンタ７が示すアドレスを用いて命令キャッシュ１、分岐
先バッファ３３それぞれにアクセスする。また、分岐予
測装置３５により分岐命令の分岐予測が実行される。次
に、ステップ２において分岐が成立すると予測された場
合には、ステップ３においてセレクタ３９が分岐予測装
置３５から送られる選択信号により分岐先バッファ３３
に保存された命令列を選択する。なお、分岐先バッファ
３３の命令保存動作については後述する。次に、ステッ
プ４において分岐先バッファ３３に目的の命令列が存在
すれば、ステップ５においてその命令列が分岐先バッフ
ァ３３よりセレクタ３９を通って命令デコーダ９に供給
される。

【００２９】一方、上記ステップ２において分岐が成立
しないと予測された場合及び上記ステップ４において分
岐先バッファ３３に目的の命令列が存在しない場合に
は、ステップ６においてセレクタ３９が命令キャッシュ
１に格納された命令列を選択する。次に、ステップ７に
おいて命令キャッシュ１に目的の命令列が存在すれば、
ステップ８においてその命令列が命令キャッシュ１より
セレクタ３９を通って命令デコーダ９に供給される。一
方、ステップ７において命令キャッシュ１に目的の命令
列が存在しなければ、ステップ９において命令キャッシ
ュ１の該当するラインに下層のメモリシステム（例え
ば、メインメモリ）から命令列を１ライン分読み込んだ
後、上記と同様にステップ８においてその命令列が命令
キャッシュ１よりセレクタ３９を通って命令デコーダ９
に供給される。

【００３０】上記分岐先バッファ３３に命令列を保存す
る場合には、例えば、図１（ｂ）に示す命令保存装置３
７を用いることにより行うことができる。図３は、命令
保存装置３７の動作を説明するための図である。図３に
おいて、命令保存装置３７は、外部から入力される命令
列を一時的に保存する命令バッファ４１を有しており、
命令キャッシュ１から供給される複数の命令列をこの命
令バッファ４１上で整列・結合し、その整列・結合され
た命令列を分岐先バッファ３３に出力するものである。

【００３１】具体的には、例えば、図３（ａ）におい
て、まず、この命令保存装置３７は命令キャッシュ１よ
り命令列４３を受けとる。

【００３２】次に、図３（ｂ）において、命令列４３は
命令保存装置３７内部で解読され、先頭アドレスあるい
はプログラムカウンタ７で示されるアドレスの命令から
上述した基本ブロックの境界となる命令（すなわち、分
岐命令）までが命令保存装置３７内部の命令バッファ４
１に命令列４５として蓄えられる。なお、命令列４３内
部に基本ブロックの境界となる命令が存在しない時に
は、命令列４３は命令バッファ４１には蓄えられない。
また基本ブロックの境界が存在している場合であって
も、命令列４３に対して分岐が不成立と予測された時に
は、同様に蓄えられない。そして、命令バッファ４１に
命令列４５が蓄えられた後、命令保存装置３７がさらに
命令キャッシュ１から次の命令列４７を受けとる。

【００３３】次に、図３（ｃ）において、命令保存装置
３７は同様に命令列４７を解読し、先頭から基本ブロッ
クの境界となる命令までを命令列４９として命令バッフ
ァ４１に蓄える。なお、命令列４７内に基本ブロックの
境界となる命令が存在しない場合には命令バッファ４１
の容量の限界までを命令列４９として命令バッファ４１
に保存する。また、基本ブロックの境界となる命令が存
在する場合であっても、命令バッファ４１の容量を越え
る場合には、命令バッファ４１の容量の限界までを命令
列４９とする。そして、すでに命令バッファ４１に蓄え
られている命令列４５と命令列４９とが結合され、命令
列５１が完成する。

【００３４】このように、命令列４３と命令列４７とが
整列・結合されて命令列５１となり、分岐先バッファ３
３に記憶される。図４は、命令列５１を記憶する分岐先
バッファ３３のエントリのフォーマットを示す図であ
る。図４に示すように、命令列４５の先頭の命令アドレ
スを示すタグアドレスフィールド５３と、命令列４５及
び命令列４９を蓄える命令フィールド５５と、命令列４
９に続く命令アドレスを示す次アドレスフィールド５７
とから構成される。

【００３５】次に、上述した命令保存装置３７の動作に
ついて図５に示すフローチャートを用いてさらに説明す
る。命令キャッシュ１から命令列を命令保存装置３７が
受けとると、まず、ステップ１１において命令保存装置
３７内の命令バッファ４１にすでに命令列が保存されて
いるか否かがチェックされる。命令列が保存されていな
い場合には、ステップ１２においてその命令列内に基本
ブロックの境界となる分岐命令があるか否かがチェック
される。分岐命令が存在しない場合には、ステップ１４
において受けとった命令列は破棄され、命令バッファ４
１には蓄えられない。一方、ステップ１２において分岐
命令が存在する場合には、ステップ１５において基本ブ
ロックの境界までの命令列が検出される。そして、ステ
ップ１６において基本ブロックの境界までの命令列が命
令バッファ４１の容量を越える場合には上記ステップ１
４に進む。容量を越えない場合にはステップ１７におい
てその命令列が命令バッファ４１に保存される。

【００３６】一方、ステップ１１において命令列がすで
に保存されていない場合には、ステップ１３において基
本ブロック境界までの命令列が検出される。そして、ス
テップ１８において基本ブロックの境界までの命令列が
命令バッファ４１の容量を越えない場合には上記ステッ
プ１７に進む。容量を越える場合にはステップ１９にお
いて命令バッファ４１の容量の限界まで命令列が保存さ
れる（すなわち、受けとった命令列の一部のみが保存さ
れる）。なお、上記ステップ１７及びステップ１９にお
いて保存された命令列は分岐予測装置３５により分岐が
非成立と予測された場合には破棄される。

【００３７】図６は、上述したプロセッサの命令供給装
置を備えたプロセッサの構成を示すブロック図である。
なお、図１（ｂ）に示す命令保存装置３７は省略してあ
る。上述したように分岐先バッファ３３は連続する分岐
先の基本ブロックと分岐元の基本ブロックを共に保存
し、さらに、セレクタ３９に連続して出力することがで
きる。それにより、このプロセッサにおいては、分岐が
成立・不成立にかかわらず、すなわち分岐予測装置３５
による予測が終了する前に、分岐先バッファ３３に分岐
が成立した場合に実行されるべき命令列を保存しておけ
ば、分岐予測が終了した時点で成立と予測されれば分岐
先バッファ３３に保存された命令列を供給し、非成立と
予測されれば命令キャッシュ１から命令列を供給するこ
とが可能となる。従って、図１６に示す従来のプロセッ
サにおいてその動作速度を低下させる要因となったプロ
グラムカウンタ７→分岐先バッファ１７→命令キャッシ
ュ１の経路が図６の本実施の形態に係るプロセッサには
存在せず、その動作速度を低下させることはないのであ
る。また、命令キャッシュ１と命令デコーダ９との間に
設けられるセレクタ３９は非常に単純な回路構成で実現
することができ、従来のCollapsing Buffer １５のよう
にプロセッサの動作速度に影響を与えるものではない。

【００３８】本実施の形態の形態に係るプロセッサの効
果を確認するために、シミュレーションによって評価を
行なった。シミュレーションにはサイクルレベルのパイ
プラインシミュレータを用いた。モデルとなるプロセッ
サは、以下の表に示されるアウトオブオーダー実行のス
ーパースカラプロセッサである。なお、表中にある「gs
hare法」についてはS.McFarling,"Combining Branch Pr
edictors,"TechnicalNote TN-36,DEC-WRL,June 1993に
記載されている。

【００３９】

【表１】実行される命令のレイテンシと、命令発行間隔は以下の
表の通りである。

【００４０】

【表２】以上のプロセッサを比較対象とし、このプロセッサに分
岐先バッファ３３を加えたプロセッサを用いてその性能
を評価した。分岐先バッファ３３は５１２セット２ウエ
イ・セットアソシアティブで、ラインサイズは３２バイ
トである。したがって、３２Ｋバイトのキャッシュ相当
のハードウエア規模となる。

【００４１】シミュレーションには下記の表に示すＳＰ
ＥＣ９２ベンチマークプログラムを用いた。プログラム
に与えられる入力データにはＳＰＥＣが用意したリファ
レンスの入力を用いた。実行時間の短縮のため、一部の
入力データには若干変更を加えた。行なった変更も下記
の表に示してある。また、実行した命令数も示した。Ｃ
プログラムはＧＮＵＧＣＣコンパイラ（version2.6.
3）を用いてコンパイルを行なった。ＦＯＲＴＲＡＮプ
ログラムはＡＴ＆ＴＦ２Ｃプログラム（version 199
4.11.03）を用いてＣプログラムに変換し、ＧＣＣコン
パイラでコンパイルを行なった。

【００４２】

【表３】ＳＰＥＣ９２ベンチマークプログラムを用いたシミュレ
ーションの結果を図７と図８に示す。図７及び図８中
「ｏｌｄ」で示されるグラフが従来例の結果であり、
「ｎｅｗ」で示されるグラフが本実施の形態を用いた場
合の結果である。図７は命令供給効率の改善を、図８は
プロセッサの性能効率をそれぞれ表している。整数系の
プログラムでは、命令供給効率が平均４．８％、最大
９．４％改善された。その結果、プロセッサの性能が、
平均４．３％、最大７．１％向上した。浮動小数点系の
プログラムでは、命令供給効率が平均２．０％、最大
７．８％改善された。プロセッサの性能は、平均２．１
％、最大６．２％向上した。

【００４３】以上説明したシミュレーションの結果によ
り本実施の形態の効果が確認できた。

【００４４】第２の実施の形態図９は、本発明の第２の実施の形態に係るプロセッサの
命令供給装置の構成を示す図であり、（ａ）がその具体
的なブロック図である。また（ｂ）は上述した命令保存
装置とその他の部分との対応関係を示す図である。な
お、従来例と同一部分には同一符号が付してある。

【００４５】図９（ａ）において、この命令供給装置
は、命令キャッシュ１と、分岐先バッファ５９と、比較
器６１と、セレクタ３９と、命令デコーダ９と、プログ
ラムカウンタ７と、から構成される。

【００４６】本実施の形態は、図１に示す分岐先バッフ
ァ３３をデータアレイ部６３と、タグアレイ部６５とか
ら構成される分岐先バッファ５９に、図１に示す分岐予
測装置３５を比較器６１に置き換えた構成となってい
る。分岐先バッファ５９は、データアレイ部６３には上
記分岐先バッファ３３と同様に各ラインに命令キャッシ
ュ１の異なる複数の基本ブロックを構成する命令列を保
存する。一方、タグアレイ部６５にはデータアレイ部６
３内の各ラインにそれぞれ設けられたタグを格納する。
比較器６１は、タグアレイ部６５の格納されたタグデー
タとプログラムカウンタ７の示すアドレスとの比較を行
う。

【００４７】この命令供給装置の動作について図１０の
フローチャートを用いて説明する。まず、ステップ１０
１において命令キャッシュ１と分岐先バッファ５９がプ
ログラムカウンタ７の値によりアクセスされる。次に、
ステップ１０２において分岐先バッファ５９のタグアレ
イ部６５に格納されているタグデータとプログラムカウ
ンタ７の示すアドレスとを比較器６１で比較する。一致
した場合、すなわち分岐先バッファ５９に当該命令列が
存在する場合には、ステップ１０３において分岐先バッ
ファ５９から供給される命令列が選択される。なお、分
岐先バッファ５９の命令保存動作については後述する。

【００４８】一方、ステップ１０２において一致しな場
合、すなわち分岐先バッファ５９に当該命令列が存在し
ない場合には、ステップ１０４において命令キャッシュ
１から供給される命令列が選択される。そして、ステッ
プ１０５において命令キャッシュ１にその命令列が存在
すれば、ステップ１０６においてその命令列が命令キャ
ッシュ１から供給される。一方、ステップ１０５におい
て命令キャッシュ１にその命令列が存在しない場合に
は、ステップ１０７において命令キャッシュ１の該当す
るラインに下層のメモリシステム（例えば、メインメモ
リ）から命令列を１ライン分読み込んだ後、上記と同様
にステップ１０６においてその命令列を命令キャッシュ
１より供給する。

【００４９】次に、上記分岐先バッファ５９に命令列を
保存する動作について図１１に示すフローチャートを用
いて説明する。なお、本実施の形態においても第１の実
施の形態に係る命令保存装置３７を用いて保存を行う場
合について説明する。図１１において、命令キャッシュ
１から命令列を命令保存装置３７が受けとると、まず、
ステップ１００１において命令保存装置３７内の命令バ
ッファ４１の容量が一杯であるか否かがチェックされ
る。容量が一杯でなければ、ステップ１００２において
命令列が格納される。一方、すでに容量が一杯であれば
保存しない。

【００５０】図１２は、上述したプロセッサの命令供給
装置を備えたプロセッサの構成を示すブロック図であ
る。なお、図９（ｂ）に示す命令保存装置３７は省略し
てある。このプロセッサでは、命令キャッシュ１、分岐
先バッファ５９それぞれから供給される命令列の選択
を、図１の予測分岐装置３５に比べてハードウェア的に
小さい比較器６１により行うようにしたので、プロセッ
サのハードウェア量の低減を図ることができる。それに
より、プロセッサの表面積、生産コストを抑えることが
できる。

【００５１】なお、本発明は上述した第１の実施の形態
及び第２の実施の形態に限定されるものではない。例え
ば、上記分岐先バッファの数は１つであったが、２つ以
上であってもよい。

【００５２】

【発明の効果】以上説明したように、本発明によれば、
分岐命令が存在する場合に分岐元の基本ブロックと分岐
先の基本ブロックとを同時に供給することができるので
命令供給を効率良く行うことができる。それにより、プ
ロセッサの性能を向上させることが可能となる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態に係るプロセッサの
命令供給装置の構成を示す図である。

【図２】第１の実施の形態に係る命令供給装置の動作を
示すフローチャートである。

【図３】図１の命令保存装置３７の動作を説明するため
の図である。

【図４】図１の分岐先バッファ３３のエントリのフォー
マットの一例を示す図である。

【図５】図１の命令保存装置３７の動作を示すフローチ
ャートである。

【図６】第１の実施の形態に係る命令供給装置を備えた
プロセッサの構成を示すブロック図である。

【図７】第１の実施の形態に係る命令供給装置を備えた
プロセッサのシミュレーション結果を示す図である。

【図８】第１の実施の形態に係る命令供給装置を備えた
プロセッサの他のシミュレーション結果を示す図であ
る。

【図９】本発明の第２の実施の形態に係るプロセッサの
命令供給装置の構成を示す図である。

【図１０】第２の実施の形態に係る命令供給装置の動作
を示すフローチャートである。

【図１１】図９の分岐先バッファ５９に命令列を保存す
る動作を示すフローチャートである。

【図１２】第２の実施の形態に係る命令供給装置を備え
たプロセッサの構成を示すブロック図である。

【図１３】従来のＲＩＳＣ型プロセッサの構成を示すブ
ロック図である。

【図１４】Collapsing Buffer を備えたプロセッサの一
構成例を示すブロック図である。

【図１５】図１４のCollapsing Buffer １５の周辺部の
構成を示す図である。

【図１６】図１４の分岐先バッファ１７の構成を示す図
である。

【符号の説明】

１命令キャッシュ３データキャッシュ５メインメモリ７プログラムカウンタ９命令デコーダ１１機能ユニット１３レジスタファイル１５ Collapsing Buffer １７分岐先バッファ１９、２１バンク２３ interchange switch ２５第１の命令バッファ２７第２の命令バッファ２９命令アドレスタグ部３１分岐先アドレス部３３、５９分岐先バッファ（改良分岐先バッファ）３５分岐予測装置３７命令保存装置３９セレクタ４１命令バッファ４３、４５、４７、４９、５１命令列５３タグアドレスフィールド５５命令フィールド５７次アドレスフィールド６１比較器６３データアレイ部６５タグアレイ部

Claims

【特許請求の範囲】

【請求項１】複数個の命令からなる命令列を複数の命
令メモリ部それぞれから読み出し、読み出された複数の命令列のうち１つだけを選択して命
令デコード部に供給し、前記命令デコード部によりデコードされた命令が分岐命
令である場合には、その分岐予測が終了する前に前記複
数の命令列を読み出し、その分岐予測の結果により前記
命令列の選択が決定されることを特徴とするプロセッサ
の命令供給方法。
【請求項２】前記命令列の選択は、前記複数の命令メ
モリ部内に指定された命令が存在しているか否かを示す
信号により決定されることを特徴とする請求項１記載の
プロセッサの命令供給方法。
【請求項３】複数個の命令からなる命令列を命令デコ
ード部に供給するプロセッサの命令供給方法において、複数のブロックに分割された第１の命令メモリ部にアド
レスの連続した複数個の命令を配置し、複数のブロックに分割された第２の命令メモリ部に分岐
命令が含まれたアドレスの不連続な複数個の命令を配置
し、前記第１の命令メモリ部、第２の命令メモリ部それぞれ
から命令列を読み出し、読み出された２つの命令列のうち１つだけを選択し、命
令デコード部に供給することを特徴とするプロセッサの
命令供給方法。
【請求項４】前記命令デコード部によりデコードされ
た命令が分岐命令である場合には、その分岐予測が終了
する前に前記２つの命令列を読み出し、さらに、その分
岐が成立すると予測された場合には、前記第２の命令メ
モリ部から読み出された命令列を選択することを特徴と
する請求項３記載のプロセッサの命令供給方法。
【請求項５】指定された命令が前記第２の命令メモリ
部に存在している場合には、該第２の命令メモリ部から
読み出された命令列を選択することを特徴とする請求項
３記載のプロセッサの命令供給方法。
【請求項６】複数個の命令からなる命令列を命令デコ
ード部に供給するプロセッサの命令供給方法において、複数のブロックに分割された第１の命令メモリ部にアド
レスの連続した複数個の命令を配置し、複数のブロックに分割された第２の命令メモリ部に前記
第１の命令メモリ部から供給される命令列をそのアドレ
スとは無関係な実際に実行される順序に再構成して配置
し、命令列を前記第１の命令メモリ、第２の命令メモリそれ
ぞれから読み出し、読み出された２つの命令列のうち１つだけを選択し、命
令デコード部に供給することを特徴とするプロセッサの
命令供給方法。
【請求項７】実行される命令のアドレスを保持するプ
ログラムカウンタと、複数のブロックに分割され、各ブロックにアドレスの連
続する複数個の命令を格納する第１の命令メモリ部と、複数のブロックに分割され、各ブロックに前記第１の命
令メモリ部から供給されるアドレスの連続する複数個の
命令を実行される順序に再構成して格納する第２の命令
メモリ部と、前記命令メモリ部から読み出された命令をデコードする
命令デコード部と、前記第１の命令メモリ部、第２の命令メモリ部それぞれ
から読み出される複数個の命令列の内一方のみを選択し
て前記命令デコード部に供給する選択部と、前記命令デコード部によりデコードされた分岐命令の分
岐が成立するか否かを予測する分岐予測部とを少なくと
も有し、前記命令デコード部によりデコードされた命令が分岐命
令であり、該分岐が前記分岐予測部により成立すると予
測された場合には、前記選択部は前記第２の命令メモリ
部から読み出された複数個の命令を選択することを特徴
とするプロセッサの命令供給装置。
【請求項８】実行される命令のアドレスを保持するプ
ログラムカウンタと、複数のブロックに分割され、各ブロックにアドレスの連
続する複数個の命令を格納する第１の命令メモリ部と、複数のブロックに分割され、各ブロックには該ブロック
のアドレスを示すタグを保持するタグアレイ部が設けら
れると共に、各ブロックに前記第１の命令メモリ部から
供給されるアドレスの連続する複数個の命令を実行され
る順序に再構成して格納する第２の命令メモリ部と、前記命令メモリ部から読み出された命令をデコードする
命令デコード部と、前記第１の命令メモリ部、第２の命令メモリ部それぞれ
から読み出される複数個の命令列の内一方のみを選択し
て前記命令デコード部に供給する選択部と、前記プログラムカウンタの示すアドレスと前記タグアレ
イ部に保持されるタグとを比較する比較部とを少なくと
も有し、前記プログラムカウンタで指定されたアドレスと前記タ
グアレイ部に保持されたタグとが一致した場合には、前
記選択部は前記第２の命令メモリ部から読み出された複
数個の命令を選択することを特徴とするプロセッサの命
令供給装置。