JPH11242599A

JPH11242599A - コンピュータプログラム製品

Info

Publication number: JPH11242599A
Application number: JP10358196A
Authority: JP
Inventors: Arcy Gerard Paul D; ポールダーキージェラルド; C John Glossner; グロスナーシー．ジョン; Sanjay Jinturkar; ジンターカーサンジャイ; Stamatis Vassiliadis; ヴァッシリアディススタマティス
Original assignee: Lucent Technologies Inc
Current assignee: Nokia of America Corp
Priority date: 1997-12-16
Filing date: 1998-12-16
Publication date: 1999-09-07
Also published as: EP0924603A2; EP0924603A3

Abstract

(57)【要約】【課題】コンパイラがあらかじめ指定した複数の命令
依存性を動的に格納するシステムを実現する。【解決手段】システムは、単一のｄｅｐ命令を用いて
実現される。ｄｅｐ命令は、プロセッサハードウェアに
対して、このｄｅｐ命令に関連する次のｍ個の命令が互
いに並列に実行されるよう命令する。さらに、ｄｅｐ命
令、および、ｄｅｐ命令によって区切られる命令は、プ
ロセッサ５内に実装される多重発行バッファ（ＭＩＢ）
２６に格納される。ＭＩＢ２６は、コンピュータのメイ
ンメモリ２１とは別の、より小さく高速な特別の記憶バ
ッファである。並列に実行される命令が実行されるとき
にプロセッサ５がメインメモリ２１ではなくＭＩＢ２６
からそれらの命令を取得することができるように、ＭＩ
Ｂ２６は、メインメモリ２１とは別に、並列に実行され
る命令を格納することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プログラム中の命
令を実行する際のコンピュータの速度を増大させること
に関する。

【０００２】

【従来の技術】現代のコンピュータシステムでは、コン
パイラが、高水準プログラミング言語で書かれたプログ
ラム（一般にソースコードという。）を、コンピュータ
システムのプロセッサ上で物理的に実行される低水準言
語プログラム（一般に機械（マシン）コードあるいはオ
ブジェクトコードという。）に翻訳する。一部のコンピ
ュータあるいはマシンでは、コンパイラに加えて、人間
のプログラマがオブジェクトコードを生成することを可
能にするためにアセンブラが提供される。他のコンパイ
ラには、アセンブラの機能を実行して、プロセッサに直
接渡すことが可能なオブジェクトコードを生成するもの
もある。プロセッサ（例えば、中央処理装置（ＣＰ
Ｕ））の性能の１つの尺度は、オブジェクトコード中の
１つの命令を実行するのにかかる時間である。一般に、
プロセッサによって単一の命令が実行される時間（命令
実行速度ともいう。）を１マシンサイクルあるいはサイ
クルという。

【０００３】コンピュータの命令実行速度の改善は、回
路レベルあるいは技術の改良、および、命令レベル並列
化（ＩＬＰ(instruction level parallelism)）、キャ
ッシュメモリ、命令のアウトオブオーダー実行およびプ
ロセッサ内の複数の並列実行ユニットの活用のような編
成上の技術によって達成される。ますます広く用いられ
るようになっているのはＩＬＰの活用、すなわち、コン
パイラ（あるいはアセンブラ）から生じる複数のオブジ
ェクトコード命令が発行されて単一のマシンサイクルで
同時にプロセッサによって実行されることを可能にする
ものである。

【０００４】さまざまなレベルの並列化によるいくつか
のこのようなコンピュータ編成（すなわち、ハードウェ
アおよびソフトウェア）が知られている。並列化のレベ
ルは、ＩＬＰの機会を活用するために用いられる編成お
よび方法に関係する。最適化技術に基づいてオブジェク
トコードを最適化することは、ＩＬＰを活用する１つの
手段である。１つの重要な最適化技術は、コードに含ま
れる命令間の依存性（ハードウェアインターロックとも
いう。）を判定することである。命令は、与えられた数
の命令（あるいは命令シーケンス）内で、命令の実行の
順序が結果に影響しないとき、独立である。コードを最
適化するためのさまざまな方法が当業者に知られてい
る。このような最適化技術のさらに詳細な説明は、例え
ば、Aho etal., "Compilers, Principles, Techniques
and Tools", Addison Wesley (1988), Chapter 10、に
記載されている。

【０００５】例えば、スーパースカラアーキテクチャと
呼ばれる編成を有する既知のマシンは、マシンサイクル
あたり４命令を超えるピーク命令実行速度を達成してい
る。しかし、これを達成するために、プロセッサは、オ
ブジェクトコード命令をデコードしてこのコードがプロ
セッサによって実行されるときの複数（ｍ個まで。ただ
しｍは整数）の命令間の依存性を判定する複雑なハード
ウェアを有する。このハードウェアをダイナミック検査
ロジックという。命令依存性が存在するかどうかを判定
するには多数の規則を実装する必要があるため、このよ
うな処理は非常に複雑である。

【０００６】例えば、高々２個のオブジェクトコード命
令を並列に実行するように設計されたスーパースカラマ
シンを考える。また、命令シーケンス中にｍ個の命令が
あると仮定する。ＩＬＰを最大限に活用するためには、
任意の命令の与えられたペアが並列に発行されることが
可能であるか否かを判定するためにｍ²個のオーダーの
規則を命令デコードハードウェア内で実行しなければな
らないことが考えられる。複雑なダイナミック検査ロジ
ックは正しい結果を生成することができるが、プロセッ
サレベルでのこのような処理によりマシンサイクルタイ
ムが延びる。さらに、必要なプロセッサロジックは、オ
ブジェクトコードがメインメモリから取得されるたびご
とに検査演算を実行しなければならない。ループ命令は
一般的なプログラミング技法であるため、スーパースカ
ラアーキテクチャは、ループに関連する命令が実行され
るたびごとに検査演算を実行しなければならない。さら
に、これは、ＩＬＰを活用することによって達成される
性能利得を制限するスーパースカラマシンの限界のうち
の１つに過ぎない。すなわち、与えられたスーパースカ
ラマシンの限界に対して、命令実行速度は、スーパース
カラマシンの使用を保証するほど十分に速くならない可
能性がある。

【０００７】ＩＬＰの系統のもう１つの既知のアプロー
チに、超長形式機械命令（ＶＬＩＷ）アーキテクチャが
ある。ＶＬＩＷマシン内の実行ユニットは、コンパイラ
が、命令をプロセッサの実行ユニットに永続的に（すな
わち静的に）あらかじめ割り当てることを要求する。実
行ユニットは、発行された命令を受け取り、その命令に
よって指定される演算に従ってその命令を実行する、プ
ロセッサ内のハードウェアである。例えば、２個のオペ
ランドを乗算する命令は、乗算実行ユニットに送られる
ことは可能であるが、算術論理ユニット（ＡＬＵ実行ユ
ニットともいう。）に送られることはできない。しか
し、加算命令は、ＡＬＵまたは乗算実行ユニットのいず
れに送られることも可能である。乗算実行ユニットは、
いずれの演算も実行可能である。ＶＬＩＷマシンでは、
コンパイラは、乗算命令を単一の実行ユニット（この例
では、乗算実行ユニット）にあらかじめ割り当てる。こ
のような永続的バインディングの欠点は、命令から実行
ユニットへの完全なマッピングがメインメモリに格納さ
れていなければならず、これにより、ｎｏｐ(No Operat
ion)がメインメモリに格納されることになる。これは、
命令フェッチ帯域幅要求（すなわち、一連の命令を同時
に送るためにメインメモリによって必要とされるハード
ウェア量（例えば、物理ライン））を増大させるととも
に、オブジェクトコード互換性（すなわち、異なる数の
実行ユニットを有する別のプロセッサによってこのオブ
ジェクトコードが実行されるときにＩＬＰ活用利得を維
持する能力）を排除する。例えば、２つの加算命令が乗
算実行ユニットにあらかじめ割り当てられていると仮定
する。実行時に、両方とも乗算実行ユニットによって実
行されなければならないため、プロセッサは、１つのこ
のような命令をＡＬＵに割り当てることができない。そ
の結果、両方の命令は同時に実行することができない。
すなわち、命令を実行ユニットに永続的にバインドする
と、これらを実行時に解決することができるプロセッサ
よりもＩＬＰが低くなる。

【０００８】

【発明が解決しようとする課題】ＩＢＭのＭ．Ｆ．Ａ．
Ｓ．Ｔ．、Texas InstrumentsのＣ６ｘ、ＩＢＭのＳＣ
ＩＳＭプロジェクトおよびIntelのＩＡ−６４アーキテ
クチャのように、ＩＬＰを活用するアプローチが実装さ
れているいくつもの既知のマシン製品あるいはプロジェ
クトがある。しかし、これらのアプローチはいずれも、
エンコードされる依存性の数に関して制限されるか、あ
るいは、多数のダイナミック検査ロジックを要求するた
め、ＩＬＰを活用することによって達成される利得が縮
小する。従って、オブジェクトコードを実行するプロセ
ッサが十分にＩＬＰを活用することができるように命令
の依存性を判定することによってオブジェクトコードを
最適化することが必要とされている。本発明は、そのよ
うな装置および方法に関するものであり、上記の製品あ
るいはプロジェクトのいずれにも含まれていない概念を
含む。

【０００９】

【課題を解決するための手段】本発明は、コンパイラ制
御ダイナミックスケジューリング、すなわち、コンパイ
ラがあらかじめ指定した複数の命令依存性を動的に格納
するシステムおよび方法に関する。これは、単一のｄｅ
ｐ命令を用いて実現される。ｄｅｐ命令は、プロセッサ
ハードウェアに対して、このｄｅｐ命令に関連する次の
ｍ個の命令（ｍは整数）が互いに並列に実行されるよう
命令する。さらに、ｄｅｐ命令、および、ｄｅｐ命令に
よって区切られる命令は、プロセッサ内に実装される多
重発行バッファ（ＭＩＢ(Multiple Issue Buffer)）に
格納される。ＭＩＢは、コンピュータのメインメモリと
は別の、より小さく高速な特別の記憶バッファである。
並列に実行される命令が実行されるときにプロセッサが
メインメモリではなくＭＩＢからそれらの命令を取得す
ることができるように、ＭＩＢは、メインメモリとは別
に、並列に実行される命令を格納することができる。従
って、このような命令の実行は速くなる。さらに、複数
命令処理の場合、ＭＩＢがその目的でアクセスされるた
め、メインメモリは、同時に複数の命令を送ることに対
応したハードウェア（例えば、伝送ライン）を含む必要
がない。また、本発明は、このような本発明の特徴を含
むように修正されたスーパースカラおよびＶＬＩＷアー
キテクチャを含めて、ここで説明する本発明の特徴を含
む任意の編成で実装可能である。

【００１０】本発明の利点は、ハードウェア依存性検査
を軽減するために、ｄｅｐ命令がコンパイラレベルで、
すなわち、プロセッサによる処理の前に、命令間依存性
をエンコードすることである。従って、ｄｅｐ命令によ
ってエンコードされたオブジェクトコードは、コンピュ
ータのメインメモリに存在する。これにより、実行時に
ハードウェアインターロックを判定するためのプロセッ
サ内の複雑なダイナミック検査ロジックが不要となる。
従って、プロセッサ動作は単純化されるため、高い性能
が実現され、低電力で動作可能となる。さらに、最適化
されたコードが永続的であるため、この利点は拡大す
る。すなわち、ｄｅｐ命令および後続の区切られた命令
は、命令シーケンスが実行されるたびごとに再エンコー
ドされる必要はなく、また、この命令シーケンスは、異
なる数の実行ユニットを有する別のプロセッサでも用い
られる。

【００１１】本発明のもう１つの利点は、ｄｅｐ命令
は、それによって区切られる命令を所定の実行ユニット
にあらかじめ割り当てないことである。すなわち、高性
能低電力プロセッサをサポートすることに加えて、ｄｅ
ｐ命令は、実行時に特定の実行ユニットに命令を割り当
てるようにプロセッサを制限しない。このようにして、
コンパイラレベルでＩＬＰを活用する利得は、そのよう
な命令をプロセッサの実行ユニットにプロセッサが自由
に割り当てることを可能にすることによって維持され、
あるいはさらに最適化される。従って、プロセッサによ
る処理の前に、コードは、存在しうる最高度のＩＬＰを
達成するとともに実行ユニットに命令をあらかじめ割り
当てる欠点を回避するように最適化される。

【００１２】本発明のもう１つの利点は、プロセッサが
オブジェクトコードを、コンピュータのメインメモリよ
り小さく高速なＭＩＢにキャッシュあるいは格納するこ
とが可能であることである。このようにして、プロセッ
サがｄｅｐ命令に関連する命令（ｄｅｐ命令パケットと
いう。）を実行するとき、このようなパケットをコンピ
ュータのメインメモリからではなくＭＩＢから取得する
ことができる。この編成は、直ちにプロセッサに使用可
能な永続的な最適化された前処理を与える。さらに、本
発明に従って実装されるＭＩＢのアーキテクチャによれ
ば、十分なプロセッサ実行ユニットが空いている場合に
は、区切られたバッファ境界内の命令パケットの命令が
同時に発行されることが可能である。例えば、ｄｅｐ命
令に関連する５個の命令を含むパケットに対して、プロ
セッサは、このような命令パケットを処理するために５
個の実行ユニットを有することが可能である。さらに、
ｄｅｐ命令はまた、ｄｅｐ命令パケットに関する追加情
報あるいはタグを、ＭＩＢを通じてプロセッサに提供す
るために含むことも可能である。このような追加情報
は、プロセッサレベルで実装される追加の最適化ロジッ
クのためにプロセッサにおいて使用されることが可能で
ある。

【００１３】本発明のもう１つの利点は、同じ編成、あ
るいは、プロセッサの実行ユニットの数のみが異なり１
個以上の共通の実行ユニットを有する複数の実装におけ
るオブジェクトコード互換性である。例えば、２つの編
成がそれぞれ乗算、ＡＬＵ、ロードおよびストア実行ユ
ニットを備え、第２の編成がさらにもう１つの乗算実行
ユニットを備える。本発明のｄｅｐ命令が第１の編成に
対して設計されている場合、これは第２の編成によって
実行されることも可能であり、またその逆も成り立つ。
第１の編成は、４個の実行ユニットを有するため、４個
の命令を並列に発行することができる。第２の編成は、
５個の命令を並列に発行することができる。このように
第１および第２のいずれの編成でも実行が達成されるの
は、４個の命令を含むｄｅｐ命令パケットがいずれの編
成でも実行可能であるためである。５個の命令を含むｄ
ｅｐ命令パケットに関しては、第２の編成では並列に実
行可能であるが、第１の編成では、４個の命令を並列に
実行した後、単一の命令が続いて実行される。

【００１４】このように、本発明は、オブジェクトコー
ド実行のためにプロセッサによってｄｅｐ命令を実装す
る際に高度な自由度および広い用途を提供する。このよ
うな特徴は、追加のダイナミック検査ロジックがプロセ
ッサによって処理される必要がないため、命令実行速度
増大が実行時に維持されるように、ＩＬＰの最大限の活
用を提供する。

【００１５】

【発明の実施の形態】図１は、本発明の実施例によるコ
ンピュータシステムあるいはマシン１の高水準概略ブロ
ック図である。図中、プログラム２はソースコードをコ
ンパイラ／プリプロセッサ３に入力として提供する。コ
ンパイラ／プリプロセッサ３は、図１の実施例における
コンパイラ機能および前処理機能の両方を実行する。し
かし、理解されるように、コンパイラおよびプリプロセ
ッサの機能は別個のデバイスによって実装されることも
可能である。さらに、アセンブラ機能が、コンパイラに
よって実行されることも、あるいは、別個にアセンブラ
（図示せず）によって実行されることも可能である。

【００１６】コンパイラ／プリプロセッサ３は、命令レ
ベル並列化（ＩＬＰ）を実装するために、ソースコード
（コードを、命令セットアーキテクチャ（ＩＳＡ(instr
uction set architecture)）内の命令ともいう。）を調
べ、ｄｅｐ命令（図２）によって区切られることが可能
な命令依存性を識別する。コンパイラ／プリプロセッサ
３は、この目的のために、最適化規則４のセットを使用
する。コンパイラ／プリプロセッサ３は、ＩＬＰを活用
するために、ｄｅｐ命令を含めることによって最適化さ
れたオブジェクトコードを生成する。このようなｄｅｐ
命令は、それによって区切られる命令のパケットの最初
の命令として追加される。ｄｅｐ命令およびそれによっ
て区切られる命令を含む命令シーケンスをここではｄｅ
ｐ命令パケットという（その例は図２にｄｅｐ命令パケ
ット１１として示されている）。

【００１７】ｄｅｐ命令を識別し実装する動作以外は、
コンパイラ／プリプロセッサ３の動作に用いられる演算
および信号は標準的である。従って、コンパイラ／プリ
プロセッサ３についてはこれ以上説明しない。コンパイ
ラ／プリプロセッサ３についてさらに詳細な説明は、Ah
o et al.の前掲書に記載されている。

【００１８】さらに、本発明のよる代替実施例では、コ
ンパイラ３あるいはプリプロセッサ３以外のデバイスが
ｄｅｐ命令を実装することも可能である。例えば、ｄｅ
ｐ命令を実装するファシリティは、コンパイラとは別個
に実装されたソフトウェアファシリティ（例えば、ポス
トコンパイラ）であることも可能である。あるいは、マ
シン１内に設計された記憶領域（例えば、キャッシュ
（すなわち、マシン１の主記憶より小さく高速な特別の
記憶バッファ。キャッシュの例はＭＩＢである。））
と、このような設計された記憶領域の別のサブシステム
との間に位置するハードウェアプリプロセッサの形式の
ハードウェアファシリティであることも可能である。

【００１９】コンパイラ／プリプロセッサ３の出力は、
ｄｅｐ命令を含むようにコンパイルされ最適化されたオ
ブジェクトコードである。このオブジェクトコードは次
に、本発明に従って構成されたプロセッサ５（例えば、
中央処理装置（ＣＰＵ）。詳細は後述）に入力される。
プロセッサ５ハードウェアはその後、一部はｄｅｐ命令
に基づいて、実行のために命令をフェッチし発行する。

【００２０】本発明の重要な利点は、コンパイラ／プリ
プロセッサ３による処理中のｄｅｐ命令の静的すなわち
永続的実装である。すなわち、実行時にハードウェアイ
ンターロックを判定するためにプロセッサ内に複雑なダ
イナミック検査ロジックは不要である。これにより、単
純化された、従って高性能の処理が得られるとともに、
プロセッサによって要求される電力は低減される。さら
に、ループプログラミング技法に関連する命令がプロセ
ッサによって実行されるたびごとに、命令がｄｅｐ命令
内にエンコードされた情報を既に含むように、最適化さ
れたコードは永続的であるため、この利点は拡大する。
すなわち、ｄｅｐ命令エンコーディングは、命令がプロ
セッサによって再実行されるときに再フェッチされる必
要がない。

【００２１】図２に、数行のアセンブリコードを示す。
アセンブリコードを示したのは、オブジェクトコード
は、低水準言語として、０と１の列として現れるが、ア
センブリコードは、高水準言語として、コードの機能を
説明することを容易にする理解可能な記法および用語を
提供するためである。図示したアセンブリコードのｄｅ
ｐ命令は、プロセッサ５による実行のためにオブジェク
トコードに翻訳される。

【００２２】図２のアセンブリコードは、第１行の、ｌ
ａｂｅｌによって記号的に示される命令アドレス位置の
例示的なｄｅｐ命令と、第２〜６行の、このようなｄｅ
ｐ命令によって区切られる命令（ここではｄｅｐ命令パ
ケット１１という。）とを含む。第７行は、第６行と第
８行の間に含まれる可能性のある任意個の命令を表す。
第８行は、分岐命令を含む。これは、プロセッサ５に対
して、ｌａｂｅｌにによって記号的に示される命令アド
レス位置（すなわち第１行）の命令を実行するよう指示
する。第８行の分岐命令は、コードにおいて前に定義さ
れた命令アドレスへ戻るため、ループ命令ともいう。さ
らに、第６行と第８行の間に命令がない場合、分岐は再
帰ループを生成する。図示したアセンブリコードは全体
として特定の機能を有しない。むしろ、これは、一連の
レジスタファイル２２〜２５（図３）からロードされる
値に対して実行され、結果がレジスタファイル２２〜２
５に格納される、いくつかの演算（例えば加算や乗算）
の代表である。

【００２３】第１行に示されるｄｅｐ命令は、命令のシ
ーケンスがどのように相互作用するかに関する情報を含
む。１つの相互作用の形式は、ｄｅｐ命令パケット１１
に示される命令が並列に実行されるものである。第１行
で、ｌａｂｅｌは、ｄｅｐ命令がある命令アドレスを指
す記号名である。用語「ｄｅｐ」は、これがｄｅｐ命令
であることを示す。括弧内の情報、すなわち「ｉｎｄｅ
ｐ」は、ｄｅｐ命令の型（タイプ）を指定する（別の型
のｄｅｐ命令については後述）。この例では、型は独立
型である。独立型ｄｅｐ命令は、本発明の主要な型のｄ
ｅｐ命令である。これは、プロセッサ５のハードウェア
に対して、次のｍ個の命令が並列に実行可能であること
を示す。図２では（＃４で示されるように）ｍの値は４
であるため、次の４個の命令がｄｅｐ命令によって区切
られる。第２〜８行の、ｄｅｐ命令に続く命令は、命令
型、すなわち、ロード（ｌｏａｄ）、加算（ａｄｄ）、
乗算（ｍｐｙ）およびストア（ｓｔｏｒｅ）命令を含
む。命令型の名前はそれらの命令の機能も示す。例え
ば、加算命令型は、算術加算を実行する。命令の右側の
参照（例えば、第２行のロード命令の後にある「ｒ０，
ｂａｓｅ０，ｏｆｆｓｅｔ０」は、図３のレジスタファ
イル２２〜２５に含まれるプロセッサ５メインメモリ内
のアドレスへのポインタである。このようなアドレス
は、命令が作用するデータを含む。「ｒ０」は、ｂａｓ
ｅ０＋ｏｆｆｓｅｔ０によって計算されるアドレスから
メインメモリ内のデータがロードされる場所を示す。

【００２４】本発明によるｄｅｐ命令の実装は、最適化
コンパイラ／プリプロセッサ３（図１）あるいはプログ
ラマが、プログラム２（図１）の命令シーケンス内のＩ
ＬＰ機会を識別することを要求する。ＩＬＰを発見する
いくつかの技術が当業者に周知である。これには、例え
ば、トレーススケジューリング、パーコレーションスケ
ジューリングおよびソフトウェアパイプライニングがあ
り、このような最適化技術についてさらに詳細には論文・C. Foster et al., "Percolation of code to enhanc
e parallel dispatching and execution", IEEE Transa
ctions on Computers, C-21:1411-1415 (Dec.1972) ・M. Lam, "Software Pipelining: An effective sched
uling technique forVLIW machines", Proceedings of
the SIGPLAN'88 Conference on ProgrammingLanguage D
esign and Implementation, pp.318-328 (1988) ・B. R. Rau et al., "Efficient code generation for
horizontal architectures: Compiler techniques and
architectural support", Proceedings 9th Annual Sy
mposium on Computer Architecture, pp.131-139 (Apri
l 1982) ・J. A. Fisher, "Trace Scheduling: A technique for
global microcode compaction", IEEE Transactions o
n Computers, vol.C-30, No.7 (July 1981), pp.478-49
0 に記載されている。

【００２５】例えば、例示的なプログラミングコードの
以下のようなバージョンを考える。各バージョンは同じ
演算、すなわち、０〜Ｎ−１（変数ｉで表す。）の一連
の値を乗算し、このような一連の乗算の結果を加算する
という演算を提供する。この機能は、高水準言語である
プログラミング言語Ｃで書かれた第１のバージョンに示
されている。次に、この高水準言語コードは、２つのバ
ージョンのアセンブリコード、すなわち、低水準言語に
翻訳される。第１のアセンブリコードバージョンは、ｄ
ｅｐ命令を実装せずにＣプログラミングコードを翻訳
し、第２のアセンブリコードは、ｄｅｐ命令を実装する
ことを含めてＣプログラミングコードを翻訳する。これ
らのバージョンは、ｄｅｐ命令がどのようにしてプロセ
ッサ５の速度を改善するかの比較を提供する。

【００２６】Ｃ言語コードを以下に示す（以下これをＣ
コード例という。示されている行は、プログラム２内の
さらに大きいループ内に含まれることが可能であり、ま
た、単純な内側ループを含むことが可能である。）１ｆｏｒ（ｉ＝０；ｉ＜Ｎ；ｉ＋＋）２ｒｅｓｕｌｔ＋＝ｃｏｅｆ［ｉ］＊ｄａｔａ
［ｉ］；

【００２７】第１のアセンブリバージョンは、Ｃコード
例からそのアセンブリコード等価物への翻訳であって、
コンパイラ／プリプロセッサ３がｄｅｐ命令に基づいて
コードを最適化しないものである。これは、Ｃコード例
と同じ機能を含む。以下を、非ｄｅｐコード例という。１ｍｏｖｅ＿ｉｍｍｅｄｉａｔｅｒ０，Ｎ；２ｍｏｖｅ＿ｉｍｍｅｄｉａｔｅｒ３１，＃０；／／結果３ｌｏａｄ＿ａｄｄｒｐ１，ｐｔｒ＿ｃｏｅｆ；４ｌｏａｄ＿ａｄｄｒｐ２，ｐｔｒ＿ｄａｔａ；５ｌｏｏｐ：ｌｏａｄｒ３，ｐ１＋＋；６ｌｏａｄｒ４，ｐ２＋＋；７ｍｐｙｒ５，ｒ３，ｒ４；８ａｄｄｒ３１，ｒ３１，ｒ５；９ｓｕｂｒ０，ｒ０，＃１；／／ｒ０−− １０ｂｎｅｒ０，ｌｏｏｐ；この非ｄｅｐコード例は、上記のＣコード例と同じ機能
を有する。しかし、演算は、レジスタファイル２２〜２
５からのデータに対する乗算および減算のような、Ｃコ
ード例を実行するのに必要なアセンブリコードにおいて
実装された低水準処理に関するものである。さらに、移
動（ｍｏｖｅ）、ロードおよびストア演算が示されてい
る。最後に、非ｄｅｐコード例の第１０行には、用語
「ｂｎｅ」が示されている。この用語は、等しくない場
合（すなわち、ｒ０に含まれる値が０に等しくない場
合）に分岐することを指す条件を意味する。この条件が
満たされると、この命令は、プロセッサに対して、ｂｎ
ｅの次に示される用語「ｌｏｏｐ」で記号的に表される
命令アドレス位置へ進み、そのアドレスの命令を実行す
るよう指示する。

【００２８】第２のアセンブリ言語バージョンは、Ｃコ
ード例からそのアセンブリコード等価物への翻訳であっ
て、コンパイラ／プリプロセッサ３がｄｅｐ命令に基づ
いてコードを最適化したものである。これは、Ｃコード
例および非ｄｅｐコード例と同じ機能を含む。以下を、
ｄｅｐコード例という。１ｄｅｐ（ｉｎｄｅｐ）＃４｛２ｍｏｖｅ＿ｉｍｍｅｄｉａｔｅｒ０，Ｎ；３ｍｏｖｅ＿ｉｍｍｅｄｉａｔｅｒ３１，＃０；４ｌｏａｄ＿ａｄｄｒｐ１，ｐｔｒ＿ｃｏｅｆ；５ｌｏａｄ＿ａｄｄｒｐ２，ｐｔｒ＿ｄａｔａ；６｝７ｌｏｏｐ：８ｄｅｐ（ｉｎｄｅｐ）＃３｛９ｌｏａｄｒ３，ｐ１＋＋；１０ｌｏａｄｒ４，ｐ２＋＋；１１ｓｕｂｒ０，ｒ０，＃１；１２｝１３ｍｐｙｒ５，ｒ３，ｒ４；１４ｄｅｐ（ｂｉｎｄ＿ｂｒａｎｃｈ）｛１５ａｄｄｒ３１，ｒ３１，ｒ５；１６ｂｎｅｒ０，ｌｏｏｐ；１７｝ｂｉｎｄ＿ｂｒａｎｃｈは、プロセッサ５ハードウェア
に対して、ｄｅｐ命令内のすべての命令を、分岐が行わ
れる前に実行しなければならないことを指示する（詳細
は後述）。また、ｂｎｅは、等しくない場合の分岐を意
味し、ループを実装するために用いられる。

【００２９】ｄｅｐコード例と非ｄｅｐコード例の違い
は、ｄｅｐコード例は非ｄｅｐコード例よりも最適化技
術を実装している点である。その結果、多くのループ回
数の場合、ｄｅｐコード例は、非ｄｅｐコード例よりも
少ないマシンサイクルで実行可能である。

【００３０】具体的には、ｄｅｐコード例の処理を非ｄ
ｅｐコード例と比較すると、プログラミングコードを最
適化するためのこのようなｄｅｐ命令の利点が示され
る。ｄｅｐコード例では、１命令が１サイクルごとに実
行される場合、そのコードシーケンスが最初に実行され
るとき、非ｄｅｐコード例にくらべて３個の追加サイク
ルが要求される。これは、３個のｄｅｐ命令がアセンブ
リコードに追加されているためである。ｄｅｐ命令は命
令の実行を並列に開始することができるが、このような
ｄｅｐ命令自体は並列には実行されない。しかし、第８
〜１２行が最初に実行されると、それらの命令は、高速
並列取得のための記憶装置（例えば、多重発行バッファ
（ＭＩＢ）２６（図３））に格納されることが可能であ
る。このようにして、内側ループ（ｄｅｐコード例の第
８〜１２行）の後続の繰り返しでは、ループは３サイク
ルで実行されるのに対して、非ｄｅｐコード例の第５〜
１０行は６サイクルで実行される。従って、ｄｅｐコー
ド例の第８〜１２行のループが２回実行されると、ｄｅ
ｐコード例対非ｄｅｐコード例のマシンサイクル数に関
する損益分岐点に到達する。さらに、ｄｅｐコード例の
第８〜１２行の後続の再実行中（すなわち、ループはプ
ログラム中で複数回呼び出されることが可能である。）
には、マシンサイクルがさらに節約される。

【００３１】図３は、本発明の実施例によるプロセッサ
５のブロック図である。プロセッサは、設計された記憶
領域２１〜２６、実行ユニット２７〜３６、フェッチ３
７、デコーダ３８、発行コントローラ（ＩｓｓｕｅＣ
ｔｌ）３９および並列デコーダ４０を有する。設計され
た記憶領域２１〜２６は、メインメモリ２１ならびに一
連のレジスタファイル２２〜２５およびＭＩＢ２６であ
る。レジスタファイルは、これらのファイルとの間でデ
ータの入出力に共通の伝送ラインを使用するためにまと
められた別々のレジスタデバイスである。レジスタファ
イル２２〜２５は、レジスタファイルオフセット２２、
レジスタファイルベース２３、レジスタファイルｒ２４
およびレジスタファイルｆ２５である。実行ユニット２
７〜３６は、分岐ユニット２７、分岐ユニット２８、ロ
ードＡＬＵ２９、ストアＡＬＵ３０、データサービスユ
ニット（ＤＳＵ(data service unit)）３１、乗算（Ｍ
ＰＹ）３２、ＡＬＵ３３およびＡＬＵ３４である。

【００３２】メインメモリ２１は、ｄｅｐ命令パケット
１１を含むオブジェクトコードの命令を格納する。ある
いは、オブジェクトコードは、例えばキャッシュあるい
はディスクのような別個のメモリ記憶領域に格納される
ことも可能である。レジスタファイル２２〜２５は、特
定の実行ユニット２７〜３６のためのデータを有する記
憶デバイスである。実施例では、レジスタファイル２２
は分岐ユニット２７および２８、ロードＡＬＵ２９、ス
トアＡＬＵ３０ならびにＤＳＵ３１に対応する。レジス
タファイルｒ２４はＤＳＵ３１、ＭＰＹ３２、ＡＬＵ３
３およびＡＬＵ３４に対応する。レジスタファイルｆ２
５はＦｐ（浮動小数点演算）ユニット３５およびＦｐユ
ニット３６に対応する。

【００３３】実行ユニット２７〜３６は、特定のタイプ
の数学演算を実装する論理デバイスであり、これらの特
定演算専用である。プロセッサ５は、各命令を処理する
とき、その命令によって指示される演算を判定するとと
もに、その演算に基づいて、実行ユニット２７〜３６の
内のいずれがその命令を実行することができるかを判定
する。分岐ユニット２７および２８は、他の命令アドレ
スへ分岐することが可能なアセンブリプログラム命令を
実行する。ロードＡＬＵ２９は、算術演算に用いられる
値をレジスタファイルｒ２４またはレジスタファイルｆ
２５にロードし、ストアＡＬＵ３０は、レジスタファイ
ル内容をメインメモリに格納する。ＤＳＵ３１は、シフ
ト、ビット操作およびデータ置換を実行する。ＭＰＹユ
ニット３２は、乗算を実行するが、算術および論理演算
を実行することも可能である。ＡＬＵユニット３３およ
び３４は算術演算を実行する。Ｆｐユニット３５および
３６は、浮動小数点演算を実行する。実行ユニット２７
〜３６は、さらに、これらのユニット２７〜３６の演算
に用いられるレジスタファイル２２〜２５と通信する。
実行ユニット２７〜３６のこのような演算のための動作
および信号は標準的であり、J. L. Hennessy, D. Goldb
erg and D. Patterson, "Computer Architecture: A Qu
antitative Approach", Morgan Kan (2d. Ed. Aug. 199
5)、に記載されている。実行ユニットおよびレジスタフ
ァイルについてさらに詳細にはこの文献に記載されてい
る。

【００３４】図２のｄｅｐ命令パケット１１を用いた本
発明によるプロセッサ５の一般的動作は以下の通りであ
る。フェッチ３７は、命令フェッチユニット３７Ａに含
まれる命令アドレスレジスタ（ＩＡＲ(Instruction Add
ress Register)）（図示せず）によって指される命令ア
ドレスに基づいてメインメモリ２１から命令をフェッチ
する。（ＩＡＲおよび命令フェッチユニット３７Ａはフ
ェッチ３７内に含まれる。命令フェッチユニット３７Ａ
は図４に示す。）その後、命令はデコーダ３８へ送られ
る。実施例では、デコーダ３８はシリアルデコードユニ
ットであり、命令に基づいて実行される動作の型（タイ
プ）を判定するために用いられる。次に、命令は発行コ
ントローラ３９へ送られる。発行コントローラ３９は、
ＭＩＢ２６内のＩＡＲをフェッチ３７内のＩＡＲと比較
する。一致しなかった場合、発行コントローラ３９は、
フェッチ３７内のＩＡＲを、実行を続行する命令アドレ
スで更新し、フェッチ３７に対して、メインメモリ２１
からアドレスをフェッチするよう指示する。一致した場
合、命令はｄｅｐ命令であり、ＩＡＲは、実行ユニット
２７〜３６による並列実行のための命令を発行する並列
デコーダ４０へ送るために、命令間依存性とともにＭＩ
Ｂ２６にキャッシュされる。発行コントローラ３９はま
た、ｄｅｐ命令パケット１１内の命令を含むプログラム
命令を、実行ユニット２７〜３６にマッピングすること
も可能である。発行コントローラ３９は、このマッピン
グ機能を実行することによって、プログラム命令をさら
に最適化する。さらに、本発明の代替実施例では、別の
論理デバイス（例えば、並列デコーダ４０のみで、また
は、発行コントローラ３９と組み合わせて（いずれもプ
ロセッサ５に含まれる。））がこのマッピング機能を実
行することも可能である。さらに別の代替実施例では、
プロセッサ５の外部にある１個または複数のロジックが
マッピング機能を実行することが可能である。

【００３５】図３はまた、メインメモリ２１とフェッチ
３７の間の制御およびデータ信号も示している。さら
に、実行コントロール（図３ではＥｘｅｃＣｔｌｓと
して示す。）は、並列デコーダ４０からの出力であり、
実行ユニット２７〜３６を制御するために用いられる。
（簡単のため、ユニット２７〜３６への実行コントロー
ルの入力は図示しない。）

【００３６】ＭＩＢ２６について図４を参照してさらに
詳細に説明する。図４に、ＭＩＢ２６、命令フェッチユ
ニット３７Ａ、メインメモリ２１、発行コントローラ３
９、並列デコーダ４０および一連のデコードユニット４
１から５０を示す。（簡単のため、ユニット４１、４２
および５０のみを示す。）各デコードユニット４１〜５
０は、実行ユニット２７〜３６のうちの１つに対応す
る。これらのユニット４１から５０は、実行ユニット２
７〜３６による実行のために命令を送る前にそれらの命
令をさらに処理する。この追加処理は当業者に周知であ
るため、ここではこれ以上説明しない。

【００３７】実施例のＭＩＢ２６は、一連の記憶領域
（ここではレコードという。）を有する。（簡単のた
め、３個のレコードを図４に示す。）ＭＩＢ２６内の各
レコードは、ＩＡＲフィールド２６Ａ、ＤＥＰフィール
ド２６Ｂ、Ｎｕｍフィールド２６Ｃ、および命令フィー
ルド２６Ｄ（Instr０〜Instrｎとして示す。ただし、ｎ
は、ＭＩＢ２６の与えられたレコード内の命令の数であ
る。）を含むことが可能である。さらに、ｎは、本発明
により構成されるプロセッサ５内の実行ユニット２７〜
３６の数に等しい。命令フィールド２６Ｄの数が実行ユ
ニット２７〜３６の数に等しいが、ｄｅｐ命令パケット
１１の並列実行中に、区切られた命令の数はｎより少な
い場合は、各実行ユニット２７〜３６がいずれも並列実
行に必要とされるわけではなく、使用されない実行ユニ
ット２７〜３６はｎｏｐを受け取る。ｎｏｐすなわちno
operation命令は、このような命令フィールド２６Ｄに
対応する実行ユニット２７〜３６に対して、命令を何も
実行しないことを指示する命令である。そのような、ｄ
ｅｐ命令パケット１１からの命令を含まない命令フィー
ルド２６Ｄに対して、デコーダ３８はそのようなフィー
ルド２６Ｄにｎｏｐを書き込む。

【００３８】本発明のもう１つの重要な利点は、ｎｏｐ
は、メインメモリ２１においてではなくＭＩＢ２６の命
令フィールド２６Ｄにおいて実装されることである。こ
れにより、メインメモリ２１に格納される命令を圧縮す
ることが可能となる。さらに、メインメモリ２１内の命
令シーケンスをプロセッサ５に送るために要求されるメ
インメモリ２１の伝送ラインの数は、ｎｏｐがメインメ
モリ２１に格納されない場合、削減される。最後に、本
発明のこの特徴により、プロセッサ５は、命令とｎｏｐ
の所定のバインディングに基づいてではなく、実行ユニ
ット２７〜３６の最適使用に従って、ＭＩＢ２６内のｄ
ｅｐ命令パケット１１に対応して命令を割り当てること
が可能となる。プロセッサ５がｄｅｐ命令パケット１１
をＭＩＢ２６に割り当てた後、命令が書き込まれていな
い命令フィールド２６Ｄはｎｏｐを含むことあるいはｎ
ｏｐが書き込まれることが可能である。従って、メイン
メモリ２１記憶領域およびハードウェアは縮小し、プロ
セッサ５は、実行ユニット２７〜３６を自由に割り当て
ることによりＩＬＰを活用することによって達成される
利得を維持し、あるいはさらに最適化することができ
る。

【００３９】図２のｄｅｐ命令パケット１１を用いた本
発明によるＭＩＢ２６の一般的動作は以下の通りであ
る。ｄｅｐ命令の実行により、（命令アドレスラベルに
おける）ＩＡＲの内容がＭＩＢ２６に書き込まれる。次
の４個の命令がフェッチされると、プロセッサ５は、
（ｉｎｄｅｐ）型ｄｅｐ命令を順次実行し、一方、その
命令を同時にＭＩＢ２６に書き込むことが可能である。
代替例では、プロセッサは、ｄｅｐ命令によって区切ら
れるすべての命令をフェッチしてからそれらを並列に発
行する。分岐ラベル命令が実行されると、ＩＡＲがＭＩ
Ｂ２６のＩＡＲフィールド２６Ａに入り、４個のすべて
の命令が並列に発行される。

【００４０】プログラムが実行されるとき、命令は、Ｍ
ＩＢ２６に書き込まれるのと全く同様にトレースキャッ
シュに書き込まれる（Rotenberg et al., "Trace Cach
e: aLow Latency Approach to High Bandwidth Instruc
tion Fetching", Proceedings of the 29th Annual Int
ernational Symposium on Microarchitecture, pp.24-2
4 (Dec. 1996)、参照）。後に、オブジェクトコード
が、ＭＩＢ２６内にある命令アドレスに分岐すると、マ
シンは、格納されている依存性情報の制約に従って、す
べての命令を並列に発行することができる。ＭＩＢ２６
がｄｅｐ命令パケット１１内のすべての命令を物理的に
格納することができない（すなわち、ＭＩＢ２６内のレ
コード数が一杯であり追加レコードが書き込めない場
合、あるいは、ｎの値が４より小さい（例えば、命令フ
ィールドが２個である）場合）ような本発明の代替実施
例では、プロセッサ５は、ｄｅｐ命令パケット１１の命
令のうちの２個を並列に発行した後、残りの２個の命令
を続いて発行することができる。このような実施例で
は、Ｎｕｍフィールド２６Ｃは、ｄｅｐ命令パケット１
１のもとの命令シーケンスが保存されるように、フェッ
チ３７内のＩＡＲをインクリメントする方法を指定す
る。

【００４１】図５に、キャッシュあるいはＭＩＢ２６の
編成が、必ずしも図４の実施例のように固定長バッファ
である必要はないことを示す。図５は、命令フィールド
２６Ｄ′にｎｏｐが格納されていないような代替実施例
によるＭＩＢ２６′の実装を示す。ＭＩＢ２６′以外
は、図５の装置は図４の装置と同一であり、同一の参照
符号を付してある。ＭＩＢ２６′について、相違点は、
命令フィールド２６Ｄ′（すなわち、instr０〜instr
ｎ）は、ＭＩＢ２６′とは別個の記憶装置に配置され
る。別個の記憶領域の使用に基づいて、ＭＩＢ２６′を
一般に２レベルバッファと呼び、追加情報の記憶領域を
必要とする。特に、アドレスフィールド２６Ｅ′（図中
Ａｄｄｒで示す。）は、ｄｅｐ命令パケット１１内の最
初の区切られた命令のメモリアドレスを格納する。これ
は、ＭＩＢ２６における余分なｎｏｐ記憶スペースを不
要にするという効果がある。この場合、Ｎｕｍフィール
ド２６Ｃは、命令フィールド２６Ｄ′からいくつの命令
を読み出すべきか、さらに、ＩＡＲフィールド２６Ａを
どのようにインクリメントするかを指定する。

【００４２】本発明のＭＩＢ２６′実施例については、
メモリのデフラグメンテーションが要求される可能性が
ある。各アドレスフィールド２６Ｅ′に格納される命令
の数は可変であるため、メモリは断片化（フラグメンテ
ーション）を起こす可能性がある。これにより、キャッ
シュからの不必要な追い出しを引き起こすことや、とき
どきの圧縮を必要とすることがある。デフラグメンテー
ションは、設計記憶スペースの制約に関連し、当業者に
周知であるため、ここではこれ以上説明しない。

【００４３】また、ＭＩＢ２６′の命令フィールド２６
Ｄ′が、プロセッサ５のハードウェア（図３）によって
物理的に実行されることが可能なものより多くの命令を
格納することも可能である。この場合、発行コントロー
ラ３９′のロジックが、オブジェクトコード命令を実行
可能パケットへとアセンブルし、実行ユニット２７〜３
６（図３）を割り当て数サイクルにわたって命令を転送
する。

【００４４】図４および図５にそれぞれ示されるＭＩＢ
２６またはＭＩＢ２６′に対して、これらはキャッシュ
として作用するため、与えられた時刻に格納されること
が可能な命令の数には制限がある。従って、他の命令の
記憶を可能にするためにＭＩＢから系統的に命令を消去
するためのいくつかの既知の方法がある。しかし、実時
間動作を保証するためのいくつかの追加動作を導入する
ことが可能である。（命令を消去するためには、ＭＩＢ
２６およびＭＩＢ２６′はいずれも同様に使用可能であ
る。）特に、ｄｅｐ命令によって区切られる特定の命令
はＭＩＢ２６あるいは２６′内に「ロック」されること
が可能である。これにより、制限された個数のエントリ
を有する実装に対するスラッシング（当業者に周知であ
り、ここではさらに詳細には説明しない。）状態の可能
性が回避される。また、これにより、命令実行速度が正
確に決定されることも可能となる。ロックＭＩＢ動作は
いくつかの方法で指定することが可能である。第１に、
別個のunlock_mib命令が実行されるまで、別個の命令が
ＭＩＢ全体の内容をそのままにロックすることが可能で
ある。プログラム制御下で、これは、現在の内容は追い
出すことができないが、別のロケーションを解放してｄ
ｅｐ命令をＭＩＢにキャッシュすることができることを
指定することも可能である。第２に、ｄｅｐ命令内の１
ビット（あるいは２進数の０または１）が、ＭＩＢの個
々のレコードをロックすることも可能である。ＭＩＢが
ない場合、このビットは無視される。さらに、ＭＩＢが
一杯であってすべてのレコードが現在ロックされている
場合、このビットは無視される。これは性能に悪影響を
及ぼす可能性がある。また、以下の命令シーケンスによ
って、ＭＩＢの特定のレコードを案ロックすることも可
能である。１ ... ２ｌａｂｅｌ：ｄｅｐ... ３ ... ４ｌｏａｄ＿ａｄｄｒｒ３０，ｌａｂｅｌ；５ｕｎｌｏｃｋ＿ｍｉｂｒ３０；６ ... この命令シーケンスは、第４行で、レジスタファイルr
２４のロケーション３０に命令アドレスラベルをロード
する。ＭＩＢ２６はＩＡＲによってｄｅｐ命令パケット
を格納するため、命令は、ＭＩＢ２６のＩＡＲフィール
ド２６Ａに格納されているＩＡＲを参照することによっ
てアンロックされることが可能である。

【００４５】単一レベルＭＩＢ（すなわちＭＩＢ２６）
での使用に対するもう１つの重要な作用はｆｌｕｓｈ＿
ｍｉｂである。この命令は、ＭＩＢ２６の内容を消去
し、命令フィールド２６Ｄのロケーションのすべての命
令をｎｏｐにセットする。このようにして、各命令フィ
ールド２６Ｄにｎｏｐが存在するため、ｄｅｐ命令パケ
ットがｎ個より少ない命令を含むときに再びｎｏｐを書
き込む必要がない。

【００４６】再び図３を参照すると、代替実施例では、
本発明によるｄｅｐ命令は、ＭＩＢ２６（あるいはいか
なるタイプのキャッシュ）が存在しない場合でも使用可
能である。この場合、要求されるのは命令帯域幅だけで
ある。これは、並列に発行される命令を格納することが
可能なプロセッサ５のデバイス内の記憶領域である。フ
ェッチ３７がｄｅｐ命令によって区切られる命令を保持
することができる場合、命令帯域幅はさらに小さくな
る。この場合、ＭＩＢ２６あるいは任意のタイプのキャ
ッシュに対して作用するすべての命令（例えば、ｌｏｃ
ｋ＿ｍｉｂおよびｆｌｕｓｈ＿ｍｉｂ）は無視される。

【００４７】再び図２を参照すると、さらに別の実施例
では、別の型のｄｅｐ命令を、単独で、または、独立型
のｄｅｐ命令に加えて、使用可能である。このような追
加の型の１つが並行型である。この型は、プロセッサ５
（図３）に対して、区切られた命令は並行して発行され
るように見えるべきことを示す。これは、このような命
令を実装するために用いられるレジスタファイル２２〜
２５から読み出される命令に影響を与える。（シリアル
な命令シーケンスに見られるように）更新された値を受
け取るのではなく、関連するレジスタファイル２２〜２
５は、関連するレジスタファイル２２〜２５に含まれる
値をｄｅｐ命令の前に受け取る。このため、複数の命令
のそれぞれがレジスタファイル２２〜２５内の重なり合
うアドレスに作用し、いずれかの命令が実行される前に
このようなアドレスの値を要求する場合、並行型のｄｅ
ｐが用いられる。これの例がスワップである。通常、ス
ワップ演算を実行するには一時レジスタを用いなければ
ならない。例えば、レジスタファイルｒ２４内のｒ０と
ｒ１をスワップする場合、一時レジスタｒ３を確保して
ｒ０またはｒ１のいずれか一方の値を格納し、上書きさ
れた値ではなく命令実行前の値がスワップされるように
する。ｄｅｐ命令では、スワップは次のように実行する
ことができる。１ｄｅｐ（ｃｏｎｃｕｒｒｅｎｔ）＃２｛２ｍｏｖｅｒ０，ｒ１；３ｍｏｖｅｒ１，ｒ０；４｝この例では、一時レジスタｒ３は不要である。むしろ、
スワップ演算は、命令実行前にｒ０およびｒ１の値が別
々にロードされた２つの別個の実行ユニットを用いて実
行されている。このようにして、演算の結果として書き
込まれる値は、上書きされた値ではなく、ｒ０およびｒ
１のレジスタ内のもとの値に基づく。

【００４８】代替実施例で用いられるもう１つの型のｄ
ｅｐ命令は、ｂｉｎｄ＿ｂｒａｎｃｈ型のｄｅｐ命令で
ある。これは、プロセッサ５のハードウェアに対して、
すべての命令は並列に発行することができるが、分岐命
令は、ｄｅｐ命令パケット内の他のすべての命令が実行
を完了するまで実行されないことを知らせる。区切られ
た命令全体を１サイクルで実行するのに十分な資源を有
するプロセッサ５の場合、これは（ｉｎｄｅｐ）型のｄ
ｅｐ命令と等価である。しかし、ｄｅｐ命令パケット全
体を実行するのに複数サイクルを必要とするプロセッサ
５の場合、パケット内のすべての命令が実行されるま
で、分岐の実行を遅延させる必要がある。

【００４９】このようなｄｅｐ命令のもう１つの型は、
分岐予測あるいは投機的動作型である。分岐予測ｄｅｐ
命令は、プロセッサ５のハードウェアが例えば次のよう
に分岐を統計的に予測することを除いては、ｂｉｎｄ＿
ｂｒａｎｃｈ型と同等の指定を行う。１ｄｅｐ（ｐｒｅｄ＿ｔａｋｅｎ）＃４｛２ｌｏａｄ ... ３ｍｐｙ ... ４ａｄｄ ... ５ｂｎｅｒ０，ｌａｂｅｌ；６｝７ ... ｂｎｅあるいは分岐演算（記述）がこの例では用いられ
ている。ｒ０の値が０に等しくない場合、この命令は、
プロセッサに対して、ｂｎｅの次に示される命令アドレ
ス、すなわち、記号アドレスｌａｂｅｌへ進み、そのア
ドレスの命令、すなわち、ｐｒｅｄ＿ｔａｋｅｎ型ｄｅ
ｐ命令を実行するよう指示する。ｐｒｅｄ＿ｔａｋｅｎ
型ｄｅｐ命令により、プロセッサ５のハードウェアは、
プロセッサおよびこのような命令を収容することが可能
なパイプライン（図示せず）のできるだけ早いステージ
でアドレスｌａｂｅｌから命令をフェッチする。例え
ば、標準的なプロセッサ５のパイプラインは、４個のス
テージ、すなわち、フェッチ、デコード、実行およびラ
イトバックを有するが、高性能のプロセッサ５は、４個
より多くのステージを有し、ステージ数は非常に多くす
ることも可能である。さらに、命令の処理は、プロセッ
サ５の特定のステージ中に行われる。ステージおよび命
令の処理に関して、プロセッサ５の動作は当業者に周知
であり、ここではこれ以上説明しない。分岐予測型を用
いると、命令は、プロセッサの通常の処理よりも短いサ
イクル時間で処理される。

【００５０】投機的動作型は、命令を実行するのに空い
ているできるだけ早いときにプロセッサ５を使用するた
めに一連の命令を実行するが、条件（例えば、分岐命令
に基づく）の結果が分かってその実行の結果（コミット
結果ともいう。）を格納するまで待機するものである。
例えば、例示的な投機的動作では、一連の命令が実行さ
れる間、分岐条件が満たされる場合に限りそれらの命令
は格納される。このようにして、プロセッサ５は、条件
の結果が命令実行の格納を可能にすること（投機的動作
がどのように設定されるかに応じて、条件を満たすこと
が結果を格納することを可能にするかどうか）を期待し
て最大の効率で実行される。この場合、条件の結果によ
り、このような実行の結果は無意味になり、結果は捨て
られることもある。一連の命令の実行の結果が捨てられ
る可能性があるため、この動作は投機的である。しか
し、結果が使用可能な場合、効率を増大させることがで
きる。具体的には、投機的動作型では、ある条件の結果
が分かるまで、結果はコミットされない。場合によって
は、投機的動作により、プロセッサ５のハードウェア
は、実行ユニット２７〜３６の利用率を最適化すること
ができる。しかし、一部の結果を捨てなければならない
可能性もある。例を掲げる。１ｄｅｐ（ｓｐｅｃ＿ｂｒ＿ｎｏｔｔａｋｅｎ）＃３｛２ｌｏａｄ ... ３ａｄｄ ... ４ｓｔｏｒｅ ... ５｝６ｂｒａｎｃｈｌａｂｅｌこのｄｅｐ命令パケットは、区切られたパケット全体が
投機的動作であることを指定する。この例では、条件は
分岐命令であり、分岐が行われない場合、命令シーケン
スは実行のためにレジスタファイル２２〜２５に格納さ
れる（命令をコミットするともいう）。そうでない場
合、すなわち、分岐が行われる場合、結果は捨てられ
る。この型の動作は、ストア命令の場合に特に重要であ
る。その理由は、多数の並列命令を発行しようとする場
合に、分岐命令より上のストア命令を移動するという困
難な問題を解決するからである。

【００５１】上記のそれぞれの型のｄｅｐ命令に関し
て、発行コントローラ３９は、複雑な発行ストラテジを
扱わなければならない場合があり、また、すべての中間
計算を保持するのに十分な、アーキテクチャ的に不可視
のレジスタ２２〜２７を含むことを必要とする場合があ
る。プロセッサ５のこのような発行ストラテジおよび編
成は当業者に周知であるため、ここではこれ以上説明し
ない。さらに、上記の本発明の代替実施例では、ｄｅｐ
命令型は、単独で、または、他の１つまたは複数のこの
ような型と組み合わせて、使用可能である。ｄｅｐ命令
型の使用および組合せは設計的事項であり、本発明を制
限するものではない。

【００５２】

【発明の効果】本発明の効果は、同じ編成、あるいは、
実行ユニットの個数は異なるが１つ以上の共通の実行ユ
ニットを有する編成の、複数の実装におけるオブジェク
トコード互換性である。例えば、２つの編成がそれぞれ
乗算、ＡＬＵ、ロードおよびストア実行ユニットを備
え、第２の編成はさらにもう１つの乗算実行ユニットを
備えるとする。本発明のｄｅｐ命令が第１の編成でコン
パイルされた場合、これは再コンパイルなしで第２の編
成によっても実行されることが可能であり、その逆も成
り立つ。第１の編成は４個の実行ユニットを有するた
め、４個の命令を並列に発行することができる。第２の
編成は５個の命令を並列に発行する。第１および第２の
いずれの編成でもこのような実行が達成されるのは、４
個の命令を含むｄｅｐ命令パケットがいずれの編成でも
実行されることが可能であるためである。５個の命令を
含むｄｅｐ命令パケットに関しては、これは第２の編成
では並列に実行されることが可能であり、第１の編成で
は、オブジェクトコードを再コンパイルすることを必要
とせずに、４個の命令を並列に実行した後、１個の命令
が続いて実行される。しかし、各編成がｄｅｐ命令パケ
ットを実行するパフォーマンス時間は、パケット内のす
べての命令の並列処理と、一部の命令の並列処理後にパ
ケット内の残りの命令を続いて処理することのパフォー
マンス時間差に基づいて、相違する可能性がある。

【００５３】以上、本発明の実施例について説明した
が、この説明に基づいて考えられるさまざまな変形例も
また本発明の技術的範囲に入る。特に、ここで示したｄ
ｅｐ命令パケットおよびｄｅｐ命令は、ｄｅｐ命令の型
の単なる例示であり、単独であることまたは組合せであ
ることは要求されない。さらに、このようなパケットお
よび命令は、ここで示したプロセッサ編成とともに、Ｉ
ＬＰを活用するｄｅｐ命令およびプロセッサ編成の単な
る例示であり、これらは、本発明に従って構成されるｄ
ｅｐ命令およびプロセッサのいずれを制限するものでも
ない。

【図面の簡単な説明】

【図１】本発明による完全なプロセッサシステムを示す
高水準ブロック図である。

【図２】本発明の実施例によってエンコードされた特定
の形式のｄｅｐ命令およびｄｅｐ命令パケットの図であ
る。

【図３】図１に示した本発明の実施例によって構成され
たプロセッサ編成のブロック図である。

【図４】図３に示したプロセッサに対して本発明の実施
例によって構成された多重発行バッファのブロック図で
ある。

【図５】図３のプロセッサに対して本発明によって構成
された多重発行バッファの代替実施例のブロック図であ
る。

【符号の説明】

１コンピュータシステム２プログラム３コンパイラ／プリプロセッサ４最適化規則５プロセッサ１１ｄｅｐ命令パケット２１メインメモリ２２レジスタファイルオフセット２３レジスタファイルベース２４レジスタファイルｒ２５レジスタファイルｆ２６多重発行バッファ（ＭＩＢ）２６ＡＩＡＲフィールド２６ＢＤＥＰフィールド２６ＣＮｕｍフィールド２６Ｄ命令フィールド２６Ｅ′ アドレスフィールド２７分岐ユニット２８分岐ユニット２９ロードＡＬＵ３０ストアＡＬＵ３１データサービスユニット（ＤＳＵ）３２乗算（ＭＰＹ）ユニット３３ＡＬＵ３４ＡＬＵ３５Ｆｐユニット３６Ｆｐユニット３７フェッチ３７Ａ命令フェッチユニット３８デコーダ３９発行コントローラ４０並列デコーダ４１デコードユニット４２デコードユニット５０デコードユニット

───────────────────────────────────────────────────── フロントページの続き (71)出願人 596077259 600 ＭｏｕｎｔａｉｎＡｖｅｎｕｅ, ＭｕｒｒａｙＨｉｌｌ，ＮｅｗＪｅｒｓｅｙ 07974−0636Ｕ．Ｓ．Ａ. (72)発明者シー．ジョングロスナーアメリカ合衆国，18104 ペンシルヴァニア，アレンタウン，アレキサンダードライブ 226 (72)発明者サンジャイジンターカーアメリカ合衆国，18017 ペンシルヴァニア，ベスレヘム，イーストブールヴァード 3148，アパートメントビー (72)発明者スタマティスヴァッシリアディスオランダ，ズーターミア，ピー．ケンフォヴ 91

Claims

【特許請求の範囲】

【請求項１】コンピュータプロセッサによって実行さ
れるコンピュータが読み取ることが可能なプログラムを
有するコンピュータが使用可能な媒体を含むコンピュー
タプログラム製品において、前記プログラムは、前記コンピュータプロセッサによっ
て実行される所定の動作を実行するための、コンピュー
タが読み取ることが可能な複数のプログラム命令を含
み、少なくとも１つのプログラム命令は、前記コンピュータ
プロセッサによって並行実行のために処理されることが
可能な少なくとも２つのプログラム命令に関する情報を
含む依存性命令であることを特徴とするコンピュータプ
ログラム製品。
【請求項２】前記依存性命令内の情報は、相異なる個
数あるいは型の並行動作可能な複数の実行ユニットを有
する複数の異なるコンピュータプロセッサに対して汎用
性があることにより、前記製品は、複数のコンピュータ
プロセッサでの実行の互換性があることを特徴とする請
求項１に記載のコンピュータプログラム製品。
【請求項３】並行動作可能な複数の実行ユニットを有
するコンピュータプロセッサが複数のプログラム命令を
実行する処理時間を短縮する方法において、前記複数のプログラム命令のうち相互に独立に実行可能
なプログラム命令のセットに関する情報を含む少なくと
も１つの依存性命令を、前記複数のプログラム命令に含
めるステップと、前記依存性命令に応じて、前記プログラム命令のセット
の少なくとも２個のプログラム命令からなるプログラム
命令グループを形成するステップと、前記プログラム命令グループ内のプログラム命令を、並
列動作可能な実行ユニットのグループで並列に実行する
ステップとからなることを特徴とする、複数のプログラ
ム命令を実行する処理時間を短縮する方法。
【請求項４】少なくとも２個のプログラム命令を格納
する格納ステップをさらに有することを特徴とする請求
項３に記載の方法。
【請求項５】前記格納ステップは、キャッシュおよび
多重発行バッファのうちの一方で実行されることを特徴
とする請求項４に記載の方法。
【請求項６】少なくとも２個のプログラム命令を記憶
デバイスに格納するステップをさらに有し、該記憶デバ
イスのうちの第１記憶デバイスは前記依存性命令に含ま
れる前記情報を格納し、該記憶デバイスのうちの第２記
憶デバイスは前記プログラム命令グループを格納するこ
とを特徴とする請求項４に記載の方法。
【請求項７】複数のプログラム命令のうちの少なくと
も２個のプログラム命令を並行して実行することが可能
なコンピュータ内のシステムにおいて、前記複数のプログラム命令のうちの少なくとも１つは前
記コンピュータに格納され、前記複数のプログラム命令のうちの少なくとも１つは、
前記複数のプログラム命令のうち相互に独立に実行可能
な少なくとも２個のプログラム命令に関する情報を含む
依存性命令であり、前記システムは、前記複数のプログラム命令を実行する少なくとも２個の
並列動作可能な実行ユニットを有するコンピュータプロ
セッサと、前記コンピュータ内にあり、前記依存性命令に応答し
て、前記実行ユニットに、前記少なくとも２個のプログ
ラム命令を並列に実行させる手段とを有することを特徴
とする、コンピュータ内のシステム。
【請求項８】前記複数のプログラム命令のうちの少な
くとも２個のプログラム命令を格納する少なくとも１つ
の記憶デバイスをさらに有することを特徴とする請求項
７に記載のシステム。
【請求項９】前記少なくとも１つの記憶デバイスは、
キャッシュおよび多重発行バッファのうちの一方である
ことを特徴とする請求項８に記載のシステム。
【請求項１０】前記複数のプログラム命令のうちの少
なくとも２個のプログラム命令を格納する少なくとも２
個の記憶デバイスをさらに有し、該記憶デバイスのうち
の第１記憶デバイスは前記依存性命令に含まれる前記情
報を格納し、該記憶デバイスのうちの第２記憶デバイス
は前記複数のプログラム命令のうちの少なくとも２個の
プログラム命令を格納することを特徴とする請求項８に
記載のシステム。
【請求項１１】コンピュータプロセッサによって実行
されるコンピュータが読み取ることが可能なプログラム
を有するコンピュータが使用可能な媒体を含むコンピュ
ータプログラム製品において、該プログラム内のコンピュータが読み取ることが可能な
プログラムコード手段が、コンピュータが読み取ること
が可能な複数のプログラム命令を含み、各プログラム命
令は、前記コンピュータプロセッサによって実行される
所定の動作を実行することが可能であり、少なくとも１つのプログラム命令は、所定の方式で前記
コンピュータプロセッサによる処理のために相互作用す
る少なくとも２つのプログラム命令に関する情報を含む
依存性命令であることを特徴とするコンピュータプログ
ラム製品。
【請求項１２】前記依存性命令内の情報は、相異なる
個数あるいは型の並行動作可能な複数の実行ユニットを
有する複数の異なるコンピュータプロセッサに対して汎
用性があることにより、前記製品は、複数のコンピュー
タプロセッサでの実行の互換性があることを特徴とする
請求項１１に記載のコンピュータプログラム製品。
【請求項１３】前記依存性命令は、前記依存性命令に
関連する少なくとも２つのプログラム命令が並行して実
行されなければならないことを示すことを特徴とする請
求項１１に記載のコンピュータプログラム製品。
【請求項１４】前記複数のプログラム命令は、前記複
数のプログラム命令のうちの別のプログラム命令の実行
を開始する分岐命令を含み、前記依存性命令に関連する少なくとも２つのプログラム
命令は、前記分岐命令を含み、前記依存性命令は、前記分岐命令が前記コンピュータプ
ロセッサによって処理される前に、前記分岐命令以外
の、前記依存性命令に関連する複数のプログラム命令が
実行されなければならないことを示すことを特徴とする
請求項１１に記載のコンピュータプログラム製品。
【請求項１５】前記複数のプログラム命令は、前記複
数のプログラム命令のうちの別のプログラム命令の実行
を開始する分岐命令を含み、前記依存性命令に関連する少なくとも２つのプログラム
命令は、前記分岐命令を含まず、前記依存性命令は、前記分岐命令が前記コンピュータプ
ロセッサによって処理される前に、前記依存性命令に関
連する複数のプログラム命令が実行されることを示し、
前記依存性命令に関連する複数のプログラム命令の実行
の結果は、前記分岐命令が実行される場合に限り前記コ
ンピュータ内に保持されることを特徴とする請求項１１
に記載のコンピュータプログラム製品。
【請求項１６】並行動作可能な複数の実行ユニットを
有するコンピュータプロセッサが複数のプログラム命令
を実行する処理時間を短縮する方法において、前記複数のプログラム命令のうち所定の方式で前記コン
ピュータプロセッサによる処理のために相互作用するプ
ログラム命令のセットに関する情報を含む少なくとも１
つの依存性命令を、前記複数のプログラム命令に含める
ステップと、前記依存性命令に応じて、前記プログラム命令のセット
の少なくとも２個のプログラム命令からなるプログラム
命令グループを形成するステップと、前記プログラム命令グループ内のプログラム命令を、並
列動作可能な実行ユニットのグループで並列に実行する
ステップとからなることを特徴とする、複数のプログラ
ム命令を実行する処理時間を短縮する方法。
【請求項１７】前記依存性情報は、前記少なくとも２
つのプログラム命令がそれぞれ、前記依存性情報に関連
する各プログラム命令から前記プログラム命令グループ
が形成されるように、並行して実行されなければならな
いことを示すことを特徴とする請求項１６に記載の方
法。
【請求項１８】前記複数のプログラム命令のうちの別
のプログラム命令の実行を開始する分岐命令を前記複数
のプログラム命令に含めるステップと、前記分岐命令を、前記依存性情報に関連するプログラム
命令のセットに含めるステップと、前記所定の方式に基づいて、前記コンピュータプロセッ
サによって前記分岐命令が処理される前に、前記分岐命
令以外の前記プログラム命令のセットを実行するステッ
プとをさらに有することを特徴とする請求項１６に記載
の方法。
【請求項１９】前記複数のプログラム命令のうちの別
のプログラム命令の実行を開始する分岐命令を前記複数
のプログラム命令に含めるステップと、前記分岐命令を、前記依存性情報に関連するプログラム
命令のセットから除外するステップと、前記所定の方式に基づいて、前記コンピュータプロセッ
サによって前記分岐命令が処理される前に、前記プログ
ラム命令のセットを実行し、前記分岐命令が実行される
場合に限り、前記プログラム命令のセットの実行の結果
を保持するステップとをさらに有することを特徴とする
請求項１６に記載の方法。
【請求項２０】少なくとも２個のプログラム命令を格
納する格納ステップをさらに有することを特徴とする請
求項１６に記載の方法。
【請求項２１】前記格納ステップは、キャッシュおよ
び多重発行バッファのうちの一方で実行されることを特
徴とする請求項２０に記載の方法。
【請求項２２】少なくとも２個のプログラム命令を記
憶デバイスに格納するステップをさらに有し、該記憶デ
バイスのうちの第１記憶デバイスは前記依存性命令に含
まれる前記情報を格納し、該記憶デバイスのうちの第２
記憶デバイスは前記プログラム命令グループを格納する
ことを特徴とする請求項２０に記載の方法。
【請求項２３】複数のプログラム命令のうちの少なく
とも２個のプログラム命令を並行して実行することが可
能なコンピュータ内のシステムにおいて、前記複数のプログラム命令のうちの少なくとも１つは前
記コンピュータに格納され、前記複数のプログラム命令のうちの少なくとも１つは、
前記複数のプログラム命令のうち所定の方式で前記コン
ピュータプロセッサによる処理のために相互作用する少
なくとも２個のプログラム命令に関する情報を含む依存
性命令であり、前記システムは、前記複数のプログラム命令を実行する少なくとも２個の
並列動作可能な実行ユニットを有するコンピュータプロ
セッサと、前記コンピュータ内にあり、前記依存性命令に応答し
て、前記実行ユニットに、前記少なくとも２個のプログ
ラム命令を並列に実行させる手段とを有することを特徴
とする、コンピュータ内のシステム。
【請求項２４】前記依存性命令は、前記依存性命令に
関連する少なくとも２つのプログラム命令が並行して実
行されなければならないことを示すことを特徴とする請
求項２３に記載のシステム。
【請求項２５】前記複数のプログラム命令は、前記複
数のプログラム命令のうちの別のプログラム命令の実行
を開始する分岐命令を含み、前記依存性命令に関連する少なくとも２つのプログラム
命令は、前記分岐命令を含み、前記依存性命令は、前記分岐命令が前記コンピュータプ
ロセッサによって処理される前に、前記分岐命令以外
の、前記依存性命令に関連する複数のプログラム命令が
実行されなければならないことを示すことを特徴とする
請求項１４に記載のシステム。
【請求項２６】前記複数のプログラム命令は、前記複
数のプログラム命令のうちの別のプログラム命令の実行
を開始する分岐命令を含み、前記依存性命令に関連する少なくとも２つのプログラム
命令は、前記分岐命令を含まず、前記依存性命令は、前記分岐命令が前記コンピュータプ
ロセッサによって処理される前に、前記依存性命令に関
連する複数のプログラム命令が実行されることを示し、
前記依存性命令に関連する複数のプログラム命令の実行
の結果は、前記分岐命令が実行される場合に限り前記コ
ンピュータ内に保持されることを特徴とする請求項１５
に記載のシステム。
【請求項２７】前記複数のプログラム命令のうちの少
なくとも２個のプログラム命令を格納する少なくとも１
つの記憶デバイスをさらに有することを特徴とする請求
項２３に記載のシステム。
【請求項２８】前記少なくとも１つの記憶デバイス
は、キャッシュおよび多重発行バッファのうちの一方で
あることを特徴とする請求項２７に記載のシステム。
【請求項２９】前記複数のプログラム命令のうちの少
なくとも２個のプログラム命令を格納する少なくとも２
個の記憶デバイスをさらに有し、該記憶デバイスのうち
の第１記憶デバイスは前記依存性命令に含まれる前記情
報を格納し、該記憶デバイスのうちの第２記憶デバイス
は前記複数のプログラム命令のうちの少なくとも２個の
プログラム命令を格納することを特徴とする請求項２７
に記載のシステム。