JP3186798B2

JP3186798B2 - 部分的にデコードした命令キャッシュ

Info

Publication number: JP3186798B2
Application number: JP22540291A
Authority: JP
Inventors: ピントビクトール; タルムディラン; アブノンドロール; ユーバルギデオン; ベイダッチヤイール; ベン−メイールアモス; アルパートドン; オズオベッド; イントラターギデオン; マルコルーベン; シャチャムアーロン; グリーンフェルドヅビ
Original assignee: National Semiconductor Corp
Current assignee: National Semiconductor Corp
Priority date: 1990-05-29
Filing date: 1991-05-29
Publication date: 2001-07-11
Anticipated expiration: 2016-07-11
Also published as: EP0459232A2; EP0459232A3; EP0459232B1; JPH0553795A; US5481751A; US5669011A; DE69130588D1; DE69130588T2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はマイクロプロセサアーキ
テクチャに関するものであって、更に詳細には、内部命
令キャッシュ内に格納する前に、外部メモリから検索し
た命令を部分的にデコードするマイクロプロセサに関す
るものである。部分的にデコードした命令は、複数個の
並列パイプライン型機能ユニットにより並列的又は逐次
的の何れかで実行するために内部キャッシュから検索さ
れる。

【０００２】

【従来の技術】最近においては、設計の簡単化を維持し
ながら高性能を達成するためには、複雑命令セットコン
ピュータ（ＣＩＳＣ）から減少命令セットコンピュータ
（ＲＩＳＣ）へマイクロプロセサアーキテクチャの構成
が変化する傾向にある。ＣＩＳＣアーキテクチャにおい
ては、プロセサによって受取られる各マクロ命令は、内
部的に一連のマイクロ命令サブルーチンへデコードされ
ねばならない。次いで、これらのマイクロ命令サブルー
チンはマイクロプロセサによって実行される。ＲＩＳＣ
アーキテクチャにおいては、プロセサが理解し且つ実行
することが可能な多数のマクロ命令は著しく減少され
る。更に、プロセサが理解し且つ実行することが可能な
マクロ命令は非常に基本的なものであり、従ってプロセ
サは、それらをマイクロ命令へデコードすることがない
か（そのマクロ命令はマクロ形態のまま実行される）又
はデコードされたマイクロ命令サブルーチンは極僅かの
マイクロ命令を包含するかの何れかである。

【０００３】ＣＩＳＣアーキテクチャからＲＩＳＣアー
キテクチャへの遷移は、今日マイクロプロセサに対して
広範囲に適用されているコンピュータデザインにおける
２つの基本的な開発によって駆立てられている。これら
の開発は、集積化キャッシュメモリと最適コンパイラで
ある。

【０００４】キャッシュメモリは、プロセサによって最
も最近に使用された命令及びデータを保持するために、
プロセサとメインメモリとの間に位置されている小型の
高速バッファである。経験によれば、コンピュータは、
非常に一般的に、そのメモリ参照において強い局所性の
特性を示すことが知られている。即ち、参照は、最近参
照された位置（時間的局所性）か、又は最近参照された
他の位置の近くの位置（空間的局所性）の何れかに対し
てしばしば発生する傾向がある。この局所性の結果とし
て、メインメモリよりもかなり小型のキャッシュメモリ
が、プログラムのメモリ参照のかなりの部分を取扱うこ
とが可能である。キャッシュメモリは比較的小型である
ので、より大型のメインメモリに対して経済的なものよ
りも一層高速のメモリ技術によって実現することが可能
である。

【０００５】メインフレームコンピュータにおいて使用
するキャッシュメモリ技術の開発の前に、プロセサのサ
イクル時間とメモリのサイクル時間との間には大きな不
均衡があった。この不均衡は、プロセサが比較的高速の
バイポーラ半導体技術から実現されており、且つメモリ
がかなり低速の磁気コア技術から実現されているという
事実から発生する結果である。ロジックとメモリとの間
の本質的な速度差は、数個のクロックサイクルに対しプ
ロセサの動作を制御するためにメモリから単一の命令を
フェッチすることを可能とする複雑な命令セットの開発
を促していた。プロセサの速度とメモリの速度との間の
不均衡は、又、３２ビットマイクロプロセサの早期の出
現の特性でもあった。これらのマイクロプロセサは、各
メモリアクセスに対し４又は５個のクロックサイクルを
使用することが一般的である。

【０００６】集積化キャッシュメモリの導入がない場合
には、ＲＩＳＣアーキテクチャは、ＣＩＳＣアーキテク
チャと競合するようになる可能性はない。ＲＩＳＣプロ
セサは、同一のタスクを実施するために、ＣＩＳＣプロ
セサよりもより多くの命令を実行するので、ＲＩＳＣプ
ロセサは、より高速で且つより高価なメモリシステムが
使用される場合においてのみ、ＣＩＳＣの性能と均等な
性能を与えることが可能である。集積化キャッシュメモ
リは、効率的なプロセサパイプラインによる命令の実行
のために必要な同一の時間において、ＲＩＳＣプロセサ
が命令をフェッチすることを可能とする。

【０００７】ＲＩＳＣアーキテクチャの実効性を可能と
した２番目の開発は最適コンパイラである。コンパイラ
は、ハードウエアか又はソフトウエアの何れかで実現す
ることが可能であり、それは、コンピュ−タプログラム
を、プログラマによって使用されるハイレベル言語か
ら、コンピュータによって理解可能なマシン言語へ変換
するものである。

【０００８】ハイレベル言語の導入の後長年の間、コン
ピュータは、未だに、かなりにおいてアッセンブリ言語
でプログラムされていた。アッセンブリ言語は、オブジ
ェクトコード又はその２進均等物よりもプログラマによ
って容易に記憶可能である原始的なニーモニックを使用
する低レベルソースコード言語である。高レベル言語プ
ログラミングの改良されたソフトウエア生産性及び変換
可能性の利点は明らかであったが、簡単なコンパイラが
非効率的なコードを発生していた。初期の世代の３２ビ
ットマイクロプロセサは、アッセンブリ言語プログラミ
ング及び簡単なコンパイラに対して考慮を払い開発され
たものである。

【０００９】より最近においては、コンパイラ技術にお
ける進歩がマイクロプロセサへ適用されている。最適コ
ンパイラは、多数のレジスタを効率的に割当て且つプロ
セサパイプライン資源を管理するためにプログラムを解
析することが可能である。その結果、高レベル言語プロ
グラムが、アッセンブリプログラムと同等か又はそれを
超える性能で実行することが可能である。

【００１０】ＲＩＳＣ開発における先導的なパイオニア
の多くは、コンパイラのスペシャリストであって、最適
コンパイラが、簡単で且つ規則的なアーキテクチャに対
して高度に効率的なコードを発生することが可能である
ことを証明した。

【００１１】高度に集積化された単一チップマイクロプ
ロセサは、性能を改善するために、パイプライン型で且
つ並列的実行の両方を使用している。パイプライン型実
行は、マイクロプロセサが１つの命令をフェッチしてい
る間に、同時的に第二の命令をデコードし、第三の命令
に対するソースオペランドを読取り、第四の命令に対す
る結果を計算し、且つ第五の命令に対する結果を書込む
ことを同時的に行なうことが可能であることを意味して
いる。並列実行は、マイクロプロセサが、別々の機能ユ
ニットにおいて２つ又はそれ以上の独立的な命令に対す
るオペランドを同時的に開始させることが可能であるこ
とを意味している。

【００１２】上述した如く、高性能マイクロプロセサを
複数個のパイプライン型機能ユニットで構成する場合の
主要なチャレンジの１つは、オンチップの形態で充分な
命令メモリを提供し且つ該機能ユニットを制御するため
に該命令メモリを効率的にアクセスすることである。マ
イクロプロセサの機能ユニットの効率的な制御に対する
条件は、デコードするのに簡単な規則的な命令フォーマ
ットを支配する。しかしながら、従来のマイクロプロセ
サアーキテクチャにおいては、メインメモリにおける命
令は硬度にコード化されており、且つメインメモリにお
ける空間の使用を効率的なものとするために可変長のも
のであり、且つマイクロプロセサとメインメモリとの間
において使用可能な帯域幅は制限されている。

【００１３】

【課題を解決するための手段】本発明は、マイクロプロ
セサの集積化命令キャッシュ内に配置させる前に、メイ
ンメモリから検索した命令を部分的にデコードすること
によって、機能ユニットの効率的な制御とメインメモリ
格納空間の効率的な使用という相対立する条件を解決す
るマイクロプロセサを提供している。命令キャッシュ内
への各エントリは、部分的にデコードした命令に対して
２つのスロットを有している。一方のスロットは、マイ
クロプロセサの実行パイプラインの１つ及びそのデータ
キャッシュへのポートを制御する。第二のスロットは、
第二の実行パイプライン、又はマイクロプロセサの浮動
小数点ユニットの１つ、又は制御転送命令を制御する。
命令デコードユニット、乃至はローダーは、メインメモ
リ内に格納されているそれらのコンパクトなフォーマッ
トからの命令をデコードし、且つそれらを、それらの機
能に従って、命令キャッシュエントリの２つのスロット
内へ供給する。並列実行及び複雑な命令のエミュレーシ
ョンを制御するために、命令と共に、補助情報もキャッ
シュエントリ内に供給される。各キャッシュエントリに
おける１つのビットは、そのエントリに対する２つのス
ロット内の命令が独立的であってそれらの命令が並列的
に実行可能なものであるか、又はそれらが従属的なもの
であって、それらの命令が逐次的に実行されねばならな
いものであるかを表わす。この目的のために単一ビット
を使用することは、単一キャッシュエントリのスロット
内に２つの従属的命令を格納することを可能とする。そ
うでない場合には、これらの２つの命令は別々のエント
リ内に格納されねばならず、キャッシュメモリの半分の
みがこれらの２つのエントリにおいて使用されることと
なる。

【００１４】

【実施例】図１は、２つの命令を並列的に実行すること
が可能な複数個のパイプライン型機能ユニットを有する
マイクロプロセサ１０のブロック図を示している。マイ
クロプロセサ１０は、３つの主要な部分、即ち命令プロ
セサ１２と、実行プロセサ１４と、バスインターフェー
スプロセサ１６とを有している。命令プロセサ１２は、
３つのモジュールを有しており、即ち命令ローダー１８
と、命令エミュレータ２０と、命令キャッシュ２２とを
有している。これらのモジュールは、バスインターフェ
ースプロセサ１６を介して外部システムからの命令をロ
ードし、該命令を命令キャッシュ２２内に格納し、且つ
命令の対を実行のために実行プロセサ１４へ供給する。

【００１５】実行プロセサ１４は２つの４段パイプライ
ン型整数実行ユニット２４及び２６と、倍精度５段パイ
プライン型浮動小数点実行ユニット２８と、１０２４バ
イトのデータキャッシュ３０とを有している。１組の整
数レジスタ３２は、２つの整数ユニット２４及び２６を
サービスし、同様に、１組の浮動小数点レジスタ３４が
浮動小数点実行ユニット２８をサービスする。

【００１６】バスインターフェースプロセサ１６は、バ
スインターフェースユニット３６と、多数のシステムモ
ジュール３８とを有している。バスインターフェースユ
ニット３６は、命令プロセサ１２及び実行プロセサ１４
の両方によって要求されるバスアクセスを制御する。図
示した実施例においては、システムモジュール３８は、
タイマ４０と、直接メモリアクセス（ＤＭＡ）コントロ
ーラ４２と、インタラプト制御ユニット（ＩＣＵ）４４
と、Ｉ／Ｏバッファ４６とを有している。

【００１７】以下に詳細に説明する如く、命令ローダー
１８は、メインメモリから検索した命令を部分的にデコ
ードし、且つその部分的にデコードした命令を命令キャ
ッシュ２２内に配置させる。即ち、命令ローダー１８
は、メインメモリ（不図示）内に格納されている命令を
命令キャッシュ２２のデコードしたフォーマットへ変換
する。以下に詳細に説明する如く、命令ローダー１８
は、更に、単一命令キャッシュエントリ内に対構成とさ
れる連続する命令の間に何らかの従属性が存在するか否
かをチェックする。

【００１８】命令キャッシュ２２は、部分的にデコード
した命令に対して５１２個のエントリを有している。本
発明の一側面によれば、且つ以下に詳細に説明する如
く、命令キャッシュ２２内の各エントリは、マイクロプ
ロセサ１０の種々の機能ユニットの効率的な制御のため
に部分的にデコードしたフォーマットで格納した１つ又
は２つの何れかの命令を有している。本発明の別の側面
によれば、命令キャッシュ２２内の各エントリは、更
に、そのエントリ内に格納される２つの命令が独立的な
ものであって該命令が並列的に実行することが可能であ
るか、又はそれらの命令が従属的なものであってそれら
の命令は逐次的に実行されねばならないかを表わす補助
情報を有している。

【００１９】命令エミュレータ２０は、マイクロプロセ
サ１０の命令セット内において定義されている特別命令
を実行する。命令ローダー１８がこのような命令に遭遇
すると、それはエミュレータ２０へ制御を移管する。該
エミュレータは、単一の複雑命令（以下に定義する）の
機能を実行するコア命令（以下に定義する）のシーケン
スを発生する。この点に関して、エミュレータ２０はＲ
ＯＭ内に存在するマイクロコードを供給する。エミュレ
ータ２０は、更に、例外処理及び自己テスト操作を制御
する。

【００２０】２つの４段整数パイプライン２４及び２６
は、基本的な演算／論理操作及びデータメモリ参照を実
施する。各整数パイプライン２４，２６は、システムク
ロックサイクル当たり１個の割合の処理能力で命令を実
行することが可能である。

【００２１】浮動小数点実行ユニット２８は、単精度及
び倍精度操作を実行する３個のサブユニットを有してい
る。ＦＰＵ加算器サブユニット２８ａは加算及び変換操
作を行ない、第二のサブユニット２８ｂは乗算操作を行
ない、且つ第三のサブユニット２８ｃは割算操作を行な
う。加算及び乗算操作が交互に実行される場合、浮動小
数点実行ユニット２８が、システムクロックサイクル当
たり１個の命令の割合の処理能力で命令を実行すること
が可能である。

【００２２】浮動小数点実行ユニット２８に対するメモ
リ参照は、整数パイプライン２４，２６の一方によって
制御され、且つ浮動小数点操作と並列的に実行すること
が可能である。データメモリ参照は、１Ｋバイトのデー
タキャッシュ３０を使用して実施される。データキャッ
シュ３０は、しばしば使用されるデータに対して高速の
オンチップアクセスを与える。データキャッシュ３０内
にデータが配置されていない場合には、オフチップ参照
が、パイプライン型システムバス４８を使用して、バス
インターフェースユニット（ＢＩＵ）３６によって実施
される。

【００２３】データキャッシュ３０は、それがミスが発
生する場合に不必要にストールすることがないように、
ロードスケジュール技術を使用している。このことは、
データがメインメモリから読取られる間に、２つの実行
パイプライン２４，２６が、命令の処理及び付加的なメ
モリ参照の開始を継続して行なうことが可能であること
を意味している。バスインターフェースユニット３６
は、命令プロセサ１２か又は実行プロセサ１４の何れか
からメインメモリアクセスに対する要求を受取ることが
可能である。これらの要求は、外部パイプライン型バス
４８へ送給される。外部バスは、マイクロプロセサ１０
の周波数の半分の周波数で動作すべくプログラムするこ
とが可能であり、このことは、マイクロプロセサ１０が
全速力で一対の命令を実行する間に、比較的低い周波数
での簡単な命令インターフェースとすることを可能とし
ている。

【００２４】マイクロプロセサ１０の命令セットは、コ
ア部分と非コア部分とに区画されている。命令セットの
コア部分は、基本的なシステム操作に対する幾つかの特
別機能命令と共に、性能臨界的命令及びアドレス動作モ
ードから構成されている。非コア部分は、該命令セット
の残部から構成されている。性能臨界的命令及びアドレ
ス動作モードは、オペレーティングシステム（本例の場
合にはＵＮＩＸ）作業負担及び種々のエンジニアリン
グ、科学的及び内蔵されているコントローラアプリケー
ションの解析及び評価に基づいて選択されている。これ
らの命令は、マイクロプロセサ１０のＲＩＳＣアーキテ
クチャの一部として直接的に実行される。

【００２５】上述した如く、特別機能及び非コア命令
は、コア命令のシーケンスを使用するマクロ命令サブル
ーチンによって、マイクロプロセサ１０においてエミュ
レートされる。即ち、マイクロプロセサ１０のアーキテ
クチャの全体的な命令セットの一部であるが直接的に実
現されるＲＩＳＣコアの外側に存在する命令は、命令エ
ミュレータ２０の制御下において実行される。命令ロー
ダー１８が非コア命令に遭遇すると、それは、その命令
を一対のコア命令へ変換するか（例えば、ＭＯＶＢ１
（Ｒ０），０（Ｒ１）のような簡単な命令）、又は命令
エミュレータ２０へ制御を移管する。命令エミュレータ
２０は、単一の複雑命令の機能を実施するコア命令のシ
ーケンスを発生する。

【００２６】図２は、命令キャッシュ２２の構成を示し
ている。命令キャッシュ２２は、部分的にデコードした
命令に対し５１２個のエントリを有する２方向セット連
想組織を使用している。このことは、各メモリアドレス
に対して、そのアドレスに位置された命令を配置させる
ことが可能な場合に命令キャッシュ２２内に２つのエン
トリが存在することを意味している。これら２つのエン
トリは「セット」と呼ばれる。

【００２７】図３に示した如く、各命令キャッシュエン
トリは、２つのスロット、即ちスロットＡ及びスロット
Ｂを有している。従って各エントリは、ｏｐｃｏｄｅ
（Ｏｐｃ）即ち命令コード、発信元及び宛先レジスタ番
号（夫々、Ｒ１及びＲ２）、及び即時値（３２ｂＩＭ
Ｍ）に対し固定したフィールドで表わされる１つ又は２
つの部分的にデコードされた命令を有することが可能で
ある。該エントリは、更に、該エントリが、並列的に実
行することが可能な２つの連続する命令を有するか否か
を表わすビットＰと該エントリがエミュレートされる複
雑命令に対するものであるかを表わすビットＧを包含す
る命令実行のシーケンスを制御するために使用される補
助情報、及び次の命令のアドレスの高速な計算を可能と
する形態における命令の長さを表わす付加的情報を有し
ている。

【００２８】再度図２を参照すると、命令キャッシュ２
２における各エントリと関連して、夫々、２６ビットの
タグＴＡＧ０及びＴＡＧ１が設けられており、これらの
タグは、２２個の最大桁ビットと、３個の最小桁ビット
と、エントリ内に格納されている命令の仮想アドレスの
ユーザ／スーパーバイザビットとをホールドする。２つ
の連続する命令がエントリにおいて対構成とされる場
合、該タグは、下位のアドレスにおける命令に対応す
る。該タグと関連して２個のビットが存在しており、そ
れらのビットは、該エントリが有効であるか否か及びそ
れがロックされているか否かを表わす。各セットに対し
て、最も最近でなく使用された（ＬＲＵ）順番で次に置
換されるべきセット内のエントリを表わす付加的な単一
ビットが存在している。

【００２９】命令キャッシュ２２は、マイクロプロセサ
１０の種々の動作モードをイネーブル又はディスエーブ
ルするために使用されるマイクロプロセサ１０のコンフ
ィギュレーションレジスタの対応するビットが１である
場合に命令フェッチに対してイネーブルされ、且つ何れ
かのアドレス変換がディスエーブルされ、即ちＣＩビッ
トは、該命令の仮想アドレスを変換するために使用され
るレベル２ペイジテーブルエントリ（ＰＴＥ）において
０である。

【００３０】命令キャッシュ２２がディスエーブルされ
ると、命令フェッチは、命令キャッシュ２２をバイパス
し、且つ命令キャッシュ２２の内容は影響を受けること
はない。該命令は、メインメモリから直接的に読取ら
れ、命令ローダー１８によって部分的にデコードされて
エントリを形成し（それは、２つの部分的にデコードさ
れた命令を有する場合がある）、且つ実行のためにＩＬ
ＢＹＰＡＳＳラインを介して、整数パイプライン２
４，２６へ転送される。

【００３１】図２に示した如く、命令キャッシュ２２が
命令フェッチのためにイネーブルされると、プログラム
カウンタ（ＰＣ）によって供給される命令アドレスの８
個のビット、即ちビットＰＣ（１０：３）がデコードさ
れて、該命令を格納することが可能な場合に、エントリ
のセットを選択する。４つのエントリからなる該選択さ
れたセットが読取られ、且つそれと関連するタグが２３
個の最大桁ビット、即ちＰＣ（３１：１０）、及び該命
令の仮想アドレスの２つの最小桁ビットＰＣ（１：０）
と比較される。該タグの内の１つがマッチ（一致）し且
つそのマッチするエントリが有効である場合には、該エ
ントリが、実行のために整数パイプライン２４，２６へ
転送するために選択される。そうでない場合には、以下
に説明する如く、喪失中の命令がメインメモリから直接
的に読取られ且つ部分的にデコードされる。

【００３２】参照された命令が命令キャッシュ２２から
喪失しており且つ該選択されたセットの内容が全てロッ
クされている場合には、該参照の取扱いは、命令キャッ
シュ２２がディスエーブルされる場合に対して上述した
場合と同一である。

【００３３】参照された命令が命令キャッシュ２２から
喪失しており且つ選択されたセット内のエントリの少な
くとも１つがロックされていない場合には、以下の動作
が行なわれる。該エントリの内の１つが、最も最近でな
く使用された（ＬＲＵ）置換アルゴリズムに従って置換
のために選択され、且つＬＲＵポインタがアップデート
される。置換のために選択されたエントリがロックされ
ている場合には、該参照の取扱いは、命令キャッシュ２
２がディスエーブルされる場合に対して上述したものと
同一である。そうでない場合には、喪失中の命令が外部
メモリから直接的に読取られ次いで命令ローダー１８に
よって部分的にデコードされてエントリを形成し（それ
は、２つの部分的にデコードされた命令を有する場合が
ある）、該命令は実行のために整数パイプライン２４，
２６へ転送される。この喪失中の命令を読取るためのバ
スサイクル期間中にＣＩＩＮがアクティブ、即ち活性で
ない場合には、その部分的にデコードされた命令は、更
に、置換のために選択された命令キャッシュエントリ内
にも書込まれ、それと関連する有効ビットがセットさ
れ、且つコンフィギュレーションレジスタ内のロック−
命令−キャッシュビットＣＦＧ．ＬＩＣが１である場合
に、該エントリはロックされる。

【００３４】マイクロプロセサ１０が外部メインメモリ
から喪失している命令をフェッチする動作を完了した後
に、逐次的な命令のプレフェッチ動作を継続して行な
う。爾後の逐次的な命令フェッチに対して、マイクロプ
ロセサ１０は、命令キャッシュ２２をサーチして、その
命令がオンチップに位置されているものか否かを決定す
る。そのサーチが成功するか又は非逐次的命令フェッチ
が発生すると、マイクロプロセサ１０はプレフェッチ動
作を終了する。そうでない場合には、プレフェッチされ
た命令は、迅速的に、デコード動作及び実行のために使
用可能とされる。マイクロプロセサ１０は、そうでない
場合には、オフチップデータ参照が必要とされないの
で、アイドル状態であるバスサイクル期間中においての
みプレフェッチを開始する。

【００３５】命令を実行する必要性なしに、命令をフェ
ッチし且つそれを命令キャッシュ２２内にロックさせる
ことが可能である。このことは、２つの命令のアドレス
がマッチするプログラムカウンタ値に対するデバッグト
ラップ（ＤＢＧ）をイネーブルさせることによって達成
することが可能である。デバッグトラップは、このタイ
プの実行に対して適した動作を実施するサービスルーチ
ンである。ＤＢＧルーチンが終了すると、実行復帰（Ｒ
ＥＴＸ）命令が実行されて、その例外が認識された点に
おいて命令の実行を再開する。その命令がフェッチされ
且つ、該トラップが処理される前に、命令キャッシュ３
２内に配置される。

【００３６】命令キャッシュ２２内にロックされている
命令が実行段階に到達し且つその命令に関するデバッグ
トラップがイネーブルされると、その命令を実行する代
わりに、プロセサはデバッグトラップサービスルーチン
へジャンプする。このサービスルーチンは、次の命令に
対するブレークポイントをセットすることが可能であ
り、従って、プロセサがこのサービスルーチンから復帰
すると、それは、次の命令を実行するのではなく、再度
デバッグトラップルーチンへ移行する。

【００３７】上述したプロセスは、通常はシステムブー
トストラップの期間中に実行されるものであり、ユーザ
が命令キャッシュ２２内にルーチンを格納し、それらを
ロックし、且つロックプロセス期間中にそれらを実行す
ることなしにそれらを操作のために準備させることを可
能とする。

【００３８】マイクロプロセサ１０のアーキテクチャ及
びそのキャッシュロック能力に関する更に詳細な説明
は、本願出願と同日付を持って出願された特許出願で、
発明者がＡｌｐｅｒｔｅｔａｌ．であり、発明の名
称が「マイクロプロセサのオンチップキャッシュ内のメ
モリ位置の選択的ロック（ＳＥＬＥＣＴＩＶＥＬＹＬ
ＯＣＫＩＮＧＭＥＭＯＲＹＬＯＣＡＴＩＯＮＳＷ
ＩＴＨＩＮＡＭＩＣＲＯＰＲＯＣＥＳＳＯＲ’Ｓ
ＯＮ−ＣＨＩＰＣＡＣＨＥ）」という特許出願に記載
されている。

【００３９】命令キャッシュ２２の内容はソフトウエア
によって又はハードウエアによって無効化させることが
可能である。命令キャッシュ２２は以下の如くにソフト
ウエアによって無効化される。ロックされているエント
リを包含する全体的な命令キャッシュの内容は、コンフ
ィギュレーションレジスタのビットＣＦＧ．ＩＣが０で
ある間に無効化される。ＬＲＵ置換情報も、ビットＣＦ
Ｇ．ＩＣが０である間に、０へ初期化される。キャッシ
ュ無効化ＣＩＮＶ命令は、命令キャッシュの内容全体を
無効化するために実行することが可能である。ＣＩＮＶ
を実行することにより、そのキャッシュ全体、又はその
命令のＬオプションに従ってロックされていないライン
のみの何れかを無効化させる。命令キャッシュ２２の全
体は、ＩＮＶＩＣ入力信号を活性化することによって
ハードウエアで無効化される。尚、本明細書において、
英文字記号の後にアンダーライン記号を付したものはそ
の記号の反転信号であることを表わしている。

【００４０】図３は、命令キャッシュ２２内に格納され
る部分的にデコードされたエントリを示した概略図であ
る。図３に示した如く、各エントリは、命令に対する２
つのスロットを有している。スロットＡは、整数パイプ
ライン２４及びデータキャッシュ３０へのポートを制御
する。スロットＢは、第二の整数パイプライン２６、又
は浮動小数点ユニットの１つ又は制御転送命令を制御す
る。スロットＢは、更に、データキャッシュ３０へのポ
ートを制御することが可能であるが、それは、スロット
Ａがデータキャッシュ３０を使用していない場合におい
てのみである。上述した如く、命令ローダー１８は、メ
インメモリ内のコンパクトなフォーマットからコード化
された命令を検索し、且つそれらの機能に従って、それ
らをスロットＡ及びＢ内に配置させる。

【００４１】従って、本発明によれば、命令キャッシュ
２２の新規な側面は、（１）キャッシュメモリ内に格納
するための部分的にデコードした命令、（２）機能に従
って命令を２つのキャッシュスロット内に配置させるこ
と、及び（３）並列的実行及び複雑命令のエミュレーシ
ョンを制御するために命令と共にキャッシュエントリ内
に補助情報を配置させることを包含している。

【００４２】更に図３に示した如く、各命令キャッシュ
エントリ内のビットＰは、スロットＡ及びＢ内の命令が
独立的であってそれらの命令は並列的に実行可能なもの
であるか、又はそれらが従属的なものであって逐次的に
実行されねばならないかを表わす。

【００４３】並列的に実行することが可能な独立的命令
の一例は以下の如くである。Ｌｏａｄ４（Ｒ０），Ｒ１；Ａｄｄｃｄ４，Ｒ０一方、逐次的な実行を必要とする従属的命令の一例は以
下の如くである。ＡｄｄｄＲ０，Ｒ１；ＡｄｄｄＲ１，Ｒ２この目的のために単一のビットを使用することは、単一
のキャッシュエントリのスロット内に２つの従属的命令
を格納することを可能とし、そうでない場合には、これ
らの２つの命令は、別々のエントリ内に格納されねばな
らず、且つ命令キャッシュ２２の半分のみがこれらの２
つのエントリにおいて使用されるに過ぎない。

【００４４】図３は、更に、各命令キャッシュエントリ
内のビットＧを示しており、そのビットは、スロットＡ
及びＢ内の命令がメインメモリからの単一の一層複雑な
命令をエミュレートするものであるか否かを表わす。例
えば、該ローダーは、単一の命令ＡＤＤＤＯ（Ｒ
０），Ｒ１を、スロットＡ及びＢ内において以下の対の
命令へ変換し、且つ該エントリ内の逐次的及びエミュレ
ーションフラッグをセットする。Ｌｏａｄ０（Ｒ０），ＴｅｍｐＡＤＤＤＴｅｍｐ，Ｒ１

【００４５】マイクロプロセサ１０のパイプライン型組
織によれば、マイクロプロセサ１０によって実行される
全ての命令は、一連のステージを介して移動する。２つ
の整数パイプライン２４，２６（図１）は、命令対に関
し並列的に動作することが可能である。整数ユニット２
４及び整数ユニット２６は同一ではなく、整数ユニット
２４において実行することが可能な命令は、整数ユニッ
ト２６において実行することが可能なもののサブセット
である。

【００４６】上述した如く、命令フェッチ動作は、デコ
ードした命令を命令キャッシュ２２内に格納する命令ロ
ーダー１８によって実施される。整数２０パイプライン
は、実行のためにデコードされた命令対を受取る。

【００４７】再度図３を参照すると、上述した如く、命
令対は２つのスロット、即ちスロットＡ及びスロットＢ
から構成されている。スロットＡにおける命令は、整数
ユニット２４に対してスケジュールされており、スロッ
トＢ内の命令は整数ユニット２６に対してスケジュール
されている。同一の対に属する２つの命令は、整数パイ
プラインの１つのステージ（段）から次の段へ同時に前
進するが、スロットＢ内の命令が、以下に説明する如
く、パイプラインの命令デコードステージ（段）におい
て遅延される場合には、事情が異なる。この場合には、
整数パイプライン２４内の命令は、次続のパイプライン
ステージに対して先行することが可能である。しかしな
がら、命令デコードステージがパイプラインユニット２
４及びパイプラインユニット２６の両方において自由と
なるまで、新たな命令は該パイプラインにエンタするこ
とはできない。

【００４８】ユニット２４及びユニット２６の命令は並
列的に実行されるが（ストールＩＤ−Ｂ命令の場合を除
いて）、スロットＡ命令は、常に、対応するスロットＢ
命令に対して論理的に先行し、且つ、スロットＡ命令が
例外のために完了することができない場合には、対応す
るスロットＢ命令は破棄される。

【００４９】図４を参照すると、整数パイプラインユニ
ット２４，２６の各々は、４つのステージ、即ち命令デ
コードステージ（ＩＤ）、実行ステージ（ＥＸ）、メモ
リアクセスステージ（ＭＥ）及び結果格納ステージ（Ｓ
Ｔ）を有している。

【００５０】命令が、それがスケジュールされている整
数ユニットのＩＤステージ内に供給され、そこで、その
デコード動作が完了され且つレジスタソースオペランド
が読取られる。ＥＸステージにおいては、マイクロプロ
セサ１０の演算／論理ユニットが活性化されて、その命
令の結果を計算するか、又はロード／格納命令に対する
実効的メモリアドレスを計算する。ＭＥステージにおい
ては、データキャッシュ３０（図１）は、ロード／格納
命令によってアクセスされ、且つ例外条件がチェックさ
れる。ＳＴステージにおいては、結果がレジスタファイ
ルへ書込まれるか、又は格納命令の場合にはデータキャ
ッシュ３０へ書込まれ、且つプログラムステータスレジ
スタ（ＰＳＲ）フラッグがアップデートされる。このス
テージにおいて、その命令は、最早、やり直すことは不
可能である。

【００５１】図４に更に示した如く、ＥＸステージ及び
ＭＥステージからの結果は、ＩＤステージへフィードバ
ックさせることが可能であり、従って、１又は２サイク
ルの命令待ち時間を可能としている。

【００５２】遅延が存在しない場合には、マイクロプロ
セサ１０の二重実行パイプラインが、全てのクロックサ
イクルで新たな命令対を受付け（即ち、サイクル当たり
２つの命令のピークの処理能力）、且つ該パイプライン
に沿って１つのステージ下側に全てのその他の命令をス
クロールする。該二重パイプラインは、グローバルなス
トール（機能停止）メカニズムを有しており、それによ
り、危険性が検知される場合には、何れかの機能ユニッ
トが該パイプラインをストール、即ち機能停止させるこ
とが可能である。各々は、対応するステージをストール
させ、且つ更に１つのサイクルに対しそれに先行する全
てのステージをストールさせる。１つのステージがスト
ールすると、それは、別のサイクルに対しその中に現在
存在する命令を保持し、次いで正確にストールしなかっ
た場合における如く全てのステージの活動を再開始させ
る。

【００５３】各命令が実行されるべきパイプラインユニ
ットは、命令がメインメモリからフェッチされる場合
に、命令ローダー１８によってラン（稼動）時間におい
て決定される。命令ローダー１８は、プレフェッチされ
た命令をデコードし、該命令を命令対エントリへパック
すべく試み、且つ該命令を二重パイプラインへ供給す
る。命令キャッシュ２２がイネーブルされると（上述し
た如く）、キャッシュ可能な命令が命令キャッシュ２２
内に格納させることが可能である。この場合において
は、命令対又は単一の命令を有するエントリも、命令キ
ャッシュ２２へ送給され、且つそこにおいて単一のキャ
ッシュエントリとして格納される。命令キャッシュのヒ
ットの場合には、格納されている命令対が命令キャッシ
ュ２２から検索され且つ実行のために二重パイプライン
へ供給される。

【００５４】命令ローダー１８は、可能な場合には何時
でも命令を対構成にパックすべく試みる。２つの命令を
１つのエントリへパックすることは、最初の命令が整数
パイプラインユニット２４によって実行することが可能
であり且つ両方の命令が予め選択した最大長未満のもの
である場合においてのみ可能である。２つの命令を１つ
の対にパックすることが不可能な場合には、単一の命令
をスロットＢ内に配置させる。

【００５５】２つの命令は、以下の全ての条件が成立す
る場合にのみ対構成とさせることが可能である。即ち、
（１）両方の命令が性能臨界的コア命令であり、（２）
最初の命令が整数パイプラインユニット２４によって実
行可能であり、且つ（３）両方の命令における変位及び
即時フィールドが短いエンコーディングを使用するもの
であること（分岐命令以外の全ての命令に対する短いエ
ンコーディングは１１ビットであり、且つ条件付分岐及
び分岐及びリンク命令に対しては１７ビットである）。

【００５６】マイクロプロセサ１０命令セットの幾つか
の命令は、整数パイプラインユニット２６上においての
みラン（稼動）することに制限されている。例えば、命
令キャッシュ２２内の命令対はスロットＡアドレスによ
ってタグがつけられているので、スロットＡ内に分岐命
令を入れることは有用ではない。なぜならば、対応する
スロットＢ命令はアクセス可能ではないからである。同
様に、単一の演算浮動小数点パイプが存在する場合に
は、２つの演算浮動小数点命令を並列的に実行すること
は不可能である。これらの命令を整数パイプラインユニ
ット２６へ制限することは、性能を損傷することなし
に、二重パイプラインデータ経路構成を著しく簡単化す
ることを可能とする。

【００５７】整数ユニット２６は、マイクロプロセサ１
０の命令セット内の任意の命令を実行することが可能で
ある。命令ローダー１８は、命令キャッシュのミスが発
生する場合に命令の対構成を開始し、その場合に、命令
を命令キューへプレフェッチ動作することを開始する。
並列的に、命令ローダー１８は、命令キューから未だに
除去されていない次の命令を検査し、且つ以下のアルゴ
リズムに従ってそれをパックする試みを行なう。

【００５８】ステップ１：次の命令をスロットＡ内にフ
ィットすべく試みる。（ａ）次の命令が性能臨界的でない場合には、ステップ
５へ移行する。（ｂ）命令キューから次の命令を除去し且つ暫定的にそ
れをスロットＡ内に配置させる。（ｃ）その命令がスロットＡに対して合法的でないか又
はその命令が１１ビットで表わすことが不可能な即時／
変位フィールドを有しているか、又はその命令がクワッ
ド（四重）ワード整合型ではない場合には、ステップ４
へ移行する。（ｄ）そうでない場合には、ステップ２へ続行する。

【００５９】ステップ２：次の命令をスロットＢ内へフ
ィットさせるべく試みる。（ａ）次の命令が性能臨界的でないか、又は次の命令が
１１ビットよりも長いコード化された即時／変位フィー
ルドを有しているか、又は次の命令が１７ビットよりも
長い変位を有する分岐である場合には、ステップ４へ移
行する。（ｂ）そうでない場合には、命令キューから次の命令を
除去し、それをスロットＢ内へ配置させ、且つステップ
３へ移行する。

【００６０】ステップ３：命令対エントリの構成。この場合には、スロットＡ及びスロットＢの両方が有効
な命令を有しており、且つ全ての対構成条件が満足され
ている。対エントリを発行し且つステップ１へ移行す
る。

【００６１】ステップ４：単一命令エントリの構成。この場合には、スロットＡは対構成とすることが不可能
な命令を有している。この命令をスロットＢへ移動させ
る。この命令が１７ビットよりも長い即時／変位フィー
ルドを有しているか、又はそれが１７ビットよりも長い
変位を有する分岐であり且つクワッド（四重）ワード整
合型ではない場合には、それをＵＮＤｅｆｉｎｅｄ（不
定）と置換する。該エントリを発行し且つステップ１へ
移行する。

【００６２】ステップ５：非性能臨界的命令の取扱い。命令キューから次の命令を取除き且つそれを命令エミュ
レータ２０へ送給する。この命令を終了すると、ステッ
プ１へ移行する。

【００６３】上述した対構成（ペアリング）アルゴリズ
ムは、２つの命令を単一の命令キャッシュエントリ内に
保持することが可能である場合には何時でも、２つの命
令をパックさせる。しかしながら、これらの命令は、従
属性のものである場合があり、その場合には、それらの
命令を並列的に実行させることはできない。このような
従属性は、実行プロセサ１４によって検知される。

【００６４】以上、本発明の具体的実施の態様について
詳細に説明したが、本発明は、これら具体例にのみ限定
されるべきものではなく、本発明の技術的範囲を逸脱す
ることなしに種々の変形が可能であることは勿論であ
る。

【図面の簡単な説明】

【図１】本発明の概念を組込んだマイクロプロセサア
ーキテクチャを示したブロック図。

【図２】図１のアーキテクチャにおいて使用される部
分的にデコードされた命令キャッシュの構成を示したブ
ロック図。

【図３】図２に示した命令キャッシュに格納される部
分的にデコードされたエントリを示した概略図。

【図４】図１に示したマイクロプロセサアーキテクチ
ャにおいて使用される整数パイプラインの構成を示した
ブロック図。

【符号の説明】

１０マイクロプロセサ１２命令プロセサ１４実行プロセサ１６バスインターフェースプロセサ１８命令ローダー２０命令エミュレータ２２命令キャッシュ２４，２６パイプライン型整数実行ユニット２８浮動小数点実行ユニット３０データキャッシュ３４浮動小数点レジスタ３６バスインターフェースユニット３８システムモジュール４０タイマ４２ＤＭＡコントローラ４４インタラプト制御ユニット４６Ｉ／Ｏバッファ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ランタルムディイスラエル国，ラーナナ，ハコハーブストリート 42 (72)発明者ドロールアブノンイスラエル国，ネターニャ，ラマットポレグ．ハハザビムストリート３ (72)発明者ギデオンユーバルイスラエル国，エルサレム，ホベベイジオン20 (72)発明者ヤイールベイダッチイスラエル国，テルアビブ，ネオットアフェカ，カヒラットパデューバ 25／９ (72)発明者アモスベン−メイールイスラエル国，ラマットアビブ，ダニエルモリッツストリート 24 ／１ (72)発明者ドンアルパートイスラエル国，ヘルヅリア，ハナディブストリート 62 (72)発明者オベッドオズイスラエル国，クファールサバ，ハバニム３ (72)発明者ギデオンイントラターイスラエル国，ラマットガン，シャーレットストリート 46 (72)発明者ルーベンマルコイスラエル国，ナターニャ，ハシーバストリート 14／15 (72)発明者アーロンシャチャムイスラエル国，テル−アビブ，ナータンハハハムストリート８ (72)発明者ヅビグリーンフェルドイスラエル国，クファールサバ，ハマアピリムストリート８／６ (56)参考文献特開昭62−235658（ＪＰ，Ａ) 特開平２−130635（ＪＰ，Ａ) 特開昭58−99868（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/30 - 9/38

Claims

(57)【特許請求の範囲】

【請求項１】エンコードされる命令がマイクロプロセサ
外部であり且つシステムバスを介してマイクロプロセサ
へ接続可能なメインメモリから検索され、マイクロプロ
セサがシステムクロックサイクル当り１個を超える命令
の割合で命令を実行するように第１及び第２の実行ユニ
ットの各々が他方による命令の実行と並列的に命令を実
行することによってシステムクロック信号の周期的なサ
イクルに応答するように少なくとも第１及び第２の実行
ユニットを具備するマイクロプロセサにおいて、各個別的な命令キャッシュエントリが第１の部分的にデ
コードした命令を格納する第１格納スロット及び第２の
部分的にデコードした命令を格納する第２格納スロット
を具備している複数個の個別的な命令キャッシュエント
リを有している命令キャッシュ、前記システムバスへ接続されており、前記外部メインメ
モリからの第１及び第２のエンコードした命令を逐次的
に検索するバスインターフェースユニット、前記バスインターフェースユニットへ接続されており、
前記第１のエンコードした命令を第１の部分的にデコー
ドした命令へ及び前記第２のエンコードした命令を第２
の部分的にデコードした命令へ逐次的に変換し、且つ前
記命令キャッシュへ接続されていて、前記第１及び第２
の部分的にデコードした命令を選択した命令キャッシュ
エントリの前記第１及び第２格納スロットへ夫々逐次的
に格納させる命令ローダー、を有していることを特徴とするマイクロプロセサ。
【請求項２】請求項１において、前記選択した命令キャ
ッシュエントリが、前記命令ローダーから受け取られた
ものであり且つ前記第１のエンコードした命令及び前記
第２のエンコードした命令の長さを表す補助情報を格納
する補助格納空間を有していることを特徴とするマイク
ロプロセサ。
【請求項３】請求項１において、前記第１の実行ユニッ
トが前記選択した命令キャッシュエントリの第１格納ス
ロットから前記第１の部分的にデコードした命令を受け
取るべく接続されており、且つ前記第２の実行ユニット
が、前記第１の実行ユニットによる前記第１の部分的に
デコードした命令の受け取りと並列的に、前記選択した
命令キャッシュエントリの第２格納スロットから前記第
２の部分的にデコードした命令を受け取るべく接続され
ていることを特徴とするマイクロプロセサ。
【請求項４】請求項１において、前記外部メインメモリ
内に格納されている命令が、エンコードされたコア命令
とエンコードされた非コア命令とを有しており、命令エ
ミュレータが前記システムバスへ接続されており且つ前
記第１及び第２命令ユニットの内の選択した一つによっ
て実行するための部分的にデコードしたコア命令の対応
するシーケンスを発生することによって前記外部メイン
メモリから検索されたエンコードされた非コア命令に応
答することを特徴とするマイクロプロセサ。
【請求項５】請求項１において、前記命令ローダーが、
前記第１及び第２の部分的にデコードした命令を並列的
に実行するように独立的なものであるか、又は前記第１
及び第２の部分的にデコードした命令を逐次的に実行す
るように従属的なものであるかを決定する比較メカニズ
ムを有していることを特徴とするマイクロプロセサ。
【請求項６】請求項５において、前記選択した命令キャ
ッシュエントリが、前記命令ローダーから受け取られた
ものであり且つ前記第１及び第２の部分的にデコードさ
れた命令が独立的であるか又は従属的であるかを表す補
助情報を格納する補助格納空間を有していることを特徴
とするマイクロプロセサ。