JP2928695B2

JP2928695B2 - 静的インタリーブを用いたマルチスレッドマイクロプロセッサおよびそれを備えたシステムでの命令スレッド実行方法

Info

Publication number: JP2928695B2
Application number: JP5001268A
Authority: JP
Inventors: チンチャンジン; リンウーチュアン
Original assignee: INDASUTORIARU TEKUNOROJII RISAACHI INST
Current assignee: INDASUTORIARU TEKUNOROJII RISAACHI INST
Priority date: 1992-02-25
Filing date: 1993-01-07
Publication date: 1999-08-03
Anticipated expiration: 2014-08-03
Also published as: US5404469A; DE4217012A1; JPH07191847A; DE4217012C2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、機能ユニットレベル
で、並列処理技術を利用したプロセッサシステムに関す
るものである。また、本発明は、特に、多重化された命
令スレッドを同時に実行することのできるマイクロプロ
セッサの、ＶＬＩＷ（Very Long Instruction Word)に
基づいたア−キテクチャ−に関するものである。すなわ
ち、本発明においては、静的インタリ−ブの技術を、多
重化された命令スレッドへの、ハ−ドウェア資源の割り
当てに用いる。具体的には、プロセッサの各機能ユニッ
トを、タイムスロットのあらかじめ定めた固定繰り返し
パタ−ン中のあらかじめ定めた固定タイムスロット内の
特定のスレッドの命令に割り当てる。このハ−ドウェア
割り当ては、ポスト−パス並列コンパイラによって提示
される。ポスト−パス並列コンパイラは、命令間のデー
タ依存性と、ハ−ドウェア資源の割り当てを考慮して、
命令実行シ−ケンスの各スレッドを最適化する。

【０００２】

【従来の技術】マイクロプロセッサの性能は、現在、多
くのＲＩＳＣス−パ−スカラプロセッサがそう設計され
ているように、１サイクルで２以上の命令を同時に実行
することにより、また、命令実行時間の短縮化により目
覚ましく向上した。また、今日、市販されているマイク
ロプロセッサは、既に、ス−パ−コンピュ−タシステム
によって得ることのできる性能レベルの主要な一部を達
成することができる。さらに、近い将来に、シングルチ
ップ技術に期待されるクロック速度やゲ−ト数の目覚ま
しい増加は、マイクロプロセッサ技術を、さらなるス−
パコンピュ−ティングの能力を有するコスト性能的にユ
ニ−クなツ−ルとするものと予想される。

【０００３】しかしながら、現在、たとえばｉ８６０や
ＭＣ８８１００に、ス−パ−スカラマイクロプロセッサ
で採用されている単一スレッドパイプライン命令送出ア
−キテクチャ−では、目覚ましい計算能力の向上は期待
できない。単一命令スレッドの並列処理数は、データと
制御の命令間の依存度によって制限される。この依存度
は、命令の発行レ−トを遅くし、プロセッサ内の機能ユ
ニットの利用度を劣化させる。すなわち、一つの機能ユ
ニットがビィジー状態である間、他のユニットは、この
ビィジー状態のユニットよりの結果待ちのために、アイ
ドル状態となる場合がある。

【０００４】機能ユニットの利用度を改善する１つの方
法は、複数の異なる命令スレッドをインタリ−ブするこ
とである。これにより、複数の命令スレッドを同時に実
行することができる。

【０００５】命令スレッドは、特定のコンテキストに属
する命令の集合として定義することができる。具体的に
は、一つの命令スレッドは、他の命令スレッドから独立
している。スレッドは、充分な並列処理性を示す単一の
プログラムや、異なるプログラムによって生成される。
単一のスレッド内の命令間におけるデータと制御の依存
度は、全ての機能ユニットへの命令の同時発行を妨げ
る。しかし、異なるスレッドに属する命令は、相互に独
立しており、複数の機能ユニットへ同時に発行すること
ができる。

【０００６】マルチスレッドア−キテクチャ−では、コ
ンテキストを切り替えるためのオ−バ−ヘッド成しに、
多重化された命令スレッドが同時に実行することができ
るよう、多重化されたコンテキストをハ−ドウェアによ
ってサポ−トする。同時に実行されるスレッド間で、コ
ンテキスト切り替えのオ−バヘッドが存在しないため、
プロセッサのスル−プットおよび実行速度を改善するた
めに、スレッド内、スレッド間の両方の命令レベルの並
列処理を活用することができる。

【０００７】より高い性能を得るために、また、シング
ルチップマイクロクプロセッサ内の資源の利用度を改善
するために、多くのマルチスレッドア−キテクチャ−が
提案されている。R.G.PrasadhとC.L.WUによる「A Bench
mark Evaluation of a Multi-threaded RISC Processor
Architecture」（Proc. of the International Confer
ence on Parllel Processing, 1991)では、ＶＬＩＷモ
デルに基づいたス−パ−スカラア−キテクチャ−が、マ
ルチスレッドア−キテクチャ−の性能を調査するために
提案されている。また、動的インタ−リ−ブの手法が、
資源の争奪（競合）問題の解決のために提案されてる。
また、G.E.Daddis,Jr.とH.C.Tongの「The Concurrent E
xecution of Multipul Instruction Streams on Supers
calar Processors」（Proc. of the International Con
ference on Parllel Processing,1991)において、ラン
タイム中に命令をスケジュ−リングするためのディスパ
ッチスタックを用い、スパ−スカラ−プロセッサにおい
て二つのスレッドを同時に処理するシステムが開示され
ている。また、動的レジスタ割り当ての手法が、スレッ
ド内、スレッド間の両方の命令レベルの並列処理を活用
するために用いられている。

【０００８】これらの従来のシステムでは、動的インタ
リ−ブと、スケジュ−リングの技術が、スレッド間での
資源の争奪の問題を解決するために用いられている。

【０００９】そこで、動的インタリ−ブについて詳細に
説明する。

【００１０】図１は、動的インタリ−ブを用いて、多重
化された命令スレッドを同時に実行するマイクロプロセ
ッサ１０を示している。

【００１１】プロセッサ１０は、ＦＵ−１，ＦＵ−
２，．．，ＦＵ−Ｎの符号を付した複数の機能ユニット
１４を有している。たとえば、このように８個の機能ユ
ニットを有し、これらの８個の機能ユニットは、メモリ
の読み出しと書き込みを行うロ−ド／ストアユニット、
データの移動と整数加算と減算操作を行う整数ユニッ
ト、ビットフィ−ルドの操作を行うロジックユニット、
データタイプに変換を行う整数／浮動小数点変換ユニッ
ト、浮動小数点加算ユニット、浮動小数点掛け算ユニッ
ト、浮動小数点割算ユニット、分岐ユニットを含み、各
ユニットは、パイプライン化されており、毎サイクルに
新しい命令を受けることができる。

【００１２】たとえば、図１のＦＵ−１は、ロ−ド／ス
トアユニットであり、図示せざるデータキャッシュをア
クセスする。機能ユニット１４は、相互連絡ネットワ−
ク１６を介してレジスタファイル１８に接続している。
各命令スレッドは、レジスタファイル１８内に、プライ
ベ−トなレジスタバンクを有するプロセッサ１０によっ
て実行される。プロセッサ１０は、１、２、３、．．、
ＴのＴ個の命令スレッドを実行する。そして、レジスタ
ファイル１８は、それぞれが命令スレッドの一つに対応
するＴ個のレジスタバンクを有している。

【００１３】たとえば、各レジスタバンクは、３２個の
３２ビット整数レジスタと、１６個の６４ビット浮動小
数点レジスタを有している。整数、論理、ロ−ド／スト
ア、分岐の各ユニットは、整数レジスタにのみアクセス
することができる。また、浮動小数点ユニットが使用で
きるのは、浮動小数点レジスタのみに限られている。そ
して、整数／浮動小数点変換ユニットのみが、両方のレ
ジスタにアクセスすることができる。ここで、整数レジ
スタと浮動小数点レジスタ間の全てのデータ転送は、整
数／浮動小数点変換ユニットによって行われる。

【００１４】図１のプロセッサ１０で使用される命令セ
ットは、分散型命令セットコンピュ−タ用に開発された
ＲＩＳＣ命令セットの部分集合である。このような分散
型命令セットコンピュ−タに関しては、L.Wang, C.L.Wu
らの、「Distributed instruction Set Computer Aechi
tecture」（IEEE Trans. on Computer)や、「Distribut
ed instruction Set Computer」(Ph.D.Dissertaion,Uni
v.Texas, AUstin,Dec.1989)に記載されている。命令セ
ットは、３オペランド、２オペランド、１オペランドの
３つのフォ−マットにおいて、直交化定義された４９個
のマシン命令より成る。各マシン命令は、たとえば３２
ビット長である。

【００１５】図１のプロセッサ１０は、コンパイラを実
行する。コンパイラは２つの部分よりなる。前半部は、
たとえばＣ言語で記述された高級言語プログラムを、先
に示したような命令セットより取りだしたマシン命令の
シ−ケンスに翻訳する。コンパイラの後半部は、シ−ケ
ンシャルなコ−ドを、水平型命令語（ＨＩＷｓ）に変換
する。水平型命令語は、それぞれが特定の機能ユニット
に対応し、対応する特定の機能ユニットで実行されるマ
シン命令を格納することのできる、複数のフィ−ルドも
しくはセクションを有している。プロセッサ１０で実行
される各命令スレッドは、これらの水平型命令語より成
る。コンパイラは、相互にデータの依存性を待たない複
数のマシン命令を組み合わせることにより水平型命令語
を生成する。したがい、ひとつの水平型命令語は、同じ
クロックサイクルに発行することができるデータ依存性
の無い複数の命令より成る。もし、ある特定の機能ユニ
ットへの命令が存在しない場合には、コンパイラはＮＯ
ＯＰ命令（ｎｏｏｐｅｒｔｉｏｎ）を水平型命令語の
適当なセクションに挿入する。

【００１６】図１のプロセッサ１０において、各命令ス
レッドの水平型命令後語は、独立した命令キャッシュ２
０に格納される。各命令キャッシュ２０は、前述したよ
うにコンパイルされた、１つに命令スレッドの複数の水
平型命令語を格納している。

【００１７】図１のプロセッサ１０は、また、動的イン
タリ−ブユニット２６の制御下で、対応する命令キャッ
シュよりの命令をフェッチする複数の命令フェッチユニ
ット２４を有している。

【００１８】各命令は、次の３つの主要なパイプライン
ステ−ジを通される。

【００１９】１．命令フェッチステ−ジ；命令はキャッ
シュよりフェッチされる。

【００２０】２．命令インタリ−ブ／デコ−ドステ−
ジ；命令は、動的インタリ−ブユニット２６によって、
可能な場合には他の命令スレッドよりの他の命令と共に
インタリ−ブされる。また、命令は、デコ−ドユニット
２７によってデコ−ドされ、対応する機能ユニット１４
に発行される。

【００２１】３．実行ステ−ジ；各命令は、機能ユニッ
トによって実行され、その結果がレジスタファイル１８
に書き戻される。ここで、コンパイラは、適当なコ−ド
スケジュ−リングによって、機能ユニット間の競合を避
けている。

【００２２】動的インタリ−ブのプロセスにおいて、動
的インタリ−ブユニットは、たとえばラウンドロビン方
式等の、所定の優先制御方式に従って、一つのスレッド
を選択する。そして、動的インタリ−ブユニットは、そ
のスレッドの次の水平型命令語を調査し、可能な場合に
は、（コンパイラによって挿入された）全てのＮＯＯＰ
命令を、他のスレッドの対応する非ＮＯＯＰ命令によっ
て置き換える。そして、この新たに組み合わせた水平型
命令語の各命令を、適切なデコ−ダ２７に送る。各機能
ユニットのは、命令の属するスレッドを識別し、これに
相当する制御信号を生成する。

【００２３】図２、３は、動的インタリ−ブの例を示し
たものである。図２ａに示すように、この例は、整数加
算／減算ユニットＦＵ−１、論理ユニットＦＵ−２、浮
動小数点／整数変換ユニットＦＵ−３、浮動小数点加算
／減算ユニットＦＵ−４の４つの機能ユニットが存在す
る場合のものである。また、それぞれ対応する命令バッ
ファもしくはキャッシュに格納された、１、２、３の符
号を付して示す３つの命令スレッドが存在する場合のも
のである。図２ａに示すように、各命令バッファは、２
つの水平型命令語を格納し、各水平型命令語は、各機能
ユニットに対応するセクションを有している。

【００２４】命令バッファ中に示した命令は、コンパイ
ラによって静的にスケジュ−リングされたものである。
この例は、インタリ−ブのためのスレッドの選択にラウ
ンドロビン戦略を用い、各スレッドは自身のレジスタセ
ットを有すると仮定した場合のものである。図２ｂに示
すように、第１のクロックサイクルＣＫ＝１では、３つ
のスレッドの第１番目の水平型命令語が、命令キャッシ
ュよりフェッチされ、動的インタリ−ブユニットに送ら
れる。そして、スレッド１が初めに選択される（図２ｂ
中、ボ−ルド体で示したもの）。このスレッドのＡＤＤ
２命令は、整数ユニットのデコ−ダに送られる。次に、
スレッド１の命令は、もう無いので、今度は、スレッド
２が選択される。スレッド１のＡＤＤ２命令が既に整数
ユニットに送られているので、スレッド２のＡＤＤ２命
令の発行は次のクロックまで延期される。一方、論理ユ
ニットは、空き状態にある。そこで、スレッド２のＳＨ
ＬＬ２命令が論理ユニットデコ−ダに送られる。これ
で、このスレッドの命令は無くなったので、次はスレッ
ド３が選択される。一方、スレッド３のＦＭＯＶＥＦ命
令は、空き状態にある浮動小数点／整数変換ユニットの
デコ−ダに送られる。この時点では、これ以上の命令は
発行できない。このようにして、ＣＫ＝１では、スレッ
ド１のＡＤＤ２命令、スレッド２のＳＨＬＬ命令、スレ
ッド３のＦＭＯＶＥＦが、同時に機能ユニットデコ−ダ
に発行される。

【００２５】第１のクロックサイクルの終了時点におい
て、動的インタリ−ブユニット中に、スレッド１とスレ
ッド２の命令は、もう無い。そこで、これらのスレッド
の次の水平型命令語を、対応する命令キャッシュよりフ
ェッチし、動的インタリ−ブユニットに送る。一方、ス
レッド２について、発行すべきＡＤＤ２命令が残ってい
るので、スレッド２よりの次の水平型命令語はフェッチ
しない。ＣＫ＝２における、動的ンタリ−ブユニット内
の３つの水平型命令語を図３ａに示す。ＣＫ＝２におい
ては、ラウンドロビン戦略に従って、スレッド２が初め
に選択される。スレッド２のＡＤＤ２命令は、整数ユニ
ットデコ−ダに送られる。次に、スレッド３が選択さ
れ。このスレッドのＳＨＬＬ２命令とＦＳＵＢ命令が、
論理ユニットと浮動小数点加算／減算ユニッットにそれ
ぞれ送られる。最後は、スレッド１が選択されるが、必
要となる機能ユニットデコ−ダが占有されているので、
スレッド１よりの命令は発行されない。プロセスは、第
３のクロックサイクルＣＫ＝３に同様に進む。第３のク
ロックサイクルにおいて、動的インタリ−ブユニットに
格納されている命令を図３ｂに示す。これらは、第３の
クロックサイクルで機能ユニットに発行される命令であ
る。第３のクロックサイクルの終了時で、３つのスレッ
ドの全ての命令は発行されたことになる。もし、動的イ
ンタリ−ブを用いなければ、例として示した命令を発行
するのに６クロックを要する。このように、動的インタ
リ−ビングは、例示した２つの要因により命令発行レ−
トを改善することができる。

【００２６】動的インタリ−ブユニットで行われる基本
的な操作は、それがＮＯＯＰ命令であるかを調べる、命
令の部分デコ−ドである。もし、ある命令がＮＯＯＰ命
令でない場合、その命令は、必要な制御信号を生成する
機能ユニットデコ−ダに発行される。もし、命令がＮＯ
ＯＰ命令の場合には、より低い優先度のスレッドよりの
次の命令が、非ＮＯＯＰ命令が見つかるか、全てのスレ
ッドについて終了するまで、ドミノ式にチェックされ
る。この、全ての操作は、１クロックサイクル中に完了
しなければならない。図４は、これを実現することので
きる論理回路を示している。図４において、ＳＷ１、Ｓ
Ｗ２は、論理スイッチである。信号ＮＤは、部分命令デ
コ−ドの結果たる、「ＮＯＯＰ検出」信号であり、Ｐ
は、優先度信号である。各クロックサイクルにおいて、
ただひとつのスレッドに対応する優先度信号が値ＨＩＧ
Ｈとなり、他の優先度信号は値ＬＯＷとなる。信号ＩＳ
は、命令発行信号であり、これは、ＨＩＧＨのとき、対
応するスレッドよりの命令が機能ユニットデコ−ダに発
行されることを示す。動的インタリ−ブユニットは図４
に示すような論理回路を、全ての機能ユニットに対して
有している。

【００２７】

【発明が解決しようとする課題】このように、動的イン
タリ−ビングによれば、機能ユニットの高利用率を達成
することができるが、いくつかの問題が残っている。

【００２８】第１には、ＮＯＯＰ再配置テクニックのた
めに必要となる高命令フェッチ帯域を、ハ−ドウェアが
サポ−トしなければならない点である。さらに、動的イ
ンタリ−ブユニットを実現するためには、次の水平型命
令語をフェッチし実行できるようにスレッドの一つの水
平型命令語の完成を検出するのに必要な、特別のハ−ド
ウェアを含む複雑なハ−ドウェアが必要となる。また、
同じ水平型命令語中の全ての命令が同じクロックサイク
ル中に発行されることが保証されていないので、ライト
後リ−ドという依存性を有する２つの命令を一つの水平
型命令語に含めることができない。同様に、２つの連続
する水平型命令語が、非連続サイクルにおいて発行され
得るので、命令を分岐ディレイスロットに格納すること
ができない。このような拘束は、マルチスレッドア−キ
テクチャ−の命令発行レ−トを低下させる。

【００２９】そこで、本発明は、動的インタリ−ブに関
連した、これらの問題を解決することができる、マイク
ロプロセッサのマルチスレッドア−キテクチャ−を提供
することを目的とする。

【００３０】

【課題を解決するための手段】前記目的達成のために、
本発明は、複数の命令スレッドを同時に実行することの
できるマイクロプロセッサであって、複数の機能ユニッ
トを有するプロセッサと、複数の命令スレッドを形成す
る、それぞれが特定の一つの前記機能ユニットによって
実行される１以上のマシン命令を含む複数の水平型命令
語を記憶する手段と、所定の順序で所定の時間に、異な
る命令スレッドに属する前記水平型命令語を、前記記憶
する手段よりフェッチする手段と、タイムスロットの所
定の固定繰り返しパタ−ン中のあらかじめ定めた固定タ
イムスロット中の、特定の命令スレッドよりのマシン命
令の実行に、前記各機能ユニットを割り当てる手段とを
有することを特徴とするマイクロプロセッサを提供す
る。

【００３１】

【作用】すなわち、本発明では、ＶＬＩＷ(Very Long I
nstruction word)マルチスレッドプロセッサア−キテク
チャ−における前記争奪の問題を解決するための、動的
インタリ−ブに代えて、静的インタリ−ブの技法を用い
る。静的インタリ−ブの技法においては、プロセッサの
各機能ユニットは、タイムスロットのあらかじめ定めた
固定繰り返しパタ−ン中のあらかじめ定めた固定タイム
スロット中の特定のスレッドよりのマシン命令の実行に
割り当てられる。特定の機能ユニットが、特定のタイム
スロット中の特定スレッドの命令を割り当てられる、タ
イムスロットのあらかじめ定めた固定繰り返しパタ−ン
は、計算資源の争奪問題を解決するためにハ−ドウェア
に課せられた資源の拘束を表している。この資源割り当
て戦略は、ハ−ドウェア資源のあらかじめ定めた固定割
り当てを考慮し、命令間のデータ依存性を維持するよう
に、マシン命令のシ−ケンスを水平型命令語に編成する
並列コンパイラにより提示される。

【００３２】動的インタリ−ブを利用した従来のマイク
ロプロセッサに比べると、静的インタリ−ブを用いる本
発明のマイクロプロセッサは、ハ−ドウェアの複雑さを
軽減することができる。また、さらに、本静的インタリ
−ブの技法によれば、プログラムのコ−ドサイズを、顕
著に減少させることができる。

【００３３】

【実施例】以下、本発明の実施例を説明する。

【００３４】静的インタリ−ブ方式においては、全ての
機能ユニットを、ラウンドロビン方式によって、スレッ
ドに割り当てる。機能ユニットが、選択したスレッドに
よって用いられない場合、ＮＯＯＰ命令が、その機能ユ
ニットで実行される。

【００３５】一般的に、静的インタリ−ブの方式は、割
り当てベクトル（ＡＶ）によって特性付けることができ
る。ＡＶは、各機能ユニットＦＵｉについて、エントリ
ＡＶｉを有している。ここで、１≦ＡＶｉ≦Ｔであり、
Ｔはハ−ドウェアによってサポ−トされるスレッドの数
である。プログラムの実行中において、時間ｔには、Ｆ
Ｕｉは、スレッドτに割り当てられる。ここで、τ＝
１，２，．．．，Ｔであり、次式で与えられる。

【００３６】 τ＝１＋（ｔ＋Ｔ−ＡＶｉ）ｍｏｄＴ −（式１）以下、４つの機能ユニットＦＵ−１，ＦＵ−２，ＦＵ−
３，ＦＵ−４を有する４スレッドのア−キテクチャ−に
ついて考える。ＡＶ＝｛１，４，２，２｝を与えられた
場合の、特定のスレッドに対する機能ユニットの配置を
図５ａに示す。図５ａにおいて、テ−ブルの各エントリ
は、各タイムスロットにおいて、対応する機能ユニット
を使用することができるスレッドの番号を示している。
タイムスロットの機能ユニットへの割り当ては、それ自
身繰り返すパタ−ンを形成する。図５ａにおいては、パ
タ−ンは各４タイムスロット毎に繰り返す。最適なＡＶ
を決定するアルゴリズムを次に説明する。

【００３７】図５ｂは、各スレッドの命令をスケジュ−
ルするために、割り当てベクトルによって特定されるハ
−ドウェア資源の割り当てが、どうのように、ポスト−
パス並列コンパイラに与えられるかを示している。図５
ｂは、各機能ユニットに対応する４つのセクションを有
する、１、２、３、．．．の番号を付した水平型命令語
のリストを示している。本実施例では、並列コンパイラ
は、対応する機能ユニットによって実行されるマイクロ
命令を、斜線掛けしたセクションのみに格納することが
できる。斜線掛けしていないセクションはＮＯＯＰ命令
を格納する。特定の斜線掛けセクションを有する水平型
命令語のパタ−ンは、Ｔ個の命令語毎に繰り返す。ここ
でＴは、スレッドの数である。

【００３８】後述するように、図５ｂに示す命令の各パ
タ−ンは、４つのＨＩＷｓより成り、並列コンパイラに
より、単一の水平型命令語にまとめられる。水平型命令
語の同じパタ−ンが、各スレッドを個々にスケジュ−リ
ングするために、コンパイラによって利用される。

【００３９】図５ｂに示した水平型命令語のパタ−ン
は、この場合ＡＶ＝（１，４，２，２）である割り当て
ベクトルから導き出される。Ｈｋ番目の水平型命令語
の、機能ユニットＦＵｉに対応するフィ−ルドは、（Ｈ
ｋ＋Ｔ−１）ｍｏｄＴ＋１がＡＶｉと等しいときに、斜
線掛けされる。本例ではＴは４である。

【００４０】言い替えるならば、ハ−ドウェアで使用さ
れる資源割り当て戦略によって課される資源の制約は、
並列コンパイラの命令パタ−ンのシ−ケンスとして表現
される。各スレッドが、まずシ−ケンシャルにコンパイ
ルされ、生成されたシ−ケンシャルなコ−ドが、このパ
タ−ンに従って、水平型命令語中にスケジュ−ルされ
る。並列コンパイラにおいて、シ−ケンシャルコンパイ
ラによって生成された各スレッドについての命令は、命
令間の制御依存性とデータ依存性を維持するように、こ
のパタ−ン中にスケジュ−ルされる。そして、各パタ−
ンを形成する水平型命令語の組は、単一の水平型命令語
に圧縮される。この圧縮の詳細について説明する。

【００４１】図５ｂのパタ−ンに従って、全ての命令ス
レッドがコンパイルされたなら、図５ａに示すようにス
レッドを相互にインタリ−ブすることができる。ここで
も、割り当てベクトルへの依存性を利用する。すなわ
ち、スレッド＃τの開始時間を、スレッド間の資源の争
奪を回避できるように、（τ−１）サイクル遅延する。

【００４２】図６に、以上説明してきた静的インタリ−
ブを利用するプロセッサ１００の構成を示す。ここで、
プロセッサ１００は、たとえば、単一の半導体チップで
実現することができる。プロセッサ１００は、４つの機
能ユニットＦＵ−１、ＦＵ−２，ＦＵ−３，ＦＵ−４を
有している。ここでたとえば、ＦＵ−１は算術ユニット
であり、ＦＵ−２は論理ユニットであり、ＦＵ−３はキ
−ド／ストアユニッットであり、ＦＵ−４は分岐ユニッ
トである。プロセッサ１００は、１、２、３、４のスレ
ッドを同時に実行する。また、キャッシュ１、キャッシ
ュ２、キャッシュ３、キャッシュ４の番号を付した、相
互に分離した命令キャッシュ１２０が、各命令スレッド
に対応して設けられている。各キャッシュ１２０は、対
応する命令スレッドを構成する水平型命令語を格納す
る。１，２，３，４の番号を付したレジスタバンク１３
０は、個々の命令スレッドのオペランドを格納する。特
定に命令スレッドよりの命令を実行するとき、機能ユニ
ットは適当なレジスタバンクよりオペランドをフェッチ
し、命令を実行した後オペランドをレジスタバンクに戻
す。ここで、機能ユニット１１０は、バス１３１を介し
てレジスタバンクにアクセスする。

【００４３】各機能ユニットに接続しているのはキュ−
１４０である。キュ−１４０は、割り当てベクトルによ
って定義される資源割り当てを実現するために設けられ
ている。すなわち、キュ−１４０は、タイムスロットの
パタ−ン中でその命令スレッドに対して確保されている
あらかじめ定めた固定スロット中の特定の命令スレッド
よりの命令が、各機能ユニットに発行されることを保証
する。

【００４４】先に示した例では、割り当てベクトルをＡ
Ｖ＝（１，４，２，２）とした。この場合、ＦＵ−１に
接続しているキュ−は、遅延１クロックサイクルを有し
ている。また、ＦＵ−２に接続しているキュ−は、遅延
４を、ＦＵ−３に接続しているキュ−は、遅延２を、Ｆ
Ｕ−４に接続しているキュ−は、遅延２を有している。

【００４５】水平型命令語は、命令フェッチユニット１
２１で用いられているあらかじめ定めた順序で択一的
に、キャッシュ１２０よりフェッチされる。具体的に
は、水平型命令語は、キャッシュ＃１から始まるラウン
ドロビンの順序でキャッシュよりフェッチされる。フェ
ッチされた各水平型命令語について、その中に含まれる
個々のマシン命令は、その命令を実行する機能ユニット
に接続したキュ−に与えられる。マシン命令語は、バス
１３２を介してキュ−１４０に転送される。個々の各マ
シン命令は、キュ−のあらかじめ定めた固定遅延によっ
て遅延された後に、適当な機能ユニットに発行される。
割り当てベクトルによって定まる遅延をキュ−に与え、
割り当てベクトルによって導かれるパタ−ンに従ってコ
ンパイルされた水平型命令語をあらかじめ定めた順所で
フェッチすることにより、特定のスレッドよりの個々の
マシン命令が、当該特定の命令スレッドに対して確保さ
れているあらかじめ定めた固定タイムスロットにおい
て、特定の機能ユニットに発行されることを保証するこ
とができる。

【００４６】静的インタリ−ブの主要な優位性は、コン
パイル時に命令の終了時を知ることができるので、並列
コンパイラが命令が実行シ−ケンスを最適化することが
できることである。

【００４７】図７は、本実施例においてプログラムのコ
ンパイルと実行のステップを示したフロ−チャ−トであ
る。初めにＣ言語のような高級言語で記述されたプログ
ラム２１０を、シ−ケンシャルコンパイラでコンパイル
する（ステップ２２０）。シ−ケンシャルコンパイラ
は、高級プログラムをマシン命令のシ−ケンスに変換す
る。次に、並列コンパイラが、マシン命令のシ−ケンス
を水平型命令語に再編成する（ステップ２３０）。この
再編成は２ステップで実行される。最初のステップ（ス
テップ２３１）では、各マシン命令が、複数の水平型命
令語を含む、命令パタ−ン中の位置に置かれる。命令パ
タ−ン中のマシン命令の位置は、命令間のデータ依存性
と割り当てベクトルによって決定するハ−ドウェア資源
割り当てに従う。２番目のステップ（ステップ２３２）
では、各パタ−ンの水平型命令語は、一つの命令スレッ
ドを形成するように、単一の水平型命令語に圧縮され
る。並列コンパイラの処理後、命令スレッドの圧縮され
た水平型命令語は、キャッシュに格納され、先に説明し
たように機能ユニットによって実行される（ステップ２
４０）。

【００４８】図８ｂは、図８ａに示した４つの水平型命
令語が、どのように図５ｂに示したパタ−ン中に置かれ
るかを示したものである。図８ａに示したシ−ケンス
は、図５ｂのＨＩＷｓ１−４の斜線掛けしたセクション
に置かれる。斜線掛けしていないセクションにはＮＯＯ
Ｐ命令が受け入れられる。図８ｃは、図８ｂに示した４
つの命令語のパタ−ンが、単一の水平型命令語に圧縮さ
れるかを示したものである。圧縮は、多くのＮＯＯＰ命
令を排除することによりコ−ドサイズを小さくする。

【００４９】シ−ケンシャルコンパイラによって生成さ
れた命令のシ−ケンス中のマシン命令Ｉｉは、Ｈｊ番目
（図５ｂ参照）の特定の水平型命令語中に、次のように
して置かれる。全てのマシン命令Ｉｊは、データ依存性
を決定するために、既にスケジュ−ルされた全ての命令
と比較される。命令Ｉｊは、シ−ケンスの先頭まで、も
しくは、命令Ｉｊのと間にデータ依存性がある命令Ｉｉ
が見つかるまで、可能な限り上に移動される。したが
い、Ｉｊをその中に配置することのできる水平型命令語
は、Ｈｊ＝Ｈｉ＋Ｌ（Ｄ）（Ｔｉ）（Ｔｊ）−（式２）で表すことができる。

【００５０】ここで、ＨｉはＩｉを追いたＨＩＷの番
号、ＨｊはＩｊを置くことのできるＨＩＷの番号、Ｔｉ
は命令Ｉｉのタイプ、Ｔｊは命令Ｉｊのタイプである。
また、ＤはＩｉとＩｊとの間のデータ依存性のタイプで
ある。ここで、データ依存性のタイプはリ−ドアフタ−
ライト（ＲＡＷ）かライトアフタ−リ−ド（ＷＡＲ）か
いずれかである。また、Ｌは、特定のＡＶの待ち時間
（レイテンシ）テ−ブルである。

【００５１】もし、Ｉｊが、ＨＩＷＨｊ中の命令と資
源争奪関係を持つならば、Ｉｊは、Ｔサイクル遅延され
る。もし、それでも競合するのであれば、Ｉｊは、さら
にＴサイクル遅延される。このような探索は、Ｉｊを置
くことのできるＨＩＷが見つかるまで続けられる。Ｈｊ
の計算において、待ち時間テ−ブルＬが、ＩｊとＩｉと
の間の待ち時間を決定するために用いられる。Ｄ，Ｔ
ｉ，Ｔｊと、ハ−ドウェアによって定義される、各命令
タイプの実行時間であるＦＵ待ち時間とが与えられる
と、Ｌ（Ｄ）（Ｔｉ）（Ｔｊ）が、表１に示すＣプログ
ラムによって計算される。

【００５２】

【表１】

【００５３】ここで、ｔｅｍｐ１とｔｅｍｐ２は、一時
的数値変数である。計算された待ち時間は、ハ−ドウェ
アによって定義される実行タイムとは異なる。待ち時間
テ−ブルの計算においては、依存のタイプ（すなわち、
Ｄ＝１の場合のＲＡＷ、Ｄ＝２の場合のＷＡＲ）、各命
令の実行時間、ＡＶを考慮する。一度待ち時間テ−ブル
が計算できたら、並列コンパイラは、式２を用いて実行
スケジュ−ル中における各命令の位置を決定するのに、
これを用いることができる。

【００５４】図９は、ＡＶ＝（１，４，２，２），ＦＵ
待ち時間（Ｔｉ）＝１、Ｄ＝１（データ依存性がＲＡ
Ｗ）の場合の、待ち知時間テ−ブルＬ（１）（Ｔｉ）
（Ｔｊ）を示したものである。この場合、命令タイプＴ
ｉ、Ｔｊは、これらの命令を実行する機能ユニットＦＵ
ｉ，ＦＵｊによって識別される。したがい、たとえば、
ＦＵ−３で実行されるＩｉとＦＵ−２で実行されるＩｊ
との間の待ち時間は２サイクルである。

【００５５】図１０、１１は、コンパイル例を示してい
る。図１０は、ほんの短いプログラムについて、シ−ケ
ンシャルコンパイラが生成したマシン命令のシ−ケンス
を示している。図１１は、ポストパス並列プロセッサに
よって生成された圧縮後の水平型命令語を示している。

【００５６】本実施例に係る静的インタリ−ブにおい
て、割り当てベクトルは重要である。割り当てベクトル
を選ぶ一つの方法は、最も多発するリ−ドアフタ−ライ
ト（ＲＡＷ）依存の待ち時間を減少させるように割り当
てベクトルを選ぶことである。すなわち、命令間のＲＡ
Ｗ依存の分布は、複数のベンチマ−クテストによって得
ることができるので、ＡＶは、式３（数１）が最小とな
るように選ぶ。

【００５７】

【数１】

【００５８】

【発明の効果】以上のように、本発明によれば、動的イ
ンタリ−ブによって生じる各種問題を、静的インタリ−
ブの技法によって解決することのできる、マルチスレッ
ドマイクロプロセッサを提供することができる。

【図面の簡単な説明】

【図１】動的インタリ−ブを用いた従来のマルチスレッ
ドマイクロプロセッサア−キテクチャ−を示すブロック
図である。

【図２】動的インタリ−ブの操作を示す説明図である。

【図３】動的インタリ−ブの操作を示す説明図である。

【図４】従来のマイクロプロセッサで用いられていた動
的インタリ−ブユニットの構成を示すブロック図であ
る。

【図５】本発明の一実施例に係る静的インタリ−ブで用
いるパタ−ンを示す説明図である。

【図６】本発明の実施例に係る静的インタリ−ブを用い
るマイクロプロセッサの構成を示すブロック図である。

【図７】本発明の実施例におけるプログラムのコンパイ
ルおよび実行操作を示すフロ−チャ−トである。

【図８】本発明の実施例におけるコンパイルのようすを
示した説明図である。

【図９】本発明の実施例に係るコンパイラが用いる待ち
時間テ−ブルを示す説明図である。

【図１０】本発明の実施例におけるシ−ケンシャルコン
パイル後のマシン命令のシ−ケンス例を示す説明図であ
る。

【図１１】本発明の実施例における圧縮後の水平型命令
の例を示す説明図である

【符号の説明】

１１０機能ユニット１２０キャッシュ１２１命令フェッチユニット１３０レジスタバンク１４０キュ−

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 9/38 G06F 9/46

Claims

(57)【特許請求の範囲】

【請求項１】複数の命令スレッドを同時に実行すること
のできるマイクロプロセッサであって、複数の機能ユニットを有するプロセッサと、複数の命令スレッドを形成する、それぞれが特定の１つ
の前記機能ユニットによって実行される１以上のマシン
命令を含む複数の水平型命令語を記憶する手段と、異なる命令スレッドに属する前記水平型命令語を、予め
定めた順序で予め定めた時間に、前記記憶する手段より
フェッチする手段と、特定の命令スレッドに含まれるマシン命令を、予め定め
た繰り返しパタ−ンで繰り返される時間枠（タイムスロ
ット）群中の予め定めた固定タイムスロットで実行する
ために、前記機能ユニットのそれぞれを割り当てる手段
とを有することを特徴とするマイクロプロセッサ。
【請求項２】請求項１記載のマイクロプロセッサであっ
て、前記割り当てる手段は、前記各マシン命令が、適切なタ
イムスロットにおいて適切な前記機能ユニットに提供さ
れるように、前記命令スレッドの各水平型命令語に含ま
れる各マシン命令に、予め定めた量の固定遅延を与える
キュ−イング手段を備えていることを特徴とするマイク
ロプロセッサ。
【請求項３】請求項１記載のマイクロプロセッサであっ
て、前記フェッチする手段は、ラウンドロビン方式にしたが
った順序で、前記記憶する手段より、前記水平型命令語
をフェッチすることを特徴とするマイクロプロセッサ。
【請求項４】請求項１記載のマイクロプロセッサであっ
て、前記記憶する手段は、それぞれが前記複数の命令スレッ
ドのうちの１つの命令スレッドについて用いられる、複
数の独立したキャッシュを有していることを特徴とする
マイクロプロセッサ。
【請求項５】請求項１記載のマイクロプロセッサであっ
て、各命令スレッドの前記水平型命令語は、マシン命令のシ
−ケンスを、複数の水平型命令語を含む、命令パタ−ン
のシ−ケンスに再編成するコンパイラによってコンパイ
ルされており、各マシン命令のパターン中の位置は、他
のマシン命令との間のデータ依存性と、特定の命令スレ
ッドの命令を実行する特定の機能ユニットに割り当てら
れた特定のタイムスロットとに応じて設定されるもので
あることを特徴とするマイクロプロセッサ。
【請求項６】複数の機能ユニットを具備し、該複数の機
能ユニットの各々に対して割り当てられるべき命令スレ
ッドを示す割り当てベクトルに従い、予め定めた繰り返
しパタ−ンで繰り返されるタイムスロット群中の予め定
めた特定の固定タイムスロットで、前記命令スレッドに
含まれる特定の命令を実行するように、該複数の機能ユ
ニットに複数の命令スレッドが割り当てられるマルチス
レッドプロセッサシステムにおいて、複数の命令スレッ
ドのうちの１つの命令スレッドをコンパイルし実行する
方法であって、シ−ケンシャルコンパイラを用いて、ソ−スプログラム
を、前記プロセッサシステムの特定の機能ユニットによ
って実行できるマシン命令のシ−ケンスにコンパイルす
るステップと、並列コンパイラを用いて、前記マシン命令のシ−ケンス
を、前記マシン命令のシ−ケンス中の先行する命令との
間のデータ依存性と、適切な機能ユニットを命令の実行
に用いることができるように前記割り当てベクトルで定
義されたタイムスロットとに応じて設定された位置に各
命令が配されている、命令パタ−ンのシ−ケンスに再編
成するステップと、前記並列コンパイラを用いて、１つの命令スレッドを形
成するために、前記命令パタ−ンの各々の命令を、１つ
の水平型命令語に圧縮するステップと、前記１つの命令スレッドの命令をキャッシュに記憶する
ステップと、前記１つの命令スレッドの命令を前記機能ユニットで実
行するステップとを有することを特徴とする命令スレッ
ド実行方法。
【請求項７】複数の機能ユニットと、各命令スレッドを
構成する、特定の前記機能ユニットによって実行される
１以上の命令を含んだ水平型命令語を記憶する複数のキ
ャッシュシステムと、を有するマルチスレッドプロセッ
サにおいて、同時に複数の命令スレッドを実行する方法
であって、あらかじめ定めた時間にあらかじめ定めた順序で、異な
る命令スレッドに属する水平型命令語を、前記キャッシ
ュシステムよりフェッチするステップと、あらかじめ定めた繰り返しパタ−ンで繰り返されるタイ
ムスロット群中のあらかじめ定めた固定タイムスロット
で、特定の命令スレッドに含まれる命令を実行するため
に、各機能ユニットを割り当てるステップと、前記水平型命令語中の命令を、前記機能ユニットで、前
記割り当てられたタイムスロットに実行するステップと
を有することを特徴とする命令スレッド実行方法。
【請求項８】請求項７記載の命令スレッド実行方法であ
って、各命令スレッドは、シ−ケンシャルコンパイラを用いて、ソ−スプログラム
を、前記プロセッサの特定の機能ユニットによって実行
できるマシン命令のシ−ケンスにコンパイルするステッ
プと、並列コンパイラを用いて、前記マシン命令のシ−ケンス
を、前記マシン命令のシ−ケンス中の先行する命令との
間のデータ依存性と、適切な機能ユニットを命令の実行
に用いることができるように前記割り当てベクトルで定
義されたタイムスロットとに応じて設定された位置に各
命令が配されている、命令パタ−ンのシ−ケンスに再編
成するステップと、前記並列コンパイラを用いて、１つの命令スレッドを形
成するために、前記命令パタ−ンの各々の命令を、１つ
の水平型命令語に圧縮するステップとによってコンパイ
ルされることを特徴とする命令スレッド実行方法。
【請求項９】複数の命令スレッドを実行するマイクロプ
ロセッサであって、複数の機能ユニットと、それぞれが１つの命令スレッドの水平型命令語を記憶す
る、複数の命令キャッシュと、対応する前記命令キャッシュより、前記水平型命令語を
フェッチする、複数の命令フェッチユニットと、予め定めた繰り返しパタ−ンで繰り返されるタイムスロ
ット群中のあらかじめ定めた固定タイムスロットで、特
定の命令スレッドに含まれるマシン命令を実行するよう
に、前記水平型命令語のマシン命令のリ−ドアフタ−ラ
イト依存性に起因する待ち時間を最小化する割り当てベ
クトルに応じて、前記各機能ユニットを割り当てる割り
当て手段とを有することを特徴とするマイクロプロセッ
サ。