JPH07191847A

JPH07191847A - 静的インタリーブを用いたマルチスレッドマイクロコンピュータ

Info

Publication number: JPH07191847A
Application number: JP5001268A
Authority: JP
Inventors: Jin-Chin Chung; チンチャンジン; Chuan-Lin Wu; リンウーチュアン
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 1992-02-25
Filing date: 1993-01-07
Publication date: 1995-07-28
Anticipated expiration: 2014-08-03
Also published as: DE4217012C2; JP2928695B2; US5404469A; DE4217012A1

Abstract

(57)【要約】（修正有）【目的】静的インタリ−ブの技法によって、資源の争奪
問題を回避し、かつ、高命令発行レ−トを達成する。【構成】プロセッサの各機能ユニットは、タイムスロッ
トのあらかじめ定めた固定繰り返しパタ−ン中のあらか
じめ定めた固定タイムスロット中の特定のスレッドより
のマシン命令の実行に割り当てられる。タイムスロット
のあらかじめ定めた固定繰り返しパタ−ンは、計算資源
の争奪問題を解決するためにハ−ドウェアに課せられた
資源の拘束を表している。この資源割り当て戦略は、ハ
−ドウェア資源のあらかじめ定めた固定割り当てを考慮
し、命令間のデータ依存性を維持するように、マシン命
令のシ−ケンスを水平型命令語に編成する並列コンパイ
ラにより提示される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、機能ユニットレベル
で、並列処理技術を利用したプロセッサシステムに関す
るものである。また、本発明は、特に、多重化された命
令スレッドを同時に実行することのできるマイクロプロ
セッサの、ＶＬＩＷ（Very Long Instruction Ward)に
基づいたア−キテクチャ−に関するものである。すなわ
ち、本発明においては、静的インタリ−ブの技術を、多
重化された命令スレッドへの、ハ−ドウェア資源の割り
当てに用いる。具体的には、プロセッサの各機能ユニッ
トを、タイムスロットのあらかじめ定めた固定繰り返し
パタ−ン中のあらかじめ定めた固定タイムスロット無い
の特定のスレッドの命令に割り当てる。このハ−ドウェ
ア割り当ては、ポスト−パス並列コンパイラによって提
示される。ポスト−パス並列コンパイラは、命令間のデ
ータ依存性と、ハ−ドウェア資源の割り当てを考慮し
て、命令実行シ−ケンスの各スレッドを最適化する。

【０００２】

【従来の技術】マイクロプロセッサの性能は、現在、多
くのＲＩＳＣス−パ−スカラプロセッサがそう設計され
ているように、１サイクルで２以上の命令を同時に実行
することにより、また、命令実行時間の短縮化により目
覚ましく向上した。また、今日、市販されているマイク
ロプロセッサは、既に、ス−パ−コンピュ−タシステム
によって得ることのできる性能レベルの主要な一部を達
成することができる。さらに、近い将来に、シングルチ
ップ技術に期待されるクロック速度やゲ−ト数の目覚ま
しい増加は、マイクロプロセッサ技術を、さらなるス−
パコンピュ−ティングの能力を有するコスト性能的にユ
ニ−クなツ−ルとするものと予想される。

【０００３】しかしながら、現在、たとえばｉ８６０や
ＭＣ８８１００に、ス−パ−スカラマイクロプロセッサ
で採用されている単一スレッドパイプライン命令送出ア
−キテクチャ−では、目覚ましい計算能力の向上は期待
できない。単一命令スレッドの並列処理数は、データと
制御の命令間の依存度によって制限される。この依存度
は、命令の発行レ−トを遅くし、プロセッサ内の機能ユ
ニットの利用度を劣化させる。すなあち、一つの機能ユ
ニットがビ−ジ−状態である間、他のユニットは、この
ビ−ジ−状態のユニットよりの結果待ちのために、アイ
ドル状態となる場合がある。

【０００４】機能ユニットの利用度を改善する１つの方
法は、複数のことなる命令スレッドをインタリ−ブする
ことである。これにより、複数の命令スレッドを同時に
実行することができる。

【０００５】命令スレッドは、特定のコンテキストに属
する命令の集合として定義することができる。具体的に
は、一つの命令スレッドは、他の命令スレッドから独立
している。スレッドは、充分な並列処理生を示す単一の
プログラムや、異なるプログラムによって生成される。
単一のスレッド内の命令間におけるデータと制御の依存
度は、全ての絹ユニットへの命令の同時発行を妨げる。
しかし、異なるスレッドに属する命令は、相互に独立し
ており、複数の機能ユニットへ同時に発行することがで
きる。

【０００６】マルチスレッドア−キテクチャ−では、コ
ンテキストを切り替えるためのオ−バ−ヘッド成しに、
多重化された命令スレッドが同時に実行することができ
るよう、多重化されたコンテキストをハ−ドウェアによ
ってサポ−トする。同時に実行されるスレッド間で、コ
ンテキスト切り替えのオ−バヘッドが存在しないため、
プロセッサのスル−プットおよび実行速度を改善するた
めに、スレッド内、スレッド間の両方の命令レベルの並
列処理を活用することができる。

【０００７】より高い性能を得るために、また、シング
ルチップマイクロクプロセッサ内の資源の利用度を改善
するために、多くのマルチスレッドア−キテクチャ−が
提案されている。R.G.PrasadhとC.L.WUによる「A Bench
mark Evaluation of a Multi-threaded RISC Processor
Architecture」（Proc. of the International Confer
ence on Parllel Processing, 1991)では、ＶＬＩＷモ
デルに基づいたス−パ−スカラア−キテクチャ−が、マ
ルチスレッドア−キテクチャ−の性能を調査するために
提案されている。また、動的インタ−リ−ブの手法が、
資源の争奪（競合）問題の解決のために提案されてる。
また、G.E.Daddis,Jr.とH.C.Tongの「The Concurrent E
xecution of Multipul Instruction Streams on Supers
calar Processors」（Proc. of the International Con
ference on Parllel Processing,1991)において、ラン
タイム中に命令をスケジュ−リングするためのディスパ
ッチスタックを用い、スパ−スカラ−プロセッサにおい
て二つのスレッドを同時に処理するシステムが開示され
ている。また、動的レジスタ割り当ての手法が、スレッ
ド内、スレッド間の両方の命令レベルの並列処理を活用
するために用いられている。

【０００８】これらの従来のシステムでは、動的インタ
リ−ブと、スケジュ−リングの技術が、スレッド間での
資源の争奪の問題を解決するために用いられている。

【０００９】そこで、動的インタリ−ブについて詳細に
説明する。

【００１０】図１は、動的インタリ−ブを用いて、多重
化された命令スレッドを同時に実行するマイクロプロセ
ッサ１０を示している。

【００１１】プロセッサ１０は、ＦＵ−１，ＦＵ−
２，．．，ＦＵ−Ｎの符号を付したの複数の機能ユニッ
ト１４を有している。たとえば、このように８個の機能
ユニットを有し、これらの８個の機能ユニットは、メモ
リの読み出しと書き込みを行うロ−ド／ストアユニッ
ト、データの移動と整数加算と減算走査を行う整数ユニ
ット、ビットフィ−ルドの走査を行うロジックユニッ
ト、データタイプに変換を行う整数／浮動小数点変換ユ
ニット、浮動小数点加算ユニット、浮動小数点掛け算ユ
ニット、浮動小数点割算ユニット、分岐ユニットを含
み、各ユニットは、パイプライン化されており、毎サイ
クルに新しい命令を受けることができる。

【００１２】たとえば、図１のＦＵ−１は、ロ−ド／ス
トアユニットであり、図示せざるデータキャッシュをア
クセスする。機能ユニット１４は、相互連絡ネットワ−
ク１６を介してレジスタファイル１８に接続している。
各命令スレッドは、レジスタファイル１８内に、プレイ
ベ−トなレジスタバンクを有するプロセッサ１０によっ
て実行される。プロセッサ１０は、１、２、３、．．、
ＴのＴ個の命令スレッドを実行する。そして、レジスタ
ファイル１８は、それぞれが命令スレッドの一つに対応
するＴ個のレジスタバンクを有している。

【００１３】たとえば、各レジスタバンクは、３２個の
３２ビット整数レジスタと、１６個の６４ビット浮動小
数点レジスタを有している。整数、論理、ロ−ド／スト
ア、分岐の各ユニットは、整数レジスタにのみアクセス
することができる。また、浮動小数点ユニットが使用で
きるのは、浮動小数点レジスタのみに限られている。そ
して、整数／浮動小数点変換ユニットのみが、両方のレ
ジスタにアクセスすることができる。ここで、整数レジ
スタと浮動小数点レジスタ間の全てのデータ転送は、整
数／浮動小数点変換ユニットによって行われる。

【００１４】図１のプロセッサ１０で使用される命令セ
ットは、分散型命令セットコンピュ−タ用に開発された
ＲＩＳＣ命令セットの部分集合である。このような分散
型命令セットコンピュ−タに関しては、L.Wang, C.L.Wu
らの、「Distributed instruction Set Computer Aechi
tecture」（IEEE Trans. on Computer)や、「Distribut
ed instruction Set Computer」(Ph.D.Dissertaion,Uni
v.Texas, AUstin,Dec.1989)に記載されている。命令セ
ットは、３オペランド、２オペランド、１オペランドの
３つのフォ−マットにおいて、直交化定義された４９個
のマシン命令より成る。各マシン命令は、たとえば３２
ビット長である。

【００１５】図１のプロセッサ１０は、コンパイラを実
行する。コンパイラは２つの部分よりなる。前半部は、
たとえばＣ言語で記述された高級言語プログラムを、先
に示したような命令セットより取りだしたマシン命令の
シ−ケンスに翻訳する。コンパイラの後半部は、シ−ケ
ンシャルなコ−ドを、水平型命令語（ＨＩＷｓ）に変換
する。水平型命令後は、それぞれが特定の機能ユニット
に対応し、対応する特定の機能ユニットで実行されるメ
シン命令を各能することのできる、複数のフィ−ルドも
しくはセクションを有している。プロセッサ１０で実行
される各命令スレッドは、これらの水平型命令後より成
る。コンパイラは、相互にデータの依存性を待たない複
数のマシン命令を組み合わせることにより水平型命令語
を生成する。したがい、ひとつの水平型命令語は、同じ
クロックサイクルに発行することができるデータ依存性
の無い複数の命令より成る。もし、ある特定の機能ユニ
ットへの命令が存在しない場合には、コンパイラはＮＯ
ＯＰ命令（ｎｏｏｐｅｒｔｉｏｎ）を水平型命令語の
適当なセクションに挿入する。

【００１６】図１のプロセッサ１０において、各命令ス
レッドの水平型命令後語は、独立した命令キャッシュ２
０に格納される。各命令キャッシュ２０は、前述したよ
うにコンパイルされた、１つに命令スレッドの複数の水
平型命令語を格納している。

【００１７】図１のプロセッサ１０は、また、動的イン
タリ−ブユニット２６の制御下で、対応する命令キャッ
シュよりの命令をフェッチする複数の命令フェッチユニ
ット２４を有している。

【００１８】各命令は、次の３つの主要なパイプライン
ステ−ジを通される。

【００１９】１．命令フェッチステ−ジ；命令はキャッ
シュよりフェッチされる。

【００２０】２．命令インタリ−ブ／デコ−ドステ−
ジ；命令は、動的インタリ−ブユニット２６によって、
可能な場合には他の命令スレッドよりの他の命令と共に
インタリ−ブされる。また、命令は、デコ−ドユニット
２７によってデコ−ドされ、対応する機能ユニット１４
に発行される。

【００２１】３．実行ステ−ジ；各命令は、機能ユニッ
トによって実行され、その結果がレジスタファイル１８
に書き戻される。ここで、コンパイラは、適当なコ−ド
スケジュ−リングによって、機能ユニット間の競合を避
けている。

【００２２】動的インタリ−ブのプロセスにおいて、動
的インタリ−ブユニットは、たとえばラウンドロビン方
式等の、所定の優先制御方式に従って、一つのスレッド
を選択する。そして、動的インタリ−ブユニットは、そ
のスレッドの次の水平型命令語を調査し、可能な場合に
は、（コンパイラによって挿入された）全てのＮＯＯＰ
命令を、他のスレッドの対応するＮＯＯＰで無い命令に
よって置き換える。そして、この新たに組み合わせた水
平型命令語のここの命令を、適当なデコ−ダ２７に送
る。各機能ユニットのは、命令の属するスレッドを識別
し、これに相当する制御信号を生成する。

【００２３】図２、３は、動的インタリ−ブの例を示し
たものである。図２ａに示すように、この例は、整数加
算／減算ユニットＦＵ−１、論理ユニットＦＵ−２、浮
動小数点／整数変換ユニットＦＵ−３、浮動小数点加算
／減算ユニットＦＵ−４の４つの機能ユニットが存在す
る場合のものである。また、それぞれ対応する命令バッ
ファもしくはキャッシュに格納された、１、２、３の符
号を付して示す３つの命令スレッドが存在する場合のも
のである。図２ａに示すように、各命令バッファは、２
つの水平型命令後を格納し、各水平型命令語は、各機能
ユニットに対応するセクションを有している。

【００２４】命令バッファ中に示した命令は、コンパイ
ラによって静的にスケジュ−リングされたものである。
この例は、インタリ−ブのためのスレッドの選択にラウ
ンドロビン戦略を用い、各スレッドは自身のレジスタセ
ットを有すると仮定した場合のものである。図２ｂに示
すように、第１のクロックサイクルＣＫ＝１では、３つ
のスレッドの第１番目の水平型命令語が、命令キャッシ
ュよりフェッチされ、動的インタリ−ブユニットに送ら
れる。そして、スレッド１が初めに選択される（図２ｂ
中、ボ−ルド体で示したもの）。このスレッドのＡＤＤ
２命令は、整数ユニットのデコ−ダに送られる。次に、
スレッド１の命令は、もう無いので、今度は、スレッド
２が選択される。スレッド１のＡＤＤ２命令が既に整数
ユニットに送られているので、スレッド２のＡＤＤ２命
令の発行は次のクロックまで延期される。一方、論理ユ
ニットは、空き状態にある。そこで、スレッド２のＳＨ
ＬＬ２命令が論理ユニットデコ−ダに送られる。これ
で、このスレッドの命令は無くなったので、次はスレッ
ド３が選択される。一方、スレッド３のＦＭＯＶＥＦ命
令は、空き状態にある浮動小数点／整数変換ユニットの
デコ−ダに送られる。この時点では、これ以上の命令は
発行できない。このようにして、ＣＫ＝１では、スレッ
ド１のＡＤＤ２命令、スレッド２のＳＨＬＬ命令、スレ
ッド３のＦＭＯＶＥＦが、同時に機能ユニットデコ−ダ
に発行される。

【００２５】第１のクロックサイクロの終了時点におい
て、動的インタリ−ブユニット中に、スレッド１とスレ
ッド２の命令は、もう無い。そこで、これらのスレッド
の次の水平型命令後を、対応する命令キャッシュよりフ
ェッチし、動的インタリ−ブユニットに送る。一方、ス
レッド２について、発行すべきＡＤＤ２命令が残ってい
るので、スレッド２よりの次の水平型命令語はフェッチ
しない。ＣＫ＝２における、動的ンタリ−ブユニット内
の３つの水平型命令語を図３ａに示す。ＣＫ＝２におい
ては、ラウンドロビン戦略に従って、スレッド２が初め
に選択される。スレッド２のＡＤＤ２命令は、整数ユニ
ットデコ−ダに送られる。次に、スレッド３が選択さ
れ。このスレッドのＳＨＬＬ２命令とＦＳＵＢ命令が、
論理ユニットと浮動小数点加算／減算ユニッットにそれ
ぞれ送られる。最後は、スレッド１が選択されるが、必
要となる機能ユニットデコ−ダが占有されているので、
スレッド１よりの命令は発行されない。プロセスは、第
３のクロックサイクルＣＫ＝３に同様に進む。第３のク
ロックサイクルにおいて、動的インタリ−ブユニットに
格納されている命令を図３ｂに示す。これらは、第３の
クロックサイクルで機能ユニットに発行される命令であ
る。第３のクロックサイクルの終了時で、３つのスレッ
ドの全ての命令は発行されたことになる。もし、動的イ
ンタリ−ブを用いなければ、例として示した命令を発行
するのに６クロックを要する。このように、動的インタ
リ−ビングは、例示した２つの要因により命令発行レ−
トを改善することができる。

【００２６】動的インタリ−ブユニットで行われる基本
的な操作は、それがＮＯＯＰ命令であるかを調べる、命
令の部分デコ−ドである。もし、ある命令がＮＯＯＰ命
令でない場合、その命令は、必要な制御信号を生成する
機能ユニットデコ−ダに発行される。もし、命令がＮＯ
ＯＰ命令の場合には、より低い優先度のスレッドよりの
次の命令が、ＮＯＯＰ命令で無い命令が見つかるか、全
てのスレッドについて終了するまで、ドミノ式にチェッ
クされる。この、全ての操作は、１クロックサイクル中
に完了しなければならない。図４は、これを実現するこ
とのできる論理回路を示している。図４において、ＳＷ
１、ＳＷ２は、論理スイッチである。信号ＮＤは、部分
命令デコ−ドの結果たる、「ＮＯＯＰ検出」信号であ
り、Ｐは、優先度信号である。各クロックサイクルにお
いて、ただひとつのスレッドに対応する優先度信号が値
ＨＩＧＨとなり、他の優先度信号は値ＬＯＷとなる。信
号ＩＳは、命令発行信号であり、これは、ＨＩＧＨのと
き、対応するスレッドよりの命令が機能ユニットデコ−
ダに発行されることを示す。動的インタリ−ブユニット
は図４に示すような論理回路を、全ての機能ユニットに
対して有している。

【００２７】

【発明が解決しようとする課題】このように、動的イン
タリ−ビングによれば、機能ユニットの高利用率を達成
することができるが、いくつかの問題が残っている。

【００２８】第１には、ＮＯＯＰ再配置テクニックのた
めに必要となる高命令フェッチ帯域を、ハ−ドウェアが
サポ−トしなければならない点である。さらに、動的イ
ンタリ−ブユニットを実現するためには、次の水平型命
令語をフェッチし実行できるようにスレッドの一つの水
平型命令語の完成を検出するのに必要な、特別のハ−ド
ウェアを含む複雑なハ−ドウェアが必要となる。また、
同じ水平型命令語中の全ての命令が同じクロックサイク
ル中に発行されることが保証されていないので、ライト
後リ−ドという依存性を有する２つの命令を一つの水平
型命令語に含めることができない。同様に、２つの引き
続く水平型命令語が、引き続かないサイクにおいて発行
され得るので、命令を分岐ディレイスロットに格納する
ことができない。このような拘束は、マルチスレッドア
−キテクチャ−の命令発行レ−トを低下させる。

【００２９】そこで、本発明は、動的インタリ−ブに可
憐した、これらの問題を解決することができる、マイク
ロプロセッサのマルチスレッドア−キテクチャ−を提供
することを目的とする。

【００３０】

【課題を解決するための手段】前記目的達成のために、
本発明は、複数の命令スレッドを同時に実行することの
できるマイクロプロセッサであって、複数の機能ユニッ
トを有するプロセッサと、複数の命令スレッドを形成す
る、それぞれが特定の一つの前記機能ユニットによって
実行される１以上のマシン命令を含む複数の水平型命令
語を記憶する手段と、所定の順序で所定の時間に、異な
る命令スレッドに属する前記水平型命令語を、前記記憶
する手段よりフェッチする手段と、タイムスロットの所
定の固定繰り返しパタ−ン中のあらかじめ定めた固定タ
イムスロット中の、特定の命令スレッドよりのマシン命
令の実行に、前記各機能ユニットを割り当てる手段とを
有することを特徴とするマイクロプロセッサを提供す
る。

【００３１】

【作用】すなわち、本発明では、ＶＬＩＷ(Very Long I
nstruction word)マルチスレッドプロセッサア−キテク
チャ−における前記争奪の問題を解決するための、動的
インタリ−ブに代えて、静的インタリ−ブの技法を用い
る。静的インタリ−ブの技法においては、プロセッサの
各機能ユニットは、タイムスロットのあらかじめ定めた
固定繰り返しパタ−ン中のあらかじめ定めた固定タイム
スロット中の特定のスレッドよりのマシン命令の実行に
割り当てられる。特定の機能ユニットが、特定のタイム
スロット中の特定スレッドの命令を割り当てられる、タ
イムスロットのあらかじめ定めた固定繰り返しパタ−ン
は、計算資源の争奪問題を解決するためにハ−ドウェア
に課せられた資源の拘束を表している。この資源割り当
て戦略は、ハ−ドウェア資源のあらかじめ定めた固定割
り当てを考慮し、命令間のデータ依存性を維持するよう
に、マシン命令のシ−ケンスを水平型命令語に編成する
並列コンパイラにより提示される。

【００３２】動的インタイ−ブを利用した従来のマイク
ロプロセッサに比べると、静的インタリ−ブを用いる本
発明のマイクロプロセッサは、ハ−ドウェアの複雑さを
軽減することができる。また、さらに、本静的インタリ
−ブの技法によれば、プログラムのコ−ドサイズを、顕
著に減少させることができる。

【００３３】

【実施例】以下、本発明の実施例を説明する。

【００３４】静的インタリ−ブ方式においては、全ての
機能ユニットを、ラウンドロビン方式によって、スレッ
ドに割り当てる。機能ユニットが、選択したスレッドに
よって用いられない場合、ＮＯＯＰ命令が、その機能ユ
ニットで実行される。

【００３５】一般的に、静的インタリ−ブの方式は、割
り当てベクトル（ＡＶ）によって特性付けることができ
る。ＡＶは、各機能ユニットＦＵｉについて、エントリ
ＡＶｉを有している。ここで、１≦ＡＶｉ≦Ｔであり、
Ｔはハ−ドウェアによってサポ−トされるスレッドの数
である。プログラムの実行中において、時間ｔには、Ｆ
Ｕｉは、スレッドτに割り当てられる。ここで、τ＝
１，２，．．．，Ｔであり、次式で与えられる。

【００３６】 τ＝１＋（ｔ＋Ｔ−ＡＶｉ）ｍｏｄＴ −（式１）以下、４つの機能ユニットＦＵ−１，ＦＵ−２，ＦＵ−
３，ＦＵ−４を有する４スレッドのア−キテクチャ−に
ついて考える。ＡＶ＝｛１，４，２，２｝を与えられた
場合の、特定のスレッドに対する機能ユニットの配置を
図５ａに示す。図５ａにおいて、テ−ブルの各エントリ
は、各タイムスロットにおいて、対応する機能ユニット
を使用することができるスレッドの番号を示している。
タイムスロットの機能ユニットへの割り当ては、それ自
身繰り返すパタ−ンを形成する。図５ａにおいては、パ
タ−ンは各４タイムスロット毎に繰り返す。最適なＡＶ
を決定するアルゴリズムを次に説明する。

【００３７】図５ｂは、各スレッドの命令をスケジュ−
ルするために、割り当てベクトルによって特定されるハ
−ドウェア資源の割り当てが、どうのように、ポスト−
パス並列コンパイラに与えられるかを示している。図５
ｂは、各機能ユニットに対応する４つのセクションを有
する、１、２、３、．．．の番号を付した水平型命令語
のリストを示している。本実施例では、並列コンパイラ
は、対応する機能ユニットによって実行されるマイクロ
命令を、斜線掛けしたセクションのみに格納することが
できる。斜線掛けしていないセクションはＮＯＯＰ命令
を格納する。特定の斜線掛けセクションを有する水平型
命令語のパタ−ンは、Ｔ個の命令語毎に繰り返す。ここ
でＴは、スレッドの数である。

【００３８】後述するように、図５ｂに示す命令の各パ
タ−ンは、４つのＨＩＷｓより成り、並列コンパイラに
より、単一の水平型命令語にまとめられる。水平型命令
語の同じパタ−ンが、各スレッドを個々にスケジュ−リ
ングするために、コンパイラによって利用される。

【００３９】図５ｂに示した水平型命令語のパタ−ン
は、この場合ＡＶ＝（１，４，２，２）である割り当て
ベクトルから導き出される。Ｈｋ番目の水平型命令語
の、機能ユニットＦＵｉに対応するフィ−ルドは、（Ｈ
ｋ＋Ｔ−１）ｍｏｄＴ＋１がＡＶｉと等しいときに、斜
線掛けされる。本例ではＴは４である。

【００４０】言い替えるならば、ハ−ドウェアで使用さ
れる資源割り当て戦略によって課される資源の制約は、
並列コンパイラの命令パタ−ンのシ−ケンスとして表現
される。各スレッドが、まずシ−ケンシャルにコンパイ
ルされ、生成されたシ−ケンシャルなコ−ドが、このパ
タ−ンに従って、水平型命令語中にスケジュ−ルされ
る。並列コンパイラにおいて、シ−ケンシャルコンパイ
ラによって生成された各スレッドについての命令は、命
令間の制御依存性とデータ依存性を維持するように、こ
のパタ−ン中にスケジュ−ルされる。そして、各パタ−
ンを形成する水平型命令語の組は、単一の水平型命令語
に圧縮される。この圧縮の詳細について説明する。

【００４１】図５ｂのパタ−ンに従って、全ての命令ス
レッドがコンパイルされたなら、図５ａに示すようにス
レッドを相互にインタリ−ブすることができる。ここで
も、割り当てベクトルへの依存性を利用する。すなわ
ち、スレッド＃τの開始時間を、スレッド間の資源の争
奪を回避できるように、（τ−１）サイクル遅延する。

【００４２】図６に、以上説明してきた静的インタリ−
ブを利用するプロセッサ１００の構成を示す。ここで、
プロセッサ１００は、たとえば、単一の半導体チップで
実現することができる。プロセッサ１００は、４つの機
能ユニットＦＵ−１、ＦＵ−２，ＦＵ−３，ＦＵ−４を
有している。ここでたとえば、ＦＵ−１は算術ユニット
であり、ＦＵ−２は論理ユニットであり、ＦＵ−３はキ
−ド／ストアユニッットであり、ＦＵ−４は分岐ユニッ
トである。プロセッサ１００は、１、２、３、４のスレ
ッドを同時に実行する。また、キャッシュ１、キャッシ
ュ２、キャッシュ３、キャッシュ４の番号を付した、相
互に分離した命令キャッシュ１２０が、各命令スレッド
に対応して設けられている。各キャッシュ１２０は、対
応する命令スレッドを構成する水平型命令語を格納す
る。１，２，３，４の番号を付したレジスタバンク１３
０は、個々の命令スレッドのオペランドを格納する。特
定に命令スレッドよりの命令を実行するとき、機能ユニ
ットは適当なレジスタバンクよりオペランドをフェッチ
し、命令を実行した後オペランドをレジスタバンクに戻
す。ここで、機能ユニット１１０は、バス１３１を介し
てレジスタバンクにアクセスする。

【００４３】各機能ユニットに接続しているのはキュ−
１４０である。キュ−１４０は、割り当てベクトルによ
って定義される資源割り当てを実現するために設けられ
ている。すなわち、キュ−１４０は、タイムスロットの
パタ−ン中でその命令スレッドに予約されたあらかじめ
定めた固定スロット中の特定の命令スレッドよりの命令
が、各機能ユニットに発行されることを保証する。

【００４４】先に示した例では、割り当てベクトルをＡ
Ｖ＝（１，４，２，２）とした。この場合、ＦＵ−１に
接続しているキュ−は、遅延１クロックサイクルを有し
ている。また、ＦＵ−２に接続しているキュ−は、遅延
４を、ＦＵ−３に接続しているキュ−は、遅延２を、Ｆ
Ｕ−４に接続しているキュ−は、遅延２を有している。

【００４５】水平型命令語は、命令フェッチユニット１
２１で用いられているあらかじめ定めた順序で択一的
に、キャッシュ１２０よりフェッチされる。具体的に
は、水平型命令語は、キャッシュ＃１から始まるラウン
ドロビンの順序でキャッシュよりフェッチされる。フェ
ッチされた各水平型命令語について、その中に含まれる
個々のマシン命令は、その命令を実行する機能ユニット
に接続したキュ−に与えられる。マシン命令語は、バス
１３２を介してキュ−１４０に転送される。個々の各マ
シン命令は、キュ−のあらかじめ定めた固定遅延によっ
て遅延された後に、適当な機能ユニットに発行される。
割り当てベクトルによって定まる遅延をキュ−に与え、
割り当てベクトルによって導かれるパタ−ンに従ってコ
ンパイルされた水平型命令語をあらかじめ定めた順所で
フェッチすることにより、特定のスレッドよりの個々の
マシン命令が、当該特定の命令スレッドに予約されたあ
らかじめ定めた固定タイムスロットにおいて、特定の機
能ユニットに発行されることを保証することができる。

【００４６】静的インタリ−ブの主要な優位性は、コン
パイル時に命令の終了時を知ることができるので、並列
コンパイラが命令が実行シ−ケンスを最適化することが
できることである。

【００４７】図７は、本実施例においてプログラムのコ
ンパイルと実行のステップを示したフロ−チャ−トであ
る。初めにＣ言語のような高級言語で記述されたプログ
ラム２１０を、シ−ケンシャルコンパイラでコンパイル
する（ステップ２２０）。シ−ケンシャルコンパイラ
は、高級プログラムをマシン命令のシ−ケンスに変換す
る。次に、並列コンパイラが、マシン命令のシ−ケンス
を水平型命令語に再編成する（ステップ２３０）。この
再編成は２ステップで実行される。最初のステップ（ス
テップ２３１）では、各マシン命令が、複数の水平型命
令語を含む、命令パタ−ン中の位置に置かれる。命令パ
タ−ン中のマシン命令の位置は、命令間のデータ依存性
と割り当てベクトルによって決定するハ−ドウェア資源
割り当てに従う。２番目のステップ（ステップ２３２）
では、各パタ−ンの水平型命令語は、一つの命令スレッ
ドを形成するように、単一の水平型命令語に圧縮され
る。並列コンパイラの処理後、命令スレッドの圧縮され
た水平型命令語は、キャッシュに格納され、先に説明し
たように機能ユニットによって実行される（ステップ２
４０）。

【００４８】図８ｂは、図８ａに示した４つの水平型命
令語が、どのように図５ｂに示したパタ−ン中に置かれ
るかを示したものである。図８ａに示したシ−ケンス
は、図５ｂのＨＩＷｓ１−４の斜線掛けしたセクション
に置かれる。斜線掛けしていないセクションにはＮＯＯ
Ｐ命令が受け入れられる。図８ｃは、図８ｂに示した４
つの命令語のパタ−ンが、単一の水平型命令語に圧縮さ
れるかを示したものである。圧縮は、多くのＮＯＯＰ命
令を排除することによりコ−ドサイズを小さくする。

【００４９】シ−ケンシャルコンパイラによって生成さ
れた命令のシ−ケンス中のマシン命令Ｉｉは、Ｈｊ番目
（図５ｂ参照）の特定の水平型命令語中に、次のように
して置かれる。全てのマシン命令Ｉｊは、データ依存性
を決定するために、既にスケジュ−ルされた全ての命令
と比較される。命令Ｉｊは、シ−ケンスの先頭まで、も
しくは、命令Ｉｊのと間にデータ依存性がある命令Ｉｉ
が見つかるまで、可能な限り上に移動される。したが
い、Ｉｊをその中に配置することのできる水平型命令語
は、Ｈｊ＝Ｈｉ＋Ｌ（Ｄ）（Ｔｉ）（Ｔｊ）−（式２）で表すことができる。

【００５０】ここで、ＨｉはＩｉを追いたＨＩＷの番
号、ＨｊはＩｊを置くことのできるＨＩＷの番号、Ｔｉ
は命令Ｉｉのタイプ、Ｔｊは命令Ｉｊのタイプである。
また、、ＤはＩｉとＩｊとの間のデータ依存性のタイ
プ。ここで、データ依存性のタイプはリ−ドアフタ−ラ
イト（ＲＡＷ）かライトアフタ−リ−ド（ＷＡＲ）かい
ずれかである。また、Ｌは、特定のＡＶの待ち時間テ−
ブルである。

【００５１】もし、Ｉｊが、ＨＩＷＨｊ中の命令と資
源争奪関係を持つならば、Ｉｊは、Ｔサイクル遅延され
る。もし、それでも競合するのであれば、Ｉｊは、さら
にＴサイクル遅延される。このような探索は、Ｉｊを置
くことのできるＨＩＷが見つかるまで続けられる。Ｈｊ
の計算において、待ち時間テ−ブルＬが、ＩｊとＩｉと
の間の待ち時間を決定するために用いられる。Ｄ，Ｔ
ｉ，Ｔｊと、ハ−ドウェアによって定義される、各命令
タイプの実行時間であるＦＵ待ち時間とが与えられる
と、Ｌ（Ｄ）（Ｔｉ）（Ｔｊ）が、表１に示すＣプログ
ラムによって計算される。

【００５２】

【表１】

【００５３】ここで、ｔｅｍｐ１とｔｅｍｐ２は、一時
的数値変数である。計算された待ち時間は、ハ−ドウェ
アによって定義される実行タイムとは異なる。待ち時間
テ−ブルの計算においては、依存のタイプ（すなわち、
Ｄ＝１の場合のＲＡＷ、Ｄ＝２の場合のＷＡＲ）、各命
令の実行時間、ＡＶを考慮する。一度待ち時間テ−ブル
が計算できたら、並列コンパイラは、式２を用いて実行
スケジュ−ル中における各敬礼の位置を決定するのに、
これを用いることができる。

【００５４】図９は、ＡＶ＝（１，４，２，２），ＦＵ
待ち時間（Ｔｉ）＝１、Ｄ＝１（データ依存性がＲＡ
Ｗ）の場合の、待ち知時間テ−ブルＬ（１）（Ｔｉ）
（Ｔｊ）を示したものである。この場合、命令タイプＴ
ｉ、Ｔｊは、これらの命令を実行する機能ユニットＦＵ
ｉ，ＦＵｊによって識別される。したがい、たとえば、
ＦＵ−３で実行されるＩｉとＦＵ−２で実行されるＩｊ
との間の待ち時間は２サイクルである。

【００５５】図１０、１１は、コンパイル例を示してい
る。図１０は、ほんの短いプログラムについて、シ−ケ
ンシャルコンパイラが生成したマシン命令のシ−ケンス
を示している。図１１は、ポストパス並列プロセッサに
よって生成された圧縮後の水平型命令語を示している。

【００５６】本実施例に係る静的インタリ−ブにおい
て、割り当てベクトルは重要である。割り当てベクトル
を選ぶ一つの方法は、最も多発するリ−ドアフタ−ライ
ト（ＲＡＷ）依存の待ち時間を減少させるように割り当
てベクトルを選ぶことである。すなわち、命令間のＲＡ
Ｗ依存の分布は、複数のベンチマ−クテストによって得
ることができるので、ＡＶは、式３（数１）が最小とな
るように選ぶ。

【００５７】

【数１】

【００５８】

【発明の効果】以上のように、本発明によれば、動的イ
ンタリ−ブによって生じる各種問題を、静的インタリ−
ブの技法によって解決することのできる、マルチスレッ
ドマイクロプロセッサを提供することができる。

【図面の簡単な説明】

【図１】動的インタリ−ブを用いた従来のマルチスレッ
ドマイクロプロセッサア−キテクチャ−を示すブロック
図である。

【図２】動的インタリ−ブの操作を示す説明図である。

【図３】動的インタリ−ブの操作を示す説明図である。

【図４】従来のマイクロプロセッサで用いられていた動
的インタリ−ブユニットの構成を示すブロック図であ
る。

【図５】本発明の一実施例に係る静的インタリ−ブで用
いるパタ−ンを示す説明図である。

【図６】本発明の実施例に係る静的インタリ−ブを用い
るマイクロプロセッサの構成を示すブロック図である。

【図７】本発明の実施例におけるプログラムのコンパイ
ルおよび実行操作を示すフロ−チャ−トである。

【図８】本発明の実施例におけるコンパイルのようすを
示した説明図である。

【図９】本発明の実施例に係るコンパイラが用いる待ち
時間テ−ブルを示す説明図である。

【図１０】本発明の実施例におけるシ−ケンシャルコン
パイル後のマシン命令のシ−ケンス例を示す説明図であ
る。

【図１１】本発明の実施例における圧縮後の水平型命令
の例を示す説明図である

【符号の説明】

１１０機能ユニット１２０キャッシュ１２１命令フェッチユニット１３０レジスタバンク１４０キュ−

Claims

【特許請求の範囲】

【請求項１】複数の命令スレッドを同時に実行すること
のできるマイクロプロセッサであって、複数の機能ユニットを有するプロセッサと、複数の命令スレッドを形成する、それぞれが特定の一つ
の前記機能ユニットによって実行される１以上のマシン
命令を含む複数の水平型命令語を記憶する手段と、所定の順序で所定の時間に、異なる命令スレッドに属す
る前記水平型命令語を、前記記憶する手段よりフェッチ
する手段と、タイムスロットの所定の固定繰り返しパタ−ン中のあら
かじめ定めた固定タイムスロットの、特定の命令スレッ
ドよりのマシン命令の実行に、前記各機能ユニットを割
り当てる手段とを有することを特徴とするマイクロプロ
セッサ。
【請求項２】請求項１記載のマイクロプロセッサであっ
て、前記割り当てる手段は、適当な割り当てタイムスロット
に、適当な機能ユニットに、前記各マシン命令が提供さ
れるように、命令スレッドの水平型命令語の各マシン命
令に、あらかじめ定めた固定遅延を与えるキュ−イング
手段を備えて言うことを特徴とするマイクロプロセッ
サ。
【請求項３】請求項１記載のマイクロプロセッサであっ
て、前記タイムスロットの特定のタイムスロットは、前記命
令スレッドの特定のマシン命令を実行する特定の機能ユ
ニットに、前記マシン命令間のリ−ドアフタ−ライト依
存性による待ち時間を最小化するように割り当てられて
いることを特徴とするマイクロプロセッサ。
【請求項４】請求項１記載のマイクロプロセッサであっ
て、前記フェッチする手段は、ラウンドロビン方式にしたが
った順序で、前記記憶する手段より、水平型命令語をフ
ェッチすることを特徴とするマイクロプロセッサ。
【請求項５】請求項１記載のマイクロプロセッサであっ
て、前記記憶する手段は、それぞれが前記複数の命令スレッ
ドのうちの一つの命令スレッドについて用いられる、複
数の独立したキャッシュを有している個とを特徴とする
マイクロプロセッサ。
【請求項６】請求項１記載のマイクロプロセッサであっ
て、各命令スレッドの前記水平型命令語は、マシ−ン命令の
シ−ケンスを、複数の水平型命令語を含む、命令のパタ
−ンのシ−ケンスに再編成するコンパイラによってコン
パイルされており、かつ、各マシン命令は、他のマシン
命令との間のデータ依存性と、特定の命令スレッドより
の命令を実行する特定の機能ユニットに割り当てられた
特定のタイムスロットとに依存したパタ−ンの位置に配
されることを特徴とするマイクロプロセッサ。
【請求項７】タイムスロットのあらかじめ定めた固定繰
り返しパタ−ン中の、特定のあらかじめ定めた固定タイ
ムスロット中の前記命令スレッドのうちの特定の一つよ
りの命令を実行するように、割り当てベクトルに従って
割り当てられる複数の機能ユニットを備えたプロセッサ
を有するマルチプロセッサシステムにおいて、複数の命
令スレッドよりのひとつの命令スレッドをコンパイルし
実行する方法であって、シ−ケンシャルコンパイラを
用いて、ソ−スプログラムを、前記プロセッサシステム
の特定の機能ユニットによって実行できるマシン命令の
シ−ケンスにコンパイルするステップと、並列コンパイラを用いて、前記マシン命令のシ−ケンス
を、各命令が、前記マシン命令のシ−ケンス中の先行す
る命令との間のデータ依存性と、適当な機能ユニットを
命令の実行に用いることのできるタイムスロットを定義
する割り当てベクトルに依存した位置を、そのパタ−ン
中に有する命令のパタ−ンのシ−ケンスに再編成するス
テップと前記並列コンパイラを用いて、ひとつの命令ス
レッドを形成するために、前記命令の各パタ−ンの命令
を、一つの水平型命令語に圧縮ステップと、前記ひとつの命令スレッドの命令をキャッシュに記憶す
るステップと、前記一つの命令スレッドの命令を前記機能ユニットで実
行するステップとを有することを特徴とする命令スレッ
ドのコンパイルおよび実行方法。
【請求項８】複数の機能ユニットと、各命令スレッドを
構成する、特定の前記機能ユニットによって実行される
１以上の命令を含んだ水平型命令語を記憶する複数のキ
ャッシュシステムと、を有するマルチスレッドプロセッ
サにおいて、同時に複数の命令スレッドを実行する方法
であって、あらかじめ定めた時間にあらかじめ定めた順序で、異な
る命令スレッドに属する水平型命令語を、前記キャッシ
ュシステムよりフェッチするシステムと、タイムスロットのあらかじめ定めた固定繰り返しパタ−
ンのあらかじめ定めた固定タイムスロット中の特定の命
令スレッドよりの命令の実行に、各機能ユニットを割り
当てるステップと、前記水平型命令語中の命令を、前記機能ユニットで、前
記割り当てられたタイムスロットに実行するステップと
を有することを特徴とする命令スレッド実行方法。
【請求項９】請求項８記載の命令助の実行方法であっ
て、各命令スレッドは、シ−ケンシャルコンパイラを用いて、ソ−スプログラム
を、前記プロセッサの特定の機能ユニットによって実行
できるマシン命令のシ−ケンスにコンパイルするステッ
プと、並列コンパイラを用いて、前記マシン命令のシ−ケンス
を、各命令が、前記マシン命令のシ−ケンス中の先行す
る命令との間のデータ依存性と、適当な機能ユニットを
命令の実行に用いることのできるタイムスロットを定義
する割り当てベクトルに依存した位置を、そのパタ−ン
中に有する命令のパタ−ンのシ−ケンスに再編成するス
テップと前記並列コンパイラを用いて、ひとつの命令ス
レッドを形成するために、前記命令の各パタ−ンの命令
を、一つの水平型命令語に圧縮ステップとによってコン
パイルされることを特徴とする命令スレッド実行方法。
【請求項１０】複数の命令スレッドを実行するマイクロ
プロセッサであって、複数の機能ユニットと、それぞれが一つの命令スレッドの水平型命令後を記憶す
る、複数の命令キャッシュと、対応する前記命令キャッシュより、前記水平型命令語を
フェッチする、複数の命令フェッチユニットと、タイムスロットの繰り返しパタ−ン中のあらかじめ定め
た固定タイムスロット中の、特定の命令スレッドよりの
マシン命令の実行に、前記各機能ユニットを、前記水平
型枚例語のマシン命令のリ−ドアフタ−ライトのための
待ち時間を最小化する割り当てベクトルに応じて、割り
当てる割り当て手段とを有することを特徴とするマイク
ロプロセッサ。