JP2001306323A

JP2001306323A - マルチスレッドｖｌｉｗプロセッサにおいて機能単位を割り当てるための方法および装置

Info

Publication number: JP2001306323A
Application number: JP2001094456A
Authority: JP
Inventors: Alan David Berenbaum; ディヴィッドベレンバウムアラン; Nevin Heintze; ヘインツネヴィン; Tor E Jeremiassen; イー．ジェレミアッセントア; Stefanos Kaxiras; カックシラスステファノス
Original assignee: Agere Systems Guardian Corp
Current assignee: Agere Systems LLC
Priority date: 2000-03-30
Filing date: 2001-03-29
Publication date: 2001-11-02
Anticipated expiration: 2021-03-29
Also published as: KR20010095069A; TW514827B; EP1148414A3; JP3832623B2; US7007153B1; DE60115982T2; CA2337172A1; CA2337172C; DE60115982D1; EP1148414A2; EP1148414B1

Abstract

(57)【要約】【課題】本発明は、マルチスレッド超長命令語（ＶＬ
ＩＷ）プロセッサにおいて機能単位を割り当てるための
方法および装置を提案することを目的とする。【解決手段】本発明は従来のＶＬＩＷアーキテクチャ
の技法と従来のマルチスレッドアーキテクチャの技法を
組み合わせて、個別のプログラム内およびワークロード
全体で実行時間を削減する。本発明はコンパイラを使用
して並列処理を検出する。開示されたマルチスレッドＶ
ＬＩＷアーキテクチャは、単一スレッドＶＬＩＷプロセ
ッサと同様な方法で単一のプログラムシーケンサから多
数の命令を発行することによってプログラムの並列処理
を使用するとともに、同時マルチスレッド化と同じよう
に多数のプログラムシーケンサをサポートする。命令は
機能単位に割り当てられて、同じサイクルの中で多数の
ＶＬＩＷ命令を多数の機能単位に発行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般にマルチスレッ
ドプロセッサに関し、特に、このようなマルチスレッド
プロセッサ内で機能単位を割り当てるための方法および
装置に関する。

【０００２】

【従来の技術】コンピュータアーキテクチャの設計は、
さらに早くワークロードを完了しようと試みている。プ
ログラムの平行処理を使用するための、多くのアーキテ
クチャ設計が提案または提言されてきた。一般に、一度
に複数の動作を開始できるアーキテクチャは、一度に１
つの動作しか開始できないアーキテクチャよりも早くプ
ログラムを実行できる。コンピュータアーキテクチャに
おけるもっとも最近の発展は、一度に１つ以上の動作を
開始し、それによってプログラム動作の速度を上げる方
法に向けられてきた。図１は、従来のマイクロプロセッ
サのアーキテクチャ１００を示す。具体的には、マイク
ロプロセッサ１００はプログラムカウンタ（ＰＣ）１１
０、レジスタセット１２０、および多くの機能単位（Ｆ
Ｕ）１３０−Ｎを含む。冗長機能単位（ＦＵ）１３０―
１〜１３０―Ｎは、例としてのマイクロプロセッサのア
ーキテクチャ１００に十分なハードウェアリソースを提
供して、対応する数の動作を並列的に実行する。

【０００３】プログラム内で平行処理を使用するアーキ
テクチャは、一度に複数の機能単位にオペランドを発行
して、プログラム実行の速度を上げる。スーパースカラ
ープロセッサ、超長命令語（ＶＬＩＷ）プロセッサ、お
よびマルチスレッドプロセッサを含む、並列アーキテク
チャを伴う多くのアーキテクチャが提案または提言され
ており、各々はそれぞれ、図２、図４、および図５と共
に下記に説明される。一般に、スーパースカラープロセ
ッサは実行時にハードウェアを使用して、単一の命令ス
トリームからの多くの動作が独立しているか否かを動的
に決定し、独立している場合は、プロセッサは並列演算
論理機構（ＡＬＵ）を使用して命令を実行する。ソース
オペランドがそれに先行する命令の宛先オペランドに依
存していない場合、２つの命令は独立していると言われ
る。超長命令語（ＶＬＩＷ）プロセッサは、依存性の情
報に基づいてコンパイル中に命令を評価し、動作を適切
にグループ分けし、並列実行する。他方マルチスレッド
プロセッサは、単一の命令ストリーム内で並列処理を使
用しようと試みるのではなく、複数の命令ストリームを
並列に実行する。

【０００４】図２に示されたスーパースカラープロセッ
サのアーキテクチャ２００は、各々に有効なデータが提
供された場合、独立して動作する多くの機能単位を有す
る。たとえば図２に示されたように、スーパースカラー
プロセッサ２００は演算論理機構（ＡＬＵ）２３０―Ｎ
として具現化された３つの機能単位を有し、その各々は
同時に結果を計算できる。スーパースカラープロセッサ
２００は、命令フェッチブロック２１０、命令復号ブロ
ック２１５、および命令順序付けユニット２２０（発行
ブロック）を有するフロントエンド部２０８を含む。命
令フェッチブロック２１０は単一スレッドの命令ストリ
ームの入力待ち行列２０５から命令を得る。命令順序付
けユニット２２０は、知られた方法で使用可能な演算論
理機構（ＡＬＵ）２３０―Ｎの中で同時に実行できる独
立した命令を識別する。詳細化ブロック２５０は命令が
完了することを可能にし、バッファ化および再順序付け
を提供して、結果をレジスタセット２４０に書き込んで
戻す。

【０００５】図３に示されたプログラムフラグメント３
１０の中で、命令Ｌ２およびＬ３の中にあるソースオペ
ランドのいずれもそれに先行する任意の命令の宛先オペ
ランドに依存していないという点で、場所Ｌ１、Ｌ２、
およびＬ３にある命令は独立している。プログラムカウ
ンタ（ＰＣ）が場所Ｌ１に設定されている時、命令順序
付けユニット２２０は命令ストリームの先を見越して、
Ｌ２およびＬ３における命令が独立していることを検出
するので、したがってこれら３つすべてが３つの使用可
能な機能単位２３０―Ｎに同時に発行できる。スーパー
スカラープロセッサのさらに詳細な説明に関しては、た
とえば、参照により本明細書に援用された、ＩＥＥＥ
（１９９５年１２月）の議事録の、Ｊａｍｅｓ．Ｅ．Ｓ
ｍｉｔｈおよびＧｕｒｉｎｄａｒ．Ｓ．Ｓｏｈｉによる
「The Microarchitecture of Superscalar Processor
s」を参照されたい。

【０００６】先に示したように、図４に示された超長命
令語（ＶＬＩＷ）プロセッサ４００は、ハードウェアを
使用して実行時に動的に並列処理を検出するのではな
く、ソフトウェアに頼って単一の命令ストリームからコ
ンパイル時にデータの並列処理を検出する。ＶＬＩＷコ
ンパイラは図３のコードフラグメント３１０を生成する
ために使用されたソースコードを与えられると、命令の
独立性を検出し、３つの動作すべてから成る単一の非常
に長い命令を構築する。実行時には、プロセッサ４００
の発行論理はこの大きな命令を１つのサイクルで発行
し、データをすべての使用可能な機能単位４３０―Ｎに
向ける。図４に示したように、超長命令語（ＶＬＩＷ）
プロセッサ４００は統合フェッチ／復号ブロック４２０
を含み、統合フェッチ／復号ブロック４２０は前もって
グループ分けされた命令４１０をメモリから得る。超長
命令語（ＶＬＩＷ）プロセッサのさらに詳細な説明に関
しては、たとえば、参照により本明細書に援用されてい
る、SPIE Real Time Signal Processing ＩＶ（１９８
１）の２４１〜２４８ページにある、Ｂｕｒｔｏｎ
Ｊ．Ｓｍｉｔｈによる「Architecture and Application
s of the HEP Multiprocessor Computer System」を参
照されたい。

【０００７】ＶＬＩＷプロセッサの一変形例は、たとえ
ば、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏ
ｍｐｕｔｅｒｓ（１９９８年８月）のＲｏｂｅｒｔ
Ｐ．Ｃｏｌｗｅｌlらによる「A VLIW Architecture for
a Trace Scheduling Compiler」で論じられているよう
なマルチフローアーキテクチャによって代表され、固定
長命令を使用して、そこにおいてあらかじめ定義された
フィールドがデータを一度にすべての機能ユニット４３
０―Ｎに向ける。大きな命令の中で指定されたすべての
動作が完了すると、プロセッサは新しい、多数の動作の
命令を発行する。テキサス州ダラスのＴｅｘａｓＩｎ
ｓｔｒｕｍｅｎｔｓから市販されているＣ６ｘプロセッ
サや、カリフォルニア州サンタクララのＩｎｔｅｌＣ
ｏｒｐから市販されているＥＰＩＣＩＡ−６４などの
いくつかのより最近のＶＬＩＷプロセッサは、その代わ
りに可変長命令パケットを使用し、可変長命令パケット
は互いにバンドルされている１つまたは複数の動作を含
む。

【０００８】図５に示されたマルチスレッドプロセッサ
５００は単一の命令ストリーム内で平行処理を使用しよ
うと試みるのではなく、複数の命令ストリームを並列に
実行することによってパフォーマンスの向上を得る。図
５に示されたマルチスレッドプロセッサ５００は、プロ
グラムカウンタ５１０―Ｎ、レジスタセット５２０―
Ｎ、および機能単位５３０―Ｎを含み、各々は対応する
命令ストリームＮに専用である。マルチスレッドプロセ
ッサ５００の代替の実装は、いくつかのレジスタセット
５２０―Ｎおよびプログラムカウンタ５１０―Ｎを伴う
単一の機能単位５３０を使用してきた。このような代替
のマルチスレッドプロセッサ５００は、プロセッサ５０
０が、１つまたは２つのサイクル内で命令発行を１つの
プログラムカウンタ／レジスタセット５１０―Ｎ／５２
０−Ｎから、別のプログラムカウンタ／レジスタセット
５１０−Ｎ／５２０−Ｎに切り換えることができるよう
に設計されている。したがって、ＬＯＡＤ命令などの待
ち時間が長い命令は、別の命令ストリームからのより短
い動作と重ねることができる。ワシントン州シアトルの
ＴｅｒａＣｏｍｐｕｔｅｒＣｏｍｐａｎｙから市販
されているＴＥＲＡＭＴＡアーキテクチャはこのタイプ
の１つの例である。

【０００９】同時マルチスレッド化と呼ばれる、マルチ
スレッドアーキテクチャ５００の拡張は、図２と共に上
記に説明されたスーパースカラーアーキテクチャと、図
５と共に上記に説明されたマルチスレッド設計との両方
を組み合わせている。同時マルチスレッド化技法の詳細
な説明に関しては、たとえば、参照により本明細書に援
用されている、第２２回ＡｎｎｕａｌＩｎｔ’ｌ
ＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈ
ｉｔｅｃｔｕｒｅ（１９９５年６月、イタリア、Ｓａｎ
ｔａ MａｒｇｈｅｒｉｔａＬｉｇｕｒｅ）の議事
録、３９２〜４０３ページにある、ＤｅａｎＴｕｌｌ
ｓｅｎらによる「Simultaneous Multithreading: Maxim
izing On-Chip Parallelism」を参照されたい。一般
に、同時マルチスレッド化アーキテクチャでは機能単位
のプールがあり、そのうち任意の数が、多くのプログラ
ムカウンタ／レジスタセット構造のうち任意の１つから
発行できる命令に動的に割り当てられる。機能単位を多
くのプログラムスレッドの間で共有することにより、同
時マルチスレッド化アーキテクチャは図５に示されてい
るより効率的にハードウェアを使用することができる。

【００１０】

【発明が解決しようとする課題】同時マルチスレッド化
アーキテクチャの組み合わされた手法がスーパースカラ
ーアーキテクチャまたはマルチスレッドアーキテクチャ
の個別の手法よりも改善された効率を提供する一方、同
時マルチスレッド化アーキテクチャは依然として、動的
に命令ストリームを検討して潜在的な並列処理を検出す
るために、精巧な発行論理を必要とする。したがって、
２つの命令ストリームが独立しているか否かを動的に決
定する必要のない、マルチスレッドプロセッサのアーキ
テクチャに対するニーズが存在する。さらに、同時マル
チスレッド化を提供するマルチスレッドのアーキテクチ
ャに対するニーズが存在する。またさらに、リアルタイ
ムでのこのようなマルチスレッドプロセッサ内で機能単
位を割り当てるマルチスレッドのアーキテクチャに対す
るニーズが存在する。

【００１１】

【課題を解決するための手段】一般に、マルチスレッド
超長命令語（ＶＬＩＷ）プロセッサにおいて、機能単位
を割り当てるための方法および装置が開示される。本発
明は従来の超長命令語（ＶＬＩＷ）アーキテクチャおよ
び従来のマルチスレッドアーキテクチャの技法を組み合
わせている。本発明の組み合わされたアーキテクチャ
は、個別のプログラム内、およびワークロード全体で実
行時間を軽減する。

【００１２】本発明は、コンパイラを使用してマルチス
レッドプロセッサのアーキテクチャ内で並列処理を検出
する。したがって動的な決定が必要ないため、単一スレ
ッドＶＬＩＷプロセッサと同じ方法で単一のプログラム
シーケンサから多数の命令を発行することによって、ま
た、同時マルチスレッド化と同じように多数のプログラ
ムシーケンサをサポートするが発行論理内で複雑さが軽
減されてサポートすることによって、プログラムの並列
処理を使用するマルチスレッドＶＬＩＷアーキテクチャ
が開示される。

【００１３】本発明は命令を機能単位に割り当て、多数
のＶＬＩＷ命令を同じサイクル内の多数の機能単位に発
行する。本発明の割り当て機構は、引数が機能単位にデ
ィスパッチされる直前に、パイプライン段を占有する。
一般に、割り当て段は、適切な命令を選択し、スレッド
の優先順位またはリソース可用性、あるいはその両方に
もとづいて、その命令を機能単位に割り当てることによ
って、命令をどのようにグループ分けして効率を最大に
するかを決定する。

【００１４】割り当て段は、パイプライン内でフェッチ
され復号化された（最高で）Ｎ＊Ｋ個の命令から、適切
なＭ個の命令を選択して実行する。命令の選択に関する
判定基準は、スレッドの優先順位またはリソースの可用
性またはその両方である。スレッドの優先順位判定基準
の下では、種々のスレッドは異なる優先順位を有するこ
とができる。割り当て段は、実装されている優先順位の
方針にしたがって、もっとも高い優先順位を伴うスレッ
ドに属するパケット（またはパケットからの命令）を選
択し、かつ転送して実行する。リソースの可用性判定基
準の下では、（最高でＫ個の命令を有する）パケット
は、そのパケットによって必要とされるリソース（機能
単位など）が次のサイクルについて使用可能である場合
にのみ、割り当てられる。機能単位はその可用性を割り
当て段に報告する。

【００１５】本発明のさらに完全な理解、また本発明の
さらなる特徴および利点は、次の詳細な説明および図面
を参照することによって得られる。

【００１６】

【発明の実施の形態】（関連出願への相互参照）本発明
は、代理人整理番号（Ｂｅｒｅｎｂａｕｍ８−３−４
−４）の、「Method and Apparatus for Releasing Fun
ctional Units in a Multithreaded Very Large Instru
ction Word (VLIW) Processor」という名称の米国特許
出願と、代理人整理番号（Ｂｅｒｅｎｂａｕｍ９−４
−５−５）の、「Method and Apparatus for Splitting
Packets in a Multithreaded Very Large Instruction
Word (VLIW) Processor」という名称の米国特許出願
と、代理人整理番号（Ｂｅｒｅｎｂａｕｍ１０−５−
６−６）で、「Method and Apparatus for Identifying
Splittable Packets in a Multithreaded Very Large
Instruction Word (VLIW) Processor」という名称の米
国特許出願に関連し、各々は本明細書と同時に提出さ
れ、本発明の譲渡人に譲渡され、参照により本発明に援
用されている。

【００１７】図６は、本発明によるマルチスレッドＶＬ
ＩＷプロセッサ６００を示す図である。図６に示したよ
うに、３つの命令スレッド、すなわちスレッドＡ（Ｔ
Ａ）、スレッドＢ（ＴＢ）およびスレッドＣ（ＴＣ）が
あり、各々は命令番号ｎで動作している。さらに、例と
してのマルチスレッドＶＬＩＷプロセッサ６００は、９
つの機能単位６２０−１〜６２０−９を含み、これは任
意のスレッドＴＡ―ＴＣに独立的に割り当てることがで
きる。例としての３つのスレッドＴＡ―ＴＣ上の命令の
数は９で、例としての使用可能な機能ユニット６２０の
数もまた９なので、３つのスレッドＴＡ―ＴＣすべてか
らの命令の各々は１つのサイクルで命令パケットを発行
でき、次のサイクルで命令ｎ＋１に移動できる。

【００１８】一般的に、命令とそれによって指定される
動作の間には１対１の対応があることに留意されたい。
したがって、この用語は本明細書内では相互に交換可能
であるように使用される。さらに、命令が多数の動作を
指定する状況では、マルチスレッドＶＬＩＷプロセッサ
６００は１つまたは複数の多数動作の機能単位６２０を
含んで、多数動作を指定する命令を実行すると仮定され
ていることに留意されたい。多数動作を指定する命令が
処理できるアーキテクチャの例は、複雑命令セットコン
ピュータ（ＣＩＳＣ）である。

【００１９】本発明は命令を機能単位に割り当て、同じ
サイクルの中で多数のＶＬＩＷ命令を多数の機能単位に
発行する。本発明の割り当て機構は、引数が機能単位に
ディスパッチされる直前にパイプライン段を占める。図
７Ａは従来のパイプライン７００を示し、パイプライン
７００はパケットがメモリから得られるフェッチ段７１
０、フェッチされた命令に関して必要な機能単位および
レジスタが識別される復号段７２０、および、指定され
た動作が実行され、かつその結果が処理される実行段７
３０を含む。

【００２０】このように、従来のＶＬＩＷアーキテクチ
ャでは、最高でＫ個までの命令を含むパケットが各サイ
クルでフェッチされる（フェッチ段７１０）。復号段７
２０では最高でＫ個までの命令が復号化され、（最高
で）Ｋ個の機能単位（ＦＵ）に送信される。実行段７３
０では、命令に対応するレジスタが読み出され、機能単
位はそれについて動作してその結果がレジスタに書き込
まれて戻される。１機能単位あたり最高で３つまでのレ
ジスタが読み出され、最高で１つのレジスタが書き込ま
れると仮定されている。

【００２１】図７Ｂは本発明によるパイプライン７５０
を示し、ここでは図８と共にさらに以下に説明される割
り当て段７８０が追加されて、マルチスレッドＶＬＩＷ
プロセッサを実装する。一般に、割り当て段７８０は動
作をグループ化して効率を最大限にする方法を決定す
る。パイプライン７５０は、最高でＮ個までのパケット
がメモリから得られるフェッチ段７６０、フェッチされ
た命令（最高でＮ＊Ｋ個の命令）に関して機能単位およ
びレジスタが識別される復号段７７０、適切な命令が選
択されＦＵに割り当てられる割り当て段７８０、およ
び、指定された動作が実行され、かつその結果が処理さ
れる実行段７９０を含む。

【００２２】本発明のマルチスレッドＶＬＩＷプロセッ
サ６００では、最高でＮ個までのスレッドがハードウェ
ア内でサポートされる。Ｎ個のスレッドのコンテキスト
が存在し、単一のスレッドの可能なすべてのレジスタ
と、必要なすべての状態情報とを含む。マルチスレッド
ＶＬＩＷプロセッサ６００はＭ個の機能単位を有し、Ｍ
はＫより大きいか等しい。図７Ｂに示された修正された
パイプライン段７５０は、次の方法で動作する。フェッ
チ段７６０では各サイクルにおいて、最高でＮ個までの
パケット（各々は最高でＫ個の命令を含む）がフェッチ
される。復号段７７０では最高でＮ＊Ｋ個までの命令を
復号化し、その要件および、読み出され、かつ書き込ま
れるレジスタを決定する。割り当て段７８０では（最高
で）Ｎ＊Ｋ個の命令からＭ個の命令を選択し、それらを
Ｍ個の機能単位に転送する。各機能単位は最高で３個ま
でのレジスタを読み出すことができ、１個のレジスタに
書き込むことができると仮定されている。実行段７９０
では、最高でＭ個までの機能単位が最高で３＊Ｍ個まで
のレジスタを読み出し、最高でＭ個までのレジスタに書
き込む。

【００２３】割り当て段７８０は、段７６０および７７
０でフェッチされ、かつ復号化された（最高で）Ｎ＊Ｋ
個の命令から適切なＭ個の命令を選択して実行する。選
択の判定基準はスレッドの優先順位またはリソースの可
用性またはその両方である。スレッドの優先順位判定基
準の下では、種々のスレッドは異なる優先順を有するこ
とができる。割り当て段７８０は、実装されている優先
順位の方針にしたがってもっとも高い優先順位を伴うス
レッドに属するパケット（またはパケットからの命令）
を選択し転送して実行する。多数の優先順位方針を実装
できる。たとえば、Ｎ個のコンテキスト（Ｎ個のハード
ウェアスレッド）をサポートするマルチスレッドＶＬＩ
Ｗプロセッサに関する優先順位方針は、Ｎ個の優先順位
レベルを有することが可能である。プロセッサ内のもっ
とも優先順位の高いスレッドは、他のどのスレッドより
も前に割り当てられる。等しい優先順位を伴うスレッド
の間では、もっとも長いこと割り当てを待っていたスレ
ッドが優先される。

【００２４】リソースの可用性判定基準の下では、（最
高でＫ個までの命令を有する）パケットは、そのパケッ
トによって必要とされるリソース（機能単位）が次のサ
イクルについて使用可能である場合にのみ、割り当てら
れる。機能単位はその可用性を割り当て段７８０に報告
する。

【００２５】図８は、割り当て段７８０の実装の概略構
成図である。図８に示されたように、割り当て段７８０
を実装するために必要とされるハードウェアは、優先順
位符号器８１０および２つのクロスバスイッチ８２０、
８３０を含む。一般に、優先順位符号器８１０は各スレ
ッドの中で多数の動作の状態、および使用可能な機能単
位の状態を検討する。優先順位符号器８１０は、第１の
クロスバスイッチ８２０を実行して設定しようとするパ
ケットを選択するので、適切なレジスタの内容が次のサ
イクルの最初で機能単位に転送される。優先順位符号器
８１０の出力は第１のクロスバスイッチ８２０を構成し
て、選択されたスレッドからのデータを適切な機能単位
にルーティングする。これはたとえば、（スレッド識別
子を含む）レジスタ識別子を機能単位に送信し、機能単
位に別のデータネットワークを介してレジスタの内容を
読み取らせ、クロスバスイッチ８１０を使用して適切な
レジスタの内容を、次のサイクルの初めに機能単位によ
って読み出されるラッチに移動することによって達成で
きる。

【００２６】優先順位符号器８１０はフェッチ段７６０
（図７Ｂ）によってフェッチされたＮ個のパケットか
ら、優先順位およびリソースの可用性に従って最高でＮ
個までのパケットを選択して実行する。言い換えれば、
優先順位符号器は、もっとも優先順位が高く、しかも実
行のために使用不可能なリソースを必要としないスレッ
ドを選択する。ついで、優先順位符号器は第１のクロス
バスイッチ８１０を設定する。入力クロスバスイッチ８
１０は最高で３Ｋ＊Ｎ個の入力を最高で３＊Ｍ個の出力
にルーティングする。第１のクロスバスイッチ８１０は
各パケットのレジスタ識別子（または適切なレジスタの
内容）を適切な機能単位に転送する機能を有する。

【００２７】同じサイクル内で選択できるスレッドは最
高でＮ個までであり、各スレッドは最高でＫ個までの命
令のパケットを発行でき、各命令は最高で３個までのレ
ジスタを読み出せるので、選択元のレジスタ識別子は３
Ｋ＊Ｎ個である。機能単位はＭ個しかなく、各機能単位
は単一の命令を受け取ることができるので、選択される
べきレジスタ識別子は３Ｍ個のみである。したがって、
クロスバスイッチはレジスタ識別子（またはレジスタの
内容）の、３Ｋ＊Ｎから３Ｍへのルーティングを実装す
る。

【００２８】出力クロスバスイッチ８３０は、Ｍ個の入
力をＮ＊Ｍ個またはＮ＊Ｋ個の出力にルーティングす
る。第２のクロスバスイッチ８３０は適切な時間に設定
され、機能単位の結果を適切なレジスタに転送して戻
す。第２のクロスバスイッチ８３０は、（スレッド識別
子を含む）レジスタ識別子を機能単位に送信することに
よって、別のネットワークとして実装できる。機能単位
が結果を計算する時、機能単位はその結果を所与のレジ
スタ識別子にルーティングする。最高でＮ個までのスレ
ッドにルーティングされるべき結果はＭ個ある。各スレ
ッドは最高でＫ個までの結果を受け取ることができる。
第２のクロスバスイッチ８３０は、Ｍ個の結果をＮ＊Ｋ
個の可能な宛先にルーティングする。第２のクロスバス
イッチ８３０は、Ｎ個のレジスタファイルすべてに接続
されたＭ個のバスとして実装できる。この場合、ルーテ
ィングはＭ個になり、Ｎ＊Ｍ個の可能な宛先へルーティ
ングすることになる（レジスタファイルがＭ個の結果を
受け取る機能を有している場合）。

【００２９】本明細書に示され、説明された実施形態お
よびその変形例は、本発明の原理の例にすぎず、当業者
によって本発明の範囲および精神から逸脱することなく
種々の変更例が実装できることを理解されたい。

【図面の簡単な説明】

【図１】従来の一般化されたマイクロプロセッサのアー
キテクチャを示す図である。

【図２】従来のスーパースカラープロセッサのアーキテ
クチャの概略構成図である。

【図３】動作の独立性を示すプログラムフラグメントを
示す図である。

【図４】従来の超長命令語（ＶＬＩＷ）プロセッサのア
ーキテクチャの概略構成図である。

【図５】従来のマルチスレッドプロセッサの概略構成図
である。

【図６】本発明によるマルチスレッドＶＬＩＷプロセッ
サの図である。

【図７Ａ】マルチスレッドプロセッサに関する従来のパ
イプラインを示す図である。

【図７Ｂ】本発明によるマルチスレッドプロセッサに関
するパイプラインを示す図である。

【図８】図７Ｂの割り当て段の実装の概略構成図であ
る。

【符号の説明】

１００マイクロプロセッサ１１０プログラムカウンタ１２０レジスタセット１３０−Ｎ機能単位２００スーパースカラープロセッサ２０５入力待ち行列２０８フロントエンド部２１０命令フェッチブロック２１５命令復号ブロック２２０命令順序づけユニット２３０―Ｎ演算論理機構２４０レジスタセット２５０詳細化ブロック３１０プログラムフラグメント４００超長命令語（ＶＬＩＷ）プロセッサ４１０命令４２０統合フェッチ／復号ブロック４３０−Ｎ機能単位５００マルチスレッドプロセッサ５１０−Ｎプログラムカウンタ５２０−Ｎレジスタ５３０−Ｎ機能単位６００ＶＬＩＷプロセッサ６２０−Ｎ機能単位７００パイプライン７１０フェッチ段７２０復号段７３０実行段７５０パイプライン７６０フェッチ段７７０復号段７８０割り当て段７９０実行段８１０優先順位符号器８２０クロスバスイッチ８３０クロスバスイッチ

フロントページの続き (72)発明者アランディヴィッドベレンバウムアメリカ合衆国 10011 ニューヨーク, ニューヨーク，ウエストツエルヴスストリート 37，アパートメント９ジェー (72)発明者ネヴィンヘインツアメリカ合衆国 07960 ニュージャーシィ，モリスタウン，マウントケンブルアヴェニュー 301 (72)発明者トアイー．ジェレミアッセンアメリカ合衆国 08873 ニュージャーシィ，サマーセット，オスウエストリーウエイ 81 (72)発明者ステファノスカックシラスアメリカ合衆国ニュージャーシィ，ジャーシィシティ，ワシントンブウルヴァード 444，アパートメント 2119

Claims

【特許請求の範囲】

【請求項１】マルチスレッド超長命令語（ＶＬＩＷ）
プロセッサであって、複数のスレッドを有する命令ストリームから複数の命令
を実行し、該スレッドは優先順位を有する複数の機能単
位と、前記命令ストリームから命令を選択し、該命令を前記複
数の機能単位に転送し、該命令を前記スレッドの優先順
位に基づいて選択するアロケータとを備えるマルチスレ
ッド超長命令語（ＶＬＩＷ）プロセッサ。
【請求項２】前記スレッド優先順位は種々のスレッド
が異なる優先順位を有することを可能にする請求項１に
記載のマルチスレッド超長命令語（ＶＬＩＷ）プロセッ
サ。
【請求項３】前記アロケータは、もっとも高い優先順
位を伴うスレッドに属する前記命令を選択し、かつ転送
して実行する請求項１に記載のマルチスレッド超長命令
語（ＶＬＩＷ）プロセッサ。
【請求項４】前記アロケータは、前記スレッドの優先
順位およびリソースの可用性に基づいて前記命令を選択
し、かつ転送する請求項１に記載のマルチスレッド超長
命令語（ＶＬＩＷ）プロセッサ。
【請求項５】マルチスレッド超長命令語（ＶＬＩＷ）
プロセッサであって、マルチスレッド命令ストリームから複数の命令を実行す
るための複数の機能単位と、前記命令ストリームから命令を選択し、該命令を前記複
数の機能単位に転送し、該命令をリソースの可用性に基
づいて選択するアロケータとを備えるマルチスレッド超
長命令語（ＶＬＩＷ）プロセッサ。
【請求項６】前記リソースの可用性は、命令によって
必要とされるリソースが次のサイクルについて使用可能
である場合のみ該命令を割り当てることを可能にする請
求項５に記載のマルチスレッド超長命令語（ＶＬＩＷ）
プロセッサ。
【請求項７】前記リソースは前記機能単位を含む請求
項５に記載のマルチスレッド超長命令語（ＶＬＩＷ）プ
ロセッサ。
【請求項８】前記アロケータは前記リソースの可用性
および前記スレッドに割り当てられた優先順位に基づい
て前記命令を選択し、かつ転送する請求項５に記載のマ
ルチスレッド超長命令語（ＶＬＩＷ）プロセッサ。
【請求項９】マルチスレッド超長命令語（ＶＬＩＷ）
プロセッサにおいて複数のスレッドを有する命令ストリ
ームから命令を処理するための方法であって、複数の機能単位を使用して前記命令を実行するステップ
であって、前記スレッドは優先順位を有するステップ
と、前記スレッドの優先順位に基づいて前記命令ストリーム
から命令を選択するステップと、前記選択された命令を前記複数の機能単位に転送するス
テップとを含む方法。
【請求項１０】前記スレッドの優先順位は、種々のス
レッドが異なる優先順位を有することを可能にする請求
項９に記載の方法。
【請求項１１】前記選択のステップはもっとも高い優
先順位を伴うスレッドに属する前記命令を選択して実行
する請求項９に記載の方法。
【請求項１２】マルチスレッド超長命令語（ＶＬＩ
Ｗ）プロセッサにおいて複数のスレッドを有する命令ス
トリームから命令を処理するための方法であって、複数の機能単位を使用して前記命令を実行するステップ
と、リソースの可用性に基づいて前記命令ストリームから命
令を選択するステップと、前記選択された命令を前記複数の機能単位に転送するス
テップとを含む方法。
【請求項１３】前記リソースの可用性は、前記命令に
よって必要とされるリソースが次のサイクルについて使
用可能な場合のみ、前記命令を割り当てることを可能に
する請求項１２に記載の方法。
【請求項１４】前記リソースは前記機能単位を含む請
求項１２に記載の方法。
【請求項１５】マルチスレッド超長命令語（ＶＬＩ
Ｗ）プロセッサにおいて複数のスレッドを有する命令ス
トリームから命令を処理するための製造物であって、その上に具現化されたコンピュータ読み取り可能プログ
ラムコード手段を有するコンピュータ読み取り可能媒体
を含み、該コンピュータ読み取り可能プログラムコード
手段は、コンピュータに、複数の機能単位を使用して前記命令を実行させ、前記ス
レッドは優先順位を有し、前記スレッドの優先順位に基づいて前記命令ストリーム
から命令を選択させ、前記選択された命令を前記複数の機能単位へ転送させる
プログラムコード手段を備える製造物。
【請求項１６】マルチスレッド超長命令語（ＶＬＩ
Ｗ）プロセッサにおいて複数のスレッドを有する命令ス
トリームから命令を処理するための製造物であって、その上に具現化されたコンピュータ読み取り可能プログ
ラムコード手段を有するコンピュータ読み取り可能媒体
を含み、該コンピュータ読み取り可能プログラムコード
手段は、コンピュータに、複数の機能単位を使用して前記命令を実行させ、リソースの可用性に基づいて前記命令ストリームから命
令を選択させ、前記選択された命令を前記複数の機能単位に転送させる
プログラムコード手段を備える製造物。