JP3832623B2

JP3832623B2 - マルチスレッドｖｌｉｗプロセッサにおいて機能単位を割り当てるための方法および装置

Info

Publication number: JP3832623B2
Application number: JP2001094456A
Authority: JP
Inventors: ディヴィッドベレンバウムアラン; ヘインツネヴィン; イー．ジェレミアッセントア; カックシラスステファノス
Original assignee: Agere Systems LLC
Current assignee: Agere Systems LLC
Priority date: 2000-03-30
Filing date: 2001-03-29
Publication date: 2006-10-11
Anticipated expiration: 2021-03-29
Also published as: EP1148414A2; EP1148414A3; EP1148414B1; TW514827B; DE60115982D1; DE60115982T2; US7007153B1; JP2001306323A; CA2337172A1; CA2337172C; KR20010095069A

Description

【０００１】
【発明の属する技術分野】
本発明は一般にマルチスレッドプロセッサに関し、特に、このようなマルチスレッドプロセッサ内で機能単位を割り当てるための方法および装置に関する。
【０００２】
【従来の技術】
コンピュータアーキテクチャの設計は、さらに早くワークロードを完了しようと試みている。プログラムの平行処理を使用するための、多くのアーキテクチャ設計が提案または提言されてきた。一般に、一度に複数の動作を開始できるアーキテクチャは、一度に１つの動作しか開始できないアーキテクチャよりも早くプログラムを実行できる。コンピュータアーキテクチャにおけるもっとも最近の発展は、一度に１つ以上の動作を開始し、それによってプログラム動作の速度を上げる方法に向けられてきた。図１は、従来のマイクロプロセッサのアーキテクチャ１００を示す。具体的には、マイクロプロセッサ１００はプログラムカウンタ（ＰＣ）１１０、レジスタセット１２０、および多くの機能単位（ＦＵ）１３０−Ｎを含む。冗長機能単位（ＦＵ）１３０―１〜１３０―Ｎは、例としてのマイクロプロセッサのアーキテクチャ１００に十分なハードウェアリソースを提供して、対応する数の動作を並列的に実行する。
【０００３】
プログラム内で平行処理を使用するアーキテクチャは、一度に複数の機能単位にオペランドを発行して、プログラム実行の速度を上げる。スーパースカラープロセッサ、超長命令語（ＶＬＩＷ）プロセッサ、およびマルチスレッドプロセッサを含む、並列アーキテクチャを伴う多くのアーキテクチャが提案または提言されており、各々はそれぞれ、図２、図４、および図５と共に下記に説明される。一般に、スーパースカラープロセッサは実行時にハードウェアを使用して、単一の命令ストリームからの多くの動作が独立しているか否かを動的に決定し、独立している場合は、プロセッサは並列演算論理機構（ＡＬＵ）を使用して命令を実行する。ソースオペランドがそれに先行する命令の宛先オペランドに依存していない場合、２つの命令は独立していると言われる。超長命令語（ＶＬＩＷ）プロセッサは、依存性の情報に基づいてコンパイル中に命令を評価し、動作を適切にグループ分けし、並列実行する。他方マルチスレッドプロセッサは、単一の命令ストリーム内で並列処理を使用しようと試みるのではなく、複数の命令ストリームを並列に実行する。
【０００４】
図２に示されたスーパースカラープロセッサのアーキテクチャ２００は、各々に有効なデータが提供された場合、独立して動作する多くの機能単位を有する。たとえば図２に示されたように、スーパースカラープロセッサ２００は演算論理機構（ＡＬＵ）２３０―Ｎとして具現化された３つの機能単位を有し、その各々は同時に結果を計算できる。スーパースカラープロセッサ２００は、命令フェッチブロック２１０、命令復号ブロック２１５、および命令順序付けユニット２２０（発行ブロック）を有するフロントエンド部２０８を含む。命令フェッチブロック２１０は単一スレッドの命令ストリームの入力待ち行列２０５から命令を得る。命令順序付けユニット２２０は、知られた方法で使用可能な演算論理機構（ＡＬＵ）２３０―Ｎの中で同時に実行できる独立した命令を識別する。詳細化ブロック２５０は命令が完了することを可能にし、バッファ化および再順序付けを提供して、結果をレジスタセット２４０に書き込んで戻す。
【０００５】
図３に示されたプログラムフラグメント３１０の中で、命令Ｌ２およびＬ３の中にあるソースオペランドのいずれもそれに先行する任意の命令の宛先オペランドに依存していないという点で、場所Ｌ１、Ｌ２、およびＬ３にある命令は独立している。プログラムカウンタ（ＰＣ）が場所Ｌ１に設定されている時、命令順序付けユニット２２０は命令ストリームの先を見越して、Ｌ２およびＬ３における命令が独立していることを検出するので、したがってこれら３つすべてが３つの使用可能な機能単位２３０―Ｎに同時に発行できる。スーパースカラープロセッサのさらに詳細な説明に関しては、たとえば、参照により本明細書に援用された、ＩＥＥＥ（１９９５年１２月）の議事録の、Ｊａｍｅｓ．Ｅ．ＳｍｉｔｈおよびＧｕｒｉｎｄａｒ．Ｓ．Ｓｏｈｉによる「The Microarchitecture of Superscalar Processors」を参照されたい。
【０００６】
先に示したように、図４に示された超長命令語（ＶＬＩＷ）プロセッサ４００は、ハードウェアを使用して実行時に動的に並列処理を検出するのではなく、ソフトウェアに頼って単一の命令ストリームからコンパイル時にデータの並列処理を検出する。ＶＬＩＷコンパイラは図３のコードフラグメント３１０を生成するために使用されたソースコードを与えられると、命令の独立性を検出し、３つの動作すべてから成る単一の非常に長い命令を構築する。実行時には、プロセッサ４００の発行論理はこの大きな命令を１つのサイクルで発行し、データをすべての使用可能な機能単位４３０―Ｎに向ける。図４に示したように、超長命令語（ＶＬＩＷ）プロセッサ４００は統合フェッチ／復号ブロック４２０を含み、統合フェッチ／復号ブロック４２０は前もってグループ分けされた命令４１０をメモリから得る。超長命令語（ＶＬＩＷ）プロセッサのさらに詳細な説明に関しては、たとえば、参照により本明細書に援用されている、SPIE Real Time Signal Processing ＩＶ（１９８１）の２４１〜２４８ページにある、ＢｕｒｔｏｎＪ．Ｓｍｉｔｈによる「Architecture and Applications of the HEP Multiprocessor Computer System」を参照されたい。
【０００７】
ＶＬＩＷプロセッサの一変形例は、たとえば、ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＣｏｍｐｕｔｅｒｓ（１９９８年８月）のＲｏｂｅｒｔＰ．Ｃｏｌｗｅｌlらによる「A VLIW Architecture for a Trace Scheduling Compiler」で論じられているようなマルチフローアーキテクチャによって代表され、固定長命令を使用して、そこにおいてあらかじめ定義されたフィールドがデータを一度にすべての機能ユニット４３０―Ｎに向ける。大きな命令の中で指定されたすべての動作が完了すると、プロセッサは新しい、多数の動作の命令を発行する。テキサス州ダラスのＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓから市販されているＣ６ｘプロセッサや、カリフォルニア州サンタクララのＩｎｔｅｌＣｏｒｐから市販されているＥＰＩＣＩＡ−６４などのいくつかのより最近のＶＬＩＷプロセッサは、その代わりに可変長命令パケットを使用し、可変長命令パケットは互いにバンドルされている１つまたは複数の動作を含む。
【０００８】
図５に示されたマルチスレッドプロセッサ５００は単一の命令ストリーム内で平行処理を使用しようと試みるのではなく、複数の命令ストリームを並列に実行することによってパフォーマンスの向上を得る。図５に示されたマルチスレッドプロセッサ５００は、プログラムカウンタ５１０―Ｎ、レジスタセット５２０―Ｎ、および機能単位５３０―Ｎを含み、各々は対応する命令ストリームＮに専用である。マルチスレッドプロセッサ５００の代替の実装は、いくつかのレジスタセット５２０―Ｎおよびプログラムカウンタ５１０―Ｎを伴う単一の機能単位５３０を使用してきた。このような代替のマルチスレッドプロセッサ５００は、プロセッサ５００が、１つまたは２つのサイクル内で命令発行を１つのプログラムカウンタ／レジスタセット５１０―Ｎ／５２０−Ｎから、別のプログラムカウンタ／レジスタセット５１０−Ｎ／５２０−Ｎに切り換えることができるように設計されている。したがって、ＬＯＡＤ命令などの待ち時間が長い命令は、別の命令ストリームからのより短い動作と重ねることができる。ワシントン州シアトルのＴｅｒａＣｏｍｐｕｔｅｒＣｏｍｐａｎｙから市販されているＴＥＲＡＭＴＡアーキテクチャはこのタイプの１つの例である。
【０００９】
同時マルチスレッド化と呼ばれる、マルチスレッドアーキテクチャ５００の拡張は、図２と共に上記に説明されたスーパースカラーアーキテクチャと、図５と共に上記に説明されたマルチスレッド設計との両方を組み合わせている。同時マルチスレッド化技法の詳細な説明に関しては、たとえば、参照により本明細書に援用されている、第２２回ＡｎｎｕａｌＩｎｔ’ｌＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ（１９９５年６月、イタリア、Ｓａｎｔａ MａｒｇｈｅｒｉｔａＬｉｇｕｒｅ）の議事録、３９２〜４０３ページにある、ＤｅａｎＴｕｌｌｓｅｎらによる「Simultaneous Multithreading: Maximizing On-Chip Parallelism」を参照されたい。一般に、同時マルチスレッド化アーキテクチャでは機能単位のプールがあり、そのうち任意の数が、多くのプログラムカウンタ／レジスタセット構造のうち任意の１つから発行できる命令に動的に割り当てられる。機能単位を多くのプログラムスレッドの間で共有することにより、同時マルチスレッド化アーキテクチャは図５に示されているより効率的にハードウェアを使用することができる。
【００１０】
【発明が解決しようとする課題】
同時マルチスレッド化アーキテクチャの組み合わされた手法がスーパースカラーアーキテクチャまたはマルチスレッドアーキテクチャの個別の手法よりも改善された効率を提供する一方、同時マルチスレッド化アーキテクチャは依然として、動的に命令ストリームを検討して潜在的な並列処理を検出するために、精巧な発行論理を必要とする。したがって、２つの命令ストリームが独立しているか否かを動的に決定する必要のない、マルチスレッドプロセッサのアーキテクチャに対するニーズが存在する。さらに、同時マルチスレッド化を提供するマルチスレッドのアーキテクチャに対するニーズが存在する。またさらに、リアルタイムでのこのようなマルチスレッドプロセッサ内で機能単位を割り当てるマルチスレッドのアーキテクチャに対するニーズが存在する。
【００１１】
【課題を解決するための手段】
一般に、マルチスレッド超長命令語（ＶＬＩＷ）プロセッサにおいて、機能単位を割り当てるための方法および装置が開示される。本発明は従来の超長命令語（ＶＬＩＷ）アーキテクチャおよび従来のマルチスレッドアーキテクチャの技法を組み合わせている。本発明の組み合わされたアーキテクチャは、個別のプログラム内、およびワークロード全体で実行時間を軽減する。
【００１２】
本発明は、コンパイラを使用してマルチスレッドプロセッサのアーキテクチャ内で並列処理を検出する。したがって動的な決定が必要ないため、単一スレッドＶＬＩＷプロセッサと同じ方法で単一のプログラムシーケンサから多数の命令を発行することによって、また、同時マルチスレッド化と同じように多数のプログラムシーケンサをサポートするが発行論理内で複雑さが軽減されてサポートすることによって、プログラムの並列処理を使用するマルチスレッドＶＬＩＷアーキテクチャが開示される。
【００１３】
本発明は命令を機能単位に割り当て、多数のＶＬＩＷ命令を同じサイクル内の多数の機能単位に発行する。本発明の割り当て機構は、引数が機能単位にディスパッチされる直前に、パイプライン段を占有する。一般に、割り当て段は、適切な命令を選択し、スレッドの優先順位またはリソース可用性、あるいはその両方にもとづいて、その命令を機能単位に割り当てることによって、命令をどのようにグループ分けして効率を最大にするかを決定する。
【００１４】
割り当て段は、パイプライン内でフェッチされ復号化された（最高で）Ｎ＊Ｋ個の命令から、適切なＭ個の命令を選択して実行する。命令の選択に関する判定基準は、スレッドの優先順位またはリソースの可用性またはその両方である。スレッドの優先順位判定基準の下では、種々のスレッドは異なる優先順位を有することができる。割り当て段は、実装されている優先順位の方針にしたがって、もっとも高い優先順位を伴うスレッドに属するパケット（またはパケットからの命令）を選択し、かつ転送して実行する。リソースの可用性判定基準の下では、（最高でＫ個の命令を有する）パケットは、そのパケットによって必要とされるリソース（機能単位など）が次のサイクルについて使用可能である場合にのみ、割り当てられる。機能単位はその可用性を割り当て段に報告する。
【００１５】
本発明のさらに完全な理解、また本発明のさらなる特徴および利点は、次の詳細な説明および図面を参照することによって得られる。
【００１６】
【発明の実施の形態】
（関連出願への相互参照）
本発明は、代理人整理番号（Ｂｅｒｅｎｂａｕｍ８−３−４−４）の、「Method and Apparatus for Releasing Functional Units in a Multithreaded Very Large Instruction Word (VLIW) Processor」という名称の米国特許出願と、代理人整理番号（Ｂｅｒｅｎｂａｕｍ９−４−５−５）の、「Method and Apparatus for Splitting Packets in a Multithreaded Very Large Instruction Word (VLIW) Processor」という名称の米国特許出願と、代理人整理番号（Ｂｅｒｅｎｂａｕｍ１０−５−６−６）で、「Method and Apparatus for Identifying Splittable Packets in a Multithreaded Very Large Instruction Word (VLIW) Processor」という名称の米国特許出願に関連し、各々は本明細書と同時に提出され、本発明の譲渡人に譲渡され、参照により本発明に援用されている。
【００１７】
図６は、本発明によるマルチスレッドＶＬＩＷプロセッサ６００を示す図である。図６に示したように、３つの命令スレッド、すなわちスレッドＡ（ＴＡ）、スレッドＢ（ＴＢ）およびスレッドＣ（ＴＣ）があり、各々は命令番号ｎで動作している。さらに、例としてのマルチスレッドＶＬＩＷプロセッサ６００は、９つの機能単位６２０−１〜６２０−９を含み、これは任意のスレッドＴＡ―ＴＣに独立的に割り当てることができる。例としての３つのスレッドＴＡ―ＴＣ上の命令の数は９で、例としての使用可能な機能ユニット６２０の数もまた９なので、３つのスレッドＴＡ―ＴＣすべてからの命令の各々は１つのサイクルで命令パケットを発行でき、次のサイクルで命令ｎ＋１に移動できる。
【００１８】
一般的に、命令とそれによって指定される動作の間には１対１の対応があることに留意されたい。したがって、この用語は本明細書内では相互に交換可能であるように使用される。さらに、命令が多数の動作を指定する状況では、マルチスレッドＶＬＩＷプロセッサ６００は１つまたは複数の多数動作の機能単位６２０を含んで、多数動作を指定する命令を実行すると仮定されていることに留意されたい。多数動作を指定する命令が処理できるアーキテクチャの例は、複雑命令セットコンピュータ（ＣＩＳＣ）である。
【００１９】
本発明は命令を機能単位に割り当て、同じサイクルの中で多数のＶＬＩＷ命令を多数の機能単位に発行する。本発明の割り当て機構は、引数が機能単位にディスパッチされる直前にパイプライン段を占める。図７Ａは従来のパイプライン７００を示し、パイプライン７００はパケットがメモリから得られるフェッチ段７１０、フェッチされた命令に関して必要な機能単位およびレジスタが識別される復号段７２０、および、指定された動作が実行され、かつその結果が処理される実行段７３０を含む。
【００２０】
このように、従来のＶＬＩＷアーキテクチャでは、最高でＫ個までの命令を含むパケットが各サイクルでフェッチされる（フェッチ段７１０）。復号段７２０では最高でＫ個までの命令が復号化され、（最高で）Ｋ個の機能単位（ＦＵ）に送信される。実行段７３０では、命令に対応するレジスタが読み出され、機能単位はそれについて動作してその結果がレジスタに書き込まれて戻される。１機能単位あたり最高で３つまでのレジスタが読み出され、最高で１つのレジスタが書き込まれると仮定されている。
【００２１】
図７Ｂは本発明によるパイプライン７５０を示し、ここでは図８と共にさらに以下に説明される割り当て段７８０が追加されて、マルチスレッドＶＬＩＷプロセッサを実装する。一般に、割り当て段７８０は動作をグループ化して効率を最大限にする方法を決定する。パイプライン７５０は、最高でＮ個までのパケットがメモリから得られるフェッチ段７６０、フェッチされた命令（最高でＮ＊Ｋ個の命令）に関して機能単位およびレジスタが識別される復号段７７０、適切な命令が選択されＦＵに割り当てられる割り当て段７８０、および、指定された動作が実行され、かつその結果が処理される実行段７９０を含む。
【００２２】
本発明のマルチスレッドＶＬＩＷプロセッサ６００では、最高でＮ個までのスレッドがハードウェア内でサポートされる。Ｎ個のスレッドのコンテキストが存在し、単一のスレッドの可能なすべてのレジスタと、必要なすべての状態情報とを含む。マルチスレッドＶＬＩＷプロセッサ６００はＭ個の機能単位を有し、ＭはＫより大きいか等しい。図７Ｂに示された修正されたパイプライン段７５０は、次の方法で動作する。フェッチ段７６０では各サイクルにおいて、最高でＮ個までのパケット（各々は最高でＫ個の命令を含む）がフェッチされる。復号段７７０では最高でＮ＊Ｋ個までの命令を復号化し、その要件および、読み出され、かつ書き込まれるレジスタを決定する。割り当て段７８０では（最高で）Ｎ＊Ｋ個の命令からＭ個の命令を選択し、それらをＭ個の機能単位に転送する。各機能単位は最高で３個までのレジスタを読み出すことができ、１個のレジスタに書き込むことができると仮定されている。実行段７９０では、最高でＭ個までの機能単位が最高で３＊Ｍ個までのレジスタを読み出し、最高でＭ個までのレジスタに書き込む。
【００２３】
割り当て段７８０は、段７６０および７７０でフェッチされ、かつ復号化された（最高で）Ｎ＊Ｋ個の命令から適切なＭ個の命令を選択して実行する。選択の判定基準はスレッドの優先順位またはリソースの可用性またはその両方である。スレッドの優先順位判定基準の下では、種々のスレッドは異なる優先順を有することができる。割り当て段７８０は、実装されている優先順位の方針にしたがってもっとも高い優先順位を伴うスレッドに属するパケット（またはパケットからの命令）を選択し転送して実行する。多数の優先順位方針を実装できる。たとえば、Ｎ個のコンテキスト（Ｎ個のハードウェアスレッド）をサポートするマルチスレッドＶＬＩＷプロセッサに関する優先順位方針は、Ｎ個の優先順位レベルを有することが可能である。プロセッサ内のもっとも優先順位の高いスレッドは、他のどのスレッドよりも前に割り当てられる。等しい優先順位を伴うスレッドの間では、もっとも長いこと割り当てを待っていたスレッドが優先される。
【００２４】
リソースの可用性判定基準の下では、（最高でＫ個までの命令を有する）パケットは、そのパケットによって必要とされるリソース（機能単位）が次のサイクルについて使用可能である場合にのみ、割り当てられる。機能単位はその可用性を割り当て段７８０に報告する。
【００２５】
図８は、割り当て段７８０の実装の概略構成図である。図８に示されたように、割り当て段７８０を実装するために必要とされるハードウェアは、優先順位符号器８１０および２つのクロスバスイッチ８２０、８３０を含む。一般に、優先順位符号器８１０は各スレッドの中で多数の動作の状態、および使用可能な機能単位の状態を検討する。優先順位符号器８１０は、第１のクロスバスイッチ８２０を実行して設定しようとするパケットを選択するので、適切なレジスタの内容が次のサイクルの最初で機能単位に転送される。優先順位符号器８１０の出力は第１のクロスバスイッチ８２０を構成して、選択されたスレッドからのデータを適切な機能単位にルーティングする。これはたとえば、（スレッド識別子を含む）レジスタ識別子を機能単位に送信し、機能単位に別のデータネットワークを介してレジスタの内容を読み取らせ、クロスバスイッチ８１０を使用して適切なレジスタの内容を、次のサイクルの初めに機能単位によって読み出されるラッチに移動することによって達成できる。
【００２６】
優先順位符号器８１０はフェッチ段７６０（図７Ｂ）によってフェッチされたＮ個のパケットから、優先順位およびリソースの可用性に従って最高でＮ個までのパケットを選択して実行する。言い換えれば、優先順位符号器は、もっとも優先順位が高く、しかも実行のために使用不可能なリソースを必要としないスレッドを選択する。ついで、優先順位符号器は第１のクロスバスイッチ８１０を設定する。入力クロスバスイッチ８１０は最高で３Ｋ＊Ｎ個の入力を最高で３＊Ｍ個の出力にルーティングする。第１のクロスバスイッチ８１０は各パケットのレジスタ識別子（または適切なレジスタの内容）を適切な機能単位に転送する機能を有する。
【００２７】
同じサイクル内で選択できるスレッドは最高でＮ個までであり、各スレッドは最高でＫ個までの命令のパケットを発行でき、各命令は最高で３個までのレジスタを読み出せるので、選択元のレジスタ識別子は３Ｋ＊Ｎ個である。機能単位はＭ個しかなく、各機能単位は単一の命令を受け取ることができるので、選択されるべきレジスタ識別子は３Ｍ個のみである。したがって、クロスバスイッチはレジスタ識別子（またはレジスタの内容）の、３Ｋ＊Ｎから３Ｍへのルーティングを実装する。
【００２８】
出力クロスバスイッチ８３０は、Ｍ個の入力をＮ＊Ｍ個またはＮ＊Ｋ個の出力にルーティングする。第２のクロスバスイッチ８３０は適切な時間に設定され、機能単位の結果を適切なレジスタに転送して戻す。第２のクロスバスイッチ８３０は、（スレッド識別子を含む）レジスタ識別子を機能単位に送信することによって、別のネットワークとして実装できる。機能単位が結果を計算する時、機能単位はその結果を所与のレジスタ識別子にルーティングする。最高でＮ個までのスレッドにルーティングされるべき結果はＭ個ある。各スレッドは最高でＫ個までの結果を受け取ることができる。第２のクロスバスイッチ８３０は、Ｍ個の結果をＮ＊Ｋ個の可能な宛先にルーティングする。第２のクロスバスイッチ８３０は、Ｎ個のレジスタファイルすべてに接続されたＭ個のバスとして実装できる。この場合、ルーティングはＭ個になり、Ｎ＊Ｍ個の可能な宛先へルーティングすることになる（レジスタファイルがＭ個の結果を受け取る機能を有している場合）。
【００２９】
本明細書に示され、説明された実施形態およびその変形例は、本発明の原理の例にすぎず、当業者によって本発明の範囲および精神から逸脱することなく種々の変更例が実装できることを理解されたい。
【図面の簡単な説明】
【図１】従来の一般化されたマイクロプロセッサのアーキテクチャを示す図である。
【図２】従来のスーパースカラープロセッサのアーキテクチャの概略構成図である。
【図３】動作の独立性を示すプログラムフラグメントを示す図である。
【図４】従来の超長命令語（ＶＬＩＷ）プロセッサのアーキテクチャの概略構成図である。
【図５】従来のマルチスレッドプロセッサの概略構成図である。
【図６】本発明によるマルチスレッドＶＬＩＷプロセッサの図である。
【図７Ａ】マルチスレッドプロセッサに関する従来のパイプラインを示す図である。
【図７Ｂ】本発明によるマルチスレッドプロセッサに関するパイプラインを示す図である。
【図８】図７Ｂの割り当て段の実装の概略構成図である。
【符号の説明】
１００マイクロプロセッサ
１１０プログラムカウンタ
１２０レジスタセット
１３０−Ｎ機能単位
２００スーパースカラープロセッサ
２０５入力待ち行列
２０８フロントエンド部
２１０命令フェッチブロック
２１５命令復号ブロック
２２０命令順序づけユニット
２３０―Ｎ演算論理機構
２４０レジスタセット
２５０詳細化ブロック
３１０プログラムフラグメント
４００超長命令語（ＶＬＩＷ）プロセッサ
４１０命令
４２０統合フェッチ／復号ブロック
４３０−Ｎ機能単位
５００マルチスレッドプロセッサ
５１０−Ｎプログラムカウンタ
５２０−Ｎレジスタ
５３０−Ｎ機能単位
６００ＶＬＩＷプロセッサ
６２０−Ｎ機能単位
７００パイプライン
７１０フェッチ段
７２０復号段
７３０実行段
７５０パイプライン
７６０フェッチ段
７７０復号段
７８０割り当て段
７９０実行段
８１０優先順位符号器
８２０クロスバスイッチ
８３０クロスバスイッチ

Claims

マルチスレッド超長命令語プロセッサであって、
複数のスレッドを有する命令ストリームからの複数の命令を実行するための複数の機能単位であって、該スレッドが優先順位を有するような複数の機能単位と、
前記命令ストリームから命令を選択し、該命令を前記複数の機能単位に転送するアロケータであって、該命令を前記スレッドの優先順位に基づいて選択し、そして前記複数のマルチスレッドを有する命令ストリーム内の任意のスレッドへ、複数の機能単位を各々独立して割り当てるアロケータと、を備えるマルチスレッド超長命令語プロセッサ。
前記スレッド優先順位は種々のスレッドが異なる優先順位を有することを可能にする請求項１に記載のマルチスレッド超長命令語プロセッサ。
前記アロケータは、もっとも高い優先順位を伴うスレッドに属する前記命令を選択し、かつ転送して実行する請求項１に記載のマルチスレッド超長命令語プロセッサ。
前記アロケータは、前記スレッドの優先順位およびリソースの可用性に基づいて前記命令を選択し、かつ転送する請求項１に記載のマルチスレッド超長命令語プロセッサ。
マルチスレッド超長命令語プロセッサであって、
マルチスレッド命令ストリームから複数の命令を実行するための複数の機能単位と、
前記命令ストリームから命令を選択し、該命令を前記複数の機能単位に転送するアロケータであって、該命令をリソースの利用性に基づいて選択し、そして複数のマルチスレッドを有する命令ストリーム内の任意のスレッドへ、前記複数の機能単位を各々各々独立して割り当てるアロケータと、を備えるマルチスレッド超長命令語プロセッサ。
前記リソースの可用性は、命令によって必要とされるリソースが次のサイクルについて使用可能である場合のみ該命令を割り当てることを可能にする請求項５に記載のマルチスレッド超長命令語プロセッサ。
前記リソースは前記機能単位を含む請求項５に記載のマルチスレッド超長命令語プロセッサ。
前記アロケータは前記リソースの可用性および前記スレッドに割り当てられた優先順位に基づいて前記命令を選択し、かつ転送する請求項５に記載のマルチスレッド超長命令語プロセッサ。
マルチスレッド超長命令語プロセッサにおいて複数のスレッドを有する命令ストリームから命令を処理するための方法であって、
複数の機能単位を使用して前記命令を実行するステップであって、前記スレッドは優先順位を有するステップと、
前記スレッドの優先順位に基づいて前記命令ストリームから命令を選択するステップと、
前記選択された命令を前記複数の機能単位に転送するステップであって、前記機能単位が各々独立して、複数のマルチスレッドを有する命令ストリーム内の任意のスレッドへ割り当てられるステップと、を含む方法。
前記スレッドの優先順位は、種々のスレッドが異なる優先順位を有することを可能にする請求項９に記載の方法。
前記選択のステップはもっとも高い優先順位を伴うスレッドに属する前記命令を選択して実行する請求項９に記載の方法。
マルチスレッド超長命令語プロセッサにおいて複数のスレッドを有する命令ストリームから命令を処理するための方法であって、
複数の機能単位を使用して前記命令を実行するステップと、
リソースの可用性に基づいて前記命令ストリームから命令を選択するステップと、
前記選択された命令を前記複数の機能単位に転送するステップであって、前記機能単位が各々独立して、複数のマルチスレッドを有する命令ストリーム内の任意のスレッドへ割り当てられるステップと、を含む方法。
前記リソースの可用性は、前記命令によって必要とされるリソースが次のサイクルについて使用可能な場合のみ、前記命令を割り当てることを可能にする請求項１２に記載の方法。
前記リソースは前記機能単位を含む請求項１２に記載の方法。
マルチスレッド超長命令語プロセッサにおいて複数のスレッドを有する命令ストリームから命令を処理するための装置であって、
その上に記録されたコンピュータ読み取り可能プログラムを有するコンピュータ読み取り可能媒体を含み、該コンピュータ読み取り可能プログラムは、コンピュータに、
複数の機能単位を使用して前記命令を実行させ、前記スレッドは優先順位を有し、
前記スレッドの優先順位に基づいて前記命令ストリームから命令を選択させ、および
前記選択された命令を前記複数の機能単位へ転送させるようにし、前記機能単位は各々独立して、複数のマルチスレッドを有する命令ストリーム内の任意のスレッドへ割り当てられるようになっている装置。
マルチスレッド超長命令語プロセッサにおいて複数のスレッドを有する命令ストリームから命令を処理するための装置であって、
その上に記録されたコンピュータ読み取り可能プログラムを有するコンピュータ読み取り可能媒体を含み、該コンピュータ読み取り可能プログラムは、コンピュータに、
複数の機能単位を使用して前記命令を実行させ、
リソースの可用性に基づいて前記命令ストリームから命令を選択させ、および
前記選択された命令を前記複数の機能単位に転送させるようにし、前記機能単位は各々独立して、複数のマルチスレッドを有する命令ストリーム内の任意のスレッドへ割り当てられるようになっている装置。