JP4024271B2

JP4024271B2 - マルチプロセッサシステムにおいて命令を処理するための方法と装置

Info

Publication number: JP4024271B2
Application number: JP2006029779A
Authority: JP
Inventors: 剛山崎
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2005-02-08
Filing date: 2006-02-07
Publication date: 2007-12-19
Anticipated expiration: 2026-02-07
Also published as: US20060179275A1; JP2006221644A; WO2006085636A1

Description

本発明は、マルチプロセシングシステムにおいて命令を処理するための方法と装置に関する。

近年、マルチメディアのアプリケーションは、ますます重要になっている。これらのアプリケーションは、極めて速い処理速度（たとえば１秒につき何千メガビットものデータ）を必要とする。速い処理速度を達成するためにシングルプロセッサを用いる演算処理システムがある一方、マルチ・プロセッサ・アーキテクチャを利用して実行するものもある。マルチ・プロセッサ・システムにおいて、複数のサブプロセッサは、所望の処理結果を達成するために、並行して（または、少なくとも協力して）動作することができる。

最先端のコンピュータ・アプリケーションはますます複雑になり、ますます増大する要求を演算処理システムに課すため、近年、より高速なコンピュータ処理のデータスループットを大きく高めることが求められている。グラフィックス・アプリケーションは、所望の視覚的効果を達成するために、比較的短い期間で膨大な数のデータ・アクセス、データ演算、およびデータ操作を必要とするため、演算処理システムに最も高い要求が与えられるものの一つである。

このように、マイクロプロセッサの設計において、命令スループット（すなわち１秒につき実行される命令の数）は、重要である。１秒につき実行される命令の数は、さまざまな手段によって増加し得る。たとえば、命令スループットを増加させることは、マイクロプロセッサが動作する周波数を増加させることによって達成することができる。しかし、動作周波数を高くすることは製造技術によって制限されており、また更に熱を発生させる結果となる。このように、いくつかののマイクロプロセッサ設計は、クロックサイクル期間につき実行される命令の平均数を増加させる設計技術を用いて、命令スループットを増加させることに焦点を合わせている。命令スループットを増加させるためのこのような技術の一つがパイプラインである。パイプラインは、各命令がいくつかの部分に分割されマイクロプロセッサを流れ、各部分がパイプラインの個々のステージで処理されるようにする。パイプラインは、実行における多数の命令をオーバーラップさせることによってマイクロプロセッサの速度を上げる。たとえば、各命令が６つのステージで実行され、各々のステージがその機能の実行に１クロックサイクルを要している場合、６つの命令は、１つの命令が各クロックサイクルで完了するよう、同時に実行され得る（各々がパイプラインの別々のステージにおいて実行される）。このシナリオでは、パイプライン化されたアーキテクチャは、６クロックサイクル毎に１つの命令を完了するパイプライン化されていないアーキテクチャの、６倍の命令スループットを有することになる。

マイクロプロセッサの速度を上げる第２の技術は、プロセッサをスーパースカラとして設計することである。スーパースカラー・アーキテクチャにおいて、複数の命令は、クロックサイクル毎に発行される。命令がフローにおいて他の命令に依存しない場合、命令スループットの増加はスケーラビリティの多重度と比例する。このように、アーキテクチャが多重度２の場合（多重度２とは、各々のクロックサイクル毎に２の命令が発行されることを意味する。）、装置の命令スループットは２倍になる。

マイクロプロセッサは、高い命令スループットを達成するため、スーパーパイプライン化（多くのステージを有する命令パイプライン）されていてもよく、スーパースカラであってもよい。しかし実際には、命令は相互依存することなく、所定の数のパイプラインステージにおいて実行されることはあまりない。むしろ命令は、命令パイプラインを流れるフローにおいて割り込みを発生する様々なリソース要求を持っている。更に、命令には概して相互依存性がある。たとえば、レジスタの値を読み込む命令は、その値を同じレジスタに書き込む１つ前の命令に依存していてもよい。このシナリオでは、第１の命令がレジスタへの書き込みが完了するまでは、第２の命令を実行することができないこととなる。

したがって、スーパーパイプライン化およびスーパースカラ技術は、マイクロプロセッサのスループットを増加させることができるが、命令スループットは、スーパーパイプライン化、またはスーパースカラー・アーキテクチャのインプリメンテーションに高く依存する。依存性その他の要因が、マイクロプロセッサの動作中にさまざまなステージを不活発にさせるため、スーパーパイプライン化されたシステムまたはスーパースカラ処理システムの効率が減少する。

従来の処理パイプラインは、命令フェッチステージ、命令デコードステージ、依存性チェックステージ、命令発行ステージおよび実行ステージを含む。周知のペンティアム・プロセッサ（ペンティアムは登録商標）では、命令バッファは、命令フェッチステージの後、命令をキューイングするために使用される。命令バッファは、複数の命令（比較的多数の命令）をキューイングするように設計されており、そこで命令は、デコード、依存性チェック、発行、および実行のいずれかのために、バッファから取り出される。この方法は広く用いられ広範な支持を達成している一方、２つの要因が、得ることができる処理能力のレベルに影響を与える。第１に、比較的大きなサイズの命令バッファを用いると、かなりの数の、可能性のある命令依存性をテストしなければならなくなる。第２に、キャッシュミスまたは分岐命令が発生する場合、命令バッファの全コンテンツが破棄され一掃されなければならない。このように、ある条件下では、従来の命令バッファ方法は望ましくない。

本発明は、従来の処理アーキテクチャに起因して処理能力が失われてしまう不利益を最小化する、処理パイプラインの改良された実装技術を提供する。

まず、本発明は、２つまたは３つの命令をキューイングするために比較的小さい命令バッファを用いる。同時にデコードし、および依存性チェックをするため、これらの命令は一度に２つ（または３つ）バッファから取り出される。特に、これによって比較的少ない数の、可能性のある命令依存性をテストするだけでよくなることにつながる。第２に、本発明は、メインプロセッサおよび共通のシステムメモリを共有している複数のサブプロセッサを有するマルチプロセッサシステムを用いる。各々のサブプロセッサは、命令を実行するためのキャッシュされることのないローカルメモリを備えていることが好ましい。一方、メインプロセッサはＬ２キャッシュメモリを用いる。サブプロセッサはキャッシュメモリを用いず、また、ローカルメモリはシステムメモリと比較して比較的小さいため、プログラム実行中のシステムメモリとローカルメモリとの間においてメモリの転送を最小化するために、プログラマに負担がかかる。たとえば分岐ヒント技術の使用など、システムメモリの範囲内において注意深くデータを組織化するなどの工夫が必要となる。命令バッファの実装、マルチプロセッサシステムの実装、およびプログラム技術の組合せは、従来技術と比較して高い処理能力につながる。

以下に記載する一つ以上の態様におけるある装置は、ローカルメモリと、ローカルメモリに結合された約３つのレジスタより大きくない命令バッファを含む命令パイプラインと、パイプラインにおける命令間の依存性をテストすることができる命令依存性チェック回路と、を各々のプロセッサに含む、共有メモリと機能的に通信が可能な複数の並列プロセッサを備える。各々のプロセッサは、ローカルメモリ内で一つ以上のプログラムを実行するため、共有メモリおよびそのローカルメモリの間でデータのブロックを転送することができてもよい。

各々のプロセッサの命令バッファおよび依存性チェック回路は、プロセッサ内でデータキャッシングに依存しないように一つ以上プログラムがコードされるときに、実質的に最大限の効率を持って命令が処理できるよう適合されてもよい。一つ以上の別の実施例において、命令バッファのサイズを定めるレジスタの数は、プロセッサ内でデータキャッシングに依存しないようにコードされた、前記一つ以上のプログラムの関数として最小化されてもよい。

約２つまたは約３つのレジスタより命令バッファは大きくなく、全ての命令がグループとして命令バッファのレジスタから出力されることが好ましい。

また、命令パイプラインは、命令バッファに結合する命令デコード回路を含むことができ、命令デコード回路は、命令バッファのレジスタの数と同等の数の命令を同時にデコードすることができる。

命令依存性チェック回路は、命令パイプラインの命令の依存性を並行してチェックすることができることが好ましい。

各々のプロセッサは、ダイレクト・メモリ・アクセスを使用して、共有メモリとそのローカルメモリの間でデータのブロックを転送することができることが好ましい。各々のプロセッサは、そのローカルメモリ内で一つ以上プログラムを実行することができる一方、共有メモリ内で一つ以上プログラムを実行することができない。

プロセッサおよび関連するローカルメモリは、共通の半導体回路基板に配置されることが好ましい。共有メモリは、バスを介してプロセッサに結合することが好ましい。一つ以上の実施例において、プロセッサ、関連するローカルメモリ、および共有メモリは、共通の半導体回路基板に配置される。

また、一つ以上の別の実施例におけるある装置は、プロセッサに機能的に結合し、共有メモリに結合するメインプロセッサと、メインプロセッサと関連し、共有メモリ、およびプロセッサの複数のローカルメモリの少なくとも１つから取得されたデータをキャッシュするハードウェアキャッシュメモリと、を備えていてもよく、メインプロセッサは、プロセッサを管理することができてもよい。

また、以下に記載する一つ以上の更なる態様におけるある方法は、共有メモリと、各々がローカルメモリを含む複数の並列プロセッサとの間において、一つ以上のデータのブロックを転送するステップと、プロセッサ内でデータキャッシングに依存しないように、一つ以上プログラムがコードされる、一つ以上のプロセッサのローカルメモリ内で、その一つ以上のプログラムを実行するステップと、プロセッサの命令バッファのローカルメモリから約３つより多くないの命令をバッファに保留するステップと、を備える。各々のプロセッサの命令バッファは、プロセッサ内でデータキャッシングに依存しないように前記一つ以上プログラムがコードされるときに、実質的に最大限の効率を持って命令が処理できるよう適合されてもよい。

方法は、代わりに、またはさらに、共有メモリと、各々がローカルメモリを含む一つ以上の複数の並列プロセッサとの間でデータのブロックを転送するステップと、共有メモリと、データのブロックを格納するためハードウェアキャッシュメモリに結合する少なくとも一つのメインプロセッサとの間でデータのブロックを転送するステップと、プロセッサ内でデータキャッシングに依存しないようにコードされる、一つ以上のプログラムを、一つ以上のプロセッサのローカルメモリ内で実行するステップと、プロセッサの命令バッファのローカルメモリから約３つより多くない命令をバッファに保留するステップと、を備えてもよい。

添付の図面とともに本明細書に記載される発明が理解されるとき、他の態様、特徴、効果などは当業者にとって明らかになる。

さまざまな本発明の態様を例示することのために、現在好ましい図面形式に示す。しかし、本発明が表された好適な設備や装置に限定されないことは当業者に理解されるところである。

同一構成要素には同一符号を付した図面において、本発明の一つ以上の態様を実施するに適するマルチプロセシングシステム（演算処理システムまたは装置ともいう）１００を図１に示す。簡潔性および明確性のため、図１のブロック図は、マルチプロセシングシステム１００としてここに記載され、参照される。しかし、この記載は、同等の方法のさまざまな態様に適用されることができることは理解されるところである。

マルチプロセシングシステム１００は、複数のプロセッサ１０２Ａ−Ｄを含む。また、関連するローカルメモリ１０４Ａ−Ｄおよび共有メモリ１０６がバス１０８を経由して相互接続する。また、共有メモリは、本願明細書においてメインメモリまたはシステムメモリと解されてもよい。４つのプロセッサ１０２が例として図示されるが、本発明の趣旨および範囲から逸脱することなく、いくつ使用されてもよい。プロセッサ１０２の各々は、類似した構造を有していてもよく、異なる構造を有していてもよい。プロセッサ１０２は、システムメモリ１０６からデータを要求し、所望の結果を達成するためにデータを操作することが可能ないずれかの周知技術を利用して実装されてもよい。たとえば、プロセッサ１０２は、標準のマイクロプロセッサ、分散型マイクロプロセッサなど、ソフトウェアおよび／またはファームウェアを実行することができる周知のマイクロプロセッサのいずれかを使用して実装されてもよい。たとえば、一つ以上のプロセッサ１０２は、グレイスケール情報、カラー情報、テクスチャ・データ、多角形情報、ビデオフレーム情報などを含むデータ（たとえば画素データ）を要求し、操作することができる図形プロセッサであってもよい。

各ローカルメモリ１０４は、それぞれのプロセッサ１０２と同様に、好ましくは同一のチップ（同一の半導体回路基板）に配置される。しかし、ローカルメモリ１０４は従来のハードウェアキャッシュメモリではなく、ローカルメモリ内には、ハードウェアキャッシュメモリ機能を実現するための、オンチップまたはオフチップのハードウェアキャッシュ回路、キャッシュレジスタ、キャッシュメモリコントローラなどが存在しないことが好ましい。チップ上のスペースはしばしば制限されるため、ローカルメモリ１０４のサイズはシステムメモリ１０６より非常に小さくてもよい。

プロセッサ１０２は、プログラム実行およびデータ処理のためのローカルメモリ１０４のそれぞれに、バス１０８を介してシステムメモリ１０６からデータ（プログラムデータを含んでもよい）をコピーするデータ・アクセス要求を提供することが好ましい。データ・アクセスを容易にするプロセスは、ダイレクト・メモリ・アクセス（ＤＭＡ）技術など、いずれかの周知技術を利用して行うことができる。システムメモリ１０６は、高バンド幅メモリ接続（図示せず）を介してプロセッサ１０２に結合するダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）であることが好ましい。システムメモリ１０６はＤＲＡＭであるが、システムメモリ１０６は他の手段、たとえばスタティックＲＡＭ（ＳＲＡＭ）、磁気ランダム・アクセス・メモリ（ＭＲＡＭ）、光メモリ、ホログラフィック・メモリなどを使用して実装されてもよい。

図２、３において、各々のプロセッサ１０２は、処理パイプラインを使用して実装されることが好ましく、論理命令はパイプライン方式で処理される。パイプラインは、命令が処理されるいかなる数のステージに分割されてもよいが、パイプラインは、一般に、一つ以上の命令のフェッチ、命令のデコード、命令間の依存性チェック、命令の発行、および命令の実行を含む。この点において、各プロセッサ１０２は、命令デコード回路１１２、依存性チェック回路１１４、命令バッファ１１０、命令発行回路１１６、および実行ステージ１１８を含んでもよい。

命令をフェッチした後（アクション３００）、デコード回路１１２は、命令を分析して、対応する命令の機能を実行する論理マイクロ演算を生成する。たとえば、論理マイクロ演算は、算術および論理演算を特定してもよく、ローカルメモリ１０４に演算をロードし格納してもよく、ソース・オペランドおよび／または即値（immediate）データ・オペランドを記録してもよい。また、デコード回路１１２は、たとえばレジスタアドレス、構造上のリソース、機能ユニットおよび／またはバスなど、命令がどのリソースを使用するかを示してもよい。また、デコード回路１１２は、リソースが必要な命令パイプラインステージを示す情報を提供してもよい。命令デコード回路１１２は、命令バッファ１１０（アクション３０２）のレジスタの数と同等の数の命令を同時にデコードすることができることが好ましい。

依存性チェック回路１１４は、所定の命令のオペランドがパイプラインの他の命令のオペランドに依存しているか否かを判定するためのテストを実行するデジタル論理を含む。依存している場合、（たとえば、他の命令の実行が完了することを許すなどして）他のオペランドが更新されるまで、所定の命令は実行されない。依存性チェック回路は、デコード回路１１２（アクション３０４）から同時に発行される多数の命令の依存性を判定することが好ましい。所定の命令のために依存性チェック回路１１４によって実行される比較（たとえば排他的なＯＲ演算）の数は、並行して発行されることが可能な命令の数を掛け、更に命令バッファ１１０に格納されることが可能な命令の数を掛けた、所定の命令のオペランドの数の関数である。また、命令バッファに格納できる命令の数が大きいとき、依存性チェックを実行するための比較の数は大きい。このように、提供されるべき比較の総数は、命令のとりうるオペランドの数にディスパッチされる可能性のある命令の数を掛けたものであり、さらには命令バッファ１１０に格納される命令の数を掛けたものである。命令バッファに格納できる命令の数が増加するにしたがって、比較するために使用される回路の総計は劇的に増加するが、それは望ましいものではない。また、このような理由により、命令バッファのサイズは最小化されることが好ましい。

命令バッファ１１０は、依存性チェック回路１１４に結合して一時的に命令（アクション３０６）を格納できる複数のレジスタ１１０Ａ−Ｂを含むことが好ましい。すなわち、実質的に同時に、全ての命令がグループとしてレジスタ１１０Ａ−Ｂから出力されるように、命令バッファ１１０は作動する。命令バッファが２から３くらいのレジスタより大きくないサイズで、さらに一般的にいえば、命令バッファのサイズを定めるレジスタの数が最小化されることが好ましい。以下に詳細に述べるように、プロセッサ１０２においてデータキャッシングに依存しないようプログラムをコードするなど、アプリケーションのプログラミングをコードする間に実施される対応措置によって命令バッファ１１０のサイズを最小化するならば、有利な結果が得られる。

命令発行回路１１６は、プロセッサ１０２（アクション３０８）の実行ステージに命令を発行することができる。プロセッサ１０２は、クロックサイクル毎に一つ以上の命令が発行され、プロセッサの速度は対応して増加するようなスーパースカラー・アーキテクチャであることが好ましい。命令がフロー内の他の命令に依存しない場合、命令スループットの増加は、命令発行回路１１６が同時に命令を発行する多重度に比例しているはずである。プロセッサ１０２は、たとえば２と３（クロックサイクル毎に２つまたは３つの命令を意味する）の間など、命令バッファ１１０からの命令の同時発行の数に略一致するスーパースカラとして動作することが好ましい。

命令バッファ１１０の命令の数が最小化されるにしたがって、比較的少ない数のレジスタ１１０Ａ−Ｂ（たとえば２つのレジスタ）、依存性チェック回路１１４もまた最小化され、依存性チェックを実行するために必要なロジックの数を減らすことができる。これにより、各々のプロセッサ１０２は、プロセッサ内のデータキャッシングに依存しないように一つ以上のプログラムがコードされた場合、実質的には最大限の効率で命令を処理することが可能となる。実際、各々のプロセッサ１０２は、ローカルメモリ１０４内でプログラムを実行するために、共有メモリ１０６とそのローカルメモリ１０４との間でデータのブロックを転送することができるが、プロセッサ１０２は、共有メモリ１０６内でプログラムを実行することができない。このように、命令が共有メモリ１０６から転送され処理パイプラインにおいて実行されることにより得られる効率は、プログラマが、ローカルメモリ１０４にデータをキャッシングせずにブロックデータ転送を利用してプログラムをコードするときに高くなる。

別の実施例では、マルチプロセシングシステム１００は、他のプロセッサ１０２に機能的に結合して、バス１０８を介して共有メモリ１０６に結合するメインプロセッサ（図示せず）を含むことができる。メインプロセッサは、他のプロセッサ１０２によるデータ処理をスケジューリングして調整することができる。しかし、他のプロセッサ１０２と違い、メインプロセッサは、共有メモリ１０６、および各プロセッサ１０２の複数のローカルメモリ１０４の少なくとも一つから得られるデータをキャッシュできるハードウェアキャッシュメモリに結合することができる。メインプロセッサは、システムメモリ１０６からデータ（プログラムデータを含んでもよい）をコピーするため、たとえばＤＭＡ技術など、いずれかの周知技術を利用するプログラム実行およびデータ処理を行うキャッシュメモリへバス１０８を介してデータ・アクセス要求を提供することができる。

ここで、上述した一つ以上の特徴の実現に適した、好適なマルチプロセッサシステムのコンピュータアーキテクチャについて説明する。一つ以上の実施形態によれば、マルチプロセッサシステムは、ゲームシステムや、ホームターミナルや、ＰＣシステムや、サーバシステムや、ワークステーションなどの豊富なメディアを有するアプリケーションのスタンドアロン型処理および／または分散型処理のためのシングルチップソリューションとして実装できる。一部のアプリケーション、例えば、アプリーケーションがゲームシステムおよびホームターミナルである場合、リアルタイムの演算が必要である。例えば、リアルタイムの分散型ゲームアプリケーションにおいて、ネットワークを経由した画像復元、３Ｄコンピューターグラフィック、音声生成、ネットワーク通信、物理シミュレーション、人工知能計算のうち一つ以上は、ユーザにリアルタイムの感覚を体験させるために十分の速さで実行されなければならない。したがって、マルチプロセッサシステムにおける各プロセッサは、短く、かつ予測可能な時間内でタスクを終了させなければならない。

この目的を達成するために、このコンピュータアーキテクチャによれば、マルチプロセッサのコンピュータシステムのすべてのプロセッサは、共通のコンピュータモジュール（またはセル）から構成される。この共通のコンピュータモジュールは、共通の構成を有し、同一の命令セットアーキテクチャを用いるのが好ましい。マルチプロセッサのコンピュータシステムは、コンピュータプロセッサを用いて、１以上のクライアント、サーバ、ＰＣ、携帯端末、ゲーム機、ＰＤＡ、セットトップボックス、アプリケーション、デジタルテレビおよび他のデバイスから構成されうる。

必要に応じて、複数のコンピュータシステムをそれぞれネットワークのメンバとしてもよい。一貫性のあるモジュール構造により、マルチプロセッサコンピュータシステムによってアプリケーションおよびデータの効率的な高速処理が可能となり、かつネットワークを利用すれば、ネットワークを介してアプリケーションおよびデータの迅速な伝送ができる。またこの構造により、様々なサイズおよび処理能力をもつネットワークメンバの形成、ならびにこれらメンバによって処理されるアプリケーションの準備を簡略化できる。

図４は、基本的な処理モジュールであるプロセッサエレメント（ＰＥ）５００を示す。ＰＥ５００は、Ｉ／Ｏインタフェース５０２と、処理ユニット（ＰＵ）５０４と、複数のサブ処理ユニット５０８、すなわち、サブ処理ユニット５０８Ａと、サブ処理ユニット５０８Ｂと、サブ処理ユニット５０８Ｃと、サブ処理ユニット５０８Ｄとを含む。すなわち内部であるローカルＰＥバス５１２は、ＰＵ５０４、サブ処理ユニット５０８群、およびメモリインタフェース５１１間のデータおよびアプリケーションの伝送を行う。ローカルＰＥバス５１２は、例えば従来構成でもよいし、またはパケットスイッチネットワークとして実装することもできる。パケットスイッチネットワークとして実装するとより多くのハードウェアが必要になるが、利用可能な帯域が広がる。

ＰＥ５００はディジタルロジック回路を実装する各種方法を利用して構成できる。ただし好適には、ＰＥ５００はシリコン基板上の相補的金属酸化膜半導体（ＣＭＯＳ）を用いる一つの集積回路として構成される。基板の他の材料には、ガリウム砒素、ガリウムアルミニウム砒素、および広範な種類の不純物を用いた他のいわゆるＩＩＩ−Ｂ族化合物が含まれる。ＰＥ５００はまた、超伝導材料を用いて高速単一磁束量子（ＲＳＦＱ）ロジック回路等として実装することもできる。

ＰＥ５００は、広帯域メモリ接続５１６を介してダイナミックランダムアクセスメモリ（ＤＲＡＭ）５１４に密接に関連付けられる。共有メモリ５１４は好適にはダイナミックランダムアクセスメモリ（ＤＲＡＭ）だが、スタティックランダムアクセスメモリ（ＳＲＡＭ）、磁気ランダムアクセスメモリ（ＭＲＡＭ）、光学メモリ、またはホログラフィックメモリ等の他の手段を用いて実装してもよい。

ＰＵ５０４およびサブ処理ユニット５０８は、それぞれ、ダイレクトメモリアクセス（ＤＭＡ）機能を有するメモリフローコントローラ（ＭＦＣ）と接続されることが望ましい。ＭＦＣは、メモリインタフェース５１１と協働して、共有メモリ５１４、ＰＥ５００におけるサブ処理ユニット５０８、ＰＵ５０４間のデータの転送を円滑にするものである。ここで、ＤＭＡＣおよび／またはメモリインタフェース５１１は、サブ処理ユニット５０８とＰＵ５０４とから独立して設置されるようにしてもよいし、一体化されるようにしてもよい。実際に、ＤＡＭＣの機能および／またはメモリインタフェース５１１の機能は、サブ処理ユニット５０８およびＰＵ５０４の一つ以上（好ましくはすべて）に一体化できる。ここで、共有メモリ５１４もまた、ＰＥ５００から独立して設置されるようにしてもよいし、一体化されるようにしてもよい。例えば、共有メモリ５１４は図に示すようにチップ外部に設けられるようにしてもよく、集積方式でチップ内蔵されるようにしてもよい。

ＰＵ５０４は、例えばスタンドアロン式のデータおよびアプリケーション処理が可能な標準的なプロセッサでもよい。動作時には、ＰＵ５０４はサブ処理ユニット群によるデータおよびアプリケーションの処理のスケジューリングおよび調整を行う。サブ処理ユニット群は、好適には、一命令複数データ（ＳＩＭＤ）プロセッサである。ＰＵ５０４の制御下で、サブ処理ユニット群はデータおよびアプリケーションの処理を並列に、かつ独立して行う。ＰＵ５０４としては、ＲＩＳＣ（ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎ−ｓｅｔｃｏｍｐｕｔｉｎｇ）技術を用いるマイクロプロセッサアーキテクチャとなるＰｏｗｅｒＰＣ（登録商標）コアを用いることが好ましい。ＲＩＳＣは単純な命令の組み合わせによって比較的複雑な命令を実行するものである。したがって、プロセッサのタイミングは、比較的簡単かつ速いオペレーションに基づきうる。これは、決められたクロック速度においてより多くの命令を実行することを可能とする。

ここで、ＰＵ５０４は、サブ処理ユニット５０８のうちの一つとして実装されてもよい。この場合、このサブ処理ユニット５０８は、メイン処理ユニットＰＵによる処理、すなわち各々のサブ処理ユニット５０８によるデータとアプリケーションの処理のスケジューリングと統合処理を行うものとすればよい。さらに、ＰＥ５００内において、複数のＰＵを実装してもよい。

このモジュール構造では、あるコンピュータシステムで使用されるＰＥ５００の数は、そのシステムが必要とする処理能力に基づく。例えば、サーバは４つのＰＥ５００群、ワークステーションは二つのＰＥ５００群、ＰＤＡは一つのＰＥ５００を使用しうる。あるソフトウェアセルの処理に割り当てられるＰＥ５００のサブ処理ユニットの数は、セル内のプログラムおよびデータの複雑さおよび規模によって異なる。

図５は、サブ処理ユニット（ＳＰＵ）５０８の好適な構造と機能を示す図である。サブ処理ユニット５０８のアーキテクチャは、汎用プロセッサ（多数のアプリケーションにおいて高い平均性能を実現するように設計されているもの）と特殊用途のプロセッサ（一つのアプリケーションにおいて高い性能を実現するように設計されている）との間に位置するものであることが望ましい。サブ処理ユニット５０８は、ゲームアプリケーション、メディアアプリケーション、ブロードバンドシステムなどにおいて高い性能を実現すると共に、リアルタイムアプリケーションのプログラマに高度な制御自由度を提供するように設計されている。サブ処理ユニット５０８の一部の機能として、グラフィック構造パイプライン、サーフェス分割、高速フーリエ変換、画像処理キーワード、ストリーム処理、ＭＰＥＧエンコード／デコード、暗号化、デコード、デバイスドライバー拡張、モデリング、ゲームフィジクス、コンテンツ制作、音声合成および音声処理などを挙げることができる。

サブ処理ユニット５０８は、すなわちＳＰＵコア５１０Ａとメモリフローコントローラ（ＭＦＣ）５１０Ｂという二つの基本機能ユニットを有する。ＳＰＵコア５１０Ａは、プログラムの実行、データの操作などを担うものであり、一方、ＭＦＣ５１０Ｂは、ＳＰＵコア５１０Ａと、システムの共有メモリ５１４との間のデータ転送に関連する機能を担うものである。

ＳＰＵコア５１０Ａはローカルメモリ５５０と、命令（インストラクション）ユニット（ＩＵ）５５２と、レジスタ５５４と、一つ以上の浮動小数点実行ステージ５５６と、一つ以上の固定小数点実行ステージ５５８とを有する。ローカルメモリ５５０は、ＳＲＡＭのようなシングルポートのＲＡＭを用いて実装されることが望ましい。メモリへのアクセスのレイテンシを軽減するために、従来のほとんどのプロセッサはキャッシュを用いるが、ＳＰＵコア５１０Ａは、キャッシュよりも、比較的小さいローカルメモリ５５０を用いる。実際には、リアルタイムのアプリケーション（およびここで言及したほかのアプリケーション）のプログラマに、予測可能で、かつ一致したメモリアクセスのレイテンシを提供するために、サブ処理ユニット５０８Ａ内においてキャッシュメモリアーキテクチャを用いることは好ましくない。キャッシュメモリのキャッシュヒット／ミス値は、数サイクルから数百サイクルの範囲内で変化する、予測困難な、メモリアクセス回数を生じさせる。このようなメモリアクセスの回数の予測困難性は、例えばリアルタイムアプリケーションのプログラミングに望まれるアクセスタイミングの予測可能性を下げる。データ演算を伴うＤＭＡ転送をオーバーラップすることで、ローカルメモリＳＲＡＭ５５０内のレイテンシを補うことができる。これはリアルタイムアプリケーションのプログラミングに高い制御自由度を提供する。ＤＭＡ転送と関連するレイテンシおよび命令のオーバーヘッドが、キャッシュミスにより生じたレイテンシより長いため、ＳＲＡＭローカルメモリアプローチは、ＤＭＡ転送サイズが十分大きいかつ十分予測可能なとき（例えばデータが要求される前にＤＭＡコマンドを発行することができるとき）において優位性を提供する。

サブ処理ユニット５０８のうちのいずれか一つの上で実行されるプログラムは、ローカルアドレスを用いて、関連するローカルメモリ５５０を参照する。なお、ローカルメモリ５５０の各場所にはシステムの全体のメモリマップ上におけるリアルアドレス（ＲＡ）が付与されている。これは、特権レベルのソフトウェアがローカルメモリ５５０を一つの処理における実効アドレス（ＥＡ）にマッピングすることを可能とし、それによって二つのローカルメモリ５５０間のＤＭＡ転送が容易になる。ＰＵ５０４は、実効アドレスを用いてローカルメモリ５５０に直接アクセスすることもできる。ローカルメモリ５５０は、３５６キロバイトの容量を有し、レジスタ５５４の容量は１２８×１２８ビットであることが望ましい。

ＳＰＵコア５１０Ａは、演算パイプラインを用いて実装されることが望ましく、その中において論理命令がパイプライン方式で処理される。パイプラインは、命令を処理する任意の数のステージに分けることができるが、通常、パイプラインは、一つ以上の命令のフェッチ、命令のデコード、命令の間の依存性のチェック、命令の発行、および命令の実行から構成される。これに関連して、命令ユニット５５２は、命令バッファと、命令デコード回路と、依存性チェック回路と、命令発行回路とを含む。

命令バッファは、ローカルメモリ５５０と接続されており、命令がフェッチされたときにこれらの命令を一時的に格納することができる複数のレジスタを有することが好ましい。命令バッファは、すべての命令が一つのグループとして（すなわち実質上同時に）レジスタから出力されるように動作することが好ましい。命令バッファはいかなるサイズであってもよいが、レジスタの数がおよそ２または３以下となるようにするサイズであることが好ましい。

通常、デコード回路は命令を細分化すると共に、対応する命令の機能を果たす論理・マイクロオペレーションを発生させる。例えば、論理・マイクロペレーションは、計算オペレーションと論理オペレーションの指定、ローカルメモリ５５０へのロードオペレーションとストアオペレーションの指定、レジスタソースオペランドおよび／または即値データオペランドの指定などを行うことができる。デコード回路は、ターゲットのレジスタのアドレスや、構造リソースや、機能ユニットおよび／またはバスなどのような、命令が用いるリソースを指定してもよい。デコード回路は、リソースが必要とされる命令パイプラインのステージを示す情報を提供してもよい。命令デコード回路は、実質上同時に、命令バッファのレジスタの数と同じ数の命令をデコードするように動作可能であることが好ましい。

依存性チェック回路は、チェック対象となる命令のオペランドがパイプラン内の他の命令のオペランドに依存するか否かを判定するためのチェックを行うデジタルロジックを含む。依存するならば、チェック対象となる命令は、これらの他のオペランドが（例えば、これらの他の命令の実行の完了を許可することによって）更新されるまで、実行されるべきではない。依存性チェック回路は、命令デコード回路１１２から同時に送信されてきた複数の命令の依存性を判定することが好ましい。

命令発行回路は、浮動小数点実行ステージ５５６および／または固定小数点実行ステージ５５８に命令を発行することができる。

レジスタ５５４は、１２８―エントリレジスタファイルのような、比較的大きな統合レジスタファイルとして実装されることが好ましい。これは、レジスタ不足を回避するためのレジスタのリネームを必要とせずに、深くパイプライン化された高周波数の実行を可能とする。ハードウェアのリネームは、一般的に処理システムにおける実装面積と電力の高い割合を消費する。したがって、ソフトウェアによるループアンローリングまたは他のインターリーブ技術によってレイテンシがカバーされるような場合において、優位性のあるオペレーションを実現できる。

ＳＰＵコア５１０Ａは、クロックサイクル毎に複数の命令を発行するようなスーパースカラアーキテクチャで実装されることが好ましい。ＳＰＵコア５１０Ａは、命令バッファから同時に送信される命令の数、例えば２と３の間（クロックサイクル毎に２つまたは３つの命令が発行されることを意味する）に対応する程度のスーパースカラとして動作可能であることが好ましい。必要とされる処理能力に応じた多少なりの数の浮動小数点実行ステージ５５６と固定小数点実行ステージ５５８を用いることができる。好適な実施の形態では、浮動小数点実行ステージ５５６と固定小数点実行ステージ５５８の望ましいスピードは、それぞれ、毎秒３２ギガ浮動小数点オペレーション（３２ＧＦＬＯＰＳ）と毎秒３２ギガオペレーション（３２ＧＯＰＳ）である。

ＭＦＣ５１０Ｂは、バスインターフェースユニット（ＢＩＵ）５６４と、メモリマネジメントユニット（ＭＭＵ）５６２と、ダイレクトメモリアクセスコントローラ（ＤＭＡＣ）５６０とを有することが望ましい。低電力消費の設計目的を達成するために、ＭＦＣ５１０Ｂは、ＤＭＡＣ５６０を除いて、ＳＰＵコア５１０ＡおよびローカルＰＥバス５１２の半分の周波数（半分のスピード）で動作することが好ましい。ＭＦＣ５１０Ｂは、ローカルＰＥバス５１２からサブ処理ユニット５０８に入るデータと命令を操作することができ、ＤＭＡＣのためのアドレス変換と、データ一貫性のためのスヌープオペレーションとを提供する。ＢＩＵ５６４は、ローカルＰＥバス５１２とＭＭＵ５６２とＤＭＡＣ５６０との間のインターフェースを提供する。したがって、サブ処理ユニット５０８（ＳＰＵコア５１０ＡとＭＦＣ５１０Ｂを含む）とＤＭＡＣ５６０は、物理的および／または論理的にローカルＰＥバス５１２と接続されている。

ＭＭＵ５６２は、メモリアクセスのために実効アドレス（ＤＭＡコマンドから取得される）をリアルアドレスへ変換することができるようにすることが望ましい。例えば、ＭＭＵ５６２は、実効アドレスの比較的高いオーダのビットをリアルアドレスのビットに変換できる。なお、比較的低いオーダアドレスビットについては、変換不可であると共に、物理的におよび論理的にリアルアドレスの形成およびメモリへのアクセスのリクエストに用いられるようにすることが好ましい。具体的には、ＭＭＵ５６２は、６４ビットのメモリマネジメントモジュールをベースにして実装でき、４Ｋバイト、６４Ｋバイト、１メガバイト、１６メガバイトのページサイズと２５６ＭＢのセグメントサイズを有する２^６４のバイトの実効アドレス空間を提供することができる。ＭＭＵ５６２は、ＤＭＡコマンドのために、２^６５までの仮想メモリと、２^４２バイト（４テラバイト）の物理メモリをサポート可能であることが好ましい。ＭＭＵ５６２のハードウェアは、８−エントリの完全連想ＳＬＢ、２５６−エントリの４ウェイセット連想ＴＬＢ、ＴＬＢのための４×４代替マネジメントテーブル（ＲＭＴ）を含むものとすることができる。なお、ＲＭＴはハードウェアＴＬＢミスのハンドリングに用いられるものである。

ＤＭＡＣ５６０は、ＳＰＵコア５１０ＡからのＤＭＡコマンドと、一つ以上の、ＰＵ５０４および／または他のＳＰＵのような他のデバイスからのＤＭＡコマンドとを管理することができることが望ましい。ＤＭＡコマンドは下記の３つのカテゴリがある。すなわち、ローカルメモリ５５０から共有メモリ５１４へデータを移動させるＰｕｔコマンド、共有メモリ５１４からローカルメモリ５５０へデータを移動させるＧｅｔコマンド、ＳＬＩコマンドと同期コマンドとを含むストレージコントロールコマンドである。同期コマンドは、アトミックコマンド、送信コマンド、専用のバリアコマンドを含むものとすることができる。ＤＭＡコマンドに応じて、ＭＭＵ５６２は実効アドレスをリアルアドレスに変換し、このリアルアドレスはＢＩＵ５６４に転送される。

ＳＰＵコア５１０Ａはチャンネルインターフェースとデータインターフェースとを用いて、ＤＭＡＣ５６０内のインターフェースと通信（ＤＭＡコマンド、ステータスなどの送信）することが好ましい。ＳＰＵコア５１０Ａは、チャンネルインターフェースを介してＤＭＡコマンドをＤＭＡＣ５６０内のＤＭＡキューに送信する。いったん、ＤＭＡキューに格納されたＤＭＡコマンドは、ＤＭＡＣ５６０内の発行ロジックと完了ロジックにより操作される。一つのＤＭＡコマンドのためのすべてのバス・トランザクションが完了すると、チャンネルインターフェースを介して、一つの完了信号がＳＰＵコア５１０Ａに返送される。

図６は、ＰＵ５０４の好ましい構造と機能を示す図である。ＰＵ５０４は、ＰＵコア５０４Ａとメモリフローコントローラ、すなわちＭＦＣ５０４Ｂとの二つの基本機能ユニットを有する。ＰＵコア５０４Ａは、プログラムの実行、データの操作、マルチプロセッサ管理機能などを担うものであり、一方、ＭＦＣ５０４Ｂは、ＰＵコア５０４Ａと、マルチプロセシングシステム１００のメモリスペースとの間のデータ転送に関連する機能を担うものである。

ＰＵコア５０４Ａは、Ｌ１キャッシュ５７０と、命令ユニット５７２と、レジスタ５７４と、少なくとも一つの浮動小数点実行ステージ５７６と、少なくとも一つの固定小数点実行ステージ５７８とを有する。Ｌ１キャッシュ５７０は、共有メモリ１０６、プロセッサ１０２、あるいはＭＦＣ５０４Ｂにおけるほかの部分のメモリスペースから受信したデータのキャッシング機能を提供する。ＰＵコア５０４Ａはスーパーパイプラインとして実装されることが好ましいため、命令ユニット５７２は、フェッチ、デコード、依存性のチェック、発行などを含む多数のステージを有する命令パイプラインとして実装されることが好ましい。ＰＵコア５０４Ａは、スーパースカラ構造を有することが好ましく、それによって、クロックサイクル毎に命令ユニット５７２から２以上の命令が発行される。高い演算能力を実現するために、浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８は、パイプライン方式の多数のステージを有する。必要とされる処理能力に応じた多少なりの浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８とを用いることができる。

ＭＦＣ５０４Ｂは、バスインターフェースユニット（ＢＩＵ）５８０と、Ｌ２キャッシュ５８２と、キャッシュ不可ユニット（ＮＣＵ）５８４と、コアインターフェースユニット（ＣＩＵ）５８６と、メモリマネジメントユニット（ＭＭＵ）５８８とを有する。低電力消費の設計目的を達成するために、ＭＦＣ５０４Ｂのほとんどは、ＰＵコア５０４Ａとバス１０８の半分の周波数（半分のスピード）で動作することが好ましい。

ＢＩＵ５８０は、バス１０８と、Ｌ２キャッシュ５８２と、ＮＣＵ５８４のロジックブロックとの間のインターフェースを提供する。ＢＩＵ５８０は、完全一致のメモリオペレーションを実行するために、マスターデバイスとして動作してもよく、バス１０８上のスレーブデバイスとして動作してもよい。マスターデバイスとして動作する場合、ＢＩＵ５８０は、Ｌ２キャッシュ５８２とＮＣＵ５８４の代わりに、バス１０８へのロードリクエストとストアリクエストを発信する。ＢＩＵ５８０は、バス１０８へ送ることができるコマンドの総数を限定するコマンドのフローコントロールメカニズムを実装してもよい。バス１０８上のデータオペレーションは、８ビートになるように設計されることができ、そして、ＢＩＵ５８０は、キャッシュラインが１２８バイト前後であり、一貫性と同期の精度が１２８ＫＢであるように設計されることが好ましい。

Ｌ２キャッシュ５８２（およびそれをサポートするハードウェアロジック）は、５１２ＫＢデータをキャッシュするように設計されることが好ましい。例えば、Ｌ２キャッシュ５８２は、キャッシュ可能なロードとストア、データのプリフェッチ、命令フェッチ、命令のプリフェッチ、キャッシュオペレーション、バリアオペレーションを操作できる。Ｌ２キャッシュ５８２は、８ウエイセットアソシエイティブシステムであることが好ましい。Ｌ２キャッシュ５８２は、６つのキャストアウトキュー（例えば６つのＲＣマシン）に合わせた６つのリロードキューと、８つの（６４バイトの幅の）ストアキューとを有することができる。Ｌ２キャッシュ５８２は、Ｌ１キャッシュ５７０の中の一部または全てのデータのバックアップコピーを提供するように動作してもよい。これは特に、処理ノードがホットスワップ（動作中に変更）されたときの、復元状況において有用である。この構成は、Ｌ１キャッシュ５７０が、ほぼポート無しにさらに速く動作することを可能にするとともに、キャッシュ間の転送を速くすることができる（リクエストがＬ２キャッシュ５８２で止まることができるから）。この構成は、Ｌ２キャッシュ５８２にキャッシュ一貫性のマネジメントを及ばしめるメカニズムも提供する。

ＮＣＵ５８４はインターフェースによってＣＩＵ５８６と、Ｌ２キャッシュ５８２と、ＢＩＵ５８０と接続されており、通常、ＰＵコア５０４Ａとメモリシステム間のキャッシュ不可なオペレーションのキューまたはバッファ回路として機能する。ＮＣＵ５８４は、ＰＵコア５０４Ａとの通信のうちの、Ｌ２キャッシュ５８２によって扱わない全ての通信を操作することが好ましい。ここで、Ｌ２キャッシュ５８２によって扱わないものとしては、キャッシュ不可なロードとストアや、バリアオペレーションや、キャッシュ一貫性オペレーションなどを挙げることができる。低電力消費の設計目的を達成するために、ＮＣＵ５８４は、半分のスピードで動作することが好ましい。

ＣＩＵ５８６は、ＭＦＣ５０４ＢとＰＵコア５０４Ａとの境界線上に配置され、浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、ＭＭＵ５８８から、Ｌ２キャッシュ５８２とＮＣＵ５８４へ送られるリクエストのためのルーティング、アービトレイション、フローコントロールポイントとして動作する。ＰＵコア５０４ＡとＭＭＵ５８８はフルスピードで動作し、Ｌ２キャッシュ５８２とＮＣＵ５８４は２：１のスピード比で動作可能であることが好ましい。こうすることによって、ＣＩＵ５８６に周波数境界線が存在することになり、この境界線は、その一つの機能により、二つの周波数領域間にリクエストの転送およびデータのリロードをする際に、周波数の交錯を適切に操作する。

ＣＩＵ５８６は、ロードユニット、ストアユニット、リロードユニットの３つの機能ブロックから構成される。さらに、データをプリフェッチする機能がＣＩＵ５８６により実行される。この機能は、ロードユニットの一部の機能であることが好ましい。ＣＩＵ５８６は、下記の動作を実行可能であることが好ましい：（ｉ）ＰＵコア５０４ＡとＭＭＵ５８８からのロードリクエストとストアリクエストを受信する、（ｉｉ）これらのリクエストをフルスピードクロック周波数から半分のスピードに変換する（２：１クロック周波数変換）、（ｉｉｉ）キャッシュ可能なリクエストとキャッシュ不可なリクエストとをそれぞれＬ２キャッシュ５８２とＮＣＵ５８４へルーティングする、（ｉｖ）Ｌ２キャッシュ５８２とＮＣＵ５８４へのリクエストが均等になるように調整する、（ｖ）リクエストが目標時間内に受信されると共に、オーバーフローが発生しないための、Ｌ２キャッシュ５８２とＮＣＵ５８４へ送信するリクエストのフローコントロールを提供する、（ｖｉ）ロードリターンデータを受信すると共に、これらのデータを浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、またはＭＭＵ５８８へルーティングする、（ｖｉｉ）スヌープリクエストを浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、またはＭＭＵ５８８へ転送する、（ｖｉｉｉ）ロードリターンデータとスヌープトラフィックを半分のスピードからフルスピードへ変換する。

ＭＭＵ５８８は、第２レベルアドレス変換手段のごとく、ＰＵコア５０４Ａのためにアドレス変換を提供することが好ましい。変換の第１レベルは、ＰＵコア５０４Ａ内において、セパレート命令と、ＭＭＵ５８８より遥かに小さくてかつ速いデータＥＲＡＴ（実効アドレスからリアルアドレスへの変換）アレイとにより提供されることが好ましい。

ＰＵ５０４は６４ビットで実装され、４〜６ＧＨz、１０Ｆ０４（Ｆａｎ−ｏｕｔ−ｏｆ−ｆｏｕｒ）で動作することが好ましい。レジスタは６４ビットの長さを有することが好ましく（特定用途のための一つまたはより多くのレジスタが６４ビットより小さいかもしれないが）、実効アドレスは６４ビットの長さを有することが好ましい。命令ユニット５７２、レジスタ５７４、浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８はＲＩＳＣコンピューティング技術を達成するためにＰｏｗｅｒＰＣ技術により実装されることが好ましい。

このコンピュータシステムのモジュラー構造のさらなる詳細については、米国特許第６５２６４９１号公報に記載されている。その公報の記載によれば、例えば、コンピュータネットワークのメンバのプロセッサに単一のＰＥを含め、さらに、このＰＥに、ＰＵ、ＤＭＡＣおよび８個のＡＰＵを含めることができる。他の例として、そのプロセッサは、ビジュアルアライザ（ＶＳ）の構造を有してもよく、この場合、ＶＳに、ＰＵ、ＤＭＡＣおよび４つのＡＰＵを含めてもよい。

少なくとも一つの本発明の更なる態様において、上記した方法と装置は、たとえば図において例示される適切なハードウェアを利用して提供されることができる。このようなハードウェアは、たとえば標準のデジタル回路、ソフトウェアおよび／またはファームウェアプログラムを実行することができる周知のプロセッサ、プログラム可能な読出し専用メモリ（ＰＲＯＭ）やプログラマブルアレイ論理装置（ＰＡＬ）などのプログラム可能な一つ以上のデジタル装置またはシステムなど、いずれかの周知技術を利用して実装されてもよい。さらに、図示される装置は、特定の機能的なブロックに仕切られると表されているが、このようなブロックは、別々の回路を経由して実装されてもよく、および／または一つ以上の機能ユニットに結合されてもよい。また更に、さまざまな本発明の態様は、（たとえばフレキシブル・ディスク、メモリ・チップなど）携帯性および配布性を有する適切な記憶媒体またはメディアに保存されるソフトウェアおよび／またはファームウェアプログラムとして実現されてもよい。

以上、特定の実施例を参照して本発明について説明したが、これらの実施例は、単に本発明の原理およびアプリケーションを例示するだけであることは理解されることろである。したがって、多数の変形が例示の実施例になされ得ることは理解されるところであり、請求の範囲に記載の本発明の趣旨および範囲から逸脱することなく、他の変形例が設けられることが可能である。

一つ以上の本発明の態様と同様の二つ以上のサブプロセッサを有するマルチプロセシングシステムの構造を示す図である。図１の演算処理システムにおけるプロセッサの一つ以上のパイプライン構造を示す図である。本発明の一つ以上の態様に従って図１の演算処理システムによって実行されるプロセスステージ示すフローチャートである。本発明の一つ以上の更なる態様を実行するために用いられる好適なプロセッサエレメント（ＰＥ）を示す図である。本発明の一つ以上の更なる態様における、図４のシステムのサブ処理ユニット（ＳＰＵ）の構造の一例を示す図である。本発明の一つ以上の更なる態様おける、図４のシステムの典型的な処理ユニット（ＰＵ）の構造の一例を示す図である。

符号の説明

１００マルチプロセシングシステム、１０２プロセッサ、１０４ローカルメモリ、１０６共有メモリ、１０８バス、１１０命令バッファ、１１０Ａレジスタ、１１２命令デコード回路、１１４依存性チェック回路、１１６命令発行回路、５００ＰＥ、５０４ＰＵ、５０８サブ処理ユニット、５１２ローカルＰＥバス、５１４共有メモリ、５５０ローカルメモリ、５５２命令ユニット。

Claims

ハードウェアキャッシュメモリではない複数のローカルメモリと、
各々が前記複数のローカルメモリのいずれかに関連する複数のプロセッサであって、各々が共有メモリと通信可能な複数のプロセッサと、
各々が前記複数のローカルメモリの各々に対応して設けられ、共有メモリから対応するローカルメモリへ命令を転送する複数のメモリフローコントローラと、
を備え、
前記複数のプロセッサの各々は、関連するローカルメモリに格納された命令をフェッチしデコードする命令デコード回路と、デコードされた命令間の依存性をテストする命令依存性チェック回路と、前記命令依存性チェック回路に結合された２つまたは３つの命令バッファと、前記２つまたは３つの命令バッファと同数の２つまたは３つの実行ステージと、を含む命令パイプラインを有し、
前記２つまたは３つの命令バッファの各々は、それぞれに対応する実行ステージに投入すべき命令の候補を一つだけ保持するための一つのレジスタを有し、
前記メモリフローコントローラは、対応するローカルメモリにダイレクトメモリアクセスにより、データキャッシングに依存しないようプログラミングされたプログラムの少なくとも一部である複数の命令をまとめてブロック転送し、
前記ローカルメモリは、ブロック転送された複数の命令をキャッシングを介することなく格納し、
前記命令デコード回路は、前記関連するローカルメモリに格納された複数の命令のうち、前記２つまたは３つの命令バッファの数と同数の命令を、キャッシングを介することなくフェッチし同時にデコードし、
前記命令依存性チェック回路は、デコードされた２つまたは３つの命令のオペランドが前記命令パイプライン内の他の命令のオペランドに依存するか否かをチェックし、
前記２つまたは３つの命令バッファの各々は、前記命令依存性チェック回路によって前記命令パイプライン内の他の命令との依存性がないと判定された命令を前記一つのレジスタに一つずつ格納し、前記２つまたは３つの命令バッファは、それぞれのレジスタに格納された全ての命令をグループとして出力し、
前記２つまたは３つの実行ステージの各々は、前記２つまたは３つの命令バッファからグループとして出力された２つまたは３つの命令の各々を同時に実行し、
前記命令依存性チェック回路によって、前記デコードされた２つまたは３つの命令のオペランドが前記命令パイプライン内の他の命令のオペランドに依存すると判定された場合は、その２つまたは３つの命令は、前記他の命令のオペランドが更新されるまで前記２つまたは３つの実行ステージに投入されないことを特徴とする装置。
前記命令依存性チェック回路は、前記命令パイプラインの命令の依存性を並行してチェックすることを特徴とする請求項１に記載の装置。
前記複数のプロセッサのいずれか、および当該プロセッサに関連するローカルメモリは、共通の半導体回路基板に配置されることを特徴とする請求項１または２に記載の装置。
前記共有メモリは、バスを介して前記複数のプロセッサの各々に結合することを特徴とする請求項１から３のいずれかに記載の装置。
前記複数のプロセッサ、前記複数のローカルメモリ、および前記共有メモリは、共通の半導体回路基板に配置されることを特徴とする請求項１から４のいずれかに記載の装置。
ハードウェアキャッシュメモリではない複数のローカルメモリと、
各々が前記複数のローカルメモリのいずれかに関連する複数のプロセッサであって、各々が共有メモリと通信可能な複数のプロセッサと、
各々が前記複数のローカルメモリの各々に対応して設けられ、共有メモリから対応するローカルメモリへ命令を転送する複数のメモリフローコントローラと、
を備え、
前記複数のプロセッサの各々は、関連するローカルメモリに格納された命令をフェッチしデコードする命令デコード回路と、デコードされた命令間の依存性をテストする命令依存性チェック回路と、前記命令依存性チェック回路に結合された複数の命令バッファであって、当該複数のレジスタが同時に発行可能な命令の数として命令スループットに基づいて算出された数の複数の命令バッファと、前記複数の命令バッファと同数の複数の実行ステージと、を含む命令パイプラインを有し、
前記複数の命令バッファの各々は、それぞれに対応する実行ステージに投入すべき命令の候補を一つだけ保持するための一つのレジスタを有し、
前記メモリフローコントローラは、対応するローカルメモリにダイレクトメモリアクセスにより、データキャッシングに依存しないようプログラミングされたプログラムの少なくとも一部である複数の命令をまとめてブロック転送し、
前記ローカルメモリは、ブロック転送された複数の命令をキャッシングを介することなく格納し、
前記命令デコード回路は、前記関連するローカルメモリに格納された複数の命令のうち、前記複数の命令バッファの数と同数の命令を、キャッシングを介することなくフェッチし同時にデコードし、
前記命令依存性チェック回路は、デコードされた複数の命令のオペランドが前記命令パイプライン内の他の命令のオペランドに依存するか否かをチェックし、
前記複数の命令バッファの各々は、前記命令依存性チェック回路によって前記命令パイプライン内の他の命令との依存性がないと判定された命令を前記一つのレジスタに一つずつ格納し、前記複数の命令バッファは、それぞれのレジスタに格納された全ての命令をグループとして出力し、
前記複数の実行ステージの各々は、前記複数の命令バッファからグループとして出力された複数の命令の各々を同時に実行し、
前記命令依存性チェック回路によって、前記デコードされた複数の命令のオペランドが前記命令パイプライン内の他の命令のオペランドに依存すると判定された場合は、その複数の命令は、前記他の命令のオペランドが更新されるまで前記複数の実行ステージに投入されないことを特徴とする装置。
前記命令パイプラインは、前記命令依存性チェック回路に結合された３つのレジスタを有することを特徴とする請求項６に記載の装置。
前記命令パイプラインは、前記命令依存性チェック回路に結合された２つのレジスタを有することを特徴とする請求項６に記載の装置。
前記複数のプロセッサの各々に機能的に結合し、前記共有メモリに結合するメインプロセッサと、
前記メインプロセッサと関連し、前記共有メモリ、および各々が前記複数のプロセッサのいずれかに関連する前記複数のローカルメモリの少なくとも１つから取得されたデータをキャッシュするハードウェアキャッシュメモリと、
を更に備えることを特徴とする請求項６に記載の装置。
前記メインプロセッサは、前記複数のプロセッサを管理することを特徴とする請求項９に記載の装置。
ハードウェアキャッシュメモリではない複数のローカルメモリと、
各々が前記複数のローカルメモリのいずれかに関連する複数のプロセッサであって、各々が共有メモリと通信可能な複数のプロセッサと、
各々が前記複数のローカルメモリの各々に対応して設けられ、共有メモリから対応するローカルメモリへ命令を転送する複数のメモリフローコントローラと、
前記複数のプロセッサの各々に機能的に結合し、前記共有メモリに結合するメインプロセッサと、
前記メインプロセッサと関連し、前記共有メモリ、および各々が前記複数のプロセッサのいずれかに関連する前記複数のローカルメモリの少なくとも１つから取得されたデータをキャッシュするハードウェアキャッシュメモリと、
を備え、
前記複数のプロセッサの各々は、関連するローカルメモリに格納された命令をフェッチしデコードする命令デコード回路と、デコードされた命令間の依存性をテストする命令依存性チェック回路と、前記命令依存性チェック回路に結合された２つまたは３つの命令バッファと、前記２つまたは３つの命令バッファと同数の２つまたは３つの実行ステージと、を含む命令パイプラインを有し、
前記２つまたは３つの命令バッファの各々は、それぞれに対応する実行ステージに投入すべき命令の候補を一つだけ保持するための一つのレジスタを有し、
前記メモリフローコントローラは、対応するローカルメモリにダイレクトメモリアクセスにより、データキャッシングに依存しないようプログラミングされたプログラムの少なくとも一部である複数の命令をまとめてブロック転送し、
前記ローカルメモリは、ブロック転送された複数の命令をキャッシングを介することなく格納し、
前記命令デコード回路は、前記関連するローカルメモリに格納された複数の命令のうち、前記２つまたは３つの命令バッファの数と同数の命令を、キャッシングを介することなくフェッチし同時にデコードし、
前記命令依存性チェック回路は、デコードされた２つまたは３つの命令のオペランドが前記命令パイプライン内の他の命令のオペランドに依存するか否かをチェックし、
前記２つまたは３つの命令バッファの各々は、前記命令依存性チェック回路によって前記命令パイプライン内の他の命令との依存性がないと判定された命令を前記一つのレジスタに一つずつ格納し、前記２つまたは３つの命令バッファは、それぞれのレジスタに格納された全ての命令をグループとして出力し、
前記２つまたは３つの実行ステージの各々は、前記２つまたは３つの命令バッファからグループとして出力された２つまたは３つの命令の各々を同時に実行し、
前記命令依存性チェック回路によって、前記デコードされた２つまたは３つの命令のオペランドが前記命令パイプライン内の他の命令のオペランドに依存すると判定された場合は、その２つまたは３つの命令は、前記他の命令のオペランドが更新されるまで前記２つまたは３つの実行ステージに投入されないことを特徴とする装置。
前記メインプロセッサは、ダイレクトメモリアクセスを使用して、前記共有メモリから前記キャッシュメモリへ命令を転送させることを特徴とする請求項１１に記載の装置。
前記メインプロセッサ、前記複数のプロセッサ、および前記複数のローカルメモリは、共通の半導体回路基板に配置されることを特徴とする請求項１１または１２に記載の装置。
前記共有メモリは、バスを介して前記複数のプロセッサの各々および前記メインプロセッサに結合することを特徴とする請求項１１から１３のいずれかに記載の装置。
前記メインプロセッサ、前記複数のプロセッサ、前記複数のローカルメモリ、および前記共有メモリは、共通の半導体回路基板に配置されることを特徴とする請求項１１から１４のいずれかに記載の装置。
共有メモリから、複数のプロセッサのうちの一つのプロセッサと関連するハードウェアキャッシュメモリではないローカルメモリへ、ダイレクトメモリアクセスにより、データキャッシングに依存しないようプログラミングされたプログラムの少なくとも一部である複数の命令をまとめてブロック転送するステップと、
ブロック転送された複数の命令をキャッシングを介することなく前記ローカルメモリへ格納するステップと、
複数の命令がブロック転送されたローカルメモリに関連するプロセッサにおいて、関連するローカルメモリに格納された複数の命令のうち、２つまたは３つの命令バッファの数と同数の命令を、キャッシングを介することなくフェッチし同時にデコードするステップと、
デコードされた２つまたは３つの命令のオペランドが命令パイプライン内の他の命令のオペランドに依存するか否かをチェックするステップと、
命令パイプライン内の他の命令との依存性がないと判定された命令を、前記２つまたは３つの命令バッファの各々が有するレジスタであって、前記２つまたは３つの命令バッファの各々に対応する実行ステージに投入すべき命令の候補を一つだけ保持するための一つのレジスタに一つずつ格納するステップと、
前記２つまたは３つの命令バッファの各々のレジスタに格納された全ての命令をグループとして出力するステップと、
前記２つまたは３つの命令バッファからグループとして出力された２つまたは３つの命令の各々を、前記２つまたは３つの命令バッファの各々に対応する実行ステージにおいて同時に実行するステップと、
を備え、
前記デコードされた２つまたは３つの命令のオペランドが命令パイプライン内の他の命令のオペランドに依存すると判定された場合は、その２つまたは３つの命令は、前記他の命令のオペランドが更新されるまで、前記２つまたは３つの命令バッファの各々に対応する実行ステージに投入されないことを特徴とする方法。
命令の依存性を並行してチェックするステップを更に備えることを特徴とする請求項１６に記載の方法。
共有メモリから、複数のプロセッサのうちの一つのプロセッサと関連するハードウェアキャッシュメモリではないローカルメモリへ、ダイレクトメモリアクセスにより、データキャッシングに依存しないようプログラミングされたプログラムの少なくとも一部である複数の命令をまとめてブロック転送するステップと、
前記共有メモリから、前記複数のプロセッサの各々に機能的に結合し前記共有メモリに結合するメインプロセッサに関連するハードウェアキャッシュメモリに命令を転送するステップと、
ブロック転送された複数の命令をキャッシングを介することなく前記ローカルメモリへ格納するステップと、
複数の命令がブロック転送されたローカルメモリに関連するプロセッサにおいて、関連するローカルメモリに格納された複数の命令のうち、２つまたは３つの命令バッファの数と同数の命令を、キャッシングを介することなくフェッチし同時にデコードするステップと、
デコードされた２つまたは３つの命令のオペランドが命令パイプライン内の他の命令のオペランドに依存するか否かをチェックするステップと、
命令パイプライン内の他の命令との依存性がないと判定された命令を、２つまたは３つの命令バッファの各々が有するレジスタであって、前記２つまたは３つの命令バッファの各々に対応する実行ステージに投入すべき命令の候補を一つだけ保持するための一つのレジスタに一つずつ格納するステップと、
前記２つまたは３つの命令バッファの各々のレジスタに格納された全ての命令をグループとして出力するステップと、
前記２つまたは３つの命令バッファからグループとして出力された２つまたは３つの命令の各々を、前記２つまたは３つの命令バッファの各々に対応する実行ステージにおいて同時に実行するステップと、
を備え、
前記デコードされた２つまたは３つの命令のオペランドが命令パイプライン内の他の命令のオペランドに依存すると判定された場合は、その２つまたは３つの命令は、前記他の命令のオペランドが更新されるまで、前記２つまたは３つの命令バッファの各々に対応する実行ステージに投入されないことを特徴とする方法。
前記メインプロセッサ、前記複数のプロセッサ、および前記ローカルメモリは、共通の半導体回路基板に配置されることを特徴とする請求項１８に記載の方法。
前記メインプロセッサ、前記複数のプロセッサ、前記ローカルメモリ、および前記共有メモリは、共通の半導体回路基板に配置されることを特徴とする請求項１８に記載の方法。
共有メモリから、複数のプロセッサのうちの一つのプロセッサと関連するハードウェアキャッシュメモリではないローカルメモリへ、ダイレクトメモリアクセスにより、データキャッシングに依存しないようプログラミングされたプログラムの少なくとも一部である複数の命令をまとめてブロック転送する機能と、
ブロック転送された複数の命令をキャッシングを介することなく前記ローカルメモリへ格納する機能と、
複数の命令がブロック転送されたローカルメモリに関連するプロセッサにおいて、関連するローカルメモリに格納された複数の命令のうち、２つまたは３つの命令バッファの数と同数の命令を、キャッシングを介することなくフェッチし同時にデコードする機能と、
デコードされた２つまたは３つの命令のオペランドが命令パイプライン内の他の命令のオペランドに依存するか否かをチェックする機能と、
命令パイプライン内の他の命令との依存性がないと判定された命令を、前記２つまたは３つの命令バッファの各々が有するレジスタであって、前記２つまたは３つの命令バッファの各々に対応する実行ステージに投入すべき命令の候補を一つだけ保持するための一つのレジスタに一つずつ格納する機能と、
前記２つまたは３つの命令バッファの各々のレジスタに格納された全ての命令をグループとして出力する機能と、
前記２つまたは３つの命令バッファからグループとして出力された２つまたは３つの命令の各々を、前記２つまたは３つの命令バッファの各々に対応する実行ステージにおいて同時に実行する機能と、
前記デコードされた２つまたは３つの命令のオペランドが命令パイプライン内の他の命令のオペランドに依存すると判定された場合に、前記他の命令のオペランドが更新された後その２つまたは３つの命令を前記２つまたは３つの命令バッファの各々に対応する実行ステージに投入する機能と、
を含むアクションをプロセッサに実行させることを特徴とするソフトウェアプログラムが格納された記録媒体。