JP2006260555A

JP2006260555A - 命令の従属関係検査の深度を利用して処理能力の改善するための方法および装置

Info

Publication number: JP2006260555A
Application number: JP2006061085A
Authority: JP
Inventors: Eiji Kasahara; 栄二笠原
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2005-03-14
Filing date: 2006-03-07
Publication date: 2006-09-28
Also published as: CN1834852A; CN100419638C; TW200703143A; TWI314286B; US20060206732A1

Abstract

【課題】新しい半導体製造プロセスにおいて、動作周波数を増加することなく、したがって消費電力を増加することなく演算処理能力を改善する。
【解決手段】Ｙｎｍより進歩したＸｎｍの半導体製造プロセスを用いてプロセッサを製造する（３００）。プロセッサの動作周波数を、Ｘｎｍ半導体製造プロセスで許容される動作周波数よりも低く設定する（３０２）。パイプラインに入力される命令のオペランドが、パイプラインにて実行されている命令のオペランドに従属するかどうかを判定するプロセッサの従属関係検査回路の深度を増加させる（３０４）。
【選択図】図４

Description

本発明は、演算処理システムの従属関係検査回路の深度を増やすことによって、処理能力を向上させるための方法と装置に関する。

近年、最先端のコンピュータ・アプリケーションのリアルタイム性、マルチメディアの機能性に対する要求に答えるため、より高速なデータスループットを処理するコンピュータが欲求されている。グラフィックスアプリケーションは、所望の表示結果を得るために、比較的短時間の間に、膨大なデータアクセス、データ計算、データ操作が要求されるアプリケーションのひとつである。これらのアプリケーションは、数百Ｍｂｉｔ／ｓの極めて高速な処理速度を必要とする。高速な処理速度を実行するため、演算処理システムは、シングルプロセッサ、あるいはマルチプロセッサ・アーキテクチャを利用する。マルチプロセッサシステムにおいて、複数のサブプロセッサは、所望の処理結果を得るために、並列に、あるいは少なくとも協働して動作してもよい。

半導体製造プロセスは、１８ヶ月ごとに進歩しており、現在では９０ｎｍとなっている。半導体製造プロセスの進歩にともない、演算処理の周波数が増加し、結果として消費電力も増加する。周波数の増加は、演算処理の性能を向上させるものであるが、消費電力の増加は望ましくない。消費電力を低減するために、動作電圧を低減させる手法が提案されているが、リーク電流の増加という厄介な問題をもたらす。本発明はこうした課題に鑑みてなされたものであり、その目的は、新しい半導体製造プロセスにおいて、動作周波数を増加することなく、したがって消費電力を増加することなく演算処理能力を改善することを目的とする。

本発明のある態様では、演算処理パイプラインの命令従属関係検査回路の深度を増加する一方で、動作周波数を低減する。命令の従属関係検査の深度を増加することにより、従属関係検査を行うロジックの複雑さは増加するが、これは、新たな半導体製造プロセスにおいて伝搬マトリクスが改善されることによって解決することができる。従属関係検査の深度を増加することにより、倍精度浮動小数点命令においてしばしば発生するバブルを減少させ、演算処理能力を改善する。

本発明のある態様の方法は、Ｙｎｍより進歩した（微細な）Ｘｎｍの半導体製造プロセスを用いてプロセッサを製造するステップと、パイプラインに入力される命令のオペランドが、パイプラインにて実行されている命令のオペランドに依存するかどうかを判定するプロセッサの従属関係検査回路の深度を増加させるステップと、を含むことを特徴とする。この方法は、低消費電力化のために、プロセッサの動作周波数を、Ｘｎｍ半導体製造プロセスで許容される動作周波数よりも低く設定するステップを備えてもよい。

この方法は、従属関係検査回路を、その深度が、命令セットに含まれる命令を実行するのに要するクロック数の最大数以上となるように設計するステップを備えてもよい。従属関係検査回路は、ある命令のオペランドがパイプライン内の他の命令のオペランドに従属するかどうかを、１クロックサイクル以内に判定可能であってもよい。

Ｙｎｍ半導体製造プロセスにおける伝搬遅延が、テストすべきオペランドの個数に関係なく、前記判定を１クロックサイクル以内で実行不能である一方、Ｘｎｍ半導体製造プロセスにおいて改善された伝搬遅延は、１クロックサイクル以内での判定が可能であってもよい。

本発明の別の態様は、演算処理システムに関する。この演算処理システムは、１つ、あるいはより多くのクロックサイクルを用いて、パイプライン手法によってある命令セットの命令を実行する命令実行回路と、ある命令のオペランドが、パイプライン内の他の命令のオペランドに従属するかどうかを判定する従属関係検査回路と、を備える。従属関係検査回路の深度は、命令セットに含まれる命令を実行するのに要するクロック数の最大数以上であることを特徴とする。少なくとも命令実行回路および従属関係検査回路は、Ｙｎｍより進歩した（微細な）Ｘｎｍの半導体製造プロセスを用いて製造してもよい。命令実行回路および従属関係検査回路は、許容される動作周波数よりも低い動作周波数で動作してもよい。

なお、以上の構成要素の任意の組合せや、本発明の構成要素や表現を、方法、装置、システムなどの間で相互に置換したものもまた、本発明の態様として有効である。

本発明によれば、処理能力を向上することができる。

同等の構成要素に同一の符号を付したいくつかの図面を参照しながら、実施の形態について説明する。図１は、本発明の少なくとも１つの特徴を具現化するための演算処理システム１００の一部を示す。説明の簡略化、明確化のため、対応する方法の態様についても、装置１００として記述される図１のブロック図に関する説明を適応することができる。

演算処理システム１００は、演算処理パイプラインを用いて好適に構成され、論理命令はパイプライン方式によって処理される。パイプラインは、命令を処理するいくつかのステージに分割されてよい。パイプラインは、一般的には、少なくとも１つの命令を取得し、デコードし、命令の相互間の従属関係（依存性）をチェックし、命令を発行し、その後実行する。この処理に対応して、演算処理システム１００は、命令バッファ（図示せず）、命令取得回路１０２、命令デコード回路１０４、従属関係検査回路１０６、命令発行回路（図示せず）、命令実行ステージ１０８を備える。

命令取得回路は、メモリから命令バッファに対して、少なくとも１つの命令を転送できるように動作することが好ましい。少なくとも１つの命令は、パイプラインに送るためにキューに積み上げられる。命令バッファは、取得された命令を一時的にストア可能な複数のレジスタを含んでもよい。命令デコード回路１０４は、命令を解析し、命令に応じた機能を実行するための論理マイクロオペレーションを生成する。たとえば、論理マイクロオペレーションは、算術演算や論理演算を特定し、メモリに命令をロードあるいはストアし、ソースオペランド、即値データオペランドを登録する。命令デコード回路１０４は、命令が、ターゲットレジスタのアドレス、構造リソース、機能ユニットやバスなどのリソースのうち、いずれを使用するかについても指定してもよい。また、命令デコード回路１０４は、これらのリソースが必要とされる命令パイプラインステージを指定する情報を提供してもよい。

従属関係検査回路１０６について説明する前に、命令実行ステージ１０８について簡単に説明する。命令実行ステージ１０８は、算術命令を実行するために、浮動小数点演算あるいは固定小数点演算を実行する複数のステージを備えて構成されてもよい。必要とされる演算処理能力に応じて、より多くのあるいは少ない浮動小数点、あるいは固定小数点の演算実行ステージが用意される。命令実行ステージ１０８は、演算処理システム１００の他の回路と同様に、スーパースケーラアーキテクチャを用いて構成するのが望ましい。スーパースケーラアーキテクチャでは、１クロックサイクルごとに、２つ以上の命令が発行され、実行される。命令実行ステージ１０８は、いずれの命令が与えられても、各ステージにおいて、１クロックサイクル、あるいはそれ以上のクロックサイクルで命令を実行する。通常は１クロックサイクルで実行する。

従属関係検査回路１０６は、複数のレジスタを含む。各実行ステージには、少なくとも１つのレジスタが対応付けられる。レジスタは、パイプラインにおいて実行される命令のオペランドの表示（識別番号、レジスタ番号などをいう）を保存する。これらのレジスタ、あるいはこれに相当するその他の保存手段は、図１において、深度要素１０６Ａとして表される。従属関係検査回路１０６は、パイプラインに投入される命令のオペランドが、すでにパイプラインに投入された他のオペランドに依存するかを判定するデジタル論理回路を含む。もし、依存する場合、新たに与えられた命令は、たとえば、他の命令の実行が完了し、他のオペランドが更新されるまで、実行しない。

ある実施の形態において論理回路は、オペランドの相互依存性をテストする排他的論理和（以下、単にＸＯＲともいう）ゲートを含んでもよい。より具体的には、オペランドがすでにパイプラインに投入されているかを判定するために、入力される各命令のオペランドを、レジスタ１０６Ａの入力値のＸＯＲをとることによって比較する。マルチパイプラインが実装される場合には（ここではそれが望ましい）、ＸＯＲ演算の数が増加する。より一般的には、所定の命令に対して、従属関係検査回路１０６において実行される比較処理の回数（たとえばＸＯＲ演算など）は、その命令のオペランドの数と、同時に処理される命令の数と、各パイプライン内の命令の数と、を乗じた関数として得ることができる。従属関係検査回路１０６は、ひとつのクロックサイクル内に命令の依存性を判定することが望ましいため、従属関係検査回路１０６の複雑さの問題は、より込み入ったものとなる。

従来技術においては、従属関係検査の深度を低減して、その結果、従属関係検査を完了するために必要な比較処理の回数を低減し、この問題の解決を図っていた。この手法では、入力された命令が、依存性チェックの完了のために従属関係検査の深度より多くのステージ（クロックサイクル）を必要とする場合に、パイプライン内に、望ましくないバブルを生むこととなる。これに対して、本実施の形態においては、従属関係検査回路１０６の深度は、複雑化の問題の制限されず、命令が従属関係検査の完了のために必要とする実行ステージの最大数（あるいはそれに近い数）に設定することができる。最大、あるいはそれに近い数の実行ステージは、命令実行回路１０８のサイクルＮとして図示される。これは、従属関係検査回路１０６の深度Ｎと合致する。多くの実行ステージを必要とする命令の例としては、倍精度浮動小数点命令を挙げることができる。

次に図２を参照する。図２は、実施の形態に係る図１の演算処理システムの性能パラメータを示す図である。本発明は、いずれのオペレーション理論に限定されるものではないが、システム開発における製造、設計、実装、そしてプログラミングの段階において、これらの性能パラメータ特性を考慮することにより、上述の演算処理システム１００の有利なオペレーションが実現される。図２は、横座標軸が時間を、縦座標軸が相対値を示す。時間の関数として図示された相対値は、利用可能な演算処理システムの半導体製造プロセス、半導体製造プロセスの伝搬マトリクス、そのプロセスにおける潜在的な動作周波数、ならびに各動作周波数における消費電力を示している。

半導体製造プロセス技術は、１８ヶ月単位で進歩しており、現在のところ、９０ｎｍとなっている。将来の製造プロセスは、６５ｎｍ、４５ｎｍとなると考えられている。製造プロセスが時間とともに進歩すると、そのときどきの製造プロセスを用いた場合の演算処理システムの動作周波数は上昇していく。動作周波数の上昇は、システムの処理性能を向上させる一方で、周波数の上昇は、消費電力の増加という望ましくない問題をもたらす。半導体製造プロセスの機能の進歩にともない、伝搬マトリクスも改善されていく。

図３に示すように、ここで問題となる伝搬マトリクスは、ある半導体製造プロセスによって造られた数段の論理ゲートにおける論理信号の伝搬遅延である。ここでは議論を簡潔化するため、信号の伝搬遅延を、たとえば１クロックサイクルなど所定の期間に対して比較するものとする。”１ＦＯ４”（Fun-out four-equivalent）伝搬マトリクスは、１クロックサイクルで、インバータ１段により構成される論理ゲート分の伝搬遅延が発生することを意味する。”２ＦＯ４”伝搬マトリクスは、１クロックサイクルで、２段のインバータで構成される論理ゲート分の遅延が発生することを意味する。”３ＦＯ４”伝搬マトリクスは、１クロックサイクルで同様に３段のインバータで構成される論理ゲート分の遅延が発生することを意味する。したがって、９０ｎｍプロセスから６５ｎｍプロセスへと半導体製造プロセスが進歩すると、”１０ＦＯ４”であった伝搬マトリクスは、”１５ＦＯ４”から”２０ＦＯ４”程度まで著しく改善されることになる。

図４は、実施の形態において実行される処理工程を図式的に示すフローチャートである。本実施の形態において、演算処理システム１００は、９０ｎｍ製造プロセスに対して、たとえば６５ｎｍ製造プロセスを用いて製造するものとする（ステップ３００）。そして、一般的な知見に反し、演算処理システム１００の動作周波数を論理上期待される値まで上昇させないものとする。動作周波数は、従前の半導体製造プロセスに対応する程度の、たとえば、９０ｎｍプロセス論理上の最大周波数程度の低いレベルに抑えられる（ステップ３０２）。次に、動作周波数を、低く設定し、あるいは最大値に設定しなかったことにより、演算処理性能が低下することに対応するため、従属関係検査回路１０６の深度を増加させる（ステップ３０４）。深度が増加するとともに、従属関係検査における比較処理を行う際の複雑さは著しく増加するが、このような複雑さは、伝搬マトリクスが改善された将来の半導体製造プロセスによって対応することができる。従属関係検査の判定を１クロックサイクルで実現しようとした場合、伝搬マトリクスの増加にともない、たとえば、”１０ＦＯ４”から”２０ＦＯ４”へと増加すると、従属関係検査回路１０６の論理回路に用いられる論理ゲートの数は著しく増加する。

消費電力を低減しつつ、演算処理能力を改善するための、さらなる技術については、同時期に出願された米国特許出願（Ｎｏ．１１／０７９，５６５）に開示されている（METHODS AND APPARATUS FOR IMPROVING PROCESSING PERFORMANCE BY CONTROLLING LATCH POINTS, No.535/21 3/14/2005出願）。この技術では、演算処理プロセッサに、命令前置実行回路、命令実行回路を設ける。命令前置実行回路は、命令セットの命令を、後続する処理のために準備する。命令実行回路は、複数の実行ステージを含み、パイプライン方式によって、実行ステージごとに１クロックサイクルで命令を実行する。実行ステージは、命令に応じてデータを処理するデジタル論理回路と、次段の実行ステージに対して供給するため、各クロックサイクルごとに、データをラッチするラッチポイント回路と、を含む。命令実行回路の実行ステージの個数は、本システム上で実行されるソフトウェアプログラムから出力されるＡＰＩコードに応じて変化する。この技術を併せて利用すれば、さらに消費電力を低減することができる。

図５は、実施の形態に利用可能なマルチプロセスシステム６００Ａを示す。マルチプロセスシステム６００Ａは、複数のプロセッサ６０２Ａ〜６０２Ｄ、それぞれに対応付けられたローカルメモリ６０４Ａ〜６０４Ｄ、バス６０８を介して接続される共有メモリ６０６を含む。例として４つのプロセッサ６０２を示しているが、プロセッサの数は本発明の要旨を逸脱しない範囲で変更してもよい。各プロセッサ６０２は、同一の構成であってもよいし、異なる構成としてもよい。

ローカルメモリ６０４は、対応するプロセッサ６０２と同一の半導体チップ（半導体基板）上に形成することが望ましく、ローカルメモリ６０４は、ハードウェアによるキャッシュメモリ機能を実現するために、オンチップ、オフチップのハードウェアのキャッシュ回路、キャッシュレジスタ、キャッシュメモリコントローラなどが利用できる場合には、伝統的なハードウェアキャッシュメモリであることが好ましい。

プロセッサ６０２は、プログラムの実行およびデータ操作のために、共有メモリ６０６からバス６０８を介して各ローカルメモリ６０４にデータ（プログラムデータを含む）をコピーするためのデータアクセス要求を発する。データアクセスを容易にするための手段として、好ましくは図示しないダイレクトメモリアクセスコントローラ（ＤＭＡＣ）が実装される。各プロセッサのＤＭＡＣは、上述した本発明の要旨の範囲において、実質的に同等の能力とすることが望ましい。

共有メモリ６０６は、プロセッサ６０２と広いバンド幅を有するメモリ接続手段（図示せず）を介して接続されるダイナミックランダムアクセスメモリ（ＤＲＡＭ）であることが望ましい。共有メモリ６０６はＤＲＡＭであることが好ましいが、他の手段、たとえばスタティックランダムアクセスメモリ（ＳＲＡＭ）、磁気ランダムアクセスメモリ（ＭＲＡＭ）、光学メモリ、ホログラフィックメモリなでであってもよい。

各プロセッサ６０２は、論理命令をパイプライン手法によって処理する、処理パイプラインを用いて実装されることが望ましい。パイプラインは、命令が処理されるいくつかのステージに分割して構成されてもよいが、一般的には、１つ以上の命令を取得し、解析し、命令間の相互依存性をチェックし、命令を発行し、実行する機能を備える。このために、プロセッサ６０２は、命令バッファ、命令解析回路、従属関係検査回路、命令発行回路、および実行ステージを含んでもよい。

本実施の形態において、１つ、あるいはそれ以上のプロセッサ６０２（好ましくはすべてのプロセッサ６０２）を、高度な半導体製造プロセスを用いて製造することが望ましい。ここでは、例として、Ｙｎｍに対して、Ｘｎｍのプロセスを用いるとする。そして、動作周波数Ｆを、Ｘｎｍのプロセスで利用可能な周波数よりも低く設定する。これによって、消費電力が低減される。さらに、処理能力を向上するため、ひとつ、あるいはそれ以上のプロセッサ６０２の従属関係検査回路の深度を、高度な半導体製造プロセスに応じて大きくする。従属関係検査回路は、プロセッサ６０２のパイプラインに入力される命令のオペランドが、パイプラインにおいて実行されている命令のオペランドに依存するかどうかを判定する論理回路を含んでいてもよい。論理回路の複雑化の問題は、高度なＸｎｍの半導体製造プロセスの伝搬マトリクスの増加によって解決される。

実施の形態において、プロセッサ６０２およびローカルメモリ６０４は、共通の半導体基板上に配置されてもよい。さらに、実施の形態では、共有メモリ６０６を、共通の半導体基板上に配置してもよいし、別々に配置してもよい。

別の実施の形態では、ひとつ、あるいは複数のプロセッサ６０２は、他のプロセッサ６０２と連動して動作してもよいし、バス６０８を介して共有メモリ６０６と結合するメインプロセッサとして動作してもよい。メインプロセッサは、他のプロセッサ６０２によるデータ処理を、スケジューリングし、調整してもよい。他のプロセッサ６０２とは異なり、メインプロセッサは、共有メモリ６０６やプロセッサ６０２のローカルメモリ６０４の少なくともひとつから取得されるキャッシュデータを実施可能なハードウェア上のキャッシュメモリと接続されてもよい。メインプロセッサは、ＤＭＡ技術など、既知の技術を用いて、プログラムの実行およびデータ操作のために、共有メモリ６０６からバス６０８を介してローカルメモリ６０４にデータ（プログラムデータを含む）をコピーするためのデータアクセス要求を発してもよい。

ここで、上述した一つ以上の特徴の実現に適した、好適なマルチプロセッサシステムのコンピュータアーキテクチャについて説明する。一つ以上の実施形態によれば、マルチプロセッサシステムは、ゲームシステムや、ホームターミナルや、ＰＣシステムや、サーバシステムや、ワークステーションなどの豊富なメディアを有するアプリケーションのスタンドアロン型処理および／または分散型処理のためのシングルチップソリューションとして実装できる。一部のアプリケーション、例えば、アプリーケーションがゲームシステムおよびホームターミナルである場合、リアルタイムの演算が必要である。例えば、リアルタイムの分散型ゲームアプリケーションにおいて、ネットワークを経由した画像復元、３Ｄコンピューターグラフィック、音声生成、ネットワーク通信、物理シミュレーション、人工知能計算のうち一つ以上は、ユーザにリアルタイムの感覚を体験させるために十分の速さで実行されなければならない。したがって、マルチプロセッサシステムにおける各プロセッサは、短く、かつ予測可能な時間内でタスクを終了させなければならない。

この目的を達成するために、このコンピュータアーキテクチャによれば、マルチプロセッサのコンピュータシステムのすべてのプロセッサは、共通のコンピュータモジュール（またはセル）から構成される。この共通のコンピュータモジュールは、共通の構成を有し、同一の命令セットアーキテクチャを用いるのが好ましい。マルチプロセッサのコンピュータシステムは、コンピュータプロセッサを用いて、１以上のクライアント、サーバ、ＰＣ、携帯端末、ゲーム機、ＰＤＡ、セットトップボックス、アプリケーション、デジタルテレビおよび他のデバイスから構成されうる。

必要に応じて、複数のコンピュータシステムをそれぞれネットワークのメンバとしてもよい。一貫性のあるモジュール構造により、マルチプロセッサコンピュータシステムによってアプリケーションおよびデータの効率的な高速処理が可能となり、かつネットワークを利用すれば、ネットワークを介してアプリケーションおよびデータの迅速な伝送ができる。またこの構造により、様々なサイズおよび処理能力をもつネットワークメンバの形成、ならびにこれらメンバによって処理されるアプリケーションの準備を簡略化できる。

図６は、基本的な処理モジュールであるプロセッサ要素（ＰＥ）５００を示す。ＰＥ５００は、Ｉ／Ｏインタフェース５０２と、処理ユニット（ＰＵ）５０４と、複数のサブ処理ユニット５０８、すなわち、サブ処理ユニット５０８Ａと、サブ処理ユニット５０８Ｂと、サブ処理ユニット５０８Ｃと、サブ処理ユニット５０８Ｄとを含む。ローカル（すなわち内部）ＰＥバス５１２は、ＰＵ５０４、ＳＰＵ群５０８、およびメモリインタフェース５１１間のデータおよびアプリケーションの伝送を行う。ローカルＰＥバス５１２は、例えば従来構成でもよいし、またはパケットスイッチネットワークとして実装することもできる。パケットスイッチネットワークとして実装するとより多くのハードウェアが必要になるが、利用可能な帯域が広がる。

ＰＥ５００はディジタルロジック回路を実装する各種方法を利用して構成できる。ただし好適には、ＰＥ５００はシリコン基板上の相補的金属酸化膜半導体（ＣＭＯＳ）を用いる一つの集積回路として構成される。基板の他の材料には、ガリウム砒素、ガリウムアルミニウム砒素、および広範な種類の不純物を用いた他のいわゆるＩＩＩ−Ｂ族化合物が含まれる。ＰＥ５００はまた、超伝導材料を用いて高速単一磁束量子（ＲＳＦＱ）ロジック回路等として実装することもできる。

ＰＥ５００は、広帯域メモリ接続５１６を介してダイナミックランダムアクセスメモリ（ＤＲＡＭ）５１４に密接に関連付けられる。メモリ５１４は好適にはダイナミックランダムアクセスメモリ（ＤＲＡＭ）だが、スタティックランダムアクセスメモリ（ＳＲＡＭ）、磁気ランダムアクセスメモリ（ＭＲＡＭ）、光学メモリ、またはホログラフィックメモリ等の他の手段を用いて実装してもよい。

ＰＵ５０４およびサブ処理ユニット５０８は、それぞれ、ダイレクトメモリアクセス（ＤＭＡ）機能を有するメモリフローコントローラ（ＭＦＣ）と接続されることが望ましい。ＭＦＣは、メモリインタフェース５１１と協働して、ＤＲＡＭ５１４、ＰＥ５００におけるサブ処理ユニット５０８、ＰＵ５０４間のデータの転送を円滑にするものである。ここで、ＤＭＡＣおよび／またはメモリインタフェース５１１は、サブ処理ユニット５０８とＰＵ５０４とから独立して設置されるようにしてもよいし、一体化されるようにしてもよい。実際に、ＤＡＭＣの機能および／またはメモリインタフェース５１１の機能は、サブ処理ユニット５０８およびＰＵ５０４の一つ以上（好ましくはすべて）に一体化できる。ここで、ＤＲＡＭ５１４もまた、ＰＥ５００から独立して設置されるようにしてもよいし、一体化されるようにしてもよい。例えば、ＤＲＡＭ５１４は図に示すようにチップ外部に設けられるようにしてもよく、集積方式でチップ内蔵されるようにしてもよい。

ＰＵ５０４は、例えばスタンドアロン式のデータおよびアプリケーション処理が可能な標準的なプロセッサでもよい。動作時には、ＰＵ５０４はサブ処理ユニット群によるデータおよびアプリケーションの処理のスケジューリングおよび調整を行う。サブ処理ユニット群は、好適には、一命令複数データ（ＳＩＭＤ）プロセッサである。ＰＵ５０４の制御下で、サブ処理ユニット群はデータおよびアプリケーションの処理を並列に、かつ独立して行う。ＰＵ５０４としては、ＲＩＳＣ（ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎ−ｓｅｔｃｏｍｐｕｔｉｎｇ）技術を用いるマイクロプロセッサアーキテクチャとなるＰｏｗｅｒＰＣ（登録商標）コアを用いることが好ましい。ＲＩＳＣは単純な命令の組み合わせによって比較的複雑な命令を実行するものである。したがって、プロセッサのタイミングは、比較的簡単かつ速いオペレーションに基づきうる。これは、決められたクロック速度においてより多くの命令を実行することを可能とする。

ここで、ＰＵ５０４は、サブ処理ユニット５０８のうちの一つとして実装されてもよい。この場合、このサブ処理ユニット５０８は、メイン処理ユニットＰＵによる処理、すなわち各々のサブ処理ユニット５０８によるデータとアプリケーションの処理のスケジューリングと統合処理を行うものとすればよい。さらに、ＰＥ５００内において、複数のＰＵを実装してもよい。

このモジュール構造では、あるコンピュータシステムで使用されるＰＥ５００の数は、そのシステムが必要とする処理能力に基づく。例えば、サーバは４つのＰＥ群５００、ワークステーションは二つのＰＥ群５００、ＰＤＡは一つのＰＥ５００を使用しうる。あるソフトウェアセルの処理に割り当てられるＰＥ５００のサブ処理ユニットの数は、セル内のプログラムおよびデータの複雑さおよび規模によって異なる。

図７は、サブ処理ユニット（ＳＰＵ）５０８の好適な構造と機能を示す図である。サブ処理ユニット５０８のアーキテクチャは、汎用プロセッサ（多数のアプリケーションにおいて高い平均性能を実現するように設計されているもの）と特殊用途のプロセッサ（一つのアプリケーションにおいて高い性能を実現するように設計されている）との間に位置するものであることが望ましい。サブ処理ユニット５０８は、ゲームアプリケーション、メディアアプリケーション、ブロードバンドシステムなどにおいて高い性能を実現すると共に、リアルタイムアプリケーションのプログラマに高度な制御自由度を提供するように設計されている。サブ処理ユニット５０８の一部の機能として、グラフィック構造パイプライン、サーフェス分割、高速フーリエ変換、画像処理キーワード、ストリーム処理、ＭＰＥＧエンコード／デコード、暗号化、復号化、デバイスドライバー拡張、モデリング、ゲームフィジクス、コンテンツ制作、音声合成および音声処理などを挙げることができる。

サブ処理ユニット５０８は、すなわちＳＰＵコア５１０Ａとメモリフローコントローラ（ＭＦＣ）５１０Ｂという二つの基本機能ユニットを有する。ＳＰＵコア５１０Ａは、プログラムの実行、データの操作などを担うものであり、一方、ＭＦＣ５１０Ｂは、ＳＰＵコア５１０Ａと、システムのＤＲＡＭ５１４との間のデータ転送に関連する機能を担うものである。

ＳＰＵコア５１０Ａはローカルメモリ５５０と、命令（インストラクション）ユニット（ＩＵ）５５２と、レジスタ５５４と、一つ以上の浮動小数点実行ステージ５５６と、一つ以上の固定小数点実行ステージ５５８とを有する。ローカルメモリ５５０は、ＳＲＡＭのようなシングルポートのＲＡＭを用いて実装されることが望ましい。メモリへのアクセスのレイテンシを軽減するために、従来のほとんどのプロセッサはキャッシュを用いるが、ＳＰＵコア５１０Ａは、キャッシュよりも、比較的小さいローカルメモリ５５０を用いる。実際には、リアルタイムのアプリケーション（およびここで言及したほかのアプリケーション）のプログラマに、予測可能で、かつ一致したメモリアクセスのレイテンシを提供するために、サブ処理ユニット５０８Ａ内においてキャッシュメモリアーキテクチャを用いることは好ましくない。キャッシュメモリのキャッシュヒット／ミス値は、数サイクルから数百サイクルの範囲内で変化する、予測困難な、メモリアクセス回数を生じさせる。このようなメモリアクセスの回数の予測困難性は、例えばリアルタイムアプリケーションのプログラミングに望まれるアクセスタイミングの予測可能性を下げる。データ演算を伴うＤＭＡ転送をオーバーラップすることで、ローカルメモリＳＲＡＭ５５０内のレイテンシを補うことができる。これはリアルタイムアプリケーションのプログラミングに高い制御自由度を提供する。ＤＭＡ転送と関連するレイテンシおよび命令のオーバーヘッドが、キャッシュミスにより生じたレイテンシより長いため、ＳＲＡＭローカルメモリアプローチは、ＤＭＡ転送サイズが十分大きいかつ十分予測可能なとき（例えばデータが要求される前にＤＭＡコマンドを発行することができるとき）において優位性を提供する。

サブ処理ユニット５０８のうちのいずれか一つの上で実行されるプログラムは、ローカルアドレスを用いて、関連するローカルメモリ５５０を参照する。なお、ローカルメモリ５５０の各場所にはシステムの全体のメモリマップ上におけるリアルアドレス（ＲＡ）が付与されている。これは、特権レベルのソフトウェアがローカルメモリ５５０を一つの処理における実効アドレス（ＥＡ）にマッピングすることを可能とし、それによって二つのローカルメモリ５５０間のＤＭＡ転送が容易になる。ＰＵ５０４は、実効アドレスを用いてローカルメモリ５５０に直接アクセスすることもできる。ローカルメモリ５５０は、２５６キロバイトの容量を有し、レジスタ３５４の容量は１２８×１２８ビットであることが望ましい。

ＳＰＵコア５１０Ａは、演算パイプラインを用いて実装されることが望ましく、その中において論理命令がパイプライン方式で処理される。パイプラインは、命令を処理する任意の数のステージに分けることができるが、通常、パイプラインは、一つ以上の命令のフェッチ、命令のデコード、命令間の従属関係のチェック、命令の発行、および命令の実行から構成される。これに関連して、命令ユニット３５２は、命令バッファと、命令デコード回路と、従属関係検査回路と、命令発行回路とを含む。

命令バッファは、ローカルメモリ５５０と接続されており、命令がフェッチされたときにこれらの命令を一時的に格納することができる複数のレジスタを有することが好ましい。命令バッファは、すべての命令が一つのグループとして（すなわち実質上同時に）レジスタから出力されるように動作することが好ましい。命令バッファはいかなるサイズであってもよいが、レジスタの数がおよそ２または３以下となるようにするサイズであることが好ましい。

通常、デコード回路は命令を細分化すると共に、対応する命令の機能を果たす論理・マイクロオペレーションを発生させる。例えば、論理・マイクロペレーションは、計算オペレーションと論理オペレーションの指定、ローカルメモリ５５０へのロードオペレーションとストアオペレーションの指定、レジスタソースオペランドおよび／または即値データオペランドの指定などを行うことができる。デコード回路は、ターゲットのレジスタのアドレスや、構造リソースや、機能ユニットおよび／またはバスなどのような、命令が用いるリソースを指定してもよい。デコード回路は、リソースが必要とされる命令パイプラインのステージを示す情報を提供してもよい。命令デコード回路は、実質上同時に、命令バッファのレジスタの数と同じ数の命令をデコードするように動作可能であることが好ましい。

従属関係検査回路は、チェック対象となる命令のオペランドがパイプラン内の他の命令のオペランドに従属するか否かを判定するためのチェックを行うデジタルロジックを含む。従属するならば、チェック対象となる命令は、これらの他のオペランドが（例えば、これらの他の命令の実行の完了を許可することによって）更新されるまで、実行されるべきではない。従属関係検査回路は、デコード回路１０４から同時に送信されてきた複数の命令の従属関係を判定することが好ましい。

命令発行回路は、浮動小数点実行ステージ５５６および／または固定小数点実行ステージ５５８に命令を発行することができる。

レジスタ５５４は、１２８―エントリレジスタファイルのような、比較的大きな統合レジスタファイルとして実装されることが好ましい。これは、レジスタ不足を回避するためのレジスタのリネームを必要とせずに、深くパイプライン化された高周波数の実行を可能とする。ハードウェアのリネームは、一般的に処理システムにおける実装面積と電力の高い割合を消費する。したがって、ソフトウェアによるループアンローリングまたは他のインターリーブ技術によってレイテンシがカバーされるような場合において、優位性のあるオペレーションを実現できる。

ＳＰＵコア５１０Ａは、クロックサイクル毎に複数の命令を発行するようなスーパースカラアーキテクチャで実装されることが好ましい。ＳＰＵコア５１０Ａは、命令バッファから同時に送信される命令の数、例えば２と３の間（クロックサイクル毎に二つまたは３つの命令が発行されることを意味する）に対応する程度のスーパースカラとして動作可能であることが好ましい。必要とされる処理能力に応じた多少なりの数の浮動小数点実行ステージ５５６と固定小数点実行ステージ５５８を用いることができる。好適な実施の形態では、浮動小数点実行ステージ５５６と固定小数点実行ステージ５５８の望ましいスピードは、それぞれ、毎秒３２ギガ浮動小数点オペレーション（３２ＧＦＬＯＰＳ）と毎秒３２ギガオペレーション（３２ＧＯＰＳ）である。

ＭＦＣ５１０Ｂは、バスインターフェースユニット（ＢＩＵ）５６４と、メモリマネジメントユニット（ＭＭＵ）５６２と、ダイレクトメモリアクセスコントローラ（ＤＭＡＣ）５６０とを有することが望ましい。低電力消費の設計目的を達成するために、ＭＦＣ５１０Ｂは、ＤＭＡＣ５６０を除いて、ＳＰＵコア５１０Ａおよびバス５１２の半分の周波数（半分のスピード）で動作することが好ましい。ＭＦＣ５１０Ｂは、バス５１２からサブ処理ユニット５０８に入るデータと命令を操作することができ、ＤＭＡＣのためのアドレス変換と、データ一貫性のためのスヌープオペレーションとを提供する。ＢＩＵ５６４は、バス５１２とＭＭＵ５６２とＤＭＡＣ５６０との間のインターフェースを提供する。したがって、サブ処理ユニット５０８（ＳＰＵコア５１０ＡとＭＦＣ５１０Ｂを含む）とＤＭＡＣ５６０は、物理的および／または論理的にバス５１２と接続されている。

ＭＭＵ５６２は、メモリアクセスのために実効アドレス（ＤＭＡコマンドから取得される）をリアルアドレスへ変換することができるようにすることが望ましい。例えば、ＭＭＵ５６２は、実効アドレスの比較的高いオーダのビットをリアルアドレスのビットに変換できる。なお、比較的低いオーダアドレスビットについては、変換不可であると共に、物理的におよび論理的にリアルアドレスの形成およびメモリへのアクセスのリクエストに用いられるようにすることが好ましい。具体的には、ＭＭＵ５６２は、６４ビットのメモリマネジメントモジュールをベースにして実装でき、４Ｋバイト、６４Ｋバイト、１メガバイト、１６メガバイトのページサイズと２５６ＭＢのセグメントサイズを有する２^６４のバイトの実効アドレス空間を提供することができる。ＭＭＵ５６２は、ＤＭＡコマンドのために、２^６５までの仮想メモリと、２^４２バイト（４テラバイト）の物理メモリをサポート可能であることが好ましい。ＭＭＵ５６２のハードウェアは、８−エントリの完全連想ＳＬＢ、２５６−エントリの４ウェイセット連想ＴＬＢ、ＴＬＢのための４×４代替マネジメントテーブル（ＲＭＴ）を含むものとすることができる。なお、ＲＭＴはハードウェアＴＬＢミスのハンドリングに用いられるものである。

ＤＭＡＣ５６０は、ＳＰＵコア５１０ＡからのＤＭＡコマンドと、一つ以上の、ＰＵ５０４および／または他のＳＰＵのような他のデバイスからのＤＭＡコマンドとを管理することができることが望ましい。ＤＭＡコマンドは下記の３つのカテゴリがある。すなわち、ローカルメモリ５５０から共有メモリ５１４へデータを移動させるＰｕｔコマンド、共有メモリ５１４からローカルメモリ５５０へデータを移動させるＧｅｔコマンド、ＳＬＩコマンドと同期コマンドとを含むストレージコントロールコマンドである。同期コマンドは、アトミックコマンド、送信コマンド、専用のバリアコマンドを含むものとすることができる。ＤＭＡコマンドに応じて、ＭＭＵ５６２は実効アドレスをリアルアドレスに変換し、このリアルアドレスはＢＩＵ５６４に転送される。

ＳＰＵコア５１０Ａはチャンネルインターフェースとデータインターフェースとを用いて、ＤＭＡＣ５６０内のインターフェースと通信（ＤＭＡコマンド、ステータスなどの送信）することが好ましい。ＳＰＵコア５１０Ａは、チャンネルインターフェースを介してＤＭＡコマンドをＤＭＡＣ５６０内のＤＭＡキューに送信する。いったん、ＤＭＡキューに格納されたＤＭＡコマンドは、ＤＭＡＣ５６０内の発行ロジックと完了ロジックにより操作される。一つのＤＭＡコマンドのためのすべてのバス・トランザクションが完了すると、チャンネルインターフェースを介して、一つの完了信号がＳＰＵコア５１０Ａに返送される。

図８は、ＰＵ５０４の好ましい構造と機能を示す図である。ＰＵ５０４は、ＰＵコア５０４Ａとメモリフローコントローラ、すなわちＭＦＣ５０４Ｂとの二つの基本機能ユニットを有する。ＰＵコア５０４Ａは、プログラムの実行、データの操作、マルチプロセッサ管理機能などを担うものであり、一方、ＭＦＣ５０４Ｂは、ＰＵコア５０４Ａと、処理システム１００のメモリスペースとの間のデータ転送に関連する機能を担うものである。

ＰＵコア５０４Ａは、Ｌ１キャッシュ５７０と、命令ユニット５７２と、レジスタ５７４と、少なくとも一つの浮動小数点実行ステージ５７６と、少なくとも一つの固定小数点実行ステージ５７８とを有する。Ｌ１キャッシュ５７０は、共有メモリ６０６、プロセッサ６０２、あるいはＭＦＣ５０４Ｂにおけるほかの部分のメモリスペースから受信したデータのキャッシング機能を提供する。ＰＵコア５０４Ａはスーパーパイプラインとして実装されることが好ましいため、命令ユニット５７２は、フェッチ、デコード、従属関係のチェック、発行などを含む多数のステージを有する命令パイプラインとして実装されることが好ましい。ＰＵコア５０４Ａは、スーパースカラ構造を有することが好ましく、それによって、クロックサイクル毎に命令ユニット５７２から２以上の命令が発行される。高い演算パワーを実現するために、浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８は、パイプライン方式の多数のステージを有する。必要とされる処理能力に応じた多少なりの浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８とを用いることができる。

ＭＦＣ５０４Ｂは、バスインターフェースユニット（ＢＩＵ）５８０と、Ｌ２キャッシュ５８２と、キャッシュ不可ユニット（ＮＣＵ）５８４と、コアインターフェースユニット（ＣＩＵ）５８６と、メモリマネジメントユニット（ＭＭＵ）５８８とを有する。低電力消費の設計目的を達成するために、ＭＦＣ５０４Ｂのほとんどは、ＰＵコア５０４Ａとバス１０８の半分の周波数（半分のスピード）で動作することが好ましい。

ＢＩＵ５８０は、バス６０８と、Ｌ２キャッシュ５８２と、ＮＣＵ５８４のロジックブロックとの間のインターフェースを提供する。ＢＩＵ５８０は、完全一致のメモリオペレーションを実行するために、マスターデバイスとして動作してもよく、バス６０８上のスレーブデバイスとして動作してもよい。マスターデバイスとして動作する場合、ＢＩＵ５８０は、Ｌ２キャッシュ５８２とＮＣＵ５８４の代わりに、バス６０８へのロードリクエストとストアリクエストを発信する。ＢＩＵ５８０は、バス６０８へ送ることができるコマンドの総数を限定するコマンドのフローコントロールメカニズムを実装してもよい。バス６０８上のデータオペレーションは、８ビートになるように設計されることができ、そして、ＢＩＵ５８０は、キャッシュラインが１２８バイト前後であり、一貫性と同期の精度が１２８ＫＢであるように設計されることが好ましい。

Ｌ２キャッシュ５８２（およびそれをサポートするハードウェアロジック）は、５１２ＫＢデータをキャッシュするように設計されることが好ましい。例えば、Ｌ２キャッシュ５８２は、キャッシュ可能なロードとストア、データのプリフェッチ、命令フェッチ、命令のプリフェッチ、キャッシュオペレーション、バリアオペレーションを操作できる。Ｌ２キャッシュ５８２は、８ウエイセットアソシエイティブシステムであることが好ましい。Ｌ２キャッシュ５８２は、６つのキャストアウトキュー（例えば６つのＲＣマシン）に合わせた６つのリロードキューと、８つの（６４バイトの幅の）ストアキューとを有することができる。Ｌ２キャッシュ５８２は、Ｌ１キャッシュ５７０の中の一部または全てのデータのバックアップコピーを提供するように動作してもよい。これは特に、処理ノードがホットスワップ（動作中に変更）されたときの、復元状況において有用である。この構成は、Ｌ１キャッシュ５７０が、ほぼポート無しにさらに速く動作することを可能にするとともに、キャッシュ間の転送を速くすることができる（リクエストがＬ２キャッシュ５８２で止まることができるから）。この構成は、Ｌ２キャッシュ５８２にキャッシュ一貫性のマネジメントを及ばしめるメカニズムも提供する。

ＮＣＵ５８４はインターフェースによってＣＩＵ５８６と、Ｌ２キャッシュ５８２と、ＢＩＵ５８０と接続されており、通常、ＰＵコア５０４Ａとメモリシステム間のキャッシュ不可なオペレーションのキューまたはバッファ回路として機能する。ＮＣＵ５８４は、ＰＵコア５０４Ａとの通信のうちの、Ｌ２キャッシュ５８２によって扱わない全ての通信を操作することが好ましい。ここで、Ｌ２キャッシュ５８２によって扱わないものとしては、キャッシュ不可なロードとストアや、バリアオペレーションや、キャッシュ一貫性オペレーションなどを挙げることができる。低電力消費の設計目的を達成するために、ＮＣＵ５８４は、半分のスピードで動作することが好ましい。

ＣＩＵ５８６は、ＭＦＣ５０４ＢとＰＵコア５０４Ａとの境界線上に配置され、浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、ＭＭＵ５８８から、Ｌ２キャッシュ５８２とＮＣＵ５８４へ送られるリクエストのためのルーティング、アービトレイション、フローコントロールポイントとして動作する。ＰＵコア５０４ＡとＭＭＵ５８８はフルスピードで動作し、Ｌ２キャッシュ５８２とＮＣＵ５８４は２：１のスピード比で動作可能であることが好ましい。こうすることによって、ＣＩＵ５８６に周波数境界線が存在することになり、この境界線は、その一つの機能により、二つの周波数領域間にリクエストの転送およびデータのリロードをする際に、周波数の交錯を適切に操作する。

ＣＩＵ５８６は、ロードユニット、ストアユニット、リロードユニットの３つの機能ブロックから構成される。さらに、データをプリフェッチする機能がＣＩＵ５８６により実行される。この機能は、ロードユニットの一部の機能であることが好ましい。ＣＩＵ５８６は、下記の動作を実行可能であることが好ましい：（ｉ）ＰＵコア５０４ＡとＭＭＵ５８８からのロードリクエストとストアリクエストを受信する、（ｉｉ）これらのリクエストをフルスピードクロック周波数から半分のスピードに変換する（２：１クロック周波数変換）、（ｉｉｉ）キャッシュ可能なリクエストとキャッシュ不可なリクエストとをそれぞれＬ２キャッシュ５８２とＮＣＵ５８４へルーティングする、（ｉｖ）Ｌ２キャッシュ５８２とＮＣＵ５８４へのリクエストが均等になるように調整する、（ｖ）リクエストが目標時間内に受信されると共に、オーバーフローが発生しないための、Ｌ２キャッシュ５８２とＮＣＵ５８４へ送信するリクエストのフローコントロールを提供する、（ｖｉ）ロードリターンデータを受信すると共に、これらのデータを浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、またはＭＭＵ５８８へルーティングする、（ｖｉｉ）スヌープリクエストを浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、またはＭＭＵ５８８へ転送する、（ｖｉｉｉ）ロードリターンデータとスヌープトラフィックを半分のスピードからフルスピードへ変換する。

ＭＭＵ５８８は、第２レベルアドレス変換手段のごとく、ＰＵコア５０４Ａのためにアドレス変換を提供することが好ましい。変換の第１レベルは、ＰＵコア５０４Ａ内において、セパレート命令と、ＭＭＵ５８８より遥かに小さくてかつ速いデータＥＲＡＴ（実効アドレスからリアルアドレスへの変換）アレイとにより提供されることが好ましい。

ＰＵ５０４は６４ビットで実装され、４〜６ＧＨz、１０ＦＯ４（Ｆａｎ−ｏｕｔ−ｏｆ−ｆｏｕｒ）で動作することが好ましい。レジスタは６４ビットの長さを有することが好ましく（特定用途のための一つまたはより多くのレジスタが６４ビットより小さいかもしれないが）、実効アドレスは６４ビットの長さを有することが好ましい。命令ユニット５７２、レジスタ５７４、浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８はＲＩＳＣコンピューティング技術を達成するためにＰｏｗｅｒＰＣ技術により実装されることが好ましい。

このコンピュータシステムのモジュラー構造のさらなる詳細については、米国特許第６５２６４９１号公報に記載されている。その公報の記載によれば、例えば、コンピュータネットワークのメンバのプロセッサに単一のＰＥを含め、さらに、このＰＥに、ＰＵ、ＤＭＡＣおよび８個のＡＰＵを含めることができる。他の例として、そのプロセッサは、ビジュアルアライザ（ＶＳ）の構造を有してもよく、この場合、ＶＳに、ＰＵ、ＤＭＡＣおよび４つのＡＰＵを含めてもよい。

本発明のさらに別の態様の少なくともひとつにおいて、上述した方法および装置は、図面に示されるハードウェアなどを用いて実装することができる。これらのハードウェアは、標準的なデジタル回路、ソフトウェア、ファームウェアを実行可能なプロセッサ、あるいは、プログラマブルＲＯＭ（ＰＲＯＭｓ）、プログラマブルアレイロジックデバイス（ＰＡＬｓ）などのプログラマブルデジタル機器やシステムなどの既知の技術を用いて実現することができる。さらに、図に示された装置は、機能ブロックに分割して示されるが、こうしたブロックは、回路を分離し、あるいは１つ以上の機能ユニットを組み合わせることにより実現することができる。さらに、本発明のいくつかの態様は、移動や配布のための記録メディア（フレキシブルディスク、メモリチップなど）に記録可能なソフトウェアや、ファームウェアプログラムにより実現することができる。

以上、本発明について、実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

本発明のいくつかの態様に適用可能な演算処理システムの構成を示すブロック図である。本発明のいくつかの態様にかかる図１の演算処理システムの性能パラメータの図式説明図である。本発明のいくつかの態様にかかる演算処理システムの伝搬マトリクスの特性を示すブロック図である。実施の形態において実行される処理工程を示すフローチャートである。実施の形態に係る２つ以上のサブプロセッサを備えたマルチプロセッサシステムの構成を示すブロック図である。実施の形態を実現するために使用可能な好適なプロセッサ要素（ＰＥ）の一例を示す図である。実施の形態を実現するために使用可能な図６のシステムにおけるサブ処理ユニット（ＳＰＵ）の一例の構成を示す図である。実施の形態を実現するために使用可能な図６のシステムにおける処理ユニット（ＰＵ）の一例の構成を示す図である。

符号の説明

１００演算処理システム、１０２命令取得回路、１０４命令デコード回路、１０６従属関係検査回路、１０８命令実行ステージ、６００マルチプロセスシステム、６０２プロセッサ、６０４ローカルメモリ、６０６共有メモリ、６０８バス。

Claims

Ｙｎｍより進歩したＸｎｍの半導体製造プロセスを用いてプロセッサを製造するステップと、
パイプラインに入力される命令のオペランドが、パイプラインにて実行されている命令のオペランドに従属するかどうかを判定する前記プロセッサの従属関係検査回路の深度を増加させるステップと、
を含むことを特徴とする方法。
請求項１に記載の方法であって、さらに、
低消費電力化のために、前記プロセッサの動作周波数を、前記Ｘｎｍ半導体製造プロセスで許容される動作周波数よりも低く設定するステップを備えることを特徴とする方法。
請求項２に記載の方法であって、
前記従属関係検査回路の深度を、前記動作周波数を低く設定したことにより低下した演算処理能力が回復するように増加させることを特徴とする方法。
請求項１から３のいずれかに記載の方法であって、さらに、
前記従属関係検査回路を、その深度が、命令セットに含まれる命令を実行するのに要するクロック数の最大数以上となるように設計するステップを備えることを特徴とする方法。
請求項１から３のいずれかに記載の方法であって、さらに、
ある命令のオペランドが前記パイプライン内の他の命令のオペランドに従属するかどうかの前記判定を、１クロックサイクル以内に判定するステップを備えることを特徴とする方法。
請求項５に記載の方法であって、
Ｙｎｍ半導体製造プロセスにおける伝搬遅延が、テストすべきオペランドの個数に関係なく、前記判定を１クロックサイクル以内で実行不能である一方、
Ｘｎｍ半導体製造プロセスにおいて改善された伝搬遅延は、１クロックサイクル以内での判定が可能であることを特徴とする方法。
プロセッサの命令実行回路の命令セットの命令を、ひとつ、あるいは複数のクロックサイクル以内で各命令が実行されるパイプライン手法によって実行するステップと、
その深度が、命令セットに含まれる命令を実行するのに要するクロック数の最大数以上となるように設計された前記プロセッサの従属関係検査回路を用いて、ある命令のオペランドが、パイプライン内の他の命令のオペランドに従属するかどうかを判定するステップと、
を備えることを特徴とする方法。
請求項７に記載の方法であって、
ある命令のオペランドが前記パイプライン内の他の命令のオペランドに従属するかどうかの前記判定を、１クロックサイクル以内に実行することを特徴とする方法。
請求項８に記載の方法であって、さらに、
低消費電力化のために、前記プロセッサの動作周波数を、半導体製造プロセスで許容される動作周波数よりも低く設定するステップを備えることを特徴とする方法。
１つ、あるいはより多くのクロックサイクルを用いて、パイプライン手法によってある命令セットの命令を実行する命令実行回路と、
ある命令のオペランドが、パイプライン内の他の命令のオペランドに従属するかどうかを判定する従属関係検査回路と、
を備え、
前記従属関係検査回路の深度は、前記命令セットに含まれる命令を実行するのに要するクロック数の最大数以上であることを特徴とする演算処理システム。
請求項１０に記載の演算処理システムであって、さらに、
パイプラインにおいて実行される命令セットの命令を取得する命令取得回路と、
取得した前記命令を、実行に先立ちマイクロオペレーションに変換する命令デコード回路と、を備えることを特徴とする演算処理システム。
請求項１０または１１に記載の演算処理システムであって、
Ｙｎｍ半導体製造プロセスでは伝搬遅延によって、前記従属関係検査回路の深度が確保できず、Ｘｎｍ半導体製造プロセスにおいて改善された伝搬遅延では、前記従属関係検査回路の深度が確保できる場合において、
少なくとも前記命令実行回路および前記従属関係検査回路は、前記Ｙｎｍより進歩した前記Ｘｎｍの半導体製造プロセスを用いて製造されることを特徴とする演算処理システム。
請求項１０から１２のいずれかに記載の演算処理システムであって、
従属関係検査回路は、
ある命令のオペランドがパイプライン内の他の命令のオペランドに従属するかどうかの前記判定を、１クロックサイクル以内に判定することを特徴とする演算処理システム。
請求項１３に記載の演算処理システムであって、
Ｙｎｍ半導体製造プロセスでは伝搬遅延によって、テストすべきオペランドの個数に関係なく、１クロックサイクル内に前記判定を行うことができず、Ｘｎｍ半導体製造プロセスにおいて改善された伝搬遅延は、１クロックサイクル以内での判定が可能である場合に、
少なくとも前記命令実行回路および前記従属関係検査回路は、Ｙｎｍより進歩したＸｎｍの半導体製造プロセスを用いて製造されることを特徴とする演算処理システム。
請求項１０から１４のいずれかに記載の演算処理システムであって、
少なくとも前記命令実行回路および前記従属関係検査回路は、Ｙｎｍより進歩したＸｎｍの半導体製造プロセスを用いて製造され、
低消費電力化のために、前記演算処理システムの動作周波数は、前記Ｘｎｍ半導体製造プロセスで許容される動作周波数よりも低く設定されることを特徴とする演算処理システム。
請求項１５に記載の演算処理システムであって、
前記従属関係検査回路の深度を、前記動作周波数を低く設定したことにより低下した演算処理能力が回復するように増加させることを特徴とする演算処理システム。
ある命令セットの命令を実行するために十分な複数のステージを含むパイプラインと、
前記パイプライン内に設けられ、前記命令セットの命令を実行する命令実行回路と、
従属関係検査回路と、
を備え、
前記従属関係検査回路は、
前記パイプラインの各ステージに対応付けられたひとつあるいは複数のレジスタであって、前記パイプラインにおいて実行される命令のオペランドの指定をストアするレジスタと、
次の命令のオペランドが、前記レジスタによって指定されたオペランドに従属するかを判定する論理回路と、
を含み、
前記命令実行回路および前記従属関係検査回路は、半導体製造プロセスにより許容される動作周波数よりも低い動作周波数で動作することを特徴とする装置。
請求項１７に記載の装置であって、
前記従属関係検査回路は、命令セットに含まれる命令を実行するのに要するクロック数の最大数以上の深度を有することを特徴とする装置。
請求項１７または１８に記載の装置であって、
前記従属関係検査回路は、ある命令のオペランドが前記パイプライン内の他の命令のオペランドに従属するかどうかを、１クロックサイクル以内に判定することを特徴とする装置。
請求項１７から１９のいずれかに記載の装置であって、さらに、
命令実行回路および従属関係検査回路を含むプロセッサを複数個備えることを特徴とする装置。
請求項２０に記載の装置であって、
前記プロセッサは、共通の半導体基板上に形成されることを特徴とする装置。
請求項２１に記載の装置であって、
前記プロセッサのそれぞれは、実行すべき命令をストアするローカルメモリをさらに含むことを特徴とする装置。
請求項２１または２２に記載の装置であって、
前記従属関係検査回路の前記レジスタおよび前記論理回路が、Ｙｎｍ半導体製造プロセスでは伝搬遅延によって、次の命令のオペランドが、前記レジスタによって指定されたオペランドに従属するかを１クロックサイクル内に判定することができず、Ｘｎｍ半導体製造プロセスにおいて改善された伝搬遅延は、１クロックサイクル以内での判定が可能である場合に、
前記プロセッサを、Ｙｎｍより進歩したＸｎｍの半導体製造プロセスを用いて製造したことを特徴とする装置。