JP2006190301A

JP2006190301A - 情報処理方法および装置

Info

Publication number: JP2006190301A
Application number: JP2006000923A
Authority: JP
Inventors: Takeshi Yamazaki; 剛山崎; Tsutomu Horikawa; 勉堀川; James A Kahle; ジェームズ・アラン・カーリー; Charles Ray Johns; チャールズ・レイ・ジョーンズ; Michael N Day; マイケル・ノルマン・デイ; Peter Ryuu Peichun; ペイチュン・ピーター・リュウ
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2005-01-05
Filing date: 2006-01-05
Publication date: 2006-07-20
Anticipated expiration: 2026-01-05
Also published as: TW200641624A; CN101099141A; DE602006007944D1; US7698473B2; EP1834245B1; WO2006073204A3; KR100938942B1; EP1834245A2; CN100524270C; WO2006073204A2; US20060149861A1; JP4346612B2; TWI352905B; KR20070098900A

Abstract

【課題】共有メモリとローカルメモリ間のデータ転送を効率良く行う。
【解決手段】プロセッサ１０２は、共有メモリ１０６と通信可能であり、ダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）１６０はローカルメモリ１０４と接続しうる。プロセッサ１０２からＤＭＡＣに発行された１つのＤＭＡコマンドに応じて、共有メモリ１０６とローカルメモリ１０４間において複数のデータブロックを転送する。
【選択図】図１

Description

本発明は、マルチプロセッサシステムにおけるデータ転送技術に関する。

リアルタイムのマルチメディアアプリケーションはますます重要になっている。これらのアプリケーションは、毎秒何千メガビットものデータ処理という非常に高速な処理を必要とする。高速処理速度を達成するのに単一プロセッサを用いる処理システムもあるが、マルチプロセッサアーキテクチャを利用して実装されるシステムもある。マルチプロセッサシステムでは、複数のサブプロセッサが、所望の処理結果を達成するために並列で(または少なくとも協調して)動作する。

最先端のコンピュータアプリケーションがますます複雑になり、処理システムに対する需要は絶えず増大しているため、近年、より速いコンピュータによる処理データスループットについて強い要望がある。そうした中、特にグラフィックスアプリケーションは、望ましい視覚結果を実現するために、比較的短い時間内で膨大な数のデータアクセス、データ計算、およびデータ操作を必要とし、処理システムに対する需要は最も高い。

一部の処理システムにおいて、ダイレクト・メモリ・アクセス（ＤＭＡ）技術が用いられる。このコンピュータアーキテクチャによれば、データ転送において、プロセッサを使用せずに、デバイスとメモリ間でデータを直接転送することができる。通常、このアーキテクチャは、データの転送を行わせるデータ転送コマンドを、システムのデバイスから受信するメモリコントローラを必要とする。従来のＤＭＡコマンドは、データブロックのサイズ、データの転送先または転送元となるシステムメモリ内の開始仮想アドレス、データ転送先または転送元となるデバイスの開始アドレスなどを指定することができる。非ダイレクトメモリアクセス技術と比較すると、従来のＤＭＡ技術は処理速度を速くすることができるが、制限もある。たとえば、マルチプロセッサシステムを用いたグラフィック処理のようなコンピュータアプリケーションの場合、所望の結果を達成するために、一つまたは複数のサブプロセッサから、多数のＤＭＡ転送が必要とされることはある。これについて、従来のアプローチでは、すべてのデータ転送を実現するための多数のＤＭＡコマンドを発行する特定のサブプロセッサが必要とされる。これでは、プロセッサに負担がかかり、処理能力の低下を招く。

本発明は上記事情に鑑みてなされたものであり、その目的は、データ転送において有利な技術を提供することにある。

本発明の１つまたは複数の態様は、改良されたＤＭＡ技術を提供する。この技術は、処理システムにおいて、多数のＤＭＡコマンドを発行することに起因する処理能力の不利なロスを軽減する。

本発明のある態様は、情報処理装置に関する。この装置は、動作時に共有メモリと通信可能であり、かつ命令の実行のためのローカルメモリを備えるプロセッサと、プロセッサのローカルメモリと接続されており、プロセッサにより発行された１つのＤＭＡコマンドに応じて、共有メモリとローカルメモリ間の複数のデータブロックの転送を円滑にするダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）とを有する。

プロセッサは、好適には、ローカルメモリ内において複数のエントリを含むリストを構築可能である。それぞれのエントリは、少なくとも、転送されるデータブロックの開始アドレスとサイズとを有する。ＤＭＡコマンドは、リストにおける少なくとも１つのエントリを指定できることが望ましい。ＤＭＡＣは、リスト内のこの少なくとも一つのエントリ内に定義された開始アドレスとサイズを用いて、データブロックの特定、および共有メモリとローカルメモリ間の該データブロックの転送が可能であってもよい。

好適には、ＤＭＡＣがリスト内の一つのエントリを用いて、リスト内の別のエントリを特定することができるように、リスト内の各エントリは関連づけられている。リスト内のエントリは、エントリ間で関連づけられるための、前方ポインタと後方ポインタのうちの少なくとも一つを有する。

ＤＭＡコマンドは、複数のデータブロックが共有メモリからプロセッサのローカルメモリにコピーされることを指定するのに適用されてもよい。また、ＤＭＡコマンドは、複数のデータブロックが共有メモリの非連続領域から、プロセッサのローカルメモリの連続領域にコピーされることを指定するのに適用されてもよい。また、ＤＭＡＣは、ＤＭＡコマンドに応じて、共有メモリの非連続領域から、プロセッサのローカルメモリの連続領域に複数のデータブロックをコピーするように適用されてもよい。

ＤＭＡコマンドは、複数のデータブロックがプロセッサのローカルメモリから共有メモリにコピーされることを指定するのに適用されてもよい。また、ＤＭＡコマンドは、複数のデータブロックがプロセッサのローカルメモリの連続領域から共有メモリの非連続領域にコピーされることを指定するのに適用されてもよい。また、ＤＭＡＣは、ＤＭＡコマンドに応じて、プロセッサのローカルメモリの連続領域から、共有メモリの非連続領域に複数のデータブロックをコピーするように適用されてもよい。

本発明の別の態様も、情報処理装置に関する。この装置は、動作時に共有メモリと通信可能な、複数の並列的なプロセッサを備える。各プロセッサは、命令の実行のためのローカルメモリと、プロセッサのローカルメモリと接続されたダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）とを備える。一つのメインプロセッサは、動作時にこれらの各プロセッサと接続されるとともに、共有メモリとも接続でき、これらのプロセッサを管理することができる。各プロセッサのＤＭＡＣは、プロセッサにより発行された１つのＤＭＡコマンドに応じて、共有メモリとローカルメモリ間の複数のデータブロックの転送を円滑にすることが可能である。

本発明の別の態様は、情報処理方法に関する。この方法は、プロセッサによってダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）に発行された１つのＤＭＡコマンドに応じて、共有メモリと、プロセッサのローカルメモリ間で複数のデータブロックを転送する手順を有し、プロセッサは、動作時に共有メモリと通信可能であり、ＤＭＡＣは、動作時にローカルメモリと接続可能である。

この方法は、ローカルメモリ内において、複数のエントリを含むリストを構築する手順をさらに有してもよく、それぞれのエントリは、転送されるデータブロックの開始アドレスとサイズとを含む。また、この方法は、ＤＭＡコマンドにより指定された、リスト内の少なくとも一つのエントリの開始アドレスとサイズを用いて、対応する、転送されるデータブロックを特定する手順と、このデータブロックを共有メモリとローカルメモリ間で転送する手順とをさらに有してもよい。

また、この方法は、リスト内の一つのエントリを用いて、リスト内の他のエントリを特定することができるように、リスト内のエントリを関連づける手順をさらに有することが好ましい。リスト内のエントリは、エントリ間で関連づけられるための、前方ポインタと後方ポインタのうちの少なくとも一つを有するようにしてもよい。

本発明の別の態様は、ソフトウェアプログラムを記憶した記憶媒体に関する。このプログラムは、プロセッサからＤＭＡＣに発行した１つのＤＭＡコマンドに応じて、共有メモリと、このプロセッサのローカルメモリ間で複数のデータブロックを転送する手順を含む処理をコンピュータに実行せしめる。このプロセッサは、動作時に共有メモリと通信可能であり、ＤＭＡＣはローカルメモリと接続可能である。

本発明の上記以外の態様、特徴、および利点は、添付図面とともに以下の詳細な説明により当業者には明確に理解される。

なお、以上の構成要素の任意の組合せ、本発明を装置、システム、プログラム、プログラムを記憶した記憶媒体として表現したものも、本発明の態様としては有効である。

本発明は、マルチプロセッサシステムにおけるデータ転送において有利である。

現在のところ好適である図面を例示として添付するが、本発明は図面と同一の構成および手段に限定するものではない。

以下、図面を参照するが、図中、同一符号は同一要素を示す。図１は、本発明の１つまたは複数の特徴を実現可能なシステム１００を示す。簡潔かつ明確に説明するために、図１のブロック図を、ここで装置１００を示しているように参照しながら説明する。なお、下記の説明は、同じ作用を有する方法のさまざまな形態に適用することが理解されるところである。

装置１００は、プロセッサ１０２と、ローカルメモリ１０４と、共有メモリ（システムメモリまたはメインメモリともいう）１０６（たとえばＤＲＡＭ）と、バス１０８を備える。システム１００は、デバイス１や、デバイス２のような、バス１０８を介して共有メモリ１０６を使用可能な他のデバイスを備えてもよい。

プロセッサ１０２は、システムメモリ１０６からデータをリクエストができるとともに、データを操作して所望の目的を達成することができれば、従来知られているいかなる技術により実装されてもよい。たとえば、プロセッサ１０２は、標準なマイクロプロセッサや、分散型マイクロプロセッサなどを含んだ、ソフトウェアおよび／またはファームウェアを実行することができるいかなるマイクロプロセッサを用いて実装されてもよい。具体的な一例としては、プロセッサ１０２は、グレースケール情報、カラー情報、テクスチャーデータ、ポリゴナル（ｐｏｌｙｇｏｎａｌ）情報、ビデオフレーム情報などを含むピクセルデータのようなデータをリクエストするとともに、操作することができるグラフィックプロセッサであってもよい。

また、ローカルメモリ１０４はプロセッサ１０２と同じチップに設けられている。ローカルメモリ１０４は、従来のハードウェアキャッシュメモリではないことが望ましく、ローカルメモリ１０４には、ハードウェアキャッシュメモリ機能を実現するための、チップ内蔵またはチップ外に置かれたハードウェアキャッシュ回路、キャッシュレジスタ、キャッシュメモリコントローラなどが無い。チップ上の実装面積が限られているので、ローカルメモリ１０４のサイズは、システムメモリ１０６のサイズより遥かに小さい。プロセッサ１０２は、プログラムの実行とデータの操作のために、バス１０８を介してシステムメモリ１０６からローカルメモリ１０４にデータ（プログラムデータを含む）をコピーするためのデータアクセスのリクエストを提供することが好ましい。データアクセスを手助けするメカニズムは、ダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）１６０によって実現される。ＤＭＡＣ１６０は、プロセッサ１０２および／またはローカルメモリ１０４と一体化されてもよいし、別体に設けられてもよい。

図１〜３を参照する。ＤＭＡＣ１６０は、プロセッサ１０２が発行した１つのＤＭＡコマンドに応じて、共有メモリ１０６とローカルメモリ１０４間で多数のデータブロックの転送を円滑にするように動作可能であることが好ましい。このために、プロセッサ１０２は、ローカルメモリ１０４において少なくとも１つのリスト１２０（複数のリスト、たとえば１２０Ａ、１２０Ｂ、１２０Ｃなどであってもよい）を構築するように動作可能であることが好ましい。各リストは、複数のエントリ１２２Ａ−Ｎを有し、各エントリは、転送されるデータブロックの開始アドレスとサイズを少なくとも含む。リスト内において、開始アドレスとサイズを含む各エントリは、ローカルメモリ１０４または共有メモリ１０６内の１つのデータブロックに対応するか、このデータブロックを定義する。このアドレスは、共有メモリ１０６の物理アドレスに変換することを必要とする仮想アドレスでありうる。

ＤＭＡコマンドは、リスト１２０Ａ内の一つのエントリ１２２Ａのようなエントリを少なくとも一つを指定しうる。これによって、ＤＭＡコマンドの発行（ステップ３０４）によって、ＤＭＡＣ１６０は、このようなエントリ１２２Ａにアクセスするとともに、データブロックの転送を開始するが可能となる。それに応じて、ＤＭＡＣ１６０は、エントリ１２２Ａ内に設定された開始アドレスおよびサイズを用いて、転送するための対応するデータブロックを特定するとともに、このデータブロックを、共有メモリ１０６とローカルメモリ１０４間で転送する（ステップ３０６）ように動作可能であることが好ましい。

リスト１２０に定義されたすべてのブロックの転送を完了するために、ＤＭＡＣ１６０がリスト内の一つのエントリを用いてリスト内の別のエントリを特定することができるように、リスト内の各エントリ１２２は、関連づけられていることが好ましい。たとえば、リスト１２０Ａにおけるエントリ１２２Ａに対応するデータブロックの転送後、ＤＭＡＣ１６０は、エントリ１２２Ａ内の他の情報にアクセスして、リスト１２０Ａにおける次のエントリ１２２Ｂを見出すようにしてもよい。一例として、リスト１２０内の各エントリ１２２はそれぞれ前方ポインタを有し、この前方ポインタによって、リスト１２０内の他の他の一つのエントリ１２２と関連づけられる。したがって、上記の目的を達成するために、リスト１２０Ａの第１のエントリ１２２Ａは、リスト１２０Ａ内の第２のエントリ１２２Ｂが対応する、ローカルメモリ１０４における位置を示すポインタを含むようにしてしてもよい。同じように、リスト１２０Ａの第２のエントリ１２２Ｂは、リスト１２０Ａの第３のエントリ１２２Ｃを示す前ＤＭＡＣ１６０がリスト１２０内の各エントリ１２２にアクセスできるように方ポインタを含むようにしてもよい。このようなプロセスは繰り返されることによって、ＤＭＡＣ１６０がリスト１２０内の各エントリ１２２にアクセスできるように、リスト１２０内の各エントリ１２２は関連づけられる。他の態様として、各エントリは、後方ポインタか、前方ポインタと後方ポインタの両方を含むことによってエントリ１２２間の所望する関連づけを実現するようにしてもよい。

また、他の態様として、ＤＭＡコマンドは、共有メモリ１０６からプロセッサ１０２のローカルメモリ１０４にコピーされる複数のデータブロックを指定することに用いられるようにしてもよい。好適には、ＤＭＡコマンドは、これらの複数のデータブロックを共有メモリ１０６の非連続領域から、プロセッサ１０２のローカルメモリ１０４の連続領域にコピーするように指定することに用いられる。さらに、ＤＭＡＣ１６０は、ＤＭＡコマンドへの依存を必要とせずに、共有メモリ１０６の非連続領域から、ローカルメモリ１０４の連続領域にコピーするようにしてもよい。

また好適には、ＤＭＡコマンドを、プロセッサ１０２のローカルメモリ１０４から共有メモリ１０６へコピーする複数のデータブロックを指定することに適用する。ＤＭＡコマンドは、データ転送が、ローカルメモリ１０４の連続領域から共有メモリ１０６の非連続領域にコピーすることによって実現されるように指定することに適用されてもよい。さらに、ＤＭＡＣ１６０は、ＤＭＡコマンドへの依存を必要とせずに、ローカルメモリ１０４の連続領域から、共有メモリ１０６の非連続領域へのデータ転送を実現するようにしてもよい。

図４は、本発明の１つまたは複数の態様を適用したマルチプロセッサシステム１００Ａを示す。システム１００Ａは、複数のプロセッサ１０２Ａ〜Ｄと、関連するローカルメモリ１０４Ａ〜Ｄと、バス１０８を介して内部的に接続された共有メモリ１０６を備える。以下の説明において、共有メモリ１０６を、メインメモリまたはシステムメモリともいう。図示の例では、プロセッサ１０２が４つしかないが、本発明の趣旨から逸脱しないかぎり、いかなる数のプロセッサを用いてもよい。各プロセッサ１０２の構造は、同じであってもよいし、異なってもよい。

ローカルメモリ１０４は、それぞれのプロセッサ１０２と同じチップ（同じ半導体基板）上に配置されることが好ましい。これらのローカルメモリ１０４は、従来のハードウェアキャッシュメモリではなく、それらには、ハードウェアキャッシュメモリの機能を実現するための、オン・チップまたはオフ・チップのハードウェアキャッシュ回路や、キャッシュレジスタや、キャッシュメモリコントローラなどが含まれないことが好ましい。

プロセッサ１０２は、プログラムの実行およびデータの処理のために、バス１０８を介してシステムメモリ１０６から、自身のローカルメモリ１０４にデータ（プログラムデータを含んでもよい）をコピーするデータアクセスリクエストを提供することが好ましい。データアクセスを促進するメカニズムは、図示しないダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）を用いることによって実装されることが好ましい。各プロセッサのＤＭＡＣは、本発明の別の特徴について前述した機能と同じ機能を有することが好ましい。

システムメモリ１０６は、広帯域幅のメモリ接続（図示せず）によってプロセッサ１０２と接続されたダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）であることが好ましい。ここで、システムメモリ１０６は、ＤＲＡＭであることが好ましいが、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）や、磁気ランダム・アクセス・メモリ（ＭＲＡＭ）や、光学メモリ、ホログラフィックメモリなどの他の方法を用いるメモリであってもよい。

各プロセッサ１０２は、論理命令がパイプライン方式で処理される処理パイプラインを用いて実装されることが好ましい。パイプラインは、任意の数の、命令が処理されるステージに分けられることができるが、通常、パイプラインは、１つまたは複数の命令のフェッチ、命令のデコード、命令間の従属関係のチェック、命令の発行、命令の実行を含む。これに関連して、プロセッサ１０２は、命令バッファと、命令デコード回路、従属関係チェック回路、命令発行回路、実行ステージを含むようにすることができる。

各プロセッサ１０２のＤＭＡＣは、いずれかのプロセッサ１０２により発行された１つのＤＭＡコマンドに応じて、１つまたは複数のローカルメモリ１０４と共有メモリ１０６間の複数のデータブロックの転送を促進するように動作可能であることが好ましい。これを実現するために、プロセッサ１０２、ローカルメモリ１０４、ＤＭＡＣなどは、図１〜３を参照して上述した機能性と実質的に同じ機能性を備えることが好ましい。たとえば、各プロセッサ１０２は、自身のローカルメモリ１０４において１つまたは複数のリストを設け、ＤＭＡコマンドは、少なくとも１つのエントリたとえばリスト１２０内のエントリ１２２Ａを指定し、ＤＭＡＣは、このようなエントリ１２２Ａにアクセスするとともに、エントリ１２２Ａに対して指定された開始アドレスとサイズを用いて転送されるデータブロックを特定し、その転送を開始する。

また、複数のデータブロックは、共有メモリ１０６からいずれか１つまたは複数のプロセッサ１０２のローカルメモリ１０４にコピーされてもよいし、いずれか１つまたは複数のプロセッサ１０２のローカルメモリ１０４から共有メモリ１０６にコピーされてもよい。これらのデータブロックの転送は、共有メモリ１０６の非連続領域から、プロセッサ１０２のローカルメモリ１０４の連続領域にコピーするようにされてもよい。また、この転送は、ローカルメモリ１０４の連続領域から、共有メモリ１０６の非連続領域にコピーするするようにされてもよい。

別の態様として、プロセッサ１０２と、ローカルメモリ１０４と、ＤＭＡＣ１６０は、同じ半導体基板上に設けられてもよい。さらに、共有メモリ１０６は、この半導体基板上に設けられてもよいし、別に設けられてもよい。

また別の態様として、１つまたは複数のプロセッサ１０２は、動作時に他のプロセッサ１０２と接続できるとともに、バス１０８を介して共有メモリ１０６と接続可能なメインプロセッサとして動作してもよい。メインプロセッサは、他のプロセッサ１０２によりデータに対して行われる処理のスケジューリングおよび統合を行ってもよい。他のプロセッサ１０２と異なり、メインプロセッサは、共有メモリ１０６と、１つまたは複数の、プロセッサ１０２のローカルメモリとのうちの少なくとも一方から得られたデータをキャッシュすることができるハードウェアキャッシュメモリと接続されてもよい。また、メインプロセッサは、ＤＭＡ技術のような既知のいかなる技術を用いたプログラムの実行およびデータの操作のために、バス１０８を介してシステムメモリ１０６からキャッシュメモリへデータ（プログラムデータを含む）をコピーするデータアクセスリクエストを提供してもよい。

ここで、上述した１つ以上の特徴の実現に適した、好適なマルチプロセッサシステムのコンピュータアーキテクチャについて説明する。１つ以上の実施形態によれば、マルチプロセッサシステムは、ゲームシステムや、ホームターミナルや、ＰＣシステムや、サーバシステムや、ワークステーションなどの豊富なメディアを有するアプリケーションのスタンドアロン型処理および／または分散型処理のためのシングルチップソリューションとして実装できる。一部のアプリケーション、例えば、アプリーケーションがゲームシステムおよびホームターミナルである場合、リアルタイムの演算が必要である。例えば、リアルタイムの分散型ゲームアプリケーションにおいて、ネットワークを経由した画像復元、３Ｄコンピューターグラフィック、音声生成、ネットワーク通信、物理シミュレーション、人工知能計算のうち１つ以上は、ユーザにリアルタイムの感覚を体験させるために十分の速さで実行されなければならない。したがって、マルチプロセッサシステムにおける各プロセッサは、短く、かつ予測可能な時間内でタスクを終了させなければならない。

この目的を達成するために、このコンピュータアーキテクチャによれば、マルチプロセッサのコンピュータシステムのすべてのプロセッサは、共通のコンピュータモジュール（またはセル）から構成される。この共通のコンピュータモジュールは、共通の構成を有し、同一の命令セットアーキテクチャを用いるのが好ましい。マルチプロセッサのコンピュータシステムは、コンピュータプロセッサを用いて、１以上のクライアント、サーバ、ＰＣ、携帯端末、ゲーム機、ＰＤＡ、セットトップボックス、アプリケーション、デジタルテレビおよび他のデバイスから構成されうる。

必要に応じて、複数のコンピュータシステムをそれぞれネットワークのメンバとしてもよい。一貫性のあるモジュール構造により、マルチプロセッサコンピュータシステムによってアプリケーションおよびデータの効率的な高速処理が可能となり、かつネットワークを利用すれば、ネットワークを介してアプリケーションおよびデータの迅速な伝送ができる。またこの構造により、様々なサイズおよび処理能力をもつネットワークメンバの形成、ならびにこれらメンバによって処理されるアプリケーションの準備を簡略化できる。

図５は、基本的な処理モジュールであるプロセッサ要素（ＰＥ）５００を示す。ＰＥ５００は、Ｉ／Ｏインターフェイス５０２と、処理ユニット（ＰＵ）５０４と、複数のサブ処理ユニット５０８、すなわち、サブ処理ユニット５０８Ａと、サブ処理ユニット５０８Ｂと、サブ処理ユニット５０８Ｃと、サブ処理ユニット５０８Ｄとを含む。ローカル（すなわち内部）ＰＥバス５１２は、ＰＵ５０４、ＳＰＵ群５０８、およびメモリインターフェイス５１１間のデータおよびアプリケーションの伝送を行う。ローカルＰＥバス５１２は、例えば従来構成でもよいし、またはパケットスイッチネットワークとして実装することもできる。パケットスイッチネットワークとして実装するとより多くのハードウェアが必要になるが、利用可能な帯域が広がる。

ＰＥ５００はディジタルロジック回路を実装する各種方法を利用して構成できる。ただし好適には、ＰＥ５００はシリコン基板上の相補的金属酸化膜半導体（ＣＭＯＳ）を用いる１つの集積回路として構成される。基板の他の材料には、ガリウム砒素、ガリウムアルミニウム砒素、および広範な種類の不純物を用いた他のいわゆるＩＩＩ−Ｂ族化合物が含まれる。ＰＥ５００はまた、超伝導材料を用いて高速単一磁束量子（ＲＳＦＱ）ロジック回路等として実装することもできる。

ＰＥ５００は、広帯域メモリ接続５１６を介して共有メモリ（メインメモリ）５１４に密接に関連付けられる。メモリ５１４は好適にはダイナミックランダムアクセスメモリ（ＤＲＡＭ）であるが、スタティックランダムアクセスメモリ（ＳＲＡＭ）、磁気ランダムアクセスメモリ（ＭＲＡＭ）、光学メモリ、またはホログラフィックメモリ等の他の手段を用いて実装してもよい。

ＰＵ５０４およびサブ処理ユニット５０８は、それぞれ、ダイレクトメモリアクセス（ＤＭＡ）機能を有するメモリフローコントローラ（ＭＦＣ）と接続されることが望ましい。ＭＦＣは、メモリインターフェイス５１１と協働して、ＤＲＡＭ５１４、ＰＥ５００におけるサブ処理ユニット５０８、ＰＵ５０４間のデータの転送を円滑にするものである。ここで、ＤＭＡＣおよび／またはメモリインターフェイス５１１は、サブ処理ユニット５０８とＰＵ５０４とから独立して設置されるようにしてもよいし、一体化されるようにしてもよい。実際に、ＤＡＭＣの機能および／またはメモリインターフェイス５１１の機能は、サブ処理ユニット５０８およびＰＵ５０４の１つ以上（好ましくはすべて）に一体化できる。ここで、ＤＲＡＭ５１４もまた、ＰＥ５００から独立して設置されるようにしてもよいし、一体化されるようにしてもよい。例えば、ＤＲＡＭ５１４は図に示すようにチップ外部に設けられるようにしてもよく、集積方式でチップ内蔵されるようにしてもよい。

ＰＵ５０４は、例えばスタンドアロン式のデータおよびアプリケーション処理が可能な標準的なプロセッサでもよい。動作時には、ＰＵ５０４はサブ処理ユニット群によるデータおよびアプリケーションの処理のスケジューリングおよび調整を行う。サブ処理ユニット群は、好適には、一命令複数データ（ＳＩＭＤ）プロセッサである。ＰＵ５０４の制御下で、サブ処理ユニット群はデータおよびアプリケーションの処理を並列に、かつ独立して行う。ＰＵ５０４としては、ＲＩＳＣ（ｒｅｄｕｃｅｄｉｎｓｔｒｕｃｔｉｏｎ−ｓｅｔｃｏｍｐｕｔｉｎｇ）技術を用いるマイクロプロセッサアーキテクチャとなるＰｏｗｅｒＰＣ（登録商標）コアを用いることが好ましい。ＲＩＳＣは単純な命令の組み合わせによって比較的複雑な命令を実行するものである。したがって、プロセッサのタイミングは、比較的簡単かつ速いオペレーションに基づきうる。これは、決められたクロック速度においてより多くの命令を実行することを可能とする。

ここで、ＰＵ５０４は、サブ処理ユニット５０８のうちの１つとして実装されてもよい。この場合、このサブ処理ユニット５０８は、メイン処理ユニットＰＵによる処理、すなわち各々のサブ処理ユニット５０８によるデータとアプリケーションの処理のスケジューリングと統合処理を行うものとすればよい。さらに、ＰＥ５００内において、複数のＰＵを実装してもよい。

このモジュール構造では、あるコンピュータシステムで使用されるＰＥ５００の数は、そのシステムが必要とする処理能力に基づく。例えば、サーバは４つのＰＥ群５００、ワークステーションは二つのＰＥ群５００、ＰＤＡは１つのＰＥ５００を使用しうる。あるソフトウェアセルの処理に割り当てられるＰＥ５００のサブ処理ユニットの数は、セル内のプログラムおよびデータの複雑さおよび規模によって異なる。

図６は、サブ処理ユニット（ＳＰＵ）５０８の好適な構造と機能を示す図である。サブ処理ユニット５０８のアーキテクチャは、汎用プロセッサ（多数のアプリケーションにおいて高い平均性能を実現するように設計されているもの）と特殊用途のプロセッサ（１つのアプリケーションにおいて高い性能を実現するように設計されている）との間に位置するものであることが望ましい。サブ処理ユニット５０８は、ゲームアプリケーション、メディアアプリケーション、ブロードバンドシステムなどにおいて高い性能を実現すると共に、リアルタイムアプリケーションのプログラマに高度な制御自由度を提供するように設計されている。サブ処理ユニット５０８の一部の機能として、グラフィック構造パイプライン、サーフェス分割、高速フーリエ変換、画像処理キーワード、ストリーム処理、ＭＰＥＧエンコード／デコード、暗号化、復号化、デバイスドライバー拡張、モデリング、ゲームフィジクス、コンテンツ制作、音声合成および音声処理などを挙げることができる。

サブ処理ユニット５０８は、すなわちＳＰＵコア５１０Ａとメモリフローコントローラ（ＭＦＣ）５１０Ｂという二つの基本機能ユニットを有する。ＳＰＵコア５１０Ａは、プログラムの実行、データの操作などを担うものであり、一方、ＭＦＣ５１０Ｂは、ＳＰＵコア５１０Ａと、システムのＤＲＡＭ５１４との間のデータ転送に関連する機能を担うものである。

ＳＰＵコア５１０Ａはローカルメモリ５５０と、命令（インストラクション）ユニット（ＩＵ）５５２と、レジスタ５５４と、１つ以上の浮動小数点実行ステージ５５６と、１つ以上の固定小数点実行ステージ５５８とを有する。ローカルメモリ５５０は、ＳＲＡＭのようなシングルポートのＲＡＭを用いて実装されることが望ましい。メモリへのアクセスのレイテンシを軽減するために、従来のほとんどのプロセッサはキャッシュを用いるが、ＳＰＵコア５１０Ａは、キャッシュよりも、比較的小さいローカルメモリ５５０を用いる。実際には、リアルタイムのアプリケーション（およびここで言及したほかのアプリケーション）のプログラマに、予測可能で、かつ一致したメモリアクセスのレイテンシを提供するために、サブ処理ユニット５０８Ａ内においてキャッシュメモリアーキテクチャを用いることは好ましくない。キャッシュメモリのキャッシュヒット／ミス値は、数サイクルから数百サイクルの範囲内で変化する、予測困難な、メモリアクセス回数を生じさせる。このようなメモリアクセスの回数の予測困難性は、例えばリアルタイムアプリケーションのプログラミングに望まれるアクセスタイミングの予測可能性を下げる。データ演算を伴うＤＭＡ転送をオーバーラップすることで、ローカルメモリＳＲＡＭ５５０内のレイテンシを補うことができる。これはリアルタイムアプリケーションのプログラミングに高い制御自由度を提供する。ＤＭＡ転送と関連するレイテンシおよび命令のオーバーヘッドが、キャッシュミスにより生じたレイテンシより長いため、ＳＲＡＭローカルメモリアプローチは、ＤＭＡ転送サイズが十分大きいかつ十分予測可能なとき（例えばデータが要求される前にＤＭＡコマンドを発行することができるとき）において優位性を提供する。

サブ処理ユニット５０８のうちのいずれか１つの上で実行されるプログラムは、ローカルアドレスを用いて、関連するローカルメモリ５５０を参照する。なお、ローカルメモリ５５０の各場所にはシステムの全体のメモリマップ上におけるリアルアドレス（ＲＡ）が付与されている。これは、特権レベルのソフトウェアがローカルメモリ５５０を１つの処理における実効アドレス（ＥＡ）にマッピングすることを可能とし、それによって二つのローカルメモリ５５０間のＤＭＡ転送が容易になる。ＰＵ５０４は、実効アドレスを用いてローカルメモリ５５０に直接アクセスすることもできる。ローカルメモリ５５０は、２５６キロバイトの容量を有し、レジスタ５５４の容量は１２８×１２８ビットであることが望ましい。

ＳＰＵコア５１０Ａは、演算パイプラインを用いて実装されることが望ましく、その中において論理命令がパイプライン方式で処理される。パイプラインは、命令を処理する任意の数のステージに分けることができるが、通常、パイプラインは、１つ以上の命令のフェッチ、命令のデコード、命令間の従属関係のチェック、命令の発行、および命令の実行から構成される。これに関連して、命令ユニット５５２は、命令バッファと、命令デコード回路と、従属関係チェック回路と、命令発行回路とを含む。

命令バッファは、ローカルメモリ５５０と接続されており、命令がフェッチされたときにこれらの命令を一時的に格納することができる複数のレジスタを有することが好ましい。命令バッファは、すべての命令が１つのグループとして（すなわち実質上同時に）レジスタから出力されるように動作することが好ましい。命令バッファはいかなるサイズであってもよいが、レジスタの数がおよそ２または３以下となるようにするサイズであることが好ましい。

通常、デコード回路は命令を細分化すると共に、対応する命令の機能を果たす論理・マイクロオペレーションを発生させる。例えば、論理・マイクロペレーションは、計算オペレーションと論理オペレーションの指定、ローカルメモリ５５０へのロードオペレーションとストアオペレーションの指定、レジスタソースオペランドおよび／または即値データオペランドの指定などを行うことができる。デコード回路は、ターゲットのレジスタのアドレスや、構造リソースや、機能ユニットおよび／またはバスなどのような、命令が用いるリソースを指定してもよい。デコード回路は、リソースが必要とされる命令パイプラインのステージを示す情報を提供してもよい。命令デコード回路は、実質上同時に、命令バッファのレジスタの数と同じ数の命令をデコードするように動作可能であることが好ましい。

従属関係チェック回路は、チェック対象となる命令のオペランドがパイプラン内の他の命令のオペランドに従属するか否かを判定するためのチェックを行うデジタルロジックを含む。従属するならば、チェック対象となる命令は、これらの他のオペランドが（例えば、これらの他の命令の実行の完了を許可することによって）更新されるまで、実行されるべきではない。従属関係チェック回路は、デコード回路から同時に送信されてきた複数の命令の従属関係を判定することが好ましい。

命令発行回路は、浮動小数点実行ステージ５５６および／または固定小数点実行ステージ５５８に命令を発行することができる。

レジスタ５５４は、１２８―エントリレジスタファイルのような、比較的大きな統合レジスタファイルとして実装されることが好ましい。これは、レジスタ不足を回避するためのレジスタのリネームを必要とせずに、深くパイプライン化された高周波数の実行を可能とする。ハードウェアのリネームは、一般的に処理システムにおける実装面積と電力の高い割合を消費する。したがって、ソフトウェアによるループアンローリングまたは他のインターリーブ技術によってレイテンシがカバーされるような場合において、優位性のあるオペレーションを実現できる。

ＳＰＵコア５１０Ａは、クロックサイクル毎に複数の命令を発行するようなスーパースカラアーキテクチャで実装されることが好ましい。ＳＰＵコア５１０Ａは、命令バッファから同時に送信される命令の数、例えば２と３の間（クロックサイクル毎に二つまたは３つの命令が発行されることを意味する）に対応する程度のスーパースカラとして動作可能であることが好ましい。必要とされる処理能力に応じた多少なりの数の浮動小数点実行ステージ５５６と固定小数点実行ステージ５５８を用いることができる。好適な実施の形態では、浮動小数点実行ステージ５５６と固定小数点実行ステージ５５８の望ましいスピードは、それぞれ、毎秒３２ギガ浮動小数点オペレーション（３２ＧＦＬＯＰＳ）と毎秒３２ギガオペレーション（３２ＧＯＰＳ）である。

ＭＦＣ５１０Ｂは、バスインターフェースユニット（ＢＩＵ）５６４と、メモリマネジメントユニット（ＭＭＵ）５６２と、ダイレクトメモリアクセスコントローラ（ＤＭＡＣ）５６０とを有することが望ましい。低電力消費の設計目的を達成するために、ＭＦＣ５１０Ｂは、ＤＭＡＣ５６０を除いて、ＳＰＵコア５１０Ａおよびバス５１２の半分の周波数（半分のスピード）で動作することが好ましい。ＭＦＣ５１０Ｂは、バス５１２からサブ処理ユニット５０８に入るデータと命令を操作することができ、ＤＭＡＣのためのアドレス変換と、データ一貫性のためのスヌープオペレーションとを提供する。ＢＩＵ５６４は、バス５１２とＭＭＵ５６２とＤＭＡＣ５６０との間のインターフェースを提供する。したがって、サブ処理ユニット５０８（ＳＰＵコア５１０ＡとＭＦＣ５１０Ｂを含む）とＤＭＡＣ５６０は、物理的および／または論理的にバス５１２と接続されている。

ＭＭＵ５６２は、メモリアクセスのために実効アドレス（ＤＭＡコマンドから取得される）をリアルアドレスへ変換することができるようにすることが望ましい。例えば、ＭＭＵ５６２は、実効アドレスの比較的高いオーダのビットをリアルアドレスのビットに変換できる。なお、比較的低いオーダアドレスビットについては、変換不可であると共に、物理的におよび論理的にリアルアドレスの形成およびメモリへのアクセスのリクエストに用いられるようにすることが好ましい。具体的には、ＭＭＵ５６２は、６４ビットのメモリマネジメントモジュールをベースにして実装でき、４Ｋバイト、６４Ｋバイト、１メガバイト、１６メガバイトのページサイズと２５６ＭＢのセグメントサイズを有する２^６４のバイトの実効アドレス空間を提供することができる。ＭＭＵ５６２は、ＤＭＡコマンドのために、２^６５までの仮想メモリと、２^４２バイト（４テラバイト）の物理メモリをサポート可能であることが好ましい。ＭＭＵ５６２のハードウェアは、８−エントリの完全連想ＳＬＢ、２５６−エントリの４ウェイセット連想ＴＬＢ、ＴＬＢのための４×４代替マネジメントテーブル（ＲＭＴ）を含むものとすることができる。なお、ＲＭＴはハードウェアＴＬＢミスのハンドリングに用いられるものである。

ＤＭＡＣ５６０は、ＳＰＵコア５１０ＡからのＤＭＡコマンドと、１つ以上の、ＰＵ５０４および／または他のＳＰＵのような他のデバイスからのＤＭＡコマンドとを管理することができることが望ましい。ＤＭＡコマンドは下記の３つのカテゴリがある。すなわち、ローカルメモリ５５０から共有メモリ５１４へデータを移動させるＰｕｔコマンド、共有メモリ５１４からローカルメモリ５５０へデータを移動させるＧｅｔコマンド、ＳＬＩコマンドと同期コマンドとを含むストレージコントロールコマンドである。同期コマンドは、アトミックコマンド、送信コマンド、専用のバリアコマンドを含むものとすることができる。ＤＭＡコマンドに応じて、ＭＭＵ５６２は実効アドレスをリアルアドレスに変換し、このリアルアドレスはＢＩＵ５６４に転送される。

ＳＰＵコア５１０Ａはチャンネルインターフェースとデータインターフェースとを用いて、ＤＭＡＣ５６０内のインターフェースと通信（ＤＭＡコマンド、ステータスなどの送信）することが好ましい。ＳＰＵコア５１０Ａは、チャンネルインターフェースを介してＤＭＡコマンドをＤＭＡＣ５６０内のＤＭＡキューに送信する。いったん、ＤＭＡキューに格納されたＤＭＡコマンドは、ＤＭＡＣ５６０内の発行ロジックと完了ロジックにより操作される。１つのＤＭＡコマンドのためのすべてのバス・トランザクションが完了すると、チャンネルインターフェースを介して、１つの完了信号がＳＰＵコア５１０Ａに返送される。

図７は、ＰＵ５０４の好ましい構造と機能を示す図である。ＰＵ５０４は、ＰＵコア５０４Ａとメモリフローコントローラ、すなわちＭＦＣ５０４Ｂとの二つの基本機能ユニットを有する。ＰＵコア５０４Ａは、プログラムの実行、データの操作、マルチプロセッサ管理機能などを担うものであり、一方、ＭＦＣ５０４Ｂは、ＰＵコア５０４Ａと、システム１００のメモリ空間との間のデータ転送に関連する機能を担うものである。

ＰＵコア５０４Ａは、Ｌ１キャッシュ５７０と、命令ユニット５７２と、レジスタ５７４と、少なくとも１つの浮動小数点実行ステージ５７６と、少なくとも１つの固定小数点実行ステージ５７８とを有する。Ｌ１キャッシュ５７０は、共有メモリ１０６、プロセッサ１０２、あるいはＭＦＣ５０４Ｂにおけるほかの部分のメモリ空間から受信したデータのキャッシング機能を提供する。ＰＵコア５０４Ａはスーパーパイプラインとして実装されることが好ましいため、命令ユニット５７２は、フェッチ、デコード、従属関係のチェック、発行などを含む多数のステージを有する命令パイプラインとして実装されることが好ましい。ＰＵコア５０４Ａは、スーパースカラ構造を有することが好ましく、それによって、クロックサイクル毎に命令ユニット５７２から２以上の命令が発行される。高い演算パワーを実現するために、浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８は、パイプライン方式の多数のステージを有する。必要とされる処理能力に応じた多少なりの浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８とを用いることができる。

ＭＦＣ５０４Ｂは、バスインターフェースユニット（ＢＩＵ）５８０と、Ｌ２キャッシュ５８２と、キャッシュ不可ユニット（ＮＣＵ）５８４と、コアインターフェースユニット（ＣＩＵ）５８６と、メモリマネジメントユニット（ＭＭＵ）５８８とを有する。低電力消費の設計目的を達成するために、ＭＦＣ５０４Ｂのほとんどは、ＰＵコア５０４Ａとバス１０８の半分の周波数（半分のスピード）で動作することが好ましい。

ＢＩＵ５８０は、バス１０８と、Ｌ２キャッシュ５８２と、ＮＣＵ５８４のロジックブロックとの間のインターフェースを提供する。ＢＩＵ５８０は、完全一致のメモリオペレーションを実行するために、マスターデバイスとして動作してもよく、バス１０８上のスレーブデバイスとして動作してもよい。マスターデバイスとして動作する場合、ＢＩＵ５８０は、Ｌ２キャッシュ５８２とＮＣＵ５８４の代わりに、バス１０８へのロードリクエストとストアリクエストを発信する。ＢＩＵ５８０は、バス１０８へ送ることができるコマンドの総数を限定するコマンドのフローコントロールメカニズムを実装してもよい。バス１０８上のデータオペレーションは、８ビートになるように設計されることができ、そして、ＢＩＵ５８０は、キャッシュラインが１２８バイト前後であり、一貫性と同期の精度が１２８ＫＢであるように設計されることが好ましい。

Ｌ２キャッシュ５８２（およびそれをサポートするハードウェアロジック）は、５１２ＫＢデータをキャッシュするように設計されることが好ましい。例えば、Ｌ２キャッシュ５８２は、キャッシュ可能なロードとストア、データのプリフェッチ、命令フェッチ、命令のプリフェッチ、キャッシュオペレーション、バリアオペレーションを操作できる。Ｌ２キャッシュ５８２は、８ウエイセットアソシエイティブシステムであることが好ましい。Ｌ２キャッシュ５８２は、６つのキャストアウトキュー（例えば６つのＲＣマシン）に合わせた６つのリロードキューと、８つの（６４バイトの幅の）ストアキューとを有することができる。Ｌ２キャッシュ５８２は、Ｌ１キャッシュ５７０の中の一部または全てのデータのバックアップコピーを提供するように動作してもよい。これは特に、処理ノードがホットスワップ（動作中に変更）されたときの、復元状況において有用である。この構成は、Ｌ１キャッシュ５７０が、ほぼポート無しにさらに速く動作することを可能にするとともに、キャッシュ間の転送を速くすることができる（リクエストがＬ２キャッシュ５８２で止まることができるから）。この構成は、Ｌ２キャッシュ５８２にキャッシュ一貫性のマネジメントを及ばしめるメカニズムも提供する。

ＮＣＵ５８４はインターフェースによってＣＩＵ５８６と、Ｌ２キャッシュ５８２と、ＢＩＵ５８０と接続されており、通常、ＰＵコア５０４Ａとメモリシステム間のキャッシュ不可なオペレーションのキューまたはバッファ回路として機能する。ＮＣＵ５８４は、ＰＵコア５０４Ａとの通信のうちの、Ｌ２キャッシュ５８２によって扱わない全ての通信を操作することが好ましい。ここで、Ｌ２キャッシュ５８２によって扱わないものとしては、キャッシュ不可なロードとストアや、バリアオペレーションや、キャッシュ一貫性オペレーションなどを挙げることができる。低電力消費の設計目的を達成するために、ＮＣＵ５８４は、半分のスピードで動作することが好ましい。

ＣＩＵ５８６は、ＭＦＣ５０４ＢとＰＵコア５０４Ａとの境界線上に配置され、浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、ＭＭＵ５８８から、Ｌ２キャッシュ５８２とＮＣＵ５８４へ送られるリクエストのためのルーティング、アービトレイション、フローコントロールポイントとして動作する。ＰＵコア５０４ＡとＭＭＵ５８８はフルスピードで動作し、Ｌ２キャッシュ５８２とＮＣＵ５８４は２：１のスピード比で動作可能であることが好ましい。こうすることによって、ＣＩＵ５８６に周波数境界線が存在することになり、この境界線は、その１つの機能により、二つの周波数領域間にリクエストの転送およびデータのリロードをする際に、周波数の交錯を適切に操作する。

ＣＩＵ５８６は、ロードユニット、ストアユニット、リロードユニットの３つの機能ブロックから構成される。さらに、データをプリフェッチする機能がＣＩＵ５８６により実行される。この機能は、ロードユニットの一部の機能であることが好ましい。ＣＩＵ５８６は、下記の動作を実行可能であることが好ましい：（ｉ）ＰＵコア５０４ＡとＭＭＵ５８８からのロードリクエストとストアリクエストを受信する、（ｉｉ）これらのリクエストをフルスピードクロック周波数から半分のスピードに変換する（２：１クロック周波数変換）、（ｉｉｉ）キャッシュ可能なリクエストとキャッシュ不可なリクエストとをそれぞれＬ２キャッシュ５８２とＮＣＵ５８４へルーティングする、（ｉｖ）Ｌ２キャッシュ５８２とＮＣＵ５８４へのリクエストが均等になるように調整する、（ｖ）リクエストが目標時間内に受信されると共に、オーバーフローが発生しないための、Ｌ２キャッシュ５８２とＮＣＵ５８４へ送信するリクエストのフローコントロールを提供する、（ｖｉ）ロードリターンデータを受信すると共に、これらのデータを浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、またはＭＭＵ５８８へルーティングする、（ｖｉｉ）スヌープリクエストを浮動小数点実行ステージ５７６、固定小数点実行ステージ５７８、命令ユニット５７２、またはＭＭＵ５８８へ転送する、（ｖｉｉｉ）ロードリターンデータとスヌープトラフィックを半分のスピードからフルスピードへ変換する。

ＭＭＵ５８８は、第２レベルアドレス変換手段のごとく、ＰＵコア５０４Ａのためにアドレス変換を提供することが好ましい。変換の第１レベルは、ＰＵコア５０４Ａ内において、セパレート命令と、ＭＭＵ５８８より遥かに小さくてかつ速いデータＥＲＡＴ（実効アドレスからリアルアドレスへの変換）アレイとにより提供されることが好ましい。

ＰＵ５０４は６４ビットで実装され、４〜６ＧＨz、１０Ｆ０４（Ｆａｎ−ｏｕｔ−ｏｆ−ｆｏｕｒ）で動作することが好ましい。レジスタは６４ビットの長さを有することが好ましく（特定用途のための１つまたはより多くのレジスタが６４ビットより小さいかもしれないが）、実効アドレスは６４ビットの長さを有することが好ましい。命令ユニット５７２、レジスタ５７４、浮動小数点実行ステージ５７６と固定小数点実行ステージ５７８はＲＩＳＣコンピューティング技術を達成するためにＰｏｗｅｒＰＣ技術により実装されることが好ましい。

このコンピュータシステムのモジュラー構造のさらなる詳細については、米国特許第６５２６４９１号公報に記載されている。その公報の記載によれば、例えば、コンピュータネットワークのメンバのプロセッサに単一のＰＥを含め、さらに、このＰＥに、ＰＵ、ＤＭＡＣおよび８個のＡＰＵを含めることができる。他の例として、そのプロセッサは、ビジュアルアライザ（ＶＳ）の構造を有してもよく、この場合、ＶＳに、ＰＵ、ＤＭＡＣおよび４つのＡＰＵを含めてもよい。

本発明の少なくとも１つの特徴に基づいて、図中に示されるような適切なハードウェアを用いて上述した方法及び装置を実現することができる。これらのハードウェアは、例えば、標準のデジタル回路や、ソフトウェアおよび／またはファームウェアプログラムを実行することができる任意の既知のプロセッサや、プログラムで制御可能なリード・オンリメモリ（ＰＲＯＭ）とアレイ・ロジックデバイス（ＰＡＬ）等のような、１つまたはより多くの、プログラムで制御可能なデジタルデバイスまたはシステムなど、従来の任意の技術を適用して実装することができる。さらに、図面に示される装置は、所定の機能ブロックに分けられているが、これらのブロックは、別々の回路により構成されたり、１つ以上の機能ユニットに一体化されたりしてもよい。さらに、本発明の各態様は、搬送や配布のために、適切な記憶媒体（フロッピ（登録商標）ディスク、メモリチップなど）に記録されるソフトウェアや、ファームウェアプログラムとして提供されてもよい。

以上において本発明の具体例について説明したが、これらの実施例は単に本発明の趣旨と応用を示すものである。したがって、本発明の主旨から逸脱しない限り、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

本発明の１つまたは複数の態様に適用可能な処理システムの構成を示す図である。ダイレクト・メモリ・アクセス（ＤＭＡ）データ転送リストの例を示す図である。図１に示す処理システムにより実行しうる処理手順を示すフローチャートである。本発明の１つまたは複数の態様に適用可能であり、２つ以上のプロセッサを備えるマルチプロセッサシステムの構成を示す図である。本発明の１つ以上の特徴を実現可能な、望ましいプロセッサ要素（ＰＥ）を示す図である。図５に示すシステムにおけるサブ処理ユニット（ＳＰＵ）の典型例の構成を示す図である。図５に示すシステムにおける処理ユニット（ＰＵ）の典型例の構成を示す図である。

符号の説明

１００システム、１０２プロセッサ、１０４ローカルメモリ、１０６共有メモリ、１０８バス、１２０リスト、１２２エントリ、５００プロセッサ要素（ＰＥ）、５０２Ｉ／Ｏインターフェイス、５０４処理ユニット（ＰＵ）、５０４ＡＰＵコア、５０４Ｂメモリ・フロー・コントローラ（ＭＦＣ）、５０８サブ処理ユニット（ＳＰＵ）、５１０ＡＳＰＵコア、５１０Ｂメモリ・フロー・コントローラ（ＭＦＣ）、５１１メモリインターフェイス、５１２ＰＥバス、５１４共有メモリ、５１６広帯域メモリ接続、５５０ローカルメモリ、５５２命令ユニット（ＩＵ）、５５４レジスタ、５５６浮動小数点実行ステージ、５５８固定小数点実行ステージ、５６０ダイレクト・メモリ・アクセス・コントローラ（ＤＭＡＣ）、５６２メモリ・マネジメント・ユニット（ＭＭＵ）、５６４バス・インターフェイス・ユニット（ＢＩＵ）、５７０Ｌ１キャッシュ、５７２命令ユニット（ＩＵ）、５７４レジスタ、５７６浮動小数点実行ステージ、５７８固定小数点実行ステージ、５８０バス・インターフェイス・ユニット（ＢＩＵ）、５８２Ｌ２キャッシュ、５８４キャッシュ不可ユニット（ＮＣＵ）、５８６コア・インターフェイス・ユニット（ＣＩＵ）、５８８メモリ・マネジメント・ユニット（ＭＭＵ）。

Claims

動作時に共有メモリと通信可能であり、かつ、命令の実行のためのローカルメモリを備えたプロセッサと、
該プロセッサの前記ローカルメモリと接続されており、前記プロセッサにより発行された１つのＤＭＡコマンドに応じて、前記共有メモリと前記ローカルメモリ間における複数のデータブロックの転送を担うＤＭＡコントローラとを備えたことを特徴とする情報処理装置。
前記プロセッサは、前記ローカルメモリ内において複数のエントリを有するリストを構築可能であり、それぞれの前記エントリが、転送されるデータブロックの開始アドレスおよびサイズを少なくとも含むことを特徴とする請求項１に記載の情報処理装置。
前記ＤＭＡコマンドは、前記リストにおける少なくとも１つのエントリを指定することを特徴とする請求項２に記載の情報処理装置。
前記ＤＭＡコントローラは、前記リスト内の前記少なくとも一つのエントリ内に指定された前記開始アドレスと前記サイズを用いて、データブロックの特定、および共有メモリとローカルメモリ間の該データブロックの転送が可能であることを特徴とする請求項３に記載の情報処理装置。
ＤＭＡコントローラがリスト内の一つのエントリを用いて、リスト内の別のエントリを特定可能になるように、前記リスト内の各エントリは関連づけられていることを特徴とする請求項２から４のいずれか１項に記載の情報処理装置。
前記リスト内のエントリは、前方ポインタと後方ポインタのうちの少なくとも一つを有し、これによって各前記エントリは互いに関連づけられていることを特徴とする請求項５に記載の情報処理装置。
前記ＤＭＡコマンドは、前記複数のデータブロックを共有メモリからプロセッサのローカルメモリにコピーすることの指定に用いられることを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記ＤＭＡコマンドは、前記複数のデータブロックを共有メモリの非連続領域から、プロセッサのローカルメモリの連続領域にコピーすることの指定に用いられることを特徴とする請求項７に記載の情報処理装置。
前記ＤＭＡコマンドは、前記複数のデータブロックをプロセッサのローカルメモリから共有メモリにコピーすることの指定に用いられることを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記ＤＭＡコマンドは、前記複数のデータブロックをプロセッサのローカルメモリの連続領域から共有メモリの非連続領域にコピーすることの指定に用いられることを特徴とする請求項９に記載の情報処理装置。
前記ローカルメモリは、ハードウェアキャッシュメモリではないことを特徴とする請求項１から１０のいずれか１項に記載の情報処理装置。
複数の前記プロセッサと接続可能な主プロセッサをさらに備え、
該主プロセッサは、前記共有メモリと接続可能であり、前記複数のプロセッサを管理可能であることを特徴とする請求項１に記載の情報処理装置。
動作時に共有メモリと通信可能な複数の並列的なプロセッサを備え、
各該プロセッサは、
命令の実行のためのローカルメモリと、
プロセッサの前記ローカルメモリと接続されたＤＭＡコントローラとを有し、
各プロセッサの前記ＤＭＡコントローラは、前記プロセッサにより発行された１つのＤＭＡコマンドに応じて、共有メモリとローカルメモリ間の複数のデータブロックの転送を担うことが可能であることを特徴とする情報処理システム。
各前記プロセッサ、ローカルメモリ、ＤＭＡコントローラは同じ半導体基板に設けられていることを特徴とする請求項１３に記載の情報処理システム。
前記共有メモリは、バスを介して前記複数のプロセッサと接続されていることを特徴とする請求項１３に記載の情報処理システム。
各前記プロセッサ、関連するローカルメモリ、ＤＭＡコントローラ、共有メモリは同じ半導体基板に設けられていることを特徴とする請求項１５に記載の情報処理システム。
動作時に前記複数のプロセッサと接続され、前記共有メモリと接続可能であり、前記複数のプロセッサを管理可能である主プロセッサをさらに備えることを特徴とする請求項１３から１６のいずれか１項に記載の情報処理システム。
命令の実行のための、ハードウェアキャッシュメモリではないローカルメモリと、
前記ローカルメモリと接続されたＤＭＡコントローラとを有し、共有メモリと通信可能な複数の並列的なプロセッサと、
動作時に複数の前記プロセッサと接続され、前記共有メモリと接続可能であり、前記複数のプロセッサを管理可能である主プロセッサとを備え、
各プロセッサのそれぞれの前記ＤＭＡコントローラは、前記プロセッサにより発行された１つのＤＭＡコマンドに応じて、共有メモリとローカルメモリ間の複数のデータブロックの転送を担うことが可能であることを特徴とする情報処理システム。
前記主プロセッサと接続されており、
共有メモリと、１つ以上の前記ローカルメモリとのうちのすくなくとも一方から取得されたデータをキャッシュデータとして格納可能なハードウェアキャッシュメモリをさらに備えることを特徴とする請求項１８に記載の情報処理システム。
プロセッサによってＤＭＡコントローラに発行された１つのＤＭＡコマンドに応じて、共有メモリと、前記プロセッサのローカルメモリ間で複数のデータブロックを転送する手順を有し、
前記プロセッサは、動作時に前記共有メモリと通信可能であり、
前記ＤＭＡコントローラは、動作時に前記ローカルメモリと接続可能であることを特徴とする情報処理方法。
前記ローカルメモリ内において複数のエントリを含むリストを構築する手順を有し、
それぞれの前記エントリは、転送されるデータブロックの開始アドレスおよびサイズを少なくとも含むことを特徴とする請求項２０に記載の情報処理方法。
前記ＤＭＡコマンドは、前記リストにおける少なくとも１つのエントリを指定することを特徴とする請求項２１に記載の情報処理方法。
前記リスト内の前記少なくとも一つのエントリ内に指定された前記開始アドレスと前記サイズを用いて、対応するデータブロックを転送のために特定する手順と、
このデータブロックを共有メモリとローカルメモリ間で転送する手順とを有することを特徴とする請求項２２に記載の情報処理方法。
一つのエントリを用いて、リスト内の別のエントリを特定可能になるように、前記リスト内のエントリを関連づける手順をさらに有することを特徴とする請求項２１から２３のいずれか１項に記載の情報処理方法。
ローカルメモリを有しており、動作時に共有メモリと通信可能なプロセッサと、
動作時に前記ローカルメモリと接続されるＤＭＡコントローラとを有するシステムにおいて、
前記プロセッサによって前記ＤＭＡコントローラに発行された１つのＤＭＡコマンドに応じて、共有メモリと、プロセッサのローカルメモリ間で複数のデータブロックの転送をコンピュータに実行せしめることを特徴とするプログラム。
請求項２５に記載のプログラムを記憶したことを特徴とする記憶媒体。