JP4712876B2 - 並列プロセッサ方法と装置 - Google Patents

並列プロセッサ方法と装置 Download PDF

Info

Publication number
JP4712876B2
JP4712876B2 JP2008533492A JP2008533492A JP4712876B2 JP 4712876 B2 JP4712876 B2 JP 4712876B2 JP 2008533492 A JP2008533492 A JP 2008533492A JP 2008533492 A JP2008533492 A JP 2008533492A JP 4712876 B2 JP4712876 B2 JP 4712876B2
Authority
JP
Japan
Prior art keywords
work
policy module
queues
priority
work queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008533492A
Other languages
English (en)
Other versions
JP2009510611A (ja
Inventor
ベイツ、ジョン、ピー.
敬介 井上
ツェルニー、マーク、イー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/238,086 external-priority patent/US8316220B2/en
Priority claimed from US11/238,087 external-priority patent/US8037474B2/en
Priority claimed from US11/238,095 external-priority patent/US7522168B2/en
Priority claimed from US11/238,085 external-priority patent/US7506123B1/en
Priority claimed from US11/238,077 external-priority patent/US8141076B2/en
Priority claimed from US11/257,761 external-priority patent/US7734827B2/en
Application filed by Sony Interactive Entertainment Inc, Sony Computer Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2009510611A publication Critical patent/JP2009510611A/ja
Application granted granted Critical
Publication of JP4712876B2 publication Critical patent/JP4712876B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5033Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Description

[関連出願との相互参照]
本出願は、2005年9月27日に出願された米国特許出願第11/238,077号、"CELL PROCESSOR METHODS AND APPARATUS"(代理人整理番号SCEA05009US00)、John P. Batesの一部継続出願でありその優先権を主張し、参照によりその開示内容全体をここに援用する。
本出願はまた、2005年9月27日に出願された米国特許出願第11/238,087号、"SPU TASK MANAGER FOR CELL PROCESSOR"(代理人整理番号SCEA05015US00)、John P. Bates, Payton R. White, Richard Stenson, Howard Berkey, Attila Vass, Mark Cernyの一部継続出願でありその優先権を主張し、参照によりその開示内容全体をここに援用する。
本出願はまた、2005年9月27日に出願された米国特許出願第11/238,095号、"CELL PROCESSOR TASK AND DATA MANAGEMENT"(代理人整理番号SCEA05013US00)、Richard B. Stenson, John P. Batesの一部継続出願でありその優先権を主張し、参照によりその開示内容全体をここに援用する。
本出願はまた、2005年9月27日に出願された米国特許出願第11/238,085号、"METHOD AND SYSTEM FOR PERFORMING MEMORY COPY FUNCTION ON A CELL PROCESSOR"(代理人整理番号SCEA05018US00)、Antoine Labour, John P. Bates, Richard B. Stensonの一部継続出願でありその優先権を主張し、参照によりその開示内容全体をここに援用する。
本出願はまた、2005年9月27日に出願された本願と譲受人が共通する米国特許出願第11/238,086号、"OPERATING CELL PROCESSORS OVER A NETWORK"(代理人整理番号SCEA05014US00)、Tatsuya Iwamotoに関連し、参照によりその開示内容全体をここに援用する。
本出願はまた、2005年10月24日に出願された本願と譲受人が共通する米国特許出願第11/257,761号、"SECURE OPERATION OF CELL PROCESSORS"(代理人整理番号SCEA05014CIP US00(SCEA05014US01))、Tatsuya Iwamotoに関連し、参照によりその開示内容全体をここに援用する。
[技術分野]
本発明は一般には並列処理に関し、特に並列プロセッサにおける様々のプログラミングモデルにわたるスケジューリングに関する。
電子計算における主な進歩は、同時に複数の演算を実行することができるシステムが開発されてきたことである。そのようなシステムは、並行処理の実行と称されている。最近では、ハンドヘルド・ゲームデバイスからメインフレームコンピュータに至るまで、電子デバイス上で並列処理を実行するために、セルプロセッサが開発されている。典型的なセルプロセッサはパワープロセッサユニット(PPU;Power processor unit)と8個までのシナジスティックプロセッシングユニット(SPU;synergistic processing units)と呼ばれる付加的なプロセッサをもつ。各SPUは典型的には、メインプロセッサとコプロセッサを含むシングルチップまたはシングルチップの一部である。全てのSPUとPPUは、例えばメモリフローコントローラ(MFC)を通して、メインメモリにアクセスすることができる。SPUはメインプロセッサ上で走るプログラムと連結して演算を並列処理することができる。SPUは小さなローカルメモリ(典型的には256キロバイト)をもつ。ローカルメモリはソフトウェアコードで管理しなければならず、データは手動でローカルSPUメモリへ、あるいは、ローカルSPUメモリから転送されなければならない。高性能化のためには、このコードとデータはSPUソフトウェアから管理されなければならない(PPUソフトウェアの関与は最小限にとどめなければならない)。SPUからコードとデータを管理するための多くの技術がある。しばしば、SPUからコードとデータを管理するための異なる技術をセルプロセッサ上で同時に実行する必要がある。SPU駆動型のタスク管理のためのプログラミングモデルもたくさんある。残念ながら、全てのアプリケーションにとって正しい一つのタスクシステムというものはない。
セルプロセッサで使用された従来のタスク管理システムはSPUスレッドとして知られている。「スレッド」とは他の部分とは独立して実行できるプログラムの一部のことである。マルチスレッドをサポートするオペレーティングシステムによれば、プログラマはスレッド化された部分が並列に実行されるようにプログラムを設計することができる。SPUスレッドは、セルにおけるSPUをスレッドのためのプロセッサとみなすことで動作する。コンテクストスイッチにより、SPUのローカルストレージの内容がメインメモリにスワップされることがある。256キロバイトのデータやコードがメインメモリからローカルストレージに差し替えられ、差し替えデータおよびコードはSPUによって処理される。コンテクストスイッチは、複数の処理が単一のリソースを共有できるように、SPUまたはPPUのステート(コンテクスト)を格納し、復元する計算処理である。コンテクストスイッチは、通常は計算量が多く、オペレーティングシステムの設計の大部分は、コンテクストスイッチの使用を最適化することに割かれる。
残念ながら、SPUスレッドとインターオペレートすることは、高性能アプリケーションにとっての選択肢ではない。SPUスレッドに基づくアプリケーションは、大きなバンド幅要求をもち、PPUから処理される。したがってSPUスレッドベースのアプリケーションは自律的ではなく、遅くなる傾向がある。SPUスレッドはPPUから管理されるため、SPUコンテクストスイッチ(あるSPU上で現在実行中のプロセスを他のウエイト中のプロセスにスワップする)は時間がかかり過ぎる。SPUの管理にPPUが関与するのを避けることができれば、あるアプリケーションに対してはもっとよい性能を与えることができる。
これらの問題を克服するために、SPUランタイムシステム(SPURS)と呼ばれるシステムが開発された。SPURSでは、各SPUのメモリには、SPUによって扱われるタスクのスケジューリングを実行するカーネルがロードされる。これらタスクのグループはタスクセットと呼ばれる。SPURSは、2006年5月31日に出願されたPCT出願PCT/JP2006/310907、"METHOD AND APPARATUS FOR SCHEDULING IN A MULTI-PROCESSOR SYSTEM"、Keisuke Inoue and Seiji Murata、2004年2月20日に出願された米国特許出願公開第20050188373号、"METHOD AND APPARATUS FOR TASK MANAGEMENT IN A MULTI-PROCESSOR SYSTEM"、Keisuke Inoue, Tatsuya Iwamoto, Masahiro Yasue、2004年2月20日に出願された米国特許出願公開第20050188372、"METHOD AND APPARATUS FOR PROCESSOR TASK MIGRATION IN A MULTI-PROCESSOR SYSTEM"、Keisuke Inoue, Tatsuya Iwamoto、2005年2月4日に出願された米国仮特許出願第60/650153号、"PROCESSOR TASK MIGRATION OVER A NETWORK IN A MULTI-PROCESSOR SYSTEM"、Keisuke Inoue, Masahiro Yasueで説明されており、参照によりこれら4つの開示内容を本明細書に援用する。残念ながら、SPURSは、SPUスレッドと同様、コンテクストスイッチを使ってSPUへ、あるいはSPUから仕事(ワーク)をスワップする。ワークは、PPUではなくSPU上で実行されるため、SPUスレッドとは違って、処理の自律性はある。しかし、SPURSはSPUスレッドと同じようにコンテクストスイッチのオーバーヘッドを受ける。このように、SPURSは自律性を提供するが、多くの利用形態に対してはあまり好ましいものではない。
SPURSはSPUタスクシステムの一例に過ぎない。ミドルウェアおよびアプリケーションには、多様な目的に応じて多様なタスクシステムが求められる。現在、SPURSはSPUスレッドのグループとして実行され、他のSPUスレッドとインターオペレートすることができる。残念ながら、上述のように、SPUスレッドには好ましくないオーバーヘッドがあり、SPUタスクシステムの相互運用のためにSPUスレッドを用いることは、特定の高性能アプリケーションにとっての選択肢ではない。
セルプロセッシングでは、ミドルウェアとアプリケーションが多様なタスクシステムを用いてSPUを共有することが望ましい。多くのタスククラス、例えば、オーディオ、グラフィックス、人工知能や、布モデリング、流体モデリング、剛体運動のような物理に対して、リソースを提供することが望ましい。これを効率的に実行するために、プログラミングモデルはコードとデータの両方を管理する必要がある。SPUミドルウェアが共通のタスクシステムと相互作用しないようにすることが、一つの努力目標である。残念ながら、SPUスレッドとSPURSは同じプログラミングモデルに従っており、このモデルもあまり多くの利用ケースにとって十分な性能を提供しない。このように、アプリケーションの開発者は、コードとデータの間でSPU上の限られたメモリスペースをいかに共有するかについて、依然として答えを見つけなければならない。
そのため、上述の不利な点を克服するセルプロセッサ方法および装置が技術的に求められている。
上述の不利な点を克服するために、本発明の実施の形態は、一つ以上の中央プロセッサと一つ以上のシナジスティックプロセッシングユニット(SPU)とを含み、各SPUがプロセッサとローカルメモリを含むセルプロセッサにおいて、一つ以上のSPU上のコードとデータを管理するための方法に関する。本発明のある実施の形態によれば、一つ以上のSPU上でのコードとデータの管理は、独創的な方法により実装することができる。この方法によれば、ポリシーモジュールは、一つ以上のSPU上で実行されるSPUポリシーモジュールマネージャ(SPMM)の制御下で、メインメモリから、一つの選択されたSPUのローカルメモリにロードされる。このポリシーモジュールは、メインメモリからSPUのローカルメモリにワークキューをロードするように構成されてもよい。前記ポリシーモジュールの制御下で、一つ以上のタスクが、メインメモリから、前記選択されたSPUのローカルメモリにロードされる。ポリシーモジュールは、SPU上のワークキューから一つ以上のタスクを解釈して処理するように構成されてもよい。選択されたSPUがタスクを実行し、タスクの完了後またはプリエンプション時にSPUの制御権をSPMMに返す。
本発明の実施の形態は、SPUポリシーモジュールの効率的な相互運用に対する解決を提供する。
本発明の教示は、添付図面とともに以下に述べる説明を考慮することで直ちに理解可能である。
これから述べる詳細な説明には、例示のために特定の詳細な内容が多く含まれるが、当業者であれば、これらの詳細な内容にいろいろなバリエーションや変更を加えても、本発明の範囲を超えないことは理解できよう。したがって、以下で説明する本発明の例示的な実施の形態は、権利請求された発明に対して、一般性を失わせることなく、また、何ら限定をすることもなく、述べられたものである。
図1は、セルプロセッサ100の概略図である。本発明の実施の形態によれば、セルプロセッサ100は一般にパワープロセッサユニット(PPU)102といくつかのシナジスティックプロセッシングユニット(SPU)104を含む。図1では、一つのPPU102と8個のSPU104が例示される。二つ以上のPPUや、8より多いか少ないSPUをもつセルプロセッサが本発明の実施の形態において使われてもよい。
PPU102は、大部分の計算上の作業負荷を取り扱うSPU104に対してコントローラとして働く。PPU102が他の64ビットPowerPCプロセッサと十分に類似しており、SPU104がベクトル浮動小数点コードを実行するために設計されているならば、PPU102を、従来のオペレーティングシステムを走らせるために用いてもよい。一例として、PPU102は、32KiBのインストラクション(命令)とL1データキャッシュと512KiBのL2キャッシュを含んでもよい。
PPU102とSPU104は、交換インタフェースバス(EIB)103上で互いにコードとデータを交換し合うことがでる。PPU102とSPUS104は、EIB103およびメモリ・フロー・コントローラ(MFC)(例えば、ダイレクトメモリアクセス(DMA)ユニットのようなもの)を介して、メインメモリ106に格納されたコードとデータを交換し合うこともできる。EIB103は、反対方向に2本のチャネルをもつ循環バスであってもよい。EIB103は、L2キャッシュ、MFC108およびシステムインタフェース105(例えば外部通信のためのFlexIOのようなもの)に接続されてもよい。
各SPU104は、ローカルメモリ110をもつ。メインメモリ106から取得されたコードとデータはローカルメモリ110へロードすることができ、その結果、SPU104はタスクを処理することができる。図示されているように、SPUポリシーモジュール(SPMM)112として参照される、小さなソフトウェア・マネージャが、各SPU104のローカルメモリ110に存在する。好ましくは、SPMM112は、各ローカルメモリ110の利用可能な総メモリ空間のほんの小さい部分(例えば、各SPUメモリのおよそ1%未満)だけを占める。SPMM112の中心部分は「SPMMカーネル」と称され、典型的には各SPU上のおよそ2KBを占めている。256Kのローカルストレージの場合、これはおよそ0.8%のSPUローカルストアを使用したことを意味する。
SPMM112はポリシーモジュールを管理する。SPMMカーネルは、優先度に基づくワークキュースケジューリングを提供する。ここで、「ワークキュー(「ワークロード」と呼ばれることもある)」という用語は、メモリ内のある場所で定義されたワーク(例えばメインメモリ106で定義されたSPUワーク)を意味するものとして使われる。これは、多くの場合、タスク定義のキューである。しかしながら、ワーク定義の他の態様も使用可能である。ワークキューと関連づけられたポリシーモジュールは、このワークがどのように解釈されて実行されるかを決定する。したがって、ポリシーモジュールはワークキュー118を解釈する。通常、ワークキューは、複数のSPUによって処理可能である一群のタスクまたはジョブである。SPURSタスクセット、またはSPUタスク管理(STM)ジョブリストは、ワークロードの例である。
ここで、「ポリシーモジュール」とは、プログラミングモデルとタスク実行方式を定義するSPU上の小さなマネージャオブジェクトのことである。ワークキュー118を処理するためのSPUバイナリコードとしてポリシーモジュールを実装してもよい。本発明の実施形態にしたがって実装される所与のアプリケーション用のソフトウェア開発キット(SDK)は、与えられたワークキューの実装の仕方に応じて異なるポリシーを使用できる。例えば、マルチタスキングのためにあるポリシーを使用し、ジョブストリーミングのための別のポリシーを使用してもよい。ジョブストリーミングは、STM処理モデルでは一般的な用語である。所与のポリシーモジュールは、SPUワークを実行するために残りのSPUメモリ内のコードおよび/またはデータを管理することができる。現在のワークキューを実行するために必要なら、メインRAMからSPUローカルストレージにポリシーモジュールを転送してもよい。SPUからSPUへポリシーモジュールを転送する他の方式があることは本発明者らも認めるところである。SPMMカーネルは、実行されるときはいつでも、一般に新しいワークキューを選ぶ。
SPMM112は、SPUワークのスケジューリングができるように、最も単純な機能セットを実装する。したがって、ポリシーモジュールは自分のコンテクストデータを管理しなければならない。ポリシーモジュールは、SPUワークへのポインタから、自分のコンテクストデータを決定しなければならない。ポリシーモジュールイメージは、ステート・データとともに前処理されてもよい。例えば、実行時のオプションに基づいてポリシーモジュールELFイメージの中のグローバルデータを初期化する。ポリシーモジュールを実行する間、ステート・データはSPUによって変更され、SPUで実行中のポリシーモジュールからメインメモリへ渡されてもよい。PPUは、ポリシーモジュールのステート・データのステートを変更してもよい。ポリシーモジュールは典型的にはELFイメージとして格納される。ELFイメージとは、実行可能なリンク可能なファイル形式のことである。ELFが処理され、イメージにリンクされると、そのイメージは実行の準備が整う。
SPU104上で実行中のポリシーモジュールの制御下でワークがロードされるため、本発明の実施の形態は、コンテクストスイッチを避けることができる。コンテクストスイッチは、一般に、SPMMカーネルによって実行されることはないが、ポリシーモジュールは、コンテクストスイッチを実行してもよい。なぜならポリシーモジュールの実装は完全に開発者次第であるからである。しかし、多くのタスクシステムは、SPUローカルストア110において既にコード/データを管理しているため、自分のコンテクストを切り替えることを必要としない。例えば、SPURSは、SPURSタスクをコンテクストスイッチしてローカルストアに出し入れするが、SPURSカーネルは自分自身のコンテクストを保存または取り出す必要がない。
例えば、ポリシーモジュールとワークキューは次のように関連づけられてもよい。図1の下側に示すように、メインメモリ106は一組のワーク定義116を持つワークキューアレイ114を含んでもよい。ワークキューアレイは、任意の数の対応するワークキュー118に対して任意の数のワーク定義116を備えてもよい。ワークキューアレイ114が収容可能なワークキューの数は、ワークキュー処理の有用性に基づき決められてもよい。一部の実施形態では、ワークキューアレイ114内に16個のワークキューについての定義がある場合、SPU104の間で非常に効率的にワークキュー118をスケジュールすることができる。例えば、SPMMカーネル112が限られた量(例えば約2キロバイト)のオーバーヘッドを有し、セルプロセッサ100が8個のSPUを有する場合、16個のワークキューのスケジューリングを特に効率的にすることができる。
表Iは、ワークキューアレイ114に格納されるワーク定義116のデータ構造例を示す。
Figure 0004712876
表1は、一つのありうるワーク定義を代表して示す。ワーク定義データ構造の特定の内容は、表1の内容とは異なっていてもよい。一般に、各ワーク定義116は、対応するワークキュー(WQ)118に対するメモリアドレスへのポインタを含む。メモリアドレスは、RAMで定義されたSPUワークを含み、SPUワークは、ワークキュー118に対するコードとデータの両方を含んでもよい。ワークキューの例は、タスクセットまたはタスクキュー等で特徴づけられるタスクと、ジョブチェーンにより特徴づけられるジョブとを含む。タスクとジョブの両方が、関連するワークを実行することに関連するコードおよび/またはジョブを含んでもよい。タスクは以下のようにしてジョブと区別されてもよい。本明細書では、タスクとは、関連するコンテクストを有するという点でスレッドと類似するワークのことを指す。そのようなものとして、タスクは完了の中間段階である時点でSPUへと、およびSPUからスワップすることができる。対照的に、ジョブはコンテクストとは関連しない。結果として、ジョブは完全に実行される。すなわち、一旦SPUがジョブの作業を開始すると、ジョブが完了するまでSPUは動作する。ジョブに関連するデータは、そのジョブを完了するのに必要であるSPUローカルメモリ110の空間の量を定義してもよい。
ワークキュー定義116は、対応するWQ118のステートに対する値を含んでもよい。ワークキューのステートは、PPU102またはSPU104から設定することができる。ステートの例として、(a)SPM_READY−:WQ118はレディ(準備完了)ワークを含む、(b)SPM_EMPTY−WQ:WQ118はレディワークをもたない、および(c)SPM_FREE−WQ:WQ118はもはや使用されていない、といったものがある。
競合度は、与えられたWQ118の作業に取り組んでいるSPU104の数のことである。ワークのタイプによっては、与えられたWQ118に取り組むことができるSPU104の最大数が設けられてもよい。この数をワーク定義116の一部として格納してもよい。ワークの特定のタイプは、効率的な処理のために二つ以上のSPUを必要とする。そのような場合、一つのSPUの出力は、更なる処理のために第2のSPUに転送されてもよい。そのような事例を扱うために、最小競合度(すなわちそのワークを処理するために必要なSPUの最小数)を定めることは、役に立つ。この数をワーク定義116の一部として格納することもできる。特定のワークキューについての最小競合値は、そのワークキュー内のワークの性質に基づいて選択されてもよい。例えば、タスクワークキューはタスク間で相互依存性を有していることが多く、二つ以上のSPUをそれらワークに割り当てることが利益になることがある。したがって、一つのタスクワークキューに対する最小競合度の値を、セルプロセッサ100内のSPUの総数(例えば、図1のシステムでは8個)に等しく設定することが望ましい。対照的に、ジョブワークキューは、ワークについての競合度がSPU104間で均衡している場合に、より良く機能する傾向がある。したがって、ジョブワークキューについての最小競合度の値を1に等しく設定することがさらに望ましい。
各ワークキュー118は、一つのポリシーモジュールと関連づけられる。表Iに示したケースでは、ワークキューとその対応するポリシーモジュールとの間の関連づけはポリシーモジュール定義120のメモリアドレスへのポインタの形で与えられる。ポリシーモジュールは、複数のワークキューと関連づけられてもよい。表IIは、ポリシーモジュール定義の例を示す。
Figure 0004712876
表2において、コードイメージオフセットは、最初のファンクションコールに対する入力ポイントアドレスのことである。
この例では、ポリシーモジュール定義120は、ポリシーモジュールのコード・イメージ122が含まれるメモリアドレスへのポインタを含む。SPMM112によってローカルストレージ110へロードされるのは、このコード・イメージである。ロードされたイメージは、SPU104をポリシーモジュール124として動作させる。ポリシーモジュールは、ワークのローディング(例えばコードまたはデータの形式のコンテクスト・データ126をメインメモリ106のワークキュー118からローカルストレージ110にロードする)を制御する。
図2Aは、図1のセルプロセッサ100による処理方法200を例示するフローチャートである。図1と図2Aを参照してセルプロセッサ100の動作を理解する。ステップ202で、SPU104のうちの一つの上で実行されているSPMM112は、処理すべきWQ118を選ぶ。(1)以前のワークが完了したか、(2)以前のワークがプリエンプトされたならば、SPMM112は新しいワークキューを選ぶ。新しいキューを選ぶアルゴリズムは、例えば、単純な線形探索であってもよい(例えば、合致するものが見つかるまで、ワークキューアレイの全てのワーク定義を探索する)。もっとも、その特定のアルゴリズムに多様に変化をつけてもよい。ワークキューを獲得する間、最大競合ルールに従うべく、アトミック・ミューテックスをロックしてもよい。もっとも、ロックフリー(lock−free)のような、他の同期技術であっても動作する。
図2Bは、ステップ202におけるワークキューを選ぶためのアルゴリズム220の例を示すフローチャートである。アルゴリズム220は、SPMM112によって実行される。まず最初に、パラメータCHOICEは、ステップ222で無し(none)に設定される。パラメータCHOICEは、SPMM112が処理するために選ぶワークキューを表す。ポインタWは、ステップ224でWQアレイ114の第1のワークキュー定義を指すように設定される。ステップ226で、SPMMは、そのワークキュー定義が有効なワークキューを表すかどうか調べる。もしそうでないなら、アルゴリズムは終了する。無効なWQ定義の例として、ワークキューアレイ114がサイズNを持つケースを考える。ワークキュー定義のインデックスがN以上であるならば、それは無効である。アルゴリズムは、全ての有効なワークキュー定義を繰り返し処理する。ワークキュー定義が有効であるならば、ステップ228でSPMM112は、第1のワークキューが処理の準備ができている(レディ)かどうか調べる。例えば、SPMM112はワークキュー定義のステート属性が「READY」に設定されているかどうか調べてもよい。第1のWQがレディでないならば、ステップ230でWの値はWQアレイ114の次のWQ定義を指すように設定され、アルゴリズムはステップ226に戻る。WQがレディならば、ステップ232でSPMM112はWQの競合度(すなわち現在それに取り組んでいるSPUの数)を最大競合度max_contention(すなわちそれに取り組むことができる最大数のSPU)と比較する。WQの競合度が最大競合度max_contention以上であるならば、ステップ230でWの値は、WQアレイ114の次のWQ定義を指すように設定され、アルゴリズムはステップ226に戻る。
WQの競合度が最大競合度max_contentionの値より小さいなら、ステップ234でSPMM112は次にCHOICEの値が有効かどうか調べる。例えば、CHOICEの初期値が無し(none)であるならば、それは無効である。CHOICEが無効であるならば、ステップ236でCHOICEの値はWの値と等しく設定され、Wの値に対応するワークがSPU104で処理するために選ばれる。ステップ230でWの値は、WQアレイ114の次のWQ定義を指すように設定され、アルゴリズムはステップ226に戻る。
再び図2Aを参照すると、一旦あるWQ118がWQアレイ114のワーク定義116の中から選ばれると、ステップ204でSPMM112は、対応するポリシーモジュール124をメインメモリ106からSPU104のローカルストレージ110へロードする。上述のように、メインメモリ106からポリシーモジュールをロードすることは、ワークキューアレイ114のワーク定義116から、メインメモリ106におけるポリシーモジュール・コード・イメージ122のメモリアドレスを読むことを含んでもよい。SPMM112は、SPU104上でワークのスケジューリングを可能にするために、最も単純な機能セットを実装する。SPMM112は、WQ118の内容について何も仮定しない。その代わりにポリシーモジュール124は、WQの内容と用い方を決定し、自分のコンテクスト・データを管理する。
あるWQ118が選ばれるとき、その競合値はインクリメントされ、そのポリシーモジュール・コード・イメージ122は、ローカルストレージ110へ転送され(それが既に存在する場合を除く)、ポリシーエントリファンクションがWQ118へのポインタで呼び出される。ステップ206で、ポリシーモジュールの制御下で、選ばれたWQが処理される(例えば、ワークキュー118から一つ以上のタスクがメインメモリ106からローカルメモリ110にロードされる)。
実際には、ワーク・キューの内容は、しばしば、共有タスクキューを保護するアトミック・ミューテックスか一組のタスクに関連したロックフリーデータである。WQアレイのアクセスは、WQ競合のバランスが取られることを保証するため、かつ/または、最大競合ルールに従うことを保証するために、アトミックロックを使って順番に並べられてもよい。ワークキュー118にロックフリーでアクセスすることもまた可能でもある。しかしながら、コードはより複雑になる。ある事例では、ワークキュー定義の128バイトのセクションだけを一度に調べることができる。さらに、セルプロセッサ100の性能が異なるかどうかは定かではない。ワークキューの数が少ない方が性能はよく、ワークキューの数が多ければ性能は悪くなる。
ステップ208でSPUはワークキュー118から一つ以上のタスクを実行する。一つ以上のSPU104によって同時にワークキューを処理することができる。上述のように、競合するSPUの最大数(最大競合度)を各WQ118に対して設定してもよい。以前のワークが完了するか、以前のワークが横取りされた場合、ステップ210でポリシーモジュール124は、SPMMカーネル112にSPU104の制御を返す。
SPMM112は、優先度とレディネス(準備完了度:readiness)に基づいて複数のSPUワークキュー118をスケジュールする。より高い優先度のワークが利用可能になると、SPMM112は利用可能なSPUに高い優先度のタスクを割り当てることができる。本発明の実施の形態は、協調的なプリエンプションを実装することもできるという点で、準プリエンプティブであると言ってもよい。具体的には、ポリシーモジュール124はプリエンプションを決定するために、SPUイベント・チャネルを定期的にチェックすることができる。もしプリエンプションが起こるならば、ポリシーモジュール124は仕事を片付けて、SPMM112にSPU104の制御を返すことができる。より高い優先度のワークがレディ(準備完了)になると、低い優先度のSPUにプリエンプションのイベントが送られる。ポリシーモジュールはより優先度の高いワークの処理を許可するためにリターンする。与えられたタスクまたはワークキューの優先度と競合度は、ワークキューアレイのワーク定義の一部として格納されてもよい。
選ばれたWQ定義から、ポリシーモジュール124は、一つの要求された関数:execute(EA work_queue){}を有する。ここで、EAは「実効アドレス」−WQのメインメモリアドレスを表す。この関数は呼び出されて「実行(execute)」される必要はないが、32ビットのパラメータを一つ取らなければならない。そのパラメータのサイズ(例えば、32ビット)は実装次第で変わってもよいが、当該パラメータは選ばれたワークキューのアドレスである。このexecute関数はポリシーモジュールのエントリポイントを表す。この関数はwork_queueパラメータによって渡されたワークキューを処理する。ポリシーモジュールの特定のコンフィギュレーションによっては、execute関数がPPUのメインメモリに渡すことのできるステート情報を返すように構成してもよい。もっとも、ワークキューを処理するためのexecute関数は、典型的には値を返さない。
WQの処理を終えるために、ポリシーモジュール124はspmm_release_work(new state)という関数を呼び出す。この関数はWQ118に対する競合値をデクリメントし、WQステートの値をnew_state(典型的には、処理終了が完了またはプリエンプションのどちらに起因するかによって、SPMM_READYまたはSPMM_EMPTYのいずれかの値をとる)に設定する。SPMM112にSPUの制御を返すために、ポリシーモジュール124はspmm_exitという関数を呼び出す。この関数は、スタックポインタをLS110のトップにリセットし、新しいWQを選ぶものである。ポリシーモジュール124は次に選ばれたWQによって再利用される場合があるので、ポリシーモジュールのスタックサイズは一般的に少なくとも4KBである。
本発明の実施の形態において、spmm_release_workは通常spmm_exitの直前に呼び出される。これらが一つの関数ではないことには重要な理由がある。しばしば、WQには新しいワーク(仕事)がいかなるときにでも追加されることがある。新しいワークがWQに加えられるとき、そのステートはSPM_READYに設定しなければならない。ポリシーモジュール124は、適切なアトミックスをもたせて、好ましくない競合状態(出力がイベントの相対的なタイミングに予想もしない重大な依存関係を見せるというプロセス上の欠陥)を防がなければならない。
例えば、SPU104は、WQ118の最後のタスクを処理した後、WQ118のステートをチェックしてもよい。ポリシーモジュールがspmm_release_work(new_state)を呼ぶ前に、PPU102はワークをWQ118に追加し、そのステートをSPM_READYに設定してもよい。ポリシーモジュール124がその後、spmm_release_work(SPM_EMPTY)を呼び出すならば、ポリシーモジュールが続いてspmm_exit()を呼び出したとき、WQ118のステートは正しくなくなっているだろう。
そのような無効なWQステートを防ぐための好ましい技術は、以下の通りに進む。SPU104がWQ118の最後のタスクを処理した後、ポリシーモジュール124がWQ118に対するアトミック・ミューテックスをロックし、WQ118にさらにタスクがあるかチェックする。もしこれ以上タスクがないなら、ポリシーモジュール124はspmm_release_work(SPM_EMPTY)を呼び出し、WQ118のステートはSPM_EMPTYに設定される。次にポリシーモジュール124はWQ118に対するアトミック・ミューテックスのロックを解除する。PPU102がWQ118にワークを追加したいならば、PPU102はWQ118に対するアトミック・ミューテックスをロックして、そのワークを追加し、WQ118のステートをSPM_READYに設定し、WQ118に対するアトミック・ミューテックスのロックを解除する。ポリシーモジュール124がspmm_exit()を呼ぶことができるようになる前にワークが加えられたとしても、WQ118のステートは正しい。
たとえWQ118が決して再利用されない(ステートがタスク完了時にPMによってSPM_FREEに設定される)としても、アトミックスがなければ、潜在的な競合状態がまだある点に留意する必要がある。具体的には、第1のSPU上で実行中のポリシーモジュールがWQ118の最後のタスクを処理し、WQ118にさらにタスクがあるか調べ、何もないと決定したとすると仮定する。それからそのSPUはWQ118が完全であることをPPU102に信号を出して知らせる。PPU102はその信号を受け取った後、WQ118に割り当てられたメモリスペースを開放するか、再利用する。いずれの場合でもWQ118に割り当てられたメモリ空間がガーベッジデータを含む場合がある。第1のSPU上のポリシーモジュールがspmm_release_work(SPM_FREE)を呼ぶことができるようになる前に、SPMM112の制御下にある第2のSPUがWQ118を選ぶならば、その第2のSPUは、WQ118に割り当てられたメモリ空間からガーベッジデータを処理しようとするとき、クラッシュするかもしれない。
アトミックス有りの競合状態を回避するにあたり、spmm_release_work(SPM_FREE)を呼び出す前に、第1のSPUがPPUにWQ118が完了したことを信号で通知しないことが重要である。ミューテックスがロックされた後であるがspmm_release_workを呼び出す前に第2のSPUがWQ118を選ぶ可能性があることについて対処するため、第1のSPU上のポリシーモジュールはWQ118の競合をチェックすることができる。もし第2のSPUがWQ118を既に選び、そのポリシーモジュールをロードしていたなら、競合度はゼロ(完了したワークに対して期待されるであろう値)に等しいことはないであろう。ワークが完了していることをPPUにシグナルで伝える代わりに、第1のSPUはミューテックスを解除し、spmm_exitを呼び出す。第2のSPU上で実行中のポリシーモジュールは、WQ118にもっとワークがあるか調べ、何もない場合は、spmm_release_work(SPM_FREE)を呼び出し、WQ118の競合度をゼロに設定し、PPU102に信号を送って、WQ118が完了し、ミューテックスを解除したことを伝える。
上記の議論では、競合状態を回避するためのアトミック・ミューテックス・ロックを扱ったが、そのような状態はロック・フリー方式で回避することも可能である。一般に、ポリシーモジュールが、与えられたWQにはこれ以上タスクが含まれないと判定すると、ポリシーモジュールは、WQステートがエンプティに設定される間にタスクステートが変わるのを防ぐ必要がある。あるいは、ワークを追加したり、ワークを完了する処理をアトミックにしなければならない。本発明の実施の形態の文脈で言えば、ワークを追加することには、ポリシーモジュール空間でタスク状態を「レディ」に設定し、SPMM WQステートを「レディ」に設定することが含まれる。ワークを完了するとは、最後のタスクが取られるか、not_readyステートに設定される状況を言う。ワークを完了することには、タスクステートをノット・レディ(まだ準備できていない)に更新し、SPMMのWQステートを「ノット・レディ」に設定することが含まれる。
SPMM112は、異なる優先度をもつ複数のワークキューをスケジューリングすることができてもよい。高い優先度のキューは、低い優先度のキューより前に処理することができる。等しい優先度のキューを処理するとき、SPUは競合度とのバランスを取ることができる。もし最も高い優先度のキューがそれ以上の競合を許さないなら、他のSPUが次に優先度が最も高いキューの作業をする。SPMM112によるプリエンプションの例は、図2Bを再び参照することで理解されよう。SPU104上でWQ118を処理しているポリシーモジュールは、ワークキューアレイ114で(ポインタWによって表された)他のWQを分析し続ける。この時点で、アルゴリズム220の各ステップは、SPU104上でプロセスを実行しているポリシーモジュールの一部として実装されてもよい。前に述べたように、ステップ234で、SPMMは、CHOICEの値(それは、SPU104によって現在処理されているWQ118を示す)が有効かどうかを調べた。CHOICEの値がまだ有効であるならば、ステップ238でSPMMは選ばれたWQの優先度をWの優先度と比較する。Wの優先度の方が高いなら、これはプリエンプションのイベントを表しており、SPU104の制御はSPMM112に戻る。ステップ236でCHOICEの値はWの値(それは、異なるワークキューを代表する)に設定され、アルゴリズム220はステップ230に戻り、ポインタWをインクリメントする。
プリエンプションはまた、ステップ240でWとCHOICEが等しい優先度である場合に特定の状況下で起こることがある。例えば、ステップ242でポリシーモジュール124が、WとCHOICEは等しい優先度をもち、Wの競合度がゼロより大きいが、最小競合値(min_contention)より小さいことを発見した場合、ステップ236でSPUの制御はSPMM112に戻る。そのような場合、Wは「緊急」であると言う。最小競合の概念は、ワークがあるSPUから一つ以上の他のSPUへカスケードする状況において有益である。例えば、多くの物理学アプリケーション(例えば布のシミュレーション)では、一つのSPUの出力は、所与のワークキューをインプリメントするプロセスの異なる部分を実行しているもう一つのSPUに対する入力として用いられる。そのようなワークキューが処理中の他のワークと等しい優先度をもつとき、アルゴリズム220はSPUをそのようなプロセスに利用できるようにすることにより、競合のバランスを取ろうと試みる。もし十分な数のSPUがワークを処理するために利用可能であるならば、出力は直接次のSPUへロードしてもよい。あるいは、さらなるSPUが出力を処理するために利用可能になるまでの間、出力は一時的にメモリ106に格納してもよい。
ステップ242でもしWが「緊急」ではないと判定されるならば、ポリシーモジュールはステップ244でCHOICEが緊急のワークを表すかどうかを調べることができる。例えば、CHOICEの競合度がゼロより大きいがその最小競合値min_contentionよりも小さいかどうかを判定することによって、それを調べることができる。もしCHOICEが緊急であるならば、ポリシーモジュール124は、例えば、アルゴリズムをステップ230に戻すことによって他のワークを調べ続ける。CHOICEが緊急でないならば、ポリシーモジュール124はステップ246でWの競合度がCHOICEの競合度より小さいかどうかを調べ、もしそうならば、ステップ236でCHOICEをWと等しい値に設定し、SPMM112に制御を戻すことにより、競合のバランスを取ることができる。Wの競合度がCHOICEの競合度より小さくないならば、ポリシーモジュール124はステップ248でWとCHOICEが等しい競合度をもつかどうか調べることができる。もしそうでないなら、ポリシーモジュール124は、例えば、アルゴリズムをステップ230に戻すことによって他のワークを調べ続ける。WとCHOICEが等しい競合度をもつならば、ポリシーモジュール124は、ステップ250でアフィニティ(親和性)があるかどうか、すなわち、Wのポリシーが既にSPU104にロードされているかどうかを調べる。もしアフィニティがあるならば、ポリシーモジュールはステップ236でCHOICEをWに等しい値に設定し、SPMM112にSPU104の制御を返す。
上述の議論から、図2Aのステップ202において、優先権の階層にしたがってワークキュー118がSPU104に割り当てられることが分かる。例として、図2Bに関して述べたワーク割り当ての優先権順序についての5層の階層を、以下のように要約することができる。
1.スケジュール可能性(schedulability)。スケジュール可能なワークは、スケジュール不可能であるワークよりも高い優先度を持つ。上述のように、ワークがスケジュール可能でない状況の例には、
a.優先度=0、
b.ワークキュー状態=SPMエンプティ、すなわち、ステップ228においてWがレディ(準備完了)でない、
c.競合度が最大競合度以上、がある。
2.優先度。二つ以上のワークキューがスケジュール可能であると仮定すると、より高い優先度のワークを持つワークキューは、低い優先度を持つワークキューよりも好ましい。例として、高い優先度を低い(ゼロでない)優先度の値と関連づけてもよい。例えば、優先度1のワークは優先度2のワークに対して優先する。
3.緊急度。二つ以上のスケジュール可能なワークキュー118が同じ優先度を持つ場合、緊急であるワークキューが緊急でないワークキューよりも好まれる。例えば、競合度がゼロより大きいが最小競合度よりも小さいワークキューを、そうでないワークよりも緊急度が高く優先するとみなしてもよい。
4.バランスの取れた競合度。二つ以上のスケジュール可能なワークキュー118の優先度が等しく緊急度が等しい場合、可能な限り競合度のバランスを取るために、競合度の小さいワークキューが好まれる。
5.ポリシーモジュールのアフィニティ。二つ以上のスケジュール可能なワークキュー118の優先度が等しく、緊急度が等しく、それらの競合度がバランスの取れている場合、特定のSPUにワークを割り当てるときに、自身のポリシーモジュールが既にその特定のSPU104のローカルストア110にロードされているワークキューが、そうでないワークキューよりも好まれる。
本発明の実施形態では、優先権を決定する際にさらなる考慮をすることで、様々なSPU104間でのより均一なワークの分配を通じてパフォーマンスを強化してもよい。特に、以下の表IIIに示すようにワーク定義116を構成してもよい。
Figure 0004712876
表IIIにおいて、レディカウントはワークキュー118によって要求されるSPUの数のことを言う。特定のワークキュー118に処理するものがないことを意味するために、値0のレディカウントを用いることができる。例えば、特定のワークキュー内に処理するものがないとポリシーモジュールが決定すると、ポリシーモジュールはレディカウントを0にリセットしてもよい。0より大きいレディカウント値は、与えられたワークキューを処理するために生じるSPU数の推定である。レディカウント値は、特定のワークキュー上で作業するのに最適なSPUの数である必要はない。代わりに、レディカウント値は、特定のワークキュー118上で作業するために受け入れ可能なSPUの数を表してもよい。
ある状況においては、特定のワークロード118は、レディカウント値に加えてある数の利用可能なSPUにそのワークを割り当て可能である場合、特定のワークキュー118に割り当てるSPUの数をさらに最適化することで利益を得ることができる。このような状況に対処するため、ワークキュー定義116はアイドルSPUリクエストカウント(アイドルカウントとしても知られる)を含んでもよい。アイドルのSPUがある場合、アイドルカウントは、ワークキュー118の処理を助けることができる、レディカウント値の他のSPUの数を表している。アイドルカウントの利点は、利用可能であるSPUの数が理想値より少ない場合でさえも、SPUがワークキュー118の処理を開始できる点である。例えば、ワークキュー118は理想的には4個のSPUで処理されるべきだが、1個のSPUでの処理も許容可能であると仮定する。このようなワークキューに対するワーク定義は、レディカウント値が1でありアイドルカウント値が3であってもよい。アイドルカウントを使用すると、1個のSPUが利用可能になったが最大3個の追加のSPUが利用可能になるまでそれらのSPUを割り当てる可能性を開いたままにしている場合に、このようなワークキューの処理を開始することができる。
ワーク定義116は、2以上のレベルのアイドルカウントを持ってもよいことに注意する。例えば、ワーク定義116が第1、第2、第3レベルのアイドルカウントを有し、それぞれが3、2、1であってもよい。この場合、利用可能であれば3個の追加のSPUが要求され、それが不可の場合、利用可能であれば2個のSPUが要求され、それも不可の場合、利用可能であれば1個のSPUが要求される。
表3に示すように、ワーク定義116は、優先権を割り当てるときに、与えられたワークキュー118内のワークのタイプを考慮に入れてもよい。例えば、他の全ての検討事項が等しいとした場合、実行されるべきタスクまたはジョブの性質に基づき、あるタイプのワークキュー118を他に優先させてもよい。この状況に対処するために、ワーク定義116は、実行されるべきワークのタイプに関連するワークキューIDを含んでもよい。ワークキューIDは、実行されるべきワークのタイプ(例えばメモリ管理ワーク対アプリケーション特有の計算)によってワークキュー118を分類する。
レディカウント、アイドルカウントおよびワークキューIDを考慮に入れる場合、上述したような特定のSPU104に対してワークキューからワークを割り当てる際の優先権の階層を、8層の階層を形成するように修正することができる。これは、以下のように要約できる。
1.スケジュール可能性。スケジュール可能なワークのみがSPUによりアクセス可能である。上述したように、ワークがスケジュール可能でない状況の例は、以下を含む。
a.優先度=0
b.レディカウント=0
c.競合度が最大競合度以上
d.競合度が(レディカウント+アイドルカウント)以上。これにより、過剰のSPUが特定のワークキュー118に割り当てられることが防止される。
2.レディネス。スケジュール可能なワークに対して、他の全ての条件よりもレディネスが優先される。特に、競合度がレディカウントよりも小さいワークキュー118は、そうでない別のワークキューよりも優先する。代わりに、あるアプリケーションでは、レディカウントと競合度の間の差分に応じた「レディネス」の階層があることが望ましい。例えば、競合度=1、レディカウント=3のワークロードが、競合度=1、レディカウント=2のワークロードより優先してもよい。
3.優先度。二つ以上のワークキュー118がスケジュール可能であり等しく準備可能である(例えば、レディカウント<競合度)であると仮定した場合、優先度の高いワークを有するワークキューは、優先度の低いワークキューよりも好ましい。上の例で述べたように、より高い優先度を低い(ゼロでない)優先度の値と関連させてもよい。例えば、優先度1のワークは優先度2のワークよりも優先する。
4.ワークキューのアフィニティ。二つ以上のスケジュール可能なワークキュー118が等しいレディネスと等しい優先度を持つ場合、特定のSPUにワークを割り当てるとき、その特定のSPU104のローカルストア110内に自身のコードおよび/またはデータが既にロードされているワークキューは、そうでないワークキューよりも好ましい。
5.緊急度。二つ以上のスケジュール可能なワークキュー118が等しいレディネス、等しい優先度および等しいワークキューアフィニティを持つ場合、緊急度の高いタスクを有するワークキューは、緊急度の低いワークキューよりも優先する。例えば、競合度が0以上であるが最小競合度よりも小さいワークキューを、そうでないワークよりも緊急度が高く優先権を持つとみなしてもよい。
6.バランスの取れた競合度。二つ以上のスケジュール可能なワークキュー118が等しいレディネス、等しい優先度、等しいワークキューアフィニティおよび等しい緊急度を持つ場合、可能な限り競合度のバランスを取るために、特定のSPU104に対してワークを割り当てるとき、競合度の小さいワークキューが好まれる。
7.ポリシーモジュールのアフィニティ。二つ以上のスケジュール可能なワークキュー118が等しい優先度、等しいワークキューアフィニティ、等しい緊急度を持ち、かつ競合度のバランスが取れている場合、特定のSPUにワークを割り当てるとき、その特定のSPU104のローカルストア110内に自身のポリシーモジュールが既にロードされているワークキューは、そうでないワークキューよりも好ましい。
8.ワークロードID。二つ以上のスケジュール可能なワークキュー118が等しい優先度、等しいワークキューアフィニティ、等しい緊急度、等しいポリシーモジュールアフィニティを持ち、かつ競合度のバランスが取れている場合、特定のSPU104にワークを割り当てるとき、より好ましいワークロードIDを有するワークキューは、好適度の低いワークロードIDを有するワークキューよりも好ましい。例えば、あるワークロードIDが別のワークロードIDよりも小さい数値を有する場合、それは好ましい。
上述のスケジューリング優先権は、多くの可能性のあるスケジューリング優先権の階層の一例である。優先権の順序を再配置することも可能であり、また異なる挙動を達成するために項目を取り除くこともできる。例えば、第4項目(ワークキューアフィニティ)を取り除くと、デベロッパにより好ましい態様でワークキューがスケジュールされるが、(レディ状態になる他のワークキューおよびレディ状態から出る他のワークキューを産み出すとき)ワークキューのスラッシング(thrashing)がより多くなる結果となりうる。
本発明の実施形態によると、特定のプログラム上で作業する異なるデベロッパが、異なるスケジューリングパラメータに対しての責任を持ってもよい。例えば、ポリシーモジュールデベロッパがポリシーモジュール(PM)コードを実装する責任を有し、および/またはPMアプリケーション・プログラミング・インタフェース(API)を収集して(library)、PMコードを使用するためのワークキュー118を作成および操作してもよい。ポリシーモジュールデベロッパは、ワークキュー118に関連するポリシーモジュールについて最小競合度の値を決定してもよい。選択的に、ポリシーモジュールデベロッパは、レディカウント値およびアイドルカウント値を決定してもよい。
ワークキューデベロッパは、ポリシーモジュールデベロッパにより作成されたPM APIを通じてワークキュー118を作成および操作してもよい。ワークキューデベロッパは、ポリシーモジュールデベロッパにより決定された対応するポリシーモジュールによって許可される範囲で、ワークキュー118についてのレディカウントおよび/またはアイドルカウントを決定してもよい。ワークキューデベロッパは、コードおよび/またはデータライブラリの形態でワークキュー118を実装してもよい。
インテグレータは、上記デベロッパからコードおよび/またはライブラリを受け取り、それらを結合して、単一のSPUタスクシステムインスタンスを共有するアプリケーションを形成する。本明細書では、SPUタスクシステムインスタンスとは、アプリケーション内でのSPUタスクシステムの一つのインスタンス化のコンテクストのことを指す。SPUタスクシステムインスタンスは、関連するSPUスレッドグループ、例えばセルプロセッサ100内のSPU間におけるワークキューの特定の割り当てを含んでもよい。典型的なアプリケーションでは、セルプロセッサ100は通常(しかし常にではなく)、一度に一つのSPUタスクシステムインスタンスを実装する。インテグレータは、各ワークキュー118について最大競合度の値を決定し、各ワークキュー118についてSPU毎の(Per-SPU)優先度を含むSPU優先度リストを作成してもよい。SPU優先度リストは、ワークロードスケジューリングに対する優れた制御をインテグレータに与える。
表IIIの優先権階層を使用したセルプロセッサの動作は、図2Cないし図2Hを参照することで理解できる。図2Cに示すように、8個のSPU104による実装のために、複数のワークキュー118、...、11815をスケジュールすることができる。図2Cでは、説明のためにSPUスレッドグループ内に6個のSPUのみが描かれている。例として、限定ではなく、SPMMカーネル112は、アトミック通知器(Atomic Notifier)119を使用して、ワークキュー118、...、11815のスケジュールをすることができる。アトミック通知器119は、関連するワークキュースケジューリングパラメータを含む例えば128バイトのデータ構造であってもよい。ワークキュー118、...、11815は、タスクポリシーモジュール(図中のタスクモジュール)とタスクセット118により定義されるワークとを有するタスクワークキュー118を備えてもよい。一部の実施形態では、タスクワークキュー118内のタスク数に上限があってもよい。例えば、メインメモリ106が上限値以上を収容可能であったとしても、与えられたタスクワークキューについて128個のタスクの上限があってもよい。ワークキュー118、...、11815は、ジョブポリシーモジュール(図中のジョブモジュールjob mod)とジョブチェーン118により定義されるワークとを有するジョブワークキュー118をさらに備えてもよい。ジョブチェーン内のジョブの数は、ほとんど上限がなくてもよい。例えば、ジョブの数は、メインメモリ106内で利用可能なメモリ空間への配慮のみによって制限される。ワークキュー118、...、11815は、カスタムポリシーモジュール(図中のXモジュール)と、例えばある種のコードおよびデータであるカスタムワーク118とを有するカスタムワークキュー11815をさらに備えてもよい。カスタムワークキュー11815は、本明細書で定義している「タスク」または「ジョブ」のいずれの記述にも当てはまらないカテゴリに分類されてもよい。
ワークキュー118、...、11815のそれぞれは、SPU毎の優先度の値を有し、レディカウント(レディ)、最大競合度(最大)、最小競合度(最小)の値を格納する、対応するワーク定義116、...、11615を含む。競合するワークキュー118、...、11815の優先度の値の組合せが、優先度テーブル117を形成する。図2Cにおいて、優先度テーブル117の各列は、セルプロセッサ100内の特定のSPUに対応する。優先度テーブルの各行は、特定のワークキューに対応する。図2Cに示す例では、全てのワークキュー118、...、11815は、「レディネス」が等しい、例えば競合度<レディカウントが成立する。したがって、SPU割り当てにおける優先権は、低い優先度の値を有するワークキューに与えられる。図2Cから分かるように、SPUの列内で最小の優先度値に基づき、優先度テーブルから選択されるSPUにワークが割り当てられる。例えば、SPU0とSPU1に対して、タスクワークキュー118が最小の優先度値を有し、優先される。したがって、SPU0およびSPU1がワークキュー118に割り当てられる。SPU2、SPU4およびSPU5に対しては、ジョブワークキュー118が最小の優先度値を有し、他の全てに対して優先する。したがって、SPU2、SPU4およびSPU5がジョブワークキュー118に割り当てられる。SPU3については、カスタムワークキュー11815が最小の優先度値を有し、SPU3がカスタムワークキュー11815に割り当てられる。
図2Cは、スケジュール可能性および緊急度のコンセプトも示している。全てのワークキュー118、...、11815について、優先度テーブル117は、SPU6とSPU7に対して優先度値0を示していることに注意する。これは、SPU6とSPU7に対してワークが割り当てられないことを意味する。さらに、ワークキュー118について、最小競合度(最小)が8に等しく、これは他のワークキューについての値よりも大きい。これは、ワークキュー118が他よりも緊急度が高いことを示している。しかしながら、優先度は緊急度よりも優先するので、SPUは、SPU毎の優先度をベースにしてワークキューに割り当てられる。
図2Dは、競合度のバランシングの一例を示す。この例では、3つのジョブワークキュー118、118および118が、6個の利用可能なSPUを求めて競争する。優先度テーブル117から分かるように、3つ全てのワークキューが全てのSPUに対して同じ優先度を有している。さらに、3つ全てのワークキューが、同一値のレディカウント、最小競合度および最大競合度を有している。この例では、さらにワークキュー118、118および118に関連する各ジョブチェーンについて、アイドルカウントが8に等しいという仮定もされている。さらに、全てのワークキューが最初に同一のポリシーモジュールアフィニティを有するという仮定もされている。例えば、SPUのいずれもが、自身のローカルストアにロードされたポリシーモジュールを最初に有していなくてもよい。代わりに、全てのSPUが、ワークキュー118、118および118についてのポリシーモジュールとは異なるポリシーモジュールを有していてもよい。さらに、ワークキュー118、118および118のそれぞれが同一のポリシーモジュールを有しており、このポリシーモジュールが各SPUに前もってロードされているとしてもよい。
上述の階層の基準1および2に基づき、最初に、レディカウントが競合度よりも小さいワークキューにSPUが割り当てられる。3つ全てのワークキューのスケジュール可能性およびレディが等しくなると、基準3(優先度)が優先する。しかしながら、この例では、全てのワークキューが全てのSPUについて等しい優先度を持つ。さらに、全てのワークキューのポリシーモジュールアフィニティと緊急度が等しいので、残りのSPUは、基準6にしたがって、すなわち競合度をバランスさせる態様でワークキューに割り当てられる。よって、SPU0とSPU2はワークキュー118上のワークに割り当てられ、SPU3とSPU5はワークキュー118上のワークに割り当てられ、SPU4とSPU6はワークキュー118上のワークに割り当てられる。したがって、この例では、利用可能なSPUを求めて競争するワークキューの間でできるだけ競合度がバランスするように、優先度テーブルが構成されている。
図2Eは、SPUの割り当てにおいてレディカウントの値が異なることによる影響の例を示す。この例では、優先度テーブルは図2Dのものと同一である。しかしながら、ワークキュー118についてのレディカウントは8に等しいが、ワークキュー118および118についてのレディカウント値はそれぞれ1に等しい、最初に、SPU0がワークキュー118に割り当てられ、SPU1がワークキュー118に割り当てられ、SPU2がワークキュー118に割り当てられる。この最初の割り当てが生じると、ワークキュー118および118について、レディカウント=競合度=1が成り立つ。しかしながら、ワークキュー118は、自身の競合度よりも小さいレディカウントを有するので、SPU3、SPU4およびSPU5は優先的にワークキュー118に割り当てられる。
階層内でのレディカウントの位置を使用して、セルプロセッサ100内の利用可能なSPUの全てを特定のワークキューが独占できないように保証してもよい。例えば、図2Fにおいて、全てのSPUについてワークキュー118が優先度1を有し、ワークキュー118、118は優先度2を有するように優先度テーブル117が構成される。さらに、ワークキュー118、118、118の全てが、レディカウント=1、最大競合度=8、最小競合度=1、アイドルリクエストカント=8である。最初に、「レディネス」に基づき、すなわち競合度がレディカウント以下であるかに基づき、ワークキュー118、118、118にSPUが割り当てられる。最初は「レディネス」が「優先度」よりも優先するので、SPU0がワークキュー118に割り当てられ、SPU1がワークキュー118に割り当てられ、SPU2がワークキュー118に割り当てられる。この時点で、3つ全てのワークキューが等しい「レディネス」を有する。したがって、上述の階層に基づいて、より低い優先度値に基づきSPU3、SPU4およびSPU5が続けてワークキュー118に割り当てられる。ワークキュー118についての競合度=4であり、依然として(レディカウント+アイドルリクエストカウント=9)よりも小さいので、この割り当ては「スケジュール可能性」の要件に違反しない。
ワークキューについてのレディカウント値に応じて、より多くのSPUをより低い優先度のワークに割り当てることが可能である。例えば、図2Gは図2Fにおける状況を示しており、全てのSPUについてワークキュー118が優先度1を有し、ワークキュー118、118が優先度2を有するように優先度テーブル117が構成される。しかしながら、ワークキュー118はレディカウント「1」を有する一方、ワークキュー118、118はレディカント「8」を有する。したがって、最初にSPU0がワークキュー118に割り当てられ、SPU1がワークキュー118に割り当てられ、SPU2がワークキュー118に割り当てられる。この時点で、ワークキュー118についてのレディネスは満足しているが、ワークキュー118、118については満足していない。したがって、上述の階層に基づき、たとえ優先度の観点からは好適度が低くても、競合度がレディカウントよりも小さいワークキューに残りの利用可能なSPUが割り当てられる。ポリシーモジュールアフィニティが等しいと仮定すると、ワークキュー118およびワークキュー118の間で競合度のバランスを試みる方法で利用可能なSPUの割り当てがなされる。これは、レディネス、優先度、ポリシーモジュールアフィニティおよび緊急度が等しい場合、基準6(バランスの取れた競合度)が適用されるからである。
上述したように、単一のワークキューによるSPUの独占を防止するように、一般的には階層パラメータ、特に優先度テーブル117を構成することができる。しかしながら、この階層の文脈の範囲内で、一つのワークキューが全ての利用可能なSPUを独占するようにパラメータおよび優先度テーブルを構成することも可能である。例えば、図2Hに示すように、優先度テーブル117を以下のように構成することができる。ワークキュー118、118、118の全てが、レディカウント=8、最大競合度=8、最小競合度=1、アイドルリクエストカウント=8を有する。ワークキュー118が全てのSPUについて優先度=1を有する一方で、ワークキュー118、118は全てのSPUについて優先度=2を有する。この例では、レディカウントが競合度に等しくなるまで、全てのワークキューが等しいレディネスを有する点に注意する。しかしながら、レディカウントが利用可能なSPUの数以上であるため、3つ全てのワークキュー118、118、118についてこのことが当てはまる。他よりも「レディ」が大きいワークキューがないので、基準3にしたがい優先度に基づきSPUが割り当てられ、全ての利用可能なSPUがワークキュー118に割り当てられる。
本発明の実施の形態において、SPMM112はインタオペラビリティのために最適化されてもよい。そのようなインタオペラビリティの例を図3A〜3Fに概略で示す。例えば、SPMM112は図3Aに示すように、特に有利なタイプの通常のSPUスレッドとして実装することができる。このように、SPMMを実装する処理システムは、SPUスレッドとインターオペレートすることができる。あるいは、その逆も同様である。そのような実施の形態において、SPUスレッドはまれな高い優先度のプリエンプションに対応するために役立つ。
さらに図3Bに示されるように、SPURSはSPMMのコンテクスト内の一つのありうるポリシーモジュールとして実装してもよい。このように、SPURSは特定のタスクに作用することができ、そこでは、SPMMは、他のタスクについて作業するためにSPURSコードを何か他のものと入れ替えることができる。SPMMは、複数のSPURSタスクセットを優先度に従いつつ、他のSPUタスクシステムの次にスケジュールすることができる。さらに、SPUスレッドがSPURSとSPMMを異なるSPUスレッドとして実装することも可能である。このように、本発明の実施の形態は、SPURSとSPUスレッドのどちらとも完全にインターオペレートすることができる。いろいろなプログラミングモデルを通じてスケジューリングの機能が重要である。この機能は、類似した特徴をもつセル(Cell)プロセッサや他の並列プロセッサデバイスにとって特に役立つ。
図3Bから分かるように、SPURS等のSPUタスクシステム内にSPMMが組み込まれていてもよい。この場合、上述のSPUタスクシステムインスタンスは、SPURSインスタンス、すなわち、関連するSPUスレッドグループを含むSPURSの一つのインスタンス化のコンテクストを指定してもよい。SPMM112をSPURSカーネルとみなしてもよい。SPURSカーネルは、例えば、ワークキュー118をスケジュールしポリシーモジュールをSPUローカルストア110にロードする全てのSPURS SPUスレッド上に常駐する比較的小さなバイナリコードである。
図3C−3Dは、異なるプログラミングモデルを実装するSPU上のローカルストレージに対するメモリマップを示す。図3Cは、SPMMを実装するSPUのローカルストレージ310に対するメモリマップを示す。ここで、SPMMカーネル312はポリシー314をロードし、その後、SPUオペレーションは、ワークが完了するか、プリエンプトのイベントが起こるまでは、そのポリシーによって管理される。ポリシー314は、カスタム・ポリシー、すなわち特定のアプリケーションまたはオペレーションのクラス用に特別に設計されたものであってもよい。開発者は、特別なアプリケーションに合った、そのようなカスタムポリシーを作成することができる。図3Dは、ローカルストレージ320に対するメモリマップを示し、ここではSPURS322がSPMM312支配下のポリシーとして実装されている。SPURSポリシー322は、SPURSタスクセット324を管理する。SPURSが複数のSPURSタスクに対して同じプログラムスタートアドレスでSPMM上で走るように、SPURSを修正することができる。SPMM312下で走っているときは、SPURSポリシー322は複数のタスクセットを管理する必要はない。

SPMMの長所は、ワークの性質の要求に応じて、SPURSおよび他のポリシーを簡単に切り替えることができることである。例えば、図3Eは、ローカルストレージ320に対するメモリマップを示し、ここでは、SPUタスクマネージャ(STM)322はSPMM312支配下のポリシーとしてを実装されている。STMポリシー332は、タスク・コード334とタスクデータ336、338のセットをもつSTMタスクセットを管理する。STMポリシー332は、メインメモリに格納された一つ以上のタスク定義をローカルストレージ320に読み出す。タスク定義に含まれる情報に基づいて、SPUはタスク定義に関連したコードやデータをメインメモリから、選択されたSPUに関連づけられたローカルメモリにロードする。選択されたSPUはそのコードやデータを用いて一つ以上のタスクを実行する。STMが複数のSTMタスクに対して同じプログラムスタートアドレスでSPMM上を走るように、STMを修正することができる。SPMM312下で走っているときは、STMポリシー332は複数のタスクセットを管理する必要はない。STMは、本出願と譲受人が共通する米国特許出願11/238,087号、"SPU TASK MANAGER FOR CELL PROCESSOR", John P. Bates, Payton R. White, Richard Stenson, Howard Berkey, Attila Vass and Mark Cernyに詳しく記載されている。この出願は本願と同日に出願されており、その開示全体は参照によりここに取り込まれる。
SPMM下でロードされることがあるもう一つのありうるポリシーは、セルプロセッサタスク・データ管理(CTDM)として知られている。図3Fは、ローカルストレージ320に対するメモリマップを示し、ここではCTDM342がSPMM312支配下のポリシーとして実装されている。CTDMポリシー34は、SPUが、ローカルストレージ320に入れるには大き過ぎるデータをより小さなセグメント344に分割することを許し、これにより、データはSPU上で走るコード346によって処理できるようになる。データは、グラフィックカードのような後段のプロセッサ上での処理にふさわしいサイズのグループに分割することもできる。CTDMは、本出願と譲受人が共通する米国特許出願11/238,095号、"CELL PROCESSOR TASK AND DATA MANAGEMENT", Richard B. Stenson and John P. Batesに詳しく記載されている。この出願は本願と同日に出願されており、その開示全体は参照によりここに取り込まれる。
本発明の実施の形態は、既存のSPUプログラミングモデルの幅広い理解の結果である。一つのモデルが全てのアプリケーションに対して完全であるはずがないことは、多くの場合、本当である。したがって、エンジニアはカスタムメイドのプログラミングモデルを開発する傾向がある。全てのSPUコードが同じ会社によって書かれるなら、インタオペラビリティは問題にはならない。しかし、ミドルウェアが必要とされ、SPUコードが効率良く相互運用しなければならない場合は、インタオペラビリティは問題となりうる。
上述のように動作する図1に示したタイプの並列処理ユニットは、図4に示したより大きなプロセッシングシステム400の一部として実装されてもよい。システム400は、セルプロセッサモジュール401とメモリ402(例えば、RAM、DRAM、ROMのようなもの)を含む。さらに、プロセッシングシステム400は複数のセルプロセッサモジュール401を有してもよい。セルプロセッサモジュール401は一般に一つ以上のプロセッサPPUと一つ以上のSPU(SPU1、SPU2、…、SPUN)を有する。SPUは上述のようにSPMMの制御下で動作するように構成されてもよい。プロセッサモジュール401はメモリフローコントローラ(MFC)を有してもよい。セルプロセッサモジュール401は、例えば図1で示したタイプのセルプロセッサであってもよい。メモリ402は上述のように構成されたデータとコードを含む。具体的には、メモリには、ワークキューアレイ404、ワークキュー406およびポリシーモジュール408が含まれる。各ポリシーモジュール408には、上述のように、コード、データ、あるいはコードとデータの結合が含まれる。
システム400には、周知の支援機能410として、例えば、入出力(I/O)エレメント411、電源(P/S)412、クロック(CLK)413およびキャッシュ414が含まれる。システム400はオプションとして、プログラムおよび/またはデータを格納するためのディスクドライブ、CD−ROMドライブ、テープドライブ、あるいはマスストレージデバイス415などが含まれる。コントローラはオプションとして、コントローラ400とユーザ間の相互作用を容易にするためのディスプレイユニット416やユーザインタフェースユニット418を含んでもよい。ディスプレイユニット416は、テキスト、数字、グラフィカルシンボルまたはイメージを表示するCRT(cathode ray tube)やフラットパネルスクリーンの形態を取ってもよい。ユーザインタフェース418はキーボード、マウス、ジョイスティック、ライトペンその他のデバイスを含んでもよい。セルプロセッサモジュール401、メモリ402、およびシステム400の他の構成要素は、図4に示すシステムバス420を介して、信号(例えばコードインストラクションやデータ)を互いにやりとりしてもよい。
ここでは、I/Oという用語は、システム400や周辺デバイスへ/からデータを転送する任意のプログラム、オペレーションあるいはデバイスのことを言う。転送とは、一つのデバイスからの出力や別のデバイスへの入力のことである。周辺デバイスには、キーボードやマウスのような入力のみのデバイス、プリンタのような出力のみのデバイス、書き込み可能CD−ROMのような入力デバイスと出力デバイスのどちらにもなるデバイスが含まれる。「周辺デバイス」という用語は、マウス、キーボード、プリンタ、モニタ、外部Zipドライブ、スキャナなどの外部デバイスだけでなく、CD−ROMドライブ、CD−Rドライブ、内部モデムのような内部デバイスや、フラッシュメモリリーダ/ライタ、ハードドライブのような他の周辺機器を含む。
一例として、一般性を損なうことなく、例えば適切なプログラミングによって、ワークキュー配列404内のワーク定義の関連パラメータをユーザが調整できるようにユーザインタフェース418を構成してもよい。特に、ユーザインタフェース418は、レディカウント、アイドルリクエストカウント、優先度、最大競合度および最小競合度の値を調整して、プロセッサモジュール401上で実行されるときにプログラム403のパフォーマンスをユーザが最適化できるようにしてもよい。このような可能性は、プログラム403またはその一部の開発者であるユーザにとって特に有用である。
プロセッサモジュール401は、メモリ402に格納され、読み出され、プロセッサモジュール401によって実行されるメインプログラム403のデータとプログラムコードインストラクションに応じて、ワークキュー406のタスクの性能を管理してもよい。プログラム403のコード部分は、アセンブリ、C++、JAVA(登録商標)あるいはその他の数多くの言語のような、数ある異なるプログラミング言語の任意の一つに適合するものであってもよい。プロセッサモジュール401は汎用コンピュータを形成し、プログラムコード403のようなプログラムを実行するときは、特定用途のコンピュータになる。プログラムコード403はここではソフトウェアで実装され、汎用コンピュータ上で実行されるものとして記述したが、当業者であれば、タスク管理の方法は、特定用途向け集積回路(ASIC)や他のハードウエア回路のようなハードウエアを用いて実装してもよいことは理解されよう。このように、本発明の実施の形態は、全体あるいは一部が、ソフトウェア、ハードウエア、あるいはそれらの組合せで実装されてもよいことが理解されよう。ある実施の形態では、プログラムコード403は、図2Aの方法200および/または図2Bのアルゴリズム220に共通する特徴をもつ方法を実行する、プロセッサ読み込み可能なインストラクションセットを含んでもよい。
上述の議論はセルプロセッサについてなされたが、本発明の実施の形態は任意のマルチプロセッサ方式を用いて実装してもよい。具体的には、本発明の実施の形態は、並列プロセッサのいろいろな構成で実装してもよい。例えば、本発明は、SPUライクなプロセッサをもつが、PPUライクなプロセッサをもたない構成で実装されてもよい。実施の形態は、一つ以上のプロセッサと、8よりも多いか少ない数のSPU(あるいはローカルメモリをもつ類似のプロセッサ)とをもつ並列プロセッサ環境で実装されてもよい。本発明の実施の形態は、SPUローカルストレージ空間の利用が少ないSPU駆動型の高性能SPU管理の解決策を提供する。上述のように、本発明の実施の形態によれば、複数のSPU上のワークを並列のSPUが処理することが可能になる。さらに、SPMMモデルのモジュラ型の性質は、それがいろいろなプログラミングモデルやタスクシステムがインターオペレートするのを可能にしている点、好ましいものである。
本発明の好ましい実施の形態を完全な形で説明してきたが、いろいろな代替物、変形、等価物を用いることができる。したがって、本発明の範囲は、上記の説明を参照して決められるものではなく、請求項により決められるべきであり、均等物の全範囲も含まれる。ここで述べた特徴はいずれも、好ましいかどうかを問わず、他の特徴と組み合わせてもよい。請求項において、明示的に断らない限り、各項目は1またはそれ以上の数量である。請求項において「〜のための手段」のような語句を用いて明示的に記載する場合を除いて、請求項がミーンズ・プラス・ファンクションの限定を含むものと解してはならない。
本発明の実施の形態に係るセルプロセッサの概略図である。 本発明の実施の形態に係るセルプロセッサ方法の実施例を示すフローチャートである。 本発明の実施の形態に係るセルプロセッサにおいてワークキューを選ぶアルゴリズムを示すフローチャートである。 本発明の実施の形態に係るセルプロセッサにおいてSPUにワークを割り当てるための優先度階層の実装を示すブロック図である。 本発明の実施の形態に係るセルプロセッサにおいてSPUにワークを割り当てるための優先度階層の実装を示すブロック図である。 本発明の実施の形態に係るセルプロセッサにおいてSPUにワークを割り当てるための優先度階層の実装を示すブロック図である。 本発明の実施の形態に係るセルプロセッサにおいてSPUにワークを割り当てるための優先度階層の実装を示すブロック図である。 本発明の実施の形態に係るセルプロセッサにおいてSPUにワークを割り当てるための優先度階層の実装を示すブロック図である。 本発明の実施の形態に係るセルプロセッサにおいてSPUにワークを割り当てるための優先度階層の実装を示すブロック図である。 本発明の実施の形態を実装するためのソフトウェアアーキテクチャを例示する概略図である。 本発明の実施の形態を実装するためのソフトウェアアーキテクチャを例示する概略図である。 本発明の実施の形態に係るセルプロセッシングのSPMMベースの実装を例示するメモリマップである。 本発明の実施の形態に係るセルプロセッシングのSPMMベースの実装を例示するメモリマップである。 本発明の実施の形態に係るセルプロセッシングのSPMMベースの実装を例示するメモリマップである。 本発明の実施の形態に係るセルプロセッシングのSPMMベースの実装を例示するメモリマップである。 本発明の実施の形態に係るセルプロセッシングシステムのブロック図である。

Claims (47)

  1. 一つ以上の中央プロセッサと一つ以上の第2処理要素とを含み、各第2処理要素がプロセッサとローカルメモリを含むプロセッサシステムにおいて、一つ以上の第2処理要素上のコードとデータを管理するための方法であって、
    一つ以上の第2処理要素上で実行されるポリシーモジュールマネージャが、優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップと、
    前記ポリシーモジュールマネージャが、選択された一つ以上のワークキュー用のポリシーモジュールを、前記選択された一つ以上の第2処理要素にロードするステップであって、前記ポリシーモジュールが自身のコンテクストデータを管理するように構成されている、ステップと、
    前記ポリシーモジュールが、前記選択された一つ以上のワークキューを解釈するステップと、
    前記ポリシーモジュール、前記選択された一つ以上のワークキューのうちの一つまたは複数からのワークを、前記選択された一つ以上の第2処理要素のローカルメモリにロードするステップと、
    前記選択された一つ以上の第2処理要素が、前記ワークを実行するステップと、
    前記ワークの完了後またはプリエンプションが起きたとき、前記ポリシーモジュールが、前記選択された一つ以上の第2処理要素の制御権を前記ポリシーモジュールマネージャに戻すステップと、
    を含む方法。
  2. 前記メインメモリからポリシーモジュールをロードするステップは、前記ポリシーモジュールマネージャが、ワークキューアレイのワーク定義から、前記メインメモリにおける前記ポリシーモジュールのメモリアドレスを読み出すことを含む請求項1に記載の方法。
  3. 前記選択された一つ以上のワークキューからワークをロードするステップは、前記ポリシーモジュール、ワークキューアレイのワーク定義から、前記メインメモリにおける前記ワークのメモリアドレスを読み出すことを含む請求項1または2に記載の方法。
  4. 前記ワークの前記メモリアドレスはコードとデータの両方を含む請求項3に記載の方法。
  5. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから前記選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、前記一つ以上のワークキューのうち特定の一つがスケジュール可能であるかを判定することを含む請求項1ないし4のいずれかに記載に記載の方法。
  6. 前記一つ以上のワークキューのうち特定の一つがスケジュール可能であるかを判定するステップは、前記ポリシーモジュールマネージャが、前記ワークキューのうち特定の一つについて、競合度、優先度、レディカウント、最大競合度アイドルリクエストカウントの少なくとも一つを判定することを含む請求項5に記載の方法。
  7. 前記ワークキューのうち特定の一つがスケジュール可能であるかを判定するステップは、前記ポリシーモジュールマネージャが、
    優先度=0、または
    レディカウント=0、または
    競合度が最大競合度以上、または
    競合度が(レディカウント+アイドルリクエストカウント)以上であるかを判定することを含む請求項6に記載の方法。
  8. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから前記選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定することを含む請求項1ないし7のいずれかに記載の方法。
  9. 一つ以上のワークキューがレディネスを有するかを判定するステップは、前記ポリシーモジュールマネージャが、前記一つ以上のワークキューについて競合度およびレディカウントを判定することを含み、前記ワークの実行は、スケジュール可能であり、かつ競合度がレディカウントよりも小さい一つ以上のワークキューのうちの一つまたは複数に、一つ以上の第2処理要素を優先的に割り当てることを含む請求項8に記載の方法。
  10. スケジュール可能であり、かつ競合度がレディカウントよりも小さい一つ以上のワークキューに一つ以上の第2処理要素を優先的に割り当てるステップは、前記ポリシーモジュールマネージャが、競合度がレディカウントよりも小さいスケジュール可能なワークキューに一つ以上の第2処理要素を割り当て、競合度がレディカウントよりも小さくないスケジュール可能なワークキューに第2処理要素を割り当てないことを含む請求項9に記載の方法。
  11. 前記ポリシーモジュールマネージャが特定のワークキューについてのアイドルリクエストカウントを判定することをさらに含み、前記ワークを実行することが、前記特定のワークキューについてのレディカウント値と前記アイドルリクエストカウントの合計以下である第2処理要素の数を前記特定のワークキューに割り当てることを含む請求項9または10に記載の方法。
  12. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定すること、およびレディネスを有する一つ以上のスケジュール可能なワークキューについて第2処理要素毎の優先度値を判定することを含む請求項1ないし11のいずれかに記載の方法。
  13. 前記選択された一つ以上のワークキューを割り当てるステップは、前記ポリシーモジュールマネージャが、スケジュール可能でありレディネスを有するワークキューに対して、特定の第2処理要素についてより好ましい優先度値を有するワークキューにその特定の第2処理要素を割り当てることを含む請求項12に記載の方法。
  14. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから前記選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定し、レディネスを有する一つ以上のスケジュール可能なワークキューについて第2処理要素毎の優先度値を判定し、任意のワークキューについてのコードまたはデータが任意の第2処理要素に既にロードされているかを判定することを含む請求項1ないし13のいずれかに記載の方法。
  15. 前記選択された一つ以上のワークキューを割り当てるステップは、前記ポリシーモジュールマネージャが、レディネスを有しかつ特定の第2処理要素について等しい優先度を持つ二つ以上のスケジュール可能なワークキューに対して、レディネスを有し優先度が等しい前記二つ以上のスケジュール可能なワークキューのうち、前記特定の第2処理要素のローカルストアにコードまたはデータが既にロードされているワークキューに前記特定の第2処理要素を優先的に割り当てることを含む請求項14に記載の方法。
  16. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定し、前記一つ以上のワークキューについて第2処理要素毎の優先度値を判定し、前記一つ以上のワークキューについてワークキューアフィニティを判定し、前記一つ以上のワークキューについて緊急度を判定することを含む請求項1ないし15のいずれかに記載の方法。
  17. 前記選択された一つ以上のワークキューに割り当てるステップは、スケジュール可能であり、レディネスを有し、特定の第2処理要素について優先度が等しくかつワークキューアフィニティが等しい二つ以上のワークキューに対して、前記ポリシーモジュールマネージャが、前記二つ以上の特定のワークキューのうち緊急度の高いワークキューに前記特定の第2処理要素を優先的に割り当てることを含む請求項16に記載の方法。
  18. 前記一つ以上のワークキューについて緊急度を判定するステップは、前記ポリシーモジュールマネージャが、前記一つ以上のワークキューについて競合度を判定し、前記一つ以上のワークキューについて最小競合度を判定することを含む請求項16または17に記載の方法。
  19. 前記二つ以上の特定のワークキューのうち緊急度の高いワークキューに前記特定の第2処理要素を優先的に割り当てるステップは、前記ポリシーモジュールマネージャが、前記競合度がゼロより大きいが前記最小競合度よりも小さいワークキューに、そうではないワークキューを超えて、前記特定のワークキューを割り当てることを含む請求項18に記載の方法。
  20. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定し、前記一つ以上のワークキューについて第2処理要素毎の優先度値を判定し、前記一つ以上のワークキューについてワークキューアフィニティを判定し、前記一つ以上のワークキューについて緊急度を判定し、前記一つ以上のワークキューについて競合度を判定することを含む請求項1ないし19のいずれかに記載の方法。
  21. 前記選択された一つ以上のワークキューを割り当てるステップは、スケジュール可能であり、レディネスを有し、特定の第2処理要素について優先度およびワークキューアフィニティが等しく、かつ緊急度が等しい二つ以上の特定のワークキューに対して、前記ポリシーモジュールマネージャが、二つ以上の利用可能な第2処理要素の間で前記二つ以上の特定のワークキューの競合度がバランスされる態様で、前記二つ以上の特定のワークキューを前記二つ以上の利用可能な第2処理要素に割り当てることを含む請求項20に記載の方法。
  22. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定し、前記一つ以上のワークキューについて第2処理要素毎の優先度値を判定し、前記一つ以上のワークキューについてワークキューアフィニティを判定し、前記一つ以上のワークキューについて緊急度を判定し、前記一つ以上のワークキューについて競合度を判定し、前記一つ以上のワークキューについて第2処理要素毎のポリシーモジュールアフィニティを判定することを含む請求項1ないし21のいずれかに記載の方法。
  23. 前記一つ以上のワークキューについて第2処理要素毎のポリシーモジュールアフィニティを判定することは、前記ポリシーモジュールマネージャが、特定の第2処理要素のローカルストアに特定のワークキュー用のポリシーモジュールが既にロードされているかを判定することを含む請求項22に記載の方法。
  24. 前記選択された一つ以上のワークキューを割り当てるステップは、スケジュール可能であり、レディネスを有し、特定の第2処理要素について優先度およびワークキューアフィニティが等しく、緊急度が等しく、かつ競合度のバランスが取れている二つ以上の特定のワークキューに対して、前記ポリシーモジュールマネージャが、前記特定のワークキューとともにポリシーモジュールアフィニティを有する第2処理要素に特定のワークキューを優先的に割り当てることを含む請求項22または23に記載の方法。
  25. 優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップは、前記ポリシーモジュールマネージャが、一つ以上のワークキューがスケジュール可能でありかつレディネスを有するかを判定し、前記一つ以上のワークキューについて第2処理要素毎の優先度値を判定し、前記一つ以上のワークキューについてワークキューアフィニティを判定し、前記一つ以上のワークキューについて緊急度を判定し、前記一つ以上のワークキューについて競合度を判定し、前記一つ以上のワークキューについて第2処理要素毎のポリシーモジュールアフィニティを判定し、前記一つ以上のワークキューについてワークロードIDを判定することを含む請求項1ないし24のいずれかに記載の方法。
  26. 前記選択された一つ以上のワークキューを割り当てるステップは、スケジュール可能であり、レディネスを有し、特定の第2処理要素について優先度、ワークキューアフィニティおよびポリシーモジュールアフィニティが等しく、緊急度が等しく、かつ競合度のバランスが取れている二つ以上の特定のワークキューに対して、前記ポリシーモジュールマネージャが、より好適なワークロードIDを有する特定のワークキューを前記特定の第2処理要素に優先的に割り当てることを含む請求項25に記載の方法。
  27. インメモリと、
    前記メインメモリに接続された中央プロセッサと、
    前記メインメモリおよび前記中央プロセッサに接続され、それぞれがプロセッサユニットとローカルメモリを有する一つ以上の第2処理要素と、
    一つ以上の前記第2処理要素上で実行されるポリシーモジュールマネージャであって、優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるように構成されたポリシーモジュールマネージャとを含み、
    前記ポリシーモジュールマネージャは、前記選択された一つ以上のワークキュー用のポリシーモジュールを前記選択された一つ以上の第2処理要素へロードするように構成されており、前記ポリシーモジュールは、前記選択された一つ以上のワークキューのうち一つまたは複数から得たワークを前記選択された一つ以上の第2処理要素にロードし、前記選択された一つ以上の第2処理要素上で解釈および処理し、前記ワークの完了後またはプリエンプションが起きたとき、前記選択された一つ以上の第2処理要素の制御権を前記ポリシーモジュールマネージャに戻すように構成され
    前記ポリシーモジュールが自身のコンテクストデータを管理するように構成されることを特徴とするプロセッサ。
  28. 前記メインメモリは一つ以上のワークキューアレイを含み、各ワークキューは一つ以上のワーク定義を含み、各ワーク定義はワークキューと関連づけられている請求項27に記載のプロセッサ。
  29. 前記一つ以上のワークキューアレイのそれぞれは、正確に16個のワーク定義を含む請求項28に記載のプロセッサ。
  30. 各ワーク定義はワークキューのメモリアドレスとポリシー定義のメモリアドレスを含む請求項28または29に記載のプロセッサ。
  31. 各ワーク定義は第2処理要素毎の優先度の値を含む請求項30に記載のプロセッサ。
  32. 各ワーク定義はレディカウント値を含む請求項30または31に記載のプロセッサ。
  33. 各ワーク定義は最大許容競合値を含む請求項30ないし32のいずれかに記載のプロセッサ。
  34. 各ワーク定義は最小競合値を含む請求項30ないし33のいずれかに記載のプロセッサ。
  35. 各ワーク定義はアイドルリクエストカウント値を含む請求項30ないし34のいずれかに記載のプロセッサ。
  36. 前記ポリシー定義はポリシーモジュール第2処理要素コードイメージのアドレスを含む請求項30ないし35のいずれかに記載のプロセッサ。
  37. 前記ワークキューの前記メモリアドレスはコードとデータの両方を含む請求項30ないし36のいずれかに記載のプロセッサ。
  38. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性が他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし37のいずれかに記載のプロセッサ。
  39. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性が該ワークキューのレディネスよりも優先し、かつ該ワークキューのレディネスが他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし38のいずれかに記載のプロセッサ。
  40. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性がレディネスよりも優先し、該ワークキューのレディネスが該ワークキューの第2処理要素毎の優先度に優先し、該ワークキューの第2処理要素毎の優先度が他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし39のいずれかに記載のプロセッサ。
  41. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性が該ワークキューのレディネスよりも優先し、該ワークキューのレディネスが該ワークキューの第2処理要素毎の優先度に優先し、該ワークキューの優先度が該ワークキューのワークキューアフィニティよりも優先し、該ワークキューのワークキューアフィニティが他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし40のいずれかに記載のプロセッサ。
  42. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性が該ワークキューのレディネスよりも優先し、該ワークキューのレディネスが該ワークキューの第2処理要素毎の優先度に優先し、該ワークキューの第2処理要素毎の優先度が該ワークキューのワークキューアフィニティよりも優先し、該ワークキューのワークキューアフィニティが前記一つ以上の選択されたワークキューのバランスの取れた競合度よりも優先し、前記一つ以上の選択されたワークキューのバランスの取れた競合度が他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし41のいずれかに記載のプロセッサ。
  43. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性が該ワークキューのレディネスよりも優先し、該ワークキューのレディネスが該ワークキューの第2処理要素毎の優先度に優先し、該ワークキューの第2処理要素毎の優先度が該ワークキューのワークキューアフィニティよりも優先し、該ワークキューのワークキューアフィニティが前記一つ以上の選択されたワークキューのバランスの取れた競合度よりも優先し、前記一つ以上の選択されたワークキューのバランスの取れた競合度が該ワークキューのポリシーモジュールアフィニティよりも優先し、該ワークキューのポリシーモジュールアフィニティが他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし42のいずれかに記載のプロセッサ。
  44. 前記選択された一つ以上のワークキューを前記メインメモリから前記選択された一つ以上の第2処理要素に割り当てる際に、ワークキューのスケジュール可能性が該ワークキューのレディネスよりも優先し、該ワークキューのレディネスが該ワークキューの第2処理要素毎の優先度に優先し、該ワークキューの第2処理要素毎の優先度が該ワークキューのワークキューアフィニティよりも優先し、該ワークキューのワークキューアフィニティが前記一つ以上の選択されたワークキューのバランスの取れた競合度よりも優先し、前記一つ以上の選択されたワークキューのバランスの取れた競合度が該ワークキューのポリシーモジュールアフィニティよりも優先し、該ワークキューのポリシーモジュールアフィニティが該ワークキューのワークロードIDよりも優先し、該ワークキューのワークロードIDが他の全ての検討事項よりも優先するように前記優先権の階層が構成される請求項27ないし43のいずれかに記載のプロセッサ。
  45. ユーザインタフェースをさらに備え、該ユーザインタフェースは、前記選択された一つ以上のワークキューの一つ以上のパラメータをユーザが調整できるように構成されている請求項27ないし44のいずれかに記載のプロセッサ。
  46. データプロセッシングシステムであって、
    一つ以上のプロセッサを含み、
    各プロセッサは、メインメモリと、中央プロセッサユニットと、一つ以上の第2処理要素とを含み、
    第2処理要素は、プロセッサとローカルメモリを有し、
    前記メモリ、前記中央プロセッサユニット、前記第2処理要素は互いにデータバスで結合されており、
    前記メインメモリまたは前記ローカルメモリは、一つ以上の第2処理要素上でコードとデータを管理する方法を実行するためのプロセッサで実行可能なインストラクションを含み、
    当該方法は、
    一つ以上の第2処理要素上で実行されるポリシーモジュールマネージャが、優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップと、
    前記ポリシーモジュールマネージャが、選択された一つ以上のワークキュー用のポリシーモジュールを、前記選択された一つ以上の第2処理要素にロードするステップであって、前記ポリシーモジュールが自身のコンテクストデータを管理するように構成されている、ステップと、
    前記ポリシーモジュールが、前記選択された一つ以上のワークキューのうち選択された一つまたは複数を解釈するステップと、
    前記ポリシーモジュール、前記選択された一つ以上のワークキューのうちの一つまたは複数からのワークを、前記選択された一つ以上の第2処理要素のローカルメモリにロードするステップと、
    前記選択された一つ以上の第2処理要素が、前記一つ以上のタスクを実行するステップと、
    前記タスクの完了後またはプリエンプションが起きたとき、前記ポリシーモジュールが、前記選択された一つ以上の第2処理要素の制御権を前記ポリシーモジュールマネージャに戻すステップと、
    を含むことを特徴とするデータプロセッシングシステム。
  47. 中央プロセッサユニットと、それぞれがプロセッサとローカルメモリを有する一つ以上の第2処理要素とを含むプロセッサにおいて、前記一つ以上の第2処理要素上でコードとデータを管理する方法を実行するためのプロセッサ読み込み可能なインストラクションセットが具体化された非一時的なプロセッサ読み込み可能な記憶媒体であって、
    当該方法は、
    一つ以上の第2処理要素上で実行されるポリシーモジュールマネージャが、優先権の階層にしたがって、選択された一つ以上のワークキューをメインメモリから選択された一つ以上の第2処理要素に割り当てるステップと、
    前記ポリシーモジュールマネージャが、選択された一つ以上のワークキュー用のポリシーモジュールを、前記選択された一つ以上の第2処理要素にロードするステップであって、前記ポリシーモジュールが自身のコンテクストデータを管理するように構成されている、ステップと、
    前記ポリシーモジュールが、前記選択された一つ以上のワークキューのうち選択された一つまたは複数を解釈するステップと、
    前記ポリシーモジュール、前記選択された一つ以上のワークキューのうちの一つまたは複数からのワークを、前記選択された一つ以上の第2処理要素のローカルメモリにロードするステップと、
    前記選択された一つ以上の第2処理要素が、前記一つ以上のタスクを実行するステップと、
    前記タスクの完了後またはプリエンプションが起きたとき、前記ポリシーモジュールが、前記一つ以上の第2処理要素の制御権を前記ポリシーモジュールマネージャに戻すステップと、
    を含むことを特徴とする媒体。
JP2008533492A 2005-09-27 2006-09-25 並列プロセッサ方法と装置 Active JP4712876B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US11/238,086 2005-09-27
US11/238,086 US8316220B2 (en) 2005-09-27 2005-09-27 Operating processors over a network
US11/238,087 US8037474B2 (en) 2005-09-27 2005-09-27 Task manager with stored task definition having pointer to a memory address containing required code data related to the task for execution
US11/238,087 2005-09-27
US11/238,095 US7522168B2 (en) 2005-09-27 2005-09-27 Cell processor task and data management
US11/238,085 US7506123B1 (en) 2005-09-27 2005-09-27 Method and system for performing memory copy function on a cell processor
US11/238,077 2005-09-27
US11/238,077 US8141076B2 (en) 2005-09-27 2005-09-27 Cell processor methods and apparatus
US11/238,095 2005-09-27
US11/238,085 2005-09-27
US11/257,761 US7734827B2 (en) 2005-09-27 2005-10-24 Operation of cell processors
US11/257,761 2005-10-24
US11/461,390 US7975269B2 (en) 2005-09-27 2006-07-31 Parallel processor methods and apparatus
US11/461,390 2006-07-31
PCT/US2006/037334 WO2007038455A1 (en) 2005-09-27 2006-09-25 Cell processor methods and apparatus

Publications (2)

Publication Number Publication Date
JP2009510611A JP2009510611A (ja) 2009-03-12
JP4712876B2 true JP4712876B2 (ja) 2011-06-29

Family

ID=37622054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008533492A Active JP4712876B2 (ja) 2005-09-27 2006-09-25 並列プロセッサ方法と装置

Country Status (4)

Country Link
US (1) US7975269B2 (ja)
EP (2) EP1934737B1 (ja)
JP (1) JP4712876B2 (ja)
WO (1) WO2007038455A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160253210A1 (en) * 2004-07-26 2016-09-01 Yi-Chuan Cheng Cellular with Multi-Processors
WO2006027639A1 (en) * 2004-09-09 2006-03-16 Pirelli Tyre S.P.A. Method for allowing a control of a vehicle provided with at least two wheels in case of puncture of a tyre
US8037474B2 (en) * 2005-09-27 2011-10-11 Sony Computer Entertainment Inc. Task manager with stored task definition having pointer to a memory address containing required code data related to the task for execution
US7522168B2 (en) * 2005-09-27 2009-04-21 Sony Computer Entertainment Inc. Cell processor task and data management
US8141076B2 (en) * 2005-09-27 2012-03-20 Sony Computer Entertainment Inc. Cell processor methods and apparatus
US7975269B2 (en) 2005-09-27 2011-07-05 Sony Computer Entertainment Inc. Parallel processor methods and apparatus
US7734827B2 (en) * 2005-09-27 2010-06-08 Sony Computer Entertainment, Inc. Operation of cell processors
US8316220B2 (en) * 2005-09-27 2012-11-20 Sony Computer Entertainment Inc. Operating processors over a network
US7506123B1 (en) * 2005-09-27 2009-03-17 Sony Computer Entertainment Inc. Method and system for performing memory copy function on a cell processor
US8595747B2 (en) * 2005-12-29 2013-11-26 Sony Computer Entertainment Inc. Efficient task scheduling by assigning fixed registers to scheduler
US7647483B2 (en) * 2007-02-20 2010-01-12 Sony Computer Entertainment Inc. Multi-threaded parallel processor methods and apparatus
GB0703974D0 (en) * 2007-03-01 2007-04-11 Sony Comp Entertainment Europe Entertainment device
US8589943B2 (en) * 2007-08-15 2013-11-19 Sony Computer Entertainment Inc. Multi-threaded processing with reduced context switching
US9158713B1 (en) * 2010-04-07 2015-10-13 Applied Micro Circuits Corporation Packet processing with dynamic load balancing
US9026657B2 (en) 2010-12-03 2015-05-05 Synchronoss Technologies, Inc. Method and system for provisioning telecommunication services and equipment using sequential or parallel processing
US8949839B2 (en) 2012-07-26 2015-02-03 Centurylink Intellectual Property Llc Method and system for controlling work request queue in a multi-tenant cloud computing environment
US9286114B2 (en) * 2012-12-13 2016-03-15 Nvidia Corporation System and method for launching data parallel and task parallel application threads and graphics processing unit incorporating the same
US9838471B2 (en) * 2014-02-03 2017-12-05 Cavium, Inc. Method and an apparatus for work request arbitration in a network processor

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997006484A1 (en) * 1995-08-08 1997-02-20 Novell, Inc. Method and apparatus for strong affinity multiprocessor scheduling
US6665699B1 (en) * 1999-09-23 2003-12-16 Bull Hn Information Systems Inc. Method and data processing system providing processor affinity dispatching
JP2005513587A (ja) * 2001-05-10 2005-05-12 オラクル・インターナショナル・コーポレイション マルチポリシーリソーススケジューリングのための方法およびシステム
JP2005235228A (ja) * 2004-02-20 2005-09-02 Sony Computer Entertainment Inc マルチプロセッサシステムにおけるタスク管理方法および装置
JP2005235229A (ja) * 2004-02-20 2005-09-02 Sony Computer Entertainment Inc マルチプロセッサシステムにおけるプロセッサタスクの移動方法および装置

Family Cites Families (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3496551A (en) * 1967-07-13 1970-02-17 Ibm Task selection in a multi-processor computing system
US3596257A (en) * 1969-09-17 1971-07-27 Burroughs Corp Method and apparatus for allocating small memory spaces to a computer program
US5047923A (en) * 1987-08-21 1991-09-10 Siemens Aktiengesellschaft Modularly structured digital communication system for interconnecting terminal equipment and public networks
JPH01258135A (ja) * 1988-04-08 1989-10-16 Nec Corp トランザクション実行制御方式
US5185694A (en) * 1989-06-26 1993-02-09 Motorola, Inc. Data processing system utilizes block move instruction for burst transferring blocks of data entries where width of data blocks varies
US5136712A (en) * 1989-06-29 1992-08-04 Digital Equipment Corporation Temporary object handling system and method in an object based computer operating system
EP0416767A3 (en) * 1989-09-08 1992-04-29 Digital Equipment Corporation Position independent code location system
US5452452A (en) * 1990-06-11 1995-09-19 Cray Research, Inc. System having integrated dispatcher for self scheduling processors to execute multiple types of processes
JPH04123234A (ja) * 1990-09-14 1992-04-23 Hitachi Ltd マルチプロセッサのプロセススケジューリング方式及びメモリ管理方式
JPH05216844A (ja) * 1991-07-17 1993-08-27 Internatl Business Mach Corp <Ibm> マルチプロセッサデータ処理システムにおける改良されたタスク分散のための方法および装置
JP2809962B2 (ja) * 1993-03-02 1998-10-15 株式会社東芝 資源管理方式
US5528513A (en) * 1993-11-04 1996-06-18 Digital Equipment Corp. Scheduling and admission control policy for a continuous media server
US5745778A (en) * 1994-01-26 1998-04-28 Data General Corporation Apparatus and method for improved CPU affinity in a multiprocessor system
JP3658420B2 (ja) * 1994-04-14 2005-06-08 株式会社日立製作所 分散処理システム
US5794017A (en) * 1995-02-06 1998-08-11 International Business Machines Corporation Method and system of updating graphics memory in a graphics display system through multiple address transferring of pixel data
US6633897B1 (en) * 1995-06-30 2003-10-14 International Business Machines Corporation Method and system for scheduling threads within a multiprocessor data processing system using an affinity scheduler
US5832262A (en) * 1995-09-14 1998-11-03 Lockheed Martin Corporation Realtime hardware scheduler utilizing processor message passing and queue management cells
US6341324B1 (en) * 1995-10-06 2002-01-22 Lsi Logic Corporation Exception processing in superscalar microprocessor
US5978843A (en) 1995-12-06 1999-11-02 Industrial Technology Research Institute Scalable architecture for media-on-demand servers
EP0888585A1 (en) * 1996-03-19 1999-01-07 Massachusetts Institute Of Technology Computer system and computer implemented process for representing software system descriptions and for generating executable computer programs and computer system configurations from software system descriptions
US5826081A (en) * 1996-05-06 1998-10-20 Sun Microsystems, Inc. Real time thread dispatcher for multiprocessor applications
US5872972A (en) * 1996-07-05 1999-02-16 Ncr Corporation Method for load balancing a per processor affinity scheduler wherein processes are strictly affinitized to processors and the migration of a process from an affinitized processor to another available processor is limited
US6144986A (en) * 1997-03-27 2000-11-07 Cybersales, Inc. System for sorting in a multiprocessor environment
US6003112A (en) * 1997-06-30 1999-12-14 Intel Corporation Memory controller and method for clearing or copying memory utilizing register files to store address information
US6378072B1 (en) * 1998-02-03 2002-04-23 Compaq Computer Corporation Cryptographic system
US6295598B1 (en) * 1998-06-30 2001-09-25 Src Computers, Inc. Split directory-based cache coherency technique for a multi-processor computer system
US6289369B1 (en) * 1998-08-25 2001-09-11 International Business Machines Corporation Affinity, locality, and load balancing in scheduling user program-level threads for execution by a computer system
FR2792087B1 (fr) * 1999-04-07 2001-06-15 Bull Sa Procede d'amelioration des performances d'un systeme multiprocesseur comprenant une file d'attente de travaux et architecture de systeme pour la mise en oeuvre du procede
US6463457B1 (en) * 1999-08-26 2002-10-08 Parabon Computation, Inc. System and method for the establishment and the utilization of networked idle computational processing power
GB2394336B (en) 1999-11-19 2004-09-08 Gen Dynamics Decisions Systems Method of allocating memory
US7058750B1 (en) * 2000-05-10 2006-06-06 Intel Corporation Scalable distributed memory and I/O multiprocessor system
US6981260B2 (en) * 2000-05-25 2005-12-27 International Business Machines Corporation Apparatus for minimizing lock contention in a multiple processor system with multiple run queues when determining the threads priorities
US7565651B1 (en) * 2000-05-25 2009-07-21 Oracle International Corporation Parallel task scheduling system for computers
US20030154284A1 (en) * 2000-05-31 2003-08-14 James Bernardin Distributed data propagator
US6986052B1 (en) 2000-06-30 2006-01-10 Intel Corporation Method and apparatus for secure execution using a secure memory partition
US6502170B2 (en) * 2000-12-15 2002-12-31 Intel Corporation Memory-to-memory compare/exchange instructions to support non-blocking synchronization schemes
US7233998B2 (en) * 2001-03-22 2007-06-19 Sony Computer Entertainment Inc. Computer architecture and software cells for broadband networks
US6526491B2 (en) * 2001-03-22 2003-02-25 Sony Corporation Entertainment Inc. Memory protection system and method for computer architecture for broadband networks
US7178145B2 (en) * 2001-06-29 2007-02-13 Emc Corporation Queues for soft affinity code threads and hard affinity code threads for allocation of processors to execute the threads in a multi-processor system
US6996822B1 (en) * 2001-08-01 2006-02-07 Unisys Corporation Hierarchical affinity dispatcher for task management in a multiprocessor computer system
US6738378B2 (en) * 2001-08-22 2004-05-18 Pluris, Inc. Method and apparatus for intelligent sorting and process determination of data packets destined to a central processing unit of a router or server on a data packet network
CA2411294C (en) * 2001-11-06 2011-01-04 Everyware Solutions Inc. A method and system for access to automatically synchronized remote files
US7080379B2 (en) * 2002-06-20 2006-07-18 International Business Machines Corporation Multiprocessor load balancing system for prioritizing threads and assigning threads into one of a plurality of run queues based on a priority band and a current load of the run queue
US7089547B2 (en) * 2002-09-13 2006-08-08 International Business Machines Corporation Firmware updating
JP2004287801A (ja) 2003-03-20 2004-10-14 Sony Computer Entertainment Inc 情報処理システム、情報処理装置、分散情報処理方法及びコンピュータプログラム
US20050022173A1 (en) * 2003-05-30 2005-01-27 Codito Technologies Private Limited Method and system for allocation of special purpose computing resources in a multiprocessor system
US7236738B2 (en) * 2003-08-01 2007-06-26 Pathfire, Inc. Multicast control systems and methods for dynamic, adaptive time, bandwidth,frequency, and satellite allocations
US7236998B2 (en) * 2003-09-25 2007-06-26 International Business Machines Corporation System and method for solving a large system of dense linear equations
US7523157B2 (en) * 2003-09-25 2009-04-21 International Business Machines Corporation Managing a plurality of processors as devices
US7478390B2 (en) * 2003-09-25 2009-01-13 International Business Machines Corporation Task queue management of virtual devices using a plurality of processors
US7516456B2 (en) * 2003-09-25 2009-04-07 International Business Machines Corporation Asymmetric heterogeneous multi-threaded operating system
US7321958B2 (en) * 2003-10-30 2008-01-22 International Business Machines Corporation System and method for sharing memory by heterogeneous processors
US8028292B2 (en) * 2004-02-20 2011-09-27 Sony Computer Entertainment Inc. Processor task migration over a network in a multi-processor system
US7298377B2 (en) * 2004-06-24 2007-11-20 International Business Machines Corporation System and method for cache optimized data formatting
US7304646B2 (en) * 2004-08-19 2007-12-04 Sony Computer Entertainment Inc. Image data structure for direct memory access
US7522168B2 (en) * 2005-09-27 2009-04-21 Sony Computer Entertainment Inc. Cell processor task and data management
US8037474B2 (en) 2005-09-27 2011-10-11 Sony Computer Entertainment Inc. Task manager with stored task definition having pointer to a memory address containing required code data related to the task for execution
US7975269B2 (en) 2005-09-27 2011-07-05 Sony Computer Entertainment Inc. Parallel processor methods and apparatus
US8544014B2 (en) * 2007-07-24 2013-09-24 Microsoft Corporation Scheduling threads in multi-core systems
US20090165003A1 (en) * 2007-12-21 2009-06-25 Van Jacobson System and method for allocating communications to processors and rescheduling processes in a multiprocessor system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997006484A1 (en) * 1995-08-08 1997-02-20 Novell, Inc. Method and apparatus for strong affinity multiprocessor scheduling
US6665699B1 (en) * 1999-09-23 2003-12-16 Bull Hn Information Systems Inc. Method and data processing system providing processor affinity dispatching
JP2005513587A (ja) * 2001-05-10 2005-05-12 オラクル・インターナショナル・コーポレイション マルチポリシーリソーススケジューリングのための方法およびシステム
JP2005235228A (ja) * 2004-02-20 2005-09-02 Sony Computer Entertainment Inc マルチプロセッサシステムにおけるタスク管理方法および装置
JP2005235229A (ja) * 2004-02-20 2005-09-02 Sony Computer Entertainment Inc マルチプロセッサシステムにおけるプロセッサタスクの移動方法および装置

Also Published As

Publication number Publication date
EP1934737B1 (en) 2019-09-18
EP2312441B1 (en) 2019-06-12
EP2312441A2 (en) 2011-04-20
JP2009510611A (ja) 2009-03-12
US20070198628A1 (en) 2007-08-23
EP1934737A1 (en) 2008-06-25
WO2007038455A1 (en) 2007-04-05
US7975269B2 (en) 2011-07-05
EP2312441A3 (en) 2012-05-23

Similar Documents

Publication Publication Date Title
JP4712876B2 (ja) 並列プロセッサ方法と装置
JP4964243B2 (ja) プロセッサ方法と装置
JP4712877B2 (ja) 並列プロセッサのためのタスクマネージャ
US7647483B2 (en) Multi-threaded parallel processor methods and apparatus
US10241831B2 (en) Dynamic co-scheduling of hardware contexts for parallel runtime systems on shared machines
US9870252B2 (en) Multi-threaded processing with reduced context switching
JP6897574B2 (ja) アクセラレータ制御装置、アクセラレータ制御方法およびプログラム
CA2722670C (en) Scheduler instances in a process
JP2011044165A (ja) システムにおける要求のスケジューリング
US20120137300A1 (en) Information Processor and Information Processing Method
Pinho et al. Real-time fine-grained parallelism in ada
US9378062B2 (en) Interface between a resource manager and a scheduler in a process
JP2003186686A (ja) リソース制御装置、方法及び記憶媒体
JP2008243203A (ja) 仮想化されたデータ処理環境におけるワークロード管理
Chandran et al. AN EFFICIENT MULTIPROCESSOR MEMORY
JPH09167096A (ja) 仮想計算機システムにおけるスケジューリング方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101116

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110131

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110323

R150 Certificate of patent or registration of utility model

Ref document number: 4712876

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250