JP2024501454A

JP2024501454A - 高スループット及び低オーバーヘッドカーネルローンチのための圧縮されたコマンドパケット

Info

Publication number: JP2024501454A
Application number: JP2023535344A
Authority: JP
Inventors: プソールスラージ; エム．ベックマンブラッドフォード
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-12-23
Filing date: 2021-12-03
Publication date: 2024-01-12
Also published as: WO2022140043A1; EP4268176A1; KR20230124598A; CN116635829A; US20220197696A1

Abstract

計算カーネルをローンチするための方法、デバイス及びシステムが開示される。参照カーネルディスパッチパケットは、カーネルエージェントによって受信される。参照カーネルディスパッチパケットは、カーネルエージェントによって処理され、カーネルディスパッチ情報を決定する。カーネルディスパッチ情報は、カーネルエージェントによって記憶される。カーネルは、カーネルディスパッチ情報に基づいて、カーネルエージェントによってディスパッチされる。いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって受信され、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって処理され、記憶されたカーネルディスパッチ情報を取り出し、カーネルは、取り出されたカーネルディスパッチ情報に基づいて、カーネルエージェントによってディスパッチされる。【選択図】図６

Description

（関連出願の相互参照）
本願は、２０２０年１２月２３日に出願された「ＣＯＮＤＥＮＳＥＤＣＯＭＭＡＮＤＰＡＣＫＥＴＦＯＲＨＩＧＨＴＨＲＯＵＧＨＰＵＴＡＮＤＬＯＷＯＶＥＲＨＥＡＤＫＥＲＮＥＬＬＡＵＮＣＨ」と題する係属中の米国特許出願第１７／１３３，５７４号の利益を主張し、その全体が参照により本明細書に組み込まれる。

多くの高性能コンピューティング（high-performance computing、ＨＰＣ）アプリケーション（例えば、クリプキ（Kripke））は、ループ内で複数回ローンチ（launched）されるカーネルのシーケンス（例えば、「タスクグラフ」）を含む。ＧＰＵ実行時間の改善に伴い、各カーネルをローンチするのに必要な時間は、アプリケーションの全体的な性能における重要な要素になる。別の言い方をすれば、カーネル実行時間に対するカーネルローンチオーバーヘッドの比率が増加するにつれて、ローンチオーバーヘッドは、アプリケーション性能のためのクリティカルパスの増加部分になる。

添付の図面とともに例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の特徴を実装することができる例示的なデバイスのブロック図である。追加の詳細を示す図１のデバイスのブロック図である。カーネルパケットのローンチ及び実行のための例示的な処理を示すフローチャートである。例示的アプリケーションにおける実行用の例示的なカーネルを示すタスクグラフである。図４に関して説明されるカーネルの各々を処理することに関連付けられた例示的な処理時間構成要素及びオーバーヘッド時間構成要素を示すブロック図である。例示的な圧縮されたカーネルディスパッチパケットを使用するカーネルパケットのローンチ及び実行のための例示的な処理を示すフローチャートである。図６に関して示され説明される処理に従って、図４に関して説明されるカーネルの各々を処理することに関連付けられた例示的な処理時間構成要素及びオーバーヘッド時間構成要素を示すブロック図である。

いくつかの実施形態は、実行用計算カーネルをディスパッチするように構成されたカーネルエージェントを提供する。カーネルエージェントは、参照カーネルディスパッチパケットを受信するように構成された回路を含む。また、カーネルエージェントは、参照カーネルディスパッチパケットを処理して、カーネルディスパッチ情報を決定するように構成された回路を含む。また、カーネルエージェントは、カーネルディスパッチ情報を記憶するように構成された回路を含む。また、カーネルエージェントは、カーネルディスパッチ情報に基づいてカーネルをディスパッチするように構成された回路を含む。

いくつかの実施形態では、カーネルエージェントは、圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出すように構成された回路と、取り出されたカーネルディスパッチ情報に基づいて、カーネルをディスパッチするように構成された回路と、を含む。いくつかの実施形態では、カーネルエージェントは、圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、圧縮されたカーネルディスパッチパケットを処理して、カーネルディスパッチ情報を取り出し、差分情報を決定するように構成された回路と、差分情報に基づいて、取り出されたカーネルディスパッチ情報を変更するように構成された回路と、変更された取り出されたカーネルディスパッチ情報に基づいて、カーネルをディスパッチするように構成された回路と、を含む。

いくつかの実施形態では、カーネルエージェントは、圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出し、記憶された第２のカーネルディスパッチ情報を取り出すように構成された回路と、取り出されたカーネルディスパッチ情報に基づいてカーネルをディスパッチし、取り出された第２のカーネル情報に基づいて第２のカーネルをディスパッチするように構成された回路と、を含む。いくつかの実施形態では、カーネルエージェントは、圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出し、第１の差分情報を決定し、記憶された第２のカーネルディスパッチ情報を取り出し、第２の差分情報を決定するように構成された回路と、第１の差分情報に基づいて、取り出されたカーネルディスパッチ情報を変更するように構成された回路と、第２の差分情報に基づいて、取り出された第２のカーネルディスパッチ情報を変更するように構成された回路と、変更されたカーネルディスパッチ情報に基づいて第１のカーネルをディスパッチし、変更された第２のカーネルディスパッチ情報に基づいて第２のカーネルをディスパッチするように構成された回路と、を含む。

いくつかの実施形態では、カーネルエージェントは、参照状態バッファを含み、カーネルディスパッチ情報が参照状態バッファに記憶される。いくつかの実施形態では、カーネルエージェントは、スクラッチランダムアクセスメモリ（random access memory、ＲＡＭ）を含み、カーネルエージェントは、カーネルディスパッチ情報をスクラッチＲＡＭに記憶する。いくつかの実施形態では、カーネルエージェントは、グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）であるか、又は、それを含む。いくつかの実施形態では、カーネルエージェントは、ホストプロセッサから参照カーネルディスパッチパケットを受信するように構成された回路を含む。いくつかの実施形態では、参照カーネルディスパッチパケットは、アーキテクテッドキューイング言語（architected queuing language、ＡＱＬ）フィールドを含む。

いくつかの実施形態は、実行用計算カーネルをディスパッチするための方法を提供する。参照カーネルディスパッチパケットがカーネルエージェントによって受信される。参照カーネルディスパッチパケットは、カーネルエージェントによって処理され、カーネルディスパッチ情報を決定する。カーネルディスパッチ情報は、カーネルエージェントによって記憶される。カーネルは、カーネルディスパッチ情報に基づいてカーネルエージェントによってディスパッチされる。

いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって受信され、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって処理され、記憶されたカーネルディスパッチ情報を取り出し、カーネルは、取り出されたカーネルディスパッチ情報に基づいて、カーネルエージェントによってディスパッチされる。いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって受信され、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって処理され、カーネルディスパッチ情報を取り出し、差分情報を決定し、取り出されたカーネルディスパッチ情報は、差分情報に基づいてカーネルエージェントによって変更され、カーネルは、変更された取り出されたカーネルディスパッチ情報に基づいて、カーネルエージェントによってディスパッチされる。

いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって受信され、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって処理され、記憶されたカーネルディスパッチ情報を取り出し、記憶された第２のカーネルディスパッチ情報を取り出し、カーネルは、取り出されたカーネルディスパッチ情報に基づいて、カーネルエージェントによってディスパッチされ、第２のカーネルは、取り出された第２のカーネルディスパッチ情報に基づいて、カーネルエージェントによってディスパッチされる。

いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって受信され、圧縮されたカーネルディスパッチパケットは、カーネルエージェントによって処理され、記憶されたカーネルディスパッチ情報を取り出し、第１の差分情報を決定し、記憶された第２のカーネルディスパッチ情報を取り出し、第２の差分情報を決定し、取り出されたカーネルディスパッチ情報は、第１の差分情報に基づいて変更され、取り出された第２のカーネルディスパッチ情報は、第２の差分情報に基づいて変更され、第１のカーネルは、変更されたカーネルディスパッチ情報に基づいてディスパッチされ、第２のカーネルは、変更された第２のカーネルディスパッチ情報に基づいてディスパッチされる。

いくつかの実施形態では、カーネルエージェントは、カーネルディスパッチ情報を参照状態バッファに記憶する。いくつかの実施形態では、カーネルエージェントは、カーネルディスパッチ情報をカーネルエージェント上のスクラッチランダムアクセスメモリ（ＲＡＭ）に記憶する。いくつかの実施形態では、カーネルエージェントは、グラフィックス処理ユニット（ＧＰＵ）であるか、又は、それを含む。いくつかの実施形態では、参照カーネルディスパッチパケットは、ホストプロセッサから受信される。いくつかの実施形態では、参照カーネルディスパッチパケットは、アーキテクテッドキューイング言語（ＡＱＬ）フィールドを含む。

図１は、本開示の１つ以上の特徴を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、又は、タブレットコンピュータを含み得る。デバイス１００は、プロセッサ１０２、メモリ１０４、記憶装置１０６、１つ以上の入力デバイス１０８、及び、１つ以上の出力デバイス１１０を含む。また、デバイス１００は、オプションで、入力ドライバ１１２及び出力ドライバ１１４を含み得る。デバイス１００は、図１に示されていない追加の構成要素を含むことができることを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理ユニット（central processing unit、ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、同じダイ上に位置するＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵであってもよい。様々な代替例では、メモリ１０４は、プロセッサ１０２と同じダイ上に位置するか、又は、プロセッサ１０２とは個別に位置する。メモリ１０４は、揮発性又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

記憶装置１０６は、固定又はリムーバブル記憶装置（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体認証スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２シグナルの送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。出力デバイス１１０は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上の光、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２シグナルの送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信できるようにする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信できるようにする。入力ドライバ１１２及び出力ドライバ１１４は、オプションの構成要素であること、並びに、デバイス１００は、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合に、同じ方式で動作することに留意されたい。出力ドライバ１１４は、ディスプレイデバイス１１８に連結された加速処理デバイス（accelerated processing device、「ＡＰＤ」）１１６を含む。ＡＰＤは、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れて、それらの計算コマンド及びグラフィックスレンダリングコマンドを処理し、表示のためにピクセル出力をディスプレイデバイス１１８に提供する。以下で更に詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（single-instruction-multiple-data、「ＳＩＭＤ」）パラダイムに従って計算を行う１つ以上の並列処理ユニットを含む。こうして、様々な機能は、本明細書では、ＡＰＤ１１６によって又はＡＰＤ１１６と併せて行われるものとして説明されているが、様々な代替例では、ＡＰＤ１１６によって行われるものとして説明される機能は、追加的又は代替的に、ホストプロセッサ（例えば、プロセッサ１０２）によってドライブされない同様の能力を有する他のコンピューティングデバイスによって行われ、ディスプレイデバイス１１８にグラフィック出力を提供する。例えば、ＳＩＭＤパラダイムに従って処理タスクを行う任意の処理システムが、本明細書に説明される機能を行い得ることが企図される。代替的に、ＳＩＭＤパラダイムに従って処理タスクを行わないコンピューティングシステムが、本明細書に説明される機能を行うことが企図される。

図２は、ＡＰＤ１１６上の処理タスクの実行に関する追加の詳細を示すデバイス１００のブロック図である。プロセッサ１０２は、システムメモリ１０４内で、プロセッサ１０２による実行のための１つ以上の制御論理モジュールを維持する。制御論理モジュールは、オペレーティングシステム１２０、カーネルモードドライバ１２２及びアプリケーション１２６を含む。これらの制御論理モジュールは、プロセッサ１０２及びＡＰＤ１１６の動作の様々な特徴を制御する。例えば、オペレーティングシステム１２０は、ハードウェアと直接通信し、プロセッサ１０２上で実行される他のソフトウェアのためのハードウェアへのインターフェースを提供する。カーネルモードドライバ１２２は、例えば、プロセッサ１０２上で実行されるソフトウェア（例えば、アプリケーション１２６）にアプリケーションプログラミングインターフェース（application programming interface、「ＡＰＩ」）を提供して、ＡＰＤ１１６の様々な機能にアクセスすることによって、ＡＰＤ１１６の動作を制御する。また、カーネルモードドライバ１２２は、ＡＰＤ１１６の処理構成要素（以下で更に詳細に説明されるＳＩＭＤユニット１３８等）によって実行するためのプログラムをコンパイルするジャストインタイムコンパイラを含む。

ＡＰＤ１１６は、並列処理に適し得るグラフィック動作及び非グラフィック動作等の選択された機能のためのコマンド及びプログラムを実行する。ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ピクセル動作、幾何学計算及びディスプレイデバイス１１８への画像のレンダリング等のグラフィックスパイプライン動作を実行するために使用することができる。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオ、物理シミュレーション、計算流体力学又は他のタスクに関連する動作等のグラフィック動作に直接関連しない計算処理動作を実行する。

ＡＰＤ１１６は、プロセッサ１０２の要求で、ＳＩＭＤパラダイムに従って並列の方式で動作を行う１つ以上のＳＩＭＤユニット１３８を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。一例では、各ＳＩＭＤユニット１３８は、１６個のレーンを含み、各レーンは、ＳＩＭＤユニット１３８内の他のレーンと同時に同じ命令を実行するが、その命令を異なるデータで実行することができる。レーンは、全てのレーンが所定の命令を実行する必要がない場合、予測でオフに切り替えることができる。また、予測は、発散制御フローを有するプログラムを実行するために使用することができる。より具体的には、制御フローが個々のレーンによって行われる計算に基づいている条件付き枝又は他の命令を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測及び異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。

計算ユニット１３２内の実行の基本的単位は、ワークアイテムである。各ワークアイテムは、特定のレーンにおいて並列で実行されるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤユニット１３８上の「ウェーブフロント（wavefront）」として同時に実行することができる。１つ以上のウェーブフロントが「ワークグループ」に含まれ、これは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行することができる。代替例では、ウェーブフロントは、単一のＳＩＭＤユニット１３８上で連続して、又は、異なるＳＩＭＤユニット１３８上で部分的に若しくは完全に並列に実行される。ウェーブフロントは、単一のＳＩＭＤユニット１３８上で同時に実行することができるワークアイテムの最大集合体と考えることができる。したがって、プロセッサ１０２から受信されたコマンドが、特定のプログラムを単一のＳＩＭＤユニット１３８上で同時に実行させることができない程度にプログラムが並列化されることを示す場合、そのプログラムは、２つ以上のＳＩＭＤユニット１３８上に並列化されるか、又は、同じＳＩＭＤユニット１３８上で直列化される（又は必要に応じて並列化及び直列化の両方が行われる）ウェーブフロントに分けられる。スケジューラ１３６は、異なる計算ユニット１３２及びＳＩＭＤユニット１３８上の様々なウェーブフロントのスケジューリングに関連する動作を行う。

計算ユニット１３２によって与えられる並列処理は、ピクセル値計算、頂点変換及び他のグラフィック動作等のグラフィック関連動作に好適である。したがって、場合によっては、プロセッサ１０２からのグラフィックス処理コマンドを受け入れるグラフィックス処理パイプライン１３４は、並列で実行するために計算タスクを計算ユニット１３２に提供する。

また、計算ユニット１３２は、グラフィックに関連しないか又はグラフィックス処理パイプライン１３４の「通常の」動作の一部（例えば、グラフィックス処理パイプライン１３４の動作に対して行われる処理を補足するために行われるカスタム動作）として行われない計算タスクを行うために使用される。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、そのような計算タスクを定義するプログラムを、実行のためにＡＰＤ１１６に送信する。

いくつかのＨＰＣ及び他のアプリケーションでは、ホストプロセッサ（例えば、ＣＰＵ）は、ＧＰＵ又は他のプロセッサ上での実行用の１つ以上のプロセッサカーネルをローンチする。カーネル（例えば、ＧＰＵの場合、ＧＰＵカーネル）を実行するＧＰＵ又は他のプロセッサは、いくつかのコンテキストにおいてカーネルエージェントと称される。

典型的には、ホストプロセッサは、カーネルエージェントによる処理のために特定のタイプのコマンドパケットをエンキューすることによって、カーネルエージェント上での実行用カーネルをローンチする。このタイプのコマンドパケットは、カーネルディスパッチパケットと称され得る。例えば、ヘテロジニアスシステムアーキテクチャ（heterogeneous system architecture、ＨＳＡ）規格は、この目的のために、アーキテクテッドキューイング言語（ＡＱＬ）カーネルディスパッチパケット（ｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔと称される）を指定する。表１は、ｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔの例を示す。

この例示的なカーネルディスパッチパケットのフォーマット及びフィールドは例示的なものである。他の実施形態は、他のフォーマット及び／若しくはフィールドを使用し、並びに／又は、ＡＱＬに固有ではないことに留意されたい。場合によっては、ホストは、カーネルエージェントに対して指定された特定のキューにカーネルディスパッチパケットをエンキューする。カーネルエージェントのパケットプロセッサは、カーネルディスパッチパケットを処理して、カーネル実行情報（例えば、ディスパッチ及び「クリーンアップ」情報）を決定する。

いくつかの実施形態では、ディスパッチ情報は、カーネルエージェント（この例ではＧＰＵ）上での実行用カーネルをディスパッチするための情報を含む。表１のｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔの例では、同期スコープ（ｓｙｎｃｈ＿ｓｃｏｐｅｓ）、セットアップ、ワークグループサイズ、グリッドサイズ、プライベートセグメントサイズ、グループセグメントサイズ、カーネルオブジェクト及びｋｅｒｎａｒｇアドレスが、ディスパッチ情報の一部である。これらのフィールドは、ＧＰＵ上で作業をローンチする前に実行される取得動作の範囲（ｓｙｎｃｈ＿ｓｃｏｐｅｓフィールド）、ＧＰＵスレッドがそのカーネル内でどのように編成されるかを示すＧＰＵカーネル寸法（ｓｅｔｕｐフィールド）、ＧＰＵカーネル内のスレッドの数（ワークグループサイズ及びグリッドサイズフィールド）、このカーネルのＧＰＵスレッドによって消費されるスクラッチメモリ及びオンチップローカルメモリの量（それぞれ、プライベートセグメントサイズ及びグループセグメントサイズ）、ＧＰＵカーネルコード自体（ｃｏｄｅｏｂｊｅｃｔ）、及び、ＧＰＵカーネルへの引数（ｋｅｒｎａｒｇ＿ａｄｄｒｅｓｓ）に関する情報を提供する。これらのフィールドは例であり、いくつかの実施形態では、カーネルディスパッチパケットは、例えばカーネルエージェント実装に応じて、異なるディスパッチ情報（例えば、異なるフィールド又はより多い若しくはより少ない数のフィールド）を含む。

いくつかの実施形態では、クリーンアップ情報は、カーネルエージェント上でのカーネル実行が完了した後にアクションを実行するための情報を含む。表１のｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔの例では、ｓｙｎｃｈ＿ｓｃｏｐｅｓ及び完了信号がクリーンアップ情報の一部である。ｓｙｎｃｈ＿ｓｃｏｐｅｓフィールドは、ＧＰＵ上で作業が完了した後に実行されるリリース動作の範囲に関する情報を提供する。完了信号は、ホスト（例えば、ＣＰＵ）及び／又はこの完了信号を待っている他のエージェントに、作業の完了を通知するために使用される。

この例では、ｓｙｎｃｈ＿ｓｃｏｐｅｓフィールドがディスパッチ情報とクリーンアップ情報の両方を提供することに留意されたい。例えば、カーネルの実行前の取得メモリフェンスの範囲はディスパッチ情報であり、カーネルの実行後のリリースメモリフェンスの範囲はクリーンアップ情報である。いくつかの実施形態では、ディスパッチ情報及びクリーンアップ情報は、別々のフィールドで提供される。

いくつかの実施形態では、ディスパッチ情報及びクリーンアップ情報は、カーネルディスパッチパケットのフィールドから導出され、フィールドから導出されるディスパッチ情報及びクリーンアップ情報の構造は、実施形態固有である。

カーネルエージェントは、カーネルディスパッチ情報に基づいて実行用カーネルをディスパッチし、カーネル実行が完了した後にクリーンアップ情報に基づいてクリーンアップを実行する。これらのステップは例示的なものであり、他の実施形態では、サブステップ、異なるステップ、より多くのステップ、又は、より少ないステップを含み得る。

典型的には、カーネルディスパッチパケットはエンキューされ処理され、カーネルは実行用にディスパッチされ、アプリケーション内で実行されるカーネルごとにクリーンアップされる。この例示的なカーネル処理手法では、エンキュー動作、パケット処理動作及びクリーンアップ動作は、通常、カーネルエージェントのコマンドプロセッサ又は他の適切なパケット処理ハードウェアによって実行されるが、カーネル実行は、通常、カーネルエージェントの計算ユニット（例えば、ＳＩＭＤデバイス）又は他の一次処理ユニットによって実行される。何れのハードウェアが各動作を実行するかにかかわらず、エンキュー動作、パケット処理動作及びクリーンアップ動作を実行するのに費やされる時間は、カーネル実行に対するオーバーヘッドとみなされる。

したがって、いくつかのプロセッサカーネルを実行するアプリケーションの場合、アプリケーション実行時間は、各プロセッサカーネルのカーネル実行時間及びカーネルオーバーヘッド時間を含む。更に、多くのアプリケーションは、ループ内で複数回実行されるカーネル（例えば、短時間実行カーネル）のシーケンスを含む。カーネル実行時間が改善する（すなわち、短くなる）につれて、実行用のカーネルをローンチすることに関連するオーバーヘッドは、全体的なカーネル処理時間のより大きな割合になり、アプリケーションの全体的な性能にとってますます重要になる。

図３は、カーネルパケットのローンチ及び実行のための例示的な処理３００を示すフローチャートである。

ステップ３０２において、カーネルディスパッチパケットがカーネルエージェントによる処理のためにエンキューされる。カーネルディスパッチパケットは、ｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔ、そのようなパケットの変更バージョン（例えば、本明細書で説明されるような）、又は、カーネルのローンチ及び実行をサポートするための任意の他の適切なパケット若しくは情報である。いくつかの実施形態では、カーネルディスパッチパケットは、カーネルエージェントに対応するキューにエンキューされる。いくつかの実施形態では、カーネルディスパッチパケットは、カーネルエージェントによる処理のために、ＣＰＵ等のホストプロセッサによってエンキューされる。いくつかの実施形態では、カーネルエージェントは、ＧＰＵ、ＤＳＰ、ＣＰＵ又は任意の他の適切な処理デバイスであってもよいし、それらを含んでもよい。

ステップ３０４において、カーネルエージェントはカーネルディスパッチパケットを処理する。いくつかの実施形態では、カーネルディスパッチエージェントのパケットプロセッサ又は他のパケット処理回路が、カーネルディスパッチパケットを処理する。他の実施形態では、カーネルエージェントの汎用処理回路がパケットを処理する。いくつかの実施形態では、カーネルディスパッチパケットは、処理されて、カーネルエージェント上でカーネルを実行するための情報を決定する。いくつかの実施形態では、情報は、ディスパッチ情報及びクリーンアップ情報を含む。

ステップ３０６において、カーネルエージェントは、カーネルディスパッチパケットから処理された情報に基づいてカーネルエージェント（例えば、ＧＰＵ）上での実行用にカーネルをディスパッチし、カーネルは完了するまで実行する。カーネル実行が完了したという条件３０８で、ステップ３１０においてクリーンアップ動作が実行される。いくつかの実施形態では、クリーンアップ動作は、カーネルディスパッチパケットから処理された情報に基づいてカーネルエージェントによって実行される。アプリケーションが完了していないという条件３１２で、処理３００は、次のカーネルのためにカーネルディスパッチパケットをエンキューするステップ３０２から繰り返す。そうでない場合、処理３００は終了する。

図３の例から分かるように、カーネルディスパッチパケットのエンキュー及び処理に起因するオーバーヘッド、並びに、クリーンアップ動作に起因するオーバーヘッドは、カーネルがカーネルエージェント上でローンチされるたびに生じる。

図４は、例示的アプリケーションにおける実行用の例示的なカーネルを示すタスクグラフ４００である。タスクグラフ４００は、例としてクリプキアプリケーションのための典型的なカーネルを示すが、概念は、任意のアプリケーション及びカーネルのセットに一般的である。タスクグラフ４００は、Ｌｔｉｍｅｓカーネル４１０、散乱カーネル４２０、ソースカーネル４３０、Ｌｐｌｕｓｔｉｍｅｓカーネル４４０、スイープカーネル４５０、及び、ポピュレーションカーネル４６０を含む。説明される特定のカーネルは例示的なものにすぎず、それらの特定の名前及び機能は例にとって重要ではないことに留意されたい。アプリケーションを実行するために、各カーネルは、示された順序でローンチされ、実行される。いくつかの実施形態では、カーネルの全てがローンチされ実行された後、カーネルが再びローンチされ実行される。例えば、クリプキでは、タスクグラフの前の反復によって生成されたデータの収束分析に応じて、場合によってはタスクグラフに示された順序でカーネルが再びローンチされ実行される。

図６は、図３に関して示され説明される処理３００に従って、図４に関して示され説明されるカーネル４１０、４２０、４３０、４４０、４５０、４６０の各々を処理することに関連付けられた例示的な処理時間構成要素及びオーバーヘッド時間構成要素を示すブロック図である。示されるように、各カーネルは、カーネルディスパッチパケットをエンキューし、カーネルディスパッチパケットを処理することに起因するオーバーヘッド時間と、カーネルエージェント上でカーネルをディスパッチし、実行するための処理時間と、クリーンアップ動作のためのオーバーヘッド時間と、を含む。示されるブロックは、カーネル４１０、４２０、４３０、４４０、４５０、４６０のためのオーバーヘッド時間、処理時間、ディスパッチ時間、実行時間及びクリーンアップ時間に寄与する動作を示し、一定の縮尺であること、又は、カーネルが必ず並列に実行されることを暗示することを意図するものではないが、いくつか又は全てのカーネルが実際には並列に実行されてもよく、又は、いくつかの実施形態では重複してもよい。

アプリケーションの実行中のカーネルエンキュー、パケット処理、及び／又は、クリーンアップオーバーヘッド等のオーバーヘッド時間を短縮するために、いくつかの実施形態は、ディスパッチ情報、実行情報及び／又はクリーンアップ情報等のカーネルに関連する情報を記憶するように構成されたパケットを含む。そのようなパケットは、本明細書では参照カーネルディスパッチパケットと称される。

いくつかの実施形態では、参照パケットは、参照パケット情報、すなわち参照パケットから処理された情報が、将来のアクセスのためにメモリに記憶されるべきであることを示す情報を含む。いくつかの実施形態では、参照パケットは、情報が記憶されるべき位置へのインデックスを含む。いくつかの実施形態では、参照パケットは、カーネルディスパッチパケットの変更バージョンである。例えば、表２は、例示的な変更されたｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔを示しており、ｕｎｉｔ１６＿ｔｒｅｓｅｒｖｅｄ０フィールドは、参照番号（ｕｉｎｔ１６＿ｔｒｅｆ＿ｎｕｍ）を含むように再利用される。

この例示的な参照ディスパッチパケットのフォーマット及びフィールドは例示的なものである。他の実施形態は、他のフォーマット及び／若しくはフィールドを使用し、並びに／又は、ＡＱＬに固有ではないことに留意されたい。いくつかの実施形態では、情報は、参照状態バッファ（reference state buffer、ＲＳＢ）と称されることができるバッファに記憶される。ＲＳＢは、カーネルエージェント上のスクラッチｒａｍ、カーネルエージェントのＧＰＵメモリの領域、又は、任意の他の適切なメモリ位置等のように、任意の適切なバッファである。いくつかの実施形態では、情報は、例えば、参照パケットからの参照番号（例えば、表２の例示的なパケット中のｒｅｆ＿ｎｕｍ）によってインデックス付けされた、ＲＳＢの参照状態テーブル（reference state table、ＲＳＴ）内に記憶される。表３は、参照パケットからの情報を記憶するための８つのエントリを含む例示的なＲＳＴを示す。

いくつかの実施形態では、図３に関して示され説明される処理３００を使用して図４に関して示され説明されるカーネル４１０、４２０、４３０、４４０、４５０、４６０をローンチするために、通常のカーネルディスパッチパケット（例えば、表１のｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔ）ではなく、参照パケット（例えば、表２の変更されたｈｓａ＿ｋｅｒｎｅｌ＿ｄｉｓｐａｔｃｈ＿ｐａｃｋｅｔ）を使用することによって、各参照カーネルディスパッチパケットから処理された情報が、ＲＦＢのＲＳＴ（例えば、表３の例示的なＲＳＴ）に記憶される。

ＲＦＢに記憶された情報を活用して、アプリケーションの実行中のカーネルオーバーヘッド（例えば、エンキュー、パケット処理のローンチ、及び／又はクリーンアップ時間）を低減するために、いくつかの実施形態は、複数のカーネルをディスパッチするように構成されたパケットを含む。そのようなパケットは、本明細書では圧縮されたカーネルディスパッチパケットと称される。

いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、ディスパッチのためのカーネルの数を示す情報、カーネルごとの（例えば、ＲＦＢに記憶された）参照情報へのインデックス、及び／又は、カーネルごとの差分情報（例えば、差分ベクトル）を含む。

いくつかの実施形態では、ディスパッチのためのカーネルの数は、圧縮されたカーネルディスパッチパケットによって参照される情報に基づいてローンチされるカーネルの数を示す。いくつかの実施形態では、差分情報は、圧縮されたカーネルディスパッチパケットによって参照される情報（例えば、ＲＦＢに記憶された情報）が、圧縮されたカーネルディスパッチパケットに従ってカーネルをディスパッチするために変更されるべきである１つ以上の方法（本明細書では差分情報又は「ｄｉｆｆ」と称される）、又は、圧縮されたカーネルディスパッチパケットによって参照される情報が、圧縮されたカーネルディスパッチパケットに従ってカーネルをディスパッチするために変更されるべきではないことを示す。

例えば、表４は、例示的な圧縮されたカーネルディスパッチパケットフォーマットを示す。

ヘッダフィールドは、パケットが圧縮されたディスパッチパケットであること、及び、パケットがディスパッチごとに参照パケットからのｄｉｆｆを搬送することを指定する。ｎｕｍ＿ｋｅｒｎｅｌｓフィールドは、この単一の圧縮されたディスパッチパケットがディスパッチするカーネルの数を指定する。ｄｉｆｆ＿ｖａｌｕｅｓは、それぞれの参照パケットと比較した各カーネルのｄｉｆｆを指定する。この例示的なカーネル圧縮されたディスパッチパケットのフォーマット及びフィールドは例示的なものである。他の実施形態は、他のフォーマット及び／若しくはフィールドを使用し、並びに／又は、ＡＱＬに固有ではないことに留意されたい。

例えば、表５は、ＲＦＢに記憶された情報からの差分（例えば、「ｄｉｆｆ」情報）を表すための例示的なヘッダを示す。

ｄｉｆｆヘッダは、カーネルのその参照パケットからのｄｉｆｆを示すプリアンブルである。ｄｉｆｆヘッダは、ｄｉｆｆに対するプリアンブルであり、何れの参照テーブルエントリがｄｉｆｆのベースラインとして使用されるか（すなわち、この例ではｒｅｆ＿ｎｕｍ）、及び、何れのフィールドが異なるか（すなわち、この例ではｄｉｆｆ＿ｖｅｃｔｏｒ）を示す。プリアンブルの後、ｄｉｆｆ自体が送信される。別の言い方をすれば、ｄｉｆｆヘッダ内のｒｅｆ＿ｎｕｍは、このカーネルをディスパッチするために、何れの一意の参照パケット情報（例えば、それが記憶されるＲＳＴへのインデックス）が変更されるか（すなわち、「ｄｉｆｆｅｄ」）を指定する。ｄｉｆｆ＿ｖｅｃｔｏｒは、対応する参照パケット情報とは異なるこのディスパッチのフィールドを指定する。したがって、この例では、ｄｉｆｆ＿ｖｅｃｔｏｒ内の１３ビットは、参照ＡＱＬパケット内の１３個のフィールドに対応し、ｄｉｆｆ＿ｖｅｃｔｏｒ内のビットセットは、対応するフィールドが参照パケット情報と比較してこのディスパッチについて異なることを示す。ｄｉｆｆ＿ｖｅｃｔｏｒにビットが設定されていない場合、これは、このディスパッチが参照パケット情報と同一であることを意味する。他の実施形態では、圧縮されたパケットは、参照テーブルに記憶された参照情報のｄｉｆｆを直接送信することができることに留意されたい。そのような場合、ｄｉｆｆ＿ｖｅｃｔｏｒは、参照ＡＱＬパケット中のフィールドではなく、テーブル中の参照情報中のフィールドを指定する。

この例示的なｄｉｆｆヘッダのフォーマット及びフィールドは例示的なものである。他の実施形態は、他のフォーマット及び／若しくはフィールドを使用し、並びに／又は、ＡＱＬに固有ではないことに留意されたい。

例えば、表６は、上記の例による例示的な圧縮されたパケットを示す（参照を容易にするために行番号が加えられている）。

この例では、行１は、パケットヘッダをＨＳＡ＿ＰＡＣＫＥＴ＿ＴＹＰＥ＿ＣＯＮＤＥＮＳＥＤ＿ＤＩＳＰＡＴＣＨに設定し、これが圧縮されたディスパッチパケットであることを示す。行２は、この圧縮されたディスパッチパケットが２つのカーネルをディスパッチするための情報を含むことを示すｎｕｍ＿ｋｅｒｎｅｌｓ＝２を設定する。行４は、第１のディスパッチのｄｉｆｆ＿ｈｅａｄｅｒを生成し、ｐａｒａｍ１とラベル付けする。ｄｉｆｆヘッダの第１のフィールドは、値＝４（１６進表記で０×４）を有し、第１のディスパッチが、そのディスパッチのために参照パケット＃４からの情報（例えば、インデックス４によって参照テーブルに記憶されている）を使用していることを示す。ｄｉｆｆ＿ｖｅｃｔｏｒであるｄｉｆｆヘッダの第２のフィールドは、第１２のビットセットを有し、これは、参照パケット＃４からの第１２のフィールドが第１のディスパッチについて変更されるべきであること（すなわち、「ｄｉｆｆｅｄ」）を示す。第１２のフィールドは、完了信号フィールドである。この例示的な圧縮されたディスパッチパケットのフォーマット及びフィールドは例示的なものである。他の実施形態は、他のフォーマット及び／若しくはフィールドを使用し、並びに／又は、ＡＱＬに固有ではないことに留意されたい。

別の言い方をしてこの例を説明すると、ｐａｒａｍ１は、第１のディスパッチが、異なる完了信号を使用することを除いて、参照パケット＃４と同様であることを示す。同様に、ｐａｒａｍ２は行６で初期化され、第２のディスパッチが第１１のフィールド（すなわち、カーネルａｒｇ）を除いて参照パケット＃６と同様であることを示す。行９は、圧縮されたパケットの第１のｄｉｆｆフィールド（ｄｉｆｆ［０］）を第１のパケットのｄｉｆｆ＿ｈｅａｄｅｒ（すなわち、ｐａｒａｍ１）でポピュレートする。次の４つのｄｉｆｆフィールド（ｄｉｆｆ［１］からｄｉｆｆ［４］）は、第１のディスパッチの完了信号でポピュレートされる（行１１～１４）。完了信号は、対応するｄｉｆｆ＿ｈｅａｄｅｒによって示されるように、対応する参照パケットとはこのディスパッチについて異なる。同様に、第２のディスパッチに対応するｄｉｆｆ＿ｈｅａｄｅｒがｄｉｆｆ［５］に投入され（行１６）、その参照パケットとは異なる第２のディスパッチのカーネルａｒｇアドレスがｄｉｆｆ［６］からｄｉｆｆ［９］にポピュレートされる（行１８～２１）。

図６は、例示的な圧縮されたカーネルディスパッチパケットを使用するカーネルパケットのローンチ、実行及びクリーンアップのための例示的な処理６００を示すフローチャートである。

ステップ６０２において、圧縮されたカーネルディスパッチパケットは、１つ以上のカーネルをディスパッチするためにカーネルエージェントによる処理のためにエンキューされる。１つ以上のカーネルをディスパッチするための情報は、例えばＲＦＢ又は他の適切なメモリに既に記憶されていると仮定する。いくつかの実施形態では、情報は、１つ以上のカーネルの各々について参照カーネルディスパッチパケットを処理することによって、ＲＦＢに以前に記憶される。

ステップ６０４において、カーネルエージェントは、圧縮されたカーネルディスパッチパケットを処理する。いくつかの実施形態では、カーネルディスパッチエージェントのパケットプロセッサ又は他のパケット処理回路が、圧縮されたカーネルディスパッチパケットを処理する。他の実施形態では、カーネルエージェントの汎用処理回路が、圧縮されたカーネルディスパッチパケットを処理する。いくつかの実施形態では、圧縮されたカーネルディスパッチパケットは、処理されて、カーネルエージェント上で１つ以上のカーネルを実行するための情報を決定する。いくつかの実施形態では、情報は、ディスパッチ情報及びクリーンアップ情報を含む。いくつかの実施形態では、情報は、ＲＦＢ又は他の適切なメモリ位置に記憶され、各カーネルの圧縮されたカーネルディスパッチパケット内の参照番号（例えば、ｒｅｆ＿ｎｕｍ）によってインデックス付けされる。いくつかの実施形態では、情報は、カーネルのうちの１つ以上についての圧縮されたカーネルディスパッチパケット内の差分情報（例えば、ｄｉｆｆ＿ｖｅｃｔｏｒ）に基づいて変更される。

ステップ６０６において、カーネルエージェントは、カーネルディスパッチパケットから処理された情報（例えば、ＲＦＢから取り出されたｄｉｆｆ情報を含む）に基づいて１つ以上のカーネルのうち第１のカーネルをディスパッチし、カーネルは完了するまで実行する。カーネル実行が完了したという条件６０８では、次のカーネルがあればディスパッチされ、処理された情報（例えば、それに基づいてＲＦＢから取り出されたｄｉｆｆ情報を含む）に基づいて完了まで実行される。全てのカーネルが完了したという条件６１０では、ステップ６１２においてクリーンアップ動作が実行される。いくつかの実施形態では、クリーンアップ動作は、カーネルディスパッチパケットから処理された情報に基づいてカーネルエージェントによって実行される。アプリケーションが完了していないという条件６１４では、処理６００は、別のカーネルディスパッチパケットのエンキューするステップ６０２から繰り返す（又は、異なる処理、例えば、標準カーネルディスパッチパケット又は参照カーネルディスパッチパケットのエンキューする、図３に関して示され説明される処理３００に入る）。そうでない場合、処理６００は終了する。

図６の例から分かるように、圧縮されたカーネルディスパッチパケットのエンキュー及び処理に起因するオーバーヘッド、並びに、クリーンアップ動作に起因するオーバーヘッドは、圧縮されたカーネルディスパッチパケットによってカーネルエージェント上でローンチされたカーネルの全てに対して１回生じる。

図７は、図６に関して示され説明される処理６００に従って、図４に関して示され説明されるカーネル４１０、４２０、４３０、４４０、４５０、４６０の各々を処理することに関連付けられた例示的な処理時間構成要素及びオーバーヘッド時間構成要素を示すブロック図である。

示されるように、第１のカーネル４１０のみが、カーネルディスパッチパケットをエンキューし、カーネルディスパッチパケットを処理することに起因する処理時間を含むのに対して、カーネル４１０、４２０、４３０、４４０、４５０、４６０の各々は、カーネルエージェント上でカーネルを処理するための処理時間を含む。最終パケット４６０は、クリーンアップ動作のための処理時間を含む。パケット４１０、４２０、４３０、４４０、４５０は、クリーンアップ情報（図中の破線によって示される）に応じて、クリーンアップ動作のための処理時間を含むか又は含まない。したがって、示されたブロックは、圧縮されたカーネルディスパッチパケットに基づくカーネル４１０、４２０、４３０、４４０、４５０、４６０の全てのための全体的な処理時間が、正規又は参照カーネルディスパッチパケット（例えば、図５に関して示され説明されるもの）に基づくカーネル４１０、４２０、４３０、４４０、４５０、４６０の全てのための全体的な処理時間よりも短い（又は少なくとも、より少ない要素を含む）ことを示す。示されているブロックは、カーネル４１０、４２０、４３０、４４０、４５０、４６０の処理時間に寄与する動作を示し、一定の縮尺であること、又はカーネルが必ず並列に実行されることを暗示することを意図するものではないが、いくつか又は全てのカーネルが実際には並列に実行されてもよく、又は、いくつかの実施形態では重複してもよい。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上に説明されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。

各図に例示され、及び／又は、本明細書に記載された様々な機能ユニット（プロセッサ１０２、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、出力デバイス１１０、加速処理デバイス１１６、スケジューラ１３６、グラフィックス処理パイプライン１３４、計算ユニット１３２、ＳＩＭＤユニット１３８を含むが、これらに限定されない）は、汎用コンピュータ、プロセッサ若しくはプロセッサコアとして、又は、汎用コンピュータ、プロセッサ若しくはプロセッサコアによって実行可能な非一時的なコンピュータ可読記憶媒体若しくは別の媒体に記憶されているプログラム、ソフトウェア若しくはファームウェアとして実装することができる。提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実装することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタルシグナルプロセッサ（digital signal processor、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、及び／又は、状態マシンが挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリストを含む他の中間データ（コンピュータ可読媒体に記憶させることが可能な命令）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークとすることができ、このマスクワークをその後の半導体製造プロセスにおいて使用して、本開示の特徴を実装するプロセッサを製造する。

本明細書に提供される方法又はフロー図は、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ）等の光学媒体が挙げられる。

Claims

実行用の計算カーネルをディスパッチするように構成されたカーネルエージェントであって、
参照カーネルディスパッチパケットを受信するように構成された回路と、
前記参照カーネルディスパッチパケットを処理して、カーネルディスパッチ情報を決定するように構成された回路と、
前記カーネルディスパッチ情報を記憶するように構成された回路と、
前記カーネルディスパッチ情報に基づいて、カーネルをディスパッチするように構成された回路と、を備える、
カーネルエージェント。
圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、
前記圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出すように構成された回路と、
取り出されたカーネルディスパッチ情報に基づいて、カーネルをディスパッチするように構成された回路と、を更に備える、
請求項１のカーネルエージェント。
圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、
前記圧縮されたカーネルディスパッチパケットを処理して、前記カーネルディスパッチ情報を取り出し、差分情報を決定するように構成された回路と、
前記差分情報に基づいて、取り出された前記カーネルディスパッチ情報を変更するように構成された回路と、
変更された前記取り出された前記カーネルディスパッチ情報に基づいて、カーネルをディスパッチするように構成された回路と、を更に備える、
請求項１のカーネルエージェント。
圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、
前記圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出し、記憶された第２のカーネルディスパッチ情報を取り出すように構成された回路と、
取り出された前記カーネル実行情報に基づいてカーネルをディスパッチし、取り出された前記第２のカーネルディスパッチ情報に基づいて第２のカーネルをディスパッチするように構成された回路と、を更に備える、
請求項１のカーネルエージェント。
圧縮されたカーネルディスパッチパケットを受信するように構成された回路と、
前記圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出し、第１の差分情報を決定し、記憶された第２のカーネルディスパッチ情報を取り出し、第２の差分情報を決定するように構成された回路と、
前記第１の差分情報に基づいて、取り出された前記カーネルディスパッチ情報を変更するように構成された回路と、
前記第２の差分情報に基づいて、取り出された前記第２のカーネルディスパッチ情報を変更するように構成された回路と、
変更された前記カーネルディスパッチ情報に基づいて第１のカーネルをディスパッチし、変更された前記第２のカーネルディスパッチ情報に基づいて第２のカーネルをディスパッチするように構成された回路と、を更に備える、
請求項１のカーネルエージェント。
参照状態バッファを更に備え、
前記カーネルディスパッチ情報は前記参照状態バッファに記憶される、
請求項１のカーネルエージェント。
スクラッチランダムアクセスメモリ（ＲＡＭ）を更に備え、
前記カーネルエージェントは、前記カーネルディスパッチ情報を前記スクラッチＲＡＭに記憶する、
請求項１のカーネルエージェント。
前記カーネルエージェントは、グラフィックス処理ユニット（ＧＰＵ）を備える、
請求項１のカーネルエージェント。
ホストプロセッサから前記参照カーネルディスパッチパケットを受信するように構成された回路を更に備える、
請求項１のカーネルエージェント。
前記参照カーネルディスパッチパケットは、アーキテクテッドキューイング言語（ＡＱＬ）フィールドを含む、
請求項１のカーネルエージェント。
計算カーネルをローンチするための方法であって、
カーネルエージェントが、参照カーネルディスパッチパケットを受信することと、
前記カーネルエージェントが、前記参照カーネルディスパッチパケットを処理して、カーネルディスパッチ情報を決定することと、
前記カーネルエージェントが、前記カーネルディスパッチ情報を記憶することと、
前記カーネルディスパッチ情報に基づいて、カーネルをディスパッチすることと、を含む、
方法。
前記カーネルエージェントが、圧縮されたカーネルディスパッチパケットを受信することと、
前記カーネルエージェントが、前記圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出すことと、
取り出されたカーネルディスパッチ情報に基づいて、カーネルをディスパッチすることと、を更に含む、
請求項１１の方法。
前記カーネルエージェントが、圧縮されたカーネルディスパッチパケットを受信することと、
前記カーネルエージェントが、前記圧縮されたカーネルディスパッチパケットを処理して、前記カーネルディスパッチ情報を取り出し、差分情報を決定することと、
前記差分情報に基づいて、取り出された前記カーネルディスパッチ情報を変更することと、
変更された前記取り出された前記カーネルディスパッチ情報に基づいて、カーネルをディスパッチすることと、を更に含む、
請求項１１の方法。
前記カーネルエージェントが、圧縮されたカーネルディスパッチパケットを受信することと、
前記カーネルエージェントが、前記圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出し、記憶された第２のカーネルディスパッチ情報を取り出すことと、
取り出された前記カーネルディスパッチ情報に基づいてカーネルをディスパッチし、取り出された前記第２のカーネルディスパッチ情報に基づいて第２のカーネルをディスパッチすることと、を更に含む、
請求項１１の方法。
前記カーネルエージェントが、圧縮されたカーネルディスパッチパケットを受信することと、
前記カーネルエージェントが、前記圧縮されたカーネルディスパッチパケットを処理して、記憶されたカーネルディスパッチ情報を取り出し、第１の差分情報を決定し、記憶された第２のカーネルディスパッチ情報を取り出し、第２の差分情報を決定することと、
前記第１の差分情報に基づいて、取り出された前記カーネルディスパッチ情報を変更することと、
前記第２の差分情報に基づいて、取り出された前記第２のカーネルディスパッチ情報を変更することと、
変更された前記カーネルディスパッチ情報に基づいて第１のカーネルをディスパッチし、変更された前記第２のカーネルディスパッチ情報に基づいて第２のカーネルをディスパッチすることと、を含む、
請求項１１の方法。
前記カーネルエージェントは、前記カーネルディスパッチ情報を参照状態バッファに記憶する、
請求項１１の方法。
前記カーネルエージェントは、前記カーネルディスパッチ情報を前記カーネルエージェント上のスクラッチランダムアクセスメモリ（ＲＡＭ）に記憶する、
請求項１１の方法。
前記カーネルエージェントは、グラフィックス処理ユニット（ＧＰＵ）を備える、
請求項１１の方法。
前記カーネルエージェントは、ホストプロセッサから前記参照カーネルディスパッチパケットを受信する、
請求項１１の方法。
前記参照カーネルディスパッチパケットは、アーキテクテッドキューイング言語（ＡＱＬ）フィールドを含む、
請求項１１の方法。