JP7470685B2

JP7470685B2 - 集積回路中の算出ユニットをプログラムおよび制御すること

Info

Publication number: JP7470685B2
Application number: JP2021527135A
Authority: JP
Inventors: ソーレンソー，; イドリスアイ．タルワラ，; エラリーコッチェル，
Original assignee: Xilinx Inc
Current assignee: Xilinx Inc
Priority date: 2018-11-19
Filing date: 2019-11-11
Publication date: 2024-04-18
Anticipated expiration: 2039-11-11
Also published as: JP2022507707A; US20200159680A1; WO2020106482A1; US10705993B2; CN113056729A; EP3884386A1; KR20210089762A

Description

本開示は、集積回路（ＩＣ）に関し、より詳細には、ハードウェアアクセラレーションのためにＩＣ内の算出ユニットをプログラムおよび制御することに関する。

異種コンピューティングプラットフォーム（ＨＣＰ：ｈｅｔｅｒｏｇｅｎｅｏｕｓｃｏｍｐｕｔｉｎｇｐｌａｔｆｏｒｍ）は、ホストプロセッサと１つまたは複数の他の異なる処理デバイスとを含むデータ処理システムのタイプを指す。ホストプロセッサは、一般的に、中央処理ユニット（ＣＰＵ）として実装される。ホストプロセッサは、インターフェース回路を通して他の処理デバイスに結合される。他の処理デバイスは、アーキテクチャ上、ホストプロセッサとは異なる。さらに、処理デバイスは、ホストプロセッサからオフロードされた、動作を実施すること、たとえば、アプリケーションを実行することと、動作の結果をホストプロセッサにとって利用可能にすることとを行うことが可能である。

いくつかの場合には、処理デバイスは、プログラムコードを実行するように適応される。そのような処理デバイスは、一般的に、ホストプロセッサとは異なる命令セットアーキテクチャを有する。これらの他の処理デバイスの例は、限定はしないが、（１つまたは複数の）グラフィックス処理ユニット（ＧＰＵ）、（１つまたは複数の）デジタル信号プロセッサ（ＤＳＰ）などを含む。

他の場合には、ホストプロセッサからオフロードされた動作を実施する処理デバイスは、プログラムコードをハードウェアアクセラレートする（ｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｅ）ように適応されたデバイスを含む。これらの処理デバイスは、オフロードされた動作をハードウェアとして実装する回路を含む。回路は、プログラムコードの実行と機能的に等価である様式で動作する（たとえば、オフロードされた動作）。ハードウェアアクセラレーションが可能な処理デバイスの例は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、部分的にプログラム可能な集積回路（ＩＣ）、特定用途向けＩＣ（ＡＳＩＣ）など、プログラマブルＩＣを含む。明らかに、ＨＣＰは、１つまたは複数がプログラムコードを実行するように適応され、１つまたは複数の他のものがプログラムコードをハードウェアアクセラレートするように適応された、処理デバイスの組合せを含み得る。

プログラムコードをハードウェアで実装することは、より速い動作、低減された電力消費、冗長性など、様々な利益を提供し得る。アプリケーションをハードウェアとして実装することが、より速い動作を含むことも含まないこともある利益を提供するという事実にもかかわらず、プログラムコードおよび／またはアプリケーションの、ハードウェアでの実装は、一般的に、「ハードウェアアクセラレーション」と呼ばれる。

いずれの場合にも、ホストプロセッサは、処理デバイスに動作をオフロードし、処理デバイスから結果を取り出すことの責任を負う。処理デバイスとの間で必要なデータを効率的に移動するホストプロセッサの能力は、ＨＣＰの全体的効率および性能に著しく影響を及ぼすことがある。

１つまたは複数の実施形態は、集積回路（ＩＣ）を対象とする。本ＩＣは、本ＩＣの複数の算出ユニットによる実行のためのホストプロセッサからのコマンドを記憶するように設定された複数のスロットを有するコマンド待ち行列と、コマンド待ち行列中の複数のスロットに対応する複数のロケーションを有するコマンド要求レジスタとを含む。コマンド要求レジスタは、コマンド待ち行列内に記憶された新しいコマンドを指示する割込みを生成するように設定される。本ＩＣは、コマンド要求レジスタからの割込みに応答して、新しいコマンドを実行するための、複数の算出ユニットからの、アイドルである選択された算出ユニットを決定するように設定されたコントローラと、新しいコマンドを選択された算出ユニットに提供するように設定された算出ユニットダイレクトメモリアクセス回路とを含む。

いくつかの実施形態では、新しいコマンドは、新しいコマンドを実行することが可能な複数の算出ユニットのうちの１つまたは複数を指定する第１のリストを含み得る。

いくつかの実施形態では、コントローラは、複数の算出ユニットのうちのどれがアイドルであるかを指定する第２のリストを維持することと、第１のリストを第２のリストと比較することによって、新しいコマンドを実行するための選択された算出ユニットを決定することとを行うように設定され得る。

いくつかの実施形態では、コントローラは、選択された算出ユニットのためのベースアドレスを指定するためにコマンド待ち行列中の新しいコマンドを更新するように設定され得る。

いくつかの実施形態では、コントローラは、選択された算出ユニットのベースアドレスを第１のリストに上書きするように設定され得る。

いくつかの実施形態では、コントローラは、新しいコマンドを記憶する、コマンド待ち行列中の複数のスロットのうちの選択されたスロットの参照を、算出ユニットダイレクトメモリアクセス回路に提供するように設定され得る。

いくつかの実施形態では、算出ユニットダイレクトメモリアクセス回路は、新しいコマンドからのベースアドレスを使用して、選択されたスロット中の新しいコマンドを選択された算出ユニットに提供するように設定され得る。

いくつかの実施形態では、コマンド要求レジスタは読取り時クリアレジスタ（ｃｌｅａｒ－ｏｎ－ｒｅａｄｒｅｇｉｓｔｅｒ）であり得る。

いくつかの実施形態では、算出ユニットダイレクトメモリアクセス回路は、新しいコマンドを提供したことに応答して、選択された算出ユニットの動作を開始するようにさらに設定され得る。

１つまたは複数の実施形態は、ＩＣを対象とする。本ＩＣは、複数の算出ユニットのうちの選択された算出ユニットから、選択された算出ユニットが処理し終わったことを指示する割込みを受信したことに応答して、選択された算出ユニットが処理し終わったという信号を出すように設定された算出ユニット割込み回路と、算出ユニット割込み回路からの信号に応答して割込みを生成するように設定された算出ユニット完了レジスタとを含む。本ＩＣは、算出ユニット完了レジスタからの割込みに応答して、ホストプロセッサからオフロードされた複数のコマンドのうちの選択されたコマンドが、選択された算出ユニットによって実行されたと決定し、選択されたコマンドを出力するように設定されたコントローラと、複数のコマンドのうちの選択されたコマンドが処理し終わったことを指示する、ホストプロセッサへの割込みを生成するように設定されたコマンド完了レジスタとを含む。

いくつかの実施形態では、算出ユニット完了レジスタは、複数の算出ユニットに対応する複数のロケーションを含み得る。算出ユニット割込み回路は、選択された算出ユニットに対応する、複数のロケーションのうちの選択されたロケーションに書き込むことによって、選択された算出ユニットが処理し終わったことを算出ユニット完了レジスタに通知し得る。

いくつかの実施形態では、コントローラは、複数のコマンドと、複数のコマンドを実行する、複数の算出ユニットのうちの対応する算出ユニットとのリストを維持するように設定され得る。

いくつかの実施形態では、算出ユニット完了レジスタは読取り時クリアレジスタであり得る。

いくつかの実施形態では、コマンド完了レジスタは読取り時クリアレジスタであり得る。

いくつかの実施形態では、算出ユニット割込み回路は、ホストプロセッサからのさらなるコマンドを実行するために、選択された算出ユニットをリアームする（ｒｅａｒｍ）ように設定され得る。

１つまたは複数の実施形態は、方法を対象とする。本方法は、コマンド待ち行列内の新しいコマンドの利用可能性を指示する、ホストプロセッサからの通知に応答して、コントローラへの割込みを生成することと、コントローラが、割込みに応答して、新しいコマンドを実行するための、複数の算出ユニットからの、アイドルである選択された算出ユニットを決定することと、コントローラが、選択された算出ユニットとコマンド待ち行列中の新しいコマンドとを算出ユニットダイレクトメモリアクセス回路に通知することとを含む。本方法は、算出ユニットダイレクトメモリアクセス回路を使用して、新しいコマンドを選択された算出ユニットに提供することをも含む。

いくつかの実施形態では、本方法は、実行の完了を指示する、選択された算出ユニットからの割込みを受信したことに応答して、選択された算出ユニットが実行を完了したことを指示する、コントローラへの割込みを生成することをさらに含み得る。本方法は、コントローラを使用して、新しいコマンドが、選択された算出ユニットに割り当てられたと決定することと、新しいコマンドが実行を完了したことを指示する、ホストプロセッサへの割込みを生成することとをも含み得る。

いくつかの実施形態では、選択された算出ユニットとコマンド待ち行列中の新しいコマンドとを算出ユニットダイレクトメモリアクセス回路に通知することは、新しいコマンドを記憶する、コマンド待ち行列中の複数のスロットのうちの選択されたスロットに、選択された算出ユニットのベースアドレスを書き込むことと、複数のスロットのうちの選択されたスロットの参照を、算出ユニットダイレクトメモリアクセス回路に提供することとを含み得る。

いくつかの実施形態では、複数の算出ユニットからの選択された算出ユニットを決定することは、新しいコマンド内から、新しいコマンドを実行することが可能な複数の算出ユニットのうちの１つまたは複数を指定する第１のリストを読み取ることと、第１のリストを、アイドルである、複数の算出ユニットのうちの算出ユニットを指定する第２のリストと比較して、共通算出ユニットを選択された算出ユニットとして決定することとを含み得る。

いくつかの実施形態では、選択された算出ユニットとコマンド待ち行列中の新しいコマンドとを算出ユニットダイレクトメモリアクセス回路に通知することは、選択された算出ユニットのベースアドレスを新しいコマンドの第１のリストに上書きすることであって、新しいコマンドが、コマンド待ち行列中の複数のスロットのうちの選択されたスロットに記憶される、第１のリストに上書きすることと、選択されたスロットの参照を算出ユニットダイレクトメモリアクセス回路に提供することとを含み得る。

本発明の概要セクションは、いくつかの概念を導入するために提供されるにすぎず、請求される主題の重要な、または本質的な特徴を識別するために提供されるものではない。本発明の構成の他の特徴は、添付の図面および以下の発明を実施するための形態から明らかになろう。

本発明の構成は、添付の図面において例として示される。しかしながら、図面は、本発明の構成を、図示される特定の実装形態のみに限定するものと解釈されるべきではない。様々な態様および利点が、以下の発明を実施するための形態を検討し、図面を参照すると明らかになろう。

本開示内で説明される１つまたは複数の実施形態による、異種コンピューティングプラットフォームの一例を示す図である。本開示内で説明される１つまたは複数の実施形態による、スケジューリングシステムによって実施される例示的な動作を示す図である。図３Ａ～図３Ｂは、まとめて、本開示内で説明される１つまたは複数の実施形態による、ＨＣＰのための動作の例示的な方法を示す図である。図３Ａ～図３Ｂは、まとめて、本開示内で説明される１つまたは複数の実施形態による、ＨＣＰのための動作の例示的な方法を示す図である。集積回路（ＩＣ）のための例示的なアーキテクチャを示す図である。

本開示は、新規の特徴を定義する特許請求の範囲で締めくくるが、本開示内で説明される様々な特徴は、図面とともにその説明を考慮することにより、より良く理解されると考えられる。本明細書で説明される（１つまたは複数の）プロセス、（１つまたは複数の）機械、（１つまたは複数の）製造物およびその任意の変形形態は、例示のために提供される。本開示内で説明される特定の構造的および機能的詳細は、限定するものとして解釈されるべきではなく、単に、特許請求の範囲のための基礎として、およびほぼすべての適切に詳細な構造において説明される特徴を様々に採用するように当業者に教示するための代表的基礎として解釈されるべきである。さらに、本開示内で使用される用語および句は、限定するものではなく、むしろ、説明される特徴の理解可能な説明を提供するものである。

本開示は、集積回路（ＩＣ）に関し、より詳細には、ハードウェアアクセラレーションのためにＩＣ内の算出ユニット（ＣＵ）をプログラムおよび制御することに関する。本開示内で説明される本発明の構成によれば、ＩＣ内のＣＵの動作を監視、追跡、および制御することが可能であるスケジューリングシステムが説明される。ＣＵは、異種コンピューティングプラットフォーム（ＨＣＰ）のホストプロセッサからオフロードされた動作を実施することを担当する、ＩＣ内のハードウェアブロックまたは回路である。スケジューリングシステムは、ＣＵを含む同じＩＣ内に実装され、コマンドの形態で提供された、動作のホストプロセッサからＣＵへのオフローディングを支援する。

従来のＨＣＰでは、スケジューリングは、ホストプロセッサによって実行されるソフトウェアプロセスとして実装される。ホストプロセッサは、動作を実施するためにＣＵがいつ利用可能になるかを決定するために、ＩＣの個々のＣＵを継続的にポーリングするというタスクを与えられる。ＣＵのポーリングは、かなりの量のホストプロセッサ時間を消費する。さらに、スケジューリングプロセスはホストプロセッサによって実行されるので、ホストプロセッサは、ＩＣにコマンドを送る前に、ＣＵが利用可能になるまで待たなければならない。ホストプロセッサは、コマンドを実行するためにＣＵが利用可能になったと決定したことに応答してのみ、コマンドを送る。したがって、ＣＵが利用可能になる時間と、ＣＵがコマンドに対する実行を始めることが可能になる時間との間に、遅延が生じる。この遅延は、ＣＵによって必要とされるデータを含むコマンドを、ホストプロセッサからＣＵを含むＩＣに転送するのに必要な時間を含む。

本明細書で説明される本発明の構成によれば、スケジューリングシステムは、ＣＵを含む同じＩＣ中で実装される。スケジューリングシステムは、ＩＣ内のＣＵの利用可能性を追跡することが可能である。スケジューリングシステムは、ホストプロセッサから送られたコマンド（たとえば、動作）を受信することも可能である。スケジューリングシステムは、ＣＵが（１つまたは複数の）コマンドを実行するために利用可能になるような時間まで、コマンド待ち行列にコマンドを記憶することが可能である。したがって、ホストプロセッサは、利用可能なＣＵについて継続的にポーリングする必要なしに、および／またはＩＣにコマンドを送る前にＣＵが利用可能になるのを待つ必要なしに、コマンドを送り、他のタスクを続けることが可能である。

コマンドがスケジューリングシステム内で待ち行列に入れられ、ＣＵが利用可能になると、ＣＵへのコマンドの転送は、ホストプロセッサ関与を必要としない。スケジューリングシステムは、ＣＵにコマンドを転送する。スケジューリングシステムとＣＵとは同じＩＣ中にあるので、ＣＵにコマンドを転送するための時間は比較的小さい。したがって、ＣＵが利用可能になる時間と、ＣＵがコマンドの実行を始める時間との間の遅延が低減され、それにより、ＨＣＰの速度を増加させ、レイテンシを低減する。

スケジューリングシステムは、さらに、コマンドがいつ実行し終わったかを決定することが可能である。コマンドが実行し終わったと決定したことに応答して、スケジューリングシステムは、ホストプロセッサに通知することが可能である。たとえば、スケジューリングシステムは、コマンドが実行を終えたと決定したことに応答して、スケジューリングシステム内に含まれるコマンド完了レジスタに書き込むことが可能である。コマンド完了レジスタは、コマンドのステータスと、実行を終えた特定のコマンドとを確認するために、ホストプロセッサによって読み取られ得る。コマンド完了レジスタの使用は、ホストプロセッサが、ＩＣのＣＵの各々を個々に管理することとは対照的に「コマンド」レベルで動作することを可能にする。

図を参照しながら、本発明の構成のさらなる態様が以下でより詳細に説明される。例示を単純および明快にするために、図に示されている要素は、必ずしも一定の縮尺で描かれているとは限らない。たとえば、要素のうちのいくつかの寸法は、明快のために、他の要素に対して誇張され得る。さらに、適切と見なされる場合、対応する、類似する、または同様の特徴を指示するために、参照番号が図の間で繰り返される。

図１は、本開示内で説明される１つまたは複数の実施形態による、ＨＣＰ１００の一例を示す。図１の例では、ＨＣＰ１００は、ホストシステム１０２と、ハードウェアアクセラレーションデバイスとして使用されるＩＣ１５０とを含む。

ホストシステム１０２は、コンピュータまたはサーバなど、データ処理システムとして実装され得る。ホストシステム１０２は、インターフェース回路１１５を通してメモリ１１０および１つまたは複数の入出力（Ｉ／Ｏ）デバイスに結合されたホストプロセッサ１０５を含む。ホストシステム１０２は、メモリ１１０内にコンピュータ可読命令（プログラムコード）を記憶することが可能である。メモリ１１０は、コンピュータ可読記憶媒体の一例である。ホストプロセッサ１０５は、インターフェース回路１１５を介してメモリ１１０からアクセスされるプログラムコードを実行することが可能である。

メモリ１１０は、たとえば、ローカルメモリおよびバルク記憶デバイス（ｂｕｌｋｓｔｏｒａｇｅｄｅｖｉｃｅ）など、１つまたは複数の物理メモリデバイスを含み得る。ローカルメモリは、概してプログラムコードの実際の実行中に使用される（１つまたは複数の）非永続的メモリデバイスを指す。ローカルメモリの例は、ランダムアクセスメモリ（ＲＡＭ）、および／または、プログラムコードの実行中のプロセッサによる使用のために好適である様々なタイプのＲＡＭ（たとえば、ダイナミックＲＡＭまたは「ＤＲＡＭ」あるいはスタティックＲＡＭまたは「ＳＲＡＭ」）のいずれかを含む。バルク記憶デバイスは、永続的データ記憶デバイスを指す。バルク記憶デバイスの例は、限定はしないが、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュメモリ、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、または他の好適なメモリを含む。ホストシステム１０２は、プログラムコードが実行中にバルク記憶デバイスから取り出されなければならない回数を低減するために少なくともあるプログラムコードの一時的記憶を行う１つまたは複数のキャッシュメモリ（図示せず）をも含み得る。

インターフェース回路１１５の例は、限定はしないが、システムバスと入出力（Ｉ／Ｏ）バスとを含む。インターフェース回路１１５は、様々なバスアーキテクチャのいずれかを使用して実装され得る。バスアーキテクチャの例は、限定はしないが、拡張業界標準アーキテクチャ（ＥＩＳＡ）バス、アクセラレーテッドグラフィックスポート（ＡＧＰ）、ビデオエレクトロニクス規格協会（ＶＥＳＡ）ローカルバス、ユニバーサルシリアルバス（ＵＳＢ）、および周辺構成要素相互接続エクスプレス（ＰＣＩｅ）バスを含み得る。

Ｉ／Ｏデバイス１２０は、直接、または介在するＩ／Ｏコントローラを通してのいずれかで、ホストシステム１０２、たとえば、インターフェース回路１１５に結合され得る。Ｉ／Ｏデバイス１２０の例は、限定はしないが、キーボード、ディスプレイデバイス、ポインティングデバイス、１つまたは複数の通信ポート、およびネットワークアダプタを含む。ネットワークアダプタは、ホストシステム１０２が、介在するプライベートまたは公衆ネットワークを通して他のシステム、コンピュータシステム、リモートプリンタ、および／またはリモート記憶デバイスに結合されるようになることを可能にする回路を指す。モデム、ケーブルモデム、イーサネットカード、およびワイヤレストランシーバが、ホストシステム１０２とともに使用され得る異なるタイプのネットワークアダプタの例である。

１つまたは複数の実施形態では、メモリ１１０は、ホストプロセッサ１０５によって実行され得るオペレーティングシステム（図示せず）および１つまたは複数のアプリケーション（図示せず）を記憶する。ランタイムライブラリ、およびＩＣ１５０のためのドライバも、ホストプロセッサ１０５によって実行され得る。１つまたは複数の実施形態では、ランタイムライブラリは、ホストプロセッサ１０５によって実行される（１つまたは複数の）アプリケーションとリンクされるか、またはさもなければ、それと一体化され得る。ランタイムライブラリは、ドライバを使用してＩＣ１５０と通信するために使用される機能を含む。

ホストシステム１０２は、実装されるデバイスおよび／またはシステムの特定のタイプに応じて、図示された構成要素よりも少数の構成要素、または図１に示されていない追加の構成要素を含み得る。さらに、含まれる特定のオペレーティングシステム、（１つまたは複数の）アプリケーション、および／またはＩ／Ｏデバイスは、システムタイプに基づいて変動し得る。さらに、例示的な構成要素のうちの１つまたは複数は、別の構成要素に組み込まれるか、またはさもなければ、別の構成要素の一部分を形成し得る。たとえば、プロセッサが、少なくともあるメモリを含み得る。ホストシステム１０２は、図１のアーキテクチャまたはそれと同様のアーキテクチャを使用して各々実装される単一のコンピュータあるいは複数のネットワーク化されたまたは相互接続されたコンピュータを実装するために使用され得る。

ＩＣ１５０は、通信リンク１２５を介してホストシステム１０２に通信可能にリンクされる。たとえば、ＩＣ１５０は、ホストシステム１０２内に含まれ得る回路板に結合され得る。１つまたは複数の実施形態では、通信リンク１２５はＰＣＩｅリンクである。ただし、通信リンク１２５は様々な異なる接続および／または通信プロトコルのうちのいずれかを使用して実装され得ることと、提供された例は限定として意図されていないこととを諒解されたい。

ＩＣ１５０は、インターフェース１５５と、スケジューリングシステム１６０と、複数のＣＵ１８０と、随意に、メモリコントローラ１８５とを含む。ＣＵ１８０は、ハードウェアアクセラレーションのために使用される回路ブロックである。ＣＵ１８０は、ホストプロセッサ１０５からオフロードされた動作、たとえば、コマンドを実施するために使用され得る。図１の例では、ＣＵ１８０は、スケジューリングシステム１６０によって制御される。

インターフェース１５５は、通信リンク１２５を介してホストシステム１０２と通信することが可能である。特定の実施形態では、インターフェース１５５は、ダイレクトメモリアクセス（ＤＭＡ）回路を含むＰＣＩｅインターフェースである。インターフェース１５５のＤＭＡ部分は、メモリコントローラ１８５を介して、コマンド待ち行列１６２、コマンド要求レジスタ１６４、コマンド完了レジスタ１６６、および／またはメモリ１９０など、１つまたは複数のレジスタおよび／またはメモリを読み取り、ならびに／あるいは１つまたは複数のレジスタおよび／またはメモリに書き込むことが可能である。

スケジューリングシステム１６０は、コマンド待ち行列１６２と、コマンド要求レジスタ１６４と、コマンド完了レジスタ１６６と、コントローラ１６８と、ＣＵＤＭＡ回路１７０と、ＣＵ割込み回路１７２と、ＣＵ完了レジスタ１７４とを含む。別々に示されているが、１つまたは複数の他の実施形態では、インターフェース１５５はスケジューリングシステム１６０の一部と見なされ得る。

コマンド待ち行列１６２は、ホストシステム１０２からオフロードされたコマンドを受信することが可能である。コマンド待ち行列１６２は、サポート回路をもつメモリとして実装され得る。たとえば、コマンド待ち行列１６２は、サポート論理をもつランダムアクセスメモリ（ＲＡＭ）として実装され得る。１つまたは複数の実施形態では、コマンド待ち行列１６２は、ＩＣ１５０内に１つまたは複数のブロックＲＡＭ（ＢＲＡＭ）として実装される。コマンド待ち行列１６２は、（たとえば、ランタイムライブラリおよび／またはドライバを実行する際に）ホストプロセッサ１０５によって書き込まれ、コントローラ１６８によって読み取られ、書き込まれ得る。コマンド待ち行列１６２は、「スロット」と呼ばれる固定サイズの複数の領域に区分され得る。各スロットは、ホストプロセッサ１０５からのコマンド（たとえば、１つのコマンド）を記憶することが可能である。

特定の実施形態では、各スロットは同じサイズである。一態様では、スロットのサイズは、スケジューリングシステム１６０によってハンドリングされることになる最も大きいコマンドのサイズがそのとき知られているので、スケジューリングシステム１６０を含む回路設計のコンパイル時間において設定され得る。スロットは、スケジューリングシステム１６０によってハンドリングされる最も大きいコマンドを記憶するようにサイズ決定され得る。１つまたは複数の他の実施形態では、スロットのサイズは、ホストプロセッサ１０５によって実行されるランタイムライブラリによって設定され得る。いずれの場合も、ホストプロセッサ１０５は、コマンド待ち行列１６２の利用可能なスロットに新しいコマンドを書き込むことが可能である。

コマンド要求レジスタ１６４は、新しいコマンドがコマンド待ち行列１６２のスロット内でいつ利用可能になるかをコントローラ１６８に通知することが可能である。コマンド要求レジスタ１６４は、後で、たとえば、コマンド待ち行列１６２にコマンドを書き込んだことに応答して、または書き込んだ直後に、ホストシステム１０２によって書き込まれ得る、サポート回路をもつメモリとして実装され得る。

コマンド要求レジスタ１６４は、ホストシステム１０２によって書き込まれ得る複数のロケーションを含む。コマンド要求レジスタ１６４内の各ロケーション、たとえば、ビットロケーションは、たとえば１対１で、コマンド待ち行列１６２内のスロットに対応する。コマンド要求レジスタ１６４に書き込むホストシステム１０２のアクションは、コマンド要求レジスタ１６４に、新しいコマンドがコマンド待ち行列１６２のスロット内で利用可能であることを指示する、コントローラ１６８への割込みを生成させる。割込みに応答して、コントローラ１６８は、コマンド待ち行列１６２のどの１つまたは複数のスロットが新しいコマンドを含んでいるかを決定するために、コマンド要求レジスタ１６４を読み取る。コマンド要求レジスタ１６４を含むことは、新しいコマンドがその中で利用可能であるかどうかを決定するためにコマンド待ち行列１６２を継続的にポーリングしなければならないことからコントローラ１６８を解放する。コマンド要求レジスタ１６４は、読取り時クリアレジスタとして実装され得る。したがって、コントローラ１６８によって読み取られると、コマンド要求レジスタ１６４のコンテンツはクリアされる。

コマンド要求レジスタ１６４によってコントローラ１６８への割込みが生成され、さらなるコマンドがコマンド待ち行列１６２に記憶されると、ホストプロセッサ１０５は、コマンド待ち行列１６２中のさらなる新しいコマンドを書き込まれた異なるスロットに対応する、コマンド要求レジスタ１６４中のロケーションに書き込むことを続ける。コマンド要求レジスタ１６４によって生成された割込みは、新しい割込みを生成するのではなく、少なくともコントローラ１６８が割込みをサービスする（ｓｅｒｖｉｃｅ）まで、セットされたままであり得る。コントローラ１６８は、コマンド要求レジスタ１６４から割込みを受信したことに応答して、新しいコマンドを記憶する、コマンド待ち行列１６２のスロットを決定するために、コマンド要求レジスタ１６４を読み取ることが可能である。コントローラ１６８がコマンド要求レジスタ１６４を読み取ると、コマンド要求レジスタ１６４のコンテンツはクリアされる。

コマンド完了レジスタ１６６は、（１つまたは複数の）特定のコマンドがいつＣＵ１８０上の実行を終えたかをホストプロセッサ１０５に通知することが可能である。コマンド完了レジスタ１６６は、サポート回路をもつメモリとして実装され得る。コマンド完了レジスタ１６６は、コマンド待ち行列１６２中に含まれているスロットの数よりも大きいかまたはそれに等しい数のロケーション、たとえばビットロケーションを含むようにサイズ決定され得る。特定の実施形態では、コマンド完了レジスタ１６６中の各ロケーションは、たとえば１対１で、コマンド待ち行列１６２のスロットに対応する。コマンド完了レジスタ１６６中のロケーションに記憶された値は、コマンド待ち行列１６２の対応するスロットに記憶されたコマンドが実行を終えたかどうかを指示する。たとえば、コマンド完了レジスタ１６６中のビット位置「Ｘ」に書き込まれた「１」は、コマンド待ち行列１６２のスロット「Ｘ」に記憶されたコマンドが実行を完了したことを指示する。

１つまたは複数の実施形態では、コントローラ１６８は、対応するコマンドがＣＵ１８０中で実行を完了したことを指示するために、コマンド完了レジスタ１６６中の特定のロケーションを書き込むことが可能である。コマンド完了レジスタ１６６は、コマンドが実行を完了したことを指示する、ホストプロセッサ１０５への割込みを生成することが可能である。ホストプロセッサ１０５は、ランタイムライブラリおよび／またはドライバの実行によって、コマンド待ち行列１６２からの、いずれかのコマンドが実行し終わったかどうか、および／またはどのコマンドが実行し終わったかを決定するために、コマンド完了レジスタ１６６中のビットを読み取ることが可能である。

特定の実施形態では、コマンド完了レジスタは複数のサブレジスタを含み得、各サブレジスタが、ホストプロセッサ１０５によって他のサブレジスタから独立して読み取られ得る。さらに、サブレジスタの各々は、（１つまたは複数の）コマンドの完了を指示するためにそのサブレジスタ内の１つまたは複数のロケーションが書き込まれたことを指示する、ホストプロセッサ１０５への独立した割込みを生成することが可能である。

例示的なおよび非限定的な例として、コマンド待ち行列１６２中に１２８個のスロットがある場合について考える。コマンド完了レジスタ１６６は、（たとえば、１対１で）コマンド待ち行列１６２の１２８個のスロットに対応する１２８ビットロケーションをも含み得る。この例では、コマンド完了レジスタ１６６は４つのサブレジスタを含み、各サブレジスタは３２ビットレジスタである。

たとえば、コマンド待ち行列１６２の（たとえば、スロット０～１２７のうちの）スロット１０からのコマンドが実行を完了した場合、コマンド完了レジスタ１６６中の、スロット１０に対応する（たとえば、ビット０～３１のうちの）ビットロケーション１０が、更新される。ビットロケーション１０は、複数のサブレジスタのうちの第１のサブレジスタ中に位置する。複数のサブレジスタのうちの第１のサブレジスタは、ホストプロセッサ１０５への割込みを生成する（たとえば、セットする）。割込みは、ホストプロセッサ１０５が第１のサブレジスタを読み取る時間まで、セットされたままであり得る。したがって、スロット０～３１中の他のコマンドが実行を完了した場合、第１のサブレジスタ中のコマンド完了レジスタ１６６中の対応するビットロケーションが更新され、割込みは、ホストプロセッサ１０５が第１のサブレジスタを読み取るまで、セットされたままである。各サブレジスタはそれ自体の割込みを生成することが可能であるので、ホストプロセッサ１０５は、４つのサブレジスタの各々に対応するすべての１２８ビットを読み取るのではなく、第１のサブレジスタ（たとえば、３２ビット）のみを読み取る必要がある。

この例を続けると、コマンド待ち行列１６２のスロット３５からのコマンドが実行を完了した場合、コマンド完了レジスタ１６６中の、スロット３５に対応するビットロケーション３５が、更新される。ビットロケーション３５は、複数のサブレジスタのうちの第２のサブレジスタ中に位置する。複数のサブレジスタのうちの第２のサブレジスタは、ホストプロセッサ１０５への割込みを生成する。割込みは、ホストプロセッサ１０５が第２のサブレジスタを読み取る時間まで、セットされたままであり得る。したがって、スロット３２～６３中の他のコマンドが実行を完了した場合、第２のサブレジスタ中のコマンド完了レジスタ１６６中の対応するビットロケーションが更新され、割込みは、ホストプロセッサ１０５が第２のサブレジスタを読み取るまで、セットされたままである。各サブレジスタはそれ自体の割込みを生成することが可能であるので、ホストプロセッサ１０５は、４つのサブレジスタの各々に対応するすべての１２８ビットを読み取るのではなく、第２のサブレジスタ（たとえば、３２ビット）のみを読み取る必要がある。

上記の例から、割込みがコマンド完了レジスタ１６６の特定のサブレジスタのために生成され、同じサブレジスタ内で対応するロケーションを有するコマンドを実行するさらなるＣＵが実行を完了すると、割込みは、単にセットされたままである。ホストプロセッサ１０５は、割込みをサービスするとき、特定のサブレジスタを読み取り、サブレジスタ中の実行を終えたコマンドの各々を決定する。

１つまたは複数の実施形態では、コントローラ１６８は、ＩＣ１５０中に埋め込まれ、プログラムコードを実行することが可能であるプロセッサとして実装される。特定の実施形態では、プロセッサは、ハードワイヤードである。他の実施形態では、プロセッサは、ＩＣ１５０のプログラマブル回路を使用して実装される「ソフトプロセッサ」である。コントローラ１６８は、コントローラ１６８に本明細書で説明される様々な動作を実施させるファームウェアを実行し得る。

コントローラ１６８は、コマンド待ち行列１６２内のスロット（および、そこに記憶されたコマンド）のステータスを追跡することが可能である。コントローラ１６８は、ＣＵ１８０のステータスを追跡することも可能である。たとえば、コントローラ１６８は、各ＣＵがアイドル（たとえば、利用可能）であるのか開始済み（たとえば、ビジー）であるのかを指定するＣＵ１８０のリストを維持することが可能である。ＣＵ１８０のステータスを追跡することによって、コントローラ１６８は、コマンド待ち行列１６２の（１つまたは複数の）スロットに記憶された（１つまたは複数の）新しいコマンドを実行するために（１つまたは複数の）アイドルＣＵ１８０を選択することが可能である。

図１の例では、コントローラ１６８は、ＣＵ１８０の状態を決定するためにＣＵ１８０への直接アクセスを有しない。コントローラ１６８は、コマンドの完了に応答してそれぞれのＣＵ１８０によって生成された割込みに基づいてＣＵ１８０の状態を決定することが可能である。割込みは、以下でより詳細に本明細書で説明されるように、ＣＵ割込み回路１７２に向けられる。

ＣＵＤＭＡ回路１７０は、ＣＵ１８０を設定し、開始することが可能である。コントローラ１６８は、たとえば、所与のコマンドを実行するようにＣＵ１８０を選択した後に、実行されるべき特定のスロット（たとえば、およびコマンド）をＣＵＤＭＡ回路１７０に通知する。述べられたように、スロットは、コマンドを実行するために選択される特定のＣＵ１８０を指定するために更新される。ＣＵＤＭＡ回路１７０は、スロットからのコマンドを、実行のために選択されたＣＵ１８０に提供することが可能である。

ＣＵ割込み回路１７２は、ＣＵ１８０によって生成された割込みを受信およびサービスすることが可能である。ＣＵ割込み回路１７２は、ＣＵ１８０によって生成された割込みをハンドリングすることが可能であり、それにより、割込みをサービスしなければならないことからコントローラ１６８を解放する。ＣＵ割込み回路１７２は、ＣＵ１８０がさらなるコマンドを実行するためにＣＵＤＭＡ回路１７０によって新たにプログラムされ得るように、コマンドの実行を完了したＣＵ１８０をリアーム（たとえば、リセット）することも可能である。

１つまたは複数の実施形態では、ＣＵ割込み回路１７２をＣＵ１８０に結合するインターフェースは、コントローラ１６８をクロック制御するために使用されるものよりも遅いクロック周波数において動作する制御インターフェースであり得る。ＣＵ１８０をリアームすることをＣＵ割込み回路１７２にオフロードすることによって、コントローラ１６８は、他の機能を自由に実施することができ、より遅いインターフェースを介してリアーム動作が完了するのを待つ必要がない。

１つまたは複数の実施形態では、ＣＵ割込みは、連続的にワイヤ接続され、たとえば、インデックス付けされ、したがって、ＣＵ割込みが発動したとき、ＣＵ割込み回路１７２は、割込みワイヤのインデックスに基づいて、割込みを始動した特定のＣＵ１８０を識別することが可能である。ＣＵ割込み回路１７２は、割込みインデックスを特定のＣＵアドレスにマッピングするアドレステーブルを含み得る。特定の実施形態では、アドレステーブルは、ルックアップテーブルＲＡＭ（たとえば、ＬＵＴＲＡＭ）から構築され、ＣＵの対応する割込みインデックスへの１：１マッピングを有するＣＵアドレスの連続リストを含んでいる。ＣＵ割込み回路１７２は、割込みを生成した特定のＣＵをリアームするためにアドレステーブルからのアドレスを使用することが可能である。ＣＵ割込み回路１７２は、受信された割込みのインデックスに基づいてＣＵ完了レジスタ１７４中の正しいロケーションに書き込むことが可能である。

ＣＵ完了レジスタ１７４は、ＣＵ割込み回路１７２によって書き込まれ、コントローラ１６８によって読み取られる。ＣＵ完了レジスタ１７４は、複数のロケーション、たとえばビットロケーションを含み、各ロケーションが、（たとえば、１対１で）特定のＣＵ１８０に対応する。ＣＵ割込み回路１７２が、コマンドの実行を完了した選択されたＣＵ１８０から割込みを受信したことに応答して、ＣＵ割込み回路１７２は、選択されたＣＵ１８０に対応するＣＵ完了レジスタ１７４中のロケーションに書き込む。

ＣＵ完了レジスタ１７４中のロケーションに書き込むことと協調して、ＣＵ割込み回路１７２は、コントローラ１６８への割込みをも生成する。特定の実施形態では、コントローラ１６８がＣＵ完了レジスタ１７４を読み取る前に、ＣＵ１８０からの複数の割込みがＣＵ割込み回路１７２によって処理され得る。したがって、ＣＵ割込み回路１７２は、複数のＣＵ割込みラインを効果的に合体させて、コントローラ１６８への単一の割込みラインにする。

ＣＵ割込み回路１７２によってコントローラ１６８への割込みが生成され、異なるＣＵ１８０からさらなる割込みが受信されると、ＣＵ割込み回路１７２は、割込みを生成した異なるＣＵに対応する、ＣＵ完了レジスタ１７４中のロケーションに書き込むことを続ける。ＣＵ割込み回路１７２によって生成された割込みは、セットされたままである。コントローラ１６８は、ＣＵ割込み回路１７２から割込みを受信したことに応答して、ＣＵ完了レジスタ１７４中の書き込まれた特定のロケーションに基づいて、実行を終えた（１つまたは複数の）特定のＣＵ１８０を決定するために、ＣＵ完了レジスタ１７４を読み取ることが可能である。ＣＵ完了レジスタ１７４は、読取り時クリアレジスタとして実装され得る。したがって、ＣＵ完了レジスタ１７４のコンテンツは、コントローラ１６８がＣＵ完了レジスタ１７４を読み取ったことに応答してクリアされ得る。

コントローラ１６８は、ＣＵ１８０とコマンド（たとえば、コマンド待ち行列１６２のスロット）との間でトランスレートすることが可能である。コントローラ１６８は、ＣＵ完了レジスタ１７４の各セットされたビットを、割込みを生成したＣＵ上で前に開始されたコマンド（たとえば、スロット）と相関させることができる。たとえば、コントローラ１６８は、ＣＵと、コマンド待ち行列１６２のスロットに基づいてＣＵによって実行されるコマンドとを相関させるデータ構造を維持することが可能である。コマンドが特定のＣＵ１８０によって実行されたとき、コントローラ１６８は、そのＣＵを、コマンドを記憶するコマンド待ち行列１６２の特定のスロットに関連付けることが可能である。

コントローラ１６８は、実行を完了した特定のコマンドを指示するためにコマンド完了レジスタ１６６中のロケーションを更新することがさらに可能である。たとえば、ＣＵ１８０－１が、スロット５に記憶されたコマンドの実行を完了する場合について考える。ＣＵ割込み回路１７２は、ＣＵ１８０－１から割込みを受信し、ＣＵ１８０－１に対応する、ＣＵ完了レジスタ１７４中のロケーションを更新する。コントローラ１６８は、ＣＵ割込み回路１７２から割込みを受信し、ＣＵ完了レジスタ１７４を読み取ることによってＣＵ１８０－１がコマンドの実行を完了したと決定する。コントローラ１６８は、ＣＵ１８０－１がスロット５からのコマンドを実行したと決定することが可能である。したがって、コントローラ１６８は、コマンド完了レジスタ１６６中の、スロット５に対応するロケーションに書き込むことが可能である。説明されたように、コマンド完了レジスタ１６６に書き込むことにより、ホストプロセッサ１０５への割込みが生成される。

図１の例では、コントローラ１６８は、コマンド待ち行列１６２、コマンド要求レジスタ１６４、コマンド完了レジスタ１６６、ＣＵＤＭＡ回路１７０、ＣＵ割込み回路１７２、およびＣＵ完了レジスタ１７４に結合される。１つまたは複数の実施形態では、コントローラ１６８は、直接接続を使用してそのような回路ブロックに結合され得る。他の実施形態では、コントローラ１６８は、相互接続回路を通してそのような回路ブロックに結合され得る。インターフェース１５５は、直接接続または相互接続回路を介して、コマンド待ち行列１６２、コマンド要求レジスタ１６４、およびコマンド完了レジスタ１６６に結合され得る。同様に、ＣＵ１８０は、直接接続または相互接続回路を介してＣＵＤＭＡ回路１７０および／またはＣＵ割込み回路１７２に結合され得る。

相互接続回路の一例は、アドバンストマイクロコントローラバスアーキテクチャ（ＡＭＢＡ：ＡｄｖａｎｃｅｄＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＢｕｓＡｒｃｈｉｔｅｃｔｕｒｅ）拡張可能インターフェース（ＡＸＩ：ＡＭＢＡｅＸｔｅｎｓｉｂｌｅＩｎｔｅｒｆａｃｅ）バスである。ＡＭＢＡＡＸＩバスは、回路ブロックおよび／またはシステムの間にオンチップ接続を確立する際に使用するための埋込みマイクロコントローラバスインターフェースである。ＡＸＩは、相互接続回路の例示的な例として提供され、本開示内で説明される実施形態の限定として意図されていない。使用され得る相互接続の他の例は、限定はしないが、他のタイプのバス、ネットワークオンチップ（ＮｏＣ）、クロスバー、または他のタイプのスイッチを含む。

１つまたは複数の実施形態では、メモリコントローラ１８５はＩＣ１５０内に実装される。一例では、メモリコントローラ１８５は、ハードワイヤード回路ブロックとして実装される。別の例では、メモリコントローラ１８５は、ＩＣ１５０のプログラマブル回路を使用して実装される。１つまたは複数の他の実施形態では、メモリコントローラ１８５は、ＩＣ１５０の外部に、たとえば、ＩＣ１５０に結合された別のＩＣ中で、実装され得る。

メモリ１９０は、メモリコントローラ１８５を介してＣＵ１８０によってアクセスされ（たとえば、読み取られ、および／または書き込まれ）得るオフチップメモリとして含まれ得る。１つまたは複数の実施形態では、ホストプロセッサ１０５も、インターフェース１５５、ホストＤＭＡ回路１９２、およびメモリコントローラ１８５を介して、メモリ１９０にアクセス（たとえば、メモリ１９０を読み取り、および／またはメモリ１９０を書き込み）得る。メモリ１９０は、ＩＣ１５０が結合される回路板に結合され得る。したがって、特定の実施形態では、ＣＵ１８０は、メモリ１９０からコマンド実行のための入力引数を取り出し、実行されたコマンドの結果をメモリ１９０に記憶し得る。ホストプロセッサ１０５は、次いで、メモリ１９０から結果を取り出し得る。

説明と例示の容易さとのために、「オープンコンピューティング言語（ＯｐｅｎＣｏｍｐｕｔｉｎｇＬａｎｇｕａｇｅ）」または「ＯｐｅｎＣＬ（商標）」という専門用語が、本出願全体にわたって使用される。ＨＣＰをサポートする様々な異なるフレームワークおよび／または言語のうちのいずれかが使用され得ることを諒解されたい。したがって、本発明の構成は、ＯｐｅｎＣＬに限定されるものではない。むしろ、本開示内で説明される実施形態は、様々な好適なおよび異なるＨＣＰフレームワークのうちのいずれかとともに使用され得る。本開示内で説明される実施形態とともに使用され得る他のＨＣＰおよび／またはハードウェアアクセラレーションフレームワークの例は、限定はしないが、オープンマルチプロセシング（ＯｐｅｎＭｕｌｔｉ－Ｐｒｏｃｅｓｓｉｎｇ）（ＯｐｅｎＭＰ（登録商標））およびＣＵＤＡ（登録商標）を含む。

図２は、本開示内で説明される１つまたは複数の実施形態による、図１のスケジューリングシステム１６０によって実施される例示的な動作を示す。図２の例では、スケジューリングシステム１６０のいくつかの回路ブロックは、説明の明快さおよび容易さのために省略される。

描かれているように、コントローラ１６８は、複数のデータ構造、たとえば、テーブルまたはリストを含む。たとえば、コントローラ１６８は、コマンド待ち行列１６２中に含まれるスロット、およびスロットがコマンドを含むかどうかをリストするスロットリスト２０２と、ＣＵ、および実行のためにＣＵに割り当てられたスロット（たとえば、コマンド）をリストするスロットＣＵリスト２０４と、ＣＵ、およびアイドルまたは開始済みとしての各ＣＵのステータスをリストするＣＵリスト２０６とを含む。ＣＵリスト２０６は、各ＣＵのためのベースアドレスをも指定し得る。

図２の例では、ホストプロセッサ１０５は、コマンド待ち行列１６２のスロット２１０内に新しいコマンド２０８を記憶し、スロット２１０に対応する、コマンド要求レジスタ１６４中のロケーションに書き込んだ。コマンド要求レジスタ１６４中のロケーションが書き込まれたことに応答して、コマンド要求レジスタ１６４は、コントローラ１６８への割込みを生成する。コントローラ１６８は、割込みに応答して、コマンド要求レジスタ１６４中のどのロケーションが書き込まれたかを決定するために、コマンド要求レジスタ１６４を読み取り、コマンド待ち行列１６２の対応するスロット中の新しいコマンドの利用可能性を指示する。述べられたように、コントローラ１６８によって読み取られると、コマンド要求レジスタ１６４はクリアされる。

コントローラ１６８は、スロット２１０内の新しいコマンド２０８を読み取ることが可能である。たとえば、コントローラ１６８は、コマンド要求レジスタ１６４を読み取ることによって、スロット２１０が、そこに記憶された新しいコマンドを有すると決定する。特定の実施形態では、コントローラ１６８は、新しいコマンド２０８を処理するために必要な時間の量を低減するために、新しいコマンド２０８の選択された部分（たとえば、全体よりも小さい部分）のみを読み取ることが可能である。図２の例では、新しいコマンド２０８は領域２１２を含む。領域２１２は、新しいコマンド２０８を実行することが可能であるＣＵのリストを指定する。コマンド待ち行列１６２のスロットに書き込まれた各コマンドは、コマンドを実行することが可能である、したがって、コマンドを実行することを許容されるＣＵをリストする、領域２１２などの領域を含み得る。いくつかのＣＵは、いくつかのコマンドを実行することが可能であり得るにすぎない。

図２の例では、コントローラ１６８は、新しいコマンド２０８の残部を読み取ることなしに領域２１２を直接読み取ることが可能である。特定の実施形態では、領域２１２は、新しいコマンド２０８を実行することが可能である特定のＣＵを指定する、ＣＵインデックスのリストを含む。たとえば、領域２１２は、１、２、４、および５のインデックスを指定し得る。コントローラ１６８は、新しいコマンド２０８を実行することを許可されたＣＵ（たとえば、インデックス１、２、４、および５）のうちのいずれかが利用可能であるかどうかを決定するために、領域２１２において指定されたＣＵ（たとえば、ＣＵ１８０－１、１８０－２、１８０－４、および１８０－５）のリストをＣＵリスト２０６と比較する。

コントローラ１６８は、アイドル（たとえば、利用可能）であり、また、新しいコマンド２０８を実行することが可能であるＣＵを、ＣＵリスト２０６から選択することが可能である。コントローラ１６８は、たとえば、一致を決定するために、領域２１２からのＣＵインデックスをＣＵリスト２０６からの利用可能なＣＵと比較することが可能である。例示の目的で、ＣＵ１８０－１はアイドルであり得、ＣＵ１８０－２、１８０－４、および１８０－５は開始済みである。コントローラ１６８は、ＣＵ１８０－１を選択し、ＣＵ１８０－１のベースアドレスを領域２１２に書き込むこと、たとえば、ＣＵ１８０－１のベースアドレスを、領域２１２と領域２１２中に含まれている許容ＣＵのリストとに上書きすることが可能である。領域２１２に上書きすることは、領域２１２中に含まれている情報が、コントローラ１６８を対象とし、新しいコマンド２０８を実行するためのＣＵが選択されると、新しいコマンド２０８を実行するために必要とされないので、メモリを節約する。１つまたは複数の他の実施形態では、コントローラ１６８は、新しいコマンド２０８のいかなる部分にも上書きすることなしに、選択されたＣＵのベースアドレスをスロット２１０内に記憶し得る。

選択されたＣＵ、たとえばＣＵ１８０－１のベースアドレスを領域２１２に書き込むことは、選択されたＣＵを、スロット２１０に、および新しいコマンド２０８に効果的に割り当てる。コントローラ１６８は、選択されたＣＵ（たとえば、ＣＵ１８０－１）とスロット２１０との間の関連付けを指定するためにスロットＣＵリスト２０４を更新することも可能である。さらに、コントローラ１６８は、選択されたＣＵ１８０－１が開始済みであることを指示するためにＣＵリスト２０６を更新する。

コマンド２０８を実行するためのＣＵを選択すると、コントローラ１６８は、スロット２１０のインデックスをＣＵＤＭＡ回路１７０に受け渡すことが可能である。例示の目的で、スロット２１０のスロットインデックスは３２であり得る。コントローラ１６８は、スロットインデックス３２をＣＵＤＭＡ回路１７０中のレジスタに書き込むことが可能である。ＣＵＤＭＡ回路１７０は、コントローラ１６８からスロットインデックスを受信したことに応答して、スロット２１０に対応するスロットインデックス３２にアクセスし、選択されたＣＵ１８０－１のベースアドレスを読み取る。

ＣＵＤＭＡ回路１７０は、ＣＵ１８０－１のベースアドレスを使用して、コマンド２０８、たとえば、コマンド２０８中に含まれているデータを、実行のためにＣＵ１８０－１に転送することが可能である。ＣＵＤＭＡ回路１７０は、コントローラ１６８がＣＵへの実際のデータ転送に関与しないように、選択されたＣＵに直接データを転送することが可能である。データがＣＵ１８０－１に転送されると、ＣＵＤＭＡ回路１７０は、ＣＵ１８０－１に、コマンドを実行することを開始するかまたは始めるようにという信号を出す。

選択されたＣＵに転送された新しいコマンド２０８は、限定はしないが、選択されたＣＵがそれに基づいて動作すべき入力引数および／または選択されたＣＵが結果を書き込むべきであるメモリアドレスを含んでいる、メモリ（たとえば、メモリ１９０）中のロケーションへのアドレスまたはポインタを含む、様々な情報を含み得る。

図３Ａおよび図３Ｂは、まとめて、本開示内で説明される１つまたは複数の実施形態による、ＨＣＰのための動作の例示的な方法３００を示す。方法３００は、ＣＵを含むＩＣにコマンドをオフロードするために、図１に関して説明されたＨＣＰなどのＨＣＰによって実施される例示的な動作を示す。方法３００は、ＨＣＰ１００が動作している状態において始まり得る。ホストプロセッサ１０５は、少なくとも部分的に、ＩＣ１５０およびその中に含まれているスケジューリングシステム１６０と通信するための機能を提供するランタイムライブラリの実行を通して、図３Ａおよび図３Ｂを参照しながら説明される動作を実施することが可能である。述べられたように、ホストプロセッサ１０５はさらに、ＩＣ１５０と通信するためのドライバを実行し得る。

例示の目的で、方法３００は、単一のコマンドを受信すること、およびそのコマンドを実行する単一のＣＵの動作に関して説明される。本開示内で説明される原理は、複数のコマンドがホストシステムから受信され、複数の異なるＣＵによって実行される場合に適用され得ることを諒解されたい。

ブロック３０２において、ホストプロセッサは、コマンド待ち行列中の利用可能なスロットにコマンドを書き込む。ホストプロセッサは、たとえば、アプリケーションを実行する際に、コマンドがハードウェアアクセラレーションのためにＩＣにオフロードされるべきであると決定する。そうする際に、ホストプロセッサ、たとえば、ランタイムライブラリは、コマンド待ち行列内のスロットの利用可能性を追跡し、コマンド待ち行列内のそのような利用可能なスロットにコマンドを書き込むことが可能である。

ブロック３０４において、ホストプロセッサは、ブロック３０２において書き込まれたコマンド待ち行列のスロットに対応する、コマンド要求レジスタ中のロケーション、たとえば、スロットインデックスに書き込む。たとえば、ホストプロセッサは、ブロック３０２においてスロットを書き込んだことに応答して、または書き込んだ直後に、コマンド要求レジスタ中のロケーションに書き込むことが可能である。

ブロック３０６において、コマンド要求レジスタは、ブロック３０４においてホストプロセッサがロケーションに書き込んだことに応答して、コントローラへの割込みを生成する。ブロック３０８において、コントローラは、コマンド要求レジスタからの割込みに応答して、コマンド待ち行列中のどのスロットがホストプロセッサからの新しいコマンドを含むまたは記憶するかを決定する。たとえば、コマンド要求レジスタからの割込みに応答して、コントローラは、コマンド要求レジスタ中のどのロケーションが書き込まれたかを決定するために、コマンド要求レジスタを読み取る。各ロケーションは、コマンド待ち行列の特定のスロットに対応し得る。コントローラがコマンド要求レジスタを読み取ると、コマンド要求レジスタのコンテンツはクリアされる。説明されたように、方法３００は単一のコマンドのハンドリングを示すが、割込みがコマンド要求レジスタによって生成されてから、複数のコマンドがコマンド待ち行列に書き込まれていることがある。したがって、コントローラは、コマンド要求レジスタを読み取ることから、新しいコマンドを含む、コマンド待ち行列の複数のスロットの各々を決定することが可能である。

ブロック３１０において、コントローラは、どの（１つまたは複数の）ＣＵが新しいコマンドを実行することが可能であるかを決定する。たとえば、コントローラは、コマンド待ち行列中のスロットから新しいコマンドの少なくとも一部分を読み取ることが可能である。特定の実施形態では、コントローラは、新しいコマンドを実行することが可能であるＣＵのインデックスのリストを指定する、新しいコマンドの特定の領域のみを読み取ることが可能である。コントローラは、新しいコマンドを実行することが可能であるＣＵを決定するために新しいコマンドの全体を読み取る必要がなく、それにより、ＣＵ中の新しいコマンドの実行を始動することについてのレイテンシを低減する。

ブロック３１２において、コントローラは、新しいコマンドを実行することが可能であるアイドルＣＵを選択する。たとえば、コントローラは、新しいコマンド自体から読み取られた、新しいコマンドを実行することが可能である（１つまたは複数の）ＣＵを、アイドル（たとえば、利用可能）である（１つまたは複数の）ＣＵのリストと比較することが可能である。コントローラは、新しいコマンドを実行するための両方のリスト上に含まれるＣＵ（たとえば、新しいコマンドを実行することが可能であり、アイドルであるＣＵ）を選択する。たとえば、コントローラは、新しいコマンドを実行することが可能であるものとして指定されたＣＵを、アイドルＣＵと一致させることが可能である。

ブロック３１４において、コントローラは、選択されたＣＵを新しいコマンドに割り当てる。たとえば、コントローラは、選択されたＣＵのためのベースアドレスを新しいコマンドを含むスロットに書き込むことが可能である。１つまたは複数の実施形態では、コントローラは、ベースアドレスをコマンドに付加する。１つまたは複数の他の実施形態では、コントローラは、選択されたＣＵのベースアドレスを、新しいコマンド自体内の新しいコマンドを実行することが可能であるＣＵのリストに上書きする。

特定の実施形態では、コントローラは、さらに、選択されたＣＵが現在開始済み（たとえば、さらなるコマンドを実行する際に使用するために利用不可能）であることを指示するためにＣＵのステータスを追跡するために、および／または、選択されたＣＵと新しいコマンドとの間の関連付けを記憶するために使用される内部データ構造を更新することが可能である。コントローラは、選択されたＣＵを開始済みとマークしたが、選択されたＣＵは、動作を開始するようにとの信号を実際は出されなかったことを諒解されたい。

ブロック３１６において、コントローラは、新しいコマンドを含んでいるスロットのインデックスをＣＵＤＭＡ回路に書き込む。ブロック３１８において、ＣＵＤＭＡ回路は、スロットのインデックスを受信したことに応答して、新しいコマンドを含んでいるスロットから、選択されたＣＵのベースアドレスを読み取る。たとえば、ＣＵＤＭＡ回路は、インデックスを使用してスロットにアクセスし、さらに、コントローラが選択されたＣＵのベースアドレスを記憶した所定のロケーションに対してコマンドにインデックス付けすることが可能である。

ブロック３２０において、ＣＵＤＭＡ回路は、新しいコマンドを含んでいるスロットのコンテンツを選択されたＣＵにコピーする。ＣＵＤＭＡ回路は、選択されたＣＵに新しいコマンドを提供するために、選択されたＣＵのベースアドレスを使用する。スロットのコンテンツ、たとえば、新しいコマンドは、選択されたＣＵに入力されるべき引数がどこに記憶されたかを指定するメモリアドレスと、選択されたＣＵが、新しいコマンドを実行することによって生成された結果を記憶するべきであるメモリアドレスとを含む。ＣＵのベースアドレスは、コピーされる必要がない。ブロック３２２において、ＣＵＤＭＡ回路は、選択されたＣＵの動作を開始する。

ブロック３２４において、選択されたＣＵは、新しいコマンドの実行を完了すると、ＣＵ割込み回路への割込みを生成する。述べられたように、ＣＵからの割込ラインはインデックス付けされ、それにより、ＣＵ割込み回路が、実行を完了した特定のＣＵを決定することを可能にし得る。

ブロック３２６において、選択されたＣＵから割込みを受信したことに応答して、ＣＵ割込み回路は、選択されたＣＵに対応する、ＣＵ完了レジスタ中のロケーションに書き込み、コントローラへの割込みを生成する。

ブロック３２８において、ＣＵ割込み回路は、選択されたＣＵをリアームすることが可能である。たとえば、ＣＵがコマンドの実行を完了したとき、ＣＵ割込み回路は、別のコマンドを実行するために使用されるより前に、選択されたＣＵをリアームしなければならない。ＣＵ割込み回路は、インターフェースを介して、選択されたＣＵに対するいくつかのトランザクションを始動することによって、選択されたＣＵをリアームする。ＣＵ割込み回路は、ＣＵから割込みを受信したことに応答して、これらの動作を実施することが可能である。説明されたように、ＣＵ割込み回路がＣＵと通信するためのインターフェースは、コントローラよりも遅いクロック周波数において動作する。ＣＵをリアームすることを実施するためにＣＵ割込み回路を使用することによって、コントローラは、ＣＵをリアームすることから解放され、いくつかのトランザクションを始動し、いくつかのトランザクションがより遅いインターフェースを介して完了するのを待つこととは対照的に、他の動作を実施し、それにより、スケジューリングシステムの全体的性能を改善することが可能である。

ブロック３３０において、コントローラは、ＣＵ割込み回路から割込みを受信したことに応答して、コマンドの実行を終えたＣＵ、たとえば、この例では選択されたＣＵを決定する。たとえば、コントローラは、ＣＵ割込み回路からの割込みに応答して、ＣＵ完了レジスタを読み取ることが可能である。コントローラは、ＣＵ完了レジスタ中のどのロケーションが書き込まれたかに基づいて、実行を完了した特定のＣＵを決定する。ＣＵ完了レジスタは読取り時クリアレジスタとして実装され得るので、ＣＵ割込み回路は、さらなるＣＵからさらなる割込みを受信したことに応答して、ＣＵ完了レジスタ中のロケーションに書き込むことを続け得る。しかしながら、ＣＵ割込み回路は、さらなる割込みを生成することを続ける必要はない。ＣＵ割込み回路は、コントローラがＣＵ完了レジスタを読み取ることによって応答するまで、前に生成された割込みをセットされたままに保ち得、ＣＵ完了レジスタは、読み取られると、クリアされる。

ブロック３３２において、コントローラは、ブロック３３０において決定されたＣＵを、ＣＵによって実行されたコマンドにマッピングする。たとえば、コントローラは、ＣＵへのコマンド待ち行列中のスロットのマッピングを指定する、コントローラによって維持される内部データ構造から、ブロック３３０において決定されたＣＵによって実行された特定のコマンド、たとえば、この例では新しいコマンドを決定することが可能である。

ブロック３３４において、コントローラは、選択されたＣＵによる実行を終えた新しいコマンドに対応する、コマンド完了レジスタ中のロケーションに書き込む。ブロック３３６において、コントローラによって書き込まれたことに応答して、コマンド完了レジスタは、ホストプロセッサへの割込みを生成する。特定の実施形態では、割込みは、ホストシステムにおいて実行されるＩＣのためのドライバに提供される。

コマンド完了レジスタは読取り時クリアレジスタとして実装され得るので、コントローラは、さらなるＣＵが実行を完了したことを指示するさらなる割込みを受信したことに応答して、コマンド完了レジスタ中のロケーションに書き込むことを続け得る。しかしながら、コマンド完了レジスタは、ホストプロセッサへのさらなる割込みを生成することを続ける必要はない。コマンド完了レジスタは、ホストプロセッサがコマンド完了レジスタを読み取ることによって応答するまで、前に生成された割込みをセットされたままに保ち得、コマンド完了レジスタは、読み取られると、クリアされる。

コマンド完了レジスタが複数のサブレジスタを含む実施形態では、各サブレジスタは独立して動作し得る。すなわち、各サブレジスタは、他のサブレジスタから独立してホストプロセッサへの割込みを生成し、その特定のサブレジスタがホストシステムによって読み取られるまで、その割込みを、セットされたものとして維持することが可能である。各サブレジスタは、他のサブレジスタから独立してクリアされる読取り時クリアレジスタとして実装され得る。

ブロック３３８において、コマンド完了レジスタからの割込みに応答して、ホストプロセッサは、実行を終えた特定のコマンドを決定するために、コマンド完了レジスタを読み取る。説明されたように、コマンド完了レジスタは、次いで、クリアされる。特定の実施形態では、ホストプロセッサは、たとえば、カーネルドライバを実行する際に、コマンド待ち行列中のスロットの数に対応するスロットインデックスのリストを維持する。ホストプロセッサは、ちょうどコントローラがＣＵ利用可能性を追跡することが可能であるように、コマンド待ち行列中のスロットの利用可能性を追跡することが可能である。

ブロック３４０において、ホストプロセッサは、新しいコマンドの実行から結果を取り出す。説明されたように、選択されたＣＵによって生成された結果データは、新しいコマンド自体内でホストプロセッサによって最初に指定されたロケーションにおいて、メモリに記憶される。ホストプロセッサは、コマンドを生成し、ＩＣに提供することの一部として、ＣＵのための引数が記憶されるメモリアドレスと、ＣＵが得られたデータを書き込むメモリアドレスとを管理する。ホストプロセッサは、ＣＵによる消費のためにメモリアドレスにおいて引数を記憶し、メモリアドレスから結果を取り出すことが可能である。

本明細書で説明される例示的な実施形態は、スケジューリングシステムがＣＵの動作をどのように制御するかを示す。ホストシステムは、コマンドが実行されたこと、およびそのようなコマンドがいつ実行を完了したかに気づいている。ホストシステムは、所与のコマンドを実行するために使用される特定のＣＵに気づいていない。

本開示内で説明される本発明の構成によれば、コントローラは、利用可能なコマンドおよび利用可能なＣＵに基づいて、順不同のハードウェアスケジューリングを実施することが可能である。コントローラは、マルチユーザおよびマルチタスク動作が可能である。本明細書で説明されるスケジューリングシステムは、ホストシステムとＩＣとの間のインターフェースを介して生じたレイテンシを低減するかまたは隠すことが可能である。さらに、本明細書で説明されるスケジューリングシステムは、ホストプロセッサと、スケジューリングシステム中に含まれるコントローラとにかけられる作業負荷を低減し、それにより、ＨＣＰ全体の性能を増加させる。

図４は、ＩＣのための例示的なアーキテクチャ４００を示す。一態様では、アーキテクチャ４００は、プログラマブルＩＣ内に実装され得る。たとえば、アーキテクチャ４００は、ＦＰＧＡを実装するために使用され得る。アーキテクチャ４００はまた、ＩＣのシステムオンチップ（ＳｏＣ）タイプを表し得る。ＳｏＣは、プログラムコードを実行するプロセッサと、１つまたは複数の他の回路とを含むＩＣである。他の回路は、ハードワイヤード回路、プログラマブル回路、および／またはそれらの組合せとして実装され得る。回路は、互いと、および／またはプロセッサと協働して動作し得る。

図示のように、アーキテクチャ４００は、いくつかの異なるタイプのプログラマブル回路、たとえば、論理、ブロックを含む。たとえば、アーキテクチャ４００は、マルチギガビットトランシーバ（ＭＧＴ：ｍｕｌｔｉ－ｇｉｇａｂｉｔｔｒａｎｓｃｅｉｖｅｒ）４０１、設定可能論理ブロック（ＣＬＢ）４０２、ランダムアクセスメモリブロック（ＢＲＡＭ）４０３、入出力ブロック（ＩＯＢ）４０４、設定およびクロッキング論理（ＣＯＮＦＩＧ／ＣＬＯＣＫＳ）４０５、デジタル信号処理ブロック（ＤＳＰ）４０６、特殊なＩ／Ｏブロック４０７（たとえば、設定ポートおよびクロックポート）、ならびにデジタルクロックマネージャ、アナログデジタル変換器、システム監視論理などの他のプログラマブル論理４０８を含む、多数の異なるプログラマブルタイルを含み得る。

いくつかのＩＣでは、各プログラマブルタイルは、プログラマブル相互接続要素（ＩＮＴ）４１１を含み、ＩＮＴ４１１は、各隣接するタイル中の対応するＩＮＴ４１１との間の規格化された接続を有する。したがって、ＩＮＴ４１１は、まとめると、示されているＩＣのためのプログラマブル相互接続構造を実装する。各ＩＮＴ４１１は、図４の上部に含まれる例によって示されているように、同じタイル内のプログラマブル論理要素との間の接続をも含む。

たとえば、ＣＬＢ４０２は、ユーザ論理を実装するようにプログラムされ得る設定可能論理要素（ＣＬＥ）４１２と、単一のＩＮＴ４１１とを含み得る。ＢＲＡＭ４０３は、１つまたは複数のＩＮＴ４１１に加えてＢＲＡＭ論理要素（ＢＲＬ）４１３を含み得る。一般的に、タイル中に含まれるＩＮＴ４１１の数は、タイルの高さに依存する。描かれているように、ＢＲＡＭタイルは、５つのＣＬＢと同じ高さを有するが、他の数（たとえば、４つ）も使用され得る。ＤＳＰタイル４０６は、適切な数のＩＮＴ４１１に加えてＤＳＰ論理要素（ＤＳＰＬ）４１４を含み得る。ＩＯＢ４０４は、たとえば、ＩＮＴ４１１の１つのインスタンスに加えてＩ／Ｏ論理要素（ＩＯＬ）４１５の２つのインスタンスを含み得る。ＩＯＬ４１５に接続された実際のＩ／Ｏパッドは、ＩＯＬ４１５のエリアに制限されないことがある。

図４に描かれている例では、ダイの中心の近くの、たとえば、領域４０５、４０７、および４０８から形成された、列状エリアが、設定、クロック、および他の制御論理のために使用され得る。この列から延びる水平エリア４０９が、プログラマブルＩＣの幅にわたってクロックおよび設定信号を分散させるために使用され得る。

図４に示されているアーキテクチャを利用するいくつかのＩＣは、ＩＣの大部分を作り上げる規則的な列状構造を損なう追加の論理ブロックを含む。追加の論理ブロックは、プログラマブルブロックおよび／または専用回路であり得る。たとえば、ＰＲＯＣ４１０として示されているプロセッサブロックが、ＣＬＢおよびＢＲＡＭのいくつかの列にまたがる。

一態様では、ＰＲＯＣ４１０は、ＩＣのプログラマブル回路を実装するダイの一部として作製される専用回路として、たとえば、ハードワイヤードプロセッサとして実装され得る。ＰＲＯＣ４１０は、個々のプロセッサ、たとえば、プログラムコードを実行することが可能な単一のコアから、１つまたは複数のコア、モジュール、コプロセッサ、インターフェースなどを有するプロセッサシステム全体まで、複雑さに幅がある様々な異なるプロセッサタイプおよび／またはシステムのいずれかを表し得る。

別の態様では、ＰＲＯＣ４１０は、アーキテクチャ４００から省略され、説明されるプログラマブルブロックの他の種類のうちの１つまたは複数と置き換えられ得る。さらに、そのようなブロックは、ＰＲＯＣ４１０の場合のようにプログラムコードを実行することができるプロセッサを形成するためにプログラマブル回路の様々なブロックが使用され得るという点で、「ソフトプロセッサ」を形成するために利用され得る。

「プログラマブル回路」という句は、ＩＣ内のプログラマブル回路要素、たとえば、本明細書で説明される様々なプログラマブルまたは設定可能回路ブロックまたはタイル、ならびに、ＩＣにロードされた設定データに従って様々な回路ブロック、タイル、および／または要素を選択的に結合する相互接続回路を指す。たとえば、ＣＬＢ４０２およびＢＲＡＭ４０３など、ＰＲＯＣ４１０の外部にある、図４に示されている回路ブロックは、ＩＣのプログラマブル回路と見なされる。

概して、プログラマブル回路の機能性は、設定データがＩＣにロードされるまで確立されない。ＦＰＧＡなど、ＩＣのプログラマブル回路をプログラムするために、設定ビットのセットが使用され得る。（１つまたは複数の）設定ビットは、一般的に、「設定ビットストリーム」と呼ばれる。概して、プログラマブル回路は、設定ビットストリームをＩＣに最初にロードしなければ、動作可能でないか、または機能可能でない。設定ビットストリームは、プログラマブル回路内に特定の回路設計を効果的に実装する。回路設計は、たとえば、プログラマブル回路ブロックの機能的態様と、様々なプログラマブル回路ブロックの間の物理的接続性とを指定する。

「ハードワイヤード」または「ハード化（ｈａｒｄｅｎ）」される、すなわち、プログラマブルでない回路が、ＩＣの一部として製造される。プログラマブル回路とは異なり、ハードワイヤード回路または回路ブロックは、設定ビットストリームのローディングを通してＩＣの製造後に実装されない。ハードワイヤード回路は、概して、たとえば、設定ビットストリームを、ＩＣ、たとえば、ＰＲＯＣ４１０に最初にロードすることなしに機能可能である、専用回路ブロックおよび相互接続を有すると見なされる。

いくつかの事例では、ハードワイヤード回路は、ＩＣ内の１つまたは複数のメモリ要素に記憶されたレジスタセッティングまたは値に従ってセットまたは選択され得る１つまたは複数の動作モードを有し得る。動作モードは、たとえば、ＩＣへの設定ビットストリームのローディングを通してセットされ得る。この能力にもかかわらず、ハードワイヤード回路が、ＩＣの一部として製造されたとき、動作可能であり、特定の機能を有するので、ハードワイヤード回路はプログラマブル回路と見なされない。

ＳｏＣの場合、設定ビットストリームは、プログラマブル回路内に実装されるべきである回路と、ＰＲＯＣ４１０またはソフトプロセッサによって実行されるべきであるプログラムコードとを指定し得る。いくつかの場合には、アーキテクチャ４００は、適切な設定メモリおよび／またはプロセッサメモリに設定ビットストリームをロードする専用設定プロセッサを含む。専用設定プロセッサは、ユーザ指定のプログラムコードを実行しない。他の場合には、アーキテクチャ４００は、設定ビットストリームを受信し、設定ビットストリームを適切な設定メモリにロードし、および／または実行のためのプログラムコードを抽出するために、ＰＲＯＣ４１０を利用し得る。

スケジューリングシステム１６０は、図４に関して説明されるようなアーキテクチャを有するＩＣを使用して実装され得る。たとえば、プログラマブル回路内のＢＲＡＭおよび／またはレジスタは、追加のプログラマブル回路から作成されたさらなるサポート回路とともに、本明細書で説明されるレジスタのうちの１つまたは複数を実装するために使用され得る。ＰＲＯＣ４１０は、コントローラ１６８を実装するために使用され得る。プログラマブル回路は、インターフェース１５５とＣＵ１８０とを実装するために使用され得る。特定の実施形態では、メモリコントローラ１８５は、ハードワイヤードである。他の実施形態では、メモリコントローラ１８５はまた、プログラマブル回路を使用して実装される。

図４は、プログラマブル回路、たとえば、プログラマブルファブリックを含むＩＣを実装するために使用され得る例示的なアーキテクチャを示すことを意図される。たとえば、１つの列中の論理ブロックの数、列の相対幅、列の数および順序、列中に含まれる論理ブロックのタイプ、論理ブロックの相対サイズ、および図４の上部に含まれる相互接続／論理実装形態は、例示にすぎない。実際のＩＣでは、たとえば、ＣＬＢの２つ以上の隣接する列は、一般的に、ユーザ回路設計の効率的な実装を容易にするために、ＣＬＢが現れるところならどこでも含まれる。しかしながら、隣接するＣＬＢ列の数は、ＩＣの全体的サイズとともに変動し得る。さらに、ＩＣ内のＰＲＯＣ４１０などのブロックのサイズおよび／または配置は、例示のためのものにすぎず、限定として意図されていない。

説明のために、特定の名称が、本明細書で開示される様々な発明概念の完全な理解を提供するために記載される。しかしながら、本明細書で使用される専門用語は、本発明の構成の特定の態様を説明するためのものにすぎず、限定するものではない。

本明細書で定義される単数形「ａ」、「ａｎ」および「ｔｈｅ」は、文脈が別段に明確に指示するのでなければ、複数形をも含むものとする。

本明細書で定義される「少なくとも１つ」、「１つまたは複数」、および「および／または」という用語は、別段に明記されていない限り、運用において連言的と選言的の両方である、オープンエンド表現である。たとえば、「Ａ、Ｂ、およびＣのうちの少なくとも１つ」、「Ａ、Ｂ、またはＣのうちの少なくとも１つ」、「Ａ、Ｂ、およびＣのうちの１つまたは複数」、「Ａ、Ｂ、またはＣのうちの１つまたは複数」、および「Ａ、Ｂ、および／またはＣ」という表現の各々は、Ａのみ、Ｂのみ、Ｃのみ、ＡとＢを一緒に、ＡとＣを一緒に、ＢとＣを一緒に、またはＡとＢとＣを一緒に、を意味する。

本明細書で定義される「自動的に」という用語は、ユーザ介入なしに、を意味する。本明細書で定義される「ユーザ」という用語は、人間を意味する。

本明細書で定義される「コンピュータ可読記憶媒体」という用語は、命令実行システム、装置、またはデバイスが使用するための、あるいはそれとともに使用するためのプログラムコードを含んでいるかまたは記憶する記憶媒体を意味する。本明細書で定義される「コンピュータ可読記憶媒体」は、それ自体は、一時的な伝搬信号でない。コンピュータ可読記憶媒体は、限定はしないが、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の好適な組合せであり得る。本明細書で説明される、様々な形態のメモリが、コンピュータ可読記憶媒体の例である。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、ポータブルコンピュータディスケット、ハードディスク、ＲＡＭ、読取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、電子的消去可能プログラマブル読取り専用メモリ（ＥＥＰＲＯＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスクなどを含み得る。

本明細書で定義される「する場合（ｉｆ）」という用語は、文脈に応じて、「するとき（ｗｈｅｎ）」または「すると（ｕｐｏｎ）」または「に応答して（ｉｎｒｅｓｐｏｎｓｅｔｏ）」または「に反応して（ｒｅｓｐｏｎｓｉｖｅｔｏ）」を意味する。したがって、「それが決定された場合」または「［述べられた条件またはイベント］が検出された場合」という句は、文脈に応じて、「決定すると」または「決定したことに応答して」あるいは「［述べられた条件またはイベント］を検出すると」または「［述べられた条件またはイベント］を検出したことに応答して」または「［述べられた条件またはイベント］を検出したことに反応して」を意味すると解釈され得る。

本明細書で定義される「に反応して」という用語および上記で説明されたような同様の言い回し、たとえば、「する場合」、「するとき」、または「すると」は、アクションまたはイベントに容易に応答または反応することを意味する。応答または反応は、自動的に実施される。したがって、第２のアクションが第１のアクション「に反応して」実施される場合、第１のアクションの発生と第２のアクションの発生との間に因果関係がある。「に反応して」という用語は、因果関係を指示する。

本明細書で定義される「一実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」、「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」、「１つまたは複数の実施形態」、「特定の実施形態」という用語、または同様の言い回しは、実施形態に関して説明される特定の特徴、構造、または特性が、本開示内で説明される少なくとも１つの実施形態に含まれることを意味する。したがって、本開示全体にわたる、「一実施形態では（ｉｎｏｎｅｅｍｂｏｄｉｍｅｎｔ）」、「一実施形態では（ｉｎａｎｅｍｂｏｄｉｍｅｎｔ）」、「１つまたは複数の実施形態では」、「特定の実施形態では」という句、および同様の言い回しの出現は、必ずしもそうとは限らないが、すべて、同じ実施形態を指し得る。「実施形態」および「構成」という用語は、本開示内では互換的に使用される。

本明細書で定義される「プロセッサ」という用語は、少なくとも１つのハードウェア回路を意味する。ハードウェア回路は、プログラムコード中に含まれている命令を行うように設定され得る。ハードウェア回路は集積回路であり得る。プロセッサの例は、限定はしないが、中央処理ユニット（ＣＰＵ）、アレイプロセッサ、ベクトルプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ＦＰＧＡ、プログラマブル論理アレイ（ＰＬＡ）、ＡＳＩＣ、プログラマブル論理回路、およびコントローラを含む。

本明細書で定義される「出力」という用語は、物理メモリ要素、たとえば、デバイスに記憶すること、ディスプレイまたは他の周辺出力デバイスに書き込むこと、別のシステムに送ることまたは送信すること、エクスポートすることなどを意味する。

本明細書で定義される「リアルタイム」という用語は、ユーザまたはシステムが、特定のプロセスまたは決定が行われるのに十分に即時であると感じる、あるいは、プロセッサが、何らかの外部プロセスについていくことを可能にする、処理応答性のレベルを意味する。

本明細書で定義される「実質的に」という用語は、具陳された特性、パラメータ、または値が正確に達成される必要がないこと、ただし、たとえば、当業者に知られている許容差、測定誤差、測定精度限界、および他のファクタを含む、偏差または変動が、特性が提供することを意図された効果を妨げない量で生じ得ることを意味する。

第１の、第２のなどの用語は、様々な要素を説明するために本明細書で使用され得る。これらの用語は、別段に述べられていない限り、または文脈が別段に明確に指示しない限り、ある要素を別の要素と区別するために使用されるにすぎないので、これらの要素はこれらの用語によって限定されるべきでない。

コンピュータプログラム製品は、プロセッサに本明細書で説明される本発明の構成の態様を行わせるためのコンピュータ可読プログラム命令をその上に有する（１つまたは複数の）コンピュータ可読記憶媒体を含み得る。本開示内では、「プログラムコード」という用語は、「コンピュータ可読プログラム命令」という用語と互換的に使用される。本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、たとえば、インターネット、ＬＡＮ、ＷＡＮおよび／またはワイヤレスネットワークを介して外部コンピュータまたは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバー、ワイヤレス送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および／またはエッジサーバを含むエッジデバイスを含み得る。各コンピューティング／処理デバイス中のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するためにフォワーディングする。

本明細書で説明される本発明の構成のための動作を行うためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、あるいは、オブジェクト指向プログラミング言語および／または手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組合せで書き込まれたソースコードまたはオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、状態セッティングデータを含み得る。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上でおよび部分的にリモートコンピュータ上で、あるいは完全にリモートコンピュータまたはサーバ上で実行し得る。後者のシナリオでは、リモートコンピュータは、ＬＡＮまたはＷＡＮを含む任意のタイプのネットワークを通してユーザのコンピュータに接続され得るか、あるいは接続は、（たとえば、インターネットサービスプロバイダを使用してインターネットを通して）外部コンピュータに対して行われ得る。いくつかの場合には、たとえば、プログラマブル論理回路、ＦＰＧＡ、またはＰＬＡを含む電子回路が、本明細書で説明される本発明の構成の態様を実施するために、電子回路を個人化するためにコンピュータ可読プログラム命令の状態情報を利用することによって、コンピュータ可読プログラム命令を実行し得る。

本発明の構成のいくつかの態様が、方法、装置（システム）、およびコンピュータプログラム製品のフローチャート例示図および／またはブロック図を参照しながら本明細書で説明された。フローチャート例示図および／またはブロック図の各ブロック、ならびにフローチャート例示図および／またはブロック図中のブロックの組合せが、コンピュータ可読プログラム命令、たとえば、プログラムコードによって実装され得ることを理解されよう。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を作り出すための他のプログラマブルデータ処理装置のプロセッサに提供され得、その結果、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサを介して実行する命令は、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／行為を実装するための手段を作成する。これらのコンピュータ可読プログラム命令はまた、コンピュータ、プログラマブルデータ処理装置、および／または他のデバイスに特定の様式で機能するように指示することができるコンピュータ可読記憶媒体に記憶され得、その結果、命令が記憶されたコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された動作の態様を実装する命令を含む製造品を備える。

コンピュータ可読プログラム命令はまた、コンピュータ実装プロセスを作り出すために、一連の動作をコンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で実施させるように、コンピュータ、他のプログラマブル装置、または他のデバイスにロードされ得、その結果、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令は、フローチャートおよび／またはブロック図の１つまたは複数のブロックにおいて指定された機能／行為を実装する。

図中のフローチャートおよびブロック図は、本発明の構成の様々な態様によるシステム、方法、およびコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能性、および動作を示す。この点について、フローチャートまたはブロック図中の各ブロックは、指定された動作を実装するための１つまたは複数の実行可能な命令を備える、命令のモジュール、セグメント、または部分を表し得る。

いくつかの代替実装形態では、ブロック中で言及される動作は、図中で言及される順序から外れて行われ得る。たとえば、関与する機能性に応じて、連続して示されている２つのブロックが、実質的に同時に実行され得るか、またはブロックが、時々、逆の順序で実行され得る。他の例では、ブロックは、概して小さい数字から順に実施され得、さらに他の例では、１つまたは複数のブロックは、変動順で実施され得、結果は、記憶され、後続の、または直後にこない他のブロックにおいて利用される。また、ブロック図および／またはフローチャート例示図の各ブロック、ならびにブロック図および／またはフローチャート例示図中のブロックの組合せが、指定された機能または行為を実施するかあるいは専用ハードウェアとコンピュータ命令との組合せを行う専用ハードウェアベースシステムによって実装され得ることに留意されたい。

以下の特許請求の範囲において見られ得るすべての手段またはステップおよび機能要素の対応する構造、材料、行為、および等価物は、特に主張されるように、他の請求される要素と組み合わせて機能を実施するための任意の構造、材料、または行為を含むことを意図される。

一態様では、新しいコマンドは、新しいコマンドを実行することが可能な複数の算出ユニットのうちの１つまたは複数を指定する第１のリストを含む。

別の態様では、コントローラは、複数の算出ユニットのうちのどれがアイドルであるかを指定する第２のリストを維持することと、第１のリストを第２のリストと比較することによって、新しいコマンドを実行するための選択された算出ユニットを決定することとを行うように設定される。

別の態様では、コントローラは、選択された算出ユニットのためのベースアドレスを指定するためにコマンド待ち行列中の新しいコマンドを更新するように設定される。

別の態様では、コントローラは、選択された算出ユニットのベースアドレスを第１のリストに上書きするように設定される。

別の態様では、コントローラは、新しいコマンドを記憶する、コマンド待ち行列中の複数のスロットのうちの選択されたスロットの参照を、算出ユニットダイレクトメモリアクセス回路に提供するように設定される。

別の態様では、算出ユニットダイレクトメモリアクセス回路は、新しいコマンドからのベースアドレスを使用して、選択されたスロット中の新しいコマンドを選択された算出ユニットに提供するように設定される。

別の態様では、コマンド要求レジスタは読取り時クリアレジスタである。

別の態様では、算出ユニットダイレクトメモリアクセス回路は、新しいコマンドを提供したことに応答して、選択された算出ユニットの動作を開始するようにさらに設定される。

一態様では、算出ユニット完了レジスタは、複数の算出ユニットに対応する複数のロケーションを含み、算出ユニット割込み回路は、選択された算出ユニットに対応する、複数のロケーションのうちの選択されたロケーションに書き込むことによって、選択された算出ユニットが処理し終わったことを算出ユニット完了レジスタに通知する。

別の態様では、コントローラは、複数のコマンドと、複数のコマンドを実行する、複数の算出ユニットのうちの対応する算出ユニットとのリストを維持するように設定される。

別の態様では、算出ユニット完了レジスタは読取り時クリアレジスタであり得る。

別の態様では、コマンド完了レジスタは読取り時クリアレジスタであり得る。

別の態様では、算出ユニット割込み回路は、ホストプロセッサからのさらなるコマンドを実行するために、選択された算出ユニットをリアームするように設定される。

一態様では、本方法は、実行の完了を指示する、選択された算出ユニットからの割込みを受信したことに応答して、選択された算出ユニットが実行を完了したことを指示する、コントローラへの割込みを生成することと、コントローラを使用して、新しいコマンドが、選択された算出ユニットに割り当てられたと決定することと、新しいコマンドが実行を完了したことを指示する、ホストプロセッサへの割込みを生成することとをも含む。

別の態様では、選択された算出ユニットとコマンド待ち行列中の新しいコマンドとを算出ユニットダイレクトメモリアクセス回路に通知することは、新しいコマンドを記憶する、コマンド待ち行列中の複数のスロットのうちの選択されたスロットに、選択された算出ユニットのベースアドレスを書き込むことと、複数のスロットのうちの選択されたスロットの参照を、算出ユニットダイレクトメモリアクセス回路に提供することとを含む。

別の態様では、複数の算出ユニットからの選択された算出ユニットを決定することは、新しいコマンド内から、新しいコマンドを実行することが可能な複数の算出ユニットのうちの１つまたは複数を指定する第１のリストを読み取ることと、第１のリストを、アイドルである、複数の算出ユニットのうちの算出ユニットを指定する第２のリストと比較して、共通算出ユニットを選択された算出ユニットとして決定することとを含む。

別の態様では、選択された算出ユニットとコマンド待ち行列中の新しいコマンドとを算出ユニットダイレクトメモリアクセス回路に通知することは、選択された算出ユニットのベースアドレスを新しいコマンドの第１のリストに上書きすることであって、新しいコマンドが、コマンド待ち行列中の複数のスロットのうちの選択されたスロットに記憶される、第１のリストに上書きすることと、選択されたスロットの参照を算出ユニットダイレクトメモリアクセス回路に提供することとを含む。

本明細書で提供される本発明の構成の説明は、例示のためであり、網羅的なものでも、開示される形式および例に限定されるものでもない。本明細書で使用される専門用語は、本発明の構成の原理、実際的適用例、または市場で見られる技術に対する技術的改善を説明するために、および／あるいは、他の当業者が本明細書で開示される本発明の構成を理解することを可能にするために選定された。説明される本発明の構成の範囲および趣旨から逸脱することなく、修正および変形が当業者に明らかになり得る。したがって、そのような特徴および実装形態の範囲を指示するものとして、上記の開示に対してではなく、以下の特許請求の範囲に対して参照が行われるべきである。

Claims

集積回路であって、
前記集積回路の複数の算出ユニットによる実行のためのホストプロセッサからのコマンドを記憶するように構成された複数のスロットを有するコマンド待ち行列と、
前記コマンド待ち行列中の前記複数のスロットに対応する複数のロケーションを有するコマンド要求レジスタであって、前記コマンド要求レジスタが、前記コマンド待ち行列内に記憶された新しいコマンドを指示する割込みを生成するように構成された、コマンド要求レジスタと、
前記コマンド要求レジスタからの前記割込みに応答して、前記新しいコマンドを実行するための、前記複数の算出ユニットからの、アイドルである選択された算出ユニットを決定するように構成されたコントローラと、
前記新しいコマンドを前記選択された算出ユニットに提供するように構成された算出ユニットダイレクトメモリアクセス回路と
を備え、
前記新しいコマンドが、前記新しいコマンドを実行することが可能な前記複数の算出ユニットのうちの１つまたは複数を指定する第１のリストを含み、
前記コントローラが、前記選択された算出ユニットのベースアドレスを指定するために前記コマンド待ち行列中の前記新しいコマンドを更新するように構成された、集積回路。
前記コントローラが、前記複数の算出ユニットのうちのどれがアイドルであるかを指定する第２のリストを維持することと、前記第１のリストを前記第２のリストと比較することによって、前記新しいコマンドを実行するための前記選択された算出ユニットを決定することとを行うように構成された、請求項１に記載の集積回路。
前記コントローラが、前記選択された算出ユニットの前記ベースアドレスを前記第１のリストに上書きするように構成された、請求項１に記載の集積回路。
前記コントローラが、前記新しいコマンドを記憶する前記コマンド待ち行列中の前記複数のスロットのうちの選択されたスロットの参照を、前記算出ユニットダイレクトメモリアクセス回路に提供するように構成された、請求項１に記載の集積回路。
前記算出ユニットダイレクトメモリアクセス回路が、前記新しいコマンドからの前記ベースアドレスを使用して、前記選択されたスロット中の前記新しいコマンドを前記選択された算出ユニットに提供するように構成された、請求項４に記載の集積回路。
前記コマンド要求レジスタが読取り時クリアレジスタである、請求項１に記載の集積回路。
前記算出ユニットダイレクトメモリアクセス回路が、前記新しいコマンドを提供したことに応答して、前記選択された算出ユニットの動作を開始するようにさらに構成された、請求項１に記載の集積回路。
複数の算出ユニットのうちの選択された算出ユニットから、前記選択された算出ユニットが処理し終わったことを指示する割込みを受信したことに応答して、前記選択された算出ユニットが処理し終わったことを指示する割込みを生成し、前記選択された算出ユニットに対応する選択されたロケーションを書き込むように構成された算出ユニット割込み回路と、
前記選択されたロケーションを含む算出ユニット完了レジスタとをさらに備え、
前記コントローラは、前記算出ユニット割込み回路からの前記割込みに応答して、前記算出ユニット完了レジスタを読み取ることにより、ホストプロセッサからオフロードされた複数のコマンドのうちの選択されたコマンドが、前記選択された算出ユニットによって実行されたと決定し、前記選択されたコマンドに対応するさらなるロケーションを書き込むように構成され、
コマンド完了レジスタが、前記さらなるロケーションを含み、前記さらなるロケーションが書き込まれたことに応答して、前記複数のコマンドのうちの前記選択されたコマンドが処理し終わったことを指示する、前記ホストプロセッサへの割込みを生成するように構成された、請求項１に記載の集積回路。
前記算出ユニット完了レジスタが、前記複数の算出ユニットに対応して前記さらなるロケーションを含む複数のロケーションを含み、前記算出ユニット割込み回路は、前記選択された算出ユニットに対応する、前記複数のロケーションのうちの前記選択されたロケーションに書き込むことによって、前記選択された算出ユニットが処理し終わったことを前記算出ユニット完了レジスタに通知する、請求項８に記載の集積回路。
前記コントローラが、前記複数のコマンドと、前記複数のコマンドを実行する、前記複数の算出ユニットのうちの対応する算出ユニットとのリストを維持するように構成された、請求項８に記載の集積回路。
前記算出ユニット完了レジスタまたは前記コマンド完了レジスタが読取り時クリアレジスタである、請求項８に記載の集積回路。
前記算出ユニット割込み回路が、前記ホストプロセッサからのさらなるコマンドを実行するために、前記選択された算出ユニットをリアームするように構成された、請求項８に記載の集積回路。
コマンド待ち行列内の新しいコマンドの利用可能性を指示する、ホストプロセッサからの通知に応答して、コントローラへの割込みを生成することと、
前記コントローラが、前記割込みに応答して、前記新しいコマンドを実行するための、複数の算出ユニットからの、アイドルである選択された算出ユニットを決定することと、
前記コントローラが、前記選択された算出ユニットと前記コマンド待ち行列中の前記新しいコマンドとを算出ユニットダイレクトメモリアクセス回路に通知することと、
前記算出ユニットダイレクトメモリアクセス回路を使用して、前記新しいコマンドを前記選択された算出ユニットに提供することと
含み、
前記選択された算出ユニットと前記コマンド待ち行列中の前記新しいコマンドとを前記算出ユニットダイレクトメモリアクセス回路に通知することは、前記新しいコマンドを記憶する前記コマンド待ち行列中の複数のスロットのうちの選択されたスロットに、前記選択された算出ユニットのベースアドレスを書き込むことと、前記複数のスロットのうちの前記選択されたスロットの参照を前記算出ユニットダイレクトメモリアクセス回路に提供することとを含む、方法。