JP2023552789A

JP2023552789A - 算術論理演算ユニット用のソフトウェアベースの命令スコアボード

Info

Publication number: JP2023552789A
Application number: JP2023534600A
Authority: JP
Inventors: エンバーリンブライアン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-12-15
Filing date: 2021-12-13
Publication date: 2023-12-19
Also published as: EP4264413A1; US11847462B2; CN116830145A; WO2022132614A1; US20220188120A1; KR20230121073A

Abstract

ソフトウェアベースの命令スコアボード（１２６）は、算術論理演算ユニット（ＡＬＵ）のパイプライン（２１８）に発行される発行間隔の短い命令（３０２、３０４、３０６）間の依存関係を示す。ソフトウェアベースの命令スコアボードは、１つ以上の制御ワード（３０８）を依存命令間のコマンドストリーム（３００）に挿入し、次いで、コマンドストリームがＡＬＵパイプラインによって実行される。制御ワードは、依存命令の依存先の命令（単数又は複数）（親命令）を識別するので、プロセッサ・ハードウェア（１０４）は、依存命令が親命令からの結果を待機する間、ＡＬＵパイプラインが確実にストールしないようにすることができる。【選択図】図２

Description

従来の処理システムは、オーディオアプリケーション、ビデオアプリケーション、及び、マルチメディアアプリケーション、並びに、場合によっては汎用コンピューティングを実装する中央処理ユニット（ＣＰＵ）及びグラフィック処理ユニット（ＧＰＵ）等の処理ユニットを含む。ＧＰＵの物理リソースは、シェーダエンジンと、ユーザ定義の再構成可能な仮想パイプラインを実装するために使用される固定機能ハードウェアユニットと、を含む。例えば、三次元（３Ｄ）グラフィックを処理するための従来のグラフィックパイプラインは、プログラマブルシェーダによってサポートされた一連の固定機能ハードウェアブロック配置で形成される。ＧＰＵにおける処理は、典型的には、ＣＰＵによって処理されるアプリケーション・プログラミング・インターフェース（application programming interface、ＡＰＩ）コール（例えば、ドローコール）によって開始される。ドローコールは、ＣＰＵによって生成され、ＧＰＵに伝送されて、フレーム内のオブジェクト（又はオブジェクトの一部）をレンダリングするようにＧＰＵに命令するコマンドである。

ＧＰＵ内のグラフィックハードウェアは、通常、スカラＡＬＵ又はベクトルＡＬＵ等の算術論理演算ユニット（ＡＬＵ）を含み、これらは対応するパイプラインとして実装され、加算、減算、乗算、除算及び移動等の算術演算を実行するために使用され、種々の超越関数（transcendental functions）を実行する。場合によっては、１つのパイプラインを使用して算術関数の大部分を実装し、別のパイプラインを使用してより複雑な超越関数を実装する。ＡＬＵに対する命令は、アービタがパイプラインのうち何れかで実行する命令を選択するまで、命令バッファ内に保持される。命令バッファ内のいくつかの命令は他の命令に依存しており、例えば、第１の（依存）命令のソース・レジスタは、第２の命令の宛先レジスタから入力を受け取る。したがって、第２の命令は、第１の命令が実行される前に完了する必要がある。

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、ソフトウェアベースの命令スコアボードを使用する処理システムのブロック図である。いくつかの実施形態による、ある命令の依存関係を示す制御ワードをコマンドストリームに挿入する、ソフトウェアベースの命令スコアボードのブロック図である。いくつかの実施形態による、コマンドストリームに挿入されたある命令の依存関係を示す制御ワードのブロック図である。いくつかの実施形態による、ある命令の依存関係を示す制御ワードをコマンドストリームに挿入し、制御ワードに基づいて依存命令の発行を遅延させる方法を示すフロー図である。

ＡＬＵパイプラインは、４サイクル長パイプラインのような、所定のサイクル数に対応する長さを有する。したがって、依存命令は、依存先の命令の完了前にパイプラインに送信された場合、ストールする可能性がある。例えば、加算命令が移動命令に依存しており、ＡＬＵパイプラインが４サイクル長である場合、加算命令は、移動命令の１サイクル後にパイプラインに送信されると、３サイクルにわたってストールする。従来のＧＰＵは、依存命令の依存先の命令が完了するまで、ＡＬＵパイプラインへの依存命令の送信を遅延させるために使用される情報を（例えば、１つ以上のフロップ内に）記憶するハードウェア命令スコアボードを含む。例えば、場合によっては、命令スコアボードは、パイプラインに先行発行された６つの命令の処理ステータスを示す情報を記憶するための６つのレジスタ（エントリ）を含む。各命令は、そのソース・レジスタを命令スコアボード内の命令の宛先レジスタと比較して、依存関係があるかどうかを判定する。ある命令が命令スコアボード内の命令の１つ以上に依存している場合、命令スコアボード内の対応するエントリを監視して、依存命令をパイプラインに送信するタイミングを決定する。このプロセスは、命令デコードと、数多くのレジスタ比較と、を実行する回路を必要とする。その結果、ハードウェア命令スコアボードでは、チップ上の電力消費量及び面積の両方において高いコストが発生する。

図１～図４は、ＧＰＵ内のハードウェアによって消費される電力消費量及び面積を削減するためにソフトウェアに実装されるＡＬＵパイプライン用の命令スコアボードを示している。ソフトウェアベースの命令スコアボードは、ＡＬＵパイプラインに発行される命令間の依存関係を示し、命令間の間隔はパイプラインの実行時間よりも短い（「間隔の短い」命令と称される）。ソフトウェアベースの命令スコアボードは、「制御ワード」と称される１つ以上の遅延命令を、プログラムコード内の依存命令間のコマンドストリームに選択的に挿入し、プログラムコードは、その後、ＧＰＵによって実行される。制御ワードは、依存命令の依存先の命令（単数又は複数）（本明細書では「親命令」と称される）を識別し、これにより、親命令が未だ完了していないという理由で、ＧＰＵハードウェアが依存命令をＡＬＵパイプラインに発行せず、ＡＬＵパイプラインをストールさせる。

いくつかの実施形態では、ソフトウェアベースの命令スコアボードは、依存命令の直前に制御ワードをコマンドストリームに挿入し、この制御ワードは、依存命令の従属先である先行命令を示す。例えば、制御ワードは、コマンドストリーム内の次の命令がＮ番目の先行するベクトルＡＬＵ（ＶＡＬＵ）命令に依存していることを示す。いくつかの実施形態では、ソフトウェアベースの命令スコアボードは、命令ストリームのオーバーヘッドを低減するために、単一の制御ワード内に今後の命令の２つ以上の依存関係を識別する２つ以上の遅延値を含むように、制御ワード圧縮技術を実装する。例えば、単一の制御ワードは、コマンドストリーム内の次の命令に対する親命令を識別し、次の命令に続いて発行される命令をコマンドストリーム内の別の命令に依存するものとして識別する「スキップ」インジケータを更に含む。この制御ワード圧縮技術は、制御ワードごとに任意の数の依存関係指定子に適用することができる。いくつかの実施形態では、制御ワードは、２つ以上のＡＬＵパイプラインで実行される２つ以上の親命令に対するある命令の依存関係を示す。例えば、いくつかの実施形態では、制御ワードは、スカラＡＬＵパイプライン及びベクトルＡＬＵパイプラインの両方で実行される命令、又は、特殊関数ユニットの（例えば、サイン／コサイン）ＡＬＵパイプラインと、スカラＡＬＵパイプライン及びベクトルＡＬＵパイプラインのうち一方との両方で実行される命令の依存関係を示す。

ソフトウェアベースの命令スコアボードは、コンパイラによって維持される依存関係グラフに基づいて、制御ワードを生成する。この依存関係グラフは、プログラム内の全ての依存関係を識別する。しかしながら、全ての依存命令が制御ワードによって生じる遅延を必要とするわけではない。ＡＬＵパイプラインの深さ、及び、親命令と依存命令との間で発行される非依存命令の数に応じて、親命令と依存命令との間に余分なアイドルサイクルを挿入する必要がない場合がある。いくつかの実施形態では、ソフトウェアベースの命令スコアボードは、依存命令間の非依存命令の数及びＡＬＵパイプラインのステージの数に基づいて、必要に応じて制御ワードを挿入するのみである。例えば、依存命令がその親命令の後にＡＬＵパイプラインの長さに基づいて閾値サイクル数を超えて発行される場合、依存命令が発行される前に親命令は完了しており、依存命令のストールを回避するために追加のアイドルサイクルを設ける必要はない。したがって、ソフトウェアベースの命令スコアボードは、依存命令がその親命令の後の閾値サイクル数内に発行される場合にだけ、コマンドストリームに制御ワードを挿入する。いくつかの実施形態では、閾値サイクル数は、ＡＬＵパイプラインのステージの数に基づく。本明細書で説明される技術は、様々な実施形態では、様々な並列プロセッサ（例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（general-purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（artificial intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等）の何れかにおいて利用される。

図１は、いくつかの実施形態による、ソフトウェアベースの命令スコアボードを使用する処理システム１００を示している。処理システム１００は、中央処理ユニット（ＣＰＵ）１０２と、並列プロセッサの一例である加速処理デバイス（ＡＰＤ）１０４と、を含む。種々の実施形態では、ＣＰＵ１０２は、１つ以上の単一コアＣＰＵ又はマルチコアＣＰＵを含む。種々の実施形態では、ＡＰＤ１０４は、従来のＣＰＵ、従来のグラフィック処理ユニット（ＧＰＵ）、及び、これらの組み合わせ等のリソースに関連して、加速された様式で、加速されたグラフィック処理タスク、データ並列タスク、ネストされたデータ並列タスクに関連付けられた機能及び計算を行うハードウェア及び／又はソフトウェアの任意の協働する集合体（collection）を含む。図１の実施形態では、処理システム１００は、ＣＰＵ１０２とＡＰＤ１０４とを組み合わせて統一されたプログラミング及び実行環境を提供する単一のシリコンダイ又はパッケージ上に形成されている。当該環境により、ＡＰＤ１０４を、いくつかのプログラミングタスクのためにＣＰＵ１０２と同様に流動的に使用できるようになる。その他の実施形態では、ＣＰＵ１０２とＡＰＤ１０４とは別々に形成され、同じ又は異なる基板上に実装されている。処理システム１００が、図１に示すよりも多くの又は少ない構成要素を含んでもよいことを理解されたい。例えば、処理システム１００は、１つ以上の入力インターフェース、不揮発性ストレージ、１つ以上の出力インターフェース、ネットワークインターフェース、及び、１つ以上のディスプレイ若しくはディスプレイインターフェースを更に含んでもよい。

図１に示すように、処理システム１００は、システムメモリ１０６、オペレーティングシステム１０８、通信インフラストラクチャ１１０、及び、１つ以上のアプリケーション１１２を含む。システムメモリ１０６へのアクセスは、メモリ１０６に連結されたメモリコントローラ（図示せず）によって管理される。例えば、システムメモリ１０６から読み取るか又はシステムメモリ１０６に書き込むための、ＣＰＵ１０２又はその他のデバイスからの要求は、メモリコントローラによって管理される。いくつかの実施形態では、１つ以上のアプリケーション１１２は、ＣＰＵ１０２においても実行される計算を行うための種々のプログラム又はコマンドを含む。ＣＰＵ１０２は、ＡＰＤ１０４で処理するための選択されたコマンドを送信する。オペレーティングシステム１０８及び通信インフラストラクチャ１１０を、以下でより詳細に説明する。処理システム１００は、デバイスドライバ１１４及び入力／出力メモリ管理ユニット（ＩＯＭＭＵ）１１６等のメモリ管理ユニットを更に含む。処理システム１００の構成要素は、ハードウェア、ファームウェア、ソフトウェア、又は、それらの任意の組み合わせとして実装されてもよい。いくつかの実施形態では、処理システム１００は、図１に示されるものに加えて又はそれらとは異なる１つ以上のソフトウェア構成要素、ハードウェア構成要素及びファームウェア構成要素を含む。

処理システム１００内で、システムメモリ１０６は、ＤＲＡＭ（図示せず）等の非永続的メモリを含む。種々の実施形態では、システムメモリ１０６は、処理論理命令、定数値、アプリケーション若しくはその他の処理論理の一部の実行中の変数値、又は、その他の所望の情報を記憶する。例えば、ＣＰＵ１０２上の１つ以上の動作を実行するための制御論理の一部は、ＣＰＵ１０２による動作のそれぞれの部分の実行中にシステムメモリ１０６内に存在してもよい。実行中、アプリケーション１１２等のそれぞれのアプリケーション、オペレーティングシステム１０８等のオペレーティングシステム機能、処理論理コマンド、及び、システムソフトウェアは、システムメモリ１０６内に存在する。オペレーティングシステム１０８に必須の制御論理コマンドは、通常、実行中にシステムメモリ１０６内に存在する。いくつかの実施形態では、その他のソフトウェアコマンド（例えば、デバイスドライバ１１４）は、処理システム１００の実行中にシステムメモリ１０６内に存在する。

ＩＯＭＭＵ１１６は、マルチコンテキスト・メモリ管理ユニットである。本発明で使用する場合、コンテキストは、カーネルが実行される環境と、同期及びメモリ管理が定義されるドメインと、を考慮している。コンテキストは、デバイスのセットと、それらのデバイスにアクセス可能なメモリと、対応するメモリプロパティと、メモリオブジェクト上のカーネル（単数又は複数）又は動作の実行をスケジュールするために使用される１つ以上のコマンドキューと、を含む。ＩＯＭＭＵ１１６には、ＡＰＤ１０４等のデバイスに関するメモリページアクセスのために、仮想アドレスから物理的アドレスへの変換を実行するための論理が含まれている。いくつかの実施形態では、ＩＯＭＭＵ１１６は、変換ルックアサイドバッファ（ＴＬＢ）（図示せず）を含むか又はＴＬＢへのアクセスを有する。ＴＬＢは、コンテンツアドレス指定可能メモリ（ＣＡＭ）で実装されて、システムメモリ１０６内のデータについて、ＡＰＤ１０４によって行われる要求に対する論理（すなわち、仮想）メモリアドレスの物理メモリアドレスへの変換を加速させる。

種々の実施形態では、通信インフラストラクチャ１１０は、処理システム１００の構成要素を相互接続している。通信インフラストラクチャ１１０は、周辺構成要素相互接続（ＰＣＩ）バス、拡張ＰＣＩ（ＰＣＩ－Ｅ）バス、高度マイクロコントローラバスアーキテクチャ（ＡＭＢＡ）バス、高度グラフィックポート（ＡＧＰ）、又は、その他のこのような通信インフラストラクチャ及び相互接続のうち１つ以上を含む（図示せず）。いくつかの実施形態では、通信インフラストラクチャ１１０は、イーサネット（登録商標）ネットワーク又はアプリケーションのデータ転送速度要件を満たす任意のその他の適切な物理的通信インフラストラクチャを含む。また、通信インフラストラクチャ１１０は、処理システム１００の構成要素を含む、構成要素を相互接続するための機能を含む。

デバイスドライバ１１４等のドライバは、相互接続又は通信インフラストラクチャ１１０を介してデバイス（例えば、ＡＰＤ１０４）と通信する。呼び出しプログラムがデバイスドライバ１１４内のルーチンを起動させる場合、デバイスドライバ１１４は、コマンドをデバイスに発行する。デバイスがデータをデバイスドライバ１１４に戻すと、デバイスドライバ１１４は、元の呼び出しプログラムのルーチンを起動させる。概して、デバイスドライバは、任意の必要な非同期に依存するハードウェアインターフェースに必須の割り込み処理を提供するために、ハードウェア依存であり、オペレーティングシステム固有である。いくつかの実施形態では、コンパイラ１２０は、デバイスドライバ１１４内に埋め込まれる。コンパイラ１２０は、処理システム１００による実行に必要なプログラム命令にソースコードをコンパイルする。このようなコンパイル中、コンパイラ１２０は、コンパイルの種々の段階でプログラム命令に変換を適用してもよい。その他の実施形態では、コンパイラ１２０は、スタンドアロンアプリケーションである。

ＣＰＵ１０２は、制御プロセッサ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は、デジタル信号プロセッサ（ＤＳＰ）のうち１つ以上を含むが、これらのエンティティは、明確にするために図１に図示されていない。ＣＰＵ１０２は、処理システム１００の動作を制御する制御論理の少なくとも一部を実行する。例えば、種々の実施形態では、ＣＰＵ１０２は、オペレーティングシステム１０８、１つ以上のアプリケーション１１２、及び、デバイスドライバ１１４を実行する。いくつかの実施形態では、ＣＰＵ１０２は、ＣＰＵ１０２及びＡＰＤ１０４等の他の処理リソースにわたって１つ以上のアプリケーション１１２と関連付けられた処理を分配することにより、１つ以上のアプリケーション１１２の実行を開始及び制御する。

ＡＰＤ１０４は、並列処理にとりわけ適し得るグラフィック操作及びその他の操作等のような、選択された機能のためのコマンド及びプログラムを実行する。ＡＰＤ１０４は、通常、ピクセル操作、幾何学的計算及びディスプレイへの画像のレンダリング等のグラフィックパイプライン操作を実行するために頻繁に使用される。いくつかの実施形態では、ＡＰＤ１０４は、ＣＰＵ１０２から受信したコマンド又は命令に基づいて、計算処理操作（例えば、ビデオ操作、物理的シミュレーション、計算流体ダイナミクス等のような、グラフィックとは無関係の操作）を実行する。例えば、コマンドは、ＡＰＤ１０４の命令セットアーキテクチャ（ＩＳＡ）で通常定義されない特殊な命令と見なすことができる。コマンドは、ディスパッチプロセッサ、コマンドプロセッサ、又は、ネットワークコントローラ等の特殊なプロセッサによって実行することができる。

種々の実施形態では、ＡＰＤ１０４は、例えばシングルインストラクション・マルチプルデータ（ＳＩＭＤ）実行モデルに従って、Ｗａｖｅｆｒｏｎｔ内のその他のスレッドの実行と同時にスレッドを実行する１つ以上のＳＩＭＤユニット１２４を含む１つ以上の処理コア１２２等のような１つ以上の計算ユニットを含む。ＳＩＭＤ実行モデルは、算術論理演算ユニット（ＡＬＵ）等の複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって、同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。ＡＰＤ１０４のいくつかの実施形態は、ＧＰＵを実装するために使用され、その場合、処理コア１２２は、シェーダコア又はストリーミングマルチプロセッサ（ＳＭＸ）と称される。ＡＰＤ１０４に実装される処理コア１２２の数は、設計上自由に選択できる。

１つ以上の処理コア１２２の各々は、特定のワークアイテムのそれぞれのインスタンス化を実行して入力データを処理し、１つ以上の処理コア１２２における基本的な実行単位は、ワークアイテム（例えば、スレッド）である。各ワークアイテムは、例えば、並列に実行されるコマンドによってデバイス上で起動されたカーネルの並列実行の集合体の単一のインスタンス生成を表す。ワークアイテムは、処理コア１２２において実行されるワークグループの一部として、１つ以上の処理要素によって実行されてもよい。

ＡＰＤ１０４は、単一のＳＩＭＤユニット１２４上の「Ｗａｖｅｆｒｏｎｔ」として同時に実行されるスレッドのグループを含むワークアイテムを発行及び実行するＧＰＵを含む。複数のＷａｖｅｆｒｏｎｔが「ワークグループ」に含まれるが、これは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するＷａｖｅｆｒｏｎｔのそれぞれを実行することによって実行される。いくつかの実施形態では、これらのＷａｖｅｆｒｏｎｔは、単一のＳＩＭＤユニット１２４上で連続して実行されるか、又は、異なるＳＩＭＤユニット上で部分的に若しくは完全に並列で実行される。その他の実施形態では、ワークグループからの全てのＷａｖｅｆｒｏｎｔは、同じ処理コア１２２で処理される。また、Ｗａｖｅｆｒｏｎｔは、ワープ、ベクトル又はスレッドとも互換的に称されてもよい。いくつかの実施形態では、Ｗａｖｅｆｒｏｎｔは、シェーダプログラムの並列実行のインスタンスを含むが、各Ｗａｖｅｆｒｏｎｔは、ＳＩＭＤパラダイム（例えば、複数のデータと同じ命令のストリームを実行する１つの命令制御ユニット）に従って単一のＳＩＭＤユニット１２４上で同時に実行される、複数のワークアイテムを含む。スケジューラ１２８は、異なる処理コア１２２及びＳＩＭＤユニット１２４上の種々のＷａｖｅｆｒｏｎｔのスケジューリング、並びに、ＡＰＤ１０４上の種々のタスクを調整するためのその他の動作の実行に関連する動作を実行する。

１つ以上の処理コア１２２によって与えられる並列処理は、画素値計算、頂点変換、テッセレーション、ジオメトリシェーディング操作、及び、その他のグラフィック操作等のグラフィック関連操作に適している。グラフィック処理パイプライン１３０は、ＣＰＵ１０２からのグラフィック処理コマンドを受信し、これにより、並列で実行するために、１つ以上の処理コア１２２に計算タスクを提供する。画素処理及びその他の並列計算動作等のいくつかのグラフィックパイプライン操作は、同じコマンドストリーム又は計算カーネルが入力データ要素のストリーム又はコレクションに対して実行されることを必要とする。同一の計算カーネルのそれぞれのインスタンスは、このようなデータ要素を並列に処理するために、１つ以上の処理コア１２２における複数のＳＩＭＤ１２４ユニット上で同時に実行される。本明細書で言及されるように、例えば計算カーネルは、プログラムで宣言され、ＡＰＤ処理コア１２２上で実行される命令を含む関数である。この関数は、カーネル、シェーダ、シェーダプログラム又はプログラムとも称される。

Ｗａｖｅｆｒｏｎｔの幅は、ＡＰＤ１０４のＳＩＭＤユニット１２４のハードウェアの特性である。種々の実施形態では、ＡＰＤ１０４は、ＧＰＵハードウェアのマイクロアーキテクチャに依存する、一定の固定サイズのＷａｖｅｆｒｏｎｔを発行するＧＰＵアーキテクチャを含む。各処理コア１２２は、スカラ及び／又はベクトル浮動小数点ユニット、算術論理演算ユニット（ＡＬＵ）等の１つ以上の処理要素を含む。種々の実施形態では、処理コア１２２は、逆平方根ユニット及びサイン／コサインユニット等の特殊用途処理ユニット（図示せず）を更に含む。

Ｗａｖｅｆｒｏｎｔ内のワークアイテム（例えば、スレッド）は、その実行中にＳＩＭＤハードウェアレーン（以下、「ＳＩＭＤレーン」と称される）上で実行される。一実施形態では、各ＳＩＭＤユニット１２４の処理要素は、それぞれが１６個のＡＬＵ（レーンと称される）を含むアレイへと配置され、各レーンは、ＳＩＭＤユニット１２４におけるその他のレーンと同時に同じ命令を実行するが、その一方で異なるデータを用いてその命令を実行することができ、各ワークアイテムが実行中にレーンへとマッピングされる。いくつかの実施形態では、Ｗａｖｅｆｒｏｎｔは、Ｗａｖｅ６４と称される６４個のスレッドのグループであり（したがって、Ｗａｖｅｆｒｏｎｔの各スレッドは、０～６３個の範囲のレーンに割り当てられる）、これらのスレッドは、１６レーン幅のＳＩＭＤユニットを介して、４サイクルにわたって１６個のスレッドのグループで発行される。しかしながら、当業者であれば、本開示の範囲から逸脱することなく、Ｗａｖｅｆｒｏｎｔの幅及びＳＩＭＤユニット１２４が任意の構成又は数のスレッド（例えば、８個、１６個、３２個、６４個等）を含んでもよいことを理解するであろう。

ハードウェア命令スコアボードの電力消費量及び面積のコストを発生させることなく依存関係の識別を容易にするために、コンパイラ１２０は、制御ワード１１８等の制御ワードをコマンドストリームに挿入して、ある命令の別の命令に対する依存関係を示すソフトウェアベースの命令スコアボード１２６を含む。制御ワード１１８に基づいて、ＳＩＭＤユニット１２４は、依存命令の依存先の命令（親命令）が完了するまで、依存命令の実行を遅延させる。

図２は、いくつかの実施形態による、ＳＩＭＤユニット１２４で実行するために、命令の依存関係を示す制御ワード２０６を命令のコマンドストリーム２０４に挿入するコンパイラ１２０を示す、処理システム１００の一部分２００のブロック図である。各ＳＩＭＤユニット１２４は、命令バッファ２１０、発行ステージ２１２、及び、複数の算術論理演算ユニット（ＡＬＵ）２１４（そのうち１つのみが図示されている）を含む。いくつかの実施形態では、命令バッファ２１０及び発行ステージ２１２のうち１つ以上が複数のＳＩＭＤユニット１２４の間で共有されるが、他の実施形態では、各ＳＩＭＤユニット１２４は、それ自体の命令バッファ及び発行ステージを含む。演算を実行する過程で、コンパイラ１２０は、ＡＬＵ２１４において実行される命令のセットを生成する。ＡＬＵ命令の例には、加算命令、乗算命令、行列操作命令等が含まれる。ＳＩＭＤユニット１２４は、実行のためにＡＬＵ命令を命令バッファ２１０に記憶する。発行ステージ２１２は、命令バッファ２１０のエントリを参照する１つ以上のポインタを制御する。発行ステージ２１２は、ポインタを操作して命令バッファから命令を読み取り、次いで、読み取った命令をＡＬＵ２１４に提供する。命令バッファ２１０から命令を読み取って、命令をＡＬＵ２１４に供給することを、ＡＬＵ２１４に命令を「発行する」と称される。

ＡＬＵ２１４は、発行された命令を実行して、命令によって定義される算術演算を行う。命令の実行を容易にするために、ＡＬＵ２１４は、ＡＬＵ制御モジュール２１６と、ＡＬＵパイプライン２１８と、を含む。ＡＬＵパイプライン２１８は、複数のパイプラインステージ（例えば、ステージ２２０）を含み、各ステージは、実行中の命令に基づいて、とりわけＡＬＵパイプライン２１８の先行ステージによって提供されるデータに基づいて、１つ以上の演算を実行する。したがって、発行された命令は、ＡＬＵパイプライン２１８の第１のステージで実行を開始し、第１のステージは、受信データに基づいて演算を実行する第２のステージに実行の結果を提供し、次いで、第３のステージに結果を提供し、命令がＡＬＵパイプライン２１８の最終ステージに到達するまで同様に実行され、最終ステージは、演算の最終結果をレジスタファイル（図示せず）又はＳＩＭＤユニット１２４の他の記憶位置に記憶する。更に、ＡＬＵパイプライン２１８は、ＡＬＵパイプライン２１８の各ステージが異なる命令を同時に実行するように、パイプライン方式で命令を実行する。すなわち、ＡＬＵパイプライン２１８の所定のサイクルごとに、第１のステージは１つの命令を実行し、第２のステージは別の命令を実行し、第３のステージは更に別の命令を実行し、以下同様である。

ＡＬＵ制御モジュール２１６は、ＡＬＵパイプライン２１８における状態を監視し、監視した状態に基づいて、何れのステージが所定のサイクルの命令を実行するかを制御する。すなわち、いくつかの実施形態では、ＡＬＵ制御モジュール２１６は、クロック信号及び他の制御信号のゲーティングを制御して、ＡＬＵパイプライン２１８の何れのステージが所定のサイクルにおいて命令を実行するかを決定する。例えば、いくつかの条件下では、ＡＬＵパイプライン２１８のステージはストール状態に入り、ここで当該ステージは、キャッシュからのデータを待機するか又はデータを記憶するためのキャッシュラインの準備を待機する等のように、ステージが進行し得る前に別の実行ユニットでの演算を待機している。ＡＬＵ制御モジュール２１６は当該ステージがストール状態に入っていることを検出し、ストール状態が持続する間、ＡＬＵパイプライン２１８の他のステージにおける実行を一時停止し、これにより、ストールされたステージに命令が進行して実行エラーを発生させることを防止する。

コンパイラ１２０は、ＳＩＭＤユニット１２４の各々において実行されるソフトウェアプログラム内の全ての依存関係を識別する依存関係グラフ２０２を生成し、次いで、ＳＩＭＤユニット１２４において実行する命令のコマンドストリーム２０４を生成する。依存関係グラフ２０２に基づいて、ソフトウェアベースの命令スコアボード１２６は、介在命令なしに発行するようにスケジュールされるか、又は、互いの閾値サイクル数内で発行するようにスケジュールされるか、親命令及び依存命令を識別する。ソフトウェアベースの命令スコアボード１２６は、依存命令と、依存命令の従属先である親命令と、を識別するために、制御ワード２０６をコマンドストリーム２０４に挿入する。

いくつかの実施形態では、ソフトウェアベースの命令スコアボード１２６は、親命令と依存命令との間で発行するようにスケジュールされた介在命令が存在しない（又は命令が不足している）と判定したことに応じて、制御ワード２０６をコマンドストリームに挿入するのみである。いくつかの実施形態では、ソフトウェアベースの命令スコアボード１２６は、ＡＬＵパイプライン２１８内のステージの数に基づいて、介在命令数の十分性を判定する。例えば、ＡＬＵパイプライン２１８が４つのステージを有し、親命令と依存命令との間で発行される介在命令が４つ未満である場合、ソフトウェアベースの命令スコアボード１２６は、親命令と依存命令との間の間隔が短いと判定し、親命令に対する依存命令の依存関係を示す制御ワード２０６をコマンドストリーム２０４に挿入する。しかしながら、親命令と依存命令との間で発行される介在命令が４つよりも多く存在する場合、ソフトウェアベースの命令スコアボード１２６は、更なる遅延を要することなく依存命令が発行される前に親命令が完了するので、制御ワード２０６のコマンドストリームへの挿入をバイパスする。

制御ワード２０６を受信したことに応じて、ＡＬＵ制御モジュール２１６は、親命令が実行を完了するまで、依存命令の実行を一時停止する。親命令が完了するのに要するサイクル数は、発行サイクルが経過した後、ＡＬＵ２１４が後続の命令によって消費され得る結果を生成するまでのサイクル数である。いくつかの実施形態では、親命令が実行を完了するのに要するサイクル数は、親命令のＷａｖｅｆｒｏｎｔ及び依存命令のＷａｖｅｆｒｏｎｔの幅に依存する。例えば、Ｗａｖｅ３２のＷａｖｅｆｒｏｎｔの場合、親命令が実行を完了するのに要するサイクル数は、親命令を発行するのに要するサイクル数にＡＬＵパイプライン２１８の長さ（すなわち、ＡＬＵパイプライン２１８内のＡＬＵステージ２２０の数である）を加えたものである。Ｗａｖｅ６４のＷａｖｅｆｒｏｎｔの場合、親命令が実行を完了するのに要するサイクル数は、親命令が１回発行されるか２回発行されるかに依存する。いくつかの実施形態では、Ｗａｖｅ６４のＷａｖｅｆｒｏｎｔは２つのパスで発行され、ＡＬＵ制御モジュール２１６は、依存命令が親命令の第２のパスと重複するように、親命令の第１のパスが完了した後であるが、親命令の第２のパスが完了する前に依存命令を発行する。

図３は、いくつかの実施形態による、コマンドストリーム３００に挿入されるある命令の依存関係を示す制御ワード３０８のブロック図である。コマンドストリーム３００は、命令－１３０２、命令－２３０４、命令－３３０６、命令－４３１０、命令－５３１２、及び、命令－６３１４を含む。図示した例では、命令－４３１０は命令－１３０２に依存しており、命令－６３１４は命令－５３１２に依存している。

依存関係を示し、依存命令である命令－４３１０及び命令－６３１４を、それぞれの親命令である命令－１３０２及び命令－５３１２が完了するまで遅延させるようにＡＬＵ制御モジュール２１６に命令するために、ソフトウェアベースの命令スコアボード１２６は、命令－４３１０の前に制御ワード３０８をコマンドストリーム３００に挿入する。制御ワード３０８は、親命令（単数又は複数）が実行されているＡＬＵ２１４の識別子と、親命令と依存命令との間で発行される介在命令数のインジケーションと、を含む。図示した実施形態では、制御ワード３０８は、命令－４３１０を、命令－４３１０の３サイクル前に発行された命令に依存するものとして識別し、命令－６３１４を、命令－６３１４の１サイクル前に発行された命令に依存するものとして識別する。制御ワード３０８は、第２の依存命令（命令－６３１４）と、命令－５３１２に対するその依存関係と、を識別するための「スキップ」コードを含む。図示した例の一実施形態では、制御ワード３０８は、
データ依存性命令ＩＤ０＝３、スキップ＝２、命令ＩＤ１＝１となり、
ここで、命令ＩＤ０＝３は、制御ワード３０８の直後に続く命令ワード（命令－４３１０）が、命令－４３１０の３サイクル前に発行された命令（命令－１３０２）に依存することを宣言し、スキップ＝２は、次の遅延が次の命令用ではなく、次の命令の後の命令（命令－６３１４）用であることを意味し、命令ＩＤ１＝１は、命令－６３１４が命令－６３１４の１サイクル前に発行された命令（命令－５３１２）に依存することを宣言する。制御ワード３０８を受信したことに応じて、ＡＬＵ制御モジュール２１６は、命令－４３１０及び命令－６３１４の各々を発行する前に遅延を追加する。

図４は、いくつかの実施形態による、命令の依存関係を示す制御ワードをコマンドストリームに挿入する方法４００を示すフロー図である。方法４００は、図１の処理システム１００における例示的な実装に関して記述されている。ブロック４０２において、コンパイラ１２０は、命令の依存関係を識別する。例えば、いくつかの実施形態では、コンパイラ１２０は、ソフトウェアプログラム内の各依存関係を識別する依存関係グラフ２０２を生成する。ブロック４０４において、コンパイラ１２０は、コマンドストリーム３００内の命令を発行する。ブロック４０６において、ソフトウェアベースの命令スコアボード１２６は、依存命令の依存先の命令（親命令）が依存命令の前に閾値サイクル数を超えて発行されたかどうかを判定する。いくつかの実施形態では、閾値数は、ＡＬＵパイプライン２１８内のＡＬＵステージ２２０の数に基づく。ブロック４０６において、ソフトウェアベースの命令スコアボード１２６が、親命令が依存命令の前に閾値サイクル数を超えて発行されたと判定した場合、本方法フローはブロック４０４に戻って継続される。

ブロック４０６において、ソフトウェアベースの命令スコアボード１２６が、親命令が依存命令の前に閾値サイクル数を超えて発行されなかったと判定した場合、本方法フローはブロック４０８へと続く。ブロック４０８において、ソフトウェアベースの命令スコアボード１２６は、制御ワード３０８をコマンドストリーム３００に挿入する。制御ワード３０８は、親命令が発行されたＡＬＵ２１４と、親命令の発行と依存命令の発行との間の介在命令の数と、を識別する。いくつかの実施形態では、制御ワード３０８は、例えばスキップインジケータを含むことによって、２つ以上の命令の依存関係を示す。ブロック４１０において、ＡＬＵ制御モジュール２１６は、依存命令の実行を、親命令が完了するまで遅延させる。

いくつかの実施形態では、上記の装置及び技術は、図１～図４を参照して説明した処理システム等の１つ以上の集積回路（integrated circuit、ＩＣ）デバイス（集積回路パッケージ又はマイクロチップとも称される）を含むシステムに実装される。電子設計自動化（electronic design automation、ＥＤＡ）及びコンピュータ支援設計（computer aided design、ＣＡＤ）ソフトウェアツールは、これらのＩＣデバイスの設計及び製造に使用することができる。これらの設計ツールは、典型的には、１つ以上のソフトウェアプログラムとして表される。１つ以上のソフトウェアプログラムは、回路を製造するための製造システムを設計するか又は適応させるためのプロセスの少なくとも一部を実行するために、１つ以上のＩＣデバイスの回路を表すコードで動作するようにコンピュータシステムを操作するための、コンピュータシステムによって実行可能なコードを含む。このコードは、命令、データ、又は、命令及びデータの組み合わせを含み得る。設計ツール又は製造ツールを表すソフトウェア命令は、典型的には、コンピューティングシステムにアクセス可能なコンピュータ可読記憶媒体に記憶される。同様に、ＩＣデバイスの設計又は製造の１つ以上の段階を表すコードは、同じコンピュータ可読記憶媒体又は異なるコンピュータ可読記憶媒体に記憶され、そこからアクセスされる。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

方法であって、
算術論理演算ユニット（ＡＬＵ）パイプラインで実行するための第１の命令を含むコマンドストリームに制御ワードを挿入することであって、前記制御ワードは、前記ＡＬＵパイプラインで実行するための第２の命令に対する前記第１の命令の第１の依存関係を示し、前記ＡＬＵパイプラインは複数のステージを含む、ことを含む、
方法。
前記ＡＬＵパイプラインにおいて、前記制御ワードに基づいて前記第１の命令の実行を遅延させることを更に含む、
請求項１の方法。
前記制御ワードを挿入することは、
前記第１の命令及び前記第２の命令がいかなる命令も介在することなしに発行されたことに応じて、前記制御ワードを挿入すること、又は、
前記第２の命令の発行後に、前記第１の命令が閾値数未満の命令を発行したことに応じて、前記制御ワードを挿入することを含む、
請求項１又は２の方法。
前記閾値数は、前記ＡＬＵパイプラインのステージの数に基づいている、
請求項３の方法。
前記制御ワードは、
前記第２の命令が実行されている前記ＡＬＵの識別子と、
前記第２の命令の発行と前記第１の命令の発行との間に発行される命令数のインジケーションと、を含む、
請求項１～４の何れかの方法。
前記制御ワードにおいて、前記ＡＬＵパイプラインで実行するための少なくとも１つの第４の命令に対する、少なくとも１つの第３の命令の少なくとも１つの第２の依存関係を示すことを更に含む、
請求項１～５の何れかの方法。
方法であって、
複数のステージを備える算術論理演算ユニット（ＡＬＵ）のパイプラインにおいて、第１の命令が第２の命令に依存していることを示す制御ワードに基づいて、前記第１の命令の実行を遅延させることを含む、
方法。
前記第１の命令及び前記第２の命令がいかなる命令も介在することなしに発行されたことに応じて、且つ、前記第１の命令が、前記第２の命令の発行後に、閾値数未満の命令を発行したことに応じて、命令ストリーム内の前記制御ワードを受信することを更に含む、
請求項７の方法。
前記閾値数は、前記ＡＬＵパイプラインのステージの数に基づいている、
請求項８の方法。
前記制御ワードは、
前記第２の命令が実行されている前記ＡＬＵの識別子と、
前記第２の命令の発行と前記第１の命令の発行との間に発行される命令数のインジケーションと、を含む、
請求項７～９の何れかの方法。
前記制御ワードにおいて、前記ＡＬＵパイプラインで実行するための第４の命令に対する第３の命令の第２の依存関係を示すことを更に含む、
請求項７～１０の何れかの方法。
デバイスであって、
複数のステージを備える算術論理演算ユニット（ＡＬＵ）パイプラインと、
プロセッサと、を備え、
前記プロセッサは、
前記ＡＬＵパイプラインで実行するための第２の命令に対する第１の命令の第１の依存関係を示す制御ワードを、前記ＡＬＵパイプラインで実行するための前記第１の命令に挿入するように構成されている、
デバイス。
前記ＡＬＵパイプラインは、
前記制御ワードに基づいて前記第１の命令の実行を遅延させるように構成されている、
請求項１２のデバイス。
前記プロセッサは、
前記第１の命令及び前記第２の命令がいかなる命令も介在することなしに発行されたことに応じて、前記制御ワードを挿入するか、又は、
前記第２の命令の発行後に、前記第１の命令が閾値数未満の命令を発行したことに応じて、前記制御ワードを挿入するように更に構成されている、
請求項１２又は１３のデバイス。
前記閾値数は、前記ＡＬＵパイプラインのステージの数に基づいている、
請求項１４のデバイス。
前記制御ワードは、
前記第２の命令が実行されている前記ＡＬＵの識別子と、
前記第２の命令の発行と前記第１の命令の発行との間に発行される命令数のインジケーションと、を含む、
請求項１２～１５の何れかのデバイス。
前記プロセッサは、
前記制御ワードにおいて、前記ＡＬＵパイプラインで実行するための第４の命令に対する第３の命令の第２の依存関係を示すように更に構成されている、
請求項１２～１６の何れかのデバイス。