JP2023518833A

JP2023518833A - ハードウェアアクセラレーションリソースを有効にするためのコンパイラ主導のタイル置換

Info

Publication number: JP2023518833A
Application number: JP2022557656A
Authority: JP
Inventors: ピー．ロジャースグレゴリー; エル．グレイトハウスジョセフ
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-03-27
Filing date: 2021-03-25
Publication date: 2023-05-08
Also published as: US20210303284A1; EP4127908A1; US11853734B2; CN115552370A; EP4127908A4; US20220269492A1; WO2021195381A1; KR20220156954A; US11347486B2

Abstract

処理システム［１００］は、テンソル操作に置換され得るタイル化可能なソースコード［２０２］の命令シーケンスを自動的に識別するコンパイラ［１２０］を含む。コンパイラは、専用ハードウェアアクセラレータ［１２４］を起動させるテンソル操作［２０８］によって識別された命令シーケンスを置換する拡張コード［４０６］を生成する。専用ハードウェアアクセラレータを起動させるテンソル操作によって命令を自動的に置換することにより、コンパイラは、高レベルのプログラミング言語を使用して、プログラマーにとって利用可能な専用ハードウェアアクセラレータを介して、達成可能な性能向上を行う。【選択図】図２

Description

現代のプロセッサアプリケーションは、多くの場合、ベクトル、マトリックス及び類似した構造の比較的複雑な操作を必要とする。例えば、ベクトル及びマトリックス操作は、グラフィック動作、デジタル信号処理アプリケーション、機械学習、ニューラルネットワークアプリケーション等において有用である。これらのアプリケーション及び動作の処理効率を高めるために、最新の処理システムは、中央処理ユニット（ＣＰＵ）等の１つ以上の汎用プロセッサ、並びに、べクトル及び行列乗算等の比較的大きなデータのブロックのための特定型の処理に関する特殊なハードウェアである専用ハードウェアアクセラレータ（ハードウェアアクセラレータ又はｓｈａｄｅｒｉｎｔｒｉｎｓｉｃｓとも呼ばれる）を含む１つ以上のグラフィック処理ユニット（ＧＰＵ）を用いる。したがって、ＧＰＵは、グラフィックアプリケーション、並びに、ベクトル及びマトリックス操作を必要とするその他の動作をサポートし得る。

専用ハードウェアアクセラレータにおいて機能を実行するために、その機能は、処理システムＣＰＵで実行されるアプリケーションプログラムによって起動される必要があるか又は呼び出される必要がある。したがって、アプリケーションプログラムのプログラマーは、アプリケーションプログラムに関数呼び出しを含む必要がある。典型的には、プログラマーは、機能がアプリケーションプログラムによって適切に呼び出されることを確実にするために、専用ハードウェアアクセラレータに関連するアプリケーションプログラムインターフェース（ＡＰＩ）を用いる必要がある。例えば、場合によっては、プログラマーは、オープンコンピューティング言語（ＯｐｅｎＣｏｍｐｕｔｉｎｇＬａｎｇｕａｇｅ、オープンシーエル，ＯｐｅｎＣＬ）、ＨｅｔｅｒｏｇｅｎｅｏｕｓＣｏｍｐｕｔｉｎｇＩｎｔｅｒｆａｃｅｆｏｒＰｏｒｔａｂｉｌｉｔｙ（ＨＩＰ）、Ｖｕｌｋａｎ、又はＣｏｍｐｕｔｅＵｎｉｆｉｅｄＤｅｖｉｃｅＡｒｃｈｉｔｅｃｔｕｒｅ（クーダ，ＣＵＤＡ）等のカーネルプログラミング言語を用いて、専用ハードウェアアクセラレータの機能を適切に起動させる。しかしながら、このようなＡＰＩは、通常、複雑であり、アプリケーションプログラムを準備及びデバッグするのに必要な専門知識及び時間を増加させる。例えば、ＡＰＩは、典型的には、各機能呼び出しについて、対応する関数呼び出しが適切に起動され、かつ、実行されるサポートソースコードを含むように、プログラマーに要求する。これには、プログラマーが潜在的に複雑なＡＰＩの広範な知識を有し、プログラミング及びデバッグ時間を増加させる必要がある。

本開示は、添付の図面を参照することによってより良好に理解され、その多くの特徴及び利点が当業者に明らかになる。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、専用ハードウェアアクセラレータで実行される高性能テンソル操作によってタイル化可能であると識別された入力ソースコードのタイルに対して、コンパイラによって生成されたコードの一部を自動的に識別して置換するコンパイラを含む処理システムのブロック図である。いくつかの実施形態による、図１のコンパイラの動作を示すブロック図である。いくつかの実施形態による、ソースコードのループ内の完全なタイルの図１のコンパイラによる識別を示すブロック図である。いくつかの実施形態による、図１のコンパイラのブロック図である。いくつかの実施形態による、専用ハードウェアアクセラレータにおいて実行可能なテンソル操作によって、入力ソースコードのタイルに対して、コンパイラによって生成されたコードを識別及び置換するための方法を示すフロー図である。

処理システムは、メモリのブロックにアクセスするソースコードの命令シーケンスを自動的に識別し、処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作で置換され得るコンパイラを含む。テンソル操作は、機械学習において一般的に使用される畳み込み又は汎用行列乗算（ＧＥＭＭ）等のベクトル又はマトリックス操作である。コンパイラは、専用ハードウェアアクセラレータを起動させるテンソル操作によって識別された命令シーケンスを置換する拡張コードを生成する。専用ハードウェアアクセラレータを起動させるテンソル操作によって命令を自動的に置換することにより、コンパイラは、低レベルのＡＰＩの特殊な知識を必要とせずに、高レベルのプログラミング言語を使用して、プログラマーにとって利用可能な専用ハードウェアアクセラレータを介して、達成可能な性能向上を行う。

ソースコードのループが「タイル化可能（tileable）」であるという指標を受信したことに応じて（すなわち、特定の機能がブロック又は「タイル状」の様式でメモリにアクセスすることを示すことに応じて）、コンパイラは、処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作のセットに一致するタイル化可能なソースコードの内側ループ（inner loops）を識別する。処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型（すなわち、単一の精度又は二重精度）と一致する内側ループを識別したことに応じて、コンパイラは、内側ループを一致するテンソル操作と自動的に置換する。いくつかの実施形態では、コンパイラは、コンパイラの外部の構成要素を呼び出して、コンパイラによって生成されたタイルに対するコードの一部が、テンソル操作で置換され得る命令シーケンスを含むかどうかを決定し、タイルについて生成されたコードの一部をテンソル操作で置換する。

「タイル」構成は、プログラマーによって使用され、特定のソースコード機能がタイル状の様式でメモリにアクセスすることを示し、したがって、コンパイラが最適化されたメモリアクセスを生成し、ブロッキングコードを登録することを可能にする。ループタイリングは、ループネストにおけるデータアクセスの空間的及び時間的局在性を利用するループ変換である。タイルループ変換は、データがブロックで又はタイルでアクセスされることを可能にし、タイルサイズは、変換のパラメータとして定義される。各ユーザに書き込まれたループは、内側ループ及び外側ループ（outer loops）のセットに変換される。タイルは、コンパイル時間に固定され、データサイズ及びキャッシュサイズに基づいて計算される特定のサイズを有するデータのブロックへの効率的なメモリアクセスを提供する。

コンパイラに信号を送り最適化されたメモリアクセスを生成するタイル構成を起動させることにより、プログラマーは、ループが特定の次元を有するタイルを含むことを示すプラグマ（例えば、「＃ｐｒａｇｍａｏｍｐｔｉｌｅ」）を含む（本明細書では、ループが「タイル化可能」であるという指標とも呼ばれる）。プラグマが、ループがタイル化可能であることを示すことに応じて、コンパイラは、タイルの内側ループを比較して、内側ループの何れかが、処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作のセットの次元及びデータ型と一致するかどうかを決定する。処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致する内側ループは、本明細書では「完全」なタイルと呼ばれる。処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致しないタイルの内側ループは、本明細書では「不完全」又は「剰余」なタイルと呼ばれる。コンパイラは、一致するテンソル操作と完全なタイルを置換し、ハイレベルソースコードを使用したとしても処理性能を高める専用ハードウェアアクセラレータへのアクセスを容易にする。

図１は、いくつかの実施形態による処理システム１００のブロック図である。処理システム１００は、中央演算処理装置（ＣＰＵ）１０２及び加速処理装置（ＡＰＤ）１０４を含む。種々の実施形態では、ＣＰＵ１０２は、１つ以上の単一コアＣＰＵ又はマルチコアＣＰＵを含む。種々の実施形態では、ＡＰＤ１０４は、従来のＣＰＵ、従来のグラフィック処理ユニット（ＧＰＵ）及びこれらの組み合わせ等のリソースに関連して、加速された様式で、加速されたグラフィック処理タスク、データ並列タスク、ネストされたデータ並列タスクに関連する機能及び計算を行う、ハードウェア及び／又はソフトウェアの任意の協働する集まりを含む。図１の実施形態では、処理システム１００は、ＣＰＵ１０２とＡＰＤ１０４とを組み合わせて統一されたプログラミング及び実行環境を提供する単一のシリコンダイ又はパッケージ上に形成される。他の実施形態では、ＣＰＵ１０２及びＡＰＤ１０４は、別々に形成され、同じ又は異なる基板上に取り付けられる。いくつかの実施形態では、処理システム１００は、１つ以上の入力インターフェースと、不揮発性ストレージと、１つ以上の出力インターフェースと、ネットワークインターフェースと、１つ以上のディスプレイ又はディスプレイインターフェースと、を更に含む。処理システム１００は、一般に、電子デバイスの代わりにタスクを実行するために、コンピュータプログラムの形態で編成された命令のセットを実行する。したがって、処理システム１００は、デスクトップ又はラップトップコンピュータ、サーバ、スマートフォン、タブレット、ゲームコンソール等の種々の電子デバイスの何れかで使用され得る。

図１に示すように、処理システム１００は、システムメモリ１０６と、オペレーションシステム１０８と、通信インフラストラクチャ１１０と、１つ以上のアプリケーション１１２と、を含む。システムメモリ１０６へのアクセスは、メモリ１０６に連結されたメモリコントローラ（図示省略）によって管理される。例えば、システムメモリ１０６から読み取るか又はシステムメモリ１０６に書き込むためのＣＰＵ１０２又は他のデバイスからの要求は、メモリコントローラによって管理される。いくつかの実施形態では、１つ以上のアプリケーション１１２は、ＣＰＵ１０２においても実行される計算を行うための種々のプログラム又はコマンドを含む。ＣＰＵ１０２は、ＡＰＤ１０４で処理するための選択されたコマンドを送信する。オペレーティングシステム１０８及び通信インフラストラクチャ１１０を、以下により詳細に説明する。処理システム１００は、デバイスドライバ１１４及び入力／出力メモリ管理ユニット（ＩＯＭＭＵ）１１６等のメモリ管理ユニットを更に含む。処理システム１００の構成要素は、ハードコード化論理又はプログラマブル論理、ソフトウェア／ファームウェア命令を実行する１つ以上のプロセッサ、又は、これらの任意の組み合わせとして実装される。

処理システム１００内で、システムメモリ１０６は、ＤＲＡＭ（図示省略）等の非永続的メモリを含む。種々の実施形態では、システムメモリ１０６は、処理論理命令、定数値、アプリケーション又は他の処理論理の一部の実行中の変数値、又は、他の所望の情報を記憶する。例えば、ＣＰＵ１０２上の１つ以上の動作を実行するための制御論理の一部は、ＣＰＵ１０２による動作のそれぞれの部分の実行中にシステムメモリ１０６内に存在する。実行中、それぞれのアプリケーション、オペレーティングシステム機能、処理論理コマンド、及び、システムソフトウェアは、システムメモリ１０６に存在する。オペレーティングシステム１０８を制御する制御論理コマンドは、一般に、実行中にシステムメモリ１０６内に存在する。いくつかの実施形態では、他のソフトウェアコマンド（例えば、デバイスドライバ１１４）は、処理システム１００の実行中にシステムメモリ１０６内に存在する。

ＩＯＭＭＵ１１６は、マルチコンテキストメモリ管理ユニットである。本発明で使用する場合、コンテキストは、カーネルが実行される環境と、同期及びメモリ管理が定義されるドメインと、を考慮している。コンテキストは、デバイスのセットと、それらのデバイスにアクセス可能なメモリと、対応するメモリプロパティと、メモリオブジェクト上のカーネル（複数可）又は動作の実行をスケジュールするために使用される１つ以上のコマンドキューと、を含む。ＩＯＭＭＵ１１６には、ＡＰＤ１０４等のデバイスに関するメモリページアクセスのために、仮想アドレスから物理的アドレスへの変換を実行するための論理が含まれている。いくつかの実施形態では、ＩＯＭＭＵ１１６は、変換ルックアサイドバッファ（ＴＬＢ）１１８を含むか、又は、それへのアクセスを有する。ＴＬＢ１１８は、一例として、コンテンツアドレス指定可能メモリ（ＣＡＭ）で実装され、システムメモリ１０６内のデータについて、ＡＰＤ１０４によって行われた要求に対する論理（すなわち、仮想）メモリアドレスの物理的メモリアドレスへの変換を加速する。

種々の実施形態では、通信インフラストラクチャ１１０は、処理システム１００の構成要素を相互接続する。通信インフラストラクチャ１１０は、周辺構成要素相互接続（ＰＣＩ）バス、拡張ＰＣＩ（ＰＣＩ－Ｅ）バス、高度マイクロコントローラバスアーキテクチャ（ＡＭＢＡ）バス、高度グラフィックポート（ＡＧＰ）、又は、他のこのような通信インフラストラクチャ及び相互接続のうち１つ以上を含む（図示省略）。いくつかの実施形態では、通信インフラストラクチャ１１０は、イーサネット（登録商標）ネットワーク又はアプリケーションのデータ転送速度要件を満たす任意の他の適切な物理的通信インフラストラクチャを含む。また、通信インフラストラクチャ１１０は、処理システム１００の構成要素を含む、構成要素を相互接続するための機能を含む。

デバイスドライバ１１４等のドライバは、相互接続又は通信インフラストラクチャ１１０を介してデバイス（例えば、ＣＰＵ１０２及びＡＰＤ１０４）と通信する。呼び出しプログラムがデバイスドライバ１１４内のルーチンを起動させる場合、デバイスドライバ１１４は、コマンドをデバイスに発行する。デバイスがデータをデバイスドライバ１１４に戻すと、デバイスドライバ１１４は、元の呼び出しプログラムのルーチンを起動させる。一般に、デバイスドライバは、任意の必要な非同期に依存するハードウェアインターフェースに必須の割り込み処理を提供するために、ハードウェア依存であり、動作システム固有である。いくつかの実施形態では、コンパイラ１２０は、デバイスドライバ１１４内に埋め込まれる。コンパイラ１２０は、処理システム１００による実行に必要なプログラム命令にソースコードをコンパイルする。このようなコンパイル中、コンパイラ１２０は、コンパイルの種々の段階で命令をプログラムするように変換を適用する。他の実施形態では、コンパイラ１２０は、独立型アプリケーションである。いくつかの実施形態では、コンパイラ１２０は、ＣＰＵ１０２又はＡＰＤ１０４によって実行され、したがって、ＣＰＵ１０２又はＡＰＤ１０４は、本明細書に記載のコンパイラ１２０の動作を実行する。

ＣＰＵ１０２は、制御プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、又は、デジタル信号プロセッサ（ＤＳＰ）のうち１つ以上を含む（図示省略）。ＣＰＵ１０２は、処理システム１００の動作を制御する制御論理の少なくとも一部を実行する。例えば、種々の実施形態では、ＣＰＵ１０２は、オペレーティングシステム１０８、１つ以上のアプリケーション１１２及びデバイスドライバ１１４を実行する。いくつかの実施形態では、ＣＰＵ１０２は、１つ以上のアプリケーション１１２に関連する処理をＣＰＵ１０２やＡＰＤ１０４等の他の処理リソースに分配することによって、１つ以上のアプリケーション１１２の実行を開始及び制御する。

ＡＰＤ１０４は、並列処理に特に適しているグラフィック動作及びその他の動作等の選択された機能のためのコマンド及びプログラムを実行する。一般に、ＡＰＤ１０４は、画素動作、幾何計算及びディスプレイへの画像の提示等のグラフィックパイプライン動作を実行するために、又は、機械学習アクセラレータ、データフローエンジン、音声プロセッサ等として、頻繁に使用される。いくつかの実施形態では、ＡＰＤ１０４は、ＣＰＵ１０２から受信したコマンド又は命令に基づいて、計算処理操作（例えば、機械学習、ビデオ動作、物理的シミュレーション、計算流体ダイナミクス等のように、グラフィックと無関係の動作）を実行する。例えば、いくつかのコマンドは、ＡＰＤ１０４の命令セットアーキテクチャ（ＩＳＡ）で典型的に定義されていない特別な命令と見なされる。コマンドは、ディスパッチプロセッサ、コマンドプロセッサ又はネットワークコントローラ等の特別なプロセッサによって実行され得る。

種々の実施形態では、ＡＰＤ１０４は、１つ以上の単一命令を含む１つ以上の汎用処理コア１２２（例えば、ＳＩＭＤ実行モデルに従ってウェーブフロント（wavefront）内の他のスレッドの実行と同時にスレッドを実行する複数データ（ＳＩＭＤ）ユニット（図示省略））と、１つ以上のハードウェアアクセラレータ（加速装置）１２４と、を含む１つ以上の計算ユニットを含む。ＳＩＭＤ実行モデルは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって、同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。ＡＰＤ１０４のいくつかの実施形態は、ＧＰＵを実装するために使用され、その場合、汎用処理コア１２２は、シェーダコア又はストリーミングマルチプロセッサ（ＳＭＸ）と呼ばれる。ＡＰＤ１０４に実装される汎用処理コア１２２の数は、設計選択の問題である。

１つ以上の汎用処理コア１２２のそれぞれは、特定のワークアイテムのそれぞれのインスタンス生成を実行して、入力データを処理し、１つ以上の汎用処理コア１２２における実行の基本的なユニットは、ワークアイテム（例えば、スレッド）である。各ワークアイテムは、例えば、並列に実行されるコマンドによってデバイス上で起動されたカーネルの並列実行の集合体の単一のインスタンス生成を表す。ワークアイテムは、汎用処理コア１２２において実行されるワークグループの一部として１つ以上の処理要素によって実行され得る。

ＡＰＤ１０４は、単一のＳＩＭＤユニット上の「ウェーブフロント」として同時に実行されるスレッドのグループを含むワークアイテムを発行及び実行するＧＰＵを含む。複数のウェーブフロントが「ワークグループ」に含まれるが、これは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するウェーブフロントのそれぞれを実行することによって実行される。いくつかの実施形態では、ウェーブフロントは、単一のＳＩＭＤユニット上で連続して、又は、異なるＳＩＭＤユニット上で部分的に若しくは完全に並列に実行される。他の実施形態では、ワークグループからの全てのウェーブフロントは、同じ汎用処理コア１２２で処理される。また、ウェーブフロントは、ワープ、ベクトル又はスレッドとも互換的に呼ばれる。いくつかの実施形態では、ウェーブフロントは、シェーダプログラムの並列実行のインスタンスを含むが、各ウェーブフロントは、ＳＩＭＤパラダイム（例えば、複数のデータと同じ命令のストリームを実行する１つの命令制御ユニット）を用いて、単一のＳＩＭＤユニット１２４上で、インラインで同時に実行する複数のワークアイテムを含む。スケジューラ１２６は、異なる処理コア１２２及びＳＩＭＤユニット１２４上の種々のウェーブフロントのスケジューリング、並びに、ＡＰＤ１０４上の種々のタスクを調整するための他の動作の実行に関連する動作を実行する。

１つ以上の汎用処理コア１２２によって提供される並列性は、画素値計算、頂点変換、モザイク化、幾何学的シェーディング動作、及び、他のグラフィック動作等のグラフィック関連動作に適している。グラフィック処理パイプライン１２８は、ＣＰＵ１０２からグラフィック処理コマンドを受け入れ、したがって、並列で実行するために、１つ以上の汎用処理コア１２２に計算タスクを提供する。画素処理及び他の並列計算動作等のいくつかのグラフィックパイプライン操作は、同じコマンドストリーム又は計算カーネルが入力データ要素のストリーム又はコレクションに対して実行されることを必要とする。同じ計算カーネルのそれぞれのインスタンス生成は、このようなデータ要素を並列に処理するために、１つ以上の汎用処理コア１２２における複数のＳＩＭＤユニット上で同時に実行される。本明細書で説明するように、例えば、計算カーネルは、プログラムで宣言され、ＡＰＤ汎用処理コア１２２上で実行される命令を含む関数である。この関数は、カーネル、シェーダ、シェーダプログラム又はプログラムとも呼ばれる。

各汎用処理コア１２２は、スカラ及び／又はベクトル浮動小数点ユニット、演算及び論理ユニット（ＡＬＵ）等の１つ以上の処理要素を含む。種々の実施形態では、汎用処理コア１２２も、逆平方根単位及び正弦／余弦単位等の専用処理ユニット（図示省略）を含む。

ウェーブフロント内のワークアイテム（例えば、スレッド）は、その実行中にＳＩＭＤハードウェアレーン（以下、「ＳＩＭＤレーン」と呼ばれる）上で実行される。一実施形態では、各ＳＩＭＤユニットの処理要素は、それぞれが１６個のレーンを含むアレイに配置されるが、各レーンは、ＳＩＭＤユニットにおける他のレーンと同時に同じ命令を実行するが、異なるデータを用いてその命令を実行し、各ワークアイテムが実行中にレーンへとマッピングされ得る。いくつかの実施形態では、ウェーブフロントは、６４のスレッドの群であり（したがって、ウェーブフロントの各スレッドは、０～６３の範囲のレーンに割り当てられる）、これは、１６レーン幅ＳＩＭＤユニットを介して、４サイクルにわたって１６個のスレッドの群で発行される。しかしながら、当業者は、本開示の範囲から逸脱することなく、ウェーブフロントの幅及びＳＩＭＤユニットが任意の構成又は数のスレッド（例えば、８、１６、３２、６４等）を含むことを理解するであろう。

典型的なＧＰＵプログラミング言語は、単一のスレッドの観点から書き込まれる。いくつかのこのような言語は、現在のスレッドが指定された異なるスレッドから値を読み込むべきであることを特定することを可能にする。いくつかの実施形態では、ソースコードは、読み取られるスレッドが現在のスレッドのＩＤから計算されるように書き込まれる。ＡＰＤ１０４は、スレッドデータ交換の特定のパターンを加速する機能を備えた専用ハードウェアアクセラレータ１２４を含む。例えば、ハードウェアアクセラレータ１２４のデータ並列プリミティブ（ＤＰＰ）機能は、固定された次元ウェーブフロント内のスレッドがそれらのレジスタファイルを介して互いに通信することを可能にする（すなわち、ベクトル命令が完全スループットでクロスレーン読み取りを実行することを可能にすることによって、レーン間でデータを移動させる必要性を排除する）。いくつかの実施形態では、アクセラレータは、ウェーブフロントのスレッドが一緒に機能して、固定された次元でマトリックス命令を実行することを可能にする、（対応するＸＤＬＯＰ命令に応じて起動される）ＸＤＬＯＰ機能を含む。プログラマーは、典型的には、次元Ｎのベクトル又はＭによる次元Ｎのマトリックス等のアプリケーションドメインの次元におけるアルゴリズムを表現するので、Ｃ、Ｃ＋＋、ＦＯＲＴＲＡＮ、ＯｐｅｎＣＬ、ＨＩＰ、ＣＵＤＡ等のプログラミングモデルでＤＰＰ及びＸＤＬＯＰ等の固定次元機構を表現することが困難である。これらのアプリケーション次元は、典型的には、ＤＰＰ又はＸＤＬＯＰ命令の固定次元よりも大きい。更に、これらのアプリケーション次元は、典型的には、固定次元の倍数ではない。これらの違いにより、プログラマーにとって、専用ハードウェアアクセラレータ１２４の畳み込み又は汎用行列乗算動作（集合的に「テンソル操作」）等の高性能ベクトル又はマトリックス動作の特定のセットを利用することが困難になる。

したがって、コンパイラ１２０は、専用ハードウェアアクセラレータ１２４において実行され、かつ、記憶されたテンソル操作のうち何れかと置換され得る命令シーケンスを有するより効率的なメモリアクセス（すなわち、「タイル化可能」ソースコード）について、ブロック内のメモリにアクセスするソースコードの内側ループを識別するテンソル操作のセットを記憶する。コンパイラ１２０は、拡張コードを生成するために、内側ループ内の専用ハードウェアアクセラレータ（すなわち、「完全な」タイル）によって実行可能な記憶されたテンソル操作の次元及びデータ型に一致する内側ループを、テンソル操作によって置換する。拡張コードは、ハードウェアアクセラレータ１２４を起動させてテンソル操作を実行し、それによって、低レベルプログラミング言語の使用を必要とせずに、ハードウェアアクセラレータ１２４の高性能処理へのアクセスを可能にする。

いくつかの実施形態では、コンパイル中、コンパイラ１２０は、ソースコードについての関数呼び出しのカーネルのラッパ（wrapper）コード（図示省略）を生成する。ラッパコードは、カーネルがＧＰＵで適切に呼び出され、実行されることを確実にすることによって、各カーネルのソースコードをサポートする。したがって、ラッパコードは、メモリ割り当て命令、データ転送命令、変数及びデータ構造の宣言、及び、ＧＰＵで呼び出され実行される各カーネルによって必要とされる他のコードを含み得る。コンパイラ１２０は、識別されたカーネルごとに１つ以上のソースコードテンプレートを識別及びコピーすることによって、ラッパコードを生成する。

一例を説明するために、いくつかの実施形態では、タイル化可能なソースコードの内側ループは、畳み込み又は汎用行列乗算（ＧＥＭＭ）へと実行するための命令を含む。例えば、コンパイラ１２０が、２つの単一精度１６×１６マトリックスを乗算するための命令シーケンスを含むタイル化可能なソースコードの内側ループをコンパイルする場合、コンパイラ１２０は、専用ハードウェアアクセラレータ１２４で実行可能な記憶されたテンソル操作のセットを検索する。コンパイラ１２０によって、記憶されたテンソル操作が、命令シーケンスの次元（１６×１６）及びデータ型（例えば、単一の精度）に一致する汎用行列乗算を実行するための集約命令（aggregate instruction）であると決定された場合、コンパイラ１２０は、命令シーケンスが一致するテンソル操作に置換された拡張コードを生成する。コンパイラは、拡張コードにラッパを含み、専用ハードウェアアクセラレータ１２４を起動させて一致するテンソル操作を実行し、それによって、専用ハードウェアアクセラレータ１２４の強化された処理能力を利用する。

図２は、いくつかの実施形態による、図１のコンパイラ１２０の動作例を示している。コンパイラに信号を送り最適化されたメモリアクセスを生成するタイル構成を起動させることにより、プログラマーは、ループが特定の次元を有するタイルを含むことを示す「タイル」プラグマ２０３（例えば、「＃ｐｒａｇｍａｏｍｐｔｉｌｅ」）を含む（本明細書では、ループが「タイル化可能」であるという指標とも呼ばれる）。時間２０１で、コンパイラ１２０は、ソースコード２０２がタイル化可能であることを示すタイルプラグマ２０３を受信することに応じて、ソースコード２０２を解析する。コンパイラ１２０は、コンパイラ生成ソースコード２０２の内側ループの命令シーケンスと、専用ハードウェアアクセラレータ１２４によって実行可能なテンソル操作のセットと、を比較する。コンパイラ１２０は、セット内のテンソル操作の次元及びデータ型と一致するソースコード２０２の各内側ループを「完全タイル」２０４として識別する。コンパイラ１２０は、不完全又は「剰余」タイル２０６として、セット内のテンソル操作の次元及びデータ型と一致しないソースコード２０２の内側ループを識別する。時間２０７で、コンパイラ１２０は、完全なタイル２０４を専用ハードウェアアクセラレータ１２４において実行されるテンソル操作２０８と置換して、剰余タイル２０６を汎用処理コア１２２において通常実行するように残す。

図３は、いくつかの実施形態による、ソースコードのループ内の完全なタイルの図１のコンパイラによる識別を示すブロック図である。コンパイラ１２０は、専用ハードウェアアクセラレータ１２４によって実行可能なテンソル操作を記憶するテンソルライブラリ３２２を含む。ソースコード２０２がタイル化可能である旨の指標を受信したことに応じて、コンパイラ１２０は、ソースコード２０２の内側ループを分析して、内側ループの命令シーケンスがテンソルライブラリ３２２に記憶された任意のテンソル操作と一致するかどうかを決定する。例示的な実施例では、テンソルライブラリ３２２は、１６×１６の汎用行列乗算（ＧＥＭＭ）動作３１５を実行するテンソル操作を含む。コンパイラ１２０は、ソースコード２０２の内側ループが、１６×１６の行列乗算動作３０５を実行するための命令シーケンスを含むと決定する。１６×１６の行列乗算動作３０５によって指定されたデータ型が１６×１６のＧＥＭＭテンソル操作３１５のデータ型と一致することを確認した後、コンパイラ１２０は、完全タイルとして１６×１６の行列乗算動作３１５を識別する。コンパイラ１２０は、テンソルライブラリ３２２に記憶された如何なるテンソル操作も不完全なタイルとして一致させないソースコード２０２の剰余動作３１０を識別する。

したがって、例えば、以下のユーザコードを与えると、Ｎは、コンパイル時間では知られない場合があり、Ｎは、１６によって均一に分割されない場合がある。
＃ｐｒａｇｍａｏｍｐｔｉｌｅサイズ（１６、１６、１６）
ｆｏｒ（ｉ＝０；ｉ＜Ｎ；ｉ＋＋）
ｆｏｒ（ｊ＝０；ｊ＜Ｎ；ｊ＋＋）
ｆｏｒ（ｋ＝０；ｋ＜Ｎ；ｋ＋＋）
Ｃ［ｉ、ｊ］＋＝Ａ［ｉ］［ｋ］＊Ｂ［ｋ］［ｊ］

内部で、コンパイラ１２０は、ループタイリング変換の結果として以下の等価コードを生成する。
＃ｄｅｆｉｎｅＴＳＩＺＥ１６
ｉｎｔｒｅｍ＝Ｎ％ＴＳＩＺＥ；
ｉｎｔｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ＝Ｎ；
ｉｆ（ｒｅｍ）
ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ＝Ｎ－ｒｅｍ；
ｆｏｒ（ｉｎｔｉｉ＝０；ｉｉ＜Ｎ；ｉｉ＋＝ＴＳＩＺＥ）
ｆｏｒ（ｉｎｔｊｊ＝０；ｊｊ＜Ｎ；ｊｊ＋＝ＴＳＩＺＥ）
ｆｏｒ（ｉｎｔｋｋ＝０；ｋｋ＜Ｎ；ｋｋ＋＝ＴＳＩＺＥ）｛
ｉｆ（（ｉｉ＝＝ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ）｜｜
（ｊｊ＝＝ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ）｜｜
（ｋｋ＝＝ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ））｛
／＊ＰＡＲＴＩＡＬＴＩＬＥ＊／
ｆｏｒ（ｉｎｔｉ＝ｉｉ；ｉ＜（ｍｉｎ（ｉｉ＋ＴＳＩＺＥ，Ｎ））；ｉ＋＋）
ｆｏｒ（ｉｎｔｊ＝ｊｊ；ｊ＜（ｍｉｎ（ｊｊ＋ＴＳＩＺＥ，Ｎ））；ｊ＋＋）
ｆｏｒ（ｉｎｔｋ＝ｋｋ；ｋ＜（ｍｉｎ（ｋｋ＋ＴＳＩＺＥ，Ｎ））；ｋ＋＋）
Ｃ［ｉ］［ｊ］＋＝Ａ［ｉ］［ｋ］＊Ｂ［ｋ］［ｊ］；
｝ｅｌｓｅ｛
／＊ＭＡＴＲＩＸＭＵＬＴＩＰＬＹＦＯＲＰＥＲＥＣＴＴＩＬＥＯＦＴＳＩＺＥｘＴＳＩＺＥ＊／
ｆｏｒ（ｉｎｔｉ＝ｉｉ；ｉ＜ｉｉ＋ＴＳＩＺＥ；ｉ＋＋）
ｆｏｒ（ｉｎｔｊ＝ｊｊ；ｊ＜ｊｊ＋ＴＳＩＺＥ；ｊ＋＋）
ｆｏｒ（ｉｎｔｋ＝ｋｋ；ｋ＜ｋｋ＋ＴＳＩＺＥ；ｋ＋＋）
Ｃ［ｉ］［ｊ］＋＝Ａ［ｉ］［ｋ］＊Ｂ［ｋ］［ｊ］；
｝
｝

次に、コンパイラ１２０は、識別された完全タイル（すなわち、非部分タイル）に対する行列乗算命令を置換する拡張コードを、関数「Ｖ＿ＭＦＭＡ＿Ｆ３２＿１６Ｘ１６Ｘ１６Ｆ１６＿ＷＲＡＰＰＥＲ（Ａ，Ｂ，Ｃ，ｉｉ，ｊｊ，ｋｋ）」で示される等価テンソル操作によって生成する。
＃ｄｅｆｉｎｅＴＳＩＺＥ１６
ｉｎｔｒｅｍ＝Ｎ％ＴＳＩＺＥ；
ｉｎｔｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ＝Ｎ；
ｉｆ（ｒｅｍ）
ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ＝Ｎ－ｒｅｍ；
ｆｏｒ（ｉｎｔｉｉ＝０；ｉｉ＜Ｎ；ｉｉ＋＝ＴＳＩＺＥ）
ｆｏｒ（ｉｎｔｊｊ＝０；ｊｊ＜Ｎ；ｊｊ＋＝ＴＳＩＺＥ）
ｆｏｒ（ｉｎｔｋｋ＝０；ｋｋ＜Ｎ；ｋｋ＋＝ＴＳＩＺＥ）｛
ｉｆ（（ｉｉ＝＝ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ）｜｜
（ｊｊ＝＝ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ）｜｜
（ｋｋ＝＝ｌａｓｔ＿ｎｏｎ＿ｆｕｌｌ＿ｂｌｏｃｋ））｛
／＊ＰＡＲＴＩＡＬＴＩＬＥ＊／
ｆｏｒ（ｉｎｔｉ＝ｉｉ；ｉ＜（ｍｉｎ（ｉｉ＋ＴＳＩＺＥ，Ｎ））；ｉ＋＋）
ｆｏｒ（ｉｎｔｊ＝ｊｊ；ｊ＜（ｍｉｎ（ｊｊ＋ＴＳＩＺＥ，Ｎ））；ｊ＋＋）
ｆｏｒ（ｉｎｔｋ＝ｋｋ；ｋ＜（ｍｉｎ（ｋｋ＋ＴＳＩＺＥ，Ｎ））；ｋ＋＋）
Ｃ［ｉ］［ｊ］＋＝Ａ［ｉ］［ｋ］＊Ｂ［ｋ］［ｊ］；
｝ｅｌｓｅ｛
Ｖ＿ＭＦＭＡ＿Ｆ３２＿１６Ｘ１６Ｘ１６Ｆ１６＿ＷＲＡＰＰＥＲ（Ａ，Ｂ，Ｃ，ｉｉ，ｊｊ，ｋｋ）；
｝
｝

図４は、いくつかの実施形態による、図１のコンパイラのブロック図である。図示した例では、コンパイラ１０５は、構文解析系４２０と、テンソルライブラリ３２２と、汎用ソーステンプレート４２４と、テンソルテンプレート４２６と、テンソル起動テンプレート４２８と、テンソルヘッダテンプレート４３０と、を含む。構文解析系４２０は、ハードコード化論理又はプログラマブル論理、ソフトウェア／ファームウェア命令を実行する１つ以上のプロセッサ、又は、これらの任意の組み合わせとして実装される。構文解析系４２０は、ソースコード２０２内のシンボルのストリングを分析して、ＧＰＵの機能呼び出しを識別する。いくつかの実施形態では、構文解析系４２０は、機能呼び出しを示すデータ構造（例えば、解析木又は他の階層構造）を構築し得る。

構文解析系４２０が機能呼び出しデータ構造を生成した後、コンパイラ１２０は、ソースコード２０２がタイル化可能であることを示す「タイル」プラグマ２０３をソースコード２０２において受信するが、コンパイラ１２０は、専用ハードウェアアクセラレータ１２４によって実行可能な任意のテンソル操作が、タイル化可能なソースコード２０２の内側ループの命令シーケンスの次元及びデータ型と一致するかどうかを決定するために、テンソルライブラリ３２２を検索する。いくつかの実施形態では、ソースコード２０２は、ソースコード２０２の内側ループがテンソルライブラリ３２２のテンソル操作の型と一致すること、例えば、汎用行列乗算を示す「ｉｎｔｒｉｎｓｉｃ（ｇｅｍｍ）」を示すヒント４０２を含む。コンパイラ１２０が、ソースコード２０２の内側ループが専用ハードウェアアクセラレータ１２４によって実行可能な型のテンソル操作と置換可能であることを示すヒント４０２を受信する場合、コンパイラ１２０は、ヒント４０２によって指定されたテンソルの型に対応するテンソル操作のサブセットのみを検索する。したがって、ヒント４０２の受信に応じて、コンパイラ１２０は、ソースコード２０２の内側ループの命令シーケンスの次元及びデータ型と、ヒント４０２によって指定されたテンソル操作の型に対応するテンソル操作のサブセットと、を比較する。

汎用ソーステンプレート４２４、テンソルソーステンプレート４２６、テンソル起動テンプレート４２８及びテンソルヘッダテンプレート４３０は、コンパイラ１２０によって識別された各テンソルのラッパコードを生成するために、ソースコードを記憶する。したがって、テンプレート４２６、４２８、４３０のそれぞれは、事前に準備されたテキスト、記号、又は、他の形式のソースコードを記憶するが、これは、コンパイルされた場合に、対応するテンソル操作をテンプレートに関連する専用ハードウェアアクセラレータ１２４において適切に実行することを可能にする。

一例を説明するために、いくつかの実施形態では、タイル化可能なソースコード２０２の内側ループは、畳み込み又は汎用行列乗算（ＧＥＭＭ）を含む。例えば、タイル化可能ソースコード２０２の内側ループは、２つの１６×１６マトリックスを乗算するための命令シーケンスを含み、プロダクトを第３の１６×１６マトリックスに追加し、倍精度データ型を使用して、結果を第３のマトリックスに記憶する。
Ｃ［ｉ，ｊ］＋＝Ａ［ｉ，ｊ］＊Ｂ［ｋ，ｊ］

コンパイラ１２０は、テンソルライブラリ３２２を検索し、テンソルライブラリ３２２が、命令シーケンスの次元及びデータ型と一致する汎用行列乗算を実行するための集約命令であるテンソル操作を含むことを決定する、すなわち、命令シーケンスが完全なタイルであると決定する。一致するテンソル操作記憶ソースコードに対応するテンプレート４２６、４２８、４３０は、それがコンパイル及び実行された場合に、これらの動作を実行して、専用ハードウェアアクセラレータ１２４が予測される結果を返すことを確実にする。

したがって、適切なテンプレートをラッパコードにコピーし、そのコードを拡張されコンパイラによって生成されたコード３０６の一部とするようにコンパイルすることによって、コンパイラ１２０は、アプリケーションファイル１２０がプログラマーによって予測通りに機能することを確実にする。更に、コンパイラ１２０は、ソースコード２０２の各完全タイルに対して適切なテンプレートを自動的に識別し、コピーする。これは、プログラマーが低レベルのプログラミング言語を学習して専用ハードウェアアクセラレータ１２４にアクセスすることを軽減し、専用ハードウェアアクセラレータ１２４の強化された性能を向上させながら全体的なプログラム時間及び労力を低減する。また、これは、プログラマーが本コードを１回書き込むことを可能にする。コンパイラ１２０又はテンソルライブラリ３２２の実装のみについて、ソースコード２０２が将来のハードウェア加速度ユニットを使用することを可能にするために変更を行う必要がある。一方、完全なタイルであると決定されていない（すなわち、不完全なタイル又は剰余タイルの場合）ソースコード２０２の部分について、コンパイラ１２０は、汎用処理コア１２２で実行されるコンパイラによって生成されたコード４０４を生成する。

動作中、ソースコード２０２及び「タイル」プラグマ２０３を受信することに応じて、コンパイラ１２０は、ソースコード２０２の内側ループの命令シーケンスを以下のように置換するために、テンソル操作のためのラッパコードを生成する。第１に、コンパイラ１２０は、汎用ソーステンプレート４２４、識別されたテンソルを実行するために必要なソースコードの汎用セットを含む。例えば、汎用ソースコードは、実行中に必要とされる再利用可能なサブルーチン及び定義されたデータ構造のリスト、及び、専用ハードウェアアクセラレータ１２４が利用可能であるかどうかをチェックするためのコードを有し得る。この汎用ソースコードは、アクセラレータ初期化プロセスの不必要な繰り返しを防止するために、機能に対して以前の呼び出しを追跡する。次に、識別された各テンソル操作について、コンパイラ１２０は、テンソルソーステンプレート４２６においてコードテンプレートを識別する。各テンソル初期化テンプレートは、対応するテンソルについて、テンソルが適切に呼び出されて実行されることを確実にするために必要なコードを含む。例えば、本テンプレートは、テンソル固有サブルーチン及びデータ構造を有し、各テンソル操作に必要とされる。

テンソル操作が最初の時間に呼び出されている場合、本コードは、テンソル固有のデータ構造を初期化する。また、本コードは、以前のコールがこれらのデータ構造を初期化して、データ構造を再初期化することを回避するかどうかを追跡する。コンパイラ１２０は、識別されたテンソルソーステンプレートをラッパコードにコピーしてカスタマイズする。コンパイラ１２０は、テンソル起動テンプレート４２８からラッパコードへとコピーするが、ソースコードは、テンソルを起動する必要がある。最後に、コンパイラ１２０は、テンソルヘッダテンプレート４３０からテンソル操作のヘッダを識別し、識別されたヘッダをヘッダファイルにコピーする。ヘッダファイルは、アプリケーションが、生成されたラッパを呼び出すために正しい引数のセットを使用することを確実にするために、拡張されコンパイラによって生成されたコード４０６のコンパイルに使用される。ヘッダファイルのフォーマットは、異なる型の主ソースコードによって変化し得る。

図５は、いくつかの実施形態による、図１の処理システムの専用ハードウェアアクセラレータにおいて実行可能なテンソル操作によってタイル化されたソースコードの内側ループを識別して置換するための方法を示すフロー図である。ブロック５０２において、コンパイラ１２０は、ソースコード２０２を受信する。ブロック５０４において、コンパイラ１２０は、ソースコード２０２がタイル化可能であることを示すタイルプラグマ２０３等の指標（例えば、「ｐｒａｇｍａｏｍｐｔｉｌｅサイズ（１６、１６、１６）」）を受信する。いくつかの実施形態では、ブロック５０６において、コンパイラは、ソースコード２０２のタイルの内側ループが、専用ハードウェアアクセラレータ１２４において、実行可能な型のテンソル操作と置換可能であることを示すヒント３０２を受信したかどうかを決定する。ブロック４０６において、コンパイラが、ソースコード２０２のタイルの内側ループが専用ハードウェアアクセラレータ１２４において実行可能な型のテンソル操作と置換可能であることを示すヒント４０２を受信していないと決定した場合、本方法はブロック５０８に続く。ブロック５０８において、コンパイラ１２０は、ソースコード２０２の内側ループの命令シーケンスの次元及びデータ型と、専用ハードウェアアクセラレータ１２４で実行可能なテンソル操作のセットと、を比較する。次に、方法のフローは、ブロック５１２に続く。

ブロック５０６において、コンパイラが、ソースコード２０２のタイルの内側ループが専用ハードウェアアクセラレータ１２４において実行可能な型のテンソル操作と置換可能であることを示すヒント４０２を受信していると決定した場合（例えば、「固有（ｇｅｍｍ）」）、本方法はブロック５１０に続く。ブロック５１０で、コンパイラ１２０は、ソースコード２０２のタイルの内側ループの命令シーケンスの次元及びデータ型と、その型によって指定されたテンソル操作のサブセットと、を比較する。次に、方法のフローは、ブロック５１２に戻る。

ブロック５１２において、コンパイラ１２０は、タイルの内側ループの命令シーケンスがテンソルライブラリ３２２に記憶されたテンソル操作のセットのテンソル操作と一致するかどうか（ブロック５０６において、ヒント４０２を受信していない場合）、又は、タイルの内側ループの命令シーケンスが、ヒント４０２によって示されるテンソル操作の型に対応するテンソル操作のサブセットのテンソル操作と一致するかどうか（ブロック５０６で、ヒント４０２を受信している場合）を決定する。ブロック５１２において、一致するとコンパイラ１２０が決定した場合、本方法のフローはブロック５１４に続く。ブロック５１４において、ソースコード２０２のタイルの内側ループが専用ハードウェアアクセラレータ１２４によって実行可能なテンソル操作と一致することに応じて（すなわち、完全なタイルの識別）、コンパイラ１２０は、内側ループの一致するシーケンスを一致するテンソル操作に置換するコードを生成する。次に、方法のフローは、ブロック５１８に続く。ブロック５１８で、コンパイラ１２０は、一致するテンソル操作を起動させるためにラッパコードを生成し、一致するテンソル操作は、専用ハードウェアアクセラレータ１２４において実行される。次に、方法のフローは、ブロック５０２に戻る。

ブロック５１２において、コンパイラ１２０が一致しないと決定した場合、又は、（その他の命令シーケンスが一致し、したがって完全なタイルを形成する一方で）一致しない内側ループの命令シーケンスがある場合、非一致命令シーケンスが「剰余」タイルとして識別され、本方法のフローは、ブロック５１６に続く。ブロック５１６において、コンパイラ１２０は、汎用プロセッサ１２２で実行される剰余タイルに関するコンパイラによって生成されたコードを生成する。次に、方法のフローは、ブロック５０２に戻る。

本明細書に開示されるように、いくつかの実施形態では、方法は、処理システムにおいてコンパイルされるソースコードがタイル化可能であるという指標を受信したことに応じて、複数のタイルを含むコンパイラによって生成されたコードが、処理システムの専用ハードウェアアクセラレータにおいて実行可能なテンソル操作によって置換され得るタイルについての命令シーケンスを含むかどうかを決定することと、命令シーケンスがテンソル操作によって置換され得ると決定したことに応じて、コンパイラによって生成されたコードの命令シーケンスをテンソル操作によって置換するコードを生成することと、を含む。一態様では、本方法は、処理システムの専用ハードウェアアクセラレータにおいてテンソル操作の実行を起動させるためにラッパを生成することを含む。別の態様では、コードを生成することは、内側ループの命令シーケンスの次元及びデータ型が、専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致することに応じて、タイルの内側ループを置換することを含む。

一態様では、本方法は、ソースコード内において、タイルの内側ループがテンソル操作の型によって置換可能であることを示すヒントを受信することと、ヒントを受信したことに応じて、かつ、内側ループの命令シーケンスの次元及びデータ型が、ヒントによって示される型のテンソル操作の次元及びデータ型と一致することに応じて、内側ループと、ヒントによって示されるテンソル操作の型と、を置換するコードを生成することと、を含む。別の態様では、本方法は、専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致しないタイルの内側ループの命令シーケンスを不完全なタイルとして識別することを含む。更に別の態様では、本方法は、不完全なタイルを実行するために、処理システムの汎用プロセッサを起動させるためのコードを生成することを含む。更に別の態様では、テンソル操作は、汎用行列乗算を含む集約命令である。

いくつかの実施形態では、方法は、処理システムのコンパイラにおいて、ソースコードがタイルを含む旨の指標を受信することと、タイルの内側ループを、処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作と比較することと、タイルの内側ループが専用ハードウェアアクセラレータによって実行可能なテンソル操作と一致することに応じて、タイルの内側ループをテンソル操作によって置換する拡張コードを生成して、専用ハードウェアアクセラレータを起動させることと、を含む。一態様では、内側ループは、テンソル操作の次元及びデータ型に一致する第１の命令シーケンスを含む。別の態様では、タイルは、テンソル操作の次元及びデータ型と一致しない第２の命令シーケンスを更に含む。

一態様では、本方法は、第２の命令シーケンスを実行するために、処理システムの汎用プロセッサを起動させるためのコードを生成することを含む。別の態様では、本方法は、ソースコードにおいて、タイルの内側ループがテンソル操作の型によって置換可能であることを示すヒントを受信することと、ヒントによって示されるテンソル操作の型によって内側ループを置換するコードを生成することと、を含む。更に別の態様では、比較することは、ヒントを受信したことに応じて、第１の命令シーケンスの次元及びデータ型と、ヒントによって示されたテンソル操作の型によって特定された処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作のサブセットと、を比較することを含む。

いくつかの実施形態では、処理システムは、専用ハードウェアアクセラレータと、プロセッサと、を含み、プロセッサは、処理システムにおいて実行されるコンパイラによって生成されたコードがタイル化可能であるという指標を受信したことに応じて、タイルについてのコンパイラによって生成されたコードの一部がテンソル操作によって置換され得る命令シーケンスを含むかどうかを決定し、その一部がテンソル操作によって置換され得ると決定したことに応じて、コンパイラによって生成されたコードの一部を置換するように構成されている。一態様では、専用ハードウェアアクセラレータは、１つ以上のテンソル操作を実行するように構成されている。別の態様では、プロセッサは、命令シーケンスの次元及びデータ型と、専用ハードウェア加速度器によって実行可能なテンソル操作と、を比較して、内側ループの命令シーケンスの次元及びデータ型が専用ハードウェアアクセラレータによって実行されるテンソル操作の次元及びデータ型と一致することに応じて、少なくとも１つの内側ループを置換することを更に含む。

一態様では、プロセッサは、専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致しない内側ループの命令シーケンスを更に実行する。別の態様では、プロセッサは、タイルの内側ループがテンソル操作の型と置換可能であることを示す、コンパイラによって生成されたコード内のヒントを受信する。更に別の態様では、プロセッサは、ヒントを受信したことに応じて、命令シーケンスの次元及びデータ型と、ヒントによって示されたテンソル操作の型によって特定された処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作のサブセットと、を比較するように更に構成されている。さらに別の態様では、テンソル操作は、汎用行列乗算を含む集約命令である。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

処理システム［１００］においてコンパイルされるソースコード［２０２］がタイル化可能であるという指標を受信したことに応じて、前記処理システムのコンパイラ［１２０］において、複数のタイルを含むコンパイラ生成コード［４０４］が、前記処理システムの専用ハードウェアアクセラレータ［１２４］において実行可能なテンソル操作［２０８］と置換され得るタイル［２０４］についての命令シーケンスを含むかどうかを決定することと、
前記命令シーケンスが前記テンソル操作に置換され得ると決定したことに応じて、前記コンパイラ生成コードの前記命令シーケンスを前記テンソル操作に置換するコードを生成することと、を含む、
方法。
前記処理システムの専用ハードウェアアクセラレータにおいて前記テンソル操作の実行を起動させるためのラッパを生成することを更に含む、
請求項１の方法。
コードを生成することは、
前記内側ループの命令シーケンスの次元及びデータ型が、前記専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致することに応じて、前記タイルの内側ループを置換することを含む、
請求項１の方法。
前記ソースコードにおいて、タイルの内側ループがテンソル操作の型に置換可能であることを示すヒント［４０２］を受信することと、
前記ヒントを受信したことに応じて、かつ、前記内側ループの前記命令シーケンスの次元及びデータ型が、前記ヒントによって示される前記型のテンソル操作の次元及びデータ型と一致したことに応じて、前記内側ループを、前記ヒントによって示されるテンソル操作の前記型に置換するコードを生成することと、を更に含む、
請求項１の方法。
前記専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致しないタイルの内側ループの命令シーケンスを、不完全なタイルとして識別することを更に含む、
請求項１の方法。
前記不完全なタイルを実行するために、前記処理システムの汎用プロセッサ［１２２］を起動させるためのコードを生成することを更に含む、
請求項５の方法。
前記テンソル操作は、汎用行列乗算を含む集約命令である、請求項１に記載の方法。
処理システム［１００］のコンパイラ［１２０］において、ソースコード［２０２］がタイルを含むという指標［２０３］を受信することと、
前記タイルの内側ループと、前記処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作と、を比較することと、
前記タイルの前記内側ループが、前記専用ハードウェアアクセラレータによって実行可能なテンソル操作［２０８］に一致することに応じて、前記タイルの前記内側ループを前記テンソル操作に置換する拡張コードを生成して、前記専用ハードウェアアクセラレータを起動させることと、を含む、
方法。
前記内側ループは、前記テンソル操作の次元及びデータ型に一致する第１の命令シーケンスを含む、
請求項８の方法。
前記タイルは、前記テンソル操作の次元及びデータ型と一致しない第２の命令シーケンスを更に含む、
請求項９の方法。
前記第２の命令シーケンスを実行するために、前記処理システムの汎用プロセッサ［１２２］を起動させるためのコードを生成することを更に含む、
請求項１０の方法。
前記ソースコードにおいて、タイルの内側ループがテンソル操作の型に置換可能であることを示すヒント［４０２］を受信することと、
前記内側ループを、前記ヒントによって示されるテンソル操作の前記型に置換するコード［４０６］を生成することと、を更に含む、
請求項９の方法。
比較することは、
前記ヒントを受信したことに応じて、前記第１の命令シーケンスの次元及びデータ型と、前記ヒントによって示されたテンソル操作の前記型によって特定された前記処理システムの専用ハードウェアアクセラレータ［１２４］によって実行可能なテンソル操作のサブセットと、を比較することを含む、
請求項１２の方法。
専用ハードウェアアクセラレータ［１２４］と、
プロセッサ［１０４］と、を備える処理システム［１００］であって、
前記プロセッサは、
前記処理システムにおいて実行されるコンパイラ生成コード［４０４］がタイル化可能であるという指標を受信したことに応じて、タイル［２０４］についてのコンパイラ生成コードの一部がテンソル操作［２０８］に置換され得る命令シーケンスを含むかどうかを決定することと、
前記コンパイラ生成コードの一部が前記テンソル操作に置換され得ると決定したことに応じて、前記コンパイラ生成コードの一部を前記テンソル操作に置換することと、
を行うように構成されている、
処理システム［１００］。
前記専用ハードウェアアクセラレータは、１つ以上のテンソル操作を実行するように構成されている、
請求項１４の処理システム。
前記プロセッサは、
前記命令シーケンスの次元及びデータ型と、前記専用ハードウェアアクセラレータによって実行可能なテンソル操作と、を比較し、
前記内側ループの前記命令シーケンスの前記次元及びデータ型が、前記専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致することに応じて、少なくとも１つの内側ループを置換する、
請求項１５の処理システム。
前記プロセッサは、
前記専用ハードウェアアクセラレータによって実行可能なテンソル操作の次元及びデータ型と一致しない前記内側ループの命令シーケンスを実行する、
請求項１６の処理システム。
前記プロセッサは、
前記コンパイラ生成コードにおいて、タイルの内側ループがテンソル操作の型に置換可能であることを示すヒント［４０２］を受信する、
請求項１４の処理システム。
前記プロセッサは、
前記ヒントを受信したことに応じて、前記命令シーケンスの次元及びデータ型と、前記ヒントによって示されたテンソル操作の前記型によって特定された前記処理システムの専用ハードウェアアクセラレータによって実行可能なテンソル操作のサブセットと、を比較するように構成されている、
請求項１８の処理システム。
前記テンソル操作は、汎用行列乗算を含む集約命令である、
請求項１４の処理システム。