JP2022541461A

JP2022541461A - チップレット統合型機械学習アクセラレータ

Info

Publication number: JP2022541461A
Application number: JP2022502435A
Authority: JP
Inventors: ピー．サカルシートスワプニール; エス．ポミャノフスキアンドリュー; ヴィー．カザコフマキシム; ゴエルヴィニート; エヌ．ネムレカールミリンド; ジョナソンサレハスカイラー
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-07-22
Filing date: 2020-07-21
Publication date: 2022-09-26
Also published as: KR20220035426A; EP4004835A4; WO2021016273A1; US20210026686A1; CN114144797A; EP4004835A1

Abstract

機械学習操作を実行するための技術が提供されている。本技術は、第１のチップレットの第１の部分をキャッシュとして構成することと、第１の部分を介してキャッシュ操作を実行することと、チップレットの第１の部分の少なくとも第１のサブ部分を直接アクセス可能なメモリとして構成することと、第１のチップレット内の機械学習アクセラレータによって、第１のサブ部分で機械学習操作を実行することと、を含む。【選択図】図５

Description

（関連出願への相互参照）
本願は、２０１９年７月２２日出願の「ＣＨＩＰＬＥＴＡＰＰＲＯＡＣＨＦＯＲＣＯＵＰＬＩＮＧＧＰＵＷＩＴＨＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＡＣＣＥＬＥＲＡＴＩＯＮＡＴＨＩＧＨＰＯＷＥＲＥＦＦＩＣＩＥＮＣＹ」と題する米国仮特許出願第６２／８７７，２４１号の優先権を主張し、その全体が、参照することによって本明細書に組み込まれる。本願は、２０１９年７月２２日出願の「ＨＩＧＨＢＷＩＮＴＥＲ－ＣＯＮＮＥＣＴＥＤＣＨＩＰＬＥＴＳＡＮＤＧＰＵＦＯＲＨＩＧＨＰＥＲＦＯＲＭＡＮＣＥＧＡＭＩＮＧＡＮＤＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＷＯＲＫＬＯＡＤＳ」と題する米国仮特許出願第６２／８７７，２４９号の優先権を主張し、その全体が、参照することによって本明細書に組み込まれる。本願は、２０２０年７月２０日出願の「ＣＨＩＰＬＥＴ－ＩＮＴＥＧＲＡＴＥＤＭＡＣＨＩＮＥＬＥＡＲＮＩＮＧＡＣＣＥＬＥＲＡＴＯＲＳ」と題する米国特許出願第１６／９３３，８６３号の優先権を主張し、その全体が、参照することによって本明細書に組み込まれる。

機械学習は、急速に進歩している分野である。トレーニングや推論等の機械学習操作のためのハードウェアの改良が絶えず行われている。

添付図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の機能を実装することができる例示的なデバイスのブロック図である。一例による、図１のデバイスの詳細を示す図である。図２に示されたグラフィックス処理パイプラインの更なる詳細を示すブロック図である。ＡＰＤのブロック図を表す図であり、一例による、キャッシュ／機械学習アクセラレータチップレットの詳細を示す図である。一例による、キャッシュ／機械学習アクセラレータチップレットの詳細を示す図である。一例による、チップレットを使用して機械学習操作を実行する方法のフロー図である。

機械学習操作を実行するための技術が提供される。本技術は、第１のチップレットの第１の部分をキャッシュとして構成することと、第１の部分を介してキャッシュ操作を実行することと、チップレットの第１の部分の少なくとも第１のサブ部分を直接アクセス可能なメモリとして構成することと、第１のチップレット内の機械学習アクセラレータによって、第１のサブ部分で機械学習操作を実行することと、を含む。

図１は、本開示の１つ以上の機能を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、タブレットコンピュータ、又は、他のコンピューティングデバイスのうち何れかであってもよいが、これらに限定されない。デバイス１００は、プロセッサ１０２と、メモリ１０４と、ストレージ１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、１つ以上の入力ドライバ１１２及び１つ以上の出力ドライバ１１４を含む。何れの入力ドライバ１１２も、ハードウェア、ハードウェアとソフトウェアとの組み合わせ、又は、ソフトウェアとして具現化され、入力デバイス１０８を制御する目的（例えば、動作制御、入力ドライバ１１２からの入力の受信、及び、入力ドライバ１１２へのデータ提供）を果たす。同様に、何れの出力ドライバ１１４も、ハードウェア、ハードウェアとソフトウェアとの組み合わせ、又は、ソフトウェアとして具現化され、出力デバイスを制御する目的（例えば、動作制御、出力ドライバ１１４からの入力の受信、及び、出力ドライバ１１４へのデータ提供）を果たす。デバイス１００は、図１に示されていない追加の構成要素を含むことができることを理解されたい。

様々な代替案において、プロセッサ１０２は、中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）、同じダイ上に配置されたＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵであってもよい。様々な代替案において、メモリ１０４は、プロセッサ１０２と同じダイ上に配置されるか、プロセッサ１０２とは別に配置される。メモリ１０４は、揮発性又は不揮発性のメモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

ストレージ１０６は、固定式又は着脱可能なストレージ（例えば、限定されないが、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、限定されないが、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、バイオメトリックススキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。出力デバイス１１０は、限定されないが、ディスプレイ、スピーカー、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信用の無線ローカルエリアネットワークカード）を含む。

入力ドライバ１１２及び出力ドライバ１１４は、それぞれ入力デバイス１０８及び出力デバイス１１０とインターフェースして駆動するように構成された１つ以上のハードウェア、ソフトウェア、及び／又は、ファームウェアの構成要素を含む。入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。出力ドライバ１１４は、ディスプレイデバイス１１８に結合されたアクセラレーテッド処理デバイス（Accelerated Processing Device：ＡＰＤ）１１６を含み、ＡＰＤ１１６は、いくつかの例では、ディスプレイデバイス１１８（物理的なディスプレイデバイス、又は、出力を表示するためにリモートディスプレイプロトコルを使用するシミュレートされたデバイス）に結合されている。ＡＰＤ１１６は、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れ、計算コマンド及びグラフィックスレンダリングコマンドを処理し、ピクセル出力を表示のためにディスプレイデバイス１１８に提供するように構成されている。以下にさらに詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（Single-Instruction Multiple-Data：ＳＩＭＤ）パラダイムに従って計算を実行するように構成された１つ以上の並列処理ユニットを含む。従って、本明細書では、様々な機能が、ＡＰＤ１１６によって又はＡＰＤ１１６と組み合わせて実行されるものとして説明されているが、様々な代替案において、ＡＰＤ１１６によって実行されるものとして説明されている機能は、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されず、ディスプレイデバイス１１８にグラフィック出力を提供するように構成されている同様の機能を有する他のコンピューティングデバイスによって追加的又は代替的に実行される。例えば、ＳＩＭＤパラダイムに従って処理タスクを実行する任意の処理システムは、本明細書で説明する機能を実行するように構成され得ることが企図される。あるいは、ＳＩＭＤパラダイムに従って処理タスクを実行しないコンピューティングシステムが、本明細書で説明する機能を実行することが企図される。

図２は、一例による、デバイス１００とＡＰＤ１１６の詳細を示す図である。プロセッサ１０２（図１）は、オペレーティングシステム１２０、ドライバ１２２及びアプリケーション１２６を実行し、他のソフトウェアを代替的又は追加的に実行することもできる。オペレーティングシステム１２０は、ハードウェアリソースの管理、サービス要求の処理、プロセス実行のスケジューリング及び制御、並びに、他の操作の実行等のように、デバイス１００の様々な態様を制御する。ＡＰＤドライバ１２２は、ＡＰＤ１１６の動作を制御して、グラフィックスレンダリングタスク又は他の作業等のタスクを、処理のためにＡＰＤ１１６に送信する。また、ＡＰＤドライバ１２２は、ＡＰＤ１１６の処理コンポーネント（以下にさらに詳細に説明するＳＩＭＤユニット１３８等）によって実行されるプログラムをコンパイルするジャストインタイムコンパイラを含む。

ＡＰＤ１１６は、並列処理に適し得るグラフィックス操作及び非グラフィックス操作等の選択された機能のコマンド及びプログラムを実行する。ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ピクセル演算、幾何学的計算、及び、ディスプレイデバイス１１８への画像のレンダリング等のグラフィックスパイプライン操作を実行するために使用することができる。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオ、物理シミュレーション、計算流体力学、又は、他のタスクに関連する操作等のように、グラフィックス操作に直接関係しない計算処理操作を実行する。いくつかの例では、これらの計算処理操作は、ＳＩＭＤユニット１３８上で計算シェーダを実行することによって実行される。

ＡＰＤ１１６は、計算ユニット１３２を含み、これらは、プロセッサ１０２（又は、別のユニット）の要求に応じてＳＩＭＤパラダイムに従って並列に操作を実行するように構成された１つ以上のＳＩＭＤユニット１３８を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、これにより同じプログラムを実行するが、異なるデータでそのプログラムを実行することができるというパラダイムである。一例では、各ＳＩＭＤユニット１３８は、１６レーンを含み、各レーンは、ＳＩＭＤユニット１３８内の他のレーンと同時に同じ命令を実行するが、異なるデータでその命令を実行することができる。全てのレーンが所定の命令を実行する必要がない場合には、予測によってレーンをオフにすることができる。予測は、分岐制御フローを有するプログラムを実行するために使用することもできる。より具体的には、制御フローが個々のレーンで実行される計算に基づいている条件分岐等の命令を有するプログラムの場合、現在実行されていない制御フローパスに対応するレーンを予測し、異なる制御フローパスを連続実行することで、任意の制御フローを可能にする。

計算ユニット１３２における実行の基本単位は、ワークアイテムである。各ワークアイテムは、特定のレーンで並列実行されるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤ処理ユニット１３８上で「ウェーブフロント（wavefront）」として同時に（又は、部分的に同時に、部分的に連続して）実行され得る。１つ以上のウェーブフロントが「ワークグループ」に含まれ、ワークグループは、同じプログラムを実行するように指定されたワークアイテムの集合を含む。ワークグループは、ワークグループを構成する各ウェーブフロントを実行することによって実行され得る。別の方法では、ウェーブフロントは、単一のＳＩＭＤユニット１３８上で実行されるか、様々なＳＩＭＤユニット１３８上で実行される。ウェーブフロントは、単一のＳＩＭＤユニット１３８で同時に（又は、疑似的に同時に）実行することができるワークアイテムの最大の集合と考えることができる。「疑似的に同時」な実行は、ＳＩＭＤユニット１３８のレーン数よりも大きいウェーブフロントの場合に発生する。このような状況では、ウェーブフロントが複数のサイクルで実行され、ワークアイテムの様々な集合が様々なサイクルで実行される。ＡＰＤスケジューラ１３６は、計算ユニット１３２及びＳＩＭＤユニット１３８上で様々なワークグループ及びウェーブフロントをスケジューリングすることに関連する動作を実行するように構成されている。

計算ユニット１３２によってもたらされる並列性は、ピクセル値計算、頂点変換、及び、他のグラフィックス操作等のグラフィックス関連操作に適している。従って、場合によっては、プロセッサ１０２からグラフィックス処理コマンドを受け入れるグラフィックスパイプライン１３４は、並列実行のために計算ユニット１３２に計算タスクを提供する。

また、計算ユニット１３２は、グラフィックスに関連しない、又は、グラフィックスパイプライン１３４の「通常の」操作の一部として実行されない計算タスク（例えば、グラフィックスパイプライン１３４の操作のために実行される処理を補完するために実行されるカスタム操作）を実行するために使用される。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、そのような計算タスクを定義するプログラムをＡＰＤ１１６に送信して実行させる。

図３は、図２に示すグラフィックス処理パイプライン１３４の追加の詳細を示すブロック図である。グラフィックス処理パイプライン１３４は、各々がグラフィックス処理パイプライン１３４の特定の機能を実行するステージを含む。各ステージは、プログラム可能な計算ユニット１３２で実行されるシェーダプログラムとして部分的若しくは完全に実装されるか、又は、計算ユニット１３２の外部の固定機能の非プログラム可能ハードウェアとして部分的若しくは完全に実装される。

入力アセンブラステージ３０２は、ユーザが充填したバッファ（例えば、アプリケーション１２６等のように、プロセッサ１０２によって実行されるソフトウェアの要求で充填されたバッファ）からプリミティブデータを読み取り、パイプラインの残りの部分が使用するためにデータをプリミティブにアセンブルする。入力アセンブラステージ３０２は、ユーザが充填したバッファに含まれるプリミティブデータに基づいて、異なるタイプのプリミティブを生成することができる。入力アセンブラステージ３０２は、パイプラインの残りの部分で使用するために、アセンブルされたプリミティブをフォーマットする。

頂点シェーダステージ３０４は、入力アセンブラステージ３０２によってアセンブルされたプリミティブの頂点を処理する。頂点シェーダステージ３０４は、変換、スキニング、モーフィング、頂点毎のライティング等のように、頂点毎の様々な操作を実行する。変換操作は、頂点の座標を変換するための様々な操作を含む。これらの操作は、頂点座標を変更するモデリング変換、ビュー変換、投影変換、パースペクティブ分割（perspective division）及びビューポート変換のうち１つ以上を含み、非座標属性を変更する他の操作も含む。

頂点シェーダステージ３０４は、１つ以上の計算ユニット１３２で実行される頂点シェーダプログラムとして部分的又は完全に実装される。頂点シェーダプログラムは、プロセッサ１０２によって提供され、コンピュータプログラマによって事前生成されたプログラムに基づいている。ドライバ１２２は、このようなコンピュータプログラムをコンパイルして、計算ユニット１３２での実行に適したフォーマットを有する頂点シェーダプログラムを生成する。

ハルシェーダステージ３０６、テッセレータステージ３０８及びドメインシェーダステージ３１０は、連携してテッセレーションを実行し、テッセレーションは、プリミティブを細分化することにより、単純なプリミティブをより複雑なプリミティブに変換する。ハルシェーダステージ３０６は、入力プリミティブに基づいてテッセレーションのためのパッチを生成する。テッセレータステージ３０８は、パッチ用のサンプルのセットを生成する。ドメインシェーダステージ３１０は、パッチのサンプルに対応する頂点のための頂点位置を計算する。ハルシェーダステージ３０６及びドメインシェーダステージ３１０は、頂点シェーダステージ３０４と同様に、ドライバ１２２によってコンパイルされた、計算ユニット１３２上で実行されるシェーダプログラムとして実装することができる。

ジオメトリシェーダステージ３１２は、プリミティブ毎に頂点操作を実行する。ジオメトリシェーダステージ３１２は、ポイントスプライト拡張（point sprite expansion）、動的パーティクルシステム操作（dynamic particle system operations）、ファーフィン生成（fur-fin generation）、シャドウボリューム生成、キューブマップへのシングルパスレンダリング（single pass render-to-cubemap）、プリミティブ毎のマテリアルスワッピング、プリミティブ毎のマテリアル設定等の操作を含む、様々な異なるタイプの操作を実行することができる。場合によっては、ドライバ１２２によってコンパイルされ、計算ユニット１３２上で実行されるジオメトリシェーダプログラムが、ジオメトリシェーダステージ３１２の操作を実行する。

ラスタライザステージ３１４は、ラスタライザステージ３１４の上流で生成された単純なプリミティブ（三角形）を受け入れてラスタライズする。ラスタライズは、何れのスクリーンピクセル（又は、サブピクセル）が特定のプリミティブによってカバーされるかを決定することを含む。ラスタライズは、固定機能ハードウェアによって実行される。

ピクセルシェーダステージ３１６は、上流で生成されたプリミティブ及びラスタライズの結果に基づいて、スクリーンピクセルの出力値を計算する。ピクセルシェーダステージ３１６は、テクスチャメモリからテクスチャを適用することができる。ピクセルシェーダステージ３１６の操作は、ドライバ１２２によってコンパイルされ、計算ユニット１３２上で実行されるピクセルシェーダプログラムによって実行される。

出力マージャステージ３１８は、ピクセルシェーダステージ３１６からの出力を受け入れ、これらの出力をフレームバッファにマージし、ｚ検定及びアルファブレンディング等の操作を実行して、スクリーンピクセルの最終的な色を決定する。

グラフィックス処理パイプライン１３４を含みグラフィックスレンダリングを実行することができるＡＰＤ１１６の実装が開示されている。しかしながら、本開示の教示は、グラフィックス処理パイプライン１３４を含まないか、このようなパイプラインを利用してグラフィックスレンダリングを実行しないＡＰＤ１１６の実装に及ぶ。

図４は、ＡＰＤ１１６のブロック図を表しており、一例によるキャッシュ／機械学習アクセラレータチップレット４０４の詳細を示している。ＡＰＤ１１６は、図２に関して説明したＡＰＤスケジューラ１３６及び計算ユニット１３２を含む。また、ＡＰＤ１１６は、ＡＰＤからキャッシュへのインターフェース４０６を介してＡＰＤコア４０２に結合され、外部インターフェース４１０を介して他のメモリ（例えば、システムメモリ１０４又はＡＰＤ１１６のメモリ）に結合される１つ以上のキャッシュ及び機械学習アクセラレータチップレット４０４を含む。いくつかの実施形態では、１つ以上のチップレット４０４は、１つ以上のチップレット内インターフェース４０８を介して１つ以上の他のチップレット４０４に接続されている。

キャッシュ／機械学習アクセラレータチップレット４０４は、データを記憶するように構成されたメモリモジュールと、機械学習アクセラレータと、を含む。いくつかの実施形態では、機械学習アクセラレータは、入力行列に対して行列乗算を実行して出力結果を提供するように構成された行列乗算回路を含む。

いくつかの実施形態では、キャッシュ／機械学習アクセラレータチップレット４０４は、ＡＰＤコア４０２とは別の物理的ダイである。いくつかの実施形態では、キャッシュ／機械学習アクセラレータチップレット４０４は、ＡＰＤコア４０２に使用される製造プロセスよりも大規模な製造プロセスで製造される。製造プロセスとは、デバイス機能が製造される規模を指す。製造プロセスは、当該技術分野において「プロセスノード」と呼ばれることがある。いくつかの例示的な製造プロセスは、１０ナノメートル（ｎｍ）プロセス及び７ｎｍプロセスを含む。ＡＰＤコア４０２と比較してチップレット４０４に対してより大きな製造プロセス規模を使用することにより、ＡＰＤコア４０２の高性能を依然として提供しながら、ＡＰＤコア４０２と比較して、チップレット４０４をより低コスト及びより高い歩留まりで製造することができる。

キャッシュ／機械学習アクセラレータチップレット４０４のメモリモジュールは、ＡＰＤコア４０２の操作のためのキャッシュメモリとして使用されることと、機械学習アクセラレータの操作のための入力オペランド及び出力結果を記憶するメモリとして使用されることと、の間で切り替え可能である。より具体的には、キャッシュ／機械学習アクセラレータチップレット４０４は、ＡＰＤコア４０２のキャッシュメモリとして動作することと、例えば、キャッシュ／機械学習アクセラレータチップレットの機械学習アクセラレータ４０４によってアクセス可能な直接アクセス可能なメモリ（directly accessible memory）として動作することと、の間で構成可能である。いくつかの実施形態では、ＡＰＤスケジューラ１３６及び計算ユニット１３２のうち何れか又は両方は、キャッシュ／機械学習アクセラレータチップレット４０４の任意の部分に、キャッシュとして又は直接アクセス可能なメモリとして動作するように指示することができる。

いくつかの実施形態では、ＡＰＤコア４０２は、キャッシュ階層の少なくとも一部を形成する１つ以上のキャッシュメモリを含む。また、メモリ階層は、キャッシュ／機械学習アクセラレータチップレット４０４のキャッシュメモリを含む。いくつかの例では、キャッシュ／機械学習アクセラレータチップレット４０４のキャッシュメモリは、ＡＰＤコア４０２のキャッシュ階層の一部に対してレベル３のキャッシュとして機能する。

いくつかの実施形態では、キャッシュ／機械学習アクセラレータチップレット４０４は、ＡＰＤコア４０２と、キャッシュ階層よりもメモリ階層の上位にあるメモリ（ＡＰＤ１１６専用のメモリ又はシステムメモリ１０４）と、の間の物理的インターフェースとしても機能する。言い換えれば、キャッシュ／機械学習アクセラレータチップレット４０４は、キャッシュ階層の或るレベルとして機能し、その階層の他のレベル（ＡＰＤコア４０２の下位レベルと、ＡＰＤ１１６又はシステムメモリ１０４内のメモリ等の上位レベルと、を含む）と物理的にインターフェースするメモリを含む。図４は、外部インターフェース４１０が「メモリに」接続されていることを示していることに留意されたい。様々な例において、言及される「メモリ」は、ＡＰＤ１１６又はシステムメモリ１０４の汎用（例えば、非キャッシュ）メモリである。従って、キャッシュ／機械学習アクセラレータチップレット４０４は、ＡＰＤコア４０２内のキャッシュ階層の部分とメモリとの間の物理的インターフェースとして機能する。

図５は、一例による、キャッシュ／機械学習アクセラレータチップレット４０４の詳細を示す図である。図示するように、キャッシュ／機械学習アクセラレータチップレット４０４は、複数の機械学習アクセラレータ５０２と、チップレットメモリ５０４と、を含む。いくつかの実施形態では、機械学習アクセラレータ５０２は、行列乗算演算を実行するように構成されたハードウェア回路である。

行列乗算演算は、完全接続層（fully connected layers）や畳み込み層のための層入力から層出力を生成する操作を実行する等のように、機械学習操作で一般的に使用されている。様々な例において、ＡＰＤスケジューラ１３６又は計算ユニット１３２の何れか又は両方は、キャッシュ／機械学習アクセラレータチップレット４０４の何れかにコマンドを送信し、データをチップレットメモリ５０４にフェッチし、結果を出力するために、フェッチされたデータに対して、機械学習アクセラレータ５０２を介して行列乗算演算を実行することが可能である。様々な例では、キャッシュ／機械学習アクセラレータチップレット４０４は、行列乗算の結果をチップレットメモリ５０４に記憶する。様々な例では、キャッシュ／機械学習アクセラレータチップレット４０４は、この結果をＡＰＤコア４０２等の外部エンティティ、ＡＰＤ１１６のメモリ又はメモリ１０４に送信する。

いくつかの例では、ニューラルネットワークは、相互接続された一連の層として実装される。各層は、異なる層又はニューラルネットワークへの入力から、１つ以上の入力を受け取る。異なる層の計算は、デバイス１００の異なるエンティティによって実行されることが可能である。一例では、キャッシュ／機械学習アクセラレータチップレット４０４は、行列乗算又は畳み込み演算を実行し、ＡＰＤコア４０２（例えば、計算ユニット１３２）は、アクティブ化、バッチ正規化又は他の演算等のように、ニューラルネットワークを実装するための他の計算を実行する。いくつかの例では、ＡＰＤスケジューラ１３６又はプロセッサ１０２等のコーディネータは、ニューラルネットワークでトレーニング又は推論を実行するための様々な操作を実行するように、これらの異なるエンティティに命令する。例えば、コーディネータは、キャッシュ／機械学習アクセラレータチップレット４０４に対して、行列乗算を必要とする層の入力データに対して行列乗算演算を実行するように指示し、計算ユニット１３２に対して、このような他の操作を利用する層のニューラルネットワークに対して他の操作を実行するように指示する。

ＡＰＤスケジューラ１３６は、異なる計算ユニット１３２及びキャッシュ／機械学習アクセラレータチップレット４０４上で同時に実行するための多くの異なるタスクをスケジュールすることができる。一例では、ＡＰＤスケジューラ１３６は、計算ユニット１３２で実行するためにシェーダプログラムをスケジュールすることができ、その一方で、キャッシュ／機械学習アクセラレータチップレット４０４で実行するための操作をスケジュールすることができる。図５に示すように、チップレットメモリ５０４は、キャッシュ５０６として構成されたメモリと直接アクセス可能なメモリ５０８との間で構成可能である。より具体的には、プロセッサ１０２、ＡＰＤスケジューラ１３６又は計算ユニット１３２等のエンティティは、特定のキャッシュ／機械学習アクセラレータチップレット４０４のチップレットメモリ５０４の特定の部分が、キャッシュ５０６として、又は、直接アクセス可能なメモリ５０８として構成されるように要求する。これに応じて、キャッシュ／機械学習アクセラレータチップレット４０４は、要求された部分をキャッシュ５０６又は直接アクセス可能なメモリ５０８として構成し、残りの部分をキャッシュ５０６又は直接アクセス可能なメモリ５０８のうち他方として構成する。

キャッシュ５０６として構成されたメモリは、一般的なキャッシュメモリとして機能する。具体的には、キャッシュ５０６は、ＡＰＤコア４０２のキャッシュよりもキャッシュ階層においてより上位のレベルとして機能する。一例では、キャッシュ５０６として構成されたメモリは、レベル３のキャッシュメモリとして機能し、ＡＰＤコア４０２は、１つ以上のレベル０のキャッシュ、１つ以上のレベル１のキャッシュ、及び、１つ以上のレベル２のキャッシュを含む。このような例では、レベル３のキャッシュメモリは、レベル２のキャッシュからのミスを処理し、１つ以上のレベル２のキャッシュからエビクトされたキャッシュラインを受信して記憶し、ＡＰＤ１１６内のメモリ又はシステムメモリ１０４等のバッキングメモリにキャッシュラインをエビクトする。いくつかの例では、キャッシュメモリは、ＡＰＤ１１６の計算ユニット１３２内で実行されるシェーダプログラムのためのキャッシュとして機能する。キャッシュ５０６として構成されたメモリは、機械学習アクセラレータ５０２又は計算ユニット１３２等の実行ユニットが、このようなキャッシュ５０６に配置されるデータを具体的に要求することができないという意味で、「直接アクセス可能」ではないことに留意されたい。例えば、通常のメモリでは、実行ユニットは、その通常のメモリ内のアドレスにデータを配置するように要求することができる。しかしながら、キャッシュでは、データは、キャッシュにおけるミス等のアクションに応じて、キャッシュコントローラによってキャッシュ内に配置され、実行ユニットは、キャッシュに記憶されているデータを間接的に制御するだけである。

対照的に、直接アクセス可能なメモリ５０８は、実行ユニットによって直接アクセス可能である。「直接アクセス可能」という用語は、ＡＰＤスケジューラ１３６、計算ユニット１３２又は機械学習アクセラレータ５０２等の実行ユニットが、直接アクセス可能なメモリ５０８に記憶されるか、そこからロードされるデータを明示的に要求することができることを意味する。いくつかの実施形態では、これらの要求は、データを記憶するかデータを読み取る特定のキャッシュ／機械学習アクセラレータチップレット４０４を指定し、同様に、そのキャッシュ／機械学習アクセラレータチップレット４０４内のアドレスを指定する。他の箇所で説明しているように、機械学習アクセラレータ５０２は、同じチップレット４０４の直接アクセス可能なメモリ５０８内のデータを消費し、操作の結果を同じチップレット４０４の直接アクセス可能なメモリ５０８に出力する行列乗算等の機械学習操作を実行することができ、時にはそれを実行する。

いくつかの実施形態では、チップレット４０４は、チップレット間接続４０８を含む。本明細書の他の箇所で説明するように、チップレット４０４は、他のソースからデータを取得し、他の場所にデータを書き込む。一例では、チップレット４０４は、異なるチップレット４０４によって消費される出力を生成するための操作を実行する。チップレット間接続４０８を含む実施形態では、チップレット４０４は、他のチップレット４０４との間でこのようなデータを直接的に送信又は受信することができる。

本明細書の他の箇所で説明するように、チップレット４０４及びＡＰＤコア４０２の操作は、機械学習ネットワークのトレーニング又は推論のために実行される。いくつかの例では、グラフコンパイラ（図示省略）は、ネットワークの層、各層の操作、各層の入力、及び、各層の出力を示す機械学習ネットワークのグラフ記述をコンパイルする。任意の層の入力は、異なる層の出力又はネットワークへの入力であってもよく、任意の層の出力は、異なる層の入力又はネットワークの出力であってもよい。グラフコンパイラは、チップレット４０４の機械学習アクセラレータ５０２によって実行される操作のセットを生成し、いくつかの実施形態では、ＡＰＤスケジューラ１３６によって実行される操作のセットを生成し、いくつかの実施形態では、計算ユニット１３２によって実行されるシェーダプログラムのセットを生成する。いくつかの実施形態では、１つ以上のシェーダプログラムは、１つ以上の層の操作を実行するための命令を含む。いくつかの実施形態では、いくつかのこのようなシェーダプログラムは、機械学習アクセラレータ５０２が、このような層に必要な行列乗算演算を実行することを要求する命令を含み、オプションで、層への入力のために直接アクセス可能なメモリ５０８として構成されたチップレットメモリ５０４にデータを送信する命令を含む。いくつかの実施形態では、いくつかのこのようなシェーダプログラムは、直接アクセス可能なメモリ５０８から、異なるチップレット４０４の直接アクセス可能なメモリ５０８又はＡＰＤコア４０２内のメモリ等の異なるメモリにデータを移動させる命令を含む。いくつかの実施形態では、ＡＰＤスケジューラ１３６は、計算ユニット１３２の代わりに又はそれに加えて、チップレット４０４に対して機械学習アクセラレータ操作を実行するように要求するための操作、及び／又は、チップレット４０４からデータを読み取り又はチップレット４０４に書き込みする操作を実行する。

いくつかの実施形態では、チップレット４０４は、直接アクセス可能なメモリ５０８内にデータを読み取るように構成され、及び／又は、直接アクセス可能なメモリ５０８から別のメモリにデータを記憶するように構成されたダイレクトメモリアクセスエンジンを含む。様々な代替の実施形態では、計算ユニット１３２又はＡＰＤスケジューラ１３６は、データを読み取り及び／又はデータを書き込むようにダイレクトメモリアクセスエンジンに命令する。

上述したように、チップレットメモリ５０４は、キャッシュ５０６と、直接アクセス可能なメモリ５０８と、の間で構成可能である。チップレットメモリ５０４は、第１の部分がキャッシュメモリ５０６であるように構成され、その後に、第１の部分の少なくとも一部分が直接アクセス可能なメモリ５０８であるように構成されてもよいことを理解されたい。言い換えると、一度キャッシュメモリ５０６として使用されたチップレットメモリ４０４は、直接アクセス可能なメモリ５０８として再利用することができる。同様に、一度直接アクセス可能なメモリ５０８として使用されたチップレットメモリ４０４は、キャッシュメモリ５０６として再利用することができる。キャッシュとして構成された同じチップレット４０４の異なる部分と、直接アクセス可能として構成された同じチップレット４０４の異なる部分と、が同時に使用され得ることも理解されたい。例えば、１つのチップレット４０４上で、ＡＰＤ１１６のキャッシュ操作を実行すると同時に、行列乗算等の機械学習操作を実行することが可能である。

図６は、一例による、チップレット４０４を用いて機械学習操作を実行するための方法６００のフロー図である。図１～図５のシステムに関して説明するが、当業者は、任意の技術的に実行可能な順序で方法６００のステップを実行するように構成された任意のシステムも、本開示の範囲内にあることを理解するであろう。

方法６００は、ステップ６０２で始まり、チップレット４０４は、チップレットメモリ５０４の第１の部分をキャッシュ５０６として構成する。様々な例において、この構成は、ＡＰＤスケジューラ１３６又は計算ユニット１３２の要求で生じる。

ステップ６０４では、ＡＰＤ１１６は、キャッシュ５０６として構成された第１の部分を使用してキャッシュ操作を実行する。キャッシュ操作は、ＡＰＤコア４０２内のキャッシュからエビクトされたキャッシュラインを記憶することと、ＡＰＤコア４０２への要求に応じてキャッシュラインを提供することと、を含む。

ステップ６０６において、チップレット４０４は、チップレット４０４の第１の部分の少なくとも第１のサブ部分を、直接アクセス可能なメモリ５０８として構成する。様々な例において、この構成は、ＡＰＤスケジューラ１３６又は計算ユニット１３２の要求で生じる。ステップ６０８において、チップレット４０４は、直接アクセス可能として構成されたチップレット４０４の第１の部分の第１のサブ部分を用いて機械学習操作を実行する。様々な例において、機械学習操作を実行することは、機械学習ネットワークの層に対して行列乗算を実行して、その層の結果を取得することを含む。様々な例では、操作は、データを第１のサブ部分に記憶し、第１のサブ部分から別のチップレット４０４及びＡＰＤコア４０２等のチップレット４０４の外部のエンティティにデータを送信する操作を含む。

図に示す各ユニットは、本明細書で説明する操作を実行するように構成されたハードウェア回路を表し、グラフィックス処理パイプライン３００の特定のユニットはプログラム可能であり、従ってプログラムを実行することができる。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を伴わず単独で、又は、他の特徴及び要素の有無にかかわらず様々な組み合わせで使用することができる。

提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアで実施することができる。適切なプロセッサは、例として、汎用プロセッサ、特殊目的プロセッサ、従来のプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、任意の他のタイプの集積回路（ＩＣ）、及び／又は、状態機械を含む。このようなプロセッサは、ハードウェア記述言語（ＨＤＬ）命令及びネットリストを含む他の中間データ（コンピュータ可読媒体に記憶可能な命令）の処理結果を使用して製造プロセスを構成することによって、製造されてもよい。このような処理結果は、マスクワークであってもよく、マスクワークは、本開示の特徴を実装するプロセッサを製造する半導体製造プロセスにおいて使用される。

本明細書で提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム、ソフトウェア、ファームウェアに実装されてもよい。非一時的なコンピュータ可読記憶媒体の例は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及び着脱可能ディスク等の磁気媒体、磁気光学媒体、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（ＤＶＤ）等の光学媒体を含む。

Claims

第１のチップレットの第１の部分をキャッシュとして構成することと、
前記第１の部分を介してキャッシュ操作を実行することと、
前記第１のチップレットの前記第１の部分の少なくとも第１のサブ部分を直接アクセス可能なメモリとして構成することと、
前記第１のチップレット内の機械学習アクセラレータによって、前記第１のサブ部分で機械学習操作を実行することと、を含む、
方法。
前記キャッシュ操作を実行することは、前記第１のチップレットとは別のダイ上のプロセッシングコアに対してキャッシュ操作を実行することを含む、
請求項１の方法。
前記プロセッシングコアに対してキャッシュ操作を実行することは、前記プロセッシングコアのキャッシュからエビクトされたキャッシュラインを記憶することと、前記プロセッシングコアのキャッシュにおけるミスに応じて、前記プロセッシングコアにキャッシュラインを提供することと、のうち１つ以上を含む、
請求項２の方法。
前記第１の部分をキャッシュとして構成すること、又は、前記第１のサブ部分を直接アクセス可能なメモリとして構成することは、前記第１のチップレットとは別のダイ上のプロセッシングコアのスケジューラ又は計算ユニットからの要求に応じて実行される、
請求項１の方法。
前記チップレットとは別のプロセッサコアの要求に応じて、直接アクセス可能なメモリとして構成された前記第１のサブ部分にデータを記憶することをさらに含む、
請求項１の方法。
前記機械学習操作を実行することは、前記データを入力として消費する機械学習操作を実行することを含む、
請求項５の方法。
前記機械学習操作は、行列乗算演算を含む、
請求項１の方法。
前記第１の部分は、前記第１のチップレットの内部メモリの第１のメモリ量を含み、
前記方法は、前記第１の部分を介して前記キャッシュ操作を実行する間に、直接アクセス可能なメモリとして構成された前記メモリの第２の部分で機械学習操作を実行することをさらに含む、
請求項１の方法。
前記第１のチップレットに対して機械学習操作を実行するように要求するプロセッシングコアから物理的に分離している第２のチップレットにデータを送信すること、又は、前記第２のチップレットからデータを受信することをさらに含み、前記データは、前記プロセッシングコアを流れない、前記第１のチップレットと前記第２のチップレットとの間の直接接続を介して送信又は受信される、
請求項１の方法。
１つ以上の機械学習アクセラレータと、
チップレットメモリと、を備え、
前記チップレットメモリは、
前記チップレットメモリの第１の部分をキャッシュとして構成することと、
前記第１の部分を介してキャッシュ操作を実行することと、
前記チップレットメモリの前記第１の部分の少なくとも第１のサブ部分を直接アクセス可能なメモリとして構成することと、
前記１つ以上の機械学習アクセラレータのうち何れかの機械学習アクセラレータによって、前記第１のサブ部分で機械学習操作を実行することと、
を行うように構成されている、
デバイス。
前記キャッシュ操作を実行することは、前記チップレットメモリとは別のダイ上のプロセッシングコアに対してキャッシュ操作を実行することを含む、
請求項１０のデバイス。
前記プロセッシングコアに対してキャッシュ操作を実行することは、前記プロセッシングコアのキャッシュからエビクトされたキャッシュラインを記憶することと、前記プロセッシングコアのキャッシュにおけるミスに応じて、前記プロセッシングコアにキャッシュラインを提供することと、のうち１つ以上を含む、
請求項１１の方法。
前記第１の部分をキャッシュとして構成すること、又は、前記第１のサブ部分を直接アクセス可能なメモリとして構成することは、前記チップレットメモリとは別のダイ上のプロセッシングコアのスケジューラ又は計算ユニットからの要求に応じて実行される、
請求項１０のデバイス。
前記チップレットメモリは、前記チップレットとは別のプロセッサコアの要求に応じて、直接アクセス可能なメモリとして構成された前記第１のサブ部分にデータを記憶するようにさらに構成されている、
請求項１０のデバイス。
前記機械学習操作を実行することは、前記データを入力として消費する機械学習操作を実行することを含む、
請求項１４の方法。
前記機械学習操作は、行列乗算演算を含む、
請求項１０のデバイス。
前記第１の部分は、第１のチップレットの内部メモリの第１のメモリ量を含み、
前記１つ以上の機械学習アクセラレータは、前記第１の部分を介してキャッシュ操作が実行されている間に、直接アクセス可能なメモリとして構成された前記メモリの第２の部分で機械学習操作を実行するように構成されている、
請求項１０のデバイス。
前記チップレットメモリは、第１のチップレットに対して機械学習操作を実行するように要求するプロセッシングコアから物理的に分離している第２のチップレットにデータを送信すること、又は、前記第２のチップレットからデータを受信するようにさらに構成されており、前記データは、前記プロセッシングコアを流れない、前記第１のチップレットと前記第２のチップレットとの間の直接接続を介して送信又は受信される、
請求項１０のデバイス。
第１のチップレットメモリと、１つ以上の機械学習アクセラレータの第１のセットと、を含む第１のチップレットと、
第２のチップレットと、
プロセッシングコアと、を備え、
前記第１のチップレットは、
前記第１のチップレットメモリの第１の部分をキャッシュとして構成することと、
前記第１の部分を介してキャッシュ操作を実行することと、
前記第１のチップレットメモリの前記第１の部分の少なくとも第１のサブ部分を直接アクセス可能なメモリとして構成することと、
前記１つ以上の機械学習アクセラレータのうち何れかの機械学習アクセラレータによって、前記第１のサブ部分で機械学習操作を実行することと、
を行うように構成されている、
デバイス。
前記キャッシュ操作を実行することは、前記プロセッシングコアに対してキャッシュ操作を実行することを含む、
請求項１９のデバイス。