JP2022512311A

JP2022512311A - 行列数学命令セットのタイリングアルゴリズム

Info

Publication number: JP2022512311A
Application number: JP2021531339A
Authority: JP
Inventors: ジャンフア
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2018-12-19
Filing date: 2019-12-18
Publication date: 2022-02-03
Anticipated expiration: 2039-12-18
Also published as: US20200201931A1; WO2020131993A1; CN111338974A; KR20210082527A; EP3899716A1; KR102606207B1; US11687615B2; JP7427001B2

Abstract

行列数学命令セットのためのタイリングアルゴリズムを実装するためのシステム、装置及び方法が開示される。システムは、メモリと、キャッシュと、プロセッサと、複数の計算ユニットと、を少なくとも含む。メモリは、複数の行列要素を線形フォーマットで記憶し、プロセッサは、複数の行列要素を線形フォーマットからタイリングフォーマットに変換する。各計算ユニットは、メモリからキャッシに複数の行列要素を取り出す。各計算ユニットは、対応するタイル（複数可）の複数の行列要素をキャッシュからロードし、複数の行列要素に対して行列演算を実行して、結果をタイリングフォーマットで生成する行列演算ユニットを含む。システムは、行列演算の結果に基づいて第１のデータセットの分類を生成する。
【選択図】図１７

Description

並列処理ユニットで行列演算を実行すると、メモリから大量のデータがロードされ、メモリ帯域幅の利用率が高くなる。行列要素をロードするには、通常、線形フォーマットでメモリに記憶される行列データ要素をステップ実行するためのオフセットを計算することが必要になる。しかしながら、これは、正しい順序で行列の要素を移動して行列演算を実行するのに使用されるオフセットを計算するために、ロード命令毎に複雑な式が必要になる。本明細書で使用される場合、「線形フォーマット」という用語は、メモリの物理的な行又は列の最後に達するまで、連続する行列要素が、隣接する記憶位置に順次記憶されるフォーマットして定義される。行列要素を記憶するための線形フォーマットの例は、行優先順位及び列優先順位を含む。行優先順位では、行列の行の連続する要素は、メモリ内で互いに隣接して存在する。列優先順位では、行列の列の連続する要素は、メモリ内で互いに隣接して存在する。行列要素を線形フォーマットで処理すると、メモリ帯域幅及び行列演算ユニットの使用効率が悪くなる。

添付の図面と併せて以下の説明を参照することによって、本明細書に記載される方法及びメカニズムの利点をより良く理解することができる。

コンピューティングシステムの一の実施形態のブロック図である。コンピューティングシステムの別の実施形態のブロック図である。行列演算ユニットの一実施形態のブロック図である。ＳＩＭＤユニットによって演算されるソースＡ行列のデータレイアウトの一実施形態を示す図である。ＳＩＭＤユニットによって演算されるソースＢ行列のデータレイアウトの一実施形態を示す図である。タイリングブロックのタイリングレイアウトの一実施形態を示す図である。ソースＡ行列内の３２×３２ブロックのフォーマットの一実施形態を示す図である。ソースＡ行列内の１２８×１２８ブロックのフォーマットの一実施形態を示す図である。１２８×１２８ブロックで構成された画像のフォーマットの一実施形態を示す図である。ソースＢ行列の一実施形態を示す図である。ソースＢ行列内の３２×３２ブロックのフォーマットの一実施形態を示す図である。ソースＢ行列内の１２８×１２８ブロックのフォーマットの一実施形態を示す図である。１２８×１２８ブロックで構成された画像のフォーマットの一実施形態を示す図である。結果Ｃ行列の一実施形態を示す図である。一実施形態による、ソースＡ行列を線形フォーマットからタイリングフォーマットに変換するための擬似コードの例を示す図である。一実施形態による、ソースＢ行列を線形フォーマットからタイリングフォーマットに変換するための擬似コードの例を示す図である。行列演算を実行するために行列データを線形フォーマットからタイリングフォーマットに変換するための方法の一実施形態を示す一般化されたフロー図である。

以下の説明では、本明細書に提示される方法及びメカニズムの十分な理解を提供するために、多くの具体的な詳細が記載されている。しかしながら、当業者は、様々な実施形態がこれらの具体的な詳細無しに実施され得ることを認識すべきである。いくつかの例では、本明細書で説明するアプローチを不明瞭にすることを回避するために、周知の構造、コンポーネント、信号、コンピュータプログラム命令及び技術が詳細に示されていない。説明を簡単且つ明確にするために、図に示す要素が必ずしも縮尺通りに描かれていないことが理解されるであろう。例えば、いくつかの要素の寸法は、他の要素に対して誇張されている場合がある。

行列演算を実行するために、行列データを線形フォーマットからタイリングフォーマット（tiling format）に変換するための様々なシステム、装置及び方法が本明細書に開示されている。システムは、メモリと、キャッシュと、プロセッサと、複数の計算ユニットと、を少なくとも含む。メモリは、複数の行列要素を線形フォーマットで記憶し、プロセッサは、複数の行列要素を線形フォーマットからタイリングフォーマットに変換する。一実施形態では、「タイルフォーマット」又は「タイリングフォーマット」という用語は、所定の行列演算を実行するための行列要素が隣接する記憶位置に記憶されるように、行列要素を記憶位置に記憶するためのフォーマットとして定義される。一実装形態では、所定の行列演算は、行列乗算演算である。別の実施形態では、「タイリングフォーマット」という用語は、タイルの列を構成する行列要素が隣接する記憶位置に記憶されるフォーマットとして定義される。「タイル」という用語は、Ｎ×Ｍブロックの要素として定義され、Ｎ及びＭは正の整数であり、Ｎ又はＭの少なくとも１つは１よりも大きい。また、「タイル」は、本明細書では「ブロック」と呼ばれる場合もある。一実施形態では、第１のソース行列のタイルの列の数「Ｍ」は、行列演算ユニットのレーンの数に等しい。一実装形態では、行列乗算演算の場合、第１のソース行列がＮ×Ｍ個の要素のタイルに分割され、一方、第２のソース行列が、Ｍ×Ｎ個の要素のタイルに分割される。

タイリングフォーマットによって、行列データは、オフセット計算を実行することなくデータを連続してロードすることができる特定のレイアウトで配列される結果となる。各計算ユニットは、１つ以上のタイルの行列要素の行及び／又は列をメモリからキャッシュに取り出す。各計算ユニットは、対応するタイル（複数可）の複数の行列要素をキャッシュから取り出し、複数の行列要素に対して行列演算を実行して、結果をタイリングフォーマットで生成する行列演算ユニットを含む。一実施形態では、システムは、機械学習エンジンの一部として複数の計算ユニットで複数の行列演算を実行して、第１のデータセットの分類を生成する。例えば、一実施形態では、システムは、ニューラルネットワークを実施して画像を１つ以上のカテゴリに分類しながら、複数の行列演算を実行する。ニューラルネットワークは、畳み込みニューラルネットワーク、再帰型（recurrent）ニューラルネットワーク又は他のタイプであってもよい。手書き数字分類や顔検出等の様々なタスクをニューラルネットワークで実行することができる。さらに、ニューラルネットワークは、他のより困難な視覚的分類タスクを実行することもできる。ニューラルネットワークの他の用途は、音声認識、言語モデルリング、感情分析、テキスト予測等を含む。他の実施形態では、システムは、他のタイプのソフトウェアアプリケーションの一部として、複数の計算ユニットで複数の行列演算を実行する。

様々な実施形態では、キャッシュはＰ個のチャネルを有し、Ｐは１よりも大きい正の整数である。一実施形態では、Ｐは３２に等しい。他の実施形態では、Ｐは他の数に等しい。要求は、物理アドレスビットの一部に基づいてキャッシュの異なるチャネルにマッピングされる。例えば、一実施形態では、各チャネルは、物理アドレスのビット１２～８でマッピングされる。他の実施形態では、チャネルマッピングは、物理アドレスの他のビットに基づく。一実施形態では、行列要素をタイリングフォーマットで記憶すると、キャッシュヒット効率が向上する。典型的な用途では、各計算ユニットは異なる行列タイルを処理するが、タイルは同じキャッシュチャネルにマッピングすることができる。これは、異なる計算ユニットが同じキャッシュチャネルを介してデータを要求することになるため、キャッシュ効率に影響を与える可能性がある。したがって、計算ユニットは、データがキャッシュから返されるのを待機し、キャッシュは、同じチャネルで要求を１つずつ処理する。しかしながら、行列要素がタイリングフォーマットで記憶される場合、異なる計算ユニットが異なるチャネルにマッピングされる。計算ユニットが同じカーネルを並行して実行している場合、要求が異なるチャネル上のキャッシュに送信されるので、キャッシュアクセス効率を向上させるのに役立つ。

図１を参照すると、コンピューティングシステム１００の一実施形態のブロック図が示されている。一実施形態では、コンピューティングシステム１００は、プロセッサ１０５Ａ～１０５Ｎと、入力／出力（Ｉ／Ｏ）インタフェース１２０と、バス１２５と、メモリコントローラ（複数可）１３０と、ネットワークインタフェース１３５と、メモリデバイス（複数可）１４０と、ディスプレイコントローラ１５０と、ディスプレイ１５５と、を少なくとも含む。他の実施形態では、コンピューティングシステム１００は、他のコンポーネントを含み、及び／又は、異なるように構成されている。プロセッサ１０５Ａ～１０５Ｎは、システム１００に含まれる任意の数のプロセッサを表す。

一実施形態では、プロセッサ１０５Ａは、中央処理装置（ＣＰＵ）等の汎用プロセッサである。一実施形態では、プロセッサ１０５Ｎは、高度に並列なアーキテクチャを有するデータ並列プロセッサである。データ並列プロセッサは、グラフィックスプロセッシングユニット（ＧＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等を含む。いくつかの実施形態では、プロセッサ１０５Ａ～１０５Ｎは、複数のデータ並列プロセッサを含む。一実施形態では、プロセッサ１０５Ｎは、ディスプレイ１５５に送られるピクセルをディスプレイコントローラ１５０に提供するＧＰＵである。

メモリコントローラ（複数可）１３０は、プロセッサ１０５Ａ～１０５Ｎによってアクセス可能な任意の数及びタイプのメモリコントローラを表す。メモリコントローラ（複数可）１３０は、任意の数及びタイプのメモリデバイス（複数可）１４０に結合されている。メモリデバイス（複数可）１４０は、任意の数及びタイプのメモリデバイスを表す。例えば、メモリデバイス（複数可）１４０内のメモリのタイプとしては、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体ランダムアクセスメモリ（ＦｅＲＡＭ）等が挙げられる。

Ｉ／Ｏインタフェース１２０は、任意の数及びタイプのＩ／Ｏインタフェース（例えば、ＰＣＩ（Peripheral Component Interconnect）バス、ＰＣＩ－Ｘ（PCI-Extended）、ＰＣＩＥ（PCI Express）バス、ギガビットイーサネット（登録商標）（ＧＢＥ）バス、ユニバーサルシリアルバス（ＵＳＢ））を表す。様々なタイプの周辺装置（図示省略）がＩ／Ｏインタフェース１２０に結合されている。このような周辺装置は、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック又は他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶装置、ネットワークインタフェースカード等を含むが、これらに限定されない。ネットワークインタフェース１３５は、ネットワークを介してネットワークメッセージを送受信するために使用される。

様々な実施形態では、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、ゲームコンソール、サーバ、ストリーミングデバイス、ウェアラブルデバイス、又は、様々な他のタイプのコンピューティングシステム若しくはコンピューティングデバイスである。コンピューティングシステム１００のコンポーネントの数は、実施形態によって異なることに留意されたい。例えば、他の実施形態では、図１に示す数よりも多い又は少ないコンポーネントが存在する。他の実施形態では、コンピューティングシステム１００は、図１に示されていない他のコンポーネントを含むことにも留意されたい。さらに、他の実施形態では、コンピューティングシステム１００は、図１に示す以外の方法で構成される。

図２を参照すると、コンピューティングシステム２００の別の実施形態のブロック図が示されている。一実施形態では、システム２００は、ＧＰＵ２０５と、システムメモリ２２５と、ローカルメモリ２３０と、を含む。また、システム２００は、図を不明瞭にすることを回避するために図示されていない他のコンポーネントを含む。ＧＰＵ２０５は、コマンドプロセッサ２３５と、制御ロジック２４０と、ディスパッチユニット２５０と、計算ユニット２５５Ａ～２５５Ｎと、メモリコントローラ２２０と、グローバルデータシェア２７０と、レベル１（Ｌ１）キャッシュ２６５と、レベル２（Ｌ２）キャッシュ２６０と、を少なくとも含む。他の実施形態では、ＧＰＵ２０５は、他のコンポーネントを含み、図示されているコンポーネントのうち１つ以上を省略し、例えば１つのインスタンスしか図２に示されていなくてもコンポーネントの複数のインスタンスを有し、及び／又は、他の適切な方法で構成される。一実施形態では、ＧＰＵ２０５の回路は、（図１の）プロセッサ１０５Ｎに含まれる。

様々な実施形態では、コンピューティングシステム２００は、様々なタイプのソフトウェアアプリケーションの何れかを実行する。所定のソフトウェアアプリケーションの実行の一部として、コンピューティングシステム２００のホストＣＰＵ（図示省略）は、ＧＰＵ２０５で実行されるカーネルを起動する。コマンドプロセッサ２３５は、ホストＣＰＵからカーネルを受信し、ディスパッチユニット２５０を使用して、対応するウェーブフロント（wavefront）を計算ユニット２５５Ａ～２５５Ｎに発行する。一実施形態では、各計算ユニット２５５Ａ～２５５Ｎは、行列演算ユニットを含む。例えば、行列演算ユニットは、行列乗算演算を実行する。さらに、様々な実施形態では、行列演算ユニットは、他のタイプの行列演算を実行する。計算ユニット２５５Ａ～２５５Ｎで実行されるウェーブフロントは、データを読み出し、ＧＰＵ２０５内のグローバルデータシェア２７０、Ｌ１キャッシュ２６５及びＬ２キャッシュ２６０に書き込む。図２には示されていないが、一実施形態では、計算ユニット２５５Ａ～２５５Ｎは、各計算ユニット２５５Ａ～２５５Ｎ内に１つ以上のキャッシュ及び／又はローカルメモリも含む。

一実施形態では、行列データは、システムメモリ２２５及び／又はローカルメモリ２３０に線形フォーマットで記憶される。行列データをＬ２キャッシュ２６０にロードする前に、行列データは、線形フォーマットからタイリングフォーマットに変換される。一実施形態では、「タイリングフォーマット」という用語は、複数の行列要素を一緒にタイルのユニットに記憶することとして定義され、各タイルは、Ｎ×Ｍブロックの行列要素を記憶し、Ｎ及びＭは正の整数である。「タイリングフォーマット」によって、連続するタイルがメモリに順次記憶される。

一実施形態では、コマンドプロセッサ２３５は、行列データを線形フォーマットからタイリングフォーマットに変換する。別の実施形態では、ホストプロセッサ（例えば、図１のプロセッサ１０５Ａ）は、行列データを線形フォーマットからタイリングフォーマットに変換する。次に、計算ユニット２５５Ａ～２５５Ｎでのウェーブフロントの実行中、行列データは、タイリングフォーマットで記憶されているので、Ｌ２キャッシュ２６０から効率的にロードされる。一実施形態では、行列要素がタイリングフォーマットで記憶される場合、行列データ要素は、複数のチャネルでＬ２キャッシュ２６０から計算ユニット２５５Ａ～２５５Ｎに並行して読み出される。これは、行列データ要素を線形フォーマットで記憶するよりもより効率的なアプローチであり、行列データ要素は、単一チャネルでＬ２キャッシュ２６０から連続して読み出されることになる。

図３を参照すると、行列演算ユニット３００の一実施形態のブロック図が示されている。一実施形態では、各計算ユニット２５５Ａ～２５５Ｎは、行列演算ユニット３００の回路を含む。一実施形態では、行列演算ユニット３００は、アーキテクチャベクトル汎用レジスタ（ＶＧＰＲ）ファイル３０５と、エクスポートユニット３１０と、蓄積（accumulation）ＶＧＰＲファイル３１５と、単一命令複数データ（ＳＩＭＤ）ユニット３２０と、ＳＩＭＤユニット３２５と、を少なくとも含む。行列演算ユニット３００は、図を不明瞭にすることを回避するために図示されていない任意の数の他のコンポーネントも含むことを理解されたい。さらに、他の実施形態では、行列演算ユニット３００は、他の適切な方法で構成される。

一実施形態では、ＳＩＭＤユニット３２０は、様々な浮動小数点演算を実行するための浮動小数点ユニットであり、ＳＩＭＤユニット３２５は、様々な行列演算（例えば、ドット積演算、行列乗算演算）を実行するための行列ユニットである。一実施形態では、アーキテクチャＶＧＰＲファイル３０５及び蓄積ＶＧＰＲファイル３１５に接続されて示されている別個の各入力は、それぞれ３２ビットの１６レーンを有する。他の実施形態では、入力は、他のビット幅の他の数のレーンを有する。一実施形態では、ＳＩＭＤユニット３２５は、行列要素がタイリングフォーマットで記憶される場合に、入力行列要素に対してより効率的に動作する。したがって、この実施形態では、行列要素は、アーキテクチャＶＧＰＲファイル３０５及び／又は蓄積ＶＧＰＲファイル３１５に読み込まれる前に、線形フォーマットからタイリングフォーマットに変換される。これにより、ＳＩＭＤユニット３２５による演算をより効率的に実行することが可能になる。

図４を参照すると、ＳＩＭＤユニットによって演算されるソースＡ行列のデータレイアウト４００の一実施形態の図が示されている。一実施形態では、（図３の）ＳＩＭＤユニット３２５は、ソースＡ行列を読み込んで、ソースＡ行列をソースＢ行列で乗算した行列乗算演算を実行するために、図４に示すデータレイアウト４００に従って構成される。例えば、この実施形態では、ＳＩＭＤユニット毎に６４のスレッドがデータレイアウト４００に存在する。他の実施形態では、ＳＩＭＤユニットは、データレイアウトに他の数（例えば、３２、１２８）のスレッドを含む。データレイアウト４００の各スレッドは、ＳＩＭＤユニットのレーンに対応する。

処理されるブロックのサイズに応じて、異なる数のブロックをデータレイアウト４００に従ってマッピングすることができる。例えば、各ブロックが３２×２のサイズである場合、２つのブロック（Ｂｌｋ０およびＢｌｋ１）がＶＧＰＲファイルからＳＩＭＤユニットにマッピングされる。各ブロックが１６×２のサイズである場合、４つのブロック（Ｂｌｋ０、Ｂｌｋ１、Ｂｌｋ２、Ｂｌｋ３）がＶＧＰＲファイルからＳＩＭＤユニットにマッピングされる。各ブロックのサイズが４×２の場合、１６個のブロック（Ｂｌｋ０、Ｂｌｋ１、Ｂｌｋ２、Ｂｌｋ３、Ｂｌｋ４、Ｂｌｋ５、Ｂｌｋ６、Ｂｌｋ７、Ｂｌｋ８、Ｂｌｋ９、Ｂｌｋ１０、Ｂｌｋ１１、Ｂｌｋ１２、Ｂｌｋ１３、Ｂｌｋ１４、Ｂｌｋ１５）がＶＧＰＲファイルからＳＩＭＤユニットにマッピングされる。

図５を参照すると、ＳＩＭＤユニットのためのソースＢ行列のデータレイアウト５００の一実施形態の図が示されている。一実施形態では、ＶＧＰＲファイルとＳＩＭＤユニット（例えば、（図３の）ＳＩＭＤユニット３２５）との間の接続は、データレイアウト５００に従って構成される。例えば、一実施形態では、データレイアウト５００は、ソースＡ行列とソースＢ行列との間で行列乗算演算を実行するように、ソースＢ行列をロードするための接続を定義する。一実装形態では、データレイアウト５００は、６４スレッドのために構成される。他の実施形態では、データレイアウト５００は、他の数のスレッドを含む。データレイアウト５００の各スレッドは、ＳＩＭＤユニットのレーンに対応する。処理されるブロックのサイズ（例えば、２×３２、２×１６、２×４）に応じて、異なる数（例えば、２、４、１６）のブロックをデータレイアウト５００に従ってマッピングすることができる。

図６を参照すると、ソースＡ行列のブロック６００のタイリングレイアウトの一実施形態の図が示されている。一実施形態では、行列は複数のブロックに分割され、各ブロックはブロック６００に従って構成される。ブロック６００内の要素の構成は、線形データとタイリングデータとのマッピング関係を示す。例えば、行列要素６５は、円６０５によって示される。この要素の元の位置は（ｘ＝３、ｙ＝０）である。したがって、位置は、線形フォーマットでは（ｙ×ｓｔｒｉｄｅ＋ｘ）＝０×４＋３＝３であり、タイリングフォーマットでは位置６５である。一実施形態では、基本的なタイリングブロックは、行列乗算演算を実施するために、ソースＡ行列の場合３２×４であり、ソースＢ行列の場合４×３２である。他の実施形態では、行列演算の基本的なタイリングブロックは、他のサイズであってもよい。一実施形態では、行列階層の次のレベルで、サイズ３２×４の８つの基本的なブロックが３２×３２の中間ブロックに結合される。さらに、行列階層を上に移動すると、１６の中間ブロックが１２８×１２８の大きいブロックに結合される。残りの説明のために、処理される行列サイズが１２８×１２８の大きいブロックに整合されると仮定される。しかしながら、他の実施形態では、行列サイズを他のサイズのブロックに整合することができることを理解されたい。

図７を参照すると、ソースＡ行列内の３２×３２のブロック７００の一実施形態の図が示されている。４×３２の各ブロックは、図示するように、左から右へブロック０からブロック７まで左から右に配置されて、３２×３２ブロック７００を形成する。他の実施形態では、他のサイズのブロックを互いに結合して、行列ブロック階層の上位のブロックを形成することができる。

図８を参照すると、ソースＡ行列の１２８×１２８ブロック８００の一実施形態の図が示されている。１２８×１２８ブロック８００の第１の列は、ブロック８００内に示すように、３２×３２ブロック０～３から構成される。１２８×１２８ブロック８００の第２の列は３２×３２ブロック４～７から構成され、１２８×１２８ブロック８００の第３の列は３２×３２ブロック８～１１から構成され、１２８×１２８ブロック８００の第４の列（つまり、最も右の列）３２×３２ブロック１２～１５から構成される。一実施形態では、各３２×３２ブロックは、（図７の）ブロック７００に従って構成される。

図９を参照すると、１２８×１２８ブロックから構成された画像９００の一実施形態の図が示されている。他の実施形態では、画像は、他の適切な方法で構成可能な他のサイズのブロックから構成されることを理解されたい。例えば、他の実施形態では、画像は、６４×６４ブロック、２５６×２５６ブロック、又は、他のサイズのブロックから構成することができる。これらの実施形態の場合、画像９００について本明細書で説明するメカニズム及び方法を、他のサイズのブロックから生成された他の画像に適用するように適合させることができる。

図１０を参照すると、ソースＢ行列のブロック１０００のタイリングレイアウトの一実施形態の図が示されている。一実施形態では、行列演算ユニットは、ソースＡ行列をソースＢ行列で乗算する。ソースＢ行列のブロック１０００の構成は、行列乗算演算を実施するための一実施形態によるソースＢ行列ブロック１０００の要素の構成の一例である。

図１１を参照すると、ソースＢ行列の３２×３２ブロック１１００の一実施形態の図が示されている。一実施形態では、ソースＢ行列の３２×３２ブロック１１００は、８つの異なる３２×４ブロックを使用して構成される。図１１に示すように、各３２×４ブロックは、ブロック１１００に示すように、ブロック０からブロック７まで上から下に配置される。他の実施形態では、３２×３２ブロック１１００は、他の数、サイズ、及び／又は、より小さいブロックの配置で構成することができる。

図１２を参照すると、ソースＢ行列の１２８×１２８ブロック１２００の一実施形態の図が示されている。１２８×１２８ブロック１２００の第１の行は、左から右に移動する３２×３２ブロック０～３から構成される。１２８×１２８ブロック１２００の第２の行は、左から右に移動する３２×３２ブロック４～７から構成され、１２８×１２８ブロック１２００の第３の行は、左から右に移動する３２×３２ブロック８～１１から構成され、１２８×１２８ブロック１２００の第４の行（つまり、最下行）は、左から右に移動する３２×３２ブロック１２～１５から構成される。一実施形態では、各３２×３２ブロックは、（図１１の）ブロック１１００のレイアウトに従って構成される。

図１３を参照すると、１２８×１２８ブロックから構成された画像１３００の一実施形態の図が示されている。画像１３００の第１の行は、左から右に移動する１２８×１２８ブロック０～７を含む。同様に、画像１３００の第２の行は、左から右に移動する１２８×１２８ブロック８～１５を含む。画像１３００の他の行も同様に構成され、下の行は、左から右に移動する１２８×１２８ブロック５６～６３を含む。一実施形態では、各１２８×１２８ブロック０～６３は、（図１２の）ブロック１２００に従って構成される。

図１４を参照すると、結果Ｃ行列のブロック１４００の一実施形態の図が示されている。一実施形態では、行列演算ユニットは、ソースＡ行列をソースＢ行列で乗算して、結果Ｃ行列を生成する。ブロック１４００の要素の構成は、行列乗算演算が一実施形態に従って実行された後の結果Ｃ行列内のブロックの要素の構成の一例である。ブロック１４００の第１の列は、要素０を含み、その後に要素１、要素２、要素３が続く。ブロック１４００の第２の列は、要素７の上に要素６、要素６の上に要素５、要素５の上に要素４を含む。この要素レイアウトのパターンは、行列Ｃ１４００の右側に移動する列において、最後の最も右側の列が要素６０、要素６１、要素６２、要素６３を含むまで続く。

図１５を参照すると、一実施形態による、ソースＡ行列を線形フォーマットからタイリングフォーマットに変換するための擬似コード１５００の例が示されている。擬似コード１５００は、ある特定の実施形態に使用される特定の値を有する変数の定義を含む。他の実施形態では、これらの変数の値は、タイルのサイズ、行列乗算ユニットのレーンの数及びビット幅、キャッシュチャネルの数等に応じて変わる場合がある。

擬似コード１５００及び（図１６の）擬似コード１６００の説明のために、２つの入力行列、つまりソースＡ行列及びソースＢ行列が存在すると仮定される。また、ソースＡ行列のサイズがＭ×Ｋであり、ソースＢ行列のサイズがＫ×Ｎであり、結果Ｃ行列のサイズがＭ×Ｎであり、Ｍ、Ｎ及びＫが正の整数であることも仮定される。一実施形態では、Ｍ、Ｎ及びＫは、１０２４に等しい。他の実施形態では、Ｍ、Ｎ及びＫの値が変わる場合がある。

一実施形態では、メモリに２つのセットのバッファがある。Ａ＿ｏｕｔｂｕｆｆｅｒ［］及びＢ＿ｏｕｔｂｕｆｆｅｒ［］は、それぞれソースＡ行列及びソースＢ行列の行列要素をメモリに線形フォーマットで記憶する。Ａ＿ｐａｃｋａｇｅ＿ｏｕｔｂｕｆｆｅｒ［］及びＢ＿ｐａｃｋａｇｅ＿ｏｕｔｂｕｆｆｅｒ［］は、それぞれソースＡ行列及びソースＢ行列の行列要素をメモリにタイリングフォーマットで記憶する。擬似コード１５００の命令に基づいて、連続する記憶位置に線形フォーマットで記憶されるソースＡ行列の要素は、タイリングフォーマットでタイル高さによって分けられる記憶位置に記憶される。言い換えると、タイル高さに等しいストライドで第２のバッファをステップ実行しながら、第１のバッファ（つまり、Ａ＿ｏｕｔｂｕｆｆｅｒ［］）の連続した位置から値が読み出され、第２のバッファ（つまり、Ａ＿ｐａｃｋａｇｅ＿ｏｕｔｂｕｆｆｅｒ［］）の位置に書き込まれる。ソースＡ行列及びソースＢ行列が線形フォーマットからタイリングフォーマットに変換された後、計算ユニット上で実行されるカーネルコードは、メモリからキャッシュ（例えば、Ｌ２キャッシュ）にデータをロードする。

図１６を参照すると、ソースＢ行列を線形フォーマットからタイリングフォーマットに変換するための擬似コード１６００の一例が示されている。擬似コード１６００の説明は、（図１５の）擬似コード１５００の説明の続きであることを意図している。一実施形態では、擬似コード１６００は、ソースＢ行列を線形フォーマットからタイリングフォーマットに変換するために使用される。ソースＢ行列が線形フォーマットからタイリングフォーマットに変換されると、カーネルコードは、メモリからキャッシュにデータをロードする。

図１７を参照すると、行列演算を実行するために行列データを線形フォーマットからタイリングフォーマットに変換するための方法１７００の一実施形態が示されている。説明のために、この実施形態のステップは順番に示されている。しかしながら、説明する方法の様々な実施形態では、説明する要素の１つ以上は、同時に実行されてもよいし、図示した順序とは異なる順序で実行されてもよいし、完全に省略されてもよいことに留意されたい。また、他の追加の要素も必要に応じて実行される。本明細書で説明する様々なシステム又は装置の何れも、方法１７００を実施するように構成される。

ホストプロセッサ（例えば、ＣＰＵ）は、線形フォーマットで記憶された行列データに対して行列演算を実行する要求を検出する（ブロック１７０５）。一実施形態では、行列演算は行列乗算演算である。他の実施形態では、他のタイプの行列演算が要求される。次に、ホストプロセッサは、要求を検出したことに応じて、行列データを線形フォーマットからタイリングフォーマットに変換する（ブロック１７１０）。ソースＡ行列及びソースＢ行列を線形フォーマットからタイリングフォーマットに変換するための擬似コード１５００，１６００の例は、それぞれ図１５及び図１６に示されている。他の実施形態では、ソースＡ行列及びソースＢ行列を線形フォーマットからタイリングフォーマットに変換するための他の技術を利用することができる。

次に、複数の行列演算ユニットは、タイリングフォーマットの行列データをメモリからキャッシュのＮ個の全てのチャネルにロードする（ブロック１７１５）。一実施形態では、キャッシュはＬ２キャッシュである。一実施形態では、キャッシュはＮ個のチャネルを有し、Ｎは１よりも大きい正の整数である。次に、複数の行列演算ユニットは、行列データに対して行列演算を並列に実行して、結果を生成する（ブロック１７２０）。次に、プロセッサは、結果を使用して、所定のソフトウェアアプリケーションに関連する第１のアクションを完了する（ブロック１７２５）。一実施形態では、第１のアクションは、第１のデータセットの分類であり、所定のソフトウェアアプリケーションは、機械学習アプリケーションである。一実施形態では、第１のデータセットは画像であり、分類は、画像が属する所定のカテゴリを識別する。別の実施形態では、第１のデータセットはビデオであり、分類は、ビデオを所定のカテゴリに割り当てる。他の実施形態では、第１のデータセットは、他の方法で分類される他のタイプのデータを含む。他の実施形態では、他のタイプのソフトウェアアプリケーションに関連する他のタイプのアクションが実行される。ブロック１７２５の後に、方法１７００は終了する。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、本明細書に記載された方法及び／又はメカニズムを実施する。例えば、汎用プロセッサ又は専用プロセッサによって実行可能なプログラム命令が考えられる。様々な実施形態において、そのようなプログラム命令は、高水準プログラミング言語によって表すことができる。他の実施形態では、プログラム命令は、高水準プログラミング言語からバイナリ、中間又は他の形式にコンパイルされてもよい。或いは、ハードウェアの動作又は設計を記述するプログラム命令を書き込むことができる。このようなプログラム命令を、Ｃ等の高水準のプログラミング言語によって表すことができる。或いは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（ＨＤＬ）を使用することができる。様々な実施形態では、プログラム命令は、様々な非一時的なコンピュータ可読記憶媒体の何れかに記憶される。記憶媒体は、プログラム実行のためにプログラム命令をコンピューティングシステムに提供するために、使用中にコンピューティングシステムによってアクセス可能である。一般的に、このようなコンピューティングシステムは、少なくとも１つのメモリと、プログラム命令を実行することができる１つ以上のプロセッサと、を含む。

上記の実施形態は、実装態様の非限定的な例に過ぎないことを強調しておきたい。上記の開示が十分に認識されると、当業者には多数の変形及び修正が明らかになるであろう。以下の特許請求の範囲は、このような変形及び修正の全てを包含すると解釈されることが意図されている。

Claims

システムであって、
複数の行列要素を線形フォーマットで記憶するメモリと、
キャッシュと、
前記複数の行列要素を前記線形フォーマットからタイリングフォーマットに変換するように構成されたプロセッサと、
複数の計算ユニットであって、前記複数の計算ユニットの各々が行列演算ユニットを備える、複数の計算ユニットと、を備え、
各行列演算ユニットは、
１つ以上の対応するタイルの所定の複数の行列要素を前記キャッシュからロードすることと、
前記所定の複数の行列要素に対して行列演算を実行して、結果をタイリングフォーマットで生成することと、
を行うように構成されており、
前記システムは、複数の行列演算ユニットからの複数の結果に基づいて第１のデータセットの分類を生成するように構成されている、
システム。
前記キャッシュは複数のチャネルを備え、前記複数の計算ユニットは、行列要素を、単一クロックサイクルで前記複数のチャネルに並列にロードするように構成されている、
請求項１のシステム。
各計算ユニットは、前記複数の計算ユニットの他の計算ユニットによって実行されるカーネルと同等のカーネルを並列に実行するようにさらに構成されており、
各行列演算ユニットは、前記キャッシュからの行列要素を、他の行列演算ユニットとは異なるチャネルにロードするように構成されている、
請求項２のシステム。
前記プロセッサは、第１のソース行列の複数の行列要素を前記線形フォーマットからタイリングフォーマットに変換する要求を受信したことに応じて、
前記メモリの第１のバッファの連続する位置から値を読み出すことであって、前記第１のバッファは行列要素を前記線形フォーマットで記憶する、ことと、
前記値を第２のバッファに書き込みながら、タイル高さに等しいストライドで前記第２のバッファをステップ実行することであって、前記第２のバッファは行列要素を前記タイリングフォーマットで記憶する、ことと、
を行うように構成されている、
請求項１のシステム。
前記行列演算は行列乗算演算であり、前記所定の複数の行列要素は、各行列演算ユニットの複数のレーンで伝達される、
請求項１のシステム。
前記第１のデータセットの分類は、機械学習エンジンアプリケーションの実行中に生成される、
請求項１のシステム。
連続する記憶位置に前記線形フォーマットで記憶される第１のソース行列の要素は、タイル高さによって分けられる記憶位置に前記タイリングフォーマットで記憶される、
請求項１のシステム。
方法であって、
プロセッサが、メモリに記憶された複数の行列要素を線形フォーマットからタイリングフォーマットに変換することと、
複数の計算ユニットが、複数の行列要素を前記メモリからキャッシュにロードすることと、
複数の行列演算ユニットの各々が、１つ以上の対応するタイルの所定の複数の行列要素を前記キャッシュからロードすることと、
各行列演算ユニットが、前記所定の複数の行列要素に対して行列演算を実行して、結果を前記タイリングフォーマットで生成することと、
前記複数の行列演算ユニットからの複数の結果に基づいて第１のデータセットの分類を生成することと、を含む、
方法。
前記キャッシュは複数のチャネルを備え、前記方法は、前記複数の計算ユニットが、行列要素を、単一クロックサイクルで前記複数のチャネルに並列にロードすることをさらに含む、
請求項８の方法。
各計算ユニットが、前記複数の計算ユニットの他の計算ユニットによって実行されるカーネルと同等のカーネルを並列に実行することと、
各行列演算ユニットが、前記キャッシュからの行列要素を、他の行列演算ユニットとは異なるチャネルにロードすることと、をさらに含む、
請求項９の方法。
前記方法は、第１のソース行列の複数の行列要素を前記線形フォーマットからタイリングフォーマットに変換する要求を受信したことに応じて、
前記メモリ内の第１のバッファの連続する位置から値を読み出すことであって、前記第１のバッファは行列要素を前記線形フォーマットで記憶する、ことと、
前記値を第２のバッファに書き込みながら、タイル高さに等しいストライドで前記第２のバッファをステップ実行することであって、前記第２のバッファは行列要素を前記タイリングフォーマットで記憶する、ことと、を含む、
請求項８の方法。
行列演算ユニット毎に、前記所定の複数の行列要素を前記行列演算ユニットの複数のレーンで伝達することであって、前記行列演算は行列乗算演算である、ことをさらに含む、
請求項８の方法。
前記第１のデータセットの分類は、機械学習エンジンアプリケーションの実行中に生成される、
請求項８の方法。
連続する記憶位置に前記線形フォーマットで記憶される第１のソース行列の要素は、タイル高さによって分けられる記憶位置に前記タイリングフォーマットで記憶される、
請求項８の方法。
装置であって、
複数の行列要素を線形フォーマットで記憶するメモリと、
複数の計算ユニットと、を備え、
前記複数の計算ユニットは、
前記複数の行列要素が前記線形フォーマットからタイリングフォーマットに変換されるための要求を生成することと、
前記タイリングフォーマットの前記複数の行列要素に対して行列演算を実行して、複数の結果を前記タイリングフォーマットで生成することと、
前記複数の結果に基づいて第１のデータセットの分類を生成することと、
を行うように構成されている、
装置。
キャッシュをさらに備え、前記キャッシュは複数のチャネルを備え、前記複数の計算ユニットは、行列要素を、単一クロックサイクルで前記複数のチャネルに並列にロードするように構成されている、
請求項１５の装置。
前記複数の計算ユニットの各々は、
前記複数の計算ユニットの他の計算ユニットによって実行されるカーネルと同等のカーネルを並列に実行することと、
前記キャッシュからの行列要素を、前記複数の計算ユニットの他の計算ユニットによって利用される他のチャネルとは異なるチャネルにロードすることと、
を行うように構成されている、
請求項１６の装置。
前記装置は、第１のソース行列の複数の行列要素を前記線形フォーマットからタイリングフォーマットに変換する要求を受信したことに応じて、
前記メモリの第１のバッファの連続する位置から値を読み出すことであって、前記第１のバッファは行列要素を前記線形フォーマットで記憶する、ことと、
前記値を第２のバッファに書き込みながら、タイル高さに等しいストライドで前記第２のバッファをステップ実行することであって、前記第２のバッファは行列要素を前記タイリングフォーマットで記憶する、ことと、
を行うように構成されている、
請求項１５の装置。
行列要素は、前記複数の計算ユニットの各々の複数のレーンで伝達され、前記行列演算は行列乗算演算である、
請求項１５の装置。
前記第１のデータセットの分類は、機械学習エンジンアプリケーションの実行中に生成される、
請求項１５の装置。