JP2023519564A

JP2023519564A - 機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え

Info

Publication number: JP2023519564A
Application number: JP2022556479A
Authority: JP
Inventors: ハリリアラシュ; サイーディメーディ; イバノビッチボリス; シネスガボール
Original assignee: ATI Technologies ULC
Current assignee: ATI Technologies ULC
Priority date: 2020-03-31
Filing date: 2021-03-05
Publication date: 2023-05-11
Also published as: US11568248B2; EP4128065A4; CN115362450A; KR20220161339A; EP4128065A1; WO2021198810A1; US20210303994A1

Abstract

機械学習ニューラルネットワーク動作を実行するための処理デバイスは、メモリ及びプロセッサを含む。プロセッサは、機械学習ニューラルネットワーク動作の層において入力データを受信し、入力データに適用される複数のソートされたフィルタを受信し、複数のソートされたフィルタを入力データに適用して複数の異なる特徴マップを生成し、特徴マップの互いに対する類似性に従って複数の異なる特徴マップを圧縮し、複数の異なる特徴マップをメモリに記憶するように構成されている。【選択図】図５

Description

（関連出願の相互参照）
本願は、２０２０年３月３１日に出願された米国特許出願第１６／８３６，７８５号の利益を主張し、その内容は、参照により本明細書に組み込まれる。

機械学習（例えば、深層学習）は、特定のタスクを実行するための予測又は決定（例えば、画像が特定のオブジェクトを含むかどうか）を行うために、様々な技術（例えば、画像分類）で広く使用されている。畳み込みニューラルネットワーク（convolutional neural network、ＣＮＮ）は、機械学習用途で広く使用されている深層学習アルゴリズムのクラスである。これらのネットワークは、典型的には、複数の層を含む。各層において、フィルタのセットが前の層の出力に適用され、各層の出力は、活性化（activations）又は特徴マップ（feature maps）として知られている。ネットワーク内の最初及び最後の層は、それぞれ入力層及び出力層として知られており、最初及び最後の層の間の層は、典型的には、隠れ層（hidden layers）として知られている。

教師あり学習の機械学習モデルは、特定のタスクを実行するための予測又は決定（例えば、画像が特定のオブジェクトを含むかどうか）を行うためにトレーニングされる。トレーニング中、モデルは、異なるデータにさらされる。各層において、モデルは、データを変換し、その動作の精度に関するフィードバックを受信する。推論段階中に、トレーニングされたモデルは、試験サンプル（例えば、入力テンソル）に対する出力を推測又は予測するために使用される。

添付の図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の特徴を実装することができる例示的なデバイスのブロック図である。さらなる詳細を示す図１のデバイスのブロック図である。本開示の特徴による、メモリにソートされる前のＮＨＷＣフォーマット化に従う例示的な活性化テンソル値の記憶レイアウトを示す図である。特徴マップの類似性に従う図３に示す特徴マップの例示的なソート、及び、ソートすることによる、ＮＨＷＣフォーマット化を使用した、メモリに記憶されたテンソル値の例示的なメモリレイアウトを示す図である。本開示の特徴による、機械学習動作を実行する例示的な方法を示すフロー図である。

活性化及び特徴マップという用語は、本開示において互換的に使用される。ＣＮＮは、異なるタイプの技術用途で使用される。簡略化された説明のために、本明細書に記載される例は、画像分析のためのＣＮＮを含む。

ＣＮＮモデルの活性化（完全又は部分的）は、特定のアプリケーションに応じて、各層又は複数の層のメモリに書き込まれ、そこから読み出される。各層の出力は、例えば、特徴マップ（すなわち、チャネル）ＣのＮ個のバッチに分割され、各々が、画像を表し、各々が、高さ（Ｈ）及び幅（Ｗ）によって定義されるサイズを有する画像セットを含む、４次元（４Ｄ）活性化テンソルである。活性化テンソルは、次の層の新しい活性化テンソルをもたらす、層（例えば、畳み込みカーネル、プーリング動作）によって定義される動作を受ける。

深層学習モデルは、通常、有意なメモリ帯域幅を使用し、これは、帯域幅のボトルネックにつながり、性能に悪影響を及ぼし、電力消費の増加をもたらし得る。活性化テンソルデータを機械学習ニューラルネットワークの異なる層に記憶するために使用されるメモリの量は、典型的には、アプリケーションによっては、活性化テンソルデータをオンチップメモリに保存することができないほど大きい。したがって、活性化テンソルデータを記憶することは、オフチップメモリへの及びオフチップメモリからのデータの転送を含む。

転送されるテンソルデータは、例えば、デルタベースの圧縮アルゴリズム等の任意の数の圧縮アルゴリズムを使用して圧縮され、これは、シーケンシャルデータ間の差異（デルタ）の形態でデータを記憶又は送信する。差異が小さい場合、デルタベースの圧縮は、データ冗長性を大幅に低減する。したがって、デルタベースの圧縮アルゴリズムの効率は、メモリに記憶された隣接するデータ間の類似性に依存する。

本願は、ソートされたフィルタを入力テンソルに適用することによって、機械学習モデルの推論段階中に、メモリ転送されるテンソルを効率的に圧縮するための処理デバイス及び方法を提供する。フィルタは、トレーニング段階中に得られる特徴マップの類似性に従ってソートされる。すなわち、トレーニング段階中に、特徴マップのテンソル値が、互いに対するチャネルの類似性に従ってメモリ内の場所に記憶される順序（すなわち、ソート）を変更することによって、モデルが判定される。例えば、特徴マップの並べ替え（すなわち、ソート）は、特徴マップの平均要素振幅（例えば、ピクセル強度）の類似性（すなわち、チャネルの類似性）に基づいている。しかしながら、他のタイプのパラメータによる類似性に基づいて、特徴の並べ替えを実装することができる。また、特徴の並べ替えは、例えば、１次元又は２次元の離散勾配又は分散に基づいて実施され得る。

テンソルデータは、例えば、ＮＨＷＣ（すなわち、チャネルファースト）又はＮＣＨＷ（すなわち、幅ファースト）等の異なるフォーマットでメモリに書き込むことができる。ＮＨＷＣ（又はチャネルが最初である他のメモリレイアウト）では、コロケーション（co-located）されたチャネルのコロケーションされた要素がメモリ内で隣接する。メモリ内で隣接する要素の類似性は、圧縮アルゴリズムの圧縮効率に影響を及ぼす。

１つのアプリケーションでは、テンソルデータは、デルタベースの圧縮アルゴリズムを使用して圧縮される。しかしながら、テンソルデータの圧縮は、辞書ベースの圧縮アルゴリズム等の他のタイプの圧縮アルゴリズムを使用して、本開示の特徴に従って実装され得る。

メモリ及びプロセッサを含む機械学習ニューラルネットワーク動作を実行するための処理デバイスが提供される。プロセッサは、機械学習ニューラルネットワーク動作の層において、入力データを受信し、入力データに適用される複数のソートされたフィルタを受信し、複数のソートされたフィルタを入力データに適用して、複数の異なる特徴マップを生成し、特徴マップの互いに対する類似性に従って複数の異なる特徴マップを圧縮し、複数の異なる特徴マップをメモリに記憶するように構成されている。

機械学習ニューラルネットワークの層において、入力データを受信することと、入力データに適用される複数のソートされたフィルタを受信することと、複数のソートされたフィルタを入力データに適用して、複数の異なる特徴マップを生成することと、特徴マップの互いに対する類似性に従って複数の異なる特徴マップを圧縮することと、複数の異なる特徴マップをメモリに記憶することと、を含む機械学習処理方法が提供される。

機械学習ニューラルネットワークの層において、入力データを受信することと、入力データに適用される複数のソートされたフィルタを受信することと、複数のソートされたフィルタを入力データに適用して、複数の異なる特徴マップを生成することと、特徴マップの互いに対する類似性に従って、複数の異なる特徴マップを圧縮することと、複数の異なる特徴マップをメモリに記憶することと、を含む機械学習処理方法をコンピュータに実行させるための記憶された命令を含む、非一時的なコンピュータ可読記憶媒体が提供される。

図１は、本開示の１つ以上の特徴を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話又はタブレットコンピュータを含むことができる。デバイス１００は、プロセッサ１０２と、メモリ１０４と、記憶装置１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、オプションで、入力ドライバ１１２及び出力ドライバ１１４を含むことができる。デバイス１００は、図１に示されていない追加の構成要素を含むことができることを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理ユニット（central processing unit、ＣＰＵ）、グラフィック処理ユニット（graphics processing unit、ＧＰＵ）、同じダイ上に位置するＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ若しくはＧＰＵ又はスタンドアローンアクセラレータとすることができる。様々な代替例では、メモリ１０４は、プロセッサ１０２と同じダイ上に位置するか、又は、プロセッサ１０２とは別に位置する。メモリ１０４は、揮発性又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

記憶装置１０６は、固定又はリムーバブル記憶装置（例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体認証スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。出力デバイス１１０は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上の光、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。入力ドライバ１１２及び出力ドライバ１１４はオプションの構成要素であり、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合、デバイス１００が同様に動作することに留意されたい。出力ドライバ１１４は、ディスプレイデバイス１１８に結合された加速処理デバイス（accelerated processing device、「ＡＰＤ」）１１６を含む。ＡＰＤは、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れて、それらの計算及びグラフィックスレンダリングコマンドを処理し、表示のためにディスプレイデバイス１１８に出力を提供する。以下に更に詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（single-instruction-multiple-data、「ＳＩＭＤ」）パラダイムに従って計算を行うための１つ以上の並列処理ユニットを含む。様々な機能は、本明細書では、ＡＰＤ１１６によって又はＡＰＤ１１６と併せて行われるものとして説明されているが、様々な代替例では、ＡＰＤ１１６によって行われるものとして説明される機能は、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されず、ディスプレイデバイス１１８にグラフィック出力を提供する同様の能力を有する他のコンピューティングデバイスによって追加的又は代替的に行われる。例えば、ＳＩＭＤパラダイムに従って処理タスクを行う任意の処理システムが、本明細書で説明する機能を行い得ることが企図される。代替的に、ＳＩＭＤパラダイムに従って処理タスクを行わないコンピューティングシステムが、本明細書で説明する機能を行うことが企図される。

図２は、デバイス１００のブロック図であり、ＡＰＤ１１６上の処理タスクの実行に関するさらなる詳細を示している。プロセッサ１０２は、システムメモリ１０４内で、プロセッサ１０２による実行のための１つ以上の制御論理モジュールを維持する。制御論理モジュールは、オペレーティングシステム１２０と、カーネルモードドライバ１２２と、アプリケーション１２６と、を含む。これらの制御論理モジュールは、プロセッサ１０２及びＡＰＤ１１６の動作の様々な特徴を制御する。例えば、オペレーティングシステム１２０は、ハードウェアと直接通信し、プロセッサ１０２上で実行される他のソフトウェアのためのハードウェアへのインターフェースを提供する。カーネルモードドライバ１２２は、例えば、プロセッサ１０２上で実行されるソフトウェア（例えば、アプリケーション１２６）にアプリケーションプログラミングインターフェース（application programming interface、「ＡＰＩ」）を提供して、ＡＰＤ１１６の様々な機能にアクセスすることによって、ＡＰＤ１１６の動作を制御する。また、カーネルモードドライバ１２２は、ＡＰＤ１１６の処理構成要素（以下に更に詳細に説明するＳＩＭＤユニット１３８等）によって実行するためのプログラムをコンパイルするジャストインタイムコンパイラを含む。

ＡＰＤ１１６は、並列処理に適し得るグラフィック動作及び非グラフィック動作等の選択された機能のためのコマンド及びプログラムを実行する。ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ピクセル動作、幾何学計算及びディスプレイデバイス１１８への画像のレンダリング等のようなグラフィックスパイプライン動作を実行するために使用することができる。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオ、物理シミュレーション、計算流体力学又は他のタスクに関連する動作等のようなグラフィック動作に直接関連しない計算処理動作を実行する。

ＡＰＤ１１６は、プロセッサ１０２の要求で、ＳＩＭＤパラダイムに従って並列に演算を行う１つ以上のＳＩＭＤユニット１３８を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。一例では、各ＳＩＭＤユニット１３８は、１６個のレーンを含み、各レーンは、ＳＩＭＤユニット１３８内の他のレーンと同時に同じ命令を実行するが、その命令を異なるデータで実行することができる。レーンは、全てのレーンが所定の命令を実行する必要がない場合、予測でオフに切り替えることができる。予測は、分岐制御フローを有するプログラムを実行するために使用することができる。より具体的には、制御フローが個々のレーンによって行われる計算に基づいている条件付き分岐又は他の命令を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測及び異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。

計算ユニット１３２内の実行の基本的単位は、ワークアイテムである。各ワークアイテムは、特定のレーンにおいて並列で実行されるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤユニット１３８上の「ウェーブフロント（wavefront）」として同時に実行することができる。１つ以上のウェーブフロントが、「ワークグループ」に含まれ、これは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行することができる。代替例では、ウェーブフロントは、単一のＳＩＭＤユニット１３８上で順次、又は、異なるＳＩＭＤユニット１３８上で並列に部分的若しくは完全に実行される。ウェーブフロントは、単一のＳＩＭＤユニット１３８上で同時に実行することができるワークアイテムの最大集合体と考えることができる。したがって、プロセッサ１０２から受信されたコマンドが、プログラムが単一のＳＩＭＤユニット１３８上で同時に実行できない程度に特定のプログラムを並列化させることを示す場合、そのプログラムは、２つ以上のＳＩＭＤユニット１３８上に並列化されるか、又は、同じＳＩＭＤユニット１３８上で直列化される（又は必要に応じて並列化及び直列化の両方がなされる）ウェーブフロントに分割される。スケジューラ１３６は、異なる計算ユニット１３２及びＳＩＭＤユニット１３８上の様々なウェーブフロントのスケジューリングに関連する動作を行う。

計算ユニット１３２によって与えられる並列処理は、ピクセル値計算、頂点変換及び他のグラフィック動作等のグラフィック関連動作に好適である。したがって、場合によっては、プロセッサ１０２からのグラフィック処理コマンドを受け入れるグラフィック処理パイプライン１３４は、並列で実行するために計算タスクを計算ユニット１３２に提供する。

また、計算ユニット１３２は、グラフィックに関連しないか又はグラフィック処理パイプライン１３４の「通常の」動作の一部（例えば、グラフィック処理パイプライン１３４の動作に対して行われる処理を補足するために行われるカスタム動作）として行われない計算タスクを行うために使用される。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、そのような計算タスクを定義するプログラムを、実行のためにＡＰＤ１１６に送信する。

ＡＰＤ１１６は、深層学習モデルを含む機械学習モデルを実行するように構成されている。ＡＰＤ１１６は、機械学習ニューラルネットワークの異なる層に活性化テンソルデータを記憶するように構成されている。ＡＰＤ１１６は、各層において、前の層の入力データ（例えば、画像、活性化テンソル）への動作（例えば、畳み込みカーネル、プーリング動作）を行い、次の層のためのテンソルデータを提供するために入力データにフィルタを適用するように構成されている。

上述したように、ニューラルネットワークの異なる層に活性化テンソルデータを記憶するために使用されるメモリの量は、典型的には、活性化テンソルデータをオンチップメモリ（例えば、ＡＰＤ１１６のメモリ）に保存できないほど（例えば、初期層において）大きい。したがって、活性化テンソルデータを記憶することは、リンク（例えば、バス）を介して、ＡＰＤ１１６とオフチップメモリ（例えば、メモリ１０４）との間のデータの転送を含む。ＡＰＤ１１６は、オフチップメモリに転送されるデータを圧縮する（例えば、帯域幅を節約する）ように構成されている。

ＡＰＤ１１６は、テンソル値が複数の特徴マップの類似性パラメータの何れかに従って記憶される順序を変更することと、チャネルファーストの構成を用いる複数の異なるタイプのメモリフォーマット化のうち何れかを使用することと、複数のタイプの圧縮アルゴリズムの何れかを使用することと、によってテンソルデータを圧縮するように構成されている。簡略化された説明のために、本明細書に記載の実施例は、特徴マップの平均要素振幅（例えば、ピクセル強度）の類似性（すなわち、チャネルの類似性）に基づいて、ＮＨＷＣ（すなわち、チャネルファースト）フォーマット化に従う、テンソル値がメモリに書き込まれる順序を変更することによる、４Ｄテンソル値のデルタベースの圧縮を含む。

図３は、本開示の特徴に従ってメモリ内でソートされる前の、ＮＨＷＣフォーマット化に従う、例示的な４Ｄ活性化テンソル値の記憶レイアウトを示す図である。

ＮＨＷＣでは、活性化テンソル（例えば、４Ｄ活性化テンソル）は、チャネルファーストで記憶される。例えば、４Ｄ活性化テンソルは、論理インデックス（ｎ、ｈ、ｗ、ｃ）を入力し、各値が位置する場所にアドレス変位を返すオフセット関数を介して各４Ｄテンソル値をマッピングすることによってメモリに書き込まれる。したがって、メモリに隣接して記憶された２つのテンソル値は、主に同じインデックスｎ、ｈ、ｗを共有するが、異なるｗインデックスを含む（例えば、第２のテンソル値のｗインデックスは、第１のテンソル値と１だけ異なる）。大文字は、活性化テンソルの４次元（すなわち、Ｎ、Ｈ、Ｗ、Ｃ）を表し、小文字は、各次元についてのインデックス（すなわち、ｎ、ｈ、ｗ、ｃ）を表す。

例えば、ＮＨＷＣフォーマット化が、例えば、活性化を各々表す複数の特徴マップのテンソル値を記憶するために使用される場合、各特徴マップの第１の場所（例えば、値行１、列１）の要素は、最初にメモリに記憶され、その後、各バッチの要素の各々がメモリに記憶されるまで、各特徴マップの第２の場所（例えば、値行１、列２）の要素等が記憶される。

図３に示す活性化テンソルは、８つの特徴マップ３０２（すなわち、８つのチャネル）を含み、各特徴マップ３０２は、２×２要素のマトリックスである。図３に示す特徴マップの次元は、単なる例である。本開示の特徴は、図３に示すものとは異なる次元（すなわち、幅Ｗの行及び高さＨの列）を有する任意の数の特徴マップ（すなわち、チャネル）を使用して実装することができる。

各特徴マップ３０２は、異なるフィルタ（例えば、量み）が適用される入力テンソルの異なる表現である。例えば、入力テンソルは、第１のフィルタを使用して動作（例えば、畳み込みカーネル、プーリング動作）を受け、これは、要素値００、０１、０２、０３を含む第１の特徴マップ３０２（Ｃ_０）を生成する。次いで、入力テンソルは、第２のフィルタを使用する動作を受け、これは、要素値０４、０５、０６、０７を含む第２の特徴マップ３０２（Ｃ_１）を生成する。プロセスは、異なるフィルタで継続して、各特徴マップ３０２（Ｃ_０～Ｃ_７）を生成する。

また、図３は、本開示の特徴による、メモリ内の要素値をソートすることなく（すなわち、並べ替えることなく）、各要素値がＮＨＷＣフォーマット化に従って記憶される、メモリ部分３０４内の場所を示す例示的なメモリレイアウトを示している。図示したように、第１の特徴マップ３０２（Ｃ_０）の第１の要素００は、メモリ部分３０４内の第１の場所に記憶される。次に、第２の特徴マップ３０２（Ｃ_１）のコロケーションされた第１の要素０４は、第１の特徴マップ３０２（Ｃ_０）の第１の要素００に隣接するメモリ部分３０４内の第２の場所に記憶される。

残りの特徴マップ３０２（Ｃ_２～Ｃ_７）のコロケーションされた第１の要素（すなわち、０８、１２、１６、２０、２４、２８）の各々が、メモリ部分３０４の次の場所に記憶された後に、第１の特徴マップ３０２（Ｃ_０）の第２の要素０１（要素００から幅Ｗに沿って）が記憶され、その後、第２の特徴マップ３０２（Ｃ_１）のコロケーションされた第２の要素０５が記憶される。

残りの特徴マップ３０２（Ｃ_２～Ｃ_７）のコロケーションされた第２の要素（すなわち、０９、１３、１７、２１、２５、２９）の各々が、メモリ部分３０４内の次の場所に記憶された後に、第１の特徴マップ３０４（Ｃ_０）の要素０２（要素００から高さＨに沿って）が記憶され、その後、第２の特徴マップ３０２（Ｃ_１）のコロケーションされた要素０６、次いで、メモリ部分３０４内の次の場所にある残りの特徴マップ３０２（Ｃ_２～Ｃ_７）のコロケーションされた要素（すなわち、１０、１４、１８、２２、２６、３０）の各々が記憶される。

要素３０が記憶された後に、第１の特徴マップ３０４（Ｃ_０）の要素０３が記憶され、第２の特徴マップ３０２（Ｃ_１）のコロケーションされた要素０７が続き、続いて、残りのコロケーションされた要素（１１、１５、１９、２３、２７、３１）がメモリ部分３０４内に記憶される。

上述したように、テンソル値の圧縮（例えば、デルタベースの圧縮）の効率は、例えば、メモリに記憶された隣接するデータ間の類似性に依存する。

図４は、図３に示す特徴マップ３０２が、特徴マップの類似性に従ってトレーニング段階中にどのようにソートされるかの例、及び、ソートに従って、ＮＨＷＣフォーマット化を使用して、メモリに記憶された要素値の例示的なメモリレイアウトを示している。すなわち、チャネルは、メモリ内の近隣データ要素が、ソートされていないチャネルよりも互いにより類似するように、トレーニング中にソートされる。類似性に従ってチャネルがソートされるので、推論段階中にモデルを実行するために行われるメモリ転送の数が低減される（すなわち、メモリ帯域幅が低減される）。

図３及び図４に示す各要素についてのビット数（すなわち、４）は、単なる例である。他の実施例では、本開示の特徴は、異なる数のビットによって表される要素を使用して実装される。各要素は、例において４ビットで表されるため、各要素（例えば、整数要素）の振幅を表すために、１６個の異なる振幅（例えば、強度）レベル（すなわち、レベル０～レベル１５）がある。

トレーニングの後又は間（すなわち、推論段階の前）に、異なる特徴マップ３０２（すなわち、チャネル）のデータが検査され、特徴マップ３０２の互いに対する類似性を判定する。その結果に基づいて、活性化に適用される複数のフィルタの各々が、平均要素振幅値に基づいて評価することができる新しい活性化テンソルを生成することが（トレーニングの間又は後に）判定される。

以下の表１は、トレーニング段階中に判定された例示的なフィルタ情報を示しており、これは、異なる特徴マップ３０２（Ｃ_０～Ｃ_７）の平均要素振幅を含み、結果として、８つの異なるフィルタが入力テンソルに適用され、入力テンソルが動作（例えば、畳み込みカーネル、プーリング動作）を受ける。例えば、平均要素振幅は、異なるフィルタを入力テンソルに適用する多くの反復を含み得るモデルのトレーニングの間に判定される。

例えば、表１に示すように、入力テンソルに適用される第１のフィルタは、７の平均要素振幅値を有する第１の特徴マップ（Ｃ_０）をもたらし、入力テンソルに適用される第２のフィルタは、１０の平均要素振幅値を有する第２の特徴マップ３０２（Ｃ_１）をもたらし、入力テンソルに適用される第３のフィルタは、１４の平均要素振幅値を有する第３の特徴マップ３０２（Ｃ_２）をもたらし、入力テンソルに適用される第４のフィルタは、８の平均要素振幅値を有する第４の特徴マップ３０２（Ｃ_３）をもたらし、入力テンソルに適用される第５のフィルタは、１１の平均要素振幅値を有する第１の特徴マップ（Ｃ_４）をもたらし、入力テンソルに適用される第６のフィルタは、４の平均要素振幅値を有する第２の特徴マップ３０２（Ｃ_５）をもたらし、入力テンソルに適用される第７のフィルタは、９の平均要素振幅値を有する第３の特徴マップ３０２（Ｃ_６）をもたらし、入力テンソルに適用される第８のフィルタは、１３の平均要素振幅値を有する第４の特徴マップ３０２（Ｃ_７）をもたらす。

フィルタ情報（例えば、表１に示す情報）に基づいて、ニューラルネットワークは、出力チャネルを並べ替える（すなわち、ソートする）ためにフィルタをシャッフルすることによって再構成される。例えば、８つのフィルタは、フィルタが、特徴マップ３０２の類似性（例えば、平均要素振幅の類似性）に従って再ソートされることなく、ＮＨＷＣフォーマット化によって適用される、図３に示す順序とは異なる順序で入力テンソルデータに適用される。次いで、要素値は、ＮＨＷＣフォーマット化を使用して、メモリに記憶される。

例えば、フィルタは、図４に示す特徴マップ３０２の順序とは異なる順序で入力テンソルデータに適用される。すなわち、フィルタは、表１に示す所定の平均要素振幅を使用して、特徴マップの類似性に従ってソートされる。したがって、図４に示すように、特徴マップ３０２（Ｃ_５）の第１の要素２０は、メモリ部分４０２内の第１の場所に記憶される。次に、特徴マップ３０２（Ｃ_０）のコロケーションされた第１の要素００は、特徴マップ３０２（Ｃ_５）の第１の要素２０に隣接するメモリ部分４０２内の第２の場所に記憶される。残りの特徴マップ３０２（Ｃ_３、Ｃ_６、Ｃ_１、Ｃ_４、Ｃ_７、Ｃ_２）のコロケーションされた第１の要素（すなわち、１２、２４、０４、１６、２８、０８）の各々が、メモリ部分４０２内の次の場所に記憶された後に、特徴マップ３０２（Ｃ_５）の第２の要素２１（要素２０からの幅Ｗに沿って）が記憶され、その後、特徴マップ３０２（Ｃ_０）のコロケーションされた第２の要素０１が記憶される。

残りの特徴マップ３０２（Ｃ_３、Ｃ_６、Ｃ_１、Ｃ_４、Ｃ_７、Ｃ_２）のコロケーションされた第２の要素（すなわち、１３、２５、０５、１７、２９、０９）の各々がメモリ部分４０２内の次の場所に記憶された後に、特徴マップ４０２（Ｃ_５）の要素２２（要素２０からの高さＨに沿って）が記憶され、その後、特徴マップ３０２（Ｃ_０）のコロケーションされた要素０２が記憶される。残りの特徴マップ３０２（Ｃ_３、Ｃ_６、Ｃ_１、Ｃ_４、Ｃ_７、Ｃ_２）のコロケーションされた要素（すなわち、１４、２６、０６、１８、３０、１０）の各々がメモリ部分４０２内の次の場所に記憶された後に、特徴マップ４０２（Ｃ_５）の要素２３が記憶され、その後、残りの特徴マップ３０２（Ｃ_３、Ｃ_６、Ｃ_１、Ｃ_４、Ｃ_７、Ｃ_２）のコロケーションされた要素０３、１５、２７、０７、１９、３１、１１が記憶される。

上記のソートされたフィルタを含む、トレーニング中に開発されたモデルを使用すると、ソートされたフィルタは、機械学習モデルの推論段階中に入力テンソルに適用される。ソートされた隣接するデータ項目の類似性により、テンソルデータは、モデルを実行する推論段階中により効率的に圧縮される。例えば、メモリ内の近隣の（例えば、隣接する）テンソルデータ間の差異が低減されるとデータ冗長性が低減されるため、データが（例えば、デルタベースの圧縮を使用して）より効率的に圧縮される。

図５は、本開示の特徴による機械学習動作を実行する推論段階中の圧縮を改善する例示的な方法を示すフロー図である。

ブロック５０２において、方法５００は、入力テンソルを受信することを含む。例えば、入力テンソルは、ＣＮＮの層において推論段階中に（例えば、プロセッサによって）受信される。

ブロック５０４において、方法５００は、推論段階中に、入力テンソルに適用される複数のソートされたフィルタを受信することを含む。推論段階中に受信されたソートされたフィルタは、例えば、図４に示すソートされたフィルタ等のように、推論段階の前に（例えば、トレーニング中に）ソートされたフィルタである。

入力テンソルが圧縮されたフォーマットでメモリから読み取られると、ブロック５０６において点線で示すように、入力テンソルが解凍される。例えば、層の入力テンソルは、テンソルが動作（例えば、畳み込みカーネル、プーリング動作）を受けることができるように、プロセッサによって解凍され、結果として、次の層の新しい活性化テンソルをもたらす。いくつかの実施例では、入力テンソルは、圧縮されたフォーマットでメモリに書き込まれ、圧縮されていない入力テンソルは、ローカルに（例えば、プロセッサのローカルに）記憶され、機械学習ニューラルネットワークの次の層の次の入力データとして使用される。入力テンソルが圧縮されたフォーマットでメモリから読み取られない場合、方法は、ブロック５０８に進む。

ブロック５０８において、方法５００は、ブロック５０４で受信した入力テンソルに複数のソートされたフィルタを適用することを含む。例えば、複数のソートされたフィルタは、各特徴マップ３０２の平均要素振幅の類似性に従ってソートされたフィルタである。

ブロック５１０において、方法５００は、テンソルデータ（例えば、結果として生じる複数の特徴マップ３０２）を圧縮することを含む。例えば、テンソルデータは、互いに対する特徴マップの類似性に従って圧縮され、リンク（例えば、バス）にわたって非ローカルメモリ（例えば、オフチップメモリ）に送信される。したがって、ソートされる際、近隣のデータ（例えば、特徴マップ）は互いにより類似しているので、ソートされたデータは、フィルタが類似性に従ってソートなしで適用される場合よりも効率的に圧縮される。

ブロック５１２において、方法５００は、テンソルデータを記憶することを含む。例えば、テンソルデータは、ＮＨＷＣフォーマット化を使用してメモリに記憶される。類似性に従ってチャネルがソートされるので、推論段階中にモデルを実行するために行われるメモリ転送の数が低減される（すなわち、メモリ帯域幅が低減される）。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。

図に示され及び／又は本明細書に記載された様々な機能ユニット（プロセッサ１０２、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、出力デバイス１１０、加速処理デバイス１１６、スケジューラ１３６、グラフィック処理パイプライン１３４、計算ユニット１３２、ＳＩＭＤユニット１３８を含むが、これらに限定されない）は、汎用コンピュータ、プロセッサ若しくはプロセッサコアとして、又は、非一時的なコンピュータ可読記憶媒体内、若しくは、汎用コンピュータ、プロセッサ若しくはプロセッサコアによって実行可能な別の媒体内に記憶されたプログラム、ソフトウェア若しくはファームウェアとして実装され得る。提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実装することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、及び／又は、状態機械が挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリスト等の他の中間データ（そのような命令は、コンピュータ可読媒体に記憶させることが可能である）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークとすることができ、このマスクワークをその後の半導体製造プロセスにおいて使用して、本開示の特徴を実装するプロセッサを製造する。

本明細書に提供される方法又はフロー図は、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（random access memory、ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、磁気媒体（例えば、内蔵ハードディスク及びリムーバブルディスク）、磁気光学媒体、並びに、光学媒体（例えば、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ））が挙げられる。

Claims

機械学習ニューラルネットワーク動作を実行するための処理デバイスであって、
メモリと、
プロセッサと、を備え、
前記プロセッサは、
前記機械学習ニューラルネットワーク動作の層において入力データを受信することと、
前記入力データに適用される複数のソートされたフィルタを受信することと、
前記複数のソートされたフィルタを前記入力データに適用して、複数の異なる特徴マップを生成することと、
前記特徴マップの互いに対する類似性に従って、前記複数の異なる特徴マップを圧縮することと、
前記複数の異なる特徴マップを前記メモリに記憶することと、
を行うように構成されている、
処理デバイス。
前記機械学習ニューラルネットワーク動作は推論段階で実行され、前記ソートされたフィルタは、前記推論段階で前記機械学習ニューラルネットワーク動作を実行する前のトレーニング中にソートされる、
請求項１の処理デバイス。
前記プロセッサは、ＮＨＷＣフォーマットを使用して前記複数の異なる特徴マップを前記メモリに記憶するように構成されている、
請求項１の処理デバイス。
前記プロセッサは、デルタベースの圧縮を使用して前記複数の異なる特徴マップを圧縮するように構成されている、
請求項１の処理デバイス。
前記入力データはテンソルである、
請求項１の処理デバイス。
前記異なる特徴マップの類似性は、前記異なる特徴マップの互いに対する平均要素振幅の類似性である、
請求項５の処理デバイス。
前記プロセッサは、前記圧縮された異なる特徴マップを、リンクを介して転送することによって、前記類似性に従って、前記圧縮された異なる特徴マップを前記メモリに記憶するように構成されており、
前記ソートされたフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量は、ソートされていないフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量よりも少ない、
請求項１の処理デバイス。
前記プロセッサは、前記入力データが圧縮されたフォーマットで前記メモリから読み取られる場合に、前記入力データを解凍するように構成されている、
請求項１の処理デバイス。
前記プロセッサは、前記入力データを前記圧縮されたフォーマットで前記メモリに書き込み、前記入力データを、前記機械学習ニューラルネットワークの次の層の次の入力データとして、圧縮されていないフォーマットで使用するように構成されている、
請求項８の処理デバイス。
機械学習処理方法であって、
機械学習ニューラルネットワークの層において入力データを受信することと、
前記入力データに適用される複数のソートされたフィルタを受信することと、
前記複数のソートされたフィルタを前記入力データに適用して、複数の異なる特徴マップを生成することと、
前記特徴マップの互いに対する類似性に従って、前記複数の異なる特徴マップを圧縮することと、
前記複数の異なる特徴マップをメモリに記憶することと、を含む、
機械学習処理方法。
機械学習ニューラルネットワーク動作は推論段階で実行され、前記ソートされたフィルタは、前記推論段階で前記機械学習ニューラルネットワーク動作を実行する前のトレーニング中にソートされる、
請求項１０の方法。
ＮＨＷＣフォーマットを使用して前記複数の異なる特徴マップを前記メモリに記憶することを含む、
請求項１０の方法。
デルタベースの圧縮を使用して前記複数の異なる特徴マップを圧縮することを含む、
請求項１０の方法。
前記入力データはテンソルである、
請求項１０の方法。
各特徴マップは前記テンソルの異なる表現であり、
前記異なる特徴マップの類似性は、前記異なる特徴マップの互いに対する平均要素振幅の類似性である、
請求項１４の方法。
前記圧縮された異なる特徴マップを、リンクを介して転送することによって、前記類似性に従って、前記圧縮された異なる特徴マップを前記メモリに記憶することを含み、
前記ソートされたフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量は、ソートされていないフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量よりも少ない、
請求項１０の方法。
前記入力データが圧縮されたフォーマットで前記メモリから読み取られる場合に、前記入力データを解凍することを含む、
請求項１０の方法。
前記入力データを前記圧縮されたフォーマットで前記メモリに書き込むことと、前記入力データを、前記機械学習ニューラルネットワークの次の層の次の入力データとして、圧縮されていないフォーマットで使用することと、を含む、
請求項１７の方法。
機械学習処理方法をコンピュータに実行させるための命令が記憶されたコンピュータ可読記憶媒体であって、
前記機械学習処理方法は、
機械学習ニューラルネットワークの層において入力データを受信することと、
前記入力データに適用される複数のソートされたフィルタを受信することと、
前記入力データを解凍することと、
前記複数のソートされたフィルタを前記入力データに適用して、複数の異なる特徴マップを生成することと、
前記特徴マップの互いに対する類似性に従って、前記複数の異なる特徴マップを圧縮することと、
前記複数の異なる特徴マップをメモリに記憶することと、を含む、
コンピュータ可読記憶媒体。
機械学習ニューラルネットワーク動作は推論段階で実行され、前記ソートされたフィルタは、前記推論段階で前記機械学習ニューラルネットワーク動作を実行する前のトレーニング中にソートされる、
請求項１９のコンピュータ可読記憶媒体。