JP2023519564A - 機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え - Google Patents

機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え Download PDF

Info

Publication number
JP2023519564A
JP2023519564A JP2022556479A JP2022556479A JP2023519564A JP 2023519564 A JP2023519564 A JP 2023519564A JP 2022556479 A JP2022556479 A JP 2022556479A JP 2022556479 A JP2022556479 A JP 2022556479A JP 2023519564 A JP2023519564 A JP 2023519564A
Authority
JP
Japan
Prior art keywords
feature maps
memory
input data
machine learning
different
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022556479A
Other languages
English (en)
Inventor
ハリリ アラシュ
サイーディ メーディ
イバノビッチ ボリス
シネス ガボール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATI Technologies ULC
Original Assignee
ATI Technologies ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATI Technologies ULC filed Critical ATI Technologies ULC
Publication of JP2023519564A publication Critical patent/JP2023519564A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/3002Conversion to or from differential modulation
    • H03M7/3048Conversion to or from one-bit differential modulation only, e.g. delta modulation [DM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Neurology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

機械学習ニューラルネットワーク動作を実行するための処理デバイスは、メモリ及びプロセッサを含む。プロセッサは、機械学習ニューラルネットワーク動作の層において入力データを受信し、入力データに適用される複数のソートされたフィルタを受信し、複数のソートされたフィルタを入力データに適用して複数の異なる特徴マップを生成し、特徴マップの互いに対する類似性に従って複数の異なる特徴マップを圧縮し、複数の異なる特徴マップをメモリに記憶するように構成されている。【選択図】図5

Description

(関連出願の相互参照)
本願は、2020年3月31日に出願された米国特許出願第16/836,785号の利益を主張し、その内容は、参照により本明細書に組み込まれる。
機械学習(例えば、深層学習)は、特定のタスクを実行するための予測又は決定(例えば、画像が特定のオブジェクトを含むかどうか)を行うために、様々な技術(例えば、画像分類)で広く使用されている。畳み込みニューラルネットワーク(convolutional neural network、CNN)は、機械学習用途で広く使用されている深層学習アルゴリズムのクラスである。これらのネットワークは、典型的には、複数の層を含む。各層において、フィルタのセットが前の層の出力に適用され、各層の出力は、活性化(activations)又は特徴マップ(feature maps)として知られている。ネットワーク内の最初及び最後の層は、それぞれ入力層及び出力層として知られており、最初及び最後の層の間の層は、典型的には、隠れ層(hidden layers)として知られている。
教師あり学習の機械学習モデルは、特定のタスクを実行するための予測又は決定(例えば、画像が特定のオブジェクトを含むかどうか)を行うためにトレーニングされる。トレーニング中、モデルは、異なるデータにさらされる。各層において、モデルは、データを変換し、その動作の精度に関するフィードバックを受信する。推論段階中に、トレーニングされたモデルは、試験サンプル(例えば、入力テンソル)に対する出力を推測又は予測するために使用される。
添付の図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。
本開示の1つ以上の特徴を実装することができる例示的なデバイスのブロック図である。 さらなる詳細を示す図1のデバイスのブロック図である。 本開示の特徴による、メモリにソートされる前のNHWCフォーマット化に従う例示的な活性化テンソル値の記憶レイアウトを示す図である。 特徴マップの類似性に従う図3に示す特徴マップの例示的なソート、及び、ソートすることによる、NHWCフォーマット化を使用した、メモリに記憶されたテンソル値の例示的なメモリレイアウトを示す図である。 本開示の特徴による、機械学習動作を実行する例示的な方法を示すフロー図である。
活性化及び特徴マップという用語は、本開示において互換的に使用される。CNNは、異なるタイプの技術用途で使用される。簡略化された説明のために、本明細書に記載される例は、画像分析のためのCNNを含む。
CNNモデルの活性化(完全又は部分的)は、特定のアプリケーションに応じて、各層又は複数の層のメモリに書き込まれ、そこから読み出される。各層の出力は、例えば、特徴マップ(すなわち、チャネル)CのN個のバッチに分割され、各々が、画像を表し、各々が、高さ(H)及び幅(W)によって定義されるサイズを有する画像セットを含む、4次元(4D)活性化テンソルである。活性化テンソルは、次の層の新しい活性化テンソルをもたらす、層(例えば、畳み込みカーネル、プーリング動作)によって定義される動作を受ける。
深層学習モデルは、通常、有意なメモリ帯域幅を使用し、これは、帯域幅のボトルネックにつながり、性能に悪影響を及ぼし、電力消費の増加をもたらし得る。活性化テンソルデータを機械学習ニューラルネットワークの異なる層に記憶するために使用されるメモリの量は、典型的には、アプリケーションによっては、活性化テンソルデータをオンチップメモリに保存することができないほど大きい。したがって、活性化テンソルデータを記憶することは、オフチップメモリへの及びオフチップメモリからのデータの転送を含む。
転送されるテンソルデータは、例えば、デルタベースの圧縮アルゴリズム等の任意の数の圧縮アルゴリズムを使用して圧縮され、これは、シーケンシャルデータ間の差異(デルタ)の形態でデータを記憶又は送信する。差異が小さい場合、デルタベースの圧縮は、データ冗長性を大幅に低減する。したがって、デルタベースの圧縮アルゴリズムの効率は、メモリに記憶された隣接するデータ間の類似性に依存する。
本願は、ソートされたフィルタを入力テンソルに適用することによって、機械学習モデルの推論段階中に、メモリ転送されるテンソルを効率的に圧縮するための処理デバイス及び方法を提供する。フィルタは、トレーニング段階中に得られる特徴マップの類似性に従ってソートされる。すなわち、トレーニング段階中に、特徴マップのテンソル値が、互いに対するチャネルの類似性に従ってメモリ内の場所に記憶される順序(すなわち、ソート)を変更することによって、モデルが判定される。例えば、特徴マップの並べ替え(すなわち、ソート)は、特徴マップの平均要素振幅(例えば、ピクセル強度)の類似性(すなわち、チャネルの類似性)に基づいている。しかしながら、他のタイプのパラメータによる類似性に基づいて、特徴の並べ替えを実装することができる。また、特徴の並べ替えは、例えば、1次元又は2次元の離散勾配又は分散に基づいて実施され得る。
テンソルデータは、例えば、NHWC(すなわち、チャネルファースト)又はNCHW(すなわち、幅ファースト)等の異なるフォーマットでメモリに書き込むことができる。NHWC(又はチャネルが最初である他のメモリレイアウト)では、コロケーション(co-located)されたチャネルのコロケーションされた要素がメモリ内で隣接する。メモリ内で隣接する要素の類似性は、圧縮アルゴリズムの圧縮効率に影響を及ぼす。
1つのアプリケーションでは、テンソルデータは、デルタベースの圧縮アルゴリズムを使用して圧縮される。しかしながら、テンソルデータの圧縮は、辞書ベースの圧縮アルゴリズム等の他のタイプの圧縮アルゴリズムを使用して、本開示の特徴に従って実装され得る。
メモリ及びプロセッサを含む機械学習ニューラルネットワーク動作を実行するための処理デバイスが提供される。プロセッサは、機械学習ニューラルネットワーク動作の層において、入力データを受信し、入力データに適用される複数のソートされたフィルタを受信し、複数のソートされたフィルタを入力データに適用して、複数の異なる特徴マップを生成し、特徴マップの互いに対する類似性に従って複数の異なる特徴マップを圧縮し、複数の異なる特徴マップをメモリに記憶するように構成されている。
機械学習ニューラルネットワークの層において、入力データを受信することと、入力データに適用される複数のソートされたフィルタを受信することと、複数のソートされたフィルタを入力データに適用して、複数の異なる特徴マップを生成することと、特徴マップの互いに対する類似性に従って複数の異なる特徴マップを圧縮することと、複数の異なる特徴マップをメモリに記憶することと、を含む機械学習処理方法が提供される。
機械学習ニューラルネットワークの層において、入力データを受信することと、入力データに適用される複数のソートされたフィルタを受信することと、複数のソートされたフィルタを入力データに適用して、複数の異なる特徴マップを生成することと、特徴マップの互いに対する類似性に従って、複数の異なる特徴マップを圧縮することと、複数の異なる特徴マップをメモリに記憶することと、を含む機械学習処理方法をコンピュータに実行させるための記憶された命令を含む、非一時的なコンピュータ可読記憶媒体が提供される。
図1は、本開示の1つ以上の特徴を実装することができる例示的なデバイス100のブロック図である。デバイス100は、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話又はタブレットコンピュータを含むことができる。デバイス100は、プロセッサ102と、メモリ104と、記憶装置106と、1つ以上の入力デバイス108と、1つ以上の出力デバイス110と、を含む。また、デバイス100は、オプションで、入力ドライバ112及び出力ドライバ114を含むことができる。デバイス100は、図1に示されていない追加の構成要素を含むことができることを理解されたい。
様々な代替例では、プロセッサ102は、中央処理ユニット(central processing unit、CPU)、グラフィック処理ユニット(graphics processing unit、GPU)、同じダイ上に位置するCPU及びGPU、又は、1つ以上のプロセッサコアを含み、各プロセッサコアは、CPU若しくはGPU又はスタンドアローンアクセラレータとすることができる。様々な代替例では、メモリ104は、プロセッサ102と同じダイ上に位置するか、又は、プロセッサ102とは別に位置する。メモリ104は、揮発性又は不揮発性メモリ(例えば、ランダムアクセスメモリ(RAM)、ダイナミックRAM、キャッシュ)を含む。
記憶装置106は、固定又はリムーバブル記憶装置(例えば、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ)を含む。入力デバイス108は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体認証スキャナ、又は、ネットワーク接続(例えば、無線IEEE802信号の送信及び/又は受信のための無線ローカルエリアネットワークカード)を含むが、これらに限定されない。出力デバイス110は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、1つ以上の光、アンテナ、又は、ネットワーク接続(例えば、無線IEEE802信号の送信及び/又は受信のための無線ローカルエリアネットワークカード)を含むが、これらに限定されない。
入力ドライバ112は、プロセッサ102及び入力デバイス108と通信し、プロセッサ102が入力デバイス108から入力を受信することを可能にする。出力ドライバ114は、プロセッサ102及び出力デバイス110と通信し、プロセッサ102が出力デバイス110に出力を送信することを可能にする。入力ドライバ112及び出力ドライバ114はオプションの構成要素であり、入力ドライバ112及び出力ドライバ114が存在しない場合、デバイス100が同様に動作することに留意されたい。出力ドライバ114は、ディスプレイデバイス118に結合された加速処理デバイス(accelerated processing device、「APD」)116を含む。APDは、プロセッサ102から計算コマンド及びグラフィックスレンダリングコマンドを受け入れて、それらの計算及びグラフィックスレンダリングコマンドを処理し、表示のためにディスプレイデバイス118に出力を提供する。以下に更に詳細に説明するように、APD116は、単一命令複数データ(single-instruction-multiple-data、「SIMD」)パラダイムに従って計算を行うための1つ以上の並列処理ユニットを含む。様々な機能は、本明細書では、APD116によって又はAPD116と併せて行われるものとして説明されているが、様々な代替例では、APD116によって行われるものとして説明される機能は、ホストプロセッサ(例えば、プロセッサ102)によって駆動されず、ディスプレイデバイス118にグラフィック出力を提供する同様の能力を有する他のコンピューティングデバイスによって追加的又は代替的に行われる。例えば、SIMDパラダイムに従って処理タスクを行う任意の処理システムが、本明細書で説明する機能を行い得ることが企図される。代替的に、SIMDパラダイムに従って処理タスクを行わないコンピューティングシステムが、本明細書で説明する機能を行うことが企図される。
図2は、デバイス100のブロック図であり、APD116上の処理タスクの実行に関するさらなる詳細を示している。プロセッサ102は、システムメモリ104内で、プロセッサ102による実行のための1つ以上の制御論理モジュールを維持する。制御論理モジュールは、オペレーティングシステム120と、カーネルモードドライバ122と、アプリケーション126と、を含む。これらの制御論理モジュールは、プロセッサ102及びAPD116の動作の様々な特徴を制御する。例えば、オペレーティングシステム120は、ハードウェアと直接通信し、プロセッサ102上で実行される他のソフトウェアのためのハードウェアへのインターフェースを提供する。カーネルモードドライバ122は、例えば、プロセッサ102上で実行されるソフトウェア(例えば、アプリケーション126)にアプリケーションプログラミングインターフェース(application programming interface、「API」)を提供して、APD116の様々な機能にアクセスすることによって、APD116の動作を制御する。また、カーネルモードドライバ122は、APD116の処理構成要素(以下に更に詳細に説明するSIMDユニット138等)によって実行するためのプログラムをコンパイルするジャストインタイムコンパイラを含む。
APD116は、並列処理に適し得るグラフィック動作及び非グラフィック動作等の選択された機能のためのコマンド及びプログラムを実行する。APD116は、プロセッサ102から受信したコマンドに基づいて、ピクセル動作、幾何学計算及びディスプレイデバイス118への画像のレンダリング等のようなグラフィックスパイプライン動作を実行するために使用することができる。また、APD116は、プロセッサ102から受信したコマンドに基づいて、ビデオ、物理シミュレーション、計算流体力学又は他のタスクに関連する動作等のようなグラフィック動作に直接関連しない計算処理動作を実行する。
APD116は、プロセッサ102の要求で、SIMDパラダイムに従って並列に演算を行う1つ以上のSIMDユニット138を含む計算ユニット132を含む。SIMDパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。一例では、各SIMDユニット138は、16個のレーンを含み、各レーンは、SIMDユニット138内の他のレーンと同時に同じ命令を実行するが、その命令を異なるデータで実行することができる。レーンは、全てのレーンが所定の命令を実行する必要がない場合、予測でオフに切り替えることができる。予測は、分岐制御フローを有するプログラムを実行するために使用することができる。より具体的には、制御フローが個々のレーンによって行われる計算に基づいている条件付き分岐又は他の命令を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測及び異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。
計算ユニット132内の実行の基本的単位は、ワークアイテムである。各ワークアイテムは、特定のレーンにおいて並列で実行されるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のSIMDユニット138上の「ウェーブフロント(wavefront)」として同時に実行することができる。1つ以上のウェーブフロントが、「ワークグループ」に含まれ、これは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行することができる。代替例では、ウェーブフロントは、単一のSIMDユニット138上で順次、又は、異なるSIMDユニット138上で並列に部分的若しくは完全に実行される。ウェーブフロントは、単一のSIMDユニット138上で同時に実行することができるワークアイテムの最大集合体と考えることができる。したがって、プロセッサ102から受信されたコマンドが、プログラムが単一のSIMDユニット138上で同時に実行できない程度に特定のプログラムを並列化させることを示す場合、そのプログラムは、2つ以上のSIMDユニット138上に並列化されるか、又は、同じSIMDユニット138上で直列化される(又は必要に応じて並列化及び直列化の両方がなされる)ウェーブフロントに分割される。スケジューラ136は、異なる計算ユニット132及びSIMDユニット138上の様々なウェーブフロントのスケジューリングに関連する動作を行う。
計算ユニット132によって与えられる並列処理は、ピクセル値計算、頂点変換及び他のグラフィック動作等のグラフィック関連動作に好適である。したがって、場合によっては、プロセッサ102からのグラフィック処理コマンドを受け入れるグラフィック処理パイプライン134は、並列で実行するために計算タスクを計算ユニット132に提供する。
また、計算ユニット132は、グラフィックに関連しないか又はグラフィック処理パイプライン134の「通常の」動作の一部(例えば、グラフィック処理パイプライン134の動作に対して行われる処理を補足するために行われるカスタム動作)として行われない計算タスクを行うために使用される。プロセッサ102上で実行されるアプリケーション126又は他のソフトウェアは、そのような計算タスクを定義するプログラムを、実行のためにAPD116に送信する。
APD116は、深層学習モデルを含む機械学習モデルを実行するように構成されている。APD116は、機械学習ニューラルネットワークの異なる層に活性化テンソルデータを記憶するように構成されている。APD116は、各層において、前の層の入力データ(例えば、画像、活性化テンソル)への動作(例えば、畳み込みカーネル、プーリング動作)を行い、次の層のためのテンソルデータを提供するために入力データにフィルタを適用するように構成されている。
上述したように、ニューラルネットワークの異なる層に活性化テンソルデータを記憶するために使用されるメモリの量は、典型的には、活性化テンソルデータをオンチップメモリ(例えば、APD116のメモリ)に保存できないほど(例えば、初期層において)大きい。したがって、活性化テンソルデータを記憶することは、リンク(例えば、バス)を介して、APD116とオフチップメモリ(例えば、メモリ104)との間のデータの転送を含む。APD116は、オフチップメモリに転送されるデータを圧縮する(例えば、帯域幅を節約する)ように構成されている。
APD116は、テンソル値が複数の特徴マップの類似性パラメータの何れかに従って記憶される順序を変更することと、チャネルファーストの構成を用いる複数の異なるタイプのメモリフォーマット化のうち何れかを使用することと、複数のタイプの圧縮アルゴリズムの何れかを使用することと、によってテンソルデータを圧縮するように構成されている。簡略化された説明のために、本明細書に記載の実施例は、特徴マップの平均要素振幅(例えば、ピクセル強度)の類似性(すなわち、チャネルの類似性)に基づいて、NHWC(すなわち、チャネルファースト)フォーマット化に従う、テンソル値がメモリに書き込まれる順序を変更することによる、4Dテンソル値のデルタベースの圧縮を含む。
図3は、本開示の特徴に従ってメモリ内でソートされる前の、NHWCフォーマット化に従う、例示的な4D活性化テンソル値の記憶レイアウトを示す図である。
NHWCでは、活性化テンソル(例えば、4D活性化テンソル)は、チャネルファーストで記憶される。例えば、4D活性化テンソルは、論理インデックス(n、h、w、c)を入力し、各値が位置する場所にアドレス変位を返すオフセット関数を介して各4Dテンソル値をマッピングすることによってメモリに書き込まれる。したがって、メモリに隣接して記憶された2つのテンソル値は、主に同じインデックスn、h、wを共有するが、異なるwインデックスを含む(例えば、第2のテンソル値のwインデックスは、第1のテンソル値と1だけ異なる)。大文字は、活性化テンソルの4次元(すなわち、N、H、W、C)を表し、小文字は、各次元についてのインデックス(すなわち、n、h、w、c)を表す。
例えば、NHWCフォーマット化が、例えば、活性化を各々表す複数の特徴マップのテンソル値を記憶するために使用される場合、各特徴マップの第1の場所(例えば、値行1、列1)の要素は、最初にメモリに記憶され、その後、各バッチの要素の各々がメモリに記憶されるまで、各特徴マップの第2の場所(例えば、値行1、列2)の要素等が記憶される。
図3に示す活性化テンソルは、8つの特徴マップ302(すなわち、8つのチャネル)を含み、各特徴マップ302は、2×2要素のマトリックスである。図3に示す特徴マップの次元は、単なる例である。本開示の特徴は、図3に示すものとは異なる次元(すなわち、幅Wの行及び高さHの列)を有する任意の数の特徴マップ(すなわち、チャネル)を使用して実装することができる。
各特徴マップ302は、異なるフィルタ(例えば、量み)が適用される入力テンソルの異なる表現である。例えば、入力テンソルは、第1のフィルタを使用して動作(例えば、畳み込みカーネル、プーリング動作)を受け、これは、要素値00、01、02、03を含む第1の特徴マップ302(C)を生成する。次いで、入力テンソルは、第2のフィルタを使用する動作を受け、これは、要素値04、05、06、07を含む第2の特徴マップ302(C)を生成する。プロセスは、異なるフィルタで継続して、各特徴マップ302(C~C)を生成する。
また、図3は、本開示の特徴による、メモリ内の要素値をソートすることなく(すなわち、並べ替えることなく)、各要素値がNHWCフォーマット化に従って記憶される、メモリ部分304内の場所を示す例示的なメモリレイアウトを示している。図示したように、第1の特徴マップ302(C)の第1の要素00は、メモリ部分304内の第1の場所に記憶される。次に、第2の特徴マップ302(C)のコロケーションされた第1の要素04は、第1の特徴マップ302(C)の第1の要素00に隣接するメモリ部分304内の第2の場所に記憶される。
残りの特徴マップ302(C~C)のコロケーションされた第1の要素(すなわち、08、12、16、20、24、28)の各々が、メモリ部分304の次の場所に記憶された後に、第1の特徴マップ302(C)の第2の要素01(要素00から幅Wに沿って)が記憶され、その後、第2の特徴マップ302(C)のコロケーションされた第2の要素05が記憶される。
残りの特徴マップ302(C~C)のコロケーションされた第2の要素(すなわち、09、13、17、21、25、29)の各々が、メモリ部分304内の次の場所に記憶された後に、第1の特徴マップ304(C)の要素02(要素00から高さHに沿って)が記憶され、その後、第2の特徴マップ302(C)のコロケーションされた要素06、次いで、メモリ部分304内の次の場所にある残りの特徴マップ302(C~C)のコロケーションされた要素(すなわち、10、14、18、22、26、30)の各々が記憶される。
要素30が記憶された後に、第1の特徴マップ304(C)の要素03が記憶され、第2の特徴マップ302(C)のコロケーションされた要素07が続き、続いて、残りのコロケーションされた要素(11、15、19、23、27、31)がメモリ部分304内に記憶される。
上述したように、テンソル値の圧縮(例えば、デルタベースの圧縮)の効率は、例えば、メモリに記憶された隣接するデータ間の類似性に依存する。
図4は、図3に示す特徴マップ302が、特徴マップの類似性に従ってトレーニング段階中にどのようにソートされるかの例、及び、ソートに従って、NHWCフォーマット化を使用して、メモリに記憶された要素値の例示的なメモリレイアウトを示している。すなわち、チャネルは、メモリ内の近隣データ要素が、ソートされていないチャネルよりも互いにより類似するように、トレーニング中にソートされる。類似性に従ってチャネルがソートされるので、推論段階中にモデルを実行するために行われるメモリ転送の数が低減される(すなわち、メモリ帯域幅が低減される)。
図3及び図4に示す各要素についてのビット数(すなわち、4)は、単なる例である。他の実施例では、本開示の特徴は、異なる数のビットによって表される要素を使用して実装される。各要素は、例において4ビットで表されるため、各要素(例えば、整数要素)の振幅を表すために、16個の異なる振幅(例えば、強度)レベル(すなわち、レベル0~レベル15)がある。
トレーニングの後又は間(すなわち、推論段階の前)に、異なる特徴マップ302(すなわち、チャネル)のデータが検査され、特徴マップ302の互いに対する類似性を判定する。その結果に基づいて、活性化に適用される複数のフィルタの各々が、平均要素振幅値に基づいて評価することができる新しい活性化テンソルを生成することが(トレーニングの間又は後に)判定される。
以下の表1は、トレーニング段階中に判定された例示的なフィルタ情報を示しており、これは、異なる特徴マップ302(C~C)の平均要素振幅を含み、結果として、8つの異なるフィルタが入力テンソルに適用され、入力テンソルが動作(例えば、畳み込みカーネル、プーリング動作)を受ける。例えば、平均要素振幅は、異なるフィルタを入力テンソルに適用する多くの反復を含み得るモデルのトレーニングの間に判定される。
Figure 2023519564000002
例えば、表1に示すように、入力テンソルに適用される第1のフィルタは、7の平均要素振幅値を有する第1の特徴マップ(C)をもたらし、入力テンソルに適用される第2のフィルタは、10の平均要素振幅値を有する第2の特徴マップ302(C)をもたらし、入力テンソルに適用される第3のフィルタは、14の平均要素振幅値を有する第3の特徴マップ302(C)をもたらし、入力テンソルに適用される第4のフィルタは、8の平均要素振幅値を有する第4の特徴マップ302(C)をもたらし、入力テンソルに適用される第5のフィルタは、11の平均要素振幅値を有する第1の特徴マップ(C)をもたらし、入力テンソルに適用される第6のフィルタは、4の平均要素振幅値を有する第2の特徴マップ302(C)をもたらし、入力テンソルに適用される第7のフィルタは、9の平均要素振幅値を有する第3の特徴マップ302(C)をもたらし、入力テンソルに適用される第8のフィルタは、13の平均要素振幅値を有する第4の特徴マップ302(C)をもたらす。
フィルタ情報(例えば、表1に示す情報)に基づいて、ニューラルネットワークは、出力チャネルを並べ替える(すなわち、ソートする)ためにフィルタをシャッフルすることによって再構成される。例えば、8つのフィルタは、フィルタが、特徴マップ302の類似性(例えば、平均要素振幅の類似性)に従って再ソートされることなく、NHWCフォーマット化によって適用される、図3に示す順序とは異なる順序で入力テンソルデータに適用される。次いで、要素値は、NHWCフォーマット化を使用して、メモリに記憶される。
例えば、フィルタは、図4に示す特徴マップ302の順序とは異なる順序で入力テンソルデータに適用される。すなわち、フィルタは、表1に示す所定の平均要素振幅を使用して、特徴マップの類似性に従ってソートされる。したがって、図4に示すように、特徴マップ302(C)の第1の要素20は、メモリ部分402内の第1の場所に記憶される。次に、特徴マップ302(C)のコロケーションされた第1の要素00は、特徴マップ302(C)の第1の要素20に隣接するメモリ部分402内の第2の場所に記憶される。残りの特徴マップ302(C、C6、、C4、、C)のコロケーションされた第1の要素(すなわち、12、24、04、16、28、08)の各々が、メモリ部分402内の次の場所に記憶された後に、特徴マップ302(C)の第2の要素21(要素20からの幅Wに沿って)が記憶され、その後、特徴マップ302(C)のコロケーションされた第2の要素01が記憶される。
残りの特徴マップ302(C、C6、、C4、、C)のコロケーションされた第2の要素(すなわち、13、25、05、17、29、09)の各々がメモリ部分402内の次の場所に記憶された後に、特徴マップ402(C)の要素22(要素20からの高さHに沿って)が記憶され、その後、特徴マップ302(C)のコロケーションされた要素02が記憶される。残りの特徴マップ302(C、C6、、C4、、C)のコロケーションされた要素(すなわち、14、26、06、18、30、10)の各々がメモリ部分402内の次の場所に記憶された後に、特徴マップ402(C)の要素23が記憶され、その後、残りの特徴マップ302(C、C6、、C、C、C)のコロケーションされた要素03、15、27、07、19、31、11が記憶される。
上記のソートされたフィルタを含む、トレーニング中に開発されたモデルを使用すると、ソートされたフィルタは、機械学習モデルの推論段階中に入力テンソルに適用される。ソートされた隣接するデータ項目の類似性により、テンソルデータは、モデルを実行する推論段階中により効率的に圧縮される。例えば、メモリ内の近隣の(例えば、隣接する)テンソルデータ間の差異が低減されるとデータ冗長性が低減されるため、データが(例えば、デルタベースの圧縮を使用して)より効率的に圧縮される。
図5は、本開示の特徴による機械学習動作を実行する推論段階中の圧縮を改善する例示的な方法を示すフロー図である。
ブロック502において、方法500は、入力テンソルを受信することを含む。例えば、入力テンソルは、CNNの層において推論段階中に(例えば、プロセッサによって)受信される。
ブロック504において、方法500は、推論段階中に、入力テンソルに適用される複数のソートされたフィルタを受信することを含む。推論段階中に受信されたソートされたフィルタは、例えば、図4に示すソートされたフィルタ等のように、推論段階の前に(例えば、トレーニング中に)ソートされたフィルタである。
入力テンソルが圧縮されたフォーマットでメモリから読み取られると、ブロック506において点線で示すように、入力テンソルが解凍される。例えば、層の入力テンソルは、テンソルが動作(例えば、畳み込みカーネル、プーリング動作)を受けることができるように、プロセッサによって解凍され、結果として、次の層の新しい活性化テンソルをもたらす。いくつかの実施例では、入力テンソルは、圧縮されたフォーマットでメモリに書き込まれ、圧縮されていない入力テンソルは、ローカルに(例えば、プロセッサのローカルに)記憶され、機械学習ニューラルネットワークの次の層の次の入力データとして使用される。入力テンソルが圧縮されたフォーマットでメモリから読み取られない場合、方法は、ブロック508に進む。
ブロック508において、方法500は、ブロック504で受信した入力テンソルに複数のソートされたフィルタを適用することを含む。例えば、複数のソートされたフィルタは、各特徴マップ302の平均要素振幅の類似性に従ってソートされたフィルタである。
ブロック510において、方法500は、テンソルデータ(例えば、結果として生じる複数の特徴マップ302)を圧縮することを含む。例えば、テンソルデータは、互いに対する特徴マップの類似性に従って圧縮され、リンク(例えば、バス)にわたって非ローカルメモリ(例えば、オフチップメモリ)に送信される。したがって、ソートされる際、近隣のデータ(例えば、特徴マップ)は互いにより類似しているので、ソートされたデータは、フィルタが類似性に従ってソートなしで適用される場合よりも効率的に圧縮される。
ブロック512において、方法500は、テンソルデータを記憶することを含む。例えば、テンソルデータは、NHWCフォーマット化を使用してメモリに記憶される。類似性に従ってチャネルがソートされるので、推論段階中にモデルを実行するために行われるメモリ転送の数が低減される(すなわち、メモリ帯域幅が低減される)。
本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。
図に示され及び/又は本明細書に記載された様々な機能ユニット(プロセッサ102、入力ドライバ112、入力デバイス108、出力ドライバ114、出力デバイス110、加速処理デバイス116、スケジューラ136、グラフィック処理パイプライン134、計算ユニット132、SIMDユニット138を含むが、これらに限定されない)は、汎用コンピュータ、プロセッサ若しくはプロセッサコアとして、又は、非一時的なコンピュータ可読記憶媒体内、若しくは、汎用コンピュータ、プロセッサ若しくはプロセッサコアによって実行可能な別の媒体内に記憶されたプログラム、ソフトウェア若しくはファームウェアとして実装され得る。提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実装することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ(digital signal processor、DSP)、複数のマイクロプロセッサ、DSPコアに関連する1つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路(Application Specific Integrated Circuit、ASIC)、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array、FPGA)回路、任意の他のタイプの集積回路(integrated circuit、IC)、及び/又は、状態機械が挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語(hardware description language、HDL)命令及びネットリスト等の他の中間データ(そのような命令は、コンピュータ可読媒体に記憶させることが可能である)の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークとすることができ、このマスクワークをその後の半導体製造プロセスにおいて使用して、本開示の特徴を実装するプロセッサを製造する。
本明細書に提供される方法又はフロー図は、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ(read only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、レジスタ、キャッシュメモリ、半導体メモリデバイス、磁気媒体(例えば、内蔵ハードディスク及びリムーバブルディスク)、磁気光学媒体、並びに、光学媒体(例えば、CD-ROMディスク及びデジタル多用途ディスク(digital versatile disk、DVD))が挙げられる。

Claims (20)

  1. 機械学習ニューラルネットワーク動作を実行するための処理デバイスであって、
    メモリと、
    プロセッサと、を備え、
    前記プロセッサは、
    前記機械学習ニューラルネットワーク動作の層において入力データを受信することと、
    前記入力データに適用される複数のソートされたフィルタを受信することと、
    前記複数のソートされたフィルタを前記入力データに適用して、複数の異なる特徴マップを生成することと、
    前記特徴マップの互いに対する類似性に従って、前記複数の異なる特徴マップを圧縮することと、
    前記複数の異なる特徴マップを前記メモリに記憶することと、
    を行うように構成されている、
    処理デバイス。
  2. 前記機械学習ニューラルネットワーク動作は推論段階で実行され、前記ソートされたフィルタは、前記推論段階で前記機械学習ニューラルネットワーク動作を実行する前のトレーニング中にソートされる、
    請求項1の処理デバイス。
  3. 前記プロセッサは、NHWCフォーマットを使用して前記複数の異なる特徴マップを前記メモリに記憶するように構成されている、
    請求項1の処理デバイス。
  4. 前記プロセッサは、デルタベースの圧縮を使用して前記複数の異なる特徴マップを圧縮するように構成されている、
    請求項1の処理デバイス。
  5. 前記入力データはテンソルである、
    請求項1の処理デバイス。
  6. 前記異なる特徴マップの類似性は、前記異なる特徴マップの互いに対する平均要素振幅の類似性である、
    請求項5の処理デバイス。
  7. 前記プロセッサは、前記圧縮された異なる特徴マップを、リンクを介して転送することによって、前記類似性に従って、前記圧縮された異なる特徴マップを前記メモリに記憶するように構成されており、
    前記ソートされたフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量は、ソートされていないフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量よりも少ない、
    請求項1の処理デバイス。
  8. 前記プロセッサは、前記入力データが圧縮されたフォーマットで前記メモリから読み取られる場合に、前記入力データを解凍するように構成されている、
    請求項1の処理デバイス。
  9. 前記プロセッサは、前記入力データを前記圧縮されたフォーマットで前記メモリに書き込み、前記入力データを、前記機械学習ニューラルネットワークの次の層の次の入力データとして、圧縮されていないフォーマットで使用するように構成されている、
    請求項8の処理デバイス。
  10. 機械学習処理方法であって、
    機械学習ニューラルネットワークの層において入力データを受信することと、
    前記入力データに適用される複数のソートされたフィルタを受信することと、
    前記複数のソートされたフィルタを前記入力データに適用して、複数の異なる特徴マップを生成することと、
    前記特徴マップの互いに対する類似性に従って、前記複数の異なる特徴マップを圧縮することと、
    前記複数の異なる特徴マップをメモリに記憶することと、を含む、
    機械学習処理方法。
  11. 機械学習ニューラルネットワーク動作は推論段階で実行され、前記ソートされたフィルタは、前記推論段階で前記機械学習ニューラルネットワーク動作を実行する前のトレーニング中にソートされる、
    請求項10の方法。
  12. NHWCフォーマットを使用して前記複数の異なる特徴マップを前記メモリに記憶することを含む、
    請求項10の方法。
  13. デルタベースの圧縮を使用して前記複数の異なる特徴マップを圧縮することを含む、
    請求項10の方法。
  14. 前記入力データはテンソルである、
    請求項10の方法。
  15. 各特徴マップは前記テンソルの異なる表現であり、
    前記異なる特徴マップの類似性は、前記異なる特徴マップの互いに対する平均要素振幅の類似性である、
    請求項14の方法。
  16. 前記圧縮された異なる特徴マップを、リンクを介して転送することによって、前記類似性に従って、前記圧縮された異なる特徴マップを前記メモリに記憶することを含み、
    前記ソートされたフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量は、ソートされていないフィルタから得られる前記圧縮された異なる特徴マップを記憶するために使用されるメモリ転送の量よりも少ない、
    請求項10の方法。
  17. 前記入力データが圧縮されたフォーマットで前記メモリから読み取られる場合に、前記入力データを解凍することを含む、
    請求項10の方法。
  18. 前記入力データを前記圧縮されたフォーマットで前記メモリに書き込むことと、前記入力データを、前記機械学習ニューラルネットワークの次の層の次の入力データとして、圧縮されていないフォーマットで使用することと、を含む、
    請求項17の方法。
  19. 機械学習処理方法をコンピュータに実行させるための命令が記憶されたコンピュータ可読記憶媒体であって、
    前記機械学習処理方法は、
    機械学習ニューラルネットワークの層において入力データを受信することと、
    前記入力データに適用される複数のソートされたフィルタを受信することと、
    前記入力データを解凍することと、
    前記複数のソートされたフィルタを前記入力データに適用して、複数の異なる特徴マップを生成することと、
    前記特徴マップの互いに対する類似性に従って、前記複数の異なる特徴マップを圧縮することと、
    前記複数の異なる特徴マップをメモリに記憶することと、を含む、
    コンピュータ可読記憶媒体。
  20. 機械学習ニューラルネットワーク動作は推論段階で実行され、前記ソートされたフィルタは、前記推論段階で前記機械学習ニューラルネットワーク動作を実行する前のトレーニング中にソートされる、
    請求項19のコンピュータ可読記憶媒体。
JP2022556479A 2020-03-31 2021-03-05 機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え Pending JP2023519564A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/836,785 US11568248B2 (en) 2020-03-31 2020-03-31 Feature reordering based on similarity for improved memory compression transfers during machine learning jobs
US16/836,785 2020-03-31
PCT/IB2021/051882 WO2021198810A1 (en) 2020-03-31 2021-03-05 Feature reordering based on similarity for improved memory compression transfers during machine learning jobs

Publications (1)

Publication Number Publication Date
JP2023519564A true JP2023519564A (ja) 2023-05-11

Family

ID=77857242

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022556479A Pending JP2023519564A (ja) 2020-03-31 2021-03-05 機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え

Country Status (6)

Country Link
US (1) US11568248B2 (ja)
EP (1) EP4128065A4 (ja)
JP (1) JP2023519564A (ja)
KR (1) KR20220161339A (ja)
CN (1) CN115362450A (ja)
WO (1) WO2021198810A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551089B2 (en) * 2020-03-31 2023-01-10 Ati Technologies Ulc Feature reordering based on sparsity for improved memory compression transfers during machine learning jobs
CN113971453A (zh) * 2020-07-22 2022-01-25 上海寒武纪信息科技有限公司 一种数据归一化处理方法、存储介质和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10511858B2 (en) * 2016-07-13 2019-12-17 Ati Technologies Ulc Bit packing for delta color compression
KR102301232B1 (ko) 2017-05-31 2021-09-10 삼성전자주식회사 다채널 특징맵 영상을 처리하는 방법 및 장치
WO2019143026A1 (ko) * 2018-01-16 2019-07-25 한국과학기술원 특징맵 압축을 이용한 이미지 처리 방법 및 장치
US11030485B2 (en) * 2018-03-30 2021-06-08 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for feature transformation, correction and regeneration for robust sensing, transmission, computer vision, recognition and classification

Also Published As

Publication number Publication date
EP4128065A1 (en) 2023-02-08
EP4128065A4 (en) 2024-05-01
US20210303994A1 (en) 2021-09-30
WO2021198810A1 (en) 2021-10-07
CN115362450A (zh) 2022-11-18
KR20220161339A (ko) 2022-12-06
US11568248B2 (en) 2023-01-31

Similar Documents

Publication Publication Date Title
US10803379B2 (en) Multi-memory on-chip computational network
US10846621B2 (en) Fast context switching for computational networks
CN112395547A (zh) 对张量进行图块遍历以进行卷积运算的方法和装置
CN111465943B (zh) 一种集成电路和用于神经网络处理的方法
JP2023519565A (ja) 機械学習ジョブ中の改善されたメモリ圧縮転送のためのスパース性に基づく特徴の再順序付け
US11144291B1 (en) Loop-oriented neural network compilation
US11567778B2 (en) Neural network operation reordering for parallel execution
JP2023519564A (ja) 機械学習ジョブ中にメモリ圧縮転送を改善するための類似性に基づく特徴の並べ替え
US20200387799A1 (en) Reducing computation in neural networks using self-modifying code
JP2022546271A (ja) カーネルチューニングパラメータを予測するための方法及び装置
US11461662B1 (en) Compilation time reduction for memory and compute bound neural networks
KR20230010672A (ko) 데이터 압축의 방법 및 장치
CN118043821A (zh) 混合稀疏压缩
US20190318229A1 (en) Method and system for hardware mapping inference pipelines
US20190354833A1 (en) Method and system for reducing communication frequency in neural network systems
US20230004385A1 (en) Accelerated processing device and method of sharing data for machine learning
US12008469B1 (en) Acceleration of neural networks with stacks of convolutional layers
US11782706B1 (en) Reconfigurable neural network processing based on subgraph recognition
US20230206395A1 (en) Hardware support for convolution operations
US11809849B1 (en) Global modulo allocation in neural network compilation
US20230004871A1 (en) Machine learning cluster pipeline fusion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240229