JP2024502225A

JP2024502225A - ワークロードが平準化された活性化スパース性を用いた畳込みのための方法およびシステム

Info

Publication number: JP2024502225A
Application number: JP2023527417A
Authority: JP
Inventors: シアオチーピン; イェンエンシュイ; ルーヨン; ワンウェイ
Original assignee: モフェットインターナショナルカンパニー，リミティド
Priority date: 2020-11-06
Filing date: 2021-11-05
Publication date: 2024-01-18
Also published as: EP4226286A1; TW202328986A; CN116547643A; TW202230228A; US20220147826A1; EP4226286A4; TWI804041B; KR20230104235A; WO2022095984A1

Abstract

コンピュータ記憶媒体にエンコードされたコンピュータ・プログラムを含む、ワークロードが平準化された活性化スパース性を用いた畳込みのための方法、システム、および装置が説明される。例示的な方法は、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、入力テンソルおよび重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することと、バンクのそれぞれについて、バンクにおける１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することと、各バンクにおいて取得されたＫ個の出力値以外の、１つまたは複数の出力値をゼロに設定することにより、バンクのそれぞれを枝刈りすることと、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することとを備えている。

Description

本開示は、一般に人工知能に関し、より具体的には、ワークロードが平準化された活性化スパース性を用いた畳込み処理に関する。

ニューラル・ネットワーク（ＮＮ）は現在、画像やビデオの認識、レコメンダ・システム、分類、医用画像解析、および自然言語処理など、多くの最新の人工知能（ＡＩ）アプリケーションの基盤となっている。ＮＮは、自動運転車や、がんの検出から複雑なゲームをプレイすることまで、様々な使用シナリオで使用されている。典型的なＮＮは、一連の畳込み層を備えることができ、ここでは、集中的、したがって（計算量とエネルギーの面で）高価な畳込み演算が実行される。一般的な畳込み層は、１つまたは複数の活性化（または入力）テンソルと、１つまたは複数の重みテンソルとを含むことができる。

近年、重みテンソルを枝刈りして非ゼロ重みの数を減らすなど、ＮＮにおける畳込み処理にスパース性を導入することで、ＮＮの計算効率を向上させる様々なアプローチが開発されている。一部の既存のハードウェア・アーキテクチャは、活性化スパース性を完全に無視するか、構造化されていない活性化スパース性を前提としているため、並列処理フレームワークを使用して畳込み演算を実行する場合に、ワークロードの不均衡が生じる可能性がある。不均衡なワークロードは、システムのスケーラビリティと、アーキテクチャのパフォーマンスとに直接影響を与える可能性がある。したがって、畳込み処理の効率を向上させるために、ワークロードが平準化された活性化スパース性を提供および活用する新しいシステム・アーキテクチャを構築することが望ましい。

本明細書の様々な実施形態は、ワークロードが平準化された活性化スパース性を用いた畳込みのためのシステム、方法、および非一時的なコンピュータ可読媒体を含むことができる。

１つの態様によれば、ワークロードが平準化された活性化スパース性を用いた畳込みのための方法は、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、入力テンソルおよび重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することであって、バンクのそれぞれは、複数の出力値のうちの１つまたは複数の出力値を備えている、構築することと、バンクのそれぞれについて、バンクにおける１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することであって、ここで、Ｋは正の整数である、取得することと、各バンクにおいて取得されたＫ個の出力値以外の、１つまたは複数の出力値をゼロに設定することにより、バンクのそれぞれを枝刈りすることと、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することとを備えている。

いくつかの実施形態では、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てることは、ニューラル・ネットワークにおける畳込み層において、入力テンソルおよび複数の重みテンソルを取得することと、入力テンソルを複数のサブ・テンソルにセグメント化し、複数のサブ・テンソルを複数のプロセッサに割り当てることと、複数の重みテンソルを複数の重みグループにセグメント化し、複数の重みグループを複数のプロセッサに割り当てることとを備えている。

いくつかの実施形態では、複数のサブ・テンソルおよび複数の重みグループを複数のプロセッサに割り当てることは、複数のプロセッサのそれぞれについて、複数のサブ・テンソルのうちの１つまたは複数のサブ・テンソルと、複数の重みグループのうちの１つまたは複数の重みグループとを、プロセッサの内部バッファに格納することを備えている。

いくつかの実施形態では、複数の重みグループを複数のプロセッサに割り当てることは、複数の並列処理サイクルのそれぞれの間に、複数の重みグループのうちの１つまたは複数の重みグループを複数のプロセッサに割り当てて、複数のサブ・テンソル、および複数の重みグループのうちの１つまたは複数の重みグループに基づいて、複数のプロセッサがＭＡＣ演算を並列的に実行することを備えている。

いくつかの実施形態では、１つまたは複数のバンクのそれぞれは、複数の重みグループのうちの１つの重みグループに基づいて生成された出力値に対応する。

いくつかの実施形態では、ＭＡＣ演算の結果に基づいて複数の出力値を取得することは、複数の並列処理サイクルのそれぞれの間に、複数のプロセッサによって実行されたＭＡＣ演算の結果として、複数の部分和を取得することと、複数の部分和を、加算器ツリー・デバイスに供給して、１つまたは複数の出力値を取得することと、複数の並列処理サイクルのうちの１つまたは複数の並列処理サイクルの間、１つまたは複数の出力値を累積バッファに格納して、複数の出力値を取得することとを備えている。

いくつかの実施形態では、バンクにおける出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することは、バンクにおける出力値の大きさに対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することを備えている。

いくつかの実施形態では、バンクのそれぞれは、ゼロより大きい高さ次元と、ゼロより大きい幅次元と、１より大きいチャネル次元とを備えている。

いくつかの実施形態では、方法はさらに、バンクのそれぞれにおけるＫ個の非ゼロ出力値をそれぞれ、Ｋ個の多次元ベクトルとして表すことを備えることができ、Ｋ個の多次元ベクトルのそれぞれは、非ゼロ出力値と、バンク内の非ゼロ出力値の、対応するチャネル次元識別子とを備えている。

いくつかの実施形態では、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することは、バンクのそれぞれのＫ個の多次元ベクトルを組み立てて、出力テンソルを形成することを備えている。

いくつかの実施形態では、枝刈りされたバンクのそれぞれは、バンク識別子に関連付けられており、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することは、対応するバンク識別子に基づいて、バンクのそれぞれのＫ個の多次元ベクトルを組み立てて、出力テンソルを形成することを備えている。

いくつかの実施形態では、出力テンソルは、スパース・テンソルである。

別の態様によれば、ワークロードが平準化された活性化スパース性を用いた畳込みのためのシステムが提供される。このシステムは、１つまたは複数のプロセッサと、１つまたは複数のプロセッサに結合され、１つまたは複数のプロセッサによって実行可能な命令で、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、入力テンソルおよび重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することであって、バンクのそれぞれは、複数の出力値のうちの１つまたは複数の出力値を備えている、構築することと、バンクのそれぞれについて、バンクにおける１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することであって、ここで、Ｋは正の整数である、取得することと、各バンクにおいて取得されたＫ個の出力値以外の、１つまたは複数の出力値をゼロに設定することにより、バンクのそれぞれを枝刈りすることと、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することとを備える動作をシステムに実行させるように構成された１つまたは複数の非一時的なコンピュータ可読メモリと、を備えることができる。

さらに別の態様によれば、ワークロードが平準化された活性化スパース性を用いた畳込みのための非一時的なコンピュータ可読記憶媒体が提供される。媒体は、１つまたは複数のプロセッサによって実行可能な命令で、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、入力テンソルおよび重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、複数の出力値に基づいて出力値の１つまたは複数のバンクを構築することであって、バンクのそれぞれは、複数の出力値のうちの１つまたは複数の出力値を備えている、構築することと、バンクのそれぞれについて、バンクにおける１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することであって、ここで、Ｋは正の整数である、取得することと、各バンクにおいて取得されたＫ個の出力値以外の、１つまたは複数の出力値をゼロに設定することにより、バンクのそれぞれを枝刈りすることと、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することとを備える動作を１つまたは複数のプロセッサに実行させるように構成することができる。

本明細書で開示されたシステム、方法、および非一時的なコンピュータ可読媒体のこれら特徴および他の特徴、ならびに構造の関連要素の動作方法および機能、部品の組合せ、および製造の経済性は、以下の説明および添付の特許請求の範囲を、添付の図面を参照して考慮するとより明らかになり、添付の図面のすべては、本明細書の一部を形成しており、同一の参照番号が、様々な図において、対応する部分を示している。しかしながら、図面は、例示および説明のみの目的のためであり、本発明の境界の定義として意図されていないことが明確に理解されるべきである。

図１は、様々な実施形態による、例示的な畳込みニューラル・ネットワーク（ＣＮＮ）を示す図である。図２は、様々な実施形態による、例示的な畳込み処理を示す図である。図３は、様々な実施形態による、ニューラル・ネットワーク層の例示的な図面、ならびに重み付け枝刈りおよび活性化枝刈りの例示的な図面である。図４は、様々な実施形態による、ワークロードが平準化された活性化枝刈りのための例示的な図面である。図５は、様々な実施形態による、ワークロードが平準化された活性化スパース性を用いた畳込みのための例示的なシステム図面である。図６Ａは、様々な実施形態による、ワークロードが平準化された活性化スパース性を用いた畳込みのための例示的なシステム・アーキテクチャを示す図である。図６Ｂは、様々な実施形態による、ワークロードが平準化された活性化スパース性を有する出力テンソルを生成するための例示的なフローチャートである。図７は、様々な実施形態による、ワークロードが平準化された活性化スパース性を用いた畳込みのための例示的な方法を示す図である。図８は、本明細書で説明されている実施形態のいずれかを実施することができる例示的なコンピュータ・システムを示す図である。

本明細書で説明されている実施形態は、ニューラル・ネットワークにおいて、ワークロードが平準化された活性化スパース性を用いた畳込みのための方法、システム、装置を提供する。畳込み処理は、入力データから特徴を抽出するための、基本的ではあるが計算コストのかかる演算を称することができる。畳込み処理は通常、ニューラル・ネットワーク内の畳込み層で行われる。畳込み層への入力データは、画像もしくはオーディオ波から導出された特徴マップ、または前の層から受け取られた活性化テンソルを含む場合があり、入力テンソルと称することができる。畳込み層の出力は、出力テンソルと称することができる。いくつかの実施形態では、入力テンソルおよび出力テンソルは、両方とも活性化と称することができる。入力テンソルは、複数チャネルの特徴マップを備えることができる。たとえば、ＲＧＢ画像は３つのチャネル（赤チャネル、緑チャネル、青チャネル）を有する入力テンソルとして表すことができ、各チャネルは、特徴マップ（たとえば、元のＲＧＢ画像と同じサイズのグレースケール画像であるが、赤、緑、青のいずれか１つの色だけで構成されている）を備えている。入力テンソルから特徴を抽出するために、１つまたは複数の特徴抽出器（重みテンソルまたはフィルタとも呼ばれる）を、入力テンソルに、畳込み（たとえば、スライドまたは移動）方式で適用できる。特徴検出器（重みテンソルまたはフィルタ）と、入力テンソルとの間の積和（ＭＡＣ）演算は、各畳込みステップ中に実行することができる。畳込みステップから生成された出力は、その後、組み立てられて、畳込み層の出力テンソルを形成することができる。出力テンソルは、ニューラル・ネットワークにおける次の層の入力テンソルとなることができる。場合によっては、複数の入力テンソルを１つの畳込み層で処理することができる。

畳込み処理中に、計算コストを削減し、推論速度を向上させるために、多数のゼロを導入することで、入力テンソルおよび／または重みテンソルを枝刈りまたはスパース化することができる。たとえば、５０％を上回る、入力テンソルにおける値をゼロに設定することができる。畳込み処理は通常、並列処理フレームワーク（プロセッサ、コア、または別のタイプの処理エンティティのクラスタ）で実行されるため、入力テンソルの非構造化された、または不均衡な枝刈りにより、処理エンティティ（ＰＥ）間でのワークロードの不均衡をもたらす可能性があり、これは、システムのスケーラビリティとパフォーマンスの低下につながる可能性がある。したがって、入力テンソルの枝刈りの重要な目標は、並列畳込み中に、処理ユニット間のワークロードを平準化することを含むことができる。

いくつかの実施形態では、入力テンソルを、最初に、畳込み処理に参加するために利用可能なＰＥの数に従って、複数のサブ・テンソルにセグメント化することができる。サブ・テンソルのそれぞれは、複数のＰＥのうちの１つのＰＥに割り当てられ、ＰＥのローカル・メモリ／バッファからスワップ・アウトすることなく、（ＮＮにおける複数の畳込み層に対応する）複数の畳込み処理全体にわたってそこに留まることができる。各畳込み処理の後、入力としてＰＥに割り当てられたサブ・テンソルを更新することができ、次の畳込み処理のための入力として使用することができる出力に展開することができる。いくつかの実施形態では、更新されたサブ・テンソルは、メモリ管理の目的で一時的にＰＥからスワップ・アウトされ、次の反復のために戻されてスワップ・インすることができる。

いくつかの実施形態では、重みテンソルのそれぞれを、複数の重みグループにセグメント化することができ、そのそれぞれを、複数のＰＥのうちの１つのＰＥに格納して、割り当てられたサブ・テンソル（入力テンソルの一部）を用いて、ローカルＭＡＣ演算を実行することができる。いくつかの実施形態では、他のサブ・テンソルと畳み込むために、畳込み処理が完了するまで、複数の重みグループを複数のＰＥ間で回転させることができる。複数のＰＥからの出力値は、途中で累積され、最終的には、畳込み処理の出力テンソルとして組み立てられる。

上記で説明されたセグメント化および並列処理スキームは、非常にスケーラブルでもある。いくつかの実施形態では、並列処理の各ラウンド（反復とも呼ばれる）は、複数の部分和を生成することができ、複数のＰＥは、複数のラウンドに対して並列処理を実行して、各ラウンドで生成された部分和を累積し、累積された結果を、出力テンソルとして組み立てることができる。いくつかの実施形態では、複数のラウンドにわたって各ＰＥによって生成された部分和は、他のＰＥとデータを交換する必要なしに、出力テンソルの一部を生成するために（各ＰＥ内で）直接累積できる。

以下の説明では、本発明の特定の非限定的な実施形態が、図面を参照して説明される。本明細書で開示された任意の実施形態の特定の特徴および態様は、本明細書で開示された任意の他の実施形態の特定の特徴および態様と使用できる、および／または、組み合わせることができる。また、そのような実施形態は一例であり、単に本発明の範囲内の少数の実施形態しか説明していないことも理解されるべきである。本発明に関連する当業者にとって明らかな様々な変更および修正は、添付の特許請求の範囲でさらに定義される本発明の精神、範囲および企図内であるとみなされる。

図１は、様々な実施形態による、例示的な畳込みニューラル・ネットワーク（ＣＮＮ）を示している。ＣＮＮは、画像理解、音声認識、ゲームプレイ、ロボット工学を含む様々なアプリケーションにおいて広く使用されており、畳込み演算が行われる畳込み層を含む層の深い階層を適用する場合がある。ＣＮＮは、例示目的でのみ使用されており、本明細書で開示された実施形態は、畳込み演算を伴う他のニューラル・ネットワークに適用できることに留意されたい。

図１に示される例示的なニューラル・ネットワーク１００は、第１の畳込み層１２０と第１のＲｅＬＵ（ランプ関数）層、第１のプーリング層１３０、第２の畳込み層１４０と第２のＲｅＬＵ層、第２のプーリング層１５０、平坦化層１６０、および全結合（ＦＣ）層１７０のような複数の層を備えている。この例示的なニューラル・ネットワーク１００は、所与の画像におけるアルファベットを、複数の知られているアルファベット・クラスと照合するようにトレーニングすることができる。図１に示すように、文字付き画像１１０がニューラル・ネットワーク１００に入力され、複数の層を介して変換される。最後の層（ＦＣ層１７０）は、最終的に、入力画像１１０における文字と、知られているアルファベット・クラスのそれぞれとの間の類似性を表す複数のスコアを生成する。

いくつかの実施形態では、入力画像１１０を、最初に入力テンソルに変換することができる。例として、入力画像１１０が、３２＊３２ピクセルを含んでおり、各ピクセルが、３つのカラー・チャネル（赤、緑、青）を有する場合、その対応する入力テンソルは、高さが３２で、幅が３２で、深さ（たとえば、チャネル数）が３の、３２＊３２＊３のサイズを有することができる。説明を簡単にするために、３次元サイズは、ＨＷＣフォーマットと呼ばれることがあり、ここで、Ｈは、入力テンソルの高さ（たとえば、前の画像の例では３２）を称し、Ｗは、入力テンソルの幅（たとえば、前の画像の例では３２）を称し、Ｃは、入力テンソルにおけるチャネル数（たとえば、前の画像の例では３）を称する。場合によっては、畳込み層に複数の入力テンソルがある場合（たとえば、畳込み層に複数の画像が入力されている場合、または前の層から受け取った複数の入力活性化テンソルがある場合）、各入力テンソルは、ＮＨＷＣ形式で表すことができ、ここで、Ｎは、入力テンソルのバッチ内の入力テンソルのインデクスを称する。以下の説明では、特に明記しない限り、簡略化のため（たとえば、入力テンソルが１つしかないと仮定して）Ｎを省略する場合がある。当業者にとって、Ｎ＞１の場合をカバーするように実施形態を拡張することは明らかであろう。

いくつかの実施形態では、ＣＮＮは、複数の畳込み層（たとえば、図１における第１の畳込み層１２０および第２の畳込み層１４０）を含むことができる。畳込み層は、入力テンソル（たとえば、元の入力画像、または前の層からの入力テンソル）を、良好な予測／分類を得るために重要な特徴を失うことなく、処理しやすい形態に縮小する。画像処理におけるたとえばエッジ検出器や曲線検出器などの１つまたは複数の特徴検出器が、畳込み層における畳込み処理に関与する場合がある。これらの特徴検出器は、フィルタ、重みテンソル、カーネルと称することができることがあり、これらは、本説明では同じ意味で使用される。フィルタのそれぞれは、入力テンソルと同じ数のチャネルを有することができる。説明を容易にするために、本明細書は、各フィルタおよび入力テンソルが、同じ数のチャネルを有することを表現するために「複数のチャネルを共有する」という用語を使用する。たとえば、入力テンソルは３２＊３２＊３行列であり、例示的なフィルタは、３＊３＊３行列とできる。畳込み処理の詳細な説明は、図２の説明を参照することができる。

いくつかの実施形態では、ＣＮＮにおける畳込み層の後に、非線形活性化関数が続き、ＣＮＮに非線形性を導入することができる。例示的な非線形活性化関数は、シグモイド、双曲線正接、およびランプ関数（ＲｅＬＵ）を含んでいる。図１に示されるように、ＲｅＬＵ関数（ＲｅＬＵ層とも称することができる）は、畳込み層１２０および畳込み層１４０のそれぞれに続く。ＲｅＬＵ関数は、要素ごとの活性化関数を適用して、畳込み層１２０または畳込み層１４０によって生成された一部の出力（活性化）をフィルタリングして除去することができる。たとえば、ｍａｘ（０，ｘ）関数を使用して、畳込み出力におけるすべての負の活性化をフィルタリングして除去し、正の活性化のみを次の層に供給することができる。ＲｅＬＵ関数は、出力活性化のサイズを変更することはできないが、後続層における計算効率を向上させるために、負の活性化がすべてゼロにされるので、アクティブなニューロンの数を制限する。

いくつかの実施形態では、ＣＮＮは、入力テンソルの次元を削減する様々な計算を提供するために、１つまたは複数のプーリング層を含むこともできる。図１において、ニューラル・ネットワーク１００の第１のプーリング層１３０および第２のプーリング層１５０はそれぞれ、空間次元（高さおよび幅）に沿って入力テンソルに対してダウン・サンプリング演算を実行できるが、通常、深さの次元（たとえば、チャネルの数）を変更しない。

いくつかの実施形態では、ニューラル・ネットワークにおける全結合（ＦＣ）層は、前の層（たとえば、図１におけるプーリング層１５０、または畳込み層）からの出力によって表される高レベルの特徴の非線形な組合せを学習し、それに従って、クラス・スコアを計算することができる。図１を参照して示すように、プーリング層１５０からの出力は、最初に（たとえば、平坦化層１６０において）ベクトルに平坦化されることが可能で、そこから、その空間における固有の非学習関数を、複数のクラスの最終スコアを計算するためにＦＣ層１７０によって学習することができる。スコアのそれぞれは、入力画像におけるアルファベットと、対応するクラスとの間の定量化された類似性を表すことができる。

図２は、様々な実施形態による、例示的な畳込み処理を示している。ニューラル・ネットワークにおける典型的な畳込み処理は、１つまたは複数の入力テンソルと、複数のフィルタとを受け取り（または、取得し）、畳込み処理を実行して１つまたは複数の出力テンソルを生成することで開始することができる。簡略化のために、図２における例示的な畳込み処理２２０は、１つの入力テンソル２２２、１つのフィルタ２２４、および１つの出力テンソル２２５を含んでいる。入力テンソル２２２を、その高さ（Ｈ）、幅（Ｗ）、およびチャネル数（Ｃ）によって表すことができる。図２に示されるように、入力テンソル２２２は、高さ３、幅３、およびチャネル数３の３＊３＊３行列であることができる。各チャネルにおける入力テンソル２２２の高さと幅（たとえば、３（Ｈ）＊３（Ｗ））は、２Ｄ入力特徴マップと称することができる。｛ｈ，ｗ，ｃ｝のタプルは、チャネルｃにおける２Ｄ入力特徴マップの１つの要素を指すことができる。たとえば、｛２，１，１｝は、チャネル１における２Ｄ入力特徴マップの要素を指すことができ、その位置は｛２，１｝によって定義される（たとえば、高さ方向のインデクスは２、幅方向のインデクスは１である）。フィルタ２２４は、その高さ（Ｒ）、幅（Ｓ）、およびチャネル数（Ｃ）によって表すことができる。図２において、フィルタ２２４は、１＊１＊３行列であることができる。各チャネルにおけるフィルタ２２４の高さと幅（たとえば、１（Ｒ）＊１（Ｓ））は、カーネルと称することができる（フィルタ２２４は、３つのチャネルにそれぞれ３つのカーネルを有する）。

シナリオによっては、畳込み処理が、ストライドおよびパディングを含むことができる。たとえば、ストライドが１である場合、フィルタは、一度に１ピクセル畳込み（たとえば、移動、スライド）を行い、ストライドが２である場合、フィルタは、スライドしながら一度に２ピクセル畳込みを行う。ストライドが大きいほど、空間的に小さい出力テンソルを生成する（出力テンソルにおけるＨ＊Ｗが小さくなる）。別の例として、フィルタの空間サイズ（高さ＊幅）が１＊１より大きい（たとえば、３＊３、または５＊５）場合、入力テンソルは、フィルタを適用し、出力テンソルの空間サイズを制御するために、たとえば、入力と出力の高さおよび幅が同じになるように、入力テンソルの空間サイズを保存するために、境界の周囲をゼロでパディングすることができる。図２では、入力テンソル２２２に対してパディングは実行されず、ストライドは１であると仮定されている。

図２に示す畳込み処理２２０中に、フィルタ２２４と、入力テンソルの第１の深さ方向スライス２２３などの各深さ方向のスライスに対してＭＡＣ演算が実行され、ドット積２２８などのドット積が生成される。たとえば、入力テンソル２２２の第１の深さ方向スライス２２３は、入力テンソル２２２の左上にある１＊１＊３テンソル（３つの灰色の立方体）である。第１の深さ方向スライス２２３とフィルタ２２４との両方が、１＊１＊３のサイズを有する。ＭＡＣ演算の後、生成されたドット積２２８を、出力テンソル２２５の一部として組み立てることができる。したがって、出力テンソル２２５を、フィルタ２２４が入力テンソル２２２におけるすべての深さ方向のスライス（図２における９つのスライス）を通して畳込み（たとえば、移動）した後に決定することができる。出力テンソル２２５におけるチャネルの数は、畳込み中に適用されたフィルタの数に等しい。畳込み処理２２０は、１つのフィルタ２２４しか使用しないので、対応する出力テンソル２２８は、１つのチャネルしか有していない。

比較すると、畳込み処理２６０は、２つのフィルタ２６４、２６５を含んでいる。入力テンソル２６２を通してフィルタ２６４を畳み込むことによって、第１のチャネルにおける出力テンソル２６８の値（たとえば、チャネル１における２Ｄ出力特徴マップ）を決定することができる。入力テンソル２６２を通してフィルタ２６５を畳み込むことによって、第２のチャネルにおける出力テンソル２６８の値（たとえば、チャネル２における２Ｄ出力特徴マップ）を決定することができる。したがって、結果として得られる出力テンソル２６８は、２Ｄ出力特徴マップの２つのチャネルを備えている。

畳込み処理中の一部の演算は、並列化できることに留意されたい。たとえば、異なるフィルタが、異なる出力チャネルための２Ｄ出力特徴マップを生成するので、あるフィルタで実行されるＭＡＣ演算は、別のフィルタのＭＡＣ演算とは独立している。別の例として、入力テンソルにおける深さ方向のスライスは、各２Ｄ出力特徴マップにおける異なる位置の値を生成するため、互いに独立している。これらすべての演算を、複数の処理エンティティ（たとえば、プロセッサ、コア、またはスレッド）間で並列化できる場合、理論的に理想的な並列処理を実現できる。しかしながら、現実世界のアプリケーションには、多数のフィルタと大量の入力テンソルがある可能性があるため、理論的に理想的な並列処理を追求するには、達成できないコンピューティング能力（たとえば、膨大な数の処理エンティティとメモリ交換機構）を備えたハードウェアが必要になる場合がある。以下の説明で開示される実施形態は、よりスケーラブルで実用的なアプローチである、所与のハードウェアの並列処理能力を十分に活用することによって、理想的な並列処理を達成する方法（および対応するシステム、記憶媒体）を提供する。

図３は、様々な実施形態による、ニューラル・ネットワーク層の例示的な図面３００と、重み枝刈りおよび活性化枝刈りの例示的な図面３４０とを示している。図面３００は、ニューラル・ネットワーク層、特に畳込み層の抽象図を示している。図３における畳込み層は、（１）１つまたは複数の入力テンソルの入力値を称することができるｘ_１、ｘ_２およびｘ_３として示される複数の入力活性化３１２（たとえば、入力テンソルにおける入力値）と、（２）フィルタ／重みテンソル／特徴抽出器の重みを指すことができ、Ｗ_１，１として示される１つまたは複数の重み３１４と、（３）任意選択で、活性化３１２を（重み３１４とともに）調整するための１つまたは複数のバイアス３１６と、（３）ニューロンが活性化されるべきか否かを判定するための活性化関数３１８と、（４）ｙ_１、ｙ_２およびｙ_３として示される複数の出力活性化３２０（たとえば、出力テンソルにおける出力値）とを含んでいる。図面３００は、例示の目的で１つの重み３１４のみを示しており、より多くの重みを含んでいてもよい。例示的な活性化関数３１８は、シグモイド、双曲線正接（ＴａｎＨ）、ＲｅＬｕ、または別の適切な活性化関数を含むことができる。

図３における図面３４０は、重み枝刈り３４２および活性化枝刈り３４４を有する例示的なニューラル・ネットワークを示す。重み枝刈り３４２および活性化枝刈り３４４は、畳込み処理にスパース性を導入して、エネルギーを削減し、より高いスループットを実現することができる。図示されるように、重み枝刈り３４２は、入力活性化（たとえば、ｘ１，ｘ２，ｘ３）と重みとの間で実行する必要がある畳込み演算の数が少なくなるように、フィルタにおける非ゼロ重みの数を削減することができる。いくつかの実施形態では、活性化枝刈り３４４は、出力活性化（たとえば、ｙ_１，ｙ_２，ｙ_３）にマスク（たとえば、ｔ１，ｔ２，ｔ３）を適用することを含むことができる。マスクは、出力活性化の一部をゼロに設定する（たとえば、出力を非活性化する）場合がある。図３において、マスクｔ２は、出力活性化ｙ_２をゼロに設定するが、マスクｔ１およびマスクｔ３は、対応する出力活性化ｙ_１および出力活性化ｙ_３を変更しない。このようにして、結果として得られる出力活性化が、いくつかのゼロ値を含むように枝刈りされ、次の層の計算コストを削減するのに役立てることができる。

しかしながら、図３に示されたマスク・ベースの方法は、非ゼロ出力活性化の平準化（たとえば、均等分配）に失敗する可能性がある。畳込み処理は通常、複数のプロセッサを使用して、並列処理アーキテクチャにおいて実行されるため、出力活性化が不均衡であると、プロセッサ間のワークロードの不均衡が生じ、アーキテクチャのスケーラビリティとスループットを制限する可能性がある。以下の説明では、ワークロードが平準化された活性化枝刈り方法およびアーキテクチャが、例示的な実施形態を用いて説明される。

図４は、様々な実施形態による、ワークロードが平準化された活性化枝刈りの例示的な図面を示す。例示的なニューラル・ネットワーク層４００は、図３における例示的なニューラル・ネットワーク層３００またはニューラル・ネットワーク層３４０の別の視点を称することができる。例示的なニューラル・ネットワーク層４００は、入力テンソルＸと、複数のフィルタ／重みテンソルとの間の畳込み処理で開始することができ、任意選択で、出力活性化を生成する前に、畳込み結果を調整するバイアス層を含むことができる。フィルタＷ_１のうちの１つのフィルタを例にとると、（対応するバイアス・テンソルＢ１とともに）入力テンソルＸとフィルタＷ_１との間の畳込み処理が、出力テンソルＹ_１の一部を生成することができる。

いくつかの実施形態では、出力テンソルＹ_１の一部は、テーブル４１０として表される密な活性化行列であることができる。行列４１０は、多数の非ゼロ値を含む可能性があるため、「密」である。いくつかの実施形態では、密行列４１０は、出力値の１つまたは複数のバンクを構築することによって、平準化されたスパース活性化行列４２０に枝刈りされることが可能であり、バンクのそれぞれは、同数の非ゼロ出力値を含んでいる。図４に示すように、出力値の２つのバンクを、密行列４１０の各行に基づいて構築することができる。密行列４１０の各行は、８つの非ゼロ出力値を含むことができ、２つのバンクは、各バンクが４つの非ゼロ出力値を含むように行を均等に分割することができる。

いくつかの実施形態では、平準化された方式で、活性化を枝刈りするために、各バンクにおける同じ数の出力値が、非ゼロとして保持されることが可能であり、他の出力値を、ゼロに枝刈りすることができる。いくつかの実施形態では、各バンクにおいて非ゼロとして保持される出力値を、上位Ｋ個のソート動作によって決定することができる。各バンクにおける上位Ｋ個のソート動作では、最大の大きさを有するＫ個の非ゼロ値を選択して、その値を保持することができ、他の非ゼロ値は、ゼロに設定できる。図４に示されるように、第１のバンクを、密行列４１０における左上の４つの非ゼロ値（０．２，０．１，－０．４および０．８）を用いて構築することができる。第１のバンクにおける上位２個のソート（たとえば、Ｋ＝２）は、最大の大きさ（たとえば、絶対値）を有し、この場合は－０．４と０．８である、２つの非ゼロ値を検出することができる。続いて、第１のバンクにおける－０．４および０．８は、そのまま保持されるが、他の値である０．２および０．１はゼロに枝刈りされる。同じ処理が他のバンクで並列的に実行され、平準化されたスパース活性化行列４２０を生成することができる。

上記で説明された活性化処理を、所望の結果を達成するために様々な手法でカスタマイズすることができる。たとえば、より多くの非ゼロ活性化が好ましい場合には、Ｋの値を、大きな数に設定することができ、より大きなスパース性が好ましい場合には、小さな数に設定することができる。別の例として、バンクのサイズを、出力テンソルにおいて、非ゼロの活性化がどのように分散されるかを決定するように構成することができる。

説明を明確にするために、層４００の出力活性化は、Ｈ＊Ｗ＊Ｃ出力テンソル４３０として表すことができ、ここで、Ｈは、高さの次元、Ｗは、幅の次元、Ｃは、チャネルの次元である。いくつかの実施形態では、出力テンソル４３０の各次元を、グループにセグメント化することができる。たとえば、出力テンソル４３０のＨ次元は、各グループをＨｇ（高さグループ）として表す３つのグループに分割することができる。同様に、Ｗ次元を、３つのＷｇ（幅グループ）に分割し、Ｃ次元を３つのＣｇ（チャネル・グループ）に分割してもよい。図４において、Ｙ_１活性化が、出力テンソルの最も右側の面４３２に対応すると仮定され、したがって、最も右側の面４３２を、枝刈り前の密な活性化行列４１０、または枝刈り後の平準化されたスパース活性化行列４２０として表すことができる。図４は、バンクの１つの例示的な構成を示しており、各Ｈｇ＊Ｗｇ＊Ｃｇサブ・テンソルは、バンクを形成している。たとえば、面４３２の影付きのＨｇ＊Ｗｇ＊Ｃｇ部分は、平準化されたスパース行列４２０の左上のバンクとして表すことができるバンクと称することができる。実施に応じて、Ｈｇ，ＷｇおよびＣｇを、異なる値に設定することによって、バンクは、異なる形状を有することができる。いくつかの実施形態では、Ｃｇは、１より大きい整数（少なくとも２）に構成することができ、Ｈｇは、０より大きい整数に構成することができ、Ｗｇは、０より大きい整数に構成することができる。

図５は、様々な実施形態による、ワークロードが平準化された活性化スパース性を用いた畳込みのための例示的なシステム図面を示している。図５に示されるアーキテクチャは、ニューラル・ネットワークがロードされて実行されるときに推論を実行するように設計されたコンピュータ・システムを備えている。いくつかの実施形態では、そのようなコンピュータ・システムは、ハードウェア・アクセラレータ５００として実施される。ハードウェア・アクセラレータ５００における一部の構成要素は、特定の手法で連携して、複数の処理エンティティにおける並列畳込み計算を容易にすることによって、ニューラル・ネットワークのスループットおよびエネルギー効率を向上させることができる。アクセラレータ５００は単に例示的なものであり、より多い、より少ない、または代替の構成要素を含んでいてもよい。ハードウェア・アクセラレータ５００を、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）または特定用途向け集積回路（ＡＳＩＣ）などの再構成可能なデバイスとして設計することができる。

図５に示されるように、ハードウェア・アクセラレータ５００は、アクセラレータ５００内のワークフローと、ホストＣＰＵ５１０およびダブル・データ・レート（ＤＤＲ）メモリ５２０などのオフ・チップ構成要素とのインタラクションを制御するためのスケジューラ５７０を備えることができる。たとえば、アクセラレータ５００は、周辺構成要素相互接続エクスプレス（ＰＣＩｅ）物理層（ＰＨＹ）コントローラ５１２を介して、ホストＣＰＵ５１０と、ＤＤＲインターフェース５３０を介して、オフ・チップＤＤＲメモリ５２０とインタラクトすることができる。アクセラレータ５００は、ＤＤＲインターフェース５３０を介してオフ・チップＤＤＲメモリ５２０と通信する、ダイレクト・メモリ・アクセス（ＤＭＡ）コントローラ５４０を介して、オフ・チップＤＤＲメモリ５２０からデータをフェッチすることができる。フェッチされたデータを、並列畳込み計算の準備として、グローバル・バッファ５５０と呼ばれるオン・チップ・バッファに格納することができる。グローバル・バッファ５５０を、入力バッファ５５２、重みバッファ５５４、および出力バッファ５５６などの複数のセクションに論理的に分割することができる。入力バッファ５５２は、入力テンソルに関連付けられたデータを格納することができ、重みバッファ５５４は、フィルタに関連付けられたデータを格納することができ、出力バッファ５５６は、畳込み計算の結果（たとえば、出力テンソル）に関連付けられたデータを格納することができる。グローバル・バッファ５５０は、スパース処理ユニット（ＳＰＵ）５６２のアレイ５６０とデータを交換して、畳込み計算を実行することができる。ＳＰＵの名前における「スパース」は、ＳＰＵアレイ５６０が、スパース性（たとえば、スパース入力テンソル、および／またはスパース・フィルタ）を伴う畳込み計算を効率的に実行するように特別に設計されていることを示す。ＳＰＵ５６２のそれぞれは、複数の処理エンティティ（ＰＥ）５８０を備えることができ、各ＰＥ５８０は、単位量の畳込み計算を処理することができる。

いくつかの実施形態では、ＳＰＵ５６２のそれぞれは、内部の複数のＰＥ５８０によって実行される畳込み計算の出力値を枝刈りするためのモジュールをさらに備えることができる。たとえば、図５における「Ｄｅｎｓｅ２Ｓｐａｒｓｉｔｙ」モジュール５６４は、以下の方法、すなわち、（複数のＰＥ５８０によって生成された）複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することであって、バンクのそれぞれは、１つまたは複数の複数の出力値を備える、構築することと、バンクのそれぞれについて、バンクにおける１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の非ゼロ出力値を取得することであって、ここで、Ｋはゼロより大きい正の整数である、取得することと、バンクにおいて取得されたＫ個の非ゼロ出力値以外の１つまたは複数の出力値をゼロに設定することによって、バンクのそれぞれを枝刈りすることとを使用して、複数のＰＥ５８０からの出力値を枝刈りすることができる。いくつかの実施形態では、１つのＫが、ニューラル・ネットワークにおける１つの層に対応することができる。つまり、ニューラル・ネットワークにおける異なる層は、異なるＫ個の値を有することができる。層のためのＫ個の値を、機械学習を通じて学習することができる。

いくつかの実施形態では、１つまたは複数のバンクは、サイズが等しく（たとえば、各バンクは、同じ数の出力値を含み）、枝刈り後に、同数の非ゼロの出力値を含むことができる。各バンクにおける非ゼロ出力値の位置は、ランダムであってもよいが、各バンクにおける非ゼロ出力値の総数（たとえば、１より大きい整数Ｋ）は、同じであってもよい。

図６Ａは、様々な実施形態に従って、ワークロードが平準化された活性化スパース性を有する出力テンソルを生成するための例示的なシステム・アーキテクチャ６００を示している。例示的なシステム・アーキテクチャ６００は、畳込み計算を並列的に実行するように構成された複数のＰＥ６３０と、複数のＰＥ６３０によって生成された出力（たとえば、部分和）への加算を実行するように構成された加算器ツリー６４０と、加算器ツリー６４０によって生成された出力（たとえば、出力テンソルに組み立てられる出力値）を累積するように構成された累積バッファ６５０と、累積バッファ６５０によって累積された出力を枝刈りするように構成された上位Ｋ個のソーティング・デバイス６６０とを含むことができる。上位Ｋ個のソーティング・デバイス６６０によって実行される枝刈り処理は、平準化された方式で分散された非ゼロ活性化を有するスパース出力活性化６８０を生成することができる。いくつかの実施形態では、上位Ｋ個のソーティング・デバイス６６０は、図５における「Ｄｅｎｓｅ２Ｓｐａｒｓｉｔｙ」モジュール５６４に対応することができる。いくつかの実施形態では、加算器ツリー６４０は、デバイスの一部またはスタンドアロン・デバイスを称することができる。

以下の説明では、畳込み層における例示的な畳込み処理を使用して、ワークロードが平準化された活性化スパース性を用いた出力テンソルが、畳込み層のためにどのように生成されるかを説明する。いくつかの実施形態では、例示的な畳込み処理は、入力テンソル６１０および重みテンソル６２０に基づいて積和（ＭＡＣ）演算を並列的に実行するために、畳込み層において、入力テンソル６１０、および１つまたは複数の重みテンソル６２０を、複数のプロセッサ（ＰＥ６３０）に割り当てることで開始することができる。

いくつかの実施形態では、入力テンソル６１０は、複数のサブ・テンソルにセグメント化され、複数のＰＥ６３０に割り当てられることが可能であり、重みテンソル６２０は、複数の重みグループにセグメント化され、同様に、複数のＰＥ６３０に割り当てられることが可能である。いくつかの実施形態では、サブ・テンソルおよび重みグループの「割当て」は、サブ・テンソルおよび重みグループをＰＥ６３０の内部バッファに格納することを称することができる。

いくつかの実施形態では、割り当てられたサブ・テンソルおよび重みグループを受け取った後、複数のＰＥ６３０は、ＭＡＣ演算を並列的に実行して、複数の部分和を取得することができる。これらの部分和は、加算器ツリー６４０に供給されて、１つまたは複数の出力値を取得することができ、これらの出力値を、累積し、累積バッファ６５０に格納することができる。累積バッファ６５０における出力値が、フル・バンクを形成するのに十分である場合、出力値を、枝刈りのために上位Ｋ個のソーティング・デバイス６６０に供給することができる。いくつかの実施形態では、バンクのサイズは予め定められている。バンクの例示的な構成は、図４における説明を参照することができる。いくつかの実施形態では、累積バッファ６５０における出力値の一部を、加算器ツリー６４０にフィードバックして、ＰＥ６３０によって新たに生成された部分和に加算することができる。いくつかの実施形態では、出力値のフル・バンクが、上位Ｋ個のソーティング・デバイス６６０に供給されるとき、コントローラまたはスケジューラ（たとえば、図５におけるスケジューラ５７０）は、バンク６７０の対応するインデクスを、上位Ｋ個のソーティング・デバイス６６０に送信することができる。出力値の複数のバンクが、上位Ｋ個のソーティング・デバイス６６０に供給される場合、コントローラまたはスケジューラは、バンク・インデクス６７０の配列を、上位Ｋ個のソーティング・デバイス６６０に送信することができる。

入力テンソル６１０／重みテンソル６２０のセグメント化の粒度と、バンクのサイズとに応じて、累積バッファ６５０は、異なるレートで出力値のフル・バンクを生成することができる。いくつかの実施形態では、複数のＰＥ６３０は、累積バッファ６５０が出力値の１つのフル・バンクを累積するために、（並列処理サイクルとも呼ばれる）複数のサイクルにわたって並列畳込み処理を実行する必要がある場合がある。いくつかの実施形態では、累積バッファ６５０は、各並列処理サイクル中に、複数のＰＥ６３０によって生成された部分和に基づいて、出力値の１つまたは複数のフル・バンクを累積することができる。

セグメント化の粒度と、フル・バンクの生成レートとの間の関係の説明を単純化するために、入力テンソルが１つだけ存在し、バンク・サイズがＫで示されると仮定される。たとえば、各並列処理サイクル中に、ＰＥが、１つの重みテンソルと、対応する入力値とを並列的に取り扱う場合、出力値の１つのフル・バンクを、Ｋ個の並列処理サイクルごとに累積することができる。別の例として、ＰＥが各並列処理サイクル中に、Ｋ個の重みテンソルと、対応する入力値とを並列的に取り扱う場合、出力値の１つのフル・バンクを、並列処理サイクルごとに生成することができる。さらに別の例として、ＰＥが各並列処理サイクル中にＮ＊Ｋ個の重みテンソルと、対応する入力値とを並列的に取り扱う場合、出力値のＮ個のフル・バンクを、各並列処理サイクルに対して生成することができる。

いくつかの実施形態では、上位Ｋ個のソーティング・デバイス６８０は、バンクにおける出力値の大きさに対して、上位Ｋ個のソーティング・ロジックを実行して、最大の大きさを有するＫ個の出力値を取得する。上位Ｋ個ソーティング・ロジックを、以下のソフトウェア・ソーティング・アルゴリズム、すなわち、ヒープ・ソーティング・アルゴリズム、マージ・ソーティング・アルゴリズム、クイック・ソーティング・アルゴリズム、別の適切なソーティング・アルゴリズムのうちの少なくとも１つと組み合わされたハードウェア・ベースのビットニック・ソータによって実施することができる。いくつかの実施形態では、Ｋ個の出力値を、そのまま（たとえば、元の非ゼロ値として）保持することができ、他の出力値を、ゼロとして枝刈りすることができる。各バンクが、Ｎ個の出力値を有すると仮定すると、上記で説明された枝刈り処理が、最大の大きさのＫ個の非ゼロ値と、（Ｎ－Ｋ）個のゼロ値とを、各バンクに残すことができる。スパース性をバンクに取り込み、非ゼロ出力値（非ゼロ活性化）を、平準化された方式で分散することにより、バンクから組み立てられた出力活性化は、次の畳込み層のために、ワークロードが平準化された活性化スパース性を用いた入力テンソルを提供することができる。

いくつかの実施形態では、枝刈りされたバンクを、畳込み層の出力テンソルを構築するために組み立てることができる。出力テンソルは、スパース性があり、かつ平準化されている（たとえば、非ゼロの活性化は、バンク間で平準化された方式で分散されている）。これは、複数のＰＥがワークロードを均等に分散できるようにすることによって、次の畳込み層における並列畳込み処理に利益をもたらす。

図６Ｂは、様々な実施形態による、ワークロードが平準化された活性化スパース性を有する出力テンソルを生成するための例示的なフローチャートを示している。図６におけるフローチャートは、１つの並列処理サイクル中の、畳込み層における畳込み処理の簡略化されたバージョンを説明している。簡略かつ明瞭化のために、Ｈ＊Ｗ＊Ｃ個の入力テンソル６１０が、すでに４つのＨｇ＊Ｗｇ＊Ｃｇ個の入力サブ・テンソル（たとえば、図６における入力テンソル６１０の網掛け領域）にセグメント化されており、重みグループ６２０が、入力サブ・テンソルと同じ次元を共有する４つの重みテンソルを含んでおり、ＭＡＣ演算を並列的に実行するために利用可能な、４つのＰＥ６３０があると仮定する。これらの仮定は、実際の使用の場合に応じて、緩和または変更される場合があり、それに従って、ワークフローに必要な調整を実施することができる。

いくつかの実施形態では、１つの並列処理サイクル中に、ＰＥ６３０のそれぞれは、重みグループ６２０において、１つの入力サブ・テナーおよび１つの重みテンソルを取り扱うことができる。ここで、「取り扱う」とは、入力サブ・テンソルにおける入力値と、重みテンソルにおける重みとの間でＭＡＣ演算を実行することを称することができる。ＰＥ６３０は、ローカルＭＡＣ演算を並列的に実行することができる。いくつかの実施形態では、ＰＥ６３０は、ＭＡＣ演算の後に、複数の部分和を生成することができる。これらの部分和は、加算器ツリー・デバイス６３２に供給されて、複数の部分和をともに加算して出力値を取得するなど、必要な加算を実行することができる。いくつかの実施形態では、加算器ツリー・デバイス６３２によって生成された出力値を、累積のために累積バッファ６３４に供給することができる。累積バッファ６３４は、出力値を累積し続けて、出力値のフル・バンク６４０を生成することができる。いくつかの実施形態では、バンクのサイズを、予め定めることができる。

いくつかの実施形態では、システム・アーキテクチャ、入力／重みテンソル・セグメント化、およびワークロード分散は、出力値のフル・バンクを生成する効率を向上させる手法で構成することができる。図６に示される例では、各ＰＥ６３０は、入力サブ・テンソルと重みテンソルとの１つの組合せを取り扱い、これは、並列処理サイクル中、１つの出力値を生成し、４つのＰＥ６３０から生成された４つの出力値は、並列処理サイクル中に、１つのバンク６４０を形成することができる。このようにして、図６における例示的なセットアップが、各並列処理サイクル後に出力値の１つのバンク６４０を生成する。いくつかの実施形態では、重みテンソルおよび／または入力サブ・テンソルを、入力テンソル６１０と、重みグループ６２０との間の畳込み処理が終了するまで、複数の並列処理サイクルの間、ＰＥ６３０間で回転することができる。複数の並列処理サイクル中にＰＥ６３０によって生成された複数のバンクを、畳込み層の出力テンソルを形成するために枝刈りして、組み立てることができる。

いくつかの実施形態では、出力値のバンク６４０を、枝刈りのために上位Ｋ個のソート構成要素６４２に供給することができる。上位Ｋ個のソート構成要素６４２は、バンク６４０における出力値に対して上位Ｋ個のソート動作を実行して、最大の大きさ（たとえば、絶対値）を有するＫ個の出力値を識別することができる。実施に応じて、上位Ｋ個のソート構成要素６４２、加算器ツリー６３２、および累積バッファ６３４を、別個のデバイスとして、または統合されたデバイスの一部として実装することができる。これらのＫ個の出力値は、それらの値を保持することができ、バンク６４０における他の出力値を、ゼロに枝刈りすることができる。たとえば、図６における累積バッファ６３４から生成されたバンク６４０は、４つの非ゼロ出力値（網掛け）を含むことができ、上位２個のソートが実行された後、スパース・バンク６５０に枝刈りすることができる。上位２個のソートは、４つの出力値のうち最大の大きさを有する２つを特定し、他の２つの値をゼロに設定することができる。

いくつかの実施形態では、バンク６４０が、上位Ｋ個のソート動作によって、スパース・バンク６５０内に枝刈りされた後、結果／スパース・バンク６５０内のＫ個の非ゼロ値は、その中に均等に分散される必要がない場合がある。しかしながら、各スパース・バンク６５０は、同数の非ゼロ出力値（活性化）を含むため、すべてのスパース・バンクに基づいて組み立てられた出力テンソルは平準化され、スパースになる。スパース出力テンソルが、次の畳込み層の入力テンソルになるとき、畳込みを並列的に実行するために、複数のＰＥに、平準化されたワークロードを割り当てることができる（たとえば、各ＰＥは、各並列処理サイクル中に、同数の非ゼロ入力値を受け取る）。

図７は、様々な実施形態による、ワークロードが平準化された活性化スパース性を用いた畳込みのための例示的な方法を示している。方法７００は、リソース割当てを最適化するためのデバイス、装置、またはシステムによって実行することができる。方法７００は、図５におけるハードウェア・アクセラレータ５００など、図１～図６によって示される環境またはシステムの１つまたは複数のモジュール／構成要素によって実行することができる。以下に提示される方法７００の動作は、例示を目的としている。実施に応じて、方法７００は、様々な順序でまたは並列的に実行される追加のステップ、より少ないステップ、または代替のステップを含むことができる。

ブロック７１０は、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、入力テンソルおよび重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することを含んでいる。いくつかの実施形態では、畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てることは、ニューラル・ネットワークにおける畳込み層において、入力テンソルおよび複数の重みテンソルを取得することと、入力テンソルを複数のサブ・テンソルにセグメント化し、複数のサブ・テンソルを複数のプロセッサに割り当てることと、複数の重みテンソルを複数の重みグループにセグメント化し、複数の重みグループを複数のプロセッサに割り当てることとを備えている。いくつかの実施形態では、複数のサブ・テンソルおよび複数の重みグループを複数のプロセッサに割り当てることは、複数のプロセッサのそれぞれについて、複数のサブ・テンソルのうちの１つまたは複数のサブ・テンソル、および複数の重みグループのうちの１つまたは複数の重みグループをプロセッサの内部バッファに格納することを備えている。

いくつかの実施形態では、複数の重みグループを複数のプロセッサに割り当てることは、複数の並列処理サイクルのそれぞれの間に、複数のサブ・テンソルと、複数の重みグループのうちの１つまたは複数の重みグループとに基づいて、複数の重みグループのうちの１つまたは複数の重みグループを、複数のプロセッサがＭＡＣ演算を並列的に実行するために、複数のプロセッサに割り当てることを備えている。いくつかの実施形態では、１つまたは複数のバンクのそれぞれは、複数の重みグループのうちの１つの重みグループに基づいて生成された出力値に対応する。

ブロック７２０は、ＭＡＣ演算の結果に基づいて複数の出力値を取得することを含んでいる。いくつかの実施形態では、ＭＡＣ演算の結果に基づいて複数の出力値を取得することは、複数の並列処理サイクルのそれぞれの間に、複数のプロセッサによって実行されたＭＡＣ演算の結果として、複数の部分和を取得することと、複数の部分和を、加算器ツリー・デバイスに供給して、１つまたは複数の出力値を取得することと、複数の並列処理サイクルのうちの１つまたは複数の並列処理サイクルの間、１つまたは複数の出力値を累積バッファに格納して、複数の出力値を取得することとを備えている。

ブロック７３０は、複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することを含んでおり、バンクのそれぞれは、複数の出力値のうちの１つまたは複数の出力値を備えている。いくつかの実施形態では、バンクのそれぞれは、ゼロより大きい高さ次元と、ゼロより大きい幅次元と、１より大きいチャネル次元とを備えている。いくつかの実施形態では、方法はさらに、バンクのそれぞれにおけるＫ個の非ゼロ出力値を、Ｋ個の多次元ベクトルとしてそれぞれ表すことを備えており、Ｋ個の多次元ベクトルのそれぞれは、非ゼロ出力値と、バンク内の非ゼロ出力値の対応するチャネル次元識別子とを備えている。いくつかの実施形態では、枝刈りされたバンクに基づいて畳込み層の出力テンソルを構築することは、バンクのそれぞれのＫ個の多次元ベクトルを組み立てて、出力テンソルを形成することを備えている。

ブロック７４０は、バンクのそれぞれについて、バンクにおける１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することを含んでおり、ここで、Ｋは、正の整数である。いくつかの実施形態では、バンクにおける出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することは、バンクにおける出力値の大きさに対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することを備えている。

ブロック７５０は、各バンクにおいて取得されたＫ個の出力値以外の１つまたは複数の出力値をゼロに設定することによって、バンクのそれぞれを枝刈りすることを含んでいる。

ブロック７６０は、枝刈りされたバンクに基づいて、畳込み層の出力テンソルを構築することを含んでいる。いくつかの実施形態では、枝刈りされたバンクのそれぞれは、バンク識別子に関連付けられており、枝刈りされたバンクに基づいて畳込み層の出力テンソルを構築することは、対応するバンク識別子に基づいて、バンクのそれぞれのＫ個の多次元ベクトルを組み立てて、出力テンソルを形成することを備えている。いくつかの実施形態では、出力テンソルは、スパース・テンソルである。

図８は、本明細書で説明されている実施形態のいずれかを実施することができる例示的なコンピューティング・デバイスを示している。コンピューティング・デバイスを、図１～図７に示されるシステムおよび方法の１つまたは複数の構成要素を実施するために使用することができる。コンピューティング・デバイス８００は、情報を通信するためのバス８０２または他の通信機構と、情報を処理するためにバス８０２に結合された１つまたは複数のハードウェア・プロセッサ８０４とを備えることができる。ハードウェア・プロセッサ８０４は、たとえば、１つまたは複数の汎用マイクロプロセッサとすることができる。

コンピューティング・デバイス８００はまた、プロセッサ８０４によって実行される情報および命令を格納するためにバス８０２に結合された、ランダム・アクセス・メモリ（ＲＡＭ）、キャッシュおよび／または他のダイナミック記憶デバイスなどのメイン・メモリ８０７をも含むことができる。メイン・メモリ８０７はまた、プロセッサ８０４によって実行される命令の実行中に、一時変数または他の中間情報を格納するために使用することができる。そのような命令は、プロセッサ８０４へアクセス可能な記憶媒体に格納されると、コンピューティング・デバイス８００を、命令で指定された動作を実行するようにカスタマイズされた専用マシンにすることができる。メイン・メモリ８０７は、不揮発性媒体および／または揮発性媒体を含むことができる。不揮発性媒体は、たとえば、光ディスクまたは磁気ディスクを含むことができる。揮発性媒体は、ダイナミック・メモリを含むことができる。一般的な媒体の形態は、たとえば、フロッピー・ディスク、フレキシブル・ディスク、ハード・ディスク、ソリッド・ステート・ドライブ、磁気テープ、または他の任意の磁気データ記憶媒体、ＣＤ－ＲＯＭ、他の任意の光学データ記憶媒体、穴のパターンを有する任意の物理媒体、ＲＡＭ、ＤＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、ＮＶＲＡＮ、他の任意のメモリ・チップまたはカートリッジ、またはこれらのネットワーク化されたバージョンを含むことができる。

コンピューティング・デバイス８００は、カスタマイズされたハード・ワイヤ・ロジックと、１つまたは複数のＡＳＩＣまたはＦＰＧＡと、ファームウェアと、および／または、コンピューティング・デバイスと組み合わされて、コンピューティング・デバイス８００を専用マシンにするか、またはプログラムできるプログラム・ロジックとを使用して、本明細書で説明されている技法を実施することができる。１つの実施形態によれば、本明細書に記載された技法は、プロセッサ８０４が、メイン・メモリ８０７に含まれる１つまたは複数の命令の、１つまたは複数のシーケンスを実行することに応答して、コンピューティング・デバイス８００によって実行される。そのような命令は、記憶デバイス８０９などの別の記憶媒体からメイン・メモリ８０７に読み込むことができる。メイン・メモリ８０７に含まれる一連の命令を実行すると、プロセッサ８０４は、本明細書で説明されている処理ステップを実行することができる。たとえば、本明細書で開示された処理／方法を、メイン・メモリ８０７に格納されたコンピュータ・プログラム命令によって実施することができる。これらの命令は、プロセッサ８０４によって実行されると、対応する図に示され上記で説明されたステップを実行することができる。代替実施形態では、ソフトウェア命令の代わりに、またはソフトウェア命令と組み合わせて、ハード・ワイヤ回路構成を使用することができる。

コンピューティング・デバイス８００は、バス８０２に結合された通信インターフェース８１０も含んでいる。通信インターフェース８１０は、１つまたは複数のネットワークに接続された１つまたは複数のネットワークリンクに結合する双方向データ通信を提供することができる。別の例として、通信インターフェース８１０は、互換性のあるＬＡＮ（またはＷＡＮと通信するＷＡＮ構成要素）へのデータ通信接続を提供するローカル・エリア・ネットワーク（ＬＡＮ）カードとすることができる。ワイヤレスリンクを実施することもできる。

特定の動作のパフォーマンスを、プロセッサ間で分散することができ、単一のマシン内に存在するだけでなく、多数のマシン間で展開することもできる。いくつかの例示的な実施形態では、プロセッサ、またはプロセッサによって実施されるエンジンを、単一の地理的位置（たとえば、家庭環境、オフィス環境、またはサーバ・ファーム内）に配置することができる。他の例示的な実施形態では、プロセッサ、またはプロセッサによって実施されるエンジンを、多数の地理的位置にわたって分散することができる。

前のセクションで説明された処理、方法、およびアルゴリズムのそれぞれを、コンピュータ・ハードウェアを備えている１つまたは複数のコンピュータ・システムまたはコンピュータ・プロセッサによって実行されるコード・モジュールにおいて具現化することができ、このコード・モジュールによって完全にまたは部分的に自動化することができる。処理およびアルゴリズムを、特定用途向け回路構成において、部分的または全体的に実施することができる。

本明細書で開示された機能が、ソフトウェア機能ユニットの形態で実施され、独立した製品として販売または使用される場合、それら機能を、プロセッサ実行可能な不揮発性コンピュータ可読記憶媒体に格納することができる。本明細書で開示された特定の技術的解決策（全部または一部）または現在の技術に貢献する態様を、ソフトウェア製品の形態で具現化することができる。ソフトウェア製品を、（パーソナル・コンピュータ、サーバ、ネットワーク・デバイスなどとすることができる）コンピューティング・デバイスに対して、本願の実施形態の方法のすべてまたは一部のステップを実行させるための多くの命令を備えている記憶媒体に格納することができる。記憶媒体は、フラッシュ・ドライブ、ポータブル・ハード・ドライブ、ＲＯＭ、ＲＡＭ、磁気ディスク、光ディスク、プログラム・コードを格納するように動作可能な別の媒体、またはそれら任意の組合せを備えることができる。

特定の実施形態は、プロセッサと、上記で開示された実施形態の任意の方法におけるステップに対応する動作をシステムに実行させるためにプロセッサによって実行可能な命令を格納する非一時的なコンピュータ可読記憶媒体とを備えるシステムをさらに提供する。特定の実施形態は、１つまたは複数のプロセッサによって実行可能な命令で、上記で開示された実施形態の任意の方法におけるステップに対応する動作を１つまたは複数のプロセッサに実行させるように構成された非一時的なコンピュータ可読記憶媒体をさらに提供する。

本明細書で開示された実施形態を、クライアントとインタラクトするクラウド・プラットフォーム、サーバ、またはサーバ・グループ（以下、集合的に「サービス・システム」）によって実施することができる。クライアントは、端末デバイス、またはユーザによってプラットフォームに登録されたクライアントであってもよく、端末デバイスは、モバイル端末、パーソナル・コンピュータ（ＰＣ）、および、プラットフォーム・アプリケーション・プログラムをインストールできる任意のデバイスとすることができる。

上記で説明された様々な特徴および処理を、互いに独立して使用することができるか、または、様々な手法で組み合わせることできる。あらゆる可能な組合せおよび部分的な組合せが、本開示の範囲内に含まれることが意図されている。それに加えて、いくつかの実施では、特定の方法または処理ブロックが省略される場合がある。また、本明細書で説明されている方法および処理は、いかなる特定のシーケンスにも限定されず、それに関連するブロックまたは状態は、他の適切なシーケンスで実行することができる。たとえば、説明されたブロックまたは状態は、具体的に開示された順序以外の順序で実行されてもよく、または複数のブロックまたは状態が、単一のブロックまたは状態に結合されてもよい。例示的なブロックまたは状態は、直列、並列、または他の方式で実行することができる。ブロックまたは状態を、開示された例示的な実施形態に対して追加または削除することができる。本明細書で説明されている例示的なシステムおよび構成要素は、説明されたものとは異なるように構成されてもよい。たとえば、開示された例示的な実施形態と比較して、要素を追加したり、削除したり、再配置することができる。

本明細書で説明されている例示的な方法の様々な動作は、少なくとも部分的にアルゴリズムによって実行することができる。アルゴリズムを、メモリ（たとえば、上記で説明された非一時的なコンピュータ可読記憶媒体）に格納されたプログラム・コードまたは命令に含むことができる。そのようなアルゴリズムは、機械学習アルゴリズムを備えることができる。いくつかの実施形態では、機械学習アルゴリズムは、機能を実行するようにコンピュータを明示的にプログラムしないかもしれないが、機能を実行する予測モデルを作成するために、トレーニング・データから学習することができる。

本明細書で説明されている例示的な方法の様々な動作は、関連する動作を実行するように一時的に（たとえば、ソフトウェアによって）構成された、または永続的に構成された、１つまたは複数のプロセッサによって、少なくとも部分的に実行することができる。一時的または永続的に構成されるかに関わらず、そのようなプロセッサは、本明細書で説明されている１つまたは複数の動作または機能を実行するように動作する、プロセッサによって実施されるエンジンを構成することができる。

同様に、本明細書で説明されている方法は、少なくとも部分的にプロセッサによって実施されることが可能であり、特定の１つまたは複数のプロセッサは、ハードウェアの一例である。たとえば、方法の動作の少なくとも一部は、１つまたは複数のプロセッサ、またはプロセッサによって実施されるエンジンによって実行することができる。さらに、１つまたは複数のプロセッサは、「クラウド・コンピューティング」環境において、または「サービスとしてのソフトウェア」（ＳａａＳ）として、関連する動作のパフォーマンスをサポートするように動作することもできる。たとえば、動作の少なくとも一部は、（プロセッサを含むマシンの例として）コンピュータのグループによって実行されることが可能であり、これら動作は、ネットワーク（たとえば、インターネット）を介して、および１つまたは複数の適切なインターフェース（たとえば、アプリケーション・プログラム・インターフェース（ＡＰＩ））を介してアクセス可能である。

特定の動作のパフォーマンスを、プロセッサ間で分散することができ、単一のマシン内に存在するだけでなく、多数のマシン間で展開することができる。いくつかの例示的な実施形態では、プロセッサ、またはプロセッサによって実施されるエンジンを、単一の地理的位置（たとえば、家庭環境、オフィス環境、またはサーバ・ファーム内）に配置することができる。他の例示的な実施形態では、プロセッサ、またはプロセッサによって実施されるエンジンを、多数の地理的位置にわたって分散することができる。

本明細書全体を通じて、単一の事例として説明された構成要素、動作、または構造を、複数の事例が実施することができる。１つまたは複数の方法の個別の動作は、別個の動作として図示および説明されているが、１つまたは複数の個別の動作は、同時に実行することができ、動作は、図示された順序で実行される必要はない。例示的な構成では、別個の構成要素として提示された構造および機能を、組み合わされた構造または構成要素として実施することができる。同様に、単一の構成要素として提示された構造および機能を、別個の構成要素として実施することができる。これらおよび他の変形、修正、追加、および改良は、本明細書の主題の範囲内に含まれる。

本明細書で使用される場合、「または」は、明示的に別段の指示がない限り、または文脈によって別段の指示がない限り、包括的であり、排他的ではない。したがって、本明細書において、「Ａ、ＢまたはＣ」は、明示的に別段の指示がない限り、または文脈により別段の指示がない限り、「Ａ、Ｂ、ＡおよびＢ、ＡおよびＣ、ＢおよびＣ、またはＡ、ＢおよびＣ」を意味する。さらに、「および」は、特に明示的に別段の指示がない限り、または文脈により別段の指示がない限り、組合せおよび個別の両方を意味する。したがって、本明細書において、「ＡおよびＢ」は、明示的に別段の指示がないか、または文脈により別段の指示がない限り、「ＡおよびＢを、組み合わせて、または個別に」を意味する。さらに、単一の事例として本明細書で説明されているリソース、動作、または構造に対して、複数の事例を提供することができる。それに加えて、様々なリソース、動作、エンジン、およびデータ・ストア間の境界はある程度任意であり、特定の動作は、特定の例示的な構成のコンテキストで示されている。機能の他の割当ても想定されており、本開示の様々な実施形態の範囲内に含まれる可能性がある。一般に、例示的な構成において別個のリソースとして提示された構造および機能を、組み合わされた構造またはリソースとして実施することができる。同様に、単一のリソースとして提示された構造および機能を、別個のリソースとして実施することができる。これらおよび他の変形、修正、追加、および改良は、添付の特許請求の範囲によって表される本開示の実施形態の範囲内に含まれる。したがって、明細書および図面は、限定的な意味ではなく、例示的な意味としてみなされるべきである。

「含む」または「備える」という用語は、その後に宣言された特徴の存在を示すために使用されるが、他の特徴の追加を排除するものではない。特に「できる」、「できた」、「かもしれない」、または「することができる」などの条件付きの文言は、特に別段の記載がない限り、または使用される文脈内で別段理解されない限り、一般に、特定の実施形態は、特定の特徴、要素、および／またはステップを含むが、他の実施形態は含まないことを伝えるように意図されている。したがって、そのような条件付きの文言は、一般に、特徴、要素、および／またはステップが、何らかの形で、１つまたは複数の実施形態のために必要とされること、または、１つまたは複数の実施形態が、ユーザ入力またはプロンプトの有無に関わらず、これらの特徴、要素、および／またはステップが、任意の特定の実施形態に含まれるか、または任意の特定の実施形態において実行されるべきであるかを判断するためのロジックを必ず含むことを示唆するようには意図されていない。

特定の例示的な実施形態を参照して主題の概要を説明したが、本開示の実施形態のより広い範囲から逸脱することなく、これらの実施形態に対して様々な修正および変更を行うことができる。主題のそのような実施形態は、本明細書では、実際には複数の開示または概念が開示されている場合、どの単一の開示または概念に対しても本願の範囲を自発的に限定することを意図することなく、単に便宜上、個別にまたは集合的に、「発明」という用語で称することができる。

本明細書に示される実施形態は、当業者が、開示された教示を実施できるように十分に詳細に説明されている。本開示の範囲から逸脱することなく、構造的および論理的な置換および変更を行うことができるように、他の実施形態を、使用し、そこから派生させることができる。したがって、詳細な説明は、限定的な意味で解釈されるべきではなく、様々な実施形態の範囲は、添付の特許請求の範囲と、そのような特許請求の範囲が権利を有する均等物の全範囲によってのみ定義される。

Claims

コンピュータによって実施される方法であって、
畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、前記入力テンソルおよび前記重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、
前記ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、
前記複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することであって、前記バンクのそれぞれは、前記複数の出力値のうちの１つまたは複数の出力値を備えている、構築することと、
前記バンクのそれぞれについて、前記バンクにおける前記１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することであって、ここで、Ｋは正の整数である、取得することと、
前記各バンクにおいて前記取得されたＫ個の出力値以外の、前記１つまたは複数の出力値をゼロに設定することにより、前記バンクのそれぞれを枝刈りすることと、
前記枝刈りされたバンクに基づいて、前記畳込み層の出力テンソルを構築することと
を備えた、方法。
畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに前記割り当てることは、
ニューラル・ネットワークにおける前記畳込み層において、入力テンソルおよび複数の重みテンソルを取得することと、
前記入力テンソルを複数のサブ・テンソルにセグメント化し、前記複数のサブ・テンソルを複数のプロセッサに割り当てることと、
前記複数の重みテンソルを複数の重みグループにセグメント化し、前記複数の重みグループを前記複数のプロセッサに割り当てることと
を備えた、請求項１に記載の方法。
前記複数のサブ・テンソルおよび前記複数の重みグループを複数のプロセッサに前記割り当てることは、前記複数のプロセッサのそれぞれについて、前記複数のサブ・テンソルのうちの１つまたは複数のサブ・テンソルと、前記複数の重みグループのうちの１つまたは複数の重みグループとを、前記プロセッサの内部バッファに格納することを備えた、請求項２に記載の方法。
前記複数の重みグループを前記複数のプロセッサに前記割り当てることは、
複数の並列処理サイクルのそれぞれの間に、前記複数の重みグループのうちの１つまたは複数の重みグループを前記複数のプロセッサに割り当てて、前記複数のサブ・テンソル、および前記複数の重みグループのうちの前記１つまたは複数の重みグループに基づいて、前記複数のプロセッサが前記ＭＡＣ演算を並列的に実行することを備えた、請求項２に記載の方法。
前記１つまたは複数のバンクのそれぞれは、前記複数の重みグループのうちの１つの重みグループに基づいて生成された出力値に対応する、請求項４に記載の方法。
前記ＭＡＣ演算の結果に基づいて複数の出力値を前記取得することは、
複数の並列処理サイクルのそれぞれの間に、前記複数のプロセッサによって実行された前記ＭＡＣ演算の結果として、複数の部分和を取得することと、
前記複数の部分和を、加算器ツリー・デバイスに供給して、１つまたは複数の出力値を取得することと、
前記複数の並列処理サイクルのうちの１つまたは複数の並列処理サイクルの間、前記１つまたは複数の出力値を累積バッファに格納して、前記複数の出力値を取得することと
を備えた、請求項１に記載の方法。
前記バンクにおける前記出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することは、
前記バンクにおける前記出力値の大きさに対して上位Ｋ個のソートを実行して、前記Ｋ個の出力値を取得することを備えた、請求項１に記載の方法。
前記バンクのそれぞれは、
ゼロより大きい高さ次元と、
ゼロより大きい幅次元と、
１より大きいチャネル次元と
を備えた、請求項１に記載の方法。
前記バンクのそれぞれにおける前記Ｋ個の非ゼロ出力値をそれぞれ、Ｋ個の多次元ベクトルとして表すことをさらに備えており、前記Ｋ個の多次元ベクトルのそれぞれは、非ゼロ出力値と、前記バンク内の前記非ゼロ出力値の、対応するチャネル次元識別子とを備えた、請求項１に記載の方法。
前記枝刈りされたバンクに基づいて、前記畳込み層の前記出力テンソルを前記構築することは、
前記バンクのそれぞれの前記Ｋ個の多次元ベクトルを組み立てて、前記出力テンソルを形成することを備えた、請求項９に記載の方法。
前記枝刈りされたバンクのそれぞれは、バンク識別子に関連付けられており、
前記枝刈りされたバンクに基づいて、前記畳込み層の前記出力テンソルを前記構築することは、
前記対応するバンク識別子に基づいて、前記バンクのそれぞれの前記Ｋ個の多次元ベクトルを組み立てて、前記出力テンソルを形成することを備えた、請求項９に記載の方法。
前記出力テンソルは、スパース・テンソルである、請求項１に記載の方法。
システムであって、１つまたは複数のプロセッサと、前記１つまたは複数のプロセッサに結合され、前記１つまたは複数のプロセッサによって実行可能な命令で、
畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、前記入力テンソルおよび前記重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、
前記ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、
前記複数の出力値に基づいて、出力値の１つまたは複数のバンクを構築することであって、前記バンクのそれぞれは、前記複数の出力値のうちの１つまたは複数の出力値を備えている、構築することと、
前記バンクのそれぞれについて、前記バンクにおける前記１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することであって、ここで、Ｋは正の整数である、取得することと、
前記各バンクにおいて前記取得されたＫ個の出力値以外の、前記１つまたは複数の出力値をゼロに設定することにより、前記バンクのそれぞれを枝刈りすることと、
前記枝刈りされたバンクに基づいて、前記畳込み層の出力テンソルを構築することと
を備える動作を前記システムに実行させるように構成された１つまたは複数の非一時的なコンピュータ可読メモリとを備えた、システム。
畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに前記割り当てることは、
ニューラル・ネットワークにおける前記畳込み層において、入力テンソルおよび複数の重みテンソルを取得することと、
前記入力テンソルを複数のサブ・テンソルにセグメント化し、前記複数のサブ・テンソルを複数のプロセッサに割り当てることと、
前記複数の重みテンソルを複数の重みグループにセグメント化し、前記複数の重みグループを前記複数のプロセッサに割り当てることと
を備えた、請求項１３に記載のシステム。
前記ＭＡＣ演算の結果に基づいて複数の出力値を前記取得することは、
複数の並列処理サイクルのそれぞれの間に、前記複数のプロセッサによって実行された前記ＭＡＣ演算の結果として、複数の部分和を取得することと、
前記複数の部分和を、加算器ツリー・デバイスに供給して、１つまたは複数の出力値を取得することと、
前記複数の並列処理サイクルのうちの１つまたは複数の並列処理サイクルの間、前記１つまたは複数の出力値を累積バッファに格納して、前記複数の出力値を取得することと
を備えた、請求項１３に記載のシステム。
前記バンクにおける前記出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することは、
前記バンクにおける前記出力値の大きさに対して上位Ｋ個のソートを実行して、前記Ｋ個の出力値を取得することを備えた、請求項１３に記載のシステム。
非一時的なコンピュータ可読記憶媒体であって、１つまたは複数のプロセッサによって実行可能な命令で、
畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに割り当てて、前記入力テンソルおよび前記重みテンソルに基づいて、積和（ＭＡＣ）演算を並列的に実行することと、
前記ＭＡＣ演算の結果に基づいて、複数の出力値を取得することと、
前記複数の出力値に基づいて出力値の１つまたは複数のバンクを構築することであって、前記バンクのそれぞれは、前記複数の出力値のうちの１つまたは複数の出力値を備えている、構築することと、
前記バンクのそれぞれについて、前記バンクにおける前記１つまたは複数の出力値に対して上位Ｋ個のソートを実行して、Ｋ個の出力値を取得することであって、ここで、Ｋは正の整数である、取得することと、
前記各バンクにおいて前記取得されたＫ個の出力値以外の、前記１つまたは複数の出力値をゼロに設定することにより、前記バンクのそれぞれを枝刈りすることと、
前記枝刈りされたバンクに基づいて、前記畳込み層の出力テンソルを構築することと
を備える動作を１つまたは複数のプロセッサに実行させるように構成された、非一時的なコンピュータ可読記憶媒体。
畳込み層における入力テンソルおよび重みテンソルを複数のプロセッサに前記割り当てることは、
ニューラル・ネットワークにおける前記畳込み層において、入力テンソルおよび複数の重みテンソルを取得することと、
前記入力テンソルを複数のサブ・テンソルにセグメント化し、前記複数のサブ・テンソルを複数のプロセッサに割り当てることと、
前記複数の重みテンソルを複数の重みグループにセグメント化し、前記複数の重みグループを前記複数のプロセッサに割り当てることと
を備えた、請求項１７に記載の非一時的なコンピュータ可読記憶媒体。
前記ＭＡＣ演算の結果に基づいて複数の出力値を前記取得することは、
複数の並列処理サイクルのそれぞれの間に、前記複数のプロセッサによって実行された前記ＭＡＣ演算の結果として、複数の部分和を取得することと、
前記複数の部分和を、加算器ツリー・デバイスに供給して、１つまたは複数の出力値を取得することと、
前記複数の並列処理サイクルのうちの１つまたは複数の並列処理サイクルの間、前記１つまたは複数の出力値を累積バッファに格納して、前記複数の出力値を取得することと
を備えた、請求項１７に記載の非一時的なコンピュータ可読記憶媒体。
前記バンクにおける前記出力値に対して上位Ｋ個のソートを実行してＫ個の出力値を取得することは、
前記バンクにおける前記出力値の大きさに対して上位Ｋ個のソートを実行して、前記Ｋ個の出力値を取得することを備えた、請求項１７に記載の非一時的なコンピュータ可読記憶媒体。