JP2021522565A - 並列分散テンソル計算用のニューラル・ハードウェア・アクセラレータ - Google Patents

並列分散テンソル計算用のニューラル・ハードウェア・アクセラレータ Download PDF

Info

Publication number
JP2021522565A
JP2021522565A JP2020557303A JP2020557303A JP2021522565A JP 2021522565 A JP2021522565 A JP 2021522565A JP 2020557303 A JP2020557303 A JP 2020557303A JP 2020557303 A JP2020557303 A JP 2020557303A JP 2021522565 A JP2021522565 A JP 2021522565A
Authority
JP
Japan
Prior art keywords
tensor
neural
weight tensor
cores
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020557303A
Other languages
English (en)
Other versions
JP7372009B2 (ja
Inventor
モダ、ダルメンドラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021522565A publication Critical patent/JP2021522565A/ja
Application granted granted Critical
Publication of JP7372009B2 publication Critical patent/JP7372009B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • G06F17/153Multidimensional correlation or convolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Abstract

畳み込み演算のエネルギー効率および速度を高めるように適合されたネットワークおよびそのための符号化が提供される。様々な実施形態において、ニューラル・ネットワークは、複数のニューラル・コアを含む。複数のニューラル・コアのそれぞれは、メモリを備える。ネットワークは、複数のニューラル・コアを相互に結合する。複数のニューラル・コアのそれぞれのメモリは、重みテンソルの少なくとも一部を含む。重みテンソルは、複数の重みを含む。各ニューラル・コアは、入力画像の一部を、ローカルで読み出すか、または受け取り、それに重みテンソルの一部を適用し、その結果を、ローカルに記憶するか、またはネットワークを介して複数のニューラル・コアのうちの他のものに送るように適合される。

Description

本開示の実施形態は、並列分散テンソル計算用のハードウェア・アクセラレータに関し、より詳細には、畳み込み演算のエネルギー効率および速度を高めるように適合されたニューラル・ネットワークおよびそのための符号化に関する。
機械学習において、畳み込みニューラル・ネットワーク(CNN:convolutional neural network)は、たとえば視覚画像の分析に適用可能な多層ニューラル・ネットワークのクラスである。CNNは、入力層と、出力層と、畳み込み演算を集合的に計算する人工ニューロンの少なくとも1つの層を含む複数の隠れ層とで構成される。
人工ニューロンは、その出力がその入力の線形結合の非線形関数である数学関数である。一方の出力が他方の入力である場合、2つのニューロンが結合される。重みは、一方のニューロンの出力ともう一方のニューロンの入力との間の結合の強さを符号化するスカラー値である。複数の結合されたニューラル・コアから適切な全体的な結果を計算することは非常に困難である。
したがって、当技術分野において前述の問題に対処する必要がある。
第1の態様から見ると、本発明はニューラル・ネットワークを管理するためのシステムを提供し、システムは、複数のニューラル・コアであって、複数のニューラル・コアのそれぞれが少なくとも1つのメモリを備える複数のニューラル・コアと、複数のニューラル・コアを相互に結合するネットワークとを含み、複数のニューラル・コアのそれぞれの少なくとも1つのメモリは、複数のフィルタを含む重みテンソルの少なくとも一部を含み、各ニューラル・コアは、入力データ・テンソルの一部を、ローカルで読み出すか、または受け取り、それに重みテンソルの一部を適用し、その結果を、ローカルに記憶するか、またはネットワークを介して複数のニューラル・コアのうちの他のものに送るように適合される。
さらなる態様から見ると、本発明はニューラル・ネットワークを管理するための方法を提供し、方法は、メモリを備えるニューラル・コアにおいて、入力データ・テンソルの一部を、ローカルで読み出すか、または受け取ることと、複数のフィルタを含む重みテンソルの少なくとも一部をメモリから読み取ることと、重みテンソルの一部を入力データ・テンソルの一部に適用して結果を得ることと、結果を、ローカルに記憶するか、またはネットワーク介して少なくとも1つの他のニューラル・コアに送ることとを含む。
さらなる態様から見ると、本発明はシステムを提供し、システムは、複数のニューラル・コアであって、複数のニューラル・コアのそれぞれが少なくとも1つのメモリを備える複数のニューラル・コアと、複数のニューラル・コアを相互に結合するネットワークと、コンピュータ可読記憶媒体によって具現化されるプログラム命令を有するコンピュータ可読記憶媒体を備えるコンピューティング・ノードを含み、プログラム命令は、コンピューティング・ノードのプロセッサによって実行されて、プロセッサに、複数のフィルタを重みテンソルに符号化すること、および重みテンソルの少なくとも一部を複数のニューラル・コアのそれぞれに提供することを含む方法を実行させ、複数のニューラル・コアのそれぞれは、重みテンソルの少なくとも一部をそのメモリに記憶し、入力データ・テンソルの一部を、ローカルで読み出すか、または受け取り、重みテンソルの一部を入力データ・テンソルの一部に適用して結果を得て、結果を、ローカルに記憶するか、またはネットワーク介して少なくとも1つの他のニューラル・コアに送るように適合される。
さらなる態様から見ると、本発明はニューラル・ネットワークを管理するためのコンピュータ・プログラム製品を提供し、コンピュータ・プログラム製品は、処理回路によって読み取り可能であり、かつ本発明のステップを実行するための方法を実行するために処理回路によって実行される命令を記憶するコンピュータ可読記憶媒体を備える。
さらなる態様から見ると、本発明は、コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。
本開示の実施形態によれば、ニューラル・ネットワーク・システムが提供される。システムは、複数のニューラル・コアを含む。複数のニューラル・コアのそれぞれは、少なくとも1つのメモリを備える。ネットワークは、複数のニューラル・コアを相互に結合する。複数のニューラル・コアのそれぞれのメモリは、重みテンソルの少なくとも一部を含む。重みテンソルは、複数のフィルタを含む。各ニューラル・コアは、入力データ・テンソルの一部を、ローカルで読み出すか、または受け取り、それに重みテンソルの一部を適用し、その結果を、ローカルに記憶するか、またはネットワークを介して複数のニューラル・コアのうちの他のものに送るように適合される。
本開示の実施形態によれば、ニューラル・ネットワークを動作させるための方法およびコンピュータ・プログラム製品が提供される。入力データ・テンソルの一部は、ニューラル・コアにおいてローカルで読み出されるか、または受け取られる。ニューラル・コアは、メモリを備える。重みテンソルの少なくとも一部がメモリから読み取られる。重みテンソルは、複数のフィルタを含む。重みテンソルの一部が入力データ・テンソルの一部に適用されて結果が得られる。結果は、ローカルに記憶されるか、またはネットワークを介して少なくとも1つの他のニューラル・コアに送られる。
次に、本発明の実施形態について、添付図面を参照して単に例として説明する。
本開示の実施形態によるニューラル・コアを示す図である。 本開示の実施形態による畳み込み演算を示す図である。 本開示の実施形態による、重みテンソルおよび入力データの計算コアへの第1の分散を示す図である。 本開示の実施形態による、重みテンソルおよび入力データの計算コアへの第2の分散を示す図である。 本開示の実施形態による、重みテンソルおよび入力データの計算コアへの第3の分散を示す図である。 本開示の実施形態によるニューラル・ネットワークを動作させるための方法を示す図である。 本開示の実施形態によるコンピューティング・ノードを示す図である。
機械学習において、畳み込みニューラル・ネットワーク(CNN)は、たとえば視覚画像の分析に適用可能な多層ニューラル・ネットワークのクラスである。CNNは、入力層および出力層、ならびに畳み込み演算を集合的に計算する人工ニューロンの少なくとも1つの層を含む複数の隠れ層で構成される。
人工ニューロンは、出力がその入力の線形結合の非線形関数である数学関数である。一方の出力が他方の入力である場合、2つのニューロンが結合される。重みは、一方のニューロンの出力ともう一方のニューロンの入力との間の結合の強さを符号化するスカラー値である。
ニューロンは、その入力の重み付き和に非線形活性化関数を適用することによって、活性化と呼ばれるその出力を計算する。重み付き和は、各入力に、対応する重みを乗算し、その積を累積することによって計算される中間結果である。部分和は、入力のサブセットの重み付き和である。すべての入力の重み付き和は、1つ以上の部分和を累積することによって段階的に計算され得る。
ニューラル・ネットワークは、1つ以上のニューロンの集合体である。ニューラル・ネットワークは、しばしば層と呼ばれるニューロンのグループに分割される。層は、すべて同じ層から入力を受け取り、すべて同じ層に出力を送り、典型的には同様の機能を実行する1つ以上のニューロンの集合体である。入力層は、ニューラル・ネットワーク外のソースから入力を受け取る層である。出力層は、ニューラル・ネットワーク外のターゲットに出力を送る層である。他のすべての層は、中間処理層である。多層ニューラル・ネットワークは、2つ以上の層を有するニューラル・ネットワークである。深層ニューラル・ネットワークは、多くの層を有する多層ニューラル・ネットワークである。
テンソルは、数値の多次元配列である。テンソル・ブロックは、テンソル内の要素の連続したサブ配列である。
各ニューラル・ネットワーク層は、パラメータ・テンソルV、重みテンソルW、入力データ・テンソルX、出力データ・テンソルY、および中間データ・テンソルZに関連付けられる。パラメータ・テンソルは、層内のニューロン活性化関数σを制御するすべてのパラメータを含む。重みテンソルは、入力を層に結合するすべての重みを含む。入力データ・テンソルは、層が入力として使用するすべてのデータを含む。出力データ・テンソルは、層が出力として計算するすべてのデータを含む。中間データ・テンソルは、部分和など、層が中間計算として生成する任意のデータを含む。
1つの層についてのデータ・テンソル(入力、出力、中間)は、3次元とすることができ、最初の2次元は、空間位置の符号化として解釈することができ、3番目の次元は、異なる特徴の符号化として解釈することができる。たとえば、データ・テンソルが色画像を表す場合、最初の2次元は画像内の垂直座標および水平座標を符号化し、3番目の次元は、各位置での色を符号化する。入力データ・テンソルXのすべての要素は、別個の重みによってすべてのニューロンに結合され得るので、重みテンソルWは、一般に、入力データ・テンソルの3次元(入力行a、入力列b、入力特徴c)を出力データ・テンソルの3次元(出力行i、出力列j、出力特徴k)と連結し、6次元を有する。中間データ・テンソルZは、出力データ・テンソルYと同じ形状を有する。パラメータ・テンソルVは、3つの出力データ・テンソルの次元を、活性化関数σのパラメータにインデックスを付ける追加の次元oと連結する。
1つの層についての出力データ・テンソルYの要素は、式1のように計算することができ、式中、ニューロン活性化関数σは、活性化関数パラメータV[i,j,k,:]のベクトルによって構成され、重み付き和Z[i,j,k]は、式2のように計算することができる。
Figure 2021522565
Figure 2021522565
表記を簡単にするために、式2における重み付き和は出力と呼ばれることがあり、これは、異なる活性化関数が使用される場合でも一般性を失うことなく同じステートメントが適用されるという理解の下に、線形活性化関数Y[i,j,k]=σ(Z[i,j,k])=Z[i,j,k]を使用することと同等である。
様々な実施形態において、上記のような出力データ・テンソルの計算は、より小さい問題に分解される。その場合、各問題は、1つまたは複数のニューラル・コア上、または従来のマルチコア・システムの1つまたは複数のコア上で、並列に解くことができる。
次に図1を参照すると、本開示の実施形態によるニューラル・コアが示されている。ニューラル・コア100は、出力テンソルの1つのブロックを計算するタイリング可能な計算ユニットである。ニューラル・コア100は、M個の入力およびN個の出力を有する。様々な実施形態において、M=Nである。出力テンソル・ブロックを計算するために、ニューラル・コアはM×1の入力テンソル・ブロック101にM×Nの重みテンソル・ブロック102を乗算し、その積を累積して重み付き和とし、重み付き和は1×Nの中間テンソル・ブロック103に格納される。O×Nのパラメータ・テンソル・ブロックは、1×Nの出力テンソル・ブロック105を生成するために中間テンソル・ブロック103に適用されるN個のニューロン活性化関数のそれぞれを指定するO個のパラメータを含む。
複数のニューラル・コアは、ニューラル・コア配列内にタイリングされてよい。いくつかの実施形態において、配列は2次元である。
ニューラル・ネットワーク・モデルは、ニューラル・ネットワークによって実行される計算全体を集合的に指定する定数のセットであり、ニューロン間の結合のグラフ、ならびに各ニューロンに対する重みおよび活性化関数パラメータを含む。訓練は、所望の関数を実行するためにニューラル・ネットワーク・モデルを変更するプロセスである。推論は、ニューラル・ネットワーク・モデルを変更することなく、ニューラル・ネットワークを入力に適用して出力を生成するプロセスである。
推論処理ユニットは、ニューラル・ネットワーク推論を実行するプロセッサのカテゴリである。ニューラル推論チップは、推論処理ユニットの特定の物理インスタンスである。
いくつかの実施形態において、出力データ・テンソルは、同じ形状のブロックに分割され、それぞれが単一のニューラル・コアによって計算される。このような実施形態において、入力データ・テンソル、重みテンソル、およびパラメータ・テンソルは、互換性のある形状のブロックに分解されて、その出力データ・ブロックの計算を担うニューラル・コアによって受け取られる、対応する入力データ・ブロックと、重みブロックと、パラメータ・ブロックとを組み合わせることによって各出力データ・ブロックが計算されるようになる。
いくつかの実施形態において、出力データ・ブロックの計算は、複数のニューラル・コアに分散されてよい。このような実施形態において、各ニューラル・コアは、1つまたは複数の入力データ・ブロックおよび対応する重みブロックを受け取り、それらの部分和を含む中間ブロックを生成し、これらのブロックは、同様に対応する出力データ・ブロックを計算するために必要なパラメータ・ブロックを受け取る単一のニューラル・コアによって集められ、合計される。
様々な実施形態において、ニューラル・コア配列は、単一のチップ上に存在してよい。このような実施形態において、テンソル・ブロックは、オンチップ・ネットワークを介して送信されてよい。これにより、計算のより近くにモデルを配置することができ、速度および並列性が向上し、エネルギー使用量およびメモリ・アクセスが減少する。
いくつかの実施形態において、コア間でテンソル・ブロックを通信するネットワークは、コアがコア配列の同じ近傍のコアへの直接結合のみを有するように、局所結合性を有してよい。たとえば、2次元ニューラル・コア配列において、各ニューラル・コアは、垂直方向および水平方向に直接隣接する4つのコアにのみ直接結合されてよい。このような実施形態において、テンソル・ブロックは、直接結合されたコアのチェーンを介してそれらを中継することによって遠くのコアに送信され得るが、このような間接通信は、直接通信よりも多くの時間およびエネルギーを必要とする。したがって、コア間でテンソル・ブロックを送信するとき、間接通信に対する直接通信の比率を最大化する方法で問題を分割することが有利である。
コア間でテンソル・ブロックを通信するネットワークが局所結合性を有し、ニューラル・コア配列によって計算される問題も局所構造を有する場合、問題がテンソル内で局所性を示す次元を、ネットワークがコア配列内で局所性を示す次元に整列する方法で、結果として生じるテンソル・ブロックがコアに割り当てられ得るように、テンソルを分割することが有利である。たとえば、2次元のニューラル・コア配列では、最近傍の結合性を有するオンチップ・ネットワークは、ニューラル・コア配列の行と列の次元に沿った局所性を示す。出力データ・テンソルの各要素が入力データ・テンソル内の対応する位置の小さい空間近隣からのみ結合を受け場合、出力データ・テンソルは、入力データ・テンソルの行と列の次元に沿った局所性を示す。このような場合、出力データ・テンソルは、その行と列の次元に沿って分割されるべきであり、結果として生じるブロックは、ニューラル・コア配列の行と列の次元に沿って分散されるべきである。空間畳み込み層は、このような出力データ・テンソルの一例である。
図2を参照すると、例示的な畳み込みが示されている。フィルタ201は、複数の重みw…wを含む。ここで提供されるサイズは単なる例示であり、本明細書に記載のように任意のフィルタ寸法が使用されてよいことが理解されよう。フィルタ201は、画像202の各タイルに適用される。この例では、2つの連続する3×3のタイルが示されている。各タイルの結果は、特徴マップ203の要素である。第1の連続するタイルの結果は、特徴マップの1番目の点で示されている。第2の連続するタイルの結果は、2番目の点で終了する線で示されている。複数の特徴マップを生成するために、複数のフィルタが同じ画像に適用されてよいことが理解されよう。
畳み込み層は、隣接層のニューロン間の局所結合性パターンを強制することによって、未加工のセンサ・データにおける空間局所的な相関を利用し、各ニューロンは、入力データ・テンソルの小さい領域からのみ結合を受け取る。この結合性の範囲は、ニューロンの受容野と呼ばれる。同じ出力特徴の要素を計算するすべてのニューロンは、局所受容野を使用して、フィルタと呼ばれる重みと活性化関数パラメータの同じセットを共有する。フィルタのサイズは、入力サイズに関係なく固定されているので、畳み込み層は、同じ入力次元および同じ出力次元を有する全結合層よりもはるかに少ない自由パラメータを有し、それに応じてメモリ・フットプリントも小さくなる。
たとえば、空間畳み込み層において、各フィルタの受容野は、入力データ・テンソルの高さおよび幅のごく一部のみをカバーするが、特徴の深さ(feature depth)全体に広がる。このようなアーキテクチャは、フィルタが空間局所的な入力パターンに対して最も強い応答を生成することを保証する。層は、入力データ・テンソルの幅および高さ全体にわたって各フィルタを畳み込み、各位置でのフィルタのエントリと入力データとの間のドット積を計算して各フィルタの2次元活性化マップを生成することによって、その出力を計算する。
すべてのフィルタの特徴マップを積み重ねると、畳み込み層の全出力ボリュームが形成される。したがって、出力データ・テンソルのすべてのエントリは、入力の中の小さい領域に注目し、かつ同じ出力特徴マップのニューロンとフィルタ・パラメータを共有するニューロンの出力と解釈することもできる。
畳み込み層の出力データ・テンソルのサイズは、入力データ・テンソルのサイズと、フィルタのサイズと、フィルタが入力データ・テンソルに適用される際のストライドとの関数であることが理解されよう。ストライド・パラメータstride_a、stride_b、およびstride_cは、各フィルタの適用間隔を定義し、1の値は、各フィルタ適用が入力データ・テンソルの関連する次元に沿って1画素シフトされることを示す。可能な出力画素のサブセットのみを計算するので、ストライド値が大きいほど計算負荷が軽減される。
さらに、様々な畳み込みにおいて、入力サイズと相対的に出力画像サイズを変化させるために、たとえばそれらのサイズを等しくするために、ゼロパディングが入力画像に適用されてよいことが理解されよう。説明を簡単にするために、様々な例において画像パディングは省略されることがあるが、本開示の範囲から逸脱することなく、パディングが様々な実施形態に含まれ得ることは明らかであろう。
畳み込み層では、同じ出力特徴の要素はすべて、各出力位置で複製される同じフィルタの重みを共有するので、6次元の重みテンソルは多くの繰り返しブロックを含む。共有されるフィルタの重みは、密な4次元フィルタ・テンソルFによって、よりコンパクトに記述することができ、この密な4次元フィルタ・テンソルFは、層の出力特徴を計算するすべてのフィルタを含み、かつ出力特徴次元(出力特徴k)および3つのフィルタ入力次元(フィルタ行r、フィルタ列s、フィルタ特徴t)によってインデックスが付けられる。
Figure 2021522565
式3では、境界条件に対応するために、出力データ・テンソルのエッジ近くのi,j,k座標についてr,s,tの合計の範囲を減らすことができるが、ここでは簡単にするために省略されている。アクセサ関数α(i,r;Α)は、出力データ要素Y[i,j,k]を計算するためにフィルタの重みF[k,r,s,t]に乗算すべき入力データ要素の行座標aを計算し、式中、Αは、ストライド・パラメータstride_aおよびパディング・パラメータpad_aなどの、行座標計算をパラメータ化する定数のセットである。類似のアクセサ関数β(j,s;Β)およびγ(r,t;Γ)は、列座標bおよび特徴座標cを計算する。
例示的な畳み込みのパラメータを以下の表1に示す。
Figure 2021522565
以下でさらに説明するように、畳み込み層を実装するために必要な計算は、たとえば1つまたは複数のニューロモーフィック・コアで、または従来のマルチコア(フォン・ノイマン型アーキテクチャ)CPUで並列に実行されてよい。この並列処理により、より大きいデータセット上で動作するより大容量のネットワークが可能になる。
様々な実施形態において、上述のような畳み込みは、より小さい問題に分解される。各問題は、1つまたは複数のニューロモーフィック・コア上、または従来のマルチコア・システムの1つまたは複数のコア上で並列に解くことができる。
いくつかの実施形態において、入力データ・テンソルは、その行および列の次元に沿って、その特徴の次元の全長に及ぶブロックに分解される。このような実施形態において、ニューラル・コアは、入力データ・ブロックおよびフィルタ・テンソル全体Fを受け取る。入力データ・ブロックの境界における画素の畳み込みを正しく計算するためには、入力データ・ブロックは、それらが重複するように生成され得る。代替として、複数のニューラル・コアからの部分和を合計して、最終結果を得ることができる。
上記の実施形態の例が図3に示されている。入力データ301は、次元A×Bを有するC個の入力特徴マップ(または画像)を含む。データ301は、ブロック302に分割される。入力データ・ブロック302は、重みテンソル304と共にニューラル・コア303に提供される。
いくつかの実施形態において、入力データ・テンソルは、その行、列、および特徴の次元に沿ってブロックに分解され、フィルタ・テンソルは同様に、その入力特徴の次元に沿ってブロックに分解される。このような実施形態において、ニューラル・コアは、入力データ・ブロックおよび対応するフィルタ・ブロックを受け取る。いくつかの実施形態において、同じ入力行および入力列に対応するが異なる入力特徴に対応する入力データ・ブロックは、対応する部分和を計算する異なるニューラル・コアに分散され、それらは後に集められて合計される。いくつかの実施形態において、出力特徴の数は、入力特徴の次元に沿ったブロックの数で乗算される。このような実施形態では、訓練中、調整された数の出力特徴が考慮される。
別の例示的な実施形態が図4に示されている。入力データ401は、ブロック402に分割される。データ・ブロック402は、フィルタ・テンソルの対応する部分404と共にニューラル・コア403に提供される。
いくつかの実施形態において、重みテンソルは、その出力特徴の次元に沿ってブロックにさらに分解される。フィルタ・テンソルの各出力特徴ブロックは、異なるニューラル・コアに送られ、したがって、入力テンソルの各ブロックは、出力特徴ブロックが存在するのと同じ数のニューラル・コアに送られる。
別の例示的な実施形態が図5に示されている。入力データ501は、ブロック502に分割される。データ・ブロック502は、フィルタ・テンソル505の対応する部分504と共にコア503を計算するために提供される。
畳み込み層は、スパースな重みテンソルの例である。テンソルは、主としてゼロ値を含む場合はスパースであり、主として非ゼロ値を含む場合は密である。非ゼロ値のみを記憶することによって、スパースなテンソルが圧縮されて、使用するメモリを同じ形状を有する密なテンソルよりもはるかに少なくすることができる。同様に、ゼロ値を省くことによって、スパースなテンソルによる乗算は、使用する演算をはるかに少なくすることができ、その結果、密なテンソルによる乗算よりもエネルギーが少なくなる。
畳み込み層は、その局所結合性に起因して、ブロックスパース(block-sparse)な重みテンソルの例でもある。スパースなテンソルは、その非ゼロ値のすべてがブロック内で集中している場合、ブロックスパースである。テンソルが所与の次元に沿ってブロックスパースである場合、テンソルはその次元に沿った局所性を示す。テンソルは、一部の次元に沿ってスパースまたはブロックスパースである場合があり、他の次元に沿って密である場合がある。たとえば、空間畳み込み層の重みテンソルは、入力行および入力列の次元に沿ってブロックスパースであり、入力特徴、出力行、出力列、および出力特徴の次元に沿って密である。
全結合層は、典型的には密な重みテンソルの例である。全結合層では、3次元入力データ・テンソルのすべての要素が3次元出力データ・テンソルのすべての要素に結合される。各結合は異なる非ゼロ重みを有してよく、各活性化関数は異なるパラメータを有してよい。したがって、6次元の重みテンソルと4次元のパラメータ・テンソルの両方は、すべての次元に沿って密であり、両方のテンソルのボリューム全体が、全結合層を実装するいずれのシステムのメモリにも記憶されなければならない。
単一の画像の場合、Xは次元A×B×Cの入力テンソルを示す。フィルタ・テンソルFは、畳み込みフィルタのセットを示し、次元K×R×S×Tを有する。出力テンソルZは、次元I×J×Kを有する。様々な実施形態において、データ・テンソル内の各要素は、固定サイズ、たとえば4ビットである。様々な実施形態において、フィルタ・テンソル内の各要素は、有限集合、たとえば{−1,0,+1}から選択される。
サイズR×S×TのK個のフィルタ・カーネルの場合、各入力画素はK×R×S回使用される。サイズA×B×Cの入力データ・テンソルの場合、各フィルタの重みは(A−R+1)×(B−S+1)回、出力画素の数だけ使用される。
入力Xは、長さA×B×Cの列ベクトルとして表すことができる。フィルタFは、A×B×C行およびK×A×B列を有する行列として表すことができる。列の数は、フィルタの数に入力画像内の画素数を乗算したものに相当する。したがって、K×A×B列を有する出力行ベクトルは、Y=X×Fとして得ることができる。
上記の定式化がスパース行列の乗算をもたらすことが理解されよう。特に、Fの各列は、最大でR×S×Tの非ゼロエントリを有する。Fの各行は、最大でK×R×Sの非ゼロエントリを有する。
Fのスパースな性質により、その記憶および使用において様々な最適化が可能になることが理解されよう。たとえば、Fは、行または列の最初のインデックスが絶対位置であり、後続のインデックスが相対位置であるように記憶されてよい。
様々な実施形態において、フィルタ・テンソルFの異なる表現が使用される。
そのような例示的な1つの表現において、行列全体を記憶する代わりに、フィルタ入力列内の非ゼロ値ごとにフィルタ入力行および要素値が記憶される。このような実施形態において、出力Z内のエントリjを計算するために、Fの列jが考慮される。列内では、記憶された行インデックスm∈[0…i]ごとにX内のエントリmがルックアップされ、スカラーが式4のように累積される。
Figure 2021522565
いくつかの実施形態において、列あたりの非ゼロ値の最大数は、R×S×Tに限定される。これは、フィルタの最大受容野に相当する。
上記のように、F内の列ごとに、すべての非ゼロ値が読み取られる。ニューラル・コアを使用するいくつかの実施形態において、入力データ値は、重み値と並行して読み取られる。Fのスパース性を活用するために、ゼロ値を有する入力は無視される。各入力と対応する重みとの積は、上記の式4に従って部分和に加算される。いくつかの実施形態において、加算は並行して実行される。
別の例示的な表現において、行列全体を記憶する代わりに、行内の非ゼロ値ごとに、列インデックスおよび値が記憶される。このような実施形態において、出力Yを計算するために、Fの行iが考慮される。記憶された行インデックスm∈[0…j]ごとに、X内のエントリmがルックアップされ、スカラーが式5のように累積される。
Figure 2021522565
いくつかの実施形態において、行あたりの非ゼロ値の最大数は、K×R×Sに限定される。これは、可能な最大の並列度に相当する。
F内の行ごとに、すべてのゼロ値が並行して読み取られる。ニューラル・コアを使用するいくつかの実施形態において、入力データ値は重み値と並行して読み取られる。Fのスパース性を活用するために、ゼロ値を有する入力は無視される。各入力と対応する重みとの積は、上記の式5に従って部分和に加算される。いくつかの実施形態において、加算は並行して実行される。いくつかの実施形態において、部分和はメモリに戻されて記憶される。この記憶ステップにより、エネルギー使用を負担して任意のさらなるニューロンのために回路を再利用することができる。
上記の実施形態において、各入力データ値は一度読み取られ、次いで下流処理のために分割される。入力を体系的な方法で通過することによって、データ・メモリを繰り返し読み書きする必要性が最小限に抑えられる。部分和は繰り返しロードされるが、入力データのスパース性は一度確認されるだけでよい。
上記の例において、Fのスパース性は、クラスタ内で2つの行がターゲットとして同じニューロンを有さないように行をクラスタ化することによって活用されてよい。いくつかの実施形態において、各行は、可能な限り多くのニューロンをターゲットとする。いずれの場合でも、各行は異なる軸索発火値を有してよい。この表現により、すべてのニューロンの状態をまとめて読み取ることができる。
別の例示的な表現において、行列全体を記憶する代わりに、F内の非ゼロ値ごとに、行および列のインデックスならびに対応する値が記憶される。このような実施形態において、出力Yを計算するために、Fの行iおよび列jが考慮される。記憶されたインデックス・エントリごとに、スカラーは式6のように累積される。
Figure 2021522565
次に図6を参照すると、本開示の実施形態による、ニューラル・ネットワークを動作させる方法が示されている。601において、入力データ・テンソルの一部がニューラル・コアで受け取られる。ニューラル・コアはメモリを備える。602において、重みテンソルの少なくとも一部がメモリから読み取られる。重みテンソルは複数のフィルタを含む。603において、重みテンソルの一部が入力データ・テンソルの一部に適用されて、結果が得られる。604において、結果は、ネットワークを介して少なくとも1つの他のニューラル・コアに送られる。
次に図7を参照すると、コンピューティング・ノードの例の概略図が示されている。コンピューティング・ノード10は、適切なコンピューティング・ノードの一例にすぎず、本明細書に記載の実施形態の使用または機能の範囲に関するいずれの制限を示唆することも意図されていない。それでもなお、コンピューティング・ノード10は、上述の機能のいずれかを実装すること、または実行すること、あるいはその両方が可能である。
コンピューティング・ノード10には、多数の他の汎用または専用のコンピューティング・システム環境または構成で動作可能なコンピュータ・システム/サーバ12がある。コンピュータ・システム/サーバ12と共に使用するのに適したよく知られているコンピューティング・システム、環境、または構成あるいはその組合せの例には、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、ハンドヘルドまたはラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、および上記のシステムまたはデバイスのいずれかを含む分散型クラウド・コンピューティング環境などが含まれるが、これらに限定されない。
コンピュータ・システム/サーバ12は、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システムが実行可能な命令の一般的なコンテキストで説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、論理、データ構造などを含んでよい。コンピュータ・システム/サーバ12は、通信ネットワークを介してリンクされるリモート処理デバイスによってタスクが実行される分散型クラウド・コンピューティング環境の中で実践されてよい。分散型クラウド・コンピューティング環境において、プログラム・モジュールは、メモリ記憶デバイスを含むローカルとリモート両方のコンピュータ・システム記憶媒体の中に配置されてよい。
図7に示すように、コンピューティング・ノード10内のコンピュータ・システム/サーバ12は、汎用コンピューティング・デバイスの形式で示されている。コンピュータ・システム/サーバ12の構成要素には、1つまたは複数のプロセッサまたは処理ユニット16、システム・メモリ28、およびシステム・メモリ28を含む様々なシステム構成要素をプロセッサ16に結合するバス18が含まれ得るが、これらに限定されない。
バス18は、メモリ・バスまたはメモリ・コントローラ、周辺バス、アクセラレーテッド・グラフィックス・ポート、および様々なバス・アーキテクチャのいずれかを使用するプロセッサまたはローカル・バスを含む、いくつかのタイプのバス構造のいずれかの1つまたは複数を表す。限定ではなく例として、そのようなアーキテクチャには、インダストリ・スタンダード・アーキテクチャ(ISA)バス、マイクロ・チャネル・アーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオ・エレクトロニクス規格協会(VESA)ローカル・バス、ペリフェラル・コンポーネント・インターコネクト(PCI)バス、ペリフェラル・コンポーネント・インターコネクト・エクスプレス(PCIe)、およびアドバンスト・マイクロコントローラ・バス・アーキテクチャ(AMBA)が含まれる。
コンピュータ・システム/サーバ12は、典型的には、様々なコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム/サーバ12によってアクセス可能な任意の利用可能な媒体とすることができ、揮発性媒体と不揮発性媒体の両方、取り外し可能な媒体と取り外し不可の媒体の両方を含む。
システム・メモリ28は、ランダム・アクセス・メモリ(RAM)30またはキャッシュ・メモリ32あるいはその両方などの、揮発性メモリの形式のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム/サーバ12は、他の取り外し可能/取り外し不可、揮発性/不揮発性のコンピュータ・システム記憶媒体をさらに含んでよい。単に例として、ストレージ・システム34は、取り外し不可、不揮発性の磁気媒体(図示せず、通常「ハード・ドライブ」と呼ばれる)に対する読取りと書込みを行うために提供され得る。図示しないが、取り外し可能、不揮発性の磁気ディスク(たとえば、「フロッピー・ディスク」)に対する読取りと書込みを行うための磁気ディスク・ドライブ、およびCD−ROM、DVD−ROM、または他の光媒体などの取り外し可能、不揮発性の光ディスクに対する読取りと書込みを行うための光ディスク・ドライブが提供され得る。そのような例において、それぞれは、1つまたは複数のデータ媒体インターフェースによってバス18に接続され得る。以下でさらに詳細に示され、説明されるように、メモリ28は、本開示の実施形態の機能を実行するように構成されたプログラム・モジュールのセット(たとえば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでよい。
プログラム・モジュール42のセット(少なくとも1つ)を有するプログラム/ユーティリティ40は、限定ではなく例として、オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データと同様に、メモリ28に記憶されてよい。オペレーティング・システム、1つまたは複数のアプリケーション・プログラム、他のプログラム・モジュール、およびプログラム・データ、またはこれらの何らかの組合せはそれぞれ、ネットワーキング環境の実装を含んでよい。プログラム・モジュール42は一般に、本明細書に記載の実施形態の機能または方法あるいはその両方を実行する。
コンピュータ・システム/サーバ12は、キーボード、ポインティング・デバイス、ディスプレイ24などの1つまたは複数の外部デバイス14、ユーザがコンピュータ・システム/サーバ12と対話することを可能にする1つまたは複数のデバイス、またはコンピュータ・システム/サーバ12が1つまたは複数の他のコンピューティング・デバイスと通信することを可能にする任意のデバイス(たとえば、ネットワーク・カード、モデムなど)、あるいはその組合せと通信してもよい。このような通信は、入力/出力(I/O)インターフェース22を介して行うことができる。さらに、コンピュータ・システム/サーバ12は、ローカル・エリア・ネットワーク(LAN)、一般的なワイド・エリア・ネットワーク(WAN)、またはパブリック・ネットワーク(たとえば、インターネット)、あるいはその組合せなどの1つまたは複数のネットワークと、ネットワーク・アダプタ20を介して通信することができる。図示されるように、ネットワーク・アダプタ20は、バス18を介してコンピュータ・システム/サーバ12の他の構成要素と通信する。図示されていないが、他のハードウェア構成要素またはソフトウェア構成要素あるいはその両方がコンピュータ・システム/サーバ12と共に使用され得ることを理解されたい。例には、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部ディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、およびデータ・アーカイブ・ストレージ・システムなどが含まれるが、これらに限定されない。
様々な実施形態において、1つまたは複数のニューラル・コア(図示せず)は、バス18に結合される。このような実施形態において、ニューラル・コアは、バス18を介してメモリ28からデータを受け取るか、またはメモリ28にデータを書き込んでよい。同様に、ニューラル・コアは、本明細書に記載されているようにバス18を介して他の構成要素と相互作用してよい。様々な実施形態において、ニューラル・コアは、たとえば、本明細書の他の場所に記載されているように1つまたは複数のローカル・コントローラ、メモリ、またはクロックを含んでよい。
本開示は、システム、方法、またはコンピュータ・プログラム製品あるいはその組合せを含んでよい。コンピュータ・プログラム製品は、プロセッサに本開示の態様を実施させるためのコンピュータ可読プログラム命令が記憶されたコンピュータ可読記憶媒体(または複数の媒体)を含んでよい。
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶することができる有形デバイスとすることができる。コンピュータ可読記憶媒体は、たとえば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカードまたは溝内に命令が記録された隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波路もしくは他の伝送媒体を介して伝播する電磁波(たとえば、光ファイバ・ケーブルを通過する光パルス)、またはワイヤを介して送信される電気信号などの、一過性の信号自体であると解釈されるべきではない。
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、または、ネットワーク、たとえばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、またはワイヤレス・ネットワークあるいはその組合せを介して外部コンピュータまたは外部記憶デバイスにダウンロードされてよい。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバあるいはその組合せを含んでよい。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体への記憶のために転送する。
本開示の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、インストラクション・セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語および「C」プログラミング言語もしくは同様のプログラム言語などの従来の手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードもしくはオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとして全体がユーザのコンピュータ上で、一部がユーザのコンピュータ上で、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体がリモート・コンピュータ上もしくはサーバ上で実行されてよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む、任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよく、または接続は外部コンピュータ(たとえば、インターネット・サービス・プロバイダを使用してインターネットを介して)に対して行われてもよい。いくつかの実施形態において、本開示の態様を実行するために、たとえばプログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行することができる。
本開示の態様は、本開示の実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら本明細書で説明されている。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組合せは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/動作を実施する手段を作り出すように、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置のプロセッサに提供されて、マシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が記憶されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/動作の態様を実施する命令を含む製造品を含むように、コンピュータ可読媒体に記憶され、コンピュータ、プログラマブル・データ処理装置、または他のデバイスあるいはその組合せに対して特定の方式で機能するように指示できるものであってもよい。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックで指定された機能/動作を実施するように、コンピュータ実施プロセスを作り出すべくコンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされて、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ステップを実行させるものであってもよい。
図中のフローチャートおよびブロック図は、本開示の様々な実施形態によるシステム、方法およびコンピュータ・プログラム製品の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定される論理機能を実装するための1つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または一部を表すことがある。いくつかの代替の実装形態において、ブロックに記載された機能は、図に記載された順序とは異なる順序で行われてもよい。たとえば、連続して示された2つのブロックは、実際には、関与する機能に応じて、実質的に同時に実行されてよく、またはそれらのブロックは場合によっては逆の順序で実行されてもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方のブロックの組合せは、指定される機能または動作を実行するか、あるいは専用ハードウェアとコンピュータ命令との組合せを遂行する専用ハードウェア・ベースのシステムによって実装され得ることにも留意されたい。
本開示の様々な実施形態の説明を例示の目的で提示してきたが、網羅的であること、または開示された実施形態に限定されることは意図されていない。説明した実施形態の範囲から逸脱することなく、多くの修正および変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用例、または市場で見られる技術を超える技術的改良を最もよく説明するために、あるいは、本明細書で開示される実施形態を当業者が理解できるようにするために選択されたものである。

Claims (36)

  1. ニューラル・ネットワークを管理するためのシステムであって、
    複数のニューラル・コアであって、前記複数のニューラル・コアのそれぞれが少なくとも1つのメモリを備える、前記複数のニューラル・コアと、
    前記複数のニューラル・コアを相互に結合するネットワークと
    を含み、前記複数のニューラル・コアのそれぞれの前記少なくとも1つのメモリが、複数のフィルタを含む重みテンソルの少なくとも一部を含み、各ニューラル・コアが、
    入力データ・テンソルの一部を、ローカルで読み出すか、または受け取り、
    それに前記重みテンソルの前記一部を適用し、
    その結果を、ローカルに記憶するか、または前記ネットワークを介して前記複数のニューラル・コアのうちの他のものに送るように適合される、システム。
  2. 前記重みテンソルの前記一部を前記入力データ・テンソルの前記一部に適用することが、ベクトル行列の乗算とそれに続く活性化関数を計算することを含む、請求項1に記載のシステム。
  3. 前記複数のニューラル・コアが2次元配列に配置される、請求項1または2のいずれかに記載のシステム。
  4. 前記ネットワークが前記複数のニューラル・コア間の局所結合性を提供する、請求項1ないし3のいずれかに記載のシステム。
  5. 前記ネットワークが前記配列内で隣接するニューラル・コア間の結合性を提供する、請求項3に記載のシステム。
  6. 前記複数のニューラル・コアのそれぞれにおける前記重みテンソルの前記一部が、前記重みテンソルのブロックを含む、請求項1ないし5のいずれかに記載のシステム。
  7. 前記重みテンソルが、前記配列の物理次元に従って前記複数のニューラル・コア間で分散される、請求項3に記載のシステム。
  8. 前記重みテンソルの次元、形状、および分割が設定変更可能である、請求項7に記載のシステム。
  9. 前記重みテンソルが、局所性を示す1つまたは複数の次元に沿って分割される、請求項7に記載のシステム。
  10. 前記1つまたは複数の次元が空間次元を含む、請求項9に記載のシステム。
  11. 前記1つまたは複数の次元が少なくとも1つの特徴次元を含む、請求項9に記載のシステム。
  12. 前記重みテンソルがスパースである、請求項1ないし11のいずれかに記載のシステム。
  13. 前記重みテンソルの前記一部を前記入力データ・テンソルの前記一部に前記適用する間、前記重みテンソルの非ゼロ値だけが計算に使用される、請求項12に記載のシステム。
  14. 前記メモリが、前記重みテンソルの非ゼロ値だけを記憶する、請求項12または13のいずれかに記載のシステム。
  15. 前記重みテンソルが畳み込みフィルタに対応する、請求項1ないし14のいずれかに記載のシステム。
  16. 前記重みテンソルが1つまたは複数の空間次元に沿って分割される、請求項15に記載のシステム。
  17. 前記結果が中間結果であり、
    各ニューラル・コアが、前記中間結果をローカルに記憶するか、または前記ネットワークを介して前記複数のニューラル・コアのうちの別のものに送るようにさらに適合され、
    各ニューラル・コアが、前記中間結果を、ローカルで読み出すか、または受け取り、そこから最終結果を計算するようにさらに適合される
    請求項1ないし16のいずれかに記載のシステム。
  18. 前記複数のニューラル・コアのそれぞれにおける前記重みテンソルの前記一部が、前記重みテンソルのブロックを含み、前記複数のニューラル・コアのサブセットが、同じ複製されたブロックを含む、請求項1ないし17のいずれかに記載のシステム。
  19. 前記複数のニューラル・コアのうちの1つが、重みテンソル全体を含む、請求項1ないし18のいずれかに記載のシステム。
  20. 前記1つのニューラル・コアが、前記重みテンソルの前記一部を前記複数のニューラル・コアのうちの他のものにそれぞれ分散するように適合される、請求項19に記載のシステム。
  21. 前記重みテンソル全体を含む中央メモリをさらに含み、前記中央メモリから、前記重みテンソルの前記一部を、前記複数のニューラル・コアのうちの他のものにそれぞれ分散するように適合される、請求項1ないし20のいずれかに記載のシステム。
  22. 前記重みテンソルの前記一部が前記複数のフィルタのサブセットに対応する、請求項1ないし21のいずれかに記載のシステム。
  23. 前記重みテンソルが圧縮される、請求項1ないし22のいずれかに記載のシステム。
  24. 前記重みテンソルが、ゼロ値を除外するように符号化される、請求項1ないし23のいずれかに記載のシステム。
  25. 前記重みテンソルの各値が、−1、0、または1である、請求項1ないし24のいずれかに記載のシステム。
  26. 重みテンソル・ブロックが、複数のニューラル・コアのために複製される、請求項18に記載のシステム。
  27. 前記重みテンソル・ブロックが、単一のニューラル・コア・メモリにのみ記憶され、ネットワークオンチップを介して複数のニューラル・コアに分散される、請求項26に記載のシステム。
  28. 前記重みテンソル・ブロックが、前記コア配列の外部にある単一のメモリのみに記憶される、請求項27に記載のシステム。
  29. ニューラル・ネットワークを管理するための方法であって、
    メモリを備えるニューラル・コアにおいて、入力データ・テンソルの一部を、ローカルで読み出すか、または受け取ることと、
    複数のフィルタを含む重みテンソルの少なくとも一部を前記メモリから読み取ることと、
    前記重みテンソルの前記一部を前記入力データ・テンソルの前記一部に適用して結果を得ることと、
    前記結果を、ローカルに記憶するか、またはネットワーク介して少なくとも1つの他のニューラル・コアに送ることと
    を含む、方法。
  30. 前記重みテンソルがスパースである、請求項29に記載の方法。
  31. 前記重みテンソルの前記一部が前記複数のフィルタのサブセットに対応する、請求項29または30のいずれかに記載の方法。
  32. 前記重みテンソルが圧縮される、請求項29ないし31のいずれかに記載の方法。
  33. 前記重みテンソルが、ゼロ値を除外するように符号化される、請求項29ないし32のいずれかに記載の方法。
  34. 前記重みテンソルの各値が、−1、0、または1である、請求項29ないし33のいずれかに記載の方法。
  35. ニューラル・ネットワークを管理するためのコンピュータ・プログラム製品であって、
    処理回路によって読み取り可能であり、請求項29ないし34のいずれかに記載の方法を実行するために前記処理回路によって実行される命令を記憶するコンピュータ可読記憶媒体を備える、コンピュータ・プログラム製品。
  36. コンピュータ可読媒体に記憶され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項29ないし34のいずれかの方法を実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラム。
JP2020557303A 2018-04-30 2019-04-29 並列分散テンソル計算用のニューラル・ハードウェア・アクセラレータ Active JP7372009B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/967,482 2018-04-30
US15/967,482 US20190332925A1 (en) 2018-04-30 2018-04-30 Neural hardware accelerator for parallel and distributed tensor computations
PCT/EP2019/060888 WO2019211226A1 (en) 2018-04-30 2019-04-29 Neural hardware accelerator for parallel and distributed tensor computations

Publications (2)

Publication Number Publication Date
JP2021522565A true JP2021522565A (ja) 2021-08-30
JP7372009B2 JP7372009B2 (ja) 2023-10-31

Family

ID=66334482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020557303A Active JP7372009B2 (ja) 2018-04-30 2019-04-29 並列分散テンソル計算用のニューラル・ハードウェア・アクセラレータ

Country Status (5)

Country Link
US (1) US20190332925A1 (ja)
EP (1) EP3788556A1 (ja)
JP (1) JP7372009B2 (ja)
CN (1) CN111989697A (ja)
WO (1) WO2019211226A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230034655A (ko) * 2021-09-03 2023-03-10 연세대학교 산학협력단 n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11586910B1 (en) 2018-04-20 2023-02-21 Perceive Corporation Write cache for neural network inference circuit
US11481612B1 (en) 2018-04-20 2022-10-25 Perceive Corporation Storage of input values across multiple cores of neural network inference circuit
US11568227B1 (en) 2018-04-20 2023-01-31 Perceive Corporation Neural network inference circuit read controller with multiple operational modes
US11783167B1 (en) 2018-04-20 2023-10-10 Perceive Corporation Data transfer for non-dot product computations on neural network inference circuit
US11501138B1 (en) 2018-04-20 2022-11-15 Perceive Corporation Control circuits for neural network inference circuit
US10977338B1 (en) 2018-04-20 2021-04-13 Perceive Corporation Reduced-area circuit for dot product computation
US11604973B1 (en) 2018-12-05 2023-03-14 Perceive Corporation Replication of neural network layers
US11676003B2 (en) * 2018-12-18 2023-06-13 Microsoft Technology Licensing, Llc Training neural network accelerators using mixed precision data formats
US11347297B1 (en) 2019-01-23 2022-05-31 Perceive Corporation Neural network inference circuit employing dynamic memory sleep
US11625585B1 (en) 2019-05-21 2023-04-11 Perceive Corporation Compiler for optimizing filter sparsity for neural network implementation configuration
US11562205B2 (en) * 2019-09-19 2023-01-24 Qualcomm Incorporated Parallel processing of a convolutional layer of a neural network with compute-in-memory array
US11681922B2 (en) * 2019-11-26 2023-06-20 Numenta, Inc. Performing inference and training using sparse neural network
CN113449859A (zh) * 2020-03-27 2021-09-28 华为技术有限公司 一种数据处理方法及其装置
CN113537485A (zh) * 2020-04-15 2021-10-22 北京金山数字娱乐科技有限公司 一种神经网络模型的压缩方法及装置
US11113601B1 (en) * 2020-06-30 2021-09-07 Moffett Technologies Co., Limited Method and system for balanced-weight sparse convolution processing
US20220156575A1 (en) * 2020-11-19 2022-05-19 Apple Inc. Multi-dimensional tensor support extension in neural network processor
CN112669861B (zh) * 2020-12-09 2023-04-07 北京百度网讯科技有限公司 音频数据处理方法、装置、设备和存储介质
CN113065647B (zh) * 2021-03-30 2023-04-25 西安电子科技大学 加速神经网络的计算-存储通信系统及通信方法
CN113159285B (zh) * 2021-04-14 2023-09-05 广州放芯科技有限公司 神经网络加速器
EP4100835A1 (en) * 2021-04-26 2022-12-14 Google LLC Efficiently allocating memory on neural network compute tiles
US11669331B2 (en) * 2021-06-17 2023-06-06 International Business Machines Corporation Neural network processing assist instruction
WO2023070324A1 (en) * 2021-10-26 2023-05-04 Intel Corporation Method and apparatus for optimizing inference of deep neural networks
WO2023249762A1 (en) * 2022-06-21 2023-12-28 Ceremorphic, Inc. Max-pool prediction for efficient convolutional nuerual network for resource-constrained devices

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05242065A (ja) * 1992-02-28 1993-09-21 Hitachi Ltd 情報処理装置及びシステム
JP2000163384A (ja) * 1998-11-25 2000-06-16 Hitachi Ltd 半導体装置
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
US20180046895A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Device and method for implementing a sparse neural network

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9959498B1 (en) * 2016-10-27 2018-05-01 Google Llc Neural network instruction set architecture
US10175980B2 (en) * 2016-10-27 2019-01-08 Google Llc Neural network compute tile
US10733505B2 (en) * 2016-11-10 2020-08-04 Google Llc Performing kernel striding in hardware
WO2018189728A1 (en) * 2017-04-14 2018-10-18 Cerebras Systems Inc. Floating-point unit stochastic rounding for accelerated deep learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05242065A (ja) * 1992-02-28 1993-09-21 Hitachi Ltd 情報処理装置及びシステム
JP2000163384A (ja) * 1998-11-25 2000-06-16 Hitachi Ltd 半導体装置
US20170316312A1 (en) * 2016-05-02 2017-11-02 Cavium, Inc. Systems and methods for deep learning processor
US20180046895A1 (en) * 2016-08-12 2018-02-15 DeePhi Technology Co., Ltd. Device and method for implementing a sparse neural network

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
安藤 洸太 ほか: ""BRein Memory:バイナリ・インメモリ再構成型深層ニューラルネットワークアクセラレータ", 映像情報メディア学会技術報告, vol. 41, no. 25, JPN6022030494, 24 July 2017 (2017-07-24), pages 101 - 106, ISSN: 0004834920 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230034655A (ko) * 2021-09-03 2023-03-10 연세대학교 산학협력단 n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치
KR102597079B1 (ko) 2021-09-03 2023-10-31 연세대학교 산학협력단 n차원 텐서 곱 연산을 이용한 합성곱 신경망 압축 방법 및 장치

Also Published As

Publication number Publication date
EP3788556A1 (en) 2021-03-10
CN111989697A (zh) 2020-11-24
US20190332925A1 (en) 2019-10-31
WO2019211226A1 (en) 2019-11-07
JP7372009B2 (ja) 2023-10-31

Similar Documents

Publication Publication Date Title
JP2021522565A (ja) 並列分散テンソル計算用のニューラル・ハードウェア・アクセラレータ
JP7325158B2 (ja) ニューラル・ネットワーク・コアにおける動的精度のためのデータ表現
JP6857286B2 (ja) ニューラルネットワークアレイの性能の改善
JP7394104B2 (ja) ハードウェアにおけるカーネルストライドの実行
JP7132824B2 (ja) ニューラルネットワークにおいてデコンボルーション演算を実行する装置及びその方法
EP3373210B1 (en) Transposing neural network matrices in hardware
KR102545128B1 (ko) 뉴럴 네트워크를 수반한 클라이언트 장치 및 그것을 포함하는 시스템
CN107622302B (zh) 用于卷积神经网络的超像素方法
CN107358293B (zh) 一种神经网络训练方法及装置
JP7227272B2 (ja) 再構成可能なコアレベルおよびベクトルレベルの並列性を有する並列計算アーキテクチャ
JP2021527864A (ja) 実行時再構成可能なニューラル・ネットワーク・プロセッサ・コア
EP3855367A1 (en) Operation accelerator, processing method, and related device
US11210584B2 (en) Memory efficient convolution operations in deep learning neural networks
US20230236891A1 (en) Neural network accelerator, acceleration method, and apparatus
KR20190066473A (ko) 뉴럴 네트워크에서 컨볼루션 연산을 처리하는 방법 및 장치
JP7403638B2 (ja) 高速なスパースニューラルネットワーク
US11836971B2 (en) Method and device with convolution neural network processing
CN108629405B (zh) 提高卷积神经网络计算效率的方法和装置
JP7426980B2 (ja) 分散型ニューラル・ネットワークのコアのネットワークにおける階層的並列処理
WO2023122896A1 (zh) 一种数据处理方法和装置
KR20200023154A (ko) 컨볼루션 뉴럴 네트워크를 처리하는 방법 및 장치
US11681915B2 (en) Neural network method and apparatus
US20220283778A1 (en) Method and device for encoding
CN115511070A (zh) 模型训练方法、装置及可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20201020

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210830

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221019

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231017

R150 Certificate of patent or registration of utility model

Ref document number: 7372009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150