JP2023518717A

JP2023518717A - 機械学習アクセラレータの電力削減

Info

Publication number: JP2023518717A
Application number: JP2022554763A
Authority: JP
Inventors: ヴィー．カザコフマキシム; ローレンスワズムントサミュエル
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-03-26
Filing date: 2021-03-08
Publication date: 2023-05-08
Also published as: CN115298669A; EP4128064A1; US20210303987A1; EP4128064A4; WO2021194732A1; KR20220158768A

Abstract

ニューラルネットワーク演算を実行するための技術が開示されている。本技術は、第１の行列タイル及び第２の行列タイルを識別することと、第１の行列タイルについての第１の範囲情報及び第２の行列タイルについての第２の範囲情報を取得することと、第１の範囲情報及び第２の範囲情報に基づいて行列乗算経路を選択することと、選択された行列乗算経路を使用して、第１の行列タイル及び第２の行列タイルに対して行列乗算を実行し、タイル行列乗算積を生成することと、を含む。【選択図】図３

Description

（関連出願の相互参照）
本願は、２０２０年３月２６日に出願された米国特許出願第１６／８３１，７１１号の利益を主張し、その内容は、参照により本明細書に組み込まれる。

機械学習システムは、出力を生成するために、訓練（トレーニング）されたネットワークを通して入力を処理する。処理されるデータの量及びネットワークの複雑さのために、そのような評価は、非常に多数の計算を伴う。

添付の図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

一例による、ニューラルネットワーク処理システムのブロック図である。ニューラルネットワークデータを示す例示的なブロック図である。一例による、追加の詳細を示す図１のニューラルネットワーク処理ブロックのブロック図である。一例による、一般的なニューロン層（generic neuron layer）に関連する行列乗算演算を示す図である。一例による、畳み込み演算を示す図である。一例による、バッチ式マルチチャネル畳み込み演算を示す図である。マルチチャネル、バッチ式畳み込みが行列乗算演算として実行されている例示的な方法を示す図である。一例による、行列演算を実行するための方法のフロー図である。

ニューラルネットワーク演算を実行するための技術が開示されている。本技術は、第１の行列タイル及び第２の行列タイルを識別することと、第１の行列タイルについての第１の範囲情報及び第２の行列タイルについての第２の範囲情報を取得することと、第１の範囲情報及び第２の範囲情報に基づいて、行列乗算経路を選択することと、タイル行列乗算積を生成するために、選択された行列乗算経路を使用して、第１の行列タイル及び第２の行列タイルに行列乗算を実行することと、を含む。

図１は、一例による、ニューラルネットワーク処理システム１００のブロック図である。ニューラルネットワーク処理システムは、ニューラルネットワーク処理ブロック１０２と、ニューラルネットワークデータ１０４と、を含む。ニューラルネットワーク処理ブロック１０２は、本明細書に記載される演算を実行するハードウェア回路、本明細書に記載される演算を実行するためにプロセッサ上で実行するソフトウェア、又は、本明細書に記載される演算を実行するハードウェア回路とプロセッサ上で実行するソフトウェアとの組み合わせとして具体化されている。

演算において、ニューラルネットワーク処理ブロック１０２は、ニューラルネットワーク入力１０６を受信し、ニューラルネットワーク出力１０８を生成するためにニューラルネットワークデータ１０４に従ってニューラルネットワーク入力１０６を処理し、ニューラルネットワーク出力１０８を出力する。

いくつかの例において、ニューラルネットワーク処理ブロック１０２は、本明細書に記載される演算を実行するための命令を読み取り、実行する１つ以上のプロセッサを含むコンピュータシステムであるか、又は、その中に含まれている。いくつかの実施形態において、任意のそのようなプロセッサ（又は、本明細書に記載される任意のプロセッサ）は、１つ以上のメモリから命令をフェッチするための命令フェッチ回路と、１つ以上のメモリからデータをフェッチためのデータフェッチ回路と、命令を実行するための命令実行回路と、を含む。様々な例において、ニューラルネットワーク処理ブロック１０２の１つ以上のプロセッサは、１つ以上のプロセッサのためにデータを入力し、データを出力する、１つ以上の入力デバイス及び／又は１つ以上の出力デバイスに結合されている。ニューラルネットワークデータ１０４は、１つ以上のニューラルネットワークを定義するデータを含み、ニューラルネットワーク処理ブロック１０２は、１つ以上のニューラルネットワークを通して、ニューラルネットワーク出力１０８を生成するためにニューラルネットワーク入力１０６を処理する。

図２は、ニューラルネットワークデータ１０４を示す例示的なブロック図である。ニューラルネットワークデータ１０４は、データが流れる層２０２のシーケンスを含む。ニューラルネットワークデータ１０４は、このデータが、出力を生成するために、入力に対して実行されたニューラルネットワーク演算のシーケンスを表すため、本明細書では単に「ニューラルネットワーク１０４」と呼ばれることがある。ニューラルネットワーク処理ブロック１０２は、ニューラルネットワーク入力１０６を層２０２に適用し、層２０２は、それぞれの層変換を適用してニューラルネットワーク出力１０８を生成する。各層は、その層２０２から次の層へ又は最終層２０２（Ｎ）についてニューラルネットワーク出力１０８としての出力を生成するために、その層２０２によって受信された入力に適用されたそれ自体の層変換を有する。ニューラルネットワークデータ１０４は、層２０２の数及び各層２０２での特定の変換として、ニューラルネットワークを定義する。例示的な変換は、層２０２における複数のニューロンの各々が前の層２０２からの出力への接続性を定義している一般的なニューロン層と、単一要素変換と、畳み込み層と、プーリング層と、を含む。より具体的には、上述したように、各層２０２は、前の層２０２から入力ベクトルを受信する。いくつかの層２０２は、ニューロンのセットを含み、そのような各ニューロンは、入力ベクトルの定義されたサブセット又はその全体のベクトルを受信する。更に、そのような各ニューロンは、そのような各入力に適用された重みを有する。更に、各ニューロンの活性化（activation）は、各入力での入力値と各入力での重みの積の合計である（したがって、そのような各活性化は、そのニューロンの入力ベクトルとそのニューロンの重みベクトルのドット積（dot product）である）。

単一要素変換を適用する層２０２は、入力ベクトルを受信し、その入力ベクトルの各要素にいくつかの定義された変換を適用する。例示的な変換は、クランプ機能、又は、いくつかの他の非線形関数を含む。プーリングを適用する層２０２は、任意の技術的に実現可能な方法において入力をダウンサンプリングするダウンサンプリング機能に基づいて、入力ベクトルよりも小さいサイズの出力ベクトルを生成するために、入力ベクトルに対してダウンサンプリングを実行する。畳み込みを適用する層２０２は、出力を生成するために、入力データの切り抜き及びフィルタベクトルをフィルタリングするためにドット積が適用される畳み込み演算を適用する。

一般的ニューロン層及び畳み込み層等のいくつかのタイプの層演算は、行列乗算で実装されている。より具体的には、一般的なニューロン層におけるニューロンの活性化関数の計算はドット積であるため、そのような計算は、行列乗算によって定義されたドット積演算のセットとして実装することができる。同様に、畳み込み演算におけるフィルタの適用はドット積で実行されているため、行列乗算演算は、畳み込み層を実装するために使用することができる。浮動小数点数を含む大規模な行列乗算演算は、実行された浮動小数点数の乗算演算の複雑さ及び数のために、大量の電力を消費する可能性がある。したがって、特定の状況における電力使用を低減する技術が本明細書で提供されている。

図３は、一例による、追加の詳細を示す図１のニューラルネットワーク処理ブロック１０２のブロック図である。ニューラルネットワーク処理ブロック１０２は、ニューラルネットワーク処理ブロック１０２が行列乗算を使用する層２０２について行列乗算を実行するために使用するタイル行列乗算器３０２を含む。

層２０２について行列乗算を実行する過程において、ニューラルネットワーク処理ブロック１０２は、層入力３０８及び層重み３０９を受信し、層入力３１０についての範囲メタデータ及び重み３１６についての範囲メタデータを生成又は受信する。層入力３０８は、行列乗算を使用する特定の層２０２についての入力を含む。層重み３０９は、一般的なニューロン層についてのニューロン接続重み又は畳み込み層についてのフィルタ重みを含む。層入力３０８は、各々が層入力を表す入力行列の一部である層入力タイル３１２のセットを含む。層重み３０９は、重みタイル３１３に分割された層の重みのセットである。重み３１６についての範囲メタデータは、各重みタイル３１８についての範囲メタデータを含む。範囲メタデータの各項目は、対応する重みタイル３１３の範囲を示す。層入力３１０についての範囲メタデータは、各層入力タイル３１２についての範囲メタデータを含む。層入力メタデータの各項目は、対応する層入力タイル３１２の範囲を示す。

範囲（重み範囲３１８及び入力範囲３１１）は、対応する重みタイル３１３又は入力タイル３１２についての値の範囲を示す。一例において、特定タイルについての範囲は、－１～１であり、タイルの全ての要素が－１～１であることを意味している。別の例において、範囲は、－２５６～２５６であり、別の例において、範囲は、全範囲（すなわち、重みのデータ項目によって表現することができる最大範囲）である。

層入力３０８によって層重み３０９の行列乗算を実行する場合に、タイル行列乗算器３０２は、部分行列積を生成するために層重みタイル３１３によって層入力タイル３１２の行列乗算を実行し、層出力３２０を生成するために部分行列積を組み合わせる。部分積を生成するために一緒に乗算されている特定の層入力タイル３１２及び重みタイル３１３、並びに、層出力３２０を生成するためにそれらの部分積が組み合わせられている方法は、層の性質によって規定されている。いくつかの例は、この記載の他の部分において示されている。

重みタイル３１３によって層入力タイル３１２の特定の乗算を実行することにおいて、タイル行列乗算器は、重みタイル３１８についての範囲メタデータ及び入力タイル３１１についての範囲メタデータを検査し、乗算を実行するために乗算経路３０６を選択する。異なる乗算経路３０６は、範囲の異なる組み合わせについて構成されており、組み合わせが、層入力タイル３１１の範囲及び重みタイル３１８の範囲として定義されている。より限定された範囲の組み合わせについて構成されている乗算経路３０６は、より広い範囲のセットの組み合わせについて構成されている乗算経路３０６よりも少ない電力を消費する。乗算経路３０６は、最大で固定サイズの２つの行列について行列乗算を実行するように構成された回路である。本明細書の他の箇所に記載されるタイル状乗算アプローチを使用する乗算経路３０６を使用して、このサイズよりも大きい２つの行列を一緒に乗算することが可能である。簡単に言えば、このタイル状乗算アプローチは、入力行列をタイルに分割すること、部分積を生成するためにこれらのタイルを一緒に乗算すること、及び、最終出力行列を生成するために部分積を合計することを伴う。いくつかの実施形態において、各乗算経路３０６は、同じサイズの被乗数行列について構成されている。

より限定された範囲について乗算経路３０６についての電力低減は、より単純な回路を通して成し遂げられる。一例において、行列乗算は、部分ドット積を生成するためにドット積被乗数を乗算すること、及び、最終ドット積を生成するために部分ドット積を合計することを伴う、ドット積を実行することを伴う。部分ドット積の指数は、最終的に、十分に指数が小さい部分ドット積が最大指数を有する部分積によって表現可能な最小単位よりも十分に小さく、したがって最終ドット積に寄与しない場合、部分ドット積を合計する場合に、何れの部分ドット積が破棄されるかを判定する。この破棄を容易にするために、乗算経路３０６の少なくともいくつかは、何れの部分ドット積を破棄するかを判定するために、部分ドット積の指数を比較するための回路を含む。しかしながら、この比較は、電力を消費する。範囲メタデータを利用することは、重みタイル３１３及び入力タイル３１２の一方又は両方が特定の範囲内に適合する場合に、より少ない数の指数比較が行われることを可能にする。したがって、タイル行列乗算器３０２が部分行列積を生成するために入力タイル３１２によって重みタイル３１３の乗算を実行する場合に、タイル行列乗算器３０２は、入力タイル３１２についての入力タイル範囲３１１及び重みタイル３１３についての重みタイル範囲３１８を検査し、それらの範囲に適した乗算経路３０６を選択する。

ニューラルネットワーク処理ブロック１０２は、以下の方法においてニューラルネットワーク１０４で処理を実行する。ニューラルネットワーク処理ブロック１０２は、ニューラルネットワーク１０４への入力１０６を受信し、それらの入力を第１の層２０２に提供する。ニューラルネットワーク処理ブロック１０２は、出力を生成するためにその層２０２でそれらの入力を処理して、次の層２０２にそれらの出力を提供し、ニューラルネットワーク処理ブロック１０２がニューラルネットワーク出力１０８を生成するまで、この処理を継続する。行列乗算を介して実装された１つ以上の層２０２（一般的なニューロン層又は畳み込み層等）について、ニューラルネットワーク処理ブロック１０２は、乗算される行列について範囲データ（例えば、重み３１６についての範囲メタデータ及び／又は層入力３１０についての範囲メタデータを含む）を生成又は取得し、その範囲メタデータに基づいて選択された乗算経路３０６を使用して行列乗算を実行する。いくつかの実施形態において、ニューラルネットワーク処理ブロック１０２は、ＣＰＵ（中央処理ユニット）（いくつかの実施形態において、オペレーティングシステムを実行する）等の外部プロセッサからの介入なしにこの範囲メタデータを取得又は生成する。いくつかの実施形態において、ニューラルネットワーク処理ブロック１０２は、この範囲メタデータを自動的に取得又は生成する。いくつかの実施形態において、ニューラルネットワーク処理ブロック１０２は、ニューラルネットワーク処理ブロック１０２の一部ではないプロセッサによってそうするように命令されることなく、このメタデータを取得又は生成する。いくつかの実施形態において、ニューラルネットワーク処理ブロック１０２は、それらの入力をニューラルネットワーク処理ブロック１０２の外部にあるメモリに転送することなく、層２０２への入力についてこのメタデータを取得又は生成する。より具体的には、いくつかの実施形態において、ＣＰＵ又は他のプロセッサは、層２０２によって生成された出力データを、ＣＰＵ又は他のプロセッサによってアクセス可能なメモリに読み込ませ、その出力データについて範囲メタデータを生成し、後続の層２０２に範囲メタデータを提供する。いくつかの実施形態において、ニューラルネットワーク処理ブロック１０２は、ＣＰＵ又は他のプロセッサによる介入なしで、及び、出力データがＣＰＵ又は他のプロセッサによってアクセス可能なメモリに読み込まれることを必要とせずに、この範囲メタデータ生成を実行する。

いくつかの実施形態において、ニューラルネットワーク処理ブロック１０２は、ニューラルネットワーク１０４を通して入力を処理しながら、重み３１６について範囲メタデータを生成しない。代わりに、ニューラルネットワーク処理ブロック１０２は、重み３１６がニューラルネットワーク１０４を通して入力を処理する任意の特定のインスタンスに対して静的であるため、ニューラルネットワーク１０４を通して入力を処理する前に、重み３１６について範囲メタデータを生成する。行列乗算で実装される層２０２について入力がフェッチされる場合に、ニューラルネットワーク処理ブロック１０２は、その層の重みについて事前に生成された範囲データをフェッチし、その層２０２についての層入力３１０について範囲メタデータを取得する。

図４は、一例による、一般的なニューロン層に関連する行列乗算演算を示す図である。何れの層２０２も、一般的なニューロン層として実装可能である。例示的なニューラルネットワーク部分４００は、第１のニューロン層４０２（１）と、第２のニューロン層４０２（２）と、第３のニューロン層４０２（３）と、を含む。第１のニューロン層４０２（１）において、ニューロンＮ_１，１は、Ｗ_{１，１，１} ^＊入力１＋Ｗ_{１、２、１} ^＊入力２として活性化出力を生成するために、入力１に重みＷ_{１，１，１}を適用し、入力２にＷ_{１、２、１}を適用する。同様に、ニューロンＮ１，２は、Ｗ_{１，１，２} ^＊入力１＋Ｗ_{１、２、１} ^＊入力２として出力を生成する。他のニューロン層４０２についての活性化は、示された重み及び入力で同様に計算される。

図４は、入力の複数のセット（又はバッチ）について、第２のニューロン層４０２（２）についての行列乗算演算を示す。入力のセットは、入力データの独立したインスタンスである。一時的に図２に戻って参照すると、ニューラルネットワーク入力データ１０６の複数の異なるセットを同時にニューラルネットワークデータ１０４に適用して、ニューラルネットワーク出力１０８の複数のセットを生成することが可能であり、これは、複数のニューラルネットワーク順方向伝播演算を並行して実行することを可能にする。

図４において、行列乗算４０４の演算は、３つの異なる入力データセットについて示されている。図示された第１の行列４０６は、層４０２（２）のニューロンへの入力の行列である。これらの入力は、図示された前のニューロンの活性化、具体的にはＮ_１，１活性化及びＮ_１，２活性化と呼ばれる。したがって、入力行列４０６は、３つの異なるセットについて、ニューロンＮ_１，１及びＮ_１，２からの活性化を含む。それらの活性化の表記は、Ａ_{Ｘ、Ｙ、Ｚ}であり、ここで、Ｘ及びＹはニューロンを定義しており、Ｚは入力セットを定義している。第２の行列４０８は、第１の層４０２（１）のニューロンと第２の層４０２（２）のニューロンとの間の接続の重みを含む。重みは、Ｗ_{Ｘ、Ｙ、Ｚ}として表されており、ここで、Ｘ及びＹは重みが指し示すニューロンを表しており、Ｚは重みが発するニューロンを表している。

行列乗算は、活性化行列４１０を取得するために、重み行列の列によって入力の行の各々のドット積を実行することを含む。活性化行列の各行は、入力の異なるセットに対応し、各列は、層４０２（２）の異なるニューロンに対応し、示されるようにドット積が生成される。

上述したように、タイル行列乗算器３０２は、行列をタイルに分解すること、部分行列積を生成するために一緒にタイルを乗算すること、及び、最終出力行列を生成するために部分行列積を合計することによって行列を乗算する。タイル行列乗算器３０２は、適切な範囲メタデータに基づいて、各タイルからタイルへの乗算について乗算経路３０６を選択する。

それらの大きな行列をより小さな行列（タイル）に分割することによって大きな行列を乗算する方法の一例が、ここで提供されている。

上記のように、行列乗算演算において、行列積におけるｘ，ｙ座標を有する要素は、第１の行列のＸ番目の行と第２の行列のＹ番目の列とのドット積を生成することによって生成されている。同じ行列乗算は、被乗数行列の各々をタイルに分割すること、各タイルを「疎」被乗数行列の要素として処理すること、これらの「疎」行列に行列乗算を実行することによって、タイル状様式で実行され得る。そのような疎行列の積の座標ｘ、ｙを有する各要素は、第１の疎行列のＸ番目の行と第２の疎行列のＹ番目の列との「疎ドット積」から結果として生じる行列である。疎ドット積は、乗算が行列乗算に置き換えられ、加算が行列加算に置き換えられることを除いて、ドット積と同じである。そのようなドット積は、２つのタイルの行列乗算を伴うため、この乗算は、部分行列積を生成するためにタイル毎の行列乗算を実行し、次いで、最終積に到達するためにそれらの部分行列積を加算するハードウェア上にマッピング可能である。タイル行列乗算器３０２は、タイル毎の行列乗算について乗算経路３０６を選択するために、記憶された範囲メタデータを使用して、タイル状被乗数行列を乗算するために上記の演算を実行する。

以下の例において、表１の行列乗算は、タイル状様式において実行される。行列乗算：

は、

として表すことができ、
ここで、Ｍ及びＮ要素は、タイルであり、

である。

したがって、行列積は、各要素が、タイルの行列積の合計である、

として表すことができる。ＮタイルとＭタイルを乗算することは、標準的な行列乗算を通して行われる。上記は、２つの４×４行列の行列乗算が行列を２×２のタイルに分割すること、部分行列積を生成するためにそれらの行列を乗算すること、及び、最終行列積を生成するために部分行列積を合計することによって、いかにして実行することができるかを示している。いくつかの実施形態において、図４に記載されたタイプの一般的なニューロン行列乗算について、重みタイル３１３及び入力タイル３１２は、（１つ以上の入力セットについて）重み行列及び入力行列のタイルへの分割を表す。図３の範囲メタデータは、各タイル（Ｍタイル又はＮタイル）について指定されている。

行列乗算で実装されている別のタイプのニューラルネットワーク演算は、畳み込みである。図５は、一例による、畳み込み演算５００を示す図である。畳み込み演算において、入力行列５０２（画像又は他の行列データ等）は、出力行列５０６を生成するためにフィルタ５０４で畳み込まれている。入力行列５０２内で、いくつかのフィルタ切り抜き５０８が示されている。各フィルタ切り抜きは、出力行列５０６の要素Ｏを生成するために、ドット積がフィルタ５０４で実行される入力行列５０２の一部分を表す。なお、各フィルタ切り抜きについての演算は行列乗算ではないが、フィルタ切り抜きの要素及びフィルタを一次元ベクトルとして敷設することによって生成される２つのベクトルを備えたドット積である。したがって、出力要素Ｏ_１，１は、Ｉ_１，１Ｆ_１，１＋Ｉ_２，１Ｆ_２，１＋Ｉ_３，１Ｆ_３，１＋Ｉ_１，２Ｆ_１，２．．．＋Ｉ_２，３Ｆ_２，３＋Ｉ_３，３Ｆ_３，３に等しい。フィルタ５０４は、示されるように、寸法Ｓ×Ｒを有し、出力行列５０６は、寸法Ｑ×Ｐを有する。

フィルタ切り抜き５０８の位置は、水平跨ぎ５１０及び垂直跨ぎ５１２によって画定されている。より具体的には、第１のフィルタ切り抜き５０８は、左上の角に位置付けられ、水平跨ぎ５１０は、後続の各フィルタ切り抜き５０８が前のフィルタ切り抜きからオフセットすることによって水平方向に入力行列要素の数を画定する。水平に整列されている（すなわち、全ての要素が正確に同じ行にある）フィルタ切り抜き５０８は、本明細書ではフィルタ切り抜き行と呼ばれる。垂直跨ぎ５１２は、各フィルタ切り抜き行が前のフィルタ切り抜き行からオフセットされている垂直方向の入力行列要素の数を画定する。

一例において、畳み込み演算の行列乗算演算への変換は、以下のように実行される。各フィルタ切り抜きは、入力被乗数行列に配置するための行の要素として敷設される。これらの行は、垂直に積み重ねられ、その結果、入力行列は、各列が異なるフィルタ切り抜きに対応する、行のセットであり、各行がそのフィルタ切り抜きの要素を含有している。フィルタデータは、フィルタベクトルを形成するために垂直に配列されている。これは、そのような行列乗算が出力画像５０６の出力要素を生成するためにフィルタデータを備えた各フィルタ切り抜き５０８のドット積を実行することを伴うので、出力画像５０６を結果として生じさせるために、フィルタベクトルによる入力データの行列乗算を可能にする。この行列乗算の出力はベクトルであり、２次元画像ではないが、このベクトルは、適切な形式に容易に再配列することができるか、又は、ベクトルが必要に応じて適切な形式であるかのように単に取り扱うことができることに留意されたい。

図６は、一例による、バッチ式マルチチャネル畳み込み演算６００を示す図である。バッチ式マルチチャネル畳み込み演算において、Ｎ個の入力セット６１０の各々は、Ｋ個のフィルタセット６１２で畳み込まれ、各入力セット６１０及び各フィルタセット６１２がそれぞれＣ個のチャネルを有する。生成された出力は、Ｎ個の出力セット６１５であり、各出力セット６１５がＫ個の出力画像を有している。

マルチチャネル畳み込み演算において、複数の入力画像５０２及び複数のフィルタ５０４が存在し、各入力画像５０２及び各フィルタ５０４は、特定のチャネルに関連付けられている。マルチチャネル畳み込みは、特定のチャネルの入力画像をその同じチャネルのフィルタで畳み込むことを伴う。各チャネルについてこれらの複数の畳み込み演算を行うことは、各チャネルについて出力画像をもたらす。次いで、これらの出力画像は、特定の入力セット６１０及び特定のフィルタセット６１２について、畳み込みについての最終出力画像を取得するために合計されている。出力画像は、所定の入力セット６１０について出力セット６１５を生成するために、各入力セット６１０についてＫ回生成される。総出力６０６はＮ個の出力セット６１５であり、各出力セットがＫ個の出力画像を含む。したがって、Ｋ個の出力画像が各入力セット６１０について生成され、Ｋ個のフィルタセット６１２があるので、出力画像の総数はＫ×Ｎである。

図７は、マルチチャネル、バッチ式畳み込みが行列乗算演算として実行されている例示的な方法を示す図である。この例は、複数のチャネル、複数の入力画像（Ｎ）及び複数のフィルタセット（Ｋ）について記載されているが、本明細書で提示される教示は、非バッチ式畳み込み、すなわち（or）一入力画像（Ｎ＝１）、一フィルタセット（Ｋ＝１）、及び／又は、一チャネル（Ｃ＝１）を含む畳み込みに適用されることに留意されたい。

入力データ７０２は、Ｃ個のチャネルのデータと、Ｎ個の入力セット６１０と、ＰｘＱのフィルタ切り抜きと、を含む。出力画像５０６がＰｘＱの要素を有し、そのような各要素がフィルタを備えた一フィルタ切り抜きのドット積を使用して生成されているため、入力セット６１０毎にＰｘＱのフィルタ切り抜きがある。フィルタ切り抜きは、入力データ７０２における行として配列されている。入力データ７０２における単一の行は、特定の入力セット６１０から特定のフィルタ切り抜きについて水平に配列された全てのチャネルを含む。したがって、入力データ７０２においてＮ×Ｐ×Ｑ行があり、各列が、全てのチャネルについて、並びに、特定の入力画像セット６１０及び特定のフィルタ切り抜きについて、フィルタ切り抜きデータを含んでいる。

フィルタデータ７０４はＫ個のフィルタセットを含み、各フィルタセット６１２が各々（各チャネルに対して１つ）Ｃ個のフィルタを有する。各フィルタは、Ｋ個のフィルタセット６１２のうち１つの一チャネルについてデータを含む。個々のフィルタについてのデータは、一列に属する単一のフィルタセット６１２の全てのチャネル及びフィルタデータ７０４に存在する合計Ｋ列のデータを備え、垂直に配列されている。

出力行列７０６は、Ｋ個のフィルタセットの各々についてＮ個の出力画像を含む。出力行列７０６は、入力データ７０２及びフィルタデータ７０４の通常の行列乗算演算として生成されている。タイル状様式においてこの演算を実行するために、タイル行列乗算器３０２は、入力データ７０２及びフィルタデータ７０４の各々においてタイルを生成し、部分行列積を生成するためにそれらのタイルを一緒に乗算し、その要素がタイルである「疎」行列を乗算することに関して、本明細書の他の箇所で記載された方法において一緒にそれらの部分行列積を追加する。入力タイル７２０及びフィルタデータタイル７２２は、タイルが入力データ７０２及びフィルタデータ７０４からどのように形成され得るのかを説明するために示されているが、これらのタイルは、任意のサイズであってもよい。

乗算は、以下の方法において出力データを生成する。入力データ７０２の各行は、出力画像７０６の要素を生成するためにフィルタデータ７０４の各列によってベクトル乗算されている。このベクトル乗算は、特定のフィルタセットを備えた特定のフィルタ切り抜きの全てのチャネルのドット積に対応する。チャネル畳み込み出力は、所定の入力バッチ及びフィルタセットについて出力を生成するために合計されるので、上記のドット積が、そのような出力を生成するために機能することに留意されたい。対応するベクトル積は、出力データ７０６を生成するために、各入力セット及び各フィルタセットについて完了されている。

入力データ７０２が重複データを含むことについて可能であることに留意されたい。より具体的には、図５に一時的に戻って参照すると、フィルタ切り抜き５０８_１，１及びフィルタ切り抜き５０８_２，１は、入力行列要素Ｉ_３，１、Ｉ_３，２及びＩ_３，３を共有する。更に、図７に戻って参照すると、多くの状況において、入力データのタイル７２０は、実行中に（on the fly）生成されている。これらの理由について、いくつかの実施形態において、層入力範囲メタデータ３１０は、入力データタイル７２０毎の基準ではなく、範囲メタデータブロック５０３毎の基準で記憶されている。範囲メタデータブロック５０３は、入力画像タイル７２０が生成される入力画像５０２の一部である。特定の範囲メタデータブロック５０３から生成された全ての入力画像タイル７２０は、範囲メタデータブロック５０３の範囲が割り当てられている。入力画像タイル７２０が複数の範囲メタデータブロック５０３から生成されている場合、そのようなタイル７２０は、それらの複数の範囲メタデータブロック５０３の範囲から最も広い範囲が割り当てられている。この構成は、単一の範囲メタデータブロック５０３から生成された全ての入力データタイル７２０がその範囲メタデータブロック５０３について記憶された範囲メタデータを使用することを可能にするので、層入力範囲メタデータ３１０が判定される必要がある回数を低減する。

範囲メタデータブロックは、複数のフィルタ切り抜き５０８を含む。いくつかの例において、範囲メタデータブロック５０３は、フィルタ切り抜き行全体又は複数のフィルタ切り抜き行を含む。

図８は、一例による、行列演算を実行するための方法８００のフロー図である。図１～７のシステムに関して記載されているが、当業者であれば、任意の技術的に実現可能な順序で方法８００のステップを行うように構成された任意のシステムが本開示の範囲内にあることを理解するであろう。

方法８００は、タイル行列乗算器３０２が一緒に乗算するために第１のタイル及び第２のタイルを識別するステップ８０２で始まる。様々な実施形態において、第１のタイルは、乗算される第１の行列のタイルであり、第２のタイルは、第１の行列によって乗算される第２の行列のタイルである。いくつかの実施形態において、行列のタイルは、その行列の要素のサブセットを含むその行列のサブ行列である。より具体的には、本明細書の他の箇所に記載されたように、そのような行列の一方又は両方をタイルに分割すること、及び、それらのタイルを標準的な行列乗算要素順序と同様の順序で一緒に乗算する（すなわち、各列及び各列のドット積を取得する）ことによって、２つの大きな行列の行列乗算の結果を取得することが可能である。これは、比較的小さなサイズの行列について構成された行列乗算回路が、より大きな行列を一緒に乗算するために使用されることを可能にする。

ステップ８０４で、タイル行列乗算器３０２は、第１の行列タイルについての第１の範囲情報及び第２の行列タイルについての第２の範囲情報を取得する。第１の範囲情報は、第１の行列タイルの全ての要素が適合する範囲を示し、第２の範囲情報は、第２の行列タイルの全ての要素が適合する範囲を示す。

ステップ８０６で、タイル行列乗算器３０２は、第１の範囲情報及び第２の範囲情報に基づいて、行列乗算経路３０６を選択する。異なる乗算経路３０６は、範囲の異なる組み合わせについて構成されている。より広い範囲の組み合わせについて構成されている乗算経路３０６は、より狭い範囲の組み合わせにつて構成されている乗算経路３０６よりも複雑であり、より多くの電力を消費する。したがって、異なるタイル毎の乗算について乗算経路３０６を選択するために範囲情報を使用することは、全体的に使用される電力の量を低減する。

いくつかの実施形態において、より限定された範囲についての乗算経路３０６は、部分行列積を合計する場合にどのような部分行列積を破棄するかを判定する場合に、部分行列積の指数値を比較するための回路をより少なく含むため、より広い範囲についての乗算経路３０６よりも単純である。より具体的には、行列乗算は、乗算積を合計することを伴うドット積を実行することを伴う。浮動小数点加算では、２つの数字間の加算は、過度に小さすぎる数字を単純に破棄することを伴うことができ、この破棄は、指数の大きさ間の比較に応答して実行されている。行列乗算における非常に広い範囲の数字でより多くのこのような指数比較が行われ、これは、追加の特定の回路を必要とする。したがって、より限定された範囲についての乗算経路３０６は、より少ない量の回路で実装され、したがって、より広い範囲について乗算経路３０６よりも少ない電力を消費する。

ステップ８０８で、選択された乗算経路３０６は、第１のタイル及び第２のタイルについて行列乗算を実行する。

いくつかの例において、方法８００は、第１のタイル及び第２のタイルについて範囲情報を検出することも含む。いくつかの例において、第１のタイル及び第２のタイルは、ニューラルネットワーク１０４の層２０２を実装するために使用される行列のタイルである。前の層２０２からの出力が生成されることに応じて、ニューラルネットワーク処理ブロック１０２は、その出力に基づいて範囲情報を生成し、範囲メタデータを記憶するメモリにその範囲情報を記憶する。

いくつかの例において、行列乗算が実行されることについての層は、図４に示す層４０２等の一般的なニューロン層である。この例において、ニューラルネットワーク処理ブロック１０２は、前の層４０２からのニューロン入力のベクトルを含むその層４０２への入力を検査し、そのデータに基づいてタイルを生成し、それらのタイルについて範囲情報を判定する。いくつかの実施形態において、タイルは、図４に示すように、バッチ式ニューロン入力を含む行列の一部である。そのようなバッチ式入力において、第１の行列は、いくつかの入力セットの各々についてのニューロン入力値のベクトルを含む。セットは、ニューラルネットワーク１０４を通して処理された独立したデータである。

いくつかの例において、行列乗算が実行されることについての層は、畳み込み層である。入力行列は、図７に記載されたように、入力データ７０２及びフィルタデータ７０４を含む。しかしながら、この入力は、図５に示す入力画像５０２の形式で提供されている。ニューラルネットワーク処理ブロック１０２は、入力画像の範囲メタデータブロック５０３について範囲を判定し、本明細書の他の箇所で（例えば、図５～７に関して）記載されたように、そのような畳み込み層を処理する。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を伴わずに単独で使用することができ、又は、他の特徴及び要素を伴って若しくは伴わずに様々な組み合わせで使用することができる。

図面に示され及び／又は本明細書に記載された様々な機能ユニット（ニューラルネットワーク処理ブロック１０２及びタイル行列乗算器３０２を含む）は、ハードウェア回路、プログラマブルプロセッサ上で実行するソフトウェア、又は、ハードウェアとソフトウェアとの組み合わせとして実装され得る。提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実施することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、及び／又は、状態マシンが挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリスト含む他の中間データ（そのような命令は、コンピュータ可読媒体に記憶させることが可能である）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークであってもよく、このマスクワークをその後の半導体製造プロセスにおいて使用して、実施形態の態様を実施するプロセッサを製造する。

本明細書に提供される方法又はフロー図は、汎用コンピュータ又はプロセッサによる実行のための非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実施され得る。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、磁気媒体（例えば、内蔵ハードディスク及びリムーバブルディスク）、磁気光学媒体、光学媒体（例えば、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ））が挙げられる。

Claims

ニューラルネットワーク演算を実行するための方法であって、
第１の行列タイル及び第２の行列タイルを識別することと、
前記第１の行列タイルについての第１の範囲情報及び前記第２の行列タイルについての第２の範囲情報を取得することと、
前記第１の範囲情報及び前記第２の範囲情報に基づいて行列乗算経路を選択することと、
選択された前記行列乗算経路を使用して、前記第１の行列タイル及び前記第２の行列タイルに対して行列乗算を実行し、タイル行列乗算積を生成することと、を含む、
方法。
前記第１のタイルは、ニューラルネットワークの層への入力の一部であり、前記第２のタイルは、前記ニューラルネットワークの層の重み行列の一部である、
請求項１の方法。
前記層への入力を分析することによって前記第１の範囲情報を自動的に生成することを更に含む、
請求項２の方法。
前記行列乗算経路を選択することは、２つ以上の行列乗算経路のセットから前記行列乗算経路を選択することを含み、各行列乗算経路は、入力範囲の異なるセットについて行列乗算演算を実行するように構成されている、
請求項１の方法。
前記層は、一般的なニューロン層を含む、
請求項２の方法。
前記第１の行列タイル及び前記第２の行列タイルの行列乗算は、バッチ式一般的ニューロン層演算の一部を含む、
請求項５の方法。
前記層は、畳み込み層を含む、
請求項２の方法。
範囲情報は、複数のフィルタ切り抜きを含む範囲メタデータブロックのセットについて記憶されている、
請求項７の方法。
前記第１の範囲情報を取得することは、前記第１のタイルが生成される範囲メタデータブロックの範囲を取得することを含む、
請求項８の方法。
ニューラルネットワーク演算を実行するためのシステムであって、
行列乗算経路のセットと、
タイル行列乗算器と、を備え、
前記タイル行列乗算器は、
第１の行列タイル及び第２の行列タイルを識別することと、
前記第１の行列タイルについての第１の範囲情報及び前記第２の行列タイルについての第２の範囲情報を取得することと、
前記第１の範囲情報及び前記第２の範囲情報に基づいて、前記乗算経路のセットから行列乗算経路を選択することと、
選択された前記行列乗算経路を使用して、前記第１の行列タイル及び前記第２の行列タイルに対して行列乗算を実行し、タイル行列乗算積を生成することと、
を行うように構成されている、
システム。
前記第１のタイルは、ニューラルネットワークの層への入力の一部であり、前記第２のタイルは、前記ニューラルネットワークの層の重み行列の一部である、
請求項１０のシステム。
前記層への入力を分析することによって前記第１の範囲情報を自動的に生成するように構成されたニューラルネットワーク処理ブロックを更に備える、
請求項１１のシステム。
各行列乗算経路は、入力範囲の異なるセットについて行列乗算演算を実行するように構成されている、
請求項１１のシステム。
前記層は、一般的なニューロン層を含む、
請求項１１のシステム。
前記第１の行列タイル及び前記第２の行列タイルの前記行列乗算は、バッチ式一般的ニューロン層演算の一部を含む、
請求項１４のシステム。
前記層は、畳み込み層を含む、
請求項１１のシステム。
範囲情報は、複数のフィルタ切り抜きを含む範囲メタデータブロックのセットについて記憶されている、
請求項１６のシステム。
前記第１の範囲情報を取得することは、前記第１のタイルが生成される範囲メタデータブロックの範囲を取得することを含む、
請求項１７のシステム。
命令を記憶するコンピュータ可読記憶媒体であって、
前記命令は、プロセッサによって実行されると、
第１の行列タイル及び第２の行列タイルを識別することと、
前記第１の行列タイルについての第１の範囲情報及び前記第２の行列タイルについての第２の範囲情報を取得することと、
前記第１の範囲情報及び前記第２の範囲情報に基づいて行列乗算経路を選択することと、
選択された前記行列乗算経路を使用して、前記第１の行列タイル及び前記第２の行列タイルに対して行列乗算を実行し、タイル行列乗算積を生成することと、
を前記プロセッサに行わせる、
コンピュータ可読記憶媒体。
前記行列乗算経路を選択することは、２つ以上の行列乗算経路のセットから前記行列乗算経路を選択することを含み、各行列乗算経路は、入力範囲の異なるセットについて行列乗算演算を実行するように構成されている、
請求項１９のコンピュータ可読記憶媒体。