JP2018521374A - ニューラルネットワークプロセッサで使用される重みのプリフェッチ - Google Patents

ニューラルネットワークプロセッサで使用される重みのプリフェッチ Download PDF

Info

Publication number
JP2018521374A
JP2018521374A JP2017550913A JP2017550913A JP2018521374A JP 2018521374 A JP2018521374 A JP 2018521374A JP 2017550913 A JP2017550913 A JP 2017550913A JP 2017550913 A JP2017550913 A JP 2017550913A JP 2018521374 A JP2018521374 A JP 2018521374A
Authority
JP
Japan
Prior art keywords
weight
input
cell
circuit
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017550913A
Other languages
English (en)
Other versions
JP6689878B2 (ja
Inventor
ロス,ジョナサン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2018521374A publication Critical patent/JP2018521374A/ja
Priority to JP2020069854A priority Critical patent/JP6953577B2/ja
Application granted granted Critical
Publication of JP6689878B2 publication Critical patent/JP6689878B2/ja
Priority to JP2021159352A priority patent/JP7071577B2/ja
Priority to JP2022076581A priority patent/JP7383757B2/ja
Priority to JP2023190654A priority patent/JP2024016196A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8007Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
    • G06F15/8023Two dimensional arrays, e.g. mesh, torus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/80Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
    • G06F15/8046Systolic arrays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/002Biomolecular computers, i.e. using biomolecules, proteins, cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Image Processing (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)
  • Design And Manufacture Of Integrated Circuits (AREA)
  • Multi Processors (AREA)

Abstract

ニューラルネットワークについてニューラルネットワーク計算を実行するための回路であって、複数のセルを備えるシストリックアレイと、重みフェッチャユニットとを備え、重みフェッチャユニットは、複数のニューラルネットワーク層の各々について、ニューラルネットワーク層のためのシストリックアレイの第1の次元に沿ったセルに複数の重み入力を送るように構成され、当該回路はさらに、複数の重みシーケンサユニットを備え、各々の重みシーケンサユニットは、シストリックアレイの第1の次元に沿った個別のセルに結合され、複数の重みシーケンサユニットは、複数のニューラルネットワーク層の各々について、複数のクロックサイクルにわたってニューラルネットワーク層のためのシストリックアレイの第2の次元に沿ったセルに複数の重み入力をシフトするように構成され、各々のセルは、乗算回路を使用して起動入力とそれぞれの重み入力との積を計算するように構成される。

Description

背景
本明細書は、ハードウェアにおいてニューラルネットワーク推測値を計算することに関する。
ニューラルネットワークは、モデルの1つ以上の層を利用して、受け取った入力について出力、たとえば分類を生成する機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つ以上の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層、すなわちネットワークの次の隠れ層または出力層、への入力として使用される。ネットワークの各層は、パラメータのそれぞれのセットの現在の値に従って、受け取った入力から出力を生成する。
いくつかのニューラルネットワークは、1つ以上の畳み込みニューラルネットワーク層を含む。各々の畳み込みニューラルネットワーク層は、カーネルの関連付けられたセットを有する。各カーネルは、ユーザによって作成されたニューラルネットワークモデルによって構築される値を含む。いくつかの実現例では、カーネルは、特定の画像輪郭、形状または色を識別する。カーネルは、重み入力の行列構造と表わすことができる。各々の畳み込み層は、起動入力のセットも処理することができる。起動入力のセットは、行列構造と表わすこともできる。
いくつかの既存のシステムは、ソフトウェアにおいて所与の畳み込み層について計算を実行する。たとえば、ソフトウェアは、当該層についての各カーネルを起動入力のセットに適用することができる。すなわち、各カーネルについて、ソフトウェアは、多次元的に表わされ得るカーネルを、多次元的に表わされ得る起動入力の第1の部分の上に重ね合わせることができる。次いで、ソフトウェアは、重複した要素からドット積を計算することができる。ドット積は、単一の起動入力、たとえば重複した多次元空間内に左上位置を有する起動入力要素、に対応し得る。次いで、たとえば、スライディングウィンドウを使用して、ソフトウェアは、カーネルをシフトさせて、起動入力の第2の部分を重ね合わせて、別の起動入力に対応する別のドット積を算出することができる。ソフトウェアは、各起動入力が対応するドット積を有するまでこのプロセスを繰返し実行することができる。いくつかの実現例では、ドット積は、起動値を生成する起動関数への入力である、起動値は、ニューラルネットワークの後続の層に送られる前に、結合、たとえばプールされることができる。
畳み込み演算を計算する1つの方法は、大きな次元空間において多数の行列乗算を必要とする。プロセッサは、ブルートフォース法によって行列乗算を計算することができる。たとえば、計算集約的であり時間集約的であるが、プロセッサは、畳み込み演算のために個々の合計および積を繰返し算出することができる。プロセッサが算出を並列化する程度は、そのアーキテクチャに起因して制限される。
概要
全体として、本明細書では、ニューラルネットワーク推測値を計算する特定目的ハードウェア回路について説明する。
全体として、本明細書に記載されている主題の1つの革新的な局面は、複数の層を備えるニューラルネットワークについてニューラルネットワーク計算を実行するための回路で実施することができ、上記回路は、複数のセルを備えるシストリックアレイと、重みフェッチャユニットとを備え、上記重みフェッチャユニットは、上記複数のニューラルネットワーク層の各々について、上記ニューラルネットワーク層のための上記シストリックアレイの第1の次元に沿ったセルに複数の重み入力を送るように構成され、上記回路はさらに、複数の重みシーケンサユニットを備え、各々の重みシーケンサユニットは、上記シストリックアレイの上記第1の次元に沿った個別のセルに結合され、上記複数の重みシーケンサユニットは、上記複数のニューラルネットワーク層の各々について、複数のクロックサイクルにわたって上記ニューラルネットワーク層のための上記シストリックアレイの第2の次元に沿ったセルに上記複数の重み入力をシフトするように構成され、各々の重み入力は、上記第2の次元に沿ったそれぞれのセル内に格納され、各々のセルは、乗算回路を使用して起動入力とそれぞれの重み入力との積を計算するように構成される。
実現例は、以下のもののうちの1つ以上を含み得る。値シーケンサユニットは、上記複数のニューラルネットワーク層の各々について、上記ニューラルネットワーク層のための上記シストリックアレイの上記第2の次元に沿ったセルに複数の起動入力を送るように構成される。上記シストリックアレイの上記第1の次元は、上記シストリックアレイの行に対応し、上記シストリックアレイの上記第2の次元は、上記シストリックアレイの列に対応する。各々のセルは、重み制御信号を隣接するセルに渡すように構成され、上記重み制御信号は、上記隣接するセル内の回路に、上記隣接するセルについての重み入力をシフトまたはロードさせる。重みパスレジスタは、上記セルにシフトされた上記重み入力を格納するように構成され、重みレジスタは、上記重みパスレジスタに結合され、重み制御レジスタは、上記重みレジスタに上記重み入力を格納するか否かを判断するように構成され、起動レジスタは、起動入力を格納するように構成され、上記起動入力を上記第1の次元に沿った第1の隣接するセル内の別の起動レジスタに送るように構成され、上記乗算回路は、上記重みレジスタおよび上記起動レジスタに結合され、上記乗算回路は、上記重み入力と上記起動入力との積を出力するように構成され、総和回路は、上記乗算回路に結合され、上記積および第1の部分和を上記第2の次元に沿った第2の隣接するセルから受け取るように構成され、上記総和回路は、上記積と上記第1の部分和との第2の部分和を出力するように構成され、部分和レジスタは、上記総和回路に結合され、上記第2の部分和を格納するように構成され、上記部分和レジスタは、上記第2の部分和を上記第2の次元に沿った第3の隣接するセル内の別の総和回路に送るように構成される。各々の重みシーケンサユニットは、上記重みシーケンサユニットに結合された上記対応するセル内の上記重み制御レジスタに対応する一時停止カウンタと、デクリメント回路とを備え、上記デクリメント回路は、上記重みシーケンサユニットへの入力をデクリメントして、デクリメントされた出力を生成し、上記デクリメントされた出力を上記一時停止カウンタに送るように構成される。各々の一時停止カウンタにおける値は同一であり、各々の重みシーケンサユニットは、対応する重み入力を上記シストリックアレイの上記対応する個別のセルにロードするように構成され、上記ロードは、上記重み入力を上記乗算回路に送ることを備える。各々の一時停止カウンタにおける値は、予め定められた値に到達して、上記複数の重みシーケンサユニットに上記第2の次元に沿った上記複数の重み入力のシフトを一時停止させる。上記シストリックアレイは、上記複数のニューラルネットワーク層の各々について、上記ニューラルネットワーク層のための累積出力を各々の積から生成するように構成される。
本明細書に記載されている主題の特定の実施形態は、以下の利点のうちの1つ以上を達成するように実現することができる。重みをプリフェッチすることにより、ニューラルネットワークプロセッサがさらに効率的に計算を実行することが可能になる。プロセッサは、重みフェッチャユニットおよび重みシーケンサユニットを使用して重み入力をシストリックアレイにロードすることを連係させ、それによって、シストリックアレイ内の各セルに外部メモリユニットを結合するワイヤを不要にする。プロセッサは、複数の畳み込み計算の実行を同期させるために重み入力のシフトを一時停止、すなわち「フリーズ」させることができる。
本明細書の主題の1つ以上の実施形態の詳細が添付の図面および以下の説明に記載されている。主題の他の特徴、局面および利点は、説明、図面および特許請求の範囲から明らかになるであろう。
ニューラルネットワークの所与の層について計算を実行するための例示的な方法のフロー図である。 例示的なニューラルネットワーク処理システムを示す。 行列計算ユニットを含む例示的なアーキテクチャを示す。 シストリックアレイ内のセルの例示的なアーキテクチャを示す。 空間次元と特徴次元とを有する例示的な行列構造を示す。 どのようにカーネル行列構造がシストリックアレイに送られるかの例示的な図を示す。 3つのクロックサイクル後のセル内の重み入力の例示的な図を示す。 どのように制御信号が起動入力をシフトまたはロードさせるかの例示的な図である。
さまざまな図における同様の参照番号および名称は、同様の要素を示す。
詳細な説明
複数の層を有するニューラルネットワークは、推測値の計算に使用することができる。たとえば、入力を前提として、ニューラルネットワークは当該入力について推測値を計算することができる。ニューラルネットワークは、ニューラルネットワークの各層を介して入力を処理することによってこの推測値を計算する。特に、ニューラルネットワークの層は、各々が重みのそれぞれのセットを有する状態で、ある順序で配置される。各層は、入力を受け取って、当該層の重みのセットに従って入力を処理して、出力を生成する。
したがって、受け取った入力から推測値を計算するために、ニューラルネットワークは、当該入力を受け取って、当該順序でニューラルネットワーク層の各々を介してそれを処理して、推測値を生成し、1つのニューラルネットワーク層からの出力は、次のニューラルネットワーク層への入力として提供される。ニューラルネットワーク層へのデータ入力、たとえばニューラルネットワークへの入力または当該順序内の当該層の下方にある層の、ニューラルネットワーク層への出力、は、当該層への起動入力と称することができる。
いくつかの実現例では、ニューラルネットワークの層は、有向グラフに配置される。すなわち、任意の特定の層が複数の入力、複数の出力、またはそれら両方を受け取ることができる。また、ニューラルネットワークの層は、層の出力を前の層への入力として送り返すことができるように配置することもできる。
図1は、特定目的ハードウェア回路を使用してニューラルネットワークの所与の層について計算を実行するための例示的なプロセス100のフロー図である。便宜上、方法100は、方法100を実行する1つ以上の回路を有するシステムに関連して説明する。方法100は、受け取った入力から推測値を計算するためにニューラルネットワークの各層について実行され得る。
当該システムは、所与の層についての重み入力の複数のセットを受け取り(ステップ102)、所与の層についての起動入力の複数のセットを受け取る(ステップ104)。重み入力の複数のセットおよび起動入力の複数のセットは、それぞれ特定目的ハードウェア回路のダイナミックメモリおよび統合バッファから受け取られることができる。いくつかの実現例では、重み入力の複数のセットも起動入力の複数のセットも統合バッファから受け取られてもよい。
当該システムは、特定目的ハードウェア回路の行列乗算ユニットを使用して重み入力および起動入力から累積値を生成する(ステップ106)。いくつかの実現例では、累積値は、重み入力の複数のセットと起動入力の複数のセットとのドット積である。すなわち、重みの1つのセットについて、当該システムは、各重み入力と各起動入力とを掛け合わせ、その積を合計して、累積値を形成することができる。次いで、当該システムは、重みの他のセットと起動入力の他の複数のセットとのドット積を計算することができる。
当該システムは、特定目的ハードウェア回路のベクトル計算ユニットを使用して累積値から層出力を生成することができる(ステップ108)。いくつかの実現例では、ベクトル計算ユニットは、起動関数を累積値に適用する。層の出力は、ニューラルネットワーク内の後続の層への入力として使用できるように統合バッファに格納されてもよく、または推測値を求めることに使用されてもよい。当該システムは、受け取った入力をニューラルネットワークの各層を介して処理して受け取った入力について推測値を生成すると、ニューラルネットワークを処理することを終了する。
図2は、ニューラルネットワーク計算を実行するための例示的な特定目的集積回路200を示す。システム200は、ホストインターフェイス202を含む。ホストインターフェイス202は、ニューラルネットワーク計算のためのパラメータを含む命令を受け取ることができる。パラメータは、何個の層を処理すべきであるか、層の各層についての重み入力の対応する複数のセット、起動入力の最初のセット、すなわち推測値を計算するためのニューラルネットワークへの入力、各層の対応する入力および出力サイズ、ニューラルネットワーク計算のためのストライド値、および処理すべき層のタイプ、たとえば畳み込み層または完全に接続された層、のうちの少なくとも1つ以上を含み得る。
ホストインターフェイス202は、シーケンサ206に命令を送ることができ、シーケンサ206は、当該命令を、ニューラルネットワーク計算を実行するように回路を制御する低レベル制御信号に変換する。いくつかの実現例では、当該制御信号は、回路内のデータフロー、たとえば重み入力の複数のセットおよび起動入力の複数のセットがどのように回路内を流れるか、を調整する。シーケンサ206は、統合バッファ208、行列計算ユニット212およびベクトル計算ユニット214に当該制御信号を送ることができる。いくつかの実現例では、シーケンサ206は、ダイレクトメモリアクセスエンジン204およびダイナミックメモリ210にも制御信号を送る。いくつかの実現例では、シーケンサ206は、クロック信号を生成するプロセッサである。シーケンサ206は、当該クロック信号のタイミングを使用して、回路200の各コンポーネントに当該制御信号を適切なときに送ることができる。いくつかの他の実現例では、ホストインターフェイス202は、外部プロセッサからクロック信号を渡す。
ホストインターフェイス202は、ダイレクトメモリアクセスエンジン204に重み入力の複数のセットおよび起動入力の最初のセットを送ることができる。ダイレクトメモリアクセスエンジン204は、起動入力の複数のセットを統合バッファ208に格納することができる。いくつかの実現例では、ダイレクトメモリアクセスは、メモリユニットであり得るダイナミックメモリ210に重みの複数のセットを格納する。いくつかの実現例では、ダイナミックメモリは、回路から離れて位置している。
統合バッファ208は、メモリバッファである。統合バッファ208を使用して、ダイレクトメモリアクセスエンジン204からの起動入力のセットおよびベクトル計算ユニット214の出力を格納することができる。ダイレクトメモリアクセスエンジン204は、ベクトル計算ユニット214の出力を統合バッファ208から読み出すこともできる。
ダイナミックメモリ210および統合バッファ208は、行列計算ユニット212に重み入力の複数のセットおよび起動入力の複数のセットをそれぞれ送ることができる。いくつかの実現例では、行列計算ユニット212は、二次元シストリックアレイである。行列計算ユニット212は、一次元シストリックアレイであってもよく、または数学的演算、たとえば乗算および加算を実行することができる他の回路であってもよい。いくつかの実現例では、行列計算ユニット212は、汎用行列プロセッサである。
行列計算ユニット212は、重み入力および起動入力を処理して、ベクトル計算ユニット214に出力のベクトルを提供することができる。いくつかの実現例では、行列計算ユニットは、統合バッファ208に出力のベクトルを送り、統合バッファ208は、ベクトル計算ユニット214に出力のベクトルを送る。ベクトル計算ユニットは、出力のベクトルを処理して、処理された出力のベクトルを統合バッファ208に格納することができる。たとえば、ベクトル計算ユニット214は、非線形関数を行列計算ユニットの出力、たとえば累積値のベクトルに適用して、起動値を生成することができる。いくつかの実現例では、ベクトル計算ユニット214は、正規化値、プール値、またはそれら両方を生成する。処理された出力のベクトルは、たとえばニューラルネットワーク内の後続の層で使用できるように、行列計算ユニット212への起動入力として使用することができる。行列計算ユニット212については、図3および図4を参照して以下でさらに詳細に説明する。
図3は、行列計算ユニットを含む例示的なアーキテクチャ300を示す。行列計算ユニットは、二次元シストリックアレイ306である。アレイ306は、複数のセル304を含む。いくつかの実現例では、シストリックアレイ306の第1の次元320はセルの列に対応し、シストリックアレイ306の第2の次元322はセルの行に対応する。シストリックアレイは、列よりも多くの行を有していてもよく、行よりも多くの列を有していてもよく、または列と行とが同数であってもよい。
示されている例では、値ローダ302がアレイ306の行に起動入力を送り、重みフェッチャインターフェイス308がアレイ306の列に重み入力を送る。しかし、いくつかの他の実現例では、起動入力がアレイ306の列に送信され、重み入力がアレイ306の行に送信される。
値ローダ302は、統合バッファ、たとえば図2の統合バッファ208から起動入力を受け取ることができる。各値ローダは、対応する起動入力をアレイ306の個別の最も左側のセルに送ることができる。最も左側のセルは、アレイ306の最も左側の列に沿ったセルであり得る。たとえば、値ローダ312は、セル314に起動入力を送ることができる。値ローダは、隣接する値ローダにも起動入力を送ることができ、起動入力は、アレイ306の別の最も左側のセルで使用することができる。これにより、アレイ306の別の特定のセルで使用できるように起動入力をシフトすることができる。
重みフェッチャインターフェイス308は、メモリユニット、たとえば図2のダイナミックメモリ210から重み入力を受け取ることができる。重みフェッチャインターフェイス308は、対応する重み入力をアレイ306の個別の最上部のセルに送ることができる。最上部のセルは、アレイ306の最上部の行に沿ったセルであり得る。たとえば、重みフェッチャインターフェイス308は、セル314および316に重み入力を送ることができる。
いくつかの実現例では、ホストインターフェイス、たとえば図2のホストインターフェイス202は、アレイ306全体にわたって1つの次元に沿って、たとえば右側まで起動入力をシフトし、アレイ306全体にわたって別の次元に沿って、たとえば下部まで重み入力をシフトする。たとえば、1つのクロックサイクルで、セル314における起動入力は、セル314の右側のセル316における起動レジスタにシフトすることができる。同様に、セル316における重み入力は、セル314の下方のセル318における重みレジスタにシフトすることができる。
各クロックサイクルで、各セルは、所与の重み入力および所与の起動入力を処理して、累積出力を生成することができる。累積出力は、所与の重み入力と同一の次元に沿って隣接するセルにも渡されることができる。個々のセルについては、図4を参照して以下でさらに説明する。
いくつかの実現例では、重みおよび起動は、所与のクロックサイクル中に2つ以上のセルでシフトされて、1つの畳み込み演算から別の畳み込み演算に移行する。
累積出力は、重み入力と同一の列に沿って、たとえばアレイ306内の列の下部の方に渡されることができる。いくつかの実現例では、アレイ306は、列よりも多くの重み入力を有する層または行よりも多くの起動入力を有する層で算出を実行するときに各列から各累積出力を格納して累積するアキュムレータユニット310を各列の下部に含み得る。いくつかの実現例では、各アキュムレータユニットは、複数の並列累積値を格納する。これについては、図6を参照して以下でさらに説明する。アキュムレータユニット310は、各累積出力を累積して、最終的な累積値を生成することができる。最終的な累積値は、ベクトル計算ユニットに送信されることができる。いくつかの他の実現例では、アキュムレータユニット310は、列よりも少ない重み入力を有する層または行よりも少ない起動入力を有する層を処理するときにいかなる累積も実行することなく累積値をベクトル計算ユニットに渡す。
起動入力および重み入力が回路内を流れるとき、回路は、重み入力のセットが流れることを「フリーズ」または一時停止させて、累積値を正確に算出することができる。すなわち、回路は、重み入力のセットを一時停止させることができ、そのため、重み入力の特定のセットを起動入力の特定のセットに適用することができる。
いくつかの実現例では、重みシーケンサ324は、重み入力が隣接するセルにシフトするか否かを構成する。重みシーケンサ326は、ホスト、たとえば図2のホストインターフェイス202、または外部プロセッサから制御値を受け取ることができる。各々の重みシーケンサは、アレイ306内の対応するセルに制御値を渡すことができる。特に、制御値は、セル内の重み制御レジスタ、たとえば図4の重み制御レジスタ414に格納することができる。制御値は、重み入力がアレイの次元に沿ってシフトされるかロードされるかを判断することができ、これについては、図8を参照して以下で説明する。重みシーケンサは、隣接する重みシーケンサにも制御値を送ることができ、当該隣接する重みシーケンサは、対応するセルのための対応する重み入力のシフトまたはロードを調整することができる。
いくつかの実現例では、制御値は、整数として表わされる。各々の重みシーケンサは、当該整数を格納する一時停止カウンタレジスタを含み得る。また、重みシーケンサは、制御値を一時停止カウンタレジスタに格納する前に当該整数をデクリメントすることができる。制御値を一時停止カウンタレジスタに格納した後、重みシーケンサは、当該整数を隣接する重みシーケンサに送り、当該整数を対応するセルに送ることができる。たとえば、各々の重みシーケンサは、デクリメントされた整数を制御値から生成するように構成されたデクリメント回路を有し得る。デクリメントされた整数は、一時停止カウンタレジスタに格納することができる。格納された制御値は、アレイの列全体にわたるシフトの同時一時停止を連係させることに使用することができ、これについては、図8を参照して以下でさらに説明する。
いくつかの実現例では、回路内で重みを一時停止させることにより、開発者が回路をデバッグすることが可能になる。
重みを一時停止させる他の方法も可能である。たとえば、一時停止カウンタレジスタ内の値を隣接する一時停止カウンタレジスタに渡す代わりに、ツリーを使用して制御値が渡されてもよい。すなわち、所与のセルにおいて、隣接する1つのセルだけでなく全ての隣接するセルに信号を渡すことができ、それによって、信号をシストリックアレイ全体に迅速に分散させる。
図4は、シストリックアレイ、たとえば図3のシストリックアレイ306内のセルの例示的なアーキテクチャ400を示す。
セルは、起動入力を格納する起動レジスタ406を含み得る。起動レジスタは、シストリックアレイ内のセルの位置に応じて、左側の隣接するセル、すなわち所与のセルの左側に位置する隣接するセルから、または統合バッファから起動入力を受け取ることができる。セルは、重み入力を格納する重みレジスタ402を含み得る。重み入力は、シストリックアレイ内のセルの位置に応じて、上側の隣接するセルから、または重みフェッチャインターフェイスから送信されることができる。セルは、合計レジスタ404も含み得る。合計レジスタ404は、上側の隣接するセルからの累積値を格納することができる。乗算回路408は、重みレジスタ402からの重み入力と起動レジスタ406からの起動入力とを掛け合わせることに使用することができる。乗算回路408は、その積を総和回路410に出力することができる。
総和回路は、その積と合計レジスタ404からの累積値とを総計して、新たな累積値を生成することができる。次いで、総和回路410は、下側の隣接するセルに位置する別の合計レジスタに当該新たな累積値を送ることができる。当該新たな累積値は、下側の隣接するセルでの総計のためのオペランドとして使用することができる。
いくつかの実現例では、セルは一般的な制御レジスタも含む。制御レジスタは、セルが隣接するセルに重み入力をシフトすべきであるか起動入力をシフトすべきであるかを判断する制御信号を格納することができる。いくつかの実現例では、重み入力または起動入力のシフトは、2つ以上のクロックサイクルを要する。制御信号は、起動入力を乗算回路408に送信するか重み入力を乗算回路408に送信するかを判断することもでき、または、乗算回路408が起動入力および重み入力上で動作するか否かを判断することもできる。制御信号も、たとえばワイヤを使用して1つ以上の隣接するセルに渡されることができる。
いくつかの実現例では、重みは、重みパスレジスタ412に事前にシフトされる。重みパスレジスタ412は、たとえば上側の隣接するセルから重み入力を受け取って、制御信号に基づいて重み入力を重みレジスタ402に送信することができる。重みレジスタ402は、たとえば起動レジスタ406を介して複数のクロックサイクルで起動入力がセルに送信されるときに重み入力がセル内にとどまって隣接するセルに送信されないように、重み入力を静的に格納することができる。したがって、重み入力は、たとえば乗算回路408を使用して複数の起動入力に適用可能であり、それぞれの累積値は、隣接するセルに送信されることができる。
いくつかの実現例では、重み制御レジスタ414は、重み入力が重みレジスタ402に格納されるか否かを制御する。たとえば、重み制御レジスタ414が0という制御値を格納している場合、重みレジスタ402は、重みパスレジスタ412によって送られた重み入力を格納することができる。いくつかの実現例では、重み入力を重みレジスタ402に格納することを、重み入力のロードと称する。重み入力がロードされると、重み入力は、処理のために乗算回路408に送られることができる。重み制御レジスタ414がゼロでない制御値を格納している場合、重みレジスタ402は、重みパスレジスタ412によって送られた重み入力を無視することができる。重み制御レジスタ414に格納された制御値は、たとえば所与のセルの1つ以上の隣接するセルに渡されることができ、当該制御値は、所与のセルの右側に位置するセル内の重み制御レジスタに送られることができる。
また、セルは、重み入力および起動入力を隣接するセルにシフトさせることもできる。たとえば、重みパスレジスタ412は、下側の隣接するセルにおける別の重みパスレジスタに重み入力を送ることができる。起動レジスタ406は、右側の隣接するセルにおける別の起動レジスタに起動入力を送ることができる。したがって、重み入力も起動入力も、後続のクロックサイクルでアレイ内の他のセルによって再使用することができる。
図5は、空間次元と特徴次元とを有する例示的な行列構造500を示す。行列構造500は、起動入力のセットまたは重み入力のセットのいずれかを表わすことができる。起動入力のセットのための行列構造を本明細書では起動行列構造と称し、重み入力のセットのための行列構造を本明細書ではカーネル行列構造と称する。行列構造500は、3つの次元、すなわち2つの空間次元と1つの特徴次元、とを有する。
いくつかの実現例では、空間次元は、起動入力のセットの空間または位置に対応する。たとえば、ニューラルネットワークが2つの次元を有する画像を処理している場合、行列構造は、当該画像の空間座標、すなわちXY座標に対応する2つの空間次元を有し得る。
特徴次元は、起動入力からの特徴に対応する。各特徴次元は、深さレベルを有し得る。たとえば、行列構造500は、深さレベル502,504および506を有する。例示として、行列構造500が第1の層への起動入力のセットとして送られた3×3×3画像を表わす場合、当該画像のXおよびY次元(3×3)が空間次元であってもよく、Z次元(3)がR,GおよびB値に対応する特徴次元であってもよい。すなわち、深さレベル502が9個の「1」起動入力、たとえば赤色値の特徴に対応し得て、深さレベル504が9個の「2」起動入力、たとえば緑色値の特徴に対応し得て、深さレベル506が9個の「3」起動入力、たとえば青色値の特徴に対応し得る。
図5の例では特徴次元の深さレベルを3つだけ示しているが、所与の特徴次元は多数の特徴次元、たとえば何百もの特徴次元を有していてもよい。同様に、1つの特徴次元だけを示しているが、所与の行列構造は複数の特徴次元を有していてもよい。
行列構造500を用いて畳み込み層について計算を実行するために、当該システムは、畳み込み計算を二次元行列乗算に変換しなければならない。
図6は、どのように図5の行列構造500が所与の畳み込み層においてシストリックアレイ606によって処理されるかの例示的な図を示す。行列構造600は、起動入力のセットであり得る。一般に、ニューラルネットワークプロセッサは、起動入力、たとえば行列構造600内の要素と、重み入力、たとえばカーネルA〜D 610とをアレイの行および列にそれぞれ送ることができる。起動入力および重み入力は、シストリックアレイの右側および下部にそれぞれシフトされることができ、特定の位置、たとえば特定のセルにおける特定のレジスタに到達しなければならない。たとえば制御信号を検証することによって入力が所定の位置にきたと判断されると、プロセッサは、セル内に格納された入力を使用して算出を実行して、所与の層の出力を生成することができる。
ニューラルネットワークプロセッサは、上記のように、構造600の一部をシストリックアレイの行に送る前に行列構造600を「平坦化する」。すなわち、ニューラルネットワークプロセッサは、行列構造600の深さ層602、たとえば図6の深さ層602,604および606を分割し、各深さ層を個別のセルに送ることができる。いくつかの実現例では、各深さ層は、シストリックアレイ606の異なる行のセルに送られる。たとえば、プロセッサは、第1の深さ層、たとえば9個の「1」起動入力の行列からシストリックアレイ606の第1の行における最も左側のセルに起動入力を送ることができ、第2の深さ層、たとえば9個の「2」起動入力の行列からシストリックアレイ606の第2の行における最も左側のセルに起動入力を送ることができ、第3の深さ層、たとえば9個の「3」起動入力の行列からシストリックアレイ606の第3の行における最も左側のセルに起動入力を送ることができる、などである。
所与の層は、複数のカーネル、たとえばカーネルA〜D 610を有し得る。カーネルA〜D 610は、次元3×3×10の行列構造を有し得る。プロセッサは、各カーネル行列構造をシストリックアレイ606の個別の列におけるセルに送ることができる。たとえば、カーネルAは、第1の列における上部のセルに送られることができ、カーネルBは、第2の列における上部のセルに送られることができる、などである。
行列構造がセルに送られると、1つのクロックサイクル中に行列の第1の要素をセルに格納することができる。次のクロックサイクルで、次の要素をセルに格納することができる。図4を参照して上記したように、格納された第1の要素は、隣接するセルにシフトさせることができる。入力のシフトは、行列構造の全ての要素がシストリックアレイ606に格納されるまで継続することができる。起動入力も重み入力も、1つ以上のクロックサイクル後に各々のセル全体にわたってシフトさせることができる。シストリックアレイ内の入力のシフトについては、図7を参照して以下でさらに説明する。
図7は、3つのクロックサイクル後の例示的な3×3シストリックアレイのセル内の重み入力の例示的な図700を示す。図5を参照して上記したように、各セルは、重み入力および起動入力を格納することができる。図7を参照して上記したように、重み入力は、畳み込み演算のためにシストリックアレイの個別の列におけるセルに送られることができる。例示として、当該システムは、1,2および4という重み入力を有する第1のカーネル行列構造をシストリックアレイの第1の列に送る。当該システムは、3,5および7という重み入力を有する第2のカーネル構造を第2の列に送る。当該システムは、重み6,8および10を有する第3のカーネル構造を第3の列に送る。どのクロックサイクルの後でも、重み入力は一次元で、たとえば上から下にシフトさせることができる一方、起動入力は別の次元で、たとえば左から右にシフトさせることができる(図示せず)。
重み入力は、互い違いの態様でセル内に格納することができる。すなわち、第1のクロックサイクル702後のシストリックアレイの状態は、左上のセル内の「1」を示す。「1」は、「1」という重み入力がセルに格納されていることを表わす。次のクロックサイクル704において、「1」は左上のセルの下方のセルにシフトされ、カーネルからの別の重み入力、すなわち「2」が左上のセルに格納され、同様に「3」という重み入力が第2の列における最上部のセルに格納される。
第3のクロックサイクル706で、各々の重みが再びシフトされる。第1の列では、最下部のセルが「1」という重み入力を格納し、前のサイクルで「1」という重み入力が格納されていた場所に「2」という重み入力が格納され、「4」という重み入力が上部の最も左側のセルに格納される。同様に、第2の列では、「3」が下にシフトされ、「5」という重み入力が上部中央のセルに格納される。第3の列では、「6」という重み入力が上部の最も右側のセルに格納される。
いくつかの実現例では、重み入力をシフトすべきであるか否かを判断する重み入力のための制御信号も重み入力とともにシフトされる。
起動入力は、同様の態様で他の次元で、たとえば左から右にシフトさせることができる。
起動入力および重み入力が所定の位置にくると、プロセッサは、たとえばセル内の乗算回路および総和回路を使用することによって畳み込み演算を実行して、ベクトル計算ユニットで使用される累積値のセットを生成することができる。
重み入力がアレイの列に送られ起動入力がアレイの行に送られるものとして当該システムを説明したきたが、いくつかの実現例では、重み入力がアレイの行に送られ、起動入力がアレイの列に送られる。
図8は、どのように制御値が重み入力をシフトまたはロードさせることができるかの例示的な図である。図3を参照して上記したように、制御値806は、ホストによって送られることができ、重みシーケンサによって格納されることができる。グラフ内の値は、それぞれシストリックアレイの行1〜4 804に対応する重みシーケンサ808〜814に格納された制御値をクロックサイクル802ベースで表わす。
いくつかの実現例では、所与の重みシーケンサにおける制御値がゼロでない場合、シストリックアレイの対応するセルにおける重み入力は、隣接するセルにシフトすることになる。所与の重みシーケンサにおける制御値がゼロである場合、重み入力は、対応するセルにロードされて、セル内の起動入力との積を計算することに使用することができる。
例示として、ホストは、4個の重み入力をロードする前にシフトすべきであると判断することができる。クロックサイクル0で、ホストは、5という制御値を重みシーケンサ808、すなわち行1に対応する重みシーケンサに送ることができる。重みシーケンサ808は、5という制御値に基づいて4という制御値を出力するのに1つのクロックサイクルを要するデクリメント回路を含む。したがって、4という制御値は、後続のクロックサイクル、すなわちクロックサイクル1で重みシーケンサ808に格納される。
クロックサイクル1で、ホストは、4という制御値を重みシーケンサ808に送る。したがって、クロックサイクル2で、重みシーケンサ808は、たとえばデクリメント回路を使用して3という制御値を格納する。クロックサイクル1で、重みシーケンサ808は、4という制御値を重みシーケンサ810に送ることができる。したがって、クロックサイクル2で、4という制御値が重みシーケンサ810のデクリメント回路によって処理された後、重みシーケンサ810は、3という制御値を格納することができる。
同様に、ホストは、クロックサイクル2,3および4でそれぞれ3という制御値、2という制御値および1という制御値を送ることができる。各重みシーケンサ808〜814におけるデクリメント回路が制御値をデクリメントするときに遅延を生じさせるので、各クロックサイクルで制御値806をデクリメントすることにより、最終的に、各重みシーケンサに同一の制御値、すなわちクロックサイクル4では1という制御値およびクロックサイクル5では0という制御値、を格納させることができる。
いくつかの実現例では、各重みシーケンサが0という制御値を出力すると、シストリックアレイは、重み入力のシフトを一時停止させ、重み入力を各セルにロードする。すなわち、重み入力をロードすることによって、シストリックアレイは、ドット積計算におけるオペランドとして重み入力を使用することを可能にし、それによって、ニューラルネットワーク内の層を処理し始める。
いくつかの実現例では、計算が終了した後、重みのシフトを再び開始するために、ホストは、制御値をゼロでない数字に変更し、たとえばクロックサイクル7の間に5という制御値を送る。シフトのプロセスは、クロックサイクル0を参照して上記したように繰返すことができる。
いくつかの実現例では、制御値は別のオフセット、たとえば1から開始する。
本明細書に記載されている主題および機能動作の実施形態は、デジタル電子回路で実現されてもよく、有形に実施されたコンピュータソフトウェアもしくはファームウェアで実現されてもよく、本明細書に開示されている構造およびそれらの構造的等価物を含むコンピュータハードウェアで実現されてもよく、またはそれらのうちの1つ以上の組み合わせで実現されてもよい。本明細書に記載されている主題の実施形態は、1つ以上のコンピュータプログラムとして実現されてもよく、すなわちデータ処理装置による実行またはデータ処理装置の動作の制御のために有形の非一時的なプログラムキャリアに符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実現されてもよい。代替的にまたは加えて、プログラム命令は、人工的に生成された伝搬信号、たとえば機械によって生成された電気信号、光信号または電磁信号、に符号化されてもよく、当該信号は、情報を符号化して好適な受信機装置に送信してデータ処理装置によって実行するように生成される。コンピュータ記憶媒体は、機械読取可能な記憶装置であってもよく、機械読取可能な記憶基板であってもよく、ランダムもしくはシリアルアクセスメモリデバイスであってもよく、またはそれらのうちの1つ以上の組み合わせであってもよい。
「データ処理装置」という用語は、一例としてプログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するための全ての種類の装置、デバイスおよび機械を包含する。当該装置は、特定目的論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含み得る。当該装置は、ハードウェアに加えて、対象のコンピュータプログラムのための実行環境を作成するコード、たとえばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上の組み合わせを構成するコード、も含み得る。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと称してもよく、またはそのようなものとして記載されてもよい)コンピュータプログラムは、コンパイラ型もしくはインタープリタ型言語、または機能的に純粋なもしくは宣言型もしくは手続き型言語を含むいずれかの形態のプログラミング言語で書かれてもよく、スタンドアロンのプログラム、または計算環境での使用に適したモジュール、コンポーネント、サブルーチンもしくは他のユニットを含むいずれかの形態でデプロイすることができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、そうでなくてもよい。プログラムは、他のプログラムもしくはデータ、たとえばマークアップ言語ドキュメントに格納された1つ以上のスクリプト、を保持するファイルの一部に格納されてもよく、対象のプログラムに専用の単一のファイルに格納されてもよく、または複数の協調的ファイル、たとえば1つ以上のモジュール、サブプログラムもしくはコードの一部を格納するファイル、に格納されてもよい。コンピュータプログラムは、1つのコンピュータで実行されるようにデプロイされてもよく、または、一箇所に位置するかもしくは複数の箇所に分散されて通信ネットワークによって相互接続された複数のコンピュータで実行されるようにデプロイされてもよい。
本明細書に記載されているプロセスおよび論理フローは、1つ以上のプログラム可能なコンピュータによって実行されてもよく、当該1つ以上のプログラム可能なコンピュータは、入力データ上で動作して出力を生成することによって機能を実行するように1つ以上のコンピュータプログラムを実行する。また、当該プロセスおよび論理フローは、特定目的論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてもよく、装置は、特定目的論理回路、たとえばFPGAまたはASICとして実現されてもよい。
コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサもしくは特定目的マイクロプロセッサ、またはそれら両方、またはその他の種類の中央処理装置に基づいていてもよい。一般に、中央処理装置は、リードオンリメモリまたはランダムアクセスメモリまたはそれら両方から命令およびデータを受け取る。コンピュータの必須の要素は、命令を実施または実行するための中央処理装置と、命令およびデータを格納するための1つ以上のメモリデバイスとである。一般に、コンピュータは、データを格納するための1つ以上の大容量記憶装置、たとえば磁気ディスク、光磁気ディスクもしくは光ディスクも含み、または、当該1つ以上の大容量記憶装置からデータを受信したり、当該1つ以上の大容量記憶装置にデータを送信したり、もしくは当該1つ以上の大容量記憶装置との間でデータを送受信したりするように動作可能に結合される。しかし、コンピュータはこのような装置を有していなくてもよい。さらに、コンピュータは、別のデバイス、たとえばいくつか例を挙げると携帯電話、パーソナルデジタルアシスタント(personal digital assistant:PDA)、モバイルオーディオプレーヤもしくはビデオプレーヤ、ゲーム機、グローバルポジショニングシステム(Global Positioning System:GPS)受信機で実施されてもよく、または携帯型記憶装置、たとえばユニバーサルシリアルバス(universal serial bus:USB)フラッシュドライブで実施されてもよい。
コンピュータプログラム命令およびデータの格納に適したコンピュータ読取可能な媒体は、全ての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、一例として、半導体メモリデバイス、たとえばEPROM、EEPROMおよびフラッシュメモリデバイス;磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびにCD ROMおよびDVD−ROMディスクを含む。プロセッサおよびメモリは、特定目的論理回路によって補完されてもよく、または特定目的論理回路に組み込まれてもよい。
ユーザとの対話を要求するために、本明細書に記載されている主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、ユーザが入力をコンピュータに送ることができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータで実現されてもよい。ユーザとの対話を要求するために他の種類のデバイスも使用してもよい。たとえば、ユーザに提供されるフィードバックは、いずれかの形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含むいずれかの形態で受け取られてもよい。また、コンピュータは、ユーザが使用するデバイスにドキュメントを送ったり当該デバイスからドキュメントを受け取ったりすることによってユーザと対話してもよく、たとえばウェブブラウザから受け取った要求に応答してユーザのクライアントデバイスのウェブブラウザにウェブページを送ることによってユーザと対話してもよい。
本明細書に記載されている主題の実施形態は、バックエンドコンポーネント、たとえばデータサーバを含む計算システムで実現されてもよく、またはミドルウェアコンポーネント、たとえばアプリケーションサーバを含む計算システムで実現されてもよく、またはフロントエンドコンポーネント、たとえばユーザが本明細書に記載されている主題の実現例と対話できるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを含む計算システムで実現されてもよく、または1つ以上のこのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムで実現されてもよい。当該システムのコンポーネント同士は、デジタルデータ通信のいずれかの形態または媒体、たとえば通信ネットワークによって相互接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(local area network:LAN)および広域ネットワーク(wide area network:WAN)、たとえばインターネットが挙げられる。
計算システムは、クライアントとサーバとを含んでいてもよい。クライアントおよびサーバは、一般に互いに離れており、通常は通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作して互いに対してクライアント−サーバ関係を有するコンピュータプログラムによって生じる。
本明細書は、多くの具体的な実現例の詳細を含んでいるが、これらは、発明の範囲またはクレームされ得るものの範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に特有であろう特徴を説明するものとして解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、組み合わせて単一の実施形態で実現されてもよい。逆に、単一の実施形態の文脈で記載されているさまざまな特徴は、複数の実施形態で別々に、またはいずれかの好適な部分的組み合わせで実現されてもよい。さらに、特徴は特定の組み合わせで動作するものとして上記され、当初はそのようなものとしてクレームされさえし得るが、クレームされている組み合わせからの1つ以上の特徴は、場合によっては当該組み合わせから削除されてもよく、クレームされている組み合わせは、部分的組み合わせまたは部分的組み合わせの変形例に向けられてもよい。
同様に、動作は特定の順序で図面に示されているが、これは、望ましい結果を達成するために、示されている特定の順序またはシーケンシャルな順序でこのような動作を実行しなければならないものとして理解されるべきではなく、または全ての示されている動作を実行しなければならないものとして理解されるべきではない。特定の状況では、マルチタスクおよび並列処理が有利であるかもしれない。さらに、上記の実施形態におけるさまざまなシステムモジュールおよびコンポーネントの分離は、全ての実施形態でこのような分離が必要であるものとして理解されるべきではなく、記載されているプログラムコンポーネントおよびシステムは一般に単一のソフトウェア製品に実装されるかまたは複数のソフトウェア製品にパッケージングされ得るということが理解されるべきである。
主題の特定の実施形態について説明してきた。他の実施形態も以下の特許請求の範囲の範囲内である。たとえば、特許請求の範囲に記載されている動作は、異なる順序で実行されてもよく、依然として望ましい結果を達成することができる。一例として、添付の図面に示されているプロセスは、望ましい結果を達成するために、示されている特定の順序またはシーケンシャルな順序を必ずしも必要としない。特定の実現例では、マルチタスクおよび並列処理が有利であるかもしれない。

Claims (20)

  1. 複数の層を備えるニューラルネットワークについてニューラルネットワーク計算を実行するための回路であって、
    複数のセルを備えるシストリックアレイと、
    重みフェッチャユニットとを備え、
    前記重みフェッチャユニットは、前記複数のニューラルネットワーク層の各々について、前記ニューラルネットワーク層のための前記シストリックアレイの第1の次元に沿ったセルに複数の重み入力を送るように構成され、前記回路はさらに、
    複数の重みシーケンサユニットを備え、各々の重みシーケンサユニットは、前記シストリックアレイの前記第1の次元に沿った個別のセルに結合され、
    前記複数の重みシーケンサユニットは、前記複数のニューラルネットワーク層の各々について、複数のクロックサイクルにわたって前記ニューラルネットワーク層のための前記シストリックアレイの第2の次元に沿ったセルに前記複数の重み入力をシフトするように構成され、各々の重み入力は、前記第2の次元に沿ったそれぞれのセル内に格納され、各々のセルは、乗算回路を使用して起動入力とそれぞれの重み入力との積を計算するように構成される、回路。
  2. 前記複数のニューラルネットワーク層の各々について、前記ニューラルネットワーク層のための前記シストリックアレイの前記第2の次元に沿ったセルに複数の起動入力を送るように構成された値シーケンサユニットをさらに備える、請求項1に記載の回路。
  3. 前記シストリックアレイの前記第1の次元は、前記シストリックアレイの行に対応し、前記シストリックアレイの前記第2の次元は、前記シストリックアレイの列に対応する、請求項1または2に記載の回路。
  4. 各々のセルは、重み制御信号を隣接するセルに渡すように構成され、前記重み制御信号は、前記隣接するセル内の回路に、前記隣接するセルについての重み入力をシフトまたはロードさせる、請求項1〜3のいずれか1項に記載の回路。
  5. 各々のセルは、
    前記セルにシフトされた前記重み入力を格納するように構成された重みパスレジスタと、
    前記重みパスレジスタに結合された重みレジスタと、
    前記重みレジスタに前記重み入力を格納するか否かを判断するように構成された重み制御レジスタと、
    起動入力を格納するように構成され、前記起動入力を前記第1の次元に沿った第1の隣接するセル内の別の起動レジスタに送るように構成された起動レジスタと、
    前記重みレジスタおよび前記起動レジスタに結合された前記乗算回路とを備え、前記乗算回路は、前記重み入力と前記起動入力との積を出力するように構成され、前記各々のセルはさらに、
    前記乗算回路に結合され、前記積および第1の部分和を前記第2の次元に沿った第2の隣接するセルから受け取るように構成された総和回路を備え、前記総和回路は、前記積と前記第1の部分和との第2の部分和を出力するように構成され、前記各々のセルはさらに、
    前記総和回路に結合され、前記第2の部分和を格納するように構成された部分和レジスタを備え、前記部分和レジスタは、前記第2の部分和を前記第2の次元に沿った第3の隣接するセル内の別の総和回路に送るように構成される、請求項1〜3のいずれか1項に記載の回路。
  6. 各々の重みシーケンサユニットは、
    前記重みシーケンサユニットに結合された前記対応するセル内の前記重み制御レジスタに対応する一時停止カウンタと、
    デクリメント回路とを備え、前記デクリメント回路は、前記重みシーケンサユニットへの入力をデクリメントして、デクリメントされた出力を生成し、前記デクリメントされた出力を前記一時停止カウンタに送るように構成される、請求項5に記載の回路。
  7. 各々の一時停止カウンタにおける値は同一であり、各々の重みシーケンサユニットは、対応する重み入力を前記シストリックアレイの前記対応する個別のセルにロードするように構成され、前記ロードは、前記重み入力を前記乗算回路に送ることを備える、請求項6に記載の回路。
  8. 各々の一時停止カウンタにおける値は異なっており、各々の重みシーケンサユニットは、対応する重み入力を前記第2の次元に沿って隣接する重みシーケンサユニットにシフトするように構成される、請求項6に記載の回路。
  9. 各々の一時停止カウンタにおける値は、予め定められた値に到達して、前記複数の重みシーケンサユニットに前記第2の次元に沿った前記複数の重み入力のシフトを一時停止させる、請求項6に記載の回路。
  10. 前記シストリックアレイは、前記複数のニューラルネットワーク層の各々について、前記ニューラルネットワーク層のための累積出力を各々の積から生成するように構成される、請求項1〜9のいずれか1項に記載の回路。
  11. 複数の層を備えるニューラルネットワークについてニューラルネットワーク計算を実行するための方法であって、前記方法は、前記複数のニューラルネットワーク層の各々について、
    重みフェッチャユニットにおいて、複数のセルを備えるシストリックアレイの第1の次元に沿ったセルに複数の重み入力を送るステップと、
    複数の重みシーケンサユニットの各々において、複数のクロックサイクルにわたって前記シストリックアレイの第2の次元に沿ったセルに前記複数の重み入力をシフトするステップとを備え、各々の重みシーケンサユニットは、前記シストリックアレイの前記第1の次元に沿った個別のセルに結合され、各々の重み入力は、前記第2の次元に沿ったそれぞれのセル内に格納され、各々のセルは、乗算回路を使用して起動入力とそれぞれの重み入力との積を計算するように構成される、方法。
  12. 値シーケンサユニットにおいて、前記ニューラルネットワーク層のための前記シストリックアレイの前記第2の次元に沿ったセルに複数の起動入力を送るステップをさらに備える、請求項11に記載の方法。
  13. 前記シストリックアレイの前記第1の次元は、前記シストリックアレイの行に対応し、前記シストリックアレイの前記第2の次元は、前記シストリックアレイの列に対応する、請求項11または12に記載の方法。
  14. 各々のセルについて、隣接するセルに対する重み制御信号を当該セルに渡すステップをさらに備え、前記重み制御信号は、前記隣接するセル内の回路に、前記隣接するセルについての重み入力をシフトまたはロードさせる、先行するいずれかの請求項に記載の方法。
  15. 各々のセルは、
    前記セルにシフトされた前記重み入力を格納するように構成された重みパスレジスタと、
    前記重みパスレジスタに結合された重みレジスタと、
    前記重みレジスタに前記重み入力を格納するか否かを判断するように構成された重み制御レジスタと、
    起動入力を格納するように構成され、前記起動入力を前記第1の次元に沿った第1の隣接するセル内の別の起動レジスタに送るように構成された起動レジスタと、
    前記重みレジスタおよび前記起動レジスタに結合された前記乗算回路とを備え、前記乗算回路は、前記重み入力と前記起動入力との積を出力するように構成され、前記各々のセルはさらに、
    前記乗算回路に結合され、前記積および第1の部分和を前記第2の次元に沿った第2の隣接するセルから受け取るように構成された総和回路を備え、前記総和回路は、前記積と前記第1の部分和との第2の部分和を出力するように構成され、前記各々のセルはさらに、
    前記総和回路に結合され、前記第2の部分和を格納するように構成された部分和レジスタを備え、前記部分和レジスタは、前記第2の部分和を前記第2の次元に沿った第3の隣接するセル内の別の総和回路に送るように構成される、請求項11〜13のいずれか1項に記載の方法。
  16. 各々の重みシーケンサユニット内のデクリメント回路において、前記重みシーケンサユニットへのそれぞれの入力をデクリメントして、それぞれのデクリメントされた出力を生成するステップと、
    各々の重みシーケンサユニットについて、前記それぞれのデクリメントされた出力をそれぞれの一時停止カウンタに送るステップとをさらに備え、前記それぞれの一時停止カウンタは、前記重みシーケンサユニットに結合された対応するセル内の前記重み制御レジスタに対応する、請求項15に記載の方法。
  17. 各々の一時停止カウンタにおける値は同一であり、各々の重みシーケンサユニットにおいて、対応する重み入力を前記シストリックアレイの前記対応する個別のセルにロードするステップをさらに備え、前記ロードするステップは、前記重み入力を前記乗算回路に送るステップを備える、請求項16に記載の方法。
  18. 各々の一時停止カウンタにおける値は異なっており、各々の重みシーケンサユニットにおいて、対応する重み入力を前記第2の次元に沿って隣接する重みシーケンサユニットにシフトするステップをさらに備える、請求項16に記載の方法。
  19. 各々の一時停止カウンタにおける値は、予め定められた値に到達して、前記複数の重みシーケンサユニットに前記第2の次元に沿った前記複数の重み入力のシフトを一時停止させる、請求項16に記載の方法。
  20. 前記シストリックアレイにおいて、前記複数のニューラルネットワーク層の各々について、前記ニューラルネットワーク層のためのそれぞれの累積出力を各々の積から生成するステップをさらに備える、請求項11〜19のいずれか1項に記載の方法。
JP2017550913A 2015-05-21 2016-04-29 ニューラルネットワークプロセッサで使用される重みのプリフェッチ Active JP6689878B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020069854A JP6953577B2 (ja) 2015-05-21 2020-04-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2021159352A JP7071577B2 (ja) 2015-05-21 2021-09-29 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2022076581A JP7383757B2 (ja) 2015-05-21 2022-05-06 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2023190654A JP2024016196A (ja) 2015-05-21 2023-11-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562164981P 2015-05-21 2015-05-21
US62/164,981 2015-05-21
US14/844,670 2015-09-03
US14/844,670 US10049322B2 (en) 2015-05-21 2015-09-03 Prefetching weights for use in a neural network processor
PCT/US2016/029965 WO2016186810A1 (en) 2015-05-21 2016-04-29 Prefetching weights for use in a neural network processor

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2020069854A Division JP6953577B2 (ja) 2015-05-21 2020-04-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ

Publications (2)

Publication Number Publication Date
JP2018521374A true JP2018521374A (ja) 2018-08-02
JP6689878B2 JP6689878B2 (ja) 2020-04-28

Family

ID=56081550

Family Applications (5)

Application Number Title Priority Date Filing Date
JP2017550913A Active JP6689878B2 (ja) 2015-05-21 2016-04-29 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2020069854A Active JP6953577B2 (ja) 2015-05-21 2020-04-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2021159352A Active JP7071577B2 (ja) 2015-05-21 2021-09-29 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2022076581A Active JP7383757B2 (ja) 2015-05-21 2022-05-06 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2023190654A Pending JP2024016196A (ja) 2015-05-21 2023-11-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ

Family Applications After (4)

Application Number Title Priority Date Filing Date
JP2020069854A Active JP6953577B2 (ja) 2015-05-21 2020-04-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2021159352A Active JP7071577B2 (ja) 2015-05-21 2021-09-29 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2022076581A Active JP7383757B2 (ja) 2015-05-21 2022-05-06 ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP2023190654A Pending JP2024016196A (ja) 2015-05-21 2023-11-08 ニューラルネットワークプロセッサで使用される重みのプリフェッチ

Country Status (11)

Country Link
US (6) US10049322B2 (ja)
EP (2) EP3298546B1 (ja)
JP (5) JP6689878B2 (ja)
KR (4) KR102105128B1 (ja)
CN (2) CN112465132A (ja)
DE (2) DE202016107439U1 (ja)
DK (1) DK3298546T3 (ja)
GB (2) GB2597611B (ja)
HK (1) HK1245462A1 (ja)
TW (1) TWI636368B (ja)
WO (1) WO2016186810A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020077449A (ja) * 2018-10-11 2020-05-21 力晶積成電子製造股▲ふん▼有限公司Powerchip Semiconductor Manufacturing Corporation 人工知能動作を実行できるメモリチップおよびその方法
JP2020077298A (ja) * 2018-11-09 2020-05-21 株式会社Preferred Networks プロセッサおよびプロセッサの制御方法
JP2020516991A (ja) * 2017-05-17 2020-06-11 グーグル エルエルシー 低レイテンシ行列乗算ユニット
JP2020091861A (ja) * 2018-12-07 2020-06-11 三星電子株式会社Samsung Electronics Co.,Ltd. テンソル計算データフロー加速器半導体回路
JP2022164559A (ja) * 2021-04-16 2022-10-27 旺宏電子股▲ふん▼有限公司 メモリデバイスおよびその動作方法
US11790225B2 (en) 2019-02-28 2023-10-17 Canon Kabushiki Kaisha Data processing apparatus configured to execute hierarchical calculation processing and method thereof
US12130884B2 (en) 2021-07-13 2024-10-29 Samsung Electronics Co., Ltd. Dataflow accelerator architecture for general matrix-matrix multiplication and tensor computation in deep learning

Families Citing this family (120)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846591B2 (en) * 2015-12-29 2020-11-24 Synopsys, Inc. Configurable and programmable multi-core architecture with a specialized instruction set for embedded application based on neural networks
US10360496B2 (en) * 2016-04-01 2019-07-23 Intel Corporation Apparatus and method for a digital neuromorphic processor
KR20180034853A (ko) * 2016-09-28 2018-04-05 에스케이하이닉스 주식회사 합성곱 신경망의 연산 장치 및 방법
IE87469B1 (en) * 2016-10-06 2024-01-03 Google Llc Image processing neural networks with separable convolutional layers
US10521488B1 (en) 2016-12-30 2019-12-31 X Development Llc Dynamic partitioning
EP4160449A1 (en) * 2016-12-30 2023-04-05 Intel Corporation Deep learning hardware
US10146768B2 (en) * 2017-01-25 2018-12-04 Google Llc Automatic suggested responses to images received in messages using language model
JP6823495B2 (ja) * 2017-02-27 2021-02-03 株式会社日立製作所 情報処理装置および画像認識装置
US10896367B2 (en) * 2017-03-07 2021-01-19 Google Llc Depth concatenation using a matrix computation unit
US10909447B2 (en) 2017-03-09 2021-02-02 Google Llc Transposing neural network matrices in hardware
US10241972B2 (en) * 2017-03-16 2019-03-26 International Business Machines Corporation Matrix multiplication on a systolic array
KR102414583B1 (ko) * 2017-03-23 2022-06-29 삼성전자주식회사 머신 러닝을 수행하는 전자 장치 및 머신 러닝 수행 방법
US10552733B2 (en) 2017-04-03 2020-02-04 Gyrfalcon Technology Inc. Memory subsystem in CNN based digital IC for artificial intelligence
US10534996B2 (en) 2017-04-03 2020-01-14 Gyrfalcon Technology Inc. Memory subsystem in CNN based digital IC for artificial intelligence
US10546234B2 (en) 2017-04-03 2020-01-28 Gyrfalcon Technology Inc. Buffer memory architecture for a CNN based processing unit and creation methods thereof
US10331999B2 (en) * 2017-04-03 2019-06-25 Gyrfalcon Technology Inc. Memory subsystem in CNN based digital IC for artificial intelligence
US10824938B2 (en) 2017-04-24 2020-11-03 Intel Corporation Specialized fixed function hardware for efficient convolution
US10019668B1 (en) * 2017-05-19 2018-07-10 Google Llc Scheduling neural network processing
US11328037B2 (en) * 2017-07-07 2022-05-10 Intel Corporation Memory-size- and bandwidth-efficient method for feeding systolic array matrix multipliers
CN109284827A (zh) 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 神经网络计算方法、设备、处理器及计算机可读存储介质
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11243880B1 (en) 2017-09-15 2022-02-08 Groq, Inc. Processor architecture
US11114138B2 (en) 2017-09-15 2021-09-07 Groq, Inc. Data structures with multiple read ports
US11360934B1 (en) 2017-09-15 2022-06-14 Groq, Inc. Tensor streaming processor architecture
US11868804B1 (en) 2019-11-18 2024-01-09 Groq, Inc. Processor instruction dispatch configuration
US11170307B1 (en) 2017-09-21 2021-11-09 Groq, Inc. Predictive model compiler for generating a statically scheduled binary with known resource constraints
CN111149090B (zh) * 2017-09-21 2023-12-01 华为技术有限公司 多线程脉动阵列
CN107832839B (zh) * 2017-10-31 2020-02-14 南京地平线机器人技术有限公司 执行卷积神经网络中的运算的方法和装置
GB2568086B (en) * 2017-11-03 2020-05-27 Imagination Tech Ltd Hardware implementation of convolution layer of deep neutral network
EP3480748A1 (en) 2017-11-06 2019-05-08 Imagination Technologies Limited Neural network hardware
KR102424962B1 (ko) 2017-11-15 2022-07-25 삼성전자주식회사 병렬 연산 처리를 수행하는 메모리 장치 및 이를 포함하는 메모리 모듈
JP7179853B2 (ja) * 2017-12-12 2022-11-29 アマゾン テクノロジーズ インコーポレイテッド オンチップの計算ネットワーク
CN107909148B (zh) * 2017-12-12 2020-10-20 南京地平线机器人技术有限公司 用于执行卷积神经网络中的卷积运算的装置
US10803379B2 (en) 2017-12-12 2020-10-13 Amazon Technologies, Inc. Multi-memory on-chip computational network
CN109961134B (zh) * 2017-12-14 2020-06-23 中科寒武纪科技股份有限公司 集成电路芯片装置及相关产品
US11119677B2 (en) * 2017-12-15 2021-09-14 Samsung Electronics Co., Ltd. HBM based memory lookup engine for deep learning accelerator
KR102637735B1 (ko) * 2018-01-09 2024-02-19 삼성전자주식회사 근사 곱셈기를 구비하는 뉴럴 네트워크 처리 장치 및 이를 포함하는 시스템온 칩
CN109416756A (zh) * 2018-01-15 2019-03-01 深圳鲲云信息科技有限公司 卷积器及其所应用的人工智能处理装置
CN108364063B (zh) * 2018-01-24 2019-09-27 福州瑞芯微电子股份有限公司 一种基于权值分配资源的神经网络训练方法和装置
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
CN108416434B (zh) * 2018-02-07 2021-06-04 复旦大学 针对神经网络的卷积层与全连接层进行加速的电路结构
US11769042B2 (en) 2018-02-08 2023-09-26 Western Digital Technologies, Inc. Reconfigurable systolic neural network engine
US11741346B2 (en) 2018-02-08 2023-08-29 Western Digital Technologies, Inc. Systolic neural network engine with crossover connection optimization
DE102018202095A1 (de) * 2018-02-12 2019-08-14 Robert Bosch Gmbh Verfahren und Vorrichtung zum Überprüfen einer Neuronenfunktion in einem neuronalen Netzwerk
US11468302B2 (en) * 2018-03-13 2022-10-11 Recogni Inc. Efficient convolutional engine
US11475306B2 (en) 2018-03-22 2022-10-18 Amazon Technologies, Inc. Processing for multiple input data sets
JP7108702B2 (ja) * 2018-03-22 2022-07-28 アマゾン テクノロジーズ インコーポレイテッド 複数の入力データセットのための処理
CN110210610B (zh) * 2018-03-27 2023-06-20 腾讯科技(深圳)有限公司 卷积计算加速器、卷积计算方法及卷积计算设备
US10621489B2 (en) * 2018-03-30 2020-04-14 International Business Machines Corporation Massively parallel neural inference computing elements
US11188814B2 (en) * 2018-04-05 2021-11-30 Arm Limited Systolic convolutional neural network
US20190332924A1 (en) * 2018-04-27 2019-10-31 International Business Machines Corporation Central scheduler and instruction dispatcher for a neural inference processor
US11537838B2 (en) 2018-05-04 2022-12-27 Apple Inc. Scalable neural network processing engine
US11823376B2 (en) 2018-05-16 2023-11-21 Benevis Informatics, Llc Systems and methods for review of computer-aided detection of pathology in images
TWI735886B (zh) * 2018-06-05 2021-08-11 美商光子智能股份有限公司 計算系統
US12099912B2 (en) * 2018-06-22 2024-09-24 Samsung Electronics Co., Ltd. Neural processor
US10839894B2 (en) * 2018-06-29 2020-11-17 Taiwan Semiconductor Manufacturing Company Ltd. Memory computation circuit and method
US20200019836A1 (en) * 2018-07-12 2020-01-16 International Business Machines Corporation Hierarchical parallelism in a network of distributed neural network cores
CN110751276A (zh) * 2018-07-24 2020-02-04 闪迪技术有限公司 在nand存储器阵列中实现具有三值输入和二值权重的神经网络
US10643119B2 (en) * 2018-07-24 2020-05-05 Sandisk Technologies Llc Differential non-volatile memory cell for artificial neural network
US11954573B2 (en) * 2018-09-06 2024-04-09 Black Sesame Technologies Inc. Convolutional neural network using adaptive 3D array
CN109543830B (zh) * 2018-09-20 2023-02-03 中国科学院计算技术研究所 一种用于卷积神经网络加速器的拆分累加器
US10817042B2 (en) * 2018-09-27 2020-10-27 Intel Corporation Power savings for neural network architecture with zero activations during inference
US11636325B2 (en) 2018-10-24 2023-04-25 Macronix International Co., Ltd. In-memory data pooling for machine learning
KR102637733B1 (ko) 2018-10-31 2024-02-19 삼성전자주식회사 뉴럴 네트워크 프로세서 및 그것의 컨볼루션 연산 방법
US11537687B2 (en) 2018-11-19 2022-12-27 Groq, Inc. Spatial locality transform of matrices
US11562229B2 (en) * 2018-11-30 2023-01-24 Macronix International Co., Ltd. Convolution accelerator using in-memory computation
CN111291874B (zh) * 2018-12-06 2023-12-01 神盾股份有限公司 卷积神经网络处理器及其数据处理方法
US11494645B2 (en) 2018-12-06 2022-11-08 Egis Technology Inc. Convolutional neural network processor and data processing method thereof
US11934480B2 (en) 2018-12-18 2024-03-19 Macronix International Co., Ltd. NAND block architecture for in-memory multiply-and-accumulate operations
CN109933371A (zh) * 2019-02-01 2019-06-25 京微齐力(北京)科技有限公司 其单元可访问本地存储器的人工智能模块和系统芯片
CN109857024B (zh) * 2019-02-01 2021-11-12 京微齐力(北京)科技有限公司 人工智能模块的单元性能测试方法和系统芯片
CN109919321A (zh) * 2019-02-01 2019-06-21 京微齐力(北京)科技有限公司 单元具有本地累加功能的人工智能模块及系统芯片
CN109902064A (zh) * 2019-02-01 2019-06-18 京微齐力(北京)科技有限公司 一种二维脉动阵列的芯片电路
US20200249996A1 (en) * 2019-02-04 2020-08-06 Pathtronic Inc. Systems and methods for artificial intelligence hardware processing
US11507662B2 (en) 2019-02-04 2022-11-22 Sateesh Kumar Addepalli Systems and methods of security for trusted artificial intelligence hardware processing
US11150720B2 (en) 2019-02-04 2021-10-19 Sateesh Kumar Addepalli Systems and methods for power management of hardware utilizing virtual multilane architecture
US11544525B2 (en) 2019-02-04 2023-01-03 Sateesh Kumar Addepalli Systems and methods for artificial intelligence with a flexible hardware processing framework
US11423454B2 (en) 2019-02-15 2022-08-23 Sateesh Kumar Addepalli Real-time customizable AI model collaboration and marketplace service over a trusted AI model network
KR20200107295A (ko) * 2019-03-07 2020-09-16 에스케이하이닉스 주식회사 시스톨릭 어레이 및 프로세싱 시스템
CN113396400A (zh) 2019-03-15 2021-09-14 英特尔公司 用于针对高速缓存操作提供层级开放划分扇区和可变扇区大小的系统和方法
US11783176B2 (en) 2019-03-25 2023-10-10 Western Digital Technologies, Inc. Enhanced storage device memory architecture for machine learning
US10929058B2 (en) 2019-03-25 2021-02-23 Western Digital Technologies, Inc. Enhanced memory device architecture for machine learning
US11671111B2 (en) 2019-04-17 2023-06-06 Samsung Electronics Co., Ltd. Hardware channel-parallel data compression/decompression
US11880760B2 (en) 2019-05-01 2024-01-23 Samsung Electronics Co., Ltd. Mixed-precision NPU tile with depth-wise convolution
CN111985628B (zh) * 2019-05-24 2024-04-30 澜起科技股份有限公司 计算装置及包括所述计算装置的神经网络处理器
KR102351087B1 (ko) 2019-06-04 2022-01-14 주식회사 딥엑스 인공신경망의 데이터 로컬리티 기반의 데이터 캐슁을 이용하여 고속의 인공신경망 오퍼레이션을 지원하는 데이터 관리 장치
US11233049B2 (en) 2019-06-14 2022-01-25 Macronix International Co., Ltd. Neuromorphic computing device
US11514300B2 (en) 2019-06-14 2022-11-29 Macronix International Co., Ltd. Resistor circuit, artificial intelligence chip and method for manufacturing the same
TWI698810B (zh) * 2019-06-14 2020-07-11 旺宏電子股份有限公司 類神經計算裝置
CN110210615B (zh) * 2019-07-08 2024-05-28 中昊芯英(杭州)科技有限公司 一种用于执行神经网络计算的脉动阵列系统
CN110543934B (zh) * 2019-08-14 2022-02-01 北京航空航天大学 一种用于卷积神经网络的脉动阵列计算结构及方法
EP3973394A1 (en) * 2019-08-22 2022-03-30 Google LLC Propagation latency reduction
US11501145B1 (en) * 2019-09-17 2022-11-15 Amazon Technologies, Inc. Memory operation for systolic array
US11842169B1 (en) 2019-09-25 2023-12-12 Amazon Technologies, Inc. Systolic multiply delayed accumulate processor architecture
CN114930351A (zh) * 2019-11-26 2022-08-19 格罗克公司 使用仅单个侧从多维阵列加载操作数并输出结果
US11816446B2 (en) 2019-11-27 2023-11-14 Amazon Technologies, Inc. Systolic array component combining multiple integer and floating-point data types
KR20210065605A (ko) 2019-11-27 2021-06-04 한국전자통신연구원 선인출 정보를 이용한 메모리 제어 방법 및 장치
US11467806B2 (en) 2019-11-27 2022-10-11 Amazon Technologies, Inc. Systolic array including fused multiply accumulate with efficient prenormalization and extended dynamic range
US12112141B2 (en) 2019-12-12 2024-10-08 Samsung Electronics Co., Ltd. Accelerating 2D convolutional layer mapping on a dot product architecture
US11586889B1 (en) * 2019-12-13 2023-02-21 Amazon Technologies, Inc. Sensory perception accelerator
US11669733B2 (en) 2019-12-23 2023-06-06 Marvell Asia Pte. Ltd. Processing unit and method for computing a convolution using a hardware-implemented spiral algorithm
TWI733334B (zh) * 2020-02-15 2021-07-11 財團法人工業技術研究院 卷積神經網路運算裝置及其運算的方法
KR20210105053A (ko) * 2020-02-18 2021-08-26 에스케이하이닉스 주식회사 연산 회로 및 그것을 포함하는 딥 러닝 시스템
US12073310B2 (en) * 2020-04-01 2024-08-27 Microsoft Technology Licensing, Llc Deep neural network accelerator with independent datapaths for simultaneous processing of different classes of operations
CN113496117B (zh) * 2020-04-02 2024-03-12 北京庖丁科技有限公司 交叉检查表格中单元格数字内容的方法和电子设备
US11507817B2 (en) 2020-04-17 2022-11-22 Samsung Electronics Co., Ltd. System and method for performing computations for deep neural networks
JP7537213B2 (ja) 2020-09-30 2024-08-21 セイコーエプソン株式会社 情報処理装置、演算方法、及び、コンピュータープログラム
WO2021246818A1 (ko) * 2020-06-05 2021-12-09 주식회사 퓨리오사에이아이 뉴럴 네트워크 프로세싱 방법 및 이를 위한 장치
US11422773B1 (en) 2020-06-29 2022-08-23 Amazon Technologies, Inc. Multiple busses within a systolic array processing element
US11308027B1 (en) 2020-06-29 2022-04-19 Amazon Technologies, Inc. Multiple accumulate busses in a systolic array
CN111737193B (zh) * 2020-08-03 2020-12-08 深圳鲲云信息科技有限公司 数据存储方法、装置、设备和存储介质
US12008469B1 (en) 2020-09-01 2024-06-11 Amazon Technologies, Inc. Acceleration of neural networks with stacks of convolutional layers
CN112580787B (zh) * 2020-12-25 2023-11-17 北京百度网讯科技有限公司 神经网络加速器的数据处理方法、装置、设备及存储介质
TWI847030B (zh) 2021-05-05 2024-07-01 創鑫智慧股份有限公司 矩陣乘法器及其操作方法
US20230004523A1 (en) * 2021-06-30 2023-01-05 Amazon Technologies, Inc. Systolic array with input reduction to multiple reduced inputs
US11880682B2 (en) 2021-06-30 2024-01-23 Amazon Technologies, Inc. Systolic array with efficient input reduction and extended array performance

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03131965A (ja) * 1989-10-10 1991-06-05 Hnc Inc ニューラルネットワーク用二次元収縮アレイ及びその方法
JPH06131308A (ja) * 1990-10-04 1994-05-13 Natl Semiconductor Corp <Ns> 多次元シストリックアレイ処理装置及び方法

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU8698582A (en) 1981-08-14 1983-02-17 Rca Corp. Digital air filter
JPS6028345A (ja) 1983-07-26 1985-02-13 Fujitsu Ltd 並列計算機における通信方式
JPS63293668A (ja) 1987-05-27 1988-11-30 Matsushita Electric Ind Co Ltd 並列計算機の通信方法
US5014235A (en) 1987-12-15 1991-05-07 Steven G. Morton Convolution memory
US5136717A (en) 1988-11-23 1992-08-04 Flavors Technology Inc. Realtime systolic, multiple-instruction, single-data parallel computer system
US5337395A (en) 1991-04-08 1994-08-09 International Business Machines Corporation SPIN: a sequential pipeline neurocomputer
US5146543A (en) 1990-05-22 1992-09-08 International Business Machines Corp. Scalable neural array processor
JP2760170B2 (ja) 1990-11-29 1998-05-28 松下電器産業株式会社 学習機械
JP2749725B2 (ja) 1991-03-18 1998-05-13 富士通株式会社 並列計算機の通信方法
JPH04290155A (ja) 1991-03-19 1992-10-14 Fujitsu Ltd 並列データ処理方式
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
JPH05346914A (ja) 1992-06-16 1993-12-27 Matsushita Electron Corp ニューロプロセッサ
US5465041A (en) 1993-09-17 1995-11-07 Penberthy, Inc. Bipolar tracking current source/sink with ground clamp
JPH0823874B2 (ja) * 1993-11-18 1996-03-06 株式会社ジーデイーエス シストリックアレイプロセサー
DE4414821A1 (de) 1994-04-28 1995-11-02 Vorwerk Co Interholding Küchenmaschine mit einem Rührgefäß und einem Antrieb für ein Rührwerk in dem Rührgefäß
US5583964A (en) * 1994-05-02 1996-12-10 Motorola, Inc. Computer utilizing neural network and method of using same
US5799134A (en) 1995-03-13 1998-08-25 Industrial Technology Research Institute One dimensional systolic array architecture for neural network
US5812993A (en) 1996-03-07 1998-09-22 Technion Research And Development Foundation Ltd. Digital hardware architecture for realizing neural network
US6038337A (en) 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
KR100189195B1 (ko) 1996-04-04 1999-06-01 박래홍 단일화된 시스톨릭어레이 구조에 의한 2차원 dct/dst/dht의 수행장치
JPH11177399A (ja) 1997-12-15 1999-07-02 Mitsubishi Electric Corp クロック遅延回路およびこれを用いた発振回路、位相同期回路、クロック生成回路
GB9902115D0 (en) 1999-02-01 1999-03-24 Axeon Limited Neural networks
KR100450750B1 (ko) * 2002-04-17 2004-10-01 한국전자통신연구원 향상된 선형 궤환 시프트 레지스터 구조의 유한체 승산기
JP4314017B2 (ja) 2002-11-06 2009-08-12 キヤノン株式会社 階層処理装置
US7197721B2 (en) 2002-12-17 2007-03-27 Intel Corporation Weight compression/decompression system
FR2853424B1 (fr) * 2003-04-04 2005-10-21 Atmel Corp Architecture de multiplicateurs polynomial et naturel combines
US7245767B2 (en) 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US7634137B2 (en) 2005-10-14 2009-12-15 Microsoft Corporation Unfolded convolution for fast feature extraction
WO2008067676A1 (en) 2006-12-08 2008-06-12 Medhat Moussa Architecture, system and method for artificial neural network implementation
US8184696B1 (en) 2007-09-11 2012-05-22 Xilinx, Inc. Method and apparatus for an adaptive systolic array structure
TW200923803A (en) 2007-11-26 2009-06-01 Univ Nat Taipei Technology Hardware neural network learning and recall architecture
TWI417798B (zh) 2008-11-21 2013-12-01 Nat Taipei University Oftechnology High - speed reverse transfer neural network system with elastic structure and learning function
JP5376920B2 (ja) 2008-12-04 2013-12-25 キヤノン株式会社 コンボリューション演算回路、階層的コンボリューション演算回路及び物体認識装置
US8442927B2 (en) 2009-07-30 2013-05-14 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
US9141386B2 (en) * 2010-09-24 2015-09-22 Intel Corporation Vector logical reduction operation implemented using swizzling on a semiconductor chip
TWI525558B (zh) 2011-01-17 2016-03-11 Univ Nat Taipei Technology Resilient high - speed hardware reverse transfer and feedback type neural network system
US8924455B1 (en) 2011-02-25 2014-12-30 Xilinx, Inc. Multiplication of matrices using systolic arrays
US9111222B2 (en) * 2011-11-09 2015-08-18 Qualcomm Incorporated Method and apparatus for switching the binary state of a location in memory in a probabilistic manner to store synaptic weights of a neural network
TW201331855A (zh) 2012-01-19 2013-08-01 Univ Nat Taipei Technology 具自由回饋節點的高速硬體倒傳遞及回饋型類神經網路
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9811775B2 (en) 2012-12-24 2017-11-07 Google Inc. Parallelizing neural networks during training
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CN104035751B (zh) 2014-06-20 2016-10-12 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
EP3064130A1 (en) 2015-03-02 2016-09-07 MindMaze SA Brain activity measurement and feedback system
US20160267111A1 (en) 2015-03-11 2016-09-15 Microsoft Technology Licensing, Llc Two-stage vector reduction using two-dimensional and one-dimensional systolic arrays

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03131965A (ja) * 1989-10-10 1991-06-05 Hnc Inc ニューラルネットワーク用二次元収縮アレイ及びその方法
JPH06131308A (ja) * 1990-10-04 1994-05-13 Natl Semiconductor Corp <Ns> 多次元シストリックアレイ処理装置及び方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907330B2 (en) 2017-05-17 2024-02-20 Google Llc Low latency matrix multiply unit
JP2020516991A (ja) * 2017-05-17 2020-06-11 グーグル エルエルシー 低レイテンシ行列乗算ユニット
US11989259B2 (en) 2017-05-17 2024-05-21 Google Llc Low latency matrix multiply unit
US11599601B2 (en) 2017-05-17 2023-03-07 Google Llc Low latency matrix multiply unit
US11443185B2 (en) 2018-10-11 2022-09-13 Powerchip Semiconductor Manufacturing Corporation Memory chip capable of performing artificial intelligence operation and method thereof
JP2020077449A (ja) * 2018-10-11 2020-05-21 力晶積成電子製造股▲ふん▼有限公司Powerchip Semiconductor Manufacturing Corporation 人工知能動作を実行できるメモリチップおよびその方法
JP2020077298A (ja) * 2018-11-09 2020-05-21 株式会社Preferred Networks プロセッサおよびプロセッサの制御方法
JP7315317B2 (ja) 2018-11-09 2023-07-26 株式会社Preferred Networks プロセッサおよびプロセッサのデータ転送方法
JP2020091861A (ja) * 2018-12-07 2020-06-11 三星電子株式会社Samsung Electronics Co.,Ltd. テンソル計算データフロー加速器半導体回路
JP7474586B2 (ja) 2018-12-07 2024-04-25 三星電子株式会社 テンソル計算データフロー加速器半導体回路
US11790225B2 (en) 2019-02-28 2023-10-17 Canon Kabushiki Kaisha Data processing apparatus configured to execute hierarchical calculation processing and method thereof
JP7206531B2 (ja) 2021-04-16 2023-01-18 旺宏電子股▲ふん▼有限公司 メモリデバイスおよびその動作方法
JP2022164559A (ja) * 2021-04-16 2022-10-27 旺宏電子股▲ふん▼有限公司 メモリデバイスおよびその動作方法
US12130884B2 (en) 2021-07-13 2024-10-29 Samsung Electronics Co., Ltd. Dataflow accelerator architecture for general matrix-matrix multiplication and tensor computation in deep learning

Also Published As

Publication number Publication date
US20200218966A1 (en) 2020-07-09
DE202016107439U1 (de) 2017-01-16
JP7383757B2 (ja) 2023-11-20
CN107454966A (zh) 2017-12-08
GB2553052A (en) 2018-02-21
HK1245462A1 (zh) 2018-08-24
GB202112401D0 (en) 2021-10-13
US20240062055A1 (en) 2024-02-22
US20170103314A1 (en) 2017-04-13
US20190065940A1 (en) 2019-02-28
GB2597611A (en) 2022-02-02
WO2016186810A1 (en) 2016-11-24
JP2020126662A (ja) 2020-08-20
JP6953577B2 (ja) 2021-10-27
KR20220092642A (ko) 2022-07-01
US11853865B2 (en) 2023-12-26
GB2553052B (en) 2021-10-13
TWI636368B (zh) 2018-09-21
GB201715437D0 (en) 2017-11-08
KR102413522B1 (ko) 2022-06-24
JP7071577B2 (ja) 2022-05-19
JP2022115983A (ja) 2022-08-09
KR102105128B1 (ko) 2020-04-27
US20160342892A1 (en) 2016-11-24
JP2022008636A (ja) 2022-01-13
KR20200045006A (ko) 2020-04-29
US11281966B2 (en) 2022-03-22
DE112016002298T5 (de) 2018-02-15
US20210192328A1 (en) 2021-06-24
KR102641283B1 (ko) 2024-02-27
US10049322B2 (en) 2018-08-14
US10878316B2 (en) 2020-12-29
EP3298546A1 (en) 2018-03-28
EP3298546B1 (en) 2021-12-08
TW201706872A (zh) 2017-02-16
JP6689878B2 (ja) 2020-04-28
CN107454966B (zh) 2020-12-04
KR20240029112A (ko) 2024-03-05
KR20170126999A (ko) 2017-11-20
DK3298546T3 (da) 2022-02-07
CN112465132A (zh) 2021-03-09
GB2597611B (en) 2022-09-21
JP2024016196A (ja) 2024-02-06
EP3968232A1 (en) 2022-03-16
US9805304B2 (en) 2017-10-31

Similar Documents

Publication Publication Date Title
JP7383757B2 (ja) ニューラルネットワークプロセッサで使用される重みのプリフェッチ
JP7561916B2 (ja) ニューラルネットワークプロセッサにおけるバッチ処理
JP6615902B2 (ja) ニューラルネットワークプロセッサにおけるベクトル計算ユニット
US10521488B1 (en) Dynamic partitioning
TWI787262B (zh) 用於執行類神經網路層之計算的方法、系統及非暫時性電腦可讀儲存媒體
JP2020506454A (ja) ハードウェアにおける平均プーリングの実行

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180509

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191023

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200408

R150 Certificate of patent or registration of utility model

Ref document number: 6689878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250