JP7346510B2 - ニューラルネットワークプロセッサにおけるベクトル計算ユニット - Google Patents

ニューラルネットワークプロセッサにおけるベクトル計算ユニット Download PDF

Info

Publication number
JP7346510B2
JP7346510B2 JP2021148010A JP2021148010A JP7346510B2 JP 7346510 B2 JP7346510 B2 JP 7346510B2 JP 2021148010 A JP2021148010 A JP 2021148010A JP 2021148010 A JP2021148010 A JP 2021148010A JP 7346510 B2 JP7346510 B2 JP 7346510B2
Authority
JP
Japan
Prior art keywords
values
pool
circuit
value
pooling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021148010A
Other languages
English (en)
Other versions
JP2022000782A (ja
JP2022000782A5 (ja
Inventor
ソーソン,グレゴリー・マイケル
クラーク,クリストファー・アーロン
ルー,ダン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022000782A publication Critical patent/JP2022000782A/ja
Publication of JP2022000782A5 publication Critical patent/JP2022000782A5/ja
Priority to JP2023144224A priority Critical patent/JP2023169224A/ja
Application granted granted Critical
Publication of JP7346510B2 publication Critical patent/JP7346510B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F5/00Methods or arrangements for data conversion without changing the order or content of the data handled
    • G06F5/06Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor
    • G06F5/08Methods or arrangements for data conversion without changing the order or content of the data handled for changing the speed of data flow, i.e. speed regularising or timing, e.g. delay lines, FIFO buffers; over- or underrun control therefor having a sequence of storage locations, the intermediate ones not being accessible for either enqueue or dequeue operations, e.g. using a shift register
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/544Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/10Interfaces, programming languages or software development kits, e.g. for simulating neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Description

背景
本明細書は、ハードウェアにおいてニューラルネットワーク推測値を計算することに関する。
ニューラルネットワークは、1つ以上の層を利用して、受け取った入力について出力、たとえば分類を生成する機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つ以上の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層、すなわちネットワークの次の隠れ層または出力層、への入力として使用される。ネットワークの各層は、パラメータのそれぞれのセットの現在の値に従って、受け取った入力から出力を生成する。
概要
全体として、本明細書では、ニューラルネットワーク推測値を計算する特定目的ハードウェア回路について説明する。
全体として、本明細書に記載されている主題の1つの革新的な局面は、複数の層を備えるニューラルネットワークについてニューラルネットワーク計算を実行するための回路で実施することができ、上記回路は、累積値のベクトルを受け取るように構成され、関数を各々の累積値に適用して活性化値のベクトルを生成するように構成された活性化回路と、上記活性化回路に結合され、各々の活性化値についてそれぞれの正規化値を生成するように構成された正規化回路とを備える。
実現例は、以下の特徴のうちの1つ以上を含み得る。上記活性化回路は、上記回路内のシストリックアレイから上記累積値のベクトルを受け取る。上記正規化回路は、複数の正規化レジスタ列を備え、各々の正規化レジスタ列は、直列に接続された複数の正規化レジスタを備え、各々の正規化レジスタ列は、個別の活性化値を受け取るように構成され、上記正規化レジスタ列におけるそれぞれの正規化ユニットは、それぞれの正規化値を算出するように構成される。各々の正規化ユニットは、上記個別の活性化値を隣接する正規化ユニットに渡すように構成される。各々の正規化ユニットは、それぞれの活性化値を受け取るように構成され、上記それぞれの活性化値からそれぞれの中間正規化値を生成するように構成され、上記それぞれの中間正規化値を1つ以上の隣接する正規化ユニットに送るように構成される。上記それぞれの中間正規化値を生成することは、上記それぞれの活性化値の二乗を生成することを備える。各々の正規化ユニットはさらに、活性化値から生成された1つ以上の中間正規化値を1つ以上の隣接する正規化ユニットから受け取るように構成され、各々の中間正規化値を合計して、インデックスを生成するように構成され、上記インデックスを使用して、ルックアップテーブルから1つ以上の値にアクセスするように構成され、上記1つ以上の値および上記インデックスからスケーリングファクタを生成するように構成され、上記スケーリングファクタおよび上記それぞれの活性化値から上記それぞれの正規化値を生成するように構成される。プール回路は、上記正規化値を受け取るように構成され、上記正規化値をプールしてプール値を生成するように構成される。上記プール回路は、上記複数の正規化値を複数のレジスタおよび複数のメモリユニットに格納するように構成され、上記複数のレジスタおよび上記複数のメモリユニットは、直列に接続され、各々のレジスタは、1つの正規化値を格納し、各々のメモリユニットは、複数の
正規化値を格納し、上記プール回路は、全てのクロックサイクルの後に、所与の正規化値を後続のレジスタまたはメモリユニットにシフトするように構成され、上記プール回路は、上記正規化値から上記プール値を生成するように構成される。プール回路は、上記活性化値を受け取るように構成され、上記活性化値をプールしてプール値を生成するように構成される。上記プール回路は、上記複数の活性化値を複数のレジスタおよび複数のメモリユニットに格納するように構成され、上記複数のレジスタおよび上記複数のメモリユニットは、直列に接続され、各々のレジスタは、1つの正規化値を格納し、各々のメモリユニットは、複数の活性化値を格納し、上記プール回路は、全てのクロックサイクルの後に、所与の活性化値を後続のレジスタまたはメモリユニットにシフトするように構成され、上記プール回路は、上記活性化値から上記プール値を生成するように構成される。
本明細書に記載されている主題の特定の実施形態は、以下の利点のうちの1つ以上を達成するように実現することができる。所与のクロックサイクル中にニューラルネットワークの各ニューラルネットワーク層についての複数の活性化値を計算することができる。任意に、プロセッサは、別の所与のクロックサイクル中に活性化値から複数の正規化値を生成することができる。また、任意に、プロセッサは、正規化値または活性化値からプール値を生成することができる。プロセッサは、各クロックサイクルにおいて新たな累積和を取得して、各クロックサイクルにおいて活性化結果、正規化結果およびプール結果を生成し、それによって計算をパイプライン化することができる。
本発明は、ニューラルネットワークを動作させる対応する方法も提供する。
本明細書の主題の1つ以上の実施形態の詳細が添付の図面および以下の説明に記載されている。主題の他の特徴、局面および利点は、説明、図面および特許請求の範囲から明らかになるであろう。
ニューラルネットワークの所与の層について計算を実行するための例示的な方法のフロー図である。 例示的なニューラルネットワーク処理システムを示す。 行列計算ユニットを含む例示的なアーキテクチャを示す。 シストリックアレイ内のセルの例示的なアーキテクチャを示す。 ベクトル計算ユニットの例示的なアーキテクチャを示す。 正規化回路の例示的なアーキテクチャを示す。 サンプル活性化値を有する正規化回路の別の例示的なアーキテクチャを示す。 正規化回路内の正規化ユニットの例示的なアーキテクチャを示す。 プール回路の例示的なアーキテクチャを示す。
さまざまな図における同様の参照番号および名称は、同様の要素を示す。
詳細な説明
複数の層を有するニューラルネットワークは、推測値の計算に使用することができる。たとえば、入力を前提として、ニューラルネットワークは当該入力について推測値を計算することができる。ニューラルネットワークは、ニューラルネットワークの各層を介して入力を処理することによってこの推測値を計算する。特に、ニューラルネットワークの層は、各々が重みのそれぞれのセットを有する状態で、ある順序で配置される。各層は、入力を受け取って、当該層の重みのセットに従って入力を処理して、出力を生成する。
したがって、受け取った入力から推測値を計算するために、ニューラルネットワークは、当該入力を受け取って、当該順序でニューラルネットワーク層の各々を介してそれを処
理して、推測値を生成し、1つのニューラルネットワーク層からの出力は、次のニューラルネットワーク層への入力として提供される。ニューラルネットワーク層へのデータ入力、たとえばニューラルネットワークへの入力または当該順序内の当該層の下方にある層の、ニューラルネットワーク層への出力、は、当該層への活性化入力と称することができる。
いくつかの実現例では、ニューラルネットワークの層は、有向グラフで配置される。すなわち、任意の特定の層が複数の入力、複数の出力、またはそれら両方を受け取ることができる。また、ニューラルネットワークの層は、層の出力を前の層への入力として送り返すことができるように配置することもできる。
いくつかのニューラルネットワークは、1つ以上のニューラルネットワーク層からの出力を正規化して、後続のニューラルネットワーク層への入力として使用される正規化値を生成する。出力を正規化することは、正規化値が後続のニューラルネットワーク層の入力のための見込みドメイン内にとどまることを確実なものとする助けとなり得る。これにより、推測値算出の際のエラーを減少させることができる。
いくつかのニューラルネットワークは、1つ以上のニューラルネットワーク層からの出力をプールして、後続のニューラルネットワーク層への入力として使用されるプール値を生成する。いくつかの実現例では、ニューラルネットワークは、出力グループの最大値または平均値を求めて当該最大値または平均値を当該グループのプール出力として使用することによって、出力グループをプールする。出力をプールすることにより、何らかの空間不変性を維持することができ、そのため、さまざまな構成で配置された出力は、同一の推測値を有するように処理されることができる。また、出力をプールすることにより、プール前の出力の所望の特性を維持しながら、後続のニューラルネットワーク層で受け取られる入力の次元性を減少させることができ、ニューラルネットワークによって生成される推測値の質を著しく犠牲にすることなく効率を向上させることができる。
本明細書では、1つ以上のニューラルネットワーク層の出力に関して正規化、プール、またはそれら両方を任意に実行する特定目的ハードウェア回路について説明する。
図1は、特定目的ハードウェア回路を使用してニューラルネットワークの所与の層について計算を実行するための例示的なプロセス100のフロー図である。便宜上、方法100は、方法100を実行する1つ以上の回路を有するシステムに関連して説明する。方法100は、受け取った入力から推測値を計算するためにニューラルネットワークの各層について実行され得る。
当該システムは、所与の層についての重み入力の複数のセットを受け取り(ステップ102)、所与の層についての活性化入力の複数のセットを受け取る(ステップ104)。重み入力の複数のセットおよび活性化入力の複数のセットは、それぞれ特定目的ハードウェア回路のダイナミックメモリおよび統合バッファから受け取られることができる。いくつかの実現例では、重み入力の複数のセットも活性化入力の複数のセットも統合バッファから受け取られてもよい。
当該システムは、特定目的ハードウェア回路の行列乗算ユニットを使用して重み入力および活性化入力から累積値を生成する(ステップ106)。いくつかの実現例では、累積値は、重み入力の複数のセットと活性化入力の複数のセットとのドット積である。すなわち、当該層内の全ての重みのサブセットである重みの1つのセットについて、当該システムは、各重み入力と各活性化入力とを掛け合わせ、その積を合計して、累積値を形成することができる。次いで、当該システムは、重みの他のセットと活性化入力の他の複数のセ
ットとのドット積を計算することができる。
当該システムは、特定目的ハードウェア回路のベクトル計算ユニットを使用して累積値から層出力を生成することができる(ステップ108)。いくつかの実現例では、ベクトル計算ユニットは、活性化関数を累積値に適用し、これについては図5を参照して以下でさらに説明する。層の出力は、ニューラルネットワーク内の後続の層への入力として使用できるように統合バッファに格納されてもよく、または推測値を求めることに使用されてもよい。当該システムは、受け取った入力をニューラルネットワークの各層を介して処理して受け取った入力について推測値を生成すると、ニューラルネットワークを処理することを終了する。
図2は、ニューラルネットワーク計算を実行するための例示的な特定目的集積回路200を示す。システム200は、ホストインターフェイス202を含む。ホストインターフェイス202は、ニューラルネットワーク計算のためのパラメータを含む命令を受け取ることができる。パラメータは、何個の層を処理すべきであるか、層の各層についての重み入力の対応する複数のセット、活性化入力の最初のセット、すなわち推測値を計算するためのニューラルネットワークへの入力、各層の対応する入力および出力サイズ、ニューラルネットワーク計算のためのストライド値、および処理すべき層のタイプ、たとえば畳み込み層または完全に接続された層、のうちの1つ以上を含み得る。
ホストインターフェイス202は、シーケンサ206に命令を送ることができ、シーケンサ206は、当該命令を、ニューラルネットワーク計算を実行するように回路を制御する低レベル制御信号に変換する。いくつかの実現例では、当該制御信号は、回路内のデータフロー、たとえば重み入力の複数のセットおよび活性化入力の複数のセットがどのように回路内を流れるか、を調整する。シーケンサ206は、統合バッファ208、行列計算ユニット212およびベクトル計算ユニット214に当該制御信号を送ることができる。いくつかの実現例では、シーケンサ206は、ダイレクトメモリアクセスエンジン204およびダイナミックメモリ210にも制御信号を送る。いくつかの実現例では、シーケンサ206は、制御信号を生成するプロセッサである。シーケンサ206は、当該制御信号のタイミングを使用して、回路200の各コンポーネントに当該制御信号を適切なときに送ることができる。いくつかの他の実現例では、ホストインターフェイス202は、外部プロセッサから制御信号を渡す。
ホストインターフェイス202は、ダイレクトメモリアクセスエンジン204に重み入力の複数のセットおよび活性化入力の最初のセットを送ることができる。ダイレクトメモリアクセスエンジン204は、活性化入力の複数のセットを統合バッファ208に格納することができる。いくつかの実現例では、ダイレクトメモリアクセスは、メモリユニットであり得るダイナミックメモリ210に重みの複数のセットを格納する。いくつかの実現例では、ダイナミックメモリは、回路から離れて位置している。
統合バッファ208は、メモリバッファである。統合バッファ208は、ダイレクトメモリアクセスエンジン204からの活性化入力のセットおよびベクトル計算ユニット214の出力を格納することに使用できる。ベクトル計算ユニットについては、図5を参照して以下でさらに詳細に説明する。ダイレクトメモリアクセスエンジン204は、ベクトル計算ユニット214の出力を統合バッファ208から読み出すこともできる。
ダイナミックメモリ210および統合バッファ208は、行列計算ユニット212に重み入力の複数のセットおよび活性化入力の複数のセットをそれぞれ送ることができる。いくつかの実現例では、行列計算ユニット212は、二次元シストリックアレイである。行列計算ユニット212は、一次元シストリックアレイであってもよく、または数学的演算
、たとえば乗算および加算を実行することができる他の回路であってもよい。いくつかの実現例では、行列計算ユニット212は、汎用行列プロセッサである。
行列計算ユニット212は、重み入力および活性化入力を処理して、ベクトル計算ユニット214に出力のベクトルを提供することができる。いくつかの実現例では、行列計算ユニットは、統合バッファ208に出力のベクトルを送り、統合バッファ208は、ベクトル計算ユニット214に出力のベクトルを送る。ベクトル計算ユニットは、出力のベクトルを処理して、処理された出力のベクトルを統合バッファ208に格納することができる。処理された出力のベクトルは、たとえばニューラルネットワーク内の後続の層で使用できるように、行列計算ユニット212への活性化入力として使用することができる。行列計算ユニット212およびベクトル計算ユニット214については、図3および図5をそれぞれ参照して以下でさらに詳細に説明する。
図3は、行列計算ユニットを含む例示的なアーキテクチャ300を示す。行列計算ユニットは、二次元シストリックアレイ306である。アレイ306は、複数のセル304を含む。いくつかの実現例では、シストリックアレイ306の第1の次元320はセルの列に対応し、シストリックアレイ306の第2の次元322はセルの行に対応する。シストリックアレイは、列よりも多くの行を有していてもよく、行よりも多くの列を有していてもよく、または列と行とが同数であってもよい。
示されている例では、値ローダ302がアレイ306の行に活性化入力を送り、重みフェッチャインターフェイス308がアレイ306の列に重み入力を送る。しかし、いくつかの他の実現例では、活性化入力がアレイ306の列に送信され、重み入力がアレイ306の行に送信される。
値ローダ302は、統合バッファ、たとえば図2の統合バッファ208から活性化入力を受け取ることができる。各々の値ローダは、対応する活性化入力をアレイ306の個別の最も左側のセルに送ることができる。たとえば、値ローダ312は、セル314に活性化入力を送ることができる。値ローダは、隣接する値ローダにも活性化入力を送ることができ、活性化入力は、アレイ306の別の最も左側のセルで使用することができる。これにより、アレイ306の別の特定のセルで使用できるように活性化入力をシフトすることができる。
重みフェッチャインターフェイス308は、メモリユニット、たとえば図2のダイナミックメモリ210から重み入力を受け取ることができる。重みフェッチャインターフェイス308は、対応する重み入力をアレイ306の個別の最上部のセルに送ることができる。たとえば、重みフェッチャインターフェイス308は、セル314および316に重み入力を送ることができる。
いくつかの実現例では、ホストインターフェイス、たとえば図2のホストインターフェイス202は、アレイ306全体にわたって1つの次元に沿って、たとえば右側まで活性化入力をシフトし、アレイ306全体にわたって別の次元に沿って、たとえば下部まで重み入力をシフトする。たとえば、1つのクロックサイクルで、セル314における活性化入力は、セル314の右側のセル316における活性化レジスタにシフトすることができる。同様に、セル316における重み入力は、セル314の下方のセル318における重みレジスタにシフトすることができる。
各クロックサイクルで、各セルは、所与の重み入力、所与の活性化入力および隣接するセルからの累積出力を処理して、累積出力を生成することができる。累積出力は、所与の重み入力と同一の次元に沿って隣接するセルにも渡されることができる。個々のセルにつ
いては、図4を参照して以下でさらに説明する。
累積出力は、重み入力と同一の列に沿って、たとえばアレイ306内の列の下部の方に渡されることができる。いくつかの実現例では、アレイ306は、行よりも多くの活性化入力を有する層で算出を実行するときに各列から各累積出力を格納して累積するアキュムレータユニット310を各列の下部に含み得る。いくつかの実現例では、各アキュムレータユニットは、複数の並列累積値を格納する。これについては図6を参照して以下でさらに説明する。アキュムレータユニット310は、各累積出力を累積して、最終的な累積値を生成することができる。最終的な累積値は、ベクトル計算ユニット、たとえば図5のベクトル計算ユニット502に送信されることができる。いくつかの他の実現例では、アキュムレータユニット310は、行よりも少ない活性化入力を有する層を処理するときにいかなる累積も実行することなく累積値をベクトル計算ユニットに渡す。
図4は、シストリックアレイ、たとえば図3のシストリックアレイ306内のセルの例示的なアーキテクチャ400を示す。
セルは、活性化入力を格納する活性化レジスタ406を含み得る。活性化レジスタは、シストリックアレイ内のセルの位置に応じて、左側の隣接するセル、すなわち所与のセルの左側に位置する隣接するセルから、または統合バッファから活性化入力を受け取ることができる。セルは、重み入力を格納する重みレジスタ402を含み得る。重み入力は、シストリックアレイ内のセルの位置に応じて、上側の隣接するセルから、または重みフェッチャインターフェイスから送信されることができる。セルは、合計レジスタ404も含み得る。合計レジスタ404は、上側の隣接するセルからの累積値を格納することができる。乗算回路408は、重みレジスタ402からの重み入力と活性化レジスタ406からの活性化入力とを掛け合わせることに使用できる。乗算回路408は、その積を総和回路410に出力することができる。
総和回路は、その積と合計レジスタ404からの累積値とを合計して、新たな累積値を生成することができる。次いで、総和回路410は、下側の隣接するセルに位置する別の合計レジスタに当該新たな累積値を送ることができる。当該新たな累積値は、下側の隣接するセルでの合計のためのオペランドとして使用することができる。
また、セルは、処理のために重み入力および活性化入力を隣接するセルにシフトさせることもできる。たとえば、重みレジスタ402は、下側の隣接するセルにおける別の重みレジスタに重み入力を送ることができる。活性化レジスタ406は、右側の隣接するセルにおける別の活性化レジスタに活性化入力を送ることができる。したがって、重み入力も活性化入力も、後続のクロックサイクルでアレイ内の他のセルによって再使用することができる。
いくつかの実現例では、セルは制御レジスタも含む。制御レジスタは、セルが隣接するセルに重み入力をシフトすべきであるか活性化入力をシフトすべきであるかを判断する制御信号を格納することができる。いくつかの実現例では、重み入力または活性化入力のシフトは、1つ以上のクロックサイクルを要する。制御信号は、活性化入力を乗算回路408に送信するか重み入力を乗算回路408に送信するかを判断することもでき、または、乗算回路408が活性化入力および重み入力上で動作するか否かを判断することもできる。制御信号も、たとえばワイヤを使用して1つ以上の隣接するセルに渡されることができる。
いくつかの実現例では、重みは、重みパスレジスタ412に事前にシフトされる。重みパスレジスタ412は、たとえば上側の隣接するセルから重み入力を受け取って、制御信
号に基づいて重み入力を重みレジスタ402に送信することができる。重みレジスタ402は、たとえば活性化レジスタ406を介して複数のクロックサイクルにわたって活性化入力がセルに送信されるときに重み入力がセル内にとどまって隣接するセルに送信されないように、重み入力を静的に格納することができる。したがって、重み入力は、たとえば乗算回路408を使用して複数の活性化入力に適用可能であり、それぞれの累積値は、隣接するセルに送信されることができる。
図5は、ベクトル計算ユニット502の例示的なアーキテクチャ500を示す。ベクトル計算ユニット502は、行列計算ユニット、たとえば図2を参照して説明した行列計算ユニットから累積値のベクトルを受け取ることができる。
ベクトル計算ユニット502は、活性化ユニット404において累積値のベクトルを処理することができる。いくつかの実現例では、活性化ユニットは、非線形関数を各々の累積値に適用して活性化値を生成する回路を含む。たとえば、非線形関数はtanh(x)であってもよく、xは累積値である。
任意に、ベクトル計算ユニット502は、活性化値から正規化値を生成する正規化回路506において活性化値を正規化することができる。
また、任意に、ベクトル計算ユニット502は、プール回路508を使用して、活性化値または正規化値のいずれかの値をプールすることができる。プール回路508は、集約関数を正規化値のうちの1つ以上に適用して、プール値を生成することができる。いくつかの実現例では、集約関数は、正規化値または正規化値のサブセットの最大値、最小値または平均値を返す関数である。
制御信号510は、たとえば図2のシーケンサ206によって送信されることができ、どのようにベクトル計算ユニット502が累積値のベクトルを処理するかを調整することができる。すなわち、制御信号510は、活性化値がプールされるか、正規化されるか、またはプールされて正規化されるかを調整することができる。また、制御信号510は、活性化関数、正規化関数またはプール関数、ならびに、正規化およびプールのための他のパラメータ、たとえばストライド値を指定することもできる。
ベクトル計算ユニット502は、値、たとえば活性化値、正規化値またはプール値を統合バッファ、たとえば図2の統合バッファ208に送ることができる。
いくつかの実現例では、プールユニット508が正規化回路506の代わりに活性化値を受け取って、プール値を統合バッファに格納する。いくつかの実現例では、プールユニット508は、統合バッファに格納される正規化値を生成する正規化回路506にプール値を送る。
図6は、正規化回路、たとえば図5の正規化回路506の例示的なアーキテクチャ600を示す。正規化回路は、各クロックサイクルについて、活性化回路602、たとえば図5の活性化回路504から活性化値のベクトルを受け取ることができる。システムパラメータの値に応じて、正規化回路は、活性化値のベクトルをプール回路に渡す、すなわち活性化値を正規化しないか、または活性化値のベクトルから正規化値のベクトルを生成するかのいずれかを行うことができる。たとえば、システムパラメータ(たとえば、ユーザによって提供される)が活性化値のベクトルをプール回路に渡すように回路に指示する場合、たとえばユーザが値を正規化したくない場合には、システムパラメータは、値を直接プール回路に渡して正規化回路をスキップするマルチプレクサへの信号であってもよい。
いくつかの実現例では、活性化値のベクトルは、重み入力のセットに基づいて活性化入力から生成された累積値に活性化関数を適用することによって生成される活性化値を含む。
いくつかの他の実現例では、重み入力のセットについての活性化値は、活性化入力および重み入力をシフトするときに生じる遅延のために、活性化値の複数のベクトル全体にわたって互い違いに配置される。たとえば、行列計算ユニットは、カーネルAからの活性化入力のセットおよび重み入力のセットから累積値A~Aを生成することができ、カーネルBからの活性化入力のセットおよび重み入力のセットから累積値B~Bを生成することができ、カーネルCからの活性化入力のセットおよび重み入力のセットから累積値C~Cを生成することができる。累積値A~AおよびB~Bは、後続のクロックサイクルで生成することができる。なぜなら、図4を参照して上記したように、対応する累積値が計算される前に重み入力および活性化入力が行列計算ユニット全体にわたってシフトされるからである。Aはクロックサイクル0で生成することができ、AおよびBはクロックサイクル1で生成することができ、A,BおよびCはクロックサイクル2で生成することができ、A,Bn-1およびCn-2はクロックサイクルnで生成することができる、などである。行列計算ユニットは、クロックサイクルXについてのAおよびBを含む累積値のベクトルと、クロックサイクルX+1についてのAおよびBを含む累積値の別のベクトルとを生成することができる。したがって、所与のカーネルの累積値、たとえばカーネルAからのA~Aは、後続のクロックサイクルにおける累積値の複数のベクトル全体にわたって互い違いの態様で分散させることができる。
その結果、累積値の複数のベクトルは、たとえば図5の活性化回路504による処理後は活性化値の複数のベクトルになることができ、活性化値の複数のベクトルの各々は、個別の正規化レジスタ列に送られることができる。特に、活性化回路602は、活性化値のベクトルからの各活性化値を個別の正規化レジスタ列604~610に送ることができる。特に、正規化レジスタ616~622の各々は、それぞれの活性化値を受け取ることができる。正規化レジスタ列は、直列に接続された正規化レジスタのセットを含み得る。すなわち、列内の第1の正規化レジスタの出力は、列内の第2の正規化レジスタの入力として送られることができる。いくつかの実現例では、各正規化レジスタは、活性化値を格納する。いくつかの他の実現例では、各正規化レジスタは、活性化値の二乗も格納する。いくつかの実現例では、正規化回路は、活性化回路またはシストリックアレイにある列と同数の正規化レジスタ列を有する。
いくつかの実現例では、活性化値のベクトルを正規化レジスタ列に提供する前に、回路はベクトルを二乗ユニットに送る。二乗ユニットは、正規化値を計算する際に使用できるように各活性化値の二乗を算出することができ、これについては以下でさらに説明する。二乗ユニットは、二乗活性化値のベクトル、すなわち活性化値の各ベクトルにつき1つ、を生成して、二乗活性化値のベクトルを正規化レジスタ列に送ることができる。いくつかの他の実現例では、二乗ユニットは、活性化値のベクトルも二乗活性化値のベクトルも正規化レジスタ列に送る。
いくつかの実現例では、正規化回路は、正規化半径パラメータに基づいて、互い違いに配置されたグループ、たとえば互い違いに配置されたグループ624および628を形成する。正規化半径パラメータは、正規化値を算出する際に使用すべき周囲の正規化レジスタからの出力の数を示し得る。出力の数は、正規化半径パラメータの2倍と同等であり得る。例示として、互い違いに配置されたグループ624および628は、1という正規化半径パラメータから形成される。互い違いに配置されたグループ624は、正規化レジスタ632および618を含み、ゼロレジスタ636も含む。ゼロレジスタ636は、0という値を常に出力することができ、正規化回路の端縁で正規化値を算出する際にバッファとして機能することができる。ゼロレジスタ635および638は、ゼロレジスタの列612に含まれ得る。互い違いに配置されたグループ内の値の一例については、図7を参照して以下でさらに説明する。
いくつかの実現例では、正規化ユニット、たとえば正規化ユニット626,630は、互い違いに配置されたグループからの出力を使用して、正規化値の計算に使用される対応する構成要素、たとえば互い違いに配置されたグループのレジスタ内の活性化値の二乗を生成する。たとえば、構成要素を使用して、全ての活性化値の二乗和を生成することができる。正規化ユニットは、当該二乗和を使用して正規化値を計算することができ、これについては以下でさらに説明する。いくつかの実現例では、互い違いに配置された各グループについて対応する正規化ユニットがある。
正規化回路は、互い違いに配置されたグループに基づいて、活性化値についての正規化値を生成することができる。たとえば、正規化レジスタ632に格納された活性化値についての正規化値は、正規化ユニット626に格納されることができる。特に、互い違いに配置されたグループ624に基づいて、正規化回路は、たとえば総和回路を使用して、互い違いに配置されたグループ624内の正規化レジスタによって生成される全ての二乗の和を計算することができる。当該和は、正規化ユニット626に格納されることができる。当該和は、活性化値に対応する正規化値であり得る。正規化回路は、正規化レジスタ634,640とゼロレジスタ620とを含む互い違いに配置されたグループ628について別の対応する正規化値を生成し続けることができ、対応する正規化値は、正規化ユニット630に格納されることができる。
正規化回路は、たとえば正規化ユニットに格納され得る生成された正規化値から正規化値のベクトルを形成することができ、ニューラルネットワークパラメータによって規定される場合には正規化値のベクトルをプール回路に送ることができ、または統合バッファに送ることができる。
図7は、正規化レジスタ内のサンプル活性化値を有する正規化回路の別の例示的なアーキテクチャ700を示す。互い違いに配置されたグループ724および728に示されるように、正規化半径パラメータは1であり得る。特に、互い違いに配置されたグループ724は、正規化レジスタ732および718と、ゼロレジスタ736とを含む。互い違いに配置されたグループ728は、ゼロレジスタ738と、正規化レジスタ734および740とを含む。
正規化レジスタ716~720,732,734および740は、たとえばシストリックアレイからの列に対応する活性化値を格納することができる。正規化レジスタ740の表記AX,Y、たとえばA0,0は、クロックサイクルYにおける列Xに対応する活性化値を示す。
図に示されるように、活性化値は互い違いの態様でロードされる。たとえば、クロックサイクル0では、活性化値A0,0、A1,0およびA2,0を計算することができるが、正規化回路は3つのクロックサイクルにわたって3個の活性化値をロードする。いくつかの実現例では、活性化値は互い違いでない態様でロードされる。すなわち、A0,0、A1,0およびA2,0が1つのクロックサイクルにおいてロードされてもよい。
N0は、正規化レジスタ726に格納されたA0,1のための正規化値であり得る。N0は、図8を参照して以下で説明するA0,1およびA1,1および(ゼロレジスタ736からの)0の二乗和に基づいて算出することができる。同様に、N1は、A0,0およびA1,0および(レジスタ720からの)A2,0の二乗和に基づいて算出されるA0
,0のための正規化値であり得る。
正規化回路は、1という半径を使用して各活性化値について正規化値を計算することができる。他の半径も可能である。正規化回路が正規化算出に必要な活性化値をまだロードしていなければ、必要な活性化値がロードされるまで、正規化回路は活性化値を後続の正規化レジスタにシフトすることができる。たとえば、正規化レジスタ716に格納された活性化値A0,2のための正規化値を算出するために、1という半径に鑑みて活性化値A1,2が必要である。後続のクロックサイクルで、活性化値A1,2を正規化レジスタ718にロードすることができ、この時点で、正規化回路は活性化値A0,2のための正規化値を計算することができる。
図8は、正規化回路内の正規化ユニットの例示的なアーキテクチャ800を示す。正規化ユニットは、活性化値802を受け取ることができる。いくつかの実現例では、たとえば活性化値802が誤った位置にあると回路が判断すると、すなわち正規化算出のために活性化値を後続の正規化ユニットに格納する必要があると回路が判断すると、活性化値802がマルチプレクサ814を介して後続の正規化ユニットに渡される。正規化回路は、特定の出力、たとえば正規化値または影響を受けない活性化値のいずれか、を通過するように制御信号をマルチプレクサ814に送ることができる。
いくつかの実現例では、活性化値が二乗回路804に渡される。二乗回路804は、二乗活性化値808を生成する、すなわち活性化値を2のべき乗に引き上げることができる。二乗回路804は、二乗活性化値808を隣接する正規化ユニット、たとえば正規化ユニットの互い違いに配置された同一のグループ内の他の正規化ユニットに送ることができる。
いくつかの実現例では、図6を参照して上記したように、受け取った活性化値は、正規化レジスタ列に提供される前に既に二乗されている。
また、正規化ユニットは、総和回路806において、隣接する正規化ユニットから二乗活性化値810を受け取ることができる。総和回路806は、二乗活性化値808と受け取った二乗活性化値810との和を生成することができる。
当該和は、メモリユニット812に送られることができる。いくつかの実現例では、メモリユニット812は、ルックアップテーブルと、補間ユニットとを含む。正規化ユニットは、当該和の一部、たとえば当該和の高ビットのセットを、システムパラメータによって提供される1つ以上の係数を調べるためのアドレスとして使用することができる。メモリおよび補間ユニット812は、当該係数および二乗活性化値の和に基づいて正規化スケーリングファクタを生成することができる。当該正規化スケーリングファクタは、乗算ユニット816に送られることができる。
いくつかの実現例では、二乗和は12ビット値である。正規化ユニットは、二乗和の上位4ビットをルックアップテーブルへのインデックスとして使用することができる。上位4ビットを使用して、たとえばユーザによって指定される係数にルックアップテーブルからアクセスすることができる。いくつかの実現例では、上位4ビットは、2個の12ビット係数:AおよびBにアクセスする。下位8ビットは、正規化スケーリングファクタを算出するために式中で使用されるデルタであり得る。例示的な式は、スケーリングファクタ=minimum (1048575, [A * delta + B * 256 + 2^7]) >> 8で表わされ、式中、minimumは2個の引数を処理して、最小値を有する引数を返す。
正規化ユニットは、乗算ユニット816を使用して、正規化スケーリングファクタと活
性化値802とを掛け合わせて、正規化値を生成することができる。いくつかの実現例では、正規化値は、次いで、プール回路、たとえば図5のプール回路508に送られる。
図9は、プール回路の例示的なアーキテクチャ900を示す。プール回路は、集約関数を1つ以上の正規化値または活性化値に適用して、プール値を生成することができる。例示として、アーキテクチャ900は、活性化値または正規化値の4×4セットのプールを実行することができる。図9に示されているプールは正方形領域、すなわち4×4を有するが、長方形領域も可能である。たとえば、領域がn×mというウィンドウを有する場合には、アーキテクチャ900はn*m個のレジスタ、すなわちn個の列とm個の行とを有し得る。
プール回路は、正規化値のベクトルから、たとえば図5の正規化回路506から、要素のシーケンスを受け取ることができる。たとえば、当該シーケンスは、画像の8×8部分の画素を表わし得て、プール回路アーキテクチャ900は、8×8部分の4×4サブセットから値をプールすることができる。いくつかの実現例では、正規化値は、プール回路に結合された正規化回路によって計算されると、当該シーケンスに追加される。いくつかの実現例では、ニューラルネットワークプロセッサは、複数の並列プール回路を含む。各クロックサイクルにわたって、各プール回路は、正規化回路からの正規化値のベクトルからそれぞれの要素を受け取ることができる。各プール回路は、正規化回路から受け取った要素を、ラスタ順序で到達する二次元画像として解釈することができる。
プール回路は、一連のレジスタおよびメモリユニットを含み得る。各レジスタは、レジスタ内に格納された値全体にわたって集約関数を適用する集約回路906に出力を送ることができる。集約関数は、値のセットから最小値、最大値または平均値を返すことができる。
第1の正規化値は、レジスタ902に送られてレジスタ902内に格納されることができる。後続のクロックサイクルで、第1の正規化値は、後続のレジスタ908にシフトしてメモリ904に格納されることができ、第2の正規化値がレジスタ902に送られてレジスタ902内に格納されることができる。
4つのクロックサイクル後、4個の正規化値が第1の4個のレジスタ902,908~912内に格納される。いくつかの実現例では、メモリユニット904は、先入れ先出し(first-in-first-out:FIFO)下で動作する。各メモリユニットは、8個までの正規化値を格納することができる。メモリユニット904は、完全な画素列を収容した後に、正規化値をレジスタ914に送ることができる。
任意の所与の時点で、集約回路906は、各レジスタからの正規化値にアクセスすることができる。レジスタ内の正規化値は、画像の4×4部分の正規化値を表わすはずである。
プール回路は、集約回路906を使用してアクセスされた正規化値、たとえば最大正規化値、最小正規化値または平均正規化値からプール値を生成することができる。プール値は、統合バッファ、たとえば図2の統合バッファ208に送られることができる。
第1のプール値を生成した後、プール回路は、新たな正規化値をレジスタに格納して集約回路906によってプールすることができるように各レジスタを介して正規化値をシフトすることによってプール値を生成し続けることができる。たとえば、アーキテクチャ900では、プール回路は、4つ以上のクロックサイクルにわたって正規化値をシフトし、それによって、メモリユニット内の正規化値をレジスタにシフトすることができる。いく
つかの実現例では、プール回路は、新たな正規化値が最後の最上部のレジスタ、たとえばレジスタ916に格納されるまで新たな正規化値をシフトする。
次いで、集約回路906は、レジスタに格納された新たな正規化値をプールすることができる。
いくつかの実現例では、プール回路は、正規化値のベクトルを受け取る代わりに、図5を参照して上記したように活性化値のベクトルを受け取る。
本明細書に記載されている主題および機能動作の実施形態は、デジタル電子回路で実現されてもよく、有形に実施されたコンピュータソフトウェアもしくはファームウェアで実現されてもよく、本明細書に開示されている構造およびそれらの構造的等価物を含むコンピュータハードウェアで実現されてもよく、またはそれらのうちの1つ以上の組み合わせで実現されてもよい。本明細書に記載されている主題の実施形態は、1つ以上のコンピュータプログラムとして実現されてもよく、すなわちデータ処理装置による実行またはデータ処理装置の動作の制御のために有形の非一時的なプログラムキャリアに符号化されたコンピュータプログラム命令の1つ以上のモジュールとして実現されてもよい。代替的にまたは加えて、プログラム命令は、人工的に生成された伝搬信号、たとえば機械によって生成された電気信号、光信号または電磁信号、に符号化されてもよく、当該信号は、情報を符号化して好適な受信機装置に送信してデータ処理装置によって実行するように生成される。コンピュータ記憶媒体は、機械読取可能な記憶装置であってもよく、機械読取可能な記憶基板であってもよく、ランダムもしくはシリアルアクセスメモリデバイスであってもよく、またはそれらのうちの1つ以上の組み合わせであってもよい。
「データ処理装置」という用語は、一例としてプログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するための全ての種類の装置、デバイスおよび機械を包含する。当該装置は、特定目的論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含み得る。当該装置は、ハードウェアに加えて、対象のコンピュータプログラムのための実行環境を作成するコード、たとえばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上の組み合わせを構成するコード、も含み得る。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと称してもよく、またはそのようなものとして記載されてもよい)コンピュータプログラムは、コンパイラ型もしくはインタープリタ型言語、または宣言型もしくは手続き型言語を含むいずれかの形態のプログラミング言語で書かれてもよく、スタンドアロンのプログラム、または計算環境での使用に適したモジュール、コンポーネント、サブルーチンもしくは他のユニットを含むいずれかの形態でデプロイすることができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得るが、そうでなくてもよい。プログラムは、他のプログラムもしくはデータ、たとえばマークアップ言語ドキュメントに格納された1つ以上のスクリプト、を保持するファイルの一部に格納されてもよく、対象のプログラムに専用の単一のファイルに格納されてもよく、または複数の協調的ファイル、たとえば1つ以上のモジュール、サブプログラムもしくはコードの一部を格納するファイル、に格納されてもよい。コンピュータプログラムは、1つのコンピュータで実行されるようにデプロイされてもよく、または、一箇所に位置するかもしくは複数の箇所に分散されて通信ネットワークによって相互接続された複数のコンピュータで実行されるようにデプロイされてもよい。
本明細書に記載されているプロセスおよび論理フローは、1つ以上のプログラム可能な
コンピュータによって実行されてもよく、当該1つ以上のプログラム可能なコンピュータは、入力データ上で動作して出力を生成することによって機能を実行するように1つ以上のコンピュータプログラムを実行する。また、当該プロセスおよび論理フローは、特定目的論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行されてもよく、装置は、特定目的論理回路、たとえばFPGAまたはASICとして実現されてもよい。
コンピュータプログラムの実行に適したコンピュータは、一例として、汎用マイクロプロセッサもしくは特定目的マイクロプロセッサ、またはそれら両方、またはその他の種類の中央処理装置に基づいていてもよい。一般に、中央処理装置は、リードオンリメモリまたはランダムアクセスメモリまたはそれら両方から命令およびデータを受け取る。コンピュータの必須の要素は、命令を実施または実行するための中央処理装置と、命令およびデータを格納するための1つ以上のメモリデバイスとである。一般に、コンピュータは、データを格納するための1つ以上の大容量記憶装置、たとえば磁気ディスク、光磁気ディスクもしくは光ディスクも含み、または、当該1つ以上の大容量記憶装置からデータを受信したり、当該1つ以上の大容量記憶装置にデータを送信したり、もしくは当該1つ以上の大容量記憶装置との間でデータを送受信したりするように動作可能に結合される。しかし、コンピュータはこのような装置を有していなくてもよい。さらに、コンピュータは、別のデバイス、たとえばいくつか例を挙げると携帯電話、パーソナルデジタルアシスタント(personal digital assistant:PDA)、モバイルオーディオプレーヤもしくはビデオプレーヤ、ゲーム機、グローバルポジショニングシステム(Global Positioning System
:GPS)受信機で実施されてもよく、または携帯型記憶装置、たとえばユニバーサルシリアルバス(universal serial bus:USB)フラッシュドライブで実施されてもよい。
コンピュータプログラム命令およびデータの格納に適したコンピュータ読取可能な媒体は、全ての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、一例として、半導体メモリデバイス、たとえばEPROM、EEPROMおよびフラッシュメモリデバイス;磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク;光磁気ディスク;ならびにCD ROMおよびDVD-ROMディスクを含む。プロセッサおよびメモリは、特定目的論理回路によって補完されてもよく、または特定目的論理回路に組み込まれてもよい。
ユーザとの対話を要求するために、本明細書に記載されている主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、ユーザが入力をコンピュータに送ることができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータで実現されてもよい。ユーザとの対話を要求するために他の種類のデバイスも使用してもよい。たとえば、ユーザに提供されるフィードバックは、いずれかの形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバックまたは触覚フィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触覚入力を含むいずれかの形態で受け取られてもよい。また、コンピュータは、ユーザが使用するデバイスにドキュメントを送ったり当該デバイスからドキュメントを受け取ったりすることによってユーザと対話してもよく、たとえばウェブブラウザから受け取った要求に応答してユーザのクライアントデバイスのウェブブラウザにウェブページを送ることによってユーザと対話してもよい。
本明細書に記載されている主題の実施形態は、バックエンドコンポーネント、たとえばデータサーバを含む計算システムで実現されてもよく、またはミドルウェアコンポーネント、たとえばアプリケーションサーバを含む計算システムで実現されてもよく、またはフロントエンドコンポーネント、たとえばユーザが本明細書に記載されている主題の実現例
と対話できるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを含む計算システムで実現されてもよく、または1つ以上のこのようなバックエンドコンポーネント、ミドルウェアコンポーネントもしくはフロントエンドコンポーネントのいずれかの組み合わせを含む計算システムで実現されてもよい。当該システムのコンポーネント同士は、デジタルデータ通信のいずれかの形態または媒体、たとえば通信ネットワークによって相互接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(local area network:LAN)および広域ネットワーク(wide area network:WAN)、たとえばインターネットが挙げられる。
計算システムは、クライアントとサーバとを含んでいてもよい。クライアントおよびサーバは、一般に互いに離れており、通常は通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータ上で動作して互いに対してクライアント-サーバ関係を有するコンピュータプログラムによって生じる。
本明細書は、多くの具体的な実現例の詳細を含んでいるが、これらは、発明の範囲またはクレームされ得るものの範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施形態に特有であろう特徴を説明するものとして解釈されるべきである。別々の実施形態の文脈で本明細書に記載されている特定の特徴は、組み合わせて単一の実施形態で実現されてもよい。逆に、単一の実施形態の文脈で記載されているさまざまな特徴は、複数の実施形態で別々に、またはいずれかの好適な部分的組み合わせで実現されてもよい。さらに、特徴は特定の組み合わせで動作するものとして上記され、当初はそのようなものとしてクレームされさえし得るが、クレームされている組み合わせからの1つ以上の特徴は、場合によっては当該組み合わせから削除されてもよく、クレームされている組み合わせは、部分的組み合わせまたは部分的組み合わせの変形例に向けられてもよい。
同様に、動作は特定の順序で図面に示されているが、これは、望ましい結果を達成するために、示されている特定の順序またはシーケンシャルな順序でこのような動作を実行しなければならないものとして理解されるべきではなく、または全ての示されている動作を実行しなければならないものとして理解されるべきではない。特定の状況では、マルチタスクおよび並列処理が有利であるかもしれない。さらに、上記の実施形態におけるさまざまなシステムモジュールおよびコンポーネントの分離は、全ての実施形態でこのような分離が必要であるものとして理解されるべきではなく、記載されているプログラムコンポーネントおよびシステムは一般に単一のソフトウェア製品に実装されるかまたは複数のソフトウェア製品にパッケージングされ得るということが理解されるべきである。
主題の特定の実施形態について説明してきた。他の実施形態も以下の特許請求の範囲の範囲内である。たとえば、特許請求の範囲に記載されている動作は、異なる順序で実行されてもよく、依然として望ましい結果を達成することができる。一例として、添付の図面に示されているプロセスは、望ましい結果を達成するために、示されている特定の順序またはシーケンシャルな順序を必ずしも必要としない。特定の実現例では、マルチタスクおよび並列処理が有利であるかもしれない。

Claims (17)

  1. ニューラルネットワーク計算を実行するための回路であって、
    ベクトル計算ユニットを備え、前記ベクトル計算ユニットは、
    プール回路を含み、前記プール回路は、
    ニューラルネットワーク層の計算出力である値のセットを、前記ベクトル計算ユニットに含まれる他の回路から受け取るように構成され、
    前記値のセットに対して特定のプール関数を実行するように構成され、前記特定のプール関数は、前記値のセットにおける1つ以上の値をプールするために使用され、
    前記プール回路は、さらに、前記値のセットにおける前記1つ以上の値をプールするために使用される前記特定のプール関数に基づいてプール値を生成するように構成され、
    前記特定のプール関数は、前記ベクトル計算ユニットによって受け取られる制御信号によって複数のプール関数の中から指定され、前記制御信号は、前記値のセットにおける前記1つ以上の値をプールするために前記プール回路によって使用される1つ以上のパラメータを指定し、少なくとも1つのパラメータは、特定のニューラルネットワーク層のためのストライド値を備える、回路。
  2. 前記値のセットは、正規化値を備え、前記プール回路は、集約回路を備え、
    前記集約回路は、集約関数を前記正規化値のうちの1つ以上に適用して前記プール値を生成するように構成され、前記集約関数は、前記値のセットにおける前記1つ以上の値をプールするために使用される前記特定のプール関数を表す、請求項1に記載の回路。
  3. 前記集約関数は、前記プール回路に、前記値のセットにおける前記正規化値の最大値、最小値もしくは平均値、または前記値のセットにおける前記正規化値のサブセットの最大値、最小値もしくは平均値を返させるように動作可能である、請求項2に記載の回路。
  4. 前記プール回路は、さらに、前記特定のプール関数に基づいて値のM×Nセットのプールを実行するように構成され、MおよびNの各々は、1以上の整数である、請求項1~3のいずれか1項に記載の回路。
  5. 前記ベクトル計算ユニットは、複数の並列プール回路を含み、
    前記複数の並列プール回路の各プール回路は、所与のクロックサイクルにわたって、前記値のセットからそれぞれの要素を受け取るように構成される、請求項1~4のいずれか1項に記載の回路。
  6. 前記プール回路は、さらに、前記プール回路に含まれる複数のレジスタおよび複数のメモリユニットに前記値のセットを格納するように構成され、
    前記複数のレジスタおよび前記複数のメモリユニットは、直列に接続され、
    各レジスタは、前記値のセットのうちの1つの値を格納するように構成され、各メモリユニットは、前記値のセットのうちの複数の値を格納するように構成される、請求項1~5のいずれか1項に記載の回路。
  7. 前記プール回路は、毎クロックサイクル後に、前記値のセットにおける所与の値を前記プール回路の後続のレジスタまたはメモリユニットにシフトして、前記値のセットから前記プール値を生成するように構成される、請求項6に記載の回路。
  8. 前記値のセットは、累積値のベクトルを備え、
    前記プール回路は、前記ベクトル計算ユニットによって受け取られる制御信号によって指定される特定のプール関数に基づいて前記プール値を生成する、請求項1~7のいずれか1項に記載の回路。
  9. ニューラルネットワーク計算を実行するための方法であって、
    ベクトル計算ユニットに含まれるプール回路が、前記ニューラルネットワーク計算を実行するための値のセットを受け取るステップと、
    前記プール回路が、前記値のセットに対して特定のプール関数を実行するステップとを備え、前記特定のプール関数は、前記値のセットにおける1つ以上の値をプールするために使用され、前記方法は、さらに、
    前記プール回路が、前記値のセットにおける前記1つ以上の値をプールするために使用される前記特定のプール関数に基づいてプール値を生成するステップと、
    前記プール回路が、前記ベクトル計算ユニットに含まれる他の回路に前記プール値を提供して、前記ニューラルネットワーク計算を実行するステップとを備え、
    前記特定のプール関数は、前記ベクトル計算ユニットによって受け取られる制御信号によって複数のプール関数の中から指定され、前記制御信号は、前記値のセットにおける前記1つ以上の値をプールするために前記プール回路によって使用される1つ以上のパラメータを指定し、少なくとも1つのパラメータは、特定のニューラルネットワーク層のためのストライド値を備える、方法。
  10. 前記値のセットは、正規化値を備え、
    前記方法は、さらに、
    前記プール回路が、集約関数を前記正規化値のうちの1つ以上に適用して前記プール値を生成するステップを備え、
    前記集約関数は、前記値のセットにおける前記1つ以上の値をプールするために使用される前記特定のプール関数を表す、請求項9に記載の方法。
  11. 前記集約関数は、前記プール回路に、前記値のセットにおける前記正規化値の最大値、最小値もしくは平均値、または前記値のセットにおける前記正規化値のサブセットの最大値、最小値もしくは平均値を返させるように動作可能である、請求項10に記載の方法。
  12. 前記プール回路が、前記プール回路に含まれる複数のレジスタおよび複数のメモリユニットに前記値のセットを格納するステップをさらに備え、
    前記複数のレジスタおよび前記複数のメモリユニットは、直列に接続され、
    各レジスタは、前記値のセットのうちの1つの値を格納するように構成され、各メモリユニットは、前記値のセットのうちの複数の値を格納するように構成される、請求項9~11のいずれか1項に記載の方法。
  13. 前記プール回路が、毎クロックサイクル後に、前記値のセットにおける所与の値を前記プール回路の後続のレジスタまたはメモリユニットにシフトして、前記値のセットから前記プール値を生成するステップをさらに備える、請求項12に記載の方法。
  14. 前記プール値を生成するステップは、前記ベクトル計算ユニットによって受け取られる制御信号によって指定される特定のプール関数に基づいて前記プール値を生成するステップを備える、請求項9~13のいずれか1項に記載の方法。
  15. 前記値のセットに対して前記特定のプール関数を実行するステップは、前記特定のプール関数に基づいて値のM×Nセットのプールを実行するステップを備え、MおよびNの各々は、1以上の整数である、請求項9~14のいずれか1項に記載の方法。
  16. ニューラルネットワーク計算を実行するための命令を格納するための非一時的な機械読取可能な記憶装置であって、前記命令は、動作を実行させるようにプロセッサによって実行可能であり、前記動作は、
    ベクトル計算ユニットに含まれるプール回路が、前記ニューラルネットワーク計算を実行するための値のセットを受け取るステップと、
    前記プール回路が、前記値のセットに対して特定のプール関数を実行するステップとを備え、
    前記特定のプール関数は、前記値のセットにおける1つ以上の値をプールするために使用され、前記動作は、さらに、
    前記プール回路が、前記値のセットにおける前記1つ以上の値をプールするために使用される前記特定のプール関数に基づいてプール値を生成するステップと、
    前記プール回路が、前記ベクトル計算ユニットに含まれる他の回路に前記プール値を提供して、前記ニューラルネットワーク計算を実行するステップとを備え、
    前記特定のプール関数は、前記ベクトル計算ユニットによって受け取られる制御信号によって複数のプール関数の中から指定され、前記制御信号は、前記値のセットにおける前記1つ以上の値をプールするために前記プール回路によって使用される1つ以上のパラメータを指定し、少なくとも1つのパラメータは、特定のニューラルネットワーク層のためのストライド値を備える、非一時的な機械読取可能な記憶装置。
  17. コンピュータによって実行されるプログラムであって、前記プログラムは、前記コンピュータに、請求項9~15のいずれか1項に記載の方法を実行させる、プログラム。
JP2021148010A 2015-05-21 2021-09-10 ニューラルネットワークプロセッサにおけるベクトル計算ユニット Active JP7346510B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023144224A JP2023169224A (ja) 2015-05-21 2023-09-06 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562165022P 2015-05-21 2015-05-21
US62/165,022 2015-05-21
US14/845,117 2015-09-03
US14/845,117 US10192162B2 (en) 2015-05-21 2015-09-03 Vector computation unit in a neural network processor
JP2019142868A JP7000387B2 (ja) 2015-05-21 2019-08-02 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019142868A Division JP7000387B2 (ja) 2015-05-21 2019-08-02 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023144224A Division JP2023169224A (ja) 2015-05-21 2023-09-06 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Publications (3)

Publication Number Publication Date
JP2022000782A JP2022000782A (ja) 2022-01-04
JP2022000782A5 JP2022000782A5 (ja) 2022-02-17
JP7346510B2 true JP7346510B2 (ja) 2023-09-19

Family

ID=56069218

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2017550887A Active JP6615902B2 (ja) 2015-05-21 2016-04-29 ニューラルネットワークプロセッサにおけるベクトル計算ユニット
JP2019142868A Active JP7000387B2 (ja) 2015-05-21 2019-08-02 ニューラルネットワークプロセッサにおけるベクトル計算ユニット
JP2021148010A Active JP7346510B2 (ja) 2015-05-21 2021-09-10 ニューラルネットワークプロセッサにおけるベクトル計算ユニット
JP2023144224A Pending JP2023169224A (ja) 2015-05-21 2023-09-06 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2017550887A Active JP6615902B2 (ja) 2015-05-21 2016-04-29 ニューラルネットワークプロセッサにおけるベクトル計算ユニット
JP2019142868A Active JP7000387B2 (ja) 2015-05-21 2019-08-02 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023144224A Pending JP2023169224A (ja) 2015-05-21 2023-09-06 ニューラルネットワークプロセッサにおけるベクトル計算ユニット

Country Status (12)

Country Link
US (4) US10192162B2 (ja)
EP (2) EP4276690A1 (ja)
JP (4) JP6615902B2 (ja)
KR (4) KR20230048449A (ja)
CN (2) CN107533667B (ja)
DE (2) DE202016107442U1 (ja)
DK (1) DK3298545T3 (ja)
FI (1) FI3298545T3 (ja)
GB (2) GB2553055B (ja)
HK (1) HK1245954A1 (ja)
TW (2) TWI638272B (ja)
WO (1) WO2016186813A1 (ja)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10192162B2 (en) 2015-05-21 2019-01-29 Google Llc Vector computation unit in a neural network processor
GB201607713D0 (en) * 2016-05-03 2016-06-15 Imagination Tech Ltd Convolutional neural network
KR20180034853A (ko) * 2016-09-28 2018-04-05 에스케이하이닉스 주식회사 합성곱 신경망의 연산 장치 및 방법
US10037490B2 (en) * 2016-12-13 2018-07-31 Google Llc Performing average pooling in hardware
US10032110B2 (en) * 2016-12-13 2018-07-24 Google Llc Performing average pooling in hardware
US10521488B1 (en) 2016-12-30 2019-12-31 X Development Llc Dynamic partitioning
JP6740920B2 (ja) * 2017-02-01 2020-08-19 株式会社デンソー 演算処理装置
WO2018154494A1 (en) 2017-02-23 2018-08-30 Cerebras Systems Inc. Accelerated deep learning
US10896367B2 (en) * 2017-03-07 2021-01-19 Google Llc Depth concatenation using a matrix computation unit
US10909447B2 (en) 2017-03-09 2021-02-02 Google Llc Transposing neural network matrices in hardware
US10108581B1 (en) 2017-04-03 2018-10-23 Google Llc Vector reduction processor
US11475282B2 (en) 2017-04-17 2022-10-18 Cerebras Systems Inc. Microthreading for accelerated deep learning
US11488004B2 (en) 2017-04-17 2022-11-01 Cerebras Systems Inc. Neuron smearing for accelerated deep learning
WO2018193353A1 (en) 2017-04-17 2018-10-25 Cerebras Systems Inc. Neuron smearing for accelerated deep learning
US10338919B2 (en) * 2017-05-08 2019-07-02 Nvidia Corporation Generalized acceleration of matrix multiply accumulate operations
DE102018110607A1 (de) 2017-05-08 2018-11-08 Nvidia Corporation Verallgemeinerte Beschleunigung von Matrix-Multiplikations-und-Akkumulations-Operationen
US10621269B2 (en) * 2017-05-17 2020-04-14 Google Llc Performing matrix multiplication in hardware
TW202024961A (zh) 2017-05-17 2020-07-01 美商谷歌有限責任公司 低延遲矩陣乘法單元
EP4083789A1 (en) 2017-05-17 2022-11-02 Google LLC Special purpose neural network training chip
CN107146616B (zh) * 2017-06-13 2020-05-08 Oppo广东移动通信有限公司 设备控制方法及相关产品
CN109284821B (zh) * 2017-07-19 2022-04-12 华为技术有限公司 一种神经网络运算装置
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11157287B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system with variable latency memory access
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11409692B2 (en) * 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
TWI653584B (zh) 2017-09-15 2019-03-11 中原大學 利用非揮發性記憶體完成類神經網路訓練的方法
GB2568230B (en) * 2017-10-20 2020-06-03 Graphcore Ltd Processing in neural networks
KR102586173B1 (ko) 2017-10-31 2023-10-10 삼성전자주식회사 프로세서 및 그 제어 방법
KR102424962B1 (ko) 2017-11-15 2022-07-25 삼성전자주식회사 병렬 연산 처리를 수행하는 메모리 장치 및 이를 포함하는 메모리 모듈
US10599975B2 (en) 2017-12-15 2020-03-24 Uber Technologies, Inc. Scalable parameter encoding of artificial neural networks obtained via an evolutionary process
US11360930B2 (en) * 2017-12-19 2022-06-14 Samsung Electronics Co., Ltd. Neural processing accelerator
US20190205738A1 (en) * 2018-01-04 2019-07-04 Tesla, Inc. Systems and methods for hardware-based pooling
KR102637735B1 (ko) * 2018-01-09 2024-02-19 삼성전자주식회사 근사 곱셈기를 구비하는 뉴럴 네트워크 처리 장치 및 이를 포함하는 시스템온 칩
CN108182471B (zh) * 2018-01-24 2022-02-15 上海岳芯电子科技有限公司 一种卷积神经网络推理加速器及方法
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11494582B2 (en) 2018-02-08 2022-11-08 Western Digital Technologies, Inc. Configurable neural network engine of tensor arrays and memory cells
US11164073B2 (en) * 2018-02-08 2021-11-02 Western Digital Technologies, Inc. Systolic neural network processor with feedback control
TWI659324B (zh) * 2018-02-14 2019-05-11 倍加科技股份有限公司 電路規劃結果產生方法與系統
US11907834B2 (en) 2018-02-14 2024-02-20 Deepmentor Inc Method for establishing data-recognition model
SG11202007532TA (en) * 2018-02-16 2020-09-29 Governing Council Univ Toronto Neural network accelerator
CN110415157B (zh) * 2018-04-26 2024-01-30 华为技术有限公司 一种矩阵乘法的计算方法及装置
US11487846B2 (en) 2018-05-04 2022-11-01 Apple Inc. Performing multiply and accumulate operations in neural network processor
US11537838B2 (en) * 2018-05-04 2022-12-27 Apple Inc. Scalable neural network processing engine
US10440341B1 (en) * 2018-06-07 2019-10-08 Micron Technology, Inc. Image processor formed in an array of memory cells
US11501140B2 (en) * 2018-06-19 2022-11-15 International Business Machines Corporation Runtime reconfigurable neural network processor core
DE102018115902A1 (de) 2018-07-01 2020-01-02 Oliver Bartels SIMD-Prozessor mit CAM zur Operandenauswahl nach Mustererkennung
TWI667576B (zh) * 2018-07-09 2019-08-01 國立中央大學 機器學習方法及機器學習裝置
CN109273035B (zh) * 2018-08-02 2020-03-17 北京知存科技有限公司 闪存芯片的控制方法、终端
US11636319B2 (en) * 2018-08-22 2023-04-25 Intel Corporation Iterative normalization for machine learning applications
US11328207B2 (en) 2018-08-28 2022-05-10 Cerebras Systems Inc. Scaled compute fabric for accelerated deep learning
WO2020044208A1 (en) 2018-08-29 2020-03-05 Cerebras Systems Inc. Isa enhancements for accelerated deep learning
US11328208B2 (en) 2018-08-29 2022-05-10 Cerebras Systems Inc. Processor element redundancy for accelerated deep learning
KR102637733B1 (ko) 2018-10-31 2024-02-19 삼성전자주식회사 뉴럴 네트워크 프로세서 및 그것의 컨볼루션 연산 방법
JP7315317B2 (ja) 2018-11-09 2023-07-26 株式会社Preferred Networks プロセッサおよびプロセッサのデータ転送方法
CN111445020B (zh) * 2019-01-16 2023-05-23 阿里巴巴集团控股有限公司 一种基于图的卷积网络训练方法、装置及系统
US11188085B2 (en) * 2019-03-22 2021-11-30 Ford Global Technologies, Llc Vehicle capsule networks
US10929058B2 (en) 2019-03-25 2021-02-23 Western Digital Technologies, Inc. Enhanced memory device architecture for machine learning
US11783176B2 (en) 2019-03-25 2023-10-10 Western Digital Technologies, Inc. Enhanced storage device memory architecture for machine learning
US10733016B1 (en) 2019-04-26 2020-08-04 Google Llc Optimizing hardware FIFO instructions
US11853890B2 (en) * 2019-05-02 2023-12-26 Macronix International Co., Ltd. Memory device and operation method thereof
US11514300B2 (en) 2019-06-14 2022-11-29 Macronix International Co., Ltd. Resistor circuit, artificial intelligence chip and method for manufacturing the same
US11233049B2 (en) 2019-06-14 2022-01-25 Macronix International Co., Ltd. Neuromorphic computing device
TWI698810B (zh) * 2019-06-14 2020-07-11 旺宏電子股份有限公司 類神經計算裝置
KR20210014902A (ko) 2019-07-31 2021-02-10 삼성전자주식회사 프로세서 및 그 제어 방법
CN110610235B (zh) * 2019-08-22 2022-05-13 北京时代民芯科技有限公司 一种神经网络激活函数计算电路
WO2021040944A1 (en) 2019-08-26 2021-03-04 D5Ai Llc Deep learning with judgment
US11693657B2 (en) 2019-09-05 2023-07-04 Micron Technology, Inc. Methods for performing fused-multiply-add operations on serially allocated data within a processing-in-memory capable memory device, and related memory devices and systems
US11829729B2 (en) 2019-09-05 2023-11-28 Micron Technology, Inc. Spatiotemporal fused-multiply-add, and related systems, methods and devices
US11934824B2 (en) 2019-09-05 2024-03-19 Micron Technology, Inc. Methods for performing processing-in-memory operations, and related memory devices and systems
KR20210050243A (ko) * 2019-10-28 2021-05-07 삼성전자주식회사 뉴로모픽 패키지 장치 및 뉴로모픽 컴퓨팅 시스템
KR102357168B1 (ko) * 2019-10-30 2022-02-07 주식회사 뉴로메카 인공신경망을 이용한 로봇 매니퓰레이터의 충돌을 감지하는 방법 및 시스템
KR102139229B1 (ko) * 2019-10-30 2020-07-29 주식회사 뉴로메카 인공신경망을 이용한 로봇 매니퓰레이터의 충돌을 감지하는 방법 및 시스템
KR20210105053A (ko) * 2020-02-18 2021-08-26 에스케이하이닉스 주식회사 연산 회로 및 그것을 포함하는 딥 러닝 시스템
WO2021199386A1 (ja) 2020-04-01 2021-10-07 岡島 義憲 曖昧検索回路
US11537861B2 (en) 2020-06-23 2022-12-27 Micron Technology, Inc. Methods of performing processing-in-memory operations, and related devices and systems
CN114654884B (zh) * 2020-12-22 2023-06-06 精工爱普生株式会社 印刷条件设定方法、印刷条件设定系统
US20220277190A1 (en) * 2021-02-28 2022-09-01 Anaflash Inc. Neural network engine with associated memory array
US11544213B2 (en) 2021-03-04 2023-01-03 Samsung Electronics Co., Ltd. Neural processor
CN112992248A (zh) * 2021-03-12 2021-06-18 西安交通大学深圳研究院 一种基于fifo的可变长循环移位寄存器的pe计算单元结构
US11714556B2 (en) * 2021-09-14 2023-08-01 quadric.io, Inc. Systems and methods for accelerating memory transfers and computation efficiency using a computation-informed partitioning of an on-chip data buffer and implementing computation-aware data transfer operations to the on-chip data buffer
WO2023080291A1 (ko) * 2021-11-08 2023-05-11 한국전자기술연구원 딥러닝 가속기를 위한 풀링 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140180989A1 (en) 2012-12-24 2014-06-26 Google Inc. System and method for parallelizing convolutional neural networks
US20140280989A1 (en) 2013-03-14 2014-09-18 Thomas J. Borkowski System and method for establishing peer to peer connections through symmetric nats
JP2015036939A (ja) 2013-08-15 2015-02-23 富士ゼロックス株式会社 特徴抽出プログラム及び情報処理装置

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3761876A (en) * 1971-07-28 1973-09-25 Recognition Equipment Inc Recognition unit for optical character reading system
US3777132A (en) * 1972-02-23 1973-12-04 Burroughs Corp Method and apparatus for obtaining the reciprocal of a number and the quotient of two numbers
FR2595891B1 (fr) * 1986-03-11 1988-06-10 Labo Electronique Physique Procede de renforcement des contours de signaux numeriques et dispositif de traitement pour la mise en oeuvre dudit procede
JPS63206828A (ja) 1987-02-23 1988-08-26 Mitsubishi Electric Corp 最大値ストレツチ回路
US5014235A (en) 1987-12-15 1991-05-07 Steven G. Morton Convolution memory
US5136717A (en) 1988-11-23 1992-08-04 Flavors Technology Inc. Realtime systolic, multiple-instruction, single-data parallel computer system
EP0411341A3 (en) * 1989-07-10 1992-05-13 Yozan Inc. Neural network
US5138695A (en) * 1989-10-10 1992-08-11 Hnc, Inc. Systolic array image processing system
JP2756170B2 (ja) 1990-03-05 1998-05-25 日本電信電話株式会社 ニューラルネットワーク学習回路
US5337395A (en) 1991-04-08 1994-08-09 International Business Machines Corporation SPIN: a sequential pipeline neurocomputer
US5146543A (en) 1990-05-22 1992-09-08 International Business Machines Corp. Scalable neural array processor
JPH04290155A (ja) 1991-03-19 1992-10-14 Fujitsu Ltd 並列データ処理方式
US5519811A (en) * 1991-10-17 1996-05-21 Kawasaki Steel Corporation Neural network, processor, and pattern recognition apparatus
US5903454A (en) 1991-12-23 1999-05-11 Hoffberg; Linda Irene Human-factored interface corporating adaptive pattern recognition based controller apparatus
US5799134A (en) 1995-03-13 1998-08-25 Industrial Technology Research Institute One dimensional systolic array architecture for neural network
US5812993A (en) 1996-03-07 1998-09-22 Technion Research And Development Foundation Ltd. Digital hardware architecture for realizing neural network
US6038337A (en) 1996-03-29 2000-03-14 Nec Research Institute, Inc. Method and apparatus for object recognition
JPH11177399A (ja) 1997-12-15 1999-07-02 Mitsubishi Electric Corp クロック遅延回路およびこれを用いた発振回路、位相同期回路、クロック生成回路
GB9902115D0 (en) 1999-02-01 1999-03-24 Axeon Limited Neural networks
US7054850B2 (en) * 2000-06-16 2006-05-30 Canon Kabushiki Kaisha Apparatus and method for detecting or recognizing pattern by employing a plurality of feature detecting elements
JP3613466B2 (ja) * 2001-04-06 2005-01-26 旭化成株式会社 データ演算処理装置及びデータ演算処理プログラム
US7245767B2 (en) 2003-08-21 2007-07-17 Hewlett-Packard Development Company, L.P. Method and apparatus for object identification, classification or verification
US7693585B2 (en) 2004-09-30 2010-04-06 Rockwell Automation Technologies, Inc. Enabling object oriented capabilities in automation systems
US7634137B2 (en) 2005-10-14 2009-12-15 Microsoft Corporation Unfolded convolution for fast feature extraction
WO2008067676A1 (en) 2006-12-08 2008-06-12 Medhat Moussa Architecture, system and method for artificial neural network implementation
US8184696B1 (en) 2007-09-11 2012-05-22 Xilinx, Inc. Method and apparatus for an adaptive systolic array structure
JP5376920B2 (ja) 2008-12-04 2013-12-25 キヤノン株式会社 コンボリューション演算回路、階層的コンボリューション演算回路及び物体認識装置
EP2259214B1 (en) * 2009-06-04 2013-02-27 Honda Research Institute Europe GmbH Implementing a neural associative memory based on non-linear learning of discrete synapses
US8442927B2 (en) 2009-07-30 2013-05-14 Nec Laboratories America, Inc. Dynamically configurable, multi-ported co-processor for convolutional neural networks
TWI525558B (zh) 2011-01-17 2016-03-11 Univ Nat Taipei Technology Resilient high - speed hardware reverse transfer and feedback type neural network system
US8924455B1 (en) 2011-02-25 2014-12-30 Xilinx, Inc. Multiplication of matrices using systolic arrays
TW201331855A (zh) 2012-01-19 2013-08-01 Univ Nat Taipei Technology 具自由回饋節點的高速硬體倒傳遞及回饋型類神經網路
KR20130090147A (ko) * 2012-02-03 2013-08-13 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
JP5834997B2 (ja) * 2012-02-23 2015-12-24 株式会社ソシオネクスト ベクトルプロセッサ、ベクトルプロセッサの処理方法
CN102665049B (zh) * 2012-03-29 2014-09-17 中国科学院半导体研究所 基于可编程视觉芯片的视觉图像处理系统
US9081608B2 (en) * 2012-05-19 2015-07-14 Digital System Research Inc. Residue number arithmetic logic unit
CN106847296B (zh) * 2012-07-12 2021-01-22 诺基亚技术有限公司 矢量量化
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
KR20150016089A (ko) * 2013-08-02 2015-02-11 안병익 신경망 컴퓨팅 장치 및 시스템과 그 방법
US9978014B2 (en) * 2013-12-18 2018-05-22 Intel Corporation Reconfigurable processing unit
JP6314628B2 (ja) * 2014-04-28 2018-04-25 株式会社デンソー 演算処理装置
CN104035751B (zh) 2014-06-20 2016-10-12 深圳市腾讯计算机系统有限公司 基于多图形处理器的数据并行处理方法及装置
US9886948B1 (en) * 2015-01-05 2018-02-06 Amazon Technologies, Inc. Neural network processing of multiple feature streams using max pooling and restricted connectivity
EP3064130A1 (en) 2015-03-02 2016-09-07 MindMaze SA Brain activity measurement and feedback system
US20160267111A1 (en) 2015-03-11 2016-09-15 Microsoft Technology Licensing, Llc Two-stage vector reduction using two-dimensional and one-dimensional systolic arrays
US10102481B2 (en) * 2015-03-16 2018-10-16 Conduent Business Services, Llc Hybrid active learning for non-stationary streaming data with asynchronous labeling
US9552510B2 (en) * 2015-03-18 2017-01-24 Adobe Systems Incorporated Facial expression capture for character animation
US10872230B2 (en) * 2015-03-27 2020-12-22 Intel Corporation Low-cost face recognition using Gaussian receptive field features
US10192162B2 (en) 2015-05-21 2019-01-29 Google Llc Vector computation unit in a neural network processor
GB2558271B (en) * 2016-12-23 2021-09-08 Imagination Tech Ltd Median determination

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140180989A1 (en) 2012-12-24 2014-06-26 Google Inc. System and method for parallelizing convolutional neural networks
US20140280989A1 (en) 2013-03-14 2014-09-18 Thomas J. Borkowski System and method for establishing peer to peer connections through symmetric nats
JP2015036939A (ja) 2013-08-15 2015-02-23 富士ゼロックス株式会社 特徴抽出プログラム及び情報処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石井 智大 他,ConvolutionalNeural Networkを用いた一般物体認識手法の解析,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM),日本,情報処理学会,2014年05月08日,Vol.2014-CVIM-192 No.14,1-8,インターネット<URL:https://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=100955&item_no=1&file_no=1>

Also Published As

Publication number Publication date
JP2022000782A (ja) 2022-01-04
EP3298545B1 (en) 2023-10-25
KR20230048449A (ko) 2023-04-11
US10192162B2 (en) 2019-01-29
KR102516092B1 (ko) 2023-03-29
KR20200077614A (ko) 2020-06-30
HK1245954A1 (zh) 2018-08-31
TWI638272B (zh) 2018-10-11
US20190228301A1 (en) 2019-07-25
JP2020017281A (ja) 2020-01-30
EP3298545A1 (en) 2018-03-28
CN113392964A (zh) 2021-09-14
KR102127524B1 (ko) 2020-06-26
US20230206070A1 (en) 2023-06-29
CN107533667A (zh) 2018-01-02
FI3298545T3 (fi) 2024-01-11
DE202016107442U1 (de) 2017-01-18
JP7000387B2 (ja) 2022-01-19
KR102379700B1 (ko) 2022-03-25
DK3298545T3 (da) 2024-01-02
KR20220041962A (ko) 2022-04-01
US20160342889A1 (en) 2016-11-24
GB2600290A (en) 2022-04-27
EP4276690A1 (en) 2023-11-15
US11620508B2 (en) 2023-04-04
GB201715525D0 (en) 2017-11-08
DE112016002296T5 (de) 2018-02-15
GB2553055A (en) 2018-02-21
CN107533667B (zh) 2021-07-13
TWI591490B (zh) 2017-07-11
US20170103315A1 (en) 2017-04-13
US10074051B2 (en) 2018-09-11
KR20170126997A (ko) 2017-11-20
GB2553055B (en) 2022-05-11
JP2023169224A (ja) 2023-11-29
TW201729124A (zh) 2017-08-16
TW201706873A (zh) 2017-02-16
JP2018518731A (ja) 2018-07-12
JP6615902B2 (ja) 2019-12-04
WO2016186813A1 (en) 2016-11-24

Similar Documents

Publication Publication Date Title
JP7346510B2 (ja) ニューラルネットワークプロセッサにおけるベクトル計算ユニット
JP7394104B2 (ja) ハードウェアにおけるカーネルストライドの実行
TWI765168B (zh) 用於硬體中之轉置神經網路矩陣之方法、系統及電腦儲存媒體
KR102315346B1 (ko) 하드웨어에서의 평균 풀링의 수행
KR102413522B1 (ko) 신경망 프로세서에서 사용하기 위한 가중치들의 프리페칭

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230906

R150 Certificate of patent or registration of utility model

Ref document number: 7346510

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150