JP7046171B2 - 演算装置 - Google Patents
演算装置 Download PDFInfo
- Publication number
- JP7046171B2 JP7046171B2 JP2020518966A JP2020518966A JP7046171B2 JP 7046171 B2 JP7046171 B2 JP 7046171B2 JP 2020518966 A JP2020518966 A JP 2020518966A JP 2020518966 A JP2020518966 A JP 2020518966A JP 7046171 B2 JP7046171 B2 JP 7046171B2
- Authority
- JP
- Japan
- Prior art keywords
- processing element
- input
- neurons
- output
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 265
- 210000004205 output neuron Anatomy 0.000 claims description 109
- 210000002364 input neuron Anatomy 0.000 claims description 87
- 239000000872 buffer Substances 0.000 claims description 50
- 230000015654 memory Effects 0.000 claims description 39
- 239000012190 activator Substances 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 description 76
- 239000010410 layer Substances 0.000 description 61
- 238000010586 diagram Methods 0.000 description 37
- 238000013528 artificial neural network Methods 0.000 description 32
- 238000004364 calculation method Methods 0.000 description 31
- 238000004422 calculation algorithm Methods 0.000 description 24
- 238000000034 method Methods 0.000 description 19
- 210000002569 neuron Anatomy 0.000 description 13
- 238000003860 storage Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 239000011229 interlayer Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000012447 hatching Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/544—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
- G06F7/5443—Sum of products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/50—Adding; Subtracting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/523—Multiplying only
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Optimization (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Neurology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
Description
[ニューラルネットワークの構成例]
図1は、スパース化されたニューラルネットワークの構成例を示すブロック図である。図1を参照して、ニューラルネットワーク30は、複数の畳み込み層32A,32Bおよび複数のプーリング層33A,33Bがニューロンバッファ31A,31B,31C,31D,31Eを介して直列に接続された構造を有している。ニューラルネットワーク30を畳み込みニューラルネットワークとも称する。
図3は、スパース化したニューラルネットワークにおける畳み込み層の1カーネル範囲の計算アルゴリズムの具体例を示す概念図である。
+w0,11・x11+w0,12・x12 …(1A)
y1←w1,0・x0+w1,5・x5+w1,6・x6+w1,7・x7+w1,9・x9
+w1,10・x10+w1,12・x12 …(1B)
y2←w2,0・x0+w2,2・x2+w2,5・x5+w2,7・x7+w2,9・x9
+w2,12・x12+w2,15・x15 …(1C)
y0←f0(y0) …(2A)
y1←f1(y1) …(2B)
y2←f2(y2) …(2C)
上式(1A)~(1C)において、wi,j(0≦i≦2,0≦j≦15)は重み係数を示す。y0,y1,y2にそれぞれバイアス値を加算してもよい。上式(2A)~(2C)において、f0,f1,f2は活性化関数を示す。
図4は、畳み込み層の計算を行う演算装置の全体構成を示すブロック図である。なお、図4では、図3で説明した入力側のニューロンバッファ31および出力側のニューロンバッファ31をそれぞれ入力データバッファおよび出力データバッファとして演算装置の構成に含めている。
図5は、畳み込み層の1カーネル範囲の計算アルゴリズムをハードウェアにマッピングした概念図である。
図6は、図4の演算装置の処理手順を示すフローチャートである。
図7は、図4のデータ分配ユニットの構成例を示すブロック図である。
図8は、図4の処理要素群の構成例を示すブロック図である。
図10は、図4のデータ収集ユニットの構成例を示すブロック図である。
次に、図8で説明したインデックス列メモリ60および重み係数列メモリ61の各々に格納されるデータであるインデックス列および重み係数列の作成方法について説明する。具体例として、図3の出力ニューロンy0,y1,y2が、共通の処理要素群(GPEn)42に含まれる3個の処理要素(PEn,0,PEn,1,PEn,2)43にそれぞれ割り当てられた場合について説明する。
上記のとおり、実施の形態1のニューラルネットワーク演算装置によれば、複数の処理要素(PE)43を1単位として処理要素群(GPE)42が構成される。処理要素群(GPE)42は、入力データを格納するデータ分配ユニット(DSU)41に設けられたデータ分配レジスタ(DSR)50に対して並列でアクセス可能である。このため、データ分配ユニット(DSU)41には、処理要素(PE)43ごとでなく、処理要素群(GPE)42ごとに個別にアクセスポートが設けられている。この結果、処理要素(PE)43の個数および各処理要素(PE)43に設けられた演算器の個数を増加させた場合には、アクセスポート数の増加を抑制することができるので、アクセスポート数に比例する回路面積の増加を抑制するとともに、動作周波数を低下させることなく、演算装置の処理性能を高めることができる。
実施の形態1のハードウェア構成では、同一の処理要素群(GPE)42に割り当てられた複数の出力ニューロンについて、入力データの共有率が高いほど、データ分配ユニット(DSU)41に対するアクセス要求回数が削減され、処理時間を短くできる。
図13は、実施の形態2の演算装置におけるデータ収集ユニットの構成例を示すブロック図である。図13のデータ収集ユニット(DGU)44Aは、切替えスイッチ72をさらに含む点で図10のデータ収集ユニット(DGU)44と異なる。
図15は、実施の形態2の演算装置の処理手順を示すフローチャートである。図15のフローチャートは、ステップS150とS160との間にステップS155を含む点で図6のフローチャートと異なる。
以下、具体例を挙げて実施の形態2の効果について説明する。
+w0,14・x14 …(3A)
y1←w1,1・x1+w1,2・x2+w1,4・x4+w1,8・x8+w1,9・x9
+w1,11・x11 …(3B)
y2←w2,4・x4+w2,5・x5+w2,6・x6+w2,9・x9+w2,11・x11
+w2,12・x12+w2,14・x14 …(3C)
y3←w3,2・x2+w3,3・x3+w3,4・x4+w3,7・x7+w3,8・x8
+w3,9・x9 …(3D)
上式(3A)~(3D)において、wi,j(0≦i≦3,0≦j≦15)は重み係数を示す。y0,y1,y2,y3にそれぞれバイアス値を加算してもよい。
上記のとおり、実施の形態2の演算装置によれば、ニューラルネットワークアルゴリズムで規定された出力ニューロンのインデックス番号の順番によらず、出力ニューロンを適切な処理要素(PE)43に割り当てる。これによって、入力データの共有率の高い出力ニューロン同士を同じ処理要素群(GPE)42に属する複数の処理要素(PE)43に割り当てることができるので、処理要素群(GPE)42からデータ分配ユニット(DSU)41へのアクセス回数を減らすことができる。結果として、演算装置の処理性能を高めることができる。
実施の形態2の演算装置では、同一層内の出力ニューロン93を任意の処理要素(PE)43に割り当て可能にすることで、各処理要素(PE)43がアクセスする入力データの共有率を高め、これにより処理時間を短くすることができた。ただし、実施の形態2の演算装置の場合には、あるスライド位置での畳み込みカーネル90の範囲内の入力ニューロンの値のみが、入力データとしてデータ分配ユニット(DSU)41に取り込まれ、これらの入力ニューロンに対応する出力ニューロンが複数の処理要素(PE)43へ割り当てられる。このように入力ニューロンの範囲が制限されているために、入力データの共有率にも上限がある。
図21は、実施の形態3の演算装置の構成例を示すブロック図である。図21に示す実施の形態3の演算装置では、データ分配ユニット(DSU)41の機能が図7で説明した実施の形態1および2の場合と異なり、データ収集ユニット(DGU)44の構成および機能が、図13および図14で説明した実施の形態2の場合と異なる。図21のその他の点は、実施の形態1,2の場合と同様であるので、同一または相当する部分に同一の参照符号を付して説明を繰り返さない。
図22は、実施の形態3の演算装置の処理手順を示すフローチャートである。図22のフローチャートは、ステップS102,S164,S170の処理内容が、ステップS102A,S164A,S170Aに変更される点で、図15フローチャートとは異なる。図22のその他の処理ステップは、図15の場合と同様であるので、同一または相当するステップには同一の参照符号を付して説明を繰り返さない。
以下、具体的を挙げて実施の形態3の効果について説明する。
y0,1←w1,0・x0+w1,2・x2+w1,3・x3+w1,9・x9+w1,10・x10
+w1,11・x11+w1,12・x12 …(4B)
y1,0←w0,4・x8+w0,5・x9+w0,6・x10+w0,13・x17+w0,14・x18 …(4C)
y1,1←w1,0・x4+w1,2・x6+w1,3・x7+w1,9・x13+w1,10・x14
+w1,11・x15+w1,12・x16 …(4D)
上式(4A)~(4D)において、wi,j(0≦i≦1,0≦j≦19)は重み係数を示す。y0,0、y0,1、y1,0、y1,1にそれぞれ、バイアス値を加算してもよい。
上記のとおり、実施の形態3の演算装置によれば、ニューラルネットワークアルゴリズムにおいて入力ニューロン91に対して畳み込みカーネル90をスライドさせて畳み込み演算を行う際に、スライド位置の異なる複数の畳み込みカーネル90に対応する複数の出力ニューロンが、同時に各処理要素(PE)43に割り当てられる。これによって、入力データの共有率の高い畳み込みカーネルの演算同士を同じ処理要素群(GPE)42に属する複数の処理要素(PE)43に割り当てることができるので、処理要素群(GPE)42からデータ分配ユニット(DSU)41へのアクセス回数を減らすことができる。結果として、演算装置の処理性能を高めることができる。
実施の形態4では、ニューラルネットワークの層間でのデータ受け渡しの方法が実施の形態1~3の場合と異なる。これによって、前段の層での処理が完了する前に後段の層での処理を開始できるようにしたものである。以下、図面を参照して説明する。
Claims (7)
- 畳み込みニューラルネットワークの畳み込み層における演算のための演算装置であって、
前記畳み込み層において、複数の出力ニューロンの各々は複数の入力ニューロンの少なくとも1つと結合され、
前記演算装置は、
前記複数の入力ニューロンの少なくとも一部の値として入力データを格納する第1のレジスタと、
複数のポートと、
前記複数のポートの各々にそれぞれ個別に対応する複数の処理要素群とを備え、各前記処理要素群は、対応するポートを介して前記第1のレジスタにアクセス可能であり、
各前記処理要素群は複数の処理要素を含み、各前記処理要素は、前記複数の出力ニューロンに少なくとも1つに対応付けられ、対応する出力ニューロンに結合された1つ以上の入力ニューロンの値に対して重み係数を乗算して累加する積和演算を実行し、
前記演算装置は、さらに、
各前記処理要素に個別に対応し、各々が対応する処理要素の積和演算結果に活性化関数を適用する複数の活性化器と、
前記複数の活性化器の出力を格納する第2のレジスタとを備え、
前記演算装置は、前記複数の出力ニューロンを、当該複数の出力ニューロンのインデックス番号の順番である第1の順番とは異なる第2の順番で、前記複数の処理要素群の各処理要素に対応付けるように構成され、
前記演算装置は、さらに、
前記複数の活性化器の出力を、前記複数の出力ニューロンの元のインデックス番号の順番である前記第1の順番に並べ替えるための切替スイッチを備え、
前記第2のレジスタは、前記切替スイッチによって並べ替えられた後の前記第1の順番で前記複数の活性化器の出力結果を格納する、演算装置。 - 前記複数の処理要素群の各々は、
当該処理要素群に含まれる前記複数の処理要素での積和演算の実行に必要な複数の入力ニューロンのインデックス番号を格納する第1のメモリを含む、請求項1に記載の演算装置。 - 前記複数の処理要素群の各々は、
前記第1のメモリに格納されたインデックス番号を有する入力ニューロンの値を、対応する前記ポートを介して前記第1のレジスタから読み出し、読み出した入力ニューロンの値を当該処理要素群に含まれる前記複数の処理要素に分配する、請求項2に記載の演算装置。 - 各前記処理要素群に含まれる複数の処理要素の各々は、対応する前記第1のメモリに格納されたインデックス番号にそれぞれ対応付けられた重み係数を格納するための第2のメモリを含む、請求項2または3に記載の演算装置。
- 前記複数の出力ニューロンを、前記第2の順番で前記複数の処理要素群の各処理要素に対応付けた場合のほうが、前記第1の順番で前記複数の処理要素群の各処理要素に対応付けた場合よりも、各前記処理要素で積和演算を実行するために必要な入力データを前記第1のレジスタから読み出す回数が減少する、請求項1~4のいずれか1項に記載の演算装置。
- 前記畳み込み層の演算は、前記複数の入力ニューロンのうちで畳み込みカーネルが対応する範囲を順次変更しながら、前記対応する範囲の入力ニューロンに対して畳み込み演算を行うことを含み、
前記第1のレジスタは、前記対応する範囲の異なる、複数の第1の入力ニューロンおよび複数の第2の入力ニューロンを、入力データとして同時に格納するように構成され、
前記第2のレジスタは、前記複数の第1の入力ニューロンの畳み込み演算によって生成された複数の第1の出力ニューロンの値と、前記複数の第2の入力ニューロンの畳み込み演算によって生成された複数の第2の出力ニューロンの値とを、出力データとして同時に格納するように構成され、
前記演算装置は、前記第2の順番において、前記複数の第1の出力ニューロンのうちの1つと前記複数の第2の出力ニューロンのうちの1つとを、同一の前記処理要素群に属する互いに異なる前記処理要素に対応付けるように構成される、請求項1~5のいずれか1項に記載の演算装置。 - 前記畳み込みニューラルネットワークは、前記畳み込み層を含む複数の層が先入れ先出し方式のキューを介して相互に直列に接続され、
前記演算装置は、入力側のキューと前記第1のレジスタとの間に接続されたラインバッファをさらに含み、
前記ラインバッファを介在することによって、前記第1のレジスタは前記入力側のキューから与えられる入力データの順番と異なる順番で、前記複数の処理要素群での演算に必要なデータを格納することができる、請求項1~6のいずれか1項に記載の演算装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018093750 | 2018-05-15 | ||
JP2018093750 | 2018-05-15 | ||
PCT/JP2019/002780 WO2019220692A1 (ja) | 2018-05-15 | 2019-01-28 | 演算装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019220692A1 JPWO2019220692A1 (ja) | 2021-04-30 |
JP7046171B2 true JP7046171B2 (ja) | 2022-04-01 |
Family
ID=68540100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020518966A Active JP7046171B2 (ja) | 2018-05-15 | 2019-01-28 | 演算装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210241083A1 (ja) |
JP (1) | JP7046171B2 (ja) |
WO (1) | WO2019220692A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6896306B1 (ja) * | 2020-04-13 | 2021-06-30 | LeapMind株式会社 | ニューラルネットワーク回路、エッジデバイスおよびニューラルネットワーク演算方法 |
JP7351814B2 (ja) * | 2020-08-17 | 2023-09-27 | トヨタ自動車株式会社 | 車両応答予測装置、学習装置、方法、及びプログラム |
WO2023140778A1 (en) * | 2022-01-18 | 2023-07-27 | Agency For Science, Technology And Research | Convolution engine and methods of operating and forming thereof |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018022339A (ja) | 2016-08-03 | 2018-02-08 | 富士通株式会社 | 演算処理装置及び演算処理装置の制御方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7403525B2 (en) * | 2002-05-15 | 2008-07-22 | Broadcom Corporation | Efficient routing of packet data in a scalable processing resource |
US8010966B2 (en) * | 2006-09-27 | 2011-08-30 | Cisco Technology, Inc. | Multi-threaded processing using path locks |
US8379659B2 (en) * | 2010-03-29 | 2013-02-19 | Intel Corporation | Performance and traffic aware heterogeneous interconnection network |
US8712941B2 (en) * | 2011-09-21 | 2014-04-29 | Brain Corporation | Elementary network description for efficient link between neuronal models and neuromorphic systems |
JP6205780B2 (ja) * | 2013-03-27 | 2017-10-04 | 凸版印刷株式会社 | 照明装置及び検査装置 |
US20150324690A1 (en) * | 2014-05-08 | 2015-11-12 | Microsoft Corporation | Deep Learning Training System |
US10275247B2 (en) * | 2015-03-28 | 2019-04-30 | Intel Corporation | Apparatuses and methods to accelerate vector multiplication of vector elements having matching indices |
US20180082181A1 (en) * | 2016-05-13 | 2018-03-22 | Samsung Electronics, Co. Ltd. | Neural Network Reordering, Weight Compression, and Processing |
US10621486B2 (en) * | 2016-08-12 | 2020-04-14 | Beijing Deephi Intelligent Technology Co., Ltd. | Method for optimizing an artificial neural network (ANN) |
IL293688B2 (en) * | 2016-10-04 | 2024-02-01 | Magic Leap Inc | Efficient data layouts for convolutional neural networks |
WO2018108126A1 (zh) * | 2016-12-14 | 2018-06-21 | 上海寒武纪信息科技有限公司 | 神经网络卷积运算装置及方法 |
CN106844294B (zh) * | 2016-12-29 | 2019-05-03 | 华为机器有限公司 | 卷积运算芯片和通信设备 |
US11216722B2 (en) * | 2016-12-31 | 2022-01-04 | Intel Corporation | Hardware accelerator template and design framework for implementing recurrent neural networks |
CN108269224B (zh) * | 2017-01-04 | 2022-04-01 | 意法半导体股份有限公司 | 可重新配置的互连 |
CN207440765U (zh) * | 2017-01-04 | 2018-06-01 | 意法半导体股份有限公司 | 片上系统和移动计算设备 |
US10402527B2 (en) * | 2017-01-04 | 2019-09-03 | Stmicroelectronics S.R.L. | Reconfigurable interconnect |
WO2018193353A1 (en) * | 2017-04-17 | 2018-10-25 | Cerebras Systems Inc. | Neuron smearing for accelerated deep learning |
US10509846B2 (en) * | 2017-12-13 | 2019-12-17 | Intel Corporation | Accelerator for processing data |
US20190303297A1 (en) * | 2018-04-02 | 2019-10-03 | Intel Corporation | Apparatus, methods, and systems for remote memory access in a configurable spatial accelerator |
EP3557485B1 (en) * | 2018-04-19 | 2021-05-26 | Aimotive Kft. | Method for accelerating operations and accelerator apparatus |
FI3557425T3 (fi) * | 2018-04-19 | 2024-07-10 | Aimotive Kft | Kiihdytin ja järjestelmä operaatioiden kiihdyttämiseksi |
US11042370B2 (en) * | 2018-04-19 | 2021-06-22 | Intel Corporation | Instruction and logic for systolic dot product with accumulate |
-
2019
- 2019-01-28 WO PCT/JP2019/002780 patent/WO2019220692A1/ja active Application Filing
- 2019-01-28 JP JP2020518966A patent/JP7046171B2/ja active Active
- 2019-01-28 US US17/049,065 patent/US20210241083A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018022339A (ja) | 2016-08-03 | 2018-02-08 | 富士通株式会社 | 演算処理装置及び演算処理装置の制御方法 |
Non-Patent Citations (2)
Title |
---|
大場百香 ほか,マルチコアニューラルネットワークアクセラレータにおけるデータ転送のブロードキャスト化,情報処理学会 研究報告 組込みシステム(EMB) 2017-EMB-044,日本,情報処理学会,2017年03月02日,pp.1-6,ISSN:2188-868X, 特に第2.2節 |
武者千嵯 ほか,大規模マルチFPGAシステムでの深層学習アクセラレート,電子情報通信学会技術研究報告 CPSY2017-40-CPSY2017-49 コンピュータシステム,日本,一般社団法人電子情報通信学会,2017年10月31日,第117巻,第278号,pp.1-6,ISSN:0913-5685, 特に第3章 |
Also Published As
Publication number | Publication date |
---|---|
WO2019220692A1 (ja) | 2019-11-21 |
JPWO2019220692A1 (ja) | 2021-04-30 |
US20210241083A1 (en) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7474586B2 (ja) | テンソル計算データフロー加速器半導体回路 | |
TWI841632B (zh) | 用於矩陣的空間地域轉換之方法及系統 | |
JP6857286B2 (ja) | ニューラルネットワークアレイの性能の改善 | |
KR101959376B1 (ko) | 멀티 코어 최적화된 순환 신경망을 위한 시스템 및 방법 | |
JP7046171B2 (ja) | 演算装置 | |
US20200301994A1 (en) | Methods and Systems for Implementing a Convolution Transpose Layer of a Neural Network | |
Yuan et al. | High performance CNN accelerators based on hardware and algorithm co-optimization | |
US20190065149A1 (en) | Processor and method for outer product accumulate operations | |
US6073154A (en) | Computing multidimensional DFTs in FPGA | |
KR101196566B1 (ko) | 멀티 프로세서 시스템 및 그 정보처리방법 | |
JP7062659B2 (ja) | 特殊目的計算ユニットを用いたハードウェアダブルバッファリング | |
CN107993186A (zh) | 一种基于Winograd算法的3D CNN加速方法及系统 | |
CN108170639B (zh) | 基于分布式环境的张量cp分解实现方法 | |
CN114358237A (zh) | 多核硬件中神经网络的实现方式 | |
WO2023065983A1 (zh) | 计算装置、神经网络处理设备、芯片及处理数据的方法 | |
CN114722994A (zh) | 在硬件中实现全连接神经网络层 | |
CN110414672B (zh) | 卷积运算方法、装置及系统 | |
CN115048215A (zh) | 一种基于混合压缩格式的对角矩阵spmv在gpu上的实现方法 | |
CN114792124A (zh) | 在硬件中实施扩张卷积 | |
CN110377874B (zh) | 卷积运算方法及系统 | |
US20230080578A1 (en) | Dot product array | |
JP2021531572A (ja) | Mac回路中の異なるカーネルを使用してデータのセットに対して連続するmac演算を実施すること | |
Jain-Mendon et al. | A hardware–software co-design approach for implementing sparse matrix vector multiplication on FPGAs | |
TWI779475B (zh) | 圖形處理器及其加速方法 | |
US11734548B2 (en) | Integrated circuit chip device and related product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201009 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201009 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220111 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220222 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220322 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7046171 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |