JP2019109892A - 計算のためのシステムと方法 - Google Patents
計算のためのシステムと方法 Download PDFInfo
- Publication number
- JP2019109892A JP2019109892A JP2018235311A JP2018235311A JP2019109892A JP 2019109892 A JP2019109892 A JP 2019109892A JP 2018235311 A JP2018235311 A JP 2018235311A JP 2018235311 A JP2018235311 A JP 2018235311A JP 2019109892 A JP2019109892 A JP 2019109892A
- Authority
- JP
- Japan
- Prior art keywords
- data
- processing element
- node
- circuits
- node link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 198
- 230000015654 memory Effects 0.000 claims abstract description 113
- 238000004891 communication Methods 0.000 claims abstract description 34
- 239000004744 fabric Substances 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 65
- 238000012546 transfer Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 27
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000001537 neural effect Effects 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 5
- 229940050561 matrix product Drugs 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 206010000210 abortion Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17337—Direct connection machines, e.g. completely connected computers, point to point communication networks
- G06F15/17343—Direct connection machines, e.g. completely connected computers, point to point communication networks wherein the interconnection is dynamically configurable, e.g. having loosely coupled nearest neighbor architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/16—Handling requests for interconnection or transfer for access to memory bus
- G06F13/1668—Details of memory controller
- G06F13/1673—Details of memory controller using buffers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/15—Correlation function computation including computation of convolution operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/52—Multiplying; Dividing
- G06F7/523—Multiplying only
- G06F7/533—Reduction of the number of iteration steps or stages, e.g. using the Booth algorithm, log-sum, odd-even
- G06F7/5332—Reduction of the number of iteration steps or stages, e.g. using the Booth algorithm, log-sum, odd-even by skipping over strings of zeroes or ones, e.g. using the Booth Algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/544—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices for evaluating functions by calculation
- G06F7/5443—Sum of products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/38—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
- G06F7/48—Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
- G06F7/57—Arithmetic logic units [ALU], i.e. arrangements or devices for performing two or more of the operations covered by groups G06F7/483 – G06F7/556 or for performing logical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3889—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by multiple instructions, e.g. MIMD, decoupled access or execute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3893—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator
- G06F9/3895—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator for complex operations, e.g. multidimensional or interleaved address generators, macros
- G06F9/3897—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled in tandem, e.g. multiplier-accumulator for complex operations, e.g. multidimensional or interleaved address generators, macros with adaptable data path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/10—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
- G11C7/1006—Data managing, e.g. manipulating data before writing or reading out, data bus switches or control circuits therefor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computer Hardware Design (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Complex Calculations (AREA)
- Advance Control (AREA)
- Multi Processors (AREA)
- Debugging And Monitoring (AREA)
- Logic Circuits (AREA)
Abstract
Description
前記第1ノードリンク回路は、データレジスタ及び設定値を格納するように構成された設定レジスタを包含し、前記第1ノードリンク回路は、前記入力において複数の各々のデータワードを受信するように構成され、前記データワードの各々は制御部分及びデータ部分を有し、前記データワードのうちの一つがデータワードをノードリンク設定ワードとして識別する制御部分を有する場合、前記設定レジスタに前記ノードリンク設定ワードの前記データ部分を前記設定値として格納し、前記データワードが、全てノードリンク設定ワードではない場合、前記設定値に基づき前記入力のうち、一つから前記データレジスタにデータワードを伝送し、及び/又は、前記入力のうち、一つから前記出力にデータワードを伝送し、及び/又は、前記データレジスタから前記出力にデータワードを伝送する。
一つ以上の前記行キャッシュは、前記データワードのシーケンス(sequence)を外にストリーム(stream out)し、前記データワードのシーケンスを内にストリーム(stream in)するように構成される。
前記設定するステップは、前記スクラッチメモリが複数のノードリンク設定ワードを伝送するステップと、ここで、前記複数のノードリンク設定ワードの各々は、前記複数のノードリンク回路のうち、一つのノードリンク回路に送られ、前記複数のノードリンク回路のうち、第1ノードリンク回路が前記第1ノードリンク回路に送られるデータワードを受信するステップと、ここで、前記第1ノードリンク回路は、前記複数のプロセシング素子回路のうち、第1プロセシング素子回路の一つの入力に連結される一つの出力を有し、
前記第1ノードリンク回路が、前記第1ノードリンク回路の第1入力において受信されたデータワードを前記第1ノードリンク回路の前記出力に伝達するように、前記第1ノードリンク回路が前記第1ノードリンク回路の構成を設定するステップと、前記第1ノードリンク回路のうち、前記第1入力によりプロセシング素子設定ワードを受信するステップと、前記第1ノードリンク回路の前記出力により前記プロセシング素子設定ワードを前記第1プロセシング素子回路を伝送するステップと、前記第1プロセシング素子回路が、前記第1プロセシング素子回路の設定レジスタ(register)に前記プロセシング素子設定ワードのデータ部分を格納するステップと、を包含する。
図2の表記法において、例えば、一番目の二つの被演算子は、時刻(t0)にプロセシング素子120により受信されるようにスケジュールされる。時刻(t0)にプロセシング素子120により受信されるために、メモリAからの第1被演算子は、時刻(t_dA)に伝送され、ここで下付き添字dAは、クロック周期を単位とする時間を示す。例えば、メモリAからの一番目の被演算子は、dAクロック周期だけ時間(t0)以前に伝送され、ここでdAは、通信ファブリック125が、メモリAからプロセシング素子120に被演算子を伝達するために使用するクロック周期を単位とする時間(以下、単に、時間という)。同様に、時刻(t0)において、プロセシング素子120により受信されるために、メモリBからの一番目の被演算子は、時刻(t_dB)に伝送される。例えば、メモリBからの一番目の被演算子は、dB×クロック周期だけ時刻(t0)以前に伝送され、ここでdBは、通信ファブリック125がメモリBからプロセシング素子120に被演算子を伝達するために使用する時間である。
伝達遅延時間dA及びdBは同一であるか又は異なる。各々の伝達遅延時間は、データが通信ファブリック125を介して伝達される経路及び経路に沿って存在するノードの設定(ノードの各々は、設定可能な遅延を有し得る)により異なり得る。残りの被演算子は、図示されたように、クロック周期当たり、メモリごとに、一つずつメモリA及びメモリBから順次伝送される。エレメントワイズの加算又は減算のような他のエレメントワイズの演算は、以下でより詳細に説明されるように、適切な演算を遂行するために設定されたプロセシング素子120を用いて同一の方式で遂行される。
一番目の被乗数の一つの行と二番目の被乗数の対応する、一つの行の各々のエレメントワイズの積は、図2の各々の回路を用いて形成される。これにより、エレメントワイズの積が3個の因子により並列化される方式で遂行される。3個のベクトル演算(乗算される行の3ペアと対応される)が並列に遂行される。
他の実施例においては、同一の演算が、直列に遂行され(メモリAが単一のストリームで第1被演算子の12個のエレメントを一度に一つずつ伝送し、メモリBが単一のストリームで第2非演算子の12個のエレメントを一度に一つずつ伝送することにより)、又は同一の演算が並列化の他の方式で遂行されることができる(例えば、4個のプロセシング素子120の各々が、一番目の被乗数の各々の列と、二番目の被乗数の対応する列とのエレメントワイズの積の形成に関与する3個の乗算を遂行することにより、4個のプロセシング素子120により演算が並列化される)。
第1プロセシング素子120aは、被演算子のストリームの各々のエレメントをカーネルの第1のエレメント(この例示において、1)と乗算し、第2プロセシング素子120bは、被演算子のストリームの各々のエレメントをカーネルの第2のエレメント(この例示において、2)と乗算する。積のストリームは、第3プロセシング素子120cに伝送される。積の二番目のストリーム(第2プロセシング素子120bにより生成された)は、積(a・1及びb・2)が同時に第3プロセシング素子120cに到着するように、1クロック周期だけ遅延されて伝送される。
通信ファブリック125又は第3プロセシング素子120cは、以下でより詳細に説明されるように、積(a・2)が通信ファブリック125又は第3プロセシング素子120cにより捨てられるように、積(a・1及びb・2)の到達以前のクロック周期の最中に再設定される。もしそうしなければ、以前のクロック周期で積(a・2)は、第3プロセシング素子120cにより受信されて処理されるであろう。積(d・1)も同様の方式で捨てられる。第3プロセシング素子120cは、図示されたように積(捨てられた積を除外して)をペアで加算してその和をメモリCに伝送する。
積のストリームは、第3プロセシング素子120cに伝送される。積の二番目のストリーム(第2プロセシング素子120bにより生成された)は、積(a・1及びb・2)が同時に第3プロセシング素子120cに到着するように、1クロック周期だけ遅延されて伝送される。コンボルーションの一部分ではない積は捨てられ(一つ以上のプロセシング素子120及び通信ファブリック125を再設定することにより)、第3プロセシング素子120cは、図示されたように、積(捨てられた積を除外して)をペアで加える。第4プロセシング素子120d、第5プロセシング素子120e及び第6プロセシング素子120fは共に、同様に入力マトリックスの二番目の行とカーネルの二番目の行の積の和を形成する。第3プロセシング素子120c及び第6プロセシング素子120fにより生成された和は、第7プロセシング素子120gに提供され、第7プロセシング素子120gは図示されたように、最終コンボルーションを形成する。
図8の実施例においては、第6プロセシング素子120fは、入力マトリックスの二番目の行とカーネルの二番目の行の対応する項の積のペアの和を形成する。図9の実施例においては、各々の項の積のペアの内、一つの項の積は0であり、これにより第7プロセシング素子120gでは、第3プロセシング素子120cにより生成されている他の項の積が代わりに利用される。
一般的な、即ち「密集性(dense)」ベクトルの表現において次のエレメントがノンゼロであればアドレス増分は1であり、0であれば、アドレス増分は1に現在のエレメントに続く0の個数を加算したのである。これは、表1の2つの例示で示される。例えば、第1ベクトルは、4個のノンゼロエレメント([a,b,c,d])を有する。エレメントの全てがノンゼロであるので、このベクトルの希薄性表現の各々の2−タプルの一番目のエレメントは、密集性表現(dense representation)の対応するエレメントの値と同一であり、各々の2−タプルの二番目のエレメントは1である。第2ベクトルは4個のエレメントを有し、密集性表現では[1,2,0,4]と記載(write)される(即ち、第3のエレメントは0である)。第2ベクトルの希薄性表現において、0は省略され、これにより希薄性表現は3個の2−タプルのみを有する。0の値以前の値に対する2−タプルは、このエレメントの後に1つの0(ゼロ)が省略されたことを表わすように2の増分を有する。
ベクトル([1,2,0,4])は、メモリBから提供される。このベクトルは、0エレメントが二番目のエレメントの次に削除される信号に対し、三番目の位置に0エレメントを包含するので、二番目の2−タプルは二番目のエレメント(アドレス増分)「2」を有する。希薄性表現への変換結果は、図示されたように、他のメモリであるメモリCに格納される。希薄性表現から密集性表現への変換は、図13に図示されたように、同様の方式で、スクラッチメモリ115のメモリコントローラの適切な回路により遂行される。
即ち、ベクトル[a,b,c,d]の希薄性表現、[{a,1} {b,1} {c,1} {d,1}]は、メモリAから提供される。このベクトルは0エレメントを包含しないので(そして、これにより各々のアドレス増分は1であるので)、密集性表現への変換は、このベクトルにおける各々のエレメントの2−タプルを、該2−タプルの一番目のエレメントと同一の密集性表現のエレメントに変換する効果を有する。ベクトル([1,2,0,4])の希薄性表現、[{1,1} {2,2} {4,1}]は、メモリBから提供される。このベクトルは、二番目の2−タプルの二番目のエレメントにおいて、2のアドレス増分を有するので、二番目の2−タプルは、密集性表現の二つのエレメント(2及び0)に拡張される。他の二つの2−タプルの各々に対してアドレス増分は1であり、従って、該2−タプルの一番目のエレメントは、ベクトルの密集性表現の対応するエレメント値となる。対応するエレメント値は[1,2,0,4]である。密集性表現への変換結果は、図示されたように他のメモリであるメモリCに格納される。
図14の例示において、ストリーム整列ステップは、一番目のベクトルから三番目の2−タプルを削除し、それに先行する2−タプルのアドレス増分を1だけ({b,1}から{b,2}に)増加させる効果を有する。
但し、遂行される演算が加算であるか減算であると、何れか一方のベクトルが削除されていない2タプルを有する場合には、何れか一方のベクトルの各々の削除された2−タプルは、2−タプルの一番目のエレメントが0(ゼロ)を有する2−タプルとして回復されなければならない(そして、回復された2−タプルに先行する2−タプルのアドレス増分は1だけ減少される)。
ノードリンクは、4入力マルチプレクサ(MUX:multiplexer)415、データレジスタ(RG)420及び2入力マルチプレクサ425を包含する。設定レジスタの2個のビットは、4入力マルチプレクサ415を制御し、4個の入力のうち、何れがノードリンク405の出力と連結されるかを選択する。設定レジスタの1個のビットは、データレジスタ420のクロック活性化(enable)入力(CE)を制御し、これにより(クロックが非活性化されている場合に)定数を格納(クロック入力が活性化されている最後の周期に格納された定数)するために利用される。2入力マルチプレクサ425(設定レジスタ410の1個のビットにより制御される)の設定は、ノードリンクの出力が、4入力マルチプレクサ415の出力値であるか、又はデータレジスタ420に格納された(定数又は遅延された)値であるか否かを判定する。幾つかの実施例において、各々のノードリンクは、出力に追加レジスタを包含する(即ち、各々の出力はレジスタに格納される)。
スクラッチメモリ115のうちの一つは、ノード設定ワードのシーケンス520aを伝送する。表2を参照して以下により詳細に説明されるように、シーケンス520aの各々はノードリンク405により、例えば、一番目の4個のビットが、二進値0000を有する結果として認識される。シーケンス520aの一番目の設定コマンド(command)は、第1ノード430aのノードリンクにより、(i)ノード設定コマンドとして(0000である一番目の4個のビットの結果として)、(ii)ノードリンクでアドレスが指定されることとして(ノードリンクに格納された固有の8ビット識別子と同一の次の8ビットの結果として)認識される。
ノードリンクは、第1ノード430aの自分の出力へ非演算(NOP: no operation)データワードを伝送し、第1ノード430aの他のノードリンクに現在受信されたデータワードが抑制されるべきことを報らせる。第1ノード430aの他のノードリンクの各々は、第1ノード430aの各々の出力へ非演算データワードを伝送する。
ノード設定ワードのシーケンス520aの二番目である次のデータワード(即ち、ノード設定ワードの減少されたシーケンス520b)は、第1ノード430aにより第2ノード430bに伝達される。データワードの制御部分により、ノードリンク405についての設定データを包含するものとして識別されるデータワードは、「ノードリンク設定ワード」として称され、データワードの制御部分により、プロセシング素子120についての設定データを包含するものとして識別されるデータワードは、「プロセシング素子設定ワード」として称される。
二進0001と同一の制御ワードを包含する任意のデータワードは、プロセシング素子設定ワードであり、データワードを受信するプロセシング素子120により同様の方式で処理される。即ち、プロセシング素子120がこのようなデータワードを受信する場合、プロセシング素子120は、データワードのデータビットを制御レジスタに格納する。二進0011と同一の制御部分を包含するSTOPワードは、STOPワードを受信するプロセシング素子120が累積器を初期化し、プロセシング素子120が、他のプロセシング素子設定ワードを受信するまでデータ処理を中止する。STOPワードは、プロセシング素子120において乗算及び累積演算を終了するのに用いられる。
(i)入力値を変更しないまま伝達し、
(ii)1クロック周期だけ入力値を遅延させ、又は、
(iii)複数の次の計算において利用される定数値を格納する、のに用いられる。
乗算器620は、入力回路610により供給された値の積を形成し、加算器630は、値のペアの和を形成する。第1データスイッチングマルチプレクサ640aは、加算器630が一番目の入力に乗算器620の出力を受信するか、又は入力回路610のうち、一番目の入力回路の出力を受信するかを判定する。第2データスイッチングマルチプレクサ640bは、加算器630がペアで加算を遂行するか又は累積器として動作するかを判定する。プロセシング素子120は、2個の出力レジスタ650をさらに包含する。
[A] multiply(乗算)(FP16,FP16),(u/int8/16,u/int8/16),add(加算)(FP16,FP16),(u/int8/16,u/int8/16),subtract(減算)(FP16,FP16),(u/int8/16,u/int8/16),negate(否定)(FP16,FP16),(u/int8/16,u/int8/16),
[B] cast(類型変換) FP16 to int16/uint16/int8/uint8,cast(類型変換) int16/uint16/int8/uint8 to FP16,cast(類型変換) FP16 to boolean,cast(類型変換) boolean to FP16,max(最大)(FP16,FP16),min(最小)(FP16,FP16);
[C] boolean(ブール代数): greater(大)less(小),equal(等しい),greater−or−equal(非小),less−or−equal(非大),logical(論理) and(AND),or(OR),negate(NOT),xor(XOR);
[D] bitwise(ビットレベルブール代数): AND,OR,NOT,XOR, int8/16,uint8/16,shift_left/right(シフト左/右), arith/circular,ints,uints,及びisNaN(FP16)−>boolean,isInf(FP16)、を包含する。
以上[A]〜[D]において使用された表記法の内、斜線「/」は「又は」を意味し、これにより、例えば、「u/int8/16」は、「uint8,uint16,int8、又はint16」を意味する。
各々の行キャッシュは、図27に図示されたように、二重バッファ(buffer)として具現される。メモリバンク720は、スクラッチメモリ115をホスト中央処理装置(CPU,central processing unit)に連結するAXI(Advanced eXtensible Interface)ブリッジ(bridge)を介して直接メモリアクセス(DMA: direct memory access)によりアクセスされる。ホストCPUは、作動中に、メモリバンク720をプログラムし、メモリコントローラ710に対してスタートコマンドを発行する。それを受けてメモリコントローラ710は、通信ファブリック125に通信ファブリック125のノード430及びプロセシング素子120を設定するための一番目のデータ及び演算を遂行するための二番目のデータのストリーミング(streaming)出力を開始する。
幾つかの実施例において、SRAMはキャッシュとペアをなす。データは、SRAMからの連続的リード(read)を含むストリーミング方式でアクセスされる。SRAMへの書き込み及びSRAMからの読み出しは、電力の観点から比較的高コストである。従って、電力を節約するため、データは、キャッシュラインにコピーされ、キャッシュラインからストリームされる。キャッシュは、静的に(スケジュールされる。
115 スクラッチメモリ
120、120a〜120f プロセシング素子(プロセッシング素子回路))
125 通信ファブリック
405 ノードリンク(ノードリンク回路)
410 設定レジスタ
415 4入力マルチプレクサ
420 データレジスタ
425 2入力マルチプレクサ
430, 430a〜430d ノード(ノード回路)
432 有限状態マシン
435 制御回路
440 設定ワード感知回路
520a、520b シーケンス
610 入力回路
680 数学回路
710 メモリコントローラ
720 メモリバンク
Claims (20)
- 計算のためのシステムであって、
複数のプロセシング素子回路と、
複数のノード(node)回路を包含する通信ファブリック(fabric)と、
スクラッチメモリと、を包含し、
前記スクラッチメモリは、前記通信ファブリックを介して前記プロセシング素子回路と連結され、
一つ以上の前記プロセシング素子回路は、設定値を格納するように構成された設定レジスタ(register)を包含し、
一つ以上の前記プロセシング素子回路は、
2個の入力から2個の各々のデータワードを受信し、前記2個のデータワードの各々は、制御部分及びデータ部分を有し、
前記2個のデータワードのうち、一つがデータワードをプロセシング素子設定(configuration)ワードとして識別する制御部分を有する場合、前記設定レジスタに前記プロセシング素子設定ワードの前記データ部分を前記設定値として格納し、
前記2個のデータワードが、全てプロセシング素子設定ワードではない場合、前記設定値に基づき前記2個のデータワードに対する演算を遂行するように構成された、ことを特徴とするシステム。 - 前記演算を遂行することは、
前記設定値がエレメントワイズの乗算を指定(specify)する場合、前記2個のデータワードのうちの第1データワードの前記データ部分に、前記2個のデータワードのうちの第2データワードの前記データ部分を乗算することを包含する、ことを特徴とする請求項1に記載のシステム。 - 前記演算を遂行することは、
前記設定値がエレメントワイズの加算を指定する場合、前記2個のデータワードのうちの第1データワードの前記データ部分に、前記2個のデータワードのうちの第2データワードの前記データ部分を加算することを包含する、ことを特徴とする請求項1に記載のシステム。 - 前記演算を遂行することは、
前記設定値が乗算及び累積を指定する場合、
前記2個のデータワードのうちの第1データワードの前記データ部分に前記2個のデータワードのうちの第2データワードの前記データ部分を乗算して積を形成することと、
前記積を累積器(accumulator)の累積値に加算することを包含する、ことを特徴とする請求項1に記載のシステム。 - 前記プロセシング素子回路のうちの一つは、5000個以下のゲート(gate)を包含する、ことを特徴とする請求項1に記載のシステム。
- 前記ノード回路のうちの一つは、2000個以下のゲートを包含する、ことを特徴とする請求項1に記載のシステム。
- 計算のためのシステムであって、
複数のプロセシング素子回路と、
複数のノード(node)回路を包含する通信ファブリック(fabric)と、
スクラッチメモリと、を包含し、
前記スクラッチメモリは、前記通信ファブリックを介して前記プロセシング素子回路と連結され、
一つ以上の前記ノード回路は複数のノードリンク回路を包含し、
前記複数のノード回路のうち、第1ノード回路の前記複数のノードリンク回路のうち、第1ノードリンク回路は複数の入力及び一つの出力を有し、
前記第1ノードリンク回路は、
データレジスタと、
設定値を格納するように構成された設定レジスタと、を包含し、
前記第1ノードリンク回路は、前記入力において各々が制御部分及びデータ部分を有する複数の各々のデータワードを受信し、
前記データワードのうちの一つが、データワードをノードリンク設定ワードとして識別する制御部分を有する場合、前記設定レジスタに前記ノードリンク設定ワードの前記データ部分を前記設定値として格納し、
前記データワードが、全てノードリンク設定ワードではない場合、
前記設定値に基づき、
前記入力のうち、一つから前記データレジスタにデータワードを伝送し、及び/又は、
前記入力のうち、一つから前記出力にデータワードを伝送し、及び/又は、
前記データレジスタから前記出力にデータワードを伝送するように構成された、ことを特徴とするシステム。 - 一つ以上の前記ノード回路は、
実質的に直交する方向において、前記ノード回路の内側に向かう4個の入力と、
実質的に直交する方向において、前記ノード回路の外側に向かう4個の出力と、を有する、ことを特徴とする請求項7に記載のシステム。 - 一つ以上の前記ノード回路のうち、一つのノード回路は4個のノードリンク回路を包含し、前記4個のノードリンク回路の各々は、
前記ノード回路の前記4個の入力に各々連結される4個の入力と、
前記ノード回路の前記4個の出力のうち、各々の一つに連結される一つの出力と、を有する、ことを特徴とする請求項8に記載のシステム。 - 前記プロセシング素子回路のうちの一つは、5000個以下のゲートを包含する、ことを特徴とする請求項7に記載のシステム。
- 前記ノード回路のうちの一つは、2000個以下のゲートを包含する、ことを特徴とする請求項7に記載のシステム。
- 前記スクラッチメモリは、
メモリバンク(bank)と、
メモリコントローラと、を包含し、
前記メモリコントローラは複数の行キャッシュ(cache)を包含し、
一つ以上の前記行キャッシュは、前記データワードと同一のビット幅を有し、前記メモリコントローラは、前記メモリバンクから前記行キャッシュにデータを伝達し、前記行キャッシュから前記メモリバンクにデータを伝達するように構成され、
一つ以上の前記行キャッシュは、
前記データワードのシーケンス(sequence)を外にストリーム(stream)し、
前記データワードのシーケンスを内にストリームするように構成された、ことを特徴とする請求項7に記載のシステム。 - 前記行キャッシュのうちの一つは、二重バッファである、ことを特徴とする請求項12に記載のシステム。
- 各々の前記データワードのうち、前記制御部分は4ビットの幅を有し、
各々の前記データワードのうち、前記データ部分は16ビットの幅を有する、ことを特徴とする請求項12に記載のシステム。 - 計算方法であって、
プロセシングモジュールを設定するステップを包含し、前記プロセシングモジュールは、
複数のプロセシング素子回路と、
各々が複数の入力及び一つの出力を有する、複数のノードリンク回路を包含する通信ファブリック(fabric)と、
スクラッチメモリと、を包含し、
前記設定するステップは、
前記スクラッチメモリが、複数のノードリンク設定ワードを伝送するステップと、ここで、
前記複数のノードリンク設定ワードの各々は、前記複数のノードリンク回路のうち、一つのノードリンク回路に送られ、
前記複数のノードリンク回路のうち、第1ノードリンク回路が前記第1ノードリンク回路に送られるデータワードを受信するステップと、ここで、
前記第1ノードリンク回路は、前記複数のプロセシング素子回路のうち、第1プロセシング素子回路の一つの入力に連結される一つの出力を有し、
前記第1ノードリンク回路が、前記第1ノードリンク回路の第1入力において受信されたデータワードを、前記第1ノードリンク回路の前記出力に伝達するように、前記第1ノードリンク回路が前記第1ノードリンク回路の構成を設定するステップと、
前記第1ノードリンク回路のうち、前記第1入力によりプロセシング素子設定ワードを受信するステップと、
前記第1ノードリンク回路の前記出力により、前記プロセシング素子設定ワードを前記第1プロセシング素子回路に伝送するステップと、
前記第1プロセシング素子回路が、前記第1プロセシング素子回路の設定レジスタ(register)に前記プロセシング素子設定ワードのデータ部分を格納するステップと、を包含する、ことを特徴とする方法。 - 複数の積を計算するステップをさらに包含し、前記計算するステップは、
前記スクラッチメモリが、第1の複数のノードリンク回路を介して延伸する第1経路を通して、被演算子の第1シーケンス(sequence)を前記第1プロセシング素子回路に伝送するステップと、
前記スクラッチメモリが、第2の複数のノードリンク回路を介して延伸する第2経路を通して、被演算子の第2シーケンスを前記第1プロセシング素子回路に伝送するステップと、
前記第1プロセシング素子が、ペアごとの(pairwise)積のシーケンスを計算するステップと、を包含し、各々のペアごとの積は、
被演算子の前記第1シーケンスの一つの被演算子と、
被演算子の前記第2シーケンスの対応する一つの被演算子の積である、ことを特徴とする請求項15に記載の方法。 - 密集性表現(dense representation)から希薄性表現(sparse representation)に第1ベクトルを変換するステップをさらに包含し、前記第1ベクトルは、ノンゼロ値を有する第1エレメントを包含し、前記第1エレメントの直後には、ゼロ値を有する第2エレメントが続き、前記変換するステップは、前記第1エレメントを第1の2−タプル(tuple)に交替するステップを包含し、前記第1の2−タプルは、
前記第1ベクトルの前記第1エレメントと同一の第1のエレメントと、
1より大きい第2エレメントと、を有する、ことを特徴とする請求項16に記載の方法。 - 第2ベクトルの希薄性表現を前記第1ベクトルの前記希薄性表現と整列させるステップと、をさらに包含し、前記整列させるステップは、
前記第2ベクトルの前記希薄性表現から、前記第1ベクトルの前記第2エレメントに対応する2−タプルを削除するステップと、
前記第2ベクトルの第1の2−タプルの第2エレメントの値を増加させるステップと、を包含し、前記第2ベクトルの前記第1の2−タプルは、前記削除された2−タプルの直前に来る、ことを特徴とする請求項17に記載の方法。 - 前記複数のプロセシング素子回路のうち、一つのプロセシング素子回路が、前記第1ベクトルの前記第1の2−タプルの前記第1エレメントと前記第2ベクトルの前記第1の2−タプルの第1エレメントとを乗算して、結果として2−タプルの第1エレメントを形成するステップと、
前記結果としての2−タプルの第2エレメントを前記第1ベクトルの前記第1の2−タプルの前記第2エレメントと同一に設定するステップと、をさらに包含する、ことを特徴とする請求項18に記載の方法。 - 前記プロセシング素子回路のうちの一つは、5000個以下のゲートを包含し、前記ノードリンク回路のうちの一つは、500個以下のゲートを包含する、ことを特徴とする請求項15に記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762607882P | 2017-12-19 | 2017-12-19 | |
US62/607,882 | 2017-12-19 | ||
US15/916,189 US11360930B2 (en) | 2017-12-19 | 2018-03-08 | Neural processing accelerator |
US15/916,189 | 2018-03-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019109892A true JP2019109892A (ja) | 2019-07-04 |
JP7268996B2 JP7268996B2 (ja) | 2023-05-08 |
Family
ID=66814458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018235311A Active JP7268996B2 (ja) | 2017-12-19 | 2018-12-17 | 計算のためのシステムと方法 |
Country Status (5)
Country | Link |
---|---|
US (3) | US11360930B2 (ja) |
JP (1) | JP7268996B2 (ja) |
KR (1) | KR102649482B1 (ja) |
CN (1) | CN110059820A (ja) |
TW (1) | TWI795435B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022544512A (ja) * | 2019-08-14 | 2022-10-19 | グーグル エルエルシー | 特定用途向け集積回路のデュアルモード動作 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11232347B2 (en) * | 2017-04-17 | 2022-01-25 | Cerebras Systems Inc. | Fabric vectors for deep learning acceleration |
US11113603B1 (en) | 2017-05-01 | 2021-09-07 | Perceive Corporation | Training network with discrete weight values |
US11222257B1 (en) | 2018-04-20 | 2022-01-11 | Perceive Corporation | Non-dot product computations on neural network inference circuit |
US11531868B1 (en) | 2018-04-20 | 2022-12-20 | Perceive Corporation | Input value cache for temporarily storing input values |
US11783167B1 (en) | 2018-04-20 | 2023-10-10 | Perceive Corporation | Data transfer for non-dot product computations on neural network inference circuit |
US11568227B1 (en) | 2018-04-20 | 2023-01-31 | Perceive Corporation | Neural network inference circuit read controller with multiple operational modes |
US11531727B1 (en) | 2018-04-20 | 2022-12-20 | Perceive Corporation | Computation of neural network node with large input values |
US10740434B1 (en) | 2018-04-20 | 2020-08-11 | Perceive Corporation | Reduced dot product computation circuit |
US11210586B1 (en) | 2018-04-20 | 2021-12-28 | Perceive Corporation | Weight value decoder of neural network inference circuit |
US11049013B1 (en) | 2018-04-20 | 2021-06-29 | Perceive Corporation | Encoding of weight values stored on neural network inference circuit |
US11347297B1 (en) | 2019-01-23 | 2022-05-31 | Perceive Corporation | Neural network inference circuit employing dynamic memory sleep |
US11663454B2 (en) * | 2019-03-29 | 2023-05-30 | Aspiring Sky Co. Limited | Digital integrated circuit with embedded memory for neural network inferring |
US11514136B2 (en) * | 2019-05-17 | 2022-11-29 | Aspiring Sky Co. Limited | Circuit for neural network convolutional calculation of variable feature and kernel sizes |
US11625585B1 (en) | 2019-05-21 | 2023-04-11 | Perceive Corporation | Compiler for optimizing filter sparsity for neural network implementation configuration |
US20210306006A1 (en) | 2019-09-23 | 2021-09-30 | SK Hynix Inc. | Processing-in-memory (pim) devices |
KR20220015680A (ko) * | 2020-07-31 | 2022-02-08 | 삼성전자주식회사 | 딥러닝 연산 수행 방법 및 장치 |
KR20220015813A (ko) * | 2020-07-31 | 2022-02-08 | 삼성전자주식회사 | 딥러닝 연산 수행 방법 및 장치 |
US11599139B1 (en) * | 2021-09-03 | 2023-03-07 | Xepic Corporation Limited | Dynamic adjustment of root clock frequency in logic system design during verification |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152722A (ja) * | 1993-08-12 | 1995-06-16 | Hughes Aircraft Co | Simdマルチプロセッサ用動的再構成可能スイッチ装置 |
JP2003526157A (ja) * | 2000-03-08 | 2003-09-02 | サン・マイクロシステムズ・インコーポレイテッド | オンチップダイナミックramを備えたvliwコンピュータ処理アーキテクチャ |
JP2005531089A (ja) * | 2002-06-26 | 2005-10-13 | コーヒレント・ロジックス・インコーポレーテッド | 散在しているプロセッサと通信要素を備える処理システム |
JP2006018514A (ja) * | 2004-06-30 | 2006-01-19 | Fujitsu Ltd | 演算装置、演算装置の制御方法、プログラム及びコンピュータ読取り可能記録媒体 |
JP2006085574A (ja) * | 2004-09-17 | 2006-03-30 | Ip Flex Kk | データ処理システムおよびその制御方法 |
WO2014132669A1 (ja) * | 2013-03-01 | 2014-09-04 | アトナープ株式会社 | データ処理装置およびその制御方法 |
JP2015088058A (ja) * | 2013-10-31 | 2015-05-07 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188767A (ja) * | 1999-12-28 | 2001-07-10 | Fuji Xerox Co Ltd | ニューラルネットワーク演算装置及びニューラルネットワークの演算方法 |
US6836767B2 (en) * | 2001-10-03 | 2004-12-28 | International Business Machines Corporation | Pipelined hardware implementation of a neural network circuit |
US7593016B2 (en) * | 2004-04-08 | 2009-09-22 | Teranex Systems, Inc | Method and apparatus for high density storage and handling of bit-plane data |
US20130305020A1 (en) | 2011-04-01 | 2013-11-14 | Robert C. Valentine | Vector friendly instruction format and execution thereof |
US9237095B2 (en) * | 2012-02-17 | 2016-01-12 | Netronome Systems, Inc. | Island-based network flow processor integrated circuit |
US8990616B2 (en) | 2012-09-28 | 2015-03-24 | International Business Machines Corporation | Final faulty core recovery mechanisms for a two-dimensional network on a processor array |
US9160617B2 (en) | 2012-09-28 | 2015-10-13 | International Business Machines Corporation | Faulty core recovery mechanisms for a three-dimensional network on a processor array |
US10417525B2 (en) | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
EP3035204B1 (en) | 2014-12-19 | 2018-08-15 | Intel Corporation | Storage device and method for performing convolution operations |
EP3035203A1 (en) | 2014-12-19 | 2016-06-22 | Intel Corporation | Fine-grain storage interface and method for low power accelerators |
EP3035249B1 (en) | 2014-12-19 | 2019-11-27 | Intel Corporation | Method and apparatus for distributed and cooperative computation in artificial neural networks |
US9747546B2 (en) | 2015-05-21 | 2017-08-29 | Google Inc. | Neural network processor |
US10192162B2 (en) | 2015-05-21 | 2019-01-29 | Google Llc | Vector computation unit in a neural network processor |
US10474627B2 (en) * | 2015-10-08 | 2019-11-12 | Via Alliance Semiconductor Co., Ltd. | Neural network unit with neural memory and array of neural processing units that collectively shift row of data received from neural memory |
US10372947B2 (en) * | 2016-12-02 | 2019-08-06 | Microsoft Technology Licensing, Llc | Parsing, processing, and/or securing stream buffers |
-
2018
- 2018-03-08 US US15/916,189 patent/US11360930B2/en active Active
- 2018-09-06 TW TW107131346A patent/TWI795435B/zh active
- 2018-09-27 KR KR1020180115294A patent/KR102649482B1/ko active IP Right Grant
- 2018-12-17 JP JP2018235311A patent/JP7268996B2/ja active Active
- 2018-12-18 CN CN201811548728.2A patent/CN110059820A/zh active Pending
-
2022
- 2022-05-23 US US17/751,487 patent/US11645224B2/en active Active
-
2023
- 2023-04-11 US US18/133,306 patent/US11995027B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07152722A (ja) * | 1993-08-12 | 1995-06-16 | Hughes Aircraft Co | Simdマルチプロセッサ用動的再構成可能スイッチ装置 |
JP2003526157A (ja) * | 2000-03-08 | 2003-09-02 | サン・マイクロシステムズ・インコーポレイテッド | オンチップダイナミックramを備えたvliwコンピュータ処理アーキテクチャ |
JP2005531089A (ja) * | 2002-06-26 | 2005-10-13 | コーヒレント・ロジックス・インコーポレーテッド | 散在しているプロセッサと通信要素を備える処理システム |
JP2006018514A (ja) * | 2004-06-30 | 2006-01-19 | Fujitsu Ltd | 演算装置、演算装置の制御方法、プログラム及びコンピュータ読取り可能記録媒体 |
JP2006085574A (ja) * | 2004-09-17 | 2006-03-30 | Ip Flex Kk | データ処理システムおよびその制御方法 |
WO2014132669A1 (ja) * | 2013-03-01 | 2014-09-04 | アトナープ株式会社 | データ処理装置およびその制御方法 |
JP2015088058A (ja) * | 2013-10-31 | 2015-05-07 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022544512A (ja) * | 2019-08-14 | 2022-10-19 | グーグル エルエルシー | 特定用途向け集積回路のデュアルモード動作 |
US11811401B2 (en) | 2019-08-14 | 2023-11-07 | Google Llc | Dual-mode operation of application specific integrated circuits |
JP7423755B2 (ja) | 2019-08-14 | 2024-01-29 | グーグル エルエルシー | 特定用途向け集積回路のデュアルモード動作 |
Also Published As
Publication number | Publication date |
---|---|
US20230244632A1 (en) | 2023-08-03 |
TW201928701A (zh) | 2019-07-16 |
US20220292049A1 (en) | 2022-09-15 |
US20190187983A1 (en) | 2019-06-20 |
KR102649482B1 (ko) | 2024-03-20 |
US11360930B2 (en) | 2022-06-14 |
TWI795435B (zh) | 2023-03-11 |
CN110059820A (zh) | 2019-07-26 |
US11645224B2 (en) | 2023-05-09 |
KR20190074195A (ko) | 2019-06-27 |
JP7268996B2 (ja) | 2023-05-08 |
US11995027B2 (en) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019109892A (ja) | 計算のためのシステムと方法 | |
US9535877B2 (en) | Processing system with interspersed processors and communication elements having improved communication routing | |
Zhuo et al. | Scalable and modular algorithms for floating-point matrix multiplication on reconfigurable computing systems | |
WO2015044696A2 (en) | Computer architecture and processing method | |
Wu et al. | Compute-efficient neural-network acceleration | |
JP7183197B2 (ja) | 高スループットプロセッサ | |
Hartenstein et al. | On reconfgurable co-processing units | |
Jesshope et al. | Design of SIMD microprocessor array | |
Sunwoo et al. | A sliding memory plane array processor | |
Irwin et al. | A micro-grained VLSI signal processor | |
US20230195836A1 (en) | One-dimensional computational unit for an integrated circuit | |
JP2005531843A (ja) | アレイプロセッサにおける除算 | |
Cain et al. | Convolution processing unit featuring adaptive precision using dynamic reconfiguration | |
Raha et al. | 8.2 A Versatile 7nm Adaptive Compute Acceleration Platform Processor | |
Safarpour et al. | Transport triggered array processor for vision applications | |
Kung | Warp experience: we can map computations onto a parallel computer efficiently | |
Iwata et al. | A dynamically reconfigurable architecture combining pixel-level SIMD and operation-pipeline modes for high frame rate visual processing | |
Chiu et al. | The Multi-context Reconfigurable Processing Unit for Fine-grain Computing. | |
Lawrie et al. | Kalman filtering: A survey of parallel processing alternatives | |
Bajwa | Reconfigurable micro-grain VLSI arrays: Architectures and algorithms | |
Bolotski | Distributed bit-parallel architecture and algorithms for early vision | |
Daniel Jr | Superquadric description on large arrays of bit-serial processors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230404 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230421 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7268996 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |