JP7433356B2 - 加算器を使用した多次元テンソルにおけるデータへのアクセス - Google Patents
加算器を使用した多次元テンソルにおけるデータへのアクセス Download PDFInfo
- Publication number
- JP7433356B2 JP7433356B2 JP2022056584A JP2022056584A JP7433356B2 JP 7433356 B2 JP7433356 B2 JP 7433356B2 JP 2022056584 A JP2022056584 A JP 2022056584A JP 2022056584 A JP2022056584 A JP 2022056584A JP 7433356 B2 JP7433356 B2 JP 7433356B2
- Authority
- JP
- Japan
- Prior art keywords
- dimension
- value
- address offset
- partial address
- offset value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/34—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
- G06F9/345—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/3001—Arithmetic instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30021—Compare instructions, e.g. Greater-Than, Equal-To, MINMAX
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3005—Arrangements for executing specific machine instructions to perform operations for flow control
- G06F9/30065—Loop control instructions; iterative instructions, e.g. LOOP, REPEAT
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30072—Arrangements for executing specific machine instructions to perform conditional operations, e.g. using predicates or guards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/32—Address formation of the next instruction, e.g. by incrementing the instruction counter
- G06F9/322—Address formation of the next instruction, e.g. by incrementing the instruction counter for non-sequential address
- G06F9/325—Address formation of the next instruction, e.g. by incrementing the instruction counter for non-sequential address for loops, e.g. loop detection or loop counter
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/34—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/34—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
- G06F9/345—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
- G06F9/3455—Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results using stride
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/45—Caching of specific data in cache memory
- G06F2212/454—Vector or matrix data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/30101—Special purpose registers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Neurology (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Executing Machine-Instructions (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Complex Calculations (AREA)
- Devices For Executing Special Programs (AREA)
Description
本明細書は、一般に、ハードウェア加算器を有する特殊目的計算ユニットを使用して機械学習計算を実行することに関する。
本明細書には、テンソル要素のメモリアドレスを求めるために1つ以上のハードウェア加算器を使用してN次元テンソルにアクセスすることに関連する技術が記載されている。
ッドループの各繰り返し後に上記次元の上記部分アドレスオフセット値を求めるように構成されてもよい。
詳細な説明
一般に、ソフトウェアアルゴリズムがN次元テンソルを処理する際にネステッドループが使用されてもよい。各ループは、N次元テンソルのそれぞれの次元をトラバースすることに関与し得る。多次元テンソルは、マトリクスまたは多次元マトリクスであってもよい。たとえば、二次元テンソルは、マトリクスであり、三次元テンソルは、複数の二次元マトリクスで構成される三次元マトリクスである。N次元テンソルの各次元は、1つ以上の要素を含んでもよく、各要素は、それぞれのデータ値を格納してもよい。たとえば、テンソルは、プログラムにおける変数であってもよく、この変数は、3つの次元を有してもよい。第1の次元は、300個の要素の長さを有してもよく、第2の次元は、1000個の要素の長さを有してもよく、第3の次元は、20個の要素の長さを有してもよい。当然のことながら、各次元において他の個数の要素も可能である。
めのハードウェアテンソルトラバーサルユニットは、テンソルをトラバースする際にプロセッサが処理しなければならない次元の個数を減少させることによってプロセッサの計算帯域幅を増加させることができる。
スのシーケンスを効率的にプログラムに従って生成することができる。このアドレスのシーケンスは、ソフトウェアトラバーサルルーチンにおけるループネストによってアクセスされるであろうテンソル要素のシーケンスに対応する。トラバーサル中にアクセスされる要素のシーケンスは、メモリ内で物理的に連続している場合もあれば、そうでない場合もある。図2B~図2Hに示され、以下で説明する例は、要素のシーケンスがどのようにしてメモリ内で物理的に連続していないかの一例を示す。
メモリ場所に格納されてもよく、第2のテンソル要素は、第1のメモリ場所のすぐ隣に位置する第2のメモリ場所に格納されてもよく、第3のテンソル要素は、第2のメモリ場所のすぐ隣に位置する第3のメモリ場所に格納されてもよい、などである。いくつかの実現例では、メモリアドレスは、トラバーサル中にアクセスされる要素のシーケンスがメモリ内で物理的に連続していないように求められる。この例では、第2のテンソル要素は、第1のテンソル要素のすぐ隣に格納されなくてもよい。
FSM)を含んでもよい。たとえば、FSMは、図2B~図2Hに関連して説明した「LocateTensor」および「IterateTensor」命令などの命令を実行するプロセッサではないプ
ロセッサのメモリアドレス値を照会してもよい。FSMは、プロセッサを参照して以下で説明するように、ネステッドループを繰り返しトラバースし、ループをトラバースしながら部分アドレス値を繰り返してもよい。次いで、プロセッサは、求められたメモリアドレス値を、それらが求められた通りにハードウェアカウンタまたはFSMから受信することができる。
てもよい。いくつかの実現例では、テンソルトラバーサルユニットは、内側ループ(内側ネステッドループインデックス変数iによって追跡されるループ)に対応する次元の部分アドレスオフセット値要素208を、内側ループに対応する次元のステップ値だけインクリメントすることによって、部分アドレスオフセット値を更新する。この例では、部分アドレスオフセット値要素Z1,1に格納された部分アドレスオフセット値は、ハードウェア加算器ユニットを使用して、ステップ値要素X1,1に格納されたステップ値だけインクリメントされる。内側ループのために格納された、結果として生じる更新後の部分アドレスオフセット値は、Z1,1に格納された以前の値とX1,1に格納された値との合計、すなわち0+1=1である。
満である。したがって、テンソルトラバーサルユニットは、中間ループの部分アドレスオフセット値をインクリメントすることなく、内側ループの部分アドレスオフセット要素Z1,1に格納された更新後の部分アドレスオフセット値を保持する。
てもよい。いくつかの実現例では、テンソルトラバーサルユニットは、内側ループ(内側ネステッドループインデックス変数iによって追跡されるループ)に対応する次元の部分アドレスオフセット値要素208を、内側ループに対応する次元のステップ値だけインクリメントすることによって、部分アドレスオフセット値を更新する。この例では、部分アドレスオフセット値要素Z1,1に格納された部分アドレスオフセット値は、ハードウェア加算器ユニットを使用して、ステップ値要素X1,1に格納されたステップ値だけインクリメントされる。内側ループのために格納された、結果として生じる更新後の部分アドレスオフセット値は、Z1,1に格納された以前の値とX1,1に格納された値との合計、すなわち1+1=2である。
の例では、中間ループの更新後の部分アドレスオフセット値は、6(0+6)である。
。いくつかの実現例では、テンソルトラバーサルユニットは、内側ループ(内側ネステッドループインデックス変数iによって追跡されるループ)に対応する次元の部分アドレスオフセット値要素208を、内側ループに対応する次元のステップ値だけインクリメントすることによって、部分アドレスオフセット値を更新する。この例では、部分アドレスオフセット値要素Z1,1に格納された部分アドレスオフセット値は、ハードウェア加算器ユニットを使用して、ステップ値要素X1,1に格納されたステップ値だけインクリメントされる。内側ループのために格納される、結果として生じる更新後の部分アドレスオフセット値は、Z1,1に格納された以前の値とX1,1に格納された値との合計、すなわち0+1=2である。
バーサルユニットは、内側ループ(内側ネステッドループインデックス変数iによって追跡されるループ)に対応する次元の部分アドレスオフセット値要素208を、内側ループに対応する次元のステップ値だけインクリメントすることによって、部分アドレスオフセット値を更新する。この例では、部分アドレスオフセット値要素Z1,1に格納された部分アドレスオフセット値は、ハードウェア加算器ユニットを使用して、ステップ値要素X1,1に格納されたステップ値だけインクリメントされる。内側ループのために格納される、結果として生じる更新後の部分アドレスオフセット値は、Z1,1に格納された以前の値とX1,1に格納された値との合計、すなわち1+1=2である。
に格納された内側ループの終了値に等しい場合、テンソルトラバーサルユニットは、要素Z1,1に格納された部分オフセットアドレス値の値を、要素V1,1に格納された内側ループの初期値にリセットしてもよい。また、テンソルトラバーサルユニットは、要素Z1,2に格納された中間ループに対応する次元の部分アドレスオフセット値を、X1,2に格納された中間ループのステップ値だけインクリメントしてもよい。
レスに基づいて、記憶媒体に格納されたにアクセスすることができる。
。いくつかの実現例では、テンソルトラバーサルユニットは、内側ループ(内側ネステッドループインデックス変数iによって追跡されるループ)に対応する次元の部分アドレスオフセット値要素208を、内側ループに対応する次元のステップ値だけインクリメントすることによって、部分アドレスオフセット値を更新する。この例では、部分アドレスオフセット値要素Z1,1に格納された部分アドレスオフセット値は、ハードウェア加算器ユニットを使用して、ステップ値要素X1,1に格納されたステップ値だけインクリメントされる。内側ループのために格納される、結果として生じる更新後の部分アドレスオフセット値は、Z1,1に格納された以前の値と、X1,1に格納された値との合計、すなわち0+1=2である。
アドレスを求めて、同様の態様で残りのテンソル要素にアクセスし続けることができる。以下の表1は、図2A~図2Hに示されるステップ値を使用したテンソル要素のメモリアドレスオフセット値を示す。
返されてもよく、第3のループは、第3のインデックス変数を使用して繰り返されてもよい。たとえば、プログラムは、記憶媒体に格納されてもよく、処理ユニットによって実行可能である。プログラムは、文字配列変数V1(または、別のタイプの配列)、2という第1の次元、2という第2の次元および3という第3の次元を指定してもよい。プログラムは、変数V1をトラバースするためのネステッドforループを指定してもよい。このforループは、ネステッドループインデックス変数iによって追跡される外側ループにおいてV1の第3の次元をトラバースしてもよい。また、このforループは、ネステッドループインデックス変数jによって追跡される中間ループにおいてV1の第2の次元をトラバースしてもよく、ネステッドループインデックス変数kによって追跡される内側ループにおいて第1の次元をトラバースしてもよい。
セット値要素における中間ループの更新後の部分アドレスオフセット値を維持してもよい。
る。コンピュータの必須の要素は、命令を実施または実行するための中央処理装置と、命令およびデータを格納するための1つ以上のメモリデバイスである。一般に、コンピュータは、データを格納するための1つ以上の大容量記憶装置(たとえば、磁気ディスク、光磁気ディスクまたは光ディスク)も含み、1つ以上の大容量記憶装置からデータを受信したり1つ以上の大容量記憶装置にデータを送信したり1つ以上の大容量記憶装置との間でデータを送受信したりするように動作可能に結合される。しかし、コンピュータは、このような装置を有していなくてもよい。さらに、コンピュータは、別のデバイス、たとえばほんの数例を挙げると、携帯電話、パーソナルデジタルアシスタント(PDA)、携帯オーディオもしくはビデオプレーヤ、ゲーム機、グローバルポジショニングシステム(GPS)受信機、またはポータブルストレージデバイス(たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブ)、に組み込まれてもよい。
Claims (20)
- N次元テンソルのデータ要素のメモリアドレスを求めるための装置であって、
前記N次元テンソルの各次元について、部分アドレスオフセット値格納部を備え、前記部分アドレスオフセット値格納部は、前記次元の部分アドレスオフセット値を格納するように構成され、各次元の前記部分アドレスオフセット値は、前記次元の初期値、前記次元のステップ値および前記次元における要素の個数に少なくとも基づき、各部分アドレスオフセット値格納部は、ハードウェア記憶回路を備え、前記N次元テンソルは、前記N個の次元の各々にわたって配置された複数の要素を有し、Nは、2以上の整数であり、前記装置はさらに、
1つまたは複数のハードウェア加算器を備え、前記1つまたは複数のハードウェア加算器は、
前記N次元テンソルのデータ要素のシーケンスのデータ値を格納するためのメモリ内の場所のメモリアドレスを求めるように構成され、前記メモリアドレスを求めることは、各特定のデータ要素について、
前記N次元テンソルの各次元について、前記次元の前記部分アドレスオフセット値格納部から前記次元の現在の部分アドレスオフセット値を受信することと、
前記現在の部分アドレスオフセット値の合計を前記特定のデータ要素のメモリアドレスとして求めることとを含み、前記特定のデータ要素の前記求められたメモリアドレスは、前記特定のデータ要素の前記求められたメモリアドレスに格納された前記特定のデータ要素の値とは異なっており、前記1つまたは複数のハードウェア加算器はさらに、
前記N次元テンソルの各特定のデータ要素の前記求められたメモリアドレスを示すデータを出力するように構成される、装置。 - 1つまたは複数のハードウェアプロセッサをさらに備え、前記1つまたは複数のハードウェアプロセッサは、前記1つまたは複数のハードウェアプロセッサによって実行可能な命令セットの1つまたは複数の命令を実行するように構成され、前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェア加算器に動作を実行させ、前記動作は、前記1つまたは複数のハードウェア加算器に、前記N次元テンソルのデータ要素のシーケンスのデータ値を格納するためのメモリ内の場所の前記メモリアドレスを求めさせることを備える、請求項1に記載の装置。
- 前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェア加算器に動作を実行させ、前記動作は、前記1つまたは複数のハードウェア加算器を使用して前記次元のうちの少なくとも1つの次元の前記ステップ値を前記少なくとも1つの次元の前記現在の部分アドレスオフセット値に加算することによって、前記少なくとも1つの次元の前記部分アドレスオフセット値を更新することを備える、請求項2に記載の装置。
- 前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェア加算器に動作を実行させ、前記動作は、各次元について、前記ステップ値を前記次元の以前の部分アドレスオフセット値に加算することによって、前記次元のループの各繰り返し後に前記次元の前記部分アドレスオフセット値を求めることを備える、請求項2に記載の装置。
- 各次元について、前記次元の限界値を格納する限界値格納部をさらに備え、前記1つまたは複数のハードウェアプロセッサはさらに、
各次元について、前記次元の前記求められた部分アドレスオフセット値が前記次元の前記限界値に等しいか否かを判断するように構成され、
第1のループに対応する第1の次元の前記求められた部分アドレスオフセット値が前記第1の次元の前記限界値に等しいと判断したことに応答して、
前記第1の次元の前記部分アドレスオフセット値を前記第1の次元の前記初期値にリセットするように構成され、
前記第1のループがネストされる第2のループに対応する第2の次元について、前記1つまたは複数のハードウェア加算器を使用して、前記第2の次元の前記ステップ値と前記第2の次元の前記部分アドレスオフセット値との合計に等しくなるように前記第2の次元の前記部分アドレスオフセット値を更新するように構成される、請求項4に記載の装置。 - 各次元の前記ステップ値は、前記次元のうちの1つまたは複数の次元における要素の個数に基づく予め定められた値である、請求項1~5のいずれかに記載の装置。
- 各次元について、
前記次元の前記初期値を格納する初期値格納部と、
前記次元の前記ステップ値を格納するステップ値格納部とをさらに備え、
各部分アドレスオフセット値格納部、各初期値格納部および各ステップ値格納部は、ハードウェアレジスタを含む、請求項1~6のいずれかに記載の装置。 - システムであって、
N次元テンソルに対して線形代数演算を実行するように構成された1つまたは複数の処理ユニットを備え、前記N次元テンソルは、前記N個の次元の各々にわたって配置された複数の要素を有し、Nは、2以上の整数であり、前記システムはさらに、
前記N個の次元の各次元について、部分アドレスオフセット値格納部を備え、前記部分アドレスオフセット値格納部は、前記次元の部分アドレスオフセット値を格納するように構成され、各次元の前記部分アドレスオフセット値は、前記次元の初期値、前記次元のステップ値および前記次元における要素の個数に少なくとも基づき、各部分アドレスオフセット値格納部は、ハードウェア記憶回路を備え、前記システムはさらに、
1つまたは複数のハードウェア加算器を備え、前記1つまたは複数のハードウェア加算器は、
前記N次元テンソルのデータ要素のシーケンスのデータ値を格納するためのメモリ内の場所のメモリアドレスを求めるように構成され、前記メモリアドレスを求めることは、各特定のデータ要素について、
前記N次元テンソルの各次元について、前記次元の前記部分アドレスオフセット値格納部から前記次元の現在の部分アドレスオフセット値を受信することと、
前記現在の部分アドレスオフセット値の合計を前記特定のデータ要素のメモリアドレスとして求めることとを含み、前記特定のデータ要素の前記求められたメモリアドレスは、前記特定のデータ要素の前記求められたメモリアドレスに格納された前記特定のデータ要素の値とは異なっており、前記1つまたは複数のハードウェア加算器はさらに、
前記N次元テンソルの各特定のデータ要素の前記求められたメモリアドレスを示すデータを出力するように構成される、システム。 - 1つまたは複数のハードウェアプロセッサをさらに備え、前記1つまたは複数のハードウェアプロセッサは、前記1つまたは複数のハードウェアプロセッサによって実行可能な命令セットの1つまたは複数の命令を実行するように構成され、前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェア加算器に動作を実行させ、前記動作は、前記1つまたは複数のハードウェア加算器に、前記N次元テンソルのデータ要素のシーケンスのデータ値を格納するためのメモリ内の場所の前記メモリアドレスを求めさせることを備える、請求項8に記載のシステム。
- 前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェア加算器に動作を実行させ、前記動作は、前記1つまたは複数のハードウェア加算器を使用して前記次元のうちの少なくとも1つの次元の前記ステップ値を前記少なくとも1つの次元の前記現在の部分アドレスオフセット値に加算することによって、前記少なくとも1つの次元の前記部分アドレスオフセット値を更新することを備える、請求項9に記載のシステム。
- 前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェア加算器に動作を実行させ、前記動作は、各次元について、前記ステップ値を前記次元の以前の部分アドレスオフセット値に加算することによって、前記次元のループの各繰り返し後に前記次元の前記部分アドレスオフセット値を求めることを備える、請求項9に記載のシステム。
- 各次元について、前記次元の限界値を格納する限界値格納部をさらに備え、前記1つまたは複数のハードウェアプロセッサはさらに、
各次元について、前記次元の前記求められた部分アドレスオフセット値が前記次元の前記限界値に等しいか否かを判断するように構成され、
第1のループに対応する第1の次元の前記求められた部分アドレスオフセット値が前記第1の次元の前記限界値に等しいと判断したことに応答して、
前記第1の次元の前記部分アドレスオフセット値を前記第1の次元の前記初期値にリセットするように構成され、
前記第1のループがネストされる第2のループに対応する第2の次元について、前記1つまたは複数のハードウェア加算器を使用して、前記第2の次元の前記ステップ値と前記第2の次元の前記部分アドレスオフセット値との合計に等しくなるように前記第2の次元の前記部分アドレスオフセット値を更新するように構成される、請求項11に記載のシステム。 - 各次元の前記ステップ値は、前記次元のうちの1つまたは複数の次元における要素の個数に基づく予め定められた値である、請求項8~12のいずれかに記載のシステム。
- 各次元について、
前記次元の前記初期値を格納する初期値格納部と、
前記次元の前記ステップ値を格納するステップ値格納部とをさらに備え、
各部分アドレスオフセット値格納部、各初期値格納部および各ステップ値格納部は、ハードウェアレジスタを備える、請求項8~13のいずれかに記載のシステム。 - N次元テンソルのデータ要素のメモリアドレスを求めるためのコンピュータによって実行される方法であって、
1つまたは複数のハードウェア加算器を含むハードウェア回路が、前記N次元テンソルのデータ要素のシーケンスのデータ値を格納するためのメモリ内の場所のメモリアドレスを求めるステップを備え、前記メモリアドレスを求めるステップは、各特定のデータ要素について、
前記1つまたは複数のハードウェア加算器が、前記N次元テンソルの各次元について、前記次元の部分アドレスオフセット値格納部から前記次元の現在の部分アドレスオフセット値を受信するステップを含み、
各次元の前記部分アドレスオフセット値は、前記次元の初期値、前記次元のステップ値および前記次元における要素の個数に少なくとも基づき、
各部分アドレスオフセット値格納部は、ハードウェア記憶回路を含み、
前記N次元テンソルは、前記N個の次元の各々にわたって配置された複数の要素を有し、
Nは、2以上の整数であり、前記メモリアドレスを求めるステップはさらに、各特定のデータ要素について、
前記現在の部分アドレスオフセット値の合計を前記特定のデータ要素のメモリアドレスとして求めるステップを含み、前記特定のデータ要素の前記求められたメモリアドレスは、前記特定のデータ要素の前記求められたメモリアドレスに格納された前記特定のデータ要素の値とは異なっており、前記方法はさらに、
前記ハードウェア回路が、前記N次元テンソルの各特定のデータ要素の前記求められたメモリアドレスを示すデータを出力するステップを備える、方法。 - 前記1つまたは複数のハードウェア加算器を使用して前記次元のうちの少なくとも1つの次元の前記ステップ値を前記少なくとも1つの次元の前記現在の部分アドレスオフセット値に加算することによって、前記少なくとも1つの次元の前記部分アドレスオフセット値を更新するステップをさらに備える、請求項15に記載の方法。
- 各次元について、前記ステップ値を前記次元の以前の部分アドレスオフセット値に加算することによって、前記次元のループの各繰り返し後に前記次元の前記部分アドレスオフセット値を求めるステップをさらに備える、請求項15に記載の方法。
- 各次元について、前記次元の前記求められた部分アドレスオフセット値が前記次元の限界値に等しいか否かを判断するステップと、
第1のループに対応する第1の次元の前記求められた部分アドレスオフセット値が前記第1の次元の前記限界値に等しいと判断したことに応答して、
前記第1の次元の前記部分アドレスオフセット値を前記第1の次元の前記初期値にリセットするステップと、
前記第1のループがネストされる第2のループに対応する第2の次元について、前記1つまたは複数のハードウェア加算器を使用して、前記第2の次元の前記ステップ値と前記第2の次元の前記部分アドレスオフセット値との合計に等しくなるように前記第2の次元の前記部分アドレスオフセット値を更新するステップとをさらに備える、請求項17に記載の方法。 - 各次元の前記ステップ値は、前記次元のうちの1つまたは複数の次元における要素の個数に基づく予め定められた値である、請求項15~18のいずれかに記載の方法。
- 各次元の前記初期値は、前記次元の初期値格納部に格納され、
前記次元の前記ステップ値は、前記次元のステップ値格納部に格納され、
各部分アドレスオフセット値格納部、各初期値格納部および各ステップ値格納部は、ハードウェアレジスタを含む、請求項15~19のいずれかに記載の方法。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/603,061 US9946539B1 (en) | 2017-05-23 | 2017-05-23 | Accessing data in multi-dimensional tensors using adders |
US15/603,061 | 2017-05-23 | ||
US15/903,991 | 2018-02-23 | ||
US15/903,991 US10534607B2 (en) | 2017-05-23 | 2018-02-23 | Accessing data in multi-dimensional tensors using adders |
PCT/US2018/019691 WO2018217258A1 (en) | 2017-05-23 | 2018-02-26 | Accessing data in multi-dimensional tensors using adders |
JP2019553901A JP7051895B2 (ja) | 2017-05-23 | 2018-02-26 | 加算器を使用した多次元テンソルにおけるデータへのアクセス |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019553901A Division JP7051895B2 (ja) | 2017-05-23 | 2018-02-26 | 加算器を使用した多次元テンソルにおけるデータへのアクセス |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022095773A JP2022095773A (ja) | 2022-06-28 |
JP7433356B2 true JP7433356B2 (ja) | 2024-02-19 |
Family
ID=61617155
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019553901A Active JP7051895B2 (ja) | 2017-05-23 | 2018-02-26 | 加算器を使用した多次元テンソルにおけるデータへのアクセス |
JP2022056584A Active JP7433356B2 (ja) | 2017-05-23 | 2022-03-30 | 加算器を使用した多次元テンソルにおけるデータへのアクセス |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019553901A Active JP7051895B2 (ja) | 2017-05-23 | 2018-02-26 | 加算器を使用した多次元テンソルにおけるデータへのアクセス |
Country Status (6)
Country | Link |
---|---|
US (1) | US10534607B2 (ja) |
EP (1) | EP3631625A1 (ja) |
JP (2) | JP7051895B2 (ja) |
KR (2) | KR102347119B1 (ja) |
CN (1) | CN110462586A (ja) |
WO (1) | WO2018217258A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108538B1 (en) | 2017-07-31 | 2018-10-23 | Google Llc | Accessing prologue and epilogue data |
GB2567038B (en) * | 2017-07-31 | 2019-09-25 | Google Llc | Accessing prologue and epilogue data |
US10936942B2 (en) * | 2017-11-21 | 2021-03-02 | Google Llc | Apparatus and mechanism for processing neural network tasks using a single chip package with multiple identical dies |
US10599583B2 (en) * | 2018-08-20 | 2020-03-24 | Macronix International Co., Ltd. | Pre-match system and pre-match method |
US11263011B2 (en) * | 2018-11-28 | 2022-03-01 | International Business Machines Corporation | Compound instruction set architecture for a neural inference chip |
EP3951666A4 (en) | 2019-04-04 | 2022-12-21 | Cambricon Technologies Corporation Limited | DATA PROCESSING DEVICE AND ASSOCIATED PRODUCT |
US11620358B2 (en) | 2019-05-14 | 2023-04-04 | Intel Corporation | Technologies for performing macro operations in memory |
JP7062617B2 (ja) * | 2019-06-26 | 2022-05-06 | 株式会社東芝 | 演算装置および演算方法 |
US11354564B2 (en) * | 2019-06-27 | 2022-06-07 | Intel Corporation | Tuning of loop orders in blocked dense basic linear algebra subroutines |
KR102658003B1 (ko) * | 2019-11-27 | 2024-04-17 | 한양대학교 에리카산학협력단 | 효율성이 향상된 양자 가산기 및 가산 방법 |
CN113391842A (zh) * | 2020-03-13 | 2021-09-14 | 华为技术有限公司 | 一种单指令多数据simd指令的生成、处理方法以及相关设备 |
EP3896565B1 (en) * | 2020-04-16 | 2024-03-06 | NXP USA, Inc. | Memory address generator |
US11954580B2 (en) | 2020-09-16 | 2024-04-09 | Meta Platforms, Inc. | Spatial tiling of compute arrays with shared control |
US11704562B1 (en) | 2020-11-04 | 2023-07-18 | Meta Platforms, Inc. | Architecture for virtual instructions |
US11709783B1 (en) | 2020-11-11 | 2023-07-25 | Meta Platforms, Inc. | Tensor data distribution using grid direct-memory access (DMA) controller |
US11972349B1 (en) | 2020-11-12 | 2024-04-30 | Meta Platforms, Inc. | Flexible compute array utilization in a tensor processor |
US12001893B1 (en) | 2020-12-28 | 2024-06-04 | Meta Platforms, Inc. | Distributed synchronization scheme |
US11922306B2 (en) | 2020-12-28 | 2024-03-05 | Meta Platforms, Inc. | Tensor controller architecture |
US11790611B2 (en) | 2020-12-30 | 2023-10-17 | Meta Platforms, Inc. | Visual editor for designing augmented-reality effects that utilize voice recognition |
CN113836049B (zh) * | 2021-09-17 | 2023-08-08 | 海飞科(南京)信息技术有限公司 | 存储器访问方法和电子装置 |
KR20230099190A (ko) | 2021-12-27 | 2023-07-04 | 서울대학교산학협력단 | 다차원 텐서의 주소 생성 장치 및 방법 |
CN114489798B (zh) * | 2022-01-25 | 2024-04-05 | 海飞科(南京)信息技术有限公司 | 用于确定张量元素的越界状态的方法和电子装置 |
CN117435547A (zh) * | 2022-07-15 | 2024-01-23 | 北京有竹居网络技术有限公司 | 人工智能芯片、灵活地访问数据的方法、设备和介质 |
CN115658146B (zh) * | 2022-12-14 | 2023-03-31 | 成都登临科技有限公司 | 一种ai芯片、张量处理方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001090888A1 (en) | 2000-05-23 | 2001-11-29 | Theis Jean Paul | A data processing system having an address generation unit with hardwired multidimensional memory indexing support |
US20040034754A1 (en) | 2002-08-19 | 2004-02-19 | Schreiber Robert S. | Method and system for memory management optimization |
US20040093479A1 (en) | 2002-10-28 | 2004-05-13 | Quicksilver Technology, Inc. | Cache for instruction set architecture using indexes to achieve compression |
US20100145992A1 (en) | 2008-12-09 | 2010-06-10 | Novafora, Inc. | Address Generation Unit Using Nested Loops To Scan Multi-Dimensional Data Structures |
US20170075691A1 (en) | 2011-12-23 | 2017-03-16 | Intel Corporation | Instruction for element offset calculation in a multi-dimensional array |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2854420B2 (ja) * | 1990-02-21 | 1999-02-03 | 松下電器産業株式会社 | 多次元アドレス発生器およびその制御方式 |
EP0486684A1 (en) | 1990-05-22 | 1992-05-27 | International Business Machines Corporation | Virtual neurocomputer architectures for neural networks |
WO1992000563A1 (en) * | 1990-06-27 | 1992-01-09 | Luminis Pty Ltd | A number theory mapping generator for addressing matrix structures |
JPH06324935A (ja) * | 1993-05-11 | 1994-11-25 | Matsushita Electric Ind Co Ltd | アドレス発生器およびアドレス発生システム |
US5958048A (en) * | 1996-08-07 | 1999-09-28 | Elbrus International Ltd. | Architectural support for software pipelining of nested loops |
US6219784B1 (en) | 1997-11-17 | 2001-04-17 | Advanced Micro Devices, Inc. | Processor with N adders for parallel target addresses calculation |
US6694311B1 (en) | 1999-01-25 | 2004-02-17 | International Business Machines Corporation | Method and apparatus for fast query approximation using adaptive query vector projection |
US6507835B1 (en) | 2000-02-17 | 2003-01-14 | International Business Machines Corporation | Generating grouping queries using tensor representations |
US7225439B2 (en) * | 2003-03-21 | 2007-05-29 | Sun Microsystems, Inc. | Combining write-barriers within an inner loop with fixed step |
JP2005209060A (ja) * | 2004-01-26 | 2005-08-04 | Hitachi Ltd | アドレス生成装置を含むシステムおよびそのアドレス生成装置 |
US8443169B2 (en) | 2005-03-28 | 2013-05-14 | Gerald George Pechanek | Interconnection network connecting operation-configurable nodes according to one or more levels of adjacency in multiple dimensions of communication in a multi-processor and a neural processor |
US20080250227A1 (en) | 2007-04-04 | 2008-10-09 | Linderman Michael D | General Purpose Multiprocessor Programming Apparatus And Method |
US20100153100A1 (en) * | 2008-12-11 | 2010-06-17 | Electronics And Telecommunications Research Institute | Address generator for searching algebraic codebook |
US9141916B1 (en) | 2012-06-29 | 2015-09-22 | Google Inc. | Using embedding functions with a deep network |
US9946539B1 (en) * | 2017-05-23 | 2018-04-17 | Google Llc | Accessing data in multi-dimensional tensors using adders |
-
2018
- 2018-02-23 US US15/903,991 patent/US10534607B2/en active Active
- 2018-02-26 KR KR1020217011131A patent/KR102347119B1/ko active IP Right Grant
- 2018-02-26 KR KR1020197026962A patent/KR102243036B1/ko active IP Right Grant
- 2018-02-26 WO PCT/US2018/019691 patent/WO2018217258A1/en active Application Filing
- 2018-02-26 JP JP2019553901A patent/JP7051895B2/ja active Active
- 2018-02-26 CN CN201880021083.9A patent/CN110462586A/zh active Pending
- 2018-02-26 EP EP18710248.8A patent/EP3631625A1/en active Pending
-
2022
- 2022-03-30 JP JP2022056584A patent/JP7433356B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001090888A1 (en) | 2000-05-23 | 2001-11-29 | Theis Jean Paul | A data processing system having an address generation unit with hardwired multidimensional memory indexing support |
US20040034754A1 (en) | 2002-08-19 | 2004-02-19 | Schreiber Robert S. | Method and system for memory management optimization |
US20040093479A1 (en) | 2002-10-28 | 2004-05-13 | Quicksilver Technology, Inc. | Cache for instruction set architecture using indexes to achieve compression |
US20100145992A1 (en) | 2008-12-09 | 2010-06-10 | Novafora, Inc. | Address Generation Unit Using Nested Loops To Scan Multi-Dimensional Data Structures |
US20170075691A1 (en) | 2011-12-23 | 2017-03-16 | Intel Corporation | Instruction for element offset calculation in a multi-dimensional array |
Also Published As
Publication number | Publication date |
---|---|
JP7051895B2 (ja) | 2022-04-11 |
KR20210045509A (ko) | 2021-04-26 |
US20180341479A1 (en) | 2018-11-29 |
JP2020521198A (ja) | 2020-07-16 |
KR20190113973A (ko) | 2019-10-08 |
WO2018217258A1 (en) | 2018-11-29 |
EP3631625A1 (en) | 2020-04-08 |
CN110462586A (zh) | 2019-11-15 |
JP2022095773A (ja) | 2022-06-28 |
KR102347119B1 (ko) | 2022-01-05 |
US10534607B2 (en) | 2020-01-14 |
KR102243036B1 (ko) | 2021-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7433356B2 (ja) | 加算器を使用した多次元テンソルにおけるデータへのアクセス | |
CN109324827B (zh) | 用于处理用于访问数据的指令的装置、方法和系统 | |
JP7279226B2 (ja) | 代替ループ限界値 | |
US9946539B1 (en) | Accessing data in multi-dimensional tensors using adders | |
KR102596365B1 (ko) | 다차원 텐서들에서의 데이터 액세스 | |
GB2567038B (en) | Accessing prologue and epilogue data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220427 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220427 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7433356 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |