JP7225314B2 - N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法 - Google Patents

N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法 Download PDF

Info

Publication number
JP7225314B2
JP7225314B2 JP2021096509A JP2021096509A JP7225314B2 JP 7225314 B2 JP7225314 B2 JP 7225314B2 JP 2021096509 A JP2021096509 A JP 2021096509A JP 2021096509 A JP2021096509 A JP 2021096509A JP 7225314 B2 JP7225314 B2 JP 7225314B2
Authority
JP
Japan
Prior art keywords
tensor
value
inner loop
loop
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021096509A
Other languages
English (en)
Other versions
JP2021128801A (ja
Inventor
ウ・ドン・ヒョク
アンドリュー・エバレット・フェルプス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2021128801A publication Critical patent/JP2021128801A/ja
Priority to JP2023017754A priority Critical patent/JP7507271B2/ja
Application granted granted Critical
Publication of JP7225314B2 publication Critical patent/JP7225314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/3013Organisation of register space, e.g. banked or distributed register file according to data content, e.g. floating-point registers, address registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/3001Arithmetic instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30054Unconditional branch instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30061Multi-way branch instructions, e.g. CASE
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30065Loop control instructions; iterative instructions, e.g. LOOP, REPEAT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/32Address formation of the next instruction, e.g. by incrementing the instruction counter
    • G06F9/321Program or instruction counter, e.g. incrementing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/32Address formation of the next instruction, e.g. by incrementing the instruction counter
    • G06F9/322Address formation of the next instruction, e.g. by incrementing the instruction counter for non-sequential address
    • G06F9/325Address formation of the next instruction, e.g. by incrementing the instruction counter for non-sequential address for loops, e.g. loop detection or loop counter
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/345Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results
    • G06F9/3455Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes of multiple operands or results using stride
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/355Indexed addressing
    • G06F9/3555Indexed addressing using scaling, e.g. multiplication of index
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/454Vector or matrix data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Advance Control (AREA)
  • Complex Calculations (AREA)
  • Executing Machine-Instructions (AREA)
  • Memory System (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

発明の詳細な説明
背景
本明細書は、一般に、メモリアドレス値を計算するためのレジスタの使用に関する。レジスタは、分岐条件の処理に使用され得る。
概要
本明細書に記載されている主題の1つの革新的な側面によれば、レジスタは、入れ子ループ構造を反復し、対応するメモリアドレスを計算し、プログラマがループ境界条件を処理することを可能にすることに使用できる。一般に、レジスタは、ループ境界値、各ループにおける現在のループインデックス変数、メモリアドレス値を計算するための次元乗数、および分岐ループ境界を処理するためのプログラムカウンタ値を含むアーキテクチャステータスのいくつかのセットを維持するように配置され得る。当該配置は、1つ以上の多次元データ構造の処理にとって有効であり得る。これらのアーキテクチャステータスセットにより、プロセッサは、インデックス変数を新たな位置に移動させ、メモリアドレス値を検索し、新たな分岐先にジャンプするための命令を実行し得る。
一般に、本明細書に記載されている主題の1つの革新的な側面は、N次元テンソルにアクセスするための命令を処理するための装置で具体化できる。上記装置は、複数のテンソルインデックス要素と、複数の次元乗数要素とを含み、上記次元乗数要素の各々は、対応するテンソルインデックス要素を有する。上記装置は、1つ以上のプロセッサを含み、上記1つ以上のプロセッサは、N次元テンソルの特定の要素にアクセスするための命令を取得するように構成され、上記N次元テンソルは、N個の次元の各々にわたって配置された複数の要素を有し、Nは、1以上の整数であり、上記1つ以上のプロセッサはさらに、上記複数のテンソルインデックス要素のうちの1つ以上のテンソルインデックス要素および上記複数の次元乗数要素のうちの1つ以上の次元乗数要素を用いて、上記特定の要素のアドレスを決定するように構成され、上記N次元テンソルの上記特定の要素にアクセスするための上記決定されたアドレスを示すデータを出力するように構成される。
これらのおよび他の実現例は、各々が任意に以下の特徴のうちの1つ以上を含み得る。例えば、上記特定の要素の上記アドレスは、上記N次元テンソルの別の要素からのアドレスオフセットであり得る。上記特定の要素の上記アドレスを決定するために、上記1つ以上のテンソルインデックス要素の各テンソルインデックス要素ごとに、それぞれのテンソルインデックス要素に記憶された値と上記1つ以上の複数のテンソルインデックス要素の上記対応するテンソルインデックス要素に記憶された値とが乗算されて、それぞれの乗算された値を生成し得る。上記アドレスオフセットは、上記乗算された値の合計を求めることによって決定され得る。
上記複数のテンソルインデックス要素は、テンソルインデックス要素のM個のグループに配置され得て、Mは、1よりも大きな正の整数である。テンソルインデックス要素の各グループは、別個の異なる多次元テンソルに割り当てられ得る。
上記装置は、複数のテンソル境界要素を含み得て、上記複数のテンソル境界要素の各々は、上記複数のテンソルインデックス要素における対応するテンソルインデックス要素を
有し得る。上記命令は、第1のループと上記第1のループの外側ループである第2のループとを含む入れ子ループを処理するための命令を表わし得て、上記第1のループは、第1のインデックス変数を用いて反復され、上記第2のループは、第2のインデックス変数を用いて反復される。
上記1つ以上のプロセッサは、上記複数のテンソルインデックス要素、上記複数の次元乗数要素および上記複数のテンソル境界要素に記憶された値を初期化値に設定するように構成され得る。上記1つ以上のプロセッサは、上記複数のテンソル境界要素の第1のテンソル境界要素に記憶された値を、上記第1のループを反復するための上記第1のインデックス変数の上限値に設定するように構成され、上記複数のテンソル境界要素の第2のテンソル境界要素に記憶された値を、上記第2のループを反復するための上記第2のインデックス変数の上限値に設定するように構成され、上記複数の次元乗数要素の第1の次元乗数要素に記憶された値を、予め定められた値に設定するように構成され、上記複数の次元乗数要素の第2の次元乗数要素に記憶された値を、上記第1のインデックス変数の上記上限値に設定するように構成され得る。
上記N次元テンソルの上記要素の上記アドレスを決定するために、上記1つ以上のプロセッサは、上記複数のテンソルインデックス要素の第1のテンソルインデックス要素に記憶された値を、上記第1のインデックス変数の現在の値に設定するように構成され、上記複数のテンソルインデックス要素の第2のテンソルインデックス要素に記憶された値を、上記第2のインデックス変数の現在の値に設定するように構成され、上記第1の次元乗数要素に記憶された上記値と上記第1のテンソルインデックス要素に記憶された上記値とを乗算して、第1の乗算された値を取得するように構成され、上記第2の次元乗数要素に記憶された上記値と上記第2のテンソルインデックス要素に記憶された上記値とを乗算して、第2の乗算された値を取得するように構成され、上記第1の乗算された値および上記第2の乗算された値を少なくとも合計することによって上記アドレスを決定するように構成され得る。
上記1つ以上のプロセッサは、上記第1のテンソルインデックス要素に記憶された上記値を更新するための命令を受取るように構成され、上記第1のテンソルインデックス要素に記憶された上記値を更新するための上記命令を受取った後、上記第1のテンソルインデックス要素に記憶された上記値と上記第1のテンソル境界要素に記憶された上記値との間の差が閾値を満たすことを判断するように構成され、上記第1のテンソルインデックス要素に記憶された上記値と上記第1のテンソル境界要素に記憶された上記値との間の上記差が上記閾値を満たすと判断したことに応答して、上記第1のテンソルインデックス要素に記憶された上記値を更新するように構成され得る。上記第1のインデックス変数は、上記第1のループが完了するたびに第1のインクリメント値だけインクリメントされ得る。上記第1のテンソルインデックス要素に記憶された上記値を更新するために、上記第1のテンソルインデックス要素に記憶された上記値は、上記第1のインクリメント値だけインクリメントされ得る。
上記1つ以上のプロセッサは、上記第1のテンソルインデックス要素に記憶された上記値を更新するための命令を受取るように構成され、上記第1のテンソルインデックス要素に記憶された上記値を更新するための上記命令を受取った後、上記第1のテンソルインデックス要素に記憶された上記値と上記第1のテンソル境界要素に記憶された上記値との間の差が閾値を満たさないことを判断するように構成され得る。上記第1のテンソルインデックス要素に記憶された上記値と上記第1のテンソル境界要素に記憶された上記値との間の上記差が上記閾値を満たさないと判断したことに応答して、上記1つ以上のプロセッサは、上記第1のテンソルインデックス要素に記憶された上記値をリセットするように構成され、上記第2のテンソルインデックス要素に記憶された上記値を更新するように構成さ
れ得る。上記第2のインデックス変数は、上記第2のループが完了するたびに第2のインクリメント値だけインクリメントされ得る。上記第2のテンソルインデックス要素に記憶された上記値を更新するために、上記第2のテンソルインデックス要素に記憶された上記値は、上記第2のインクリメント値だけインクリメントされ得る。
上記1つ以上のプロセッサは、1つ以上の演算論理ユニットを含み得る。上記テンソルインデックス要素および上記次元乗数要素の各々は、レジスタであり得る。上記装置は、複数の分岐先要素を含み得て、上記複数の分岐先要素の各々は、上記複数のテンソルインデックス要素における対応するテンソルインデックス要素を有し、上記複数の分岐先要素の各々は、上記それぞれの分岐先要素に対応するループの反復が完了すると実行される命令のためのアドレスを記憶するように構成される。
本明細書に記載されている主題は、以下の利点のうちの1つ以上を達成するように特定の実施例で実現可能である。レジスタを用いてメモリアドレス値を追跡することにより、プログラムは、1つの命令で、深く入れ子にされたループを反復することができる。メモリアドレス値は、レジスタに記憶された値に基づいて単純な演算計算を適用することによって迅速に決定可能である。演算論理ユニットを用いてメモリアドレス値を決定することにより、プロセッサにおける計算サイクルの数を減少させることができ、他の計算タスクのためのプロセッサの帯域幅が増加する。命令の数を減少させた状態で、テンソルをトラバース(traverse)することができる。二次元レジスタアーキテクチャにより、各々が異なる次元を有する多次元テンソルを同時に追跡することができる。分岐先テーブルを有することによって、分岐命令関連のオーバーヘッドを減少させることができる。
このおよび他の側面の他の実現例は、コンピュータ記憶装置に符号化された方法の動作を実行するように構成された対応するシステム、装置およびコンピュータプログラムを含む。1つ以上のコンピュータのシステムは、動作時にシステムに動作を実行させる、システムにインストールされたソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせによってそのように構成され得る。1つ以上のコンピュータプログラムは、データ処理装置によって実行されたときに装置に動作を実行させる命令を有することによってそのように構成され得る。
本明細書に記載されている主題の1つ以上の実現例の詳細は、添付の図面および以下の説明に記載されている。主題の他の考えられる特徴、側面および利点は、明細書、図面および特許請求の範囲から明らかになるであろう。
例示的な計算システムのブロック図である。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 例示的なテンソルトラバースユニットを示す。 多次元テンソル変数のアドレスを決定するためのプロセスの一例を示すフロー図である。
さまざまな図の中の同様の参照番号および名称は、同様の要素を示す。
詳細な説明
一般に、ソフトウェアアルゴリズムがN次元テンソルを処理する際には、入れ子ループが使用され得て、各ループは、N次元テンソルの各次元をトラバースする役割を果たしている。多次元テンソルは、マトリクスまたは多次元マトリクスであってもよい。N次元テンソルの各次元は、1つ以上の要素を含み得て、各要素は、それぞれのデータ値を記憶し得る。例えば、テンソルは、プログラムにおける変数であってもよく、当該変数は、3つの次元を有し得る。第1の次元は、300個の要素の長さを有し得て、第2の次元は、1000個の要素の長さを有し得て、第3の次元は、20個の要素の長さを有し得る。入れ子ループにおいてテンソルをトラバースするには、要素の対応するデータ値をロードまたは記憶するために当該要素のメモリアドレス値の計算を必要とする。例えば、forループは入れ子ループであり、3つのループインデックス変数によって追跡される3つのループは、三次元テンソルをトラバースするように入れ子にされることができる。場合によっては、プロセッサは、外側ループインデックス変数により内側ループのループ境界を設定するなどのループ境界条件を実行する必要があるかもしれない。例えば、入れ子ループの最も内側のループを出るか否かを判断する際に、プログラムは、入れ子ループの最も内側のループのループインデックス変数の現在の値と、入れ子ループの最も外側のループのループインデックス変数の現在の値とを比較し得る。
これらのタスクは、分岐命令および整数演算命令などの相当な数の命令を必要とし得る。各ループ境界が小さく、ループの数が多い場合、計算は、実行時間全体の相当な部分を占めてパフォーマンス全体を著しく劣化させる恐れがある。例えば、プロセッサは、N次元テンソル入力を処理するように設計され得る。プロセッサは、二次元アーキテクチャ上で実現され得て、ソフトウェアによって処置されるべき(N-2)個の次元を残す。Nが大きい場合には、N-2個の次元の処理は、プロセッサにとって計算的に重い可能性がある。なぜなら、計算は非常に高いスカラ計算帯域幅を必要とするからである。プロセッサのためのハードウェアテンソルトラバースユニット(tensor traversal unit)は、テン
ソルをトラバースする際にプロセッサが処理しなければならない次元の数を減少させることによってプロセッサの計算帯域幅を増加させ得る。
図1は、テンソルをトラバースするための例示的な計算システム100のブロック図を示す。一般に、計算システム100は、入力104を処理して、出力116を生成する。計算システム100は、線形代数計算を実行するように構成され得る。入力104は、計算システム100によって処理されることができる任意の好適なデータであり得る。計算システム100は、処理ユニット102と、記憶媒体104と、テンソルトラバースユニット106とを含む。
一般に、処理ユニット102がテンソルの特定の要素にアクセスするための命令を実行すると、テンソルトラバースユニット106は、当該テンソルの特定の要素のアドレスを決定し、その結果、処理ユニット102は、記憶媒体104にアクセスして、当該特定の要素の値を表わすデータ114を読取ることができる。例えば、プログラムは、入れ子ループを含み得て、処理ユニット102は、入れ子ループに関連付けられる現在のインデックス変数値に従って、入れ子ループ内の二次元配列変数の要素にアクセスするための命令を実行し得る。入れ子ループに関連付けられる現在のインデックス変数値に基づいて、テンソルトラバースユニット106は、二次元配列変数の第1の要素からのオフセットを表わすオフセット値を決定し得る。次いで、当該オフセット値を用いて、記憶媒体から、処理ユニット102は、二次元配列変数の特定の要素にアクセスし得る。
処理ユニット102は、記憶媒体104に記憶される命令112または別の記憶装置に記憶される他の命令を含む、計算システム100内での実行のための命令を処理するよう
に構成される。処理ユニット102は、1つ以上のプロセッサを含み得る。記憶媒体104は、計算システム100内の情報を記憶する。いくつかの実現例では、記憶媒体104は、揮発性メモリユニットである。いくつかの他の実現例では、記憶媒体104は、不揮発性メモリユニットである。また、記憶媒体104は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスの配列などの、別の形態のコンピュータ読取可能な媒体であってもよい。命令は、処理ユニット102によって実行されたときに、処理ユニット102に1つ以上のタスクを実行させる。
テンソルトラバースユニット106は、1つ以上のテンソルに関連付けられるステータスを決定するように構成される。当該ステータスは、ループ境界値、現在のループインデックス変数値、メモリアドレス値を計算するための次元乗数、および/または、分岐ループ境界を処理するためのプログラムカウンタ値を含み得る。テンソルトラバースユニット106は、テンソルステータス要素122と、演算論理ユニット124とを含む。テンソルステータス要素122の各々は、記憶要素、例えばレジスタまたはその他の好適な記憶回路であってもよい。いくつかの実現例では、テンソルステータス要素122は、図2A~図2Hおよび図3A~図3Bを参照して以下でより詳細に説明するように、異なるグループに物理的または論理的に配置され得る。いくつかの実現例では、テンソルステータス要素122のグループは、多次元配列に物理的または論理的に配置され得る。例えば、テンソルステータス要素122の各グループは、二次元配列に物理的または論理的に配置されてもよい。演算論理ユニット124は、演算および論理オペレーションを実行するように構成された1つ以上の演算論理ユニット(arithmetic logic unit:ALU)を含む。
例えば、演算論理ユニット124は、加算、減算、乗算、除算、論理積、論理和、またはその他の好適な演算および論理オペレーションを実行するように構成されたデジタル回路を含んでもよい。
図2Aは、テンソルトラバースユニットのテンソルステータス要素200の例示的なセットを示す。テンソルステータス要素200は、テンソルトラバースユニット106のテンソルステータス要素122に対応し得る。テンソルトラバースユニット200は、テンソルインデックス要素202のグループと、テンソル境界要素204のグループと、次元乗数要素206のグループとを含む。テンソルインデックス要素202は、M個の行およびN個の列を有する二次元配列として物理的または論理的に配置され得て、MおよびNは1以上の整数である。いくつかの実現例では、テンソルインデックス要素202の各行は、テンソルのためのテンソルインデックス情報を表わし得る。例えば、プログラムが2つの配列変数V1およびV2を規定する場合、テンソルトラバースユニットは、配列変数V1およびV2のためのテンソルインデックス情報をそれぞれ追跡するために行202aおよび202bを割り当ててもよい。いくつかの実現例では、テンソルインデックス要素202の各列は、テンソルに関連付けられる入れ子ループインデックス変数値のためのテンソルインデックス情報を表わし得る。例えば、プログラムが変数V1にアクセスするための3つのループを有する入れ子ループを規定し、入れ子ループの各ループが入れ子ループインデックス変数i、jおよびkによって指標付けされる場合、テンソルトラバースユニットは、入れ子ループインデックス変数i、jおよびkをそれぞれ追跡するためにテンソルインデックス要素X1,1、X1,2およびX1,3を割り当ててもよい。テンソルインデックス情報については、以下の図2D~図2Hを参照して以下でより詳細に説明する。
テンソル境界要素204は、テンソルインデックス要素202と同一の次元を有する二次元配列として物理的または論理的に配置され得て、テンソル境界要素204の各要素は、テンソルインデックス要素202における対応する要素を有する。いくつかの実現例で
は、テンソル境界要素204の各行は、テンソルのためのテンソル境界情報を表わし得る。例えば、プログラムが2つの配列変数V1およびV2を規定する場合、テンソルトラバースユニットは、配列変数V1およびV2のためのテンソル境界情報をそれぞれ追跡するために行204aおよび204bを割り当ててもよい。いくつかの実現例では、テンソル境界要素204の各列は、テンソルに関連付けられる入れ子ループインデックス変数値のためのテンソル境界情報を表わし得る。例えば、プログラムが変数V1にアクセスするための3つのループを有する入れ子ループを規定し、入れ子ループの各ループが入れ子ループインデックス変数i、jおよびkによって指標付けされる場合、テンソルトラバースユニットは、入れ子ループインデックス変数i、jおよびkにそれぞれ関連付けられるテンソル境界情報を追跡するためにテンソル境界要素Y1,1、Y1,2およびY1,3を割り当ててもよい。テンソル境界情報については、以下の図2Cを参照して以下でより詳細に説明する。
次元乗数要素206は、テンソルインデックス要素202と同一の次元を有する二次元配列として物理的または論理的に配置され得て、次元乗数要素206の各要素は、テンソルインデックス要素202における対応する要素を有する。いくつかの実現例では、次元乗数要素206の各行は、テンソルのための次元乗数情報を表わし得る。例えば、プログラムが2つの配列変数V1およびV2を規定する場合、テンソルトラバースユニットは、配列変数V1およびV2のための次元乗数情報をそれぞれ追跡するために行206aおよび206bを割り当ててもよい。いくつかの実現例では、次元乗数要素206の各列は、テンソルに関連付けられる入れ子ループインデックス変数値のための次元乗数情報を表わし得る。例えば、プログラムが変数V1にアクセスするための3つのループを有する入れ子ループを規定し、入れ子ループの各ループが入れ子ループインデックス変数i、jおよびkによって指標付けされる場合、テンソルトラバースユニットは、入れ子ループインデックス変数i、jおよびkにそれぞれ関連付けられる次元乗数情報を追跡するために次元乗数要素Z1,1、Z1,2およびZ1,3を割り当ててもよい。次元乗数情報については、以下の図2Dを参照して以下でより詳細に説明する。
図2B~図2Hは、テンソルステータス要素200が、テンソルを処理するためにテンソルトラバースユニットによっていかに使用され得るかの一例を示す。図2Bを参照して、プログラム212は、記憶媒体104または処理ユニット102によって実行可能な別の記憶媒体に記憶され得る。プログラム212は、4という第1の次元と2という第2の次元とを有する文字配列変数Vを指定する。プログラム212は、変数Vをトラバースするための入れ子forループを指定し、forループは、入れ子ループインデックス変数iによって追跡される外側ループにおけるVの第1の次元をトラバースし、入れ子ループインデックス変数jによって追跡される内側ループにおけるVの第2の次元をトラバースする。いくつかの実現例では、テンソルステータス要素200は、プログラムの開始時に初期化され得る。例えば、プロセッサは、テンソルステータス要素200を初期化する命令「InitializeElements」を実行してもよい。当該命令は、プロセッサによって実行可能な命令セットのハードウェア命令であってもよい。いくつかの実現例では、初期化後、テンソルステータス要素200の各要素は、予め定められた値に設定される。ここでは、初期化後、テンソルステータス要素200の各要素は、ゼロに設定され得る。
図2Cは、プログラム212に従ったテンソル境界要素204におけるテンソル境界情報の設定を示す。例えば、プロセッサは、テンソル境界要素204におけるテンソル境界情報を設定する命令「SetTensorBound」を実行してもよい。いくつかの実現例では、テンソル境界情報は、対応する入れ子ループインデックス変数の上限を表わす。ここでは、内側入れ子ループインデックス変数iは4という上限を有し、外側入れ子ループインデックス変数jは2という上限を有する。テンソル境界要素204におけるテンソル境界情報を設定した後、要素214(すなわちY1,2)は4に設定され、要素216(すなわちY
1,1)は2に設定される。
図2Dは、プログラム212に従った次元乗数要素206における次元乗数情報の設定を示す。例えば、プロセッサは、次元乗数要素206における次元乗数情報を設定する命令「SetDimensionMultiplier」を実行してもよい。いくつかの実現例では、次元乗数情報は、テンソルインデックス要素202における対応する要素が乗算され得る乗数を表わす。ここでは、文字変数Vは、4という第1の次元と、2という第2の次元とを有する。要素V[0][0]がベースメモリアドレスPに記憶され、要素V[0][1]がメモリアドレスP+1に記憶される場合、要素V[1][0]はメモリアドレスP+2に記憶される。したがって、要素V[i][j]のための対応するメモリアドレスは、P+(i×2)+(j×1)である。したがって、外側ループのための次元乗数情報は2であり、内側ループのための次元乗数情報は1である。次元乗数要素206における次元乗数情報を設定した後、要素222(すなわちZ1,2)は2に設定され、要素224(すなわちZ1,1)は1に設定される。
図2Eは、プログラム212に従った要素V[0][0]へのアクセスを示す。例えば、プロセッサは、アクセスされている要素に対応するメモリアドレスの位置を突き止める命令「LocateTensor」を実行してもよい。いくつかの実現例では、当該命令は、ベースメモリアドレスを含み得る。例えば、命令「LocateTensor」は、変数Vの第1の要素である要素V[0][0]のメモリアドレスを含み得る。いくつかの実現例では、当該命令は、アクセスされるべきテンソルに対応する行番号を含み得る。例えば、命令「LocateTensor」は、変数Vに対応する行番号を含んでもよい。ここでは、行番号は1である。
いくつかの実現例では、命令を受取ったことに応答して、演算論理ユニット(例えば演算論理ユニット106)は、テンソルインデックス要素202の各々に記憶された値と対応する次元乗数要素206に記憶された値との間の乗算結果の合計を計算することによって、メモリアドレスオフセットを決定する。ここでは、演算論理ユニットは、要素X1,Nに記憶された値と要素Z1,Nに記憶された値とを乗算し、要素X1,N-1に記憶された値と要素Z1,N-1に記憶された値とを乗算し、...要素X1,2に記憶された値
と要素Z1,2に記憶された値とを乗算し、要素X1,1に記憶された値と要素Z1,1に記憶された値とを乗算する。次いで、演算論理ユニットは、全ての乗算結果を合計して、アクセスされている要素に対応するメモリアドレスを決定する。テンソルインデックス要素202における全ての値がゼロであるので、ボックス230によって示されるようにメモリアドレスオフセットはゼロである。次いで、プロセッサは、ベースメモリアドレス(すなわちP)をメモリアドレスオフセット(すなわち0)に加算してメモリアドレスを決定し、決定されたメモリアドレスに基づいて記憶媒体に記憶されたデータにアクセスすることによって、要素V[0][0]にアクセスすることができる。
図2Fは、プログラム212に従った要素V[0][1]へのアクセスを示す。例えば、プログラムが第1の内側ループを反復した後、入れ子ループインデックス変数は更新され(すなわちi=0およびj=0)、プロセッサは、プログラムが第2の内側ループに入ったときにテンソルインデックス要素202を更新する(すなわちi=0およびj=1)命令「IterateTensor」を実行してもよい。いくつかの実現例では、テンソルトラバース
ユニットは、最低のインデックスを有するテンソルインデックス要素を予め定められた値だけインクリメントすることによってテンソルインデックス要素202を更新する。例えば、図2Fを参照して、テンソルトラバースユニットは、テンソルインデックス要素228(すなわちX1,1)を1だけインクリメントしてもよい。いくつかの他の実現例では
、テンソルトラバースユニットは、最低のインデックスを有するテンソルインデックス要素を予め定められた値だけデクリメントすることによってテンソルインデックス要素202を更新してもよい。
いくつかの実現例では、テンソルトラバースユニットは、テンソルインデックス要素202における更新された値とテンソル境界要素204における値とを比較し、閾値が満たされたか否かを判断する。例えば、テンソルトラバースユニットは、テンソルインデックス要素228における更新された値(すなわち1)とテンソル境界要素216における値(すなわち2)とを比較し、テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さいか否かを判断してもよい。ここでは、テンソルインデックス要素228における更新された値は、テンソル境界要素216における値よりも小さく、テンソルインデックス要素228における更新された値は1のままである。
次いで、プロセッサは、V[0][1]に対応するメモリアドレスの位置を突き止めるための命令「LocateTensor」を実行することによって要素V[0][1]にアクセスすることができる。図2Fを参照して、テンソルインデックス要素228以外のテンソルインデックス要素202における全ての値は、ゼロである。テンソルインデックス要素228は1という値を有し、演算論理ユニットは、ボックス232によって示されるようにメモリアドレスオフセットが1であると判断し得る。次いで、プロセッサは、ベースメモリアドレス(すなわちP)をメモリアドレスオフセット(すなわち1)に加算してメモリアドレスを決定し、決定されたメモリアドレスに基づいて記憶媒体に記憶されたデータにアクセスすることによって、要素V[0][1]にアクセスすることができる。
図2Gは、プログラム212に従った要素V[1][0]へのアクセスを示す。例えば、プログラムが二度目に内側ループを反復した後、入れ子ループインデックス変数は更新され(すなわちi=1およびj=0)、プロセッサは、テンソルインデックス要素202を更新する命令「IterateTensor」を実行してもよい。例えば、テンソルトラバースユニ
ットは、テンソルインデックス要素228(すなわちX1,1)を1だけインクリメントしてもよい。テンソルトラバースユニットは、テンソルインデックス要素228における更新された値(すなわち2)とテンソル境界要素216における値(すなわち2)とを比較し、テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さくないと判断し得る。いくつかの実現例では、閾値が満たされていないと判断したことに応答して、テンソルトラバースユニットは、更新された値を次のテンソルインデックス要素に繰り越して、現在のテンソルインデックス要素をリセットし得る。例えば、テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さくないので、テンソルトラバースユニットは、テンソルインデックス要素226を1だけインクリメントし、テンソルインデックス要素228をゼロにリセットしてもよい。
次いで、プロセッサは、V[1][0]に対応するメモリアドレスの位置を突き止めるための命令「LocateTensor」を実行することによって要素V[1][0]にアクセスすることができる。図2Gを参照して、テンソルインデックス要素226以外のテンソルインデックス要素202における全ての値は、ゼロである。テンソルインデックス要素226は1という値を有し、演算論理ユニットは、ボックス234によって示されるようにメモリアドレスオフセットが2であると判断し得る。次いで、プロセッサは、ベースメモリアドレス(すなわちP)をメモリアドレスオフセット(すなわち2)に加算してメモリアドレスを決定し、決定されたメモリアドレスに基づいて記憶媒体に記憶されたデータにアクセスすることによって、要素V[1][0]にアクセスすることができる。
図2Hは、プログラム212に従った要素V[3][1]へのアクセスを示す。例えば、プログラムは、入れ子ループインデックス変数がそれらの上限にくる(すなわちi=3およびj=1)まで内側ループおよび外側ループを反復し続けてもよい。プロセッサは、
V[3][1]に対応するメモリアドレスの位置を突き止めるための命令「LocateTensor」を実行することによって要素V[3][1]にアクセスすることができる。図2Hを参照して、テンソルインデックス要素226および228以外のテンソルインデックス要素202における全ての値は、ゼロである。テンソルインデックス要素226は3という値を有し、テンソルインデックス要素228は1という値を有する。演算論理ユニットは、ボックス236によって示されるようにメモリアドレスオフセットが7であると判断し得る。次いで、プロセッサは、ベースメモリアドレス(すなわちP)をメモリアドレスオフセット(すなわち7)に加算してメモリアドレスを決定し、決定されたメモリアドレスに基づいて記憶媒体に記憶されたデータにアクセスすることによって、要素V[3][1]にアクセスすることができる。
次いで、プロセッサは、テンソルインデックス要素202を更新する命令「IterateTensor」を実行し得る。例えば、テンソルトラバースユニットは、テンソルインデックス要
素228(すなわちX1,1)を1だけインクリメントしてもよい。テンソルトラバースユニットは、テンソルインデックス要素228における更新された値(すなわち2)とテンソル境界要素216における値(すなわち2)とを比較し、テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さくないと判断し得る。テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さくないので、テンソルトラバースユニットは、テンソルインデックス要素226を1だけインクリメントし、テンソルインデックス要素228をゼロにリセットし得る。テンソルトラバースユニットは、テンソルインデックス要素226における更新された値(すなわち3+1=4)とテンソル境界要素214における値(すなわち4)とを比較し、テンソルインデックス要素226における更新された値がテンソル境界要素214における値よりも小さくないと判断し得る。テンソルインデックス要素228における更新された値がテンソル境界要素214における値よりも小さくないので、テンソルトラバースユニットは、次のテンソルインデックス要素(すなわちX1,3)を1だけインクリメントし、テンソルインデックス要素226をゼロにリセットし得る。しかし、対応するテンソル境界要素(すなわちY1,3)がゼロであるので、閾値は満たされない。テンソルトラバースユニットは、第1の行における全てのテンソルインデックス要素がゼロにリセットされるまでテンソルインデックス要素202の第1の行をリセットし続けるであろう。
図2B~図2Hを参照して上記した例では、要素Vのためのテンソルトラバースの順序は、V[0][0]、V[0][1]、V[1][0]、V[1][1]、V[2][0]、V[2][1]、V[3][0]およびV[3][1]である。いくつかの実現例では、プログラムは、要素214(すなわちY1,2)におけるテンソル境界情報を2に設定し、要素216(すなわちY1,1)におけるテンソル境界情報を4に設定し、要素222(すなわちZ1,2)における次元乗数情報を1に設定し、要素224(すなわちZ1,1)における次元乗数情報を2に設定することによって、V[0][0]、V[1][0]、V[2][0]、V[3][0]、V[0][1]、V[1][1]、V[2][1]およびV[3][1]の順序で要素Vをトラバースし得る。
図3は、テンソルトラバースユニットのテンソルステータス要素300の例示的なセットを示す。テンソルステータス要素300は、テンソルトラバースユニット106のテンソルステータス要素122またはテンソルステータス要素200に対応し得る。テンソルトラバースユニット300は、テンソルインデックス要素302のグループと、テンソル境界要素304のグループと、次元乗数要素306のグループと、分岐先要素308のグループとを含む。分岐先要素308は、二次元配列として物理的または論理的に配置され得て、分岐先要素308の各要素は、テンソルインデックス要素302における対応する要素を有する。いくつかの実現例では、分岐先要素308の各行は、テンソルのための分
岐先情報を表わし得る。いくつかの実現例では、分岐先要素308の各列は、テンソルに関連付けられる入れ子ループインデックス変数値のための分岐先情報を表わし得る。いくつかの実現例では、テンソルインデックス要素302、テンソル境界要素304および次元乗数要素306のためにN個の列が存在するN次元テンソルでは、対応する分岐先308のN+1個の列が存在し得る。なぜなら、境界閾値を満たすためのN+1個の場合があるからである。
いくつかの実現例では、分岐先情報は、入れ子ループでのループ反復が完了するとプロセッサによって実行される命令のメモリアドレスを含み得る。例えば、テンソルインデックス要素における値が更新されると、プロセッサは、対応する分岐先要素に記憶されたメモリアドレスに従って命令を実行してもよい。図3を参照して、プログラム312は、記憶媒体104または処理ユニット102によって実行可能な別の記憶媒体に記憶され得る。プログラム312は、4という第1の次元と2という第2の次元とを有する文字配列変数Vを指定する。プログラム312は、変数Vをトラバースするための入れ子forループを指定し、forループは、入れ子ループインデックス変数iによって追跡される外側ループにおけるVの第1の次元をトラバースし、入れ子ループインデックス変数jによって追跡される内側ループにおけるVの第2の次元をトラバースする。また、プログラム312は、プロセッサが入れ子ループインデックス変数iの現在の値と数2とを比較するための最小値関数命令を実行することを必要とする、内側ループを出るための条件を指定する。いくつかの実現例では、最小値関数命令のメモリアドレスは、分岐先要素324に記憶され得て、その結果、テンソルインデックス要素326からテンソルインデックス要素328への繰り越しがある場合には、最小値関数命令は、内側ループのための分岐条件を決定して内側ループのためのテンソル境界情報を設定するようにプロセッサによって実行されるであろう。同様に、異なる命令のメモリアドレスは、分岐先要素322に記憶され得て、その結果、テンソルインデックス要素328への繰り越しを有することなくテンソルインデックス要素326においてインクリメントがある場合には、当該異なる命令がプロセッサによって実行されるであろう。
図4は、多次元テンソル変数のアドレスを決定するためのプロセス400の一例を示すフロー図である。プロセス400は、1つ以上のコンピュータのシステム、例えば計算システム100によって実行され得る。当該システムは、複数のテンソルインデックス要素と複数の次元乗数要素とを有するテンソルトラバースユニットを含み、次元乗数要素の各々は、対応するテンソルインデックス要素を有する。いくつかの実現例では、当該システムは、複数のテンソル境界要素を含み得て、複数のテンソル境界要素の各々は、複数のテンソルインデックス要素における対応するテンソルインデックス要素を有し得る。いくつかの実現例では、当該システムは、1つ以上の演算論理ユニットを含む。
当該システムは、N次元テンソルの特定の要素にアクセスするための命令を取得し、N次元テンソルは、N次元の各々にわたって配置された複数の要素を有し、Nは1以上の整数である(402)。例えば、処理ユニット102は、テンソルの特定の要素にアクセスするための命令を実行してもよい。
いくつかの実現例では、当該命令は、第1のループと第1のループの外側ループである第2のループとを含む入れ子ループを処理するための命令を表わし得て、第1のループは、第1のインデックス変数を用いて反復され、第2のループは、第2のインデックス変数を用いて反復される。例えば、プログラム212は、記憶媒体104または処理ユニット102によって実行可能な別の記憶媒体に記憶されてもよい。プログラム212は、4という第1の次元と2という第2の次元とを有する文字配列変数Vを指定し得る。プログラム212は、変数Vをトラバースするための入れ子forループを指定し得て、forループは、入れ子ループインデックス変数iによって追跡される外側ループにおけるVの第
1の次元をトラバースし、入れ子ループインデックス変数jによって追跡される内側ループにおけるVの第2の次元をトラバースする。
当該システムは、複数のテンソルインデックス要素のうちの1つ以上のテンソルインデックス要素および複数の次元乗数要素のうちの1つ以上の次元乗数要素を用いて、特定の要素のアドレスを決定する(404)。いくつかの実現例では、特定の要素のアドレスは、N次元テンソルの別の要素からのアドレスオフセットであってもよい。1つ以上のテンソルインデックス要素の各テンソルインデックス要素ごとに、当該システムは、それぞれのテンソルインデックス要素に記憶された値と、1つ以上の複数のテンソルインデックス要素の対応するテンソルインデックス要素に記憶された値とを乗算して、それぞれの乗算された値を生成し得る。当該システムは、乗算された値の合計を求めることによってアドレスオフセットを決定し得る。例えば、演算論理ユニット(例えば演算論理ユニット106)は、テンソルインデックス要素202の各々に記憶された値と対応する次元乗数要素206に記憶された値との間の乗法積の合計を計算することによって、メモリアドレスオフセットを決定してもよい。
いくつかの実現例では、当該システムは、複数のテンソルインデックス要素、複数の次元乗数要素および複数のテンソル境界要素に記憶された値を初期化値に設定し得る。例えば、プロセッサは、テンソルステータス要素200を初期化する命令「InitializeElements」を実行してもよい。初期化後、テンソルステータス要素200の各要素は、ゼロに設定され得る。
いくつかの実現例では、当該システムは、複数のテンソル境界要素の第1のテンソル境界要素に記憶された値を、第1のループを反復するための第1のインデックス変数の上限値に設定し得る。当該システムは、複数のテンソル境界要素の第2のテンソル境界要素に記憶された値を、第2のループを反復するための第2のインデックス変数の上限値に設定し得る。例えば、プロセッサは、テンソルステータス要素200を初期化する命令「InitializeElements」を実行してもよい。初期化後、テンソルステータス要素200の各要素は、ゼロに設定され得る。当該システムは、複数の次元乗数要素の第1の次元乗数要素に記憶された値を予め定められた値に設定し得る。当該システムは、複数の次元乗数要素の第2の次元乗数要素に記憶された値を第1のインデックス変数の上限値に設定し得る。例えば、プロセッサは、テンソル境界要素204におけるテンソル境界情報を設定する命令「SetTensorBound」を実行してもよい。テンソル境界要素204におけるテンソル境界情報を設定した後、要素214(すなわちY1,2)は4に設定され、要素216(すなわちY1,1)は2に設定される。
いくつかの実現例では、当該システムは、複数のテンソルインデックス要素の第1のテンソルインデックス要素に記憶された値を第1のインデックス変数の現在の値に設定し得る。当該システムは、複数のテンソルインデックス要素の第2のテンソルインデックス要素に記憶された値を第2のインデックス変数の現在の値に設定し得る。当該システムは、第1の次元乗数要素に記憶された値と、第1のテンソルインデックス要素に記憶された値とを乗算して、第1の乗算された値を取得し得る。当該システムは、第2の次元乗数要素に記憶された値と、第2のテンソルインデックス要素に記憶された値とを乗算して、第2の乗算された値を取得し得る。当該システムは、第1の乗算された値と第2の乗算された値とを少なくとも合計することによってアドレスを決定し得る。例えば、演算論理ユニットは、要素X1,Nに記憶された値と要素Z1,Nに記憶された値とを乗算し、要素X1,N-1に記憶された値と要素Z1,N-1に記憶された値とを乗算し、...要素X1,
に記憶された値と要素Z1,2に記憶された値とを乗算し、要素X1,1に記憶された値と要素Z1,1に記憶された値とを乗算する。次いで、演算論理ユニットは、全ての乗算された積を合計して、アクセスされている要素に対応するメモリアドレスを決定する。
いくつかの実現例では、当該システムは、第1のテンソルインデックス要素に記憶された値を更新するための命令を受取り得る。例えば、プロセッサは、テンソルインデックス要素202を更新する命令「IterateTensor」を実行してもよい。第1のテンソルインデ
ックス要素に記憶された値を更新するための命令を受取った後、当該システムは、第1のテンソルインデックス要素に記憶された値と第1のテンソル境界要素に記憶された値との間の差が閾値を満たすと判断し得る。第1のテンソルインデックス要素に記憶された値と第1のテンソル境界要素に記憶された値との間の差が閾値を満たすと判断したことに応答して、当該システムは、第1のテンソルインデックス要素に記憶された値を更新し得る。例えば、図2Fを参照して、テンソルトラバースユニットは、テンソルインデックス要素228(すなわちX1,1)を1だけインクリメントしてもよい。テンソルインデックス要素228における更新された値は、テンソル境界要素216における値よりも小さく、テンソルインデックス要素228における更新された値は、1のままである。
いくつかの実現例では、第1のインデックス変数は、第1のループが完了するたびに第1のインクリメント値だけインクリメントされ得る。当該システムは、第1のテンソルインデックス要素に記憶された値を第1のインクリメント値だけインクリメントし得る。例えば、プログラムが第2の内側ループに入った(すなわちi=0およびj=1)後、テンソルトラバースユニットは、テンソルインデックス要素228(すなわちX1,1)を1だけインクリメントしてもよい。
いくつかの実現例では、当該システムは、第1のテンソルインデックス要素に記憶された値を更新するための命令を受取り得る。例えば、プロセッサは、テンソルインデックス要素202を更新する命令「IterateTensor」を実行してもよい。第1のテンソルインデ
ックス要素に記憶された値を更新するための命令を受取った後、当該システムは、第1のテンソルインデックス要素に記憶された値と第1のテンソル境界要素に記憶された値との間の差が閾値を満たさないと判断し得る。第1のテンソルインデックス要素に記憶された値と第1のテンソル境界要素に記憶された値との間の差が閾値を満たさないと判断したことに応答して、当該システムは、第1のテンソルインデックス要素に記憶された値をリセットし、第2のテンソルインデックス要素に記憶された値を更新し得る。例えば、テンソルトラバースユニットは、テンソルインデックス要素228(すなわちX1,1)を1だけインクリメントしてもよい。テンソルトラバースユニットは、テンソルインデックス要素228における更新された値(すなわち2)とテンソル境界要素216における値(すなわち2)とを比較し、テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さくないと判断し得る。テンソルインデックス要素228における更新された値がテンソル境界要素216における値よりも小さくないので、テンソルトラバースユニットは、テンソルインデックス要素226を1だけインクリメントし、テンソルインデックス要素228をゼロにリセットし得る。
いくつかの実現例では、第2のインデックス変数は、第2のループが完了するたびに第2のインクリメント値だけインクリメントされ得る。当該システムは、第2のテンソルインデックス要素に記憶された値を第2のインクリメント値だけインクリメントし得る。例えば、プログラムが外側ループの次のループに入った(すなわちi=1およびj=0)後、テンソルトラバースユニットは、テンソルインデックス要素226(すなわちX1,2)を1だけインクリメントしてもよい。
当該システムは、N次元テンソルの特定の要素にアクセスするための決定されたアドレスを示すデータを出力する(406)。例えば、処理ユニット102は、メモリアドレスオフセット値を用いて、記憶媒体におけるN次元配列変数の特定の要素にアクセスしてもよい。
いくつかの実現例では、当該システムは、複数の分岐先要素を含み、複数の分岐先要素の各々は、複数のテンソルインデックス要素における対応するテンソルインデックス要素を有し、複数の分岐先要素の各々は、それぞれの分岐先要素に対応するループの反復が完了すると実行される命令のためのアドレスを記憶するように構成される。例えば、テンソルトラバースユニット300は、分岐先情報を記憶する分岐先要素308のグループを含む。分岐先情報は、入れ子ループのループ反復が完了するとプロセッサによって実行される命令のメモリアドレスを含み得る。
本明細書に記載されている主題および機能的オペレーションの実施例は、デジタル電子回路、有形に具体化されたコンピュータソフトウェアもしくはファームウェア、本明細書に開示された構造およびそれらの構造的等価物を含むコンピュータハードウェア、またはそれらのうちの1つ以上の組み合わせで実現可能である。本明細書に記載されている主題の実施例は、1つ以上のコンピュータプログラムとして、すなわち有形の非一時的なプログラムキャリア上で符号化されてデータ処理装置によって実行されるかまたはデータ処理装置のオペレーションを制御するためのコンピュータプログラム命令の1つ以上のモジュールとして実現可能である。代替的にまたは加えて、プログラム命令は、情報を符号化して好適な受信機装置に送信してデータ処理装置によって実行されるように生成される人為的に生成された伝搬信号、例えばマシンによって生成される電気信号、光信号または電磁信号上で符号化されてもよい。コンピュータ記憶媒体は、マシン読取可能な記憶装置、マシン読取可能な記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つ以上の組み合わせであってもよい。
「データ処理装置」という用語は、データを処理するための全ての種類の装置、デバイスおよびマシンを包含し、一例としてプログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む。当該装置は、特殊用途論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含んでもよい。また、当該装置は、ハードウェアに加えて、対象のコンピュータプログラムのための実行環境を作り出すコード、例えばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つ以上の組み合わせを構成するコードを含んでもよい。
コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも称され、そのようなものとしても記載され得る)は、コンパイラ型言語もしくはインタープリタ型言語、または宣言型言語または手続き型言語を含む任意の形態のプログラミング言語で書込まれてもよく、スタンドアロン型プログラムまたはモジュール、コンポーネント、サブルーチンもしくは計算環境での使用に好適な他のユニットを含む任意の形態で配備されてもよい。コンピュータプログラムは、ファイルシステムにおけるファイルに対応してもよいが、対応する必要はない。プログラムは、他のプログラムもしくはデータを保持するファイルの一部、例えばマークアップ言語ドキュメントに記憶された1つ以上のスクリプトに記憶されてもよく、対象のプログラムに専用の単一のファイルに記憶されてもよく、または複数の調整されたファイル、例えば1つ以上のモジュール、サブプログラムもしくはコードの一部を記憶するファイルに記憶されてもよい。コンピュータプログラムは、1つのコンピュータで実行されるように配備されてもよく、または1箇所に位置するかもしくは複数の箇所に分散されて通信ネットワークよって相互接続されている複数のコンピュータで実行されるように配備されてもよい。
本明細書に記載されているプロセスおよび論理フローは、入力データ上で動作して出力を生成することによって機能を実行するように1つ以上のコンピュータプログラムを実行
する1つ以上のプログラム可能なコンピュータによって実行されてもよい。また、当該プロセスおよび論理フローは、特殊用途論理回路、例えばFPGA(フィールドプログラマブルゲートアレイ)、ASIC(特定用途向け集積回路)またはGPGPU(汎用グラフィックス処理ユニット)によって実行されてもよく、そのようなものとして装置が実現されてもよい。
コンピュータプログラムの実行に好適なコンピュータは、一例として、汎用マイクロプロセッサもしくは特殊用途マイクロプロセッサに基づいてもよく、またはそれら両方に基づいてもよく、またはその他の種類の中央処理装置に基づいてもよい。一般に、中央処理装置は、リードオンリメモリまたはランダムアクセスメモリまたはそれら両方から命令およびデータを受取るであろう。コンピュータの不可欠な要素は、命令を実施または実行するための中央処理装置と、命令およびデータを記憶するための1つ以上のメモリデバイスとである。一般に、コンピュータは、データを記憶するための1つ以上の大容量記憶装置、例えば磁気ディスク、光磁気ディスクまたは光ディスクも含み、または当該1つ以上の大容量記憶装置からデータを受取るか当該1つ以上の大容量記憶装置にデータを転送するように、もしくはデータの受取りも転送も行うように作動的に結合されるであろう。しかし、コンピュータは、このような装置を有する必要はない。さらに、コンピュータは、別の装置、例えば数例を挙げると、携帯電話、パーソナルデジタルアシスタント(personal
digital assistant:PDA)、携帯型オーディオもしくはビデオプレーヤ、ゲーム機、グローバルポジショニングシステム(Global Positioning System:GPS)受信機、ま
たは携帯記憶装置、例えばユニバーサルシリアルバス(universal serial bus:USB)フラッシュドライブに組み込まれてもよい。
コンピュータプログラム命令およびデータの記憶に好適なコンピュータ読取可能な媒体は、全ての形態の不揮発性メモリ、媒体およびメモリデバイスを含み、一例として、例えばEPROM、EEPROMおよびフラッシュメモリデバイスといった半導体メモリデバイス、例えば内部ハードディスクまたはリムーバブルディスクといった磁気ディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む。プロセッサおよびメモリは、特殊用途論理回路によって補完されてもよく、または特殊用途論理回路に組み入れられてもよい。
ユーザとの対話を提供するために、本明細書に記載されている主題の実施例は、情報をユーザに表示するためのディスプレイ装置、例えばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタと、キーボードと、ユーザが入力をコンピュータに提供することができるポインティング装置、例えばマウスまたはトラックボールとを有するコンピュータ上で実現可能である。ユーザとの対話を提供するために他の種類の装置も使用可能である。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、例えば視覚的フィードバック、聴覚的フィードバックまたは触知可能なフィードバックであってもよく、ユーザからの入力は、音響入力、音声入力または触知可能な入力を含む任意の形態で受取られてもよい。また、コンピュータは、ユーザによって使用される装置にドキュメントを送信し、当該装置からドキュメントを受信することによって、例えばユーザのクライアント装置上のウェブブラウザから受取られた要求に応答して当該ウェブブラウザにウェブページを送信することによって、ユーザと対話してもよい。
本明細書に記載されている主題の実施例は、バックエンドコンポーネントを含む計算システムにおいて、例えばデータサーバとして実現されてもよく、またはミドルウェアコンポーネント、例えばアプリケーションサーバを含む計算システムにおいて実現されてもよく、フロントエンドコンポーネント、例えばユーザが本明細書に記載されている主題の実現例と対話することができるグラフィカルユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータを含む計算システムにおいて実現されてもよく、ま
たは1つ以上のこのようなバックエンド、ミドルウェアまたはフロントエンドコンポーネントの任意の組み合わせを含む計算システムで実現されてもよい。システムのコンポーネントは、デジタルデータ通信、例えば通信ネットワークの任意の形態または媒体によって相互接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(「LAN」)および広域ネットワーク(「WAN」)、例えばインターネットが挙げられる。
計算システムは、クライアントとサーバとを含み得る。クライアントおよびサーバは、一般に、互いに離れており、典型的には通信ネットワークを介して対話する。クライアントとサーバとの関係は、それぞれのコンピュータで実行されて互いに対するクライアントとサーバとの関係を有するコンピュータプログラムによって生じる。
本明細書は多くの具体的な実現例の詳細を含むが、これらは、いかなる発明の範囲も限定するものとして解釈されるべきではなく、またはクレームされ得るものの範囲を限定するものとして解釈されるべきではなく、特定の発明の特定の実施例に特有であり得る特徴の説明として解釈されるべきである。別々の実施例の文脈で本明細書に記載されている特定の特徴は、単一の実施例において組み合わせて実現されてもよい。逆に、単一の実施例の文脈で記載されているさまざまな特徴は、複数の実施例で別々に実現されてもよく、または任意の好適なサブコンピネーションで実現されてもよい。さらに、特徴は、特定の組み合わせで作動するものとして、さらにはそのように最初にクレームされたものとして上記され得るが、クレームされている組み合わせからの1つ以上の特徴は、場合によっては、当該組み合わせから削除されてもよく、クレームされている組み合わせは、サブコンビネーションまたはサブコンビネーションの変形例に向けられてもよい。
同様に、オペレーションは特定の順序で図面に示されているが、これは、このようなオペレーションが、望ましい結果を達成するために、示されている特定の順序またはシーケンシャルな順序で実行されなければならないものとして理解されるべきではなく、または、望ましい結果を達成するために全ての示されているオペレーションが実行されなければならないものとして理解されるべきではない。特定の状況では、マルチタスクおよび並列処理が有利であろう。さらに、上記の実施例におけるさまざまなシステムモジュールおよびコンポーネントの分離は、全ての実施例においてこのような分離が必要であるものとして理解されるべきではなく、記載されているプログラムコンポーネントおよびシステムは、一般に、単一のソフトウェア製品に統合されてもよく、または複数のソフトウェア製品にパッケージングされてもよい、ということが理解されるべきである。
主題の特定の実施例について説明してきた。他の実施例も以下の特許請求の範囲の範囲内である。例えば、特許請求の範囲に記載されている動作は、異なる順序で実行されても、依然として望ましい結果を達成することができる。一例として、添付の図面に示されているプロセスは、望ましい結果を達成するために、示されている特定の順序またはシーケンシャルな順序を必ずしも必要としない。特定の実現例では、マルチタスクおよび並列処理が有利であろう。
100 計算システム;102 処理ユニット;104 記憶媒体;104 入力;106 テンソルトラバースユニット;112 命令;114 データ;116 出力;122 テンソルステータス要素;124 演算論理ユニット;202、302 テンソルインデックス要素;204、304 テンソル境界要素;206、306 次元乗数要素;308 分岐先要素。

Claims (20)

  1. 多次元テンソル入力を処理するための装置であって、
    N次元テンソルをトラバースするために使用される複数の入れ子ループの各々のためのテンソルインデックス要素を含む複数のテンソルインデックス要素を備え、各テンソルインデックス要素は、前記N次元テンソルのそれぞれの次元をトラバースするために使用されるそれぞれの入れ子ループのためのインデックス値を格納するように構成されたそれぞれの第1のハードウェアレジスタにより実装され、前記N次元テンソルは、N個の次元の各々にわたって配置されたデータ要素を含み、Nは、1以上の整数であり、各インデックス値は、前記インデックス値の前記それぞれの入れ子ループの反復が実行されるたびに更新される値であり、前記装置はさらに、
    複数の次元乗数要素を備え、各次元乗数要素は、前記N次元テンソルのそれぞれの次元の乗数値を格納するように構成されたそれぞれの第2のハードウェアレジスタにより実装され、各乗数値は、前記乗数値についての前記N次元テンソルの前記それぞれの次元について一定の値であって、前記それぞれの次元をトラバースするために使用される前記それぞれの入れ子ループの各反復の間は一定のままであり、前記装置はさらに、
    1つまたは複数のハードウェアプロセッサを備え、前記1つまたは複数のハードウェアプロセッサは、前記1つまたは複数のハードウェアプロセッサによって実行可能な命令セットの1つまたは複数の命令を実行するように構成され、前記1つまたは複数の命令の実行は、前記1つまたは複数のハードウェアプロセッサに動作を実行させ、前記動作は、
    前記N次元テンソルの一連のデータ要素のデータ値を格納するためのメモリ内の位置のメモリアドレスを決定することを備え、前記メモリアドレスを決定することは、
    前記入れ子ループの内側ループの各反復の間に、
    前記N次元テンソルの各次元について、(i)前記次元をトラバースするために使用される前記入れ子ループのための前記テンソルインデックス要素に格納された前記インデックス値と、(ii)前記次元の前記乗数値との積を求めることと、
    前記N次元テンソルの各次元についての前記積の合計に基づいて、前記内側ループの前記反復に対応するデータ要素のメモリアドレスを決定することとによってなされ、
    前記動作はさらに、
    前記N次元テンソルの前記一連のデータ要素における各データ要素の前記決定されたメモリアドレスを示すデータを出力することを備える、装置。
  2. 前記N次元テンソルの各次元についての前記積の合計に基づいて、前記内側ループの前記反復に対応するデータ要素の前記メモリアドレスを決定することは、(i)前記N次元テンソルの各次元についての前記積の前記合計と、(ii)ベースメモリアドレスとの合計を求めることを備える、請求項1に記載の装置。
  3. 各データ要素の前記決定されたメモリアドレスを示すデータを出力することは、前記メモリアドレスが決定されるときに順番に、各データ要素の前記決定されたメモリアドレスを示すデータをシーケンシャルに出力することを備える、請求項1または2に記載の装置。
  4. 前記1つまたは複数のハードウェアプロセッサはさらに、
    前記内側ループの前記インデックス値を、前記内側ループが完了するたびに第1のインクリメント値だけインクリメントするように構成され、
    前記内側ループが入れ子にされる第2のループのインデックス値を、前記第2のループが完了するたびに第2のインクリメント値だけインクリメントするように構成される、請求項1~3のいずれか1項に記載の装置。
  5. 前記1つまたは複数のハードウェアプロセッサはさらに、
    前記内側ループの前記インデックス値を更新するための命令を受取るように構成され、
    前記内側ループの前記インデックス値を更新するための前記命令を受取った後、前記内側ループの前記インデックス値と前記内側ループのテンソル境界要素に格納されたテンソル境界値との間の差が閾値を満たすことを判断するように構成され、
    前記差が前記閾値を満たすと判断したことに応答して、前記内側ループの前記インデックス値を第1のインクリメント値だけインクリメントするように構成される、請求項1~4のいずれか1項に記載の装置。
  6. 前記1つまたは複数のハードウェアプロセッサはさらに、
    前記内側ループの前記インデックス値を更新するための命令を受取るように構成され、
    前記内側ループの前記インデックス値を更新するための前記命令を受取った後、前記内側ループの前記インデックス値と前記内側ループのテンソル境界要素に格納されたテンソル境界値との間の差が閾値を満たさないことを判断するように構成され、
    前記差が前記閾値を満たさないと判断したことに応答して、前記内側ループの前記インデックス値を前記内側ループの初期値にリセットするように構成され、
    前記差が前記閾値を満たさないと判断したことに応答して、前記内側ループが入れ子にされる第2のループのインデックス値を第2のインクリメント値だけインクリメントするように構成される、請求項1~5のいずれか1項に記載の装置。
  7. 前記1つまたは複数のハードウェアプロセッサは、1つまたは複数の演算論理ユニットを含む、請求項1~6のいずれか1項に記載の装置。
  8. システムであって、
    N次元テンソル上で線形演算を実行するように構成された1つまたは複数のハードウェアプロセッサを備え、前記N次元テンソルは、N個の次元の各々にわたって配置されたデータ要素を有し、Nは、1以上の整数であり、前記システムはさらに、
    前記N次元テンソルをトラバースするために使用される複数の入れ子ループの各々のためのテンソルインデックス要素を含む複数のテンソルインデックス要素を備え、各テンソルインデックス要素は、前記N次元テンソルのそれぞれの次元をトラバースするために使用されるそれぞれの入れ子ループのためのインデックス値を格納するように構成されたそれぞれの第1のハードウェアレジスタにより実装され、各インデックス値は、前記インデックス値の前記それぞれの入れ子ループの反復が実行されるたびに更新される値であり、前記システムはさらに、
    複数の次元乗数要素を備え、各次元乗数要素は、前記N次元テンソルのそれぞれの次元の乗数値を格納するように構成されたそれぞれの第2のハードウェアレジスタにより実装され、各乗数値は、前記乗数値についての前記N次元テンソルの前記それぞれの次元について一定の値であって、前記それぞれの次元をトラバースするために使用される前記それぞれの入れ子ループの各反復の間は一定のままであり、前記システムはさらに、
    ハードウェア回路を備え、前記ハードウェア回路は、
    前記N次元テンソルの一連のデータ要素のメモリアドレスを決定するように構成され、前記メモリアドレスを決定することは、
    前記入れ子ループの内側ループの各反復の間に、
    前記N次元テンソルの各次元について、(i)前記次元をトラバースするために使用される前記入れ子ループのための前記テンソルインデックス要素に格納された前記インデックス値と、(ii)前記次元の前記乗数値との積を求めることと、
    前記N次元テンソルの各次元についての前記積の合計に基づいて、前記内側ループの前記反復に対応するデータ要素のメモリアドレスを決定することとによってなされ、
    前記ハードウェア回路はさらに、
    前記N次元テンソルの前記一連のデータ要素における各データ要素の前記決定されたメモリアドレスを示すデータを出力するように構成される、システム。
  9. 前記N次元テンソルの各次元についての前記積の合計に基づいて、前記内側ループの前記反復に対応するデータ要素の前記メモリアドレスを決定することは、(i)前記N次元テンソルの各次元についての前記積の前記合計と、(ii)ベースメモリアドレスとの合計を求めることを備える、請求項8に記載のシステム。
  10. 各データ要素の前記決定されたメモリアドレスを示すデータを出力することは、前記メモリアドレスが決定されるときに順番に、各データ要素の前記決定されたメモリアドレスを示すデータをシーケンシャルに出力することを備える、請求項8または9に記載のシステム。
  11. 前記ハードウェア回路はさらに、
    前記内側ループの前記インデックス値を、前記内側ループが完了するたびに第1のインクリメント値だけインクリメントするように構成され、
    前記内側ループが入れ子にされる第2のループのインデックス値を、前記第2のループが完了するたびに第2のインクリメント値だけインクリメントするように構成される、請求項8~10のいずれか1項に記載のシステム。
  12. 前記ハードウェア回路はさらに、
    前記内側ループの前記インデックス値を更新するための命令を受取るように構成され、
    前記内側ループの前記インデックス値を更新するための前記命令を受取った後、前記内側ループの前記インデックス値と前記内側ループのテンソル境界要素に格納されたテンソル境界値との間の差が閾値を満たすことを判断するように構成され、
    前記差が前記閾値を満たすと判断したことに応答して、前記内側ループの前記インデックス値を第1のインクリメント値だけインクリメントするように構成される、請求項8~11のいずれか1項に記載のシステム。
  13. 前記ハードウェア回路はさらに、
    前記内側ループの前記インデックス値を更新するための命令を受取るように構成され、
    前記内側ループの前記インデックス値を更新するための前記命令を受取った後、前記内側ループの前記インデックス値と前記内側ループのテンソル境界要素に格納されたテンソル境界値との間の差が閾値を満たさないことを判断するように構成され、
    前記差が前記閾値を満たさないと判断したことに応答して、前記内側ループの前記インデックス値を前記内側ループの初期値にリセットするように構成され、
    前記差が前記閾値を満たさないと判断したことに応答して、前記内側ループが入れ子にされる第2のループのインデックス値を第2のインクリメント値だけインクリメントするように構成される、請求項8~12のいずれか1項に記載のシステム。
  14. 前記1つまたは複数のハードウェアプロセッサは、1つまたは複数の演算論理ユニットを含む、請求項8~13のいずれか1項に記載のシステム。
  15. 1つまたは複数のハードウェアプロセッサを備えるデータ処理装置によって実行される方法であって、前記1つまたは複数のハードウェアプロセッサは、前記1つまたは複数のハードウェアプロセッサによって実行可能な命令セットの1つまたは複数の命令を実行し、前記方法は、
    前記1つまたは複数のハードウェアプロセッサが、N次元テンソルの一連のデータ要素のメモリアドレスを決定するステップを備え、前記N次元テンソルは、N個の次元の各々にわたって配置されたデータ要素を含み、Nは、1以上の整数であり、前記決定するステップは、
    前記N次元テンソルをトラバースするために使用される複数の入れ子ループの内側ループの各反復の間に、前記1つまたは複数のハードウェアプロセッサが、前記N次元テンソルの各次元について、(i)前記次元をトラバースするために使用される前記入れ子ループのためのテンソルインデックス要素に格納されたインデックス値と、(ii)前記次元の次元乗数要素に格納された前記次元の乗数値との積を求めるステップを備え、
    各入れ子ループは、対応するテンソルインデックス要素に格納された対応するインデックス値を有し、各テンソルインデックス要素は、それぞれの第1のハードウェアレジスタにより実装され、各インデックス値は、前記インデックス値に対応する前記入れ子ループの反復が実行されるたびに更新される値であり、
    各入れ子ループは、対応する次元乗数要素に格納された対応する乗数値を有し、各次元乗数要素は、それぞれの第2のハードウェアレジスタにより実装され、各乗数値は、前記乗数値に対応する前記入れ子ループの各反復の間は一定のままである前記乗数値の前記次元について一定の値であって、
    前記決定するステップはさらに、
    前記N次元テンソルをトラバースするために使用される複数の入れ子ループの内側ループの各反復の間に、前記1つまたは複数のハードウェアプロセッサが、前記N次元テンソルの各次元についての前記積の合計に基づいて、前記内側ループの前記反復に対応するデータ要素のメモリアドレスを決定するステップを備え、
    前記方法はさらに、
    前記1つまたは複数のハードウェアプロセッサが、前記N次元テンソルの前記一連のデータ要素における各データ要素の前記決定されたメモリアドレスを示すデータを出力するステップを備える、方法。
  16. 前記N次元テンソルの各次元についての前記積の合計に基づいて、前記内側ループの前記反復に対応するデータ要素の前記メモリアドレスを決定するステップは、(i)前記N次元テンソルの各次元についての前記積の前記合計と、(ii)ベースメモリアドレスとの合計を求めるステップを備える、請求項15に記載の方法。
  17. 各データ要素の前記決定されたメモリアドレスを示すデータを出力するステップは、前記メモリアドレスが決定されるときに順番に、各データ要素の前記決定されたメモリアドレスを示すデータをシーケンシャルに出力するステップを備える、請求項15または16に記載の方法。
  18. 前記内側ループの前記インデックス値を、前記内側ループが完了するたびに第1のインクリメント値だけインクリメントするステップと、
    前記内側ループが入れ子にされる第2のループのインデックス値を、前記第2のループが完了するたびに第2のインクリメント値だけインクリメントするステップとをさらに備える、請求項15~17のいずれか1項に記載の方法。
  19. 前記内側ループの前記インデックス値を更新するための命令を受取るステップと、
    前記内側ループの前記インデックス値を更新するための前記命令を受取った後、前記内側ループの前記インデックス値と前記内側ループのテンソル境界要素に格納されたテンソル境界値との間の差が閾値を満たすことを判断するステップと、
    前記差が前記閾値を満たすと判断したことに応答して、前記内側ループの前記インデックス値を第1のインクリメント値だけインクリメントするステップとをさらに備える、請求項15~18のいずれか1項に記載の方法。
  20. 前記内側ループの前記インデックス値を更新するための命令を受取るステップと、
    前記内側ループの前記インデックス値を更新するための前記命令を受取った後、前記内側ループの前記インデックス値と前記内側ループのテンソル境界要素に格納されたテンソル境界値との間の差が閾値を満たさないことを判断するステップと、
    前記差が前記閾値を満たさないと判断したことに応答して、前記内側ループの前記インデックス値を前記内側ループの初期値にリセットするステップと、
    前記差が前記閾値を満たさないと判断したことに応答して、前記内側ループが入れ子にされる第2のループのインデックス値を第2のインクリメント値だけインクリメントするステップとをさらに備える、請求項15~19のいずれか1項に記載の方法。
JP2021096509A 2016-02-03 2021-06-09 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法 Active JP7225314B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023017754A JP7507271B2 (ja) 2016-02-03 2023-02-08 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/014,265 2016-02-03
US15/014,265 US9875104B2 (en) 2016-02-03 2016-02-03 Accessing data in multi-dimensional tensors
JP2016250976A JP6896415B2 (ja) 2016-02-03 2016-12-26 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016250976A Division JP6896415B2 (ja) 2016-02-03 2016-12-26 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023017754A Division JP7507271B2 (ja) 2016-02-03 2023-02-08 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Publications (2)

Publication Number Publication Date
JP2021128801A JP2021128801A (ja) 2021-09-02
JP7225314B2 true JP7225314B2 (ja) 2023-02-20

Family

ID=57860636

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2016250976A Active JP6896415B2 (ja) 2016-02-03 2016-12-26 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法
JP2021096509A Active JP7225314B2 (ja) 2016-02-03 2021-06-09 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法
JP2023017754A Active JP7507271B2 (ja) 2016-02-03 2023-02-08 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016250976A Active JP6896415B2 (ja) 2016-02-03 2016-12-26 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023017754A Active JP7507271B2 (ja) 2016-02-03 2023-02-08 N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法

Country Status (7)

Country Link
US (4) US9875104B2 (ja)
EP (1) EP3226121A3 (ja)
JP (3) JP6896415B2 (ja)
KR (4) KR101924500B1 (ja)
CN (2) CN107038018B (ja)
SG (2) SG10201610917TA (ja)
TW (4) TWI635390B (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256480B2 (en) * 2012-07-25 2016-02-09 Mobileye Vision Technologies Ltd. Computer architecture with a hardware accumulator reset
US9875104B2 (en) * 2016-02-03 2018-01-23 Google Llc Accessing data in multi-dimensional tensors
US10360163B2 (en) 2016-10-27 2019-07-23 Google Llc Exploiting input data sparsity in neural network compute units
US9959498B1 (en) 2016-10-27 2018-05-01 Google Llc Neural network instruction set architecture
US10175980B2 (en) 2016-10-27 2019-01-08 Google Llc Neural network compute tile
US10896367B2 (en) * 2017-03-07 2021-01-19 Google Llc Depth concatenation using a matrix computation unit
EP4137941A1 (en) 2017-03-20 2023-02-22 Intel Corporation Systems, methods, and apparatuses for matrix add, subtract, and multiply
US10684955B2 (en) 2017-04-21 2020-06-16 Micron Technology, Inc. Memory devices and methods which may facilitate tensor memory access with memory maps based on memory operations
US10248908B2 (en) 2017-06-19 2019-04-02 Google Llc Alternative loop limits for accessing data in multi-dimensional tensors
WO2019009870A1 (en) 2017-07-01 2019-01-10 Intel Corporation SAVE BACKGROUND TO VARIABLE BACKUP STATUS SIZE
US10175912B1 (en) 2017-07-05 2019-01-08 Google Llc Hardware double buffering using a special purpose computational unit
GB2567038B (en) * 2017-07-31 2019-09-25 Google Llc Accessing prologue and epilogue data
US10108538B1 (en) 2017-07-31 2018-10-23 Google Llc Accessing prologue and epilogue data
GB2568776B (en) 2017-08-11 2020-10-28 Google Llc Neural network accelerator with parameters resident on chip
US11620490B2 (en) * 2017-10-17 2023-04-04 Xilinx, Inc. Multi-layer neural network processing by a neural network accelerator using host communicated merged weights and a package of per-layer instructions
KR102027034B1 (ko) * 2017-11-24 2019-09-30 서울대학교산학협력단 병렬 처리를 통한 다차원 데이터 분석을 지원하는 장치 및 그 방법
WO2019113007A1 (en) * 2017-12-05 2019-06-13 Wave Computing, Inc. Pipelined tensor manipulation within a reconfigurable fabric
US10956315B2 (en) 2018-07-24 2021-03-23 Micron Technology, Inc. Memory devices and methods which may facilitate tensor memory access
CN109255438B (zh) * 2018-09-17 2020-07-17 地平线(上海)人工智能技术有限公司 调整张量数据的方法和装置
CN117785441A (zh) * 2018-12-06 2024-03-29 华为技术有限公司 处理数据的方法和数据处理装置
CN111324294B (zh) * 2018-12-17 2023-11-07 地平线(上海)人工智能技术有限公司 存取张量数据的方法和装置
CN109857744B (zh) * 2019-02-13 2020-03-20 上海燧原智能科技有限公司 稀疏张量计算方法、装置、设备及存储介质
CN111723917B (zh) * 2019-03-21 2022-11-01 中科寒武纪科技股份有限公司 运算方法、装置及相关产品
CN112257857B (zh) * 2019-07-22 2024-06-04 中科寒武纪科技股份有限公司 张量处理方法及相关产品
CN110209503B (zh) * 2019-08-01 2019-10-25 上海燧原智能科技有限公司 多维张量的规约计算方法、装置、设备及介质
US11687336B2 (en) * 2020-05-08 2023-06-27 Black Sesame Technologies Inc. Extensible multi-precision data pipeline for computing non-linear and arithmetic functions in artificial neural networks
CN116261736A (zh) * 2020-06-12 2023-06-13 墨芯国际有限公司 用于双稀疏卷积处理和并行化的方法和系统
CN111767508B (zh) * 2020-07-09 2024-02-23 地平线(上海)人工智能技术有限公司 计算机实现张量数据计算的方法、装置、介质和设备
CN111737007B (zh) * 2020-07-24 2021-06-18 北京一流科技有限公司 数据对象的分频处理系统及其方法
US11954580B2 (en) * 2020-09-16 2024-04-09 Meta Platforms, Inc. Spatial tiling of compute arrays with shared control
CN113836049B (zh) * 2021-09-17 2023-08-08 海飞科(南京)信息技术有限公司 存储器访问方法和电子装置
CN114489798B (zh) * 2022-01-25 2024-04-05 海飞科(南京)信息技术有限公司 用于确定张量元素的越界状态的方法和电子装置
US11868329B2 (en) 2022-05-20 2024-01-09 International Business Machines Corporation Multidimensional cube multivariate regression

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140188961A1 (en) 2012-12-27 2014-07-03 Mikhail Plotnikov Vectorization Of Collapsed Multi-Nested Loops

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58114245A (ja) * 1981-12-28 1983-07-07 Fujitsu Ltd インデツクス・インクリメントのベクトル化方式
JP3102027B2 (ja) 1990-11-20 2000-10-23 日本電気株式会社 ループ制御のネスティング管理機構
US5958048A (en) * 1996-08-07 1999-09-28 Elbrus International Ltd. Architectural support for software pipelining of nested loops
GB2359641B (en) 2000-02-25 2002-02-13 Siroyan Ltd Mapping circuitry and method
WO2001067238A1 (en) * 2000-03-08 2001-09-13 Sun Microsystems, Inc. Processing architecture having an array bounds check capability
WO2001090888A1 (en) * 2000-05-23 2001-11-29 Theis Jean Paul A data processing system having an address generation unit with hardwired multidimensional memory indexing support
US6647484B1 (en) * 2000-09-19 2003-11-11 3 Dsp Corporation Transpose address mode in general purpose DSP processor
JP2003244190A (ja) * 2002-02-19 2003-08-29 Matsushita Electric Ind Co Ltd データフロー制御スイッチ用プロセッサ及びデータフロー制御スイッチ
US6952821B2 (en) * 2002-08-19 2005-10-04 Hewlett-Packard Development Company, L.P. Method and system for memory management optimization
US7107199B2 (en) * 2002-10-31 2006-09-12 Hewlett-Packard Development Company, L.P. Method and system for the design of pipelines of processors
US7047480B2 (en) * 2002-11-12 2006-05-16 Microsoft Corporation Matrix multiplication in a Galois field for forward error correction
US7225439B2 (en) * 2003-03-21 2007-05-29 Sun Microsystems, Inc. Combining write-barriers within an inner loop with fixed step
CN1259617C (zh) * 2003-09-09 2006-06-14 大唐微电子技术有限公司 一种加快rsa加/解密过程的方法及其模乘、模幂运算电路
CN100520714C (zh) 2005-01-25 2009-07-29 Nxp股份有限公司 多线程处理器
US8806183B1 (en) 2006-02-01 2014-08-12 Ixys Ch Gmbh Blank bit and processor instructions employing the blank bit
US8904155B2 (en) 2006-03-17 2014-12-02 Qualcomm Incorporated Representing loop branches in a branch history register with multiple bits
US8438365B2 (en) * 2006-10-06 2013-05-07 Calos Fund Limited Liability Company Efficient data loading in a data-parallel processor
ATE463788T1 (de) * 2007-06-26 2010-04-15 Ericsson Telefon Ab L M Datenverarbeitungseinheit für anweisungen in geschachtelten schleifen
US20100122066A1 (en) 2008-11-12 2010-05-13 Freescale Semiconductor, Inc. Instruction method for facilitating efficient coding and instruction fetch of loop construct
US20100274972A1 (en) 2008-11-24 2010-10-28 Boris Babayan Systems, methods, and apparatuses for parallel computing
CA2684226A1 (en) 2009-10-30 2011-04-30 Ibm Canada Limited - Ibm Canada Limitee Eleminating redundant operations for common properties using shared real registers
US20130185540A1 (en) * 2011-07-14 2013-07-18 Texas Instruments Incorporated Processor with multi-level looping vector coprocessor
WO2013095601A1 (en) * 2011-12-23 2013-06-27 Intel Corporation Instruction for element offset calculation in a multi-dimensional array
US20140181171A1 (en) 2012-12-24 2014-06-26 Pavel Dourbal Method and system for fast tensor-vector multiplication
CN103440513B (zh) * 2013-09-17 2017-01-18 西安电子科技大学 基于稀疏非负张量分解的大脑特定视觉认知状态判定方法
US9087394B1 (en) 2014-02-13 2015-07-21 Raycast Systems, Inc. Computer hardware architecture and data structures for packet binning to support incoherent ray traversal
CN105260322B (zh) * 2014-06-30 2020-09-01 中兴通讯股份有限公司 一种对循环缓冲区消除循环移位的方法和装置
US11170294B2 (en) 2016-01-07 2021-11-09 Intel Corporation Hardware accelerated machine learning
US9875104B2 (en) * 2016-02-03 2018-01-23 Google Llc Accessing data in multi-dimensional tensors
JP6890615B2 (ja) 2016-05-26 2021-06-18 タータン エーアイ リミテッド ディープニューラルネットワークについての加速器
US10175980B2 (en) 2016-10-27 2019-01-08 Google Llc Neural network compute tile

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140188961A1 (en) 2012-12-27 2014-07-03 Mikhail Plotnikov Vectorization Of Collapsed Multi-Nested Loops

Also Published As

Publication number Publication date
KR20230153972A (ko) 2023-11-07
SG10201610917TA (en) 2017-09-28
TWI772842B (zh) 2022-08-01
CN107038018B (zh) 2019-07-19
TW202040359A (zh) 2020-11-01
US10228947B2 (en) 2019-03-12
US9875104B2 (en) 2018-01-23
EP3226121A2 (en) 2017-10-04
BR102016030825A2 (pt) 2018-10-09
US20170220352A1 (en) 2017-08-03
US20190205141A1 (en) 2019-07-04
TW201907305A (zh) 2019-02-16
TW201729104A (zh) 2017-08-16
SG10202104454YA (en) 2021-06-29
US20170220345A1 (en) 2017-08-03
JP7507271B2 (ja) 2024-06-27
CN110457069A (zh) 2019-11-15
US10838724B2 (en) 2020-11-17
TWI700587B (zh) 2020-08-01
TW202014897A (zh) 2020-04-16
US20180107483A1 (en) 2018-04-19
CN110457069B (zh) 2020-08-18
KR102472424B1 (ko) 2022-11-29
US9875100B2 (en) 2018-01-23
JP6896415B2 (ja) 2021-06-30
KR20230004348A (ko) 2023-01-06
KR102596365B1 (ko) 2023-10-31
TWI681291B (zh) 2020-01-01
CN107038018A (zh) 2017-08-11
KR20180127945A (ko) 2018-11-30
JP2023059898A (ja) 2023-04-27
KR20170092445A (ko) 2017-08-11
EP3226121A3 (en) 2018-10-31
TWI635390B (zh) 2018-09-11
JP2021128801A (ja) 2021-09-02
KR101924500B1 (ko) 2018-12-03
JP2017138964A (ja) 2017-08-10

Similar Documents

Publication Publication Date Title
JP7225314B2 (ja) N次元テンソルにアクセスするための命令を処理するための装置、システム、およびコンピュータによって実現される方法
US10534607B2 (en) Accessing data in multi-dimensional tensors using adders
EP3602280B1 (en) Accessing prologue and epilogue data
US9946539B1 (en) Accessing data in multi-dimensional tensors using adders
GB2567038B (en) Accessing prologue and epilogue data
BR102016030825B1 (pt) Equipamento e método implementado em computador para processar uma instrução para acessar um tensor n-dimensional
BR122023003223B1 (pt) Equipamento para processar uma instrução para processar um laço encaixado e método implementado em computador

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220927

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230208

R150 Certificate of patent or registration of utility model

Ref document number: 7225314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150