JP2018525735A - 動的ベクトル長のループを用いたベクトル処理 - Google Patents

動的ベクトル長のループを用いたベクトル処理 Download PDF

Info

Publication number
JP2018525735A
JP2018525735A JP2018503592A JP2018503592A JP2018525735A JP 2018525735 A JP2018525735 A JP 2018525735A JP 2018503592 A JP2018503592 A JP 2018503592A JP 2018503592 A JP2018503592 A JP 2018503592A JP 2018525735 A JP2018525735 A JP 2018525735A
Authority
JP
Japan
Prior art keywords
instruction
value
data
variable
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018503592A
Other languages
English (en)
Other versions
JP6883564B2 (ja
Inventor
ジョン スティーブンス、ナイジェル
ジョン スティーブンス、ナイジェル
マグクリス、グリゴリオス
プレミリュー、ナサニール
ヴィセンテ、アレハンドロ マルティネス
ヴィセンテ、アレハンドロ マルティネス
エヨール、ムボウ
Original Assignee
エイアールエム リミテッド
エイアールエム リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エイアールエム リミテッド, エイアールエム リミテッド filed Critical エイアールエム リミテッド
Publication of JP2018525735A publication Critical patent/JP2018525735A/ja
Application granted granted Critical
Publication of JP6883564B2 publication Critical patent/JP6883564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • G06F9/30149Instruction analysis, e.g. decoding, instruction word fields of variable length instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30036Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
    • G06F9/30038Instructions to perform operations on packed data, e.g. vector, tile or matrix operations using a mask
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30065Loop control instructions; iterative instructions, e.g. LOOP, REPEAT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30072Arrangements for executing specific machine instructions to perform conditional operations, e.g. using predicates or guards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Executing Machine-Instructions (AREA)
  • Complex Calculations (AREA)
  • Communication Control (AREA)

Abstract

データ処理装置は、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、プログラム命令をデコードするための命令デコーダ回路と、命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、を含む処理回路を備えるデータ処理装置であって、命令デコーダ回路が、述語フラグの数に依存して命令処理を制御するように、WHILE命令およびCHANGE命令に応答する。

Description

本開示は、データ処理の装置および方法に関する。
一部のデータ処理配置は、ベクトル処理演算を考慮に入れており、単一のベクトル処理命令を、データベクトル内のそれぞれの位置に複数のデータアイテムを有するデータベクトルのデータアイテムに対して適用することを伴う。対照的に、スカラー処理は、事実上、データベクトルに対してではなく、一つ一つのデータアイテムに対して作用する。
ベクトル処理は、処理されるべき、データの多数の異なるインスタンスに対して処理演算が行われる場合に有用であり得る。ベクトル処理配置では、単一の命令を、(データベクトルの)複数のデータアイテムに対して同時に適用することができる。これにより、スカラー処理と比較して、データ処理の効率およびスループットを改善することができる。
ある例示的な配置では、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、
プログラム命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を含む処理回路
を備えるデータ処理装置であって、
命令デコーダ回路が、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数および修正値に依存する量だけ変数の値を変化させるように命令処理回路を制御するようにする、データ処理装置が提供される。
別の例示的な配置では、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための手段であって、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を含む適用する手段
を備えるデータ処理装置であって、
命令をデコードするための手段が、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令を実行するための手段を制御するようにする、データ処理装置が提供される。
別の例示的な配置では、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するステップと、
命令をデコードするステップと、
命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように実行するステップを制御するようにする、データ処理方法が提供される。
別の例示的な配置では、
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するためのプロセッサであって、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を含むプロセッサ
を備えるデータ処理装置であって、
命令デコーダが、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令プロセッサを制御するようにする、データ処理装置として動作させる、仮想マシンが提供される。
別の例示的な配置では、
命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を備えるデータ処理装置であって、
命令デコーダ回路が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように命令処理回路を制御するよう、WHILE命令に応答し、
命令デコーダ回路が、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値に従って述語フラグの数に依存する量だけ制御変数の値を変化させるように命令処理回路を制御するよう、CHANGE命令に応答する、データ処理装置が提供される。
別の例示的な配置では、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を備えるデータ処理装置であって、
デコードするための手段が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行するための手段を制御するよう、WHILE命令に応答し、
デコードするための手段が、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するための手段を制御するよう、CHANGE命令に応答し、CHANGE命令が、CHANGE命令の実行が制御変数の値をわずか飽和値まで変化させるように動作可能なように、関連付けられた飽和値を有する、データ処理装置が提供される。
別の例示的な配置では、
命令をデコードするステップと、
デコードするステップによりデコードされた命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行ステップを制御するよう、WHILE命令に応答し、
デコードするステップが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するステップを制御するよう、CHANGE命令に応答し、CHANGE命令が、CHANGE命令の実行が制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理方法が提供される。
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を備えるデータ処理装置であって、
命令デコーダが、制御変数により少なくとも部分的に定義され、複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、複数のデータアイテムに関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理演算を適用するように命令プロセッサを制御するよう、WHILE命令に応答し、
命令デコーダが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように命令プロセッサを制御するよう、CHANGE命令に応答し、CHANGE命令が、CHANGE命令の実行が、実行されるとき、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理装置として動作させる、仮想マシンが提供される。
本技法を、添付図面中に例示されるその実施形態を、例としてのみ参照しながら、さらに説明する。
データ処理装置を概略的に例示する。 複数のデータベクトルとしてのデータの取り扱いを概略的に例示する。 ループされる演算(looped operation)を例示する概略流れ図である。 述語フラグの使用を概略的に例示する。 カウンタ変数に従った述語フラグの制御を概略的に例示する。 カウンタ変数に従ったWHILE命令による述語フラグの設定を例示する概略流れ図である。 いわゆる展開されたループ(unrolled loop)を概略的に例示する。 カウンタ変数により表現され得る値を概略的に例示する。 カウンタ変数により表現され得る値を概略的に例示する。 インクリメント命令の動作を例示する概略流れ図である。 デクリメント命令の動作を例示する概略流れ図である。 仮想マシンを概略的に例示する。
添付図面を参照しながら実施形態について論じる前に、実施形態について以下の説明を提供する。
ある例示的な実施形態は、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、
プログラム命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を含む処理回路
を備えるデータ処理装置であって、
命令デコーダ回路が、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数および修正値に依存する量だけ変数の値を変化させるように命令処理回路を制御するようにする、データ処理装置を提供する。
本開示は、ベクトル処理回路の異なるインスタンスによる(再コンパイルプロセスなしの)実行向けのプログラム命令であって、それらの異なるインスタンスが異なる利用可能なベクトル長Vを有し得るプログラム命令の場合、それにより命令が実行されているベクトル処理回路のどんな利用可能な長さVにも従って動作するループされる、もしくはその他の演算を制御するための配置を提供することが有用であり得ることを認識している。(代替案は、想像上のVをベクトル処理回路の異なるインスタンス間で遭遇され得る最小レベルに固定することであろうが、これは、一部のインスタンスで利用可能なより長いベクトル長を使用しないことにより、非効率的であり得る。)
本開示の実施形態は、実行されると、述語フラグの数(例えば、ベクトル長の代理としての)に依存する量だけ変数(ループ制御変数など)を修正し、したがって、それにより命令が実行されているシステムのベクトル長に従って変化の量を設定することができる、CHANGE命令を提供する。これにより、同じプログラム命令を、異なるそれぞれの利用可能なベクトル長を有するベクトル処理回路の異なるインスタンスに対して、再コンパイルを必ずしも必要とすることなしに、実行することを可能にし得る。
修正値の使用は、(例えば)ベクトル演算が「展開」されている、つまり、複数のデータベクトルが、処理命令のループまたは他の集合の単一の繰り返しまたはインスタンスにおいて処理される、ループ制御または他のベクトル演算において、単一のCHANGE命令が使用されることを可能にする。
例示的な実施形態では、命令デコーダ回路は、述語フラグの数に依存する値と修正値との積に依存する量だけ変数の値を変化させるように命令処理回路を制御するよう、CHANGE命令に応答する。例では、修正値は、乗算値であり得る。例では、CHANGE命令により設定される制御変数の連続する値間の差は、比例するなど、修正値に依存してもよい。
(例えば)ループが完了したかどうかを判定するために、変数の値を単純な算術テストによりテストすることをできるように、例示的な実施形態では、CHANGE命令は、関連付けられた飽和値を有し、CHANGE命令は、実行されると、変数の値をわずか飽和値まで変化させる。
一部の例では、CHANGE命令は、変数の値を低減させるためのデクリメント命令であり、飽和値は、変数により表現され得る最小値である。他の例では、CHANGE命令は、変数の値を増大させるためのインクリメント命令であり、飽和値は、変数により表現され得る最大値である。
CHANGE命令は、特に(ただし、排他的ではなく)ループ制御の文脈において有用であり、例示的な実施形態では、変数は、カウンタ変数であり、ベクトル処理回路は、処理ループの1回以上の繰り返しの間、カウンタ変数により少なくとも部分的に定義されたデータベクトルに対してベクトル処理命令を適用し、命令デコーダ回路は、処理ループを実行することを繰り返し継続すべきどうかをカウンタ変数に依存して検出するように命令処理回路を制御するよう、さらなる命令に応答する。
例示的な実施形態では、処理ループを実行することを継続すべきかどうかを検出するためのさらなる命令はWHILE命令を含み、命令デコーダ回路は、算術条件がカウンタ変数に当てはまる間、処理ループを実行することを繰り返し継続するように命令処理回路を制御するよう、WHILE命令に応答する。例えば、算術条件は、
i.カウンタ変数が、上限値未満である、
ii.カウンタ変数が、下限値より大きい、
iii.カウンタ変数が、上限値以下である、および
iv.カウンタ変数が、下限値以上である、
からなるリストから選択される条件であってもよい。
述語フラグの数は、一部のインスタンスでは、システムのベクトル長に等しくない場合があるため、一部の例では、命令デコーダ回路は、述語フラグの数のうちの選択された下位集合(例えば、処理回路により選択される)および修正値に依存する量だけ変数の値を変化させるように命令処理回路を制御するよう、CHANGE命令に応答する。
後述するように、例示的な実施形態では、命令デコーダ回路は、アクティブ状態に設定するために選択された述語フラグの数を考慮に入れて、ループ変数の値が算術条件に違反しないように、アクティブ状態に設定するために述語フラグの1つ以上を選択するように命令処理回路を制御するよう、WHILE命令に応答する。後述するように、例示的な実施形態では、命令デコーダ回路は、アクティブ状態に設定するために選択された述語フラグの数を考慮に入れて、ループ変数の値が算術条件に違反しないように、述語フラグの所定の順序に従ってアクティブ状態に設定するために述語フラグの1つ以上を選択するように命令処理回路を制御するよう、WHILE命令に応答する。
ある例示的な実施形態はまた、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための手段であって、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を含む適用する手段
を備えるデータ処理装置であって、
命令をデコードするための手段が、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令を実行するための手段を制御するようにする、データ処理装置、を提供する。
ある例示的な実施形態はまた、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するステップと、
命令をデコードするステップと、
命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように実行するステップを制御するようにする、データ処理方法、を提供する。
ある例示的な実施形態はまた、
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するためのプロセッサであって、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を含むプロセッサ
を備えるデータ処理装置であって、
命令デコーダが、命令パラメータとして修正値を有するCHANGE命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令プロセッサを制御するようにする、データ処理装置として動作させる、仮想マシン、を提供する。
(例えば)ベクトル処理システムにおけるループされる演算の制御などの、データ処理演算の文脈において、例示的な実施形態は、ループされる関数の実行を制御するために、飽和カウンタおよび優雅なまでに単純な算術テストを使用することができる。ある例示的な実施形態は、
命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を備えるデータ処理装置であって、
命令デコーダ回路が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように命令処理回路を制御するよう、WHILE命令に応答し、
命令デコーダ回路が、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値に従って述語フラグの数に依存する量だけ制御変数の値を変化させるように命令処理回路を制御するよう、CHANGE命令に応答する、データ処理装置、を提供する。
カウンタが飽和値を超えて進むのを抑止することにより、無効な結果(例えば、カウンタがラップアラウンドすること、またはカウンタ変数内のビット数をオーバーフローすることにより引き起こされるであろう結果など)を避けることができる。
例示的な実施形態では、算術条件は、
i.制御変数が、上限値未満である、
ii.制御変数が、下限値より大きい、
iii.制御変数が、上限値以下である、および
iv.制御変数が、下限値以上である、
からなるリストから選択される条件である。
例示的な実施形態では、述語フラグは、制御機能の一部として使用することができる。例示的な実施形態では、述語フラグは、その状態の述語フラグに対応するデータベクトルの位置に対してベクトル処理命令が適用されるべきであることを示すアクティブ状態を有する。
例示的な実施形態では、命令デコーダ回路は、アクティブ状態に設定するために選択された述語フラグの数を考慮に入れて(例えば、場合毎に加算または減算して)、制御変数の値が算術条件に違反しないように、アクティブ状態に設定するために述語フラグの1つ以上を選択するように命令処理回路を制御するよう、WHILE命令に応答する。このようにして、WHILE命令は、述語フラグのメカニズムを、ループ制御などの実行制御のために便利に使用することができる。
例示的な実施形態では、命令デコーダ回路は、述語フラグの所定の順序に従ってアクティブ状態に設定するために述語フラグの1つ以上を選択するように命令処理回路を制御するよう、WHILE命令に応答する。例えば、順序は、処理されるべき基礎をなすデータアイテムのそれに対応する順序であってもよい。
例示的な実施形態では、命令デコーダ回路は、算術条件が制御変数に当てはまる間、処理ループを実行することを繰り返し継続するように命令処理回路を制御するよう、WHILE命令に応答する。
ある例示的な実施形態はまた、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を備えるデータ処理装置であって、
デコードするための手段が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行するための手段を制御するよう、WHILE命令に応答し、
デコードするための手段が、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するための手段を制御するよう、CHANGE命令に応答し、CHANGE命令が、CHANGE命令の実行が制御変数の値をわずか飽和値まで変化させるように動作可能なように、関連付けられた飽和値を有する、データ処理装置、を提供する。
ある例示的な実施形態はまた、
命令をデコードするステップと、
デコードするステップによりデコードされた命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行ステップを制御するよう、WHILE命令に応答し、
デコードするステップが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するステップを制御するよう、CHANGE命令に応答し、CHANGE命令が、CHANGE命令の実行が制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理方法、を提供する。
ある例示的な実施形態はまた、
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を備えるデータ処理装置であって、
命令デコーダが、制御変数により少なくとも部分的に定義され、複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、複数のデータアイテムに関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理演算を適用するように命令プロセッサを制御するよう、WHILE命令に応答し、
命令デコーダが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように命令プロセッサを制御するよう、CHANGE命令に応答し、CHANGE命令が、CHANGE命令の実行が、実行されるとき、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理装置として動作させる、仮想マシン、を提供する。
ここで図面を参照すると、図1は、データ値32およびプログラム命令34を記憶するメモリ30に連結されたプロセッサ20を含むデータ処理システム10を概略的に例示している。プロセッサ20は、プログラム命令34をメモリ30からフェッチし、フェッチプログラム命令をデコーダ回路50に供給するための命令フェッチユニット40を含む。デコーダ回路50は、フェッチされたプログラム命令をデコードし、デコードされたベクトル命令により指定されたようにベクトルレジスタ回路70内に記憶されたベクトルレジスタに対してベクトル処理演算を遂行するようにベクトル処理回路60を制御するための制御信号を生成する。
プロセッサ20はまた、スカラーレジスタ90に関連付けられたスカラー処理回路80を含む。
スカラー処理とベクトル処理との間の一般的な差異は、以下のとおりである。ベクトル処理は、単一のベクトル処理命令を、データベクトル内のそれぞれの位置に複数のデータアイテムを有するデータベクトルのデータアイテムに対して適用することを伴う。スカラー処理は、事実上、データベクトルに対してではなく、一つ一つのデータアイテムに対して作用する。
ベクトル処理は、処理されるべき、データの多数の異なるインスタンスに対して処理演算が行われる場合に有用であり得る。ベクトル処理配置では、単一の命令を、(データベクトルの)複数のデータアイテムに対して同時に適用することができる。これにより、スカラー処理と比較して、データ処理の効率およびスループットを改善することができる。
以下の議論は、例示的なプログラム命令34に関する。本開示の実施形態は、このようなプログラム命令をデコードし実行するように動作可能であり、またはそう構成されている、例えば図1に示す種類の、装置を含む。したがって、図1は、データベクトル内の位置にあるデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグ(後述する)の集合の状態に従ってベクトル処理演算を選択的に適用するための処理回路であって、データベクトルが、データベクトル処理順序を有し、各データベクトルが、データアイテム順序を有する複数のデータアイテムを含んでおり、処理回路が、プログラム命令をデコードするための命令デコーダ回路と、命令デコーダ回路によりデコードされた命令を実行するための命令処理回路とを含む処理回路であって、命令デコーダ回路が、後述する機能を行うように命令処理回路を制御するよう、命令に応答する処理回路の例を提供する。
図2は、複数のデータベクトルとしてのデータの取り扱いを概略的に例示する。この配置では、データアイテム100の集合は、処理順序110で処理されることを意図されている。データアイテム100は、実際は、ベクトル処理演算において、単一のベクトル処理命令が、データベクトル内のデータアイテム(例えば、4つのデータアイテム、8つのデータアイテム、または、どんな特定のシステムのベクトル長でも)の全てに同時に適用されるよう、連続するデータベクトル120として取り扱われる。
とは言ったものの、各データベクトル120は、データアイテム処理順序130を保持し、ベクトルからベクトルへのベクトル処理順序140が存在するので、処理中に当初の処理順序110への参照が必要とされる場合、これは、ベクトル処理順序140におけるデータベクトルを考慮しデータアイテム処理順序130における各データベクトル内のデータアイテムを考慮することにより達成され得る。この考慮は、後述するように、(少なくとも)ループ処理の終結に関連がある。
図3は、ベクトル処理配置におけるループされた演算を例示する概略的な流れ図である。ステップ200では、初期パラメータが、確立される。ここでの単純な例は、ループ制御変数が、例えばスカラー処理回路80の動作により、0などの初期値に設定されることである。
ステップ210では、現在のデータベクトルに関して1つ以上の処理演算が行われる。現在のデータベクトルは、例えば、メモリ内に記憶されたデータ32の連続したブロックに関して、以下のように定義され得る。
VectorA=Data[SA+i,…,SA+i+V−1]
ここで、変数iはループ制御変数であり、変数SAはデータの連続したブロックの開始アドレスであり、変数Vは使用中の特定の処理システムに適用可能なベクトル長である。言い換えれば、この例では、アドレス(SA+i)とアドレス(SA+i+V−1)との間であって両端を含むデータアイテムの連続した集団が、ベクトルVectorAのV個のデータアイテムを形成する。
これは、ループ制御(あるいはカウンタ)変数が、データのブロックもしくはアレイ内、または、(集められた配置において以下で説明するように)ポインタのブロックもしくはアレイ内のデータベクトルの位置(開始位置など)を定義するという点で、例示的なデータベクトルVectorAがループ制御(あるいはカウンタ)変数に少なくとも部分的に依存する例を提供する。
別の例では、メモリ内の2つ以上の連続していない位置へのポインタの集合がデータベクトルを埋めるために提供される、いわゆる収集されたデータベクトル(gathered data vector)が使用されてもよい。同様に、データベクトルをメインメモリに書き戻すとき、データアイテムが連続していないメモリ位置に書き戻されるように、いわゆる散乱プロセス(scatter process)が使用されてもよい。このような配置は、その他の点では本明細書に記載されたプロセスが動作する方法に影響を与えず、ゆえに、本明細書では、連続的なデータセット(連続して記憶されるか否かを問わない)を仮定する。しかしながら、メインメモリからの不要な収集またはメインメモリへの不要な散乱の動作を避けるために非アクティブな述語フラグ(後述する)を使用することは、ベクトル処理演算の処理オーバーヘッドを低減し得ることが留意される。
ステップ210では、様々な異なる種類のベクトル処理演算(複数可)が、行われ得る。例えば、ベクトル処理演算は、第2のデータベクトルVectorBのデータアイテムとして記憶される結果を生成するように、VectorAのデータアイテムに関して行われてもよい。
ステップ220では、ループ演算を前進させるように、カウンタまたはループ制御変数が、インクリメントされる。ここで、用語「インクリメント」は、1だけの増加のみを指すのではなく、別の値だけの増加を指し得る。実際、本例では、ループ制御変数は、例えば処理回路により決定されるように、述語フラグの数により表されるベクトル長Vだけインクリメントされる。
ステップ230では、システムは、ループ演算を継続すべきかどうか、または言い換えれば、ループ制御変数がそのループに関して定義された終了ポイントに到達したかどうかを検出する。ループ演算が継続されるべきである場合、制御は、ステップ210に戻る。ステップ220では、他のパラメータも設定され、プロセスのこの部分の例については、後述する。さもなければ、処理は、終了する。
ループ演算を継続すべきかどうかの決定は、条件付きジャンプ、分岐、またはプログラムの流れを変える他の命令(例えば、ステップ210に戻る)の形でなされることができ、ここで、条件は、後述するWHILE命令などの命令の実行に基づく1つ以上のプロセッサ条件フラグ(例えば、N、Z、C、およびVフラグ)以外で、例えば示され得る。それゆえに、WHILE命令は、別個の(条件付き分岐またはジャンプ)命令が実際にループを継続させるようにプログラムの流れを変えるか否かを制御するように、1つ以上の条件フラグを設定する効果を有する。(しかしながら、他の例では、WHILE命令はまた、ジャンプまたは分岐も遂行できることが想定されている)。
ベクトル処理回路の異なるインスタンスによる(再コンパイルプロセスなしの)実行向けのプログラム命令であって、それらの異なるインスタンスが異なる利用可能なベクトル長Vを有し得るプログラム命令の場合、それにより命令が実行されているベクトル処理回路のどんな利用可能な長さVにも従って動作するループされる演算を制御するための配置を提供することが有用であり得る。(代替案は、想像上のVをベクトル処理回路の異なるインスタンス間で遭遇され得る最小レベルに固定することであろうが、これは、一部のインスタンスで利用可能なより長いベクトル長を使用しないことにより、非効率的であり得る。)本明細書に記載される例示的な配置では、ループ演算を制御するためにスカラー演算を使用する代わりに、述語フラグ(後述する)が使用される。
図4は、ベクトル処理演算を制御するための述語フラグの使用を概略的に例示する。
単一のベクトル処理演算がデータベクトル内の異なるデータアイテムに対して異なって適用されるべきであるインスタンスが存在し得る。ベクトル処理回路60は、いわゆる述語フラグの使用によりこれに備えている。述語フラグは、ある処理演算がそのデータアイテム位置に関して行われるべきかどうかを示すために、データベクトル内の各データアイテム位置に提供されるフラグ情報を含む。例では、ベクトル処理回路60は、任意の特定のベクトル処理演算が、そのベクトル処理演算のパラメータとして述語フラグの1つ以上の集合を参照することができるように、述語フラグの複数の集合にアクセスすることができる。
図4を参照すると、ある例示的な配置が4つのデータアイテム(V=4)を含むデータベクトルを使用しているが、これらの配置が異なるベクトル長に適用され得ることは理解されるであろう。例示的な入力データベクトル250(VectorA)は、述語フラグによるいかなる制御もない場合は、ベクトル処理演算260が各データアイテム位置に適用されるように、ベクトル処理演算260の対象になるはずである。しかしながら、述語フラグ270の集合も、各データアイテム位置または「レーン」に1つずつ、ベクトル処理演算を制御するために提供されている。
入力ベクトル(ベクトルA)のデータアイテム252は、出力データベクトル280(ベクトルB)のデータアイテム282を生成するように、ベクトル処理演算260に従って処理される。もし、出力データベクトル280内のあるデータアイテム位置に対応する述語フラグ272が「アクティブ」(例えば、1の値)に設定されている場合。ある出力ベクトル位置の対応する述語フラグが「非アクティブ」(例えば、0の値)に設定されている場合、ベクトル処理演算260は、その出力ベクトル位置に関しては行われない。
上述のように、本例では、述語フラグは、出力データベクトル280に関して、ある特定の出力位置または「レーン」のためのベクトル処理演算が行われるかどうかを制御する。しかしながら、他の例では、述語フラグは、入力ベクトル(または1つ以上の入力ベクトル)250内のデータアイテム位置が使用されるかどうかを制御するために使用され得る。
したがって、これは、アクティブ状態の述語フラグに対応するデータベクトルの位置に対してベクトル処理命令が適用されるべきであることを示すアクティブ状態を有する述語フラグの例を提供する。非アクティブ状態は、ベクトル処理演算がそのように適用されるべきでないことを示す。
あるベクトル処理演算が、非アクティブな述語フラグのために、ある特定の出力ベクトル位置282に対して行われない場合、一部の例では、0などの固定値が、その出力位置に挿入され得る。他の例では、その出力位置の従前の内容が、それらがどんなものであっても、変更されないままとされ得る。
したがって、この様式による述語フラグの使用は、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理命令を適用することの一例を提供する。
本例は、図3に概略的に示されるもののようなループされる演算の制御での述語フラグの使用を考慮にするものである。図5および6を使用して、この種類の演算の諸側面を説明する。
ループされる演算の特徴は、ループ制御変数が、ループが図3のステップ230で終結する特定の上限値に到達するまで、多くのデータアイテムが、ループ制御変数の制御のもと、データアイテム処理順序で取り扱われることである。スカラー処理ループの一例は、以下の概略的な擬似コードにより提供される。
For i=0 to 97
Process Data [i]
Next i
ここで、ループされる演算は、ループ制御変数iが0に設定された状態で始まり、ループ制御変数iが97の値に到達するまで継続する。言い換えれば、合計で、98個のデータアイテムが取り扱われる。
ループ演算は、そうではなくて、データアイテムが一度に1ベクトルずつ取り扱われるように、図3を参照しながら論じたようにベクトル処理を使用して遂行することができる。これは、複数のデータアイテムの群が単一のベクトル処理命令により取り扱われることを可能にすることにより、効率性を提供し得る。
例えば、ベクトル長Vが4であり、ゆえに各データベクトルが4つのデータアイテムを含むシステムの場合、ループ演算における最初の96個のデータアイテムは、わずか24(=96/4)個のベクトル処理演算により取り扱うことができる。しかしながら、もし、4つのデータアイテムの第25番目のベクトル全体が処理されるとすると、これは、プロセスデータアイテムの数を、必要とされるループ演算を超過する、100にするであろう。
そうではなくて、最後のベクトル処理演算は、処理順序110内の第99番目および第100番目のデータアイテムに関してではなく、(処理順序110内の)第97番目および第98番目のデータアイテムに関してのみ作動すべきである。
例示的な実施形態は、例えばループされる演算においてループ制御変数などの制御変数により少なくとも部分的に定義されたデータベクトルのうちの1つ以上のデータアイテムに対してベクトル処理命令を適用するようにベクトル処理回路60を制御するためWHILE命令を提供している。WHILE命令は、処理されるデータアイテムの数がループ上限を超えないようにアクティブ状態に設定するための述語フラグのうちの1つ以上を選択するよう、制御変数に応答する。
この配置の使用の一例が、(純粋にこの例のためだけでは)98個のデータアイテムが処理され、V=4である、上述の例示的なループ演算において取り扱われるべき最後の3つのデータベクトルを概略的に例示する図5に示されている。
上述のように、98個のデータアイテムの例示的なループでは、データアイテムは、一度に1データベクトルずつ取り扱われ、この例のデータベクトル長Vが4つのデータアイテムであることを考慮すると、ループカウンタは、0から始まり、Vの単位で進む(0、4、8、12、…)ことになる。この方法で進むループカウンタの最後の3つのインスタンス、すなわちループカウンタが88、92、および次いで96に設定されているものに関する状況を、図5に概略的に示す。これらの状況のそれぞれに適用可能な述語フラグ300、310、320が例示されており、ここでは、1の論理値は「アクティブ」を示し、0の論理値は「非アクティブ」を示す。
述語フラグは、WHILE命令により、各データベクトルのデータアイテム処理順序130に対応する述語フラグの所定の順序に従って設定される。
i=88のとき、WHILE命令は、4つの全ての述語フラグが1(アクティブ)に設定され得、それらの述語フラグを1に設定する結果として処理されるデータアイテムの総数が依然として97のループ上限未満であることを検出する。同様に、iが92に進んでいるとき、WHILE命令は、4つの全ての述語フラグ310が1に設定され得、それでもなお、そのデータベクトルの処理の終了時に、処理されたデータアイテムの数(96)が依然として98の総必要数未満であることを検出する。
図5に示す第3のインスタンスでは、ループ制御変数iは96に設定されている。WHILE命令は、97のループ上限に適合するためには、ループのこの最後のベクトル処理演算中には処理されるべきデータアイテムがただ2つしかないことを検出する。したがって、WHILE命令は、(処理順序130内の)最初の2つの述語フラグを1に、(処理順序130内の)残りの2つの述語フラグを0に設定し、ステップ210における処理演算を、それらの述語フラグに従って行うことができ、依然としてループ制御変数iの上限により定義される総演算数を超えないようにする。
その動作の一部として、WHILE命令はまた、ステップ230の機能の少なくとも一部を提供し、行われるべき処理演算が依然として存在する、つまり、ステップ220でWHILE命令に渡されるiの値がループ制御変数上限(この例では97)未満である限り、図3のステップ210への制御の戻しを制御するように1つ以上の条件フラグを設定する。
したがって、これは、実行されると、アクティブ状態に設定するように選択された述語フラグの数を考慮に入れて、制御変数の値が算術条件に反しないようにアクティブ状態に設定するための1つ以上の述語フラグを選択するWHILE命令の一例を提供する。ここで、「考慮に入れる」とは、インクリメントするカウンタの場合は現在のカウンタ値に加算すること、デクリメントするカウンタの場合は現在のカウンタ値から減算することを、意味し得る。アクティブ状態に設定するための1つ以上の述語フラグは、述語フラグの所定の順序、例えば順序130に従って選択され得る。
図6は、カウンタ変数に従ったWHILE命令による述語フラグの設定を表す概略流れ図である。
図6では、ステップ330において、WHILE命令は、現在のカウンタ(ループ制御変数)値ならびに限界値(本例では、それぞれiおよび97)を検出する。ステップ340では、WHILE命令は、ループ制御変数の値に(この例では)アクティブ状態に設定するために選択された述語フラグの数を加えたものがループ制御変数の上限に反しないように、述語フラグを埋める。
もちろん、他の例では、ループ制御変数は、カウントアップではなくカウントダウンしてもよく、その場合、限界値は、上限値ではなく下限値になるであろうことが理解されるであろう。同様に、ステップ340でWHILE命令により適用される算術テストは、制御変数が下限値より大きいかどうかについてのテストになるであろう。また、例えばループされる演算が限界値の1インスタンス手前で終結するように、「以下」または「以上」のテストが適用されてもよいことが理解されるであろう。一般に、WHILE命令により適用される算術条件は、
・制御変数が、上限値未満である、
・制御変数が、下限値より大きい、
・制御変数が、上限値以下である、および
・制御変数が、下限値以上である、
からなるリストから選択される条件であることができる。
図7は、いわゆる「展開された」ループを概略的に例示する。
展開がない場合、ループされる演算の各繰り返しは、単一のデータベクトルだけの分量の処理を行う。次いで、ループは次のループ位置に進み、次のデータベクトルだけの分量の処理が行われ、同様に続く。
ループを「展開すること」は、複数の連続するデータベクトルを単一のループ繰り返し内で処理することを伴う。ループ展開は、ループの各繰り返しを開始および終結させる際に伴う処理オーバーヘッドが、その場合、複数のデータベクトルの処理間で共有されるという点で、例えば、効率性を改善するために行われる。
図7では、データ処理順序410を有する処理されるべきデータ400が、それぞれがベクトル長Vを有する複数のデータベクトル内に、ループ処理の目的で配置されている。図示する例ではVは4に等しいが、もちろん、使用中のベクトル処理回路60のパラメータに従って異なる値が使用されてもよい。
動作は、各ループ繰り返しにおいて複数のデータベクトルが処理されることを除いて、図3を参照しながら説明したものと類似している。それゆえに、ステップ420では、初期パラメータが、図3のステップ200に類似した様式で設定される。例えば、ループ制御変数またはカウンタは、0に初期化される。次いで、ステップ430、440、450、および460で、複数の連続するデータベクトルが、同じ処理を受ける。ステップ430は、ループ制御変数iにより定義されるデータ400内の開始位置を有するデータベクトルを処理することを伴う。ステップ440は、同じ処理を、ただしi+Vにより定義されるデータ400内の開始位置を有するデータベクトルに適用し、同様に続く。ループの各繰り返しで処理されるデータベクトルの数は、2以上の任意の数であってよく、この例における4つのデータベクトルの使用は、単にこの説明の目的のためであることが理解されるであろう。ステップ470では、ループ制御変数iは、nが展開されたループの各繰り返しで処理されるデータベクトルの数であるとして、n×Vだけ進められる。ステップ480では、WHILE命令は、パラメータ(図5および6に関連して論じた述語フラグ)を設定し、ループを継続するか、またはループを継続しないように1つ以上の条件フラグを設定すべきかどうかを検出する。ループが継続される場合、制御は、再びステップ430に渡り(例えば、WHILE命令が条件フラグなどのフラグを設定し、条件ジャンプまたは分岐命令がその条件に応答することにより)、そうでない場合、プロセスは、終了手順に従う。
図3および7の流れ図は、図5および6の説明と関連して読まれると、データベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの、制御変数により少なくとも部分的に定義された1つ以上のデータアイテムに対して、算術条件が制御変数に適用される間、その位置に関連付けられたそれぞれの述語フラグの状態に従ってベクトル処理命令を適用するようにベクトルプロセッサを制御するための(ステップ230、480で論じたような)WHILE命令と、述語フラグの数に依存する量だけ制御変数の値を(例えば、ステップ220またはステップ470において)変化させるためのCHANGE命令であって、CHANGE命令の実行が制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、CHANGE命令と、を(例えば、デコーダ回路50により)デコードすること、ならびに命令デコーダによりデコードされた命令を(例えば、ベクトル処理回路60および/またはスカラー処理回路80により)実行することの一例を提供する。
ステップ230、480は、実行されると、例えば上述の1つ以上の条件フラグを設定することにより、算術条件を制御変数に適用しながらプロセッサに処理ループを実行することを繰り返し継続させるWHILE命令の一例を提供する。
図8および9は、カウンタ変数により表現され得る値を概略的に例示する。図8の場合、カウンタ変数は、−VALの下限と+VALの上限との間の値が表現可能であるような、符号付き変数である。図9の場合、カウンタ変数は、0と+VALの上限との間の値が表現可能であるような、符号なしである。図8の場合、上限および下限は、下限は−VALであり、上限は+VALであって、|VAL|と|VAL|とが異なる(ただし、|x|は、xの絶対値または大きさを表す)ように、異なる大きさを有し得ることに留意されたい。例えば、8ビットの符号付き2の補数表現では、−VALは−127であり得、+VALは+128であり得る。同様に、図9における+VALの上限は、図8における+VALの上限と必ずしも同じではない。しかし、いずれの場合にも、例示されている原理は、カウンタ変数の特性が、それが表現することができる値の下限および上限により示され得るということである。
図10および11は、それぞれインクリメント、およびデクリメントの命令の動作を例示する概略流れ図である。
図10を参照すると、ステップ500で、インクリメント命令は、ループ制御変数などの変数を、係数MULにより乗算されるパターン(さらに下で説明する)に依存する量だけ増大させるが、値MULは、展開されたループのステップ470などのステップにおけるこのような命令の使用の例では、ループの1つの繰り返しにおいて処理される、連続するデータベクトルの数に設定され得る。
ステップ510で、インクリメント命令は、変数により表現可能な最高値で飽和する。飽和ステップは、以下に関する。ステップ500の結果が依然としてその変数により表現可能な最高値(+VALなど)未満である場合、ステップ500の出力が、インクリメント命令の結果として返される。一方、ステップ500の出力が、その変数により表現可能な最高値を超過し、(例えば)変数がラップアラウンドする(その変数に利用可能なビット数を超過する)か、または他方の表現可能な極値から再スタートすることになる場合、ステップ510は、命令の実行により返される出力として表現可能な最高値(+VALなど)に到達しないが、超過しないように、増加を飽和させ、または上限を定める。
飽和(ステップ470におけるようにMUL係数の使用を伴うか、またはステップ220におけるように伴わないか、どちらでも)は、WHILEまたは類似の演算または命令がステップ230または480で使用され、ループ制御変数またはカウンタが算術条件に適合する場合にループの継続実行を起こさせる状況では、妥当であり得る。上限を有する上向きカウント型カウンタの一例では、算術条件は、例えば、カウンタ値が特定の限界値未満(または以下)であるかどうか、であってもよい。しかしながら、飽和の機能が使用されていなかった場合は、カウンタが、カウンタ変数により表現可能な最大値を超えて「ラップラウンド」するか、またはカウンタ変数により表現可能な最低(のもしくは別の)値で再スタートするであろうという潜在的なリスクがある。カウンタはVの単位で進むので、WHILE算術テストは、あるループ繰り返しでは(正しく)パスし、次いで、次のこのようなテストに関しては、カウンタがラップラウンドしてしまって、テストが次の繰り返しでは(誤って)パスすることになってしまう。
わかっている例として、カウンタ変数が単純な8ビット符号なしの値として維持される場合、飽和機能がなければ、カウンタは、0からカウントアップし続け得る前に、255の最大カウントに到達し得る。MUL×Vが8であり、ゆえにカウンタが8の単位で進み、ループの終了がi=253により定義されると仮定しよう。そのとき、カウンタは、i=248ではテストにパスするであろうが、次の繰り返しでは、iはラップラウンドして0に戻り、ゆえに(誤って)「未満」テストに再びパスするであろうから、テストはフェイルすべきであった一方で、(例えば)ラップラウンドされた値(0または0に近い)の値はテストにパスするであろうため、ステップ230または480で「未満」テストを使用することは、うまくいかないであろう。飽和機能は、カウンタを、その最後の繰り返しにおいて255で飽和させ、ゆえに、カウンタiは「253未満」テストに(正しく)フェイルするであろう。
飽和値は、カウンタ変数が記憶または維持されている方法の特性であることに留意されたい。それは、ループされる演算のインスタンスによりカウンタ変数に対して課される特定の限界と同じものではない。
これより「パターン」パラメータについて論じる。これは、ベクトル長に従って自動的に拡大縮小する配置を提供し、それにより、同じプログラム命令が、間の再コンパイルを必ずしも必要とすることなしに、異なる利用可能なベクトル長を有するベクトル処理回路のインスタンスにより実行されることを可能にすることに寄与する、利用可能な述語フラグの数に依存する変化量を提供する。
「変化」命令は、ステップ220または470などの状況で使用されるとき、少なくとも乗算係数MUL(これは、1であってもよく、または1より大きく、例えば3ビットのパラメータにより表現可能な値、例えば1、…、8であってもよい)に依存する量だけ変数を変化(インクリメントまたはデクリメント)させる。変化(インクリメントまたはデクリメント)の量はまた、V(例えば、ベクトル処理回路により検出される)の表現としての述語フラグの数に依存する。例えば、各述語フラグが1つのデータアイテムに対応する場合、適切な変化は、MUL×Vずつであり得る。しかし、他の例では、個別のデータアイテムは、第1の例の2倍の大きさ(例えば、バイトではなくハーフワード)であってもよく、ゆえに、全ての1つおきの述語フラグのみが、有効に使用されているかもしれない。このような場合、Vの実効値は、述語フラグの数の半分であり得、その場合、変化量は、(MUL×number_of_predicate_flags/2)であるべきである。
CHANGE命令は、パターンに従って述語フラグの数を検出し、(MULにより乗算した後)その数だけ変数をインクリメントまたはデクリメントする。パターンは、例えば、「全ての述語フラグ」をデフォルトとして、1つおきの述語フラグもしくは4つおきの述語フラグのパターン、または様々な他のパターンであってもよい。この配置は、変化量が、命令が実行されているシステムに利用可能な述語フラグの数に依存するように、自己調整するインクリメントまたはデクリメント命令を提供する。一方で、これは、インクリメントまたはデクリメント命令が、現在利用可能なベクトル長に調整されることになるため、異なる利用可能なベクトル長を有する異なるシステム上で同じ命令が使用され得ることを意味する。
それゆえに、これは、実行されると、述語フラグの数のうちの選択された下位集合に依存する量だけ変数の値を変化させる、CHANGE命令の一例と、修正する値を提供する。述べたように、下位集合は、実際は「全て」であり得ることに留意されたい。選択される下位集合は命令のパラメータに依存し、使用する下位集合の検出は、命令の他の側面を実行する同じ処理回路、配置、または資源による命令の実行の一部である。
図11は、ステップ520で、ループ制御変数などの変数が、パターン量および係数MULの積(または他の組み合わせ)だけ減算され、ステップ530で、結果が、その変数により表現可能な最小値に飽和される、あるいは言い換えれば、その変数により表現可能な最小量よりも低くならないように制約されるような、デクリメント命令の類似の動作を例示する概略的な流れ図である。
カウンタIは、スカラー変数であってもよく、ゆえにスカラー処理回路80により取り扱われ(更新され、テストされ)てもよく、またはデータベクトルもしくはデータベクトルの一部として取り扱われてもよく、ゆえにベクトル処理回路60により取り扱われてもよいことに留意されたい。
したがって、図10および11は、命令パラメータとして修正値(MULなど)を有する「変化」命令を実行する例を提供し、CHANGE命令は、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させる。例えば、連続する変化、または差の大きさは、修正値に比例してもよい。
図1の装置は、図10または11の流れ図に示されるものに対応する演算を実行するとき、データベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理命令を適用するためのベクトル処理回路(レジスタ70と協力して動作する回路60など)と、命令パラメータとして修正値(MULなど)を有するCHANGE命令(例えば、図10または11の流れ図により表される)であって、実行されたとき、述語フラグの数に依存しかつ修正値に依存する量だけ変数(ループ制御変数など)の値を変化させるCHANGE命令をデコードするための命令デコーダ(デコーダ回路50など)と、命令デコーダによりデコードされた命令を実行するための命令プロセッサ(スカラー処理回路80またはベクトル処理回路60など)と、を備えたデータ処理装置(装置10など)の一例を提供する。例えば、CHANGE命令は、実行されたとき、述語フラグの数に依存する値と修正値との積に依存する量だけ変数の値を変化させ得る。
ステップ510、530を参照しながら論じたように、CHANGE命令は関連付けられた飽和値を有してもよく、そのため、CHANGE命令は、実行されたとき、変数の値をわずか飽和値まで変化させる。図8および9を参照しながら論じたように、変数の値を低減させるデクリメント命令の場合、飽和値は、変数により表現され得る最小値であってもよい。変数の値を増大させるインクリメント命令の場合、飽和値は、変数により表現され得る最大値であってもよい。
このような命令が、変数がカウンタ変数であり、ベクトル処理回路が処理ループの1つ以上の繰り返しの間、カウンタ変数によって少なくとも部分的に定義されたデータベクトルにベクトル処理命令を適用する、図7のループされる演算の、例えば、ステップ470の文脈で使用されるとき、命令デコーダは、カウンタ変数に依存して処理ループを実行することを繰り返し継続すべきかどうかを検出するために、命令(例えば、ステップ480に対応する)をデコードするように構成されていてもよい。このような命令は、例えば、算術条件がカウンタ変数に当てはまる間、処理ループを実行することを繰り返し継続するように処理回路を制御するように条件フラグを設定するためのWHILE命令であってもよい。算術条件の例としては、カウンタ変数が上限値未満であること、カウンタ変数が下限値より大きいこと、カウンタ変数が上限値以下であること、および、カウンタ変数が下限値以上であることが挙げられる。
図19は、上述の機能のうちの一部または全てがそれにより提供される仮想マシンを概略的に例示する。仮想マシンは、データ処理回路800の一例としての中央演算処理装置(CPU)、不揮発性メモリ810、制御インターフェース820、および入出力(IO)インターフェース830を備え、全てが、バス配置840により相互接続されている。ランダムアクセスメモリ(RAM)850は、CPU800の動作を制御するためのソフトウェア860を提供するプログラム命令を記憶する。ソフトウェア860の制御の下、CPU800は、上述の処理命令の1つ以上の機能を提供またはエミュレートする。RAM850はまた、プログラム命令870およびデータ880を記憶し、ここで、プログラム命令870は、図1のプロセッサ20に適用可能であり、仮想マシンとして機能するCPU800により解釈、エミュレート、またはさもなければ実行される命令である。データ880は、プログラム命令870の(仮想)実行による作用を受けるべき、図1のデータ32に対応するデータである。したがって、図19の配置は、機械可読命令(例えば、ソフトウェア860)を含むコンピュータプログラムを実行するためのデータプロセッサ(CPU800など)を備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、上述の種類のデータ処理装置として動作させる、仮想マシンの一例を提供する。例示的な実施形態はまた、コンピュータにより実行されると、コンピュータに上述の技法の1つ以上を行わせるコンピュータソフトウェアにより、およびそのようなコンピュータソフトウェアを記憶する非一時的な機械可読記憶媒体により、表される。
本出願では、語句「〜するように構成されている」は、装置のある要素が、定義された動作を行うことができる構成を有することを意味するために使用される。この文脈では、「構成」は、ハードウェアまたはソフトウェアの配置または相互接続の様式を意味する。例えば、装置は、定義された動作を提供する専用のハードウェアを有してもよく、またはプロセッサもしくは他の処理デバイスが、その機能を遂行するようにプログラムされていてもよい。「するように構成されている」は、定義された動作を提供するために、装置の要素が何らかの方法で変更される必要があることを含意しない。
本明細書において本技法の例示的な実施形態を添付図面を参照しながら詳細に説明してきたものの、本技法はそれらのまさにその実施形態に限定されるものではないこと、ならびに様々な変更、追加、および修正が、添付の請求項により定義される本技法の範囲および趣旨から逸脱することなしに、当業者によってそれらにおいて成し遂げられ得ることが、理解されるべきである。例えば、従属請求項の特徴は、本技法の範囲から逸脱することなしに、独立請求項の特徴と様々に組み合わせることができる。

Claims (30)

  1. 命令をデコードするための命令デコーダ回路と、
    前記命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
    を備えるデータ処理装置であって、
    前記命令デコーダ回路が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理命令を適用するように前記命令処理回路を制御するよう、WHILE命令に応答し、
    前記命令デコーダ回路が、前記制御変数の値をわずか飽和値まで変化させるように、関連付けられた前記飽和値に従って前記述語フラグの数に依存する量だけ前記制御変数の前記値を変化させるように前記命令処理回路を制御するよう、CHANGE命令に応答する、データ処理装置。
  2. 前記算術条件が、
    i.前記制御変数が、上限値未満である、
    ii.前記制御変数が、下限値より大きい、
    iii.前記制御変数が、上限値以下である、および
    iv.前記制御変数が、下限値以上である、
    からなるリストから選択される条件である、請求項1に記載の装置。
  3. 前記述語フラグが、その状態の述語フラグに対応するデータベクトルの位置に対して前記ベクトル処理命令が適用されるべきであることを示すアクティブ状態を有する、請求項1または請求項2に記載の装置。
  4. 前記命令デコーダ回路が、前記アクティブ状態に設定するために選択された述語フラグの前記数を考慮に入れて、前記制御変数の値が前記算術条件に違反しないように、前記アクティブ状態に設定するために前記述語フラグの1つ以上を選択するように前記命令処理回路を制御するよう、前記WHILE命令に応答する、請求項3に記載の装置。
  5. 前記命令デコーダ回路が、前記述語フラグの所定の順序に従って前記アクティブ状態に設定するために前記述語フラグの1つ以上を選択するように前記命令処理回路を制御するよう、前記WHILE命令に応答する、請求項4に記載の装置。
  6. 前記命令デコーダ回路が、算術条件が前記制御変数に当てはまる間、処理ループを実行することを繰り返し継続するように前記命令処理回路を制御するよう、前記WHILE命令に応答する、請求項1〜5のいずれか一項に記載の装置。
  7. 前記命令デコーダ回路が、前記述語フラグの数に依存し、かつ前記CHANGE命令のパラメータを形成する修正値に依存する量だけ前記制御変数の前記値を変化させるように前記命令処理回路を制御するよう、前記CHANGE命令に応答する、請求項1〜6のいずれか一項に記載の装置。
  8. 前記CHANGE命令が、前記制御変数の前記値を低減させるためのデクリメント命令であり、
    前記飽和値が、前記制御変数により表現され得る最小値である、請求項1〜7のいずれか一項に記載の装置。
  9. 前記CHANGE命令が、前記制御変数の前記値を増大させるためのインクリメント命令であり、
    前記飽和値が、前記制御変数により表現され得る最大値である、請求項1〜7のいずれか一項に記載の装置。
  10. 命令をデコードするための手段と、
    前記デコードするための手段によりデコードされた命令を実行するための手段と、
    を備えるデータ処理装置であって、
    前記デコードするための手段が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理命令を適用するように前記実行するための手段を制御するよう、WHILE命令に応答し、
    前記デコードするための手段が、特定の状態に現在設定されている前記述語フラグの数に依存する量だけ前記制御変数の前記値を変化させるように前記実行するための手段を制御するよう、CHANGE命令に応答し、前記CHANGE命令が、前記CHANGE命令の実行が前記制御変数の前記値をわずか飽和値まで変化させるように動作可能なように、関連付けられた前記飽和値を有する、データ処理装置。
  11. 命令をデコードするステップと、
    前記デコードするステップによりデコードされた命令を実行するステップと、
    を備えるデータ処理方法であって、
    前記デコードするステップが、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理命令を適用するように前記実行ステップを制御するよう、WHILE命令に応答し、
    前記デコードするステップが、特定の状態に現在設定されている前記述語フラグの数に依存する量だけ前記制御変数の前記値を変化させるように前記実行するステップを制御するよう、CHANGE命令に応答し、前記CHANGE命令が、前記CHANGE命令の実行が前記制御変数の前記値をわずか飽和値まで変化させるように、関連付けられた前記飽和値を有する、データ処理方法。
  12. コンピュータにより実行されるとき、前記コンピュータに請求項11に記載の方法を行わせるコンピュータソフトウェア。
  13. 請求項12に記載のコンピュータソフトウェアを記憶する非一時的な機械可読記憶媒体。
  14. 機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、前記コンピュータプログラムの実行が、前記データプロセッサに、
    命令をデコードするための命令デコーダと、
    前記命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
    を備えるデータ処理装置であって、
    前記命令デコーダが、制御変数により少なくとも部分的に定義され、複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記複数のデータアイテムに関連付けられたそれぞれの述語フラグの前記状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理演算を適用するように前記命令プロセッサを制御するよう、WHILE命令に応答し、
    前記命令デコーダが、特定の状態に現在設定されている前記述語フラグの数に依存する量だけ前記制御変数の前記値を変化させるように前記命令プロセッサを制御するよう、CHANGE命令に応答し、前記CHANGE命令が、前記CHANGE命令の実行が、実行されるとき、前記制御変数の前記値をわずか飽和値まで変化させるように、関連付けられた前記飽和値を有する、データ処理装置として動作させる、仮想マシン。
  15. そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、
    プログラム命令をデコードするための命令デコーダ回路と、
    前記命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
    を含む処理回路
    を備えるデータ処理装置であって、
    前記命令デコーダ回路が、命令パラメータとして修正値を有するCHANGE命令に応答して、前記述語フラグの数および前記修正値に依存する量だけ変数の前記値を変化させるように前記命令処理回路を制御するようにする、データ処理装置。
  16. 前記命令デコーダ回路が、前記述語フラグの前記数に依存する値と前記修正値との積に依存する量だけ前記変数の前記値を変化させるように前記命令処理回路を制御するよう、前記CHANGE命令に応答する、請求項15に記載の装置。
  17. 前記CHANGE命令が、前記命令デコーダ回路が、前記変数の前記値をわずか飽和値まで変化させるように前記命令処理回路を制御するように、前記CHANGE命令に応答する、関連付けられた前記飽和値を有する、請求項15または請求項16に記載の装置。
  18. 前記CHANGE命令が、前記変数の前記値を低減させるためのデクリメント命令であり、
    前記飽和値が、前記変数により表現され得る最小値である、請求項17に記載の装置。
  19. 前記CHANGE命令が、前記変数の前記値を増大させるためのインクリメント命令であり、
    前記飽和値が、前記変数により表現され得る最大値である、請求項17に記載の装置。
  20. 前記変数が、カウンタ変数であり、前記処理回路が、処理ループの1回以上の繰り返しの間、前記カウンタ変数により少なくとも部分的に定義されたデータベクトルに対して前記ベクトル処理命令を適用し、
    前記命令デコーダ回路が、前記処理ループを実行することを繰り返し継続すべきどうかを前記カウンタ変数に依存して検出するように前記命令処理回路を制御するよう、さらなる命令に応答する、請求項15〜19のいずれか一項に記載の装置。
  21. 前記処理ループを実行することを継続すべきかどうかを検出するための前記さらなる命令がWHILE命令を含み、前記命令デコーダ回路が、算術条件が前記カウンタ変数に当てはまる間、前記処理ループを実行することを繰り返し継続するように前記命令処理回路を制御するよう、前記WHILE命令に応答する、請求項20に記載の装置。
  22. 前記算術条件が、
    i.前記カウンタ変数が、上限値未満である、
    ii.前記カウンタ変数が、下限値より大きい、
    iii.前記カウンタ変数が、上限値以下である、および
    iv.前記カウンタ変数が、下限値以上である、
    からなるリストから選択される条件である、請求項21に記載の装置。
  23. 前記命令デコーダ回路が、前記述語フラグの前記数のうちの選択された下位集合および前記修正値に依存する量だけ前記変数の前記値を変化させるように前記命令処理回路を制御するよう、前記CHANGE命令に応答する、請求項21または請求項22に記載の装置。
  24. 前記命令デコーダ回路が、前記アクティブ状態に設定するために選択された述語フラグの前記数を考慮に入れて、前記ループ変数の値が前記算術条件に違反しないように、前記アクティブ状態に設定するために前記述語フラグの1つ以上を選択するように前記命令処理回路を制御するよう、前記WHILE命令に応答する、請求項23に記載の装置。
  25. 前記命令デコーダ回路が、前記アクティブ状態に設定するために選択された述語フラグの前記数を考慮に入れて、前記ループ変数の値が前記算術条件に違反しないように、前記述語フラグの所定の順序に従って前記アクティブ状態に設定するために前記述語フラグの1つ以上を選択するように前記命令処理回路を制御するよう、前記WHILE命令に応答する、請求項24に記載の装置。
  26. そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、ベクトル処理演算を選択的に適用するための手段であって、
    命令をデコードするための手段と、
    前記デコードするための手段によりデコードされた命令を実行するための手段と、
    を含む適用する手段
    を備えるデータ処理装置であって、
    前記命令をデコードするための手段が、命令パラメータとして修正値を有するCHANGE命令に応答して、前記述語フラグの数に依存し、かつ前記修正値に依存する量だけ変数の前記値を変化させるように前記命令を実行するための手段を制御するようにする、データ処理装置。
  27. そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、ベクトル処理演算を選択的に適用するステップと、
    命令をデコードするステップと、
    命令を実行するステップと、
    を備えるデータ処理方法であって、
    前記デコードするステップが、命令パラメータとして修正値を有するCHANGE命令に応答して、前記述語フラグの数に依存し、かつ前記修正値に依存する量だけ変数の前記値を変化させるように前記実行するステップを制御するようにする、データ処理方法。
  28. コンピュータにより実行されるとき、前記コンピュータに請求項27に記載の方法を行わせるコンピュータソフトウェア。
  29. 請求項28に記載のコンピュータソフトウェアを記憶する非一時的な機械可読記憶媒体。
  30. 機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、前記コンピュータプログラムの実行が、前記データプロセッサに、
    そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの1つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの前記状態に従って、ベクトル処理演算を選択的に適用するためのプロセッサであって、
    命令をデコードするための命令デコーダと、
    前記命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
    を含むプロセッサ
    を備えるデータ処理装置であって、
    前記命令デコーダが、命令パラメータとして修正値を有するCHANGE命令に応答して、前記述語フラグの数に依存し、かつ前記修正値に依存する量だけ変数の前記値を変化させるように前記命令プロセッサを制御するようにする、データ処理装置として動作させる、仮想マシン。
JP2018503592A 2015-07-31 2016-07-28 動的ベクトル長のループを用いたベクトル処理 Active JP6883564B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP15386025.9 2015-07-31
EP15386025.9A EP3125108A1 (en) 2015-07-31 2015-07-31 Vector processing using loops of dynamic vector length
PCT/EP2016/068013 WO2017021269A1 (en) 2015-07-31 2016-07-28 Vector processing using loops of dynamic vector length

Publications (2)

Publication Number Publication Date
JP2018525735A true JP2018525735A (ja) 2018-09-06
JP6883564B2 JP6883564B2 (ja) 2021-06-09

Family

ID=54140381

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018503592A Active JP6883564B2 (ja) 2015-07-31 2016-07-28 動的ベクトル長のループを用いたベクトル処理

Country Status (8)

Country Link
US (1) US10430192B2 (ja)
EP (2) EP3125108A1 (ja)
JP (1) JP6883564B2 (ja)
KR (2) KR20180034501A (ja)
CN (1) CN107851021B (ja)
IL (1) IL256859B (ja)
TW (1) TWI723036B (ja)
WO (1) WO2017021269A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021515929A (ja) * 2018-02-28 2021-06-24 アーム・リミテッド データ処理

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9606803B2 (en) * 2013-07-15 2017-03-28 Texas Instruments Incorporated Highly integrated scalable, flexible DSP megamodule architecture
US10528346B2 (en) * 2018-03-29 2020-01-07 Intel Corporation Instructions for fused multiply-add operations with variable precision input operands
EP4278366A1 (en) 2021-01-12 2023-11-22 Emed Labs, LLC Health testing and diagnostics platform
US11929168B2 (en) 2021-05-24 2024-03-12 Emed Labs, Llc Systems, devices, and methods for diagnostic aid kit apparatus
US11615888B2 (en) 2021-03-23 2023-03-28 Emed Labs, Llc Remote diagnostic testing and treatment
US11610682B2 (en) 2021-06-22 2023-03-21 Emed Labs, Llc Systems, methods, and devices for non-human readable diagnostic tests
US12014829B2 (en) 2021-09-01 2024-06-18 Emed Labs, Llc Image processing and presentation techniques for enhanced proctoring sessions
GB2616601B (en) * 2022-03-11 2024-05-08 Advanced Risc Mach Ltd Sub-vector-supporting instruction for scalable vector instruction set architecture

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002084451A2 (en) * 2001-02-06 2002-10-24 Victor Demjanenko Vector processor architecture and methods performed therein
EP2725484A1 (en) * 2012-10-23 2014-04-30 Analog Devices Technology Processor architecture and method for simplifying programmable single instruction, multiple data within a register
JP2015534189A (ja) * 2012-09-28 2015-11-26 インテル・コーポレーション 複数のビットを左にシフトし、複数の1を複数の下位ビットにプルインするための命令
JP2018521424A (ja) * 2015-07-31 2018-08-02 エイアールエム リミテッド データ処理

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4745547A (en) * 1985-06-17 1988-05-17 International Business Machines Corp. Vector processing
IT1270439B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la quantizzazione dei parametri spettrali in codificatori numerici della voce
US5537606A (en) * 1995-01-31 1996-07-16 International Business Machines Corporation Scalar pipeline replication for parallel vector element processing
US6976158B2 (en) * 2001-06-01 2005-12-13 Microchip Technology Incorporated Repeat instruction with interrupt
US7055021B2 (en) * 2002-02-05 2006-05-30 Sun Microsystems, Inc. Out-of-order processor that reduces mis-speculation using a replay scoreboard
US8370806B2 (en) * 2006-11-15 2013-02-05 Qualcomm Incorporated Non-intrusive, thread-selective, debugging method and system for a multi-thread digital signal processor
US7945763B2 (en) * 2006-12-13 2011-05-17 International Business Machines Corporation Single shared instruction predecoder for supporting multiple processors
US8345968B2 (en) * 2007-06-28 2013-01-01 Mitsubishi Electric Corporation Image encoding device, image decoding device, image encoding method and image decoding method
CA2798354C (en) * 2010-05-12 2016-01-26 Nippon Telegraph And Telephone Corporation A video encoding bit rate control technique using a quantization statistic threshold to determine whether re-encoding of an encoding-order picture group is required
US20120254588A1 (en) * 2011-04-01 2012-10-04 Jesus Corbal San Adrian Systems, apparatuses, and methods for blending two source operands into a single destination using a writemask
CN103583048B (zh) * 2011-06-30 2017-05-17 太阳专利托管公司 图像解码方法、图像编码方法、图像解码装置、图像编码装置及图像编码解码装置
SE536462C2 (sv) * 2011-10-18 2013-11-26 Mediatek Sweden Ab Digital signalprocessor och basbandskommunikationsanordning
US20130151822A1 (en) * 2011-12-09 2013-06-13 International Business Machines Corporation Efficient Enqueuing of Values in SIMD Engines with Permute Unit
US20140189296A1 (en) * 2011-12-14 2014-07-03 Elmoustapha Ould-Ahmed-Vall System, apparatus and method for loop remainder mask instruction
US9619229B2 (en) * 2012-12-27 2017-04-11 Intel Corporation Collapsing of multiple nested loops, methods and instructions
JP2014191757A (ja) * 2013-03-28 2014-10-06 Fujitsu Ltd 情報処理方法、装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002084451A2 (en) * 2001-02-06 2002-10-24 Victor Demjanenko Vector processor architecture and methods performed therein
JP2015534189A (ja) * 2012-09-28 2015-11-26 インテル・コーポレーション 複数のビットを左にシフトし、複数の1を複数の下位ビットにプルインするための命令
EP2725484A1 (en) * 2012-10-23 2014-04-30 Analog Devices Technology Processor architecture and method for simplifying programmable single instruction, multiple data within a register
JP2018521424A (ja) * 2015-07-31 2018-08-02 エイアールエム リミテッド データ処理

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021515929A (ja) * 2018-02-28 2021-06-24 アーム・リミテッド データ処理
JP7377208B2 (ja) 2018-02-28 2023-11-09 アーム・リミテッド データ処理

Also Published As

Publication number Publication date
TWI723036B (zh) 2021-04-01
US10430192B2 (en) 2019-10-01
EP3125108A1 (en) 2017-02-01
WO2017021269A1 (en) 2017-02-09
EP3329365A1 (en) 2018-06-06
CN107851021A (zh) 2018-03-27
KR20240058195A (ko) 2024-05-03
CN107851021B (zh) 2022-04-22
IL256859B (en) 2020-03-31
JP6883564B2 (ja) 2021-06-09
TW201716991A (zh) 2017-05-16
US20190012176A1 (en) 2019-01-10
IL256859A (en) 2018-03-29
KR20180034501A (ko) 2018-04-04

Similar Documents

Publication Publication Date Title
JP6883564B2 (ja) 動的ベクトル長のループを用いたベクトル処理
JP5647859B2 (ja) 乗累算演算を実行するための装置および方法
JP6900363B2 (ja) データ処理
CN108319559B (zh) 用于控制矢量内存存取的数据处理装置及方法
JP2011086298A (ja) プログラム・フロー制御
JP2019509573A (ja) ベクトル述語命令
JP6874262B2 (ja) ベクトル被演算子ビットサイズの制御
KR102458467B1 (ko) 벡터 생성 명령
KR102586258B1 (ko) 벡터 길이 질의 명령
JP7377208B2 (ja) データ処理

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210510

R150 Certificate of patent or registration of utility model

Ref document number: 6883564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250