JP6883564B2

JP6883564B2 - 動的ベクトル長のループを用いたベクトル処理

Info

Publication number: JP6883564B2
Application number: JP2018503592A
Authority: JP
Inventors: ジョンスティーブンス、ナイジェル; マグクリス、グリゴリオス; プレミリュー、ナサニール; ヴィセンテ、アレハンドロマルティネス; エヨール、ムボウ
Original assignee: アーム・リミテッド
Priority date: 2015-07-31
Filing date: 2016-07-28
Publication date: 2021-06-09
Anticipated expiration: 2036-07-28
Also published as: EP3125108A1; TWI723036B; KR20180034501A; CN107851021A; IL256859A; WO2017021269A1; US20190012176A1; KR20240058195A; IL256859B; JP2018525735A; EP3329365A1; US10430192B2; TW201716991A; CN107851021B

Description

本開示は、データ処理の装置および方法に関する。

一部のデータ処理配置は、ベクトル処理演算を考慮に入れており、単一のベクトル処理命令を、データベクトル内のそれぞれの位置に複数のデータアイテムを有するデータベクトルのデータアイテムに対して適用することを伴う。対照的に、スカラー処理は、事実上、データベクトルに対してではなく、一つ一つのデータアイテムに対して作用する。

ベクトル処理は、処理されるべき、データの多数の異なるインスタンスに対して処理演算が行われる場合に有用であり得る。ベクトル処理配置では、単一の命令を、（データベクトルの）複数のデータアイテムに対して同時に適用することができる。これにより、スカラー処理と比較して、データ処理の効率およびスループットを改善することができる。

ある例示的な配置では、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、
プログラム命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を含む処理回路
を備えるデータ処理装置であって、
命令デコーダ回路が、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数および修正値に依存する量だけ変数の値を変化させるように命令処理回路を制御するようにする、データ処理装置が提供される。

別の例示的な配置では、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための手段であって、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を含む適用する手段
を備えるデータ処理装置であって、
命令をデコードするための手段が、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令を実行するための手段を制御するようにする、データ処理装置が提供される。

別の例示的な配置では、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するステップと、
命令をデコードするステップと、
命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように実行するステップを制御するようにする、データ処理方法が提供される。

別の例示的な配置では、
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するためのプロセッサであって、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を含むプロセッサ
を備えるデータ処理装置であって、
命令デコーダが、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令プロセッサを制御するようにする、データ処理装置として動作させる、仮想マシンが提供される。

別の例示的な配置では、
命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を備えるデータ処理装置であって、
命令デコーダ回路が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答し、
命令デコーダ回路が、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値に従って述語フラグの数に依存する量だけ制御変数の値を変化させるように命令処理回路を制御するよう、ＣＨＡＮＧＥ命令に応答する、データ処理装置が提供される。

別の例示的な配置では、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を備えるデータ処理装置であって、
デコードするための手段が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行するための手段を制御するよう、ＷＨＩＬＥ命令に応答し、
デコードするための手段が、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するための手段を制御するよう、ＣＨＡＮＧＥ命令に応答し、ＣＨＡＮＧＥ命令が、ＣＨＡＮＧＥ命令の実行が制御変数の値をわずか飽和値まで変化させるように動作可能なように、関連付けられた飽和値を有する、データ処理装置が提供される。

別の例示的な配置では、
命令をデコードするステップと、
デコードするステップによりデコードされた命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行ステップを制御するよう、ＷＨＩＬＥ命令に応答し、
デコードするステップが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するステップを制御するよう、ＣＨＡＮＧＥ命令に応答し、ＣＨＡＮＧＥ命令が、ＣＨＡＮＧＥ命令の実行が制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理方法が提供される。

機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を備えるデータ処理装置であって、
命令デコーダが、制御変数により少なくとも部分的に定義され、複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、複数のデータアイテムに関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理演算を適用するように命令プロセッサを制御するよう、ＷＨＩＬＥ命令に応答し、
命令デコーダが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように命令プロセッサを制御するよう、ＣＨＡＮＧＥ命令に応答し、ＣＨＡＮＧＥ命令が、ＣＨＡＮＧＥ命令の実行が、実行されるとき、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理装置として動作させる、仮想マシンが提供される。

本技法を、添付図面中に例示されるその実施形態を、例としてのみ参照しながら、さらに説明する。

データ処理装置を概略的に例示する。複数のデータベクトルとしてのデータの取り扱いを概略的に例示する。ループされる演算（looped operation）を例示する概略流れ図である。述語フラグの使用を概略的に例示する。カウンタ変数に従った述語フラグの制御を概略的に例示する。カウンタ変数に従ったＷＨＩＬＥ命令による述語フラグの設定を例示する概略流れ図である。いわゆる展開されたループ（unrolled loop）を概略的に例示する。カウンタ変数により表現され得る値を概略的に例示する。カウンタ変数により表現され得る値を概略的に例示する。インクリメント命令の動作を例示する概略流れ図である。デクリメント命令の動作を例示する概略流れ図である。仮想マシンを概略的に例示する。

添付図面を参照しながら実施形態について論じる前に、実施形態について以下の説明を提供する。

ある例示的な実施形態は、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、
プログラム命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を含む処理回路
を備えるデータ処理装置であって、
命令デコーダ回路が、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数および修正値に依存する量だけ変数の値を変化させるように命令処理回路を制御するようにする、データ処理装置を提供する。

本開示は、ベクトル処理回路の異なるインスタンスによる（再コンパイルプロセスなしの）実行向けのプログラム命令であって、それらの異なるインスタンスが異なる利用可能なベクトル長Ｖ_Ｌを有し得るプログラム命令の場合、それにより命令が実行されているベクトル処理回路のどんな利用可能な長さＶ_Ｌにも従って動作するループされる、もしくはその他の演算を制御するための配置を提供することが有用であり得ることを認識している。（代替案は、想像上のＶ_Ｌをベクトル処理回路の異なるインスタンス間で遭遇され得る最小レベルに固定することであろうが、これは、一部のインスタンスで利用可能なより長いベクトル長を使用しないことにより、非効率的であり得る。）

本開示の実施形態は、実行されると、述語フラグの数（例えば、ベクトル長の代理としての）に依存する量だけ変数（ループ制御変数など）を修正し、したがって、それにより命令が実行されているシステムのベクトル長に従って変化の量を設定することができる、ＣＨＡＮＧＥ命令を提供する。これにより、同じプログラム命令を、異なるそれぞれの利用可能なベクトル長を有するベクトル処理回路の異なるインスタンスに対して、再コンパイルを必ずしも必要とすることなしに、実行することを可能にし得る。

修正値の使用は、（例えば）ベクトル演算が「展開」されている、つまり、複数のデータベクトルが、処理命令のループまたは他の集合の単一の繰り返しまたはインスタンスにおいて処理される、ループ制御または他のベクトル演算において、単一のＣＨＡＮＧＥ命令が使用されることを可能にする。

例示的な実施形態では、命令デコーダ回路は、述語フラグの数に依存する値と修正値との積に依存する量だけ変数の値を変化させるように命令処理回路を制御するよう、ＣＨＡＮＧＥ命令に応答する。例では、修正値は、乗算値であり得る。例では、ＣＨＡＮＧＥ命令により設定される制御変数の連続する値間の差は、比例するなど、修正値に依存してもよい。

（例えば）ループが完了したかどうかを判定するために、変数の値を単純な算術テストによりテストすることをできるように、例示的な実施形態では、ＣＨＡＮＧＥ命令は、関連付けられた飽和値を有し、ＣＨＡＮＧＥ命令は、実行されると、変数の値をわずか飽和値まで変化させる。

一部の例では、ＣＨＡＮＧＥ命令は、変数の値を低減させるためのデクリメント命令であり、飽和値は、変数により表現され得る最小値である。他の例では、ＣＨＡＮＧＥ命令は、変数の値を増大させるためのインクリメント命令であり、飽和値は、変数により表現され得る最大値である。

ＣＨＡＮＧＥ命令は、特に（ただし、排他的ではなく）ループ制御の文脈において有用であり、例示的な実施形態では、変数は、カウンタ変数であり、ベクトル処理回路は、処理ループの１回以上の繰り返しの間、カウンタ変数により少なくとも部分的に定義されたデータベクトルに対してベクトル処理命令を適用し、命令デコーダ回路は、処理ループを実行することを繰り返し継続すべきどうかをカウンタ変数に依存して検出するように命令処理回路を制御するよう、さらなる命令に応答する。

例示的な実施形態では、処理ループを実行することを継続すべきかどうかを検出するためのさらなる命令はＷＨＩＬＥ命令を含み、命令デコーダ回路は、算術条件がカウンタ変数に当てはまる間、処理ループを実行することを繰り返し継続するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答する。例えば、算術条件は、
ｉ．カウンタ変数が、上限値未満である、
ｉｉ．カウンタ変数が、下限値より大きい、
ｉｉｉ．カウンタ変数が、上限値以下である、および
ｉｖ．カウンタ変数が、下限値以上である、
からなるリストから選択される条件であってもよい。

述語フラグの数は、一部のインスタンスでは、システムのベクトル長に等しくない場合があるため、一部の例では、命令デコーダ回路は、述語フラグの数のうちの選択された下位集合（例えば、処理回路により選択される）および修正値に依存する量だけ変数の値を変化させるように命令処理回路を制御するよう、ＣＨＡＮＧＥ命令に応答する。

後述するように、例示的な実施形態では、命令デコーダ回路は、アクティブ状態に設定するために選択された述語フラグの数を考慮に入れて、ループ変数の値が算術条件に違反しないように、アクティブ状態に設定するために述語フラグの１つ以上を選択するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答する。後述するように、例示的な実施形態では、命令デコーダ回路は、アクティブ状態に設定するために選択された述語フラグの数を考慮に入れて、ループ変数の値が算術条件に違反しないように、述語フラグの所定の順序に従ってアクティブ状態に設定するために述語フラグの１つ以上を選択するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答する。

ある例示的な実施形態はまた、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための手段であって、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を含む適用する手段
を備えるデータ処理装置であって、
命令をデコードするための手段が、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令を実行するための手段を制御するようにする、データ処理装置、を提供する。

ある例示的な実施形態はまた、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するステップと、
命令をデコードするステップと、
命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように実行するステップを制御するようにする、データ処理方法、を提供する。

ある例示的な実施形態はまた、
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するためのプロセッサであって、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を含むプロセッサ
を備えるデータ処理装置であって、
命令デコーダが、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させるように命令プロセッサを制御するようにする、データ処理装置として動作させる、仮想マシン、を提供する。

（例えば）ベクトル処理システムにおけるループされる演算の制御などの、データ処理演算の文脈において、例示的な実施形態は、ループされる関数の実行を制御するために、飽和カウンタおよび優雅なまでに単純な算術テストを使用することができる。ある例示的な実施形態は、
命令をデコードするための命令デコーダ回路と、
命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を備えるデータ処理装置であって、
命令デコーダ回路が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答し、
命令デコーダ回路が、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値に従って述語フラグの数に依存する量だけ制御変数の値を変化させるように命令処理回路を制御するよう、ＣＨＡＮＧＥ命令に応答する、データ処理装置、を提供する。

カウンタが飽和値を超えて進むのを抑止することにより、無効な結果（例えば、カウンタがラップアラウンドすること、またはカウンタ変数内のビット数をオーバーフローすることにより引き起こされるであろう結果など）を避けることができる。

例示的な実施形態では、算術条件は、
ｉ．制御変数が、上限値未満である、
ｉｉ．制御変数が、下限値より大きい、
ｉｉｉ．制御変数が、上限値以下である、および
ｉｖ．制御変数が、下限値以上である、
からなるリストから選択される条件である。

例示的な実施形態では、述語フラグは、制御機能の一部として使用することができる。例示的な実施形態では、述語フラグは、その状態の述語フラグに対応するデータベクトルの位置に対してベクトル処理命令が適用されるべきであることを示すアクティブ状態を有する。

例示的な実施形態では、命令デコーダ回路は、アクティブ状態に設定するために選択された述語フラグの数を考慮に入れて（例えば、場合毎に加算または減算して）、制御変数の値が算術条件に違反しないように、アクティブ状態に設定するために述語フラグの１つ以上を選択するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答する。このようにして、ＷＨＩＬＥ命令は、述語フラグのメカニズムを、ループ制御などの実行制御のために便利に使用することができる。

例示的な実施形態では、命令デコーダ回路は、述語フラグの所定の順序に従ってアクティブ状態に設定するために述語フラグの１つ以上を選択するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答する。例えば、順序は、処理されるべき基礎をなすデータアイテムのそれに対応する順序であってもよい。

例示的な実施形態では、命令デコーダ回路は、算術条件が制御変数に当てはまる間、処理ループを実行することを繰り返し継続するように命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答する。

ある例示的な実施形態はまた、
命令をデコードするための手段と、
デコードするための手段によりデコードされた命令を実行するための手段と、
を備えるデータ処理装置であって、
デコードするための手段が、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行するための手段を制御するよう、ＷＨＩＬＥ命令に応答し、
デコードするための手段が、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するための手段を制御するよう、ＣＨＡＮＧＥ命令に応答し、ＣＨＡＮＧＥ命令が、ＣＨＡＮＧＥ命令の実行が制御変数の値をわずか飽和値まで変化させるように動作可能なように、関連付けられた飽和値を有する、データ処理装置、を提供する。

ある例示的な実施形態はまた、
命令をデコードするステップと、
デコードするステップによりデコードされた命令を実行するステップと、
を備えるデータ処理方法であって、
デコードするステップが、制御変数により少なくとも部分的に定義され、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理命令を適用するように実行ステップを制御するよう、ＷＨＩＬＥ命令に応答し、
デコードするステップが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように実行するステップを制御するよう、ＣＨＡＮＧＥ命令に応答し、ＣＨＡＮＧＥ命令が、ＣＨＡＮＧＥ命令の実行が制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理方法、を提供する。

ある例示的な実施形態はまた、
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、
命令をデコードするための命令デコーダと、
命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を備えるデータ処理装置であって、
命令デコーダが、制御変数により少なくとも部分的に定義され、複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、複数のデータアイテムに関連付けられたそれぞれの述語フラグの状態に従って、算術条件が制御変数に当てはまる間、ベクトル処理演算を適用するように命令プロセッサを制御するよう、ＷＨＩＬＥ命令に応答し、
命令デコーダが、特定の状態に現在設定されている述語フラグの数に依存する量だけ制御変数の値を変化させるように命令プロセッサを制御するよう、ＣＨＡＮＧＥ命令に応答し、ＣＨＡＮＧＥ命令が、ＣＨＡＮＧＥ命令の実行が、実行されるとき、制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、データ処理装置として動作させる、仮想マシン、を提供する。

ここで図面を参照すると、図１は、データ値３２およびプログラム命令３４を記憶するメモリ３０に連結されたプロセッサ２０を含むデータ処理システム１０を概略的に例示している。プロセッサ２０は、プログラム命令３４をメモリ３０からフェッチし、フェッチプログラム命令をデコーダ回路５０に供給するための命令フェッチユニット４０を含む。デコーダ回路５０は、フェッチされたプログラム命令をデコードし、デコードされたベクトル命令により指定されたようにベクトルレジスタ回路７０内に記憶されたベクトルレジスタに対してベクトル処理演算を遂行するようにベクトル処理回路６０を制御するための制御信号を生成する。

プロセッサ２０はまた、スカラーレジスタ９０に関連付けられたスカラー処理回路８０を含む。

スカラー処理とベクトル処理との間の一般的な差異は、以下のとおりである。ベクトル処理は、単一のベクトル処理命令を、データベクトル内のそれぞれの位置に複数のデータアイテムを有するデータベクトルのデータアイテムに対して適用することを伴う。スカラー処理は、事実上、データベクトルに対してではなく、一つ一つのデータアイテムに対して作用する。

以下の議論は、例示的なプログラム命令３４に関する。本開示の実施形態は、このようなプログラム命令をデコードし実行するように動作可能であり、またはそう構成されている、例えば図１に示す種類の、装置を含む。したがって、図１は、データベクトル内の位置にあるデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグ（後述する）の集合の状態に従ってベクトル処理演算を選択的に適用するための処理回路であって、データベクトルが、データベクトル処理順序を有し、各データベクトルが、データアイテム順序を有する複数のデータアイテムを含んでおり、処理回路が、プログラム命令をデコードするための命令デコーダ回路と、命令デコーダ回路によりデコードされた命令を実行するための命令処理回路とを含む処理回路であって、命令デコーダ回路が、後述する機能を行うように命令処理回路を制御するよう、命令に応答する処理回路の例を提供する。

図２は、複数のデータベクトルとしてのデータの取り扱いを概略的に例示する。この配置では、データアイテム１００の集合は、処理順序１１０で処理されることを意図されている。データアイテム１００は、実際は、ベクトル処理演算において、単一のベクトル処理命令が、データベクトル内のデータアイテム（例えば、４つのデータアイテム、８つのデータアイテム、または、どんな特定のシステムのベクトル長でも）の全てに同時に適用されるよう、連続するデータベクトル１２０として取り扱われる。

とは言ったものの、各データベクトル１２０は、データアイテム処理順序１３０を保持し、ベクトルからベクトルへのベクトル処理順序１４０が存在するので、処理中に当初の処理順序１１０への参照が必要とされる場合、これは、ベクトル処理順序１４０におけるデータベクトルを考慮しデータアイテム処理順序１３０における各データベクトル内のデータアイテムを考慮することにより達成され得る。この考慮は、後述するように、（少なくとも）ループ処理の終結に関連がある。

図３は、ベクトル処理配置におけるループされた演算を例示する概略的な流れ図である。ステップ２００では、初期パラメータが、確立される。ここでの単純な例は、ループ制御変数が、例えばスカラー処理回路８０の動作により、０などの初期値に設定されることである。

ステップ２１０では、現在のデータベクトルに関して１つ以上の処理演算が行われる。現在のデータベクトルは、例えば、メモリ内に記憶されたデータ３２の連続したブロックに関して、以下のように定義され得る。
ＶｅｃｔｏｒＡ＝Ｄａｔａ［ＳＡ＋ｉ，…，ＳＡ＋ｉ＋Ｖ_Ｌ−１］
ここで、変数ｉはループ制御変数であり、変数ＳＡはデータの連続したブロックの開始アドレスであり、変数Ｖ_Ｌは使用中の特定の処理システムに適用可能なベクトル長である。言い換えれば、この例では、アドレス（ＳＡ＋ｉ）とアドレス（ＳＡ＋ｉ＋Ｖ_Ｌ−１）との間であって両端を含むデータアイテムの連続した集団が、ベクトルＶｅｃｔｏｒＡのＶ_Ｌ個のデータアイテムを形成する。

これは、ループ制御（あるいはカウンタ）変数が、データのブロックもしくはアレイ内、または、（集められた配置において以下で説明するように）ポインタのブロックもしくはアレイ内のデータベクトルの位置（開始位置など）を定義するという点で、例示的なデータベクトルＶｅｃｔｏｒＡがループ制御（あるいはカウンタ）変数に少なくとも部分的に依存する例を提供する。

別の例では、メモリ内の２つ以上の連続していない位置へのポインタの集合がデータベクトルを埋めるために提供される、いわゆる収集されたデータベクトル（gathered data vector）が使用されてもよい。同様に、データベクトルをメインメモリに書き戻すとき、データアイテムが連続していないメモリ位置に書き戻されるように、いわゆる散乱プロセス（scatter process）が使用されてもよい。このような配置は、その他の点では本明細書に記載されたプロセスが動作する方法に影響を与えず、ゆえに、本明細書では、連続的なデータセット（連続して記憶されるか否かを問わない）を仮定する。しかしながら、メインメモリからの不要な収集またはメインメモリへの不要な散乱の動作を避けるために非アクティブな述語フラグ（後述する）を使用することは、ベクトル処理演算の処理オーバーヘッドを低減し得ることが留意される。

ステップ２１０では、様々な異なる種類のベクトル処理演算（複数可）が、行われ得る。例えば、ベクトル処理演算は、第２のデータベクトルＶｅｃｔｏｒＢのデータアイテムとして記憶される結果を生成するように、ＶｅｃｔｏｒＡのデータアイテムに関して行われてもよい。

ステップ２２０では、ループ演算を前進させるように、カウンタまたはループ制御変数が、インクリメントされる。ここで、用語「インクリメント」は、１だけの増加のみを指すのではなく、別の値だけの増加を指し得る。実際、本例では、ループ制御変数は、例えば処理回路により決定されるように、述語フラグの数により表されるベクトル長Ｖ_Ｌだけインクリメントされる。

ステップ２３０では、システムは、ループ演算を継続すべきかどうか、または言い換えれば、ループ制御変数がそのループに関して定義された終了ポイントに到達したかどうかを検出する。ループ演算が継続されるべきである場合、制御は、ステップ２１０に戻る。ステップ２２０では、他のパラメータも設定され、プロセスのこの部分の例については、後述する。さもなければ、処理は、終了する。

ループ演算を継続すべきかどうかの決定は、条件付きジャンプ、分岐、またはプログラムの流れを変える他の命令（例えば、ステップ２１０に戻る）の形でなされることができ、ここで、条件は、後述するＷＨＩＬＥ命令などの命令の実行に基づく１つ以上のプロセッサ条件フラグ（例えば、Ｎ、Ｚ、Ｃ、およびＶフラグ）以外で、例えば示され得る。それゆえに、ＷＨＩＬＥ命令は、別個の（条件付き分岐またはジャンプ）命令が実際にループを継続させるようにプログラムの流れを変えるか否かを制御するように、１つ以上の条件フラグを設定する効果を有する。（しかしながら、他の例では、ＷＨＩＬＥ命令はまた、ジャンプまたは分岐も遂行できることが想定されている）。

ベクトル処理回路の異なるインスタンスによる（再コンパイルプロセスなしの）実行向けのプログラム命令であって、それらの異なるインスタンスが異なる利用可能なベクトル長Ｖ_Ｌを有し得るプログラム命令の場合、それにより命令が実行されているベクトル処理回路のどんな利用可能な長さＶ_Ｌにも従って動作するループされる演算を制御するための配置を提供することが有用であり得る。（代替案は、想像上のＶ_Ｌをベクトル処理回路の異なるインスタンス間で遭遇され得る最小レベルに固定することであろうが、これは、一部のインスタンスで利用可能なより長いベクトル長を使用しないことにより、非効率的であり得る。）本明細書に記載される例示的な配置では、ループ演算を制御するためにスカラー演算を使用する代わりに、述語フラグ（後述する）が使用される。

図４は、ベクトル処理演算を制御するための述語フラグの使用を概略的に例示する。

単一のベクトル処理演算がデータベクトル内の異なるデータアイテムに対して異なって適用されるべきであるインスタンスが存在し得る。ベクトル処理回路６０は、いわゆる述語フラグの使用によりこれに備えている。述語フラグは、ある処理演算がそのデータアイテム位置に関して行われるべきかどうかを示すために、データベクトル内の各データアイテム位置に提供されるフラグ情報を含む。例では、ベクトル処理回路６０は、任意の特定のベクトル処理演算が、そのベクトル処理演算のパラメータとして述語フラグの１つ以上の集合を参照することができるように、述語フラグの複数の集合にアクセスすることができる。

図４を参照すると、ある例示的な配置が４つのデータアイテム（Ｖ_Ｌ＝４）を含むデータベクトルを使用しているが、これらの配置が異なるベクトル長に適用され得ることは理解されるであろう。例示的な入力データベクトル２５０（ＶｅｃｔｏｒＡ）は、述語フラグによるいかなる制御もない場合は、ベクトル処理演算２６０が各データアイテム位置に適用されるように、ベクトル処理演算２６０の対象になるはずである。しかしながら、述語フラグ２７０の集合も、各データアイテム位置または「レーン」に１つずつ、ベクトル処理演算を制御するために提供されている。

入力ベクトル（ベクトルＡ）のデータアイテム２５２は、出力データベクトル２８０（ベクトルＢ）のデータアイテム２８２を生成するように、ベクトル処理演算２６０に従って処理される。もし、出力データベクトル２８０内のあるデータアイテム位置に対応する述語フラグ２７２が「アクティブ」（例えば、１の値）に設定されている場合。ある出力ベクトル位置の対応する述語フラグが「非アクティブ」（例えば、０の値）に設定されている場合、ベクトル処理演算２６０は、その出力ベクトル位置に関しては行われない。

上述のように、本例では、述語フラグは、出力データベクトル２８０に関して、ある特定の出力位置または「レーン」のためのベクトル処理演算が行われるかどうかを制御する。しかしながら、他の例では、述語フラグは、入力ベクトル（または１つ以上の入力ベクトル）２５０内のデータアイテム位置が使用されるかどうかを制御するために使用され得る。

したがって、これは、アクティブ状態の述語フラグに対応するデータベクトルの位置に対してベクトル処理命令が適用されるべきであることを示すアクティブ状態を有する述語フラグの例を提供する。非アクティブ状態は、ベクトル処理演算がそのように適用されるべきでないことを示す。

あるベクトル処理演算が、非アクティブな述語フラグのために、ある特定の出力ベクトル位置２８２に対して行われない場合、一部の例では、０などの固定値が、その出力位置に挿入され得る。他の例では、その出力位置の従前の内容が、それらがどんなものであっても、変更されないままとされ得る。

したがって、この様式による述語フラグの使用は、そのデータベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理命令を適用することの一例を提供する。

本例は、図３に概略的に示されるもののようなループされる演算の制御での述語フラグの使用を考慮にするものである。図５および６を使用して、この種類の演算の諸側面を説明する。

ループされる演算の特徴は、ループ制御変数が、ループが図３のステップ２３０で終結する特定の上限値に到達するまで、多くのデータアイテムが、ループ制御変数の制御のもと、データアイテム処理順序で取り扱われることである。スカラー処理ループの一例は、以下の概略的な擬似コードにより提供される。
Ｆｏｒｉ＝０ｔｏ９７
ＰｒｏｃｅｓｓＤａｔａ［ｉ］
Ｎｅｘｔｉ

ここで、ループされる演算は、ループ制御変数ｉが０に設定された状態で始まり、ループ制御変数ｉが９７の値に到達するまで継続する。言い換えれば、合計で、９８個のデータアイテムが取り扱われる。

ループ演算は、そうではなくて、データアイテムが一度に１ベクトルずつ取り扱われるように、図３を参照しながら論じたようにベクトル処理を使用して遂行することができる。これは、複数のデータアイテムの群が単一のベクトル処理命令により取り扱われることを可能にすることにより、効率性を提供し得る。

例えば、ベクトル長Ｖ_Ｌが４であり、ゆえに各データベクトルが４つのデータアイテムを含むシステムの場合、ループ演算における最初の９６個のデータアイテムは、わずか２４（＝９６／４）個のベクトル処理演算により取り扱うことができる。しかしながら、もし、４つのデータアイテムの第２５番目のベクトル全体が処理されるとすると、これは、プロセスデータアイテムの数を、必要とされるループ演算を超過する、１００にするであろう。

そうではなくて、最後のベクトル処理演算は、処理順序１１０内の第９９番目および第１００番目のデータアイテムに関してではなく、（処理順序１１０内の）第９７番目および第９８番目のデータアイテムに関してのみ作動すべきである。

例示的な実施形態は、例えばループされる演算においてループ制御変数などの制御変数により少なくとも部分的に定義されたデータベクトルのうちの１つ以上のデータアイテムに対してベクトル処理命令を適用するようにベクトル処理回路６０を制御するためＷＨＩＬＥ命令を提供している。ＷＨＩＬＥ命令は、処理されるデータアイテムの数がループ上限を超えないようにアクティブ状態に設定するための述語フラグのうちの１つ以上を選択するよう、制御変数に応答する。

この配置の使用の一例が、（純粋にこの例のためだけでは）９８個のデータアイテムが処理され、Ｖ_Ｌ＝４である、上述の例示的なループ演算において取り扱われるべき最後の３つのデータベクトルを概略的に例示する図５に示されている。

上述のように、９８個のデータアイテムの例示的なループでは、データアイテムは、一度に１データベクトルずつ取り扱われ、この例のデータベクトル長Ｖ_Ｌが４つのデータアイテムであることを考慮すると、ループカウンタは、０から始まり、Ｖ_Ｌの単位で進む（０、４、８、１２、…）ことになる。この方法で進むループカウンタの最後の３つのインスタンス、すなわちループカウンタが８８、９２、および次いで９６に設定されているものに関する状況を、図５に概略的に示す。これらの状況のそれぞれに適用可能な述語フラグ３００、３１０、３２０が例示されており、ここでは、１の論理値は「アクティブ」を示し、０の論理値は「非アクティブ」を示す。

述語フラグは、ＷＨＩＬＥ命令により、各データベクトルのデータアイテム処理順序１３０に対応する述語フラグの所定の順序に従って設定される。

ｉ＝８８のとき、ＷＨＩＬＥ命令は、４つの全ての述語フラグが１（アクティブ）に設定され得、それらの述語フラグを１に設定する結果として処理されるデータアイテムの総数が依然として９７のループ上限未満であることを検出する。同様に、ｉが９２に進んでいるとき、ＷＨＩＬＥ命令は、４つの全ての述語フラグ３１０が１に設定され得、それでもなお、そのデータベクトルの処理の終了時に、処理されたデータアイテムの数（９６）が依然として９８の総必要数未満であることを検出する。

図５に示す第３のインスタンスでは、ループ制御変数ｉは９６に設定されている。ＷＨＩＬＥ命令は、９７のループ上限に適合するためには、ループのこの最後のベクトル処理演算中には処理されるべきデータアイテムがただ２つしかないことを検出する。したがって、ＷＨＩＬＥ命令は、（処理順序１３０内の）最初の２つの述語フラグを１に、（処理順序１３０内の）残りの２つの述語フラグを０に設定し、ステップ２１０における処理演算を、それらの述語フラグに従って行うことができ、依然としてループ制御変数ｉの上限により定義される総演算数を超えないようにする。

その動作の一部として、ＷＨＩＬＥ命令はまた、ステップ２３０の機能の少なくとも一部を提供し、行われるべき処理演算が依然として存在する、つまり、ステップ２２０でＷＨＩＬＥ命令に渡されるｉの値がループ制御変数上限（この例では９７）未満である限り、図３のステップ２１０への制御の戻しを制御するように１つ以上の条件フラグを設定する。

したがって、これは、実行されると、アクティブ状態に設定するように選択された述語フラグの数を考慮に入れて、制御変数の値が算術条件に反しないようにアクティブ状態に設定するための１つ以上の述語フラグを選択するＷＨＩＬＥ命令の一例を提供する。ここで、「考慮に入れる」とは、インクリメントするカウンタの場合は現在のカウンタ値に加算すること、デクリメントするカウンタの場合は現在のカウンタ値から減算することを、意味し得る。アクティブ状態に設定するための１つ以上の述語フラグは、述語フラグの所定の順序、例えば順序１３０に従って選択され得る。

図６は、カウンタ変数に従ったＷＨＩＬＥ命令による述語フラグの設定を表す概略流れ図である。

図６では、ステップ３３０において、ＷＨＩＬＥ命令は、現在のカウンタ（ループ制御変数）値ならびに限界値（本例では、それぞれｉおよび９７）を検出する。ステップ３４０では、ＷＨＩＬＥ命令は、ループ制御変数の値に（この例では）アクティブ状態に設定するために選択された述語フラグの数を加えたものがループ制御変数の上限に反しないように、述語フラグを埋める。

もちろん、他の例では、ループ制御変数は、カウントアップではなくカウントダウンしてもよく、その場合、限界値は、上限値ではなく下限値になるであろうことが理解されるであろう。同様に、ステップ３４０でＷＨＩＬＥ命令により適用される算術テストは、制御変数が下限値より大きいかどうかについてのテストになるであろう。また、例えばループされる演算が限界値の１インスタンス手前で終結するように、「以下」または「以上」のテストが適用されてもよいことが理解されるであろう。一般に、ＷＨＩＬＥ命令により適用される算術条件は、
・制御変数が、上限値未満である、
・制御変数が、下限値より大きい、
・制御変数が、上限値以下である、および
・制御変数が、下限値以上である、
からなるリストから選択される条件であることができる。

図７は、いわゆる「展開された」ループを概略的に例示する。

展開がない場合、ループされる演算の各繰り返しは、単一のデータベクトルだけの分量の処理を行う。次いで、ループは次のループ位置に進み、次のデータベクトルだけの分量の処理が行われ、同様に続く。

ループを「展開すること」は、複数の連続するデータベクトルを単一のループ繰り返し内で処理することを伴う。ループ展開は、ループの各繰り返しを開始および終結させる際に伴う処理オーバーヘッドが、その場合、複数のデータベクトルの処理間で共有されるという点で、例えば、効率性を改善するために行われる。

図７では、データ処理順序４１０を有する処理されるべきデータ４００が、それぞれがベクトル長Ｖ_Ｌを有する複数のデータベクトル内に、ループ処理の目的で配置されている。図示する例ではＶ_Ｌは４に等しいが、もちろん、使用中のベクトル処理回路６０のパラメータに従って異なる値が使用されてもよい。

動作は、各ループ繰り返しにおいて複数のデータベクトルが処理されることを除いて、図３を参照しながら説明したものと類似している。それゆえに、ステップ４２０では、初期パラメータが、図３のステップ２００に類似した様式で設定される。例えば、ループ制御変数またはカウンタは、０に初期化される。次いで、ステップ４３０、４４０、４５０、および４６０で、複数の連続するデータベクトルが、同じ処理を受ける。ステップ４３０は、ループ制御変数ｉにより定義されるデータ４００内の開始位置を有するデータベクトルを処理することを伴う。ステップ４４０は、同じ処理を、ただしｉ＋Ｖ_Ｌにより定義されるデータ４００内の開始位置を有するデータベクトルに適用し、同様に続く。ループの各繰り返しで処理されるデータベクトルの数は、２以上の任意の数であってよく、この例における４つのデータベクトルの使用は、単にこの説明の目的のためであることが理解されるであろう。ステップ４７０では、ループ制御変数ｉは、ｎが展開されたループの各繰り返しで処理されるデータベクトルの数であるとして、ｎ×Ｖ_Ｌだけ進められる。ステップ４８０では、ＷＨＩＬＥ命令は、パラメータ（図５および６に関連して論じた述語フラグ）を設定し、ループを継続するか、またはループを継続しないように１つ以上の条件フラグを設定すべきかどうかを検出する。ループが継続される場合、制御は、再びステップ４３０に渡り（例えば、ＷＨＩＬＥ命令が条件フラグなどのフラグを設定し、条件ジャンプまたは分岐命令がその条件に応答することにより）、そうでない場合、プロセスは、終了手順に従う。

図３および７の流れ図は、図５および６の説明と関連して読まれると、データベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの、制御変数により少なくとも部分的に定義された１つ以上のデータアイテムに対して、算術条件が制御変数に適用される間、その位置に関連付けられたそれぞれの述語フラグの状態に従ってベクトル処理命令を適用するようにベクトルプロセッサを制御するための（ステップ２３０、４８０で論じたような）ＷＨＩＬＥ命令と、述語フラグの数に依存する量だけ制御変数の値を（例えば、ステップ２２０またはステップ４７０において）変化させるためのＣＨＡＮＧＥ命令であって、ＣＨＡＮＧＥ命令の実行が制御変数の値をわずか飽和値まで変化させるように、関連付けられた飽和値を有する、ＣＨＡＮＧＥ命令と、を（例えば、デコーダ回路５０により）デコードすること、ならびに命令デコーダによりデコードされた命令を（例えば、ベクトル処理回路６０および／またはスカラー処理回路８０により）実行することの一例を提供する。

ステップ２３０、４８０は、実行されると、例えば上述の１つ以上の条件フラグを設定することにより、算術条件を制御変数に適用しながらプロセッサに処理ループを実行することを繰り返し継続させるＷＨＩＬＥ命令の一例を提供する。

図８および９は、カウンタ変数により表現され得る値を概略的に例示する。図８の場合、カウンタ変数は、−ＶＡＬの下限と＋ＶＡＬの上限との間の値が表現可能であるような、符号付き変数である。図９の場合、カウンタ変数は、０と＋ＶＡＬの上限との間の値が表現可能であるような、符号なしである。図８の場合、上限および下限は、下限は−ＶＡＬ_１であり、上限は＋ＶＡＬ_２であって、｜ＶＡＬ_１｜と｜ＶＡＬ_２｜とが異なる（ただし、｜ｘ｜は、ｘの絶対値または大きさを表す）ように、異なる大きさを有し得ることに留意されたい。例えば、８ビットの符号付き２の補数表現では、−ＶＡＬ_１は−１２７であり得、＋ＶＡＬ_２は＋１２８であり得る。同様に、図９における＋ＶＡＬの上限は、図８における＋ＶＡＬの上限と必ずしも同じではない。しかし、いずれの場合にも、例示されている原理は、カウンタ変数の特性が、それが表現することができる値の下限および上限により示され得るということである。

図１０および１１は、それぞれインクリメント、およびデクリメントの命令の動作を例示する概略流れ図である。

図１０を参照すると、ステップ５００で、インクリメント命令は、ループ制御変数などの変数を、係数ＭＵＬにより乗算されるパターン（さらに下で説明する）に依存する量だけ増大させるが、値ＭＵＬは、展開されたループのステップ４７０などのステップにおけるこのような命令の使用の例では、ループの１つの繰り返しにおいて処理される、連続するデータベクトルの数に設定され得る。

ステップ５１０で、インクリメント命令は、変数により表現可能な最高値で飽和する。飽和ステップは、以下に関する。ステップ５００の結果が依然としてその変数により表現可能な最高値（＋ＶＡＬなど）未満である場合、ステップ５００の出力が、インクリメント命令の結果として返される。一方、ステップ５００の出力が、その変数により表現可能な最高値を超過し、（例えば）変数がラップアラウンドする（その変数に利用可能なビット数を超過する）か、または他方の表現可能な極値から再スタートすることになる場合、ステップ５１０は、命令の実行により返される出力として表現可能な最高値（＋ＶＡＬなど）に到達しないが、超過しないように、増加を飽和させ、または上限を定める。

飽和（ステップ４７０におけるようにＭＵＬ係数の使用を伴うか、またはステップ２２０におけるように伴わないか、どちらでも）は、ＷＨＩＬＥまたは類似の演算または命令がステップ２３０または４８０で使用され、ループ制御変数またはカウンタが算術条件に適合する場合にループの継続実行を起こさせる状況では、妥当であり得る。上限を有する上向きカウント型カウンタの一例では、算術条件は、例えば、カウンタ値が特定の限界値未満（または以下）であるかどうか、であってもよい。しかしながら、飽和の機能が使用されていなかった場合は、カウンタが、カウンタ変数により表現可能な最大値を超えて「ラップラウンド」するか、またはカウンタ変数により表現可能な最低（のもしくは別の）値で再スタートするであろうという潜在的なリスクがある。カウンタはＶ_Ｌの単位で進むので、ＷＨＩＬＥ算術テストは、あるループ繰り返しでは（正しく）パスし、次いで、次のこのようなテストに関しては、カウンタがラップラウンドしてしまって、テストが次の繰り返しでは（誤って）パスすることになってしまう。

わかっている例として、カウンタ変数が単純な８ビット符号なしの値として維持される場合、飽和機能がなければ、カウンタは、０からカウントアップし続け得る前に、２５５の最大カウントに到達し得る。ＭＵＬ×Ｖ_Ｌが８であり、ゆえにカウンタが８の単位で進み、ループの終了がｉ＝２５３により定義されると仮定しよう。そのとき、カウンタは、ｉ＝２４８ではテストにパスするであろうが、次の繰り返しでは、ｉはラップラウンドして０に戻り、ゆえに（誤って）「未満」テストに再びパスするであろうから、テストはフェイルすべきであった一方で、（例えば）ラップラウンドされた値（０または０に近い）の値はテストにパスするであろうため、ステップ２３０または４８０で「未満」テストを使用することは、うまくいかないであろう。飽和機能は、カウンタを、その最後の繰り返しにおいて２５５で飽和させ、ゆえに、カウンタｉは「２５３未満」テストに（正しく）フェイルするであろう。

飽和値は、カウンタ変数が記憶または維持されている方法の特性であることに留意されたい。それは、ループされる演算のインスタンスによりカウンタ変数に対して課される特定の限界と同じものではない。

これより「パターン」パラメータについて論じる。これは、ベクトル長に従って自動的に拡大縮小する配置を提供し、それにより、同じプログラム命令が、間の再コンパイルを必ずしも必要とすることなしに、異なる利用可能なベクトル長を有するベクトル処理回路のインスタンスにより実行されることを可能にすることに寄与する、利用可能な述語フラグの数に依存する変化量を提供する。

「変化」命令は、ステップ２２０または４７０などの状況で使用されるとき、少なくとも乗算係数ＭＵＬ（これは、１であってもよく、または１より大きく、例えば３ビットのパラメータにより表現可能な値、例えば１、…、８であってもよい）に依存する量だけ変数を変化（インクリメントまたはデクリメント）させる。変化（インクリメントまたはデクリメント）の量はまた、Ｖ_Ｌ（例えば、ベクトル処理回路により検出される）の表現としての述語フラグの数に依存する。例えば、各述語フラグが１つのデータアイテムに対応する場合、適切な変化は、ＭＵＬ×Ｖ_Ｌずつであり得る。しかし、他の例では、個別のデータアイテムは、第１の例の２倍の大きさ（例えば、バイトではなくハーフワード）であってもよく、ゆえに、全ての１つおきの述語フラグのみが、有効に使用されているかもしれない。このような場合、Ｖ_Ｌの実効値は、述語フラグの数の半分であり得、その場合、変化量は、（ＭＵＬ×ｎｕｍｂｅｒ＿ｏｆ＿ｐｒｅｄｉｃａｔｅ＿ｆｌａｇｓ／２）であるべきである。

ＣＨＡＮＧＥ命令は、パターンに従って述語フラグの数を検出し、（ＭＵＬにより乗算した後）その数だけ変数をインクリメントまたはデクリメントする。パターンは、例えば、「全ての述語フラグ」をデフォルトとして、１つおきの述語フラグもしくは４つおきの述語フラグのパターン、または様々な他のパターンであってもよい。この配置は、変化量が、命令が実行されているシステムに利用可能な述語フラグの数に依存するように、自己調整するインクリメントまたはデクリメント命令を提供する。一方で、これは、インクリメントまたはデクリメント命令が、現在利用可能なベクトル長に調整されることになるため、異なる利用可能なベクトル長を有する異なるシステム上で同じ命令が使用され得ることを意味する。

それゆえに、これは、実行されると、述語フラグの数のうちの選択された下位集合に依存する量だけ変数の値を変化させる、ＣＨＡＮＧＥ命令の一例と、修正する値を提供する。述べたように、下位集合は、実際は「全て」であり得ることに留意されたい。選択される下位集合は命令のパラメータに依存し、使用する下位集合の検出は、命令の他の側面を実行する同じ処理回路、配置、または資源による命令の実行の一部である。

図１１は、ステップ５２０で、ループ制御変数などの変数が、パターン量および係数ＭＵＬの積（または他の組み合わせ）だけ減算され、ステップ５３０で、結果が、その変数により表現可能な最小値に飽和される、あるいは言い換えれば、その変数により表現可能な最小量よりも低くならないように制約されるような、デクリメント命令の類似の動作を例示する概略的な流れ図である。

カウンタＩは、スカラー変数であってもよく、ゆえにスカラー処理回路８０により取り扱われ（更新され、テストされ）てもよく、またはデータベクトルもしくはデータベクトルの一部として取り扱われてもよく、ゆえにベクトル処理回路６０により取り扱われてもよいことに留意されたい。

したがって、図１０および１１は、命令パラメータとして修正値（ＭＵＬなど）を有する「変化」命令を実行する例を提供し、ＣＨＡＮＧＥ命令は、述語フラグの数に依存し、かつ修正値に依存する量だけ変数の値を変化させる。例えば、連続する変化、または差の大きさは、修正値に比例してもよい。

図１の装置は、図１０または１１の流れ図に示されるものに対応する演算を実行するとき、データベクトル内のそれぞれの位置に複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、その位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理命令を適用するためのベクトル処理回路（レジスタ７０と協力して動作する回路６０など）と、命令パラメータとして修正値（ＭＵＬなど）を有するＣＨＡＮＧＥ命令（例えば、図１０または１１の流れ図により表される）であって、実行されたとき、述語フラグの数に依存しかつ修正値に依存する量だけ変数（ループ制御変数など）の値を変化させるＣＨＡＮＧＥ命令をデコードするための命令デコーダ（デコーダ回路５０など）と、命令デコーダによりデコードされた命令を実行するための命令プロセッサ（スカラー処理回路８０またはベクトル処理回路６０など）と、を備えたデータ処理装置（装置１０など）の一例を提供する。例えば、ＣＨＡＮＧＥ命令は、実行されたとき、述語フラグの数に依存する値と修正値との積に依存する量だけ変数の値を変化させ得る。

ステップ５１０、５３０を参照しながら論じたように、ＣＨＡＮＧＥ命令は関連付けられた飽和値を有してもよく、そのため、ＣＨＡＮＧＥ命令は、実行されたとき、変数の値をわずか飽和値まで変化させる。図８および９を参照しながら論じたように、変数の値を低減させるデクリメント命令の場合、飽和値は、変数により表現され得る最小値であってもよい。変数の値を増大させるインクリメント命令の場合、飽和値は、変数により表現され得る最大値であってもよい。

このような命令が、変数がカウンタ変数であり、ベクトル処理回路が処理ループの１つ以上の繰り返しの間、カウンタ変数によって少なくとも部分的に定義されたデータベクトルにベクトル処理命令を適用する、図７のループされる演算の、例えば、ステップ４７０の文脈で使用されるとき、命令デコーダは、カウンタ変数に依存して処理ループを実行することを繰り返し継続すべきかどうかを検出するために、命令（例えば、ステップ４８０に対応する）をデコードするように構成されていてもよい。このような命令は、例えば、算術条件がカウンタ変数に当てはまる間、処理ループを実行することを繰り返し継続するように処理回路を制御するように条件フラグを設定するためのＷＨＩＬＥ命令であってもよい。算術条件の例としては、カウンタ変数が上限値未満であること、カウンタ変数が下限値より大きいこと、カウンタ変数が上限値以下であること、および、カウンタ変数が下限値以上であることが挙げられる。

図１９は、上述の機能のうちの一部または全てがそれにより提供される仮想マシンを概略的に例示する。仮想マシンは、データ処理回路８００の一例としての中央演算処理装置（ＣＰＵ）、不揮発性メモリ８１０、制御インターフェース８２０、および入出力（ＩＯ）インターフェース８３０を備え、全てが、バス配置８４０により相互接続されている。ランダムアクセスメモリ（ＲＡＭ）８５０は、ＣＰＵ８００の動作を制御するためのソフトウェア８６０を提供するプログラム命令を記憶する。ソフトウェア８６０の制御の下、ＣＰＵ８００は、上述の処理命令の１つ以上の機能を提供またはエミュレートする。ＲＡＭ８５０はまた、プログラム命令８７０およびデータ８８０を記憶し、ここで、プログラム命令８７０は、図１のプロセッサ２０に適用可能であり、仮想マシンとして機能するＣＰＵ８００により解釈、エミュレート、またはさもなければ実行される命令である。データ８８０は、プログラム命令８７０の（仮想）実行による作用を受けるべき、図１のデータ３２に対応するデータである。したがって、図１９の配置は、機械可読命令（例えば、ソフトウェア８６０）を含むコンピュータプログラムを実行するためのデータプロセッサ（ＣＰＵ８００など）を備えた仮想マシンであって、コンピュータプログラムの実行が、データプロセッサに、上述の種類のデータ処理装置として動作させる、仮想マシンの一例を提供する。例示的な実施形態はまた、コンピュータにより実行されると、コンピュータに上述の技法の１つ以上を行わせるコンピュータソフトウェアにより、およびそのようなコンピュータソフトウェアを記憶する非一時的な機械可読記憶媒体により、表される。

本出願では、語句「〜するように構成されている」は、装置のある要素が、定義された動作を行うことができる構成を有することを意味するために使用される。この文脈では、「構成」は、ハードウェアまたはソフトウェアの配置または相互接続の様式を意味する。例えば、装置は、定義された動作を提供する専用のハードウェアを有してもよく、またはプロセッサもしくは他の処理デバイスが、その機能を遂行するようにプログラムされていてもよい。「するように構成されている」は、定義された動作を提供するために、装置の要素が何らかの方法で変更される必要があることを含意しない。

本明細書において本技法の例示的な実施形態を添付図面を参照しながら詳細に説明してきたものの、本技法はそれらのまさにその実施形態に限定されるものではないこと、ならびに様々な変更、追加、および修正が、添付の請求項により定義される本技法の範囲および趣旨から逸脱することなしに、当業者によってそれらにおいて成し遂げられ得ることが、理解されるべきである。例えば、従属請求項の特徴は、本技法の範囲から逸脱することなしに、独立請求項の特徴と様々に組み合わせることができる。

Claims

命令をデコードするための命令デコーダ回路と、
前記命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を備えるデータ処理装置であって、
前記命令デコーダ回路が、制御変数により少なくとも部分的に定義され、そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理命令を適用するように前記命令処理回路を制御するよう、ＷＨＩＬＥ命令に応答し、
前記命令デコーダ回路が、前記制御変数の値をわずか飽和値まで変化させるように、関連付けられた前記飽和値に従って前記述語フラグの数に依存する量だけ前記制御変数の値を変化させるように前記命令処理回路を制御するよう、ＣＨＡＮＧＥ命令に応答する、データ処理装置。
前記算術条件が、
ｉ．前記制御変数が、上限値未満である、
ｉｉ．前記制御変数が、下限値より大きい、
ｉｉｉ．前記制御変数が、上限値以下である、および
ｉｖ．前記制御変数が、下限値以上である、
からなるリストから選択される条件である、請求項１に記載の装置。
前記述語フラグが、その状態の述語フラグに対応するデータベクトルの位置に対して前記ベクトル処理命令が適用されるべきであることを示すアクティブ状態を有する、請求項１または請求項２に記載の装置。
前記命令デコーダ回路が、前記アクティブ状態に設定するために選択された述語フラグの前記数を考慮に入れて、前記制御変数の値が前記算術条件に違反しないように、前記アクティブ状態に設定するために前記述語フラグの１つ以上を選択するように前記命令処理回路を制御するよう、前記ＷＨＩＬＥ命令に応答する、請求項３に記載の装置。
前記命令デコーダ回路が、前記述語フラグの所定の順序に従って前記アクティブ状態に設定するために前記述語フラグの１つ以上を選択するように前記命令処理回路を制御するよう、前記ＷＨＩＬＥ命令に応答する、請求項４に記載の装置。
前記命令デコーダ回路が、算術条件が前記制御変数に当てはまる間、処理ループを実行することを繰り返し継続するように前記命令処理回路を制御するよう、前記ＷＨＩＬＥ命令に応答する、請求項１〜５のいずれか一項に記載の装置。
前記命令デコーダ回路が、前記述語フラグの数に依存し、かつ前記ＣＨＡＮＧＥ命令のパラメータを形成する修正値に依存する量だけ前記制御変数の前記値を変化させるように前記命令処理回路を制御するよう、前記ＣＨＡＮＧＥ命令に応答する、請求項１〜６のいずれか一項に記載の装置。
前記ＣＨＡＮＧＥ命令が、前記制御変数の前記値を低減させるためのデクリメント命令であり、
前記飽和値が、前記制御変数により表現され得る最小値である、請求項１〜７のいずれか一項に記載の装置。
前記ＣＨＡＮＧＥ命令が、前記制御変数の前記値を増大させるためのインクリメント命令であり、
前記飽和値が、前記制御変数により表現され得る最大値である、請求項１〜７のいずれか一項に記載の装置。
命令をデコードするための手段と、
前記デコードするための手段によりデコードされた命令を実行するための手段と、
を備えるデータ処理装置であって、
前記デコードするための手段が、制御変数により少なくとも部分的に定義され、そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理命令を適用するように前記実行するための手段を制御するよう、ＷＨＩＬＥ命令に応答し、
前記デコードするための手段が、特定の状態に現在設定されている前記述語フラグの数に依存する量だけ前記制御変数の値を変化させるように前記実行するための手段を制御するよう、ＣＨＡＮＧＥ命令に応答し、前記ＣＨＡＮＧＥ命令が、前記ＣＨＡＮＧＥ命令の実行が前記制御変数の前記値をわずか飽和値まで変化させるように動作可能なように、関連付けられた前記飽和値を有する、データ処理装置。
命令をデコードするステップと、
前記デコードするステップによりデコードされた命令を実行するステップと、
を備えるデータ処理方法であって、
前記デコードするステップが、制御変数により少なくとも部分的に定義され、そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理命令を適用するように前記実行ステップを制御するよう、ＷＨＩＬＥ命令に応答し、
前記デコードするステップが、特定の状態に現在設定されている前記述語フラグの数に依存する量だけ前記制御変数の値を変化させるように前記実行するステップを制御するよう、ＣＨＡＮＧＥ命令に応答し、前記ＣＨＡＮＧＥ命令が、前記ＣＨＡＮＧＥ命令の実行が前記制御変数の前記値をわずか飽和値まで変化させるように、関連付けられた前記飽和値を有する、データ処理方法。
コンピュータにより実行されるとき、前記コンピュータに請求項１１に記載の方法を行わせるコンピュータソフトウェア。
請求項１２に記載のコンピュータソフトウェアを記憶する非一時的な機械可読記憶媒体。
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、前記コンピュータプログラムの実行が、前記データプロセッサに、
命令をデコードするための命令デコーダと、
前記命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を備えるデータ処理装置であって、
前記命令デコーダが、制御変数により少なくとも部分的に定義され、複数のデータアイテムを含むデータベクトルの１つ以上のデータアイテムに対して、前記複数のデータアイテムに関連付けられたそれぞれの述語フラグの状態に従って、算術条件が前記制御変数に当てはまる間、ベクトル処理演算を適用するように前記命令プロセッサを制御するよう、ＷＨＩＬＥ命令に応答し、
前記命令デコーダが、特定の状態に現在設定されている前記述語フラグの数に依存する量だけ前記制御変数の値を変化させるように前記命令プロセッサを制御するよう、ＣＨＡＮＧＥ命令に応答し、前記ＣＨＡＮＧＥ命令が、前記ＣＨＡＮＧＥ命令の実行が、実行されるとき、前記制御変数の前記値をわずか飽和値まで変化させるように、関連付けられた前記飽和値を有する、データ処理装置として動作させる、仮想マシン。
そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための処理回路であって、
プログラム命令をデコードするための命令デコーダ回路と、
前記命令デコーダ回路によりデコードされた命令を実行するための命令処理回路と、
を含む処理回路
を備えるデータ処理装置であって、
前記命令デコーダ回路が、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、前記述語フラグの数および前記修正値に依存する量だけ変数の値を変化させるように前記命令処理回路を制御するようにする、データ処理装置。
前記命令デコーダ回路が、前記述語フラグの前記数に依存する値と前記修正値との積に依存する量だけ前記変数の前記値を変化させるように前記命令処理回路を制御するよう、前記ＣＨＡＮＧＥ命令に応答する、請求項１５に記載の装置。
前記ＣＨＡＮＧＥ命令が、前記命令デコーダ回路が、前記変数の前記値をわずか飽和値まで変化させるように前記命令処理回路を制御するように、前記ＣＨＡＮＧＥ命令に応答する、関連付けられた前記飽和値を有する、請求項１５または請求項１６に記載の装置。
前記ＣＨＡＮＧＥ命令が、前記変数の前記値を低減させるためのデクリメント命令であり、
前記飽和値が、前記変数により表現され得る最小値である、請求項１７に記載の装置。
前記ＣＨＡＮＧＥ命令が、前記変数の前記値を増大させるためのインクリメント命令であり、
前記飽和値が、前記変数により表現され得る最大値である、請求項１７に記載の装置。
前記変数が、カウンタ変数であり、前記処理回路が、処理ループの１回以上の繰り返しの間、前記カウンタ変数により少なくとも部分的に定義されたデータベクトルに対して前記ベクトル処理演算を適用し、
前記命令デコーダ回路が、前記処理ループを実行することを繰り返し継続すべきどうかを前記カウンタ変数に依存して検出するように前記命令処理回路を制御するよう、さらなる命令に応答する、請求項１５〜１９のいずれか一項に記載の装置。
前記処理ループを実行することを継続すべきかどうかを検出するための前記さらなる命令がＷＨＩＬＥ命令を含み、前記命令デコーダ回路が、算術条件が前記カウンタ変数に当てはまる間、前記処理ループを実行することを繰り返し継続するように前記命令処理回路を制御するよう、前記ＷＨＩＬＥ命令に応答する、請求項２０に記載の装置。
前記算術条件が、
ｉ．前記カウンタ変数が、上限値未満である、
ｉｉ．前記カウンタ変数が、下限値より大きい、
ｉｉｉ．前記カウンタ変数が、上限値以下である、および
ｉｖ．前記カウンタ変数が、下限値以上である、
からなるリストから選択される条件である、請求項２１に記載の装置。
前記命令デコーダ回路が、前記述語フラグの前記数のうちの選択された下位集合および前記修正値に依存する量だけ前記変数の前記値を変化させるように前記命令処理回路を制御するよう、前記ＣＨＡＮＧＥ命令に応答する、請求項２１または請求項２２に記載の装置。
前記命令デコーダ回路が、アクティブ状態に設定するために選択された述語フラグの前記数を考慮に入れて、ループ変数の値が前記算術条件に違反しないように、前記アクティブ状態に設定するために前記述語フラグの１つ以上を選択するように前記命令処理回路を制御するよう、前記ＷＨＩＬＥ命令に応答する、請求項２３に記載の装置。
前記命令デコーダ回路が、前記アクティブ状態に設定するために選択された述語フラグの前記数を考慮に入れて、前記ループ変数の値が前記算術条件に違反しないように、前記述語フラグの所定の順序に従って前記アクティブ状態に設定するために前記述語フラグの１つ以上を選択するように前記命令処理回路を制御するよう、前記ＷＨＩＬＥ命令に応答する、請求項２４に記載の装置。
そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するための手段であって、
命令をデコードするための手段と、
前記デコードするための手段によりデコードされた命令を実行するための手段と、
を含む適用する手段
を備えるデータ処理装置であって、
前記命令をデコードするための手段が、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、前記述語フラグの数に依存し、かつ前記修正値に依存する量だけ変数の値を変化させるように前記命令を実行するための手段を制御するようにする、データ処理装置。
そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するステップと、
命令をデコードするステップと、
命令を実行するステップと、
を備えるデータ処理方法であって、
前記デコードするステップが、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、前記述語フラグの数に依存し、かつ前記修正値に依存する量だけ変数の値を変化させるように前記実行するステップを制御するようにする、データ処理方法。
コンピュータにより実行されるとき、前記コンピュータに請求項２７に記載の方法を行わせるコンピュータソフトウェア。
請求項２８に記載のコンピュータソフトウェアを記憶する非一時的な機械可読記憶媒体。
機械可読命令を含むコンピュータプログラムを実行するためのデータプロセッサを備えた仮想マシンであって、前記コンピュータプログラムの実行が、前記データプロセッサに、
そのデータベクトル内の複数の位置の各々に複数のデータアイテムの各々を含むデータベクトルの１つ以上のデータアイテムに対して、前記位置に関連付けられたそれぞれの述語フラグの状態に従って、ベクトル処理演算を選択的に適用するためのプロセッサであって、
命令をデコードするための命令デコーダと、
前記命令デコーダによりデコードされた命令を実行するための命令プロセッサと、
を含むプロセッサ
を備えるデータ処理装置であって、
前記命令デコーダが、命令パラメータとして修正値を有するＣＨＡＮＧＥ命令に応答して、前記述語フラグの数に依存し、かつ前記修正値に依存する量だけ変数の値を変化させるように前記命令プロセッサを制御するようにする、データ処理装置として動作させる、仮想マシン。