JP2019519864A

JP2019519864A - ベクトルレジスタのアクセス

Info

Publication number: JP2019519864A
Application number: JP2018568728A
Authority: JP
Inventors: クリストファーグロカット、トーマス
Original assignee: エイアールエムリミテッド
Priority date: 2016-07-08
Filing date: 2017-06-15
Publication date: 2019-07-11
Anticipated expiration: 2037-06-15
Also published as: JP7213095B2; GB201611946D0; WO2018007784A1; GB2552154B; JP2022062067A; US20190250914A1; US10963251B2; KR102379885B1; CN109416634B; KR20190026830A; EP3482289A1; GB2552154A; CN109416634A

Abstract

各ベクトルレジスタが複数の部分を含むベクトルを記憶するように構成されたベクトルレジスタのセットを含む装置が提供される。ベクトルレジスタのセットは、複数の列に論理的に分割され、各列は、各ベクトルの同じ部分を記憶するように配置されている。装置はまた、複数のアクセスブロックを備えるレジスタアクセス回路を含む。各アクセスブロックは、ベクトルレジスタのうちの１つにアクセスするとき、ベクトルレジスタのうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスするように構成される。レジスタアクセス回路は、ベクトルレジスタおよび列のうちのいずれか１つの部分に同時にアクセスするように構成される。

Description

本技術は、データ処理に関する。特に、ベクトルレジスタへのアクセスに関する。

ベクトルレジスタファイルは、それぞれがいくつかの部分を含む１つ以上のベクトルを記憶することができるいくつかのベクトルレジスタを含む。例えば、ベクトルは、赤値、緑値、青値、およびアルファ値を提供することによって画素色を表すことができ、それぞれの値は８ビットである。このようにして、例えば、画像内の各画素の色を表すために、多数の異なる画素色を提供することができる。一度に１つのベクトルレジスタに対して処理を実行することが以前に提案されている。しかしながら、異なるアクセスパターンを提供することが大抵の場合に望ましい。例えば、いくつかの命令は、一度に単一のベクトルの全ての成分（例えば、単一の画素の表現）へのアクセスを望むことがあるが、他の命令は、一度に複数の（例えば４）ベクトルの単一成分（例えば、アルファ値）へのアクセスを望むことがある。

第１の例示的な構成から見ると、それぞれが複数の部分を含むベクトルを記憶するように構成されたベクトルレジスタのセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割された前記ベクトルレジスタのセットと、各アクセスブロックが前記ベクトルレジスタのうちの１つにアクセスするときに前記ベクトルレジスタのうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスするように構成された複数のアクセスブロックを含むレジスタアクセス回路とを備え、前記レジスタアクセス回路が、前記ベクトルレジスタおよび前記列のうちのいずれか１つの部分に同時にアクセスするように構成される、装置が提供される。

第２の例示的な構成から見ると、それぞれが複数の部分を含むベクトルを記憶するように構成されたベクトルレジスタのセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割された前記ベクトルレジスタのセットを提供することと、複数のアクセスブロックを含むレジスタアクセス回路を提供することとを備え、各アクセスブロックが前記ベクトルレジスタのうちの１つにアクセスするときに前記ベクトルレジスタのうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスするように構成され、前記レジスタアクセス回路が、前記ベクトルレジスタおよび前記列のうちのいずれか１つの部分に同時にアクセスするように構成される、装置を製造する方法が提供される。

第３の例示的な構成から見ると、それぞれが複数の部分を含むベクトルを記憶するベクトルレジスタ手段のセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割された前記ベクトルレジスタ手段のセットと、前記ベクトルレジスタ手段および前記列のうちのいずれか１つの部分に同時にアクセスするレジスタアクセス手段であって、前記ベクトルレジスタ手段のうちの１つにアクセスするときに前記ベクトルレジスタ手段のうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスする複数のアクセスブロック手段を含む前記レジスタアクセス手段とを備える、装置が提供される。

本技術は、添付図面に示されている実施形態を参照して、単なる例として、さらに説明される。

図１は、ベクトル命令の処理をサポートするデータ処理装置の例を概略的に示している。図２は、ベクトル命令の重複実行の例を示している。図３は、異なるプロセッサ実装間で、または命令の実行の異なるインスタンス間での実行時に、連続するベクトル命令間の重複量をスケーリングする３つの例を示している。図４は、スカラー命令の実行が２つのベクトル命令間の重複を解消する例を示している。図５は、ベクトルレジスタのセットが論理的に複数のセクションに配置されることができる方法を概略的に示す図である。図６は、一実施形態において、メモリからベクトルレジスタにロードされたデータに対してデインターリーブ動作をまとめて実行するためにロード命令の群が配置されることができる方法を概略的に示す図である。図７Ａは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図７Ｂは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図７Ｃは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図７Ｄは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図７Ｅは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図７Ｆは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図７Ｇは、異なるサイズのデータ要素に対する並べ替え命令の群内の個々の命令に関連付けることができる異なるデータ要素アクセスパターンを示している。図８は、一実施形態にかかる、ストライドが４のベクトルロード命令（ＶＬＤ４ｎ命令）の１つを実行するときにメモリ内でアクセスされるアドレスを識別するためにパターンＩＤおよびビートＩＤ情報が使用されてアドレスワードオフセットを生成する方法を示す図である。図９は、一実施形態にかかる、ＶＬＤ４ｎ命令の実行中にアクセスするためにベクトルレジスタの適切な部分を判定するために使用することができる回路を示している。図１０は、一実施形態にかかる、ベクトルロード命令および積和演算命令が重複されることができる方法を示すタイミング図である。図１１Ａは、一実施形態にしたがって提供されることができるロードおよびストア命令の様々な例示的な符号化を示している。図１１Ｂは、一実施形態にしたがって提供されることができるロードおよびストア命令の様々な例示的な符号化を示している。図１１Ｃは、一実施形態にしたがって提供されることができるロードおよびストア命令の様々な例示的な符号化を示している。図１１Ｄは、一実施形態にしたがって提供されることができるロードおよびストア命令の様々な例示的な符号化を示している。図１２は、一実施形態にかかる、並べ替え命令の群を処理するときの図１の命令復号器の動作を示すフロー図である。図１３は、一実施形態にしたがって実行することができるデータ拡大動作を示している。図１４Ａは、一実施形態にかかる、述語情報が並べ替え命令の群の実行中に実行される動作に影響を及ぼすために使用されることができる方法を示している。図１４Ｂは、一実施形態にかかる、述語情報が並べ替え命令の群の実行中に実行される動作に影響を及ぼすために使用されることができる方法を示している。図１５は、一実施形態にかかる書き込みアクセス回路を有するベクトルレジスタファイルの一部を概略的に示している。図１６は、一実施形態にかかる読み取りアクセス回路を有するベクトルレジスタファイルの一部を概略的に示している。図１７は、一実施形態にかかる書き込みアクセス回路を有するベクトルレジスタファイルを概略的に示している。図１８は、一実施形態にかかる読み取りアクセス回路を有するベクトルレジスタファイルを概略的に示している。図１９Ａは、ベクトルレジスタファイルがワードを示すテキスト形式で示されている、ベクトルレジスタファイル内の単一ねじれの例を示している。図１９Ｂは、ベクトルレジスタファイルがバイトを示すテキスト形式で示されている、ベクトルレジスタファイル内の単一ねじれの例を示している。図２０は、ベクトルレジスタファイルがバイト形式で示されている、ベクトルレジスタファイル内の二重ねじれの例を示している。図２１は、一実施形態にかかる、回路が二重ねじれを実行するベクトルレジスタファイルの１つのセクションを概略的に示している。図２２は、一実施形態にかかる、ねじれを実行するプロセスが一般化されて入れ子にされたねじれを任意の回数実行することができる方法を示す図である。図２３は、一実施形態にかかるレジスタアクセス回路の例としての読み取りアクセス回路を概略的に示している。図２４は、一実施形態にかかるレジスタアクセス回路の例としての書き込みアクセス回路を概略的に示している。図２５は、一実施形態にかかる製造方法を示すフローチャートである。図２６は、使用可能な仮想マシンの実装を示している。

添付の図面を参照して実施形態を説明する前に、以下の実施形態の説明および関連する利点を提供する。

１つの例示的な構成によれば、それぞれが複数の部分を含むベクトルを記憶するように構成されたベクトルレジスタのセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割される前記ベクトルレジスタのセットと、各アクセスブロックが前記ベクトルレジスタのうちの１つにアクセスするときに前記ベクトルレジスタのうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスするように構成された複数のアクセスブロックを含むレジスタアクセス回路とを備え、前記レジスタアクセス回路が、前記ベクトルレジスタおよび前記列のうちのいずれか１つの部分に同時にアクセスするように構成される、装置が提供される。

ベクトルレジスタのセットは、論理的に（必ずしも物理的にではなく）複数の列に分割され、各列が各ベクトルの同じ部分を記憶すると考えることができる。例えば、それぞれが独自の１２８ビットベクトルレジスタに記憶されるベクトルの群の場合、第１の列は、それらの各ベクトルの最初の３２ビット（０−３１）を記憶し、第２の列は、それらの各ベクトルの２番目の３２ビット（３２−６３）などを記憶することができる。ベクトルレジスタが複数のスカラーレジスタを設けることによって実装される場合が時々あるが、列は、スカラーレジスタの幅とは異なる幅を有してもよい。「論理的に分割された」という用語は、そうでなければ物理的な配置を意味することがある「列」などの用語の使用にもかかわらず、レジスタ自体が特定の方法で物理的に配置される必要がないことを強調するために使用される。レジスタアクセス回路は、ベクトルレジスタの部分へのアクセスを提供し、レジスタアクセス回路は、それぞれがベクトルレジスタの異なる部分にアクセスする多数のアクセスブロックを有する。各アクセスブロックは、１つのベクトルレジスタにおける１つの列と他のベクトルレジスタにおける異なる列とにアクセスするように接続され、それによって「ねじれ」を形成する。このようにして、レジスタアクセス回路は、行の少なくとも一部にアクセスし、また列の少なくとも一部にもアクセスすることが可能である。さらにまた、これら２つのアクセス形式のどちらが使用されるかにかかわらず、２つの言及された群のうちの１つと異なる部分がレジスタアクセス回路の複数のポートに設けられるという点で、これらの部分は同時にまたは略同時にアクセス可能である。したがって、回路は、多数の異なるアクセスパターンを提供することができる。

いくつかの実施形態では、ベクトルレジスタのセットは、少なくとも１つのセクションを備え、各セクションは、異なる列を含み、装置は、各セクションについてのレジスタアクセス回路を備え、各レジスタアクセス回路は、そのレジスタアクセス回路に関連するセクション内の部分にアクセスするように構成される。ベクトルレジスタはまた、複数のセクションに論理的に分割されることもでき、それらの各セクションは、複数の異なる列から構成されている。そのようなセクションごとにレジスタアクセス回路が設けられる。このようにして、ベクトルレジスタは分割されることができる。各ベクトルのサイズが各ベクトルレジスタの容量よりも小さい場合には、そのような構成が使用されることができる。１つのレジスタの下半分と他のベクトルレジスタの上半分への同時アクセスを可能にするために、複数のセクションを有する構成が使用されることもできる。これは、第１の命令の第２の部分が第２の命令の第１の部分と同時に実行されるように、レジスタファイルにアクセスする命令の実行が重複する場合に有用であり得る。そのような重複した実行は、より多数の命令のうちのより小さな部分が同時に実行されるように拡張されることができる。

いくつかの実施形態では、各アクセスブロックは、ベクトルレジスタのうちの１つにアクセスするとき、各セクション内に含まれる列の数から１を引いた数に等しい他のベクトルレジスタのいくつかにアクセスするときとは異なる列内の部分にアクセスするように構成される。これらの実施形態では、増加した列数のおかげで、増加した数の部分がある。しかしながら、部分の列または部分の行に同時にアクセスできることが依然として望ましい。したがって、より複雑な「ねじれ」パターンは、Ｍ列のセットに対して、それらの列のそれぞれがＭ個の隣接するベクトルレジスタのセットにおいて一度だけアクセスされるという結果になる。例えば、セクション内に４つの列（または部分）がある場合、そのセクション内の各アクセスブロックは、ベクトルレジスタ０−３にわたって１度しかそれらの列のそれぞれにアクセスしない。

いくつかの実施形態では、第１のアクセスブロックは、第１のベクトルレジスタの第１の列にアクセスし、第２のベクトルレジスタの第２の列にアクセスするように構成され、第２のアクセスブロックは、第１のベクトルレジスタの第２の列にアクセスし、第２のベクトルレジスタの第１の列にアクセスするように構成される。これらの実施形態では、アクセスブロックのうちの１つに関連するねじれは、同じセクション内のアクセスブロックのうちの他の１つによって行われるねじれとは反対である。

いくつかの実施形態では、各セクションは、Ｎ列に論理的に分割され、Ｎ列は、ｌｏｇ_２（Ｎ）個のレベルを有する入れ子状構造に論理的に配置され、Ｎは４以上であり、２の整数乗であり、第１のレベルでは、Ｎ列は、第１のレベルについての少なくとも１列の第１のセットと第１のレベルについての少なくとも１列の第２のセットとの間で等しく分割され、各親レベル内の少なくとも１つの列のセットのそれぞれは、対応する子レベルについての少なくとも１つの列の第１のセットおよびその対応する子レベルについての少なくとも１つの列の第２のセットに再度等しく分割され、各アクセスブロックは、各ベクトルレジスタについて１つの列を訪問するように構成され、１つの列は、各レベルについて、所定数のベクトルレジスタの半分についての少なくとも１つの列の第２のセットを訪問する前に、所定数のベクトルレジスタの半分についての少なくとも１つの列の第１のセットを訪問する制約によって一意的に識別され、所定数は２^Ｘに等しく、Ｘは各レベルで異なり、１からｌｏｇ_２（Ｎ）の範囲内である。そのような実施形態では、単一のねじれは、所与の列または所与の行内の必要な数の部分へのアクセスを提供するのに十分ではない。例えば、所与の行または列内の４つの部分が同時にアクセスされなければならない場合、セクションを４つの列に分割して第２のねじれ内に入れ子状にされた第１のねじれを提供する、すなわち、アクセスパターンの必要なアレイを提供する必要があることがある。実際には、これは、一般に、多数の入れ子状のねじれまで拡張することができ、それによって入れ子状構造を提供する。Ｎ列（Ｎは４以上であり、２の整数乗でもある）を含む入れ子状構造内では、Ｎ列は、ｌｏｇ_２（Ｎ）個のレベルで論理的に配置されることができる。第１のレベルでは、全ての列が第１のセットと第２のセットとの間で半分ずつ等しく分割される。例えば第１のレベルの後の各レベルなどの各子レベルでは、親レベルからの少なくとも１つの列の各セットは、対応する子レベルについての少なくとも１つの列の第１のセットとその対応する子レベルについての少なくとも１つの列の第２のセットとに等しく分割される。このようにして、各子レベルがその親レベルと比較して列のセット数を２倍にした入れ子状構造が生成される。したがって、第１のレベルと最後の（最上位）レベルを除く全てのレベルは、それぞれそれらの直上および直下のレベルに対する子レベルおよび親レベルの双方である。別の見方をすると、最上位レベルから第１のレベルまでの各下位レベルでは、前のレベルからの列のセットが対になっているため、各下位レベルでは、全ての列が半分に２つに分割されるまでセット数が半分になり、それぞれＮ／２列を有する。これを念頭に置いて、アクセスパターンが定義されることができる。特に、各アクセスブロックは、各ベクトルレジスタに対して１つの列を訪問するように構成されている。１つの列は、各レベルについて、所定数の半分のベクトルレジスタについての少なくとも１つの列の第２のセットを訪問する前に、所定数の半分のベクトルレジスタについての少なくとも１つの列の第１のセットが訪問されるという制約によって一意的に識別される。したがって、Ｍ個の異なる列を訪問することは、少なくともＭ個の異なるベクトルレジスタを訪問することを必要とする。

所定数は２^Ｘに等しく、Ｘは、各レベルで異なり、１からｌｏｇ_２（Ｎ）の範囲内である。したがって、例えば、３つのレベルを有する実施形態では、第２のレベルにおいて、２つの列の２つの第１のセットと２つの列の２つの第２のセットがある。少なくとも１つの列の２つの第１のセットは、同様の数のベクトルレジスタについて少なくとも１つの列の２つの第２のセットを訪問する前に、１、２、または４つのベクトルレジスタについて訪問される。

いくつかの実施形態では、ベクトルレジスタのセットは、２つのセクションを含み、Ｎは４の値を有する。２つのセクションのそれぞれにおいて、アクセスパターンは、４つのレジスタごとに繰り返され、２つのレベルのねじれの入れ子をもたらす。

いくつかの実施形態では、レジスタアクセス回路は、ベクトルレジスタに記憶されているデータ要素を出力するための読み取りアクセス回路を備え、レジスタアクセス回路は、データ要素をベクトルレジスタに入力するための書き込みアクセス回路を備える。これらの実施形態のいくつかにおいて、読み取り回路および書き込み回路は、互いに分離されており、ベクトルレジスタにアクセスするときにそれぞれが互いに異なる接続を使用する。

いくつかの実施形態では、読み取りアクセス回路は、複数の列のそれぞれに対して１つのアクセスブロックを備える。列数は、典型的には、同時にアクセスされることが望まれる部分の数を示す。各同時アクセスは、別々のアクセスブロックを必要とする。したがって、いくつかの実施形態では、ベクトルレジスタから読み出すために列ごとに１つのアクセスブロックが提供される。

いくつかの実施形態では、読み取りアクセス回路は、複数の列のそれぞれに対して最大で１つのアクセスブロックを備える。前述のように、アクセスブロックの数は、所与のセクション内で同時に発生することが望まれる行または列への同時アクセスの数を示す。いくつかの実施形態では、同時アクセスの最大数は、ねじれパターンあたり１つである。したがって、それらの実施形態では、これよりも多くのアクセスブロックを提供する必要はない。

いくつかの実施形態では、読み取りアクセス回路内のアクセスブロックは、マルチプレクサを備える。各マルチプレクサへの入力は、そのマルチプレクサが接続されている部分に対応する。それによって、マルチプレクサは、どの入力が選択されたかを示すための選択信号に基づいて、それが接続されている部分間で切り替える。各アクセスブロックは、同時に必要とされない部分に接続するように構成される。このようにして、所望の組み合わせ（例えば、列内の部分または行内の部分）を異なるアクセスブロックに接続することが可能であり、それによってそれらの部分に同時にアクセスすることを可能にする。

いくつかの実施形態では、ベクトルレジスタのセットは、少なくとも１つのセクションを含み、各セクションは異なる列を含み、装置は、各セクションについてのレジスタアクセス回路を備え、各レジスタアクセス回路は、そのレジスタアクセス回路に関連するセクション内の部分にアクセスするように構成され、各セクションについて、読み取りアクセス回路は、読み取りアクセス回路内の各アクセスブロックからの出力を並べ替えるための並べ替え回路を備える。いくつかの実施形態では、説明された方法でアクセスブロックを接続することによって、いくつかの部分が出力される順序は、正しくない可能性がある。通常、この順序は、いくつかの部分の対が入れ替わるようなものである。これを是正するために、アクセスブロックを並べ替えるために並べ替え回路が設けられることができる。

どの並べ替え回路が設けられることができるかについては、いくつかの異なる選択肢がある。しかしながら、いくつかの実施形態では、並べ替え回路は、クロスバーマルチプレクサである。大抵の場合、そのようなマルチプレクサは、ロード命令についてのエンディアンスワップ、ならびにベクトルレジスタにおいてインターリーブされる実数／虚数成分をスワップする必要がある複雑なＡＤＤ／ＭＵＬ命令を処理するためにとにかく提供されることができる。したがって、そのようなマルチプレクサの使用は、回路全体のサイズを大きくすることがない。

いくつかの実施形態では、書き込みアクセス回路は、複数の列のそれぞれに対して１つのアクセスブロックを備える。読み取りアクセス回路と同様に、アクセスブロックの数は、通常、所与のセクション内で同時にアクセスされることが望まれる行または列の数を示す。各同時アクセスは、別々のアクセスブロックを必要とする。したがって、いくつかの実施形態では、ベクトルレジスタに書き込むために列ごとに１つのアクセスブロックが設けられる。

いくつかの実施形態では、書き込みアクセス回路は、複数の列のそれぞれに対して最大で１つのアクセスブロックを備える。アクセスブロックの数は、ベクトルレジスタの各部分が同時にアクセスされることができる範囲を制御する。いくつかの実施形態では、同時アクセスの最大数は、各部分（列）に対して１つである。したがって、そのような実施形態では、列ごとに１つよりも多くのアクセスブロックを提供する必要はないことがある。

いくつかの実施形態では、ベクトルレジスタのセットは少なくとも１つのセクションを含み、各セクションは異なる列を含み、装置は、各セクションについてのレジスタアクセス回路を含み、各レジスタアクセス回路は、そのレジスタアクセス回路に関連するセクション内の部分にアクセスするように構成され、各セクションについて、書き込みアクセス回路は、書き込みアクセス回路内の各アクセスブロックへの入力を並べ替えるための並べ替え回路を備える。先に説明したように、読み取りアクセス回路について、いくつかの部分の出力は反転される可能性があるのと同様に、レジスタへの入力もまた、反転される必要がある場合がある。したがって、ユーザが特定の順序で入力を提供することを要求するのではなく、入力は、意図された順序で提供されることができ、並べ替え回路は、データがベクトルレジスタの正しい部分に記憶されるように部分を並べ替えることができる。

どの並べ替え回路が設けられることができるかについては、いくつかの異なる選択肢がある。しかしながら、いくつかの実施形態では、並べ替え回路は、クロスバーマルチプレクサである。大抵の場合、そのようなマルチプレクサは、記憶命令についてのエンディアンスワップ、ならびにベクトルレジスタにおいてインターリーブされる実数／虚数成分をスワップする必要がある複雑なＡＤＤ／ＭＵＬ命令を処理するためにとにかく提供されることができる。したがって、そのようなマルチプレクサの使用は、回路全体のサイズを大きくすることがない。

ベクトルレジスタには異なる構成がある。しかしながら、いくつかの実施形態では、ベクトルレジスタは、１２８ビットレジスタである。

同様に、ベクトルレジスタが実装されることができる多数の異なる方法がある。しかしながら、いくつかの実施形態では、各ベクトルレジスタは、複数の３２ビットレジスタを備える。

ここで、特定の実施形態が図面を参照して説明される。

図１は、ベクトル命令の処理をサポートするデータ処理装置２の例を概略的に示している。これは、説明を容易にするための簡略図であり、実際には装置は簡潔にするために図１に示されていない多くの要素を有することができることが理解されよう。装置２は、命令復号器６によって復号された命令に応答してデータ処理を実行するための処理回路４を備える。プログラム命令は、メモリシステム８からフェッチされ、アーキテクチャによって定義された方法で命令を処理するように処理回路４を制御する制御信号を生成するために命令復号器によって復号される。例えば、復号器６は、復号された命令のオペコードおよび命令の任意の追加の制御フィールドを解釈して、適切なハードウェアユニットを作動させて算術演算、ロード／ストア演算または論理演算などの演算を実行させる制御信号を処理回路４に生成することができる。

装置は、処理回路４によって処理されるべきデータ値と処理回路の動作を構成するための制御情報とを格納するためのレジスタのセット１０を有する。算術または論理命令に応答して、処理回路４は、レジスタ１０からオペランドを読み取り、命令の結果をレジスタ１０に書き戻す。ロード／ストア命令に応答して、データ値は、処理回路を介してレジスタ１０とメモリシステム８との間で転送される。メモリシステム８は、１つ以上のレベルのキャッシュならびにメインメモリを含むことができる。

レジスタ１０は、単一のデータ要素を含むスカラー値を格納するための多数のスカラーレジスタを含むスカラーレジスタファイル１２を含む。命令復号器６および処理回路４によってサポートされるいくつかの命令は、スカラーレジスタ１２から読み出されたスカラーオペランドを処理してスカラーレジスタに書き戻されるスカラー結果を生成するスカラー命令である。

レジスタ１０はまた、それぞれが複数のデータ要素を含むベクトル（本明細書ではベクトル値とも呼ばれる）を格納するためのいくつかのベクトルレジスタを含むベクトルレジスタファイル１４を含む。ベクトル命令に応答して、命令復号器６は、処理回路４を制御してベクトルレジスタ１４の１つから読み出されたベクトルオペランドの各要素に対して多数レーンのベクトル処理を実行し、スカラーレジスタ１２に書き込まれるべきスカラー結果またはベクトルレジスタ１４に書き込まれるべきさらなるベクトル結果のいずれかを生成する。いくつかのベクトル命令は、１つ以上のスカラーオペランドからベクトル結果を生成するか、またはスカラーレジスタファイル内のスカラーオペランド、ならびにベクトルレジスタファイル１４から読み出されたベクトルオペランドに対するベクトル処理のレーンに対して追加のスカラー演算を実行することができる。したがって、いくつかの命令は、命令の１つ以上のソースレジスタおよび宛先レジスタのうちの少なくとも１つがベクトルレジスタ１４であり、１つ以上のソースレジスタおよび宛先レジスタのうちの別のものがスカラーレジスタ１２である混合スカラーベクトル命令とすることができる。

ベクトル命令はまた、データ値をベクトルレジスタ１４とメモリシステム８内の位置との間で転送させるベクトルロード／ストア命令も含むことができる。ロード／ストア命令は、メモリ内の位置が連続するアドレス範囲に対応する連続ベクトルロード／ストア命令、またはいくつかの離散アドレスを指定して処理回路４を制御してそれらのアドレスのそれぞれからのデータをベクトルレジスタの各要素にロードするかもしくはベクトルレジスタの各要素から個別のアドレスにデータを格納する散乱／集合型ベクトルロード／ストア命令を含むことができる。

処理回路４は、ある範囲の異なるデータ要素サイズを有するベクトルの処理をサポートすることができる。例えば、１２８ビットベクトルレジスタ１４は、例えば１６個の８ビットデータ要素、８個の１６ビットデータ要素、４個の３２ビットデータ要素または２個の６４ビットデータ要素に分割されることができる。レジスタバンク１０内の制御レジスタは、使用されている現在のデータ要素サイズを指定してもよく、あるいはこれは、実行されるべき所与のベクトル命令のパラメータであってもよい。

レジスタ１０はまた、処理回路４の処理を制御するためのいくつかの制御レジスタも含む。例えば、これらは、処理中の現在の実行点に対応する命令のアドレスを示すプログラムカウンタアドレスを格納するためのプログラムカウンタレジスタ１６、処理が関数呼び出しの後続処理に関するリターンアドレスを格納するためのリンクレジスタ１８、およびスタックデータ構造のメモリシステム８内の位置を示すスタックポインタレジスタ２０を含むことができる。当然のことながら、これらは、格納できる制御情報の種類のほんの一部にすぎず、実際にはアーキテクチャの所与の命令セットは、アーキテクチャによって定義されている他の多くの制御パラメータを格納することができる。例えば、制御レジスタは、ベクトルレジスタの全幅、またはベクトル処理の所与のインスタンスに使用されている現在のデータ要素サイズを指定することができる。

処理回路４は、異なるクラスの命令を処理するためのいくつかの異なるハードウェアブロックを含むことができる。例えば、図１に示すように、メモリシステム８と相互作用するロード／ストア命令は、専用ロード／ストアユニット（ＬＳＵ）２５によって処理されることができるとともに、算術または論理命令は、１つ以上の他のユニット３０によって処理されることができる。これらの他のユニットは、算術論理ユニット（ＡＬＵ）を含むことができ、ＡＬＵ自体は、さらに、乗算を含む演算を実行するための積和演算ユニット（ＭＡＣ）と、他の種類のＡＬＵ演算を処理するためのさらなるユニットとに分割されることができる。浮動小数点命令を処理するために浮動小数点ユニットを設けることもできる。ベクトル処理を含まない純粋なスカラー命令もまた、ベクトル命令と比較して別のハードウェアブロックで処理することもでき、または同じハードウェアブロックを再利用することもできる。

デジタル信号処理（ＤＳＰ）のようないくつかの用途では、おおよそ同数のＡＬＵおよびロード／ストア命令が存在することができ、したがって、ＭＡＣのようないくつかの大きなブロックは、かなりの時間、アイドルのままにされることができる。実行リソースがより高い性能を得るためにベクトルレーンの数に比例して増やされるので、この非効率性は、ベクトルアーキテクチャ上で悪化する可能性がある。より小型のプロセッサ（例えば、単一発行、インオーダーコア）では、完全にスケールアウトされたベクトルパイプラインの面積オーバーヘッドが非常に大きい可能性がある。図２に示すように、使用可能な実行リソースをより効率的に使用しながら領域への影響を最小限に抑えるための１つのアプローチは、命令の実行を重複させることである。この例では、３つのベクトル命令は、ロード命令ＶＬＤＲ、乗算命令ＶＭＵＬおよびシフト命令ＶＳＨＲを含み、それらの間にデータ依存性があっても、これら全ての命令は、同時に実行することができる。これは、ＶＭＵＬの要素１は、Ｑ１の要素１にのみ依存し、Ｑ１レジスタ全体には依存しないため、ＶＬＤＲの実行が終了する前にＶＭＵＬの実行を開始できるためである。命令を重複させることを可能にすることにより、乗算器のような高価なブロックは、より頻繁にアクティブに保たれることができる。

したがって、マイクロアーキテクチャ実装がベクトル命令の実行を重複することを可能にすることが望ましい可能性がある。しかしながら、アーキテクチャが固定量の命令重複があると仮定すると、マイクロアーキテクチャの実装が、アーキテクチャが想定する命令重複の量と実際に一致する場合、これは、高い効率を提供するが、異なる重複を使用するアーキテクチャまたは全く重複しないアーキテクチャを使用する異なるマイクロアーキテクチャにスケーリングされる場合に問題が生じる可能性がある。

代わりに、図３の例に示すように、アーキテクチャは、様々な重複をサポートすることができる。ベクトル命令の実行は、「ビート（beats）」と呼ばれる部分に分割され、各ビートは、所定サイズのベクトルの一部の処理に対応する。ビートは、完全に実行されるかまたは全く実行されないかのいずれかであり、部分的に実行することはできないベクトル命令のアトミック部分である。１ビートで処理されるベクトルの部分のサイズは、アーキテクチャによって定義され、ベクトルの任意の部分とすることができる。図３の例では、ビートは、ベクトル幅の４分の１に対応する処理として定義され、そのため、ベクトル命令あたり４ビートがある。明らかに、これは一例にすぎず、他のアーキテクチャは、例えば２または８などの異なる数のビートを使用してもよい。１ビートに対応するベクトルの部分は、処理されるベクトルのデータ要素サイズと同じサイズ、よりも大きいサイズまたはより小さいサイズとすることができる。したがって、要素サイズが実装ごとに、または実行時に異なる命令間で異なる場合であっても、ビートは、ベクトル処理の一定の幅である。１ビートで処理されるベクトルの部分が複数のデータ要素を含む場合、各要素が独立して処理されることを確実にするために、各要素間の境界でキャリー信号が無効にされることができる。１ビートで処理されるベクトルの部分が要素の一部のみに対応し、ハードウェアが数ビートを並行して計算するのに不十分である場合、１ビートの処理中に生成されるキャリー出力は、２つのビートの結果がともにデータ要素を形成するように、後続ビートへのキャリー入力として入力されることができる。

図３に示すように、処理回路４の異なるマイクロアーキテクチャ実装は、抽象的なアーキテクチャクロックの１つの「ティック(tick)」で異なる数のビートを実行することができる。ここで、「ティック」は、アーキテクチャ状態の前進の単位に対応する（例えば、単純なアーキテクチャでは、各ティックは、次の命令を指すようにプログラムカウンタを更新することを含む、命令の実行に関連する全てのアーキテクチャ状態を更新するインスタンスに対応することができる）。当業者にとって理解されるように、パイプライン化などの既知のマイクロアーキテクチャ技術は、単一のティックがハードウェアレベルで実行するために複数のクロックサイクルを必要とし、実際にハードウェアレベルの単一クロックサイクルは、複数の命令の複数の部分を処理できることを意味することができる。しかしながら、そのようなマイクロアーキテクチャ技術は、アーキテクチャレベルではティックがアトミックであるためにソフトウェアには見えない。簡潔にするために、そのようなマイクロアーキテクチャは、本開示のさらなる説明の間は無視される。

図３の下の例に示すように、いくつかの実装形態は、１ティック内で全てのビートを並行して処理するのに十分なハードウェアリソースを提供することによって、同じティック内のベクトル命令の４ビート全てをスケジュールすることができる。これは、高性能の実装に適することができる。この場合、命令全体が１ティックで完了できるため、アーキテクチャレベルでの命令間のいかなる重複も必要ない。

一方、より面積効率の高い実装では、ティックあたり２ビートしか処理できない、より狭い処理ユニットを提供することができ、図３の中央の例に示すように、命令実行は、第１の命令の第３または第４のビートと並列に実行される第２のベクトル命令の第１および第２のビートと重複されることができ、それらの命令は、処理回路内の異なる実行ユニット上で実行される（例えば、図３では、第１の命令は、ロード／ストアユニット２５を使用して実行されるロード命令であり、第２の命令は、他のユニット３０のうちの１つを形成するＭＡＣユニットを使用して実行される積和命令である）。

さらにエネルギ／面積効率の高い実装では、より狭く、一度に単一ビートしか処理できないハードウェアユニットを提供することができ、この場合、ティックあたり１ビートが処理されることができ、図３の上の例に示されるように、命令実行は１ビートずつ重複されてずらされる（これは、上記図２に示されている例と同じである）。

図３に示されている重複はほんのいくつかの例であり、他の実装も可能であることが理解されるであろう。例えば、処理回路４のいくつかの実装は、同じティック内で並列に複数の命令の二重発行をサポートすることができ、その結果、命令のスループットが向上する。この場合、１つのサイクルでともに始まる２つ以上のベクトル命令は、次のサイクルで始まる２つ以上のベクトル命令と重複されるいくつかのビートを有することができる。

実装ごとに重複量を変えて異なる性能点にスケーリングするのと同様に、ベクトル命令間の重複量もまた、プログラム内のベクトル命令の実行の異なるインスタンス間で実行時に変化させることができる。したがって、処理回路４は、図１に示すように、前の命令に対して所与の命令が実行されるタイミングを制御するためのビート制御回路３０を備えることができる。これは、実装がより困難であるか、または命令に利用可能なリソースに依存する特定のコーナーケースにおいて、マイクロアーキテクチャに命令を重複させないことを選択する自由を与える。例えば、同じリソースを必要とし、使用可能な全てのＭＡＣまたはＡＬＵリソースが既に別の命令によって使用されている特定の種類（例えば、積和命令）のバックツーバック命令がある場合、次の命令の実行を開始するのに十分な空きリソースがない可能性があり、そのため、重複ではなく、最初の命令が完了するまで第２の命令の発行を待機することができる。

図４に示すように、介在するスカラー命令がある場合、２つのベクトル命令間の重複もまた防止されることができる。これは、スカラー命令がベクトル命令の最後のビートの結果に依存し、第２のベクトル命令がその全てのビートのスカラー結果に依存する可能性があるため、ベクトル命令とスカラー命令の重複を避ける方が安全な場合があるためである。

上述したように重複が許可されると、複数の命令が同時に実行される可能性がある。プログラムカウンタ１６は、なおも完了しているべき少なくとも１つのビートを有する最も古い未完了命令のアドレスを追跡することができる。プログラムカウンタは、ベクトル命令がその最後のビートを完了したときにインクリメントされることができる。

標準的なベクトルロード／ストア動作および散乱／集合型ベクトルロード／ストア動作を実行することに加えて、指定されたベクトルのデータ要素がメモリシステム８とベクトルレジスタ１４のセットとの間で移動されるので、ＬＳＵ２５は、並べ替え動作も実行するように構成され、ベクトルのデータ要素がそれらに対するさらなるベクトル演算の効率的な実行を容易にするような方法でベクトルレジスタ内に配置されることを確実にするのを支援することができる。データ要素は、データ構造を形成するとみなすことができる。例えば、音声データを考慮すると、データ構造は、異なるオーディオチャンネルに関連するいくつかのデータ要素を含むことがある。例えば、単純なステレオオーディオを考慮すると、各データ構造は、左チャンネル用のデータ要素と右チャンネル用のデータ要素とを含むことができる。同様に、画像データを考慮すると、データ構造は、赤、緑、青およびアルファ（ＲＧＢＡ）データ要素成分などの複数の成分を含むことができる。データ要素は、メモリシステム内で特定の方法で編成されることが多いが、それらのデータ要素をベクトルレジスタ内で異なって編成することが望ましい。例えば、各データ構造のデータ要素は、メモリ内で連続して配置されることができるが、ベクトルレジスタ内では、複数のデータ構造からの対応するデータ要素が各ベクトルレジスタ内で連続して配置されるように個々のデータ要素を並べ替えることが望ましい。したがって、前述の画像データの例を考慮すると、１つのベクトルレジスタ内に連続して配置されるべき多数のデータ構造のＲ成分に関する一連のデータ要素、別のベクトルレジスタ内で連続して配置されるべきＧ成分に関する一連のデータ要素を配置することなどが望ましい場合がある。そのような例では、ベクトルロード動作中にアクセスされるいくつかのデータ構造内のデータ要素は、それらがメモリからベクトルレジスタに移動されるときにデインターリーブされることができ、その後にベクトルストア動作中にベクトルレジスタからメモリに戻されるときにインターリーブされることができる。

ＬＳＵ２５内でそのような並べ替え動作をサポートすることによって、これは、後続の処理に必要な方法でそれらのデータ要素を配置するためにそれらがベクトルレジスタ内に格納された後にデータ要素に対していくつかの追加操作を実行するために追加命令を実行する必要性を回避するため、性能を大幅に改善することができる。しかしながら、そのようなベクトルロードまたはストア命令によって必要とされる計算量は非常に大きく、特定の実装においては、命令が数サイクルの間停止することを意味することがある。これは、性能の問題を引き起こす可能性があり、メモリと算術演算の重複実行を可能にするシステムではさらに悪化する可能性がある。

後述する実施形態によれば、１つのモノリシックロードまたはストア命令を使用する代わりに、並べ替え命令の群を形成する複数の並べ替え命令の実行の結果として並べ替え動作が実行されるように、並べ替え動作が複数の命令にわたって効果的に分割される。群内の各並べ替え命令は、群内の他の各並べ替え命令によって定義されたデータ要素アクセスパターンとは異なるデータ要素アクセスパターンを定義する。並べ替えアクセスパターンは、メモリ内でアクセスされるべきデータ要素のアドレスと評価されるべきベクトルレジスタの特定の部分との両方を識別するために使用される。

図５は、一実施形態にかかるベクトルレジスタ１４のセットを示している。この実施形態では、８つのベクトルレジスタＱ０からＱ７が設けられており、図５に示す実施形態では、各ベクトルレジスタは、複数のスカラーレジスタから形成されている。したがって、ベクトルレジスタＱ０５０は、４つのスカラーレジスタ５５、６０、６５、７０から形成される。スカラーレジスタは、独立してアクセスされることができ、実際にスカラーレジスタ内の個々の部分は、必要に応じてアクセスされることができる。図５の実施形態では、各ベクトルレジスタは、複数のスカラーレジスタから構成されているが、これは必須ではないが、ベクトルレジスタは構成され、ベクトルレジスタセットは、ベクトルレジスタ内の個々の部分が他の部分とは独立して更新できるように構成される。

各ベクトルレジスタ内に格納されるデータ要素の数は、データ要素のサイズに依存し、一実施形態では複数の異なるサイズのデータ要素がサポートされる。例えば、一実施形態では、ベクトルレジスタは１２８ビット長であり、システムによって処理されるデータ要素は、６４ビットデータ要素、３２ビットデータ要素、１６ビットデータ要素、または８ビットデータ要素とすることができる。これは単に例示的な例であり、他の実施形態では、ベクトルレジスタのサイズおよびサポートされるデータ要素のサイズは異なってもよいことが理解されよう。図５の特定の例を考慮すると、スカラーレジスタ５５、６０、６５、７０のそれぞれは、３２ビットレジスタであり、したがって、データ要素サイズが３２ビット以下の場合、各スカラーレジスタは、１つ以上のデータ要素を格納する。

後でより詳細に説明するように、ベクトルレジスタ１４のセットは、論理的には複数のセクション、例えば図５に示す第１のセクション７５と第２のセクション８０とから構成されるとみなすことができる。ベクトルレジスタは、図５では２つのセクションに論理的に分割されているように示されているが、必要に応じて、３つ以上のセクションに分割されることができる。後でより詳細に説明するように、群内の個々の並べ替え命令に対するアクセスパターンを適切に選択することによって、群内の各並べ替え命令の実行中に、メモリ内の連続ワードに対して別々のアクセスが行われるように構成されることができ、それらの別々のアクセスは、ベクトルレジスタ内の異なるセクション７５、８０に対して行われるように構成されることができる。これは、そのようなメモリアクセス命令と算術命令との重複を容易にする。例えば、１つのそのような並べ替え命令が第２のセクション８０にアクセスしている間に、第１のセクション７５にアクセスする算術命令を実行することができる。

図６は、一実施形態にかかる、一群の並べ替え命令がデインターリーブ動作を実行するように構成されることができる方法を示す図である。特に、２つのベクトルロード（ＶＬＤ）命令は、実行されると、まとめてデインターリーブ動作を実行する命令の群を形成する。これらのＶＬＤ命令は、ＶＬＤ２ｎ命令であり、「２」は２のストライド、すなわち、各データ構造内に２つのデータ要素があることを示す。「ＶＬＤ２０」命令内の「０」は、そのベクトルロード命令が群内の第１の命令であることを識別し、したがって、特定のアクセスパターン識別子を効果的に識別する。同様に、「ＶＬＤ２１」命令は、群内の第２の命令であり、「１」は、異なるアクセスパターン識別子を効果的に提供する。

図６からもわかるように、両方の命令は、それらが３２ビットデータ要素上で動作していることを識別し、同じ２つのベクトルレジスタ（この例ではＱ０およびＱ１）を識別する。ベースアドレスもまた、スカラーレジスタＲｎの内容によって指定される。第２の命令の末尾の「！」は、その命令の実行もまたレジスタＲｎのベースアドレスを更新させることを識別する。

図６に示す実施形態によれば、両方のベクトルロード命令に関連するアクセスパターンに２つの６４ビット連続メモリアクセスを実行させると仮定する。したがって、メモリワードサイズが３２ビットであると仮定すると、第１のアクセスは、２つの連続する３２ビットメモリワードにアクセスし、次に、第２のアクセスは、さらに２つの連続する３２ビットメモリワードにアクセスする。データ要素のサイズもまた３２ビットであるため、これは、各アクセスが２つの連続した３２ビットのデータ要素にアクセスすることを意味する。

図６に示される特定のアクセスパターンによれば、第１のＶＬＤ２ｎ命令の実行は、ＬＳＵ２５のアクセス／並べ替え動作１３０によるその第１の命令の第１のアクセスの処理中にデータ構造１０５にアクセスさせ、そして、その第１の命令の第２のアクセス中にデータ構造１２０にアクセスさせる。アクセスパターンはまた、図６のレジスタ内容１４０によって示されるように、第１のデータ構造１０５の２つのデータ要素（この例では、データ構造は、左右の音声成分からなる音声データを表すと仮定される）を２つのベクトルレジスタＱ０およびＱ１内の第１のレーンにロードさせる（ここで、「ｘ」は、これらの要素に対して更新が実行されず、以前の値が保持されることを示す）。以下の説明では、ベクトルレジスタ内の算術演算を実行するとき、各レーン内のデータ要素内で並列に演算を実行することができるため、ベクトルレジスタ内の各データ要素位置は、レーンと称される。

レジスタ内容１４５によって示されるように、第１の命令の第２のアクセスが実行されると、データ構造１２０のデータ要素は、ベクトルレジスタの最終レーン内に配置される。先に参照した図５から明らかなように、第１のベクトルロード命令の第１のアクセスは、ベクトルレジスタ１４の第１のセクション７５にアクセスする一方で、第２のアクセスは、第２のセクション８０にアクセスする。

同様に、図６に示されるように、第２のベクトルロード命令を実行した結果としてロード／ストアユニット１３０のアクセス／並べ替え動作が実行されると、第１のアクセスがデータ構造１１０にアクセスし、レジスタ内容１５０によって示されるように第２のレーン内に２つのデータ要素を格納し、そして、第２のアクセスがデータ構造１１５にアクセスし、ベクトルレジスタ内容１５５によって示されるように第３のレーンにデータ要素を格納する。ここでも同様に、第１のアクセスは、ベクトルレジスタの第１のセクション７５にアクセスし、第２のアクセスは、第２のセクション８０にアクセスすることがわかる。

図３を参照して前述した４ビート／ティックアプローチを採用し、少なくともクワッドバンクメモリシステムであるメモリシステムを仮定すると、そのようなアクセスパターンは、各ビートに関連付けられたアドレスが異なるメモリバンクにアクセスするため、各命令の第１および第２のアクセスが同時に起こることを可能にする。代わりに図３を参照して前述したように２ビート／ティック構成が使用される場合、各命令に対する第１および第２のアクセスは、次々に起こることができる。メモリが少なくとも２つのメモリバンクを備える場合、図６に示されるパターンの使用は、各アクセス中に２つのメモリバンクがアクセスされることを可能にし、したがって性能を改善する。

並べ替え命令の群をまとめて形成する並べ替え命令のそれぞれに関連するアクセスパターンは様々な形態をとることができる。前述のように、群内の各並べ替え命令は、群内の他の各並べ替え命令によって定義されたデータ要素アクセスパターンとは異なるデータ要素アクセスパターンを定義し、一実施形態では、これは、群内の各並べ替え命令の実行中に異なるデータ要素がメモリと複数のベクトルレジスタとの間で移動されることを保証する。さらに、アクセスパターンは、各並べ替え命令の実行中に２つ以上のベクトルレジスタがアクセスされるように定義される。一実施形態では、アクセスパターンは、各並べ替え命令の実行が並べ替え動作に関与する複数のベクトルレジスタのそれぞれにおいて少なくとも１つのデータ要素にアクセスさせるようなものである。そのようなアプローチは、アクセスパターンを実行することをより簡単にすることができることを見出した。

図７Ａから図７Ｇは、様々な異なるデータ要素サイズについて、群内の異なる並べ替え命令のそれぞれに関連付けることができるアクセスパターンの様々な異なる例を示している。これらは単なる例示であり、多くの異なるアクセスパターンもまた使用可能であることが理解されるであろう。これらの図は、パターンが、群内の各並べ替え命令の実行中にどのようにベクトルレジスタのどの部分がアクセスされるのかを決定し、どのメモリアドレスがアクセスされるのかを示している。図７Ａは、３２ビットデータ要素およびアクセスベクトルレジスタＱ０およびＱ１を操作する群内で２つのベクトルロード命令を実行するときに採用されるベクトルレジスタアクセスパターンを示しており、これらのパターンは、図６に概略的に示されるものに対応する。特に、アクセスパターン２００は、４つの部分２０５、２１０、２１５、２２０からなる。第１のベクトルロード命令が実行されると、ブロック２０５に示すように、第１のアクセスは、ベースアドレスに対してメモリオフセット０および４のアドレスにアクセスし、その内容をスカラーレジスタＳ０およびＳ４に格納する。そして、ブロック２１０に示すように、第１の命令の第２のアクセスは、オフセット２４および２８でメモリにアクセスし、その内容をスカラーレジスタＳ３およびＳ７に格納する。図７Ａでは、Ｓ０からＳ７（ベクトルレジスタＱ０およびＱ１を構成する）がアクセスされるが、アクセスされるスカラーレジスタは、並べ替え命令によって指定されたベクトルレジスタに依存することが理解されよう。別の例では、並べ替え命令は、例えば、宛先ベクトルレジスタとしてＱ１およびＱ２を指定することができ、その場合、スカラーレジスタＳ４からＳ１１がアクセスされることになる。

先に説明した図６から明らかなように、第１の命令の実行は、ベースレジスタの内容を更新させず、したがって、第２の命令が実行されると、オフセットは、同じベースアドレスに関して計算される。したがって、ブロック２１５に示すように、第２の命令の第１のアクセスは、ベースアドレスに関してメモリオフセット８および１２のアドレスにアクセスし、取り出されたデータ要素は、スカラーレジスタＳ１およびＳ５に格納される。同様に、第２のアクセスは、ブロック２２０に示すように、内容がスカラーレジスタＳ２およびＳ６に格納されている状態で、オフセット１６および２０でメモリにアクセスさせる。図５の先の説明から明らかなように、説明を容易にするためにスカラーレジスタ番号を参照しているが、それらのスカラーレジスタは、２つのベクトルレジスタＱ０およびＱ１を効果的に形成し、したがって、スカラーレジスタ番号は、単にベクトルレジスタの様々な部分を識別することが理解される。

図７Ｂは、ベクトルレジスタＱ０からＱ３にアクセスする４つのベクトルロード命令の群が４のストライドでベクトルロードを実施するために使用されるとき（すなわち、各データ構造が４つのデータ要素を含む場合、例えば、前述のＲＧＢＡの例の場合である）に使用可能な別の一連のベクトルレジスタアクセスパターン２２５を示している。ここでも同様に、データ要素は、３２ビットサイズであると仮定する。第１の命令が実行されると、ボックス２３０、２３５によって示される２つのアクセスを実行し、ベースアドレスに関して０および４のオフセットを有する２つのデータ要素を取得し、それらをスカラーレジスタ位置Ｓ０およびＳ４に格納し、そして、第２のアクセスは、ベースアドレスに関してメモリオフセット４０および４４で２つのデータ要素にアクセスし、それらをスカラーレジスタＳ１０およびＳ１４に格納する。第２の命令が実行されると、２つのブロック２４０および２４５によって示されるアクセスを実行する。同様に、第３の命令が実行されると、ブロック２５０および２５５によって示される２つのアクセスを実行する。最後に、第４の命令が実行されると、ブロック２６０および２６５によって示される２つのアクセスを実行する。

群内のどの命令にどのアクセスパターンが関連付けられているかは、全てのアクセスパターンをまとめて使用する場合には重要ではないことが理解されよう。このコメントは、図７Ａから図７Ｇの全ての例に等しくあてはまる。

ＶＬＤ２ｎ命令について図６を参照して前述したのと同じ表現を使用すると、図７Ｂに概略的に示されているアクセスパターンを実行するために使用される４つのベクトルロード命令は、以下の形式をとることができる：
ＶＬＤ４０．３２｛Ｑ０−Ｑ３｝、［Ｒｎ］
ＶＬＤ４１．３２｛Ｑ０−Ｑ３｝、［Ｒｎ］
ＶＬＤ４２．３２｛Ｑ０−Ｑ３｝、［Ｒｎ］
ＶＬＤ４３．３２｛Ｑ０−Ｑ３｝、［Ｒｎ］！

図７Ｂから明らかなように、各ＶＬＤ４ｎ命令が実行されると、それは図７Ｂに示されるパターンにしたがって４つのベクトルレジスタの４分の１に書き込む。図７Ａおよび図７Ｂの検討から明らかなように、ＶＬＤ２ｎおよびＶＬＤ４ｎ命令群の両方に対して、各命令は、２つの６４ビット連続メモリアクセスを実行する。さらに、アドレスビット［３：２］は、単一の命令によって実行されるワードアクセスごとに異なり、そのため、そのメモリサブシステムが複数のメモリバンクを採用するとき、メモリサブシステムへのより効率的なアクセスが可能になる。さらに、メモリとレジスタのアクセスパターンは、両方とも、ビット単位のロジックで簡単に計算できるように設計されている。これは、ＶＬＤ４ｎ命令の群を参照して例として図８および図９において後で説明される。

また、各命令が実行されると、ベクトルレジスタファイルの各半分に６４ビットを格納することがわかる。これは、デュアルビートアーキテクチャでは、レジスタファイルの中心線を横切るアクセスがないことを意味し、したがって、命令は、余分な依存性チェックまたは停止を必要とせずに前述のメモリの重複実行および算術演算と互換性がある。これらの要因は、命令を実行することを容易にし、メモリサブシステムの効率的な使用を可能にする。

図７Ｃおよび７Ｄは、データ要素サイズが３２ビットではなく１６ビットであるときに、ＶＬＤ２ｎおよびＶＬＤ４ｎ群の命令に使用できる等価アクセスパターン３００、３１０を示している。図７Ｃを考慮すると、アクセスパターン３００は、第１のＶＬＤ命令の２つのアクセスによってアクセスされるブロック３０２、３０４と、第２のＶＬＤ命令の２つのアクセスによってアクセスされるブロック３０６、３０８とからなる。

同様に、図７Ｄを考慮すると、アクセスパターン３１０は、第１の命令の２つのアクセスに関連するブロック３１２、３１４、次の命令の２つのアクセスに関連するブロック３１６、３１８、第３の命令の２つのアクセスに関連する命令のブロック３２０、３２２、および第４の命令の２つのアクセスに関連するブロック３２４、３２６からなる。

図７Ｃおよび図７Ｄと図７Ａおよび図７Ｂとの比較から明らかなように、ベースアドレスオフセットは、データ要素サイズが、図７Ａおよび図７Ｂの例の場合の３２ビットではなく、図７Ｃおよび図７Ｄの例の場合の１６ビットであることに起因して、図７Ａおよび図７Ｂの各ブロック内で４ずつ増加するのとは対照的に、図７Ｃおよび図７Ｄの各ブロックで２ずつ増加する。

前述の例では、各命令は２つのアクセスを実行するが、必要に応じて各命令に対して３つ以上のアクセスを実行することができる。例えば、図７Ｅは、４つのアクセス（それぞれ３２ビット連続アクセス）が各命令に関連付けられている一連の代替アクセスパターン３３０を示している。ここでも同様に、アクセスは、複数のメモリバンク間で分割されることができる。

図７Ｆおよび７Ｇは、データ要素サイズが８ビットであるときにＶＬＤ２ｎおよびＶＬＤ４ｎ命令に採用することができる例示的なアクセスパターン４００、４１０を示している。したがって、図７Ｆを考慮すると、第１のＶＬＤ２ｎ命令は、第１のアクセス中にブロック４０２にアクセスさせ、第２のアクセス中にブロック４０４にアクセスさせる一方で、第２のＶＬＤ２ｎ命令は、第１のアクセス中にブロック４０６にアクセスさせ、第２のアクセス中にブロック４０８にアクセスさせる。

図７Ｇは、４つのＶＬＤ４ｎ命令の群に対する一連のアクセスパターン４１０を示している。第１のＶＬＤ４ｎ命令は、第１のアクセス中にブロック４１２にアクセスさせ、第２のアクセス中にブロック４１４にアクセスさせる一方で、第２のＶＬＤ４ｎ命令は、第１のアクセス中にブロック４１６にアクセスさせ、第２のアクセス中にブロック４１８にアクセスさせる。同様に、第３のＶＬＤ４ｎ命令は、第１のアクセス中にブロック４２０にアクセスさせ、第２のアクセス中にブロック４２２にアクセスさせる一方で、最後のＶＬＤ４ｎ命令は、第１のアクセス中にブロック４２４にアクセスさせ、第２のアクセス中にブロック４２６にアクセスさせる。前述のように、群内のどの命令にどのアクセスパターンが関連付けられているかは、必要に応じて変更することができる。

図７Ａから図７Ｇは、ベクトルロード命令の群に関連して使用されるアクセスパターンを示しているが、対応するベクトルストア命令の群にも同じアクセスパターンを使用することができ、唯一の違いは、データが、メモリからベクトルレジスタに移動するのではなく、ベクトルレジスタからメモリに戻されることである。

図８は、特定の命令によって指定されたパターン識別子と、命令のどのビートが現在処理されているかを識別するビート識別子ビットとを用いてメモリへのアドレスワードオフセットをどのように生成できるか、したがって、どの程度のパターンまでプロセスが到達したかを示す図である。図示の論理は、図７Ｂに示すメモリアクセスパターンを生成するために使用されるＶＬＤ４ｎ命令の群に使用される。２ビットパターンＩＤ値５０５は、ビートＩＤのビット１とともに、加算器５１０の入力に供給される。ビートＩＤのビット０は、経路５２０を介して出力され、ビートＩＤのビート１は、経路５００を介して出力される。加算器は、経路５１５を介した出力を生成する。まとめて、出力５００、５１５、５２０は、図８に示すアドレスワードオフセットを形成し、したがって４ビットアドレスワードオフセットを生成する。そして、その値に４を乗算してバイトアドレスを取得し、次にこれをアクセスする実際のメモリアドレスを識別するためにレジスタＲｎのベースアドレスに追加する。

例として、図７Ｂのブロック２３０および２３５によって示される特定のパターンの第１および第２のアクセスを考えると、最初の３２ビットビートに対して生成されるアドレスワードオフセットは００００であることが理解されるであろう（このバターンの場合、バターンＩＤは００であると仮定される）。次のビートでは、ビートＩＤビット０が０から１に変わるため、オフセットは、０００１になる。次のビートでは、ビートＩＤビット０は０に戻るが、ビートＩＤビット１は、値１に変わる。これは、アドレスワードオフセットを１０１０にさせ、４倍されると図７Ｂのブロック２３５の第１のワードアクセスについて示されるように４０のバイトアドレスオフセットを与える。次に、最後のビートに対して、ビートＩＤビット０は、１に変化して１０１１のアドレスワードオフセットを与え、ブロック２３５において最後のワードアクセスに関連する４４のバイトアドレスオフセットを識別する。

図８のアドレス生成論理の上記説明は、３２ビットデータ要素が処理される図７Ｂの例を参照しているが、例えば、図７Ｄまたは図７Ｇのアクセスパターンを使用するときの１６ビットまたは８ビットのデータ要素など、異なるサイズのデータ要素で処理されるＶＬＤ４ｎ命令について同じアドレス生成論理を使用することができる。しかしながら、図７Ｅの代替アクセスパターンが使用された場合、アドレス生成論理は、それに応じて変更される必要があるであろう。

図９は、ＶＬＤ４ｎ命令の群を実行するときにアクセスされるべきベクトルレジスタ内の特定の部分を識別するために使用することができる論理を示すブロック図である。前述のビート識別ビットおよびパターン識別ビットに加えて、要素識別ビットも提供されるが、これらのビットは、データ要素サイズが３２ビット未満の場合にのみ使用される。様々なビートＩＤおよびパターンＩＤビットは、図９に示されるゲート５３５、５４０、５４５を使用して論理的に組み合わされる。ｘレジスタ識別子は、図５の右側から始めて、ベクトルレジスタ内の４つのスカラーレジスタのどれにアクセスするかを識別する。したがって、００のｘレジスタ識別子は、ベクトルレジスタの右端のスカラーレジスタを識別し、０１のｘレジスタ識別子は、左側の次のスカラーレジスタを識別するなどである。ｙレジスタオフセットビットは、命令によって識別された第１のＱレジスタに対するオフセットを識別する。いくつかの命令は、第１のレジスタとしてＱ０を指定することができるが、これは必須ではなく、したがって単に例示として、第１のベクトルレジスタは、Ｑ４であり、次にｙレジスタオフセットは、Ｑ４に対して図５に示される垂直方向に指定される。ｘ要素オフセットビットは、データ要素サイズが１６または８ビットである状況で、識別されたスカラーレジスタのどの部分がアクセスされるかを識別するために使用される。図９からわかるように、サイズ情報は、各マルチプレクサ５５０、５６０、５７０、５８０への制御入力として提供され、データ要素サイズが３２ビットのとき、両マルチプレクサ５７０、５８０からの出力は、論理０の値であるため、ｘ要素オフセットは、影響を受けない。１６ビットデータ要素の場合、ｘ要素オフセットビット０は、マルチプレクサ５８０の出力によって制御され、ｘ要素オフセットビット１は、マルチプレクサ５７０からの出力によって０に固定される。しかしながら、８ビットデータ要素の場合、マルチプレクサ５７０、５８０の両方は、それらの最も低い入力に依存して出力を生成するので、ｘ要素オフセット値の両方のビットが使用される。

先の議論から明らかになるように、パターンＩＤ値は、特定の命令のオペコードによって効果的に特定される。ビートＩＤおよび要素ＩＤ情報は、様々な方法で維持されることができ、例えば、各並べ替え命令を実行するときにＬＳＵ２５によって参照されるローカルカウンタに維持されることができる。

図９の論理は、異なるサイズのデータ要素、例えば図７Ｂ、図７Ｄまたは図７Ｇのアクセスパターンを使用するときにはそれぞれ３２ビット、１６ビットまたは８ビットのデータ要素で動作するＶＬＤ４ｎ命令に使用することができる。しかしながら、図７Ｅの代替アクセスパターンを使用した場合は、それに応じて図９の論理を変更する必要がある。

図１０は、メモリからのデータをデインターリーブし（例えば、左右オーディオチャンネル）、そのデータに対して積和演算を実行するいくつかの例示的なコードを示している。図からわかるように、ＶＬＤ２ｎ命令は、２つの命令からなる群として配置され、その群は、図１０に示すコードのセクションで２回実行される。図の右側部分に示されているように、これらの新しい並べ替え命令の群は、メモリインターフェースと積和演算ハードウェアの両方を、機能停止なしに１００％の時間ビジー状態に保つことを可能にする。図示の例では、１ティックあたり２ビートの配置が使用され、したがって、各ＶＬＤ命令は、適切な積和命令と重複されることができ、それら２つの命令は、ベクトルレジスタの異なるセクションにアクセスする。

図１１Ａから図１１Ｄは、２つのストライド（２つのベクトル命令が群を形成するように配置されている場合）および４つのストライド（４つのベクトル命令が群を形成するように配置されている場合）について、一実施形態で提供されることができるベクトルロード命令およびベクトルストア命令の特定の符号化を示している。まず、図１１ＡのＶＬＤ２ｎ命令を考えると、各ＶＬＤ２ｎ命令が実行されると、２つの６４ビット連続データブロックがメモリからロードされ、２つの宛先レジスタの一部に書き込まれる。書き込まれる宛先レジスタの部分、およびベースアドレスレジスタからのオフセットは、「ｐａｔ」パラメータによって決定される。命令が同じベースアドレスと宛先レジスタで２回実行されたが、異なる「ｐａｔ」値を有する場合、その効果は、メモリからデータをロードし、２のストライドで指定されたレジスタにデインターリーブすることである。ベースアドレスレジスタは、３２バイトのデータが処理されたことを示し且つＶＬＤ２ｎ命令の次の群に備えてベースレジスタ内のポインタを更新するために、群内の第２の命令の実行時に必要に応じて３２だけインクリメントされることができる。

図１１ＢのＶＬＤ４ｎ命令を考えると、そのような命令が実行されるたびに、それはまたメモリから２つの６４ビット連続データブロックをロードするが、この場合、４つの宛先レジスタの一部にデータを書き込む。書き込まれる宛先レジスタの部分、およびベースアドレスレジスタからのオフセットは、「ｐａｔ」パラメータによって決定される。命令が同じベースアドレスと宛先レジスタで４回実行されたが、異なる「ｐａｔ」値を有する場合、その効果は、メモリからデータをロードし、４のストライドで指定されたレジスタにデインターリーブすることである。ベースアドレスレジスタは、群内の最後の命令の実行時に必要に応じて６４だけインクリメントされることによって、６４バイトのデータが処理されたことを示すことができる。

図１１Ｃのベクトルストア命令（ＶＳＴ２）を考えると、この命令が実行されるたびに、それは２つのソースレジスタの複数の部分からなるメモリに２つの６４ビット連続データブロックを保存する。ソースレジスタから読み出される部分、およびベースアドレスレジスタからのオフセットは、「ｐａｔ」パラメータによって決定される。命令が同じベースアドレスとソースレジスタで２回実行されたが、異なる「ｐａｔ」値を有する場合、その効果は、指定されたレジスタからのデータを２のストライドでインターリーブし、結果のデータをメモリに保存することである。ベースアドレスレジスタは、必要に応じて３２だけインクリメントされることができる。

図１１ＤのＶＳＴ４命令を考えると、これも同様に、実行されるたびに２つの６４ビット連続データブロックをメモリに保存し、この場合、連続ブロックは、４つのソースレジスタの複数部分からのデータから構成される。ソースレジスタから読み出される部分、およびベースアドレスレジスタからのオフセットは、「ｐａｔ」パラメータによって決定される。命令が同じベースアドレスレジスタとソースレジスタで４回実行されたが、異なる「ｐａｔ」値を有する場合、その効果は、指定されたレジスタのデータ要素を４のストライドでインターリーブし、結果のデータをメモリに保存することである。ベースアドレスレジスタは、必要に応じて６４だけインクリメントされることができる。

図１２は、群の前述の並べ替え命令を含む一連のプログラム命令を復号するときの復号器６の動作を示すフロー図である。ステップ６５０において、現在の命令が分析され、その後、ステップ６５５において、その命令が群の並べ替え命令であるかどうかが判定される。そうでなければ、ステップ６６０において、関連する実行ユニットに対する制御信号を生成するために命令に関して標準的な復号動作が実行され、その後、ステップ６６５において、復号器は、次の命令に移動した後、ステップ６５０に戻る。

ステップ６５５において、分析中の現在の命令が群の並べ替え命令であると判定された場合、ステップ６７０において、その群のどのメンバの命令であるかが識別され、これは、前述の「ｐａｔ」値を参照することによって達成される。その後、ステップ６７５において、命令が群のどのメンバであるかに応じてデータ要素アクセスパターン指示が生成され、ステップ６８０において、データ要素アクセスパターンインジケータを含むロードストアユニットの制御信号を生成するために残りの復号動作が実行される。

一実施形態では、図８および図９の先の説明から理解されるように、ステップ６７５において生成されたデータ要素アクセスパターンインジケータは、ＬＳＵにより命令オペコードから抽出された「ｐａｔ」ビットによって効果的に単に形成されることができ、そして、適切なメモリアクセスおよびレジスタアクセスパターンを生成するために、ビート識別子（および必要に応じて要素識別子情報）と組み合わせてこの情報を使用する。

ステップ６８０に続いて、プロセスは、ステップ６６５を介してステップ６５０に戻る。

前述のように、群内の１つ以上の命令は、指定されたベースアドレスレジスタ内のベースアドレスを更新するように構成されることができる。特定の一実施形態では、群内の最後の命令がベースアドレスレジスタの更新を実行するために使用され、ベースアドレス値が更新される量は、群内の並べ替え命令によって実行される全てのアクセスを考慮する。

必要に応じて、そのようなロードまたはストア命令を実行するときに実行される動作はまた、データ拡大またはデータ縮小機能を含むように拡張されることもできる。これは、データがベクトルレジスタ内に格納されている形式とは異なる形式でメモリに格納されている場合に有用であり得る。例えば、それは、ベクトルレジスタ内にあるよりも切り捨てられた形式でメモリに格納されてもよい。図１３は、データがメモリからベクトルレジスタにロードされるときにデータ拡大を実行しようとするときに実行されることができる一連のステップを示している。特に、群内の各並べ替え命令を実行するときに実行されるメモリへの各アクセス中に、図１３のプロセスを実行することができる。ステップ７００において、関連データ要素がメモリ位置から取得され、各データ要素が第１のサイズを有する。次に、ステップ７０５において、第２のサイズのデータ要素を生成するために、それらのデータ要素に対して（例えば、メモリから取得された値をゼロ拡張または符号拡張することによって）データ拡大動作が実行される。

次に、ステップ７１０において、書き込まれるべきベクトルレジスタ部分がデータ要素アクセスパターン情報（および図９を参照して前述したようにビート情報など）から決定され、次にステップ７１５において、拡大されたデータ要素がベクトルレジスタの識別された部分に書き込まれる。

必要に応じて同等のデータ絞り込み機能を実行することができ、取得されたデータをゼロまたは符号拡張する代わりに、取得されたデータ要素の切り捨てが実行されることを理解されたい。一実施形態では、データは、メモリからベクトルレジスタに取り出されるときに拡大され、ベクトルレジスタからメモリに戻されるときに縮小されるが、代替実施形態では、データは、メモリから取り出されるときに縮小され、メモリに戻されるときに拡大されてもよい。

必要に応じて、アクセスされたアドレス範囲内の１つ以上のデータ構造を処理から除外させるように、一群の並べ替え命令が述語情報によって限定されることができる。図７Ａから図７Ｇに先に示したアクセスパターンから明らかなように、１つ以上のデータ構造を処理から除外しようとするときに、これが群内の任意の個々の命令に対して実行される処理に何らかの影響を与えるかどうかに関する決定は、アクセスパターンに依存する。例えば、アクセスパターンが図７Ｂに示される形式を取り得るＶＬＤ４ｎ命令群を考え、第２のレーンに配置されるべきデータ構造を処理から除外することが決定される場合、これは、ブロック２５０に関連するアクセスを実行するＶＬＤ４ｎ命令の第１のアクセスおよびブロック２６０に関連するＶＬＤ４ｎ命令の第１のアクセスに影響を与えることがわかる。しかしながら、他のＶＬＤ４ｎ命令は、正常に実行されることができる。

一実施形態では、図１４Ａに示すような述語レジスタ７５０を使用して述語値を指定することができる。一実施形態では、これは、１６ビットレジスタとすることができ、述語レジスタのどのビットが使用されるかは、データ要素のサイズに依存する。例えば、ベクトルレジスタが１２８ビット幅であり、データ要素が３２ビットサイズである場合、ベクトルレジスタあたり４つのデータ要素があり、ＬＳＵは、述語情報の評価時に述語レジスタ７５０の４ビットごとにのみ参照するように構成されることができる。同様に、１６ビットデータ要素については、それは１ビットおきに見るように構成されることができる一方で、８ビットデータ要素については、それは述語レジスタの全てのビットを見るように構成されることができる。これは、ＬＳＵによって参照されることを要求される述語情報を実装する方法の単なる例であり、述語情報を表現する他の方法が使用されてもよいことが理解されるであろう。

図１４Ｂは、群内の各並べ替え命令の実行中に述語情報がどのように使用されるかを概略的に示すフロー図である。ステップ７６０において、現在の命令が述語付きであるかどうかが判定される。一実施形態では、述語レジスタ７５０を設定するために別個の命令が使用され、一実施形態では、その命令はまた、後続の「Ｍ」個の命令が記載されるべきであることを識別する。したがって、一例として、そのような命令は、ＶＬＤ４ｎ命令の群の前に実行されてもよく、４つのＶＬＤ４ｎ命令のそれらの群が記載されるべきであることを識別する。

現在の命令が記載されないことが決定されると、プロセスは、ステップ７７５に進み、そこで、ＬＳＵは、必要なロードまたはストア動作および関連する並べ替えを実行するために必要なデータ要素にアクセスするためにメモリへの１つ以上のアクセスを実行する。

しかしながら、ステップ７６０において現在の命令が記載されると判定された場合、ステップ７６５において、命令によって処理されているデータ要素サイズに応じて、述語レジスタのどのビットを使用するかが決定される。その後、ステップ７７０において、関連する述語ビットが現在の命令に関連したアクセスパターン情報とともに分析され、命令を実行するために必要とされるアクセスに対する述語ビットの効果があればそれを決定する。図７Ｂを参照して説明した上述の例をとると、これは、ブロック２５０へのアクセスを実行するＶＬＤ４ｎ命令が実行されると、その第１のアクセスが必要ではないと判定し、同様に、ブロック２６０へのアクセスを実行するＶＬＤ４ｎ命令が実行されると、その第１のアクセスが必要ではないと判定し、述語情報が第２のレーンに関連するデータ構造の処理から除外しようとしていると仮定することを意味する。

ステップ７７０における分析に続いて、ステップ７７５において、必要なデータ要素にアクセスするためにメモリへの１つ以上のアクセスが実行される。言うまでもなく、述語情報は、原則として、１つ以上の並べ替え命令についてアクセスを実行する必要がないことを意味することができ、したがって、これらの例では、ステップ７７５においてアクセスは実行されないことになる。

上述の実施形態から、ベクトルロード命令およびストア命令を使用して並べ替え動作（インターリーブ演算およびデインターリーブ演算など）を実行しようとするとき、必要な並べ替え動作を実行するために群に配置された複数の別々の命令を使用することによって処理を改善できることが理解されよう。特に、そのようなアプローチは、ロード命令またはストア命令を実行するときに停止サイクルが導入される可能性を大幅に低減することができる。さらに、各命令に関連するアクセスパターンを適切に配置することによって、命令をメモリと算術命令との重複実行を可能にするアーキテクチャと互換性を持たせることができ、したがって性能がさらに向上する。前述のアプローチを採用することによって、命令を容易に実行することができ、メモリサブシステムを効率的に使用することが可能になる。

以下の実施形態は、ベクトルレジスタのセットにアクセスするための新規な構成を説明する。そのようなアプローチは、様々な状況で有用であり得る。一例として、それは、前述の様々なデータ要素アクセスパターンの使用を容易にすることができる。

図１５は、一実施形態にかかる書き込みアクセス回路を有するベクトルレジスタファイル８００の一部を概略的に示している。ベクトルレジスタファイル８００は、多数のベクトルレジスタから構成され、各ベクトルレジスタは、多数のスカラーレジスタから構成されている。図１５に示される実施形態では、ベクトルレジスタファイル８００の一部は、図１５内の行として表される４つのベクトルレジスタ８０５、８１０、８１５、８２０の一部を示している。各ベクトルレジスタ８０５、８１０、８１５、８２０は、いくつかのスカラーレジスタを使用することによってベクトルを格納する。例えば、第１のベクトルレジスタ８０５は、２つのスカラーレジスタ−ｓ０およびｓ１から部分的に構成される一方で、第２のベクトルレジスタ８１０は、２つの他のスカラーレジスタ−ｓ４およびｓ５から部分的に構成されている。ベクトルレジスタファイル８００に加えて、（レジスタアクセス回路の一例である）書き込みアクセス回路８３０が提供される。書き込みアクセス回路は、第１のアクセスブロック８３５と第２のアクセスブロック８４０とを含み、図２４を参照してより詳細に説明される。各アクセスブロックは、一度にベクトルの一部にアクセスすることができる。したがって、同時にアクセスされる（例えば書き込まれる）ことができるデータ量は制限される。特に、第１のアクセスブロック８３５と第２のアクセスブロック８４０で同時に提供されるベクトルレジスタファイル８００に同時にデータを書き込むことのみが可能である。この例では、便宜上、１つの部分がスカラーレジスタと同じサイズであると仮定される。図１５の実施形態では、レジスタファイル８００の一部は、２つの列８４５、８５０を含む。各列は、各ベクトルの同じ部分を格納する。この例では、部分サイズは、スカラーレジスタサイズと同じであるため、列は、スカラーレジスタｓ０、ｓ１、ｓ４、ｓ５、ｓ８、ｓ９、ｓ１２、ｓ１３と整列する。

図１５に示すように、スカラーレジスタは、２つのポート８３５、８４０のうちの一方に配線されている。図１５の例では、スカラーレジスタｓ０、ｓ５、ｓ８、およびｓ１３は、第１のアクセスブロック８３５に配線されているのに対し、スカラーレジスタｓ１、ｓ４、ｓ９、およびｓ１２は、第２のアクセスブロック８４０に配線されている。概略的な観点から、図１５を参照して示される配線は、多数のねじれを含むことが理解されるであろう。換言すれば、互いの上または下にある全てのスカラーレジスタを同じポートに単に配線するだけではなく、配線の論理的なねじれが発生する。このようにして、書き込みアクセス回路が、スカラーレジスタｓ０およびｓ１など、行内にあるスカラーレジスタ（すなわち、同じベクトルレジスタの一部）に同時に書き込むことが可能である。同じ書き込みアクセス回路はまた、スカラーレジスタｓ０およびｓ４などの同じ列にあるスカラーレジスタに同時に書き込むこともできる。これは、一対のスカラーレジスタｓ０およびｓ４、ならびに一対のスカラーレジスタｓ０およびｓ１が異なるポート８３５、８４０に配線されているためである。なお、ここでは配線のツイストについて言及しているが、実際には配線が物理的にねじれている必要はない。スカラーレジスタ自体は、配線がまっすぐになるように（同じ論理識別子／アドレスをリネームしながら）物理的に並べ替えることができ、同じ効果を生み出すことができることを理解されたい。

同様の概念が、図１６に示すようなレジスタアクセス回路の他の例である読み取りアクセス回路８５５にもあてはまる。この例では、読み取りアクセス回路８５５はまた、第１のアクセスブロック８６０および第２のアクセスブロック８６５を有する。スカラーレジスタのうちのいくつか−ｓ０、ｓ５、ｓ８、およびｓ１３は、第１のアクセスブロック８６０に接続される一方で、他のもの−ｓ１、ｓ４、ｓ９、およびｓ１２は、第２のアクセスブロック８６５に接続される。したがって、スカラーレジスタのうちの２つに同時にアクセスする（例えば、そこから読み取る）ことができ、ねじれ配線によって、レジスタｓ４およびｓ５などのベクトルレジスタ８０５、８１０、８１５、８２０のうちの１つからの２つのレジスタ、またはレジスタｓ４およびｓ８などの同じ列にある２つのレジスタのいずれかを読み取ることが可能である。これは、同じ列にあるレジスタが、それらが接続されているアクセスブロックを交互に配置し、また各列のレジスタが、それらが接続されているアクセスブロックを交互に配置しているためである。図１５および図１６に示す実施形態では、配線は同様の方法で示されているが、図１５の書き込みアクセス回路８３０および図１６の読み取りアクセス回路８５５に関して異なる物理的ワイヤが使用されていることに留意されたい。しかしながら、これは必須ではなく、他の実施形態は、書き込みアクセス回路８３０および読み取りアクセス回路８５５の両方に全く同じ配線を使用することができる。

図１７は、一実施形態にかかる書き込みアクセス回路を有するベクトルレジスタファイル８００を概略的に示している。ベクトルレジスタファイル８００は、第１の書き込みアクセス回路８８０を有する第１のセクション８７０と、第２の書き込みアクセス回路８８５を有する第２のセクション８７５とからなる。書き込み回路８８０、８８５のそれぞれは、その関連するセクションの一部である列内の部分にのみアクセスする。例えば、第１の書き込みアクセス回路８８０は、第１のセクション８７０の列内の部分にのみアクセスする一方で、第２の書き込みアクセス回路８８５は、第２のセクション８７５の列内の部分にのみアクセスする。したがって、ねじれがセクションの境界を横切って延在しないことが理解されるであろう。

図１８は、第１の読み取りアクセス回路８９０および第２の読み取りアクセス回路８９５を有するベクトルレジスタファイル８００を概略的に示している。図１７に示す実施形態の場合のように、第１の読み取りアクセス回路８９０は、第１のセクション８７０内の列内の部分にアクセスし、第２の読み取りアクセス回路８９５は、第２のセクション８７５内の列内の部分にアクセスする。

図１９Ａは、ベクトルレジスタファイル内の単一のねじれの例を示しており、ベクトルレジスタファイルは、ワードを示すテキスト形式で示されている。図１９Ａの例では、各ベクトルは、４列にわたって広がる４つの部分を含む。前と同様に、各列は、各ベクトルの同じ部分を格納する。しかしながら、ラベルＡ、Ｂ、Ｃ、およびＤは、同じポートを介してアクセスされる部分を示すために提供されている。したがって、Ｑ０からＱ７までベクトルレジスタを通って上方に進むときにＡとラベリングされた円で囲まれた部分が第３列と第４列との間でどのように交互に交替するかがわかる。各部分のパターンは、２^１、すなわち２列にわたって分布しているため、ベクトルレジスタファイルは、単一ねじれを有すると言われる。

図１９Ｂは、ベクトルレジスタファイル内の単一ねじれの例を示しており、ベクトルレジスタファイルは、バイトを示すテキスト形式で示されている。図１９Ｂは、図１９Ｂがベクトルレジスタファイルをバイト形式で示している以外は図１９Ａに対応する。特に、各ワードは、４バイトから構成されている（すなわち、各ワードは３２ビットである）ことが示されている。各ワードを構成する４バイトは、各ラベルの末尾に番号付きの添え字を追加することによって示されている。例えば、Ａとラベリングされたワードは、Ａ０、Ａ１、Ａ２、およびＡ３とラベリングされたバイトから構成されている。ここでも同様に、単一ねじれパターンは、Ａというワードを構成する全てのバイトを取り巻くことによって示されている。また、パターンは、２列にわたって分散していることがわかる。

場合によっては、ベクタレジスタファイルに対してより広い範囲のアクセスパターンを指定する必要がある。例えば、ベクトルがそれぞれ１６ビットの８つのデータ要素を含む場合、各ベクトルは１２８ビットになる。したがって、２つのセクションの場合、各セクションは６４ビットになる。したがって、各ベクトルの各アクセス部分は、１６ビットである必要があるため、各セクションに６４／１６＝４列が設けられる必要がある。同じ列からの部分に同時にアクセスし、同じ回路が同じ商レジスタからの部分に同時にアクセスできるようにするために、２回以上のねじれを与える必要がある。特に、第２の３２ビットねじれパターン内に入れ子にされた第１の１６ビットねじれパターンを提供することが必要であろう。

図２０は、そのようなパターンの１つを示しており、図１９Ｂに示される合計４列（セクションあたり２）とは対照的に合計８列（セクションあたり４）を使用するが、便宜上、図１９Ｂと同じラベリングを使用する。図２０の例は、楕円を含む第１の３２ビットのねじれパターンを示しており、Ａ個の要素全てを包含し、１＋２列と３＋４列を交互に繰り返す。１６ビットねじれパターン（長方形で表示）は、より複雑であり、読み取りまたは書き込みアクセス回路のポートの１つに行われる接続を表している。特に、各楕円内の２対の列に対して、アクセス回路は、２つのベクトルレジスタごとに左対と右対を接続することを交互に繰り返す。例えば、ベクトルレジスタＱ０では、右楕円の右対が接続されている。これは、さらに２つのベクトルレジスタの後に（すなわち、ベクトルレジスタＱ２において）右楕円の左対と交番する。さらに２つのレジスタの後に（すなわち、ベクトルレジスタＱ４において）、右楕円の右対が再びアクセスされる。同様のパターンが左楕円に関しても発生する。特に、ベクトルレジスタＱ１では、左楕円の右対が接続され、左楕円の左対が接続されるように、これはさらに２つのレジスタの後に（すなわち、ベクトルレジスタＱ３において）交番する。この場合もやはり、これは、さらに２つのベクトルレジスタの後に（すなわち、ベクトルレジスタＱ５において）左楕円の右対に戻る。別の見方をすると、列１、３、２、および４（列を右から左に数える）は、アクセス回路のポートの１つによってベクトルレジスタＱ０からＱ３にわたってアクセスされる。換言すれば、アクセスブロックは、各ベクトルレジスタＱ０からＱ３にわたって各セクション内の異なる列にアクセスする。ベクトルレジスタＱ３の後、パターンは繰り返される。

セクション内の各列について、配線パターンが繰り返される前に「通過」しなければならないベクトルレジスタの数は、列数に等しいことが理解されよう。

図２０において、「ねじれサイズ」、すなわち、ねじれの影響を受ける部分のサイズがデータ要素サイズと異なり得ることも明らかであることに留意されたい。これは、特定の配線の配置でベクトルレジスタファイルを作成すると、発生する可能性のあるねじれの程度（および列数）が固定されるためである。その時点で、ベクトルレジスタファイルは、データ要素のサイズに依存しなくなる。特に、図２０の場合のように、部分サイズが１６ビットである場合、図２０の場合と同様に、同じレジスタファイルを使用して１６ビットデータ要素または３２ビットデータ要素を格納することができる。

図２１は、一実施形態にしたがって回路が二重ねじれを実行するベクトルレジスタファイル９００の１つのセクションを概略的に示している。例えば、図２１の概略図は、図２０に示す二重ねじれパターンに対応することができる。図２１に示す実施形態では、ベクトルレジスタは、それぞれ３２ビットの複数のスカラーレジスタｓ０、ｓ１、ｓ４、ｓ５、ｓ８、ｓ９、ｓ１２、ｓ１３からなる。しかしながら、各部分のサイズは、１６ビットである。その結果、各スカラーレジスタは、２つの部分を格納し、図２１に示されるセクションは、４列を含む。図２１に示される実施形態は、４つの異なる様式の線９０５、９１０、９１５、９２０を示している。線９０５、９１０、９１５、９２０のそれぞれは、配線、またはアクセス回路の同じアクセスブロックに接続されている部分を表す。ライン９０５のうちの１つが図２０に関して示された接続パターンに対応することに留意されたい。その特定のラインは、それぞれ、ベクトルレジスタＱ０、Ｑ１、Ｑ２、およびＱ３（下から上へ）の列１、３、２、および４（右から左へ）に接続する。図２１の最上のベクトルレジスタ（Ｑ３）の上方に示すように、４つのベクトルレジスタの後、各ラインのアクセスパターンは、それ自体を繰り返す。

同時にアクセスする必要のないベクトルレジスタのこれらの部分をレジスタアクセス回路の同じアクセスブロックに配線することにより、行または列の部分に同時にアクセスすることを可能にするために、単一ねじれパターンおよび二重ねじれパターンをどのように実現できるかが示されている。しかしながら、入れ子にされたねじれパターンの概念は、無限に拡張することができる。例えば、第３のレベルの入れ子にされたねじれを追加することによって−部分／列の数を２倍にすることによって、列または行内の単一セクション内の２^３＝８個の８ビット部分に同時にアクセスすることが可能である。

図２２は、一実施形態にかかる、ねじれを実行するプロセスを任意の回数だけ入れ子状にねじることを実行するために一般化することができる方法を示す図である。図２２は、レジスタファイル９２５の一部を示している。スカラーレジスタｓ０、ｓ１、ｓ２、およびｓ３を含む単一のベクトルレジスタ９３０が示されている。レジスタファイルは、それぞれ８列を含む２つのセクション９３５、９４０を含む。しかしながら、同じ原則を単一のセクションに適用することができる。列は入れ子構造で論理的にグループ化されていると考えることができる。入れ子状構造は、ｌｏｇ_２（Ｎ）レベルを有し、Ｎはセクション内の列数である。したがって、この場合、入れ子状構造は、ｌｏｇ_２（８）＝３レベルの９４５、９５０、９５５を有する。レベル数はまた、入れ子の深さにも対応する。したがって、この特定の例では、入れ子は、３レベルの深さになる。第１のレベル９４５では、Ｎ＝８の列が少なくとも１つの列の第１のセット９８０と少なくとも１つの列の第２のセット９８５との間で等しく分割される。ともに、これらは、第１のレベル９４５で組み合わされた群９８０、９８５を形成する。各親レベル（例えば、第２のレベル９５０）の各セットは、対応する子レベル（例えば、第３のレベル９５５）について、少なくとも１つの列の第１のセットと少なくとも１つの列の第２のセットに等しく分割される。例えば、図２２では、親レベル９５０において、少なくとも１つの列の組９７０のうちの１つが、子レベル９５５内の少なくとも１つの列の第１のセット９６０および少なくとも１つの列の第２のセット９６５に分割される。所与のレベルＬにおける組み合わせ群の数は、２^Ｌに等しい。したがって、親レベルの他のセットにも同じ分割プロセスがあてはまる。

当然のことながら、レベル９４５、９５０、および９５５は、完全に概念的であり、列を次第に大きくなる（または次第に小さくなる）セットにグループ化する目的で単に使用されるにすぎない。

この構造が適切に配置されていると、アクセス回路（次の図で説明）のアクセスブロックとベクタレジスタの様々な部分との間の配線を記述することができる。各アクセスブロックは、各ベクトルレジスタに対して１つの列にアクセスするように構成されている。そのアクセスブロック／ベクトルレジスタの組み合わせについて訪問される１つの列は、各レベルにおいて、同数のベクトルレジスタに対して、少なくとも１つの列の第２のセットを訪問する前に少なくとも１つの列の第１のセットが所定数のベクトルレジスタの半分について訪問されるという要件または制約によって一意的に識別可能である。所定数は２^Ｘに等しく、Ｘは、各レベルで異なり、１からｌｏｇ_２（Ｎ）の範囲内である。したがって、所定数は、２−８の範囲内である。したがって、各アクセスブロックは、例えば、第２のセット９８５内の同数の列を訪問する前に、第１のセット９８０内の１−４列を訪問する。同じことが、第２のレベル９５０における２つの第１のセットおよび２つの第２のセット、ならびに第３のレベル９５５における４つの第１のセットおよび４つの第２のセットにもあてはまる。

図２２に示されている組み合わせ群９７０、９７５は、第１のセットの列９７０および第２のセットの列９７５から構成され、入れ子状構造の第２のレベルで発生する。したがって、一例では、４つのベクトルレジスタにわたって、１つのアクセスブロックが列９６０にアクセスし、続いて列９６５にアクセスし、続いて組み合わせ群９７５内の２つの列にアクセスすることができる。第２の例では、１つのアクセスブロックが列９６０にアクセスし、続いて組み合わせ群９７５内の列のうちの１つ、続いて列９６５、続いて組み合わせ群９７５内の他の列にアクセスすることができる。各列は、単一のベクトルレジスタに対する単一のアクセスブロックによってのみ訪問されるので、第１の例では、別のアクセスブロックが組み合わせ群９７５内の２つの異なる列にアクセスし、その後に列９６０が続き、次に列９６５が続く。

配線の一例では、セクション内の各アクセスブロックは、第１のセットからの列を訪問し、別の２^Ｍ−１個のベクトルレジスタ内で対応する第２のセットからの列を訪問し、Ｍは所与のレベルである。例えば、第１のアクセスブロックが、２^１−１＝１個のベクトルレジスタ内の第１のレベル９４５の第１のセット９８０からの列を訪問するとき、第１のレベル９４５の対応する第２のセット９８５内の列が訪問される。換言すれば、各ベクトルレジスタにわたって、アクセスブロックは、第１のセット９８０および第２のセット９８５の列の間で交番する。同様に、第２のレベル９５０において、２^２−１＝２ベクトルレジスタ内の第１のセット９７０内の列を訪問した後、対応する第２のセット９７５内の列が訪問されることになる。

したがって、任意の深さの入れ子に対して配線パターンをどのように生成できるかがわかる。

図２３は、一実施形態にかかるレジスタアクセス回路の例としての読み取りアクセス回路または読み取りポートを概略的に示している。図２３に示す実施形態では、読み取りアクセス回路は、第１のセクションに４つのアクセスブロック９９０、９９５、１０００、１００５を備え、第２のセクションに代替アクセスブロック９９０’、９９５’、１０００’、１００５’を備える。各アクセスブロックは、マルチプレクサとして実装されている。セクションごとに４つのアクセスブロックが存在することは、そのような回路がセクション内に４つの列がある場合に使用されることを示している。換言すれば、そのような回路は、図２１に示されるレジスタファイル９００のように、二重入れ子が発生するところで使用されるであろう。セクション内の各アクセスブロックは、前述のようにそのセクション内のベクトルレジスタを横切って複数の部分に接続されている。ねじれが生じる場合、部分が出力される順序は、逆にされることができることが理解されるであろう。例えば、図１８を参照すると、ベクトルレジスタＱ０にアクセスするとき、部分は、ｓ３、ｓ２、ｓ１、ｓ０の順序（すなわち降順）で出てくる。しかしながら、ベクトルレジスタＱ１にアクセスするとき、部分は、ｓ６、ｓ７、ｓ４、ｓ５の順序（非降順）で出てくる。これを修正するために、（並べ替え回路の例である）クロスバーマルチプレクサ１０１０が各セクションに設けられ、そのセクションのアクセスブロック９９０、９９５、１０００、１００５の出力を並べ替えることができる。そして、クロスバーマルチプレクサ１０１０からの出力は、さらなるマルチプレクサ１０１５の両方に供給され、スカラー値を提供することを可能にする。出力はまた、ともに併合されて群読み取りポートに供給され、４つの選択された値の全て（すなわち、列または行から）を読み取ることを可能にする。

図２４は、一実施形態にかかるレジスタアクセス回路の例としての書き込みアクセス回路を概略的に示している。図２３に示される読み取り回路と同様に、図２４に示される書き込み回路は、部分の並べ替えに関して同様の問題を有する。特に、部分は、１つの順序でベクトルレジスタファイル９００に供給されてもよいが、前述の配線の結果として並べ替えられなければならない場合がある。これを補償するために、ベクトルレジスタファイル９００に書き込まれる前に入力を並べ替えるために、クロスバーマルチプレクサ１０２０（並べ替え回路の例）が設けられる。

図２５は、一実施形態にかかる製造方法を示すフローチャート１０２５である。第１のステップ１０３０において、ベクトルレジスタのセットが提供される。各ベクトルレジスタは、複数の部分を含むベクトルを格納するように構成される。第２のステップ１０３５において、ベクトルレジスタの各セクションに対するレジスタアクセス回路が提供される。第３のステップ１０４０において、各アクセスブロックは、ベクトルレジスタのうちの１つにアクセスするときに他のベクトルレジスタのうちの少なくとも１つにアクセスするときとは異なる列内のベクトルレジスタの部分にアクセスするように構成される。その結果、レジスタアクセス回路は、ベクトルレジスタまたは列内のベクトルレジスタの一部に同時にアクセスするように構成される。

図２６は、使用されることができる仮想マシン実装を示している。前述の実施形態は、関連する技術をサポートする特定の処理ハードウェアを動作させるための装置および方法に関して本発明を実施するが、ハードウェア装置のいわゆる仮想マシン実装を提供することも可能である。これらの仮想マシン実装は、仮想マシンプログラム１３００をサポートするホストオペレーティングシステム１４００を実行しているホストプロセッサ１５００上で実行される。通常、大規模で強力なプロセッサは、妥当な速度で実行する仮想マシンの実装を提供する必要がありますが、互換性や再利用の理由のために別のプロセッサにネイティブなコードを実行したい場合など、特定の状況では、そのようなアプローチは妥当である。仮想マシンプログラム１３００は、仮想マシンプログラム１３００によってモデル化されている装置である実際のハードウェアによって提供されるであろうハードウェアインターフェースと同じである仮想ハードウェアインターフェースをゲストプログラム１２００に提供する。したがって、上述の並べ替え命令を含むプログラム命令は、仮想マシンハードウェアとのそれらの相互作用をモデル化するために仮想マシンプログラム１３００を使用してゲストプログラム１２００内から実行されてもよい。ゲストプログラム１２００は、ベアメタルプログラムでもよく、あるいはホストＯＳ１４００が仮想マシンアプリケーション１３００を実行するのと同様の方法でアプリケーションを実行するゲストオペレーティングシステムであってもよい。異なる種類の仮想マシンが存在し、いくつかの種類では、仮想マシンは、ホストＯＳ１４００を必要とせずにホストハードウェア１５００上で直接動作することも理解されよう。

本出願において、「・・・ように構成された」という用語は、装置の要素が定義された動作を実行することができる構成を有することを意味するために使用される。この文脈において、「構成」は、ハードウェアまたはソフトウェアの相互接続の構成または方法を意味する。例えば、装置は、定義された動作を提供する専用のハードウェアを有することができ、またはプロセッサまたは他の処理装置が機能を実行するようにプログラムされることができる。「ように構成された」は、定義された動作を提供するために装置要素が何らかの方法で変更される必要があることを意味しない。

本発明の例示的な実施形態が添付図面を参照して詳細に説明されたが、本発明は、これらの厳密な実施形態に限定されるものではなく、当業者であれば、添付の特許請求の範囲によって定義される本発明の範囲および趣旨から逸脱することなく、様々な変形、追加および変更を行うことができることが理解されるべきである。例えば、従属請求項の特徴の様々な組み合わせは、本発明の範囲から逸脱することなく、独立請求項の特徴によって行うことができる。

Claims

それぞれが複数の部分を含むベクトルを記憶するように構成されたベクトルレジスタのセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割された前記ベクトルレジスタのセットと、
各アクセスブロックが前記ベクトルレジスタのうちの１つにアクセスするときに前記ベクトルレジスタのうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスするように構成された複数のアクセスブロックを含むレジスタアクセス回路とを備え、
前記レジスタアクセス回路が、前記ベクトルレジスタおよび前記列のうちのいずれか１つの複数の部分に同時にアクセスするように構成される、装置。
前記ベクトルレジスタのセットが、少なくとも１つのセクションを備え、各セクションが、異なる列を含み、
前記装置が、各セクションについてのレジスタアクセス回路を備え、各レジスタアクセス回路が、そのレジスタアクセス回路に関連する前記セクション内の部分にアクセスするように構成される、
請求項１に記載の装置。
各アクセスブロックが、前記ベクトルレジスタのうちの１つにアクセスするとき、各セクション内に含まれる列の数から１を引いた数に等しいいくつかの他の前記ベクトルレジスタにアクセスするときとは異なる列内の部分にアクセスするように構成される、
請求項２に記載の装置。
第１のアクセスブロックが、第１のベクトルレジスタの第１の列にアクセスし、第２のベクトルレジスタの第２の列にアクセスするように構成され、第２のアクセスブロックは、前記第１のベクトルレジスタの第２の列にアクセスし、前記第２のベクトルレジスタの第１の列にアクセスするように構成される、
請求項１〜３のうちいずれか一項に記載の装置。
各セクションが、Ｎ列に論理的に分割され、
前記Ｎ列が、ｌｏｇ_２（Ｎ）個のレベルを有する入れ子状構造に論理的に配置され、Ｎが４以上であり、２の整数乗であり、
第１のレベルでは、前記Ｎ列が、前記第１のレベルについての少なくとも１列の第１のセットと前記第１のレベルについての少なくとも１列の第２のセットとの間で等しく分割され、
各親レベル内の少なくとも１つの列のセットのそれぞれが、対応する子レベルについての少なくとも１つの列の第１のセットおよびその対応する子レベルについての少なくとも１つの列の第２のセットに再度等しく分割され、
各アクセスブロックが、各ベクトルレジスタについて１つの列を訪問するように構成され、前記１つの列が、各レベルについて、所定数のベクトルレジスタの半分についての少なくとも１つの列の第２のセットを訪問する前に、前記所定数のベクトルレジスタの半分についての少なくとも１つの列の第１のセットを訪問する制約によって一意的に識別され、
前記所定数が２^Ｘに等しく、前記Ｘが各レベルで異なり、１からｌｏｇ_２（Ｎ）の範囲内である、
請求項２または請求項３に記載の装置。
前記ベクトルレジスタのセットが、２つのセクションを含み、
Ｎが４の値を有する、
請求項５に記載の装置。
前記レジスタアクセス回路が、前記ベクトルレジスタに記憶されているデータ要素を出力するための読み取りアクセス回路を備え、
前記レジスタアクセス回路が、前記データ要素を前記ベクトルレジスタに入力するための書き込みアクセス回路を備える、
請求項１〜６のうちいずれか一項に記載の装置。
前記読み取りアクセス回路が、複数の列のそれぞれに対して１つのアクセスブロックを備える、
請求項７に記載の装置。
前記読み取りアクセス回路が、複数の列のそれぞれに対して最大で１つのアクセスブロックを備える、
請求項７または請求項８に記載の装置。
前記読み取りアクセス回路内の前記アクセスブロックがマルチプレクサを備える、
請求項７〜９のうちいずれか一項に記載の装置。
前記ベクトルレジスタのセットが、少なくとも１つのセクションを含み、各セクションが異なる列を含み、
前記装置が、各セクションについてのレジスタアクセス回路を備え、各レジスタアクセス回路が、そのレジスタアクセス回路に関連するセクション内の部分にアクセスするように構成され、
各セクションについて、前記読み取りアクセス回路が、前記読み取りアクセス回路内の各アクセスブロックからの出力を並べ替えるための並べ替え回路を備える、
請求項７〜１０のうちいずれか一項に記載の装置。
前記並べ替え回路がクロスバーマルチプレクサである、
請求項１１に記載の装置。
前記書き込みアクセス回路が、複数の列のそれぞれに対して１つのアクセスブロックを備える、
請求項７に記載の装置。
前記書き込みアクセス回路が、複数の列のそれぞれに対して最大で１つのアクセスブロックを備える、
請求項１２または請求項１３に記載の装置。
前記ベクトルレジスタのセットが、少なくとも１つのセクションを含み、各セクションが異なる列を含み、
前記装置が、各セクションについてのレジスタアクセス回路を備え、各レジスタアクセス回路が、そのレジスタアクセス回路に関連するセクション内の部分にアクセスするように構成され、
各セクションについて、前記書き込みアクセス回路が、前記書き込みアクセス回路内の各アクセスブロックへの入力を並べ替えるための並べ替え回路を備える、
請求項１３または請求項１４に記載の装置。
前記並べ替え回路がクロスバーマルチプレクサである、
請求項１５に記載の装置。
前記ベクトルレジスタが１２８ビットレジスタである、
請求項１〜１６のうちいずれか一項に記載の装置。
各ベクトルレジスタが複数の３２ビットレジスタを備える、
請求項１〜１７のうちいずれか一項に記載の装置。
それぞれが複数の部分を含むベクトルを記憶するように構成されたベクトルレジスタのセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割された前記ベクトルレジスタのセットを提供することと、
複数のアクセスブロックを含むレジスタアクセス回路を提供することとを備え、
各アクセスブロックが前記ベクトルレジスタのうちの１つにアクセスするときに前記ベクトルレジスタのうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスするように構成され、
前記レジスタアクセス回路が、前記ベクトルレジスタおよび前記列のうちのいずれか１つの部分に同時にアクセスするように構成される、
装置を製造する方法。
それぞれが複数の部分を含むベクトルを記憶するベクトルレジスタ手段のセットであって、各列が各ベクトルの同じ部分を記憶するように配置された論理的に複数の列に分割された前記ベクトルレジスタ手段のセットと、
前記ベクトルレジスタ手段および前記列のうちのいずれか１つの複数の部分に同時にアクセスするレジスタアクセス手段であって、前記ベクトルレジスタ手段のうちの１つにアクセスするときに前記ベクトルレジスタ手段のうちの他の少なくとも１つにアクセスするときとは異なる列内の部分にアクセスする複数のアクセスブロック手段を含む前記レジスタアクセス手段と
を備える、装置。