JP4727207B2 - データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 - Google Patents
データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 Download PDFInfo
- Publication number
- JP4727207B2 JP4727207B2 JP2004308630A JP2004308630A JP4727207B2 JP 4727207 B2 JP4727207 B2 JP 4727207B2 JP 2004308630 A JP2004308630 A JP 2004308630A JP 2004308630 A JP2004308630 A JP 2004308630A JP 4727207 B2 JP4727207 B2 JP 4727207B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- register
- instruction
- lane
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 262
- 238000000034 method Methods 0.000 title claims description 73
- 238000013500 data storage Methods 0.000 claims description 29
- 230000017105 transposition Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 description 62
- 238000013459 approach Methods 0.000 description 20
- 230000008901 benefit Effects 0.000 description 20
- 238000003860 storage Methods 0.000 description 20
- 238000007792 addition Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000012546 transfer Methods 0.000 description 17
- 230000004044 response Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 230000008707 rearrangement Effects 0.000 description 12
- 230000009467 reduction Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 229920006395 saturated elastomer Polymers 0.000 description 6
- 230000008859 change Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000008521 reorganization Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
- G06F9/3016—Decoding the operand specifier, e.g. specifier format
- G06F9/30167—Decoding the operand specifier, e.g. specifier format of immediate specifier, e.g. constants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/76—Architectures of general purpose stored program computers
- G06F15/80—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors
- G06F15/8007—Architectures of general purpose stored program computers comprising an array of processing units with common control, e.g. single instruction multiple data processors single instruction multiple data [SIMD] multiprocessors
- G06F15/803—Three-dimensional arrays or hypercubes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30025—Format conversion instructions, e.g. Floating-Point to Integer, decimal conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30032—Movement instructions, e.g. MOVE, SHIFT, ROTATE, SHUFFLE
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/30007—Arrangements for executing specific machine instructions to perform operations on data operands
- G06F9/30036—Instructions to perform operations on packed data, e.g. vector, tile or matrix operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30098—Register arrangements
- G06F9/30105—Register structure
- G06F9/30112—Register structure comprising data of variable length
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
- G06F9/3016—Decoding the operand specifier, e.g. specifier format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3887—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Executing Machine-Instructions (AREA)
- Advance Control (AREA)
- Complex Calculations (AREA)
Description
D=bit[22]
Rd=bits[15:12]
N=bit[7]
Rn=bits[19:16]
m=bit[5]
Rm=bits[3:0]
対応する“Di"レジスタ番号は、“(D,Rd[3],Rd[3],Rd[1],0)”及び“(D,Rd[3],Rd[2],Rd[1],1)”である。
“Rd[0]”はゼロであるべきである。
“Di”レジスタ番号は、“(0,Rd[3],Rd[2],Rd[1],Rd[0])”である。
“word[D] ”は、レジスタからリトルエンディアンで選択される。
“Di”レジスタ番号は、“(0,0,Rd[2],Rd[1],Rd[0])”である。
ハーフワード“[(D,Rd[3])]”は、レジスタからリトルエンディアンで選択される。
“Di"レジスタ番号は、“(0,0,0,Rd[1],Rd[0])”である。
バイト“[(D,Rd[3],Rd[2])]”は、レジスタからリトルエンディアンで選択される。
V(LD|ST)<st>.<dt>{@<a>}<reglist>,{<n>,}<addr>
default<n>:=elements<dt>(<reglist>)/<st>
;// <addr>
[Rn] ;//addres:=Rn
[Rn]! ;//addres:=Rn,Rn:=Rn+transfer_size
(ここで、“transfer_size”は、アクセスされたメモリの総量を示す。)
[Rn],Rm ;//address:=Rn,Rn:=Rn+Rm
“VLD 3.16 {D0,D1,D2},#1,[r1]”
“VLD 3.16 {D0[1],D1[1],D2[1]},[r2]”
“VLD 3.16 {D0[2],D1[2],D2[2]},[r3]”
“VLD 3.16 {D0[3],D1[3],D2[3]},[r4]”
「即値によるシフト」
即値シフトは、ソースベクトル全ての要素を同じ量によってシフトするために、命令内部に符号化された直接の数値を使用する。縮小バージョン(Narrowing versions)は、データの飽和を含むことができる数値の縮小化(casting down)を可能にし、一方、ロングバージョン(Long versions)は、任意の固定小数点での拡大化(casting up)を可能にする。累積バージョン(accumulate versions)によるシフトは、多くのDSPアルゴリズムに見られる効率的なスケーリング及び累積をサポートするために提供される。右シフト命令もまた、丸めを行うオプションとして与えられる。丸めは、実際には丸められるべき数の半分を追加することにより実行される。このように、“n”の右シフトを行う時、それをシフトする前に、“2n−1”が数値に加算される。このように、以下のテーブル(表)において、もし“n≧1”の場合、丸め(n)(round(n))=2n−1で、もし“n<0”の場合、丸め(n)(round(n))=0である。ビット単位の抽出命令は、データの効率的な梱包を可能にするために含まれる。
「符号付き変数によるシフト」
このセクションのシフトは、第2のベクトルにおいて指定された符号付きシフト量により制御された要素の1つのベクトルに対するシフト実行する。符号付きシフト量をサポートすることは、合理的には負の値になる可能性がある指数値によるシフトに関するサポートを可能にし、負の制御値は右シフトを実行することになる。ベクトルシフトは、各要素が異なる量によりシフトされることを可能にするが、しかし、ベクトルシフトは、シフトが実行される前に、ベクトルの全てのレーンに対するシフト制御オペランドを複製することにより、同一の量の分だけ全てのレーンをシフトするために使用され得る。符号付きシフト制御値は、シフトされるべきオペランドの最小のオペランド要素サイズと同一のサイズの要素である。しかしながら、シフター変数は、シフト量を決定するために、各レーンの最下部の8ビットだけを使用して解釈される。丸め、及び飽和オプションもまた、利用可能である。
「比較及び選択」
データの水準選択及びデータのマスキング(masking)を提供するために使用され得るマスクを生成するための変数の比較とテストが実行され得る。それは、ベクトル化されたコードの終わりで、ベクトル内部の最大値及び最小値を見つけるために使用され得る畳み込みのバージョンを含んでいる、最大値及び最小値を選択するための命令もまた提供する。
“32|ZIP.16A,B”
“32|ZIP.16C,D”
“64|ZIP.32A,C”
“64|ZIP.32B,D”
“Dre=Are*Bre-Aim*Bim”
“Dim=Are*Bim+Aim*Bre”
“32|MUL.16 Dd,Dn,Dm[0]”
“32|MASX.16 Dd,Dn,Dm[1]”
“(a+ic)*(b+id)=e+if”
ここで、
“<value>”は、バイトである。
“<mode> ”は、列挙された拡張機能のうちの1つである。
4 スカラレジスタデータ記憶装置
6 乗算器
8 シフタ
10 加算器
12 命令パイプライン
14 スカラデコーダ
16 SIMDデコーダ
18 専用SIMD処理ロジック
20 (SIMD)レジスタデータ記憶装置
22 ロード記憶ユニット(LSU)
23 ロードFIFO
23’ 記憶FIFO
24 再整理ロジック
26 SIMDレジスタ
28 データ転送ロジック
200 メモリ
210 構造体
220 レジスタ“D0”
225 レジスタ“D1”
230 レジスタ“D2”
250、255、260 構造体
270 レジスタ“D0”
280 レジスタ“D1”
290 レジスタ“D2”
300 レジスタ“D3”
310 メモリ
312 構造体
314 データ要素
330 "D0"レジスタ
335 "D1"レジスタ
340 変換ロジック
342 データ要素
350、355 マルチプレクサ
360、365 入力レジスタ
370 クロスバー制御レジスタ
375 クロスバーマルチプレクサ
380 レジスタキャッシュ
385 出力のマルチプレクサ
400 畳み込み演算ロジックユニット
415、425、431〜434、435、445、455 経路(path)
420、460、470、480、490 マルチプレクサ
410 算術演算装置
450 選択及び分配ロジック
500 マルチプレクサ
510 スカラ選択ロジック
520 “ベクトル×スカラ”演算ロジック
530 演算装置
710 レジスタ“a”
720 レジスタ“b”
730 制御レジスタ
800、802 SIMDレジスタ
804、806 デスティネーションSIMDレジスタ
808 (データ要素)再整理ロジック
810 メモリアクセスロジック
812 SIMDレジスタ
900 レジスタデータ記憶装置
1000 メモリシステム
1005 メモリ管理ユニット(MMU)
1010 レベル1キャッシュ
1015 中継ルックアサイドバッファ(TLB)
1020 データバス
1040 データブロック
1045 128ビットデータブロック
1050 96ビットデータブロック
1055 80ビットデータブロック
1060、1065 256ビットデータブロック
1100 第1のレジスタ
1102 第2のレジスタ
1104、1106 デスティネーションレジスタ
1100、1102 ソースレジスタ
1112、1114 デスティネーションレジスタ
1116 第1のソースレジスタ
1118 第2のソースレジスタ
1120 第1のデスティネーションレジスタ
1122 第2のデスティネーションレジスタ
1125 64ビットレジスタ“D0”
1130 64ビットレジスタ“D1”
1135 画素の4×4配列
1136 対角線
1137、1141、1143、1145 2×2ブロック
1147 レジスタ“A”
1149 レジスタ“B”
1151 レジスタ“C”
1153 レジスタ“D”
1155 レジスタ“D0”
1160 レジスタ“D1”
1165 ソースレジスタ“Dm”
1170 第2のソースレジスタ“Dn”
1175 デスティネーションレジスタ“Dd”
1200 制御部分
1210 データ部分
1220 定数生成ロジック
1222 点線
1224 線
1230 ゲート
1240 定数
1250 ソースオペランド
1260 最終データ値
Claims (15)
- データ要素を記憶する複数のレジスタを有するレジスタデータ記憶装置と、
データ要素に対するデータ処理操作を実行する処理ロジックと、
データ要素サイズの倍数であるレーンサイズとデータ要素サイズとを指定するデータ処理命令を復号するデコーダと
を備え、
前記デコーダは、更に、前記処理ロジックが、前記レジスタの少なくとも1つにおける並列処理のレーンの数をレーンサイズに基づいて設定すると共に、並列処理の各前記レーン内部でのデータ要素に対する1つのデータ処理操作を、並列に実行するように、前記処理ロジックを制御し、
前記レーンサイズは、前記レーンを構成するビット数として指定され、
前記データ要素サイズは、前記データ要素を構成するビット数として指定され、
前記データ処理操作は、独立に各レーン内部において実行される
ことを特徴とするデータ処理装置。 - データ処理命令は、ソースレジスタとして使用される複数の前記レジスタを指定するインタリーブ命令であり、
処理ロジックが並列に、並列処理の各前記レーン内部で実行するデータ処理操作は、インタリーブ操作であると共に、各レーン内部において、インタリーブ操作は、並列処理のそのレーンに存在する、前記ソースレジスタからのそれらのデータ要素をインタリーブするように構成される
ことを特徴とする請求項1に記載のデータ処理装置。 - インタリーブ命令は、ソースレジスタとして使用される第1、第2の前記レジスタを指定すると共に、データ要素サイズの2倍であるレーンサイズを指定し、それにより、並列処理の各レーン内部において、インタリーブ操作は、第1のレジスタからの1つのデータ要素が第2のレジスタからの1つのデータ要素と入れ換えられる転置操作になる
ことを特徴とする請求項2に記載のデータ処理装置。 - データ処理命令は、ソースレジスタとして使用される複数の前記レジスタを指定するデインタリーブ命令であり、
処理ロジックが並列に、並列処理の各前記レーン内部で実行するデータ処理操作は、デインタリーブ操作であると共に、各レーン内部において、デインタリーブ操作は、並列処理のそのレーンに存在する、前記ソースレジスタからのそれらのデータ要素をデインタリーブするように構成される
ことを特徴とする請求項1に記載のデータ処理装置。 - デインタリーブ命令は、ソースレジスタとして使用される第1、第2の前記レジスタを指定すると共に、データ要素サイズの2倍であるレーンサイズを指定し、それにより、並列処理の各レーン内部において、デインタリーブ操作は、第1のレジスタからの1つのデータ要素が第2のレジスタからの1つのデータ要素と入れ換えられる転置操作になる
ことを特徴とする請求項4に記載のデータ処理装置。 - データ処理命令は算術命令であり、
処理ロジックは、並列処理の各前記レーン内部での選択されたデータ要素に対する算術演算を、並列に実行する
ことを特徴とする請求項1に記載のデータ処理装置。 - 算術命令は、ソースレジスタとして使用される複数の前記レジスタを指定すると共に、前記算術演算は、ソースレジスタから選択されたデータ要素に適用される、加算、減算、乗算、または除算の内の1つ以上を有する
ことを特徴とする請求項6に記載のデータ処理装置。 - データ要素を記憶する複数のレジスタを有するレジスタデータ記憶装置と、データ要素に対するデータ処理操作を実行する処理ロジックと、データ処理命令を復号するデコーダとを備えるデータ処理装置の操作方法であって、
前記方法は、
(a)前記デコーダが、データ要素サイズの倍数であるレーンサイズとデータ要素サイズとを指定するデータ処理命令を復号するステップと、
(b)前記処理ロジックが、前記レジスタの少なくとも1つにおける並列処理のレーンの数をレーンサイズに基づいて設定するステップと、
(c)前記処理ロジックが、並列処理の各前記レーン内部でのデータ要素に対する1つのデータ処理操作を、前記処理ロジック内部において並列に実行するステップと
を有すると共に、
前記レーンサイズは、前記レーンを構成するビット数として指定され、
前記データ要素サイズは、前記データ要素を構成するビット数として指定され、
前記データ処理操作は、独立に各レーン内部において実行される
ことを特徴とする方法。 - データ処理命令は、ソースレジスタとして使用される複数の前記レジスタを指定するインタリーブ命令であり、
前記ステップ(c)において処理ロジックが並列に、並列処理の各前記レーン内部で実行するデータ処理操作は、インタリーブ操作であると共に、各レーン内部において、インタリーブ操作は、並列処理のそのレーンに存在する、前記ソースレジスタからのそれらのデータ要素をインタリーブするように構成される
ことを特徴とする請求項8に記載の方法。 - インタリーブ命令は、ソースレジスタとして使用される第1、第2の前記レジスタを指定すると共に、データ要素サイズの2倍であるレーンサイズを指定し、それにより、並列処理の各レーン内部において、インタリーブ操作は、第1のレジスタからの1つのデータ要素が第2のレジスタからの1つのデータ要素と入れ換えられる転置操作になる
ことを特徴とする請求項9に記載の方法。 - データ処理命令は、ソースレジスタとして使用される複数の前記レジスタを指定するデインタリーブ命令であり、
前記ステップ(c)において処理ロジックが並列に、並列処理の各前記レーン内部で実行するデータ処理操作は、デインタリーブ操作であると共に、各レーン内部において、デインタリーブ操作は、並列処理のそのレーンに存在する、前記ソースレジスタからのそれらのデータ要素をデインタリーブするように構成される
ことを特徴とする請求項8に記載の方法。 - デインタリーブ命令は、ソースレジスタとして使用される第1、第2の前記レジスタを指定すると共に、データ要素サイズの2倍であるレーンサイズを指定し、それにより、並列処理の各レーン内部において、デインタリーブ操作は、第1のレジスタからの1つのデータ要素が第2のレジスタからの1つのデータ要素と入れ換えられる転置操作になる
ことを特徴とする請求項11に記載の方法。 - データ処理命令は算術命令であり、前記ステップ(c)において、処理ロジックは、並列処理の各前記レーン内部での選択されたデータ要素に対する算術演算を、並列に実行する
ことを特徴とする請求項8に記載の方法。 - 算術命令は、ソースレジスタとして使用される複数の前記レジスタを指定すると共に、前記算術演算は、ソースレジスタから選択されたデータ要素に適用される、加算、減算、乗算、または除算の内の1つ以上を有する
ことを特徴とする請求項13に記載の方法。 - データ要素を記憶する複数のレジスタを有するレジスタデータ記憶装置と、データ要素に対するデータ処理操作を実行する処理ロジックと、データ処理命令を復号するデコーダとを備えるデータ処理装置において実行されるコンピュータプログラムであって、
前記コンピュータプログラムは、
(a)前記デコーダが、データ要素サイズの倍数であるレーンサイズとデータ要素サイズとを指定するデータ処理命令を復号するステップと、
(b)前記処理ロジックが、前記レジスタの少なくとも1つにおける並列処理のレーンの数をレーンサイズに基づいて設定するステップと、
(c)前記処理ロジックが、並列処理の各前記レーン内部でのデータ要素に対する1つのデータ処理操作を、前記処理ロジック内部において並列に実行するステップと
を前記データ処理装置に実行させると共に、
前記レーンサイズは、前記レーンを構成するビット数として指定され、
前記データ要素サイズは、前記データ要素を構成するビット数として指定され、
前記データ処理操作は、独立に各レーン内部において実行される
ことを特徴とするコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0328518.6 | 2003-12-09 | ||
GB0328518A GB2409064B (en) | 2003-12-09 | 2003-12-09 | A data processing apparatus and method for performing in parallel a data processing operation on data elements |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010270567A Division JP5366917B2 (ja) | 2003-12-09 | 2010-12-03 | データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005174293A JP2005174293A (ja) | 2005-06-30 |
JP4727207B2 true JP4727207B2 (ja) | 2011-07-20 |
Family
ID=30129898
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004308630A Active JP4727207B2 (ja) | 2003-12-09 | 2004-10-22 | データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 |
JP2010270567A Active JP5366917B2 (ja) | 2003-12-09 | 2010-12-03 | データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010270567A Active JP5366917B2 (ja) | 2003-12-09 | 2010-12-03 | データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7145480B2 (ja) |
JP (2) | JP4727207B2 (ja) |
GB (1) | GB2409064B (ja) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7197505B2 (en) * | 2000-12-22 | 2007-03-27 | Star Bridge Systems, Inc. | Multi-dimensional recursive wavefront behavioral synthesis |
US8127117B2 (en) * | 2006-05-10 | 2012-02-28 | Qualcomm Incorporated | Method and system to combine corresponding half word units from multiple register units within a microprocessor |
US8417922B2 (en) * | 2006-08-02 | 2013-04-09 | Qualcomm Incorporated | Method and system to combine multiple register units within a microprocessor |
US9069547B2 (en) * | 2006-09-22 | 2015-06-30 | Intel Corporation | Instruction and logic for processing text strings |
US20080091924A1 (en) * | 2006-10-13 | 2008-04-17 | Jouppi Norman P | Vector processor and system for vector processing |
GB2444744B (en) | 2006-12-12 | 2011-05-25 | Advanced Risc Mach Ltd | Apparatus and method for performing re-arrangement operations on data |
US9086872B2 (en) * | 2009-06-30 | 2015-07-21 | Intel Corporation | Unpacking packed data in multiple lanes |
US8627042B2 (en) * | 2009-12-30 | 2014-01-07 | International Business Machines Corporation | Data parallel function call for determining if called routine is data parallel |
US20110202819A1 (en) * | 2010-02-12 | 2011-08-18 | Yuan Lin | Configurable Error Correction Encoding and Decoding |
US8683185B2 (en) | 2010-07-26 | 2014-03-25 | International Business Machines Corporation | Ceasing parallel processing of first set of loops upon selectable number of monitored terminations and processing second set |
US9141386B2 (en) * | 2010-09-24 | 2015-09-22 | Intel Corporation | Vector logical reduction operation implemented using swizzling on a semiconductor chip |
JP5760532B2 (ja) * | 2011-03-14 | 2015-08-12 | 株式会社リコー | プロセッサ装置及びその演算方法 |
US8604946B2 (en) * | 2011-04-08 | 2013-12-10 | Panasonic Corporation | Data processing device and data processing method |
KR101877347B1 (ko) * | 2011-09-26 | 2018-07-12 | 인텔 코포레이션 | 벡터 로드-op/저장-op에 스트라이드 기능을 제공하는 명령어 및 로직 |
US9672036B2 (en) | 2011-09-26 | 2017-06-06 | Intel Corporation | Instruction and logic to provide vector loads with strides and masking functionality |
GB2508533B (en) * | 2011-09-26 | 2020-01-01 | Intel Corp | Instruction and logic to provide vector scatter-op and gather-op functionality |
US9665368B2 (en) * | 2012-09-28 | 2017-05-30 | Intel Corporation | Systems, apparatuses, and methods for performing conflict detection and broadcasting contents of a register to data element positions of another register |
GB2520571B (en) * | 2013-11-26 | 2020-12-16 | Advanced Risc Mach Ltd | A data processing apparatus and method for performing vector processing |
US10671387B2 (en) * | 2014-06-10 | 2020-06-02 | International Business Machines Corporation | Vector memory access instructions for big-endian element ordered and little-endian element ordered computer code and data |
EP3001307B1 (en) * | 2014-09-25 | 2019-11-13 | Intel Corporation | Bit shuffle processors, methods, systems, and instructions |
US9772850B2 (en) | 2014-11-14 | 2017-09-26 | Intel Corporation | Morton coordinate adjustment processors, methods, systems, and instructions |
US9772849B2 (en) | 2014-11-14 | 2017-09-26 | Intel Corporation | Four-dimensional morton coordinate conversion processors, methods, systems, and instructions |
US9772848B2 (en) | 2014-11-14 | 2017-09-26 | Intel Corporation | Three-dimensional morton coordinate conversion processors, methods, systems, and instructions |
US20160139919A1 (en) * | 2014-11-14 | 2016-05-19 | Intel Corporation | Machine Level Instructions to Compute a 3D Z-Curve Index from 3D Coordinates |
US20160147536A1 (en) * | 2014-11-24 | 2016-05-26 | International Business Machines Corporation | Transitioning the Processor Core from Thread to Lane Mode and Enabling Data Transfer Between the Two Modes |
US10275247B2 (en) * | 2015-03-28 | 2019-04-30 | Intel Corporation | Apparatuses and methods to accelerate vector multiplication of vector elements having matching indices |
US10001995B2 (en) * | 2015-06-02 | 2018-06-19 | Intel Corporation | Packed data alignment plus compute instructions, processors, methods, and systems |
US20170177352A1 (en) * | 2015-12-18 | 2017-06-22 | Intel Corporation | Instructions and Logic for Lane-Based Strided Store Operations |
US20170177359A1 (en) | 2015-12-21 | 2017-06-22 | Intel Corporation | Instructions and Logic for Lane-Based Strided Scatter Operations |
US20170185413A1 (en) * | 2015-12-23 | 2017-06-29 | Intel Corporation | Processing devices to perform a conjugate permute instruction |
US10289416B2 (en) * | 2015-12-30 | 2019-05-14 | Intel Corporation | Systems, apparatuses, and methods for lane-based strided gather |
US10101997B2 (en) | 2016-03-14 | 2018-10-16 | International Business Machines Corporation | Independent vector element order and memory byte order controls |
GB2548604B (en) | 2016-03-23 | 2018-03-21 | Advanced Risc Mach Ltd | Branch instruction |
GB2548602B (en) * | 2016-03-23 | 2019-10-23 | Advanced Risc Mach Ltd | Program loop control |
GB2548603B (en) | 2016-03-23 | 2018-09-26 | Advanced Risc Mach Ltd | Program loop control |
GB2560159B (en) * | 2017-02-23 | 2019-12-25 | Advanced Risc Mach Ltd | Widening arithmetic in a data processing apparatus |
US20190272175A1 (en) * | 2018-03-01 | 2019-09-05 | Qualcomm Incorporated | Single pack & unpack network and method for variable bit width data formats for computational machines |
US10606595B2 (en) | 2018-03-23 | 2020-03-31 | Arm Limited | Data processing systems |
US10896043B2 (en) * | 2018-09-28 | 2021-01-19 | Intel Corporation | Systems for performing instructions for fast element unpacking into 2-dimensional registers |
CN109918225B (zh) * | 2019-02-18 | 2023-05-09 | 麒麟软件有限公司 | 基于飞腾平台的raid6数据恢复优化方法 |
US11442729B2 (en) * | 2020-10-26 | 2022-09-13 | Google Llc | Bit-packed array processing using SIMD |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314898A (ja) * | 1995-05-17 | 1996-11-29 | Sgs Thomson Microelectron Ltd | マトリックス転置方法 |
Family Cites Families (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US133682A (en) * | 1872-12-03 | Improvement in gates | ||
US4546444A (en) * | 1983-03-15 | 1985-10-08 | E. I. Du Pont De Nemours And Company | Data compression interface having parallel memory architecture |
US4876660A (en) | 1987-03-20 | 1989-10-24 | Bipolar Integrated Technology, Inc. | Fixed-point multiplier-accumulator architecture |
JPH0778735B2 (ja) * | 1988-12-05 | 1995-08-23 | 松下電器産業株式会社 | キャッシュ装置と命令読出し装置 |
JPH05233281A (ja) * | 1992-02-21 | 1993-09-10 | Toshiba Corp | 電子計算機 |
US5408670A (en) * | 1992-12-18 | 1995-04-18 | Xerox Corporation | Performing arithmetic in parallel on composite operands with packed multi-bit components |
US5481743A (en) * | 1993-09-30 | 1996-01-02 | Apple Computer, Inc. | Minimal instruction set computer architecture and multiple instruction issue method |
US5881302A (en) * | 1994-05-31 | 1999-03-09 | Nec Corporation | Vector processing unit with reconfigurable data buffer |
US6009508A (en) * | 1994-06-21 | 1999-12-28 | Sgs-Thomson Microelectronics Limited | System and method for addressing plurality of data values with a single address in a multi-value store on FIFO basis |
GB9412434D0 (en) * | 1994-06-21 | 1994-08-10 | Inmos Ltd | Computer instruction compression |
GB9412487D0 (en) * | 1994-06-22 | 1994-08-10 | Inmos Ltd | A computer system for executing branch instructions |
US5761103A (en) * | 1995-03-08 | 1998-06-02 | Texas Instruments Incorporated | Left and right justification of single precision mantissa in a double precision rounding unit |
GB9509983D0 (en) * | 1995-05-17 | 1995-07-12 | Sgs Thomson Microelectronics | Replication of data |
GB9509989D0 (en) * | 1995-05-17 | 1995-07-12 | Sgs Thomson Microelectronics | Manipulation of data |
GB9509987D0 (en) * | 1995-05-17 | 1995-07-12 | Sgs Thomson Microelectronics | Manipulation of data |
GB9513515D0 (en) * | 1995-07-03 | 1995-09-06 | Sgs Thomson Microelectronics | Expansion of data |
GB9514684D0 (en) * | 1995-07-18 | 1995-09-13 | Sgs Thomson Microelectronics | An arithmetic unit |
GB9514695D0 (en) * | 1995-07-18 | 1995-09-13 | Sgs Thomson Microelectronics | Combining data values |
JP3526976B2 (ja) * | 1995-08-03 | 2004-05-17 | 株式会社日立製作所 | プロセッサおよびデータ処理装置 |
US6295599B1 (en) * | 1995-08-16 | 2001-09-25 | Microunity Systems Engineering | System and method for providing a wide operand architecture |
US5907865A (en) * | 1995-08-28 | 1999-05-25 | Motorola, Inc. | Method and data processing system for dynamically accessing both big-endian and little-endian storage schemes |
AU6905496A (en) * | 1995-09-01 | 1997-03-27 | Philips Electronics North America Corporation | Method and apparatus for custom operations of a processor |
US6088783A (en) * | 1996-02-16 | 2000-07-11 | Morton; Steven G | DPS having a plurality of like processors controlled in parallel by an instruction word, and a control processor also controlled by the instruction word |
US5937178A (en) * | 1996-02-13 | 1999-08-10 | National Semiconductor Corporation | Register file for registers with multiple addressable sizes using read-modify-write for register file update |
US5808875A (en) * | 1996-03-29 | 1998-09-15 | Intel Corporation | Integrated circuit solder-rack interconnect module |
US6058465A (en) * | 1996-08-19 | 2000-05-02 | Nguyen; Le Trong | Single-instruction-multiple-data processing in a multimedia signal processor |
US5838984A (en) * | 1996-08-19 | 1998-11-17 | Samsung Electronics Co., Ltd. | Single-instruction-multiple-data processing using multiple banks of vector registers |
US5996066A (en) * | 1996-10-10 | 1999-11-30 | Sun Microsystems, Inc. | Partitioned multiply and add/subtract instruction for CPU with integrated graphics functions |
US5909572A (en) * | 1996-12-02 | 1999-06-01 | Compaq Computer Corp. | System and method for conditionally moving an operand from a source register to a destination register |
US5893145A (en) * | 1996-12-02 | 1999-04-06 | Compaq Computer Corp. | System and method for routing operands within partitions of a source register to partitions within a destination register |
US6173366B1 (en) * | 1996-12-02 | 2001-01-09 | Compaq Computer Corp. | Load and store instructions which perform unpacking and packing of data bits in separate vector and integer cache storage |
US5898896A (en) * | 1997-04-10 | 1999-04-27 | International Business Machines Corporation | Method and apparatus for data ordering of I/O transfers in Bi-modal Endian PowerPC systems |
US5973705A (en) * | 1997-04-24 | 1999-10-26 | International Business Machines Corporation | Geometry pipeline implemented on a SIMD machine |
US6047304A (en) * | 1997-07-29 | 2000-04-04 | Nortel Networks Corporation | Method and apparatus for performing lane arithmetic to perform network processing |
US6209017B1 (en) * | 1997-08-30 | 2001-03-27 | Lg Electronics Inc. | High speed digital signal processor |
GB2329810B (en) * | 1997-09-29 | 2002-02-27 | Science Res Foundation | Generation and use of compressed image data |
US5933650A (en) * | 1997-10-09 | 1999-08-03 | Mips Technologies, Inc. | Alignment and ordering of vector elements for single instruction multiple data processing |
US5864703A (en) * | 1997-10-09 | 1999-01-26 | Mips Technologies, Inc. | Method for providing extended precision in SIMD vector arithmetic operations |
US6038583A (en) * | 1997-10-23 | 2000-03-14 | Advanced Micro Devices, Inc. | Method and apparatus for simultaneously multiplying two or more independent pairs of operands and calculating a rounded products |
US6269384B1 (en) * | 1998-03-27 | 2001-07-31 | Advanced Micro Devices, Inc. | Method and apparatus for rounding and normalizing results within a multiplier |
US6085213A (en) * | 1997-10-23 | 2000-07-04 | Advanced Micro Devices, Inc. | Method and apparatus for simultaneously multiplying two or more independent pairs of operands and summing the products |
US6144980A (en) * | 1998-01-28 | 2000-11-07 | Advanced Micro Devices, Inc. | Method and apparatus for performing multiple types of multiplication including signed and unsigned multiplication |
US6223198B1 (en) * | 1998-08-14 | 2001-04-24 | Advanced Micro Devices, Inc. | Method and apparatus for multi-function arithmetic |
US6223277B1 (en) * | 1997-11-21 | 2001-04-24 | Texas Instruments Incorporated | Data processing circuit with packed data structure capability |
US6366999B1 (en) * | 1998-01-28 | 2002-04-02 | Bops, Inc. | Methods and apparatus to support conditional execution in a VLIW-based array processor with subword execution |
US6223320B1 (en) * | 1998-02-10 | 2001-04-24 | International Business Machines Corporation | Efficient CRC generation utilizing parallel table lookup operations |
US6334176B1 (en) * | 1998-04-17 | 2001-12-25 | Motorola, Inc. | Method and apparatus for generating an alignment control vector |
US6292888B1 (en) * | 1999-01-27 | 2001-09-18 | Clearwater Networks, Inc. | Register transfer unit for electronic processor |
JP4057729B2 (ja) * | 1998-12-29 | 2008-03-05 | 株式会社日立製作所 | フーリエ変換方法およびプログラム記録媒体 |
GB2352065B (en) | 1999-07-14 | 2004-03-03 | Element 14 Ltd | A memory access system |
US6408345B1 (en) * | 1999-07-15 | 2002-06-18 | Texas Instruments Incorporated | Superscalar memory transfer controller in multilevel memory organization |
US6546480B1 (en) * | 1999-10-01 | 2003-04-08 | Hitachi, Ltd. | Instructions for arithmetic operations on vectored data |
US6748521B1 (en) * | 2000-02-18 | 2004-06-08 | Texas Instruments Incorporated | Microprocessor with instruction for saturating and packing data |
US7127593B2 (en) * | 2001-06-11 | 2006-10-24 | Broadcom Corporation | Conditional execution with multiple destination stores |
US7739319B2 (en) * | 2001-10-29 | 2010-06-15 | Intel Corporation | Method and apparatus for parallel table lookup using SIMD instructions |
US20040073773A1 (en) * | 2002-02-06 | 2004-04-15 | Victor Demjanenko | Vector processor architecture and methods performed therein |
US8510534B2 (en) * | 2002-05-24 | 2013-08-13 | St-Ericsson Sa | Scalar/vector processor that includes a functional unit with a vector section and a scalar section |
WO2003100600A2 (en) * | 2002-05-24 | 2003-12-04 | Koninklijke Philips Electronics N.V. | An address generation unit for a processor |
JP3857614B2 (ja) * | 2002-06-03 | 2006-12-13 | 松下電器産業株式会社 | プロセッサ |
-
2003
- 2003-12-09 GB GB0328518A patent/GB2409064B/en not_active Expired - Lifetime
-
2004
- 2004-07-13 US US10/889,472 patent/US7145480B2/en active Active
- 2004-10-22 JP JP2004308630A patent/JP4727207B2/ja active Active
-
2010
- 2010-12-03 JP JP2010270567A patent/JP5366917B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314898A (ja) * | 1995-05-17 | 1996-11-29 | Sgs Thomson Microelectron Ltd | マトリックス転置方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011048859A (ja) | 2011-03-10 |
JP2005174293A (ja) | 2005-06-30 |
US20050132165A1 (en) | 2005-06-16 |
GB2409064A (en) | 2005-06-15 |
GB0328518D0 (en) | 2004-01-14 |
GB2409064B (en) | 2006-09-13 |
JP5366917B2 (ja) | 2013-12-11 |
US7145480B2 (en) | 2006-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5366917B2 (ja) | データ要素に対するデータ処理操作を並列に実行するためのデータ処理装置及び方法 | |
JP4727589B2 (ja) | データ処理レジスタに別名を付ける装置および方法 | |
JP5393643B2 (ja) | Simd処理における定数の生成 | |
JP4588413B2 (ja) | Simd処理における多重化操作 | |
JP4689622B2 (ja) | レジスタとメモリとの間でデータを移動するためのデータ処理装置および方法 | |
JP4689621B2 (ja) | レジスタとメモリとの間でデータを移動するためのデータ処理装置および方法 | |
JP4699002B2 (ja) | Simdデータ処理における算術演算の実行のためのデータ処理装置及び方法 | |
JP4584673B2 (ja) | データ処理システム内部のテーブル検索操作 | |
JP2005174296A (ja) | Simdデータ処理システムにおけるエンディアンの補償 | |
JP2005174298A (ja) | “ベクトル×スカラ”演算 | |
JP4660155B2 (ja) | レジスタとメモリとの間でデータを移動するためのデータ処理装置及び方法 | |
JP2005174300A (ja) | 異なるレジスタデータ記憶装置のレジスタ間のデータ移動 | |
JP2005174292A (ja) | データシフト操作 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091023 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101203 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110413 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4727207 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |