JP2001501755A - データ処理条件コード・フラグ - Google Patents

データ処理条件コード・フラグ

Info

Publication number
JP2001501755A
JP2001501755A JP10514369A JP51436998A JP2001501755A JP 2001501755 A JP2001501755 A JP 2001501755A JP 10514369 A JP10514369 A JP 10514369A JP 51436998 A JP51436998 A JP 51436998A JP 2001501755 A JP2001501755 A JP 2001501755A
Authority
JP
Japan
Prior art keywords
bit
register
instruction
data
piccolo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10514369A
Other languages
English (en)
Other versions
JP3662259B2 (ja
Inventor
ジャガー,デビッド,ビビアン
グラス,サイモン,ジェームズ
Original Assignee
エイアールエム リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB9619825A external-priority patent/GB2317466B/en
Application filed by エイアールエム リミテッド filed Critical エイアールエム リミテッド
Publication of JP2001501755A publication Critical patent/JP2001501755A/ja
Application granted granted Critical
Publication of JP3662259B2 publication Critical patent/JP3662259B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30018Bit or string instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30094Condition code generation, e.g. Carry, Zero flag

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)

Abstract

(57)【要約】 演算ユニット(20、22、24)を備えるデータ処理システム。演算ユニットは、Nビットのデータパスウェイ(pathway)を有し、2つの独立の算術操作が演算ユニットによって(N/2)ビット入力オペランドワード上で行われる並列操作プログラム命令ワードをサポートする。この別々の演算操作に応答する2つの条件コードフラグN,Z,C,V,SN,SZ,SC,SVのセットが提供される。

Description

【発明の詳細な説明】 データ処理条件コード・フラグ 本発明は、データ処理システムに関する。特に、本発明は、データ処理の結果 ワードに関するパラメータに合図する条件コードフラグを使用するデータ処理シ ステムに関する。 例えば、英国、ケンブリッジのアドヴァンスト・リスク(RISC)・マシン リミテッドによって製造されるマイクロコンピュータARM6のようなデータ処 理システムを提供することが知られている。各指令が行われるごとに、その指令 の結果がシステムの条件コードフラグに反映される。続くデータ処理は、これら の条件コードフラグの状態に従っ-C行われる。ARM6マイクロプロセッサの場 合、完全な条件付指令のセットが提供され、各指令は、その指令に到達した時点 で存在する条件コードの所定の状態に従って行われる。これにより、プログラム コードの密度における、かなりの柔軟性及び改善が得られる。 本発明の一面は、 操作すべきデータワードを記憶するための、それぞれが少なくともNビットの 容量を持つ複数のレジスタと、 Nビットのデータパス及び応答プログラム命令ワードを備えて当該プログラム 命令によって指定された演算操作を行う演算ユニットと を備えるデータ処理用装置であって、 前記演算ユニットは、第1の(N/2)ビット入力オペランド・データワード に対して第1の演算操作を、第2の(N/2)ビット入力オペランド・データワ ードに対して第2の演算操作を別々に行う少なくとも1つの並列操作プログラム 命令ワードに応答し、且つ 前記演算ユニットは、前記第1の演算操作に従って第1の条件コードフラグの セットをセットし、前記第2の演算操作に従って第2の条件コードフラグのセッ トをセットするデータ処理用装置を提供する事である。 Nビットのデータパスを有する演算ユニットを使用するシステムにおいては、 2つの(N/2)ビットのオペランドで別々の演算操作を同時に行う並列操作プ ログラム命令ワードを提供することが有利であることがわかっている。特に、デ ータパスの幅、典型的には32及び64を増加させようとする場合に有利である 。これらの高性能システムにおいては、大抵、操作すべきオペランドがデータパ スの全幅より狭い。この場合、並列操作プログラム命令によって演算ユニットの 処理能力をより有効に使用することができる。この能力は、並列操作されるそれ ぞれの操作に対して別個の条件コードフラグがあれば、更に高めることができる 。 そのような並列操作を行う能力と、つまりすべての必要なパラメータを定義す るために、そのような命令ワード内で指定される必要のある情報が増加すること との間での有効な譲歩は、次のようになる。前記並列操作プログラム命令ワード が複数のレジスタの中からソースレジスタを指定すること。即ち、前記第1の( N/2)ビット入力オペランドが前記ソースレジスタの高次ビット位置に記憶さ れ、前記第2の(N/2)ビット入力オペランドが前記ソースレジスタの低次ビ ット位置に記憶されたソースレジスタを複数のレジスタの中から指定する。 演算ユニットを変形して少なくともいくつかの並列操作を行えるようにする比 較的直線的な方法は、次の通りである。即ち、前記演算ユニットは、演算操作に おける複数のビット位置の間のキャリー・チェインとして機能する信号パスを有 しており、並列操作プログラム命令ワードを実行する際、前記信号パスが、前記 第1(N/2)ビット入力オペランド・データワードと前記第2(N/2)ビッ ト入力オペランド・データワードとの間で割れる。 導入が簡単で操作上有益な並列操作プログラム命令ワードは、以下のものを含 む。 (i) 2つの並列(N/2)ビット加算が行われる並列加算と、 (ii) 2つの並列(N/2)ビット減算が行われる並列減算と、 (iii)2つの並列(N/2)ビットシフト操作が行われる並列シフトと、 (iv)(N/2)ビット加算と(N/2)ビット減算が並列に行われる並列加算 /減算と、 (v) 2つの並列の(N/2)ビットの最小値/最大値操作が行われる並列最 小値/最大値と、 (vi) 2つの並列の(N/2)ビットのスケール操作が行われる並列スケール 。 条件コードフラグは様々な意味を持つことができるが、条件コードフラグの選 択が特に有益なのは、次の場合である。即ち、前記第1条件コードフラグのセッ ト及び前記第2の条件コードフラグのセットが、直前の操作を示すフラグを少な くとも1つ含む場合である。即ち、直前の操作が (i) ゼロという結果をもたらした、 (ii) 否定の結果をもたらした、 (iii)オーバーフローをもたらした、 (iv) キャリーをもたらした。 本発明の好ましい実施の形態によれば、前記演算ユニットは、前記第1の条件 フラグセットに従って、第1のソースレジスタに記憶された第1(N/2)ビッ ト入力オペランドデータワードと第2のソースレジスタに記憶された第1(N/ 2)ビット入力オペランドデータワードの一方を前記複数のレジスタのうちの目 的レジスタへ移動させ、前記第2の条件フラグセットに従って、第1のソースレ ジスタに記憶された第2(N/2)ビット入力オペランドデータワードと第2の ソースレジスタに記憶された第2(N/2)ビット入力オペランドデータワード の一方を前記目的レジスタへ移動させる条件付き選択命令に応答する。 この条件付き選択命令は、特に、ビタビ(Viterbi)アルゴリズムにおいて、ま た要素の集合内の最大要素用サンプル・ベクトルをスキャンする場合に有益であ る。 本発明の他の面によれば、以下のデータ処理方法が提供される。即ち、 扱われるべきデータワードを、それぞれが少なくともNビットの容量を持つ複 数のレジスタに記憶するステップと、 プログラム命令ワードに応答して、Nビットのデータパスを持つ演算ユニット で、前記プログラム命令ワードによって指定された演算操作を行うステップとか らなり、 第1の(N/2)ビット入力オペランド・データワードに対して少なくとも1 つの並列操作プログラム命令ワードに応答して、第1の演算操作を、第2の(N /2)ビット入力オペランド・データワードに対して第2の演算操作を別々に行 い、 前記第1の演算操作に従って第1の条件コードフラグのセットをセットし、前 記第2の演算操作に従って第2の条件コードフラグのセットをセットする。 以下、本発明の実施の形態を例として、添付図面を参照して説明する。 図1は、デジタル信号処理装置のハイレベルの構成を示し、 図2は、コプロセッサ(coprocessor)のレジスタ構成の入力バッファを示し、 図3は、前記コプロセッサ内のデータパスを示し、 図4は、レジスタから高次または低次のビットを読みだすためのマルチプレキ シング回路を示し、 図5は、好ましい実施の形態におけるコプロセッサが使用するレジスタ・リマ ッピング(remapping)論理を示すブロック図であり、 図6は、図5に示されたレジスタ・リマッピング論理の詳細を示し、 図7は、ブロック・フィルタ・アルゴリズム(Block Filter Algorithm)を示 す表である。 以下に説明するシステムは、デジタル信号処理(DSP)に関する。DSPは 、いろいろな形態を取ることができるが、典型的には、大量のデータの高速(実 時間)処理を必要とする処理である。このデータは、典型的には、アナログの物 理的信号である。DSPの好例として、デジタル移動電話に使用されるものがあ る。そこでは、無線信号が送受信され、、アナログ音声信号から、及びアナログ 音声信号へのデコーディング及びエンコーディング(典型的には、畳み込み(con volution)、変換、相関の操作を使用)が必要となる。また、他の例として、デ ィスクヘッドからの信号が処理されてヘッド・トラッキング制御が行われるディ スク・ドライバ・コントローラが挙げられる。 上記のような文脈において、マイクロプロセッサ・コア(ここでは、英国、ケ ンブリッジのアドヴァンスト・RISC・マシン・リミテッドにより設計された マイクロプロセッサの範囲からのARMコア)上でのデジタル信号処理システム の説明をする。マイクロプロセッサとコプロセッサ・アーキテクチャとの間のイ ンターフェースは、それ自体が、DSP機能を提供すべく具体的構成を持つ。以 下の説明において、マイクロプロセッサ・コアはARM、コプロセッサはピッコ ロ(Piccolo)とする。ARMとピッコロは、典型的には、他の構成要素(たとえ ば、チップ上のDRAM、ROM,D/Aコンバータ、A/Dコンバータ)をA SICの部分として含む単一の集積回路として製造される。 ピッコロは、ARMのコプロセッサであるから、ARM命令の集合の一部を実 行する。ARMコプロセッサ命令により、(Load Coprocessor,LDC and Store Coprocessor,STC命令を使用して)ARMがピッコロとメモリーの間でデー タをやり取りさせ、また、(move to coprocessor,MCR,及び、move from c oprocessor,MCR命令を使用して)ARMがARMレジスタをピッコロとやり 取りすることができる。ある見方をすれば、ARMとピッコロの相互作用は、A RMGAピッコロのデータに対して強力なアドレス生成器として作用し、ピッコ ロの方は、大量のデータを実時間で扱う必要のあるDSP操作を自由に行うこと によって、対応の実時間結果を生み出すことである。 図1は、ARM2がピッコロ4に制御信号を発行して、データワードをピッコ ロ4に対して送信させ、またデータワードをピッコロ4から転送させる様子を示 す。命令キャッシュ6は、ピッコロ4にとって必要なピッコロプログラム命令ワ ードを記憶する。単一のDRAMメモリ8は、ARM2とピッコロ4の両方にと って必要なすべてのデータ及び命令ワードを記憶する。ARM2は、メモリ8へ のアドレッシング(addressing)及びすべてのデータ転送の制御に責任がある。 単一のメモリ8、及び1セットのデータバスとアドレスバスから成る構成は、複 数のメモリと高い帯域幅のバスを必要とする典型的DSPアプローチに比較して 、構成が簡単であり、費用も易い。 ピッコロは、命令キャッシュ6からの第2の命令ストリーム(デジタル信号処 理プログラム命令ワード)を実行し、これにより、ピッコロのデータパスが制御 される。これらの命令は、デジタル信号処理方式操作、例えば、Multiply−Accu mulate(乗算−累算)、及び制御フロー命令、例えば、ゼロ・オーバーヘッド・ ループ命令を含む。これらの命令は、ピッコロのレジスタ10(図2を参照)に 保持されているデータを操作する。このデータは、前もって、ARM2によって メモリ8から転送されたものである。複数の命令が命令キャッシュ6からストリ ームとして出され、命令キャッシュ6が、データバスを、完全な支配下に置く。 小型ピッコロ命令キャッシュ6は、1行当たり16ワードの4行で、直接マップ されたキャッシュ(64個の命令)となる。導入の方法によっては、命令キャッ シュをもっと大きくしてもよい。 このように、2つのタスクが独立的に走る。ARMがデータをロードして、ピ ッコロがそれを処理する。これにより、16ビット・データ上で単一サイクル・ データ処理が維持される。ピッコロの持つデータ入力メカニズム(図2に示され る)により、ARMは、シーケンシャル・データを先に取り込み、そのデータが ピッコロに必要になるより先にロードする。ピッコロは、ロードされたデータに どのような順序でもアクセスすることができ、古いデータが最後に使用されると 、自動的にそのレジスタを再び満たす(すべての命令はソースオペランド1つに つき、ソースレジスタを再充填すべきであることを示す1ビットを持つ)。この 入力メカニズムは、リオーダ(reorder)バッファと呼ばれ、入力バッファ12を 備える。ピッコロにロードされる(以下に示すLDCまたはMCRを介して)す べての値には、その値の目的地がどのレジスタであるかを示すタグRnが付いて いる。タグRnは、入力バッファ内のデータワードの側に記憶される。あるレジ スタがレジスタ選択回路14を介してアクセスされ、命令がデータレジスタの再 充填を指定すると、そのレジスタは、信号Eによって「空き」の印がつく。する と、レジスタは、自動的に、再充填制御回路16によって、その入力バッファ1 2内でそのレジスタに向けられた最も早くロードされた最古の値を充填される。 リオーダ・バッファは8つのタグ付き値を保持する。入力バッファ12の形式は 、FIFOと似ているが、キーの中央からデータワードを抽出することができ、 その後で、遅くに記憶されたワードが渡され、その空き場所を埋める。従って、 入力から最も遠いデータワードが最古であり、入力バッファ12が正しいタグR nを持つ2つのデータワードを保持する時は、その最古のデータワードを使用し て、どちらのデータワードでレジスタを再充填すべきかを決定することができる 。 ピッコロは、図3に示されたように、データを出力バッファ18(FIFO) に記憶させて出力する。データはFIFOにシーケンシャルに書き込まれ、AR Mによって同じ順序でメモリ8に読み出される。出力バッファ18は、8つの3 2ビットの値を保持する。 ピッコロは、コプロセッサ・インターフェース(図1のCP制御信号)を介し てARMと接続する。ARMコプロセッサ命令の実行に際して、ピッコロは、そ れを実行するか、あるいは、ピッコロがその命令を実行できるようになるまでA RMを待たせるか、あるいは命令実行を拒否することができる。最後の場合、A RMは、未定義命令例外とする。 ピッコロが実行する最も普通のコプロセッサ命令はLDCとSTCであり、こ れらは、それぞれデータワードをデータバスを介してメモリ8へ、及びメモリ8 からロードし(LDC)、記憶させ(STC)、ARMがすべてのアドレスを生 成する。リオーダ・バッファにデータをロードし、出力バッファ18からのデー タを記憶するのもこれらの命令である。ピッコロは、入力リオーダ・バッファに データをロードするのに充分な場所がなければARMをLDCのままにし、また 出力バッファに記憶すべき充分なデータがなければARMをSTCのままにする 。ピッコロは、また、ARM/コプロセッサ・レジスタ転送を行って、ARMが ピッコロの特定の(special)レジスタにアクセスできるようにする。 ピッコロは、それ自身の命令はメモリから取り込み、図3に示されたピッコロ のデータパスを制御し、リオーダ・バッファからレジスタへ、またレジスタから 出力バッファ18へデータを転送する。これらの命令を行うピッコロの演算ユニ ットは、乗算/加算回路20を有し、これが乗算、加算、減算、乗算・累算、論 理操作、シフト、及び回転を行う。、また、データパスには累算/退出(decumu late)回路22と、縮尺(scale)/飽和(saturate)回路24とが備わっている。 ピッコロ命令は、最初にメモリから命令キャッシュ6にロードされ、そこへピ ッコロがアクセスし、主記憶にアクセスバックする必要がない。 メモリがアボート(abort)した場合、ピッコロはそれを修復することができな い。従って、ピッコロを仮想メモリシステムで使用する場合、すべてのピッコロ のデータは、ピッコロのタスクの始めから終わりまで、物理的メモリになければ ならない。このことは、ピッコロのタスクの実時間性、例えば実時間DSPを考 えれば、大した問題ではない。メモリ・アボートが起きると、ピッコロは停止し て状態レジスタS2にフラグをセットする。 図3は、ピッコロの全体のデータパス機能を示す。レジスタ・バンク10は、 3つの読み出しポートと2つの書き込みポートを使用する。1つの書き込みポー ト(Lポート)は、リオーダ・レジスタからレジスタを再充填するのに使用され る。出力バッファ18は、ALU結果バス26から直接的に更新され、出力バッ ファ18からの出力は、ARMプログラム制御の支配下にある。ARMコプロセ ッサ・インターフェースは、LDC(Load coprocessor)命令をリオーダ・バッ ファに行い、出力バッファ18からSTC(Store Coprocessor)命令を行い、ま た、レジスタバンク10上にMCRとMRC(Move ARM register to/from CP register)を行う。 残りのレジスタ・ポートは、ALUに使用される。読み出しポート(A及びB )は、入力を乗算/加算回路20に駆動し、C読み出しポートは、累算(accumu late)/退出(decumulate)回路22入力の駆動に使用される。残りの書き込み ポートWは、結果をレジスタバンク10に戻すのに使用される。 乗算器20は、符号付き又は符号無し16x16の乗算を行い、必要により4 8ビット累算を伴うこともできる。スケーラー(scaler)ユニット24は、0か ら31までの即値算術又は論理シフト右を提供することができ、その後、必要に より飽和を行うことができる。シフタ(shifter)及び論理ユニット20は、各周 期でシフト又は論理操作を行うことができる。 ピッコロは、D0−D15又はA0−A3,X0−X3,Y0−Y3,Z0− Z3という名のついた16個の汎用レジスタを持つ。最初の4つのレジスタ(A 0−A3)は、累算用で、48ビットの幅があり、余分な16ビットが、多数の 連続的計算の間にオーバーフローが生じないためのガードを提供する。残りのレ ジスタは32ビットの幅である。 ピッコロのレジスタは各々2つの独立した16ビットの値を含むものとして扱 うことができる。ビット0からビット15までが下半分、ビット16からビット 31までが上半分を含む。命令は、ソースオペランドとして各レジスタのどちら かの半分の16ビットを指定することができ、あるいは、全体の32ビットレジ スタを指定することもできる。 また、ピッコロは、飽和演算に対する備えもある。乗算、加算、減算命令の変 量は、結果が目的レジスタのサイズより大きい場合、飽和結果を提供する。目的 レジスタが48ビットのアキュムレータであれば、値は32ビットで飽和される (つまり、48ビットの値を飽和させる方法はない)。48ビットのレジスタに はオーバーフローの検出がない。これは手頃な制限である。というのは、オーバ ーフローを起こすには、少なくとも65536乗算累算命令が必要であるから。 各ピッコロのレジスタは、「空き」(Eフラグ、図2参照)であるか、1つの 値を含む(レジスタの半分だけが空きになることはない)。初期状態では、すべ てのレジスタが空きの印がついている。各周期で、ピッコロは再充填制御回路1 6によって、空きレジスタの1つを、入力リオーダ・バッファからの値で埋める 。 あるいは、レジスタにALUからの値が書き込まれている場合は、「空き」では ない。もし、レジスタにALUからの書き込みがあり、これと同時に、リオーダ ・バッファからのレジスタに入れられる値が控えている場合は、結果は未定義で ある。空きレジスタに読み出しが行われれば、ピッコロの実行ユニットはとまっ てしまう。 入力リオーダ・バッファ(ROB)は、コプロセッサ・インターフェースとピ ッコロのレジスタ・バンクとの間にある。データがROBにロードされる時は、 ARMコプロセッサが転送する。ROBは、多数の32ビットの値を含み、それ ぞれ値の目的地となるピッコロ・レジスタを示すタグを持っている。タグは、ま た、そのデータが32ビットレジスタの全体に転送されるのか、あるいは32ビ ット中の下の16ビットだけに転送されるべきかも示す。データがレジスタ全体 に転送される場合は、そのエントリーの下の16ビットは目的レジスタの下半分 に転送され、上の16ビットはレジスタの上半分に転送される(目的レジスタが 48ビット・アキュムレータの場合は、符号が拡張される)。データの目的地が レジスタの下半分だけ(いわゆるハーフ・レジスタ)の場合、下の16ビットが 先に転送される。 レジスタのタグは常に物理的目的レジスタを示し、レジスタのリマッピングが 行われることはない(レジスタのリマッピングについては、以下を参照)。 各周期で、ピッコロは、次のように、データ・エントリをROBからレジスタ ・バンクへ転送しようとする。 − ROBの各エントリが検査され、タグが空きレジスタと比較され、エントリ の一部又は全部からレジスタへ転送が可能かどうかが決定される。 − 転送可能なエントリの集合から、最古のエントリが選択され、そのデータが レジスタバンクへ転送される。 − このエントリのタグが更新されてエントリを空きにする。エントリの一部だ けが転送された場合は、転送された部分だけが空きの印になる。 例えば、目的レジスタが完全に空きであり、選択されたROBエントリが含む データが1つの全体レジスタ用であれば、32ビット全体が転送され、そのエン トリは空きの印になる。目的レジスタの下半分が空きであり、ROBの含むデー タがレジスタの下半分用であれば、ROBエントリの下の16ビットが目的レジ スタの下半分へ転送され、ROBの下半分が空きの印になる。 どのエントリでも、上の16ビットと下の16ビットは、それぞれ独立に転送 することができる。レジスタバンクに転送できるデータを含むエントリが皆無の 場合、その周期では、転送は行われない。下の表は、目的ROBエントリと目的 レジスタ状態のあらゆる可能な組み合わせを示す。 以上をまとめると、1つのレジスタの2つの半分は、互いに独立に、ROBか ら充填することができる。ROB内のデータは、レジスタ全体用に印が付けられ るか、あるいはレジスタの下半分用の2つの16ビットの値としての印が付く。 データをROBにロードするにはARMコプロセッサ命令が使用される。RO Bにおいてデータが印を付けられる方法は、転送に使用されたARMコプロセッ サ命令がどれであったかによる。ROBにデータを充填するのに使用できるAR M命令には以下のものがある。 ROBの構成には、以下のARM命令が提供される。 LDPA<bank list> 最初の3つは、LDC命令としてアセンブルされ、MPRとMRPは、MCR 命令として、LDPAはCDP命令としてアセンブルされる。 上記<dest>は、ピッコロのレジスタ(A0−Z3)を示し、RnはARMレ ジスタを示し、<size>は4の乗数(ゼロを除く)となる定数としてのバイト数 であり、<wrap>は、定数(1、2、4、8)を示す。{ }によって囲まれた 領域は、オプションである。転送がリオーダ・バッファへ当てはまるようにする ために、<size>は最大で32である。多くの場合、<size>は、この制限より 小さくしてデッドロックを避ける。<16/32>領域は、ロードされるデータ が16ビット・データとして扱われ、endianess特定動作(以下を参照)を行う べきか、あるいは32ビットデータであるかを示す。 注1:以下の説明において、LDPまたはLDPWに言及する場合、これらの 命令の16ビット用変種と32ビット用変種の両方を含むものとする。 注2:1つのワード(word)は、メモリからの32ビットの固まりであり、そ れは、16ビットのデータ項目2つから成るか、あるいは32ビットのデータ項 目1つからなる。 LDP命令は、多数のデータ項目をフル・レジスタ用として転送する。この命 令は、メモリ内のアドレスRnから<size>/4ワードをロードし、それらをR OBに挿入する。転送することのできるワード数は以下のように制限される。 − <size>の量は、4の非ゼロ倍数でなければならず、 − <size>は、特定の導入についてROBのサイズ以下でなければならない( 第1版では8ワード、その後の版では、それ以下にならない保証があること)。 転送される最初のデータ項目は目的地が<dest>のタグを付け、第2のデータ 項目は、<dest>+1というようになる(Z3からA0まではラッピング(wrap ping))。もし“!”が指定された場合は、その後、レジスタRnが<size>に よって1つずつ増加される。 LDP16の変種が使用された場合は、エンダイアン(endian)特定動作が2 つの16ビットのハーフワードに行われて、それらがメモリシステムから戻され る時には32ビットデータ項目とする。より詳しくは、以下のBig Endian及びLi ttle Endianサポートを参照せよ。 LDPW命令は、多数のデータ項目をレジスタのセットに転送する。最初に転 送されるデータ項目には<dest>のタグが付き、次は<dest>+1のタグが付き 、以下同様。<wrap>転送が起きると、次に転送される項目は、<dest>用とな り、以下同様。<wrap>の量は、ハーフワードの量で指定される。 LDPWには、次の制限がある。 − <size>の量は、4の非ゼロ倍でなければならず、 − <size>は、特定の導入についてROBのサイズ以下でなければならず(第 1版では8ワード、その後の版では、それ以下にならない保証がある)、 − <dest>は、{A0,X0,Y0,Z0}のいずれか1つでよく、 − <wrap>は、LDP32Wについては{2,4,8}のいずれかの個数のハ ーフワードであり、LDP16Wについては{1,2,4,8}のいずれかの個 数のハーフワードであり、 − <size>の量は、2*<wrap>より大きくなければならない。さもないと、 ラッピングは起きず、代わりにLDP命令が使用される。 たとえば、次の命令 LDP32W X0,2,〔R0〕!,#8 は、2つのワードをROBにロードし、その目的地をフル・レジスタX0とする 。 R0は、8増加する。次の命令 LDP32w X0,4,〔R0〕,#16 は、4つのワードをROBにロードし、それらの目的地をX0,X1,X0,X 1(この順序で)とする。R0は影響されない。 LSP16Wに対しては、<wrap>は、1、2、4、又は8として指定できる 。 1のラップが指定されると、すべのデータのタグの目的地が、目的レジスタの下 半分<dest>.1.となる。これは、ハーフ・レジスタの場合である。 例えば、次の命令 LDP16W X0,1,〔R0〕!,#8 は、2つのワードをROBにロードし、それらを16ビットデータとして目的地 をX0.1とする。R0は8増加される。次の命令 LDP16W X0,4,〔R0〕,#16 は、LDP32Wの例と同様に挙動するが、ただし、エンダイアン特定動作は、 メモリから戻されるデータ上に行われる。 LDP命令のすべての使用されないエンコーディングは、将来の拡張用に取っ ておくことができる。 LDP16U命令は、非ワード揃え(non-word aligned)16ビットデータの 効率良い転送をサポートする。LDP16UサポートはレジスタD4−D15( X,Y,Zバンク)になされる。LDP16Uサポートは、レジスタ32ビット ワードのデータ1つ(2つの16ビットデータ項目を含む)をメモリからピッコ ロへ転送することになる。ピッコロは、このデータの下の16ビットを捨て、上 の16ビットを保持レジスタに記憶する。X,Y,Zバンク用の保持レジスタが ある。バンクの保持レジスタが通報されると(primed)と、データの目的地がそ のバンク内のレジスタであれば、LDP{w}命令の挙動が変化する。ROBに ロードされたデータは、LDP命令によって転送されつつあるデータの下の16 ビットと保持レジスタとの連結によって形成される。転送されつつある上の16 ビットは、保持レジスタに入れられる。 このモードの動作は、LDPA命令によって打ち切られるまで続く。保持レジ スタは、目的レジスタのタグもサイズも記録しない。これらの性質は、次のdata .1.の値を提供する命令から得られる。 メモリシステムから戻されたデータには、常にエンダイアン特定挙動が起きる 可能性がある。LDP16Uと同等の非16ビットはない。というのは、32ビ ットデータ項目はすべてメモリにおいてワード揃えされるからである。 LDPA命令は、LDP16U命令によって開始された操作の非整列(unalig ned)モードを取り止めるのに使用される。非整列モードは、バンクX,Y,Z 上で独立に切ることができる。例えば、次の命令 LDPA {X,Y} は、バンクX,Y上で非整列モードを打ち切る。これらのバンクの保持レジスタ 内のデータは、捨てられる。 非整列モードにないバンク上でLDPAを実行することは可能であり、そのバ ンクは整列モードのままである。 MPR命令は、ARMレジスタRnの内容をROBに入れ、ピッコロレジスタ <dest>に向けられる。目的レジスタ<dest>は、A0−Z3の範囲のフルレジ スタならどれでもよい。例えば、次の命令 MPR X0,R3 は、R3の内容をROBに移し、そのデータをフルレジスタX0用とする。 データがARMからピッコロに転送される時にエンダイアネス(endianess)特 定挙動が生じることがない。というのは、ARMは、内部的に、あまりエンダイ アンではないからである。 MPRW命令は、ARMレジスタRnの内容をROBに入れ、それを、16ビ ットピッコロレジスタ<dest>.1.向けの2つの16ビットデータ項目とする 。<dest>についての制限は、LDPW命令の場合と同じである(つまり、Z0 ,X0,Y0,Z0)。例えば、次の命令 MPRW X0,R3 は、R3の内容をROBに移し、X0.1.向けの2つの16ビット量のデータ とする。尚、1でラップするLDP16Wの場合、32ビットレジスタの下半分 だけが目的地となり得る。 MPRについては、データに対してエンダイアネス特定操作は何も行われない 。 LDPは、次のようにエンコードされる。 ここで、PICCOLO1は、ピッコロの最初のコプロセッサの番号(現在8) である。NビットがLDP32(1)とLDP16(0)との間の選択を行う。 LDPWは、次のようにエンコードされる。 ここで、DESTは、目的レジスタA0,X0,Y0,Z0に対する0−3であ り、WRAPは、1、2、4、8の値のラップに対して0−3である。PICC OLO2は、ピッコロの第2のコプロセッサ番号(現在9)である。Nビットが 、LDP32(1)とLDP16(0)との間の選択を行う。 LDP16Uは、次のようにエンコードされる。 ここで、DESTは、目的バンクX,Y,Zに対する1−3である。 LDPAは、次のようにエンコードされる。ここで、BANK〔3:0〕は、バンクごとの非整列モードを打ち切るのに使用 される。BANK〔1〕がセットされると、バンクX上の非整列モードが打ち切 られる。BANK〔2〕及びBANK〔3〕がセットされれば、それぞれバンク Y,Z上の非整列モードが打ち切られる。尚、これはCDP操作である。 MPRは、次のようにエンコードされる。 MPRWは、次のようにエンコードされる。 ここで、DESTは、目的レジスタX0,Y0,Z0に対する1−3である。 出力FIFOは、32ビットの値を8つまで保持することができる。これらは 、次の(ARM)オペコード(opcodes)の1つを使用して、ピッコロから転送さ れる。 最初のは、<size>/4ワードを出力FIFOから、ARMレジスタRnによ って与えられるアドレスへ退避する。”!”があれば、Rnを指示する。デッド ロックを避けるために、<size>は、出力FIFOのサイズ(この導入例では8 エントリ)以下でなければならない。STP16の変種が使用された場合は、メ モリシステムから戻されるデータにエンダイアン特定挙動が生じる可能性がある 。 MRP命令は、出力FIFOから1つのワードを除去し、それをARMレジス タRnに入れる。MRPと同様に、このデータには、エンダイアン特定操作が適 用されることはない。 STP用のARMエンコーディングは以下の通り。 ここで、Nは、STP32(1)とSTP16(0)との間の選択を行う。P, U,Wビットの定義については、ARMデータシートを参照せよ。 MRP用のARMエンコーディングは以下の通り。 ピッコロ命令セットは、内部的にはエンダイアン操作がほとんどないと仮定し ている。例えば、32ビットレジスタに、複数の16ビット・ハーフとしてアク セスする場合、下半分がビット15から0を占めるとする。ピッコロは、大きな エンダイアン・メモリ又は周辺機器(peripherals)のあるシステムで動作するこ とになるので、16ビットでパックされたデータを正しくロードできるようにし なければならない。 ピッコロ(つまり、DSPが採用されたコプロセッサ)は、ARM(例えば、 英国、ケンブリッジのアドヴァンストRISCマシンズ・リミテッドによって製 造されたARM7マイクロプロセッサ)のように、プログラマがプログラム可能 周辺機器で制御できるであろう‘BIGEND’構成ピンを持っている。ピッコ ロは、このピンを使用して入力リオーダ・バッファ及び出力FIFOを構成する 。 ARMがパック16ビットデータをリオーダ(reorder)・バッファにロードす る時は、そのことを、LDP命令の16ビット形式を使用して示さなければなら ない。この情報は‘BIGEND’構成入力の状態と組み合わされて、データを 保持ラッチへ入れ且つリオーダ・バッファを適当な順序にする。特にbig endian モードの時は、保持レジスタはロードされたワードの下16ビットを記憶し、次 のロードの上16ビットと対(ペア)にされる。保持レジスタの内容は、常に、 リオーダ・バッファへ転送されたワードの下16ビットで終わる。 出力FIFOは、パックされた16ビット又は32ビットデータを含むことが できる。プログラマは、STP命令の正確な形式を使用して、16ビットデータ がデータバスの正しい半分に提供されていることをピッコロが確認できるように しなければならない。big endianとして構成されている場合、STPの16ビッ ト形式が使用されると、上16ビットハーフ及び下16ビットハーフが交換され る。 ピッコロは、ARMからしかアクセスできないプライベート・レジスタを4つ 持っている。これらは、S0−S2と呼ばれる。これらにアクセスできるのは、 MRC命令とMCR命令だけである。オペコードは以下の通り。 MPSR Sn,Rm MRPS Rm,Sn これらのオペコードは、ARMレジスタRmとプライベート・レジスタSnと の間で32ビット値を転送する。それらは、ARMにおいて、コプロセッサ・レ ジスタ転送としてエンコードされる。 ここで、Lは、MPSRなら0、MRPSなら1である。 レジスタS0は、ピッコロの一意なID及び改定コードを含む。 〔3:0〕ビットは、プロセッサの改定番号を含む。 〔15:4〕ビットは、2進符号化された10進フォーマットの3桁部分の番 号(ピッコロなら、0x500)を含む。 〔23:16〕ビットは、アーキテクチャ版数を含む。0x00=第1版 〔 31:24〕ビットは、導入者の商標のASCIIコードを含む。0x41=A =ARM Ltd. レジスタS1は、ピッコロの状態レジスタである。 一次状件コードフラグ(N,Z,C,V) 二次状件コードフラグ(SN,SZ,SC,SV) Eビット:ピッコロは、ARMによってディスエーブルされ、中止した。 Uビット:ピッコロは、UNDEFINED(未定義)命令に出会って、中止 した。 Bビット:ピッコロは、BREAKPOINT(区切点)に出会って、中止し た。 Hビット:ピッコロは、HALT(中止)命令に出会って、中止した。 Aビット:ピッコロは、メモリ・アボート(ロード、ストア、又はピッコロ命 令)によって、中止した。 Dビット:ピッコロは、デッドロック条件を検出し、中止した(以下を参照) 。 レジスタS2はピッコロプログラム・カウンタである。 プログラム・カウンタに書き込みすると、ピッコロはそのアドレスで(中止状 態であれば中止状態のまま)プログラムの実行を始める。プログラム・カウンタ はリセットされた時、未定義である。というのは、プログラム・カウンタへの書 き込みによっって、ピッコロは常にスタートされるからである。 実行中、ピッコロは命令の実行及びコプロセッサ・インターフェースの状態を 次のようにモニタする。 − ピッコロは、レジスタ再充填されるのを、あるいは出力FIFOが使えるエ ントリを持つのを、待つ態勢に入った。 − ROB内のスペースが不十分であるか、出力FIFO内の事項(items)が不 十分であるかの理由で、コプロセッサ・インターフェースがビジ−待ち状態(bus y−waiting)にある。 これらの両方の条件が検出されると、ピッコロは、その状態レジスタにDビッ トをセットし、中止し、ARMコプロセッサの命令を拒絶し、ARMは未定義命 令トラップにはまる。 このデッドロック状態の検出により、少なくともプログラマにこのような条件 が生じたことを知らせ、また失敗の正確な点(位置)を知らせることができるシ ステムが構成される。プログラマは、ARMとピッコロのプログラム・カウンタ とレジスタを読めばよい。尚、強調しておくが、デッドロックが生じるのは、間 違ったプログラムあるいはピッコロの状態を変造するシステム部分がある場合だ けである。デッドロックは、データが少なすぎることや「オーバーロード」によ って生じることはない。 ARMからピッコロを制御するのに使用できるいくつかの操作があり、それら はCDP命令によって提供される。これらのCDP命令は、ARMが優先状態に ある時に受け付けられる。そうでないと、ピッコロはCDP命令を拒絶し、AR Mは未定義命令トラップにはまる。以下の操作が使用可能である。 − Reset(リセット) − Enter State Access Mode(状態アクセスモードに入る) − Enable(イネーブル) − Disable(ディスエーブル) ピッコロは、PRESET命令によってソフトウェア内でプリセットされる。 PRESET ;Clear Piccolo's state (ピッコロの状態をクリアする) この命令は、次のようにエンコードされる。 この命令が実行されると、次のことが生じる。 − すべてのレジスタが空き(再充填の態勢)の印になる。 − 入力ROBがクリアされる。 − 出力FIFOがクリアされる。 − ループ・カウンタがリセットされる。 − ピッコロは中止状態に入る(そしてS2のHビットがセットされる)。 PRESET命令の実行には、いくつかのサイクル(この実施の形態では、2 から3)が必要である。実行されている間に、以下のピッコロ上で実行されるベ きARMコプロセッサ命令がビジー待ちになる。 状態アクセスモードにおいて、ピッコロの状態は、STC及びLDC命令(以 下のARMからのピッコロ状態アクセスについての説明を参照)を使って退避さ れ復元される。状態アクセスモードに入るには、PSTATE命令がまず実行さ れなければならない。 PSTATE; Enter State Access Mode (状態アクセスモードに入る) この命令は次のようにエンコードされる。 実行されると、PSTATE命令は、 − ピッコロを中止し(すでに中止されているのでなければ)、Eビットをピッ コロの状態レジスタにセットする。 − ピッコロを状態アクセスモードに構成する。 PSTATE命令の実行が終わるまでにはいくつかのサイクルがある。という のは、ピッコロの命令パイプラインは中止する前に汲み出されなければならない からである。実行中、ピッコロ上で実行される次のARMコプロセッサ命令がビ ジー待ちになる。 PENABLE及びPDISABLE命令は、高速コンテキスト切替えに使用 される。ピッコロがディスエーブルされると、専用レジスタ0と1だけが(ID レシスタ、状態レジスタ)アクセス可能となり、それも優先モードからだけであ る。これ以外の状態へアクセスすると、またユーザモードからアクセスすると、 ARM未定義命令例外が生じる。ピッコロをディスエーブルすると、実行が中止 される。ピッコロは、実行を中止すると、状態レジスタにEビットをセットして 応答する。 ピッコロをイネーブルするには、PENABLE命令を実行する。 PENABLE; Enable Piccolo この命令は次のようにエンコードされる。 ピッコロをディスエーブルするには、PDISABLE命令を実行する。 PDISABLE; Disable Piccolo この命令は次のようにエンコードされる。 この命令が実行されると、次のことが生じる。 − ピッコロの命令パイプラインが空になる(drain)。 − ピッコロは中止して、状態レジスタにHビットをセットする。 ピッコロ命令キャッシュは、ピッコロのデータパスを制御するピッコロの命令 を保持する。もし存在すれば少なくとも64個の命令を保持し、それを16ワー ド境界から開始することが保証される。次のARMオペコードがMCRにアセン ブルされる。その動作は、強制的にキャッシュに、(16ワード境界上にあるは ずの)指定されたアドレスから始まる(16個の)命令のラインを取り込ませる (fetch)。この取り込みは、キャッシュがすでにこのアドレスに関係するデータ を保持していても行われる。 PMIR Rm ピッコロは、PMIRが行われるより前に中止されなければならない。 このオペコードのMCRエンコー−ディングは以下の通り。 − このセクションは、ピッコロのデータパスを制御するピッコロ命令セット( 集合)に言及する。各命令は32ビットの長さである。これらの命令は、ピッコ ロ命令キャッシュから読み出される。 命令セットのデコードは、非常に直線的である。最初6ビット(26から31 )が主要オペコードを与え、22から25までが、いくつかの特定の命令のため のマイナーなオペコードを提供する。灰色の影となっているコードは、現在未使 用のものであり、拡張用として使える(それらは現時点で指示された値を含んで いなければならない)。 11の主要命令クラスがある。これは、いくつかのサブクラスのデコードを簡 単にするため、命令にファイルされた主要オペコードに完全に対応するものでは ない。上の表にある命令には、以下の名前がついている。 Standard Data Operation(標準データ操作) Logical Operation(論理操作) Conditional Add/Subtract(条件付加算/減算) Undefined(未定義) Shifts(シフト) Select(選択) Undefined(未定義) Parallel Select(並列選択) Multiply Accumulate(乗算累算) Undefined(未定義) Multiply Double(乗算ダブル) Undefined(未定義) Move Signed Immediate (符号付即値移動) Undefined(未定義) Repeat(反覆) Repeat(反覆) Register List Operation(レジスタ・シフト操作) Branch(ブランチ) Renaming Parameter Move(リネーム・パラメータ移動) Halt/Break(中止/中断) 命令の各クラスのフォーマットは、次のセクションに詳しく述べてある。ソー ス及び目的オペランド領域は、ほとんどの命令において共通であり、レジスタ・ リマッピングと同様、別のセクションに述べてある。 ほとんどの命令は2つのソースオペランドSource1,Source2を必要とする。 Source1(SRC1)オペランドは、次の7ビット・フォーマットを持つ。 この領域の要素は、次の意味を持つ。 − Size−読み出すオペランドのサイズを示す(1=32ビット、0=16ビッ ト)。 − Refill−レジスタが読み出された後、空きの印になり、ROBから再充填で きることを示す。 − Register Number−32ビット、16ビットレジスタのどっちのレジスタを 読み出すべきべきかエンコードする。 − Hi/Lo−16ビット読み出しに対して、32ビットレジスタのどちらの 半分を読み出すべきかを示す。32ビットオペランドに対してセットされた場合 は、レジスタの2つの16ビット半分が入れ換えられなければならないことを示 す。 レジスタのサイズは、レジスタ番号に接尾辞を付けることによってアセンブラ によって特定される。下位16ビットなら、.l、上位16ビットなら、.h, 32ビットの上下の16ビットを入れ換えるなら、.x。 一般のソース2(SCR2)は、次の3つの12ビット・フォーマットの1つ を持つ。 図4は、選択されたレジスタの適切な半分をピッコロのデータパスにスイッチ するためのHi/Loビット及びSizeビットに応答するマルチプレクサ構成を示 す。Sizeビットが16ビットであれば、符号拡張回路がデータパスの高次ビット に適切な0または1を入れる。 最初のエンコーディングは、ソースをレジスタとして指定し、その領域は、S CR1指定子(specifier)と同じエンコーディングを持つ。SCALE領域は 、ALUの結果に適用されるべきスケールを指定する。 8ビット即値(immediate)は、回転(rotate)エンコーディングによって、3 2ビット即値を生成し、それが、8ビット値及び2ビット回転(rotate)によっ て表現される。次の表は、8ビット値XYから生成される即値を示す。 16ビット即値エンコーディングにより、6ビット符号無し即値(範囲0から 63)を、ALUの出力に提供されるスケールと共に使用することができる。 一般のソース2エンコーディングは、ほとんどの命令変種に共通である。この 規則には例外が少しあり、それがソース2エンコーディングの限定されたサブセ ットをサポートするか、あるいは、、それを少し変形させる。 − Select Instructions.(選択命令) − Shift Instructions.(シフト命令) − Parallel Operations.(並列操作) − Multiply Accumulate Instructions.(乗算累算命令) − Multiply Double Instructions.(乗算ダブル命令) 選択命令は、レジスタ又は16ビット符号無し即値であるオペランドをサポー トするだけである。スケールは無効である。それは、これらのビットは命令の条 件領域によって使用されるからである。 シフト命令は、16ビットレジスタ又は5ビット符号無し即値である1から3 1のオペランドをサポートするだけである。結果のスケールは無効である。 並列操作の場合、レジスタがオペランドのソースとして指定されていれば、3 2ビット読み出しが行われなければならない。即値エンコーディングは、並列操 作については、少し違った意味を持つ。これにより、即値は、32ビットオペラ ンドの16ビット半分の両方に複製できる。並列操作には少し制限のある範囲の スケールが使用できる。 16ビット即値が使用された場合、常に、32ビット量の半分の両方に複製さ れる。8ビット即値が使用された場合は、それが複製されるのは、それが32ビ ット量の上半分に回転されるべきであると回転(rotate)が示している時だけで ある。 並列選択操作にはスケールは無効である。スケール領域は、これらの命令では 、 0にセットされる。 乗算累算命令では、8ビット回転即値を指定することはできない。領域のビッ ト10は、どのアキュミュレータを使用すべきかを指定する部分となる。ソース 2は、16ビットオペランドとして意味される。 乗算ダブル命令は、定数を使用することができない。16ビットレジスタだけ が指定できる。この領域のビット10は、どのアキュミュレータを使用すべきか を指定する部分となる。 命令のうちいくつかは、常に32ビット操作(例えば、ADDADD)を含み 、その場合、サイズ・ビットは、1にセットされ、Hi/Loビットは、場合に よっては32ビットオペランドの2つの16ビット半分を交換するのに使用する ことができる。また、いくつかの命令は、常に16ビット操作(例えば、MUL )を含み、サイズビットは0に設定されなければならない。Hi/Loビットは 、レジスタのどちらの半分が使用されるかを選択する(見えないサイズビットは 明らかなものと仮定する)。乗算・累算命令は、ソース・アキュミュレータと目 的レジスタを独立に指定することができる。これらの命令においては、Sizeビッ トは、ソースアキュミュレータを指定するのに使用され、サイズビットは、命令 タイプによって0と暗示される。 16ビット値が(A又はBバスを介して)使用される場合、それは、自動的に 32ビット量に符号拡張される。48ビットレジスタが(A又はBバスを介して )読みだされる場合、下の32ビットだけがバスに現れる。それは、どの場合で も、ソース1、ソース2は、32ビット値に変換されるからである。バスCを使 用する累算命令だけがアキュミュレータレジスタの48ビット全部にアクセスす ることができる。 再充填ビットがセットされていれば、レジスタは使用後、空きの印になり、普 通の再充填メカニズムによってROBから再充填される(ROBについてのセク ションを参照)。ピッコロは、再充填が行われる以前にソースオペランドとして レジスタが再び使用されないかぎり、止まらない。再充填されたデータが有効に なる前のサイクルの最小数(最善の場合で、データはROBの先頭で待っている )は、1か2である。従って、再充填されたデータは、再充填要求の次の命令に は使わない方が良い。もし、次の2つの命令上でオペランドの使用を避けること ができるのであれば、その方が良い。というのは、これにより、より深いパイプ ライン導入上での性能損失を防ぐことになるから。 再充填ビットは、レジスタ番号に接尾辞“^”を付けることによってアセンブ ラで指定される。空きの印のついたレジスタのセクションは、レジスタのオペラ ンドに依存する。各レジスタの2つの半分は、独立に、再充填の印をつけること もできる(例えば、X0.l^は、、X0の下半分だけを再充填することになり 、X0^は、X0全体を再充填することになる)。48ビットレジスタの上「半 分」(ビット47:16)が再充填されると、16ビットのデータがビット31 :16に書き込まれ、ビット47まで符号拡張される。 同じレジスタを2回再充填しようと(例えば、ADD X1,X0^,X0^ )しても、再充填は1度しか行われない。アセンブラは、ADD X1,X0, X0^という文法しか許可すべきではない。 レジスタ読み出しが、レジスタの再充填以前に試みられると、ピッコロは、レ ジスタが再充填されるまでまち状態で止まる。レジスタが再充填の印になると、 レジスタは再充填の値が読まれる以前に更新され、その結果、UNPREDIC ATBLE(予想不可)となる(例えば、ADD X0,X0^,X1は予想不 可。なぜなら、X0については再充填の印であるから、X0とX1の合計で埋め ることになる)。 4ビットスケール領域は14のスケールタイプをエンコードする。 − ASR ♯0,1,2,3,4,6,8,10 − ASR #12から16 − LSL #1 並列Max/Min命令は、スノケールを提供しないので、ソース2の6ビッ ト定数変種は使用されない(アセンブラにより0にセットされる)。 REPEAT命令内で、レジスタのリマッピングがサポートされ、REPEA Tが、ループを解かないままレジスタの移動「窓」にアクセスすることができる 。これについて、以下、詳しく説明する。 目的オペランドは、次の7ビットフォーマットを持つ。 この基本エンコーディングには10の変種がある。 レジスタ番号(Dx)は16のレジスタのどれがアドレスされているかを示す 。Hi/LoビットとSizeビットは、一緒になって、各32ビットレジスタへ1 6ビットレジスタのペアとしてアドレスする。Sizeビットは、どのようにしたら 適切なフラグが、命令タイプに定義されているように、セットされるかを定義す るもので、結果がレジスタバンク及び/又は出力FIFOに書き込まれるか否か には関係しない。これにより、比較及び同様の命令の構成ができる。命令の累算 クラスのある加算は、結果をレジスタに書き戻さなければならない。 どの場合でも、レジスタへの書き戻し又は出力FIFOへの挿入以前の操作の 結果は、48ビット量である。2つの場合がある。 書き込みが16ビットならば、48ビット量は、下の16ビット〔15:0〕 を選択することによって、16ビットに減る。命令が飽和すれば、値は、−2^ 15から2^15−1の範囲に飽和される。次に16ビット値が指示されたレジ スタに書き戻され、また、書き込みFIFOビットがセットされれば、出力FI FOに書き戻される。出力FIFOに書き込まれた場合、それは、次の16ビッ ト値が書き込まれるまで保持される。次の16ビットが書き込まれると、それら の値はペアとなって、単−32ビット値として出力FIFOに入れられる。 32ビットの書き込みならば、18ビットは、下の32ビット〔31:0〕を 選んで32ビット量に減る。 32ビット書き込みでも、48ビット書き込みでも、命令が飽和すれば、48 ビット値は−2^31−1から2^31の範囲の32ビット値に変換される。飽 和すると、 − アキュミュレーへの書き戻しが行われると、48ビット全部が書き込まれる 。 − 32ビットレジスタへの書き戻しが行われると、ビット〔31:0〕が書き 込まれる。 − 出力FIFOへの書き戻しが行われるた場合も、やはりビット〔31:0〕 が書き込まれる。 目的サイズは、レジスタ番号の後の.lまたは.hによって、アセンブラ内で 指定される。レジスタへの書き戻しが全く行われない場合は、レジスタ番号は意 味がなくなるので、目的レジスタを省略して、レジスタへの書き込み無しとする か、あるいは、^を使って、出力FIFOだけへの書き込みを指示する。例えば 、SUB,X0,Y0は、CMP X0,Y0と等価であり、ADD^,X0, Y0は、X0+Y0の値を出力FIFOに入れる。 出力FIFOに値を入れる空きがない場合は、ピッコロは、空きができるまで 待機する。 16ビット値、例えば、ADD X0.h^,X1,X2が書き出されると、 その値は、第2の16ビット値が書かれるまでラッチされる。次にこれら2つの 値は結合されて、32ビット数として出力FIFOに入れられる。最初に書き込 まれる16ビット値は、常に32ビットワードの下半分に現れる。出力FIFO に入れられたデータは、16又は32ビットデータとしての印がつき、endianes sをbig endianシステム上で訂正することができる。 32ビット値が2つの16ビット書き込みの間に書き込まれると、その動作は 未定義になる。 REPEAT命令内で、レジスタ・リマッッピングがサポートされ、REPE ATは、ループを解く(unroll)ことなしにレジスタの移動「窓」にアクセスす ることができる。以下、これについて詳しく説明する。 本発明の好ましい実施の形態において、REPEAT命令は、レジスタ・オペ ランドがループ内で特定される方法を変更するメカニズムを提供する。このメカ ニズムの下で、アクセスするレジスタは命令内のレジスタ・オペランドとレジス タバンクのオフセットの機能によーって決定される。オフセットは、プログラム 可能な方法で変更でき、各命令ループの最後で変更されるのが好ましい。このメ カニズムは、X,Y,Zバンク内にあるレジスタ上で独立に動作することができ る。好ましい実施の形態では、この機能はAバンク内のレジスタには使用できな い。 論理レジスタ、物理レジスタという概念を使用することができる。命令オペラ ンドは論理レジスタを参照し、これらは、特定のピッコロレジスタ10を同定す る物理レジスタ・レファレンスにマップされる。すべての操作は、再充填も含み 、物理レジスタ上で動作する。レジスタ・リマッピングが生じるのは、ピッコロ 命令ストリームサイドだけであり、ピッコロにロードされるデータは常に物理レ ジスタを目的とし、リマッピングは行われない。 リマッピングのメカニズムについて、以下、図5を参照して説明する。図5は 、ピッコロ・コプロセッサ4の多数の内部構成要素を示すブロック図である。メ モリからARMコア2によって検索されるデータ項目は、リオーダ・バッファ1 2に入れられ、ピッコロレジスタ10は、先に図2を参照した方法で、リオーダ ・バッファ12から再充填される。キャッシュ6に記憶されているピッコロの命 令は、ピッコロ4内の命令デコーダ50に渡されることによって、ピコロ・プロ セッサ・コア54に渡される前にデコードされる。ピッコロ・プロセッサ・コア 54は、先に図3を参照して述べた乗算器/加算器回路20と、累算/退出回路 22と、スケール/飽和(saturate)回路24とを備える。 命令デコーダ50がREPEAT命令によって同定された命令ループの一部を 構成する命令を扱っていて、且つ、そのREPEAT命令が多数のレジスタのリ マッピングを行うことが必要であると指示した場合は、レジスタ・リマッピング 論理52が使用されて、必要なリマッピングが行われる。レジスタ・リマッピン グ論理52は、命令デコーダ50の一部であると考えて良い。ただし、当業者に は明らかなように、レジスタ・リマッピング論理52は、命令デコーダ50に対 して全く別のものとして提供されでもかまわない。 典型的な命令は、その命令にとって必要なデータ項目を含むレジスタを同定す る1つまたは2つ以上のオペランドを備える。例えば、典型的な命令は、2つの ソースオペランドと1つの目的ペランドを含むことができ、その命令が必要とす るデータ項目を含む2つのレジスタと、その命令の結果を入れるべきレジスタを 同定する。レジスタ・リマッピング論理52は、命令デコーダ50から命令のオ ペランドを受け取るが、それらは論理レジスタ・レファレンスを同定する。論理 レジスタ・レファレンスに基づき、レジスタ・リマッピング論理は、物理レジス タのリマッピングをすべきかどうかを決定し、必要なら、物理レジスタ・レファ レンスにリマッピングを適用する。また、リマッピングを適用すべきではないと 決定された場合は、論理レジスタ・レファレンスが物理レジスタ・レファレンス として提供される。リマッピングを行う好ましい方法については、後で、詳しく 説明する。 レジスタ・リマッピング論理からの各出力物理レジスタ・レファレンスは、ピ ッコロ・プロセッサ・コア54に渡されることによって、プロセッサ・コアが、 物理レジスタ・レファレンスによって同定される特定のレジスタ10内のデータ 項目に命令を適用できるようにする。 好ましい実施の形態によるリマッピングのメカニズムによれば、レジスタの各 バンクは、2つのセクション、つまりその中でレジスタがリマップされるセクシ ョンと、レジスタがリマッピング無しで元のレジスタ・レファレンスを保持する セクションとの2つのセクションに割ることができる。好ましい実施の形態にお いて、リマップされたセクションは、リマップされているレジスタ・バンクの下 から開始される。 このリマッピングのメカニズムは多数のパラメータを使用し、これらのパラメ ータについては、図6を参照しながら、詳細に説明する。図6は、様々なパラメ ータがレジスタ・リマッピング論理52によっていかに使用されるかを示すブロ ック図である。尚、これらのパラメータは、リマップされているバンク内の点、 例えば、バンクの下からの相対的値を与えられている。 レジスタ・リマッピング論理52は、2つの主要論理ブロック、つまりRemap (リマップ)ブロック56とBase Update(ベース更新)ブロック58とからな ると考えることができる。レジスタ・リマッピング論理52は、論理レジスタ・ レファレンスに加えられるべきオフセット値を提供するベース・ポインタを使用 する。このベース・ポインタの値は、ベース更新ブロック58によってリマップ ・ブロックに提供される。 BASESTART信号を使用して、ベースポインタの初期値を定義すること ができる。例えば、典型的には、ゼロであるが、他の値を指定することもできる 。このBASESTART信号は、ベース更新ブロック58内のマルチプレクサ 60に渡される。命令ループの最初の繰り返しで、BASESTART信号は、 マルチプレクサ60によって、記憶エレメント66に渡され、ループのその後の 繰り返しでは、次のベース・ポインタ値がマルチプレクサ60によって記憶エレ メント66に渡される。 記憶エレメント66の出力は、現在のベース・ポインタ値としてリマップ論理 56に渡され、またベース更新論理58内の加算器62の入力の1つにも渡され る。加算器62は、ベース・インクリメント値を提供するBASEINC信号を 受け取る。加算器62は、記憶エレメント66によって供給される現在のベース ・ポインタ値を、BASEINC値分だけインクリメントし、結果をモジュロ回 路64へ渡すようになっている。 また、モジュロ回路は、BASEWRAP値を受け取り、この値を加算器62 からの出力ベース・ポインタ信号と比較する。インクリメントされたベース・ポ インタ値がBASEWRAP値以上であれば、その新しいベース・ポインタがラ ップラウンドされて、新しいオフセット値となる。モジュロ回路64の出力は、 記憶エレメント66に記憶されるべき次のベース・ポインタ値となる。この出力 はマルチプレクサ60に提供され、、そこから、記憶エレメント66に提供され る。 しかしながら、この次のベース・ポインタ値は、REPEAT命令を管理する ループ・ハードウェアからBASEUPDATE信号を記憶エレメント66が受 け取らないうちは、記憶エレメント66に記憶できない。BASEUPDATE 信号は、ループ・ハードウェアによって周期的に生成され、例えば、命令ループ が反復されるごとに、生成されるDBASEUPDATE信号を記憶エレメント 66が受け取ると、記憶エレメントは、以前のベース・ポインタ値にマルチプレ クサ60から提供される次のベース・ポインタ値を上書きする。このように、リ マップ論理58に供給されるベース・ポインタ値は、新しいベース・ポインタ値 に変わる。 レジスタバンクのリマップされたセクション内でアクセスされるべき物理レジ スタは、命令のオペランド内に含まれる論理レジスタ・レファレンスに、ベース 更新論理58によって提供されるベース・ポインタ値を加えることによって決定 される。この加算を行うのは加算器68であり、その出力は、モジュロ回路70 に渡される。好ましい実施の形態において、モジュロ回路70は、レジスタ・ラ ップ値を受け取り、加算器68からの出力信号(論理レジスタ・レファレンスと ベース・ポインタ値の和)がレジスタ・ラップ値を越えると、その結果へ、リマ ップされた領域の下でラップ(wrap)が行われる。モジュロ回路70の出力は、 マルチプレクサ72に提供される。、 REGCOUNT値がリマップ・ブロック56内の論理74に提供され、リマ ップされるべきバンク内のレジスタの個数を同定する。論理74は、このREG COUNT値を論理レジスタ・レファレンスと比較し、比較の結果により、制御 信号をマリチプレクサ72に渡す。、マルチプレクサ72は、その2つの入力で 、論理レジスタ・レファレンスとモジュロ回路70からの出力(リマップされた レジスタ・レファレンス)を受け取る。本発明の好ましい実施の形態において、 論理レジスタ・レファレンスがREGCOUNT値より小さければ、論理74は 、マルチプレクサ72にリマップされたレジスタ・レファレンスを物理レジスタ ・レファレンスとして出力させる。ただし、もし、論理レジスタ・レファレンス がREGCOUNT値以上であれば、論理74は、マルチプレクサ72に論理レ ジスタ・レファレンスを直接、物理レジスタ・レファレンスとして出力させる。 先に述べたように、好ましい実施の形態において、リマッピング・メカニズム を引き起こすのはREPEAT命令である。後で、より詳しく述べるように、R EPEAT命令は、ハードウェアで4つのゼロサイクルループを提供する。これ らのハードウェア・ループは、図5に命令デコーダ50の部分として図示されて いる。命令デコーダ50がキャッシュ6から命令を要求する度に、キャッシュは その命令を命令デコーダに戻し、それにより、命令デコーダは、戻された命令が REPEAT命令であるかどうか判断する。もしそれであれば、ハードウェア・ ループの1つが、そのREPEAT命令を扱うように構成される。 各繰り返し命令は、ループ内の命令の数と、ループを繰り返す回数(定数また はピッコロ・レジスタから読み出される)を指定する。2つのオペコードREP EATとNEXTがハードウェアループの定義用に提供され、NEXTオペコー ドは単に区切りとして使用されるだけで、命令としてアセンブルはされない。R EPEATがループの頭に行き、NEXTがループの最後を区切ることによって 、アセンブラはループ・本体内の命令の数を数えることができる。好ましい実施 の形態において、REPEAT命令は、レジスタ・リマッピング論理52が使用 すべきREGCOUNT,BASEINC,BASEWRAP,REGWRAP パラメータのようなリマッピング・パラメータを含むことができる。 レジスタ・リマッピング論理によって使用されるリマッピング・パラメータを 記憶する多数のレジスタを提供することができる。これらのレジスタ内で、前も って定義されたリマッピング・パラメータの多数のセット(集合)を提供するこ とができる一方、いくつかのレジスタはユーザ定義リマッピング・パラメータを 記憶するために残される。REPEAT命令と共に指定されたリマッピング・パ ラメータが、前もって定義されたリマッピング・パラメータの1つと等しい場合 、適当なREPEATエンコーディングが使用され、これにより、マルチプレク サ等が適当なリマッピング・パラメータをレジスタから直接にレジスタ・リマッ ピング論理へ提供する。一方、リマッピング・パラメータが前もって定義された リマッピング・パラメータのどれとも等しくない場合は、アセンブラがRemappin gParameter Move(RMOV)命令を生成する。これにより、ユーザ定義レジス タ・リマッピング・パラメータの構成が可能となり、RMOV命令の後にREP EAT命令が続く。好ましくは、ユーザ定義リマッピング・パラメータは、RM OV命令によって、そのようなユーザ定義リマッピング・パラメータを記憶すべ く残されていたレジスタに入れられ、マルチプレクサは、それらのレジスタの内 容をレジスタ・リマッピング論理に渡すようプログラムされる。 好ましい実施の形態において、REGCOUNT,BASEIN,BASE WRAP,REGWRAPパラメータは、以下のチャートに示された値の1つを 取る。 図6に戻り、リマップ・ブロック56によって様々なパラメータが使用される 例を次に示す(この例では、論理及び物理レジスタ値は、特定バンクに対する相 対値である。) if(Logical Register(論理レジスタ)<REGCOUNT) Physical Register(物理レジスタ)=(Logical Register(論理レジスタ)+ Base(ベース))MOD REGCOUNT else Physical Register(物理レジスタ)=Logical Register(論理レジスタ) end if ループの最後で、ループの次の繰り返しが始まる前に、次のベース・ポインタ 更新がベース更新論理58によって行われる。 Base=(Base+BASEINC)MOD BASEWRAP リマッピング・ループの最後でレジスタ・リマッピングが打ち切られ、すべて のレジスタは物理レジスタとしてアクセスされる。好ましい実施の形態において 、 1つのリマッピングREPEATだけがどの時点においてもアクティブである。 ループは、ネストされたままであるが、ある特定の時点で1つだけがリマッピン グ変数を更新してよい。ただし、所望するなら、リマッピング繰り返しはネスト できるようにする。 本発明の好ましい実施の形態に基づくリマッピング・メカニズムを使用した結 果としてのコード密度に関して達成される効果を示すために、以下、典型的なブ ロック・フィルタ・アルゴリズムについて説明する。まず、ブロック・フィルタ ・アルゴリズムの原則について、図7を参照しながら説明する。図7に示されて いるように、アキュミュレータ・レジスタA0は、多数の乗算操作の結果を累算 するように備えられている。この乗算操作というのは、係数c0とデータ項目d 0との乗算、係数c1とデータ項目d1との乗算、係数c2とデータ項目d2と の乗算などである。レジスタA1は、乗算操作の同様のセットの結果を累算して いくが、今度は、係数がずれて、c0とd1、c1とd2、c2とd3と組み合 わせの乗算になる。同様に、レジスタA2は、係数値を更にずらして、c0とd 2、c1とd3、c2とd4といった組み合わせの乗算の結果を累算する。この シフト、乗算、累算のプロセスが、、繰り返され、その結果がレジスタA3に入 れられる。 本発明の好ましい実施の形態に基づくレジスタ・リマッピングを使用しないと 、ブロック・フィルタ命令を実行するには、次のような命令ループが必要となる 。 この例において、データ値はレジスタのXバンクに入れられ、係数値はレジス タのYバンクに人れられる。第1ステップとして、4つのアキュミュレータ・レ ジスタA0,A1,A2,A3はゼロにセットされる。アキュミュレータ・レジ スタがリセットされると、命令ループが開始され、このループはREPEAT命 令及びNEXT命令によって区切られる。Z1の値は、この命令ループが繰り返 される回数を示し、また後で述べる理由により、この回数は、実際には、係数の 個数(c0,c1,c2など)を4で割った数に等しい。 命令ループには16の乗算累算命令(MULA:multiply accumulate instru ctions)があり、1回目の繰り返しが終わると、その結果、レジスタA0,A1 ,A2,A3は、REPEAT命令と第1のMULA命令との間で上のコードで 示される計算の結果を含む。乗算累算操作がどのように動作するかを示すために 、最初の4つのMULA命令を考えることにする。最初の命令によって、Xバン ク・レジスタ・ゼロの最初のすなわち下の16ビット内のデータ値と、Yバンク ・レジスタ・ゼロ内の下の16ビットとが掛け合わされ、その結果がレジスタA 0に加えられる。これと同時に、Xバンク・レジスタ・ゼロの下の16ビットが 再充填の印になり、レジスタのこの部分に新しいデータ値が再充填できることを 示す。このように印がつき、図7から明らかなように、データ項目d0が係数c 0で乗算されると(これは最初のMULAによって表される)、d0は、ブロッ ク・フィルタ命令の残り部分では不要になり、新しいデータ値で置き換えられる 。 次に、第2のMULAによって、Xバンク・レジスタ・ゼロの第2のすなわち 上の16ビットと、Yバンク・レジスタ・ゼロの下の16ビットとが掛け合わさ れ(これは、図7における,d1xc0を表す)。同様に、第3、第4のMUL A命令が、d2xc0,及びd3xc0の乗算を行う。図7から明らかなように 、これらの4つの計算が行われると、係数C0は不要となり、レジスタY0.l は、再充填の印がつき、他の係数(c4)で上書きできるようになる。 次の4つのMULA命令は、それぞれ、d1xc1,d2xc1,d3xc1 ,d4xc1の計算を表す。d1xc1の計算が終了すると、d1は不要になる ので、レジスタX0.hは再充填ビットの印がつく。同様に、4つの計算すべて が終了すると、係数c1は不要になるので、レジスタY0.hは再充填用の印が つ く。同様に、次の4つのMULA命令は、d2xc2,d3xc2,d4xc2 ,d5xc2の計算に対応し、最後の4つの計算は、d3xc3,d4xc3, d5xc3,d6xc3の計算に対応する。 上記の実施の形態において、リジスタはリマップできず、各乗算操作は、オペ ランドで指定される特定レジスタによって明示的に再生されなければならない。 16のMULA命令の実行が終了すると、係数c4からc7及びデータ項目d4 からd10まで、命令ループを繰り返すことができる。また、ループは、繰り返 し1回につき4つの係数値で操作するので、係数値の個数は、4の倍数でなけれ ばならず、Z1=係数/4個の計算が行われる。 本発明の好ましい実施の形態におけるリマッピング・メカニズムを使用するこ とによって、命令ループは飛躍的に減らすことができ、4つの乗算累算命令を含 むだけになる。さもなければ16の乗算累算命令が必要になる。このリマッピン グ・メカニズムを使用すると、コードは以下のように書くことができる。 先に述べたのと同様に、第1のステップで、4つのアキュミュレータ・レジス タA0−A3をゼロにセットする。次に、REPEATオペコードとNEXTオ ペコードによって区切られる命令ループに入る。REPEAT命令は、以下のよ うに多数のパラメータを持つ。 X++:レジスタのXバンクに、BASEINCが‘1’であることを示す。 n4:REGCOUNTが‘4’であり、従って、最初の4つのXバンクレジ スタX0.lからX1.hがリマップされることを示す。 w4:レジスタのXバンクに、、BASEWRAPが‘4’であることを示す 。 Y++:レジスタのYバンクに、BASEINCが‘1’であることを示す。 n4:REGCOUNTが‘4’であり、従って、最初の4つのYバンクレジ スタY0.lからY1.hがリマップされることを示す。 w4:レジスタのYバンクに、BASEWRAPが‘4’であることを示す。 r4:レジスタのYバンクに、REGWRAPが‘4’であることを示す。 尚、Z1の値は、先行技術の例では、係数の個数/4に等しくなるが、ここで は、係数の個数と等しくなる。 命令ループの最初の繰り返しで、、ベースポインタの値はゼロであり、リマッ ピングはない。ただし、次にループが実行される時は、XバンクもYバンクもベ ース・ポインタの値は‘1’であるから、オペランドは次のようにマップされる 。 X0.lはX0.hになる X0.hはX1.lになる X1.lはX1.hになる X1.hはX0.lになる(BASEWRAPが‘4’だから) Y0.lはY0.hになる Y0.hはY1.lになる Y1.lはY1.hになる Y1.hはY0.lになる(BASEWRAPが‘4’だから) 従って、2回目の繰り返しでは、本発明のリマッピングを含まない先に述べた 例における第5から第8番目のMULA命令によって示される計算を、4つのM ULA命令が実際に行うことがわかる。同様に、3回目、4回目のループの繰り 返しでは、先行技術コードの第9から第12番目、そして第13から第16番目 のMULA命令によって実行された計算が行われる。 従って、上記コードは、先行技術のコードと全く同様のブロック・フィルタ・ アルゴリズムを行うわけだが、ループ本体内のコード密度を4倍に改善している 。つまり、先行技術では16の命令が必要であったのに比較して、4つの命令で すむ。 本発明の好ましい実施の形態に基づくレジスタ・リマッピング技術を使用する ことによって、以下のような利点が得られる。 1.コード密度を改善する。 2.場合によっては、レジスダを空きとして印をしてからピッコロのリオーダ ・バッファによって再充填されるまでのレイテンシー(latency)を隠すこともで きる。これは増えるコードサイズを捨ててアンローリングループによって実現さ れる。 3.アクセスされるべきレジスタの数を変化させることができる。ループ繰り 返し実行数を変化させることによって、アクセスされるレジスタの数を変化させ ることができる。 4.アルゴリズム開発を簡単にすることができる。適当なアルゴリズムについ て、プログラマはアルゴリズムのn番目の段に対する1つのコードを生成して、 レジスタ・リマッピングを使用して、その公式をデータのスライディング・セッ トに適用することができる。 上記レジスタ・リマッピング・メカニズムは、本発明の範囲から離れることな く、ある程度の変形が可能であることが明らかになるであろう。例えば、レジス タ10のバンクは、プログラマによって命令オペランドに指定される以上の物理 レジスタを提供することができる。これらの余分のレジスタは直接的にはアクセ スできないが、レジスタ・リマッピング・メカニズムでは、これらのレジスタを 使用することができる。例えば、先に出した例を考えてみよう。レジスタのXバ ンクに、プログラマの使える32ビットレジスタが4つあり、従って8つの16 ビットレジスタが論理レジスタ・レファレンスによって指定するこができる。レ ジスタのXバンクが、実際には、例えば6つの32ビットレジスタから成る場合 、プログラマにとって直接アクセスできない16ビットレジスタが余分に4つあ ることになる。しかしながら、これらの4つのレジスタは、リマッピング・メカ ニズムによって使用可能となり、データ項目の記憶のための付加的レジスタを提 供する。 以下のアセンブラ・シンタクス(文法)を使用することができる。 >>は、論理右シフト、又は、シフト・オペランドが負であれば、左シフトを 意味する(下の<lscale>を参照)。 −>>は、算術右シフト、又は、シフト・オペランドが負であれば、左シフト を意味する(下の<scale>を参照)。 RORは、右回転を意味する。 SAT(a)は、aの飽和値を意味する(目的レジスタのサイズによって、1 6ビット又は32ビットで飽和する)。特に、16ビットで飽和するために、+ 0x7fffより大きいどんな値も+0x7fffで置き換えられ、−0x80 00より小さいどんな値も−0x8000で置き換えられる。32ビット飽和は 、同様に、極限値+0x7fffffffと−0x80000000がある。目 的レジスタが48ビットである場合も、飽和は32ビットで行われる。 ソース・オペランド1は、次のフォーマットの1つを取ることができる。 使用される。別の言い方をするなら、ソース・スペシファイアの7ビットはすべ て有効であり、レジスタは32ビット値として(希望すれば、交換される)、ま たは符号拡張した16ビット値として読まれる。アキュミュレータに取っては、 下の32ビットだけが読まれる。“^”は、レジスタ再充填を指定する。 16ビット値だけが読まれる。 2ビット値だけが読まれ、上半分及び下半分は希望すれば交換できる。 ソース・オペランド2は、次のフォーマットの1つを取ることができる。 <src2>は、3つのオプションの短縮形として使用される。 タ、プラス最終結果のスケール(<scale>)。 − オプションでシフトされた8ビット定数(<immed_8>)、ただし、 最終結果のスケールはない。 − 6ビット定数(<immed_6>)、プラス、最終結果のスケール(<sca le>)。 <src2_maxmin>は、<src2>と同じであるが、ただし、スケールは許可さ れない。 <src2_shift>シフト命令は、<src2>の限定的サブセットを提供する詳 細は上記を参照。 <src2_par> <src2_shift>用である。 第3のオペランドを指定する命令に対して: のいずれかを示す短縮形。48ビットすべてが読まれる。再充填は指定されない 。 目的レジスタは次のフォーマットを持つ: “.”の拡張はない。 レジスタ全部が書かれる(アキュミュレータの場合は、48ビット)。レジ スタへの書き戻しが必要ない場合は、使用されるレジスタは重要でない。アセン ブラが、目的レジスタの省略をサポートし、書き戻しの必要がないこと、又は “.l”つまり、書き戻しは必要ないが結果が16ビット量であるかのようにフ ラグをセットすべきであることを示す。^は、値が出力FIFOに書き込まれる ことを示す。 <scale>これは、代数スケールの数を表す。14のスケールが使用できる。 ASR #0,1,2,3,4,6,8,10 ASR #12から16 LSL #1 <immed_8>これは、符号無し8ビット即値を表す。これは、0、8、16 、又は24シフトで左回転された1バイトから成る。従って、0xYZ0000 00,0x00YZ0000、0x0000YZ00、0x000000YZの 値が、任意のYZに対してエンコードできる。回転は、2ビット量としてエンコ ードされる。 <imm_6>これは、符号無し6ビット即値を表す。 <PARAMS>これは、レジスタ・リマッピングを指定し、次のフォーマッ トを持つ:<BANK><BASIC>n<RENUMBER>w<BASEW RAP> <cond>という表現は、以下の条件コードの任意の1つの短縮形である。尚、 エンコーディングは、ARMと少し異なる。それは、符号無しLS及びHIコー ドは、より役立つ符号付きオーヴァーフロー/アンダーフローのテストで置き換 えられているからである。Vフラグ及びNフラグは、ピッコロ上で、ARMとは 違う方法でセットされるので、条件テストからフラグ・チェックへの翻訳も、A RMとは異なる。 ピッコロが扱うのは符号付き量であるから、符号無しLS及びHI条件は、落 とされ、オーバーフローの方向を記述するVPとVNで置き換えられている。A LUの結果は48ビット幅であるから、MIとLTが、同様にPLとGEが同じ 機能を行う。 すべての操作は、特に注意書のない限り、符号付きである。 第1条件コード及び第2条件コードは、それぞれ、次のものから成る。 N 負 Z ゼロ C キャリー/符号無しオーバーフロー V 符号付きオーバーフロー 算術命令は、並列命令と「フル幅」命令の2つに分けることができる。「フル 幅」命令というのは、一次フラグをセットするだけであるのに対して、並列オペ レータは、結果の上16ビット半分と下16ビット半分とに基づき、一次フラグ と2次フラグをセットする。 N,Z,Vフラグは、スケールを適用した後に、目的に書き込まれる前に、A LUの結果に基づいて計算される。ASRは常に、結果を記憶するのに必要なビ ット数を減らすが、ASLだと、それを増やす。これを避けるために、ピッコロ は、ASLスケールが適用された場合、48ビットの結果を削って、ゼロ検出及 びオーバーフローが行われるビット数を制限する。 Nフラグの計算は、符号付き算術計算が行われると推定して、行われる。それ は、オーバーフローが起きた場合、結果の最上位ビットはCフラグかNフラグで あり、それは、入力オペランドが符号付きか符号無しかによるからである。 Vフラグは、選択された目的に結果を書き込んだ結果、精度の損失があるか否 かを示す。書き戻しが選択されなかった場合も、「サイズ」は含まれており、オ ーバーフロー・フラグは正しくセットされる。オーバーフローが起きるのは、次 の場合である。 − 結果が、−2^15から2^15−1の範囲にないのに16ビットレジス タに書き込んだ場合。 − 結果が、−2^31から2^31−1の範囲にないのに32ビットレジス タに書き込んだ場合。 並列加算/減算命令は、結果の上半分及び下半分に独立にN,Z,Vフラグを セットする。 アキュミュレータに書き込みを行うと、32ビットレジスタに書き込まれたか のように、Vフラグがセットされる。 飽和絶対命令(SABS)も、入力オペランドの絶対値が指定された目的に合 わないと、オーバーフロー・フラグをセットする。 キャリー・フラグは、加算と減算命令によりセットされ、MAX/MIN,S ABS、CLB命令によって「バイナリー」フラグとして使用される。乗算操作 を含む他のすべての命令は、(単数または複数の)キャリー・フラグを保存する 。 加算と減算操作については、キャリーは、ビット31又はビット15又は目的 が32ビット幅であるか16ビット幅であるかの、結果によって生成される。 標準的算術命令は、フラグのセット方法によって、多くのタイプに分類するこ とができる。 加算命令、減算命令の場合、Nビットがセットされると、すべてのフラグが保 存される。Nビットがセットされないと、フラグは、次のように更新される。 Zがセットされるのは、フル48ビット結果が0だった場合。 Nがセットされるのは、フル48ビット結果にビット47のセットがあった 場合(負だった場合)。 Vがセットされるのは: 目的レジスタが16ビットであり、符号付き結果が16ビットレジスタに 合わない(−2^15<=x<2^15の範囲にない)場合 目的レジスタが32/48ビットレジスタであり、符号付き結果が32ビ ットに合わない場合 <dest>が32又は48ビットレジスタである場合でCフラグがセットされ るのは、<scr1>と<scr2>を合計してビット31からキャリーがある時、又 は、<scr1>から<scr2>を減算してビット31から借り(borrow)が生じな い時(ARM上と同じキャリー)。<dest>が16ビットレジスタである場合で Cフラグがセットされるのは、合計のビット15からキャリーがある時。 2次フラグ(SZ,SN,SV,SC)は保存される。 48ビットレジスタから乗算又は累算を行う命令の場合。 Zがセットされるのは、フル48ビット結果が0だった場合。 Nがセットされるのは、フル48ビット結果にビット47のセットがあった 場合(負だった場合)。 Vがセットされるのは:(1)目的レジスタが16ビットであり、符号付き 結果が16ビットレジスタに合わない(−2^15<=x<2^15の範囲にな い)場合、(2)目的レジスタが32/48ビットレジスタであり、符号付き結 果が32ビットに合わない場合 Cは保存される。 2次フラグ(SZ,SN,SV,SC)は保存される。 論理操作、並列加算及び減算、max及びmin、シフトなどを含むその他の命令は 、以下のようにカバーされる。 加算命令、減算命令は、2つのレジスタを加算又は減算し、結果をスケールし て、レジスタに戻して記憶させる。オペランドは、符号付き値として扱われる。 不飽和変種に対するフラグ更新は、オプショナルであり、Nを命令の最後に付け 足すことによって抑制することもできる。 OPCは、命令のタイプを指定する。 ニューモニックス:アセンブラは以下のオペコードをサポートする CMPは、レジスタ書き込みディスエーブル(disabled)のフラグをセットす る減算であり、CMNは、レジスタ書き込みディスエーブルのフラグをセットす る加算である。 フラグ: これについては、上記の通り。 含める理由 ADCは、shift/MAX/MIN操作に続いてレジスタの下にキャリーを挿 入するのに使える。また、32/32割算を行うのにも使用される。さらに、拡 張精密加算を提供する。Nビットを加算することによって、フラグを細かく制御 することができ、特にキャリーを制御できる。これにより、1ビットにつき2サ イクルで、32/32ビット割算ができる。 飽和加算及び減算が、G.729などに必要である。 カウンタのインクリメント/ディクリメント。RSBは計算シフト(x=32 −xが普通の操作)に使える。飽和RSBは、飽和否定(G.729で使用され る)に必要である。 加算/減算累算命令は、累算及びスケーリング/飽和を伴う加算及び減算を行 う。乗算累算命令と違って、アキュミュレータ番号は、目的レジスタと独立に指 定することはできない。目的レジスタの下2ビットは、累算に使う48ビットア キュミュレータの番号、accを与える。従って、ADDA X0,X1,X2, A0及びADDA A3,X1,X2,A3は有効であるが、ADDA X1, X1,X2,A0は無効である。このクラスの命令では、結果はレジスタに書き 戻されなければならず、目的領域の書き戻し無しエンコーディングは許可されな い。 OPCは、命令のタイプを指定する。以下において、accは(DEST〔1: 0〕)である。Saビットは、飽和を示す。 動作(OPC): ニューモニック: コマンドの前のSは飽和を示す。 フラグ: 上記を参照 含める理由 ADDA(加算累算)命令は、1サイクルにつき、整数アレーの2ワードとア キュミュレータ(例えば、それらの平均を見つけるのに)の和を取るのに使える 。SUBA(減算累算)命令は、差の和を計算するのに(例えば相関のために) 使え、2つの別個の値を減算して、その差を第3のレジスタに加える。 <acc>とは異なる<dest>を使用することによって、丸め(rounding)をと もなう加算をすることもできる。例えば、X0=(X1+X2+l6384)> >15は、16384をA0に保持しながら1サイクルで行うことができる。丸 め付定数加算は、ADDA X0,X1,#16384,A0で行うことができ る。 ビットの正確な導入には: sumof((a_i*b_i)>>k)(一般的にはTrueSpeechで使用される) 標準ピッコロ・コードは以下のようになる: このコードには2つの問題がある。1つは長すぎること、もう1つは、加算が 48ビット精密加算ではなくガードビットが使用できないこと。これに対処する には、ADDAを使うことである。 これにより、25%のスピードアップが得られる、48ビット精度が保持される 。 並列命令における加算/減算は、32ビットレジスタに対(ぺア)で保持され る2つの符号付き16ビット量で行われる。一次条件コードフラグは、最上位1 6ビットの結果からセットされ、二次フラグは、下位半分から更新される。これ らの命令のソースとして指定できるのは32ビットレジスタだけであるが、値は 、ハーフワード交換できる。各レジスタの個々の半分は、符号付き値として扱わ れる。計算及びスケーリングは、精度損失無しで行われる。従って、ADDAD D X0,X1,X2,ASR#1は、X0の上半分及び下半分における正しい 平均を生成する。各命令にはオプションナル飽和が提供され、それには、Saビ ットをセットする。 OPCが操作を定義する。 動作(OPC): Saビットがセットされている場合、各和/差分は独立に飽和する。 ニューモニック: コマンドの前のSは飽和を示す。 アセンブラは以下のものもサポートする 書き戻しなしの標準命令によって生成される。 フラグ C がセットされるのは、2つの上の16ビット半分を加算する時に、ビット 15のキャリーがある場合。 Z がセットされるのは、上の16ビット半分の和が0である場合。 N がセットされるのは、上の16ビット半分の和が負である場合。 V がセットされるのは、上の16ビット半分の符号付き17ビット和が16 ビットに当てはまらない(ポスト・スケール)場合。 SZ,SN,SV,SCが、同様に、下の16ビット半分に対してセットされ る。 含める理由 並列加算及び減算命令は、単−32ビットレジスタに保持される複素数を操作 するのに使用でき、FFTカーネルで使用される。また、16ビットデータのベ クトルの単純な加算/減算にも使え、1サイクルで2つの要素を処理することが できる。 ブランチ(条件付き)命令は、制御フローにおける条件付き変更を行うことを 可能とする。ピッコロは、取られたブランチを実行するのに3サイクル使う。 動作 一次フラグに基づき<cond>が保持されれば、オフセットによるブランチ。 オフセットは、符号付き16ビット番号のワードである。この時、オフセット の範囲は、−32768から+32767ワードに制限される。 アドレス計算は次のようにされる。 目的アドレス=ブランチ命令アドレス+4+オフセット ニューモニック: B<cond><destination_label> フラグ: 影響されない 含める理由: 殆どのルーチンで非常に役立つ。 条件付き加算又は減算命令は、条件付きでsrc2をsrc1へ加算または減算する 。 OPCが命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ: 上記参照 含める理由 条件付き加算または減算命令により、効率のよい除算コードを構成することが できる。 例1:X0にある32ビット符号無し値を、X1にある16ビット符号無し値で 割る(X0<(X1<<16)且つX1.h=0と仮定する)。 ループの最後で、X0.1は除算の商を保持する。余りは、キャリーの値に従 って、X0.hから復元される。 例2:X0にある32ビット正の値を、X1にある32ビット正の値で割り、 早く終了する。 最後に、X2が商を保持し、余りは、X0から復元される。 カウント・リーディング・ビット命令により、データが正規化される。動作 destは、src1にある値が左にンフトされるべき場所数にセットされて、ビッ ト31がビット30と異なるようにする。これは0−30の範囲の値であるが、例 外として、src1が−1又は0の場合は、31が戻される。 ニューモニック CLB<dest>,<src1> フラグ Z がセットされるのは、結果が0の時。 N はクリアされる。 C がセットされるのは、src1が−1又は0の時。 V は未使用。 含む理由: 正規化に必要なステップ ピッコロの実行を止めるには、Halt及びBreakpoint命令がある。 OPCは命令のタイプを指定する。 動作(OPC) 0 ピッコロの実行が止められ、Haltビットがピッコロ状態レジスタにセット される。 1 ピッコロの実行が止められ、Breakビットがピッコロ状態レジスタにセッ トされ、ARMが中断され、ブレークポイントに到達したことを知らせる。 ニューモニック 0 HALT 1 BREAK フラグ 影響されない。 論理演算命令は、32又は16ビットレジスタ上で論理演算を行う。オペラン ドは、符号無し値として扱われる。 OPCは、実行すべき論理操作をエンコードする。 動作(OPC): ニューモニック: アセンブラが以下のオペコードをサポートする TSTは、レジスタ書き込みがディスエーブルされたANDである。TEQは レジスタ書き込みがディスエーブルされたEORである。 フラグ Z がセットされるのは、結果が全て0の時。 N,C,Vは保存される。 SZ,SN,SC,SVは保存される。 含む理由: スピーチ圧縮アルゴリズムは、情報をエンコードするために、パックされたビ ット領域を使用する。ビットマスク命令は、これらの領域の抽出/パック化を助 ける。 Max及びMin操作命令は、最大及び最小操作を実行する。 OPCは命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ Z がセットされるのは、結果が0の時。 N がセットされるのは、結果が負の時。 C Maxでは、src2>=src1(dest=src1の場合)の時にセットされる。Minで は、src2>=src1(dest=src2の場合)の時にセットされる。 V 保存される 含む理由: 信号の強さを見るために、多数のアルゴリズムがサンプルをスキャンして、サ ンプルの絶対値の最大/最小を決める。これに、MAX,MIN操作が使用でき る。信号の最初の最大値か最後の最大値のどちらを見つけたいかによって、オペ ランドsrc1及びsrc2は、交換することができる。 MAX X0,X0,#0は、X0を正の数に変換し下をクリップする。 MIN X0,X0,#255は、X0の上をクリップする。これは、グラフ イック処理に役立つ。 並列命令におけるMAX,MIN操作は、並列16ビットデータ上で最大値 、最小値操作を行う。 OPCは、命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ Z がセットされるのは、結果の上16ビットがゼロの場合。 N がセットされるのは、結果の上16ビットが負の場合。 C Max:src 2.h>=scrc1.h(dest=src1の場合)の時にセットされる 。 Min:src 2.h>=scrc1.h(dest=src2の場合)の時にセットされる 。 V 保存される SZ,SN,SC,SVは、同様に、下16ビット半分用にセットされる。 含む理由: 32ビットMax,Minについて。 Move Long Immeidate Operation命令により、レジスタは、どの符号付き16 ビットの符号拡張値をセットされることができる。これらの命令のうち2つは、 32ビットレジスタに任意の値にセットすることができる(連続する高位半分と 低位半分にアクセスすることによって)。レジスタ間の移動については、選択操 作を参照。 MOV<dest>,#<imm_16> アセンブラは、MOV命令を使用して非インターロックNOP操作を提供する ことができる。つまり、NOPは、MOV,#0と等価である。 フラグ フラグは影響されない。 含む理由: レジスタ/カウンタをイニシアライズする。 乗算累算操作命令は、符号付き乗算を行い、累算または退出(deaccumulation) 、スケーリング及び飽和を伴う。 OPC領域は命令のタイプを特定する。 動作(OPC): 各場合、Saビットがセットされていれば、結果は目的に書き込まれる前に飽和 される。 ニューモニック: コマンドの手前のSは飽和を示す。 フラグ: 上記を参照。 含む理由: 1サイクル保持されたMULAがFIRコードに必要である。MULSは、F FTバタフライで使用される。また、MULAは、丸め(rounding)付き乗算に 役立つ。例えば、A0=(X0*X1+16384)>>15は、16384を 別のアキュミュレータ(例えばA1)に保持することによって、1つのサイクル で行うことができる。FFTカーネルには異なった<dest>及び<acc>が必要 である。 Multiply Double Operation命令は、符号付き乗算を行い、結果をダブルにし てから累算又は退出、スケーリング、飽和を行う。 OPCは命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ: 上記参照 含む理由: MLD命令は、G.729など、分数(fractional)算術を使用するアルゴリ ズムにとって必要である。殆どのDSPは、累算又は書き戻しの前に乗数の出力 において1ビット左にシフトさせることのできる分数モードを提供する。これを 特定命令としてサポートすることにより、プログラマにはより大きなフレキシビ リティーが与えられる。Gシリーズの基本操作のいくつかと同等の名前を以下に 示す。 L_msu=> SMLDS L_mac=> SMLDA これらは、1ビット左シフトする時に乗数の飽和を利用する。一連の分数の乗 算・累算が必要な場合、精度のロスなしに、MULAを使うことができ、その和 は、33.14フォーマットで保持される。必要なら、左シフト及び飽和を最後 に利用して、1.15フォーマットに変換することができる。 乗算演算命令は、符号付き乗算、及びオプショナルなスケーリング/飽和を行 う。ソース・レジスタ(16ビットのみ)は、符号付き数として扱われる。 OPCは命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ 上記を参照。 含む理由。 符号付き且つ飽和乗算は、多くの処理で必要となる。 Register List操作は、複数のレジスタのセット(集合)に操作を行う時に使 用される。Empty and Zero命令は、ルーチンを始める前に、あるいはルーチンと ルーチンとの間で、レジスタの選択をリセットするのに使用する。Output命令を 使って、レジスタのリストの内容を出力FIFOに記憶することができる。 OPCは命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ 影響されない 例 また、アセンブラはシンタクス(文法)をサポートする。 OUTPUT Rn その場合、MOV^,Rn命令を使ってレジスタを1つ出力することになる。 EMPTY命令は、空であるすべてのレジスタが有効データを含む(すなわち 、空きでない)まで、止まっている。 リマッピングREPEATループ内では、レジスタ・リスト操作は使用される べきでない。 OUTPUT命令が出力用に指定することができるレジスタは8つまでである 。 含む理由: 1つのルーチンが終了した後、次のルーチンは、ARMからデータを受け取れ るようすべてのレジスタが空きであることを期待する。これを遂行するために、 EMPTY命令が必要となる。FIRそのたのフィルタを実行する前に、すべて のアキュミュレータ及び部分的結果がゼロにされなければならない。これには、 ZERO命令が助けとなる。これらの命令は、一連の単一レジスタ移動を置き換 えることによってコード密度を改善するよう設計されている。OUTPUT命令 は、一連のMOV^,Rn命令を置き換えることによってコード密度を改善する べく含まれる。 リマッピング・パラメータ・移動命令RMOVが提供されるので、ユーザ定義 のレジスタ・リマッピング・パラメータの構成を取ることができる。 命令エンコーディングは以下の通り。 各PARAMS領域は次のエントリから成る:これらのエントリの意味を以下に示す。 ニューモニック: RMOV命令の使用がリマッピングのアクティブ中だと、その挙動は、UNP REDICATABLE(予想不可)である。 フラグ 影響されない。 Repeat命令は、4つのゼロ・サイクル・ループをハードウェアで提供する。R EPEAT命令は、新しいハードウェア・ループを定義する。ピッコロは、最初 のREPEAT命令にハードウェア・ループ0を使用し、最初のrepeat命令に埋 め込まれた(nested)REPEAT命令にハードウェア・ループ1を使用し、以 下同様である。REPEAT命令は、どのループが使用されているかを指定する 必要はない。REPEAT命令は厳密に埋め込まれなければならない。深さ4を 越える埋め込みを試みると、挙動は、予想不可となる。 各REPEAT命令は、(REPEAT命令の直後の)ループ内の命令の数を 指定し、そのループを何回巡るかの回数(定数またはピッコロレジスタから読み 込まれる)を指定する。 ループ内の命令の数が小さい(1又は2)場合、ピッコロはそのループをセッ トアップするために余分のサイクルを使っても良い。 ループ・カウントがレジスタ指定であれば、32ビットアクセスという意味に なる(S1=1)が、下の16ビットだけが意味を持ち、その数は符号無しであ るとされる。ループ・カウントがゼロの場合、ループの動作は未定義である。ル ープ・カウントのコピーが取られ、レジスタはループに影響せずに直接再利用( 又は、再充填さえ)できる。 REPEAT命令は、ループ内でレジスタ・オペランドが指定される方法を変 えるメカニズムを提供する。詳細は上記の通り。 ループ数がレジスタ指定されたREPEATのエンコーディング: 固定されたループ数のREPEATのエンコーディング: RFIELDオペランドは、ループ内でどの16リマッピングパラメータ構成 を使用すべきかを指定する。 アセンブラは、ハードウェア・ループを定義するためにREPEATとNEX Tという2つのオペコードを提供する。REPEATはループの始めに行き、N EXTはループの最後を区切ることによって、アセンブラはループ本体内にある 命令の数を数えることができる。REPEATにとって必要なことは、ループの 数を定数あるいはレジスタとして指定すればよいだけである。例えば: これは、2つのMULA命令をX0回実行する。また、 は、10回乗算累算を行う。 アセンブラは、次のシンタクス(文法)をサポートする。 REPEAT♯iterations[,<PARAMS>] REPEATのために使用するリマッピング・パラメータを指定する。必要な リマッピング・パラメータが前もって定義されたパラメータのセットの1つと等 しい場合は、適当なREPEATエンコーディングが使用される。そうでなけれ ば、アセンブラはRMOVを生成してREPEAT命令に続くユーザ定義パラメ ータをロードする。RMOV命令及びリマッピング・パラメータ・フォーマット の詳細については前記を参照。 ループの繰り返し(iteration)の回数が0であれば、REPEATの動作はU NPREDICATABLE(予想不可)である。 命令数領域が0にセットされると、REPEATの動作は、予想不可である。 ループに1つの命令しかなく、その命令がブランチであれば、予想不可能の挙 動をする。 REPEATループの範囲からそのループの外へのブランチは、予想不可であ る。 飽和絶対命令は、ソース1の飽和絶対値(saturated absolute)を計算する。 動作: dest=SAT((srcl>=0)?src1:-src 1).値は常に飽和する。特に、 0x80000000の絶対値は0x7fffffffであり、0x80000 000ではない。 ニューモニック: SABS<dest>,<src1> フラグ Z がセットされるのは、結果が0の時。 N は保存される。 C がセットされるのは、scr<0 (dest=_scr 1の場合)。 V がセットされるのは、飽和が生じた時。 含む理由: 多くのDSPアプリケーションで役立つ。 選択(select)操作(条件付き移動)は、条件付きでソース1またはソース2 を目的レジスタに移動させる。選択は、常に、移動と等価である。並列加算/減 算の後で使用するための並列操作もある。 尚、両方のソースオペランドは、導入理由のための命令によっても読み出すこ とができるので、一方が空きであれば、そのオペランドが絶対的に必要であるか どうかに関係なく、命令は止まる。 OPCは、命令のタイプを指定する。 動作(OPC): 11 予約済 ニューモニック: レジスタが再充填の印になっていると、それは、無条件で再充填される。また 、アセンブラ、次のニューモニックも提供する。 MOV<cond>A,Bは、SEL<cond>A,B,Aと等価である。SELF TとSELFFは、SELTF,SELTTを使用して、src1とsrc2を交換する ことによって得ることができる。 フラグ すべてのフラグは、一連の選択が行われるよう保存される。 含む理由: 簡単な決定をブランチに頼ることないインラインにするために使用される。最 大要素のためにサンプル又はベクトルをスキャンする時に、そしてビタビ(Viter bi)アルゴリズムによって使用される。 シフト操作命令は、指定量の左右の論理シフト、右算術シフト、回転(rotate) を提供する。シフト量は、レジスタの内容の下8ビットから取られた−128か ら+127の間の符号付き整数、又は、+1から+31の範囲内の即値である。 負の量のシフトは、ABS(シフト量)分反対方向にシフトさせる。 入力オペランドは、32ビットに符号拡張され、結果の32ビット出力は、書 き戻し前に48ビットに符号拡張され、48ビットレジスタへの書き込みが感度 よく機能する。 OPCは、命令のタイプを指定する。 動作(OPC): ニューモニック: フラグ Z がセットされるのは、結果が0の時。 N がセットされるのは、結果が負の時。 V は保存される。 C は、最後にシフトされて出た(ARM上として)ビット値にセットされる 。 レジスタ指定されたシフトの挙動は以下の通り。 −32によるLSLの結果は0で、src1のビット0にCがセットされる。 −32を越えるものでのLSLは、結果が0で、Cは0にセットされる。 −32によるLSRの結果は0で、src1のビット31にCがセットされる。 −32を越えるものでのLSRは、結果が0で、Cは0にセットされる。 −32以上でのASRの結果は充填され、Cはsrc1のビット31に等しい。 −32でのRORの結果はsrc1に等しく、Cがsrc1のビット31にセットされる 。 −32を越えるnによるRORは、n−32によるRORと同じ結果とキャリー アウト(carry out)になるので、量が1から32の範囲内になるまで、繰り返し 32をnから引く。上記参照。 含む理由: 2のべき乗による乗算/除算。ビット及び領域抽出。シリアル・レジスタ。 未定義の命令が、上記命令セットリストで挙げてある。それらの実行により、 ピッコロは、実行を停止し、状態レジスタにUビットをセットし、それ自身をデ ィスエーブルする(制御レジスタ内のEビットがクリアされたかのように)。こ れにより、命令が将来拡張された場合も、それがトラップされて、オプショナル に、既存の手段上でエミュレートされることが可能である。 ARMからピッコロ状態へのアクセスは以下の通り。状態アクセス・モードを 使用して、ピッコロの状態を観察/変更する。このメカニズムが提供されるのは 次の2つの理由からである。 −文脈(Context)切替え −デバッグ ピッコロは、PSTATE命令を行うことで、状態アクセスモードになる。こ のモードでは、ピッコロの状態を退避して、一連のSTC及びLDC命令で復元 される。状態アクセスモードに入ると、ピッコロ・コプロセッサ ID PIC COLO1の使用が変更されて、ピッコロの状態にアクセスできるようになる。 ピッコロの状態には7つのバンクがある。特定バンク内のすべてのデータは、単 一のLDC又はSTCでロードし記憶することができる。 バンク0:プライベート・レジスタ − ピッコロIDレジスタ(Read Only)の値を含む1つの32ビットワード − 制御レジスタの状態を含む1つの32ビットワード − 状態レジスタの状態を含む1つの32ビットワード − プログラム・カウンタの状態を含む1つの32ビットワード バンク1:汎用レジスタ(GPR) − 汎用レジスタの状態を含む16個の32ビットワード バンク2:アキュミュレータ − アキュミュレータ・レジスタの上の32ビットを含む4つの32ビットワー ド(注:GPR状態の複製が復元に必要だということは、さもないとレジスタバ ンク上で別の書き込みイネーブルを意味する)。 バンク3:レジスタ/ピッコロROB/出力FIFO状態 − どのレジスタが再充填用の印(各32ビットレジスタにつき2ビット)にな っているかを示す32ビットワードが1つ。 − ROBタグ(ビット7から0に記憶されている7ビット項目8つ)の状態を 含む32ビットワード8つ。 − 連合していない(unaligned)ROBラッチ(ビット17から0)の状態を含 む32ビットワード3つ。 − 出力シフトレジスタ内のどのスロットが有効データを含むかを示す32ビッ トワードが1つ(ビット4は空きを示し、ビット3から0は、使用中のエントリ の数をエンコードする)。 − ラッチ(ビット17から0)を保持する出力FIF0の状態を含む32ビッ トワード1つ。 バンク4:ROB入力データ − 32ビットデータ値が8つ。 バンク5:出力FIFOデータ − 32ビットデータ値が8つ。 バンク6:ループハードウェア − ループ開始アドレスを含む32ビットワード4つ。 − ループ最終アドレスを含む32ビットワード4つ。 − ループ回数(ビット15から0)を含む32ビットワード4つ。 − ユーザ定義リマッピング・パラメータその他のリマッピング状態を含む32 ビットワードが1つ。 LDC命令は、ピッコロが状態゛アクセスモードにある時にピッコロの状態を ロードするのに使う。BANK領域はロードされるバンクを特定する。 次の一連の動作により、ピッコロのすべての状態がレジスタR0内のアドレス からロードされる。 STC命令は、ピッコロが状態アクセスモードにある時にピッコロの状態を記 憶させるのに使う。BANK領域はどのバンクが記憶されるかを特定する。 次の一連の動作により、ピッコロのすべての状態がレジスタR0内のアドレス から記憶される。 デバッグ・モード − ピッコロは、ARMによってサポートされているもの と同じデバッグ・メカニズム、すなわち、DemonとAngelを介したソフトウェア、 及び埋め込まれたICEを備えたハードエウェア、に応答しなければならない。 ピッコロのシステムをデバッグするためのいくつかのメカニズムがある。 −ARM命令ブレークポイント −データ・ブレークポイント(ウオッチポイント) −ピッコロ命令ブレークポイント −ピッコロ・ソフトウェア・ブレークポイント ARM命令ブレークポイント及びデータ・ブレークポイントは、ARM埋め込 みICEモジュールによって扱われる。ピッコロ命令ブレークポイントは、ピッ コロ埋め込みICEモジュールによって扱われる。ピッコロ・ソフトウェア・ブ レークポイントは、ピッコロ・コアによって扱われる。ハードウェア・ブレーク ポイント・システムは、ARMとピッコロの両方がブレークポイントされるよう に構成される。 ソフトウェア・ブレークポイントを扱うのは、ピッコロ命令(Halt又はBreak )で、ピッコロに実行を止めさせ、デバッグ・モードに入れ(状態レジスタのB ビットがセットされる)、自身をディスエーブルする(ピッコロがPDISAB LE命令によってディスエーブルされたようになる)。プログラム・カウンタは 有効のままで、ブレークポイントのアドレスが回復できる。ピッコロは、それ以 上、命令を実行しなくなる。 Single stepping Piccoloは、ピッコロ命令ストリーム上に次々にブレークポ イントをセットすることによって行われる。 ソフトウェア・デバッグ − ピッコロによって提供される基本的機能は、状 態アクセスモードにある時、コプロセッサ命令を介して、すべての状態をメモリ ーにロード及び退避させる能力である。これにより、デバッガーは、すべての状 態をメモリーに退避させ、それを読み出し,及び/又は更新し、それをピッコロ に復元することができる。ピッコロの記憶状態メカニズムは、非破壊的であり、 つまり、ピッコロの状態を記憶する動作は、ピッコロの内部状態を駄目にするこ とはない。つまり、ピッコロは、その状態をダンプした後、それを復元すること なしに、再開できる。 ピッコロ・キャッシュの状態を見つけるメカニズムを決定しなければならない 。 ハードウェア・デバッグ − ハードウェア・デバッグは、ピッコロのコプロ セッサ・インターフェース上のスキャン・チェインによって行うことができる。 ピッコロは状態アクセスモードになり、スキャン・チェインを介して、その状態 を調査/変更してもらう。 ピッコロの状態レジスタは、ブレークポイント付き命令を実行したことを示す 単一ビットを含む。ブレークポイント付き命令が実行されると、ピッコロは、状 態レジスタにBビットをセットし、、実行を中止する。ピッコロに質問をするに は、デバッガーは、ピッコロをイネーブルし、次のアクセスが起きる前に、制御 レジスタに書き込むことによって、状態アクセスモードにしなければならない。 図4は、Hi/LoビットとSizeビットに応答して、選択されたレジスタの適 当な半分をピッコロ・データパスに切り換えるマルチプレクサ構成を示す。Size ビットが16ビットなら、符号拡張回路が必要に応じてデータパスの高次ビット に0か1を入れる。
【手続補正書】特許法第184条の8第1項 【提出日】平成10年6月15日(1998.6.15) 【補正内容】 明細書 データ処理条件コード・フラグ 本発明は、データ処理システムに関する。特に、本発明は、データ処理の結果 ワードに関するパラメータに合図する条件コードフラグを使用するデータ処理シ ステムに関する。 例えば、英国、ケンブリッジのアドヴァンスト・リスク(RISC)・マシン ・リミテッドによって製造されるマイクロコンピュータARM6のようなデータ 処理システムを提供することが知られている。各指令が行われるごとに、その指 令の結果がシステムの条件コードフラグに反映される。続くデータ処理は、これ らの条件コードフラグの状態に従って行われる。ARM6マイクロプロセッサの 場合、完全な条件付指令のセットが提供され、各指令は、その指令に到達した時 点で存在する条件コードの所定の状態に従って行われる。これにより、プログラ ムコードの密度における、かなりの柔軟性及び改善が得られる。 欧州公開特許出願EP−A−0,395,348号は、条件コードフラグを2 セット有するデータ処理システムを記載している。 本発明のデータ処理用装置は、一面から見ると、 操作すべきデータワードを記憶するための、それぞれが少なくともNビットの 容量を持つ複数のレジスタと、 Nビットのデータパス及び応答プログラム命令ワードを備えて当該プログラム 命令によって指定された演算操作を行う演算ユニットと を備えており、 前記演算ユニットは、第1の(N/2)ビット入力オペランド・データワード に対して第1の演算操作を、第2の(N/2)ビット入力オペランド・データワ ードに対して第2の演算操作を別々に行う少なくとも1つの並列操作プログラム 命令ワードに応答し、且つ 前記演算ユニットは、前記第1の演算操作に従って第1の条件コードフラグの セットをセットし、前記第2の演算操作に従って第2の条件コードフラグのセッ トをセットし、 更に以下の特徴を持つ。すなわち、前記演算ユニットは、次のような条件付き 選択命令に応答する。当該条件付き選択命令は、前記条件フラグの第1に従って 、第1ソースレジスタに記憶された第1(N/2)ビット入力オペランド・デー タワードと第2ソースレジスタに記憶された第1(N/2)ビット入力オペラン ド・データワードの一方を前記複数のレジスタの中の目的レジスタヘ移動し、前 記条件フラグの第2セットに従って、第1ソースレジスタに記憶された第2(N /2)ビット入力オペランド・データワードと第2ソースレジスタに記憶された 第2(N/2)ビット入力:オペランド・データワードの一方を前記複数のレジ スタの中の目的レジスタヘ移動する。 Nビットのデータパスを有する演算ユニットを使用するシステムにおいては、 2つの(N/2)ビットのオペランドで別々の演算操作を同時に行う並列操作プ ログラム命令ワードを提供することが有利であることがわかっている。特に、デ ータパスの幅、典型的には32及び64を増加させようとする場合に有利である 。これらの高性能システムにおいては、大抵、操作すべきオペランドがデータパ スの全幅より狭い。この場合、並列操作プログラム命令によって演算ユニットの 処理能力をより有効に使用することができる。この能力は、並列操作されるそれ ぞれの操作に対して別個の条件コードフラグがあれば、更に高めることができる 。更に、条件付き選択命令は、ビタビ(Viterbi)アルゴリズムにおいて特に役立 ち、またエレメントの集合の中で最大エレメント用サンプルベクトルをスキャン するのに役立つ。 そのような並列操作を行う能力と、つまりすべての必要なパラメータを定義す るために、そのような命令ワード内で指定される必要のある情報が増加すること との間での有効な譲歩は、次のようになる。前記並列操作プログラム命令ワード が複数のレジスタの中からソースレジスタを指定すること。即ち、前記第1の( N/2)ビット入力オペランドが前記ソースレジスタの高次ビット位置に記憶さ れ、前記第2の(N/2)ビット入力オペランドが前記ソースレジスタの低次ビ ット位置に記憶されたソースレジスタを複数のレジスタの中から指定する。 演算ユニットを変形して少なくともいくつかの並列操作を行えるようにする比 較的直線的な方法は、次の通りである。即ち、前記演算ユニットは、演算操作に おける複数のビット位置の間のキャリー・チェインとして機能する信号パスを有 しており、並列操作プログラム命令ワードを実行する際、前記信号パスが、前記 第1(N/2)ビット入力オペランド・データワードと前記第2(N/2)ビッ ト入力オペランド・データワードとの間で割れる。 導入が簡単で操作上有益な並列操作プログラム命令ワードは、以下のものを含 む。 (i) 2つの並列(N/2)ビット加算が行われる並列加算と、 (ii) 2つの並列(N/2)ビット減算が行われる並列減算と、 (iii)2つの並列(N/2)ビットシフト操作が行われる並列シフトと、 (iv) (N/2)ビット加算と(N/2)ビット減算が並列に行われる並列加 算/減算と、 (v) 2つの並列の(N/2)ビットの最小値/最大値操作が行われる並列最 小値/最大値と、 (vi) 2つの並列の(N/2)ビットのスケール操作が行われる並列スケール 。 条件コードフラグは様々な意味を持つことができるが、条件コードフラグの選 択が特に有益なのは、次の場合である。即ち、前記第1の条件コードフラグのセ ット及び前記第2の条件コードフラグのセットが、直前の操作を示すフラグを少 なくとも1つ含む場合である。即ち、直前の操作が (i) ゼロという結果をもたらした、 (ii) 否定の結果をもたらした、 (iii)オーバーフローをもたらした、 (iv) キャリーをもたらした。 本発明の他の面によれば、以下のデータ処理方法が提供される。即ち、 扱われるべきデータワードを、それぞれが少なくともNビットの容量を持つ複 数のレジスタに記憶するステップと、 プログラム命令ワードに応答して、Nビットのデータパスを持つ演算ユニット で、前記プログラム命令ワードによって指定された演算操作を行うステップとか らなり、 少なくとも1つの並列操作プログラム命令ワードに応答して、第1の(N/2 )ビット入力オペランド・データワードに対して第1の演算操作を行い、第2の (N/2)ビット入力オペランド・データワードに対して第2の演算操作をそれ ぞれ独立に行い 前記第1の演算操作に従って第1の条件コードフラグのセットをセットし、前 記第2の演算操作に従って第2の条件コードフラグのセットをセットし、且つ以 下の特徴を持つ。すなわち、条件付き選択命令に応答し、前条件コードフラグの 第1セットに従って、第1ソースレジスタに記憶されている第1(N/2)ビッ ト入力オペランド・データワードと第2ソースレジスタに記憶されている第1( N/2)ビット入力オペランド・データワードとのいずれか一方を、前複数のレ ジスタの中の目的レジスタに移動し、前条件コードフラグの第2セットに従って 、第1ソースレジスタに記憶されている第2(N/2)ビット入力オペランド・ データワードと第2ソースレジスタに記憶されている第2(N/2)ビット入力 オペランド・データワードとのいずれか一方を、前記目的レジスタに移動する。 請求の範囲 1. 操作されるべきデータワードを記憶するためのレジスタで、各々が少なく ともNビットの容量のある複数のレジスタ(10)と、 Nビット・データパスを有し、プログラム命令ワードに応答し、当該プログラ ム命令ワードによって指定された演算操作を行う演算ユニット(4)と を備えるデータ処理装置であって、 前記演算ユニットは、第1の(N/2)ビット入力オペランド・データワード 上で第1の演算操作を、第2の(N/2)ビット入力オペランド・データワード 上で第2の演算操作を、別々に行う少なくとも1つの並列操作プログラム命令ワ ードに応答し、 前記演算ユニットは、前記第1の演算操作に従って条件コードフラグの第1セ ット(N,Z,C,V)をセットし、前記第2の演算操作に従って条件コードフ ラグの第2セット(SN,SZ,SC,SV)をセットし、 前記演算ユニットは、前記条件コードフラグの第1セットに従って、第1ソー スレジスタに記憶されている第1(N/2)ビット入力オペランド・データワー ドと第2ソースレジスタに記憶されている第1(N/2)ビット入力オペランド ・データワードとのいずれか一方を前複数のレジスタの中の目的レジスタに移動 し、前条件コードフラグの第2セットに従って、第1ソースレジスタに記憶され ている第2(N/2)ビット入力オペランド・データワードと第2ソースレジス タに記憶されている第2(N/2)ビット入力オペランド・データワードとのい ずれか一方を前記目的レジスタに移動する条件付選択命令(SEL)に応答する ことを特徴とするデータ処理装置。 2.請求項1に記載の装置であって、 前記並列操作プログラム命令ワードが、前記複数のレジスタの中から、ソース レジスタを当該ソースレジスタの高次ビット位置に記憶される前記第1の(N/ 2)ビット入力オペランドと当該ソースレジスタの低次ビット位置に記憶される 前記第2の(N/2)ビット入力オペラントとともに指定することを特徴とする 。 3. 請求項1及び請求項2のいずれかに記載の装置であって、 前記演算ユニットが単一パスを有し、当該パスは、演算操作におけるビット位 置の間のキャリー・チェインとして機能し、且つ、並列操作プログラム命令ワー ドが実行される時に、前記第1(N/2)ビット入力オペランド・データワード と前記第2(N/2)ビット入力オペランド・データワードとの間で割れること を特徴とするデータ処理装置。 4. 先行する請求項のいずれかに記載の装置であって、 前記並列操作プログラム命令ワードが (i) 2つの並列(N/2)ビット加算が行われる並列加算、 (ii) 2つの並列(N/2)ビット減算が行われる並列減算、 (iii)2つの並列(N/2)ビットシフト操作が行われる並列シフト、 (iv) (N/2)ビット加算と(N/2)ビット減算とが並列して行われる並列 加算/減算、 (v) 2つの並列(N/2)ビットmin/max操作が行われる並列min/max、及び (vi) 2つの並列(N/2)ビット・スケール操作が行われる並列スケール のいずれか1つの演算操作を行うことを特徴とするデータ処理装置。 5. 先行する請求項のいずれかに記載の装置であって、 前記条件コードフラグの第1のセット及び前記条件コードフラグの第2のセッ トが、直前の操作の (i) 結果がゼロだった(Z)、 (ii) 結果が負だった(N)、 (iii)結果としてオーバーフローが起きた(V)、及び (iv) 結果としてキャリーが生じた(C) ことを示す少なくとも1つのフラグを含むことを特徴とするデータ処理装置。 6. 先行する請求項のいずれかに記載の装置であって、 前記演算ユニットが、畳み込み(convolution)操作と、フィルタ操作と、相関 操作と、変換操作のいずれか1つを行うことを特徴とするデータ処理装置。 7. 操作されるべきデータワードを、各々が少なくともNビットの容量のある 複数のレジスタに記憶させるステップと、 プログラム命令ワードに応答して、Nビット・データパスを有する演算ユニッ トで、当該プログラム命令ワードによって指定された演算操作を行うステップと 、 少なくとも1つの並列操作プログラム命令ワードに応答し、第1の(N/2) ビット入力オペランド・データワード上で第1の演算操作を、第2の(N/2) ビット入力オペランド・データワード上で第2の演算操作を、別々に行うステッ プと、 前記第1の演算操作に従って条件コードフラグの第1のセットをセットするス テップと、 前記第2の演算操作に従って条件コードフラグの第2のセットをセットするス テップと から成るデータ処理方法であって、 前記条件コードフラグの第1セットに従って、第1ソースレジスタに記憶され ている第1(N/2)ビット入力オペランド・データワードと第2ソースレジス タに記憶されている第1(N/2)ビット入力オペランド・データワードとのい ずれか一方を前複数のレジスタの中の目的レジスタに移動し、前条件コードフラ グの第2セットに従って、第1ソースレジスタに記憶されている第2(N/2) ビット入力オペランド・データワードと第2ソースレジスタに記憶されている第 2(N/2)ビット入力オペランド・データワードとのいずれか一方を前記目的 レジスタに移動する条件付き選択命令に応答することを特徴とするデータ処理方 法。

Claims (1)

  1. 【特許請求の範囲】 1. 操作されるべきデータワードを記憶するためのレジスタで、各々が少なく ともNビットの容量のある複数のレジスタと、 Nビット・データパスを有し、プログラム命令ワードに応答し、当該プログラ ム命令ワードによって指定された演算操作を行う演算ユニットと を備えるデータ処理装置であって、 前記演算ユニットは、第1の(N/2)ビット入力オペランド・データワード 上で第1の演算操作を、第2の(N/2)ビット入力オペランド・データワード 上で第2の演算操作を、別々に行う少なくとも1つの並列操作プログラム命令ワ ードに応答し、 前記演算ユニットは、前記第1の演算操作に従って条件コードフラグの第1の セットをセットし、前記第2の演算操作に従って条件コードフラグの第2のセッ ト(集合)をセットする ことを特徴とするデータ処理装置。 2. 請求項1に記載の装置であって、 前記並列操作プログラム命令ワードが、前記複数のレジスタの中から、ソース レジスタを当該ソースレジスタの高次ビット位置に記憶される前記第1の(N/ 2)ビット入力オペランドと当該ソースレジスタの低次ビット位置に記憶される 前記第2の(N/2)ビット入力オペランドとともに指定することを特徴とする データ処理装置。 3. 請求項1及び請求項2のいずれかに記載の装置であって、 前記演算ユニットが単一パスを有し、当該パスは、演算操作におけるビット位 置の間のキャリー・チェインとして機能し、且つ、並列操作プログラム命令ワー ドが実行される時に、前記第1(N/2)ビット入力オペランド・データワード と前記第2(N/2)ビット入力オペランド・データワードとの間で割れること を特徴とするデータ処理装置。 4. 先行する請求項のいずれかに記載の装置であって、 前記並列操作プログラム命令ワードが (i) 2つの並列(N/2)ビット加算が行われる並列加算、 (ii) 2つの並列(N/2)ビット減算が行われる並列減算、 (iii)2つの並列(N/2)ビットシフト操作が行われる並列シフト、 (iv)(N/2)ビット加算と(N/2)ビット減算とが並行して行われる並列加 算/減算、 (v) 2つの並列(N/2)ビットmin/max操作が行われる並列min/max、及び (vi) 2つの並列(N/2)ビット・スケール操作が行われる並列スケールのい ずれか1つの演算操作を行うことを特徴とするデータ処理装置。 5. 先行する請求項のいずれかに記載の装置であって、 前記条件コードフラグの第1のセット及び前記条件コードフラグの第2のセッ トが、直前の操作の (i) 結果がゼロだった、 (ii) 結果が負だった、 (iii)結果としてオーバーフローが起きた、及び (iv) 結果としてキャリーが生じた、 ことを示す少なくとも1つのフラグを含むことを特徴とするデータ処理装置。 6. 先行する請求項のいずれかに記載の装置であって、 前記演算ユニットが条件付き選択命令に応答し、当該条件付き選択命令は、前 記条件フラグの第1セットに従って、第1ソースレジスタに記憶された第1(N /2)ビット入力オペランド・データワードと第2ソースレジスタに記憶された 第1(N/2)ビット入力オペランド・データワードとのいずれか一方を前記複 数のレジスタの中の目的レジスタへ移動し、前記条件フラグの第2セットに従っ て、第1ソースレジスタに記憶された第2(N/2)ビット入力オペランド・デ ータワードと第2ソースレジスタに記憶された第2(N/2)ビット入力オペラ ンド・データワードとのいずれか一方を前記目的レジスタへ移動することを特徴 とするデータ処理装置。 7. 先行する請求項のいずれかに記載の装置であって、 前記演算ユニットが、畳み込み(convolution)操作と、フィルタ操作と、相関 操作と、変換操作のいずれか1つを行うことを特徴とするデータ処理装置。 8. 操作されるべきデータワードを、各々が少なくともNビットの容量のある 複数のレジスタに記憶させるステップと、 プログラム命令ワードに応答して、Nビット・データパスを有する演算ユニッ トで、当該プログラム命令ワードによって指定された演算操作を行うステップと 、 少なくとも1つの並列操作プログラム命令ワードに応答し、第1の(N/2) ビット入力オペランド・データワード上で第1の演算操作を、第2の(N/2) ビット入力オペランド・データワード上で第2の演算操作を、別々に行うステッ プと、 前記第1の演算操作に従って条件コードフラグの第1のセットをセットするス テップと、 前記第2の演算操作に従って条件コードフラグの第2のセットをセットするス テップ を備えるデータ処理方法。
JP51436998A 1996-09-23 1997-08-22 データ処理条件コード・フラグ Expired - Lifetime JP3662259B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9619825.4 1996-09-23
GB9619825A GB2317466B (en) 1996-09-23 1996-09-23 Data processing condition code flags
PCT/GB1997/002256 WO1998012626A1 (en) 1996-09-23 1997-08-22 Data processing condition code flags

Publications (2)

Publication Number Publication Date
JP2001501755A true JP2001501755A (ja) 2001-02-06
JP3662259B2 JP3662259B2 (ja) 2005-06-22

Family

ID=10800362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51436998A Expired - Lifetime JP3662259B2 (ja) 1996-09-23 1997-08-22 データ処理条件コード・フラグ

Country Status (9)

Country Link
EP (1) EP0927390B1 (ja)
JP (1) JP3662259B2 (ja)
KR (1) KR100520807B1 (ja)
CN (1) CN1104679C (ja)
DE (1) DE69721023T2 (ja)
IL (1) IL127290A0 (ja)
MY (1) MY118456A (ja)
RU (1) RU2181214C2 (ja)
TW (1) TW325552B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524167A (ja) * 2006-01-20 2009-06-25 クゥアルコム・インコーポレイテッド オペランドの早期の条件付き選択
KR20200139256A (ko) * 2018-11-21 2020-12-11 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 네트워크 온칩 데이터 처리 방법 및 장치
US11797467B2 (en) 2018-10-18 2023-10-24 Shanghai Cambricon Information Technology Co., Ltd. Data processing device with transmission circuit

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7958181B2 (en) * 2006-09-21 2011-06-07 Intel Corporation Method and apparatus for performing logical compare operations
JP4228241B2 (ja) * 2006-12-13 2009-02-25 ソニー株式会社 演算処理装置
US9747105B2 (en) 2009-12-17 2017-08-29 Intel Corporation Method and apparatus for performing a shift and exclusive or operation in a single instruction
US9483266B2 (en) * 2013-03-15 2016-11-01 Intel Corporation Fusible instructions and logic to provide OR-test and AND-test functionality using multiple test sources
US9886277B2 (en) 2013-03-15 2018-02-06 Intel Corporation Methods and apparatus for fusing instructions to provide OR-test and AND-test functionality on multiple test sources
JP6956796B2 (ja) * 2017-09-14 2021-11-02 三菱電機株式会社 演算回路、演算方法、およびプログラム
CN111209231B (zh) * 2018-11-21 2021-05-11 上海寒武纪信息科技有限公司 数据处理方法、装置及相关产品

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009524167A (ja) * 2006-01-20 2009-06-25 クゥアルコム・インコーポレイテッド オペランドの早期の条件付き選択
US9710269B2 (en) 2006-01-20 2017-07-18 Qualcomm Incorporated Early conditional selection of an operand
US11880330B2 (en) 2018-10-18 2024-01-23 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11797467B2 (en) 2018-10-18 2023-10-24 Shanghai Cambricon Information Technology Co., Ltd. Data processing device with transmission circuit
US11809360B2 (en) 2018-10-18 2023-11-07 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11841816B2 (en) 2018-10-18 2023-12-12 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11868299B2 (en) 2018-10-18 2024-01-09 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11880329B2 (en) 2018-10-18 2024-01-23 Shanghai Cambricon Information Technology Co., Ltd. Arbitration based machine learning data processor
US11880328B2 (en) 2018-10-18 2024-01-23 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
US11960431B2 (en) 2018-10-18 2024-04-16 Guangzhou University Network-on-chip data processing method and device
US11971836B2 (en) 2018-10-18 2024-04-30 Shanghai Cambricon Information Technology Co., Ltd. Network-on-chip data processing method and device
KR102539574B1 (ko) 2018-11-21 2023-06-01 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 네트워크 온칩 데이터 처리 방법 및 장치
KR20200139256A (ko) * 2018-11-21 2020-12-11 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 네트워크 온칩 데이터 처리 방법 및 장치

Also Published As

Publication number Publication date
CN1104679C (zh) 2003-04-02
EP0927390B1 (en) 2003-04-16
IL127290A0 (en) 1999-09-22
DE69721023D1 (de) 2003-05-22
CN1219253A (zh) 1999-06-09
JP3662259B2 (ja) 2005-06-22
KR100520807B1 (ko) 2005-10-12
KR20000048528A (ko) 2000-07-25
MY118456A (en) 2004-11-30
DE69721023T2 (de) 2003-12-24
TW325552B (en) 1998-01-21
EP0927390A1 (en) 1999-07-07
RU2181214C2 (ru) 2002-04-10

Similar Documents

Publication Publication Date Title
JP3756195B2 (ja) デジタル信号処理集積回路アーキテクチャ
JP3681407B2 (ja) コプロセッサ・データ・アクセス制御
US5881257A (en) Data processing system register control
US5784602A (en) Method and apparatus for digital signal processing for integrated circuit architecture
US5881263A (en) Non-instruction base register addressing in a data processing apparatus
US5748515A (en) Data processing condition code flags
US5969975A (en) Data processing apparatus registers
US5881259A (en) Input operand size and hi/low word selection control in data processing systems
JP3645573B2 (ja) データ処理装置におけるレジスタ・アドレッシング
JP3662259B2 (ja) データ処理条件コード・フラグ
JP3645574B2 (ja) データ処理システムにおける入力オペランド制御
JP2001504956A (ja) データ処理システム・レジスタ制御
JP2001501329A (ja) データ処理装置レジスタ

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050323

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090401

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100401

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110401

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120401

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130401

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140401

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term