JPH07200543A

JPH07200543A - 算術エンジン

Info

Publication number: JPH07200543A
Application number: JP6332803A
Authority: JP
Inventors: Calvin W Harrison; カルビン・ウェイン・ハリソン; Susan L Gilfeather; スーザン・リーン・ギルフェザー; Jr John B Gehman; ジョン・バーソロミュー・ジェマン，ジュニア
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1993-12-20
Filing date: 1994-12-15
Publication date: 1995-08-04
Also published as: SG52303A1; EP0660245A2; US5522085A; EP0660245A3

Abstract

(57)【要約】【目的】複素算術演算処理に最適化された算術エンジ
ン装置を提供する。【構成】算術エンジン（１１）は、入力データを受信
し、第１ＭＡＣ出力（２１）データを生成するＭＡＣ１
２を含む。ＭＡＣ（１３）がＭＡＣ（１２）に並列に結
合されている。ＭＡＣ（１３）は入力データを受信し、
出力（１９）を生成する。加算器アレイ（１４）がＭＡ
Ｃ（１２）とＭＡＣ（１３）との双方に結合される。こ
の加算器アレイ（１４）は、入力データ、第１，第２Ｍ
ＡＣ出力データを受信して出力データを生成する。各Ｍ
ＡＣ（１２，１３）は、乗算器クロス・ポイント・スイ
ッチ（４２）、乗算器レジスタ（４６）、レジスタ・セ
レクタ（５０）、および並列乗算器（５２，５４）で構
成される。各加算器アレイ（１４）は、クロス・ポイン
ト・スイッチ（８４）、加算器レジスタ（８６）、レジ
スタ・セレクタ（８８）、加算器（９２）、および条件
コード判定器（９４）で構成される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、一般的にデジタル信号
処理に関し、特にこのような分野における算術エンジン
(arithmetic engine)に関するものである。

【０００２】

【従来の技術】高速デジタル信号処理（ＤＳＰ）を通信
システムに応用する際、特に携行用(hand held)装置の
ためには、低電力で高い性能のＤＳＰ機能を必要とす
る。これらのＤＳＰは、携行用スペクトル拡散通信機
器、高速モデムおよび全ての無線機に必要とされる、ス
ペクトル分析やデジタル・フィルタ処理を効率的に行え
なければならない。これらの用途では、マトリクス数学
的演算(matrix math operation)、複素算術演算、高速
フーリエ変換（ＦＦＴ）計算、符号化／復号化、検索お
よびソーティングを必要とする。最適化のためには、Ｄ
ＳＰ算術エンジンが多くの資源を効率的に用いるように
しなければならない。例えば、次のような複素乗算の実
行では、 (x1 + iy1) (x2 + iy2) = (x1 x2 - y1 y2) + i(x1 y2
+ y1 x2) この処理を１つの命令で行うには、実数の乗算を４回お
よび実数の加算を２回必要とする。乗算器や加算器を増
やしても速度を高めることにはならず、一方これらを減
らすと命令がより多く必要となる。

【０００３】必要とされているのは、より高い基数(rad
ix)のＦＦＴ、複素乗算、および高速データ・ソーティ
ングを行うように最適化することができる、高性能算術
エンジンである。ＦＦＴは中間結果を算術エンジン内の
レジスタに記憶するので、より高い基数のＦＦＴを行う
場合メモリ・アクセスの回数は少なくて済む。したがっ
て、算術エンジンはパイプライン処理が可能なので、ス
ループットは早くなる。基数が８で４０９６点のＦＦＴ
は、基数が２のＦＦＴよりも２／３、基数が４の場合よ
りも１／３、少ないデータ・フェッチ(fetch)で足り
る。複素乗算は、ほとんどのＤＳＰアルゴリズムの基礎
であるので、重要な性能目標である。統計的なフィルタ
処理を行ったり、結果を解析するためには、ソーティン
グが必要となる。ソーティングによって、典型的な信号
分析の目的である、最高、最低、統計的に変動するデー
タの位置を判定することができる。このような算術エン
ジンは多くの資源(resource)を必要とするが、そのサイ
ズと電力が制限されるため、効率的に用いなければなら
ない。

【０００４】

【発明が解決しようとする課題】汎用ＤＳＰ用の典型的
な算術エンジンは、乗算器アキュムレータ（ＭＡＣ：mu
ltiplier accumulator）と呼ばれる、１つの乗算器と１
つの加算器とを含む。更に用途を特定したＤＳＰの算術
エンジンは、数個の乗算器および加算器のアレイを含む
ことができる。後者のＤＳＰ用算術エンジンは、典型的
に、基数−４のバタフライ(butterfly)を行うように最
適化されているが、高速ソーティングを行うことはでき
ない。

【０００５】また、典型的な算術エンジンは、全てのデ
ジタル通信用途で必要な算術計算を効率的に処理するこ
とができない。汎用ＤＳＰは、基数２のバタフライを効
率的に行うことができるが、十分な資源を有していない
ため、それより高い基数のバタフライを行うことはでき
ない。ＦＦＴは、多くの複素乗算を必要とし、各複素乗
算が４回の実数乗算と２回の実数加算を必要とする。汎
用ＤＳＰはＭＡＣを１つしか有していないので、１回の
複素乗算のみを実行するためにも、このようなＤＳＰの
算術エンジンに対して４回のパスが行われる。２つ以上
のＭＡＣを有するエンジンでも、通常基数４のバタフラ
イ演算に、資源が限られている。

【０００６】また、典型的な算術エンジンは、高速デー
タ・ソーティングも処理することができない。典型的な
データ・ソーティングは、２つのデータを比較し、その
結果条件コードが得られるようにしなければならない。
条件コードは実行ユニットに渡され、ここで後続の命令
の際、プログラムを２つの経路の内の一方に分岐させ
る。分岐後、次の命令がデータ比較の結果に基づいて、
データをその新しい位置に移動させる。この方法は最低
３個の命令を必要とし、１度に１対のデータ処理しかで
きない。典型的な算術エンジンは、多数のデータ対のソ
ーティングをハードウエアで実行するのに十分なデータ
・パス切り替え機構を有してはいない。

【０００７】

【課題を解決するための手段】したがって、本発明の利
点は、新規で改良された算術エンジンを提供することで
ある。また、別の利点は、この算術エンジンが、順序付
けられた対に対して複素データ処理を行うと共に、基数
８の処理に対して最適化されていることである。本発明
の更に別の利点は、前記算術エンジンが、出力を入力に
フィードバックすることによって該エンジン内のデータ
を循環させ、全計算資源を使用することによって、高速
データ・ソーティングを可能にすることである。

【０００８】これらの利点を達成するために、第１二重
(dual)ＭＡＣ第１入力で入力データを受け取り、第１二
重ＭＡＣ出力に第１二重ＭＡＣ出力データを生成する第
１二重乗算器蓄積器（ＭＡＣ）を含む算術エンジンを提
供する。第２二重ＭＡＣが、前記第１二重ＭＡＣと並列
に結合されている。前記第２二重ＭＡＣは、第２二重Ｍ
ＡＣ第１入力で前記入力データを受け取り、第２二重Ｍ
ＡＣ出力に第２二重ＭＡＣ出力データを生成する。加算
器アレイが、前記第１二重ＭＡＣと第２二重ＭＡＣの双
方に結合されている。前記加算器アレイは、前記入力デ
ータ、第１二重ＭＡＣ出力データ、および第２二重ＭＡ
Ｃ出力データを受け取り、加算器アレイ出力に算術演算
出力データを生成するためのものである。

【０００９】本発明の上述のおよびその他の特徴および
利点は、以下の詳細な説明を添付図面と関連付けること
によってよりよく理解されよう。

【００１０】

【実施例】総じて言えば、本発明は、複素算術処理用に
最適化された算術エンジン装置を提供するものである。
ここに記載する算術エンジンはＤＳＰ用途に好適である
が、算術エンジンの使用はＤＳＰまたは複素算術処理に
限定される訳ではない。この算術エンジンに関する発明
は、それぞれ加算器アレイに接続された、並列な２つの
二重ＭＡＣを設けることによって達成することができ
る。各二重ＭＡＣは同時に乗算２回と加算２回の処理を
行うと共に、その入力データをソートすることができ
る。前記加算器アレイは、同時に加算処理を６回行うと
共に、入力データのピーク値のソーティングおよび記憶
が可能である。

【００１１】本発明は、図面を参照することによってよ
りよく理解されよう。図１は、複素算術演算プロセッサ
（ＣＡＰ）またはデジタル信号プロセッサ（ＤＳＰ）１
０内の算術エンジン１１を示す。算術エンジン１１は、
二重乗算器アキュムレー（二重ＭＡＣ）１２、二重ＭＡ
Ｃ１３、および加算器アレイ１４を含む。加算器アレイ
１４は、二重ＭＡＣ１２，１３に並列に結合されてい
る。第１二重ＭＡＣ第１入力１６および第２二重ＭＡＣ
第１入力１７は、入力データ・ストリームからのデータ
を二重ＭＡＣに供給する入力線である。第１二重ＭＡＣ
第２入力２２および第２二重ＭＡＣ第２入力２３は、入
力データ流から、或いは加算器アレイから第１加算器ア
レイ出力データ７４を介して、データをそれぞれの二重
ＭＡＣに供給する入力線である。第１加算器対出力デー
タ７４は、加算器アレイ２０の出力の副集合(sub-set)
である。第１二重ＭＡＣ出力２１および第２二重ＭＡＣ
出力１９は、それぞれ二重ＭＡＣ１２および二重ＭＡＣ
１３の出力である。これらの二重ＭＡＣの出力は、加算
器アレイ１４への入力であると共に、出力データ流の要
素でもある。加算器アレイ１４は、出力データ・ストリ
ームから直接データを受け取ることもできる。

【００１２】図２は、図１の算術エンジンに用いて好適
な二重ＭＡＣの概略図である。図２の二重ＭＡＣは、図
１の二重ＭＡＣ１２を具体的に示したものであり、第１
二重ＭＡＣ第１入力１６、第１二重ＭＡＣ二重入力２２
としての入力、および第１二重ＭＡＣ出力２１としての
出力が見られる。第１二重ＭＡＣ第１入力１６と第１二
重ＭＡＣ第１入力２２を、第２二重ＭＡＣ第１入力１７
と第２二重ＭＡＣ第２入力２３とそれぞれ置き換えれ
ば、図２は図１の二重ＭＡＣ１３を表わすこともでき
る。この場合、第１二重ＭＡＣ２１の出力から成る出力
は、第２二重ＭＡＣの出力１９と置き換えられることに
なる。

【００１３】図２の二重ＭＡＣは、二重乗算器３０と二
重アキュムレータ３４とを含む。二重乗算器３０は、乗
算器クロス・ポイント・スイッチ４２と、乗算器レジス
タ４６と、レジスタ・セレクタ５０と、第１並列乗算器
５２と第２並列乗算器５４とで構成されている。クロス
・ポイント・スイッチ４２は、あらゆる組み合わせの入
力を乗算器レジスタ４６に同時に供給できるようにする
ものである。これらのレジスタはレジスタ・セレクタ５
０に結合され、適切なレジスタ値４８が第１並列乗算器
５２および第２並列乗算器５４の双方に方向付けられ
る。これら乗算器の出力は、二重アキュムレータ３４の
ＭＡＣ出力セレクタ６６と加算器入力レジスタ５７との
双方に結合されている。

【００１４】二重アキュムレータ３４は、アキュムレー
タ・レジスタ５６、加算器入力レジスタ５７、アキュム
レータ・クロス・ポイント・スイッチ６２、第１ＭＡＣ
加算器５９、第２ＭＡＣ加算器６１、条件コード６３、
およびＭＡＣ出力セレクタ６６で構成される。アキュム
レータ・レジスタ５６は、図２では第１アキュムレータ
出力５８と第２アキュムレータ出力６０である、以前の
ＭＡＣ加算器出力の合計を記憶するために用いられる。
加算器入力レジスタ５７は、二重乗算器３０の第１およ
び第２並列乗算器出力３６，３８の出力を記憶するため
に用いられる。アキュムレータ・レジスタ５６と加算器
入力レジスタ５７の双方は、アキュムレータ・クロス・
ポイント・スイッチ６２に結合されている。加算器入力
レジスタ５７は、ＭＡＣ出力セレクタ６６にも結合され
ている。アキュムレータ・クロス・ポイント・スイッチ
６２は、その入力の組み合わせを、第１ＭＡＣ加算器５
９と第２ＭＡＣ加算器６１の双方に方向付ける。二重ア
キュムレータ３４が蓄積モード(accumulate mode)にあ
る場合、第１および第２ＭＡＣ加算器５９，６１の出力
は、アキュムレータ・レジスタ５６にフィードバックさ
れ、それらの出力が記憶される。第１および第２ＭＡＣ
加算器５９，６１は、ＭＡＣ出力セレクタ６６にも結合
されている。第２ＭＡＣ加算器６１は、減算器としても
用いることができ、条件コード６３も結合されている。
条件コード６３は、第２ＭＡＣ加算器６１の入力の内大
きい方を判定し、この情報を用いて、その出力に結合さ
れているＭＡＣ出力セレクタ６６を制御する。ＭＡＣ出
力セレクタ６６は、第１および第２並列乗算器出力３
６，３８からのデータ、加算器入力レジスタ値５１、な
らびに第１および第２乗算器出力５８，６０からのデー
タを受け取る。二重ＭＡＣがカレント・モード(current
mode)にある場合は、これらの出力の内どれを図２の第
１二重ＭＡＣ出力２１に送出するのかを判定する。二重
ＭＡＣがソート・モードの場合、条件コード出力６４を
用いて、第１二重ＭＡＣ出力２１上の加算器入力レジス
タ値５１の出力に対する、適切な順番を判定する。

【００１５】図２に表されている構成の動作をより詳し
く説明すると、データは、入力データ・ストリームから
または第１加算器対の出力データ７４から、乗算器クロ
ス・ポイント・スイッチ４２に入る。入力データ・スト
リームは、複素算術演算プロセッサのメモリから来るデ
ータ対で構成される。第１加算器対の出力データ７４
は、加算器アレイ１４内部の第１ランク(rank)の加算器
から来るものである。入力データ流および第１加算器対
の出力データは、それぞれ、第１二重ＭＡＣ第１入力１
６および第１二重ＭＡＣ第２入力２２を通って、乗算器
クロス・ポイント・スイッチ４２に入る。乗算器クロス
・ポイント・スイッチ４２は、入力データを選択された
ソース４４として、乗算器レジスタ４６に伝える(rout
e)。クロス・ポイント・スイッチ４２は、多数の入力値
を同時に多数の乗算器レジスタに移動させることができ
る。レジスタ・セレクタ５０は、乗算器レジスタ４６か
らの乗算器レジスタ値４８を受け取り、適切な値を第１
および第２並列乗算器５２，５４に、選択された乗算器
オペランド５３として送出する。第１および第２乗算器
５２，５４は、それらの各入力を乗算し、その結果を第
１並列乗算器出力３６および第２並列乗算器出力３８に
出力する。二重ＭＡＣがバイパス・モードにある場合、
これらの出力は直接ＭＡＣ出力セレクタ６６に送られ、
第１二重ＭＡＣ出力２１を通じて、二重ＭＡＣ外部に送
出される。二重ＭＡＣが算術モードにある場合、第１乗
算器出力３６と第２乗算器出力３８とが二重アキュムレ
ータ３４に送られ、加算器入力レジスタ５７に記憶され
る。

【００１６】データが図２の入力レジスタ５７に記憶さ
れた後、いくつかの事象が発生する可能性がある。二重
ＭＡＣが算術モードにある場合、アキュムレータ・クロ
スポイント・スイッチ６２は２つの加算器入力レジスタ
値５１を取り、それらを第１ＭＡＣ加算器５９および第
２ＭＡＣ加算器６１の双方に、選択された加算器入力６
５を通じて送出する。このような場合、第２ＭＡＣ加算
器６１は減算器として用いられているので、前記２つの
値の和および差が得られる。この和と差は、それぞれ第
１アキュムレータ出力５８と第２アキュムレータ出力６
０とに現れ、第１二重ＭＡＣ出力２１を通じて二重ＭＡ
Ｃから出て行く前に、ＭＡＣ出力セレクタ６６に入る。

【００１７】図２の二重ＭＡＣがソート・モードにある
時、加算器入力レジスタ５７の和および差が上述のよう
に計算される。条件コード６３は、第２ＭＡＣ加算器６
１からの結果を、条件コード入力６７（未だ減算器とし
て用いられている）を通じて入力し、２つの加算器入力
レジスタ値５１の内いずれが大きいかを判定する。この
判定結果は、条件コード出力６４を通じて、ＭＡＣ出力
セレクタ６６に送出される。次に、ＭＡＣ出力セレクタ
がこの判定結果を用いて、第１二重ＭＡＣ出力２１上で
加算器入力レジスタ値５１をどのように配列するかを判
定する。第１二重ＭＡＣ出力２１上では、最大および最
小値は常に同一位置に現れる。

【００１８】図２の二重ＭＡＣがアキュムレート・モー
ドにある時、蓄積器クロス・ポイント・スイッチ６２は
加算器入力レジスタ値５１とアキュムレータ・レジスタ
値５０とを、入力として用いる。最初の対は第１ＭＡＣ
加算器５９に送られ、最後の対は第２ＭＡＣ加算器６１
に送られる。アキュムレート・モードでは、第２ＭＡＣ
加算器６１は、減算器としてではなく加算器として用い
られる。第１および第２ＭＡＣ加算器５９，６１各々の
各出力は、アキュムレータ・レジスタ５６にフィードバ
ックされ、加算器入力レジスタ５７に記憶されている次
の値に加えられる。最終的なアキュムレータの値は、第
１および第２ＭＡＣ加算器５９，６１から出力され、Ｍ
ＡＣ出力セレクタ６６に送られ、最後に第１二重ＭＡＣ
出力２１を通じて二重ＭＡＣから送出される。

【００１９】図３は、図１に示した加算器アレイ１４に
好適な第１加算器対を図示するものである。図３におけ
る第１ランクの加算器は、１対のクロス・ポイント・ス
イッチ８４，レジスタ・ファイル８６、レジスタ・セレ
クタ８８、加算器９２および条件コード判定器９４で構
成されている。クロス・ポイント・スイッチ８４は、算
術エンジンへの入力データ・ストリーム、第１二重ＭＡ
Ｃ２１からの出力、および第２二重ＭＡＣ１９からの出
力を受け入れる。外部データを受け入れることに加え
て、クロス・ポイント・スイッチは、算術エンジンの出
力データも受け入れる。第１、第２および第３加算器対
７４，１７４，２７４の出力はそれぞれ第１加算器クロ
ス・ポイント・スイッチ８４にフィードバックされる。
クロス・ポイント・スイッチ８４からの選択値８５は、
第１加算器レジスタ８６に記憶される。基数８のバタフ
ライ・アルゴリズムを効果的に実行するには、各加算器
９２の前に少なくとも８個のレジスタが必要である。こ
れらのレジスタは、加算器が出力データを用いることが
できるようになるまで、そのデータを一時的に保持す
る。このように一時的に保存することが必要なのは、入
力データ・シーケンスがデータを消費する(consume)す
るシーケンスと一致しないからである。

【００２０】第１加算器９２が用いるために、図３の第
１加算器オペランドＡ９０と第１オペランドＢ９１が、
第１加算器レジスタ８６の中から第１加算器レジスタ・
セレクタ８８によって選択される。加算器９２はオペラ
ンドの加算および減算を処理することができる。第１加
算器セレクタ８８は、以下のようにソート処理を行う役
割も持っている。第１加算器オペランド９０，９１が第
１加算器９２によって比較される。その結果の符号が、
大きい方のオペランドを示す。この結果の符号は条件コ
ード判定器９４によって決められ、条件コード判定器９
４はソート・レジスタ信号９７を第１加算器レジスタ・
セレクタ８８にフィードバックする。この信号を用い
て、オペランド９０または９１のどちらを第１オペラン
ド・ソート８７として出力するかを選択する。加えて、
この信号を用いて、比較されないレジスタ対からどちら
の値を第１レジスタ・ソート８９として出力するかを選
択する。これらの接続によってソート・チェーン(chai
n)が形成され、上述の好適実施例では、算術エンジンに
１回データを渡すだけで、大きい方から５つのデータ
（ピーク検索）を突き止めることができる。ピーク値は
第１オペランド・ソート８７上にあり、一方ピークの位
置は第１レジスタ・ソート８９上にある。

【００２１】図４は、図１に示した加算器アレイ１４に
好適な第２加算器対を図示するものである。図４におけ
る第２加算器対は、１対のクロス・ポイント・スイッチ
１８４、レジスタ・ファイル１８６、レジスタ・セレク
タ１８８、加算器１９２および条件コード判定器１９４
で構成されている。クロス・ポイント・スイッチ１８４
は、算術エンジンへの入力データ・ストリーム、第１二
重ＭＡＣ２１からの出力、および第２二重ＭＡＣ１９か
らのデータを受け入れる。外部データを受け入れること
に加えて、クロス・ポイント・スイッチは、算術エンジ
ンの出力データも受け入れる。第１、第２および第３加
算器対７４，１７４，１７４からの出力は、それぞれ、
第２加算器クロス・ポイント・スイッチ１８４にフィー
ドバックされる。クロス・ポイント・スイッチ１８４か
らの選択値１８５は、第２加算器レジスタ１８６に記憶
される。第２加算器１９２が用いるために、第２加算器
オペランドＡ１９０と第２オペランドＢ１９１とが、第
２加算器レジスタ・セレクタ１８８によって第２加算器
レジスタ１８６から選択される。加算器１９２は、加算
および減算処理を行うことができる。第２加算器セレク
タ１８８は、ソート処理を行う役割も果たす。第２加算
器オペランド１９０，１９１が、第２加算器１９２によ
って比較される。比較結果の符号は、大きい方のオペラ
ンドを示す。この結果の符号は、条件コード判定器１９
４によって判定され、条件コード判定器１９４はソート
・レジスタ選択信号１９７を第２加算器レジスタ・セレ
クタ１８８にフィードバックする。この信号を用いて、
オペランド１９０または１９１のどちらを第２オペラン
ド・ソート１８７として出力するかを選択する。加え
て、この信号を用いて、比較されないレジスタ対からど
の値を第２レジスタ・ソート１８９として出力するのか
も選択する。これらの接続によってソート・チェーンが
形成され、上述の好適実施例では、算術エンジンに１回
データを渡すだけで、大きい方から５つのデータ（ピー
ク検索）を突き止めることができる。ピーク値は第１オ
ペランド・ソート１８７上にあり、一方ピークの位置は
第１レジスタ・ソート１８９上にある。

【００２２】図５は、図１に示した加算器アレイ１４に
好適な第３加算器対を図示するものである。図５におけ
る第３加算器対は、１対のクロス・ポイント・スイッチ
２８４、レジスタ・ファイル２８６、レジスタ・セレク
タ２８８、加算器２９２および条件コード判定器２９４
で構成されている。クロス・ポイント・スイッチ２８４
は、算術エンジンへの入力データ・ストリーム、第１二
重ＭＡＣ２１からの出力、および第２二重ＭＡＣ１９か
らの出力を受け入れる。外部データを受け入れることに
加えて、クロス・ポイント・スイッチは、算術エンジン
の出力データも受け入れる。第１、第２および第３加算
器対７４，１７４，２７４からの出力は、それぞれ、第
１加算器クロス・ポイント・スイッチ２８４にフィード
バックされる。クロス・ポイント・スイッチ２８４から
の選択値２８５は、第３加算器レジスタ２８６に記憶さ
れる。第３加算器２９２が用いるために、第３加算器オ
ペランドＡ２９０および第３オペランドＢ２９１が、第
３加算器レジスタ・セレクタ２８８によって第３加算器
レジスタ２８６から選択される。加算器２９２は、加算
または減算処理を行うことができる。また、第３レジス
タ２８８はソート処理を行う役割も果たす。第３加算器
オペランド２９０，２９１が第３加算器２９２によって
比較される。比較結果の符号は、大きい方のオペランド
を示す。この結果の符号は、条件コード判定器２９４に
よって判定され、条件コード判定器２９４はソート・レ
ジスタ・セレクタ信号２９７を第３加算器レジスタ・セ
レクタ２８８にフィードバックする。この信号を用い
て、オペランド２９０または２９１のどちらを第３オペ
ランド・ソート２８７として出力するか選択する。加え
て、この信号を用いて、比較されないレジスタ対からの
どの値を、第３レジスタ・ソート２８９として出力する
かを選択する。これらの接続によってソート・チェーン
が形成され、上述の好適実施例では、算術エンジンに１
回データを渡すだけで、大きい方から５つのデータ（ピ
ーク検索）を突き止めることができる。ピーク値は第１
オペランド・ソート２８７上にあり、一方ピークの位置
は第１レジスタ・ソート２８９上にある。

【００２３】図１の二重ＭＡＣ１２，１３が加算器アレ
イ１４とどのように動作するかを示す例として、基数８
のバタフライについて説明する。基数８のバタフライ機
能は、８個の複素数に作用し、８個の複素出力を生成す
る。データは、図２の二重乗算器３０、二重アキュムレ
ータ３４、および図３の加算器アレイ９５，１９５，２
９５の各ランクを通過し、算術エンジンの各命令の資源
全てを使用する。各命令の間、複素乗算が二重ＭＡＣ１
２，１３内で行われ、６回の加算演算が加算器アレイ１
４において発生する（加算または減算）。算術エンジン
１１のレジスタをデータで満たし、第１出力を生成する
には１２個の命令が必要である。算術エンジンのパイプ
ラインが満たされた後、各命令毎に出力データが生成さ
れる。これについては以下の詳細な説明で理解できるで
あろう。

【００２４】基数８のバタフライの間データが算術エン
ジンによってどのように連続的に発生されるかを詳しく
論じるために、表１の基数８パイプライン・シーケンス
を参照する。表１ないし４は、各命令に対してデータ
が、あるレジスタから別のレジスタに転送される模様を
示したものである。データは、図２の二重ＭＡＣクロス
・ポイント・スイッチ４２から算術エンジンに入り、乗
算器入力レジスタ４６に記憶される。各乗算器には４つ
のレジスタが割り当てられる。レジスタM11-M14は第１
並列乗算器５２に割り当てられる。レジスタ M21-M24
は第１二重ＭＡＣ１２の第２並列乗算器５４に割り当て
られる。レジスタM31-M34 およびM41-M44は、第２二重
ＭＡＣ１３の乗算器に割り当てられる。入力データは、
複素データ・サンプルX7,Y7および複素係数Zx7,Zy7から
成る。命令１は、クロス・ポイント・スイッチを通じ
て、８個のレジスタ (M11, M41, M21, M31, M13, M33,
M23, M43)に同時にロードする。

【００２５】命令２は、次の複素データ対 (X6,Y6) (Zx
3,Zy3) を乗算器レジスタ４６にロードし、以前に取り
込んだデータと乗算し、それを加算器入力レジスタ５７
に記憶する。これらは、第１二重ＭＡＣ１２に対しては
A11, A12で表記され、第２二重ＭＡＣ１３に対してはA2
1, A22で表記されている。

【００２６】命令３は、第３複素対(X5,Y5) (Zx5,Zy5)
を取り込み、加算器入力レジスタ５７(A11, A12, A21,
A22)と内の以前の値加算および減算を行うことによっ
て、第１データサンプルの複素乗算を完了する。この結
果は、加算器アレイ１４(A38,A48)（図３）の第１加算
機レジスタ８６に記憶される。

【００２７】

【表１】

【００２８】

【表２】

【００２９】

【表３】

【００３０】

【表４】命令４は、第４複素対 (X4,Y4) (Zx1 ,Zy1)を取り込
み、既に加算器入力レジスタ５７に記憶されている値を
加算および減算することによって、第２サンプルの複素
乗算を完了し、その結果を加算器アレイ１４(A34, A44)
の第１加算器レジスタ８６に記憶する。

【００３１】命令５は、第５複素対(X3,Y3) (Zx6,Zy6)
を取り込み、第３サンプルの複素乗算を完了し、その結
果を第１加算器レジスタ８６ (A37, A47)に記憶する。
命令３，４において第１加算器レジスタ (A34, A38, A4
4, A48)にロードされた以前の値を減算し、二重ＭＡＣ
乗算器レジスタ４６ (M42, M22)に記憶し戻し、後に命
令９において用いられるようにする。この命令は、算術
エンジンのフィードバック特性を表す。フィードバック
を適用することにより、基数８のバタフライを計算しつ
つ、算術エンジンの資源を完全に利用し続けることがで
きる。

【００３２】命令６は、第６複素対(X2,Y2) (Zx2,Zy2)
を取り込み、第４サンプルの複素乗算を完了し、その結
果を第１加算器レジスタ８６ (A33, A43)に記憶する。
命令３，４において第１加算器レジスタ (A34, A38, A4
4, A48)にロードされた値を加算し、第２ランクの加算
器ブロックの第２加算器レジスタ１８６（図４のA57,A6
7)に記憶する。

【００３３】命令７は、第７複素対 (X1,Yl) (Zx4,Zy4)
を取り込み、第５サンプルの複素乗算を完了し、その結
果を第１加算器レジスタ８６ (A36, A46)に記憶する。
命令５，６において第１加算器レジスタ (A33, A37, A4
3, A47)にロードされた以前の値を減算し、二重ＭＡＣ
乗算器レジスタ４６(M12, M32)に記憶し戻し、後に命令
９において用いられるようにする。この命令も、算術エ
ンジンのフィードバック特性を表すものである。

【００３４】命令８は、対(XO,YO)を取り込み、第１加
算器レジスタ８６のA31,A41に直接それらを記憶する。
第６サンプルの複素乗算が完了し、命令５，６において
第１加算器レジスタ(A33, A37, A43, A47)にロードされ
た値を加算し、第２加算器レジスタ１８６(A53, A63)に
入力する。

【００３５】命令９は、第９複素対(X15,Y15) (Zx7,Zy
7)を取り込み、第７命令の複素乗算を完了し、命令７，
８における第１加算器レジスタ (A32, A36, A42, A46)
の以前の値を加算し、それらを第２加算器レジスタ１８
６(A55, A65)にロードする。命令６，８において第２加
算器レジスタ(A53, A57, A63, A67)にロードされた以前
の値を加算し、第３加算器レジスタ２８６（図５のA75,
A85)に記憶する。これと同一プロセスが命令１２まで続
く。

【００３６】命令１２の後、パイプラインが満たされ、
基数８のバタフライの最終結果が、命令１３から得るこ
とができるようになる。命令１３は、最後の動作を除い
て、命令９から１２と同様に動作する。命令１３は、命
令９，１１において第３加算器レジスタ２８６ (A71, A
75, A81, A85)にロードされた以前の値を取り出し、そ
れらを互いに加算し、結果(XO, YO) をメモリに送る。
この結果は、基数８バタフライの最初の出力値である。
命令１４は二番目の結果(X4, Y4)を出力し、このプロセ
スは、最後の値(X7, Y7)が出力される命令２０まで、１
回のバタフライについて続けられる。

【００３７】要約すれば、高速フーリエ変換は基礎的な
信号処理の応用である。この変換を計算可能な速度によ
って、所与の応用のために選択すべきデジタル信号処理
機を決定することが多い。中間値を記憶するための十分
な資源があるとすれば、高次のバタフライになるほど、
スループットを高めることによって、ＦＦＴの実行時間
を短縮する。ここで考慮している算術エンジンは、基数
８のバタフライに最適化されたものであるが、基数２お
よび基数４のバタフライも効率的に行うことができる。

【００３８】ここに記載した算術エンジンの重要性は、
そのアーキテクチャにある。このアーキテクチャは、順
序付けられた対の複素データを入力し処理するように設
計されている。各加算器対は、複素数を処理するように
設計されている。基数８のバタフライに必要な３ランク
の加算器対が設けられている。第１加算器対７４の出力
は基数２の結果を与え、第２加算器対１７４の出力は基
数４の結果を与え、第３加算器対２７４の出力は基数８
の結果を与える。

【００３９】ハードウエアに組み込むもう１つの重要な
能力は、高速データ・ソーティングである。殆どの算術
エンジンは単にデータを入力から出力に受け渡すだけで
ある。ここに記載したエンジンは、出力を入力にフィー
ドバックすることによってデータを巡回させる点におい
て異なっている。この特徴によって、計算資源を最大限
活用することができるので、加算器およびスイッチが全
てアクティブになる並列ソーティング処理には必須なこ
とである。クロス・ポイント・スイッチを用いることに
よって、入力のいかなる組み合わせでも同時に、あらゆ
るレジスタの組み合わせにも入力することができるよう
になる。典型的には、同時に１つまたは２つのレジスタ
にしか入力できない、単純なマルチプレクサが用いられ
ている。

【００４０】以上のように、本発明の実施例によれば、
先に述べた目的および利点を完全に満足する算術エンジ
ンが提供される。本発明を特定の実施例に関連付けて説
明したが、先の説明を参照すれば、多くの代替、変更お
よび改造が当業者には明白であろう。したがって、本発
明は、特許請求の範囲の精神および広い範囲に該当す
る、そのような代替、変更および改造を全て包含するこ
とを意図することとする。

【図面の簡単な説明】

【図１】本発明の好適実施例による、複素算術プロセッ
サ（ＣＡＰ）またはＤＳＰにおける算術エンジンの概略
図。

【図２】図１に示す算術エンジンに用いて好適な二重乗
算蓄積器（ＭＡＣ）の概略図。

【図３】図１に示す加算器アレイに好適な第１加算器対
を示す図。

【図４】図１に示す加算器アレイに好適な第２加算器対
を示す図。

【図５】図１に示す加算器アレイに好適な第３加算器対
を示す図。

【符号の説明】

１０デジタル信号プロセッサ（ＤＳＰ）１１算術エンジン１２，１３二重乗算器蓄積器（二重ＭＡＣ）１４，２０加算器アレイ３０，３４二重乗算器４２乗算器クロス・ポイント・スイッチ４２４６乗算器レジスタ５０レジスタ・セレク５２，５４並列乗算器５６蓄積器レジスタ５７加算器入力レジスタ５９，６１ＭＡＣ加算器６２蓄積器クロスポイント・スイッチ６３条件コード６６ＭＡＣ出力セレクタ

フロントページの続き (72)発明者スーザン・リーン・ギルフェザーアメリカ合衆国アリゾナ州スコッツデール、ノース108ス・ウエイ10798 (72)発明者ジョン・バーソロミュー・ジェマン，ジュニアアメリカ合衆国アリゾナ州スコッツデール、ビア・デ・セレノ8312

Claims

【特許請求の範囲】

【請求項１】第１二重ＭＡＣ第１入力（１６）で入力デ
ータを受け取り、第１二重ＭＡＣ出力（２１）で第１二
重ＭＡＣ出力データを生成し、第１二重ＭＡＣ第２入力
（２２）を有する、第１二重ＭＡＣ乗算アキュムレータ
（ＭＡＣ１２）；前記第１二重ＭＡＣ（１２）に並列に
結合されており、第２二重ＭＡＣ第１入力（１７）で前
記入力データを受け取り、第２二重ＭＡＣ出力（１９）
で第２二重ＭＡＣ出力データを生成し、第２二重ＭＡＣ
第２入力（２３）を有する、第２二重ＭＡＣ（１３）；
および前記第１二重ＭＡＣ（１２）と前記第２二重ＭＡ
Ｃ（１３）との双方に結合され、前記入力データ、前記
第１二重ＭＡＣ出力データ、および前記第２二重ＭＡＣ
出力データを受け取り、加算器アレイ出力（２０）にお
いて算術エンジン出力を生成する、加算器アレイ（１
４）；から成ることを特徴とする算術エンジン（１
４）。
【請求項２】請求項１において、前記第１二重ＭＡＣ
（１２）は：複数のソースを受け取り、第１および第２
並列乗算器出力（３６，３８）を生成する二重乗算器
（３０）およびアキュムレータ（３４）から成り、該二重乗算器（３０）は：複数のソースを受け取り、複
数の乗算器クロス・ポイント・スイッチ出力（４４）に
おいて選択されたソースを生成する、乗算器クロス・ポ
イント・スイッチ（４２）；前記乗算器クロス・ポイン
ト・スイッチ出力（４４）に結合され、選択されたソー
スを乗算器レジスタ値として記憶する複数の乗算器レジ
スタ（４６）；前記複数の乗算器レジスタ（４６）に結
合され、前記乗算器レジスタ値から、選択された乗算器
のオペランドを選択するレジスタ・セレクタ（５０）；
および前記レジスタ・セレクタ（５０）に結合され、選
択された乗算器オペランドの対を受け取り、前記選択さ
れた乗算器オペランドの対を乗算して、第１および第２
並列乗算器出力（３６，３８）をそれぞれ生成する、第
１および第２並列乗算器（５２，５４）；から成り、前記アキュムレータ（３４）は前記二重乗算器（３０）
に結合され、前記第１および第２並列乗算器出力（３
６，３８）を受け取り、前記第１二重ＭＡＣ出力データ
を生成し：前記第１および前記第２並列乗算器出力（３
６，３８）を記憶する複数の加算器レジスタ（５７）
と、第１および第２アキュムレータ出力（５８，６０）
を記憶する複数のアキュムレータ・レジスタ（５６）；
前記複数の加算器レジスタ（５７）と前記複数のアキュ
ムレータ・レジスタ（５６）とに結合され、前記第１お
よび第２並列乗算器出力（３６，３８）および前記第１
および第２アキュムレータ出力（５８，６０）から、選
択されたアキュムレータ・レジスタおよび加算器レジス
タ値を生成する、アキュムレータ・クロス・ポイント・
スイッチ（６２）；前記蓄積器クロス・ポイント・スイ
ッチ（６２）に結合された第１および第２並列ＭＡＣ加
算器（５９，６１）であって、該第１および第２並列Ｍ
ＡＣ加算器（５９，６１）は、選択されたアキュムレー
タ・レジスタおよび加算器レジスタ値の対を受け取り、
該選択されたアキュムレータ・レジスタおよび加算器レ
ジスタ値の対を加算して、前記第１および第２アキュム
レータ加算器出力（５８，６０）を生成し、前記第２並
列ＭＡＣ加算器（６１）は、条件コード出力（６４）を
生成する条件コード判定器（６３）に条件コード入力
（６７）を提供する、第１および第２並列ＭＡＣ加算器
（５９，６１）；および前記第１，第２並列ＭＡＣ加算
器（５９，６１）および前記第１，第２並列乗算器（５
２，５４）に結合され、前記第１および前記第２アキュ
ムレータ加算器出力（５８，６０）、前記第１および第
２並列乗算器出力（３６，３８）、および条件コード出
力（６４）を受け取り、前記第１二重ＭＡＣ出力データ
（２１）を生成する、ＭＡＣ出力セレクタ（６６）；か
ら成ることを特徴とする算術エンジン（１４）。
【請求項３】請求項１において、前記加算器アレイは：前記入力データ、前記第１二重Ｍ
ＡＣ出力データ、前記第２二重ＭＡＣ出力データ、なら
びに第１、第２および第３加算器出力対（７４，１７
４，２７４）を受け取り、第１加算器出力対（７４）を
生成する第１加算器対；前記第１加算器対に結合され、
前記入力データ、前記第１二重ＭＡＣ出力データ、前記
第２二重ＭＡＣ出力データ、ならびに前記第１、第２お
よび第３加算器出力対（７４，１７４，２７４）を受け
取り、第２加算器出力対（１７４）を生成する第２加算
器対；および前記第２加算器対に結合され、前記入力デ
ータ、前記第１二重ＭＡＣ出力データ、前記第２二重Ｍ
ＡＣ出力データ、ならびに前記第１、第２および第３加
算器出力対（７４，１７４，２７４）を受け取り、前記
加算器アレイ出力（２０）において前記算術エンジン出
力データを生成する第３加算器対；から成ることを特徴
とする算術エンジン（１４）。
【請求項４】請求項３において、前記第１加算器対の各
加算器は：前記入力データ、前記第１ＭＡＣ出力デー
タ、前記第２ＭＡＣ出力データ、ならびに前記第１、第
２および第３加算器出力対（７４，１７４，２７４）の
第１選択値（８５）を生成する第１加算器クロス・ポイ
ント・スイッチ（８４）；前記第１加算器クロス・ポイ
ント・スイッチ（８４）に結合され、前記第１選択値
（８５）を記憶する第１加算器レジスタ（８６）；前記
第１加算器レジスタ（８６）に結合され、第１オペラン
ド（９０，９１）を受信し、選択し、前記第１選択値
（８５）から第１加算器総和出力（９６）を生成する第
１加算器レジスタ・セレクタ（８８）；前記第１加算器
レジスタ・セレクタ（８８）に結合され、前記第１オペ
ランド（９０，９１）を受信し、加算し、前記第１加算
器出力対（７４）の１つを生成する第１加算器（９
２）；および第１加算器条件コード入力を受け取り、前
記第１加算器レジスタ・セレクタ（８８）に第１条件コ
ード（９７）を供給する第１条件コード判定器（９
４）；から成ることを特徴とする算術エンジン（１
４）。
【請求項５】請求項４において、前記第２加算器対の各
加算器は：前記入力データ、前記第１ＭＡＣ出力デー
タ、前記第２ＭＡＣ出力データ、ならびに前記第１、第
２および第３加算器出力対（７４，１７４，２７４）の
第２選択値（１８５）を生成する第２加算器クロス・ポ
イント・スイッチ（１８４）；前記第２加算器クロス・
ポイント・スイッチ（１８４）に結合され、前記第２選
択値（１８５）を記憶する第２加算器レジスタ（１８
６）；前記第２加算器レジスタ（１８６）に結合され、
前記第２選択値（１８５）から第２オペランド（１９
０，１９１）を受信し、選択する第２加算器レジスタ・
セレクタ（１８８）；前記第２加算器レジスタ・セレク
タ（１８８）に結合され、前記第２オペランド（１９
０，１９１）を受信し、加算し、前記第２加算器出力対
（１７４）の１つを生成する第２加算器（１９２）；お
よび第２加算器条件コード入力を受け取り、前記第２加
算器レジスタ・セレクタ（１８８）に第２条件コード
（１９７）を供給する第２条件コード判定器（１９
４）；から成り、更に、前記第３加算器対の各加算器は：前記入力データ、前記
第１二重ＭＡＣ出力データ、前記第２二重ＭＡＣ出力デ
ータ、ならびに前記第１、第２および第３加算器出力対
（７４，１７４，２７４）の第３選択値（２８５）を生
成する第３加算器クロス・ポイント・スイッチ（２８
４）；前記第３加算器クロス・ポイント・スイッチ（２
８４）に結合され、前記第３選択値（２８５）を記憶す
る第３加算器レジスタ（２８６）；前記第３加算器レジ
スタ（２８６）に結合され、前記第３選択値（２８５）
から第３オペランド（２９０，２９１）を受信し、選択
する第３加算器レジスタ・セレクタ（２８８）；前記第
３加算器レジスタ・セレクタ（２８８）に結合され、前
記第３オペランド（２９０，２９１）を受信し、加算
し、前記算術エンジン出力データを生成する第３加算器
（２９２）；および第３加算器条件コード入力を受け取
り、前記第３加算器レジスタ・セレクタ（２８８）に第
３条件コード（２９７）を供給する第３条件コード判定
器（２９４）；から成ることを特徴とする算術エンジン
（１４）。