JP2000285105A

JP2000285105A - 行列ベクトル乗算命令を用いて高速フーリエ変換を実行するための方法及びシステム

Info

Publication number: JP2000285105A
Application number: JP2000067393A
Authority: JP
Inventors: Shuridofa Abadohani; シュリドフアアバドハニ; Saha Arindamu; サハアリンダム
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-03-11
Filing date: 2000-03-10
Publication date: 2000-10-13
Also published as: US6366937B1

Abstract

(57)【要約】【課題】プロセッサ占有時間及び計算時間の全時間を
低減してＦＦＴ演算を実行する方法及びシステムを提供
する。【解決手段】行列ベクトル乗算命令を用いてプロセッ
サにおいて高速フーリエ変換用のバタフライ演算を実施
するシステム及び方法である。前記バタフライ演算に対
する第１組の入力はｒ１＋ｊｉ１及びｒ２＋ｊｉ２と定
義され、回転因子ＷｎはＷｎ＝ｅ^-j2π^/N＝ｃｏｓ（２
π／Ｎ）−ｊｓｉｎ（２π／Ｎ）＝ａ＋ｊｂと定義され
る。バタフライ演算は第１組のレジスタにｒ１、ｉ１、
ｒ２及びｉ２を格納し、前記回転因子を行列レジスタに
格納する。行列レジスタと前記第１組のレジスタとの間
で第１の行列ベクトル乗算命令が実行される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般的にはマイクロ
プロセッサシステムにおいて高速フーリエ変換演算を実
施することに関し、より詳細には行列ベクトル乗算命令
を用いて高速フーリエ変換を実行するためのシステム及
び方法に関する。

【０００２】

【従来の技術】フーリエ変換は、繰返しパターンの連続
波形を解析するために用いる数学的手段である。詳細に
は、フーリエ変換は基本的には、波形をシヌソイド関数
に分解することにより波形を解析することに基づくもの
である。シヌソイド関数は、所与の周波数において繰り
返す「波状」パターンを有する。

【０００３】デジタル系では、デジタル波形は連続して
はいないが、一組のサンプル或いは点により表される。
高速フーリエ変換（ＦＦＴ）と呼ばれる技術を用いて、
繰返しパターンのデジタル波形を解析する。ＦＦＴをｘ
ｉで表される入力サンプル或いは点に適用して、Ｘｉで
表される一組の出力点を生成する。ＦＦＴは、所定数の
計算を必要とし、長時間プロセッサを占有する。基数２
のＦＦＴでは、全複素乗算・加算数はＮｌｏｇ₂Ｎであ
る。ただしＮは波形におけるサンプル或いは点の数であ
る。例えば１，０２４点からなる波形の解析は約１０，
０００回の複素加算・乗算を使用する。

【０００４】

【発明が解決しようとする課題】そこで、プロセッサ占
有時間及び計算時間の全時間を低減してＦＦＴ演算を実
行する方法及びシステムを提供することが望まれる。

【０００５】本発明の目的は、高速フーリエ変換を実行
するための改良された装置及び方法であって、計算時間
を削減する装置及び方法を提供することである。

【０００６】本発明の別の目的は、行列ベクトル乗算命
令を用いて、高速フーリエ変換を実行するための改良さ
れた装置及び方法を提供することである。

【０００７】同様に、本発明の他の目的は、行列ベクト
ル乗算命令を用いて計算時間を低減する離散コサイン逆
変換を実行するための新しい方法及び装置を提供するこ
とである。

【０００８】

【課題を解決するための手段】本発明の上記した目的及
び利点、並びに他の目的及び利点は、プロセッサ内でＦ
ＴＲＶ命令と呼ばれる行列ベクトル乗算命令を利用して
ＦＦＴ演算を実行することにより実現される。ＦＦＴ演
算のために、ＦＦＴの入力データ及び係数はそれぞれベ
クトルレジスタ及び行列レジスタにおいて再配列され、
かつそこに格納される。その後、ＦＴＲＶ命令を用い
て、ＦＦＴのバタフライ演算を実行する。

【０００９】より詳細には、プロセッサは、高速フーリ
エ変換演算のためにバタフライ演算を実行する。バタフ
ライ演算では、第１の入力の組がｒ１＋ｊｉ１及びｒ２
＋ｊｉ２と定義され、さらにＷｎと表される回転因子
（twiddle factor）は、Ｗｎ＝ｅ^-j2π^/N＝ｃｏｓ（２
π／Ｎ）−ｊｓｉｎ（２π／Ｎ）＝ａ＋ｊｂと定義され
る。第１組のレジスタはｒ１、ｉ１、ｒ２及びｉ２を格
納し、行列レジスタは回転因子を格納する。行列ベクト
ル乗算演算が行列レジスタと第１組のレジスタとの間で
実行される。

【００１０】

【発明の実施の形態】本発明の他の特徴及び利点は、本
発明の開示内容を検討すれば当業者には明らかになるで
あろう。本発明の好ましい実施例について、図面を参照
しつつ以下にさらに詳細に証明する。

【００１１】図１は、本発明に用いるのに適したプロセ
ッサ１０及びメモリ１６のブロック図である。この例で
は、プロセッサ１０は、２００ＭＨｚのクロック速度を
有する２ウエイスーパースカラ汎用マイクロプロセッサ
である。しかしながら、本発明の適用範囲は、このプロ
セス及びこの特定種類のプロセッサに限定されない。

【００１２】プロセッサ１０は、実行ユニット１４に命
令及びデータを供給するキャッシュ１２を備える。キャ
ッシュ１２は、外部メモリ１６から命令及びデータを引
き出す。別の実施例では、メモリ１６はプロセッサ１０
と同じチップ上に存在する。実行ユニット１４は変換ベ
クトルハードウエア１８を備えており、変換ベクトルハ
ードウエア１８を用いて行列ベクトル乗算命令（ＦＴＲ
Ｖ）２０を実現する。

【００１３】図２は、ＦＴＲＶ命令とともに用いられる
図１の変換ベクトルハードウエア１８のレジスタを示
す。４×４行列の場合の一組の係数が行列レジスタＸＦ
０−ＸＦ１５に格納される。４つの４×１ベクトルの場
合の一組の係数がベクトルレジスタＦ０−Ｆ１５に格納
される。ベクトルレジスタは、４つの４×１ベクトル、
Ｆ０−Ｆ３、Ｆ４−Ｆ７、Ｆ８−Ｆ１１及びＦ１２−Ｆ
１５を形成するために、以下のようにグループ化され
る。ＦＴＲＶ命令は、行列レジスタに格納された係数と
４×１ベクトルの指定された１つとを掛け算し、その結
果を指定された４×１ベクトルレジスタに格納する。Ｆ
ＴＲＶ演算の結果が以下に示される。４×４行列レシ゛スタ指定されたヘ゛クトルレシ゛スタ結果のヘ゛クトルレシ゛スタ xf0 xf4 xf8 xf12 F0 xf0×F0+xf4×F1+xf8×F2+xf12×F3 xf1 xf5 xf9 xf13 × F1 ＝ xf1×F0+xf5×F1+xf9×F2+xf13×F3 xf2 xf6 xf10 xf14 F2 xf2×F0+xf6×F1+xf10×F2+xf14×F3 xf3 xf7 xf11 xf15 F3 xf3×F0+xf7×F1+xf11×F2+xf15×F3 行列レジスタ及びベクトルレジスタは、単精度浮動小数
点値を格納する。ＦＴＲＶ命令は１６回の浮動小数点乗
算及び１２回の浮動小数点加算を実行し、４サイクル毎
に発行されることができ、７サイクルの待ち時間を有す
る。

【００１４】図３は、行列ベクトル乗算命令を実行する
ために用いられる図１の変換ベクトルバードウエア１８
の詳細図である。ベクトルレジスタＦ０−Ｆ１５がグル
ープ化され、各グループはマルチプレクサ２２、２４に
接続される。また行列レジスタｘｆ０−ｘｆ１５もグル
ープ化され、各グループはマルチプレクサ２６、２８に
接続される。ベクトルレジスタ及び行列レジスタからの
マルチプレクサ２２−２８は対をなし、乗算整列シフタ
３２−３８に入力する。乗算整列シフタ３２−３８の出
力は加算器４２により和をとられる。正規化−丸め処理
器４４は、必要に応じて加算器４２の出力を正規化し、
別のマルチプレクサ４６が正規化された出力を、入力デ
ータを供給するベクトルレジスタの１つに発送する。例
えば、ＦＴＲＶＦ０命令の場合、レジスタＦ０はｘｆ
０×Ｆ０＋ｘｆ４×Ｆ１＋ｘｆ８×Ｆ２＋ｘｆ１２×Ｆ
３を含むことになろう。パイプライン制御される際に、
変換ベクトルハードウエアは、クロックサイクル毎に４
回の浮動小数点乗算・加算を実行する。

【００１５】定義により、離散フーリエ変換（ＤＦＴ）
は、ｋ＝０からＮ−１の場合に以下のように決定され
る。

【００１６】

【数１】ただしＷ_N＝ｅ^-j2π^/Nである。

【００１７】ＤＦＴはＮ²回の複素乗算及びＮ²回の複素
加算を必要とする。ＦＦＴ演算はＤＦＴをより効率的に
計算する方法である。計算効率を改善するために、ＦＦ
ＴはＤＦＴを、入力点の対間でバタフライ演算と呼ばれ
る一連の演算に数学的に還元する。バタフライはＦＦＴ
の主要な演算である。

【００１８】しかしながら、行列ベクトル乗算命令は３
Ｄグラフィクス用に設計されたものであり、行列ベクト
ル乗算命令と比べて、バタフライ演算では乗算及び加算
の数及び順序を変える必要があるため、ＦＦＴに直接用
いることができない。本発明の注目すべき態様は、行列
ベクトル乗算命令（ＦＴＲＶ）及び関連するハードウエ
アを用いて、ＦＦＴのためのクーリー−テューキーアル
ゴリズム及び特にＦＦＴの「バタフライ」演算を実施す
ることである。

【００１９】図４は、ＦＴＲＶを使用するコンピュータ
システム及びメモリ格納手順を示す。プロセッサ１０
は、ＦＴＲＶ命令を使用するＦＦＴ手順５０を格納する
メモリ１６に接続する。またプロセッサ１０はディスプ
レイ５４、キーボード５６及びマウス５８にも接続す
る。

【００２０】図５は、本発明の行列ベクトル乗算命令を
用いる周波数ＦＦＴ演算の８点デシメーションの３つの
ステージのフロー図である。入力点はｘ₀−ｘ₇で表さ
れ、一方出力点はＸ₀−Ｘ₇で表される。

【００２１】図５では、入力点の対間の交差した矢印
は、各バタフライ演算の場合の入力点のペアリング（対
の形成）を表す。ＦＦＴは一連のステージにおいて実行
され、各ステージは一連のバタフライ演算を適用して、
次のステージにより用いられる一連の出力を生成する。
各ステージは同数のバタフライ演算を実行する。全ＦＦ
Ｔは、実行されるＦＦＴのタイプにより確定されるパタ
ーンのバタフライを組み合わせることにより実行され
る。

【００２２】基数２のＦＦＴのバタフライ演算は、４回
の乗算と６回の加算／減算とを含む。用語「基数２」
は、入力点が各ステージにおいてどのように分割される
かを表す。基数２ＦＦＴは入力サンプルを２つのセット
に分割し、そのセットは、サブセットが２つの入力点を
持つようになるまで、２つ以上のサブセットに繰返し分
割される。

【００２３】ステージ１では、バタフライ演算のための
入力点は番号通りに対をなしていないが、一方ステージ
３の出力点は数字の順番通りに並んでいることに注目さ
れたい。

【００２４】ＤＦＴの計算では、上記ＤＦＴ式において
ｅ^j2π^/Nに等しい、多数のＷ_NがＦＦＴ演算の係数にな
る。多数のＷＮは回転因子と呼ばれ、各バタフライ演算
に対する回転因子（Ｗ₀、Ｗ₁、Ｗ₂及びＷ₃）が向きの矢
印の隣に示される。ステージ１では、各入力点対は異な
る回転因子を用いる。例えばステージ１では、バタフラ
イ演算は、回転因子Ｗ₀を用いて点ｘ₀及びｘ₄上で実行
される。

【００２５】ステージ２では、ステージ１の出力点が対
をなし、２つの回転因子Ｗ₀及びＷ₂がバタフライ演算に
用いられる。ステージ３では、出力点は対をなし、１つ
の回転因子Ｗ₀が全てのバタフライ演算に用いられる。
また図５は、各ステージのための回転因子の数も示す。

【００２６】上記のように、入力点ｘ₀−ｘ₇は複素数で
ある。複素数は実数部及び虚数部を有し、表記ａ＋ｊｂ
を用いて表され、ここでａは実数部であり、ｊｂは虚数
部である。係数「ａ」及び「ｂ」は実数であり、ｊは虚
数である。複素加算・乗算は、複素数を乗算及び加算す
ることを表す。ＦＦＴは周波数（ＤＩＦ）ＦＦＴのデシ
メーションか、或いは時間（ＤＩＴ）ＦＦＴのデシメー
ションかのいずれかであることができる。

【００２７】図６は本発明のバタフライ演算のフロー図
である。ステップ６２では、回転因子及び他の値が行列
レジスタにロード及び格納される。ステップ６４は、ベ
クトルレジスタのグループの少なくとも１つに入力点に
対する値を格納する。ステップ６６では、行列ベクトル
乗算（ＦＴＲＶ）命令が実行される。周波数の基数２Ｆ
ＦＴのデシメーションに対するバタフライ演算は以下の
ように定義される。２つの入力点がｒ１＋ｊｉ１及び
ｒ２＋ｊｉ２と定義される。バタフライ演算に対する
回転因子は、形式Ｗｎ＝ｅ^-j2π^/N＝ｃｏｓ（２π／
Ｎ）−ｊｓｉｎ（２π／Ｎ）を有し、ａ＋ｊｂと定義
される。ただしｂ＝−ｓｉｎ（２π／Ｎ）である。バタ
フライ演算の出力は以下の関係を適用することにより生
成される。（ｒ１＋ｒ２）＋ｊ（ｉ１＋ｉ２）（（ｒ１−ｒ２）ａ−（ｉ１−ｉ２）ｂ）＋ｊ（（ｒ１
−ｒ２）ｂ＋（ｉ１−ｉ２）ａ））ＦＴＲＶ命令を用いて、上記の基数２のＤＩＦバタフラ
イ演算を実行するために、４×４行列及びベクトルレジ
スタは以下の値をロードされ、かつ格納する。４×４行列入力ベクトルレジスタ結果のベクトルレジスタ 1 0 1 0 r1(F0) r1+r2 (F0) 0 1 0 1 × i1(F1) ＝ i1+i2 (F1) a -b -a b r2(F2) (r1-r2)a-(i1-i2)b (F2) b a -b -a i2(F3) (r1-r2)b+(i1-i2)a (F3) 特定のベクトルレジスタが係数の隣の括弧内に示され
る。

【００２８】回転因子Ｗは係数ａ、ｂ、−ａ、−ｂを含
み、４×４行列レジスタの下側２行に格納される。上記
４×４行列の値及び係数は、図２に示されるのと同じフ
ォーマットで行列レジスタに格納される。例えば、ｘｆ
０は１を格納し、ｘｆ４は０を格納し、ｘｆ１は０を格
納し、ｘｆ２はａを格納し、ｘｆ１５は−ａを格納す
る。ベクトルレジスタでは、Ｆ０はｒ１を格納し、Ｆ１
はｉ１を格納し、Ｆ２はｒ２を格納し、Ｆ３はｉ２を格
納する。その後ＦＴＲＶＦ０命令がレジスタＦ０−Ｆ
３上で実行される。ＦＴＲＶＦ０命令を実行した後、
その結果がベクトルレジスタＦ０−Ｆ３に格納される。
例えば、Ｆ０がｒ１＋ｒ２を格納し、Ｆ１はｉ１＋ｉ２
を格納し、Ｆ２は（ｒ１−ｒ２）ａ−（ｉ１−ｉ２）ｂ
を格納し、Ｆ３は（ｒ１−ｒ２）ｂ＋（ｉ１−ｉ２）ａ
を格納する。結果として、基数２のＦＦＴに対する全バ
タフライ演算は、１つの行列ベクトル乗算（ＦＴＲＶ）
命令を用いて実行される。

【００２９】別の実施例では、ベクトルレジスタＦ４−
Ｆ７がそれぞれｒ１、ｉ１、ｒ２及びｉ２を格納し、Ｆ
ＴＲＶＦ４命令が実行される。同様に、ベクトルレジ
スタＦ８−Ｆ１１及びＦ１２−Ｆ１５はそれぞれＦＴＲ
ＶＦ８命令及びＦＴＲＶＦ１２命令とともに用いるこ
とができる。

【００３０】基数２のＤＩＴＦＦＴバタフライ演算
は、４×４行列レジスタ及びベクトルレジスタを初期化
し、以下に示すようなベクトルレジスタにおける結果を
生成することにより実行される。４×４行列入力ベクトルレジスタ結果のベクトルレジスタ 1 0 a -b r1 r1+r2 0 1 b a × i1 ＝ i1+i2 1 0 -a b r2 (r1-r2)a-(i1-i2)b 0 1 -b -a i2 (r1-r2)b+(i1-i2)a 回転因子Ｗは４×４行列レジスタの右側２つの列に格納
される。

【００３１】回転因子Ｗの係数は、メモリの回転因子テ
ーブルにおいて予め計算され、そこに格納される。理想
的には、回転因子テーブルは各回転因子Ｗを２つの浮動
小数点数ａ及びｂとして格納することが好ましい。しか
しながら、実際には、ＤＩＦＦＦＴの場合に下側２行、
ＤＩＴＦＦＴの場合に右側２列の全８個の係数値を格
納する。ソフトウエアパイプライン処理ＦＴＲＶ命令は４サイクル毎に実行することができる。
４サイクル中に、実行ユニットは、ＦＴＲＶ命令と並列
に、ベクトルレジスタの２回の倍精度ロード及び２回の
倍精度格納を実行することができる。ＦＴＲＶ命令は７
サイクルの待ち時間を有するため、ソフトウエアパイプ
ライン処理を用いて、バタフライ演算毎に４サイクルの
ピークスループットを達成する。ソフトウエアパイプラ
イン処理のための疑似コードが以下に示される。ソフト
ウエアパイプライン処理を説明するために、第３のＦＴ
ＲＶ命令「ＦＴＲＶＦ８」を詳細に記述することにす
る。ＦＴＲＶＦ０命令の実行は、ＦＴＲＶＦ８命令を
実行する前に終了していることに注意されたい。「ＦＴ
ＲＶＦ８」と並列に、ＦＴＲＶＦ０命令の結果は、そ
れぞれアドレス０及びアドレス０＋１にＦ０及びＦ１の
値を格納する「Dblst address0,F0」のようなダブルス
トア命令を用いてメモリに格納される。「Dbl Id addre
ss n,F0」のようなダブルロード命令は、アドレスｎ及
びアドレスｎ＋１に格納される値をＦ０及びＦ１にそれ
ぞれロードする。簡単にするために、以下の疑似コード
は、アドレスが実際には規定されるであろうがアドレス
を規定していないものとする。バタフライ演算をパイプライン処理するための疑似コード Innermost Loop｛ FTRV F0 in parallel with Dbl st F8 Dbl st F10 Dbl ld F8 Dbl ld F10 FTRV F4 in parallel with Dbl st F12 Dbl st F14 Dbl ld F12 Dbl ld F14 FTRV F8 in parallel with Dbl st F0 Dbl st F2 Dbl ld F0 Dbl ld F2 FTRV F12 in parallel with Dbl st F4 Dbl st F6 Dbl ld F4 Dbl ld F6 ｝上記「Innermost Loop」を実行し始める前に、命令を実
行して、上記のようにベクトルレジスタＦ０−Ｆ７及び
行列レジスタを初期化する。「Innermost Loop」の実
行を終了した後、さらに追加の命令を用いて、メモリに
Ｆ８−Ｆ１５の値を格納する。さらに、ループカウンタ
をデクリメントし、ループカウンタの値に対して「Inne
rmost Loop」の始めに分岐する他の命令が、ダブルロー
ド及びダブルストア命令と並列に実行される。

【００３２】結果として、ロード及びストア演算ととも
にバタフライ演算を実行するために用いられるＦＴＲＶ
命令をパイプライン処理することにより、ＦＦＴの実行
速度がさらに速くなる。バタフライ演算のグループ化行列レジスタがロードされる回数を削減するために同じ
回転因子を用いる入力についてバタフライ演算を実行す
ることにより、ＦＦＴの速度はさらに改善される。基数
２のＦＦＴはｌｏｇ₂Ｎのステージを有し、各ステージ
はＮ／２のバタフライ演算を有する。ＤＩＦＦＦＴの
場合、全てではないが、第１のステージでは、回転因子
は２回以上用いられる（図４を参照されたい）。回転因
子はステージ１、２、３、…、ｌｏｇ₂Ｎにおいてそれ
ぞれ１、２、４、…、Ｎ／２回用いられる。スループッ
トを改善するために、バタフライ演算は各ステージにお
いて共にグループ化され、既にロードされている回転因
子を再利用する。以下に疑似コードを示す。同じ回転因子を利用するバタフライ演算をグループ化するための疑似コード For (i=1 to Number of Stages)｛ For (j=1 to Number of Twiddle Factors in Stage i)｛ load new twiddle factor for (k=1 to Number of same twiddle factor butterflies in stage i)｛ execute same twiddle factor butterfly /*１つのＦＴＲＶ命令を実行する｝｝｝図７は上記疑似コードのフロー図である。ステップ７２
はｉ及びｊ、すなわちステージカウンタ及び回転因子カ
ウンタをそれぞれ１に初期化する。ステップ７４は行列
レジスタに定数を格納する。ステップ７６は行列レジス
タに新しい回転因子を格納する。ステップ７８では、最
も内側のループに対するカウンタｋが１に初期化され
る。ステップ８０は、レジスタのグループの１つに入力
点に対する値を格納する。ステップ８２では、ＦＴＲＶ
命令を用いてバタフライ演算が実行される。ステップ８
４は、そのステージの同じ回転因子を用いて、ｋがバタ
フライの数以下（バタフライの数よりも小さいかあるい
は同じ）であるかを判定する。バタフライ数以下である
場合には、ステップ８６でｋをインクリメントし、ステ
ップ８０に進む。バタフライ数より大きい場合には、ス
テップ８８で、ｊ、すなわち回転因子カウンタが、ステ
ージｉの回転因子数以下であるかを判定する。回転因子
数以下である場合には、ステップ９０でｊをインクリメ
ントし、ステップ４６に進む。回転因子数より大きい場
合には、ステップ９２で、ｉがステージ数以下であるか
を判定する。ステージ数以下である場合には、ステップ
９４でｉをインクリメントし、ｊを１に設定し、ステッ
プ９６に進み、次のステージのためのバタフライを実行
する。ステージ数より大きい場合には、その手順を終了
する。

【００３３】ＦＦＴ演算の速度をさらに改善するため
に、ＦＴＲＶ命令はステージ３以上ではパイプライン処
理される。図７では、same twiddle factor butterfly
を実行する最も内側のループは、各ＦＴＲＶ命令が終了
するまで待機し、ＦＴＲＶ命令をパイプライン処理しな
い。ステージ１及び２は、同じ回転因子を用いる１つ及
び２つのバタフライのみを有するため、ステージ１及び
２では個別の手順が実行される。ステージ３以上では、
以下の疑似コードがＦＴＲＶ命令をパイプライン処理す
る。パイプライン処理のための疑似コード Do Butterflies for stage 1, Do butterflies for stage 2, For (i=3 to Number of Stages)｛ for (j=1 to Number of Twiddle Factors in Stage i)｛ load new twiddle factor for (k=1 to Number of same twiddle factor butterflies in stage i)｛ execute same twiddle factor butterfly execute same twiddle factor butterfly execute same twiddle factor butterfly execute same twiddle factor butterfly ｝｝｝図８はステージ３以上の場合に上記した疑似コードに示
されるＦＦＴ演算の実施例のフロー図である。ステップ
１０２では、ステージカウンタｉは３に初期化され、回
転因子カウンタｊは１に初期化される。ステップ１０４
では、行列レジスタに一定値、０及び１が格納される。
ステップ１０６では、same twiddle factorカウンタｋ
が０に初期化される。ステップ１０８では、ベクトルレ
ジスタＦ０−Ｆ１５は適切な係数ｒ１、ｉ１、ｒ２及び
ｉ２をロードされ、新しい回転因子が行列レジスタにロ
ードされる。ブロック１１０−１１６はストア及びロー
ド命令（１１０ｂ及び１１６ｂ）と並列にＦＴＲＶ命令
（１１０ａ−１１６ａ）を実行し、バタフライの実行を
パイプライン処理する。ステップ１１８は、ｋがそのス
テージの同じ回転因子バタフライの数以下であるかを判
定する。バタフライ数以下である場合には、ステップ１
２０においてｋがインクリメントされ、ステップ１１０
に進む。バタフライ数より大きい場合には、ステップ１
２２において、ステップ１１４及び１１６のＦＴＲＶ
Ｆ８及びＦＴＲＶＦ１２命令の結果がそれぞれメモリ
に格納される。ステップ１２４は、ｊがステージｉの回
転因子の数より小さいかを判定する。小さい場合には、
ステップ１２６においてｊがインクリメントされ、ステ
ップ１０６に進む。回転因子数より大きい場合には、ス
テップ１２８において、ステージの数以下であるかを判
定される。ステージ数以下である場合には、ステージ１
３０においてｉがインクリメントされ、ｊが１に設定さ
れ、ステップ１０６に進む。ステージ数より大きい場合
にはその手順は終了される。

【００３４】結果として、上記のようにバタフライ演算
をパイプライン処理し、グループ化することにより、Ｆ
ＦＴ演算の速度が速くなる。

【００３５】別の実施例では、スループットをさらに高
めるために、ステージ間で回転因子が再利用される。バ
タフライ演算は、あるステージの最後のバタフライ演算
に対する回転因子が次のステージの最初のバタフライ演
算に利用されるように順序付けされる。

【００３６】プロセッサアーキテクチャでは、常に分岐
が行われるものと予測されており、分岐には１サイクル
しかかからない。さらに分岐命令は、分岐が余分なサイ
クルを使用しないように別の命令と対をなしている場合
が多い。こうしてステージ１及び２の場合のバタフライ
に対する最も内側のループの「branch not taken」のイ
ンスタンスの数を削減することができる。ステージ１で
は、通常最も内側のループは呼出し毎に一回実行される
ため、以下に示される疑似コードは最も内側のループを
取り除き、本発明のＦＦＴ実施の速度を改善する。ステージ１の疑似コード for (j=1 to Number of Twiddle Factor in Stage 1)｛ load new twiddle factor execute same twiddle factor butterfly ｝上記「for」ループは、Ｎ／２回実行され、ステージ１
のＮ／２バタフライ演算を実行するであろう。ステージ
２の場合、各回転因子が２回用いられるため、同様のバ
ージョンループを以下の疑似コードに示されるように用
いることができる。ステージ２の疑似コード for (j=1 to Number of Twiddle Factor in Stage 2)｛ load new twiddle factor execute same twiddle factor butterfly execute same twiddle factor butterfly ｝上記「for」ループはＮ／４回実行され、ステージ１の
Ｎ／２バタフライ演算を実行するであろう。入力点の配列ＦＦＴ演算を実行する速度をさらに高めるために、入力
点はビット反転される。入力点及び出力点の配列を再配
列することはビット反転と呼ばれる。ビット反転は、Ｆ
ＦＴを開始する前に入力点において、或いはＦＦＴを終
了した後に出力点において行うことができる。レジスタ
Ｒ０はメモリからロードするための入力点のアドレスを
格納する。プロセッサは、レジスタをロードするための
インクリメント後アドレス指定方式を有する。それゆえ
レジスタＲ０をインクリメントするために、さらに命令
或いはサイクルを必要としない。ビット反転を使用する
ＤＩＦＦＦＴの場合、同じ回転因子を用いる連続した
バタフライ演算に対する入力点は、連続したメモリアド
レスに格納される。それゆえアドレスレジスタＲ０は、
次の組の入力点を格納する次のアドレスを指定するため
に事後にインクリメントされる。対照的に、入力点が線
形に順序付けされていた場合には、個別の加算命令によ
って、ステージ間で変化するオフセット値を加えること
によりアドレスレジスタがインクリメントされる必要が
あろう。さらに、ビット反転を用いる場合、回転因子は
予め計算され、ビット反転シーケンスの回転因子テーブ
ルに格納される。それゆえ回転因子も、アドレスレジス
タを事後にインクリメントすることにより順次アクセス
される。

【００３７】ビット反転は予め計算されたビット反転テ
ーブルを用いて行われる。一実施例では、Reverse Bit
［i］と呼ばれるサイズＮのビット反転テーブルは、各
指標ｉに対して、ビット反転された配列のｉの値を示
す。そのようなテーブルを用いる場合の疑似コードが以
下に示される。ビット反転テーブルの第１の実施例に対する疑似コード #define SWAP (a, b, tmp) tmp=(a); (a=b); (b)=tmp; for (i=0; I<N; i++)｛ j=Reverse Bit[i]; if (i<j)｛ SWAP (Data Array[i], Data Array[j], tmp); SWAP (Data Array[i+1], Data Array[j+1], tmp) ｝｝第２の実施例では、ビット反転テーブルのサイズは削減
される。この実施例では、ビット反転テーブルは、Bit
Rev Pairs[i]と呼ばれ、順序付けされた対（ｉ，ｂｒ
ｉ）を格納する。ただし、ｂｒｉはビットを反転したｉ
の値である。言い換えると、入力点ｉはメモリの入力点
ｂｒｉと交換されるであろう。しかしながら、ある点は
交換或いは再順序付けされる必要はなく、交換は対間で
一回だけ実行されるべきである。それゆえ８データ点Ｆ
ＦＴの場合、このビット反転テーブルは（１，４）、
（３，６）及び（０，０）を含むであろう。最後のエン
トリ（０，０）は、テーブル指示子の最後として用いら
れる。それゆえ第１の実施例のビット反転テーブルは８
個の値を格納するが、第２の実施例のビット反転テーブ
ルは６個の値を格納し、それにより低い保管容量しか使
用しない。第２の実施例のビット反転テーブルを用いる
疑似コードが以下に示される。ビット反転テーブルを用いる疑似コード /* これはビット反転テーブルを定義する*/ Struct｛ unsigned short i; /*i*/ unsigned short bri; /*ビット反転i*/ ｝ Bit Rev Pairs[FFT SIZE/2]; /*これはビット反転テーブルである*/ for (i=0; ((i<N/2)&(Bit Rev Pairs[i].i |=0; i++); i++)｛ j= Bit Rev Pairs[i].i; k= Bit Rev Pairs[i].bri; SWAP (Data Array[j].bri, Data Array[k].bri, tmp); SWAP (Data Array[j].i, Data Array[k].i, tmp); 回転因子のプリフェッチ（先取り）好適な実施例では、プロセッサは、回転因子の８個の値
をキャッシュメモリにロードするために用いられるプリ
フェッチ命令を有する。回転因子が行列レジスタにロー
ドされる度に、背景（バックグラウンド）においてプリ
フェッチ命令が実行され、次の８個の回転因子値をプリ
フェッチする。キャッシュの各キャッシュラインは、回
転因子の全８個の値を格納するのに十分な３２バイトを
格納する。利点ＦＴＲＶ命令を用いていない初期バージョンのＦＦＴは
バタフライ当たり１０サイクルを用いており、このため
１，０２４点ＦＦＴのバタフライに対して約１０×Ｎ×
ｌｏｇＮ＝５１，２００サイクルを必要とする。さらに
初期バージョンは、上記ビット反転テーブルの第１の実
施例を用いていたのであり、後にこの第１の実施例は、
全５６，２００サイクルについて約５，０００サイクル
を加えていた。対照的に、パイプライン処理及び第２の
ビット反転実施例とともにＦＴＲＶ命令を用いる本発明
のＦＦＴは、初期バージョンより約３６％速くなるもの
と推定される。

【００３８】本発明の他の特徴及び利点は、本発明の開
示内容を検討する当業者には明らかとなろう。それゆえ
本発明の範囲は特許請求の範囲によってのみ画定される
べきである。

【００３９】

【発明の効果】上記のように本発明に従えば、プロセッ
サを長時間占有することなく、より速くＦＦＴ演算を実
行することが可能である。

【図面の簡単な説明】

【図１】プロセッサ及びメモリのブロック図である。

【図２】行列ベクトル乗算命令に関連して用いられる図
１の変換ベクトルハードウエアのレジスタを示す図であ
る。

【図３】行列ベクトル乗算命令を実行するために用いら
れる図１の変換ベクトルハードウエアの詳細図である。

【図４】行列ベクトル乗算命令を使用するコンピュータ
システム及びメモリ格納手順を示す図である。

【図５】行列ベクトル乗算命令を用いてバタフライ演算
を実行する周波数高速フーリエ変換における８点デシメ
ーションの３つのステージを示す図である。

【図６】行列ベクトル乗算命令を用いるバタフライ演算
のフロー図である。

【図７】行列ベクトル乗算命令を用いてバタフライ演算
を実行するＦＦＴ手順のフロー図である。

【図８】行列ベクトル乗算命令を用いてバタフライ演算
を実行するＦＦＴの別の実施例のフロー図である。

【符号の説明】

１０プロセッサ１２キャッシュ１４実行ユニット１６メモリ１８変換ベクトルハードウエア２０行列ベクトル乗算命令（ＦＴＲＶ）２２、２４、２６、２８、４６マルチプレクサ３２、３４、３６、３８乗算整列シフタ４２加算器４４正規化−丸め処理器５０ＦＦＴ手順５４ディスプレイ５６キーボード５８マウス

Claims

【特許請求の範囲】

【請求項１】プロセッサにおいて高速フーリエ変換演
算用のバタフライ演算を実施するための方法であって、
前記バタフライ演算に対する第１組の入力がｒ１＋ｊｉ
１及びｒ２＋ｊｉ２であり、回転因子ＷｎがＷｎ＝ｅ
^-j2π^/N＝ｃｏｓ（２π／Ｎ）−ｊｓｉｎ（２π／Ｎ）
＝ａ＋ｊｂと表され、前記バタフライ演算が第１組のレ
ジスタにｒ１、ｉ１、ｒ２及びｉ２を格納するステップ
と、前記回転因子を行列レジスタに格納するステップと、前記行列レジスタと前記第１組のレジスタとの間で第１
の行列ベクトル乗算演算を実行するステップとを有する
ことを特徴とする方法。
【請求項２】第２のバタフライ演算に対する第２組の
入力がｒ３＋ｊｉ３及びｒ４＋ｊｉ４であり、前記第１の行列ベクトル乗算演算を実行する間に、第２
組のレジスタにｒ３、ｉ３、ｒ４及びｉ４を格納するス
テップと、前記行列レジスタと前記第２組のレジスタとの間で第２
の行列ベクトル乗算演算を実行するステップとをさらに
有することを特徴とする請求項１に記載の方法。
【請求項３】前記第２の行列ベクトル乗算演算を実行
する間に、前記第１の行列ベクトル乗算演算の出力をメ
モリに格納するステップをさらに有することを特徴とす
る請求項２に記載の方法。
【請求項４】前記行列ベクトル乗算演算の出力をメモ
リに格納するステップと、前記格納された行列ベクトル乗算演算の出力を再順序付
けするステップとをさらに有することを特徴とする請求
項１に記載の方法。
【請求項５】前記格納された出力が第１の位置に関連
し、前記再順序付けするステップがビット反転テーブル
を用いて前記格納された出力を再順序付けし、前記ビッ
ト反転テーブルが前記第１の位置と前記格納された出力
の順序付けされた位置とを含むことを特徴とする請求項
４に記載の方法。
【請求項６】周波数ＦＦＴのデシメーションにおい
て、前記行列ベクトル乗算演算がプロセッサにより実行
され、前記行列レジスタがｎ×ｎ行列を形成し、前記第
１の組のレジスタが、レジスタのグループに構成された
ｍ×１行列を形成する第２組のレジスタのサブセットで
あり、前記各グループがｎ個のレジスタを有し、前記第
１組のレジスタが１つのグループであり、前記行列ベク
トル乗算演算により、ｎ×ｎ行列のレジスタの値が、レ
ジスタの前記グループの指定された１つに対して乗算さ
れた行列になり、前記行列ベクトル乗算の結果がレジス
タの前記グループの前記指定された１つに格納され、前記第１組のレジスタにｒ１、ｉ１、ｒ２及びｉ２を格
納する前記ステップが前記値を、ｒ１ｉ１ｒ２ｉ２として格納し、前記回転因子を格納する前記ステップが前記回転因子
を、１０１００１０１ａ −ｂ −ａｂｂａ −ｂ −ａとして格納し、レジスタの前記グループの前記指定された１つに関して
前記行列ベクトル乗算命令を実行する前記ステップによ
り、ｒ１＋ｒ２ｉ１＋ｉ２（ｒ１−ｒ２）ａ−（ｉ１−ｉ２）ｂ（ｒ１−ｒ２）ｂ＋（ｉ１−ｉ２）ａが前記第１組のレジスタに格納されることを特徴とする
請求項１に記載の方法。
【請求項７】時間バタフライ演算のデシメーションに
おいて、前記行列ベクトル乗算演算がプロセッサにより
実行され、前記行列レジスタがｎ×ｎ行列を形成し、前
記第１の組のレジスタが、レジスタのグループに構成さ
れたｍ×１行列を形成する第２組のレジスタのサブセッ
トであり、前記各グループがｎ個のレジスタを有し、前
記第１組のレジスタが１つのグループであり、前記行列
ベクトル乗算命令により、ｎ×ｎ行列のレジスタの値
が、レジスタの前記グループの指定された１つに対して
行列乗算され、前記行列ベクトル乗算の結果がレジスタ
の前記グループの前記指定された１つに格納され、前記第１組のレジスタにｒ１、ｉ１、ｒ２及びｉ２を格
納する前記ステップが前記値を、ｒ１ｉ１ｒ２ｉ２として格納し、前記行列レジスタに係数を格納する前記ステップが前記
値を、１０ａ −ｂ０１ｂａ１０ −ａｂ０１ −ｂ −ａとして格納し、前記行列ベクトル乗算命令を実行する前記ステップによ
り、ｒ１＋（ｒ２ａ−ｉ２ｂ）ｉ１＋（ｒ２ｂ＋ｉ２ａ）ｒ１−（ｒ２ａ−ｉ２ｂ）ｉ１−（ｒ２ｂ＋ｉ２ａ）がレジスタの前記グループの前記指定された１つに格納
されることを特徴とする請求項１に記載の方法。
【請求項８】プロセッサにおいて、複数の連続入力を
含む高速フーリエ変換演算用のバタフライ演算を実施す
るための方法であって、前記バタフライ演算に対する第
１組の入力がｒ１＋ｊｉ１及びｒ２＋ｊｉ２であり、回
転因子ＷｎがＷｎ＝ｅ^-j2π^/N＝ｃｏｓ（２π／Ｎ）−
ｊｓｉｎ（２π／Ｎ）＝ａ＋ｊｂと表され、前記バタフ
ライ演算が、ｒ１＋ｊｉ１及びｒ２＋ｊｉ２を含む前記第１組の入力
が連続した入力にならないように前記入力をペアリング
するステップと、第１組のレジスタにｒ１、ｉ１、ｒ２及びｉ２を格納す
るステップと、前記回転因子を行列レジスタに格納するステップと、前記行列レジスタと前記第１組のレジスタとの間で行列
ベクトル乗算演算を実行するステップとを有することを
特徴とする方法。
【請求項９】プロセッサにおいて高速フーリエ変換演
算用のバタフライ演算を実行するためのシステムであっ
て、前記バタフライ演算に対する入力がｒ１＋ｊｉ１及
びｒ２＋ｊｉ２であり、回転因子ＷｎがＷｎ＝ｅ^-j2π
^/N＝ｃｏｓ（２π／Ｎ）−ｊｓｉｎ（２π／Ｎ）＝ａ＋
ｊｂと表され、ｒ１、ｉ１、ｒ２及びｉ２を格納するための第１組のレ
ジスタと、前記回転因子を格納するための行列レジスタと、前記行列レジスタと前記第１組のレジスタとの間で行列
ベクトル乗算演算を実行するための実行ユニットとを備
えることを特徴とするシステム。
【請求項１０】前記行列レジスタがｎ×ｎ行列を形成
し、レジスタのグループに構成されるｍ×１行列を形成する
第２組のレジスタであって、レジスタの前記各グループ
がｎ個のレジスタを有し、前記第１組のレジスタが１つ
のグループを形成する、該第２組のレジスタをさらに備
え、前記実行ユニットにより前記ｎ×ｎ行列のレジスタの値
がレジスタの前記グループの指定された１つに対して行
列乗算され、前記行列ベクトル乗算の結果がレジスタの
前記グループの前記指定された１つに格納され、バタフライ演算を実行する一組の命令を格納するメモリ
をさらに備え、前記命令が、レジスタの前記グループの前記指定された１つに値を、ｒ１ｉ１ｒ２ｉ２として格納する命令と、ｎ×ｎ行列を形成する前記第１組のレジスタに係数を、１０１００１０１ａ −ｂ −ａｂｂａ −ｂ −ａとして格納する命令と、レジスタの前記グループの前記指定された１つに関して
前記行列ベクトル乗算命令を実行して、ｒ１＋ｒ２ｉ１＋ｉ２（ｒ１−ｒ２）ａ−（ｉ１−ｉ２）ｂ（ｒ１−ｒ２）ｂ＋（ｉ１−ｉ２）ａをレジスタの前記グループの前記指定された１つに格納
する命令とを有することを特徴とする請求項９に記載の
システム。
【請求項１１】レジスタの前記グループの別の１つに
他の値をロードする命令と、レジスタの前記グループの異なる指定された１つに関し
て第２の行列ベクトル乗算を実行することにより、ｒ１＋ｒ２ｉ１＋ｉ２（ｒ１−ｒ２）ａ−（ｉ１−ｉ２）ｂ（ｒ１−ｒ２）ｂ＋（ｉ１−ｉ２）ａをレジスタの前記グループの前記指定された１つに格納
する命令とをさらに含むことを特徴とする請求項１０に
記載のシステム。
【請求項１２】前記第１の行列ベクトル乗算を実行す
る前記命令が、レジスタの前記グループの別の１つに他
の値をロードする命令と並列に実行されることを特徴と
する請求項１１に記載のシステム。
【請求項１３】コンピュータシステムとともに使用す
るためのコンピュータプログラム製品であって、前記コ
ンピュータプログラム製品がコンピュータ読取り可能な
記憶媒体と、その中に内蔵されたコンピュータプログラ
ム機構とを備え、また前記コンピュータプログラム製品
がプロセッサにおいて高速フーリエ変換演算用のバタフ
ライ演算を実施するためのものであり、前記バタフライ
演算に対する第１組の入力がｒ１＋ｊｉ１及びｒ２＋ｊ
ｉ２であり、回転因子ＷｎがＷｎ＝ｅ^-j2π^/N＝ｃｏｓ
（２π／Ｎ）−ｊｓｉｎ（２π／Ｎ）＝ａ＋ｊｂと表さ
れ、前記コンピュータプログラム機構が前記記憶媒体に格納
され、一連の命令を含むプログラムを含み、前記命令が、第１組のレジスタにｒ１、ｉ１、ｒ２及びｉ２を格納す
る命令と、前記回転因子を行列レジスタに格納する命令と、前記行列レジスタと前記第１組のレジスタとの間で第１
の行列ベクトル乗算演算を実行する命令とを有すること
を特徴とするコンピュータプログラム製品。
【請求項１４】第２のバタフライ演算に対する第２組
の入力がｒ３＋ｊｉ３及びｒ４＋ｊｉ４であり、前記第１の行列ベクトル乗算演算を実行する間に、第２
組のレジスタにｒ３、ｉ３、ｒ４及びｉ４を格納する命
令と、前記行列レジスタと前記第２組のレジスタとの間で第２
の行列ベクトル乗算演算を実行する命令とをさらに含む
ことを特徴とする請求項１３に記載のコンピュータプロ
グラム製品。
【請求項１５】前記第２の行列ベクトル乗算演算を実
行する間に、前記第１の行列ベクトル乗算演算の出力を
メモリに格納する命令をさらに含むことを特徴とする請
求項１４に記載のコンピュータプログラム製品。
【請求項１６】前記行列ベクトル乗算演算の出力をメ
モリに格納する命令と、前記格納された行列ベクトル乗算演算の出力を再順序付
けする命令とをさらに含むことを特徴とする請求項１３
に記載のコンピュータプログラム製品。