JP2580501B2

JP2580501B2 - 並列デ−タ処理装置

Info

Publication number: JP2580501B2
Application number: JP61137313A
Authority: JP
Inventors: 裕行宮田
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1986-06-14
Filing date: 1986-06-14
Publication date: 1997-02-12
Anticipated expiration: 2012-02-12
Also published as: JPS62295174A

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は、高速フーリエ変換を高速に実行するため
に、該変換のバタフライ演算を並列に実行する並列デー
タ処理装置に関するものである。

〔従来の技術〕

まず、この発明における高速フーリエ変換について簡
単に説明する。高速フーリエ変換とは、次に示す離散的
フーリエ変換式を高速に求めるもので、サンプル値ｆ（ｋ）と回転子W
^nkの乗算および、そのΣに対する加減算回数を大幅に減
少させたものである。

この高速フーリエ変換のアルゴリズムは種々提案され
ているが、本発明においては以後に示すインプレイス型
と呼ばれるものを使用する。ここでは便宜上、高速フー
リエ変換の基本となるバタフライ演算の記述を第３図の
ように行う。この第３図の記述方法によりを表わすものとする。この記述方法を使用すると、本発
明で用いるアルゴリズムは第４図に示す様になる。ただ
し、この図は、16ポイントの高速フーリエ変換を表わ
す。このアルゴリズムの特徴は、入力されたサンプルデ
ータが順に２のべき乗ポイントだけ離れたデータとバタ
フライ演算を行い、その結果を元の２つのデータと同じ
位置に格納する点である。また、高速フーリエ変換後の
データをｆ（ｉ）とすると、これらはｉを後に述べるビ
ットリバース処理を施した順に並ぶ。以後では、説明を
簡単にするために、16ポイントの高速フーリエ変換につ
いて説明するが、ポイント数が増加しても（ただしポイ
ント数は２のべき乗）同様に扱える。また、説明上、第
４図に示す様に各バタフライ演算を左から順に、第１ス
テージ14,第２ステージ15,第３ステージ16,第４ステー
ジ17と名付ける。ちなみに、ｎポイント（ｎは２のべき
乗）の高速フーリエ変換は、第1og₂nステージまで存在
する。また、ｎポイントの高速フーリエ変換において、
第１ステージでは、各データがn/2ポイント離れたデー
タとの間でバタフライ演算を行う。第２ステージは、デ
ータを連続したn/2ポイントずつの２つのブロックに分
離し、各ブロック内でn/4ポイント離れたデータとの間
でバタフライ演算を行う。以下同様であり、第１ステー
ジでは、データを連続したn/2^i-1ポイントずつの2^i-1個
のブロックに分離し、各ブロック内でn/2ⁱポイント離れ
たデータとの間でバタフライ演算を行うことになる。

さて、従来は、この高速フーリエ変換を凡用計算機を
用いて逐次的に行うか、第28図に示す加算器47,減算器4
8,乗算器49を組み合わせたバタフライ演算器46を繰り返
して使用するか、複数個のバタフライ演算器46を使用し
て実現していた。

次に動作について説明する。ここでは、第４図の16ポ
イントの高速フーリエ変換を行う場合を考える。１つの
バタフライ演算器46のみを使用する場合には、まず第１
ステージ14の個々の８組のペア（ｆ（０）とｆ（８）,f
（１）とｆ（９）など）とその対応する回転子W^Kを順に
バタフライ演算器46に入力する。以下、各演算結果を使
用して第2,3,4ステージのバタフライ演算を各々順に行
う。各ステージごとに８回のバタフライ演算を行えばよ
いため、全体で32回のバタフライ演算を行うことにより
処理は終了する。Ｎポイントの高速フーリエ変換の場合
には、（但しＮは２のべき乗）回のバタフライ演算を行えばよ
いことになる。ただし、バタフライ演算器46へ入力する
ためのデータをメモリから読み出したり、演算結果をメ
モリに書き込むためのアドレス計算は毎回必要となる。

更に高速化を考えた場合には、同一ステージ内のバタ
フライ演算を並列して行う方法があげられる。例えば、
第４図においては、８個のバタフライ演算器46を用意す
る。８個のバタフライ演算器46を１回使用することによ
り各ステージの処理は一度に終了する。そのため、全体
としてステージの数だけバタフライ演算器46を使用する
ことにより、高速のフーリエ変換が行える。ちなみに、
Ｎポイントの高速フーリエ変換の場合には、N/2個のバ
タフライ演算器46を用意して1og₂N回（但しＮは２のべ
き乗）使用することにより、処理が終了する。ただし、
先に示した各データに対するアドレス計算に加えて、全
データを毎回メモリから読み出したり、メモリに書き込
む処理は必要となる。

〔発明が解決しようとする問題点〕

以上述べた、複数個のバタフライ演算器46を使用する
方式では、実際的には次に示す点から高速な処理が可能
ではない。

１）処理対象であるサンプル値ｆ（ｋ）の数が非常に多
い場合、最も高速に高速フーリエ変換を行うには多数の
バタフライ演算器46が必要となり、実現的ではない。そ
のため、実際には小数のバタフライを演算器46を繰り返
し使用することになる。

２）各ステージでバタフライ演算器46の数だけ並列に実
行できるが、各バタフライ演算器46に入力するデータお
よび出力するデータは通常メモリに格納されており、各
データごとにアドレス計算が必要となる。このアドレス
計算およびメモリからのロード，ストアは逐次的に行わ
ざるを得ず、演算器の並列性が生かしきれない。

従来のバタフライ演算器46を用いた方式では、高速フ
ーリエ変換の処理アルゴリズムによらず上記の欠点が存
在するため、必ずしも高速な処理が望めないという問題
点があった。

この発明は上記のような問題点を解消するためになさ
れたもので、高速に高速フーリエ変換を実行することが
できる並列データ処理装置を得ることを目的とする。

〔問題点を解決するための手段〕

この発明に係る並列データ処理装置は、加減算および
乗算機能を有する演算手段と記憶手段と与えられた命令
の実行を制御する実行制御手段とを夫々有するＮ×Ｎ
（Ｎは２のべき乗）の基本演算要素が、互いに隣接する
要素間でデータを転送するためのデータ転送ラインと外
部からのデータを要素間を順次経由して入力するととも
に外部にデータを出力するためのデータ入出力ラインと
要素の行単位あるいは列単位に同一の値を外部から与え
るためのブロードキャストラインとにより２次元格子状
に相互接続された演算アレイと、上記２次元格子状に接
続された各基本演算要素内に１つの処理対象データある
いは複数個の処理対象データを対応させ、これらのデー
タに対し行単位および列単位に順に２のべき乗だけ離れ
た要素間でデータを転送するとともに各々の要素内での
加減算，乗算を制御する制御手段とを備えたものであ
る。

また、この発明の別発明は、上記演算アレイと、上記
２次元格子状に接続された各基本演算要素内に１つの処
理対象データあるいは複数個の処理対象データを対応さ
せ、これらのデータに対し行単位および列単位に順に２
のべき乗だけ離れた要素間でデータを転送するとともに
各々の要素内での加減算，乗算を制御し、かつ上記演算
の終了後に各要素内のデータを所定の行単位および列単
位に入れ換え処理する制御手段とを備えたものである。

〔作用〕

この発明における並列データ処理装置では、高速フー
リエ変換におけるバタフライ演算で必要となるデータ
が、基本演算要素間で並列に転送され、各要素において
バタフライ演算が同時に並列して行えるため、従来のメ
モリアドレス計算，メモリ競合の問題を解消でき、高速
に高速フーリエ変換が実行できる。

また、この発明の別発明においては、上記演算後、所
定の行単位および列単位に入れ換え処理を繰り返すこと
により、高速フーリエ変換のビットリバース処理を実現
することができるので、更に、高速に高速フーリエ変換
が実行できる。

〔実施例〕

以下、この発明の一実施例を図について説明する。第
１図において、１はこの発明における並列データ処理装
置を構成する基本演算要素（以下PEと記す）、２はPE1
内のデータを格納する記憶手段としてメモリ、３は各PE
1において加算，減算，乗算を実行する演算手段として
のALU、４は各PE1内での演算命令等を修飾するための実
行制御手段としての制御フラグ、5,6,7,8は各々北，
東，西，南方向（図中上，右，左，下方向）に存在する
PE1とのデータ転送に使用するデータ転送ライン、9,10
は各々、後述する演算アレイの行単位，列単位に、外部
より送られ同一の値を各PE1に転送するためのブロード
キャストライン、11,12は外部から各PE1を順に経由して
データの入力を行う時、あるいは外部へ同様にしてデー
タを出力する時に使用するデータ入出力ラインである。

第２図は、本発明の一実施例であり、13aは第１図に
示したPE1を上記各ラインを介して２次元格子状に４×
４個すなわちＮ×Ｎ（Ｎは２のべき乗）個組み合わせた
場合の演算アレイ、13bは上記演算アレイ13aにおける各
PE1間のデータの転送および各PE1内での演算の実行を制
御するマイクロプロセッサ等からなる制御手段である。

以下、本発明における実施例の作用、動作の詳細な説
明を行う。簡単のため、256ポイントに対する高速フー
リエ変換を、16×16個すなわちＮ×Ｎ（Ｎは２のべき
乗）個のPEから構成される並列データ処理装置により実
行する場合を例にとって説明する。

なお、以下の説明のために使用する記号を定義する。

ここでは、により表わされる高速フーリエ変換を扱う。ｆ（ｉ）が
入力データ,F（ｉ）が出力データである。また、第５図
に16×16個のPEから構成される並列データ処理装置の表
記例18を示す。並列データ処理装置を構成するPEを各行
単位に、順に上から第０行，第１行，…，第15行と呼
び、各列単位に順に左から第０列，第１列，…，第15列
と呼ぶ。また、特定のPEを示す場合には、第ｉ行第ｊ列
のPEをPE（i,j）と呼ぶことにする。また第ｉ−ｊ行
（列）のPEという表現で第ｉ行（列）から第ｊ行（列）
までのPEを表わす。

まず並列データ処理装置へのデータ入力方法について
述べる。対象とするデータ数は256個であり、PEの数も2
56個であるため1PEに１個のデータを対応させる。具体
的には第６図19に示す様になる。すなわち、PE（0,0）
にｆ（０）を格納し、以下列方向に順に格納する。PE
（15,0）にｆ（15）が格納された後、第２列のPEに同様
に順に格納していく。以下同様であり、最後のｆ（25
5）はPE（15,15）に格納される。換言すると、PE（i,
j）に収められるデータはｆ（ｉ＋16j）である。逆に、
ｆ（χ）（χ＝〔χ_７χ_６χ_５χ_４χ_３χ_２χ
_１χ_０〕，〔〕は２進数表現を表わす）はｉ＝〔χ_３
χ_２χ_１χ_０〕,j＝〔χ_７χ_６χ_５χ_４〕なるPE（i,
j），すなわち第ｉ行第ｊ列のPEに格納される。

データの入力後、先に第４図の16ポイントの高速フー
リエ変換の列で示した様に各ステージごとにバタフライ
演算を行う。この第４図で示した様に、256ポイントの
高速フーリエ変換の第１ステージでは、各々128ポイン
ト離れたデータどうしのバタフライ演算を行えばよい。

今、第６図に示す様に各PEに入力されたデータで考え
る。すると、128ポイント離れた２つのデータは、各々
同一の行のPE内に存在し、かつ、その各々のPEはちょう
ど8PE分離れている。これはPE（i,j）内のデータがｆ
（ｉ＋16j）となる点からも明らかである。言い換えれ
ば、並列データ処理装置内の２次元データを第７列と第
８列の境目で左右に２分割し、その一方を片方の上に一
致する様にずらした時、各対応するデータがバタフライ
演算を行うデータのペアとなっている。そのため、第７
図（ｂ）に示す様に、データ20を並列データ処理装置21
上で西方向（図では左方向）へ8PE分移動し、並列デー
タ処理装置21の第０−７列のPEがその移動されたデータ
を取り込むことにより、これらのPE内に対応するデータ
どうしが格納されることになる。（なお、左半分のPEだ
けがデータを取り込める操作は、第１図PE（１）内の制
御フラグ４の制御による。）ここで述べたデータの移動
の具体的な処理結果を示すと第８図22となる。

第８図の結果を用いて、並列データ処理装置の第０〜
７列のPEだけでバタフライ演算を行えば第１ステージの
処理は終了する。ところが、これでは全PEの稼動率は1/
2となゐ、効率が悪い。そこで、次の様にする。

もともとバタフライ演算は２つの同一データの和と差
を求めるものであるため、この和を第０−７列のPEで、
差を残りの第８−15列のPEで同時に求めることにする。
そのため、まず、第８−15列のPEにも同一のデータを格
納する必要がある。第８−15列のPEには既にｆ（128）
〜ｆ（255）のデータが入力されているため、今度は第
０−７例の各PE内のデータを第８−15列のPEに移動す
る。これを第７図（ｃ）に示す。データ20を8PE分右方
向へシフトし、並列データ処理装置21の第８−15列のPE
だけが、制御プラグの制御のもとシフトされたデータを
取り込む。ここに述べたデータ移動の具体的な処理結果
を示すと第９図23となる。

以上の様に、並列データ処理装置内でデータのシフト
を終えた後は、並列データ処理装置の第０−７列のすべ
てのPEで加算を、第８−15列のすべてのPEで減算を同時
に行う。PEにより行う演算を制御するのは各PE内の制御
フラグによる。すなわち、各PEの存在する位置により、
加算か減算かを決定し制御フラグで操作する。

加算および減算の処理が終了した後は、バタフライ演
算の項で示した様に、減算した値に回転子をかけ合わせ
る処理が必要である。減算した値は、第８−15列のPEに
格納されているため、これらのPEに対応する回転子を入
力し、積を求める。

結果のデータの格納先は、ｆ（ｉ）とｆ（ｉ＋128）
（０＜ｉ＜127）のバタフライ演算では加算値がｆ
（ｉ），減算かつ回転子との乗算値がｆ（ｉ＋128）の
位置であるが、上記の方法では加算をｆ（ｉ）の位置の
PEで、減算かつ乗算をｆ（ｉ＋128）の位置のPEで行っ
ているため結果のデータを入れ換える必要はない。

さて、以上で第１ステージに対する処理は終了した。
次に、第２ステージの処理に移るわけであるが、同様の
手法に基づいて行うことができる。

すなわち第２ステージでは、256ポイントのデータを
前半と後半の128ポイントずつのブロックに分け、各ブ
ロック内では64ポイント離れたデータどうしでバタフラ
イ演算を行えばよい。並列データ処理装置内で考える
と、第０−３列のPEと第４−７列のPE,第８−11列のRE
と第12−15列のPEどうしで対応するPEがバタフライ演算
を行うデータのペアを保持している。今、第１ステージ
の処理前のデータ配置を第10図（ａ）で示す様に表わ
す。すなわち、斜線を施した部分が存在するPEと白ぬき
の部分に存在するPEどうしでデータの交換を行い、斜線
部で加算を白ぬき部で減算および乗算を行った。同様の
記述を用いると、第２ステージは第10図の（ｂ）に示す
ようになる。すなわち、並列データ処理装置を第０−７
列のPNと第８−15列のPEで夫々等分し、各ブロック内で
第１ステージと同様の処理を行えばよい。すなわち第０
−３列のPEと第４−７列のPE間でデータの交換を行い、
第０−３列のPEで加算，第４−７列のPEで減算および乗
算を行う。第８−11列のPEと第12−15列のPEとの間の処
理も同じである。

以下、第３ステージ，第４ステージでの処理も各々第
10図（ｃ），（ｄ）に示す様に並列データ処理装置内の
データを列方向に４分割,8分割し、各ブロック内で第１
ステージと同様の処理を施すことにより各ステージでの
バタフライ演算が行える。

さて、第４ステージの場合は、各ブロックが２列のPE
から成り立っており、この２列のPE内に存在するデータ
間でバタフライ演算が行われる。この時の２つのデータ
は16ポイント離れている。

この次の第５ステージを考えた場合、これ以上列単位
のブロック分割は行えない。バタフライ演算を行う２つ
のデータは８ポイント離れていることになる。すなわ
ち、第６図からもわかる様に、第５ステージ以降のバタ
フライ演算を考えた場合、対応するデータどうしは、今
度は行方向に２分割,4分割して対応していく。例えば第
５ステージの対応を先の第10図の要領で表わせば第11図
（ａ）となる。

すなわち、第７図と同様に、第12図で示す様にデータ
24を並列データ処理装置25上で北方向（図中上方向）へ
転送し、第０−７行のPEでデータを取り込み、次にデー
タ24を南方向（図中下方向）へ転送し、第８−15行のPE
でデータを取り込むことによりバタフライ演算を行うべ
きデータが各PEにそろえられる。今、第４ステージの処
理が終了した各データをｆ′（ｉ）（０＜ｉ＜255）で
表わすと、第12図（ａ）の処理後の各PE内データは第13
図26、第12図（ｂ）の処理後の各PE内のデータは、第14
図27となる。この後、第０−７行のPEで加算を，第８−
15行のPEで減算および乗算を行うことにより第５ステー
ジの処理は終了する。

以下、第６ステージ，第７ステージ，第８ステージは
各々第２ステージ，第３ステージ，第４ステージの列方
向に行っていた処理を行方向に変更しただけで、まった
く同様の処理を行えばよい。これらを第10図（ｂ），
（ｃ），（ｄ）と同じく、各々、第11図（ｂ），
（ｃ），（ｄ）に示す。最後の第８ステージ，すなわち
第11図（_ｄ）は１ポイントだけ離れたデータどうしのバ
タフライ演算であり、この処理により全バタフライ演算
は終了する。

さて、これまでに示した第１ステージ〜第８ステージ
の処理により、高速フーリエ変換におけるバタフライ演
算は終了するが、第４図の16ポイントの高速フーリエ変
換の例で示した様に、得られる値Ｆ（ｉ）はｉに対して
昇べきの順ではなく、ｉを後に述べるビットリバース処
理した順に並んでいる。そのため、次には、この順序を
並べ変える操作が必要となる。この処理は、外部のメモ
リ上で行うこともできるが、データの数だけの処理時間
がかかるため、この並列データ処理装置上で行うことに
する。

まずは、このビットリバース処理を第４図と同様に16
ポイントのビットリバース処理を用いて説明する。

第15図を用いる。今、ｆ（０）からｆ（15）までの16
個の値が与えられたとする。これらの値の各インデック
ス値０〜15を２進数で表わす。これを〔a₃a₂a₁a₀〕（以
後、文章中，図中において〔χ〕はχが２進数表現であ
ることを示す〕とすると、この各ビットを〔a₀a₁a₂a₃〕
と、前後で全体を入れ換えることをビットリバースと呼
ぶ。一般には、〔b_nb_n-1…b₁b₀〕を〔b₀b₁…b_n-1b_n〕と
変換する処理を示す。

ビットリバース処理とは、先に述べた16ポイントの例
ではｆ（０）からｆ（15）の値を各インデックス値のビ
ットリバースした値をインデックスとするｆの値と入れ
換えることである。ｆ（０）からｆ（15）に対してビッ
トリバース処理を施した例を第15図28に示す。

ある値にビットリバース処理したものにもう１度ビッ
トリバース処理を行うと、もとの値に戻る。すなわち、
第15図においてビットリバース処理が施された値をもと
として、もう１度ビットリバース処理を行うともとのｆ
（０）〜ｆ（15）に戻る。すなわち、先に示したバタフ
ライ演算の結果、各PE内にはデータがビットリバース処
理を施した順に格納されているため、ここにビットリバ
ース処理を施すことにより、もとの昇順に戻ることにな
る。

第16図29にバタフライ演算後の各PE内に存在するｆ
（ｊ）の値を示す。各々、最初のサンプルデータｆ
（ｉ）をｉについてビットリバースした値ｊをインデッ
クスとした値となっている。

さて、第16図29バタフライ演算の結果を昇順に並べ直
すわけであるが、ここでは、もとの第６図19に示す列方
向に昇順ではなく、第17図30に示す行方向に昇順となる
様に並べ直すものとする。すなわち、第６図19ではPE
（i,j）にｆ（ｉ＋16j）が格納されていたが、出力時に
は、第17図30に示す様にＦ（16i＋ｊ）が格納されてい
ればよい。換言すると、入力時の第６図19では、ｆ
（χ）（χ＝〔χ_７χ_６χ_５χ_４χ_３χ_２χ
_１χ_０〕）はｉ＝〔χ_３χ_２χ_１χ_０〕,j＝〔χ_７χ_６
χ_５χ_４〕なるPE（i,j），すなわち第ｉ行第ｊ列のPE
に格納されたが、出力時の第17図30では、Ｆ（χ）
（χ＝〔χ_７χ_６χ_５χ_４χ_３χ_２χ_１χ_０〕）はPE
（i,j）に格納すればよいことになる（行列で言えば入
力データのインデックス値の転置行列したものが出力デ
ータのインデックス値となる）。

次に、このビットリバース処理の説明を行う。第18図
を使用する。最初に、各PEは第６図19に示した列方向の
順にデータを格納している。この後、バタフライ演算に
よるビットリバース処理のためデータがどのように移動
するかを考察する。インデックスが〔a₇a₆a₅a₄a₃a₂a
₁a₀〕であるポイントＡに着目する。1PEに１つのデータ
が格納され、PEが縦に16個、横に16個ずつ存在する並列
データ処理装置のため、ポイントＡが〔a₇a₆a₅a₄a₃a₂a₁
a₀〕で表わされるならば、Ａを含む１行のPE32には、そ
のインデックスの２進数表示による下位４ビットが〔a₂
a₁a₀〕であるデータが格納されている。言い換えると、
“x"を０か１の値をとる任意の値として、Ａを含む１行
のPE32には、そのインデックスが〔xxxxa₃a₂a₁a₀〕であ
る値が格納されている。この１行のラインの値のビット
リバース処理を施すと〔a₀a₁a₂a₃xxxx〕となり、第18図
33に示すライン33になる。つまり、１行のラインはビッ
トリバース処理により１例のラインに変換される。さ
て、先に、そのインデックスが、〔χ_７χ_６χ_５χ_４χ
_３χ_２χ_１χ_０〕である値は、出力時には、ｉ＝〔χ_７
χ_６χ_５χ_４〕,j＝〔χ_２χ_３χ_４χ_０〕なるPE（i,
j）に格納すればよかった。すると、Ａを含む１行のPE3
2はそのインデックスが〔xxxxa₃a₂a₁a₀〕のため、最終
的にはｊ＝〔a₃a₂a₁a₀〕なるPE（i,j），すなわち第〔a
₃a₂a₁a₀〕列のPE34に格納されればよい。

上記のビットリバース処理ではＡを含む１行のPE32は
〔a₀a₁a₂a₃xxxx〕，すなわち、第〔a₀a₁a₂a₃〕列のPE33
に移された。よって、第〔a₀a₁a₂a₃〕列のPE33を第〔a₃
a₂a₁a₀〕列のPEに移動する処理が必要となる。

ところで、第〔a₃a₂a₁a₀〕列のPEの値も同じ理由から
第〔a₀a₁a₂a₃〕のPEに移動することになる。

これらをまとめると、第〔a₃a₂a₁a₀〕列のPEと第〔a₀
a₁a₂a₃〕列のPEを入れ換えればよいことになる。この列
の入れ換えは次の手順で行う。

第〔a₃a₂a₁a₀〕列のPEと第〔a₀a₂a₁a₃〕列のPEを入れ
換える。

第〔a₀a₂a₁a₃〕列のPEと第〔a₀a₁a₂a₃〕列のPEを入れ
換える。

すなわち、まず最上位ビットと最下位ビットを交換し
た列との入れ換えを行い、次に最上位から２ビット目と
最下位から２ビット目を交換した列との入れ換えを行
う。もし、よりビット数が長い場合には同様の処理を中
央のビットまで行う。

さて、の処理の具体的手法を説明する。〔a₃a₂a
₁a₀〕と〔a₀a₂a₁a₃〕は、そのa₀とa₃の値により、第19
図に示す様になる。つまり、a₀＝a₃＝0,1の時は同じ値
を示すので入れ換えの必要はない。a₀＝0,a₃＝１（a₀＝
1,a₃＝０）の場合は、各々の列が７の差を持つので、7P
E列分離れたPEを入れ換えることになる。具体的な〔a₃a
₂a₁a₀〕の値で示すと第20図となる。

この処理は、並列データ処理装置上で容易に実現でき
る。すなわち、第21図（ｂ）に示す様にデータ35を並列
データ処理装置上36で、7PE分右方向へシフトし該当す
る各PE（第８列，第10列，第12列，第14列）がそのデー
タをとりこむ。次に逆方向へ7PE分データ35をシフト
し、該当する各PE（第１列，第３列，第５列，第７列）
でデータをとりこむ。これにより7PE列離れたPE間での
入れ換えが終了する。

次にの処理について説明する。この処理もとまっ
たく同様に行える。すなわち第〔a₀a₂a₁a₃〕列と第〔a₀
a₁a₂a₃〕列の入れ換えは、と同じ考え方で、a₁＝0,a₂
＝１（a₁＝1,a₂＝０）の場合のみ2PE列分離れたPEと入
れ換えを行えばよい。第20図と同様に第22図に示す。並
列データ処理装置上での処理も、同様に、第21図
（ｄ），（ｅ）に示すように2PE列分ずらして行う。

以上示した処理を行うことにより、列方向のビットリ
バース処理は終了する。

ところで、この列方向のデータの入れ換えを行った
時、行方向について調べてみると、同一行の値は必ず同
一行に移動している。つまり、列方向の入れ換えの際に
は、行方向に関しては何な影響も及ぼしていない。これ
は、行方向の入れ換えについても同じことが言える。す
なわち、行方向のPE間のデータ入れ換えと列方向のPE間
のデータ入れ換えは、まったく独立に行うことができ
る。よって、列方向のビットリバース処理後、行方向の
ビットリバース処理を行えば全体のビットリバース処理
が行える。

行方向のビットリバース処理については、行と列が異
なるだけで列方向のビットリバース処理とまったく同じ
である。そのため、第21図と同様に、第23図に示す様に
7PE行だけ該当する行のPE内データを入れ換え（第23図
（ａ）（ｂ）、2PE行だけ該当する行のPE内データを入
れ換えればよい（第23図（ｃ）（ｄ））。

本発明における各PE内のインデックス値の変遷を16×
16個から成るPEの例で示す。第24図に256個のデータを
入力した時点のインデックスを示す。

このデータにバタフライ演算を施すことにより、第25
図に示すビットリバースのデータが各PEに格納される。
その後、ビットリバース処理を施すことにより第26図が
得られる。

以上は、256ポイントのデータのビットリバース処理
を、16×16PEから成る並列データ処理装置で行う場合を
例示したが、これは一般のビットリバース処理について
もあてはまる。

今、2²ⁱポイントのデータのビットリバース処理を2ⁱ
×2ⁱPEから成る並列データ処理装置で行う場合を示す。
先の例と同様に、任意の行のデータのインデックスを
〔xxx…xa_i-1a_i-2…a₀〕と表わすと、そのビットリバー
ス処理後は〔a₀…a_i-2a_i-1x…xxx〕で表わされる列のデ
ータに移される。この列が格納されるべき列のインデッ
クスは〔a_i-2a_i-1…a₀x…xxx〕である。また、逆に〔a
_i-1a_i-1…a₀xx…xxx〕の例も〔a₀…a_i-2a_i-1xx…ｘ〕の
列に移動される。すなわち第〔a_i-1a_i-2…a₀〕列と第
〔a₀…a_i-2a_i-1〕列を入れ換える処理が要る。このため
には順に第〔a_i-1a_i-2…a₀〕列と第〔a₀a_i-2…a₁a_i-1〕列とを
入れ換える。

第〔a₀ a_i-2…a₁ a_i-1〕列を第〔a₀a₁a_i-3…a₂a_i-2a
_i-1〕列とを入れ換える。

以下同様と、順に上位ビットと下位ビットを交換した列の入れ換
えを行えばよい。この時、最下位ビットを第０ビット目
として、最下位から第ｍビット目と第ｎビット目を交換
した列の入れ換えは、その第ビット目と第ｎビット目が
どちらも０あるいはどちらも１でない値の列について2^m
−2ⁿ（ｍ＞ｎ）だけ離れた列間で入れ換えを行えばよ
い。列方向について、i/2回（ｉが奇数の時は（ｉ−
１）/2回）の列間の入れ換えにより列方向の処理は終了
する。行方向についてもまったく同様に扱える。すなわ
ち、これにより一般のデータに対しても本発明における
ビットリバース処理が使用できることがわかった。

なお、上記実施例では、高速フーリエ変換を行うデー
タ数と並列データ処理装置のPE数が等しい場合を扱っ
た。しかしながら本発明における並列データ処理装置
は、必ずしもこの事を限定するものではない。つまり、
並列データ処理装置のPEよりも、処理対象であるデータ
数が少なくても，また多くても同様に扱うことができ
る。

並列データ処理装置のPE数よりもデータ数が少ない場
合には、本発明と同様に1PEに１データを対応させ、対
応しないPEは制御プラグにより演算を行わないことによ
り、本発明と同様に扱える。

並列データ処理装置のPE数よりもデータ数が多い場合
には、次に示す様に1PEに複数のデータを対応させる。
例として、４×４個のPEで64ポイントデータを扱う場合
を考察する。

第27図にこの例を示す。64ポイントをｆ（０）からｆ
（63）で表わす。16PEで64ポイントデータを扱うため、
1PEには４ポイントのデータを格納する。すなわち、全
体で４枚のデータプレーンが存在する。第27図（ａ）に
この４枚のプレーンを示す。第27図（ｂ）は４枚のプレ
ーンを広げたものであり、この広げたプレーン上、すな
わち仮想的な８×8PE上で本発明と同様に64ポイントの
データを格納する。このプレーンの左上42が第１プレー
ン，左下43が第２プレーン，右上44が第３プレーン，右
下45が第４プレーンに対応する。PE単位に眺めると、例
えば左上端のRE（0,0）には、ｆ（０）,f（４）,f（3
2）,f（36）の４個のデータが格納される。処理は各プ
レーンごとに本発明における方式を使用することによ
り、同様に扱うことができる。

〔発明の効果〕

以上のように、この発明によれば複数個の同一型の基
本演算要素（PE）を２次元格子状に相互に接続し、これ
らのPEを行単位あるいは列単位に同時に動作させ、並列
に転送，演算等のデータ処理を行うことにより、高速フ
ーリエ変換を高速に実行することができる並列のデータ
処理装置が得られるという効果がある。

また、この発明の別発明によれば、上記２次元アレイ
を用いて高速フーリエ変換のビットリバース処理も合わ
せて行うようにしたので、該変換を更に高速に実行する
ことができる並列データ処理装置が得られるという効果
がある。

【図面の簡単な説明】

第１図は、この発明の一実施例による基本演算要素（P
E）の内部構成図、第２図はこの発明の一実施例による
４×4PEから構成される並列データ処理装置例を示す
図、第３図は第４図の高速フーリエ変換例におけるバタ
フライ演算の記法図、第４図は16ポイント高速フーリエ
変換のアルゴリズム例を示す図、第５図は16×16PEから
成る並列データ処理装置を構成する各PEの表記法を示す
図、第６図は並列データ処理装置へのデータ入力方法を
示す図、第７図は並列データ処理装置上での列単位のデ
ータシフト法を示す図、第８図は第７図（ｂ）の処理後
の具体的なデータ配置を示す図、第９図は第７図（ｃ）
の処理後の具体的なデータを示す図、第10図は高速フー
リエ変換の第1,第2,第3,第４ステージ各々でのデータ分
割の方法を示す図、第11図は同じく第5,第6,第7,第８ス
テージ各々でのデータ分割の方法を示す図、第12図は並
列データ処理装置上での行単位データシフト法を示す
図、第13図は12図（ａ）の処理後の具体的なデータ配置
を示す図、第14図は第12図（ｂ）の処理後の具体的なデ
ータ配置を示す図、第15図はビットリバースの例を示す
図表、第16図は並列データ処理装置上のバタフライ演算
後のデータ配置を示す図、第17図は並列ダータ処理装置
上の出力時のデータ配置を示す図、第18図は行方向デー
タのビットリバース処理法を示す図、第19図はデータイ
ンデックスの値（a₀,a₃）による処理の相違を示す図
表、第20図は第19図の具体例を示す図表、第21図は並列
データ処理装置上でのビットリバース処理における列単
位のデータシフト方法を示す図、第22図はデータインデ
ックスの値（a₁,a₂）によるデータの入れ換えの具体例
を示す図表、第23図は並列データ処理装置上でのビット
リバース処理における行単位のデータシフト方法を示す
図、第24図は16×16PEから成る並列データ処理装置上で
の256個のデータの入力例を各データのインデックス値
で示した図、第25図は第24図の例においてバタフライ演
算が終了した後のデータのインデックスを示した図、第
26図は第25図のデータのビットリバース処理後のデータ
の並びを示した図、第27図は並列データ処理装置のPE数
よりもデータの数が多い場合の各PEへのデータ割付け方
法を示す図、第28図は従来の高速フーリエ変換における
バタフライ演算を行うための演算器の構成図である。１
は基本演算要素（PE）、２はメモリ（記憶手段）、３は
ALU（演算手段）、４は制御フラグ（実行制御手段）、
5,6,7,8はデータ転送ライン、9,10はブロードキャスト
ライン、11はデータ入力ライン、12はデータ出力ライ
ン、13aは演算アレイ、13bは制御手段。なお、図中、同一符号は同一、又は相当部分を示す。

Claims

(57)【特許請求の範囲】

【請求項１】２データの加算機能と該データの減速及び
乗算の機能とを有する演算手段，記憶手段，与えられた
命令の実行を制御する実行制御手段，を夫々有するＮ×
Ｎ（Ｎ＝2ⁿ）の基本演算要素が、互いに隣接する要素間
でデータを転送するためのデータ転送ラインと外部から
のデータを要素間を順次経由して入力するとともに外部
にデータを出力するためのデータ入出力ラインと要素の
行単位あるいは列単位に同一の値を外部から与えるため
のブロードキャストラインとにより２次元格子状に相互
接続された演算アレイと、上記Ｎ×Ｎの基本演算要素に
格納された２次元データを列（行）方向に均等にN/2づ
つにブロック分割し、その一方のデータブロックを他方
のデータブロックにまた他方のデータブロックを一方の
データブロックに一致するようにずらすバタフライ演算
をし、次に、上記演算によるデータを、さらに、列
（行）方向に順次N/4,N/8,・・・と分割して得たデータ
ブロックに対し同様にして合計n/2回のバタフライ演算
を行い、次いで、行（列）方向のデータブロックに対
し、上記列（行）方向におけるバタフライ演算の処理と
同様にして、バタフライ演算の処理をn/2回行うように
制御する制御手段とを備え、上記各演算を繰り返すことにより、所定のアルゴリズム
による高速フーリエ変換のバタフライ演算を並列に実行
することを特徴とする並列データ処理装置。
【請求項２】２データの加算機能と該データの減速及び
乗算の機能とを有する演算手段，記憶手段，与えられた
命令の実行を制御する実行制御手段，を夫々有するＮ×
Ｎ（Ｎ＝2ⁿ）の基本演算要素が、互いに隣接する要素間
でデータを転送するためのデータ転送ラインと外部から
のデータを要素間を順次経由して入力するとともに外部
にデータを出力するためのデータ入出力ラインと要素の
行単位あるいは列単位に同一の値を外部から与えるため
のブロードキャストラインとにより２次元格子状に相互
接続された演算アレイと、上記Ｎ×Ｎの基本演算要素に
格納された２次元データを列（行）方向に均等にN/2づ
つにブロック分割し、その一方のデータブロックを他方
のデータブロックにまた他方のデータブロックを一方の
データブロックに一致するようにずらすバタフライ演算
をし、次に、上記演算によるデータを、さらに、列
（行）方向に順次N/4,N/8,・・・と分割して得たデータ
ブロックに対し同様にして合計n/2回のバタフライ演算
を行い、次いで、行（列）方向のデータブロックに対
し、上記列（行）方向におけるバタフライ演算の処理と
同様にして、バタフライ演算の処理をn/2回行うように
制御し、かつ、上記各演算の終了後に、任意の行（列）
のインデックスを（a₀ xxxa_i xxa_n-i-1 xxxa_n-1）とす
ると、その内部にある全データを、行（列）のインデッ
クスが（a₀ xxxa_n-i-1 xxa_i xxxa_n-1）である行（列）
内の全データと入れ換える処理を、ｉがＯからまで繰り返し行う制御手段とを備え、上記各演算を繰り返すことにより、所定のアルゴリズ
ムによる高速フーリエ変換のバタフライ演算を並列に実
行するとともに、上記入れ換え処理を繰り返すことによ
り、高速フーリエ変換のビットリバース処理を実現する
ことを特徴とする並列データ処理装置。