JP5353709B2

JP5353709B2 - シストリックアレイ及び演算方法

Info

Publication number: JP5353709B2
Application number: JP2009542599A
Authority: JP
Inventors: 克敏関
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-11-22
Filing date: 2008-11-21
Publication date: 2013-11-27
Anticipated expiration: 2028-11-21
Also published as: US20100250640A1; JPWO2009066760A1; EP2224347A1; US8589467B2; WO2009066760A1

Description

［関連出願の記載］
本発明は、日本国特許出願：特願２００７−３０２５３６号（２００７年１１月２２日出願）の優先権主張に基づくものであり、同出願の全記載内容は引用をもって本書に組み込み記載されているものとする。
本発明は、シストリックアレイに関し、特に、ＣＯＲＤＩＣ（ＣｏｏｒｄｉｎａｔｅＲｏｔａｔｉｏｎＤｉｇｉｔａｌＣｏｍｐｕｔｅｒ）回路を用いて複素行列演算を実現する複素行列演算シストリックアレイ及び演算方法に関する。

行列演算は、無線通信、有線通信、画像処理において幅広く利用されている。近年、無線・有線通信速度向上に対応するため、効率的に並列演算が可能なシストリックアレイが着目されている。

シストリックアレイは、複数のプロセッシングセルを１次元又は２次元に配置し、プロセッシングセルでのデータのやり取りは、隣接プロセッシングセル間でのみ行うものである。また、シストリックアレイは、その規則性と配線容易性のため、ＶＬＳＩ等への集積化に適している。シストリックアレイは、行列演算の種類（行列積、ＱＲ分解、最小２乗解法等）により、最適トポロジーが異なる。例えば、ＱＲ分解には、三角構成が最適であり、行列積には四角構成が最適である。複数種類の行列演算を実現する場合、単一アルゴリズムを実現するシストリックアレイを用意しておき、各行列演算を単一アルゴリズムにマッピングすることが提案されている。この手法は、各行列演算に対して必ずしも最適な実現手段ではないが、その汎用性に利点がある。

複数の行列演算が可能なアルゴリズムとして、ＭｏｄｉｆｉｅｄＦａｄｄｅｅｖａＡｌｇｏｒｉｔｈｍ（「ＭＦＡ」と略記される）が知られている。ＭＦＡは、式（１）に示すように、２ステップの処理を行う。

・・・（１）

第１ステップでは、行列のＡに対して、Ｇｉｖｅｎｓ回転を用いて、ＱＲ分解（すなわち、Ａ＝ＱＲ、ただし、Ｑはユニタリ行列）を行う。Ｇｉｖｅｎｓ回転は、同様に、Ｂにも適用する。この処理は、行列Ａ、Ｂに対して、左から、Ｑ^Ｔを掛けることに相当する。すなわち、［ＡＢ］＝［ＱＲＢ］に対して、左から、Ｑ^Ｔ（^Ｔはエルミート転置）を乗じると、Ｑ^ＴＱ＝Ｉ（単位行列）より、［Ｑ^ＴＱＲＱ^ＴＢ］＝［ＲＱ^ＴＢ］となり、式（１）の真中の式が得られる。第２ステップでは、三角行列Ｒの対角成分を枢軸（ｐｉｖｏｔ）として、ガウス消去法でＣを消去する。このとき、行列Ｅは、式（２）で表される。

・・・（２）

ＭＦＡは、Ａ、Ｂ、Ｃ、Ｄに代入する行列を変更することにより、以下に示すような、様々な行列演算を実現することができる。また、第１ステップだけ実行した場合、ＱＲ分解を実現できる。

線形システム解（ＡＸ＝Ｂ）：

行列積：

逆行列：

図８（Ａ）と図８（Ｂ）に、実数ＭＦＡ演算をシストリックアレイで実現する場合のシグナルフローグラフを示す。

図８（Ａ）の三角シストリックアレイでは、ステップ１として、上三角行列Ｒを求める。図８（Ａ）に示すように、Ｇｉｖｅｎｓ回転の回転パラメータは、右に伝播し、四角シストリックアレイで、Ｑ^ＴＢを計算する。

ステップ２では、図８（Ｂ）に示すように、三角シストリックアレイと四角シストリックアレイのそれぞれに、Ｃ、Ｄを入力する。この時、水平方向に
−Ｒ^−ＴＣ^Ｔ
が伝播し、四角シストリックアレイの下辺から
Ｅ＝Ｄ＋ＣＡ^−１Ｂが出力される。

図９は、行列のサイズが、Ａ（２ｘ２），Ｂ（２ｘ２），Ｃ（２ｘ２），Ｄ（２ｘ２）、行列の要素が全て実数の場合における、実数ＭＦＡシストリックアレイ４００１の構成を示したものである。本従来技術の詳細は、非特許文献１に開示されている。尚、本明細書では、“Ａ（ｍｘｎ）”は、行列Ａがｍ行×ｎ列であることを表す。他の行列も同様である。図９において、ａ_ｉｊは行列Ａの第ｉ行第ｊ列成分を表している。他の行列も同様である。

図９を参照すると、実数ＭＦＡシストリックアレイ４００１は、三角シストリックアレイ１０００と、四角シストリックアレイ２０００を組み合わせた台形状のシストリックアレイであり、境界セル１０１と内部セル２０１を備えている。

境界セル１０１は、三角シストリックアレイ１０００の対角位置に配置される。

図９において、ｘｉｎおよびｘｏｕｔは、それぞれ、各セルの上方からの入力、下方への出力である。

ｓ、ｃ、ｄは、境界セル１０１から水平方向に内部セル２０１へ伝播されるパラメータである。

境界セル１０１、内部セル２０１、ｘｉｎおよびｘｏｕｔに対する下添え字は、セルの位置インデックスであり、ｘｉｎ_１１は、第１行第１列のセルの入力、ｘｉｎ_１２は、第１行第２列のセルの入力等、（ｉｊ）は、第ｉ行第ｊ列のセルを意味している。但し、台形アレイのため下添え字（２，１）のセルは存在しない。

また、パラメータｓ_ｉ、ｃ_ｉ、ｄ_ｉは、ｉ行目の境界セル１０１から出力されたパラメータであることを意味している。

実数ＭＦＡシストリックアレイ４００１は、２ステップでＭＦＡ処理を実現する。

ステップ１では、行列Ａ、Ｂが、それぞれ三角シストリックアレイ１０００と四角シストリックアレイ２０００の上辺に入力される。

ステップ２では、行列Ｃ、Ｄが三角シストリックアレイ１０００と四角シストリックアレイ２０００の上辺に入力される。

またステップ２では、角シストリックアレイ２０００の下辺から行列Ｅが出力される。尚、図９に示すように、入出力データは、遅延（スキュー）を調整する必要がある。図９の入力ｘｉｎ_１２、ｘｉｎ_１３、ｘｉｎ_１４、および、出力ｘｏｕｔ_２３、ｘｏｕｔ_２４のそれぞれにおける記号（■）は遅延（単位遅延）を表している。

図１０に境界セル１０１と内部セル２０１のステップ１、２における演算処理を示す。図１０において、ｒは、セル内部に保存される変数であり、初期値は０である。

実数ＭＦＡシストリックアレイ４００１は、セルの種類毎およびステップ毎に処理が異なる。

このため、各セルを汎用プロセッサで実現し、図１０に示す処理をそのまま演算すると、セルの種類毎およびステップ毎で処理遅延（処理負荷）が異なるため、セル間の同期をとるための制御回路が複雑となり回路規模が増大する。

また、同期制御回路を簡略化するため、各セル内の処理遅延を一定にすると（最大処理遅延に合わせると）、セル内部のプロセッサの動作率が低下し効率が悪い。

また、乗算器、除算器、平方根器などの専用演算回路を組み合わせてセルを実現した場合も、一方のステップでしか動作しない専用演算回路があるため、演算回路の動作率が低下し効率が悪い。

この問題を解決するため、各セルの処理を、ＣＯＲＤＩＣ回路１個で実現したＭＦＡシストリックアレイが、非特許文献２に開示されている。

図１１は、行列のサイズが、Ａ（２ｘ２），Ｂ（２ｘ２），Ｃ（２ｘ２），Ｄ（２ｘ２）、行列の要素が全て実数の場合における、非特許文献２に開示されている実数ＭＦＡシストリックアレイの構成を示したものである。

実数ＭＦＡシストリックアレイ４００１は、回転パラメータｓ，ｃの代わりに、角度θが水平方向に伝播すること以外は、非特許文献１のものと同一である。

図１２に、図１１の実数ＭＦＡシストリックアレイ４００１の境界セル１０１、内部セル２０１のステップ１、２における演算処理を示す。

まず、ステップ１時の動作を説明する。境界セル１０１は、上方からの入力ｘｉｎを受け、ＣＯＲＤＩＣアルゴリズムを用いてベクトル［ｒｘｉｎ］^ｔのノルムｔとベクトル角θを計算する。

内部変数ｒは、ノルムｔで更新され、ベクトル角θは、右に伝播し、同一行の内部セル２０１へ供給される。

内部セル２０１では、上方からの入力ｘｉｎと左方からのベクトル角θを受け、ＣＯＲＤＩＣアルゴリズムを用いて、
ｘｏｕｔ＝ｃｏｓθ・ｘｉｎ−ｓｉｎθ・ｒ，
ｒ＝ｓｉｎθ・ｘｉｎ＋ｃｏｓθ・ｒ・・・（３）
で表されるベクトル回転処理を行い、出力ｘｏｕｔと内部変数ｒを計算する。

内部セル２０１では、出力ｘｏｕｔは、下行のセルに供給する。

また、内部セル２０１において、左側セルから供給されたベクトル回転角度θは、そのまま右側の内部セル２０１に伝播される。

次にステップ２時の動作を説明する。

境界セル１０１は、上方からの入力ｘｉｎを受け、ＣＯＲＤＩＣアルゴリズムを用いて除算
ｄ＝ｘｉｎ／ｒ・・・（４）
を求める。

除算結果ｄは水、平方向に伝播され、同一行の内部セル２０１に供給される。

また、内部セル２０１では、ＣＯＲＤＩＣアルゴリズムを用いて積和演算
ｘｏｕｔ＝ｘｉｎ−ｄ・ｒ・・・（５）
を行う。

内部セル２０１において、出力ｘｏｕｔは、下行のセルに供給する。但し、下辺の内部セル２０１の出力ｘｏｕｔは、ＭＦＡ演算結果行列Ｅの成分として、ＭＦＡシストリックアレイ４００１外部に出力される。

ステップ１における境界セル１０１、内部セル２０１の処理は、それぞれベクトル角度算出処理、ベクトル回転処理に対応する。

ステップ２における境界セル１０１、内部セル２０１の処理は、それぞれ除算処理、積和処理に対応する。

これらの処理は、ＣＯＲＤＩＣアルゴリズムにより同一遅延で実現できることが知られている。

従って、非特許文献２に開示されている実数ＭＦＡシストリックアレイ４００１は、各セルの処理遅延がセルの種類およびステップに依らず一定であり、セル間の接続関係が固定であるため、セル間同期制御回路が不要になる。

また、セル内の演算回路であるＣＯＲＤＩＣ回路が常に動作しているため効率が良い。

Ｊ．Ｇ．Ｎａｓｈ， "ＭｏｄｉｆｉｅｄＦａｄｄｅｅｖａａｌｇｏｒｉｔｈｍｆｏｒｃｏｎｃｕｒｒｅｎｔｅｘｅｃｕｔｉｏｎｏｆｌｉｎｅａｒａｌｇｅｂｒａｉｃｏｐｅｒａｔｉｏｎｓ"，ＩＥＥＥＴｒａｎｓ．Ｃｏｍｐｕｔｅｒｓ，ｖｏｌ．３７，Ｎｏ２，ｐｐ１２９−１３７（１９８８）Ｍ．Ｏｔｔｅ，Ｊ．Ｇｏｔｚｅ，Ｍ．Ｂｕｃｋｅｒ， "Ｍａｔｒｉｘｂａｓｅｄｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｏｎａｒｅｃｏｎｆｉｇｕｒａｂｌｅｈａｒｄｗａｒｅａｃｃｅｌｅｒａｔｏｒ"，ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＷｏｒｋｓｈｏｐ，２００２ａｎｄｔｈｅ２ｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＥｄｕｃａｔｉｏｎＷｏｒｋｓｈｏｐ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２００２ＩＥＥＥ，１３−１６Ｏｃｔ．２００２Ｐａｇｅ（ｓ）：３５０ − ３５５

上記非特許文献１、非特許文献２の各開示は、引用をもって本書に組み込まれる。以下の分析は本発明によって与えられる。

非特許文献２に開示されたＭＦＡシストリックアレイにおいては、入力行列が実数である必要があり、無線信号処理や画像信号処理で多用される複素行列演算に対応できない。

なお、非特許文献２では、複素行列演算を実数行列演算に分解する手法について記載されているが、この手法は、ＣＯＲＤＩＣが規模が増大する。

本発明は上記課題に鑑みて発明されたものであって、その目的は、各セルが同一演算回路で実現され、該演算回路の動作率が高く、前記演算回路の処理遅延がセルの種類およびステップに依らず一定のシストリックアレイ及び演算方法を提供することにある。

本発明の他の目的は、同期制御回路が不要なシストリックアレイ及び演算方法を提供することにある。

本発明の他の目的は、複素行列演算アルゴリズムを実現できるシストリックアレイ及び演算方法を提供することにある。

上記課題を解決する本発明は、概略以下の構成とされる。

本発明において、シストリックアレイは、三角シストリックアレイと四角シストリックアレイを組み合わせた台形シストリックアレイの下辺に、線形シストリックアレイを付加したものであって、セル間の接続が固定になるように、台形シストリックアレイの各行から下行に出力される中間結果を、複素ＭＦＡアルゴリズムの中間結果に対して位相をずらしたものとし、該位相のずれを次行で吸収させ、台形シストリックアレイの最終行から出力される中間結果の位相ずれを線形シストリックアレイで補正する。

本発明において、前記台形シストリックアレイの２行目以降の各行は、それぞれ、前行から供給される、前記位相がずれたＭＦＡ中間処理結果の第１成分と位相ずれパラメータとを受け、第１、第２のベクトル回転パラメータと、積和演算係数と、位相ずれパラメータを生成する境界処理部と、
前記位相がずれたＭＦＡ中間処理結果の第１成分以外の成分と、前記第１と第２のベクトル回転パラメータと、前記積和演算係数とを受け、前記位相がずれたＭＦＡ中間処理結果を、次行に供給する複数の内部処理部と、
を具備する。

本発明において、前記境界処理部と前記内部処理部が、それぞれ、複数のプロセッシングセルから構成されるスーパーセルである。

本発明において、前記プロセッシングセルが、ベクトル角度算出、ベクトル回転、除算、積和演算を一定遅延で処理するＣＯＲＤＩＣ回路を備え、
前記プロセッシングセル間の接続関係が固定されている。

本発明において、前記境界処理部が、第１、第２の境界プロセッシングセルを備え、
第１のステップにおいて、
前記第１の境界プロセッシングセルは、
前行の前記内部処理部からの入力信号を基に、
前記入力信号のノルムと、前記入力信号の実数部と虚数部を要素とするベクトルのベクトル角を生成し、
前記ベクトル角を前記第１のベクトル回転パラメータとして同一行内の内部処理部に供給し、
前記第２の境界プロセッシングセルは、
内部変数と前記入力信号のノルムを要素とするベクトルのノルムとベクトル角を生成し、前記ベクトル角を前記第２のベクトル回転パラメータとして、同一行内の内部処理部に供給し、前記ベクトルノルムで内部変数を更新し、
第２のステップでは、
前記第１の境界プロセッシングセルは、
前行の前記内部処理部からの入力信号を基に、
前記入力信号のノルムと、前記入力信号の実数部と虚数部を要素とするベクトルのベクトル角を生成し、
前記ベクトル角を前記第１のベクトル回転パラメータとして同一行内の内部処理部に供給し、更に、
前記第１のベクトル回転パラメータに、前行から供給される位相ずれパラメータを加算したもの（ただし、第１行の第１の境界プロセッシングセルでは、前行から供給される位相ずれパラメータは０）を、次行に供給し、
前記第２の境界プロセッシングセルは、前記入力信号のノルムを内部変数で除算し、前記除算結果を、前記積和演算係数として、同一行内の内部処理部に供給する。

本発明において、前記内部処理部が、第１乃至第３の内部プロセッシングセルを備え、
第１のステップにおいて、
前記第１の内部プロセッシングセルは、
前行の前記内部処理部からの入力信号を前記第１のベクトル回転パラメータ分だけ位相回転を行い、位相回転入力信号を生成し、
前記第２の内部プロセッシングセルは、
前記位相回転入力信号の実数部と内部変数の実数部を要素とするベクトルを、前記第２のベクトル回転パラメータ分だけ回転したベクトルの第１の要素を、内部変数の実数部として更新し、第２の要素を次行に供給し、
前記第３の内部プロセッシングセルは、
前記位相回転入力信号の虚数部と内部変数の虚数部を要素とするベクトルを、前記第２のベクトル回転パラメータ分だけ回転したベクトルの第１の要素を、内部変数の虚数部として更新し、第２の要素を次行に供給し、
第２のステップにおいて、
前記第１の内部プロセッシングセルは、
前行の前記内部処理部からの入力信号を前記第１のベクトル回転パラメータ分だけ位相回転を行い、位相回転入力信号を生成し、
前記第２の内部プロセッシングセルは、前記位相回転入力信号の実数部に内部変数の実数部と前記積和演算係数の積を加算したものを次行に供給し、
前記第３の内部プロセッシングセルは、前記位相回転入力信号の虚数部に内部変数の虚数部と前記積和演算係数の積を加算したものを次行に供給する。

本発明において、前記三角シストリックアレイの一辺と前記四角シストリックアレイの一辺とを併せたものが、前記台形シストリックアレイの互いに対向する平行の２辺のうちの長辺をなし、
前記四角シストリックアレイの前記一辺と対向する他の辺が、前記台形シストリックアレイの短辺をなし、
前記台形シストリックアレイは、前記長辺を上底とし前記短辺を下底とし、
前記線形シストリックアレイは、前記台形シストリックアレイの前記下底に対向して配置され、
前記台形シストリックアレイは、前記上底側から入力を受け、前記台形シストリックアレイの下底側に位置する前記線形シストリックアレイから出力が出力され、
前記境界処理部は、前記三角シストリックアレイの斜辺に配置され、
前記内部処理部は、前記三角シストリックアレイの斜辺以外の行と列、及び、前記四角シストリックアレイの行と列に配置される。

本発明において、前記境界処理部が、前記第１、第２の境界プロセッシングセル（境界Φセルと境界θセル）を備え、
第１のステップにおいて、
上方からの入力ｘｉｎが前記第１の境界プロセッシングセルに供給され、前記第１の境界プロセッシングセル（境界Φセル）は、入力ｘｉｎの実数部と虚数部を要素とするベクトル（ｒｅａｌ（ｘｉｎ），ｉｍａｇ（ｘｉｎ））のノルム｜ｘｉｎ｜とそのベクトル角Φ（＝ａｒｃｔａｎ（ｉｍａｇ（ｘｉｎ）／ｒｅａｌ（ｘｉｎ）））を計算し、前記入力のノルム｜ｘｉｎ｜を前記第２の境界プロセッシングセルへ供給し、前記ベクトル角Φを、同一行の隣りの内部処理部へ供給し、
前記第２の境界プロセッシングセル（境界θセル）は、前記第１の境界プロセッシングセル（境界Φセル）から前記入力信号のノルム｜ｘｉｎ｜を受け、内部変数ｒと｜ｘｉｎ｜を要素とするベクトル（ｒ、｜ｘｉｎ｜）のノルムｔとそのベクトル角θ（＝＝ａｒｃｔａｎ（｜ｘｉｎ｜／ｒ）を計算し、内部変数ｒをノルムｔで更新し（ｒ＝ｔ）、前記ベクトル角θを同一行の隣りの内部処理部へ供給し、
第２のステップにおいて、
上方からの入力ｘｉｎが前記第１の境界プロセッシングセル（境界Φセル）に供給され、２行目以降の前記境界処理部の前記第１の境界プロセッシングセルには、斜上方の前記境界処理部から位相ずれパラメータΦｃが供給され、
前記第１の境界プロセッシングセル（境界Φセル）は、入力ｘｉｎの実数部と虚数部を要素とするベクトルのノルム｜ｘｉｎ｜とそのベクトル角Φを計算し、前記ノルム｜ｘｉｎ｜を前記第２の境界プロセッシングセルへ供給し、ベクトル角Φを、同一行の隣の内部処理部へ供給し、さらに、斜上方の前記境界処理部から入力された位相ずれパラメータΦｃにベクトル角Φを加算したもの（Φｃi-1＋Φ）を、新たな位相ずれパラメータ(Φｃｉ）として、斜下方の境界処理部の前記第１の境界プロセッシングセル又は前記線形シストリックアレイの終端セルに供給し、
前記第２の境界プロセッシングセルは、前記第１の境界プロセッシングセルからノルム｜ｘｉｎ｜を受け、除算ｄ＝｜ｘｉｎ｜／ｒを行い、除算結果ｄを積和演算係数として、同一行の隣の内部処理部へ供給する。

本発明において、前記内部処理部が、第１乃至第３の内部プロセッシングセルを備え、
第１のステップにおいて、
前記第１の内部プロセッシングセル（内部Φセル）には、上方からの入力ｘｉｎと、同一行の前記境界処理部側の隣のセルから伝播されたベクトル角Φが供給され、
前記第１の内部プロセッシングセル（内部Φセル）は、入力ｘｉｎの実数部と虚数部を要素とするベクトルをベクトル角度Φだけ回転させたベクトル（ｔｍｐ＝ｘｉｎ・exp(-ｉΦ)）をそれぞれ、第２、第３の内部プロセッシングセル（内部θセル）に供給し、
前記第１の内部プロセッシングセルは、同一行の前記境界処理部側の隣のセルから供給されたベクトル角Φをそのまま、同一行の前記境界処理部とは反対側の隣の内部処理部の第１の内部プロセッシングセルへ供給し、
前記第２、第３の内部プロセッシングセル（内部θセル）は、ベクトル（ｔｍｐ）、内部変数ｒ、前記ベクトル角θについて、
ｘｏｕｔ＝ｃｏｓθ・ｔｍｐ−ｓｉｎθ・ｒ，
ｒ＝ｓｉｎθ・ｔｍｐ＋ｃｏｓθ・ｒ
で表されるベクトル回転処理を行い、出力ｘｏｕｔと内部変数ｒを計算し、
第２のステップにおいて、
前記内部処理部の前記第１の内部プロセッシングセル（内部Φセル）には、上方からの入力ｘｉｎと、同一行の前記境界処理部側の隣のセルから伝播されたベクトル角Φが供給され、
前記第１の内部プロセッシングセル（内部Φセル）は、入力ｘｉｎの実数部と虚数部を要素とするベクトルをベクトル角度Φだけ回転させたベクトル（ｔｍｐ）を、それぞれ、前記第２、第３の内部プロセッシングセル（内部θセル）へ供給し、
前記第１の内部プロセッシングセルは、前記境界処理部側の隣のセルから供給されたベクトル角Φをそのまま、同一行の前記境界処理部とは反対側の隣の内部処理部の前記第１の内部プロセッシングセルへ供給し、
前記第２、第３の内部プロセッシングセル（内部θセル）は、ｘｏｕｔ＝ｔｍｐ−ｄ・ｒで表される積和演算処理を行い、出力ｘｏｕｔを計算し、
前記線形シストリックアレイの終端セルは、前記台形シストリックアレイの下底の内部処理部からの出力ｘｏｕｔを入力ｘｉｎとして受け、斜上方の境界処理部からの位相ずれパラメータΦｃを受け、入力ｘｉｎの実数部と虚数部を要素とするベクトルを角度Φｃだけ回転させたベクトルを計算して出力ｘｏｕtとして出力する。

本発明において、前記線形シストリックアレイは、前記台形シストリックアレイの最終行から供給される前記位相ずれパラメータに基づき、前記台形シストリックアレイの最終行の前記内部処理部からの入力信号に対し、位相回転を行う終端プロセッシングセルを複数備えている。

本発明によれば、上記した複素行列演算シストリックアレイを具備する通信システムが提供される。

本発明によれば、上記した複素行列演算シストリックアレイを具備する画像処理システムが提供される。

本発明によれば、セルの種類およびステップに依らず、全ての処理をＣＯＲＤＩＣ回路で実現しているため、ＣＯＲＤＩＣ回路の動作率が高く効率が良い。

本発明によれば、各セルがＣＯＲＤＩＣ回路で実現され、ＣＯＲＤＩＣ回路の処理遅延がセルの種類およびステップに依らず一定で、セル間の接続関係が固定であるため、同期制御回路を不要としている。

本発明によれば、従来技術で実現できなかった複素行列演算アルゴリズムを実現できる。

本発明の第１の実施例を示す図である。本発明の第１の実施例に含まれる境界スーパーセルの構成を示す図である。本発明の第１の実施例に含まれる内部スーパーセルの構成を示す図である。本発明の第１の実施例に含まれるプロセッシングセルの動作を説明する図である。複素数ＭＦＡの第２ステップを実現する内部スーパーセルの構成を示す図である。セル接続変更を行う内部スーパーセルの入出力タイミングの動作を説明するためのタイミングチャートである本発明の第１の実施例に含まれるプロセッシングセルの入出力タイミング動作を説明するためのタイミングチャートである。ＭＦＡアルゴリズムのシグナルフローグラフを示す図である。非特許文献１の実数ＭＦＡシストリックアレイの構成を示す図である。非特許文献１の実数ＭＦＡシストリックアレイのプロセッシングセルの動作を説明する図である。非特許文献２の実数ＭＦＡシストリックアレイの構成を示す図である。非特許文献２の実数ＭＦＡシストリックアレイのプロセッシングセルの動作を説明する図である。

符号の説明

１００境界スーパーセル
１０１境界セル
１１０境界Φセル
１２０境界θセル
２００内部スーパーセル
２０１内部セル
２１０内部Φセル
２２０内部θセル
３００終端セル
４００遅延回路
１０００三角シストリックアレイ
２０００四角シストリックアレイ
３０００線形シストリックアレイ
４０００複素行列演算シストリックアレイ
４００１実数ＭＦＡシストリックアレイ

次に、本発明の実施形態について説明する。図１は、本発明の第１の実施例の複素行列演算シストリックアレイの構成を示す図である。本実施例では、行列のサイズが、Ａ（２ｘ２），Ｂ（２ｘ２），Ｃ（２ｘ２），Ｄ（２ｘ２）の場合を例に説明する。なお、本発明において、行列のサイズはかかる構成に制限されるものでないことは勿論である。

本実施例の複素行列演算シストリックアレイ４０００は、
三角シストリックアレイ１０００、
四角シストリックアレイ２０００、
線形シストリックアレイ３０００
を備えている。

三角シストリックアレイ１０００は、境界スーパーセル１００、内部スーパーセル２００および遅延回路４００を備えている。

境界スーパーセル１００は、三角シストリックアレイ１０００の対角位置に配置される。

四角シストリックアレイ２０００は、複数の内部スーパーセル２００を備えている。

線形シストリックアレイ３０００は、終端セル３００を備えている。

本実施例の複素行列演算シストリックアレイ４０００は、図９に示した実数ＭＦＡシストリックアレイ４００１に対して、線形シストリックアレイ３０００が追加されている。

また、境界セル１０１及び内部セル２０１の代わりに、複数のセルから構成される境界スーパーセル１００と、内部スーパーセル２００を用いている。

また、境界スーパーセル１００の右下のセルに、位相ずれパラメータΦ_ｃを、遅延回路４００を介して転送するパスが追加されている。

図１中のｘｉｎおよびｘｏｕｔは、それぞれ、各セルの上方からの入力、下方への出力である。

図１のΦ、θ、ｄは、境界スーパーセル１００から供給され、水平方向に伝播するパラメータである。

図１のΦｃは、境界スーパーセル１００から右下のセルに供給される位相ずれパラメータである。

図１の境界スーパーセル１００、内部スーパーセル２００、ｘｉｎおよびｘｏｕｔに対する下添え字は、セルの位置インデックスであり、（ｉｊ）は、第ｉ行第ｊ列のセルを意味している。またパラメータΦｉ、Φｃｉ、θｉ、ｄｉはｉ行目の境界スーパーセル１００から出力されたパラメータであることを意味している。

本実施例において、複素行列演算シストリックアレイ４０００は、２ステップでＭＦＡ処理を実現する。

ステップ１では、行列Ａ、Ｂがそれぞれ三角シストリックアレイ１０００と四角シストリックアレイ２０００の上辺に入力される。

またステップ２では、線形シストリックアレイ３０００の下辺から行列Ｅが出力される。なお、図１に示すように、入出力データは遅延（スキュー）を調整する必要がある。

図２は、図１の境界スーパーセル１００の構成を示す図である。図３は、図１の内部スーパーセル２００の構成を示す図である。

図２を参照すると、境界スーパーセル１００は、境界Φセル１１０と境界θセル１２０を備えている。

図３を参照すると、内部スーパーセル２００は、内部Φセル２１０と、二つの内部θセル２２０_１、２２０_２を備えている。

図４に、各セルのステップ１，２における演算処理を示す。図４において、ｒは、セルに保存される内部変数であり、初期値は０である。

まず、ステップ１の動作を説明する。境界スーパーセル１００では、上方からの入力ｘｉｎが境界Φセル１１０に供給される。

また、位相ずれパラメータΦ_ｃが境界Φセル１１０に供給される。但し、ステップ１では、位相ずれパラメータΦｃは使用しない。

なお、第１行目の境界Φセル１１０に供給される位相ずれパラメータΦ_ｃは０固定である。

境界Φセル１１０は、ＣＯＲＤＩＣアルゴリズムを用いてベクトル
［ｒｅａｌ（ｘｉｎ）ｉｍａｇ（ｘｉｎ）］^ｔのノルム｜ｘｉｎ｜（＝√（ｒｅａｌ（ｘｉｎ）^２＋ｉｍａｇ（ｘｉｎ）^２）と、ベクトル角Φ(＝ａｒｃｔａｎ（ｉｍａｇ（ｘｉｎ）／ｒｅａｌ（ｘｉｎ））)を計算する。ただし、ａｒｃｔａｎは逆正接関数である。

ノルム｜ｘｉｎ｜は、境界θセル１２０へ供給され、ベクトル角Φは、右に伝播し、同一行の内部スーパーセル２００へ供給される。

境界θセル１２０は、ノルム｜ｘｉｎ｜を受け、ＣＯＲＤＩＣアルゴリズムを用いてベクトル［ｒ｜ｘｉｎ｜］^ｔのノルムｔ（（＝√（ｒ^２＋｜ｘｉｎ｜^２））とベクトル角θ（＝ａｒｃｔａｎ（｜ｘｉｎ｜／ｒ）を計算する。内部変数ｒはノルムｔで更新され、ベクトル角θは、右に伝播し、同一行の内部スーパーセル２００へ供給される。

内部スーパーセル２００では、上方からの入力ｘｉｎと左方からのベクトル角Φが内部Φセル２１０に供給される。

また内部Φセル２１０は、ＣＯＲＤＩＣアルゴリズムを用いてベクトル
［ｒｅａｌ（ｘｉｎ）ｉｍａｇ（ｘｉｎ）］^ｔを角度Φだけ回転させたベクトル
［ｒｅａｌ（ｔｍｐ）ｉｍａｇ（ｔｍｐ）］を、それぞれ、内部θセル２２０_１、２２０_２に供給する。

また、内部Φセル２１０は、供給されたベクトル角Φをそのまま、右に伝播し、同一行の内部スーパーセル２００へ供給する。

二つの内部θセル２２０_１、２２０_２は、入力ｘｉｎ、ベクトル角θ、内部変数ｒを入力し、ＣＯＲＤＩＣアルゴリズムを用いて、
ｘｏｕｔ＝ｃｏｓθ・ｘｉｎ−ｓｉｎθ・ｒ，
ｒ＝ｓｉｎθ・ｘｉｎ＋ｃｏｓθ・ｒ・・・（６）
で表されるベクトル回転処理を行い、出力ｘｏｕｔと内部変数ｒを計算する。

図４では、上記処理を実数成分処理と虚数成分処理に分解し、行列積形式でも示している。内部θセル２２０_１、２２０_２は、それぞれベクトル回転処理の実数成分部分と虚数成分に対応している。終端セル３００は、ステップ１には動作しない。

次にステップ２の動作を説明する。

境界スーパーセル１００では、上方からの入力ｘｉｎが境界Φセル１１０に供給される。

また、左上方から位相ずれパラメータΦ_ｃが境界Φセル１１０に供給される。

境界Φセル１１０は、ＣＯＲＤＩＣアルゴリズムを用いてベクトル
［ｒｅａｌ（ｘｉｎ）ｉｍａｇ（ｘｉｎ）］^ｔのノルム｜ｘｉｎ｜を計算し、境界θセル１２０へ供給する。

また、［ｒｅａｌ（ｘｉｎ）ｉｍａｇ（ｘｉｎ）］^ｔのベクトル角Φを同一行の内部スーパーセル２００へ供給する。

また、左上方から入力された位相ずれパラメータΦ_ｃにベクトルΦを加算したものを、新たな位相ずれパラメータΦ_ｃとし、右下方の境界Φセル１１０もしくは終端セル３００に供給する。

境界θセル１２０は、ノルム｜ｘｉｎ｜を受け、ＣＯＲＤＩＣアルゴリズムを用いて、除算
ｄ＝｜ｘｉｎ｜／ｒ・・・（７）
を行い、除算結果ｄは、積和演算係数として右に伝播し、同一行の内部スーパーセル２００へ供給される。

また、内部Φセル２１０は、ＣＯＲＤＩＣアルゴリズムを用いてベクトル
［ｒｅａｌ（ｘｉｎ）ｉｍａｇ（ｘｉｎ）］^ｔを、角度Φだけ回転させたベクトル
［ｒｅａｌ（ｔｍｐ）ｉｍａｇ（ｔｍｐ）］を、それぞれ、内部θセル２２０_１、２２０_２へ供給する。

二つの内部θセル２２０_１、２２０_２は、ｘｉｎ、内部変数ｒ、積和演算係数ｄを受け、ＣＯＲＤＩＣアルゴリズムを用いて
ｘｏｕｔ＝ｘｉｎ−ｄ・ｒ・・・（８）
で表される積和演算処理を行い、出力ｘｏｕｔを計算する。内部変数ｒは更新しない。

図４では、上記処理を実数成分処理と虚数成分処理に分解し、行列積形式でも示している。

内部θセル２２０_１、２２０_２は、それぞれベクトル回転処理の実数成分部分と虚数成分に対応している。

終端セル３００は、上方からの入力ｘｉｎと左上方からの位相ずれパラメータΦ_ｃを受け、ベクトル［ｒｅａｌ（ｘｉｎ）ｉｍａｇ（ｘｉｎ）］^ｔを角度Φｃだけ回転させたベクトル［ｒｅａｌ（ｘｏｕｔ）ｉｍａｇ（ｘｏｕｔ）］を計算し、複素行列演算シストリックアレイ４０００外部へ出力する。

次に本実施例の複素行列演算シストリックアレイ４０００により、複素行列演算ができることを、非特許文献２で開示される実数ＭＦＡシストリックアレイ４００１と対比しながら述べる。

実数ＭＦＡシストリックアレイ４００１の第１行目アレイのステップ１の処理は、境界セル１０１への入力ｘｉｎ_ｋ１（ただし、ｋは１から２の自然数）を０にするＧｉｖｅｎｓ回転であり、次式（９）、（１０）で表される。

・・・（９）

・・・（１０）

式（９）、（１０）を複素数に拡張したもの、式（１１）、（１２）に示す。

・・・（１１）

・・・（１２）

以降、複素数ＭＦＡアルゴリズムの中間結果をｘｏｕｔ’で表し、本実施例の中間結果をｘｏｕｔとし、互いに区別する。

式（１１）、（１２）を満たすｃ１、ｓ１は、それぞれ次式（１３）、（１４）で与えられる。

・・・（１３）

・・・（１４）

・・・（１５）

・・・（１６）

式（１３）、（１４）、（１５）、（１６）を、式（１１）に代入すると、次式（１７）、（１８）に変形できる。

・・・（１７）

・・・（１８）

一方、本実施例の複素行列演算シストリックアレイ４０００の第１行目アレイのステップ１処理は、次式（１９）、（２０）で表される。

・・・（１９）

・・・（２０）

式（２０）は、式（１８）と同じである。

式（１７）と式（１９）を比較すると、複素行列演算シストリックアレイ４０００の内部変数ｒは、複素数ＭＦＡアルゴリズムの内部変数ｒと同じであることが分かる。

また、複素行列演算シストリックアレイ４０００の第１行目アレイの下方への出力ｘｏｕｔは、係数ｅ^ｉΦが掛かっているため、複素数ＭＦＡアルゴリズムの中間結果ｘｏｕｔ’に対して角度Φだけ位相がずれていることが分かる。しかし、この位相ずれは、第２行目の出力ｘｏｕｔの全てに掛かっているため、第２行目アレイの境界Φセル１１０と内部Φセル２１０のベクトル回転処理で吸収され、境界θセル１２０と内部θセル２２０で行う第２行目アレイの内部変数ｒ計算に影響を与えない。

以上により、本実施例の複素行列演算シストリックアレイ４０００の第１ステップ終了時点での各スーパーセルに保存される内部変数ｒは、複素ＭＦＡアルゴリズムで求めたものと同じになる。

次にステップ２の等価性について述べる。

非特許文献２で開示される実数ＭＦＡシストリックアレイ４００１の第１行目アレイのステップ２処理は、境界セル１０１への入力ｘｉｎ_ｋ１（ただし、ｋは１から２の自然数）を０にするｒ１１を軸としたガウス消去処理であり、次式（２１）で表される。また、第２行目アレイのステップ２の処理は、同様に、次式（２２）で表される。

・・・（２１）

・・・（２２）

式（２１）、（２２）は、ｘｉｎ、ｘｏｕｔ’を複素数とすると、そのまま複素ＭＦＡアルゴリズムに適用できる。

式（２１）、式（２２）を、次式（２３）、（２４）、（２５）、（２６）を用いて変形すると、それぞれ次式（２７）、（２８）で表される。

・・・（２３）

・・・（２４）

・・・（２５）

・・・（２６）

・・・（２７）

・・・（２８）

一方、本実施例の複素行列演算シストリックアレイ４０００の第１行目アレイのステップ２の処理は、次式（２９）で表される。

・・・（２９）

式（２７）と式（２９）とを比較すると、複素行列演算シストリックアレイ４０００の第１行目アレイの下方への出力ｘｏｕｔは、係数ｅ^−ｉΦ１が掛かっているため、複素数ＭＦＡアルゴリズムの中間結果ｘｏｕｔ’に対して、角度Φ_１だけ、位相がずれていることが分かる。

境界Φセル１１０は、上方からの入力信号のベクトル角度に左上方から入力される位相ずれパラメータΦ_ｃを加算し、新たな位相ずれパラメータΦ_ｃとして右下方のセルに供給する。第１行目の境界Φセル１１０は、入力位相ずれパラメータΦ_ｃ０が０固定のため、角度Φ_１がそのまま位相ずれパラメータΦ_ｃ１として出力される。

本実施例の複素行列演算シストリックアレイ４０００の第２行目アレイのステップ２の処理は、次式（３０）、（３１）で表される。

・・・（３０）

・・・（３１）

式（２８）と式（３１）を比較すると、複素行列演算シストリックアレイ４０００の第２行目アレイの下方への出力ｘｏｕｔは、係数ｅ^{−ｉΦ２’}が掛かっているため、複素数ＭＦＡアルゴリズムの出力結果ｘｏｕｔ’に対して、角度Φ_２’だけ位相がずれていることが分かる。

第１行目の境界Φセル１１０は、入力位相ずれパラメータΦ_ｃ１に、上方からの入力信号のベクトル角度Φ_２を加算し、位相ずれパラメータΦ_ｃ２として右下方の終端セル３００に供給される。

終端セル３００は、複素行列演算シストリックアレイ４０００の第２行目アレイの下方への出力ｘｏｕｔに対し角度Φ_ｃ２分だけベクトル回転したものを、複素行列演算シストリックアレイ４０００外部へ出力する。

・・・（３２）

式（３２）に示すように、Φ_ｃ２は、複素数ＭＦＡアルゴリズムの出力結果ｘｏｕｔ’に対する位相がずれΦ_２’に一致するため、本実施例の複素行列演算シストリックアレイ４０００出力は、複素数ＭＦＡアルゴリズムの出力結果ｘｏｕｔ’と一致する。

本実施例の複素行列演算シストリックアレイ４０００は、位相ずれ補正のため、終端セル３００を必要とするものの、セル間接続が固定であり、セル間同期制御が不要となる利点がある。

比較例として、複素数ＭＦＡアルゴリズムをＣＯＲＤＩＣ回路で構成されるセルで実現した場合、ステップ切り替え時に、セル間接続の変更、セル入出力信号の同期制御が必要となる。

例として、ステップ１を本実施例の複素行列演算シストリックアレイ４０００で実現し、ステップ２を複素数ＭＦＡアルゴリズムで実現する場合を考える。

式（２７）を実現する第１行目アレイに着目すると、式（２３）、（２４）に示すパラメータΦ_１、ｄ_１は、図２に示す境界スーパーセル１００でΦ_１、ｄ_１の順で計算できる。

式（２７）中のｘｏｕｔは、図５に示すように内部スーパーセル２００の接続関係を変更することによって計算できる。図５中のステップ２に内部Φセル２１０、内部θセル２２０は、それぞれ次式（３３）、（３４）に示す処理を行う。

・・・（３３）

・・・（３４）

図６に、上記のセル接続変更を行う場合の内部スーパーセル２００_１、２００_２のタイミングチャートを示す。

図６に示すように、内部スーパーセル２００_１、２００_２へ信号が入力されるタイミングと、内部Φセル２１０、内部θセル２２０で使用されるタイミングが異なるため、複雑なタイミング制御が必要となる。

これは、内部θセル２２０のステップ１の処理が終了し、ｒが固定された後、内部Φセル２１０のステップ２の処理を開始する必要があることに起因する。

図７に、本実施例の複素行列演算シストリックアレイ４０００のタイミングチャートを示す。図７より網掛けで示す位相ずれパラメータΦ_ｃを、遅延回路４００により、２ＣＯＲＤＩＣ処理分だけ遅延させる以外は、タイミング制御が不要なことが分かる。

なお、本実施例では、行列のサイズが、Ａ（２ｘ２），Ｂ（２ｘ２），Ｃ（２ｘ２），Ｄ（２ｘ２）の場合を例に説明したが、本発明は、行列のサイズに依らず適用可能である。

また、本発明は、２次元シストリックアレイ構成のみ制限されるものでなく、２次元シストリックアレイを１次元アレイに投影した構成や、２次元シストリックアレイ処理を時分割処理構成も含むことは勿論である。また、上記した実施例の複素行列演算シストリックアレイは、有線、無線の通信システム、画像処理システムにおける信号処理の複素行列演算に適用される。

本発明の全開示（請求の範囲を含む）の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

Claims

ＭＦＡ（ＭｏｄｉｆｉｅｄＦａｄｄｅｅｖａＡｌｇｏｒｉｔｈｍ）を利用して複素行列演算を行うシストリックアレイであって、
三角シストリックアレイと四角シストリックアレイとを含む台形シストリックアレイと、
前記四角シストリックアレイの最終行に対応して配置される線形シストリックアレイと、
を備え、
前記台形シストリックアレイにおける各行から下の行に出力される中間処理結果を、複素数ＭＦＡアルゴリズムの中間結果に対して位相をずらしたものとし、
前記次の行では、位相回転処理を行い、前記位相のずれを吸収し、
前記線形シストリックアレイは、前記台形シストリックアレイの最終行から出力される中間処理結果の位相ずれを補正する、ことを特徴とする複素行列演算シストリックアレイ。
前記台形シストリックアレイの２行目以降の各行は、それぞれ、前行から供給される、前記位相がずれたＭＦＡ中間処理結果の第１成分と位相ずれパラメータとを受け、第１、第２のベクトル回転パラメータと、積和演算係数と、位相ずれパラメータを生成する境界処理部と、
前記位相がずれたＭＦＡ中間処理結果の第１成分以外の成分と、前記第１と第２のベクトル回転パラメータと、前記積和演算係数とを受け、前記位相がずれたＭＦＡ中間処理結果を、次行に供給する複数の内部処理部と、
を備えている、ことを特徴とする請求項１に記載の複素行列演算シストリックアレイ。
前記境界処理部と前記内部処理部が、それぞれ、複数のプロセッシングセルから構成されるスーパーセルである、ことを特徴とする請求項２に記載の複素行列演算シストリックアレイ。
前記プロセッシングセルが、ベクトル角度算出、ベクトル回転、除算、積和演算を一定遅延で処理するＣＯＲＤＩＣ（ＣｏｏｒｄｉｎａｔｅＲｏｔａｔｉｏｎＤｉｇｉｔａｌＣｏｍｐｕｔｅｒ）回路を備え、
前記プロセッシングセル間の接続関係が固定されている、ことを特徴とする請求項３に記載の複素行列演算シストリックアレイ。
前記境界処理部が、第１、第２の境界プロセッシングセルを備え、
第１のステップにおいて、
前記第１の境界プロセッシングセルは、
前行の前記内部処理部からの入力信号を基に、
前記入力信号のノルムと、前記入力信号の実数部と虚数部を要素とするベクトルのベクトル角を生成し、
前記ベクトル角を前記第１のベクトル回転パラメータとして同一行内の内部処理部に供給し、
前記第２の境界プロセッシングセルは、
内部変数と前記入力信号のノルムを要素とするベクトルのノルムとベクトル角を生成し、前記ベクトル角を前記第２のベクトル回転パラメータとして、同一行内の内部処理部に供給し、前記ベクトルノルムで内部変数を更新し、
第２のステップでは、
前記第１の境界プロセッシングセルは、
前行の前記内部処理部からの入力信号を基に、
前記入力信号のノルムと、前記入力信号の実数部と虚数部を要素とするベクトルのベクトル角を生成し、
前記ベクトル角を前記第１のベクトル回転パラメータとして同一行内の内部処理部に供給し、更に、
前記第１のベクトル回転パラメータに、前行から供給される位相ずれパラメータを加算したもの（ただし、第１行の第１の境界プロセッシングセルでは、前行から供給される位相ずれパラメータは０）を、次行に供給し、
前記第２の境界プロセッシングセルは、前記入力信号のノルムを内部変数で除算し、前記除算結果を、前記積和演算係数として、同一行内の内部処理部に供給する、ことを特徴とする請求項２乃至４のいずれか一に記載の複素行列演算シストリックアレイ。
前記内部処理部が、第１乃至第３の内部プロセッシングセルを備え、
第１のステップにおいて、
前記第１の内部プロセッシングセルは、
前行の前記内部処理部からの入力信号を前記第１のベクトル回転パラメータ分だけ位相回転を行い、位相回転入力信号を生成し、
前記第２の内部プロセッシングセルは、
前記位相回転入力信号の実数部と内部変数の実数部を要素とするベクトルを、前記第２のベクトル回転パラメータ分だけ回転したベクトルの第１の要素を、内部変数の実数部として更新し、第２の要素を次行に供給し、
前記第３の内部プロセッシングセルは、
前記位相回転入力信号の虚数部と内部変数の虚数部を要素とするベクトルを、前記第２のベクトル回転パラメータ分だけ回転したベクトルの第１の要素を、内部変数の虚数部として更新し、第２の要素を次行に供給し、
第２のステップにおいて、
前記第１の内部プロセッシングセルは、
前行の前記内部処理部からの入力信号を前記第１のベクトル回転パラメータ分だけ位相回転を行い、位相回転入力信号を生成し、
前記第２の内部プロセッシングセルは、前記位相回転入力信号の実数部に内部変数の実数部と前記積和演算係数の積を加算したものを次行に供給し、
前記第３の内部プロセッシングセルは、前記位相回転入力信号の虚数部に内部変数の虚数部と前記積和演算係数の積を加算したものを次行に供給する、ことを特徴とする請求項２乃至４のいずれか一に記載の複素行列演算シストリックアレイ。
前記三角シストリックアレイの一辺と前記四角シストリックアレイの一辺とを併せたものが、前記台形シストリックアレイの互いに対向する平行の２辺のうちの長辺をなし、
前記四角シストリックアレイの前記一辺と対向する他の辺が、前記台形シストリックアレイの短辺をなし、
前記台形シストリックアレイは、前記長辺を上底とし前記短辺を下底とし、
前記線形シストリックアレイは、前記台形シストリックアレイの前記下底に対向して配置され、
前記台形シストリックアレイは、前記上底側から入力を受け、前記台形シストリックアレイの下底側に位置する前記線形シストリックアレイから出力が出力され、
前記境界処理部は、前記三角シストリックアレイの斜辺に配置され、
前記内部処理部は、前記三角シストリックアレイの斜辺以外の行と列、及び、前記四角シストリックアレイの行と列に配置される、ことを特徴とする請求項２に記載の複素行列演算シストリックアレイ。
前記境界処理部が、前記第１、第２の境界プロセッシングセルを備え、
第１のステップにおいて、
上方からの入力（ｘｉｎ）が前記第１の境界プロセッシングセルに供給され、前記第１の境界プロセッシングセルは、前記入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルのノルムである第１のノルム（｜ｘｉｎ｜）とそのベクトル角である第１のベクトル角（Φ）を計算し、前記第１のノルム（｜ｘｉｎ｜）を前記第２の境界プロセッシングセルへ供給し、前記第１のベクトル角（Φ）を、同一行の隣りの内部処理部へ供給し、
前記第２の境界プロセッシングセルは、前記第１の境界プロセッシングセルから前記第１のノルム（｜ｘｉｎ｜）を受け、内部変数（ｒ）と前記第１のノルム（｜ｘｉｎ｜）を要素とするベクトルのノルムである第２のノルム（ｔ）とそのベクトル角である第２のベクトル角（θ）を計算し、前記内部変数（ｒ）を前記第２のノルム（ｔ）で更新し、前記第２のベクトル角（θ）を同一行の隣りの内部処理部へ供給し、
第２のステップにおいて、
上方からの入力（ｘｉｎ）が前記第１の境界プロセッシングセルに供給され、２行目以降の前記境界処理部の前記第１の境界プロセッシングセルには、斜上方の前記境界処理部から位相ずれパラメータ（Φｃ）が供給され、
前記第１の境界プロセッシングセルは、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルのノルムである第１のノルム（｜ｘｉｎ｜）とそのベクトル角である第１のベクトル角（Φ）を計算し、前記第１のノルム（｜ｘｉｎ｜）を前記第２の境界プロセッシングセルへ供給し、前記第１のベクトル角（Φ）を、同一行の隣の内部処理部へ供給し、斜上方の前記境界処理部から入力された位相ずれパラメータ（Φｃ）に前記第１のベクトル角（Φ）を加算したものを、新たな位相ずれパラメータ（Φｃ）として、斜下方の境界処理部の前記第１の境界プロセッシングセル又は前記線形シストリックアレイの終端セルに供給し、
前記第２の境界プロセッシングセルは、前記第１の境界プロセッシングセルから前記第１のノルム（｜ｘｉｎ｜）を受け、前記第１のノルム（｜ｘｉｎ｜）を内部変数（ｒ）で除算した値ｄ（＝｜ｘｉｎ｜／ｒ）を求め、除算結果（ｄ）を積和演算係数として、同一行の隣の内部処理部へ供給する、ことを特徴とする請求項７記載の複素行列演算シストリックアレイ。
前記内部処理部が、第１乃至第３の内部プロセッシングセルを備え、
前記第１のステップにおいて、
上方からの入力（ｘｉｎ）と、同一行の前記境界処理部側の隣のセルから伝播された前記第１のベクトル角（Φ）が前記内部処理部の第１の内部プロセッシングセルに供給され、
前記第１の内部プロセッシングセルは、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルを前記第１のベクトル角度（Φ）だけ回転させたベクトル（ｔｍｐ）を、それぞれ、前記内部処理部の第２、第３の内部プロセッシングセルに供給し、
前記第１の内部プロセッシングセルは、同一行の前記境界処理部側の隣のセルから供給された前記第１のベクトル角（Φ）をそのまま、同一行の前記境界処理部とは反対側の隣の内部処理部の第１の内部プロセッシングセルへ供給し、
前記第２、第３の内部プロセッシングセル（内部θセル）は、前記ベクトル（ｔｍｐ）、内部変数（ｒ）、前記第１のベクトル角（θ）について、
ｘｏｕｔ＝ｃｏｓθ・ｔｍｐ−ｓｉｎθ・ｒ，
ｒ＝ｓｉｎθ・ｔｍｐ＋ｃｏｓθ・ｒ
で表されるベクトル回転処理を行うことで出力（ｘｏｕｔ）と内部変数（ｒ）を計算し、
前記第２のステップにおいて、
前記内部処理部の前記第１の内部プロセッシングセルには、上方からの入力（ｘｉｎ）と、同一行の前記境界処理部側の隣のセルから伝播された第１のベクトル角（Φ）が供給され、
前記第１の内部プロセッシングセルは、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルを前記第１のベクトル角度（Φ）だけ回転させたベクトル（ｔｍｐ）を、それぞれ、前記第２、第３の内部プロセッシングセルへ供給し、
前記第１の内部プロセッシングセルは、前記境界処理部側の隣のセルから供給された第１のベクトル角（Φ）をそのまま、同一行の前記境界処理部とは反対側の隣の内部処理部の前記第１の内部プロセッシングセルへ供給し、
前記第２、第３の内部プロセッシングセルは、
ｘｏｕｔ＝ｔｍｐ−ｄ・ｒ
で表される積和演算処理を行うことで出力（ｘｏｕｔ）を計算し、
前記線形シストリックアレイの終端セルは、前記台形シストリックアレイの下底の内部処理部からの出力（ｘｏｕｔ）を上方からの入力（ｘｉｎ）として受け、斜上方の境界処理部からの位相ずれパラメータ（Φｃ）を受け、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルを角度（Φｃ）だけ回転させたベクトルを計算して出力（ｘｏｕt）として出力する、ことを特徴とする請求項８に記載の複素行列演算シストリックアレイ。
前記線形シストリックアレイが、
前記台形シストリックアレイの最終行から供給される前記位相ずれパラメータに基づき、前記台形シストリックアレイの最終行の前記内部処理部からの入力信号に対し、位相回転を行う終端プロセッシングセルを複数備えている、ことを特徴とする請求項２乃至９のいずれか一に記載の複素行列演算シストリックアレイ。
請求項１乃至１０のいずれか一に記載の複素行列演算シストリックアレイを備えている通信システム。
請求項１乃至１０のいずれか一に記載の複素行列演算シストリックアレイを備えている画像処理システム。
ＭＦＡ（ＭｏｄｉｆｉｅｄＦａｄｄｅｅｖａＡｌｇｏｒｉｔｈｍ）を利用した複素行列演算シストリックアレイによる複素行列演算方法であって、
三角シストリックアレイと四角シストリックアレイとを含む台形シストリックアレイに対して線形シストリックアレイを設け、
前記台形シストリックアレイにおける各行から下の行に出力される中間処理結果を、複素数ＭＦＡアルゴリズムの中間結果に対して位相をずらしたものとし、
前記次の行では、位相回転処理を行い、前記位相のずれを吸収し、
前記線形シストリックアレイは、前記台形シストリックアレイの最終行から出力される中間処理結果の位相ずれを補正する、
ことを特徴とする複素行列演算方法。
前記台形シストリックアレイの２行目以降の各行は、
境界処理部において、それぞれ、前行から供給される、前記位相がずれたＭＦＡ中間処理結果の第１成分と位相ずれパラメータとを受け、第１、第２のベクトル回転パラメータと、積和演算係数と、位相ずれパラメータを生成し、
複数の内部処理部において、前記位相がずれたＭＦＡ中間処理結果の第１成分以外の成分と、前記第１と第２のベクトル回転パラメータと、前記積和演算係数とを受け、前記位相がずれたＭＦＡ中間処理結果を、次行に供給する、ことを特徴とする請求項１３に記載の複素行列演算方法。
前記境界処理部と前記内部処理部が、それぞれ、複数のプロセッシングセルから構成されるスーパーセルである、ことを特徴とする請求項１４に記載の複素行列演算方法。
前記プロセッシングセルを、ベクトル角度算出、ベクトル回転、除算、積和演算を一定遅延で処理するＣＯＲＤＩＣ（ＣｏｏｒｄｉｎａｔｅＲｏｔａｔｉｏｎＤｉｇｉｔａｌＣｏｍｐｕｔｅｒ）回路で構成し、
前記プロセッシングセル間の接続関係が固定されている、ことを特徴とする請求項１５に記載の複素行列演算方法。
第１のステップにおいて、
前記第１の境界プロセッシングセルは、
前行の前記内部処理部からの入力信号を基に、
前記入力信号のノルムと、前記入力信号の実数部と虚数部を要素とするベクトルのベクトル角を生成し、
前記ベクトル角を前記第１のベクトル回転パラメータとして同一行内の内部処理部に供給し、
前記第２の境界プロセッシングセルは、
内部変数と前記入力信号のノルムを要素とするベクトルのノルムとベクトル角を生成し、前記ベクトル角を前記第２のベクトル回転パラメータとして、同一行内の内部処理部に供給し、前記ベクトルノルムで内部変数を更新し、
第２のステップにおいて、
前記第１の境界プロセッシングセルは、
前行の前記内部処理部からの入力信号を基に、
前記入力信号のノルムと、前記入力信号の実数部と虚数部を要素とするベクトルのベクトル角を生成し、
前記ベクトル角を前記第１のベクトル回転パラメータとして同一行内の内部処理部に供給し、更に、
前記第１のベクトル回転パラメータに、前行から供給される位相ずれパラメータを加算したもの（ただし、第１行の第１の境界プロセッシングセルでは、前行から供給される位相ずれパラメータは０）を、次行に供給し、
前記第２の境界プロセッシングセルは、前記入力信号のノルムを内部変数で除算し、前記除算結果を、前記積和演算係数として、同一行内の内部処理部に供給する、ことを特徴とする請求項１４乃至１６のいずれか一に記載の複素行列演算方法。
第１のステップにおいて、
前記内部処理部の第１の内部プロセッシングセルは、
前行の前記内部処理部からの入力信号を前記第１のベクトル回転パラメータ分だけ位相回転を行い、位相回転入力信号を生成し、
前記内部処理部の第２の内部プロセッシングセルは、
前記位相回転入力信号の実数部と内部変数の実数部を要素とするベクトルを、第２のベクトル回転パラメータ分だけ回転したベクトルの第１の要素を、内部変数の実数部として更新し、第２の要素を次行に供給し、
前記内部処理部の第３の内部プロセッシングセルは、
前記位相回転入力信号の虚数部と内部変数の虚数部を要素とするベクトルを、第２のベクトル回転パラメータ分だけ回転したベクトルの第１の要素を、内部変数の虚数部として更新し、第２の要素を次行に供給し、
第２のステップにおいて、
前記第１の内部プロセッシングセルは、
前行の前記内部処理部からの入力信号を前記第１のベクトル回転パラメータ分だけ位相回転を行い、位相回転入力信号を生成し、
前記第２の内部プロセッシングセルは、前記位相回転入力信号の実数部に内部変数の実数部と前記積和演算係数の積を加算したものを次行に供給し、
前記第３の内部プロセッシングセルは、前記位相回転入力信号の虚数部に内部変数の虚数部と前記積和演算係数の積を加算したものを次行に供給する、ことを特徴とする請求項１４乃至１６のいずれか一に記載の複素行列演算方法。
前記三角シストリックアレイの一辺と前記四角シストリックアレイの一辺とを併せたものが、前記台形シストリックアレイの互いに対向する平行の２辺のうちの長辺をなし、
前記四角シストリックアレイの前記一辺と対向する他の辺が、前記台形シストリックアレイの短辺をなし、
前記台形シストリックアレイは、前記長辺を上底とし前記短辺を下底とし、
前記線形シストリックアレイは、前記台形シストリックアレイの前記下底に対向して配置され、
前記台形シストリックアレイは、前記上底側から入力を受け、前記台形シストリックアレイの下底側に位置する前記線形シストリックアレイから出力が出力され、
前記境界処理部は、前記三角シストリックアレイの斜辺に配置され、
前記内部処理部は、前記三角シストリックアレイの斜辺以外の行と列、及び、前記四角シストリックアレイの行と列に配置される、ことを特徴とする請求項１４に記載の複素行列演算方法。
第１のステップにおいて、
上方からの入力（ｘｉｎ）が前記境界処理部の第１の境界プロセッシングセルに供給され、前記第１の境界プロセッシングセルは、前記入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルのノルムである第１のノルム（｜ｘｉｎ｜）とそのベクトル角である第１のベクトル角（Φ）を計算し、前記第１のノルム（｜ｘｉｎ｜）を前記第２の境界プロセッシングセルへ供給し、前記第１のベクトル角（Φ）を、同一行の隣りの内部処理部へ供給し、
前記境界処理部の第２の境界プロセッシングセルは、前記第１の境界プロセッシングセルから前記第１のノルム（｜ｘｉｎ｜）を受け、内部変数（ｒ）と前記第１のノルム（｜ｘｉｎ｜）を要素とするベクトルのノルムである第２のノルム（ｔ）とそのベクトル角である第２のベクトル角（θ）を計算し、前記内部変数（ｒ）を前記第２のノルム（ｔ）で更新し、前記第２のベクトル角（θ）を同一行の隣りの内部処理部へ供給し、
第２のステップにおいて、
上方からの入力（ｘｉｎ）が前記第１の境界プロセッシングセルに供給され、２行目以降の前記境界処理部の前記第１の境界プロセッシングセルには、斜上方の前記境界処理部から位相ずれパラメータ（Φｃ）が供給され、
前記第１の境界プロセッシングセルは、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルのノルムである第１のノルム（｜ｘｉｎ｜）とそのベクトル角である第１のベクトル角（Φ）を計算し、前記第１のノルム（｜ｘｉｎ｜）を前記第２の境界プロセッシングセルへ供給し、前記第１のベクトル角（Φ）を、同一行の隣の内部処理部へ供給し、斜上方の前記境界処理部から入力された位相ずれパラメータ（Φｃ）に前記第１のベクトル角（Φ）を加算したものを、新たな位相ずれパラメータ（Φｃ）として、斜下方の境界処理部の前記第１の境界プロセッシングセル又は前記線形シストリックアレイの終端セルに供給し、
前記第２の境界プロセッシングセルは、前記第１の境界プロセッシングセルから前記第１のノルム（｜ｘｉｎ｜）を受け、前記第１のノルム（｜ｘｉｎ｜）を内部変数（ｒ）で除算した値ｄ（＝｜ｘｉｎ｜／ｒ）を求め、除算結果（ｄ）を積和演算係数として、同一行の隣の内部処理部へ供給する、ことを特徴とする請求項１９に記載の複素行列演算方法。
第１のステップにおいて、
上方からの入力（ｘｉｎ）と、同一行の前記境界処理部側の隣のセルから伝播された前記第１のベクトル角（Φ）が前記内部処理部の第１の内部プロセッシングセルに供給され、
前記第１の内部プロセッシングセルは、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルを前記第１のベクトル角度（Φ）だけ回転させたベクトル（ｔｍｐ）を、それぞれ、前記内部処理部の第２、第３の内部プロセッシングセルに供給し、
前記第１の内部プロセッシングセルは、同一行の前記境界処理部側の隣のセルから供給された前記第１のベクトル角（Φ）をそのまま、同一行の前記境界処理部とは反対側の隣の内部処理部の第１の内部プロセッシングセルへ供給し、
前記第２、第３の内部プロセッシングセル（内部θセル）は、前記ベクトル（ｔｍｐ）、内部変数（ｒ）、前記第１のベクトル角（θ）について、
ｘｏｕｔ＝ｃｏｓθ・ｔｍｐ−ｓｉｎθ・ｒ，
ｒ＝ｓｉｎθ・ｔｍｐ＋ｃｏｓθ・ｒ
で表されるベクトル回転処理を行うことで、出力（ｘｏｕｔ）と内部変数（ｒ）を計算し、
第２のステップにおいて、
前記内部処理部の前記第１の内部プロセッシングセルには、上方からの入力（ｘｉｎ）と、同一行の前記境界処理部側の隣のセルから伝播された第１のベクトル角（Φ）が供給され、
前記第１の内部プロセッシングセルは、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルを前記第１のベクトル角度（Φ）だけ回転させたベクトル（ｔｍｐ）を、それぞれ、前記第２、第３の内部プロセッシングセルへ供給し、
前記第１の内部プロセッシングセルは、前記境界処理部側の隣のセルから供給された第１のベクトル角（Φ）をそのまま、同一行の前記境界処理部とは反対側の隣の内部処理部の前記第１の内部プロセッシングセルへ供給し、
前記第２、第３の内部プロセッシングセルは、ｘｏｕｔ＝ｔｍｐ−ｄ・ｒで表される積和演算処理を行うことで、出力（ｘｏｕｔ）を計算し、
前記線形シストリックアレイの終端セルは、前記台形シストリックアレイの下底の内部処理部からの出力（ｘｏｕｔ）を上方からの入力（ｘｉｎ）として受け、斜上方の境界処理部からの位相ずれパラメータ（Φｃ）を受け、入力（ｘｉｎ）の実数部と虚数部を要素とするベクトルを角度（Φｃ）だけ回転させたベクトルを計算して出力（ｘｏｕt）として出力する、ことを特徴とする請求項２０に記載の複素行列演算方法。
前記線形シストリックアレイが、前記台形シストリックアレイの最終行から供給される前記位相ずれパラメータに基づき、前記台形シストリックアレイの最終行の前記内部処理部からの入力信号に対し、位相回転を行う終端プロセッシングセルを複数有する、ことを特徴とする請求項１３から１７のいずれか一に記載の複素行列演算方法。
三角シストリックアレイと四角シストリックアレイを含む台形シストリックアレイを備え、
前記三角シストリックアレイの一辺と前記四角シストリックアレイの一辺とが前記台形シストリックアレイの上底をなす長辺をなし、
前記台形シストリックアレイの下底をなす短辺側に配置された線形シストリックアレイを備え、
前記各シストリックアレイの各セルは、ベクトル角度算出、ベクトル回転、除算、積和演算を一定遅延で処理するＣＯＲＤＩＣ回路で実現され、
前記台形シストリックアレイは、前記上底側の一行目から入力を受け、前記台形シストリックアレイの下底側に位置する前記線形シストリックアレイから出力が出力され、
前記台形シストリックアレイにおいて、
各行から下の行に出力される中間処理結果を、複素数ＭＦＡ（ＭｏｄｉｆｉｅｄＦａｄｄｅｅｖａＡｌｇｏｒｉｔｈｍ）アルゴリズムの中間結果に対して位相をずらしたものとし、
２行目以降の各行は、それぞれ、前行から供給される、位相がずれた複素ＭＦＡ中間処理結果の第１成分と位相ずれパラメータとを受け、第１、第２のベクトル回転パラメータと、積和演算係数と、位相ずれパラメータを生成する境界処理部と、前記位相がずれたＭＦＡ中間処理結果の第１成分以外の成分と、前記第１と第２のベクトル回転パラメータと、前記積和演算係数とを受け、位相がずれたＭＦＡ中間処理結果を、次行に供給する内部処理部と、を備え、
前記台形シストリックアレイの各行から次行に出力される中間結果の、複素ＭＦＡアルゴリズムの中間結果に対する位相のずれを前記次行で吸収させ、
前記線形シストリックアレイは、前記台形シストリックアレイの前記下底の行から供給される位相ずれパラメータに基づき、前記台形シストリックアレイの下底の行の前記内部処理部からの入力信号に対し位相回転を行うことで、複素ＭＦＡ処理結果の位相ずれを補正する、演算装置。