JP4263693B2

JP4263693B2 - 計算量的に効率的な数学エンジン

Info

Publication number: JP4263693B2
Application number: JP2004539858A
Authority: JP
Inventors: エス．ブッヘートリアン; エス．ティマーマンチャイル; シェーンサプリースティーブン
Original assignee: インターデイジタルテクノロジーコーポレーション
Priority date: 2002-09-24
Filing date: 2003-09-24
Publication date: 2009-05-13
Anticipated expiration: 2023-09-24
Also published as: US8112467B2; US20080307205A1; AU2003270874A1; NO20051806L; JP2006500684A; EP1546863B1; ATE456086T1; WO2004029793A1; NO20051806D0; EP2146278A1; EP1546863A1; KR100708270B1; CN1685309A; KR20050061477A; US7430577B2; KR20090046939A; EP1546863A4; DE60331088D1; US20040230632A1; CA2499929A1

Description

本発明は、複素乗算器アレイの出力を計算するために数学エンジンを利用することに関する。特に、本発明は、複数の数学計算を行うためにアクセス可能な計算量的に効率的な（computationally efficient）数学エンジンである。

最新のワイヤレス通信システムは、一般に、信号処理を行うのに膨大な量の数学計算を必要とする。このような計算は、一般に、プロセッサおよびＡＳＩＣ（application specific integrated circuit）によって行われる。

受信機用の標準のＡＳＩＣ設計では、多数のアルゴリズムをインプリメントし計算する必要があり、これらのアルゴリズムが、割り当てられた時間中に計算を完了するために、多数の並列乗算を必要とすることがしばしばある。これらのアルゴリズムは、典型的には、多数のマトリクス−マトリクス乗算およびマトリクス−ベクトル乗算と、多数のＤＦＴ（discrete Fourier transform）計算およびＦＦＴ（fast Fourier transform）計算とからなる。乗算器は、ＡＳＩＣ上で大きなスペースを占めるので、いくつかのアルゴリズムに対して同じ乗算器を適用できる解決策を考案することが望ましい。

様々な現在のワイヤレス技術、例えば、ＷＣＤＭＡ、ＷＴＴ、ＣＤＭＡ２０００、８０２．１Ｘ、ＴＤＳＣＤＭＡ、ＦＤＤ、ＴＤＤをサポートするため、また、現時点では企図されていない他の将来のシステムアーキテクチャをサポートするため、ある共通の計算を用いることができる。共通に行われる１つのこのようなタイプの計算としては、内積乗算がある。内積計算は２つのマトリクスを演算する標準の機能である。例えば、内積計算は、チャネル推定およびデータ推定を行うのに必要となる。広帯域ＴＤＤシステムにおいては、このような計算として、素因数ＦＦＴの計算と、マトリクスとマトリクスとの乗算と、マトリクスとその複素共役転置マトリクスとの乗算と、マトリクスとベクトルとの乗算とを含めることができる。

一般に、いくつかの内積計算は、単一の通信装置によって行わなければならず、したがって、この通信装置は、必要とされる計算に対応できるだけの処理能力を有しなければならない。現在、それぞれのアルゴリズムは、そのアルゴリズム自体の数学的な機能をインプリメントするため、専用のハードウェアを使用している。ハードウェアを繰り返し使用して演算効率を最大にできるシステムを開発することが有利になろう。演算効率には、処理時間と、処理を行うためのシリコンチップの面積と、このシリコンチップが処理において必要とする電力とが含まれるが、これらに限定されるものではない。

本発明によれば、ハードウェアを効率的に利用するため、複数のタイプの数学計算を行う数学エンジンが提供される。本発明は、並列出力を有するメモリを含む。この並列出力を使用して、論理的に隣接した値を並列に選択的に出力される１つまたは複数の値を記憶する。この記憶された値の長さ、例えばベクトルの長さが、計算区域（computational section）の容量よりも大きい場合、このメモリは、全ベクトルに対する数学的な実行を完了できる論理シーケンスにおいて、このベクトルの一部（フォールド（fold）という。）を提供できるように、アドレスされる。

数学エンジンのオペレーションを制御するため、データを転送し、かつ適正な数学計算を行うことができるイネーブル信号を選択的に使用することによって、異なるアルゴリズムの結果が生成される。こうすると、異なるタイプの計算を行う数学エンジンの柔軟性が高まるという利点が得られ、かつ、信号プロセッサを設計する際に必要とされる半導体のスペースが小さくなる経済的なプロセッサ回路も得られる。

次に、図面を参照して本発明を説明する。これらの図面において、同じ参照符号は同一要素を示す。

本発明は、複数の異なる別々のアルゴリズムを処理する単一の数学エンジンに関する。この数学エンジンでは、これらすべてのアルゴリズムに対して同じハードウェアを使用することができる。乗算器は、ＡＳＩＣ上でかなりのスペースを必要とするが、本発明によれば、ＡＳＩＣに必要とされるスペースが小さくなる。本発明に係る数学エンジンは、ハードウェアの時間稼働率を高めることによって、必須の計算を行う上で極めて効率的でもある。この数学エンジンの効率は、入力マトリクスのサイズおよびＰＥの数によって決まる。

この数学エンジンは、一般に、少なくとも２つの入力と１つの出力とを有する。これらの入力は、直列入力および並列入力を含み、この並列入力の幅は、ＰＥ（processing element）の数と同じである。ＰＥの数は、ベクトル全体、ベクトルの一部、またはマトリクスのベクトルになるように最適化することができる。これら並列入力および直列入力は、ともに、シフトレジスタまたは別のタイプの直列アクセスレジスタにロードして、異なるタイプの演算を行うことができる。この並列出力シフトレジスタは、並列出力を有し、かつ記憶したデータを迅速に出力できるメモリである。このシフトレジスタの並列出力は、ＰＥの数によって幅が決まる論理的に隣接した値が、直列アクセスレジスタの機能を実施できるか、選択可能な出力を有する並列出力シフトレジスタの機能を実施できるか、あるいは、２次並列入力にアクセスできるようにマルチプレクシングされる。１次並列入力と、シフトレジスタの並列入力をマルチプレクシングしたものと、２次並列入力とは、複素乗算器および加算器ツリーへの入力となる。この加算器ツリーにより、この数学エンジンによって行われる計算の効率が高まる。こうすると、各演算ごとに、データをレジスタ内にできるだけ迅速に移動させることができ、かつ、この演算の内部ステップが効率よく行われるように、データを再構築することができる。

好ましい実施形態では、並列出力シフトレジスタは、論理的に隣接したデータ値からデータを出力し、この出力を使用して、選択的に並列出力する値が計算区域に記憶される。この記憶されるベクトルの長さが、計算区域の容量よりも大きい場合、並列出力シフトレジスタは、全ベクトルに対する数学的な実行を完了できるシーケンスにおいて、このベクトルの一部が提供されるようにアドレスされる。その結果、ほとんどすべてのクロックが、演算を行うためのデータを準備する複数のステップに費やされずに、計算に用いられる。この並列出力シフトレジスタを所与の長さの出力回路と結合させると、並列出力ｎ−フォールドシフトレジスタになる。すなわち、このメモリの記憶領域（store）が、計算区域のデータ幅（すなわち、ＰＥの数）のｎ倍になる。

加算器ツリーは、値をアキュムレータに供給し、このアキュムレータにより、多数の異なるマトリクス−マトリクス乗算およびマトリクス−ベクトル乗算を行うことができ、かつ、Ａ^ＨＡおよびＡ^Ｈ _ｒのような計算を効率よく行うことができる。

本発明によれば、この数学エンジンによって行われる内積計算には、チャネル推定およびデータ推定に必須の複数の異なるタイプの乗算、例えば、素因数ＦＦＴと、マトリクスとマトリクスとの乗算と、マトリクスと複素共役転置マトリクスとの乗算と、マトリクスとベクトルの乗算とが含まれるが、これらに限定されるものではない。

図１は、本発明に従って作製される数学エンジン３０の概略ブロック図を示す。数学エンジン３０には、ＰＰＤＩＳ（primary parallel data input source、１次並列データ入力源）３１と、デマルチプレクサ３２と、ｎ−フォールドシフトレジスタ３３と、ＳＤＩＳ（serial data input source、直列データ入力源）３４と、マルチプレクサ３５と、ＳＰＤＩＳ（secondary parallel data input source、２次並列データ入力源）３６と、が含まれる。また、複数のアレイ要素（図に示す４１〜４４）からなる複素乗算器ＰＥアレイ４０と、複素加算器ツリー５５と、複素アキュムレータ５６も含まれる。複素アキュムレータ５６には、初期条件入力マルチプレクサ５８と、サマー（summer）５７と、サマー出力レジスタ５９とが含まれる。サマー出力レジスタ５９から、蓄積された出力が得られる。ＰＥアレイ４０は、内積出力を含めて、並列複素乗算機能を提供する。

演算時において、ＰＰＤＩＳ３１の出力は、Ｑ個のロケーションを含む。ＳＤＩＳ３４は、シフトレジスタ３３に複素受信チップシーケンス（complex received chip sequence）を提供する。ＳＤＩＳ３４からのこの出力を用いて、シフトレジスタ３３を直列ロードする。シフトレジスタ３３は、ｎ個のフォールドを有し、各フォールドは、それぞれ複素値を含むＱ個のロケーションを有する。さらに、シフトレジスタ３３は、任意のフォールドに、ＰＰＤＩＳ３１からのＱ個のロケーションからの値をロードし、また、クロックごとに、Ｘ個のゼロのロケーションをシフトインすることができる。マルチプレクサ３５は、シフトレジスタ３３からの出力およびＳＰＤＩＳ３６からのＱ個のロケーションの複素値を受け取る。

マルチプレクサ３５からの出力は、複素乗算器アレイ４０に提供される。複素乗算器アレイ４０を使用して、複素加算器ツリー５５に、対応する入力を提供する。複素加算器ツリー５５は、Ｑ入力複素加算器ツリーである。

加算器ツリー５５は、その出力をアキュムレータ５６に提供する。アキュムレータ５６には、サマー５７のところで、マルチプレクサ５８を介して供給される初期条件が提供される。サマー５７の出力結果は、出力レジスタ５９にストアされる。

図１に示す本発明に係る数学エンジン３０は、いくつかの異なるタイプの計算を行うことができるので、別々のプロセッサが不要になり、その結果、このような数学計算に必要とされるＡＳＩＣの実装面積が大幅に小さくなる。以下、ＷＴＤＤ通信システムにおける好ましい実施形態の３つの異なる応用例、１）自己相関マトリクス（Ａ^ＨＡ）の生成と、２）白色化整合フィルタリング（Ａ^Ｈ _ｒ）と、３）Steinerアルゴリズムと、によって行われるチャネル推定を説明するが、応用例はこれらに限定されるものではない。ただし、本発明の趣旨および範囲から逸脱しない限り、他のアルゴリズムを実施できることは、当業者にとって当然のことである。

図２Ａ〜図２Ｃおよび図３Ａ〜図３Ｇを参照して、Ａ^ＨＡ関数をインプリメントした本発明の実施形態を説明する。この実施形態では、本発明に係る図１の数学エンジンを利用してＡ^ＨＡ関数をインプリメントするプロセスを説明する。Ａ^ＨＡ関数は、数学エンジンによって計算される関数の中で最も複雑なものの１つである。というのは、Ａ^ＨＡ関数は、部分的に記憶されたマトリクスと、この同じ部分的に記憶されたマトリクスであって部分的に計算された結果のみで異なるやり方でアクセスされたマトリクスと、から計算されるからである。演算の順序は、これらのマトリクスの論理的な数列に基づくのではなく、これらのマトリクスが、数学エンジンの既存の機能にどの程度適合しているかに基づく。

図２Ａは、マトリクスＡ^Ｈと、マトリクスＡと、マトリクスＡ^ＨＡとを、簡単なフィールドマトリクス（field matrix）で表現したものである。Ａ^Ｈ行ブロックのみをメモリに記憶させ、そして、マトリクスＡ^Ｈ全体およびマトリクスＡ全体は、記憶された行ブロックをアドレスするアドレシング関数として表される。この関数はデータにアクセスできる能力を有する。このデータをＡマトリクスにおけるように使用するため、このデータの虚部が反転されている。得られたマトリクスＡ^ＨＡは、圧縮して記憶され、マトリクスＡ^ＨおよびマトリクスＡから構築されたもののように見える。

このＡ^Ｈサブブロックは、単一のアクセスメモリ（図１のＰＰＤＩＳ３２）にしか記憶されないので、第１ステップは、このＡ^Ｈメモリの内容を、シフトレジスタ３３にコピーすることであり、また、そこで、第２および第３の行ブロックを表すようにこの内容を操作して、これらのブロックがこの計算で用いるデータウィンドウによってしか見えないようにすることができる。マトリクスＡ^Ｈの幅は、ＳＦ（拡散率）＋Ｗ（チャネル応答長）−１であり、２０個のＰＥしかないので、各Ａ^Ｈのワードには２０個の値がある。フォールドと呼ぶ２０個の値のチャンク（chunk）内にデータを移動させる（この場合には、例えば、ＳＦ＋Ｗ−１＝４４であり、そのため、３つのフォールドがある）。図３Ａ、図３Ｂ、および図３Ｃは、Ａ^Ｈの最初の行をシフトレジスタにロードするところを示す最初の３つのクロックサイクルを示す。

図３Ａでは、Ａ^Ｈのブロックの第１行の第１フォールドを、シフトレジスタの第１フォールド記憶領域にロードする。図３Ｂでは、Ａ^Ｈ行ブロックの第１行の第２フォールドを、シフトレジスタの第２フォールド記憶領域にロードする。図３Ｃでは、Ａ^Ｈ行ブロックの第１行の第３フォールドを、シフトレジスタの第３フォールド記憶領域にロードする。

図２Ｂは、このマトリクスの計算される部分を強調して表示する。行全体を強調して表示しているが、計算では、このマトリクスの破線の内側の部分しか使用しない。図２Ｂは、マトリクスＡ^Ｈの第１行と、マトリクスＡの第１列とを乗算して、マトリクスＡ^ＨＡの第１の値が得られるところを示す。

マトリクスＡ^ＨとマトリクスＡとの行および列のブロックは、ＰＥの数よりも大きいので（この実施形態では、行および列のサイズは４４）、この計算は、一度に１フォールドずつ行われる（すなわち、３クロックで３フォールドが行われる）。行全体が終了するまで、フォールドの各部分が乗算され、（図１に示す）蓄積レジスタ５９に蓄積される。終了した時点で、結果が数学エンジンの外部に記憶される。マトリクスＡ^Ｈは、シフトレジスタの値によって表され、マトリクスＡの値は、Ａ^Ｈメモリにおいて、虚数値の逆関数で表される。これは、（図１に示す）複素乗算器アレイ４０内で、これら虚数値の共役をとることによって行われる。

図３Ｄに、マトリクスＡ^Ｈの第１行の第１フォールドと、マトリクスＡの第１列の第１フォールドとの乗算を示す。この乗算の結果は、蓄積レジスタ５９に記憶される。図３Ｅに、マトリクスＡ^Ｈの第１行の第２フォールドと、マトリクスＡの第１列の第２フォールドとの乗算を示す。この乗算の蓄積結果は、前の蓄積値に加算され、蓄積レジスタ５９に記憶される。図３Ｆに、マトリクスＡ^Ｈの第１行の第３フォールドと、マトリクスＡの第１列の第３フォールドとの乗算を示す。この乗算の蓄積結果は、前の蓄積値に加算され、蓄積レジスタ５９に記憶される。蓄積レジスタ５９に記憶された値は、マトリクスＡ^ＨＡの第１ロケーションを表し、さらなる処理のために外部に記憶される。この乗算には、各フォールドごとに１クロックで、合計３クロックかかるが、マトリクスＡ^Ｈの第１行の第１フォールドと、マトリクスＡの第２の有効な列の第１フォールドと、の乗算を示す図３Ｇには、第１クロックしか示していない。この乗算の結果は、蓄積レジスタ５９に記憶される。このプロセスは３クロックの間続き、最終的に、蓄積された結果は、さらに処理するため、外部に記憶される。

図２Ｃからは、１６個のゼロがどのようにシフトレジスタ３３の左側からシフトインされ、その結果、マトリクスＡ^Ｈの第２行ブロックが、この計算ウィンドウで用いられる入力ウィンドウを通して見られる、ことが分かる。このプロセスには１クロックしかかからず、残りの計算と並行して実行することができ、それによってかなりの時間が節約される。マトリクスＡ^Ｈのサブブロックの第１行をこのようにシフトしたものには、計算ウィンドウで用いられる値の、Ａ^Ｈのサブブロックのシフトされたサブブロックごとに、マトリクスＡのサブブロックのすべての有効な列を乗算しなければならない。

Ａ^Ｈの第１の有効な行のすべてのフォールドに、計算に用いられる入力ウィンドウに含まれるマトリクスＡのサブブロックのすべての有効な列を乗算した後で、他の有効な行ごとに、この同じプロセス全体を実行する。このように順番が狂ったプロセスが実行されるので、Ａ^Ｈのサブブロックのシフトされたサブブロック用にＡ^Ｈの行をロードし直す必要がない。

次に、第２実施形態として、図４Ａ〜図４Ｄおよび図５Ａ〜図５Ｉを参照して、図１の数学エンジンによって行われるＡ^Ｈ _ｒ関数を説明する。Ａ^Ｈ _ｒ関数は、マトリクスＡ^Ｈ全体と、受信したベクトル（ｒ）との乗算である。マトリクスＡ^Ｈは、全体として記憶されておらず、Ａ^Ｈ行ブロックと呼ぶ比較的小さい部分しか実際に記憶されていない。実際には、マトリクスＡ^Ｈ中の他のすべての値は、Ａ^Ｈ行ブロックの繰り返しか、またはゼロである。したがって、Ａ^Ｈは、Ａ^Ｈ行ブロックの複素アドレシング方式として記憶することができる。

例えば、広帯域ＴＤＤの３Ｇ（third generation）データバーストタイプ１または３の中には、全部で６１個のＡ^Ｈ行ブロックがあり、バーストタイプ２のタイムスロットには全部で６９個のＡ^Ｈ行ブロックがある。実際には、２つのベクトルｒがあり、一方はデータフィールド１用のものであり、他方はデータフィールド２用のものである。簡単にするために、１つのベクトルｒについてこの関数を説明する。ついで、第２のデータのセットのベクトルについてこのプロセスを繰り返す。

図４Ａは、Ａ^Ｈ _ｒのマトリクス乗算を示す図である。Ａ^Ｈ行ブロックは、マトリクスＡ^Ｈ全体を通して繰り返され、残りはすべてゼロである。Ａ^Ｈ行ブロックの行の、４つの行のうち２つは前の処理によって無効になっている。

Ａ^Ｈ _ｒ関数を計算する第１ステップは、数学エンジンのシフトレジスタ３３全体に、ベクトルｒの値をあらかじめロードすることである。（図１に示す）シフトレジスタ３３は、ＳＤＩＳ３４によって直列ロードされる。マトリクスＡ^Ｈは、ＰＰＤＩＳ３１で提供される。

Ａ^Ｈ _ｒの計算のステップ的なプロセスを開始するために、図４Ｂに、マトリクスＡ^Ｈの第１行とベクトルｒとの計算を示す。

ベクトルＡ^Ｈの第１のＳＦ＋Ｗ−１の値だけがゼロでない値を含むので、この行の積の第１部分のみを計算する。ＰＥは２０個しかないので、複数のステップ（例えば、フォールド）で乗算を実行しなければならない。この実施形態では、Ｗが２９なので、ＳＦ＋Ｗ−１は４４になる。ＳＦ＋Ｗ−１をＰＥの数（２０）で除算し、それを切り上げると、Ａ^Ｈの行の有効な部分と、ベクトルｒの有効な部分との全内積計算を行うには、全部で３つのフォールドまたは３つのクロックの乗算および蓄積を行う。図５Ａ、図５Ｂ、および図５Ｃに示す最初の３つのクロックに、このマトリクスの行とベクトルの内積の最初の値を計算する段階的なプロセスを示す。

図５Ａは、Ａ^Ｈの第１行の第１フォールドに、ベクトルｒの第１フォールドを乗算し、その結果を蓄積レジスタ５９に記憶するところを示す。図５Ｂに、Ａ^Ｈの第１行の第２フォールドに、ベクトルｒの第２フォールドを乗算し、その結果を、現時点で蓄積レジスタ５９内にある結果に加算するところを示す。図５Ｃに、Ａ^Ｈの第１行の第３フォールドに、ベクトルｒの第３フォールドを乗算し、その結果を、現時点で蓄積レジスタ５９内にある結果に加算するところを示す。この時点で、得られた蓄積値は、第１のＡ^Ｈ _ｒ計算ポイントとして記憶される。

次のステップは、現時点で計算された記号（シンボル）を用いて、このＡ^Ｈ行ブロックの次の有効な行の計算を行うステップである。これは、図４Ｃに示すように、ベクトルｒの同じ部分にＡ^Ｈの新しい行を乗算するというものである。このベクトルｒは、同一にできるが、Ａ^Ｈメモリでは、Ａ^Ｈの異なる行にアクセスする。図５Ｄ、図５Ｅ、および図５Ｆに、この場合も、３つのクロックを示す。これらの図は、３つのすべてのフォールドの乗算／蓄積を示している。図５Ｄは、Ａ^Ｈの第３行の第１フォールドに、ベクトルｒの第１フォールドを乗算し、その結果を蓄積レジスタ５９に記憶する例を示す。図５Ｅは、Ａ^Ｈの第３行の第２フォールドに、ベクトルｒの第２フォールドを乗算し、その結果を、現時点で蓄積レジスタ５９内にある結果に加算する例を示す。図５Ｆは、Ａ^Ｈの第３行の第３フォールドに、ベクトルｒの第３フォールドを乗算し、その結果を、現時点で蓄積レジスタ５９にある結果に加算する例を示す。この時点で、得られた蓄積値は、第２のＡ^Ｈ _ｒ計算ポイントとして記憶される。

次のステップは、このベクトルｒを用いて、Ａ^Ｈの第２行ブロックの計算を開始するステップである。このステップでは、Ａ^Ｈの第２行サブブロックの有効な各行にベクトルｒが乗算される。Ａ^Ｈのサブブロックが乗算されるベクトルｒは、異なる。というのは、次の行には、後側から、１６個の値のみがシフトインされているからである。図４Ｄに、計算に関与する部分を強調して表示する。

記憶されたＡ^Ｈ行ブロックは移動しないので、このベクトルｒのうち、新しいＡ^Ｈ行ブロックの行が乗算される部分を、アラインし直す（re-align）ため、このベクトルｒをシフトしなければならない。これは、シフトレジスタ３３に、１６個のクロックで１６個の新しい値をシフトインし、ベクトルｒの最初の複数の値を切り捨てる、ことにより行われる。このプロセスにおける最初の２つのクロックを、図５Ｇおよび図５Ｈに示すが、残りのクロックについては推測できるであろう。その後、第１のＡ^Ｈ行ブロックについて用いたのと同じプロセスを開始するが、この繰り返しオペレーションの最初のクロックを、第１のＡ^Ｈ行ブロックの最初のクロックと比較して示す。

図５Ｇは、シフトレジスタにおいて、ベクトルｒの第１の値が右側からシフトインされ、このシフトレジスタに入れられた１番目の値が失われる例を示す。図５Ｈは、ベクトルｒの第２の値がこのシフトレジスタにシフトインされ、このレジスタに入れられた２番目の値が失われる例を示す。図５Ｉは、Ａ^Ｈ _ｒの第１行ブロックの第１の計算の場合とまったく同様に、Ａ^Ｈの第１行に、新たにシフトインされたベクトルｒの第１フォールドが乗算され、その結果が蓄積レジスタ５９に記憶される例を示す。このプロセスは、Ａ^Ｈの各行ブロックごとに、Ａ^Ｈの各行ブロックの有効行のフォールドについて、継続する。

第３の実施形態を説明する。図１の数学エンジンによって行われるSteinerアルゴリズムを、図６Ａ〜図６Ｄを参照して説明する。これらの図は、この数学エンジンを使用して、４５６ポイントSteinerについて３ポイントＤＦＴを行うプロセスを示す。図６Ａ〜図６Ｃは第１のＤＦＴを計算する例を示すが、各図においてクロックは異なる。図に示すように、このＤＦＴのうちの最初の３つのアドレスは、既にメモリに直列にロードされており、そのため、これら３つのアドレスには、ＰＰＤＩＳ３１（図１）を介して同時に並列にアクセスすることができる。このＤＦＴのために用いられる回転因子（Twiddle Factors）は、ＳＰＤＩＳ３６（図１）を介して入力される。

これら３つのクロックでは、それぞれ、アドレス０、アドレス１５２、およびアドレス３０４における第１のＤＦＴ入力には、ＤＦＴのこのポイントに固有な回転因子の３つのセットの１つが、乗算される。これら３つの計算結果は、図１の数学エンジン外に送られる。

図６Ａにおいて、回転因子セット１の３つのポイントに、ＤＦＴ１の３つのポイントが乗算され、その結果が外部に記憶される。第２のＤＦＴの第１ポイントがメモリの次の行にロードされる。図６Ｂにおいては、回転因子セット２の３つのポイントに、ＤＦＴ１の３つのポイントを乗算し、この乗算結果を外部に記憶する。第２のＤＦＴの第２ポイントをメモリの次の行にロードする。図６Ｃにおいては、回転因子セット３の３つのポイントに、ＤＦＴ１の３つのポイントを乗算し、この乗算結果を外部に記憶する。第２のＤＦＴの第３ポイントをこのメモリの次の行にロードする。

図６Ｄは、次のＤＦＴの第１ポイントが、回転因子セット１と計算され、回転因子セット２及び３との計算が後続のクロックにおいて行われる例を示す。６４ポイントＤＦＴについての計算は、わずかに異なる方法で行われる。すなわち、この方法においては、ＤＦＴセットと回転因子セットとの乗算が、連続した４つのクロックにおいて行われ、この乗算結果が蓄積され、その後、記憶される。

図６Ｄにおいては、回転因子セット１の３つのポイントに、ＤＦＴ２の３つのポイントが乗算され、この乗算結果が外部に記憶される。第３のＤＦＴの第１ポイントがメモリの次の行にロードされる。この乗算が、３ポイントＤＦＴについて、それぞれ、３つの回転因子セットすべてについて、継続される。他のＤＦＴについても同様である。すなわち、８ポイントＤＦＴは８つの回転因子セットについて行われ、１９ポイントＤＦＴが１９個の回転因子セットについて行われ、６４ポイントＤＦＴが６４個の回転因子セットについて行われる。

図７Ａ〜図７Ｃを参照すると、本発明に係る数学エンジンの入力を選択的にイネーブルにすると、この数学エンジンが、Ａ^ＨＡ、Ａ^Ｈ _ｒ、および、Steiner関数をパフォームできることができる、ことが分かる。図７Ａに示すように、Ａ^ＨＡ関数については、Ａ^ＨＡ演算において、システム応答マトリクス（Ａ^Ｈ）を提供するため、ＰＰＤＩＳ入力のみが使用され、このシステム応答マトリクスに、その複素共役転置マトリクスの値が乗算される。このシフトレジスタの並列ロード機能を用いると、この複素乗算器アレイにはその入力の１つの共役をとる能力があるので、必須のフォールドの個数によって、ｘ個のクロックサイクルにおいて（ただし、１≦ｘ≦ｎ、ｎはフォールドの最大個数）各ポイントが計算される。

図７Ｂを参照すると、Ａ^Ｈ _ｒ関数については、ＰＰＤＩＳにより、システム応答マトリクス（Ａ^Ｈ）が提供される。さらに、直列入力を利用して、受信したベクトル（ｒ）のデータフィールドがＡ^Ｈ _ｒ演算に提供される。あるタイムスロットについて、このシステム応答マトリクス（Ａ^Ｈ）に、受信したベクトルｒのデータフィールドが乗算される。このシフトレジスタの直列ロード機能を用いて、このデータフィールドがシフトレジスタにロードされ、システム応答マトリクスが１次並列入力に提供される。得られるベクトルの各要素は、必須のフォールドの個数によって、ｘ個のクロックサイクルにおいて（ただし、１≦ｘ≦ｎ、ｎはフォールドの最大個数）計算される。

図７Ｃに示すように、Steinerオペレーション（ＦＦＴ）については、ＰＰＤＩＳにより、ＦＦＴ入力データセットが提供され、ＳＰＤＩＳにより、ＦＦＴ回転因子が提供される。ｍポイントＦＦＴにおけるＦＦＴオペレーションにおいて、ＰＰＤＩＳによってこのデータセットの適正なｍ個のポイントが複素乗算器アレイに供給され、ＳＰＤＩＳによって適正なＦＦＴ回転因子が供給される。

本発明に係る数学エンジンを示すブロック図である。システム応答マトリクス（Ａ^Ｈ）とその複素共役転置マトリクス（Ａ）とを乗算して、自己相関マトリクス（Ａ^ＨＡ）を計算する説明図である。システム応答マトリクス（Ａ^Ｈ）とその複素共役転置マトリクス（Ａ）とを乗算して、自己相関マトリクス（Ａ^ＨＡ）を計算する説明図である。システム応答マトリクス（Ａ^Ｈ）とその複素共役転置マトリクス（Ａ）とを乗算して、自己相関マトリクス（Ａ^ＨＡ）を計算する説明図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^ＨＡ関数に必須の計算を行う図１の数学エンジンを示す図である。マトリクスＡ^Ｈと受信信号ベクトル（ｒ）との乗算を示す図である。マトリクスＡ^Ｈと受信信号ベクトル（ｒ）との乗算を示す図である。マトリクスＡ^Ｈと受信信号ベクトル（ｒ）との乗算を示す図である。マトリクスＡ^Ｈと受信信号ベクトル（ｒ）との乗算を示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。Ａ^Ｈ _ｒ関数に必須の計算を行う図１の数学エンジンを示す図である。ＤＦＴに必須の計算を行う図１の数学エンジンを示す図である。ＤＦＴに必須の計算を行う図１の数学エンジンを示す図である。ＤＦＴに必須の計算を行う図１の数学エンジンを示す図である。ＤＦＴに必須の計算を行う図１の数学エンジンを示す図である。入力源の選択的使用を示す図である。入力源の選択的使用を示す図である。入力源の選択的使用を示す図である。

Claims

並列出力を有するシフトレジスタと、
前記シフトレジスタから出力されたデータを並列に処理する複数の乗算器、及び前記乗算器の各々から出力された処理されたデータを加算する加算器ツリーを有するプロセッサであって、前記乗算器の数によって決まる処理容量が、前記シフトレジスタの処理容量よりも小さいプロセッサと、
前記シフトレジスタが前記並列出力から選択的にデータを出力し、前記プロセッサの処理容量に適合するように制御する手段と
を備えたことを特徴とする演算装置。
前記シフトレジスタから出力されたデータを選択的に受け取り、前記プロセッサの乗算器に選択的に入力するマルチプレクサをさらに備えたことを特徴とする請求項１に記載の演算装置。
直列入力及び並列入力を有する前記シフトレジスタは、前記シフトレジスタの直列入力及び並列入力を選択的に有効にするイネーブル回路をさらに備えたことを特徴とする請求項１又は２に記載の演算装置。
前記シフトレジスタ及び前記プロセッサの乗算器と関連付けられた第１の入力メモリと、
実行される演算のタイプに基づき、前記第１の入力メモリから前記シフトレジスタ及び前記プロセッサの乗算器に選択的に入力可能にする選択回路と
さらに備えたことを特徴とする請求項１乃至３のいずれかに記載の演算装置。
前記選択回路によって前記実行される演算のタイプに基づき前記プロセッサの乗算器に選択的に入力可能にされた第２の入力メモリをさらに備えたことを特徴とする請求項４に記載の演算装置。
前記シフトレジスタは、少なくとも１つの入力メモリからデータを受け取る選択可能なメモリと、前記シフトレジスタが複数のフォールドを介して選択可能な出力を提供するように制御する手段とを備え、前記フォールドが、それぞれ、前記プロセッサの処理容量に適合する容量を有し、前記選択可能なメモリ内に少なくとも１つの異なるロケーションを含むことを特徴とする請求項１乃至５のいずれかに記載の演算装置。
前記実行される演算のタイプに基づき、前記加算器ツリーからの各出力を受け取り、かつ選択的に蓄積するアキュムレーション回路をさらに備えたことを特徴とする請求項１乃至６のいずれかに記載の演算装置。
実部及び虚部を含む複素値データを受け取るメモリと、
複素関数に関する演算因子を記憶する記憶領域と、
前記メモリ又は前記記憶領域を介して前記シフトレジスタからの入力を選択的に受け取るマルチプレクサと、
前記加算器ツリーから出力を受け取り、蓄積された複素出力を供給するアキュムレータ回路と
をさらに備え、前記プロセッサが、前記メモリによって記憶された、選択されたビット位置からのデータと前記マルチプレクサからのデータ出力を処理するように複数の前記乗算器から構成されていることを特徴とする請求項１に記載の演算装置。
前記記憶領域は、ＤＦＴ（discrete Fourier transform）を行うため回転因子を演算因子として供給し、前記マルチプレクサは、前記回転因子を使用するとき、その入力を前記記憶領域から受け取ることを特徴とする請求項８に記載の演算装置。
前記プロセッサは、実部と虚部を含む複素値データを処理するように構成されたことを特徴とする請求項１乃至９のいずれかに記載の演算装置。
無線通信信号の処理を容易にする請求項１乃至１０のいずれかに記載された演算装置を備えたことを特徴とする通信装置。
並列出力を有するシフトレジスタと、加算器ツリーと複数の乗算器とを有し、前記乗算器の数によって処理容量が決まり、前記シフトレジスタよりも処理容量が小さいプロセッサと、を備えた演算装置に実装可能な方法であって、
前記プロセッサが前記シフトレジスタにおいて処理されたデータを受信するステップと、
前記プロセッサの処理容量と適合するようにデータを選択的に出力させる前記シフトレジスタを制御するステップと、
前記プロセッサの乗算器が前記シフトレジスタから出力されたデータを並列に処理するステップと、
前記加算器ツリーが前記乗算器から出力されたデータを加算するステップと
を有することを特徴とするデータ処理方法。
前記演算装置がマルチプレクサをさらに備え、マルチプレクサによって、前記シフトレジスタからの出力データを選択的に受け取り、前記シフトレジスタから前記乗算器にデータを選択的に供給させるステップをさらに有することを特徴とする請求項１２に記載のデータ処理方法。
前記シフトレジスタは直列入力と並列入力を有し、実行されるデータ処理の演算のタイプに基づき、前記シフトレジスタの直列入力と並列入力とを選択するステップをさらに有することを特徴とする請求項１２又は１３に記載のデータ処理方法。
前記演算装置が前記シフトレジスタと前記プロセッサの乗算器とに関連付けられた第１の入力メモリをさらに備え、実行されるデータ処理の演算のタイプに基づき、前記第１の入力メモリから前記シフトレジスタと前記プロセッサの乗算器とに選択的にデータを入力するステップをさらに有することを特徴とする請求項１２乃至１４のいずれかに記載のデータ処理方法。
前記演算装置が前記プロセッサに関連付けられた第２の入力メモリをさらに備え、実行されるデータ処理の演算のタイプに基づいて、前記第２の入力メモリから前記プロセッサに選択的にデータを入力するステップをさらに有することを特徴とする請求項１５に記載のデータ処理方法。
処理されるデータは、実部と虚部を含む複素値データであることを特徴とする請求項１２乃至１６に記載のデータ処理方法。
無線通信信号の処理を容易にするように通信装置に実装可能なことを特徴とする請求項１２乃至１７に記載のデータ処理方法。