JP2005504394A

JP2005504394A - デジタル信号処理でコンボリューション演算を効率的に行うプログラマブルアレイ

Info

Publication number: JP2005504394A
Application number: JP2003533145A
Authority: JP
Inventors: ジョフリー、エフ．バーンズ; クリシュナムルシイ、バイドヤナサン
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-10-01
Filing date: 2002-09-11
Publication date: 2005-02-10
Also published as: EP1466265A2; KR20040041650A; US20030065904A1; WO2003030010A3; WO2003030010A2

Abstract

デジタル信号処理のためのコンポーネントアーキテクチャが提案される。同一のプロセッサから構成される２次元のリコンフィギュラブルなアレイであって、各プロセッサは最近隣セルと通信するアレイは、コンボリューション演算、有限インパルス（ＦＩＲ）応答、及び適応有限インパルス応答を対応づけることのできる、簡単でパワー効率の良いプロットフォームを与える。適応ＦＩＲは、簡単なプログラムを各セルにダウンロードすることによって実現される。各プログラムは、ローカルタップアップデート、係数アップデート及び最近隣のものとの通信のための、周期的な演算処理を定める。定常状態処理の間、メモリとの高帯域通信は必要とされない。このコンポーネントアーキテクチャは、外部コントローラ、即ち汎用目的デジタルシグナルプロセッサに相互接続されて、スタティックなコンフィギュレーションをもたらし、あるいは定常状態処理を補足する。

Description

【技術分野】
【０００１】
本発明は、デジタル信号処理に関し、特に、集積回路におけるデジタル信号処理を最適化することに関する。
【背景技術】
【０００２】
コンボリューション演算はデジタル信号処理において一般的であり、有限インパルス応答（ＦＩＲ）フィルタを実現するために用いられる。以下は、係数ベクトルＣを有するデータ信号Ｘのコンボリューションを一般的に表現したものである。
【０００３】
【数１】

ここで、データ信号Ｘと、システム応答すなわちフィルタ係数ベクトルＣとは両方とも因果関係がある。
【０００４】
各出力データYn,2Nに対して、メモリからのデータフェッチ、Ｎ回の乗算及びＮ個の積の和が実行されなければならない。メモリトランザクションは通常、２つの離れたメモリロケーションから実行され、１つは係数Ｃｉ、もう一つはデータＸｎ−ｉである。係数が定常動作動作期間中に頻繁にアップデートされるリアルタイム適応フィルタの場合、係数をアップデート及びストアするため、追加のメモリトランザクション及び算術演算を実行しなければならない。汎用目的のデジタルシグナルプロセッサは特に、フォン・ノイマン型プロセッサにおいてこの演算を効率的に実行するために最適化されてきた。しかしながら、ある用途においては、高信号処理レートと過酷なパワー消費制約とが衝突し、汎用目的デジタルシグナルプロセッサは依然として非現実的なままである。
【０００５】
そのような制約に対処するため、多数のアルゴリズ的でアーキテクチャ的な方法が用いられてきた。ある一般的な方法は、周波数領域において処理を実行することである。従って、アルゴリズム的に、コンボリューション演算は、ある変換、例えばフーリエ変換を用いてスペクトラムの形に変換でき、その後、逆変換により所望の和を生成できる。多くの場合において、効率的な高速フーリエ変換技術は、実際に、時間ドメインでの元のコンボリューション演算よりも、全体の計算負荷を減少する。単一キャリアの地上波チャネルのデコーディングの背景においては、まさにそのような技術は、ＡＴＳＣ８−ＶＳＢイコライザの部分的な実行のために提案されてきており、ここに述べられた一般的な課題に基づいた、出願人Dagnachew Birruの米国特許出願０９−８４０２０３、０９−８４０２００号明細書においてより完全に述べられている。これらの出願の全テキストはここに参考として組み入れられる。
【０００６】
アルゴリズム要件あるいはメモリ制約のためにコンボリューション演算を周波数領域に容易に変換できない場合は、特定のASICプロセッサが、コンボリューション演算を実行するために、また、適応係数アップデートアルゴリズムにおける詳細な選択に対応するために提案されてきており、これらのことは、高速度データ通信のためのGrayverによるA.リコンフィギュラブル8 GOP ASICアーキテクチャ、通信で上等部門のIEEEジャーナルVol.18, No.11（２０００年１１月）、及びE.Dujardin and O.Gay-Bellileによるデジタル通信のためのプログラマブルアーキテクチャ：単一キャリア研究、ISPACS２０００、ホノルル、２０００年１１月に述べられている。
【０００７】
そのようなASIC構想の重要な特徴は、（１）特化されたセルが演算ハードウェア及びメモリを備え、係数及び状態の記憶を伴って全てのタップ演算をローカライズすること（２）セルの機能がローカルにプログラムされ、種々のセル間で複製されること、を含む。
【０００８】
進んだリコンフィギュラブルマルチプロセッサシステムにおける研究が、複雑なワークステーション処理システムに適用され成功した。Michael Taylorは、洗練されていないプロトタイプ設計ドキュメント、MITコンピュータサイエンス研究所、２００１年１月において、例えば、ダイナミックプログラマブル通信ネットワークと同様に、スタティックなプログラマブルネットワークを用いて通信するプログラマブルプロセッサ“tiles（タイル）”のアレイについて述べている。スタティックなネットワークは、コンフィギュレーションの間定義される相互接続によってリコンフィギュラブルなクロスバネットワークを用いて任意のプロセッサを接続し、一方、ダイナミックネットワークは、ダイナミックルーティングを用いて、パケット転送スキームを実行する。それぞれの場合において、相互接続は、ソースセルからプログラムされる。
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかしながら、上述した全てのアーキテクチャラルな解決手法では、（Grayverの文献にあるように）一次元のチェーンにフィルタが制限されることにより柔軟性が弱められ、あるいは、取り扱う処理の範囲がコンボリューション演算を越えるため複雑性が高くなる。それ故、現在のシステムは、提案されたものか現存しているものかを問わず、柔軟性と簡易性との両方を備えるものではない。
【００１０】
よって、これらのスキームに対する優位な改善は、コンボリューション演算の問題に対する柔軟性を高め、さらに簡潔なプログラム及び通信コントロールを維持することである。
【課題を解決するための手段】
【００１１】
コンボリューション演算機能の実行及び他のデジタル信号処理動作のためのコンポーネントアーキテクチャが提案される。同一プロセッサの２次元アレイは、各プロセッサが最近隣プロセッサと通信し、単純でパワー効率のよいプラットフォームを提供し、コンボリューション演算、有限インパルス応答（FIR）フィルタ及び適応有限インパルスフィルタがそのプラットフォームに対応づけられ得る。適応FIRは簡単なプログラムを各セルにダウンロードすることによって実現できる。各プログラムは、ローカルタップアップデート、係数アップデート及び最近隣セルとの通信を行うための周期的な演算処理を定める。定常状態処理の間、メモリとの高帯域通信は必要とされない。
【００１２】
このコンポーネントアーキテクチャは、外部コントローラ、即ち、汎用目的デジタルシグナルプロセッサと相互接続されて、スタティックなコンフィギュレーションを与え、あるいは定常状態処理を補足する。
【００１３】
好ましい実施例において、追加のアレイ構造が元のアレイに重ね合わせられ得、アレイ素子を含む追加のアレイ構造のメンバは、部分合計収束点に配置され、リソース利用効率を最大化する。
【００１４】
上述の従来技術を改良するアレイ構造は、以下の特徴、即ち、新しいデータが追加されたときセル間での状態の進行（progression）を許容する新規なセル間通信スキーム、演算結果の合計を実現する新規なシリアル追加構想、並びに、外部デバイスによる、セルプログラミング、状態及び係数へのアクセス、を備える。
【００１５】
本発明の基本的なアイデアは簡単である。DSP動作を実行するためのより効率的で柔軟なプラットフォームが与えられ、最近隣プロセッサとの通信を行うプロセッサアレイと、ローカルプログラムコントロールとを有する。
【発明を実施するための最良の形態】
【００１６】
以下、添付された図面を参照して、従来技術を越える本発明の利益及び本発明の詳細について説明する。
【００１７】
図１に示すように、同一プロセッサの２次元アレイ（ここに示された典型的な実施例では４×８）が描かれており、それぞれ、演算処理ハードウェア１１０、コントロール１２０、レジスタファイル１３０及び通信制御機能部１４０を備える。各プロセッサは、ローカルに記憶したデータ、あるいは、他のプロセッサからの入力データに基づいて、個々に演算処理を実行するようにプログラムされ得る。
【００１８】
理想的には、プロセッサは、スタートアップの間は、スタティックに構成され、定常状態動作期間は、周期的なスケジュールで動作する。このアーキテクチャを選択することで、演算処理によって状態及び係数の記憶を同じ場所に配置し、メモリ装置との高帯域通信を排除する利点がある。
【００１９】
以下は、本発明により達成される有益な事項である。
【００２０】
１．簡易な最適化を促進するため安定したセル及びアレイ構造を保持すること
２．より大きなアレイサイズへの拡張性のための用意
３．パワーを最小化し、通信ボトルネックを避けるために、ローカライズされた通信を可能な限り保持すること
４．複雑でないプログラミング
５．必要に応じて、方法と手段とを対応づけることを簡易に開発する許容性
図２は、プロセッサの相互通信アーキテクチャを示す。プログラミング及びルーティイングの簡易性を保ち、通信距離を最小化するため、通信は、最近隣のプロセッサ間に制限される。従って、あるプロセッサ２０１は、最近隣のプロセッサ２１０、２２０、２３０、２４０とだけ、通信できる。
【００２１】
図３に示すように、最近隣プロセッサとの通信は、通信対象である固定(bound)入力ポートを参照して、各プロセッサについて定められる。固定入力ポートは、単に、特定の最近隣の物理出力ポート３１０を、あるプロセッサの論理入力ポート３２０へ対応づけている。論理入力ポート３２０は、着目するプロセッサにおいて論理演算処理の対象になる。より好ましい実施例においては、各プロセッサ出力ポートは、最近隣のコンフィギュラブルな入力ポートに無条件に接続される。プロセッサの演算処理結果は、これらの物理出力ポートへ書込み可能であり、また、望むならば、前記プロセッサの最近隣、つまりアレイ素子が、そのデータを受け入れるようにプログラムされ得る。
【００２２】
図３に示すランダムアクセスコンフィギュレーション３３０に従って、スタティックコンフィギュレーションステップは、最近隣の出力ポート３１０の任意の組み合わせを論理入力ポート３２０へ対応づけることをロードできる。その対応付けは、Bind_inxレジスタ３４０に格納され、Bind_inxレジスタ３４０は、コンフィギュレーションマルチプレクサ３５０に選択信号として接続され、入ってくる最近隣のデータをアレイ素子すなわちプロセッサの内部論理入力ポートへ実際に接続する。
【００２３】
図３の典型的な装置は１セルあたり４つの出力ポートを表示しているが、別の実施例において、１つのセルにつき１つの出力ポートを有する簡易化されたアーキテクチャを実行して、コンフィギュラブルな入力ポートの複雑性を減少あるいは削除してもよい。この手段では、基本的に、最近隣セルを選択するために、内部演算プログラムに責任がおかれ、その最近隣セルの出力は、この場合、物理入力ポートに接続される入力として設計される。
【００２４】
言い換えると、図３に示す特徴は、コンフィギュレーションモードで実行されるように、ある特定のセルを１つの入力ポートに固定的に対応づけることを許容する。簡単な方法では、この入力固定ハードウェア及びこれに対応するコンフィギュレーションステップが除去され、ランタイムコントロールが、どのセル出力にアクセスするべきかを選択する。その接続は、簡単な上述の実施例と同一であるが、セル設計及びプログラミングの複雑性は簡素化される。
【００２５】
図３に示されるより複雑な固定メカニズムは、セル間でコントローラを共有するとき、要するに、“ＳＩＭＤ”（Single Instruction Multiple Data：単一命令複数データ処理）装置を作製するときに、最も有用である。
【００２６】
図４は、演算コントロール用のアーキテクチャを示す。プログラマブルデータパス素子４１０は、内部記憶レジスタ４２０あるいは入力データポート４３０の組み合わせで動作する。データパス演算結果４４０は、選択されたローカルレジスタ４５０あるいは出力ポート４６０のいずれかに書き込まれ得る。データパス素子４１０は、RISCのような動作をコード化したオペコード、つまり、ソースオペランド（srcx）及び目的オペランド（dxtx）によって、一貫性のあるオペコードにおいてコントロールされる。適応FIRフィルタの対応付けのため、簡易な巡回プログラムを各セルにダウンロードできる。コントローラは、プログラム記憶装置をアドレス指定する簡易なプログラムカウンタから構成され、結果として生じるオペコードがデータパスに適用される。係数と状態は、ローカルレジスタファイル内に記憶される。実施例において、タップ演算は、フィルタ加算を実現するために最近隣セルの演算結果(product)を一連に加算した後、上記２つを乗算することを伴う。さらに、フィルタ遅延ラインに沿って、状態の進行が、最近隣セル間で、レジスタシフトによって実現される。
【００２７】
さらに複雑なアレイセルが、“VLIW”（Very Large Instruction Word）コントローラによって制御される多数のデータパス素子で定められ得る。例えばARTデザイナのようなアーキテクチャ統合ツールによって生成されるようなASIP（application specific instruction processor）が、これらの複雑なアレイ処理素子を実現するために用いることができる。
【００２８】
本発明の典型的な実施において、図５〜図１１は、上述した本発明のアーキテクチャに従って構成及びプログラムされた４ｘ８のプロセッサアレイに、３２タップリアルFIRフィルタを対応づけた状態を示す。状態フロー及び後続のタップ演算は、図５に示すようにして実現され、第１のステップでは、３２個のセルのそれぞれは、そのフィルタの１タップを演算し、続くステップ（図６〜図１１に示す６回のプロセッササイクル）では、その演算結果が合計されて１つの最終演算結果になる。説明を簡単にするため、個々のアレイ素子を以降、アレイの素子(i,j)として示し、iは行、jは列であり、アレイの最上位の左側の素子を、最初すなわち(1,1)素子として定める。
【００２９】
図６〜図１１は、アレイを間で部分的な演算結果を合計する状態を詳述し、初期の合計段階の間、最近隣のものとの通信の構想の効率を示す。図６に示すステップにおいて、アレイの各行に沿って、列1-3は３：１加算を実行して演算結果が列２に記憶され、列4-6は３：１加算を実行して演算結果が列５に記憶され、列7-8は２：１加算を実行して演算結果が列８に記憶される。図７に示すステップにおいて、アレイの列2,5,8のそれぞれにおいて、行1-2、行3-4の中間合計が結合され、演算結果が素子(2,2)(2,5)(2,8)及び(3,2)(3,5)(3,8)にそれぞれ記憶される。これらのステップの間、プロセッサハードウェア及び相互接続ネットワークは、演算結果項を結合するのにうまく利用され、従って、入手できるリソースを効率よく利用している。
【００３０】
しかしながら、図８に示すステップによって、全アレイは、図７に示すステップの演算結果が記憶された３つのアレイ素子のペアを用いる加算ステップで占められなければならない。図９〜図１０に示すステップにおいて、全アレイは、図１１に示すようにして３つの部分合計を結合して最終演算結果を算出するために、これら３つの部分合計を近くのセルにシフトすることに占められ、最後の３：１加算で、アレイ素子(3,5)に最終演算結果を蓄積する。
【００３１】
容易に理解できるように、離れた部分合計を結合するためにアレイの残りをアイドル状態にすることはいくぶん非効率である。リソースをより望ましく利用して結合を促進するようなアーキテクチャの増強は、理想的には、簡易なアレイ構造及びプログラミングモデルを保持し、拡張可能性を維持するべきである。最近隣セルの要求を緩和して(relaxe)、追加のセルとの通信を許容することは、ルーティング及びプロセッサ設計を複雑にし、より大きなアレイにおいて近接問題(proximity problem)を妨げない。従って、好適な実施例においては、追加のアレイ構造は、元のものに重ねることができ、そのメンバは、最近隣セルの２つの３：１合計の後（例えば図６に示した段階の後）、部分合計収束点に配置されたアレイ素子から構成される。このことは、部分合計の収集に対して重要な増強を与える。
【００３２】
重ねられたアレイが図１２に示される。重ねられたアレイは、各素子が、最近隣素子として最も近い部分合計収束点を備える点を除き、下に横たわるアレイと同じアーキテクチャを保持する。同様に、２つのアレイ間の交わりは、部分和収束点で起こる。従って、好ましい実施例において、部分合計の第１の段階は、現存のアレイを用いて実行され、そこでは、リソース利用は好適なままであり、部分合計の後の段階は、重ねられたアレイにおいて同様に最近隣素子との通信で実行されるが、このノードは、元の部分合計収束点、例えば図１２における列２、５、８に存在する。図１２〜図１４は、最終演算結果へ向けて合計の結合を加速して行う状態を示す。
【００３３】
図１５は、重ねられた3x3アレイを有した9x9タップアレイを示す。従って、重ねられたアレイは、9x9アレイの各3x3ブロックの中心に収束点を有する。部分演算結果の結合を効率的に有するより大きなアレイは、収束点のアレイをさらに追加することによって可能である。結果として効率的に提供されるアレイサイズは９^Ｎ−１であり、Ｎはアレイの層数である。従って、Ｎ層に対しては、最大９^Ｎまで、セル出力は、最近隣セルとの通信を用いて効率的に結合される。即ち、フィルタ追加ツリーを完成させるために単にセル間でシフトしなければならない孤立の部分合計を有さない。
【００３４】
アレイサイズが増大するような再帰は、上述した例から容易に認識できる。図１２〜図１４は、最近隣セルとの通信を用いてタップ演算結果の合計を加速するためにどのように別のアレイレベルを用いるのかを示す。第２レベルは、ｘ３周期性を除き、オリジナルの下に横たわるレベルと同じであり、セルは、レベル０の９個のセルよりなるクラスタから部分合計を生成する下に横たわるセルに結合される。
【００３５】
必要なレベルの数は、アレイへの配置が望まれるセルの数に依存する。もし、四角形内に９タップからなるクラスタが存在すれば、最近隣のものとの通信は、ちょうど１アレイレベルで全ての項を合計でき、結果は中心セルに集まる。
【００３６】
８１セルまでのより大きなアレイに対しては、部分合計を受け取るために各クラスタの中心上にレベル１のセルを配置して９セルからなるクラスタにおけるセルを組織化し、レベル０とレベル１との両方で各クラスタを結合する。レベル１で、最近隣は、隣接したクラスタ（レベル１のアレイを伴わずに別の状況で孤立した部分合計を現時点で含んでいる）の出力である。９個のレベル０のセルからなるこの３ｘ３スーパークラスタに対して、演算結果は、レベル１の部分合計が結合された後、中心のレベル１のセルにおいて現れる。
【００３７】
８１より大きく、７２９（９^３）より小さいアレイに対しては、３ｘ３のレベル１のセルを備えた、８１個のレベル０のセルからなるスーパークラスタを組み立て、次いで、レベル２のセルをそのクラスタの中心セルの上に配置して、レベル１の部分合計を受け取る。全ての３つのレベルが互いに結合され、従って、レベル２セルは現時点で、最近隣のものとの通信を用いて、隣接するスーパークラスタからの部分演算結果を結合でき、演算結果は中心のレベル２のセルにおいて現れる。
【００３８】
スーパークラスタリングを再帰的に適用することによってアレイをさらに増大できる。もちろん、ある時点で、ＶＬＳＩワイヤ遅延制約が、上位レベルセルが物理的に遠くに離れる要因になり、最終的にアレイの拡張性を制限する。
【００３９】
次に、アレイ素子にコンフィギュレーションデータを送る方法と、アレイと外部プロセスと間でサンプルストリームを交換する方法とを述べる。小さなアレイとのサンプル交換と同様、コンフィギュレーションにも適した１つの方法を図１６に示す。ここで、バス１６１０は全てのアレイ素子を外部コントローラ１６２０に接続する。外部コントローラは、コンフィギュレーションあるいはデータ交換用のセルを選択でき、アドレスブロードキャスト及びローカルセルデコードメカニズム、あるいはさらにＲＡＭに用いられるような行及び列のプリデコーディング及び選択方法を用いる。この技術の魅力はその単純性にあるけれども、大きなアレイサイズで不十分にスケールし、大きなサンプル交換レートに対して通信ボトルネックになり得る。
【００４０】
図１７は、アレイと外部プロセスとの間で効率的にデータストリームを交換する、より拡張可能性のある方法を示す。アレイボーダにおける拡張Ｉ／Ｏポートは、アレイ階層の各レベルにおいて、アレイのルーティング及びコントロールを複雑にすることなく、ボーダセルへ好適にルートされる。任意の機能性及び結合性をアレイに加えることが便利であるが、ボーダセルは、アレイセルにおいて役立つように、通常、簡易なプログラミングモデルに従う。任意の機能性は、決定フィードバックイコライザのスライサのようなフィルタ間動作を挿入するために用いることができる。さらに、ボーダセルは、コントローラの介在がほとんどない状態で、外部ストリームＩ／Ｏを供給できる。好ましい実施例においては、図１６に示すスタティックコンフィギュレーション目的のためのバスは、図１７に示す定常状態通信のためのボーダプロセッサ（border processor）に沿って結合され、従って、ほとんどのあるいはあらゆる用途をサポートする。
【００４１】
上述したようなタップアレイ素子に対するデータフローを図１８にブロック図として示す。
【００４２】
最後に、特定の適用の場面における本発明の例として、図１９は、マルチスタンダードチャネルデコーダを示し、本発明によるリコンフィギュラブルなプロセッサアレイが、適応フィルタリング用に設定され、適応フィルタアレイ１９０１として機能する。前方におけるデジタルフィルタ、すなわちデジタルフロントエンド１９０２は、同じもの、あるいは本発明の装置を最適化したいくつかの他のバージョンにさらに対応付けできる。ＦＦＴ（fast fourier transform：高速フーリエ変換）モジュール１９０３は、ＦＥＣ(forward error correction：前方誤り訂正)モジュール１９０４と同様に、本発明による処理アレイに対応付けされ得るが、チャネルデコーディング用途においてこれらのモジュールにアレイ手段を適用する有用性は一般的にさほど高くない。
【００４３】
従って、本発明は、簡易なプログラム及び通信コントロールを保持しつつも、コンボリューション問題に対する柔軟性を増強する。同様に、適応ＦＩＲは、本発明を用いて各セルに簡易なプログラムをダウンロードすることによって実現できる。各プログラムは、ローカルタップアップデート、係数アップデート及び最近隣のものとの通信のための周期的な演算処理を定める。定常状態処理の間、メモリとの高帯域通信は必要とされない。
【００４４】
必要に応じて、フィルタサイズ、即ち対応付けられるフィルタの数は、本発明において、多くのチャネルデコーディング用途に要求される値を超えて拡張可能である。さらに、コンポーネントアーキテクチャは、アレイ構造を阻害せずに、すなわち、セル及びルーティングの最適化を難しくせずに、フィルタ無し機能、コントロール及び外部Ｉ／Ｏを提供する。
【００４５】
上述では本発明の好ましい実施例について述べたが、当業者であれば、種々の変形及び追加をなし得る。
【図面の簡単な説明】
【００４６】
【図１】本発明に従った、同一プロセッサのアレイを示す。
【図２】アレイにおける各プロセッサが最近隣セルと通信できることを示す。
【図３】本発明に従った、最近隣セルの出力ポートの任意の組み合わせを論理近隣入力ポートにロードするプログラマブルスタティックスキームを示す。
【図４】本発明に従った、セルの演算コントロールアーキテクチャを示す。
【図５】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図６】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図７】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図８】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図９】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図１０】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図１１】本発明に従って３２タップリアルＦＩＲを４ｘ８のプロセッサアレイに対応づけた状態を示す。
【図１２】本発明の好適な実施例に従って最終結果に向けて合計の結合を加速する状態を示す。
【図１３】本発明の好適な実施例に従って最終結果に向けて合計の結合を加速する状態を示す。
【図１４】本発明の好適な実施例に従って最終結果に向けて合計の結合を加速する状態を示す。
【図１５】本発明の好適な実施例に従った、重ねられた３ｘ３アレイを備えた９ｘ９タップアレイを示す。
【図１６】外部マイクロコントローラ及びランダムアクセスコンフィギュレーションバスを備えたアレイ装置を示す。
【図１７】アレイと外部プロセスとの間でデータストリームを正式に交換する、拡張性のある方法を示す。
【図１８】図１７に示すタップアレイ素子のブロック図を示す。
【図１９】本発明に従った典型的な適用例を示す。

Claims

デジタル信号処理を実行する装置であって、
プロセシングセルの２次元アレイを備え、
各セルは、最近隣セルと通信し、通信はローカルにプログラムされたことを特徴とする装置。
セル間通信は、前記最近隣セルに限定されたことを特徴とする請求項１に記載の装置。
前記最近隣セルとの通信は、プログラム可能なスタティックなスキームに従ったことを特徴とする請求項２に記載の装置。
全てのタップ演算、全ての係数及び状態の記憶は、各セルにおいてローカルになされることを特徴とする請求項３に記載の装置。
各セルは４つの出力ポートを備えたことを特徴とする請求項４に記載の装置。
各セルは、最近隣セルのそれぞれからの出力ポートのうちの１つ、内部で保持されたデータ、あるいはそれらの組み合わせを入力として受け取ることを特徴とする請求項５に記載の装置。
各プロセシングセルは、最近隣セルの出力ポートの種々の組み合わせを論理入力ポートに対応づけたものを記憶したメモリを有することを特徴とする請求項６に記載の装置。
前記メモリはレジスタを含むことを特徴とする請求項７に記載の装置。
各セルは、さらに、演算コントロールアーキテクチャを含むことを特徴とする請求項４乃至６のいずれかに記載の装置。
前記演算コントロールアーキテクチャは、ローカルコントローラ、内部記憶レジスタ、及びデータパス素子とを含むことを特徴とする請求項９に記載の装置。
前記データパス素子は少なくとも、加算、乗算及びシフト演算を実行可能に構成されたことを特徴とする請求項１０に記載の装置。
前記データパス素子は、前記ローカルコントローラによって、オペコードのようなRISCとされたことを特徴とする請求項１１に記載の装置。
前記算術コントロールアーキテクチャは、ローカルVLIWコントローラ、内部記憶レジスタ、及び複数のデータパス素子を含むことを特徴とする請求項９に記載の装置。
前記データパス素子はそれぞれ少なくとも加算、乗算及びシフト演算を実行可能に構成されたことを特徴とする請求項１３に記載の装置。
前記プロセシングセルは、ASIPとして実現されたことを特徴とする請求項１３に記載の装置。
前記ASIPは、アーキテクチャ統合ツールによって生成されたことを特徴とする請求項１５に記載の装置。
さらに、１以上重ねられたより小さい２次元アレイを備え、各重ねられたアレイは、１層低いアレイと、特定の収束点において通信する請求項９に記載の装置。
さらに、１以上重ねられたより小さい２次元アレイを備え、各重ねられたアレイは、１層低いアレイと、特定の収束点において通信する請求項１３に記載の装置。
全てのアレイ階層における利用可能なポートに接続し、外部プロセスとの通信を促進するプログラム可能なボーダセルをさらに含む請求項１７に記載の装置。
全てのアレイ階層における利用可能なポートに接続し、外部プロセスとの通信を促進するプログラム可能なボーダセルをさらに含む請求項１９に記載の装置。
デジタル信号処理による演算を効率的に行う方法であって、
プロセシング素子の２次元アレイへ前記演算を対応付け、各素子は最近隣素子とのみ通信し、通信はローカルにプログラムされたことを特徴とする方法。
各素子の演算処理はローカルにコントロールされ、全ての処理は、入力あるいは出力の通信対象、あるいはローカルレジスタに関連づけられたことを特徴とする請求項２１に記載の方法。
請求項９に記載の装置を含み、前記装置は、適応フィルタリングを実行することを特徴とするマルチスタンダードチャネルデコーダ。