JP2000503427A

JP2000503427A - 画像処理プロセッサ

Info

Publication number: JP2000503427A
Application number: JP09525576A
Authority: JP
Inventors: ハッハマンウルリヒ; ラープヴォルフガング; シャコヴアレクサンダー; ラーマッハーウルリヒ; シュフニーレーネ; ブリュルスニコラウス; グリーゼイェルク
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1996-01-15
Filing date: 1996-12-13
Publication date: 2000-03-21
Anticipated expiration: 2016-12-13
Also published as: US6049859A; JP3573755B2; WO1997026603A1; EP0875031A1; KR100415417B1; DE59607143D1; KR19990077230A; EP0875031B1

Abstract

(57)【要約】本発明は実質的にプロセッサユニットのマトリックス配置構成に関しており、この場合は各プロセッサユニットが算術論理演算ユニット（ＡＬＵ２）と結果レジスタ（ＲＥＧＦ）の他にさらなる算術論理演算ユニット（ＡＬＵ１）と、乗算器/加算器ユニット（ＭＡ）と、分割されたイメージセクションバッファの部分記憶ユニット（ＩＳＢ）と、ローカル汎用メモリ（ＧＢＭ）とを有している。このプロセッサは、僅かなチップ面にもかかわらず高い処理速度を有し、高度な計算力の必要なイメージ処理手法のもとでもリアルタイムの処理を可能にする。

Description

【発明の詳細な説明】画像処理プロセッサこの種のプロセッサは、例えば二次元コンボルーション、ガボール変換、ガウス又はラプラシアンピラミッド、ブロックマッチング、ＤＣＴ，ＭＰＥＧ２等の集約的コンピュータアルゴリズムの迅速な処理のために必要とされる。公知文献“Design und Electronic 12 ,13.06.1995,30‐35頁”からは、この目的のために例えば、次のような装置が公知である。すなわち臨界的計算時間の信号処理アルゴリズムが、思い通りのプログラミングが可能な特殊なプロセッサによって処理され、レジスタがオンチップメモリを介して供給を受け、複雑なクロスバースイッチがオンチップメモリとプロセッサの間の最適なコミュニケーションを確保する、装置が公知である。この場合の欠点は、オンチップメモリへの要求が高いことと、並行した演算装置の数が少ないことに基づく計算能力の低さである。さらに４つ以上の並行した信号プロセッサが使用されている場合には、通信コストの上昇と、それに伴うチップ面の増加が累算的となる。また公知のマイクロプロセッサレポート“The Insider's Guide to Microproc essor‐Hardware,Volume 8, Nr.13,Oktober 3,1994,5‐9頁”からは、２つの積分器と３つの不動小数点ユニットを有する、大規模なパイプライン式スーパースカラー６４ビットＲＩＳＣプロセッサが公知である。これは２つのグラフィックユニット、詳細には加減ユニットと、並列積分演算のための乗算ユニットによって拡張されている。しかしながらこの場合はレジスタポートの数が限られているため、２つの浮動小数点ないしグラフィックコマンドしか同時に処理することができない。このことは、画像処理における多くの要求に対する計算能力が不十分であることを意味する。さらに同様の公知のマイクロプロセッサレポート“The Insider's Guide to M icroprocessor‐Hardware,Decmber 6,1994,12‐15頁”からは、部分的に異なる複数の実行ユニットが設けられ、各命令毎にそれらのうちの５つまでが同時にアドレッシング可能であるプロセッサが公知である。この場合の欠点は比較的複雑なコンパイラである。これはプロセッサの全ての待ち時間を考慮し、パラレル命令がハードウエアに最適に対立なしで使用されることを保証するものである。１９９４年にシカゴで開かれたビジュアルコミュニケーションとイメージ処理（ＶＣＩＰ’９４）に関する国際会議の議事録や、１９９３年にカリフォルニアのサンディエゴで開かれたＩＥＥＥ国際会議“Custom Integrated Circuit Conf erence”の議事録4.6.1−4 .6.3からは、ローカルメモリと、ローカルメモリとプロセッサ素子の間のハイデータレートを有する高度な一次元パラレルＳＩＭＤプロセッサアレイが公知である。ここでは複雑な演算が個々の演算から統合的に構築され、この統合的演算の比較的長い実行時間がここでも大量のプロセッサ素子によって補償される。最初のケースではグローバルなマトリックスメモリが設けられ、これが個々のプロセッサ素子に対する二次元画像区分の分配を許可している。第２のケースでは、グローバルなコミュニケーション機能が一度はロードされたデータの多重使用を許容し、プロセッサアレイと外部メモリの間の所要のワイヤリング帯域幅を低減する。この場合の欠点は、困難なプログラミングと、パイプライン型プロセッサ素子の複雑な制御と、非パイプライン型プロセッサ素子の低い周波数と、大容量のオンチップメモリである。本発明の課題は、僅かな所要チップ面積のもとで、画像処理に頻繁に要される手法毎に可及的に高速な処理速度を達成することのできる、画像処理のためのプロセッサを提供することである。この課題は請求項１の特徴部分に記載の本発明によって解決される。本発明の有利な構成例は従属請求項に記載される。本発明の特に有利な点は、種々のデータフォーマットに対するシステムのスカラー処理性や再構成が容易なことである。また低コストなシステム構造、例えば本発明によるプロセッサの他には実質的に標準的なメモリチップしか必要とされないような画像処理システムやニューロコンピュータへの適合性も高い。さらに大きな利点は、前述したような集約的コンピュータ画像処理アルゴリズムのリアルタイム処理の可能性である。次に本発明を図面に基づき詳細に説明する。図１は画像処理のための本発明によるプロセッサのプロセッサ素子のブロック回路図である。図２Ａは図１によるプロセッサ素子の第１部分の詳細な回路図である。図２Ｂは、図１によるプロセッサ素子の第２部分の詳細な回路図である。図３は本発明によるプロセッサの第１実施例を示した図である。図４は本発明によるプロセッサの第２実施例を示した図である。図１には、画像処理のための本発明によるプロセッサのプロセッサ素子のブロック回路図が示されており、これは、算術論理演算ユニットＡＬＵ２、レジスタバンクＲＥＧＳ、イメージセクションバッファＩＳＢ、汎用メモリＧＰＭ、さらなる算術論理演算ユニットＡＬＵ１、乗算器/加算器ユニットＭＡを有している。算術論理演算ユニットＡＬＵ２は典型的には、加算部ＡＤＤ、値領域シフトのためのバレル回転子ＲＯＴ、ビット幅マッチングのための飽和装置ＳＡＴ、最上位ビットｍｓｂないし最下位ビットｌｓｂを決定する検出器ＤＥＴ、論理演算ユニットＬＵを有している。この乗算器/加算器ユニットＭＡは典型的には乗算器アレイＭＵＬＴＡからなっており、このアレイは一連の個々の乗算器を有している。その個々の結果は、後置接続されている加算器ツリーＡＤＤＴによって総括的な結果に統合される。バッファＩＳＢは、例えば２×２画素毎の情報を保持できる二次元の双方向シフトレジスタとして解されてもよい。バッファＩＳＢには画像データが、図中の垂直方向で入力/出力ポートｉｍ−ｄｏｗｎ，ｉｍ−ｕｐを介して、そして図中水平方向では入力/出力ポートｉｍ−ｌｅｆｔ，ｉｍ−ｒｉｇｈｔを介して読み込まれたり読み出されたりする。メモリＧＰＭは、標準メモリである。このメモリにはオンチップが設けられており、これはプロセッサ素子において第２のローカルデータ伝送部として使用され、グローバルバスｇ−ｂｕｓを介して供給されている。このメモリＧＰＭは、係数、回路コア、ビットマスク、ニューラルネットワーク等のための重み付けマトリックスを含んでいる。バッファＩＳＢの場合もメモリＧＰＭの場合も読み取りアクセスは、個々のデータに従ってではなく、データフォーマットに応じてマルチコンポーネントベクトルに対して行われる。総体的に全てのプロセッサエレメントのイメージセクションバッファは、分散された二次元イメージセクションバッファをあらわす。プロセッサエレメント間のローカルコネクションを介して、イメージセクションはピクセル毎に上下に又は左右にシフトされ得る。このことのために、エッジ長さｎのイメージセクションに対して、ｎ個のピクセルがバッファＩＳＢのセルアレイのそれぞれのエッジに追従されなければならない。プロセッサエレメントは、その画像セグメントに読み取りのみのアクセスしか生じさせない。１つのアクセスによって個別の１個のピクセルだけが読み取られるのではなく、画素フォーマットに応じて、すなわち精度に応じて、画素のベクトル、アレイが読み取られる。ローカルバッファＩＳＢ及びメモリＧＰＭからのデータはさらに算術論理演算ユニットＡＬＵ１に供給される。この算術論理演算ユニットＡＬＵ１の出力側は、乗算器/加算器ユニットＭＡの入力側に接続されている。この乗算器/加算器ユニットＭＡの出力側は、算術論理演算ユニットＡＬＵ２の入力側に接続されており、この算術論理演算ユニットＡＬＵ２の出力側はレジスタバンクＲＥＧＦに接続されている。レジスタバンクＲＥＧＦの出力側は同時にプロセッサエレメントの出力側ａｌｕ２−ｏである。レジスタバンクＲＥＧＦの出力側並びにプロセッサエレメントの入力側ａｌｕ２−ｉは、算術論理演算ユニットＡＬＵ２の入力側に接続されている。別の構成例では、入力側ａｌｕ２−ｉ及び/又はレジスタバンクＲＥＧＦの出力側は別の算術論理演算ユニットＡＬＵ１の入力側に接続可能である。また第３の構成例として、入力側ａｌｕ２−ｉ及び/又はレジスタバンクＲＥＧＦの出力側が、乗算器/加算器ユニットＭＡの入力側に接続されてもよい。さらに第４の構成例として、入力側ａｌｕ２−ｉ及び/又はレジスタバンクＲＥＧＦの出力側が、別の算術論理演算ユニットＡＬＵ１の入力側にも乗算器/加算器ユニットＭＡの入力側にも接続されてもよい。図２Ａと図２Ｂには、本発明による画像処理のためのプロセッサのプロセッサ素子の詳細が示されており、この場合図２Ａには実質的にバッファＩＳＢ、メモリＧＰＭ、別の算術論理演算ユニットＡＬＵ１、乗算加算ユニットＭＡが含まれており、図２Ｂには実質的に算術論理演算ユニットＡＬＵ２、レジスタバンクＲＥＧＦが含まれている。さらにいくつかのレジスタＣＲＥＧ，ＭＳＢＲＥＧ、ＳＴＡＴ、フォーマッタＦ１〜Ｆ４、エキスパンダＥＸＰ１〜ＥＸＰ３、マルチプレクサＭＵＸ０からＭＵＸ６が設けられている。これらは算術論理演算ユニットＡＬＵ１，ＡＬＵ２に加えられ、データの選択ないしはワード長のマッチングに用いられる。算術論理演算ユニットＡＬＵ１の入力データは、ここでは２つのイメージセクションバッファＩＳＢ１，ＩＳＢ２とメモリＧＰＭから供給される。２つのイメージセクションバッファは、例えばステレオイメージの処理の際に特に有利である。さらにここでは次のようなことも可能である。すなわち３２×３２ビット積の乗算器への供給を直接算術論理演算ユニットＡＬＵ２の結果レジスタから行うことが可能である。これは信号alu2_loc_out1を介して行われる。この場合最大で３つの入力ベクトルｉｎ＿ａ，ｉｎ＿ｂ，ｉｎ＿ｃが処理可能である。クロスバースイッチは、これらの３つの入力ベクトルに対する完全な融通性を保証する。イメージセクションバッファＩＳＢ１とＩＳＢ２は、その隣からないしイメージキャッシュからポートｉｍ＿ｕｐ，ｉｍ＿ｄｏｗｎ，ｉｍ＿ｒｉｇｈｔ，ｉｍ＿ｌｅｆｔを介して再ロードされる。イメージセクションバッファへのイメージセクションの事前ロードも再ロードとシフトを介して行われる。読み込みは信号ｉｍ＿ｏｐを介して制御される。この信号は、様々なシフト方向とステップサイズを示す。メモリＧＰＭは、そのデータをグローバルバスｇ＿ｂｕｓを介して得るか又はレジスタＲｅｇ０〜Ｒｅｇ１５（これらは算術論理演算ユニットＡＬＵ２に対する結果レジスタを形成する）を有するレジスタバンクＲＥＧＦから得る。バッファＩＳＢ１，ＩＳＢ２とメモリＧＰＭの出力データのデータフォーマットは、同一であり、例えばそれぞれ１２８ビット幅のベクトルを形成する。この場合このベクトルは４つの３２ビットデータか又は８つの１６ビットデータ、又は１６の８ビットデータを含む。論理演算ユニットＬＵ１ａ，ＬＵ１ｂは、信号ａｌｕ１ａ＿ｌｏｐないしａｌｕ１ｂ＿ｌｏｐによって制御され、各入力側ａ，ｂの論理結合を実行する。これらの入力側はクロスバースイッチを介してバッファＩＳＢ１，ＩＳＢ２、メモリＧＰＭに接続されている。これらの入力側のフォーマットは信号ａｌｕ１＿ｆｏｒｍを介してコミュニケーションされている。全てのバイナリ演算は、２つの入力側のフォーマットと同一でなければならない。それにより各論理演算ユニットは、１６の８ビットデータ対か８つの１６ビットデータ対又は４つの３２ビットデータ対を平行処理することができる。論理演算ユニットＬＵ１ａとＬＵ１ｂは例えば以下の論理演算を支援する。：ａ（バイパス）ＮＥＧａ、（ＮＯＴ）ａＡＮＤｂ、ａＮＡＮＤｂ、ａＯＲｂ、ａＮＯＲｂ、ａＸＯＲｂ、ａＸＮＯＲｂ、演算ユニットＡＵ１は、論理演算ユニットＬＵ１ａ，ＬＵ１ｂの出力信号の論理結合を実施する。さらにこのユニットＡＵ１は、補助入力側ｃとｄを有する。この場合補助入力側ｃは一定レジスタＣＲＥＧの出力側に接続され、補助入力側ｄは、クロスバースイッチを介してメモリに接続されている。このユニットＡＵ１で実施される演算は、信号ａｌｕ１＿ａｏｐと入力側フォーマットａｌｕ１＿ｆｏｒｍによって決定される。可能な桁拡張によって、出力フォーマットは、入力フォーマットに依存して９，１７，３３ビットになり、出力ベクトルは１３６ビットの幅を有するようになる。演算に関与する全ての入力側は同じフォーマットを有していなければならない。すなわち１６個の８ビットデータ対、又は８個の１６ビットデータ対、又は４個の３２ビットデータ対が並行処理される。演算ユニットＡＵ１は以下の演算を支援する。ａ（バイパス）、 −ａ（２の補数）、｜ａ｜（絶対値形成）、ａ＋ｂ、｜ａ＋ｂ｜、 −ａ＋ｂ、｜−ａ＋ｂ｜、 −（ａ−ｂ） −ａ−ｂ種々の閾値関数がａとｂを比較し、この比較に依存してａ，ｃ，ｄ，０の出力がなされる。乗算器ＭＵＸ０によって、制御信号ａｌｕ１ｏ２＿ｓｅｌに依存してユニットＬＵ１ａ又はＬＵ１ｂの出力信号ｌｏｇ＿ａ又はｌｏｇ＿ｂの１つが選択され、あるいはバッファ/メモリ内容が乗算器アレイに対するクロスバースイッチを介して選択される。一定レジスタＣＲＥＧは、例えばそれぞれ１２８ビットの４つのベクトルを記憶できる。演算ユニットＡＵ１の出力データアイテムを伴う事前ロードは、信号ｃｒｅｇ＿ｏｐに依存して行われる。レジスタ内容は、各クロックサイクル毎に送出される。このレジスタは、頻繁に繰り返し発生する定数の記憶とメモリＧＰＭの除去に用いられる。マルチプレクサＭＵＸ１とＭＵＸ２は、乗算入力データの選択と、信号ｍｕｌｔ＿ｉ１ｓｅｌ，ｍｕｌｔ＿ｉ２＿ｓｅｌに依存した乗算入力側ｉ１，ｉ２の対応付けに用いられる。このマルチプレクサの出力側までは、全てのデータがそれらが乗算ブロックのｉ１又はｉ２のどちらに対して定められているかにかかわらず統一されたフォーマットで存在する。入力側ｉ１，ｉ２は、種々のフォーマットと有し、乗算器アレイの個々の乗算器の入力側に直接接続される。マルチプレクサＭＵＸ１，ＭＵＸ２を介してレジスタバンクＲＥＧＦのレジスタも３２×３２ビット積に対して選択され得る。フォーマッタＦ１，Ｆ２によって、選択された乗算コンフィグレーション（これは信号ｍｕｌｔ＿ｆｏｒｍによって確定する）に依存して、乗算器アレイの入力データが処理される。データベクトルの全ての成分が処理されるわけではないコンフィグレーションに対しては、データセグメントを１３６ビットワード内で選択する必要がある。このことは信号ｍｕｌｔ＿ｉ１＿ｄａｔもしくは信号ｍｕｌｔ＿ｉ２＿ｄａｔを用いて行われる。この制御情報は、演算のアドレスの構成成分とみなされてもよい。例えば１６×３２ビットのもとでの乗算では、乗算器の入力側ｉ１は２つの１６ビットデータを必要とし、入力側ｉ２は２つの３２ビットデータを必要とする。これらは、ｉ１に対して供給された８つの１６ビットデータと、ｉ２に対して供給された４つの１６ビットデータから選択されなければならない。乗算器アレイＭＵＬＴＡはここでは８つの乗算器からなる。これらはそれぞれ１６ビットのビット幅を有している。入力データのフォーマットに応じて、これらの乗算器の（部分）結果は、後置接続された加算器ツリーＡＤＤＴにおいて正確な桁位置で唯一つの総結果の形成のために加算される。この総結果は、積の和であり、その数値もデータフォーマットに依存している。乗算器に対する唯一の制御ワードは、データフォーマットの確定のための信号ｍｕｌｔ＿ｆｏｒｍである。それによりどのデータフラグが乗算に対し符号の無い又は２の補数として補間されるべきかが内部制御される。加算器ツリーは、加算前の個々の積のシフト確定のために、信号ｍｕｌｔ＿ｆｏｒｍを必要とする。設定されたデータフォーマットに応じて乗算器／加算器ユニットＭＡは、以下の積からの和を計算する。８つの８×８ビット積、又は８つの８×１６ビット積、又は４つの１６×１６ビット積、又は４つの８×３２ビット積、又は２つの１６×３２ビット積、又は１つの３２×３２ビット積信号ａｄｄ＿ｓｅｌを用いて８つの部分積のそれぞれが選択的にブランク化され得る。このことは積の和の代わりに個々の積を明確にするのに重要である。フォーマッタＦ３は、結果レジスタＲＥＧＦからメモリＧＢＭへのデータ転送の際に関与する。フォーマットに応じて、結果データの下方の８，１６，３２ビットがフォーマッタＦ３によって収集され、１２８ビットワードが完全になるまでメモリＧＢＭに転送される。メモリＧＢＭは、個々のデータの書込みも許容するので、フォーマッタＦ３でのバッファなしでも転送が可能である。信号ｆｏｒｍａｔ３を介して、いくつのビットが（例えば８ビット、１６ビット、３２ビット）算術論理演算ユニット２から考慮されるべきかが通達される。算術論理演算ユニットＡＬＵ２のデータ送信部は、図２ｂにおいて結果レジスタバンクと乱数発生器ＲＮＤＧの出力により加算器ツリーＡＤＤＴの出力信号ａｄｄ＿ｔｒｅｅ＿ｏｕｔを形成する。結果レジスタバンクの２つの出力側は、バスａｌｕ２＿ｂｕｓ１，ａｌｕ２＿ｂｕｓ＿２を介して算術論理演算ユニットＡＬＵ１，ＡＬＵ２並びに乗算器/加算器ユニットＭＡに接続され、さらに各プロセッサ素子又は隣接するプロセッサ素子のレジスタから入力側ａｌｕ２＿ｉ１又はａｌｕ２＿ｉ２を介して給電される。バスａｌｕ２＿ｂｕｓ１は、さらにコントローラから即値を供給される。サイクルの４つの結果は、常時結果レジスタバンクの４セグメントレジスタにファイルされる。この場合１つのセグメントレジスタはそれぞれ例えば４×６４ビットを有している。レジスタバンクＲＥＧＦの結果レジスタは、４つの６４ワードを含み、４つのデータアイテムをあらわしている。３２×３２ビット積の累算のもとで生じる、１２８ビットの結果の計算の場合、レジスタｒｅｇ０〜ｒｅｇ１５のうちの１つが４つの６４最上位ビットを含み、それぞれの隣接レジスタが４つの結果の４つの６４最下位ビットを含む。最大/最小に対するインデックスデータは、４つのインデックス値に対するさらなるレジスタを占有する。このレジスタバンクは１つの入力ポートと３つの出力ポートを有する。クロスバースイッチを介して２つのバスａｌｕ２＿ｂｕｓ１とａｌｕ２＿ｂｕｓ２は、固有の結果レジスタからのデータ又は２つの異なる隣接プロセッサ素子からのデータを供給し得る。隣接プロセッサ素子のデータは、ポートａｌｕ２＿ｉ１とａｌｕ２−ｉ２から得られる。この場合選択は、マルチプレクサＭＵＸ５を介して行われる。第３のレジスタ出力側は、プロセッサ素子の出力側ａｌｕ２−ｏに接続されている。これは同時に次の隣接プロセッサ素子ないし評価ユニットへの接続をあらわす。評価ユニットへの結果の通過も可能である。これは例えばブロックマッチングの際の例えばグローバルな最大/最小サーチに対して必要とされる。レジスタバンクの書込み入力側は、マルチプレクサＭＵＸ４を介して算術論理演算ユニットＡＬＵ２の出力側に接続されている。レジスタの４つのセグメントの読み込み/読み出し順序は固定ではなく、アドレスに従って制御される。ここに記載されるプロセッサエレメントのレジスタバンクは、１６個の４−セグメントレジスタを含み、これは４×４プロセッサユニットを備えたプロセッサの場合、８キロバイトのレジスタ総記憶容量を意味する。チップ面がそれを許容するならば、この数は０．５キロバイト（但し有利には１キロバイト）の細分において任意に高めることができる。ユーザーは各装置サイクルにおいて５つの機能グループのうちの１つにアクセス可能である。これはソースレジスタから目標レジスタへのパラレルデータパスによって実現される。これらの各ループの待ち時間は、４つのクロックを有する１つの装置サイクルである。５つのデータパスは以下の通りである。１．累算加算器ＡＣＣＡＤＤ、最終加算器ＦＤＤ、マルチプレクサＭＵＸ３、エキスパンダＥＸＰ１〜ＥＸＰ３、乱数発生器ＲＮＤＧとの加算器ループ。この加算器ループの機能は、累算演算、最小/最大サーチ、乱数の加算、丸め演算、加算器ツリーからレジスタバンクの結果レジスタへの出力データの転送である。２．算術論理シフト/ローテーションや最小/最大サーチのサポートのためのバーレルローテータＲＯＴを有するシフター/ローテーターループ。３．６４ビット値から８，１６，３２ビットへの飽和のための及び最小/最大サーチのための飽和ループ。４．最上位ビットと最下位ビットの位置を求め、シフト操作又は飽和操作の際のオーバーフロー識別を可能にする検出器ループ。５．２つのオペランドの論理結合を可能にする論理ループ。累算加算器ＡＣＣＡＤＤは、入力側ｉ１における６６ビットのデータを入力側ｉ２における６７ビットのデータに加算するか又は、入力側ｉ２におけるデータを入力側ｉ１におけるデータから減算する。この結果は６４ビットのデータである。信号ａｃｃ＿ｏｐは加算か減算かの決定を下す。入力側ｉ１とｉ２の２つのデータは、２の補数表示に現れる。ファイナル加算器ＦＡＤＤは、累算加算器ＡＣＣＡＤＤの出力データから非冗長的な６７ビットフォーマットを形成する。そこからは６４の下位ビットがマルチプレクサＭＵＸ４に転送される。レジスタＭＳＢＲＥＧは、装置サイクルのそれぞれ４つのデータからファイナル加算器の３つのｍｓｂｓを記憶する。２重の値範囲を伴った加算では、これはその後に続くサイクルにおいて演算の完全性のために再び加算器ＡＣＣＡＤＤにフィードバックされる。エキスパンダＥＸＰ１は、６６ビットワードを２の補数表示においてレジスタＭＳＢＲＥＧからの３つのビットの拡張によって形成する。この場合レジスタＭＳＢＲＥＧからの３つのビットは、下位の３つの桁とその他の６３の桁を符号に応じて１と０で充たす。エキスパンダＥＸＰ２とＥＸＰ３は、符号なしか２の補数で存在する６４ビットワードから２の補数表示の６６ビットワードを形成する。マルチプレクサＭＵＸ３は、累算加算器ＡＣＣＡＤＤのｉ１に対する入力データを制御信号ａｃｃ＿ｉ１＿ｓｅｌに依存して選択する。この場合はエキスパンダＥＸＰ２を介したバスａｌｕ＿ｂｕｓ２、乱数発生器ＲＮＤＧの出力側、加算器ツリーの出力側又はエキスパンダＥＸＰ１の出力側、換言すれば先行の加算部からの伝送が選択可能である。乱数発生器ＲＮＤＧは、フィードバックシフトレジスタを介して事前にロードされた初期値に基づいて擬似乱数を発生する。これはバスａｌｕ２ｂｕｓ１のデータに加算可能である。初期値は、信号ｒｎｄ＿１ｄによってバスａｌｕ２＿ｂｕｓ１からロードされる。信号ｒｎｄ＿ｏｐによって新たな乱数が形成され、送出されるか又は発生器ユニットに再度送出される。この乱数発生器は、定常的丸め効果（例えばディザーリング“dithering”）の発生のために必要である。ステータスレジスタＳＴＡは、ファイナル加算器からの符号、オーバーフロー、ゼロ結果に対するフラグを含んでいる。ステータスビットは、各結果の前に算出される。信号ｓｔａｔｕｓ＿ｏｐは、それが本当にステータスレジスタに受け入れられたか否かの識別を行う。コントローラは、ステータスビットを読み取り評価することが可能である。しかしながらこのステータスビットは、迂回なしでコントローラを介してマルチプレクサＭＵＸ４に直接制御入力として得ることも可能である。これは最小/最大サーチやその他の割当ての際に有利である。バーレル回転子ＲＯＴによってバスａｌｕ２＿ｂｕｓ１のデータの算術論理リンク及び計算シフトが０〜６３桁まで可能であり、さらに信号ｓｈｉｆｔ＿ｏｐによって制御可能である。シフト係数は定数（これは信号ｓｈｉｆｔ＿ｏｐから直接導出される）か又は変数（これはバスａｌｕ２＿ｂｕｓ２を介して結果レジスタから供給される）である。一定のシフト係数の場合には、次の桁がバスａｌｕ２＿ｂｕｓ２から受け入れ可能である。バスａｌｕ２＿ｂｕｓ１とバスａｌｕ２＿ｂｕｓ１のデータが同じ場合には、このようにローテーションが生じる。シフト/回転ループは、最小/最大サーチ又は生じ得る割当てのもとでも関与する。これに対してはシフト係数０が設定される。飽和回路ＳＡＴによってバスａｌｕ２＿ｂｕｓ２のデータは信号ｓａｔ＿ｏｐによって特定された値範囲に適合化される。この場合値範囲が８，１６，３２ビットで支援される。設定された範囲からはみ出たデータは、表示可能な最大の正の数か又は表示可能な最小の負の数に置換される（飽和）。この飽和か否かの判断は、検出器ＤＥＴの信号ｄｅｔ＿ｒｅｓに基づいてコントローラが決定し、各データ毎に飽和回路ＳＡＴの信号ｓａｔ＿ｏｐを介して通知する。論理演算ユニットＬＵは、バスａｌｕ２＿ｂｕｓ１のデータとバスａｌｕ２＿ｂｕｓ２のデータの論理結合を実施する。信号ｌｕ＿ｏｐによって、ＡＮＤ、ＮＡＮＤ、ＯＲ、ＮＯＲ、ＸＯＲ、ＸＮＯＲ、ＮＥＧの演算の制御が可能である。マルチプレクサＭＵＸ４は、信号ａｌｕ２＿ｏｐに依存して前述の５つのデータパスのどれをレジスタに書き込むかを判断する。第２の制御入力側は、制御レジスタＳＴＡＴによって給電され、生じ得る割当て、例えば最小/最大サーチのもとで支援する。この場合累算加算器ＡＣＣＡＤＤは、２つのバスバスａｌｕ２＿ｂｕｓ１のデータとバスａｌｕ２＿ｂｕｓ２の間の差分を形成し、この差分の符号に基づいて、バスａｌｕ２＿ｂｕｓ１のデータをバーレル回転子ＲＯＴを介して遮断された飽和と共にレジスタバンクヘ書き込むのか、バスａｌｕ２ｂｕｓ２のデータのデータを飽和ブロックＳＡＴを介して遮断された飽和と共にレジスタバンクへ書き込むのかを選択する。マルチプレクサＭＵＸ５は、信号ａｌｕ＿ｉｎ＿ｓｅｌに依存してプロセッサ素子の入力側ａｌｕ２＿ｉ１又はａｌｕ２＿ｉ２のうちの１つと、隣接プロセッサ素子を選択する。そのデータは、オペランドとして利用される。伝送レジスタＴＲＥＧは、４つの６４ビットワードをバッファ記憶し、必要に応じてフォーマッタＦ４を介してプロセッサ素子の出力側ａｌｕ２＿０に送出する。伝送レジスタＴＲＥＧは、さらに結果データの読み出しの際のバッファとして使用され、プロセッサ素子列の右側の隣接プロセッサ素子に対するその伝送に用いられる。それにより結果レジスタは負荷されず、既に後続の演算に対して可用である。フォーマッタＦ４のもとでは信号ｆｏｒｍａｔ４＿ｆｏｒｍに依存してレジスタバンクのレジスタ出力側ｒｅｇ＿ｏｕｔの下位の１，２，４又は８バイトが信号ｆｏｒｍａｔ４＿ｐｏｓによって確定されたフォーマッタ出力側のバイトポジションにファイルされる。出力側のその他のバイトは、伝送レジスタから１：１の割合で受け入れられる。このフォーマッタを用いることにより、結果データの伝送の間プロセッサ素子列に沿って複数の結果１，２，又は４バイトが８バイトワードに統合され、それによって６４ビットコネクションがプロセッサ素子間で良好に活用される。マルチプレクサＭＵＸ６は、制御信号ａｌｕ２＿ｏｕｔ＿ｓｅｌに依存してプロセッサ押しの出力側ｓｌｕ２＿ｏに対する出力データを選択する。この選択に対してはフォーマッタＦ４の出力データ又はプロセッサ素子の入力データが用いられる。マルチプレクサＭＵＸ６は、プロセッサ素子の２つの入力側の１つと、プロセッサ押しの出力側ａｌｕ２＿ｏの、伝送レジスタにおけるバッファなしでの直接接続を可能にする。図３には、１６のプロセッサ素子ＰＥ₁₁〜ＰＥ₄₄を備えた本発明によるプロセッサが示されている。これらのプロセッサ素子はエッジ長さ４の二次元アレイのなかで接続されており、共通のコントローラによって制御されている。個々のプロセッサ素子のバッファＩＳＢがこのアレイの４つのエッジに再ロードピクセルを供給するために、これらのアレイを囲むように２５６ビット幅のピクセルバスｐ−ｂｕｓが環状に配置されている。このアレイは、グローバルバスｇ−ｂｕｓを介してさらなる入力データを受け取る。これはイメージキャッシュＣＡＣＨＥか又は入力バッファＩＢＵＦか又は評価ユニットＤＵによって記憶される。この評価ユニットＤＵを用いて例えばグレー値確定のための除算、ヒストグラム実施がなされるか、又は値テーブルを用いた評価が実施される。キャッシュメモリＣＡＣＨＥに対して多種の出力モードが占められ、入力バッファＩＢＯＦは外部メモリとプロセッサ素子のメモリＧＭＰとの間のＦＩＦＯとしてのみ用いられる。評価ユニットＤＵは、プロセッサ素子の結果レジスタからの入力データを受け入れるタスクを有しており、場合によってはさらに後処理の実行と最終的にデータを出力バッファを介して外部メモリへ伝送するかグローバルバスｇ−ｂｕｓを介してプロセッサアレイに提供できるようにする。この後処理には、除算、ヒストグラム、テーブルルックアップなどの演算が含まれる。プロセッサ素子内のそれらの実行は、エリア又はメモリ強度にもよる。個々のプロセッサ素子から評価ユニットへの伝送は、プロセッサ素子の入力側ａｌｕ２＿ｉと出力側ａｌｕ２＿ｏを介して行われる。１つの行の４つのプロセッサ素子、例えば素子ＰＥ₁₁〜ＰＥ₄₄は、その入力側ａｌｕ２＿ｉ１とａｌｕ２＿ｉ２を介してそれぞれ１つのチェーンを形成する。マルチプレクサＭＵＸ５を介して、最後の列のプロセッサ素子ＰＥ₁₁〜ＰＥ₄₄は、１つのチェーンに接続可能である。それにより全ての結果データは、水平及び垂直の値範囲を介して最終的に上方右側のプロセッサ素子ＰＥ₁₄に至りそこから評価ユニットＤＵに到達可能である。同様の接続は、グローバルな演算、例えば極限値サーチなどの場合でも活用され、この場合は右側の列の４つのプロセッサ素子が、上方右側のプロセッサ素子がグローバルな極限値を求める前に、それぞれその行の極限値を求める。全ての１６のプロセッサは、相互に遅延することなく同じクロックで動作する。このことは全てのプロセッサ素子に対する演算が常に同じ時点でトリガされることを意味する。それ故入力側ａｌｕ２＿ｉと出力側ａｌｕ２＿ｏを介した結果レジスタの送出又は事前ロードが全てのプロセッサ素子を同時にそのレジスタ内容を出力側に送出し、それと並行して入力側を介して供給されるデータを受け入れる。グローバルな演算の際には、類似の方法が実施され、この場合は本来の演算を実施する１つのチェーンの最後のプロセッサ素子がその入力側のデータをローカル記憶された結果と論理結合させ、その結果を再びローカル記憶する。その他のプロセッサ素子は、結果値の送出の際のような状態となる。プロセッサ入力データは、入/出力ドライバＩＯＴを介して入力バスＩ−Ｂｕｓに供給される。これは入力バッファＩＢＵＦとキャッシュメモリＣＡＣＨＥに供給される。マルチプレクサＭＵＸを介してグローバルバスｇ−ｂｕｓは、入力バッファの出力側か又はキャッシュメモリの出力側に接続可能である。評価ユニットＤＵの出力側は出力バッファＯＢＵＦを介して出力バスｏ−ｂｕｓに接続される。これは入/出力ドライバＩＯＴを介してプロセッサ出力側に接続されている。図４には、１６のプロセッサ素子を備えた本発明によるプロセッサが示されている。これは図３のようにのみ示されているのではなく、いわゆるＳＩＭＤアレイ（シングルインストラクションマルチプルデータアレイ）として示されている。この場合は全てのプロセッサ素子が同じ命令を受け取るのではなく、スイッチＳ１〜Ｓ８を用いていわゆるＭＩＭＤアレイ（マルチプルインストラクションデータアレイ）としても構築可能である。図４では２つのＳＩＭＤアレイを有する１つのＭＩＭＤアレイが、８つのプロセッサ素子ＰＥ，ＰＥ^*毎に示されている。これらの各ＳＩＭＤアレイは、固有のコントローラと、固有の評価ユニットＤＵ１，ＤＵ２と、固有のイメージキャッシュＣＡＣＨＥ１，ＣＡＣＨＥ２と、付加的なマルチプレクサＭＵＸ′〜ＭＵＸ′″を必要とする。２つのＳＩＭＤアレイのそれぞれは、環状のピクセルバスＰ−ｂｕｓ１とＰ−ｂｕｓ２を有し、それらは別個のキャッシュＣＡＣＨＥ１、ＣＡＣＨＥ２によって供給される。これらのキャッシュは、それらのデータを、入力バスｉ−ｂｕｓを介して外部から受け取るか又は評価ユニットＤＵ１ないしＤＵ２から受け取る。キャッシュメモリＣＡＣＨＥ２への評価ユニットＤＵ１の結果の供給によっては、処理チェーンを構築することが可能である。この場合は、プロセッサ素子ＰＥを有するＳＩＭＤアレイの出力データが、プロセッサ素子ＰＥ^*を有するＳＩＭＤアレイに対する入力データとして使用される。帯域幅が許容されるならば、２つのＳＩＭＤアレイは異なる演算を外部入力データでも実行可能であり、結果は再び外部メモリに送出される。ここに記載されるＭＩＭＤ機能を備えたプロセッサアレイは、スイッチＳ１〜Ｓ８を介して再構成可能であり、この場合一方では８つのプロセッサ素子を備えた非依存性のブロックとして構築可能であり、他方では１６のプロセッサ素子を備えた固有のＳＩＭＤアレイとしても構築可能である。その際スイッチを介して２つのピクセルバスｐ−ｂｕｓ１とｐ−ｂｕｓ２がシングルリングバス形成のために再構成される。同様に２つのキャッシュＣＡＣＨＥｐ１，ＣＡＣＨＥ２もグローバルなキャッシュ形成のために共に接続可能である。２つの評価ユニットは、コモンＳＩＭＤアレイの場合、タスクを共有可能である。

【手続補正書】特許法第１８４条の８第１項【提出日】１９９７年１１月１２日（１９９７．１１．１２）【補正内容】請求の範囲１．同種に構築されマトリックス方式で接続された多数のプロセッサ素子（ＰＥ₁₁〜ＰＥ₄₄）を備えた、画像処理プロセッサにおいて、前記各プロセッサ素子が、レジスタバンク（ＲＥＧＦ）を介してフィードバック結合された各算術論理演算ユニット（ＡＬＵ２）の他に、分割されたイメージセクションバッファの各部分記憶ユニット（ＩＳＢ）と、各ローカル汎用メモリ（ＧＰＭ）と、さらなる各算術論理演算ユニット（ＡＬＵＩ）と、各乗算器 /加算器ユニット(MA)とを有し、前記各乗算器/加算器ユニットの入力側は、前記さらなる各算術論理演算ユニットの出力側と接続され、該さらなる各算術論理演算ユニットの出力側自体は、前記各部分記憶ユニットの出力側と前記各ローカル汎用メモリの出力側に接続された入力側を有し、前記乗算器/加算器ユニットの出力側は、前記算術論理演算ユニット（ＡＬＵ２）の入力側に接続されており、前記レジスタバンク（ＲＥＧＦ）の出力側が、前記ローカル汎用メモリの入力側及び/又は前記さらなる各算術論理演算ユニット（ＡＬＵ１）の入力側、及び/又は前記各乗算器/加算器ユニット（ＭＡ）の入力側に接続されて出力データ（ＡＬＵ２−ｏ）を供給し、入力データ（ＡＬＵ２−ｉ）が、前記各算術論理演算ユニット（ＡＬＵ２）の入力側にも、前記さらなる算術論理演算ユニット（ＡＬＵ１）及び/又は前記乗算器/加算器ユニット（ＭＡ）の入力側にも供給され、前記分割されたイメージセクションバッファの各部分記憶ユニットに画像データ（ｉｍ−ｄｏｗｎ，ｉｍ−ｌｅｆｔ，ｉｍ−ＵＰ，ｉｍ−ｒｉｇｈｔ）が、隣接するプロセッサ素子の部分記憶ユニット（ＩＳＢ）により供給され、さらに相応の隣接するプロセッサ素子が存在しない場合には、画像データがピクセルバス（ｐ−ｂｕｓ）によって供給され、前記各ローカル汎用メモリ（ＧＰＭ）がグローバルバス（ｇ−ｂｕｓ）を介して計算データを供給されることを特徴とする、画像処理プロセッサ。２．前記各部分記憶ユニット（ＩＳＢ）と、各ローカル汎用メモリ（ＧＰＭ）と、さらなる各算術論理演算ユニット（ＡＬＵ１）と、各乗算器/加算器ユニット（ＭＡ）の入力ワード幅が、フレキシブルに選択可能であり、選択された入力ワード幅に応じて、入力データの多成分ベクトルがさらなる算術論理演算ユニット（ＡＬＵ１）と各乗算器/加算器ユニット（ＭＡ）において並行処理可能である、請求項１記載の画像処理プロセッサ。３．前記各乗算器/加算器ユニットは、並列に動作する多数の乗算器（ＭＵＬＴＡ）からなり、これらは出力側で加算器ツリー（ＡＤＤＴ）によって統合されている、請求項１〜５いずれか１項記載の画像処理プロセッサ。４．入力データバス（ｉ−ｂｕｓ）がキャッシュメモリ（ＣＡＣＨＥ）を介してピクセルバス（Ｐ−ｂｕｓ）に接続されている、請求項１〜３いずれか１項記載の画像処理プロセッサ。５．マルチプレクサ（ＭＵＸ５）を用いて、マトリックスの最終列のプロセッサ素子（ＰＥ₁₄〜ＰＥ₄₄）が、同じ行の隣接するプロセッサ素子（例えばＰＥ₁₃ ）の出力側又は同じ列の隣接するプロセッサ素子（ＰＥ₂₄）の出力側に選択的に接続可能であり、データ流の方向において水平方向にも垂直方向にも後続のプロセッサを有さない、最後のプロセッサ素子（ＰＥ₁₄）の出力側が、評価ユニット（ＤＵ）に接続されている、請求項１〜４いずれか１項記載の画像プロセッサ。６．電子スイッチ（Ｓ１〜Ｓ８）により、マルチプレクサ（ＭＵＸ′〜ＭＵＸ ′″）を用いて、少なくとも２つの別個のグローバルバス（ｇ−ｂｕｓ１，ｇ− ｂｕｓ２）と少なくとも２つの別個のピクセルバス（ｐ−ｂｕｓ１，ｐ−ｂｕｓ２）と少なくとも２つの別個のキャッシュメモリ（ＣＡＣＨＥ１，ＣＡＣＨＥ２）と少なくとも２つの別個の評価ユニット（ＤＵ１，ＤＵ２）とを備えた少なくとも２つのプロセッサ素子（ＰＥ，ＰＥ^*）グループが形成可能である、請求項１〜５いずれか１項記載の画像処理プロセッサ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アレクサンダーシャコヴドイツ連邦共和国Ｄ―81739 ミュンヘンルドルフ―ツォルン―シュトラーセ６ (72)発明者ウルリヒラーマッハードイツ連邦共和国Ｄ―80331 ミュンヘンツヴァイブリュッケンシュトラーセ 19 (72)発明者レーネシュフニードイツ連邦共和国Ｄ―01640 コスヴィヒガルテンシュトラーセ 10 (72)発明者ニコラウスブリュルスドイツ連邦共和国Ｄ―81549 ミュンヘンバランシュトラーセ 155 (72)発明者イェルクグリーゼドイツ連邦共和国Ｄ―80339 ミュンヘンキリアンスプラッツ２

Claims

【特許請求の範囲】１．同種に構築されマトリックス方式で接続された多数のプロセッサ素子（ＰＥ₁₁〜ＰＥ₄₄）を備えた、画像処理プロセッサにおいて、前記各プロセッサ素子が、レジスタバンク（ＲＥＧＦ）を介してフィードバック結合された各算術論理演算ユニット（ＡＬＵ２）の他に、分割されたイメージセクションバッファの各部分記憶ユニット（ＩＳＢ）と、各ローカル汎用メモリ（ＧＰＭ）と、さらなる各算術論理演算ユニット（ＡＬＵ１）と、各乗算器 /加算器ユニット（ＭＡ）とを有し、該乗算器/加算器ユニットの出力側は、前記算術論理演算ユニット（ＡＬＵ２）の入力側に接続されていることを特徴とする、画像処理プロセッサ。２．前記各部分記憶ユニット（ＩＳＢ）と、各ローカル汎用メモリ（ＧＰＭ）と、さらなる各算術論理演算ユニット（ＡＬＵ１）と、各乗算器/加算器ユニット（ＭＡ）の入力ワード幅が、フレキシブルに選択可能であり、選択された入力ワード幅に応じて、入力データの多成分ベクトルがさらなる算術論理演算ユニット（ＡＬＵ１）と各乗算器/加算器ユニット（ＭＡ）において並行処理可能である、請求項１記載の画像処理プロセッサ。３．前記分割されたイメージセクションバッファの各部分記憶ユニット（ＩＳＢ）に画像データ（ｉｍ−ｄｏｗｎ，ｉｍ−ｌｅｆｔ，ｉｍ−ｕｐ，ｉｍ−ｒｉｇｈｔ）が、隣接するプロセッサ素子の部分記憶ユニット（ＩＳＢ）により供給され、さらに相応の隣接するプロセッサ素子が存在しない場合には、画像データがピクセルバス（ｐ−ｂｕｓ）によって供給され、各ローカル汎用メモリ（ＧＰＭ）はグローバルバス（ｇ−ｂｕｓ）を介して計算データを供給される、請求項１又は２記載の画像処理プロセッサ。４．前記レジスタバンク（ＲＥＧＦ）の出力側が、前記さらなる各算術論理演算ユニット（ＡＬＵ１）の入力側、及び/又は各乗算器/加算器ユニット（ＭＡ）の入力側に接続されている、請求項１〜３いずれか１項記載の画像処理プロセッサ。５．前記算術論理演算ユニット（ＡＬＵ２）の入力データ（ＡＬＵ２−ｉ）は、前記さらなる算術論理演算ユニット（ＡＬＵ１）及び/又は乗算器/加算器ユニット（ＭＡ）の入力側にも供給される、請求項１〜４いずれか１項記載の画像処理プロセッサ。６．前記各乗算器/加算器ユニットは、並列に動作する多数の乗算器（ＭＵＬＴＡ）からなり、これらは出力側で加算器ツリー（ＡＤＤＴ）によって統合されている、請求項１〜５いずれか１項記載の画像処理プロセッサ。７．入力データバス（ｉ−ｂｕｓ）がキャッシュメモリ（ＣＡＣＨＥ）を介してピクセルバス（Ｐ−ｂｕｓ）に接続されている、請求項１〜６いずれか１項記載の画像処理プロセッサ。８．マルチプレクサ（ＭＵＸ５）を用いて、マトリックスの最終列のプロセッサ素子（ＰＥ₁₄〜ＰＥ₄₄）が、同じ行の隣接するプロセッサ素子（例えばＰＥ１３）の出力側又は同じ列の隣接するプロセッサ素子（ＰＥ₂₄）の出力側に選択的に接続可能であり、データ流の方向において水平方向にも垂直方向にも後続のプロセッサを有さない、最後のプロセッサ素子（ＰＥ１４）の出力側が、評価ユニット（ＤＵ）に接続されている、請求項１〜７いずれか１項記載の画像処理プロセッサ。９．電子スイッチ（Ｓ１〜Ｓ８）により、マルチプレクサ（ＭＵＸ′〜ＭＵＸ ′″）を用いて、少なくとも２つの別個のグローバルバス（ｇ−ｂｕｓ１，ｇ− ｂｕｓ２）と少なくとも２つの別個のピクセルバス（ｐ−ｂｕｓ１，ｐ−ｂｕｓ２）と少なくとも２つの別個のキャッシュメモリ（ＣＡＣＨＥ１，ＣＡＣＨＥ２）と少なくとも２つの別個の評価ユニット（ＤＵ１，ＤＵ２）とを備えた少なくとも２つのプロセッサ素子（ＰＥ，ＰＥ^*）グループが形成可能である、請求項１〜８いずれか１項記載の画像処理プロセッサ。