JPH11251442A

JPH11251442A - 再構成可能プロセッサデバイス

Info

Publication number: JPH11251442A
Application number: JP10359745A
Authority: JP
Inventors: Alan David Marshall; アラン・デイヴィッド・マーシャル; Anthony Stansfield; アンソニー・スタンスフィールド; Jean Vuillemin; ジャン・ビュレミ
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1997-12-17
Filing date: 1998-12-17
Publication date: 1999-09-17
Anticipated expiration: 2018-12-17
Also published as: JP4230580B2; DE69827589T2; US20020157066A1; US6553395B2; DE69827589D1; US6353841B1

Abstract

(57)【要約】【課題】低コストかつ高機能の再構成可能なプロセッ
サデバイスを提供すること。【解決手段】複数の処理デバイスと該処理デバイス間の
相互接続を提供する接続マトリクスと該接続マトリクス
の構成を規定する手段とを備えた再構成可能デバイス。
前記処理デバイスの各々は入力オペランドについて関数
を実行して出力を生成するよう構成された算術論理演算
装置を備えている。前記入力オペランドは各サイクルで
同一経路上の相互接続から前記算術論理演算装置への入
力として提供される。前記処理デバイスのうちの第１の
処理デバイスの出力を該処理デバイスのうちの第２の処
理デバイスへと経路指定して前記第２の処理デバイスに
より実行される関数を決定する手段により、動的命令が
イネーブルにされる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、再構成可能プロセ
ッサデバイスに関するものである。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来の
プロセッサ（例えばIntel社のPentium II（PentiumはIn
tel社の商標）等）は汎用デバイスである。これは、特
定のタスク用に最適化されるものではなく、非常に広範
な機能を実施するようプログラムすることが可能なもの
である。

【０００３】従来のプロセッサの汎用アーキテクチャの
結果として、特定のタスクについてのプロセッサの性能
は、該特定のタスクを実行するよう設計されたハードウ
ェアよりもはるかに劣るものとなる。これは、汎用プロ
セッサのアーキテクチャが、タスクの構造に従っていな
いためではなく、タスク中にひどく酷使されると共に必
然的に伴う大容量メモリリソースに対する呼び出しを極
めて頻繁に行う複合ＡＬＵ（算術論理演算装置）に依存
するためである。かかるタスクが膨大な計算上の負荷を
伴うものである場合には、汎用プロセッサを用いる方法
は特に不適切なものとなる。

【０００４】定期的な実行を必要とするタスクが存在す
る場合、適切な方法は、該タスクに特定に最適化された
回路を提供することであろう。典型的な方法は、汎用プ
ロセッサと共にコプロセッサまたはＡＳＩＣ（特定用途
向けＩＣ）という形でかかる回路を提供することであ
り、これにより、コプロセッサまたはＡＳＩＣが最適化
されることになるタスクを汎用プロセッサにより該コプ
ロセッサ又はＡＳＩＣへと経路指定することが可能とな
る。

【０００５】ＡＳＩＣは特定のタスクについては最適な
ものであるが、特定のタスク用に構築されたものである
が故に、他の計算処理タスクについては、概して低性能
のものとなり、又は全く機能しないものとなる。この２
つの極端な例、即ち、固定された構成を有するＡＳＩＣ
と（１サイクルにつきシリコンの「構成」しか存在しな
いものと考えられる）従来のプロセッサとの間には有利
な可能性が存在する。この中間の可能性が再構成可能デ
バイスであり、これらは、所定の構成を有するが、必要
に応じて異なる所定の構成へと再構成することが可能な
ものである。したがって、再構成可能デバイスは、適切
な再構成により現在の計算上の必要性を満たすようその
ハードウェアリソースを変更するコンピュータの可能性
を提供するものとなる。

【０００６】商業的に成功を収めた形の再構成可能デバ
イスは、フィールドプログラマブルゲートアレイ（ＦＰ
ＧＡ）である。かかるデバイスは、構成可能な相互接続
ネットワークに組み込まれた構成可能な処理要素の集合
体からなる。相互接続構成を記述するために構成メモリ
が配設され、該メモリにはＳＲＡＭが使用されることが
多い。これらのデバイスは、微細粒構造を有するもので
あり、ＦＰＧＡの各処理素子は、典型的には、構成可能
なゲートである。したがって、処理は、中央ＡＬＵに集
中されるのではなくデバイスに分散され、該デバイスの
シリコン領域がより有効に利用される。市販のＦＰＧＡ
シリーズの一例として、Xilinx 4000シリーズがある。

【０００７】かかる再構成可能デバイスは、プロセッサ
又はＡＳＩＣが使用されるあらゆる計算用途に概ね使用
することができる。しかしながら、かかるデバイスに特
に適した用途は、計算上の負荷が大きなタスクではある
が目的別に構築されるＡＳＩＣに値するほど一般的では
ないタスクを扱うためのコプロセッサとしての用途であ
る。したがって、再構成可能なコプロセッサは、異なる
ときに異なる構成でプログラムすることが可能であり、
該構成の各々は、計算上の負荷の大きな異なるタスクの
実行に適合するものであり、これにより、全体的なコス
トを著しく増大させることなく、汎用プロセッサのみの
場合よりも一層優れた効率が提供される。最近のＦＰＧ
Ａデバイスでは、その目的が動的な再構成にあり、この
場合には、コードの実行中に一部又は全体の再構成が提
供され、これにより、時間多重化(time-multiplexing)
を用いて、１つのコードを実行する異なる段階で異なる
サブタスクにとって最適化された構成を提供することが
可能となる。

【０００８】ＦＰＧＡデバイスは、特定種類の計算タス
クに特に適したものとはならない。個々の計算要素が極
めて小さく、そのデータパスが極めて狭く、それらの多
くが必要とされるため、構成プロセスにおいて多数の演
算が必要となる。これらの構造は、小さなデータ要素に
ついて演算を行うタスクであってサイクル間で規則正し
いタスクには比較的有効であるが、大きなデータ要素を
伴う不規則なタスクには不十分なものとなる。かかるタ
スクもまた、汎用プロセッサでは良好に処理されないこ
とが多く、（例えば画像処理等において）相当重要性の
高いものとなり得る。

【０００９】代替的な再構成可能なアーキテクチャがこ
れまでに提案されている。その一例として、カリフォル
ニア大学バークレー校で開発されたＰＡＤＤＩアーキテ
クチャであり、これについては、D.Chen及びJ.Rabaeyに
よる「A Reconfigurable Multiprocessor IC for Rapid
Prototyping of Real Time Data Paths」（ISSCC, 199
2年2月）、並びに、A.Yeung及びJ.Rabaeyによる「A Dat
a-Driven Architecture for Rapid Prototyping of Hig
h Throughput DSP Algorithms」（IEEE VLSI Signal Pr
ocessing Workshop、1992年10月）に記載されている。
該アーキテクチャは、高速リアルタイムＤＳＰシステム
のプロトタイプ向けのものであり、そのＤＳＰアルゴリ
ズムは、従来のプロセッサ又はＦＰＧＡの何れによって
も十分に扱うことができない計算処理の一例を提供する
ものとなる。該アーキテクチャは、再構成可能なネット
ワークによって接続された複数の比較的単純な処理実行
装置を含むものである。その各実行装置は、16ビット幅
で動作し、入力オペランド用のレジスタファイルを有
し、またそれ自体の命令メモリを有している。１つの命
令装置の動作を指定するために53ビットの命令ワードが
必要である。

【００１０】ＰＡＤＤＩでは、構成時および実行時の両
方において命令が分散される。構成時には、制御記憶手
段として機能するメモリに１組の命令がロードされる。
実行時には、全ての制御記憶手段に関するアドレスの大
域でのブロードキャストが行われ、これらの局所命令メ
モリの各々は、局所実行装置により使用するためにそれ
自体の局所命令を読み出す。動作時には、処理要素間の
通信がデータにより駆動され、該処理要素は、それぞれ
の局所命令にしたがってデータに作用する。

【００１１】別の代替的なアーキテクチャとしては、マ
サチューセッツ工科大学で開発されたＭＡＴＲＩＸがあ
り、これについては、Ethan Mirsky及びAndr@ deHon著
「MATRIX: A Reconfigurable Computing Architecture
with Configurable Instruction Distribution and Dep
loyable Resources」（FCCM '96 - IEEE Symposium onF
PGAs for Custom Computing Machines, 1996年4月17〜1
9日、Napa, California, USA）に記載されており、より
詳細には、Andr@ deHon著「Reconfigurable Architectu
res for General-Purpose Computing」（第257〜296
頁、技術報告書1586、MIT ArtifＩＣial Intelligence
Laboratory）に記載されている。ＭＡＴＲＩＸは、粗粒
構造を有するものであり、同一の８ビットの機能ユニッ
トのアレイが構成可能なネットワークと相互接続されて
いる。各機能ユニットは、256×８ビットメモリと、ア
ドレス指定可能な入力レジスタ、出力レジスタ、及びマ
ルチプレクサを有する８ビットＡＬＵと、制御論理回路
とを備えている。該アーキテクチャは、比較的汎用性を
有するものであり、即ち、ＦＰＧＡの処理の非集中化を
提供すると共に、所与の用途に必要とされるものへと命
令ストリームを調節するための一層幅の広いデータパス
および有効範囲を提供するものとなる。

【００１２】ＭＡＴＲＩＸ構造は、有利な側面を有する
ものではあるが、その粗粒サイズは、従来のＦＰＧＡ構
造よりも多量のシリコンを消費することを意味してお
り、サイクル単位の規則的なタスクについては効率が悪
化するものとなる。したがって、ＭＡＴＲＩＸと従来の
ＦＰＧＡの両方の利点を可能な限り最良に組み合わせた
更なる再構成可能な構造を開発することが望ましい。

【００１３】したがって、本発明は、複数の処理デバイ
スと、該処理デバイス間の相互接続を提供する接続マト
リクスと、該接続マトリクスの構成を規定する手段とを
備えた再構成可能デバイスであって、前記処理デバイス
の各々が、入力オペランドについて関数を実行して出力
を生成するように構成された算術論理演算装置を備えて
おり、前記入力オペランドが、各サイクルにおける同一
経路上の相互接続から前記算術論理演算装置へ入力とし
て提供され、さらに前記複数の処理デバイスのうちの第
１の処理デバイスの出力を該処理デバイスのうちの第２
の処理デバイスへと経路指定して該第２の処理デバイス
により実行される関数を決定するための手段が設けられ
ている、再構成可能デバイスを提供する。

【００１４】ＭＡＴＲＩＸとは異なり、該方法は、各サ
イクルで同一経路上の相互接続部から入力オペランドが
提供されるため、アドレス指定可能な入力レジスタを含
まない（したがって入力レジスタファイルを含まな
い）。このため、処理パイプラインの一部として個々の
処理デバイスを使用することが必要となる（命令を自分
に戻すことは可能であるが、これは相互接続を介して行
うことが必要になると考えられる）。したがって、ＭＡ
ＴＲＩＸにおける個々の処理デバイスは、本発明による
再構成可能デバイスにおける個別の処理デバイスよりも
一層十分な範囲の関数を実施することが可能なものとな
る。しかしながら、これは、所与のシリコン領域につい
ての処理デバイスの数が増加したことにより補償された
に過ぎない。

【００１５】また、本方法は、ＰＡＤＤＩアーキテクチ
ャに必要とされる制御記憶メモリを形成するための相当
のシリコン領域の犠牲を含まないものとなる。この制御
記憶メモリは、ＰＡＤＤＩではかなりの大きさを有する
必要があり、また、ＰＡＤＤＩの実行装置は、本発明と
等価の機能を得るためには本発明よりもはるかに大きな
ものとなる。また、制御記憶メモリは、ＰＡＤＤＩアー
キテクチャでは冗長となることが多い（各サイクル毎に
同じ命令を実行するためにのみ実行装置が必要となる場
合）。全ての制御記憶メモリが単一のグローバルアドレ
スによってアドレス指定されるＰＡＤＤＩの要件によ
り、データに依存する態様でのマシンの異なる部分のシ
ーケンス、又は計算処理の異なるスレッドについての演
算が阻止されることになる。ＰＡＤＤＩ構成では、全て
の実行装置が互いに同期して実行されなければならな
い。

【００１６】入力レジスタは、この種のアーキテクチャ
に必ずしも欠落したものではないことに留意されたい。
即ち、アドレス指定不能な入力レジスタは本発明と両立
するものである、（入力オペランドが依然として各サイ
クルで同一経路上で受け取られ、処理パイプラインでＡ
ＬＵを使用する必要があるため）。しかしながら、好適
な実施例では、処理デバイスは、如何なる種類の入力レ
ジスタをも含まず、入力オペランドは、算術論理演算装
置によって相互接続から直接受け取られることになる。

【００１７】処理デバイスは、適当な機能を実行するた
めの構成を必要とするものであり、動的命令を規定する
何らかの基準を少なくとも設けるべきである。有利な解
決策として、処理デバイスの各々が、該処理デバイスの
うちの別の処理デバイスの出力により決定することが可
能な第１の複数の構成ビットと、前記処理デバイスのう
ちの別の処理デバイスの出力により決定することが不可
能な第２の複数の構成ビットと有していることが挙げら
れる。

【００１８】

【課題を解決するための手段】好適な実施例では、各処
理デバイスは、第１オペランド入力と、第２オペランド
入力と、機能結果出力と、桁上げ入力と、桁上げ出力と
を有しており、前記第１オペランド入力、前記第２オペ
ランド入力、及び前記機能結果出力はｎビットであり
（ｎは１よりも大きい整数）、前記桁上げ入力及び前記
桁上げ出力は１ビットである。ｎ＝４の場合に特に良好
な設計上の解決策が得られる。

【００１９】好適な実施例では、動的命令機構は、処理
デバイスの各々が（その関数の決定のために）別の処理
デバイスからのｎビット命令入力を受け取るように構成
される。

【００２０】動的命令を提供するための更に有利な方法
は、処理デバイスのうちの１つに対する前記桁上げ入力
が該処理デバイスの算術論理演算装置の関数を変更する
ことを可能にする（例えば、桁上げ入力が算術論理演算
装置の関数を論理的な補数へと変更することを可能にす
る）手段を設けることによるものである。しかしなが
ら、汎用性を有する演算の場合には、桁上げ入力を一定
値として保持する手段を処理デバイスの各々に設けるこ
ともまた有利である。更に有利な方法として、処理デバ
イスのうちの第２の処理デバイスに入力された命令の２
つの値間の多重化を第１の処理デバイスの桁上げ入力の
値にしたがって行うために該第１の処置デバイスを使用
することを可能とするものがあり、また、随意選択的
に、第１の処理デバイスの桁上げ入力を該第１の処理デ
バイスを介して第２の処理デバイスの桁上げ入力へと伝
播させるようにすることも可能である。

【００２１】処理デバイスの各々が、関数出力のための
ラッチ可能な出力レジスタを含むこともまた有利であ
る。これは、「深い」パイプラインを構築する上で有用
であり、この場合には、例えば、多数の演算を並列に実
行し、及び異なるＡＬＵからの出力を同期させる必要が
ある。

【００２２】個々のデバイスが動的命令を受容し又は拒
絶することを可能にするために、算術論理演算装置の関
数を決定する命令が相互接続から動的に受容されるべき
か処理デバイスの構成メモリから提供されるべきかを決
定する動的なイネーブルゲートを処理デバイスの各々に
設けることが望ましい。各処理デバイスの更に有利な特
徴は、動的な命令マスクであり、該動的な命令マスクを
処理デバイスにより受容された命令に適用することによ
り、該命令を、算術論理演算装置の関数を決定する該算
術論理演算装置の命令入力に供給すると共に、処理デバ
イスにおける周辺回路の制御のために該周辺回路の命令
入力に供給することが可能となる。

【００２３】

【発明の実施の形態】添付の図面を参照し、本発明の一
実施例として、特定の実施例について説明することとす
る。

【００２４】以下の説明では、「水平」、「垂直」、
「北」、「南」、「東」、及び「西」という用語は、相
対的な方向を理解する助けのための用いられるものであ
り、該用語のの使用は、本発明の実施形態の絶対的な配
向についての限定を示唆することを意図してはいない。

【００２５】本発明の実施形態のプロセッサアレイは集
積回路中に設けられる。１つのレベルでは、該プロセッ
サアレイは、「タイル」10からなる矩形（好適には正方
形）アレイにより形成され、その内の１つが図１に太線
で区切って示されている。適当な任意数のタイルを、例
えば、16×16、32×32、又は64×64アレイで使用するこ
とができる。各タイル10は、矩形であり、４つの回路領
域に分かれている。これらのタイルは、（接続に対称性
を与えるよう）論理的に正方形であることが好ましい
が、該タイルが物理的に正方形であることは重要ではな
い（タイミング上の対称性を提供するという点で有利な
場合もあるが、一般には大して重要でない可能性が高
い）。回路領域12のうちの２つは、タイル10において対
角線上で対向しており、２つの算術論理演算装置（ＡＬ
Ｕ）用の区域（又は場所(location)）を提供するもので
ある。タイル10において対角線上で対向する他の２つの
回路領域は、一対のスイッチングセクション14用の区域
を提供するものである。

【００２６】ここで図１及び図２を参照する。各ＡＬＵ
は、ＡＬＵ内で直接接続されている第１の一対の４ビッ
ト入力aと、ＡＬＵ内で直接接続されている第２の一対
の４ビット入力bと、ＡＬＵ内で直接接続されている４
つの４ビット出力fとを有している。各ＡＬＵはまた、
独立した一対の１ビット桁上げ入力hci,vciと、ＡＬＵ
内で直接接続されている一対の１ビット桁上げ出力coと
を有している。該ＡＬＵは、入力信号a,b,hci,vciにつ
いて標準的な演算を実行して、加算、減算、ＡＮＤ、Ｎ
ＡＮＤ、ＯＲ、ＮＯＲ、ＸＯＲ、ＮＸＯＲ及び多重化等
の出力信号f,coを生成することが可能であり、及び随意
選択的に該演算結果を登録することが可能である。個々
のＡＬＵの演算については以下で一層詳細に説明するこ
ととする。ＡＬＵに対する命令は、個々の４ビットメモ
リセル（後述する「Ｈツリー」構造を介してその値を設
定できるもの）から供給すること、又は後述するバスシ
ステム上で供給することが可能である。

【００２７】図１及び図２に示すレベルでは、各スイッ
チングセクション14は、該セクションを水平方向に横切
って延びる８つのバスと、該セクションを垂直方向に横
切って延びる８つのバスとを有しており、これにより、
64の交差点（図２にデカルト座標で符号を付す）を有す
る８×８の矩形アレイが形成される。バスの全ては４ビ
ット幅を有している（X＝4における桁上げバスvc及びY
＝3における桁上げバスhcが１ビット幅を有することを
除く）。交差点の多くには、該交差点における２つのバ
スを選択的に接続することが可能な４連結(gang)プログ
ラマブルスイッチ16が設けられている。幾つかの交差点
には、４連結プログラマブルスイッチ18が設けられ、該
スイッチは、該交差点で端部と端部とが出会う２つのバ
スをそこに対して直角方向に該バスとの接続を伴うこと
なく選択的に接続することが可能なものである。座標
(4,3)における交差点には（例えば図６(c)に示すよう
な）プログラマブルスイッチ20が設けられており、該ス
イッチは、該交差点で直交する桁上げバスvc,hcを選択
的に接続することが可能なものである。

【００２８】次に、スイッチングセクション14における
水平方向のバスについて説明する。

【００２９】Y＝0において、バスh2sは、プログラマブ
ルスイッチ16により、X＝0,1,2,5,6で垂直バスに接続す
ることが可能である。該バスh2sは、２タイル分の長さ
を有しており、座標(4,0)ではプログラマブルスイッチ1
8により１つおきのスイッチングセクション14に端部同
士で接続可能である。

【００３０】Y＝1では、ＡＬＵの入力bから西方向に延
びるバスbeは、スイッチ16によりX＝0,1,2,3で垂直バス
に接続することが可能である。また、ＡＬＵの出力fか
ら東方向に延びるバスfwは、スイッチ16によりX＝5,6,7
で垂直バスに接続することが可能である。これらのバス
be,fwの端部は、プログラマブルスイッチ18により座標
(4,1)で接続することが可能である。

【００３１】Y＝2では、バスhregsは、プログラマブル
スイッチ16によりX＝1,2,3,5,6,7で垂直バスに接続する
ことが可能である。

【００３２】Y＝3では、バスhcoは、ＡＬＵの桁上げ出
力coから西方向へ座標(4,3)におけるプログラマブルス
イッチ20まで延びており、（a）ＡＬＵの桁上げ入力hci
へと東方向に延びる桁上げバスhciに接続すること、又
は（b）ＡＬＵの桁上げ入力vciへと南方向に延びる桁上
げバスvciに接続することが可能である。

【００３３】Y＝4では、バスhregnは、プログラマブル
スイッチ16によりX＝0,1,2,3,5,6で垂直バスに接続する
ことが可能である。

【００３４】Y＝5では、バスhlは、X＝0,1,2,3,5,6,7で
垂直バスに接続することが可能である。該バスhlは、1
タイル分の長さを有し、プログラマブルスイッチ18によ
り座標(4,5)で各スイッチングセクション14において端
部と端部とを接続することが可能である。

【００３５】Y＝6では、ＡＬＵの出力fから西方向に延
びるバスfeは、スイッチ16によりX＝0,1,2,3で垂直バス
に接続することが可能である。また、ＡＬＵの入力aか
ら東方向に延びるバスawは、スイッチ16によりX＝5,6,7
で垂直バスに接続することが可能である。バスfe,awの
端部は、プログラマブルスイッチ18により座標(4,6)で
接続することが可能である。

【００３６】Y＝7では、バスh2nは、プログラマブルス
イッチ16によりX＝1,2,3,6,7で垂直バスに接続すること
が可能である。バスh2nは、２タイル分の長さを有し、
座標(4,7)では、プログラマブルスイッチ18により１つ
おきのスイッチングセクション14において端部と端部と
を接続することが可能あり、座標(4,0)でバスh2sを接続
するプログラマブルスイッチ18に対して互い違いに配置
されている。

【００３７】次に、スイッチングセクション14における
垂直バスについて説明する。

【００３８】X＝0では、バスv2wは、プログラマブルス
イッチ16によりY＝0,1,4,5,6で水平バスに接続すること
が可能である。該バスv2wは、２タイル分の長さを有
し、プログラマブルスイッチ18により１つおきのスイッ
チングセクション14において座標(0,3)で端部と端部を
接続することが可能である。

【００３９】X＝1では、ＡＬＵの出力fから南方向に延
びるバスfnは、プログラマブルスイッチ16によりY＝0,
1,2で水平バスに接続することが可能である。また、Ａ
ＬＵの入力bから北方向に延びるバスbsは、スイッチ16
によりY＝4,5,6,7で水平バスに接続することが可能であ
る。バスfn,bsの端部は、プログラマブルスイッチ18に
より座標(1,3)で接続することが可能である。

【００４０】X＝2では、バスvlは、Y＝0,1,2,4,5,6,7で
水平バスに接続することが可能である。該バスvlは、１
タイル分の長さを有し、座標(2,3)でプログラマブルス
イッチ18により各スイッチングセクション14において端
部と端部とを接続することが可能である。

【００４１】X＝3では、バスvregwは、プログラマブル
スイッチ16によりV＝1,2,4,5,6,7で水平バスに接続する
ことが可能である。

【００４２】X＝4では、バスvcoは、ＡＬＵの桁上げ出
力coから西方向に座標(4,3)におけるプログラマブルス
イッチ20まで延びており、（a）ＡＬＵの桁上げ入力hci
へと東方向に延びる桁上げバスhciに接続すること、又
は（b）ＡＬＵの桁上げ入力vciへと南方向に延びる桁上
げバスvciに接続することが可能である。

【００４３】X＝5では、バスvregeは、プログラマブル
スイッチ16によりY＝0,1,2,4,5,6で水平バスに接続する
ことが可能である。

【００４４】X＝6では、ＡＬＵの入力aから南方向に延
びるバスanは、スイッチ16によりY＝0,1,2で水平バスに
接続することが可能である。また、ＡＬＵの出力fから
北方向に延びるバスfsは、プログラマブルスイッチ16に
よりX＝4,5,6,7で水平バスに接続することが可能であ
る。バスan,fsの端部は、座標(6,3)でプログラマブルス
イッチ18により接続することが可能である。

【００４５】X＝7では、バスv2eは、プログラマブルス
イッチ16によりY＝1,2,5,6,7で水平バスに接続すること
が可能である。該バスv2eは、２タイル分の長さを有
し、座標(7,3)でプログラマブルスイッチ18により１つ
おきのスイッチングセクション14において端部と端部を
接続することが可能あり、座標(0,3)でバスv2wに接続す
るプログラマブルスイッチ18に対して互い違いに配置さ
れている。

【００４６】図２に示すように、バスbs,vco,fsは、ス
イッチングセクション14の北方向に向かってＡＬＵの入
力b、出力co、及び出力fにそれぞれ接続されている。ま
た、バスfe,hco,beは、スイッチングセクション14の西
方向に向かってＡＬＵの出力f、出力co、及び入力bにそ
れぞれ接続されている。更に、バスaw,hci,fwは、スイ
ッチングセクション14の東方向に向かってＡＬＵの入力
a、入力ci、及び出力fにそれぞれ接続されている。更
に、バスfn,vci,anは、スイッチングセクション14の南
方向に向かってＡＬＵの出力f、入力ci、及び入力aにそ
れぞれ接続されている。

【００４７】これらの接続に加えて、バスvregw,vrege
は、それぞれのプログラマブルスイッチ18を介して、ス
イッチングセクション14の北方向に向かってＡＬＵの領
域12において４ビット接続点vtsw,vtse（図２に「×」
で示す）にそれぞれ接続される。また、バスhregs,hreg
nは、それぞれのプログラマブルスイッチ18を介して、
スイッチングセクション14の西方向に向かってＡＬＵの
領域12において４ビット接続点htse,htneにそれぞれ接
続される。更に、バスhregs,hregnは、それぞれのプロ
グラマブルスイッチ18を介して、スイッチングセクショ
ン14の東方向に向かってＡＬＵの領域12において４ビッ
ト接続点htsw,htnwにそれぞれ接続される。更に、バスv
regw,vregeは、それぞれのプログラマブルスイッチ18を
介して、スイッチングセクション14の南方向に向かって
ＡＬＵの領域12において４ビット接続点vtnw,vtneにそ
れぞれ接続される。これらの接続点vtnw,vtne,htne,hts
e,vtse,vtsw,htsw,htnwについては、図３ないし図５を
参照して更に詳細に後述することとする。

【００４８】また、図２に示すように、バスhregn,vreg
e,hregs,vregwは、それぞれ４ビット接続点22（図２に
小さな四角で示す）を有しているが、これについては、
図９を参照して更に詳細を後述することとする。

【００４９】図３は、算術論理演算装置の各区域の間の
相互接続の１つのレベルを示すものであり、該区域の各
々は、隅が丸みを帯びた四角で示されている。４つの４
ビットバスv8,v4w,v4e,v16からなる１グループは、ＡＬ
Ｕ区域12の各列を横切って垂直方向に延びている。各グ
ループ中の最も左のバスv8は複数セグメントになってお
り、その各々は、ほぼ８タイル分の長さを有している。
各グループ中の左から２つ目のバスv4wは複数セグメン
トになっており、その各々は、ほぼ４タイル分の長さを
有している。各グループ中の右から２つ目のバスv4eは
複数セグメントになっており、この場合も、その各々
は、ほぼ４タイル分の長さを有しているが、左から２つ
目のバスv4wとは２タイルだけオフセットされている。
各グループ中の最も右のバスv16は複数セグメントにな
っており、その各々は、ほぼ16タイル分の長さを有して
いる。図４の上部に位置するアレイの上縁部、及びその
下縁部では、セグメントの長さは、上述したものよりも
僅かに長く、又は短くすることが可能である。

【００５０】ここで図３及び図５を参照する。４つのバ
スv8,v4w,v4e,v16からなる各グループは各ＡＬＵ区域12
と交差し、接続点htnw,htsw,htse,htneで４つの４ビッ
トタップ接続が行われる。バスセグメントの端部は、Ａ
ＬＵ区域と交差するバスセグメントに対する接続上で接
続されるような優先順位を取っている。

【００５１】同様に、図４及び図５に示すように、４つ
の４ビットバスh8,h4n,h4s,h16からなるグループは、Ａ
ＬＵ区域12の各行を横切って水平方向に延びている。各
グループ中の一番上のバスh8は複数セグメントになって
おり、その各々はほぼ８タイル分の長さを有している。
各グループ中の上から２つ目のバスh4nは複数セグメン
トになっており、その各々はほぼ４タイル分の長さを有
している。各グループ中の下から２つ目のバスh4sは複
数セグメントになっており、その各々はほぼ４タイル分
の長さを有しているが、上から２つ目のバスh4nから２
タイル分だけオフセットされている。各グループ中の一
番下のバスh16は複数セグメントになっており、その各
々はほぼ16タイル分の長さを有している。図４の左側に
位置するアレイの左側縁部及び右側縁部では、セグメン
トの長さは上記よりも僅かに長く又は短くすることが可
能である。４つのバスh8,h4n,h4s,h16からなる各グルー
プが各ＡＬＵ区域12と交差する場合、更に別の４つの４
ビットタップ接続が接続点vtnw,vtsw,vtse,vtneで行わ
れる。バスセグメントの端部は、ＡＬＵ区域と交差する
バスセグメントに対する接続上で接続されるような優先
順位を取っている。

【００５２】図５に示すように、接続点htnw,htsw,htn
e,htseは、プログラマブルスイッチを介して、ＡＬＵ区
域の西方向及び東方向に向かうスイッチングセクション
のバスhregn,hregsに接続されている。また、接続点vtn
w,vtne,vtsw,vtseは、プログラマブルスイッチを介し
て、ＡＬＵ区域の北方向及び南方向に向かうスイッチン
グセクションのバスvregw,vregeに接続されている。

【００５３】次に、図６(a)を参照して、直角に交差す
る４ビットバスからなる各対の間のプログラマブル結合
部16について説明する。水平バスの導体をx0,x1,x2,x3
とし、垂直バスの導体をy0,y1,y2,y3とする。ビット位
置(bit significance)が同一である各導体対の間にトラ
ンジスタ160,161,162,163がそれぞれ設けられている。
トランジスタ160,161,162,163のゲートはＮＯＲゲート1
6gの出力に共通に接続されている。該ＮＯＲゲート16g
は、その２つの入力に、１つのスイッチグループにより
共有することが可能な単一ビットメモリセルからのイネ
ーブル信号を反転させた信号と、単一ビットメモリセル
24の内容を反転させた信号とを受信する。したがって、
イネーブル信号が高レベルであり及びメモリセル24の内
容が高レベルである場合にのみ、導体x0,x1,x2,x3が、
トランジスタ160,161,162,163により、導体y0,y1,y2,y3
にそれぞれ接続される。

【００５４】次に、互いに端部と端部とが直線状に出会
う４ビットバスの各対の間のプログラマブル結合部16に
ついて図６(b)を参照して説明する。一方のバスの導体
をx10,x11,x12,x13とし、他方のバスの導体をx20,x21,x
22,x23とする。ビット位置が同一である各導体対の間に
トランジスタ180,181,182,183がそれぞれ設けられてい
る。トランジスタ180,181,182,183のゲートは、ＮＯＲ
ゲート18gの出力に共通に接続されている。該ＮＯＲゲ
ート18gは、その２つの入力として、１つのスイッチグ
ループにより共有することが可能な単一ビットメモリセ
ルからのイネーブル信号を反転させた信号と、単一ビッ
トメモリセル24の内容を反転させた信号とを受信する。
したがって、イネーブル信号が高レベルであり及びメモ
リセル24の内容が高レベルである場合にのみ、導体x10,
x11,x12,x13が、トランジスタ180,181,182,183により、
導体x20,x21,x22,x23にそれぞれ接続される。

【００５５】次に、桁上げ導体hco,vco,hci,vciの間の
プログラマブル結合部20について、図６(c)を参照して
説明する。水平方向の桁上げ出力導体hcoは、トランジ
スタ20hh,20hvを介して水平方向の桁上げ入力導体hci及
び垂直方向の桁上げ入力導体vciにそれぞれ接続され
る。更に、垂直方向の桁上げ出力導体vcoは、トランジ
スタ20vv,20vhを介して垂直方向の桁上げ入力導体vci及
び水平方向の桁上げ入力導体hciにそれぞれ接続され
る。トランジスタ20hh,20vvのゲートは、インバータ20i
の出力に共通に接続され、トランジスタ20hv,20vhのゲ
ート及びインバータ20iへの入力は、ＮＯＲゲート20gの
出力に接続されている。該ＮＯＲゲート20gは、その２
つの入力として、１つのスイッチグループにより共有す
ることが可能な単一ビットメモリセルからのイネーブル
信号を反転させた信号と、単一ビットメモリセル24の内
容を反転させた信号とを受信する。したがって、イネー
ブル信号が高レベルである場合に、導体hco,vcoが、メ
モリセル24の内容に従って、導体hci,vciにそれぞれ接
続され、又は導体vci,hciにそれぞれ接続される。

【００５６】図６(a)〜(c)を参照して説明した切り換え
可能な結合部16,18,20がＮＯＲゲート16g,18g,20gをそ
れぞれ備えていることが理解されよう。図７に示すよう
に、ＮＯＲゲート16gは、典型的には４つのトランジス
タ16g1,16g2,16g3,16g4により形成され、前記２つのト
ランジスタ16g1,16g3が反転されたイネーブル信号に応
答し、前記２つのトランジスタ16g2,16g4がメモリセル2
4の反転された内容に応答する。切換可能な結合部16,1
8,20からなるグループは、かかるグループのうちの一部
のみをディセーブルにする必要性を伴うことなく共通に
ディセーブルにすることが可能であることが望ましい。
かかるグループは、１つのスイッチングセクション14中
の切換可能な結合部の全て、特定のタイルにおける２つ
のスイッチングセクション14中の切換可能な結合部の全
て、又はアレイの一層大きな領域における切換可能な結
合部の全てから構成することが可能である。この場合、
トランジスタ16g1は、図８に示すように、該グループ中
の切換可能な結合部16,18,20の全てに共通のものとする
ことが可能である。これにより、ゲートに必要となるト
ランジスタの数を25％省くことが可能となるが、図８に
示すように、ゲートに連結する導体を追加する必要が生
じる。

【００５７】ここでは示さないが、メモリセル24の特性
を用いることにより更なる簡略化が可能となる。該メモ
リセル24の内容と該内容の補数との両者は、出力として
容易に求めることが可能なものである。したがって、図
８の回路は、例えば、メモリセル24の特性を用いて実際
のイネーブル信号及び反転されたイネーブル信号の両方
を保持する必要性をなくすこと（メモリセルからの実際
値又は補数値の何れか一方を用いて１つのイネーブル信
号しか必要としないようにする等）により、配線コスト
を低減させることが可能になることが分かる。

【００５８】図１及び図２を参照して上述したように、
各スイッチングセクション14において、バスhregn,hreg
s,vregw,vregeは４ビット結合部22によりレジスタ又は
バッファ回路にそれぞれ接続され、次に該回路について
図９を参照して更に詳細を説明する。４つの結合部22
は、マルチプレクサ26の入力にそれぞれ接続されてい
る。該マルチプレクサ26は、入力の一つを出力として選
択し、これをレジスタ又はバッファ28に供給する。該レ
ジスタ又はバッファ28の出力は、４つの三状態バッファ
30s,30w,30n,30eに供給され、該バッファは、バスhreg
s,vregw,hregn,vregeとの結合部22に再び接続される。
バッファ28が使用される場合には、バスhregs,vregw,hr
egn,vregeのうちの選択された１つにおける４ビット信
号が増幅されて、バスhregs,vregw,hregn,vregeのうち
の選択された別の１つに供給される。レジスタ28が使用
される場合には、バスhregs,vregw,hregn,vregeのうち
の選択された１つにおける４ビット信号が増幅されて、
次の活動状態のクロックエッジの後にバスhregs,vregw,
hregn,vregeのうちの選択された何れか１つに供給され
る。

【００５９】図９の構成の改善された形態を用いること
により、バス間の経路指定とは異なる目的で、バスhreg
s,vregw,hregn,vregeのうちの選択された１つの４ビッ
ト信号を取り出すことが可能となる。マルチプレクサ26
の（又は代替的な構成ではバッファ28の）適当な構造及
び接続により、配線網から受け取った値をマルチプレク
サ26又はバッファ28の出力として選択し（これらの選択
を図９に符号260,280で示す）、次いでその値を該スイ
ッチボックスと関連するＡＬＵの命令を決定する際に使
用することが可能となる。該構成の適用例を以下で詳述
する。

【００６０】この目的のためにマルチプレクサ26又はバ
ッファ28を使用することは、ＡＬＵに命令を与えるため
に使用される値が、配線網を介して前方に送るために利
用可能となる値でもあることを意味する。配線間で異な
る値を送ることが望ましい場合には、異なるスイッチン
グセクション14を使用する必要がある。しかしながら、
多くの構成では、ＡＬＵに送られる値により、その命令
が１つの配線から別の１つの配線へと送られる値でもあ
ると決定されることが望ましい。これは、同一の命令を
多数のＡＬＵに与えること（深い処理パイプラインにお
いて生じることが多い）が望ましい場合に適している。
代替的な実施例（図示せず）では、マルチプレクサ26及
びバッファ28からなる対が二対又は三対以上使用され
る。この場合、一対のマルチプレクサ／バッファ対は、
関連するＡＬＵの命令入力を与える専用のものとするこ
とが可能であり、一方、他のマルチプレクサ／バッファ
対は、経路指定のために使用できる。

【００６１】上述の構成により、アレイの周囲及び該ア
レイを横切る信号の経路指定に大きな柔軟性が提供され
る、ということが理解されよう。メモリセル24を用いた
スイッチ16,18,20を適当にセッティングすることによ
り、及びマルチプレクサ26及びレジスタ又はバッファ28
を適当にセッティングすることにより、バスv16,h16,v
8,h8,v4e,v4w,h4n,h4sを主に使用して、アレイの縁部か
ら特定のＡＬＵまで、ＡＬＵ同士の間、及び特定のＡＬ
Ｕからアレイの縁部まで長距離にわたり信号を送ること
が可能である。これらのバスは、スイッチングセクショ
ン14により一直線に又は直角に共に結合させることが可
能であり、レジスタ又はバッファ28による増幅によって
伝播遅延が低減され、該レジスタ28によりパイプライン
ステージが導入される。また、これらのバスをその長さ
方向に沿った途中の部分で引き出して(tap)、これによ
り特定の処理演算を実行するためのＡＬＵの設置がバス
の長さにより完全に指定されることがないようにするこ
とが可能である。したがって、信号は２つまたは３つ以
上のＡＬＵに分散させることが可能である。更に、図１
及び図２を参照して説明した前記の一層短い長さを有す
るバスを使用して、スイッチングセクション14とＡＬＵ
との間で信号を経路指定することが可能であり、更に、
例えば１つのＡＬＵからそれと同一の列及び行における
隣接するＡＬＵ又は（該バスが水平方向又は垂直方向に
延びている場合であっても）対角線方向で隣接するＡＬ
Ｕまでの一層短い距離に渡って主に信号を送ることが可
能である。この場合も、レジスタ又はバッファ28を使用
して信号を増幅し又はプログラマブル遅延を導入するこ
とが可能である。

【００６２】上記の構成では、メモリセル24は、スイッ
チングセクション14及びＡＬＵ区域12と同程度までアレ
イを横切って分散される。各メモリセル24は、該メモリ
セル24により制御される１つ又は複数のスイッチ、マル
チプレクサ、レジスタ又はバッファに隣接して配置され
る。これにより高い回路密度を達成することが可能にな
る。

【００６３】次に、メモリセル24に対してデータの読み
書きを行う態様、プログラマブルスイッチ16,18,20用の
イネーブル信号をそれらのメモリセルに書き込む態様、
命令及び／又は定数をＡＬＵに分散させる態様、及びク
ロック信号といった他の制御信号をアレイを横切って伝
送する態様について説明する。これらの機能の全てにつ
いて、図１０に示すように「Ｈツリー」構造（該構造自
体は既知のものである）を用いることが可能である。こ
こで図１０及び図１１を参照する。図示の64区域の何れ
にもイネーブル信号を分散させるために、イネーブル信
号30a及び該イネーブル信号に関する６ビットアドレス3
2aをデコーダ34aに供給する。該デコーダ34aは、該デコ
ーダからの４つの分岐のうちの何れが、前記アドレスに
通じ、及び該４つの分岐の全てにおけるデコーダ34bへ
の４ビットアドレス32bと共に、前記分岐における更な
るデコーダ34bにイネーブル信号30bを供給するかを決定
する。イネーブル信号30bを受け取ったデコーダ34bは、
該デコーダ34bからの４つ分岐のうちの何れが、必要と
されるアドレスに通じ、及び該４つの分岐の全てにおけ
るデコーダ34cへの４ビットアドレス32cと共に、前記分
岐における更なるデコーダ34cにイネーブル信号30cを供
給するかを決定する。該イネーブル信号30cを受け取っ
たデコーダ34cは、次いで単一ビットメモリセルにおけ
る格納可能な必要とされるアドレスにイネーブル信号34
dを供給する。このＨツリー構造の利点は、全ての宛先
に対する信号経路の長さがほぼ等しいことにあり、これ
はクロック信号の場合に特に有利となる。

【００６４】上記記載の構成の大きな利点は、例えば１
つのスイッチングセクション14中、又は１つのタイル中
の２つのスイッチングセクション中、又は複数のタイル
からなる１つのサブアレイにおける複数のスイッチング
セクション中のメモリセル24のグループを、反転された
イネーブル信号により一括してディセーブルにして、こ
れらメモリセルの内容がそれらに関連するスイッチに影
響を及ぼさないようにすることが可能であることにあ
る。次いで、これらのメモリセル24は、アレイの配線を
構成するために使用するのではなくアプリケーションに
より「ユーザ」メモリとして使用することが可能とな
る。

【００６５】次に、本発明の本実施例で用いられるＡＬ
Ｕの構造について図１２を参照して説明する。図１２
(a)に示すように、ＡＬＵは、４つの入力A,B,I,Cinと２
つの出力F,Coutとを有している。A,B,I,Fは全て４ビッ
ト幅を有するものであり、A,B,Fについて上述するよう
に、隣接するスイッチブロックにより一般の相互接続に
接続されている。Iへの入力は、図9に示されるマルチプ
レクサ26から抽出される。Cin及びCoutは、どちらも1ビ
ット幅であり、上記と同様に一層限定された相互接続に
接続されている。A,Bは、ＡＬＵ用のオペランドを提供
し、Fは出力を提供する。Cin,Coutは、桁上げ関数を提
供するものではあるが、制御面でも重要なものである。
IはＡＬＵの関数演算を決定する命令入力を提供する。
これは、機能ユニットが１組のメモリビットにより制御
されるという点で、標準的なＦＰＧＡと対照的である。
この特徴の重要性及び配線網からＡＬＵまで命令入力を
経路指定するために設けられた機構について以下で説明
する。

【００６６】ＡＬＵは、以下の４つの主要部分を有して
いる。

【００６７】４つの同一のビットスライス(bitslice)か
らなるＡＬＵデータパス命令デコーダ桁上げ／制御入力調整論理回路スイッチブロックプログラミングインターフェイス（これは、本発明の他の実施例ではＡＬＵ自体に存在す
る必要のないものではあるが、ＡＬＵに該特徴が存在す
ることによりルックアップテーブルモードでＡＬＵを使
用する可能性が許容されることになる）図１２(b)は、ＡＬＵの単一ビットスライスのブロック
図を示している。

【００６８】２つの「入力バッファ」202,203は、経路
指定網への電気的な接続を提供する手段に過ぎない。該
アーキテクチャにはアドレス指定可能な入力レジスタ
（ひいてはレジスタファイル）は存在しない。ＡＬＵの
機能ユニット201には各サイクルで同じ場所（配線網）
からオペランドが提供される。

【００６９】機能ユニット201は、２つの入力A,Bのブー
ル関数Uを生成するルックアップテーブル（ＬＵＴ）と
して動作する。４つの制御信号（L3,L2,L1,L0）により
正確な関数がセットされ、表１に示すカルノー図が生成
される。

【００７０】

【表１】（ＡＬＵビットスライスに関するカルノー
図）

【００７１】信号Liの生成について以下に説明する。

【００７２】「和生成手段」204が、U及びCinのＸＯＲ
により導出される和出力を提供する。

【００７３】和＝ U ＸＯＲ Cin Coutが、次の論理式に従って「桁上げ生成手段」205に
より生成される。

【００７４】P ＝ U ＯＲ L4 G ＝ A ＯＲ L5 Cout ＝ IF P THEN Cin ELSE G ここで、Pは伝搬関数、Gは生成関数とみなすことができ
る。信号Liは後述の態様で生成される。

【００７５】出力レジスタ206は、和出力を随意選択的
にラッチする。この随意選択は、ＡＬＵプログラミング
メモリの制御下で選択可能なものである。随意選択的
に、同様のラッチ構成を桁上げ出力に与えることができ
る。これらの特徴は、同じ演算を幾つかのＡＬＵで同期
させ又はタイミング制御された態様で実行する必要のあ
る深いパイプラインでの使用に有利なものである。

【００７６】広範な異なる考え得るビットスライスを使
用することが可能である。所与のアーキテクチャにおけ
るビットスライスタイプの選択は、全体として該アーキ
テクチャが最も効率よく処理を行うことを意図した命令
のタイプの関数とすることが可能である。より複雑な演
算に有用な構築ブロックとして作用することができる様
々な関数を使用することが可能であることは、明らかに
望ましい。その他の特徴もまた望ましいものである。即
ち、その１つの望ましい特徴は、幾つかのビットをその
正規関数から「流用」して(divert)他の回路要素にわた
る制御を可能にする能力である。もう１つの望ましい特
徴は、特定の構成での動的な命令切換を必要としないＡ
ＬＵの固定命令を格納する能力である。ＡＬＵをスイッ
チボックス（又はルックアップテーブル）用の読み出し
／書き込みポートとして使用することを可能にする適当
なデフォルト状態が存在することもまた望ましい。

【００７７】図１２(c)は、ＡＬＵの単一のビットスラ
イスの物理的な実施態様のブロック図を示している。入
力及び出力については図１２(b)を参照して上述したと
おりである。該ビットスライスは、６つの制御信号を生
成することを必要とする。このための機構について以下
に説明する。該ビットスライスにより生成される有用な
一組のブール関数を表２に示す。

【００７８】

【表２】（ビットスライスの関数と関連する制御入
力）

【００７９】入力は、以下のグループに分類される。即
ち、算術演算命令（ADD,SUB）、２入力ビット単位(bitw
ise)命令（ＡＮＤ,ＯＲ,ＮＯＲ,ＸＯＲ,ＮＸＯＲ）、１
入力命令（A,B,NOT A,NOT B）、比較及びテスト命令（E
QUALS,MATCH1,MATCH0）である。これらの関数の出力を
以下の表３にまとめる。

【００８０】

【表３】（命令の出力）

【００８１】２の補数演算が使用され、及び演算に矛盾
が生じないよう演算の桁上げが提供される。MATCH関数
は俗にいうものであり、MATCH1の場合には、A及びBの両
方で１となる少なくとも１つの位置が存在する場合にの
み値１が返され、MATCH0の場合には、A及びBの両方で０
となる少なくとも１つの位置が存在する場合にのみ値０
が返される。

【００８２】ビットスライスの出力を決定するために
は、６つの制御信号Liが必要である。しかしながら、Ａ
ＬＵの関数を決定する動的な命令は何れも５ビット以上
を含まないことが望ましく、これにより、該命令が相互
接続の４ビット経路に適合するものとなり、及びＡＬＵ
命令をそれとは別のＡＬＵの出力として提供することが
可能となる。４つの命令ビットJiから制御信号Liを導出
するための１つの方式は次のようになる。

【００８３】

【数１】

【００８４】しかし、これは、Cinのみによって制御さ
れるマルチプレサが設けられていないという点で欠点を
有するものである。これを実施するために、Cinについ
ての依存性を与えるようL0及びL3の定義を変更すること
ができる。その他の定義は変更しない。

【００８５】L0 = IF (Cin AND L4) THEN J2 ELSE J3 L3 = IF (Cin AND L4) THEN J3 ELSE J2 この結果得られた命令テーブルを表４として以下に示
す。

【００８６】

【表４】（命令ビット及びそれに対応する関数）

【００８７】次に、ＡＬＵの命令ビットの出所について
説明する。本発明の構成要素は、その少なくとも１つの
態様では、ＭＡＴＲＩＸアーキテクチャと共有されるも
のであり、機能ユニットについての命令をそれとは別の
機能ユニットの出力として生成する能力である。これ
は、ＭＡＴＲＩＸアーキテクチャでは、比較的粗粒の(c
oarse)機能ユニットを備えた構造で実施され、該機能ユ
ニットの各々は、８ビットＡＬＵと、自分自身のレジス
タファイルを有する入力レジスタとを備えている。一
方、本実施例では、４ビットＡＬＵを備えると共にアド
レス指定可能な入力レジスタを有さない遙かに微細な機
能ユニットが使用される。入力レジスタが存在しないた
め、機能ユニットが処理パイプラインで演算を行う必要
がある。かかるパイプライン計算モデルにおいて配線網
からＡＬＵに命令を入力することを可能にする回路を図
１６に示す。

【００８８】動的命令I（アレイ中で別のＡＬＵによっ
て生成され、又は配線網にアクセスすることが可能なメ
モリから随意選択的に得られた４ビット命令）を含む入
力信号は、配線網に対する結合部301から受け取られ
る。該入力信号は、上述のようにマルチプレクサ26（図
９参照）を介して得ることも可能である。利用可能な選
択肢が多数存在することが望ましい場合には、これは、
１つ又は２つ以上の追加のＡＬＵをマルチプレクサ構成
に使用することにより達成可能である。

【００８９】該アーキテクチャの他の実施例では、全て
の命令を動的に与えることが可能となり、この場合には
信号はＡＬＵに直接渡される。しかし、本開示の実施例
では、命令を動的に与えるか又は局所的に与えるかにつ
いての選択機能が存在する。配線網から入力された信号
は、動的命令イネーブルゲート304を通過する。該ゲー
トの機能は、動的命令ビットIを該ＡＬＵにより使用可
能とすること又はこれらを使用できないようにすること
であり、後者の場合には、格納されている命令ビットを
代替的に用いる必要がある。これは、該ＡＬＵについて
の構成ＲＡＭの単一ビット303により決定される。動的
命令ビットを使用すべき場合には、ゲート304は、配線
網から入力されたIの値を通過させる。そうでない場合
には、ゲート304の出力がゼロになり、ＡＬＵへの命令
入力は、格納された命令ビットとして４ビット制御レジ
スタ313中に既に格納されているものとなる。かかる既
格納命令ビットは、例えばＨツリーネットワークを介し
て早期にロードしておくことが可能である。

【００９０】配線網301からの動的命令ビットIとして又
はレジスタ313からの既格納命令ビットとしてＡＬＵに
入力を与える機構が、動的命令マスク305という形で設
けられる場合には、利点を得ることができる。これは、
２つのゲート、即ちＯＲゲート311及びＡＮＤゲート312
を備えたものである。各ゲートへの入力（即ち動的命令
イネーブルゲート304及びレジスタ313の出力）は同一で
ある。

【００９１】ＯＲゲート311の出力は、関連する命令ビ
ットJiである。ＡＮＤゲート312の出力は、ＡＬＵの他
の部分に提供するための出力Kiとして利用可能なもので
あり、その理由については後述することとする。入力イ
ネーブルビット303が低レベルである場合には、出力Ki
は全て低レベルとなり、ビットスライス用の命令ビット
Jiが４ビット制御レジスタ313に従う。入力イネーブル
ビット303が高レベルであり、制御レジスタ313ビットが
低レベルである場合には、外部入力Iiが命令ビットJiの
関連出力に経路指定され、関連するKiが低レベルにされ
る。入力イネーブルビット303が高レベルであり、制御
レジスタ313ビットが高レベルである場合には、外部入
力Iiが関連するKiに経路指定され、命令ビットJiの関連
出力が高レベルにされる。

【００９２】動的命令マスク305を提供する利点は、動
的命令を効果的に利用するために、他の回路をＡＬＵと
同期させて制御することが望ましいことが多いことであ
る。例えば、ある場合には、ＡＬＵを加算演算と減算演
算の間でスワップさせるべき場合に、桁上げチェーンの
最下位ビットに供給する定数を、減算の場合には１をセ
ットし、加算の場合には０をセットする必要がある。動
的命令マスク305を設けることにより、図１７に示すよ
うに、該周辺回路を制御するために制御入力を追加する
必要がなくなる。該マスク回路により、動的命令入力の
特定のビットをＡＬＵに供給し、及び該動的命令入力の
他のビットを周辺回路に供給することが可能になる。

【００９３】図１７に示す場合には、制御レジスタ313
は値0011を有する。その結果として、I3,I2はJ3,J2にそ
れぞれ接続するが、I1,I0はK1,K0に接続する。J1,J0
は、両方とも値１に固定されている。これにより、最下
位ビットを処理するためのADD_LSBコード及びSUB_LSBコ
ードを含むADD及びSUB命令コードの拡張セットが与えら
れる。この関数コードセットを達成するよう結果的に得
られるIに関するコードは次の通りである。

【００９４】 I 入力 ADD 命令コード 0000 I 入力 ADD_LSB 命令コード 0001 I 入力 SUB 命令コード 1100 I 入力 SUB_LSB 命令コード 1111 ＡＬＵ命令コードJは、ADD及びADD_LSBの両方について
は同じ（0011）であるが、ADDについては、Cinは、ビッ
トスライス用のCinとなるよう単に伝播され、一方、ADD
_LSBについては、ビットスライス用のCinの値は常に０
である。SUB命令の位置も同様である。即ち、SUB_LSBに
ついては、ビットスライス用のCinの値は常に１であ
る。

【００９５】したがって、周辺回路が動的命令入力によ
り制御される際に同時に使用することができるＡＬＵ命
令の組み合わせが制限される。しかし、これは、実際上
の問題を生じさせるものとはならない（限られた数の場
合しかカバーする必要がないため）。例えば、図１７に
示す場合には、ADD命令とSUB命令との間に２つの共通ビ
ットが存在する必要があり、即ち、この場合には、ビッ
トJ1,J0が共に値１を有する。

【００９６】したがって、ＡＬＵの４ビット出力は、別
のＡＬＵの動的命令入力Iとして使用することが可能で
ある。ＡＬＵの桁上げ出力もまた、別のＡＬＵの桁上げ
入力として使用することが可能であり、これは動的命令
を与える際に利用できる。ＡＬＵの演算を動的に変化さ
せることが可能な３つの基本的な方法が存在する。

【００９７】１．命令ビットIを一定に維持した状態で
１つの関数の２つのバージョンの間で多重化を行うため
にCinを使用することができる。図１３に示す例は、Ｏ
ＲとＡＮＤとの間の多重化を示している。これは、表４
の右側２列に隣接して示されている関数間での多重化を
可能にする。

【００９８】２．Cinが同じ状態を維持している際に命
令ビットIを変更することができる。これにより、Cinに
ついて同じ要件を有する命令テーブルの同一列における
関数間（例えば、桁上げ入力Cin＝０のとき命令入力100
0,0000をそれぞれ有するＮＡＮＤとＸＯＲとの間）でス
ワッピングを行うことが可能になる。実際には、これ
は、図１４に示されるように、２つの命令間で多重化を
行うために第２のＡＬＵを使用することにより最も容易
に達成される。２つのIの値は、第１のＡＬＵの入力A,B
として使用され、該第１のＡＬＵは、多重化関数0110を
使用してプログラムされ、その出力がI入力として第２
のＡＬＵに与えられる。

【００９９】３．命令及びCinの値を変更することがで
きる。これにより、命令テーブルの右側２列における任
意の２項目間でスワッピングを行うことが可能になる。
図１５は該構成を示すものであり、第１のＡＬＵをマル
チプレクサとして使用し、及び該マルチプレクサで選択
された命令が与えられる第２のＡＬＵをそのI入力とし
て使用する点で、図１４と類似したものである。この場
合、関数は、ＸＯＲ（命令コード0000）及びＮＯＲ（命
令コード1000）であり、必要とされるCinの値はそれぞ
れ０,１である。代替的な命令入力間で選択を行うため
に多重化ＡＬＵのCinとして用いられる信号は、ここで
は、多重化ＡＬＵのCoutとして伝播され、第２のＡＬＵ
のCinとして使用され、必要とされるI及びCinの組み合
わせが得られることになる。

【０１００】既述のように、ＡＬＵが隣接スイッチブロ
ック用のメモリインターフェイス論理回路を備えている
ため、ルックアップテーブル操作が可能となる。したが
って、一対のＡＬＵ及びスイッチブロックを４入力４出
力ルックアップテーブル（ＬＵＴ）にすることができ
る。ＬＵＴアドレスを入力Aから得ると、出力和はAの任
意のブール関数とすることができる。これは、ＡＬＵ命
令セットでは効率的に実行することができない命令に有
用なものとなる（その考え得る例としては、パリティ生
成、ビット回転、及びCASE文における複雑なパターンの
突き合わせがある）。ＬＵＴ操作は、ＡＬＵ内でモード
ビットにより選択可能となっており、該実施例ではI入
力により選択することはできない。

【０１０１】ＡＬＵのＬＵＴ操作中、I入力はディセー
ブルにされる。随意選択的に、該ＬＵＴ操作中にメモリ
への書き込みを行うことが可能となり、この場合には、
Bがデータ入力として使用され、Cinが書き込みイネーブ
ル信号として使用される。該ＬＵＴの出力を使用してＡ
ＬＵの出力を通常の態様で駆動することができる。

【０１０２】当該プロセッサアレイにおけるプロセッサ
の基本モードは、所定のセットの論理演算のうちの１つ
を２又は３つの入力で実行することである。最も単純な
場合には、プロセッサにより実行される命令は、構成メ
モリの４ビットに静的にプログラムされ、該命令は、連
続するクロックサイクル間で変化しない。しかし、上述
のように、動的命令を与えることも可能である。即ち、
各プロセッサの動作を決定する命令が、構成メモリの４
ビットと通常の配線網から得た４ビット入力との論理的
な組み合わせとして形成される。次いで関連するプロセ
ッサ（又はアレイの一部）の関数をサイクル毎に変更
し、これにより完全な再構成に必要となるコストが節約
され、提供可能な命令の数が増大し、データに依存する
演算に関するコストが削減される。

【０１０３】プロセッサ要素に動的命令を与えることが
でき、及び（このアレイの場合には構成メモリをユーザ
プレーンメモリへと変換することにより）ユーザプレー
ンメモリを利用することができるため、プロセッサアレ
イ内にＣＰＵを構築することが可能であることが判明し
た。図１８は、極めて単純なＣＰＵのビットスライスの
一例を示している。図１８のビットスライスは最も単純
に構築可能なものではあるが、これよりも遙かに複雑な
ビットスライスもまた実施可能であることに留意された
い。これは、ＲＡＭ401等のメモリ（例えばユーザプレ
ーンメモリへと変換された構成メモリとすることが可
能）と、プロセッサ要素の算術論理演算装置（ＡＬＵ）
402と、プロセッサ要素の出力レジスタ403と、一般にＲ
ＡＭとすることが可能なコードメモリ404（及びユーザ
プレーンメモリへと変換された１つ又は２つ以上のプロ
セッサ要素とすることが可能）とを含む。ＲＡＭ401
は、16ワード×４ビットの大きさを有する。このＣＰＵ
は、４ビット幅のデータスライスに作用するよう適合さ
れるたものである。これは、プロセッサ要素により処理
可能なビットスライスが４ビット幅を有するためであ
る。必要とされるデータパス幅が４ビットを越える場合
には、１つ又は２つ以上の追加のプロセッサ要素が必要
となる。

【０１０４】ＲＡＭ401は、ＣＰＵのためのレジスタフ
ァイルとして機能し、ＣＰＵのためのデータを保持す
る。該ＣＰＵに関する命令は、コードメモリ404から受
け取られる。かかる命令は、２種類からなり、即ち、Ａ
ＬＵ402それ自体に関する命令と、ＲＡＭ401に関するア
ドレス及び読み出し／書き込み制御（アドレスポートか
ら４本の専用線を介して渡されるアドレス情報（ADDRと
示す）、及び上記とは別のポートを介して渡される読み
取り／書き込み制御（R／Wと表される））である。有利
には、該命令情報が圧縮形式でコードメモリ404に保持
され、この場合には、コードメモリ404とＣＰＵとの間
に追加の命令デコーダが必要となる。ＡＬＵ402により
実行された命令が結果が得られると、該結果が出力レジ
スタ403に格納される。該結果は、次のサイクルで、Ａ
ＬＵ402にフィードバックし、又はＲＡＭ401に格納する
ことができる。単一サイクルで、ＲＡＭ401に対する読
み出し又は書き込みが行われる。

【０１０５】該ＣＰＵに適した単純な命令セットは以下
に示す通りである（ここで、REGはレジスタ403、RAMは
ＲＡＭ401，及びaddrはＲＡＭ401へのアドレスであ
る）。

【０１０６】REG := RAM(addr)→ワード番号（addr）を
ＲＡＭ401からREGにロードする REG := NOT RAM(addr)→RAM(addr)の反転論理をREGにロ
ードする REG := REG NAND RAM(addr)→REG及びRAM(addr)内の値
のビット単位の論理ＮＡＮＤを実行し、その結果をREG
に格納するＲＥＧ：＝ＲＥＧＡＮＤＮＯＴＲＡＭ（ａｄ
ｄｒ）→ＲＥＧ内の値のビット単位の論理ＮＡＮＤ及び
RAM(addr)内の値の反転論理を実行し、その結果をREGに
格納する REG := REG + RAM(addr)→REG及びRAM(addr)内の値の算
術加算を実行し、その結果をREGに格納する REG := REG OR RAM(addr)→REG及びRAM(addr)内の値の
ビット単位の論理ＯＲを実行し、その結果をREGに格納
する RAM(addr) := REG→レジスタファイルの書き込みを可能
にする更に複雑なデータパススライスを有し特定タイプの演算
について最適化されたＣＰＵを入手可能な機能ユニット
により構築することは自明のことである。必要となるＡ
ＬＵの数はＣＰＵに必要となる命令セットに依存し、一
般に、時間的な制約により、必要とされる命令セットの
実行に必要となるＡＬＵの数を最小限にすることが望ま
しい。追加のレジスタが必要となる場合に、１つ又は２
つ以上の16ワード×４ビットＲＡＭ（ＲＡＭ401と同
様）で該レジスタを構築することは自明のことである。
１つのデータパススライス内に多数のＡＬＵが存在する
場合には、必要とされる命令をそれらに協働して計算さ
せる命令入力における命令値で各々を駆動することが必
要である。

【０１０７】２つ以上のデータパススライスが存在する
場合もある。この場合には、各スライスにおける対応す
るＡＬＵが、共通のコードメモリからの命令入力を共有
することが有利である。該命令が共通コードメモリ中で
圧縮されている場合には、共有される命令デコーダを介
して、ＡＬＵの各々に解凍された命令を提供することが
できる。桁上げは、桁上げ連鎖を使用して命令を実行す
る個々のＡＬＵ毎に、最下位のデータパススライスから
最上位のデータパススライスまで連鎖されることにな
る。

【０１０８】この種のＣＰＵの命令ストリームを生成す
るために利用することが可能な方法は多数存在する。最
も容易なものを図１８に示す。命令ストリームはメモリ
から読み込まれる。しかし、結果的に生じるデータ依存
型の実行によりデータ値から命令を導出することもまた
可能である。最も汎用性のある構成は、これらの方法の
両方を組み合わせて用いるものとなろう。

【０１０９】本発明の実施形態を例示のためにのみ記載
してきたが、本発明に従いながら多数の変形及び展開を
行ってもよい。例えば、本実施形態では、４ビットＡＬ
Ｕを処理装置として用いているが、これに加えて、又は
その代わりに、他の形態のＡＬＵその他の処理装置を使
用することも可能である。

【０１１０】更に、本実施形態では、ＡＬＵ及びスイッ
チングセクションによりアレイ全体がカバーされるよう
な説明を行ってきたが、他の種類の構成要素を該アレイ
に含めることも可能である。例えば、サブアレイは、上
述のようにＡＬＵ及びスイッチングセクションの４×４
配列のタイルから構成することが可能である。また、該
アレイは、４×４アレイにおける前述のサブアレイ及び
メモリ、又は４×４アレイにおける前述のサブアレイ及
びＲＩＳＣＣＰＵから構成することが可能である。

【０１１１】上記の実施例では、各ＡＬＵ区域は正方形
であり、各スイッチングセクションは正方形であってＡ
ＬＵ区域と同一サイズであるが、レジスタバスvregw,vr
ege,hregn,hregsにおける制御可能スイッチ18が、ＡＬ
Ｕ区域の正方形の輪郭に侵入することに留意されたい。
ＡＬＵ区域は、スイッチングセクションと同一サイズで
ある必要はなく、特に一層小さくすることが可能であ
り、このため、１つ又は２つ以上のバスが、１つのスイ
ッチングセクション14から対角線方向で隣接するスイッ
チングセクション14へと水平方向又は垂直方向に直接進
行すること、例えばバスh2s,h2n間又はバスv2e,v2w間を
走るようにすることが可能である。

【０１１２】上記の実施例では、各ＡＬＵは、２つの独
立した桁上げ入力vci,hci及び接続された一対の桁上げ
出力coを有している。必要であれば、２つのタイプの桁
上げ、即ち、マルチビット加算演算に特に用いられる隣
接するＡＬＵ間の高速桁上げと、より柔軟に経路指定す
ることが可能でありディジタル直列演算に特に用いられ
る低速桁上げとを処理するようＡＬＵを構成することも
可能である。高速桁上げは、図面を参照して上述したも
のと同様に構成可能なものであり、低速桁上げは、桁上
げ導体と４ビットバスの特定ビットとの間のスイッチン
グセクション14におけるプログラマブルスイッチを用い
ることが可能である。

【０１１３】上記の実施例では、特定のビット幅、スイ
ッチングセクションのサイズ、及びアレイのサイズにつ
いて説明してきたが、これらの値は全て適宜変更可能な
ものであることに留意されたい。また、プログラマブル
スイッチ16,18,20は、各スイッチングセクション14中の
特定区域に設けられるものとして説明したが、必要及び
要求に応じて他の区域を用いることが可能である。

【０１１４】上記の実施例では、アレイは二次元のもの
であるが、（例えば、隣接層のスイッチングセクション
が互いに互い違いになった状態で上記アレイの積層体を
形成することにより）三次元アレイに本発明の原理を応
用することも可能である。この積層体は、２層からなる
ものとすることが可能であるが、好適には少なくとも３
層からなり、その層数は２の累乗であることが好まし
い。

【０１１５】上記の実施例では、メモリセル24は、ゲー
ト16g,18g,20gにより、メモリセルを他の目的（これを
「ユーザプレーン」と表している）に使用できるよう制
御を行うスイッチから分離させることができる。しか
し、イネーブル信号メモリセルは、ユーザプレーンにす
ることができないものである。代替的な実施例では、特
定のスイッチングセクション14におけるスイッチが、該
スイッチングセクション14の境界においてバス中の更な
るスイッチによりアレイの残りの部分から切断可能とな
っており、該更なるスイッチは、ユーザプレーンにする
ことができない更なるメモリセルにより制御される。

【０１１６】その他にも多数の変形及び展開を実施する
ことが可能である。

【０１１７】以下においては、本発明の種々の構成要件
の組み合わせからなる例示的な実施態様を示す。

【０１１８】１．複数の処理デバイスと、該処理デバ
イス間の相互接続を提供する接続マトリクスと、該接続
マトリクスの構成を規定する手段と、を備えており、前
記処理デバイスの各々が、入力オペランドについて関数
を実行して出力を生成するよう構成された算術論理演算
装置を備えており、前記入力オペランドが、各サイクル
で同一経路上の相互接続から前記算術論理演算装置への
入力として提供され、前記処理デバイスのうちの第１の
処理デバイスの出力を該処理デバイスのうちの第２の処
理デバイスへと経路指定して前記第２の処理デバイスに
より実行される関数を決定する手段が配設されているこ
とを特徴とする、再構成可能デバイス。

【０１１９】２．前記処理デバイスの各々が、アドレ
ス指定可能な入力レジスタを備えておらず、このため、
算術論理演算装置により相互接続から入力オペランドを
直接受け取る、前項１に記載の再構成可能デバイス。

【０１２０】３．前記処理デバイスの各々が、該処理
デバイスのうちの別の処理デバイスの出力により決定す
ることが可能な第１の複数の構成ビットと、該処理デバ
イスのうちの別の処理デバイスの出力により決定するこ
とが不可能な第２の複数の構成ビットとを有している、
前項１又は前項２に記載の再構成可能デバイス。

【０１２１】４．前記処理デバイスの各々が、第１オ
ペランド入力と、第２オペランド入力と、機能結果出力
と、桁上げ入力と、桁上げ出力とを有しており、前記第
１オペランド入力、前記第２オペランド入力、及び前記
機能結果出力がｎビットであり（ｎは１より大きい整
数）、前記桁上げ入力及び前記桁上げ出力が１ビットで
ある、前項１ないし前項３のいずれか１項に記載の再構
成可能デバイス。

【０１２２】５．前記ｎ＝４である、前項４項に記載
の再構成可能デバイス。

【０１２３】６．前記処理デバイスの各々が、その関
数の決定のために、該処理デバイスのうちの別の処理デ
バイスからのｎビット命令入力を受け取るように構成さ
れている、前項４又は前項５に記載の再構成可能デバイ
ス。

【０１２４】７．前記処理デバイスのうちの１つへの
桁上げ入力が該処理デバイスの算術論理演算装置の関数
を変更することを可能にする手段が設けられている、前
項４ないし前項６のいずれか１項に記載の再構成可能デ
バイス。

【０１２５】８．前記手段が、前記桁上げ入力が算術
論理演算装置の関数を論理補数に変更することを可能に
するものである、前項７に記載の再構成可能デバイス。

【０１２６】９．桁上げ入力を一定値に保持すること
を可能とする手段が前記処理デバイスの各々に設けられ
ている、前項４ないし前項８のいずれか１項に記載の再
構成可能デバイス。

【０１２７】10．前記処理デバイスのうちの第１の処
理デバイスが、該第１の処理デバイスの桁上げ入力の値
に従って、前記処理デバイスのうちの第２の処理デバイ
スへの命令入力の２つの値間で多重化を行うために使用
可能となっている、前項４ないし前項７のいずれか１項
に記載の再構成可能デバイス。

【０１２８】11．前記第１の処理デバイスの桁上げ入
力を該第１の処理デバイスを介して前記第２の処理デバ
イスの桁上げ入力へと伝播させることが可能となってい
る、前項10項に記載の再構成可能デバイス。

【０１２９】12．前記処理デバイスの各々が、関数出
力のためのラッチ可能な出力レジスタを備えている、前
項１ないし前項11のいずれか１項に記載の再構成可能デ
バイス。

【０１３０】13．前記処理デバイスの各々が、算術論
理演算装置の関数を決定するための命令が相互接続から
動的に受けられるべきか前記処理デバイス中の構成メモ
リから提供されるべきかを決定する動的イネーブルゲー
トを備えている、前項１ないし前項12のいずれか１項に
記載の再構成可能デバイス。

【０１３１】14．前記処理デバイスの各々が、動的命
令マスクを備えており、該動的命令マスクを前記処理デ
バイスが受け取った命令に適用することにより、前記命
令を、算術論理演算装置の関数を決定するための算術論
理演算装置の命令入力と、前記処理デバイスにおける周
辺回路の制御のための周辺回路の命令入力との両方に提
供することが可能となっている、前項１ないし前項13の
いずれか１項に記載の再構成可能デバイス。

【０１３２】15．中央処理装置の算術論理演算装置を
形成するために１つ又は２つ以上の処理デバイスを配設
し、前記中央処理装置のレジスタファイルとして第１の
メモリを配設し、前記中央処理装置に命令を与えるため
のコードメモリとして第２のメモリを配設する、という
各ステップを有し、前記中央処理装置の前記算術論理演
算装置の命令入力が前記第２メモリから提供されること
を特徴とする、前項１ないし前項14のいずれか１項に記
載の再構成可能デバイスから中央処理装置を構築する方
法。

【０１３３】16．前記第１のメモリと前記第２のメモ
リとの一方又は両方が、前記再構成可能デバイスの１つ
又は２つ以上の構成要素をユーザプレーンメモリに再構
成することにより提供される、前項15に記載の方法。

【０１３４】17．前記再構成可能デバイスの前記１つ
又は２つ以上の構成要素が、構成マトリクスの構成を規
定するための手段の構成要素を含む、前項16に記載の方
法。

【０１３５】18．前記再構成可能デバイスの前記１つ
又は２つ以上の構成要素が、１つ又は２つ以上の処理デ
バイスを含む、前項16項又は前項17に記載の方法。

【０１３６】19．前記中央処理装置が、多数の算術論
理演算装置を有しており、該多数の算術論理演算装置に
ついての命令が前記第２のメモリから提供される、前項
15ないし前項18のいずれか１項に記載の方法。

【０１３７】20．前記第２のメモリと、前記第１のメ
モリ及び前記中央処理装置の前記算術論理演算装置との
両方の間に命令デコーダ回路が配設され、命令を圧縮形
式で前記第２メモリに格納できるようになっており、ま
た前記中央処理装置での実行前に前記命令デコーダ回路
によりデコードされるようになっている、前項15ないし
前項19のいずれか１項に記載の方法。

【０１３８】21．前記多数の算術論理演算装置に共通
の命令デコーダ回路が配設される、前項21に従属する前
項20に記載の方法。

【図面の簡単な説明】

【図１】プロセッサアレイの一部を示す説明図であり、
６つのスイッチングセクション及び６つの算術論理演算
装置の区域が示されている。

【図２】図１に示す構成の一部を示す部分拡大図であ
り、スイッチングセクションのうちの１つ及び算術論理
演算装置の区域のうちの１つが示されている。

【図３】図１に示すプロセッサアレイの一部を更に小さ
なスケールで示す説明図であり、算術論理演算装置の区
域と、これを横切って延びる「垂直」バスとが示されて
いる。

【図４】図３と類似した図であるが、算術論理演算装置
の区域を横切って延びる「水平」バスが示されている。

【図５】算術論理演算装置のうちの１つの区域ｎにおけ
る図２、図３、及び図４のバス間の相互接続を示す説明
図である。

【図６】(a)は、互いに交差する一対の４ビットバスを
接続するための、スイッチングセクション中の１つのタ
イプのプログラマブルスイッチを詳細に示す回路図、
(b)は、端部と端部が互いに接する一対の４ビットバス
を接続するための、スイッチングセクション中の別のタ
イプのプログラマブルスイッチを詳細に示す回路図、
(c)は、桁上げビットバスを接続するための、スイッチ
ングセクション中の別のタイプのプログラマブルスイッ
チを詳細に示す回路図である。

【図７】図５及び図６のプログラマブルスイッチで用い
ることが可能な一連のＮＯＲゲートを示す回路図であ
る。

【図８】図７の回路の変形例を示す回路図である。

【図９】各スイッチングセクションで用いることが可能
なバッファ及びレジスタを示す回路図である。

【図１０】スイッチングセクション中のプログラマブル
スイッチに対してイネーブル信号が如何に分散されるか
を概略的に示す説明図である。

【図１１】図１０に示す構成を一層詳細に示す回路図で
ある。

【図１２】(a)は、図１のアレイで用いられる個々の算
術論理演算装置を示すブロック図、(b)は、個々の算術
論理演算装置のビットスライスを概略的に示すブロック
図、(c)は、(b)のビットスライスの物理的な実施態様を
示す回路図である（これらは全て本発明の一実施例によ
るものである）

【図１３】算術論理演算装置におけるＯＲとＡＮＤとの
間の動的な命令選択を示す説明図である。

【図１４】一対の算術論理演算装置におけるＮＡＮＤと
ＸＯＲとの間の動的な命令選択を示す説明図である。

【図１５】一対の算術論理演算装置におけるＸＯＲとＮ
ＯＲとの間の動的な命令選択を示す説明図である。

【図１６】配線網から算術論理演算装置へ命令を動的に
供給するための構造を示す説明図である。

【図１７】図１６に示す動的命令マスクによるビットの
流用(diversion)を利用した桁上げ入出力パスを示す説
明図である。

【図１８】極めて単純なＣＰＵのビットスライスの一例
を示す説明図である。

【符号の説明】

12 回路領域 10 タイル 14 スイッチングセクション 16,18,20 プログラマブルスイッチ 22 結合部

───────────────────────────────────────────────────── フロントページの続き (72)発明者アンソニー・スタンスフィールドイギリス国ブリストル・ビーエス８・４ワイビー，ホットウェルズ，ロウンハム・メッド・60 (72)発明者ジャン・ビュレミフランス国75116−パリ，リュ・ドゥ・ラ・トゥール・76

Claims

【特許請求の範囲】

【請求項１】複数の処理デバイスと、該処理デバイス間の相互接続を提供する接続マトリクス
と、該接続マトリクスの構成を規定する手段と、を備えてお
り、前記処理デバイスの各々が、入力オペランドについて関
数を実行して出力を生成するよう構成された算術論理演
算装置を備えており、前記入力オペランドが、各サイク
ルで同一経路上の相互接続から前記算術論理演算装置へ
の入力として提供され、前記処理デバイスのうちの第１
の処理デバイスの出力を該処理デバイスのうちの第２の
処理デバイスへと経路指定して前記第２の処理デバイス
により実行される関数を決定する手段が配設されている
ことを特徴とする、再構成可能デバイス。