JP2012074051A

JP2012074051A - 任意のアルゴリズムを並列計算するための再構成可能な論理回路装置

Info

Publication number: JP2012074051A
Application number: JP2011241298A
Authority: JP
Inventors: Wiegand Christian; ヴィーガント、クリスチアン; Christian Siemers; ジーメルス、クリスチアン
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-02-13
Filing date: 2011-11-02
Publication date: 2012-04-12
Also published as: US20070171101A1; US7352205B2; WO2005078599A1; DE102005005073A1; JP2007522571A; JP5027515B2; CN1918560A; CN100388264C; DE102005005073B4

Abstract

【課題】アルゴリズムの並列性を利用することのできるグローバルセルオートマトンＧＣＡをＰＬＤ等にマップできるアーキテクチャを提供する。
【解決手段】計算機構の構成可能なアーキテクチャが少なくとも１つの個々に構成可能および／または再構成可能なスイッチング装置を有し、このスイッチング装置の出力変数は時点ｔ_n-1に、時点ｔ_nにおけるスイッチング装置の付属する入力に入力変数を形成する。時点ｔ_n-1とｔ_nとの間におけるスイッチング装置の出力変数をクロック制御されて記憶するための手段が設けられている。
【選択図】図９

Description

１．技術分野
本発明は、少なくとも１つの論理回路装置を有する、アルゴリズムを並列計算するための計算機構のアーキテクチャ（基本構造）に関する。

２．公知技術
２．１公知の計算機モデル
図１の原理図から明らかとなるようないわゆる「フォンノイマン型アーキテクチャ」は一般に汎用計算機と見做される。ここでは、計算機の助けを借りて、コンポーネント中央処理装置［ＣＰＵ、その中に制御装置（ＣＵ）と演算論理ユニット（ＡＬＵ）が含まれる］、メモリ（記憶装置）、インプット／アウトプット（入力／出力）およびバス方式を有するこのアーキテクチャに基づいて、あらゆるアルゴリズム可能な問題は基本的に計算することができるということが理解できる。このような計算機をその都度の問題に調整することは、プログラムによって、すなわち例えばプログラム言語Ｃ、Ｃ＋＋またはＪａｖａ（登録商標）でアルゴリズムをテキスト記述することによって行われる。このプログラムは、それ自体プログラムである翻訳系（コンパイラ）によって機械読取可能なプログラムに変換される。

プログラムの処理が行われる計算機は図１によるフォンノイマン型アーキテクチャおよび類似のアーキテクチャ（例えばハーヴァード・アーキテクチャまたは修正ハーヴァード・アーキテクチャ）に基づいており、基本的に逐次型である。これは、大量の機械命令からなるアルゴリズムが、第１命令が既知であることによって処理されると理解される。或る命令に続く命令は記憶装置内で次のアドレスにある命令（正規プログラムフロー）であるか、または最後に実行された命令が、実際のプログラム位置を別の個所にずらす飛越し命令であったかのいずれかである。実際のプログラム位置を記憶する内部レジスタは「プログラムカウンタ」（ＰＣ）と称される。

この逐次処理原理は、或る時点に厳密に１つの命令が処理中であることを意味する。これがフォンノイマン原理と称される。ＲＩＳＣ（Reduced Instruction-Set Computing）、スーパースカラまたはＶＬＩＷ（Very Long Instruction Word）と称される最新のアーキテクチャは確かに或る時点に１つ以上の命令を実行するのではあるが、しかし逐次性の原理は維持される。全体としてこの実行原理は「時間逐次型」（Computing in Time）と称され、これはアルゴリズムが時間を必要とすることを意味する。

まったく別のプログラム処理原理がプログラム可能型論理モジュール［ＰＬＤ（Programmable Logic Devices）、図２に相当］もしくはその最も知られたインプリメンテーション、ＦＰＧＡ（Field-Programmable Gate Arrays）に設けられている。このアーキテクチャも汎用であり、すなわちあらゆるアルゴリズム可能な問題に利用可能である。その際、大抵はビット平面で定義され、それゆえに論理素子と称される要素演算ユニットがネットワーク内で相互接続されるように、プログラミングは行われる。このプログラミング形式は大抵、「構成（Configration）」と称される。

ＰＬＤ内でのプログラム処理は、フォンノイマン原理とは異なり最大並列性で行われる。１つのモジュールの構成全体は単一の命令として(しかしながらフォンノイマン原理とは異なり固定定義されるのでなく合成されて)把握することができ、この命令が１サイクル内で完全に処理される。しばしば外部クロックと結び付けられるサイクル時間はこの合成の複雑性に依存している。これにより、プロセッサと比較して低いクロックが使用されるが、しかしこのクロックは実行の並列性によって十分に補償される。この実行原理は「Computing in Space」と称される。

２．２決定的有限オートマトン
問題をアルゴリズム化するための主要モデルの１つが決定的有限オートマトン［ＤＥＡ、またはＤＦＡ（deterministic finite automata）］である。これらは技術において「Finite State Machines」（図３の原理図によるＦＳＭ）とも称される。このモデルは問題を、入力値に依存してそれらの間の定義された伝達関数を有する状態の系列と見做す（Next State Decoder）。ＤＥＡのモデルは理論上、フォンノイマンモデルほどに強力ではないが、実務において任意の問題を、場合によってはモデル内の付加物で、解決することができる。

このＤＥＡの最大の問題は、その関数が状態の数に伴って指数的に増加し、半導体材料（特にシリコン）の面積需要に関係してくることにある。この理由から、互いに通信する多数のオートマトンからなるモデルが好んで選択される。このような計算機モデルは「複雑な協力するオートマトン」と称される。

２．３ブール関数の表現
ブール関数または論理関数は、Ｂ＝｛０、１｝とした写像（以下「マップ」）ｆ：Ｂ^m→Ｂⁿであり、これはｆ＝（ｆ₁、ｆ₂、…ｆ_n）の形で、つまり関数ｆ_k：Ｂ^m→Ｂのベクトルとして表現することができる。それゆえに以下では、出力値を有する関数ｆ_kのみから出発する。これらは一般にｆと称される。

さらに、ｆが論理和標準形または論理積標準形の形式で表現できることが知られている。論理和標準形にとってこれは、
ｆ＝ｚ１＋ｚ２…＋ｚｋ；ｋ＝１、２、…２ｍ、'＋'を論理和演算子（論理ＯＲ）として（１）
ｚｉ＝ｙ１＊ｙ２＊…ｙｎ；ｉ＝１、２、…ｋ、'＊'を論理積演算子（論理ＡＮＤ）として（２）
が妥当することを意味する。もちろん、記述されるべき関数が値ＴＲＵＥまたは'１'を受け取るようなｚｉのみが使用される。記号ｙｊは、入力ベクトルｘ＝（ｉ₁、ｉ₂、…ｉ_k）からどのように入力ビットｉ_kが選ばれるべきかを決定する。入力ビットには量｛０、１｝からなる値のみ許容されているのに対して、ｙｊについてこれは変更されねばならない。これらの値には３つの属性｛０、１、−｝のうちの１つが割り当てられる。ｙｊ用の属性'１'は、ｉ_kがそのまま取られることを意味し、'０'は、ｉ_kが反転して選択されねばならないことを意味し（／ｉ_kとして表記）、'−'はドントケア、すなわちｉ_kは使用されない。ｙｊに値｛０、１｝のみが属性として使用される場合、「標準論理和標準形」と呼ばれる。

この表現が重要であるのは、これにより、入力ビットの順番が既知である場合、「項（ターム）」とも呼ばれる前記式（２）による部分式ｚｉが、いわゆる「ストリングターム」として表現可能となるからである。順番がｉ１、ｉ２、ｉ３の場合、"１１１"はｚ１＝ｉ１＊ｉ２＊ｉ３であることを意味し、"０−１"はｚ２＝／ｉ１＊ｉ３等である。

３つの入力ビットの場合、可能なすべての入力ベクトルの量はｖ＝｛０００、００１、０１０、０１１、１００、１０１、１１０、１１１｝である。例示的に関数ｆが入力ベクトル｛００１、０１１、１１１｝でのみ値ＴＲＵＥを受け取る場合、これらのみを明示する必要もありまたは明示することができる。ストリングタームの形式でこれは１１１と０−１によって行うことができる。これは与えられた関数を完全に特徴付け、論理和標準形ｆ＝／ｉ１＊ｉ３＋ｉ１＊ｉ２＊ｉ３と同形である。

２．４内容アドレス記憶装置（ＣＡＭ）
読出し書込み記憶素子［ＲＡＭ（Random Addressable Read/Write Memory）］はふつうデータおよびプログラムを記憶するのに利用される。その場合、アドレスがアドレスバスに印加され、読出し過程のときモジュール固有の待ち時間の経過後、記憶されたデータがデータバスに印加され、継続使用することができる。書込み過程は上記と同様に作動する。

データを得たいとするインスタンス（例えばプロセッサ）の視点からアドレスは既知であり、記憶された内容は事前には既知でない。しかし、状況がまったく逆のアプリケーションが存在する。記憶された内容が既知であり、この内容がどのアドレスに記憶されているかに関心があり、答えが「存在しない」であることもある。この種の問合せを支援する記憶素子が内容アドレス記憶素子［ＣＡＭ(Content- Addressable Memories）］と称される。

ＣＡＭと称されかつこの行動を直接支援する記憶素子は特殊なモジュールと見做され、決して頻繁に見られるものではない。しかし実際的応用のためＣＡＭの機能性は通常のＲＡＭモジュールによってエミュレートすることができる。しかしこのためには、ＣＡＭ内に直接記憶されることになるすべてのデータについて、問合せ時に、値ではなく記憶アドレスが明らかとなり、対応するアドレスが事前に計算され、データに対応したＲＡＭアドレスに記憶されねばならない。

２．５セルオートマトン
セルオートマトン［ＣＡ（cellular automaton）は、１フィールド内に固定トポロジーで配置されかつその他の性質を有する大量の有限オートマトンである（非特許文献１、４参照）。これら大量のＦＳＭはｎ次元アレイ（大抵はｎ＝２）として配置されており、各場所に固定座標が与えられている。各ＦＳＭが明確に近傍系を有し、それらと通信することができる。ｎ＝２の場合、大抵、４つの周辺ＦＳＭ（「天空方向」においてＮ、Ｅ、Ｗ、Ｓ、それゆえに「ＮＥＷＳ近傍系」とも称される）が近傍系と見做される。

近傍系との通信は、直接的近傍系の状態が読出し可能、従って評価可能であるように行われる。各時間ステップですべてのセルの状態が並列に計算される。新たな状態を計算するのに遠く離れたセルからのデータが利用されねばならない場合、これらのデータはセルからセルへと歩進的にトランスポートされねばならない。こうして古典的セルオートマトンは、高いデータ局在性をもって問題提起を計算するのに十分適している。

ＣＡは、先に論じたアーキテクチャと同様に汎用計算機と見做され、しかもそれらは完全に並列に作動する。ＣＡのネットワークがハードウェアに、例えばＡＳＩＣに、またはＰＬＤにも、マップされねばならない場合、結線の数はオートマトンの数に伴って線形に増加する。結線自体は、選択されるトポロジーに応じて比較的短く、固定布設されている。つまりＣＡ相互の通信コストは比較的少ない。論理関数をＲＡＭにマップするのに必要な所要メモリ量がこの論理関数の計算量と見做される場合、１つのセルの挙動に相応する論理関数の最大の計算量は入力変数の数に伴って指数的に増加し、また関数の出力変数の数に伴って線形に増加する。入力変数の数はこの場合、セルに接続されたすべてのＣＡの状態をセル自体の状態も含めて符号化するのに必要なすべてのビットの合計である。こうしてセルの最大の計算量は各オートマトンの結線の数によって実質的に限定されている。

グローバルセルオートマトン［ＧＣＡ（global cellular automata）］の構想は、１つのセルを最も近い近傍系だけでなくフィールド全体内の任意のセルへと結線することを可能とすることによって、ＣＡの制約を克服する。従ってＧＣＡはもはや固定トポロジーを有するのでなく、問題提起に適合され場合によっては計算の伝搬時間に対して変化しさえするトロポジーを使用することさえ可能である。これは問題処理に著しい加速をもたらすことがある。単一のオートマトンの結線の数は場合によっては上限によって確定されている。単一の結線のみが許容されている場合、単アームＧＣＡ、一般的にはｋアームＧＣＡと呼ばれる。

その結果、ＧＣＡの１フィールドを実現するときセル相互の通信に必要なコストはセルの数に伴って著しく増加する。個々のオートマトン間で可能な結線の数はオートマトンの数に２乗して増加する。

個々のオートマトン自体もしくは基礎となる論理関数の計算量は、従来のＣＡにおけると同様に各セルの結線の数に実質的に依存している。再構成可能な回路（ＰＬＤ）にＧＣＡがマップされねばならない場合、任意の論理関数を実現することのできる個々のセルは最大可能な計算量を可能としなければならない。

ローカルメモリを有する各１つの演算装置に個々のオートマトンがマップされる場合、各セルは複雑な論理関数を実現することもできる。すべてのセルの任意の通信のためのコストはセルの数に２乗して増加する。その場合回路の粒度（Ｋoernigkeit）は、セルの数もしくはセル間の結線のビット幅によって決まる。このような回路は、ＦＳＭの数およびビット幅の点で回路の設定に一致したＧＣＡをごく良好に実現することができる。複雑な論理関数を個々のセルに実現することも可能である。しかし、結線の数と所要のビット幅の点で所定の粒度と一致しないＧＣＡは、これを回路にマップするのが困難であるという不利がある。

個々のセルが組合せ論理回路として実施される場合、各セルは自己の状態も含めて別のすべてのセルのデータを処理可能でなければならない。この理由から各組合せ論理回路は、すべてのセルのすべての２進化状態を入力変数として含むことのできる論理関数を実現できなければならない。論理関数の出力変数の数は、単一のセルのすべての状態を２進化することを可能としなければならないだけである。その際不利な点として、論理関数の計算量は入力変数の数に伴って指数的に増加する。セル相互の通信コストが多項式的に増加することもやはり不利である。

つまりＧＣＡを格納するのに適した（再）構成可能なアーキテクチャ（ＰＬＤ）はＦＳＭごとに任意の計算量を格納可能でなければならない。これは、（ＦＳＭがＰＬＤの１つのセルに直接マップされねばならない場合）セルが任意のあらゆる関数を格納しなければならないことを意味する。そのことからセル寸法の指数的増大が生じることは知られている。それに加えて、ＰＬＤ内の構成可能なネットワークは完全に実施されていなければならない。すなわち、各セル出力はあらゆる別のセルと接続可能でなければならない。こうしてネットワークが２乗的に増大し、ネットワークの構成も同様である。

両方の要件を満たすＰＬＤアーキテクチャは現在市場になく、または知られていない。完全な設計空間を有する大きなセルは存在しない。あるのは、完全な設計空間を有する小さなセル［いわゆるルックアップテーブル構造（ＬＵＴ）］、または任意の関数をマップするための不完全な可能性を有する大きなセルのみである。すべてのセルの完全接続性はセルが大きい場合にのみ可能である。従って、存在するＰＬＤへのＧＣＡのマップは困難であり、はるかに不可能でさえある。

３．本願発明の課題
本発明の課題は、上記諸問題が少なくとも減少するように、冒頭に述べた計算機構のアーキテクチャを構成することである。特に、アルゴリズム内に隠れた並列性を実際に利用することのできる優れたモデルと判断されるＧＣＡをＰＬＤ等のプログラマブルハードウェアにマップできる可能性が示されねばならない。すなわち、任意のＧＣＡの格納を可能とするＰＬＤアーキテクチャが明示されねばならない。

４．本願発明の解決策
前記課題は、本発明によれば、請求項１に明示した措置で解決される。それによれば、冒頭に指摘した特徴を有するアーキテクチャは少なくとも１つの個々に構成可能および／または再構成可能な論理回路装置を含み、この論理回路装置が、入力を備えたステージと出力を備えたステージとを有し、出力のうち少なくとも幾つかの出力の出力変数が、時点ｔ_n-1に、時点ｔ_nにおける論理回路装置の付属する入力に入力変数を形成し、時点ｔ_n-1とｔ_nとの間における論理回路装置の出力変数を記憶するための手段が設けられている。その際、すべての入力が（記憶された）出力によって占有されている必要はなく、自由入力も存在し得る。さらに、連結されていない出力、つまり例えば再使用されることのない最終結果のみを表す出力も設けておくことができる。

論理関数の直接に連続する評価が時点ｔ_n-1、ｔ_nで表される。技術的に好ましい実現態様においてこれらの時点はクロック時間Ｔを有する印加クロックから導き出すことができ、ｋ＝１、２、３、…としてｔ_n−ｔ_n-1＝ｋ・Ｔが成り立つ。その際、与えられたアプリケーションについてｋは一定であり、さまざまなアプリケーションについてそれは異なるように選択することができる。

論理関数の計算量が入力変数の数に伴って指数的に、また出力変数の数もしくはマップされるべきＧＣＡのフィールド内のセル数に伴って直線的に増加し、ＧＣＡ相互の通信コストがセル数に伴って少なくとも２乗で増加することが確定しているので、本発明に係る（再）構成可能なアーキテクチャはＧＣＡを格納するのに適している。このためそれは少なくとも１つの個々に構成可能な論理回路装置からなり、この論理回路装置の出力変数は、時点ｔ_n-1に、時点ｔ_nにおける論理回路装置の入力変数を形成する。時点ｔ_n-1とｔ_nとの間に論理回路装置の出力は記憶装置、特にレジスタに記憶され、こうして複雑な論理回路装置もしくはＦＳＭが生じる。構成内の個々のステージはやはり論理回路装置を意味する。この構成のみが各ステージの個々の組合せ論理回路内にあり、各ステージは構成可能な組合せ論理回路と記憶素子とからなる。

従って本発明に係るアーキテクチャでは、組合せ論理回路は、それらの各出力がアーキテクチャ入力の実際の値に依存したブール論理関数ユニットとして設けられているのに対して、前記少なくとも１つの論理回路装置は、それらの出力がこの時点および有限数の先行時点における入力の実際の値に依存したブール論理関数ユニットであると理解することができる。従って、論理回路装置は組合せ論理回路と少なくともクロックエッジトリガ記憶素子とから構成される。

本発明に係るアーキテクチャの有利な諸構成は請求項１に従属する請求項から明らかとなる。請求項１による実施形態は複数のうちの１つの従属請求項の１つの特徴と、または主に複数の従属請求項の特徴とも、組合せることができる。従って、アーキテクチャは、なお以下の箇条書きの如くに構成しておくことができる。
・記憶手段としてレジスタ記憶素子を設けておくことができ、ここでは一般にクロックエッジトリガフリップフロップ素子である。
・好ましくは、論理回路装置は３ステージ式に構成されており、３つのステージは前後に接続されている。複数の入力を有するステージと複数の出力を有するステードとの間に配置される記憶素子を有する第２ステージは第１ステージで生成されるデータを処理しかつ処理されたデータを第３ステージに転送するのに役立つ。
・その際有利には、第１ステージは複数の並列に接続された記憶素子を含むことができ、これらの記憶素子は入力線路を介してアドレス指定可能であり、付属する求められたインプリカント（implicant）内で結合された入力変数の部分量は各記憶素子に供給することができ、
・第１ステージの後方に、個々のインプリカントの識別子によってアドレス指定可能な記憶素子を有する第２ステージが配置されており、
・第２ステージの後方に配置される第３ステージは、第２ステージの記憶素子から個々のインプリカントの出力値を論理和演算するための手段を備えている。
・その際、好ましくは最小化法によって個々のインプリカントを求めることができる。
・さらに、少なくとも１つのクロスバースイッチを介して第１ステージは第２ステージと結合しておくことができる。
・記憶素子として有利にはＣＡＭおよび／またはＲＡＭを設けておくことができる。
・特別有利には、少なくとも１つのＧＣＡを統合することができる。
・記憶素子として、特にＴＭＲ型の磁気抵抗部品を設けておくことができる。相応するトンネル磁気抵抗素子はそれ自体公知である。

記憶素子として理解されるのは、一般に若干数のトランジスタまたは匹敵するモジュールと例えば前記磁気抵抗素子等の記憶機能を可能とする本来の素子（記憶ユニットごとに）とから構成されるあらゆる内部素子のアーキテクチャである。

本発明に係るアーキテクチャの前記他の諸構成の根底には特に以下に示す論述がある。
選択された論理回路装置内の論理関数の計算量が確かに出力変数の数に伴って線形に増加するが、しかしセル相互の通信コスト全体が省かれる。そのような論理関数に、若干数の出力変数を有する多くの個々のオートマトン、または多くの出力変数を有する若干数のＧＣＡ、またはさまざまなセルの混合物はマップすることができる。従って、粒度（Ｇranularitaet）は設けられておらず、ＦＳＭ相互の通信は基本的に完全に可能である。しかし、組合せ論理回路を格納することのできる論理関数の最大計算量によって限界が与えられている。

大量の入力を有する１つの論理回路装置の利用‐これは一般的事例において、若干数のＦＳＭを有するＧＣＡがマップされる場合に発生する‐は、いわば所要面積が入力の数に指数的に依存し得ることを意味する。各状態が１ビットで符号化されるとき面積の指数的（状態数）増加が上限と見做される。一般的事例において所要面積は小さくなる。しかし汎用回路は最大事例を含まねばならないので、指数的増大法則を適用すべきであろう。

ここで特別有利であると見做すことができるのは、論理回路装置を格納する回路を３つの特殊な区域／ステップに分割することである。このため以下に示す（再）構成可能な回路は、大量の入力変数と大量の出力変数とを有する論理関数を論理回路装置として実現することができる。

論理関数用の再構成可能な論理回路装置を構想するために、起点となる考えとして２つの可能性を検討する。

一方で、１つの論理関数を完全に１つのＲＡＭ記憶装置にファイルすることが可能である。論理関数の入力変数はアドレスビットを形成し、入力変数の可能なあらゆる組合せについて記憶セルをアドレス指定する。その場合、この記憶セルの内容は論理関数の値に一致し、記憶素子のデータ線路は関数の出力変数を形成する。この構想の利点は単純な回路構造と、簡単な再構成可能性と、記憶素子の高い集積密度と、論理関数の評価を必要とする固定時間にある。しかしながら、所要の記憶セルの数、つまり所要の記憶素子の大きさは、入力変数の数に伴って指数的に増加する。この理由から、小さな論理関数のみをこうしてマップすることができる。

これは、ＰＬＤにおける技術の現状であり、Look-Up-Table-StructurとしてＦＰＧＡにおいて利用され、大抵は４つの２値入力変数と１つの２値出力とを有する。

論理関数を組合せ論理回路にマップする第２の可能性は、２ステージまたは多ステージネットワークにゲートを構成可能に配置することにある。従って、最小のゲート使用で論理関数を組合せ論理回路にマップすることが可能である。論理回路理論はここでは例えばリード‐マラー形式等の論理関数の好ましい表現形式を提供し、または論理式を簡素化するための高性能アルゴリズムも提供する。この式の利点はゲートの使用が最小となり、高性能方法およびアルゴリズムを簡素化に利用する可能性とにある（非特許文献２、非特許文献３参照）。この方法は、例えばＲＯＭ実現の固定論理関数を表現するのに十分利用することができる。例えばクロスバースイッチ等のハードウェアモジュールを介して個々のゲートは再構成可能に接続することができるが、しかしここでは再構成可能性のためのコストが論理関数の入力変数の数に伴って指数的に増加する。

５．具体的実施例に基づく発明の説明
第１可能性の諸利点、高い集積度、再構成可能性、回路の簡素化と、第２変更態様の諸利点、ゲート関数の僅かな使用、最新方法の応用可能性とを結び付けることができるようにするために、本発明によれば以下のようなことが行われている。

仮定された実施形態の基本的考えは、高い集積密度の諸利点を利用するためにＲＡＭモジュール内に極力多くの論理機能性を具現する再構成可能な論理回路装置の開発である。このＲＡＭモジュールは、論理関数一式を記憶する必要のないように、１つの多ステージ回路内で再構成可能に互いに接続されねばならない。

第１ステージ：
論理関数の入力変数は組合せ論理回路の入力線路によって現される。回路の第１ステージは、入力線路によってアドレス指定される多数の並列に接続された記憶素子からなる。入力線路、従って論理関数の入力変数の部分量が各記憶素子に割り当てられている。最小化法によって求められる論理関数のインプリカント（式（２）の最小化されたｚｉもしくはそのストリングターム表現）は、入力ステージの記憶素子に記憶される。このため、インプリカント内で結合された入力変数が割り当てられている各記憶素子内に、インプリカント内での入力変数の使用と、このインプリカントに対するユニークな識別子が記憶される。各モジュールには入力変数の一部が割り当てられているだけなので、それぞれ部分インプリカントのみが記憶される。インプリカント内で結合された変数が割り当てられていない記憶素子内には、同様にインプリカントの一部は記憶されない。組合せ論理回路の入力線路に１つのビット組合せが印加されると、このビット組合せに適合したすべての記憶素子はその識別子を、データ線路を介して回路の第２ステージに転送する。

第２ステージ：
（部分）インプリカントの識別子は第２ステージ内の１つの記憶装置をアドレス指定する。この記憶装置には、各インプリカントに付属する識別子ビットパターンと、論理関数の出力値が記憶されている。第１ステージから提供される識別子のビットパターンが記憶されたインプリカントのビットパターンに一致する場合、このインプリカントは回路の入力線路に印加される。次に回路の第２ステージは入力線路に印加されるすべてのインプリカントの出力値を、データ線路を介して第３ステージに転送する。

第３ステージ：
第３ステージでは個々のインプリカントの出力値が論理和（ＯＲ）演算され、こうして論理関数の結果を形成する。

以下、以上の論述を考慮して図面を参考に具体的実施例に基づいて本発明がなお説明される。図面は以下の部分を含み、そのうち図１〜図３は背景技術に記載の技術の現状について既に言及したものである。

図中、対応する部品には同じ符号が付けてある。

図４〜図９による実施例について仮定する本発明に係るアーキテクチャは先に言及したように３つのステージを有し、詳細には１つの論理関数用に１２の入力変数と１０のインプリカントと８つの出力変数とを有する。表１はこのため１つの例示関数についてすべてのインプリカント（「極小項」とも称される）を示す。ストリングタームの表現は、その際３つの４群が生じるように選択されている。

ところでこの表を列ごとに検討すると、ごく少数の異なる組合せがストリングターム内に現れることが確認される。２値表現の場合、列ごとにここでは２⁴＝１６の異なる組合せが、３値表現の場合相応に３⁴＝８１の組合せが存在し得よう。この例ではそのうち列１〜３用に５、３、４のみが現れ、入力組合せはそれぞれ完全に「‐」である。

論理関数のパラメータとして１つのビット組合せが入力に印加されると、印加されたビット組合せを有する１つの部分インプリカントを記憶する１つの記憶素子は付属するインプリカントの識別子を送り返す。第１ステージのこの記憶素子が図４では３値ＣＡＭとして実施されている。すなわち、２値情報としてアドレスバスに実際に印加される入力ベクトルは記憶された３値情報と比較される。目的について記憶されたやはり３値の識別子が出力として出力される。

全識別子が全体でインプリカント組合せの識別子を形成し、この識別子が組合せ論理回路の入力に印加される。このインプリカント組合せは複数のインプリカントを十分に含むことができる。図示例において例えばインプリカント３、４、８、またはインプリカント４、５、８の組合せを印加することができる。最初の事例ではビット組合せ１００００１が、第２の事例では組合せ１１０００１が、第２ステージに印加される。

インプリカント組合せの識別子は回路の第２ステージで検知され、関与する各インプリカントについて論理関数の付属する出力値を提供する。ところでこの第２ステージは１つの３値ＲＡＭのみからなる。すなわち、このステージのアドレスバス情報では３値であるが、しかしながら記憶されたデータは２値である。

回路の第３ステージでは、印加されるインプリカントの出力値は論理和演算され、全体で論理関数の関数値を形成する。

５．１第１ステージの記憶素子
部分インプリカントを格納するための記憶素子として、既に触れたように、ごく特殊なモジュールもしくはごく特殊なアーキテクチャを利用することができ、ここでは図４により３値ＣＡＭで表される。その際、多重一致の問題もなお基本的に論議されねばならないが、しかしこれは別の実現可能性に関連して行うことにする。

完全連想キャッシュも第１ステージ用に利用することが可能である。ここでは部分インプリカントはいわゆるタグとして記憶することができ、キャッシュドデータは検知されたインプリカントの識別子として役立つ。しかし部分インプリカントが未結合変数を含み、これらの変数が、印加されるビット組合せと比較してドントケア（ＤＣ）桁と表現される場合、ＤＣとの比較を満たすこのインプリカントのすべての占有について１つのタグがタグＲＡＭに印加されねばならない。さらに、ＤＣとの比較によって部分インプリカントの重なりが生じる。例えば上記例の第１の部分インプリカント記憶装置内のビット組合せ００１１はインプリカント１にもインプリカント３にも付属する。つまりインプリカントの組合せだけでなく部分インプリカントの組合せも可能である。

この理由から、部分インプリカント記憶装置として実現するのに通常の、すなわち２値ＲＡＭモジュールもしくはアーキテクチャが使用される。これらＲＡＭのそれぞれは組合せ論理回路の入力線路の一部によってアドレス指定される。ＤＣ桁を有する同じ部分インプリカントに一致したビット組合せのアドレスでは（ストリングターム中の各ＤＣ桁は、ヒット桁の数が２進符号化のとき２だけ高められることを意味する）、それぞれ同じ識別子が記憶装置に蓄えられる。使用されるＲＡＭの出力幅が、識別子を表現するのに不可欠なビット幅よりも大きい場合、他のビットをコンテキスト値として利用することができる。このコンテキストは例えば論理関数の入力変数の無効占有を表示することができる。

通常のＲＡＭは、例えばそのキャッシュ‐ミス出力にタグＲＡＭ等の存在しないデータ用の状態表示を持たないので、第２ステージでビット組合せの比較に使用されるデータ線路上で１つのビット組合せは印加されていない部分インプリカント用の標識として使用されねばならない。そのことが図５ｃ）に識別子８で与えられている。

５．２第２ステージの記憶素子
部分インプリカントを記憶するための第１ステージのＲＡＭにおけると同様に、回路の第２ステージでインプリカント組合せを比較するときにもＤＣは考慮されねばならない。それゆえにここでも通常のＲＡＭが使用される。このＲＡＭはインプリカント組合せの識別子でアドレス指定される。

再び複数のアドレスが同じインプリカント組合せに一致することがあるので、第２ステージの記憶装置は分割されねばならない。第１ステージのビット組合せが第２ステージの１つのＲＡＭをアドレス指定する。そこでは有効な各インプリカント組合せについて１つのインデックスが蓄えられており、このインデックスは関与するインプリカントの出力変数をそれ自身含むＲＡＭをやはりアドレス指定する。こうして、ドントケア桁を有するインプリカント組合せによって生じるさまざまなアドレスは論理関数の出力値の同じインデックスにマップすることができる。

図６は第２ステージのＲＡＭ組合せに対する第１ステージの結果の相応するマップを示す。

５．３図７による最終的アーキテクチャ
１つのＲＡＭは単一のインデックスを提供できるにすぎないので、論理回路装置の第１ステージにおいて出力値記憶装置内に、検知された組合せに関与した全インプリカントの論理和演算された出力値が格納されねばならない。従ってこのステージにおける出力ＲＡＭは論理関数の可能なあらゆる関数値を記憶できなければならない。可能な関数値の数は論理関数の出力変数の数に伴って指数的に増加するので、論理回路装置の第２ステージの複数の組合せ・出力記憶装置は並列に使用され、それらの出力組合せは論理和演算される。こうして１つの論理関数のすべての関数値を生成することができる。

個々の組合せ記憶装置の容量を一層良好に利用できるようにするために、組合せ記憶装置のすべてのデータ線路は１つのクロスバースイッチを介して組合せ記憶装置のすべてのアドレス線路と接続される。こうして任意のデータ線路が組合せＲＡＭのアドレス指定を引き受けることができる。使用されないデータ線路はクロスバースイッチを介してコンテキスト情報として転送することができる。

最終ステップとして論理回路装置の第３ステージでは、個々の出力変数を反転することができるようにするために、そして場合によっては小さな論理式簡単化を得るために、生成された出力値はビットごとに排他的論理和関数を介してレジスタコンテントと演算される。従って回路の第３ステージは出力組合せの論理和演算と引き続き可能な個々の出力ビットの反転とからなる。

全体として、本発明に係る論理回路装置について図７の基本回路図が得られる。

５．４アーキテクチャの論議
本発明の意図は、大きな組合せ論理回路を実装するためのＲＡＭベースアーキテクチャを提供し、またこのアーキテクチャを‐いわば汎用機を格納するためのアプリケーションとして‐ＧＣＡを格納するために提供することである。ＲＡＭ内に任意の関数を格納するために記憶装置内の記憶場所は入力の数に伴って指数的に（そして出力の数に伴って線形に）増加しなければならない。上記事例においてこれは、１２の入力と１２の出力を有する任意の関数は４０９６＊１２ビットに相当する６１４４バイトの記憶場所を持つであろうことを意味する。３２の入力と８の出力の場合、これは既に４ギガバイトの記憶容量となろう。

多ステージネットワークの提案されたアーキテクチャは単に２１１．５バイトのＲＡＭを含み、つまり：
３×インプリカント‐ＲＡＭ１６×４２４バイト
３×組合せ‐ＲＡＭ６４×４９６バイト
３×出力‐ＲＡＭ１６×１２７２バイト
クロスバースイッチ構成１８バイト
反転１２×１１．５バイト
合計２１１．５バイト

従って主要な利点は、このアーキテクチャがＬＵＴベースアーキテクチャよりもかなりスペース節約的であることにある。その際考慮しなければならない点として、あらゆる関数がこうして表現可能であるのではない。

１つのアプリケーションをこのアーキテクチャにマップできるようにするために、複数の不可欠な実施形態を満たしておかねばならない。第１条件は、１つの列に存在するさまざまな部分ストリングタームの数が第１ステージのＲＡＭにマップできることである。これは、これらのＲＡＭがすべての組合せを格納することによって自動的に満たされている（なぜならば、それらがＣＡＭをエミュレートするので）。回路の入力幅だけはアプリケーションにとって十分でなければならない。

第２条件がこれに続く。簡単化後にアプリケーション内に含まれているさまざまな部分ストリングターム組合せの数が符号化可能でなければならない。これは、記憶桁の数が提供されねばならないことを意味する。効率性を推定するためにｍを組合せ論理回路の入力幅とする。これは、完全関数を表現するために２ｍの記憶セルが必要であろうことを意味しよう。

ところでｋがモジュールの並列性（モジュールの数）、２ｓが１モルの容量である場合、アプリケーションの一層効率的な記憶のために不等式
ｋ＊ｓ≦ｍ−１（３）
が妥当しなければならない。アンダフローが一層明確になればなるほど、実装は一層効率的となる。

条件３は、出力幅が好適に選択されていなければならないことを意味する。

６．ＧＣＡのアーキテクチャへのマップ
ＧＣＡを本発明に係るアーキテクチャにマップするために、クロック制御で計算の進展を記憶する記憶素子をなお導入しなければならない。これは、ＧＣＡがＦＳＭのアレイとして定義されていることにその原因があり、それらは一般に同期化されている。ここでは、同期化のためグローバルクロックが受入れられると仮定されている。非グローバルの、特に相互関係のないクロックのすべての実装は本質的問題を生じるであろうが、しかし実際に該当することは希である。

図８は提案された種類の構成可能なアーキテクチャの他の例を示しており、いまや状態を記憶するためのレジスタを装備している。付加的に他の１つのクロスバースイッチが介装されており、このスイッチはここではなかんずく計算機用に入出力インタフェースを用意するのに役立つ。これは確かにアーキテクチャの基礎的理解にとって些細なことであるが、しかし実際の動作では不可欠である。なぜならば、計算機が外部端子を備えていなければならないからである。

この例示的アーキテクチャの記憶需要は次のように計算される
８×最小項‐ＲＡＭ２５６×８２キロバイト
８×組合せ‐ＲＡＭ６４Ｋ×８５１２キロバイト
８×出力ベクトル‐ＲＡＭ２５６×６４１６キロバイト
２×クロスバースイッチ構成１キロバイト
反転レジスタ６４×１８バイト
合計５３１キロバイト

従って、記憶装置の要求条件がいかに少ないかが明らかとなる。２６４＊６４ビット（＝２６７バイト）を有するＲＡＭはいずれにしても製造可能でない。このアーキテクチャにアプリケーションして第１ステージのＲＡＭによって線路が利用されないままとなる場合、これらはコンテキスト情報として利用することができる。１つの応用は、第２ステージのＲＡＭ用に付加的に可能とすることができるようなコンテキスト切換にある。つまり例えば１つのＲＡＭで単に１４のアドレスビットが必要である場合、これらの１４ビットについての情報は４倍記憶することができ、つまり４つの異なるコンテキストにある。

図９からは、ＧＣＡを格納するのに適した本発明に係る再構成可能なアーキテクチャの基本構造を読み取ることができる。この構造は図８による構造の一般化である。特にＲＡＭステージ１、２が破線で明確にされている。

参考文献
Rolf Hoffmann, Klaus-Peter Volkmann, Wolfgang Heenes: "Globaler Zellularautomat (GCA): Ein neues massivparallelles Berechnungsmodell", Mitteilungen-Gesellschaft fur Informatik e. V., Parallel-Algorithmen und Rechnerstrukturen, ISSN 0177-0454 Nr. 18, 2001, Seiten 21 - 28
R. K. Brayton et. Al.: ≪Logic Minimization Algorithms for VLSI Synthesis≫, Kluwer Academic Publishers, USA 1984
Mike Trapp: "PLD-design methods migrate existing designs to high-capacity devices", EDN Access, Febr. 1994; http://www.reed-electronics.com/ednmag/archives/1994/021794/04dfl.htm
Wolfgang Heenes, Rolf Hoffmann, Klaus-Peter Volkmann,: "Architekturen fur den globalen Zellularautomaten". 19th PARS Workshop, March 19-21, 2003 Basel; http://www.ra.informatik.tu-darmstadt.de/publikationen/pars03.pdf

技術の現状によるフォンノイマン型アーキテクチャの基本構造を示す。技術の現状によるＰＬＤの全般的構造を示す。技術の現状によるミーリー‐オートマトンの形式のＦＳＭの基本構造を示す。本発明に係るアーキテクチャの記憶装置構造の１実施例を示す。ＲＡＭへのストリングタームのマップを示し、部分図ａ）は並列ストリングターム、部分図ｂ）はタグＲＡＭへのマップ、部分図ｃ）は従来のＲＡＭへのマップである。本発明に係るアーキテクチャの第１ステージの結果を第２ステージのＲＡＭ組合せにマップしたものである。例［（０、１）12→（０、１）12‐関数］についての最終的アーキテクチャを示す。ＧＣＡを格納するための大きな組合せ論理回路を有する論理回路装置についての本発明に係るアーキテクチャを示す。ＣＧＡを格納するための本発明に係る再構成可能なアーキテクチャを示す。

Claims

少なくとも１つの構成可能または再構成可能な論理回路装置を有し、
この論理回路装置が、縦続接続された３つのステージから成り、その際第２ステージは第１ステージで生成されるデータを処理しかつ処理されたデータを第３ステージに転送し、
第１ステージは、複数の入力を備えかつ複数の並列に接続された記憶素子を有し、これらの記憶素子が入力線路を介してアドレス指定可能であり、インプリカント内で結合される入力変数の部分量が各記憶素子に供給され、
第１ステージに後続接続された第２ステージが、個々のインプリカントの識別子によってアドレス指定可能な記憶素子を有し、
第２ステージに後続接続された第３ステージが、出力と、第２ステージの記憶素子からの個々のインプリカントの出力値を論理和演算するための手段を備えており、
時点ｔ_n-1における出力のうち少なくとも幾つかの出力の出力変数が、時点ｔ_nにおける論理回路装置の付属する入力の入力変数を形成し、時点ｔ_n-1とｔ_nとの間における論理回路装置の出力変数を記憶するためのクロック制御される手段が設けられており、
少なくとも１つのクロスバースイッチを介して第１ステージが第２ステージと結合されている
ことを特徴とする計算機構の再構成可能な基本構造。
出力変数を記憶するためのクロック制御される記憶手段がレジスタ記憶素子を有することを特徴とする請求項１記載の基本構造。
最小化法によってインプリカントが求められることを特徴とする請求項１または２記載の基本構造。
記憶素子としてＣＡＭおよび／またはＲＡＭが備えられることを特徴とする請求項１ないし３のいずれか１つに記載の基本構造。
少なくとも１つのＧＣＡがインプリメントされることを特徴とする請求項１ないし４のいずれか１つに記載の基本構造。
記憶素子としてＴＭＲ型の磁気抵抗記憶素子が備えられることを特徴とする請求項１ないし５のいずれか１つに記載の基本構造。