JP2647327B2

JP2647327B2 - 大規模並列コンピューティング・システム装置

Info

Publication number: JP2647327B2
Application number: JP5050603A
Authority: JP
Inventors: ジェラルド・ジョージ・ペチャネック; スタマティス・ヴァッシリアディス; ホセ・グァダループ・デルガード−フリアス
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-04-06
Filing date: 1993-03-11
Publication date: 1997-08-27
Anticipated expiration: 2012-08-27
Also published as: JPH0675986A; US6405185B1; EP0564847A2; EP0564847A3; US5612908A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はコンピュータ、詳細にい
えば、大規模並列アレイ・プロセッサに関する。

【０００２】

【従来の技術】まず、本明細書で用いられる用語につい
て説明する。

【０００３】・ＡＬＵＡＬＵとはプロセッサの論理演算機構部分をいう。

【０００４】・アレイアレイとは１つまたは複数の次元での要素の配列をい
う。アレイ・プロセッサはアレイで処理を行うように、
多くの機能単位ないしＰＥが配列され、相互に接続され
ているコンピュータである。大規模並列機械はアレイ処
理要素ないしアレイ要素によるデータ・アレイの並列処
理のためにアレイ・プロセッサを使用する。アレイはFO
RTRANなどの言語では単一の名前によって識別されるデ
ータ項目（アレイ要素）の順序づけられたセットを含む
ことができるが、他の言語では、データ項目の順序づけ
られたセットのこのような名前は、データ要素の順序づ
けられた集合ないしセットを指すものであり、これらは
すべて同一の属性を有している。プログラム・アレイは
数値または次元属性によって一般に指定された次元を有
している。アレイの宣言子も何らかの言語のアレイの各
次元のサイズを指定することができる。言語によって
は、アレイはテーブル内の要素の配列となる。ハードウ
ェアの面でいえば、アレイは大規模な並列アーキテクチ
ャではほぼ同一のものである構造（機能エレメント）の
集合である。データ並列コンピューティングにおけるア
レイ要素は、演算を割り当てることができ、並列が独立
しており、並列である場合に、必要な演算を実行するこ
とができる要素である。一般に、アレイは処理要素のグ
リッドと考えることができる。アレイのセクションには
セクション・データを割り当てることができるので、セ
クション・データを規則グリッド・パターンで移動する
ことができる。ただし、データには索引を付けること
も、あるいはアレイ内の任意の位置を割り当てることも
できる。

【０００５】・機能単位機能単位はある目的を達成できるハードウェア、ソフト
ウェアまたはこれら両方のエンティティーである。

【０００６】・ＭＩＭＤアレイ内の各プロセッサがそれ自体の命令ストリームを
有しているプロセッサ・アレイ・アーキテクチャであ
り、したがって、複数命令ストリームが処理要素当たり
１つが配置されている複数データ・ストリームを処理で
きる。

【０００７】・モジュールモジュールは離散しており、識別可能なプログラム単
位、または他のコンポーネントとともに使用するように
設計されたハードウェアの機能単位である。

【０００８】・ＰＥＰＥは処理要素に使用される語である。ＰＥという用語
は、割り振られたメモリ、及び本発明の並列アレイ処理
要素の１つを形成する入出力可能システム要素ないし単
位を相互接続した単一のプロセッサを指すのに使用され
る。書込みの結果として、本システムにおいては、対称
的な再製可能な要素が相互接続パスを共用するために互
いに接続される。

【０００９】・ＳＩＭＤアレイ内のすべてのプロセッサが単一命令ストリームか
らのコマンドを受け、処理要素当たり１つが配置されて
いる複数データ・ストリームを実行するプロセッサ・ア
レイ・アーキテクチャである。

【００１０】次に、本発明の背景について述べる。視覚
情報の処理は、３種類の処理ドメイン、すなわちイメー
ジ処理、パターン認識、及びコンピュータ・グラフィッ
クスからなるものと考えることができる。イメージ処
理、パターン認識及びコンピュータ・グラフィックスを
組み合わせることをイメージ・コンピューティングと呼
び、将来のマルチメディア・ワークステーションが必要
とする機能を表す。「マルチメディアとは、イメージ、
グラフィックス、ビデオ、オーディオ、及びテキストな
どによる２つ以上の方法で情報を表示し、情報の包含性
を強化し、人間とコンピュータの対話を改善する技法を
いう。」

【００１１】より高速なコンピュータを絶えることなく
求める過程で、エンジニアたちは何百もの、場合によっ
ては数千もの低価格のマイクロプロセッサを並列につな
ぎ合わせ、今日の機械の悩みの種となっている複雑な問
題を解決するため分離するスーパコンピュータを作成し
ている。このような機械を大規模並列機械と呼ぶ。並列
に作動する多重コンピュータは何１０年もの間存在して
きた。初期の並列機械としては、１９６０年代に始まっ
たＩＬＬＩＡＣが挙げられる。他の多重プロセッサとし
ては（米国特許第４９７５８３４号明細書抄録参照）、
シーダ、シグマ−１、バタフライ及びモナーク、インテ
ルｉｐｓｃ、コネクション・マシーン、カルテックＣＯ
ＳＭＩＣ、Ｎキューブ、ＩＢＭのＲＰ３、ＩＢＭのＧＦ
１１、ＮＹＵウルトラ・コンピュータ、インテル・デル
タ及びタッチストーンが挙げられる。

【００１２】ＩＬＬＩＡＣから始まった大規模多重プロ
セッサはスーパコンピュータと考えられる。市場で大成
功を収めたスーパコンピュータはクレイ・リサーチＹ−
ＭＰシステム、ＩＢＭ３０９０、ならびにアムダール、
日立、富士通及びＮＥＣを始めとする他の製造業者の機
械に代表される多重ベクトル・プロセッサに基づくもの
である。

【００１３】大規模並列プロセッサ（ＭＰＰ）は今では
スーパコンピュータになれるものと考えられている。こ
れらのコンピュータ・システムは多数のマイクロプロセ
ッサを、相互接続ネットワーク及びこれらのプロセッサ
を並列に作動させるプログラムによって集積したもので
ある。これらのコンピュータには２つの作動モードがあ
る。これらの機械のあるものはＭＩＭＤモード機械であ
り、あるものはＳＩＭＤモード機械である。これらの機
械の内市場でもっとも成功を収めたものはおそらく、シ
ンキング・マシーンズ・インクのコネクション・マシー
ン・シリーズ１及び２である。これらは本質的にＳＩＭ
Ｄ機械である。大規模並列機械の多くは並列に接続され
たマイクロプロセッサを使用して、これらの並行性ない
し並列作動能力を得ている。ｉ８６０などのインテルの
マイクロプロセッサがインテルその他によって使用され
ている。Ｎキューブはインテル^３８６マイクロプロセ
ッサを使用してこのような機械を作っている。その他の
機械は「トランスピュータ」チップと呼ばれるものを使
用して構築されている。インモス・トランスピュータＩ
ＭＳＴ８００はその一例である。インモス・トランス
ピュータＴ８００は内蔵高速浮動小数点プロセッサを有
する３２ビット・デバイスである。

【００１４】構築されているこの種のシステムの例とし
ては、いくつかのインモス・トランスピュータＴ８００
チップで、各々は３２の通信リンク入力と３２リンクの
出力を有している。各チップは単一のプロセッサ、小量
のメモリ、ならびにローカル・メモリ及び外部インタフ
ェースに対する通信リンクを有している。さらに、シス
テムを構成するために、ＩＭＳＣ０１１及びＣ０１２
などの通信リンク・アダプタが接続されている。さら
に、ＩＭＳＣ００４などのスイッチを設け、３２リン
クの入力と３２リンクの出力の間に、たとえば、クロス
バー・スイッチを設け、付加的なトランスピュータ・チ
ップの間に２点間接続を行っている。さらに、特定の装
置、グラフィックスまたはディスク・コントローラの要
件に合わせて調整された特別な目的にトランスピュータ
を使用できるようにするトランスピュータ用の特別な回
路及びインタフェース・チップがある。インモスＩＭＳ
Ｍ２１２は１６ビット・プロセスであり、オン・チッ
プ・メモリ及び通信リンクを備えている。これはディス
ク駆動機構を制御するためのハードウェア及び論理回路
を含んでおり、プログラム式ディスク・コントローラと
して、あるいは汎用インタフェースとして使用すること
ができる。並行性（並列操作）を使用するために、イン
モスはトランスピュータ用に特別な言語Ｏｃｃａｍを開
発した。プログラマはトランスピュータのネットワーク
を直接Ｏｃｃａｍプログラムで記述する必要がある。

【００１５】これらの大規模並列プロセッサの中には、
異なるトポロジィで相互接続されているプロセッサ・チ
ップの並列プロセッサ・アレイを使用しているものがあ
る。トランスピュータはＩＭＳＣ００４チップを追加
することによって、クロスバー・ネットワークをもたら
す。他のシステムのなかには、ハイパーキューブ接続を
使用しているものもある。他のものはバスまたはメッシ
ュを使用して、マイクロプロセッサを接続しており、か
つ回路が関連づけられている。プロセッサ・アドレス可
能ネットワークとしてスイッチを使用する回路スイッチ
・プロセッサによって相互接続されているものもある。
一般に、機械を互いに結合することによって、昨秋ロー
レンス・リバモアで相互接続された１４台のＲＩＳＣ／
６０００などのように、プロセッサ・アドレス可能ネッ
トワークは粗粒（coarse-grained）マルチプロセッサと
みなされている。

【００１６】いくつかの超大型機械がインテル及びＮキ
ューブ、ならびにその他の会社によって、データ処理に
おいて「大命題（グランド・チャレンジ）」と呼ばれて
いるものを解決するために構築されている。しかしなが
ら、これらのコンピュータはきわめて高価なものであ
る。「大命題」を解決するため、その開発に米国政府が
資金を与えたコンピュータに対して最近予測されたコス
トは、３千万ドルから７千５百万ドルの範囲である（テ
ラ・コンピュータ）。これらの「大命題」としては、気
象モデリング、流体の乱流、汚染物の分散、人間のゲノ
ム及び海流のマッピング、量子クロモ力学、半導体及び
スーパコンピュータのモデリング、燃焼系、視覚ならび
に認識などの問題が挙げられる。

【００１７】

【発明が解決しようとする課題】大規模並列アレイ・プ
ロセッサがイメージ・コンピューティングの問題を適切
に解くという問題が存在している。イメージ処理に使用
されている特定のアルゴリズムの１つは畳み込みであ
り、これは各イメージ・ピクセル値を定義された包囲領
域すなわちピクセルのウィンドウ内のピクセルの加重合
計と置き換える。Ｍ×Ｍ平方畳み込みウィンドウは各々
がウィンドウ内に配置されている関連したピクセルに対
応しているＭ×Ｍの重みの集合からなっている。Ｎ×Ｎ
のアレイのピクセルの場合、畳み込みアルゴリズムには
Ｍ²Ｎ²の乗算が必要である。Ｎが１０２４、Ｍが３の単
一のイメージ・フレームを想定した場合、畳み込みは畳
み込み当たり９百万の乗算と積の合計計算を行い、１秒
当たり３０フレームの速度で発生するビデオ・データに
対する処理の場合には、１秒当たり２７０百万の乗算と
積の合計計算が必要となる。各畳み込みウィンドウの重
み値を個別に取り出すことが必要であり、乗算と加算を
別の演算として取り扱い、その後、加重平均ピクセル結
果の書込みを行う、このデータを処理するユニプロセッ
サの場合、畳み込みはピクセル当たり２７回の個別な計
算となり（９回の読取り、９回の乗算、８回の加算、及
び１回の書込み）、１秒当たり２７百万×３０回の演算
すなわち１秒当たり８１０百万回の演算となる。計算負
荷が高いため、システム・プロセッサをイメージ処理タ
スクから解除し、イメージ・コンピューティングに必要
な適切なスループットを提供する特殊プロセッサが提案
されている。このような特殊プロセッサの１つは最近隣
メッシュ接続コンピュータで、複数の処理要素（ＰＥ）
が東西南北の近隣ＰＥと接続され、すべてのＰＥが同期
単一命令複数データ（ＳＩＭＤ）方式で作動するもので
ある。ＰＥが近隣するＰＥのいずれとも通信できるが、
一度に通信できるのは近隣するＰＥのうちの１つだけで
あると想定する。たとえば、各ＰＥは１通信サイクル
で、その東側のＰＥと通信できる。また、１同報通信期
間に、データ及び命令をすべてのＰＥに同時に通信でき
るようにする同報機構が存在しているものと想定する。
シンキング・マシーンズのＣＭ−１ファミリーに存在し
ているようなビット・シリアル・インタフェースが典型
的なものである。

【００１８】このように認識した場合、必要なものはイ
メージ処理を改善し、速度を上げ、大規模並列環境にお
いて並列アレイ・プロセッサの一部として複製すること
のできるＰＥである。微分方程式を解くために使用され
るシステム装置を改善する必要がある。この問題には新
しい種類のＰＥが必要と思われる。新しいＰＥの作成、
ならびに新しい考えによって構築されたシステム装置
は、マルチメディア・イメージ・コンピュータ分野にお
いて処理する必要のある複合処理を改善するものであ
る。

【００１９】

【課題を解決するための手段】本発明で行われる改善は
新しい機械装置をもたらす。本発明を実施する機械をオ
ラクル機械と呼び、これを以下で説明する。本発明は大
規模並列コンピューティング・システムの作成を可能と
する装置に関する。並列アレイ・コンピュータ・システ
ムすなわち大規模並列アレイ・プロセッサに用いること
のできるコンピュータ・システムの新規なＰＥ及び関連
した編成を提供する。

【００２０】微分方程式を解くのに有限差分法を使用す
ることを含む、マルチメディア用及び汎用の大規模並列
コンピュータ・システムを提供する。本発明のプロセッ
サは三角プロセッサ・アレイ構造である。本発明のプロ
セッサ・アレイ構造は命令及びデータの記憶装置を含ん
でおり、命令とデータを受け取り、命令を実行する単一
及び２重処理要素、ならびにデータの初期化、並列機
能、折り返し、及び同報プロセッサ通信をサポートする
ためのプロセッサ相互接続編成及び方法を有している。

【００２１】コンピュータは対角線に沿って折り畳ま
れ、折り返し相互接続構造を備えた最近隣のものによっ
て相互接続された単一プロセッサ対角ユニットと２重プ
ロセッサ汎用ユニットを構成しているＮ×Ｎのマトリッ
クスの形態で配置されたＮ²個の処理装置を有している
ことが好ましい。コンピュータにおいて、各処理要素す
なわちＰＥはマトリックスの単位である。各プロセッサ
を元のＮ×Ｎのマトリックスの参照符号によって識別し
てから、Ｎ×Ｎのマトリックス・アルゴリズムの三角ア
レイ・アルゴリズムへの移送をサポートする折り畳みを
行う。

【００２２】折り畳み前に、各ＰＥは４つのポートを有
しており、対角線に沿って折り畳まれており、北及び南
の入出力ポートの東及び西の入出力ポートとの共有を可
能とするＮ×Ｎのマトリックスの形で配置された、折り
返し通信によって最近隣のものに対して北、南、東及び
西の入出力ポートを各々が所有するＮ²個の処理装置が
ある。

【００２３】Ｎ×Ｎのマトリックスを備えた本発明のプ
ロセッサの場合、プロセッサを接続する方法は、非競合
プロセッサ間通信の機構をもたらすプロセスによる。た
とえば、プロセッサの間の単一方向通信方式を利用する
機構を、オラクル・アレイ・プロセッサに利用する。非
競合プロセッサ間通信の機構は、すべてのプロセッサに
単一方向で、しかも同一方向の通信方式を利用するよう
要求することによって得られる。

【００２４】本明細書の場合、上記の各処理要素は折り
畳み前の元のＮ×Ｎマトリックスに関する２つの添字を
付した表記ＰＥ_column,rowによって識別される。したが
って、計算機はＫ（Ｎ²）の相互接続線を有することに
なる。ただし、Ｋはプロセッサ間のワイヤの数であり、
ビット・シリアル・インタフェースの場合、Ｋは１にな
る（Ｋ＝１）。本発明は単一プロセッサ対角ユニットを
サポートする。装置はデータ記憶要素、実行ユニット、
命令及びデータの通信のための同報インタフェース、初
期化をサポートするデータ記憶インタフェース、ならび
にプロセッサ間インタフェースと呼ばれる折り返しのあ
る最近隣インタフェースを含むＰＥ_i,jという単一プロ
セッサ対角ユニット、及び通信手段を有している。

【００２５】本発明は以下で詳述する新規の計算機能も
提供する。

【００２６】これら及びその他の改善について、以下で
詳細に説明する。本発明の利益及び特徴についてよりよ
く理解するには、以下の説明及び図面を参照されたい。

【００２７】

【実施例】

＜序＞

【００２８】図面において、メッシュ・コンピュータの
例が図１に示されている。配線の複雑度を最小限のもの
とするために、ＰＥ間にビット・シリアル・インタフェ
ースを想定する。図１において、処理要素にはＰＥ_ijと
いうラベルが付けられており、「ｉ」はマトリックスの
列を示し、「ｊ」はマトリックスの行を示している。各
処理要素ＰＥ_ijは北（Ｎ）、東（Ｅ）、南（Ｓ）及び西
（Ｗ）という４つのインタフェース・ポートを含んでい
る。折り返し接続、すなわちトーラス構成によって、各
行はＮ本の相互接続線を含んでおり、Ｎ個の行には、Ｎ
²本の水平相互接続線がある。各列はＮ本の相互接続線
を含んでおり、Ｎ個の列には、Ｎ²本の垂直相互接続線
がある。折り返し接続によるメッシュ接続コンピュータ
の線の総数は２Ｎ²（Ｋ）である。ただし、Ｋはプロセ
ッサ間相互接続線の数に等しく、ビット・シリアル・イ
ンタフェースの場合、Ｋは１になる。ここで折り返し接
続とは、互いに隣接するプロセッサ間でのみの接続をい
う。

【００２９】本発明にしたがい、本発明をビット・シリ
アル・インタフェースに関して説明する。なお、他の手
段によって、効果的な並列インタフェースを得ることが
できることに留意すべきである。米国特許願第０７／７
９９６０２号はプロトコルを使用して、この出願に記載
されているマルチシステム環境でビット・シリアル通信
を並列通信とインタフェースする方法を開示している。

【００３０】適切なネットワーク接続によって、米国特
許願第０７／７９８７８８号に記載されているように、
ＭＩＭＤ、ＳＩＭＤ及びＳＩＳＤモードの間の動的な切
換えを可能とするシステムに、本発明装置を用いること
ができる。本発明のＰＥは各ノードがそのＰＥ及びメモ
リ、ならびに外部の他のノードと通信するためのポート
を有している、多くのノードで構成された並列アレイ・
プロセッサの一部を形成することができる。

【００３１】図２はイメージ処理畳み込みアルゴリズム
を実施するのに使用される典型的なメッシュＰＥを示し
ており、Ｎ、Ｓ、Ｅ及びＷの送受信ポートが明確に示さ
れている。ＰＥは４つの内部レジスタＷ_ab、Ｐ_ij、Ｒ_ij
及びＲ^_ijからなっている。Ｐ_ijレジスタはＬＳＳＤを
通るスキャン・パスであってもかまわないイメージ初期
化パスによって初期化された場合にｉｊ番目のピクセル
値を保持している。Ｗ_abレジスタには同報機構によって
畳み込みウィンドウの要素がロードされ、計算結果はＲ
^_ijレジスタにロードされる。ＰＥ間で伝送される結果
はＲ_ijレジスタに受け取られる。ＰＥは「＊」で示され
るビット・シリアル乗算器、及び「＋」で示されるビッ
ト・シリアル加算器も含んでいる。通信を行うため、各
ＰＥは復号された同報コマンドに基づいて送信／受信方
向が「コマンド制御」論理によって制御される４つの入
出力ポートを含んでいる。「コマンド制御」論理によっ
て、１つだけのポートが送信を行い、１つのポートが受
信を行うことが同時にできるようになる。たとえば、ポ
ート「Ｎ」が送信している場合には、ポート「Ｓ」が受
信を行い、ポート「Ｗ」が送信している場合には、ポー
ト「Ｅ」が受信を行う。これはＰＥ間の情報の単一方向
伝送の制約によるものである。

【００３２】図１のメッシュ接続コンピュータの構成及
び図２のＰＥの内部構造において、構造内の任意の伝送
の際に、ＰＥ接続線の内５０％が利用されるにすぎない
ことになる。接続線の半数で、メッシュ接続コンピュー
タと同じ機能と性能を達成することが望ましいが、これ
はＮ²線の節減がチップ面積の対応する節減によっても
たらされるからである。オラクル・コンピュータの構成
はこの能力を達成する。オラクル構成のＰＥを作成する
プロセスの第１段階は、ＰＥ_ij対角要素に沿ってメッシ
ュ接続コンピュータを折り畳む、すなわち「ｉ＝ｊ」に
することである。たとえば、図１に示す８×８のメッシ
ュを折り畳むと、対称のＰＥ、すなわちＰＥ_ij及びＰＥ
_jiが重ねられた図３及び図４に示すオラクル・メッシュ
になる。対称のＰＥは図３及び図４に模式的に示すよう
に送信及び受信ポートを共用しており、頂部ＰＥのＰＥ
_ijＷ、Ｓ、Ｎ及びＥポートが底部ＰＥのＰＥ_jiＮ、Ｅ、
Ｗ及びＳポートのそれぞれと共用されている。対称ＰＥ
の入出力ポートのこの共用は、図５ないし図１４のオラ
クル対称ＰＥ「セル」構造に詳細に示されている。図５
において、内部対称ＰＥ「セル」は内部ＰＥ両方に対す
る共通Ｗ_abレジスタ、Ｐ_ij及びＰ_jiという２つのピクセ
ル・レジスタ、マトリックスＰまたはその転置Ｐ^Tの選
択を可能とするセレクタ、２つの結果レジスタＲ'_ij及
びＲ'_ji、ならびに２つの受信レジスタＲ_ij及びＲ_jiか
らなっている。ＰＥは「＊」で示されるビット・シリア
ル乗算器、及び「＋」で示されるビット・シリアル加算
器も含んでいる。同報コマンドを復号する単一の「コマ
ンド制御」論理によって制御される４つの入出力ポート
だけが、対称２重ＰＥ「セル」に利用される。「コマン
ド制御」論理は入出力ポートの方向だけでなく、入出力
ポートを送信及び受信レジスタにリンクするスイッチの
設定も制御する。共用入出力ポートは（頂部ＰＥ方向ポ
ート・ラベル）／（底部ＰＥ方向ポート・ラベル）で示
されるが、ただし、ＰＥ_ijは頂部ＰＥを表し、ＰＥ_jiは
底部ＰＥを表す。頂部及び底部ＰＥの表記の選択は、検
討及び表示を容易とするためだけのものである。

【００３３】図６ないし図９は４つの伝送モードをサポ
ートする内部スイッチの設定を示す。図６において、
「コマンド制御」はスイッチ及び送信機／受信機を、南
（Ｓ）から受信して、北（Ｎ）へ送信するように設定し
ている。頂部及び底部両方のＰＥは北へ送信するととも
に、両方とも南から情報を受信する。これは図６の矢印
の次の頂部ＰＥ_ijの送信に対する「Ｎ／」という表記
及び底部ＰＥ_jiの送信に対する「／Ｎ」という表記に
よって示されている。受信した情報は図６の矢印、なら
びに頂部ＰＥ_ijの受信ポートに対する「Ｓ／」という
表記及び底部ＰＥ_jiの受信ポートに対する「／Ｓ」と
いう表記によって示されている。対称ＰＥ「セル」の４
つの入出力ポートに対するこの表記を使用して、簡単な
記号体系を図１５に示すように対称ＰＥについて構成す
ることができるが、この図において、ＰＥ_ijは頂部ＰＥ
であり、ＰＥ_jiは底部ＰＥである。オラクル構成にこの
記号体系を利用すると、セル間の配線の規則性を示す簡
単な図１６ないし図１７が得られる。

【００３４】２重プロセッサの内部スイッチは次の８つ
の接続点Ａ、Ｂ、Ｃ、Ｄ、ならびにＷ、Ｘ、Ｙ及びＺか
らなっている。・点Ａはプロセッサ間インタフェースからデータを受信
するプロセッサＰ_i,jのレジスタＲ_i,jに接続されてい
る。・点Ｂはプロセッサ間インタフェースにデータを供給す
るプロセッサＰ_i,jのレジスタＲ^_i,jに接続されてい
る。・点Ｃはプロセッサ間インタフェースにデータを供給す
るプロセッサＰ_j,iのレジスタＲ^_j,iに接続されてい
る。・点Ｄはプロセッサ間インタフェースからデータを受信
するプロセッサＰ_j,iのレジスタＲ_j,iに接続されてい
る。・点ＷはＰＥ_i,jの西及びＰＥ_j,iの北の近隣ＰＥの間で
のデータの送信及び受信のための受信／送信機構に接続
されている。・点ＸはＰＥ_i,jの南及びＰＥ_j,iの東の近隣ＰＥの間で
のデータの送信及び受信のための受信／送信機構に接続
されている。・点ＹはＰＥ_i,jの北及びＰＥ_j,iの西の近隣ＰＥの間で
のデータの送信及び受信のための受信／送信機構に接続
されている。・点ＺはＰＥ_i,jの東及びＰＥ_j,iの南の近隣ＰＥの間で
のデータの送信及び受信のための受信／送信機構に接続
されている。

【００３５】２重プロセッサ・スイッチはスイッチの状
態に応じて、点Ａ、Ｂ、Ｃ、Ｄならびに点Ｗ、Ｘ、Ｙ及
びＺの間に接続／非接続パスをもたらす。スイッチの１
つの状態では、点ＡとＷ、ＢとＺ、ＣとＸ、及びＤとＹ
の間の接続パスが、東発信西受信に対するものとなる。
スイッチの第２の状態では、点ＡとＸ、ＢとＹ、Ｃと
Ｗ、及びＤとＺの間の接続パスが、北発信南受信に対す
るものとなる。スイッチの第３の状態では、点ＡとＹ、
ＢとＸ、ＣとＺ、及びＤとＷの間の接続パスが、南発信
北受信に対するものとなり、スイッチの第４の状態で
は、点ＡとＺ、ＢとＷ、ＣとＹ、及びＤとＸの間の接続
パスが、西発信東受信に対するものとなる。受信／発信
機構が、接続されている受信ＰＥに対してＰＥからの信
号を駆動する１つの状態に各々が応じ、かつ接続されて
いる発信ＰＥからＰＥへの信号を受信する他の状態に応
じる４つの双方向ドライバ／レシーバ機構からなってお
り、かつ４つの双方向ドライバ／レシーバ機構の内、東
発信西受信、北発信南受信、南発信北受信、及び西発信
東受信という４つのケースに関して、２つだけが同時に
データを送信し、２つが同時にデータを受信するように
する制御が与えられることに留意すべきである。

【００３６】対角ＰＥ（図１０）は西／北ポート及び南
／東ポートを共用しており、対角ＰＥ「セル」当たり２
つだけのポートを必要とする。図１１ないし図１４は４
つの伝送モードをサポートする内部スイッチの設定を示
す。対角プロセッサの内部スイッチ機構は４つの接続点
Ａ、Ｂ、Ｘ及びＹからなっており、点Ａはデータ受信レ
ジスタＲ_ijに接続されており、点Ｂはデータをプロセッ
サ間インタフェースに供給するレジスタＲ'_ijに接続さ
れており、点Ｘは対角ＰＥの西及び北（Ｗ／Ｎ）の近隣
ＰＥの間でのデータの送信及び受信のために受信／送信
機構に接続されており、点Ｙは対角ＰＥの南及び東（Ｓ
／Ｅ）の近隣ＰＥの間でのデータの送信及び受信のため
に受信／送信機構に接続されている。対角スイッチはス
イッチの状態に応じて、点Ａ、Ｂと点Ｘ、Ｙの間に接続
／非接続パスをもたらす。スイッチの１つの状態におい
て、点ＡとＸの間、及び点ＢとＹの間の接続パスが２つ
の送信／受信ケース、すなわち点Ｙを通る南送信、点Ｘ
を通る北受信、ならびに点Ｙを通る東送信、点Ｘを通る
西受信に対してもたらされる。スイッチの第２の状態に
おいて、点ＡとＹの間、及び点ＢとＸの間の接続パスが
２つの送信／受信ケース、すなわち点Ｘを通る北送信、
点Ｙを通る南受信、ならびに点Ｘを通る西送信、点Ｙを
通る東受信に対してもたらされる。受信／送信機構が１
つの状態に応じて各々がＰＥから接続されている受信Ｐ
Ｅへの信号を駆動し、かつもう１つの状態に応じて各々
が接続されている送信ＰＥからＰＥへの信号を受信する
２つの双方向ドライバ／レシーバ機構からなっており、
双方向ドライバ／レシーバ機構が両方とも同時にデータ
を駆動したり、あるいは両方とも同時にデータを受信し
たりすることがないようにするための制御が設けられて
いることに留意すべきである。

【００３７】方形メッシュ構造を対角線に沿って折り畳
むと、方形メッシュの頂縁が西側の縁部に重なり、方形
メッシュの東側縁部が南側縁部と重なる。方形アレイの
北／南側縁部と東／西側縁部との間にある方形メッシュ
・コンピュータ構成の２Ｎ折り返し接続を、Ｎ折り返し
接続のみを必要とするオラクル・メッシュ構成で共用す
ることができる。オラクル水平相互接続線を計数し、折
り返し接続を水平ワイヤとみなすと、次のようになる。

【数１】

【００３８】オラクル垂直相互接続線を計数すると次の
ようになる

【数２】オラクル・ワイヤの総数＝（１＋２＋・・・＋Ｎ−１）
Ｋ＝（Ｎ＊（Ｎ−１）／２）Ｋ

【００３９】オラクル・ワイヤの総数は次のようにな
る。

【数３】

【００４０】ただし、Ｋはプロセッサ間相互接続線の数
であり、ビット・シリアル・インタフェースの場合、Ｋ
は１である。オラクル・ワイヤの総数が方形メッシュ構
成で必要とされるワイヤの数のちょうど半分であること
が実証された。

【００４１】次いで、ＰＥ間の単一方向情報転送の制限
のもとで、２つのコンピュータ構成が機能的に同等であ
ることが実証された。次の４つの場合を検討する必要が
ある。１．北発信南受信２．南発信北受信３．東発信西受信４．西発信東受信

【００４２】ＰＥ間で伝送される情報の宛先点がオラク
ルにおいて、メッシュ接続構成の場合と同じであること
が示されている。ＰＥ_ijの場合、次のようになる。１．北発信ＰＥ_ij→ＰＥ_ij-1 ２．南発信ＰＥ_ij→ＰＥ_ij+1 ３．東発信ＰＥ_ij→ＰＥ_i+1j ４．西発信ＰＥ_ij→ＰＥ_i-1j

【００４３】ただし、ｉ−１＝０またはｊ−１＝０の場
合には、折り返し接続に対してｉ＝Ｎまたはｊ＝Ｎにセ
ットし、ｉ＋１＞Ｎまたはｊ＋１＞Ｎの場合には、ｉ＝
１またはｊ＝１にセットする。

【００４４】オラクルにおいて、まず、ｉとｊの値が交
換されるのであるから、頂部ＰＥ「セル」ではｉ＜ｊ、
底部ＰＥ「セル」ではｉ＞ｊである対称２重ＰＥ「セ
ル」を考察する。この最初の考察は次に考察する対角セ
ル以外のすべてのＰＥを説明するものである。対称２重
ＰＥ「セル」について、ｉ−１＝０またはｊ−１＝０の
場合には、折り返し接続に対してｉ＝Ｎまたはｊ＝Ｎに
セットし、ｉ＋１＞Ｎまたはｊ＋１＞Ｎの場合には、ｉ
＝１またはｊ＝１にセットする。

【００４５】１．北発信南受信・ＰＥ_ijはＮ／Ｗワイヤ上でＰＥ_ij-1に送信する・ＰＥ_ijはＳ／Ｅワイヤ上でＰＥ_ij+1から受信する・ＰＥ_jiはＷ／Ｎワイヤ上でＰＥ_ji-1に送信する・ＰＥ_jiはＥ／Ｓワイヤ上でＰＥ_ji+1から受信する

【００４６】２．南発信北受信・ＰＥ_ijはＳ／Ｅワイヤ上でＰＥ_ij+1に送信する・ＰＥ_ijはＮ／Ｗワイヤ上でＰＥ_ij-1から受信する・ＰＥ_jiはＥ／Ｓワイヤ上でＰＥ_ji+1に送信する・ＰＥ_jiはＷ／Ｎワイヤ上でＰＥ_ji-1から受信する

【００４７】３．東発信西受信・ＰＥ_ijはＥ／Ｓワイヤ上でＰＥ_i+1jに送信する・ＰＥ_ijはＷ／Ｎワイヤ上でＰＥ_i-1jから受信する・ＰＥ_jiはＳ／Ｅワイヤ上でＰＥ_ji+1に送信する・ＰＥ_jiはＮ／Ｗワイヤ上でＰＥ_ji-1から受信する

【００４８】４．西発信東受信・ＰＥ_ijはＷ／Ｎワイヤ上でＰＥ_i-1jに送信する・ＰＥ_ijはＥ／Ｓワイヤ上でＰＥ_i+1jから受信する・ＰＥ_jiはＮ／Ｗワイヤ上でＰＥ_ji-1に送信する・ＰＥ_jiはＳ／Ｅワイヤ上でＰＥ_ji+1から受信する

【００４９】対角「セル」について、ｉ＝ｊの場合、次
の情報の転送が生じる。

【００５０】１．北発信南受信・ＰＥ_iiはＷ／Ｎワイヤ上でＰＥ_ii-1に送信する・ＰＥ_iiはＳ／Ｅワイヤ上でＰＥ_ii+1から受信する

【００５１】２．南発信北受信・ＰＥ_iiはＳ／Ｅワイヤ上でＰＥ_ii+1に送信する・ＰＥ_iiはＷ／Ｎワイヤ上でＰＥ_ii-1から受信する

【００５２】３．東発信西受信・ＰＥ_iiはＥ／Ｓワイヤ上でＰＥ_i+1iに送信する・ＰＥ_iiはＷ／Ｎワイヤ上でＰＥ_i-1iから受信する

【００５３】４．西発信東受信・ＰＥ_iiはＷ／Ｎワイヤ上でＰＥ_i-1iに送信する・ＰＥ_iiはＥ／Ｓワイヤ上でＰＥ_i+1iから受信する

【００５４】すべての場合に、競合は生ぜず、かつ適正
な宛先点はＰＥの方形メッシュ接続構成のものと同じま
まである。

【００５５】＜マトリックスの転置＞

【００５６】マトリックス「Ｐ」の転置の際に、マトリ
ックスの行ベクトルが転置マトリックス「Ｐ^T」の列ベ
クトルになる。マトリックス「Ｐ」の任意の要素Ｐ_abは
転置マトリックス「Ｐ^T」の要素Ｐ_baになる。対角要素
に変化はない。オラクルにおいて、マトリックス「Ｐ」
及びその転置を簡単に選択することができるが、これは
要素Ｐ_abと対応する要素Ｐ_baの両方が２重要素に存在し
ているからである。「ｐ」レジスタの出力のセレクタは
指定の操作において「Ｐ」または「Ｐ^T」の要素を使用
することを可能とする。たとえば、「Ｐ」マトリックス
は図１８に示されており、図１９に示すように、オラク
ルにロードされる。

【００５７】マトリックスＰ及びＰ^Tの転置は図２０に
示されており、図２１に示すように、オラクルにロード
される。

【００５８】図２２は畳み込みウィンドウを示す。図２
３ないし図２６は方形メッシュにおけるイメージ処理畳
み込みを示す。本明細書で検討するイメージ処理タスク
の場合、３×３の畳み込みウィンドウを備えた２−Ｄ畳
み込み（図２２）を想定する。メッシュ構造に用いられ
る技法はS. Y. Lee及びJ. K. Aggarwalが提案したもの
である。処理要素の内部構造は図２に論理的に示されて
いるが、これはLeeを改変したものであって、Ｎ、Ｓ、
Ｅ、Ｗの送信／受信ポートが詳細に示されている。

【００５９】Ｎ×ＮのイメージがＮ×ＮのメッシュＰ_ij
レジスタにロード済みであり、Ｒ'_ijレジスタがゼロに
セットされているものと想定すると、畳み込みアルゴリ
ズムを最初のウィンドウ要素Ｗ₁₁から開始することがで
きる。それ以降のステップはＰ_ij畳み込みパスにしたが
うものであり、パス内の各ステップは図２３ないし図２
６に対応するステップ番号を付けて示されている。（す
べてのＰＥがそのピクセル値で同じ演算を計算し、小計
値を受け取ることに留意すべきである。）

【００６０】１．同報Ｗ₁₁及びＰＥ_i-1,j+1はＲ１＝０
＋Ｗ₁₁Ｐ_i-1,j+1を計算し、Ｒ１北に転送する。２．同報Ｗ₁₂及びＰＥ_iー1j-1はＲ２＝Ｒ１＋Ｗ₁₂Ｐ
_i-1,jを計算し、Ｒ２北に転送する。３．同報Ｗ₁₃及びＰＥ_iー1,j-1はＲ３＝Ｒ２＋Ｗ₁₃Ｐ
_i-1,j-1を計算し、Ｒ３東に転送する。４．同報Ｗ₂₃及びＰＥ_i,j-1はＲ４＝Ｒ３＋Ｗ₂₃Ｐ_i,j-1
を計算し、Ｒ３東に転送する。５．同報Ｗ₃₃及びＰＥ_i+1,j-1はＲ５＝Ｒ４＋Ｗ₃₃Ｐ
_i+1,j-1を計算し、Ｒ５南に転送する。６．同報Ｗ₃₂及びＰＥ_i+1,jはＲ６＝Ｒ５＋Ｗ₃₂Ｐ_i+1,j
を計算し、Ｒ６南に転送する。７．同報Ｗ₃₁及びＰＥ_i+1,j+1はＲ７＝Ｒ６＋Ｗ₃₁Ｐ
_i+1,j+1を計算し、Ｒ７西に転送する。８．同報Ｗ₂₁及びＰＥ_i,j+1はＲ８＝Ｒ７＋Ｗ₂₁Ｐ_i,j+1
を計算し、Ｒ８北に転送する。９．同報Ｗ₂₂及びＰＥ_ijはＲ９＝Ｒ８＋Ｗ₂₂Ｐ_ijを計算
し、停止する。

【００６１】９つのステップの終了時に、各ＰＥ_ijは次
のものを含むようになる。

【数４】Ｐ_ij＝Ｒ９＝Ｗ₁₁Ｐ_i-1,j+1＋Ｗ₁₂Ｐ_i-1,j＋Ｗ₁₃Ｐ_i-1,j-1＋Ｗ₂₃Ｐ_i,j-1＋Ｗ₃₃Ｐ_i+1,j-1＋Ｗ₃₂Ｐ_i+1,j＋Ｗ₃₁Ｐ_i+1,j+1＋Ｗ₂₁Ｐ_i,j+1＋Ｗ₂₂Ｐ_ij

【００６２】同様に、オラクルにおけるピクセルＰ₄₅に
対する典型的な畳み込み演算が、図２７ないし図３１に
示されている。Ｎ×ＮのイメージがオラクルのＰ_ijレジ
スタにロード済みであり、Ｒ^_ijレジスタがゼロにセッ
トされているものと想定すると、畳み込みアルゴリズム
を最初のウィンドウ要素Ｗ₁₁の同報から開始することが
できる。それ以降のステップはＰ_ij畳み込みパスにした
がうものであり、パス内の各ステップは図２７ないし図
３１に対応するステップ番号を付けて示されている。
（すべてのＰＥがそのピクセル値で同じ演算を計算し、
小計値を受け取ることに留意すべきである。）

【００６３】１．同報Ｗ₁₁及びＰＥ_iー1,j+1はＲ１＝０
＋Ｗ₁₁Ｐ_i-1,j+1を計算し、Ｎ／Ｗワイヤ上でＲ１に転
送する。２．同報Ｗ₁₂及びＰＥ_i-1,jはＲ２＝Ｒ１＋Ｗ₁₂Ｐ_i-1,j
を計算し、Ｎ／Ｗワイヤ上でＲ２に転送する。３．同報Ｗ₁₃及びＰＥ_iー1,j-1はＲ３＝Ｒ２＋Ｗ₁₃Ｐ
_i-1,j-1を計算し、Ｅ／Ｓワイヤ上をＲ３に転送する。４．同報Ｗ₂₃及びＰＥ_i,j-1はＲ４＝Ｒ３＋Ｗ₂₃Ｐ_i,j-1
を計算し、Ｅ／Ｓワイヤ上をＲ４に転送する。５．同報Ｗ₃₃及びＰＥ_i+1,j-1はＲ５＝Ｒ４＋Ｗ₃₃Ｐ
_i+1,j-1を計算し、Ｓ／Ｅワイヤ上をＲ５に転送する。６．同報Ｗ₃₂及びＰＥ_i+1,jはＲ６＝Ｒ５＋Ｗ₃₂Ｐ_i+1,j
を計算し、Ｓ／Ｅワイヤ上をＲ６に転送する。７．同報Ｗ₃₁及びＰＥ_i+1,j+1はＲ７＝Ｒ６＋Ｗ₃₁Ｐ
_i+1,j+1を計算し、Ｗ／Ｎワイヤ上をＲ７に転送する。８．同報Ｗ₂₁及びＰＥ_i,j+1はＲ８＝Ｒ７＋Ｗ₂₁Ｐ_i,j+1
を計算し、Ｎ／Ｗワイヤ上をＲ８に転送する。９．同報Ｗ₂₂及びＰＥ_ijをＲ９＝Ｒ８＋Ｗ₂₂Ｐ_ijを計算
し、停止する。

【００６４】９つのステップの終了時に、各ＰＥ_ijは次
のものを含むようになる。

【数５】Ｐ_ij＝Ｒ９＝Ｗ₁₁Ｐ_i-1,j+1＋Ｗ₁₂Ｐ_i-1,j＋Ｗ₁₃Ｐ_i-1,j-1＋Ｗ₂₃Ｐ_i,j-1＋Ｗ₃₃Ｐ_i+1,j-1＋Ｗ₃₂Ｐ_i+1,j＋Ｗ₃₁Ｐ_i+1,j+1＋Ｗ₂₁Ｐ_i,j+1＋Ｗ₂₂Ｐ_ij

【００６５】ピクセルＰ４５の場合、これは次のように
なる。

【数６】Ｇ（Ｐ４５）＝Ｗ１１Ｐ３６＋Ｗ１２Ｐ３５＋
Ｗ１３Ｐ３４＋Ｗ２３Ｐ４４＋Ｗ３３Ｐ５４＋Ｗ３２Ｐ
５５＋Ｗ３１Ｐ５６＋Ｗ２１Ｐ４６＋Ｗ２２Ｐ４５

【００６６】＜有限差分法の例＞

【００６７】微分方程式を解くための有限差分法は物理
学、機械工学、及び電気工学などの多数の科学技術分野
で広く用いられている。このような方法において、微分
方程式の導関数は、切り捨てられたテイラー級数から得
られる差分商によって近似される。

【００６８】有限差分法において、２次偏微分方程式、
式（１）を考える。

【数７】

【００６９】ここで、Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ及びＧは
ｘ及びｙの関数であり、領域Ｒで連続し、Ｓが境界とな
る。関数ｕ（ｘ，ｙ）はＲ及びＳで連続していなければ
ならない。

【００７０】有限差分法において、メッシュは領域Ｒに
重ねられ（図３２に示すように）、微分方程式（１）は
差分方程式に置換される。偏導関数は中心差分商方程式
２ａ−２ｄ（図３３）に置換される。

【数８】

【００７１】

【数９】

【００７２】

【数１０】

【００７３】

【数１１】

【００７４】ただし、ｈ_x及びｈ_yはそれぞれｘ及びｙ軸
のメッシュ間隔である（図３３）。通常、水平及び垂直
両方高のメッシュ間隔は同じである（式３）。

【数１２】ｈ＝ｈ_x＝ｈ_y （３）

【００７５】＝０として、式（２ａ）ないし（２ｄ）を
式（１）に代入し、−ｈ2を乗じると、次の式が得られ
る。

【数１３】

【００７６】ただし、

【数１４】

【００７７】

【数１５】

【００７８】

【数１６】

【００７９】

【数１７】

【００８０】

【数１８】

【００８１】

【数１９】

【００８２】ラプラスの方程式を考えると、次のように
なる。

【数２０】

【００８３】ただし、Ａ＝Ｃ＝１及びＢ＝Ｄ＝Ｅ＝Ｆ＝
Ｇ＝０である。

【００８４】領域Ｒに境界条件Ｓを与えると、一意の解
が得られる。ラプラスの方程式を小さな差分として表す
ことができる。代入により、式（７ａ）が得られる。

【数２１】

【００８５】それ故、ｕ（ｘ，ｙ）の値を式（７ｂ）を
使用した反復法によって計算できる。

【数２２】

【００８６】ラプラスの方程式及びポアゾンの方程式
は、振動膜の解析などの多くの理論及び応用問題に広く
使用されている。

【００８７】図５ないし図１４の説明で提示したオラク
ルの表記を使用して、式（７ａ）を式８にマップするこ
とによって、式（７ｂ）をオラクルについて計算するこ
とができる。

【数２３】

【００８８】この表記は連続性に合わせて連続するもの
であるが、ＰＥの内部構造（図５）は有限差分法アルゴ
リズムに合わせて修正される。修正されたＰＥは図３４
に示されている。対角ＰＥも同様にして、図１０に示す
形態から２重ＰＥ構造に修正される。対角ＰＥは１つの
実行ユニットと、単一ＰＥに適したレジスタを含んでい
るが、その構造は図３４から推論されたものである。同
一の送受入出力ポート及び制御が新しいＰＥ内部構造に
利用されているが、計算機能は修正されている。アキュ
ミュレータ／シフタを備えた加算器を利用して、式８に
必要な４回の演算によって加算及び除算を行う。Ｗ_abレ
ジスタは比較論理が使用する最大許容誤差値を格納す
る。新しいＰ（ｉ，ｊ）値を計算した後、以前のＰ
（ｉ，ｊ）値と比較し、いずれかのＰＥで差が最大許容
誤差よりも大きい場合には、計算を継続する必要があ
る。すべてのＰＥの誤差値が最大許容誤差よりも少なく
なければならないのであるから、制御システムはＰＥの
比較演算の状態を知っていなければならない。これは論
理値を各ＰＥからメッシュ構造を介して、制御システム
へ大域解析のために送ることによって得られる。図３５
ないし図３８は北、南、東及び西の伝送モードのための
スイッチ及び入出力ポートの構成を示す。

【００８９】Ｐ_ijレジスタにロードされる初期値は問題
によって異なっている。アキュミュレータＲ^_ijはゼロ
に初期設定され、最大許容誤差値がＷ_abレジスタにロー
ドされる。初期設定後、以下のステップが行われるが、
これらのステップについては図３９ないし図４１のステ
ップ１ないしステップ５を参照されたい。

【００９０】１．ステップ１。Ｐ_ijの値を北へ送信し、
受信した値をＲ^_ijの値に加える。２．ステップ２。Ｐ_ijの値を東へ送信し、受信した値を
Ｒ^_ijの値に加える。３．ステップ３。Ｐ_ijの値を南へ送信し、受信した値を
Ｒ^_ijの値に加える。４．ステップ４。Ｐ_ijの値を西へ送信し、受信した値を
Ｒ^_ijの値に加える。５．ステップ５。Ｒ^_ijに蓄積した値を２ポジション右
へシフトし、４で除算し、シフトした蓄積値Ｒ^_ijを元
の値Ｐ_ijと比較して、２つの値が最大許容誤差内にある
かどうかを検証する。比較の結果をアレイの縁部へ送
り、収束の全体的な判断を行う。

【００９１】全体的な収束にいたっていない場合には、
収束が全体的に達成されるまで、上記のプロセスを継続
する。

【００９２】

【発明の効果】本発明により、並列アレイ・コンピュー
タ・システムすなわち大規模並列アレイ・プロセッサに
用いることのできるコンピュータ・システムの新規なＰ
Ｅ及び関連した編成を提供できる。さらに、微分方程式
を解くのに有限差分法を使用することを含む、マルチメ
ディア用及び汎用大規模並列コンピュータ・システムを
提供できる。

【図面の簡単な説明】

【図１】畳み込みイメージ処理用の８×８のメッシュを
示す図面である。

【図２】メッシュＰＥ内部構造の図面である。

【図３】本発明の好ましい実施例による８×８のメッシ
ュを示す図面である。

【図４】本発明の好ましい実施例による８×８のメッシ
ュを示す図面である。

【図５】転置及び畳み込みをサポートする対称ＰＥ「セ
ル」構造の図面である。

【図６】転置及び畳み込みをサポートする対称ＰＥ「セ
ル」構造の図面である。

【図７】転置及び畳み込みをサポートする対称ＰＥ「セ
ル」構造の図面である。

【図８】転置及び畳み込みをサポートする対称ＰＥ「セ
ル」構造の図面である。

【図９】転置及び畳み込みをサポートする対称ＰＥ「セ
ル」構造の図面である。

【図１０】転置及び畳み込みをサポートする対称ＰＥ
「セル」構造の図面である。

【図１１】転置及び畳み込みをサポートする対称ＰＥ
「セル」構造の図面である。

【図１２】転置及び畳み込みをサポートする対称ＰＥ
「セル」構造の図面である。

【図１３】転置及び畳み込みをサポートする対称ＰＥ
「セル」構造の図面である。

【図１４】転置及び畳み込みをサポートする対称ＰＥ
「セル」構造の図面である。

【図１５】本発明の好ましいＰＥの記号体系を付した８
×８のメッシュの図面である。

【図１６】本発明の好ましいＰＥの記号体系を付した８
×８のメッシュの図面である。

【図１７】本発明の好ましいＰＥの記号体系を付した８
×８のメッシュの図面である。

【図１８】方形メッシュにおける８×８のマトリックス
Ｐの図面である。

【図１９】本発明の好ましい実施例における８×８のマ
トリックスＰの図面である。

【図２０】方形メッシュにおける８×８のマトリックス
と転置したマトリックスＰの図面である。

【図２１】本発明の好ましい実施例における８×８のマ
トリックスと転置したマトリックスＰの図面である。

【図２２】畳み込みウィンドウの図面である。

【図２３】畳み込みイメージ処理のための一般化された
メッシュの図面である。

【図２４】畳み込みイメージ処理のための一般化された
メッシュの図面である。

【図２５】畳み込みイメージ処理のための一般化された
メッシュの図面である。

【図２６】畳み込みイメージ処理のための一般化された
メッシュの図面である。

【図２７】ピクセルＰ４５の畳み込みのステップ１及び
３を示す図面である。

【図２８】ピクセルＰ４５の畳み込みのステップ２及び
４を示す図面である。

【図２９】ピクセルＰ４５の畳み込みのステップ５及び
７を示す図面である。

【図３０】ピクセルＰ４５の畳み込みのステップ６及び
８を示す図面である。

【図３１】ピクセルＰ４５の畳み込みのステップ９を示
す図面である。

【図３２】領域Ｒに重ねられたメッシュを示す図面であ
る。

【図３３】領域Ｒに重ねられたメッシュを示す図面であ
る。

【図３４】有限差分法をサポートする本発明の対称ＰＥ
「セル」を示す図面である。

【図３５】有限差分法をサポートする本発明の対称ＰＥ
「セル」を示す図面である。

【図３６】有限差分法をサポートする本発明の対称ＰＥ
「セル」を示す図面である。

【図３７】有限差分法をサポートする本発明の対称ＰＥ
「セル」を示す図面である。

【図３８】有限差分法をサポートする本発明の対称ＰＥ
「セル」を示す図面である。

【図３９】本発明の有限差分法のステップ１及び３を示
す図面である。

【図４０】本発明の有限差分法のステップ２及び４を示
す図面である。

【図４１】本発明の有限差分法のステップ５を示す図面
である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ホセ・グァダループ・デルガード−フリアス 13760ニューヨーク州エンドウェル、レーシィ・ドライブ 612 (56)参考文献ＩＥＥＥＴＲＡＮＳＡＣＴＩＯＮＳＯＮＮＥＵＲＡＬＮＥＴＷＯＲＫＳ，ＶＯＬ．３，ＮＯ．６，ＮＯＶＥＭＢＥＲ 1992Ｐ．934−950 ＰＲＯＣＥＥＤＩＮＧＳ．ＩＮＴＥＲＮＡＴＩＯＮＡＬＣＯＮＦＥＲＥＮＣＥＯＮＡＰＰＬＩＣＡＴＩＯＮ−ＳＰＥＣＩＦＩＣＡＲＲＡＹＰＲＯＣＥＳＳＯＲＳ 1993 Ｐ．140−３

Claims

(57)【特許請求の範囲】

【請求項１】Ｎ×Ｎマトリックスを構成する（Ｎは０よ
り大きい正の整数）多次元アレイ内に配置され、データ
をそれぞれ送信し、受信する複数の入出力（Ｉ／Ｏ）ポ
ートをそれぞれ含む複数の処理要素（ＰＥ）を含むプロ
セッサー・アレイにおいて、ＰＥがそれぞれ、前記複数のＩ／Ｏポートのうちの１つ
のＩ／Ｏポートにおいてそれぞれ複数のＰＥのうちの隣
接する４つのＰＥに結合され、アレイのエッジに沿った
各ＰＥが、アレイの隣接しないエッジに沿った複数のＰ
Ｅのうちの別のＰＥに対角線で折り畳んだ位置に配置さ
れるように折返し結合され、ＰＥのうちの前記隣接する
４つのＰＥが、北ＰＥ、南ＰＥ、東ＰＥおよび西ＰＥに
指定され、ＰＥが、ＰＥの対が前記複数の入出力ポートを共有する
ように対角線で折り畳まれた折込メッシュの形で結合さ
れ、行の添字ｉおよび列の添字ｊをそれぞれ等しくない正の
整数として、ＰＥｉｊで示されたＰＥがＰＥｊｉで示さ
れたＰＥと入出力ポートを共有し、ｉ＜ｊのＰＥが頂部ＰＥに指定され、ｉ＞ｊのＰＥが底部ＰＥに指定され、ｉ＝ｊのＰＥが対角線ＰＥに指定され、対角線ＰＥがそれぞれ、前記複数のＩ／Ｏポートのうち
の１つのＩ／ＯポートにおいてそれぞれＰＥのうちの隣
接する２つのＰＥに結合され、アレイの１つの角にある
各対角線ＰＥが、アレイの別の角にある各非対角線ＰＥ
に折返し結合されたプロセッサー・アレイ。
【請求項２】ＰＥがそれぞれａ）データを前記Ｉ／Ｏポートのうちの１つのＩ／Ｏポ
ートを介して東ＰＥに送信し、データを前記Ｉ／Ｏポー
トのうちの別のＩ／Ｏポートを介して西ＰＥから受信す
る東送信／西受信モードｂ）データを前記Ｉ／Ｏポートのうちの１つのＩ／Ｏポ
ートを介して北ＰＥに送信し、データを前記Ｉ／Ｏポー
トのうちの別のＩ／Ｏポートを介して南ＰＥから受信す
る北送信／南受信モードｃ）データを前記Ｉ／Ｏポートのうちの１つのＩ／Ｏポ
ートを介して南ＰＥに送信し、データを前記Ｉ／Ｏポー
トのうちの別のＩ／Ｏポートを介して北ＰＥから受信す
る南送信／北受信モード、およびｄ）データを前記Ｉ／Ｏポートのうちの１つのＩ／Ｏポ
ートを介して西ＰＥに送信し、データを前記Ｉ／Ｏポー
トのうちの別のＩ／Ｏポートを介して東ＰＥから受信す
る西送信／東受信モードにおいて、データを送信し、受
信する手段をさらに含むことを特徴とする、請求項１に
記載のプロセッサー・アレイ。
【請求項３】それぞれデータおよび命令を送信し、受信
する複数のＩ／Ｏポートを有する複数の処理要素（Ｐ
Ｅ）用の相互接続システムにおいて、複数のＰＥを相互接続する結合手段であって、前記複数
のＰＥを有する正方形マトリックス構成内に存在するす
べての内部ＰＥ結合を含み、ｉおよびｊをそれぞれマト
リックス構成内の対応するＰＥの行および列の指示子と
し、ｉおよびｊが等しくない０でない正の整数であると
して、各非対角線ＰＥ（ＰＥｉｊ）のＩ／Ｏポートをそ
の対角線に対して対称の位置にある対称ＰＥ（ＰＥｊ
ｉ）と共有することによってマトリックス構成内で必要
な数の内部ＰＥ結合の半分を実施し、それによりＰＥｉ
ｊおよびＰＥｊｉを含む対称型ＰＥを形成する結合手段
を含み、結合手段がａ）データを前記Ｉ／Ｏポートのうちの１つの一部を介
して東ＰＥに送信し、データを前記Ｉ／Ｏポートのうち
の別のＩ／Ｏポートを介して西ＰＥから受信する東送信
／西受信モードｂ）データを前記Ｉ／Ｏポートのうちの一部を介して北
ＰＥに送信し、データを前記Ｉ／Ｏポートのうちの別の
Ｉ／Ｏポートを介して南ＰＥから受信する北送信／南受
信モードｃ）データを前記Ｉ／Ｏポートのうちの一部を介して南
ＰＥに送信し、データを前記Ｉ／Ｏポートのうちの残り
の部分を介して北ＰＥから受信する南送信／北受信モー
ド、およびｄ）データを前記Ｉ／Ｏポートのうちの一部を介して西
ＰＥに送信し、データを前記Ｉ／Ｏポートのうちの残り
の部分を介して東ＰＥから受信する西送信／東受信モー
ドの４つの選択可能なモードのうちの１つのモードにお
いて、データおよび命令を送信し、受信する手段をさら
に含む相互接続システム。
【請求項４】ＰＥに送信された第１のタイプのデータお
よび第２のタイプのデータを受信する第１の入力ポート
と、第１の入力ポートに結合され、第１のタイプのデータに
応答してコマンドを発行するコマンド制御回路と、第１の入力ポートに結合され、第２のタイプのデータを
記憶する第１のレジスタと、ＰＥに送信された第３のタイプのデータを受信する第２
の入力ポートと、コマンド制御回路に結合され、複数のデータ・ポートを
含み、データ・ポートのうちの選択したデータ・ポート
をデータ・ポートのうちの選択した他のデータ・ポート
に接続し、コマンド制御回路からのコマンドに応答し
て、データをデータ・ポートのうちの選択したデータ・
ポートからデータ・ポートのうちの選択した他のデータ
・ポートに送信する制御スイッチと、それぞれＰＥデータを対応する別個のＰＥに出力し、結
合されたＰＥデータを前記対応する別個のＰＥから受信
する複数のインターフェース・ポートと、それぞれデータ・ポートのうちの１つのデータ・ポー
ト、コマンド制御回路およびインターフェース・ポート
のうちの１つのインターフェース・ポートに結合され、
コマンド制御回路からのコマンドに応答して、ＰＥデー
タをデータ・ポートのうちの結合されたデータ・ポート
からインターフェース・ポートのうちの結合されたイン
ターフェース・ポートに選択的に送信し、結合されたＰ
Ｅデータをインターフェース・ポートのうちの前記結合
されたインターフェース・ポートからデータ・ポートの
うちの前記結合されたデータ・ポートに選択的に送信す
る複数の双方向スイッチと、複数のデータ・ポートの一部を介して、第１のレジス
タ、第２の入力ポートおよび制御スイッチに結合され、第３のタイプのデータを記憶する初期設定レジスタと、第１のレジスタおよび初期設定レジスタに結合され、第
２のタイプのデータおよび第３のタイプのデータを用い
て計算を実施する第１の計算回路と、結合されたＰＥデータを記憶する受信レジスタと、第１の計算回路および受信レジスタに結合され、第１の
計算回路によって出力された結果および結合されたＰＥ
データを用いて計算を実施する第２の計算回路と、第２の計算回路に結合され、第２の計算回路の結果を記
憶し、第２の計算回路の結果を制御スイッチのデータ・
ポートに送信する結果レジスタとを含む処理要素（Ｐ
Ｅ）。
【請求項５】ＰＥに送信された命令および重み値を受信
する第１の入力ポートと、第１の入力ポートに結合され、命令に応答してコマンド
を発行するコマンド制御回路と、第１の入力ポートに結合され、重み値を記憶する加重レ
ジスタと、ＰＥに送信された初期設置値を受信する第２の入力ポー
トと、それぞれ第２の入力ポートに結合され、初期設定値を記
憶する第１の初期設定レジスタおよび第２の初期設定レ
ジスタと、初期設定レジスタおよびコマンド制御回路に結合され、
コマンド制御回路に応答して初期設定レジスタのうちの
選択した初期設定レジスタから初期設定値を送信するセ
レクタ回路と、それぞれ加重レジスタおよびセレクタ回路に結合され、
選択した初期設定値および重み値を用いて計算を実施す
る複数の乗算器と、それぞれ乗算器のうちの１つの乗算器に結合され、結合
された乗算器の結果を用いて計算を実施する複数の加算
器と、それぞれ加算器のうちの１つの加算器に結合され、結合
された加算器の結果を記憶する複数の結果レジスタと、コマンド制御回路に結合され、それぞれコマンド制御回
路に応答して、加算器の結果を送信し、他のＰＥの結果
を受信する複数の双方向スイッチと、コマンド制御回路、複数の結果レジスタおよび双方向ス
イッチに結合され、加算器の結果を結果レジスタのうち
の選択した結果レジスタから双方向スイッチのうちの選
択した双方向スイッチに送信し、コマンド制御回路によ
って発行されたコマンドに応答して、前記他のＰＥの結
果を双方向スイッチのうちの選択した双方向スイッチか
ら送信する制御スイッチと、それぞれ双方向スイッチのうちの１つの双方向スイッチ
に結合され、加算器の結果を出力し、かつそれぞれ別個
のＰＥに結合され、前記他のＰＥの結果を結合された双
方向スイッチに送信する複数のインターフェース・ポー
トと、それぞれ制御スイッチおよび加算器のうちの１つの加算
器に結合され、制御スイッチによって送信された前記他
のＰＥの結果を記憶し、加算器が結合された乗算器の結
果を用いて前記計算を実施するように、前記他のＰＥの
結果を結合された加算器に送信する複数の受信レジスタ
とを含むデュアル処理要素。
【請求項６】コマンド制御回路が、前記加算器の結果を
結果レジスタのうちの選択した結果レジスタからインタ
ーフェース・ポートのうちの選択したインターフェース
・ポートに同時に送信し、前記他のＰＥの結果を選択し
た他のデータ・ポートにおいて受信し、それらを受信レ
ジスタのうちの選択した受信レジスタに送信するように
制御スイッチおよび双方向スイッチを活動化させる手段
を含むことを特徴とする、請求項５に記載のデュアル処
理要素。
【請求項７】ＰＥに送信された命令および基本データを
受信する入力ポートと、入力ポートに結合され、命令に応答してコマンドを発行
するコマンド制御回路と、入力ポートに結合され、基本データを用いて計算を実施
する手段を含む計算回路と、コマンド制御回路に結合され、複数のデータ・ポートを
含み、データ・ポートのうちの選択したデータ・ポート
をデータ・ポートのうちの選択した他のデータ・ポート
に接続し、コマンド制御回路からのコマンドに応答し
て、データをデータ・ポートのうちの選択したデータ・
ポートからデータ・ポートのうちの選択した他のデータ
・ポートに送信する制御スイッチ回路と、それぞれＰＥデータを対応する別個のＰＥに出力し、結
合されたＰＥデータを前記対応する別個のＰＥから受信
する複数のインターフェース・ポートと、それぞれデータ・ポートのうちの１つのデータ・ポー
ト、コマンド制御回路およびインターフェース・ポート
のうちの１つのインターフェース・ポートに結合され、
コマンド制御回路からのコマンドに応答して、ＰＥデー
タをデータ・ポートのうちの結合されたデータ・ポート
からインターフェース・ポートのうちの結合されたイン
ターフェース・ポートに選択的に送信し、結合されたＰ
Ｅデータをインターフェース・ポートのうちの前記結合
されたインターフェース・ポートからデータ・ポートの
うちの前記結合されたデータ・ポートに選択的に送信す
る複数の双方向スイッチとを含む処理要素（ＰＥ）。
【請求項８】計算回路が、基本データを用いた計算の結果および前記対応する別個
のＰＥの計算結果を用いて計算を実施する手段と、基本データを用いた計算の結果を用いた計算の結果およ
び前記対応する別個のＰＥの計算結果をスイッチ回路に
送信する手段とをさらに含むことを特徴とする、請求項
７に記載のＰＥ。
【請求項９】スイッチ回路が、コマンド制御回路によって発行されたコマンドに応答し
て、ＰＥ計算結果を選択した送信データ・パスを介して
出力し、前記対応する別個のＰＥの計算結果を選択した
受信データ・パスを介して同時に受信する手段をさらに
含むことを特徴とする、請求項８に記載のＰＥ。
【請求項１０】それぞれ入力ポートおよび計算回路に結
合され、基本データを記憶する複数の基本データ・レジ
スタと、それぞれスイッチ回路および計算回路に結合され、その
うちの第１の結果レジスタが送信データ・パスを介して
出力すべきＰＥ計算結果を記憶し、そのうちの第２の結
果レジスタが計算回路に送信すべき前記対応する別個の
ＰＥの計算結果を記憶する複数の結果レジスタとをさら
に含むことを特徴とする、請求項９に記載のＰＥ。
【請求項１１】基本データが重み値および第１の初期設定値を有し、入力ポートがコマンド制御回路に結合され、命令を基本データ・レジ
スタのうちの第１の基本データ・レジスタに送信して重
み値を送信する第１のデータ・パスと、基本データ・レジスタのうちの第２の基本データ・レジ
スタに結合され、第１の初期設定値を送信する第２のデ
ータ・パスとを含むことを特徴とする、請求項１０に記
載のＰＥ。
【請求項１２】ＰＥに送信された命令および第１のタイ
プのデータを受信する第１の入力ポートと、第１の入力ポートに結合され、命令に応答してコマンド
を発行するコマンド制御回路と、第１の入力ポートに結合され、第１のタイプのデータを
記憶する第１のレジスタと、ＰＥに送信された第２のタイプのデータを受信する第２
の入力ポートと、第２の入力ポートに結合され、第２のタイプのデータを
記憶する第２のレジスタと、第１のレジスタおよび第２のレジスタに結合され、第１
のタイプのデータおよび第２のタイプのデータを用いて
計算を実施する第１の計算回路と、ＰＥに送信された第３のタイプのデータを記憶する受信
レジスタと、第１の計算回路および受信レジスタに結合され、第１の
タイプのデータおよび第２のタイプのデータを用いた計
算の結果および第３のタイプのデータを用いて計算を実
施する第２の計算回路と、第２の計算回路に結合され、第２の計算回路の計算の結
果を記憶する結果レジスタと、それぞれ受信データ・パスおよび送信データ・パスを有
し、それぞれコマンド制御回路に結合され、コマンド制
御回路によって発行されたコマンドに応答して、受信デ
ータ・パスおよび送信データ・パスを選択的に開閉する
２つの双方向スイッチと、コマンド制御回路、計算レジスタおよび受信レジスタ、
および双方向スイッチに結合され、コマンド制御回路に
よって発行されたコマンドに応答して、結果レジスタお
よび受信レジスタと２つの双方向スイッチとの間のデー
タの流れを制御する制御スイッチと、それぞれ２つの双方向スイッチのうちの一方の双方向ス
イッチに結合され、送信パスを介して制御スイッチから
送信されたデータを出力し、受信パスを介して制御スイ
ッチに送信すべき第３のタイプのデータを受信する２つ
のインターフェース・ポートとを含む処理要素（Ｐ
Ｅ）。
【請求項１３】コマンド制御回路が、命令に応答してコ
マンドを発行して、制御スイッチが、双方向スイッチの
うちの一方の双方向スイッチの送信データ・パスを介し
てデータを送信し、他方の双方向スイッチの受信データ
・パスを介してデータを受信するように動作するように
制御スイッチおよび双方向スイッチを選択的に活動化さ
せる手段を含むことを特徴とする、請求項１２に記載の
処理要素。
【請求項１４】ＰＥに送信された第１のタイプのデータ
および第２のタイプのデータを受信する第１の入力ポー
トと、第１の入力ポートに結合され、第１のタイプのデータに
応答してコマンドを発行するコマンド制御回路と、第１の入力ポートに結合され、第２のタイプのデータを
記憶する第１のレジスタと、ＰＥに送信された第３のタイプのデータを受信する第２
の入力ポートと、コマンド制御回路に結合され、複数のデータ・ポートを
含み、データ・ポートのうちの選択したデータ・ポート
をデータ・ポートのうちの選択した他のデータ・ポート
に接続し、コマンド制御回路からのコマンドに応答し
て、データをデータ・ポートのうちの選択したデータ・
ポートからデータ・ポートのうちの選択した他のデータ
・ポートに送信する制御スイッチと、それぞれ別個のＰＥに結合され、ＰＥデータを結合され
たＰＥに出力し、それぞれ前記結合されたＰＥから結合
されたＰＥデータを受信する複数のインターフェース・
ポートと、それぞれデータ・ポートのうちの１つのデータ・ポー
ト、コマンド制御回路およびインターフェース・ポート
のうちの１つのインターフェース・ポートに結合され、
コマンド制御回路からのコマンドに応答して、ＰＥデー
タをデータ・ポートのうちの結合されたデータ・ポート
からインターフェース・ポートのうちの結合されたイン
ターフェース・ポートに選択的に送信し、結合されたＰ
Ｅデータをインターフェース・ポートのうちの前記結合
されたインターフェース・ポートからデータ・ポートの
うちの前記結合されたデータ・ポートに選択的に送信す
る複数の双方向スイッチと、複数のデータ・ポート、第１のレジスタおよび第２の入
力ポートの一部を介して制御スイッチに結合され、制御スイッチを介して送信された選択した結合されたＰ
Ｅデータを累積的に合計し、累積和をシフトする結果レ
ジスタ手段と、第３のタイプのデータを記憶する第２のレジスタと、シフトされた累積和と第３のタイプのデータとの差を第
２のタイプのデータと比較する比較手段と、比較手段の出力に基づいて制御スイッチに論理値を送信
する手段とを含む第１の実行回路とを含む処理要素（Ｐ
Ｅ）。