JPH0619863A

JPH0619863A - 超並列対角線折畳みツリー・アレイ・プロセッサ

Info

Publication number: JPH0619863A
Application number: JP5084959A
Authority: JP
Inventors: Gerald G Pechanek; ジー．ペチャネクジェラルド; Stamatis Vassiliadis; ヴァジリアディススターマティス; Jose Guadelupe Delgado-Frias; グアドループデルガド−フライアスホセ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-05-12
Filing date: 1993-04-12
Publication date: 1994-01-28
Anticipated expiration: 2012-01-16
Also published as: EP0569763A2; US5784632A; EP0569763A3; JP2572522B2; US5682544A

Abstract

(57)【要約】（修正有）【目的】組み合わされた通信ＡＬＵツリーと相互接続
された、ＰＥの配列を使用して、完全に接続されたルー
ト・ツリー・プロセッサをサポートする、超並列対角線
折畳みツリー・アレイ・プロセッサを提供する。【構成】Ｎ² 個のプロセッシング・エレメント（処理
要素）（ＰＥ）を備え、各ＰＥは命令およびデータ記憶
ユニットを有し、命令およびデータを受信して命令を実
行する。Ｎ² の構造は、Ｎ個の通信ＡＬＵツリー、Ｎ個
のプログラム可能なルート・ツリー・プロセッサ・ユニ
ット、ならびに命令、データ、およびルート・ツリー・
プロセッサの出力を通信する装置を有する。Ｎルート・
ツリー・プロセッサ・システム構造は、対角線セルおよ
び汎用セルからなる、折畳まれたＮｘＮ個のＰＥにより
プロセッサ・アレイよりなり、ＰＥ列、行と識別される
Ｎ² 個のＰＥを有する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はコンピュータ、および特
に超並列アレイプロセッサに関するものである。

【０００２】

【従来の技術】本出願に関連する他の特許出願本出願は以下の特許出願に関連する。

【０００３】１．米国特許出願第07/526,866号, １９９
０年５月２２日出願，発明者バシリアディス（S. Vassi
liadis）外；発明の名称「直角行−列ニューラル・プ
ロセッサ（Orthogonal Row-Column Neural Processo
r）」１９９１年１１月１２日に発行された米国特許第
5,065,339 号、および以下に示す出願係属中の分割特許
出願２．米国特許出願第07/740,355号, １９９１年８月５日
出願，発明者バシリアディス（S. Vassiliadis）外；
発明の名称「スケーラブル・ニューラル・アレイ・プロ
セッサ（Scalable Neural Array Processor ）」（現在
出願係属中）３．米国特許出願第07/740,556号, １９９１年８月５日
出願，発明者バシリアディス（S. Vassiliadis）外；
発明の名称「ニューラル・アレイ・プロセッサ用加算器
ツリー（Adder Tree for a Neural Array Processor
）」（現在出願係属中）４．米国特許出願第07/740,568号, １９９１年８月５日
出願，発明者バシリアディス（S. Vassiliadis）外；
発明の名称「ニューラル・プロセッサのための装置およ
び方法（Apparatus and Method for Neural Processor
）」（現在出願係属中）５．米国特許出願第07/740,266号, １９９１年８月５日
出願，発明者バシリアディス（S. Vassiliadis）外；
発明の名称「スケーラブル・ニューラル・アレイ・プロ
セッサおよび方法（Scalable Neural Array Processor
and Method）」（現在出願係属中）６．米国特許出願第07/682,786号, １９９１年４月８日
出願，発明者ペシャネック（G.G. Pechanek ）外；発
明の名称「三角型スケーラブル・ニューラル・アレイ・
プロセッサ（Triangular Scalable Neural Array Proce
ssor）」（現在出願係属中）７．米国特許出願第07/681,842号, １９９１年４月８日
出願，発明者ペシャネック（G.G. Pechanek ）外；発
明の名称「SPIN；シーケンシャル・パイプライン化ニュ
ーロコンピュータ（A Sequential Pipelined Neurocomp
uter）」（現在出願係属中）８．米国特許出願第07/702,261号, １９９１年５月１７
日出願，発明者ペシャネック（G.G. Pechanek ）外；
発明の名称「学習マシン・シナプス・プロセッサ・シス
テム・装置（A Learning Machine Synapse Processor S
ystem Apparatus ）」（現在出願係属中）９．米国特許出願第07/702,260号, １９９１年５月１７
日出願，発明者ペシャネック（G.G. Pechanek ）外；
発明の名称「ニューラル・ネットワーク用仮想ニューロ
コンピュータ・アーキテクチャ（Virtual Neurocompute
r Architectures for Neural Networks ）」（現在出願
係属中）１０．米国特許出願第07/702,262号, １９９１年５月１
７日出願，発明者ペシャネック（G.G. Pechanek ）外；
発明の名称「スケーラブル・フロウ仮想学習ニューロ
コンピュータ（Scalable Flow Virtual Learning Neuro
computer）」（現在出願係属中）１１．米国特許出願第07/702,263号, １９９１年５月１
７日出願，発明者ペシャネック（G.G. Pechanek ）外；
発明の名称「PLAN；ピラミッド学習アーキテクチャ・
ニューロコンピュータ（Pyramid Learning Architectur
e Neurocomputer ）」（現在出願係属中）１２．米国特許出願第07/864,112号, １９９２年４月６
日出願，発明者ペシャネック（G.G. Pechanek ）外；
発明の名称「超並列アレイ・プロセッサ（Massively Pa
rallel Array Processor）」（現在出願係属中）さらに
加えて、同時に出願された関連特許出願としては下記の
出願がある。１３．米国特許出願第07/ 号，１９９２年５月１
５日出願，発明者ペシャネック（G.G. Pechanek ）外；
発明の名称「スケーラブル超並列グループ分割対角線
折畳みスイッチング・ツリー型コンピューティング装置
（Scalable Massively Parallel Group Partitioned Di
agonal-Fold Switching Tree Computing Apparatus）」
（IBM Docket EN9-92-065 ）これらの出願、および本出願は唯一のかつ同一の出願人
であるニューヨーク州アーモンクのインターナショナル
・ビジネス・マシーンズ・コーポレーションにより所有
されている。

【０００４】これらの上記出願に記載された説明は、こ
こにおいてその出願番号を参照することで本出願の一部
を構成するものとする。

【０００５】なお、本明細書の記述は本件出願の優先権
の基礎たる米国特許出願第07/881,597号の明細書の記載
に基づくものであって、当該米国特許出願の番号を参照
することによって当該米国特許出願の明細書の記載内容
が本明細書の一部分を構成するものとする。

【０００６】本明細書で引用されている公知文献以下の詳細な説明の中では、読者の理解を助けるために
下記の文献を参照する。これらの追加の参考文献は、次
の通りである。

【０００７】１．米国特許出願第07/799,602号, １９９
１年１１月２７日出願，発明者オルノウィッチ（H. Oln
owich ）；発明の名称「並列ネットワーク、ならびに
異種および同種のコンピュータ・システム用マルチメデ
ィア・シリアル回線スイッチング・アダプタ（Multi-Me
dia Serial Line Switching Adapter for Parallel Net
works and Heterogenous and Homologous Computer Sys
tems）」２．米国特許出願第07/798,788号, １９９１年１１月２
７日出願, 発明者コッジ（P.M. Kogge）；発明の名称
「ダイナミック・マルチ・モード並列プロセッサ・アレ
イ・アーキテクチャ（構造）（Dynamic Multi-Mode Par
allel Processor Array Architecture）」（ＭＩＭＤ、
ＳＩＭＤおよびＳＩＳＤの間のダイナミックなスイッチ
ングを可能とするシステム）３．ルーメルハート（D.E. Rumelhart）、マックレラン
ド（ J.L. McClelland）、およびＰＤＰ研究グループ
（PDP Research Group）共著「並列分散処理 Vol.1：基
礎（Parallel Distributed Processing ）Vol. 1」；
マサチューセッツ州ケンブリッジ（Cambridgr, Massach
usetts）； MIT プレス１９８６年発行（本明細書中で
は、「ルーメルハート86（Rumelhart 86）」として参照
する。）４．ニューラル・プロセッサ用の装置および方法（APPA
RATUS AND METHOD FORNEURAL PROCESSOR ）、バシリア
デス（S. Vassiliadis）およびペシャネック（G.G. Pec
hanek ）、米国特許出願第07/526,866号, １９９０年５
月１８日出願（本明細書中では、時々「SNAP」または
「バシリアディス（Vassiliadis ）SNAP 90 」として参
照する。）５．三角型スケーラブル・ニューラル・アレイ・プロセ
ッサ（A TRIANGULAR SCALABLE NEURAL ARRAY PROCESSO
R）、ペシャネック（G.G. Pechanek ）、およびバシリ
アディス（S. Vassiliadis）、米国特許出願第07/682,7
85号, １９９１年４月８日出願（本明細書中では時々
「Ｔ−ＳＮＡＰ」として参照する。）６．学習マシン・シナプス・プロセッサ・システム装置
（A LEARNING MACHINESYNAPSE PROCESSOR SYSTEM APPAR
ATUS ）、ペシャネック（G.G. Pechanek ）外の米国特
許出願第07/702,261号, １９９１年５月１７日出願（本
明細書中では時々「学習マシン（Learning Machine）」
として参照する。）７．アイシェルバーガー（E.B. Eichelberger ）および
ウイリアムズ（T.W. Williams ）による「試験性のため
の論理デザイン構造（A Logic Design Structure for T
estability）」１９７７年第１４回 IEEE設計自動化
会議会報（Proceedings 14th Design Automation Confe
rence IEEE) （本明細書中では「アイシェルバーガー77
（Eichelberger 77 ）」として参照する。）８．ホップフィールド（J.J.Hopfield）著「２状態ニュ
ーロンのごとき集合的計算特性を有する勾配応答のある
ニューロン（Neurons With Graded Response Have Coll
ective Computational Properties Like Those of Two-
State Neurons）」ナショナル・アカデミー・オブ・サ
イエンスの会報81（Proceedings of theNational Acade
my of Science 81 ）、１９８４年５月発行、第3088-30
92 頁（本明細書中では「ホップフィールド84（Hopfile
d 84 ）」として参照する。）９．マックレランド（J.L. McClelland ）およびルーメ
ルハート（D.E. Rumelhart）の「並列分散処理における
探求（Explorations in Parallel DistributedProcessi
ng ；モデル、プログラム、および練習のハンドブック
（ A handbookof Models, Programs and Exercises
）」ケンブリッジ、マサチューセッツ；１９８８年MIT
プレス発行（本明細書中では、「マックレランド88（M
cClelland 88 ）」として参照する。）１０．ホップフィールド（J.J.Hopfield）の「エマージ
ェント・コレクティブ計算能力をもったニューラル・ネ
ットワークスおよび物理的システム（Neural Networks
and Physical Systems with Emergent Collective Comp
utational Abilities ）」, ナショナル・アカデミー・
オブ・サイエンス79の会報，１９８２年発行, 第2554-2
558 頁（本明細書中では「ホップフィールド82（Hopfie
ld 82 ）」として参照する。）１１．フリン（M.J. Flynn）、ジョンソン（J.D. Johns
on）、およびウェイクフィールド（S.P. Wakefield）の
「命令セットおよびそれらのフォーマットについて（On
Instruction Sets and Their Formats ）」１９８５年
３月、IEEE トランザクションズ・オン・コンピュータ
ス Vol. C-34, No. 3, 第242-254 頁（本明細書中では
「フリン85（Flynn 85）」として参照する。）これらの追加の参考文献は、それらを参照することによ
って、本明細書の一部を構成するものとする。

【０００８】コンピュータ高速化のための限りのない追
求において、エンジニアは、数１００台、あるいは数１
０００台もの低コスト・マイクロプロセッサを並列に結
合して、現代のマシン（計算機）が難問としている複雑
な問題を征服するために除算を行う超スーパコンピュー
タを構築しようとしている。この種のマシンは超並列
（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌ）と呼ばれて
いる。並列に動作する多重コンピュータは数１０年前か
ら存在している。初期の並列マシンとしては、１９６０
年代に始まったＩＬＬＩＡＣがある。他の多重プロセッ
サとしては、Ｃｅｄａｒ、Ｓｉｇｍａ−１、Ｂｕｔｔｅ
ｒｆｌｙとＭｏｎａｒｃｈ、Ｉｎｔｅｌ社ｉｐｓｃ、コ
ネクション・マシン（ＣｏｎｎｅｃｔｉｏｎＭａｃｈ
ｉｎｅ）、Ｃａｌｔｅｃｈ社ＣＯＳＭＩＣ、ＮＣｕｂ
ｅ、ＩＢＭ社ＲＰ３、ＩＢＭ社ＧＦ１１、ＮＹＵウルト
ラ・コンピュータ、インテル社Ｄｅｌｔａ、Ｔｏｕｃｈ
ｓｔｏｎｅなどがある（シュー（Ｘｕ）外に対して１９
９０年１２月４日に発行された米国特許第４，９７５，
８３４号中の部分的要約を参照）。

【０００９】ＩＬＬＩＡＣから始まった大規模多重プロ
セッサはスーパコンピュータと考えられていた。最大の
商業的成功を収めたスーパコンピュータは、Ｃｒａｙ
Ｒｅｓｅａｒｃｈ社Ｙ−ＭＰシステム、ＩＢＭ３０９
０、およびＡｍｄａｈｌ、Ｈｉｔａｃｈｉ、Ｆｕｊｉｔ
ｓｕ、ＮＥＣを含む他メーカのマシンで代表される多重
ベクトル・プロセッサをベースにしている。

【００１０】超並列（ＭＰ）プロセッサは、現在では、
スーパコンピュータとなる能力を持つものと考えられて
いる。これらのコンピュータは非常に多数のマイクロプ
ロセッサを相互結合ネットワークで結合し、並列に動作
するようにプログラムしている。これらのコンピュータ
は２つのモードで動作している。これらの一部のマシン
はＭＩＭＤモード・マシンであり、一部のマシンはＳＩ
ＭＤモード・マシンである。これらのマシンの中で最も
成功を収めたといわれているのが、Ｔｈｉｎｋｉｎｇ
Ｍａｃｈｉｎｅｓ，Ｉｎｃ．のコネクション・マシン
（ｃｏｎｎｅｃｔｉｏｎｍａｃｈｉｎｅ）シリーズ１
と２である。これらのマシンは基本的にはＳＩＭＤマシ
ンである。超並列マシンの多くは並列に相互結合された
マイクロプロセッサを使用して、並列性（ｃｏｎｃｕｒ
ｒｅｎｃｙ）、つまり、並列動作の機能を実現してい
る。ｉ８６０のようなインテル・マイクロプロセッサは
インテル社や他のメーカで使用されている。ＮＣｕｂ
ｅ社は、インテル社の´３８６マイクロプロセッサを搭
載したマシンを提供している。他のマシンは、「トラン
スピュータ」（ｔｒａｎｓｐｕｔｅｒ）と呼ばれるチッ
プを利用して作られている。その例として、Ｉｎｍｏｓ
ＴｒａｎｓｐｕｔｅｒＩＭＳＴ８００がある。Ｉ
ｎｍｏｓＴｒａｎｓｐｕｔｅｒＴ８００は３２ビッ
ト・マシンであり、高速浮動小数点プロセッサを内蔵し
ている。この種のシステムの構築例として１つを示す
と、複数のＩｎｍｏｓＴｒａｎｓｐｕｔｅｒＴ８０
０チップは各々が３２個の通信リンク入力と３２個のリ
ンク出力を実装している。各チップはシングル・プロセ
ッサと、小容量メモリと、ローカル（局所）メモリおよ
び外部インタフェースとを結ぶ通信リンクとを実装して
いる。さらに、システム通信リンクを構築するために、
ＩＭＳＣ０１１およびＣ０１２のようなアダプタが接
続されている。さらに、ＩＭＳＣ００４のようなスイ
ッチは、例えば、３２個のリンク入力と３２個のリンク
出力間のクロスバー・スイッチの機能を備え、追加のト
ランスピュータ・チップ間をポイント・ツー・ポイント
（２地点間）で接続することができる。さらに、トラン
スピュータ用の特殊な回路とインタフェース・チップが
実装されれば、特定の装置、グラフィックまたはディス
ク・コントローラの要件に合った特殊な目的にトランス
ピュータを適応させて、使用することが可能になる。Ｉ
ｎｍｏｓＩＭＳＭ２１２は１６ビット・プロセッサ
であり、オンチップ・メモリと通信リンクを備えてい
る。このプロセッサはディスク・デバイスを制御するた
めのハードウェアとロジックを備えているので、プログ
ラマブル・ディスク・コントローラとしても、汎用イン
タフェースとしても使用できる。並列性（並列動作）を
利用するために、Ｉｎｍｏｓ社はトランスピュータ用に
特殊な言語、Ｏｃｃａｍを開発している。プログラマ
は、トランスピュータ・ネットワークをＯｃｃａｍプロ
グラムで直接に記述する必要がある。

【００１１】これらのＭＰマシンの一部は、プロセッサ
・チップからなる並列プロセッサ・アレイを使用し、こ
れらは異なるトポロジー構造で相互結合されている。ト
ランスピュータはＩＭＳＣ００４チップを追加するこ
とにより、クロスバー・ネットワークを実現している。
また、他の一部のシステムはハイパーキューブ（ｈｙｐ
ｅｒｃｕｂｅ）結合を使用している。他のシステムはマ
イクロプロセッサとその関連回路を接続するためにバス
またはメッシュを使用している。一部は、スイッチを使
用する回路スイッチ・プロセッサによって、プロセッサ
・アドレス可能ネットワークとして相互結合されてい
る。一般的に、複数のマシンを１つに配線することによ
ってＬａｗａｒｅｎｃｅＬｉｖｅｒｍｏｒｅで昨年秋
に相互結合された１４台のＲＩＳＣ／６０００の場合と
同様に、プロセッサ・アドレス可能ネットワークは、粗
い（Ｃｏａｒｓｅ−ｇｒａｉｎｅｄ）マルチプロセッサ
と考えられている。

【００１２】データ処理における「偉大な挑戦（ｇｒａ
ｎｄｃｈａｌｌｅｎｇｅ）」と呼ばれているものに取
りかかるために、いくつかの超大規模マシンが、現在イ
ンテル社、ｎＣｕｂｅ社、その他のメーカによって製造
されているが、これらのコンピュータは非常に高価であ
る。最新の見積コストは、この「偉大な挑戦」に取りか
かるために米国政府の補助金を得て開発されたコンピュ
ータの場合、米国ドル３０，０００，０００．００〜７
５，０００，０００．００（テラ・コンピュータ）のオ
ーダに達している。これらの偉大な挑戦には、気候モデ
ル化、流体の乱れ、汚染分散、人ゲノムと大洋循環のマ
ッピング、量子クロモ力学、半導体とスーパコンピュー
タのモデル化、燃焼システム、視覚と認識といった問題
が含まれている。

【００１３】本発明の超並列対角線折畳みツリー・アレ
イ・プロセッサ（ＭａｓｓｉｖｅｌｙＰａｒａｌｌｅ
ｌＤｉａｇｏｎａｌ−ＦｏｌｄＴｒｅｅＡｒｒａ
ｙＰｒｏｃｅｓｓｏｒ）のアーキテクチャは、高度な計
算用並列データ・アルゴリズムのモデリンク、たとえば
行列処理および高度接続性ニューラル・ネットワークの
ために適用できる。本発明のシステムの一般的な処理能
力を説明するために、行列の掛け算の例を記載する。

【００１４】本発明を詳細に説明するにあたって、本出
願の発明者の未公表文献をも含めて、本明細書の冒頭に
列挙した文献を引用する。本発明の背景となる、これら
の引用文献はそれらの参照により本明細書の一部を構成
するものとする。

【００１５】

【発明の解決しようとする課題】本発明によるＭＰ対角線折畳みツリー・アレイ・プロセ
ッサが解決しようとする問題本発明の目的は、現在、存在する行列処理の問題を適切
に克服することのできる超並列対角線折畳みツリー・ア
レイ・プロセッサを提供することにある。

【００１６】

【課題を解決するための手段】このような目的を解決す
るために、請求項１に記載の発明は、マトリクス処理を
含む汎用アプリケーションのためのコンピュータ・シス
テム装置において、ルート・ツリー・プロセッサと、通
信ＡＬＵツリーと、プロセッシング・エレメント（Ｐ
Ｅ）と、命令およびデータの双方をルート・ツリー・プ
ロセッサおよびプロセッシング・エレメントの間で通信
する手段とを備え、各プロセッサが命令およびデータの
記憶ユニットを有し、命令およびデータを受信し、およ
び命令を実行することを特徴とする。

【００１７】請求項２に記載の発明は、請求項１に記載
のコンピュータ・システム装置においてＮｘＮマトリク
スの形態に配置され、

【００１８】

【外２】

【００１９】対角線に沿って折畳まれ、ならびに対角線
セルおよび汎用セルより構成されたＮ² 個のプロセッシ
ング・エレメントをさらに備えたことを特徴とする。

【００２０】請求項３に記載の発明は、請求項２に記載
のコンピュータ・システム装置において、ＰＥ_i,j とし
て識別される前記対角線セルはそれぞれ単一のＰＥを備
え、および汎用セルは、それぞれ、ＰＥ_i,j およびＰＥ
_j,i として識別され、一緒に組み合わされる２つの処理
要素を備えたことを特徴とする。

【００２１】請求項４に記載の発明は、請求項３に記載
のコンピュータ・システム装置において、前記対角線セ
ルの単一のＰＥは、それぞれ、タグ・マッチング・ユニ
ットと、命令／データ・デコーディング機構、データ・
パス記憶ユニット、および分配器ユニットによる、外部
から受信した命令およびデータのための行き先パス制御
機構と、ゼロをＸ命令に格納する命令バッファを有し、
および１つの命令記憶ユニットが命令のデコードおよび
演算の制御のために用いられ命令記憶ユニットと、複数
データ記憶ユニットと、命令デコード機構、選択ユニッ
ト、およびデコードされた命令の記憶ユニットに対する
アドレス指定手段により制御された記憶ユニット・オペ
ランド選択機構と、命令デコーディング機構および分配
器ユニットにより制御された、結果の行き先パスを制御
する機構と、プログラマブル実行ユニットとを備えたこ
とを特徴とする。

【００２２】請求項５に記載の発明は、請求項３に記載
のコンピュータ・システム装置において、前記対角線セ
ルのＰＥより、ＰＥが接続された通信ＡＬＵツリーに結
果を供給し、および該通信ＡＬＵツリーから命令および
データを受け取ることを特徴とする。

【００２３】請求項６に記載の発明は、請求項３に記載
のコンピュータ・システム装置において、一緒に組み合
わされる前記汎用セルの２つのＰＥ、ＰＥ_i,j およびＰ
Ｅ_j,i は、２つのタグ・マッチング・ユニットと、２つ
の命令／データ・デコーディング機構、２つのデータ・
パス記憶ユニット、２つの命令パス・ビット、および共
通の分配器ユニットによる、外部から受信した命令およ
びデータのための共通の行き先パス制御機構と、ゼロを
Ｘ命令のそれぞれに格納する２つの命令バッファを有
し、および２つの命令記憶ユニットが命令のデコードお
よび演算の制御のために用いられる命令記憶ユニット
と、一緒に組み合わされたＰＥのそれぞれにより共有さ
れる複数のデータ記憶ユニットと、２つの命令デコーデ
ィング機構、共通の選択ユニット、および２つのデコー
ドされた命令の記憶ユニットに対するアドレス指定手段
により制御された２つの記憶ユニット・オペランド選択
機構と、２つの命令デコーディング機構および共通の分
配器ユニットにより制御された、２つの結果の行き先パ
ス制御機構と、２つのプログラマブル実行ユニットとを
備えたことを特徴とする請求項３に記載のコンピュータ
・システム装置において、前記対角線セルの、ＰＥが接
続された通信ＡＬＵツリーに対して結果を与え、ならび
に命令およびデータを受け取ることを特徴とする。

【００２４】請求項３に記載のコンピュータ・システム
装置において、前記汎用セルの２つの一緒に組み合わさ
れたＰＥを、記号的に上部ＰＥ（ＰＥ_i,j ）および下部
ＰＥ（ＰＥ_j,i として組織し、当該上部および下部のＰ
Ｅの各々より、接続されたＡＬＵツリーに対して結果を
供給し、および該ＡＬＵツリーから命令およびデータを
受信することとしてもよい。

【００２５】請求項１に記載のコンピュータ・システム
装置において、前記ＰＥの前記データ記憶ユニットが、
条件付き実行ビットを、データ記憶ユニット毎に１ビッ
トづつ有し、前記ビットはデータの使用およびデータが
上書きされ得るか否かを制御することとしてもよい。

【００２６】請求項１に記載のコンピュータ・システム
装置において、前記ルート・ツリー・プロセッサが、機
能実行モードにおいて、通信ＡＬＵツリーから供給され
たデータに機能の実行を提供し、および通信モードにお
いて、命令／データを通信ＡＬＵツリーに与えることと
してもよい。

【００２７】請求項７に記載の発明は、請求項１に記載
のコンピュータ・システム装置において、２進通信ＡＬ
Ｕツリーがｌｏｇ₂ Ｎ個の２入力１出力の通信ＡＬＵス
テージを有することを特徴とする。

【００２８】請求項７に記載のコンピュータ・システム
装置において、前記通信ＡＬＵツリーにおける各ステー
ジは、２入力１出力のＡＬＵと、ＡＬＵの実行のために
用いられる方向と反対の方向に、値を通信する目的のた
めのＡＬＵバイパス路と、ＡＬＵ機能および通信のパス
の間の切り替え手段とを有する２入力１出力の通信ＡＬ
Ｕを備えてもよい。

【００２９】請求項１に記載のコンピュータ・システム
装置において、前記通信ＡＬＵツリーは、各々、通信Ａ
ＬＵツリーの出力と共に外部入力の値を処理する追加の
ＡＬＵステージに接続し、および前記追加のＡＬＵステ
ージは結果をルート・ツリー・プロセッサに与えること
としてもよい。

【００３０】請求項８に記載の発明は、請求項１に記載
のコンピュータ・システム装置において、前記ルート・
ツリー・プロセッサおよびそれらのホスト・コンピュー
タ・インタフェースは、通信ＡＬＵツリー制御手段と、
ＰＥ初期化手段と、ＰＥ命令発行手段と、アルゴリズム
・データ計算手段と、ＰＥデータ発行手段と、ＰＥを同
期して開始して実行モードにする手段と、ＰＥを同期し
て停止する手段とを備えたことを特徴とする。

【００３１】請求項８に記載のコンピュータ・システム
装置において、ＰＥ記憶ユニットに対応し、初期化手
順、結果記憶、およびトレース動作をサポートする複数
の記憶アレイを備えることとしてもよい。

【００３２】請求項９に記載の発明は、請求項１に記載
のコンピュータ・システム装置において、Ｎ² 個のＰ
Ｅ、Ｎ個の通信ＡＬＵツリー、およびＮアレイ構造のＮ
個のルート・ツリー・プロセッサを備えたことを特徴と
する。

【００３３】請求項１０に記載の発明は、請求項９に記
載のコンピュータ・システム装置において、各通信ＡＬ
Ｕツリーが、ツリーのリーフ・ノードにおけるＮ個のＰ
Ｅ、およびホスト・インタフェースに結果を提供するツ
リーのルートに接続する１つのルート・ツリー・プロセ
ッサを接続し、ならびに前記通信ＡＬＵツリー、ＰＥ、
およびＮアレイ構造を構成するルート・ツリー・プロセ
ッサは、各ＰＥに対してデータの値を入力する入力手段
と、タグの付いた命令およびデータを、ルート・ツリー
処理ユニットからＰＥに通信する手段と、各ＰＥにおけ
る命令およびデータの行き先を制御する手段と、各ＰＥ
において受信した命令を実行する手段と、自動モードに
おいて、次の演算において用いられるべくデータが受信
されたときに、あらかじめ受信されていた命令を実行す
る手段と、オペランドを選択し、および行き先のパスを
制御して、結果が各ＰＥにローカル的に留まり、または
付属の通信ＡＬＵツリーに送られることを可能とする手
段と、複数のＰＥから受信した値の、集中した機能を実
行する手段と、外部データ値を各ルート・ツリー・プロ
セッサに入力する手段と、新たな命令およびデータを生
成する手段とを備えたことを特徴とする。

【００３４】請求項１０に記載のコンピュータ・システ
ム装置において、各ＰＥにデータの値を入力する前記入
力手段は、ルート・ツリー・プロセッサの形態のホスト
・インタフェース制御機構と、各ＰＥにおける各データ
値記憶ユニットに対してアクセスするプログラマブル・
プロセッサ制御装置とを備えることとすることができ
る。

【００３５】請求項１０に記載のコンピュータ・システ
ム装置において、タグの付いた命令およびデータをルー
ト・ツリー・プロセッサからＰＥに通信する手段は、通
信モードにおいて動作する通信ＡＬＵツリーと、各ＰＥ
におけるタグ・マッチング・ユニットとを備え、前記タ
グはブロードキャスト・ビットおよびタグ・アドレス・
フィールドを有することとしてもよい。

【００３６】請求項１１に記載の発明は、請求項１０に
記載のコンピュータ・システム装置において、各ＰＥに
おける命令およびデータの行き先を制御する手段は、命
令に対しては、命令デコーディング機構、命令パス・ビ
ット、および汎用セルにおける分配器ロジックで構成
し、ならびに、命令デコーディング機構、汎用セルが特
定したレジスタを対角線セル・レジスにマッピングする
レジスタマッピングロジック、および対角線セルにおけ
る分配器ロジックで構成し、ならびに、データについて
は、対角線セルおよび汎用セルの双方におけるデータ・
デコーディング機構およびデータ・パス記憶ユニットで
構成したことを特徴とする。

【００３７】請求項１１に記載のコンピュータ・システ
ム装置において、ＹＩＮモードと呼ばれる汎用セルの動
作の１つのモードにおいては、データ・パス記憶ユニッ
トおよび命令パス・ビットを適切に構成して、上部通信
ＡＬＵツリーから受信した命令が上部ＰＥの命令記憶ユ
ニットに向けられ、および下部の通信ＡＬＵツリーから
受信した命令が下部ＰＥの命令記憶ユニットに向けら
れ、および上部通信ＡＬＵツリーから受信したデータが
上部ＰＥの特定された記憶ユニットに向けられ、および
下部通信ＡＬＵツリーから受信したデータが下部ＰＥの
特定された命令記憶ユニットに向けられるようにしても
よい。

【００３８】請求項１１に記載のコンピュータ・システ
ム装置において、ＹＯＵＴモードと呼ばれる汎用セルの
動作の第２のモードにおいては、データ・パス記憶ユニ
ットおよび命令パス・ビットを適切に構成して、上部通
信ＡＬＵツリーから受信した命令が下部ＰＥの命令記憶
ユニットに向けられ、および下部通信ＡＬＵツリーから
受信した命令が上部ＰＥの命令記憶ユニットに向けら
れ、および上部通信ＡＬＵツリーから受信したデータが
下部ＰＥの特定された記憶ユニットに向けられ、および
下部通信ＡＬＵツリーから受信したデータが上部ＰＥの
特定された命令記憶ユニットに向けられるようにしても
よい。

【００３９】請求項１０に記載のコンピュータ・システ
ム装置において、各ＰＥにおいて受信された命令を実行
するための手段は、ＮＯＰ、ＰＡＴＨ、算術演算、論理
演算、シフト、比較、および自動操作モードの仕様、ソ
ース・オペランド、結果の行き先、および即値データの
仕様を有するデータ記憶移動命令に応答するプログラマ
ブル実行ユニットを介して行なわれることとしてもよ
い。

【００４０】請求項１０に記載のコンピュータ・システ
ム装置において、自動モードにおいて、データが次の動
作で使用されるために受信されたときに、前もって受信
した命令を実行する手段が、自動モードを設定する能力
を有する受信した命令により設定される自動モードフラ
グと、同期機構が通信ＡＬＵの使用と競合がないことを
保証した後に送られる、有効データの受信により構成さ
れ、前記同期機構は、時間遅延制御または通信ＡＬＵツ
リーの使用もしくはＰＥ実行状態と通信するための、代
わりの信号発生手段を有することとしてもよい。

【００４１】請求項１０に記載のコンピュータ・システ
ム装置において、結果が各ＰＥにローカル的に留まり、
または接続された通信ＡＬＵツリーに送られることを可
能とする、オペランド選択および行き先パスの制御手段
が、命令デコーディング機構と、時間遅延制御同期機構
の下でまたは通信ＡＬＵツリーもしくは代わりの信号発
生手段による通信ＰＥ実行状態により与えられる動作完
了の表示のない分配器ロジックとで構成してもよい。

【００４２】請求項１０に記載のコンピュータ・システ
ム装置において、複数のＰＥから受信した値の集中した
機能の実行手段は、機能実行モードにおいて動作する接
続された通信ＡＬＵツリーによることとしてもよい。

【００４３】請求項１０に記載のコンピュータ・システ
ム装置において、外部入力値を各ルート・ツリー・プロ
セッサに入力する手段は、通信ＡＬＵツリーの出力に配
置された最終総和ステージに外部から入力を供給するこ
とで構成としてもよい。

【００４４】請求項１０に記載のコンピュータ・システ
ム装置において、新たな命令およびデータを生成する手
段は、ルート・ツリー・プロセッサ、および接続された
ホスト・コンピュータおよびＮ個の通信ＡＬＵツリーに
対してインタフェースするプログラマブル制御装置で構
成してもよい。

【００４５】ここで、タイムアウト状態マシン制御機構
を命令およびデータの発行機構に用いて構造のハザード
を回避するようにしてもよい。

【００４６】請求項１０に記載のコンピュータ・システ
ム装置において、データがビット・シリアルのフォーマ
ットであり、そのフォーマットは、データに対して、対
角線セルまたは汎用セルに受信されたビットの順であ
り、まずブロードキャスト・ビット、次がタグ・フィー
ルド、次がエラー取扱ビットであり、さらにインアクテ
ィブ状態にセットされ、データを示す命令ビット、スペ
ア・ビット、データ・フィールドが続き、およびエラー
取扱ビットで終ることとしてもよい。

【００４７】請求項１０に記載のコンピュータ・システ
ム装置において、命令がビット・シリアルのフォーマッ
トであり、そのフォーマットは、命令に対して、対角線
セルまたは汎用セルに受信されたビットの順であり、ま
ずブロードキャスト・ビット、次がタグ・フィールド、
次がエラー取扱ビットであり、さらにアクティブ状態に
セットされ、命令を示す命令ビット、自動ビット、命令
のタイプを示す命令フィールド、第１のオペランドを示
すソース１フィールド、第２のオペランドを示すソース
２フィールド、結果の行き先を示す行き先フィールド、
即値データ・フィールドが続き、およびエラー取扱ビッ
トで終ることとしてもよい。

【００４８】請求項１２に記載の発明は、請求項１０に
記載のコンピュータ・システム装置において、１つはＷ
マトリクスと呼ばれ、他方はＹマトリクスと呼ばれる、
２つのＮｘＮマトリクスのマトリクス乗算を順次に実行
する手段を備え、前記乗算によりＺマトリクスと呼ばれ
る第３のＮｘＮマトリクスを生成し、およびレジスタを
記憶ユニットに用い、ＭＰＹが乗算命令を示す時に処理
を可能とし、ＡＬＵＴＲＥＥの行き先が結果を接続され
た通信ＡＬＵツリーに送信し、前記ルート・ツリー・プ
ロセッサはホスト・インタフェース機能を有し、前記処
理は、ａ）Ｗマトリクスをロードする（ルート・ツリー・プロ
セッサあてにＮ個のＷ値を仮定する）ステップと、ｂ）通信ＡＬＵツリーを通してＹ値と通信することによ
り第１のＹ行をロードするステップと、ｃ）ＭＰＹＡＲ１＊Ｒ２→ＡＬＵＴＲＥＥ（ここ
で、ＡＬＵツリーは総和処理のために初期化されてい
る。）のステップと、ｄ）結果としてのＺマトリクスの第１の行を計算する、
すなわち総和ツリーが続くＹおよびＷレジスタの乗算を
行なうステップと、ｅ）Ｎ個のＺの値をルート・ツリー・プロセッサに格納
するステップと、ｆ）第２のＹ行と通信ＡＬＵツリーを通じて通信するス
テップと、ｇ）新たなＹ値が受信されたときに、結果としてのＺマ
トリクスの第２の行を計算する、すなわち総和ツリーが続くＹおよびＷレジス
タの乗算を行なうステップと、ｈ）ルート・ツリー・プロセッサにＮ個のＺ値を格納す
るステップと、ｉ）行の計算を次のｊ）の実行まで継続するステップ
と、ｊ）Ｎ番目のＹ行と通信するステップと、ｋ）新たなＹ値が受信されたときに、結果としてのＺマ
トリクスのＮ番目の行を計算する、すなわち総和ツリー
が続くＹおよびＷレジスタの乗算を行なうステップと、ｌ）ルート・ツリー・プロセッサに結果としてのＺマト
リクスの最後の行を格納するステップとを有することを
特徴とする。

【００４９】請求項１０に記載のコンピュータ・システ
ム装置において、１つはＷマトリクスと呼ばれ、他方は
Ｙマトリクスと呼ばれる、２つのＮｘＮマトリクスのマ
トリクス加算を順次に実行する手段を備え、前記加算
は、Ｚマトリクスと呼ばれ、ＰＥの一時記憶ユニットに
内部的に格納される第３のＮｘＮマトリクスを生成し、
次にＹおよびＷマトリクスが初期化され、または以前の
計算による適切な値となり、およびＮ² 個の一意的なの
ＹおよびＷ記憶ユニットが構造の中に存在すると仮定し
て、そのシステムは、ＹおよびＷ記憶ユニット上で、ロ
ーカルな加算を実行するが可能となり、該加算は、ＰＥ
の一時的記憶ユニットに対して送られた結果と共にＰＥ
内で行なわれ、前記加算の完了の後に、元のＹおよびＷ
マトリクスはその構造の中にそのまま残り、およびその
一時記憶ユニットは、読み出されることまたは次の演算
のために使用されることが可能な、加算結果のマトリク
スを有することとしてもよい。

【００５０】請求項１０に記載のコンピュータ・システ
ム装置において、１つはＷマトリクスと呼ばれ、他方は
Ｙマトリクスと呼ばれる、２つのＮｘＮマトリクス上の
マトリクスブール演算を順次に実行する手段を有し、前
記ブール演算は、ＰＥの内部の一時記憶ユニット中に格
納され、Ｚマトリクスと呼ばれる、第３のＮｘＮマトリ
クスを生成し、次にＹおよびＷマトリクスの双方が初期
化され、または以前の計算による適切な値となり、およ
びＮ² 個の一意的なＹおよびＷ記憶ユニットが構造の中
に存在すると仮定して、そのシステムは、ＹおよびＷ記
憶ユニット上で、ローカルなブール演算を実行すること
が可能となり、該ブール演算は、ＰＥの一時的記憶ユニ
ットに対して送られた結果と共にＰＥ内で行なわれ、前
記ブール演算の完了の後に、元のＹおよびＷマトリクス
はその構造の中にそのまま残り、およびその一時記憶ユ
ニットは、読み出されることまたは次の演算のために使
用されることが可能な、ブール演算の結果のマトリクス
を有することとしてもよい。

【００５１】

【作用】本発明による新たに開発されたコンピュータ・
システムは、超並列（ＭａｓｓｉｖｅｌｙＰａｒａｌ
ｌｅｌ）（ＭＰ）対角線折畳みツリー・アレイ・プロセ
ッサ（Ｄｉａｇｏｎａｌ−ＦｏｌｄＴｒｅｅＡｒｒ
ａｙＰｒｏｃｅｓｓｏｒ）と表現でき、単一命令複数
データ流（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭ
ｕｌｔｉｐｌｅＤａｔａ）（ＳＩＭＤ）方式で動作
し、汎用のアプリケーション能力をもつ。私達が好まし
いと考えるＭＰシステムは、Ｎ² 個のプロセッサ・エレ
メント（ＰｒｏｃｅｓｓｏｒＥｌｅｍｅｎｔ）（Ｐ
Ｅ）構造を有し、ここで、各ＰＥは命令およびデータ記
憶ユニットを有し、命令およびデータを受取り、ならび
に命令を実行する。Ｎ² ＰＥ構造は、Ｎ個の通信ＡＬＵ
ツリー、Ｎ個のツリー・ルート・プロセッサ（Ｔｒｅｅ
ＲｏｏｔＰｒｏｃｅｓｓｏｒ）（ＴＲＰ）、ならび
に通信ＡＬＵツリーにより、ＰＥに対して命令およびデ
ータを返信する機構を有する必要がある。

【００５２】以下に述べる好適な装置は、ＮｘＮマトリ
クスの形に配置されたＮ² 個のＰＥを有する。ここで、

【００５３】

【外３】

【００５４】対角線に沿って折畳みされ、および対角線
ＰＥおよび汎用ＰＥにより構成される。

【００５５】本発明の好適なシステムにおいては、対角
線ＰＥ（Ｄｉａｇｏｎａｌ−ＰＥ）は単一のプロセッシ
ング・エレメント（処理要素）ＰＥ_ijを有し、ならびに
汎用ＰＥ（Ｇｅｎｅｒａｌ−ＰＥ）は、２つの対称的な
プロセッシング・エレメントＰＥ_ijおよびＰＥ_jiを有す
る。これらは、共に結合されて、折畳み前のＮｘＮＰＥ
アレイの同一のＰＥエレメントに関連付けられる。

【００５６】本発明のＰＥおよび新たなＰＥアーキテク
チャの構成を、マトリクス乗算の実施例、ならびにニュ
ーラル・ネットワークのエミュレーション、マトリクス
加算、およびブール代数演算に関する検討によって、本
発明による改良を実施するために我々が知る最良の方法
で記述する。

【００５７】以下では、これらおよび他の改良について
詳しく説明する。本発明を、その利点および特徴と共に
より良く理解するために、以下の説明では、この分野で
発明者が行なってきた他の開発に関する他の共に係属中
の特許出願を参照することもある。しかし、特にここに
記載の改良、利点および特徴については、記載中で参照
を行なう。

【００５８】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。

【００５９】マトリクス処理の背景本発明の好適なＭＰ組織に特に適した積の和計算を利用
する、ｉ列ｊ行のベクトルマトリクス乗算の演算を示
す。入力マトリクスｚ_i は、次式のように定義される。

【００６０】ｚ_i ＝Ｙ₁ Ｗ_i1＋Ｙ₂ Ｗ_i2＋．．．＋Ｙ_N Ｗ_iN これは、マトリクス乗算の一般的な場合のサブセットで
ある。図２に示すように、ｉ列ｊ行を有し、

【００６１】

【外４】

【００６２】Ｙ，Ｗおよび（Ｙ＊Ｗ）よりマトリクスＺ
が得られる。以下に仮定する能力を有する、ＭＰ対角線
折畳みツリー・アレイ・プロセッサが可能であると仮定
する。

【００６３】＊Ｎ個のルート・ツリー・プロセッサ：
各々が、ＮＹ値のＹ値メモリ容量およびＮ個の結果値
に対する追加メモリ容量を有する。

【００６４】＊内部ＰＥレジスタ中に格納されるべき
Ｗ値をもつＮ² 個のＰＥ＊ルート・ツリー・プロセッサ複合システムは同報通
信（ブロードキャスト）モードで全ての命令を発行す
る。

【００６５】記載するアルゴリズム・プロシージャは、
多くの可能性の１つのみを示し、およびアプリケーショ
ンとして「最適」なプロシージャであるとは限らない。
それは、本発明による対角線折畳みツリー・アレイ・プ
ロセッサの能力を説明することを意味する。基本的プロ
シージャは、Ｎ個のルート・ツリー・プロセッサにＹマ
トリクスの行および乗算命令を、自動モード（Ａｕｔｏ
ｍｏｄｅ）を特定してＰＥに送信させ、これらＰＥが
乗算を実行しおよび結果を求和のためにＣＡＴに送信
し、結果として得られるマトリクスの行をルート・ツリ
ー・プロセッサに記憶のために返信する。次に、ルート
・ツリー・プロセッサは、Ｙマトリクスの新たな行を読
みだし、それをＰＥに返信し、結果として得られるすべ
ての行が計算されるまで、ＣＡＴの出力において結果と
して得られるマトリクスの行を生成しおよびメモリにそ
の行を格納し続ける。Ｗ値マトリクスは、いったんＰＥ
において初期化されると、マトリクス乗算動作中はずっ
とＰＥに対して固定され、内部状態となり続ける。

【００６６】３．プロセッサエレメント構造Ｔ−ＳＮＡＰ−はＰＥ更新修正機構をなんらもっていな
かったので、Ｔ−ＳＮＡＰ−において記載されているよ
うなＴＳＮＡＰ構造は、ニューラル・ネットワーク・モ
デルによる要求に従って、ホスト・プロセッサがＰＥに
格納されたデータに対して更新された動作を行うことを
要求した。加えて、Ｔ−ＳＮＡＰは、本発明のアーキテ
クチャにより提供されるルート・ツリー・プロセッサ機
能の能力を備えていない。「学習マシン」に記載されて
いるような学習マシンは、バックプロパゲーション学習
（Ｂａｃｋ−Ｐｒｏｐａｇａｔｉｏｎｌｅａｒｎｉｎ
ｇ）に対する例により立証されたように、ニューラル・
ネットワーク・エミュレーションのために特別にあつら
えられたマシンにより可能になった能力、および高い接
続性のホープフィールド・ニューラル・ネットワーク
（Ｈｏｐｆｉｅｌｄｎｅｕｒａｌｎｅｔｗｏｒｋ）を
特に指向する。複数のＰＥに並列に記憶されたデータを
「汎用的」な更新ルールに適応させ、および「汎用的
な」ルート・ツリー・プロセッサ能力を提供するため
に、Ｔ−ＳＮＡＰおよび学習マシンの双方に主な修正を
施すことが必要である。これらの修正によって、ニュー
ラル・ネットワークのパラダイムに通常関連する能力を
越えた能力を提供する。Ｔ−ＳＮＡＰ中で提供される固
定した乗算機能および学習マシンの限定された命令セッ
ト・アーキテクチャに代えて、より一般的なプロセッサ
・アーキテクチャが拡張された命令セット・アーキテク
チャを備えて実現され、および拡張されたデータ記憶が
可能となる。ワード並列およびビット・シリアル動作モ
ードが、問題の特定の要求に応じて可能であり、どちら
も排除されない。

【００６７】内部的には、Ｔ−ＳＮＡＰ構造は２つのタ
イプの“セル”構造、すなわち対角線セル（Ｄｉａｇｏ
ｎａｌ−Ｃｅｌｌ）および汎用セル（Ｇｅｎｅｒａｌ−
Ｃｅｌｌ）を利用して、ニューラルの積和機能を直接エ
ミュレートし、そして、例えばルーメルハート８６（Ｒ
ｕｍｅｌｈａｒｔ８６）に見られる学習アルゴリズムに
より要求されるように、ローカルに格納されたデータの
処理を指向しなかった。プログラマブル性のない基本的
な乗算エレメントの構造を、図３の（Ａ）および（Ｂ）
に繰り返す。命令セット・アーキテクチャにより提供さ
れる追加のローカル・データ操作能力を有する新たな
“セル”処理構造を、図４および図５に示す。以下の記
載中で用いる用語「エレメント（要素）（ｅｌｅｍｅｎ
ｔ）」は、ＴＳＮＡＰニューラル・エミュレーション能
力に要求される最小限に構成された機能ユニットであ
る。すなわち、重みレジスタ、Ｙ値レジスタ、およびＷ
_ijＹ_jという記号で示される乗算器である。“Ｙ”およ
びＷ_ijＹ_j のレジスタ用語を、レジスタの使用をニュー
ラル・エミュレーションの例に限ることなく、一般的な
プロセッサの説明中で常に用いる。図３の（Ａ）の第１
の「セル」は、対角線のエレメントＷ_ijＹ_i に関連付け
られており、および図３の（Ｂ）の第２の「セル」、汎
用セル（Ｇｅｎｅｒａｌ−Ｃｅｌｌ）は、エレメントＷ
_ijＹ_j の残りに関連付けられており、および上部および
下部のマトリクスに示す、汎用セルの中に置かれた２つ
のエレメントを含む。一般に、プロセッサ・エレメント
（ＰＥ）と称されるプロセッサ・セルの新たな形態は、
対角線ＰＥ（Ｄｉａｇｏｎａｌ−ＰＥ）および汎用ＰＥ
（Ｇｅｎｅｒａｌ−ＰＥ）を有する。基本的な処理構造
（図３の（Ａ）および（Ｂ）に対する変更）は、図４お
よび図５に示され、追加として、タグ比較機能、オプシ
ョンの命令バッファ、命令レジスタ（ＩＮＳＴＲ）、拡
張レジスタ・ファイル、各データ・レジスタにおける条
件付き実行ビット（ＣｏｎｄｉｔｉｏｎａｌＥｘｅｃ
ｕｔｉｏｎＢｉｔｓ）（ＣＥＢ）、データ・パス・レ
ジスタ、命令パス・ビット、セレクタおよび分配器制御
構造、および乗算に加えて、アプリケーションにより指
定され、実行ユニット（ＥＸｅｃｕｔｉｏｎＵｎｉｔ
ｉ）（ＥＸＵ）ブロックにより表わされる除算、平方根
などの拡張した機能を有する。このような変更は種々の
理由から必要とされる。まず、プロセッシング・エレメ
ント（処理要素）が命令およびデータの双方を同一のソ
ース・パス、すなわちセルに取りつけられた通信ＡＬＵ
ツリー（ＣｏｍｍｕｎｉｃａｔｉｎｇＡＬＵＴｒｅ
ｅ）（ＣＡＴ）から受信するので、データから命令を区
別する方法が用いられなければならない。固定したフォ
ーマットが命令およびデータに用いられ、固定した単一
のビットフィールドが命令をデータから区別するために
用いられることが許容されていると仮定する。第２に、
フロント・エンド・デコーディングおよび分配機構に関
連して、プログラマブル・データ・パス・レジスタおよ
び命令パス・レジスタを利用することにより、受信した
命令またはデータの行き先が特定される。第３に、タグ
比較機能により、命令およびデータの行き先ポイントの
特定をさらに行うことができる。第４に、命令は複数の
機能を特定するかも知れないので、命令レジスタおよび
命令デコーディング、オペランド選択、機能選択、行き
先選択、および実行機構を設けることが必要である。第
５に、アルゴリズムの能力に柔軟性を与えるために、条
件付き実行ビット（ＣｏｎｄｉｔｉｏｎａｌＥｘｅｃ
ｕｔｉｏｎＢｉｔｓ）（ＣＥＢ）を有するレジスタ・
ファイルを、ＣＥＢを扱う能力と共に設ける。結果の行
き先がローカルＰＥレジスタである命令の実行は、行き
先レジスタのＣＥＢの状態（ｓｔａｔｅ）に基づき条件
付きである。ＣＥＢは、レジスタを変更できるか否かを
示す。いずれかのオプションの命令バッファから、また
は命令バッファなしに通信モードにある付属の通信ＡＬ
Ｕツリーから受信され、ＰＥ命令レジスタにおいてデコ
ードされる命令を通じて、ＰＥのプログラム性が得られ
る。各ＰＥは、命令レジスタにおける命令を受信すると
きに、その命令で特定される処理を実行する。命令のタ
イプには、データ／命令パス仕様、データ移動、算術
的、および論理的命令が含まれる。各ＰＥは、各プロセ
ッシング・エレメントに対して、ソースおよび行き先パ
スならびにＥＸＵ機能を特定する命令レジスタを有す
る。対角線ＰＥは１つの命令レジスタを有し、汎用ＰＥ
は２つの命令レジスタを有する。

【００６８】Ｔ−ＳＮＡＰセルの変更は、類似の能力を
要求する他のアプリケーションと同様に、ニューラル・
エミュレーションをサポートするために、元のセルによ
り提供された機能的な能力を保存しなくてはならない。
Ｔ−ＳＮＡＰ乗算器セルにより提供される、新たなプロ
セッサ・セル構造中において維持されなくてはならな
い、必須の、新規な、および汎用の機能的能力は、完全
に接続されたプロセッサ、例えばホップフィールド８２
（Ｈｏｐｆｉｅｌｄ８２）およびホップフィールド８４
（Ｈｏｐｆｉｅｌｄ８４）のような、完全に接続された
ネットワークに対して用いられるようなニューロン・プ
ロセッサのエミュレーションに関するものである。この
重要な機能を、元のＴ−ＳＮＡＰセルの図３の（Ａ）お
よび（Ｂ）を用いて簡単に再検討する。例えば、実行モ
ードにおけるニューラル・ネットワーク・モデルを用い
て、各処理セルにおいて乗算動作を行うものとすると、
対角線セルはその格納した重みを、その格納したＹの値
と乗算し、および乗算結果を取りつけられた加算ツリー
に供給する。対角線セルのための通信モードにおいて
は、Ｙの値を取りつけられた加算ツリーから受けとり、
およびＹ値レジスタに格納する。その構造の「汎用セル
（Ｇｅｎｅｒａｌ−Ｃｅｌｌ）」はまた、重みをかけた
Ｙの値を発生し、その積をそれらに取りつけられた加算
ツリーに供給する。これらの「汎用セル」のための通信
モードにおいては、底部の乗算器加算ツリーから受信し
たＹ_j の値を、頂部のＹ値レジスタに格納し、および同
様に、頂部の乗算器加算ツリーから受信したＹ_i の値を
底部のＹ値レジスタに格納する。このＹ値の格納の切り
替えは、完全な接続性を支援する必須の特性である。図
４および図５の、変更された処理セルに対しては、この
パスの切り替えは、プログラム可能であり、処理のため
のさらに特有のアーキテクチャ的特徴を可能とする。こ
れについては、この章のプロセッサ・エレメント命令セ
ットのセクションで記載する。元のＴ−ＳＮＡＰセルの
内部パス切り替え機能を保持するために、新たなプロセ
ッサ・セルは、データ・パス・レジスタは、ツリーから
のデータの受信に先だって特定される（ロードされる）
ことを必要とする。このデータ・パス・レジスタは、底
部のツリーから受信したＹ_j データの行き先を頂部のＹ
_j レジスタに定め、および頂部の加算ツリーから受信し
たＹ_i データの行き先を底部のＹ_i レジスタに定め、こ
れにより完全な接続性機能を維持する。

【００６９】図６の左に、各ステージのＡＬＵを文字Ａ
により表した、記号的な総和ツリーを示す。図６の右手
側に、使用される通信ＡＬＵツリー構造のより詳細な表
現を示す。パイプライン・ラッチは、より明瞭にするた
めに省いてある。特定のアプリケーションのためには、
ＡＬＵ機能は、ビット・シリアルの加算器のように単純
であってもよく、または命令セット・アーキテクチャを
必要とするより複雑なプログラマブル機能を提供しても
よい。機能の実行および通信動作を記述する目的のため
に、本テキストの中では総和動作を参照する。総和機能
を用いるのは、説明の簡易化のためであり、通信ＡＬＵ
ツリーが提供することのできる機能を限定することを意
味することを意図するのではない。加えて、ノードの動
作モードおよび機能を決定するツリー・ノードの制御機
構は、個別の制御線またはタグの付されたツリー・ノー
ド命令を用いることができる。加算のような単一のノー
ド機能および２つの動作モード、すなわち通信および機
能実行のためには、単一の制御線で実施することが実行
可能である。もし、ツリー・ノードにおいて、より拡張
した機能をサポートしようとする場合は、追加の制御機
構が必要とされるだけではなく、記憶要素がツリー・ノ
ードにおいて必要とされる。加えて、もし複数の機能が
ツリー・ノードにおいて提供される場合は、同期してツ
リー動作を制御する方法が用いられなければならない。
機能を実行するタイミングを変化させることが各ツリー
・ノードにおいて許される場合は、ツリー・ステージの
間に非同期インターフェース方法が提供されなくてはな
らない。同期制御を保証する実施を単純にするために、
各ツリー・ステージに対して同一の動作を特定するとい
う制限を行うものとする。図６に、３つのＡＬＵ要素
（エレメント）を２つのステージにパイプライン化した
ツリー配置として示す。ＡＬＵ要素は出力側にスイッチ
１、ＳＷ１ブロックを有し、およびＡＬＵをバイパスす
る２つのスイッチ２、ＳＷ２ブロックを有する。通信Ａ
ＬＵツリーは２つのモード、すなわち機能実行モードお
よびバイパス・モードとも呼ばれる通信モードのうちの
１つに置くことができる。ツリーの全てのノードが同一
の動作モードを提供することを保証するように、共通の
制御信号が各ＡＬＵ要素において用いられる。ツリー制
御信号、これに付随するタグ信号または共通の分配され
た信号により特定される機能の１つは、ＡＬＵバイパス
である。ＳＷ１およびＳＷ２の両方のスイッチがオン／
オフ制御を有する。このオン／オフ制御は、“オフ”の
状態のときに、スイッチを開放、すなわち高インピーダ
ンス状態に保ち、“オン”の状態のときに、低いインピ
ーダンスの通路を通じてＡＬＵ（ノード機能）をバイパ
スする。ＳＷ１がイネーブルされると、ＳＷ２はディス
エーブルされ、逆もまた同じである。このようにしてＡ
ＬＵツリーは総和機能を提供することができる。例えば
一方向において、ＳＷ１がオンでＳＷ２がオフであり、
一方で主にＡＬＵバイパス・モードにおいては通信パス
として動作しており、ＳＷ１はオフであり、ＳＷ２はオ
ンである。２入力１出力の機能要素、例えば２入力１出
力（２−１）の加算器を用いるＡＬＵツリーはｌｏｇ₂
Ｎ個のステージを必要とする。あるいはまた、ＡＬＵ機
能および通信モードを、３−１，４−１，…，Ｎ−１加
算器およびそれらのバイパススイッチのような、３−
１，４−１，…，Ｎ−１機能要素とともに、全て同一の
要素タイプまたはそれらの組み合わせを用いて実施する
ことで、特定の機能を作ることができる。注意すべき点
は、図６の通信ＡＬＵはその論理機能を表し、従って、
例えば技術によっては、ＳＷ１の機能は各ＡＬＵ要素の
最終内部ステージにおいて用いられるゲート・デバイス
に組み込まれてもよく、それによって追加の遅延をＡＬ
Ｕ機能に加えないようにできる。あるいはまた、別個の
通信ツリー・パスを設けて、ＡＬＵ機能が進展中に通信
が行われるのを可能としてもよい。

【００７０】図７ないし図９に、１６個のＰＥを４つの
ＣＡＴで接続し、および４個のルート・ツリー・プロセ
ッサをホスト・インタフェースで接続して、超並列対角
線折畳みツリー・アレイ・プロセッサ（Ｍａｓｓｉｖｅ
ｌｙＰａｒａｌｌｅｌＤｉａｇｏｎａｌ−Ｆｏｌｄ
ＴｒｅｅＡｒｒａｙＰｒｏｃｅｓｓｏｒ）におい
て用いられるマシン組織の完全な構成を与えるルート・
ツリー・プロセッサの例を示す。ＣＡＴはＡＬＵ実行モ
ードにおいて総和機能を提供すると仮定する。第３のル
ート・ツリー・プロセッサＲＴＰ₃ のための“Ｗ＊Ｙ”
レジスタ積の合計の計算に携わる要素の例を、次式に記
載し、および図７ないし図９中にアンダーラインを付し
て示す。

【００７１】ＲＴＰ₃ ＝Ｆ（Ｗ_3,1 Ｙ₁ ＋Ｗ_3,2 Ｙ₂ ＋
Ｗ_3,3 Ｙ₃ ＋Ｗ_3,4 Ｙ₄ ）ホスト・インタフェースはＰＥのアレイのための中央制
御ポイントを表わし、たとえば、初期パラメータＷ，
Ｙ，など、計算された値、およびトレースされた値を有
する可能性のあるルート・ツリー・プロセッサの内部記
憶に、ホストがアクセスすることを可能とする。各通信
／機能実行ツリーおよびそれらに付属するＮ個のＰＥに
対してルート・ツリー・プロセッサがあると仮定する。
各ルート・ツリー・プロセッサは、ツリー動作の通信モ
ードを介して、命令およびデータをツリーに付属するＮ
個のＰＥに対して発行する。ルート・ツリー・プロセッ
サおよびホスト・インタフェースが有する追加の機能
は、以下の通りである。

【００７２】１．全てのプロセッサの初期化２．システムの開始３．システムの停止４．ＡＬＵツリー制御の通信５．ＰＥ命令およびデータの発行動作にあたっては、Ｎ² 個のＰＥ構造は、あるレジスタ
の初期化を必要とするかもしれない。ＰＥのタグが付け
られた値を個々のプロセッサに一意的に送信することに
より、特定のレジスタを初期化することができるにもか
かわらず、Ｎ²個の動作が必要とされる。他の代わりの
構造は、ＰＥレジスタをＬＳＳＤスキャニングのための
直列ディージー・チェインの形態に接続することであろ
う。これについてはアイチェルバーガー７７（Ｅｉｃｈ
ｅｌｂｅｒｇｅｒ７７）を参照。ＬＳＳＤスキャニング
は、検査およびレジスタの初期化をサポートする。各ル
ート・ツリー・プロセッサおよびその付属のＮ個のＰＥ
は、１つまたは実施する技術に応じた複数の走査ストリ
ングを有する。例えば、各ルート・ツリー・プロセッサ
に対して“Ｗ”レジスタのみを有する個別の走査パスが
与えられ、その結果、初期化の目的のために用いられ得
るＮ個の“Ｗ”レジスタの走査パスができる。他の初期
化機構も明らかに可能であり、適切な方法が実施化設計
プロセスにおいて選択され得るものと考えられる。ルー
ト・ツリー・プロセッサのＮ個の付属ＰＥに共通のパラ
メータ値を、通信ＡＬＵツリーを介してロードすること
ができる。

【００７３】４．プロセッサ・エレメント命令セット本セクションでは、先に論じた能力を提供する１つの例
の命令セットを再検討する。まず第一に、命令およびデ
ータのためのフォーマットの例の提示からはじめ、１つ
の例の命令セットの記述に続く。

【００７４】処理エレメントのためのアーキテクチャを
決定するために、１セットの決定を行なうことが必要で
ある。１つの主な決定セットは、命令およびデータのフ
ォーマットに関連し（選択可能なフォーマットの範囲お
よびそのコストと性能に及ぼす影響の概観のためには、
フリン８５（Ｆｌｙｎｎ８５）を参照）、および他の主
な決定セットは、そのアーキテクチャにより実行される
機能に関連する。各ルート・ツリー・プロセッサは命令
およびデータをＮ個のプロセッサ・エレメントに対して
発行するので、高度なプログラミング柔軟性のための望
ましい能力は、命令およびデータのフォーマットを、プ
ロセッサ・グループ識別フィールドを含むように拡張す
ることにある。その結果、その命令フォーマットはプロ
セッサまたはプロセッサ・グループを識別し、命令をデ
ータから分離し、オペランドを識別し、および行き先を
求める要求を有する。他のフォーマットも明らかに可能
であるが、ここでは図１０に示した例のフォーマットを
選択する。特定のプロセッサ・エレメントおよびＰＥの
グループの双方を、全ての通信に加えられたタグ・ビッ
トおよび同報通信（ブロードキャスト）“Ｂ”ビットの
付加により識別でき、そしてタグおよび“Ｂ”ビットは
各ＰＥにおいて機能を比較する。１つの“Ｂ”ビットが
第１のビットとしてフィールドに加えられ、Ｂ＝１に対
するブロードキャスト命令／データ、およびＢ＝０に対
するタグの付いた命令／データを示す。ブロードキャス
ト・メッセージ／データは、ＴＡＧとは独立に、特定の
Ｙ_i ルート・ツリー・プロセッサに結合されたＮ個のプ
ロセッサ・エレメントの全てへ行く。もし１つのルート
・ツリー・プロセッサに属する全てのプロセッサ・エレ
メントに、特定の識別子が伴われている場合は、ＴＡＧ
フィールドは少なくともｌｏｇ₂ Ｎビットの長さをもつ
必要がある。あるいはまた、プロセッサ・エレメントの
グループが同一のタグの値を用い、これによりＰＥのグ
ループを一意的に識別することができる。受信したタグ
は各ＰＥ中に格納されたタグとビット毎に比較される。
最後のタグ・ビットの比較が完了した後に、それに続く
命令／データ（ＩＮＳＴＲ／ＤＡＴＡ）がその特定のＰ
Ｅにより受信されるべきものか否かが分かる。タグが一
致した結果、命令ＩＮＳＴＲまたはデータＤＡＴＡが受
信され、一方で不一致状態によって命令ＩＮＳＴＲまた
はデータＤＡＴＡの受信を防止する。図１１に示すよう
に、エラーを取り扱うという理由のために、Ｐで示され
るパリティー・ビット、すなわちエラー訂正ビットをも
タグ・フィールドに含めることができる。

【００７５】通信された命令またはデータもまた、その
ビット・ストリングがデータかまたは命令かを示す単一
のビット（ＩＮＳＴＲ）、ならびに命令に対しては、自
動実行モード（ＡＵＴＯ）、命令オペコード（ＩＮＳＴ
Ｒ）、オペランド・セレクション（ＳＯＵＲＣＥ１およ
びＳＯＵＲＣＥ２）、および結果の行き先（ＤＥＳＴＩ
ＮＡＴＩＯＮ）を特定する追加のフィールドを有する。
エラー訂正／検知ビット（ＥＣＣ）は、エラー取り扱い
の理由から、命令およびデータの双方に含まれ得る。命
令およびデータのビット長は同一であると仮定する。図
１２ないし図１４に現在の命令セット機能を列挙する。

【００７６】命令セットは、算術演算、例えば、加算、
減算、乗算、除算、平方根など、論理演算、例えば、Ａ
ＮＤ、ＯＲ、ＥＸ−ＯＲ、反転など、比較、シフト、お
よびデータ記憶移動動作を含んでもよい。命令セット
は、主として、アプリケーションに特定の目的により決
定される。

【００７７】自動実行モードを表すＡＵＴＯビットを一
意的に加えて、比較的に標準的な命令フォーマットが用
いられる。自動実行モードは、ＰＥの実行モードを命令
実行のみのモードからデータに依存する実行モードに切
り替える能力を表す。制御フロー実行モードからデータ
・フロー実行モードへの切り替えの制御は、ＡＵＴＯビ
ットの使用によりプログラマブルであって、データ・フ
ロー・モードおよび制御フロー命令実行モードへ戻るこ
とを許容する規則を有する。ＡＵＴＯビットをアクティ
ブにする命令は、まず通常の命令制御フロー実行シーケ
ンスにより実行され、次に有効なデータが処理ユニット
において受信される度毎に実行される。データ・フロー
の実行は、新たな命令が受信されるまで続き、それ以前
の“ＡＵＴＯ”命令の実行を中止させ、新たに受信した
命令の実行を開始させる。それもまた、他のＡＵＴＯ命
令であってよい。

【００７８】処理のためのＡＵＴＯモードの重要性を示
すために、ホッフィールド・ニューラル・ネットワーク
を用いた簡単な例を示す。本論では、図１２ないし図１
４の命令セット・アーキテクチャの例で示したような命
令ニーモニックを用いる。ネットワーク・ニューロン
の、接続ニューロンの出力の値に接続重みを乗じた値の
総和の直接エミュレーションのために、ホップフィール
ド・ニューラル・ネットワーク・モデル（ホップフィー
ルド８４（Ｈｏｐｆｉｅｌｄ８４）を参照）を例として
用いると仮定する。各ネットワークの更新サイクルは、
重みを乗じたＹ値を乗算演算、乗算結果の合計、非直線
性シグモイド（シー字型）ニューロン出力のＹ値の生
成、および生成されたＹ値をプロセッシング・エレメン
トに対して通信することを含む。ネットワークの更新
は、ネットワークが最小に達するまで続く。説明を単純
化するために、ネットワークの集中性（ｃｏｎｖｅｒｇ
ｅｎｃｅ）は、全てのサイクル毎にテストされるのでは
なく、いくつかの複数サイクルの後にのみ行なわれるも
のと仮定する。プロセッサ・エレメントを用いたネット
ワークのエミュレーションのために、自動モードが特定
され、ここで、次のネットワークサイクルを初期化する
ために、各ネットワーク実行サイクルの後にＰＥに対す
る乗算命令を繰返し送信することを要求する代わりに、
自動モードは、新たに計算されたＹの値を受信した後
に、次の更新サイクルを自動的に開始する。この自動モ
ードは、ホップフィールド・ネットワークの例において
乗算（ＭＰＹ）を用いたように、所望の命令中のＡＵＴ
Ｏビットを“１”にセットすることにより開始され、こ
れによりＰＥ中の自動モードフラグをセットする。この
最初の動作作は、ＡＵＴＯビットが“１”にセットされ
た命令の受取りにより開始され、およびその命令は、Ｎ
ＯＰ命令の受取りのように、自動モードを終了する新た
な命令が受信されるまで続く新たなデータの受取りによ
り繰返し実行される。大文字Ａが、命令ニーモニックに
加えられて、例えばＭＰＹＡのように、自動ビットを
“１”にセットすることを示す。

【００７９】図１２ないし図１４に特定されたソースお
よび行き先のアドレスは、命令を受信した命令レジスタ
に関係する。この相対アドレスを図５に示す。ここで上
部の命令レジスタＩＮＳＴＲＴＲＥＧの相対アドレス
を、レジスタ・ブロックの右に配置された縦欄式に示
す。一方、下部の命令レジスタＩＮＳＴＲＢＲＥＧの
相対アドレスを、レジスタ・ブロックの左側に配置され
た縦欄式に示す。“ｋ”一時的すなわちワーキング・レ
ジスタに対しては、例えば、下部の命令レジスタＲ２は
上部の命令レジスタＲ（２＋ｋ＋１）と同一であること
に注意すべきである。ＡＬＵツリーから受信したビット
・ストリングは、もしそれが命令であれば、ＩＮＳＴＲ
ＰＡＴＨＢＩＴによる指示によって、各汎用セル中
の、２つのＩＮＳＴＲレジスタの１つに直列に渡され
る。ＡＬＵツリーから受信したデータ・ビット・ストリ
ングは、ＤＡＴＡＰＡＴＨレジスタによる区分けに従
って、汎用セルにおいて利用可能なＫ＋４個の他のレジ
スタの１つ、および対角線セルにおいて利用可能なｋ／
２＋２個の他のレジスタの１つに直列に渡される。対称
構造に対しては、対角線セルは、汎用セルと比較して半
分の個数の命令およびデータを有すると仮定する。対角
線セルにおいては、Ｒ（２＋ｋ／２＋１）からＲ（２＋
ｋ＋２）およびＣＲ２のソースまたは行き先アドレスは
次のようにマップとして示される。

【００８０】＊Ｒ（２＋ｋ／２＋１） → Ｒ（２＋ｋ／２）＊Ｒ（２＋ｋ／２＋２） → Ｒ（２＋ｋ／２−１）＊続く＊Ｒ（２＋ｋ／２＋ｋ／２＋２）＝Ｒ（２＋ｋ＋２） → Ｒ（２＋ｋ／２−ｋ／２−１）＝Ｒ１＊ＣＲ２ → ＣＲ１例えば、汎用セルの中のｋ＝２のワーキング・レジス
タ、および３ビットのソースまたは行き先のアドレスを
仮定し、従って汎用セルが３ビットすべてを用い、およ
び対角線セルが２つの最下位ビットのみを使用すると仮
定すると、適切なマッピングは以下のように与えられ
る。

【００８１】＊０００ → ＣＲ１＊００１ → Ｒ１＊０１０ → Ｒ２＊０１１ → Ｒ３＊１００ → ＣＲ２＊１０１ → Ｒ６＊１１０ → Ｒ５＊１１１ → Ｒ４ＰＡＴＨ命令は、他の命令から区別して扱われる。その
理由は、ＰＡＴＨ命令が命令パス（命令路）の選択機構
を制御するからである。ＰＡＴＨ命令は、分配器ロジッ
クに先だってデコードされ（図３〜図５）、およびＤＡ
ＴＡＰＡＴＨレジスタまたはＩＮＳＴＲＰＡＴＨ
ＢＩＴは、行き先フィールドに従ってロードされる。Ｐ
ＡＴＨ命令の行き先フィールドの１つの可能なフォーマ
ットは、ＣＲ１／２に対して第１のビット位置を用い、
パスの選択に対しては他のビットを用いることであり、
他のフォーマットが可能であることは明らかである。Ｐ
ＡＴＨ命令は、もし異なるパスが望まれる場合は、再発
行する必要がある。デフォルト（省略時）パスが初期化
の目的のためのアーキテクチャにより特定される。例え
ば、ＤＡＴＡＰＡＴＨレジスタがＲ５に初期化さ
れ、Ｙ値レジスタが完全に接続されたネットワークをサ
ポートし、ならびにＩＮＳＴＲＰＡＴＨＢＩＴが
“１”にセットされて命令切り替えパスをも示す。全て
のＰＥデータ・レジスタは、各データ・レジスタ中の条
件付き実行ビットにより、（Ｄ＝Ｌ＋１）ビットの長さ
を有する。命令およびデータのフォーマットを示す図１
０を参照のこと。もしＣＥＢが命令行き先レジスタにお
いて“ゼロ”にセットされると、その命令はＮＯＰ命令
として扱われる。すなわち、行き先レジスタの内容は変
更されず、加算ツリーに“ゼロ”が与えられる。もしＣ
ＥＢが“１”にセットされると、レジスタの内容を変更
することができる。例えば、このビットはＷレジスタ上
で値が存在するかまたは存在しないかを識別するために
用いられる。その理由は、ゼロの値はこれを達成するの
に常に充分ではないからである。加算ツリーには、もし
その加算ツリーが行き先ポイントでなければ、またはＮ
ＯＰ状態が起こっていれば、“ゼロ”が常に与えられ
る。ＣＥＢはチップスキャニング設備（機能）、パス命
令、またはツリーから受信されるデータの値により初期
化状態にセットされ得る。

【００８２】命令パスおよびデータ・パスをプログラマ
ブルとすることにより、ネットワーク・エミュレーショ
ンのための２つの動作モードが可能となる。ＹＩＮモー
ドと呼ばれる第１のモードでは、全てのプロセッサに対
して、下部の加算ツリーから受信した命令がＩＮＳＴＲ
ＢＲＥＧ（ＣＲ１）に送信され、および上部の加算ツ
リーから受信した命令がＩＮＳＴＲＴＲＥＧ（ＣＲ
１）に送信される。次にＹＩＮモードでは、各ＰＥは命
令フィールドにおいて特定されたように機能する。この
形態で、各ルート・ツリー・プロセッサが、そのルート
・ツリー・プロセッサに対する全てのＰＥ入力に対して
共通な、異なる入力ＰＥ処理機能を以て特定される。例
えば図７ないし図１０を参照すると、ルート・ツリー・
プロセッサ４に対する全ての入力を、（Ｗレジスタの値
＊Ｙの値）乗算演算で特定でき、他方、ルート・ツリー
・プロセッサ２に対する全ての入力を一時レジスタの値
＊Ｙの値の演算で特定できる。全ての通信ＡＬＵツリー
はお互いに独立なので、各ＰＥ入力機能は、異なるルー
ト・ツリー・プロセッサに対して、ＹＩＮモードにおい
て、異なる実行時間を有することができ、これは総和の
結果が異なる時間に生じることを意味し、正しく取り扱
わなけば、ルート・ツリー・プロセッサに対するインタ
フェースにおいて同期の問題を生じ得る。ＹＩＮモード
は、ルート・ツリー・プロセッサおよびそのＰＥのセッ
トを、処理のために非同期に選択するために用いられ
る。ＹＯＵＴモードと呼ばれる第２のモードにおいて
は、全てのルート・ツリー・プロセッサに対して、下部
の加算ツリーから受信した命令はＩＮＳＴＲＴＲＥＧ
（ＣＲ２）に送信され、および上部のツリーから受信し
た命令はＩＮＳＴＲＢＲＥＧ（ＣＲ２）に送られる。
その結果、ＹＯＵＴモードでは、全てのルート・ツリー
・プロセッサの値の出力は、それらの入力行き先ＰＥに
おいて同一の機能を有する。このようにして、各ルート
・ツリー・プロセッサはその入力ＰＥにおいて複数の機
能を有することができる。例えば、図７ないし図１０を
参照すると、全てのＹ４の行き先ＰＥは（Ｗレジスタの
値＊Ｙの値）乗算演算で特定され、他方、全てのＹ２の
行き先ＰＥは（一時レジスタの値＊Ｙの値）演算で特定
される。ＰＥ入力において特定された全ての機能は、機
能が異なったとしても、同一の長さの時間中に行なわれ
なくてはならない。一般的には、単一のモデルまたは問
題構造内では、競合（コンフリクト）が生じるので、Ｙ
ＩＮモードおよびＹＯＵＴモードをルート・ツリー・プ
ロセッサ間で交換することができない。単純なホップフ
ィールド・ネットワーク・エミュレーションの例に対し
ては、ニューロンとして機能しているルート・ツリー・
プロセッサは、全てのルート・ツリー・プロセッサでＹ
ＯＵＴモードを特定して、同一の命令を全てのＰＥに対
して発行する。

【００８３】個別のプロセッサ・エレメントに対してロ
ーカルな行き先を多くの命令により特定する。このロー
カル処理は、もし正しく扱われなければ同期の問題を引
き起こし得る。同期機構を構造全体に拡張する代わり
に、ローカル処理の同期の問題はそのルート・ツリー・
プロセッサに局在させることができる。例えば、もしそ
のＰＥからローカル処理の完了が通知されなければ、固
定のハードウエア機構をそのルート・ツリー・プロセッ
サに設けて、動作の安全性を保証することができる。問
題を、プロセッサ・エレメントの中の待ちマトリクス
（ｑｕｅｕｅ）の手段を介して「解決」することも望ま
しくない。これはＰＥの大きさを増加させ、単一のチッ
プ上に置かれ得るＰＥ個数を制限するからである。むし
ろ、その命令を発行するポイントは、全てのハザードを
解決しおよび避けるために用いられるべきである。同一
のＰＥに対するどのようなローカル処理命令も、その同
一のＰＥに対する次の命令から、特定のプロセッサ命令
実行時間だけ分離されるようにすることが必要である。
例えば、もし乗算が２Ｌクロックで実行される場合は、
次の命令を送るのに先立って、２Ｌのタイム・アウトが
保証されなくてはならない。これは、命令レジスタ・バ
ッファを必要としないために必要であり、これにより各
命令が、その命令された機能の動作中、ＰＥにおいて一
定に保たれることを可能とする。このようにして、各ル
ート・ツリー・プロセッサには同期機構がセットアップ
され、各ＰＥに対して最大の速度で命令を安全に発行す
ることができる。ローカルでない命令、すなわち、行き
先が加算ツリー（ＡＤＤＴＲＥＥ）である命令は、集
中したツリーの結果がそのルート・ツリー・プロセッサ
に到着したときに、動作の完了通知を発行する。ローカ
ルでない命令に対しては、ルート・ツリー・プロセッサ
は、そのツリーに接続されたＰＥに対して新たな命令を
送信する前に、結果が受信されるまで待機する。

【００８４】最終ノードでは、これまでに記述した命令
セットを用いたプログラムにおいて、行き先の競合が生
じないことを保証する必要がある。

【００８５】８．マトリクス処理の例詳細な手順を以下に記す。ＰＥ命令セットの例を参照の
こと（ＰＥ命令はＰＥ命令ニーモニックで示され、
（ｘ）で示される状態に配慮しないことに注意）。

【００８６】１．ＣＡＴＳが通信モードに置かれる。

【００８７】２．ＷマトリクスをＰＥレジスタに初期化
する。

【００８８】３．各ルート・ツリー・プロセッサ・メモ
リは以下のように初期化される。

【００８９】＊ルート・ツリー・プロセッサ１がＹ１
１，Ｙ１２，…，Ｙ１Ｎで初期化される。

【００９０】＊ルート・ツリー・プロセッサ２がＹ２
１，Ｙ２２，…，Ｙ１Ｎで初期化される。

【００９１】＊．＊．＊．＊ルート・ツリー・プロセッサＮがＹＮ１，ＹＮ２，…，ＹＮＮで初期化される。

【００９２】４．ルート・ツリー・プロセッサおよびＰ
ＥＰＡＴＨレジスタを初期化する。

【００９３】＊ＰＥＩＮＳＴＲＰＡＴＨビット
をＹＯＵＴモードを示すＣＲ２にセットする。

【００９４】＊ＰＥデータパスをＲ２にセットする。

【００９５】５．全てのルート・ツリー・プロセッサは
アクティブである。

【００９６】６．ルート・ツリー・プロセッサがＹの値
の第１の行をＰＥに送る。

【００９７】７．ルート・ツリー・プロセッサが、その
命令をＰＥに送った後に、ＰＥ−ＭＰＹＡＲ１＊Ｒ２
→ＡＤＤＴＲＥＥを送る。ルート・ツリー・プロセッ
サはＣＡＴを求和モード中に置く。

【００９８】８．ルート・ツリー・プロセッサはそのＣ
ＡＴルート（ｒｏｏｔ）から総和の結果を受け取る。

【００９９】９．ルート・ツリー・プロセッサはＰＥに
対してＹの値の第２の行を送る。

【０１００】10．ＰＥおよびＣＡＴが、その結果のマト
リクスの次の行を計算している間に、ルート・ツリー・
プロセッサはその結果のマトリクスの第１の行をこの例
では存在すると仮定した追加の記憶容量は格納すること
ができる。

【０１０１】11．ＡＵＴＯモードがＰＥ−ＭＰＹＡ命令
において特定されたので、ＰＥは第２の行のＹの値の受
取り時に、ルート・ツリー・プロセッサにおいて受け取
るべきＣＡＴの結果により、ＰＥ−ＭＰＹＲ１＊Ｒ２
→ＡＤＤＴＲＥＥを自動的に実行する。

【０１０２】12．ルート・ツリー・プロセッサは、Ｙの
値の第３の行を送り、およびその結果のマトリクスの第
２の行を格納する。そのプロセッサは次の１３まで動作
を続ける。

【０１０３】13．ルート・ツリー・プロセッサはその結
果のマトリクスの最後の行を格納する。

【０１０４】操作の完了時に、元のＹマトリクスおよび
Ｗマトリクスはそのままで、および結果のマトリクスは
ルート・ツリー・プロセッサの追加の記憶エリアにロー
ドされ、次にルート・ツリー・プロセッサまたはホスト
・システムによりさらに演算され得る。

【０１０５】マトリクスの追加およびブール演算もま
た、その構造によりサポートされ得る。図２で与えたの
と同一の形態のマトリクスを仮定すると、Ｎ² 個の一意
的なＹおよびＷレジスタがその構造中に存在するので、
ＹマトリクスおよびＷマトリクスの双方をＰＥアレイ中
にロードすることができる。ＹレジスタおよびＷレジス
タ上でのローカルな追加またはブール演算は、一時レジ
スタに送られた結果により、その構造の中で行なうこと
ができる。その動作の完了時に、元のＹマトリクスおよ
びＷマトリクスはその構造内でそのまま残り、および一
時レジスタは結果のマトリクスを有する。その結果は、
プロセッサエレメントから走査されて取り出され、また
は個々に読み出されることができ、またはさらに他の動
作のために用いられること（命令の連鎖（ｃｈａｉｎｉ
ｎｇ）または連結（ｌｉｎｋｉｎｇ））ができる。

【０１０６】以上に本発明の好適な実施例を記載してき
たが、現在および将来の双方における当業者は、これら
の記載を理解した後、特許請求の範囲に含まれる範囲内
で種々の改良および向上を行なうことを理解するであろ
う。特許請求の範囲の各項は、最初に開示された本発明
に対する適切な保護を維持するためのものと解釈される
べきである。

【０１０７】

【発明の効果】以上の説明から明らかなように、本発明
超並列対角線折畳みツリー・アレイ・プロセッサのアー
キテクチャによれば、マトリクス処理および高度接続性
ニューラル・ネットワークなどの、高度な計算用並列デ
ータ・アルゴリズムのモデリンクに適用でき、しかもま
た、マトリクス処理の従来の問題を適切に克服すること
ができる。

【０１０８】以上、本発明の好適実施例について述べて
きたが、これらの記述を理解すれば、特許請求の範囲内
に該当するこれら実施例に対する種々の改良および改善
を現在および将来の双方の当業者が行うであろうことは
理解されよう。特許請求の範囲に記載の請求項は、最初
に開示された本発明に対する適切な保護を維持するもの
として解決されるものである。

【図面の簡単な説明】

【図１】ベクトルマトリクス乗算の演算を示す説明図で
ある。

【図２】汎用のマトリクス乗算を示す説明図である。

【図３】（Ａ）は本発明における対角線セルの、Ｔ−Ｓ
ＮＡＰの最初の重み* Ｙの値の乗算構造を示す説明図、
（Ｂ）は本発明における汎用セルの、２つの値の乗算構
造を示す説明図である。

【図４】本発明における対角線ＰＥの好適なプロセッサ
構造を示す説明図である。

【図５】本発明における汎用ＰＥの好適なプロセッサ構
造を示す説明図である。

【図６】本発明の好適な通信ＡＬＵツリーの説明図であ
る。

【図７】４² 個のＰＥおよび４−ルート・ツリー・プロ
セッサの、本発明超並列対角線折畳みツリー・アレイ・
プロセッサを図８および図９と共に示す説明図である。

【図８】４² 個のＰＥおよび４−ルート・ツリー・プロ
セッサの、本発明超並列対角線組み合せツリー・アレイ
・プロセッサを図７および図９と共に示す説明図であ
る。

【図９】４² 個のＰＥおよび４−ルート・ツリー・プロ
セッサの、本発明超並列対角線組み合せツリー・アレイ
・プロセッサを図７および図８と共に示す説明図であ
る。

【図１０】図７，図８および図９の相互関係を示す説明
図である。

【図１１】本発明プロセッサ要素の、タグが付いた命令
データ／フォーマットの説明図である。

【図１２】図１３および図１４の相互関係を示す説明図
である。

【図１３】ＰＥの命令セットの構造例を示す説明図であ
る。

【図１４】ＰＥの命令セットの構造例を示す説明図であ
る。

【符号の説明】

ＣＥＢ条件付き実行ビットＲＥＧレジスタＤＲＥＧデータ・レジスタＣＰＡＴＨコマンドパスＤＰＡＴＨデータ・パスＩＮＳＴＲ命令レジスタＥＸＵ実行ユニットＣＡＴ通信ＡＬＵツリー

───────────────────────────────────────────────────── フロントページの続き (72)発明者スターマティスヴァジリアディスアメリカ合衆国 13850 ニューヨーク州ヴェスタルヴェスタルロード 717 (72)発明者ホセグアドループデルガド−フライアスアメリカ合衆国 13760 ニューヨーク州エンドウェルレイシードライブ 612

Claims

【特許請求の範囲】

【請求項１】マトリクス処理を含む汎用アプリケーシ
ョンのためのコンピュータ・システム装置において、ルート・ツリー・プロセッサと、通信ＡＬＵツリーと、プロセッシング・エレメント（ＰＥ）と、命令およびデータの双方をルート・ツリー・プロセッサ
およびプロセッシング・エレメントの間で通信する手段
とを備え、各プロセッサが命令およびデータの記憶ユニ
ットを有し、命令およびデータを受信し、および命令を
実行することを特徴とするコンピュータ・システム装
置。
【請求項２】ＮｘＮマトリクスの形態に配置され、【外１】対角線に沿って折畳まれ、ならびに対角線セルおよび汎
用セルより構成されたＮ² 個のプロセッシング・エレメ
ントをさらに備えたことを特徴とする請求項１に記載の
コンピュータ・システム装置。
【請求項３】ＰＥ_i,j として識別される前記対角線セ
ルはそれぞれ単一のＰＥを備え、および汎用セルは、そ
れぞれ、ＰＥ_i,j およびＰＥ_j,i として識別され、一緒
に組み合わされる２つの処理要素を備えたことを特徴と
する請求項２に記載のコンピュータ・システム装置。
【請求項４】前記対角線セルの単一のＰＥは、それぞ
れ、タグ・マッチング・ユニットと、命令／データ・デコーディング機構、データ・パス記憶
ユニット、および分配器ユニットによる、外部から受信
した命令およびデータのための行き先パス制御機構と、ゼロをＸ命令に格納する命令バッファを有し、および１
つの命令記憶ユニットが命令のデコードおよび演算の制
御のために用いられ命令記憶ユニットと、複数データ記憶ユニットと、命令デコード機構、選択ユニット、およびデコードされ
た命令の記憶ユニットに対するアドレス指定手段により
制御された記憶ユニット・オペランド選択機構と、命令デコーディング機構および分配器ユニットにより制
御された、結果の行き先パスを制御する機構と、プログラマブル実行ユニットとを備えたことを特徴とす
る請求項３に記載のコンピュータ・システム装置。
【請求項５】前記対角線セルのＰＥより、ＰＥが接続
された通信ＡＬＵツリーに結果を供給し、および該通信
ＡＬＵツリーから命令およびデータを受け取ることを特
徴とする請求項３に記載のコンピュータ・システム装
置。
【請求項６】一緒に組み合わされる前記汎用セルの２
つのＰＥ、ＰＥ_i,jおよびＰＥ_j,i は、２つのタグ・マッチング・ユニットと、２つの命令／データ・デコーディング機構、２つのデー
タ・パス記憶ユニット、２つの命令パス・ビット、およ
び共通の分配器ユニットによる、外部から受信した命令
およびデータのための共通の行き先パス制御機構と、ゼロをＸ命令のそれぞれに格納する２つの命令バッファ
を有し、および２つの命令記憶ユニットが命令のデコー
ドおよび演算の制御のために用いられる命令記憶ユニッ
トと、一緒に組み合わされたＰＥのそれぞれにより共有される
複数のデータ記憶ユニットと、２つの命令デコーディング機構、共通の選択ユニット、
および２つのデコードされた命令の記憶ユニットに対す
るアドレス指定手段により制御された２つの記憶ユニッ
ト・オペランド選択機構と、２つの命令デコーディング機構および共通の分配器ユニ
ットにより制御された、２つの結果の行き先パス制御機
構と、２つのプログラマブル実行ユニットとを備えたことを特
徴とする請求項３に記載のコンピュータ・システム装
置。
【請求項７】２進通信ＡＬＵツリーがｌｏｇ₂ Ｎ個の
２入力１出力の通信ＡＬＵステージを有することを特徴
とする請求項１に記載のコンピュータ・システム装置。
【請求項８】前記ルート・ツリー・プロセッサおよび
それらのホスト・コンピュータ・インタフェースは、通信ＡＬＵツリー制御手段と、ＰＥ初期化手段と、ＰＥ命令発行手段と、アルゴリズム・データ計算手段と、ＰＥデータ発行手段と、ＰＥを同期して開始して実行モードにする手段と、ＰＥを同期して停止する手段とを備えたことを特徴とす
る請求項１に記載のコンピュータ・システム装置。
【請求項９】Ｎ² 個のＰＥ、Ｎ個の通信ＡＬＵツリ
ー、およびＮアレイ構造のＮ個のルート・ツリー・プロ
セッサを備えたことを特徴とする請求項１に記載のコン
ピュータ・システム装置。
【請求項１０】各通信ＡＬＵツリーが、ツリーのリー
フ・ノードにおけるＮ個のＰＥ、およびホスト・インタ
フェースに結果を提供するツリーのルートに接続する１
つのルート・ツリー・プロセッサを接続し、ならびに前
記通信ＡＬＵツリー、ＰＥ、およびＮアレイ構造を構成
するルート・ツリー・プロセッサは、各ＰＥに対してデータの値を入力する入力手段と、タグの付いた命令およびデータを、ルート・ツリー処理
ユニットからＰＥに通信する手段と、各ＰＥにおける命令およびデータの行き先を制御する手
段と、各ＰＥにおいて受信した命令を実行する手段と、自動モードにおいて、次の演算において用いられるべく
データが受信されたときに、あらかじめ受信されていた
命令を実行する手段と、オペランドを選択し、および行き先のパスを制御して、
結果が各ＰＥにローカル的に留まり、または付属の通信
ＡＬＵツリーに送られることを可能とする手段と、複数のＰＥから受信した値の、集中した機能を実行する
手段と、外部データ値を各ルート・ツリー・プロセッサに入力す
る手段と、新たな命令およびデータを生成する手段とを備えたこと
を特徴とする請求項９に記載のコンピュータ・システム
装置。
【請求項１１】各ＰＥにおける命令およびデータの行
き先を制御する手段は、命令に対しては、命令デコーデ
ィング機構、命令パス・ビット、および汎用セルにおけ
る分配器ロジックで構成し、ならびに、命令デコーディ
ング機構、汎用セルが特定したレジスタを対角線セル・
レジスにマッピングするレジスタマッピングロジック、
および対角線セルにおける分配器ロジックで構成し、な
らびに、データについては、対角線セルおよび汎用セル
の双方におけるデータ・デコーディング機構およびデー
タ・パス記憶ユニットで構成したことを特徴とする請求
項１０に記載のコンピュータ・システム装置。
【請求項１２】１つはＷマトリクスと呼ばれ、他方は
Ｙマトリクスと呼ばれる、２つのＮｘＮマトリクスのマ
トリクス乗算を順次に実行する手段を備え、前記乗算に
よりＺマトリクスと呼ばれる第３のＮｘＮマトリクスを
生成し、およびレジスタを記憶ユニットに用い、ＭＰＹ
が乗算命令を示す時に処理を可能とし、ＡＬＵＴＲＥ
Ｅの行き先が結果を接続された通信ＡＬＵツリーに送信
し、前記ルート・ツリー・プロセッサはホスト・インタ
フェース機能を有し、前記処理は、ａ）Ｗマトリクスをロードする（ルート・ツリー・プロ
セッサあてにＮ個のＷ値を仮定する）ステップと、ｂ）通信ＡＬＵツリーを通してＹ値と通信することによ
り第１のＹ行をロードするステップと、ｃ）ＭＰＹＡＲ１＊Ｒ２→ＡＬＵＴＲＥＥ（ここ
で、ＡＬＵツリーは総和処理のために初期化されてい
る。）のステップと、ｄ）結果としてのＺマトリクスの第１の行を計算する、
すなわち総和ツリーが続くＹおよびＷレジスタの乗算を
行なうステップと、ｅ）Ｎ個のＺの値をルート・ツリー・プロセッサに格納
するステップと、ｆ）第２のＹ行と通信ＡＬＵツリーを通じて通信するス
テップと、ｇ）新たなＹ値が受信されたときに、結果としてのＺマ
トリクスの第２の行を計算する、すなわち総和ツリーが
続くＹおよびＷレジスタの乗算を行なうステップと、ｈ）ルート・ツリー・プロセッサにＮ個のＺ値を格納す
るステップと、ｉ）行の計算を次のｊ）の実行まで継続するステップ
と、ｊ）Ｎ番目のＹ行と通信するステップと、ｋ）新たなＹ値が受信されたときに、結果としてのＺマ
トリクスのＮ番目の行を計算する、すなわち総和ツリー
が続くＹおよびＷレジスタの乗算を行なうステップと、ｌ）ルート・ツリー・プロセッサに結果としてのＺマト
リクスの最後の行を格納するステップとを有することを
特徴とする請求項１０に記載のコンピュータ・システム
装置。