JPH0619862A

JPH0619862A - スケーラブル超並列グループ分割対角線折畳みスイッチング・ツリー型コンピューティング装置

Info

Publication number: JPH0619862A
Application number: JP5082356A
Authority: JP
Inventors: Gerald G Pechanek; ジー．ペチャネクジェラルド; Stamatis Vassiliadis; ヴァジリアディススターマティス; Jose Guadelupe Delgado-Frias; グアドループデルガド−フライアスホセ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-05-12
Filing date: 1993-04-09
Publication date: 1994-01-28
Anticipated expiration: 2012-08-27
Also published as: US5640586A; EP0569764A3; JP2647330B2; EP0569764A2

Abstract

(57)【要約】【目的】スケーラブル超並列グループ分割対角線折畳
みスイッチング・ツリー・コンピューティング装置を提
供する。【構成】ニューラル・ネットワークをサポートする汎
用超並列コンピュータ・アーキテクチャは、各エッジ上
にＮ個の処理エレメントを含んでいる三角形アレイを、
各々が寸法Ｘで、各々が共通ビルディング・ブロックを
表している複数の小さな三角形アレイに分割し、これら
の三角形アレイを各種サイズの並列処理実現のために相
互結合する。グループ・チップは、完全な結合性能力を
維持する独特のスイッチング・ツリー・メカニズムによ
って相互結合され、寸法Ｎの元の三角形アレイによって
機能的に処理される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はコンピュータに関し、特
に超並列アレイ・プロセッサに関するものである。

【０００２】本出願に関連する他の特許出願以下は、本出願に関連する特許出願（係属中または特許
付与）を列挙したものである。

【０００３】１．米国特許出願第０７／５２６，８６６
号、１９９０年５月２２日出願、発明者バシリアディス
（Ｓ．Ｖａｓｓｉｌｉａｄｉｓ）外；発明の名称「直交
行列ニューラル・プロセッサ」（Ｏｒｔｈｏｇｏｎａｌ
Ｒｏｗ−ＣｏｌｕｍｎＮｅｕｒａｌＰｒｏｃｅｓ
ｓｏｒｅ）（１９９１年１１月１２日特許、米国特許第
５，０６５，３３９号）２．米国特許出願第０７／７４０，３５５号、１９９１
年８月５日出願、発明者バシリアディス（Ｓ．Ｖａｓｓ
ｉｌｉａｄｉｓ）外；発明の名称「スケーラブル・ニュ
ーラル・アレイ・プロセッサ」（ＳｃａｌａｂｌｅＮ
ｅｕｒａｌＡｒｒａｙＰｒｏｃｅｓｓｏｒ）（現在
出願係属中）３．米国特許出願第０７／７４０，５５６号、１９９１
年８月５日出願、発明者バシリアディス（Ｓ．Ｖａｓｓ
ｉｌｉａｄｉｓ）外；発明の名称「ニューラル・アレイ
・プロセッサ用加算器・ツリー」（ＡｄｄｅｒＴｒｅ
ｅｆｏｒＮｅｕｒａｌＡｒｒａｙＰｒｏｃｅｓ
ｓｏｒ）（現在出願係属中）４．米国特許出願第０７／７４０，５６８号、１９９１
年８月５日出願、発明者バシリアディス（Ｓ．Ｖａｓｓ
ｉｌｉａｄｉｓ）外；発明の名称「ニューラル・プロセ
ッサの装置および方法」（Ａｐｐａｒａｔｕｓａｎｄ
ＭｅｔｈｏｄｆｏｒＮｅｕｒａｌＰｒｏｃｅｓｓ
ｏｒ）（現在出願係属中）５．米国特許出願第０７／７４０，２６６号、１９９１
年８月５日出願、発明者バシリアディス（Ｓ．Ｖａｓｓ
ｉｌｉａｄｉｓ）外；発明の名称「スケーラブル・ニュ
ーラル・アレイ・プロセッサおよび方法」（Ｓｃａｌａ
ｂｌｅＮｅｕｒａｌＡｒｒａｙＰｒｏｃｅｓｓｏ
ｒａｎｄＭｅｔｈｏｄ）（現在出願係属中）６．米国特許出願第０７／６８２，７８６号、１９９１
年４月８日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅｃ
ｈａｎｅｋ）外；発明の名称「三角形スケーラブル・ニ
ューラル・アレイ・プロセッサ」（Ｔｒｉａｎｇｕｌａ
ｒＳｃａｌａｂｌｅＮｅｕｒａｌＡｒｒａｙＰ
ｒｏｃｅｓｓｏｒ）（現在出願係属中）７．米国特許出願第０７／６８１，８４２号、１９９１
年４月８日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅｃ
ｈａｎｅｋ）外；発明の名称「ＳＰＩＮ：シーケンシャ
ル・パイプライン化ニューロコンピュータ」（ＳＰＩ
Ｎ：ＳｅｑｕｅｎｔｉａｌＰｉｐｅｌｉｎｅｄＮｅ
ｕｒｏｃｏｍｐｕｔｅｒ）（現在出願係属中）８．米国特許出願第０７／７０２，２６１号、１９９１
年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋ）外；発明の名称「学習マシン・シナプス
・プロセッサ・システム装置」（ＬｅａｒｎｉｎｇＭ
ａｃｈｉｎｅＳｙｎａｐｓｅＰｒｏｃｅｓｓｏｒＳ
ｙｓｔｅｍＡｐｐａｒａｔｕｓ）（現在出願係属中）９．米国特許出願第０７／７０２，２６０号、１９９１
年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋ）外；発明の名称「ニューラル・ネットワ
ーク用の仮想ニューロコンピュータ・アーキテクチャ」
（ＶｉｒｔｕａｌＮｅｕｒｏｃｏｍｐｕｔｅｒＡｒ
ｃｈｉｔｅｃｔｕｒｅｓｆｏｒＮｅｕｒａｌＮｅ
ｔｗｏｒｋｓ）（現在出願係属中）１０．米国特許出願第０７／７０２，２６２号、１９９
１年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐ
ｅｃｈａｎｅｋ）外；発明の名称「スケーラブル・フロ
ー仮想学習ニューロコンピュータ」（Ｓｃａｌｂｌｅ
ＦｌｏｗＶｉｒｔｕａｌＬｅａｒｎｉｎｇＮｅｕ
ｒｏｃｏｍｐｕｔｅｒ）（現在出願係属中）１１．米国特許出願第０７／７０２，２６３号、１９９
１年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐ
ｅｃｈａｎｅｋ）外；発明の名称「ＰＬＡＮ：ピラミッ
ド学習アーキテクチャ・ニューロコンピュータ」（ＰＬ
ＡＮ：ＰｙｒａｍｉｄＬｅａｒｎｉｎｇＡｒｃｈｉ
ｔｅｃｔｕｒｅＮｅｕｒｏｃｏｍｐｕｔｅｒ）（現在
出願係属中）１２．米国特許出願第０７／８６４，１１２号、１９９
２年４月６日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋ）外；発明の名称「超並列アレイ・プロセ
ッサ」（ＭａｓｓｉｖｅｌｙＰａｒｅｌｌｅｌＡｒ
ｒａｙＰｒｏｃｅｓｓｏｒ）（現在出願係属中）以下は、本出願と同時に出願された関連特許出願であ
る。

【０００４】１．米国特許出願第０７／
号、１９９２年５月１５日出願、発明者ペシャネック
（Ｇ．Ｇ．Ｐｅｃｈａｎｅｋ）外；発明の名称「超並列
対角線折畳みツリー・アレイ・プロセッサ」（Ｍａｓｓ
ｉｖｅｌｙＰａｒａｌｌｅｌＤｉａｇｏｎａｌ−Ｆｏ
ｌｄＴｒｅｅＡｒｒａｙＰｒｏｃｅｓｓｏｒ）上記特許出願は被承継人であるインターナショナル・ビ
ジネス・マシンズ・コーポレーション（米合衆国ニュー
ヨーク市アーモンク）が所有するものである。

【０００５】また、上記特許出願に記載されている説明
は、ここにおいてその出願番号を参照することで本明細
書の一部を構成するものとする。

【０００６】なお、本明細書の記述は本件出願の優先権
の基礎たる米国特許出願０７／８８１，５９４号の明細
書の記載に基づくものであって、当該米国特許出願の番
号を参照することによって当該米国特許出願の明細書の
記載内容が本明細書の一部分を構成するものとする。

【０００７】本明細書中で引用されている公知文献以下の詳細な説明において、本発明の理解を容易にする
ために、以下の文献が引用されている。

【０００８】１．米国特許出願第０７／７９９，６０２
号、１９９１年１１月２７日出願、発明者オルノウィッ
チ（Ｈ．Ｏｌｎｏｗｉｃｈ）；発明の名称「並列ネット
ワーク、ならびに異種および同種のコンピュータ・シス
テム用のマルチメディア・シリアル回線スイッチング・
アダプタ」（Ｍｕｌｔｉ−ＭｅｄｉａＳｅｒｉａｌＬ
ｉｎｅＳｗｉｔｃｈｉｎｇＡｄａｐｔｅｒｆｏｒ
ＰａｒａｌｌｅｌＮｅｔｗｏｒｋｓａｎｄＨｅｔ
ｅｒｏｇｅｎｏｕｓａｎｄＨｏｍｏｌｏｇｏｕｓ
ＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓ）２．米国特許出願第０７／７９８，７８８号、１９９１
年１１月２７日出願、発明者コッジ（Ｐ．Ｍ．Ｋｏｇｇ
ｅ）、発明の名称「ダイナミック・マルチ・モード並列
プロセッサ・アレイ・アーキテクチャ」（Ｄｙｎａｍｉ
ｃＭｕｌｔｉ−ｍｏｄｅＰａｒａｌｌｅｌＰｒｏ
ｃｅｓｓｏｒＡｒｒａｙＡｒｃｈｉｔｅｃｔｕｒ
ｅ）」（ＭＩＭＤ、ＳＩＭＤおよびＳＩＳＤ間のダイナ
ミックなスイッチングを可能とするシステム）３．ルーメルハート（Ｄ．Ｅ．Ｒｕｍｅｌｈａｒｔ）、
マックレランド（Ｊ．Ｌ．ＭｃＣｌｅｌｌａｎｄ）、お
よびＰＤＰ研究グループ（ＰＤＰＲｅｓｅａｒｃｈ
Ｇｒｏｕｐ）共著「並列分散処理Ｖｏｌ．１：基礎
（ＰａｒａｌｌｅｌＤｉｓｔｒｉｂｕｔｅｄＰｒｏ
ｃｅｓｓｉｎｇＶｏｌ．１：Ｆｏｕｎｄａｔｉｏｎ
ｓ）」、マサチューセッツ州ケンブリッジ（Ｃａｍｂ
ｒｉｄｇｅ，Ｍａｓｓａｃｈｕｓｅｔｔｓ：ＭＩＴプ
レス１９８６年発行（以下、「ルーメルハート８６
（Ｒｕｍｅｌａｒｔ８６）」として参照する。）４．「ニューラル・プロセッサ用の装置および方法」、
バシリアディス（Ｓ．Ｖａｓｓｉｌｉａｄｉｓ）および
ペシャネック（Ｇ．Ｇ．Ｐｅｃｈａｎｅｋ）、米国特許
出願第０７／５２６，８６６号、１９９０年５月１８日
出願（本明細書中では、時々「ＳＮＡＰ」または「バシ
リアディス（Ｖａｓｓｉｌｉａｄｉｓ）ＳＮＡＰ９
０」として参照する。）５．「三角形スケーラブル・ニューラル・アレイ・プロ
セッサ（ＡＴＲＩＡＮＧＵＬＡＲＳＣＡＬＡＢＬＥ
ＮＥＵＲＡＬＡＲＲＡＹＰＲＯＣＥＳＳＯ
Ｒ）」、ペシャネック（Ｇ．Ｇ．Ｐｅｃｈａｎｅｋ）お
よびバシリアディス（Ｓ．Ｖａｓｓｉｌｉａｄｉｓ）、
米国特許出願第０７／６８２，７８５号、１９９１年４
月８日出願（本明細書中では、「Ｔ−ＳＮＡＰ」として
参照する。）６．「ＳＰＩＮ：順次パイプライン化ニューロ・コンピ
ュータ」、Ｓ．Ｖａｓｓｉｌｉａｄｉｓ、Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋおよびＪ．Ｇ．Ｄｅｌｇａｄｏ−Ｆｒｉａ
ｓ、米国特許出願第０７／６８１，８４２号、１９９１
年４月８日出願（以下、「ＳＰＩＮ」または「バシリア
ディス（Ｖａｓｓｉｌｌｉａｄｉｓ）９１」として参照
する。）７．ホップフィールド（Ｊ．Ｊ．Ｈｏｐｆｉｅｌｄ）著
「２状態ニューロンのごとき集合的計算特性を有する勾
配応答のあるニューロン（Ｎｅｕｒｏｎｓｗｉｔｈ
ＧｒａｄｅｄＲｅｓｐｏｎｓｅＨａｖｅＣｏｌｌ
ｅｃｔｉｖｅＣｏｍｐｕｔａｔｉｏｎａｌＰｒｏｐｅ
ｒｔｉｅｓＬｉｋｅＴｈｏｓｅｏｆＴｗｏ−Ｓｔ
ａｔｅＮｅｕｒｏｎｓ）」、ナショナル・アカデミー
・オブ・サイエンスの会報８１（Ｐｒｏｃｅｅｄｉｎ
ｇｓｏｆｔｈｅＮａｔｉｏｎａｌＡｃａｄｅｍ
ｙｏｆＳｃｉｅｎｃｅｓ８１、第３０８８−３０
９２号、１９８４年５月発行（本明細書中では、「ホッ
プフィールド（Ｈｏｐｆｉｅｌｄ）８４」として参照す
る。）８．米国特許出願第０７／７０２，２６２号、１９９１
年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋ）外；発明の名称「スケーラブル・フロー
仮想学習ニューロコンピュータ」（現在出願係属中）９．米国特許出願第０７／７０２，２６１号、１９９１
年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋ）外；発明の名称「学習マシン・シナプス
・プロセッサ・システム装置」（現在出願係属中）１０．米国特許出願第０７／７０２，２６０号、１９９
１年５月１７日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐ
ｅｃｈａｎｅｋ）外；発明の名称「ニューラル・ネット
ワーク用の仮想ニューロコンピュータ・アーキテクチ
ャ」（現在出願係属中）１１．ヘラーマン（Ｈ．Ｈｅｌｌｅｒｍａｎ）著「ディ
ジタル・コンピュータ・システムの原理（Ｄｉｇｉｔａ
ｌＣｏｍｐｕｔｅｒＳｙｓｔｅｍＰｒｉｎｃｉｐ
ｌｅｓ）」、ＮｅｗＹｏｒｋ、ＮｅｗＹｏｒｋ：Ｍ
ｃＧｒａｗ−ＨｉｌｌＢｏｏｋＣｏｍｐａｎｙ、ｐ
ｐ．３４６−３４８、１９６７（本明細書中では、「ヘ
ラーマン（Ｈｅｌｌｅｒｍａｎ６７）」として参照す
る。）１２．米国特許出願第０７／号、１９９２
年５月１５日出願、発明者ペシャネック（Ｇ．Ｇ．Ｐｅ
ｃｈａｎｅｋ）外；発明の名称「超並列対角線折畳みツ
リー・アレイ・プロセッサ（ＭａｓｓｉｖｅｌｙＰａ
ｒａｌｌｅｌＤｉａｇｏｎａｌ−ＦｏｌｄＴｒｅｅ
ＡｒｒａｙＰｒｏｃｅｓｓｏｒ）」、本出願と同時出
願（以下、「ＤＩＡＧＯＮＡＬ−ＦＯＬＤＴＲＥＥ
９２」として参照する。）上記引用文献は、それらを参照することによって、本明
細書の一部を構成するものとする。

【０００９】

【従来の技術】コンピュータ高速化のための限りのない
追求において、エンジニアは、数１００台、あるいは数
１０００台もの低コスト・マイクロプロセッサを並列に
結合して、現代のマシン（計算機）が難問としている複
雑な問題を征服するために除算を行う超スーパコンピュ
ータを構築しようとしている。この種のマシンは超並列
（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌ）と呼ばれて
いる。並列に動作する多重コンピュータは数１０年前か
ら存在している。初期の並列マシンとしては、１９６０
年代に始まったＩＬＬＩＡＣがある。他の多重プロセッ
サとしては、Ｃｅｄａｒ、Ｓｉｇｍａ−１、Ｂｕｔｔｅ
ｒｆｌｙとＭｏｎａｒｃｈ、Ｉｎｔｅｌ社ｉｐｓｃ、コ
ネクション・マシン（ＣｏｎｎｅｃｔｉｏｎＭａｃｈ
ｉｎｅ）、Ｃａｌｔｅｃｈ社ＣＯＳＭＩＣ、ＮＣｕｂ
ｅ、ＩＢＭ社ＲＰ３、ＩＢＭ社ＧＦ１１、ＮＹＵウルト
ラ・コンピュータ、インテル社Ｄｅｌｔａ、Ｔｏｕｃｈ
ｓｔｏｎｅなどがある（シュー（Ｘｕ）外に対して１９
９０年１２月４日に発行された米国特許第４，９７５，
８３４号中の部分的要約を参照）。

【００１０】ＩＬＬＩＡＣから始まった大規模多重プロ
セッサはスーパコンピュータと考えられていた。最大の
商業的成功を収めたスーパコンピュータは、Ｃｒａｙ
Ｒｅｓｅａｒｃｈ社Ｙ−ＭＰシステム、ＩＢＭ３０９
０、およびＡｍｄａｈｌ、Ｈｉｔａｃｈｉ、Ｆｕｊｉｔ
ｓｕ、ＮＥＣを含む他メーカのマシンで代表される多重
ベクトル・プロセッサをベースにしている。

【００１１】超並列（ＭＰ）プロセッサは、現在では、
スーパコンピュータとなる能力を持つものと考えられて
いる。これらのコンピュータは非常に多数のマイクロプ
ロセッサを相互結合ネットワークで結合し、並列に動作
するようにプログラムしている。これらのコンピュータ
は２つのモードで動作している。これらの一部のマシン
はＭＩＭＤモード・マシンであり、一部のマシンはＳＩ
ＭＤモード・マシンである。これらのマシンの中で最も
成功を収めたといわれているのが、Ｔｈｉｎｋｉｎｇ
Ｍａｃｈｉｎｅｓ，Ｉｎｃ．のコネクション・マシン
（ｃｏｎｎｅｃｔｉｏｎｍａｃｈｉｎｅ）シリーズ１
と２である。これらのマシンは基本的にはＳＩＭＤマシ
ンである。超並列マシンの多くは並列に相互結合された
マイクロプロセッサを使用して、並列性（ｃｏｎｃｕｒ
ｒｅｎｃｙ）、つまり、並列動作の機能を実現してい
る。ｉ８６０のようなインテル・マイクロプロセッサは
インテル社や他のメーカで使用されている。ＮＣｕｂ
ｅ社は、インテル社の´３８６マイクロプロセッサを搭
載したマシンを提供している。他のマシンは、「トラン
スピュータ」（ｔｒａｎｓｐｕｔｅｒ）と呼ばれるチッ
プを利用して作られている。その例として、Ｉｎｍｏｓ
ＴｒａｎｓｐｕｔｅｒＩＭＳＴ８００がある。Ｉ
ｎｍｏｓＴｒａｎｓｐｕｔｅｒＴ８００は３２ビッ
ト・マシンであり、高速浮動小数点プロセッサを内蔵し
ている。この種のシステムの構築例として１つを示す
と、複数のＩｎｍｏｓＴｒａｎｓｐｕｔｅｒＴ８０
０チップは各々が３２個の通信リンク入力と３２個のリ
ンク出力を実装している。各チップはシングル・プロセ
ッサと、小容量メモリと、ローカル（局所）メモリおよ
び外部インタフェースとを結ぶ通信リンクとを実装して
いる。さらに、システム通信リンクを構築するために、
ＩＭＳＣ０１１およびＣ０１２のようなアダプタが接
続されている。さらに、ＩＭＳＣ００４のようなスイ
ッチは、例えば、３２個のリンク入力と３２個のリンク
出力間のクロスバー・スイッチの機能を備え、追加のト
ランスピュータ・チップ間をポイント・ツー・ポイント
（２地点間）で接続することができる。さらに、トラン
スピュータ用の特殊な回路とインタフェース・チップが
実装されれば、特定の装置、グラフィックまたはディス
ク・コントローラの要件に合った特殊な目的にトランス
ピュータを適応させて、使用することが可能になる。Ｉ
ｎｍｏｓＩＭＳＭ２１２は１６ビット・プロセッサ
であり、オンチップ・メモリと通信リンクを備えてい
る。このプロセッサはディスク・デバイスを制御するた
めのハードウェアとロジックを備えているので、プログ
ラマブル・ディスク・コントローラとしても、汎用イン
タフェースとしても使用できる。並列性（並列動作）を
利用するために、Ｉｎｍｏｓ社はトランスピュータ用に
特殊な言語、Ｏｃｃａｍを開発している。プログラマ
は、トランスピュータ・ネットワークをＯｃｃａｍプロ
グラムで直接に記述する必要がある。

【００１２】これらのＭＰマシンの一部は、プロセッサ
・チップからなる並列プロセッサ・アレイを使用し、こ
れらは異なるトポロジー構造で相互結合されている。ト
ランスピュータはＩＭＳＣ００４チップを追加するこ
とにより、クロスバー・ネットワークを実現している。
また、他の一部のシステムはハイパーキューブ（ｈｙｐ
ｅｒｃｕｂｅ）結合を使用している。他のシステムはマ
イクロプロセッサとその関連回路を接続するためにバス
またはメッシュを使用している。一部は、スイッチを使
用する回路スイッチ・プロセッサによって、プロセッサ
・アドレス可能ネットワークとして相互結合されてい
る。一般的に、複数のマシンを１つに配線することによ
ってＬａｗａｒｅｎｃｅＬｉｖｅｒｍｏｒｅで昨年秋
に相互結合された１４台のＲＩＳＣ／６０００の場合と
同様に、プロセッサ・アドレス可能ネットワークは、粗
い（Ｃｏａｒｓｅ−ｇｒａｉｎｅｄ）マルチプロセッサ
と考えられている。

【００１３】データ処理における「偉大な挑戦（ｇｒａ
ｎｄｃｈａｌｌｅｎｇｅ）」と呼ばれているものに取
りかかるために、いくつかの超大規模マシンが、現在イ
ンテル社、ｎＣｕｂｅ社、その他のメーカによって製造
されているが、これらのコンピュータは非常に高価であ
る。最新の見積コストは、この「偉大な挑戦」に取りか
かるために米国政府の補助金を得て開発されたコンピュ
ータの場合、米国ドル３０，０００，０００．００〜７
５，０００，０００．００（テラ・コンピュータ）のオ
ーダに達している。これらの偉大な挑戦には、気候モデ
ル化、流体の乱れ、汚染分散、人ゲノムと大洋循環のマ
ッピング、量子クロモ力学、半導体とスーパコンピュー
タのモデル化、燃焼システム、視覚と認識といった問題
が含まれている。

【００１４】

【発明が解決しようとする課題】本発明によるスケーラブルＭＰグループ分割対角線折畳
みスイッチング・ツリー型装置が解決しようとする問題超並列処理システムを実現する際に１つの問題点となっ
ているのは、プロセッサ相互結合メカニズムとスケーラ
ビリティ（ｓｃａｌａｂｉｌｉｔｙ−拡張可能性）であ
る。超並列アレイ・プロセッサでは、超並列コンピュー
ティング・システムに存在する相互結合とスケーラビリ
ティの問題を解決するために、以下に説明するような方
法でこの問題に取り組んでいる。完全結合ニューラル・
ネットワーク・モデルを例にして、他の汎用アプリケー
ションにも適したスケーラブルで完全結合されたコンピ
ューティング装置の実例を基にして、本発明の好適実施
例によるコンピューティング装置について説明する。

【００１５】本発明を詳細に説明するにあたって、本出
願の発明者の未公表文献をも含めて、本明細書の冒頭に
列挙した文献を引用する。本発明の背景となる、これら
の引用文献はそれらの参照により本明細書の一部を構成
するものとする。

【００１６】本発明の目的は、スケーラブル超並列グル
ープ分割対角線折畳みスイッチング・ツリー型コンピュ
ーティング装置を提供することにある。

【００１７】

【課題を解決するための手段】このような目的を達成す
るために、請求項１記載の発明は、三角形アレイの各エ
ッジにＫ個の命令および／またはデータ処理ユニットが
置かれているＫ（Ｋ＋１）／２個の命令および／または
データ処理ユニットの三角形アレイから構成されたこと
を特徴とする。

【００１８】請求項２記載の発明は、請求項１に記載の
装置において、ＫとＸは整数であり、ＫはＸによって割
ることが可能であり、三角形アレイは、Ｋ（Ｋ−Ｘ）／
２Ｘ² 個のＸ×Ｘ四角形とＫ／Ｘ三角形アレイに分割さ
れ、これらのアレイは分割されたアレイの各エッジにＸ
個の命令および／またはデータ処理ユニットが置かれて
いることを特徴とする。

【００１９】請求項３記載の発明は、命令および／また
はデータ処理ユニットのＫ（Ｋ−Ｘ）／２Ｘ² 個のＸ×
Ｘ四角形アレイからなる請求項２に記載の装置におい
て、処理ユニットは各々がタイプ“ｂ”とタイプ“ｃ”
の命令および／またはデータ・プロセッサ・エレメント
（ＰＥ）と呼ばれる２つの命令および／またはデータ・
プロセッサ・エレメントから構成されたことを特徴とす
る。

【００２０】請求項４記載の発明は、三角形アレイの各
エッジにＸ個の命令および／またはデータ処理ユニット
が置かれているＫ／Ｘ個の三角形アレイからなる請求項
２に記載の装置において、三角形アレイの対角線上の命
令および／またはデータ処理ユニットは、単一命令およ
び／またはデータ・プロセッサ・エレメントから構成さ
れ、三角形アレイ・プロセッサ・ユニットの残り部分は
各々が２個の命令および／またはデータ・プロセッサ・
エレメントから構成されたことを特徴とする。

【００２１】請求項５記載の発明は、命令および／また
はデータ・プロセッサ・エレメント（ＰＥ）と、通信Ａ
ＬＵツリーと、ルート（根）ツリー・プロセッサと、ホ
スト・コンピュータとのプログラマブル・プロセッサ・
インタフェースと、スケーラブル・グループ分割スイッ
チング・ツリー・メカニズムとから構成され、完全結合
性と共にスケーラビリティの機能を備えたことを特徴と
する。

【００２２】請求項６記載の発明は、請求項５に記載の
装置において、超並列コンピューティング・システム
は、Ｎ² 個のプロセッサ・エレメントと、Ｎ個の通信Ａ
ＬＵツリーと、Ｎ個のルート・ツリー・プロセッサと、
ホスト・コンピュータとのプログラマブル・プロセッサ
・インタフェースと、Ｎ個のルート・ツリー・プロセッ
サをサポートするスケーラブル・グループ分割スイッチ
ング・ツリー・メカニズムとから構成されたことを特徴
とする。

【００２３】請求項７記載の発明は、請求項５に記載の
装置において、通信ＡＬＵツリーはｌｏｇ₂ Ｎ２から１
までの通信ＡＬＵステージを含んでいることを特徴とす
る。

【００２４】請求項８記載の発明は、請求項７に記載の
装置において、通信ＡＬＵツリーに含まれる各ステージ
は、２個の入力ＡＬＵと、ＡＬＵ機能から得た方向とは
逆方向に値を伝達することを目的としたＡＬＵバイパス
経路と、ＡＬＵ機能と逆方向通信経路間でスイッチング
する手段とから構成された２から１までの通信ＡＬＵを
含むことを特徴とする。

【００２５】請求項９記載の発明は、請求項５に記載の
装置において、プロセッサ・エレメントは命令および／
データを受信し、受信した情報をアプリケーションによ
って定義されたハードウェアおよび／またはプログラマ
ブル命令シーケンスの制御の下で処理することを特徴と
する。

【００２６】請求項１０記載の発明は、請求項６に記載
の装置において、ルート・プロセッサは命令を実行し、
データを処理し、接続された通信ＡＬＵツリーのＡＬＵ
機能と動作モードを制御し、接続されたスイッチング・
ツリー・メカニズムを制御し、通信ＡＬＵツリー接続Ｐ
Ｅに対して命令／データを出し、通信ＡＬＵツリーを通
して処理されたＰＥデータを通信ＡＬＵツリー・ルート
・ノードから受信することを特徴とする。

【００２７】請求項１１記載の発明は、請求項５に記載
の装置において、接続されたホスト・コンピュータおよ
びルート・ツリー・プロセッサとのインタフェースとな
るプログラマブル・プロセッサ制御装置は、ルート・ツ
リー・プロセッサおよびＰＥによって使用されるパラメ
ータのためのストレージ（記憶手段）を備え、システム
初期設定を制御し、ホスト命令を処理し、ホストと並列
処理システム間の命令とデータをバッファリングするこ
とを特徴とする。

【００２８】請求項１２記載の発明は、請求項６に記載
の装置において、Ｎ² 個の処理エレメントはＮ×Ｎマト
リックスの形体で配置され、

【００２９】

【外２】

【００３０】該Ｎ×Ｎマトリックスは対角線に沿って折
り畳まれ、ＰＥ_i,i ユニットを単一プロセッサ対角線ユ
ニットとしてそのまま残し、ＰＥ_i,j を２重プロセッサ
一般ユニットとしてＰＥ_j,i としてマージしたことを特
徴とする。

【００３１】請求項１３記載の発明は、請求項６に記載
の装置において、Ｎ² 個の処理エレメントとＮ個の通信
ＡＬＵツリー構造は、Ｇ＝Ｎ² ／Ｘ² グループに分割さ
れ、Ｘ² 個のＰＥを含む各該グループは、Ｘ個の単一プ
ロセッサ対角線ユニットと（Ｘ² −Ｘ）／２個の２重プ
ロセッサ一般ユニットから構成され、各ＰＥは通信ＡＬ
Ｕツリーに接続されたことを特徴とする。

【００３２】ここで、請求項３に記載の装置において、
２重命令および／またはデータ・プロセッサ・エレメン
トのＸ×Ｘ四角形アレイは、単一命令および／またはデ
ータ・プロセッサ・エレメント（ＰＥ）の２個の四角形
アレイに分割され、一方の四角形アレイはタイプ“ｂ”
のＰＥから構成され、他方の四角形アレイはタイプ
“ｃ”のＰＥから構成することができる。

【００３３】上記の装置において、単一ＰＥの２分割四
角形アレイは各々が対角線に沿って折り畳まれて、２つ
の三角形アレイを作成し、各々が対角線上の単一ＰＥ
と、三角形アレイの残り部分については２重ＰＥとから
構成することができる。

【００３４】請求項１２に記載の装置において、単一プ
ロセッサＰＥ_i,i 対角線ユニットは、接続された通信Ａ
ＬＵツリーへ結果を送り、該通信ＡＬＵツリーから命令
とデータを受信することができる。

【００３５】請求項１２に記載の装置において、２重プ
ロセッサＰＥ_i,j とＰＥ_j,i 一般ユニットは各々が接続
された通信ＡＬＵツリーへ結果を送り、該通信ＡＬＵツ
リーから命令とデータを受信することができる。

【００３６】請求項１２に記載の装置において、折り畳
まれたＮ² マトリックスは単一または複数の四角形マト
リックスと複数の三角形マトリックスに分割され、各四
角形マトリックスは、Ｘ² 個の２重プロセッサ一般ユニ
ットとして編成された２Ｘ²個の処理エレメントを含ん
でおり、各三角形マトリックスは単一プロセッサ対角線
ユニットと２重プロセッサ一般ユニットの形体でＸ² 個
の処理エレメントを含んでいるプロセッサ・グループで
あり、ＸはＸ² 個の処理エレメントのグループをチップ
上に実装する目的でテクノロジと設計の制約によって決
定され、ＸとＮのサイズが所与のとき、折り畳まれたＮ
² オリジナル・マトリックスから分離された三角形と四
角形マトリックスの個数によって決定されるようにする
ことができる。

【００３７】上記の装置において、２Ｘ² 個のＰＥから
構成された各四角形マトリックスはＸ² 個の２重ＰＥを
含んでおり、各該２重ＰＥはＰＥ_i,j とＰＥ_j,i から構
成することができる。

【００３８】上記の装置において、２Ｘ² 個の処理エレ
メントの各四角形マトリックスは、Ｘ² 個のＰＥ_ijに接
続されたＸ個の通信ＡＬＵツリーの集合と、他のＸ² 個
のＰＥ_j,i に接続されたＸ個の通信ＡＬＵツリーの集合
からさらに構成することができる。

【００３９】上記の装置において、２重プロセッサ・ユ
ニットの各Ｘ×Ｘ四角形アレイは単一プロセッサ・エレ
メントの２つの四角形アレイに分割され、一方の四角形
アレイはＸ² 個のＰＥ_i,j に接続されたＸ個の通信ＡＬ
Ｕツリーから構成され、他方の四角形アレイはＸ² 個の
ＰＥ_j,i に接続されたＸ個の通信ＬＡＵツリーから構成
することができる。

【００４０】上記の装置において、単一ＰＥの２分割四
角形アレイは各々が対角線に沿って折り畳まれて、各々
が対角線上に単一プロセッサの三角形アレイと、三角形
アレイの他の部分では２重プロセッサとで構成された２
プロセッサ・グループを作成することができる。

【００４１】請求項１３に記載の装置において、ニュー
ラル・ネットワークをエミュレーションするために、Ｇ
個のグループは、（ａ）指定された総和モードでグル
ープの通信ＡＬＵツリーから生成されたＮ² Ｗ_i,j Ｙ_j
ＰＥ提供のデータのＮ個の部分的総和の外部総和、
（ｂ）Ｎ個のニューロン・アクチベーション関数Ｙ_j 値
を表すＮ個のルート・ツリー・プロセッサ・データをＮ
ＰＥのＹ_j=i ストレージへ逆方向通信。この場合、該
ＰＥは結合荷重ストレージ・ユニットＷ_i,j を含み、こ
れによって各ＰＥ内で、ｊ番目のＹ値を一致するｊ番目
の添字をもつ結合荷重と関連づける、（ｃ）Ｎ個のニュ
ーロン誤差信号Ｅ_i を表すＮ個のルート・ツリー・プロ
セッサ・データをＮ個のＰＥのストレージ・ユニットへ
逆方向通信。この場合、該ＰＥは結合荷重ストレージ・
ユニットＷ_i,j を含み、これによって各ＰＥ内で、ｉ番
目の誤差信号値を一致するｉ番目の添字をもつ結合荷重
と関連づける、（ｄ）指定された総和モードで、グルー
プの通信ＡＬＵツリーから生成されたＷ_i,j Ｅ_i の積の
部分的荷重誤差総和の外部総和、上記目的のためにスイ
ッチング・ツリー・メカニズムに接続することができ
る。請求項１３に記載の装置において、Ｇ個のグループ
をルート・ツリー・プロセッサに接続するスイッチング
・ツリー・メカニズムは、次のように信号ノードのＮ／
Ｘ個の四角形アレイにグループ化される分割三角形アレ
イの出力から構成された、Ｇ個のグループとのインタフ
ェースを備え、Ａ．Ｙ₁ ，Ｙ_X+1 ，Ｙ_2X+1，…，Ｙ−＜Ｎ−Ｘ＋１＞で
表されたルート・ツリー・プロセッサ出力値の分割グル
ープ・チップ出力から構成されたＮ／Ｘ四角形アレイの
一番目を作成すること、ａ．Ｙ_i に関連するグループ・チップ出力信号をアレイ
の１行目に入れること、ｂ．Ｙ_X+1 に関連するグループ・チップ出力値をアレイ
の２行目に入れること、ｃ．Ｙ_2X+1に関連するグループ・チップ出力値をアレイ
の３行目に入れること、ｄ．グループ・チップ出力信号をアレイの行に入れるこ
とを次のｅまで続けること、ｅ．Ｙ_N-X+1 に関連するグループ・チップ出力信号をア
レイの最終行に入れること、Ｂ．Ｙ₂ ，Ｙ_X+2 ，Ｙ_2X+2，…，Ｙ−＜Ｎ−Ｘ＋２＞で
表されたルート・ツリー・プロセッサ出力値の分割グル
ープ・チップ出力から構成されたＮ／Ｘ四角形アレイの
二番目を作成すること、Ｃ．ルート・ツリー・プロセッサの分割グループ・チッ
プ出力信号から構成された四角形アレイの作成を次のＤ
まで続けること、Ｄ．Ｙ_X ，Ｙ_2X，Ｙ_3X，…，Ｙ_N で表されたフート・ツ
リー・プロセッサ出力値から構成されたＮ／Ｘ番目の四
角形アレイを作成することができる。

【００４２】上記の装置において、スイッチング・ツリ
ー・メカニズムは、折り畳まれた信号ノード四角形アレ
イに含まれる各２重出力信号ノード・ペア間に追加され
たスイッチと共に折り畳まれた信号ノード、およびグル
ープ・チップの外部に置かれた、通信ＡＬＵツリーの通
信ＡＬＵツリー・リーフ・ノードと、通信ＡＬＵツリー
のうち、グループ・チップの外部に置かれた部分とから
なるＮ／Ｘ個の四角形アレイから構成され、ルート・ツ
リー・プロセッサとのインタフェースとなるツリー構造
を完成することができる。

【００４３】上記の装置において、スイッチング・ツリ
ー・メカニズムを制御する手段は、同期タグ・メカニズ
ムをプログラマブル・アルゴリズムで制御することによ
り行い、その制御はルート・ツリー・プロセッサとプロ
グラマブル・プロセッサ・ホスト・インタフェースに常
駐しているようにすることができる。

【００４４】請求項１３に記載の装置において、選択し
たＮ値に基づく超並列コンピューティング・システム
は、Ｘ² 個のＰＥとルート・ツリー・プロセッサのグル
ープを既存の構造に追加し、追加のプロセッサをサポー
トするようにスイッチング・ツリー・メカニズムとプロ
グラマブル・プロセッサ制御装置に変更を加えることに
よって、Ｎ値がもっと大きくなるようにスケーリング可
能である。

【００４５】

【作用】本発明による装置は、スイッチング・ツリーと
も呼ばれ、対角線折畳みツリーに接続されたルート（ｒ
ｏｏｔ−根）・ツリー・プロセッサの完全な結合性を維
持するスケーラブル相互結合スイッチング装置となるも
のである。本発明装置は、Ｎ個のルート・ツリー・プロ
セッサ、Ｎ個の対角線折畳みツリー、およびＮ²個の処
理エレメント（ＰＥ）から構成されている。以下では、
完全結合ニューラル・ネットワーク・モデルを使用し
て、スイッチング・ツリー・コンピュータのスケーラビ
リティと完全結合性および汎用機能を備えた超並列プロ
セッサとしての構造の適応性を実例を示して説明するこ
とにする。本発明によって提供されるＰＥの編成はテク
ノロジまたはアプリケーションの制約条件に基づいて、
いくつかのＰＥグループに分割可能になっている。各グ
ループは複数のＰＥからなり、ＰＥは命令とデータ記憶
ユニットを備え、命令とデータを受け取り、命令を実行
し、命令とデータの外部記憶装置とのインタフェースと
なることができる。スイッチング・ツリー型コンピュー
ティング装置には、ＴＳＮＡＰで使用されている乗算エ
レメントなどの特殊目的データ・プロセッサＰＥも含ま
れている。ＰＥのグループは特殊タイプの「グループ」
命令も実行し、各々のＰＥは通信ＡＬＵツリーとのイン
タフェースとなっている。ニューラル・アプリケーショ
ンでは、Ｎ個のルート・ツリー・プロセッサはニューロ
ン・オペレーションをエミュレートし、例えば、シグモ
イド・ジェネレータ（ｓｉｇｍｏｉｄｇｅｎｅｒａｔ
ｏｒ）などのニューロン・アクティベーション（活性
化）機能をプログラム・コードまたはハードウェアでサ
ポートしており、スイッチング・ツリーはグループとＰ
Ｅを相互結合して、命令とデータだけでなく、ニューロ
ン・アクティベーション機能ユニットの出力も通信ＡＬ
Ｕツリーを経由して処理エレメントの入力に送り返すＮ
ニューロン構造を構築する。プロセッサ・グループは、
相互結合されたＰＥを経由するルート・ツリー・プロセ
ッサの完全結合性を維持する高性能汎用コンピューティ
ング装置を構築するために使用されている。

【００４６】以下では、上記および他の改良について詳
しく説明する。本発明を、その利点および特徴と共によ
り良く理解するために、以下の説明では、この分野で発
明者が行なってきた他の開発に関する他の共に係属中の
特許出願を参照することもある。しかし、特にここに記
載の改良、利点および特徴については、記載中で参照を
行う。

【００４７】

【実施例】説明の便宜上、１つの図はいくつかの部分に
分割されており、１つの図が複数の枚数に分かれている
ときは、図の上部は１枚目に示し、その下の部分は２枚
目に、さらにその下の部分は３枚目に（以下、同じ）と
いったように、説明の順序に従って示してある。

【００４８】以下、図面を参照して、本発明の実施例に
従って本発明を詳しく説明する。

【００４９】本発明の実施例を説明する前に、実施例を
説明する際に使用されているいくつかの共通的な機能を
紹介することにする。

【００５０】１．序スケーラブル超並列グループ分割対角線折畳みスイッチ
ング・ツリー型コンピューティング装置について、ニュ
ーラル・エミュレーションを例にして説明することにす
る。ニューラル・エミュレーションでは、採用すべきニ
ューロン・モデルを説明する必要がある。そこで、次の
ようなニューロン定義が与えられている。ニューロン関
数は、従来想定されている形式から（ＳＮＡＰ９０、
ＴＳＮＡＰ９０、およびＳＰＩＮ９０を参照）式１
に記述されている形式に変更されている。この変更は項
Ｅ_Xiを追加したものであり、これはニューロン処理エレ
メントへの外部入力を表している。

【００５１】

【数１】

【００５２】多くのフィードフォワード・ニューラル・
ネットワークでは、ニューロンの入力層（レイヤ）だけ
が外部入力を使用している。公知文献Ｒｕｍｅｌｈａｒ
ｔ８６では、フィードフォワード・ネットワークの入
力ニューロンは、ニューラル・ネットワーク内のその他
のニューロンがそうであるように、シグモイド関数では
なく、同一性（ｉｄｅｎｔｉｔｙ）アクティベーション
／出力関数（Ｙ_i ＝Ｅ_Xi）の形態をとっている。入力ニ
ューロンでは、シグモイド関数が代わりに使用できるの
で、すべてのニューロンは、Ｅ_Xiの範囲を−Ａ≦Ｅ_Xi≦
＋Ａまで拡張することにより、同一アクティベーション
関数を所有することができる。ただし、Ｅ_Xiがニューロ
ンへの唯一の入力である場合を想定すると、−ＡはＹ_i
＝０に等しく、＋ＡはＹ_i ＝１に等しくなる。許容し得
るある誤差の範囲内では、入力ニューロンは外部入力Ｅ
_Xiを使用することにより、強制的に「０」か「１」の状
態にすることができる。ネットワーク内のその他のニュ
ーロンの場合のＥ_Xiは、必要でなければ、ゼロに等しく
することができる。

【００５３】ニューロン・アクティベーション関数Ｆ
（ｚ_i ）は、シグモイド関数に等しくなるようにセット
され、その形式は、例えば、次のとおりである。

【００５４】

【数２】

【００５５】ただし、・ｅ＝自然対数（２．７１８２８…）・関数Ｆ（ｚ_i ）の場合、

【００５６】

【数３】

【００５７】・０≦Ｆ（ｚ_i ）≦１・Ｔは、ｚ_i 値の集合が与えられているときシグモイ
ド関数の傾きを修正するために使用されるグローバル制
御パラメータである。

【００５８】ＬＥＡＲＮ９０から引用して図３〜図６
に例示したＴＳＮＡＰ構造（ＴＳＮＡＰ９０を参照）
は、Ｎ² 個の処理エレメントとＮ個の通信ＡＬＵツリー
（ＣＡＴ）を使用しているので、Ｎがトリビアル（ｔｒ
ｉｖｉａｌ）値でないときは容易に構築することができ
ない。超並列処理システムを代表しているＴＳＮＡＰ構
造は、Ｎがトリビアルでないとき、シングル・チップ上
に実装可能な共通「ビルディング・ブロック」として使
用できる処理アレイをベースとしたスケーラブル設計の
必要性を示唆している。ＴＳＮＡＰのスケーラビリティ
を実証するためには、ＴＳＮＡＰを等サイズのプロセッ
サ・アレイ「ビルディング・ブロック」に分割し、これ
らのビルディング・ブロックが同一の三角形構造をも
つ、より大きなアレイを構築し、ＴＳＮＡＰの機能を構
築した構造に残しておくために使用できることが要求さ
れる。前述した要求条件が実証できると想定すると、分
割手法を利用すれば、設計者が選択した分割の制約条件
に支配されるＮが任意のサイズのとき、ＴＳＮＡＰを構
築することにより、スケーラブルなマシン構造を実証す
ることができる。

【００５９】以上を要約して説明すると、ニューラル・
エミュレーションの場合、シナップス関数と呼ばれる結
合荷重関数（ｃｏｎｎｅｃｔｉｏｎｗｅｉｇｈｔｆ
ｕｎｃｔｉｏｎ）をモデル化するためにプロセッサ・エ
レメント（ＰＥ）をプログラミングすることは、通信モ
ードにある接続ＡＬＵツリーからＰＥＩＮＳＴＲレジ
スタで受信された命令を通して行うことが可能である。
各ＰＥは、命令を受け取ると、その命令で指定されたオ
ペレーションを実行し、その結果を指定された宛先（こ
れは接続ＡＬＵツリーである場合がある）へ送る。命令
のタイプには、データとコマンド経路判断命令、算術演
算命令、および論理演算命令がある。ＴＳＮＡＰ乗算エ
レメントは図１の（Ａ）と（Ｂ）に示され、対応するプ
ロセッサ・エレメントの例は図１の（Ｃ）と図２に示さ
れている。詳しい説明については、命令セット体系（ア
ーキテクチャ）と共に、公知文献ＬＥＡＲＮ９０を参
照されたい。各ＰＥは各処理エレメント用別にソースと
宛先の経路を指定する命令レジスタとＥＸＵ機能を備え
ている。つまり、対角線ＰＥは１つの命令レジスタを備
え、汎用ＰＥは２つの命令レジスタを備えている。

【００６０】本明細書に提示されている諸概念を理解し
やすくするために、４ニューロンの例が図３〜図６に示
されている。ルート（根）タイプ・プロセッサ＃３によ
って生成されるニューロン３のニューラル・エミュレー
ション式の例がそこに書かれているが、対応する記憶エ
レメントは図３〜図６に強調して示されている。

【００６１】

【数４】 Y₃＝F(W_3,1 Y₁ ＋W_3,2 Y₂ ＋W_3,3 Y₃ ＋W_3,4 Y₄ 本発明は、Ｎのサイズが与えられているとき、ＴＳＮＡ
Ｐタイプのプロセッサ構造が、システムを物理的に拡張
するためにも使用される単一共通反復可能設計を利用し
てどのように構築されて、スケーラブルな設計が得られ
るかという問題を扱っている。第１のセクションでは、
ＰＥからなる三角形アレイがＰＥからなる複数の三角形
アレイと四角形アレイに分割可能であることを実証する
分割手法を示している。第２セクションでは、１組のエ
レメント・マッピング・ルールに従って、分割手法を応
用することによって得られた各四角形アレイから２つの
三角形アレイを作る分割アルゴリズムを示している。明
らかなように、分割アルゴリズムから得られる三角形ア
レイは、分割手法の応用によって得られる三角形アレイ
と同等である。そのあとに続くセクションでは、２つの
例を示し、分割手法がＴＳＮＡＰ構造に応用できること
を実証する。次のセクションでは、複数の「ビルディン
グ・ブロック」アレイを結合して、ＴＳＮＡＰの機能を
備えたシステムに構築する「通常の」相互結合メカニズ
ムについて説明する。これら次のセクションの第１のセ
クションでは、分割設計の機能要件について説明する。
第２のセクションでは、「通常の」相互結合メカニズム
を作成するアルゴニズムについて説明する。第３のセク
ションでは、ＴＳＮＡＰの機能要件をそのまま残してお
くための相互結合メカニズムが示されている。第４セク
ションでは、２つの例を示して、相互結合メカニズムの
応用を実証する。最後のセクションでは、代替スケーリ
ング手法について簡単に説明する。

【００６２】２．三角形アレイ分割作図により、アレイの各エッジがＫ個のエレメントをも
つという属性をもつエレメントからなる三角形アレイに
ついて検討する（図７）。分割手法：ＫとＸを整数と
し、ＫをＸによって割ることが可能であるとすると、寸
法Ｋの三角形アレイは次のように分割することができ
る。

【００６３】

【外３】

【００６４】三角形アレイはＫ／Ｘ個の区画に分割する
ことができる。｛（Ｋ／Ｘ）−１｝は台形、１つの区画
は寸法Ｘの等辺三角形である（図８参照）。

【００６５】ｉ番目と（ｉ＋１）番目の水平「ライン」
で内包された台形は寸法Ｘ（辺）、ｉＸ（頂点）、Ｘ
（三角形の対角線エッジの辺）、および（ｉ＋１）Ｘ
（底面）を具備している。ｉ番目の台形の上縁と下縁に
ｉＸ個のエレメントとｉＸ＋Ｘ個のエレメントがあるこ
とは、台形をＸによって“ｉ”Ｘ×Ｘ四角形アレイと寸
法Ｘの１つの等辺三角形アレイに分割できることを示唆
している（図８）。

【００６６】従って、Ｋ／Ｘ個の区画があるとすると、
寸法Ｘの等辺三角形はＫ／Ｘ個存在することになる。

【００６７】さらに、最初の区画による四角形は「０」
個（最初の区画は等辺三角形である）、２番目の区画に
よるＸ×Ｘ四角形は１個、最後のＫ／Ｘ区画におけるＸ
×Ｘ四角形は｛（Ｋ／Ｘ）−１｝個であるので、次式に
示す四角形が存在することになる。

【００６８】

【数５】

【００６９】３．分割アルゴリズム分割手法は、三角形アレイを三角形と四角形に分割する
ことを示唆している。しかし、分割の究極的目標は、こ
の手法が示唆するように、２つの共通設計から１つの任
意的なＴＳＮＡＰ構造が得られるようにすることではな
く、単一の「ビルディング・ブロック」を得ることであ
る。その限りでは、任意のＴＳＮＡＰ三角形構造を等サ
イズの複数の三角形アレイに分割できることが実証され
ている。確かに、分割手法の結果である四角形アレイ
は、２つの等サイズ三角形アレイに分割することができ
ない。四角形アレイの分割を可能にするためには、分割
手法から得られる構造に関して、さらに検討する必要が
ある。ＴＳＮＡＰ構造を調べると、次のようなことが妥
当する。

【００７０】１．対角線エッジのエレメントは単一の処
理エレメント、つまり、対角線ＰＥを含んでいる。

【００７１】２．残りのエレメントは２重処理エレメン
ト、つまり、汎用ＰＥを含んでいる。

【００７２】三角形アレイに含まれるエレメントのタイ
プについてこの考え方を採用し、分割手法を適用する
と、次のものが得られる。

【００７３】１．寸法ＫのＫ／Ｘ個の三角形アレイ。た
だし、Ｘ個の対角線エレメントは単一プロセッサ対角線
ＰＥであり、プロセッサの残余は２重プロセッサ対角線
ＰＥであり（図９の（Ａ））、この場合、プロセッサ・
エレメントは“ａ”で示されている。

【００７４】２．寸法ＸのＫ（Ｋ−Ｘ）／２Ｘ² 個の四
角形アレイ。ただし、すべてのプロセッサ・エレメント
は汎用ＰＥであり（図９の（Ｂ））、この場合、２重プ
ロセッサ・エレメントは“ｂｃ”で示されている。

【００７５】図９の（Ｂ）示す四角形構造では、分割手
法から得られた２重プロセッサ・エレメントの四角形ア
レイを受け取って、対角線上の単一対角線ＰＥと、対角
線以外では汎用ＰＥから構成された分割手法の三角形ア
レイと同等の２つの三角形アレイを作成しているが、そ
のような構造の場合には、分割手法は、次に説明するよ
うに可能である。

【００７６】１．図９の（Ｂ）に例示するように、分割
手法の三角形アレイから始める。

【００７７】２．図１０に（Ｃ）と（Ｄ）で示した２つ
のＸ×Ｘアレイを作成する。この場合、最初のＸ×Ｘア
レイ（Ｃ）は図９の（Ｂ）からのエレメント“ｂ”から
構成され、２番目のＸ×Ｘアレイ（Ｄ）は図９の（Ｂ）
からのエレメント“ｃ”から構成されている。

【００７８】３．両方のアレイ（Ｃ）と（Ｄ）を折り畳
む（図１１）。

【００７９】図１１に示すように、三角形アレイは対角
線上の対角線ＰＥと同等の単一処理エレメントと、対角
線以外では汎用ＰＥと同等の２重処理エレメントを内包
している。従って、ＮがＸによって分割可能ならば、サ
イズＮのＴＳＮＡＰ三角形アレイは各々がサイズＸで、
対角線上に単一対角線ＰＥと残余に２重汎用ＰＥをもつ
より小さな三角形アレイに分割できると結論することが
できる。

【００８０】４．分割の例三角形アレイの分割を分かりやすく説明するために、図
１２〜図１４に示すシナップス・プロセッサ構造ＬＥＡ
ＲＮ９０に基づいて、８ニューロン・ネットワークの
エミュレーションに適したＴＳＮＡＰ構造について検討
することにする。ただし、

【００８１】

【数６】

【００８２】および乗算の演算はＭＰＹＡ−Ｒ１^* Ｒ２
→Ｔ命令によって指定される。この命令は、Ｗ_ijが入っ
ているＲ１がＹ_j が入っているＲ２によって乗算され、
その結果の積が接続されたＡＬＵツリーへ送られること
を示している。分割ステップを説明する便宜上、外部入
力項Ｅｘ_j は無視してもよい。

【００８３】分割手法は、ＴＳＮＡＰ構造が複数の三角
形アレイと四角形アレイに分割できることを示唆してい
る。Ｋ＝８とＸ＝４の区画をもつ８ニューロン例の場合
は、２個の三角形アレイと１個の四角形アレイからなっ
ている。細分割したアレイをメイン構造から分離し、Ａ
ＬＵツリーの最終ステージをＰＥの構成の外部に置く
と、図１５〜図１７に示す構造が得られる。この構造は
３つの構造、つまり、２つの三角形アレイと１つの四角
形アレイを含んでいる。図１５〜図１７から明らかなよ
うに、三角形アレイは対角線エレメントに単一対角線Ｐ
Ｅを、他のエレメントに２重汎用ＰＥを含んでおり、四
角形アレイは汎用ＰＥだけから構成されている。目標は
任意サイズＮのＴＳＮＡＰ構造を構築するために反復可
能なシングル・チップ・アレイ設計を得ることであるの
で、四角形構造は分割アルゴリズムが示唆するように、
三角形構造に分割されなければならない。

【００８４】以上の説明から理解されるように、８ニュ
ーロン例の分割四角形アレイ（図１５〜図１７）では、
水平のツリー集合から４つの出力を発生し、垂直のツリ
ー集合から４つの出力を発生する２重プロセッサ汎用Ｐ
Ｅを２つの直交ツリー集合で相互結合している。最初の
ステップは、四角形アレイ（図１８）を単一プロセッサ
の２つの四角形アレイ（図１９と図２０）に分割するこ
とであり、この場合、水平ツリーと垂直ツリーおよびこ
れらの結合プロセッサは、この分割の影響を受けないま
まになっている。水平ツリーと垂直ツリーの両方の四角
形プロセッサ・アレイを上部左から下部右に向かう対角
線に沿って折り畳むと、対角線上に単一対角線ＰＥと残
余のエレメントに２重汎用ＰＥをもつ２つの三角形アレ
イが作られる（図２１の（Ａ）と（Ｂ））。明らかなよ
うに、分割手法から得られる三角形構造は分割手法の応
用によって得られる三角形アレイと同じ形体と寸法にな
っている。分割プロセスは通信ＡＬＵツリー（ＣＡＴ）
も分割して、ツリーの一部を三角形アレイ・チップの外
部に移している。値がＸのとき三角形アレイに残ってい
る部分は次式によって与えられる。

【００８５】

【数７】オンチップCAT ステージの個数＝ceiling (log₂ X) その結果、三角形アレイ・チップの外部に置かなければ
ならないＣＡＴステージの個数は、ＮとＸで表すと、次
式のようになる。

【００８６】

【数８】外部CAT ステージの個数＝ceiling (log₂ N)−
ceiling (log₂ X) ｃｅｉｌｉｎｇ関数からは、オペランドが小数であれば
オペランドを大きい最も近い整数値が得られ、そうでな
ければ、オペランド値が得られる。Ｘの値が２の倍数で
ない場合は、遅延エレメントをツリー・ステージに適当
に使用することにより、平衡型バイナリ・ツリーが維持
される。外部ＡＬＵツリー総和関数とシグモイド・エミ
ュレーション関数、および８ニューロン・モデルを完成
したＣＡＴ通信経路は図２２に示されている。図２２に
おいて、（→）はＣＡＴ総和経路を示し、（←）はＣＡ
Ｔ通信経路を示している。分割プロセスをたどっていく
と、図１２〜図１４の大きな三角形構造は４個の小さな
三角形アレイから構成されていることが明らかである。

【００８７】分割プロセスとその結果得られる共通「ビ
ルディング・ブロック」三角形アレイ・チップを分かり
やすく説明するために、以下では、プロセッサ・グルー
プに関する新しい考え方を紹介することにする。プロセ
ッサ・アレイ・グループの個数、つまり、三角形アレイ
・チップの個数は“Ｇ”で示されており、“Ｈ”はグル
ープＧ内の単一チップ・エレメントの個数を表し、これ
は２重プロセッサ汎用ＰＥを示している。ＧとＨは、Ｎ
および分割係数Ｘ（ただし、Ｘはテクノロジを考慮して
求められる）で表すと、次式で表される。

【００８８】

【数９】

【００８９】例えば、Ｘ＝４のＮ＝８ニューロン・エミ
ュレーションのケースでは、各分割三角形構造はサイズ
Ｈ＝１６のグループ・チップを表している。図１５〜図
１７は２つのグループ・チップを示し、一方のチップは
信号Ａ１，Ａ２，Ａ３およびＡ４を発生し、他方のチッ
プは信号Ｂ５，Ｂ６，Ｂ７およびＢ８を発生する。図２
１は分離された三角形アレイ・グループ・チップを示
し、一方は信号Ｂ１，Ｂ２，Ｂ３およびＢ４を発生し、
他方は信号Ａ５，Ａ６，Ａ７およびＡ８を発生する。Ｎ
＝８三角形アレイを作るには（図１２〜図１４）、４つ
のグループ・チップＧ＝４が必要である。

【００９０】別の例はＮ＝１６の場合であり、分割プロ
セスをもっと分かりやすくするために示したものであ
る。最初のステップでは、Ｘの選択値に基づいて、１６
ニューロン・エミュレーション構造を三角形アレイと四
角形アレイのグループに分割する。Ｎ＝１６ニューロン
の例では、図２３〜図２５に示すようにＸ＝３が選択さ
れている。グループ・サイズＨに１６を使用した１６ニ
ューロン・モデルでは、１，２，３，４で示した４つの
三角形アレイと、５，６，７，８，９，１０で示した６
つの四角形アレイが存在する。四角形アレイは各々が２
つの単一プロセッサ四角形アレイに分離され、水平ツリ
ーと垂直ツリーをそのまま保持しており、そのあと所望
の三角形アレイに折り畳まれる。その結果の１６三角形
アレイは、このケースでは、各々に図２３〜図２５を参
照するグループ・ラベルを付けて、図２６〜図３３に示
されている。外部ＡＬＵツリー総和関数とシグモイド・
エミュレーション関数、および１６ニューロン・モデル
を完成するＣＡＴ通信経路は図３４に示されている。こ
の場合、（→）は正方向総和経路を示し、（←）は逆方
向通信経路を示している。図を分かりやすくするため
に、本明細書中で使用されている図２３〜図２５と図２
６〜図３６および他の図では、ニューロン荷重およびＹ
値を表すために、Ａ〜Ｇの英字に１０〜１６の数字が代
入されている。

【００９１】・Ａ＝１０・Ｂ＝１１・Ｃ＝１２・Ｄ＝１３・Ｅ＝１４・Ｆ＝１５・Ｇ＝１６５．外部ツリー要件と説明上述の説明から明らかなように、四角形アレイを２つの
三角形アレイとして再構築するために応用される分割ア
ルゴリズムはＣＡＴ通信経路に影響を与えている。以下
では、分割が完了した後も、元の構造の機能をそのまま
残しておくことができることを実証するために、グルー
プ分割アルゴリズムについて引き続き説明する。機能を
そのまま残しておくことを実証するためには、機能要件
を明確化することが重要である。まず、説明の理解を容
易にするために、Ｘ＝４のＮ＝８とＮ＝１６の両方の例
の場合のツリーとスイッチング・メカニズムを例に用い
て学習機能のない外部ツリー要件について説明する（図
３５および図３６）。次に、追加の要件と、学習機能に
対するサポートを取り入れるためにその追加要件がどの
ような方法で達成されるかについて説明する。

【００９２】図３５は、Ｙ１とＹ５のときの８ニューロ
ン・エミュレーション例の場合の外部スイッチ経路メカ
ニズムとＣＡＴを示し、図３６は、Ｙ１，Ｙ５，Ｙ９お
よびＹＤのときの１６ニューロン・エミュレーション例
の場合の外部スイッチとＣＡＴを示している。各例にお
ける他のエミュレート・ニューロン出力にも同じタイプ
のスイッチング・ツリー・メカニズムが使用される。注
目すべきことはＣＡＴ通信経路内の経路スイッチがスイ
ッチング・ツリー・メカニズムによって実現されること
である。例えば、図３５に示す「ＳｗｉｔｃｈＰｏｓ
ｉｔｉｏｎＦｏｒＣｏｍｍｕｎｉｃａｔｉｏｎｓ」
では、Ｙ１はＡ１およびＡ５ＣＡＴ経路と通信するの
に対し、Ｙ５はＢ１およびＢ５と通信する。図１５〜図
１７と図２１の三角形構造に示すように、Ｙ値はそれぞ
れのＡＬＵツリーのソース・ポイントの反対側の正しい
レジスタに受け入れられる。図３６に示すように、１６
ニューロン例にも通信経路内の同じスイッチが使用され
ている。

【００９３】スイッチング・ツリー・メカニズム（図３
５および図３６）は、バックプロパゲーション学習をサ
ポートするためにはさらに改良が必要である。スイッチ
ング・ツリー・メカニズムでは４種類の動作モードがサ
ポートされている。そのうちの２動作モードは図３５と
図３６に示すように、式１と２のニューロン・エミュレ
ーションによるものであり、他の２動作モードはバック
プロパゲーション学習によるものである。具体的には、
動作モードは次の通りである。

【００９４】１．グループ・チップからの部分的に作成
されたニューロン入力ＡＬＵ総和関数の外部総和。

【００９５】２．ニューロン出力Ｙ値の逆方向通信。

【００９６】３．学習における誤差信号Ｅ_i の逆方向通
信。ただし、Ｅ_i ＝δ_i- ＬＥＡＲＮ９０４．学習における荷重誤差ＡＬＵ総和ＥＲ_i の外部総
和。ただし、

【００９７】

【数１０】

【００９８】動作モード１と４はＣＡＴ総和経路に関係
し、動作モード２と３はＣＡＴ通信経路に関係する。学
習とニューロン実行に要求される外部ＡＬＵ関数と通信
条件は異なっている。従って、異なる値が外部で総和さ
れ、異なる値が通知されるが、これは、ハードウェアが
ニューロン・エミュレーション・モードにあるか、学習
モードをエミュレートしているかによる。もっと詳しく
説明するために、ニューロン実行のための通信経路を学
習と比較して検討することにする。ニューロン・エミュ
レーション・モードでは、通信されるＹ_j はその該当の
Ｗ_ij倍する必要があるのに対し、学習では、通信される
誤差信号Ｅ_i はその該当するＷ_ij倍する必要が有る（Ｒ
ｕｍｅｌｈａｒｔ８６およびＬＥＡＲＮ９０を参
照。）逆方向に通信される値Ｙ_j とＥ_i の下付き文字の
見かけ上の小さな変化は、Ｅ_i 値と対照的に、Ｙ_j 値に
は異なる通信経路が必要であることを示している。異な
る経路は、分割された内側四角形の分離された三角形に
よるものである。分割された内側四角形汎用ＰＥアレイ
を２つの単一プロセッサ・アレイに分割すると、完全結
合のために必要な内部汎用ＰＥ経路スイッチが分離され
る。この機能をそのまま残すためには、内部汎用ＰＥ経
路スイッチをなんらかの方法で復元する必要がある。例
のうちの図３５〜図３６のスイッチング・ツリーは、ニ
ューロン・エミュレーションと学習のために必要な異な
る経路要件を共にサポートするように修正する必要があ
る。図３７は、８ニューロン例の修正されたスイッチン
グ・ツリー・メカニズムを示している。同図において、
ラベルを付けた（１）〜（４）は、上述した４つのスイ
ッチ動作モードに対応している。

【００９９】以下の説明から理解されるように、動作モ
ードによっては、すべての経路が修正される訳ではな
い。図３７を例に用いて説明すると、信号Ａ１とＢ５に
対する動作モード（１）ニューロン入力ＡＬＵ総和経路
は、信号Ａ１とＢ５に対する動作モード（４）の荷重誤
差ＡＬＵ総和に必要なものと同じ経路である。さらに、
信号Ａ１とＢに対する通信経路は動作モード（２）のニ
ューロン・エミュレーションと動作モード（３）の学習
のどちらも同じである。図１５〜図１７に示すように、
Ａ１とＢ５は分割アルゴリズムの使用を必要としない対
角線三角形アレイと関連づけられている。動作モードに
応じて修正する必要のある経路は、分割された内側四角
形からの分離された三角形構造に関連する経路である。

【０１００】６．スイッチング・ツリー・メカニズム４動作モードに関して上述した説明は、一般スイッチン
グ・メカニズムおよびスイッチ接続を定義するためのプ
ロシージャが必要であることを示唆している。このセク
ションでは、分割アルゴリズムから生成された「ビルデ
ィング・ブロック」の相互結合のためのスイッチング・
ツリーを定義するためのプロシージャについて説明す
る。スイッチング・ツリーを構築するプロシージャを説
明した後、ニューラル・エミュレーションのための機能
がスイッチング・ツリー・メカニズムによってそのまま
残されることを実証する。

【０１０１】その概要を上述したように、区画サイズを
Ｘとして分割手法を応用して得られた三角形アレイおよ
び四角形アレイと共に、図３８〜図４１に示す一般化し
た三角形アレイについて検討する。図３８〜図４１に示
すように、三角形および四角形アレイ出力信号はアレイ
のエッジ上にリストされている。三角形アレイ出力は三
角形アレイの下側のエッジ上に配置され、四角形アレイ
出力は四角形アレイの下側と右側のエッジ上に配置され
ている。ここでは、平衡型バイナリＣＡＴが全体に使用
されることが想定されている。この場合、平衡型ツリー
を保証するために遅延エレメントが使用されている。

【０１０２】一般化したニューロン・エミュレーション
式は、Ｋ，Ｌ，ＸおよびＮを項として、分割された三角
形および四角形アレイ出力信号を関数として次のように
書くことができる。

【０１０３】

【数１１】 Y₁＝F(A_1,1＋A_2,1＋…＋A_K,1＋…＋A_L,1＋…＋A_N/X,1) Y₂＝F(A_1,2＋A_2,2＋…＋A_K,2＋…＋A_L,2＋…＋A_N/X,2) ：： Y_X＝F(A_1,X＋A_2,X＋…＋A_K,X＋…＋A_L,X＋…＋A_N/X,X) Y_X+1＝F(A_1,X+1＋A_2,X+1＋…＋A_K,X+1＋…＋A_L,X+1＋…＋A_N/X,X+1) Y_X+2＝F(A_1,X+2＋A_2,X+2＋…＋A_K,X+2＋…＋A_L,X+2＋…＋A_N/X,X+2) ：： Y_2X ＝F(A_1,2X ＋A_2,2X ＋…＋A_K,2X ＋…＋A_L,2X ＋…＋A_N/X,2X) ：： Y_(k-1)X+1 ＝F(A_1,(K-1)X+1 ＋A_2,(K-1)X+1 ＋…＋A_K,(K-1)X+1 ＋…＋A_L,(K-1)X+1 ＋…＋A_N/X,(K-1)X+1) Y_(k-1)X+2 ＝F(A_1,(K-1)X+2 ＋A_2,(K-1)X+2 ＋…＋A_K,(K-1)X+2 ＋…＋A_L,(K-1)X+2 ＋…＋A_N/X,(K-1)X+2) ：： Y_KX ＝F(A_1,KX ＋A_2,KX ＋…＋A_K,KX ＋…＋A_L,KX ＋…＋A_N/K,KX) ：： Y_(L-1)X+1 ＝F(A_1,(L-1)X+1 ＋A_2,(L-1)X+1 ＋…＋A_K,(L-1)X+1 ＋…＋A_L,(L-1)X+1 ＋…＋A_N/X,(L-1)X+1) Y_(L-1)X+2 ＝F(A_1,(L-1)X+2 ＋A_2,(L-1)X+2 ＋…＋A_K,(L-1)X+2 ＋…＋A_L,(L-1)X+2 ＋…＋A_N/X,(L-1)X+2) ：： Y_LX ＝F(A_1,LX ＋A_2,LX ＋…＋A_K,LX ＋…＋A_L,LX ＋…＋A_N/X,LX) ：： Y_N-X+1＝F(A_1,N-X+1＋A_2,N-X+1＋…＋A_K,N-X+1 ＋…＋A_L,N-X+1＋A_N/X,N-X+1) Y_N-X+2＝F(A_1,N-X+2＋A_2,N-X+2＋…＋A_K,N-X+2 ＋…＋A_L,N-X+2＋A_N/X,N-X+2) ：： Y_N＝F(A_1,N＋A_2,N＋…＋A_K,N＋…＋A_L,N＋…＋A_N/X,N) 図４２に示す任意のＫとＬに基づいて、任意の内側四角
形アレイについて検討する。図４４に示すように、平衡
型バイナリ・ツリーは、ノード点に“Ａ”の文字を使用
して記号で示されている。

【０１０４】四角形分割アルゴリズムを適用すると、任
意の内側四角形を２つの折畳み三角形アレイに分割する
ことができる。このアルゴリズムは、内側四角形を２つ
の四角形アレイに分割し（図４３と図４５）、そのあと
三角形アレイに折り畳むことによって適用される（図４
４と図４６）。

【０１０５】以上を要約すると、一般化された三角形ア
レイが使用され、それから１組のニューロンの式が三角
形および四角形アレイ出力信号を項として表され、分割
アルゴリズムが適用されてＧ三角形アレイが作られる。

【０１０６】ニューロン・エミュレーション、つまり、
式１のエミュレーションに定義されているように（ただ
し、これに限定されない）、分割された三角形アレイの
出力は、次のように出力信号の四角形アレイにグループ
化される。

【０１０７】１．出力信号Ｙ₁ ，Ｙ_X+1 ，Ｙ_2X+1，…，
Ｙ_N-X+1 で表されたルート（根）ツリー・プロセッサ・
エミュレート・ニューロンに対する分割グループ・チッ
プ出力信号から構成されたＮ／Ｘ四角形アレイの１番目
を作成する（図４７）。

【０１０８】ａ．Ｙ₁ に関連するチップ出力信号をアレ
イの１行目に入れる。

【０１０９】ｂ．Ｙ_X+1 に関連するチップ出力信号をア
レイの２行目に入れる。

【０１１０】ｃ．Ｙ_2X+1で表されたチップ出力信号をア
レイの３行目に入れる。

【０１１１】ｄ．チップ出力信号．．．を次のｄまでア
レイの行に入れる。

【０１１２】ｅ．Ｙ_N-X+1 で表されたチップ出力信号を
アレイの最終行に入れる。

【０１１３】２．出力信号Ｙ₂ ，Ｙ_X+2 ，Ｙ_2X+2，…，
Ｙ_N-X+2 で表されたルート（根）ツリー・プロセッサ・
エミュレート・ニューロンに対する分割グループ・チッ
プ出力信号から構成されたＮ／Ｘ四角形アレイの２番目
を作成する。

【０１１４】３．出力信号．．．で表されたルート
（根）ツリー・プロセッサ・エミュレート・ニューロン
に対する分割グループ・チップ出力信号から構成された
四角形アレイの作成を次の４まで続ける。

【０１１５】４．出力信号Ｙ_X ，Ｙ_2X，Ｙ_3X，…，Ｙ_N
で表されたルート（根）ツリー・プロセッサ・エミュレ
ート・ニューロンに対する分割グループ・チップ出力信
号から構成されたＮ／Ｘ番目の四角形アレイを作成す
る。

【０１１６】このプロシージャにより、分割三角形アレ
イから出力信号のＮ／Ｘ四角形アレイが作成される。例
えば、出力信号Ｙ₁ ，Ｙ_X+1 ，Ｙ_2X+1，…，Ｙ_N-X+1 で
表されたルート・ツリー・プロセッサ・エミュレート・
ニューロンに対する１番目の四角形アレイは、図４７に
示されている。

【０１１７】スイッチング・ツリー・プロシージャの次
のステップでは、これらＮ／Ｘ四角形の各々が折り畳ま
れ、外部スイッチとＡＬＵが折畳み第１出力アレイの次
の例に示すように追加される（図４８）。

【０１１８】Ｎ／Ｘスイッチング・ツリー・メカニズム
のＺ_i 出力は該当のホスト／ルート・ツリー・プロセッ
サに結合される。以上で、このメカニズムの説明を終わ
る。７．機能を維持したスイッチング・ツリー４動作モード、つまり、ニューロン入力総和（１）、Ｙ
値通信（２）、誤差信号通信（３）および荷重誤差総和
（４）をサポートするためには、図４８に示したスイッ
チは、双方向信号機能をスイッチが備えていると想定す
れば、２つの位置だけを必要とする。さらに、平衡型バ
イナリ・ツリーはスイッチング・ツリー・メカニズムで
使用されることを想定している。

【０１１９】式１をエミュレーションするためのスイッ
チング・ツリーの機能は、動作モード（１）のニューロ
ン入力正方向総和と動作モード（２）のＹ値総和によっ
て実証される。折畳み第１出力アレイは、スイッチをセ
ットし、機能が達成されていることを調べることによっ
てこれらの例で使用される。ニューロン入力総和動作モ
ード（１）では、スイッチは図４９に示すように配置さ
れている。ニューロン入力総和関数がスイッチング・ツ
リーを通して維持されていることを検証するために、任
意のＹ値が使用され、一般三角形アレイ構造から分離さ
れた任意の内側四角形に基づいて選択される。この例で
は、Ｙ_(K-1)X+1が選択される。Ｙ_(K-1)X+1の一般式をも
う一度下に示す。

【０１２０】

【数１２】 Y_(K-1)X+1 ＝F(A_1,(K-1)X+1 ＋A_2,(K-1)X+1 ＋…＋A_K,(K-1)X+1 ＋…＋A_L,(K-1)X+1 ＋…＋A_N/X,(K-1)X+1) ＝F(Z_(K-1)X+1) 図４９を調べるとわかるように、Ｙ_(K-1)X+1の一般式が
そのまま残されている。Ｙ値通信動作モード（２）で
は、スイッチは図５０に示すように配置されている。

【０１２１】分割する前の元のＴＳＮＡＰ構造では、Ｙ
_(K-1)X+1値はＹ_(K-1)X+1の式にリストされている各出力
信号点に伝達される。特に、図４２に示すように、分割
する前の一般化された内側四角形アレイでは、Ｙ
_(K-1)X+1はＡ_L,(K-1)X+1を通して返却される。図４２の
Ａ_L,(K-1)X+1ツリーの各リーフ（ｌｅａｆ）ノードで
は、汎用ＰＥはＹ_(K-1)X+1値を受け取り、経路を内部で
切り替えて、正しい宛先点を得ている。

【０１２２】ＴＳＮＡＰ構造を分割したあと、複数の三
角形アレイはスイッチング・ツリーを通して接続され
る。図５０に示すようなスイッチ設定値をもつスイッチ
ング・ツリー・メカニズムを使用すると、Ｙ_(K-1)X+1は
点Ａ_K,N-X+1 、Ａ_K,(L-1)X+1、Ａ_K,(K-1)X+1、Ａ_K,X+1
およびＡ_K,1 へ転送される。その後に続く経路Ａ
_K,(L-1)X+1では、そのツリーを図４６に示すように、Ｙ
_(K-1)X+1は汎用ＰＥリーフ・ノードに入力され、返却さ
れるＹ値のための正しいレジスタに内部で切り替えられ
る。

【０１２３】同じように、他の２つの動作モードは、ス
イッチング・ツリー・メカニズムを使用すると、正しく
機能することを実証することができる。

【０１２４】一般的には、スイッチング・ツリー・メカ
ニズムを判断するためのプロシージャは、４動作モード
をサポートするＴＳＮＡＰ機能を、複数の「ビルディン
グ・ブロック」とスイッチング・ツリー・メカニズムか
ら構築されたＴＳＮＡＰ構造にそのまま残している。

【０１２５】８．スイッチング・ツリーの例スイッチング・ツリー・メカニズムをもっと分かりやす
く説明するために、２つの例を示す。最初の例は、Ｇ＝
４、Ｈ＝１６の８ニューロン・エミュレーション・モデ
ルから得たものである。図５１〜図５３は、モード
（１）用に構成され、ニューラル入力総和をホスト／ル
ート・ツリー・プロセッセへ送るためのスイッチング・
ツリーを示している。図５１〜図５３に示す例では、Ｙ
７’は、スイッチング・ツリーに与えられたＡ７とＢ７
からルート・ツリー・プロセッサ７で生成される。Ａ７
は量（Ｗ７１Ｙ１＋Ｗ７２Ｙ２＋Ｗ７３Ｙ３＋Ｗ７４Ｙ
４）を与え、Ｂ７は量（Ｗ７５Ｙ５＋Ｗ７６Ｙ６＋Ｗ７
７Ｙ７＋Ｗ７８Ｙ８）を与える。Ｙ値通信のモード
（２）では、スイッチング・ツリーは図５４〜図５６に
示すように構成される。例えば、Ｙ７はＹ７の正しい経
路である点Ｂ３とＢ７へ伝達される。

【０１２６】スイッチング・ツリーは図５７〜図５９に
示すように動作モード（３）用に構成されており、点Ａ
７とＢ７を経由して誤差信号Ｅ_i 、例えばＥ₇ を伝達
し、汎用ＰＥは内部経路を汎用ＰＥがＹ値を受信したと
きと同じように切り替える。荷重誤差総和動作モード
（４）では、汎用ＰＥは図６０〜図６２に示す汎用ＰＥ
セルの中央に“Ｘ”のクロス印で示すように、反対側の
プロセッサと関連づけられたＷ値を選択する。オペラン
ドの選択は、各汎用ＰＥプロセッサに受信された命令に
よって容易に判断される。例えば、

【０１２７】

【数１３】ER7 ＝B3＋B7 ただし、 B3＝W17^*E1＋W27^*E2＋W37^*E3＋W47^*E4 B7＝W57^*E5＋W67^*E6＋W77^*E7＋W87^*E8 分割アルゴリズムとスイッチング・メカニズムの使用に
よって得られるスケーラビリティは、三角形処理アレイ
・チップを４倍したものを使用して、ニューロン数を８
から１６に２倍した例を見れば容易に理解される（図６
３〜図６９と図７０〜図７６）。これらの例では、スイ
ッチング・ツリー・メカニズムはより大きなシステムを
サポートするように改良されている。図６３〜図６９に
示す例では、

【０１２８】

【数１４】Y7＝A7＋B7＋C7＋D7 ただし、 A7＝W71^*Y1＋W72^*Y2＋W73^*Y3＋W74^*Y4 B7＝W75^*Y5＋W76^*Y6＋W77^*Y7＋W78^*Y8 C7＝W79^*Y9＋W7A^*YA＋W7B^*YB＋W7C^*YC D7＝W7D^*YD＋W7E^*YE＋W7F^*YF＋W7G^*YG 図７０〜図７６では、Ｙ７は点Ｂ３，Ｂ７，Ｂ１１およ
びＢ１５を経由して逆方向に伝達されが、これらの点
は、Ｙ７に対する汎用ＰＥの宛先がＢ３，Ｂ７，Ｂ１１
およびＢ１５のグループ・チップにあることを見れば分
かるように、正しいグループ・チップ出力点である。

【０１２９】一般的に、グループ分割アルゴリズムがＸ
が固定サイズの大きな構造に適用されると、より多くの
ＡＬＵツリー・ステージが外部ＡＬＵツリーに追加され
る。プロセッサ・グループがシングル・チップ上に実装
されていると想定すると、つまり、Ｈ個の処理エレメン
トがチップ上に実装されているとすると、スケーラブル
・アレイ設計を構築することが可能であり、その場合、
追加のグループ・チップを追加するとき、スイッチング
・ツリーだけを変更するだけで済む。これは８ニューロ
ンと１６ニューロンの例を見れば、明らかなように、同
一サイズの三角形アレイ・チップ設計はＮ＝８とＮ＝１
６の両方のＴＳＮＡＰ構造の構築に使用されており、外
部ＣＡＴだけが変更されている。

【０１３０】９．代替スケーリング手法ＳＮＡＰ構造についても、スケーラブル設計に関して検
討されている（ＳＮＡＰ９０参照）。また、ＴＳＮＡ
Ｐ構造の場合のスケーラビリティの別の手法が検討さ
れ、これはＴＳＮＡＰ９０に説明されている。

【０１３１】本明細書に示している検討対象の分割手法
から見たとき、いろいろな手法も存在する。その１つだ
けを取り上げて、詳しく説明することにする。三角形に
分割する前の内側四角形は、図１５〜図１７の８ニュー
ロン内側四角形を図７７〜図７９に示すように折り畳む
ことによって、例示のように折り畳んで、共通反復可能
「ビルディング・ブロック」として使用することが可能
である。折り畳んだアレイの荷重とＹ値をゼロにする
と、折り畳んだ四角形アレイは２倍のプロセッサを使用
してエッジ三角形アレイの機能をモデル化することがで
きる。このようなグループ配置では、外部スイッチング
機能がまだ要求される。分割した内側四角形折畳み三角
形アレイによるスイッチング機能が必要になる代わり
に、折畳み四角形ビルディング・ブロック上にモデル化
されたエッジ三角形アレイでは、スイッチング機能が必
要である。折畳み四角形ビルディング・ブロック手法で
は、対角線三角形アレイのサイズが与えられてるとき、
プロセッサ・グループ内に２倍のＰＥが必要になり、ス
イッチング・ツリー機能がまだ要求されるので、折畳み
四角形ビルディング・ブロック手法は、代替手法として
さらに研究するだけの価値があるが、本明細書ではこれ
以上詳しく議論することは省略する。

【０１３２】１０．スイッチング・ツリー実現のための考慮事項スイッチング・ツリー実現のために考慮すべき重要なこ
とは、ＣＡＴの総和／通信状態とスイッチング・ツリー
のスイッチ状態を同期させて変更し、オペレーションに
障害が起こらないようにする手法である。プロセッサ・
エレメントがプログラマブル実行ユニットとして応答す
るという、プロセッサ・エレメントのアーキテクチャ上
の定義に基づくと、単一命令応答完了インタロック・メ
カニズムをルート・ツリー・プロセッサとＰＥとの間で
採用するという別の制約があるが、ＣＡＴとスイッチン
グ・ツリーの障害のない制御を実現することができる。
ルート・ツリー・プロセッサは、ＰＥによって処理され
る命令／データの制御側ソースとなるものである。その
結果、システムの障害のない制御は、ルート・ツリー・
プロセッサがＰＥに実行させるために、命令または保留
ＰＥ命令自動モードにあるデータを送ることを、応答完
了信号ＳＶＬＭ９１またはルート・ツリー・プロセッ
サ・タイムアウトＬＥＡＲＮ９０で示されるように、
前の命令が完了するまで行わないようにすることにより
得られる。ルート・ツリー・プロセッサは、ＣＡＴごと
に１つの同期タグ信号も制御する。この同期タグ信号
は、命令またはデータがＰＥへ送られるとアクティブに
セットされ、その他の場合はインアクティブにセットさ
れる。同期タグ信号は、ＣＡＴＡＬＵノードとスイッ
チング・ツリー・スイッチ状態の方向制御を行うために
使用できる。同期タグがアクティブのときは、ＣＡＴ
ＡＬＵノードとスイッチング・ツリー・スイッチ状態は
通信モードにセットされ、命令またはデータ値はＡＬＵ
ノードをバイパスして、スイッチの正しいセット位置に
よって正しい点へ送られる。同期タグが非アクティブの
ときは、ＣＡＴとスイッチング・ツリー・スイッチはＡ
ＬＵ機能モード（ニューラル・エミュレーションのため
の総和モード）に置かれれる。例えば、ルート・ツリー
・プロセッサは先ず同期タグをアクティブにセットし、
次に命令または保留ＰＥ自動モードにあるデータをＰＥ
へ送り、次に命令／データ・メッセージの完結時に同期
タグを非アクティブにセットする。そのあと、ルート・
ツリー・プロセッサはタイムアウトまたは完了通知を待
ってから、次の命令／データをＰＥへ送る。

【０１３３】望ましいことは、スイッチング・ツリー・
グループをシングル・チップ上に集積化することであ
る。この場合には、考慮すべき制約パラメータは、チッ
プ面積上のロジック密度ではなく、チップの入出力容量
である。スイッチング・ツリーには、前述したように、
グループ・チップとツリー・ルートの信号をサポートす
るために、Ｇ＋Ｘ個の入出力ラインが必要である。制御
のための追加の入出力ラインも勘定に入れる必要があ
る。例えば、Ｘ同期タグと２スイッチ・モード制御信号
が使用される場合もある。開発目的上、スイッチング・
ツリー・チップの入出力カウントの当初想定値はＧ＋２
Ｘ＋２＋予備の入出力ライン数となる。大型システムで
は、例えば、Ｇ＝２５６、Ｘ＝１６の場合、テクノロジ
を考慮した場合の入出力ライン数は２９０＋予備とな
る。

【０１３４】

【発明の効果】

１１．要約以上、そのサイズをテクノロジの考慮によって判断でき
る、本発明による共通「ビルディング・ブロック」チッ
プを作成する分割手法について説明してきた。本発明に
よれば、テクノロジの制約と望ましい応用に基づいて、
使用可能なチップ面積の利用を最適化するＸのサイズを
求めることができる。本発明によれば、共通「ビルディ
ング・ブロック」チップを利用すると、完全結合ニュー
ラル・ネットワーク・エミュレーションに適した完全結
合ルート・ツリー・プロセッサ・システムは、要求事項
に合致したものを構築することができる。このように構
築した本発明システムは、構築システムに大きな影響を
与えることなく、システム・パフォーマンスを大幅に向
上するように拡張することが可能である。

【０１３５】本発明の好適実施例について説明してきた
が、上記説明を理解することによって現在および将来の
当業者は本特許請求の範囲に属する範囲内で種々の改良
を施すことが可能である。特許請求の範囲の請求項は、
最初に開示された本発明に対する適切な保護を維持する
ためのものと解釈されるものである。

【図面の簡単な説明】

【図１】プロセッサ・エレメント・アーキテクチャを示
す図である。

【図２】プロセッサ・エレメント・アーキテクチャを示
す図である。

【図３】図４〜図６の相互関係を示す図である。

【図４】対角線折畳み４ルート・ツリー・プロセッサ・
アレイを示す図である。

【図５】対角線折畳み４ルート・ツリー・プロセッサ・
アレイを示す図である。

【図６】対角線折畳み４ルート・ツリー・プロセッサ・
アレイを示す図である。

【図７】次元Ｋの三角形アレイを示す図である。

【図８】複数の三角形アレイと四角形アレイに分割され
た三角形アレイを示す図である。

【図９】対角線ＰＥと汎用ＰＥを備えた分割三角形およ
び四角形アレイの例を示す図である。

【図１０】デュアル・エレメントＸ×Ｘアレイから分離
されたエレメントからなる２つの四角形アレイを示す図
である。

【図１１】折り畳まれたエレメントからなる２つの四角
形アレイを示す図である。

【図１２】図１３と図１４との相互関係を示す図であ
る。

【図１３】８ニューロン・ネットワーク・エミュレーシ
ョンのための対角線折畳みツリー６４ＰＥアレイを示す
図である。

【図１４】８ニューロン・ネットワーク・エミュレーシ
ョンのための対角線折畳みツリー６４ＰＥアレイを示す
図である。

【図１５】図１６と図１７との相互関係を示す図であ
る。

【図１６】１個の四角形プロセッサ・アレイと２個の小
三角形プロセッサ・アレイに分割された８ニューロン・
アレイ・モデルを示す図である。

【図１７】１個の四角形プロセッサ・アレイと２個の小
三角形プロセッサ・アレイに分割された８ニューロン・
アレイ・モデルを示す図である。

【図１８】８ニューロン・アレイ・モデルの内側四角形
を示す図である。

【図１９】８ニューロン・アレイ・モデルの内側四角形
を示す図である。

【図２０】８ニューロン・アレイ・モデルの内側四角形
を示す図である。

【図２１】２つの三角形アレイに分離された折畳み内側
四角形を示す図である。

【図２２】好ましい外部ＡＬＵ機能、シグモイド・エミ
ュレーション、およびツリー通信経路を示す図である。

【図２３】図２４と図２５との相互関係を示す図であ
る。

【図２４】ニューロンＹ値をもつ１６ニューロン・アレ
イ・モデル重みマトリックスを示す図である。

【図２５】ニューロンＹ値をもつ１６ニューロン・アレ
イ・モデル重みマトリックスを示す図である。

【図２６】三角形アレイ１と２を示す図である。

【図２７】三角形アレイ３と４を示す図である。

【図２８】２つの三角形アレイに分割された折畳み内側
四角形５を示す図である。

【図２９】２つの三角形アレイに分割された折畳み内側
四角形６を示す図である。

【図３０】２つの三角形アレイに分割された折畳み内側
四角形７を示す図である。

【図３１】２つの三角形アレイに分割された折畳み内側
四角形８を示す図である。

【図３２】２つの三角形アレイに分割された折畳み内側
四角形９を示す図である。

【図３３】２つの三角形アレイに分割された折畳み内側
四角形１０を示す図である。

【図３４】好ましい外部ＡＬＵ機能、シグモイド・エミ
ュレーション、およびツリー通信経路を示す図である。

【図３５】８ニューロンおよび１６ニューロン・スイッ
チング・ツリー・メカニズムの例を示す図である。

【図３６】８ニューロンおよび１６ニューロン・スイッ
チング・ツリー・メカニズムの例を示す図である。

【図３７】学習をサポートするように改良された別の８
ニューロン・スイッチング・メカニズムを示す図であ
る。

【図３８】図３９〜図４１の相互関係を示す図である。

【図３９】Ｘだけ分割された汎用三角形プロセッサ・ア
レイを示す図である。

【図４０】Ｘだけ分割された汎用三角形プロセッサ・ア
レイを示す図である。

【図４１】Ｘだけ分割された汎用三角形プロセッサ・ア
レイを示す図である。

【図４２】汎用内側四角形アレイを示す図である。

【図４３】選択された任意の内側四角形から分割された
第１分割四角形アレイを示す図である。

【図４４】三角形アレイに折り畳まれた第１分割四角形
アレイを示す図である。

【図４５】選択された任意の内側四角形から分割された
第２分割四角形アレイを示す図である。

【図４６】三角形アレイに折り畳まれた第２分割四角形
アレイを示す図である。

【図４７】三角形アレイからの第１出力の四角形アレイ
を示す図である。

【図４８】外部スイッチとＡＬＵツリーが追加された折
畳み第１出力アレイを示す図である。

【図４９】外部スイッチがＡＬＵツリー総和モード１に
ある折畳み第１出力アレイを示す図である。

【図５０】スイッチがＹ値反転通信モード２にある折畳
み第１出力アレイを示す図である。

【図５１】図５２と図５３との相互関係を示す図であ
る。

【図５２】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード１：正方向ＡＬＵツリー総和を示す図である。

【図５３】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード１：正方向ＡＬＵツリー総和を示す図である。

【図５４】図５５と図５６との相互関係を示す図であ
る。

【図５５】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード２：Ｙ値反転通信を示す図である。

【図５６】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード２：Ｙ値反転通信を示す図である。

【図５７】図５８と図５９との相互関係を示す図であ
る。

【図５８】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード３：Ｅ値反転通信を示す図である。

【図５９】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード３：Ｅ値反転通信を示す図である。

【図６０】図６１と図６２との相互関係を示す図であ
る。

【図６１】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード４：加重誤差ＡＬＵツリー総和（汎用ＰＥは反対の
Ｅ値を選択して乗算を行う）示す図である。

【図６２】８ニューロン構造（Ｇ＝４，Ｈ＝１６）：モ
ード４：加重誤差ＡＬＵツリー総和（汎用ＰＥは反対の
Ｅ値を選択して乗算を行う）示す図である。

【図６３】図６４〜図６９の相互関係を示す図である。

【図６４】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード１：正方向ＡＬＵツリー総和を示す図
である。

【図６５】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード１：正方向ＡＬＵツリー総和を示す図
である。

【図６６】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード１：正方向ＡＬＵツリー総和を示す図
である。

【図６７】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード１：正方向ＡＬＵツリー総和を示す図
である。

【図６８】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード１：正方向ＡＬＵツリー総和を示す図
である。

【図６９】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード１：正方向ＡＬＵツリー総和を示す図
である。

【図７０】図７１〜図７６の相互関係を示す図である。

【図７１】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード２：Ｙ反転通信を示す図である。

【図７２】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード２：Ｙ反転通信を示す図である。

【図７３】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード２：Ｙ反転通信を示す図である。

【図７４】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード２：Ｙ反転通信を示す図である。

【図７５】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード２：Ｙ反転通信を示す図である。

【図７６】１６ニューロン構造（Ｎ＝１６，Ｇ＝１６，
Ｈ＝１６）モード２：Ｙ反転通信を示す図である。

【図７７】図７８と図７９との相互関係を示す図であ
る。

【図７８】代替ビルディング・ブロック−折畳み内側四
角形を示す図である。

【図７９】代替ビルディング・ブロック−折畳み内側四
角形を示す図である。

【符号の説明】

１三角形アレイ２三角形アレイ３三角形アレイ４三角形アレイ５折畳み内側四角形６折畳み内側四角形７折畳み内側四角形８折畳み内側四角形９折畳み内側四角形１０折畳み内側四角形

───────────────────────────────────────────────────── フロントページの続き (72)発明者スターマティスヴァジリアディスアメリカ合衆国 13850 ニューヨーク州ヴェスタルヴェスタルロード 717 (72)発明者ホセグアドループデルガド−フライアスアメリカ合衆国 13760 ニューヨーク州エンドウェルレイシードライブ 612

Claims

【特許請求の範囲】

【請求項１】三角形アレイの各エッジにＫ個の命令お
よび／またはデータ処理ユニットが置かれているＫ（Ｋ
＋１）／２個の命令および／またはデータ処理ユニット
の三角形アレイから構成されたことを特徴とする汎用ア
プリケーション用の超並列コンピューティング・システ
ム装置。
【請求項２】請求項１に記載の装置において、ＫとＸ
は整数であり、ＫはＸによって割ることが可能であり、
三角形アレイは、Ｋ（Ｋ−Ｘ）／２Ｘ² 個のＸ×Ｘ四角
形とＫ／Ｘ三角形アレイに分割され、これらのアレイは
分割されたアレイの各エッジにＸ個の命令および／また
はデータ処理ユニットが置かれていることを特徴とする
装置。
【請求項３】命令および／またはデータ処理ユニット
のＫ（Ｋ−Ｘ）／２Ｘ² 個のＸ×Ｘ四角形アレイからな
る請求項２に記載の装置において、処理ユニットは各々
がタイプ“ｂ”とタイプ“ｃ”の命令および／またはデ
ータ・プロセッサ・エレメント（ＰＥ）と呼ばれる２つ
の命令および／またはデータ・プロセッサ・エレメント
から構成されたことを特徴とする装置。
【請求項４】三角形アレイの各エッジにＸ個の命令お
よび／またはデータ処理ユニットが置かれているＫ／Ｘ
個の三角形アレイからなる請求項２に記載の装置におい
て、三角形アレイの対角線上の命令および／またはデー
タ処理ユニットは、単一命令および／またはデータ・プ
ロセッサ・エレメントから構成され、三角形アレイ・プ
ロセッサ・ユニットの残り部分は各々が２個の命令およ
び／またはデータ・プロセッサ・エレメントから構成さ
れたことを特徴とする装置。
【請求項５】命令および／またはデータ・プロセッサ
・エレメント（ＰＥ）と、通信ＡＬＵツリーと、ルート
（根）ツリー・プロセッサと、ホスト・コンピュータと
のプログラマブル・プロセッサ・インタフェースと、ス
ケーラブル・グループ分割スイッチング・ツリー・メカ
ニズムとから構成され、完全結合性と共にスケーラビリ
ティの機能を備えたことを特徴とする汎用アプリケーシ
ョン用の超並列コンピューティング・システム装置。
【請求項６】請求項５に記載の装置において、超並列
コンピューティング・システムは、Ｎ² 個のプロセッサ
・エレメントと、Ｎ個の通信ＡＬＵツリーと、Ｎ個のル
ート・ツリー・プロセッサと、ホスト・コンピュータと
のプログラマブル・プロセッサ・インタフェースと、Ｎ
個のルート・ツリー・プロセッサをサポートするスケー
ラブル・グループ分割スイッチング・ツリー・メカニズ
ムとから構成されたことを特徴とする装置。
【請求項７】請求項５に記載の装置において、通信Ａ
ＬＵツリーはｌｏｇ₂ Ｎ２から１までの通信ＡＬＵステ
ージを含んでいることを特徴とする装置。
【請求項８】請求項７に記載の装置において、通信Ａ
ＬＵツリーに含まれる各ステージは、２個の入力ＡＬＵ
と、ＡＬＵ機能から得た方向とは逆方向に値を伝達する
ことを目的としたＡＬＵバイパス経路と、ＡＬＵ機能と
逆方向通信経路間でスイッチングする手段とから構成さ
れた２から１までの通信ＡＬＵを含むことを特徴とする
装置。
【請求項９】請求項５に記載の装置において、プロセ
ッサ・エレメントは命令および／データを受信し、受信
した情報をアプリケーションによって定義されたハード
ウェアおよび／またはプログラマブル命令シーケンスの
制御の下で処理することを特徴とする装置。
【請求項１０】請求項６に記載の装置において、ルー
ト・プロセッサは命令を実行し、データを処理し、接続
された通信ＡＬＵツリーのＡＬＵ機能と動作モードを制
御し、接続されたスイッチング・ツリー・メカニズムを
制御し、通信ＡＬＵツリー接続ＰＥに対して命令／デー
タを出し、通信ＡＬＵツリーを通して処理されたＰＥデ
ータを通信ＡＬＵツリー・ルート・ノードから受信する
ことを特徴とする装置。
【請求項１１】請求項５に記載の装置において、接続
されたホスト・コンピュータおよびルート・ツリー・プ
ロセッサとのインタフェースとなるプログラマブル・プ
ロセッサ制御装置は、ルート・ツリー・プロセッサおよ
びＰＥによって使用されるパラメータのためのストレー
ジ（記憶手段）を備え、システム初期設定を制御し、ホ
スト命令を処理し、ホストと並列処理システム間の命令
とデータをバッファリングすることを特徴とする装置。
【請求項１２】請求項６に記載の装置において、Ｎ²
個の処理エレメントはＮ×Ｎマトリックスの形体で配置
され、【外１】該Ｎ×Ｎマトリックスは対角線に沿って折り畳まれ、Ｐ
Ｅ_i,i ユニットを単一プロセッサ対角線ユニットとして
そのまま残し、ＰＥ_i,j を２重プロセッサ一般ユニット
としてＰＥ_j,i としてマージしたことを特徴とする装
置。
【請求項１３】請求項６に記載の装置において、Ｎ²
個の処理エレメントとＮ個の通信ＡＬＵツリー構造は、
Ｇ＝Ｎ² ／Ｘ² グループに分割され、Ｘ² 個のＰＥを含
む各該グループは、Ｘ個の単一プロセッサ対角線ユニッ
トと（Ｘ² −Ｘ）／２個の２重プロセッサ一般ユニット
から構成され、各ＰＥは通信ＡＬＵツリーに接続された
ことを特徴とする装置。