JP2575565B2

JP2575565B2 - Ｓｐｉｎ：順次パイプライン式ニューロコンピュータ

Info

Publication number: JP2575565B2
Application number: JP3510394A
Authority: JP
Inventors: ヴァシリデイス、スタマテイス; ピチャネック、ジェラルド、ジョージ; デルガドーフライアズ、ホセ、グアダルーペ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1990-05-22
Filing date: 1991-04-08
Publication date: 1997-01-29
Anticipated expiration: 2012-01-29
Also published as: JPH04507025A; US5065339A; WO1991018347A1; EP0459222A2; EP0484479A4; EP0484507A4; EP0459222A3; WO1991018348A1; JP2666830B2; EP0484507A1; JPH07117948B2; JPH04232562A; JPH04506879A; EP0484479A1

Description

【発明の詳細な説明】［技術分野］本発明はニューロコンピュータ・アーキテクチャに関
し、さらに具体的には順次パイプライン式ニューロコン
ピュータに関するものである。

［関連出願］本特許出願は、その優先権が本明細書で主張されてい
る以下の米国特許出願に関連する。

1990年５月22日出願の“Apparatus and Method for N
eural Processing"と題するS.ヴァッシリアディス（Vas
siliadis）及びG.G.ペチャネク（Pechanek）の米国特許
出願第07/526866号（以下ではSNAPと呼ぶ）。

本願と同時に出願された“A Triangular Scalable Ne
ural Array Processor"と題するG.G.ペチャネク及びS.
ヴァッシリアディスの米国特許出願第07/682786号（以
下ではＴ−SNAPと呼ぶ）。

これらの同時係属出願及び本出願は同じ譲受人、すな
わち米国ニューヨーク州アーモンクのインターナショナ
ル・ビジネス・マシーンズ・コーポレーションによって
所有されている。

これらの同時係属出願に記載されている記述を、この
引用によって本明細書に合体する。

［背景技術］「発明の詳細な説明」の項に記載された考察に関連す
ると考えられるいくつかの参考文献があるが、それらの
引用は、以下の各参考文献後に示した形で行なう。この
ような参考文献には次のものがある。

D.E.ルーメルハート（Rumelhart）、J.L.マックレラ
ンド（McClelland）及びPDPリサーチ・グループの著書 “Parallel Distributed Processing,Vol.1:Foundation
s"、米国マサチューセッツ州ケンブリッジ、MIT Press,
1986年刊（以下では“Rumelhart86"と呼ぶ）。

J.Jホップフィールド（Hopfield）の論文“Neurous W
ith Graded Response Have Collective Computational
Properties Like Those of Two-State Neurons",Proces
sings of the National Academy of Sciences,pp.3088,
3092,1984年５月。（以下では“Hopfield 84"と呼
ぶ）。

S.Y.クン（Kung）及びJ.N.ホワン（Hwang）の論文“A
Unified Systolic Architecture for Artificial Neur
al Networks,Journal of Parallel and Distributed Co
mputing 6,pp.358-387,1989年（以下では“Kung 89"と
呼ぶ）。

P.トレリーヴァン（Treleaven）及びM.ベラスコ（Vel
lasco）の論文“Neural Network on Silicon",M.サミ
（Sami）及びF.シスタンテ（Sistante）編、Wafer Scal
e Integration,III′，（IFIP、1986年６月）、pp.1−1
0,Elsevier Science Publishers,B.V.,オランダ、ノー
スホランド州、1990年刊（以下では“Treleven 90"と呼
ぶ）。

J.Jホップフィールド及びD.W.タンク（Tank）の著書
“Neural Computation of Decisions in Optimization
Problems",pp.141,152,1985年刊（以下では“Hopfield
85"と呼ぶ）。

［用語の定義］これらの定義は、本明細書に含まれる諸発明を論じる
際に使用される様々な新しい用語に関するものであり、
以後の考察を読む際に有用であることが判明するであろ
う。

・SPIN:順次パイプライン式ニューロコンピュータ・SNAP:スケーラブル・ニューラル・アレイ・プロセッ
サ・Ｔ−SNAP:三角形スケーラブル・ニューラル・アレイ
・プロセッサ・VSPIN:仮想順次パイプライン式ニューロコンピュータ・SPIN−E:順次パイプライン式ニューロコンピュータＥ。Ｅは並列統合形SPIN構造の数を表す。

・SPIN-IP:並列性が向上した順次パイプライン式ニュー
ロコンピュータ・SPIN−EXP:順次パイプライン式ニューロコンピュータ
EXP。Ｅは物理ニューロンの数、Ｘは、Ｅ−１個の追加
の物理ニューロンに含まれる、反復された入力乗算器部
分の数、Ｐは、追加の並列物理ニューロンから生成され
るニューロン値の数を表す。

・PE:処理要素・PN:物理ニューロン・NN:ニューラル・ネットワーク・シグモイド関数は、ニューロンの状態を示す非線形ニ
ューロン関数であり、本明細書では、シグモイド生成機
構と呼ばれる好ましい生成機構の形で１つのニューロン
活動化関数を提供する。シグモイド生成機構は文中では
SIGまたはＳと略記する。

・MPX:マルチプレクサ・M:乗算器遅延・m:SPINによってエミュレートされるニューラル・ネッ
トワーク内のニューロンの数・N:SPINがサポートする物理ニューロンの数・R:ネツトワーク更新サイクルの数・BI/DI:両方向バス・MEM:使用される結合重みメモリのサイズ・PS:部分和・TSP:巡回セールスマン問題・SYNC:同期論理・A:乗算器クロック・サイクル遅延に等しい無次元数・B:シグモイド・クロック・サイクル遅延に等しい無次
元数・L:ビットで表したワード幅・WTS:重み・MPY:乗算または乗算器［序論］本明細書に記載するニューロコンピュータ・アーキテ
クチャによって実施される計算タスクは、式１及び２で
表される。これらの式は完全並列分散処理モデルのサブ
セットに基づくものである（“Rumelhart 86"及び“Hop
field 85"のネットワーク参照）。

上式で、・Ｎはニューラル・ネットワーク内のニューロンの数で
ある。

・W₁₃など重みＷの下付き文字は、ニューロン３からニ
ューロン１への結合の重みを意味するものと解釈すべき
である。

・Y_jは、結合重みW_ijを介してｉ番目のニューロン入力
に結合されたｊ番目のニューロン出力の値である。

・Ｆ（ｚ）は、例えば次のような形式のシグモイド活動
化関数に等しく何回もセットされる、ニューロン活動化
関数である。

上式で、・関数Ｆ（ｚ）に関して、である。

・０≦Ｆ（ｚ）≦１・Ｔは、所与の１組のｚ値に関してシグモイド関数の勾
配を変更するために使用される大域制御パラメータであ
る。

・ｅ＝自然対数（2.71828...）式１及び２は、完全に結合されたＮニューロン・ネット
ワークでは、以下の４つの基本動作を含む。

1.N²回の乗算 2.N回の積和演算 3.N個の活動家関数 4.N×Ｎ回の通信通常は基本的ニューロコンピュータ動作である学習に
ついては考察しない。重みはネットワーク実行サイクル
の間中一定であると仮定し、さらに、必要な場合、重み
更新のための学習アルゴリズムが実施されるホスト・コ
ンピュータから重みがロード可能であると仮定する。ホ
スト・コンピュータは、また、ネットワーク・アーキテ
クチャを初期設定する責任を負う。例えば、ホスト・コ
ンピュータは、このアーキテクチャによってシミュレー
トされるネットワーク中のニューロンの数、全ての結合
重み、初期ニューロン値、実行されるネットワーク更新
サイクルの数をロードし、かつモデルの実行を開始する
責任を負う。ホスト・コンピュータはまた、ネットワー
ク実行の完了時にニューロン値を読み取る能力を備えて
いる。様々なニューラル処理アーキテクチャの性能を評
価し比較する際、初期設定時間及びホスト処理時間は別
の問題と見なし、ここでは実行中の性能のみを考える。

SNAP及びTSNAPはそれぞれ固有の利点を有するが、性
能よりもハードウェア・コストの方が大事な場合は、リ
ング・シストリック・アレイ・ニューラル・ネットワー
クと同等またはそれ以上の性能を提供しながら、ハード
ウェアのかなりの節約をもたらすSPINアーキテクチャ
が、SNAP及びTSNAPの代わりに使用される。第１図に関
して以下に考察するように、この考察ではSPIN及びその
拡張版を記述し、性能評価、及び従来技術のリング・シ
ストリック・ニューラル・ネットワーク（NN）との性能
比較を行なう。

［発明の開示］本明細書で提案する新しいアーキテクチャSPIN（順次
パイプライン式ニューロコンピュータ）は、その拡張版
（VSPIN、SPIN−Ｅ、SPIN-IP、SPIN-EXP）と共に、種々
の動作で改善された性能を示すアーキテクチャであり、
このことは、「詳細な説明」の項で、完全に結合された
ニューロン・ネットワークに対する式１及び２に含まれ
る４つの基本動作の実施に関して実証する予定である。
好ましい各実施例については、それぞれ基本的なSPINア
ーキテクチャに関して説明する。SPINはＮニューロン・
ネットワークを実施することができる。ただし、Ｎは、
実施される物理ニューロンの数を表す。SPINは、Ｎ個の
乗算器を使用して乗算を行ない、パイプライン式加算器
ツリー構造によってＮ回の積和演算を行ない、１つの活
動化関数モジュールを使用し、Ｎ個のニューロン入力値
積和を順次上記モジュール中を通過させることによって
Ｎ個の活動化関数を提供し、さらに１本のバスを使っ
て、シフト・レジスタ形式に編成された乗算器入力レジ
スタにＮ個のニューロン値を順次供給することによって
Ｎ×Ｎ回の通信を行なう。全てのSPINアーキテクチャ
は、ビット直列形式またはワード表示形式で実施可能で
ある。

本発明の様々な好ましい実施例の詳細な説明について
は、それぞれのアーキテクチャ構造を好ましい実施例と
して記述する「詳細な説明」の項、及び添付の図面及び
表を参照されたい。

［図面及び表の簡単な説明］第１図は、ニューラル・ネットワーク用の従来技術の
リング・シストリック・アレイ・アーキテクチャ及び動
作シーケンスを示す図である。

第２図は、順次パイプライン式ニューロコンピュータ
（SPIN）の好ましい実施例を示す図である。

第３図は、SPIN処理要素を示す図である。

第４図は、重み記憶構造を示す図である。

第５図は、SPIN論理パイプラインを示す図である。

第６図は、タグ突合せPE機能を持たない簡略化したSP
INを示す図である。

第７図は、仮想順次パイプライン式ニューロコンピュ
ータ（VSPIN）を示す図である。

第８図は、VSPINの重み記憶構造を示す図である。

第９図は、順次パイプライン式ニューロコンピュータ
２（SPIN−２）を示す図である。

第10図は、SPIN-IPを示す図である。

第11図は、SPIN-IPの重み記憶構造を示す図である。

第12図は、SPIN-IP2を示す図である。

第13図は、SPIN-211を示す図である。

第14図は、SPIN-211、及びPN−２待ち行列に基づく構
造を示す図である。

第15図は、SPIN-EXPを示す図である。

第16図は、Ｅ＝２で、PN−２個の乗算器入力をもたら
すためのN/X−１マルチプレクサを備えたSPIN-2EXPを示
す図である。

第17図は、アーキテクチャ比較の要約を示す図であ
る。

表１は、リング・シストリック・アレイNN、SPIN、SP
IN-EXP、SPIN-IP、及びSPIN−Ｅのそれぞれの性能比較
を示す表である。

［発明の詳細な説明］従来技術のリング・シストリック・アレイ・ニューラル
・ネットワークの説明一例として、シストリック・アレイを使った式１及び
２の実施について説明する。"Kung 89"に記載されてい
る、リング・シストリック・アレイと呼ばれる基本構造
を第１図に示す。この構造では、各PEは、Y_iで表される
ニューロンとして扱われ、そのニューロン用の重み記憶
機構を含み、重みは、PEからPEに線形シフトされるとき
ｊ番目のニューロン値に対応する、循環シフト順に記憶
される。初期ニューロン値及び重みがPEに事前にロード
されていると仮定すると、ネットワーク更新サイクルに
対するこのアーキテクチャの動作シーケンスは、第１図
に示す通りである。このようにニューラル・ネットワー
クはシストリック・アレイ上でモデル化することができ
る。

リング・シストリック・アレイの性能リング・シストリック・アレイの性能を評価するた
め、遅延変数を「名前付き」要素による遅延を表すδ
_nameで表すものとする。以下の遅延変数が使用される。

・δ_M＝Y_iW_ij乗算器遅延・δ_Mb＝ビット直列単一ビット乗算器遅延・δ_A＝２−１加算器遅延・δ_S＝シグモイド生成機構遅延・δ_B1＝リング・シストリック・アレイNNバス遅延・δ_W＝重みアレイ・アクセス遅延以下の一般的仮定及びその他の表記法に留意されたい。

1.システムによって定義されるクロック周期はＣであ
り、全ての遅延はＣの倍数として指定される。

2.δ_W≦δ_Mo重みアレイから重みにアクセスするための
時間は、重み×Ｙ値の乗算器遅延以下でなければならな
い。

3.δ_B1≦δ_Mまたビット直列設計ではδ_B1≦δ_Mboバス遅
延は、乗算器遅延以下、またビット直列設計ではビット
乗算器遅延以下でなければならない。

4.δ_A≦δ_Mまたビット直列設計ではδ_A≦δ_Mbo加算器遅
延は、乗算器遅延以下、またビット直列設計ではビット
乗算器遅延以下でなければならない。

このアーキテクチャの性能は、ニューロンを出力する
周期で表す。リング・シストリック・アレイ・アーキテ
クチャ（従来技術を示す第１図）は、重複動作を前提と
して以下の性能特性を有する。

シストリック・リング周期＝Ｎδ_M＋δ_A＋δ_B1＋δ
_S （３） SPINの説明それぞれ式１及び２を実施するニューラル要素のネッ
トワークが、これから説明するニューラル・アーキテク
チャの基礎である。式１は、ｊ＝１〜Ｎの全てのY_jが、
乗算累計関数に含まれることを暗示し、各ニューロンが
ネットワーク内の他の全てのニューロンに結合される可
能性があることを示す。W_ijの集合が０に等しい特別な
場合は、このモデルで扱われる一般的な場合を表すとは
見なされない。したがって、式１の実施に関する大きな
考慮点は、通常Ｎ個の物理ニューロン（PN）の完全な結
合を可能にするネットワーク相互接続戦略の設計であっ
た。考慮されるオプションは、例えば、バス幅のワイヤ
によるN²の完全に結合されたネットワークから、ハイパ
ーキューブ、ハイパーンット等の経路指定処理要素を含
むメッセージ伝達構造にまで及んでいる。完全に結合さ
れたネットワークは経路指定遅延を生じないので、バス
幅結合によるN²がワイヤ配線可能であると仮定すると、
潜在的性能は最大である。PNの数が増大するにつれて、
完全結合ワイヤ配線の問題は非常にコストがかかるもの
になり、実現不能になる可能性があり、その結果、ある
種のネットワーク経路指定構造によりワイヤ配線の問題
を解決する相互接続方法が選択されることになるが、点
間遅延が長くなるという犠牲を伴う。SPINならびにリン
グ・シストリック・アレイNNは、この相互接続の問題に
対するもう１つの解決策を提供する。

SPINでは式１に関する別の解釈を用いる。この解釈
は、各ニューロンｉについて、同じY_j入力と重みの１組
Ｎ回の乗算があることの留意に基づくものである。この
ことは、式１を拡張し、複数のニューロン出力に関する
式を比較すれば、容易に理解できる。例えば、式１から
形成されるＮ個のニューロン出力は次の通りである。

Y_j入力及びそれに関連する重みが別々に得られ、かつ別
々の並列乗算器がＮ個あると仮定すると、所与の"i"に
ついて、１乗算遅延時間δ_MにＮ個の積を並列に形成す
ることができる。次にこれらＮ個の積を互いに加算して
最終和ｚを形成し、これをＦ（ｚ）ユニットに送ってニ
ューロン出力を発生することができる。重み選択のため
新しい"i"を使用し、かつY_iを一定に保つことにより、
同様に１δ_M時間内にｉ番目の計算に関する並列積を得
ることができる。このことは、独立した並列入力値重み
処理が単一の固定した和及びＦ（ｚ）関数と結合されて
いるため、Ｎ個のY_iニューロン出力が順次計算できる、
単一ニューロン構造が設計可能なことを暗示している。
Ｆ（ｚ）関数は、シグモイド関数と呼ばれる種類の非線
形関数でよい。ニューロン活動化関数の他の例として
は、しきい値関数、確率関数等がある。

ただ１つの物理ニューロン（PN）を有するSPINを第２
図に示す。SPINは、タグ突合せ機能をもたらすＮ個の入
力値処理要素（PE）、Ｎ個の重み乗算器、それぞれＮ個
の重みを有するＮ個の重み記憶ユニット、log₂Nの２−
１加算器段を含む対称形加算器ツリー、単一のシグモイ
ド生成機構、及び１個の負荷を有する所望のバス幅の１
本のバスを含む。SPINでは、フロント・エンドPEは、タ
グ付きのニューロン値がそれと一致するタグの付いた乗
算器に到達することを保証する機能を提供する。バス
は、ニューロン値、そのソース・タグ、有効信号、及び
ホストによってのみ制御される重みビットから成るニュ
ーロン情報のパケットを含む。Ｎ個のニューロンの場合
は、Ｎ個のタグ、Ｎ個のPE、及びＮ個の乗算器がある
が、加算器ツリー及び１つのシグモイド生成機構は１個
だけである。第３図は、代表的なPEを示す。

１本のニューロン出力バス上でニューロン値が順次発
生するには、Y_iが識別されさえすればよい。このこと
は、ニューロン値の一定の順序づけ（例えば、Y₁、次に
Y₂...最後にY_N）を保証することによって実現できる。
Ｎ個の物理ニューロン用に設計されたSPIN上で、ｍ個の
ニューロンを含むニューラル・ネットワークをシミュレ
ートするため（ｍはＮとは異なる）、"i"に等しいタグ
で各ニューロン値を一義的に識別する、タグ識別法を使
用する。各Y_i値は、乗算器入力値部でのタグ突合せ動作
を必要とする固定乗算器入力部に送らなければならない
（第３図）。Y_i及びその"i"タグは、シグモイド出力か
ら構造内の最後のPE、すなわちPE−Ｎに供給される。受
け取った各ニューロンは次のPEにシフトされる。この点
間シフト・レジスタ構造では、ニューロン値の順序が重
要であり、ニューロン値は、重みアレイに記憶された重
みと一致する順序でバス上に現れる必要がある。例え
ば、第２図に示すように、最初にY₁、次にY₂、...最後
にY_No有効な安定データのみが受け取られ、処理される
ようにするため、有効（Ｖ）と呼ばれるタグ・ビットを
１システム・クロック周期中、ニューロン値及びその"
i"タグと共にバス上に置くことができる。入力受取り論
理機構は、有効ビットが「オン」であり、かつ予め記憶
された入力タグに一致する"i"タグがあるのでない限
り、Y_iを受け入れることができない。たとえY_i値が順序
通りニューロン入力上に到着しても、Ｎ個の並列乗算が
いつ開始できるかを示すため、最後のニューロン値が到
達したことを示す方法を用意しなければならない。最後
のニューロンを受け取ったとの通知は、ニューロン値の
順序通りの出力順序を保証することによって自動的に実
現できる。ニューロン値が（例えば、Y₁から始めて）順
に計算され、かつバスがPE−Ｎに接続されているので、
全てのY_i値が受け取られるまで一致は生じ得ない。すな
わち、Y_NがPE−Ｎで受け取られたとき、先行する全ての
Y_iが、一致する"i"タグを含むPE−ｉ内で受け取られる
（シフトされる）。タグの一致が生じたとき、各PEは、
受け取ったＹ値を乗算器入力ラッチに転送し、新しい更
新サイクルのための並列乗算処理を開始する。このＮ番
目の事象も、Ｎ個の入力レジスタを介して有効（Ｖ）ビ
ットを順次シフトすることによって示すことができる。
Ｖビット・シフト・レジスタ・ラッチが最初は０であ
り、各一致状態の後で０になると仮定すると、Ｎ個のY_i
が全て受け取られるまでＶビットは第２図のPE−１に到
達しない。ニューロン値を受け取るためにタグ突合せ法
を使用することにより、一致したY_i値のPE局所転送制御
が可能になり、さらにｍ個のニューロン（ｍ≦Ｎ）を含
むネットワークのシミュレーションが本来的に可能にな
る。それとは別に、Ｙ値の全ビットがニューロンPNバス
から並列に受け取られ、かつｍ＝Ｎの場合は、PE−１の
Ｖビット出力は、次のネットワーク更新サイクルを「開
始」すべきことを示すことができる。ｍ＜Ｎのネットワ
ーク・モデルの場合は、SPINは、m²個の重み、ホストか
らロードされたｍ個のタグ、及びＮ−ｍ＋１ないしＮで
表される下端のｍ個のニューロン入力位置に置かれた初
期のネットワークＹ値で初期設定され、他のＹ位置は０
に初期設定される。０にされたＹ値は、Ｎ−ｍ個の乗算
器、及び加算器ツリーのそれらの部分が、SPIN上のｍニ
ューロン・ネットワークのシミュレーションに影響を及
ぼさないことを保証する。SPINはｍ個の値、すなわち、
（Ｎ−ｍ＋１）、（Ｎ−ｍ＋２）、...N番目の値を順次
発生し、最後のｍ番目の値でｍ個のタグ一致状態が発生
して、ｍ個の値及び（Ｎ−ｍ）個の０のＹ値を乗算器入
力レジスタに局所転送させて、次のネットワーク更新サ
イクルを開始させることになる。さらに、次のｍ個の更
新サイクルＹ値を受け取る準備として、シフト・レジス
タから構成されるＹ値入力レジスタが０にされる。制御
論理機構内で必要な場合、カウンタがＮ番目の一致信号
を供給する。

重み記憶構造の例を第４図に示す。第４図は、モデル
内でその重み出力が乗算器要素に進むアレイを示す。重
み値の精度及び重みの数によってアレイのサイズが決ま
る。例えば、重み値をＬビットの数で表すことができ、
完全結合のＮニューラル・ネットワークSPIN実施態様で
は、全重み記憶機構はN²個の重み値を受け取ることにな
る。各SPINニューロン入力は、各ニューロンに対する入
力結合度を表すＮ個の重みを記憶するだけでよくなり、
従って各ニューロン入力部でＮ×Ｌビットのアレイが必
要になる。初期設定時に、アレイのアドレス生成機構
が、乗算器に出力される最初の重み値を表す０番目の重
みアドレスに設定される。アドレスは、次の乗算に備え
て、必要な次の重みが乗算器入力部で使用可能になるよ
うに増減される。アドレス生成機構は、全てのネットワ
ーク重みがアクセスされるまで、進み続ける。アドレス
生成機構はまた、ネットワーク・モデルの必要な積の数
をカウントする複製機能をもたらすことができる。ｍ≦
Ｎの場合、SPIN上でモデル化されるネットワーク内のニ
ューロンの数（ｍ）がホスト・コンピュータからロード
され、アドレス生成機構がそれを使用して、ｍ番目の事
象を表す信号を発生することができる。カウンタは、ｍ
番目のアドレスを発生した後に０番目の値に戻る、循環
式であると想定する。

ホスト初期設定及び論理パイプライン制御の考察で
は、ｍ＝Ｎであると仮定する。

ホスト初期設定時に、PEごとに異なるタグであるPEタ
グ、N²個の重み、初期のY_iニューロン値、ニューロン数
Ｎ、及びネットワーク反復更新サイクル数Ｒが、それ事
態のホスト・インターフェースを介してPNにロードされ
う。走査されるPEタグを除き、重み及びニューロン値の
ロードにはニューロンPNバスが使用できる。ホストから
のみ制御されるＷタグ・ビットにより、PEを介して重み
をロードすることが可能になる。Y_i値は最後にロードさ
れ、例えば、Y₁から始まり、Y_Nがロードされるまで昇順
に続行される。Y_Nが受け取られると、全てのＹ値が一致
するタグをもつPEに入り、ネットワークの実行が開始さ
れる。

ネットワークの実行が開始すると、ホストはニューロ
ンPNバスの使用を禁止し、PEはＹ値を乗算器入力ラッチ
に内部転送し、Y_jに対する印加された重みW_ijと共に、
有効な乗算を続行する。実行中、PNは、それぞれ＜Ｗ、
Ｖ、ソース・タグ、Y_i＞のバス・パケットで表されるニ
ューロン値を順次出力する。全てのニューロン値に対し
て、活動状態の有効ビットがある。オンの有効ビットが
あり、かつ予め記憶されたタグとバス上のタグが一致す
る場合、ニューロンＹ値が乗算器入力段を通ってゲート
され、そこにラッチされる。Ｎ番目のパケットが受け取
られるまで、一致状態は生じない。乗算器及びlog₂Ｎ加
算器ツリーを備えたPNパイプラインを第５図に示す。乗
算器は、PE比較／ゲート機能からＹ値を受け取り、その
間に重み記憶機構から重みが得られる。Y_j入力はネット
ワーク更新サイクルを通じて一定入力のままであり、重
み記憶機構は、ｉが順次変化するにつれてW_ijとY_jを対
にしながら後入れ先出しスタックにおけるように新しい
重みを読み出す。Ｎ番目のＹ値の受取り時にＮ個の一致
状態が発生すると、開始信号が発生し、次のネットワー
ク更新サイクルを開始する。例えば、第５図で、有効論
理機構のフロント・エンドは、MPX、ラッチ及び遅延δ_M
（Ｍ）ブロックで示されるように、循環シフト・レジス
タを使用する。この循環シフト・レジスタは、各乗算の
開始時に新しい有効ビットが始まるように、有効ビット
をシフトする。有効ビットはまた、乗算、加算及びシグ
モイド生成が遅延ブロックによってシミュレートされる
点を除き、PN乗加算器ツリー・パイプラインの複製であ
る、パイプライン中を順次通過する。有効パイプライン
は、有効ビットがパイプラインを通ってシフトすると
き、有効ビットに、それと同じパイプライン・レベルに
ある他のパイプライン・ラッチを制御させることによ
り、他のパイプラインを制御することができる。有効パ
イプライン遅延ブロックは、実施上の特性に応じて、こ
の種の制御を実現可能にするために、指定されたブロッ
ク遅延よりも１クロック・サイクル少なくなければなら
ないことがある。重みアレイはカウンタからアドレスさ
れる。このカウンタは、次の重みのアドレスが前もって
準備できるように、乗算器遅延ブロックに入る前に有効
ビットによって論理的に増分される。カウンタは、ネッ
トワーク内で処理されるニューロンの数に等しいＮ事象
の最大数までカウントし、その後、Ｎ＋１有効ビットが
生成されないようにするNTH-EVENT信号を生成する。カ
ウンタは各重みアレイのｉ番目の重みをアドレスする。
このｉ番目のアドレスはまた、Y_i計算用のタグをも表
す。次にソース・タグ“i"が、ニューロンY_i値と同期し
てバス上に到着するようにパイプライン化される。この
考察では、SPINで排除されているわけではないけれども
乗算器はパイプライン化されないが、乗算は加算とオー
バーラップする。このためには、乗算器と加算器ツリー
の間にレジスタ・ラッチを設けることが必要である。加
算器ツリーは段間でパイプライン化され、加算器ツリー
中での前の求和が終わる前に新しい求和処理が開始でき
るようになっている。さらに、わかりやすいように図に
は示されていないが、各加算器段はラッチされる。log₂
Nの加算段が完了した後、所与の"i"に対するY_iW_ijの１
からＮまでの全ての"j"についての累積和がシグモイド
入力値ラッチにクロック・インされる。シグモイド生成
機構の完了後、結果が単一バス上に出力される。

上述のように、上記のタグ付きSPINアーキテクチャ
は、ｍ＝Ｎの場合、各PEからタグ比較機能を取り除いて
簡単にすることができる。この構造は、第６図に示すよ
うに簡単になる。

SPIN周期の計算前述のSPINアーキテクチャの性能を評価するため、
「指定された」要素中の遅延を表すδ_nameで遅延変数を
表すものとする。SPINでは、以下の遅延変数が使用され
る。

・δ_PE＝SPIN PE遅延・δ_M＝Y_iW_ij乗算器遅延・δ_A＝２−１加算器遅延・δ_S＝シグモイド生成機構遅延・δ_B2＝SPINバス遅延・δ_W＝重みアレイ・アクセス遅延以下の一般的仮定及び他の表記法に留意されたい。

1.ブロック遅延は、下付き文字"d"で表す。

2.システムによって定義されるクロック周期はＣであ
り、全ての遅延はＣの倍数として表される。

3.SPIN内の加算器ツリーは段間でパイプライン化されて
いる。

4.SPIN内の加算器ツリーの段数はlog₂Nである。ただ
し、Ｎはシミュレートされるニューロンの総数であり、
SPIN入力の数に等しい。

SPINアーキテクチャの性能は、ニューロン出力を発生
する周期によって表される。SPINは、リング・シストリ
ック・アレイの場合と同様に、帰納的方程式１に基づく
ので、前のY_i値が計算され、入力値論理機構で受け取ら
れる前にY_i+1の計算を開始することができない。これら
の周期では、SPINで排除されてはいないけれども乗算及
びシグモイド関数はパイプライン化された関数とは見な
されないが、それらの入力が乗算器またはシグモイド遅
延全体で一定に保たれることを必要とする。構造の安全
性及び性能上の理由から、計算用の値が、必要なときに
様々な機能ユニットの入力中に存在し、かつ入力論理及
び重みアクセスが乗算動作と並列に動作することが望ま
れる。追加の遅延なしに安全性を得るためには、いくつ
かの制約をアーキテクチャが満たされなければならな
い。乗算器動作間に遅延ギャップがないように、重みア
クセス及び入力PE遅延は乗算器遅延以下でなければなら
ない。

δ_W≦δ_M （４） δ_PE≦δ_M （５）式４及び５を満たすことができない場合は、最大遅延時
間δ_Wまたはδ_PEを有するユニットが、必要に応じて有
効データが乗算器に安全に供給できるように、タイミン
グを制御する。乗算の結果が衝突なしに加算器ツリーに
供給されるには、乗算遅延は加算器遅延よりも長くなけ
ればならない。

δ_M≧δ_A （６）これらの遅延条件のため、各Y_iに対する最終的求和結果
が、各乗算器遅延ごとに１個という速度で順にシグモイ
ド生成機構に入ることになる。この速度が、Y_jW_ij積が
加算器ツリーに入る速度である。シグモイド関数がパイ
プライン化されていないものとすると、安全を保証する
ためにもう１つの遅延条件が必要である。

δ_S≦δ_M （７）この条件により、シグモイド関数が処理のために各求和
値を受け取れることが保証される。δ_S≦δ_Mの場合は、
シグモイド入力部での緩衝、または並列に動作する複数
のシグモイド生成機構の使用が必要となろう。単一のシ
グモイド生成機構でδ_S≦δ_M条件を満たす手法の一例
は、線形シグモイド関数に対するテーブル索引近似を使
用するものである。この近似手法は他のニューロンコン
ピュータ、例えば"Treleaven 90"で使用されている。

要約すると、SPINの安全条件は次の通りである。

δ_W≦δ_M 式４ δ_PE≦δ_M 式５ δ_M≧δ_A 式６ δ_S≦δ_M 式７つまり、SPINでは、ニューロン値Y₁，Y₂,...,Y_Nが１
つのPNから順次出力される。各値はタグを付けられ、次
にバス上に置かれる。バス上のタグと一致した適切なPE
が、ニューロン出力値を正しい入力値乗算器にゲートす
る。Ｎ個のニューロン値が全て受け取られたときだけ一
致状態が生じることができる。この順序配列及びバスと
PE−Ｎの接続により、ホスト・コンピュータからの初期
設定時及び内部処理の実行中、各反復サイクルでSPINプ
ロセッサが、どのようにニューロンが得られたかという
点だけを除き、初期設定時と全く同様に機能することが
保証される。Ｎ回の乗算に対する遅延は次の通りであ
る。

加算の第１段の遅延は以下の通りである。

加算の第２段の遅延は以下の通りである。

最終的求和遅延は次のようになる。

最終和は、シグモイド関数の作用を受け、次に単一バス
上をPE入力に送られ、次に、PEで処理されてから乗算器
入力に到達する。この遅延は次の通りである。

乗算器はパイプライン化されていないので、各重み乗算
は順次行なわれる。さらに、δ_S≦δ_M、すなわちパイプ
ライン化シグモイド生成機構及びパイプライン化加算器
ツリーを仮定すると、生成される次のニューロン値は次
の形になる。

（Ｙ′_i）_d＝（ｉ）δ_M＋（log₂N）δ_A＋δ_S＋δ_B2＋δ
_PE 例えば、９番目のニューロン値の遅延は次のようになる（Ｙ′₉）_d＝９δ_M＋（log₂N）δ_A＋δ_S＋δ_B2＋δ_PE 新しい各ネットワーク更新サイクルは、初期設定後の最
初のサイクルと同じ遅延に従う。ニューロン値の生成に
関連する周期は次の通りである。

SPIN周期＝（Ｙ′_N）_d＝Ｎδ_M＋（log₂N）δ_A＋δ_S＋δ
_B2＋δ_PE （８）性能についての考察シストリック・リングとSPINの２つの周期の結果を比
較すると、シストリック・リング周期＝Ｎδ_M＋δ_A＋δ_S＋δ_B1 式
３ SPIN周期＝Ｎδ_M＋（log₂Ｎ）δ_A＋δ_S＋δ_B2＋δ_PE 式
８ δ_B1＝δ_B2であり、かつδ_PEが小さいと仮定すると、SP
INの性能の主な差は加算器ツリーによるものであること
が留意される。

性能の差≒（log₂N）δ_A この差（log₂N）δ_Aは、Ｎが増加するに従って小さくな
る。Ｎが大きな場合、SPINはリング・シストリック・ア
レイに匹敵する性能をもたらす。

VSPIN（仮想SPIN）の説明ｍ＞Ｎの場合を扱えるようにSPINを修正する方法は幾
つかある。ただし、ｍはニューラル・ネットワーク内の
ニューロンの数、Ｎは、SPINがサポートする物理ニュー
ロンの数である。SPINに対する変更の例及びその動作に
ついて検討する。log₂N加算器ツリーの出力側に累算器
を追加したSPINを考える。この累算器はｍ個の記憶要
素、部分和アレイを含み、ｍ個の部分和（PS）値を記憶
できる。シグモイド生成機構は、式１によって決定され
る完全な入力和が満たされるまで必要とされない。さら
に、重み記憶機構が、一層大きなネットワークに対処で
きるように拡張される。制御構造は、以下の動作シーケ
ンスで記述されるように修正されることになる。各SPIN
に所与のサイズの重み記憶機構MEMがあり、Ｎが与えら
れている場合（ｍ＞Ｎ）、ニューラル・ネットワークを
実行することができる。ｍの大きさは次式で与えられ
る。

これは、完全に結合されたｍニューロン・ネットワーク
内でm²個の重みが可能であり、m²個の重みがＮ個のSPIN
入力値の間に分配されるからである。話を簡単にするた
め、ｍは、上記平方根から得られる整数であるとする。
例えば、Ｌビットの重み値Ｎ＝128、かつ入力重みアレ
イ・メモリのMEM＝32K×Ｌビットと仮定すると、ｍは、
128個の入力を含むSPIN構造上でシミュレートできる、2
048個の完全に結合されたニューロンに等しくなる。VSP
IN構造を第７図に示す。第７図では、わかりやすいよう
に、ホスト・インターフェース機能ブロックは取り除い
てある。重みは第８図に示すように記憶される。VSPIN
は次のように動作する。

・開始:Y値Y₁，Y₂,...Y_Nを乗算器入力レジスタに転送
し、VSPINの実行を開始する。

・Ｙ値Y_N+1，Y_N+2,...Y_2Nのホスト・ロードを開始し、
部分和（PS_,_）を部分和アレイに記憶する。

・新しいＹ値Y_N+1，Y_N+2,...Y_2Nを乗算器入力レジスタ
に転送し、VSPINの実行を開始する。

・Ｙ値Y_2N+1，Y_2N+2,...Y_3Nのホスト・ロードを開始
し、部分和（PS_,_）を部分和アレイに記憶する。

・新しいＹ値Y_m-N+1，Y_m-N+2,...Y_mを乗算器入力レジス
タに転送し、VSPINの実行を開始する。

・PS1,m/Nをシグモイドに送ってY₁を生成する。

・シグモイド関数が完了したとき、Y₁をPE−Ｎ及びホス
ト・インターフェースに送る。

・PS2,m/Nをシグモイドに送ってY₂を生成する。

・シグモイド関数が完了したとき、Y₂をPE−Ｎ及びホス
ト・次のｍ−Ｎ個のＹ値はホスト・インターフェースに進
むだけであり、PEは、ネットワークが「開始」されるま
でこのＮ個のＹ値を保持する。

・PSN＋1,m/Nをシグモイドに送ってY_N+1を生成する。

・PSm,m/Nをシグモイドに送ってY_mを生成する。

・シグモイド関数が完了したとき、Y_mをホスト・インタ
ーフェースに送る。

・更新サイクルがホストによって指定された回数だけ完
了するまで繰り返す。

別法として、すべてのＹ値をホストに送ることができ
る。この場合、ホストは、ｍ個のＹ値を受け取った後、
PEをＹ′₁,Y′₂,...Y′_N値で初期設定してネットワーク
を開始させるが、性能は低下することになる。

Ｎ＝128及びMEM＝32K×Ｌビットの例では、VSPINは全
性能で128ニューロン・ネットワーク、仮想モードで204
8ニューロン・ネットワークを直接実施することにな
る。"Hopfield 85"のニューラル・ネットワーク上にマ
ップしたホップフィールドの巡回セールスマン問題（TS
P）の例に従うと、上記のVSPIN例では、10都市の問題が
直接実行でき、45都市の問題が仮想モードで実行できる
ことになる。

これは、１つのSPIN拡張の方法にすぎず、ホスト・イ
ンターフェース対話を使って重み及びＹ値の両方を更新
する他の方法も可能である。

VSPIN周期の計算ｍ個の部分和からなる各グループが実行される間に、
ホスト・インターフェースには、ｍ個の部分和からなる
次のグループに必要な新しい１組Ｎ個のＹ値がロードさ
れる。正しく設計されていれば、Ｎ個のＹ値をロードす
るのに要する時間は、ｍ個の部分和の処理よりも少な
い。例えばホスト・インターフェースにｍ個のＹ値バッ
ファを設けて、ホスト・インターフェースがVSPIN周期
の計算に影響を与えないようにしてこれを実現すること
ができる。

ｍ＞Ｎ、及びSPINと同じ条件下で、VSPIN周期の式が
次のようになることを示すことができる。

ｍ＝Ｎの場合、VSPIN周期はSPIN周期とほぼ同じであ
る。

SPIN−Ｅの説明 SPINアーキテクチャでは、ハードウェアの追加により
さらに改善が可能である。話を簡単にするため、第９図
のＥ＝２の場合の、タグが付かないSPIN−Ｅ構造を考え
る。この構造は、元のSPIN構成のうちの合併された２つ
を使用し、ｍ＝Ｎ、かつＮは偶数のニューロン数であ
る。単一のホスト・インターフェースがSPINの場合と同
じ機能をもたらすものと仮定する。さらに、PNが複数個
ある場合でも実施態様によっては別の指定になることも
あるが、論理的にはただ１つの重みアドレス生成機構が
必要となるだけであることに留意されたい。

話を進める前に、SPINで使用されるものとは異なって
いるに違いないので、より一般的なタグ付きアーキテク
チャについて簡単に説明することが望ましい。例えば、
−Ｋ（PN−Ｋ）によって識別されるＥ個のPNの場合、次
のようになる。ただし、Ｋは1,2,...Eに等しく、ｉは1,
2,...N/Eと順次変化し、N/Eは偶数の整数である。

PN−Ｋタグ＝Ｋ＋Ｅ（ｉ−１）この場合、各固有PNの開始タグは、前のPNのタグよりも
＋１だけ大きくなる。この開始タグが、その特定のPNの
０番目のタグとなる。各後続タグは前のタグよりもちょ
うど＋Ｅカウントだけ多くなり、最後のタグがバス上に
出力された後は最初の０番目のタグの値に戻る。従っ
て、＋Ｅカウンタ・タグ回路が各PN内で重複している。
SPIN−２構造は、それぞれニューロン値同期ユニットに
到る２本のバスを有し、この同期ユニットは２つのＹ値
を並列に受け取り、直列に接続されたニューロン入力Ｙ
値レジスタにＹ値を正しい順序で出力する。同期論理機
構は２回のシフトを必要とするが、これはＹ値間の遅延
時間内に容易に行なうことができ、従って、同期時間は
最後のＹ値上でのみ見られる。SPINと比べて、SPIN−Ｅ
は、使用する乗算器、２−１加算器及びシグモイド生成
機構の数は２倍になるが、Ｙ値レジスタは、２つの乗算
器／加算器ツリー構造で共用できるので同数である。各
SPIN−Ｅ部分で乗算が半分ずつ実行されるので、SPINと
同じ遅延条件を使って次の反復周期が得られる。

Ｅが大きくなるほど、同期時間を考慮しなければならな
い。SPINタイミング条件のもとでは、Ｙ値が最も速く生
成できるのは、各乗算器遅延時間δ_Mにつき１回であ
る。δ′_Mが乗算器遅延と等しい数字の無次元量である
とすると、Ｅ＞δ′_Mのとき、生成されるＥ個のＹ値か
らなる各グループごとに同期時間を考慮しなければなら
ない。Ｅ＞δ′_Mのときは、処理を停止するか、または
十分なバッファを同期装置に設けなければならない。Ｅ
＞δ′_Mは、非常に大きなシステムを意味し、その性能
が同期の問題によって大きな影響を受けているので、Ｅ
≦δ′_MのときのSPIN−Ｅの性能のみを考慮する。一般
に、この数のSPIN部分が反復されるので、以下の周期が
得られる。

Ｅ≦δ′_Mの場合 SPIN−ＥとSPINの性能を比較すると、性能上の利益は次
式で与えられる。

Ｅが小さい場合は、式８と９を代入すると、Ｎが大きくなると、Ｎδ_M＞＞（（log₂N）δ_A＋δ_S＋δ
_B＋δ_PE）となり、ＥがＮに比べて小さい場合は、（N/
E）δ_M＞＞（log₂Nδ_A＋δ_S＋δ_B＋δ_PE＋EC）となり、
次式をもたらす。

性能の向上≒ＥＥ＝２の場合、性能の向上は、Ｎの大きさが増大するに
従って２に近づく。

SPIN−-IP（並列性の増大したSPIN）の説明第10図のSPIN-IPに示すように、非パイプライン式の
乗算器及びシグモイド生成機構を重複させることによっ
て、SPINの性能をさらに高めることができる。実際に、
シグモイド生成機構の使い方における特定の条件が満足
されるなら、SPIN-IPを用いると、δ_S≦δ_Mという制約
を除去し、各シグモイド生成機構に別々のバスを設ける
必要をなくすことができる。A^*Ｎ個の乗算器及びＢ個の
シグモイド生成機構によって性能の向上が得られる。た
だし、Ａは乗算器クロック・サイクル遅延に等しい無次
元数であり、Ｂはシグモイド・クロック・サイクル遅延
に等しい無次元数である。例えば、乗算器遅延が長さ32
クロックの場合、Ａ＝32であり、シグモイド生成機構が
長さ64クロック・サイクルの場合、Ｂ＝64である。オー
バラップしない順次的求和値入力を有するシグモイド生
成機構への共通入力を設けることにより、δ_S＝δ_Mとい
う制約を除去することができる。SPIN−ＥではＢ個のシ
グモイド生成機構はＢ本のバスを意味するが、SPIN-IP
ではそうではない。というのは、Ｂ個のシグモイド生成
機構から生成されるＹ値は、SPIN−Ｅにおけるように並
列には生成されないからである。SPIN-IPシグモイド生
成機構は、互いに１クロック・サイクルずつ離してＹ値
を順次生成する。従って、１本のＬビット幅の並列３状
態バスを使用することができる。

ビット直列設計では、求和構造も、増大した並列性に
対応できるように適合させなければならない。δ_S≦δ_M
という制約を除去し、各シグモイド生成機構毎に１本の
バスを設ける必要をなくすビット直列設計を実現するに
は、ビット直列乗算器または加算器ツリーの値を、ビッ
ト並列形式で累計し、１クロック・サイクル毎に１個の
値という速度でシグモイド生成機構に印加させることが
必要である。こうすると、シグモイド生成機構は１クロ
ック・サイクル毎に１つのＹ値を生成できるようにな
る。２−１ビット直列加算器から構成される"A"個の加
算器ツリー、または各乗算器からの"A"ビット幅の値を
収容する１個の加算器ツリーのどちらかを使用しなけれ
ばならない。加算器段の遅延を最小にするには、２−１
加算器から構成される"A"個の加算器ツリーを使用し、
ビット直列求和値をシグモイド生成機構に入る前に累計
する。ワード並列手法では１個の加算器ツリーを使用す
る。というのは、"A"ワード幅の加算器ツリーよりも少
ないハードウェアしか要せず、かつ２つの可能なワード
並列ツリー実施態様の間で加算器段遅延の違いがないか
らである。

ホスト・インターフェースは、SPINと同様に機能する
が、わかりやすいように、第10図のSPIN-IPでは省略し
た。ビット直列の側から見ると、第10図は、ビット直列
積が、ワード並列形式で構成された加算器ツリーに入る
前に累計される実施態様を示す。

第10図を見るとわかるように、乗算器入力は１入力当
たりＡ個の乗算器を含むように拡張されており、各乗算
器は、MPXで表されるＡ−１マルチプレクサに出力を供
給する。MPXの出力は標準のlog₂N加算器ツリーに供給さ
れる。別法として、ビット直列設計では、マルチプレク
サを介して１個の加算器ツリーに入る前に積を累計する
代わりに、"A"個の加算器ツリーを設け、ビット累算器
をそれらの出力側に配置することができる。累計された
出力は次にＢ個のシグモイド生成機構に分配されるが、
これは、例えば、Ｂ個のシグモイド生成機構全てに結合
された共通の３状態バスを使用することによって実現で
きる。第10図に示すように、加算器ツリーの出力はＢ個
のシグモイド生成機構にファンアウトし、シグモイド生
成機構の出力は１本のＬビット幅の３状態バスに供給さ
れる。説明を簡単にするため、N/Aは、第11図に示す重
み記憶機構について仮定するように整数であると仮定す
る。ホスト・インターフェースがSPINと同様にしてSPIN
-IPを初期設定すると仮定すると、以下の動作シーケン
スが実行される。重み値は第11図に示してある。開始信
号が発生した後、最初のＹ値が最初の乗算器セルに転送
されて第１列の乗算を開始する。

第１列のMPY1＝Y₁W_1,1，Y₂W_1,2,...,Y_NW_1,N 次のクロック・サイクルでＹ値が次の乗算器入力セルに
シフトされ、第２列の乗算を開始する。

第２列のMPY2＝Y₁W_2,1，Y₂W_2,2,...,Y_NW_2,N Ａ番目のクロックの後、各乗算器セルがＹ値入力を受け
取るまで、各クロック・サイクル毎にＹ値が次の乗算器
入力セルにシフトされる。第Ａ列の乗算が開始する。

第Ａ列のMPYA＝Y₁W_A,1，Y₂W_A,2,...,Y_NW_A,N Ａ番目のクロックの後、第１列の乗算器はその乗算を完
了して結果をＡ−１マルチプレクサに送っており、マル
チプレクサは値を加算器ツリーにゲートする。マルチプ
レクサは次のクロック・サイクルで切り換わり、第２列
の乗算結果が加算器ツリーに入ることができるようにな
る。この手法では、加算器段遅延が長さ１クロック・サ
イクルである必要がある。各列の乗算が完了した後、各
列の乗算器は次の乗算を開始する。このようにして、最
初のδ_M遅延後、後続の全ての乗算結果が１クロック・
サイクル当たり１個という速度で加算器ツリーに入る。
加算器ツリーからの求和結果（ビット直列設計の場合は
ビット累計結果）も最初のδ_M＋δ_mpx＋（log₂N）δ_A遅
延の後、１クロック・サイクル当たり求和結果１個とい
う速度で生成され、パイプラインを埋めていく。シグモ
イド生成機構の遅延は１クロック・サイクルよりも大き
いと仮定されるので、入ってくる入力を処理するために
複数のシグモイド生成機構が並列に配置される。シグモ
イド生成機構の簡単な、順序通りの順次的選択制御によ
って、シグモイド生成機構が正しく始動されることが保
証される。シグモイド生成機構は次にその最初のシグモ
イド遅延後、クロック・サイクルごとにＹ値を生成す
る。Ｙ値はＢ個のシグモイドの生成機構から順次生成さ
れるので、生成機構の出力は、１本の共通３状態バスを
使用することができ、順次制御によって１クロック・サ
イクル毎に１つのＹ値がバス上で使用可能になる。シグ
モイド出力バスはＬビット幅であると仮定され、Ｎ番目
のタグを有するPEに接続されている。これらの出力はSP
INと同様に順次的順序Y₁，Y₂,...Y_Nで生成され、Ｎ番目
のＹ値を受け取った後で始めて次の更新サイクルが開始
できる。

SPIN-IP周期の計算加算器ツリー入力でのマルチプレクサの使用、または
加算器出力部でマルチプレクサ機能を提供する"A"個の
加算器ツリーを伴う３状態バスの使用と関連する遅延時
間がある。この時間はδ_mpxで表され、パイプラインの
一部として扱われる。SPIN-IPの周期は次のようにな
る。

SPIN-IP周期＝δ_M＋δ_mpx＋（log₂N）δ_A＋δ_S＋δ_B＋
δ_PE＋（Ｎ−１）Ｃ（10） SPIN-IPとSPIN−Ｅ（Ｅ＝δ′_M）を比較すると、性能上
の利益は次式で与えられる。

バス遅延が等しいと仮定し、式９（Ｅ＝δ′_M）及び式1
0を代入すると、・δ_mpx＝１・δ_S＋δ_B＋δ_PE＝Ｋと仮定すると、ただし、Ｃ＝クロック・サイクルＥ＝δ′_Mのとき、SPIN-IPはSPIN−Ｅと等しい機能を
有する。

ビット直列設計、すなわち非パイプライン式乗算器及
びシグモイド生成機構を用いた設計とは違って、乗算器
及びシグモイド生成機構を（乗算器は"A"段、シグモイ
ド生成機構は"B"段で）パイプライン化することによ
り、Ｌビットの並列設計でSPIN-IPと同等の性能を得る
ことができることに留意されたい。乗算器、加算器ツリ
ー及びシグモイド生成機構における各段遅延は等しいも
のと仮定する。パイプライン化する場合、ただ１つのシ
グモイド生成機構しか必要でなくなる。さらに、加算器
ツリー入力部にマルチプレクサは必要でない。プロセッ
サは、SPIN-IPと同様にＹ値を順序通り順次生成する。
この完全パイプライン式手法の高水準構造を第12図SPIN
-IP2に示す。

SPIN-IP2周期の計算 SPIN-IP2周期＝δ_M＋（log₂N）δ_A＋δ_S＋δ_B＋δ_PE＋
（Ｎ−１）（11） SPIN-EXPの説明Ｅ個の並列要素を有する、SPIN−Ｅと呼ばれる拡張さ
れたSPIN設計のSPINと比べた性能上の利益は、Ｎが大き
くＥが小さい場合、Ｅに近づく。SPIN-Ｅは、例えば、E
^*N個の乗算器、Ｅ個の加算器ツリー、Ｅ個のシグモイド
生成機構、及びＥ本のバスの相互接続ネットワークを必
要とする。SPIN-IPは、A^*Ｎ個の乗算器、Ａ個の加算器
ツリー、Ｂ個のシグモイド生成機構、及び１本のバスを
必要とする。どちらの手法も大量のハードウェアを必要
とする。SPIN-EXPと呼ばれるもう１つの手法を調べた。
この手法は、少ないハードウェアで、シストリック・ア
レイ・ニューラル・ネットワークに関して既に述べたよ
りも秀れた性能をもたらす代替的手法を提供する。この
新しい構造はまた、性能の範囲を並列度及びシステムに
組み込まれる関連ハードウェアのコストと共に変動させ
ることができる。SPIN-EXPは、その極限では、関連する
性能利得を有するSPIN−Ｅ構造になる。

SPIN-EXPは、Ｅ個のPN要素、Ｅ−１個の追加のPNに含
まれるＸ個の反復された入力乗算器部分から構成され、
追加の並列PNからＰ個のニューロン値を発生する。Ｅ＝
2,X＝1,P＝１の場合のこの構造を第13図に示す。

第13図のSPIN-EXPのPN−１では、ニューロン値Y₁，
Y₂,...Y_N-1が１つのPNから順次出力される。各値はタグ
をつけられて、バスに置かれる。入力PEは、基本SPIN構
造に関して既に述べたのと同様に機能する。「開始」信
号は、カウンタ比較回路から得られるものでよい。この
回路は、Ｎ個のニューロン値すべてをバスから受け取る
まで新しい動作が起こらないことを保証する。「開始」
信号は、SPIN-EXPのPNプロセッサが、ホスト・コンピュ
ーターからの初期設定時及び内部処理の実行中に、各反
復サイクルで、ニューロン値がどのように得られるかを
除けば、初期設定時と全く同様に機能することを保証す
る。

第13図に示したPN−２の場合、PE−ＡはPN−１のタグ
付きの値を受け取り、それを待ち行列に記憶する。２個
のPE−Ｎ、すなわちPN−１中の１つとPN−２中の１つは
PN−２の出力を受け取り、この出力はＰ＝１のこの場
合、モデル化されたネットワーク構造のＮ番目の出力で
ある。PN−２のPE−Ｎは、PN−２の待ち行列内に他のPN
−１の（Ｎ−１）個のタグ付きの値の後にＮ番目の値を
記憶する。PN−２は、この待ち行列からのニューロンＹ
値とその関連する重みの順次乗算を行ない、積を繰り返
し加算する。最終的反復和は、Ｎ番目のニューロンに対
する全ての重み付き入力の総和を示し、この値は次にY_N
値を発生するためにシグモイド生成機構に送られる。PN
−２のY_N値は２個のPE（PN−１中の１つ及びPN−２中の
１）だけに進む。PN−２に対する次のネットワーク更新
サイクルは、PN−１プロセッサと同様に「開始」信号に
よって制御される。第14図に、待ち行列に基づくニュー
ラル要素をさらに詳細に示す。Ｙ値待ち行列記憶機構
は、第14図でバタフライ待ち行列と呼ぶ、２つの記憶ア
レイから構成される。現更新サイクル用のＹ値はアレイ
の一方、例えばQ1に保持され、他方のアレイ、例えばQ2
は、次のネットワーク更新サイクルで使用される新しい
Ｙ値で更新される。次のサイクルが「開始」さらたと
き、待ち行列バッファが切り換わって、新しいＹ値（こ
の例ではQ2）が次の更新サイクルで使用され、他方の待
ち行列（この場合はQ1）が次のサイクルのＹ値をロード
し始めるようになる。待ち行列バッファは、各更新サイ
クル毎に切り換わる。ホストは最初に第１のニューロン
値及び全ての重みを待ち行列及び重みアレイに記憶す
る。初期設定後、SPIN-EXPが「開始」され、PN−１から
タグ付きのＹ値が順次出力される。タグは、Ｙ値が書き
込まれる待ち行列へのアドレスとして機能する。PN−２
から発生されたY_N値は、Ｎ番目のアドレスに記憶され
る。PN−２の重みアレイ・アドレス生成機構は、ネット
ワークの実行中に全てのPN−２重みアレイ及び待ち行列
を生成する。これによって、Y_jが乗算器への入力として
W_ijと正しく対にされる。乗算器の後には、記憶要素を
備えた単一加算器から成る反復加算器が配置され、累計
和関数を提供する。求和処理を開始する前に反復加算器
記憶要素を０に初期設定しなければならず、それが第１
乗算器の積に加えられる。第２の乗算の完了後、加算器
記憶要素に記憶された第１の積と第２の乗算結果を加算
することができる。Ｎ−１個の和のうちの最初のもので
あるこの和が加算器記憶要素に記憶され、重みとニュー
ロン値の積の現在の和が得られる。これらの反復加算は
乗算動作と並列に行なうことができる。次に最終的累計
和が、新しいニューロン出力を計算するシグモイド関数
への入力になる。タグの生成では、PN−２部分が扱うニ
ューロン値の数を考慮に入れなければならない。これ
は、ホストによってロードされたレジスタから得られる
変数Ｐによって制御される。PN−１はY₁，Y₂,...Y_N-Pを
出力し、PN−２はY_N-P+1，Y_N-P+2,...Y_Nを出力する。

このPN−２構造を用いると、並列性の向上をもたら
し、その結果、最小限の追加ハードウェアで性能を向上
させることができるようになる。PN−２での並列性増大
の一例を第15図に示す（わかりやすいようにホスト・イ
ンターフェースは省略してある）。第15図では、第13図
のPN−２の入力乗算器部分が反復されており、PN−２が
Ｐ＝２の出力Y_N-1及びY_Nを処理できるようにその性能を
向上させることが可能になる。反復された入力乗算器の
数はＸで表される。各乗算器入力に対する待ち行列のサ
イズは、Ｘが増加するに従って小さくなる。例えば、Ｘ
＝１の場合、単一のバタフライ待ち行列がＮ個のＹ値エ
ントリを含み、Ｘ＝２の場合は、２個のバタフライ待ち
行列がそれぞれN/2個のＹ値エントリを含み,...,X＝Ｎ
の場合は、待ち行列はＹ値レジスタになる。Ｘ＝Ｎの場
合の構造は、PN−２における反復加算器も、追加のＹ値
レジスタも必要としない。これらは、第９図に示すよう
に、PN−２構造がPN−１の複製となり、さらにPN−1/PN
−２構造全体がSPIN−Ｅ（Ｅ＝２）になるように、PN−
１から共用できるからである。

SPIN-EXP周期の計算周期計算は、第12図の例（Ｘ＝２）に示すように、PN
−２における増大した並列性に基づく。次に式を一般に
Ｘに拡張する。以下の新しい変数がSPIN-EXPの解析で使
用される。

・δ_Qr＝SPIN-EXP待ち行列読取りアクセス遅延・δ_QW＝SPIN-EXP待ち行列書込み遅延新しい一般的仮定及び他の表記法は以下の通りであ
る。

1.δ_Qr≦δ_Mo待ち行列読取りアクセス遅延は乗算器遅延
よりも小さくなければならない。

2.δ_QW≦δ_Mo待ち行列書込み遅延は乗算器遅延よりも小
さくなければならない。

3.SPIN、SPIN−Ｅ及びSPIN-EXPのPN−１では、加算器ツ
リー中の段数はlog₂Nである。ただし、Ｎはシミュレー
トされるニューロンの総数であり、SPIN入力の数に等し
い。

4.SPIN-EXPのPN−２では、加算器ツリー中の段の総数は
log₂Xである。ただし、Ｘは反復された入力乗算器部分
の数である。

PN−１の場合 SPIN-EXPのPN−１部分は、SPINと同様にＹ値を生成
し、以下の形のタイミング式を有する。

（Ｙ′_i）_d＝（ｉ）δ_M＋（log₂N）δ_A＋δ_S＋δ_B2＋δ
_PE SPIN-EXPでは、PN−１は、（Ｎ−Ｐ）番目の値が次のよ
うになるＮ−Ｐ個の値を生成する。

（Ｙ′_N-P）_d＝（Ｎ−Ｐ）δ_M＋（log₂N）δ_A＋δ_S＋δ
_B2＋δ_PE （12） PN−２の場合Ｘに関する最後の２つの乗算は次のようになる。

（Y_N-1W_N-1,N-1）_d＝N/Xδ_M （Y_NW_N-1,N）_d＝N/Xδ_M 加算器ツリー及び反復加算の場合Ｘに関する最後の求和は次のようになる。

δ_A項をまとめると、（Ｎ−１）番目のニューロンの出力Ｙ値をこのとき次の
ように計算することができる。

PN−２からのＰ番目のＹ値、すなわち、この場合はPN−
２からのY_N値は以下のタイミングを有する。

（Ｙ′_N）_d＝Ｐ（N/X）δ_M＋（１＋log₂X）δ_A＋δ_S＋
δ_B2＋δ_PE （13） PN−２は、Ｘ個の反復された入力乗算器部分によってＰ
個のニューロン値を生成する。SPIN-EXPの性能を以前の
手法よりも向上させるには、PN−２から生成される最後
のニューロン値が、Ｎ−Ｐニューロン値がPN−１から生
成される以下の時間で生成されることが必要である。式
12≧式13と設定すると、次の結果が得られる。

（Ｎ−Ｐ）δ_M＋（log₂N）δ_A＋δ_S＋δ_B2＋δ_PE≧Ｐ
（N/X）δ_M＋（１＋log₂X）δ_A＋δ_S＋δ_B2＋δ_PE 整理すると、（Ｎ−Ｐ）δ_M＋（log₂N）δ_A≧Ｐ（N/X）δ_M＋（１＋l
og₂X）δ_A Ｐについて解くと、Ｘ＝１の場合、Ｐは次のようになる。

Ｐ＝１の場合にＮについて解くと、乗算器遅延及び加算
器遅延に関してＮの最小値が得られる。

加算器遅延を１クロック・サイクルすなわちδ_A＝1Cと
仮定して式15に代入すると、ただし、δ′_M＝δ_Mの無次元数値。乗算器遅延の増大に
伴うＮのこの指数関数的増加は、第13図のPN−２の構造
によるものである。Ｐ＝１の場合は、システム全体の性
能がPN−２遅延だけ低下する。というのは、現在の反復
値、すなわちPN−２からの反復値が全て受け取られるま
で、PN−１は次の値の処理を開始できないからである。
PN−１について式12を繰り返し、Ｐ＝１と設定すると、（Ｙ′_N-1）ｄ＝（Ｎ−１）δ_M＋（log₂N）δ_A＋δ_S＋
δ_B2＋δ_PE （16）リング・シストリック・アレイ・ニューラル・ネットワ
ークの式３を再掲すると、シストリック・リング周期＝Ｎδ_M＋δ_A＋δ_B1＋δ_S Ｐ＝１の場合、式16はシストリック・リング・ニューラ
ル・ネットワークの性能式に非常に近くなり、性能が依
然としてリング・シストリック・アレイ手法とほぼ同等
であることを示す。

Ｘ＝Ｎの場合は、反復加算器遅延は必要でなく、１本
の加算器ツリーだけでよく、PN−２はPN−１の複製にな
る。このＸ＝Ｎの場合は、Ｐは次のようになる。

したがって、ＸがＮに近づくに従って性能は２倍にな
り、回路は、既に述べたSPIN−Ｅ（Ｅ＝２）のようにな
る。

Ｘが増加するとき、SPIN-EXPを実施するもっと実現可
能な方法は、PN間でＹ値レジスタを共用し、N/X−１マ
ルチプレクサを使ってPN−２の乗算器入力を供給するも
のになる。Ｘ＝N/2の場合についてこの構造を第16図に
示す。この例では単純なスイッチとして働くマルチプレ
クサが無視し得るほど小さな遅延を示し、クリティカル
なタイミング経路に影響を及ぼさないものと仮定する
と、PN−２に対するタイミング式は式13と同じままとな
る。ビット直列設計では、Ｙ値がマルチプレクサ内にシ
フトされ、Ｙ値レジスタ内で再循環されるものと仮定す
ると、Ｘ個のN/X−１単一ビット・マルチプレクサが必
要なだけであり、全体的なハードウェア・コストをほと
んど増加しない。

SPIN-EXPの性能比較シグモイド生成機構は、それを実施するのに、一般に
乗算器または加算器よりも多くのハードウェアを必要と
する複雑な関数である。そうであっても、シグモイド生
成機構、マルチプレクサとその入力レジスタ、及び加算
器がそれぞれ同量のハードウェアを必要とする最悪の場
合のシナリオを考えると、リング・シストリック・アレ
イ・ニューラル・ネットワークとほぼ同じハードウェア
を含むSPIN-EXP構造からどのような性能を得ることがで
きるであろうか。両方の構造は同量の重み記憶域を必要
とするので、両方の設計で使用される乗算器、加算器及
びシグモイド生成機構の合計量を調べてみる。シグモイ
ド生成機構の差は、SPIN-EXPにおける追加の乗算器及び
加算器に使用される。

まずＮ＝1024とする。

リング・シストリック・アレイでは、以下のコストを想
定する。

・乗算器1024個・加算器1024個・シグモイド生成機構1024個リング・シストリック・アレイ・ニューラル・ネットワ
ークは合計3072個の要素を有する。

Ｅ＝２個のシグモイド生成機構を含むSPIN-EXP構造を
考えると、・乗算器1024＋Ｘ個・加算器1024＋Ｘ−１個・シグモイド生成機構２個２つのアーキテクチャの間には、Ｎ−２、すなわち、
シグモイド生成機構1022個の差がある。SPIN-EXPでは、
要素の合計数は以下のようになる。

SPIN-EXP要素の数＝2049＋2X ハードウェア・コストを上記のように仮定して、両方の
設計の要素の数を等しく置き、その結果得られる式をＸ
について解くことができる。

3072＝2049＋2X Ｘ≒512 ここで再掲する式14を使って、Ｐについて解くことがで
きる。

Ｐ≦341.3 Ｐ＝341及びＸ＝52を使って、SPIN-EXPのPN−１（式1
2）とPN−２（式13）の関係を調べる。式12≧式13と置
き、共通項を差し引くと、結果は次のようになる。

（1024-341）δ_M＋（log₂1024）δ_A≧341（1024/512）
δ_M＋（１＋log₂512）δ_A 整理すると、（683）δ_M＋（10）δ_A≧（682）δ_M＋（10）δ_A 上記不等式が成立するので、SPIN-EXPは正しく機能す
る。この２つのハードウェア・モデルは最悪の場合の仮
定のもとでほぼ等しいので、性能の向上を計算すること
ができる。

式３及び12を代入し、δ_B1＝δ_B2＝δ_Bと置くと、Ｎ＝1024及びＰ＝341を代入すると、Ｎが大きい場合、Ｎδ_M＞＞（δ_A＋δ_S＋δ_B）、かつ
（Ｎ−Ｐ）δ_M＞＞（（log₂N）δ_A＋δ_S＋δ_B＋δ_PE）
なので、次のようになる。

この例では、性能の向上は以下のようになる。

シグモイド生成機構はこの例で想定したよりも複雑な関
数なので、1.5倍という性能の向上は、実際に得られる
下限を示している。

比較第17図は、全てのパラメータは２の累乗であると仮定
し、ここで考察したアーキテクチャのハードウェア及び
性能の比較を示す。

・Ｎ−モデル化される物理ニューロンの数・Ｅ＝PN要素の数・Ｘ＝反復された入力乗算器部分の数・Ｐ＝反復された並列PNから生成されるニューロン値の
数・Ａ＝クロック・サイクル単位で示した乗算器遅延に等
しい無次元数・Ｂ＝クロック・サイクル単位で示したシグモイド遅延
に等しい無次元数・Ｃ＝システム・クロック・サイクルを表す単位以下の仮定のもとでのアーキテクチャ間の仮想システ
ム・クロック・サイクルの比較を表１に示す（比較が有
効となるように、δ_S≦δ_Mを保つ）。

・δ_M＝64 ・δ_S＝64 ・δ_A＝１・δ_B＝１・δ_mpx＝１・δ_PE＝１ SPINアーキテクチャの４種類の拡張版SPIN−Ｅ、SPIN
-IP、SPIN-IP2及びSPIN-EXP、ならびにVSPINと呼ばれる
SPINの５番目の仮想的拡張版について検討した。リング
・シストリック・アレイ・ニューラル・ネットワークに
ついて考察し、それとSPINアーキテクチャの間で比較を
行なった。この検討から、以下のことが結論できる。

・SPIN及びその拡張版では、様々な性能対価格のトレー
ドオフを示す広範な実施態様が可能である。

・ＮニューロンのSPINタグ付きアーキテクチャは、ｍ
（ｍ＜Ｎ）ニューロンのネットワークで全性能に近い性
能をもたらす。log₂Nの加算器ツリーとlog₂m加算器ツリ
ーのわずかな差が、全性能を得るための唯一の制限因子
である。ｍ≦Ｎの範囲にわたってこの性能を得るために
構造上の変更は必要でない。

・このアーキテクチャは、ニューロンの数（ｍ）が、SP
INが直接サポートするニューロンの数Ｎよりも大きいネ
ットワークの仮想実施態様用に拡張可能である。

・SPINはビット直列手法またはワード並列手法のいずれ
でも実施可能である。

・SPIN-IPはSPINに比べて秀れた性能をもたらし、さら
にδ_S≦δ_M及びシグモイド生成機構１個当たり１本のバ
スという制約をなくしながら、SPIN−Ｅ（Ｅ＝δ′_M）
と同等の性能をもたらす。

・Ｎが大きな場合、SPINの性能はリング・シストリック
・アレイ・ニューラル・ネットワークの性能とほぼ同等
であるが、必要なシグモイド生成機構はＮ−１個だけ少
なくなり、ハードウェアがかなり節約される。

・ここで示した、等量のハードウェアの最悪の場合の比
較では、SPIN-EXPはリング・シストリック・アレイ・ニ
ューラル・ネットワークに比べて約1.5倍の性能向上を
もたらす。

以上、本発明の好ましい実施例について説明したが、
当業者ならこれらの論議を理解すれば、現在でも将来で
も下記の特許請求の範囲に含まれる様々な改良及び機能
強化をそれに加えるであろう。この特許請求の範囲は、
最初に開示した諸発明に対する適切な保護を維持するも
のと解釈すべきである。

フロントページの続き (72)発明者デルガドーフライアズ、ホセ、グアダルーペアメリカ合衆国ニューヨーク州ヴェスタル、アパートメント11、プラザ・ドライブ431番地 (56)参考文献特開昭58−181168（ＪＰ，Ａ) 特開平１−265330（ＪＰ，Ａ) 特開平２−64880（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】Ｎ個の処理要素（PE）であって、その各々
が、ニューロン値及びPEタグのための記憶手段と、新し
いニューロン値を識別するタグとPEタグを比較するタグ
突き合わせ手段と、前記新しいニューロン値のタグが前
記PEタグと一致する場合は前記PEのニューロン値として
前記新しいニューロン値を記憶する手段と、及び前記新
しいニューロン値を識別するタグが前記PEタグと一致し
ない場合は前記PEの次のものに前記新しいニューロン値
を渡す手段を有するＮ−１個のPEとを含み、Ｎ個の重み記憶ユニットであって、そのそれぞれが前記
PEのそれぞれの１つに接続され、及びそのそれぞれが複
数の重み値を記憶するものと、Ｎ個の乗算器であって、そのそれぞれが前記重み記憶ユ
ニットのそれぞれの１つに接続され、及びそのそれぞれ
が出力として前記重み記憶ユニットのそれぞれの１つ接
続されたそれぞれのPEの１つのニューロン値と前記重み
記憶ユニットののそれぞれの１つの重み値の１つの積を
生成するものと、和を生成するために前記乗算器の出力を加算する加算器
ツリーと、前記和を受信し、その和からニューロン活動化関数を用
いて新しいニューロン値を生成する生成手段と、前記生成されたニューロン値を前記生成手段から前記PE
の１つに新しいニューロン値として通信する手段と、を有する順次パイプライン式ニューラル・コンピュータ
装置。
【請求項２】前記ニューロン活動化関数は非線型シグモ
イド関数である請求項１記載の装置。
【請求項３】前記加算器ツリーはlog₂Ｎ個の２−１加算
器段を含む請求項１記載の装置。
【請求項４】前記通信手段は、前記ニューロン値、ソー
ス・タグ、有効信号、及びホストのみで制御される重み
ビットとからなるニューロン情報のパケットを含むバス
である請求項１記載の装置。
【請求項５】ホストへの独立したインターフェースと、前記装置の初期設定のために前記ホスト・コンピュータ
を前記通信手段に接続し、及び前記重み値及び前記ニュ
ーロン値にアクセスするための手段と、を供給するホスト・インターフェース制御手段を含む請
求項１記載の装置。
【請求項６】前記重み記憶ユニットが、前記Ｎ個の重み値をアドレスする手段と、全ての重みアレイのための共通Ｎアドレス生成機構であ
って、前記アドレス生成機構はＮ番目の更新サイクルを
示すＮ番目の事象出力を提供するものと、を有する請求項１記載の装置。
【請求項７】前記PEの記憶タグによって特定された順序
で前記通信手段に前記新しいニューロン値を順番に生成
し出力する手段を含む請求項１記載の装置。
【請求項８】有効かつ安定なニューロン情報のみが通信
されるように、１制御周期の間に前記新しいニューロン
値及び識別タグと共に前記通信手段上に置かれる有効ビ
ットを含む請求項１記載の装置。
【請求項９】前記新しいニューロン値を記憶するための
手段を非活動化する手段を含む請求項１記載の装置。
【請求項１０】次の１組の並列乗算がいつ開始できるか
を示すために、最後の新しいニューロン値が前記PEのう
ちの１に通信されたことを示すための手段を含む請求項
１記載の装置。
【請求項１１】前記PEにおけるタグ突き合わせ手段がな
く、前記新しいニューロン値がカウンタ機構からの指示
で、前記PEのニューロン値として記憶される請求項１記
載の装置。
【請求項１２】前記加算器ツリー接続された累算器含む
請求項１記載の装置。
【請求項１３】Ｅ−１個の実質的に同じ装置に接続さ
れ、さらにＥ本のバスの相互接続ネットワークと制御手
段を有する請求項１記載の装置。
【請求項１４】複数の非パイプライン式乗算器及びニュ
ーロン活動化関数がある請求項１記載の装置。
【請求項１５】Ｅ個の実質的に同じ並列装置と、Ｅ本の
バスと、Ｅ−１個の並列装置からＰ個のニューロン値を
生成するための、前記Ｅ−１個の並列装置に含まれるＸ
個の反復された入力乗算器部分を有し、ここでＥ、Ｘ、
及びＰは１より大きい整数である請求項１記載の装置。