JPH05282272A

JPH05282272A - ニューラルネットワーク並列分散処理装置

Info

Publication number: JPH05282272A
Application number: JP4077246A
Authority: JP
Inventors: Akira Iwata; 彰岩田
Original assignee: MAITETSUKU KK
Current assignee: MAITETSUKU KK
Priority date: 1992-03-31
Filing date: 1992-03-31
Publication date: 1993-10-29

Abstract

(57)【要約】【目的】ニューラルネットワークに関する演算に必要
なプロセッサ間の通信コストを低減し、ニューラルネッ
トワークの演算の効率的な並列処理を実現する。【構成】メモリを行列状に配置し、行方向と列方向に
メモリを高速で切替えるスイッチを設け、同報書き込み
行列共有メモリを構成する。行列セレクト信号ＰＳが、
例えばＨレベルならばポートＡを通じて行方向へのアク
セスが、ＬレベルならばポートＢを通じて列方向のアク
セスができる。メモリ部に与えられたアドレスは列方向
アクセスの場合は各行内に、行方向アクセスの場合は各
列内にメモリモジュールに振り分けられる。これによ
り、各ニューロンユニット内部の演算を各プロセッサで
独自に並列して行うことができる。また、その演算結果
を同時に複数の番地に書き込むことによって、次のタイ
ミングで別々のプロセッサで必要となるデータを１回の
同報書き込みにより遅延なく各プロセッサに分配するこ
とができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、ニューロコンピュー
ティングに関するものであり、特に、ニューラルネット
ワークの演算処理装置に関するものである。

【０００２】

【従来の技術】図１に示すような多入力１出力の素子が
ニューロンモデルである。素子の入力ｘ_iに、重みとし
てｗ_iを乗じたものをそれぞれの入力についての和をと
り、それに応答関数をかけることにより出力ｙを得る。
応答関数は主にシグモイド関数が多く用いられる。

【０００３】このニューロンモデルの出力を他のニュー
ロンモデルの入力に結合して、ネットワークを形成した
ものがニューラルネットワークである。ニューロンの結
合方法としては主として階層型ニューラルネットワーク
と相互結合型ニューラルネットワークがある。［誤差逆伝搬学習法（バックプロパゲーション）］誤差
逆伝搬学習法（バックプロパゲーション：以下ＢＰと
略）は階層型の結合を持つニューラルネットワークにお
ける教師つき学習法の一つである。ネットワークは図２
に示す構造をもつ。以下の説明は３層構造のネットワー
クを対象にする。入力に近い層から順に入力層、中間層
（または隠れ層）、出力層と呼ぶ。

【０００４】学習は、前向き（forward)演算と後向き
（backword) 演算に分けられる。前向き演算は入力信号
によってデータを入力層から出力層に伝搬させ出力ニュ
ーロン値を得るものである。まず、入力層の入力値ｘ_i
と入力層−中間層の荷重ｗ_jiから中間層のニューロン値
ｚ_jを得る。

【０００５】

【数１】

【０００６】

【数２】

【０００７】同様にして、中間層の入力値ｚ_jと中間層
−出力層の荷重ｗ_kjから出力層のニューロン値ｙ_kを得
る。後向き演算は出力誤差を出力層から入力層に伝搬さ
せ、出力ニューロン値と教師信号との誤差を少なくする
ように荷重を変更するものである。出力ニューロン値ｙ
_kと教師信号ｔ_kから得られる出力層での誤差Ｅが減少
するように中間層−出力層の荷重ｗ_kjを変化させること
を考えて、荷重ｗ_kjの修正量Δｗ_kjを与える。 Δω_kj＝ηδ_kｚ_j ただし、ηは学習係数である。また、 δ_k＝（ｔ_k−ｙ_k）ｙ_k（１−ｙ_k）である。さらに、荷重の１回前の修正量にモーメンタム
αを掛けたものを考慮して学習速度を向上させる。 Δω_kj（ｔ）＝ηδ_kｚ_j＋αΔω_kj（ｔ−１）ただし、ｔは学習回数をしめす。

【０００８】同様にして、誤差Ｅが減少するように入力
層−中間層の荷重ｗ_jiを変化させる。ただし、 Δω_ji＝ηδ_jｘ_i

【０００９】ただし、

【数３】

【００１０】とする。さらに、モーメンタムαを考慮し
て荷重の１回前の修正量にモーメンタムαを掛けた荷重
ｗ_jiの修正量Δｗ_jiを次の式で与える。

【００１１】

【数４】

【００１２】η：学習係数 α：モ−メンタムニューラルネットワーク演算処理は、基本的に並列的な
処理である。そのため複数のプロセッサを何等かの方法
で結合して効率的に並列処理を行う手法が必要となる。
並列処理アーキテクチャとして従来知られているものに
リング結合アーキテクチャがある。

【００１３】［リング結合アーキテクチャ］リング結合
アーキテクチャの構成は、複数のデータ転送を同時に実
行するために各プロセッサ間をリング状に結合してい
る。実際にはデュアルポートメモリを用いて各プロセッ
サのメモリの一部を共有する。リング結合アーキテクチ
ャによる前方向伝搬の概念図を図３に示す。各プロセッ
サは保有しているニューロンから結合されている荷重を
ローカルメモリに保持する。各プロセッサは自分が持っ
ているニューロン値Ｘ_iと荷重Ｗ_jiを掛け合わせ、その
値に左側のプロセッサから受けた値を加える。この操作
を同図に示した様に規則正しくプロセッサ数（回）だけ
行い、最後にその値を応答間数に入力することによっ
て、各プロセッサは次層の各ニューロンのポテンシャル
を得ることができる。

【００１４】後方向伝搬の概念図を図４に示す。出力層
の誤差は各プロセッサが独自に計算することができる
が、中間層の誤差を求める場合には、出力層の誤差を各
プロセッサを巡回させながらその誤差に対応する荷重と
の積を求め、その値を合計すれば求めることができる。
また、他の方法の並列処理アーキテクチャとしてグロー
バルバスを用いたコモンブロードキャストバスアーキテ
クチャが知られている。

【００１５】［コモンブロードキャストバスアーキテク
チャ］コモンブロードキャストバスアーキテクチャは、
全てのプロセッサを一本のグローバルバス（共通バス）
上に結合したものである。構成図を図５に示した。バス
には同時に１つのプロセッサからしかデータが送信でき
ない。受信は複数のプロセッサで同時に行うことができ
る。メモリは各プロセッサが分散して保持している。こ
れをハードウエアで実現する場合、プロセッサからみて
あるアドレスをデコードしたときの出力データが共有バ
スに出力されるようにしておけばよい。

【００１６】ＢＰ演算処理は、同図に示すように荷重
（Ｗ）、ニューロン（Ｘ）をプロセッサのメモリに配分
する。ニューロンはプロセッサ数に応じて分割する。前
方向演算の概念を図６に示す。あるプロセッサがローカ
ルメモリに保持しているニューロン値をバスに送出し、
全プロセッサがその値とメモリ内の対応する荷重を掛け
合わせ、その値を累積していく。全てのプロセッサが送
信を完了すれば、それぞれのニューロンのポテンシャル
が求める。この時のブロードキャスト回数はニューロン
数（回）である。

【００１７】後方向演算の概念を図７に示す。ΣＷ_kjδ
_kを求める必要があるが、この各項はそれぞれ別のプロ
セッサで計算するため、合計を求めるにはプロセッサ数
（回）のブロードキャストをあるプロセッサに対して行
わなければいけない。この時のブロードキャスト数はニ
ューロン数×プロセッサ数（回）となる。

【００１８】

【発明が解決しようとする課題】先に述べたようにして
リング結合によってＢＰ演算を行うことができるが、リ
ング結合は一般にプロセッサ間をデュアルポートメモリ
で結合するため、値の受渡しには１回のストアと１回の
ロードが必要になる。ネットワーク規模（ニューロン
数）に対して、プロセッサ数が多すぎると、１つのプロ
セッサで担当する計算量が減り、相対的にデータ転送の
ためのオーバーヘッドの割合が増加して性能向上比が低
下する。また、このアーキテクチャはＢＰ演算において
の前方向、後方向の演算が著しく異なるためソフトウエ
アの記述が困難である。

【００１９】また、従来のブロードキャストバスアーキ
テクチャでは、バックプロパゲーションの後方向演算時
に、ブロードキャストの回数が増加するという問題があ
る。そこで、プロセッサ間の通信コストを低減し、ニュ
ーラルネットワーク演算を効率的に処理できるようにし
て演算処理速度を高速化する並列処理装置を実現するた
めに解決すべき技術的課題が生じている。この発明は上
述した課題を解決することを目的とするものである。

【００２０】

【課題を解決するための手段】この発明は、上記目的を
達成するために提案するものであり、複数の処理ユニッ
トと、全ての処理ユニットが共有して使用する共有記憶
ユニットを持つ並列処理装置において、共有記憶ユニッ
トに行列形式のデータを格納したとき、あるときは、各
々の行データごとに共有記憶ユニットが分割され、別々
の処理ユニットにおいて各々の行データに関する演算処
理を同時に実行できる機能と、また、別の時間には、各
々の列データごとに共有記憶ユニットが分割され、別々
の処理ユニットにおいて各々の列データに関する演算処
理を同時に実行できる機能を有する行列型共有記憶ユニ
ットを設けたニューラルネットワーク並列分散処理装
置、並びに上記並列処理装置において、各々の行データ
ごとに共有記憶ユニットが分割されたときに、各々の処
理ユニットから一つのデータを、分割された記憶ユニッ
ト内において各列要素に相当する複数の記憶番地に同時
に書き込む同報書き込み機能と、各々の列データごとに
共有記憶ユニットが分割されたときに、各々の処理ユニ
ットから一つのデータを、分割された記憶ユニット内に
おいて各行要素に相当する複数の記憶番地に同時に書き
込む同報書き込み機能を有するニューラルネットワーク
並列分散処理装置を提供するものである。

【００２１】

【作用】請求項１記載の発明は、行列形式のデータを共
有メモリに格納したとき、各々の行（あるいは列）デー
タごとに共有記憶ユニットが分割され、別々の処理ユニ
ットにおいて各々の行（あるいは列）データに関する演
算処理を同時に実行できる。

【００２２】請求項２記載の発明は、さらに、各々の行
（あるいは列）データごとに共有記憶ユニットが分割さ
れたとき、各々の処理ユニットから一つのデータを、分
割された記憶ユニット内において各列（あるいは行）要
素に相当する複数の記憶番地に同時に書き込む（同報書
き込み）ことができる。

【００２３】

【実施例】以下、この発明の実施例を詳述する。先ず同
報書き込みの概念を図８に示す。このメモリは行方向か
らみた各列について、または列方向からみた各行につい
て一度の書き込みで同時に書き込める同報書き込み機能
を有する。

【００２４】そして、コモンブロードキャストバスアー
キテクチャのブロードキャストの回数を減らすため、図
９に示した行列型の共有メモリを導入する。このメモリ
はプロセッサのメモリアクセスが行方向、列方向に変化
できるようにする。つまり各プロセッサの荷重メモリ
は、ある瞬間には行方向、ある瞬間には列方向になり得
る。そして、前述の同報書き込み機能を付加した行列型
共有メモリーアーキテクチャを用いてＢＰ演算処理の高
速化を図る。

【００２５】［ＢＰ演算処理］まず前方向演算について
述べる。前方向演算の概念図を図１１乃至図１５に示
す。

【００２６】step１入力ニューロン値は各プロセッサ
内のレジスタに保持される（図１１）。 step２メモリを列方向にして全プロセッサは入力ニュ
ーロン値Ｘ_iを同報書き込みする。これによりメモリを
行方向にしても各プロセッサは全ての入力ニューロン値
を知ることができる（図１２）。 step３メモリを行方向にして入力ニューロン値Ｘ_iと
荷重Ｖ_jiから中間ニューロン値Ｙ_jを計算する（図１
３）。 step４メモリを列方向にして全プロセッサは中間ニュ
ーロン値Ｙ_jを同報書き込みする。これによりメモリを
行方向にしても各プロセッサは全ての中間ニューロン値
を知ることができる（図１４）。 step５メモリを列方向にして中間ニューロン値Ｙ_jと
荷重Ｗ_kjから出力ニューロン値Ｚ_kを計算する（図１
５）。

【００２７】次に後方向演算について述べる。概念図を
図１６乃至図１８に示す。 step１前方向演算の結果得られた出力ニューロン値Ｚ
_kと教師信号から出力層の誤差δ_kを計算する（図１
６）。 step２メモリを行方向にして全プロセッサは出力層誤
差δ_kを同報書き込みする。これによりメモリを列方向
にしても各プロセッサは全ての出力層誤差を知ることが
できる（図１７）。 step３メモリを列方向にして、出力層誤差δ_kと荷重
Ｗ_kjから中間層誤差Δ_jを計算する（図１８）。

【００２８】このようにして、行方向と列方向にメモリ
を切替えることにより、効率の良いＢＰ演算を行うこと
ができる。

【００２９】［自己組織化ネットワーク］自己組織化ニ
ューラルネットワークはKohonen によって提案されたネ
ットワークモデルであり、教師なしでベクトル組織化の
学習を行う。ニューロンは図１９のように２次元に配置
される。この自己組織化はシナプス結合の適応変化がII
cbb 則と忘却効果に基づいて行われる。この自己組織化
を繰り返すと、各ニューロンの荷重（参照ベクトル）は
そのニューロンに最も距離が近い入力ベクトルを代表す
るパターンが生成される。そしてこのニューロンの近傍
には互いに似通った参照ベクトルが存在するようにな
る。

【００３０】参照ベクトルは以下のように形成される。
ここでｘ_k＝（ｘ_k1，ｘ_k2，…，ｘ_kn）（ｋ番目の入力ベクトル） ω_i(t) ＝（ω_i1(t) ，ω_i2(t) ，…，ω_in(t) ）（時刻ｔでのニューロンｉの参照ベクトル）である。

【００３１】step０全ての参照ベクトルω_i(t) を
乱数で初期化する。 ω_i(0) ：乱数で初期化それぞれの入力ベクトルについてstep１，step２を繰り
返す。 step１入力ベクトルｘ_kに対しての最短距離にある最
適結合ニューロンｃを求める。

【００３２】

【数５】

【００３３】step２最短距離ニューロンｃの周りのニ
ューロンの集合Ｎ_c(t) について参照ベクトルを修正す
る。

【００３４】

【数６】

【００３５】α(t) は学習係数であり一般には単調減少
関数である。Ｎ_c(t) は最適整合ニューロンｃの近傍に
あるニューロンの集合であり、学習回数とともに値を小
さくしていく。

【００３６】［Kohonen モデル演算処理］次にKohonen
モデルの演算を同報書き込み行列型共有メモリによって
実現する方法を述べる。この概念図を図２０乃至図２３
に示す。メモリの列方向にそれぞれ参照ベクトルを配置
する。入力ニューロン値はあらかじめそれぞれの列に与
えられているとする。もし与えられていなければ行方向
に同報書き込みをしておく。

【００３７】step１図２０に示すようにメモリを配置
する。 step２メモリを列方向にしてそれぞれのプロセッサが
入力ベクトルＸと参照ベクトルＷとの距離Ｄを求め、次
に距離Ｄを行方向に同報書き込みを行う。これによって
列方向ではすべてのプロセッサが距離Ｄを知ることがで
きる（図２１）。 step３プロセッサを代表してＰＥ１が行方向に距離Ｄ
をスキャンして最小値を求める。このとき他のプロセッ
サは休止する。この得られた最小値を算出した参照ベク
トルが最適整合ニューロンである。この最小値のニュー
ロン番号をＰＥ１が行方向に同報書き込みを行う。これ
により列方向ではすべてのプロセッサが最適整合ニュー
ロン番号を知ることができる（図２２）。

【００３８】step４メモリを列方向にして、各プロセ
ッサが担当するニューロンが最適整合ニューロンの近傍
にある場合は、各参照ベクトルを入力ベクトルに近づけ
る処理を行う（図２３）。

【００３９】このようにしてKohonen モデルの演算が同
報書き込み行列型共有メモリで適用できる。step３にお
いて、プロセッサが２ⁿ個であれば２分探索を行う要領
でｎのオーダで並列に実行することはできるが、処理が
面倒になる事とプロセッサ数があまり多くないという点
からこの方法は用いていない。

【００４０】［ＨopfieId モデル演算処理］次にＨopfi
eId モデルの演算を同報書き込み行列型共有メモリに適
用する事を考える。ＨopfieId モデルは相互結合モデル
の一つでニューロン間は完全結合され対称な荷重をも
つ。動作手順は以下の通りである。ニューロンij間の荷重：ｗ_ij（ｉ≠ｊ，ｗ_ij＝ｗ_ji）ニューロン値：ｘ_k ニューロン閾値：θ_k ランダムにあるニューロンｎを選び次式のようにニュー
ロン値を更新する。

【００４１】

【数７】

【００４２】ｎ以外のニューロン値は変化しない。これ
は逐次処理であり、あるニューロン値が求められないと
次のニューロン値の計算に進むことができない。各積和
にかかる時間を単位としニューロン数がｎ個の場合、全
てのニューロンについて１回ずつ演算をおこなうとｎ²
の時間を浪費する事になる。そこで、まず一度すべての
ニューロンについて同じ荷重でのポテンシャルを求めそ
の後、逐次的にポテンシャルを変更しながらニューロン
値を求めていくことによりｎのオーダで計算を完了する
ことができる。ここではランダムにニューロンを選択せ
ず、ｘ₁のニューロンから順番に選択していくと仮定す
る。

【００４３】step１ＢＰ演算と同様にすべてのニュー
ロンについて内部ポテンシャルを求める（図２４）。Ｓ₁＝θ₁＋Ｘ₂w₁₂＋Ｘ₃w₁₃＋Ｘ₄w₁₄ Ｓ₂＝Ｘ₁w₂₁＋θ₂＋Ｘ₃w₂₃＋Ｘ₄w₂₄ Ｓ₃＝Ｘ₁w₃₁＋Ｘ₂w₃₂＋θ₃＋Ｘ₄w₃₄ Ｓ₄＝Ｘ₁w₄₁＋Ｘ₂w₄₂＋Ｘ₃w₄₃＋θ₄ step２まずＰＥ１がニューロンＸ₁の内部ポテンシャ
ルＳ₁に応答関数をほどこし、ニューロン値Ｘ′₁を得
る。そしてＸ₁に関して修正された変化分Ｄ₁＝Ｘ′₁
−Ｘ₁を列方向に同報書き込みを行う（図２５）。

【００４４】step３ step２で同報書き込みされたＤ₁
を用いてその他のニューロンの内部ポテンシャル（図の
例ではＳ₂，Ｓ₃，Ｓ₄）を変更する。変更式はＳ_i＝
Ｓ_i＋Ｄ_jｗ_ijで与える（図２６）。そしてstep２とstep３をすべてのニューロンについて繰
り返す。この処理は以下の計算を実行することになる。

【００４５】Ｘ′₁＝ｆ（Ｓ₁）Ｘ′₂＝ｆ（Ｓ₂＋（Ｘ′₁−Ｘ₁）ｗ₂₁ Ｘ′₃＝ｆ（Ｓ₃＋（Ｘ′₁−Ｘ₁）ｗ₃₁＋（Ｘ′₂−Ｘ₂）ｗ₃₂）Ｘ′₄＝ｆ（Ｓ₃＋（Ｘ′₁−Ｘ₁）ｗ₄₁＋（Ｘ′₂−Ｘ₂）ｗ₄₂ ＋（Ｘ′₃−Ｘ₃）ｗ₄₃ step１では上の式の第１項を計算し、step２とstep３で
第２項移行を計算していく。この方法により逐次的なＨ
opfieId 演算を同報書き込み行列共有メモリで実現する
ことができる。

【００４６】このように、同報書き込み行列型共有メモ
リアーキテクチャを使用すれば、各種のニューラルネッ
トワーク演算アルゴリズムを適用できることが判明し
た。このメモリアーキテクチャの利点は、まず、ニュー
ラルネットワークの演算が主に２次元行列を用いたもの
であり、メモリも同様に２次元配置にすれば、極めて自
然な形で演算ができることにある。またＢＰ演算には荷
重行列を転置して扱う計算があり行方向、列方向それぞ
れにハードウエア的に瞬時に転置が可能なこのメモリア
ーキテクチャは有利である。さらに同報書き込みを用い
る事により全てのプロセッサが同時に１回のストア時間
でプロセッサ数だけのニューロン値が通信でき、速度の
面でも有利である。

【００４７】［同報書き込み行列型共有メモリの構造］
同報書き込み行列型共有メモリを実現する際には、まず
メモリを行列状に配置し、行方向と列方向に高速にメモ
リを切替えるスイッチを用意すればよい。区切ることが
できるメモリの単位をメモリモジュールと呼ぶことにす
る。４プロセッサ構成の場合は、図２７に示すように１
６個のメモリモジュールが必要となる。

【００４８】メモリ部だけに関していえば、データバ
ス、アドレスバス、コントロール信号がプロセッサ数だ
け必要となり、他には行列セレクト信号と同報書き込み
信号と電源が必要である。今プロセッサ数を４とすれ
ば、プロセッサ１について、データバスとアドレスバス
とコントロール信号がそれぞれ行列共有メモリの第１行
と第１列に接続されていて、それぞれの行と列は行列セ
レクト信号（ＰＳ）によって切替えるようにしておく。
行列セレクト信号は１ビットで、例えばＨレベルならば
ポートＡを通じて行方向へのアクセスが、Ｌレベルなら
ばポートＢを通じて列方向のアクセスができるようにし
ておく。メモリ部に与えられたアドレスは列方向アクセ
スの場合は各行内に、行方向アクセスの場合は各列内に
メモリモジュールに振り分けるためにデコード回路が必
要となる。デコード回路は回路を簡単にするため図２８
に示すようにメモリモジュール内でディップスイッチ等
で行えるようにするのが望ましい。

【００４９】データバスは双方向信号であるので、バス
トランシーバーを用いて、双方向にデータが切り替わる
ようにしなければいけない。その他の信号はプロセッサ
からメモリへの単方向であるので、２入力１出力のマル
チプレクサが使用できる。同図に示すようにＳＲＡＭを
用いた場合は、メモリのコントロール信号としてＷＥ
（書き込みイネーブル）、ＯＥ（出力イネーブル）、Ｃ
Ｓ（チップ選択）がある。またＤＲＡＭを用いた場合に
はＷＥ（書き込みイネーブル）、ＲＡＳ（行アドレスセ
レクト）、ＣＡＳ（列アドレスセレクト）がある。

【００５０】同報書き込み信号（ＢＷ）は１ビットでＨ
レベルの時には行内（あるいは列内）のすべてのメモリ
モジュールに関してメモリ書き込みを行うようにする信
号で、これはメモリモジュール内のデコード回路を強制
的にイネーブルにすることによって実現できる。

【００５１】実際にこの同報書き込み行列型共有メモリ
を基板上に実現する場合には配線数が問題になる。メモ
リ基板にはメモリモジュールを結合するためにプロセッ
サ数だけのアドレス線とデータ線が存在し、それらはす
べて直交することになる。

【００５２】

【表１】

【００５３】表１はメモリの種類、構成するビット数、
プロセッサ数による最小構成の各メモリモジュールの端
子数である。これを見てわかるようにデータのビット数
によって端子の数は大きく変わるが、データの容量によ
っては大きく変わらない。ＳＲＡＭとＤＲＡＭではアド
レスの入力の方法が異なるため、ＤＲＡＭの方が少ない
端子数で済む。

【００５４】図２９にメモリモジュール間の配線概念図
を示す。各メモリモジュールの端子数は先ほど示した表
の通りで、その端子数にプロセッサ数を掛けた分だけ基
板上に配線を行う必要がある。しかし、基板実装技術の
発達により、６層以上の多層基板の使用も一般的になっ
ているため、このような複雑な配線も可能である。ま
た、基板内だけでは実装しきれない場合、図３０で示し
たように複数の基板に分割し、基板間をフラットケーブ
ルで結合するという方法が考えられる。

【００５５】

【発明の効果】請求項１記載の発明は、行列形式のデー
タを共有メモリに格納したとき、各々の行（あるいは
列）データごとに共有記憶ユニットが分割され、別々の
処理ユニットにおいて各々の行（あるいは列）データに
関する演算処理を同時に実行でき、各ニューロンユニッ
ト内部の演算を各プロセッサで独自に並列して行うこと
ができる。

【００５６】請求項２記載の発明は、さらに各々の行
（あるいは列）データごとに共有記憶ユニットが分割さ
れたときに、各々の処理ユニットから一つのデータを、
分割された記憶ユニット内において各列（あるいは行）
要素に相当する複数の記憶番地に同時に書き込む（同報
書き込み）ことができる。従って、その演算結果を同時
に複数の番地に書き込むことにより、次のタイミングで
別々のプロセッサで必要となるデータをただ１回の同報
書き込みによって遅延なく各プロセッサに分配すること
ができる。

【００５７】以上の機能によって、複数のプロセッサで
必要となるデータをプロセッサ間で転送する回数が減少
するため、階層型ニューラルネットワークにおける前向
き信号伝播や、バックプロパゲーション学習方式におけ
る前向き信号伝播と、後向き信号伝播におけるニューロ
ン間結合係数の行列転置処理などが効率的に遂行され、
ニューラルネットワークに関する演算に必要なプロセッ
サ間通信のコストを低減し、ニューラルネットワーク演
算の効率的な並列処理を実現することができる。

【図面の簡単な説明】

【図１】ニューロンモデルの解説図。

【図２】３層階層型ネットワークモデルの構成図。

【図３】リング結合を用いたバックプロパゲーション前
方向演算処理の解説図。

【図４】リング結合を用いたバックプロパゲーション後
方向演算処理の解説図。

【図５】コモンブロードキャストバスアーキテクチャの
構成図。

【図６】コモンブロードキャストバスアーキテクチャに
おけるバックプロパゲーション前方向演算処理の解説
図。

【図７】コモンブロードキャストバスアーキテクチャに
おけるバックプロパゲーション後方向演算処理の解説
図。

【図８】同報書き込みの概念図。

【図９】同報書き込み行列型共有メモリアーキテクチャ
の構成図。

【図１０】同報書き込み行列型共有メモリのニューロン
の配置図。

【図１１】同報書き込み行列型共有メモリによるバック
プロパゲーション前方向演算処理のステップ１解説図。

【図１２】同報書き込み行列型共有メモリによるバック
プロパゲーション前方向演算処理のステップ２解説図。

【図１３】同報書き込み行列型共有メモリによるバック
プロパゲーション前方向演算処理のステップ３解説図。

【図１４】同報書き込み行列型共有メモリによるバック
プロパゲーション前方向演算処理のステップ４解説図。

【図１５】同報書き込み行列型共有メモリによるバック
プロパゲーション前方向演算処理のステップ５解説図。

【図１６】同報書き込み行列型共有メモリによるバック
プロパゲーション後方向演算処理のステップ１解説図。

【図１７】同報書き込み行列型共有メモリによるバック
プロパゲーション後方向演算処理のステップ２解説図。

【図１８】同報書き込み行列型共有メモリによるバック
プロパゲーション後方向演算処理のステップ３解説図。

【図１９】自己組織化ニューラルネットワークの構成
図。

【図２０】同報書き込み行列型共有メモリによるKohone
n 演算のステップ１解説図。

【図２１】同報書き込み行列型共有メモリによるKohone
n 演算のステップ２解説図。

【図２２】同報書き込み行列型共有メモリによるKohone
n 演算のステップ３解説図。

【図２３】同報書き込み行列型共有メモリによるKohone
n 演算のステップ４解説図。

【図２４】同報書き込み行列型共有メモリによるＨopfi
eId 演算のステップ１解説図。

【図２５】同報書き込み行列型共有メモリによるＨopfi
eId 演算のステップ２解説図。

【図２６】同報書き込み行列型共有メモリによるＨopfi
eId 演算のステップ３解説図。

【図２７】同報書き込み行列型共有メモリの構成図。

【図２８】メモリモジュール内の構成図。

【図２９】メモリモジュール間の配線概念図。

【図３０】基板を分割した配線概念図。

Claims

【特許請求の範囲】

【請求項１】複数の処理ユニットと、全ての処理ユニ
ットが共有して使用する共有記憶ユニットを持つ並列処
理装置において、共有記憶ユニットに行列形式のデータ
を格納したとき、あるときは、各々の行データごとに共
有記憶ユニットが分割され、別々の処理ユニットにおい
て各々の行データに関する演算処理を同時に実行できる
機能と、また、別の時間には、各々の列データごとに共
有記憶ユニットが分割され、別々の処理ユニットにおい
て各々の列データに関する演算処理を同時に実行できる
機能を有する行列型共有記憶ユニットを設けたことを特
徴とするニューラルネットワーク並列分散処理装置。
【請求項２】上記並列処理装置において、各々の行デ
ータごとに共有記憶ユニットが分割されたときに、各々
の処理ユニットから一つのデータを、分割された記憶ユ
ニット内において各列要素に相当する複数の記憶番地に
同時に書き込む同報書き込み機能と、各々の列データご
とに共有記憶ユニットが分割されたときに、各々の処理
ユニットから一つのデータを、分割された記憶ユニット
内において各行要素に相当する複数の記憶番地に同時に
書き込む同報書き込み機能を有することを特徴とするニ
ューラルネットワーク並列分散処理装置。