JPH04290155A

JPH04290155A - 並列データ処理方式

Info

Publication number: JPH04290155A
Application number: JP3054725A
Authority: JP
Inventors: Hideki Kato; 英樹加藤; Hideki Yoshizawa; 英樹吉沢; Hiromoto Ichiki; 市▲来▼　宏基; Daiki Masumoto; 大器増本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1991-03-19
Filing date: 1991-03-19
Publication date: 1992-10-14
Also published as: US5544336A; EP0505179A3; EP0505179A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は，複数個のデータ処理ユ
ニットを同期的に使用してデータ処理を行う並列データ
処理方式に関する。

【０００２】近年，電子計算機或いはデジタル信号処理
装置等のシステムにおいて，データ処理の適用分野の拡
大に伴い，処理されるデータの量が膨大になり，特に画
像処理或いは音声処理等の分野では高速なデータ処理を
行う必要があり，そのため，複数個のデータ処理ユニッ
トを同期的に用いてデータを処理するデータ処理の並列
性の利用が重要となる。一般に，複数の処理ユニットを
用いた処理において重要な概念に台数効果がある。これ
は用意されたデータ処理ユニットの台数に比例したデー
タ処理速度の向上が得られることを意味するが，並列処
理方式においては良好な台数効果を得ることが非常に重
要となる。

【０００３】台数効果が悪化する主要な原因は，問題そ
のものの並列度による限界を別にすれば，データ処理に
伴うデータ転送に要する時間が本来のデータ処理に要す
る時間に加算されてトータルとしての処理時間が引き延
ばされることにある。従って，台数効果の向上にはデー
タ伝送路の容量をフルに活用することが有効であるが，
これはなかなか難しい。

【０００４】しかし，処理が規則的な場合には，この規
則性を利用して台数効果を上げることが可能となる。

【０００５】データをシストリックアレイ，すなわち，
巡回的にデータを流し，２つのデータがその流れにおい
てそろったところで演算を行うようにする。処理が規則
的なことを利用する並列処理がシストリックアレイ方式
であり，この中でリングシストリックアレイ方式と呼ば
れる１次元のシストリックアレイ方式は，複数個のデー
タ処理ユニットを同期的に用いてシストリックなデータ
を処理する並列データ処理方式であって実現が比較的容
易である。規則性のある処理として，ベクトルの内積演
算を基本とした行列演算や，ニューラルネットの積和演
算に非線形関数を介して出力する並列処理がある。

【０００６】

【従来の技術】図１２は従来の共通バス結合型並列方式
の原理構成図である。同図において９１はプロセッサエ
レメント，４はメモリ手段，９３は共通バス，９２は共
通バスに接続されるバス，９４はプロセッサエレメント
と，それに対応して接続されるメモリ４を接続する内部
バスである。この共通バス結合型並列方式においては，
プロセッサエレメント（以下ＰＥと称す）間の通信が共
通バス９３を介して行われる。特定な時間区域には共通
バスに乗せるデータは１つであるため，共通バスによる
通信は共通バス全体にわたって同期をとる必要がある。

【０００７】図１３は共通バス結合型並列方式による行
列ベクトル積の動作フローチャートである。各ＰＥは他
のＰＥからのデータＸとメモリ上のＷとをかけ，その積
をＹに足しこむ動作を行う。そのためフローチャートに
示すように，ｉ番目のＰＥに関して，その内部にあるレ
ジスタの内容，すなわち，Ｙｉ　の値をまず０にする。そして以下をｎ回繰り返す。すなわち，共通バス９３に
Ｘｊ　を与えるとｉ番目のＰＥは共通バスに接続された
バス９２からの入力とメモリ４から内部バス９４を介し
て与えられる入力（Ｗｉｊ）を掛け合わせ，その積をＹ
ｉ　に足し込む。これを繰り返す。

【０００８】図１４は従来のリングシストリック方式の
原理説明図である。同図において１２０はプロセッサエ
レメント（ＰＥ）である。各ＰＥは巡回バス１２２によ
って接続されている。また，１２１は係数Ｗｉｊを格納
するメモリである。Ｗ１１，　Ｗ１２，．．．．，Ｗ３
３などは係数行列の要素であり，一般にＷｉｊは行列の
ｉｊ成分である。この係数行列Ｗと，ベクトルｘ＝（Ｘ１　，Ｘ２　，Ｘ
３）を掛ける動作をこのリングシストリック方式で行う
場合，次のようにして行われる。

【０００９】図１５はプロセッサエレメントの第ｉ番目
の内部構造である。同図において１２３は乗算器，１２
４は加算器，１２５はアキュムレータ（ＡＣＣ），１２
１は係数の要素Ｗｉｊを格納するメモリである。このメ
モリ１２１はいわゆるＦＩＦＯであって，係数行列の第
ｉ行目に関する係数としてＷｉｊ，すなわちｊ番目の列
の要素が出力されようとしている状態である。このＦＩ
ＦＯは出力された次のクロックでは巡回し，バス１２６
を介して後ろ側からまた入力される。従って図に示すよ
うに，Ｗｉ１，　．．．．，Ｗｉ　ｊ−１　はすでに巡
回されて後側に格納されている状態となっている。

【００１０】一方，ベクトルの各要素は巡回バス１２２
を介して入力される。現在，要素Ｘｊ　が入力されてい
る状態である。すでにアキュムレータ１２５にはＷｉ１
×Ｘ１　＋．．．．＋Ｗｉ　ｊ−１　×Ｘｊ−１　の内
積結果が格納されている。これが今アキュムレータ１２
５から出力され，加算器１２４の一方の入力に入力され
ている。外部からのＸｊ　とＦＩＦＯから出力されてい
るＷｉｊの積が乗算器１２３によって乗算され，その結
果が加算器１２４の他方の入力に入力され，現在のアキ
ュムレータ１２５の内容とが加えられ，次のクロックで
同じアキュムレータ１２５に加算される。

【００１１】この繰り返しによって，係数行列Ｗの第ｉ
行目の行ベクトルと外部から与えられるベクトルｘとの
内積演算が実行される。なお，スイッチ（Ｓｗｉｔｃｈ
）　はデータＸｉ　をスルーに外部に出すか，あるいは
内部に取り込み，アキュムレータ１２５にセットする場
合との選択を行うためのものである。

【００１２】このようなＰＥで，行列×ベクトルの積を
行う場合，図１４に示すように，ＰＥ−１はまず，Ｗ１
１とＸ１　を掛け，次のクロック周期に，Ｘ２　が右側
のＰＥ−２から流れ込み，Ｗ１２がメモリ１２１から出
力されるので，Ｗ１２×Ｘ２　が演算される。同様に次
のクロックではＷ１３とＸ３　との積が実行され，この
ことにより係数行列の第１列目とベクトルｘとの積がＰ
Ｅ−１において可能となる。

【００１３】また，第２列目とベクトルとの積はＰＥ−
２において行われる。すなわち，Ｗ２２とＸ２　を掛け
，次のクロック周期に，Ｗ２３とＸ３　を掛け，次のク
ロック周期においてＷ２１と巡回的にもどってきたＸ１
　との積を行うことになる。同様に，第３行目とベクト
ルとの積はＷ３３とＸ３　を掛け，Ｗ３１と巡回してく
るＸ１　とを掛け，Ｗ３２と巡回して戻ってくるＸ２　
との積をとって内積演算を実行することによって可能と
なる。

【００１４】従って，この動作において，Ｗ１１とＸ１
　との積，及びＷ２２とＸ２　，Ｗ３３とＸ３　との積
は同時に行えることになる。しかし，図に示すように，
この同時性を実行するためには係数行列の要素の並べ方
にねじれが生じている。このようなリングシストリック
アレイ方式においては，各ＰＥ間のデータ転送と，各Ｐ
Ｅでのデータ処理を同期して実行することで，データ転
送路を有効に利用でき，従って良好な台数効果を得るこ
とができる。

【００１５】図１６は，図１４のリングシストリック方
式の構成を多段に組み合わせたものであり，この構成に
より，連続する行列とベクトルの積を行うことが可能と
なる。このようなシストリックアレイ方式は処理が規則
的であるため，データ伝送路の容量をフルに活用するこ
とが可能であり，従って台数効果の向上が計れる。

【００１６】図１２のような従来の共通バス結合の並列
方式においては，プロセッシングエレメント，すなわち
ＰＥ間の結合が共通バスによっているため，一時には１
つのデータしか転送できない。また，共通バスによる結
合は共通バス全体にわたる同期をとらなければならない
。

【００１７】従って，従来の共通バス結合型並列方式に
おいては良好な台数効果を得られる処理の種類が少ない
という問題が生じ，さらに共通バスによる結合は，結合
されるＰＥの個数の増加とともに共通バスが長くなり，
共通バス全体にわたる同期をとるのが難しくなるという
問題，そして，大規模並列には適さないという問題が生
じていた。

【００１８】また，図１４のような従来のリングシスト
リックアレイ方式においては，各ＰＥ間のデータ転送と
ＰＥでのデータ処理を同期して実行することにより，台
数効果を得ることができるが，この方式では，各ＰＥ間
でのデータ転送と，各ＰＥ間でのデータ処理のタイミン
グを合わせねばならない。

【００１９】また，この方式では，例えば長方形の行列
とベクトルとの積を求める場合等のようにデータ処理ユ
ニットとデータ保持ユニットとのそれぞれの最適な個数
が等しくない場合には，実際のデータ処理に係わらない
ＰＥが必要となり，すなわち，遊ぶＰＥが多くなり，そ
のため台数効果が悪化するという問題がある。

【００２０】言い換えれば，効率よくとける問題と回路
構成とが固く対応し，問題の大きさが最適な値と異なる
と台数効果が悪化してしまう。逆にいうと，良好な台数
効果が得られる問題が特定されてしまい，広範な処理に
適用できず，柔軟性，或いは汎用性に欠け，結果として
，ある程度広い範囲の処理に適用できる高速なデータ処
理系を実現することが困難となる。

【００２１】このような問題点を解決するために，本願
出願人は，先に特許出願を行って，前記のリングシスト
リックアレイ方式や共通バス結合型ＳＩＭＤ（Ｓｉｎｇ
ｌｅ　Ｉｎｓｔｒｕｃｔｉｏｎ　Ｍｕｔｉ　Ｄａｔａ）
結合方式と同程度なハードウエア構成で，データ転送に
よるオーバヘッドを減少せしめ，特に，長方形行列とベ
クトルとの積を求めるような処理に対しても，本来の並
列度を最大限利用できるようにして良好な台数効果を得
ることにより，行列演算あるいはニューロコンピュータ
演算を行い得る並列データ処理方式を提案した。

【００２２】以下，当該先の提案について簡単に述べて
おく。

【００２３】図１７は先の提案の場合の原理説明図であ
る。同図において１はデータ処理ユニット，２はデータ
の保持及び転送を行うトレイ，３は各トレイの相互接続
により構成されるシフト手段，１１はデータ処理ユニッ
トの第１の入力，１２はデータ処理ユニットの第２の入
力，２１はトレイの第１の入力，２２はトレイの第１の
出力，２３はトレイ２の第２の出力である。また４はメ
モリ，６は結合手段，５はクロック供給部を表わしてい
る。

【００２４】データ処理ユニット１はデータの処理を行
い，トレイ２は転送の動作を行うものでシフト手段３を
構成して，データの巡回シフトを行う。図示の場合では
ｍ×ｎ行列Ａと要素数のベクトルｘとの積を求める場合
，行列Ａの行数ｍが列数ｎより小さい場合であっても，
或いはｍがｎより大きい場合であっても，ｍ個のデータ
処理ユニットとｎ個のトレイを用いてｎに比例する処理
時間でその積が実行可能となり，従って，良好な台数効
果を得ることができる。

【００２５】すなわち，図１７に示すように，それぞれ
２つの入力を持ち，その入力間の乗算機能とその乗算結
果の累積機能，すなわち内積演算を実行するｍ個のデー
タ処理ユニット１と，ｎ個のトレイ２とからなる構成に
おいて，ユニット内の累積レジスタの内容をＹとした場
合に，データ処理ユニットは１１からの入力と１２から
の入力を掛け合わせ，積を累積レジスタＹに足し込み，
その後，シフト手段３内の隣接するトレイ間でベクトル
ｘの要素をシフトする。この動作をｎ回繰り返すことに
より，ｍ×ｎの行列Ａと，ｎ次元ベクトルとの乗算がｍ
個のデータ処理ユニットを用いてｎに比例する処理時間
で実行可能となる。

【００２６】すなわち，前記リングシストリックアレイ
方式やＳＩＭＤ結合方式の場合と異なり，データ処理ユ
ニット１とデータ保持機能を有するトレイ２とを分離す
ることにより，それぞれｍとｎとが異なっている場合で
あっても，タイミングを合わせるための処理を必要とせ
ずに良好な台数効果を得ることが可能となる。

【００２７】さらに，トレイ２間のデータ転送とデータ
処理ユニット１によるデータ処理とを同時並行的に行い
，一般的にはデータ処理ユニットがデータ処理に有する
時間よりもデータ転送時間を短くすることが期待できる
ので，データ転送時間をデータ処理時間の影に隠すこと
で実質的に０にし，そのことにより，処理時間を短縮す
ることが可能となっている。このことにより，行列演算
あるいはニューロコンピュータ演算を行う。

【００２８】図１８は図１７の場合の動作概念図である
。同図においてトレイ２内のデータＸ１　からＸｎ　は
ベクトルｘの要素でその個数はｎであるとする。またデ
ータ処理ユニットはｍ個あり，その各々に累積レジスタ
があり，その内容がＹ１　，Ｙ２　，．．．．，Ｙｍ　
である。

【００２９】ｍ×ｎの長方行列の要素はＡ１１からＡｍ
ｍまでのｍ×ｎ個存在する。データ処理ユニットの１−
１には係数行列の第１行目であるＡ１１，Ａ１２，．．
．．，Ａ１ｎが同期的に１２−１の入力バスから入力さ
れる。

【００３０】またデータ処理ユニット１−２はＡ２２，
Ａ２３，．．．．，Ａ２１がシストリック動作の各タイ
ミングで順番に与えられる。また，データ処理ユニット
１−ｍにはＡｍｍ，Ａｍｍ＋１，．．．．，Ａｍ　ｍ−
１　が同期的に与えられる。

【００３１】時間タイミングＴ１　においては図１８に
示されるようにトレイの２−１，２−２，．．．．，２
−ｎにはＸ１　，Ｘ２　，Ｘｍ　，．．．．，Ｘｎ　が
あり，ユニット１−１，１−２，．．．．，１−ｍには
それぞれ係数行列の要素Ａ１１，Ａ２２，．．．．，Ａ
ｍｍが入力されている。従って，このタイミングにおい
てデータ処理ユニット１−１はＡ１１とトレイ２１のデ
ータＸ１　との積を求め，データ処理ユニット１−２は
対応するトレイ２−２にあるＸ２　とメモリから与えら
れるＡ２２との積を求め，同様に，データ処理ユニット
２−ｍにおいてはＡｍｍとＸｍ　の積を求める。

【００３２】このタイミングは図１８のＴ１　のタイミ
ングで行われている。すなわち積和を求める同期クロッ
クにおいて，バス１１−１にはＸ１があり，バス１２−
１にはＡ１１があり，バス１１−２にはＸ２　，１２−
２にはＡ２２，１１−３にはＸ３　，１２−３にはＡ３
３があり，１１−ｍにはＸｍ　，１２−ｍにはＡｍｍが
のっている。従って，図１８のＴ１　のタイムにおける
図に示すように内積演算が行われる。

【００３３】累積レジスタＹの値はこの時は０であるか
ら内積結果は０に掛けた値が加わることになる。積和演
算が終わるとシフト動作に入り図１８のタイミングＴ２
　に移る。このとき，シフトされているからトレイ２−
１にはＸ２　，トレイ２−２にはＸ３　，そしてトレイ
２−ｍにはＸｍ＋１　が格納され，また，係数行列の要
素もデータ処理ユニット１−１，．．．．，１−ｍには
それぞれＡ１２，Ａ２３，Ａｍ　ｍ＋１　が入力される
。

【００３４】従って，Ｔ２　のタイミングにおいて，Ａ
１２とＸ２　との積をとり，前の累積レジスタＹとの和
が求められる。従ってユニット１−１においてはＴ１　
において求まったＡ１１とＸ１　との積に対してＴ２　
において求められるＡ１２とＸ２　との積が加算され，
その結果が累積レジスタに格納される。同様にユニット
１−２においては前の結果であるＡ２２×Ｘ２　＋Ａ２
３×Ｘ３　の結果が累積レジスタに格納される。ユニッ
ト１−ｍに対しても同様である。そしてまたシフトし，
タイミングＴ３　に移る。トレイ２−１にはＸ３　，ト
レイ２−２にはＸ４　，トレイ２−ｍにはＸｍ　ｍ＋２
　，トレイ２−ｎにはＸ２　が入り，図１８のＴ３　時
間における図に示されるような内積演算が実行される。

【００３５】図１９は図１７に示すトレイの構成を示し
ており，図下方には図上方に示す丸印部分の具体例を表
わしている。図中の符号２ａはトレイデータ保持回路，
２ｂはトレイデータ転送回路，２ｃは制御手段，２ｄは
データ入出力回路である。

【００３６】図１９下方に示す如く，データ保持回路２
ａには，図１７に示す右側のトレイと図１７に示す左側
のトレイとデータ処理ユニット１とからのいずれかのデ
ータがセット可能とされ，また当該データ保持回路２ａ
からのデータは，図１７に示す左側のトレイと図１７に
示す右側のトレイとデータ処理ユニット１とに供給され
る。

【００３７】上述した如く並列データ処理方式が提供さ
れるが，当該並列データ処理方式によれば複数個のデー
タを並列的に処理することが可能となり，次の如き処理
に利用される。

【００３８】即ち，従来から広く利用されているフォン
ノイマン型コンピュータによる論理型データ処理だけで
は，人間が行っているような柔軟なパターン処理は難し
い。この観点から，異なる計算原理にもとづくニューロ
コンピュータが研究されている。

【００３９】ニューロコンピュータの大きい特徴の１つ
にその学習機能がある。現在最も広く使われている学習
則の１つに誤差逆伝搬則がある。しかしこの誤差逆伝搬
則を大規模なニュラルネットワークあるいは大量の学習
データに適用した場合，学習の収束までに非常に長い時
間を要する。

【００４０】上述した並列データ処理方式は，当該誤差
逆伝搬則による学習に利用される。

【００４１】図２０はニューロコンピュータにおける基
本素子であるニューロンモデルの構成を示す。ニューロ
ンモデルは入力Ｘ１　，Ｘ２　，．．．．，Ｘｎ　の各
々にシナプス結合としての重み時Ｗ１　，Ｗ２　，．．
．．，Ｗｎ　をそれぞれ乗算し，その総和を求め，これ
を内部値Ｕとする。このＵに非線形関数ｆを施し，出力
Ｙとする。ここで非線形関数ｆは図に示すようなＳ型の
シグモイド関数が一般に使われる。

【００４２】図２１は図２０図示のニューロンモデルの
複数を用いて入力層，中間層，出力層の３層構造でニュ
ーロコンピュータを形成する階層型のニューラルネット
ワークの概念図である。

【００４３】第１層の入力層は入力信号Ｉ１　，Ｉ２　
，．．．．，ＩＮ（１）を入力する。第２層の中間層は
各々のユニット，すなわち，各々のニューロンモデルが
第１層の例えばすべてのニューロンモデルに接続され，
その結合枝がシナプス結合であって，重みＷｉｊが与え
られている。第３層の出力層は同様に中間層の各ニューロンモデルの
全てに各々のユニットが接続されている。その出力は外
部に出される。

【００４４】このニューラルネットにおいては学習時に
おいて入力層に与えられる入力パターンの信号に対応す
る教師信号と出力層との出力信号との誤差を求め，この
差が非常に小さくなるように中間層と出力層との間の重
み及び第１層と第２層の間の重みを定めるようにする。このアルゴリズムがバックプロパゲーション法則，すな
わち逆伝播学習則と呼ばれるものである。

【００４５】逆伝播学習則によって定められた重み値を
保存し，例えばパターン認識等の連想処理を行う場合に
は，第１層の入力にて認識するべきパターンからややず
れた不完全なパターンを与えると，出力層からそのパタ
ーンに対応した出力信号が出力され，その信号は学習時
に与えたそのパターンに対応する教師信号と非常に似た
ような信号が出てくる。教師信号との差が非常に小さけ
れば，その不完全なパターンを認識したことになる。

【００４６】図２１においてＮ（１）は第１層のニュー
ロン数である。また通常，第１層，すなわち入力層の各
ニューロンの出力は入力と等しいものとするので，実質
的な処理の必要はない。通常の動作，すなわちパターン
認識を行う場合の前向きの処理を図２２に示す。

【００４７】図２２は前向き処理フローチャートである
。

【００４８】前向き処理では図２１に示すネットワーク
において，各層間の結合枝上の重み係数は定まっている
ものとする。図２１のネットワークをニューロコンピュ
ータで実現する場合，次の処理が行われる。前向き動作
の基本動作は図２０のニューロンモデルにおいて，入力
に重みを掛けその総和をとったものをＵとし，そのＵに
非線形関数を施す処理となる。これを各層において行う
ことになる。

【００４９】そのため，まず，ステップ７０において入
力データ，すなわちＩ１　からＩＮ（１）までのデータ
をシフトレジスタ上にセットする。そして層の数をＬで
表すと，以下のすべての処理を層分繰り返す。例えばＬ
が３であった場合には，３回繰り返す。繰り返される処
理は１層分の前向き処理である。

【００５０】そして，処理が終了する。その１層分の前
向き処理が図２２の下側に示されている。

【００５１】今，中間層に注目すると，ｌは２である。ステップ７２において，シフトレジスタの長さをＮ（ｌ
−１）にする。すなわち，ｌ＝２であるからＮ（１），
すなわち入力層の数にする。

【００５２】ステップ７３は中間層におけるニューロン
モデルの処理である。インデックスのｊは入力層のユニ
ット数の数１から数Ｎ（１）まで変化させる。Ｗｉｊ（
ｌ）は入力層と中間層の間の結合における重み係数であ
る。すなわちｌ＝２である。Ｙｊ　（ｌ−１）は入力層
のｊ番目のユニットからの出力である。ｉは中間層のｉ
番目のユニットを意味する。ｉ番目のユニットの状態Ｕ
ｉ　（２）は入力層の出力Ｙｊ　，すなわちｊ番目のＹ
に重みＷｉｊをかけてその総和より計算される。

【００５３】ステップ７４に移って，その中間層のｉ番
目の状態Ｕｉ　（２）は非線形関数，すなわちシグモイ
ド関数に入力され，その出力がＹｉ（２）となる。すな
わちステップ７３の内積計算はデータ処理ユニット１内
で行うが，このシグモイド関数の計算に当っては専用の
装置を用いてもよい。

【００５４】ステップ７５で例えば，中間層のｉ番目の
ユニットの出力Ｙｉ（２）はトレイのｉ番目に出力され
る。そして処理が終わる。

【００５５】以上の前向き処理を入力層，中間層，出力
層に対して行うことになる。このようにして各層の前向
き処理が終了する。すなわちニューロン単体のシミュレ
ーションに必要な処理は図２０中の式で示される演算で
，その内容は重みと入力ベクトルとの内積演算及びその
演算結果に対するシグモイド関数値の計算であり，その
関数値の計算は例えばシグモイド関数処理専用の装置に
より実現される。

【００５６】従って，ネットワーク中のある１層の処理
は図２１に示すように，そのニューロン単体の演算をそ
の層内の全ニューロン分行うことである。従って内積演
算は各ニューロンｉ番目とする結合係数ベクトルを並べ
た行列Ｗ（ｌ）＝〔Ｗｉｊ（ｌ）〕と，その層への入力
を並べたベクトルｘ（ｌ）＝〔Ｘｊ　（ｌ）〕の積のベ
クトルＵは

【００５７】

【数１】

【００５８】となり，実行可能となる。

【００５９】またシグモイド関数演算は各シグモイド関
数処理専用の装置が積ベクトルの各要素，Ｕｉ　（ｌ）
を入力し，対応する関数値Ｙｉ　（ｌ）＝ｆ（Ｕｉ　（
ｌ））を出力することによってなされる。継続する層す
なわち，　第（ｌ＋１）層が存在する場合には，その各
関数値出力Ｙｉ　（ｌ）を各トレイに書き込み，第（ｌ
＋１）層の処理においてはこれを入力として以上の過程
を繰り返す。

【００６０】次にニューロコンピュータを用いて学習動
作，すなわちバックプロパゲーションアルゴリズムを実
行する場合について説明する。

【００６１】図２３は学習処理フローチャートである。ニューロコンピュータにおける学習とはネットワークが
所望の入出力関係を満たすようになるまで各ニューロン
の重みを修正することである。

【００６２】学習方法は所望の入力信号ベクトルと教師
信号ベクトルとの対を複数個，すなわち教師信号の集合
分だけ用意し，その中から１対を選び，その入力信号Ｉ
Ｐ　を学習対象ネットワークに入力し，入力に対するネ
ットワークの出力と正しい出力信号，すなわちその入力
信号に対応した教師信号ＯＰとを比較する。この差を誤
差と称するが，その誤差，及びこの時の入出力信号の値
を基に，各ニューロンの重みを修正することになる。

【００６３】この過程を教師信号の集合中の全要素にわ
たり学習が収束するまで繰り返すものである。すなわち
，入力パターンの数の分だけ，すべて重み値として分布
的に記憶することになる。この後ろ向き処理と呼ばれる
重みの修正過程において出力層で得られた誤差を途中で
変形しながら入力層に向け通常の信号の流れる向きとは
逆方向に伝播させる。これがバックプロパゲーションの
アルゴリズムである。

【００６４】まず前記誤差Ｄを以下のように再帰的に定
義する。Ｄｉ（ｌ）は第ｌ層のｉ番目のニューロンから
逆向きに伝播される誤差，Ｌはネットワークの層数であ
る。

【００６５】

【数２】

【００６６】

【数３】

【００６７】ここでｆ′（Ｕ）はシグモイド関数ｆ（Ｘ
）のＸに対する微係数ｆ′（Ｘ）のＸ＝Ｕの時の値であ
り，例えば　　　　ｆ（Ｘ）＝ｔａｎｈＸ　　　　　　　　　　　
　　　　　　　　　　　　　　　　　　　　　　　　　
（３）ならば，　　　　ｆ′（Ｘ）＝ｄ（ｔａｎｈＸ）／ｄＸ＝１−ｔ
ａｎｈ２　Ｘ　　　　　　　　　　　　　　＝１−ｆ２
　（Ｘ）　　　　　　　　　　　　　　　　　　　　　
　　　　　（４）であるから，　　　　ｆ′（Ｕｉ）＝１−ｆ２　（Ｕｉ）＝１−Ｙｉ
２　　　　　　　　　　　（５）である。

【００６８】このＤｉとＹｉを基に，以下のように重み
を更新する。基本的には次の式を用いる。ここではηは
重みを更新する刻み幅であり，小さければ学習安定に収
束する収束が遅くなり，大きすぎると収束しなくなると
いう性質を持ったパラメタである。

【００６９】

【数４】

【００７０】

【数５】

【００７１】しかし，次式も良く用いられている。これ
は上式の

【００７２】

【数６】

【００７３】を１次のデジタルローパスフィルタに通し
たことになっており，αはその時定数を決めるパラメタ
である。

【００７４】

【数７】

【００７５】この後ろ向き処理の過程において必要とな
る演算はベクトル間の演算，或いは行列とベクトルとの
演算であり，特にその中心となるのは各層のニューロン
の重みを要素とする重み行列Ｗの転置行列　ｔｒａｎｓ
ｐｏｓｅ　（Ｗ）と前記誤差ベクトルＤｊ　（ｌ）との
乗算である。この誤差ベクトルは１層内に複数個のニューロンがある
一般の場合，誤差はベクトルとなる。

【００７６】左のフローチャートを説明する。１層分の
前向きの処理と後向きの処理が行われる。まず，入力デ
ータＩＰ　をシフトレジスタ上にセットし，１層分の前
向き処理をシステムで行う。

【００７７】これは各層で行われるため，この前向き処
理を層の数分だけ繰り返す。すると出力データＯＰ　が
出力されるので，これをシフトレジスタ上にセットする
。そして，ステップ７９から以下を出力層のユニット分だ
け並列に実行する。すなわち誤差Ｄｉ　（Ｌ）＝Ｙｉ　
（Ｌ）−ＯＰ　（ｉ）を計算し，この誤差をトレイのｉ
番目にセットする。そして出力層から入力層に向かって
各層毎に後向き処理を行う。

【００７８】この後向き処理は図２４に示されている。第Ｌ番目の層に関して，この層の数はＮ（ｌ）であるか
らシフトレジスタ長をＮ（ｌ）にする。そして以下の動
作をこの前の層のユニット数だけ並列に実行する。すな
わち，上記（２）式を，ステップ８３において実行する
。ここで重要なのは重みはＷｊｉ（ｌ）となっており，
これは重み行列の転置行列　ｔｒａｎｓｐｏｓｅ　（Ｗ
）の要素になっている。

【００７９】そしてステップ８４において，上記（６）
，　（７）あるいは（８）式を計算し，重みの更新を行
う。ステップ８５で，求まった誤差Ｄｉ（ｌ−１）をトレイ
のｉ番目に出力する。これは次の誤差を計算するため，
ステップ８４の動作に必要となる。

【００８０】図２５は前向き処理と後向き処理の連続処
理を学習が習得するまで繰り返すことを意味するフロー
チャートである。また，このような処理において重みの
更新と学習を安定にするために重みの修正量の平滑化等
の処理があるが，これらはいずれも行列のスカラ倍及び
行列同士の加減算からなり，やはり，本ニューロコンピ
ュータにおいて行える。

【００８１】またシグモイド関数処理専用の装置はハー
ドウエアで実現するものとしたが，ソフトウエアで実現
してもよい。

【００８２】以上のニューロコンピュータをさらに図２
６を用いて説明する。図２６はエラーバックプロパゲー
ションの学習を行う時の処理フローである。ここでは，
ベクトル表示を用いている。同図においてｘ（ｌ）は第
ｌ層のニューロンベクトル，Ｗは同じく結合係数，すな
わち重み行列である。ｆはシグモイド関数，ｄは誤差，
（ｌ）は第ｌ層の出力側から逆向きに伝播してきた誤差
ベクトル，ΔＷは重みの修正量である。

【００８３】入力信号が与えられると，まず，３層であ
る場合には，入力層はないものとすれば，隠れ層の前向
き処理を行う。それがｕ＝Ｗｙ　（ｌ）である。このｕ
に非線形関数を施せば，次の層，すなわち（ｌ＋１）層
の入力となる。これは出力層の入力であるから，その前
向き処理を行う。

【００８４】そして教師信号を入力し，後向き処理に入
る。

【００８５】出力層においては教師信号と出力信号の誤
差ｄをｆの微分を掛けて後向き処理にする。また中間層
等の間の誤差は逆伝播してくる誤差信号に微分をかけた
変数に重み行列の転置行列　ｔｒａｎｓｐｏｓｅ　（Ｗ
）をかけて求められる。

【００８６】誤差ベクトルの各要素にシグモイドの微分
をかけた値に前の　ｔｒａｎｓｐｏｓｅ　（Ｗ）の要素
を掛けてこれによりΔＷを求め，Ｗを更新すればよい。

【００８７】このようにして，出力層の後向き処理，及
び隠れ層の後向き処理が行われる。前向き処理で行う演
算は，重み行列Ｗと入力ベクトルｙとの積，この結果ベ
クトルの各要素のシグモイド関数の値の計算である。こ
の計算は各ニューロンで並列に計算できる。また後向き
処理でも仕事は大きく分けて２あり，１つ目は教師信号
と出力信号との誤差を順次変形しながら，後から前へ逆
向きに伝播すること，また２つ目はその誤差を基に重み
行列Ｗの転置行列　ｔｒａｎｓｐｏｓｅ（Ｗ）による乗
算が必要になる。

【００８８】図２７は学習処理をまとめて表わしたフロ
ーチャートである。図中の符号７０（７６），７１（７
６），７２，７３，７４，７５，７９，８０，８１，８
２，８３，８４は上述の図２２，図２３，図２４，図２
５に対応している。

【００８９】

【発明が解決しようとする課題】前記の従来の並列デー
タ処理方式においては，前記トレイ２の個数が例えば２
５６個程度のものとなっている。このために，トレイ２
を例えば３２個程度で足りる演算を実行しようとする場
合には，残余の２２４個のトレイ２とデータ処理ユニッ
ト１とに遊びが生じる。即ち，図１７に示す従来の場合
において，結合手段６としては，図１７図示の最右端の
入力を途中の結合手段６をショートカットして直接受取
る機能をもつよう構成されていることから，上記の例で
言えば３２個分のトレイ２のみを使用するようにするこ
とは可能であるが，残余の２２４個分が遊びとなる。

【００９０】上記の如き設定例の場合には，上記２５６
個分を８群に区分し，当該８群で並列処理することが望
まれる。

【００９１】本発明はシフト手段を構成するトレイを複
数の群に区分して，並列処理を実行できるようにするこ
とを目的としている。

【００９２】

【課題を解決するための手段】図１は本発明の原理構成
図を示す。図中の符号１はデータ処理ユニット，２はト
レイ，３はシフト手段を表わしている。そして７は本発
明にいう切り換え手段であって，図中の符号７−１で示
す如きシフト手段延長モードの下での接続状態と，図中
の符号７−２で示す如きシフト手段分割モードの下での
接続状態とが選択的に切り換え可能に構成されている。

【００９３】切り換え手段７は，第１の端子■と，第２
の端子■と，第３の端子■と，第４の端子■とをそなえ
ている。上記シフト手段延長モードの下では，第１の端
子■と第３の端子■とが内部接続され，かつ第２の端子
■と第４の端子■とが内部接続される。また上記シフト
手段分割モードの下では，第１の端子■と第２の端子■
とが内部接続され，かつ第３の端子■と第４の端子■と
が内部接続される。

【００９４】これによって，シフト手段延長モードの場
合には，注目した切り換え手段７の図示右側（又は左側
）のトレイ２からのデータは図示左側（又は右側）のト
レイ２に伝送されることとなる。またシフト手段分割モ
ードの場合には，注目した切り換え手段７の図示右側の
トレイ２からの（又は右側のトレイ２に向う）データは
図示右側に（又は右側から）伝送されかつ図示左側のト
レイ２からの（又は左側のトレイ２に向う）データは図
示左側に（又は左側から）伝送される。即ちこの場合に
は，シフト手段３が左右に分割される形となる。

【００９５】データ処理ユニット１は，例えばトレイ２
から供給される変数と，データ処理ユニット１内に存在
し（あるいは図示しないメモリから供給される）係数と
の乗算を行い，その結果を累算してゆく如き処理を実行
する。

【００９６】トレイ２によって構成されるシフト手段３
には，例えば変数ｘ１　，ｘ２　，ｘ３　，．．．．が
シフトされつつ巡回されてゆく。

【００９７】

【作用】図示のデータ処理ユニット１とトレイ２とはデ
ータを相互に授受することができ，（１）シフト手段３
上で夫々のトレイ２に対してデータがシフトされてゆく
データ転送と，（２）トレイ２とデータ処理ユニット１
との間でのデータ転送と，（３）データ処理ユニット１
内でのデータ処理動作と，が互いに同期化されて実行さ
れる。

【００９８】そして，本発明の場合には，例えば　　個
分ずつのトレイ２が１つの巡回シフトレジスタを構成す
るように，切り換え手段７の所定のものが上記シフト手
段分割モードで選択されるとすると，全体で例えば２５
６個のトレイ２をもつシフト手段３が８個の巡回シフト
レジスタに分割される。そして，当該分割によって，８
組の演算処理が並列に実行可能となる。

【００９９】

【実施例】図２は本発明の実施例構成を示す。図中の符
号１，２，２ａ，２ｂ，２ｃ，２ｄ，３，４，５，１１
，１２，２１，２２，２３は図１７に対応しており，５
ａはクロック発生回路，５ｂはクロック分配回路，７は
切り換え手段，１０１はシグモイド関数処理ユニット，
１０３は学習時の終了判定手段である。

【０１００】学習時の終了判定手段１０３は，例えば通
信手段によって各データ処理ユニット１と接続されたホ
ストコンピュータと，各データ処理ユニット１が計算し
た出力誤差を上述の通信手段によってホストコンピュー
タに通知する手段と，一般に複数個の出力誤差値をもと
に学習の終了を判定してニューロコンピュータにおける
学習を停止する手段から構成される。

【０１０１】切り換え手段７は，従来の構成である図１
７における結合手段６に代えて設けられている。そして
上述した如く，切り換え手段７の所定のものを，シフト
手段分割モードにすることによって，図２に示す全体が
，幾つかの分割されたシステムとなり，各群が並列運転
可能となる。以下，幾つかの演算を行う態様を説明する
。

【０１０２】図３，図４は行列ベクトル積を演算する場
合を説明する説明図である。図中の符号１，２，７は図
１に対応しており，図３の場合には，符号７（７−２）
として示している切り換え手段が上述のシフト手段分割
モードに選ばれ，シフト手段３が，２つのシフト手段３
−１と３−２とに分割されている。

【０１０３】マトリクスＡがエレメントａ１１，ａ１２
，．．．，ａ５５によって構成されているものとし，マ
トリクスＢがエレメントｂ１１，ｂ１２，．．．，ｂ３
３によって構成されているものとする。またベクトル変
数ｘがｘ１　ないしｘ５　で与えられ，ベクトル変数ｙ
がｙ１　，ｙ２　，ｙ３　で与えられるとする。

【０１０４】データ処理ユニット１−１にはエレメント
ａ１１，ａ１２，．．．，ａ１５が図２に示すメモリ４
から供給され，データ処理ユニット１−２にはエレメン
トａ２２，　ａ２３，．．．，ａ２１がメモリ４から供
給され，．．．，データ処理ユニット１−５にはエレメ
ントａ５５，ａ５１，．．．，ａ５４がメモリ４から供
給される。そしてトレイ２−１ないし２−５に対して，
ｘ１　，ｘ２　，ｘ３　，ｘ４　，ｘ５　がセットされ
た上で巡回される。

【０１０５】同様にデータ処理ユニット１−６にはエレ
メントｂ１１，．．．，ｂ２１がメモリ４から供給され
，．．．，データ処理ユニット１−８にはエレメントｂ
３３，．．．，ｂ３２がメモリ４から供給される。そし
て，トレイ２−６ないし２−８に対して，ｙ１　，ｙ２
　，ｙ３　がセットされた上で巡回される。

【０１０６】図４におけるステップ３０１は，図３にお
いてベクトル変数ｘやｙをセットする状態を表わしてい
る。ステップ３０２は，切り換え手段７（７−２）によ
ってシフト手段３を２分割することを表わしている。

【０１０７】ステップ３０３において，各データ処理ユ
ニット１内のアキュムレータをクリヤする。ステップ３
０４において，トレイ２側からの入力（ｘｉやｙｉ　）
とメモリ４側からの入力（ａｐｑやｂｐｑ）とを乗算し
て，その結果をアキュムレータに加算する。ステップ３
０５においてトレイ２の内容をシフトする。ステップ３
０４と３０５とは，シフト手段３−１側で５回行われ，
シフト手段３−２側で３回行われる。これによってＡｘ
　やＢｙ　の計算即ち行列ベクトル積の計算が実行され
る。

【０１０８】図５，図６は行列行列積を演算する場合を
説明する説明図である。図中の符号は図３に対応してい
る。

【０１０９】マトリクスＡとマトリクスＸとが図５に示
す如きものとして，トレイ２−１ないし２−４に対して
ｘ１１ないしｘ１４がセットされて巡回され，トレイ２
−５ないし２−８に対してｘ２１ないしｘ２４がセット
されて巡回される。

【０１１０】図６におけるステップ４０１は，図５にお
いて被乗数行列ｘのエレメントをトレイ２上にセットす
る状態を表わしている。ステップ４０２はシフト手段３
を２分割することを表わしている。

【０１１１】ステップ４０３において，各データ処理ユ
ニット１内のアキュムレータをクリヤする。ステップ４
０４においてｘｉｊとａｐｑとを乗算して，その結果を
アキュムレータに加算する。ステップ４０５においてト
レイ２の内容をシフトする。ステップ４０４と４０５と
は４回繰返される。

【０１１２】図７，図８はニューロコンピュータが３層
ネットワークで構成される場合の前向き処理を説明する
図である。図中の符号は図３に対応している。

【０１１３】前向き処理は，次式に示す如き積和計算に
対応することとなる。

【０１１４】

【数８】

【０１１５】重みＷは回数ｉ回目における重みであり，
ベクトルｙは回数（ｉ−１）回目におけるベクトルであ
る。図７と図８とを対応するとより明確になる如く，ス
テップ５０１においてシフト手段３を長さ４ずつに分割
して，図７図示の如く２つのシフト手段３−１と３−２
とに分割する。ステップ５０２において，ベクトルｙｉ
（１），ｙｉ（２）をセットする。

【０１１６】ステップ５０３において，ｗ（２）　ｙ（
１）　やｗ（３）　ｙ（２）　が計算される。そしてス
テップ５０４において，図２に示すシグモイド関数処理
ユニット１０１を用いて，シグモイド関数の値を計算す
る。ステップ５０５において，シグモイド関数の値をト
レイ２−ｉに出力し，次いでステップ５０６において，
シフト手段３−１と３−２とを連結した上で，即ち長さ
を図示の場合には「８」にした上で，４個シフトするよ
うにする。このようなステップ５０１ないし５０６の処
理は，入力が存在する限り繰返され，前向き処理が終了
する。

【０１１７】図９，図１０は後向き処理を説明する図で
ある。図中の符号は図３に対応している。後向き処理も
，第（９）式に示す如き積和計算を行うことに対応する
。図１０におけるステップ６０１において，シフト手段
３を２つに分割する。そしてステップ６０２において夫
々のシフト手段３−１と３−２とを，異なる訓練データ
にて，例えば１０回程度学習させる。その後，２つのシ
フト手段における重みをマージする。

【０１１８】図１１は誤差逆伝搬学習則のフローチャー
トを表わす。図１１は，従来の技術に関連して説明した
図２７に対応している。そして図８，図１０に対応して
いる。

【０１１９】

【発明の効果】以上説明した如く，本発明によれば，シ
フト手段を適宜分割した上で，並行した計算処理が可能
となり，また必要に応じて一旦分割したシフト手段を統
合させることも可能となる。このために，例えば図２に
示す如き全体の構成を効率よく使用することが可能とな
る。

【図面の簡単な説明】

【図１】本発明の原理構成図を示す

【図２】本発明の実施例構成を示す。

【図３】行列ベクトル積を演算する場合の説明図である
。

【図４】行列ベクトル積を演算する場合の説明図である
。

【図５】行列行列積を演算する場合の説明図である。

【図６】行列行列積を演算する場合の説明図である。

【図７】前向き処理を説明する図である。

【図８】前向き処理を説明する図である。

【図９】後向き処理を説明する図である。

【図１０】後向き処理を説明する図である。

【図１１】誤差逆伝搬学習則のフローチャートである。

【図１２】従来の共通バス結合型並列方式の原理構成図
である。

【図１３】共通バス結合型並列方式による行列ベクトル
積のフローチャートである。

【図１４】従来のリングシストリック方式の原理説明図
である。

【図１５】プロセッサエレメント（データ処理ユニット
）の内部構成を示す。

【図１６】図１４のリングシストリック方式の構成を多
段に組み合わせたものである。

【図１７】先の提案の場合の原理構成図である。

【図１８】図１７の場合の動作概念図である。

【図１９】図１７に示すトレイの構成を示す。

【図２０】ニューロンモデルの構成を示す。

【図２１】図２０に示すニューロンモデルを用いたニュ
ーラルネットワークの概念図である。

【図２２】前向き処理のフローチャートを示す。

【図２３】学習処理フローチャートを示す。

【図２４】後向き処理のフローチャートを示す。

【図２５】学習が習得されるまでの繰返しを説明する図
である。

【図２６】エラーバックプロパゲーション（誤差逆伝搬
学習）の処理フローを示す。

【図２７】学習をまとめて表わしたフローチャートであ
る。

【符号の説明】

１　　データ処理ユニット２　　トレイ３　　シフト手段４　　メモリ７　　切り換え手段

Claims

【特許請求の範囲】

【請求項１】　　夫々少なくとも第１の端子（３１）を
もつ複数個のデータ処理ユニット（１）と，夫々第１の
入力（２１）及び出力（２２）をもちかつ夫々データ保
持機能とデータ転送機能とをもつ複数個のトレイ（２）
であって，前記トレイ（２）の全部又はその一部が夫々
前記データ処理ユニット（１）の第１の端子（３１）に
接続された接続端子（２３）を有するものと，前記接続
するトレイ（２）の第１の入力（２１）　及び出力　（
２２）　が接続されて構成されるシフト手段（３）とを
そなえ，前記シフト手段（３）が，当該シフト手段（３
）の長さを変更する切り換え手段（７）により，分割可
能に構成されてなり，前記シフト手段（３）上のデータ
転送と，前記トレイ（２）と前記データ処理ユニット（
１）との間のデータ転送と，前記データ処理ユニット（
１）によるデータ処理とを同期して行うようにしたこと
を特徴とする並列データ処理方式。
【請求項２】　　前記シフト手段（３）はサイクリック
シフトレジスタを構成することを特徴とする請求項１記
載の並列データ処理方式。
【請求項３】　　前記切り換え手段（７）は，第１の端
子と第２の端子と第３の端子と第４の端子とをそなえ，
第１の端子と第３の端子とを内部接続すると共に第２の
端子と第４の端子とを内部接続して，前記シフト手段（
３）を延長状態に形成するシフト手段延長モードと，第
１の端子と第２の端子とを内部接続すると共に第３の端
子と第４の端子とを内部接続して，前記シフト手段（３
）を複数個のサイクリックシフトレジスタ構成に分割す
るシフト手段分割モードとを選択的に切り換えるように
したことを特徴とする請求項１記載の並列データ処理方
式。
【請求項４】　　前記データ処理ユニット（１）は，シ
グモイド関数ユニット（１０１）を有することを特徴と
する請求項１記載の並列データ処理方式。
【請求項５】　　前記データ処理ユニット（１）は，第
２の端子（１２）に接続されるメモリ手段（４）をそな
え，当該メモリ手段（４）から，少なくとも１つの変数
が前記データ処理ユニット（１）に供給されることを特
徴とする請求項１記載の並列データ処理方式。