JPH03105583A

JPH03105583A - 並列データ処理方式

Info

Publication number: JPH03105583A
Application number: JP1243971A
Authority: JP
Inventors: Hideki Kato; 英樹加藤; Hideki Yoshizawa; 英樹吉沢; Hiromoto Ichiki; 宏基市來; Kazuo Asakawa; 浅川　和雄
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1989-09-20
Filing date: 1989-09-20
Publication date: 1991-05-02

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔概　　　要〕複数個のデータ処理ユニットを同期的に用いてデータを
処理する並列データ処理方式に関し、リングシストリッ
クアレイ方式や共通バス結合型Ｓ　Ｉ　Ｍ　Ｄ　（Ｓｉ
ｎｇｌｅ　Ｉｎｓｔｒｕｃｔｉｏｎ　Ｍｕｌｔｉ　Ｄａ
ｔａ　）結合方式と同程度なハードウエア構成で、デー
タ転送によるオーバヘッドを減少せしめ、特に、長方形
行列とベクトルとの積を求めるような処理に対しても、
本来の並列度を最大限利用できるようにして良好な台数
効果を得ることにより、行列ベクトル積あるいはその転
置行列ベクトル積を求めることを目的とし、各々少なくとも一つの入力を持つ複数個のデータ処理ユ
ニットと、各々第１の入力及び出力を持ちかつ各々デー
タ保持及びデータ転送を行う複数個のトレイであって、
前記トレイの全部又はその一部が各々前記データ処理ユ
ニットの第１の入力に接続された第２の出力を有するも
のと、前記接続するトレイの第１の入力及び出力が接続
されて成るシフト手段とを具備し、前記シフト手段上の
データ転送と、前記トレイと前記データ処理ユニット間
のデータ転送と、前記データ処理ユニ・ントによるデー
タ処理とを同期して行うことにより、行列ベクトル積あ
るいはその転置行列ベクトル積を求めるように構成する
。

〔産業上の利用分野〕

本発明は並列データ処理方式に係り、更に詳しくは、複
数個のデータ処理ユニットを伺期的に用いてデータを処
理する並列データ処理方式に関する。

近年、電子計算機或いはデジタル信号処理装置等のシス
テムにおいて、データ処理の適用分野の拡大に伴い、処
理されるデータの量が膨大になり、特に画像処理或いは
音声処理等の分野では高速なデータ処理を行う必要があ
り、そのため、複数個のデータ処理ユニットを同期的に
用いてデータを処理するデータ処理の並列性の利用が重
要となる。

一般に、複数の処理ユニットを用いた処理において重要
な概念に台数効果がある。これは用意されたデータ処理
ユニットの台数に比例したデータ処理速度の向上が得ら
れることを意味するが、並列処理方式においては良好な
台数効果を得ることが非常に重要となる。

台数効果が悪化する主要な原因は、問題そのものの並列
度による限界を別にすれば、データ処理に伴うデータ転
送に要する時間が本来のデータ処理に要する時間に加算
されてトータルとしての処理時間が引き延ばされること
にある。従って、台数効果の向上にはデータ伝送路の容
量をフルに活用することが有効であるが、これはなかな
か難しい。

しかし、処理が規則的な場合には、この規則性を利用し
て台数効果を上げることが可能となる。

データをシストリックアレイ、すなわち、巡回的にデー
タを流し、２つのデータがその流れにおいてそろったと
ころで演算を行うようにする。処理が規則的なことを利
用する並列処理がシストリックアレイ方式であり、この
中でリングシストリックアレイ方式と呼ばれる１次元の
シストリックアレイ方式は、複数個のデータ処理ユニッ
トを同期的に用いてシストリックなデータを処理する並
列データ処理方式であって実現が比較的容易である。

規則性のある処理として、ベクトルの内積演算を基本と
した行列演算や、ニューラルネットの積和演算に非線形
関数を介して出力する並列処理がある。

〔従来の技術〕

第１１図（Ａ）は従来の共通バス結合型並列方式の原理
構戒図である。同図において９１はプロセッサエレメン
ト、４はメモリ、９３は共通バス、９２は共通バスに接
続されるバス、９４は各プロセッサエレメントと、それ
に対応して接続されるメモリ４を接続する内部バスであ
る。この共通バス結合型並列方弐においては、プロセッ
サエレメント（以下ＰＥと称す）間の通信が共通バス９
３を介して行われる。特定な時間区域には共通バスに乗
せるデータは■つであるため、共通バスによる通信は共
通バス全体にわたって同期をとる必要がある。

第１１図（Ｂ）はこの共通バス結合型並列方式による行
列ベクトル積の動作フローチャートである。各ＰＥは他
のＰＥからのデータＸと内部レジスタのＹとをかけ、そ
の積をＹに足しこむ動作を行う。そのためフローチャー
トに示すように、ｉ番目のＰＥに関して、その内部にあ
るレジスタの内容、すなわち、Ｙｒの値をまずＯにする
。そして以下をｎ＠繰り返す。すなわち、共通パス９３
にＸｊを与えるとｉ番目のＰＥは共通バスに接続された
バス９２からの入力とメモリ４から内部バス９４を介し
て与えられる入力を掛け合わせ、その積をＹｔに足し込
む。これを繰り返す。

第１２図（Ａ）は従来のリングシストリック方式の原理
説明図である。同図において２０はプロセッサエレメン
ト（ＰＥ）である。各ＰＥは巡回バス２２によって接続
されている。また、２１は係数Ｗｌｊを格納するメモリ
である。Ｗ目，Ｗ，２，・・・．Ｗ３，などは係数行列
の要素であり、一般にＷｊＪは行列のｉｊｔ７．分であ
る。この係数行列Ｗと、ベクトＪＬ／Ｘ＝　（ＸＩ　，
　　Ｘ２　，　　Ｘ３　）を掛ける動作をこのリングシ
ストリック方式で行う場合、次のようにして行われる。

第１２図（Ｂ）はプロセッサエレメントの第ｉ番目の内
部構造である。同図において２３は乗算器、２４は加算
器、２５はアキュムレータ（ＡＣＣＬ２１は係数の要素
Ｗｉｊを格納するレジスタ群である。このレジスタ群は
いわゆるＦＩＦＯであって、係数行列の第ｉ行目に関す
る係数としてＷ｛Ｊ、すなわちｊ番目の列の要素が出力
されようとしている状態である。このＦＩＦ○は出力さ
れた次のクロックでは巡回し、バス２２を介して後ろ側
からまた入力される。従って図に示すように、Ｗ　ｉ　
ｌ　＋　　・・・，　Ｗ．　Ｊ−．はすでに巡回されて
後側に格納されている状態となっている。

一方、ベクトルの各要素はバス２２を介して入力される
。現在、要素Ｘｊが入刀されている状態である。すでに
アキュムレータ２５にはｗ，，　Ｘ　Ｘ　，＋・・・＋
ＷｉＪ−Ｉ　ＸＸＪ−１の内積結果が格納されている。

これが今アキュムレータ２５から出刀され、加算器２４
の一方の入カに入力されている。

外部からのｘｊとＦＩＦＯがら出カされるｗｉＪの積が
乗算器２３によって乗算され、その結果が加算器２４の
他方の入力に入力され、現在のアキュムレータ２５の内
容とが加えられ、次のクロックで同じアキュムレータ２
５に加算される。この繰り返しによ゛って、係数行列Ｗ
の第ｉ行目の行ベクトルと外部から与えらるＸベクトル
との内積演算がＷ行される。なお、スイッチ（Ｓｗｉｔ
ｃｈ）はデータＸｔをスルーに外部に出すか、あるいは
内部に取り込み、アキュムレータ２５にセットする場合
との選択を行うためのものである。このようなＰＥで、
行列×ベクトルの積を行う場合、第１２図（Ａ）に示す
ように、ＰＥ−１はまず、Ｗ　＋　＋　トＸ　，？掛け
、次のクロック周期に、Ｘ２が右側のＰＥ−２から流れ
込み、Ｗ＋２がメモリ２１から出力されるので、Ｗ１■
×Ｘ２が演算される。同様に次のクロックではＷＩ３と
Ｘ３との積が実行され、このことにより係数行列の第ｌ
列目とベクトルＸとの積がＰＥ−１において可能となる
。また、第２列目とベクトルとの積はＰＥ−２において
行われる。

すなわち、Ｗ２■とｘ２を掛け、次のクロック周期に、
Ｗ２３とＸ３を掛け、次のクロック周期においてＷ２，
と巡回的にもどってきたＸ１との積を行うことになる。

同様に、第３行目とベクトルとの積はＷ３３とＸ３を掛
け、Ｗ３１と巡回してくるＸ＋　とを掛け、Ｗ３２と巡
回して戻ってくるＸ２との積をとって内積演算を実行す
ることによって可能となる。従って、この動作において
、ＷｌｌとＸ１との積、及びＷ２２とＸ２、Ｗ３３とＸ
３との積は同時に行えることになる。しかし、図に示す
ように、この同時性を実行するためには係数行列の要素
の並べ方にねじれが生じている。このようなリングシス
トリックアレイ方式においては、各ＰＥ間のデータ転送
と、各ＰＥでのデータ処理を同期して実行することで、
データ転送路を有効に利用でき、従って良好な台数効果
を得ることができる。

第１２図（Ｃ）は、第１２図（Ａ）のリングシストリッ
ク方式の構成を多段に組み合わせたのもであり、この構
成により、連続する行列とベクトルの積を行うことが可
能となる。このようなシストリンクアレイ方式は処理が
規則的であるため、データ伝送路の容量をフルに活用す
ることが可能であり、従って台数効果の向上が計れる。

〔発明が解決しようとする課題〕

第１Ｉ図（Ａ）のような従来の共通バス結合の並列方式
においては、プロセッシングエレメント、すなわちＰＥ
間の結合が共通バスによっているため、一時には１つの
データしか転送できない。また、共通バスによる結合は
共通バス全体にわたる同期をとらなければならない。従
って、従来の共通バス結合型並列方式においては良好な
台数効果を得られる処理の種類が少ないという問題が生
し、さらに共通バスによる結合は、結合されるＰＥの個
数の増加とともに共通バスが長くなり、共通バス全体に
わたる同期をとるのが難しくなるという問題、そして、
大規模並列には適さないという問題が生じていた。また
、第１２図のような従来のリングシストリックアレイ方
式においては、各ＰＥ間のデータ転送とＰＥでのデータ
処理を同期して実行することにより、台数効果を得るこ
とができるが、この方式では、各ＰＥ間でのデータ転送
と、各ＰＥ間でのデータ処理のタイミングを合わせねば
ならない。また、この方式では、例えば長方形の行列と
ベクトルとの積を求める場合等のようにデータ処理ユニ
ットとデータ保持ユニットのそれぞれの最適な個数が等
しくない場合には、実際のデータ処理に係わらないＰＥ
が必要となり、すなわち、遊ぶＰＥが多くなり、そのた
め台数効果が悪化するという問題がある。言い換えれば
、効率よくとける問題と回路構成とが固く対応し、問題
の大きさが最適な値と異なると台数効果が悪化してしま
う。逆にいうと、良好な台数効果が得られる問題が特定
されてしまい、広範な処理に適用できず、柔軟性、或い
は汎用性に欠け、結果として、ある程度広い範囲の処理
に適用できる高速なデータ処理系を実現することが困難
となる。

本発明は、リングシストリックアレイ方式や共通バス結
合型Ｓ　Ｉ　Ｍ　Ｄ　（Ｓｉｎｇｌｅ　Ｉｎｓｔｒｕｃ
ｔｉｏｎ　ＭｕｌｔｉＤａ　ｔａ　）結合方式と同程度
なハードウエア構戒で、データ転送によるオーバヘッド
を減少せしめ、特に、長方形行列とベクトルとの積を求
めるような処理に対しても、本来の並列度を最大限利用
できるようにして良好な台数効果を得ることにより、行
列ベクトル積あるいはその転置行列ベクトル積を求める
ことを目的とする。

〔課題を解決するための手段〕

第１図は本発明の原理説明図である。同図において１は
データ処理ユニット、２はデータの保持及び転送を行う
トレイ、３は各トレイの相互接続により構威されるシフ
トレジスタ、１１はデータ処理ユニットの第ｌの入力、
１２はデータ処理ユニットの第２の入力、２１はトレイ
の第１の入力、２２はトレイの第１の出力、２３はトレ
イ２の第２の出力である。

データ処理ユニット１はデータの処理を行い、トレイ２
は転送の動作を行うものでシフトレジスタ３を構成して
、データの巡回シフトを行う。本発明では、ｍＸｎ行列
Ａと要素数のベクトルＸとの積を求める場合、行列八の
行数ｍが列数ｎより小さい場合であっても、或いはｍが
ｎより大きい場合であっても、ｍ個のデータ処理ユニッ
トとｎ個のトレイを用いてｎに比例する処理時間でその
積が実行可能となり、従って、良好な台数効果を得るこ
とができる。すなわち、第１図（Ａ）に示すように、そ
れぞれ２つの入力を持ち、その入力間の乗算機能とその
乗算結果の累積機能、すなわち内積演算を実行するｍ個
のデータ処理ユニ・ノト１と、ｎ個のトレイ２とからな
る構成において、ユニット内の累積レジスタをＹとした
場合に、データ処理ユニットは１１からの入力と１２か
らの入力を掛け合わせ、積を累積Ｙに足し込み、その後
、シフトレジスタ３内の隣接するトレイ間でベクトルＸ
の要素をシフトする。この動作をｎ回繰り返すことによ
り、ｍＸｎの行列Ａと、ｎ次元ベクトルとの乗算がｍ個
のデータ処理ユニットを用いてｎに比例する処理時間で
実行可能となる。すなわち、本発明は、従来方式と異な
り、データ処理ユニットエとデータ保持機能を有するト
レイ２とを分離することにより、それぞれｍとｎが異な
っている場合であっても、タイくングを合わせるための
処理を必要とせずに良好な台数効果を得ることが可能と
なる。さらに、本発明では、トレイ２間のデータ転送と
データ処理ユニットｌによるデータ処理とを同時並行的
に行い、一ｉ的にはデータ処理ユニットがデータ処理に
有する時間よりもデータ転送時間を短くすることが期待
できるので、データ転送時間をデータ処理時間の影に隠
すことで実質的に０にし、そのことにより、処理時間を
短縮することが可能となっている。このことにより、行
列ベクトル積あるいはその転置行列ヘクトル積を求める〔作　　　用〕データ処理ユニットと、データ保持機能を有するトレイ
とを分離することにより、データ処理ユニントの個数ｍ
とトレイの個数ｎとが同一の場合も違っている場合も、
ｎＸｍの行列Ａと要素数ｎのベクトルＸとの積を、デー
タ転送と、データ処理の同時並列処理により行うことが
できる。

〔実　　施　　例］以下、本発明の実施例を図面を参照して説明する。

第１図（Ｂ）は第ｌ図（Ａ）の本発明の原理構戒図のシ
ステムの動作フローチャートである。第１図（Ａ）に示
されるように本発明ではデータ処理ユニット１とデータ
保持機能を有するトレイ２とを分離し、さらにトレイを
隣接間で接続し、巡回接続することによってシストリッ
クなシステムを構成している。データ処理ユニットの数
をｎ、トレイの数をｍとした場合に、ｍＸｎの行列Ａと
？素数ｎのベクトル１との積を求める場合、第１図（Ｂ
）のフローチャートに示される動作となる。

ＸＬをトレイ２のｉ番目にセットする。Ｙｔの値をＯに
する。すなわちデータ処理ユニットのｉ番目のユニット
における累積レジスタの値を初期化する。ｉ番目の処理
ユニットｈは１１＋からの入力と、１２ｔの入力を掛け
合わせて、積を累積器Ｙｉに足し込む。そしてシフトレ
ジスタ３をシフトする。この内積とシフト動作をｎ回繰
り返す。

この処理において長方行列ＡとベクトルＸとの積が形威
される。この場合、トレイ間のデータ転送とデータ処理
ユニットにおけるデータ処理とは同時並行処理となる。

第１図（Ｃ）は本発明方式の動作概念図である。

同図においてトレイ２内のデータｘ１からＸｎはベクト
ルＸの要素でその個数はｎであるとする。

またデータ処理ユニットはｍ個あり、その各々に累積器
がＹ＋　，Ｙｚ　，　　・・・，Ｙ１がある。ｍ×ｎの
長方行列の要素はＡ　１　ＨからＡ■までのｍｘｎ個存
在する。データ処理ユニットの１１には係数？列の第１
行目であるＡ　Ｉ　Ｉ　＋　　Ａ　Ｉ　２　＋　　・・
・　Ａ，ｎが同期的に１２＋の入カバスから入力される
。またデータ処理ユニット１■はＡ２■，　　Ａ２３，
　　・・・Ａ　２　１がシストリック動作の各タイξン
グで順番に与えられる。また、データ処理ユニット１．
．にはＡ　ｌｌｌｍ＋　Ａｍ　ｍ＋Ｉ＋・・・ｒ　　Ａ
Ｉ＋　１１−１が同期的に与えられる。

第１図（Ｄ）は第１図（Ｃ）の動作のタイミングチャー
トである。時間Ｔ１からＴｎの動作は第１図（Ｃ）のそ
れぞれの図と第１図（Ｄ）の時間Ｔ＋　，Ｔ２　，　　
・・・，Ｔｎとが対応している。時間タイミングＴ１に
おいては第１図（Ｃ）に示されるようにトレイの２１．
２２，　　・・・，２ｎにはＸ，，Ｘ２，Ｘ．，　　・
−・，Ｘ，があり、ユニノト１１，１２，　　・・・，
ｌｍにはそれぞれ係数行列の要素Ａｌｌ，　Ａ２２，　
　・・・Ａ，．ｆｆｉが入力されている。従って、この
タイミングにおいてデータ処理ユニットはＡ．とトレイ
２ｌのデータＸＩ　との積を求め、データ処理ユニット
に対応するトレイ２２にあるＸ２と、メモリから与えら
れるＡ２■と？積を求め、同様に、トレイ２ｍにおいて
はＡＩ，ｌｌ．とＸ．の積を求める。このタイミングは
第１図（Ｄ）のＴ１のタイミングで行われている。すな
わち積和を求める同期クロックにおいて、バス１ｈには
ＸＩがあり、バス１２＋　にはＡＩ＋があり、バス１１
２にはＸ２、１２２にはＡ２２、１１３にはＸ３、１２
３にはＡ３３があり、１１Ｉ，ｌにはＸＩＩ％１２カに
はＡ■がのっている。従って、第１図（Ｃ）のＴＩタイ
ムにおける図に示すように内積演算が行われる。累積器
Ｙの値はこの時はＯであるから内積結果はＯに掛けた値
が加わることになる。積和演算が終わるとシフト動作に
入る。すなわち第１図（Ｄ）に示されるようにＴ１とＴ
２との間がシフト動作であり、隣接するトレイ間でデー
タのシフトが行われる。すなわち左シフトがこの場合行
われる。すると第１図（Ｃ）のタイミングＴ２に移る。

第１図（Ｄ）の動作タイ呉ングでも同様にＴ２の積和の
時間区域となる。するとシフトされているからトレイ２
ｔにはＸ２、トレイ２２にはＸ３、そしてトレイ２ｍに
はＸ　ｍ＋１が格？され、また、係数行列の要素もトレ
イｌ，２，”・，ｍにはそれぞれＡＩ２，　Ａ２：Ｉ，
　Ａｌｌ　＋１１４１が入力される。これは第１図（Ｄ
）のＴ２のタイミングにおいてもバス上のデータがそれ
ぞれ示されている。従って、Ｔ２のタイ旦ングにおいて
、ＡＩ２とＸ２との積をとり、前の累積器Ｙとの和が求
められる。従ってユニットｈにおいてはＴＩにおいて求
まったＡ１，とＸ１との積とＴ２において求められるＡ
Ｉ２とＸ２との積との和が求められその結果が累積器に
格納される。同様にユニットｌ２においては前の結果で
あるＡ２２Ｘ　Ｘ２　＋Ａ２：ＩＸ　Ｘ３の結果が累積
器に格納される。ユニット１。に対しても同様である。

そしてまたシフトし、タイごングＴ３に移る。トレイｌ
にはＸ３、トレイ２にはＸ４、トレイｍにはＸ，■２、
トレイｎにはＸ２が入り、第１図（Ｃ）のＴ３時間にお
ける図に示されるような内積演算が実行される。

第ｌ図（Ｄ）の動作タイξングの時間区域Ｔ３において
は、データ処理ユニットに入るべき入力の記号が示され
ている。このような演算が進み、時間区域Ｔｆｌまで行
うと、第１図（Ｃ）の時間区域Ｔ。

に示されるようにＡＩｆｉ×Ｘｌｌは前の累積器との値
に加えられると、トレイ２１においては、ＴＩで求めた
Ａ＋＋ＸＸ＋　、ＴｚにおけるＡＩ２ＸＸ２　、Ｔ３で
求めたＡｌ３ＸＸ３等の積の和が求まり、Ｔ’ｎ−＋ま
での内積結果が累算器Ｙに格納されているので、その結
果にＡ　ｌ　ｆｌＸ　Ｘ　ｎが加わって行列Ａの１行目
とベクトルＸとの内積が実行される。トレイ２において
は同様に、行列八の２行目の行ベクトルとベクトルＸと
の内積演算がｎタロック周期で行われ、同様にｍ行目の
行ベクトルと、ベクトル見の内積がデータ処理ユニット
１．で実行される。従って、このような時系列で処理を
行うことによって、ｍｘｎの長方行列とｎ次元ベクトル
との乗算がｍ個のデータ処理ユニットを用いてｎに比例
する処理時間で実行可能となる。従って、良好な台数効
果を得ることが可能となる。ここで重要なことは、デー
タを処理するデータ処理ユニットと、データ保持機能を
有するトレイとを分離し、それぞれの個数を長方行列の
行と列に対応させ、それらの次元が異なっていても、時
系列動作が同期的に可能となっている点である。なおｎ
がｍよりも小さい場合でもｍ個のトレイ２を用いること
で処理時間は延びるが、すなわちｍに比例するが、台数
効果的な処理が可能となる。

第２図（Ａ）は第１図の構成の詳細ブロック図であり、
ｍｘｎ（ｎ≧ｍ≧１）の行列Ａと要素数ｎのベクトルＸ
の積ｙ（要素数ｍ）を求めるものである。同図において
、第１図で示したものと同一のものは同一の記号で示し
てあり、１ａはデータ処理ユニッ｝Ｉの処理装置であり
、例えばデジタルシグナルプロセッサで構威され、２ａ
はトレイ２のデータ保持回路であり、例えばラッチ回路
で構成され、２ｂはトレイ２のデータ転送回路であり、
例えばバスドライバで構成され、２Ｃはトレイ２の制御
手段であり、例えば論理回路で構成され、４はデータ処
理ユニット１にデータを供給する手段の一部であると同
時にデータ処理ユニット１を制御する手段の一部である
記憶装置であり、例えばＲＡＭ　（ラングムアクセスメ
モリ）で構成され、５はデータ処理ユニット１とトレイ
２の同期動作を行う手段であり、５ａはクロック発生回
路であり、例えば水晶発振回路で構威され、５ｂはクロ
ック分配回路であり、例えばバッファ回路から構成され
る。

本実施例の動作は本発明の原理図で説明した動作とほぼ
同じである。

第２図（Ｂ）は第２図（Ａ）の本発明のシステムの動作
フローチャートである。第２図（Ａ）に示されるように
本発明ではデータ処理ユニット１とデータ保持機能を有
するトレイ２とを分離し、さらにトレイを隣接間で接続
し、巡回接続することによってシストリックなシステム
を構威している。データ処理ユニットの数をｍ、トレイ
の数をｎとした場合に、ｍＸｎの行列Ａと要素数ｍのへ
クトルＸとの積を求める場合、第４図（Ｂ）のフローチ
ャートに示される動作となる。Ｘ．をトレイ２１にセッ
トする。Ｙｉの値を０にする。すなわちデータ処理ユニ
ットのｉ番目のユニットにおける累積レジスタの値を初
期化する。ｉ番目の処？ユニットを１■は１１ｉからの
入力と、１２１の入力を掛け合わせて、積を累算器Ｙｉ
に足し込む。そしてシフトレジスタ３をシフトする。こ
の内積とシフト動作をｎ回繰り返す。この処理において
長方行列ＡとベクトルＸとの積が形成される。

この場合、トレイ間のデータ転送とデータ処理ユニット
におけるデータ処理とは同時並行処理となる。

第２図（Ｃ）は本発明方式の動作概念図である。

同図においてトレイ２内のデータＸ＋からＸｎはベクト
ル１の要素でその個数はｎであるとする。

またデータ処理ユニットはｍ個あり、その各々に累積器
がＹ．，Ｙ２　，　　・・・，Ｙ．がある。ｍ×ｎの長
方行列の要素はＡ．からＡい、までのｍｘｎ個存在する
。データ処理ユニットのｈには係数行列の第１行目であ
るＡ　１＋、Ａ，２，・・・＋ＡＩｙ＋が同期的に１２
，の入カバスから入力される。またデータ処理ユニット
１２はＡ　２　２、Ａ２３，・・・Ａ２１がシストリッ
ク動作の各タイミングで順番に与えられる。また、デー
タ処理ユニット１１には？■＋　Ａｌ，ｌＩｌ＋。１，
・・・，　Ａ＠　ＩＢ−１が同期的に与えられる。

第２図（Ｄ）は第２図（Ｃ）の動作のタイξングチャー
トである。時間Ｔ１からＴ，，の動作は第１図（Ｃ）の
それぞれの図と第１図（Ｄ）の時間Ｔ＋　，Ｔｚ　，　
　・・・，Ｔｆｌとが対応している。時間タイミングＴ
，においては．第２図（Ｃ）に示されるように、トレイ
２１，２２，　　・・・，２ｎにはＸ＋　，Ｘｚ，Ｘｌ
，ｌ，　　・・＋，Ｘｎがあり、ユニット１１，１２，
　　・・・，ｌｍにはそれぞれ係数行列の要素Ａｌｌ，
Ａ２■，Ａ一が入力されている。

従って、このタイミングにおいてデータ処理ユニット１
１のＡ．とトレイ２ｌのデータＸ＋　との積を求め、デ
ータ処理ユニット１２においてはトレイ２２にあるｘ２
と、メモリから与えられるＡ　２　２との積を求め、同
様に、トレイｍにおいてはＡＩＩＩＩとＸｍの積を求め
る。このタイミングは第２図（Ｄ）のＴ１のタイミング
で行われている。すなわち積和を求める同期クロックに
おいて、バス１１＋にはＸ１があり、バス１２，にはＡ
１１があり、？ス１１２にはＸ２、１２２にはＡ２■、
１１３にはＸ３、１２３にはＡ３ｆｆがあり、１１．に
はＸｆｆｉ、１２■にはＡｌｌｌｆｆｉがのっている。

従って、第２図（Ｃ）のＴ１タイムにおける図に示すよ
うに内積演算が行われる。累積器Ｙの値はこの時は０で
あるから内積結果はＯに掛けた値が加わることになる。

積和演算が終わるとシフト動作に入る。すなわち第２図
（Ｄ）の図に示されるようにＴ１とＴ２との間がシフト
動作であり、トレイの隣接するトレイ間でデータのシフ
トが行われる。すなわち左シフトがこの場合行われる。

すると第２図（Ｃ）のタイミングＴ２に移る。第２図（
Ｄ）の動作タイミングでも同様にＴ２の積和の時間区域
となる。

するとシフトされているからトレイ２１にはＸ２、トレ
イ２２にはＸ３、そしてトレイし２ｍにはＸ　ｎ　＋　
１が格納され、また、係数行列の要素もトレイ２１，２
２，　　・・・，２ｍにはそれぞれＡ　Ｉ　２　，　Ａ
　２　３　，　Ａ　Ｉｌｍ＋１が入力される。これは第
２図（Ｄ）のＴ２のタイミングにおいてもバス上のデー
タがそれぞれ示されている。従って、Ｔ２のタイ果ング
におい？、Ａ１２とＸ２との積をとり、前の累積器Ｙと
の和が求められる。従って、ユニット１１においてはＴ
＋において求まったＡ．とｘ１との積とＴ２において求
められるＡ，２とＸ２との積との和が求められ、その結
果が累積器に格納される。同様にユニットｌｚにおいて
は前の結果であるＡ２■ＸＸ２＋　Ａ　２　３　Ｘ　Ｘ
　３の結果が累積器に格納される。ユニット１１Ｉに対
しても同様である。そしてまたシフトし、タイミングＴ
３に移る。トレイ２１にはｘ３、トレイ２２にはＸ４、
トレイ２ｍにはＸ．２、トレイ２ｎにはＸ２が入り、第
２図（Ｃ）のＴ３時間における図に示されるような内積
演算が実行される。

第２図（Ｄ）の動作タイミングにおいての時間区域Ｔ３
においては、データ処理ユニットに入るべき入力の記号
が示されている。このような演算が進み、時間区域Ｔｎ
まで行うと第２図（Ｃ）の時間区域Ｔ．に示されるよう
にＡ，，ｘＸｎは前の累積器との値に加えられると、ト
レイ１においてはＴ１で求めたＡ，，ｘｘ，　、Ｔｚに
おけるＡ，２×？２、Ｔ３で求めたＡｉｘｘｆｆ等の積
の和が求まり、Ｔ７−１までの内積結果が累積器Ｙに格
納されているので、その結果にＡ１，，×Ｘ，，が加わ
って行列八の１行目とベクトル鬼との内積が実行される
。

トレイ２においては同様に、行列Ａの２行目の行ベクト
ルとベクトルＸとの内積演算がｎクロック周期で行われ
、同様にｍ行目の行ベクトルと、ベクトルＸの内積がデ
ータ処理ユニット１■で実行される。従って、このよう
な時系列で処理を行うことによってｍｘｎの長方行列と
ｎ次元ベクトルとの乗算がｍ個のデータ処理ユニットを
用いてｎに比例する処理時間で実行可能となる。従って
、良好な台数効果を得ることが可能となる。

第３図は、本発明の第２の実施例説明図である．ｍＸｎ
の行列Ａと要素数ｎのベクトルＸとの積に対し、引き続
きｋＸｍの行列６を左から掛ける場合の動作に対するシ
ストリック方式の構成図である。第３図（Ａ）において
第１図で示したものと同一のものは同一の記号で示して
ある。すなわちＩａはデータ処理ユニット１の処理装置
であり、例えばデジタルシグナルプロセッサである。２
ａはトレイ２のデータ保持回路であり、例えばラッチ回
路で構成され、２ｂはトレイ２のデータ転送回路であり
、例えばバスドライバで構成され、２Ｃはトレイ２の制
御手段であり、例えば論理回路で構成されている。４は
データ処理ユニットｌにデータを供給する手段の一部で
あると同時にデータ処理ユニットｌを制御する手段の一
部でもある記憶装置であって、例えばＲＡＭ　（ランダ
ムアクセスメモリ）で構威されている。５はデータ処理
ユニット１とトレイ２の同期動作を行う手段であり、内
部の５ａは、クロック発生回路で、例えば、水晶発振回
路で構成され、５ｂはクロック分配回路であり、例えば
、バッファ回路から構成される。

６はシストリック的に戻るデータとトレイに入力する場
合のデータと外部データとの選択を行う選択回路で、７
はシストリックされるデータを途中からバイパスする選
択回路である。

本実施例は、中間結果Ａｘを求めるところまでは第１の
実施例と全く同一であり、各データ処理ユニット中にそ
の中間結果Ａｘの各要素が求まっている状態から（ａ）中間結果をトレイ２に書き込み、（ｂ）バイパス
の選択回路７をオンさせて、シフトレジスタの長さをｍ
に変更し、（Ｃ）以後は本発明の第１の実施例において、行列Ａを
行列Ｂに、そして、ｎをｍに、ｍをｋにそれぞれ変更す
ればまったく同し動作となる。

第３図（Ｂ）は第２の実施例の動作フローチャート、第
３図（Ｃ）は第２の実施例の動作概要図、第３図（Ｄ）
は第２の実施例の動作タイムチャートである。

まず、ｍＸｎの行列八と要素数ｎのベクトル鬼との積、
そして、ｋＸｍの行列Ｂを左から掛ける場合、第３図（
Ｂ）のフローチャートに示される動作となる。Ｘｉをト
レイ２１にセットする。ＹｉＯ値をＯにする。すなわち
データ処理ユニットのｉ番目のユニットにおける累積レ
ジスタの値を初期化する。ｉ番目の処理ユニットｌｔは
Ｉｌｉからの入力と、ｉ２ｔの入力を掛け合わせて、積
を？積器Ｙｉに足し込む。そしてシフトレジスタ３をシ
フトする。この内積とシフト動作をｎ回繰り返す。この
処理において長方行列Ａとベクトル１との積が形成され
る。

次に、シフトレジスタの長さをｍに変更し、Ｙｔをトレ
イ２Ｉに転送する。そして、Ｚｉ　　（ｉ＝１，・・・
，ｋ）をＯにする。次に８行列を掛けるために、まず、
ｉ番目の処理ユニットｌｉ　とｌｌｔからの入力と１２
１の入力を掛け合わせて、積を累積器Ｚｉに足し込む。

そして、シフトレジスタ３をシフトするこの内積とシフ
ト動作をｋ回繰り返す。

第３図（Ｃ）は以上の動作概念図である。同図において
トレイ２内のデータＸ＋からｘｆｉはベクトルＸの要素
でその個数はまず、ｎであるとする。

またデータ処理ユニットは最初は、ｍ個が有効で、その
各々に累積器がＹｌ　，　Ｙ２　，　　・・・，Ｙ１が
あるとする。まず、ｍｘｎの長方行列八の要素はＡＩＩ
からＡ■までのｍｘｎ個存在する。データ処理ユニット
のｈには係数行列の第１行目である？Ｉｌ＋　Ａ，■，
　　Ｈ　＋　＋，　Ａ＋ｎが同期的に１２１の入力バス
から入力される。またデータ処理ユニット１■はＡ２■
，Ａ２３１　　・・・　Ａ２，がシストリック動作の各
タイミングで順番に与えられる。また、データ処理ユニ
ット１１．ｌにはＡ　ＴｌｌＩＩｌ＋　Ａ＋Ｉ　ｆｆｉ
。，，・・＋　　Ａｌｌ　Ｉｍ−１が同期的に与えられ
る。

第３図（Ｄ）は第３図（Ｃ）の動作のタイミングチャー
トである。時間Ｔ＋からＴｎの動作は第３図（Ｃ）のそ
れぞれの図と第３図（Ｄ）の時間Ｔ＋　，Ｔｚ　，　　
・・・，Ｔｎとが対応している。時間タイミングＴ，に
おいては、第３図（Ｃ）に示されるように、トレイの１
．２，・・・，ｎにはｘ，，Ｘ２　，　　・”ｒ　　Ｘ
ｋ＋　　”・．Ｘｎがあり、ユニット１，２，　　・・
・，ｋ，・・・，ｍにはそれぞれ係数行列の要素ＡＩｌ
＋　Ａ２２＋　　・・・，　Ａｈｈ＋・・・，Ａ１１が
入力されている。従って、このタイミングにおいてデー
タ処理ユニットは、トレイ１において、Ａ　Ｈ　１とト
レイ１のデータＸ＋　との積を求め、データ処理ユニッ
ト２においてはトレイ２にあるＸ２と、メモリから与え
られるＡ　２　２との積を求め、同様に、トレイｋにお
いてはＡｋｋとＸｋの積を求め、トレイｍにおいて、Ａ
−とＸＩＩの積を求める。このタイミングは第３図（Ｄ
）のＴ１のタイミングで行われている。すなわち積和を
求める同期クロックにおいて、バス１１１にはＸ，があ
り、バス１２１にはＡ■があり、バスＩｌｚにはＸ２、
１２２にはＡ２２、１１ｋにはＸｋ，１２ｋにはＡｋｋ
があり、１１．にはＸ．、■２，＠にはＡ．．，かのっ
ている。従って、第３図（Ｃ）のＴ，タイムにおける図
に示すように、内積演算が行われる。累積器Ｙの値はこ
の時はＯであるから内積結果はＯに掛けた値が加わるこ
とになる。積和演算が終わるとシフト動作に入る。すな
わち第３図（Ｄ）の図に示されるように、Ｔ１とＴ２と
の間がシフト動作であり、トレイの隣接するトレイ間で
データのシフトが行われる。すなわち左シフトがこの場
合行われる。すると第３図（Ｃ）のタイ５ングＴ２に移
る。第３図（Ｄ）の動作タイミングでも同様にＴ２の積
和の時間区域となるニするとシフトされているからトレ
イ１にはＸ２、トレ？２にはＸ３、トレイｋにはＸｋ＋
１ｓそしてトレイｍにはＸ■１が格納され、また、係数
行列の要素もトレイ１，２，・・・，ｋ，・・・　ｍに
はそれぞれＡ１２，Ａ２３，・・・Ａｋ　ｋ＋１　＋　
　・・・，Ａ１■１が入力される。これは第３図（Ｄ）
のＴ２のタイミングにおいてもバス上のデータがそれぞ
れ示されている。従ってＴ２のタイミングにおいて、Ａ
Ｉ２とＸ２との積をとり、前の累積器Ｙとの和が求めら
れる。従ってトレイ１においてはＴＩにおいて求まった
Ａ　１　１とＸ，との積とＴ２において求められるＡＨ
とＸ２との積との和が求められその結果が累積器に格納
される。同様にトレイ２においては前の結果であるＡ　
２２　Ｘ　Ｘ　２　＋　Ａ　２３　Ｘ　Ｘ　３の結果が
累積器に格納される。トレイｋやｍに対しても同様であ
る。そしてまたシフトし、タイミングＴ３に移る。トレ
イ１にはＸ３、トレイ２にはＸ４、トレイｋにはＸｈ　
ｋ４２　、トレイｍにはＸｌｌｌ＋ｗ＋２、トレイｎに
はＸ２が入り、第３図（Ｃ）のＴ３時間における図に示
されるような内積演算が実行される。

？のような演算が進み、時間区域Ｔ７まで行うと第３図
（Ｃ）の時間区域Ｔｍに示されるようにＡＩｎ　Ｘ　Ｘ
　，Ｉ１が前の累積器との値に加えられるとトレイ１に
おいてはＴ＋で求めたＡ＋＋ＸＸ＋　，．Ｔｚにおける
ＡＩ２ＸＸ２　、ＴＩで求めたＡ　１　ｋＸ　Ｘ　ｋ等
の積の和が求まり、Ｔ’ｎ−，までの内積結果が累積器
Ｙに格納されているので、その結果にＡ　＋　ｎ　Ｘ　
Ｘ　ｎが加わって行列Ａの１行目とベクトルＸとの内積
が実行される。トレイ２においては同様に行列Ａの２行
目の行ベクトルとベクトルＸとの内積演算がｎクロック
周期で行われ、同様にｋ行目の行ベクトルと、ベクトル
見の内積がデータ処理ユニット１ｋで実行される。

データ処理ユニットの有効数をｋ、トレイの有効数をｍ
とした場合に、ｋＸｍの行列Ｂと要素数ｍのベクトルｙ
との積を求める動作となる。Ｙｉをトレイ２の１１にセ
ットする。Ｚ■の値をＯにする。すなわちデータ処理ユ
ニットのｉ番目のユニノトにおける累積レジスタの値を
初期化する。

ｉ番目の処理ユニットｈは１１＋からの入力と、？２，
の入力を掛け合わせて、積を累積器Ｚｌに足し込む。そ
してシフトレジスタ３をシフトする。

この内積とシフト動作をｍ回繰り返す。この処理におい
て長方行列Ｂとベクトルｙとの積が形威される。

第３図（Ｃ）においてトレイ２内のデータＹ１からＹ．
はベクトルｙの要素でその個数はｍであるとする。また
データ処理ユニットの有効数はｋ個あり、その各々に累
積器がＺ＋，Ｚｚ，　　・・・Ｚｋがある。ｋ×ｍの長
方行列Ｂの要素はＢ目からＢｋｍまでのｋＸｍ個存在す
る。データ処理ユニットのｈには係数行列Ｂの第ｌ行目
であるＢｌｌ、Ｂ１■，・・・＋ＢＩｍが同期的に１２
＋　の入力バスから入力される。またデータ処理ユニッ
ト１２はＢ２■，　　Ｂ２３１　　・・・，　　Ｂｚ■
がシストリック動作の各タイミングで順番に与えられる
。また、データ処理ユニット１ｋにはＢｋｋｔ　Ｂｋ　
ｋ＋Ｉ　＋　　・．．Ｂｋ　ｋ−１が同期的に与えられ
る。

第３図（Ｄ）は第３図（Ｃ）の動作のタイξングチャー
トでも同様の記号が使われている。時間？■１からＴ　
ｎ　＋　ｓ　＋　１の動作は第３図（Ｃ）のそれぞれの
図と第３図（Ｄ）の時間とが対応している。

時間タイミングＴ　ｎ　＋　１においては第３図（Ｃ）
に示されるように、トレイｌ，２，・・・　ｍにはＹ＋
　，Ｙｚ　，　　・・・，Ｙ．が移され、ユニット１２
．・・・．ｋにはそれぞれ係数行列Ｂの要素ＢｌｌＢ２
■，・・・，Ｂｋｋが入力されている。次のタイミング
Ｔ　ｎ　＋　２においてデータ処理ユニットｌにおいて
Ｂｌｌとトレイ１のデータＹ１との積を求め、データ処
理ユニット２においてはトレイ２にあるＹ２と、メモリ
から与えられるＢ２■との積を求め、同様にユニットｋ
においてはＢｋｋとＹｋの積を求める。このタイくング
は第５図（ｄ）のＴ，ｌ。２のタイごングで行われてい
る。すなわち積和を求める同期クロックにおいて、バス
１１．にはＹ＋があり、バス１２＋にはＢｌ＋があり、
バス１１２にはＹ２、１２■にはＢ２■、ｌｌｚにはＹ
３、１２ｉにはＢ。

があり、ｌｌｋにはＹｍ、１２ｉ＝にはＢｋｋがのって
いる。従って、第３図（Ｃ）のＴｎ。２における図に示
すように内積演算が行われる。累積器Ｚの？はこの時は
０であるから内積結果は０に掛けた値が加わることにな
る。積和演算が終わるとシフト動作に入る。すなわち第
３図（Ｄ）の図に示されるようにＴ．２とＴ　ｎ　＋　
３との間がシフト動作であり、トレイの隣接するトレイ
間でデータのシフトが行われる。すなわち左シフトがこ
の場合行われる。すると第３図（Ｃ）のタイくングＴｎ
４２に移る。第３図（Ｄ）の動作タイ旦ングでも同様に
Ｔｎ。３の積和の時間区域となる。すると、シフトされ
ているからトレイｌにはＹ２、トレイ２にはＹ３、そし
てトレイｋにはＹ　ｋ　−　１が格納され、また、係数
行列Ｂの要素もトレイＩ，２，・・・ｋにはそれぞれＢ
Ｉ２，　Ｂ２３，　　・・・ＩＢｋｋ。，が入力される
。これは第３図（Ｄ）のＴ■３のタイミングにおいても
バス上のデータがそれぞれ示されている。従ってＴ　Ｉ
Ｉ＋１３のタイミングにおいてＢｌ２とＹ２との積をと
り、前の累積器Ｚとの和が求められる。従って、ユニッ
ト１においては、Ｔｎ＊２において求まったＢｌｌとＹ
１との積とＴ　ｎ　＋　３において求められるＢ１■と
Ｙ２との積との和が求めら？その結果が累積器Ｚに格納
される。同様にユニット２においては前の結果であるＢ
２２ＸＹ２　＋Ｂ２３ｘＹ３の結果が累積器Ｚに格納さ
れる。トレイｋに対しても同様である。そしてまたシフ
トし、タイミングＴ　ｎ　＋　４に移る。

このような演算が進み、時間区域Ｔ０。ヨ。，まで行う
と第３図（Ｃ）の時間区域Ｔ　ｎ　＊　ｍ　＊　Ｉ　に
示されるようにＢ　ＩｓＸ　Ｙｆｆｉが前の累積器Ｚと
の値に加えられるとユニット１においてはＴ　ｎ　＋　
２で求めたＢｌｌｘｙ，，Ｔ．。２におけるＢＩ２ＸＹ
２　、Ｔｎ。３で求めたＢ，３ＸＹ３等の積の和が求ま
り、Ｔ７■までの内積結果が累積器Ｚに格納されている
ので、その結果に８１■×Ｙ．．が加わって行列Ｂの１
行目とベクトルｙとの内積が実行される。ユニット２に
おいては同様に行列Ｂの２行目の行ベクトルとベクトル
ｙとの内積演算が行われ、同様にｋ行目の行ベクトルと
、ベクトルｙの内積がデータ処理ユニン｝Ｉｈで実行さ
れる。従って、このような時系列で処理を行うことによ
ってｋＸｍの長方行列Ｂに対してｍに比例する処理時間
で実行可能となり、従って良好な台数効果を得ることが
可能となる。

本実施例においてはシフトレジスタ３の長さを変更でき
ること、及び中間結果をトレイ２に書き込み、それを新
たなデータとして処理できることが重要である。シフト
レジスタ３の長さを変更できなければ、データをすべて
巡回するためにｎ単位時間が必要になってしまう。また
中間結果を新たなデータとして処理できることで小規模
なハードウエアでリングシストリックアレイ方式より広
い範囲の処理が実行可能となっている。さらに書き込み
に要する時間が短くて各一定であることも重要である。

第４図は本発明の第３の実施例説明図である。

このシステムではｍＸｎの長方行列八の転置行列ＡＴ、
すなわち（ｎＸｍ）の行列と要素数ｍのベクトルＸとの
積とを計算するものである。同図において第１図に示し
たもの同じものは同一の記号で示してある。

転置行列Ａ丁とベクトルＸとの積を求める場合において
は行列Ａを構成する部分行ベクトルを各データ処理ユニ
ット１に接続された記憶装置４中に格納し、演算途中に
生ずる部分和をトレイ中のデータ保持回路２ａ上に累積
しつつシフトレジスタ３上のデータを循環させる。

第４図（Ａ）は第３の実施例の構戊の詳細ブロック図で
あり、ｎＸｍ　（ｎ≧ｍ≧１）の行列Ａ？と要素数ｍの
ベクトルＸの積ｙ（要素数ｎ）を求めるものである。同
図において、第１図で示したものと同一のものは同一の
記号で示してあり、Ｉａはデータ処理ユニット１の処理
装置であり、例えばデジタルシグナルプロセッサで構威
され、２ａはトレイ２のデータ保持回路であり、例えば
ラッチ回路で構威され、２ｂはトレイ２のデータ転送回
路であり、例えばバスドライバで構成され、２ｃはトレ
イ２の制御手段であり、例えば論理回路で構威され、４
はデータ処理ユニット１にデータを供給する手段の一部
であると同時にデータ処理ユニット１を制御する手段の
一部である記憶装置であり、例えばＲＡＭ　（ラングム
アクセスメモリ）で構威され、５はデータ処理ユニット
１とトレイ２の同期動作を行う手段であり、５ａはクロ
ック発生回路であり、例えば水晶発振回路で構成され、
５ｂはクロック分配回路であり、例えばバッファ回路か
ら構威される。

第４図（Ｂ）は第３の実施例の動作フローチャートであ
る。ＸｓをユニットＩｔ（ｉ＝１，　　・・ｍ）にセッ
トする。モしてＹＬ　（ｉ＝１，・・，ｎ）の値をＯに
する。各ユニットｈ！ｃｔＡｊｉとＸ，を掛け合わせ、
積をＹｉに足し込む動作をｉ＝１，・・・　ｎに対して
行ってシフトする。

この動作をｊ＝１，・・・，ｍに対して繰り返す．転置
行列とベクトルの掛け算は、記憶装置４中に格納された
行列八の各部分行ベクトルをそのままにして計算可能と
なり、これは後述するニューラルネットの学習アルゴリ
ズムの１つであるパックブロバゲションの実行において
は極めて重要となる。またネットワークの量はオーダｎ
ですむこと。

リングネットワークである。またデータ転送時間が処理
時間の影に隠れて転送時間に対するオーバ？ッドはない
ことになる。しかもＳＩＭＤ方弐である。

第４図（Ｃ）は第３の実施例の動作概要図である。ユニ
ット１、には、Ａ，１からＡｌｍまでを順に与えていく
。ユニット１２にはＡ２２からＡ２３，・・，Ａ２１を
与え、ｋ番目のユニットには記憶回路を介して、Ａｋｋ
＋　　Ａｍ　ｋ＋１　＋　　・・・，Ａｋｋ−＋を順に
与える。ｍ番目にはＡ．，Ａ．ｌｌ■１，・・，Ａ，％
１Ｉを順に与えていく。また、トレイ上を循環するもの
はＹＩからＹｎである。

第４図（Ｄ）は第３の実施例の動作タイムチャートであ
る。時間区域Ｔ，からＴｎまでのバス上のデータが示さ
れ、これらは第６図（Ｃ）の時間区域Ｔ１からＴｎまで
の図にそれぞれ対応している。

時間区域Ｔ１においては、Ｙ１からＹｎまではすべてＯ
である。そしてＡ　１　１とＸ１との積がユニット１＋
で形成され、それをＹＩに足し込む。それと同時にＡ２
■とＸ２がＹ２に足し込まれ、Ａｋｋ×ｘｋがｙｋに足
し込み、Ａ　ｍ＊　Ｘ　Ｘ　ｓがＹ１に足し込まれる。

そしてシフト動作に入るとタイミング？２になる。すな
わちＹデータが循環する。第１のユニットではＡ　＋　
ｚ　Ｘ　Ｘ　＋が計算され、これがＹ２に足し込まれる
が、そのＹ２はＴ，において求まったＡ２■Ｘ　Ｘ　２
の値が格納されているのでこれに足し込まれる。そのた
め、Ａ２■ＸＸ２　＋Ａ＋ｚＸＸ＋の結果がＹ２となる
。同様にユニット２においては、前のＹ３の結果にＡ　
２　３　Ｘ　Ｘ　２が足し込まれる。

ｋｌのユニットにおいてはＹｋ。１にＡｋｋ．Ｉ×Ｘｋ
が加えられる。また、ｍ番目のユニットにはＹ．１にＡ
　＠　＠　＋　１　Ｘ　Ｘ　ＩＩが加えられことになる
。

このようにＹデータを循環するとｍ番目の時間区域Ｔｎ
においては、例えば第１のユニット１＋においては、そ
の前までに求まったＹ。にＡ　Ｉｎ　Ｘ　Ｘ　＋が加え
られる。またＹ＋にはＡ　ｚ　ＩＸ　Ｘ　ｚが加えられ
る。これを全体的に眺めてみると、例えば、ベクトル見
の第１の要素Ｘ＋には、Ｔ１においてＡ　ｌｌと積がと
られ、Ａ　１　Ｈ　Ｘ　Ｘ　＋が計算される。それはＹ
１に格納される。また、転置行列Ａ”の第ｌ行目の第２
番目の要素Ａ　２　Ｈ　Ｘ　Ｘ　２は実は最後のクロッ
ク周期Ｔ，ｌにおいて計算されている。これは同じＹ１
に格納されている形になっている。また、転置行列ＡＴ
の第１行目の最後の要素であるＡ　，　１とＸ．との積
は第４図（Ｃ）のクロック周期Ｔ，，．。２のｍ番目の
ユニットで計算されている。すなわちＡ１とＸ．の積が
Ｙ１に足し込むことによって得られる。転置行列Ａ７の
第２行目においても同様であり、Ａ１２とＸ１との積は
Ｔ２のクロックにおいては、ユニット１において計算さ
れている。

また、Ａ　２２　Ｘ　Ｘ　２はクロック周期Ｔ１の第２
番目のユニットにおいて行われている。そしてＹ２が再
び循環して積の実行が行われるのは、時間区域Ｔ　ｎ　
−　ｍ　＊　３である。その時間区域以後は乗算が行わ
れ、シフト動作が行われる。そして時間区域Ｔ。

においてはＹ２に足し込まれる値は第３番目のユニット
であり、Ｙ２に足し込まれる値はＡ３２ＸＸ：１である
。従って、Ｔ．において転置行列八〇の第２行目とベク
トルＸの内積が計算される。一般に第ｋ番目のユニット
に関してはｋ番目のトレイからのデータ線が１１ｋであ
るから第４図（Ｄ）に示されるように、Ｉｌｂに示すと
ころを追っていけばよいことになる。すなわち、Ｔ１に
おいてはＹｈ　＋ＡｈｋＸＸｈ　，Ｔ２　におイテはＹ
　ｋ＋　＋　＋　Ａ　ｋｋ＋　＋ＸＸｋ，Ｔ３　におイ
テはＹｋ＋ｚ　＋Ａｈ　ｋ＋２　Ｘｉ＋が計算され、Ｔ
ｎ−１においてはＹｗ−２＋Ａｈ　ｈ−ｚ　Ｘｈが計算
され、時間区域ＴｎにおいてはＹｋ−１　＋　Ａｋｋ−
Ｉ　Ｘｋが計算されることになる。このことにより転置
行列Ａ７とｍ次元のベクトル凡の積が実行される。すな
わち、転置行列ＡＴとベクトルＸとの積を求める場合に
おいては、行列Ａを構戒する部分行ベクトルを各データ
処理ユニッ｝１に接続された記憶装置４中に格納し、演
算途中に生ずる部分和をトレイ２中のデータ保持回路上
に累積しつつシフトレジスタ上を循環させている。この
ような方法により行列Ａとベクトルυとの積Ｘに継続し
て行列八の転置ＡＴとベクトルＸの積を求める場合は、
行列Ａとベクトルυとの積を求める時に用いた各データ
処理ユニット１に接続された記憶装置４中に格納された
行列八の各部分行ベクトルをそのまま用いて、すなわち
転置行列Ａ７の部分行列を各データ処理ユニット１に転
送することなしに処理をおこなしうことかでき、従って
転送に要する時間が節約でき、さらに処理時間が短縮で
きることになる。

第４図（Ｅ）は第４図（Ｂ）の繰り返し部分を詳細に分
解して示したフローチャートである。

第５図は本発明の第４の実施例図である。本実施例は本
発明を利用したニューロコンピュータの構戒図である。

同図において第４図に示したものと同一のものは同一の
記号で示してある。同図においてＩａはデータ処理ユニ
ット１の処理装置であり、例えばデジタルシグナルプロ
セッサで構成される．２ａはトレイ２のデータ保持回路
であり、例えばラッチ回路で構威される。２ｂはトレイ
２のデータ転送回路であり、例えばバスドライバで構威
される。２ｃはトレイ２の制御手段であり、例えば論理
回路で構威される。４はデータ処理ユニット１にデータ
を供給する手段の一部であると同時にデータ処理ユニッ
ト１を制御する手段の一部でもある記憶装置である。例
えばＲＡＭで構威される。５ａはデータ処理ユニット１
とトレイ２の同期動作を行う手段であり、５ａはクロッ
ク発生回路、例えば水晶発振回路で構威される。５ｂは
クロック分配回路であり、例えばバンファ回路で構威さ
れる。これに加えて１０１はシグモイド関数と称される
単調非減少連続関数及びその微分係数を計算するシグモ
イド関数ユニットであり、例えば多項式による近似式に
より実現される。１０３は学習時の終了を判定する手段
であり、例えば通信手段により前記各処理ユニット１と
接続されたホストコンピュータと、各処理ユニットｌが
計算した出力誤差を前記通信手段により前記ホストコン
ピュータに通知する手段と、一般に複数個の前記出力誤
差値を基に学習の終了を判定し、ニューロコンピュータ
の停止を行う手段とから構威される。なお１０２はニュ
ーロコンピュータの全体である。

第５図（Ｂ）は本発明のニューロコンピュータにおいて
処理の計算における基本素子であるニューロンモデルの
実施例図である。ニューロンモデルは入力Ｘ＋　，Ｘｚ
　，　　・・・，Ｘｎの各々にシナブス結合としての重
み時Ｗ，，Ｗ２，　　・・・，ｗ７をそれぞれ掛け、そ
の総和を求め、これを内部値Ｕとする。このＵに非線形
関数ｆを施し、出力Ｙとする。ここで非線形関数ｆは図
に示すようなＳ型のシグモイド関数が一般に使われる。

第５１１ｉ４（Ｃ）は第５図（Ｄ）のニューロンモデル
の複数を用いて入力層、中間層、出力層の３層構造でニ
ューロコンピュータを形或する階層型のニューラルネッ
トワークの概念図である。第１層の入力層は入力信号Ｉ
ｔ，Ｉｚ，　　・・・，　　ＩＮ（＋＞を入力する。第
２層の中間層は各々のユニット、すなわち、各々のニュ
ーロンモデルが第ｌＮのすべてのニューロンモデルに接
続され、その結合技がシナブス結合であって、重み値Ｗ
ｔ，が与えられている。第３Ｎの出力層は同様に中間層
の各ニューロンモデルの全てに各々のユニットが接続さ
れている。その出力は外部に出される。このニューラル
ネットにおいては学習時において入力層に与えられる入
力パターンの信号に対応する教師信号と出力層との出力
信号との誤差を求め、この差が非常に小さくなるように
中間層と出力層との間の重み及び第ｌ層と第２層の間の
重みを定めるようにする。このアルゴリズムがパックプ
ロパゲーション法則、すなわち逆伝播学習則と呼ばれる
ものである。逆伝播学習則によって定められた重み値を
保存し、例えばパターン認識等の連想処理を行う場合に
は、第１層の入力にて認識するべきパターンからややず
れた不完全なパターンを与えると、出力層からそのパタ
ーンに対応した出力信号が出力され、その信号は学習時
に与えたそのパターンに対応する教師信号と非常に似た
ような信号が出てくる。教師信号との差が非常に小さけ
れば、その不完全なパターンを認識したことになる。

第５図（Ａ）のニューロコンピュータ１１０２を用いて
このニューラルネットワークの動作を工学的に実現でき
る。本実施例では第５図（Ｃ）に示すような３層のネッ
トワーク構成を用いるが、以下の説明のようにこの層数
は本実施例の動作にはなんら本質的な影響を受けない。

同図においてＮ（１）は第１層のニューロン数である。

また通常、第１層、すなわち入力層の各ニューロンの出
力は入力と等しいものとするので、実質的な処理の必要
はない。通常の動作、すなわちパターン認識を行う場合
の前向きの処理を第５図（Ｄ）に示す。

第５図（Ｄ）は第４の実施例の前向き処理フローチャー
トである。前向き処理では第５図（Ｃ）に示すネットワ
ークにおいて、各層間の結合技上の重み係数は定まって
いるものとする。第５図（Ｃ）のネットワークを第５図
（Ａ）のニューロコンピュータで実現する場合、次の処
理が行われる。前向き動作の基本動作は第５図（Ｂ）の
ニューロンモデルにおいて、入力に重みを掛けその総和
をとったものをＵとし、そのＵに非線形関数を施す処理
となる。これを各層において行うことになる。そのため
、まず、ステップ７０において入力データ、すなわち■
１からＩＮ（＋１までのデータをシフトレジスタ上にセ
ットする。そして層の数をＬで表すと、以下のすべての
処理を層分繰り返す。例えばＬが３であった場合には、
３回繰り返す。繰り返される層はｌ層分の前向き処理で
ある。

そして、処理が終了する。その１層分の前向き処理が下
側に示されている。今、中間層に注目すると、ｌは２で
ある。ステップ７２において、シフトレジスタの長さを
Ｎ（４２−１）にする。すなわち、ｆ＝２であるからＮ
（１）、すなわち入力層の数にする。ステップ７３は中
間層におけるニューロンモデルの処理である。インデ・
ンクスのｊは１から入力層のユニット数Ｎ（１）まで変
化させる。Ｗｉｊ（Ｉ！．）は入力層と中間層の間の結
合における重み係数である。すなわちｆ＝２である。Ｙ
，（Ｉ！．−１）は入力層のｊ番目のユニ・ントからの
出力である。ｉは中間層のｉ番目のユニ・冫トを意味す
る。ｉ番目のユニットの状態Ｕｉ（２）は入力層の出力
Ｙ，、すなわちｊ番目のＹに重みＷｌｊをかけてその総
和より計算される。ステップ７４に移って、その中間層
のｉ番目の状態Ｕｉ（２）は非線形関数、すなわちシグ
モイド関数に入力され、その出力がＹ１（２）となる。

すなわちステ・ノプ７３の内積計算は第５図（Ａ）のユ
ニ・冫ト内で行うが、このシグモイド関数の計算は、１
０１によって行われる。ステップ７５で例えば、中間層
のｉ番目のユニットの出力Ｙｉ（２）はトレイのｉ番目
に出力される。そして処理が終わる。以上の前向き処理
を入力層、中間層、出力層に対して行うことになる。こ
のようにして各層の前向き処理が終了する。すなわちニ
ューロン単体のシミュレーションに必要な処理は第５図
（Ｂ）の式で示される演算で、その内容は重みと入力ベ
クトルとの内積演算及びその演算結果に対するシグモイ
ド関数値の計算であり、その関数値の計算はシグモイド
関数ユニット１０ｌにより実現される。従って、ネット
ワーク中のある１層の処理は第５図（Ｃ）に示すように
、そのニューロン単体の演算をその層内の全ニューロン
分行うことである。従って内積演算は各ニューロンｉ番
目とするの結合係数ベクトルを並べた行列Ｗ　（　１　
）　＝　（ＷＩＪ　（ｆｆｉ　）　〕と、その層への入
力を並べたベクトルＸ　（４２）　一［ＸＪ（１）］の
積のベクトルＵ　（１）　＝　Ｃｕｔ　（ｊ２）　）となり、これは
本発明の第３の実施例で説明した方法で実行可能となる
。またシグモイド関数演算は各シグモイド関数ユニット
１０１が積ベクトルの各要素、Ｕｉ（ｊ２）を入力し、
対応する関数値Ｙｉ　（ｆ）＝ｆ　（Ｕｔ　（１））を
出力することによってなされる。継続する層すなわち、
第（ｆ＋１）層が存在する場合は、その各関数値出力ｙ
ｔ（ｚ）を各トレイに書き込み、第（ｆ＋１）層の処理
においてはこれを入力として以上の過程を繰り返す．次
に第５図（Ａ）のニューロコンピュータを用いて学習動
作、すなわちバックプロパゲーシゴンアルゴリズムを実
行する場合について説明する。

第５図（Ｅ）は第４の実施例の学習処理フローチャート
である。ニューロコンピュータにおける学習とはネット
ワークが所望の入出力関係を満たすようになるまで各ニ
ューロンの重みを修正することである。学習方法は所望
の入力信号ベクトルと教師信号ベクトルとの対を複数個
、すなわち教師信号の集合分だけ用意し、その中から１
対を選び、その入力信号■，を学習対象ネットワークに
入力し、入力に対するネットワークの出力と正しい出力
信号、すなわちその入力信号に対応した教師信号ＯＰと
を比較する。この差を誤差と称するが、その誤差、及び
この時の入出力信号の値を基に、各ニューロンの重みを
修正することになる。

この過程を教師信号の集合中の全要素にわたり学習が収
束するまで繰り返すものである。すなわち、入力パター
ンの数の分だけ、すべて重み値として分布的に記憶する
ことになる。この後ろ向き処理と呼ばれる重みの修正過
程において出力層で得られた誤差を途中で変形しながら
入力層に向け通常の信号の流れる向きとは逆方向に伝播
させる。これがパックブロバゲーションのアルゴリズム
である。

まず前記誤差Ｄを以下のように再帰的に定義する。Ｄｉ
（４２）は第ｌＮのｉ番目のニューロンから逆向きに伝
播される誤差、Ｌはネットワークの層数である。

Ｄｉ　　（Ｌ）＝ｆ’　　（Ｕｉ　　（Ｌ））　　（Ｙ
ｉ　　（Ｌ）−Ｏｐｉ）　　　　　　　（最終層）（１
）Ｄｉ　　（１−１）＝ｆ’　　（Ｕｉ　　（ｊ２−１
））ΣＪ＝ｌ・Ｎ（見＋Ｗｊ　　ｉ　　Ｃｌ＞Ｄｊ　　
（Ａ）（１．＝２，　　・　・　・　　Ｌ）　　　　（
２）（ｉ−１，　　・　・　・，Ｎ　　（４２））ここ
でｆ’　　（Ｕ）はシグモイド関数ｆ　（Ｘ）のＸに対
する微係数ｆ’　　（Ｘ）のＸ＝Ｕの時の値であり、例
えばｆ　（Ｘ）　＝ｔａｎｈＸ　　　　　　　　　　　　（
３）ならば、ｆ　’　　（Ｘ）　＝　ｄ　（ｔａｎｈＸ）　／ｄ　Ｘ
＝　１　−ｔａｎｈ”　Ｘ＝１−ｆ２　（Ｘ）　　　　
　　　　　（４）であるから、ｆ’　　（Ｕｉ）＝１−ｆ２　（Ｕｉ）＝ｌ−Ｙｉ２（
５）である。

このＤｉとＹｉを基に、以下にように重みを更新する。

基本的には次の式を用いる。ここでηは重みを更新する
刻み巾であり、小さければ学習安定に収束する収束が遅
くなり、大きすぎると収束ひなくなるという性質を持っ
たパラメタである。

Ｗｉ　ｊ　（ｆ）　（ｔ″１）　　＝Ｗ　ｉｊ（　１　
）　（ｔ）十ΔＷｉｊ（４２）ゞｔ　）　　　　　　　
（６）ΔＷｉｊ（ｊ２）’いーηＤｉ　　（ｌ）Ｙｊ（
ｊ２−１）　　　　　　（ｉ！．＝２，　　・・・，Ｌ
）（７）しかし、次に式も良く用いられている。これは
上式のΔＷ　ｉ　ｊ　（ｆｆｉ）　”　を１次にデジタ
ルローパスフィルタに通したことになっており、αはそ
の時定数を決めるバラメタである。

ΔＷｉｊ　　（」ｅ）’　ｈ貫｝　＝ηＤｉ　　（ｅ）
　　Ｙｊ（ｆ−１）十αΔＷｉ　ｊ　（ｆ）　”　　　
　　　（８）この後ろ向き処理の過程において必要とな
る演算はベクトル間の演算、或いは行列とベクトルとの
演算であり、特にその中心となるのは各層のニューロン
の重みを要素とする重み行列Ｗの転置行列Ｗ１と前記誤
差ベクトルＤ，（ｆ）との乗算である。この誤差ベクト
ルはＩＮ内に複数個のニューロンがある一般の場合、誤
差はベクトルとなる。

第５図（Ｅ）の左のフローチャートを説明する。

１層分の前向きの処理と後向きの処理が行われる。まず
、入力データＩｐをシフトレジスタ上にセントし、１層
分の前向き処理をシステムで行う。

これは各層で行われるため、この前向き処理を層の数分
だけ繰り返す。すると出力データＯｐが出力されるので
、これをシフトレジスタ上にセットする。そして、ステ
ップ７９から以下を出力層のユニット分だけ並列に実行
する。すなわち誤差Ｄｔ（Ｌ）＝Ｙｒ　（Ｌ）　　Ｏｐ
　（ｉ）を計算し、この誤差をトレイのｉ番目にセット
する。そして出力層から入力層に向かって各層毎に後向
き処理を行う．この後向き処理は第５図（Ｅ）の右上側
に示されている。第Ｌ番目の層に関して、この層の数は
Ｎ（Ｉ！．）であるからシフトレジスタ長をＮ　（／！
）にする。そして以下の動作をこの前の層のユニット数
だけ並列に実行する。すなわち、上記（２）式を、ステ
ップ８３において実行する。ここで重要なのは重みはＷ
Ｊｔ（ｊ２）となっており、これは重み行列の転置行列
Ｗ７の要素になっている。そしてステップ８４において
、上記（６）．　（７）あるいは（８）式を計算し、重
みの更新を行う。ステップ８５で、求まった誤差Ｄｉ（
ｎ　　１）をトレイのｉ番目に出力する。これは次の誤
差を計算するため、ステップ８４の動作に必要となる。

第５図（Ａ）の右下は第５図（Ｅ）の左のフローチャー
ト、すなわち前向き処理と後向き処理の連続処理を学習
が習得するまで繰り返すことを意味するフローチャート
である。また、このような処理において重みの更新と学
習を安定にするために重みの修正量の平滑化等の処理が
あるが、これらはいずれも行列のスカラ倍及び行列同士
の加減算からなり、やはり、本ニューロコンピュータに
おいて行える。またシグモイド関数ユニット１０１はハ
ードウエアで実現するものとしているが、ソフトウエア
で実現してもよい。また、学習の終了の反転千段１０３
はホストコンピュータ上のソフトウエアで実現してもよ
い。

以上のニューロコンピュータをさらに第５図（Ｆ）を用
いて説明する。第５図（Ｆ）はエラーバックプロバゲー
ションの学習を行う時の処理フロー図である。ここでは
、ベクトル表示を用いている。同図においてｘ　（ｆ）
は第ｌ層のニューロンベクトル、Ｗは同じく結合係数、
すなわち重み行列である。ｆはシグモイド関数、ｅ　（
ｆ）は第ｆ！．層の出力側から逆向きに伝播してきた誤
差ベクトル、ΔＷは重みの修正量である。入力信号が与
えられると、まず、３層である場合には、入力層はない
ものとすれば、隠れ層の前向き処理を行う，それがｕ＝
’Ｗｘ（ｆｆｉ）である。このＵに非線形関数を施せば
、次の層、すなわち（ｆｆｉ＋１）層の入力となる。こ
れは出力層の入力であるから、その前向き処理を行う。

そして教師信号を入力し、後向き処理になる。出力層に
おいては教師信号と出力信号の誤差ｅをｒの微分を掛け
て後向き処理にする。また中間層等の間の誤差は逆伝播
してくる誤差信号に微分をかけた変数に重み行列の転置
行列Ｗ７をかけて求められる。誤差ベクトルの各要素に
シグモイドの微分をかけた値に前のｗ７の要素を掛けて
これよりΔＷを求め、Ｗを更新すればよい。このように
して、出力層の後向き処理、及び隠れ層の後向き処理が
行われる。前向き処理で行う演算は、重み行列Ｗと入力
ベクトル＾との積、この結果ベクトルの各要素のシグモ
イド関数の値の計算である。この計算は各ニューロンで
並列に計算できる。また後向き処理でも仕事は大きく分
けて２あり、１つ目は教師信号と出力信号との誤差を順
次変形しながら、後から前へ逆向きに伝播すること、ま
た２つ目はその誤差を基に重みを修正することである。

この逆向きの計算では重み行列Ｗの転置行列ｗｒによる
乗算が必要になる。転置行列Ｗ７とベクトルの積は前の
実施例で述べている。すなわちハ′ツクプロパゲーシゴ
ンの学習を実現する再の重要な点は重み行列の転置行列
ＷＴとベクトル乗算の効率な実現方法である。

さらに第５図（Ｇ）と（Ｈ）を用いて前向き積和計算、
及び後向き積和計算の実施例を説明する。

前向き積和演算は行列×ベクトルの計算で、特に行列は
重み行列Ｗ，である。本発明で、行列ベクトル積り＝％
’ｘを計算する場合、例えば、次の式？　・　・（９）に対して、重み行列の行とベクトル兄との積が同時に行
われる。この処理方式を第７図（のを用いて説明する。

重み行列Ｗは長方ｊテ列である。例えば、３×４の行列
である。ベクトルＸの各要素はトレイ上に入力される。

ＴＩの時刻において、ＸＩとＷ．、Ｘ２とＷ２■、Ｘ３
とＷ３３が各々のユニットで計算される。Ｔ２に移ると
ベクトルＸの各要素は上に巡回シフトする。Ｔ２におい
てＷ＋２とＸ２との積がＵ１に足される。したがってＵ
１はこの時刻にはχ１　ＸＷＩＩ　＋Ｘ２　ＸＷＩ２と
なる。また、第２のユニットではＷ２３とＸ３が掛けら
れ、第３番目のユニットではＷ３４ｘＸ，が掛けられる
。Ｔ３において、Ｗ＋３とｘ３が掛けられＵ１に足し込
まれる。Ｗ２ＪとＸ４が掛けられ、Ｕ２に加えられる。

Ｗ３１とＸ，が掛けられＵヨに足し込まれる。この時Ｘ
２は演算の対象からはずされている。Ｔ４におイテ、Ｗ
．とＸ．　、Ｗ２，とＸ１、Ｗ３２とｘ２がそれぞれ同
時に掛けられＵ＋　、Ｕ２　、Ｕ３にそれぞれ足し込ま
れる。この場合、Ｘ３は演算の対象外となっている。こ
の演算の対象外を考慮することによって長方行列とベク
トルとの積が実行される。

Ｗの部分ベクトルＷｉ０はＰＥ−ｔのローカルメモリ上
にＷｉｉが先頭になるようにスキューされて格納されて
いる。Ｘｉはトレイにのってリング上を反時計回りに一
回転する。ＵｉはＰＥ−，内部のレジスタ上に累積され
る。

左端の状態でＵｉ＝００状態からスタートする．ＰＥ−
＋は自分の目の前にあるＸｊとＷｉｊと掛け合わせ、そ
の結果をＵｉに加算する。同時にＸｊは隣のトレイに隣
接される（リング上を反時計回りに循環する）。これを
４回繰り返すと全てのＵｉが同時に求まる。

Ｗｉｉがスキューされていること、Ｘｉが全てトレイ中
にある状態からスタートすること、Ｕｉが全て同時に求
まる。

第５図（Ｈ）は後向き積和計算の説明である。

これは転置行列と行ベクトル積、ｅ＝Ｗ”ｙを計算する
時のタイミング図である。この場合、ベクトルＶは前の
層の誤差ベクトルに非線形関数の微分を掛けた要素から
なるベクトルである。Ｃは求めらようとする次の層での
逆伝播用の誤差ベクトルである。本発明で重要なことは
、転置行列ｗＴであっても、前向き積和計算において利
用されるメモリ上のＷと同し配置にしたままで演算でき
ることである。

すなわち本発明では求めるべきＣのベクトルの巡回シフ
トによってなされる。演算するべき転置行列ＷＴとベク
トルＶとの式は００）式に従う。

上の式において示されるように、行列Ｗは転置？れしか
も、長方行列である。ｅ１はＷ１１Ｘｖ，＋　Ｗ２１　
Ｘ　Ｖ　２　＋　Ｗ３＋　Ｘ　Ｖ　３である。この演算
を行うために、第５図（Ｈ）において、時間区域Ｔ，に
おいては第１のユニット（ＤＳＰ）において、Ｗ１１と
Ｖｌの積が演算されている。これがＯであるｅ，に差し
込まれる。そして、巡回シフトするとＴ２に移るが、ｅ
１はＴ２時刻においては演算の対象になっていない。モ
してＴ３になると、３番目のユニットにおいて演算対象
となっている。

すなわちＷ３ｌにｖ３を掛けた値が前の値に足し込まれ
るため、Ｗ，，Ｘｖ，に足し込まれる。そのため時間区
域Ｔ３においては、ｅ．の結果はＷ．×Ｖ　＋　＋　Ｗ
　３　１　Ｘ　ｖ　３　となる。モしてＴ４に移ると、
ｅ，は巡回シフトとして、第２番目のユニットで演算対
象となる。ここで、ｅ＋にはＷ２，ＸＶ２が加えられる
ため、００式の行列の第１行目とベクトルＶとの内積演
算が実行され、その演算結果がｅ．に格納されることに
なる。

同様に第２行目とベクトルとの積はｅ２を追えばよい。

Ｔ，時刻にはＷ２■ＸＶｚ　、Ｔｚにはｗ１■ＸＶＩ、
Ｔ３では、ｅ２が遊びになり、Ｔａ　テＷ３ｚｘｖ３の
積が求まれ、各々の積の和として計算される。ＷＴの第
３行目とベクトル■との積はｅ３を追えばよい。ＴＩに
おいてはＷ３，，Ｘｖ３　、Ｔ２においてはそれにＷ２
３Ｘｖ２が足し込まれ、Ｔ３において、更にＷ，３Ｘｖ
，が足し込まれる。Ｔ４はｅ４は遊びとなる。ＷＴの第
４行目とベクトルＶとの積はｅ４を追えばよい。Ｔ１時
刻ではｅ４は遊びである。Ｔ２ではＷ３４×ｖ３、Ｔ３
ではＷ２４ＸＶ２が足し込まれ、Ｔ４において更にＷ目
Ｘｖ，が足し込まれて、計算ができる。このように本発
明では、Ｗの部分ベクトルＷｉ“は前と同様ＰＥヨのロ
ーカル目上にＷｉｔが先頭になるようにスキューされて
格納されている。前と入れ替わるのはｅｉとＶｉである
。つまり、ｅｉはトレイ上を反時計回りに循環しながら
累積され、ＶｉはＰＥ−＋内部に常駐する。

左端の状態でｅｊ＝ｏからスタートする。ＰＥ−．はＶ
ｉとＷｉｊとを掛け合わせ、その結果を自分の目の前に
あるｅｊに加え込む。同時にこの更新されたｅｊは隣の
トレイに転送される（リング上を反時計回りに循環する
）。これを４回繰り返すと全てのｅｊが同時に求まる。

このように本発明のニューロコンピュータは層が何層で
あっても実現でき、学習アルゴリズムの自由度が高いと
いう柔軟性を持つばかりでなく、ＤＳＰの速度そのまま
を利用でき、しかもそのＤＳＰの演算においてオーバヘ
ンドがなく、高速性があり、しかもＤＳＰによるＳＩＭ
Ｄが実行できる。

第６図は本発明の第５の実施例説明図であり、アナログ
データによる行列の積を求めるものである。図中、第２
図で示したものと同一のものは同一の記号で示してあり
、１ｄはデータ処理ユニット１の処理装置であり、例え
ばアナログ乗算器１ｅと積分器１ｆで構威され、２ｄは
トレイ２のデータ保持回路であり、例えばサンプル／ホ
ールド回路２ｆで構威され、２ｅはトレイ２のデータ転
送回路であり、例えばアナログスイッチ２ｇとバッファ
アンプ２ｈで構成され、６はトレイ２にデ一夕を設定す
る手段であり、例えばアナログスイッチ６ｄで構成され
る。

本実施例の動作は本発明の原理図（第１図）で説明した
動作と同じである。

第７図は本発明の第６の実施例説明図であり、帯行列と
ベクトルとの乗算を示している。図中、第２図で示した
ものと同一のものは同一の記号で示してある。

本実施例の動作を第７図（Ｂ）を参照しつつ説明する。

本発明では、ｍＸｎ　（ｎ≧ｍ≧ｌ）で巾ｋの帯行列Ａ
と要素数ｎのベクトルスとの乗算結果（要素数ｍのベク
トルｙ）を求める場合において、第７図（Ａ）の如く、
各々２つの入力を持ち乗算機能と概乗算結果の累積機能
を有するｍ個のデータ処理ユニット１と、ｎ個のトレイ
２と、前記各データ処理ユニットｌにせとぞくされた入
力データ供給手段とから成る構戒に於いて、第７図（Ｂ
）に示す手順で、第７図（Ｃ）及び第７図（Ｄ）のよう
な時系列で処理をするようにしている。従って、巾ｋの
帯行列とベクトルとの乗算がｋに比例する処理時間で実
行できる。

本実施例に於いて重要な事は、ベクトル見を１回転させ
ない事、及びベクトルＸをシフトレジスタ３上にセット
する際に、第１の実施例等と異なり、頂度帯が始まる位
置にずらしておくことである。すなわち、帯の開始位置
から処理を開始する場合は、ある方向にずらしながら積
和演算を行えばｋに比例する時間で処理が終了する。し
かし、図示しないが何らかの事情で帯の途中に配置した
状態から処理を開始する場合は、始めにベクトル八を一
端までずらせばよいことは明らかであり、その場合、シ
フトレジスタ３が双方向にシフト可能であることが意味
を持つのである。

即ち、例えば帯の中央から処理を開始する場合は、初め
に右にｋ／２（小数点以下切り捨て）だけずらし、以後
逆方向（この場合左）にずらしながら積和演算を行えば
、合計３７２ｋに比例する時間で処理が終了する。

もし、シフトレジスタ３が双方向にシフト可能でなけれ
ば、ヘクトル鬼を１回転させねばならないため、帯行列
の巾ｋではなくその大きさｎに比例する時間が必要にな
る。大規模な帯行列の於いては、この差は非常に大きく
、帯行列とベクトルとの乗算が帯行列の巾ｋに比例する
処理時間で実行可能となることは本発明の方式の利点で
ある。

第８図はトレイの構造を具体的に示す。

トレイは基本的には単なる１語のラッチであるが、ＤＳ
Ｐからのアクセスと、隣のトレイへの転送を１サイクル
で実行できる（ポストシフト）。

機能の切り替えは、アドレス線の下位ビットにより、デ
ータのアクセスと同時に行い、速度を向上させている。

一つのトレイはゲートアレイで約１　２　０　０　Ｂａ
ｓｉｃセルの規模であり、１チップに２〜４個入れるこ
とも可能である。

また、トレイ中にワークレジスタを数ワード内蔵するこ
とも可能である。

第９図は本発明の実施例を用いて、実際に構威されたニ
ューロコンピュータのブロック図である。

Ｓａｎｄｙの基本構成はＤＳＰの一次元トーラス（リン
グ）結合によるＳ　ＩＭＤ型マルチプロセッサである。

特徴的なのは、結合トボロジーや動作は１次元シストリ
ックアレイと類似しているにも関わらず、ＳＩＭＤとし
て動作する事である。

各ＤＳＰと双方向バスで接続されている“トレイ゛は、
転送ｍ能を有するラッチであり、相互にリング状に接続
され、全体でサイタリンクシフトレジスタを構成してい
る。以後このシフトレジスタをリングと呼ぶ。

各ＤＳＰは２Ｋ語の内部メモリと６４語の外付けＲＡＭ
を持ち、内部メモリは１サイクルで、外部メモリは１〜
２サイクルでアクセスできる。

外付けＲＡＭは、プログラムやデータの初期ロード用に
、共通バスでホストコンピュータのＶＭＥ　Ｗ　ハスニ
接続される。外部入力もパンファメモリを介してホスト
コンピュータに接続されている。

第ｌＯ図は本発明の実施例における学習時の時間空間チ
ャートであり、縦方向はプロセッサの数を示し、横方向
は時間を示す。■は入力層のプロセッサの数、Ｈは隠れ
層のプロセッサの数、■はプロセッサの積和演算の時間
に対応する。

入力信号が隠れ層の前向き積和に要する時間は、入力層
のプロセッサの数■と１つのプロセッサの積和に対応す
る時間■との積に比例する。次に、シグモイドの計算が
行われる。出力層においても出力層の前向き積和（２Ｈ
１）とシグモイドが行われる。ここで、出力層のプロセ
ッサの数が隠れ層のプロセッサの数より少ないので、リ
ングの大きさ自体も小さくなる。次ぎに教師信号入力と
受信し、誤差計算を行い、誤差のバック・プロパゲーシ
ョンを行う。なお、この誤差計算は出力層のシグモイド
における誤差計算も服務出力層の後向き積和を行い、出
力層の重み更新を勾配ベクトル計算とローバスフィルタ
を介して行う。そして、隠れ層のシグモイドによる誤差
計算を経て、隠れ層においては、後向き積和は行わず隠
れ層の重み更新のみを行う。

〔発明の効果〕

以上説明した様に、本発明によれば従来の方法より広い
範囲の処理に対して、データ処理に伴うデータ転送によ
るオーバヘッド無しにデータを並列に処理出来る効果を
奏し、データ処理ユニットの台数に比例した高速なデー
タ処理が実現出来ることにより、行列ベクトル積あるい
はその転置行列ベクトル積を求めるデータ処理装置の性
能向上に寄与するところが大きい。

【図面の簡単な説明】

第１図（Ａ）は、本発明の原理構成図、第１図（Ｂ）は
、本発明の動作フローチャート、第１図（Ｃ）は、本発
明の動作概要図、第１図（Ｄ）は、本発明の動作タイム
チャート、第２図（Ａ）は、第１の実施例の構成図、第
２図（Ｂ）は、第１の実施例の動作フローチャート、第２図（Ｃ）は、第１の実施例の動作概要図、第２図（
Ｄ）は、第１の実施例の動作タイムヂャート、第３図（Ａ）は、第２の実施例の構戒図、第３図（Ｂ）
は、第２の実施例の動作フローチャート、第３図（Ｃ）は、第２の実施例の動作概要図、第３図（
Ｄ）は、第２の実施例の動作タイムチャート、第４図（Ａ）は、第３の実施例の構成図、第４図（Ｂ）
は、第３の実施例の動作フローチャート、第４図（Ｃ）は、第３の実施例の動作概要図、第４図（
Ｄ）は、第３の実施例の動作タイムチャート、第４図（Ｅ）は、第３の実施例の詳細動作フローチャー
ト、第５図（Ａ）は、第４の実施例の構成図、第５図（Ｂ）
は、第４の実施例のニューロンモデル、第５図（Ｃ）は、第４の実隼例のネソトワーク、第５図
（Ｄ）は、第４の実施例の前向き処理フローチャート、第５図（Ｅ）は、第４の実施例の学習処理フローチャー
ト、第５図（Ｆ）は、Ｓａｎｄｙでエラーパックプロパゲー
ション学習を行うときの処理フローチャート、第５図（
Ｇ）は、Ｓａｎｄｙで行列ベクトル積り＝Ｗｘを計算す
るときのタイムチャート、第５図（Ｈ）は、転置行列で
の行列ベクトル積ｅ＝Ｗ”ｖを計算するときのタイムチ
ャート、第６図（Ａ）は、第５の実施例の構戒図、第６
図（Ｂ）は、第５の実施例の動作フローチャート、第６図（Ｃ）は、第５の実施例の動作概要図、第６図（
Ｄ）は、第５の実施例の動作タイムチャート、第７図（Ａ）は、第６の実施例の構戒図、第７図（Ｂ）
は、第６の実施例の動作フローチャート、第７図（Ｃ）は、第６の実施例の動作概要図、第７図（
Ｄ）は、第６の実施例の動作タイムチャート、第８図は、トレイの構造を具体的に示す図、第９図は、
本発明の実施例を用いて実際に構成されたニューロコン
ピュータのブロック図、第１０図は、本発明の実施例に
おける学習時の時間空間チャート、第１１図（Ａ）は、共通バスＳＴＭＤ方式の原理構戒図
、第１１図（Ｂ）は、共通バスＳＭＤ方式による行列ベク
トル積の動作フローチャート、第１２図（Ａ）及び第１
２図（Ｂ）は、リングシストリック方式による行列ベク
トル積の動作原理図、第１２（Ｃ）は、リングシストリック方式による行列ベ
クトル積の動作原理図である。 ■・・・データ処理ユニット、２・・・トレイ、３・・・シフトレジスタ、４・・・記憶装置、５・・・同期手段、６７１１１２２ｌ２２２３２４８２８３８４８５９ｌ９２９３・データ設定手段、・長さ変更手段、・データ処理ユニット１の入力、・データ処理ユニット１の第２の入力、・トレイ２の第
１の入力、・トレイニの第１の出力、・トレイ２の第２の出力、・トレイ２の第２の入力、・ＰＥ９　１の第１の入力、・Ｐ　Ｅ　９−１の第１の出力、・ＰＥ９　１の第２の入力、・ＰＥ９　１の第２の出力、・ＰＥ，・ＰＥ９　１の入出力、・共通バス．

Claims

【特許請求の範囲】１）各々少なくとも一つの入力（１１）を持つ複数個の
データ処理ユニット（１）と、各々第１の入力（２１）及び出力（２２）を持ちかつ各
々データ保持及びデータ転送を行う複数個のトレイ（２
）であって、前記トレイ（２）の全部又はその一部が各
々前記データ処理ユニット（１）の第１の入力（１１）
に接続された第２の出力（２３）を有するものと、前記接続するトレイ（２）の第１の入力（２１）及び出
力（２２）が接続されて成るシフト手段（３）とを具備
し、前記シフト手段（３）上のデータ転送と、前記トレイ（
２）と前記データ処理ユニット（１）間のデータ転送と
、前記データ処理ユニット（１）によるデータ処理とを
同期して行うことにより、行列ベクトル積あるいはその
転置行列ベクトル積を求めることを特徴とする並列デー
タ処理方式。２）前記シフト手段（３）はサイクリックシフトレジス
タであることを特徴とする特許請求の範囲第１項記載の
並列データ処理方式。３）前記シフト手段（３）の長さを変更する手段を有す
ことを特徴とする特許請求の範囲第１項又は第２項に記
載の並列データ処理方式。４）前記シフト手段（３）の長さを変更する手段は、入
力切り換え手段であることを特徴とする特許請求の範囲
第３項記載の並列データ処理方式。５）前記シフト手段（３）の長さを変更する手段は、外
部のデータ供給手段と、入力選択手段とからなることを
特徴とする特許請求の範囲第３項記載の並列データ処理
方式。６）前記データ処理ユニット（１）が第１の出力（２１
）を持ち、前記トレイ（２）が該第１の出力（２１）に
接続された第２の入力（２４）を持ち、前記データ処理
ユニット（１）から前記トレイ（２）にデータを書き込
む手段を有することを特徴とする特許請求の範囲第１項
乃至第５項のいずれかに記載の並列データ処理方式。７）前記データ処理ユニット（１）と前記トレイ（２）
間のデータ転送路は入力と出力で共通に利用するバスで
あることを特徴とする特許請求の範囲第６項記載の並列
データ処理方式。８）データの処理結果を更に処理するに際し、前記処理
結果を前記書き込み手段を用いて前記トレイ（２）に転
送することを特徴とする特許請求の範囲第６項又は第７
項に記載の並列データ処理方式。９）前記トレイ（２）が各々相互に接続された第３の入
力（２５）及び出力（２６）を備え、前記シフト手段（
３）は双方向シフトレジスタであることを特徴とする特
許請求の範囲第１項乃至第８項のいずれかに記載の並列
データ処理方式。１０）前記双方向シフトレジスタを構成する前記各トレ
イ（２）間のデータ転送路は入力と出力で共通に利用さ
れるバスであることを特徴とする特許請求の範囲第９項
記載の並列データ処理方式。１１）前記双方向シフトレジスタ上をデータを双方向に
転送することを特徴とする特許請求の範囲第９項又は第
１０項に記載の並列データ処理方式。