JPH06502265A

JPH06502265A - 信号処理におけるマトリクス演算の計算回路装置

Info

Publication number: JPH06502265A
Application number: JP3517639A
Authority: JP
Inventors: バイヒター，　イェルク; ラーマッハー，　ウルリヒ
Original assignee: シーメンスアクチエンゲゼルシヤフト
Priority date: 1990-11-15
Filing date: 1991-11-04
Publication date: 1994-03-10
Also published as: US5422836A; WO1992009040A1; EP0557314A1; DE4036455C1

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】信号処理におけるマトリクス演算の計算回路装置本発明は、信号処理、殊にニューラル回路網との関連において繰り返し生じるようなマトリクス演算の計算回路装置に関する。ニューラル回路網の計算のために必要な計算操作は概観し得る数の基本的なマトリクス演算に基づいているので、これらの操作の実施の際に要求される高い計算速度を考慮すれば、この種の計算動作をソフトウェアを用いて実施するのではなく、ハードウェアにおいて処理することが望ましい。

本発明に最も近い公知技術は、Ｕ、Ｒａｍａｃｈｅｒ著の刊行物“Ｄｅｓｉｎｇ　ｏｆ　ａ　ｆｉｒｓｔ　Ｇｅｎｅｒａｔｉｏｎ　Ｎｅｕｒｏｃｏｍｐｕｔｅｒ ”（ＶＬＳＩ　Ｄｅｓｉｇｎ　ｏｆ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ、　Ｕ、　Ｒａｍａｃｈｅｒ、　Ｕ、Ｒｕｅｃｋｅｒｔ　ＩＩ集、　Ｋｌｕｗｅｒ　Ａｃａｄｅｍｉｃ　Ｐｕｂｌｉｓｈｅｒｓ　刊。

１９９０年１１月）に示されている。二の刊行物において、乗算器および加算器から成るシストリック装置から構成されている回路装置が記載されている。このシストリック装置により、マトリクス積の計算が可能になる。即ち乗算すべきマトリクスは４×４の大きさのブロックに分割され、かつシストリック装置を用いてそれぞれ、この大きさのサブマトリクスを乗算することができる。この回路装置によって実施可能な計算動作は、例えば多層の帰還結合されたバーセブトロン回路網のようなタイプの所定のニューラル網の計算に対して適している。

Ｕ、　Ｒａｍａｃｈｅｒ著の前記刊行物（１９９０年）に記載されているようなこの回路装置の欠点は、とりわけ次の点にある。

一互換、加算および減算は、マトリクスによって支援されない、一結果マトリクスは、二乗またはスカラーと乗算することができない、一行ないし列の和の計算ないし極大ないし極小マトリクス要素の探索は、この回路装置によって支援されない。

更にこの回路装置では、マトリクス係数の＠Ｉ領領域監視は行われず、かつマトリクス要素の値領域はオーバフローが生じた際に制限されない。

本発明の検層は、公知技術の上述の欠点が取り除かれ、かつマトリクス積の計算並びにマトリクス積の、スカラーとの乗算、また、マトリクス積の二乗、マトリクスの和および差形成、マトリクス和ないしマトリクス差の、スカラーとの乗算、マトリクス和ないしマトリクス差の絶対値形成、マトリクス和およびマトリクス差の二乗、マトリクスおよびマトリクス積の互換、マトリクスの行ないし列の和の計算、並びに極大ないし極小、即ち最小ないし最大のマトリクス要素の探索を支援する回路装置を提供することである。この課題は、請求項１に記載のように構成された、マトリクスＳ＊の計算のための回路装置によって解決される。

本発明の回路装置においても１乗算器および加算器のシストリック装置が設けられている。公知の回路装置とは異なって９乗算器および加算器から成るこのシストリック装置に、再帰的な累算器が後置接続されている。この再帰的な累算器を用いて、著しく床几な種類の計算動作の実施が可能である。本発明の回路装置によって殊に、マトリクス積をスカラーと乗算し、マトリクスまたはマトリクス積を二乗し、了トリクスの和または差を形成しかつスカラーと乗算し、マトリクス和ないしマトリクス差の絶対値およびこれらの二乗値を計算し、かつマトリクスを転置することができる。

更に本発明の回路装置によって、マトリクスの行ないし列の和ないしマトリクス積ないしマトリクスの和または差の計算が可能である。更に、この回路装置は、その前に計算されたマトリクスにおける最大ないし最小のマトリクス要素を探索することができる。

本発明の実施例は、その他の請求項に記載されてい次に本発明を図面を用いて有利な実施例に基づいて詳細に説明する。

第１図は、マトリクス演算の計算のための回路装置の信号凍れ図を示し。

Ｉ！２図は、第１図においてマトリクス乗算器と称されている、第１図の回路の部分回路の有利な実施例をｔＪ４図、第５図、第６図および第７図は、メモリユニットＢｌ、Ｂ２．Ｂ３およびＢ４の制御のための信号流れ図を示し、第３図は、第１図において再帰的な累算器と称されている、第１図の回路装置の部分回路の有利な実施例を示す。

第１図に示されているように、本発明の回路装置は、マトリクス乗算器ＭＭないし再帰的な累算器ＲＡと称されている２つの部分回路から成っている。全体の回路は、１ｎ工ないしｉｎ３によって示されている２つの入力側、ｏｕｔ３によって示されている１つの出力側および１ｎｏｕｔ２によって示されている双方向インタフェースを有している。双方向インタフェースは、信号ＦＯＲ７２Ｃを用いてコントロールすることができる。２つの相互に乗算すべきマトリクスの係数は、インタフェースｉｎｌないし１ｎｏｕｔ２およびこれらに接続されているメモリＢｌないしＢ２を介して、４つの乗算器および４つの加算器から成るシストリック装置に供給される。その際シストリック装置の乗算器の入力データは、信号Ｓ　Ｅ　Ｎ　１を介して制御されるスイッチＳｌを用いて選択される。シストリック装置の加算器列は、排他的ＯＲ素子の出力側に接続されており、排他的ＯＲ素子の第１入力端は、信号５ＥＮ２を用いて制御されるスイッチＳ２を介してメモリＢ２に接続されている０乗算器の別の入力側はメモリＢｌに接続されている。このメモリは、それぞれ２×４語を有している４つの独立したメモリの組み合わせである。データおよび計算結果の一時記憶のために、シストリック装置並びに全体の回路の随所にラッチが設けられている。これらのラッチは計算機能を担っておらず、単に全体の回路の同期された経過を可能にするにすぎず、かつ算術により規定される時間遅延を実現するために必要とされる。シストリック装置の加算器列の一端には、Ａｄｄによって示されている桁上げ保存加算器の桁上げを桁上げ選択フォーマットにまとめる最後の加算器Ｆｉｎｌが設けられている。シストリック装置内の乗算器の有利な実施例は、Ｕ、　Ｒｍａｃｈｅｒ著の前記論文＜１９９０年）に記載されている。

第１図に略示されているが、第２図には比較的詳しく示されているマトリクス乗算器に、ｊ［１１ｉ１の全体の回路において再帰的な累算器が接続されている。

再帰的な累算器は第３図に比較的詳しく示されている。この再帰的な累算器の入力側に、加算器ＡＡが後置接続されている乗算器ＡＭが設けられている。この乗算器の入力側は、マトリクス乗算器の最後の加算器の出力側に接続されている。

乗算器の第２の入力側は、信号５ＥＮ３を介して制御されるスイッチＳ３の位置に応じてメモリＢ４の出力側または最後の加算器の出力側に接続されるかまたは一定の値ｌが加えられる。この乗算器に後置接続されている加算器ＡＡの第２入力端は、第２の排他的ＯＲ素子の出力側に接続されている。

この第２の排他的ＯＲ素子の入力側は、信号５ＥＮ４によって制御されるスイッチＳ４を介して信号Ｌ○ＯＰに接続されている。この信号ＬＯＯＰは、信号５ＥＮ６を介して制御されるスイッチＳ６の位置に応じて、入力側ｉｎ３の信号、またはメモリＢ３の出力と同一である。メモリＢ３の出力は５１３図においてＬＯＧとも表されている。加算器ＡＡの出力側は、信号５ＥＮ５１を介して制御されるスイッチ８５１を介して第２の最後の加算器Ｆｉｎ２に接続されている。この最後の加算器Ｆｉｎ２には、加算器ＡＡの出力を零と比較しかつ従って極性決定器として作用するコンパレータＣｏｍｐが並列接続されている。この極性信号は、制御信号５ＥＮ５２とともにスイッチＳ５２の位置を決定する。このスイッチ５５２は、スイッチ位置に応じて、ＣＨＡＩＮによって表されている、最後の加算器Ｆｉｎ２の出力信号、またはＢ３によって表されている、３つのラッチを介して遅延されたループ信号を信号Ｓｈ　ｉ　ｆ　ｔＥｎによって制御される移相器に接続する。移相器の出力側は、オーバフロー監視回路Ｏｖａｒｆｌｏｗに接続されており、このオーバフロー監視回路の出力側は、メモリユニットＢ３に接続されている。

加算器ＡＡ、最後の加算器Ｆｉｎ２ないしコンパレータＣｏｍｐ、移相器およびオーバフロー監視回路、並びにメモリユニットＢ３および出力側が加算器ＡＡの第２入力端を形成する排他的ＯＲ素子を介する信号路は、公知技術に対して新規な計算操作を実施することができる再帰的なループを表している。

［１，Ｒａｍａｃｈｅｒ著の前記論文（１９９０年）に記載されている回路装置とは異なって、本発明の回路装置では、マトリクス−マトリクス乗算の他に、マトリクス加算および要素毎の最小値（ＭＩＮ）／最大４１１（ＭＡＸ）比較も可能である。４Ｘ４のサブマトリクスに分割されている入力マトリクスは、局所的に転置されかつそれから加算または乗算される。結果マトリクスの要素は選択的に二乗またはスカラーと乗算することができる。これから生じた４×４サブマトリクスにおいて、行または列方向における大局的な累算または最小値／最大値比較を行うことができる。

１６ビツトの重み値の属領域はオーバフローについて監視されかつオーバフローが生じると値は自動的に制限される。特有のシフト装置によって、重みの属領域を意図的に変化し、例えばステップ毎に半減ないし２倍にして、これによりオーバフローを回避しかつ重みメモリの１６ビツトの語幅を一層効果的に利用することができる。

マトリクス演算を計算するための本発明の開発は、全体の計算作業を所定数の基本的な回路装置に分配しかつ乗算すべきないし加算すべき大きなマトリクスを４ ×４のサブマトリクスに分割化するという思想に基づいている。即ちそれぞれの基本的な回路装置は、局所的なメモリに保持されているマトリクスの所定の行ないし列領域（サブマトリクス）のみを処理する。大きなマトリクスの計算は、４ ×４のサブマトリクスの処理から組み合わされる。この組み合わせの際に、サブマトリクスのインデックスは大きなマトリクスの全体の有効領域に拡張される。

サブマトリクスの計算がら大きなマトリクスに対する解決を得る演算は、要素の大局的な累算並びに局所的または大局的な最小値／最大値比較である。

本発明の回路装置は、種々様々な方法で結合されて、ニューラルアルゴリズムを実現する次の簡単な計算動作を実施する。その際、大きなマトリクスの分割から生じる、４×４のマトリクスブロツクを表すサブマトリクスという概念が使用される。

１、　入力サブマトリクスの乗算１．１　（メモリＢｌにおける）サブマトリクスＡの、メモリ（Ｂ２）におけるサブマトリクスＢとの乗算。

１．２　（メモリＢ１における）サブマトリクスＡの、単位マトリクスとの乗算：２、　入力サブマトリクスの加算／減算２．１　（メモリＢ２における）サブマトリクスＢは、単位マトリクスとの乗算の前に、（メモリＢ１における）サブマトリクスＡに対して加算される：２．２　（メモリＢ２における）サブマトリクスＢは、単位マトリクスとの乗算の前に、（メモリＢ１における）サブマトリクスＡから減算される：２．３　加算器列を通る（メモリＢ２における）サブマトリクスＢは加算されない。

３．１．１ないし２．２までの結果サブマトリクスの乗算３．１　結果サブマトリクスの、係数（それぞれのサブマトリクス列に対して固有の１つの係数）との乗算。

３．２　乗算なしく１との乗算）。

３．３　個々のサブマトリクス要素の、それ自体との乗算（二乗）。

４．３．１から３．３までの結果サブマトリクスの加算／累算４、　１　結果サブマトリクスの、メモリユニットＢ３に記憶されているサブマトリクスに対する加算（局所的な累算）。

４．２　結果サブマトリクスの、入力（Ｉｌｌ　ｉ　ｎ　３に同時に加えられたサブマトリクスに対する加算（分配された累算）。

５．３．１から３．３までの結果サブマトリクスに対する要素毎の最小値／最大値比較５．１３．１から３３までの結果とメモリユニットＢ３に記憶されているサブマトリクスとの間の最小値／最大値比較。

５．２３．１から３．３までのサブマトリクスと入力側ｉｎ３に同時に加えられたサブマトリクスとの間の最小値／最大値比較。

６、　メモリユニットＢ３に記憶されている重みのオーバフロー調整６．１１６ビツトに制限すべき重みのオーバフロー検出および値飽和。

６．２　すべての重みサブマトリクスの制御された、大局的なフォーマット変換。

回路装置において設計計画された計算動作１．１ないし６，２は、全体の回路の種々の部分において実施されかつ種々のニューラルアルゴリズムを支援するために、所定の組み合わせにおいて相互に結合することができる。

次のような組み合わせが可能であるニーそれぞれ１つの演算１．１ないし２．２と−それぞれ１つの演算３．１ないし３．３および−それぞれ１つの演算４．１ないし５．２との結合。

２つの演算６．】および６．１は４．１と結合可能である。

次に、回路装置を用いた個々の計算動作の実施および回路装置の制御について詳しく説明する。

計算動作１．１．メモリＢ１におけるサブマトリクスと、メモリＢ２におけるサブマトリクスとの乗算。

２つのマトリクスＡおよびＢは、メモリＢｌおよび８２にロードされている。スイッチＳ１は位置Ｂ２にあり、スイッチＳ２は位置Ｏにありかつ信号Ｓ／ＡＩは値零を有している。メモリＢｌは、それぞれのクロックによって１６のクロックにわたって分配されてデータＢ　（１，１）、Ｂ　（２，１）、・・・、Ｂ　（４，４）、即ちマトリクスＢの左上の４×４のサブマトリクスのマトリクス要素を供給する０乗算器の入力レジスタに加わる制御信号ＣＥ　Ｎ　１　、・・・、ＣＥＮ４は値零を有しており、即ち次の時点を除いて不活性である：クロック１においてＣＥＮＩは活性でありかつ一番上の乗算器の入力レジスタにマトリクス要素Ｂ（１，１１をロードするように作用する。次のクロックにおいてＣＥＮ２が活性でありかつ第２の乗算器の入力側にマトリクス要素Ｂ（２，１）をロードする。第３および茅４のクロックにおいて、ＣＥＮ３およびＣＥＮ４によって別の２つの乗算器の人力レジスタがロードされる。

第５のクロックにおいてＣＥＮＩが再び活性でありかつ第２の乗算器の入力側にマトリクス要素Ｂ　（１，２）をロードする。この分配過程は循環的に繰り返されかつ、マトリクス要素Ｂ　（４，４）がＣＥＮ４＝活性によって第４の乗算器にロードされるとき、１６番目のクロック後に終了する。

特表千６−５０２２６５　（５）二の過程と並列に、メモリユニットＢｌはサブマトリクスＡ（１，１）、・・・、Ａ　（４，４）を列毎に４つの別個の部分メモリユニットに保持しかつこれらデータを４つの別個のリード線を介してシストリック装置の乗算器（Ｎ２図参照）に供給する。菓ｌの乗算器には、メモリＢ１からその第１のマトリクス要素Ａ（１゜ｌ）がマトリクスＢ（１，１）と同時に供給される。

続く３つのクロックにおいてメモリＢｌはマトリクス要ｓＡ　（２，ｌ）、Ａ　（３，ｌ）　およびＡ（４，１）を同一のリード線を介して供給する０乗算器にマトリクス要素Ｂ（１，２）もロードされているとき、第５のクロックと第８のクロックとの間において、マトリクス要素Ａ　（１，１）、・・・、Ａ（４，１）の印加が繰り返される。１６のクロックの後、即ちマトリクス要素Ａ（１，ｌ）、・・・、Ａ（４，１）の列がシストリック装置の乗算器に４回印加されている間に、乗算器列の第１の乗算器に対する読み出しは終了している。第２の乗算器には、メモリＢ１からマトリクス要素人（１，２）、・・・、Ａ（４，２）が供給される。その都度更なるクロック遅延によって、第３ないし第４の乗算器には、メモリＢｌからマトリクス要素Ａ（１，３）、・・・、Ａ（４，３）ないしＡ（１，４）、・・・、　Ａ　（４゜４）が供給される。全体として、乗算器列の第１の乗算器と第４の乗算器との間に３つのクロックの遅延が生じる。結果として、最後の乗算器には、１９９番目クロックにおいて４番目および最後に、マトリクス要素Ａ（４，４）の値が供給される。

それぞれの乗算器は、クロック当たりマトリクスＡないしＢの２つのマトリクス要素の乗算を始めることができる。この種の乗算は７つのクロックの間続く。

結果の累算は、第２図のマトリクス乗算器の加算器列を介して実施される。クロック８において、１番上の、Ｉｌｌの加算器には、第１の乗算器の積Ａ（１，１）　・Ｂ（！、１）が供給され、それにスイッチＳ２からの零を加算しかつその結果を次のクロック（クロック９）を二おいて後続の第２の加算器に転送する。

第２の加算器には、第１の加算器の和と同時に、Ｎ２の乗算器から積Ｂ（１，２）　・Ａ（２，１）が供給される。第２の加算器はこの積を和に対して加算する（クロック１０）５次の２つのクロックにおいて更に、積Ｂ（１゜３）・ＡＣ３，１＞並びにＢ　（１，４）　・Ａ（４，１）が生じる。クロック１２において、第４の最後の加算器の出力側に、サブマトリクスＡの第１の行のマトリクス要素と、サブマトリクスＢの第１列のマトリクス要素との４つの積から成る和が現れる。引き続くクロックにおいてまだ欠けている和が加わる。マトリクスＡの第４の行のマトリクス要素と、マトリクスＢの第４の列のマトリクス要素との積に関する和が２８８番目クロックにおいて加算器列の出力側に現れるとき、結果マトリクスはすべて完全に計算されている。

計算動作１．２；メモリＢｌにおけるサブマトリクスの、単位マトリクスとの乗算（乗算なし）。

計算動作１．２は、計算動作１．１に相応経過し、その際第２のマトリクスＢは単位マトリクスにとって代わられる。更に、スイッチＳ１は循環的に値Ｉと値０との間を切り換えられる。クロック１，６．１１および１６においてスイッチＳ１はｌにあり、その他のすべてのクロックにおいてはＯにある。

計算動作２，１：メモリＢ２におけるサブマトリクスが、メモリＢｌにおけるサブマトリクスに加算される。

計算動作２．１を実施するために、メモリＢ１に存在するマトリクスＡの、単位マトリクスとの乗算を行う計算動作１．２が、メモリＢ２に存在するマトリクスＢの加算だけ拡張される。この場合スイッチＳ２は位置Ｂ２にある。制御信号Ｓ／Ａｌは値零を有している。その他のステップはすべて、計算動作１．２におけるステップに相応する。

計算動作２．２．メモリＢ２におけるサブマトリクスがメモリＢ１におけるサブマトリクスから減算される。

ここでの経過は、計算動作２．１における経過と全く須似している６ただ、信号Ｓ／ＡＩが値ｌをとる、極性反転を行う必要がある。これにより、排他的ＯＲ素子はそれに後置接続されている加算器とともに、メモリＢ２に存在するデータの２の補数を形成する。

計算動作２．３＝メモリＢ２に存在するデータを再帰的累算器に加算なしに、即ちシストリック加算器列を迂回してロードする。

計算動作２．３は計算動作２．１と頴似して実施されるが、ここでは単位マトリクスに代わって零マトリクスが使用される。このことは、スイッチＳ１がすべてのクロックにおいて位置零にあることによって行われる。

計算動作３．１：結果マトリクスの、係数との乗算。

この計算動作において、シストリック加算器列は、計算動作１．１において説明した、マトリクスＡの行から成るマトリクス要素とマトリクスＢの列から成るマトリクス要素との積の和を、次の順序で形成する。

即ちまず、マトリクスＡのＮ１行のマトリクス要素とマトリクスＢの第１列のマトリクス要素との積についての和および最後にマトリクスＡの第４の行のマトリクス要素とマトリクスＢの第４の列のマトリクス要素との積の和が、２７番目のクロックから始まって計算されるようにである。データの上位１９ビツトは、桁上げ保存表示において存在しかつ、それらを再帰的な累算器の第１の乗算器ＡＭに入力データとして供給することができる前に、２進表示に変換しなければならない（最後の加算器Ｆｉｎｌ）。その際、最後の加算器Ｆｉｎｌによるｌクロツタの遅延が生じる。乗算器、Ａ　Ｍの２つの入力側におけるデータの準備に対して２つの別のクロックが生じる。

最後の加算器Ｆｉｎｌから到来する、マトリクス要素の積についての和は、上述の順序で乗算器ＡＭに加わりかつメモリＢ４に記憶されている係数Ｋ　（１）　。

Ｋ　（２）　、　Ｋ　（３）およびＫ（４）と乗算される。その際順番に次の積が形成される：Ｋ（１）　・Ｐ　Ｃ１，１）、Ｋ（１）　・Ｐ（２，１）。

Ｋ（１）　・Ｐ　（３，ｌ）、Ｋ　（１）　・Ｐ（４，１）。

Ｋ（２）・Ｐ　（１，２＞、Ｋ（２）　・Ｐ（２，２）。

・・・、Ｋ（４）　・Ｐ　（４，４）。

その際積Ｐ（ｉ、ｊ）は、マトリクスＡのｉ番目の行におけるマトリクス要素とマトリクスＢのに番目の列におけるマトリクス要素との積についての和に等しい。乗算器は７つのクロックを必要とし、それぞれのクロックにおいて新しい乗算が始められる。結果は、２１番目のクロックから３７番目のクロックまで乗算器ＡＭの出力側に現れる。その際スイッチＳ３は常に、位置Ｂ４にある。

計算動作３．２＝乗算なし。

スイッチＳ３は位置１にあり、これによりｉ＝１゜・・・、４に対するすべての係数ｋ　（ｉ）に、値ｌが指定される。その他の経過は、計算動作３．１の場合と同一である。

計算動作３．３＝マトリクス要素の二乗。

スイッチＳ３は位置し２にある。加算器列か到来する値Ｐ（ｉ、ｊ）は、乗算器Ａ　Ｍの２つの入力側に加わる。従って被乗数語と乗数語は同一である。従って、その他のすべてのステップを計算動作３．１に相応して実施するとき、係数ｋ　（ｉ）に代わって積の和Ｐ＜ｉ、ｊ）が生じ、かつこの積マトリクスはそれ自体と乗算される。計算動作１．２によれば、積マトリクスは例えば、本来のマトリクスの１つであってもよい。

計算動作４．１．１　＋３．１から３．３までのマトリクスの局所的な累算マトリクス乗算器の加算器列から到来する積の和Ｐ（１，１）、Ｐ　（２，ｌ）、・・・、Ｐ　（４，４）は、メモリＢ３に格納されているデータＳ（１，１）、Ｓ（２，１）、・・・、Ｓ　（４，４）に要素毎に加算される。

Ｓ（ｉ、ｊ）の生じる新しい値は、引き続いて再びメモリＢ３に格納される（フェッチ・アンド・アット）。

その際スイッチＳ４は位置ＬＯＯＰにあり、スイッチ５５１は位置Ａ　Ｄ　Ｄにあり、スイッチＳ５２は位置ＣＨＡＩＮにありかつスイッチＳ６は位置Ｌ　ＯＣ）二ある。ここで制御信号Ｓ　／　Ａ　２は値零を有しており、制御信号Ｓｈ　ｉ　ｆ　ｔＥｎおよびＯｆｌｏｗＥｎ（第３図参照）は最初両方とも零にセットされる。データＳ（１，１）、Ｓ　（２，１）、・・、Ｓ　（４，４）はこの順序で、再帰ループと結合されている、メモリＢ３の部分から読み出される。これらのスイッチＳ６およびＮ４および排他的ＯＲ素子を介してこれらは、一連の全加算器から形成されている加算器Ａ　Ａに達する。クロック２２においてＳ（１，１）はＰ（１，１）に加算され、次のクロックにおいてＳ（２，１）がＰ（２゜ｌ）に加算される。

後置接続されている最後の加算器Ｆｉｎ２において、桁上げおよび和語が唯一の２進僅に結合される、５０ビツト長の最後の加算器Ｆｉｎ２は、高い動作過程時間を有する複雑な回路であるので、これは出来るだけそれぞれの加算器没後ではなくて、ＩＩＩ所においてのみ設計計画される。最後の加算器Ｆｉｎ２における遅延時間は２クロック周期である。

結果、即ち新しい値Ｓ　（１，１）、・・・、Ｓ　（４，４）は、スイッチＳ５２を介してシフト段（移相器）に達する。信号Ｓｈ　ｉ　ｆ　ｔＥｎが値零を有するとき、データは不変にとどまる。後置接続されたオーバフロー制御部も、ＯｆｌｏｗＥｎ＝Ｏの場合データに影響を及ぼさない。ｓ（１，Ｊ）のその前の値がメモリＢ３から読み出された後の６つのクロックで、Ｓ　（ｉ、ｊ）の新しい値が書き込まれる。

計算動作４．１．２　局所的な累算：再帰ループのリセット。

その前の［５（ｉ、ｊ）に代わって、その都度零が積の和Ｐ（ｉ、ｊ）に加算される。その際スイッチＳ４は零にある。その他の経過は、計算動作４．１．１の場合と同様である。

演算４．２：３．１から３．３までのマトリクスの分配された累算。

スイッチＳ４は位置ＬＯＯＰにあり、スイッチＳ５１は位置ＡＤ０にあり、スイッチＳ５２は位置ＣＨＡＩＮにありかつスイッチＳ６は位置ＧＬＯＢＩＮにある。演算４．１．ｌの場合とは異なって、Ｓ（１，１）、・・・、Ｓ　（４，４）のその前の値はメモリＢ３から読み出されず、入力側ｉｎ３と関連付けられる。

累算はスイッチＳ６およびＳ４および加算器ＡＡおよびＦｉｎ２並びにスイッチＳ５１および３５２を介して行われる。スイッチＳ５２の後において、結果、即ち新しい値Ｓ（１，１）、・・・、Ｓ　（４，４）は移相器を介してメモリＢ３に書き込まれず、直接スイッチＳ７を介して出力側ｏｕｔ３に現れる。このために５クロック分の遅延時間が必要である。

計算動作５．１：３．１から３．３までの結果サブマトリクスの、メモリＢ３の、再帰ループに属する部分に記憶されているサブマトリクスとの要素毎の最小値／最大値比較。

スイッチＳ４は位置ＬＯＯＰにあり、スイッチＳ６は位置ＬＯＧにある。信号Ｓ／Ａ２は値１を有しておりかつ排他的ＯＲ素子および後続の加算器段ＡＡはスイッチＳ４を介して導かれるデータの２の補数を形成特表千６−５０２２６５　（７）するために使用される。スイッチＳ５１は、位ｉ１．　Ｍ　ＵＬＴ５にありかつスイッチＳ５２の位置は、加算器ＡＡの結果が零より大きいまたは零に等しいかどうかを検査するコンパレータＣｏｍｐの結果から生じる。加算器は、乗算器ＡＭから到来する値とメモリＢ３の値との差を決定する。この差が正であれば、コンパレータは最大値比較の際にスイッチＳ５２を位置ＭＵＬＴ５にセットしかつ、最小値比較の際に位置ＡＤＤにセットする。これに対して計算された差が負であれば、メモリＢ３からの値は乗算器ＡＭの出力側に現れる積より大きくかつスイッチ位置は交替する。スイッチＳ５２を介して選択された結果はそのまま変化なしにメモリＢ３に記憶される。

計算動作５．２：３．１から３．３までの結果サブマトリクスの、入力側ｉｎ３に同時に印加されるサブマトリクスとの要素毎の最小値／最大値比較。

計算動作５．１とは異なってここではスイッチＳ６は位置Ｇ　Ｌ　ＯＢ　Ｉ　ＮにありかつスイッチＳ７は位置ＧＬＯＢＯＵＴにある。その他のステップはすべて、計算動作５．１に相応している。

計算動作６．１：メモリＢ３に記憶されている１６ビツトのデータ（重み）に対するオーバフロー検出および値飽和。

ニューラル回路網における重みの語幅は通例１６ビツトに制限されている。オーバフロー検出および飽和によって、学習過程の際に表示可能な限界値を上回るまたは下回ることが抑止される。スイッチＳ５２から到来するデータは、オーパフａ−ユニットにおいてオーバフローについて検査されかつコントローラによってＯｆ　ｌｏｗＥｎ＝１がセットされている場合には（１６ビノトの部長）、場合に応じて飽和される。Ｏｆ　Ｉ　ｏｗＥｎ＝ｏの場合、飽和は行われず、データバスは５０ビツト長を有している。オーバフローが検出される都度（Ｏｆ　ｌｏｗｓｔａｔ＝１）、コントローラによって読み出し可能であるオーバフロー計数器がインクリメントされる。

計算動作６．２　重みマトリクスのフォーマット変換。

データが、メモリＢ３の、再帰ループに属する部分に書き込まれる前に、それらを右方向または左方向に１位置分シフトすることができる。従って表示可能な数領域は、学習過程の期間にダイナミックに整合することができる。信号Ｓｈ　ｉ　ｆ　ｔＥｎを介する制御は、コントローラによって行われる。

これによって回路装置を用いて実施可能なマトリクス演算について説明した。次に、メモリユニットＢｌ。

・・・、Ｂ４における演算について説明する。これらの、メモリユニットＢｌ、・・、Ｂ４における別の演算は、回路装置とその周辺間の簡単および効果的なデータ搬送を可能にするために実施される（例えば同時ロード、計算およびアンロード）。更に、回路装置における処理に対するマトリクス要素は再整理されかつ所望のように転置される。個々のメモリユニットの制御は、第４図ないし第７図の信号流れ図に示されている形式および方法において行われる。

７、　マトリクスメモリＢｌにおける動作７．１．１　ロード、転置されない７．１．２　ロード、転置される７、２．１　メモリ半部の交換７．２．２　メモリ半部の交換なし７．３　データの読み出し８、　マトリクスメモリＢ２における動作８、　１　データのロード８．２．１　メモリ半部の交換８．２．２　メモリ半部の交換なし８．３．１！！み出し、転置されない８．３．２　読み出し、転置される９、　マトリクスメモリＢ３における動作９．１　メモリＢ３の、ループに２する半部におけるフェッチ・アンド・アット９．２．１　メモリ半部の交換９．２．２　メモリ半部の交換なし９．３．１　インタフェース（ポート）に属するメモリ半部におけるロード／読み出し、転置されない９．３．２　インタフェース（ポート）に属するメモリ半部におけるロード／読み出し、転置される１０、係数バッファＢ４における動作１０．１　データのロード１０．２　データの読み出し１０．３　メモリ半部の交換１１、双方向インタフェース１ｎｏｕｔ２の制御１１．１　インタフェースは入力端に切り換えられる１１．２　インタフェースは出力側に切り換えられる大抵の計算動作と結合されて、インタフェース１ｎｏｕｔ２は入力側として利用され（１１，１）かつ短い、正確に特定されたステップに対してのみ出力側として利用される（１１．２）。

次に、メモリユニットにおける動作について詳細に説明する。簡潔にするために以下の説明においてポート側およびループ側という概念を使用する。ポート側で、インタフェースに属するメモリ半部を表し、ループ半部で、再帰的なループの方の側のメモリ半部を表す。

データＡ（ｉ、ｊ）は、インタフェースｉｎｌを介して外部から供給されかつメモリＢｌに達する。その順序は、Ａ　（１，１）、Ａ　（１，２）、・・・、　Ａ　（４゜４）である。メモリＢｌはこれらの１６のマトリクス要素を、マトリクス要素ＡＣ１，１）、・・・、　Ａ　（４゜４）、即ちＡの４×４のサブマトリクスの第１列がメモリの最も上の部分に存在しかつ後に乗算器ｌに割り当てる二とができるように、記憶している。マトリクス要素ＡＺ、２）、・・・、Ａ（４，２）、即ち第２列の要素は、乗算器２に対する第２のメモリ行に格納される。以下も同様である。メモリセルの制御に対して、語ガイド（ワードライン）信号はメモリ駒部に、組み込まれているシーケンサによってシストリノブに転送され、その結果クロックの都度１つのメモリ語のみが書き込まれる。シーケンサはトリガパルスＢ　Ｉ　ＰＯＲＮを介してコントローラによってトリガされる。更にＢ　Ｉ　ＰＯＲＴ＝Ｏが成り立つ。

７．１．２　ロー阻転置される７、１．１と異なって、データは、第１のメモリ行にデータＡ（１，ｌ）、・・、Ａ（１，４）が記憶され、第２のメモリ行にデータＡ（２，１）、・・・、　Ａ　（２゜４）が記憶されるように、Ｂｌに格納される。以下同様である。変化される順序に対して、Ｂ　Ｉ　ＰＯＲＴを介してトリガされる（Ｂ　Ｉ　ＰＯＲＮ、Ｏ）固有のシーケンサが必要である。

７．２．１　メモリ半部の交換メモリユニットＢｌの２つの半部の割り当て、即ち一方の半部の、入力側ｉｎｌに対しする割り当て（ロード）、他方の半部の、乗算器列に対する割り当て（読み出し）は、交換される。コントローラは、制御ビットＢＩＸＣＨを介してメモリ半部の交換を開始する。信号ＢＩＸＣＨは、メモリユニットＢｌに、メモリ行毎ｆ二、加算器列における遅延時間を補償するために、ｌクロックの遅延によって転送される。メモリ半部の割り当ての交換は、サブマトリクス動作の前でのみ、従って早くとも１６のクロック毎に可能である。

７．２．２　バッファ半部の交換なしＢｌに記憶されているサブマトリクスは、計算のために複数同相前後して必要である（学習過程）。これらのデータのオーバライドは、メモリ半部の交換が行われないとき、妨げられる６乗算器側に記憶されているデータは、メモリ半部の次の交換までそのまま維持される。ＢＩＸＣＨはその値を変えない。

７．３　データの読み出し読み出しは、ＢＩＭＵＬＮを介してトリガされるシーケンサを介して行われる。

シーケンスに関しては１８１ないし２，３が参考になる。

８．１Ｂ２のロードＢ２は１６の記憶セルを有している。データＢ　（ｉ。

Ｊ）は順番にメモリに格納される。メモリ領域の制御はシーケンサによって行われ、トリガは（７，１，１の）８２ＰＯＲＮを介して行われる。

８．２．１　メモリ半部の交換メモリ半部の交換は、コントローラによって８２ＸＣＨを介して制御される。２換は、同じ時間においてすべてのバッファ半部を検出する。交換は、その都度新たなサブマトリクス動作において、早（とも１６クロツク毎に可能である。

８．２．１　バッファ半部の交換なし８２ＸＣＨに対する値の維持によってバッファ半部は交換されない。

８．３．１　読み出し、転置されない書き込みに並列に、別のメモリ半部においてメモリセルは同じ順序で読み出される：トリガパルスＢ２ＭＵＬＮ。

８．３．２　読み出し、転置される読み出されたデータの順序は、転置されたマトリクスに相応する。トリガパルスＢ２ＭＵＬＴ。

９．１Ｂ３におけるフェッチ・アンド・アンド、ループ側フェッチ・アンド・アンド作動に対して、９．１において書き込むべきデータは、その前６クロソクのところで、メモリＢ３の同じメモリセルから読み出され、それらは後に再びこれらメモリセルに格納される（トリガ：Ｂ３ＬＯＯＰ）。

９・２．１　ノくツファ半部の交換交換は、Ｂ３ＸＣＨを介してコントローラによって制御される（８．２．１参照）。

９．２．２　バッファ半部の交換なし８３ＸＣＨの値の維持（８，２，２も参照）９．３．１　読み出し、ポート側、転置されなｔ１Ｂ３（ポート側）に存在するデータは、順序Ｓ　（１゜１）、Ｓ　（１，２）、・・、Ｓ　（４，４）で読み出されかつ入力便に同時に存在する値によって置換される。

シーケンサは、８３ＰＯＲＴによってトリガされる。

１０．１　データの、Ｂ４におけるロードＢ４におけるデータ（係数）は、インタフェース１ｎ３（０じＴ３）を介して回路装置に供給される。ロードのために４つのクロックが必要である。シーケンサに対するトリガパルスは、８４ＦＯＲ？Ｊである。

１０．２　データの読み出し読み出しに対するトリガパルスは、Ｂ４ＭＵＬＮである。

１Ｏ１３メモリ半部の交換係数の第２セントを記憶するために、４つの別のメモリ半部が設けられている。

制御は、Ｂ４ＸＣＨを介して行われる。

１１．１　インタフェースｌＮ０ＵＴ２は入力に切り換えられる。

インタフェースｌＮ０ＵＴ２の入力ドライバは常に活性状態にある。

！１．２　インタフェースＩ　Ｎ０ＵＴ２は出力に切り換えられる。

インタフェースｌＮ０ＵＴ２の、出力作動への切換は、外部のドライバ衝突を回避するために、外部の制御ビットＰＯＲＴ２Ｇを介して行われる。

これまで説明してきた回路装置は、同形式の回路モジュールと結合されて、マトリクス演算を実施するためのコプロセッサを生じる回路モジュールである。このコプロセッサには、コントローラ回路から必要な制御信号が供給される。

コントローラ、またメモリユニットの内部構成は、Ｕ、　Ｈａｃｈｍａｎｎの学位論文″Ｃｏｎｔｒｏｌｌｅｒ　Ａｒｃｈｉｔｅｋｔｕｒ　ｆｕｅｒ　ｅｉｎｅｎ　Ｎｅｕｒｏｅｚｕｌａｔｏｒ　ｉｎ　Ｆｏｒｚ　ｅｉｎｅｓ　５ｙｓｚｏｌｉｓｃｈｅｎ　Ａｒｒａｙｓ”　（を子技術素子の講座、ドルトムント大学、ドルトムント１９９０年）に記載されている。

この明細書において使用されている、デジタル回路を表すための、一般に通例の専門用語は、例えばＫａｉＨｗａｎｇ　”Ｃｏｍｐｕｔｅｒ　Ａｒｉｔｈｍｅｔｉｃ：　Ｐｒ１ｎｃｉｐｅｌｅｓ、　Ａｒｃｈｉｔｅｃｔｕｒｅ　ａｎｄ　Ｄｅｓｉｇｎ”　（Ｊｏｈｎ　Ｗｉｌｅｙ　＆　５ｏｎｓ、１９７９年）に説明されている。

補正書の翻訳文提出書（特許法第１８４条の８）平成　５年　５月１４日

Claims

【特許請求の範囲】

１．マトリクス乗算器（ＭＭ）と、該マトリクス乗算器に後置接続されている、互換、行の和および列の和を計算しかつ極マトリクス要素を探索するための再帰的な累算器（ＲＡ）とを有している、マトリクス演算の計算回路装置。
２．乗算器（ＡＭ）と、該乗算器に後置接続されている、前記乗算器の出力側をこの回路装置の出力側に再帰的な方法で結合する加算器（ＡＡ）とを有している、マトリクスの互換、行の和および列の和を計算しかつ極マトリクス要素を探索するための回路装置。
３．マトリクス乗算器と、該マトリクス乗算器に後置接続されている、互換、行の和および列の和を計算しかつ極マトリクス要素を探索するための再帰的な累算器とを有し、前記累算器は、乗算器と、該乗算器に後置接続されている、前記乗算器の出力側をこの回路装置の出力側に再帰的な方法で結合する加算器とを有している回路装置。
４．マトリクス乗算器は、２つのデュアル・ポートメモリユニット（Ｂ１ないしＢ２）および該メモリユニットに後置接続されている、乗算器（Ｍｕ１）および加算器（Ａｄｄ）から成るシストリック列を有している請求項１または３に記載の回路装置。
５．加算器（Ａｄｄ）は、桁上げ保存型のシストリック列である請求項４記載の回路装置。
６．マトリクス乗算器は、乗算器（Ｍｕ１）および加算器（Ａｄｄ）から成るシストリック列を有しており、該シストリック列の端部に、桁上げ選択型の第１の最後の加算器（Ｆｉｎ１）が設けられている請求項１，３，１または５のいずれか１項記載の回路装置。
７．再帰的な累算器は第２の最後の加算器（Ｆｉｎ２）を有しており、該加算器は加算器（ＡＡ）に後置接続されておりかつそれは桁上げ選択型である請求項１から６までのいずれか１項記載の回路装置。
８．再帰的な累算器は、加算器（ＡＡ）の結果を零と比較するコンパレータ（Ｃｏｍｐ）を有している請求項１から７までのいずれか１項記載の回路装置。