JPH06502937A

JPH06502937A - マトリックス乗算のための知識メモリチップ

Info

Publication number: JPH06502937A
Application number: JP1500899A
Authority: JP
Inventors: モートン，スティーヴン，ジー
Original assignee: Individual
Current assignee: Individual
Priority date: 1987-12-15
Filing date: 1988-12-12
Publication date: 1994-03-31
Also published as: KR900700967A; WO1989006014A1; US5014235A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】マトリックス乗算のための知識メモリチップ（従来の技術）私の発明は、本質的にベクトルのマトリックス倍の乗算を行うための並行処理及び協同処理が可能なディジタル式半導体デバイスに関連している。この発明は、特に、大きなマトリックスを外部に記憶するのではなく、内部に記憶可能なように、論理よりもメモリが優位であるチップに関する。

ベクトルのマトリックス倍の乗算は、ディジタル信号処理、特に、画像処理、三次元グラフィックス、（特に、人工神経網によって実行されるような）パターン認識、及び科学や工学の計算などに必要とされる基本的演算である。要求精度は、マトリックスの精度とベクトルの精度が必然的に同じ程度であるとは限らないので、単一ビットから多数ビットに至るまで、アプリケーションに応じて様々であり、また、データが高データ率のセンサから送られてくる場合や、複雑な画像を創造し表示せねばならない場合のように、しばしばリアルタイムで迅速に処理されるべき複雑な問題を高速処理する場合にも、この要求精度は相違する。

（背景技術）現存の多くのチップをベクトルのマトリックス倍の乗算を行うために使用可能である。しかしながら、これらのチップは本来、何れも、マトリックス乗算に本質的に伴う並行処理を促進するようなマトリックス／ベクトル乗算器ではない。これらのチップでは、何れも、基本的な「積の合算」や「ベクトルの点乗積」といった、単一の計算周期内の演算を直接実行できない。

一般的に、マトリックス乗算に使用可能な現存のチップは、全ての積を行ってから、それらを合計するといった、一連の演算を実行する。さらに、これらのチップでは、各変数の全ピット単一チノブ内に記憶され演算されることが必要である。乗算チップでは、複雑な内部接続網及び、どのデータが何処に行きどのチップが何を行うかを決定する複雑な制御構造を用いずに、記憶と演算のロードを分割することは困難である。さらに、単一チップ上に全てのビットを配置するということは、結果的に、各マトリックス及びベクトルに関して、典型的には８．１６．２４．３２といった、演算に関する精度ビットの組数で設計を行わなければならないことを意味し、システム設計者は、異なる精度レベルで実行されることが好ましいタスクに関して、演算の最大経済性の獲得をあきらめざるを得ない。

例えば、画像処理システムでは、ベクトルは２進値画素によって表すことが可能であり単一のビット精度を必要とするだけであるが、マトリックスは広範囲の重みファクタを表現するためにより多くのビ・７トが必要である。

クレイ−１（Ｃｒａｙ−１）のような、スーパーコンピュータでは、情報アクセス及び処理速度を速めるために、特殊な多重要素、多重メモリパンクや多重乗算／合算ユニットといった形式の「ベクトル」ハードウェアを採用している。数ナノセカンドといった超高速で、冷却が必要な高価な装置を用いて実行される場合には、がかる構造により、単一要素、すなわちスカシの処理にあたって動作性能を大幅に改善することが可能である。しかしながら、これらのベクトル処理は、マトリックス乗算を実行するために同じマトリックス要素を何度も取って（る必要があるため、本質的に不十分である。さらに、同時演算が可能な多重メモリバンクを用いた場合にも、メモリ内のデータの配置が演算の実行に好適な場合にのみ、動作性能が改良されるに過ぎない。

効率の問題がここに開示された発明のキーポイントである。発明者は、構造の各 −次要素、すなわちトランジスタや内部接続線を如何にうまく用いるかについて方法的に考察することにより、また、これらの要素の各々を最大限用いるための構造を選択することにより、多くのベクトル点乗積計算を実行するシステムの動作性能を改良し、コストを大幅に減することを試みてきた。

広い意味で、単一チップ上での並行処理仕様の論理とメモリの組合わせは、当該技術分野において多くの事例を有する。しかしながら、特に、マトリックス及びベクトルを得るための高メモリ帯域を得るコストに関し、システム支援コストを減少させながら、ベクトルのマトリックス倍の乗算は言うに及ばず、２つの長いベクトルの積を得ることができるように特別に仕立てられたチップは存在しない。

この開示に関係する従来技術に属するデバイスとしては、以下のようなものが存在する。

１、ＮＣＲのＧＡＰＰチップＮＣＲのＧ　Ａ　Ｐ　Ｐ　（Ｇｅｏｍｅｔｒｉｃ　Ａｒｉｔｈｍｅｔｉｃ　Ｐａｒａｌｌｅ　Ｐｒｏｃｅｓｓｏｒ）チップは７２の１ビツト処理装置である。各処理装置は２つのグループのメモリと、１ビツト演算論理装置（Ａ　Ｌ　Ｕ　：　Ａｒｉｔｈｍｅｔｉｃ　ａｎｄＬｏｇｉｅ　Ｕｎｉｔ）とを備えている。全てのメモリは共通アドレスを有し、全てのＡＬＵは同じ命令を同時に実行する。処理装置は１２×６マトリツクスに配列されており、各処理装置は最も近い隣接装置に接続されており、端部の処理装置はパッケージの入力／出力ビンに接続されている。多くの処理装置を用いることにより、並行処理チップが得られる。

データは最も近い隣接装置間の接続を介して直列仕様でチップに／から送られる。語幅なしランダムアクセス機構（ｎｏ　ｗｏｒｄ−ｗｉｄｅｒａｎｄｏｍ　ａｃｃｅｓｓ　ｍｅｃｈａｎｉｓｍ）を祈している。全ての処理装置の出力に連結される入城加算器は存在せず、また、多重チップと組み合わされて語の精度を増加させるための機構も存在しない。

ＩＣＬのＤ　Ａ　Ｐ　（Ｄｉｓｔｒｉｂｕｔｅｄ　Ａｒｒａｙ　Ｐｒｏｃｅｓｓｏｒ）のプロセッサチップはＧＡＰＰチップに非常に似ている。シンキング・マシーン社（Ｔｈｉｎｋｉｎｇ　Ｍａｃｈｉｎｅｓ、　Ｉｎｃ、）の接続マシン内プロセッサチップもＧＡＰＰチップに似ているが、チップ間で行われる相互接続の構造がより弾力に富んでいる。１９８７年６月発行のｒｓｃｉｅｎｔｉｆｉｃ　ＡｍｅｒｉｃａｎＪ所載のダブリュ・ダニエル・ヒリス（Ｗ、　Ｄａｎｉｅｌ　Ｈｉｌｌｉｓ）による「接続マシン（Ｔｈｅ　Ｃｏｎｎｅｃｔｉｏｎ　Ｍａｃｈｉｎｅ）Ｊ参照のこと。

２、ＩＴＴの細胞状アレイプロセッサアレイチップＩＩ−Ｍ（Ｃｅｌｌｕｌａｒ　Ａｒｒａｙ　Ｐｒｏｃｅｓｓｏｒ　Ａｒｒａｙ　Ｃｈｉｐ　ＩＩ−Ｍ）細胞状アレイプロセッサ（ＣＡＰ）アレイチップＴＩ−Ｍは多重語、２５６ビツト幅のメモリを含み、メモリの各行は１６ビツト毎の１６群に構成されている。１６ビノト各群は、１６ビソトＡＬＵを含む自身の処理装置に連結される。別のメモリ／処理装置対が、チップの大きな物理的寸法ために生じ得る組立の欠点を見越して、設けられる。多（のメモリ／処理装置を備えている結果、並行処理チップが得られる。

データは、１６ピノト幅の共通データバスを介してチップに／から転送される。

全ての処理装置は、−組の命令入力により特定される動作を一斉に行うように動作する。この構造は、オンチップメモリの広い帯域を利用しており、メモリの各行から２５６ビツトの全てにアクセス可能であり、同時に処理可能である。

全ての処理装置の出力を組み合わせる入城加算器は設けられておらず、複数のチップを組み合わせることにより語の精度を増加させるための機構も存在しないが、複数のＡＬＵが同時に動作して、語の寸法を１６ビツト多重にまで増加している。入城加算器、及びその１６ピｙ）語の信頼性及び一般目的命令セットが存在しないので、ベクトル点乗積を効果的に行うために用いることは困難である。

この子ノブについては、ｒＰｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　１９８６　Ｆａｌｌ　ＪｏｉｎｔＣｏｍｐｕｔｅｒ　ＣｏｎｆｅｒｅｎｃｅＪの２７７頁乃至２８６頁所載のステイーブン・モートン（Ｓｔｅｖｅｎ　Ｍｏｒｔｏｎ）によりｒＡ　Ｆａｕｌｔ−Ｔｏｌｅｒａｎｔ、　Ｂｉｔ−Ｐａｒａｌｌｅｌ、Ｃｅ１ｌｕｌａｒ　Ａｒｒａｙ　ＰｒｏｃｅｓｓｏｒＪに記述されている。

３、連想記憶メモリチップ（Ｃｏｎｔｅｎｔ−Ａｄｄｒｅｓｓａｂｌｅ　Ｍｅｍｏｒｙ　Ｃｈｉｐｓ）これらのチップは、記憶パターン組の要素とチ・ノブに送られたターゲットパターンとが正確に適合するかどうかを判断する。数学的演算は行わないため、信号処理や（正確整合（ｅｘａｃｔ−ｍａｔｃｈ）ではなく）最適整合（ｂｅｓｔ−＋＋＋ａｔｃｈ）、パターン認識よりは、データベース調査及び検索のアプリケーションにのみ好適なものである。

このチップの例は、１９８８年ｌＯ月発行のｒｖｔ、ｓｌ　Ｓｙｓｔｅｍｓ　ＤｅｓｉｇｎＪの４６頁乃至５８頁及び８４頁所載のシー・アール・ペトリ（Ｃ，Ｒ，Ｐｅｔｒｉｅ）及びエイ・アール＋ハーソン（Ａ、　Ｒ，）Ｉｕｒｓｏｎ）によりｒＡ　ＶＬＳＩ　ＪｏｉｎＭｏｄｕｌｅＪに記載されている。

４、ＳＬＡＭチップこのチップはスタッフォード大学により設計され、特許が取得されたものである。これは、グラフィックスアプリケーションのためのメモリチップ上に配置された複数の単一ブロモ、すを供給する。

コンピュータ生成画像内の対象が、グラフィックス表示システムに関する要求に応じて、充填される（表される（ｒｅｎｄｅｒｅｄ））。マトリックス乗算は実行されない。チップは個々に作業を行い、その結果を、演算の精度を高めるために複数のチップ間で組み合わすことはできない。

５、ビデオダイナミックランダムアクセスメモリ２５６に語×４ビットに構成された、ｒＨｊｔａｃｈｉ　５３４６１Ｊのような、ビデオダイナミックランダムアクセスメモリ（ＶＤＲＡＭ）は、メモリの行の取り出しがチップに内蔵するデータビットを供給すると言う事実を使用している。これらのビ・２トは、各データの行が広（為場合には、複数のチップ上のシフトレジスタにロード可能であり、メモリを通常のランダムアクセス仕様で動作させながら、レジスタ内のデータを高速でチップから外にシフトさせることが可能である。

処理論理は備えていない。

６、　「スマート型Ｊ　ＶＤＲＡＭオンチップ処理性能を備えたＶＤＲＡＭが、ｒＨｉｔａｃｈｉ　５３４６２Ｊである。これはｒＨｉｔａｃｈｉ　５３４６１Ｊと同様のＶＤＲＡＭであるが、４つの１ビツト論理プロセツサを備えている。これらのプロセッサ＋１、レジスタの外ヘシフトされたデータと４つのメモリ入出力ビンカ）ら受信されたデータ間で行われる、論理積（ＡＮＤ）　、論理和（ＯＲ）、排他的論理和（ＮＯＲ）などの簡単な演算を可能化する。

乗算と加算は実行できない。オンチップ論理からの結果（まオンチップメモリに書き込まれるだけなので、複数の子・ノブ（こより計算を外部的に組み合わせることはできない。

７、オンチッブキャ・ノシュメモリ付マイクロプロセッサチップモトローラ社のｒＭｃ６８０２０Ｊのようなマイクロプロセッサチップは、遅い外部メモリから反復的なプログラムセグメントに関する命令を取り出すのを防止するために、小容量のオンチップメモリ、又はキャッシュメモリを含んでいる。単一のＡＬＵを備えているのみなので、これは、並行処理プロセッサではなく、スカラプロセッサである。精度を複数のチップの演算を組み合わせて高めることはできない。

８、Ｉｎ’ｍｏｓ）ランスピユータ（Ｔｒａｎｐｕｔｅｒ）列ピントストリームを用いる多重チップ間のデータ転送を促進するための４つの独立したオンチップバッファを備えている。他のマイクロプロセッサと同様に、単一のＡＬＵを備えており、並行プロセッサではなく、スカラプロセッサである。

９、ＦＥＢＲＩＳチップこのチップは、２進値データを用いた正確整合の１＜ターン認識のアプリケーションを意図したもので、かかるアプリケーションのために２５６ポイントの相関関係を提供する。このチップは、１６の１６ビノト整合レジスタと、１６の１６ビツトマスクレジスタをロードするために用いられるデータに関する１６の１６ビノトシフトレジスタを含んでいる。ｉ＝０〜１５、ｊ＝ｏ〜１５として、データレジスタからの（ｉ、ｊ）番目のビットが、整合レジスタからの（ｔ＋　Ｊ）番目のビットと排他的論理和（ＮＯＲ）され、その結果がマスクレジスタの（ｉ、ｊ）番目のビットと論理積（ＡＮＤ）される。全ての排他的論理和（ＮＯＲ）ゲートの出力は加算器、または真値入力の数をカウントする「検数（タリー）」回路に送られる。

この検数結果は０〜２５６の計数になり、９ピツトの出力を与える。

１６の１６ピノトデータシフトレジスタ内に含まれる２５６の変数の各精度は１ビツトである。最適整合は決定することができない。

データの各ビットは、畳込みウィンドウの全ての可能位置内に用いるべく、チップ内に１６回送られる。−組の相互接続された、外部なる。

このチップは、１９８７年６月発行のｒ　ＩＥＥＥ　Ｊｏｕｒｎａｌ　ｏｆ　５ｏｌｉｄ　５ｔａｔｅ　Ｃ１ｒｃｕｉｔｓＪ第４２３頁乃至第４２９頁所載のマーセル・ベルブロム（Ｍａｒｅｅｌ　Ｐｅｌｇｒｏｍ）らによるｒＦＥＢＲＩｓ　：　Ａ　ｃｈｉｐ　ｆｏｒ　Ｐａｔｔｅｒｎ　ＲｅｃｏｇｉｎｉｔｉｏｎＪに記載されている。このチップがこの発明のフンチクストで重要な意味を持つのは、検数回路（多入力加算器）を採用しているからであり、この検数回路は本発明の要素でもある。

１０、ビットスライスプロセッサチップｒＡｄｖａｎｃｅｄ　Ｍｉｃｒｏ　Ｄｅｖｉｃｅｓ　２９０３Ｊはその演算の精度を多重４ビツト内で選択することを可能にする。積算は、順次加算／シフトアルゴリズムを用いて実行される。これは、一度に要素の単一組のみの演算が可能なスカラプロセッサである。このチップが含んでいる記憶容量は、大容量低速メモリと小容量高速メモリとをチップ上に組み合わせることのできない二重ボート型レジスタバンク設計に反映されるように、非常に制限的である。

１１、積算／累算器チップ積算／累算器チップはいくつかの企業で製造されている。これらはスカラデバイスである。−周期内で、これらのチップは二つの数を積算し、その結果をチップ上に記憶された現在の合計に加える。

典型的な固定小数点装置としては、ｒＴＲＷ　ＭＰＹ−１６Ｊ及びｒｌＤＴ　７２１０Ｊがある。入力としては８．１２また１６ビノトを備えている。またこれらのチップは僅かな記憶ロケーションを備えているに過ぎない。

積算／累算器チップは高速静的ＲＡＭ、アドレス発生器、及び点乗積演算を実行するための制御論理と組み合わせることが可能である。ここで再び問題となるのは、データをあちこち移動させるために高速のデータ経路がチップ間で必要となる点である。これらのデータ経路の寸法は並行動作するチップの数に比例しており、並行に動作されるチップの数が多ければシステムの動作性能も向上するものと推定される。チップ間のデータ移動は、チップを結ぶ信号線が比較的高いキャパシタンスを有しているために、非効率的であり、データが送られる転送線のポイントは高電力が要求される点である。

これとは対称的に、信号線がチップ上におかれる場合には、キャパシタンス量は通常は数単位小さくなる。長さが非常に短いので多くの場合転送線の問題は回避可能であり、ある地点から別の地点へ同じ信号を伝達する場合にも非常小さい電力が必要とされるに過ぎない。さらに、ある標準構造の単一チップ上に数百ピット幅のバスを備えることが非常に経済的であるが、同様のバス幅をいくつかのチップを接続するために使用する場合には非常に高価になる。

−緒に作動し、その出力が外部で合算されるような多数の積算／累算器からシステムを構築することは、合算を行うために情報を運ぶために多くのピンが必要となるため、非効率的である。別の加算器によって２つの３２ビツト量を合計する場合には、９７のデータピン、２つの３２ビツト入力及び１つの３２ビツト出力が必要であな回路なので、非常に小さなチップで機能を実行することが可能であるが、加算器はかかる最小寸法機能よりも多くのピンを必要とし、チップ面積を浪費し、コストを高める。かかるチップは「ピン制限的（ｐｉｎ　１１ｍ１ｔｅｄ）Ｊであると言われている。

１２、アプリケーション特殊集積回路積の合算を行うために加算器に沿ってチップ上に幾つかの多重ビツト積算器を置くことにより、積の合計の演算を実行する場合に必要となるピンの数を減らすことができる。ごれは、多くの企業により製造されている「セルライブラリ」を用いることにより可能になる。問題は、如何にしてデータと共に供給される算術要素を保持し、如何にして、それぞれを別のチップとして構築することなく、各アプリケーションに関して要求される正しい精度量を得るかである。

１３、：７ンボルバ（Ｃｏｎｖｏｌｖｅｒ）チップコンポルバチノブは、レジスタ、積算器及び加算器を、フィルタリング演算を行うために同一チップ上に配置している。これらのチップは、積算器と加算器が同一チップ上に含まれているので、積算／累算器チップ系よりも、相関又は二次限畳み込みといった、ある種の演算を効果的に実行可能である。

典型的な装置はｒ　１ｒｖｏｓ　ＩＭＳ　Ａ１００Ｊのカスケード可能信号プロセッサ（Ｃａｓｃａｄａｂｌｅ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）であり、この装置は３２段の横フィルタ（ｔｒａｎｓｖｅｒｓａｌ　ｆｉｌｔｅｒ）を含み、４．８．１２及び１６のビットは場で選択される係数を許容している。しかしながら、乗算器ハードウェアは入力時に４ビット幅であり処理が進むに連れより多くのどノドを生じるため、さらに、単一チップ上に３２の１６ビノトＸ１６ビノトの乗算器を設けることは不経済なので、係数が広がれば広がるほどサンプリング率が低下する。さらにまた、チップは同じ信号を乗算器に供給するので（順次遅延させる場合もあるが）、マトリックス乗算に使用することはできない。

（発明の開示）本発明の目的は、ベクトルのマトリックス倍の乗算を効果的に行うことにある。

効率の問題は、（１）同じデータ列を高価なメモリから取り出し、高価な相互接続システムを介して演算を行うための処理装置にまで転送する回数、及び（２）如何に効率的に各回路要素を用いるかに係っている。積の合計の計算は直接実行される。

説明を簡略化するため、マトリックスの各行（行ベクトル）に列ベクトルをなすベクトルを掛けるものと仮定する。当然に、単一の行ベクトルにマトリックスの各列を掛けることも可能であり、本発明は両方の演算に応用できる。周知の通り、マトリックスの各行ベクトルは単一のメモリ周期内でアクセス可能なメモリセルの行に置き換え可能なので、マトリックスの行ベクトルと列ベクトルに過程を設定することにより、説明を簡略化することができる。

発明者の見解によれば、現在のシステムで、各列ベクトルとの乗すチノブ群から同じデータを繰り返し読出すことが必要であり、さらに要素を処理するために相互接続システム間の移動が必要であるため、無駄が多い。この無駄は、ベクトル長さ、すなわち要素の数が増えれば増えるほど増加する。この反復読出しは、（Ａ）（Ｂ）＝　（ｃ）のような、２つのマトリックスの乗算から帰結するものである。というのも、全（Ａ）マトリックスが、（Ｂ）マトリックスの各列に関して、一つのマトリックスを何度も使う必要がある反復アルゴリズムから、又は新しい一組の刺激の各々が同じマトリックスを用いて処理される必要がある信号処理及びパターン認識用アプリケーションから、要求されるからである。

特に：１　ベクトルのマトリックス倍の乗算を行う組合わせプロセッサ及びメモリチップがここで説明される。このチップでは、システムの処理能力はシステムの記憶容量が増加するに応じて増加する。

マトリックスデータは、計算がチップ内部で行われている間、チップ内にロードされチップから読出される。

２　ベクトルのマトリックス倍の乗算を実行するための新規な方法が説明される。２進値演算の順序は、多くの演算が大容量メモリコアに非常に近接した位置で行われ、生じるデータ縮小の結果チップを離れる接続数を最小限に抑えるように、選択される。

３　マドソックスデータは、あたかも通常のメモリチップのように、知識メモリチップにロードされ、そこから読出される。

４　マトリックス及びベクトルを記憶するために必要な最小数を越えて知識メモリチップの数を増加させて、システムの動作性能を増加させるための新規な方法が与えられる。

５−組の知識メモリチップが取り扱うことができるよりも大きな問題を取り扱うために、複数組の知識メモリチップを一緒に動作させることが可能な新規な方法が与えられる。

６　全での数が各マトリックス及びベクトル内で一貫した表現を有する限りは、符号付き数及び符号無し数を組合わせ・た固定小数点表現を用いることが可能である。

７　マトリ、クス及びベクトルの精度は自由に選択することができる。ベクトルの精度は回路の動作中に容易に選択できるが、マトリックスの精度はシステム設計時により効果的に選択される。全ての精度の合計が実行される。

８　マトリックスの行の数とベクトルの要素の数は、構造の効率がこれらの寸法、すなわち寸法の増加に依存しており、好適な実施例では、寸法を２５６のオーダー又はその倍数に設定してはいるが、個々に自由に選択することができる。システム動作時に、チップの最大容量よりも小さい寸法であれば動的に選択可能である。

さらに、マトリックスの任意の列を自由にマスク、又は動的に不能化することもできる。代替実施例においては、効果的に取り扱われる列が２５６よりも少ないマトリックスの設計が示される。

９　各知識メモリチップ上のメモリ及び処理要素の構造、同様のチップと支援チップ（ベクトル累算器チップ）の群の構造、及び乗算が実行されるシーケンスは、すべて、乗算を支援するべく各知識メモリの外部に必要とされるメモリ周期の数を劇的に減少するように設計される。かかる設計思想は、乗算を支援するために必要とされるチップの数とコストを減少させ、知識メモリチップ外部のチップを同じチップ上に製造する必要性を減少させることによりメモリの分担を促進する。集中データ処理のアプリケーションの場合には、マトリックスは延長された周期、又は永久に知識メモリチップ内に常駐され、知識メモリチップ外部のメモリからマトリックスを取り出す必要がなくなる。

１０　チップ面積の大部分が論理回路ではな（、メモリによって占有されるようにチップを構成することが好ましい。メモリは密集的であり論理ゲートはそうではなく、多くの問題は記憶され処理されるべき非常に多くの情報を要求するので、大容量メモリと計算が行われている現在の記憶領域の間のデータ移動を最小限に抑えることが好ましい。さらに、大容量メモリは、周知の技法を用いて、小さな割合の余分の行及び列を設けることにより、製造上の欠陥を補い７、コストを下げることができる。このような経済的な欠陥補償技法はランダム論理構造には存在しない。

１１　さらに、本発明の目的は、設計にシリコン及びガリウムヒ化物などの多くの製造技法との互換性をもたせ、チップが動作せねばならない環境及び要求される動作性能に応じて、最適の製造技法を採用可能にすることである。さらに、ＣＭＯ３設計技法の使用る。

１２　さらに、本発明の目的は、設計にＤＲＡＭ、ＳＲＡＭ５　ＥＰＲＯＭＳＲＯＭなどの多くのメモリ技法との互換性をもたせ、データの生存時間に応答させることである。このように、システムは、交換可能ではあるが不揮発性のメモリ内に記憶された組込みパターンで製造されるか、又は、揮発性メモリ内に連続的ロードされる値を備えている。

１３　知識メモリチップの論理部分の動作は効果的であり、最小の可能領域内で最大の動作性能を得ることができる。桁上げ予見回路を用いる加算器は、大部分のゲートは、活動に波があり、従って瞬間的にみれば大部分のゲートが活動していない多ビツト組合わせ積算器とは異なり、大部分の時間活動しているので、効果的であると考えられる。。

１４　メモリの最大利用を達成するために、知識メモリチップの処理部分の構造は、メモリの固有構造を反映すべきである。大容量メモリセルのアレイは、全ての方向へ信号が走る長さを最小にしてキャパシタンスを減少させ動作性能を改良するために、はぼ正方形をしているので、出力で同時に利用可能なビットの数は記憶された総ビット数の平方根である。このように、このプロセッサ構造はメモリの出力で多数のビットを利用することができる。

１５　本発明の目的は、マトリックス及びベクトルの精度を、個々に自由に選択可能であり、任意の大きなウィンドウを得るために複数の知識メモリチップを一緒に動作させることが可能な、畳込み（図面の簡単な説明）本発明の実行の詳細は、添付図面に示された、概略的なブロック図及び演算により説明される。全ての図面はこの発明に基づくものである。

第１図は、算術演算の方程式が、複数のｌビ・ｙト知識メモリチ・ノブを横切って、かつ複数の時間周期にわたって分布される様子を示している。

第２図は、マトリックス及びベクトルが、複数の１ビ・ソト知識メモリチップのメモリ内に記憶される様子を示している。

第３図は、ベクトルのマトリックス倍の乗算を行う、複数の知識メモリチップとベクトル積算チップから成る、知識メモリブロックを示している。

第４図は、１ビツト知識メモリチツプのプロ、り図を示している。

第５図は、１ビア）知識メモリチップ内の記憶位置内のマド１ルツクス及びベクトル情報の配置、及びブロモ・ツサスライスへのこの情報の流れを示している。

第６図は、１ビツト知識メモリチツプのベクトルメモリ内へのベクトル要素のピントの配置を示している。

第７図は、１ビツト知識メモリチツプ内の１ビノトブロセ・ノサスライスの相互接続を示している。

第８図は、各１ビツトプロセツサスライスの概略図を示している。

第９図は、知識メモリチップ内のマトリックスアドレス論理のブロック図である。

第１０図は、知識メモリチップ内のベクトルアドレス論理内のアドレス回路のブロック図である。

第１１図は、知識メモリチップ内のベクトルメモリ内の一つの記憶せるの転送レベルの概略を示している。

第１２図は、ベクトルアドレス論理内の列駆動器／受信機のブロック図である。

第１３図は、ベクトル積算器チップのブロック図である。

第１４図は、ベクトル積算器チップ内の重み付は加算器のブロック図である。

第１５図は、ｌＯビット重み付は加算器を示している。

第１６図は、１２ピット重み付は加算器を示している。

第１７図は、１６ビツト重み付は加算器を示している。

第１８１図は、本発明の詳細な説明するためのマトリックス及びベクトルの事例を示している。第１８．２図は、ベクトルのマトリックス倍の第１の行の乗算の詳細を示している。第１８．３図は、同じベクトルのマトリックス倍の第２の行の乗算の詳細を示している。

第１９図は、単一のブロックで扱えるものよりも大きなマトリックスを扱うために、又は単一のブロックの時得られるものよりも良好な動作性能又は精度を得るために４つの知識メモリブロックを一緒に動作せる様子を示している。

第２０図は、各マトリックスのビットに４ビツトのベクトルを掛ける場合の、プロセッサ論理に関する代替実施例を示している。

第２１図は、２つの隣接する４Ｘ４畳込みウィンドウに組分けされた画素（ヒリセル）の二次元アレイを示している。最も左側のウィンドウは、行＝０、列＝０、すなわちＷ（０，０）位置である。最も右側のウィンドウは、Ｗ（０，４）位置である。また、各ウィンドウの画素が知識メモリチップ内のマトリックスメモリの行に順序づけて配置されるシーケンスが示されている。

第２２図は、位置列右側のＷ（０，１）位置に移動させられた畳込みウィンドウを示している。

第２３図は、Ｗ（０，２）位置にあるウィンドウを示している。

第２４図は、Ｗ（０，３）位置にあるウィンドウを示している。

第２５図は、第２１図のウィンドウの画素と同様の重みのビットを、知識メモリチップのマトリックスメモリの行に記憶する方法を示している。一連のチップが、画素の一連の同様の重みを有するビット組を記憶する。

第２６図は、画素の線を下に移動した場合の畳込みウィンドウを示している。ウィンドウはｗ（ｉ、ｏ）及びＷ（１，４）位置にある。

ウィンドウ内の画素がマトリックスメモリの行内に順序づけて配置されるシーケンスも示されている。

第２７図は、第２６図に示すウィンドウのピクセルと同様の重みのビットを、知識メモリチップのマトリックスメモリの行に記憶する方法を示している。一連のチップが、画素の一連の同様の重みを有するビット組を記憶する。

第２８図は、画素の線を下に移動した場合の畳込みウィンドウを示している。ウィンドウはＷ（２，０）及びＷ（２，４）位置にある。

ウィンドウ内の画素が知識メモリチップ内のマトリックスメモリの行内に順序づけて配置されるシーケンスも示されている。

第２９図は、第２８図に示すウィンドウのピクセルと同様の重みのビットを、知識メモリチップのマトリックスメモリの行に記憶する方法を示している。一連のチップが、画素の一連の同様の重みを有するビット組を記憶する。

第３０図は、画素の線を下に移動した場合の畳込みウィンドウを示している。ウィンドウはＷ（３，Ｏ）及びＷ（３，４）位置にある。

第３１図は、第３０図に示すウィンドウのピクセルと同様の重みのビットを、知識メモリチップのマトリックスメモリの行に記憶する方法を示している。一連のチップが、画素の一連の同様の重みを有するビット組を記憶する。

第３２図は、画素の線を下に移動した場合の畳込みウィンドウを示している。ウィンドウはＷ（３，０）及びＷ（３，４）位置にある。

第３３図は、第３２図に示すウィンドウのピクセルと同様の重みのビットを、知識メモリチップのマトリックスメモリの行に記憶する方法を示している。一連のチップが、画素の一連の同様の重みを有するビット組を記憶する。

第３４図は、４×４畳込みウィンドウの係数、及び、知識メモリチップのベクトルメモリの行内に順序づけて記憶されるシーケンスを示している。

第３５図は、４×４ウインドウに一貫する、ベクトルメモリ内の係数のだめの４つの位置を示している。

第３６図は、４×４ウインドウに関し、知識メモリチップ内のマトリックスシフタを含む、シフトレジスタ、ＭＳＲＯ及びＭＳＲＩを介して行われるデータ流れを示している。

第３７図は、４Ｘ４ウインドウと第２１図の画素の第１の線に関し、知識メモリチップ内のマトリックスシフタの２つのレジスタを介して行われる画素の流れを示している。

第３８図は、ウィンドウが如上の位置にある場合に、４×４畳込みウィンドウの演算を行うための方程式の様子を示している。

第３９図は、知識メモリ内の、ベクトルシフタ、ＶＳＲＯを介しての、４×４ウインドウに関する情報の流れを示している。

第４０図は、ベクトルシフタを介しての、４Ｘ４ウインドウに関する係数の流れを示している。

第４１図は、知識メモリチップ内の２５６ビントマトリノクスのシフタに関するブロック図を示している。

第４２図は、２５６ビノトマトリノクスシフタの４つの６４ビツトモジユールの内の一つのブロック図である。

第４３図は、２５６ビノトマトリツクスシフタの３２の８ビツトモジユールの内の一つのブロック図である。

ｉ４４図は、マトリックスシフタの６４ビツトモジユール内のマトリックスンフタマルチプレクサの表である。

第４５図は、知識メモリチップ内の２５６ビノトのベクトルシフタに関するブロック図である。

第４６図は、ベクトルシフタの３２の８ビツトモジユールの内の一つに関するブロック図である。

第４７図は、例示のために、３２Ｘ３２畳込みウィンドウに関する１０２４の係数組を示している。

第４８図は、４つの知識メモリチッブ内のベクトルメモリの列内への３２Ｘ３２ウインドウ係数の初期配置を示している。

第４９図は、画素の第２の線を処理するための位置への係数のシフトに先立つ、４つの知識メモリチップ内のベクトルメモリの列の別の部分へのウィンドウ係数の配置を示している。第４８図に示すデータと異なるデータには下線が付しである。

第５０図は、画素の第２の線を処理するための位置への係数のシフトの後の、４つの知識メモリチップ内のベクトルメモリの列の別の部分へのウィンドウ係数の配置を示している。第４９図で下線が付しである係数については、ここでも同様に下線が付されている。

（注　記）読み手の便を図るために、全ての引用番号は図面番号と関連されている。引用番号は（ＸＸＹＹ）といった形式で記載されているが、ここで、（ＸＸ）は添え字を除いた図面番号を示し、（ＹＹ）はその図面中の引用番号を示している。複数の図面中に同様の項目が存在する場合には、引用番号は最も若い番号の図面から引き出されている。

（発明を実施するための形態）基本原理ここに開示された１ビツト知識メモリチツプの群、又はブロックにより実行される算術が第１図に示されている。原理は行の数によって制限されることはないが、説明の簡略化のために、ここではマトリノクスが８行を有しているものと仮定する。特別な場合として、１行、すなわち、複数要素のベクトル対ではなく一対の数を掛は合わせるスカラ積がある。

第１図において実行される演算は次の通りである。

ここで、マトリックスの乗算は通常の規則に基づいて行われるので、その結果は次の通りである。

内　積＝Ａａ＋Ｂｂ＋Ｃｃ＋Ｄｄ＋Ｅｅ＋Ｆｆ＋Ｇｇ＋Ｈｈここで、新規な点は各要素のビットを取り扱う方法である。ビットは、ここに開示されているように、　（Ｍ）で示される１ビツト知識メモリチツプにより取り扱われる。これらのチップには、ＩＭｃ（０）　乃至ＩＭｃ　（Ｍ−１）のラベル付けが行われており、第０番乃至第Ｎ−１番の番号が付されたＮ回の時間周期にわたって演算が行われる。

典型的なマトリックス行ベクトル要素Ｘの２の補数の２進値表現は第１図において２進値べき級数として与えられる。当然に、共通の位取り因数が小数点重みを得るためにべき級数の全ての重みに与えられるが、これは含まれる原理に影響を与えるものではない。

Ｘの精度のビット数はＭである。マトリックスの各行の各要素が同じ精度を有していると仮定する。この場合のマトリックスの精度はＭビットである。符号無し演算が好ましい場合には、記憶されるビットの数はＭ−１のみでよく、ビットＭ −２が最後のものとなる。

Ｘ内の各ビットはＸ　（ｋ）という形式で与えられる。ここでｋは特殊ビットの番号であり、０乃至Ｍ−ｌの値を取る。共通表現により規定されている場合には、最重要ビｙ）Ｘ（Ｍ　１）は負の重み、すなわち、−（：”　（Ｍ−１）　）を持っている。マトリックス行ベクトルのビット番号Ｍは乗算を実行するために用いられる１ビツトチツプの番号と同じである点に注意する必要がある。ここに示される方法を通じて、単一チップをマトリックスの複数ビットを処理するために使用することができることが了解されよう。

典型的な列ベクトル要素Ｙの２の補数の２進値表現が、２進値の級数として第１図に示されている。当然に、共通の位取り因数が小数点重みを得るためにべき級数の全ての重みに与えられるが、これは含まれる原理に影響を与えるものではない。Ｙの精度のビット数はＮである。マトリックスの各行の各要素が同じ精度を有していると仮定する。この場合のマトリックスの精度はＮビットである。

符号無し演算が好ましい場合には、記憶されるビットの数はＮ−１のみでよく、ビットＮ−２が最後のものとなる。

Ｙ内の各ビットはＹ　（ｋ）という形式で与えられる。ここでｋは特殊ビットの番号であり、０乃至Ｎ−１の値を取る。共通表現により規定されている場合には、最重要ピッ１−Ｙ（Ｎ−１）は負の重み、すなわち、−（２”　（Ｍ−１））を持っている。マトリックス列ベクトルのビット番号Ｎは乗算を実行するための時間周期の番号と同じであるが、この時間は列ベクトル内の要素の数とは独立である点に注意する必要がある。ここに示される方法を通じて、知識メモリチップの複数の群を、ベクトルの精度のビット数の小数部に対する時間周期の数を減するために使用することができる。

Ｍビットが行ベクトルの精度であるような、Ｍチップの全てが各時間周期の間に同時に動作する。各チップは２進値ベクトルの内積１０２を計算する。２つのベクトルは２進値であるから、２つの２進値ビツトの積は２つのビットの論理積（ＡＮＤ、図中に「＆」で示す。）で表され、ｒｌ　Ｘ　ＩＪはｒｌＡＮＤＩＪと同じことになる。各チ・ノブは各周期の間に行ベクトルの同じビット上で動作するが、後続の周期では列ベクトルのより高い重みのピントに連続して進む。

計算の各組に関して２つの位取り因数が存在する。第１の位取り因数１００は、チップ０として示される特定知識メモリチップ内の行ベクトルの各ビットの重みである。この重みは、後続ビットの増加する重みに適合するように、あるチップから次のチップへ移行すると二倍にされる。第２の位取り因数ｌｏｔは、周期Ｏとして示される特定周期の間の列ベクトルからの同様な重みビット組の各ビットの重みである。この重みも、後続の同様な重みビット組の増加する重みに適合するように、ある周期から次の周期へ移行すると二倍にされる。

全ての知識メモリは、特定時間周期の間の列ベクトルの同様な重みビットの同じ組上で動作する。異なる知識メモリチップは各時間周期の間に行ベクトルの異なるビットを取り扱うが、所与の知識メモリチップは時間周期に拘らず行ベクトルのビットの同じ組を取り扱う。列ベクトルの連続ビットは連続時間周期の間全ての知識メモリチップにより取り扱われる。このように、各知識メモリチップは部分積を計算する。これらの部分積は、複数の知識メモリチップにわたって、および複数の時間周期にわたって重みづけられ合計され、完全な内積が得られる。

結果は完全に正確なので、数値的近似技法を用いる必要がないことに留意する必要がある。各行ベクトルおよび列ベクトルの精度の多くのビットが所望に応じて使用可能である。さらに、最適精度をハードウェアの数及びコストを低減させることが要求される特殊アプリケーションに使用可能なように、行ベクトルの精度を列ベクトルの精度と相違させることも可能である。

１以上の行ベクトルを備えたマトリックスは、如上の如く、第１の行ベクトル及び第１の列ベクトルの内積を計算することにより取り扱われ、次いで第２の行ベクトルと第１の列ベクトルの内積が行われ、以下同様に、所望の数の行ベクトルについて計算が行われる。

この技法は、単一の列ベクトルのマトリックス倍の乗算に限定されない。１以上の列ベクトルを備えたマトリックスが、第１の列べクトルに関する内積の全てを計算することにより取り扱われ、次いで第２の行ベクトルに関する内積の全てが行われ、以下同様に、所望の数の列ベクトルについて計算が行われる。知識メモリチ、、ブが複数の列ベクトルを記憶可能な場合には、ある行ベクトルは次々と列ベクトルに関して乗算が行われ、次いで次の行ベクトルに関して処理が反復され、以下同様にある行ベクトルから次の行ベクトルへと列ベクトルをロードせずに演算を行うことが可能である。

ｌビット知識メモリチップの群内にデータを記憶する方法が第２図に示されている。簡略化のために、わずか８ビツトのマトリックス精度を仮定する。この場合、８つの１ビット知識メモリチ、２ブが必要とされ、第１図に示す例とも一致する。データの表現は以前の記憶フォーマットの要点は、（１）マトリックスの行は知識メモリチップ内の［マトリックスメモ１月内のメモリ刻せるの物理的行内に記憶され、（２）　後続のマトリックスの行はマトリ、クスメモリの後続の行内に記憶され、（３）後続の列の配置は左から右へ、又はその逆に全てに関し同じ順序に従い順次行われ、（４）マトリ、クスの各列はマトリックスメモリの物理的列に落とさねばならず、（５）列ベクトルの要素の順序は行ベクトルの要素の順序と一致する必要がある。

知識メモリチップ０、ＩＭＣ（０）内のマトリックスメモリの内容が引用番号２００として示されている。２００はマトリックスの「ビ・ノド平面Ｏ」を表現している。知識メモリチップｌ、ＩＭＣ（１）内のマトリックスメモリの内容が引用番号２０１として示されている。知識メモリチップ６、ＩＭＣ（６）内のマトリックスメモリの内容が引用番号２０６として示されている。知識メモリチップ７、ＩＭＣ（７）内のマトリックスメモリの内容が引用番号２０７として示されている。

他のビットについても同様に示されている。表記はく「Ｍ」マトリックス行９列ビット番号）の形式で行われる。従って（ＭＯ，０ｂＯ）は、マトリックス要素（０，Ｏ）でビット（０）を示す。

上述のように、各知識メモリチップはマトリックスの各要素に関する特定ビットを記憶する。同様に、知識メモリチップが上述の制約を被る点を除けば、共通１ビット幅メモリチップはマトリックスの複数ピントを記憶する。

知識メモリ内に記憶されている各マトリックスのビット番号は１つに固定されるが、適当な値を取ることができる。マトリックスの複数のビットが１つのチップに記憶されている場合に、複数ビ、ｌ−のチップは、単に複数の１ビツトチツプを内部に備えたものとして考えることができる。

マトリックスの記憶と異なり、列ベクトルの各要素の全ビットは、個々に、引用番号２０８として示される、各知識メモリチップＩＭＣ（７−０）内のベクトルメモリ内に記憶される。２つの列ベクトルが示されているが、実際の数は使用されるベクトルの寸法に依存している。前の列ベクトルが用いられている間に、新しい列ベクトルをロード可能なように、少なくとも２つの列ベクトルに関する記憶ができることが好ましい。

単一の知識メモリチップが記憶できるよりも大きなマトリックスを扱う方法、及び各内積を計算する周期の回数を減少させる方法については後述する。

知識メモリアーキテクチャの動作性能の改良は、長い、典型的には２５６要素からなるベクトルを備えたベクトルの内積演算を最適にするような、堅密に連結された、微小のメモリ及び処理構造により得ることができる。全てのマトリックスが知識メモリチップ群のマトリックスメモリに適合するものと仮定すれば、列ベクトル及びマトリックスのロードが必要な外部メモリ幅は一切不　となり、システムのコストを劇的に減少させることができる。

典型的な１ビツト知識メモリチツプは、ＣＭＯ３の６４にビット、毎に２５６要素の内積を行う。後述の通り、アドレス発生、（列の複合なしの）メモリアクセス、データ処理が全て同一チップ上で行われるので、多くの相互接続により遅れを減少することができる。

（相互接続直列チップではなく）、単一チップの遅れに相当するシステムのクロック周期を用いることができる。

８つの知識メモリチップと部分積を組み合わせるチップ（ここでは、「ベクトル積算チップ」として開示されている）は、信号処理に関し１秒間力たり１０２４Ｍ回の８ビツト×８ビツトの乗算を行うか、又は、パターン認識に関し１秒間力たり８１９２Ｍ回の８ビツトかかるｌビットの乗算を行うことが可能であり、両計算とも完全な精度の合算を得ることができる。（極度に大きなシステムては無視できない遅れを生じさせるが）、一般に、マトリックスの精度が計算時間に与える影響は無視できる程度であり、むしろ必要な知識メモリの数に直接影響を与える。

アプリケーションによって、マトリックスメモリを揮発性のものとすることもできるし、不揮発性ものとすることもできる。チ・ノブ上のマトリックス及びベクトルメモリは２５６ビ・ノド幅の倍数であり、同寸法のマトリックスを扱うことが可能であり、（１）マド肝ノクス×ベクトル乗算の間に列ベクトルを、（２）マド１ルツクス演算や、例えばパターン認識のような反復処理の間にマトリ・ノクスを、繰り返し取り出すことを回避することにより、外部のメモリ幅要求を劇的に減少させることができる。

ツクのブロック図が示されている。これは、第１図及び第２図に仮定され、この明細書を通じて使用される「８ビツト知識メモリブロツク」である。各１ビツト知識メモリチ・ノブ３０５．３０６は、ベクトルアドレス３００、ベクトルデータ３０１、クロック及び制御３０２、及びマトリックスアドレス３０３の各線により共通して駆動される。８つのマトリックスデータ線３０４は知識メモリチップの１つにのみ連結され、ビット０　（ＢＯ）が３０６に送られ、ビット７　（Ｂ７）が３０５に送られる。

この接続は、８ビツトバスを処理するために８つのメモリが用（鴫れる共通１ビ、ト幅メモリの場合にも同様である。

マトリックスは、制御、マド１ルツクスアドレス及びマド「ルックスデータの各線を用いて知識メモリチッブ内にロードされる。マトリックスは、チップが時間の大部分を計算に費やすことができるように、新しいマトリックスがロードされる前に、何回も用いられるものとする。マトリックスは、適当なシステムを構築する能力を備えた通常のメモリチップ内に記憶されたように、更新することもできる。マトリックスアドレス及びマトリックスデータ線は典型的には、それぞれ、マイクロプロセッサ又は信号プロセッサのアドレス及びデータ線に連結され、知識メモリチップがこれらのプロセッサのメモリアドレス空間の部分として処理可能になる。このインタフェースの容易さもこのアーキテクチャの主要な効果である。

ベクトルはクロック、制御、ベクトルアドレス及びベクトルデータの各線を用いてロードされる。ベクトルの１つの要素は順次ロードされる。ベクトルデータ経路の幅よりもベクトルの要素内のビットが多い場合には、複数の周期が各要素をロードするために用いられる。この要素直列インタフェースは、非常に経済的であり、僅かな線と単純な制御を必要とするに過ぎない。

チップは、ベクトルのベクトル倍の乗算よりは、ベクトルのマトリックス倍の乗算を目的としたものであり、ベクトルのマトリックス倍の乗算を行うためのクロック周期の数は、少なくとも、次のベクトルをロードするために必要なりロック周期の数と同じである。

前のベクトルについての演算が終了する場合に既に新しいベクトルが準備されているので、新しいベクトルのロードを待機せずに、チップは計算を連続的に実行できる。

算術演算は、マトリックスとベクトルがロードされる毎に行うことが可能である。各クロック周期毎に、各知識メモリチップは、マトリックスメモリ内に記憶されたマトリックスの１つの行と、ベクトルメモリ内に記憶されたベクトルの同様の重みを持つビット組の１つとの間でベクトル内積を計算する。

第３図に示すものと同様の構造を、大きいものであろうと、目に見えないほど小さいものであろうといかなる寸法で製造することが可能であり、いかなる水準の精度が要求されても達成可能である。

システムの総動作性能は、活動ブロック内の全ての知識メモリが同時にない積を計算できるので、マトリックスの精度を増加させるために用いられるチップの数を増やすことにより、高めることができる。共通メモリチップを加えることは記憶容量を加えることが直接りのアーキテクチャと異なり、知識メモリチップを用いるシステムの処理能力は、システムの記憶容量が増加するにつれ高まる。

上述のように、ベクトル積算チップ（ＶＡＣ）３１０は、２つの知識メモリチップ空間にまたがり、あるいは、多くの知識メモリチップが用いられている場合にはそれらにまたがり、列ベクトルの連続する同様の重みビット、又はビットベクトルの組が処理される時間にわたって、知識メモリチップから部分積（Ｐ　Ｐ　）　３０７．３０８を加える。

各計算結果は、内積出力（ＤＰＯ）線３１１の出力となる。完全な精度の結果を示すために必要なビットよりも少ないビットを望む場合には、ベクトル積算チップは、多くの積算の合計からビットの数を減少させる場合に共通なように、丸め込み又は切り捨てを行うことも可能である。

単−周期内で、各ｌビット知識メモリチップは、典型的には、２５６の１ビツト ×１ビツト乗算を行い、その結果を加える。このように、各チップは、１つの１６ビノトＸ１６ビノトの乗算器、４つの８ビツト×８ビツトの乗算器、又は３２の１ビツト×８ビツトの乗算器に相当する処理能力を有し、新しい結果を２５ナノ病毎に送り出す。この計算は、多くのチップ間相互接続を備えた従来の乗算器、メモリ及び加算器のシステムが知識メモリチップシステムと同じ速度で動作可能であると仮定したものである。対等に考えれば、８つの知識メモリチップはこの例では同時に作動するので、それらの総処理能力は、１秒間に１２８０Ｍ回の８ビツト×８ビツトの乗算／加算を伝送する数字の８倍に達する。

知識メモリアーキテクチャの利点を以下に示す。

１　全列ベクトルの全マトリックス倍の乗算が、知識メモリチップの外部にマトリックス又は列ベクトルにアクセスするメモリ周期を必要とせずに、実行可能である。

２　マトリックスへのアドレスが、各アドレスがマトリックスの完全行の全てのビットを同時に取り出すような、単純な線形シーケンスにより可能である。処理されるデータ語の総寸法は、このように、使用される知識メモリチップの数の１つの知識メモリチップ内の行幅倍である。これは、第３図の例では、８つのチップの２５６ビノト／チップ倍であり、２０４８である。

３　アドレス発生、メモリアクセス、乗算及び低レベル合算は、全て、チップ間の接続、接続による遅れ及び相互接続を駆動するための電力が不要な単一チップ上で行われ、データがチップ境界を越える場合に必要とされた場合に比較して、低い動作性能のメモリアーキテクチャから高速性を得ることが可能である。

４　システム設計者は、動作性能が１独占たりに行われる完全な精度の演算数として動作性能を測定できるような精度と動作性能の間に対等の関連があるアプリケーションに対して列ベクトルの精度を適合させることができる。すなわち、ｌの８ビツト×８ビツトの演算が、８の１ビツト×８ピントの演算などが行われるのと同じ時間で行うことができる。

５　何らかのハードウェアを使用しない限り、従来のシステム設計は、列ベクトルに必要な精度に依存して、急激に変化する。これにたいして、知識メモリシステムに変化にもたらし得るものは、制御信号のシーケンスの変化のみである。

知識メモリチップの詳細第４図は、１ビツト知識メモリチツプのブロック図を示している。

全てのバス幅は、特定のバス幅の組を必要としないことを示すために記号によって示している。典型的な数値を（）内に示している。

これらの典型的な数値は、以後の説明を通して用いられるものである。

設計のパラメータを以下に示す。

１、ＭＡＢ＝マトリックスアドレスピット（の数）であり、典型的には、８である。

２．ＭＭＲ＝マトリックスメモリ行くの数）であり、典型的には、２５６である。

３、ＭＤＢ＝マトリックスデータビット（の数）であり、典型的には、ｌである。

４、ＭＭＣ−マトリックスメモリ列（の数）であり、典型的には、２５６である。

５、ＰＢ＝プロセッサビット（の数）であり、典型的には、２５６である。

６、ＰＰＢ＝部分積ビット（の数）であり、典型的には、９である。

７、ＶＭＣ−ベクトルメモリ列（の数）であり、典型的には、２８、ＶＭＲ−ベクトルメモリ行（の数）であり、典型的には、３２である。

ここで、ＶＭＲは、列ベクトルの行の数ではなくて、列ベクトルの単一要素の中の精度のビットの最大数である。

９、ＶＡＢ−ベクトルアドレス（の数）であり、典型的には、１０である。

１０、ＶＤＢ＝ベクトルデータビット（の数）であり、典型的には、８である。

チップは、図中に点線で示したように３つの区画を有している。

１、マトリックスメモリファ４００とマトリックスアドレス論理４０２からなる、マトリックスメモリである。

２、プロセッサ論理は、マトリックスシフタ４０７、プロセッサスライス４０９、ベクトルシフタ４１７、及び検数論理、又は加算器４１０からなる。

３、ベクトルメモリはベクトルメモリコア４１８及びベクトルアドレス論理４２３からなる。

マトリックスデータ線４０５からの１ビツトは、マトリックスアドレス４０３により選択された位置にあるマトリックスメモリファ内に入れられる。多くのメモリチップに共通なように、行及び列アドレスは必要なビンの数を減らすためにマトリックスアドレス線上で多重化ヨウニ、？＋−リックスメモリコアは感知増幅器と、チップの外からデータを読出し及び書き込みするためのマトリックスデータ線にコアの１つの列を接続する列選択論理を備えている。この読出し及び書き込みは、知識メモリチップが単純がインタフェースを備えた普通のメモリチップであると同様に実行される。

マトリックスデータの単一ビットは一度に各１ビツトの知識メモリチップのマトリックスメモリ内に書き込まれるが、２５６ビノト幅のマトリックスデータの全行は読み込まれマトリックスメモリバス４０４を介してマトリックスシフタ４０７に送られる。

このように、知識メモリチップは二重ポートメモリの新しい形式である。これはオフチップ論理がマトリックスの読出し及び書き込みに関して通常のメモリチップと同様にそれを扱うのを可能にすると共に、オンチップ処理論理が一度にマトリックスの全行にアクセスするのを可能にする。

オフチップ読出し及び書き込みに関する制御は、多くのメモリチップと同様に、マトリックス制御線４０６によって取り扱われる。御チップ続出しに関する制御もまた、これらの線によって取り扱われる。

ただ１つの共通点は、オフチップ装置によるマトリ、クスメモリコアの使用とオンチッププロセッサ論理によるマトリックスメモリコアの使用との間のタイミング衝突が調停される必要がある点である。

後述のように、オンチッププロセッサ論理によるマトリックスメモリコアの使用を促進するためのマトリックスアドレス論理内に別の能力が与えられる。

ベクトルメモリコア４１８はベクトルデータ線４２５を介して受け取られる列ベクトルを記憶する。記憶位置はベクトルアドレス論理４２３に接続されたベクトルアドレス線４２１によって選択される。

ベクトルメモリとマトリックスメモリの動作の間には大きな相違がある。

１．１つの列ベクトルは、典型的には、前の列ベクトルが用いられている間にロードされるから、ベクトルメモリファは、新しいバイトがベクトルデータ線を介して書き込まれる間にプロセッサ論理による使用のために行が読み込まれるのを可能にする。

２．８ビツトバイトは典型的には一回にベクトルメモリ内にロードされ、マトリックスメモリに関する単一ビットと比較される。

３、ベクトルデータ線を介して書き込まれたバイトの配向は、秒内に読出される配向及びプロセッサスライス４０９に送られる配向に対して９０°回転される。

このように、１バイトはベクトルメモリコアの物理的列の部分に書き込まれる。

この回転は、ベクトルメモリコアの単−行が同じ重みのビットのみ、列ベクトルの各要素の１ビツトのみ含むために必要である。この転置動作は、後述するように、ベクトルメモリの設計を込み入らせる。しかしながら、ベクトルメモリ内の行の数は、典型的には、マトリックスメモリの行の数よりも遥かに少なく、より大きなマトリックスメモリコアよりも、ベクトルメモリコアの周期を速める。

別の性能が、後述するように、ベクトルアドレス論理４２３内に設けられている。ベクトルアドレス内のビットの数は、多重化された行及び列のアドレスを用いずとも、ベクトルメモリコア内のバイトを選択するに十分である。ベクトルデータ線を介してアクセスするためのベクトルメモリコアの列の選択は、マトリックスメモリファ内の列の選択と同様である。

マトリックスシフタ４０７とベクトルシフタ４１７の動作は複雑である。

これらにより、オフチップシフトレジスタを使用せずに二次限畳込みウィンドウを実行することが可能になる。これらの動作については後述する。そこでは、これらが単にデータを通過させるものとして仮定される。

処理スライス４０９は、マトリックスメモリ及び列ベクトルの同様な重みビットの組から行ベク）・ルの内積に関する乗算を行う。かかるビットの各組はベクトルメモリの物理的行内に記憶されている。バス幅ＭＭＣ及びＶＭＣは典型的には２５６に等しいが、後述するように、２の累乗だけ異なることが可能である。

各処理すライスが１ビア）乗算を実行する場合に、プロセッサスライスからの出力の数は各ベクトルメモリコア及びマトリックスメモリコアからの入力の数に等しい。加算器４１０はこれらの多ピット及び計数、又は検数、ｌの数を受け取る。この計数は、典型的には最大動作性能を確保するために層間にレジスタを備えたツリー内の組合わせ論理を迅速に処理する。かかる検数回路の設計はＦＥＢＲＩＳチップ上の従来技術の範喘に含まれる。

この検数の結果、部分積線４１３に９ビツトの出力が生じる。この出力は、出力駆動機をオンオフして、複数の知識メモリチップの部分積出力が、一度に一つのチップのみが出力を駆動するように並行に接続されるようにするための部分積可能化４１１によって制御される。

マトリックスメモリ及びベクトルメモリは、ユーザが慣れているメモリ構造を示す。この構造はデータ経路、アドレス経路及び制御経路によって表現される。このように、少なくとも計算が実行されていない間にデータが読出され書き込まれ、計算が実行されている間はそれらが制限されるような、通常のメモリチップとほとんど同様に取り扱うことが可能であるため、知識メモリチップは非常に使い易い。

ごの知識メモリチップと、従来技術して列挙したＮＣＲのＧＡＰＰチップのような他の並行処理チップとの主な違いは、４０９内のプロセッサスライスの全ての主力を受信する加算器４１０の存在である。内積を取り扱う知識メモリチップの強さは、一部には、プロセッサスライスの全てからの出力を同時に処理するこの加算器に起因する。

これにより、より複雑なセルが加算可能なように、別の回路を設け、チップの回りをデータが移動する時間が不要になる。このアーキテクチャの強さの別の側面は、マトリックスデータが複数の知識メモリチップにわたって不均一に分布し、マトリックスの精度が増加するにつれ計算負荷を広げ動作性能を高める方法に起因している。

第５図は、マトリックスデータ及びベクトルデータが知識メモリチップ内に記憶され、処理スライス４０９に送られる方法を示している。

第２図に示されるように、ビットの１平面の記憶はマトリックスメモリコア４００内に記憶される。チップが、第５図のＮ＝Ｏのようにマトリックスのビット０を記憶する場合には、平面２００がその内部に記憶される。

列ベクトルの記憶はベクトルメモリファ４１８に示されている。列ベクトルの全てのビットは各チップに記憶され、各マトリックス要素の単一ビットが各チップに記憶されるマトリックスとは異なる。

チップの使用の例として、マトリックスメモリコア４００の行Ｏが選択され、ベクトルメモリコア４】８の行０が選択されたものとする。この場合に、マトリックスビット［ＭＯ，ＯｂＮ］は、列ベクトルビット［ＶＯ，ＯｂＯ］　と共に、プロセッサスライス５００に示される。

同様に、マトリックスビット［ＭＯ，１ｂＮ］は、列ベクトルビット［Ｖｌ、ＯｂＯ］　と共に、プロセッサスライス５０１に示される。これら及び他のプロセッサスライスからの出力は、これらの出力を加算し部分積４１３を生じる加算器４１０によって受け取られる。

第６図は、ベクトルメモリファ４１８に対する行列接続の詳細を示すブロック図である。これらの図は、第５図に関して９０度回転させたものであることを留意すべきである。ここでの重要点は、ベクトルデータの各ビットがベクトルメモリコアの４つの列に接続され、ベクトルデータをロードするために必要なピンの数を減少させて（する点である。このように、ら０５として示されるように、ベクトルデータＢ７は、６０１．６０２．６０３．６０４に示されているように、ＢＦ　（Ｆｌよ１６進のＦであり、１０進の１５に当たる）又はＢ７を記憶するベクトルメモリコアの（垂直に示された）行に接続される。２つベクトルが示されているが、記憶容量に応じていくつのベクトルをロードしても構わないことに留意すべきである。

第７図はプロセッサスライス４０９を示している。ベクトルシフタバス４１４及びマトリックスシフタバス４０８は、７００及び７０２で示されるように、２５６の１ビツトスライス群に示される。各スライスは各フイスからのｌビットのみを取り扱い、マトリックスベクトルからの１つと列ベクトルからの１つとの一対の要素の積を計算する。このように、スライス７００はバスの各々からのビ・ノド２５５を取り扱い、Ｐｒｏｃ２５５として示すように、出カフ０１を生み出す。スライス７０２は各７　ｓｌスからのビット２５４を取り扱い、Ｐｒｏｃ　２５４として示すように、出カフ０３を生み出す。同様にビットの全てが処理される。

第８図は、７００として示される各プロセッサスライスのブロック図を示している。ここでは各スライス内の論理が以前よりも詳細に示されている。論理積ゲート８０３はベクトルシフタバスからの１ビツト８００とマトリックスシフタバスからの１つの同様の番号を持つビット８０１との乗算を実行する。論理積ゲート８０３の出力は、制御信号、論理積／排他的論理和選択８０６が誤っている場合に、マルチプレクサ８０を介して出力される。

「マスクフリップフロップ」８０２はベクトルシフタバスからの１ビツトを記憶する。このフリップフロップはロードマスク信号８０５によってロードされる。

「マスクビット」は内積の１つの項を可能化又は非可能化する。知識メモリチップが２５６の列を備えており、計算にはそれよりも少ない列が必要であるに過ぎない場合には、使用されないかく列に関するマスクビットはゼロに設定され、各活性化列のマスクビットは１に設定される。−組のマスクビットは、それらが通常のベクトルであるかのように、ベクトルメモリ内にロードされる。これらのビットを含む行は、ベクトルアドレス及びプロセッサ制御に制御されるベクトルアドレス論理によってベクトルメモリバスに送られ、ロードマスク信号は、それらをマスクフリップフロップ内にロードするべく断定される。

マトリックスる行ベクトルと列ベクトルとを一緒に乗算するよりは、それらを比較したい場合には、排他的論理和ゲート８０４が用いられる。かかる比較は、形態演算（ｍｏｒｐｈｏｌｏｇｉｃａｌ　ｏｐｅｒａｔｉｏｎ）のような、２進値データを含むパターン適合アプリケーションなどに有用である。排他的論理和ゲートの出力は、部分積４１３が行ベクトルと列ベクトルの間で異なるビットの数の計数であるような、論理積／排他的論理和選択信号が表明された場合に、マルチプレクサ８０７によって選択される。

第９図は、マトリックスアドレス論理４０２のプロ・ツタ図である。この論理は３つの機能を有する。すなわち、（１）マトリ・ノクス行アドレスレジスタ９１３がロードマトリックス行アドレス線９１４によってロードされた場合に、７トリノクスアドレス線４０３からの行アドレスを記憶する。（２）内積が計算されている間に、マトリ・ノクスメモリコアに”アクセスするべくアドレスのシーケンスを発生する。（３）マトリックスメモリコア４００の行を選択する。チップ上でアドレスを発生が可能であり、さらに、同じマトリックスアドレス及びマトリックスデータ線を共有する他の知識メモリチップ群をロードしたり、計算の間にマトリックスメモリを更新したり、マトリックスアドレス線を他の用途に使用するために空けておくことが可能になる。

内積を計算する前に、マトリックスアドレス論理を初期化しなければならない。

レジスタ９００、すなわち［マトリックス下限レジスタ」が、処理されるべきマトリ、クスメモリの第１の行のアドレスと共にロードされる。レジスタ９０２、すなわち［マド１ルツクス上限レジスタ」が処理されるべきマトリックスメモリの最後の行のアドレスと共にロードされる。リセット線９０５が表明され、クロ・ツク４１５がカウンタ９０４内にマトリックス下限レジスタ９００の内容をロードするべく与えられる。

カウンタ９０４の同期制御が用いられて、典型的には、下限を０に上限を２５５　（１０進値）に設定し、マトリックスメモリ内２５６の行の全てが、０から開始して、用いられる。リセット時のマトリックス下限レジスタの好適な制御が、リセノ）の直後の値を変化させて、用いられるアドレス範囲に影響を与えずに、初期行として選択されるべき行を可能化し、時間内に部分積をシフトさせる。これは、既に述べたように、バイブライン遅れを補償し、マトリックスメモリにアクセスするために有効な時間を増加させるために有用である。

実行線９１２が内積を演算するべく真に設定される。結果的に、カウンタ９０４の出力がマルチプレクサ９１１を介して復号器９１５に送られる。

この復号器は、マトリックスメモリコア４００の１つの行を選択するマトリックスメモリ行選択線４０１に連結される。カウンタは、ＶＨＬ（ベクトル上限）信号９１０が真である間に、計時されてインクリメントされる。ＶＨＬが真であり、カウンタ９０４の状態が、比較器９０９によって検出されるように、マトリックス上限レジスタ９０２の状態と同じである場合には、比較器のＥＱ（等価）出力９０７が真になり、論理和ゲート９０６の出力が真にされ、カウンタ９０４へのＬＤ（ロード）入力も真にされる。これにより、マトリックス下限レジスタ９００の内容が、同期的に、カウンタ９０４にロードされ、カウンタによるインクリメント分に上書きされる。かかるカウンタの動作は、テキサス・インクリメント社製のｒ７４１６３カウンタ」の動作を同様である。

マトリックスメモリコアはこのようにマトリックス下限レジスタ９００及びマトリックス上限レジスタ９０２によって選択された行の間を循環する。

マルチプレクサ９１１に対する［Ｓ］、すなわち「選択（Ｓｅｌｅｃｔ）　Ｊ入力は、実行線９１２及びマトリックス制御線の双方に依存しており、知識メモリチップ外部の装置は、計算が知識メモリチップにより実行されている間に、計算により邪魔を受けずに、マトリックスメモリにアクセス可能である。

第９図に示されているレジスタのロードは、マトリックスアドレス線とともに動作する信号の制御の下に行われ、カウンタの動作は、ベクトル制御４２０及びプロセッサ制御４１６の線と同期がとれたクロック４１５によって制御される。

第１０図は、ベクトルアドレス論理４２３のブロック図の１つである。

このブロック図に示される論理は次の４つの機能を有する。すなわち、（１）ベクトルアドレス線４２１のＢ４乃至ＢＯ（ベクトルメモリコア内に３２の行が存在する場合）がロードベクトル行アドレス線１０１４によってロードされる場合に、Ｂ４乃至ＢＯをベクトル行アドレスレジスタ１０１３に記憶する。（２）内積が計算されている間に、ベクトルメモリコアにアクセスするべくアドレスのシーケンスヲ発生する。（３）ベクトルメモリコア４１８の行を選択する。さらに、（４）マトリックスメモリ行アドレスカウンタ９０４のインクリメントを制御する。

これらのアドレスは非常に迅速に発生される必要があるので、これらをチップ上で発生することにより、アドレス経路での値ぶかんおくれを回避し、ベクトルデータ線を介して次の列ベクトルをロードするべくベクトルアドレス線を開放する。

内積の計算に先立って、縛取るアドレス論理が所期される必要がある。レジスタ１０００、すなわち「ベクトル下限レジスタ」が、処理されるべきベクトルメモリの第１の行のアドレスと共にロードされる。レジスタ１００２、すなわち「ベクトル上限レジスタ」が、処理されるべきベクトルメモリの最後の行のアドレスと共にロードされる。

リセット線９０５が宣言され、クロック４１５がベクトル下限レジスタ１０００の内容をカウンタ１００４にロードするべく与えられる。

カウンタ１００４の同期制御により、典型的には下限が０に設定され、上限が７に設定され、０行から開始するベクトルメモリの８行が用いられて、ベクトルの９ビット精度が得られる。

内積を計算しようとする場合に、実行線９１２が真に設定される。結果として、カウンタ１００４の出力がマルチプレクサ１０１１を介して復号器１０１５に、さらに、ＶＭＲ３（ベクトルメモリ行選択）及びベクトルメモリコア４１８に送られる。カウンタは、実行が真である間に計数されて、インクリメントされる。

実行９１２が真であり、カウンタ１００４の状態が、比較器１００９により検出されるように、マトリックス上限レジスタ１００２の状態と同様である場合には、比較器のＥＰ（等価９出力１００５が真になり、さらに、論理和ゲート１Ｏ０６の出力が真にされて、ＬＤ（ロード）入力がカウンタ１００４を真にする。これにより、ベクトル下限レジスタ１０００の内容が同期的にカウンタ１００４内にロードされて、カウンタによりインクリメント分に上乗せされる。かかるカウンタの動作はテキサス・インクリメント社製のｒ７４１６３カウンタ」の動作と同様である。ベクトルメモリコアはこのようにベクトル下限レジスタ１０００とベクトル上限レジスタ１００２の値の間で循環される。

アドレスプロポゲート信号（Ａｄｄｒｅｓｓ　Ｐｒｏｐｏｇａｔｅ　ｓｉｇｎａｌ）１０１７により、論理積ゲート１０１６を介してマトリックスメモリ行アドレスカウンタ９０４のインクリメントを制御する。後述するように、畳込みウィンドウの計算は、マトリックスメモリ内の行の選択を変化させるに先立って、ベクトルメモリの幾周期かを必要とする。

第１０図に示すレジスタのロードは、ベクトル制御及びプロセッサ制御の各線と同期がとれたベクトルアドレス線とともに動作する信号の制御により行われることに留意すべきである。

を概略的に示したものである。このビットは、ベクトルデータ線４２５から読出し書き込まれ、ベクトルメモリバス４１９により読出され、行幅基礎（ｒｏｗ− ｗｉｄｅ　ｂａｓｉｓ）上に真を設定し、ベクトルメモリバスから選択的にクリアされ得るものである。

動作は次の通りである。

１、基本２トランジスタ式静的フリップフロップが、プルアップ抵抗１１０５を備えたトランジスタ１１０７及びプルアップ抵抗１１０９を備えたトランジスタ１１１２から形成される。

２、多くの８ビツト幅メモリチップに共通するように、ビットが、ベクトル制御線の書き込み状態を宣言と連携して、ベクトルアドレス上にアドレスを設置することにより、ベクトルデータ線から書き込まれる。ベクトルアドレスＢ７乃至ＢＯは列を選択して、トランジスタ１１０６及び１ｉｔｏを可能化するベクトルメモリ列選択線１工１７、ＶＭ　ＣＳ　Ｍを表明する。フリップフロップは、データが書き込まれる行に関して起動される低インピーダンス駆動器を備えた（図示された）行駆動器／受信機によって、ベクトルメモリ読み出し線、ＶＭ　ＲＤ　ＲＮ　１１００から真のデータを受け取り、ＶＭ　ＲＤ　ＢＮＮ５１１０２ら偽のデータを受け取る。記憶されたベクトルデータ内の８ビツトのそれぞれに対する１行である、８行の群の選択はベクトルアドレスＢ９乃至Ｂ８により行われる。ＶＭ　ＲＤ　ＢＮ信号線が１つである場合には、Ｑ信号ノード１１０８も１つである。ここでＱ信号ノード１１１３はゼロである。

様の手続によりベクトルデータ線に読み込まれるが、行／駆動器受信機が、ＶＭ　ＲＤ　ＢＮ及びＶＭ　ＲＤ　ＢＮの各線を受信する高インピーダンスで動作する点が相違している。

４、ベクトルメモリ行選択Ｎ線、ＶＭ　Ｒ３Ｎ５１１０２を表明することにより、ビットがベクトルメモリバス４１９に読み込まれる。これは、フリップフロップの状態をＶＭセルバスＢＭ線１１１６に送るトランジスタ１１０４を可能化する。この線は、高インピーダンス受信機により受信され、動作速度を改良するために、矛先１１（ｐｒｅｃｈａｒｇｅ）　しておくことが可能である。この線は、Ｑノード１１０８がゼロである場合に、トランジスタ１１０７によりトランジスタ１１０４を介して放電される。必要な列線の数を減じ、回路の寸法を小さくするために、単一線路出力が用いられる。空間に余裕があれば二重線路（差動）出力を用いることも可能である。

５、ビットは、ベクトルメモリ設定行Ｎ、ＶＭ設定行Ｎ、　１１１５を表明することにより、行内の全てのビットとして設定可能である。

これは、ベクトルメモリバスからのデータの行を書き込む以前に行われる必要がある。この信号は、差分列データ線が用いられる場合には不要である。

６、ビットは、ＶＭ　ＲＳ　Ｎ、　１１０２を表明することにより、及びＶＭセルバスＢＭを設置することにより、選択的にクリアされ、セルの行のロードが行われる。

第１２図は、ベクトルアドレス論理４２３の２つのブロック図の部分で０３として示される年端ベクトルデータビ、トの１つをＶＭ　ＲＤＢ　Ｏ（１２００）及びＶ　Ｄ　ＲＤ　Ｂ　Ｏ（１２０１）’ｔ’ある差分ベクトルメモリ読み出し線に送り込む。これらの線は、ベクトルメモリコア４１８を形成するセルに連結されている。ベクトルメモリコアの動作については既に説明した。

第６図に示すように、ベクトルデータ４２５の各ビットは、ベクトルメモリコアの複数の行に接続されている。このように、ベクトルデータＢ　Ｏ（１２０３）は複数の行駆動器／受信機（１２０２，１２０５）ニ接続される。

ベクトルデータは８ビツト幅であり、ベクトルメモリには３２行あるので、ベクトルアドレス４２１の２つのビットは、アクセスに関して８つの隣接行の４つの群の内の１つを選択するよう要求される。

復号器１２０７はベクトルアドレスＢ９及びＢ８を受信してこの選択をベクトルデータからベクトルメモリコアに書き込まれる。この信号は、１２０２及び１２０５として全ての行駆動器／受信機に送られて、復号器１２０７により選択されたこれらの駆動器／受信機に差動出力を高−ｒンピーダンスに保つよりは、両出力を表明させる。アクセスされる列の選択はベクトルアドレスＢ７乃至ＢＯにより行われる。

復号器１２０９はベクトルメモリ行動作設定に必要な信号を供給する。

この機能は、ベクトルシフタ４１７からベクトルメモリの行をロードするために用いられる。復号器は、設定行線１２１ｏが表明された場合に、活性化される。

行の選択は、ベクトルアドレスＢ４乃至ＢＯにより決定される。

要約すれば、知識メモリチップの制御信号は以下の通りである。

１、マトリックス制御（４０６）ａ）共通メモリチップを動作させるに必要な信号ｂ）マトリックス下限のロードＣ）マトリックス下限のロード２、プロセッサ制御（４１６）ａ）リセットｂ）論理積／排他的論理和選択Ｃ）マスクロードｄ）実行ｅ）畳込み（詳細について後述）３、ベクトル制御（４２０）ａ）ベクトル上限のロードｂ）ベクトル上限のロードＣ）ベクトル行アドレスのロードｄ）アドレスプロポゲートｅ）読み出し／ＩＦき込みベクトルｆ）行設定これらの信号のいくつかは組み合わされて、符号化され必要なビンの数が減らされるが、かかる組合わせは本発明に取って重要ではない。

ベクトル累算器チップ第１３図は、ここに開示されたベクトル累算器チップ３１０のブロック図である。この子ノブは、３０５．３０６のような隔置し決め漏りチップ内で行われる２進値ベクトルの内積１０２の計算を除き、第１図に示される演算の桁移動と合計を行う。このチップは、３０７．３０８として示される８つの部分内積入力を備えているように示されているが、入力の数は、合計される部分積の数に依存するように用いられる。

複数の知識メモリチップから示される部分積３０７．３０８は、重ミ付ｉｔ加算器１３００に示される。この重み付は加算器の設計については後述する。重み付は加算器からの総和出力１３０１はレジスタ１３０２に送られる。レジスタの出力１３０４は算術的論理装置（ＡＬＵ）１３０９のＡ入力（Ａ　Ｉ　Ｎ）に供給される。ＡＬＵのＢ入力（ＢＩＮ）は、累算器及びシフトレジスタとして機能する延長レジスタ１３０３により供給される。

Ａ　Ｌ　Ｕ　１３０９、排他的論理和ゲート１３１２及びレジスタ１３０３は、当業者には周知の通例の加算器シフト乗算器を形成する。ここでの、本発明の役目は、ＡＬＵのＡＩＮ入力に供給される情報を形成して、２つのスカシではなく、２つのベクトルの乗算を促進することにある。

必要とされるＡＬＵの機能は次の通りであり、ＡＬＵ制御線１３１゜により選択される。

０、ＡＩＮ＋ＢＩＮ：下記点を除き、Ａ　Ｉ−Ｕの各周期１、ＡＩＮ：各要素の関するＡＬＵの第１の周期（ＤＰＯ：内積出力３１１は、Ａ　Ｌ　Ｕ　１３０９による内積完了後の１周期なので、この周期の間は有効である。）２、ＢＩＮ−ＡＩＮ：列ベクトルが２の補数表現を有する場合に各内積に関するＡＬＵの最後の周期である。

ＡＬυ出力１３１１の再上位ビットＢ１５は、排他的論理和ゲート１３１２によりあふれが修正され、符号延長として用いられて、８１６を形成する。ＡＬＵピノ）８１５乃至ＢＯｌ及び排他的論理和ゲートからの修正ビット８１６はデータ経路１３１３によりレジスタ１３０３の再上位入力（Ｉ　Ｍ）に供給される。１ビツトシフトレジスタは、レジスタのＢＯがフィードパ、りされていないいう事実、すなわち、レジスタの出力のＢ】がその入力のＢＯに成っておらず、以下同様にフィードバックが行われてい兄という事実が示された場合に、レジスタ１３０３により連続クロック周期で実行される。このｌビソトンフトレジスタは、列ベクトルの連続ビットの開の重みの増加する２の差分の因数（ｆａｃｔｏｒ−ｏｆ−２ｄｉｆｆｅｒｅｎｃｅ）を示している。レジスタの９つの再下位ビット、Ｂ８乃至Ｂｌ、１３０７は、レジスタの再下位入力（ＩＬ）にフィードバックされる。１６の最上位、Ｂ２４乃至Ｂ９．１３０６はＡＬＵに対するＢＩＮ入力に供給される。

ここで留意すべきは、レジスタ１３０３がたった１つの記憶量を必要とするに過ぎない点である。これは、各内積が開始直後に終了するために可能になる。各内積はＮ周期を取る。ここでＮは、列ベクトルの精度である。後続の周期において、増加重みの列ベクトルビットが、再下位ビｙ）で開始し再上位ビットで終了するように、処理される。これは、各種ビットベクトルが非常に早く循環されるので、各知識メモリチップが、列ベクトルの各要素のビットの全て（又は大部分）を記憶することが必要とする。

ベクトル累算チップに必要なビットの数は次の点に依存している。

（１）各部分積内のビットの数、（２）部分積の数、（３）部分積の重み、（４）列ベクトルの精度。２５６の列を備えたマトリックスからの２進値ベクトル上の内積の計算では、各部分積が、状態がＯから２５６（２５５ではない）まで示されるように、９ビツトを備えていることが必要である。８つのｌビット知識メモリチップを用いた８ビｙトのマトリックス精度は、８つの部分積が合計されることが必要である。部分積が２つの因数により重みが異なる８つの部分積は、７つの余分のビ２）を必要とする。８ビット精度のベクトルを取り扱う場合には、８つの余分のビットを必要とする。１以上ビットがあぶれを避けるために必要となる。このように、例えば、９＋７＋８＋１＝２５ビツトとなる。

第１４図は重み付は加算器１３００を示している。部分積が、マトリックスビットを計算する知識メモリチップにより記憶されたマトリックスビットの重みと一致するように、２の倍数分だけ上昇されることにより重み付けられる。再上位部分積は、２の補数の表示と一致するように、負の重みを有している。加算器のネットワーク、すなわち「加算器ツリー」が重みづけられた部分積を合計する。ツリーの第１層は１０ビット重み付は加算器１４０１乃至１４０４を使用する。ツリーの第２層は１２ビツトの重み付は加算器１４０５及び１４０６を使用する。

ツリーの最終層は、１６ビノトの重み付は加算器１４０７を使用する。加算器詳細については後述する。

ＰＰＯ（部分積０）及びＰＰＩは１０ビットの重み付は加算器に供給される。ＰＰＩはＰＰＯの二倍なので、先行ゼロが加算器１４０４によりＰＰＯに加えられ、後書きゼロがＰＰＩに加えられる。全ての部分積が、マトリックス符号ビットを記憶するチップ３０５からの１つを除き、正なので、ゼロは先行ビットとして用いられる。ＰＰ２及びＰＰ３は１０ビットの重み付は加算器１４０３で同時に取り扱われ、ＰＰ４及びＰＰ５はｌＯビットの重み付は加算器１４０２で扱われる。

マトリックスの２の補数表現を仮定すれば、ＰＰ７は各マトリノクス要素の符号ビット画布の重みを持っているので、特別の事例である。こうして、ＰＰ７は他の合計に加えられるよりは、減算される。減算は、補数器（ｒＸ−ＩＪすなわち「マイナス１倍」）を用いるＰＰ７の２の補数によって行われ、結果が、ＰＰ７の補数の重みの半分であるＰＰＳも受け取る１０ビツトの重み付は加算器に供給される。ここで留意すべきは、ＰＰ７の最大値が、ｒ２５６（１０進値）」すなわちｒｌｏＯ，０００，０００（２進値）」として獲得されても、適当な結果は補数が施された場合に獲得されるのである。あふれは生じない。

１０ビツトの重み付は加算器からの出力は、加算器ツリーの第２のレベルを形成する、１２ビツトの重み付は加算器、１４０５及び１４０６により合計される。

加算器１４０３に対するＰＰ２人力のの再下位ビットは、加算器１４０４に対するＰＰＯ入力の再下位ビットの重みの４倍なので、加算器１４０４からの出力は、先行ゼロで膨らまされ（ｐａｄ）、加算器１４０３からの出力は加算器１４０６に対する入力で２つの後書きゼロで伸ばされる。加算器１４０１．１４０２の出力を受け取る、加算器１４０５も同様に動作する。

加算器ツリーの第２のレベル、すなわち加算器１４０５．１４０６からの出力は、加算器ツリーの第３のレベル、すなわち加算器１４０７により合算される。加算器１４０２に対するＰＰ４人力の最下位ビットは、加算器１４０４に対するＰＰＯ入力の最下位ビットの重みの１６倍であるから、加算器１４０６からの出力は４つの先行ゼロで膨らまされ、加算器１４０５からの出力は加算器１４０７に対する入力で４つの後書きゼロて伸ばされる。加算器１４０７の重み付は合計出力は重み付は加算器１３００の出力である。

第１５図はｌＯビットの重み付は加算器１５００のブロック図である。

全ての２０の入力が計数される。加算器は２つの１０ビツト入力の通常の合計を行う。重要なのは、この発明では、等しく重みづけられたものではなく、部分積の間の重みの差を反映するように部分積がこれらの入力に供給される必要がある点である。この差が、２の１つの因数、すなわち、この加算器に対する１ビツトシフトである。

例えば、ＰＰ０（３０Ｂ）力ｆＡｔ、（Ａ最下位（Ａ　Ｌｅａｓｔ　５１ｇｎ１ｆｉｃａｎｔ））入力ＡＢ乃至ＡＯに供給され、ＡＭ　（Ａ再上位（Ａ　Ｍｏ５ｔ　５１ｇｎ１ｆｉｃａｎｔ））入力Ａ９がゼロを受け取る。ＰＰＩがＢＭ　（Ｂ最上位（Ｂ　Ｍｏ５Ｌｅａｓｔ　５１ｇｎ１ｆｉｃａｎｔ））入力ＢＯがゼロを受け取る。

第１６図は、１２ビツトの重み付は加算器１６００のブロック図である。

全ての２４の入力が計数される。加算器は、２つの１２ビツト入力の通常の合計を行う。（留意すべきは、ビｙ）数が１６進値で表現される点であり、例えば、ＢＡはＢ入カビソト１０であり、ＢＢはＢ入カビノド１１である。）重要なのは、この発明では、入力が、等しく重み付けられたものではなく、それらの重みの差を反映するよりに取り扱われる必要がある点である。この差は、４の１つの因数、すなわち、この加算器に対する２ビツトシフトである。例えば、重み付は加算器１４０４の出力がＡＬ（Ａ最下位（Ａ　Ｌｅａｓｔ　５１ｇｎ１ｆｉｃａｎ１））入力Ａ９乃至ＡＯに供給され、ＡＭ　（Ａ再上位（Ａ　Ｍｏ５ｔ　５１ｇｎ１ｆｉｃａｎｔ））入力、ＡＢ乃至ＡＡがゼロを受け取る。重み付は加算器１４０３がＢＭ　（Ｂ最上位（Ｂ　Ｍｏ５ｔ　５１ｇｎ１ｆｉｃａｎｔ））入力Ｂ９乃至Ｂ１に供給され、ＢＬ　（Ｂ再下位（Ｂ　１．ｅａｓｔ　５１ｇｎ１ｆｉｃａｎｔ））入力Ｂｌ乃至ＢＯがゼロを受け取る。

第１７図は、１６ビノト重み付は加算器１７００のブロック図である。

全ての３２の入力が計数される。加算器は、２つの１６ビノト入力の通常の合計を行う。（留意すべきは、ビット数が１６進値で表現される点であり、例えば、ＡＦはＡ入カビノド１５てあり、ＡＥはＡ入力ビット１４であり、ＡＤはＡ人カビノド１３であり、ＡＣは八人カビノド１１である。）重要なのは、この発明では、入力が、等しく重み付けられたものではなく、それらの重みの差を反映するよりに取り扱われる必要がある点である。この差は、１６の１つの因数、すなわち、この加算器に対する４ビノトンフトである。例えば、重み付は加算器１４０６の出力がＡＬ（Ａ最下位（Ａ　Ｌｅａｓｔ　５１ｇｎ１ｆｉｃａｎｔ））入力ＡＢ乃至ＡＯに供給され、ＡＭ　（Ａ再上位（Ａ　Ｍｏ５ｔ　５１ｇｎ１ｆｉｃａｎｔ））入力、ＡＦ乃至ＡＣがゼロを受け取る。重み付は加算器１４０５がＢＭ　（Ｂ最上位（Ｂ　Ｍｏ５ｔ　５１ｇｎ１ｆｉｃａｎｔ））入力ＢＦ乃至Ｂ４に供給され、ＢＬ（Ｂ再下位（Ｂ　Ｌｅａｓｔ　５１ｇｎ１ｆｉｃａｎｔ））入力ＢＢ乃至ＢＯがゼロを受け取る。

計算の詳細な事例詳細な数値例で、マトリックス乗算のこの方法がどのように機能するかを示そう。例が、第１８．１図、第１８．２図及び第１８．３図に示されている。注意：この技法は複雑であり、注意深く行う必要がある。

第１８．１図は、標本マトリックス及び列ベクトルを定義している。。

第１８．２図は、列ベクトルのマトリックスの第１の行ベクトル倍の乗算を行う様子を示している。第１８．３図は、同じ列ベクトルのマトリックスの第２の行ベクトル倍の乗算を行う様子を示している。

マトリックスは、１０進値及び２進値で表現されている。通常の計算では、結果を確認するために１０進値表現が使用されるが、２進値ビツトに基づ（実際の演算も同時に示されている。同様に、列ベクトルは、１０進値（１８０１）及び２進値（１８０４）の双方で表現されている。結果についても、１０進値（１８０２）及び２進値（１８０５）の双方で表現されている。

単純化のために、非常に少ない要素が用いられているが、マトリックス１８００内の列の数と列ベクトル１８０１内の行の数が同じであり、通常のマトリックス乗算に関する規則に従っている限りは、この方法は要素の数には限定されない。

マトリックス１８０３からの２進値形式が、マトリックスの要素のビットが各知識メモリチップ（ＩＭＣ）内に如何に配置されるかを示すために、拡大された形式１８０７で示されている。マトリックス１８０７の列は、この配列を示し易くするために、ａ、ｂ、・・・Ｏ２ｐとラベルが付されている。

１、マトリックス１８０７の第１の行内のビットは、知識メモリチノフ内のマトリックスメモリ行Ｑ　［ＭＭＲＯ（ｉ）］に配置される。

マトリックスの第２の行内のビットは、知識メモリチ・ノブ内のマトリックスメモリ行１　［ＭＭＲｌ　（ｉ）］に配置される。（留意すべきは、マトリックスメモリ内のいかなる隣接行の組を用いることもできるのだが、このシーケンスでは事例を単純化している点である。）２、マトリックス１８０７の各要素の最下位ビット、ビット０は知識メモリチップＯ［ＩＭＣ（０）］内に配置される。マトリックスの各要素のビット１は知識メモリチップ１　［ＩＭＣ（１）］内に配置される。マトリックスの各要素のビット２は知識メモリチ、７ブ２　［ＩＭＣ（２）］内に配置される。マトリックスの各要素のビット３は知識メモリチップ１　［ＩＭＣ（３）］内に配置される。

７　）、　ＩＪノクス１８０７と知識メモリチップの列の間の列のシーケンスは保持される。

マトリックス１８０７の列ａ、ｅ、ｉ及びｍはＩＭＣ（３）内に記憶されるが、この場合に、マトリックスの第１の行は行ベクトルビットベクトル１８０８に配置され、マトリックスの第２の行は行ベクトルビットベクトル１８１２に配置される。（「ビットベクトル」は同様の重みを持つビットの組である。）マトリックス１８０７の列す、ｆ、ｊ及びｎはＩＭＣ（２）内に記憶されるが、この場合に、マトリックスの第１の行は行ベクトルビットベクトル１８０９に配置され、マトリックスの第２の行は行ベクトルビットベクトル１８１３に配置される。

マトリックス１８０７の列ｃ＋　ｇ＋　ｋ及び０はＩＭＣ（１）内に記憶されるが、この場合に、マトリックスの第１の行は行ベクトルビットベクトル１８１０に配置され、マトリックスの第２の行は行ベクトルビットベクトル１８１４に配置される。マトリックス１８ｏ７の列ｄ、ｈ、１及びｐはＩＭＣ（０）内に記憶されるが、この場合に、マトリックスの第１の行は行ベクトルビットベクトル１８１１に配置され、マトリックスの第２の行は行ベクトルビットベクトル１８１５に配置される。

列ベクトル１８０４は、複数ビットのマトリックスとして、１８１６内に拡張された形式で示されている。マトリックス１８１６内の各ビットはマトリックス１８１７内でレベル付けされ、マトリックスがマトリ、クス１８１８に変形された場合にも、その追跡が容易になっている。ここで変形とは、４つの要素のそれぞれからの１ピツトを含むマトリックス１８１７内のビットの列が、マトリックス１８１８内のビットの行、ビットベクトルになることを言う。マトリックス１８１８内の行０は全ての０のビット（列ベクトルビットベクトルＯ）を備えており、行１は全ての１のビット（列ベクトルビットベクトル１）を備えている。

以下同様。ビットは再びマトリックス１８１９内に示される。演算はマトリックス１１１１９の行を用いて行われるが、これらの行はマトリックス１８２０においてラベル付けされている。

第１８．２図は、列ベクトル１８０４のマトリックス１８０３の第１の行倍の乗算の演算を示している。ステップＯでは列ベクトルビットベクトルＯを取り扱う。ステップ１では列ベクトルビットベクトルｌを取り扱う。ステップ２では列ベクトルビットベクトル２を取り扱う。

ステップ３では列ベクトルビットベクトル３を取り扱う。

プロセスの各ステップは次の通りである。

１．４つの知識メモリチップ［ＩＭＣ（０）に対するＩＭＣ（３）］の各々において、行ベクトルビットベクトルと列ベクトルビットベクトルの内積が計算される。これは、２つのビットベクトルを一致に論理積し、各チップにおいて４下位の１ビット×ｌビ、トの乗算を実行することにより行われる。結果は、「ＡＮＤ　（ｉ）＝」として示される。

２、各ＡＮＤ　（ｉ）内のｒｌＪの数が合計され、ｒＰＰ　（ｉ）＝Ｊとして示される。これは各知識メモリチップに関する内積である。

ａ、ＰＰ（ｉ）が各マトリックスビットの重みに基づいて重み付けられ、結果が合算されて、現時点の積を形成し、ｒＴ’Ｐ（周期＃）＝」として示される。ＩＭＣ（３）はマトリックスの符号ビットを記憶しているから、その部分積は、他の部分積に対する重み付は及び加算が行われる前に、実行される。ここで留意すべきは、部分積の重み付は及び加算が、ベクトル累算器チップ内の重み付は加算器によって行われ、４つの知識メモリチップが各種ビットベクトル上で同時に動作する点である。

現時点の積、すなわち、ＴＰ　（０）は、全ての列ベクトルビットベクトルが用いられるまで、それ自体が重み付けられ加算される。

ＤＰＯ（０）として示される、内積出力がここで行われ、マトリックス１８０５内に所望の結果として同じものが示される。

このプロセスは、第１８．３図において、マド１ルツクスの第２行に関しても繰り返される。一般的に、このプロセスは、全てのマトリックスの行が処理終了するまで継続する。

問題の寸法の拡張第１９図は、複数の知識メモリチップ１９ｏ５乃至１９ｏ８を一緒に用いて、単一の知識メモリチップが取り扱えるよりも大きなマトリックスを取り扱ったり、単一の知識メモリチップで得られるよりもより高い精度又は動作性能を得る方法が示されている。多数ビット幅であるバスが必要な列ベクトルが１９００にベクトルとして示されている。

［事例１］より高い動作性能は、知識メモリのブロックにマトリックスを余分に記憶させ、列ベクトルの異なるビットを取り扱うようにすることにより得られる。従って、ベクトル入力の異なるビットが同時に用いることが可能になる。例えば、ベクトル入力が３２ビツトの精度を有する場合、すなわちｒｈＪ　＝３１でｒａＪ＝ｏである場合には、８つのベクトル入力を各ブロック（ｒｉＪ＝８）によって取り扱うことが可能になる。このように、ブロック１９０８に対するベクトルデータ入力はベクトル入力ビット７（ｂ）乃至０　（ａ）　１９０４を取扱い、ブロック１９０７はベクトル入力ビット１５（ｄ）乃至８（ｃ）１９０３を取扱い、ブロック１９０６はベクトル人力ビット２３（ｆ）乃至１６　（ｅ）　１９０２を取扱い、ブロック１９０５はベクトル入力ビット３１（ｈ）乃至２４　（ｇ）　１９０１を取り扱う。

ベクトル累算器チップ１９１０乃至１９１２は、ベクトルデータに関する符号なし算術を用いた知識メモリチップからの部分積を処理する。

ベクトル累算器チップ１９ｏ９は、ベクトル入力のビット３１のみが符号を担うことができるので、ベクトルデータに関する符号付きデータを用いることができる唯一のものである。

重み付は加算器１９１７は４つのベクトル累算器チップの各々から内積出力を受け取る。この事例では、全ての知識メモリプロッタが同じマトリックスデータを用いるので、重み付は加算器によって用いられる重みはベクトル入力の異なるビットのみを反映する。このように、ＷＯはＤ　Ｐ　Ｏ１９１６ｉ：対する２−０であり、ＷｌはＤ　Ｐ　Ｏ１９１５に対する２−８であり、Ｗ２はＤ　Ｐ　Ｏ１９１４に対する２−１６であり、Ｗ３はＤ　Ｐ　Ｏ１９１３に対する２−２４である。結果がベクトル出力１９１８である。

［事例２］マトリックスのより高い精度は、異なる知識メモリブロックにマトリックスの異なるビットを記憶させることにより得られる。全ての知識メモリブロックはベクトル入力の同じビットを受け取る。例えば、ベクトル入力が８ビツトの精度を有している場合、すなわちｒｈＪ　＝７でｒａＪ＝ｏである場合には、８つのベクトル人カビノドは各ブロック（ｒｉＪ＝８）に対するベクトルデータ入力により取り扱うことが可能になる。このように、ブロック１９０８はベクトル入力ビット７（ｂ）乃至０　（ａ）　１９０４を取扱い、ブロック１９ｏ７はベクトル入カビノド７（ｄ）乃至０　（Ｃ）　１９０３を取扱い、ブロック１９０６人力はベクトル人カビ７）７ｃｒ）乃至０　（ｅ）　１９０２を取扱い、ブロック１９０５人力はベクトル人カビ、ドア（ｈ）乃至０　（ｇ）　１９０１を取り扱う。

知識メモリブロック１９０８はマトリックスビット７乃至０を取扱い、知識メモリブロック１９０７はマトリックスビット１５乃至８を取扱い、知識メモリブロック１９０６はマトリックスビット２３乃至１６を取扱い、知識メモリブロック１９０５はマトリックスビット３１乃至２４を取り扱う。

ベクトル累算器チップ１９０９は、ベクトル入力のビット３１のみが符号を担うことができるので、ベクトルデータに関する符号付きデータを用いることができる唯一のものである。

重み付は加算器１９１７は４つのベクトル累算器チップの各々から内積出力を受け取る。この事例では、全ての知識メモリブロックが同じマトリックスデータを用いるので、重み付は加算器によって用いられる重みはベクトル入力の異なるビットのみを反映する。このように、ＷＯｉｔ　Ｄ　Ｐ　０１９１６ニ対する２− ０乗であり、ＷｌはＤＰＯ１９１５１ｍ対する２−８乗であり、Ｗ２はＤ　Ｐ　Ｏ１９１４に対する２−１６乗であり、Ｗ３はＤ　Ｐ　Ｏ１９１３に対する２− ２４乗である。結果がベクトル出力１９１８である。

［事例３］単一の知識メモリブロックが取り扱うことができるよりも大きなマトリックスは、マトリックスを複数のサブマトリックスに分割することにより得られる。各知識メモリブロックはマトリックスの異なる列を記憶する。各知識メモリブロックはベクトル入力及びマトリックスデータの同じ重みビットを受け取るが、各ブロックは記憶しているマトリックスの列に当てはまる列ベクトルの要素を受け取る。

７トリノクスが２５６の行と１０２４の列を有しているものと仮定すると、その場合には、４つの２５６ｘ２５６のマトリックスを取り扱うごとができる。知識メモリブロック１９０８は列２５５乃至Ｏを取扱い、ブロック１９０７は列５１１乃至２５６を取扱い、ブロック１９０６は列７６７乃至５１２を取扱い、ブロック１９０５は列１０２３乃至７６８を取り扱う。全てのブロックは、マトリックスビット、ビット７乃至Ｏの同じ重みを取り扱う。

列ベクトルが８ビツトの精度を有している場合には、ベクトル入力は３２ピツトであり、２５６の要素の４つの群のそれぞれに対して８ビツトである。このように、ｒｈＪ　＝３１で、ｒａＪ＝ｏであり、各ブロックのべりトルデータは８ビツトを有し、全てが同じ重みを有している。このように、ブロック１９０８は要素２５５乃至０に対してベクトル入カビノド７（ｂ）乃至０　（ａ）　１９０４を取扱い、ブロック１９０７は要素５１１乃至２５６に対してベクトル入カビノド１５（ｄ）乃至８　（Ｃ）　１９０３を取扱い、ブロック１９０６は要素７６７乃至５１２に対してベクトル人カビッ）２３　（ｆ）乃至１６（ｅ）ｔ９０２を取扱い、ブロック１９０５は要素１０２３乃至７６８に対してベクトル人カビノド３１（ｈ）乃至２４　＜ｇ）１９０１を取り扱う。

ベクトル累算器チップ１９１０乃至１９１２は、ベクトルデータ及びマトリックスデータ双方に関する符号なし算術を用いた知識メモリチップからの部分積を処理する。重み付は加算器１９１７は、４つのベクトル累算器チップ１９０９乃至１９１２からの内積出力を受け取る。この例では、全ての知識メモリブロックがマトリックス及びベクトルデータの同じ重みを用いるので、重み付は加算器によって用いられる重みの全ては同じ、すなわち均一である。結果はベクトル出力１９１８である。

代替構成例第４図に示されているものとは異なる知識メモリチップの構成し可能である。第１に、留意すべきは、２５６の１ビツトプロセツサスライス４０９を有する知識メモリチップは、２５６のエビ、トス１ビツト乗算器、３２０１ビット×８ピット乗算器、４つの８ビツト×８ビツト乗算器、１つの１６ビツ）Ｘ１６ビノト乗算器、または３．２ビット×３２ビット乗算器の１／４と同様に機能可能である点である。この同じ容量の計算能力により、別な方法で、同じ動作性能を保持しながら２５６列よりも少ないマトリックスを取り扱うに適するようにチップの設計を行うことを可能にする。

第２０図は、６４ポイント×４ビツト内積論理のブロック図を示している。４つの合計、すなわち、ＩＸ４つの６４の入力の各合計２゜Ｏ８乃至２０１１、が計算される。これらの合計の各々は６４の論理積ゲートにより駆動され、各ゲートは、ベクトルシフタバスの１ビツト×マトリツクスシフタバスの１ビツトを乗算する。しかしながら、マトリックスシフタバスの同じビットはベクトルシフタバスの４ビツトにより乗算され、１ビツト×４ビツトの乗算が得られる。このように、この構成では、２５６ではな（て、６４列のマトリノクスが取り扱われる。

ベクトルシフタバスの連続ビットは、各４つの要素の１ビツトではなくて、４ビツト／ベクトルの要素の群である。

このように、ベクトルシフタバスＢ３乃至ＢＯは、各４つの要素からの１つの同様な重みのビットではなく、ベクトルの同じ要素の８３乃至ＢＯを表現する。

例えば、論理積ゲート２００７はマトリックスシフタバスＢＯ及びベクトルシフタバスＢＯを受け取り、加算器２０１１に送る。論理積ゲート２００３も同様である。（留意すべきは、加算器２０１１に対する入力でのバス内の線の番号、／６４、により示されるような、バス表記法が用いられる点である。表現の簡略のために、出力のある群はある群として引かれる。すなわち論理積ゲートの出力はまとめて短絡されることはない。論理積ゲート２００６はマトリックスシフタバスＢＯ及びベクトルシフタバスＢ１を受け取り、加算器２０１Ｏに供給する。

論理積ゲート２００２も同様である。論理積ゲー）　２００５はマトリックスシフ９バスＢＯ及びベクトルシフタバスＢ２を受け取り、加算器２００９に供給する。論理積ゲー）２００１も同様である。論理積ゲー）　２００４はマトリックスソフタバスＢＯ及びベクトルシフタバスＢ３を受け取り加算器２００８に供給する。論理積ゲー）　２０００も同様である。簡略化のために、各論理積ゲートに供給されるマスク論理は示されていない。

事実上、ベクトル累算器チップの論理は知識メモリチップ内に移動される。重み付は加算器２０１５は重み付は加算器１３００と同様である。

補数器２０１２は補数器１４００と同様である。第２０図の新しい特徴は、加算器２００８の出力か補数器２０１２の出力かの何れかを選択するマルチプレクサ２０１３であり、この場合に、選択は別のプロセッサ制御線、補数線２０１４により行われる。補数器２０１２の出力は、加算器２００８の出力が負の重みを有する場合に、マルチプレクサ２０１３により選択される。

負の重みは、加算器２００８を駆動する論理積ゲートを、負の重みを備えたマトリックスビットかベクトルビットの双方ではなくて一方から、受は取る場合に生じる。このように、補数線２０１４は空間（どのチップか対どのマトリックスビットか）及び時間（どの周期か対どのベクトルビットか）の関数である。

各プロセッサスライスにより取り扱われるマトリックスビットの数及び列ベクトルビットの数を変えることにより、多くの別の構成例を生み出すことができる。

（論理積ゲー）　２００４乃至２００７は単一の１ビツト×４ピツトスライスと考えることができる。）マトリックスメモリコア内の記憶せるの列の数は、マトリックスコアからの列を一組のマルチプレクサに選択させ、マトリックスメモリバスとして選択された列を送ることで、プロセッサスライスにより演算される複数のビットの数となり得る。全ての場合に、全てのスライスの出力は加算されて部分積を形成する。

畳込みアプリケ−７ｇン知識メモリチップは畳込み、特に画像処理のための二次元畳込みのために使用することができる。畳込みは、多くの標本点、すなわち標本点のマトリックスにわたって掃引される「畳込みウィンドウ」を形成する、−組を係数を必要とする。

畳込みウィンドウの各位置は、各係数が個々の橋本点の倍数に乗算され、多くの積が合計されることが必要である。

この共通演算をベクトル内積とみなすことができる。標本点のマトリックスはいくつかの群に分割される。各群の標本点は連結されて、行ベクトルを形成する。

係数も連結されて列ベクトルを形成する。このように、標本点にわたる畳込みウィンドウの掃引は、連結された標本点の異なる群を要求するが、係数の連結には変化がない。

畳込みに関する知識メモリのアーキテクチャの効果は次の通りである。（１）畳込みウィンドウの掃引は、外部記憶装置を必要とせずに完全に知識メモリチップ内で処理される。（２）いかなるレベルの係数及び標本点精度をも得ることが可能である。（３）多くのレベルの動作性能を得ることが可能である。（４）多くの標本源により表現される対象の骨組みを引き出す形態学的演算のような相互作用的演算が、標本点をマトリックスメモリ内にロードし、畳込み、畳込みの結果としてマトリックスメモリ内の標本点を更新し、さらに畳込みをすることによって実行可能である。

第２１図は、画像、すなわち、標本点又は画素（ピクセル）の二次元配列を示している。なお、画素により、知識メモリチップを用いた誓込みの方法を説明するための用いられる表記法が規定される。

図においては、各画素の第１の文字が画像の行を識別し、第２の文字が列を識別する。このようにして、画素ＡＡは０行（ＬＯ）、０列であり、画素ＢＡは１行（Ｌｌ）、０列であり、画素ＡＢは０行、１列である。数字ではなくて文字が画素のインデックスを表現するために用いられることにより、できる限り少ないシンボルを用いて、画素の位置と画素の数字との間の混乱を回避することができる。

（画素ＡＡを「Ｐ　（０，Ｏ）と表示することも可能であるが、これでは、２つではなく６文字を用いる必要があり、ページ上の多くの空間を費やしてしまう。

）画像は行（ｒｏｗ）ではなくライン行（ｌｉｎｅ）で表すことにより、マトリックスメモリの行との混乱を回避する。

多くの画素の各々は複数のビットにより表現されるが、これらの多くのビットは、上述の通り、単に、多くの精度で記憶される必要のある知識メモリの数に影響を与えるのみである。これらの各種ビットは知識メモリ内の情報の流れには関連がない。というのも、各チップが画素を、あたかも単一ビットの精度のみであるかのように取扱い、同じビクセルを取り扱う全てのチップには同じ流れが生じるからである。そしてこの流れが用いられる方法の核心である。

説明の単純化のために、この方法を説明する事例は非常に小さい畳込みウィンドウを用いる。このウィンドウは４つの列幅と４つの行高さを有している。これらのウィンドウを、いかなる寸法にも、大きくも小さくも、所望するとおりに伸ばすことができる。さらに、ウィンドウは、正方である必要ではなく、２の倍数であれば、いかなる数の行又は列を有することも可能である。

畳込みウィンドウのための係数は第３４図に３４００として示されている。示された配列内のこれらの同じ係数が、画像の画素の多くのライン行及び列上のウィンドウの位置に無関係に用いられる。

第２１図は、Ｗ（０，Ｏ）［２１００］及びＷ（０，４）［２１０１］としての画素の群を規定する。座標は、それぞれ、ウィンドウの左上側の画素、画素ＡＡ及びＡＥである。各ウィンドウの周囲はドツトで示される。Ｗ（０，０）に関して計算される畳込みＣり０゜０）は、第３８図の式１で与えられる。Ｗ（０，４）に関して計算される畳込みＣ（０，４）は、第３８図の式５で与えられる。

矢印が各ウィンドウに示されている。これらの矢印は、画素が可憐されてマトリックスメモリファ４００に記憶される行ベクトルを形成するシーケンスを示している。この連結が、ここで用いられる畳込み方法の主要部分である。この連結は、マトリックスメモリコアの単一行内の連続列内へ画素の群をロードすることにより実行される。

マトリックスメモリコア内へのデータのロードは、マトリックスアドレス線４０３の使用を要求し、これらの線を動作する装置が好適なシーケンスを創造する。

かかる装置は、改良型マイクロ装置２９１Ｏのような、マイクロプログラムシーケンサであり、ここで規定される方法を実行するようにプログラムされた読み出し専用メモリとともに動作する。

畳込みウィンドウを計算する効果的な方法の主要部分は、画素の矩形領域の画素のライン行への変換に依拠している。Ｃの変換は、単−周期内でベクトルメモリファ４１８又はマトリックスメモリコア４００の全行がアクセスされるが故に、重要である。このように、ウィンドウＷ（０，０）の画素の４つのライン行が連結され、頂上から開始して、各ライン行の画素が左から右へ順次配置されるに従い下っていく。かくして画素ＢＡに画素ＡＤが続く。画素のライン行のマトリックスメモリの列への配置が、第２５図の第１列、ＭＭＲＯとして示されている。

ウィンドウＷ（０，４）に関する画素の配置が第２５図の第２行として示され、マトリックスメモリ行１、ＭＭＲＩに記憶される。マトリックスメモリ内で必要とされる行に応じて、画像の単一ライン行を横切るウィンドウの重なり合わない位置が生じる。

画素のマトリックスメモリ内の特定列への配置は、畳込みウィンドウを計算するためにこれらの画素をシフトする必要のある各種方法が存在するために、重要である。畳込みウィンドウの第１の位置によって用いられる連結画素は典型的には、次の連結画素と共に、マトリックスメモリ行０内に配置され、重なり合わないウィンドウ市はマトリックスメモリの次の行に配置される。以下同様。しかしながら、この方法に組み込まれた再循環機構の結果、限定された画素のライン行数が一度にマトリックスメモリ内に記憶される必要があるに過ぎない。マトリックスメモリの行内の画素群の使用が完了すれば、新しい画素群が不要となった画素と置き換えられる。

第２２図は、ウィンドウＷ（０，１）［２２００］としての画素群を定義している。このウィンドウは、ウィンドウＷ（０，０）の右側の一列である。ウィンドウｗ（ｏ、ｉ）に関する、畳込みＣ（０゜１）の計算は第３８図の式２により与えられる。ウィンドウの、左側上部の画素ＡＢは、ここでは０ライン行１列である。このウィンドウには矢印が示されていないことに留意されたい。これは、連結が、ウィンドウの特定位置に関してのみ行われているためである。４ｘ４ウインドウを備えたこの事例では、マトリックスメモリコアはウィンドウ位（ｔＷ（０，（４＊Ｎ））に関してのみロードされる。

第２３図は、ウィンドウＷ（０，２）［２３００］としての画素群を定義している。このウィンドウは、ウィンドウＷ（０，１）の右側の一列である。ウィンドウＷ（０，２）に関する、畳込みＣ（０゜２）の計算は第３８図の式３により与えられる。ウィンドウの、左側上部の画素ＡＢは、ここでは０５１２行２列である。

第２４図は、ウィンドウＷ（０，３）［２４００］としての画素群を定義している。このウィンドウは、ウィンドウＷ（０，２）の右側の一列である。ウィンドウＷ（０，３）に関する、畳込みＣ（０゜３）の計算は第３８図の式４により与えられる。ウィンドウの、左側上部の画素ＡＢは、ここでは０９４２行３列である。

ウィンドウを第２１図に示されている位置から一ライン打丁に移動させると、第２６図は、ウィンドウＷ（１，０）［２６００］及びＷ（１，４）［２６０１］としての画素群を定義している。ウィンドウＷ（１，０）に関する、畳込みＣ（１，０）の計算は第３８図の弐〇により与えられる。座標は、各ウィンドウの左側上部の隅にある画素であり、それぞれＢＡ及びＢＥである。各ウィンドウの周囲は点によって示されている。矢印が、畳込みウィンドウの係数として用いるために必要とされる画素の連結のシーケンスを示すものとして示されている。

ウィンドウの各重なり合わない位置に対して画素をマトリックスメモリ内に配置する様子が第２７図に示されている。画像の、新しいライン行Ｌ４の画素ＥＸが、不要となったライン行ＬＯの画素ＡＸと置き換えられている点に留意する必要がある。マトリックスメモリ内に予め記憶されているいかなる画素を移動させる必要もない。

マトリックスメモリ行０、ＭＭＲＯがウィンドウＷ（１，０）に関する画素を記憶し、マトリックスメモリ行１、ＭＭＲｌがウィンドウＷ（１，４）に関する画素を記憶する。

第２６図に示される位置からウィンドウを−ライン打丁に移動すると、第２８図は、ウィンドウＷ（２，０）［２８００］及びＷ（２゜４）［２８０１３としての画素群を定義している。座標は、各ウィンドウの左側上部の隅にある画素であり、それぞれＣＡ及びＣＥである。各ウィンドウの周囲は点によって示されている。矢印が、畳込みウィンドウの係数として用いるために必要とされる画素の連結のシーケンスを示すものとして示されている。

ウィンドウの各重なり合わない位置に対して画素をマトリックスメモリ内に配置する様子が第２９図に示されている。画像の、新しいライン行Ｌ５の画素ＦＸが、不要となったライン行Ｌ１の画素ＢＸと置き換えられている点に留意する必要がある。マトリックスメモリ内に予め記憶されているいかなる画素を移動−させる必要もない。

マトリックスメモリ行Ｑ、ＭＭＲＯがウィンドウＷ（２，０）に関する画素を記憶し、マトリックスメモリ行１．ＭＭＲＩがウィンドウＷ（２，４）に関する画素を記憶する。

ウィンドウを第２８図に示されている位置から−ライン打丁に移動させると、第３０図は、ウィンドウＷ（３，Ｏ）［３０００］及びＷ（ａ、４）［３００１］としての画素群を定義している。座標は、各ウィンドウの左側上部の隅にある画素であり、それぞれＤＡ及びＤＥである。各ウィンドウの周囲は点によって示されている。矢印が、畳込みウィンドウの係数として用いるために必要とされる画素の連結のシーケンスを示すものとして示されている。

ウィンドウの各重なり合わない位置に対して画素をマトリックスメモリ内に配置する様子が第３１図に示されている。画像の、新しいライン行Ｌ６の画素ＧＸが、不要となったライン行Ｌ２の画素ＣＸと置き換えられている点に留意する必要がある。マトリックスメモリ内に予め記憶されているいかなる画素を移動させる必要もない。

マトリックスメモリ行ＯＳＭＭＲＯがウィンドウＷ（３，０）に関する画素を記憶し、マトリックスメモリ行１．ＭＭＲＩがウィンドウＷ（３，４）に関する画素を記憶する。

ウィンドウを第３０図に示されている位置から−ライン打丁に移動させると、第３２図は、ウィンドウＷ（４，Ｏ）［３２００］及びＷ（４，４）［３２０１］としての画素群を定義している。座標は、各ウィンドウの左側上部の隅にある画素であり、それぞれＥＡ及びＥＥである。各ウィンドウの周囲は点によって示されている。矢印が、畳込みウィンドウの係数として用いるために必要とされる画素の連結のシーケンスを示すものとして示されている。

ウィンドウの各重なり合わない位置に対して画素をマトリックスメモリ内に配置する様子が第３３図に示されている。画像の、新しいライン行Ｌ７の画素ＨＸが、不要となったライン行Ｌ２の画素ＤＸと置き換えられている点に留意する必要がある。マトリックスメモリ内に予め記憶されているいかなる画素を移動させる必要もない。

マトリックスメモリ行０、ＭＭＲＯがウィンドウＷ（４，０）に関する画素を記憶し、マトリックスメモリ行１、ＭＭＲＩがウィンドウＷ（４，４）に関する画素を記憶する。

これで周期が完了する。畳込みウィンドウ内のライン行の数は、マトリックスメモリの行内に配置された画素群の数を決定する。ウィンドウＷ（４，０）の取扱いは、ウィンドウＷ（０，０）の取扱いと同様である。以下同様。

第３４図は、上で用いられた４×４ウインドウ３４００に関する係数を示している。これらの係数をベクトルメモリファ４１８内に記憶するために連結するシーケンスが矢印で示されており、２１００として示されるように、画素が必要とする同パターンが後に続く。ウィンドウには４つのライン行があるので、これらの係数は、第３５図に示される４つの方法でベクトルメモリコアに配置される。配向の選択は、ウィンドウ内の画素と対応する係数との間の配列要求に合致するするかに依拠している。ウィンドウには４つの列があるので、第３５図に示される係数の各組は、上述の係数の組に関して右側に４つの列によって循環される。

第３６図は、マトリックスシフタ４０７を形成する２つのレジスタＭＳＲＯ及びＭＳＲＩを通るデータ流れを示している。説明の簡略と、上述の事例との一貫性を保持するために、４×４ウインドウのみを扱うものと仮定する。

マトリックスメモリバス４０４からのデータは、頂上レジスタＭＳＲＯにロードされる。レジスタＭＳＲＯの内容は、マトリ・ノクスンフタバス４０８を駆動する、底部レジスタＭＳＲＩ内に並行してロードされる。マトリックスシフタパスはプロセッサスライス４０９を駆動する。

この単純な並行ロードは、畳込みなしのマトリ、クスの乗算を行（Ｘたい場合に用いられる。マド１ルツクスメモリコアの行は、マトリックスの新しい行に関する、又は新しい重なり合わな０ウインドウ（こ関する計算が始められる場合に、ＭＳＲＯ内にロードされる。

畳込みウィンドウを画素の１列から右に、すなわち、ウィンドウＷ　（０，’Ｏ）からウィンドウＷ（０，１）に移動させるためζこ、ウィンドウＷ（０，０）が不要となったＭＳＲＩから（左端の）画素を除去し、ウィンドウＷ（０，１）に関して必要とされる新しｔｌ（右端の）画素に持ってくる必要がある。これは、レジスタＭＳＲＯ及びＭＳＲＩ内のデータを、図に示した経路で、左側１こ（ウィンドウが移動する方向と逆）シフトさせることにより行わり、る。レジスタは、４×４ウインドウ内の４つの行（４つのセグメントを与える）と４つの列（セグメント毎に４つのビットを与える）と一貫性が保たれるように、４つのビット毎に４つのセグメントに分割され、データをＭＳＲＯからＭＳＲＩヘシフトさせる。例えば、ＭＳＲＯ−ｂＦの出力はＭＳＲＩ−ｂＣの入力に連結され、画素のライン行に連続性を付与する。３つの他のセグメントも同様に機能する。

第３７図は画素の特定の組の例を与える。レジスタＭＳＲＯはウィンドウＷ（０，４）［２１０１］を記憶し、レジスタＭＳＲＩはウィンドウＷ（０，Ｏ）［２１００］を記憶する。ウィンドウが位置Ｗ（Ｏ，Ｏ）からＷ（０，１）に移動する場合に、画素ＡＡ、ＢＢ。

ＣＡ及びＤＡは不要であり、画素ＡＥ、ＢＥ、ＣＥ及びＤＥカ讐必要とされる。

ウィンドウの連続移動は、レジスタの連続シフトに対応している。レジスタＭＳＲＯは、空になると、画素の次の組がロードされる。

ＭＳＲＩ及び、係数を示す列ベクトルビットベクトルの組数に含まれる画素ビットベクトルの内積はＭＳＲＩの各状態に関して計算される。

畳込みの方法の次の複雑な動作を次ぎに説明する。

最大コスト効率及び効果的な動作のためにマトリックスメモリ内に必要な行の最小数は、（丸められた）畳込みウィンドウの幅（列の数）により分割された画像の各ライン行内の画素の数に等しい。

これは、画像のライン行を横切る畳込みウィンドウの重ならない配置が、マトリックスメモリ内のデータの別の行の記憶を必要とするためである。この条件が満足されれば、画素は、知識メモリチップをし要する全てのウィンドウに関して、その知識メモリチップ内にただ一度だけロードされれば良い。これらの各行の幅は、ウィンドウ内の点の総数、すなわち、ウィンドウ高さのウィンドウ幅倍に等しい。

行の数は多くの場合には余り大きいものではなく、２５６以下であることもしばしばである。例えば、ライン行当たり４０９６画素で１６Ｘ１６のウィンドウを用いる大きな画像がそれぞれ２５６ビ、）の２５６行を必要とするに過ぎず、ライン行当たり４０９６画素で３２Ｘ３２のウィンドウを用いる画像がそれぞれ１０２４ビツトの１２８行を必要とする。このように、−次的要求は、知識メモリチップ内のマトリックスメモリ内の行の数ではなく、内積を計算する点、すなわち要素の数である。以下に説明する如く、複数の知識メモリチップを一緒に用いて、点の群が単一の計算周期で取り扱うことので着る点の数が各知識メモリチップによって取り扱われる点の数の合計となるようにすることもできる。

既に説明したように、各知識メモリチッブ内に必要な記憶容量を最小にする方法は、その部分に記憶されている画素が不要になるとすぐに、記憶を再循環することによる。外部記憶装置からこれらの新しい画素を獲得するための時間量は、ウィンドウの幅の整数倍の精度に比例しており、この場合に、比較的大きな回数の周期がデータをロードするために利用できる。

結果的に、ウィンドウが画素の次のライン行を取り扱うために下方に移動するにつれ、ウィンドウ係数はそれらが供給される画像の列に対して再び配列される。

これにより第３５図に示すように、係数に対する４つの位置の組を生じさせる。

ウィンドウが４つの列幅なので、４つの列の右への循環ソフトが必要となる。循環／フトの意味は、−万端からシフトされた係数が他方端に入れられるということである。

ここで留意すべきは、ウィンドウ幅のみではなくウィンドウを含む画素の全長を横切って係数がシフトし、マトリックスシフタによる画素がシフトされる場合には、左ではなくて右にシフトされるという点である。

係数のシフトはベクトルシフタにより行われる。一度に一列のシフトを行うのではなく、シフトは理念的にはウィンドウ幅の広さの限り行われる。しかしながら、このシフトはめったに生じるものではなく、画像の全９４７行の完成が後続する場合のみである。知識メモリチップは、可能な限り経済的に係数のシフトを実行し、畳込みウィンドウの計算に時折の短い中断を生じさせるに過ぎない。この中断は、多くのシステムがあるライン行の処理終了と次のライン行の始め′との間で経験する短い中断に相当するものである。

最大の経済を確保するためには、ベクトルシフタを単一のシフトレジスタから構成することを留意する必要がある。一般に、係数が複数の精度ビットを有している場合に、係数の各ビットベクトルは順次シフトされる。説明の単純化のために、図中の係数は１ビツトの精度を有するものとして描かれている。

ベクトルシフタのデータ流れは第３９図に示されている。データは、ベクトルメモリバス４１７からベクトルシフタバス４１４への流れ（逆も同様である）と平行して、レジスタＶＳＲＯを通って流れる。（データはマトリックスシフタからマトリックスメモリに戻ることはできない。）レジスタを通るかかる単純な通路が、畳込みの無い列ベクトルのマトリックス倍の乗算を行う場合に用いられる。

循環シフト通路は、ｂＦからｂＢへ、ｂＢからｂ７へ、ｂ７からｂＢへ、及びｂＢからｂＦへ戻るように示されている。

ベクトルシフタ４１７は１つのレジスタを有しているが、マトリックスシフタ４０７は直列の２つのレジスタを備えている点に留意する必要がある。これにより、ベクトルメモリコア内のデータ行とマトリックスメモリコア内のデータ行のアクセスと、データがブロモ・ノサスライス４０９にデータが有効となる時間の間の遅れに相違が生じる。ごの遅れの相違は、ベクトルアドレス論理４２３とマトリックスアドレス論理４０２によって発生されたアドレスのシーケンスをスキューすることにより補償される。

アドレス論理についての説明に概説されたように、マトリックスアドレス論理は、リセットら印形を用いるベクトルアドレス論理の先頭の行を開始させることができる。これは、また、より小さなベクトルメモリファよりも長いアクセス時間を備えている可能性のあるマトリックスメモリコアの行にアクセスする時間量を増加させる。

このより長いアクセス時間は、ベクトルの精度がマトリックスメモリのアクセス時間に見合う、又は超過するベクトルメモリの周期を要求するに十分な高さにある限りは、計算率を減少させることはない。知識メモリの外部の装置は、ベクトル精度がマトリックスメモリが遊休時間をを有するに重文が高さである場合には、内積の計算率を減少させずに、マトリックスメモリにアクセス可能である。

第４０図は、ウィンドウ係数の特定組に関する循環シフトの動作を示１２ている。初期ロードは、第３５図の線ＶＭＲａと整合するように示されている。−組のシフトは第３５図の線ＶＭＲｂに示されている状態を形成する。別の組のシフトは第３５図の線ＶＭＲｃに示されている状態を形成する。別の組のシフトは第３５図の線ＶＭＲｄに示されている状態を形成する。別の組シフトは係数を、線ＶＭＲａに示されているならとの状態に戻し、ここから周期が繰り返される。

係数のシフトの詳細を次の通りである。

■、ベクトルメモリの行ｎがベクトルシフタにロードされる。（説明を単純にするために、この行は係数の最下位ビットベクトルを記憶するものと仮定する。）２、ベクトルメモリの行ｎが（ベクトル用設定動作を用いた）ものに設定され、ベクトルシフトが、より高い番号のビットからより低い番号のビットへ、周期的に右にシフト（循環）される。ウィンドウ幅と単一周期でベクトルシフタがシフトできる周期に依拠する必要に応じて多くのシフトが行われる。（このステップは、７’−９カベクトルメモリの行に直接書き込まれる場合には省略される。）３、ベクトルシフタの内容はベクトルメモリの行ｎに書き戻される。

４、このシーケンスは、ベクトルメモリ内に記憶され、現在の畳込みで使用される係数を含むビットベクトルの全てに関して繰り返される。

複数の知識メモリが、１つのチップにより取り扱われる点の数を越えてウィンドウの数を増加させるために用いられる場合に、この処理は複雑になる。この複雑化は、１つの知識メモリチップから別のチップへと係数を移動させる必要から生じる。これを取り扱うための別の手続については後述する。

本発明の好適な実施例の説明のための４×４のウィンドウの例をわきに置き、第４１図は２５６ビツトモジユールとしてマトリックスシフタを示している。このモジュールは、それぞれが［マトリックスシフト論理６４Ｊ　（ＭＬＳ６４）４１００及び４１０３である、４つの６４ビツトモジニールに組み込まれ、８×８画素と同じように小さくウィンドウを計算可能である。かかるウィンドウは総計６４の点からなる。これらの４つのモジュールは、右から左へ、６４ビツトモジユール４１０３から６４ビツトモジユール４１００へ供給する一次元連鎖内で連結されている。

第４２図は、マトリックスシフタの６４ビツトモジユールのブロック図である。

６４ビツトモジユールは、垂直の点線で示された、８つの８ビツトモジユール内に組み込まれる。レジスタＭＳＲＯ及びＭＳＲＩが、それらの相互接続を説明するために正確に示されている。基本的な構造は、２つのレジスタ間の相互接続の単なる組が存在することであり、２つのレジスタは、画像を知識メモリチップのマトリックスメモリ内に置くための特定の方法と組み合わされた場合に、畳込みウィンドウの各種寸法の効果的な計算を促進する。

畳込みウィンドウの計算が多くの画素を繰り返し使用するので、各画素を使用するウィンドウ毎に、又は各画素を使用するウィンドウの各行毎に各画素をロードするのではな（、各画素を必要とす流全でのウィンドウを計算するために、知識メモリチップ内に一度だけロードすることが好ましい。各画素を知識メモリチップに一度だけロードすることにより、知識メモリチップの外部で取り扱う大量のデータを回避可能であり、システムを実行するために必要なチップの数を大幅に減少させることが可能になる。

第４２図のレジスタはいくつかの寸法に連鎖に組み込まれ、その場合に、マトリックスメモリからのデータはレジスタＭＳＲＯにロードされ、連続してレジスタＭＳＲＯがらレジスタＭＳＲＩにシフトされる。単純化のために第４２図には示されていないが、第３６図に示されるように、ＭＳＲＯが直接ＭＳＲＩにロード可能なように、２つのレジスタの間には平行経路が存在する。

連鎖の長さは、８．１６．３２．６４の画素幅のウィンドウに対して８，１６．３２．６４ビツトである。８ビツトモジユールのある群のみが、第４２図に示され及び第４４図に表にされているように、これらの長さを支援可能である。ウィンドウ幅の選択は、ウィンドウ幅線４２２０により行われる。ウィンドウの高さは、後述のように、マスク論理８０２の使用と共に、マトリックスメモリ内に画素を配置することにより選択される。

後続のウィンドウ幅は、これらの幅が後述の幅広ウィンドウの畳込みを支援可能なので、本発明の好適な実施例に含まれている。

１．８ビツト全ての８ビツトのモジュールは８画素幅ウィンドウを支援している。例えば、Ｕ　８　（４２０７）　（レジスタＭｓＲｏの８つの同一区画の一つ）がＵ　Ｏ（４２１７）　（レジスタＭＳＲＩの８つの同一区画の一つ）に供給し、Ｕ　８　（４２０６）がＵ　１　（４２１６）ニ供給する。

２．１６ビ、ト全ての８ビツトのモジュールの等しい組が１６画素幅ウィンドウを供給する。例えば、Ｕ　８　（４２０７）が０８　（４２０６）ｔ、：供給し、Ｕ　Ｏ（４２１７）がＵ　１　（４２１６）に供給する。

３．３２ビ、ト４つの最も左側の８ビツトのモジュールと４つの最も右側の８ビツトのモジュールが３２画素幅ウィンドウを供給する。例えば、Ｕ　８　（４２０７）がＵ　８　（４２０６）ｆ、：供給し、Ｕ　８　（４２０６）がＵ８（４２０５）ニ供給し、Ｕ　８　（４２０５）がＵ　８　（４２０４）　ニ供給し、Ｕ　８　（４２０４）がＵ　Ｏ（４２１７）ｌ：供給し、Ｕ　Ｏ（４２１７）がＵ　１　（４２１６）＋：供給し、Ｕｌ　（４２１６）がＵ　２　（４２１５）に供給し、Ｕ　２　（４２１５）がＵ　３　（４２１４）に供全６４ビットモジュールが集合的に作動する。８つのＵ８が右から左に順次供給し、最も左側のＵ　８　（４２００）がＵ　８　（４２１７）に供給し、Ｕ　Ｏ（４２１７）がらＩＪ　７　（４２１０）へ右がら左へ順次供給する。

これらの各種グルーピングの効果は、知識メモリチップが効果的に取り扱う一組のウィンドウ幅を規定することである。実際には、別の幅を、ゼロ画素を備えた重ならないウィンドウ内の画素を当てて、所望の画素を重ならないウィンドウの頂上右側端に配列することにより、取り扱うことも可能である。このようなゼロ画素は視覚化のためだけであって、ロードされてはならない。レジスタｍ５ｒＯの余分なシフトが用いられて、レジスタＭＳＲＯからレジスタＭＳＲＩへ画素をシフ′卜する前に、各ライン行区画の左端のゼロ画素を除去する。不使用の係数がゼロに設定される。相互接続ハードウェアを直接側の寸法を与えるように調整することも可能であるが、多くのアプリケーションは示された寸法で機能する。

第４３図はマトリックスシフタの８ビツトのモジニールを示している。ＭＳＲＯ及びＭＳＲＩの間の相互接続の複雑化は、マルチプレクサ、Ｍ　４３１５によって取り扱われる。ＭＳＲＯの各ビットからの対応するＭＳＲＩｅ、トへの並列接続が、Ｒ（４３０１）からＲ（ｏｎ）への接続として示されている。単純化のために、この並列接続は第４２図には示されていない。

レジスタに関する制御信号はプロセッサ制御線４１６の一部であり、次の通りである。

１、ＭＳＲＯＩＪ御　→　レジスタＭＳＲＯの全てのビットへ２、ＭＳＲＩ制御　→　レジスタＭＳＲＩの全てのビットへレジスタＭＳＲＯ及びＭＳＲＩはクロック４１５を受け取り、第４３図に示された各８ビツトモジニール内で次の通り動作する。

ａ）動作せず（Ｎｏ−ｏｐ）　：レジスタの現在の状態を保持ｂ）ＭＳＲＯをロード：マトリックスメモリバス　→　ＭＳＲＯｃ）ＭＳＲＯをクリア：０　−　ＭＳＲＯｄ）ＭＳＲＩをクリア：Ｏ→　ＭＳＲＩｅ）ＭＳＲＯをシフト：ＭＳＲＯ（ビットｎ）　−ＭＳＲＩ（ビットｎ＋１）、ｎ＝０〜７、　ｒＡＪ　［４３０５］以外　→　ＭＳＲＯ（ビットＯ）　［４３０４］。ＭＳＲＯ（、ビット７）　［４３０１１→　ｒＢＪ［４３００１゜ｒＡＪ及びｒＢＪは各８ビツトモジユールに対して局所的であり、第４１図及び第４２図に示されたモジュールの間に連鎖されている。

ｆ）ＭＳＲＩをロード：ＭＳＲＯ（ビットｎ）　→　ＭＳＲｌ（ピノ　ト　ｎ＋１）　、ｎ＝ｏ　〜　７゜ｇ）ＭＳＲＩをシフト：ＭＳＲｌ　（ビットｎ）　→ 　ＭＳＲＩ　（ビットｎ＋１）、ｎ＝０〜７、ｒＡＪ　［４３１５］以外　−ＭＳＲＩ（ビｙ　ト０　）　［４３１４］。ｒＭＪを通るデータに関しては第４４図を参照のこと。

第４４図は、各８ビノトモジ二−ル内のマルチプレクサ４３１５に対する入力の表である。選択された入力はウィンドウ幅線４２２０に依存している。ここで留意すべきは、第４２図に示されているような相互接続の明かな複雑性は、ウィンドウ幅内の変化に対してしばしば鈍感な一組の接続にまで減少させられている点である。この鈍感さは、既に述べたように、ＭＳＲＯ及びＭＳＲＩの部分の選択されたグルーピングのみによる支援の結果である。

第４５図は、ベクトルシフタ４１７のブロック図を示している。ベクトルシフタは３２の８ビツトモジユール４５０１乃至４５０４に分割され、これらのモジュールは前述の環状循環をするように環状に接続されている。

ベクトルシフタは以下の点に関してマトリックス／フタと相違している。

１、ベクトルシフタは単一のシフトレジスタ、ＶＳＲＯを備えているが、マトリックスシフタは２つのＭＳＲＯ及びＭＳＲＩを備えている。

２、ベクトルシフトレジスタの端部は一致させられて（ｔｉｅｄ　ｔｏｇｅｔｈｅｒ）いるが、マトリックスシフタはそうでない。

３、ベクトルシフトレジスタは左から右にシフトするが、マトリックスシフトレジスタは反対方向にシフトする。

４、ベクトルシフトレジスタは８ビツトの変位でビットの各々をシフトし、データはレジスタの全ピントを通して流れる。マトリックスシフトレジスタは１ビツトのみの変位でシフトし、ウィンドウ幅線に依拠するセグメントに分断される。

ベクトルシフトレジスタはこのようにバレルシフタとして作動するが、マトリックスシフトはそうではない。

５、ベクトルシフタの出力はベクトルメモリに書き戻すことが可能であるが、マトリックスシフタの出力はプロセッサスライスに送られるだけである。

第４６図は、ベクトルシフタの８ビツトモジユールのブロック図を示している。

マルチプレクサＭ　４６０１がレジスタ　Ｒ４６０３に供給する。このレジスタの出力はベクトルシフタバス４１４とバッファ８４６０２を駆動する。バ・ノファの出力はＶＳＲＯ制御線４６０６の−っによってターンオンされ、レジスタ４６０３の内容をベクトルメモリ内にロードする。

レジスタＶＳＲＯはクロック４１５を受け取り、プロセッサ制御線４１６の一部であるＶＳＲＯ制御線４６ｏ６の制御により次のように動作する。

ａ）動作せず（Ｎｏ−ｏｐ）　：レジスタの現在の状態を保持ｂ）ＶＳＲＯをロード：ベクトルメモリバス（ビットｎ）　→　ＶＳＲＯ（ビットｎ）、ｎ＝ｏ〜７ｃ）ＶＳＲＯをクリア：Ｏ→　ＶＳＲＯｄ）ＶＳＲＯをシフト：ＶＳＲＯ（ビットｎ＋８）　−ＶＳＲＩ（ピッ）ｎ）、ｎ＝ｏ〜７で、第４５図に示されるように連鎖され、ビット１５から８は次に高次のモジュールからのビットである。

マルチプレクサ４６０１はＶＳＲＯ制御線の−っによって制御される。

ロード動作により、ベクトルメモリバス４１９の一ビットがマルチプレクサを介してレジスタ　Ｒ４６０３にロードされる。シフト動作により、ベクトルシフタ入力ボート４６０４の８ビツトのそれぞれが、モジュールを連鎖する上述の８つのレジスタの一つに入れられる。第４５図に示されているように、８ビツトのモジュールは連鎖され、単一周期で全てのビットを８ビツトシフトする。８ビツトのシフト距離はコスト的にも動作性能の観点からも好便である。もちろん別の距離で実行することも可能である。

非常に大きな畳込みウィンドウの取扱い第１９図に示されているように、複数の知識メモリチップを一緒に作動させて、単一の知識メモリチップが取り扱うことができるものより遥かに大きな畳込みウィンドウを実行することができる。チップ間の共同動作の事例として、２５６ポイントの１ビツト知識メモリの４つのブロックを用いた１０２４ポイントのウィンドウの実行を考える。含まれる原理はより大きなウィンドウに拡張可能である。

ここで留意すべきは、知識メモリブロック間には接続が存在せず、ブロックは並行に駆動されるか、又は共通重ろ付は加算器１９１７に出力を供給する。

第４７図は３２Ｘ３２のウィンドウの係数を示すために用いられる表記法を規定する。これらの係数は、各知識メモリチップのベクトルメモリのより下位の番号の行に配置される。各知識メモリチップ（ＩＭＣ’）に関する各係数のために用いられる列が、第４８図において、各係数βｘ、ｙの下に示されている。画素に対、する係数の移動には情報を知識メモリチップの各種ブロック内に好適に配置することが必要なので、配置は厳密に行う必要がある。

第４９図は、各知識メモリチップ内へのベクトルメモリのより高位の番号の行に第２の組の係数を配置する様子を示している。この配置は、画像の第一のライン行の処理の実行の前に行われる。係数は画像の各ライン行の実行の後に行われる必要があるので、あるライン行の実行の後で次のライン行の開始前に、係数はウィンドウ幅、この場合には、３２列に等しい距離だけ移動される必要がある。

しかしながら、この事例では、一つのチップはウィンドウの一つの部分のみを取り扱うことができるので、ウィンドウ係数は、実際にはチップの境界をクロスせねばならない。ビンがこの目的に専用される場合には、かかるクロッシングは非常に効果になる。そう大きくない８ビツト幅ベクトルシフタ経路では、チップ毎に、左に８右に８の１６のビンがかかり、これらのビンはめったに使用されず、画像のライン行の端部でのほんの僅かな周期で使用されるに過ぎない。

ここでの知識メモリチップの設計によれば、シフトがチップの境界をクロスする場合に獲得される係数を備えたベクトルメモリの部分を予めロードすることにより、チップ内の係数の循環を保持することにより、ビンの潜在的無駄を回避できる。従って、留意すべきは、各知識メモリチップの最右端（列３１・・・０）上の係数が選択される点である。例えば、知識メモリチップ３　［ＩＭＣ（３）］において、係数β２５５，０・・・β２５５，３１（下線部分）が、前の図に示されているように、係数β７，０・・・β７，３１によって前に占められていた位置を占有する。これらの後の係数は、ウィンドウが次のライン行に下ろされた場合に、チップＩＭＣ（３）内で用いられずに、次のチップＩＭＣ（２）で用いられる。

係数の第２の組が、計算の実行に用いられている区画とは異なるベクトルメモリの区画内に記憶されて、これらの係数のロードが、前の組が用いられている間に実行可能になるものと仮定する。

第５０図は、係数がシフトされた後のベクトルメモリの状態を示している。所望通りに、係数はチップ境界をクロスしたかのように存在する。

係数の移動に関するシーケンスは次の通りである。

１、係数の初期設定は、ベクトルデータ、ベクトルアドレス及びベクトル制御線を介してベクトルメモリ内の高次アドレス内にロードされる。

２、ベクトルメモリ内の提示アドレス内の記憶セルは「ベクトル設定行」機能を用いるロードの準備に設定される。（このステップは、ベクトルメモリの行がベクトルメモリバスから直接ロード可能な場合には不要である。）３、係数の各行が、現在の記憶に関するベクトルシフタを経由して高次の行から低次の行ヘコビーされる。

４、計算が、低次の行の係数を用いて行われる。

５、新しい係数が、チップ内での循環時に行が全ての位置に好適な係数を含むように、ベクトルメモリの高次の行内にロードされる。

各知識メモリチップにロードされる係数の数は畳込みウィンドウの幅と同じであり、新しい係数がチップの最も下位の番号を有する列に配置される。

６、画像の現在のライン行に関する計算が完了される。

７．８ビツトの係数を仮定した場合に、ベクトルメモリの高い位置、行（ｎ＋８）がベクトルシフタ内にロードされる。

８、ベクトルメモリの行ｎ（低次位置）及び行（ｎ＋８）が、ロードの準備に設定され、ベクトルシフタの内容がウィンドウ幅分だけシフトされる。このシフトを複数のステップで行うことも可能であり、周期と語とに８ビツトの移動のベクトルシフタでは４ステツプである。

９、ベクトルシフタの内容が計算の次の設定を実行するために行ｎに書き込まれ、係数のある部分の次の更新の準備のために行（ｎ＋８）に書き込まれる。

１０、　係数のそれぞれの別のビットベクトルに関して、ステップ７〜９が反復される。

１１、畳込みウィンドウの計算が再開される。

（産業上の利用可能性）ここに開示された知識メモリチップは、数値データの大きなマトリックスを迅速に乗算する必要がある広範囲のアプリケーションに利用可能である。これらのアプリケーションには、ディジタル信号処理、特に画像処理、パターン認識、三次元グラフィックス、科学や工学の計算が含まれる。

Ｆｉｇｕｒｅ　１Ｆｉｇｕｒｅ　２Ｆｉｇｕｒｅ　３Ｆｉｇｕｒｅ　５Ｆｉｇｕｒｅ　６Ｆｌｇｕｒｅ　７Ｆｉｇｕｒｅ　８Ｆｌｇｕｒｅ　９マトリックスアドレスＦｌｇｕｒｅ　１０ベクトルアドレス　’　Ｂ４−０Ｆｉｇｕｒｅ！　１１Ｆｉｇｕｒｅ　１２Ｆｉｇｕｒｅ　１３Ｆｌｇｕｒｅ　１４Ｆｉｇｕｒｅ　１５Ｆｉｇｕｒｅ　１６Ｆｉｇｕｒｅ　１７Ｆｉｇｕｒｅ　１８．１Ｆｌｇｕｒｅ　１８．２ＩＭＣ（３１ＩＭＣ（２）　ＩＭＣ（１）　ＩＭＣ（０１Ｆｉｇｕｒｅ　１Ｂ、３ＩＭＣ（３１ＩＭＣ（２）　ＩＭＣ（１）　ＩＭＣ（０）Ｆｉｇｕｒｅ　１９Ｆｉｇｕｒｅ　２０Ｌ３：　、Ｄ　＜−ＤＢ　＜−ＤＣ＜−ＤＤ　：Ｄ　＜−ＤＦ　＜−ＤＧ　＜− 品　：ｏｔ　−１Ｌ４：　ＥＡ　ＥＢ　ＥＣＥＤ　ＥＥ　ＥＦ　ＥＧ　ＥＨＥｌ −Ｌ５ｊ　ＦＡ　ＦＢ　ＦＣＦＤ　ＦＥ　ＦＰ　ＦＧ　ＦＨＦＩ−ＬＯ：　ＧＡ　ＧＢ　ＧＣＧＤ　ＧＥ　ＧＦ　ＧＧ　ＧＨＧＩ−−Ｌ７：　）［Ａ　ＨＢ　ＨＣＨＤ　ＨＥ　ＨＦ　ＨＧ　ＨＨＨＩ　−替Ｆｉｇｕｒｅ　２２ＬＯ；　晶　、ＡＢ　ＡＣＡＤ　ＡＥ　、ＡＦ　ＡＧ　ＡＨＡＩ−Ｌｌ：　ＢＡ　、ＢＢ　ＢＣＢＤ　ＢＥ　、ＢＦ　ＢＧ　ＢＨＢＩ−Ｌ２：　ＣＡ　、ＣＢ　ＣＣＣＤ　ＣＥ　、ＣＦ　ＣＧ　ＣＨＣ１−Ｌ３：　ＤＡ　、ＤＢ　ＤＣＤＤ　ＤＥ　、ＤＦ　ＤＧ　ＤＨＤＩ　・・２３００−−Ｗ（０，２）、、、、、、、、、、、、、、、、、、、、、、／、　。

ＬＯ：　ＡＡ　ＡＢ　、ＡＣＡＤ　ＡＥ　ＡＦ、ＡＧ　ＡＨＡＩ−Ｌｌ：　ＢＡ　ＢＢ　、ＢＣＢＤ　ＢＥ　ＢＦ　、ＢＧ　ＢＨＢＩ　・・Ｌ２：　ＣＡ　ＣＢ　、ＣＣＣＤ　ＣＥ　ＣＦ　、ＣＧ　ＣＨＣＩ−・Ｌ、３：　ＤＡ　ＤＢ　、ＤＣＤＤ　ＤＥ　ＤＦ　、ＤＧ　ＤＨＤＩ　・・Ｆｉｇｕｒｅ　２４Ｆｉｇｕｒｅ　２５Ｆｌｇｕｒｅ　２６Ｆｌｇｕｒｅ　２７Ｆｉｇｕｒｅ　２ＢＬ２：　、ＣＡ　（−ＣＢ　（−ＣＣ＜−ＣＤ　、ＣＥ　＜−ＣＦ　＜−ＣＧ　＜−ＣＭ　、ＣＩ　・・Ｌ５：　、Ｆｒマ需モ：、πＴ（−百丁品　：Ｆ工、。

Ｆｉｇｕｒｅ　２９ＦＯＩＲＯ：　ＥＡ　ＥＢ　ＥＣＥＤ、ＦＡ　ＦＢ　ＦＣＦＤ、ＣＡ　ＣＯＣＣＣＤ、ＤＡ　ＤＢ　ＤＣＤＤ。

階仏１：　ＥＥ　ＥＦ　ＥＧ　ＥＨ，ＦＥ　ＦＦ　ＦＧ　ＦＨ，ＣＥ　ＣＦ　ＣＧ　ＣＨ，ＤＥ　ＤＦ　ＤＧ　ＤＨ。

ＭＭＲ２：　ＥＩ　＠＠−−−−　、ＦＩ　−−−−−−、ＣＩ　−−−＠−＠　、０１　−−−−−−　。

Ｆｉｇｕｒｅ　３０Ｌ３：　、ＤＡ　＜−ＤＢ　＜−ＤＣ＜−ＤＤ　、ＤＥ　＜−ＤＦ　＜−ＤＧ　＜−ＤＨ、ＤＩ　・・Ｌ６；　：Ｇ　＜−ＧＢ　＜−ＧＣ＜弐、’Ｄ　：Ｇ　＜ −ＧＦ　＜−ＧＯ＜−Ｇ’Ｈ］ＧＩ　−Ｆｉｇｕｒｅ　３１ＭＭＲＯ：　ＥＡ　ＥＢ　ＥＣＥＤ、ＦＡ　ＦＢ　ＦＣＦＤ、ＧＡ　ＧＢ　ＧＣＧＤ、ＤＡ　ＤＢ　ＤＣＤＯ。

１４ＭＲ１：　ＥＥ　ＥＦ　ＥＧ　ＥＨ，ＦＥ　ＦＦ　ＦＧ　ＦＨ，ＧＥ　ＧＦ　ＧＧ　ＧＨ，ＤＥ　ＤＦ　ＤＧ　ＤＩ（。

ＭＭＲ２：　ＥＩ　・−−−−−、ＦＩ　・・・・・・　、ＧＩ　−−−−・・　、０１　・・・・・・　。

Ｆｉｇｕｒｅ　３２Ｆｉｇｕｒｅ　３３ＭＭＲＯ！　ＥＡ　ＥＢ　ＥＣＥＤ、ＦＡ　ＦＢ　ＦＣＦＤ、ＧＡ　ＧＢ　ＧＣＧＤ、ＨＡ　Ｈｅ　ＩＣＨＤ。

ＭＭＲＩ：　ＥＥ　ＥＦ　ＥＧ　ＥＨ，ＦＥ　ＦＦ　ＦＧ　ＦＨ，ＧＥ　ＧＰ　ＧＧ　ＧＨ，ＨＥ　ＨＦ　ＨＧ　ＨＨ。

ＭＭＲ２：　ＥＩ　−−■雷　、ＦＩ　−−−−・・　、ＧＩ　・■■・　、ＨＩ　−・■・　。

Ｆｉｇｕｒｅ　３５Ｆｉｇｕｒｅ　３６マトリックスメモリバスマトリツクスンフタバスＦｉｇｕｒｅ　３７Ｍ５ＲＯ：　、ＡＥ＜ＡＦ＜ＡＧ＜ＡＨ，ＢＥ＜ＢＰ＜ＢＧ＜ＢＨ，ＣＥ＜ＣＦ＜ＣＧ＜ＣＨ，ＤＥ＜ＤＦ＜ＤＧ＜ＤＨ。

Ｆｉｇｕｒｅ　３８ＤＤ傘βＣ＋　ＤＥ＊βＤ　＋　ＤＦ傘βＥ　＋　ＤＧ傘βＦ　式　４Ｆｌｇｕｒｅ　４１マトリックスメモリバスＦｉｇｕｒｅ　４４＝１ヱ２シ＝２とＡｉｌ　Ａｉｌ　人力１　人力。

ウィンドウ輻：　６４　３２　１８　８Ｆｉｇｕｒｅ　４２マトリックスメモリバスＦｌｇｕｒｅ　４３Ｆｉｇｕｒｅ　４６ベクトルメモリバスＦｉｇｕｒｅ　４７ β０，０　β０，１　−−−＠−β０，３０　１３０，３１　璽β０，０−・雪 β０，３１β３１，０β３１，１−−−−−嘩β３１，３０β３１，３１葺β３１，０Ｂｗ−β３１，３１Ｆｉｇｕｒｅ　４ＢＩＭＣ（３）ＩＭＣ（２）ＩＭＣ（１）ＩＭＣ（０）Ｆｉｇｕｒｅ　４９ＩＭＣ（３） β０，０・−―β０，３１　β１，０■噂β１，３１　β２，０−　備β２．３１　β３，０−・−β３，３１ＩＭＣ（２） β８．Ｏ１慢８，３１　β９，０・０β９１３１β１０，０−−−β１０　、３１　β１１，０−　−β１１，３１２５５・―−２２４２２３−−−−１９２１９１−・−１６０１５９・−−−−１２８ＩＭＣ（１） β１６，０−−−１３１６，３１　β１７，０−−−β１フ、３１　β１Ｂ、０ −−−β１８，３１　β１９，０−−−β１９　、３１ＩＭＣ（０） β２４．Ｏ・−β２４，３１β２５，０−−−β２５，３１β２６，０＠１１・ β２６，３１１３２７．０・・・β２７　、３１２５５・−自１・２２４　２２３−−−−−１９２　１９１−−−−β１６０　１５９・−−−−１２８Ｆｉｇｕｒｅ　３０ＩＭＣ（３）ＩＭＣ（２）ＩＭＣ（１）ＩＭＣ（０）国際調査報告

Claims

【特許請求の範囲】１　［Ａ］、［Ｂ］及び［Ｃ〕が全てマトリックスである場合に、［Ａ］＊［Ｂ］＝［Ｃ］の演算を実行するマトリックス乗算のための知識メモリチップであって、（ａ）マトリックスメモリが、（ａ１）マトリックスアドレス入力（４０３）とマトリックス制御入力（４０６）と複数のＭＭＲマトリックスメモリ行選択出力（４０１）とを備え、上記入力に応答して上記マトリックスメモリ行選択出力の一つを活性化することが可能な、マトリックスアドレス論理（４０２）と、（ａ２）メモリセルのＭＭＣ列によるＭＭＲ行のアレイとマトリックス制御入力（４０６）とマトリックスアドレス入力（４０３）とＭＤＢビットを備えたマトリックスデータ入力／出力（４０５）とＭＭＣビットを備えたマトリックスメモリバス出力（４０４）とを備え、マトリックスメモリ行選択出力（４０１）と協力してマトリックスアドレス線（４０３）により選択されたメモリセルとマトリックスデータ線（４０５）の間で情報のＭＤＢビットを送ることが可能であり、マトリックスメモリ行選択出力（４０１）により選択されたメモリセルの行の内容をマトリックスバス（４０４）に送ることが可能である、マトリックスメモリコア（４００）と、を備え、（ｂ）ベクトルメモリが、（ｂ１）ベクトルアドレス入力（４２１）とベクトル制御入力（４２０）とクロック入力（４１５）と複数のＶＭＲベクトルメモリ行選択出力（４２４）とＶＭＲ別ビットを搬送するベクトルメモリ行データ接続（４２２）とＶＤＢビットを備えたベクトルデータ入力／出力（４２５）とを備え、上記入力に応答して、ベクトルメモリ行選択出力（４２４）の一つを活性化することが可能であり、ベクトルデータ入力／出力（４２５）とベクトル目お炉行データ接続（４２２）の間の情報のＶＤＢビットを送ることが可能な、ベクトルアドレス論理（４２３）と、（ｂ２）メモリセルのＶＭＣ列によるＶＭＲ行のアレイとベクトルアドレス入力（４２１）とベクトル制御入力（４２０）とＶＭＣビットを備えたベクトルメモリバス接続（４１９）とＶＭＲベクトルメモリ行選択入力（４２４）とＶＭＲ別ビットを搬送するベクトルメモリ行データ接続（４２２）とを備え、ベクトルアドレス線（４０３）により選択されるメモ理性流の列の部分とベクトルデータ線（４２５）の間で情報のＭＤＢビットを送ることが可能であり、ベクトルメモリ行選択入力（４２４）により選択されたメモリセルの行の内容をベクトルメモリバス（４１９）に送ることが可能な、ベクトルメモリコア（４１８）と、を備え、（ｃ）プロセッサ論理が、（ｃ１）ＭＭＣビットを備えたマトリックスメモリバス入力（４０４）とＭＭＣビットを備えたマトリックスシフタバス出力（４０８）とクロック入力（４１５）とプロセッサ制御入力（４１６）を備え、マトリックスメモリバス（４０４）をマトリックスシフタバス（４０８）に連結可能な、マトリックスシフタ（４０７）と、（ｃ２）ＶＭＣビットを備えたベクトルメモリバス接続（４１７）とＶＭＣビットを備えたベクトルシフタバス出力（４１４）と、クロック入力（４１５）とプロセッサ制御入力（４１６）とを備え、ベクトルメモリバス（４１７）をベクトルシフタバス（４１４）に接続可能な、ベクトルシフタ（４１７）と、（ｃ３）マトリックスシフタバス（４０８）とべクトルシフタバス（４１４）とクロック（４１５）とプロセッサ制御（４１６）とを受け取り、これらのバスから受け取ったデータで演算を実行し、結果をプロセッサバス（４１２）に送ることが可能な、複数の同一のプロセッサスライス（４０９）と、（ｃ４）プロセッサバス（４１２）と部分析出力可能化（４１１）とを受け取り、部分折出力（４１３）を生じ、プロセッサバスから受け取ったデータを加算し、さらに、部分析出力可能化線（４１１）が表明された場合に部分析出力（４１３）を生じることが可能な、加算器（４１０）と、を備えていることを特徴とする知識メモリチップ。２　（ａ）ベクトルメモリバス（４１９）とマトリックスメモリバス（４０４）のビット数が同じであり、かつ１以上であり、（ｂ）マトリックスデータビット（ＭＤＢ）が１であり、（ｃ）マトリックス［Ａ］の各要素が１ビットの制度を有し、マトリックスの各行がメモリセルの異なる行に配置され、その場合に、メモリセルの行の各ビットが同じ重みを有するように、マトリックスデータ（４０５）を介してマトリックスメモリコア（４００）にロードされ、（ｄ）マトリックス［Ｂ］の列が、メモリセルの行の各ビットが同じ重みを有するように、ベクトルデータ（４２５）を介してベクトルメモリコア（４１８）内にロードされ、（ｅ）プロセッサスライス（４０９）が、マトリックスシフタバス（４０８）の各ビットに関し、一つの１ビットプロセッサスライス（７００）を備え、（ｆ）これらの１ビットスライスの各々により実行される演算が、プロセッサｎ＝（マトリックスバスビットｎ）論理積（ベクトルシフタバスビットｎ）であり、この場合に、部分積出力（４１３）が、マトリックス［Ａ］からの２進値行ベクトルとマトリックス［Ｂ］からの列べクトルからの同じ重みのビットの組の中の一つとのベクトル内積であることを特徴とする、請求項１に記載の知識メモリチップ。３　１ビットプロセッサスライス（４０９）を備え、各スライスがさらに排他的論理和ゲート（８０４）とマルチプレクサ（８０７）を備え、各スライスの論理積を用いた２つの２進値ベクトルの演算を実行、又は各スライスの排他的論理和を用いて２つの２進値ベクトルの比較が可能なように、プロセッサｎ内の排他的論理和ゲートがマトリックスシフタバスビットｎとベクトルバスビットｎを受け取り、マルチプレクサが論理積ゲート（８０３）の出力か排他的論理和の出力をプロセッサ制御線の状態に応じて選択することを特徴とする、請求項２に記載の知識メモリチップ。４　（ａ）低位のベクトル行アドレスと高位のベクトル行アドレスの間でベクトルメモリコア（４１８）の循環をさせ、高位ベクトル行アドレスに到着した場合にベクトル上限信号（９１０）を生成可能な、ベクトルアドレス論理（４２３）と、（ｂ）低位のマトリックス行アドレスと高位のマトリックス行アドレスの間でマトリックスメモリコア（４００）の循環をさせ、あるマトリックス行アドレスから次のマトリックス行アドレスヘの進みが表明されたベクトル上限信号（９１０）に応答して行われる、マトリックスアドレス論理（４０２）と、をさらに含むことを特徴とする、請求項１に記載の知識メモリチップ。５　複数のプロセッサスライス（４０９）を含み、プロセッサスライスの各々が（７００）が１ビットマスクレジスタ（８０２）を含み、マスクレジスタビットｎがプロセッサ制御線（４１６）に応答してベクトルシフタバスビットｎからロードされ、各プロセッサスライスにより実行される演算が、プロセッサｎ＝（マトリックスバスビットｎ）論理積（ベクトルシフタバスビットｎ）論理積（マスクレジスタビットｎ）であり、マトリックス［Ａ］の列の各組がマスクレジスタビットによってターンオン又はターンオフされることを特徴とする、請求項２に記載の知識メモリチップ。６　マトリックスメモリコア（４００）が、ダイナミックランダムアクセスメモリ、スタティックランダムアクセルメモリ、疑似スタティックランダムアクセスメモリ、読み出し専用メモリ、消去可能読み出し専用メモリ、及び電子的消去可能読みだし専用メモリから選択されることを特徴とする、請求項１に記載の知識メモリチップ。７　各マトリックスメモリバス（４０４）及びベクトルメモリバス（４１９）のビットの数が２の整数乗の６４倍であり、（ａ）マトリックスシフタ（４０７）が、さらにウィンドウ幅線（４２２０）とクロック（４１５）とプロセッサ制御線（４１６）とを受け取り、マトリックスシフタ（４０７）が、（ａ１）マトリックスメモリバス（４０４）からロード可能であるか、又はビットｎからの内容をそのビットの全てに対してビット（ｎ＋１）にシフト可能である、マトリックスシフタレジスタ０（第３６図では減少された長さでＭＳＲ０として示されている）と、（ａ２）ＭＳＲ０から平行にロード可能であり、平行出力としてマトリックスシフタバス（４０８）を生成し、ビットｎからの内容をそのビット全てに対してビット（ｎ＋１）にシフト可能である、マトリックスシフタレジスタ１（第３６図では減少された長さでＭＳＲ１として示されている）と、を含み、但し、（ａ２ａ）（ウィンドウ幅が８ビットを選択し）かつ［（ｎモジューロ８）＝０］である場合には、ＭＳＲ１ビットｎ入力＝ＭＳＲ０ビット（ｎ＋７）出力であり、（２２ｂ）（ウィンドウ幅が１６ビットを選択し）かつ［（ｎモジューロ１６）＝０］である場合には、ＭＳＲ１ビットｎ入力＝ＭＳＲ０ビット（ｎ＋１５）出力であり、（ａ２ｃ）（ウィンドウ幅が３２ビットを選択し）かつ［（ｎモジューロ３２）＝０］である場合には、ＭＳＲ１ビットｎ入力＝ＭＳＲ０ビット（ｎ＋３１）出力であり、（ａ２ｄ）（ウィンドウ幅が６４ビットを選択し）かつ［（ｎモジューロ６４）＝０］である場合には、ＭＳＲ１ビットｎ入力＝ＭＳＲ０ビット（ｎ＋６３）出力であり、（ｂ）ベクトルシフタ（４１７）が、（ｂ１）ベクトルメモリバス（４１９）からロード可能であり、ベクトルシフタバス（４１４）がその平行出力であり、「ｄ」最下位ビットが「ｄ」最上位ビットに送られる場合を除き、ビットｎからの内容をそのビットの全てに対してビット（ｎ−ｄ）へシフトすること可能である、ベクトルシフタレジスタ０（第３９図では減少された長さでＶＳＲ０として示されている）と、（ｂ２）ベクトルシフタバスビットｎをバスの全てのビットに対してベクトルメモリバスに送ることが可能な、バッファ（４６０２）と、を含み、（ｃ）ベクトルメモリの全ての行がベクトルメモリバスからロード可能であることを特徴とする、請求項１に記載の知識メモリチップ。８　ベクトルのマトリックス倍の乗算をするための行直列、ビット直列、要素並列の方法であって、（ａ）マトリックスがＲ行Ｃ列の要素を含み、これらの要素の各々が、２の補数表現でＭＰ（マトリックス精度）ビットにより表現され、（ｂ）列べクトルがＣ要素を含み、これらの要素の各々が、２の補数表現でＣＶＰ（列べクトル精度）ビットにより表現され、（ｃ）マスクベクトルがＣの１ビット用をを含み、要素Ｂが計算に含まれるマトリックスの列Ｂに関して真であり、（ｄ）計算システムが、ＭＰモジュール、大域制御論理及び大域組合わせ論理からなり、各モジュールがマトリックスメモリ、ベクトルメモリ、Ｃの１ビットプロセッサスライス及び、モジュールの全てのプロセッサスライスの出力を受け取る加算器を含んでいる、ベクトルのマトリックス倍の乗算をするための行直列、ビット直列、要素並列の方法であって、ここで、各マトリックスの要素のビットＮがモジュールＮ内のマトリックスメモリ内に記憶され、要素（Ｋ，Ｌ）のビットがマトリックスメモリの行Ｋ、列Ｌに配置され、ここで、列べクトルが各モジュールのベクトルメモリ内に紀律され、要素ＪのビットＭがベクトルメモリ内の行Ｍ、ビットＪに記憶され、ここで、モジュールＮ内のプロセッサスライスＰの演算が、選択されたベクトルメモリの各行及び選択されたマトリックスの各行に関して、プロセッサ（Ｐ，Ｎ）＝［マスク（Ｐ，Ｎ）論理積ベクトルメモリ列（Ｐ，Ｎ）論理積マトリックスメモリ列（Ｐ，Ｎ）］で実行され、ここで、モジュールＮの加算器が、選択されたベクトルメモリの各行及び選択されたマトリックスの各行に関して、真値出力を備え、部分席（Ｎ）、ＰＰ（Ｎ）を生成するモジュール内において、プロセッサスライスの数を計数し、大域制御及び組み合わせ論理は、演算及び計算を、マトリックスメモリの各行に関して順に（最も緩いループ）、ベクトルメモリの各行に関して順に（中間ループ）、及び全てのプロセッサスライス及びすぐに伴う加算器（十分に平行な「内側ループ」）に関して、（ステップ１）ｍｒｉ＝０；マトリックス行インデックスの初期化、（ステップ２）ｖｒｉ＝０；ベクトル行インデックスの初期化、（ステップ３）マトリックスメモリ行ｍｒｉを取り出す；ベクトルメモリ行ｖｒｉを取り出す；合計＝（［２＾０＊ＰＰ（０）］＋〔２＾１＊ＰＰ（１）］＋…＋［２＾（ＭＰ −２）＊ＰＰ（ＭＰ−２）］［２＾（ＭＰ−１）＊ＰＰ（ＭＰ−１）］；全てのＭＰ部分積の重み付け合計、（ステップ４）ｖｒｉ＝０の場合には、テンポラリ＝合計、（ステップ５）ｖｒｉ＝１乃至ＣＶＰ−２の場合には、テンポラリ＝合計＋１／２テンポラリ、（ステップ６）ｖｒｉ＝ＣＶＰ−１の場合には、テンポラリ＝［−１＊合計］＋１／２テンポラリ、（ステップ７）ｖｒｉ＝ｖｒｉ＋１；列べクトルの次のビットベクトルに進む、（ステップ８）ｖｒｉ＜ＣＶＰの場合には、ステップ３に進む；列べクトルのビットベクトル以上であれば、ジャンプする、（ステップ９）列べクトル出力（ｍｒｉ）＝内積＝２＾（ＣＶＰ−１）＊テンポラリ；マトリックス行のこの行は終了（ステップ１０）ｍｒｉ＝ｍｒｉ＋１；マトリックスの次の行に進む、（ステップ１１）ｍｒｉ＜Ｒである場合には、ステップ２に進み；行以上であれば、ジャンプする、（ステップ１２）終了、から成る、シーケンスに基づいて行うことを特徴とする方法。９　次の（ａ）、（ｂ）、（ｃ）から成る畳込みウィンドウを計算する方法であって、ここで、（ａ）ＷＲ行とＷＣ列を備えた畳込みウィンドウを備え、ウィンドウの各係数は２の補数表現のＷＰビットの精度を有し、各係数は頂部のライン行０から開始して底部のライン行（ＷＲ−１）で終了する「β（ライン行、列）」で表現され、ここで、ライン行ｎの表現は、｛β（ｎ，０）…β（ｎ，（ＷＣ−１）｝であり、（ｂ）ＩＲ行及びＩＣ列を備えた、入力データ組又は画像を備え、各データ要素又は画素は２の補数表現でＰＢビットの精度を有し、ここで、必要な場合にはＩＣをＷＣの整数倍にするためにゼロ画素を画像の各行に詰め込み、各画素は頂部のライン行０から開始して底部のライン行（ＩＲ−１）で終了する「Ｐ［ライン行、列］で表現され、ここで、ライン行「ａ」の表現は、｛Ｐ［ａ，０］…Ｐ［ａ，ＩＣ−１］であり、（ｃ）ＰＢモジュールと大域制御論理と組合わせ論理とから成るシステムを含み、各モジュールが、（１）マトリックスメモリと、（２）マトリックスシフタと、（３）ベクトルメモリと、（４）ベクトルシフタと、（５）Ｃ＝（ＷＲ＊ＷＣ）プロセッサスライスと、（６）加算器とから成り、ここで、ベクトルシフタはベクトルメモリから行を受け取るベクトルシフタレジスタ０（ＶＳＲ０）であり、マトリックスシフタは、（１）マトリックスメモリから行を受け取るマトリックスシフタレジスタ０（ＭＳＲ０）と、（２）ＭＳＲ０を受け取るマトリックスシフタレジスタ１（ＭＳＲ１）から成り、ここで画素のビットＮはモジュールＮのマトリックスメモリ内に記憶され、であり、ここで、Ｒ＝［（画像ライン行幅）／（ウィンドウ幅）］＝（ＩＣ／ＷＣ）であり、マトリックスメモリ又はベクトルメモリの行の表現が、｛列（Ｃ−１）…列（０）｝であり、ここで、畳込みウィンドウの係数は各モジュールのベクトルメモリに記憶され、ウィンドウの係数の行は関連づけられてベクトルを形成し、このベクトルは、頂上行から開始して、｛β［０，０］…β［０，（ＷＣ−１）］、β［１，０］…β［１，（ＷＣ−１）］…β［（ＷＲ−１）、０］…β［（ＷＲ−１），（ＷＣ−１）］｝、≡｛β（Ｃ−１）…β（０）｝のように、下方向に作業し、ここで、ベクトルの係数ＪのビットＭは各ベクトルメモリの（ぎょうＭ、列Ｊ）に記憶され、画素のライン行からのＷＣ画素の後続群はマトリックスメモリの後続行に配置され、マトリックスメモリの列が後続行に対して同様にされ、画像のＷＲライン行が一時にマトリックスメモリ内に存在し、群の総数がＷＲに等しく、マトリックスメモリ内に記憶されるデータの各行ｒ，ｒ＝０〜Ｒ−１に関する表記が、Ｐ［ａ，ｒ＊ＷＣ］…Ｐ［ａ，（ｒ＋１）ＷＣ−１］、Ｐ［（ａ＋１），ｒ＊ＷＣ］…Ｐ［（ａ＋１），（ｒ＋１）ＷＣ−１］…Ｐ［（ａ＋ＷＲ−１），ｒ＊ＷＣ］…Ｐ［（ａ＋ＷＲ−１），（ｒ＋１）ＷＣ−１］｝で表され、ここで、「係数シフト」動作が、ｎ＞ＷＣ−１の場合に、ベクトルメモリ［行ｍ，列ｎ］→ベクトルメモリ［行ｍ，列（ｎ−ＷＣ）］ｎ＜ＷＣの場合に、ベクトルメモリ［行ｍ，列ｎ］→ベクトルメモリ［行ｍ，列（ｎ−ＷＣ＋Ｃ）］のように規定され、ウィンドウ係数の各ビットベクトル、ｍ＝０〜ＷＰ−１に対する各モジュール内のベクトルメモリによって実行され、ここで、「マトリックスシフタレジスタシフト」動作が、全てのｎに対して、ＭＳＲ０［列ｎ］→ＭＳＲ０［列（ｎ＋１）］［（ｎ＋ＷＣ）モジューロＷＣ］＝０でない場合には、ＭＳＲ０［列ｎ］→ＭＳＲ０［列（ｎ＋１）］［（ｎ＋ＷＣ）モジューロＷＣ］＝０である場合には、ＭＳＲ０［列（ｎ＋ＷＣ−１）］→ＭＳＲ０［列ｎ］のように規定され、各モジュール内のマトリックスシフタによって実行され、ここで、各モジュール内の各プロセッサスライスＰが、計算、スライス（Ｐ）＝ＶＳＲ０（Ｐ）論理積ＭＳＲ１（Ｐ）を行い、ここで、各モジュールＮの加算器が真値出力を備えたモジュール内のプロセッサスライスの数を計数し、ＰＰ（Ｎ）を生成し、ここで、大域制御及び組み合わせ論理が、（ステップ１）ｍｒｉ＝０；マトリックス行インデックスを初期化、（ステップ２）ｗｉ＝０；ウィンドウインデックスを初期化、（ステップ３）ｃｇｉ＝０；列群インデックスを初期化、（ステップ４）ｉｌｉ＝０；画像ライン行インデックスを初期化、（ステップ５）ＭＳＲ１＝０；レジスタの全ビットを初期化、（ステップ６）ＭＳＲ０＝マトリックスメモリ（行ｍｒｉ）、（ステップ７）ｃｂｉ＝０；計数ビットインデックスを初期化、（ステップ８）ＶＳＲ０＝ベクトルメモリ（行ｃｂｉ）；ベクトルメモリ読みだし、（ステップ９）合計（ｓｕｍ）＝｛［２＾０＊ＰＰ（０）］＋［２＾１＊ＰＰ（１）］＋…＋［２＾（ＰＢ−２）＊ＰＰ（ＰＢ−２）］一［２＾（ＰＢ−１）＊ＰＰ（ＰＢ−１）］｝；全てのＰＢ部分積の重み付け合計、（ステップ１０）ｃｂｉ＝０である場合に、テンポラリ＝合計、（ステップ１１）ｃｂｉ＝１〜ＰＢ−２である場合に、テンポラリ＝合計＋１／２テンポラリ、（ステップ１２）ｃｂｉ＝ＰＢ−１である場合に、テンポラリ＝［−１＊合計］＋１／２テンポラリ、（ステップ１３）ｃｂｉ＝ｃｂｉ＋１；計数の次のビットベクトルに進む、（ステップ１４）ｃｂｉ＜ＷＰである場合には、ステップ９に進む；それ以上のビットベクトルである場合には、ジャンプする、（ステップ１５）ウィンドウ＝２＾（ＰＢ−１）＊テンポラリ；このウィンドウは終了、（ステップ１６）ｗｉ＝ｗｉ＋１；次の画像ウィンドウへ進む、（ステップ１７）ｗｉ＜ＷＣである場合には、マトリックスシフタレジスタシフトを実行；ステップ６に進む、（ステップ１８）ｍｒｉ＝（ｍｒｉ＋１）モジューロＲ、（ステップ１９）計数シフト、（ステップ２０）ｃｇｉ＝（ｃｇｉ＋１）モジューロＲ；列群を通しての周期、（ステップ２１）ｉｌｉ＝ｉｌｉ＋１；画像の次のライン行に進む、（ステップ２２）マトリックスメモリ［列群ｃｇｉ］＝画像［行ｉｌｉ］；マトリックスメモリ内の列群内に画像からライン行をロード、（ステップ２３）ｉｌｉ＜ＩＲである場合に、ステップ６に進む；画像内のライン行がそれ以上である場合にはジャンプ、（ステップ２４）終了、からなる、シーケンス動作及び計算を行うことを特徴とする方法。１０　（ａ）ＮのＭビット入力を備えた重み付け加算器（１３００）であって、ここで、これらのＮ入力の各々が、ｉ番目入力、、ここでｉ＝０〜Ｎ−２であり、２＾ｉの位取り因数を備えており、及びｉ＝Ｎ−１入力、ここで−［２＾（Ｎ −１）］の位取り因数を備えており、で位取りされ、位取りされた入力が一緒に加算され、出力（１３０１）に合計を生じるような、上記加算器（１３００）と、（ｂ）クロック信号に応答して、その入力で上記合計を受け取り、その出力（１３０４）で遅延合計として上記合計を再生するための第１のレジスタ（１３０２）と、（ｃ）ＢＩＮ入力を備え、そのＡＩＮ入力で遅延合計を受け取り、そのＦ入力でＡＬＵ制御信号（１３１０）を受け取り、そのＯＶＥＬ出力であふれ信号を生成し、その総和出力でＵビットＡＬＵ出力を生成し、関数、（１）総和＝ＡＩＮ＋ＢＩＮ、（２）総和＝ＡＩＮ、又は（３）総和＝ＢＩＮ−ＡＩＮをＡＬＵ制御信号に応答して実行するような、算術及び論理ユニット（１３０９）と、（ｄ）ＡＬＵ総和出力の最上位ビットとあふれ信号を受け取り、符号ビットを生成する排他的論理和ゲート（１３１２）と、（ｅ）クロック信号に応答して、（１）最上位ビットに対する入力としての符号ビットと、（２）次の最上位ビットＵに対する入力としてのＵビットＡＬＵ出力と、（３）最下位ビットＳに対する入力としてのそれ自体の出力の最下位ビットＳ＋１の最上位Ｓとを受け取り、その出力（１３０５）で１＋Ｕ＋Ｓビットを生成し、ここで、この出力の最上位ビットＵがＡＬＵのＢＩＮ入力と内積出力ＤＰＯ（３１１）からの全出力ビットを供給するような、第２のレジスタ（１３０３）と、から成ることを特徴とする、ベクトル累算器チップ（３１０）。