JPH0833878B2

JPH0833878B2 - 相関及び畳込みを行なうビツト−スライスデジタルプロセツサ

Info

Publication number: JPH0833878B2
Application number: JP62049882A
Authority: JP
Inventors: ジョン・ビンセント・マカニー; リチヤード・アンソニー・エバンス; ジョン・グラハム・マクウアーター
Original assignee: UK Secretary of State for Defence
Current assignee: UK Secretary of State for Defence
Priority date: 1986-03-05
Filing date: 1987-03-04
Publication date: 1996-03-29
Anticipated expiration: 2011-03-29
Also published as: GB8605367D0; US4833635A; JPS62229470A; EP0237204B1; EP0237204A2; DE3776366D1; EP0237204A3; CA1263758A

Description

【発明の詳細な説明】本発明は数学的に等価の畳込み及び相関を演算するた
めのビットスライスデジタルプロセッサに係わる。この
プロセッサはビットレベルシストリックアレイ（bit−l
evel systolic array）として形成されるタイプのプロ
セッサである。

ビットレベルシストリックアレイとして形成される公
知の畳込み及び相関用デジタルプロセッサは、1983年４
月７日公開の英国特許出願第2106287A号（参考文献１）
に記載されている。この先行特許出願では第15図〜第20
図に畳込み手段が示されている。この装置は複数のゲー
ト制御全加算器を行列状に配置したものからなる矩形ア
レイで構成される。各セルは直ぐ隣の行及び列にしか接
続されない。即ち、各セルは別のセルに最高４つまで接
続される。セルの動作は、アレイ内でのデータビット、
係数ビット、キャリビット及び累積和ビットの移動に作
用するクロック作動ラッチによって制御される。各セル
は夫々右隣及び左隣から受容した入力データビット及び
入力係数ビットの積を評価し、且つこの積を夫々右方及
び上方から受容した入力キャリビット及び累積和ビット
の積に加算する。新しいキャリビット及び累積和ビット
は形成されると左方及び下方に出力され、入力データビ
ット及び係数ビットは夫々右及び左に移動する。各係数
語は夫々のアレイ行を逐次循環するビットである。各デ
ータ語は各行を順次螺旋状に（正確にはジグザグに）通
過してアレイ内を移動する。一連のキャリは係数ビット
と共に移動し、一連の累積和はアレイの列に沿って下方
へ移動する。データは累積和の形成方向と係数及びキャ
リの伝搬方向とに対して逆に移動する。累積和の形成
は、アレイからの部分和出力を形成すべく、アレイの列
に沿って下方へカスケード状に行なわれる。同じビット
重みを持つ複数の部分和は同一アレイ行から順次送出さ
れ、出力和をフィードバックすべく構成された全加算器
により累算されて畳込み結果を構成する。

不要の部分積の発生を回避すべくデータ語及び係数語
の中にゼロビットを散在させることは、参考文献１に記
載のプロセッサの使用には不利である。この種のプロセ
ッサはいかなる時にもアレイのセルの少なくとも半分、
場合によっては3/4がゼロ部分積を計算するため、ゼロ
ビットを散在させるとアレイが非能率的になり、且つゼ
ロビットの散在を回避できるような場合に必要とされる
大きさよりはるかに大きくなるからである。

1985年２月27日公開の英国特許出願第2144245A号（参
考文献２）には更に別のビットレベルシストリックアレ
イが記載されている。この先行特許出願はマルチビット
係数を持つ２つのマトリクスの乗法を行なうための、参
考文献１と類似のアレイに係わる。このアレイでは一方
のマトリクスの行エレメントがアレイ行に沿って、他方
のアレイの列エレメントと逆の方向に伝搬し、またキャ
リビットが行に沿って移動するのではなく、各セルを繰
り返し循環するようになっている。所謂「ガードバンド
（guard band）」の使用も記載されているが、これは累
算される結果の語成長（word growth）を得るべく、係
数語をゼロビットで拡張することを意味する。

1985年５月15日公開の英国特許出願第2147721A号（参
考文献３）には、マトリクス−ベクトルの乗法を行なう
ための更に別のビットレベルシストリックアレイが開示
されている。この場合にはアレイの効率が２つの方法で
改良される。第１にアレイ出力の累算が、参考文献１の
不活性領域に対応するアレイ部分が畳込み結果に寄与す
るように行なわれる。第２にデータビット及び係数ビッ
ト間のゼロの必要が、交番クロックサイクルで隣接し合
う行上のビット移動に作用する複雑なクロック手段によ
り回避される。参考文献１及び２と同様に、被乗数ビッ
トはアレイの行に沿って逆方向に移動する。また、参考
文献２のように、キャリビットは各セルを再循環し、ガ
ードバンドによる語の拡張も使用される。

GEC Journal of Research、Vol.2,No.1、（1984年）
には、R.B.Urquhart及びD.Woodにより、ビットレベルシ
ストリックアレイにおける静的係数（static coefficie
nts）の使用という概念が紹介されている。アレイの各
セルはある係数の対応単一ビットと組合わされ、係数語
は対応アレイ行と組合わされる。セルはキャリビットを
再循環させるように構成され、データは各アレイ行に入
力されてその行上を移動する。累積和はアレイの列を下
りながらカスケード式に形成され、ガードバンドが語成
長を実現する。同じビット重みの複数の部分積は、入力
データが係数ビットに、ビット重みの上昇オーダーで出
会うのか又は逆のオーダーで出会うのかに応じて、相対
的に遅延して又は同期して種々のアレイ列から送出され
る。このような構造にすれば、複雑なクロック装置を使
用しなくてもセルの使用率又はアレイの効率が100％に
なる。

各セルは各クロックサイクル毎に積を演算し、ラッチ
は総て同様にクロックされる。しかしながら残念なこと
に、前述のようなアレイ累算法では正確な畳込み又は相
関結果が得られない。なぜなら、前述のごとき構造は種
々の結果に対応する部分和及びキャリビットの累算に誤
りが多いからである。

デジタル演算回路の分野では、可能であればコンポー
ネントを統一することが重要である。これは、小さい計
算を行うように設計された複数の集積回路をアレイ状に
つなぐか又はカスケード接続して、より大きい計算を実
施できるようにすることが可能であれば極めて容易に実
現できる。また、比較的小さい故障によってアレイ全体
が機能停止することのないようにするためには、このよ
うな集積回路アレイにある程度の故障許容性を与えるこ
とも重要であるが、その実現は極めて難しい。これは、
ウェーハスケールインテグレーション（wafer scale in
tegration）開発分野、即ちある程度の故障許容性がな
くてはウェーハの歩留りが実質的にゼロになり得るよう
な分野では特に重要な問題である。

本発明の目的の１つは故障許容性アセンブリを形成す
べくカスケード接続され得る相関又は畳込みのためのデ
ジタルプロセッサを提供することである。

本発明は、ビットパラレル、ワードシリアル、ビット
ジグザグのＭビットワードデータストリームとＮ単一ビ
ット係数との相関及び畳込み演算を実行するビツト−ス
ライスデジタルプロセッサを提供する。本発明によれ
ば、（１）プロセッサがＮ行Ｍ列の論理セルアレイを含み、（２）各論理セルが、（ａ）データビット、キャリービ
ット及び累積和ビットを入力し、（ｂ）データビットを
出力し、（ｃ）入力データビットと各行のセルに対応す
る係数ビットとの積と、入力累積和と、入力キャリービ
ットとの総和に対応する出力累積和ビットと出力キャリ
ービットとを生成するように構成されており、（３）セルの相互接続ラインが、アレイの行に沿ってキ
ャリービットを伝送し、データ流と縦続累積和とをアレ
イの列に沿って下降する単一方向で伝送するように構成
されており、（４）セル相互接続ラインがクロック励起遅延手段を含
んでおり、該遅延手段は、データビットが累積和ビット
の速度の２倍又は1/2倍の速度でアレイの列に沿って下
降しキャリービットがアレイの行に沿ってデータビット
重みが増加する方向で前記累積和ビット及びデータビッ
トの両方よりも高速で伝送されるように構成されてい
る。

本明細書において「ビット伝送速度」なる用語及び該
用語に関連する表現は、物理的な移動距離でなくセル横
断速度を意味することを理解されたい。

本発明のプロセッサは４つの主要な利点をもつ。

第一に、クロック励起のとき全部のセルがリアルデー
タで演算するので効率100％であり、また公知型のオー
バーラップしない２相形クロックを１つだけ使用すれば
よい。参考文献１の従来技術と違って、入力データビッ
ト間に０ビットを挿入する必要がなく、参考文献２のよ
うに１つ置きのサイクルで隣合う行又は列の間にビット
伝送を行なうための複雑なクロック制御構成が不要であ
る。第二に、後述するごとく、より大きい計算を行なう
回路のアレイを構成するための集積回路構築ブロックに
適応し易い。特に、係数ビットスライス毎に１つのプロ
セッサを配備しタイミングとビット桁との適当な調整を
伴ってプロセッサ出力を累加することによってマルチビ
ット係数を含む計算に適応し得る。更に、プロセッサを
カスケード式に直列接続すると大きい係数セットを収納
でき、長いデータワードは各プロセッサに供給される各
バイトに分割されることによって処理され得る。第三
に、データ流と結果の流れとが単一方向の流れになるよ
うに構成されているので、クロック励起ラッチによって
高速スイッチング可能なセクションに分割された入力デ
ータ及び結果のバイパス結線を組み込んだプロセッサを
設計し得る。カスケード式に直列接続されたプロセッサ
連鎖は動作速度の低下という欠点を生じないで故障許容
性をもつことができる。何故なら、連鎖中の故障プロセ
ッサは、バイパス結線全長の時定数によって動作速度を
制限されることなくバイパスされ得るからである。かか
る設計は、データと結果とが向流的に伝送されクロック
励起バイパスラッチが計算タイミングを破壊する例えば
参考文献１のプロセッサでは可能でない。第四に、入力
データのガードバンドの延長が不要であり、このために
データスループット速度の低下という欠点も生じない。

各論理セルは夫々の定常係数ビットに対応してもよ
い。しかし乍ら好ましくは、付加的セル相互接続ライン
とクロック励起遅延手段とを配備し係数ビットが各アレ
イの行に沿ってキャリービットと同方向に同じ速度で伝
送されるように構成する。これにより行係数入力を介し
た係数のプログラミングが容易である。本発明のかかる
具体例の別の利点は、100％のセル利用率を維持し乍ら
係数のプログラミングが得られることである。例えば参
考文献３では、効率100％を達成するためには定常係数
が必要である。

本発明のプロセッサはアレイ出力をマルチビット全加
算器の第１入力に転送し得るプログラマブルな遅延手段
を含み得る。この加算器は第２プロセッサからの出力を
受信すべく構成された第２入力をもち、第３プロセッサ
の等価加算器の第２入力に接続されるべく構成された出
力をもつ。この形態のプロセッサは長いデータワード又
は係数セットを含む計算のためのプロセッサアレイ又は
マルチビット係数を含むプロセッサアレイを構成する構
築ブロックとしての使用に適する。プログラマブル遅延
手段は、種々のプロセッサからの出力の相対タイミング
を調整すべく使用されプロセッサ間の出力ビット桁の差
は適当な加算器入力結線によって修正される。

符号ビット延長が適宜付加されているならばプロセッ
サは全部が正の即ち２の補数のデータ及び係数を用いて
使用され得る。しかし乍ら、プロセッサはアレイ行に収
納され得ないキャリービットを生成しないデータを演算
する必要がある。言い替えると結果の累加によるワード
成長がアレイ寸法を超過してはならない。必要ならば、
アレイ行を半加算器で延長することによってワード成長
に適応できるようにアレイ寸法を拡大し得る。ｎ番目の
行はlog₂n半加算器（ｎ＝1,2…）又はlog₂（ｎ−１）加
算器（ｎ＝2,3…）を含み、同時に（ｎ−１）番目の行
のキャリー出力と適当なｎ番目の行の半加算器の和入力
との間の遅延手段が挿入された結線を含む。

添付図面に示す以下の記載より本発明がより十分に理
解されよう。

第１図は本発明のビットスライスプロセッサ10を示
す。プロセッサ10を相関関数の演算に関して記載し解析
するが、該プロセッサは後述する如く数学的に等価の畳
込み演算にも適している。プロセッサ10は、個々のビッ
ト×▲^b _n▼（ｂ＝０〜３）をもつ連続する４ビット数×
_n（ｎ＝0,1,2,…）のデータストリームと４つの１ビッ
ト係数a_i（ｉ＝０〜３）との相関を演算するように構成
されている。この説明例ではデータと係数とを正の値に
とる。

プロセッサ10は４行４列に配置されたゲート制御全加
算論理セルアレイ12を含む。各セルを符号14で示し、各
セルの添字が行及び列の位置を示す。例えばセル14_ijは
ｉ番目の行のｊ番目の列のセルである。プロセッサは更
に５つの半加算論理セル16を含み、該セルでも添字によ
って行及び列の位置を示す。

次に第２図及び第３図によれば、各論理セル14は、以
下の如くゲート制御全加算論理関数を計算すべく構成さ
れている。

ｙ←ｙ′（a.x）ｃ′ （1.1）ｃ←ｙ′.c′＋ｙ′（a.x）＋ｃ′（a.x）（1.2）［式中、ｙ′及びｙは夫々、入力及び出力の累積和ビ
ット、ｃ′及びｃは夫々、入力及び出力のキャリービット、ａは入力１ビット係数、ｘは入力データビット、 −判り易くするためにビット桁及びワード数に関する添
字は省略。

各論理セル14は直上に接するセルから入力データビッ
トｘと入力累積和ビットｙ′とを受信するように構成さ
れている。更に右隣のセルから入力係数ビットａと入力
キャリービットｃとを受信するように構成されている該
セルは式（1.1）及び（1.2）の論理関数を演算し、出力
累積和ビットｙとキャリービットｃとを生成する。これ
らの出力ビットは、ａとｘとの積にｃ′とｙ′とを加算
した和に相当する。キャリー出力ビットａ及び係数出力
ビットｃは、夫々のクロック励起ラッチ18a及び18cを介
して左隣のセルに出力される。データ出力ビットｘ及び
累積和出力ビットｙは、ｘの場合は１つのクロック励起
ラッチ18xを介しｙの場合は２つのクロック励起ラッチ1
8_y1，18_y2を介して出力される。

第３図に示す如く、各半加算セル16は右隣及び直上の
セルからキャリー及び累積和の入力ビットｃ′及びｙ′
を夫々受信する。該セルはこれらを加算してキャリー及
び累積和の出力ビットｃ及びｙを生成し、クロック励起
ラッチ20c、20_y1及び20_y2を介して左隣及び直下のセル
に出力する。半加算セル16は以下の論理関数を演算す
る。

ｙ←ｙ′ｃ′ （2.1）ｃｙ′ ｃ′ （2.2）式中の各項は前記と同義である。

ラッチ18,20の各々は、アレイ12の全部のセル14と半
加算器16とのタイミングを制御する（第１図に図示しな
い）１つのクロック22によって励起される。クロック22
はオーバーラップしない２相信号を発生し、各ラッチ18
又は20は直列の２つの半ラッチから成る。第１相クロッ
クパルスで、第２ハーフラッチの各々がラッチビットを
出力し第１ハーフラッチの各々が新しいラッチビットを
入力する。第２相クロックパルスで、第１ハーフラッチ
の各々がラッチビットを各自の第２ハーフラッチに転送
する。従って連続クロックサイクル中に連続ビットが各
ラッチでクロック制御される。セル14及び16は各自のセ
ル出力に18aの如き全ラッチを有するが、これがセル入
力に配置されてもよく、又は入力及び出力に夫々半ラッ
チずつ分割されても、同様のアレイ動作が維持される。
また、各全ラッチの代わりに半ラッチを使用することも
公知であり、これは記載の具体例の変形例になる。かか
るラッチの動作はビットレベルシストリックアレイ業界
で十分に公知であり、参考文献１の第10図及び第11図に
示されているので本文では特に説明しない。

ラッチ18及び20のクロック制御効果は、係数ビットａ
と連続計算されたキャリービットｃとをアレイの行に沿
って１クロックサイクルに１セルずつ矢印24及び26で示
すように転送することである。データビットｘは１クロ
ックサイクル毎に１セルずつ移動する。係数およびデー
タビットは不変化でアレイ12を通過するが、新しく計算
されたキャリービットの各々は、左隣のセル14又は16に
よって１クロックサイクル後に演算される１レベル上の
ビット桁の計算のための入力になる。

新しく計算された出力累積和ビットｙの各々は、２ク
ロックサイクル後に直下のセル14又は16の入力ｙ′にな
る。その他のビットは１つのラッチ18a,18c,18x又は20c
しか通過しないのにこれらのビットの各々が２つのラッ
チ18_y1と18_y2又は20_y1と20_y2とを通過するからである。

プロセッサ10は、４つの隣接セルに完全に接続された
５つだけの論理セル14₁₂，14₁₁，14₂₂，14₂₁及び16₂₄を
含む。セル14₀₀〜14₀₃，16₁₄，及び16₂₅のｙ′入力はＯ
に設定されている。セル14₀₀〜14₃₀のｃ′入力はＯに設
定されている。セル14₀₃〜14₃₃は未接続の係数即ちａ出
力をもち、セル14₀₃，16₁₄，16₂₅，及び16₃₅は未接続の
ｃ出力をもつ。セル14₃₀〜14₃₃のｘ出力も未接続であ
る。第１行のセル14₀₀〜14₀₃はｘ入力をもち、データは
この入力から後述する如くビットパラレル，ワードシリ
アル，ビットジグザグでプロセッサ10に供給される。第
１列のセル14₀₀〜14₃₀はプロセッサ10に係数を供給する
ａ入力をもつ。プロセッサ10からの出力は、最終行のセ
ル14₃₀〜14₃₅のｙ出力から得られる。

プロセッサ10の実際の設計では冗長セル結線と対応す
るラッチとを省略してもよい。しかし乍ら、論理セルの
タイプをできるだけ少なくするのが有利であろう。冗長
度を最小にすればプロセッサ10に２種類のセルを組込む
だけでよい。更に、半加算16の代わりにＯに設定された
ａ及び／又はｘ入力をもつゲート制御全加算器14を使用
すると、更に冗長度は低くなるが１種類のセルを使用す
るだけでよい。このため、例えばコンピュータを用いた
設計技術によって集積回路を簡単に製造できるという利
点が得られる。更に後述する如く。この補数演算では第
１図のプロセッサ10の如く左側上端にスペースを残すよ
りもゲート制御全加算セルの矩形アレイを構成するほう
が有利である。

次にプロセッサ10の動作を第4,5及び６図に基いて説
明する。プロセッサ10は次式で定義される相関演算を行
なうように構成されている。

［式中、Y_nは連続相関結果ワード，係数a_i及びx_n+1は
x_n〜x_n+N-1の範囲の一般データワードを示す］。

第4,5及び６図によれば、単一ビット係数ワードa₀〜a
₃のストリーム40はプロセッサ10内で左方向に転送され
る。各係数は夫々の相関行に入力される。データストリ
ーム42はプロセッサ10内で下向きに移動し、結果ストリ
ーム44は第５図及び第６図に示されるようにプロセッサ
10の下方から出る。第４図は演算の第１クロックサイク
ルの直前のプロセッサ10を示し、第５図及び第６図は第
11サイクル及び第14サイクルに於けるデータ及び結果の
ビット位置を示す。第４図〜第６図はデータ流及び係数
流のタイミングと結果の累積とを図式的に示す。

プロセッサ10の上方又は右方に伸びる連続ビット位置
は、次第に遅くなるデータ入力、結果出力又は係数入力
を示す。係数，データ及び結果のストリーム40〜44の対
角線立上がり40′,42′及び44′はプロセッサ10への時
間ジグザグビット入力を示す。データワードx_n+iは、ワ
ードシリアル，ビットパラレル及び累積時間ジグザグに
プロセッサ10に入力される。従って、ビット▲x⁰ ₀▼〜
▲x³ ₀▼は隣接セル間で１クロックサイクルの遅延を伴
なって第１行のセル14₀₀〜14₀₃に入力される。従ってセ
ル14_0n（ｎ＝１〜３）への入力▲xⁿ ₀▼はセル14₀₀への
入力▲x⁰ ₀▼にｎクロックサイクルだけ遅れる。

式（１）の論理関数によって、第４図から１クロック
サイクル後、即ち、クロックサイクル１でセル14₀₀は入
力▲x⁰ ₀▼及びa₀を受信する。その結果このセルは積a₀
▲x⁰ ₀▼を計算しこれにキャリー及び和の入力ビット即
ちｃ′及びｙ′を加算する。これらは常時０である。従
って対応する累積和出力ｙはa₀▲x⁰ ₀▼でありセル14₀₁
へのキャリー出力ｃは０であろう。クロックサイクル3,
5及び７において、セル14₁₀〜14₃₀はデータ入力▲x
⁰ ₁▼，▲x⁰ ₂▼及び▲x⁰ ₃▼を受信し、これにa₁，a₂及び
a₃を夫々乗算する。対応するキャリー入力は全て０であ
るが、各セル14_n0（ｎ＝１〜３）は、２サイクル以前に
直上のセル14_(n-1)0によって計算された累積和出力を累
積和入力として受信する。２サイクルの遅延は夫々のラ
ッチ18_y1及び18_y2によって得られる。従ってセル14₁₀は
サイクル３で被乗数a₁及び▲x⁰ ₁▼の入力と同期してセ
ル14₀₀からa₀▲x⁰ ₀▼を受信し、の最下位ビット（lsb）とより高い桁のビット（hob）と
から成るｙ及びｃ出力を生成する。キャリービットｃは
サイクル４でセル14₁₁に移り、累積和出力ビットｙはサ
イクル５でセル14₂₀に移る。セル14₂₀はサイクル５でのlsb及びhobとしてｙ及びｃを生成する。ｃはサイクル
６でセル14₂₁に移り、ｙはサイクル７でセル14₃₀に移
る。これは被乗数a3及び▲x⁰ ₃▼の入力と同期する。従
ってサイクル７でのセル14₃₀のｙ及びｃ出力はのlsb及びhobである。サイクル７でのセル14₃₀の累積和
出力は次式で示される。

式（４）は次式と等価である。

式（５）は級数Y_n（ｎ＝0,1…）の第１相関項たるY₀のl
sbである。従って、右端列のセル14₀₀〜14₃₀は第４図か
ら７クロックサイクル後にY₀のlsb▲y⁰ ₀▼を生成する。
累積和出力と直列に２つのラッチが存在するので▲y⁰ ₀
▼はこの図から８クロックサイクル後にセル14₃₀のラッ
チ18_y2から送出される。

次に第２列のセル14₀₁〜14₃₁について考察する。サイ
クル２でセル14₀₁はｃ′及びｙ′入力０を▲x¹ ₀▼及びa
₀被乗数入力と共に受信する。従って該セルは、左隣の
セル14₀₂に対してキャリー出力０を発生し、直下のセル
14₁₁に対してｙ出力a₀▲x¹ ₀▼を発生する。サイクル4,
6,8でセル14₁₁，14₂₁及び14₃₁は夫々、a₁／▲x¹ ₁▼，a₂
／▲x¹ ₂▼及びa₃／▲x¹ ₃▼を受信する。従ってサイクル
９でのセル14₃₁の第２ラッチ18_y2のｙ出力は次式で与え
られる。

即ち ▲y¹ ₀▼はY0の最下位の１つ上の桁のビットでありサイ
クル９で第２列のセル14₀₁〜14₃₁から送出されるか又は
第１列のセルからlsb▲y⁰ ₀▼の１クロックサイクル後に
送出される。

▲y¹ ₀▼形成中に発生したキャリービットは次式に従
って第３列のセル14₀₂〜14₃₂に転送される。サイクル3,
cell 14₀₂:c′＝０（8.1）同様の解析によってサイクル10及びサイクル11で▲y²
₀▼及び▲y³ ₀▼が第３列及び第４列のセルから発生し、
同時にキャリービットが前記の如く左方向に転送される
ことが理解されよう。

第１行のセルへのｃ′及びｙ′入力は全て常に０であ
る。任意の４ビット数とa₀（１又は０に等しい）との乗
算によって得られる積の最大値は同数４ビットの長さを
もつ。従って第１行の最終セル14₀₃のｃ出力は常に０で
ある。第２行の最終セル14₁₃のｃ出力は２つの４ビット
数の加算によって得られるので０でないこともある。半
加算セル16₁₄はこのキャリービットをアレイの第３行に
転送するように構成されている。第３行及び第４行は夫
々、６ビットに加算され得る夫々３つ及び４つの４ビッ
ト数を加算するので、２つのキャリービットを使用する
必要がある。一般に、Ｎ番目の相関行（Ｎ＝1,2,3又
４）は横に進むキャリービットを加算するために、log₂
N半加算器を組込む必要がある。但し、log₂Nは必要な場
合、丸めて整数にしてもよい。この効果は第６図に示さ
れる。第６図においては、第４桁及び第５桁のビット即
ち▲y⁴ _n▼又は▲y⁵ _n▼（ｎ＝0,1,2…）が、夫々半加算
器から成る第５列及び第６列によって計算されている。
回路を小型化するために、半加算器16₁₄及び16₂₅に代え
て単一クロック制御ラッチを使用してもよい。これらラ
ッチは入力和と出力キャリーとが接続していないとき単
独で遅延を与える機能をもつ。従って、一般にはＮ番目
の相関行がlog₂（Ｎ−１）半加算器［但しＮ＝2,3,…］
を必要とするであろう。サイクル12及び13で第４列及び
第５列の最終行の半加算セル16₃₄及び16₃₅から最終２ビ
ット▲y⁴ ₀▼及び▲y⁵ ₀▼が夫々発生する。

前記の解析により、Y0の第ｐ桁のビット▲y^p ₀▼が第
４図から（ｐ＋８）サイクル後にセルのｐ番目の列から
発生することが理解されよう。［但しｐ＝０〜５］。こ
の解析を拡大してYn（一般相関結果）のｐ番目のビット
▲y^p _n▼が第４図から（ｎ＋ｐ＋８）サイクル後にｐ列
目のセルから生成されることを容易に証明できる。従っ
て連続相関結果Y_nは８クロックサイクルの待ち時間でプ
ロセッサ10からワードシリアル，ビットパラレル的に生
成される。即ち、対応データビットの入力後、結果ビッ
トを得るまでに８サイクルが必要である。

第１図から第６図に基いて説明した本発明の具体例
は、移動する単一ビット係数を使用するプロセッサであ
る。このタイプのプロセッサは種々の相関を演算するた
めに係数を時々交換することが望ましい場合には適して
いる。しかし乍ら常に一定の相関が必要である場合に
は、各セルが定常的で且つ恐らくはプレプログラムされ
た係数を夫々有するであろう。この場合、係数転送用の
セル間結線及びラッチは不要であろう。

再び第４図を参照すると、プロセッサ10からの正しい
計算結果の出力に先行して少数の不要項が存在すること
が理解されよう。特にセル14₃₀は図示サイクルの４サイ
クル後にa₃と▲x⁰ ₀▼との関を計算するであろうが、こ
れは無意味な結果である。演算の最初の７サイクル間は
セル14₃₀からの結果を無視し、最初の８サイクル間はセ
ル14₃₁からの結果を無視する必要があり、その後も同様
である。必要ならばこのために、各場合に適当数のサイ
クル中の出力を抑止するように構成された手段を配備し
てもよい。しかし乍ら実際にはプロセッサ10は極めて多
数のサイクル、通常は10⁶を上回るサイクルにわたって
演算を実行する。

従って、数百万の結果のうちでは最初の短い級数のい
くつかの無意味な結果が存在しても問題はない。これ
は、デジタル演算回路業界で公知の回路設定時間に対応
する程度にすぎない。

初期結果を無視する方法の変形例として、第４図に示
すように、不要項に対応する係数入力を０に設定しても
よい。このためにはプロセッサ10のｎ番目の行に係数a_n
を入力する前に2n個の０（ｎ＝０〜３）を入力する必要
がある。言い換えると、係数の入力以前に必要な０の数
はプロセッサ内で１行下降する毎に２つずつ増加する。
従って第１行には０を入力しない。これはまた、不要項
を導入しないで係数セットを交換する方法を示す。係数
a₀〜a₃を係数b₀〜b₃に交換するためには、（ｎ−１）番
目の行のa_n-1がb_n-1に交換されてから２クロックサイク
ル後にｎ番目の行へのa_nの入力をb_nに交換する。第４図
では係数が０からa₀〜a₃に交換される場合が示されてい
る。

次に第７図を参照する。第７図は本発明の別のプロセ
ッサ50の概略図であり、前出の部分を同じ参照符号で示
す。これは、より複雑な計算に適応するように補助手段
を備えたプロセッサ10を組込んでいる。最終行のセル14
₃₀〜16₃₅は累積和出力30を有し、この出力はプログラマ
ブルクロック励起遅延ユニット52を介して11ビットクロ
ック励起全加算器54に接続されている。最終行のデータ
出力28はデータ出力ライン56₀〜56₃に接続されている。
加算器54は別々の11個の１ビット加算セル58₀〜58₁₀を
有し、その１つが第８図により詳細に示されている。各
加算セル58は第１及び第２の和入力60a,60bとキャリー
入力62とキャリー出力64と和入力66とをもつ。和入力60
a,60b及びキャリー入力62は夫々クロック励起される１
ビットラッチ68_a，68_b，68_cと直列である。キャリービ
ットは加算器54に沿って左方向、例えば加算セル58_nか
ら加算セル58_n+1（ｎ＝０〜10）に転送される。加算セ
ル58_nはｎ番目の桁のビットを受信及び発生し、アレイ
セル14_3n（ｎ＝０〜３）又は16_3n（ｎ＝４又は５）から
の出力を受信すべく接続された第１入力60aをもつ。加
算セル58₆〜58₁₀の第１入力は０に設定されている。従
ってプロセッサ10は、最下位から６桁の第１入力を11ビ
ット加算器54に与える。

加算セル58₀〜58₁₀の第２入力60bは入力ライン70₀〜7
0₁₀に夫々接続されている。加算器出力66は夫々の出力
ライン72₀〜72₁₀に接続されている。遅延ユニット52は
同様にプログラマブルな数のクロックサイクルによって
プロセッサ10の最終行のセルの各々からの信号を遅延さ
せるように構成されている。ユニット52は例えば、アレ
イの各出力毎に直列の１ビットクロック励起ラッチを含
んでおり、直列ラッチの数は所望の遅延に応じて変更で
きる。

プロセッサ10と遅延ユニット52と加算器54の全部のラ
ッチとは、（図示しない）同じ２相クロックによって同
期的に励起される。

プロセッサ50は以下の如き演算を行なう。相関は加算
演算であるから、正確なタイミングとビット桁とを与え
ることができれば、演算をサブ計算に分割し後で再結合
することが可能である。遅延ユニット52は、正確なタイ
ミングを与え、11ビット長の加算器54はビット桁の調整
を与える。これに関しては個々の場合について後述す
る。プロセッサ50は、全部が同じ２相クロックで励起さ
れる同様のクロック群と共に使用されるように構成され
ている。

12の単一ビット係数a₀〜a₁₁を含む相関が必要なら
ば、３つのプロセッサ50を使用する。データは第１プロ
セッサに導入され、第１プロセッサを通過しデータ出力
ライン56₀〜56₃を介して第２プロセッサに転送される。
データストリームは前記の如く、ビットパラレル、ビッ
トジグザグでワードシリアルである。同様にして、第２
プロセッサのデータ出力は第３プロセッサの入力にな
る。第１プロセッサは係数a₀〜a₃で演算し、第２プロセ
ッサは係数a₄〜a₇、３つのプロセッサは係数a₈〜a₁₁で
演算する。３つのプロセッサの遅延ユニット52は、第１
プロセッサの出力が14クロックサイクル遅延し、第２プ
ロセッサからの出力が７クロックサイクル遅延し第３プ
ロセッサからの出力が遅延０になるように設定されてい
る。第１プロセッサ加算器54の第２入力60bは全て０に
設定されており、その出力ライン72₀〜72₁₀はライン70₀
〜70₁₀を夫々介して第２プロセッサ加算器54の第２入力
60bに接続されている。同様に、第２プロセッサ加算器5
4の出力ライン72₀〜72₁₀は第３プロセッサ加算器の入力
ライン70₀〜70₁₀に接続されており、その出力ラインが
所望の相関結果を与える。

３つのプロセッサ50のこのような構成が所望の12の係
数計算を与えることは以下の如く確認できる。再び第１
図から第６図を参照すると、プロセッサ10は１つの結果
を出すために８クロックサイクル、即ち各行に２サイク
ルを必要とする。12行をもつ同様のプロセッサは１つの
結果を出すために24サイクル必要であろう。後者のプロ
セッサを同じデータを順次的に受信する３つの４行プロ
セッサに分割すると、第１プロセッサは８サイクル後に
結果を与え、第２プロセッサは16サイクル後、第３プロ
セッサは24サイクル後に結果を与える。従って、隣合う
プロセッサの出力の間に８サイクルの相対遅延が存在す
る。更に、各11ビット加算器54はクロック制御ラッチを
もつので１つの加算を行なうためには１クロックサイク
ルを要する。加算器54の効果は、１段に１クロックサイ
クルずつ相対遅延を短縮することである。従ってプロセ
ッサ遅延ユニット52の各々は後続プロセッサの数と７と
の積に等しい数のクロックサイクルの遅延を導入する必
要がある。従って第１及び第２のプロセッサの遅延ユニ
ット52は夫々、14クロックサイクル及び７クロックサイ
クルの遅延を与える必要がある。より一般的には、各々
がＭ行をもつＮ個のプロセッサの連鎖でｎ番目のプロセ
ッサの遅延ユニットは（2M−１）（Ｎ−ｎ）クロックサ
イクルの遅延［但し、ｎ＝１〜Ｎ］をもつように設定さ
れる。

各々が６ビット出力を与える３つのプロセッサ50の場
合、和入力の最大値は８ビットである。これは、加算器
54の幅より３ビットだけ小さい。従ってより長いプロセ
ッサ連鎖を収納し得る。

また、マルチビット係数が複数のプロセッサ50によっ
て収納されてもよい。例えば３ビット係数では３つのプ
ロセッサ50が使用される。第１プロセッサは各係数のms
b（最上位ビット）を受信し、第２プロセッサは最下位
の１つ上の桁のビットを受信し、第３プロセッサはlsb
（最下位ビット）を受信する。従って、各プロセッサ毎
の係数セットは、マルチビット係数セットの夫々のビッ
トスライスである。データストリームは、前記の直列デ
ータ流配列と対称的に並列の３つのプロセッサ全部に同
期的に供給される。第３プロセッサはビット桁０〜５の
出力を生成し、第２プロセッサは１〜６、第１プロセッ
サは２〜７の出力を生成する。これは、これらプロセッ
サが夫々、桁0,1及び２の係数ビットを乗算するからで
ある。異なるビット桁を補正するために、第１プロセッ
サ加算器出力ライン72₀〜72₉は第２プロセッサの加算器
入力ライン70₁〜70₁₀に夫々接続されている。第１プロ
セッサの出力ライン72₁₀は未接続であり、第２プロセッ
サの入力ライン70₀は０に接続されている。ビット桁の
加算シフトを実行するために第２プロセッサの加算器出
力と第３プロセッサの加算器入力との間にも同様の接続
が行なわれている。これにより、第１及び第２のプロセ
ッサの出力は夫々、第３プロセッサの出力に対して２段
階及び１段階のビット桁シフトをもつ。その結果例え
ば、第１プロセッサの第１列即ち右端列の出力は第２及
び第３プロセッサの夫々第２列及び第３列からの出力に
加算される。しかし乍ら、再び第５図を参照すると、プ
ロセッサ10の隣合う列の出力間には１クロックサイクル
の相対遅延が存在する。３つのプロセッサ全部にデータ
が同期的に供給されるので、例えば第２プロセッサの第
２列の出力と第１プロセッサの第１列の出力との間に同
様の遅延が存在する。これに対して、第１プロセッサの
出力は出力加算器54で１サイクル遅延しており、第２プ
ロセッサの出力は第２プロセッサの加算器で更に１サイ
クル遅延する。従って双方のプロセッサは第３プロセッ
サの出力に合せて加算のタイミングを補正するための適
当な遅延を生じる。

従って３つのプロセッサ全部の遅延ユニット52は遅延
０に設定される。

６ビット、７ビット及び８ビットの３つの数を加算し
て得られる最大値は９ビットの長さであり、これは第３
プロセッサ出力加算器の11ビット内に容易に収納され
る。

また、前記のプロセッサ10は４ビットデータのみに適
しているが、４ビットより大きい幅のデータワードを使
用する必要が生じるかもしれない。より広いアレイも使
用できるが、多数のプロセッサ50を使用してもよい。８
ビットデータワードには２つのプロセッサ50が使用され
る。上４桁のビットは第１プロセッサに供給され、下４
桁のビットは第２プロセッサに供給される。第１プロセ
ッサの加算器出力ライン72₀〜72₆は第２プロセッサの加
算器入力ライン70₄〜70₁₀に接続され、第１出力ライン7
2₇〜72₁₀は未接続であり、第２入力ライン70₀〜70₃は０
に設定されている。これによりビット桁の４段相対シフ
トが行なわれる。相対遅延の調整はデータ入力タイミン
グに従う。８ビット全部についてデータが隣合うビット
間に１ビットの時間ジグザグを伴って入力されるなら
ば、第１プロセッサ加算器によって導入された１クロッ
クサイクルの相対遅延に対する調整を要するだけであ
る。この場合、第２プロセッサ遅延ユニット52は１サイ
クルの遅延を与えるように設定される。しかし乍ら、ビ
ットジグザグが各４ビットワード部分だけに存在し両方
のプロセッサへの入力が同期であると、第１プロセッサ
の出力は４ビット遅延を必要とする。これを得るために
は、第１プロセッサ遅延ユニット52が３サイクルの遅延
を与えるように設定し、第２プロセッサの遅延を０に設
定する。この変形例として、入力データ遅延を与えるこ
とによって等価の出力遅延効果をもつ構造が得られる。

遅延ユニット52の使用に対する変形例として、同様の
遅延ユニットを加算器54の第２入力70₀〜70₁₀と直列、
又は加算器出力72₀〜72₁₀と直列に配備してもよい。必
要な遅延クロックサイクル数は遅延ユニットの位置に依
存する。

この構成においては、第２プロセッサが10ビット及び
６ビットワードの和の出力を与える。これは最大値11ビ
ットをもつ。従ってこの具体例では、全幅の出力加算器
54が必要である。幅4Nビットのデータワードを含む演算
を行なう必要があるときは、少なくとも最終プロセッサ
において、より大きい出力加算器（4N＋３）ビット幅が
必要であろう。しかし乍ら、個々の論理セルアレイの各
々は第１図及び第７図に示すセル14及び16をもつだけで
よい。これは、54の如き出力加算器による１段毎の累算
の利点を示す。各論理セルアレイは、プロセッサ10は４
から６までのような限定量のワード成長を収納するよう
に構成されるだけでよい。より大きい演算は出力加算器
を用いて別々に累算される。

前記の記載より、データワード長の延長、マルチビッ
ト係数の使用及び相関長さの延長が全て、プロセッサ50
の如き適当数のプロセッサを使用することによって得ら
れることが理解されよう。厳密には、組合せプロセッサ
50における第１出力加算器54は不要である。しかし乍
ら、デジダル演算回路の設計においては、この場合各々
が出力加算器を含む１つの構築ブロックに標準化するの
が便利である。

第９図は本発明の別のプロセッサ90の概略説明図であ
る。これは、第７図及び第８図のプロセッサ50と等価の
プロセッサにバイパス手段を付加したもので、等価の部
分は同じ参照符号で示される。必要以上に複雑な図にな
らないように多数のライン接続はバスとして示されてい
る。プロセッサ90はプロセッサ50を含む。入力データバ
ス92はプロセッサ50と第１マルチプレクサ96との双方に
接続され、後者には２つのクロック励起遅延ラッチ94a,
94bのバンクを介して接続されている。プロセッサ50か
らのデータ出力はバス98を介してマルチプレクサ96に入
る。マルチプレクサ96はデータ出力バス100をもつ。マ
ルチプレクサ96は、制御入力102の信号が０であるか１
であるかに従って出力バス100をバス92又は98に接続す
る。

結果の入力バス104は出力加算器54と第２マルチプレ
クサ106との双方に接続されており、後者には２つのク
ロック励起遅延ラッチ108a,108bのバンクを介して接続
されている。第２マルチプレクサ106はまた、加算器出
力バス110と結果の出力バス112とに接続されている。結
果の出力バス112は制御入力114の信号が０であるか１で
あるかに従って結果の入力バス104又は結果の出力バス1
12に接続されている。

第９図のプロセッサ90は以下の如く作動する。これは
同様のプロセッサの連鎖の一部として構成され、隣合う
２つのプロセッサは鎖線116及び118で示されている。プ
ロセッサ50が無故障のとき、マルチプレクサ96及び106
に論理１の制御入力信号が供給され、動作モードは前記
と同様である。しかし乍らプロセッサ50に故障があると
き、論理０の制御入力がマルチプレクサ96,106に供給さ
れ、入力データと結果とはラッチバンク94a,94b,108a及
び108bを介してプロセッサ50からバイパスされる。ラッ
チバンクの各々は、対応するバスの各ラインに対し１サ
イクルの遅延を与える。（図示しない）個々のラッチは
前記ラッチと等価であり、プロセッサ50に使用されるの
と同じクロックで励起される。

従って、故障プロセッサ50はデータ及び結果の流れに
２クロックサイクルの遅延を導入するラッチバンクを介
してバイパスされる。従って、データ流及び結果の流れ
は等しい遅延を生じ、それまでと同様に同期を維持す
る。更に最も重要なことは、バイパスバスの各々がラッ
チバンクによって比較的短い３つのセクションに分割さ
れることである。必要ならば、更に細かく分割するため
に付加的バイパスラッチを挿入してもよい。この利点
は、バイパスバスの各セクションが十分に短く、プロセ
ッサ50と少なくとも同じクロック周波数でスイッチング
できることである。プロセッサ50は現状の集積回路技術
を用いて製造でき、20MHz以上の高いクロック周波数で
作動できる。高いクロック周波数で作動できる理由は、
例えば第１図の論理セル14と16との間の結線が隣合うセ
ル間にのみ存在するからである。しかし乍ら必然的にバ
イパスバスの長さが大幅に遅延され、これに対応してRC
時定数が大きくなる。かかる時定数は直列プロセッサ連
鎖の最大周波数を好ましくない低い値に制限する。従っ
て、バイパスバスを高速スイッチング可能なセクション
に細かく分割しないとき、故障プロセッサをバイパスす
ることによって最大クロック周波数の急激な下降が生じ
るであろう。第２図及び第３図のクロック22の周波数を
下回る程に周波数が減少すると、直列連鎖は１つのプロ
セッサがバイパスされていても機能しないであろう。従
って、クロック励起ラッチによって高速スイッチング可
能なセクションに細分されたバイパスバスを使用する
と、動作速度に不利な影響を与えることなく故障許容性
プロセッサを構成することが可能である。

典型的な故障許容プロセッサ連鎖は、例えば４つのプ
ロセッサを要する演算のために直列の５つのプロセッサ
90を組込んでいる。従って任意の１つの故障プロセッサ
又は不要プロセッサをバイパスできる。より大きい故障
許容範囲が必要なときは、付加的プロセッサを追加し得
る。参考文献１に記載の如き従来のプロセッサは、動作
速度を低下させないで故障許容範囲を得るこのような構
成を用いることはできない。その理由は、本発明によれ
ばデータと結果とが同方向でプロセッサ10又は連鎖プロ
セッサ90を通過するからである。バイパスラッチはデー
タストリームと結果ストリームとを等しく遅延させ、両
者間に相対遅延は導入されない。従って故障プロセッサ
のバイパスによって、連鎖の先行プロセッサから後続プ
ロセッサまでのデータストリームと結果ストリームとの
相対的タイミングが維持される。参考文献１に記載のプ
ロセッサはデータと結果とが向流的に移動するように設
計されている。かかる連鎖デバイスでは中央プロセッサ
が一方の隣接プロセッサからデータを受信し他方の隣接
プロセッサから結果を受信する。これら隣合うプロセッ
サの１つをラッチ付きバスでバイパスするときは、デー
タストリーム又は結果ストリームの一方が中央プロセッ
サで遅延されるが、両方が遅延されることはできない。
このため演算のタイミングが破壊され無意味な結果が発
生する。その結果、高速故障許容性プロセッサ連鎖の構
造を従来技術の向流アーキテクチャーの使用によって得
ることはできない。このような構造を得るためには、単
一方向のデータ流及び結果の流れが生じるように構成さ
れた本発明のプロセッサを使用する必要がある。これが
本発明の重要な利点である。現在、集積回路技術はウェ
ーハ規模の集積に移りつつあり、ここでは高速故障許容
性アーキテクチャーが不可欠である。ある程度の故障許
容性がないと、ウェーハ規模の回路効率が実質的に０に
なる。何故なら、数百個の素子を担持するウェーハで１
つの故障素子が生じるとウェーハ全体の作動が無効にな
るからである。

次に第10図を参照する。第10図では第２図と等価の素
子を200を加えた同じ参照符号で示す。これは、プロセ
ッサ10,50又は90での使用に適した変形例のゲート制御
全加算器論理セル214である。セル214とセル14との唯１
つの違いは、セル214が２つのデータ出力ラッチ218_x1及
び218_x2をもち唯１つの結果出力ラッチ218_yをもつこと
である。セル214は第１図のセル14と完全に等しい相互
接続を伴う（図示しない）プロセッサで使用される。論
理セル214を組込んだプロセッサでは結果がデータの２
倍の速度で移動する。プロセッサへの係数入力は第４図
〜第６図と逆の順序で行なわれる。例えば相関係数a₀〜
a₃は、第４図の如くセル14₀₀〜14₃₀でなくセル14₃₀〜41
₀₀に夫々入力される。前記と同様にプロセッサの動作を
解析すると、セル214を組込んだプロセッサへの係数入
力の流れ図から相関計算が得られることが理解されよ
う。この解析は前記と同様であるからここでは説明しな
い。係数セットの交換方法が若干異なっている。即ち、
第４図では隣合う行間の係数セットの交換に２クロック
サイクルの遅延が導入されるが、第10図では１クロック
サイクルの遅延が導入される。データ流が遅く結果の流
が速いことを補償するために、セル214を組込んだプロ
セッサ50,90のアレイでは、前出のアレイに比較して結
果累算タイミングの調整が必要である。必要な調整はデ
ジタルエレクトロニクスの当業者に明らかであるからこ
こでは説明しない。

本発明のプロセッサは、２つの補数データ及び／又は
係数を伴って動作するように構成されている。これまで
に記載の具体例は４ビットデータストリームを使用す
る。これが２の補数形のとき、各入力データワードが出
力結果と同じ幅をもつまで符号ビット又は最上位ビット
を複製する必要があろう。従って、６ビットの入力デー
タが必要であろう。より詳細には、ビットabcdをもつ２
つの補数形の４ビットデータワードがaaabcdで示され
る。プロセッサ10は６ビット入力を受信しない。第１図
の４×４のゲート制御全加算器アレイと５つの半加算器
との代わりに、４×６のゲート制御全加算器アレイが第
１図の相互結線を伴って使用される。かかるアレイは４
ビットで正のデータ全部を演算するプロセッサ50と同様
に、６ビットに延長された２つの補数データ符号ビット
を４ビットで演算する。一般に、所要アレイの形状は矩
形であり、各行のセル数は最終行からの出力結果のビッ
ト幅に等しい。

また、第7,8及び９図に記載の如く構成されたマルチ
プルプロセッサにこの補数データを収納してもよい。加
算器54と等価の１つの出力加算器に供給される結果、及
び、１バイト入力データ又は別々に処理すべく複数バイ
トに分割された最上位バイトに対して、符号延長部を与
える必要がある。特に、出力加算器に入る符号ビットを
含む結果は、総合結果の完全幅まで符号延長される必要
がある。総合結果は、集合プロセッサの最終出力加算器
から得られる。

本発明のプロセッサでもこの補数係数を使用し得る。
単一ビット係数の場合、乗算は０又は１によって行なわ
れ後者は負である。０が正の寄与を与えないので結果は
完全に負である。従って計算は全部が正の係数の場合と
等価である。マルチビット係数の場合、最上位のプロセ
ッサだけが負の係数を含み、その結果は完全に負であ
る。この結果のこの補数は公知のゲート制御手段によっ
て使用され、最終出力加算器に入力される前に総合結果
の完全幅まで符号延長される。

この補数のためのデジタル演算回路の原理は公知であ
るから、ここでは詳しく説明しない。

プロセッサ50と同様のマルチプルプロセッサは、各々
が各結果のビット幅に等しい数のセルを各行に含むゲー
ト制御全加算セルの矩形アレイを組込んでいるならば、
この補数データを使用し得る。別々に処理するために入
力データが個々のバイトに分割されている場合、最上位
バイトを受信するプロセッサの出力結果の最上位ビット
は、総合結果、即ち第４図の加算器54と等価の最上位出
力加算器からの結果出力の完全幅まで符号延長される。

本発明の具体例を相関に関して説明したが、これを畳
込みに使用することも可能である。これは例えば参考文
献１に記載されており、以下の如く算出される。畳込み
演算は次式で定義される。

相関演算は次式で定義される。

式（９）より、４点計算（Ｎ＝４）の第５番目の畳込
み結果Y₄は以下の如く与えられる。

Y₄（畳込み）＝A₀X₄＋A₁X₃＋A₂X₂＋A₃X₁ （11）式（10）より、４点計算の２番目の相関結果Y₁は以下
の如く与えられる。

Y₁（相関）＝A₀X₁＋A₁X₂＋A₂X₃＋A₃X₄ （12）式（12）の右辺の順序を逆にしてB_i＝A_3-i、ｉ＝０〜
３を代入すると Y₁（相関）＝B₀X₄＋B₁X₃＋B₂X₂＋B₃X₁ （13）である。

式（11）と（13）とは等価であり、畳込みと相関とが
等価の数学的演算であることを示す。係数セットによる
データの畳込みは、逆の順序で同じ係数を用いた同じデ
ータの相関と等価である。所与の係数セットA₀〜A_kの場
合、係数ワードA₀が最初の行又は最終行のいずれから入
力開始されるかに従って本発明のプロセッサが畳み込み
演算又は相関演算を行なう。この逆のことが第10図のセ
ル214を組み込んだプロセッサに用いられる。畳込み結
果級数の最初の若干の項は対応する相関級数には無いと
いう少しばかりの相違がある。例えば式（10）は（９）
のY₀〜Y₂を生成することはできない。しかし乍ら実用上
はこのことが重要でないデジタル演算回路は極めて多数
の結果を生成すべく使用されるので、例えば数百万の級
の初端でいくつかの結果が付加されたり欠如していても
これを無視してもよい。

【図面の簡単な説明】

第１図は相関演算を実行すべく構成された本発明のプロ
セッサの概略説明図、第２図及び第３図は夫々、第１図
のプロセッサのゲート制御全加算セル及び半加算セルの
詳細図、第４図、第５図及び第６図は第１図のプロセッ
サにおけるデータ流と結果との夫々のクロックサイクル
でのタイミングを示す説明図、第７図は、大型計算機用
プロセッサアレイを構成するために出力遅延手段と解累
算手段と共に第１図のプロセッサを含む本発明のプロセ
ッサの概略説明図、第８図は第７図の累算手段に使用さ
れる全加算セルの詳細図、第９図は故障許容性プロセッ
サアレイを構成するために必要なバイパス結線を伴う第
７図のプロセッサの概略説明図、第10図は第１図のプロ
セッサで使用されるゲート制御全加算セルの変形例の説
明図である。 10……プロセッサ、12……アレイ、14……論理セル、16
……半加算セル、18,20……ラッチ、22……クロック、5
2……遅延ユニット。

───────────────────────────────────────────────────── フロントページの続き (72)発明者リチヤード・アンソニー・エバンスイギリス国、ヒアフオードシヤー・エイチ・アール・８・１・ジエイ・ジエイ、レドベリイ、コデイントン、ニユー・クラフト（番地なし) (72)発明者ジョン・グラハム・マクウアーターイギリス国、ウスターシヤー・ダブリユ・アール・14・４・ピイ・エス、ウエルズ、アルバーン、ムーアランズ・27

Claims

【特許請求の範囲】

【請求項１】ビットパラレル、ワードシリアル、ビット
ジグザグのＭビットワードデータストリームとＮ単一ビ
ット係数との相関及び畳込み演算を実行するデジタルプ
ロセッサであって、（ａ）プロセッサがＮ行Ｍ列の論理セルアレイを含み、（ｂ）各論理セルが、（ｉ）データビット、キャリービ
ット及び累積和ビットを入力し、（ii）データビットを
出力し、（iii）入力データビットと各行のセルに対応
する係数ビットとの積と、入力累積和と、入力キャリー
ビットとの総和に対応する出力累積和ビットと出力キャ
リービットとを生成するように構成されており、（ｃ）セルの相互接続ラインが行及び列を介してビット
を伝送するように構成されており、該ラインが、ビット
の記憶及び伝送のためのクロック励起遅延手段を含んで
おり、セル相互接続ラインと遅延手段とは、累積和ビットとデ
ータビットとがアレイの列に沿って下降する単一方向で
一方の速度が他方の速度の２倍であるような速度で伝送
されるように構成され、キャリービットがアレイの行に
沿ってデータビットの重みを増加する方向で前記累積和
ビット及びデータビットの両方よりも高速で伝送される
ように構成されていることを特徴とするデジタルプロッ
セッサ。
【請求項２】キャリービットの伝送速度及び伝送方向で
アレイの行に沿って係数ビットを伝送すべく構成された
付加的セル相互接続ラインとクロック励起遅延手段とを
含むことを特徴とする特許請求の範囲第１項に記載のプ
ロセッサ。
【請求項３】アレイ出力を遅延させるべく構成されたプ
ログラマブルクロック励起遅延手段と、遅延アレイ出力
を第２加算入力に加算すべく構成されたマルチビットク
ロック励起全加算器とを含むことを特徴とする特許請求
の範囲第１項又は第２項に記載のプロセッサ。
【請求項４】入力データ及び第２加算入力のためのバイ
パス結線を含み、該結線がクロック励起ラッチによって
再分割されていることを特徴とする特許請求の範囲第３
項に記載のプロセッサ。
【請求項５】全加算器の幅が入力間のビット桁の相対差
を収納するのに十分であることを特徴とする特許請求の
範囲第３項又は第４項に記載のプロセッサ。
【請求項６】全加算器の幅がＭビットのビット桁の相対
差を収納するのに十分であることを特徴とする特許請求
の範囲第５項に記載のプロセッサ。
【請求項７】論理セルの第ｎ行の延長上のlog₂n半加算
器を含み、ｎが１からＮであり必要に応じてlog₂nが整
数に丸められることを特徴とする特許請求の範囲第１項
から第６項までのいずれかに記載のプロセッサ。
【請求項８】論理セルの第ｎ行の延長上のlog₂（ｎ−
１）半加算器を含み、第（ｎ−１）行のキャリー出力と
適当な第ｎ行の半加算器の和入力との間の遅延手段を備
えた結線を含み、ｎが２からＮであり必要に応じてlog₂
（ｎ−１）が整数に丸められることを特徴とする特許請
求の範囲第１項から第６項までのいずれかに記載のプロ
セッサ。