JPH0660106A

JPH0660106A - 共分散行列を生成する方法および装置

Info

Publication number: JPH0660106A
Application number: JP5143721A
Authority: JP
Inventors: John G Bartkowiak; ジョーン・ジィ・バートコウィアック; Michael A Nix; マイケル・エイ・ニックス
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1992-06-17
Filing date: 1993-06-15
Publication date: 1994-03-04
Anticipated expiration: 2021-02-01
Also published as: EP0575033A1; DE69325618D1; EP0575033B1; US5299144A; DE69325618T2; JP3740516B2

Abstract

(57)【要約】（修正有）【目的】共分散行列を生成する装置および方法を提供
する。【構成】この発明の一局面によると、装置は一般的
に、メモリ（１２、４８）、環状のバッファ、乗算アキ
ュムレータ（３２）、および演算論理装置を含んで提供
される。そのメモリはアレイの複数個のサンプル代表値
を含み、その環状のバッファは予め定められた数のメモ
リ位置を与えるよう構成される。さらに共分散行列の生
成方法は、上に記載のアーキテクチュアを使用して、メ
モリ内で、値に基づく共分散行列を効率的に生成するよ
う提供される。この発明の一局面において、この方法
は、メモリ、環状のバッファ、乗算アキュムレータ、お
よび演算論理装置のすべてが並行して動作し、アーキテ
クチュアにより与えられる資源を十分に活用することを
可能にする。

Description

【発明の詳細な説明】

【０００１】

【発明の分野】この発明は、ＣＭＯＳ集積回路に関し、
より特定的には、共分散行列を生成する方法および装置
に関する。

【０００２】

【発明の背景】多数の応用は、ランダム変数の集合間の
変化を測定するステップを必要とするプロセスを含む。
これらの測定値は、２次元アレイの形態をとって記憶さ
れ、または表示されるかもしれない。そのようなアレイ
は、以下文中では、共分散行列として言及される。

【０００３】共分散行列の生成を必要とする、応用の一
例は、ＩＳ−５４米国ディジタルセルラー無線規格の実
現である。この規格は、「ベクトル和励起線形予測コー
ディング（Vector Sum Excited Linear Predictive Cod
ing:VSELP ）」として知られる音声コーダを使用してお
り、それは、ディジタル音声サンプルのブロックを入力
として使用する共分散行列の計算を必要とする。音声サ
ンプルは、アナログ入力から、８ＫＨｚサンプリング率
で記憶される。ＩＳ−５４規格の詳細は、ＥＩＡ／ＴＩ
Ａドキュメント２２１５（セルラーシステム−二重モー
ド移動局／１つの州互換性規格ＩＳ−５４，１９８９年
１２月）において論議される。

【０００４】１７０の入力音声サンプルから、共分散行
列を生成する公式は、式（１）において示され、そこで
は、φ（ｉ，ｋ）は、共分散行列の、行ｉ、列ｋでの値
を表わし、Ｎ_Aは、入力音声サンプルの総数を表わし
（Ｎ_A＝１７０）、Ｎ_Pは、共分散行列の、最大の行お
よび列の数を表わし（Ｎ_P＝１０）、ならびにＳ（ｘ）
はｘ番目の入力サンプルの値を表わす。

【０００５】

【数１】

【０００６】式（１）により生成される共分散行列の表
現は、図１（Ａ）に示され、そこでは、ｘ，ｙは、共分
散行列の、行ｘ、列ｙで記憶された共分散測定値を表わ
す。

【０００７】図１（Ｂ）は、ランダムアクセスメモリ
（ＲＡＭ）内で、図１（Ａ）に示される共分散行列の値
を記憶する可能な方法を示す。共分散行列は対称なの
で、１１×１１共分散行列を記憶するのに必要なのは６
６のＲＡＭ位置だけであることに注目されたい。したが
って、共分散行列中の各エレメントφ（ｉ，ｋ）につい
て言えば、φ（ｉ，ｋ）＝φ（ｋ，ｉ）となる。結果と
して、共分散行列全体を表わすには、中心対角線に沿う
エレメント、および共分散行列の三角形上部（または下
部）のみが生成され、記憶される必要がある。

【０００８】図２は、３つの行列Ｆ、Ｂ、およびＣの記
憶構成を示しており、それらは、図１（Ｂ）に示される
ように記憶された共分散行列の部分集合である。これら
の３つの行列もまた対称である。

【０００９】共分散行列の、行が０のエレメント（すな
わち、φ（０，０）ないしφ（０，１０））が生成され
ると、残りのエレメントは下記の式（２）を使用して容
易に生成され得るという点で、式（１）は冗長を表す。

【００１０】

【数２】

【００１１】φ（１，１）について、式（２）から以下
の式が導かれる。

【００１２】

【数３】

【００１３】式（２）の実行は、一般的に、乗算累積ハ
ードウェアを用いた簡単なものである。しかしながら、
共分散行列の、行が０のエレメント（すなわち、φ
（０，０）ないしφ（０，１０））は、行列の残りが式
（２）により生成される前に、まず、式（１）により生
成されねばならない。

【００１４】式（１）により必要とされる乗算において
のオペランドは、固定数により互いからオフセットされ
たサンプルである。たとえば、φ（０，１）を生成する
式は、次のようになる。

【００１５】

【数４】

【００１６】この例では、すべての乗算のオペランド
は、１だけ互いにオフセットされたサンプルである。

【００１７】先行技術によると、効率的に式（１）の形
をとる式を実行するには、共分散行列ジェネレータは、
１７０の音声サンプルを有する２つの別個のメモリ、ま
たは１７０のサンプルを有する１つのメモリのパイプラ
インのいずれかを含んでいなければならない。これらの
アーキテクチュアのブロック図は、それぞれ図３および
図４に示される。

【００１８】パイプライニングは、機能単位がその処理
をいくつかのステップで行なう、処理形態である。第１
のステップが完了すると、その結果は別個のハードウェ
アを使用する第２のステップへと移される。したがって
第１のステップのハードウェアは、新しいデータ処理を
始めるのが自由である。パイプライン処理は一般に、順
次処理のために早いスループットを与えるが、それは典
型的には、コンピュータシステムの幾つかの機能単位を
通過するのに必要な時間が、別の方法ではデータが機能
単位に入力される間隔より長くなってしまうような、プ
ロセスのために使用される。

【００１９】図３に示される二重メモリアーキテクチュ
アには、図４に示されるパイプラインアーキテクチュア
の２倍のメモリを必要とするという、明らかな不利益が
ある。しかしながら、図４に示されるパイプラインアー
キテクチュアを用いての共分散行列ジェネレータが、た
とえばφ（０，１０）を生成するときには、１０のレベ
ルのパイプラインが必要とされる。そのようなパイプラ
インは、共分散行列を速やかに生成するが、その目的
は、共分散行列を生成するためだけに制限される。その
ようなパイプラインは、たとえばＶＳＥＬＰに対する計
算上の要求の他の部分のような、他の計算にとっては
（いかなる自明の態様においても）役に立たない。

【００２０】それゆえに、多目的の結果記憶装置として
容易に使用されるが、行列の基となるサンプルがメモリ
の２バンクに記憶されることを必要としない、効率的な
共分散行列ジェネレータを提供することが明らかに望ま
しい。

【００２１】さらに望ましいのは、低いハードウェアの
コストで共分散計算を効率的に実行し、かつ、一時的な
結果を記憶するために、他の計算のためのシステムにお
いて役立つ「スクラッチパッド」メモリを供給する、共
分散行列ジェネレータを提供することである。

【００２２】

【発明の概要】この発明の一局面によれば、共分散行列
の第１の行を生成する装置が提供される。この装置は、
一般的に、複数個のサンプルを表す値のアレイを有する
メモリと、そのメモリに結合される環状のバッファとを
含み、その環状のバッファは予め定められた数のメモリ
位置を与えるように構成されており、さらに第１のメモ
リおよび環状のバッファに結合される乗算アキュムレー
タを含む。

【００２３】この発明のもう１つの局面によれば、共分
散行列の三角形部分の上部または下部を生成する装置が
提供される。この装置は、一般的に、第１、および第２
のメモリと、その第１のメモリに結合される環状のバッ
ファと、第１および第２のメモリ、ならびに環状のバッ
ファに結合される乗算アキュムレータと、第２のメモリ
および乗算アキュムレータに結合される演算論理装置と
を含む。第１のメモリは、複数個のサンプルを表す値の
アレイを有する。環状のバッファは、初めは、第１の予
め定められた数のメモリ位置を与えるように構成され
る。

【００２４】この装置は、第１のメモリから乗算アキュ
ムレータへとアレイの値の順次部分集合を転送して、共
分散行列の第１の行の第１のエレメントを生成し、かつ
共分散行列の第１の行の第１のエレメントを第２のメモ
リ内に記憶する。

【００２５】この装置は、第１のメモリからのアレイの
値の第１の一連の順次部分集合、および、環状のバッフ
ァからのアレイの値の第２の一連の順次部分集合を、乗
算アキュムレータへと同時に転送して、乗算アキュムレ
ータの出力において、共分散行列の第１の行の残りのエ
レメントを生成する。この装置は、第２のメモリ内に、
共分散行列の第１の行の残りのエレメントを記憶する。

【００２６】さらにこの装置は、共分散行列の三角形部
分の上部または下部の残りのエレメントを、演算論理装
置内で生成し、かつ第２のメモリ内に記憶するように構
成される。

【００２７】さらにこの発明は、共分散行列の生成方法
を提供する。この方法は、複数個のサンプルを表す値の
アレイを有するメモリを設けるステップと、乗算アキュ
ムレータを設けるステップと、予め定められた深さの環
状のバッファを設けるステップと、乗算アキュムレータ
内で、共分散行列の第１の行の第１のエレメントを生成
するステップとを含む。さらにこの方法は、第２のメモ
リ内に第１のエレメントを記憶するステップと、共分散
行列の第１の行の残りのエレメントを生成するステップ
と、第２のメモリ内に第１の行の残りのエレメントを記
憶するステップとを含む。さらにこの方法は、演算論理
装置内で、共分散行列の三角形部分の上部または下部
の、残りのエレメントを対角線ごとに生成するステップ
と、第２のメモリ内に、共分散行列の三角形部分の上部
または下部の、残りのエレメントを記憶するステップと
を含む。

【００２８】以下、この発明は添付図面に関して述べら
れ、以下文中では、同じ数字は同じエレメントを表わ
す。

【００２９】

【好ましい実施例の詳細な説明】図５を参照すると、共
分散行列ジェネレータ１０が、この発明の好ましい例示
的な実施例に従って示されている。ジェネレータ１０は
一般的に、複数個のランダムアクセスメモリ（ＲＡＭ）
１２および４８と、複数個のアドレスジェネレータ１
４、１６、および１８と、二重ポートレジスタファイル
２０と、複数個のマルチプレクサ２４および２６とを含
む。ジェネレータ１０はさらに、２つのデータバス２８
および３０と、乗算アキュムレータ（以下ＭＡＣ）３２
とを含む。

【００３０】ＭＡＣ３２は３レベルのパイプラインで、
２つの入力ポート、および１つの出力ポートを有する。
具体的には、２つのオペランドがＭＡＣ３２の入力ポー
トに与えられて３サイクル後に、オペランドの乗算累積
または乗算の積が、その出力ポートで利用可能となる。
このアーキテクチュアは、ＭＡＣ３２のハードウェアの
構成を最小にし、１つの乗算累積を演算する計算時間に
３クロックサイクルのペナルティを課す。しかしなが
ら、１７０のサンプルのセットの各々の共分散測定は、
１６０の乗算累積計算を要求する（式（１）参照）た
め、１サイクルの乗算アキュムレータに対する、ＭＡＣ
３２の計算時間の増加のパーセンテージは、２％未満で
ある。

【００３１】アドレスジェネレータ１８は、レジスタフ
ァイル２０の「読出」アドレスジェネレータであり、ア
ドレスジェネレータ１６は、レジスタファイル２０の
「書込」アドレスジェネレータである。ジェネレータ１
０を用いて、式（１）の数値を求める方法は、レジスタ
ファイル２０を、１０の位置の深さを持つ環状のバッフ
ァとして使用する。アドレスジェネレータ１６および１
８は、限界アドレス（位置９）に達すると、それぞれの
アドレスポインタが与えられた開始アドレス（位置０）
に「ラップアラウンドする」ことを可能にするよう構成
されている。たとえば、アドレスジェネレータ１６のポ
インタがレジスタファイル２０の位置９を指すとき、増
加されるなら、ポインタはリセット、または「ラップア
ラウンド」して、レジスタファイル２０の位置０を指
す。同様に、アドレスジェネレータ１６のポインタが、
レジスタファイル２０の位置０を指すとき、減少される
なら、ポインタは「ラップアラウンド」して、レジスタ
ファイル２０の位置９を指す。アドレスジェネレータ１
８のポインタは、同様の態様で「ラップアラウンド」す
るよう構成されている。

【００３２】ＭＡＣ３２への一方の入力は、データバス
２８によって直接与えられ、他方は、マルチプレクサ２
４によって制御される。マルチプレクサ２４は、データ
をデータバス２８から、それが制御するＭＡＣ３２の入
力へと向けるよう、初めは構成されている。マルチプレ
クサ２６は、レジスタファイル２０への入力を制御し、
データを、データバス２８から、レジスタファイル２０
内のアドレスジェネレータ１６によって指された位置へ
と向けるよう初めは構成されている。

【００３３】共分散行列の生成は、図６に示されるステ
ップ５２、５４、５６、および５８に従って実現され得
るだろう。ステップ５２および５４は、ジェネレータ１
０に関して説明され、一方ステップ５６および５８は図
１２を参照して、後に詳しく説明される拡大されたジェ
ネレータに関して説明される。具体的には、ステップ５
２では、共分散行列の行０、列０、すなわちφ（０，
０）が生成される。ステップ５４では、共分散行列の第
１の行（行０）、すなわちφ（０，１）ないしφ（０，
１０）を完成する測定値が生成される。ステップ５６で
は、行列の中心対角線のエレメント、すなわちφ（１，
１）ないしφ（１０，１０）が生成され、ステップ５８
では、行列の残りのエレメントが生成される。これらの
ステップの各々は、図８−１６を参照して、後により詳
しく説明される。

【００３４】上述のように、ステップ５２では、ジェネ
レータ１０は、式（１）に従って、共分散行列のφ
（０，０）パラメータを最初に生成する。ステップ５２
の実現のフローチャートは、図８に示される。具体的に
は、ステップ２０２では、ＲＡＭ１２のためのアドレス
ジェネレータであるアドレスジェネレータ１４は、ＲＡ
Ｍ１２の位置１０を指すよう設定され、アドレスジェネ
レータ１６は、レジスタファイル２０の位置０を指すよ
う設定され、アドレスジェネレータ１８は作動不可にさ
れる。マルチプレクサ２４および２６は、データバス２
８からデータを受取るように構成されている。こうして
初期化され、ジェネレータ１０は、ＲＡＭ１２からのデ
ータが、データバス２８を介して、ＭＡＣ３２の両方の
入力へと送られるように、構成されている。

【００３５】ステップ２０４では、タイマが開始され
て、１６０の乗算累積を与え、ステップ２０６ないし２
１４が、１６０の乗算累積が起こるまで、反復的に実行
される。

【００３６】ステップ２０６では、ＲＡＭ１２内のアド
レスジェネレータ１４が指す場所のサンプルが、ＭＡＣ
３２の両方の入力に入力され、レジスタファイル２０に
書込まれる。ＭＡＣ３２は入力値を乗じて、その乗算の
積を、前の計算の和に加える。ステップ２０８では、ア
ドレスジェネレータ１４および１６は同期して増加す
る。

【００３７】したがって、アドレスジェネレータ１４
は、それぞれ値Ｓ（１０）ないしＳ（１６９）を有する
ＲＡＭ１２のアドレス１０ないし１６９を連続して指
す。前述のように、アドレスジェネレータ１６のポイン
タはラップアラウンドするように構成されている。こう
して、ステップ２１０および２１２で、アドレスジェネ
レータ１６が増加するにつれて、そのポインタは位置９
を指した後、位置０にラップアラウンドする。各々の
「ラップアラウンド」の後、レジスタファイル２０に書
込まれた新しいデータは、そこに前に記憶されたデータ
をオーバライトする。

【００３８】ステップ２０６ないし２１４までの反復の
間、データのサンプルＳ（１０）ないしＳ（１６９）
が、ＭＡＣ３２の入力ポートに送り込まれ、それら自身
で乗算され、かつ前の計算の結果と累積されて、最終結
果φ（０，０）を生じる。同時に、Ｓ（１０）ないしＳ
（１６９）が、レジスタファイル２０に連続して書込ま
れる。レジスタファイル２０は、１０のメモリの位置の
みに書込むよう構成されているので、最後の１０の入力
値のみがそこに記憶される。したがって、１６０の乗算
累積が完了すると、ＭＡＣ３２の出力はφ（０，０）を
含み、レジスタファイル２０は図示のように構成されて
いる。ここでＸは、それぞれのアドレスジェネレータが
指す、レジスタファイル２０内の位置を表わす。（この
場合、アドレスジェネレータ１８は作動不可で、アドレ
スジェネレータ１６は位置９を指す。）

【００３９】

【表１】

【００４０】ステップ２１６では、ＭＡＣ３２の出力
（すなわちφ（０，０））は、データバス３０を介し
て、ＲＡＭ４８に記憶され、ステップ２１８ではＭＡＣ
３２の出力レジスタは、クリアされる。アドレスジェネ
レータ１４は、ここではＲＡＭ１２の位置１６９内のＳ
（１６９）を指しており、アドレスジェネレータ１６
は、レジスタファイル２０の位置９を指し、これもまた
Ｓ（１６９）を含む。

【００４１】共分散行列の中心対角線上の他の１０の項
（すなわちφ（１，１）ないしφ（１０，１０））を上
述の式（２）に従って生成するよりもむしろ、レジスタ
ファイル２０のここでの構成を用いて、共分散行列の行
０の他の１０のエレメント（すなわちφ（０，１）ない
しφ（０，１０））を生成する（ステップ５４）方が有
利である。

【００４２】そのフローチャートが図９ないし図１１に
示されるステップ５４の実行は、ここでより詳細に説明
される。φ（０，１）の生成を始めるにあたり、ステッ
プ２２０で、マルチプレクサ２４は、レジスタファイル
２０から読出すよう構成されている。こうして、ＭＡＣ
３２への一方の入力は、ここではレジスタファイル２０
からであり、ＭＡＣ３２への他方の入力は、まだＲＡＭ
１２からである。

【００４３】φ（０，０）の生成と同様に、行０の各々
のエレメントの生成は、１６０の乗算累積を要求する。
しかしながら、これらの計算に要求される乗算のオペラ
ンドは整列されない。より具体的には、すべての共分散
エレメントφ（０，ｋ）に対して、φ（０，ｋ）を生成
するため要求される乗算のオペランドは、ｋサンプルに
よってオフセットされる。たとえば、φ（０，１）を生
成するのに要求される乗算のオペランドは、１サンプル
だけ（たとえばＳ（１０）Ｓ（９）、Ｓ（１１）Ｓ（１
０）など）、オフセットされる。結果として、φ（０，
１）の生成においてこのオフセットを与えるため、ステ
ップ２２２で、アドレスジェネレータ１４は再整列され
て、ＲＡＭ１２の位置１６８を指し、アドレスジェネレ
ータ１６は再整列されて、レジスタファイル２０の位置
８を指す（すなわち、アドレスジェネレータ１４および
１６は減少される。）。アドレスジェネレータ１８は、
レジスタファイル２０の位置９を指すよう設定される。
レジスタファイル２０は、ここでは次のように構成され
ている。

【００４４】

【表２】

【００４５】したがって、φ（０，１）の生成を始める
ため、アドレスジェネレータ１４は、ＲＡＭ１２内の値
Ｓ（１６８）を有する位置１６８を指し、アドレスジェ
ネレータ１６は、レジスタファイル２０内の値Ｓ（１６
８）を有する位置８を指し、かつアドレスジェネレータ
１８は、レジスタファイル２０の値Ｓ（１６９）を有す
る位置９を指す。結果として、データバス２８からの値
Ｓ（１６８）、およびレジスタファイル２０内の位置９
からのＳ（１６９）は、初めは、ＭＡＣ３２の入力ポー
トへとロードされる。

【００４６】ステップ２２４で、アドレスジェネレータ
１４、１６、および１８は減少モードに置かれている。
マルチプレクサ２６は、データバス２８から、アドレス
ジェネレータ１６によりアドレスされたレジスタファイ
ル２０の書込ポートへとデータをまだ送っているため、
レジスタファイル２０の書込ポートは、データバス２８
からのＳ（１６８）を入力として有する。

【００４７】ステップ２２６で、タイマが開始されて、
φ（０，１）の生成によって要求される１６０の乗算累
積のためのカウンタを与える。したがって、ＭＡＣ３２
は、Ｓ（１６９）とＳ（１６８）との積をＳ（１６８）
とＳ（１６７）との積と、というように集積し始める。
レジスタファイル２０は、読出／書込モードにあり、こ
こで、クロックサイクルの前半の間アドレスジェネレー
タ１８が指す位置から、データが読出され、クロックサ
イクルの後半の間アドレスジェネレータ１６が指す位置
に、データが書込まれる。このタイミングは、図７に示
される。

【００４８】したがって、φ（０，１）の生成の第１の
サイクルで、Ｓ（１６９）は、レジスタファイル２０か
ら読出され、かつＳ（１６８）は、ステップ２２８でＲ
ＡＭ１２から読出される。ステップ２３０においてＭＡ
Ｃ３２でこれらの値は乗じられ、累積される。それか
ら、ステップ２３２で、Ｓ（１６８）は、レジスタファ
イル２０内のアドレスジェネレータ１６によって指され
た位置８に書込まれる。次に、ステップ２３４で、アド
レスジェネレータ１４、１６、および１８のポインタは
減少され、そのためアドレスジェネレータ１４は、ここ
ではＲＡＭ１２内の値Ｓ（１６７）を有する、位置１６
７を指し、アドレスジェネレータ１８は、レジスタファ
イル２０内の値Ｓ（１６８）を有する、アドレス８を指
し、アドレスジェネレータ１６はレジスタファイル２０
内の、φ（０，０）の生成からの値Ｓ（１６７）を有す
る、アドレス７を指す。ステップ２３６および２３８
で、アドレスジェネレータ１６およびアドレスジェネレ
ータ１８のポインタは、それらのラップアラウンドの限
界を越えてしまうと、ラップアラウンドする。第１のサ
イクルでは越えていないので、実行はステップ２４０ま
で進む。ステップ２４０で、タイマの状態がチェックさ
れる。１６０の反復が完了していなければ、実行は分岐
してステップ２２８に戻る。

【００４９】φ（０，１）の生成の第２のサイクルで、
ステップ２２８ないし２４０において、ＭＡＣ３２は、
ＲＡＭ１２からのＳ（１６７）を、レジスタファイル２
０からのＳ（１６８）と乗じ、その乗算の積を、Ｓ（１
６９）とＳ（１６８）との積と累積する。ＭＡＣ３２で
φ（０，１）のすべての項が生成され、累積されるまで
（つまり１６０の乗算累積のため）、このプロセスは続
く。上述のように、これらの計算の間、同期して減少し
たアドレスジェネレータ１６および１８は、１の位置だ
けオフセットされ、位置０に達するごとにラップアラウ
ンドする。またレジスタファイル２０の値は、継続的に
オーバライトされる。しかしながら、アドレスジェネレ
ータ１８は、実質的にアドレスジェネレータ１６より
「先に」あり、かつアドレスジェネレータ１８は常に、
φ（０，１）の生成のための次のオペランドを指すた
め、φ（０，１）の生成は、効率的に実行される。

【００５０】タイマの完了の際に、レジスタファイル２
０は以下のように構成されているだろう。

【００５１】

【表３】

【００５２】φ（０，１）の生成の最後の項は、Ｓ（１
０）Ｓ（９）である。したがって、値Ｓ（１０）は、レ
ジスタファイル２０内の現在アドレスジェネレータ１８
によって指されている位置にあり、値Ｓ（９）は、レジ
スタファイル２０の位置９に書込まれている。ＭＡＣ３
２の出力レジスタは、ここでは値φ（０，１）を含み、
かつ、アドレスジェネレータ１４は、ＲＡＭ１２内の値
Ｓ（９）を有する位置９を指す。

【００５３】この時点で、実行はステップ２４２まで進
み、ここでφ（０，１）は、データバス３０を介してＲ
ＡＭ４８に書込まれ、かつＭＡＣ３２の出力レジスタは
クリアされる。ステップ２４４で、アドレスジェネレー
タ１４、およびアドレスジェネレータ１６は、もう一度
減少され、ＲＡＭ１２からレジスタファイル２０の位置
８へＳ（８）を書込むことを可能にする（Ｓ（１８）を
オーバライトする）。ステップ２４６で、アドレスジェ
ネレータ１４は、それからＳ（１０）を指すよう設定さ
れ、アドレスジェネレータ１６のポインタは、アドレス
ジェネレータ１８のポインタと交換される。こうして、
アドレスジェネレータ１４は、ここではＲＡＭ１２の位
置１０のＳ（１０）を指し、アドレスジェネレータ１６
は、レジスタファイル２０の位置０のＳ（１０）を指
し、アドレスジェネレータ１８は、レジスタファイルの
２０の位置８のＳ（８）を指す。アドレスジェネレータ
１６、およびアドレスジェネレータ１８は、所望の位置
を指すように、直接設定されてもよいし、またはそのア
ドレス出力がアドレスマルチプレクサ（図示せず）によ
って切換えられてもよい。アドレスジェネレータ１６お
よびアドレスジェネレータ１８のポインタは、ここでは
２だけステップから外れている。

【００５４】ジェネレータ１０は、ここで次の式によっ
てφ（０，２）を生成する。

【００５５】

【数５】

【００５６】この生成の始まりにおけるレジスタファイ
ル２０の構成を以下に示す。

【００５７】

【表４】

【００５８】ステップ２４８で、アドレスジェネレータ
１４、１６、および１８は、増加モードに入れられる。
マルチプレクサ２４、および２６の構成は変わらないま
まである。ステップ２５０で、タイマが開始され、φ
（０，２）の生成のため、１６０の乗算累積を与える。
φ（０，１）の生成のステップ２２８ないし２４０と同
様に、ステップ２５２ないし２６０で、ＭＡＣ３２は、
φ（０，２）の項を乗算累積し、かつレジスタファイル
２０は継続的にその内容がオーバライトされる。具体的
には、アドレスジェネレータ１８が、レジスタファイル
２０の、Ｓ（１７）を有する位置７を指しているとき、
アドレスジェネレータ１６は、Ｓ（１９）を位置９に書
込んでいる。前のクロックサイクルで、Ｓ（１８）は位
置８に書込まれており、２クロックサイクル後に、アド
レスジェネレータ１８が位置８にアクセスするときのた
めに備えている。

【００５９】φ（０，２）の生成の完了の際に、レジス
タファイル２０は、以下のように構成されている。

【００６０】

【表５】

【００６１】ＭＡＣ３２の出力レジスタは、φ（０，
２）を含む。実行はステップ２６２に続き、ここでＭＡ
Ｃ３２の出力はＲＡＭ４８に記憶され、ＭＡＣ３２の出
力レジスタはクリアされる。

【００６２】φ（０，３）の生成に先立って、ステップ
２６４で、アドレスジェネレータ１４、１８、および１
６のポインタはそれぞれ、ＲＡＭ１２の場所１６６、レ
ジスタファイル２０の場所９、およびレジスタファイル
２０の場所６を指すよう設定されている。こうして、ア
ドレスジェネレータ１４はサンプルＳ（１６６）を指
し、アドレスジェネレータ１８はサンプルＳ（１６９）
を指し、かつアドレスジェネレータ１６はサンプルＳ
（１６６）を指す。アドレスジェネレータ１６、および
アドレスジェネレータ１８のポインタは、それぞれのポ
インタを示される位置に直接設定することによって設定
されてもよいし、またはアドレスジェネレータ１８のポ
インタを１だけ減少させ、かつアドレスマルチプレクサ
（図示せず）を介して、アドレスジェネレータ１８のポ
インタと、アドレスジェネレータ１６のそれを切換える
ことによって、設定されてもよい。

【００６３】ステップ２６６で、行０のすべてのエレメ
ントが生成されたかどうかが定められる。生成されてい
ないので、ステップ２２４に戻って実行が進む。ステッ
プ２２４で、アドレスジェネレータ１４、１６、および
１８は、減少モードに置かれる。こうして、φ（０，
３）の生成を始めるにあたり、レジスタファイル２０
は、以下のように構成される。

【００６４】

【表６】

【００６５】次に共分散行列のエレメントφ（０，３）
は、上述のステップ２２６ないし２４２に従って生成さ
れる。具体的には、ステップ２２６で、タイマが再び開
始され、１６０の乗算累積を与える。１６０の乗算累積
が完了すると、ＭＡＣ３２の出力は、値φ（０，３）を
有し、次にそれが、ステップ２４２に従ってＲＡＭ４８
に記憶される。そしてＭＡＣ３２の出力レジスタはクリ
アされる。φ（０，３）の生成の完了の際に、レジスタ
ファイル２０は以下のように構成される。

【００６６】

【表７】

【００６７】φ（０，３）の生成の後、アドレスジェネ
レータ１４、およびアドレスジェネレータ１６は、ステ
ップ２４４に従って減少され、Ｓ（６）が位置６に書込
まれることを可能にする。そしてステップ２４６で、ア
ドレスジェネレータ１４は、リセットされて、ＲＡＭ１
２の位置１０を指し、アドレスジェネレータ１６および
１８のポインタが交換される。したがって、φ（０，
４）の生成の初めに、アドレスジェネレータ１４はＳ
（１０）を指し、アドレスジェネレータ１６はＳ（１
０）を指し、かつアドレスジェネレータ１８はＳ（６）
を指す。ステップ２４８で、アドレスジェネレータ１
４、１６、および１８は、ここでは増加モードに置かれ
ている。

【００６８】この操作のシーケンスは、共分散行列の行
０の最後のエレメント、φ（０，１０）が生成されるま
で繰返される。具体的には、φ（０，９）の生成の完了
の際に、実行はステップ２４４にあり、レジスタファイ
ル２０は以下のように構成される。

【００６９】

【表８】

【００７０】前述のように、ステップ２４４で、アドレ
スジェネレータ１４およびアドレスジェネレータ１６は
減少されて、そのためアドレスジェネレータ１６は位置
０を指し、かつＳ（０）がレジスタファイル２０の位置
０に書込まれる。そしてステップ２４６で、アドレスジ
ェネレータ１４はＳ（１０）にリセットされ、アドレス
ジェネレータ１６および１８は交換される。（両方とも
アドレス０を指している。）そしてステップ２４８で、
アドレスジェネレータ１４、１６、および１８は、増加
モードに設定される。そして行０の最後の行列エレメン
ト、φ（０，１０）は、次の式に従って、生成される。

【００７１】

【数６】

【００７２】具体的には、アドレスジェネレータ１４
は、ＲＡＭ１２内のＳ（１０）を指し、アドレスジェネ
レータ１６および１８の両方は、レジスタファイル２０
の位置０のＳ（０）を指す。ジェネレータ１０は、いか
なる与えられたクロックサイクルででも、書込より読出
が先に起こるよう構成されているため、ステップ２５２
で、Ｓ（０）はレジスタファイル２０の位置０から最初
に読取られ、それからＳ（１０）がレジスタファイル２
０の位置０でＳ（０）の上に書込まれる。φ（０，１
０）の生成を完了すると、ＭＡＣ３２の出力がＲＡＭ４
８に記憶され、ＭＡＣ３２の出力はステップ２６２に従
ってクリアされる。ステップ２６４は、この最後のサイ
クルの間、随意にスキップされてもよい。というのは、
アドレスジェネレータ１４、１６、および１８のポイン
タはステップ５６の開始の際に新しい値に設定されるか
らである。

【００７３】ステップ５４はこれで完了し、共分散行列
のエレメントφ（０，０）ないしφ（０，１０）が生成
され、記憶された。ステップ５６の間、共分散行列の中
心対角線の残りのエレメント、φ（１，１）ないしφ
（１０，１０）が式（２）に従って生成される。具体的
には、φ（１，１）は次の式に従って生成される。

【００７４】

【数７】

【００７５】ステップ５６および５８の実行は、図１２
を参照して説明される。この図は、共分散行列ジェネレ
ータ１００の、拡張された実施例を表わしている。ステ
ップ５２および５４が、ジェネレータ１０に関して上述
したように、ジェネレータ１００によって実行され得る
ことが当業者には容易に明らかになるであろう。ステッ
プ５６および５８の説明において、ステップ５２および
５４が、上述のようにジェネレータ１００によって実行
されたと仮定する。

【００７６】図１２を参照すると、共分散行列ジェネレ
ータ１００が、この発明の例示的な実施例に従って示さ
れている。ジェネレータ１００は一般には、複数個のラ
ンダムアクセスメモリ（ＲＡＭ）１１２、および１５２
と、複数個のアドレスジェネレータ１１４、１１６、１
１８、および１５０と、二重ポートレジスタファイル１
２０と、複数個のマルチプレクサ１０２、１０４、１０
６、１０８、および１２６とを含む。ジェネレータ１０
０はさらに、３つのデータバス１２８、１３０、および
１５４と、乗算アキュムレータ（ＭＡＣ）１３２と、演
算論理装置（ＡＬＵ）１１０とを含み、その出力レジス
タは、ＡＬＵの出力を保持する、またはそれをデータバ
ス１３０にトランスペアレントにパスすることができ
る。

【００７７】ＭＡＣ１３２は２つの入力ポート、および
１つの出力ポートを有し、上述のＭＡＣ３２に類似した
３レベルのパイプラインとして設計されている。ＭＡＣ
１３２の一方の入力は、マルチプレクサ１０２によって
制御され、他方はマルチプレクサ１０４によって制御さ
れる。その具体的な動作が図１３、および図１４に示さ
れているステップ５６の開始の際、マルチプレクサ１０
２、およびマルチプレクサ１０４の両方が、ステップ３
００に従ってデータバス１２８から、ＭＡＣ１３２へと
データを送るよう構成されている。

【００７８】レジスタファイル１２０は、２０の位置の
深さを有する環状のバッファとして構成されている。ア
ドレスジェネレータ１１８は、レジスタファイル１２０
の「読出」アドレスジェネレータで、アドレスジェネレ
ータ１１６は、レジスタファイル１２０の「書込」アド
レスジェネレータである。アドレスジェネレータ１１６
および１１８は、上述のようにそれぞれのアドレスポイ
ンタが「ラップアラウンドする」ことを可能にするよう
設計されている。マルチプレクサ１２６は、レジスタフ
ァイル１２０への入力を制御し、レジスタファイル１２
０のアドレスジェネレータ１１６によって指された位置
に、データバス１２８からデータを送るよう構成されて
いる。

【００７９】ＡＬＵ１１０は、マルチプレクサ１０６、
およびマルチプレクサ１０８によって制御される２つの
入力を有する。ステップ５６および５８の間、ＡＬＵ１
１０が用いられて、ＭＡＣ１３２の出力を集積する。こ
うしてステップ５４の完了の際に、ＭＡＣ１３２は乗算
専用モードに置かれる。

【００８０】アドレスジェネレータ１１４は、ＲＡＭ１
１２のアドレスジェネレータで、２つの修正可能なポイ
ンタを備えて構成されている。ステップ３０２では、ア
ドレスジェネレータ１１４の第１の修正可能なポインタ
は、ＲＡＭ１１２の位置９を指すよう、初めに設定さ
れ、かつアドレスジェネレータ１１４の第２のアドレス
ポインタは、ＲＡＭ１１２の位置１６９を指すよう初め
に設定されている。ステップ３０４において、アドレス
ジェネレータ１１４の両方のアドレスポインタは初めは
減少モードに設定されている。アドレスジェネレータ１
１４はさらに、その２つのポインタの各々が以下に示さ
れるように交互のクロックサイクルでデータバス１２８
を駆動することを可能にするよう構成されている。

【００８１】

【表９】

【００８２】結果として、データバス１２８は、値Ｓ
（９）、Ｓ（１６９）、Ｓ（８）、Ｓ（１６８）、…、
Ｓ（０）、Ｓ（１６０）を順次与える。上で特定したよ
うに構成され、ジェネレータ１００は、対角線のエレメ
ントφ（１，１）ないしφ（１０，１０）の生成を始め
る。具体的には、ステップ３０６でＭＡＣ１３２の両方
の入力は、値Ｓ（９）、Ｓ（１６９）、…、Ｓ（０）、
Ｓ（１６０）をデータバス１２８から連続して送り込
む。こうしてＭＡＣ１３２は、積Ｓ（９）Ｓ（９）、Ｓ
（１６９）Ｓ（１６９）、…、Ｓ（０）Ｓ（０）、Ｓ
（１６０）Ｓ（１６０）を連続して出力する。ステップ
３０６の交互の実行の間、データバス１２８を読出すこ
とによって、ファイルレジスタ１２０は値Ｓ（０）ない
しＳ（９）を入力する。

【００８３】ステップ３０６の間でまた、ＭＡＣ１３２
の出力は、データバス１３０を介してＡＬＵ１１０のマ
ルチプレクサ１０８に順次送られる。ステップ３０８お
よび３１０で、ＲＡＭ１５２は第１にデータバス１５４
を介してＲＡＭ１５２からマルチプレクサ１０６にφ
（０，０）を供給する。Ｓ（９）がＭＡＣ１３２の両方
の入力に送り込まれて３サイクル後に、ＭＡＣ１３２は
Ｓ（９）Ｓ（９）を出力する。次のクロックサイクル
で、ステップ３１４に従って、ＡＬＵ１１０のφ（０，
０）に、Ｓ（９）Ｓ（９）が加えられる。φ（０，０）
とＳ（９）Ｓ（９）との和は、同じサイクルにおいてＡ
ＬＵ１１０の出力で利用可能となる。ステップ３１６で
この和は、データバス１５４を介してマルチプレクサ１
０６にその後のアクセスのため渡される。ＡＬＵ１１０
の出力は、データバス１３０に接続されているが、この
プロセスの間、データバス１３０から切り離されてい
る。ステップ３１８で、ＭＡＣ１３２はＳ（１６９）Ｓ
（１６９）を生成し、ステップ３２０でこれはマルチプ
レクサ１０８に転送される。ＡＬＵ１１０の出力はデー
タバス１５４に直接送り込まれ、したがってステップ３
２２に従ってマルチプレクサ１０６に送り込まれる。５
番目のサイクルで、積Ｓ（１６９）Ｓ（１６９）が、ス
テップ３２０に従ってデータバス１３０を介してＭＡＣ
１３２の出力からマルチプレクサ１０８に入力され、か
つステップ３２４でＡＬＵ１１０はこの値を前の累積か
ら減じる。この演算はφ（０，０）＋Ｓ（９）Ｓ（９）
−Ｓ（１６９）Ｓ（１６９）を生み、φ（１，１）に等
しくなる。サイクル５の間、ＡＬＵ１１０の出力はデー
タバス１５４で利用可能となり、ステップ３２６でＲＡ
Ｍ１５２に書込まれ、次の式に従ってφ（２，２）を生
成するのに用いるため、マルチプレクサ１０６に同時に
与えられる。

【００８４】

【数８】

【００８５】ステップ３２８で、中心対角線が完了した
かどうかが定められる。完了していないので実行が再び
ステップ３０６で始まる。

【００８６】積Ｓ（８）Ｓ（８）、およびＳ（１６８）
Ｓ（１６８）がＭＡＣ１３２からの次の２つの出力であ
るので、ステップ３０６ないし３２８に関して説明した
プロセスは、φ（１０，１０）が生成されＲＡＭ１５２
で記憶されるまで、ＭＡＣ１３２のパイプラインで、中
断なく繰返される。データバス１２８、１３０、および
１５４はすべて、この動作で矛盾なく利用される。

【００８７】先に示したように、ステップ５４の完了に
おいてレジスタファイル１２０はその１０の位置で、値
Ｓ（１６０）ないしＳ（１６９）を含む。加えて、ステ
ップ５６の実行中、値Ｓ（０）ないしＳ（９）がレジス
タファイル１２０の残りの１０の位置に転送される。示
されるように、この転送においていかなるオーバヘッド
をも受けない。というのはφ（１，１）ないしφ（１
０，１０）の生成の間、値Ｓ（０）ないしＳ（９）が、
ＲＡＭ１１２からデータバス１２８にアクセスされるか
らである。さらに、ステップ５６の終わりにＲＡＭ１５
２は、ステップ５２からφ（０，０）を、ステップ５４
からφ（０，１）ないしφ（０，１０）を、ステップ５
６からφ（１，１）ないしφ（１０，１０）を含む。

【００８８】ステップ５６の間、値Ｓ（０）ないしＳ
（１０）がレジスタファイル１２０に転送されているの
で、レジスタファイル１２０はステップ５８の間にＭＡ
Ｃ１３２の一方の入力を供給する適切な値をもって構成
される。結果として、ステップ３５０で、マルチプレク
サ１０４はレジスタファイル１２０からデータをアクセ
スするよう構成されている。ステップ５６の間と同様、
ステップ５８の間、ＭＡＣ１３２の他方の入力は、ＲＡ
Ｍ１１２からデータバス１２８を通って直接供給され
る。こうしてＭＡＣ１３２のパイプラインは、一杯に保
たれている。

【００８９】φ（１，２）、および対角線の次の値を生
成するためには、レジスタファイル１２０に記憶された
値が用いられなくてはならない。レジスタファイル１２
０が、マルチプレクサ１０４を介してＭＡＣ１３２の一
方の入力に供給できるので、データバスの矛盾はまだな
い。ステップ５６のように、レジスタファイル１２０の
出力はデータバス１３０に接続されているが、しかし切
り離されている。

【００９０】値φ（１，２）ないしφ（９，１０）がそ
の間に生成されるステップ５８を実行するため、レジス
タファイル１２０のアドレスジェネレータ１１８は２つ
のポインタを備えて構成されており、それらはいずれも
減少されることが可能である。また、アドレスジェネレ
ータ１１４は２つのアドレスポインタを有し、これらが
値Ｓ（１６９）ないしＳ（１６１）、およびＳ（９）な
いしＳ（１）を、データバス１２８に交互のサイクルで
供給する。

【００９１】ステップ３５２で、レジスタファイル１２
０のアドレスジェネレータ１１８のポインタは、値Ｓ
（１６８）ないしＳ（１６０）、およびＳ（８）ないし
Ｓ（０）を交互のサイクルで供給するよう構成されてい
る。

【００９２】こうしてステップ３５４の間、ＲＡＭ１１
２はＭＡＣ１３２の一方の入力に、値Ｓ（９）、Ｓ（１
６９）、Ｓ（８）、Ｓ（１６８）、…、Ｓ（１）、Ｓ
（１６１）を、データバス１２８およびマルチプレクサ
１０２を用いて供給し、一方レジスタファイル１２０
は、ＭＡＣ１３２の他方の入力に値Ｓ（８）、Ｓ（１６
８）、Ｓ（７）、Ｓ（１６７）、…、Ｓ（０）、Ｓ（１
６０）をマルチプレクサ１０４を用いて供給する。ＭＡ
Ｃ１３２（まだ乗算のみをするよう構成されている）か
らの、結果として起こる出力は次のようになる。

【００９３】

【数９】

【００９４】ＡＬＵ１１０は、ステップ３５６ないし３
６０に従って、マルチプレクサ１０６を介してＲＡＭ１
５２から値φ（０，１）を与えられ、マルチプレクサ１
０８を介してＭＡＣ１３２の出力Ｓ（９）Ｓ（８）を与
えられる。ＡＬＵ１１０はこれらの値を加える。次にス
テップ３６６ないし３７０で、ＡＬＵ１１０はその最後
の計算の和、およびＭＡＣ１３２の次の出力、Ｓ（１６
９）Ｓ（１６８）を与えられ、ステップ３７２で後者を
前者から減じて、φ（１，２）を生む。ステップ３７４
でφ（１，２）がＲＡＭ１５２に記憶される。このプロ
セスは図１５ないし図１６で示されるステップに従って
繰返され、ステップ３７６で定められるように、共分散
行列の三角形の上部のすべてのエレメントが生成される
まで、レジスタファイル１２０およびＲＡＭ１１２のポ
インタは適切に変化される。このプロセスの間、ＭＡＣ
１３２のパイプラインは一杯に保たれ、すべての対角線
のエレメントφ（１，２）ないしφ（９，１０）が効率
的に生成され、データバス１５４を介してＡＬＵ１１０
の出力からＲＡＭ１５２に記憶される。

【００９５】ジェネレータ１００を用いてステップ５２
および５４を完了するためのマシンサイクルの数は約
１，７６３である。具体的には、φ（０，０）ないしφ
（０，１０）の生成は、１６０の乗算累積を１１回と、
パイプラインサイクルを３回必要とし、それは１，７６
３サイクルに等しい。アドレス生成、およびリセットオ
ーバヘッドのために付加的なサイクルが要求されるかも
しれない。

【００９６】ステップ５２および５４のペナルティは３
パイプラインサイクルである。というのはφ（０，０）
がＲＡＭ１５２で記憶するために利用可能となる３サイ
クル前に、φ（０，０）を生成する最終のアドレスがレ
ジスタファイル１２０、およびＲＡＭ１１２に与えられ
るからである。しかしながら、この３サイクルの遅延が
アドレス生成オーバヘッドを最小にするため使用され得
る。特に、３サイクルの遅延の間、レジスタファイル１
２０およびＲＡＭ１１２のポインタは、次の共分散エレ
メントの計算を始めるのに要求される値にリセットされ
てもよい。

【００９７】その間にエレメントφ（１，１）ないしφ
（１０，１０）が生成されるステップ５６は、約２０の
乗算演算を要求し、複数のパイプライン操作と並行し
て、ＡＬＵが加算／減算する。

【００９８】その間に共分散行列の残りが生成されるス
テップ５８は、約１１０の乗算、および３パイプライン
サイクルを要求する。したがって、ジェネレータ１００
での共分散行列の生成が要求するのは合計僅か１，８７
６サイクルに何らかのアドレスジェネレータのリセット
オーバヘッドをも加えたもののみである。

【００９９】ＭＡＣ１３２が、乗算を出力しながら乗算
を累積することができるように修正されるならば、共分
散行列を生成する上述の方法は約５５サイクルを節約で
きるよう修正され得る。具体的には、行０のエレメン
ト、φ（０，０）ないしφ（０，１０）を、それぞれの
対角線のエレメントから離れて生成するよりもむしろ、
ＭＡＣ１３２は、行０のエレメントを生成しながら対角
線のエレメントを生成するよう構成されてもよく、こう
して５５の冗長な計算を回避するのである。

【０１００】たとえば、φ（０，０）の計算中、Ｓ（１
０）Ｓ（１０）ないしＳ（１６９）Ｓ（１６９）の積
が、以下のように計算される。

【０１０１】

【数１０】

【０１０２】しかしながら、φ（０，０）の生成で用い
られる１０のファクタ、Ｓ（１６０）Ｓ（１６０）ない
しＳ（１６９）Ｓ（１６９）は、以下のように対角線の
エレメントφ（１，１）ないしφ（１０，１０）を生成
するために要求されるファクタでもある。

【０１０３】

【数１１】

【０１０４】値Ｓ（１６０）Ｓ（１６０）ないしＳ（１
６９）Ｓ（１６９）の各々を２回計算するよりむしろ、
共分散行列を生成する上述の方法を以下のように修正す
ることによって、これらの冗長な計算は回避され得る。

【０１０５】共分散エレメントφ（０，０）は、アドレ
スジェネレータ１１４が、ＲＡＭ１１２内の値Ｓ（０）
を有する位置０を最初に指すよう設定され、かつタイマ
が、１６０ではなく１７０の演算を与えるよう設定され
る以外は、上述のように生成される。初めの１０のクロ
ックサイクルの間、Ｓ（０）Ｓ（０）ないしＳ（９）Ｓ
（９）がＭＡＣ１３２によって生成されるが、累積はさ
れない。その代わりに、これらの１０のパラメータは、
ＭＡＣ１３２から直ちに出力され、データバス１５４を
介してＲＡＭ１５２に記憶される。データバス１５４
は、その他では、ステップ５２で用いられて、最後に生
成されたエレメントをＲＡＭ４８に記憶するのみなの
で、バスの矛盾が起こらない。

【０１０６】Ｓ（０）Ｓ（０）ないしＳ（９）Ｓ（９）
が記憶された後、φ（０，０）が先に述べたように生成
される。しかしながら、φ（０，０）の生成の最後の１
０の要素、Ｓ（１６０）Ｓ（１６０）ないしＳ（１６
９）Ｓ（１６９）が、ＭＡＣ１３２から利用可能である
とき、これらもまたデータバス１５４を介してＲＡＭ１
５２に記憶される。一旦φ（０，０）が生成され、記憶
されると、ＲＡＭ４８はφ（０，０）、Ｓ（０）Ｓ
（０）ないしＳ（９）Ｓ（９）、およびＳ（１６０）Ｓ
（１６０）ないしＳ（１６９）Ｓ（１６９）を含む。し
たがって、ＲＡＭ４８は、対角線の要素φ（１，１）な
いしφ（１０，１０）を生成するのに必要なデータをす
べて含む。

【０１０７】行列の行０の次のエレメント、φ（０，
１）の生成の間、ＡＬＵ１１０は、新たな行０のエレメ
ントの生成が完了したときを除いて、乗算の最初の群を
記憶する間、および乗算の最後の群を記憶する間のいか
なるときでも、バスの矛盾なしにデータバス１５４を介
してＲＡＭ１５２に記憶されたデータにアクセスするこ
とができるだろう。

【０１０８】具体的には、φ（０，１）を生成する間、
ＭＡＣ１３２は操作の最初の９サイクルの間はデータバ
ス１５４を用いて、値Ｓ（１）Ｓ（０）ないしＳ（９）
Ｓ（８）をＲＡＭ１５２で記憶し、次の１５０サイクル
の間はデータバス１５４を用いないで、Ｓ（１０）Ｓ
（９）ないしＳ（１６０）Ｓ（１５９）を集積し、再び
データバス１５４を用いてφ（０，１）の最後の９のフ
ァクタＳ（１６１）Ｓ（１６０）ないしＳ（１６９）Ｓ
（１６８）をＲＡＭ１５２に記憶する。データバス１５
４およびＲＡＭ１５２が、ＭＡＣ１３２によって使用さ
れない１５０のサイクルの中休みの間は、ＡＬＵ１１０
はデータバス１５４およびＲＡＭ１５２を利用して、共
分散行列の第１の対角線の残りのエレメントであるφ
（１，１）ないしφ（１０，１０）を生成する。このよ
うに、ＭＡＣ１３２がφ（０，１）を生成する間、ＡＬ
Ｕ１１０はデータバス１５４およびＲＡＭ１５２を用い
て、φ（１，１）ないしφ（１０，１０）を計算し、そ
の結果をＲＡＭ１５２に記憶する。

【０１０９】対角線の要素の各々の生成は４のサイクル
を要求するため、φ（１，１）ないしφ（１０，１０）
の生成は、１０×４＝４０サイクルを必要とする。した
がって、これらの生成は、ＭＡＣ１３２がφ（０，１）
の生成のためにデータバス１５４またはＲＡＭ１５２の
使用を要求しない１５０のサイクルの中休みの間、容易
に完了され得る。Ｓ（１６０）Ｓ（１６０）ないしＳ
（１６９）Ｓ（１６９）が、φ（０，０）の生成の間記
憶されるので、φ（１，１）ないしφ（１０，１０）の
生成のためのこれらの値の冗長な計算は回避され、１０
の乗算が節約できる。

【０１１０】共分散行列のすべてのエレメントが生成さ
れるまでこのプロセスは繰返される。たとえば、φ
（０，１）がＭＡＣ１３２で生成されている間、対角線
のエレメントφ（１，１）ないしφ（１０，１０）が、
ＡＬＵ１１０によって生成され、ＲＡＭ１５２に記憶さ
れ、値Ｓ（１）Ｓ（０）ないしＳ（９）Ｓ（８）、およ
びＳ（１６１）Ｓ（１６０）ないしＳ（１６９）Ｓ（１
６８）もまた、ＲＡＭ１５２に記憶される。φ（０，
３）がＭＡＣ１３２で生成されている間、これらの値は
次にＡＬＵ１１０によって用いられて、次の対角線のエ
レメント、φ（１，２）ないしφ（９，１０）を生成す
る。

【０１１１】こうしてＭＡＣ１３２と、ＡＬＵ１１０と
は、並行して動作し、ジェネレータ１００の資源を効率
的に活用する。上述したのと同じアドレスの機構を用い
るため、これらの修正は簡単に実現される。全体的に、
上述の修正は第１のパスで１０のサイクルの節約を、第
２のパスで９のサイクルの節約を、第３のパスで８のサ
イクルの節約を生むといった具合に、全体で５５のサイ
クルの節約を生む。

【０１１２】こうして、このアーキテクチュアのパイプ
ラインの能力が十分に活用され、多数の機能装置の存在
を活用する並行処理が起こる。具体的には、レジスタフ
ァイル１２０と、ＡＬＵ１１０と、ＭＡＣ１３２と、Ｒ
ＡＭ１１２および１５２とは、すべて並行して動作し、
ＶＳＥＬＰのための共分散行列計算の実現において、高
い性能を提供する。

【０１１３】この発明の特定の実施例を説明し、示した
が、前掲の特許請求の範囲に規定されたこの発明の真の
精神および範囲から逸脱することなく、特定して示し、
説明した実施例の詳細についての変更が可能であること
は明らかになるであろう。たとえば、上述のこの発明の
例示的な実施例は、１７０のサンプル値に基づく１１×
１１の行列に関して説明されている。しかしながら、こ
こで開示されたジェネレータのアーキテクチュア、およ
び生成方法は、容易に修正可能であり、いかなる数の入
力サンプルに基づくいかなる寸法の共分散行列をも生成
する。

【図面の簡単な説明】

【図１】共分散行列に関する図であり、（Ａ）は、各１
対のペアになった数字Ｘ，Ｙが、共分散行列の行Ｘ、列
Ｙにおいてのエレメントの値を表わす、１１×１１共分
散行列の図であり、（Ｂ）は、対称性の結果として、メ
モリ内で１１×１１共分散行列がいかに記憶され得るか
を示す図である。

【図２】図１の（Ｂ）に示される共分散行列の、対称な
部分行列の図である。

【図３】２つの個別のメモリ内でサンプル値を記憶す
る、共分散行列ジェネレータのブロック図である。

【図４】１つのメモリ上にレジスタパイプラインを有す
る、共分散行列ジェネレータのブロック図である。

【図５】この発明の一局面による、共分散行列ジェネレ
ータのブロック図である。

【図６】この発明の一局面による、共分散行列ジェネレ
ータの動作のフローチャートの図である。

【図７】クロックサイクルに関しての、データ転送シー
ケンスの図である。

【図８】共分散行列の第１の行の、第１のエレメントを
生成するプロセスのフローチャートの図である。

【図９】共分散行列の第１の行の残りのエレメントを生
成するプロセスのフローチャートの図である。

【図１０】共分散行列の第１の行の残りのエレメントを
生成するプロセスのフローチャートの図である。

【図１１】共分散行列の第１の行の残りのエレメントを
生成するプロセスのフローチャートの図である。

【図１２】この発明のもう１つの局面による、拡張され
た共分散行列ジェネレータのブロック図である。

【図１３】共分散行列の中心対角線を生成するプロセス
のフローチャートの図である。

【図１４】共分散行列の中心対角線を生成するプロセス
のフローチャートの図である。

【図１５】共分散行列の残りのエレメントを生成するプ
ロセスのフローチャートの図である。

【図１６】共分散行列の残りのエレメントを生成するプ
ロセスのフローチャートの図である。

【符号の説明】

１２ランダムアクセスメモリ１４アドレスジェネレータ１６アドレスジェネレータ１８アドレスジェネレータ２０レジスタファイル３２乗算アキュムレータ４８ランダムアクセスメモリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者マイケル・エイ・ニックスアメリカ合衆国、78737 テキサス州、オースティン、エスパノーラ・トレイル、 7903

Claims

【特許請求の範囲】

【請求項１】共分散行列の第１の行を生成する装置で
あって、複数個のサンプルを表す値のアレイを有するメモリと、そのメモリに結合される環状のバッファとを含み、その
環状のバッファは、予め定められた数のメモリ位置を与
えるように構成され、さらに、前記メモリおよび前記環状のバッファに結合される乗算
アキュムレータと、前記共分散行列の第１の行の第１のエレメントを生成す
るために、前記メモリから前記乗算アキュムレータへ、
アレイの値の順次部分集合を転送する手段と、前記乗算アキュムレータへ、前記メモリからのアレイの
値の、第１の一連の順次部分集合と、前記環状のバッフ
ァからのアレイの値の、第２の一連の順次部分集合とを
同時に転送し、前記共分散行列の第１の行の残りのエレ
メントを生成する手段とを含む装置。
【請求項２】前記環状のバッファが、二重ポートレジ
スタファイルを含み、そのレジスタファイルは読出アド
レスジェネレータおよび書込アドレスジェネレータを含
み、それらのアドレスジェネレータはラップアラウンド
するように構成されている、請求項１に記載の装置。
【請求項３】共分散行列の上部または下部の三角形部
分を生成する装置であって、第１のおよび第２のメモリを含み、第１のメモリは複数
個のサンプルを表す値のアレイを含み、さらに、前記第１のメモリに結合される環状のバッファを含み、
そのバッファは、初めは、第１の予め定められた数のメ
モリ位置を与えるように構成され、さらに、前記第１のおよび第２のメモリ、ならびに前記環状のバ
ッファに結合される乗算アキュムレータと、前記第２のメモリおよび前記乗算アキュムレータに結合
される演算論理装置と、前記第１のメモリから前記乗算アキュムレータへ、前記
アレイの値の順次部分集合を転送し、前記共分散行列の
第１の行の第１のエレメントを生成する手段と、前記第２のメモリ内に、前記共分散行列の第１の行の第
１のエレメントを記憶する手段と、前記乗算アキュムレータへ、前記第１のメモリからの、
前記アレイの値の第１の一連の順次部分集合、および前
記環状のバッファからの前記アレイの値の第２の一連の
順次部分集合を、同時に転送し、前記乗算アキュムレー
タの出力において、前記共分散行列の第１の行の残りの
エレメントを生成する手段と、前記第２のメモリ内に、前記共分散行列の第１の行の残
りのエレメントを記憶する手段と、前記演算論理装置内で、前記共分散行列の上部または下
部の三角形部分の残りのエレメントを生成する手段と、前記第２のメモリ内で、前記共分散行列の上部または下
部の三角形部分の残りのエレメントを記憶する手段とを
含む装置。
【請求項４】前記環状のバッファが、読出アドレスジ
ェネレータおよび書込アドレスジェネレータを有する、
二重ポートレジスタファイルを含み、それらのアドレス
ジェネレータはラップアラウンドするように構成され
る、請求項３に記載の装置。
【請求項５】前記演算論理装置内で生成する手段が、
前記第１のメモリおよび前記環状のバッファファイルか
ら、前記乗算アキュムレータへ、データを選択的に適用
する手段と、前記第２のメモリおよび前記乗算アキュム
レータから、前記演算論理装置へ、データを選択的に適
用する手段とを含む、請求項３に記載の装置。
【請求項６】共分散行列の上部または下部の三角形部
分の残りのエレメントが、前記共分散行列の第１の行が
生成される間に、前記演算論理装置内で生成され、演算
論理装置内で生成する手段が、前記第２のメモリからそ
の演算論理装置へ、データを選択的に適用する手段を含
む、請求項３に記載の装置。
【請求項７】共分散行列を生成する方法であって、複数個のサンプルを表す値のアレイを有するメモリを設
けるステップと、乗算アキュムレータを設けるステップと、予め定められた深さで環状のバッファを設けるステップ
と、乗算アキュムレータ内でその共分散行列の第１の行の第
１のエレメントを生成するステップと、第２のメモリ内でその第１のエレメントを記憶するステ
ップと、前記共分散行列の第１の行の残りのエレメントを生成す
るステップと、前記第２のメモリ内に、第１の行の残りのエレメントを
記憶するステップと、演算論理装置内で、前記共分散行列の上部または下部の
三角形部分の残りのエレメントを、対角線ごとに生成す
るステップと、前記第２のメモリ内に、前記共分散行列の上部または下
部の三角形部分の残りのエレメントを記憶するステップ
とを含む方法。
【請求項８】前記第１のエレメントを生成するステッ
プは、前記第１のメモリから前記乗算アキュムレータ
へ、前記アレイの値の順次部分集合を転送するそのステ
ップを含む、請求項７に記載の方法。
【請求項９】前記第１の行の残りのエレメントを生成
するステップは、前記第１のメモリから前記乗算アキュ
ムレータへ、前記アレイの値の、第１の一連の順次部分
集合を転送する一方で、前記環状のバッファから前記乗
算アキュムレータへ、前記アレイの値の、第２の一連の
順次部分集合を同時に転送するステップを含む、請求項
７に記載の方法。
【請求項１０】前記共分散行列の上部または下部の三
角形部分の残りのエレメントを対角線ごとに生成するス
テップが、前記共分散行列の第１の行の残りのエレメン
トを生成するステップと同時に行なわれる、請求項７に
記載の方法。
【請求項１１】共分散行列の第１の行のエレメントを
生成する方法であって、複数個のサンプルを表す値のアレイを有する、第１のメ
モリを設けるステップと、乗算アキュムレータを設けるステップと、予め定められた深さの環状のバッファを設けるステップ
と、前記第１のメモリから前記乗算アキュムレータへ、前記
アレイの値の順次部分集合を連続的に入力することによ
り、前記乗算アキュムレータ内で、前記共分散行列の第
１の行の第１のエレメントを生成するステップと、第２のメモリ内に前記第１のエレメントを記憶するステ
ップと、前記第１のメモリから、前記乗算アキュムレータへ、前
記アレイの値の、第１の一連の順次部分集合を連続的に
入力する一方で前記環状のバッファから前記乗算アキュ
ムレータへ、前記アレイの値の、第２の一連の順次部分
集合を同時に入力することにより、前記共分散行列の第
１の行の残りのエレメントを生成するステップと、前記第２のメモリ内に、前記第１の行の残りのエレメン
トを記憶するステップとを含む方法。
【請求項１２】共分散行列の上部または下部の三角形
部分の第１の行を生成する方法であって、複数個のサンプルを表す値のアレイを有するメモリを設
けるステップと、乗算アキュムレータを設けるステップと、予め定められた深さの環状のバッファを設けるステップ
と、前記メモリからの一連の値を前記乗算アキュムレータお
よび前記環状のバッファへ同時に適用することにより、
前記第１の行の第１のエレメントを生成するステップ
と、前記乗算アキュムレータおよび前記環状のバッファへ、
前記メモリからの第１の一連の値を適用するステップ、
ならびに、前記乗算アキュムレータへ前記環状のバッフ
ァからの第２の一連の値を適用するステップを同時に実
行することにより、前記第１の行の残りのエレメントの
各々を生成するステップとを含む方法。
【請求項１３】共分散行列の三角形部分を生成する方
法であって、その三角形部分は、第１の行のエレメント
およびエレメントの複数個の対角線アレイを規定し、前
記方法は、第１のメモリおよび第２のメモリを設けるステップを含
み、その第１のメモリはサンプルを表す複数個の値を含
み、さらに乗算アキュムレータを設けるステップと、予め定められた深さの環状のバッファを設けるステップ
と、前記乗算アキュムレータおよび前記環状のバッファへ、
前記第１のメモリからの一連の値を同時に適用すること
により、前記第１の行の第１のエレメントを生成するス
テップと、前記第２のメモリ内に、前記第１の行の第１のエレメン
トを記憶するステップと、前記乗算アキュムレータへ、前記第１のメモリからの第
１の一連の値および前記環状のバッファからの第２の一
連の値を同時に適用することにより、前記第１の行の残
りのエレメントの各々を生成するステップと、前記第２のメモリ内に、前記第１の行の残りのエレメン
トの各々を記憶するステップと、演算論理装置を設けるステップと、その演算論理装置内で、対角線アレイの各々の残りのエ
レメントを、対角線ごとに生成するステップと、前記第２のメモリ内で、前記対角線アレイの各々の残り
のエレメントを記憶するステップとを含む方法。
【請求項１４】２つの入力レジスタおよび１つの出力
レジスタを有する乗算アキュムレータと、第１および第２のマルチプレクサとを含み、前記第１の
マルチプレクサは、前記乗算アキュムレータの、一方の
入力レジスタに結合され、前記第２のマルチプレクサ
は、前記乗算アキュムレータの、他方の入力レジスタに
結合され、さらに、読出アドレスジェネレータおよび書込アドレスジェネレ
ータを有する、二重ポートレジスタファイルを含み、前
記レジスタファイルの出力は、前記第２のマルチプレク
サに結合され、さらに、前記レジスタファイルの入力に結合される第３のマルチ
プレクサと、２つの入力レジスタおよび１つの出力レジスタを有する
演算論理装置と、第４および第５のマルチプレクサとを含み、前記第４の
マルチプレクサは前記演算論理装置の、一方の入力レジ
スタに結合され、前記第５のマルチプレクサは前記演算
論理装置の、他方の入力レジスタに結合され、さらに、前記第１、第２、第３、第４、および第５のマルチプレ
クサに結合される第１のデータバスを含み、前記第１の
データバスはさらに前記乗算アキュムレータの出力レジ
スタ、前記ＡＬＵ（演算論理装置）の出力レジスタ、お
よび前記ファイルレジスタの出力に結合され、さらに、前記第１、第２、および第４のマルチプレクサに結合さ
れる第２のデータバスを含み、前記第２のデータバスは
さらに前記乗算アキュムレータの出力レジスタ、前記演
算論理装置の出力レジスタ、および前記レジスタファイ
ルの出力に結合され、さらに、前記第３のマルチプレクサおよび前記第５のマルチプレ
クサに結合される第３のデータバスを含み、前記第３の
データバスはさらに前記乗算アキュムレータの出力レジ
スタ、前記演算論理装置の出力レジスタ、および前記レ
ジスタファイルの出力に結合され、さらに、アドレスレジスタを有する第１のメモリを含み、前記第
１のメモリは前記第１のデータバスに結合され、さら
に、アドレスレジスタを有する第２のメモリを含み、前記第
２のメモリは前記第２のデータバスに結合される、共分
散行列ジェネレータ。