JPH07271764A

JPH07271764A - 計算機プロセッサ及びシステム

Info

Publication number: JPH07271764A
Application number: JP6316800A
Authority: JP
Inventors: Ramesh Chandra Argarwal; ラメシュ・チャンドラ・アーガーワル; Randall Dean Groves; ランダル・ディーン・グローブス; Fred Gehrung Gustavson; フレッド・ゲールング・ガスタブソン; Mark Alan Johnson; マーク・アラン・ジョンソン; Brett Olsson; ブレット・オルッソン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-03-24
Filing date: 1994-12-20
Publication date: 1995-10-20
Also published as: US5825677A; EP0675450A2; EP0675450A3

Abstract

(57)【要約】【目的】本発明は改良された計算機システムを提供す
る。【構成】高速度数値計算を可能にするマトリクス処理装
置が開示される。その処理装置は複数個の処理エレメン
トから形成されたベクトル処理装置である。Ｉ番目の処
理装置はＮ個のレジスタのセットを有し、それらレジス
タには、Ｎ個のデータ・ベクトルのうちのＩ番目のエレ
メント又はワードが記憶される。各処理エレメントは、
Ｎ個のレジスタのセットにおけるＮ個のエレメントに関
する演算オペレーションを遂行できる演算装置を有す
る。各データ・ベクトルはＫ個のエレメントを有する。
従って、Ｋ個の処理エレメントが存在する。マトリクス
処理装置のベクトル・オペレーションは２つ以上のベク
トルすべてに関して同じオペレーションを同時に遂行す
る。先行のベクトル・オペレーションの後の１機械サイ
クル内で後続のベクトル・オペレーションが遂行可能で
ある。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、概して云えば、データ
処理システムの分野に関するものであり、詳しく云え
ば、本発明は、複数個のプロセッサにおいて数値集中計
算(numericallyintensive computing) するためのデー
タ処理システムに関するものである。更に詳しく云え
ば、本発明は、Ｎ個のプロセッサがＮ個のエレメント・
ベクトル上で縮小命令セットの命令を同時に実行する多
重プロセッサ・システムに関するものである。

【０００２】

【従来の技術】コンピュータにおける計算力は成長して
きたし、急速に成長し続けている。この増大した計算力
は、新たな方法でコンピュータを使用するための新たな
機会をその計算力のユーザに与えており、従って、コン
ピュータ・パワーを増大させるための更なる要求を生み
出しいる。増大した計算力が特に有用である１つの領域
は、数値集中計算の領域である。数値集中計算は、大量
のデータに関する限られたオペレーション・セットの計
算に関連している。数値集中計算の技法は、イメージ処
理、信号処理、人工知能、或いは気象力学又は流体力学
のコンピュータ・シミュレーションのような幅広い分野
の適用業務において使用される。これらの適用業務にお
ける数値集中計算の技法が直面する共通の問題は、各適
用業務と関連した大量のデータに関して必要な有限の数
の関数を、可能な限りの最小の時間で計算することであ
る。

【０００３】初期の従来技術のコンピュータ・システム
は、中央処理装置（ＣＰＵ），メモリ、及び入出力（Ｉ
／Ｏ）コントローラより成るものであった。ＣＰＵは、
データ又は命令をメモリに転送するように或いはそれら
をメモリから取り出すようにＩ／Ｏコントローラに命令
するプログラム、及び種々の命令セットに従ってデータ
を処理するプログラムを実行してした。データを処理す
ることは、ＣＰＵが遂行すべき特殊な命令をデコードす
るようなオペレーション、その特殊な命令を実行するよ
うなオペレーション、及びその結果をメモリに戻すよう
なオペレーションを含んでいた。ＣＰＵは、それがプロ
グラムにおける命令のリストからの命令を一時に１つず
つ処理するという点では複雑ではなかった。しかし、こ
のタイプのＣＰＵは、それが一時に１つの命令しか処理
しなかったので遅かった。その遅い処理時間に応答し
て、従来技術のシステムは、プロセッサをパイプライン
化することを導入した。

【０００４】パイプライン化したプロセッサでは、異な
る命令に対して、ＣＰＵの種々の独立した機能が一時に
生じる。例えば、１つの命令に対するデータを取り出す
ためのメモリに対するプロセッサの命令は、プロセッサ
が他の命令のオペレーション・コードをデコードしてい
る時に生じようとしているかもしれない。パイプライン
化することは、何れの個々の命令の実行もスピード・ア
ップするものではないが、それは、前の命令が処理を完
了してしまう前に後続の命令がＣＰＵにおける処理を開
始するため、一連の命令の処理をスピード・アップして
いる。パイプライン化に加えて、従来技術は、限定され
た命令セットが数値的問題に対して反復的に使用される
ことも認識してした。その結果、従来技術は、それら限
定された命令セットを素早く実行するために、ＣＰＵ内
に特殊プロセッサの機能的ブロックを導入した。例え
ば、いくつかのＣＰＵは、加算、乗算、又はブランチだ
けを遂行するための機能的ブロックを含んでいた。これ
ら機能的ブロックは、メインＣＰＵよりもずっと速くこ
れらの限定された機能を実行したし、これは数値的関数
を処理する速度も増加させた。

【０００５】パイプライン化又は限定された命令のため
の別個の機能ユニット、或いはそれらの両方を組み込ん
だ従来技術のプロセッサでは、単一の命令ストリームが
単一のデータ・ストリーム上で動作していた。即ち、各
命令は、定義されたデータに関して一時に１つの計算を
行うように動作してした。そのようなプロセッサは、単
一命令・単一データ処理の略称であるＳＩＳＤと呼ばれ
る。ＳＩＳＤタイプのプロセッサの問題は、プログラム
のセグメントが多数の多様なエレメントに適用されるこ
とをそのプログラムが必要とする場合、そのプログラム
は、順次に何回もそのセグメントを循環しなければなら
ないことである。これは、多くのタイプの数値的問題に
対する状況であった。そして、このようなタイプの問題
に関するプロセッサ速度の増加を援助するために、ＳＩ
ＭＤ（単一命令・多重データ処理）タイプのプロセッサ
が開発された。

【０００６】ＳＩＭＤプロセッサ・ユニットは、同じ機
能的能力を持った複数個の処理エレメントより成り、そ
してそれら処理エレメントは、それぞれ、各処理エレメ
ントが別個のデータ・ストリームに関して動作する時、
一時に１つの命令基づいて動作する。代表的なＳＩＭＤ
プロセッサ・ユニットは、３つの主要な素子、即ち、処
理エレメントのアレイ、経路指定ネットワーク、及びコ
ントローラを含む。対照的に、本発明によるプロセッサ
は経路指定ネットワークを使用せず、その結果、低コス
トのプロセッサが得られ、メイン・メモリ及び処理エレ
メントに及びそれらからデータを移動させるための時間
の減少が得られる。経路指定ネットワークは、任意の１
つの処理エレメントからの結果を、それを必要とするそ
のアレイ内の他の任意の処理エレメントにコミュニケー
トする。コントローラは、そのＳＩＭＤプロセッサ・ユ
ニットが一部分となるメインＣＰＵからの命令及びデー
タに応答して、その処理エレメントのアレイ及び経路指
定ネットワークのオペレーションを制御する。

【０００７】マルチプロセッサＳＩＭＤタイプのシステ
ムによる問題は、コンピュータ・メモリ・システムから
データを十分に速い速度で得るためのマルチプロセッサ
・アレイの能力と多数のプロセッサの使用を最適化する
ためのメインＣＰＵの能力とによって、システム・パフ
ォーマンスが制限されるということである。とりわけ、
メイン・メモリからのデータをアレイにおける各プロセ
ッサに供給するメモリ・システムを構築することは、非
常に高いメモリ帯域幅（ＢＷ）を必要とし、従って、余
りにも高価であり、或いは殆どのアプリケーションにと
って非実用的である。更に、個々の各プロセッサがその
アレイにおける他のプロセッサと直接にコミュニケート
する経路指定ネットワークは、そのプロセッサのアレイ
の全体的なパフォーマンスを下げる。その従来技術は、
限られた成功でもってこれらの問題を解決しようとし
た。更に詳しく言えば、その従来技術は、プロセッサ・
アレイにおけるそれら複数個のプロセッサをマトリクス
状に接続し、それらプロセッサがそれらのいくつかの最
も近接したプロセッサとだけコミュニケートするように
した。

【０００８】この配列は、最も近接したプロセッサがコ
ミュニケートする能力を増大させ、従って、命令がそれ
ら最も近接したプロセッサ相互間だけのコミュニケーシ
ョンを必要とする時にはそれらプロセッサの全体的なパ
フォーマンスを増大させる。しかし、殆どの命令は無作
為なプロセッサ相互間のコミュニケーションを必要とす
るものであり、最も近接したプロセッサを介した無作為
なプロセッサへの経路指定コミュニケーションは、その
プロセッサ・アレイの全体的なパフォーマンスを減少さ
せる。その結果、プロセッサの近接プロセッサ接続は、
実行される命令の数及びタイプによっては、実際に、マ
ルチプロセッサ・アレイのパフォーマンスを減少させ
る。各プロセッサが多数の他のプロセッサに直接に接続
しているハイパーキューブ・タイプの配列に複数のプロ
セッサが接続させる時、それらプロセッサ相互間のコミ
ュニケーションの速度は増加する。このタイプの配列に
よって、直接に相互接続されてないプロセッサ相互間の
コミュニケーションを必要とすることが少なくなり、そ
のプロセッサ・アレイのパフォーマンスが増加するであ
ろう。しかし、プロセッサ・アレイ・パフォーマンスの
増加は、依然として、そのプロセッサ・アレイと関連し
たメモリ帯域幅によって制限される。プロセッサ・アレ
イは、データを個々のプロセッサに配送し得る速さで命
令を実行することはできる。ハイパーキューブ配列は、
そのようなメモリ・システムをそのハイパーキューブ配
列と結合して実施することが多くのコンピュータ・シス
テムにおいて非実用的であるような高いメモリ帯域幅を
必要とする。

【０００９】最近の高パフォーマンスのコンピュータに
とって、パフォーマンスは主としてその機械のサイクル
・タイムによって制限される。全体的なパフォーマンス
を増加させるために、しばしば、並列化が使用される。
多数のプロセッサと共に共用メモリの並列システムを構
築することが非常に困難であることはわかっている。最
近、いくつもの分散型メモリ並列システムが構築されて
いる。ＩｎｔｅｌＰａｒａｇｏｎ、ＣｒａｙＴ３−
Ｄ、ＩＢＭＳＰ１はこのクラスの機械の例である。一
般には、多数のプロセッサでもって分散型メモリ・シス
テムを最適に利用すること及びそれのソフトウエアを書
くことは更に困難である。これらの機械は、しばしば、
通信障害によって遅滞させられる。又、殆どのシステム
・コンポーネントの複製及び通信ネットワークの付加的
コスト及びオーバヘッドのために、これらの高度な並列
機械の価格性能比は、基礎的なユニプロセッサに対する
価格性能比ほど有利なものではないことが多い。

【００１０】本発明によるコンピュータ・システムにお
ける２つの主要な考察点は、命令の実行の制御とメモリ
管理である。制御の考察点及びオペレーティング・シス
テムの観点から云えば、それは、単一の命令ストリーム
しか実行されない場合、又はメモリの１つのイメージし
か維持されない場合、大変望ましい。換言すれば、オペ
レーティング・システムの観点から云えば、その機械が
単一のＣＰＵの機械のようにみえることが望ましい。本
発明は、「単一の命令ストリーム及びメモリ・マップ」
モデルの傘の下で同時に動作しながら、或クラスのＮＩ
Ｃ（数値集中計算）問題に関して非常に高いパフォーマ
ンスを得るシステム構成を定義するためのものである。

【００１１】最近の高パフォーマンス・コンピュータに
とって、パフォーマンスは、メモリ・システムから得ら
れる帯域幅によっても制限される。更に、本発明は、或
クラスの数値集中計算の問題に対するメモリ帯域幅の要
件を少なくするために、上記のシステム構造で働くアル
ゴリズム構造を提供する。

【００１２】問題の数値的強度を数値化する１つの簡単
な測定法は、浮動小数点演算（フロップス）の合計数を
カウントすること、及びその計算に関連したデータ・ポ
イントの合計数（又は、必要なメモリ・スペースの量）
によってそれを除することである。この比率を「浮動小
数点演算対データ比」と呼ぶことにする。要するに、こ
の比をＦＤＲと表すことにする。ＦＤＲはその問題に対
して全体として計算可能であり、その問題によって包含
される副次問題に対しても計算可能である。一般的に
は、副次問題に対するＦＤＲは、その問題全体に対する
ＦＤＲよりもかなり小さい。初歩的なスカラ演算レベル
では、ＦＤＲは１よりも小さいであろう。殆どのＮＩＣ
問題に対して、当初の問題を適当にブロック化（アルゴ
リズム的に）して、種々なレベルのメモリ階層に適合し
た副次問題にすることによって、ＦＤＲはかなり改良可
能である。

【００１３】一般的には、より大きなメモリ・スペース
が所与のレベルにおいて利用可能にされる場合、より高
い値のＦＤＲが達成可能である。階層メモリ・システム
では、所与のレベルのメモリにおけるメモリ帯域幅（Ｂ
Ｗ）の要件は、そのステージにおけるＦＤＲ比に逆比例
する。最高のレベル（最大のメモリ・サイズ）では、帯
域幅要件は最も小さく、そしてより低い（及びより小さ
い）メモリのレベルに進むにつれて、帯域幅要件は次第
に増大する。その正確な数は、その問題、使用されるア
ルゴリズム、及び利用可能な計算資源の量に依存するで
あろう。一般的には、計算資源が高くなるほど、帯域幅
要件も高くなると言える。以下では、メモリの帯域幅要
件を大きく増大させることなく、大量の計算資源が最適
に利用可能であるというアルゴリズム的な制限のない例
を示す。一般には、アルゴリズムは種々なレベルのメモ
リ及びそれらの関連した帯域幅を最適に利用するように
適合可能である。

【００１４】

【発明が解決しようとする課題】本発明の目的は、改良
された計算機システムを提供することにある。

【００１５】本発明のもう１つの目的は、数値集中計算
の問題に対する改良された計算機システムを提供するこ
とにある。

【００１６】本発明の更にもう１つの問題は、多数のプ
ロセッサを持った改良された計算機システムを提供する
ことにある。

【００１７】本発明の更にもう１つの目的は、制限され
た数の命令をより速く実行するための改良された計算機
システムを提供することにある。

【００１８】本発明の更にもう１つの目的は、計算機シ
ステムのメモリ帯域幅を大きく増大させることなく、制
限された数の命令をより速く実行するための改良された
計算機システムを提供することにある。

【００１９】本発明の更にもう１つの目的は、制限され
た数の命令をより速く実行するための改良された廉価の
計算機システムを提供することにある。

【００２０】

【課題を解決するための手段】本発明の幅広く見た場合
の視点は、計算機システムのスループットを大幅に増大
させるためにデータ・ワード対のグループに関するオペ
レーションを同時に遂行する並列プロセッサを持った計
算機システムである。

【００２１】本発明の幅広く見た場合のもう１つの視点
は、先行のベクトル・オペレーションの１サイクル・タ
イム内で後続のベクトル・オペレーションを遂行する計
算機システムである。

【００２２】本発明の更に特殊な視点は、プロセッサ・
サイクル・タイムを持った計算機プロセッサである。計
算機プロセッサは、Ｋ個の処理エレメント（但し、Ｋ＞
１）を有する。それらＫ個のエレメントの各々は、Ｎ個
のレジスタのセット（但し、Ｎ＞１）及び演算装置を有
する。それらレジスタの各々のＩ番目のエレメントは、
ベクトル長ＫのＩ番目のベクトル・レジスタに対する記
憶ロケーションを与える。その計算機プロセッサは、Ｎ
個のベクトルのうちの少なくとも１つにおける又はそれ
らの間のベクトル演算オペレーションを所定のサイクル
・タイムで遂行するための手段及びＮ個のベクトルのう
ちの１つにおけるオペレーションの結果を記憶するため
の手段を有する。この場合、ベクトル演算オペレーショ
ンは、Ｎ個のベクトルのうちの少なくとも１つについ
て、Ｋ個のエレメントすべてに対するＫ個の演算装置に
よって実質的に同時に遂行される。その計算機プロセッ
サは、所定のサイクル・タイム後の次のサイクルタイム
においてもう１つのベクトル・オペレーションを遂行す
るための手段を有する。

【００２３】

【実施例】メモリ帯域幅（ＢＷ）の問題を処理した後、
次の問題は、その機械の所与のサイクル・タイムに対し
て大量の計算を行い得るような計算機そのものの編成で
ある。パフォーマンスの１つの測定法は、１サイクル当
たりの浮動小数点演算（ＦＰＣ）である。ＩＢＭＳ／
３９０のような伝統的なスカラ・アーキテクチャに対し
ては、１つの浮動小数点演算を発生するためにいくつか
のサイクルが必要とされる。先ず、オペランドをレジス
タ（又は、浮動小数点装置）にフェッチする必要があ
り、これにパイプライン化した演算が続き、しかる後、
その結果がメイン・メモリに戻されて記憶される。その
ようなシステムに対するＦＰＣは、典型的には、わずか
な端数である。ＩＢＭＲＳ／６０００のような機械は
多数の機能的ユニットを有し、その各々は調整された態
様で１つの指定された機能を行い、その結果、理想的な
環境下では１サイクル当たり２又はそれ以上の浮動小数
点演算を生じる。ベクトル機械も、長いベクトルにおけ
るパイプライン待ち時間を隠蔽することによって同様の
結果を得る。

【００２４】伝統的なベクトル・アーキテクチャでは、
同じオペレーションが、独立したオペランドのセットに
関して遂行される。独立したオペランドの数はベクトル
長と呼ばれる。現在のベクトル機械では、これらオペラ
ンドは、パイプライン化した演算装置によって逐次に処
理される。或機械では、スループット（ＦＰＣ）を増加
させるために、演算パイプと呼ばれる多数の演算装置が
設けられる。一般的には、多くのパイプが加えられる
と、メモリ帯域幅もそれに従って増加する。

【００２５】本発明は、オペランドの各セット（そのベ
クトルの各エレメント）が独立した演算装置によって処
理されるシステム構造である。その場合、利用可能な演
算装置の数はベクトル長に等しい。Ｓ／３９０の用語で
は、それはベクトル・セクション・サイズ（ＶＳＳ又は
Ｋ）と呼ばれる。ベクトル実行のために必要なサイクル
の数はパイプライン長に等しくなるであろう。１つのパ
イプでは、加算のようなオペレーションは、典型的に
は、２又はそれ以上のステップに分割される。その場
合、各ステップは１機械サイクルで行われる。パイプラ
イン長の遅れは、そのパイプへの入力とそのオペレーシ
ョンの最終結果を伴うパイプの出力との間の機械サイク
ルにおける遅れである。しかし、演算装置のパイプライ
ンの性質のために、適当な命令スケジューリングによっ
て、各サイクルで「ベクトル・オペランド」のセットを
送りそして「ベクトル結果」得ることが可能でなければ
ならない。これは、ＳＩＭＤ（単一命令・多重データ処
理）並列処理の１つの形式である。しかし、それは、米
国のＴｈｉｎｋｉｎｇＭａｃｈｉｎｅ社のＣＭ−２０
０、ＣＭ−５等のような伝統的なＳＩＭＤ機械とは非常
に異なっている。そのようなアーキテクチャにとって、
得ることのできる１サイクル当たりの最大の浮動小数点
演算は２＊ＶＳＳ（乗算・加算オペレーションが２浮動
小数点演算としてカウントされる）である。更に、その
パフォーマンスのレベルはパラメータＶＳＳ又はＫによ
ってパラメータ化される。理論的には、これは達成可能
な最良のパフォーマンスである。個のレベルのパフォー
マンスを実際に得ることは、データを送ること及び演算
装置からの結果を非常に高い速度で記憶することを必要
とする。これを次に説明する。

【００２６】伝統的なベクトル・アーキテクチャでは、
オペランドを一組のベクトル・レジスタ又はメモリから
得ることができる。ＲＩＳＣスカラ・アーキテクチャで
は、すべてのオペランドが、先ず、一組のスカラ・レジ
スタにロードされる。演算装置は、すべてのオペランド
をレジスタから取得し、すべての結果をレジスタに戻し
て記憶する。これは、演算装置に対するメモリへの又は
メモリからの２ステップ・データ・パスである。本発明
の好適な実施例では、処理エレメントはＲＩＳＣベクト
ル・アーキテクチャを使用する。そのアーキテクチャで
は、すべての演算装置がベクトル・レジスタとだけ対話
し（それらのオペランドをベクトル・レジスタのみから
取得し、それらの結果をベクトル・レジスタのみに記憶
し）、一方、ベクトル・レジスタはメモリ・システムと
対話する。

【００２７】ＲＩＳＣアーキテクチャは、１９９０年１
月発行の「IBM Journal of Research and Developmen
t」第３４巻、第１号の記事に記載されている。これは
他のレベルの減結合を直接に提案している。演算装置
は、その演算装置と同じインデックス番号を持ったベク
トル・レジスタのエレメントだけに対話する必要があ
る。便宜上、演算装置に０からＫ−１までの番号を付す
ることにする。Ｎ（もう１つのパラメータ）個のベクト
ル・レジスタがあるものと仮定する。その場合、演算装
置は、Ｎ個のスカラ・レジスタとだけ対話する必要があ
る。最良の方法では、これらのレジスタ及び演算装置は
同じチップ上にあるものと考えられる。演算装置とレジ
スタとのこの組合せを処理エレメント（ＰＥ）と呼ぶこ
とにする（エレメントの合計数＝Ｎ＊Ｋ）。Ｎ個のベク
トル・レジスタがＫ個のＰＥ上に分配される。このＫ個
のＰＥの集合体は、ＮＩＣＡ（数値集中計算アクセレレ
ータ）と呼ばれる。データがＮＩＣＡレジスタにある場
合、それは１サイクル当たり２＊Ｋ浮動小数点演算のピ
ーク・パフォーマンスを得ることができる。

【００２８】図１は、本発明に従ってマトリクス装置
（ＭＸＵ）（或いは、ベクトル・プロセッサ）を使用し
たコンピュータ・システムの１つの実施例を示す。この
コンピュータ・システムでは、中央処理装置（ＣＰＵ）
４５及びＭＸＵ５０が、記憶制御装置（ＳＣＵ）２５及
びキャッシュ・バッファ・メモリ（Ｌ２キャッシュ）３
５を介してメイン・メモリ（メモリ・システム）１０に
接続される。ＣＰＵ４５は、ＭＸＵ命令バス４３、ＭＸ
Ｕアドレス及びカウント・バス４２、及びＭＸＵ記憶リ
クエストＩＤバス４１を介してＭＸＵ５０に接続され
る。ＳＣＵ２５は、メモリ・アドレス・バス１５によっ
てメイン・メモリ１０に接続され、アドレス・バス４７
によってＣＰＵ４５に接続される。Ｌ２キャッシュ３５
は、メモリ・データ・バス２０によってメイン・メモリ
１０に接続される。更に、そのＬ２キャッシュ３５は、
ＣＰＵデータ・バス３７によってＣＰＵ４５に接続さ
れ、ＭＸＵデータ・バス３９によってＭＸＵ５０に接続
される。ＣＰＵ４５は、ブランチ装置（ＢＲＵ）５７、
浮動小数点装置（ＦＰＵ）４８、固定小数点装置（ＦＸ
Ｕ）４９、レベル１命令キャッシュ装置（ＩＵ）４６、
及びレベル１データ・キャッシュ装置（ＤＵ）４４より
成る汎用プロセッサである。そのＩＵ４６及びＤＵ４４
は任意選択のものであり、単にパフォーマンス上の理由
で使用されるだけである。

【００２９】ＢＲＵ５７は、ＣＰＵ４５及びＭＸＵ５０
に対するコントロール・フロー（次に実行されるべき命
令を決定する）を与える。ＢＲＵ５７は、実行されるべ
き次の命令のメモリ・ロケーションのアドレスを発生す
る。その命令がＩＵ４６に存在する（それが最近アクセ
スされた）場合、その命令はＩＵ４６からフェッチされ
る。その命令がＩＵ４６に存在しない場合、ＢＲＵ５７
はそのロケーションに対するリクエストを発生し、Ｌ２
キャッシュ・アドレス・バス４７を介してＳＣＵ２５に
そのリクエストを送る。ＳＣＵ２５は、Ｌ２キャッシュ
３５の内容のディレクトリを持っている。そのリクエス
トされたメモリ・ロケーションがＬ２キャッシュ３５に
存在する場合、ＳＣＵ２５は、Ｌ２キャッシュ３５にお
けるそのロケーションをアクセスするに必要なコントロ
ールを発生し、Ｌ２コントロール・バス２６を介してそ
のＬ２キャッシュにアクセス・コントロールを送る。Ｌ
２キャッシュ３５はそのアクセスを遂行し、ＣＰＵデー
タ・バス３７を介してＣＰＵ４５にそのロケーションの
内容を送る。リクエストされたアドレスがＬ２キャッシ
ュ３５に存在しない場合、ＳＣＵ２５はメモリ・アクセ
ス・リクエストを発生し、メモリ・アドレス・バス１５
を介してメモリ・システム１０にそのリクエストを送
る。メモリ・システム１０はそのリクエストされたロケ
ーションをアクセスし、メモリ・データ・バス２０を介
してＬ２キャッシュ３５にそのリクエストされたロケー
ションの内容を戻す。Ｌ２キャッシュ３５は、ＣＰＵデ
ータ・バス３７を介してＣＰＵ４５にそのリクエストさ
れたメモリ・ロケーションの内容を戻す。ＩＵ４６は、
そのリクエストされたメモリ・ロケーションの内容を受
け取ると、ディスパッチ及び実行のための命令をＢＲＵ
５７に送る。

【００３０】ＢＲＵ５７は実行されるべき次の命令を調
べ、その命令を適当な実行装置にディスパッチする。ブ
ランチ命令は、ＢＲＵ５７によって実行される。スカラ
浮動小数点命令は、ＦＰＵ４８によって実行される。ベ
クトル命令は、ＭＸＵ５０によって実行される。メモリ
・アクセス命令は、ＦＸＵ４８及び関連の実行装置によ
り共同して実行される。その場合、ＦＸＵ４８はロード
命令又はストア命令のアドレスを発生し、ＤＵ４４に
（ＦＸＵ及びＦＰＵメモリ・アクセスのために）又はＳ
ＣＵ２５に（ＭＸＵメモリ・アクセスのために）リクエ
ストを送る。ベクトル命令は、ＢＲＵ５７によって、Ｍ
ＸＵ命令バス４１を介してＭＸＵ５０にディスパッチさ
れる。ベクトル・メモリ・アクセス命令は、ＭＸＵ５０
及びＦＸＵ４９の両方にディスパッチされる。

【００３１】上述のように、ベクトル・メモリ・アクセ
ス命令は、ＦＸＵ４９及びＭＸＵ５０によって共同して
実行される。ＦＸＵ４９は、メモリ・アクセスのアドレ
スを計算し、メモリ・リクエストをＤＵ４４に送る。Ｄ
Ｕ４４は、リクエストされたロケーションがＬ１データ
・キャッシュに存在しないことを確認するためにキャッ
シュ・ディレクトリ・ルックアップを行う。そのメモリ
・ロケーションが存在する場合、そのロケーションは、
先ず、Ｌ２キャッシュ３５にフラッシュ・アウトされて
それをＭＸＵメモリ・アクセスにとって明白なものにす
る。そこで、ＤＵ４４はメモリ・アクセス・リクエスト
をＳＣＵ２５に送る。命令メモリ・アクセスと同様に、
ＳＣＵ２５は、そのリクエストされたメモリ・ロケーシ
ョンがＬ２キャッシュ３５に存在するかどうかを決定す
るためにＬ２キャッシュ・ディレクトリを調べる。その
ロケーションがＬ２キャッシュ３５に存在しない場合、
メモリ・システム１０におけるそのメモリ・ロケーショ
ンがリクエストされ、その内容がメモリ・データ・バス
２０を介して戻され、Ｌ２キャッシュ３５に置かれる。

【００３２】ＭＸＵロード命令に対しては、そのリクエ
ストされたメモリ・ロケーションの内容が、ＭＸＵデー
タ・バス３９を介してＭＸＵ５０に戻される。ＳＣＵ２
５は、ロード・データが、ＭＸＵ−Ｌ２キャッシュ・コ
ントロール・バス５４を使用してＭＸＵデータ・バス３
９上に得られることを、ＭＸＵ５０に知らせる。ＭＸＵ
ストア命令に対しては、ＳＣＵ２５及びＬ２キャッシュ
３５は、そのストア命令のデータがＭＸＵ５０によって
ＭＸＵデータ・バス３９上に存在するまで待つ。その時
点で、そのデータはＬ２キャッシュ３５におけるそのア
ドレスされたメモリ・ロケーションに置かれる。マトリ
クス制御装置（ＭＸＣＵ）５１は、ストア・データがＭ
ＸＵ−Ｌ２キャッシュ・コントロール・バス５４を使用
してＭＸＵデータ・バス３９上に得られることをＳＣＵ
２５に知らせる。

【００３３】ＭＸＵ命令バス４１を介してディスパッチ
されるベクトル命令に対して、マトリクス制御装置（Ｍ
ＸＣＵ）５１は実行されるべき命令を受け取り、そして
その後の実行のためにその命令を命令待ち行列に置く。
すべての必要な制御情報が受け取られる時、（メモリ・
アクセス命令が、ＦＸＵ４９からのデータ位置合わせ及
びエレメント・カウントのために下位アドレス・ビット
を使用し）ＭＸＣＵ５１において命令の実行が始まる。
エレメント・カウントはマトリクス・カウント・レジス
タ（ＭＣＲ）５３に保持され、ベクトル・メモリ・アク
セス命令によってロード又は記憶されるべきエレメント
の数を指定する。そこから、ＭＸＣＵ５１は適当なコマ
ンド（元の命令のフォーマット化バージョン）及び処理
エレメント・マスク（命令を実行する場合に、どのＭＸ
ＰＥが参加すべきかを識別する）を設定し、ＭＸＰＥコ
マンド・バス７０を介してマトリクス処理エレメントの
アレイ（ＭＸＰＥ１−ＭＸＰＥＫ）にそのコマンド（又
は、一連のコマンド）をディスパッチして実行させる。

【００３４】ベクトル・ロード命令に対しては、ＭＸＣ
Ｕ５１は、Ｌ２キャッシュ３５からＭＸＵデータ・バス
３９を介して当該データを受け取り、そのデータを適当
な目標ＭＸＰＥデータ・バスへ経路指定してその目標Ｍ
ＸＰＥに送る。ベクトル・ストア命令に対しては、ＭＸ
ＣＵ５１は、ソースＭＸＰＥからそれぞれのＭＸＰＥデ
ータ・バスを介して当該記憶データを受け取り、その記
憶データを適当に位置合わせするように経路指定し、そ
してＭＸＵデータ・バス３９を介してＬ２キャッシュ３
５にそのデータを送る。ベクトル演算命令に対しては、
ＭＸＣＵ５１は、ＭＸＰＥからＭＸＰＥ状態バス７２を
介して結果状態（表示を除く）を受け取る。この状態
は、マトリクス状態及び制御レジスタ（ＭＸＳＣＲ）５
２において捕捉され、マスク可能例外条件が存在する場
合に、ＭＸＵ状態バス４２を介してＢＲＵ５７に割り込
み要求の形で送られる。

【００３５】ＭＸＰＥはすべて、ＭＸＰＥコマンド・バ
ス７０を介してコマンドを受け取る。ＭＸＣＵは、各コ
マンドに従ってマスクを施し、どのＭＸＰＥが命令の実
行に参加すべきかを識別する。ＭＸＰＥのサブセット
は、ＭＸＰＥの数よりも少ないエレメント・カウントの
ような多数のファクタ、位置合わせされてないメモリ・
アクセスによって選択可能である。即ち、プログラム
は、ＭＸＳＣＵ５２の開始及び終了範囲フィールドにお
いてサブセットを明瞭に指定する。マスク・オフされた
ＭＸＰＥはその命令を廃棄する。マスク・オフされてな
いＭＸＰＥは実行のための命令を受け取り、待ち行列に
入れる。ベクトル・ロード命令に対しては、選択された
ＭＸＰＥに対するロード・データが、ロード・コマンド
によって、それぞれのＭＸＰＥデータ・バスを介して受
け取られる。そこで、選択されたＭＸＰＥはロード・デ
ータを目標レジスタにロードする。ベクトル・ストア命
令に対しては、選択された各ＭＸＰＥはソース・レジス
タをアクセスし、それのＭＸＰＥデータ・バスを介して
そのデータを与える。ベクトル演算命令に対しては、選
択された各ＭＸＰＥはそのリクエストされた演算機能を
ＳＩＭＤ態様で遂行し、ソース・オペランドをマトリク
ス・レジスタ（ＭＸＲ）から取得し、そしてその結果を
目標ＭＸＲの中に置く。演算オペレーションに対する状
態は、選択されたＭＸＰＥのマトリクス条件レジスタの
各々の中に置き、そしてその生じた例外事項の概略がＭ
ＸＰＥ状態バス７２を介してＭＸＣＵ５１に送られる。

【００３６】図５は、ＭＸＣＵ５１の編成の更に詳細な
図を示す。ＭＸＣＵ５１は、３つの主要なコンポーネン
ト、即ち、命令制御装置（ＩＣＵ）５７０、ロード・デ
ータ装置（ＬＤＵ）５６０、及びストア・データ装置
（ＳＤＵ）５５０より成る。ＩＣＵ５７０は、命令待ち
行列装置５７１、コマンド発生装置５７２、及びコマン
ド・ディスパッチ装置５７３より成る。命令待ち行列装
置５７１は、命令に対するすべての前提制御情報を受け
取ってしまうような時間まで、ＣＰＵ４５からディスパ
ッチされるＭＸＵ命令をバッファするために使用され
る。そのような前提データの例は、如何に多くのメモリ
・アクセスがＣＰＵ４５によって設定されようとしてい
るかをＭＸＵ５０に表示するロード命令及びストア命令
のためのエレメント・カウントである。一旦、すべての
必要な前提データが収集されてしまうと、その命令はコ
マンド発生装置５７２に進む。コマンド発生装置５７２
は当該命令及び関連の制御情報を評価し、そしてＭＸＰ
Ｅにディスパッチされるべきその指定された機能を適切
に且つ正しく実行する適当なコマンドを設定する。その
ような設定は、ＭＸＳＣＲ５２の開始及び終了範囲設定
に基づくＭＸＰＥマスクの生成、又はメモリ・アクセス
情報のアドレス位置合わせ及びエレメント・カウントを
含む。何れの特別のレジスタ・アドレシング・モードも
このステージにおいて実施可能である。コマンド・ディ
スパッチ装置５７３はＭＸＵ５０の現在の状態を評価
し、次のコマンドがＭＸＰＥにディスパッチ可能である
かどうかを決定する。レジスタ従属性が可能となる場合
の順序外ディスパッチのようなパフォーマンス強化技法
がこのステージにおいて使用可能である。

【００３７】ＬＤＵ５６０は、ロード命令の実行準備が
できる前に到達したＭＸＵロード・データをデータ・バ
ッファ５０４に与える。ここでは、ロード・データの順
序外復帰をサポートするようなパフォーマンス強化技法
がサポート可能である。そこで、ＬＤＵ５６０は、任意
のアービトラリＭＸＰＥデータ・バス・ポートへのロー
ド・データの経路指定をサポートすることを意図したマ
ルチプレクサのネットワーク、即ち、ルータ５０８を提
供する。ＳＤＵ５５０は、任意のアービトラリＭＸＰＥ
データ・バス・ポートからのストア・データの経路指定
をサポートすることを意図したマルチプレクサのネット
ワーク、即ち、ルータ５３４を提供する。ＭＸＰＥデー
タ・バス７４、７６、７８、及び８０を停止することな
くＭＸＵデータ・バス３９のビジー期間を考慮するため
にストア・データ・バッファ５０２が設けられる。

【００３８】本発明によれば、ＭＸＵ５０は現在得られ
るベクトル・プロセッサに比べていくつかの明瞭な利点
を与える。この利点を更に容易に理解するために、図２
は現在得られるベクトル処理装置の概略図を示し、図３
は本発明によるマトリクス処理装置の概略図を示す。図
２及び図３の比較及び以下の説明は、それらの相違及び
本発明の利点を指摘することになろう。

【００３９】図２は、計算機システム、即ち、メイン・
メモリ及び中央処理装置２０２からデータ及び制御線２
０４を介してデータ及び命令を受け取るベクトル処理装
置２００の概略図を示す。ベクトル処理装置２００は、
少なくとも１つの演算装置（ＡＵ）２０６を含んでい
る。その演算装置２０６は、加算、乗算、及び論理的オ
ペレーション等のようなオペレーションを遂行できる。
ベクトル処理装置２００は複数個のベクトル・レジスタ
Ｒ１乃至ＲＮを有する。但し、Ｎは１よりも大きい。従
って、そのシステムはＮ個のベクトル・レジスタを有す
る。これらレジスタのうちの４つが、図２において、レ
ジスタ２０８、２１０、２１２、及び２１４として示さ
れる。各レジスタＲ１乃至ＲＮはワードＷ１乃至ＷＫを
含んでいる。但し、Ｋは１よりも大きく、各ワードは１
ビットよりも大きいデータを有する。従って、各レジス
タはＫ個のワードを含んでいる。Ｎは、典型的には、８
乃至３２個のレジスタ数である。データ又は命令はデー
タ線２０４、２１６、２１８、２２０及び２２２によっ
て計算機システム２０２から転送される。各ワードは、
各レジスタが長さＫのベクトルを形成するようにＫ個の
ワードのデータで満たされるまで、ワード・ロケーショ
ンＷ１乃至ＷＫに逐次に転送される。

【００４０】例えば、レジスタ２０８をレジスタ２１０
に加算しそしてその値をレジスタ２１２に置くようなコ
マンドがＡＵ２０６によって実行される。各対応するレ
ジスタ・ロケーションのワードが逐次に加算され、そし
てその結果が図３における対応したワード・ロケーショ
ンに置かれる。例えば、レジスタＲ１のワード・ロケー
ションＷ１、即ち、ワード・ロケーションＷ１Ｒ１、に
おけるワードがデータ・バス２２４及び２２６を介して
ＡＵ２０６に転送される。レジスタＲ２のワード・ロケ
ーションＷ１、即ち、ワード・ロケーションＷ１Ｒ２、
におけるワードは、データ・バス２２８及び２３０を介
してＡＵ２０６に転送される。Ｗ１Ｒ１＋Ｗ１Ｒ２のオ
ペレーションがＡＵ２０６において遂行され、その結果
は、データ線２３１及び２３２を介してレジスタＲ３の
ワード・ロケーションＷ１、即ち、ワード・ロケーショ
ンＷ１Ｒ３、に転送される。次のオペレーションは、Ｗ
２Ｒ１におけるワードをＡＵ２０６に転送すること及び
Ｗ２Ｒ２におけるワードをＡＵ２０６に転送することで
あり、ＡＵ２０６はＷ２Ｒ１＋Ｗ２Ｒ２のオペレーショ
ンを遂行してその結果をワード・ロケーションＷ２Ｒ３
に入れる。ワード・ロケーションＷ１乃至ワード・ロケ
ーションＷＫまで、各レジスタＲ１，Ｒ２におけるワー
ド・ロケーションから逐次転送が行われる。従って、メ
イン・メモリ及び中央処理装置２０２は、２つ以上の転
送オペレーション及び２つ以上の演算オペレーションが
一時に行われるように、２つ以上の演算装置ＡＵを持つ
ものであってもよい。

【００４１】典型的には、一般に使用されるマトリクス
・ベクトル処理装置は、精々４つの演算装置ＡＵを持つ
ものであり、それは、一時に４つのオペレーションを行
うことができることを意味する。１つのベクトル・オペ
レーションは、レジスタＲ１におけるような１つのベク
トルとレジスタＲ２におけるベクトルとの、加算、乗算
又は論理的比較のような演算結合、及びＲ３のような他
のベクトルへのその結果の転送である。そのようなベク
トル命令又はオペレーションに対する機械サイクルの数
は、そのような一般に得られるベクトル・プロセッサに
対する５乃至１０機械サイクルとベクトル長Ｋを演算装
置ＡＵの数により除したものとの和である、１つのベク
トル命令に対する始動サイクルに等しい。その演算装置
は、この分野では、演算パイプとも呼ばれる。そのよう
なベクトル・プロセッサにおけるベクトル・オペレーシ
ョンのための最小のサイクル・タイムは、パイプの数が
ベクトル長に等しい時、即ち、Ｗ１乃至ＷＫのような各
ワード・ロケーションがそれと関連付けられたパイプ又
は演算装置を持つ時、である。そのような場合、１ベク
トル命令当たりのサイクル・タイムは、１つのベクトル
・オペレーションに対して、５乃至１０機械サイクル＋
１である始動時間に等しい。１ベクトル命令当たりの最
大のサイクル数は、パイプの数が１に等しい時に生じ、
その場合、１ベクトル命令当たりのサイクル数は、５乃
至１０機械サイクル＋ベクトル長Ｋである始動サイクル
に等しい。

【００４２】図２に概略的に示される現在利用可能なベ
クトル処理装置は、計算機システム２０２及びベクトル
処理装置２００の間のデータ帯域幅が不十分で、Ｋ個の
演算装置（ＡＵ）２０６の能力を利用するに十分な程速
くデータ又は命令を供給できないため、Ｋ個の演算装置
２０６を持つことができない。

【００４３】拡張帯域幅のメモリは、ベクトル・オペレ
ーション相互間で５乃至１０サイクルの最少時間を得る
ためには、Ｋ個の演算装置２０６を利用する必要があろ
う。Ｑが１つの演算装置２０６に対する帯域幅である場
合、Ｋ個の演算装置２０６に対する帯域幅はＫ＊Ｑでな
ければならない。そのような拡張帯域幅のメモリは、大
きく増加した複雑性と、それによるコストとを必要とす
る。反対に、本発明によるプロセッサは、拡張帯域幅を
必要とせずにベクトル・オペレーション相互間で１サイ
クル・タイムを得るものであり、Ｑの帯域幅でもってこ
れを得ることができる。

【００４４】１つのベクトルの負の逆元又は絶対値、２
つのベクトルの加算又は乗算、又はこれらの演算オペレ
ーションの組合せのようなベクトル・オペレーション
が、少なくとも１つ（代表的には、２つ又は３つ）のベ
クトルにおいて遂行される。ベクトル・オペレーション
は、２つのベクトルを乗算しそして第３のベクトルを加
算するオペレーション（１つのベクトル・オペレーショ
ンで行われる）のような３つ以上のベクトルに関するも
のであってもよい。

【００４５】本発明によるベクトル処理装置、又はマト
リクス処理装置３００が図３に３００として概略的に示
される。処理装置３００は、計算機システム３０２から
データ及び制御線３０４を介してデータ及び命令を受け
取る。Ｎ個のベクトルに対応したＮ個のレジスタＲ１乃
至ＲＮがあり、Ｋのベクトル長に対してこれらレジスタ
の各々におけるＫ個のワードＷ１乃至ＷＫがある。レジ
スタＲ１乃至ＲＮの各々における第１ワード・ロケーシ
ョンＷ１はすべて、３０３として示された処理エレメン
ト１（ＰＥ１）に含まれている。処理エレメント３０３
は演算装置１（ＡＵ１）３０５を含む。同様に、レジス
タＲ１乃至ＲＮの各々における第２ワードＷ２は、３０
６として指定された処理エレメントＰＥ２に含まれる。
処理エレメント３０６は、３０８として示された演算装
置ＡＵ２を含む。同様に、それらベクトルの各々におけ
る各ワードエレメントＷＩ（但し、ＩはＫまでである）
は、それ自身の演算装置を含む処理エレメント内に含ま
れる。各ワード・エレメントＷＩは、Ｍビット・ワード
に対するＭビットのデータを記憶するためのＭ個のロケ
ーションを有するレジスタに含まれる。各々がＫ個のワ
ードを有するＮ個のベクトルは、Ｋ＊Ｎワード・マトリ
クスを形成する。従って、ここでは、図３のプロセッサ
はマトリクス・プロセッサと呼ばれる。

【００４６】図１に戻ると、マトリクス装置５０は、マ
トリクス制御装置ＭＸＣＵ５１及びＫ個の処理エレメン
トＭＸＰＥ１乃至ＭＸＰＥＫを含む。これらマトリクス
処理エレメントのうちの６つは数字６０、６１、６２、
６３、６４、及び６５によって識別される。マトリクス
制御装置ＭＸＣＵ５１のエレメント５２は、コマンド・
バス７０及び複数個のデータ制御バス６８を介してマト
リクス・エレメントＭＸＰＥ１乃至ＭＸＰＥＫの各々に
接続される。コマンド・バス７０は、マトリクス制御装
置５２から処理エレメントＭＸＰＥ１乃至ＭＸＰＥＫの
各々にコマンドを搬送する。図１では、データ制御バス
６８は、エレメント７４、７６、７８、及び８０として
示される。図１に示されるように、データ制御バス６８
のうちのいくつかは、２つ以上のマトリクス処理エレメ
ントＭＸＰＥの間で共用可能である。例えば、データ制
御バス８０は、データ制御線８１及び８２によって示さ
れるように、それぞれ、マトリクス処理エレメントＭＸ
ＰＥ１及びＭＸＰＥ５の間で共用される。ベクトル・レ
ジスタ４０２は、図３における単一の処理エレメント３
０３のレジスタ、例えば、ワード・ロケーションＷ１Ｒ
１乃至Ｗ１ＲＮに対応する。

【００４７】図５は、図１のマトリクス制御装置（ＭＸ
ＣＵ）５１の概略図を示す。命令は、ＭＸＵ５０から命
令バス４１を介して制御装置５７０により受け取られ
る。それは、命令のタイプに基づいて、データをストア
・データ・バッファ５０２に記憶すべきか、又はロード
・データ・バッファ５０４に記憶すべきかというそれを
扱う方法を決定する。データは、ＣＰＵデータ・バス３
９を介してＭＸＵ５０に及びＭＸＵ５０から転送され
る。ＣＰＵデータ・バス３９を介して到着するデータは
マルチプレクサ５０１に入る。そのマルチプレクサは、
ＣＰＵ４５から情報を受け取る時、バス５０６を介して
ロード・データ・バッファ５０４にそのデータを経路指
定する。ロード・データ・バッファ５０４におけるデー
タは、スイッチ、即ち、ルータ５０８によって、図１の
データ制御バス６８に対応したデータ・パス５１０、５
１２、５１４、及び５１６に分けられる。各データ・パ
ス５１０、５１２、５１４、及び５１６は、それぞれ、
マルチプレクサ５１８、５２０、５２２、及び５２４に
通じ、そしてそれらマルチプレクサから、データがデー
タ・バス７４、７６、７８、及び８０に転送される。デ
ータ・バス７４、７６、７８、及び８０におけるそのデ
ータは、マトリクス処理エレメントＭＸＰＥ１乃至ＭＸ
ＰＥＫに転送される。

【００４８】一方、データがマトリクス処理エレメント
ＭＸＰＥ１乃至ＭＸＰＥＫから転送される時、そのデー
タはデータ・バス７４、７６、７８、及び８０を介し
て、それぞれ、マルチプレクサ５１８、５２０、５２
２、及び５２４に転送され、そしてそこから、それぞ
れ、データ線５２６、５２８、５３０、及び５３２を介
してスイッチ、即ち、ルータ５３４に送られる。データ
は、そのスイッチ５３４からストア・データ・バッファ
５０２に転送され、更に、データ線５３５、マルチプレ
クサ５０１、及びデータ・バス３９を介して図１のＣＰ
Ｕ４５に転送される。マルチプレクサ５０１は、１つの
双方向入力、即ち、データ・バス３９と、２つの単方向
データ線５３５及び５０６を有する。

【００４９】図４は、図１のＭＸＵ５０におけるＭＸＰ
Ｅの１つの概略図を更に詳細に示す。データ・バス４０
１は、図１のデータ・バス７４、７６、７８、又は８０
のうちの任意のものでよい。ＮＩＣＡがそのシステムの
残りのもの（メモリ）と対話する方法を以下で説明す
る。本発明によるマトリクス装置の１つの主要な目的
は、メモリ帯域幅（ＢＷ）要件を減少させることであ
る。これは、ＮＩＣＡレジスタにロードされたデータの
有意味な再使用によって達成可能である。従って、ＮＩ
ＣＡとメモリとの間の帯域幅（ＢＷ）に関する設計ポイ
ントは、１サイクル当たりのベクトル・ロード／ストア
（Ｋオペレーション）よりもかなり少なくなければなら
ない。ベクトル・ロード／ストアは、多数のサイクルに
おいて１回の割合でしか起こらないものと予測される。

【００５０】この仮定の場合、ＮＩＣＡとシステムとの
間のデータ転送を２つの要素に分割することができる。
第１の要素は、システムとＮＩＣＡロード・ストア／バ
ッファ（ＬＳＢ）４００との間の非同期転送である。第
２の要素は、ＬＳＢ４００とＮＩＣＡベクトル・レジス
タ４０２との間の同期（ＳＩＭＤ）転送である。ちょう
どベクトル・レジスタのように、ＬＳＢ４００も、ＭＸ
Ｕ５０におけるすべてのＭＸＰＥに分布している。ＬＳ
Ｂ４００における１つのＭＸＰＥ当たりの与えられたロ
ケーションの数がもう１つの設計パラメータである。ベ
クトル・ロードに対して、システムは、メモリにおける
オペランドのアドレスを計算し、それらをフェッチし、
そして宛先ＭＸＰＥのインデックスをもって到着データ
をタグし、それらをバス上に（高い帯域幅に対しては、
各バスがＭＸＰＥのサブセットにだけ接続されて成る複
数のバスが使用可能である）置く。宛先ＭＸＰＥは到着
データをラッチし、それをＬＳＢ４００の指定されたロ
ケーションに置く。すべてのＭＸＰＥがそれらのデータ
を受け取った時、ＭＸＰＥ制御装置４０４は、ＬＳＢ４
００からその指定されたベクトル・レジスタへのデータ
のＳＩＭＤ転送を開始する。ベクトル・ストアは同様
に、しかし、逆に作用する。データ再使用のために、ベ
クトル・ロード／ストアは滅多にないことであり、ＮＩ
ＣＡはレジスタにおけるデータに関してレジスタ・ツー
・レジスタ（ＲＲ）ベクトル演算を行い続けるものと考
えられる。

【００５１】次のものは拡張の例示リストである。これ
らの思想のいくつか又はすべてがＮＩＣＡにおいて利用
可能である。即ち、 ○「スカラ・レジスタ」のセットは、別個のスカラ・レ
ジスタ・バスを介してすべてのＭＸＰＥに対して利用可
能にされる。バスはスカラ・レジスタのプールから送ら
れ、すべてのＭＸＰＥは各ＭＸＰＥ上の別個の「スカラ
・ポート」を介してそれに接続される。このバスは、す
べてのＰＥの演算装置にスカラ定数を与えるために使用
可能である。このパスは、ベクトル・レジスタにおける
定数の速いローディングのためにも使用可能である。 ○多数のＰＥが単一のチップ／モジュール上に製作可能
である。これは、すべてのバスに対するＩ／ＯピンがＰ
Ｅ間で共用可能であるという利点を有する。 ○Ｍ個の１ビット・ベクトル・マスク又は条件レジスタ
のセットを設けることが可能である。これらは、再び、
各ＰＥがＭ個の１ビット・マスク又は条件レジスタのセ
ットを有する場合、すべてのＰＥに分配される。これら
のレジスタは、比較によって、又は演算オペレーション
の条件コードによってセット可能である。それらは、Ｐ
Ｅとそのシステムとの間のデータ移動を実施するために
並びにＰＥ内での条件付き演算及びデータ移動を実施す
るために使用可能である。これらのビット自体は、シス
テムとＮＩＣＡとの間で双方向に転送可能である。ベク
トル条件レジスタとシステムとの間のビット転送のため
に、別個のＫビット幅の並列バスが使用可能である。各
ＰＥは個の並列バスのうちの１ビットを得る。これらの
マスクがＮＩＣＡとシステムとの間のデータ転送を制御
するために使用される場合、制御装置にとってこのバス
が利用可能であることは、その転送のための制御データ
の速い先回り処理を助けるであろう。マスク・ベクトル
は１ビットのブール演算によっても操作可能である。 ○パック／アンパック・オペレーションを行うと（例え
ば、２つの短精度オペランドを１つの長精度オペランド
としてパックする）、短精度データはバス上を更に効率
的に転送可能である。これは、利用可能なメモリ及びバ
ス帯域幅の効率的な利用を助ける。 ○ＳＩＭＤベクトル命令に参加するＭＸＰＥの範囲は、
アクティブナＭＸＰＥの開始及び終了インデックスを指
定する「ベクトル範囲設定」命令によって制御可能であ
る。この範囲内であっても、対応するＭＸＰＥにおける
指定されたマスク・ビット（Ｍ個のマスク・ビットの１
つ）が「１」である場合しか目標は更新されない。

【００５２】ＮＩＣＡがＮＩＣ問題を解決する場合に適
用可能であるためには、２つの主要な必要条件、即ち、
ベクトル化及びデータ再使用、がある。最も伝統的なベ
クトル・オペレーションは、ＮＩＣＡにおいてＳＩＭＤ
態様で実施可能である。しかし、いくつかの例外があ
る。１つのベクトルにおける相異なるエレメントの間の
相互作用を必要とするベクトル・オペレーションをＳＩ
ＭＤ態様で行うことはできない。そのような命令の重要
な例はベクトル累算（乗算累算は累算と同じである）で
ある。累算では、ベクトルのサム・リダクション（ｓｕ
ｍｒｅｄｕｃｔｉｏｎ）が行われる。演算パイプライ
ンのため、ベクトル・マシン上でも、これはあまり効率
的ではない。非常に長いベクトルを累算する場合、その
ベクトルの８つ毎のエレメントがアキュムレータの１つ
において累算される。オペレーションのこのフェーズは
十分なベクトル速度で完了する。これに続いて、「部分
和の合計」オペレーションが生じる。それはスカラ・モ
ードで行われる。累算（又は、乗算累算）は、部分和の
数がＫに等しくされた場合、ＮＩＣＡ上でも実施可能で
ある。次に、非常に長いベクトルに対しては、殆どの計
算が高パフォーマンスのＳＩＭＤ態様で行われるであろ
う。最後の「部分和の合計」位相だけがスカラ計算で行
われるであろう。乗算累算オペレーションを回避するた
めに、しばしば、殆どのアルゴリズムが再公式化可能で
あり、そしてその代わりに、乗算加算オペレーションが
使用可能である。

【００５３】ＳＩＭＤ計算を施すことが可能でないもう
１つのオペレーションは、ベクトルの最小及び最大を見
つけることである。ここで、再び、問題サイズをＫまで
縮小するためにＳＩＭＤベクトル比較が使用可能であ
る。従って、その作業の殆どが高パフォーマンスＳＩＭ
Ｄモードで遂行可能である。

【００５４】前述のように、ベクトル化はＮＩＣＡを使
用する場合の前提である。殆どのＮＩＣＡアプリケーシ
ョンが内部ループ・レベル又は外部ループ・レベルでベ
クトル化する。ＮＩＣＡが非常に効果的であるために
は、ベクトル・レジスタに与えられたデータの有意味な
再使用が必要である。再使用は、浮動小数点演算対デー
タ比（ＦＤＲ）に関連する。当初の問題を或レベルでブ
ロック化することによって、多くの問題に対して、ＦＤ
Ｒは大いに改良可能である。１つの有用な技法は外部ル
ープ・ベクトル化である。その場合、内部ループ又はこ
れらのサブブロックがＮＩＣＡレジスタに適合する。そ
こで、外部ループがＫのブロック・サイズでもってブロ
ック化され、そしてすべての内部ループ計算が１つのＰ
Ｅにおいて生じる時、外部ループの各インデックスが別
個のＰＥにおいて実行される。これは、外部ループ・ベ
クトル化／並列化の非常に一般的な形式である。多くの
並列化コンパイラが、この技法を使用して多くの並列プ
ロセッサに跨って計算を分配する。ベクトル化し得ない
多くの問題が、しばしば、並列化可能である。例えば、
地震の計算では、複雑な三重対角等式の多重システムを
解く場合に、大量の計算が行われる。これらは、パフォ
ーマンスにおける非常に大きな利得をもって、ＮＩＣＡ
において実施可能である。大量の地震の計算はトレース
・ベース化され、しばしば、それらトレースに跨って並
列化可能である。

【００５５】ＦＯＲＴＲＡＮ−９０と呼ばれるＦＯＲＴ
ＲＡＮの拡張が定義されている。それは、アレイ演算を
行う機能を提供する。ＦＯＲＴＲＡＮ−９０で書かれた
プログラムはＮＩＣＡにとって容易にコンパイル可能で
ある。

【００５６】ＬＡＰＡＣＫは、線形代数計算を行うため
の公知のソフトウエアである。それは、ＬＩＮＰＡＣＫ
及びＥＩＳＰＡＣＫパッケージに取って代わるものであ
り、それらを大いに拡張するものである。それは、殆ど
の現在利用可能なコンピュータにおける非常に高いパフ
ォーマンスのために書かれている。それの高いパフォー
マンスのために、線形代数サブルーチン及びＮＡＧのよ
うな他の商業計算ソフトウエア・パッケージの殆どのユ
ーザが、ＬＡＰＡＣＫに移行している。ＬＡＰＡＣＫプ
ロジェクトの背後にある重要な思想は、殆どの計算がＢ
ＬＡＳ−３で行われない場合、高パフォーマンスを得る
ことはできないということである。ＢＬＡＳ−３は、Ｎ
² のオーダのデータ・ポイントで、Ｎ³ のオーダの計算
を行う線形代数カーネルのセットである。ＬＡＰＡＣＫ
コードは移植可能であり、コンピュータ製造者によって
提供された調整された（特殊機械用に）ＢＬＡＳ−３カ
ーネルを利用する。この思想及びソフトウエア・パッケ
ージは、共用メモリ並列プロセッサ及びＭＩＭＤ機械ま
で更に拡張される。ＢＬＡＳ−３ルーチンの調整された
セットがＮＩＣＡ用に開発されることが期待される。そ
こで、ＬＡＰＡＣＫサブルーチン・コールを持ったユー
ザ・コードは、ユーザ部分において如何なる努力も払う
ことなく、ＮＩＣＡからパフォーマンス・ブーストを自
動的に得るであろう。

【００５７】一方、ＢＬＡＣ−３ルーチンは、ＤＧＥＭ
Ｍ（更新を伴うマトリクス・マトリクス乗算）において
その計算の殆どを行う。ＤＧＥＭＭにおいて行われない
計算は、それが三角マトリクスにおいて行われることを
除けば同じである。以下では、ＮＩＣＡにおいて非常に
効率的にＤＧＥＭＭを実施できる方法を示す。

【００５８】ＤＧＥＭＭは次の計算、即ち、Ｃ＜--Ｃ＋Ａ＊Ｂを行う。

【００５９】サイズがＫ＊ＰであるＣというブロックが
一時に計算されるように、Ｃに関する何らかの外部レベ
ル・ブロッキングがあるものと仮定する。但し、ＰはＮ
よりも小さく、ＮＩＣＡにおいて利用可能なベクトル・
レジスタの数である。その場合、Ｃマトリクスのこのブ
ロックはＮＩＣＡレジスタに適合する。ＡはサイズＫ＊
Ｌのものであると仮定する。但し、Ｌはその問題の中間
の大きさである。そこで、上記の計算は、Ｃマトリクス
に関するランクＬ更新を行うことになる。これは、Ｌ個
のステップで行うことができる。各ランクＩ更新のため
には、Ａマトリクス（Ｋ個のエレメント）の１つの列と
Ｂマトリクス（Ｐ個のエレメント）の１つの行が必要で
ある。これらＫ＋Ｐ個のエレメントがＮＩＣＡに与えら
れ、２＊Ｐ＊Ｋ浮動小数点演算を生成するために使用さ
れる。この問題に対する浮動小数点演算対データの比
は、２/（１/Ｋ＋１/Ｐ）である。Ｋ及びＰの両方とも
大きい場合、これは非常に計算集中的な問題となる。Ｎ
ＩＣＡとシステムとの間のメモリ帯域幅は、２＊Ｋ＊Ｐ
浮動小数点演算を行いながら（Ｋ＋Ｐ）データ転送をサ
ポートするに十分な大きさでなければならない。２＊Ｋ
浮動小数点演算が１サイクルで行い得るものであると仮
定すると、１サイクル当たり少なくとも（１＋Ｋ/Ｐ）
個のエレメントのデータ転送速度を必要とする。これ
は、Ｃマトリクスの初期ローディング及び最終ストアリ
ングを考慮していない。Ｌが大きい場合、この余分なオ
ーバヘッドは小さくなる。

【００６０】１次元及び多次元ＦＥＴ、多重シーケンス
の回旋／相関、地震の処理における３次元移行等のよう
な多くの他の重要な計算カーネルが知られている。これ
らアプリケーションはすべて、ＮＩＣＡから大きなパフ
ォーマンス利得を得ることができる。一般的な稠密、正
定値の対称、複体対称、帯域（ＶＳＳのオーダの、又は
更に長い帯域幅を持つ）、スカイライン等のような種々
な種類の式を解くことは、すべて、ピークに近いパフォ
ーマンスでもってＮＩＣＡ上で実施可能である。汎用稠
密システムの等式（サイズ１０００又はそれ以上）を解
くＬＩＮＰＡＣＫＴＰＰベンチマークも、ピーク・パ
フォーマンスに近くなるであろう。これは非常に重要な
超高速計算ベンチマークであり、スーパコンピュータ
は、しばしば、この基準で比較される。

【００６１】大規模な科学計算におけるもう１つの傾向
は、非常に大きな疎システムの等式に向いている。これ
らの問題を解くために、しばしば、直接方法が使用され
る。直接疎方法は疎ＢＬＡＳ−３（現在の標準的活動は
これらＢＬＡＳを定義する用に進んでいる）によって公
式化可能である。一方、疎ＢＬＡＳ−３は、ＮＩＣＡに
対してブロック化可能である。疎マトリクスは、抽出さ
れたブロックが全く稠密に見えるような方法で行及び列
のセットがそのマトリクスから抽出されるように再配列
可能である。疎マトリクス全体は、これらブロック及び
他の構造体（対角線の帯域のような）のセットの線形合
計として表される。これらは稠密ブロックとしてＮＩＣ
Ａベクトル・レジスタに転送され、何回も使用可能であ
る。

【００６２】高パフォーマンスのグラフィックスも高い
ＦＤＲを持つ傾向があり、ベクトル化可能である。これ
らのアプリケーションもＮＩＣＡから利益を得ることが
できる。

【００６３】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００６４】（１）プロセッサ・サイクル・タイムを有
する計算機プロセッサにして、Ｋ個の処理エレメント
（但し、Ｋ＞１）にして、前記Ｋ個の処理エレメントの
各々はＮ個のレジスタのセット（但し、Ｎ＞１）及び演
算装置を含み、前記レジスタの各々のＩ番目のエレメン
トはベクトル長ＫのＩ番目のベクトルのための記憶ロケ
ーションを提供し（但し、１≦Ｉ≦Ｎ）、それによっ
て、Ｎ個のベクトルを提供するものと、前記Ｎ個のベク
トルの少なくとも１つの間でベクトル・オペレーション
を所定のサイクル・タイムで遂行し、前記ベクトル・オ
ペレーションの結果を前記Ｎ個のベクトルの１つに記憶
するための手段にして、前記ベクトル・オペレーション
が前記Ｎ個のベクトルの少なくとも１つにおけるＫ個の
エレメントすべてに対して実質的に同時に前記Ｋ個の演
算装置によって遂行されるものと、前記所定のサイクル
・タイム後の次のサイクルタイムにおいて他のベクトル
・オペレーションを遂行するための手段と、を含む計算
機プロセッサ。（２）前記Ｎ個のレジスタのセットにおける各レジスタ
はＭ個のビット記憶ロケーション（但し、Ｍ＞０）を有
することを特徴とする上記（１）に記載の計算機プロセ
ッサ。（３）前記ベクトル・オペレーションを遂行するための
手段である第１演算装置及び前記他のベクトル・オペレ
ーションを遂行するための手段である第２演算装置は同
じ演算装置であることを特徴とする上記（１）に記載
の計算機プロセッサ。（４）マトリクス制御装置を含むことを特徴とする上記
（１）に記載の計算機プロセッサ。（５）前記マトリクス制御装置を前記Ｋ個の処理エレメ
ントに接続するコマンド・バスを含むことを特徴とする
上記（４）に記載の計算機プロセッサ。（６）前記マトリクス制御装置を前記Ｋ個の処理エレメ
ントに接続する少なくとも１つのデータ・バスを含むこ
とを特徴とする上記（４）又は（５）に記載の計算機プ
ロセッサ。（７）前記少なくとも１つのデータ・バスは前記Ｋ個の
処理エレメントのうちの２個以上の処理エレメントによ
って共用されることを特徴とする上記（５）に記載の計
算機プロセッサ。（８）サイクル・タイムを有する計算機プロセッサにし
て、マトリクス制御装置と、前記サイクル・タイムのう
ちの先行のベクトル・オペレーションの１サイクルにお
いて後続のベクトル・オペレーションを遂行するための
手段と、を含む計算機プロセッサ。（９）前記手段はベクトル演算オペレーションを遂行す
ることを特徴とする上記（８）に記載の計算機プロセッ
サ。（１０）前記マトリクス制御装置を前記Ｋ個の処理エレ
メントに接続するコマンド・バスと、前記マトリクス制
御装置を前記Ｋ個の処理エレメントに接続する少なくと
も１つのデータ・バスと、を含むことを特徴とする上記
（８）に記載の計算機プロセッサ。（１１）サイクル・タイムを有する計算機システムにし
て、メイン・メモリと、キャッシュ・メモリと、記憶制
御装置と、中央処理装置と、マトリクス処理装置と、前
記中央処理装置から前記マトリクス処理装置に命令を転
送するためのマトリクス命令バスと、前記キャッシュ・
メモリから前記マトリクス処理装置にデータを転送する
ための中央処理装置データ・バスと、前記中央処理装置
は前記記憶制御装置と前記キャッシュ・メモリとを介し
て前記メイン・メモリに接続する手段と、前記マトリク
ス制御装置は前記キャッシュ・メモリを介して前記メイ
ン・メモリに接続する手段と、前記記憶制御装置はメモ
リ・アドレス・バスによって前記メイン・メモリに接続
する手段と、前記記憶制御装置は第１データ・バスによ
って前記中央処理装置に接続する手段と、前記キャッシ
ュ・メモリは第２データ・バスによって前記マトリクス
処理装置に接続する手段と、前記マトリクス処理装置は
前記サイクル・タイムのうちの先行のベクトル・オペレ
ーションの１サイクルにおいて後続のベクトル・オペレ
ーションを遂行するための手段を含むことと、Ｋ個の処
理エレメント（但し、Ｋ＞１）にして、前記Ｋ個の処理
エレメントの各々はＮ個のレジスタのセット（但し、Ｎ
＞１）及び演算装置を含み、前記レジスタの各々のＩ番
目のエレメントはベクトル長ＫのＩ番目のベクトルのた
めの記憶ロケーションを提供し（但し、１≦Ｉ≦Ｎ）、
それによって、Ｎ個のベクトルを提供するものと、前記
Ｎ個のベクトルの少なくとも１つの間でベクトル・オペ
レーションを所定のサイクル・タイムで遂行し、前記ベ
クトル・オペレーションの結果を前記Ｎ個のベクトルの
１つに記憶するための手段にして、前記ベクトル・オペ
レーションが前記Ｎ個のベクトルの少なくとも１つにお
けるＫ個のエレメントすべてに対して実質的に同時に前
記Ｋ個の演算装置によって遂行されるものと、前記所定
のサイクル・タイム後の次のサイクルタイムにおいて他
のベクトル・オペレーションを遂行するための手段と、
を含む計算機システム。（１２）サイクル・タイムを有する計算機システムにし
て、メイン・メモリと、キャッシュ・メモリと、記憶制
御装置と、中央処理装置と、マトリクス処理装置と、前
記中央処理装置から前記マトリクス処理装置に命令を転
送するためのマトリクス命令バスと、前記キャッシュ・
メモリから前記マトリクス処理装置にデータを転送する
ための中央処理装置データ・バスと、を含み、前記中央
処理装置は前記記憶制御装置と前記キャッシュ・メモリ
とを介して前記メイン・メモリに接続する手段と、前記
マトリクス制御装置は前記キャッシュ・メモリを介して
前記メイン・メモリに接続する手段と、前記記憶制御装
置はメモリ・アドレス・バスによって前記メイン・メモ
リに接続する手段と、前記記憶制御装置は第１データ・
バスによって前記中央処理装置に接続する手段と、前記
キャッシュ・メモリは第２データ・バスによって前記マ
トリクス処理装置に接続する手段と、前記マトリクス処
理装置は、Ｋ個の処理エレメント（但し、Ｋ＞１）にし
て、前記Ｋ個の処理エレメントの各々はＮ個のレジスタ
のセット（但し、Ｎ＞１）及び演算装置を含み、前記レ
ジスタの各々のＩ番目のエレメントはベクトル長ＫのＩ
番目のベクトルのための記憶ロケーションを提供し（但
し、１≦Ｉ≦Ｎ）、それによって、Ｎ個のベクトルを提
供するものと、前記Ｎ個のベクトルの少なくとも１つの
間でベクトル・オペレーションを所定のサイクル・タイ
ムで遂行し、前記ベクトル・オペレーションの結果を前
記Ｎ個のベクトルの１つに記憶するための手段にして、
前記ベクトル・オペレーションが前記Ｎ個のベクトルの
少なくとも１つにおけるＫ個のエレメントすべてに対し
て実質的に同時に前記Ｋ個の演算装置によって遂行され
るものと、前記所定のサイクル・タイム後の次のサイク
ルタイムにおいて他のベクトル・オペレーションを遂行
するための手段と、を含むことを、特徴とする計算機シ
ステム。（１３）マトリクス制御装置と、前記マトリクス制御装
置を前記Ｋ個の処理エレメントに接続するためのコマン
ド・バスと、前記マトリクス制御装置を前記Ｋ個の処理
エレメントに接続するための少なくとも１つのデータ・
バスと、を含むことを特徴とする上記（１２）に記載の
計算機システム。（１４）サイクル・タイムを有する計算機システムにし
て、メイン・メモリと、中央処理装置と、マトリクス処
理装置と、前記中央処理装置から前記マトリクス処理装
置に命令を転送するためのマトリクス命令バスと、前記
メイン・メモリから前記マトリクス処理装置にデータを
転送するための中央処理装置データ・バスと、前記中央
処理装置は第１データ・バスによって前記メイン・メモ
リに接続する手段と、前記マトリクス制御装置は第２デ
ータ・バスによって前記メイン・メモリに接続する手段
と、前記記憶制御装置はメモリ・アドレス・バスによっ
て前記メイン・メモリに接続する手段と、前記マトリク
ス処理装置は前記サイクル・タイムのうちの先行のベク
トル・オペレーションの１サイクルにおいて後続のベク
トル・オペレーションを遂行するための手段を含むこと
と、Ｋ個の処理エレメント（但し、Ｋ＞１）にして、前
記Ｋ個の処理エレメントの各々はＮ個のレジスタのセッ
ト（但し、Ｎ＞１）及び演算装置を含み、前記レジスタ
の各々のＩ番目のエレメントはベクトル長ＫのＩ番目の
ベクトルのための記憶ロケーションを提供し（但し、１
≦Ｉ≦Ｎ）、それによって、Ｎ個のベクトルを提供する
ものと、前記Ｎ個のベクトルの少なくとも１つの間でベ
クトル・オペレーションを所定のサイクル・タイムで遂
行し、前記ベクトル・オペレーションの結果を前記Ｎ個
のベクトルの１つに記憶するための手段にして、前記ベ
クトル・オペレーションが前記Ｎ個のベクトルの少なく
とも１つにおけるＫ個のエレメントすべてに対して実質
的に同時に前記Ｋ個の演算装置によって遂行されるもの
と、前記所定のサイクル・タイム後の次のサイクルタイ
ムにおいて他のベクトル・オペレーションを遂行するた
めの手段と、を含む計算機システム。

【００６５】

【発明の効果】本発明により、計算機システムのメモリ
帯域幅を大きく増大させることなく、制限された数の命
令をより速く実行することが可能となる。

【図面の簡単な説明】

【図１】本発明の実施例に従って構成されたデータ処理
システムのブロック図を示す。

【図２】一般に利用可能なベクトル・プロセッサの概略
図を示す。

【図３】本発明によるベクトル・プロセッサの概略図で
ある。

【図４】図３のベクトル・プロセッサの処理エレメント
ＭＸＰＥの１つの詳細なブロック図である。

【図５】図３のベクトル・プロセッサのマトリクス制御
装置ＭＸＵの詳細なブロック図である。

フロントページの続き (72)発明者ランダル・ディーン・グローブスアメリカ合衆国テキサス州、オースティン、ミドルビィー・ドライブ 9002 (72)発明者フレッド・ゲールング・ガスタブソンアメリカ合衆国ニューヨーク州、ブリアクリフ・マノア、サウス・スティト・ロード 70 (72)発明者マーク・アラン・ジョンソンアメリカ合衆国テキサス州、オースティン、タレイラン・ドライブ 10105 (72)発明者ブレット・オルッソンアメリカ合衆国テキサス州、ラウンド・ロック、シンコタニュー・ウェイ 1800

Claims

【特許請求の範囲】

【請求項１】プロセッサ・サイクル・タイムを有する計
算機プロセッサにして、Ｋ個の処理エレメント（但し、Ｋ＞１）にして、前記Ｋ
個の処理エレメントの各々はＮ個のレジスタのセット
（但し、Ｎ＞１）及び演算装置を含み、前記レジスタの
各々のＩ番目のエレメントはベクトル長ＫのＩ番目のベ
クトルのための記憶ロケーションを提供し（但し、１≦
Ｉ≦Ｎ）、それによって、Ｎ個のベクトルを提供するも
のと、前記Ｎ個のベクトルの少なくとも１つの間でベクトル・
オペレーションを所定のサイクル・タイムで遂行し、前
記ベクトル・オペレーションの結果を前記Ｎ個のベクト
ルの１つに記憶するための手段にして、前記ベクトル・
オペレーションが前記Ｎ個のベクトルの少なくとも１つ
におけるＫ個のエレメントすべてに対して実質的に同時
に前記Ｋ個の演算装置によって遂行されるものと、前記所定のサイクル・タイム後の次のサイクルタイムに
おいて他のベクトル・オペレーションを遂行するための
手段と、を含む計算機プロセッサ。
【請求項２】前記Ｎ個のレジスタのセットにおける各レ
ジスタはＭ個のビット記憶ロケーション（但し、Ｍ＞
０）を有することを特徴とする請求項１に記載の計算機
プロセッサ。
【請求項３】前記ベクトル・オペレーションを遂行する
ための手段である第１演算装置及び前記他のベクトル・
オペレーションを遂行するための手段である第２演算装
置は同じ演算装置であることを特徴とする請求項１に記
載の計算機プロセッサ。
【請求項４】マトリクス制御装置を含むことを特徴とす
る請求項１に記載の計算機プロセッサ。
【請求項５】前記マトリクス制御装置を前記Ｋ個の処理
エレメントに接続するコマンド・バスを含むことを特徴
とする請求項４に記載の計算機プロセッサ。
【請求項６】前記マトリクス制御装置を前記Ｋ個の処理
エレメントに接続する少なくとも１つのデータ・バスを
含むことを特徴とする請求項４又は５に記載の計算機プ
ロセッサ。
【請求項７】前記少なくとも１つのデータ・バスは前記
Ｋ個の処理エレメントのうちの２個以上の処理エレメン
トによって共用されることを特徴とする請求項５に記載
の計算機プロセッサ。
【請求項８】サイクル・タイムを有する計算機プロセッ
サにして、マトリクス制御装置と、前記サイクル・タイムのうちの先行のベクトル・オペレ
ーションの１サイクルにおいて後続のベクトル・オペレ
ーションを遂行するための手段と、を含む計算機プロセッサ。
【請求項９】前記手段はベクトル演算オペレーションを
遂行することを特徴とする請求項８に記載の計算機プロ
セッサ。
【請求項１０】前記マトリクス制御装置を前記Ｋ個の処
理エレメントに接続するコマンド・バスと、前記マトリクス制御装置を前記Ｋ個の処理エレメントに
接続する少なくとも１つのデータ・バスと、を含むことを特徴とする請求項８に記載の計算機プロセ
ッサ。
【請求項１１】サイクル・タイムを有する計算機システ
ムにして、メイン・メモリと、キャッシュ・メモリと、記憶制御装置と、中央処理装置と、マトリクス処理装置と、前記中央処理装置から前記マトリクス処理装置に命令を
転送するためのマトリクス命令バスと、前記キャッシュ・メモリから前記マトリクス処理装置に
データを転送するための中央処理装置データ・バスと、前記中央処理装置は前記記憶制御装置と前記キャッシュ
・メモリとを介して前記メイン・メモリに接続する手段
と、前記マトリクス制御装置は前記キャッシュ・メモリを介
して前記メイン・メモリに接続する手段と、前記記憶制御装置はメモリ・アドレス・バスによって前
記メイン・メモリに接続する手段と、前記記憶制御装置は第１データ・バスによって前記中央
処理装置に接続する手段と、前記キャッシュ・メモリは第２データ・バスによって前
記マトリクス処理装置に接続する手段と、前記マトリクス処理装置は前記サイクル・タイムのうち
の先行のベクトル・オペレーションの１サイクルにおい
て後続のベクトル・オペレーションを遂行するための手
段を含むことと、Ｋ個の処理エレメント（但し、Ｋ＞１）にして、前記Ｋ
個の処理エレメントの各々はＮ個のレジスタのセット
（但し、Ｎ＞１）及び演算装置を含み、前記レジスタの
各々のＩ番目のエレメントはベクトル長ＫのＩ番目のベ
クトルのための記憶ロケーションを提供し（但し、１≦
Ｉ≦Ｎ）、それによって、Ｎ個のベクトルを提供するも
のと、前記Ｎ個のベクトルの少なくとも１つの間でベクトル・
オペレーションを所定のサイクル・タイムで遂行し、前
記ベクトル・オペレーションの結果を前記Ｎ個のベクト
ルの１つに記憶するための手段にして、前記ベクトル・
オペレーションが前記Ｎ個のベクトルの少なくとも１つ
におけるＫ個のエレメントすべてに対して実質的に同時
に前記Ｋ個の演算装置によって遂行されるものと、前記所定のサイクル・タイム後の次のサイクルタイムに
おいて他のベクトル・オペレーションを遂行するための
手段と、を含む計算機システム。
【請求項１２】サイクル・タイムを有する計算機システ
ムにして、メイン・メモリと、キャッシュ・メモリと、記憶制御装置と、中央処理装置と、マトリクス処理装置と、前記中央処理装置から前記マトリクス処理装置に命令を
転送するためのマトリクス命令バスと、前記キャッシュ・メモリから前記マトリクス処理装置に
データを転送するための中央処理装置データ・バスと、を含み、前記中央処理装置は前記記憶制御装置と前記キャッシュ
・メモリとを介して前記メイン・メモリに接続する手段
と、前記マトリクス制御装置は前記キャッシュ・メモリを介
して前記メイン・メモリに接続する手段と、前記記憶制御装置はメモリ・アドレス・バスによって前
記メイン・メモリに接続する手段と、前記記憶制御装置は第１データ・バスによって前記中央
処理装置に接続する手段と、前記キャッシュ・メモリは第２データ・バスによって前
記マトリクス処理装置に接続する手段と、前記マトリクス処理装置は、Ｋ個の処理エレメント（但し、Ｋ＞１）にして、前記Ｋ
個の処理エレメントの各々はＮ個のレジスタのセット
（但し、Ｎ＞１）及び演算装置を含み、前記レジスタの
各々のＩ番目のエレメントはベクトル長ＫのＩ番目のベ
クトルのための記憶ロケーションを提供し（但し、１≦
Ｉ≦Ｎ）、それによって、Ｎ個のベクトルを提供するも
のと、前記Ｎ個のベクトルの少なくとも１つの間でベクトル・
オペレーションを所定のサイクル・タイムで遂行し、前
記ベクトル・オペレーションの結果を前記Ｎ個のベクト
ルの１つに記憶するための手段にして、前記ベクトル・
オペレーションが前記Ｎ個のベクトルの少なくとも１つ
におけるＫ個のエレメントすべてに対して実質的に同時
に前記Ｋ個の演算装置によって遂行されるものと、前記所定のサイクル・タイム後の次のサイクルタイムに
おいて他のベクトル・オペレーションを遂行するための
手段と、を含むことを、特徴とする計算機システム。
【請求項１３】マトリクス制御装置と、前記マトリクス制御装置を前記Ｋ個の処理エレメントに
接続するためのコマンド・バスと、前記マトリクス制御装置を前記Ｋ個の処理エレメントに
接続するための少なくとも１つのデータ・バスと、を含むことを特徴とする請求項１２に記載の計算機シス
テム。
【請求項１４】サイクル・タイムを有する計算機システ
ムにして、メイン・メモリと、中央処理装置と、マトリクス処理装置と、前記中央処理装置から前記マトリクス処理装置に命令を
転送するためのマトリクス命令バスと、前記メイン・メモリから前記マトリクス処理装置にデー
タを転送するための中央処理装置データ・バスと、前記中央処理装置は第１データ・バスによって前記メイ
ン・メモリに接続する手段と、前記マトリクス制御装置は第２データ・バスによって前
記メイン・メモリに接続する手段と、前記記憶制御装置はメモリ・アドレス・バスによって前
記メイン・メモリに接続する手段と、前記マトリクス処理装置は前記サイクル・タイムのうち
の先行のベクトル・オペレーションの１サイクルにおい
て後続のベクトル・オペレーションを遂行するための手
段を含むことと、Ｋ個の処理エレメント（但し、Ｋ＞１）にして、前記Ｋ
個の処理エレメントの各々はＮ個のレジスタのセット
（但し、Ｎ＞１）及び演算装置を含み、前記レジスタの
各々のＩ番目のエレメントはベクトル長ＫのＩ番目のベ
クトルのための記憶ロケーションを提供し（但し、１≦
Ｉ≦Ｎ）、それによって、Ｎ個のベクトルを提供するも
のと、前記Ｎ個のベクトルの少なくとも１つの間でベクトル・
オペレーションを所定のサイクル・タイムで遂行し、前
記ベクトル・オペレーションの結果を前記Ｎ個のベクト
ルの１つに記憶するための手段にして、前記ベクトル・
オペレーションが前記Ｎ個のベクトルの少なくとも１つ
におけるＫ個のエレメントすべてに対して実質的に同時
に前記Ｋ個の演算装置によって遂行されるものと、前記所定のサイクル・タイム後の次のサイクルタイムに
おいて他のベクトル・オペレーションを遂行するための
手段と、を含む計算機システム。