JP2000259609A

JP2000259609A - データ処理プロセッサおよびシステム

Info

Publication number: JP2000259609A
Application number: JP11066025A
Authority: JP
Inventors: Yuichiro Morita; 雄一朗守田; Makoto Fujita; 良藤田; Eiki Kamata; 栄樹釜田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-03-12
Filing date: 1999-03-12
Publication date: 2000-09-22
Also published as: EP1035479A2; EP1035479A3; KR20010006787A; CA2299567A1

Abstract

(57)【要約】【課題】高速で、高率よく処理するデータ処理システム
を提供する。【解決手段】複数のデータを格納する領域と、領域毎に
データが格納されたか否かを示す情報を格納する領域と
を有するレジスタと、演算命令に従ってデータの演算を
実行する演算部と、演算命令とレジスタに記憶された情
報に基づいて、レジスタから演算すべきデータを読み出
して演算部へ送る制御部によってデータ処理プロセッサ
を構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、順序付けされた一
次元配列であるベクトルデータを処理するベクトル処理
プロセッサおよびシステムに関する。

【０００２】

【従来の技術】多くの科学技術計算処理では、ベクトル
データのそれぞれ連続する要素について同一の演算を繰
り返し実行する処理、いわゆるベクトル処理が大部分を
占めている。このため科学技術計算処理を処理対象とす
るスーパーコンピュータは、このベクトル処理を専用の
ハードウェア機構でパイプライン化して高速に実行する
ベクトル処理プロセッサを有している。基本的なベクト
ル処理プロセッサは、ベクトルデータの複数の要素を格
納するベクトルレジスタと、ベクトルロード命令に応答
してベクトルデータのそれぞれ連続する要素をメモリか
らベクトルレジスタに連続的にロードするベクトルロー
ド機能と、ベクトルストア命令に応答してベクトルデー
タのそれぞれ連続する要素をベクトルレジスタからメモ
リに連続的にストアするベクトルストア機能と、ベクト
ル演算命令に応答してベクトルレジスタに格納されたベ
クトルデータのそれぞれ連続する要素について同一の演
算を繰り返し実行するベクトル演算機能とを有してお
り、これらの機能を用いてベクトルデータのロード，演
算，ストアをそれぞれパイプライン的に高速に実行す
る。

【０００３】ベクトル処理プロセッサはさらに、連鎖実
行機能、いわゆるチェイニング機能によって、あるベク
トル演算命令とその演算結果に対する別のベクトル演算
命令とを並列に実行することにより、ベクトル処理のさ
らなる高速化を実現している。チェイニングとは、ある
ベクトル演算命令の演算結果が後続のベクトル演算命令
の被演算データである場合に、先行命令の完了を待つこ
となく、最初の要素の演算結果が得られた直後から後続
の命令を実行することにより、ベクトルデータの各要素
に対する演算を連鎖的に実行するものである。しかしな
がら、このチェイニング機能では後続の命令の実行タイ
ミングが最初の要素の演算結果が得られた時点でしか決
まらないため、先行命令の実行結果が連続して得られる
ことが保証されている場合にのみ使用でき、データ読み
出しタイミングが保証されないメモリアクセスを伴うベ
クトルロード命令には使用できなかった。

【０００４】このようなチェイニングの問題点を解決
し、ベクトル処理の一層の高速化を実現するために、後
続の命令の実行タイミングを各要素毎に判定してチェイ
ニングを動的に行う新たなチェイニングが提案されてい
る。この動的なチェイニングによれば、ベクトルロード
命令やベクトル演算命令を実行中、どの要素までロード
または演算が完了したかをポインタやフラグによって逐
次明示し、このポインタまたはフラグを参照して後続の
ベクトル演算命令またはベクトルストア命令の実行タイ
ミングを各要素毎に判定して動的に実行するので、ベク
トルロード命令を実行中にメモリアクセス競合などによ
ってロード遅延が不規則に生じる場合でもチェイニング
が可能になり、ベクトル処理のさらなる高速化を実現で
きる。なお、この種の装置として関連するものには例え
ば特許第1448566号，同2577865号，特開平8−202687号
などが挙げられる。

【０００５】

【発明が解決しようとする課題】上述した動的なチェイ
ニングは、メモリアクセス競合などによってベクトルデ
ータのある要素のロード遅延が生じた場合、後続のベク
トル演算命令やベクトルストア命令をこの要素の処理の
直前で一時的に停止させ、同要素のロード完了後に再開
させることにより、データ読み出しタイミングが保証さ
れないメモリアクセスを伴うベクトルロード命令のチェ
イニングを可能にした。しかしながら、ロード遅延によ
って後続のベクトル演算命令やベクトルストア命令が停
止してしまう点がベクトル処理プロセッサおよびシステ
ムのさらなる高速化の障害となることは明白である。

【０００６】本発明の目的は、従来技術の問題点を克服
し、ベクトル処理命令の動的なチェイニングにおいてロ
ード遅延によって生じる処理停止時間を低減し、ベクト
ル処理のさらなる高速化を実現するベクトル処理プロセ
ッサおよびシステムを提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するため
のデータ処理システムは、データ処理プロセッサ，メモ
リ部又は、データ処理プロセッサ，スイッチ部，メモリ
部とを有し、それぞれ次のような特徴を有している。

【０００８】データ処理プロセッサは、演算処理を高速
に実行するために複数のデータを格納する領域と領域毎
にデータが格納されたか否かを示す情報を格納する領域
とを有するレジスタを有している。また、このレジスタ
にデータを格納するため、レジスタに格納するデータを
読み込むためのアドレス情報を出力するデータ入力部を
有している。このアドレス情報には、少なくともメモリ
のアドレス，個々のデータを識別する識別情報，送信元
のプロセッサを示す識別情報、あるいはこれらを意味す
る情報が含まれる。

【０００９】また、レジスタに記憶された任意のデータ
について演算を行うようにするため、演算命令とレジス
タに記憶された情報に基づいてレジスタから演算すべき
データを読み出して演算部へ送る制御部を有している。

【００１０】また、任意に演算結果を外部へ出力するた
めに、複数のデータを格納する領域と領域毎に格納され
たデータが演算結果であるか否かを示す情報を格納する
領域とを有するレジスタ、レジスタに記憶された情報に
基づいてレジスタに格納された演算結果を読み出してア
ドレス情報とともに出力するデータ出力部とを有してい
る。

【００１１】スイッチ部（調停部）は、１つ又は複数の
プロセッサと１つ又は複数のメモリとの間での高率よく
アクセスを実行するためにメモリの状態とプロセッサか
らのアドレス情報に基づいて、このアドレス情報を転送
すべきタイミングを決定する。これは、転送可能なメモ
リへ転送すべきアドレス情報を転送することによって実
現する。

【００１２】また、複数のプロセッサと複数のメモリと
の間で高率よくアクセスを実行するために、プロセッサ
からメモリへアドレス情報を転送するアドレス情報転送
部とメモリからプロセッサへデータを転送するデータ転
送部とを有している。

【００１３】メモリ部は、他のメモリとの間で高率よく
アクセスがされるように、アクセス情報を受け入れるこ
とができるか否かの情報を出力する。また、データを出
力するときにアクセス情報に含まれる情報をデータに付
加して出力する。

【００１４】また、上記目的を達成するためのデータ処
理システムにおいて、データ処理プロセッサは返送先情
報とアドレスとを出力し、メモリはアドレスに基づいて
読み出したデータと返送先情報とを出力することで高速
にデータ処理を実行することができる。

【００１５】更に、１つ又は複数のメモリと１つ又はプ
ロセッサとの間に接続され、プロセッサから出力された
アドレス情報とメモリから出力される信号に基づいて、
メモリへアドレス情報を出力するタイミングを決定する
スイッチ部によってデータ処理システムを構成すること
によりデータ処理の高率を向上させることができる。ま
た、ベクトルを構成する複数のデータについて同一の演
算を繰り返し実行する複数のベクトル処理プロセッサ
と、実行すべき命令がベクトル処理命令の場合に、いず
れかのベクトル処理プロセッサを選択し、選択されたベ
クトル処理プロセッサにベクトル処理命令を転送するプ
ロセッサとを有するデータ処理システムを構成すること
により、処理を分散させることができるので高率よく処
理を行うことができる。

【００１６】また、複数のデータ処理装置が接続されて
構成されるデータ処理システムであって、それぞれのデ
ータ処理装置は、データ処理装置間のデータの転送を行
う通信部と、データを格納するメモリと、メモリから読
み出したデータの演算を行うプロセッサとを有し、プロ
セッサは、処理すべきデータに対する返送先情報をアド
レスとともに出力し、メモリはアドレスに基づいて読み
出したデータと返送先情報とを出力するデータ処理シス
テムを構成することによって、効率の良い大規模なデー
タ処理システムを構成することができる。

【００１７】

【発明の実施の形態】以下、本発明にかかる実施例につ
いて図面を参照して説明する。

【００１８】図８に、本発明にかかるデータ処理システ
ムの第１の構成図を示す。

【００１９】このデータ処理システムは、プログラムの
命令解読とスカラ命令を実行するスカラ処理部６と、ベ
クトル処理を実行するベクトル処理部１と、データを格
納するメモリ部８と、スカラ処理部６およびベクトル処
理部１をメモリ部８と接続するスイッチ部７とを有して
構成される。本実施例では、ベクトルを構成する要素で
あるデータの集合をベクトルデータとして以下説明す
る。このスカラ処理部６，ベクトル処理部１，メモリ格
納部８，スイッチ部７は、それぞれ別々の半導体集積回
路で構成されたものであっても良いが、１つの半導体集
積回路で構成すればデータを転送するための信号線を多
くとることができ、チップ間でのデータ転送のためのド
ライバを不要とすることができるのでより高速で、高率
の良いデータ処理システムを構成することができる。

【００２０】更に、スカラ処理部６，ベクトル処理部１
を１つの半導体集積回路で、またスカラ処理部６，ベク
トル処理部１，スイッチ部７とを１つの半導体集積回路
で構成すると、メモリ部８の構成を自由に変えることが
可能となる。つまり、メモリ部８の容量を自由に変える
ことができるのでより汎用性が高くなる。

【００２１】スカラ処理部６は、プログラムの命令を解
読してそれがスカラ命令であれば本命令を実行し、ベク
トル命令であればベクトル処理部１にこのベクトル命令
６１を送信する。

【００２２】ベクトル処理部１は、スカラ処理部６から
受信したベクトル命令６１を解読する命令解読回路２
と、ベクトルデータのそれぞれ連続する要素ついて同一
の演算を繰り返し実行する演算ユニット１０と、演算ユ
ニット１０に供給するベクトルデータや演算ユニット１
０が出力する演算結果を一時的に格納するレジスタを複
数備えるレジスタ機構２０と、メモリ部８からベクトル
データを読み出してレジスタ機構２０のレジスタに書き
込むロードユニットＶＬＵ１(３０)およびＶＬＵ２(４
０)と、レジスタ機構２０のレジスタからベクトルデー
タを読み出してメモリ部８に書き込むストアユニットＶ
ＳＵ(５０)とを有して構成される。

【００２３】命令解読回路２は、スカラ処理部６からベ
クトル命令６１を受信すると、同命令コードとオペラン
ドを解読して同命令を実行するように演算ユニット１
０，レジスタ機構２０，ロードユニットＶＬＵ１(３０)
およびＶＬＵ２(４０)，ストアユニットＶＳＵ(５０)に
指令を出す。

【００２４】演算ユニット１０は、命令解読回路２から
ベクトル演算命令実行の指令を受けると、同ベクトル演
算命令のオペランドで指定されたレジスタ機構２０の１
つまたは複数のレジスタからベクトルデータを要素毎に
読み出し、そしてベクトル演算命令の命令コードで指定
された演算を要素毎にパイプライン的に施し、その演算
結果をベクトル演算命令のオペランドで指定されたレジ
スタ機構２０のレジスタに要素毎に書き込む。

【００２５】レジスタ機構２０は、最大ｎ個の要素から
なるベクトルデータを格納可能なレジスタを複数有して
おり、演算対象のベクトルデータや演算結果のベクトル
データを一時的に格納する。

【００２６】ロードユニットＶＬＵ１(３０)およびＶＬ
Ｕ２(４０)はそれぞれ、命令解読回路２からロード命令
実行の指令を受けると、ロード命令のオペランドで指定
されたメモリ部８の領域にあるベクトルデータを読み出
し、そしてロード命令のオペランドで指定されたレジス
タ機構２０のレジスタに書き込む。このロードでは、ベ
クトルデータのリード要求を要素単位で個別にメモリ部
８に送信し、そして読み出した各要素のデータをレジス
タ機構２０のレジスタに書き込む動作を全ての要素に対
して繰り返し実行する。本実施例ではＶＬＵ１(３０)と
ＶＬＵ２(４０)によって２つのベクトルロード命令を同
時に実行することができるが、さらにロードユニットの
数を増やして、より多くのベクトルロード命令を同時に
実行するようにしても良いし、逆にロードユニットを１
つだけにして、ベクトルロード命令を１つずつ実行する
代りに回路規模を減らすようにしても良い。

【００２７】ストアユニットＶＳＵ(５０)は、命令解読
回路２からベクトルストア命令実行の指令を受けると、
ベクトルストア命令のオペランドで指定されたレジスタ
機構２０のレジスタに格納されているベクトルデータを
読み出し、そしてベクトルストア命令のオペランドで指
定されたメモリ部８の領域に書き戻す。ストアユニット
によるベクトルデータのストアでは、レジスタ機構２０
のレジスタからベクトルデータを要素毎に読み出して各
要素のライト要求をそれぞれメモリ部８に送信し、そし
て各要素をメモリ部８に書き込む。本実施例ではストア
ユニットＶＳＵ(５０)によって１つのベクトルストア命
令を実行することができるが、さらにストアユニットの
数を増やして、複数のベクトルストア命令を同時に実行
するようにしてもよい。

【００２８】メモリ部８は、複数のメモリモジュール
(ＭＭ０，ＭＭ１,…,ＭＭＪ−１)８０を有してインタリ
ーブを実現する。各メモリモジュールは各々独立にライ
ト要求，リード要求を受信してメモリアクセスを実行す
る。これにより、あるメモリモジュールがアクセス中で
あっても他のメモリモジュールへのアクセスは実行可能
になる。

【００２９】スイッチ部７は、スカラ処理部６およびベ
クトル処理部１のＶＬＵ１(３０)，ＶＬＵ２(４０)，Ｖ
ＳＵ(５０)からメモリ部８の各メモリモジュール８０へ
のアクセス経路を確立する。スイッチ部７は、スカラ処
理部６，ベクトル処理部１のＶＬＵ１(３０)，ＶＬＵ２
(４０)，ＶＳＵ(５０)がそれぞれ出力するメモリアクセ
ス要求６２，３１，４１，５１をアクセス先のメモリモ
ジュール８０に送信し（８１−０，８１−１，８１−
２，…，８１−ｊ−１）、各メモリモジュール８０がそ
れぞれ出力するリードデータ８２−０，８２−１，８２
−２，…，８２−ｊ−１をアクセス元のスカラ処理部
６，ベクトル処理部１のＶＬＵ１(３０)，ＶＬＵ２(４
０)に送信する（６３，３２，４２）。

【００３０】図１に、本発明にかかるレジスタ機構２０
と演算ユニット１０の詳細構成を示す。

【００３１】レジスタ機構２０は、複数のレジスタから
なるレジスタファイル２００を有しており、各レジスタ
はベクトルデータの要素をｎ個まで記憶可能である。本
図ではレジスタを（ＶＥ(ｉ，０)，ＶＥ(ｉ，１)，ＶＥ
(ｉ，２),…,ＶＥ(ｉ，ｊ),…，ＶＥ(ｉ，ｎ−１)）の
ように表記しており、ＶＥ(ｉ，ｊ)は要素を示し、括弧
内のｉはレジスタ番号、ｊは要素番号を示している。レ
ジスタファイル２００の各レジスタの個々の要素はレジ
スタ番号と要素番号でアドレスされ（以下、要素アドレ
スと呼ぶ）、３つのライトポート２０１，２０２，２０
６から各々独立にベクトルデータを要素単位で書き込む
ことが可能であり、さらに、３つのリードポート２０
３，２０４，２０５から各々独立にベクトルデータを要
素単位で読み出すことが可能である。

【００３２】ライトポート２０１は、ロードユニットＶ
ＬＵ１(３０)からレジスタライトコマンド／要素アドレ
ス３１０とデータ３２０を受信すると、同要素アドレス
で指定されたレジスタの要素にデータを書き込む。ライ
トポート２０２も同様に、ロードユニットＶＬＵ２(４
０)からレジスタライトコマンド／要素アドレス４１０
とデータ４２０を受信すると、同要素アドレスで指定さ
れたレジスタの要素にデータを書き込む。ライトポート
２０６も同様に、演算ユニット１０からレジスタライト
コマンド／要素アドレス１０２０とデータ１０３を受信
すると、同要素アドレスで指定されたレジスタの要素に
データを書き込む。

【００３３】また、リードポート２０４および２０５
は、演算ユニット１０からレジスタリードコマンド／要
素番号１２４を受信すると、同要素番号と、図示してい
ないが命令解読回路２が指示する演算対象のレジスタ番
号とでそれぞれ指定されたレジスタの要素からデータを
読み出し、演算ユニット１０に読み出したデータ２０
８，２０９を出力する。リードポート２０３は、ストア
ユニット(ＶＳＵ)５０からのレジスタリードコマンド／
要素アドレス５１０を受信すると、同要素アドレスで指
定されたレジスタの要素からデータを読み出し、ストア
ユニット（ＶＳＵ）５０に読み出したデータ２０７を出
力する。

【００３４】レジスタ機構２０はさらに、レジスタファ
イル２００の各レジスタの各要素毎にデータが書き込ま
れたことを示すライト完了フラグ２２０と、ライト完了
フラグ２２０のセット／リセットを実行するフラグ制御
回路２２１と、ライト完了フラグ２２０のセット／リセ
ット状態を参照するためのフラグ参照回路２２２とを有
している。

【００３５】ライト完了フラグ２２０はレジスタファイ
ル２００の各レジスタの各要素にそれぞれ対応する１ビ
ットのフラグであり、各フラグのセット状態は論理値
１，リセット状態は論理値０である。本図ではライト完
了フラグをＷ(ｉ,ｊ）のように表記しており、括弧内の
ｉは対応するレジスタのレジスタ番号、ｊは対応する要
素の要素番号を示している。

【００３６】フラグ制御回路２２１は、命令解読回路２
の指令信号３に従い、ベクトル命令実行においてベクト
ルデータが書き込まれるレジスタ、例えば、データロー
ド命令におけるロード・データの格納先レジスタや演算
命令における演算結果の格納先レジスタ、の全ての要素
に対応するライト完了フラグ２２０を予めリセットす
る。そして、演算ユニット１０,ロードユニットＶＬＵ
１(３０),ＶＬＵ２(４０)のそれぞれからレジスタライ
トコマンド／要素アドレス１０２，３１０，４１０を受
信すると、同要素アドレスで指定されたレジスタの要素
に対応するライト完了フラグ２２０をセットする。すな
わち、演算ユニット１０，ロードユニットＶＬＵ１(３
０)，ＶＬＵ２(４０)がレジスタファイル２００のある
レジスタの要素にデータを書き込むと、同要素に対応す
るライト完了フラグ２２０がセットされることになる。

【００３７】フラグ参照回路２２２は、命令解読回路２
の指令信号３に従い、ベクトル命令実行においてベクト
ルデータが読み出されるレジスタ、例えば、ベクトルス
トア命令におけるストア対象のレジスタやベクトル演算
命令における演算対象のレジスタの全ての要素に対応す
るライト完了フラグ２２０の値を演算ユニット１０やス
トアユニット(ＶＳＵ)５０に常時出力する。実行するベ
クトル命令がベクトル演算命令でかつオペランドで指定
された演算対象のレジスタが１つであれば、同レジスタ
の全ての要素に対応するライト完了フラグ２２０の値を
ライト完了フラグ値２２４として演算ユニット１０に出
力し、実行するベクトル命令が演算命令でかつオペラン
ドで指定された演算対象のレジスタが２つであれば、２
つのレジスタの全ての要素に対応するライト完了フラグ
２２０の値をそれぞれライト完了フラグ値２２４，２２
５として演算ユニット１０に出力し、実行するベクトル
命令がストア命令であれば、同レジスタの全ての要素に
対応するライト完了フラグ２２０の値をライト完了フラ
グ値２２３としてストアユニット(ＶＳＵ)５０に出力す
る。

【００３８】演算ユニット１０は、１つまたは２つのベ
クトルデータを要素毎にパイプライン的に演算してその
結果をベクトルデータとして出力する演算パイプライン
100と、レジスタ機構２０から演算パイプライン１００
へのベクトルデータの供給を制御するリード同期回路１
２０と、演算パイプライン１００にベクトルデータの各
要素が供給された時に同時にそれらの要素アドレスが入
力され、入力された要素アドレスを演算に要する時間だ
け遅延させて演算結果の出力と同時に出力する遅延回路
１０１とを有して構成される。

【００３９】ベクトル演算パイプライン１００は、整数
演算，浮動小数点演算，論理演算などの各種演算を実行
する１または複数の演算パイプラインを有し、レジスタ
ファイル２００から供給されるベクトルデータの演算と
レジスタファイル２００への演算結果の書き込みを複数
のステージに分割して要素単位でパイプライン的に実行
する。２つ以上のベクトルデータに対する演算、例えば
２つのベクトルデータの和算などは、各ベクトルの要素
番号が同一である要素同士の演算をそれぞれ独立に実行
する。演算パイプライン１００は、命令解読回路２の指
令信号３に従い、レジスタファイル２００から供給され
る１つまたは２つのベクトルデータ208,２０９に命令コ
ードで指定された演算を要素毎に施し、演算で決まるパ
イプライン・ステージ数だけ経過後にその演算結果１０
３を要素毎に出力する。

【００４０】リード同期回路１２０は、命令解読回路２
の指令信号３に従い、オペランドで指定されたレジスタ
ファイル２００のレジスタ上のベクトルデータを要素単
位で読み出して演算パイプライン１００に供給する制御
を実行する。オペランドで指定された演算対象のレジス
タが１つであれば、ライト完了フラグ値２２４を参照し
て書き込みが完了した要素から１つずつ選択し、同要素
の読み出し要求コマンドおよびアドレス１２４をレジス
タ機構２０のリードポート２０４に送信する動作を、全
要素の読み出しが完了するまで繰り返し実行する。ま
た、演算対象のレジスタが２つであれば、ライト完了フ
ラグ値２２４および２２５を参照して両レジスタの同一
要素番号のいずれも書き込みが完了した要素から１組ず
つ選択し、同要素のレジスタリードコマンド／要素番号
１２４をレジスタ機構２０のリードポート２０４および
２０５に出力する動作を、全要素の読み出しが完了する
まで繰り返し実行する。リードポート２０４および２０
５は、リード同期回路１２０からレジスタリードコマン
ド／要素番号１２４を受信すると、それぞれ命令解読回
路２から指示された演算対象のレジスタから同要素番号
１２４で指定された要素のデータ２０８，２０９を読み
出して演算パイプライン１００に供給する。これによ
り、演算対象のベクトルデータの各要素はそれらの要素
番号の順番に関係なく、同一要素番号の要素が全てレジ
スタファイルに格納されて演算可能な状態になったもの
から順次演算パイプライン１００に供給されることにな
る。

【００４１】遅延回路１０１は、リード同期回路１２０
がリードポート２０４，２０５に送信した要素番号１２
４、即ち演算パイプライン１００に供給された要素デー
タの要素番号と、図示していないが命令解読回路２が指
示する演算結果格納先のレジスタ番号とからなる要素ア
ドレスが入力され、そして演算に要する時間と同じ時間
だけ同要素番号を遅延させてレジスタライトコマンドと
ともに出力する（102)。このため、演算パイプライン１
００が演算結果１０３を出力するとともに、遅延回路１
０１が演算結果の格納先である要素アドレスとレジスタ
ライトコマンド１０２を出力することになる。なお、遅
延回路１０１による要素アドレス１０２の出力遅延時間
を演算時間よりも一定時間だけ短くし、演算結果よりも
先行してレジスタライトコマンド／要素アドレス１０２
を出力するようにして、レジスタファイル２００への演
算結果の書き込み時間を短縮してもよい。

【００４２】以上のレジスタ機構２０と演算ユニット１
０では、演算パイプラインに供給されるベクトルデータ
が１または２としているが、３つ以上のベクトルデータ
に対するベクトル演算、例えば２つのベクトルデータの
積算およびその演算結果と第３のベクトルデータとの和
算を同時に実行する３ベクトルデータの積和演算などを
実行できるように、レジスタファイル２００にリードポ
ートをさらに追加し、フラグ参照回路２２２からリード
同期回路１２０へのライト完了フラグ値の出力数をさら
に増やし、リード同期回路１２０が３つ以上の演算対象
ベクトルレジスタのライト完了フラグ値を参照してレジ
スタリードコマンド／要素番号１２４をレジスタファイ
ル２００の３つ以上のリードポートに出力するようにし
て、ベクトル演算パイプライン１００に３つ以上のベク
トルデータを供給できるようにしてもよい。

【００４３】図２に、本発明にかかるリード同期回路１
２０の詳細構成を示す。リード同期回路１２０は、演算
対象のレジスタの各要素毎に書き込みが完了してかつ読
み出しが未完了であるかを判定する論理積回路１２１
と、書き込みが完了してかつ読み出しが未完了である要
素の中から１つを選択してその要素番号を出力する要素
番号選択回路１２２と、レジスタから読み出して演算パ
イプライン１００に供給したことを要素毎に示すリード
完了フラグ１２３とを有して構成される。

【００４４】論理積回路１２１は、命令解読回路２の指
令信号３に従い、演算対象のレジスタが１つであれば、
各要素毎にライト完了フラグ値２２４とリード完了フラ
グ１２３の論理反転値１２５との論理積の値を出力し、
演算対象のレジスタが２つであれば、各要素毎にライト
完了フラグ値２２４および２２５と、リード完了フラグ
１２３の論理反転値１２５との論理積の値を出力する。
これにより、演算対象のレジスタの各要素毎に、要素番
号が同一である全ての要素の書き込みが完了してかつ読
み出しが未完了である場合は１が出力され、それ以外の
場合には０が出力される。

【００４５】要素番号選択回路１２２は、論理積回路１
２１の各要素毎の出力を受信して、同出力値が１である
要素、すなわち、要素番号が同一である全ての要素が書
き込みが完了してかつ読み出しが未完了である要素の中
から最小の要素番号を選択し、その要素のレジスタリー
ドコマンド／要素番号１２４を出力する。

【００４６】リード完了フラグ１２３は、命令解読回路
２の指令信号３に従い、ベクトル演算の開始前に要素番
号０から命令で指定された処理対象の要素数と同数のフ
ラグをリセットし、残りのフラグをセットする。そし
て、要素番号選択回路１２２がレジスタリードコマンド
／要素番号１２４を出力する毎に、その要素番号に対応
するフラグをセットする。このため、読み出しが完了し
た要素は要素番号選択回路１２２における選択候補から
逐次はずされ、最終的に全ての演算対象要素が読み出さ
れてリード完了フラグ１２３が全てセットされると、要
素番号選択回路１２２からの読み出し要求コマンドおよ
び要素番号１２４の出力は終了する。なお、リード完了
フラグ１２３が全てセットされた時点は演算対象のベク
トルレジスタのデータが全て演算パイプライン１００に
供給された時点であり、同レジスタを解放することがで
き、また、同時点から演算によって決まる演算時間が経
過した時点でベクトル演算が完了することになる。した
がって、図示はしていないが、リード完了フラグ１２３
が全てセットされた時点、あるいはそれから演算時間が
経過した時点にリード同期回路１２０が命令解読回路２
またはスカラ処理部６にベクトル演算命令の実行完了を
通知するようにしてもよい。

【００４７】以上のリード同期回路１２０によれば、演
算対象のレジスタに要素が書き込まれて同一要素番号の
全ての要素の書き込み完了フラグがセットされると、直
ちにそれらの要素を演算パイプライン１００に供給され
るので、演算対象のベクトルデータの各要素はそれらの
要素番号の順番に関係なく、同一要素番号の要素が全て
レジスタファイルに格納されて演算可能な状態になった
ものから順次演算パイプライン１００に供給されること
になる。

【００４８】図３に、本発明にかかるロードユニットＶ
ＬＵ１(３０)の詳細構成を示す。なお、ロードユニット
ＶＬＵ２(４０)も同じ構成である。

【００４９】ロードユニットＶＬＵ１(３０)は、ロード
元のメモリの先頭アドレスと、ストライド値と、要素数
と、ロード先のベクトルレジスタ番号をそれぞれ記憶す
るメモリアドレスバッファ(adr)３０３，ストライド値
バッファ(std)３０４，要素数バッファ(num)３０５，レ
ジスタ番号バッファ(reg)３０６と、メモリへのデータ
リードを制御するメモリリード制御回路３０２と、レジ
スタへのデータライトを制御するレジスタライト制御回
路３０１と、メモリから読み出したデータを一時的に格
納するデータバッファ３０８と、同データのロード先で
ある要素番号を一時的に格納する要素番号バッファ３０
７とを有して構成される。

【００５０】ロードユニットＶＬＵ１(３０)は、命令解
読回路２の指令信号３に従ってベクトルロード命令を実
行する。ロードユニットＶＬＵ１(３０)は、指令信号３
で指示されたロード対象のベクトルデータが記憶されて
いるメモリ上の先頭アドレスと、ストライド値と、要素
数と、ロード先のレジスタ番号をそれぞれメモリアドレ
スバッファ３０３，ストライド値バッファ３０４，要素
数バッファ３０５，レジスタ番号バッファ３０６に記憶
し、そしてメモリリード制御回路３０２を起動する。

【００５１】メモリリード制御回路３０２はメモリに対
してベクトルデータの読み出しを要素単位で実行する。
メモリリード制御回路３０２は、メモリアドレスバッフ
ァ３０３の値、すなわちベクトルデータの先頭アドレス
をリードアドレスとしたメモリリードコマンド３１を出
力し、続いて同リードアドレスにストライド値バッファ
３０４の値を加算した値をリードアドレスとしたメモリ
リードコマンド３１を出力し、続いて同リードアドレス
にストライド値バッファ３０４の値をさらに加算した値
をリードアドレスとしたメモリリードコマンド３１を出
力する、という動作を要素数バッファ３０５の値と同一
回数だけ繰り返し実行してベクトルデータの各要素の読
み出しをメモリに要求する。メモリリード制御回路３０
２はさらに、０，１，２，…と連続した番号を各々のメ
モリリードコマンドに出力順に付加してこれを各メモリ
リードコマンドに対応するリードデータの格納先要素番
号とし、さらにメモリリード要求元がロードユニットＶ
ＬＵ１(３０)であることを明示する同一のアクセス元番
号を各々のメモリリードコマンドに付加する。メモリは
このメモリリードコマンドを受信すると、リードアドレ
スで指定されたデータを読み出し、これにメモリリード
コマンドの要素番号とアクセス元番号を付加してロード
ユニットＶＬＵ１(３０)に返送する。メモリリード制御
回路３０２は受信したリードデータ３２のアクセス元番
号をチェックして、自己のメモリリードコマンドに対す
るリードデータであると判定された場合、そのデータと
要素番号をそれぞれデータバッファ３０８と要素番号バ
ッファ３０７に格納し、レジスタライト制御回路３０１
にデータ受信信号３０９を送信してリードデータのレジ
スタへの書き込みを指示する。

【００５２】レジスタライト制御回路３０１はレジスタ
ファイル２００のレジスタに対してメモリから読み出し
たベクトルデータの書き込みを要素単位で実行する。レ
ジスタライト制御回路３０１は、メモリリード制御回路
３０２からデータ受信信号３０９を受信すると、レジス
タ番号バッファ３０６が示すロード先のレジスタ番号と
要素番号バッファ３０７に格納された要素番号からを要
素アドレスとするレジスタライトコマンド３１０を出力
するとともに、データバッファ３０８に格納されたデー
タ３２０をレジスタファイル２００のライトポート２０
１に出力する。

【００５３】このように、ロードユニットＶＬＵ１(３
０)において、メモリからベクトルデータを要素単位で
読み出す時にそれらのメモリリードコマンドに要素番号
を付加してメモリに送信し、メモリが読み出したデータ
にその要素番号を付加してロードユニットＶＬＵ１(３
０)に返送するようにすれば、ロードユニットVLU1(30)
によるメモリリード要求の順番とメモリによるリードデ
ータ返送の順番が一致しなくても、ロードユニットＶＬ
Ｕ１(３０)はメモリから返送されたリードデータをレジ
スタの正しい要素番号に書き込むことができる。

【００５４】図４に、本発明にかかるストアユニットＶ
ＳＵ(５０)の詳細構成を示す。

【００５５】ストアユニットＶＳＵ(５０)は、ストア先
であるメモリの先頭アドレスと、ストライド値と、要素
数と、ストア元のベクトルレジスタ番号をそれぞれ記憶
するメモリアドレスバッファ(adr)５０３，ストライド
値バッファ(std)５０４，要素数バッファ(num)５０５，
レジスタ番号バッファ(reg)５０６と、メモリへのデー
タライトを制御するメモリライト制御回路５０２と、レ
ジスタからのデータリードを制御するレジスタリード制
御回路５０１と、リード同期回路５２０と、レジスタか
ら読み出したデータを一時的に格納するデータバッファ
５０８とを有して構成される。

【００５６】ストアユニットＶＳＵ(５０)は命令解読回
路２の指令信号３に従ってベクトルストア命令を実行す
る。ストアユニットＶＳＵ(５０)は、指令信号３で指定
されたメモリ上のストア先頭アドレスと、ストライド値
と、要素数と、ストア対象のレジスタ番号をそれぞれメ
モリアドレスバッファ５０３，ストライド値バッファ５
０４，要素数バッファ５０５，レジスタ番号バッファ５
０６に記憶し、そしてリード同期回路５２０，レジスタ
リード制御回路５０１，メモリライト制御回路５０２を
起動する。

【００５７】リード同期回路５２０は図２で説明した演
算パイプライン１００のリード同期回路１２０と同様の
構成であるが、常に１つのレジスタのライト完了フラグ
のみを参照する点だけがリード同期回路１２０と異な
り、図５のような構成となる。リード同期回路５２０
は、ベクトルストアの開始前にリード完了フラグ５２３
の要素番号０から命令で指定された処理対象の要素数と
同数のフラグをリセットし、残りのフラグをセットす
る。そして、要素番号選択回路５２２によってライト完
了フラグ値２２３とリード完了フラグ５２３を参照して
書き込み完了かつ読み出し未完了の要素を１つ選択し、
その要素番号５２４をレジスタリード制御回路５０１に
出力するとともに、その要素番号に対応するリード完了
フラグ５２３をセットする。このため、読み出しが完了
した要素は要素番号選択回路５２２における選択候補か
ら逐次はずされ、最終的に全ての演算対象要素が読み出
されてリード完了フラグ５２３が全てセットされると、
要素番号選択回路５２２からの読み出し要求コマンドお
よび要素番号５２４の出力は終了する。なお、リード完
了フラグ５２３が全てセットされた時点はストア対象の
レジスタのデータが全てストアユニットＶＳＵ(５０)に
供給された時点であり、同レジスタを解放することがで
きる。したがって、図示はしていないが、リード完了フ
ラグ５２３が全てセットされた時点、あるいはそれから
演算時間が経過した時点にリード同期回路５２０が命令
解読回路２またはスカラ処理部６にベクトルストア命令
の実行完了を通知するようにしてもよい。

【００５８】レジスタリード制御回路５０１は、リード
同期回路５２０による要素番号524の出力に応答して、
指定されたレジスタの該当要素の読み出しを実行する。
レジスタリード制御回路５０１は、リード同期回路５２
０から要素番号５２４を受信すると、レジスタ番号バッ
ファ５０６の値、すなわちストア対象のレジスタ番号と
要素番号５２４で生成される要素アドレスおよびレジス
タリードコマンド510をレジスタファイル２００のリー
ドポート２０３に出力する。そしてリードポート２０３
から返送されたデータをデータバッファ５０８に格納
し、メモリライト制御回路５０２にデータ受信信号５０
９を送信してデータの着信を通知する。

【００５９】メモリライト制御回路５０２はメモリに対
してベクトルデータの書き込みを要素単位で実行する。
メモリライト制御回路５０２は、レジスタリード制御回
路５０１からの最初のデータ受信信号５０９を受信する
と、メモリアドレスバッファ５０３の値、すなわちベク
トルデータの先頭アドレスをライトアドレスとしたメモ
リライトコマンド５１−１とデータバッファ５０８に格
納されたデータ５１−２を出力し、次のデータ受信信号
５０９を受信すると、同ライトアドレスにストライド値
バッファ５０４の値を加算した値をライトアドレスとし
たメモリライトコマンド５１−１とデータバッファ５０
８に格納されたデータ５１−２を出力し、さらに次のデ
ータ受信信号５０９を受信すると、同ライトアドレスに
ストライド値バッファ５０４の値をさらに加算した値を
ライトアドレスとしたメモリライトコマンド５１−１と
データバッファ５０８に格納されたデータ５１−２を出
力する、という動作を要素数バッファ５０５の値と同一
回数だけ繰り返し実行してベクトルデータの各要素の書
き込みをメモリに要求する。このように、ストアユニッ
トＶＳＵ(５０)において、ストア対象のレジスタからベ
クトルデータを要素単位で読み出す時に、それらのライ
ト完了フラグをリード同期回路５２０でチェックし、書
き込み完了フラグがセットされると直ちにその要素をレ
ジスタから読み出してメモリにストアするので、演算ユ
ニット１０の演算パイプライン100が演算結果をレジス
タに要素単位に書き込むと、直ちにそれらの演算結果を
メモリにストアでき、しかも、ストアする順番は要素番
号に拘束されることはない。図６に、本発明にかかるメ
モリ部８のメモリモジュール（ＭＭ０，ＭＭ１,…,ＭＭ
Ｊ−１）８０の詳細構成を示す。

【００６０】メモリモジュール８０は、スイッチ部７か
ら受信したメモリリード／ライトコマンド，アクセス先
のアドレス，ライトデータ，要素番号，アクセス元番号
の組８１−０を１つまたは複数格納するアクセス要求バ
ッファ８０２と、リードデータ，要素番号，アクセス元
番号の組を１つまたは複数格納するアクセス返送バッフ
ァ８０５と、１つまたは複数のメモリバンク８０１と、
メモリバンクへのアクセスを制御するバンク制御回路８
０３と、リードデータの返送を制御するデータ返送制御
回路８０４で構成される。

【００６１】メモリモジュール８０はアクセス要求バッ
ファ８０２にスイッチ部７から受信したメモリリード／
ライトコマンドおよびアクセス先アドレス８０２１，要
素番号とアクセス元番号８０２２，ライトデータ８０２
３をそのアクセスが完了するまで一時的に格納し、アク
セス要求バッファ８０２の空き数が一定数以下になった
ときに、バッファの空き数が再び一定数を越えるように
なるまでスイッチ部７に対してビジー信号８０６を出力
する。

【００６２】メモリバンク８０１はそれぞれ、一度に１
つのメモリアクセスしか実行できない。このため同一の
メモリバンクに対して複数のメモリアクセスを実行しよ
うとした場合、逐次実行することになる。一方、異なる
メモリバンクに対して複数のメモリアクセスを実行しよ
うとした場合、それらは同時に実行可能である。そこ
で、バンク制御回路８０３は、アクセス要求バッファ８
０２に格納されたメモリアクセス要求の中から、メモリ
アクセスが実行されていないメモリバンク８０１に対す
るものを選択して同バンクにメモリリード／ライトコマ
ンドおよびアクセス先アドレス８０３１と、ライトアク
セスであればライトデータ８０３３を送信する。このメ
モリアクセス要求の選択はアクセス要求バッファ８０２
に格納した順序に拘束されないが、選択可能なメモリア
クセス要求が複数存在する場合はバッファに格納した順
序に選択するのが好ましい。なお、メモリアクセス要求
がリードアクセスであれば、アクセス返送バッファ８０
５に空きがあることも実行条件に加わる。リードアクセ
スを実行する際は、予めアクセス返送バッファ８０５の
空きを１つ確保しておき、メモリバンク８０１から読み
出したリードデータ８０１１をこのアクセス返送バッフ
ァ８０５に格納するとともに、アクセス要求バッファ８
０２に格納されていた同リードアクセスの要素番号およ
びアクセス元番号８０３２もアクセス返送バッファ８０
５に格納する。

【００６３】データ返送制御回路８０４は、アクセス返
送バッファ８０５に格納されたリードデータに要素番号
とアクセス元番号を付加して出力する（８２−０）。デ
ータ返送制御回路８０４は基本的にアクセス返送バッフ
ァ７２０に格納された順番にリードデータを返送する
が、例えば、返送先の各ユニットが返送データを受信で
きるか否かを示す状態信号線を返送先の各ユニットとの
間に追加し、返送データを受信できるユニットに対して
優先的に返送するようにしてもよい。

【００６４】図７に、本発明にかかるスイッチ部７の詳
細構成を示す。

【００６５】スイッチ部７は、スカラ処理部６とベクト
ル処理部１がそれぞれ出力するメモリアクセス要求をメ
モリ部８のアクセス先のメモリモジュール８０に転送す
るアクセス要求転送ユニット７１と、メモリ部８の各メ
モリモジュール８０がそれぞれ出力するリードデータを
返送先のスカラ処理部６やベクトル処理部１に転送する
リードデータ転送ユニット７５の２つに大別できる。

【００６６】アクセス要求転送ユニット７１は、スカラ
処理部６，ベクトル処理部１のロードユニットＶＬＵ１
(３０)，ＶＬＵ２(４０)，ストアユニットＶＳＵ(５０)
の各々から受信したメモリリード／ライトコマンド，ア
クセス先アドレス，ライトデータ，要素番号，アクセス
元番号の組６２，３１，４１，５１をそれぞれ１つまた
は複数格納するアクセス要求バッファ７１３，７１４，
７１５，７１６と、転送経路を形成するクロスバスイッ
チ７１１と、クロスバスイッチ７１１を制御する調停回
路７１０とを有して構成される。

【００６７】クロスバスイッチ７１１は、４入力×Ｊ出
力（Ｊはメモリ部８のメモリモジュール数）で、任意の
入出力間を接続できる。なお、各入出力はアクセス要求
のメモリリード／ライトコマンド，アクセス先のアドレ
ス，ライトデータ，要素番号，アクセス元番号を全て転
送できるものである。なお、ライトデータ用の信号線と
要素番号およびアクセス元番号用の信号線を共通にし
て、メモリライトコマンドを転送する際はライトデータ
を送信し、メモリリードコマンドを転送する際は要素番
号およびアクセス元番号を送信するようにして、信号線
を削減してもよい。

【００６８】調停回路７１０は、アクセス要求バッファ
７１３，７１４，７１５，７１６に格納された各アクセ
ス要求のアクセス先アドレス７１７と各メモリモジュー
ルのビジー信号８０６をチェックし、同一メモリモジュ
ールへのアクセス要求が他になくかつ同モジュールのビ
ジー信号８０６が出力されていないアクセス要求は、直
ちにクロスバスイッチ７１０を操作して転送経路を形成
してアクセス先のメモリモジュールに転送し、同一メモ
リモジュールへのアクセス要求が他に有りかつ同モジュ
ールのビジー信号８０６が出力されていないアクセス要
求は、所定の調停条件に従って１つのアクセス要求を選
択し、クロスバスイッチ７１０を操作して転送経路を形
成してアクセス先のメモリモジュールに転送する。

【００６９】リードデータ転送ユニット７５は、アクセ
ス要求転送ユニット７１に類似した構成であり、メモリ
部８の各メモリモジュール８０の各々から受信したリー
ドデータ，要素番号，アクセス元番号の組８２−０，８
２−１，８２−２，…，８２−ｊ−１を１つまたは複数
格納するアクセス返送バッファ７５３−０，７５３−
１，７５３−２，…，７５３−ｊ−１と、転送経路を形
成するクロスバスイッチ７５１と、クロスバスイッチ７
５１を制御する調停回路７５０とを有して構成される。
クロスバスイッチ７５１は、Ｊ入力×４出力（Ｊはメモ
リ部８のメモリモジュール数）で、任意の入出力間を接
続できる。なお、各入出力はリードデータ，要素番号，
アクセス元番号を全て転送できるものである。

【００７０】調停回路７５０は、アクセス要求バッファ
７５３−０，７５３−１，７５３−２，…，７５３−ｊ
−１に格納された各リードデータのアクセス元番号７５
７をチェックし、同一アクセス元へ返送すべきリードデ
ータが他にない場合は、直ちにクロスバスイッチ７５１
を操作して転送経路を形成してアクセス元のスカラ処理
部６，ベクトル処理部１のロードユニットＶＬＵ１(３
０)，ＶＬＵ２(４０)のいずれかに転送し、同一アクセ
ス元へ返送すべきリードデータが他に有る場合は、所定
の調停条件に従って１つのリードデータを選択し、クロ
スバスイッチ751を操作して転送経路を形成してアクセ
ス元のスカラ処理部６，ベクトル処理部１のロードユニ
ットＶＬＵ１(３０)，ＶＬＵ２(４０)のいずれかに転送
する。

【００７１】このように、スイッチ部７を用いれば、メ
モリ部８へのアクセス要求送信とメモリ部８からのリー
ドデータ返送をそれぞれアクセス要求転送ユニット７１
とリードデータ転送ユニット７５によって独立に実行す
るので、アクセス要求転送とリードデータ返送が互いに
干渉することがなく、さらに、アクセス要求転送ユニッ
ト７１とリードデータ転送ユニット７５はそれぞれ、ア
クセス元であるスカラ処理部６，ベクトル処理部１のロ
ードユニットＶＬＵ１(３０)，ＶＬＵ２(４０)と、アク
セス先であるメモリ部８の複数のメモリモジュール間
を、アクセス元とアクセス先が異なる限り同時にアクセ
スを実行できるので、メモリアクセスをより効率良く実
行できる。

【００７２】更に、メモリ部８とスイッチ部７とを１つ
の半導体集積回路で構成することにより、スカラ処理部
６又はベクトル処理部１からのアクセスに対して高速に
データを読み出すことが可能となる。また、メモリ８０
の数が多い場合にメモリ部８だけで１つの半導体集積回
路を構成するよりも、スイッチ部７とメモリ部８で１つ
の半導体集積回路を構成した方が端子数を削減すること
ができ、回路規模を小さくすることができる。

【００７３】図１８に、本発明にかかるデータ処理シス
テムによるベクトル処理のタイムチャート例を示す。

【００７４】本ベクトル処理は、まずロードユニットＶ
ＬＵ１(３０)とＶＬＵ２(４０)によってそれぞれ１６要
素のベクトルデータＡとベクトルデータＢをメモリ部８
からロードし、次に演算ユニット１０によって２つのの
ベクトルデータの演算を実行し、最後に演算結果をスト
アユニットＶＳＵ(５０)によってメモリ部８にストアす
るという処理である。本タイムチャート例では、ベクト
ル処理システムの第２の構成を前提とし、説明簡略化の
ために、ベクトル演算のパイプライン段数を４単位サイ
クルとし、メモリ部８のメモリモジュール数は８モジュ
ールで各メモリモジュールのバンク数は１バンク、すな
わちメモリ部８の総バンク数を８バンクとし、各バンク
アクセスは４単位サイクルを要するものとして説明す
る。

【００７５】ロードユニットＶＬＵ１(３０)とＶＬＵ２
(４０)はそれぞれのベクトルロード命令に従って単位サ
イクル毎に要素１から要素１６までのデータリード要求
コマンドを要素番号の順番でメモリ部８に同時に出力す
る。ロードユニットＶＬＵ１(３０)がロードするベクト
ルデータの各要素はメモリ部８のバンク０から１バンク
置に格納され、ロードユニットＶＬＵ２(４０)がロード
するベクトルデータの各要素はメモリ部８のバンク４か
ら３バンク置に格納されているものとすると、２つのロ
ードユニットによるデータリードはいくつかのバンクで
アクセス競合を起こしてしまう。本例では、例えばベク
トルデータＡの要素３とベクトルデータＢの要素３のリ
ードがバンク２で競合してベクトルデータＢの要素３の
リードが４単位サイクル遅れ、ベクトルＡの要素６がベ
クトルＢの要素４と競合してベクトルＡの要素６のリー
ドが２単位サイクル遅れており、この他にも多数のアク
セス競合が生じていくつかの要素のロードが遅れてしま
う。しかしながら、本実施例によれば、ロードユニット
ＶＬＵ１(３０)，ＶＬＵ２(４０)はデータリード要求コ
マンドにそのリードデータの返送先を示すアクセス元番
号と要素番号を付加してメモリ部８の各メモリモジュー
ルに出力し、各メモリモジュールはリードデータにこの
アクセス元番号と要素番号を付加してロードユニットＶ
ＬＵ１(３０)，ＶＬＵ２(４０)に返送するので、アクセ
ス競合によってロードが遅れてしまう要素を追い越して
後続の要素をロードすることができる。これにより、本
例において、ベクトルデータＢの要素３のロードを追い
越して要素４および要素５のロードを実行し、また、ベ
クトルＡの要素６のロードを追い越して要素７のロード
を実行する等、要素番号の順番に拘束されることなくベ
クトルデータのロードを効率良く実行できる。

【００７６】このように、ロードユニットＶＬＵ１(３
０)とＶＬＵ２(４０)はそれぞれベクトルデータＡおよ
びベクトルデータＢの各要素を要素番号の順番とは異な
る順番でレジスタにロードするが、これらのベクトル演
算を実行する演算ユニット１０もまた、各要素のロード
が完了する毎に要素番号の順番とは異なる順番で演算を
実行する。ベクトルデータＡおよびベクトルデータＢの
それぞれの要素がレジスタに書き込まれる毎に、対応す
るライト完了フラグがセットされるが、演算ユニット１
０は、リード同期回路１２０によってこれらのライト完
了フラグを参照して、両ベクトルデータの同一要素番号
の要素が両方ともレジスタに書き込まれた直後にそれら
の要素を演算パイプライン１００に供給するとともに、
遅延回路１０１に入力し、そして一定時間後に遅延回路
１０１が出力するレジスタの要素番号に演算パイプライ
ン１００が出力する演算結果を書き込む。本例におい
て、単位サイクル８で要素３よりも先に両者のロードが
完了した要素４を次の単位サイクル９で演算パイプライ
ン１００に供給し、単位サイクル１１で遅れて両者のロ
ードが完了した要素３を次の単位サイクル１２で演算パ
イプライン１１０に供給する等、ロードユニットＶＬＵ
１(３０)とＶＬＵ２(４０)によって要素番号の順番とは
異なる順番でレジスタにロードされた各要素の演算を、
要素番号の順番に拘束されることなく効率良く実行でき
る。

【００７７】これらのように、ロードユニットＶＬＵ１
(３０)とＶＬＵ２(４０)はそれぞれベクトルデータＡお
よびベクトルデータＢの各要素を要素番号の順番とは異
なる順番で効率良くレジスタにロードし、さらに、演算
ユニット１００も両ベクトルデータの各要素の演算を要
素番号の順番とは異なる順番で効率良く実行している
が、この演算結果をメモリ部８にストアするストアユニ
ットＶＳＵ(５０)もまた、各要素の演算が完了する毎に
要素番号の順番とは異なる順番でストアを実行する。両
ベクトルデータの各要素の演算結果がレジスタに書き込
まれる毎に、対応するライト完了フラグがセットされる
が、ストアユニットＶＳＵ(５０)は、リード同期回路５
２０によってこれらのライト完了フラグを参照して、各
要素の演算結果がレジスタに書き込まれた直後にそれら
の演算結果をメモリ部８にストアする。これにより、演
算パイプライン１００によって要素番号の順番とは異な
る順番で出力された各要素の演算結果を、要素番号の順
番に拘束されることなく効率良くメモリ部にストアでき
る。

【００７８】以上のように、ベクトルデータのロード，
演算，ストアを、単に要素毎に連鎖処理するだけではな
く、それぞれを要素番号の順番とは異なる順番で実行可
能にすることにより、メモリ部８でアクセス競合が生じ
ても一連のベクトル処理を効率良く実行できる。比較の
ために、図１８のタイムチャート例と同様の設定で、ベ
クトルデータのロード，演算，ストアをそれぞれを要素
番号の順番で実行する従来方式を想定した場合のタイム
チャート例を図１９に示す。両者のタイムチャート例を
比較すると、図１９の従来方式によるベクトル処理では
メモリアクセス競合による処理の停止時間が１２単位サ
イクルであるのに対し、図１８の本発明によるベクトル
処理では４単位サイクルに削減されている。

【００７９】図９に、本発明にかかるレジスタ機構２０
と演算ユニット１０の第２の詳細構成を示す。

【００８０】本図のレジスタ機構２０と演算ユニット１
０は図１で説明したものと基本的に同じであるが、演算
ユニット１０が２つの演算パイプライン１００−１，１
００−２と、それぞれの演算パイプラインに対応する遅
延回路１０１−１，１０１−２とリード同期回路１２０
−１，１２０−２とを有し、さらにレジスタ機構２０の
レジスタファイル２００が、２つの演算パイプライン１
００−１，１００−２にそれぞれ対応するリードポート
２０４−１，２０４−２および２０５−１，２０５−２
と、ライトポート２０６−１，２０６−２とを有してい
る点が異なる。本図の演算ユニット１０−１と１００−
２はそれぞれ独立にベクトル演算を実行できるので、２
つのベクトル演算命令を同時に実行することが可能にな
り、さらには、あるベクトル演算とその演算結果に対す
る別のベクトル演算を連鎖的に並列に実行することが可
能になる。本実施例では演算ユニット１０に２つのベク
トル演算パイプラインを備えたが、さらに３つ以上のベ
クトル演算パイプラインを備えて３つ以上のベクトル演
算命令を同時に実行できるようにしてもよい。

【００８１】図１０に、本発明にかかるレジスタ機構２
０と演算ユニット１０の第３の詳細構成を示す。

【００８２】本図のレジスタ機構２０と演算ユニット１
０は図１で説明したものと基本的に同じであるが、演算
ユニット１０が２つの演算パイプライン１００−１，１
００−２と、それぞれの演算パイプラインに対応する遅
延回路１０１−１，１０１−２と、両方の演算パイプラ
インへのデータ供給を制御するリード同期回路１２０−
３とを有し、さらにレジスタ機構２０のレジスタファイ
ル２００が、２つの演算パイプライン１００−１，１０
０−２にそれぞれ対応するリードポート２０４−１，２
０４−２および２０５−１，２０５−２と、ライトポー
ト２０６−１，２０６−２とを有している点が異なる。
本図の演算ユニット１０−１と１００−２は同一のベク
トル演算を実行でき、リード同期回路１２０−３は演算
対象のベクトルデータの要素を２つの演算パイプライン
に分配するので、図１のベクトル演算ユニット１０では
単位時間に１つの要素を処理するのに比べて本図の演算
ユニット１０では単位時間に２つの要素を処理できるの
で、ベクトル演算命令の実行時間を半分に短縮すること
が可能になる。本実施例では演算ユニット１０に２つの
ベクトル演算パイプラインを備えたが、さらに３つ以上
のベクトル演算パイプラインを備えてベクトル演算命令
の実行時間をさらに短縮するようにしてもよい。

【００８３】図１１に、図１０の演算ユニット１０のリ
ード同期回路１２０−３の構成図を示す。

【００８４】リード同期回路１２０−３は図２で説明し
たリード同期回路１２０と基本的に同じであるが、要素
番号選択回路１２２−３が２つの要素のレジスタリード
コマンドおよび要素番号１２４を出力する点が異なる。
要素番号選択回路１２２−３は、論理積回路１２１の各
要素毎の出力を受信し、この出力値が１である要素、す
なわち、要素番号が同一である全ての要素が書き込みが
完了してかつ読み出しが未完了である要素が１つであれ
ば、その要素番号１２４をレジスタリードコマンドとと
もに出力し、出力値が１である要素が２つ以上あれば、
その中から最小の要素番号と最小から２番目の要素を選
択してそれらの要素番号１２４，１２６をそれぞれレジ
スタリードコマンドとともに出力する。これにより、図
１０に示した２つのベクトル演算パイプライン１００−
１，１００−２で１つのベクトル演算命令を実行する場
合に、２つのベクトル演算パイプラインに演算対象のベ
クトルデータの要素を同時に供給できる。

【００８５】図１２に、本発明にかかる演算ユニット１
０の第４の詳細構成を示す。

【００８６】本図の演算ユニット１０は図１で説明した
ものと基本的に同じであるが、遅延回路１０１の代りに
ＦＩＦＯキュー１３０を用いている点が異なる。ＦＩＦ
Ｏキュー１３０は、リード同期回路１２０が出力する、
演算パイプライン１００に供給した要素データの要素番
号１２４を順次記憶し、そして演算パイプライン100の
演算結果出力にあわせて、記憶した要素番号を記憶した
順番に出力する。これにより、ベクトル演算の所要時間
を考慮することなく、演算結果に対応する要素番号を出
力することができる。なお、本実施例では図１の演算ユ
ニット１０の遅延回路１０１をＦＩＦＯキューに置き換
えているが、同様にして、図９および図１０で説明した
演算ユニット１０の遅延回路をそれぞれＦＩＦＯキュー
に置き換えても同様の効果が得られる。

【００８７】図１３に、本発明にかかるロードユニット
(ＶＬＵ)３０の第２の構成図を示す。

【００８８】本図のロードユニット(ＶＬＵ)３０は図３
説明したものと基本的に同じであるが、メモリから読み
出したデータの書き込み先を示すレジスタファイル２０
０の要素アドレスを一時的に格納する要素アドレスバッ
ファ３３０を追加した点が異なる。要素アドレスバッフ
ァ３３０は、複数の要素アドレスを格納することがで
き、各要素アドレス格納位置にユニークな格納番号が付
いている。メモリリード制御回路３０２はメモリリード
コマンド３１に格納先要素番号を付加して出力する代わ
りに、その格納先要素番号とレジスタ番号バッファ３０
６が示すロード先のベクトルレジスタ番号から要素アド
レスを生成して要素アドレスバッファ330に格納し、そ
の格納番号をメモリリードコマンド３１に付加して出力
する。そしてレジスタライト制御回路３０１は、受信し
たリードデータ３２の格納番号が示す要素アドレスバッ
ファ３３０上の要素アドレスを取り出してレジスタライ
トコマンド３１０を出力するとともに、データバッファ
３０８に格納されたデータ３２０をレジスタファイル２
００のライトポート２０１に出力する。本実施例によれ
ば、あるベクトルロード命令の実行において、メモリリ
ード制御回路３０２が最後の要素のメモリリードコマン
ドを出力した時点で、同ロード命令からメモリアドレス
バッファ３０３，ストライド値バッファ３０４，要素数
バッファ305,レジスタ番号バッファ３０６、およびメモ
リリード制御回路３０２を解放できるので、直ちに次の
ベクトルロード命令を実行することができる。また、図
示はしていないが、同時点に命令解読回路２またはスカ
ラ処理部６にベクトルロード命令の実行完了を通知する
ようにしてもよい。

【００８９】図１４に、本発明にかかるデータ処理シス
テムの第２の構成図を示す。

【００９０】このデータ処理システムは、図１で説明し
たデータ処理システムと基本的に同じであるが、スイッ
チ部７の代りにメモリバス９を用いて回路規模を削減す
る点が異なる。

【００９１】メモリバス９は、スカラ処理部６およびベ
クトル処理部１からメモリ部８へのアクセス用信号線９
１と、メモリ部８からスカラ処理部６またはベクトル処
理部１へのリードデータ返送用信号線９２と、メモリバ
スのアクセスを調停するアクセス調停部９３からなる。

【００９２】スカラ処理部６およびベクトル処理部１の
ＶＬＵ１(３０)，ＶＬＵ２(４０)，ＶＳＵ(５０)はそれ
ぞれ、メモリ部８にアクセスする際にアクセス要求をア
クセス用信号線９１に出力し、そしてアクセス調停部９
３によってこれらのアクセス要求の中から予め定めた優
先順位に従って１つの要求を選択して複数の信号線から
構成されたメモリバス９によるアクセスを許可する。ま
た、メモリ部８の各メモリモジュール８０はそれぞれ、
スカラ処理部６またはベクトル処理部１にリードデータ
を返送する際に返送要求をリードデータ返送用信号線９
２に出力し、そしてアクセス調停部９３によってこれら
のアクセス要求および返送要求の中から予め定めた優先
順位に従って１つの要求を選択し、メモリバス９による
アクセスを許可する。

【００９３】本実施例ではスカラ処理部６およびベクト
ル処理部１からメモリ部８へのアクセス用信号線９１と
メモリ部８からスカラ処理部６またはベクトル処理部１
へのリードデータ返送用信号線９２とを独立に設けてメ
モリアクセス要求とリードデータ返送を同時に実行でき
るようにしているが、メモリアクセス性能上の余裕があ
るならば、アクセス用信号線９１とリードデータ返送用
信号線９２とを共通化してさらに回路規模を削減できる
ようにしてもよい。

【００９４】また、スカラ処理部６，ベクトル処理部
１，アクセス調停部９３，メモリ部８をそれぞれ別々の
半導体集積回路で構成してもよいが、１つの半導体集積
回路で構成すると、データを出力するためのドライバ等
が不要となり、高速で回路規模が小さいデータ処理シス
テムを構成することができる。

【００９５】また、スカラ処理部６，ベクトル処理部１
を１つの半導体集積回路で、またはスカラ処理部６，ベ
クトル処理部１，アクセス調停部９３を１つの半導体集
積回路で構成すると、メモリ部８の容量を自由に変える
ことが可能となり、汎用性が高くなる。

【００９６】図１５に、本発明にかかるデータ処理シス
テムの第３の構成図を示す。

【００９７】このデータ処理システムは、図１で説明し
たベクトル処理システムのメモリ部８を内部メモリ部８
−１と外部メモリ部８−２に階層化し、スカラ処理部６
とベクトル処理部１と内部メモリ部８−１を同一の半導
体チップまたはモジュール基板１０００に内蔵した点が
異なる。内部メモリ部８−１と外部メモリ部８−２はメ
モリ部８と同様の構成であり、内部メモリ用のスイッチ
部７−１と外部メモリ用のスイッチ部７−２はスイッチ
部７と同様の構成である。また、内部メモリ用スイッチ
部７−１と外部メモリ用スイッチ部７−２を接続するブ
リッジ部1010は、スカラ処理部６およびベクトル処理部
１から外部メモリ部８−２へのアクセス要求とリードデ
ータ返送を中継するものである。本システムによれば、
スカラ処理部６およびベクトル処理部１から内部メモリ
用スイッチ部７−１へのアクセスはチップ内部またはモ
ジュール内部で実行されるので、メモリの一部ではある
が、高速なアクセスを実行できる。また、ブリッジ部１
０１０に内部メモリ部８−１と外部メモリ部８−２との
間のダイナミック・メモリ・アクセス機能、いわゆるＤ
ＭＡ機能を持たせて、スカラ処理部からの指令６４によ
り内部メモリ部８−１と外部メモリ部８−２との間の連
続データ転送を実行させるようにしてもよい。

【００９８】図１６に、本発明にかかるデータ処理シス
テムの第４の構成図を示す。

【００９９】このデータ処理システムは、図１で説明し
たデータ処理システムと基本的に同じであるが、ベクト
ル処理部を複数備える点が異なる。複数のベクトル処理
１−１，１−２，…，１−ｖはそれぞれ、スカラ処理部
から各々に送信される複数のベクトル命令６１−１，６
１−２，…，６１−ｖを同時に処理することができ、さ
らなるベクトル処理の高速化を実現できる。

【０１００】図１７に、本発明にかかるデータ処理シス
テムの構成図を示す。

【０１０１】このデータ処理システムは、図１５で説明
したデータ処理システム２０００に外部との通信機能を
有する通信部２０２０を付加したものを複数備え、この
データ処理システム２０００と同一構成のデータ処理シ
ステム２１００，２２００，２３００とを通信網３００
０で接続している。各データ処理システムの通信部２０
２０は、スカラ処理部からの通信命令６５に従ってメモ
リ部８からデータを読み出してそれを他のデータ処理シ
ステムに送信したり、スカラ処理部からの通信命令６５
に従って他のデータ処理システムにそのメモリ部のデー
タ読み出しを要求したり、他のデータ処理システムから
受信したデータ読み出し要求に従ってメモリ部８からデ
ータを読み出してそれを要求元のデータ処理システムに
送信したりする。これにより複数のデータ処理システム
で協調しながらデータ処理を実行できるので、さらなる
ベクトル処理の高速化を実現できる。

【０１０２】

【発明の効果】本発明によれば、高速に演算処理を行う
データ処理システムを提供することができる。

【図面の簡単な説明】

【図１】ベクトルレジスタ機構とベクトル演算ユニット
の詳細構成を示した図である。

【図２】ベクトル演算ユニットのリード同期回路の構成
を示した図である。

【図３】ベクトルロードユニットの構成を示した図であ
る。

【図４】ベクトルストアユニットの構成を示した図であ
る。

【図５】ベクトルストアユニットのリード同期回路の構
成を示した図である。

【図６】メモリモジュールの構成を示した図である。

【図７】スイッチ部の構成を示した図である。

【図８】データ処理システムの第１の構成を示した図で
ある。

【図９】ベクトルレジスタ機構とベクトル演算ユニット
の第２の構成を示した図である。

【図１０】ベクトルレジスタ機構とベクトル演算ユニッ
トの第３の構成を示した図である。

【図１１】第３のベクトル演算ユニットのリード同期回
路の構成を示した図である。

【図１２】ベクトルレジスタ機構とベクトル演算ユニッ
トの第４の構成を示した図である。

【図１３】ベクトルロードユニットの第２の構成を示し
た図である。

【図１４】データ処理システムの第２の構成を示した図
である。

【図１５】データ処理システムの第３の構成を示した図
である。

【図１６】データ処理システムの第４の構成を示した図
である。

【図１７】データ処理システム群の構成を示した図であ
る。

【図１８】データ処理システムによるベクトル処理のタ
イムチャートを示した図である。

【図１９】従来方式のベクトル処理システムによるベク
トル処理のタイムチャートを示したものである。

【符号の説明】

１０…演算ユニット、２０…レジスタ機構、３０…ロー
ドユニット(ＶＬＵ１)、４０…ロードユニット(ＶＬＵ
２）、５０…ストアユニット(ＶＳＵ）、１００…演算
パイプライン、１０１…遅延回路、１２０…リード同期
回路、２００…レジスタファイル、２０１，２０２，２
０６…ライトポート、２０３，２０４，２０５…リード
ポート、２２０…ライト完了フラグ、２２１…フラグ制
御回路、２２２…フラグ参照回路。

───────────────────────────────────────────────────── フロントページの続き (72)発明者釜田栄樹神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内Ｆターム(参考） 5B056 AA04 BB32 FF03 FF05 FF07 FF10 FF16 HH00

Claims

【特許請求の範囲】

【請求項１】複数のデータを格納する領域と、上記領域
毎にデータが格納されたか否かを示す情報を格納する領
域とを有するレジスタと、演算命令に従ってデータの演算を実行する演算部と、演算命令と上記レジスタに記憶された上記情報に基づい
て、上記レジスタから演算すべきデータを読み出して上
記演算部へ送る制御部とを有するデータ処理プロセッ
サ。
【請求項２】演算命令に従ってデータの演算を実行する
演算部と、複数のデータを格納する領域と、上記領域毎に格納され
たデータが演算結果であるか否かを示す情報を格納する
領域とを有するレジスタと、上記レジスタに記憶された上記情報に基づいて、上記レ
ジスタに格納された演算結果読み出して、アドレス情報
とともに出力するデータ出力部とを有するデータ処理プ
ロセッサ。
【請求項３】複数のデータを格納する領域と、上記領域
毎にデータが格納されたか否かを示す情報を格納する領
域とを有するレジスタと、演算命令に従ってデータの演算を実行する演算部と、演算命令と上記レジスタに記憶された上記情報に基づい
て、上記レジスタから演算すべきデータを読み出して上
記演算部へ送る制御部と、上記レジスタに格納するデータを読み込むためのアドレ
ス情報を出力するデータ入力部とを有するデータ処理プ
ロセッサ。
【請求項４】請求項３において、上記アドレス情報は、読み込むべき上記データが格納さ
れているアドレスと読み込むべきデータに付される識別
情報であるデータ処理プロセッサ。
【請求項５】データを格納するメモリと、上記メモリからデータを読み出し、処理を行う少なくと
も１つのプロセッサとを有するデータ処理システムであ
って、上記プロセッサは返送先情報をアドレスとともに出力
し、上記メモリは上記アドレスに基づいて読み出したデ
ータと上記返送先情報とを出力するデータ処理システ
ム。
【請求項６】請求項５のデータ処理システムにおいて、上記返送先情報は、処理すべきデータに割り当てられた
識別情報であるデータ処理システム。
【請求項７】請求項５のデータ処理システムにおいて、上記返送先情報は、上記プロセッサに割り当てられた識
別情報であるデータ処理システム。
【請求項８】請求項６のデータ処理システムにおいて、上記プロセッサは、複数のデータを格納するレジスタ
と、上記レジスタに格納されたそれぞれのデータについ
て同じ演算を実行する処理部とを有し、上記識別情報に
基づいて上記メモリから読み出されたデータを上記レジ
スタに格納し、上記識別情報に基づいて上記レジスタに
格納されたデータを処理するデータ処理システム。
【請求項９】データを格納するとともに新たなアドレス
情報を受け付けられるか否かを示す信号を出力する複数
のメモリと、上記メモリにアドレス情報を出力し、上記アドレスによ
って上記メモリから読み出されたデータの処理を行う少
なくとも１つのプロセッサと、複数の上記メモリと上記プロセッサとの間に接続され、
上記プロセッサから出力されたアドレス情報と上記メモ
リから出力された上記信号に基づいて、上記メモリへ上
記アドレス情報を出力するタイミングを決定するスイッ
チ部とを有するデータ処理システム。
【請求項１０】請求項９のデータ処理システムにおい
て、上記スイッチ部は上記プロセッサから上記メモリへアド
レス情報を転送するアドレス情報転送部と、上記メモリ
から上記プロセッサへデータを転送するデータ転送部と
を有するデータ処理システム。
【請求項１１】請求項９のデータ処理システムにおい
て、それぞれの上記メモリは、上記スイッチ部を介して送ら
れてくるアドレス情報を複数記憶する記憶部を有し、上
記記憶部に記憶されたアドレス情報が所定値以下の場合
に、新たなアドレス情報を受け付けられることを示す信
号を出力し、上記スイッチ部は上記信号に基づいて上記
プロセッサのアドレス情報を上記メモリへ転送するデー
タ処理システム。
【請求項１２】ベクトルを構成する複数のデータについ
て同一の演算を繰り返し実行する複数のベクトル処理プ
ロセッサと、実行すべき命令がベクトル処理命令の場合に、いずれか
の上記ベクトル処理プロセッサを選択し、選択されたベ
クトル処理プロセッサに上記ベクトル処理命令を転送す
るプロセッサとを有するデータ処理システム。
【請求項１３】複数のデータ処理装置が接続されて構成
されるデータ処理システムであって、それぞれのデータ処理装置は、データ処理装置間のデー
タの転送を行う通信部と、データを格納するメモリと、
上記メモリから読み出したデータの演算を行うプロセッ
サとを有し、上記プロセッサは、処理すべきデータに対
する返送先情報をアドレスとともに出力し、上記メモリ
は上記アドレスに基づいて読み出したデータと上記返送
先情報とを出力するデータ処理システム。
【請求項１４】請求項１３のデータ処理システムにおい
て、上記返送先情報は、処理すべきデータに割り当てられた
固有の識別情報であるデータ処理システム。
【請求項１５】請求項１３のデータ処理システムにおい
て、上記返送先情報は、上記プロセッサに割り当てられた固
有の識別情報であるデータ処理システム。
【請求項１６】請求項１３のデータ処理システムにおい
て、上記プロセッサは、複数のデータを格納するレジスタ
と、上記レジスタに格納されたそれぞれのデータについ
て同じ演算を実行する処理部とを有し、上記識別情報に
基づいて上記メモリから読み出されたデータを上記レジ
スタに格納し、上記識別情報に基づいて上記レジスタに
格納されたデータを処理するデータ処理システム。