JPH04264954A

JPH04264954A - 複合命令計算機

Info

Publication number: JPH04264954A
Application number: JP2583291A
Authority: JP
Inventors: Tomohiro Miyahira; 知博宮平
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-02-20
Filing date: 1991-02-20
Publication date: 1992-09-21

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は複数の演算部による複数
命令の複合的な処理を行う複合命令計算機に関する。

【０００２】

【従来の技術】従来、計算機における並列処理式方式と
しては、マルチプロセッサシステム等に代表されるＭＩ
ＭＤ型計算機のように複数の命令シーケンスを別々の処
理要素によって実行する方式、プロセッサアレイ等に代
表されるＳＩＭＤ型計算機のように単一の命令シーケン
スによって複数の処理要素で同じ処理をする方式、ベク
トルプロセッサに代表されるパイプライン計算機のよう
に複数回実行される特定の処理の実行を複数のステージ
に分けて並列実行する方式がある。

【０００３】また、ＶＬＩＷ計算機（長命令計算機）の
ように命令語長を長くして、複数の演算器・レジスタを
同時に使用する方式も知られている。

【０００４】

【発明が解決しようとする課題】上述した従来の計算機
における並列処理方式においては、命令シーケンス全体
の極く一部でしか並列処理が有効とならない（ＳＩＭＤ
型計算機、パイプライン計算機）、並列処理の粒度が大
きい（ＭＩＭＤ型計算機）、処理要素間の通信によるオ
ーバーヘッドが大きい（ＳＩＭＤ型計算機、ＭＩＭＤ型
計算機）、メモリ等資源のアクセス競合のため効率の低
下生じる（ＳＩＭＤ型計算機、ＭＩＭＤ型計算機）等と
いった問題点がある。

【０００５】さらに、並列処理を実行するためには、ベ
クトル命令を使用するようにプログラムを書き直す（パ
イプライン計算機、ＳＩＭＤ型計算機、ＶＬＩＷ計算機
）、あるいは、アルゴリズムそのものを見直してプログ
ラムを作り直す（ＳＩＭＤ型計算機、ＭＩＭＤ型計算機
）必要がある。

【０００６】また、命令長を長くして複数の資源を同時
に使用することは、機械語をマイクロプログラムに近づ
けることであると言え、コンパイラ等ソフトウェアによ
る命令の最適化の負担が大きい、長い命令長を常に有効
に利用できるわけではない（ＶＬＩＷ計算機）等の問題
もある。

【０００７】

【課題を解決するための手段】本発明の複合命令計算機
は、並列に動作する複数の演算部と、それらから共通に
アクセスされるレジスタ部と、オペランドの読み書きを
演算部と非同期に行うと共にメモリアクセス競合の解消
を行うオペランドバッファと、バンクに分割されインタ
リーブされたメモリ部と、メモリ部から複数命令を同時
にフェッチしオペランドの競合をチェックする命令制御
部を有し、複数の命令を１つの複合命令として実行する
ことを特徴とする。

【０００８】

【実施例】次に、本発明について図面を参照して説明す
る。

【０００９】図１は本発明の一実施例の構成を示すブロ
ック図である。

【００１０】１は並列に動作する複数の演算部であり、
２は演算部から共通にアクセスされるレジスタ部であり
、３はオペランドの読み書きを演算部１と非同期に行う
と共にメモリアクセスの解消を行うオペランドバッファ
である。また、４はバンクに分割されインタリーブ方式
によって複数ワードを同時にアクセスすることができる
メモリ部であり、５はメモリ４から複数命令を同時にフ
ェッチし、命令相互間のメモリ・レジスタのアクセス競
合をチェックする命令制御部である。

【００１１】命令制御部５はプログラムカウンタを内蔵
しており、インタリーブ方式によって複数ワードを同時
にアクセスすることが可能なメモリ部４から複数ワード
の命令を同時にフェッチする。すべての命令が演算部１
を使用するわけではないので、フェッチする命令の数は
演算部１の数より多くする。命令セットは、デコードの
容易性とオペランド競合のチェックの簡便性からＲＩＳ
Ｃ的な１ワード固定長で直交な命令セットとする。

【００１２】命令制御部５は、まずフェッチした命令相
互間のメモリ・レジスタオペランドのアクセス競合をチ
ェックする。レジスタ部２およびオペランドバッファ３
はスコアボーディング機構を持っており、命令制御部５
はオペランドの競合が発生するオペランドバッファ３と
レジスタ部２のスコアボードにマークを付与すると共に
、演算部１を使用する命令と単なるレジスタ・レジスタ
間、メモリ・レジスタ間転送命令を分け、各演算部１に
１ワードずつ演算部を使用する命令を転送する。一方、
レジスタ・レジスタ間転送命令及びメモリ・レジスタ間
転送命令をそれぞれレジスタ部２、及びオペランドバッ
ファ３に転送する。

【００１３】命令制御部５は、各部への命令の転送が終
了するとプログラムカウンタを命令実行数（演算部１を
使用する命令及びレジスタ部２とオペランドバッファ３
で処理される転送命令の合計）だけインクリメントし、
次の命令フェッチサイクルに移る。

【００１４】レジスタ部２は複数のレジスタから成り、
命令制御部５から転送されて来たレジスタ・レジスタ間
転送命令を保持・実行する。各々のレジスタがスコアボ
ーディング機構を持っており、いずれかの演算／転送命
令によって使用される予定であることを示す。また、オ
ペランドバッファ３はメモリへの読み書きのいずれの場
合にも関与し、メモリ・レジスタ間転送命令を実行し、
演算部とメモリの非同期な実行を可能にする。オペラン
ドバッファ３は、メモリアドレスとオペランド値の組を
エントリとするテーブルを持っており、各エントリはレ
ジスタ部同様にスコアボードを持っている。オペランド
バッファ３は実質的にキャッシュメモリと同様な働きを
するので、メモリからの読出しがエントリにヒットして
実際のメモリアクセスを行わずに済む場合もある。

【００１５】各演算部１はＡＬＵと命令ラッチ回路及び
オペランドアクセス部から成り、１ワードの命令を実行
する。オペランドアクセス部は対象オペランドのスコア
ボードを監視しており、アクセス競合が解消された時点
で命令の実行を開始する。各演算部の動作は他の演算部
の動作とは全く非同期であり、その演算部が使用するオ
ペランドのアクセス競合のみに依存して、並列に実行さ
れる。

【００１６】このように、複数の演算部を使用すること
によって複数の命令をあたかも１つの複合した命令であ
るかのように処理することができ、機械語レベルのミク
ロな並列処理が実現されるとともにメモリとＣＰＵ間の
命令転送路を広くとることが可能となり、フォン・ノイ
マン・ボトルネックを解消することができる。

【００１７】さらに各部の動きを例を用いて詳述する。

【００１８】以下のような命令列の実行を例として考え
る。（１）　　ｌｏｏｐ：　　ｌｏａｄ　　ａ（Ｉ）→Ａ　
　配列要素ａ（ｉ）をレジスタＡにロード（２）　　　　　　　　　　　　　　ｌｏａｄ　　ｂ（
Ｉ）→Ｂ　　配列要素ｂ（ｉ）をレジスタＢにロード（３）　　　　　　　　　　　　　　ａｄｄ１　　Ｉ　
　　　　　　　　　　　レジスタＩを１だけインクリメ
ント（４）　　　　　　　　　　　　　　ａｄｄ　　　　Ａ
，Ｂ→Ｃ　　　　レジスタＡとＢを加算、結果をレジス
タＣに格納（５）　　　　　　　　　　　　　　ｓｕｂ
　　　　Ａ，Ｂ→Ｄ　　　　レジスタＡからＢを減算、
結果をレジスタＤに格納（６）　　　　　　　　　　　
　　　ｍｕｌ　　　　Ｃ，Ｄ→Ｅ　　　　レジスタＣと
Ｄを乗算、結果をレジスタＥに格納（７）　　　　　　
　　　　　　　　ｓａｖｅ　　Ｅ→ｃ（Ｊ）　　レジス
タＥをｃ（ｉ）にセーブ（８）　　　　　　　　　　　　　　ａｄｄ１　　Ｊ　
　　　　　　　　　　　レジスタＪを１だけインクリメ
ント（９）　　　　　　　　　　　　　　ｉｆ　　Ｉ＜１０
００　　ｇｏｔｏ　　ｌｏｏｐ　　条件ジャンプ命令制御部５はこの命令列をフェッチしてくるとまずレ
ジスタアクセスの競合のチェックを行う。ここでは、（
１）によりレジスタＡのスコアボードにマークが、（２
）によりレジスタＢのスコアボードに、（３），（４）
，（５），（６），（７）によりそれぞれレジスタＩ，
Ｃ，Ｄ，Ｅ，Ｊにマークが付与される。その結果、演算
命令（４），（５），（６），（７），（８）は各演算
部１に転送されてもすぐには実行できない。

【００１９】ロード命令（１），（２）とインクリメン
ト命令（３）がそれぞれオペランドバッファ３・演算部
１で実行されるとレジスタＡ、レジスタＢ、レジスタＩ
のスコアボードがクリアされるため、演算命令（３），
（４），（５）が同時に開始され、並列実行される。（４），（５）の実行が終了するとレジスタＣ，Ｄのス
コアボードがそれぞれクリアされるため、演算命令（６
）が開始され、次に命令（７），（８）がそれぞれオペ
ランドバッファ３、演算部１で実行される。一方この処
理と平行して、（３）が終了すると命令制御部５の中で
は（９）によってプログラムカウンタの値が再びｌｏｏ
ｐで示されるアドレスに書き換えられ、命令（１）から
フェッチが開始される。

【００２０】以上の命令実行の流れを図２に示す。この
例では（１）と（２）と（３）、（４）と（５）と（９
）、（７）と（８）がそれぞれ並列に実行されている。

【００２１】さらにこの場合には、コンパイラの改良等
によりループの初期段階の命令を工夫して生成すること
で、ソフトウェア・パイプライニングが可能となる。即
ち、ｎｏｐ（ｎｏ　　ｏｐｅｒａｔｉｏｎ：何も実行し
ない）の挿入によりレジスタアクセスの競合が起こらな
いようにすることで、ソフトウェア的にパイプライン処
理が行われる。この時の命令実行の流れを図３に示す。ループの初期段階にｎｏｐを挿入することで全ての命令
の並列実行が可能になっている。

【００２２】ソフトウェア・パイプライニングでは、確
かに全ての命令が並列実行されているが、相変わらず命
令制御部５による命令フェッチを毎回行っている。これ
を行わないようにするためには、命令制御部の命令フェ
ッチ部をアドレスと組にしたテーブルとすればよい。こ
れによって、特別なベクトル命令のようなものを用意し
なくても、命令制御部５がキャッシュメモリとしての役
割を実行することができ、上例の場合にはメモリにアク
セスする必要がなくなる。

【００２３】以上のように、複数の命令をあたかも１つ
の複合した命令のように扱うことにより、パイプライン
処理による高度な並列処理の実現をも可能としている。ベクトル計算機が持つ演算器のチェイニング機構に留ま
らず、機能が可変な高レベルの演算器を備えているとも
言える。

【００２４】

【発明の効果】以上説明したように、本発明は、複数の
演算部を使用することによって複数の命令をあたかも１
つの複合した命令であるかのように処理することができ
、機械語レベルのミクロな並列処理が実現される。

【００２５】さらに、ベクトル計算機が持つ演算器のチ
ェイニング機構に留まらず、機能が可変な高レベルの演
算器を使用したパイプライン処理による高度な並列処理
の実現をも可能としている。

【００２６】さらに、本発明の複合命令計算機は、ベク
トルプロセッサやアレイプロセッサのように特殊な並列
（ベクトル）命令を使用するわけではないため、従来の
単純なプロセッサとオブジェクトレベルでの互換性を維
持することができ、従来機からの上位互換性を維持しな
がら並列処理による処理の効率化をはかることも出来る
。

【図面の簡単な説明】

【図１】本発明の構成を示すブロック図である。

【図２】実施例の中で説明した命令列の実行の流れを示
す図である。

【図３】命令列のパイプライン実行を示す図である。

【符号の説明】

１　　　　複数の演算部２　　　　レジスタ部３　　　　オペランドバッファ４　　　　メモリ部５　　　　命令制御部

Claims

【特許請求の範囲】

【請求項１】　　並列に動作する複数の演算部と、それ
らから共通にアクセスされるレジスタ部と、オプランド
の読み書きを演算部と非同期に行うと共にメモリアクセ
ス競合の解消を行うオペランドバッファと、バンクに分
割されインタリーブされたメモリ部と、メモリ部から複
数命令を同時にフェッチしオペランドの競合をチェック
する命令制御部を有し、複数の命令を１つの複合命令と
して実行することを特徴とする複合命令計算機。