JPH0553804A

JPH0553804A - 並列処理装置

Info

Publication number: JPH0553804A
Application number: JP40503790A
Authority: JP
Inventors: Yutaka Iizuka; 裕飯塚
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1990-12-21
Filing date: 1990-12-21
Publication date: 1993-03-05

Abstract

(57)【要約】〔目的〕ビット数の小さいバスを使用し、ユニット全
体の小型、コンパクト化及び周辺回路の減少を図る。〔構成〕複数の演算を並列的に行なう演算パイプライ
ン１１０〜１１３と、各演算パイプライン１１０〜１１
３に対応して又は少なくとも１個以上の演算パイプライ
ンに共通な複数のエントリを有し、計算機命令を各エン
トリに選択的に格納すると共に、各エントリを同時に指
定して複数の計算機命令を同時に実行させるマルチポー
ト拡張インストラクションレジスタ１０７とを備え、計
算機命令を順次各エントリに格納し、各エントリの指定
及び指定した各エントリの計算機命令の実行を同時に行
って並列演算処理を行う。同時に多量の情報が１つのバ
スに集中するのを解消し、ビット数の大きいバスの使用
の必要性を抑える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、情報処理の高速化を図
るため、複数の情報を並列に処理する電子計算機等の並
列処理装置に関する。

【０００２】

【従来の技術】従来から電子計算機等の情報処理装置を
高速化するために、数々の手法が考えられ、１つの命令
を実行するのに数クロックかかっていたものがほぼ１ク
ロックで実行できるようになってきた。すなわちＣＰＩ
（サイクル・パー・インストラクション）値が２〜５で
あったものが１に近づいてきた。

【０００３】そして、情報処理装置をさらに高速化する
ため、すなわちＣＰＩ値を１以下にするため、複数の命
令を同時に実行する並列処理装置が考えられた。

【０００４】この種の並列処理装置としてはＶＬＩＷ
（ベリー・ラージ・インストラクション・ワード）方式
（「並列計算機構成論」、著者冨田眞治、（株）昭晃堂
１９８６年１１月）が知られている。以下、「並列計
算機構成論」によるＶＬＩＷ並列計算機を図２に基づい
て概説する。

【０００５】基本命令は３２ビットの固定長であり、４
つの基本命令を１ワードすなわち１２８ビットに格納す
る。そして、実行時には１ワードを同時に読み出し、４
本の演算パイプラインにより、４つの基本命令を並列
に、かつ同時に実行する。これにより、前述のＣＰＩ値
は理想的には０．２５となる。

【０００６】２０１は３２ビット幅の４本の内部バス、
２０２は内部バス２０１と３２ビット幅のバス４本で結
ばれたデータユニットで、このデータユニット２０２は
データキャッシュを含む。２０３はインストラクション
ユニットで、インストラクションキャッシュを含む。２
０４はバスインターフェイスで、データユニット２０２
との間は１２８ビット幅の内部データバスで結ばれ、イ
ンストラクションユニット２０３との間は１２８ビット
幅のインストラクションバスで結ばれる。バスインター
フェイス２０４は外部と３２ビットのアドレスバス、１
２８ビットのデータバス及びコントロールバスで接続さ
れる。

【０００７】２０５はインストラクションデコーダ、２
０６はインストラクションレジスタである。インストラ
クションデコーダ２０５はインストラクションユニット
２０３から１２８ビット幅のインストラクションを受取
ってデコードし、マイクロ命令としてインストラクショ
ンレジスタ２０６に格納する。インストラクションレジ
スタ２０６は４命令分のマイクロ命令を保持し、このマ
イクロ命令を出力することにより、第１〜第４の演算パ
イプライン２０８〜２１１を制御する。

【０００８】２０７はマルチポートレジスタで、このマ
ルチポートレジスタ２０７は、内部バス２０１と３２ビ
ット幅のバス４本で結ばれて内部バス２０１から処理す
るデータを入力し、３２ビット幅の４本のバスを介して
各演算パイプライン２０８〜２１１に出力する。各演算
パイプライン２０８〜２１１は前記マイクロ命令によ
り、それぞれ固定少数点演算、論理演算、浮動少数点演
算等のデータ処理を数クロックかけて行う。そして、４
本の演算パイプライン２０８〜２１１全体により実効的
に４つの演算を１クロック毎に行う。各演算パイプライ
ン２０８〜２１１の出力側はそれぞれ３２ビット幅のバ
スを介して内部バス２０１に接続される。

【０００９】次に以上の構成のＶＬＩＷ並列計算機の動
作について説明する。

【００１０】インストラクションユニット２０３は１２
８ビット幅のインストラクションをバスインターフェイ
ス２０４を介して外部メモリ（図示せず）から読み込
む。次に読み込んだインストラクションをインストラク
ションデコーダ２０５でデコードし、マイクロ命令とし
てインストラクションレジスタ２０６に書き込む。イン
ストラクションレジスタ２０６に書き込まれたマイクロ
命令は各演算パイプライン２０８〜２１１に出力され、
これらを制御する。各演算パイプライン２０８〜２１１
は必要に応じてマルチポートレジスタ２０７内のデータ
を読み込み、演算処理後のデータを内部バス２０１を介
してマルチポートレジスタ２０７に書き込む。そして、
各演算パイプライン２０８〜２１１が再びこのデータを
読み込んで複数回の演算処理を施す。また、各演算パイ
プライン２０８〜２１１は演算処理後のデータを内部バ
ス２０１を介して一旦データユニット２０２に書き込
み、データユニット２０２がデータを内部バス２０１を
介してマルチポートレジスタ２０７に書き込み、複数回
の演算を施す。

【００１１】さらに、データユニット２０２はバスイン
ターフェイス２０４を介して外部との間でデータのやり
とりを行う。命令のデコード、インストラクションレジ
スタ２０６からのマイクロ命令の読み出し、各演算パイ
プライン２０８〜２１１での処理はすべてパイプライン
処理されるので、１クロックあたり４命令を実行できる
ことになる。

【００１２】

【発明が解決しようとする課題】しかしながら、上述の
ＶＬＩＷ並列計算機では、４つの基本命令を１ワードと
して処理するので、通常の計算機のデータバス幅が１６
ビットまたは３２ビット程度であるのに対し、１２８ビ
ットものデータバス幅が必要となる。このため、ユニッ
ト全体をパッケージする場合、外部に延出するピン数が
増大して複雑になると共に、周辺回路の量が増えるとい
う問題点がある。

【００１３】本発明は、以上の点を考慮してなされたも
ので、高速処理能力を維持したまま、通常の３２ビット
幅のバスを用いてピン数を減少させ、周辺回路の簡略化
が図れる並列処理装置を提供することを目的とする。

【００１４】

【課題を解決するための手段】本発明はかかる問題点を
解決するためになされたもので、複数の演算を並列的に
行なうべく複数並列に設けられた演算パイプラインと、
各演算パイプラインに対応してまたは少なくとも１個以
上の演算パイプラインに共通な複数のエントリを有し、
計算機命令を各エントリに順次選択的に格納すると共
に、各エントリを同時に指定して複数の計算機命令を同
時に実行させるマルチポート拡張インストラクションレ
ジスタとを備えたことを特徴とする。

【００１５】

【作用】前記構成により、計算機命令を順次各エントリ
に格納し、各エントリの指定及び指定した各エントリの
計算機命令の実行を同時に行って並列演算処理を行う。
これにより、同時に多量の情報が１つのバスに集中する
のを解消し、ビット数の大きいバスの使用の必要性を抑
える。

【００１６】

【実施例】以下、本発明の一実施例を図１、図３及び図
４に基づいて説明する。

【００１７】図１は本実施例の並列処理装置としての並
列計算機を示すブロック図、図３はデコード命令を示す
説明図、図４は並列エグゼキュート命令を示す説明図で
ある。

【００１８】図１において、１０１は内部バス、１０２
はデータキャッシュを含むデータユニット、１０３はイ
ンストラクションキャッシュを含むインストラクション
ユニット、１０４はバスインターフェイス、１０５はイ
ンストラクションデコーダ、１０９はマルチポートレジ
スタ、１１０〜１１３は第１〜第４の演算パイプライン
で、これらは前述した従来の並列処理装置とほぼ同様の
構成を有している。

【００１９】内部バス１０１とデータユニット１０２と
の間は３２ビット幅の内部データバスで結ばれている。
データユニット１０２とバスインターフェイス１０４間
は３２ビット幅の内部データバスで結ばれている。イン
ストラクションユニット１０３とバスインターフェイス
１０４との間は３２ビットのインストラクションバスで
結ばれている。バスインターフェイス１０４には全て３
２ビットのアドレスバス、データバス及びコントロール
バスが接続されている。インストラクションユニット１
０３は内部バス１０１と接続されている。

【００２０】１０６はインストラクションレジスタで、
インストラクションデコーダ１０５でデコードされた１
つのマイクロ命令を保持する。さらに、このインストラ
クションレジスタ１０６は、インストラクションユニッ
ト１０３にアドレス情報（ソースオペランド）を送出
し、拡張インストラクションレジスタ１０７にオペレー
ション情報（オペレーションコード）を送出し、さら
に、マルチプレクサ１０８に第１の演算パイプライン１
１０の処理情報（マイクロ命令）を送出するようになっ
ている。ここで、マイクロ命令とは、通常の処理命令
（計算機命令）及び後述するデコード命令１２１、並列
エグゼキュート命令１３１等である。

【００２１】１０７はマルチポート拡張インストラクシ
ョンレジスタで、複数のエントリ（図３においては７エ
ントリ）を有し、各演算パイプライン１１０〜１１３に
対応して４命令分のマイクロ命令を保持する。この拡張
インストラクションレジスタ１０７はマルチポート構成
になっていて、１つのエントリを指定しての書き込み動
作と４つのエントリを指定しての読み出し動作とが同時
に行えるようになっている。そして、読み出す４つのエ
ントリはインストラクションレジスタ１０６から指定す
る。なお、マイクロ命令を保持するエントリは、各演算
パイプライン１１０〜１１３に対応して４個特定しても
よく、また、特定せず、空いているエントリに適宜格納
するようにしてもよい。

【００２２】さらに、拡張インストラクションレジスタ
１０７は、インストラクションレジスタ１０６、マルチ
プレクサ１０８及び各演算パイプライン１１１〜１１３
にそれぞれ接続される。そして、インストラクションレ
ジスタ１０６に入力する並列エグゼキュート命令１３１
によって、拡張インストラクションレジスタ１０７の各
エントリに格納されたマイクロ命令がマルチプレクサ１
０８（第１の演算パイプライン１１０）及び第２〜第４
の演算パイプライン１１１〜１１３にそれぞれ出力さ
れ、各演算パイプライン１１０〜１１３を制御するよう
になっている。

【００２３】１０８はマルチプレクサで、インストラク
ションレジスタ１０６または拡張インストラクションレ
ジスタ１０７の読み出しポートから出力されるマイクロ
命令を選択的に第１の演算パイプライン１１０に送出す
る。

【００２４】そして、インストラクションデコーダ１０
５はインストラクションユニット１０３からインストラ
クションを受取り、デコードしてマイクロ命令とした後
インストラクションレジスタ１０６又は拡張インストラ
クションレジスタ１０７の１エントリに、各アドレス情
報（デスティネーションオペランド）に従って格納す
る。

【００２５】デコード命令１２１は図３に示す構成にな
っている。即ち、“デコード”を意味するオペレーショ
ンコードとソースオペランド、デスティネーションオペ
ランドを含んで構成されている。そして、これらのビッ
ト幅の一例としては、例えばオペレーションコードが８
ビット、ソースオペランドが１６ビット、デスティネー
ションオペランドが８ビットである。ソースオペランド
は、直接またはインデックス修飾等の一般的に知られて
いるアドレッシングモードにより、外部メモリ１２２上
の特定の命令（計算機命令等）の先頭アドレス、すなわ
ちイフェクティブアドレスを指す。一方、デスティネー
ションオペランドは拡張インストラクションレジスタ１
０７の１エントリを指す。そして、このデコード命令１
２１は、イフェクティブアドレスが指すメモリ内容であ
る計算機命令をインストラクションと解釈し、この計算
機命令をデコード後に、デスティネーションオペランド
が指す拡張インストラクションレジスタ１０７の１エン
トリに格納させる。

【００２６】並列エグゼキュート命令１３１は図４に示
す構成になっている。即ち、“並列エクゼキュート”を
意味するオペレーションコードと、拡張インストラクシ
ョンレジスタ１０７の４つのエントリを指定する４つの
フィールドを含んで構成されている。これらのビット幅
の一例としては、例えばオペレーションコードが８ビッ
ト、各フィールドが６ビットである。そして、並列エグ
ゼキュート命令１３１は、拡張インストラクションレジ
スタ１０７の各エントリを全て同時に指定し、各演算パ
イプライン１１０〜１１３を同時に実行させる。

【００２７】次に、前記構成の並列計算機の処理動作に
ついて説明する。まず、通常の単独演算処理は次のよう
になる。インストラクションユニット１０３はインスト
ラクションをバスインターフェイス１０４を介して外部
メモリ１２２から読み込む。次に読み込んだインストラ
クションをインストラクションデコーダ１０５でデコー
ドし、マイクロ命令としてインストラクションレジスタ
１０６に書き込む。インストラクションレジスタ１０６
に書き込まれたマイクロ命令はマルチプレクサ１０８を
介して第１の演算パイプライン１１０を制御する。この
演算パイプライン１１０は必要に応じ、マルチポートレ
ジスタ１０９内のデータを読み込み、また、内部バス１
０１を介して処理後のデータをマルチポートレジスタ１
０９に書き込む。さらに演算パイプライン１１０は内部
バス１０１を介して処理後のデータをデータユニット１
０２に書き込み、データユニット１０２は内部バス１０
１を介してそのデータをマルチポートレジスタ１０９に
書き込む。またデータユニット１０２はバスインターフ
ェイス１０４を通じ、外部とのデータのやりとりも行
う。

【００２８】並列演算処理を行なう場合には次のように
なる。デコード命令１２１がインストラクションレジス
タ１０６に格納され、ソースオペランドのアドレス情報
により、インストラクションユニット１０３がその情報
に対応する外部メモリ１２２内容をインストラクション
として読み出す。さらにインストラクションデコーダ１
０５は、そのメモリ内容をデコードし、インストラクシ
ョンレジスタ１０６内のデコード命令１２１のデスティ
ネーションオペランドの情報に従い、デコード結果（マ
イクロ命令）を拡張インストラクションレジスタ１０７
の１エントリに格納する。これを繰り返し、各演算パイ
プライン１１０〜１１３に対応した各エントリにそれぞ
れマイクロ命令を格納する。この処理はループに入る前
に行なう。また、並列演算するインストラクションは、
プログラムのコンパイルの段階で、データ部等に書込ん
でおく。なお、マイクロ命令（計算機命令）は殆どルー
プ中に含まれ、繰り返し実行される場合が多い。一般的
に全ソースコードの５％に実行時間の９５％が費やされ
るので、拡張インストラクションレジスタ１０７の各エ
ントリにマイクロ命令を格納する処理の時間はループ処
理に対して殆ど問題にならない程度の時間である。

【００２９】そして、並列エグゼキュート命令１３１が
インストラクションレジスタ１０６に格納されたとき、
この命令１３１の各フィールドにより指定された拡張イ
ンストラクションレジスタ１０７の各マイクロ命令が各
演算パイプライン１１０〜１１３にそれぞれ出力され
る。このとき、マルチプレクサ１０８の入力側は拡張イ
ンストラクションレジスタ１０７側に切り替えられてお
り、各演算パイプライン１１０〜１１３は、各マイクロ
命令に従ってパイプライン演算を行う。そして、並列エ
グゼキュート命令１３１のデコード、拡張インストラク
ションレジスタ１０７からのマイクロ命令の読み出し及
び各演算パイプライン１１０〜１１３での処理はすべて
パイプライン処理されるので、ループ処理により並列エ
グゼキュート命令１３１が続く限り、１クロックあたり
等価的に４命令を実行し続けることになる。これによ
り、実行スピードの観点からは、１並列エグゼキュート
命令を実行することで通常の命令を４命令実行すること
になる。なお、ループの中には通常の命令は最少限にと
どめ、なるべく並列エグゼキュート命令１３１を置くよ
うにすることが望ましい。

【００３０】以上により、従来のＶＬＩＷ並列計算機が
４基本命令を１ワードとして１クロック毎に実行するの
に１２８ビット幅のインストラクションバス及びデータ
バスを必要としたのに対し、本実施例の並列計算機は並
列演算処理による高速情報処理能力を維持した状態で、
３２ビット幅のインストラクションバス、データバスに
することができ、ユニット全体の小型、コンパクト化及
び周辺回路の減少を図ることができる。

【００３１】さらに、本実施例の並列計算機は従来の並
列計算機に拡張インストラクションレジスタ１０７及び
マルチプレクサ１０８を設けた構成であるので、その拡
張を容易に行なうことができる。

【００３２】なお、本実施例では、１つの並列エグゼキ
ュート命令１３１で通常の命令を４命令並列に実行する
場合を例に説明したが、１つの並列エグゼキュート命令
で通常の命令を２命令、３命令または５命令以上を並列
に実行する場合でも、前記同様の作用、効果を奏するこ
とができる。

【００３３】また、２命令、３命令、４命令または５命
令以上の通常命令を並列実行する並列エグゼキュート命
令の各フィールドに、別々のオペレーションコードを割
り当て、各演算パイプラインにそれぞれ異なる処理を行
わせるようにしてもよい。

【００３４】そして、前記５命令以上の並列エグゼキュ
ート命令とする場合には、これに対応して５以上の演算
パイプラインが設けられることはいうまでもない。

【００３５】さらに、デコードされるインストラクショ
ンは、一例として３２ビットの固定長でも、可変長でも
よい。換言すれば、本発明による並列計算機は、ＲＩＳ
Ｃ（リデュースト・インストラクション・セット・コン
ピュータ）、ＣＩＳＣ（コンプレックス・インストラク
ション・セット・コンピュータ）のどちらでもよい。

【００３６】

【発明の効果】以上、詳述したように本発明によれば、
複数の演算を並列的に行なうべく複数並列に設けられた
演算パイプラインと、各演算パイプラインに対応してま
たは少なくとも１個以上の演算パイプラインに共通な複
数のエントリを有し、計算機命令を各エントリに選択的
に格納すると共に、各エントリを同時に指定して複数の
計算機命令を同時に実行させるマルチポート拡張インス
トラクションレジスタとを備え、計算機命令を順次各エ
ントリに格納し、各エントリの指定及び指定した各エン
トリの計算機命令の実行を同時に行って並列演算処理を
行うようにしたので、同時に多量の情報が１つのバスに
集中するのを解消し、ビット数の大きいバスの使用の必
要性を抑えることができる。これにより、従来に比べて
ビット数の小さいバスにすることができ、ユニット全体
の小型、コンパクト化及び周辺回路の減少を図ることが
できる。

【図面の簡単な説明】

【図１】本実施例の並列処理装置としての並列計算機を
示すブロック図。

【図２】従来の並列計算機を示すブロック図。

【図３】デコード命令を示す説明図。

【図４】並列エグゼキュート命令を示す説明図。

【符号の説明】

１０１内部バス１０２データユニット１０３インストラクションユニット１０４バスインターフェイス１０５インストラクションデコーダ１０６インストラクションレジスタ１０７マルチポート拡張インストラクションレジス
タ１０８マルチプレクサ１０９マルチポートレジスタ１１０第１の演算パイプライン１１１第２の演算パイプライン１１２第３の演算パイプライン１１３第４の演算パイプライン

Claims

【特許請求の範囲】

【請求項１】複数の演算を並列的に行なうべく複数並
列に設けられた演算パイプラインと、各演算パイプラインに対応してまたは少なくとも１個以
上の演算パイプラインに共通な複数のエントリを有し、
計算機命令を各エントリに順次選択的に格納すると共
に、各エントリを同時に指定して複数の計算機命令を同
時に実行させるマルチポート拡張インストラクションレ
ジスタとを備えたことを特徴とする並列処理装置。