JP2693651B2

JP2693651B2 - 並列プロセッサー

Info

Publication number: JP2693651B2
Application number: JP3099132A
Authority: JP
Inventors: 隆河崎
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1991-04-30
Filing date: 1991-04-30
Publication date: 1997-12-24
Anticipated expiration: 2012-12-24
Also published as: KR920020315A; KR950012120B1; US5467476A; JPH04328637A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ＲＩＳＣ（縮小命令セ
ットコンピュータ）型のマイクロプロセッサーに係り、
特にスーパースケーラー（Superscalar ）方式を使って
複数の命令を並列処理する並列プロセッサーに関する。

【０００２】

【従来の技術】従来、データプロセッサーの処理方式
は、一命令を順次処理するＳＩＳＤ（Single Instructi
on Single Data）が主流であった。そして、プロセッサ
ーの性能向上の要求に対しては、まずは、取り扱うデー
タ幅の拡大、動作周波数の向上により対応し、さらに、
処理自体をいくつかのセクションに分けて複数のデータ
を同時に処理するパイプライン方式や、浮動小数点演算
などの特殊処理専用のハードウェアの追加により対応し
てきた。

【０００３】図５は、演算ユニットを１組しか持たない
従来のパイプラインプロセッサーを示している。ここ
で、５１はレジスタファイル、ＲＰはレジスタファイル
５１のリードポート、ＷＰはレジスタファイル５１のラ
イトポート、５２は算術論理演算器（ＡＬＵ）、５３１
および５３２は２入力セレクタ回路、５４ａ〜５４ｄは
フリップフロップ回路、５５ａ〜５５ｃおよび５６ａ〜
５６ｃはトライステートバッファ回路、１７は命令デコ
ーダである。

【０００４】このパイプラインプロセッサーにおいて、
例えば図３に示すような命令１〜命令４を実行する場
合、図６に示すように、４段のステージＩ〜IVで命令１
について命令デコードＤ、命令実行Ｅ、メモリアクセス
Ｍ、レジスタライトＷを順次実行し、ステージII〜Ｖで
命令２を実行し、ステージIII 〜VIで命令３を実行し、
ステージIV〜VII で命令４を実行するので、その演算結
果をレジスタに書込むまでに合計７サイクルを必要とす
る。

【０００５】一方、プロセッサーの一層の性能向上に対
する要求に対しては、複数の命令を同時（並列）に実行
するＭＩＭＤ（Multiple-instruction struction Multi
ple-data stream ）方式が有効である。これは、複数の
演算処理装置を備え、これらを同時に働かす方式であ
り、同一の演算器のアレイを有するアレイプロセッサー
とか、相異なる演算器を複数組有し、複数のパイプライ
ンを持つスーパースケーラー方式の並列プロセッサーな
どがある。

【０００６】前者のアレイプロセッサーは、一般のデー
タ処理への応用が難しいので応用分野が限られる。これ
に対して、スーパースケーラー方式のプロセッサーは、
その制御方式が従来のプロセッサーの制御方式の拡張に
相当するものとしてとらえることができるので、一般の
データ処理への応用が比較的簡単である。

【０００７】スーパースケーラー方式の並列プロセッサ
ーは、複数組の演算器を同時に働かせることにより１ク
ロック（サイクル）の間に複数の命令を並列に実行す
る。この場合、命令の処理は、複数の命令を同時にフェ
ッチ／デコードし、これを演算器で実行するので、従来
のプロセッサーに比べて高い処理能力を発揮する。

【０００８】図７は、２組の演算ユニットを有し、２つ
の命令を並列に実行するように構成された２本のパイプ
ラインを持つ従来のスーパースケーラー方式の並列プロ
セッサーを示している。

【０００９】ここで、７１はレジスタファイル、ＲＰは
レジスタファイル７１のリードポート、ＷＰはレジスタ
ファイル７１のライトポート、７２１および７２２はＡ
ＬＵ、７３１ａ、７３１ｂ、７３２ａ、７３２ｂは２入
力セレクタ回路、７４１ａ〜７４１ｄ、７４２ａ〜７４
２ｄはフリップフロップ回路、７５１ａ〜７５１ｃ、７
６１ａ〜７６１ｃおよび７５２ａ〜７５２ｃ、７６２ａ
〜７６２ｃはトライステートバッファ回路、７７１およ
び７７２は命令デコーダである。

【００１０】この並列プロセッサーにおいて、図３に示
したような命令１〜命令４を実行する場合、図８に示す
ように、命令１・命令２については、４段のステージＩ
〜IVで命令デコードＤ、命令実行Ｅ、メモリアクセス
Ｍ、レジスタライトＷを順次実行し、命令３・命令４に
ついては、４段のステージＶ〜VIIIで命令デコードＤ、
命令実行Ｅ、メモリアクセスＭ、レジスタライトＷを順
次実行する。

【００１１】この時、命令１・命令２の演算結果をレジ
スタに書込むまでの期間は命令３・命令４を実行するこ
とができない。従って、命令３・命令４の演算結果をレ
ジスタを書込むまでの所要時間は、命令１・命令２の実
行に要する４サイクルと命令３・命令４の実行に要する
４サイクルとの合計８サイクルとなる。

【００１２】即ち、上記したような従来のスーパースケ
ーラー方式の並列プロセッサーは、ハードウェアが増加
したにも拘らず、並列実行可能な命令数を越える命令の
実行に際して、ある命令の演算結果がレジスタに書込ま
れるまでの期間は別の命令を実行できず、結果的に命令
の実行時間が長くなる場合が生じる。

【００１３】

【発明が解決しようとする課題】上記したように従来の
スーパースケーラー方式の並列プロセッサーは、並列実
行可能な命令数を越える命令の実行に際して命令の実行
時間が長くなる場合が生じるという問題があった。

【００１４】本発明は上記の問題点を解決すべくなされ
たもので、命令の実行時間が短くなり、命令処理の性能
の向上を図り得るスーパースケーラー方式の並列プロセ
ッサーを提供することを目的とする。

【００１５】

【課題を解決するための手段】本発明は、第１、第２、
第３及び第４リードポート及び第１、第２ライトポート
を有するレジスタファイルと、上記第１、第２、第３及
び第４リードポートにそれぞれ接続された第１、第２、
第３及び第４データラインと、第５、第６、第７及び第
８データラインと、上記第１及び第５データラインから
いずれか一方のデータラインを選択する第１セレクタ回
路と、上記第２及び第６データラインからいずれか一方
のデータラインを選択する第２セレクタ回路と、上記第
１及び第２セレクタ回路それぞれで選択されたデータラ
イン上のデータが供給され、両データ間で算術論理演算
を実行する第１演算器と、上記第１演算器の出力を格納
する第１データ格納手段と、上記第１データ格納手段の
出力を格納し、出力が上記レジスタファイルの第１ライ
トポートに接続された第２データ格納手段と、上記第３
及び第７データラインからいずれか一方のデータライン
を選択する第３セレクタ回路と、上記第４及び第８デー
タラインからいずれか一方のデータラインを選択する第
４セレクタ回路と、上記第３及び第４セレクタ回路それ
ぞれで選択されたデータライン上のデータが供給され、
両データ間で算術論理演算を実行する第２演算器と、上
記第２演算器の出力を格納する第３データ格納手段と、
上記第３データ格納手段の出力を格納し、出力が上記レ
ジスタファイルの第２ライトポートに接続された第４デ
ータ格納手段と、上記第１演算器の出力と上記第５、第
６、第７及び第８データラインそれぞれとの間に接続さ
れた複数の第１バイパス回路と、上記第１データ格納手
段と上記第５、第６、第７及び第８データラインそれぞ
れとの間に接続された複数の第２バイパス回路と、上記
第２データ格納手段と上記第５、第６、第７及び第８デ
ータラインそれぞれとの間に接続された複数の第３バイ
パス回路と、上記第２演算器の出力と上記第５、第６、
第７及び第８データラインそれぞれとの間に接続された
複数の第４バイパス回路と、上記第３データ格納手段と
上記第５、第６、第７及び第８データラインそれぞれと
の間に接続された複数の第５バイパス回路と、上記第４
データ格納手段と上記第５、第６、第７及び第８データ
ラインそれぞれとの間に接続された複数の第６バイパス
回路とを具備することを特徴とする。

【００１６】

【作用】あるパイプラインの任意のステージの演算結果
をレジスタファイルに書込む前に別のパイプラインに取
り込んで別の演算のオペランドとして使用することが可
能になるので、並列実行可能な命令数を越える命令の実
行に際しても命令の実行時間が短くなり、命令処理の性
能の向上を図ることが可能になる。

【００１７】

【実施例】以下、図面を参照して本発明の一実施例を詳
細に説明する。

【００１８】図１は、スーパースケーラー方式の並列プ
ロセッサーの一部を示している。この並列プロセッサー
は、複数組（例えば２組）の演算ユニットを有し、この
２組の演算ユニットを同時に働かせることにより１クロ
ックの間に最大２つの命令を並列に実行するように構成
された複数本（本例では２本）のパイプラインを持って
いる。

【００１９】ここで、１１はレジスタファイル、ＲＰは
レジスタファイル１１のリードポート、ＷＰはレジスタ
ファイル１１のライトポート、１２１および１２２はＡ
ＬＵ、１３１ａ、１３１ｂ、１３２ａ、１３２ｂは２入
力セレクタ回路、１４１ａ〜１４１ｄ、１４２ａ〜１４
２ｄはフリップフロップ回路、１５１ａ〜１５１ｆ、１
６１ａ〜１６１ｆおよび１５２ａ〜１５２ｆ、１６２ａ
〜１６２ｆはトライステートバッファ回路、１７１およ
び１７２は命令デコーダである。

【００２０】図２は、前記トライステートバッファ回路
１５１ａ〜１５１ｆ、１６１ａ〜１６１ｆおよび１５２
ａ〜１５２ｆ、１６２ａ〜１６２ｆ（第１、第２、第
３、第４、第５及び第６バイパス回路）のうちの１個を
代表的に取り出して回路例を示している。Ｖccは電源電
位、Ｖssは接地電位、Ｄは前記パイプラインからの入力
データ、Ｅは前記命令デコーダ１７１または１７２から
の活性化（イネーブル）制御信号、２１は二入力ナンド
ゲート、２２はインバータ回路、２３は二入力ノアゲー
ト、２４はＰＭＯＳトランジスタ、２５はＮＭＯＳトラ
ンジスタである。イネーブル制御信号Ｅが“Ｈ”レベル
の場合には、入力データＤが“Ｈ”レベルであると、二
入力ナンドゲート２１の出力が“Ｌ”レベル、二入力ノ
アゲート２３の出力が“Ｌ”レベル、ＰＭＯＳトランジ
スタ２４がオン、ＮＭＯＳトランジスタ２５がオフにな
り、バッファ出力は“Ｈ”レベルになる。

【００２１】上記とは逆に、入力データＤが“Ｌ”レベ
ルであると、二入力ナンドゲート２１の出力が“Ｈ”レ
ベル、二入力ノアゲート２３の出力が“Ｈ”レベル、Ｐ
ＭＯＳトランジスタ２４がオフ、ＮＭＯＳトランジスタ
２５がオンになり、バッファ出力は“Ｌ”レベルにな
る。

【００２２】これに対して、イネーブル制御信号Ｅが
“Ｌ”レベルの場合には、二入力ナンドゲート２１の出
力が入力データＤのレベルに関係なく“Ｈ”レベルにな
り、二入力ノアゲート２３の出力が入力データＤのレベ
ルに関係なく“Ｌ”レベルになり、ＰＭＯＳトランジス
タ２４およびＮＭＯＳトランジスタ２５がそれぞれオフ
になり、バッファ出力は高インピーダンス状態になる。

【００２３】上記並列プロセッサーにおいて、例えば図
３に示すような命令１〜命令４を実行する場合、図４に
示すように、命令１・命令２については、４段のステー
ジＩ〜IVで命令デコードＤ、命令実行Ｅ、メモリアクセ
スＭ、レジスタライトＷを順次実行し、命令３・命令４
については、４段のステージII〜Ｖで命令デコードＤ、
命令実行Ｅ、メモリアクセスＭ、レジスタライトＷを順
次実行するように制御が行われる。

【００２４】即ち、ステージＩでは、命令１に対して、
レジスタファイル１１からレジスタの値＄１、＄２の値
を読み出して各対応して２入力セレクタ回路１３１ａ、
１３１ｂを介してフリップフロップ回路１４１ａ、１４
１ｂに格納し、命令２に対して、レジスタファイル１１
からレジスタの値＄４、＄５を読み出して各対応して２
入力セレクタ回路１３２ａ、１３２ｂを介してフリップ
フロップ回路１４２ａ、１４２ｂに格納する。

【００２５】ステージIIでは、命令１に対して、ＡＬＵ
１２１で＄１＋＄２の加算を実行してその結果をフリッ
プフロップ回路１４１ｃに格納し、命令２に対して、Ａ
ＬＵ１２２で＄４＋＄５の加算を実行してその結果をフ
リップフロップ回路１４２ｃに格納する。この場合、こ
れらの演算結果をレジスタファイル１１に書込まない。
また、命令３に対して、上記ＡＬＵ１２１の演算結果＄
３をトライステートバッファ回路１５１ａおよび２入力
セレクタ回路１３１ａを介して前記フリップフロップ回
路１４１ａにオペランドとして格納すると共に、前記Ａ
ＬＵ１２２の演算結果＄６をトライステートバッファ回
路１６２ｄおよび２入力セレクタ回路１３１ｂを介して
前記フリップフロップ回路１４１ｂにオペランドとして
格納する。

【００２６】また、命令４に対して、前記記ＡＬＵ１２
１の演算結果＄３をトライステートバッファ回路１５１
ｄおよび２入力セレクタ回路１３２ａを介して前記フリ
ップフロップ回路１４２ａに格納すると共に、前記ＡＬ
Ｕ１２２の演算結果＄６をトライステートバッファ回路
１６２ａおよび２入力セレクタ回路１３２ｂを介して前
記フリップフロップ回路１４２ｂに格納する。

【００２７】ステージIIIでは、命令１に対して、前記
フリップフロップ回路１４１ｃに格納されている命令１
の演算結果＄３をフリップフロップ回路１４１ｄに転送
し、命令２に対して、前記フリップフロップ回路１４２
ｃに格納されている演算結果＄６をフリップフロップ回
路１４２ｄに転送する。

【００２８】また、命令３に対して、ＡＬＵ１２１で＄
３と＄６との論理和演算を実行してその結果をフリップ
フロップ回路１４１ｃに格納し、命令４に対して、ＡＬ
Ｕ１２２で＄３と＄６との論理積演算を実行してその結
果をフリップフロップ回路１４２ｃに格納する。

【００２９】ステージIVでは、前記フリップフロップ回
路１４１ｄに格納されている命令１の演算結果＄３をレ
ジスタファイル１１に書込むと共にフリップフロップ回
路１４２ｄに格納されている命令２の演算結果＄６をレ
ジスタファイル１１に書込む。

【００３０】また、命令３に対して、前記フリップフロ
ップ回路１４１ｃに格納されている命令３の演算結果＄
７をフリップフロップ回路１４１ｄに転送し、命令４に
対して、前記フリップフロップ回路１４２ｃに格納され
ている演算結果＄８をフリップフロップ回路１４２ｄに
転送する。

【００３１】ステージＶでは、前記フリップフロップ回
路１４１ｄに格納されている命令３の演算結果＄７をレ
ジスタファイル１１に書込むと共にフリップフロップ回
路１４２ｄに格納されている命令４の演算結果＄８をレ
ジスタファイル１１に書込む。

【００３２】従って、命令３・命令４の演算結果をレジ
スタファイル１１に書込むまでの所要時間は、合計５サ
イクルとなり、図７に示した従来例の並列プロセッサー
における所要時間８サイクルと比べて３サイクル短縮し
ている。

【００３３】即ち、上記実施例の並列プロセッサーによ
れば、２本のパイプラインの各ステージのデータ出力を
上記パイプライン間で授受するためのバイパス回路（ト
ライステートバッファ回路１５１ａ〜１５１ｆ、１６１
ａ〜１６１ｆ、１５２ａ〜１５２ｆ、１６２ａ〜１６２
ｆ）を有している。

【００３４】これにより、あるパイプラインの任意のス
テージの演算結果をレジスタファイル１１に書込む前に
別のパイプラインに取り込んで別の演算のオペランドと
して使用することができる。従って、並列実行可能な命
令数を越える命令の実行に際しても命令の実行時間が短
くなり、命令処理の性能の大幅な向上を図ることができ
る。なお、上記バイパス回路を命令実行用演算器と同じ
半導体チップ上に搭載することにより、並列プロセッサ
ーのシステム構成を簡単化できる。

【００３５】

【発明の効果】上述したように本発明のスーパースケー
ラー方式の並列プロセッサーによれば、命令の実行時間
を短くし、命令処理の性能を向上させることができる。

【図面の簡単な説明】

【図１】本発明のスーパースケーラー方式の並列プロセ
ッサーの一実施例におけるパイプラインを示す論理回路
図。

【図２】図１中のトライステートバッファ回路の一例を
示す回路図。

【図３】図１の並列プロセッサーにおいて並列実行され
る命令１〜命令４の一例を記述する図。

【図４】図１の並列プロセッサーにおいて図３の命令１
〜命令４を実行する際の各ステージの状況を示す図。

【図５】従来の演算器を１組しか持たないパイプライン
プロセッサーにおけるパイプラインを示す論理回路図。

【図６】図５のパイプラインプロセッサーにおいて図３
の命令１〜命令４を実行する際の各ステージの状況を示
す図。

【図７】従来の複数組の演算器を持つスーパースケーラ
ー方式の並列プロセッサーにおける２本のパイプライン
を示す論理回路図。

【図８】図７の並列プロセッサーにおいて図３の命令１
〜命令４を実行する際の４段のステージの状況を示す
図。

【符号の説明】

１１…レジスタファイル、１２１、１２２…ＡＬＵ、１
３１ａ、１３１ｂ、１３２ａ、１３２ｂ…２入力セレク
タ回路、１４１ａ〜１４１ｄ、１４２ａ〜１４２ｄ…フ
リップフロップ回路、１５１ａ〜１５１ｆ、１６１ａ〜
１６１ｆおよび１５２ａ〜１５２ｆ、１６２ａ〜１６２
ｆ…トライステートバッファ回路、１７１、１７２…命
令デコーダ。

Claims

(57)【特許請求の範囲】

【請求項１】第１、第２、第３及び第４リードポート
及び第１、第２ライトポートを有するレジスタファイル
と、上記第１、第２、第３及び第４リードポートにそれぞれ
接続された第１、第２、第３及び第４データラインと、第５、第６、第７及び第８データラインと、上記第１及び第５データラインからいずれか一方のデー
タラインを選択する第１セレクタ回路と、上記第２及び第６データラインからいずれか一方のデー
タラインを選択する第２セレクタ回路と、上記第１及び第２セレクタ回路それぞれで選択されたデ
ータライン上のデータが供給され、両データ間で算術論
理演算を実行する第１演算器と、上記第１演算器の出力を格納する第１データ格納手段
と、上記第１データ格納手段の出力を格納し、出力が上記レ
ジスタファイルの第１ライトポートに接続された第２デ
ータ格納手段と、上記第３及び第７データラインからいずれか一方のデー
タラインを選択する第３セレクタ回路と、上記第４及び第８データラインからいずれか一方のデー
タラインを選択する第４セレクタ回路と、上記第３及び第４セレクタ回路それぞれで選択されたデ
ータライン上のデータが供給され、両データ間で算術論
理演算を実行する第２演算器と、上記第２演算器の出力を格納する第３データ格納手段
と、上記第３データ格納手段の出力を格納し、出力が上記レ
ジスタファイルの第２ライトポートに接続された第４デ
ータ格納手段と、上記第１演算器の出力と上記第５、第６、第７及び第８
データラインそれぞれとの間に接続された複数の第１バ
イパス回路と、上記第１データ格納手段と上記第５、第６、第７及び第
８データラインそれぞれとの間に接続された複数の第２
バイパス回路と、上記第２データ格納手段と上記第５、第６、第７及び第
８データラインそれぞれとの間に接続された複数の第３
バイパス回路と、上記第２演算器の出力と上記第５、第６、第７及び第８
データラインそれぞれとの間に接続された複数の第４バ
イパス回路と、上記第３データ格納手段と上記第５、第６、第７及び第
８データラインそれぞれとの間に接続された複数の第５
バイパス回路と、上記第４データ格納手段と上記第５、第６、第７及び第
８データラインそれぞれとの間に接続された複数の第６
バイパス回路とを具備することを特徴とする並列プロセ
ッサー。
【請求項２】請求項１記載の並列プロセッサーにおい
て、前記第１、第２、第３、第４、第５及び第６バイパ
ス回路のそれぞれがトライステートバッファ回路で構成
されていることを特徴とする並列プロセッサー。