JPH103389A

JPH103389A - 並列計算機

Info

Publication number: JPH103389A
Application number: JP8154069A
Authority: JP
Inventors: Atsushi Kawai; 淳河井
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1996-06-14
Filing date: 1996-06-14
Publication date: 1998-01-06

Abstract

(57)【要約】【課題】回路規模、及び配線量を大幅に削減すること
ができ、ＣＰＵをＬＳＩ化する際などにおいて、チップ
サイズの縮小、及び回路遅延を最小化することが可能と
なり、動作クロック周波数を向上させ、消費電力を最小
化するとともに、チップコストを低減できる並列計算機
を提供する。【解決手段】ＶＬＩＷ型並列計算機２０は、命令メモ
リ２１、命令キャッシュ２２、命令キャッシュ書き込み
制御部２３、命令アドレス制御部２４、複数個の命令実
行部２５、データスイッチ２６、及びレジスタファイル
２７を備え、ＣＰＵ外部に設置された命令メモリ２１
と、命令実行部２５の間に、命令キャッシュ２２を設置
し、これにより、命令メモリ２２から、連続して複数の
ＶＬＩＷ要素命令を、逐次命令キャッシュ２２に読み込
みＶＬＩＷ命令を生成すると共に、直前に生成したＶＬ
ＩＷ命令との、レジスタ参照依存を検査して、必要な待
ち合わせ情報、及び、実行結果データのバイパスのため
のパスの設定に関する情報を、予め抽出する。【解決手段】

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、並列計算機に係
り、特に、ＶＬＩＷ型並列計算機（Very Long Instruct
ion Word：超長形式機械命令型並列計算機）における命
令実行制御部の改良に関する。

【０００２】

【従来の技術】１クロック・サイクル当たり複数の命令
を発行する方法がある。この方法により、命令実行速度
がクロック速度を超えることが可能になる。

【０００３】ＶＬＩＷ型並列計算機（Very Long Instru
ction Word：超長形式機械命令型並列計算機）は、真に
同時発行可能な命令をまとめて１つの超長形式機械命令
とするところまでコンパイラが責任を持って行うので、
ハードウェアは命令の同時実行可能性に関して何も迷う
必要はない。

【０００４】例えば、この種の並列計算機として「ヘネ
シー＆パターソンコンピュータ・アーキテクチャ −
設計・実現・評価の定量的アプローチ−」（日経ＢＰ
社、１９９２、ｐｐ３１２〜３２３）に記載されたもの
がある。

【０００５】図９は従来のＶＬＩＷ型並列計算機の構成
を示す図であり、この図において、ＶＬＩＷ型並列計算
機は、命令メモリ１１、実行部１２（実行部１〜ｎ）、
データスイッチ１３、及びレジスタファイル１４から構
成される。

【０００６】上記命令メモリ１１は、実行部１〜ｎに対
して毎命令実行サイクルにそれぞれ命令を供給する。こ
のため、命令メモリ１１から一度に読み出される命令長
は、各実行部に与える命令長×ｎとなる。それぞれの実
行部に与える命令長は、通常の一般的な計算機と同様
に、３２ビット程度である。

【０００７】したがって、命令メモリ１１から読み出さ
れる命令長は、３２×ｎビットとなり、非常に長くな
る。これが、ＶＬＩＷ型並列計算機と呼ばれる理由であ
る。

【０００８】各実行部は、命令実行サイクル毎に、命令
メモリ１１から供給される命令を実行する。一方、オペ
ランドデータは、データスイッチ１３を介して、レジス
タファイル１４から入力、又はレジスタファイル１４に
出力される。

【０００９】全ての実行部が、レジスタファイル１４内
の任意のレジスタを必ず参照、又はレジスタに書き込み
できるためには、各実行部が２つの入力オペランドに対
して演算を行い、１つの出力オペランドをレジスタに書
き込むことを考えると、２×ｎ入力、ｎ出力の多ポート
レジスタファイルが必要となる。

【００１０】同様に、データスイッチ１３は、非閉塞で
あるためには、３ｎ×３ｎ（３ｎ入力、３ｎ出力）のク
ロスバスイッチとなる。

【００１１】更に、直前のｎ個の命令実行結果データを
直後のｎ個の命令のそれぞれ２つのオペランドデータと
して参照可能とするために、各ｎ個の命令コードをもつ
ＶＬＩＷ命令間のレジスタ参照依存関係を調べ、必要に
応じてデータスイッチを切り替え、レジスタファイル１
４の読み出しデータではなく、実行部からの出力データ
を、再度実行部に供給する機構を備えるものが多い。

【００１２】

【発明が解決しようとする課題】このような従来のＶＬ
ＩＷ型並列計算機では、毎命令実行サイクルにそれぞれ
の実行部に対して、別々の命令を与える必要があるた
め、ＶＬＩＷ命令コード（以下、ＶＬＩＷ計算機での一
度に実行される命令コードをＶＬＩＷ命令、あるいはＶ
ＬＩＷ命令コードといい、各実行部で実行される個々の
命令コードを単に命令、あるいは命令コードという。）
が長大になる。このため、ＣＰＵ内部に命令キャッシュ
を設置し、ＣＰＵ外部に設置された命令メモリと、命令
実行部との緩衝を行っている。

【００１３】これにより、命令メモリは通常の計算機と
同様に、１つの命令分の読み出し幅としながらも、命令
キャッシュから１つのＶＬＩＷ命令にパックされて参照
可能としているものが多い。このようなＶＬＩＷ計算機
において、各ＶＬＩＷ命令間のデータ参照依存のチェッ
ク、及び参照依存による命令実行の待ち合わせ時間を最
小化するために、データフォワーディング機構（レジス
タファイルを介さず、実行部からの命令実行結果データ
を、次の命令実行のために参照するためのデータバイパ
ス機構）を備えるものが多い。

【００１４】しかしながら、ＶＬＩＷ命令間の参照依存
の組み合わせは非常に多く（Ｎ²のオーダ）、これをチ
ェックするための回路規模、及び配線量は多大となる。
このため、ＣＰＵをＬＳＩ化する際などにおいて、チッ
プサイズの増大、及び回路遅延による動作クロック周波
数の低下などの問題を引き起こしている。

【００１５】本発明は、回路規模、及び配線量を大幅に
削減することができ、ＣＰＵをＬＳＩ化する際などにお
いて、チップサイズの縮小、及び回路遅延を最小化する
ことが可能となり、動作クロック周波数を向上させ、消
費電力を最小化するとともに、チップコストを低減でき
る並列計算機を提供することを目的とする。

【００１６】

【課題を解決するための手段】本発明に係る並列計算機
は、同時に複数の命令実行部において、それぞれ独立し
た処理を行う並列計算機において、命令メモリ、命令キ
ャッシュ、命令キャッシュ書き込み制御部、命令アドレ
ス制御部、複数個の命令実行部、データスイッチ、及び
レジスタファイルを備え、次に実行すべきＶＬＩＷ（Ve
ry Long Instruction Word）命令が、命令キャッシュに
存在しない場合には、命令メモリから、ＶＬＩＷ命令の
要素となる命令コードを、クロックサイクル毎に１つず
つ連続して読み出し、命令キャッシュ内の書き込み対象
とされるブロックに逐次書き込むと同時に、命令キャッ
シュ書き込み制御部において、命令コードと、直前に命
令メモリから読み込み生成した、それぞれ複数個の命令
コードで構成される、１つまたは複数のＶＬＩＷ命令コ
ードとの間の、レジスタ参照依存を検査し、参照依存が
検出されない場合には、レジスタファイルからの読み出
しデータを、命令実行部に供給するための、予め定めら
れた値を、データスイッチ制御情報として、命令キャッ
シュの該当ブロックに書き込み、参照依存が検出された
場合には、次のＶＬＩＷ命令の実行を抑止するためのウ
エイトサイクル数を抽出し、該ウエイトサイクル数を命
令キャッシュの該当ブロックに書き込むと同時に、直前
に実行されるＶＬＩＷ命令の実行結果データを、レジス
タファイルを介さず、命令実行部からデータスイッチを
介して、直接、複数の命令実行部の特定の命令実行部へ
供給するための、データスイッチ制御情報を抽出し、該
データスイッチ制御情報を命令キャッシュの該当ブロッ
クに書き込み、その後、命令キャッシュ内に新たに生成
された、該当ＶＬＩＷ命令を読み出し、読み出したＶＬ
ＩＷ命令を全ての命令実行部、データスイッチ、及びレ
ジスタファイルヘ、同時に供給して該ＶＬＩＷ命令を実
行し、次に実行すべきＶＬＩＷ命令が、命令キャッシュ
に存在する場合には、命令キャッシュの該当ブロックか
ら、該実行すべきＶＬＩＷ命令を読み出し、全ての命令
実行部、データスイッチ、及びレジスタファイルヘ、同
時に供給し、該ＶＬＩＷ命令を実行するように構成す
る。

【００１７】また、本発明に係る並列計算機は、同時に
複数の命令実行部において、それぞれ独立した処理を行
う並列計算機において、命令メモリ、命令キャッシュ、
命令キャッシュ書き込み制御部、命令アドレス制御部、
複数個の命令実行部、データスイッチ、及びレジスタフ
ァイルを備え、命令メモリから、クロックサイクル毎に
１命令コードを読み出し、命令キャッシュ書き込み制御
部において、直前に読み込んだ、それぞれｎ（ｎは任意
の整数）個の命令コードで構成される、１つまたは複数
のＶＬＩＷ命令コードとの、レジスタ参照依存を検査
し、参照依存が検出された場合には、次のＶＬＩＷ命令
の実行を抑止するためのウエイトサイクル数を生成する
とともに、データフォワーディングを行うためのスイッ
チ制御情報を生成し、ウエイトサイクル数及びスイッチ
制御情報を、読み込んだ命令コードと同時に命令キャッ
シュの該当ブロックに書き込み、予め、命令キャッシュ
内においてＶＬＩＷ命令を構成しておき、ＶＬＩＷ命令
実行時には、ＶＬＩＷ命令間のレジスタ参照依存チェッ
クは行わず、命令キャッシュから該当するＶＬＩＷ命令
コード、ウエイト数、及びスイッチ制御情報を同時に読
み出し、直前に実行されたＶＬＩＷ命令実行結果を参照
するための、ＶＬＩＷ命令実行待ち合わせ、及びデータ
スイッチの切り替えによるデータフォワーディングを行
うように構成する。

【００１８】また、命令の実行時間は、１クロックサイ
クルであってもよく、命令の実行時間は、複数のクロッ
クサイクルであってもよい。

【００１９】また、並列計算機は、ＶＬＩＷ（Very Lon
g Instruction Word：超長形式機械命令）型並列計算機
であってもよい。

【００２０】

【発明の実施の形態】本発明に係る並列計算機は、ＶＬ
ＩＷ型並列計算機に適用することができる。

【００２１】図１は本発明の第１の実施形態に係るＶＬ
ＩＷ型並列計算機の全体構成を示す図である。

【００２２】図１において、ＶＬＩＷ型並列計算機２０
は、命令メモリ２１、命令キャッシュ２２、命令キャッ
シュ書き込み制御部２３、命令アドレス制御部２４、実
行部２５（実行部１〜ｎ）、データスイッチ２６、及び
レジスタファイル２７から構成される。

【００２３】上記命令メモリ２１は、命令アドレス制御
部２４から入力される命令アドレスに従い、クロックサ
イクル毎に１つの命令コード（１つの実行部で実行され
る命令コード）を読み出し、命令キャッシュ２２、及び
命令バッファ書き込み制御部２３に与える。命令キャッ
シュ２２は、タグ部、及びデータ部とで構成されるブロ
ックをｍ語備える。

【００２４】図２は上記命令キャッシュ２２の構成を示
す図である。

【００２５】図２において、命令キャッシュ２２は、タ
グ部がＶフラグ、命令アドレス、及びＬＲＵフラグから
構成される。

【００２６】図２中のＶは、Ｖalidフラグの意味であ
り、該当ブロックの内容が有効であるか、否かを示す。
命令数は、命令１〜ｎに格納される各命令のうち、命令
１から数えて、有効である命令数を示す。この命令数で
示される数の命令が、実行部１〜ｎにおいて並列実行可
能であることを示す。

【００２７】図２のハッチング部分に示す命令アドレス
は、該当ブロックの命令１に格納されている命令コード
の、命令メモリ上に配置された命令アドレスを示す。外
部から与えられた命令アドレスに一致する値が本命令ア
ドレス部に格納されている場合には、該当ブロックには
参照すべき命令コードが格納されていることを示す。

【００２８】ＬＲＵは、Least Recentyly Usedフラグの
意味であり、本フラグが０の場合には、該当ブロックに
格納されている命令が最近参照されていないことを示
す。このようなブロックは、新たな命令コード列を命令
バッファに格納する際の、更新対象となる。

【００２９】上記命令アドレス部、及びＬＲＵ部は内容
検索型メモリ（連想メモリ）から構成され、該当部分に
格納されている内容と一致する場合に必要データを出力
する構造をもつ。

【００３０】上記命令アドレス部は、入力される命令ア
ドレスの内容と一致するブロックが存在する場合には一
致信号をアサート（論理“１”）し、該当ブロックのＶ
フラグ、命令数及び命令１〜ｎの内容を出力する。

【００３１】また、ＬＲＵ部は、読み出しが行われた場
合に該当ブロックのＬＲＵを１にし、書き込みを行う場
合には、Ｖフラグが０である一番若い番のブロック番号
を出力する。全てのＶフラグが１の場合には、ＬＲＵが
０である一番若いブロック番号を出力すると同時に該当
ブロックのＶフラグを０にする。全てのＶフラグ、及び
全てのＬＲＵが１の場合には一番老い番のブロック、す
なわちｍを出力すると同時に該当ブロックのＶフラグを
０にする。また、書き込み時（ブロックの更新時）に
は、更新されたブロックのＬＲＵフラグのみ１になり、
他の全てのブロックのＬＲＵフラグは０となる。

【００３２】さらに、上記命令キャッシュ２２のデータ
部は、ｎ個の命令格納部で構成され、各命令格納部は、
命令コードを格納する部分、及びスイッチ制御情報を格
納する部分から構成される。

【００３３】スイッチ制御情報格納部は、それぞれソー
スオペランド１指定部、及びソースオペランド２指定部
とで構成される。

【００３４】図１に戻って、上記命令キャッシュ書き込
み制御部２３は、次に実行すべきＶＬＩＷ命令が命令キ
ャッシュ２２に存在しない場合（以下、命令キャッシュ
ミスという。同様に、命令キャッシュミスでない場合を
命令キャッシュヒットという。）命令メモリ２１から読
み出した命令コードを順次命令キャッシュ２２に格納す
るための制御を行うとともに、直前に命令キャッシュ２
２内で生成された１つ、または複数のＶＬＩＷ命令との
間のレジスタ参照依存をチェックする。

【００３５】参照依存が検出された場合には、必要なデ
ータをレジスタファイル２７を介さず、データスイッチ
２６を介して実行部から直接参照するための、スイッチ
制御情報（スイッチ制御）を出力し、命令キャッシュ２
２の該当ブロックに格納するための機構をもつ。なお、
命令キャッシュ書き込み制御部２３の詳細な回路構成に
ついては図４により後述する。

【００３６】本実施形態では、全ての命令実行は各実行
部において１クロックサイクルで完了するものとする。

【００３７】図３は上記ＶＬＩＷ型並列計算機２０によ
り実行される命令コードのフォーマットを示す図であ
る。

【００３８】図３において、命令には演算命令と分岐命
令の２種があり、それぞれ別々のフォーマットをもつ。
演算命令は、演算指定、ソース１オペランド、ソース２
オペランド、及びデスティネーションオペランドで構成
される。また、分岐命令は、分岐指定、及び分岐先アド
レスで構成される。

【００３９】演算命令ではソースオペランド１で指定さ
れるレジスタの内容とソースオペランド２で指定される
レジスタの内容に対して、演算指定で指定される演算を
行い、結果をデスティネーションオペランドで指定され
るレジスタに格納する操作を行い、分岐命令では、分岐
指定条件を満足する場合に分岐先アドレスを次に実行す
べき命令アドレスとする操作を行うものである。

【００４０】図４は上記ＶＬＩＷ型並列計算機２０にお
ける命令キャッシュ書き込み制御部２３の構成を示す回
路図である。

【００４１】図４において、命令キャッシュ書き込み制
御部２３は、命令レジスタ３１、シフトレジスタ３２
（シフトレジスタ１〜ｎ）、ラッチ３３（ラッチ１１〜
１ｎ）、比較器３４（比較器１１〜ｎ２）、バッファ３
５（バッファ１１〜ｎ２）、命令カウンタ３６、デコー
ダ３７、ＡＮＤ回路３８（ＡＮＤ回路１）、ＡＮＤ回路
３９（ＡＮＤ回路２）、ＯＲ回路４０（ＯＲ回路１）及
びＤラッチ４１から構成される。

【００４２】上記命令レジスタ３１は、命令メモリ２１
から読み出した命令コードを一時的に保持するためのレ
ジスタである。

【００４３】上記シフトレジスタ３２（シフトレジスタ
１〜ｎ）は、連続して命令メモリ２１から読み出される
ｎ個の命令コードの、各デスティネーションオペランド
の内容を順次保存するものであり、ｎ個の命令コードが
命令キャッシュ２２に格納されてＶＬＩＷ命令の生成が
完了するまでの間、その内容を保持する。

【００４４】上記ラッチ３３（ラッチ１〜ｎ）は、直前
に生成されたＶＬＩＷ命令を構成する各命令コードのデ
スティネーションオペランドをそれぞれ保持するための
ものであり、新たなＶＬＩＷ命令が命令キャッシュ２２
内に生成されるまで、その内容を保持する。

【００４５】上記比較器３４（比較器１１〜ｎ２）は、
それぞれ新たに命令レジスタ３１に保持された命令コー
ドで参照するソースオペランド１、及びソースオペラン
ド２が、ラッチ１〜ｎに格納されている直前に生成され
たＶＬＩＷ命令で指定するｎ個のデスティネーションオ
ペランドと一致するか否かを検査するものであり、ＶＬ
ＩＷ命令間の参照依存をチェックする。

【００４６】上記バッファ３５（バッファ１１〜ｎ２）
は、比較器１１〜ｎ２で一致が検出された場合に、それ
ぞれラッチ１〜ｎに保持されている直前に生成されたＶ
ＬＩＷ命令のデスティネーションオペランドを出力する
ものであり、バッファ１１、２１〜ｎ１出力、及びバッ
ファ１２、２２〜ｎ２は、それぞれ論理和がとられ、デ
ータフォワード１、データフォワード２として、スイッ
チ制御を行うために命令キャッシュ２２の該当ブロック
に格納される。

【００４７】上記命令カウンタ３６は、命令キャッシュ
ミス時に命令メモリ２１から命令コードを読み込み、命
令キャッシュ２２に格納してＶＬＩＷ命令を生成する
間、毎クロックサイクル計数を行う。命令カウンタ３６
は、ＶＬＩＷ命令構成のための命令コード数を計数する
もので、キャリー出力により新たに初期化（１となる）
される。また、キャリー出力はＶフラグをアサート（１
にする）する。

【００４８】このＶフラグが命令キャッシュ２２に書き
込まれることで、該当するブロックの内容が有効である
ことを示すことになる。

【００４９】命令カウンタ３６の計数出力は、デコーダ
３７によりデコードされ、それぞれ命令キャッシュ２２
の各命令コード、及びスイッチ制御情報の書き込み位置
に対する書き込み許可信号となる。

【００５０】上記ＡＮＤ回路３８（ＡＮＤ回路１）は、
命令キャッシュミス時のみクロックを各部に供給するた
めのゲート回路である。

【００５１】上記Ｄラッチ４１、ＯＲ回路４０（ＯＲ回
路１）、ＡＮＤ回路３９（ＡＮＤ回路２）及びフリップ
フロップ４２は、全体として命令キャッシュミスが発生
した最初の１クロックサイクルのみアサートされる遷移
検出回路４３を構成する。

【００５２】上記遷移検出回路４３は、この出力がウエ
イト信号として、新たに生成されるＶＬＩＷ命令の実行
を１クロックサイクル抑止するための情報となり、命令
キャッシュ２２の該当ブロックに書き込まれる。

【００５３】このウエイト情報は、命令キャッシュ２２
が最初にミスした時点で、その直前に命令キャッシュ２
２から（命令キャッシュヒットして）読み出されたＶＬ
ＩＷ命令との、レジスタ参照依存を検査することができ
ないために、データフォワーディングができないので、
強制的にウエイトサイクルを挿入し、直前のＶＬＩＷ命
令実行結果であっても、レジスタファイルから読み出し
て次に実行されるＶＬＩＷ命令を実行させるためのもの
である。

【００５４】図１に示す命令アドレス制御部２４は、次
に読み出して実行すべき命令アドレスを生成するもので
あり、図５に回路構成を示す。

【００５５】図５は上記命令アドレス制御部２４の回路
構成図であり、この図において、命令アドレス制御部２
４は命令アドレスカウンタ５１から構成される。

【００５６】命令アドレスカウンタ５１は、入力される
分岐信号がアサートされていない状態（ネゲート状態）
では、クロックサイクル毎にｎずつ増分させて、ＶＬＩ
Ｗ命令を逐次的に実行する場合の命令アドレスを生成す
る。また、分岐信号がアサートされた状態では、入力さ
れる分岐アドレスをカウンタの初期値として設定し、分
岐先命令アドレスを生成するものである。

【００５７】図１に戻って、上記実行部２５（実行部１
〜ｎ）は、ＶＬＩＷ命令の実行部であり、１クロックサ
イクルでｎ個の処理を同時に行う。分岐命令は複数同時
に実行できないため、分岐命令を含むＶＬＩＷ命令は、
必ず実行部１で実行される命令コードを分岐命令とし、
その他の命令コード（実行部２〜ｎで実行される）はＮ
ＯＰ（Non OPeration：何も処理を行わない命令）とな
っている。

【００５８】上記レジスタファイル２７は、演算のため
のソースペランドデータを格納したり、演算結果である
デスティネーションオペランドデータを格納するもので
ある。ｎ個の実行部に対して、同時に、それぞれ独立に
２つのソースオペランドデータを供給し、それぞれ独立
に１つのデスティネーションデータを書き込むことを可
能とするために、２ｎ個の読み出しポー卜とｎ個の書き
込みポートを備える。

【００５９】上記データスイッチ２６は、実行部１〜ｎ
に対して、同時に２ｎ個のソースオペランドデータを供
給し、レジスタファイル２７に対して、同時にｎ個のデ
スティネーションデータを供給するためのデータスイッ
チで、データフォワーディングを行うための実行部間の
データ参照を可能とする構成となっている。このため、
３ｎ入力×３ｎ出力のクロスバスイッチで構成される。

【００６０】以下、上述のように構成されたＶＬＩＷ型
並列計算機２０の動作を説明する。

【００６１】図１に示すＶＬＩＷ型並列計算機２０にお
いて、命令アドレス制御部２４から出力される命令アド
レスにより、命令メモリ２１の読み出しと、命令キャッ
シュ２２の索引が同時に行われる。

【００６２】入力される命令アドレスに等しい命令アド
レスを保持しているブロックが、命令キャッシュ２２内
に存在し、かつ、そのブロックのＶフラグが１である場
合には、命令キャッシュヒットと認識される。この場合
には、命令キャッシュ２２の該当ブロックから必要な情
報を読み出す。

【００６３】必要な情報とは、前記図２の命令キャッシ
ュの構成に示すように、ウエイト情報、及び命令１〜ｎ
である。

【００６４】ウエイト情報は、直前に実行されたＶＬＩ
Ｗ命令と次に実行するＶＬＩＷ命令間のレジスタ参照依
存が不明の場合、これは、次に実行するＶＬＩＷ命令
が、命令キャッシュミスにより最初に生成されたＶＬＩ
Ｗ命令である場合に限られるが、次のＶＬＩＷ命令の実
行を強制的に１クロックサイクル抑止するもので、直前
の命令実行結果がレジスタファイル２７に書き込まれた
後に、次のＶＬＩＷ命令実行のためのソースオペランド
データの読み出しを開始させるための、同期をとるもの
である。

【００６５】命令１〜ｎは、それぞれスイッチ制御情
報、及び命令コードとで構成されている。

【００６６】また、スイッチ制御情報は、ＳＷ１１〜ｎ
１のソースオペランド１データを実行部に与えるため
に、必要なスイッチ切り替え情報と、ＳＷ１２〜ｎ２の
ソースオペランド２データを実行部に与えるために、必
要なスイッチ切り替え情報とから構成される。

【００６７】ＳＷ１１〜ｎ１、及びＳＷ１２〜ｎ２の各
スイッチ制御情報は、それぞれＳＷ１１，１２〜ＳＷｎ
１，ｎ２のペアで、命令１〜ｎの各スイッチ制御情報と
して、命令キャッシュ２２の該当ブロックに書き込まれ
ている。

【００６８】スイッチ制御情報は、命令キャッシュ書き
込み制御部２３において、ＶＬＩＷ命令間のレジスタ参
照依存がないと認識された場合には、データフォワーデ
ィングを行う必要がない。このときは、単にレジスタフ
ァイル２７からの読み出しデータのデータスイッチ２６
への入力位置がスイッチ情報となる。

【００６９】すなわち、図１においてデータスイッチの
Ｒ１１がＳＷ１１として、Ｒ１２がＳＷ１２として、以
下同様に、Ｒｎ１がＳＷｎ１、そして、Ｒｎ２がＳＷｎ
２として、命令キャッシュ２２に書き込まれる。ＶＬＩ
Ｗ命令間のレジスタ参照依存があると認識された場合に
は、命令キャッシュ書き込み制御部２３から供給される
データフォワーディングを行うための、スイッチ制御情
報、すなわち、データフォワード１、及びデータフォワ
ード２が命令キャッシュ２２の該当ブロックに書き込ま
れる。

【００７０】命令キャッシュ２２から読み出される、該
当ブロックのスイッチ制御情報は、全て同時に、データ
スイッチ２６に供給される。

【００７１】また、命令コード１〜ｎは、それぞれ実行
部１〜ｎに供給される。命令コード１〜ｎの各ソースオ
ペランド１、ソースオペランド２（これらはソースオペ
ランドデータとなるレジスタを指定する）、及びデステ
ィネーションオペランド（デスティネーションオペラン
ドデータを格納するレジスタを指定する）は、全て同時
に、レジスタファイル２７にも供給される。なお、図１
では、この信号接続は省略されている。

【００７２】レジスタファイル２７では、命令キャッシ
ュ２２から供給された命令コード１〜ｎに含まれる各ソ
ースオペランド１、及びソースオペランド２で指定され
る２ｎ個のソースオペランドデータを、同時に読み出
し、これらの全てをデータスイッチ２６に供給する。

【００７３】データスイッチ２６では、命令キャッシュ
２２から供給されたスイッチ制御情報に従い、クロスバ
スイッチの制御を行う。例えば、命令コード１のソース
オペランド１がレジスタファイル２７のｒ１を指定して
いて、このレジスタに関する参照依存がない場合には、
データフォワーディングは行われず、データスイッチ２
６に入力されるレジスタファイル２７のｒ１の値、これ
は図１に示すデータスイッチ２６のＲ１１に入力される
ため、図１のＲ１１をＳ１１に接続するようにスイッチ
が切り替えられる。

【００７４】また、命令コードｎのソースオペランド２
がレジスタファイル２７のｒ２を指定していて、かつ、
このレジスタが直前のＶＬＩＷ命令の内の命令ｎの実行
により更新される場合には、データフォワーディングが
行われ、データスイッチ２６に入力される命令ｎの実行
結果、これは図１に示すデータスイッチ２６のＤｎに入
力されるため、図１のＤｎをＳｎ２に接続するようにス
イッチが切り替えられる。

【００７５】データスイッチ２６のＳ１１〜Ｓ２ｎを介
して、実行部１〜ｎに与えられる、各ソースオペランド
１データ、及びソースオペランド２データは、実行部１
〜ｎにおいて演算され、結果データであるデスティネー
ションオペランドデータはデータスイッチのＤ１〜ｎに
出力される。

【００７６】データスイッチ２６では、Ｄ１〜ｎに入力
されたデスティネーションオペランドデータを、それぞ
れＷ１〜ｎに接続させて供給するとともに、スイッチ制
御情報においてデータフォワーディングを指定されたデ
スティネーションオペランドデータを、次に実行するＶ
ＬＩＷ命令のためのソースオペランドデータとして、Ｓ
１１〜２ｎのうちの所定の出力に接続する。

【００７７】レジスタファイル２７では、データスイッ
チ２６のＷ１〜ｎから入力されるデスティネーションデ
ータを、命令コード１〜ｎのデスティネーションオペラ
ンドで指定されるレジスタに、それぞれ書き込む。

【００７８】分岐命令がＶＬＩＷ命令に含まれる場合に
は、同時に複数の分岐命令を実行すること、及び分岐命
令と同時に他の命令を実行すること、のどちらもプログ
ラムの動作上不可能であるので、この場合には、分岐命
令が命令コード１に、命令コード２〜ｎは全てＮＯＰと
なる。分岐命令は、必ず実行部１で実行される。結果
は、分岐信号がアサートされ、分岐アドレスが出力さ
れ、命令アドレス制御部２４に供給される。

【００７９】図５に示す命令アドレス制御部２４におい
て、命令アドレスカウンタ５１は、入力される分岐信号
がアサートされていない状態（ネゲート状態）では、ク
ロックサイクル毎にｎずつ増分させて、ＶＬＩＷ命令を
逐次的に実行する場合の命令アドレスを生成する。ま
た、分岐信号がアサートされた状態では、入力される分
岐アドレスをカウンタの初期値として設定し、分岐先命
令アドレスを生成する。

【００８０】命令キャッシュミス、すなわち、命令キャ
ッシュ２２において、入力される命令アドレスと等しい
命令アドレスがタグ部に存在しない場合、あるいは、存
在してもそのブロックのＶフラグが０である場合には、
命令メモリ２１から新たにｎ個の命令コードを読み出
し、これらを命令キャッシュ２２の、更新先ブロックに
順次書き込んでいくとともに、直前に命令キャッシュ２
２内の別のブロックに生成されたＶＬＩＷ命令との、レ
ジスタ参照依存をチェックし、参照依存が検出された場
合には、データフォワーディングを行うためのスイッチ
制御情報を生成し、これを命令キャッシュ２２の該当ブ
ロックに書き込み、ＶＬＩＷ命令実行時にデータスイッ
チ２６にこれを供給し、データスイッチ２６にてデータ
フォワーディングを行うためのパスを形成する。

【００８１】このように、命令キャッシュミスの際に、
命令メモリ２１から読み出した命令コードの、命令キャ
ッシュ２２への書き込み、及び、ＶＬＩＷ命令実行時の
オペランドデータ供給のための、スイッチ制御情報の生
成と、これの命令キャッシュ２２への書き込みの制御を
行うのが、命令キャッシュ書き込み制御部２３である。

【００８２】以下、図４に示す命令キャッシュ書き込み
制御部２３の動作について詳細に説明する。

【００８３】図４に示す命令キャッシュ書き込み制御部
２３において、命令キャッシュミス時に命令アドレスに
より命令メモリ２１から読み出した命令コードは、まず
命令レジスタ３１に格納される。

【００８４】シフトレジスタ３２（シフトレジスタ１〜
ｎ）では、連続して命令メモリ２１から読み出されるｎ
個の命令コードの、各デスティネーションオペランドの
内容を順次シフトインし、１クロックサイクル後にシフ
トアウトしながら、保存するもので、ｎ個の命令コード
が命令キャッシュに格納されてＶＬＩＷ命令の生成が完
了するまでの間、その内容を保持する。

【００８５】ラッチ３３（ラッチ１〜ｎ）は、直前に生
成されたＶＬＩＷ命令を構成する各命令コードのデステ
ィネーションオペランドをそれぞれ保持するためのもの
で、新たなＶＬＩＷ命令が命令キャッシュ２２内に生成
されるまで、その内容を保持する。

【００８６】すなわち、ラッチ１〜ｎでは、直前に命令
キャッシュ２２内に生成されたＶＬＩＷ命令コードのｎ
個のデスティネーションオペランドを、次に新たなＶＬ
ＩＷ命令が命令キャッシュ２２内で生成されるまでの間
保持する。したがって、命令レジスタ３１に保持された
命令コードのソースオペランド１、及びソースオペラン
ド２と、ラッチ１〜ｎの内容とを、それぞれ比較するこ
とにより、ＶＬＩＷ命令間のレジスタ参照依存をチェッ
クすることができる。この比較は、図４の比較器３４
（比較器１１〜ｎ２）において行う。

【００８７】また、バッファ３５（バッファ１１〜ｎ
２）は、比較器１１〜ｎ２で一致が検出された場合に、
それぞれラッチ３３（ラッチ１〜ｎ）に保持されている
直前に生成されたＶＬＩＷ命令のデスティネーションオ
ペランドを出力するものであり、バッファ１１，２１〜
ｎ１出力、及び、バッファ１２，２２〜ｎ２は、それぞ
れ論理和がとられ、データフォワード１、データフォワ
ード２として、スイッチ制御を行うために命令キャッシ
ュ２２の該当ブロックに格納される。

【００８８】上記比較器１１〜ｎ１及び比較器１２〜ｎ
２では、それぞれ多くても１つの比較器においてのみ一
致が検出されるとしている。これは、１つのＶＬＩＷ命
令において、同時に複数の命令が、それぞれの演算結果
を、同一のレジスタに格納することは有りえないとして
いるからである。

【００８９】したがって、１つの命令コードに対して、
データフォワード１、及びデータフォワード２の最大２
つの、データフォワーディングを行うためのスイッチ制
御情報が生成される。

【００９０】また、図４の命令カウンタ３６は、ＶＬＩ
Ｗ命令構成のための命令コード数を計数するものであ
り、命令キャッシュミス時に命令メモリ２１から命令コ
ードを読み込み、命令キャッシュ２２に格納してＶＬＩ
Ｗ命令を生成する間、毎クロックサイクル計数を行う。
キャリー出力により新たに初期化（１となる）される。
また、キャリー出力はＶフラグをアサート（１にする）
する。このＶフラグが命令キャッシュ２２に書き込まれ
ることで、該当するブロックの書き込みが完了し、その
内容が有効であることを示すことになる。

【００９１】また、命令カウンタ３６の計数出力は、デ
コーダ３７によりデコードされ、それぞれ命令キャッシ
ュ２２の各命令コード、及びスイッチ制御情報の書き込
み位置に対する書き込み許可信号となる。

【００９２】ＡＮＤ回路３８（ＡＮＤ回路１）は、命令
キャッシュミス時のみクロックを各部に供給するための
ゲート回路である。

【００９３】Ｄラッチ４１、ＯＲ回路４０（ＯＲ回路
１）、ＡＮＤ回路３９（ＡＮＤ回路２）及びフリップフ
ロップ４２は連続しない命令キャッシュミスが発生した
最初の１クロックサイクルのみアサー卜される信号を生
成する遷移検出回路４３である。

【００９４】命令キャッシュミスにより、新たにＶＬＩ
Ｗ命令が命令キャッシュ２２内に生成されると、命令ア
ドレスの照合が一致し、Ｖフラグがアサートされること
で、命令キャッシュミスは解除される。

【００９５】これにより生成されたばかりのＶＬＩＷ命
令は命令キャッシュ２２から読み出されて、実行部１〜
ｎに供給される。ところが、この直後のＶＬＩＷ命令に
ついても、命令キャッシュミスの場合には、１クロック
サイクル後に、また、命令キャッシュ２２からミス信号
がアサートされる。つまり、連続して命令キャッシュミ
スの場合には、ミス信号は１クロックサイクルの間だけ
ネゲートされる。

【００９６】したがって、ミス信号が２クロックサイク
ル以上ネゲートされていた状態において、新たにミス信
号がアサートされた遷移を検出することで、連続しない
命令キャッシュミスの最初の時点を検出することができ
る。

【００９７】遷移検出回路４３で生成された、この信号
はウエイト信号として、新たに生成されるＶＬＩＷ命令
の実行を１クロックサイクル抑止するための情報とな
り、命令キャッシュ２２の該当ブロックに書き込まれ
る。

【００９８】このウエイト情報は、命令キャッシュ２２
が最初にミスした時点で、その直前に命令キャッシュ２
２から（命令キャッシュヒットして）読み出されたＶＬ
ＩＷ命令との、レジスタ参照依存を検査することができ
ないために、データフォワーディングができないので、
強制的にウエイトサイクルを挿入し、直前のＶＬＩＷ命
令実行結果であっても、レジスタファイル２７から読み
出して次に実行されるＶＬＩＷ命令を実行させるための
ものである。

【００９９】次に、命令キャッシュ２２における書き込
み時の動作を説明する。

【０１００】図２に示す命令キャッシュ２２において、
命令アドレス部、及びＬＲＵ部は、共に内容検索型の連
想メモリで構成されている。命令キャッシュ２２では、
命令キャッシュミスでない状態では、クロックサイクル
毎入力された命令アドレスに一致するブロックの存在を
検査する。これは、命令バッファの各ブロックの命令ア
ドレス部を検索することで実行される。命令アドレス部
は、内容検索型のメモリで構成され、外部から入力され
た命令アドレスに一致する内容を命令アドレス部に保持
しているブロックを検索する。

【０１０１】もし、一致するブロックが存在する場合に
は、ミス信号をネゲートすると共に、当該ブロックのＶ
フラグ、命令数、及び命令１〜ｎの内容を出力する。ま
た、同時に当該ブロックのＬＲＵフラグを１にする。一
致するブロックが存在しない場合には、ミス信号はアサ
ートされる。この場合には、命令メモリ２１から順次読
み出したｎ個の命令コードは、順次命令バッファの同一
ブロックに格納される。

【０１０２】このとき、新たにＶＬＩＷ命令生成のため
の命令コードを格納すべきブロックは、ＬＲＵブロック
番号として命令キャッシュのタグ部分から与えられる。
命令キャッシュ２２のＬＲＵ部分は、内容検索型メモリ
であり、書き込みを行う場合には、Ｖフラグが０である
一番若い番のブロック番号を出力する。

【０１０３】全てのＶフラグが１の場合には、ＬＲＵフ
ラグが０である一番若い番のブロック番号を出力すると
同時に当該ブロックのＶフラグを０にする。また、全て
のＶフラグ、及び全てのＬＲＵフラグが１の場合には一
番老い番のブロック、すなわちｍを出力すると同時に当
該ブロックのＶフラグを０にする。また、書き込み時
（ブロックの更新時）には、更新されたブロックのＬＲ
Ｕフラグのみ１になり、他の全てのブロックのＬＲＵフ
ラグは０となる。

【０１０４】この方法により、命令キャッシュ内のブロ
ックを最大効率で利用することが可能となる。

【０１０５】なお、第１の実施形態で示すＬＲＵ部分の
動作方法は、上述した方法に限定されず、既存技術によ
るＬＲＵ機構を用いるようにしてもよいことは勿論であ
る。

【０１０６】以上説明したように、第１の実施形態に係
るＶＬＩＷ型並列計算機２０は、命令メモリ２１、命令
キャッシュ２２、命令キャッシュ書き込み制御部２３、
命令アドレス制御部２４、複数個の命令実行部２５、デ
ータスイッチ２６、及びレジスタファイル２７を備え、
命令メモリ２１から、クロックサイクル毎に１命令コー
ドを読み出し、命令キャッシュ書き込み制御部２３にお
いて、直前に読み込んだ、それぞれｎ個の命令コードで
構成される、１つまたは複数のＶＬＩＷ命令コードと
の、レジスタ参照依存を検査し、参照依存が検出された
場合には、次のＶＬＩＷ命令の実行を抑止するためのウ
エイトサイクル数を生成するとともに、データフォワー
ディングを行うためのスイッチ制御情報を生成し、ウエ
イトサイクル数及びスイッチ制御情報を、読み込んだ命
令コードと同時に命令キャッシュ２２の該当ブロックに
書き込み、予め、命令キャッシュ２２内においてＶＬＩ
Ｗ命令を構成しておき、ＶＬＩＷ命令実行時には、単
に、ＶＬＩＷ命令間のレジスタ参照依存チェックは行わ
ず、命令キャッシュ２２から該当するＶＬＩＷ命令コー
ド、ウエイト数、及びスイッチ制御情報を同時に読み出
し、直前に実行されたＶＬＩＷ命令実行結果を参照する
ための、ＶＬＩＷ命令実行待ち合わせ、及びデータスイ
ッチ２６の切り替えによるデータフォワーディングを行
うように構成しているので、従来例によるＶＬＩＷ型並
列計算機のように、ＶＬＩＷ命令実行時に、ＶＬＩＷ命
令間のレジスタ参照依存をチェックし、これによる命令
実行の抑止、及び、データフォワーディングのための制
御信号の生成を行う必要はなく、ＣＰＵをＬＳＩ化する
際などにおいて、チップサイズの縮小、及び回路遅延を
最小化することが可能となる。

【０１０７】すなわち、従来例によるＶＬＩＷ型並列計
算機では、毎命令実行サイクルにそれぞれの実行部に対
して、別々の命令を与える必要があるため、ＶＬＩＷ命
令コードが長大になる。このため、ＣＰＵ内部に命令キ
ャッシュを設置し、ＣＰＵ外部に設置された命令メモリ
２１と、命令実行部との緩衝を行っている。このため、
命令メモリは通常の計算機と同様に、１つの命令分の読
み出し幅としながらも、命令キャッシュから１つのＶＬ
ＩＷ命令にパックされて参照可能としているものが多
い。このようなＶＬＩＷ計算機において、各ＶＬＩＷ命
令間のデータ参照依存のチェック、及び参照依存による
命令実行の待ち合わせ時間を最小化するために、データ
フォワーディング機構を備えるものが多かった。ところ
が、ＶＬＩＷ命令間の参照依存の組み合わせは非常に多
く（同時実行する処理量ををＮとすると、Ｎ²のオー
ダ）、これをチェックするための回路規模、及び配線量
は多大となる。このため、ＣＰＵをＬＳΙ化する際など
において、チップサイズの増大、及び回路遅延による動
作クロック周波数の低下などの問題を引き起こしてい
た。

【０１０８】これに対し、本実施形態に係るＶＬＩＷ型
並列計算機２０では、従来例によるＶＬＩＷ型並列計算
機のように、ＶＬＩＷ命令実行時に、ＶＬＩＷ命令間の
レジスタ参照依存をチェックし、これによる命令実行の
抑止、及び、データフォワーディングのための制御信号
の生成を行う必要はないので、ＶＬＩＷ命令間のレジス
タ参照依存をチェックするための回路量は、同時実行す
る処理量をＮとしても、Ｎのオーダとなる。したがっ
て、このための回路規模、及び配線量は従来技術による
ＶＬＩＷ型計算機の１／Ｎのオーダとなる。

【０１０９】これにより、ＣＰＵをＬＳＩ化する際など
において、チップサイズの縮小、及び回路遅延を最小化
することが可能となり、動作クロック周波数を向上さ
せ、消費電力を最小化するとともに、チップコストを低
減できる利点がある。特に、処理量Ｎが大きいときにこ
の効果は顕著となる。

【０１１０】上述した第１の実施形態に係るＶＬＩＷ型
並列計算機２０では、命令実行時間を１クロックサイク
ルとしていたが、命令の実行時間が複数クロックサイク
ルかかる並列計算機にも適用することができる。以下、
第２の実施形態では、命令の実行時間が最大ｄクロック
サイクルかかる場合のＶＬＩＷ型並列計算機に適用した
例について述べる。

【０１１１】図６は本発明の第２の実施形態に係る並列
計算機の全体構成を示す図である。本実施形態に係る並
列計算機の説明にあたり図１に示すＶＬＩＷ型並列計算
機と同一構成部分には同一符号を付して重複部分の説明
を省略する。

【０１１２】図６において、ＶＬＩＷ型並列計算機６０
は、命令メモリ２１、命令キャッシュ２２、命令キャッ
シュ書き込み制御部６１、命令アドレス制御部２４、実
行部２５（実行部１〜ｎ）、データスイッチ２６、及び
レジスタファイル２７から構成される。

【０１１３】命令の実行時間が最大ｄクロックサイクル
かかる場合のＶＬＩＷ型並列計算機を対象としていお
り、この点のみが相違点である。すなわち、命令キャッ
シュ制御部からの出力信号に関して、図１に示すＶＬＩ
Ｗ型並列計算機２０との相違は、ＶＬＩＷ型並列計算機
２０ではウエイト信号であったものが、本実施形態のＶ
ＬＩＷ型並列計算機６０ではウエイト数信号となってい
る点が異なる。これは、本実施形態のＶＬＩＷ型並列計
算機６０においては、命令実行時間がｄクロックサイク
ルかかることによるものである。この点以外は、全て第
１の実施形態と同じである。

【０１１４】図７はＶＬＩＷ型並列計算機６０の命令キ
ャッシュの構成を示す図であり、前記図２に示す命令キ
ャッシュとの相違は、図２ではウエイト信号であったも
のが、図７ではウエイト数信号を格納する点である。こ
の点以外は、全て第１の実施形態と同じである。

【０１１５】また、ＶＬＩＷ型並列計算機６０で実行さ
れるＶＬＩＷ命令の要素となる命令コードのフォーマッ
トは、前記図３に示す第１の実施形態と同じである。ま
た、ＶＬＩＷ型並列計算機６０における命令アドレス制
御部２４の構成も、前記図５に示す実施形態１と同じで
ある。

【０１１６】図８は上記ＶＬＩＷ型並列計算機６０の命
令キャッシュ書き込み制御部６１の構成を示す図であ
り、図４に示すＶＬＩＷ型並列計算機２０の命令キャッ
シュ書き込み制御部２３と同一構成部分には同一符号を
付して重複部分の説明を省略する。

【０１１７】図８において、命令キャッシュ書き込み制
御部６１は、命令レジスタ３１、シフトレジスタ３２
（シフトレジスタ１〜ｎ）、ラッチ６２、比較器６３、
バッファ６４、ＯＲ回路６５、セレクタ６６（セレクタ
１）、セレクタ６７（セレクタ２）、命令カウンタ３
６、デコーダ３７、ＡＮＤ回路３８（ＡＮＤ回路１）、
ＡＮＤ回路３９（ＡＮＤ回路２）、ＯＲ回路４０（ＯＲ
回路１）及びＤラッチ４１から構成される。

【０１１８】前記図４に示す命令キャッシュ書き込み制
御部２３と以下の点が相違する。すなわち、ラッチ６２
がラッチ１１〜ｄ-１ｎと（ｄ-１）×ｎ個であること、
比較器６３が比較器１１１〜ｄ-１ｎ２と（ｄ-１）×ｎ
×２個であること、バッファ６４がバッファ１１１〜ｄ
-１ｎ２と（ｄ-１）×ｎ×２個であること、比較器１１
１〜１ｎ２、２１１〜２ｎ２、ｄ-１１１〜ｄ-１ｎ２の
出力の全ての論理和をとるオアｄまでの、ｄ-１個のＯ
Ｒ回路６５が追加されたこと、である。

【０１１９】これらのｄ-１個のＯＲ回路６５の出力
は、それぞれウエイ卜ｄ-１、ウエイトｄ−２，…，ウ
エイト１信号となる。

【０１２０】また、フリップフロップ４２出力は、ウエ
イトｄ信号となる。更に、バッファ１１１、１２１，
…，１ｎ１の出力はワイヤードオアされ、バッファ２１
１，２２１，…，２ｎ１の出力はワイヤードオアされ、
以下同様に、バッファｄ-１１１，ｄ-１２１，…，ｄ-
１ｎ１の出力もワイヤードオアされ、これらのｄ-１本
の信号がセレクタ１に入力される。

【０１２１】また、バッファ１１２，１２２，…，１ｎ
２の出力はワイヤードオアされ、バッファ２１２，２２
２，…，２ｎ２の出力はワイヤードオアされ、以下同様
に、バッファｄ-１１２，ｄ-１２２，…，ｄ-１ｎ２の
出力もワイヤードオアされ、これらのｄ-１本の信号が
セレクタ６７（セレクタ２）に入力される。

【０１２２】セレクタ６６（セレクタ１）及びセレクタ
６７（セレクタ２）は、ウエイトｄ-１〜１までのｄ-１
本のウエイト信号により出力を選択する回路であり、こ
れらのウエイト信号のうち、アサートされているウエイ
ト数の一番大きなウエイト信号に対応する、ワイヤード
オアされたバッファ出力を選択して、それぞれ、データ
フォワード１信号、及びデータフォワード２信号として
いること、が前記第１の実施形態の命令キャッシュ書き
込み制御部２３との相違である。

【０１２３】これらの相違は、全て本実施形態のＶＬＩ
Ｗ型並列計算機６０では、命令実行時間が最大ｄクロッ
クサイクルとなることによるもので、ＶＬＩＷ命令間の
レジスタ参照依存チェックを、連続して生成されたｄ個
のＶＬＩＷ命令間について行う必要があること、及び、
データ参照の待ち合わせのために最大ｄクロックサイク
ルまで、次のＶＬＩＷ命令実行を抑止するためのウエイ
ト数信号を生成するためのものである。これらの相違以
外は、全て前記第１の実施形態の命令キャッシュ書き込
み制御部２３と同じであり、その機能、及び動作も同じ
である。

【０１２４】以下、上述のように構成されたＶＬＩＷ型
並列計算機６０の動作を説明する。

【０１２５】本実施形態のＶＬＩＷ型並列計算機６０に
おいて、命令キャッシュヒットの場合の動作は、前記第
１の実施形態のＶＬＩＷ型並列計算機２０とほぼ同じで
ある。異なる点は、命令キャッシュ２２から読み出され
るウエイト情報が、単なる１クロックサイクルのウエイ
ト指定ではなく、１〜ｄまでのウエイトサイクル数であ
ることである。これは、本実施形態のＶＬＩＷ型並列計
算機６０では、命令実行時間が最大ｄクロックサイクル
かかることによるものである。したがって、各実行部
は、入力されるウエイト数に見合うクロックサイクル時
間命令実行を待ち合わせることになる。

【０１２６】命令キャッシュミスの場合には、命令メモ
リ２１から順次命令コードを読み出し、命令キャッシュ
２２の該当ブロックに順次書き込みながら、ミスとなっ
たＶＬＩＷ命令を生成する、という点では、第１の実施
形態の場合と全く同じである。異なるのは、図８の命令
キャッシュ書き込み制御部６１の構成に見られるよう
に、ＶＬＩＷ命令間のレジスタ参照依存のチェックが、
新たに生成されようとしているＶＬＩＷ命令の要素とな
る各命令コードに対して、その直前に命令キャッシュ２
２内に生成された、ｄ-１個のＶＬＩＷ命令との間で行
われることである。

【０１２７】これは、命令実行に最大ｄクロックサイク
ルを要するため、直前のｄ-１個のＶＬＩＷ命令の実行
結果に対する参照待ち合わせのための、命令実行抑止に
必要なウエイト数情報生成、及び、命令再開直後のデー
タフォーワーディングのための、スイッチ制御情報の生
成のために必要となる。

【０１２８】図８において、Ｄラッチ４１、ＯＲ回路４
０（ＯＲ回路１）、ＡＮＤ回路３９（ＡＮＤ回路２）及
びフリップフロップ４２は連続しない命令キャッシュミ
スが発生した最初の１クロックサイクルのみアサー卜さ
れる信号を生成する遷移検出回路４３であることも、前
記第１の実施形態の場合と同様である。

【０１２９】但し、この遷移検出回路４３で生成された
ウエイト信号は、最大ｄクロックサイクルかかる、直前
に実行されたｄ-１個のＶＬＩＷ命令のどの命令コード
においても、デスティネーションオペランドとして更新
対象としているレジスタを、新たに命令キャッシュ２２
内に生成しようとしているＶＬＩＷ命令の要素である命
令コードが、ソースオペランドとして参照するとして
も、必ずレジスタファイル２７が更新された後に、その
データをレジスタファイル２７から読み出して参照する
ことを保証するために、ｄクロックサイクルの命令実行
を抑止をするためのウエイト信号となる。

【０１３０】これは前記第１の実施形態と同様に、命令
キャッシュ２２が最初にミスした時点で、その直前に命
令キャッシュ２２から（命令キャッシュヒットして）読
み出されたＶＬＩＷ命令との、レジスタ参照依存を検査
することができないために、データフォワーディングが
できないので、強制的にウエイトサイクルを挿入し、直
前のＶＬＩＷ命令実行結果であっても、レジスタファイ
ル２７から読み出して次に実行されるＶＬＩＷ命令を実
行させるためのものである。違いは、ＶＬＩＷ命令実行
に、最大ｄクロックサイクル必要である点によるもので
ある。データフォワーディングは、必ず最大待ち合わせ
時間必要なデスティネーションオペランドデータに対し
て働くようにスイッチ制御情報が生成される。

【０１３１】つまり、ＯＲ回路２〜ｄにおいて複数のウ
エイト指定信号、すなわちウエイトｄ-１〜１の複数が
同時にアサートされたとしても、ウエイトｄ-１〜１の
全ての信号がウエイト数情報として、命令キャッシュ２
２の該当ブロックに書き込まれる。命令キャッシュ２２
では、この情報をそのまま実行部に供給するため、結果
として、実行部では、ウエイトｄ-１〜１の複数がアサ
ートされたとしても、そのうちの最大ウエイト数に等し
いクロックサイクルの命令実行の抑止を行う。このと
き、データフォワード１、及びデータフォワード２の各
スイッチ制御情報の内容は、それぞれ、セレクタ１、及
びセレクタ２において、ウエイト指定が最大のデスティ
ネーションオペランドを選択して出力し、スイッチ制御
情報として命令キャッシュ２２の該当ブロックに書き込
む。ウエイト数がｄクロックサイクルの場合には、デー
タフォワーディングは行われず、必ずレジスタファイル
２７からソースオペランドデータを読み出して参照す
る。

【０１３２】前記第１の実施形態の命令キャッシュ書き
込み制御部２３との相違は、本実施形態のＶＬＩＷ型並
列計算機６０では、命令実行時間が最大ｄクロックサイ
クルとなることによるもので、ＶＬＩＷ命令間のレジス
タ参照依存チェックを、連続して生成されたｄ個のＶＬ
ＩＷ命令間について行う必要があること、及び、データ
参照の待ち合わせのために最大ｄクロックサイクルま
で、次のＶＬＩＷ命令実行を抑止するためのウエイト数
信号を生成するためのものである。これらの相違以外
は、全て実施形態１の命令キャッシュ書き込み制御部と
同じであり、その機能、及び動作も同じである。

【０１３３】以上説明したように、第２の実施形態に係
るＶＬＩＷ型並列計算機６０は、命令実行時間が最大ｄ
クロックサイクルとし、ＶＬＩＷ命令間のレジスタ参照
依存チェックを、連続して生成されたｄ個のＶＬＩＷ命
令間について行うとともに、データ参照の待ち合わせの
ために最大ｄクロックサイクルまで、次のＶＬＩＷ命令
実行を抑止するためのウエイト数信号を生成する機能を
備えて構成しているので、第１の実施形態と同様の効果
を得ることができることに加え、以下のような効果を得
ることができる。

【０１３４】すなわち、ＶＬＩＷ命令間のレジスタ参照
依存チェックに必要な回路規模は、１つのＶＬＩＷ命令
の処理量をＮとしたとき、従来例によるＶＬＩＷ型並列
計算機の場合には、Ｎ²×ｄのオーダとなり、第２の実
施形態のＶＬＩＷ型並列計算機６０の場合では、Ｎ×ｄ
のオーダとなる。この回路規模が１／Ｎとなることは、
第１の実施形態の場合と同様である。特に、本実施形態
では、命令実行時間が最大ｄクロックサイクルまでのＶ
ＬＩＷ型並列計算機に対応可能であり、より一般的であ
ることから、第１の実施形態のＶＬＩＷ型並列計算機２
０に比べ、適用範囲が広いことにある。

【０１３５】このように、第１、第２の実施形態に係る
実施形態に係るＶＬＩＷ型並列計算機２０，６０は、同
時に複数の命令実行部において、それぞれ独立した処理
を行う、ＶＬＩＷ型並列計算機において、ＣＰＵ外部に
設置された命令メモリ２１と、命令実行部２５の間に、
命令キャッシュ２２を設置し、これにより、命令メモリ
２２から、連続して複数のＶＬＩＷ要素命令を、逐次命
令キャッシュ２２に読み込みＶＬＩＷ命令を生成すると
共に、直前に生成したＶＬＩＷ命令との、レジスタ参照
依存を検査して、必要な待ち合わせ情報、及び、実行結
果データのバイパスのためのパスの設定に関する情報
を、予め抽出する機構をもち、従来例によるＶＬＩＷ型
並列計算機で行われているように、命令実行時に、これ
らを検出、あるいは抽出する必要がないため、回路量の
削減、及び、多大な回路遅延によるＣＰＵ動作速度の低
下の回避が可能である。

【０１３６】なお、上記各実施形態では、ＶＬＩＷ型並
列計算機への適応例を示したが、命令長が特に制限を与
えるものでもなくかつ、同時に複数の命令実行部におい
て、それぞれ独立した処理を行う並列計算機であれば適
応可能である。また、上記命令供給装置が計算機等に組
み込まれる回路の一部であってもよいことは言うまでも
ない。

【０１３７】また、上記各制御部等を構成するバッフ
ァ、レジスタ、論理回路、比較器等の数、種類接続状態
などは上記実施形態に限られないことは言うまでもな
い。

【０１３８】

【発明の効果】本発明に係る並列計算機では、命令メモ
リ、命令キャッシュ、命令キャッシュ書き込み制御部、
命令アドレス制御部、複数個の命令実行部、データスイ
ッチ、及びレジスタファイルを備え、次に実行すべきＶ
ＬＩＷ命令が、命令キャッシュに存在しない場合には、
命令メモリから、ＶＬＩＷ命令の要素となる命令コード
を、クロックサイクル毎に１つずつ連続して読み出し、
命令キャッシュ内の書き込み対象とされるブロックに逐
次書き込むと同時に、命令キャッシュ書き込み制御部に
おいて、命令コードと、直前に命令メモリから読み込み
生成した、それぞれ複数個の命令コードで構成される、
１つまたは複数のＶＬＩＷ命令コードとの間の、レジス
タ参照依存を検査し、参照依存が検出されない場合に
は、レジスタファイルからの読み出しデータを、命令実
行部に供給するための、予め定められた値を、データス
イッチ制御情報として、命令キャッシュの該当ブロック
に書き込み、参照依存が検出された場合には、次のＶＬ
ＩＷ命令の実行を抑止するためのウエイトサイクル数を
抽出し、該ウエイトサイクル数を命令キャッシュの該当
ブロックに書き込むと同時に、直前に実行されるＶＬＩ
Ｗ命令の実行結果データを、レジスタファイルを介さ
ず、命令実行部からデータスイッチを介して、直接、複
数の命令実行部の特定の命令実行部へ供給するための、
データスイッチ制御情報を抽出し、該データスイッチ制
御情報を命令キャッシュの該当ブロックに書き込み、そ
の後、命令キャッシュ内に新たに生成された、該当ＶＬ
ＩＷ命令を読み出し、読み出したＶＬＩＷ命令を全ての
命令実行部、データスイッチ、及びレジスタファイル
ヘ、同時に供給して該ＶＬＩＷ命令を実行し、次に実行
すべきＶＬＩＷ命令が、命令キャッシュに存在する場合
には、命令キャッシュの該当ブロックから、該実行すべ
きＶＬＩＷ命令を読み出し、全ての命令実行部、データ
スイッチ、及びレジスタファイルヘ、同時に供給し、該
ＶＬＩＷ命令を実行するように構成しているので、回路
規模、及び配線量を大幅に削減することができ、ＣＰＵ
をＬＳＩ化する際などにおいて、チップサイズの縮小、
及び回路遅延を最小化することができる。その結果、動
作クロック周波数を向上させ、消費電力を最小化すると
ともに、チップコストを低減することができる。

【図面の簡単な説明】

【図１】本発明を適用した第１の実施形態に係る並列計
算機の全体構成を示す図である。

【図２】上記並列計算機の命令キャッシュの構成を示す
図である。

【図３】上記並列計算機により実行される命令コードの
フォーマットを示す図である。

【図４】上記並列計算機の命令キャッシュ書き込み制御
部の構成を示す回路図である。

【図５】上記並列計算機の命令アドレス制御部の構成を
示す回路図である。

【図６】本発明を適用した第２の実施形態に係る並列計
算機の全体構成を示す図である。

【図７】上記並列計算機の命令キャッシュの構成を示す
図である。

【図８】上記並列計算機の命令キャッシュ書き込み制御
部の構成を示す回路図である。

【図９】従来のＶＬＩＷ型並列計算機の全体構成を示す
図である。

【符号の説明】

２０，６０ＶＬＩＷ型並列計算機、２１命令メモ
リ、２２命令キャッシュ、２３，６１命令キャッシ
ュ書き込み制御部、２４命令アドレス制御部、２５
実行部（実行部１〜ｎ）、２６データスイッチ、２７
レジスタファイル

Claims

【特許請求の範囲】

【請求項１】同時に複数の命令実行部において、それ
ぞれ独立した処理を行う並列計算機において、命令メモリ、命令キャッシュ、命令キャッシュ書き込み
制御部、命令アドレス制御部、複数個の命令実行部、デ
ータスイッチ、及びレジスタファイルを備え、次に実行すべきＶＬＩＷ（Very Long Instruction Wor
d）命令が、前記命令キャッシュに存在しない場合に
は、前記命令メモリから、ＶＬＩＷ命令の要素となる命
令コードを、クロックサイクル毎に１つずつ連続して読
み出し、前記命令キャッシュ内の書き込み対象とされる
ブロックに逐次書き込むと同時に、前記命令キャッシュ書き込み制御部において、前記命令コードと、直前に前記命令メモリから読み込み
生成した、それぞれ複数個の命令コードで構成される、
１つまたは複数のＶＬＩＷ命令コードとの間の、レジス
タ参照依存を検査し、参照依存が検出されない場合には、前記レジスタファイ
ルからの読み出しデータを、前記命令実行部に供給する
ための、予め定められた値を、データスイッチ制御情報
として、前記命令キャッシュの該当ブロックに書き込
み、参照依存が検出された場合には、次のＶＬＩＷ命令の実
行を抑止するためのウエイトサイクル数を抽出し、該ウ
エイトサイクル数を前記命令キャッシュの該当ブロック
に書き込むと同時に、直前に実行されるＶＬＩＷ命令の
実行結果データを、前記レジスタファイルを介さず、前
記命令実行部から前記データスイッチを介して、直接、
前記複数の命令実行部の特定の命令実行部へ供給するた
めの、データスイッチ制御情報を抽出し、該データスイ
ッチ制御情報を前記命令キャッシュの該当ブロックに書
き込み、その後、前記命令キャッシュ内に新たに生成された、該
当ＶＬＩＷ命令を読み出し、読み出したＶＬＩＷ命令を
全ての命令実行部、データスイッチ、及びレジスタファ
イルヘ、同時に供給して該ＶＬＩＷ命令を実行し、次に実行すべきＶＬＩＷ命令が、前記命令キャッシュに
存在する場合には、前記命令キャッシュの該当ブロック
から、該実行すべきＶＬＩＷ命令を読み出し、全ての命
令実行部、データスイッチ、及びレジスタファイルヘ、
同時に供給し、該ＶＬＩＷ命令を実行するように構成し
たことを特徴とする並列計算機。
【請求項２】同時に複数の命令実行部において、それ
ぞれ独立した処理を行う並列計算機において、命令メモリ、命令キャッシュ、命令キャッシュ書き込み
制御部、命令アドレス制御部、複数個の命令実行部、デ
ータスイッチ、及びレジスタファイルを備え、前記命令メモリから、クロックサイクル毎に１命令コー
ドを読み出し、前記命令キャッシュ書き込み制御部において、直前に読
み込んだ、それぞれｎ（ｎは任意の整数）個の命令コー
ドで構成される、１つまたは複数のＶＬＩＷ命令コード
との、レジスタ参照依存を検査し、参照依存が検出された場合には、次のＶＬＩＷ命令の実
行を抑止するためのウエイトサイクル数を生成するとと
もに、データフォワーディングを行うためのスイッチ制
御情報を生成し、前記ウエイトサイクル数及び前記スイッチ制御情報を、
読み込んだ命令コードと同時に命令キャッシュの該当ブ
ロックに書き込み、予め、前記命令キャッシュ内におい
てＶＬＩＷ命令を構成しておき、ＶＬＩＷ命令実行時には、ＶＬＩＷ命令間のレジスタ参
照依存チェックは行わず、前記命令キャッシュから該当
するＶＬＩＷ命令コード、ウエイト数、及びスイッチ制
御情報を同時に読み出し、直前に実行されたＶＬＩＷ命
令実行結果を参照するための、ＶＬＩＷ命令実行待ち合
わせ、及び前記データスイッチの切り替えによるデータ
フォワーディングを行うように構成したことを特徴とす
る並列計算機。
【請求項３】前記命令の実行時間は、１クロックサイ
クルであることを特徴とする請求項１又は２の何れかに
記載の並列計算機。
【請求項４】前記命令の実行時間は、複数のクロック
サイクルであることを特徴とする請求項１又は２の何れ
かに記載の並列計算機。
【請求項５】前記並列計算機は、ＶＬＩＷ（Very Lon
g Instruction Word：超長形式機械命令）型並列計算機
であることを特徴とする請求項１又は２の何れかに記載
の並列計算機。