JPH05257687A

JPH05257687A - 並列演算機能を有する計算機

Info

Publication number: JPH05257687A
Application number: JP4347929A
Authority: JP
Inventors: Takashi Hotta; 多加志堀田; Yasuhiro Nakatsuka; 康弘中塚; Shigeya Tanaka; 成弥田中; Hiromichi Yamada; 弘道山田; Hideo Maejima; 英雄前島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-01-06
Filing date: 1992-12-28
Publication date: 1993-10-08
Anticipated expiration: 2016-03-19
Also published as: JP3146707B2

Abstract

(57)【要約】【目的】ＲＩＳプロセットにおいて、コードサイズを小
さく、またハードウェアを複雑にせず、１マシンサイク
ルに複数の演算を実行し、性能を高める。【構成】単一演算を指示する命令長の短い命令をＮ個実
行するか、Ｍ個(Ｎ＜Ｍ)の演算を指示する命令長の長い
命令を実行することを可能にし、並列に実行できる演算
数が大の時には長い命令を、小の時には短い命令を用い
る。また、長い命令間の競合はソフトウェアで検出し、
短い命令間の競合のみをハードウェアで検出する。【効果】ハードウェア容易化によるマシンサイクルの向
上，コードサイズ縮小によるコードキャッシュヒット率
向上、及び並列に実行できる演算数の向上により、性能
が高められる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、並列演算を実行する計
算機に係り、特にスーパスカラ方式とVLIW方式とを混在
させて実行する並列演算機能を有する計算機に関する。

【０００２】

【従来の技術】計算機アーキテクチャは、半導体技術の
進歩等に支えられ、年々進歩している。１９８０年代に
は、これまでの複雑な命令をマイクロ命令を使って複数
サイクルにかけて処理するＣＩＳＣ(Complex Instructi
on Set Computer)に代って、簡単な命令を１サイクルで
実行するＲＩＳＣ(Reduced Instruction Set Computer)
が現れた。

【０００３】さらに、演算方式の高速化技術として、ス
ーパスカラ方式とＶＬＩＷ（VeryLong Instruction Wor
d）方式が提案されている。

【０００４】スーパスカラ方式とは、命令実行時にハー
ドウェアで命令間の競合を調べ、競合が無ければ１マシ
ンサイクルに複数命令を実行する方式で、特願昭63−28
3673号(従来技術１)や、J-Hennessy and D.A Patterson
“Computer Architecture AQuantitative Approach”Mo
rgan Kantmann Publishers, Inc１９９０.Ｐ.３１８
（従来技術２）に記載されている。

【０００５】またＶＬＩＷ方式とは、複数演算器の動作
を制御するフィールドを持った長い命令を用いる方式で
ある。通常のＲＩＳＣプロセッサの命令長が３２bit な
のに対し、６４，１２８，２５６以上といった長さの命
令を持つ。この方式についての説明も、前記J−Henness
y and D.A Patterson(従来技術１）による文献に記され
ている。

【０００６】ＶＬＩＷ方式の改良技術として、１語長命
令と３語長命令を混在させて、VLIW方式で処理すること
により、コードサイズの大きさを改善する技術が、Robe
rtCohn et al.“Architecture and Compiler Tradeoffs
a Long Instruction WordMicroprocessor”Third Inte
rnational Conference on Architectual Supportfor Pr
ogramming Languages and Operating System, １９８
９，Ｐ．２−１４（従来技術３）に記載されている。

【０００７】

【発明が解決しようとする課題】以下に、スーパスカラ
方式とＶＬＩＷ方式の特徴について述べる。

【０００８】スーパスカラ方式の利点は、単一演算を指
示する命令長の短い命令で、有効演算のみを指示するた
めコードサイズが小さくできる。

【０００９】命令を追加する必要がないので前機種との
互換性が保たれることである。

【００１０】これに対して、スーパスカラ方式の第１の
問題点は、並列実行する演算内の競合を検出しなくては
ならないことである。並列演算する演算の数が多くなれ
ばなる程、競合検出に要するハードウェア量は大とな
る。

【００１１】また、第２の問題点は、現サイクル以前に
実行した命令と現サイクルに実行する命令との間の競合
検出，待合わせが複雑であることである。並列演算する
演算の数が多くなればなる程、現サイクルの命令と競合
する可能性のある命令が多くなり、第２の問題点である
両者の競合検出，待合わせのハードウェアは複雑にな
る。

【００１２】また、第３の問題点は命令長が短いため、
命令によって指定できるレジスタの数が少ないことであ
る。１６〜３２本が典型例である。J−Hennessy and D.
A Pattersonの文献のＰ.３２５に示されているように、
並列して実行可能な演算を増やすためのソフトウェア上
の工夫として、ループアンローリングやソフトウェアパ
イプラインを用いようとすると、レジスタの数が不足す
る。逆に言えば、存在するレジスタの範囲でしか最適化
できない。

【００１３】この改善策として、上記従来技術１の文献
のＥ−２１〜２２に、演算結果を次の命令にすぐには反
映させないようにすることで、レジスタの数の不足を改
善することができると記載されている。

【００１４】また、David Callahan et al.“Software
Prefetching"Fourth InternationalConference on Arch
itectual Support for Programming Languages and
Operating System, １９９１，Ｐ．４０〜５２の文
献に、スーパスカラマシンにおいて命令によりメインメ
モリからキャッシュメモリにデータをプリフェッチする
ことが記載されている。

【００１５】以上から、スーパスカラ方式では、命令実
行の並列度を増すと上記第１，第２の問題点である競合
検出の複雑さからマシンサイクルを高めることができ
ず、処理速度が向上しないという問題を有している。

【００１６】次に、ＶＬＩＷ方式の第１の利点は、命令
長が長く、１命令の中に複数の演算が指定でき、かつ、
命令内での演算間の競合がないため、実行時にハードウ
ェアで、並列実行する演算間の競合を検出しなくてもよ
いことである。

【００１７】第２の利点は、命令長が長いため、多くの
レジスタが指定可能なことである。次にＶＬＩＷ方式の
第１の問題点は、前述の命令内での演算間の競合を避け
るため、全てのフィールドに有効な演算を指定できると
は限らず、コードサイズが大きくなってしまうことであ
る。

【００１８】第２の問題点は現サイクル以前に実行した
命令と現サイクルに実行する命令との間の競合検出，待
合わせが複雑なことである。これは、スーパスカラ方式
の第２の問題点と同じである。

【００１９】これについて、ハードウェアでは競合検出
を行わず、コンパイラによって予め競合回避を行う技術
が、Andrew Wolf and John P. Shen“A Variable
InstructionStream Extension to the VLIW Archit
ecture”，Fourth International Conference
on Architectual Support for Programming Lang
uages and Operating System, １９９１，Ｐ．２〜１４
に記載されている。また、ＶＬＩＷ方式の第３の問題点
は、前機種との互換性が取れないことである。これは、
スーパスカラ方式が、従来の１語長命令をハードウェア
で並列実行するのに対し、ＶＬＩＷ方式では、命令の再
定義が必要となるからである。

【００２０】これまでに述べてきたように、スーパスカ
ラ方式とＶＬＩＷ方式の利点を活かしながら、スーパス
カラ方式とＶＬＩＷ方式の欠点を補う計算機は存在しな
かった。

【００２１】本発明の第１の目的は、スーパスカラ方式
とＶＬＩＷ方式を混在させて演算実行可能な計算機を提
供することにある。これは、単一演算を指示する命令長
の短い命令よりなる従来アーキテクチャを持つ計算機の
上位互換性を保ちながら、処理速度を向上させることで
ある。

【００２２】

【課題を解決するための手段】上記目的を達成するため
に、本発明によれば、第１に、レジスタとメモリとプロ
グラムカウンタを有し、上記プログラムカウンタで指示
される上記メモリに格納されている命令を読み出し、上
記命令の指示する演算を上記レジスタと上記メモリと上
記プログラムカウンタに対して実行する並列演算機能を
有する計算機において、上記命令は単一演算を指示する
命令長の短い命令又は複数演算を指示する命令長の長い
命令であって、上記プログラムカウンタで指示された上
記命令が上記命令長の短い命令か上記命令長の長い命令
かを判定する命令語長判定手段と、上記命令語長判定手
段によって上記プログラムカウンタで指示された上記命
令が命令長の長い命令であれば上記レジスタに上記命令
を設定し、上記プログラムカウンタで指示された上記命
令が命令長の短い命令であれば所定のレジスタに上記命
令を設定する命令選択手段とを有する。

【００２３】本発明の第２の特徴によれば、レジスタと
メモリとプログラムカウンタを有し、上記プログラムカ
ウンタで指示される上記メモリに格納される命令を読み
出し、上記命令の指示する演算を上記レジスタと上記メ
モリと上記プログラムカウンタに対して実行する並列演
算機能を有する計算機において、上記命令は単一演算を
指示する命令長の短い命令又は複数演算を指示する命令
長の長い命令であって、上記プログラムカウンタで指示
された上記命令が上記命令長の短い命令か上記命令長の
長い命令かを判定する命令語長判定手段と、上記命令長
の短い命令間の競合を検出する競合検出手段と、上記命
令語長判定手段によって上記命令長の短い命令と判定さ
れると上記レジスタに上記命令を設定し、上記命令長の
短い命令と判定され、かつ、上記競合検出手段によって
競合がないと判定されると所定のレジスタに上記命令を
設定する命令選択手段とを有する。

【００２４】本発明の第３の特徴によれば、レジスタと
メモリとプログラムカウンタを有し、上記プログラムカ
ウンタで指示される上記メモリに格納される命令を読み
出し、上記命令の指示する演算を上記レジスタと上記メ
モリと上記プログラムカウンタに対して実行する並列演
算機能を有する計算機において、上記命令は単一演算を
指示する命令長の短い命令又は複数演算を指示する命令
長の長い命令であって、上記プログラムカウンタで指示
された命令が上記命令長の短い命令か上記命令長の長い
命令かを判定する命令語長判定手段と、上記命令語長判
定手段によって上記命令長の短い命令と判定されると、
上記命令長の短い命令間の競合を検出する競合検出手段
と、上記命令語長判定手段によって上記命令長の短い命
令と判定されると、上記競合検出手段の内容に応じて上
記命令長の短い命令を１マシンサイクルに所定の数実行
し、上記命令長の長い命令と判定されると、命令長の長
い命令を１マシンサイクルに所定の数実行する演算手段
とを有する。

【００２５】

【作用】本発明によれば、１マシンサイクルに単一演算
を指示する命令長の短い命令を複数個、あるいは、複数
演算を指示する命令長の長い命令を１個実行できるの
で、演算が並列処理され性能が高められる。

【００２６】本発明の一態様によれば、並列して実行で
きる演算の多い時のみ命令長の長い命令を用いることに
より、命令長の長い命令の中の無効フィールドを少なく
することができ、コードサイズを小さくすることができ
る。これにより、主メモリ及びキャッシュメモリの使用
効率が上がり、処理速度の向上が図れる。

【００２７】本発明の他の一態様によれば、命令長の長
い命令の中で指定する複数の演算内の競合はあり得ず、
ハードウェアでこれを検出する必要はない。ハードウェ
アは同一サイクルに実行する命令長の短い命令間の競合
のみを検出すればよい。本発明によれば、１マシンサイ
クルで実行される命令長の短い命令の数を、命令長の長
い命令の中に指示される演算の数より小さくすることに
より、平均的に１マシンサイクルに実行される演算数が
高い割に、並列に実行する演算間の競合検出を容易にす
ることができる。

【００２８】本発明の他の一態様によれば、命令長の長
い命令と、それ以前の命令長の長い命令との競合が無い
ようにコンパイラで命令列を生成することが可能であ
り、ハードウェアでこれを検出する必要はない。

【００２９】本発明の他の一態様によれば、有効な命令
長の短い命令実行後、有効な命令長の長い命令を実行す
る時、及び、有効な命令長の長い命令の実行後、有効な
命令長の短い命令を実行する時には、両者の間に必要な
だけの無効命令を挿入することによりソフト的に両者の
競合を解消できるのでハードウェアで両者の競合を検出
する必要はない。ハードウェアが検出しなくてはならな
いのは、現サイクル以前に実行した命令長の短い命令と
現サイクルに実行する命令長の短い命令との間の競合だ
けである。故に、本発明によれば１マシンサイクルで実
行される命令長の短い命令の数を命令長の長い命令の中
に指示される演算の数より小さくすることにより、平均
的に１マシンサイクルに実行される演算数が高い割に、
現サイクル以前に実行した、現サイクルに実行した命令
との間のハードウェアによる競合検出を容易にできる。

【００３０】本発明の他の一態様によれば、命令によっ
て指示された演算結果は直ちに次命令に反映されず、一
定数後の命令から反映されるので、命令実行後、その結
果が反映されるまでに実行される命令は、書き込まれる
前のレジスタの値を読むことができ、ソフトウェアが使
うレジスタの数を実質的に多くし、ソフトウェア上の最
適化により演算の並列度をあげることができる。

【００３１】本発明の他の一態様によれば、競合検出の
ためのハードウェアが簡単になり、マシンサイクルの向
上が図られ、処理速度を高めることができる。

【００３２】本発明の他の一態様によれば、単一演算を
指示する命令長の短い従来アーキテクチャの命令に、複
数演算を指示する命令長の長い命令を追加して新アーキ
テクチャとできるので新アーキテクチャに従来アーキテ
クチャを含ませ、上位互換性を保つことができる。

【００３３】

【実施例】次に本発明の好ましい一実施例について述べ
る。発明の本質と無関係な詳細は省略してある。

【００３４】図１に全体ブロック図を示す。１２００は
メモリ、１３００は命令キャッシュ、１３０３は命令制
御ユニット、１６０は演算ユニット、１５０は命令長判
定手段、１０９は競合検出手段である。命令制御ユニッ
ト１３０３は、インタフェース１７０を用いて、命令キ
ャッシュより命令を読み出し、デコードし、インタフェ
ース１８０を通じて演算ユニット１６０を制御する。演
算ユニット１６０は複数の演算を並列に処理することが
できる。本計算機は単一演算を指示する４バイト長命令
と、複数演算を指示する１６バイト長命令を有し、命令
キャッシュ1300には、１６バイト長命令間、及び、１６
バイト長命令と４バイト長命令の間の競合は無いよう
に、１６バイト長命令と４バイト長命令が混在しておか
れている。競合検出手段１０９は、４バイト長命令間の
みの競合を検出する。命令制御ユニット１３０３は、命
令長判定手段１５０を具備し、１６バイト長命令実行時
は競合検出手段１０９の出力を無視し、４バイト長命令
実行時には、競合検出手段１０９の出力に応じて、セレ
クタ１１０は並列して実行できる演算を選びデコード
し、インタフェース１８０を通じて演算ユニット１６０
を制御する。尚、ここでは、演算ユニットが２つの場合
を示しているが、２つ以上でも良い。

【００３５】以下、レジスタ構成，命令フォーマットを
説明し、さらにパイプライン、及び、動作タイミングを
説明し、最後に図１の全体ブロック図の詳細を述べる。

【００３６】図２にレジスタ構成を示す。ＦＲ０〜ＦＲ
３１は６４ビット長の浮動小数点レジスタ、Ｒ０〜Ｒ３
１は３２ビット長の整数レジスタである。簡単のため、
浮動小数点データは全て倍精度で６４ビット長とする。
また、アドレスは３２ビット毎に振られているものとす
る。

【００３７】本実施例では、命令長の短い命令の命令長
を１語長，命令の長い命令の命令長を４語長とする。

【００３８】図３に、命令形式を示す。１語は３２ビッ
トである。基本命令，分岐命令，ロード・ストア命令は
１語長命令、複合命令は４語長命令である。基本命令は
全てレジスタ・レジスタ間演算である。本実施例では、
命令長の長い命令の命令長を４語長としたが、実施例に
よっては、もっと長いことも短いこともあり得る。

【００３９】本実施例では、簡単のため４語長命令は必
ず４語長境界で区切られた４語に配置されると仮定する
が、この仮定をはずすことは容易である。

【００４０】まず基本命令について説明する。ＯＰフィ
ールドはオペコードの種類を、Ｓ１とＳ２フィールドは
２つのソースレジスタの番号を、Ｔフィールドはターゲ
ットレジスタの番号を、ＣＣフィールドは、フラグの立
て方を示すフィールドである。即ち、Ｓ１とＳ２で示さ
れるレジスタが、ＯＰで示される演算をほどこされ、Ｔ
で示されるレジスタに結果が書き込まれる。詳細を図４
に示す。

【００４１】次に分岐命令について説明する。ｄはディ
スプレースメントを示す。分岐命令では、プログラムカ
ウンタＰＣにｄの値が加算される。

【００４２】次にロード・ストア命令について説明す
る。Ｆフィールドは、ロード、又は、ストアするデータ
が浮動小数点データであるか、整数データであるかを示
す。

【００４３】ＳＩＺＥフィールドは、図４に示すよう
に、ロード、又は、ストアするデータの語長を示す。整
数については、１ワードのみが定義され、浮動小数点に
ついては、２〜１６ワードが定義されているものとす
る。図４に示すように、ＦＳＴ命令では、ＦＲ(Ｓ１)が
Ｒ(Ｓ２)番地に書き込まれる。ＳＩＺＥが１６ワードの
時には、ＦＲ(Ｓ１)〜ＦＲ(Ｓ１＋７)が、Ｒ(Ｓ２)番地
から始まる連続する１６ワードに書き込まれるものとす
る。また、ＦＬＤ命令では、Ｒ(Ｓ１)＋Ｒ(Ｓ２)番地の
データを、ＦＲ(Ｔ)に書き込む。ＳＩＺＥが１６ワード
の時には、Ｒ(Ｓ１)＋Ｒ(Ｓ２)番地から始まる連続する
１６ワードが、ＦＲ(Ｔ)〜ＦＲ(Ｔ＋７)に書き込まれ
る。

【００４４】次に、図３，図５を用いて、４語長の複合
命令について説明する。この命令では、Ｉ１，Ｉ２，Ｉ
Ｔ，ＳＩＺＥ，Ｆフィールドで示される、ロード・スト
ア操作と、Ｊ１，Ｊ２，ＪＴ，Ｊフィールドで示される
整数演算と、Ｍ１，Ｍ２，ＭＴフィールドで示される第
１浮動小数点演算と、Ａ１，Ａ２，ＡＴ，Ａフィールド
で示される第２浮動小数点演算と、Ｎ１，Ｎ２，ＮＴフ
ィールドで示される第３浮動小数点演算と、Ｂ１，Ｂ
２，ＢＴ，Ｂフィールドで示される第４浮動小数点演算
と、ＣＣ，ｄ，Ｎフィールドで示されるフロー制御の計
７つの演算が指示できる。各フィールドの詳細について
は、図５に示す。第１浮動小数点演算と、第３浮動小数
点演算は乗算、第２浮動小数点演算と第４浮動小数点演
算は加減算である。Ｎフィールドは、本命令に続き、挿
入したい無効サイクルの数を示す。使用方法については
後で述べる。

【００４５】整数演算について説明する。Ｊフィ−ルド
≠１１１１のときは、図５に示すように通常の演算を行
う。しかし、Ｊフィ−ルド＝１１１１のときは、データ
の格納されているメモリからキャッシュメモリへのプリ
フェッチを行う。すなわち、Ｒ(Ｊ１)＋Ｒ(Ｊ２)をアド
レスとしてキャッシュメモリをアクセスして、該当する
データが無ければメモリからキャッシュへデータを転送
する。

【００４６】また、１語長命令では、演算結果は次命令
に直ちに反映されるが、４語長命令では、演算結果は３
つ後の命令に初めて反映される。この仕様を好ましく利
用したパイプライン構成と、プログラム例について以下
述べる。

【００４７】図６に示すようにパイプライン構成は、Ｉ
Ｆ，Ｄ，Ｅ，Ｆ，Ｓの５段である。ＩＦステージでは、
命令の読み出し、Ｄステージでは、命令のデコード、Ｅ
ステージではレジスタの読み出しと演算の一部、Ｆステ
ージでは、演算、Ｓステージでは、演算の残りとレジス
タへの演算結果の書き込みが行われる。パイプライン構
成は、整数演算と浮動小数演算で同じとする。

【００４８】図７に１語長命令の本実施例による処理フ
ローを示す。１マシンサイクルに２命令処理されるスー
パスカラ方式である。命令１と２，命令３と４，命令５
と６，命令７と８のそれぞれが、特に競合の無い限り、
並列に処理される。このスーパスカラ方式については、
特願昭63−283673号に詳細に記されている。

【００４９】次に図８は、命令２の結果を命令３が使う
場合の処理の様子を示したものである。命令３と４のＥ
ステージは、命令２のＳステージが終了するまで引き伸
ばされる。前命令の結果が次命令に反映するという命令
仕様を満足するため、ハードウェアは上記競合を検出
し、図８に示す処理を行わなくてはならない。

【００５０】４語長命令の処理の様子を図９に示す。４
語長命令は、１マシンサイクルに１命令ずつ処理され
る。命令１の演算結果は先に述べた仕様により、命令
２，３には反映されず、命令４になって初めて反映され
る。命令１のレジスタ書き込みステージであるＳステー
ジは、命令４のレジスタ読み出しステージであるＤステ
ージの１つ前にちょうど終了しているので、図８を用い
て説明した様なハードウェアによる競合制御は必要な
い。本実施例では、演算ステージはＥ，Ｆ，Ｓの３段で
あるが、一般に、演算結果を書き込む前に行う次命令の
数Ｎとパイプライン段数Ｍの間にＮ≧Ｍ−１であればハ
ードウェアによる競合制御は不要である。本実施例では
Ｎ＝２，Ｍ＝３のケースである。

【００５１】また、１語長命令と次の有効な４語長命令
の間には必ず無効な４語長命令を２つおくものとする。
同様に有効な４語長命令と次の１語長命令の間には必ず
無効な４語長命令を２つおくものとする。

【００５２】次にこの４語長命令の好ましいプログラム
例について図１０，図１１，図１２を用いて述べる。次
式の計算をする場合を考える。

【００５３】Ａ(ｉ)＝Ａ(ｉ)＋Ｃ×Ｂ(ｉ) ，１＜ｉ＜２４但し、Ｃは定数、Ａ(ｉ)，Ｂ(ｉ)は、メモリ上に、図１
０のように配置されている６４ビットの浮動小数点デー
タである。

【００５４】図１１は、Ａ(ｉ)の計算をするのに、各サ
イクルに、どんな演算がされるかを説明する図である。
横軸は時刻で、単位はマシンサイクルである。図に書か
れた横長の箱は、処理されるデータの通る演算器のＥ，
Ｆ，Ｓの３ステージを示す。(１)〜(１０)について説明
する。演算は、インデックスｉについて４つずつ行われ
る。(１)〜(１０)はＡ(９)〜Ａ(１２)を計算するための
処理である。以下、各処理について説明する。定数Ｃは
ＦＲ３１にあるものとする。

【００５５】（１）Ａ(１)〜Ａ(４)をＦＲ４〜ＦＲ７，
Ｂ(７)〜Ｂ(１０)をＦＲ０〜ＦＲ３にロードする。

【００５６】（２）ＦＲ０×ＦＲ３１をＦＲ８に格納。

【００５７】（３）ＦＲ１×ＦＲ３１をＦＲ９に格納。

【００５８】（４）ＦＲ４＋ＦＲ８をＦＲ１２に格納。

【００５９】（５）ＦＲ５＋ＦＲ９をＦＲ１３に格納。

【００６０】（６）ＦＲ２×ＦＲ３１をＦＲ１０に格
納。

【００６１】（７）ＦＲ３×ＦＲ３１をＦＲ１１に格
納。

【００６２】（８）ＦＲ６＋ＦＲ１０をＦＲ１４に格
納。

【００６３】（９）ＦＲ７＋ＦＲ１１をＦＲ１５に格
納。

【００６４】（１０）ＦＲ１２〜ＦＲ１５をＡ(９)〜Ａ
(１２)にストアする。

【００６５】（１)〜(１０）の演算スケジューリングに
関しては、１つの演算に、図１０を用いて説明した様に
３サイクルかかることが考慮されている。Ａ(９)〜Ａ
(１２)の処理について説明したが、Ａ(１３)〜Ａ(１
６)，Ａ(１７)〜Ａ(２０)…の処理も全く同様に行われ
る。各演算器は１サイクルピッチでパイプラインされて
おり、Ａ(１３)〜Ａ(１６)，Ａ(１７)〜Ａ(２０)…の処
理をＡ(９)〜Ａ(１２)の処理に重ねて、図１１のように
処理可能である。

【００６６】さて、図１１に示した処理を実現する４語
長命令列を示したのが図１２である。Ａ(１)〜Ａ(２４)
の演算は、図１２に示す命令１〜命令２２の２２命令で
実現できる。使用するレジスタはＦＲ０〜ＦＲ１５，Ｆ
Ｒ３１の１７本である。命令１，３，５，７，９，１
１，１３，１５でどのデータがロードされるか、又、命
令１２，１４，１６，１８，２０，２２でどのデータが
ストアされるかを、図１０に示した。命令３はＦＲ０〜
ＦＲ３に値を書き込むか、その結果が反映するのは命令
６以降であるので、命令１でロードしたＦＲ０〜ＦＲ３
の値を命令４で使用することが可能である。命令１の結
果が、命令２にすぐに反映する従来の方式で図１１と同
じ処理を行おうとすると、命令３でＦＲ０〜ＦＲ３に書
き込みを行うことはできず、ＦＲ１６〜ＦＲ１９等、新
たなレジスタが必要となる。ところが、使用できるレジ
スタの数には限りがあり、レジスタの数がネックにな
り、処理サイクル数が伸びてしまう。図１２のプログラ
ムは、現命令の結果が３命令後にしか反映しないという
遅延書き込みを生かした結果、１７本のレジスタを使う
だけで、演算が可能となったのである。

【００６７】本例で示した様に遅延書き込みは、レジス
タを指定するオペコードのフィールドを増加させずに、
実質的に使用できるレジスタの数を増やす効果がある。

【００６８】図１２上で、“Ｘ”印は何も演算するもの
がない為、空いてしまったフィールドであるが、特に、
処理の開始時の命令１〜６，終了時の命令１７〜２２に
空フィールドが多い。しかし、これらの空フィールド
は、コンパイラにより、次の一連の処理の開始処理と、
現在の一連の処理の終了処理を重ねることにより、減ら
すことができる。また、全くすることのない、命令２，
４，２１は、命令１，３，２０のＮフィールドを“０
１”にすることにより、省略することができる。

【００６９】本発明では、演算結果を書き込むレジスタ
の指定は、演算を指定する命令で行うので、命令４，２
１が初めて省略できる。演算結果を書き込むレジスタの
指定を、書き込みが行われるステージに発行される命令
で指定する方式では、命令４，２１では命令１，１８で
演算した結果の書き込み指定が必要であり、省略不可で
ある。

【００７０】また、図１２のプログラムの前に１語長命
令があった時に、図１２の命令１の前に２つの４語長の
無効命令を挿入しなくてはならないが、これは、Ｎフィ
ールドが“０１”である４語長の無効命令を１つ入れれ
ばよい。また、図１２のプログラムの後に１語長命令が
来る場合、図１２の命令２２のＮフィールドを“10”に
すればよい。

【００７１】このように命令を長くしてＮフィールドを
設け、有効に使用することにより、コードサイズを削減
することが可能である。また、１語長命令では４語で４
つの演算しか指示できないのに比べ、４語長命令では４
語で、図５に示すように７つの演算が指示できる。

【００７２】次に、プログラム作成方法について述べ
る。プログラムは FORTRAN，Ｃなどの高級言語で記述
し、コンパイラにより命令列に変換する。

【００７３】図２６に本発明に関するコンパイラの処理
フローを示す。高級言語によるプログラムは、字句解析
部，構文解析部，意味解析部を経て、中間コードに変換
される。中間コードは、最適化部によって最適化され、
コード生成部により図３に示した命令列に変換される。
ここで、最適化部とコード生成部を合わせて合成部とい
う。この合成部に本願発明に関する特徴がある。すなわ
ち、この合成部では、中間コードを見て並列してできる
演算ができるだけ多くなるように命令列を生成する並列
化部を有する。この並列化部では、並列してできる演算
数が多いときには４語長命令を用い、並列してできる演
算数の少ないときには１語長命令を用いる。ここで、４
語長命令を用いるか１語長命令を用いるかの判断基準
は、並列して実行できる演算数により決まるが、この演
算数はシステムによって異なるので、プログラムを作成
するときにパラメータとしてコンパイラに指定できるよ
うになっている。上述のようにすることにより、コード
サイズが小さくなり、主メモリ、及び、キャッシュメモ
リの使用効率が上がり、処理速度が高められる。

【００７４】次に、合成部の特徴としてレジスタの割当
てがある。４語長命令はその演算結果が３つ後の命令に
初めて反映されるので、特別な配慮が必要になる。例え
ば、図１２において命令１の結果は命令４に初めて反映
されるので、命令２，３では命令１の結果を使用せずに
できる演算をできるだけたくさん割り付けておく。この
時、演算できる命令が１つも無いときは、無効命令生成
部によって無効命令を挿入しておく。また、合成部で
は、１語長命令と次の有効な４語長命令との間には必ず
無効な４語長命令を２つ挿入しておく。逆に、有効な４
語長命令と次の１語長命令との間にも必ず無効な４語長
命令を２つ挿入しておく。ここで、先に述べたように無
効命令はＮフィールドを用いることによって省略でき
る。すなわち、本実施例のコンパイラは、長い命令間の
競合を検出し、Ｎフィールドを用いて、命令実行後に挿
入すべき無効サイクルの数を指定できるので、ハードウ
ェアで長い命令間の競合を検出したり、処理をする必要
が無い。

【００７５】次に、これまでに説明した命令の処理を行
うハードウェアの一実施例について説明する。図１３は
図１を詳細化した全体構成である。１３００は命令キャ
ッシュ、１３０１は命令キャッシュコントローラ、１３
０２は命令処理フローを制御する分岐ユニット、１３０
３は、命令をデコードする命令制御ユニット、1304は整
数演算ユニット、１３０７は浮動小数点演算ユニット、
１３０６はデータキャッシュ、１３０５はデータキャッ
シュコントローラ、１３０８はメモリインタフェースユ
ニットである。

【００７６】命令制御ユニット１３０３は、命令キャッ
シュ１３００より実行すべき命令をバス１３１０を通し
て受け取り、命令をデコードし、整数演算ユニット制御
信号１３１８を整数演算ユニット１３０４に、浮動小数
点演算ユニット制御信号1314を浮動小数点演算ユニット
１３０７に、分岐ユニット制御信号１３１２を分岐ユニ
ット１３０２に送出する。さらにプログラムカウンタ３
５００の制御のためにモード信号１１０も、分岐ユニッ
ト１３０２に送出する。また、整数演算ユニット１３０
４より、フラグ１３１７を、浮動小数点演算ユニットよ
りフラグ1315を受け取る。

【００７７】整数演算ユニット１３０４は、オペランド
アドレス１３１９をデータキャッシュ１３０６と、デー
タキャッシュコントローラ１３０５に送出する。データ
キャッシュより読み出されたデータは、データバス１３
２０を通して、整数演算ユニット１３０４、又は、浮動
小数点演算ユニット１３０７に送出される。データキャ
ッシュの中に所望のデータが無い時には、データキャッ
シュコントローラ1305が、メモインタフェースユニット
１３０８にインタフェース信号１３２１を通して起動を
かけ、主メモリよりデータを読み出す。この間の待合わ
せ制御を、信号１３１６を通して、命令制御ユニット１
３０３と行う。

【００７８】分岐ユニットは、次に読み出すべき命令の
アドレス１３０９を、命令キャッシュ１３００と、命令
キャッシュコントローラ１３０１に送出する。所望の命
令が命令キャッシュ１３００の中に無い時には、命令キ
ャッシュコントローラ1301は、メモリインタフェースユ
ニット１３０８にインタフェース信号１３１３を通して
起動をかけ、主メモリより、命令を読み出す。この間の
待合わせ制御を信号１３１１を通して、命令制御ユニッ
ト１３０３と行う。

【００７９】整数演算ユニット１３０４の詳細を示した
のが、図１４である。１４００はデコーダ、１４０１は
第１ＡＬＵ、１４０２は第２ＡＬＵ、１４０３は整数レ
ジスタである。第１ＡＬＵにはソースバス１４０６，１
４０７を通して、整数レジスタファイル１４０３からデ
ータが送られ、演算結果は、ターゲットバス１３２２を
通して、整数レジスタファイル１４０３に返される。ま
た、第２ＡＬＵには、ソースバス１４０８，１４０９を
通して、整数レジスタファイル１４０３からデータが送
られ、演算結果は、ターゲットバス１３１９を通して整
数レジスタファイル１４０３に返される。１３１７−１
は、第１ＡＬＵより出力されるフラグ、１３１７−２は
第２ＡＬＵより出力されるフラグである。バス１３１
９，1322は、ロードストア及びプリフェッチ時のアドレ
スとしてデータキャッシュ１３０６に送出される。

【００８０】図１３の浮動小数点演算ユニット１３０７
の詳細を示したのが、図１５である。１５０１はデコー
ダ、１５０２は浮動小数点レジスタファイル、１５０３
は第１乗算器、１５０４は第２乗算器、１５０５は第１
加算器、１５０６は第２加算器である。第１乗算器１５
０３には、ソースバス１５１７，１５１８を通して、第
２乗算器１５０４には、ソースバス１５１５，１５１６
を通して、第１加算器１５０５には、ソースバス１５１
３，１５１４を通して、第２加算器１５０６には、ソー
スバス１５１１，１５１２を通して、浮動小数点レジス
タファイル1502よりデータが送られ、演算結果はそれぞ
れ、ターゲットバス１５０７，１５０８，１５０９，１
５１０を通して浮動小数点レジスタファイルに書き込ま
れる。

【００８１】１３１５−１は、第１乗算器１５０３のフ
ラグ、１３１５−２は第２乗算器１５０４のフラグ、１
３１５−３は第１加算器１５０５のフラグ、１３１５−
４は第２加算器１５０６のフラグである。

【００８２】図１５の浮動小数点レジスタファイル１５
０２の詳細を示したのが、図１６である。１６００〜１
６０８は浮動小数点レジスタ、１３１４−１〜１３１４
−９はそれぞれ浮動小数点レジスタ１６００〜１６０８
の制御信号である。１６１０はロードアライナ、１６０
９はストアアライナである。１６１１〜１６１８は、浮
動小数点レジスタ１６００〜１６０８を、メモリと結ぶ
バスである。バス1611は、ＦＲ０，１６，２４に、バス
１６１２は、ＦＲ１，９，１７，２５に接続されてい
る。バス１６１３，１６１４，１６１５，１６１６，１
６１７も同様で、バス１６１８にはＦＲ７，１５，２
３，３１が接続されている。ロード命令実行時には、バ
ス１３２０を通して、送られてきたデータを、ロードア
ライナ1610により、１６１１〜１６１８の内、所望のバ
スに乗せかえ、所望のレジスタに書き込む。またストア
命令実行時には、１６１１〜１６１８にレジスタよりデ
ータが読み出され、ストアアライナ１６０９により、バ
ス１３２０の所望の位置にデータが出力される。

【００８３】図１６の浮動小数点レジスタ１６００の第
１の実施例を記したのが、図１７である。レジスタ１６
００について示したが、１６０１〜１６０８も同様であ
る。図１７に示すようにレジスタ１６００は６４ビット
のレジスタの集まりである。１７００〜１７６３はそれ
ぞれ１ビットのレジスタである。１５１１−００〜１５
１８−００はレジスタ１７００の読み出しバス、１５０
７−００〜１５１０−００はレジスタ１７００の書き込
みバス、１６１１−００はレジスタ１７００の読み書き
バスである。レジスタ１７６３のバス構成も同様であ
る。

【００８４】図２８は、図１３のデータキャッシュの詳
細を図示したものである。２８０１はデータを保持する
データアレイ、２８００はロードストア演算用のアドレ
スアレイ、２８０２はプリフェッチ用のアドレスアレイ
である。アドレスアレイ2800と２８０２は同じ内容のデ
ータを保持している。１語長命令のロードストア命令実
行時には、バス１３１９または１３２２を用いてアドレ
スアレイ２８００とデータアレイ２８０１がアクセスさ
れる。４語長命令実行時には、バス１３２２を用いてア
ドレスアレイ２８００とデータアレイ２８０１がアクセ
スされる。また、バス１３１９を用いてプリフェッチの
ためにアドレスアレイ２８０２がアクセスされる。

【００８５】図２９は、ロードストア演算でキャッシュ
ミスを生じたときのパイプラインを示す図である。パイ
プラインは、データがメモリからキャッシュメモリへ転
送される間ロックされる。図２９でφで示されるのがロ
ックされる期間である。

【００８６】一方、プリフェッチ演算のときには、アド
レスアレイ２８０２がヒットすれば何も行わない。ミス
すれば、そのアドレスを含むブロックがメモリよりデー
タアレイ２８０１にバスを通して転送される。但し、こ
の時はパイプラインはロックされない。コンパイラによ
り、ミスする可能性のあるロードストア演算の前にプリ
フェッチを設定しておけば、メモリからキャッシュメモ
リへの転送を他の演算と並列に行うことができる。その
ために、図２９で示したパイプラインロックによる性能
低下を避けることができる。

【００８７】図１７のレジスタ１７００の回路構成例を
記したのが、図１８である。1816と１８１７はインバー
タ、１８０２〜１８１５はクロックドインバータであ
る。

【００８８】１３１４−１−１〜８がhighになると、そ
れぞれバス１５１１−００〜１５１８−００にレジスタ
の値が出力される。また、１３１４−１−１０〜１４が
highになると、バス１５１０−００〜１５０７−００の
値がレジスタに書き込まれる。また、１３１４−１−９
がhighになるとレジスタの値がバス１６１１−００に出
力され、１３１４−１−１０がhighになると、バス１６
１１−００がレジスタに書き込まれる。信号１８００は
予備の読み出しポート、１８０１は予備の書き込みポー
トである。１８００と１８０１の用途については後に説
明する。

【００８９】図１９は、図１６の浮動小数点レジスタ１
６００の第２の実施例を示したものである。図１９の実
施例は、図１７の実施例と比較して１９００〜１９６３
の第１シャドウレジスタ，２０００〜２０６３の第２シ
ャドウレジスタが付加されている点が異なっている。第
１シャドウレジスタ１９００は信号１８００を通して、
レジスタ１７００の値を読み取ることができる。また、
信号１９６４を通して第２シャドウレジスタ２０００
に、第１シャドウレジスタ１９００の値を送出する。第
２シャドウレジスタ２０００は、自分の値を信号１８０
１を通してレジスタ１７００に送出する。即、レジスタ
１７００〜１７６３，第１シャドウレジスタ１９００〜
１９６３，第２シャドウレジスタ２０００〜２０６３は
リング状のシフトレジスタを構成している。更に第１シ
ャドウレジスタ１９００〜１９６３，第２シャドウレジ
スタ２０００〜２０６３は、レジスタ１７００〜１７６
３と同様に、バス１６１１−００〜１６１１−６３を通
して、読み書きができる。

【００９０】１３１４−１−１５は、第１シャドウレジ
スタ１９００〜１９６３の制御信号、１３１４−１−１
６は、第２シャドウレジスタ２０００〜２０６３の制御
信号である。

【００９１】シャドウレジスタの目的は、４語長命令実
行時の割込みからの復帰を可能にすることである。図２
０〜図２２を用いてその動作を説明する。Ｗ′ステージ
は、レジスタから、第１シャドウレジスタＦＲＳ１に書
き込むステージ、Ｗ″は第１シャドウレジスタＦＲＳ１
から第２シャドウレジスタＦＲＳ２に書き込むステージ
である。

【００９２】図２０は割込みのない通常時の４語長命令
の動作である。ＦＲ，ＦＲＳ１，ＦＲＳ２のタイムチャ
ート上の数字は、どの命令の演算結果が各レジスタに入
っているかを示す。図２０の通り、通常時は、ＦＲから
ＦＲＳ１へ、ＦＲＳ１からＦＲＳ２へと１サイクルピッ
チで演算結果がシフトされる。

【００９３】図２１は、命令３と命令４の間に割込みが
入った時の動作を示す図である。命令４，５，６，７は
無効化される。各レジスタは割込み発生後値の更新を止
め、ＦＲは命令３の結果を、ＦＲＳ１は命令２の結果
を、ＦＲＳ２は命令１の結果を保持する。また、プログ
ラムカウンタには割込みベクタがセットされる。割込み
ベクタから始まる割込み処理プログラムで、ＦＲ，ＦＲ
Ｓ１，ＦＲＳ２の値をメモリ上に退避する図２２は、割
込み処理からの復帰時の動作を説明する図である。ま
ず、割込み処理プログラムの最後に、図２２に示すよう
に命令１の結果をＦＲに、命令２の結果をＦＲＳ２に、
命令３の結果をＦＲＳ１に復帰する。こうすることによ
り、命令４のレジスタ読み出しステージのＥステージ
で、命令１の結果を見ることができる。命令４のＥステ
ージ終了後、ＦＲの値をＦＲＳ１に、ＦＲＳ１の値をＦ
ＲＳ２に、ＦＲＳ２の値をＦＲへコピーする。この結
果、命令５のＥステージでは命令２の結果を見ることが
できる。命令５のレジスタ読み出しステージのＥステー
ジ終了後も、同じ動作をさせることにより、命令６のレ
ジスタ読み出しステージのＥステージで、命令３の結果
を見ることができる。以後の処理は通常通りで、１命令
実行毎にＦＲの値をＦＲＳ１へ、ＦＲＳ１の値をＦＲＳ
２へコピーし、ＦＲＳ２の値は捨てる。

【００９４】以上、説明した様に、シャドウレジスタを
設けることにより、遅延書き込み命令実行時でも割込み
を受け付け復帰することができる。シャドウレジスタの
無い場合は、図２１で命令３の結果しか退避できず、図
２２の割込み復帰時の命令４で、命令１の結果を見るこ
とができない。これは、命令２，３が命令１と同じレジ
スタに値を書き込む場合があるからである。例えば図１
２のプログラムでも、命令１と同じレジスタに命令３で
書き込む。

【００９５】次に、シャドウレジスタ付加によるハード
ウェアの増加量について述べる。レジスタの大きさは、
ポート数にほぼ比例する。図１７と図１９を比べれば分
かるように、シャドウレジスタのポート数は３と、レジ
スタのポート数１３に比べてずっと小さいので、シャド
ウレジスタ付加によるハードウェアの増加量は小さい。

【００９６】図４１は、図１３の命令制御ユニット１３
０３の実施例である。１５０は命令語長判定手段、１０
１は第１命令レジスタ、１０２は第２命令レジスタ、１
０３は第３命令レジスタ、１０４は第４命令レジスタで
ある。４１００はモードレジスタである。１００はモー
ド制御回路、１０５はレジスタ読み出し制御回路、１０
６はレジスタ書き込み制御回路、１０７はファンクショ
ン制御回路、１０８はパイプライン制御回路、１０９は
競合検出回路である。

【００９７】４語長命令は、必ず４語境界をまたがない
様に配置されているものとする。また、１語長命令は、
２語境界に囲まれた２語が同時に実行されるものとす
る。本実施例では命令語長判定は、図３で説明した様に
オペコードの中の最も左のビット、即、図４１の信号１
３１０−１−１(Ｃ０００)そのものを見ることにより行
われる。

【００９８】モード制御回路１００の詳細を示したのが
図２７である。２７００は制御回路、２７０１はＮフィ
ールド１３１０−４−１を保持するレジスタ、２７０２
はディクリメンタ、２７０３はコンパレータである。コ
ンパレータの出力信号VALID（２７０４）は、制御回路
２７００に送り出される。レジスタ２７０１にセットさ
れたＮフィールドの値は、ディクリメンタ２７０２によ
り１サイクルごとに１減算され、００になったときに信
号ＶＡＬＩＤ(２７０４)がアサートされる。信号ＶＡＬ
ＩＤはネゲート時に無効サイクルの挿入を指示し、アサ
ート時に命令の実行を指示する信号である。

【００９９】制御回路２７００は、競合検出回路出力１
１６(ＢＵＢ)と、命令アドレスの下位から２ビット目１
３０９−１(ＣＡ３０)と、オペコード中の４語長命令か
どうかを示すビット１３１０−１−１(Ｃ０００)と信号
２７０４（ＶＡＬＩＤ）を見て５つのモードの内、どれ
であるかを判定し、図２３に示すように第１〜４命令レ
ジスタへのオペコードのセット，プログラムカウンタの
インクリメントを信号１１０により行う。また、現サイ
クルがどのモードであるかを示す信号１１０は、モード
レジスタ４１００にラッチされ、その出力信号１３０は
レジスタ読み出し制御回路１０５，レジスタ書き込み制
御回路１０６，ファンクション制御回路１０７，パイプ
ライン制御回路１０８，競合検出回路１０９に送出され
る。図２３で、Ｃ０〜３は、４語境界内にある４語で、
若いアドレスよりＣ０，Ｃ１，Ｃ２，Ｃ３と命令が並ん
でいるものとする。Ｃ０の最左ビットＣ０００により、
図３に示すように、１語長命令か４語長命令かが判定で
きる。１語命令モード１は、４語境界内の左の２つの命
令(Ｃ０，Ｃ１)を実行するモードで、第１命令レジスタ
にＣ０が、第２命令レジスタにＣ１がセットされプログ
ラムカウンタＰＣは＋２される。また、１語命令モード
２は、４語長境界内の右の２つの命令(Ｃ２，Ｃ３)を実
行するモードで、第１命令レジスタにＣ２，第２命令レ
ジスタにＣ３がセットされ、プログラムカウンタＰＣは
＋２される。即ち、１語長命令実行時には、第１命令レ
ジスタと、第２命令レジスタのみ用い、第３命令レジス
タと第４命令レジスタは用いない。４語長命令モード
は、４語長命令（Ｃ０，Ｃ１，Ｃ２，Ｃ３）実行するモ
ードで、第１〜４命令レジスタにＣ０〜Ｃ３がセットさ
れ、プログラムカンタＰＣは＋４される。競合モードと
は、競合検出回路１０９が競合を検出した場合で、第１
〜４命令レジスタ及び、モードレジスタ４１００は前サ
イクルの値を保持する。また、プログラムカウンタＰＣ
の更新は行わない。無効命令モードは、現サイクル以前
に実行した４語長命令のＮフィールドで、現サイクルに
ハードウェアで無効命令(ＮＯＰ)を挿入することを指示
されている場合で、命令レジスタには無効命令がセット
され、プログラムカウンタＰＣは更新されない。これに
より、無効サイクルが１サイクル挿入されることにな
る。

【０１００】１語長命令実行時にはＣ０、又は、Ｃ２の
実行の為に、第１ALU1401(図１４)，第１乗算器１５０
３(図１５)，第１加算器１５０５(図１５)を用いる。一
方、Ｃ１、又は、Ｃ３の実行の為に、第２ALU1402(図１
４)，第２乗算器１５０４(図１５)，第２加算器１５０
６(図１５)を用いる。また、４語長命令実行時には、ロ
ードストア演算のアドレス計算を第１ALU1401（図１４)
で、整数演算を第２ALU1402（図１４)で、第１浮動小数
点演算を第１乗算器１５０３(図１５)で、第２浮動小数
点演算を第１加算器１５０５(図１５)で、第３浮動小数
点演算を第２乗算器１５０４(図１５)で、第４浮動小数
点演算を第２加算器１５０６(図１５)で行う。

【０１０１】図４１のレジスタ読み出し制御回路１０
５，レジスタ書き込み回路１０６，ファンクション制御
回路１０７は、モード制御回路出力のモード指定信号１
１０と第１〜４命令レジスタの値により、上述の演算器
割当て規則に従い、整数演算ユニット１３０４(図１３)
の制御信号１３１８を生成する。レジスタ読み出し制御
回路について、更に詳細に説明したのが図２４である。
６つの演算器のそれぞれの２つの入力に入れるレジスタ
の指定を、オペコードのどのフィールドで行うかを示し
ている。フィールドの略号については、図３の複合命令
の欄に示す。４語長命令のＪ１とＡ１は、１語長命令の
Ｓ２と、４語長命令のＪ２とＡ２は、１語長命令のＳ２
と同じ位置であることを利用し、図２４上のフィールド
指定には、１語長命令時も、Ｊ１，Ｊ２，Ａ１，Ａ２を
用いて述べている。これは、Ｃ０とＣ１の区別の為であ
る。

【０１０２】次に図４１の競合検出回路１０９について
述べる。図７〜図９を用いて説明したように、本実施例
では４語長命令間の競合を検出する必要はない。また、
本実施例では、１語長命令実行用の全ての演算器を２重
化している為、同時に実行する２つの１語長命令間の演
算器による競合はあり得ない。簡単のためにレジスタ競
合も無いものとする。本実施例をレジスタ競合がある場
合に拡張することは、例えば、特願昭63−283673号のよ
うに容易である。前に述べたように、１語長命令と次の
有効な４語長命令の間に、必ず無効な４語長命令が２つ
入り、同様に、有効な４語長命令と次の１語長命令との
間には必ず無効な４語長命令が２つ入っているので、４
語長命令と１語長命令間の競合も有り得ない。故に、競
合検出回路１０９は、現サイクルの１語長命令と、それ
以前に実行された１語長命令間の競合のみを検出すれば
よい。モード制御回路１００の制御により、１語長命令
は、第１命令レジスタ１０１と第２命令レジスタ１０２
にのみセットされるので、競合検出回路１０９は、第１
命令レジスタ１０１と第２命令レジスタ１０２のみを見
ればよく、第３命令レジスタ１０３，第４命令レジスタ
１０４は見る必要はない。

【０１０３】図２５は、競合検出回路１０９の実施例の
ブロック図である。２５０１〜2504はレジスタ、２５０
５はマスク回路、２５０６〜２５２１はコンパレータで
ある。図７において、命令７，８を現命令とし、命令３
〜６との競合検出を考える。命令１，２のＳステージの
次に命令７，８のＥステージが来るので、命令１，２と
命令７，８の間の競合はない。図２５のレジスタ２５０
１には、命令５が書き込むレジスタの番号が、レジスタ
２５０３には、命令６が書き込むレジスタの番号が、レ
ジスタ２５０２には、命令３が書き込むレジスタの番号
が、レジスタ２５０４には命令４が書き込むレジスタの
番号が記憶されている。上記４つのレジスタと、命令７
及び命令８が読み出す４つのレジスタの番号を、２５０
６〜２５２１の１６個のコンパレータで比較し、結果を
マスク回路２５０５に送出する。マスク回路２５０５
は、モード制御回路１００の出力１３０や、パイプライ
ン制御回路１０８の出力１１５を見て、コンパレータの
ヒット信号が有効であるかどうかを判定し、有効であれ
ば競合を示す信号１１６をアサートする。即、コンパレ
ータの出力がレジスタの一致を示していてもその命令が
無効化される場合は、信号１１６をネゲートする。この
マスク回路２５０５により、モード信号１３０が４語長
モードであることを示している時には、信号１１６をネ
ゲートする。

【０１０４】次にパイプライン制御回路１０８について
説明する。パイプライン制御回路は、モード信号１３
０，図１３の整数演算ユニット１３０４からのフラグ信
号1317，図１３の浮動小数点演算ユニット１３０７から
のフラグ信号１３１５，図１３のデータキャッシュコン
トローラとのインタフェース１３１６，図１３の命令キ
ャッシュコントローラとのインタフェース１３１１を用
いて、図１３の分岐ユニット１３０２制御信号１３１２
を送出し、分岐ユニットを制御する。即ち、有効な分岐
命令が来た時には、分岐を行い、それ以外の時には、モ
ード信号１１０を用いて、図２３のように分岐ユニット
内にあるプログラムカウンタを制御する。またパイプラ
イン制御回路１０８は、信号１１５を、レジスタ読み出
し制御回路１０５，パイプライン書き込み制御回路１０
６，ファンクション制御回路１０７，競合検出回路１０
９を送出し、パイプラインの状態を制御する。即ち、命
令キャッシュ、あるいはデータキャッシュのアクセスに
際してミスを生じた時に図２９に示すようにパイプライ
ンをロックする。

【０１０５】次に上記実施例の第１の変形例について述
べる。上記実施例において、４語長命令は演算結果を３
つ後の命令に初めて反映することにより、４語長命令間
の競合検出部が不要になった。同様の効果を達成するた
めに、４語長命令でも演算結果を次の命令に反映する
が、４語長命令間での競合をコンパイラで避けるように
することもできる。具体的には、ある４語長命令が書き
込むレジスタを次の４語長命令と次の次の４語長命令と
で読まないようにするのである。このようにすることに
よって、第１の実施例のレジスタ数を実質的に増やす効
果は失われるが、図１９で示したシャドウレジスタは不
要になる。

【０１０６】さらに、上記実施例の第２の変形例につい
て述べる。図３で示した実施例では、命令の中に１語長
命令か４語長命令かを示すビットを持っていたが、計算
機の中に１語長命令か４語超命令かを示すフラグを持
ち、このフラグを命令で制御することも可能である。こ
れによって、フラグを制御する命令が必要になるが、１
度フラグを切り換えれば毎回命令の中で語長を示す必要
が無くなるという利点がある。

【０１０７】図３０〜図３２を用いて、上記実施例の第
３の変形例について述べる。

【０１０８】本変形例では、図３０の様に浮動小数点レ
ジスタを３２本から１２８本に拡張している。図３１に
命令フォーマット，図３２に命令の説明を示す。ＦＲ０
〜３１は基本命令，複合命令の両者で使用可であるが、
ＦＲ３２〜ＦＲ１２７は、複合命令でのみ使用するレジ
スタである。レジスタを指定するＩ１，ＩＴ，ＭＴ，Ａ
１，ＡＴ，Ｎ１，ＮＴ，Ｂ１，ＢＴの各フィールドは図
３１に示すように、各７ビットと増加する。本変形例で
は、ソースレジスタの片方をターゲットレジスタと一致
させることにより、全体を４語に収めているが、そうし
たくなければ、全体の語長をさらに長くすることも可能
である。

【０１０９】本変形例では、基本命令に複合命令を追加
し、複合命令で基本命令が使えるレジスタの数よりも、
多くのレジスタを使えるようにすることにより、全体と
して、使用可能なレジスタ数を増やせるという効果があ
る。本変形例ではＦＲ０〜３１は基本命令と複合命令の
両方でアクセス可であるが代案として、基本命令用の３
２本と、複合命令用の１２８本のレジスタを独立のもの
とすることも可能である。

【０１１０】さらに本変形例では、図３２に示すよう
に、メモリからキャッシュへのプリフェッチの際にプリ
フェッチする語数をＪＴフィールドで指定可となってい
る。これにより一度に複数のブロック転送を行うよう命
令で指示でき、効率があがるという利点がある。

【０１１１】図３３，図３４を用いて上記実施例の第４
の変形例について述べる。本変形例では、データのプリ
フェッチをＪ１，Ｊ２，ＪＴといった整数演算フィール
ドで行わずに、１ビットのＰフィールドで行っている点
が異なる。Ｐ＝１の時には、ロード・ストア演算に用い
られたアドレスを含むブロックの次のブロックがプリフ
ェッチされる。こうすることにより、プリフェッチに要
するフィールドが節約でき、ロード・ストア演算，整数
演算，プリフェッチの３動作が並列指定可となるという
利点が生まれる。

【０１１２】図３５はもう１つの実施例について説明す
る全体ブロック図である。

【０１１３】３５００はプログラムカウンタ、３５０１
は命令を格納するメモリ手段、3502はマスク・スイッチ
回路、３５０３〜３５０６はＭ個のｎバイト長の命令レ
ジスタ、３５０７はデコーダ、３５０８，３５０９はＬ
個（Ｌ＞１）の演算ユニット、１５０は命令長判定手
段、１０９は競合検出回路、１００はモード制御回路、
４１００はモードレジスタである。

【０１１４】プログラムカウンタ３５００は命令アドレ
ス３５１３を、命令を格納するメモリ手段３５０１に送
出する。３５０１の中には、ｎバイト長の命令とｎ×Ｍ
バイト長（Ｍ＞１）の命令が混在しており、命令アドレ
ス３５１３で指定された命令を含む複数の命令をマスク
・スイッチ回路３５０２に送出する。マスク・スイッチ
回路３５０２はｎバイト命令であればＭ個の命令レジス
タの内Ｎ個（１＜Ｎ＜Ｍ）の命令レジスタ３５０３〜３
５０４の内の少なくとも１つにセットし、ｎ×Ｍバイト
令命であれば命令レジスタ３５０３〜３５０６にセット
する。デコーダ３５０７は命令レジスタ３５０３〜３５
０６よりの命令３５１９〜３５２２をデコードし、Ｌ個
の演算ユニットを制御信号３５２３，３５２４を用いて
制御する。命令長判定手段１５０は、少なくとも命令３
５１４の一部を見て、命令長を示す信号３５２６をモー
ド制御回路１００に送出する。競合検出回路１０９は、
命令レジスタ３５０３〜３５０４を見て、ｎバイト命令
間の競合の有無を知らせる信号１１６をモード制御回路
１００に送出する。モード制御回路は、命令長，競合の
有無，プログラムカウンタの値によりモードを判定し、
制御信号１１０により、プログラムカウンタ，マスク・
スイッチ回路，デコーダを制御する。

【０１１５】本実施例と、図１〜図２９及び図４１の実
施例との対応を説明する。図１〜図２９の実施例は、ｎ
＝４，Ｍ＝４，Ｎ＝２，Ｌ＝２の場合である。また演算
ユニットは整数演算ユニットと浮動小数点演算ユニット
であった。また、図３５のマスク・スイッチ回路は、図
４１の第１〜４命令レジスタ１０１〜１０４にセットす
る命令を生成しているセレクタや、ＮＯＰによるマスク
等に対応する。また図３５の競合検出回路１０９は、図
４１の競合検出回路１０９に対応する。図３５の命令長
判定手段１５０は図４１の命令長判定手段１５０に対応
する。図３５のモード制御回路１００は、図４１のモー
ド制御回路１００に対応する。

【０１１６】図３，図５，図１０，図１１，図１２で示
した実施例では、図１０の様にメモリ上でのデータ配置
が制約されるという欠点があった。これを解決したのが
図３６〜図４０に示す実施例である。本実施例の複合命
令では、図３６，図３７に示すように、１命令でロード
・ストア等のメモリ演算を２個実行できる。ハードウェ
アとしてはキャッシュを２ポート化するか、あるいは、
１マシンサイクルに２度アクセス可能な構成にすればよ
い。図３９，図４０に図１１，図１２に示したものと同
じ問題を解くプログラムを示す。

【０１１７】これまでに説明した実施例では、命令長の
短い命令と長い命令を混在した計算機において、長い命
令の演算結果を、以後の任意の命令から反映する。ある
いは、長い命令は、次命令以降に続く無効命令の数を任
意に指定できる。あるいは、長い命令は、メモリまたは
キャッシュメモリからレジスタへデータを転送する第１
のフィールドと、メモリからキャッシュメモリへデータ
を転送する第２のフィールドを設けるといった工夫を行
ったが、これらの工夫は、長い命令のみを有するＶＬＩ
Ｗ型計算機に対しても有効である。

【０１１８】

【発明の効果】以上説明したように、本実施例では、４
語長命令を用いて、４語で７つの演算を指定できるが、
競合検出は、４×４＝１６個のコンパレータで行うこと
ができる。４語長命令間の競合検出をハードウェアで行
おうとすると、前サイクルの分岐演算を除く、６個の演
算の書き込みレジスタと前々サイクルの同じく６個の書
き込みレジスタと、現サイクルの１２個の読み出しレジ
スタとの間の競合検出が必要で、(６＋６)×１２＝１４
４個のコンパレータが必要となる。本実施例では、これ
に比して１６／１４４のハードウェアで済むという利点
がある。

【０１１９】本実施例では、４語長命令で指示される演
算数７に対して、１マシンサイクルで処理される命令長
の短い命令が２である。これにより、２演算分の競合検
出回路で最大７演算の並列処理が得られるという効果が
ある。

【０１２０】本発明によれば、並列に実行する演算の数
を増やし、性能を高めることができる。

【０１２１】本発明によれば、コードサイズを小さくす
ることができる。これによりコードキャッシュのヒット
率が高まり、性能を高めることができる。

【０１２２】本発明によれば、並列に実行する演算内の
ハードウェアによる競合検出を容易にすることができ
る。これにより、マシンサイクルを高めること、ハード
物量を減らし、コストを下げることができる。特に、長
い命令の中で指定する演算数が大の時、この効果は著し
い。

【０１２３】本発明によれば、現サイクル以前に実行し
た命令と、現サイクルに実行する命令との間のハードウ
ェアによる競合検出，待合わせを容易にすることができ
る。これにより、マシンサイクルを高めること、ハード
物量を減らし、コストを下げることができる。

【０１２４】本発明によれば、ソフトウェアが用いられ
るレジスタの数を実質的に多くし、ソフトウェア上の最
適化により演算の並列度をあげ、性能を高めることがで
きる。

【０１２５】本発明によれば、従来アーキテクチャとの
上位互換性を保つことができる。

【図面の簡単な説明】

【図１】命令制御ユニットの全体図である。

【図２】レジスタ構成を示す図である。

【図３】命令形式を説明する図である。

【図４】１語長命令の動作を説明する図である。

【図５】４語長命令の動作を説明する図である。

【図６】パイプラインステージを説明する図である。

【図７】競合無の時の１語長命令処理のパイプラインを
示す図である。

【図８】競合有の時の１語長命令処理のパイプラインを
示す図である。

【図９】４語長命令のパイプラインを示す図である。

【図１０】データのメモリ上での配置を示す図である。

【図１１】４語長命令を用いた時の演算の様子を説明す
る図である。

【図１２】４語長命令を用いたプログラムを説明する図
である。

【図１３】全体ブロック図である。

【図１４】整数演算ユニットのブロック図である。

【図１５】浮動小数点演算ユニットのブロック図であ
る。

【図１６】浮動小数点レジスタファイルのブロック図で
ある。

【図１７】浮動小数点レジスタのブロック図である。

【図１８】浮動小数点レジスタ１ビット分の回路図であ
る。

【図１９】浮動小数点レジスタのブロック図である。

【図２０】シャドウレジスタの動作を説明する図であ
る。

【図２１】シャドウレジスタの動作を説明する図であ
る。

【図２２】シャドウレジスタの動作を説明する図であ
る。

【図２３】モード制御回路の動作を説明する図である。

【図２４】レジスタ読み出し制御回路の動作を説明する
図である。

【図２５】競合検出回路のブロック図である。

【図２６】コンパイラの処理フローである。

【図２７】モード制御回路の詳細を示した図である。

【図２８】データキャッシュの詳細を示したものであ
る。

【図２９】ロードストア演算でキャッシュミスを生じた
ときのパイプラインを示す図である。

【図３０】その他の実施例を示す図である。

【図３１】その他の実施例を示す図である。

【図３２】その他の実施例を示す図である。

【図３３】その他の実施例を示す図である。

【図３４】その他の実施例を示す図である。

【図３５】その他の実施例を示す図である。

【図３６】その他の実施例を示す図である。

【図３７】その他の実施例を示す図である。

【図３８】その他の実施例を示す図である。

【図３９】その他の実施例を示す図である。

【図４０】その他の実施例を示す図である。

【図４１】図１を詳細化した図である。

【符号の説明】

１００…モード制御部、１０１…第１命令レジスタ、１
０２…第２命令レジスタ、１０３…第３命令レジスタ、
１０４…第４命令レジスタ、１０５…レジスタ読み出し
制御、１０６…レジスタ書き込み制御、１０７…ファン
クション制御、１０８…パイプライン制御、１０９…競
合検出部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者山田弘道茨城県日立市久慈町4026番地株式会社日立製作所日立研究所内 (72)発明者前島英雄茨城県日立市久慈町4026番地株式会社日立製作所日立研究所内

Claims

【特許請求の範囲】

【請求項１】レジスタとメモリとプログラムカウンタを
有し、上記プログラムカウンタで指示される上記メモリ
に格納されている命令を読み出し、上記命令の指示する
演算を上記レジスタと上記メモリと上記プログラムカウ
ンタに対して実行する並列演算機能を有する計算機にお
いて、上記命令は単一演算を指示する命令長の短い命令又は複
数演算を指示する命令長の長い命令であって、上記プロ
グラムカウンタで指示された上記命令が上記命令長の短
い命令か上記命令長の長い命令かを判定する命令語長判
定手段と、上記命令語長判定手段によって上記プログラ
ムカウンタで指示された上記命令が命令長の長い命令で
あれば上記レジスタに上記命令を設定し、上記プログラ
ムカウンタで指示された上記命令が命令長の短い命令で
あれば所定のレジスタに上記命令を設定する命令選択手
段とを有することを特徴とする並列演算機能を有する計
算機。
【請求項２】レジスタとメモリとプログラムカウンタを
有し、上記プログラムカウンタで指示される上記メモリ
に格納される命令を読み出し、上記命令の指示する演算
を上記レジスタと上記メモリと上記プログラムカウンタ
に対して実行する並列演算機能を有する計算機におい
て、上記命令は単一演算を指示する命令長の短い命令又は複
数演算を指示する命令長の長い命令であって、上記プロ
グラムカウンタで指示された上記命令が上記命令長の短
い命令か上記命令長の長い命令かを判定する命令語長判
定手段と、上記命令長の短い命令間の競合を検出する競
合検出手段と、上記命令語長判定手段によって上記命令
長の短い命令と判定されると上記レジスタに上記命令を
設定し、上記命令長の短い命令と判定され、かつ、上記
競合検出手段によって競合がないと判定されると所定の
レジスタに上記命令を設定する命令選択手段とを有する
ことを特徴とする並列演算機能を有する計算機。
【請求項３】レジスタとメモリとプログラムカウンタを
有し、上記プログラムカウンタで指示される上記メモリ
に格納される命令を読み出し、上記命令の指示する演算
を上記レジスタと上記メモリと上記プログラムカウンタ
に対して実行する並列演算機能を有する計算機におい
て、上記命令は単一演算を指示する命令長の短い命令又は複
数演算を指示する命令長の長い命令であって、上記プロ
グラムカウンタで指示された命令が上記命令長の短い命
令か上記命令長の長い命令かを判定する命令語長判定手
段と、上記命令語長判定手段によって上記命令長の短い
命令と判定されると、上記命令長の短い命令間の競合を
検出する競合検出手段と、上記命令語長判定手段によっ
て上記命令長の短い命令と判定されると、上記競合検出
手段の内容に応じて上記命令長の短い命令を１マシンサ
イクルに所定の数実行し、上記命令長の長い命令と判定
されると、命令長の長い命令を１マシンサイクルに所定
の数実行する演算手段とを有することを特徴とする並列
演算機能を有する計算機。
【請求項４】請求項１，２又は３において、上記命令は、並列して実行できる演算の多い時には上記
命令長の長い命令を、並列して実行できる演算の少ない
時には上記命令長の短い命令であることを特徴とする並
列演算機能を有する計算機。
【請求項５】請求項１，２，３又は４において、上記命令長の長い命令と上記命令長の短い命令との使い
分けをコンパイラで生成した上記命令を実行することを
特徴とする並列演算機能を有する計算機。
【請求項６】請求項１，２又は３において、上記命令長の長い命令の中で指定できる演算数は、１マ
シンサイクルで処理される上記命令長の短い命令の数よ
りも大きいことを特徴とする並列演算機能を有する計算
機。
【請求項７】請求項１，２又は３において、命令長の長い命令と、それ以前の命令長の長い命令との
競合が無いようにコンパイラで命令列を生成し、上記コ
ンパイラの出力に基づいて処理を行うことを特徴とする
並列演算機能を有する計算機。
【請求項８】請求項１，２又は３において、有効な命令長の短い命令実行後有効な命令長の長い命令
を実行する時、及び、有効な命令長の長い命令の実行後
有効な命令長の短い命令を実行する時には、両者の間に
一定数の無効命令を挿入することを特徴とする並列演算
機能を有する計算機。
【請求項９】請求項１，２又は３において、命令長の長い命令は、次命令以降に続く無効命令の数を
任意に指定できることを特徴とする並列演算機能を有す
る計算機。
【請求項１０】請求項１，２又は３において、命令長の長い命令の演算結果は、以後の任意の命令から
反映することを特徴とする並列演算機能を有する計算
機。
【請求項１１】請求項１０において、演算結果を反映する一定数後の命令の一定数をＮ，パイ
プライン段数をＭとした時に、Ｎ≧Ｍとすることを特徴
とする並列演算機能を有する計算機。
【請求項１２】請求項１０において、過去のレジスタの内容を一定サイクル分保存しておく記
憶手段を有することを特徴とする並列演算機能を有する
計算機。
【請求項１３】レジスタとメモリとプログラムカウンタ
を有し、上記プログラムカウンタで示される上記メモリ
上の命令を読み出し、上記命令の指示する演算を上記レ
ジスタと上記メモリと上記プログラムカウンタに対して
実行する並列演算機能を有する計算機において、命令長の長い命令の演算結果は、以後の任意の命令から
反映することを特徴とする並列演算機能を有する計算
機。
【請求項１４】請求項１３において、過去のレジスタの内容を一定サイクル分保存しておく記
憶手段を有することを特徴とした並列演算機能を有する
計算機。
【請求項１５】レジスタとメモリとプログラムカウンタ
を有し、上記プログラムカウンタで示される上記メモリ
上の命令を読み出し、上記命令の指示する演算を上記レ
ジスタと上記メモリと上記プログラムカウンタに対して
実行する並列演算機能を有する計算機において、上記命令には、単一演算を指示する命令長の短い命令と
複数演算を指示する命令長の長い命令とを有し、上記プログラムカウンタで指示された命令が上記命令長
の短い命令か命令長の長い命令かを判定する手段と、上記判定手段の結果が上記命令長の短い命令なら１マシ
ンサイクル中に任意の数の命令を実行し、上記命令長の
長い命令なら１マシンサイクル中に１個の命令を実行す
る手段とを有することを特徴とする並列演算機能を有す
る計算機。
【請求項１６】レジスタとメモリとプログラムカウンタ
を有し、上記プログラムカウンタで示される上記メモリ
上の命令を読み出し、上記命令の指示する演算を上記レ
ジスタと上記メモリと上記プログラムカウンタに対して
実行する並列演算機能を有する計算機において、上記命令には、単一演算を指示する命令長の短い命令と
複数演算を指示する命令長の長い命令とを有し、上記プログラムカウンタで指示された命令が上記命令長
の短い命令か命令長の長い命令かを判定する命令長判定
手段と、上記命令長の短い命令間の競合を検出する競合検出手段
と、上記判定手段の結果が上記命令長の長い命令なら１マシ
ンサイクル中に１個の命令を実行し、上記命令長の短い
命令なら上記競合検出手段の結果に応じて、競合が検出
されれば、競合が解消されるまで待ってから命令を任意
の数実行し、競合が検出されなければ命令を任意の数実
行することを特徴とする並列演算機能を有する計算機。
【請求項１７】レジスタとメモリとキャッシュメモリと
プログラムカウンタを有し、上記プログラムカウンタで
示される上記メモリ上の命令を読み出し、上記命令の指
示する演算を上記レジスタと上記メモリと上記プログラ
ムカウンタに対して実行する並列演算機能を有する計算
機において、上記命令は、上記メモリまたは上記キャッシュメモリか
ら上記レジスタへデータ転送を指示する第１のフィール
ドと、上記メモリから上記キャッシュメモリへデータ転送を指
示する第２のフィールドを有することを特徴とする並列
演算機能を有する計算機。