JPH07121371A

JPH07121371A - 複数命令同時取込み機構

Info

Publication number: JPH07121371A
Application number: JP5266434A
Authority: JP
Inventors: Takaaki Kato; 高明加藤; Toshihisa Ono; 利寿小野
Original assignee: NKK Corp; Nippon Kokan Ltd
Current assignee: JFE Engineering Corp
Priority date: 1993-10-25
Filing date: 1993-10-25
Publication date: 1995-05-12

Abstract

(57)【要約】【目的】分岐命令を高速に実行することができ、ま
た、フェッチブロックが２ラインにまたがっても、キャ
ッシュ・ミスが無ければ、連続した４命令を１クロック
サイクルで常に供給することができる複数命令同時取り
込み機構を提供する。【構成】一方の分岐先命令を格納する第１のプリフェ
ッチ・バッファー２６と、他方の分岐先命令を格納する
第２のブリッチ・バッファー２７と、一対の分岐先命令
又は命令キャッシュからフェッチした命令のいずれかを
選択するマルチプレクサー２８とを有し、分岐命令によ
るパイプライン停止時間を利用して両方の分岐先命令を
予め取り込んでおく。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は複数命令同時取込み機
構、特にスーパースカラ、スーパーコンピュータ等の高
速化のための分岐先命令の先読み・実行アルゴリズム及
びその機構に関する。

【０００２】

【従来の技術】スーパースカラは、命令の読み出しか
ら、デコード、実行及び結果の格納までの一連の処理
を、複数命令に対して同時に行なうことにより、高速処
理を図るプロセッサである。このため、複数命令が同時
にフェッチされなければならない。ここでは説明を簡略
化するため、以下の項目を仮定する。

【０００３】ａ）説明上の仮定ｉ．スケジューリング対象命令数（同時実行可能かどう
かを扱う命令数）及び同時フェッチされる命令数（フェ
ッチブロック）は４命令を基本とする。４命令はプログ
ラム順にそれぞれ命令１（又はＩｎｓｔ．１，Ｉｎｓ
ｔ．はＩｎｓｔｒｕｃｔｉｏｎの略とする）、命令２、
命令３、命令４と呼ぶ。但し、本発明は４命令に限ら
ず、２命令以上Ｎ命令まで任意に拡張することができ
る。 ii．１命令は３２ｂｉｔとする。これより大きくても小
さくても問題は無い。 iii.キャッシュ・ブロック・サイズは１６ｂｉｔとす
る。同様にこれより大きくても小さくても問題は無い。 iv．全ての命令は１クロックで実行される。そのため、
浮動小数点演算やアドレス計算を供なうｌｏａｄ／ｓｔ
ｏｒｅ命令などは説明上考慮しない。またロジックが少
し複雑になるが、実行に数クロックを要する命令を考慮
することは容易である。命令形式は次の通りである。ＯＰＲ_s1，Ｒ_s2，Ｒ_d：Ｒ_d←Ｒ_s1 ＯＰＲ_s2 …（１）但し、ＯＰは命令のオペコード（操作コード、ｏｐｅｒ
ａｔｉｏｎｃｏｄｅ）、Ｒ_s1，Ｒ_s2はそれぞれソース
（ｓｏｕｒｃｅ，出所）レジスタ、Ｒ_dはデイステイネ
ーション（ｄｅｓｔｉｎａｔｉｏｎ，行先）レジスタ、
オペランドはソースレジスタとデイステイネーションレ
ジスタからなる。条件分岐命令の形式は次の通りであ
る。ＢＲＴＲ_s1，＃Ｏ：ｉｆＲ_s1＝ｔｒｕｅ，ｔｈｅｎＰＣ←ＰＣ＋＃Ｏ，ｅｌｓｅＰＣ←ＰＣ＋４ …（２）但し、＃Ｏは１６進オフセット値である。また本命令形
式も説明上の仮定であって、本発明はこの命令形式に限
定されるものではない。

【０００４】ｖ．パイプライン構造は以下のような４ス
テージ構成を想定している。：命令フェッチ（ＩＦ；Ｉ
ｎｓｔｒｕｃｔｉｏｎＦｅｔｃｈ），命令デコード
（ＩＤ；ＩｎｓｔｒｕｃｔｉｏｎＤｅｃｏｄｅ），実
行（ＥＸ；Ｅｘｅｃｕｔｉｏｎ），結果の書込み（又は
格納）（ＷＢ；ＷｒｉｔｅＢａｃｋ）である（図４参
照）。ＩＦステージでは、４命令を同時に命令キャッシ
ュ（又は主記憶装置）から取込む。４命令の先頭の命令
はプログラム・カウンタ（ＰＣ）から与えられる。ＩＤ
ステージの前半で、４命令のオペコード（加算、減算の
ような操作を定義するビット列）とオペランド（演算の
対象を示す。本例では、具体的にはレジスタの番地を指
定する。）がそれぞれデコード（解読）される。ＩＤス
テージの後半で、オペランドの値がレジスタ・ファイル
から読込まれる。この読み込みと並行して命令発行のた
めのスケジューリングがなされる。ＥＸステージではＡ
ＬＵ命令は演算を、ｌｏａｄ／ｓｔｏｒｅ命令はデータ
・キャッシュにアクセスする。ＷＢステージでは、ＥＸ
ステージの結果をレジスタ・ファイルに書込む。本発明
は５段のパイプライン構造（ＩＦ，ＩＤ，ＥＸ，ＭＥＭ
［ＭｅｍｏｒｙＡｃｃｅｓｓ］，ＷＢ）（Ｊ．Ｌ．Ｈ
ｅｎｎｅｓｓｙ，ａｎｄＤ．Ａ．Ｐａｔｔｅｒｓｏ
ｎ，“ＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ：
ＡＱｕａｎｔｉａｔｉｖｅＡｐｐｒｏａｃｈ”Ｍｏ
ｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，
Ｉｎｃ．，１９９０（以下文献１という）参照）などほ
とんどのパイプライン構造に適用可能である。

【０００５】ｂ）従来の技術分岐先命令は、分岐命令が実行されるまでは分岐先アド
レスが定まらないので実行不可能である。そのため、パ
イプライン上の命令の流れを大きく乱す原因（ハザー
ド）となり、制御ハザードと呼ばれる。スーパースカラ
の場合、ＲＩＳＣに比べて分岐命令が実行されるまでに
実行が待たされる命令数が大きいことから、制御ハザー
ドはパイプラインの性能を大幅に低下させるので重大な
問題である。

【０００６】図４はＲＩＳＣアーキテクチャにおける遅
延分岐法を示した説明図である。この図４を用いて制御
ハザードを説明する。典型的なＲＩＳＣのようなスカラ
プロセッサでは、分岐の決定は分岐先アドレスを計算す
るための専用の加算器を用いてＩＤステージ内でなされ
る（文献１参照）。このようにして、分岐命令のＩＤス
テージの直後に分岐先命令がフェッチ（取込み）され
る。このような通常の分岐方法が図４に示すような４段
パイプラインに適用されると、１クロック分のストール
（パイプラインの停止）で済む。命令３が分岐命令のと
きには、クロックサイクル“５”（ＩＤステージ）の
時、分岐先アドレスがアドレス演算用の加算器により演
算されるため、分岐先アドレスはクロックサイクル
“６”になって始めて分岐先の命令をフェッチすること
ができる。従って、クロックサイクル“５”では分岐先
命令はフェッチされず、パイプライン機能は停止され
る。この分岐命令の後の１サイクルを分岐遅延スロット
と呼ぶ。

【０００７】これに対して、ＲＩＳＣでは遅延分岐（ｄ
ｅｌａｙｅｄｂｒａｎｃｈ）（文献１参照）と呼ばれ
る手法が使われている。コンパイラは、この遅延スロッ
トに有効な命令を挿入するよう努力する。図４の例で
は、命令１〜３にデータの依存関係などの影響を与えな
い命令０を遡って捜し出し、命令４に挿入することによ
って、パイプライン機能が停止しないようにしている。
このスロットを活用できる命令が存在しなかった場合に
は、コンパイラが遅延スロットにＮＯＰ（ＮｏＯｐｅｒ
ａｔｉｏｎ；無操作）命令を挿入することになる。

【０００８】これに対して、スーパースカラでは、一度
に複数命令がフェッチされるが、そのためコンパイラが
２命令以上の命令を捜して遅延スロットを活用するのは
難しい。また、スーパースカラでは、複数命令がフェッ
チされるため、分岐命令が早く検出されるが、分岐の結
果が他の命令に依存する場合、この間のストール・サイ
クルが比較的長くなるという問題点がある。（本発明で
は、この分岐の検出から分岐の決定までに要する時間を
利用して“ｔａｋｅｎ（分岐）”側の分岐先命令と“ｎ
ｏｔｔａｋｅｎ（非分岐）”側の両方の分岐先命令を
命令キャッシュからバッファに格納する。このようにし
て、両方の分岐先命令の先読みをアドレス幅を拡張しな
いで実現している。）

【０００９】一方、ＲＩＳＣ及びスーパースカラのどち
らにも適用される方法として、分岐予測という方法があ
る。この方法を扱った文献には次のものがある。文献２：Ｊ．Ｋ．Ｆ．ＬｅｅａｎｄＡ．Ｊ．Ｓｍｉ
ｔｈ，“ＢｒａｎｃｈＰｒｅｄｉｃｔｉｏｎＳｔｒａ
ｇｉｅｓａｎｄＢｒａｎｃｈＴａｒｇｅｔＢｕ
ｆｆｅｒＤｅｓｉｇｎ”，ＩＥＥＥＣｏｍｐｕｔｅ
ｒ，Ｖｏｌ．１７，Ｎｏ．１，ｐｐ．６−２２，１９
８７文献３：Ｓ．ＭｃＦａｒｌｉｎｇａｎｄＪ．Ｈｅｎ
ｎｅｓｓｙ，“ＲｅｄｕｃｉｎｇｔｈｅＣｏｓｔ
ｏｆｔｈｅＢｒａｎｃｈｅｓ，“Ｐｒｏ．ｏｆｔ
ｈｅ１４ｔｈＩｎｔ´ｌＳｍｐ．Ｌ７ＲＯ０Ｃ
ｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ，ｐｐ．３９
６−４０３，１９８７文献４：特開平４−２４７５２２号公報文献５：特開平５−２００６７号公報

【００１０】この方法は、“ｔａｋｅｎ（分岐）”側の
分岐先命令又は“ｎｏｔｔａｋｅｎ（非分岐）”側の
分岐先命令のどちらかを予測し、実行してしまうもので
ある。分岐命令の実行の結果、予測通りであれば、実行
時間の大幅な短縮になる。予測がミスした場合には予測
した命令の実行を無効化し、パイプラインが予測前の正
しいプロセッサの状態を回復すれば良いという方式であ
る。しかし、この復元に要するハードウェア機構はかな
り複雑である。

【００１１】このような分岐先の両方向の命令をプリフ
ェッチする方式の例がいくつか提案されている。例えば
特開平２−１５７９３９号公報では、命令を改造し、分
岐先を指定することによって、これを実現している。
（これに対して、本発明は、オブジェクト・ゴード・レ
ベルの互換性を保つため、いっさい命令に改造を加えて
いない。）特開平３−１４７１３４号公報や特開平３−
１８９８２４号公報では、スカラプロセッサのための方
法が開示されているが、スーパースカラのように複数命
令を同時にフェッチ・デコード・実行するプロセッサに
は対応できない。また、特開平３−１５６５３４号公報
では複数命令に対応した処理方法を開示しているが、ｏ
ｕｔ−ｏｆ−ｏｒｄｅｒ発行には対応できない。なお、
このｏｕｔ−ｏｆ−ｏｒｄｅｒ発行とは、命令間のデー
タの依存関係が無く、プログラムが正しく演算されるな
ら、命令の実行順序を入れ換えて実行する方式である。

【００１２】スーパースカラでは、プログラム・カウン
タ（ＰＣ）によって与えられた任意のアドレスから連続
した４命令が常に同時にフェッチされる必要がある。こ
の命令供給に支障をきたすとスーパースカラの性能低下
を引起こすことになる。スーパースカラのための複数命
令同時取込み機構には「Ｇ．Ｆ．Ｇｒｏｈｏｓｋｉ，
“Ｍａｃｈｉｎｅｏｒｇａｎｉｚａｔｉｏｎｏｆ
ｔｈｅＩＢＭＲＩＳＣｓｙｓｔｅｍ／６０００
２”，ＩＢＭｊｏｕｒｎａｌｏｆＲｅｓｅａｒｃ
ｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，Ｖｏｌ．３４，
Ｎｏ．１，ｐｐ．３７−５８，１９９０」、及び「原ほ
か１名、“ＳＩＭＰ（単一命令流／多重命令パイプライ
ン）方式に基づくスーパースカラ・プロセッサ『新風』
の命令供給機構”、情報処理学会研究報告、９０−ＡＲ
Ｃ−８０−７，１９９０」に記載のものがある。これら
の文献のものは、ラインクロッシングに対応できない。
なお、ラインクロッシングとは、同時にフェッチされる
ｎ個の命令（フェッチブロック）が２つのキャッシュラ
インにまたがることである。これらの機構で２ラインの
命令キャッシュにアクセスするには、２クロックサイク
ル必要となる。または、１クロックサイクルにおいてフ
ェッチできる命令が１〜３命令になる。どちらにおいて
も性能は損なわれることになる。以下にこれを説明す
る。

【００１３】ＣＰＵの性能（プログラムの実行に要する
ＣＰＵ時間）及び性能向上については次のように表わせ
る。プログラムの実行に要するＣＰＵ時間＝プログラムの終了に要するクロック数×ｔ＝ＩＣ×ＣＰＩ×ｔ， …（３）ＩＣ：プログラム内の命令数ＣＰＩ：１命令の実行に要するクロックサイクル数ｔ：クロックサイクル時間命令フェッチに２クロックサイクルかかってもＣＰＩが
大きくなることになり、命令フェッチを１クロックとし
た場合でも、フェッチできる命令数が少なくなり、ＣＰ
Ｉが大きくなる傾向となる。

【００１４】

【発明が解決しようとする課題】本発明は、上述の問題
点を解決するためになされたものであり、分岐命令を高
速に実行することができ、また、フェッチブロックが２
ラインにまたがっても、キャッシュ・ミスが無ければ、
連続した４命令を１クロックサイクルで常に供給するこ
とができる複数命令同時取り込み機構を提供することを
目的とする。

【００１５】

【課題を解決するための手段】本発明の一つの態様によ
る複数命令同時取り込み機構は、オペコード及びオペラ
ンドからなる命令を格納する記憶手段（主記憶装置，命
令キャッシュ）と、複数個命令を同時に読み出すフェッ
チ手段と、読み出された命令を命令別に同時に解読し、
命令の種別（オペコード）及びレジスタ参照番地（オペ
ランド）を識別する複数個のデコーダと、デコードの結
果から各命令間のレジスタ参照番地の競合又は衝突を検
出する手段と、その競合又は衝突の検出結果に基づい
て、複数の命令が同時実行可能かどうかを決定するスケ
ジュール手段と、次にフェッチすべき命令の先頭番地を
出力するプログラム・カウンタ（ＰＣ）及び一対の分岐
先命令（ｔａｋｅｎ、ｎｏｔｔａｋｅｎ）又は命令キ
ャッシュからフェッチした命令を選択する分岐機構と、
演算を行う複数のパイプライン演算機と、このパイプラ
イン演算機又は汎用レジスタ・ファイルから複数のオペ
ランドを読み出す装置において、プログラム・カウンタ
（ＰＣ）の指し示す命令が分岐命令の場合を除き、直前
のクロックサイクルで発行された命令数を格納するバッ
ファと、命令数と前記プログラム・カウンタの値とを加
算し、次のクロックでフェッチするべき先頭アドレスを
決定する加算器とを有する。なお、この命令発行数は、
スーパースカラの他の構成要素である命令の発行をスケ
ジュール決定する機構から出力されるものとする。但
し、命令フェッチの開始時と命令が分岐された時の次の
クロック時だけは、ＰＣの値にフェッチするべき命令数
を加算する。

【００１６】本発明の他の態様による複数命令同時取り
込み機構は、上記の複数命令同時取り込み機構におい
て、命令ウィンドウ内に分岐命令があると、分岐命令の
アドレスを算出する第１の加算器と、分岐及び非分岐か
らなる一対の分岐先命令のアドレスを算出する第２の加
算器と、一方の分岐先命令（ｔａｋｅｎ）を格納する第
１のプリフェッチ・バッファーと、他方の分岐先命令
（ｎｏｔｔａｋｅｎ）を格納する第２のブリッチ・バ
ッファーと、一対の分岐先命令（ｔａｋｅｎ，ｎｏｔ
ｔａｋｅｎ）又は命令キャッシュからフェッチした命令
のいずれかを選択するマルチプレクサーとを有し、分岐
命令によるパイプライン停止時間を利用して両方の分岐
先命令を予め取り込んでおく。そして、分岐命令の結果
が決まる時には、分岐先命令のデコードから開始するこ
とができ、それによって分岐先命令の実行を早める。

【００１７】本発明の他の態様による複数命令同時取り
込み機構は、上記の複数命令同時取り込み機構におい
て、スケジュールの結果、命令ウィンドゥ内の前回未発
行であった命令と命令キャッシュからフェッチしたＮ個
の命令から前回未発行命令数に等しい数の命令を除いた
残りを加え合わせて命令ウィンドゥに送り込む命令選択
部を有する。この構成によりｏｕｔ−ｏｆ−ｏｒｄｅｒ
発行にも対応できる。この機構では、命令ウィンドウ内
に分岐命令が検出されたら分岐命令以降の命令にはＮＯ
Ｐ命令（無操作命令）が命令ウィンドウ内に送られるよ
うにして、ｏｕｔ−ｏｆ−ｏｒｄｅｒ発行にも対応でき
るようにしている。ｏｕｔ−ｏｆ−ｏｒｄｅｒ発行と
は、命令間のデータの依存関係が無く、プログラムが正
しく演算されるなら、命令の実行順序を入れ換えて実行
する方式である。ｏｕｔ−ｏｆ−ｏｒｄｅｒ命令発行方
式では、分岐命令以降の命令が分岐命令よりも先に実行
されてしまうと、間違った答えが得られてしまうことが
ある。但し、命令フェッチの開始時と命令が分岐された
時の次のクロック時だけは、ＰＣの値にフェッチするべ
き命令数を加算する。

【００１８】本発明の他の態様による複数命令同時取り
込み機構は、上記の複数命令同時取り込み機構におい
て、プログラム・カウンタ（ＰＣ）によって与えられた
任意のアドレスから連続したＮ個の命令が１クロックサ
イクルで常に同時にフェッチできる、バンク数Ｎ個のイ
ンターリーブド・命令キャッシュと、各バンクでフェッ
チすべき命令のアドレスの先頭アドレスをインクリメン
トするインクリメンタと、命令のアドレスの最下位所定
ビットのデコード情報に基いて選択することによって連
続したＮ個の命令を出力させ、先頭アドレスから順にＮ
個の命令を整列させて命令ウィンドウに送るアライメン
ト回路とを有する。この機構では、連続した複数命令の
先頭アドレスのみを与えればよく、アドレスバスは先頭
アドレスの１命令分で済む。但し、データバスはＮ命令
分必要である。本発明の他の態様による複数命令同時取
り込み機構は、命令フェッチ・アドレスの最下位所定ビ
ットをデコードする手段と、アドレスのインデックスを
インクリメントする手段と、２ポート・メモリであるタ
グメモリとを有し、連続した複数命令が２つのブロック
に跨がった時でも１クロックサイクルで取り込むことの
できるようにしている。

【００１９】

【作用】本発明は、分岐命令がパイプラインを長く停止
させる場合のその停止時間を逆に利用して両方の分岐先
命令を予め取り込み、分岐命令の結果が決まる時には、
分岐先命令のデコードから開始することによって分岐先
命令の実行を早めるようにしたものであり、その動作を
次の（ａ）〜（ｃ）に分け説明する。（ａ）スケジュール対象の命令中に分岐命令が無い場合ＲＩＳＣのようなスカラプロセッサやＶＬＩＷ（Ｖｅｒ
ｙＬｏｎｇＩｎｓｔｒｕｃｔｉｏｎＷｏｒｄ）で
は、プログラム・カウンタ（ＰＣ）は分岐命令の場合を
除いて、常に１つづつ増加される。スーパースカラの場
合、ＰＣは直前のクロックサイクルで実行された命令数
に依存して計算されなければならない。本発明で使用す
るアーキテクチャでは、この命令数は複数命令同時発行
機構から出力されるものとする。また、ＰＣから指定さ
れたアドレスから４命令が常にＩＦステージで命令キャ
ッシュから取り込まれる。命令ウィンドウに分岐命令が
無い場合、命令ウィンドウ内の４命令は直前のＩＤステ
ージでの未発行命令とフェッチされた命令の中から加え
られた命令から構成される。分岐命令のある場合と無い
場合のパイプラインの挙動を図２に示す。命令ウィンド
ウはフェッチされた命令を一時的に格納するバッファで
ある。

【００２０】（ｂ）スケジュール対象の命令中に分岐命
令がある場合本発明による分岐機構は制御ハザードに起因するストー
ルサイクルを減らすために、２つの先読みバッファを有
する。スーパースカラでは、命令が複数フェッチされる
ことから、分岐命令が早く検出されるのに対して、分岐
命令で真偽判断される内容が分岐命令の直前の命令で決
まることが多いので（ＲＡＷハザードと呼ばれる）、分
岐命令の実行が遅れることが多い。本発明では、このス
トールサイクルを利用して、分岐先命令の先読みが実現
され、分岐命令が実行され次第、分岐先命令のデコード
が開始される。フェッチではなくデコードから開始され
るため分岐先命令の実行が早まることになる。

【００２１】ＩＤステージの前半で、分岐命令はデコー
ドの結果検出され、分岐先アドレスのためのオフセット
が分岐先命令のアドレス計算専用加算器に送られる。Ｉ
Ｄステージの後半で、“ｔａｋｅｎ（分岐）”側の分岐
命令のアドレスが計算される。これに並行して、分岐命
令が他の命令とのデータハザード（レジスタ競合）の有
無に基づいて実行しても良いかが判断される。データハ
ザードとは命令依存関係のうち、レジスタまたはメモリ
に格納されたデータ相互間の依存関係のあることを指
す。“ｎｏｔｔａｋｅｎ”側の分岐先４命令がクロッ
ク・サイクル“２”で“ｎｏｔｔａｋｅｎ”プリフェ
ッチ・バッファに格納される。これら４命令は常に直前
のＩＤステージでウィンドウ内にある分岐命令に続く命
令と現在フェッチされた命令から付加した命令から構成
される（図２（ｂ）および（ｃ）参照）。制御ハザード
の挙動は次の２つに区別けされる。

【００２２】ｉ．命令ウィンドウ内に分岐命令が他の命
令とデータハザードが無い場合、分岐命令は実行される
（図２（ｂ）クロックサイクル“３”参照）。分岐命令
の結果はレジスタ・ファイルからのデータの読込みまた
は、もし現在実行中の機能ユニット（実行ユニット又は
パイプライン演算器）が分岐命令とデータハザード（Ｒ
ＡＷハザード；ＲｅａｄＡｆｔｅｒＷｒｉｔｅ）を
有するなら機能ユニットのディステイネーション・レジ
スタからのデータをバイパスするかによって“ｔａｋｅ
ｎ（分岐）”か“ｎｏｔｔａｋｅｎ（非分岐）”かが
判断される。もし判断の結果、“ｎｏｔｔａｋｅｎ
（非分岐）”であれば、クロックサイクル“３”で“ｎ
ｏｔｔａｋｅｎ”プリフェッチ・バッファ内に既にフ
ェッチされた４命令が即デコードされる。もし判断の結
果、“ｔａｋｅｎ（分岐）”であれば、クロックサイク
ル“３”で分岐先アドレスから４命令がフェッチされ
る。

【００２３】ii．命令ウィンドウ内に、分岐命令が他の
命令とデータハザードがある場合、分岐命令は実行され
ず、ウィンドウ内に残る（図２（ｃ）参照）。この場
合、クロック・サイクル“２”で分岐命令の直後の命令
からプログラム順に４命令が“ｎｏｔｔａｋｅｎ”プ
リフェッチ・バッファに格納され、クロック・サイクル
“３”で分岐先アドレスから４命令が“ｔａｋｅｎ”プ
リフェッチ・バッファに格納される。スケジューリング
の結果分岐命令が実行されるや否や、分岐命令の結果が
バイパス回路によって決定される。その結果に基づき、
“ｎｏｔｔａｋｅｎ”プリフェッチ・バッファもしく
は“ｔａｋｅｎ”プリフェッチ・バッファから選択され
た４命令がクロック・サイクル“４”ですぐにデコード
される。

【００２４】（ｃ）複数命令の同時取り込みについて複数命令の同時取り込みは、ＰＣが指定する命令フェッ
チ・アドレスの最下位２ｂｉｔをデコードする手段と、
このアドレスの最上位３０ｂｉｔをインクリメントする
手段と、インターリーブド・命令キャッシュと、アライ
メント回路と、命令フェッチ・アドレスの最下位４ｂｉ
ｔをデコードする手段と、アドレスのインデックスをイ
ンクリメントする手段と、２ポート・メモリを有するタ
グメモリによって達成される。

【００２５】

【実施例】図３は本発明が適用されるスーパースカラ・
アーキテクチャの一例を示したブロック図である。この
アーキテクチャは主に６つの部分から構成されており、
命令デコード及びスケジューリング機構１、プログラム
・カウンタ（ＰＣ）及び分岐機構２、命令キャッシュ及
びフェッチ機構３、機能ユニット（ＦＵ）４、データキ
ャッシュ５、及びレジスタ・ファイル６から構成されて
いる。均質ユニット構成の場合には、各機能ユニットは
ＡＬＵ命令とＬｏａｄ／Ｓｔｏｒｅ命令を実行すること
ができる。不均質ユニット構成の場合には、機能ユニッ
トはＡＬＵ命令又はＬｏａｄ／Ｓｔｏｒｅ命令を実行す
ることができる。Ｌｏａｄ／Ｓｔｏｒｅユニットだけが
データキャッシュにアクセスされる。どちらの構成にお
いても分岐命令は分岐機構で処理される。この構成の
内、特に本発明に関連するのはプログラム・カウンタ
（ＰＣ）及び分岐機構２と命令キャッシュ及びフェッチ
機構３である。

【００２６】図１はプログラム・カウンタ（ＰＣ）及び
分岐機構２を中心に、命令デコード及びスケジューリン
グ機構１と命令キャッシュ及びフェッチ機構３との接続
関係を含めた詳細を示した構成図である。プログラム・
カウンタ（ＰＣ）及び分岐機構２は、プログラム・カウ
ンタ（ＰＣ）２０、加算器２１〜２３、マルチプレクサ
２４、パラレルシフタ２５、プリフェッチバッファ２
６，２７、マルチプレクタ２８及び命令選択部２９から
構成されている。命令デコード及びスケジューリング機
構１は、命令ウインドウ３０、スケジューリング部３
１、オペランド読み込み選択部３２及び比較器３３から
構成されている。

【００２７】図１のこの機構においては、アドレス計算
を行う部分と、命令キャッシュ及びフェッチ機構（図３
及び図１の符号３参照）から命令を取り込み、スケジュ
ールされるべき適切な命令を命令デコード及びスケジュ
ーリング機構（図３及び図１の符号１参照）の命令ウィ
ンドウ３０に送り込む部分からなる。アドレス計算及び
命令の選択はスケジューリング部３１及びオペランド読
み込み選択部３２からの信号（図１のａ〜ｇ、Ｄ、Ｅ参
照）により制御される。

【００２８】（ａ）アドレス計算アドレス計算は分岐命令がウィンドウ内に無い時、分岐
命令実行直後及びプログラム立ち上げ初期時、無条件分
岐命令（ｊｕｍｐ又はｃａｌｌ命令）の実行時、及び条
件分岐命令（ＢＲＴ命令）の実行時の４つのケースがあ
る。ｉ．分岐命令が命令ウィンドウ３０内に無い時分岐命令が命令ウィンドウ３０内に無い時は、ＰＣ２０
の現在値に、スケジューリング部３１による命令スケジ
ューリングの結果発行された（命令発行とは機能ユニッ
トでの命令実行を起動させるプロセスをいう。）命令数
（図１の信号ｃ）を加算器２１（図１参照）加えること
によって次にフェッチすべき命令の先頭番地であるアド
レス（Ａ）が算出される。

【００２９】ii．分岐命令実行直後及びプログラム立ち
上げ初期時無条件分岐命令及び条件分岐命令を問わず、分岐命令の
実行直後は分岐先命令より４命令先の命令からの４命令
が取り込まれることになる。また、プログラム立ち上げ
初期時も同様である。そのため、このときは信号ｃ（図
１）に数値“４”が出力され、ＰＣ←ＰＣ＋４の加算が
加算器２１で行われる（図１のＡ）。 iii ．無条件分岐命令のためのアドレス計算ｊｕｍｐ命令又はｃａｌｌ命令のような無条件分岐命令
の実行時には、命令のオペランドの指し示すアドレスが
次にフェッチすべき命令の先頭番地となるようにＰＣ２
０に与えられる（図１のＥ）。 iv．条件分岐命令のためのアドレス計算まず、分岐命令の格納されているアドレスを算出するた
めに、ＰＣ２０の現在値に命令ウィンドウ３０における
分岐命令の位置（命令ウィンドウ３０の先頭からの位
置、信号ａ）を加えて５を引くことによって求める。こ
れは加算器２２によってなされ、分岐命令のアドレスＢ
が得られる。次に、分岐先アドレスが算出される。“ｎ
ｏｔｔａｋｅｎ”の場合の分岐先アドレスは分岐命令
プラス１（Ｂ＋１）して求められる（図１のＣ）。“ｔ
ａｋｅｎ”の場合の分岐先アドレスは分岐命令のアドレ
スに分岐命令をデコードの結果得られる分岐先のための
オフセット・アドレス（式（２）の＃Ｏまたは図１のＤ
参照）を加えることによって、分岐先アドレスＣが得ら
れる。

【００３０】（ｂ）分岐先命令の先読み・格納ｉ．“ｎｏｔｔａｋｅｎ”分岐先命令図５は命令ウインドウ内の命令３が分岐命令の時の“ｎ
ｏｔｔａｋｅｎ”分岐先４命令の状態を示す説明図で
ある。“ｎｏｔｔａｋｅｎ”分岐先４命令はプログラ
ム順で分岐命令に続く４命令であるが、実際には、命令
ウィンドウ３０内に分岐命令直後の命令が残り、次のク
ロックでフェッチされる４命令と加え合わされて“ｎｏ
ｔｔａｋｅｎ”プリフェッチ・バッファー２６に格納
される。そして、分岐命令の命令ウィンドウ３０内の位
置（表１のａ参照）に基づいて表１のような組合わせで
格納されることになる。

【００３１】

【表１】

【００３２】ii．“ｔａｋｅｎ”分岐先命令 “ｔａｋｅｎ”側分岐先４命令は、分岐先アドレスＣか
らの４命令が“ｔａｋｅｎ”プリフェッチ・バッファー
２７に格納される。

【００３３】（ｃ）スケジュール対象命令の選択図６は図１で示した命令選択部の詳細を示した図であ
る。スケジュールの対象となる命令は、分岐命令の実行
直後、プログラム立ち上げ初期時、無条件分岐命令の実
行時、及び条件分岐命令の実行時は、ＰＣ２０の指し示
す値からの４命令が自動的に命令ウィンドウ３０に送り
込まれる。分岐命令が命令ウィンドウ３０内に無い時
と、条件分岐命令が発行されずに命令ウィンドウ３０内
に残る時は次に示されるように命令が選択されて、命令
ウィンドウ３０に送られる。

【００３４】ｉ．分岐命令がウィンドウ内に無い時命令ウィンドウ３０内の命令１は必ず発行されるが、命
令２〜４はデータの依存関係が無ければ、発行される。
本発明のスーパースカラではｏｕｔ−ｏｆ−ｏｒｄｅｒ
発行可能なスーパースカラを想定している。これに対
し、プログラムの命令実行順序で命令を発行する方式を
ｉｎ−ｏｒｄｅｒ発行という。このｏｕｔ−ｏｆ−ｏｒ
ｄｅｒ発行の場合、命令２と命令４が発行されるという
ように歯抜けようになるときもある。発行されなかった
命令とフェッチされた４命令が加え合わされて新たなス
ケジュールの対象となる４命令が命令ウィンドウ３０に
送り込まれる。１クロック前にスケジュールされた４命
令のうちどの命令が発行されたかどうかという情報に基
づいて、命令ウィンドウ３０に送られるべき命令は決定
される（図６（ａ）参照）。

【００３５】ii．条件分岐命令が発行されずに命令ウィ
ンドウ３０内に残る時本発明では、命令（ｎ−１）が分岐命令であったら、命
令ｎ以降の命令は取り除かれてスケジューリングされる
（発行・実行しない）。これは、ｏｕｔ−ｏｆ−ｏｒｄ
ｅｒ命令発行方式なので、分岐命令以降の命令が分岐命
令よりも先に実行されてしまうと、間違った答えが得ら
れてしまうことが頻繁に起こるからである。これについ
て図７を用いて説明する。

【００３６】図７は分岐命令（基本ブロック）を飛び越
えてｏｕｔ−ｏｆ−ｏｒｄｅｒ実行される場合の問題を
図示した説明図である。この例では、命令２は命令１と
ＲＡＷハザードを持ち、命令３は命令２の結果を使用し
ている（ＲＡＷハザード）。命令３は分岐命令であり、
命令２の実行結果がクロックサイクル“４”で決定する
ため、分岐先命令のアドレスもクロックサイクル“４”
で確定する。そして、クロックサイクル“５”で始めて
命令フェッチが可能になる。命令３は命令２の結果が格
納されるレジスタＲ５の値で真偽判断され、真であれ
ば、次の命令である命令４からの４命令が、偽であれ
ば、命令Ｘからの４命令がフェッチされるという命令で
ある。命令４は分岐命令の後続命令であり、命令１〜３
と同時にスケジューリングされる。このとき、命令４は
命令１〜３とＲＡＷ・ＷＡＷ・ＷＡＲハザードを持たな
いために、ｏｕｔ−ｏｆ−ｏｒｄｅｒ発行を許すと命令
３の分岐命令より前に実行される。もし命令３の実行結
果から分岐先命令として命令Ｘが選択された場合には、
命令４は既に実行されており、命令４の結果がレジスタ
Ｒ１０に書き込まれていて、レジスタＲ１０を参照する
命令Ｘは間違った答えを得てしまう。それゆえ、本発明
では、スケジューリング時に分岐命令の後続の命令は無
視する。そのため、プログラム順で分岐命令以降の命令
は、スケジューリングの対象にならず（命令ウィンドウ
３０内には残らず）、分岐命令の結果が決定するまで発
行されない。従って、分岐命令の後続の命令は無意味な
ものとして処理されなければならない。図６の新しくフ
ェッチされた４命令（ｎ１〜ｎ４）にはＮＯＰ命令が出
力され、（ｂ）〜（ｅ）（図６）に基づいて命令ウィン
ドウ３０に送られるべき命令が決定される。

【００３７】次に、複数命令の同時取込み機構について
述べる。図８は命令キャッシュ及びフェッチ機構３の詳
細構成図である。この機構は、図示のように、インクリ
メンタ４０，４７、タグメモリ４１、比較器４２，４
３、デコーダ４４，４６、セレクタ４５、マルチプレク
サ４８〜５１、ドライバ５２〜５５、インターリーブド
命令キャシュ６０及びアライメント回路７０から構成さ
れている。インターリーブド命令キャシュ６０はバンク
Ｂａ０〜Ｂａ３構成され、アライメント回路７０はマル
チプレクサ７１〜７４から構成されている。

【００３８】ＣＰＵから出力されるアドレスはフェッチ
すべき命令の先頭アドレス（１命令分）であり、３つの
フィールド（ｔａｇ［タグ］、ｉｎｄｅｘ［インデック
ス］、ｂｌｏｃｋｏｆｆｓｅｔ［ブロックオフセッ
ト］）に分割される。ブロックオフセットはブロックか
ら適切なデータを選択するために使われる。インデック
スはセット（キャッシュ内のブロックの集合体）を選択
するために使われる。言い換えれば、インデックスによ
ってタグメモリ４１内のタグが参照され、アドレス内の
タグとタグメモリ内のデータとを比較することによって
命令キャッシュに存在する（ヒット）か否か（ミス）を
チェックするために使用される。

【００３９】（ａ）インターリーブドメモリ本発明で採用する命令キャッシュ６０は４つのメモリバ
ンクを有する単一ポートインターリーブド・メモリと同
様である。各バンクはアドレスバス（３２ｂｉｔ；ｂ₃₁
−ｂ₀）の最下位２ｂｉｔ（ｂ₁−ｂ₀）によって識別
される。ＰＣ２０が指示すフェッチすべき命令の最初の
命令のアドレスは最下位２ｂｉｔ（ｂ₁−ｂ₀）を使用
してデコーダ４６によりデコードされる。もしこの最初
の命令のアドレスがバンクＢａ１（ＸＸ０１）、バンク
Ｂａ２（ＸＸ１０）又はバンクＢａ３（ＸＸ１１）にあ
るなら、１個以上の命令が次の列（Ｘ（Ｘ＋１）００）
からフェッチされなければならない。ＸＸは最上位３０
ｂｉｔを示す。それゆえ、最上位３０ｂｉｔ（ｂ₃₁−ｂ
₂）は予めインクリメンタ４７によりインクリメントさ
れ、各バンクＢａ０〜Ｂａ３においてデコーダー４６の
出力に基づいて（ＸＸ００）又は（Ｘ（Ｘ＋１）００）
のどちらかの列が、図９に示すようにマルチプレクサー
７１〜７４によって選択される。

【００４０】（ｂ）ラインクロッシング常に連続した４命令をフェッチする場合、いくつかの命
令は異なるブロックをアクセスすることがある（ライン
クロッシング）。本発明では、ブロック・サイズを１６
としているので、ブロックオフセットは最下位４ｂｉｔ
（ｂ₃−ｂ₀）で識別される。ＰＣ２０によって指定さ
れた最下位４ｂｉｔ（ｂ₃−ｂ₀）が１１０１，１１１
０，１１１１である場合には、１つ以上の命令は異なる
ブロックを参照しなければならない。すなわち、ＰＣ２
０で示されるｉｎｄｅｘ（インデックス）に対し、ｉｎ
ｄｅｘ＋１をも参照する必要がある。各バンクＢａ０〜
Ｂａ３における参照すべきインデックスの選択はブロッ
クオフセット値に基づいてなされ、その条件を表２に示
す。

【００４１】

【表２】

【００４２】２つのインデックス（ｉｎｄｅｘとｉｎｄ
ｅｘ＋１）が同時に命令キャッシュを参照するため、タ
グメモリ４１は２ポート・メモリを使用する。そして、
ヒット／ミスの状況が４ケースあり、命令キャッシュお
よびメインメモリ・アクセスのアルゴリズムを表３に示
す。

【００４３】

【表３】

【００４４】（ｃ）アライメント回路以上のハードウェア回路によりキャッシュ・ミスが起き
ない限り、命令キャッシュ６０から連続した４命令がフ
ェッチできるが、ＰＣ２０が指し示すアドレスの命令が
命令のスケジュールを行う命令ウィンドウ３０の先頭に
来るようにし、プログラム順に並ぶようにしなければな
らない（アライメント）。図８に示すように最下位２ｂ
ｉｔ（ｂ₁−ｂ₀）のデコード結果に基づいて並べ変え
られる。

【００４５】上述の実施例の分岐先命令の先読み・実行
機構の性能を評価するために、ベンチマークテストを行
った。用いたベンチマークテストは１０個で表４に示
す。本分岐先命令の先読み・実行機構を含むスーパース
カラと含まないスーパースカラとのベンチマーク上での
総クロック数の調和平均値を比較すると、ＣＰＵ数が４
個の時で２７％、ＣＰＵ数が２個の時で２３％という速
度向上をもたらすことが実証できた。

【００４６】

【表４】

【００４７】

【発明の効果】以上のように本発明によれば、スーパー
スカラの性能を低下させる分岐命令の高速実行が可能と
なっており、そして、分岐予測のような複雑なハードウ
ェア回路を必要としないで、スーパースカラの性能向上
が実現できる。また、従来の方法ではフェッチすべき命
令がブロックをまたがる時（ラインクロッシング）２ラ
インのアクセスに２クロック必要であったが、本発明に
おいては、キャッシュミスの場合を除き、プログラムカ
ウンタで与えたアドレスから連続した複数命令を常に同
時に１クロックサイクルで取り込むことができ、高速化
が図られる。また、本発明においては連続した複数命令
の先頭アドレスのみを与えれば、アドレスバス幅は１命
令分で済むという利点がある。

【図面の簡単な説明】

【図１】本発明の一実施例におけるＰＣユニット及び分
岐機構の内部構成図である。ＲＩＳＣアーキテクチャに
おける遅延分岐法である。

【図２】本発明において命令ウィンドウ内の命令３が分
岐命令で、クロックサイクル“２”で検出される時のパ
イプラインの挙動を示した説明図である。

【図３】前記実施例のスーパースカラ・アーキテクチャ
の構成図である。

【図４】ＲＩＳＣアーキテクチャにおける遅延分岐法で
ある。

【図５】図１の実施例において命令ウィンドウ内の命令
３が分岐命令の時の“ｎｏｔｔａｋｅｎ”分岐先４命令
についての説明図である。

【図６】図１の実施例の命令選択部の詳細図である。

【図７】分岐命令がｏｕｔ−ｏｆ−ｏｒｄｅｒ実行され
る場合の問題点を示した説明図である。

【図８】図１の実施例の命令キャッシュ・フェッチ機構
の内部構成図である。

【図９】図８の命令キャッシュ・フェッチ機構において
ＰＣの指定するアドレスの最下位２ｂｉｔのデコード値
に基づく連続４命令のフェッチの方法を示した説明図で
ある。

【符号の説明】

図１において：Ａ…分岐命令が無い場合の次のＰＣのア
ドレス、Ｂ…分岐命令のアドレス、Ｃ…分岐先命令のア
ドレス、Ｄ…分岐先アドレス算出のためのオフセット、
Ｅ…ｊｕｍｐ（ｃａｌｌ命令を含む）命令用の飛び先ア
ドレス、ａ…命令ウインドウ内の分岐命令の位置、ｂ…
命令ウインドウ内の分岐命令２〜４が発行可能か不可か
を示す信号、ｃ…発行命令数、ｄ…命令ウインドウ内の
分岐命令の有無、ｅ…分岐命令が発行可能か不可かを示
す信号、ｆ…ｊｕｍｐ（ｃａｌｌ命令を含む）命令が行
可能か不可かを示す信号、ｇ…分岐命令の結果分岐か非
分岐かを示す信号（ｔａｋｅｎｏｒｎｏｔｔａｋ
ｅｎ）、ＡＤＤ…加算器、ＭＵＸ…マルチプレクサー。図２において：ＩＦ…命令フェッチ（取り込み）、ＩＤ
…命令デコード（解読）、ＥＸ…実行、ＷＢ…結果の書
き込み（格納）、ＭＥＭ…メモリ・アクセス、Ｉｎｓ
ｔ．１…命令スケジューリングの対象になるウインドウ
内の命令１、Ｉｎｓｔ．２…命令２、Ｉｎｓｔ．３…命
令３、Ｉｎｓｔ．４…命令４、Ｉｎｓｔ．０…命令１の
前の命令、Ｒｓ…ソースレジスタ、Ｒｓ１…ソースレジ
スタ１、Ｒｓ２…ソースレジスタ２、Ｒｄ…デイステイ
ネーションレンジスタ、Ｒ１〜Ｒ２…レジスタ・ファイ
ル内の汎用レジスタ、ＡＤＤ…加算命令、＃ｘ…分岐命
令の飛び先が命令Ｘ、ＢＲＴ…条件分岐命令、ＮＯＰ…
無操作命令。図３において：１…命令デコード・スケジューリング機
構、２…プログラムカウンタ（ＰＣ）ユニットおよび分
岐機構、３…命令キャッシュおよびフェッチ機構、４機
能ユニット群（ＦＵ）、５…データキャッシュ、６…レ
ジスタ・ファイル。図４において：ＩＦ…命令フェッチ（取り込み）、ＩＤ
…命令デコード（解読）、ＥＸ…実行、ＷＢ…結果の書
き込み（格納）、ＭＥＭ…メモリ・アクセス、Ｉｎｓ
ｔ．１…命令スケジューリングの対象になるウインドウ
内の命令１、Ｉｎｓｔ．２…命令２、Ｉｎｓｔ．３…命
令３、Ｉｎｓｔ．４…命令４、Ｉｎｓｔ．０…命令１の
前の命令、Ｒｓ…ソースレジスタ、Ｒｓ１…ソースレジ
スタ１、Ｒｓ２…ソースレジスタ２、Ｒｄ…デイステイ
ネーションレンジスタ、Ｒ１〜Ｒ２…レジスタ・ファイ
ル内の汎用レジスタ、ＡＤＤ…加算命令、＃ｘ…分岐命
令の飛び先が命令Ｘ、ＢＲＴ…条件分岐命令、ＮＯＰ…
無操作命令。図６において：ｐ１〜ｐ４…１クロック前にスケジュー
ルされた４命令、ｎ１〜ｎ４…新しくフェッチされた４
命令、ｗ１〜ｗ４…命令ウインドウに送られる４命令。図８において：ＰＣ…プログラムカウンタ、ｔａｇ…タ
グ、ｉｎｄｅｘ…インデックス、ｂｌｏｃｋｏｆｆｓ
ｅｔ…ブロック・オフセット、ＭＳＢ３０ｂｉｔ（ｂ₃₂
−ｂ₀）、ＬＳＢ２ｂｉｔ（ｂ₁−ｂ₀）…最下位２ｂ
ｉｔ、ＭＵＴ…マルチプレクサー、ｄｒｉｖｅｒ…イン
ターリーブド・メモリへのアクセスをタグメモリでのヒ
ット／ミス情報に基づきＯＮ／ＯＦＦする回路。図９において：ＸＸ…再上位３０ｂｉｔ。

Claims

【特許請求の範囲】

【請求項１】オペコード及びオペランドからなる命令
を格納する記憶手段と、複数個命令を同時に読み出すフ
ェッチ手段と、読み出された命令を命令別に同時に解読
し、命令の種別及びレジスタ参照番地を識別する複数個
のデコーダと、デコードの結果から各命令間のレジスタ
参照番地の競合又は衝突を検出する手段と、その競合又
は衝突の検出結果に基いて、複数の命令が同時実行可能
かどうかを決定するスケジュール手段と、次にフェッチ
すべき命令の先頭番地を出力するプログラム・カウンタ
及び分岐先命令、又は分岐先命令若しくは命令キャッシ
ュからフェッチした命令を選択する分岐機構と、演算を
行う複数のパイプライン演算機と、このパイプライン演
算機又は汎用レジスタ・ファイルから複数のオペランド
を読み出す装置において、前記プログラム・カウンタの指し示す命令が分岐命令の
場合を除き、直前のクロックサイクルで発行された命令
数を格納するバッファと、前記命令数と前記プログラム・カウンタの値とを加算
し、次のクロックでフェッチするべき先頭アドレスを決
定する加算器とを有することを特徴とする複数命令同時
取込み機構。
【請求項２】命令ウィンドウ内に分岐命令があると、
分岐命令のアドレスを算出する第１の加算器と、分岐及
び非分岐からなる一対の分岐先命令のアドレスを算出す
る第２の加算器と、一方の分岐先命令を格納する第１の
プリフェッチ・バッファーと、他方の分岐先命令を格納
する第２のブリッチ・バッファーと、一対の分岐先命令
又は命令キャッシュからフェッチした命令のいずれかを
選択するマルチプレクサーとを有し、分岐命令によるパ
イプライン停止時間を利用して両方の分岐先命令を予め
取り込んでおくことを特徴とする請求項１記載の複数命
令同時取込み機構。
【請求項３】スケジュールの結果、命令ウィンドウ内
の前回未発行であった命令と命令キャッシュからフェッ
チしたＮ個の命令から前回未発行命令数に等しい数の命
令を除いた残りを加え合わせて命令ウィンドウに送り込
む命令選択部を有することを特徴とする請求項１又は２
記載の複数命令同時取込み機構。
【請求項４】プログラム・カウンタによって与えられ
た任意のアドレスから連続したＮ個の命令が１クロック
サイクルで常に同時にフェッチできる、バンク数Ｎ個の
インターリーブド・命令キャッシュを有する請求項１、
２又は３記載の複数命令同時取込み機構。
【請求項５】命令フェッチ・アドレスの最下位所定ビ
ットをデコードする手段と、アドレスのインデックスを
インクリメントする手段と、２ポート・メモリであるタ
グメモリとを有し、連続した複数命令がブロックを跨が
った時でも１クロックサイクルで取り込むことのできる
ようにしたことを特徴とする請求項１、２、３又は４記
載の複数命令同時取込み機構。