JP3211750B2

JP3211750B2 - 情報処理装置及びパイプライン処理方法

Info

Publication number: JP3211750B2
Application number: JP28999497A
Authority: JP
Inventors: 浩史早川; 晴継福本; 秀昭石原; 裕章田中
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 1997-02-27
Filing date: 1997-10-22
Publication date: 2001-09-25
Anticipated expiration: 2017-10-22
Also published as: EP0862112A2; EP0862112B1; DE69831622D1; DE69831622T2; EP0862112A3; JPH10301776A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パイプライン処理
方法及びその方法を採用した情報処理装置に関するもの
である。

【０００２】

【従来の技術】従来より、演算機能を複数種類のステー
ジに分け、並列して異なるステージの処理を行うことに
より、複数の命令処理サイクルを部分的に重複したタイ
ミングで実行するパイプライン処理方式を採用した情報
処理装置が知られている。

【０００３】ここで、こうした従来の情報処理装置につ
いて、一般的な５段パイプライン処理を実行するＣＰＵ
（マイクロプロセッサ）を例に挙げて説明する。このＣ
ＰＵでは、演算機能を、ＩＦ（命令読出：フェッチ）、
ＩＤ（命令解読：デコード）、ＥＸ（命令実行）、ＭＡ
（メモリアクセス）、ＷＢ（ライトバツク）の５つのス
テージに分割し、図７に示す如き並列関係にてパイプラ
イン処理が実行されている。

【０００４】即ち、ＩＦステージでは、予めプログラム
が格納されているＲＯＭやＲＡＭ等のメモリから命令を
読み出し、ＩＤステージでは、ＩＦステージで取り込ん
だ命令を解読（デコード）し、ＥＸステージでは、ＩＤ
ステージで解読した内容に基づきレジスタ間演算を行
う。また、ＭＡステージでは、ＩＤステージで解読した
内容に基づき、ＥＸステージでの演算結果をアドレスと
してＲＯＭやＲＡＭ等のメモリにアクセス（読み出し或
いは書き込み）を行い、ＷＢステージでは、ＩＤステー
ジで解読した内容に基づき、メモリやレジスタにデータ
を書き込む。

【０００５】そして、図７に示すように、ｎ番目の命令
処理サイクルのＩＦステージでメモリからｎ番目の命令
を読み出し、該ｎ番目の命令処理サイクルのＩＤステー
ジで上記ｎ番目の命令を解読しているときに、ｎ＋１番
目の命令処理サイクルのＩＦステージでメモリからｎ＋
１番目の命令を読み出し、更に、ｎ番目の命令処理サイ
クルのＥＸステージでｎ番目の命令に基づく演算を行っ
ているときに、ｎ＋１番目の命令処理サイクルのＩＤス
テージでｎ＋１番目の命令を解読すると共に、ｎ＋２番
目の命令処理サイクルのＩＦステージでメモリからｎ＋
２番目の命令を読み出す、といった具合に、複数の命令
処理サイクルの異なるステージ動作を並列に行うこと
で、命令処理の高速化を図っている。

【０００６】また、全てのステージ動作は、当該ＣＰＵ
のシステムクロック（以下、ＣＰＵの動作クロックとも
いう）に同期して行われ、基本的に、システムクロック
１つの時間Ｔで、１つのステージが終了するようになっ
ている。一方、図８に示すように、こうしたパイプライ
ン処理を行う従来のＣＰＵは、ＲＯＭ１０やＲＡＭ１２
等のメモリのデータ線に接続されているデータバス２か
ら、該データバス２に接続された入力バス３を介して、
例えばＲＯＭ１０に格納されているプログラム中の命令
を読み込み、その命令を解読するデコーダ部４と、デー
タバス２にデータ入出力用の入出力バス６を介して接続
されると共に、デコーダ部４からの制御バス５によって
制御されるデータパス部７とから構成されている。

【０００７】そして、データパス部７は、ＥＸステージ
で論理，算術，シフト演算等を行う演算ユニット７−１
と、演算結果を一時的に格納するレジスタユニット７−
２と、ＲＯＭ１０やＲＡＭ１２等のメモリのアドレス線
に接続されているアドレスバス８へＩＦステージで出力
すべきアドレス値を、保持及びカウントするプログラム
カウンタユニット７−３とを備えている。尚、上記各ユ
ニット７−１，７−２，７−３は、３つのバス１３，１
４，１５により互いに接続されて、データのやり取りが
可能となっている。

【０００８】また、デコーダ部４は、ＩＦステージでＲ
ＯＭ１０からデータバス２に出力された命令を、上記入
力バス３を介し取得して記憶する記憶素子４−１と、こ
の記憶素子４−１に記憶された命令をＩＤステージで解
読するデコーダユニット４−２とを備えている。

【０００９】そして、このようなＣＰＵでは、デコーダ
部４とデータパス部７とが、図示されないシステムクロ
ックに同期して動作し、デコーダ部４が、ＩＦステージ
でＲＯＭ１０から記憶素子４−１に転送・記憶される命
令を、ＩＤステージのときにデコーダユニット４−２に
て解読すると共に、その解読した内容に応じてデータパ
ス部７側の各ユニット７−１，７−２，７−３を制御す
ることで、パイプライン処理の各ステージを制御する。

【００１０】

【発明が解決しようとする課題】ところで、この種のパ
イプライン処理を行う情報処理装置では、ＩＦステージ
の長さ（即ち、ＩＦステージの実行時間）を、プログラ
ムを格納しているメモリの応答速度よりも長い時間に設
定しておく必要がある。即ち、メモリから命令を確実に
読み出すためには、図７に示すように、ＩＦステージの
実行時間Ｔを、アドレスバス８上のアドレスを変化させ
てからデータバス２上のデータが確定するまでの時間以
上に設定しておかなければならない。

【００１１】そして、従来のパイプライン処理では、全
てのステージの長さが同じであり、各ステージの長さ
は、最も時間の長いステージに支配される。従って、従
来の情報処理装置では、情報処理装置の処理速度（つま
り、ＥＸステージの実行間隔）を、プログラムを格納す
るメモリの応答速度以上には高速化することができない
という問題がある。

【００１２】特に、この種の情報処理装置では、一般的
に、ＲＯＭにプログラムが格納され、そのＲＯＭの応答
速度よりも高速の動作クロックで動作することが可能で
あるものの、ＩＦステージ以外の他のステージの時間
を、ＲＯＭの応答速度よりも短く設定することができ
ず、結局、情報処理装置の処理速度をＲＯＭの応答速度
よりも高速化することはできなかったのである。

【００１３】一方、この問題を解決するために、応答速
度が高速なキャッシュメモリを搭載し、低速なＲＯＭと
のアクセス時間を減らすことによって、処理の高速化を
図ることが考えられる。しかしながら、このようなキャ
ッシュメモリを追加すると、装置の規模（チップサイ
ズ）が大きくなってしまうという問題がある。

【００１４】本発明は、こうした問題に鑑みなされたも
のであり、キャッシュメモリを用いることなく、且つ、
プログラムを格納するメモリの応答速度に依存すること
なく、処理速度を高速化することのできる情報処理装置
及びパイプライン処理方法を提供することを目的として
いる。

【００１５】

【課題を解決するための手段、及び発明の効果】上記目
的を達成するため、パイプライン処理を行う本発明の情
報処理装置においては、メモリから１回のアクセスで複
数の命令を読み出せるように、命令セットの基本ビット
長が前記メモリのデータ線のバス幅よりも小さく設定さ
れており、また、前記メモリから命令を読み出す命令読
出ステージ（ＩＦステージ）の実行時間が、他のステー
ジの実行時間よりも長く設定されている。

【００１６】そして、本発明の情報処理装置では、１回
の命令読出ステージで、前記メモリから複数の命令を同
時に読み出し、その読み出した複数の命令の各々を、そ
の命令読出ステージを持つ命令処理サイクルと該命令処
理サイクル以降の命令処理サイクルとで順次解読して実
行すると共に、命令読出ステージを、１回で読み出す命
令の数と同数の命令処理サイクル毎に、且つ、１回で読
み出す命令の数と同数の命令解読ステージ（ＩＤステー
ジ）が存在する期間に亘って実行する。

【００１７】このため、本発明の情報処理装置によれ
ば、応答速度が低いメモリから命令を確実に読み出しつ
つ、命令読出ステージ以外の他のステージの実行時間
を、上記メモリの応答速度よりも短くすることができ
る。よって、従来必要であったキャッシュメモリを用い
ることなく、命令の処理速度を、メモリの応答速度より
も高速化することができる。

【００１８】ところで、この情報処理装置において、命
令読出ステージでメモリから読み出した複数の命令を各
命令処理サイクルの命令解読ステージのときに順次解読
するデコーダ部としては、入力された命令を解読するデ
コーダユニットに加えて、前記メモリから前記データ線
に出力された複数の命令の各々を、互いに並列に入力し
て記憶する複数の記憶手段と、その複数の記憶手段に夫
々記憶された命令を、前記デコーダユニットへ択一的に
切り替えて入力させる切替制御手段とを備えるように構
成すれば、１度に読み出された命令の各々を、確実に順
次解読することができる。

【００１９】この場合、前記切替制御手段が、複数の記
憶手段に夫々記憶された命令を、プログラムカウンタの
値に応じて、前記デコーダユニットへ択一的に切り替え
て入力させるようにすれば、簡単な構成で複数の命令の
各々を確実に解読することができる。

【００２０】また更に、デコーダ部にダミー命令供給手
段を設け、そのダミー命令供給手段が、デコーダユニッ
トにより前回解読された命令（即ち、前回の命令解読ス
テージで解読された命令）と今回解読された命令（即
ち、今回の命令解読ステージで解読された命令）とが特
定の関係にある場合に、デコーダユニットにより今回解
読された命令に代えて、処理に影響を及ぼさないダミー
命令を、当該情報処理装置の命令実行部（図８のデータ
パス部７に相当）へ出力するように構成すれば、より効
果的である。

【００２１】例えば、前回解読された命令が、ＲＯＭや
ＲＡＭ等からデータを読み出す所謂ロード命令であり、
今回解読された命令が、そのロード命令の実行により読
み出されるデータを用いて処理を行う命令であった場合
には、少なくとも、前回解読されたロード命令に基づく
ＭＡ（メモリアクセス）ステージの処理が完了してから
でないと、今回解読された命令に基づくＥＸ（命令実
行）ステージの処理を行うことができないこととなる。

【００２２】そこで、ダミー命令供給手段を設ければ、
上記例のような場合に、デコーダユニットにより今回解
読された本来の命令に代えて、処理に影響を及ぼさない
ダミー命令を、当該情報処理装置の命令実行部へ出力し
て、その回の命令処理サイクルのＥＸステージ以降の各
ステージでダミー命令を実行させることができる。この
ため、その後の命令処理サイクルのＥＸステージであっ
て、前回解読されたロード命令に基づくＭＡステージの
処理が完了した後のＥＸステージで、上記本来の命令を
実行させることができるようになり、様々な組み合せの
命令を確実に実行することができるようになるのであ
る。

【００２３】尚、本発明の情報処理装置において、前記
メモリから１回の命令読出ステージで読み出される命令
の数を、２のｎ乗（但しｎは自然数）に設定しておけ
ば、特に効果的である。つまり、通常、命令セットの基
本ビット長と、メモリのデータ線のバス幅とは、８ビッ
ト，１６ビット，３２ビット，６４ビット，…といった
具合に、２の階乗ビットであるため、１回で読み出され
る命令の数を２のｎ乗に設定しておくことにより、メモ
リのデータ線を有効に活用することができる。

【００２４】一方、本発明のパイプライン処理方法は、
メモリから１回のアクセスで複数の命令を読み出せるよ
うに、命令セットの基本ビット長を前記メモリのデータ
線のバス幅よりも小さく設定しておくと共に、前記メモ
リから命令を読み出す命令読出ステージの実行時間を、
他のステージの実行時間よりも常に長く、且つ、１回の
命令読出ステージで、前記メモリから複数の命令を同時
に読み出すようにし、更に、１回の命令読出ステージで
読み出した複数の命令の各々を、その命令読出ステージ
を持つ命令処理サイクルと該命令処理サイクル以降の命
令処理サイクルとで順次解読して実行すると共に、命令
読出ステージを、１回で読み出す命令の数と同数の命令
処理サイクル毎に、且つ、１回で読み出す命令の数と同
数の命令解読ステージが存在する期間に亘って実行する
ことにより、実施することができる。

【００２５】そして、このパイプライン処理方法を実施
すれば、前述したように、応答速度が低いメモリから命
令を確実に読み出しつつ、命令読出ステージ以外の他の
ステージの実行時間をメモリの応答速度よりも短くで
き、キャッシュメモリを用いることなく、命令の処理速
度を高速化することができる。

【００２６】

【発明の実施の形態】以下、本発明の実施形態について
図面を用いて説明する。尚、本発明の実施形態は、下記
のものに何ら限定されることなく、本発明の技術的範囲
に属する限り、種々の形態を採り得ることは言うまでも
ない。

【００２７】［第１実施形態］まず、図１は、第１実施
形態のＣＰＵで行われるパイプライン処理の流れを表す
タイムチャートであり、図２は、図１のパイプライン処
理を行うＣＰＵの構成を表すブロック図である。

【００２８】図２に示すように、本第１実施形態のＣＰ
Ｕでは、ＲＯＭ１０及びＲＡＭ１２のデータ線１０ｄ，
１２ｄと、そのデータ線１０ｄ，１２ｄに接続されたデ
ータバス２とのバス幅が、３２ビットであるのに対し
て、ＲＯＭ１０に格納されたプログラムの命令セットの
基本ビット長が１６ビットに設定されており、ＲＯＭ１
０に対する１回のリードアクセスで２つの命令を同時に
読み出すことが可能となっている点、及び、デコーダ部
４が、２つの記憶素子４−１ａ，４−１ｂと切替ユニッ
ト４−３を備えている点で、図８に示した従来のものと
大きく相違している。

【００２９】尚、図３に示すように、本第１実施形態に
おけるＲＯＭ１０のメモリ構成は、１つのアドレスが１
６ビットのデータに対応すると共に、所謂リトルエンデ
ィアンとなっている。そして、ＲＯＭ１０は、ＣＰＵか
らアドレスバス８へ、アドレスＮ（Ｎは偶数）が出力さ
れると、そのアドレスＮに対応する１６ビットデータと
アドレスＮ＋１に対応する１６ビットデータとの、合計
３２ビットのデータをデータバス２へ出力するようにな
っている。

【００３０】そして、図２に示すように、本第１実施形
態のＣＰＵでは、データバス２からデコーダ部４への入
力バス３が、デコーダ部４の内部において、上位１６ビ
ットと下位１６ビットとの２本に分割されており、その
分割された２本の入力バス３ａ，３ｂが、２つの記憶素
子４−１ａ，４−１ｂに夫々入力されている。

【００３１】よって、記憶素子４−１ｂには、ＲＯＭ１
０からデータバス２の下位１６ビットに出力された命令
が記憶され、記憶素子４−１ａには、ＲＯＭ１０からデ
ータバス２の上位１６ビットに出力された命令、即ち、
記憶素子４−１ｂに記憶される命令の次に実行されるべ
き命令が記憶される。

【００３２】そして更に、デコーダ部４では、各記憶素
子４−１ａ，４−１ｂに夫々記憶された１６ビットの命
令が切替ユニット４−３に入力され、この切替ユニット
４−３が、プログラムカウンタユニット７−３から制御
線９を介して入力される切替信号応じて、上記２つの記
憶素子４−１ａ，４−１ｂに記憶された命令のうちの何
れか一方を、デコーダユニット４−２に入力させて解読
させる。

【００３３】また、本第１実施形態のＣＰＵでは、図１
に示すように、ＩＤステージ，ＥＸステージ，ＭＡステ
ージ，及びＷＢステージの各実行時間がシステムクロッ
ク１つ分の時間となっているのに対して、ＩＦステージ
の実行時間Ｔはシステムクロック２つ分の時間となって
いる。そして、ＩＦステージの実行時間Ｔは、図７，８
に示した従来例の場合と同じ時間である。

【００３４】つまり、ＩＦステージの実行時間Ｔは、前
述したようにＲＯＭ１０の応答速度によって決まるた
め、本実施形態のものと従来例のものとで同じである
が、本第１実施形態のＣＰＵでは、ＩＦステージ以外の
他のステージの実行時間が、ＩＦステージの実行時間Ｔ
の半分の時間（Ｔ／２）に設定されているのである。換
言すれば、本第１実施形態のＣＰＵでは、その動作クロ
ックの周波数を、従来装置に対して２倍にしている。

【００３５】この第１実施形態のＣＰＵにおいては、基
本的に、システムクロック（ＣＰＵ動作クロック）が立
ち上がる毎に、プログラムカウンタユニット７−３で保
持されるアドレス値が１インクリメントされ、そのアド
レス値が偶数になる毎に、プログラムカウンタユニット
７−３からアドレスバス８へ、そのアドレス値が出力さ
れる。

【００３６】すると、そのアドレスバス８上のアドレス
値に応答して、ＲＯＭ１０がデータバス２へ３２ビット
分の２つの命令を出力することとなり、その後、図１に
おける「データバス」の行に示すように、データバス２
上のデータが確定すると見なされるタイミング（本実施
形態では、アドレスバス８へアドレスを出力してからシ
ステムクロックが２回目に立ち下がったタイミング）
で、前述したように、ＲＯＭ１０からデータバス２の下
位１６ビットに出力された最初に実行されるべき命令が
記憶素子４−１ｂに記憶されると共に、ＲＯＭ１０から
データバス２の上位１６ビットに出力された次に実行さ
れるべき命令が記憶素子４−１ａに記憶される。

【００３７】そして、このようなシステムクロック２つ
分毎の動作によって、ＩＦステージの動作が実現され
る。一方、デコーダ部４においては、切替ユニット４−
３が、プログラムカウンタユニット７−３で保持される
アドレス値が偶数になる毎に、記憶素子４−１ｂに記憶
されている命令をデコーダユニット４−２に解読させ、
また、プログラムカウンタユニット７−３で保持される
アドレス値が奇数になる毎に、記憶素子４−１ａに記憶
されている命令をデコーダユニット４−２に解読させ、
これによってＩＤステージの動作が実現される。

【００３８】そして、システムクロックが立ち上がる毎
に、データパス部７の演算ユニット７−１が、システム
クロックの前回の立ち上り時にデコーダユニット４−２
で解読された命令に応じてレジスタ間演算を行い、これ
によってＥＸステージの動作が実現される。また、この
ＥＸステージでの演算結果に応じて、データパス部７の
各ユニット７−１，７−２，７−３が動作して、ＭＡス
テージ及びＷＢステージの動作が実現される。

【００３９】よって、本第１実施形態のＣＰＵにて行わ
れるパイプライン処理では、図１に示すように、ｎ番目
の命令処理サイクルのＩＦステージｉｆn でＲＯＭ１０
からｎ番目とｎ＋１番目の命令を同時に読み出し、その
命令処理サイクルのＩＤステージｉｄn で上記ｎ番目の
命令を解読して、続くＥＸステージｅｘn で上記ｎ番目
の命令に基づく演算を行い、ｎ番目の命令処理サイクル
のＥＸステージｅｘnで演算を行っているときに、ｎ＋
１番目の命令処理サイクルのＩＤステージｉｄn+1 で上
記ｎ＋１番目の命令を解読して、続くＥＸステージｅｘ
n+1 で上記ｎ＋１番目の命令に基づく演算を行い、一
方、ｎ番目の命令処理サイクルのＩＤステージｉｄn と
ｎ＋１番目の命令処理サイクルのＩＤステージｉｄn+1
との期間に亘って、ｎ＋２番目の命令処理サイクルのＩ
Ｆステージｉｆn+2 でＲＯＭ１０からｎ＋２番目とｎ＋
３番目の命令を同時に読み出す、といった処理を繰り返
すこととなる。

【００４０】以上詳述したように、本第１実施形態のＣ
ＰＵでは、ＲＯＭ１０から１回のアクセスで２つの命令
を読み出せるように、命令セットの基本ビット長をＲＯ
Ｍ１０のデータ線１０ｄのバス幅の半分に設定してお
き、また、ＩＦステージの実行時間Ｔを他のステージの
実行時間の２倍に設定している。そして更に、１回のＩ
Ｆステージで、ＲＯＭ１０から２つの命令を同時に読み
出し、その読み出した２つの命令の各々を、そのＩＦス
テージを持つ命令処理サイクルとその次の命令処理サイ
クルとで順次解読して実行すると共に、ＩＦステージ
を、２つの命令処理サイクル毎に、且つ、２つのＩＤス
テージが存在する期間に亘って実行するようにしてい
る。

【００４１】このため、本第１実施形態ＣＰＵによれ
ば、ＩＦステージの実行時間Ｔを従来例と同様の値に設
定して、応答速度が低いＲＯＭ１０から命令を確実に読
み出すことができるようにしつつ、ＩＦステージ以外の
他のステージの実行時間を、ＩＦステージの半分の時間
（Ｔ／２）にすることができる。よって、命令の処理速
度、即ちＥＸステージの実行間隔を、従来必要であった
キャッシュメモリを用いることなく、ＲＯＭ１０の応答
速度よりも高速化することができる。

【００４２】尚、上記第１実施形態は、命令セットの基
本ビット長が１６ビットであり、データバス２のバス幅
が３２ビットのものであったが、例えば、命令セットの
基本ビット長が３２ビットであれば、データバス２のバ
ス幅を６４ビットに設定することにより、全く同様の効
果を得ることができる。

【００４３】一方、第１実施形態のＣＰＵは、１回のＩ
ＦステージでＲＯＭ１０から２つの命令を同時に読み出
すものであったが、同時に読み出す命令の数は２つに限
るものではない。［第２実施形態］そこで次に、第２実施形態として、１
回のＩＦステージでＲＯＭ１０から４つの命令を同時に
読み出す場合について説明する。

【００４４】まず図４は、第２実施形態のＣＰＵで行わ
れるパイプライン処理の流れを表すタイムチャートであ
る。そして、特に図示はしていないが、図４のパイプラ
イン処理を行うＣＰＵの構成としては、第１実施形態の
ＣＰＵに対して、主に以下の（１）〜（５）の点が異な
っている。

【００４５】（１）命令セットの基本ビット長は第１実
施形態の場合と同じ１６ビットであるが、ＲＯＭ１０及
びＲＡＭ１２のデータ線１０ｄ，１２ｄと、そのデータ
線１０ｄ，１２ｄに接続されたデータバス２とのバス幅
が、６４ビットに設定されており、ＲＯＭ１０に対する
１回のリードアクセスで４つの命令を同時に読み出すこ
とが可能となっている。

【００４６】尚、図５に示すように、本第２実施形態に
おけるＲＯＭ１０のメモリ構成も、第１実施形態の場合
と同様に、１つのアドレスが１６ビットのデータに対応
すると共に、所謂リトルエンディアンとなっている。そ
して、ＲＯＭ１０は、ＣＰＵからアドレスバス８へ、ア
ドレスＮ（Ｎは４で割り切れる整数）が出力されると、
そのアドレスＮに対応する１６ビットデータと、アドレ
スＮ＋１に対応する１６ビットデータと、アドレスＮ＋
２に対応する１６ビットデータと、アドレスＮ＋３に対
応する１６ビットデータとの、合計６４ビットのデータ
をデータバス２へ出力するようになっている。

【００４７】（２）デコーダ部４の記憶素子が２個増加
して４個となっている。そして、データバス２からデコ
ーダ部４への入力バス３が、デコーダ部４の内部におい
て、１６ビット毎の４本に分割されており、その分割さ
れた４本の入力バスが、上記４つの記憶素子に夫々入力
されている。

【００４８】（３）ＩＦステージの実行時間Ｔは、第１
実施形態及び図７，８に示した従来例の場合と同じ時間
であるが、図４に示すように、本第２実施形態では、シ
ステムクロック４つ分の時間となっている。つまり、本
第２実施形態のＣＰＵでは、その動作クロックの周波数
を、従来装置に対して４倍にし、ＩＦステージ以外の他
のステージの実行時間を、ＩＦステージの実行時間Ｔの
４分の１（Ｔ／４）に設定している。

【００４９】（４）第２実施形態のＣＰＵにおいても、
基本的に、システムクロックが立ち上がる毎に、プログ
ラムカウンタユニット７−３で保持されるアドレス値が
１インクリメントされるが、そのアドレス値を４で割っ
た余りが「０」になる毎に、プログラムカウンタユニッ
ト７−３からアドレスバス８へ、そのアドレス値が出力
される。

【００５０】すると、そのアドレスバス８上のアドレス
値に応答して、ＲＯＭ１０がデータバス２へ６４ビット
分の４つの命令を出力することとなり、その後、図４に
おける「データバス」の行に示すように、データバス２
上のデータが確定すると見なされるタイミング（本実施
形態では、アドレスバス８へアドレスを出力してからシ
ステムクロックが４回目に立ち下がったタイミング）
で、ＲＯＭ１０からデータバス２に出力された４つの命
令が、デコーダ部４の４つの記憶素子に夫々並列に記憶
される。

【００５１】（５）デコーダ部４の切替ユニット４−３
は、プログラムカウンタユニット７−３で保持されるア
ドレス値を４で割った余りが「０」になる毎に、アドレ
スバス２上の最下位の命令を記憶する記憶素子内の命令
をデコーダユニット４−２に解読させ、上記余りが
「１」になる毎に、アドレスバス２上の最下位から２番
目の命令を記憶する記憶素子内の命令をデコーダユニッ
ト４−２に解読させ、上記余りが「２」になる毎に、ア
ドレスバス２上の最下位から３番目の命令を記憶する記
憶素子内の命令をデコーダユニット４−２に解読させ、
上記余りが「３」になる毎に、アドレスバス２上の最上
位の命令を記憶する記憶素子内の命令をデコーダユニッ
ト４−２に解読させる。

【００５２】よって、この第２実施形態のＣＰＵにて行
われるパイプライン処理では、図４に示すように、ｎ番
目の命令処理サイクルのＩＦステージで、ＲＯＭ１０か
らｎ番目，ｎ＋１番目，ｎ＋２番目，及びｎ＋３番目の
命令が同時に読み出されて、その４つの命令の各々が、
ｎ番目からｎ＋３番目までの各命令処理サイクルで順次
解読されて実行され、また、ｎ番目の命令処理サイクル
のＩＤステージとｎ＋３番目の命令処理サイクルのＩＤ
ステージとの期間に亘るｎ＋４番目の命令処理サイクル
のＩＦステージで、ＲＯＭ１０からｎ＋４番目，ｎ＋５
番目，ｎ＋６番目，及びｎ＋７番目の命令が同時に読み
出される、といった処理が繰り返されることとなる。

【００５３】そして、このような第２実施形態のＣＰＵ
によれば、前述した第１実施例のＣＰＵに対して、命令
の処理速度を２倍にすることができる。［第３実施形態］次に、第３実施形態のＣＰＵについ
て、図６を用いて説明する。尚、図６は、第３実施形態
のＣＰＵにおけるデコーダ部４の構成を表すブロック図
である。

【００５４】図６に示すように、本第３実施形態のＣＰ
Ｕでは、図２に示した第１実施形態のＣＰＵに対して、
デコーダ部４が、ＮＯＰ命令制御信号格納ブロック４−
４，切替ブロック４−５，及び制御信号選択制御ブロッ
ク４−６を追加して備えている。尚、本第３実施形態で
は、上記追加された３つのブロック４−４，４−５，４
−６がダミー命令供給手段に相当している。

【００５５】ここで、ＮＯＰ命令制御信号格納ブロック
４−４には、命令実行部としてのデータパス部７による
ＥＸステージ，ＭＡステージ，及びＷＢステージの各処
理に影響を及ぼさない、ダミー命令としてのＮＯＰ（no
n operation ）命令を解読したコード（以下、このコー
ドを改めてＮＯＰ命令制御信号という）が格納されてい
る。そして、ＮＯＰ命令制御信号格納ブロック４−４
は、上記ＮＯＰ命令制御信号を常時出力する。

【００５６】また、切替ブロック４−５は、デコーダユ
ニット４−２によって解読された本来の命令制御信号
と、ＮＯＰ命令制御信号格納ブロック４−４から出力さ
れる上記ＮＯＰ命令制御信号との何れか一方を、制御信
号選択制御ブロック４−６からの選択信号に応じて選択
し、その選択した方の命令制御信号をデータパス部７へ
制御バス５を介して出力する。

【００５７】そして、制御信号選択制御ブロック４−６
は、デコーダユニット４−２により前回解読された命令
（即ち、前回のＩＤステージで解読された命令）と今回
解読された命令（即ち、今回のＩＤステージで解読され
た命令）とが予め定められた特定の関係になければ、デ
コーダユニット４−２により今回解読された命令制御信
号がデータパス部７へ出力されるように、切替ブロック
４−５へ選択信号を出力し、逆に、デコーダユニット４
−２により前回解読された命令と今回解読された命令と
が特定の関係にある場合には、デコーダユニット４−２
により今回解読された命令制御信号に代えて、ＮＯＰ命
令制御信号格納ブロック４−４からのＮＯＰ命令制御信
号がデータパス部７へ出力されるように、切替ブロック
４−５へ選択信号を出力する。

【００５８】このような本第３実施形態のＣＰＵでは、
例えば、前回のＩＤステージでデコーダユニット４−２
により解読された命令が、ＲＯＭ１０やＲＡＭ１２から
データを読み出すロード命令であり、今回のＩＤステー
ジでデコーダユニット４−２により解読された命令が、
前回解読されたロード命令の実行により読み出されるデ
ータを用いて処理を行う命令（以下、ロードデータ使用
命令という）であった場合に、制御信号選択制御ブロッ
ク４−６が、切替ブロック４−５に、ＮＯＰ命令制御信
号格納ブロック４−４からのＮＯＰ命令制御信号をデー
タパス部７へ出力させる。

【００５９】すると、今回のＩＤステージに続くＥＸス
テージ，ＭＡステージ，及びＷＢステージでは、デコー
ダユニット４−２によって解読されたロードデータ使用
命令ではなく、ＮＯＰ命令が実行されることとなる。具
体例を挙げて説明すると、例えば図１のパイプライン処
理において、ｎ番目の命令処理サイクルのＩＤステージ
ｉｄn で解読された命令がロード命令であり、ｎ＋１番
目の命令処理サイクルのＩＤステージｉｄn+1 で解読さ
れた命令がロードデータ使用命令であった場合には、ｎ
＋１番目の命令処理サイクルのＥＸステージ，ＭＡステ
ージ，及びＷＢステージでＮＯＰ命令が実行され、その
ｎ＋１番目の命令処理サイクルでは実質的な処理が行わ
れないこととなる。

【００６０】このため、本第３実施形態のＣＰＵによれ
ば、ロード命令に続くロードデータ使用命令を確実に実
行することができるようになる。即ち、上記具体例の場
合において、仮に、ｎ＋１番目の命令処理サイクルのＥ
Ｘステージｅｘn+1 でロードデータ使用命令に基づく演
算処理を行うようにすると、その時点では、前回のＩＤ
ステージｉｄn で解読されたロード命令に基づくＭＡス
テージの処理（つまり、データの読み出し）が未だ完了
していないため、ロードデータ使用命令を確実に実行す
ることができない。

【００６１】これに対して、本第３実施形態のＣＰＵに
よれば、デコーダ部４に設けたＮＯＰ命令制御信号格納
ブロック４−４，切替ブロック４−５，及び制御信号選
択制御ブロック４−６の作用により、ｎ＋１番目の命令
処理サイクルのＩＤステージｉｄn+1 で、データパス部
７へＮＯＰ命令制御信号が出力され、そのｎ＋１番目の
命令処理サイクルのＥＸステージ，ＭＡステージ，及び
ＷＢステージで、ＮＯＰ命令が実行されるようになるた
め、ロードデータ使用命令の不確実な実行を回避するこ
とができる。

【００６２】そして、ｎ番目の命令処理サイクルのＭＡ
ステージでロード命令に基づくデータの読み出しが完了
した後の、例えばｎ＋２番目の命令処理サイクルのＥＸ
ステージで、上記ロードデータ使用命令を確実に実行さ
せることができるようになるのである。

【００６３】尚、本第３実施形態のＣＰＵにおいては、
データパス部７へＮＯＰ命令制御信号を出力すること
が、命令実行部へダミー命令を出力することに相当して
いる。また、データパス部７へＮＯＰ命令制御信号を出
力する条件としては、前述したものに限らず、デコーダ
ユニット４−２によりＩＤステージで解読された命令を
そのＩＤステージが所属する命令処理サイクルで即座に
実行すると不都合が生じる場合に、データパス部７へＮ
ＯＰ命令制御信号が出力されるようにすれば良い。

【００６４】一方、ＮＯＰ命令制御信号格納ブロック４
−４，切替ブロック４−５，及び制御信号選択制御ブロ
ック４−６は、第１実施形態のＣＰＵだけではなく、第
２実施形態のＣＰＵに対しても全く同様に設けることが
できる。［その他］前述した第１〜第３実施形態のＣＰＵは、１
回のＩＦステージでＲＯＭ１０から２のｎ乗個（但しｎ
は自然数）の命令を同時に読み出すものであったが、そ
れ以外の個数の命令を同時に読み出すようにしても良
い。但し、通常、命令セットの基本ビット長とＲＯＭ１
０やＲＡＭ１２のデータ線１０ｄ，１２ｄのバス幅は２
の階乗ビットであるため、１回で読み出す命令の数を２
のｎ乗個に設定すれば、データ線１０ｄ，１２ｄの全て
を有効に活用できる、という点で有利である。

【００６５】また、前述した第１〜第３実施形態では、
メモリ構成がリトルエンディアンとなっているが、これ
に限られるものではなくビッグエンディアンでも良い。

【図面の簡単な説明】

【図１】第１実施形態のＣＰＵで行われるパイプライ
ン処理の流れを表すタイムチャートである。

【図２】第１実施形態のＣＰＵの構成を表すブロック
図である。

【図３】第１実施形態のＲＯＭのメモリ構成を説明す
る説明図である。

【図４】第２実施形態のＣＰＵで行われるパイプライ
ン処理の流れを表すタイムチャートである。

【図５】第２実施形態のＲＯＭのメモリ構成を説明す
る説明図である。

【図６】第３実施形態のＣＰＵにおけるデコーダ部の
構成を表すブロック図である。

【図７】従来例のＣＰＵで行われるパイプライン処理
の流れを表すタイムチャートである。

【図８】従来例のＣＰＵの構成を表すブロック図であ
る。

【符号の説明】

２…データバス３，３ａ，３ｂ…入力バス４…
デコーダ部４−１，４−１ａ，４−１ｂ…記憶素子４−２…デ
コーダユニット４−３…切替ユニット５…制御バス６…入出力
バス７…データパス部７−１…演算ユニット７−２
…レジスタユニット７−３…プログラムカウンタユニット８…アドレス
バス９…制御線１０…ＲＯＭ１２…ＲＡＭ１０ｄ，１２ｄ…デ
ータ線４−４…ＮＯＰ命令制御信号格納ブロック４−５…
切替ブロック４−６…制御信号選択制御ブロック

───────────────────────────────────────────────────── フロントページの続き (72)発明者田中裕章愛知県刈谷市昭和町１丁目１番地株式会社デンソー内 (56)参考文献特開平５−165636（ＪＰ，Ａ) 特開平１−213719（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】演算機能を複数種類のステージに分け、
並列して異なるステージの処理を行うことにより、複数
の命令処理サイクルを部分的に重複したタイミングで実
行するようにしたパイプライン処理を行う情報処理装置
において、メモリから１回のアクセスで複数の命令を読み出せるよ
うに、命令セットの基本ビット長が前記メモリのデータ
線のバス幅よりも小さく設定されていると共に、前記メモリから命令を読み出す命令読出ステージの実行
時間が、他のステージの実行時間よりも常に長く、且
つ、１回の命令読出ステージで、前記メモリから複数の
命令を同時に読み出すように構成され、更に、前記１回の命令読出ステージで読み出した複数の
命令の各々を、当該命令読出ステージを持つ命令処理サ
イクルと該命令処理サイクル以降の命令処理サイクルと
で順次解読して実行すると共に、前記命令読出ステージ
は、前記１回で読み出す命令の数と同数の命令処理サイ
クル毎に、且つ、前記１回で読み出す命令の数と同数の
命令解読ステージが存在する期間に亘って実行されるこ
と、を特徴とする情報処理装置。
【請求項２】請求項１に記載の情報処理装置におい
て、前記命令読出ステージで前記メモリから読み出した複数
の命令を、前記各命令処理サイクルの命令解読ステージ
のときに順次解読するデコーダ部は、前記メモリから前記データ線に出力された複数の命令の
各々を、互いに並列に入力して記憶する複数の記憶手段
と、入力された命令を解読するデコーダユニットと、前記複数の記憶手段に夫々記憶された命令を、前記デコ
ーダユニットへ択一的に切り替えて入力させる切替制御
手段と、を備えていることを特徴とする情報処理装置。
【請求項３】請求項２に記載の情報処理装置におい
て、前記切替制御手段は、前記複数の記憶手段に夫々記憶さ
れた命令を、プログラムカウンタの値に応じて、前記デ
コーダユニットへ択一的に切り替えて入力させるように
構成されていること、を特徴とする情報処理装置。
【請求項４】請求項２又は請求項３に記載の情報処理
装置において、前記デコーダ部は、前記デコーダユニットにより前回解読された命令と今回
解読された命令とが特定の関係にある場合に、前記デコ
ーダユニットにより今回解読された命令に代えて、処理
に影響を及ぼさないダミー命令を、当該情報処理装置の
命令実行部へ出力するダミー命令供給手段を備えている
こと、を特徴とする情報処理装置。
【請求項５】請求項１ないし請求項４の何れかに記載
の情報処理装置において、前記メモリから１回の命令読出ステージで読み出される
命令の数は、２のｎ乗（但しｎは自然数）であること、を特徴とする情報処理装置。
【請求項６】演算機能を複数種類のステージに分け、
並列して異なるステージの処理を行うことにより、複数
の命令処理サイクルを部分的に重複したタイミングで実
行するパイプライン処理方法において、メモリから１回のアクセスで複数の命令を読み出せるよ
うに、命令セットの基本ビット長を前記メモリのデータ
線のバス幅よりも小さく設定しておくと共に、前記メモリから命令を読み出す命令読出ステージの実行
時間を、他のステージの実行時間よりも常に長く、且
つ、１回の命令読出ステージで、前記メモリから複数の
命令を同時に読み出すようにし、更に、前記１回の命令読出ステージで読み出した複数の
命令の各々を、当該命令読出ステージを持つ命令処理サ
イクルと該命令処理サイクル以降の命令処理サイクルと
で順次解読して実行すると共に、前記命令読出ステージ
を、前記１回で読み出す命令の数と同数の命令処理サイ
クル毎に、且つ、前記１回で読み出す命令の数と同数の
命令解読ステージが存在する期間に亘って実行するこ
と、を特徴とするパイプライン処理方法。