JP3515018B2

JP3515018B2 - パイプライン形データ処理装置

Info

Publication number: JP3515018B2
Application number: JP20252799A
Authority: JP
Inventors: 篤史毛利; 朗山田; 清中木村
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-07-16
Filing date: 1999-07-16
Publication date: 2004-04-05
Anticipated expiration: 2019-07-16
Also published as: JP2001034473A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、処理時間または実
行ステップを更に短縮したパイプライン構造を持つデー
タ処理装置に関するものである。

【０００２】

【従来の技術】近年マイクロプロセッサは、動作時間の
短縮を図るためにパイプライン処理による命令実行が行
われている。パイプライン処理とは複数の命令を直列に
送り込み、処理を複数過程で順次分担する形式であり、
結果的に命令をオーバラップさせて同時実行する技術で
ある。詳細に述べると、１個の命令の処理過程を複数の
小さな処理過程（パイプライン・ステージ）に分割す
る。各ステージが順に接続されて１本のパイプラインを
形成し、命令がパイプの一端から入って複数のステージ
を進み、最後に処理結果がパイプのもう一方の端から出
て行く。このパイプラインの単位時間当りの処理性能
は、最も遅いステージの処理時間により決まる。そのた
め通常は各ステージの処理時間が均一になるように設計
されている。Ｎステージからなるパイプライン処理で
は、パイプライン処理されない場合に比較して、理想的
にはＮ倍の処理性能を達成することが可能である。

【０００３】図６は、第１の従来例としての最も典型的
なパイプライン形式のデータ処理装置であるマイクロプ
ロセッサのブロック図である。このデータ処理装置は、
命令フェッチステージ（ＩＦステージ）、解読及びレジ
スタ読出しステージ（ＤＥＣステージ）、演算及びオペ
ランドアドレス計算ステージ（ＥＸステージ）、メモリ
アクセスステージ（ＭＥＭステージ）、レジスタ書き戻
しステージ（ＷＢステージ）の５つのステージから構成
される５段のパイプライン構造を成している。図におい
て、１００は機械語プログラムを格納するＲＯＭ、１０
１はＲＯＭ１００から取り出した機械語命令を格納する
Ｉラッチ、１０２はＩラッチ１０１に保持された命令を
解読しマイクロプロセッサの各部を制御する命令解読
器、１０３はオペランドまたはオペランドを指定するた
めのアドレスを格納するレジスタファイル、１１１はＩ
ラッチ１０１の内容の一部とレジスタファイル１０３の
出力との２入力から１つを選択するＤセレクタ、１０４
はＤセレクタ１１１の出力を格納するＤ１ラッチ、１０
５はレジスタファイル１０３の出力を格納するＤ２ラッ
チ、１０６はＤ１ラッチ１０４及びＤ２ラッチ１０５の
内容を用いて算術論理演算等を行う演算器、１０７は演
算器１０６の出力を格納するＥラッチ、１０８はＥラッ
チ１０７の値をアドレス入力としてデータが読み出され
るＲＡＭ、１１２はＥラッチ１０７の値とＲＡＭ１０８
の出力との２入力から１つを選択するＭセレクタ、１０
９はＭセレクタ１１２の出力の下位８ビットまたは下位
１６ビットを３２ビットへゼロ拡張または符号拡張する
拡張器、１１０は拡張器１０９の出力を格納するＭラッ
チである。ＲＯＭ１００とＩラッチ１０１と命令解読器
１０２とを除く全ての構成要素の入出力は３２ビット幅
を有する。

【０００４】以上のように構成された従来のデータ処理
装置は、８ビットまたは１６ビットのデータをロードし
て３２ビットにゼロ拡張または符号拡張してレジスタに
格納するアセンブリ言語プログラム中の指示に対して、
それぞれ単一の機械語命令が割り当てられている。これ
ら命令は、命令解読器１０２で解読され、ＭＥＭステー
ジにおいて次のように実行される。すなわち、これら命
令で指定された８ビットまたは１６ビットデータがＲＡ
Ｍ１０８から読み出され、さらに拡張器１０９により３
２ビット長にゼロ拡張または符号拡張され、レジスタフ
ァイル１０３にその結果が格納される。前述したよう
に、パイプラインの単位時間当りの処理性能は、最も遅
いステージの処理時間により決まる。そのためマイクロ
プロセッサの処理性能を向上させるためには、パイプラ
インの各ステージの処理時間がほぼ均等でかつできるだ
け短いことが要求される。しかしながら図６に示す従来
のデータ処理装置では、ＭＥＭステージの処理時間が、
ＲＡＭ１０８のアクセス時間と、Ｍセレクタ１１２の遅
延時間と、拡張器１０９の遅延時間と、Ｍラッチ１１０
のセットアップ時間と、それらの間の配線における伝播
遅延時間とにより、他のステージより処理時間が長くな
りがちである。即ち拡張器は内部の詳細構成として多段
のゲート構造を持ち従ってハードウェア縦続接続数が多
くなって遅延時間が長くなる。その結果、動作クロック
周波数の上限が、ＭＥＭステージの処理時間によって低
く抑えられて、性能向上のための足かせとなっている。
またＭＥＭステージでの処理時間を他のステージの処理
時間とほぼ均等にするためには、アクセス時間の短い高
速ＲＡＭの実装が要求され、結果としてコストや消費電
力が増大するという問題点も有していた。

【０００５】この問題を解決するために、第２の従来例
としての特開平９−２６９８９５号公報の『データ処理
装置』では、複数のパイプラインステージを並列にパイ
プライン処理するデータ処理装置が提案されている。こ
れは、レジスタ長より短いデータを記憶部から読み出す
第１処理と、このデータをレジスタ長にゼロ拡張または
符号拡張してレジスタに格納する第２処理とを指示する
拡張付きロード命令対して、第１処理が実行されるパイ
プラインステージと異なるパイプラインステージで、第
２処理を実行する構成となっている。図７に特開平９−
２６９８９５号公報の『データ処理装置』によるマイク
ロプロセッサの構成ブロック図を示す。図において、機
械語プログラムを格納するＲＯＭ１００、機械語命令を
格納するＩラッチ１０１の他に、１２０のＩラッチ１０
１に保持された命令を解読しマイクロプロセッサの各部
を制御する命令解読器がある。オペランドまたはオペラ
ンドを指定するためのアドレスを格納する。レジスタフ
ァイル１０３は、主にオペランドデータを格納するデー
タレジスタＤ０〜３と、主にアドレスを格納するアドレ
スレジスタＡ０〜３から構成されている。１２３はＩラ
ッチ１０１の内容の一部とレジスタファイル１０３の出
力と他の２つとの４入力から１つを選択するＤ１セレク
タ、１２４はレジスタファイル１０３の出力と他の２つ
との３入力から１つを選択するＤ２セレクタ、Ｄ１ラッ
チ１０４と、Ｄ２ラッチ１０５は図６と同じ要素であ
る。

【０００６】算術論理演算等を行う演算器１０６も同様
要素である。１２２はＤ１ラッチ１０４の出力の最下位
から８ビット目もしくは１６ビット目をそれぞれ上位側
の２４ビット及び１６ビットにコピーする符号拡張器で
あり、後で述べるようにＭＥＭステージにおいて動作す
る。１２５は演算器１０６の出力と符号拡張器１２２の
出力との２入力から１つを選択するＥセレクタである。
Ｅラッチ１０７と、ＲＡＭ１０８と、Ｍセレクタ１１２
とＭラッチ１１０と拡張器１０９は図６のそれと同じ要
素である。１２７は、Ｍセレクタ１１２の出力をＤ１セ
レクタ１２３とＤ２セレクタ１２４とに接続するＭＥバ
イパスで、ＷＢステージにおいて動作する。１２６はＷ
Ｅバイパスで、ゼロ拡張器１０９の出力をＤ１セレクタ
１２３とＤ２セレクタ１２４とに接続する。１２１はフ
リップフロップであり、ＭＥバイパス使用禁止フラグを
保持する。このフラグは動作クロック周波数が所定周波
数を越える場合にセットされ、所定周波数以下である場
合にリセットされる。図７に示すマイクロプロセッサの
構成のうち、Ｉラッチ１０１およびレジスタファイル１
０３、Ｄ１ラッチ１０４及びＤ２ラッチ１０５、Ｅラッ
チ１０７、Ｍラッチ１１０は、それぞれステージ間で処
理結果を受け渡すパイプラインレジスタとして設けられ
ている。またＲＯＭ１００とＩラッチ１０１と命令解読
器１２０とＭＥバイパス使用禁止フラグ１２１を除く全
ての構成要素の入出力は３２ビット幅を有するものとす
る。上記ＭＥバイパス１２７及びＷＥバイパス１２６
は、先行する命令のＭＥＭステージ及びＷＢステージ
と、後続する命令のＥＸステージとの間でパイプライン
ステージの一部をパスするバイパス機能を実現するため
に設けられている。

【０００７】命令解読器１２０は、図７の構成において
は、マイクロプロセッサの各部の制御に加えてバイパス
機能を禁止する機能を有する。即ち、命令解読器１２０
は、先行する命令がレジスタファイル１０３のレジスタ
への書込みを伴う命令である場合は、まず後続の命令で
同じレジスタからの読出しを行うか否か（データ依存関
係があるか否か）を検知する。そして、後続命令がこの
レジスタを読み出す命令と解読されると、先行命令のＭ
ＥＭステージまたはＷＢステージの終了を待って後続命
令のＥＸステージを開始する。同時にＤ１セレクタ１２
３及びＤ２セレクタ１２４に対してＭＥバイパス１２７
またはＷＥバイパス１２６を選択するように制御を行
う。但し先行命令が３２ビットデータをロードする命令
でかつＭＥバイパス使用禁止フラグ１２１がセットされ
ている場合はＭＥバイパスを選択しない。さらに、命令
解読器１２０は、ＭＥバイパス使用禁止フラグ１２１が
クリアされている場合は、データ依存関係を検知したと
きにＭＥバイパスを使用するが、セットされている場合
は、データ依存関係を検知したときでも通常通りにイン
ターロックを発生させて、ＭＥバイパスを使用しない。
このようにＭＥバイパス使用を禁止することにより、バ
イパス処理による遅延時間（Ｄ１セレクタ１２３または
Ｄ２セレクタ１２４の遅延時間と配線遅延時間の合計）
の分だけＭＥＭステージの処理時間が短くなり、結果的
にマイクロプロセッサのクロック周波数の向上が期待で
きる。そのかわり、拡張処理の命令は１ステージ以上余
分に時間がかかる。

【０００８】図７のように構成されたデータ処理装置に
ついて以下その動作を説明する。図８はアセンブリ言語
プログラムと、アセンブラによる変換後の機械語プログ
ラムの一例を示す。機械語プログラムは本来０と１のビ
ット列であるが、意味を表すためにアセンブリ言語と同
じニモニック表記してある。矢印は両者の対応関係を示
している。アセンブリ言語プログラム中の指示１から指
示４までは一対一にそのまま機械語プログラムの命令１
から指示まで４に変換されるが、指示５は命令５−１と
命令５−２とに、指示６は命令６−１と命令６−２とに
変換される。指示１から指示６および命令１から命令６
−２の内容は以下の通りである。＜アセンブリ言語プログラム＞指示１：ＭＯＶ＠（Ａ０），Ｄ０（Ａ０レジスタの値が示す番地にある３２ビットデータ
をＤ０レジスタにロードする指示）指示２：ＡＤＤ＃１，Ｄ０（Ｄ０レジスタの値に１を加算して結果をＤ０レジスタ
に格納する指示）指示３：ＭＯＶＢＵ＠（４，Ａ），Ｄ１（Ａ０レジスタの値に４バイトを加えた番地にある８ビ
ットデータをロードして３２ビットに拡張した結果をＤ
１レジスタに格納する指示）指示４：ＳＵＢ＃１，Ｄ０（Ｄ０レジスタ値から１を減算して結果をＤ０レジスタ
に格納する指示）指示５：ＭＯＶＢ＠（８，Ａ０），Ｄ２（Ａ０レジスタの値に８バイトを加えた番地にある８ビ
ットデータをロードして３２ビットに符号拡張した結果
をＤ２レジスタに格納する指示）指示６：ＭＯＶＨ＠（１２，Ａ０），Ｄ３（Ａ０レジスタの値に１２バイトを加えた番地にある１
６ビットデータをロードして３２ビットに符号拡張した
結果をＤ３レジスタに格納する指示）

【０００９】＜機械語プログラム（ニモニック表記）＞命令１：ＭＯＶ＠（Ａ０），Ｄ０（指示１と同じ内容の命令）命令２：ＡＤＤ＃１，Ｄ０（指示２と同じ内容の命令）命令３：ＭＯＶＢＵ＠（４，Ａ），Ｄ１（指示３と同じ内容の命令）命令４：ＳＵＢ＃１，Ｄ０（指示４と同じ内容の命令）命令５−１：ＭＯＶＢＵ＠（８，Ａ０），Ｄ２（Ａ０レジスタの値に８バイトを加えた番地にある８ビ
ットデータをロードして３２ビットにゼロ拡張した結果
をＤ２レジスタに格納する指示）命令５−２：ＥＸＴＢＤ２（Ｄ２レジスタの値の下位８ビットを３２ビットに符号
拡張した結果をＤ２レジスタに格納する命令）命令６−１：ＭＯＶＨ＠（１２，Ａ０），Ｄ３（Ａ０レジスタの値に１２バイトを加えた番地にある１
６ビットデータをロードして３２ビットにゼロ拡張した
結果をＤ２レジスタに格納する指示）命令６−２：ＥＸＴＨＤ３（Ｄ３レジスタの値の下位１６ビットを３２ビットに符
号拡張した結果をＤ３レジスタに格納する命令）このように、アセンブリ言語プログラムにおける、８ビ
ットまたは１６ビットのデータをロードして符号拡張す
る指示は、ロードしてゼロ拡張する命令と符号拡張する
命令とに変換される。

【００１０】次にＭＥバイパス使用禁止フラグ１２１が
セットされている場合の図８に示す命令の動作タイミン
グを図９に示す。図９に示すように、命令１と命令２間
のレジスタＤ０のデータ依存は、ＭＥバイパスが使用禁
止であるため、代わりにＷＥバイパスを使用することに
より１タイミング延びて（ｔ５１，ｔ５２と２タイミン
グかかる）いる。また命令２と命令４間のレジスタＤ０
のデータ依存は、命令２が３２ビットデータをロードす
る命令でないためにＭＥバイパス使用禁止フラグ１２１
がセットされていてもＭＥバイパスの使用が可能であ
る。そのためタイミングｔ６，ｔ７間でＭＥバイパスに
よるデータの受け渡しが行われ、パイプラインが乱れる
ことなく処理が進行する。また命令５−１と命令５−２
間と、命令６−１と命令６−２間のレジスタＤ２、Ｄ３
によるデータ依存は、命令５−１及び命令６−１のＷＢ
ステージでゼロ拡張を行った後に、このデータをＷＥバ
イパスで次命令の命令５−２，６−２のＥＸステージに
それぞれバイパス処理している。この処理により２タイ
ミング期間分パイプライン処理が余分にかかっている。

【００１１】このように図７の構成では、ゼロ拡張器１
０９による拡張を、ＭＥＭステージではなくてＷＢステ
ージで行っている。ＷＢステージはレジスタファイル１
０３への格納を行っているだけなので、遅延時間が比較
的小さいゼロ拡張器が加わっても他のステージと比べて
処理時間が短く抑えられる。その上、ＲＡＭ１０８から
読み出したデータを後続の命令で使う場合でも、レジス
タファイル１０３に格納された後にＤＥＣステージで読
み出すのと比べると、ＭＥＭステージまたはＷＥステー
ジの結果からＭＥバイパスとＷＥバイパス及びＤ１セレ
クタ１２３とＤ２セレクタ１２４を経由してこのデータ
を得るバイパス構造のために、８ビットまたは１６ビッ
トデータの読出し後の使用については１タイミング、最
も使用頻度の高い３２ビットデータの読出し後の使用に
ついては１または２タイミング分のパイプラインインタ
ーロックを短縮することができる。さらに、ＭＥバイパ
ス使用禁止フラグ１２１をセットすることで、Ｄ１セレ
クタ１２３、Ｄ２セレクタ１２４の遅延時間がＭＥＭス
テージに入り込まないように指定でき、ＭＥＭステージ
の処理時間を短縮して、従ってマイクロプロセッサの動
作周波数を高くできる。即ち、１タイミングの時間を短
縮するために拡張器の配置を移し、かつバイパスを設け
たかわりに命令の作成、最適化という他のやっかいな作
業が必要となってしまう。更に１タイミング（ステー
ジ）の処理時間は短くできても、命令を分割したために
命令の実行完了までのステージ数が増加し、少なくとも
２命令の実行、更にはインターロック等で図９では命令
５と６は４ステージかかっている。

【００１２】さらに特開平９−２６９８９５号公報の
『データ処理装置』では、ＷＢステージのゼロ拡張器の
機能をＥＸステージの符号拡張器に内蔵することも開示
している。またこのＷＢステージのゼロ拡張器を図６の
典型構成と同様に、ＭＥＭステージのＭセレクタの直後
に配置することも開示している。前者はゼロ拡張を伴う
ロード命令をアセンブラによりロード命令とゼロ拡張命
令に分割し、ＲＡＭのアクセスと拡張器による拡張処理
を単一命令において直列に動作させる必要がなくなる。
後者はＭＥＭステージで直列に動作させる必要があるの
はＲＡＭのアクセスと遅延時間が比較的小さいゼロ拡張
器だけに限定される。

【００１３】

【発明が解決しようとする課題】従来のパイプライン・
データ処理装置は上記のように構成されており、処理タ
イミングの短縮はできるが、ゼロ及び符号拡張処理付き
ロード命令をアセンブラ及びコンパイラで２命令に分割
する必要があるという課題があった。さらにパイプライ
ンの待ち時間を最小にするための命令列の最適化処理も
必要であるという課題があった。これらアセンブラ及び
コンパイラの機能改訂は、プロセッサ開発に影響が大き
く、また、命令の並びが最適化されずにこの分割された
２命令が連続する場合は、この２命令間で２タイミング
のパイプラインの待ち時間が図９の命令５、６のように
発生してしまうという課題があった。

【００１４】本発明は上記の課題を解決するためになさ
れたもので、命令列の変更なしにゼロ及び符号拡張処理
付きロード命令の処理をハードウェアの構成の工夫のみ
で高速化した、パイプライン構造を有するデータ処理装
置を得ることを目的とする。

【００１５】

【課題を解決するための手段】この発明に係るパイプラ
イン形データ処理装置は、処理ステージを縦続接続して
パイプライン処理する構成において、演算及びオペラン
ドアクセスを行うステージを同一ステージとし、かつ該
ステージに他ステージへも出力を帰還バイパス可能な拡
張器を備えて、命令がオペランドアクセスのステージで
読み出されたデータの拡張不要であることを示している
場合は、上記拡張器内に設けたバイパスを使用して必要
に応じて帰還するようにした。

【００１６】また更に、命令実行が拡張を必要としない
場合、またはゼロ拡張のみの場合には、後続命令が必要
とするデータを帰還バイパスするようにした。

【００１７】

【発明の実施の形態】実施の形態１．パイプライン形の
データ処理装置では、命令実行後にゼロ拡張または符号
拡張が必要であれば拡張を行う構成が最も自然であり、
従って完了までの実効ステージ数が少ない。一方、この
実行形式を素直にハードウェア構成で実現すると、拡張
器での遅れ時間が大きくなり、これを見込んだ１ステー
ジでの処理時間が長くなる。本実施の形態では、この矛
盾を拡張器内のバイパスと、ステージ間のバイパスとで
解決した構成を説明する。即ち必要なデータを記憶部か
ら読み出すロード処理と、読み出された短いデータをゼ
ロまたは符号拡張する拡張処理を同一のステージにする
素直な構成とし、しかし次命令以降にデータ依存性があ
れば処理済みのステージからインターロックを短縮する
バイパス経路を設けたハードウェア構成とした。図１に
本実施の形態におけるパイプライン形データ処理の構成
ブロック図を示す。このデータ処理装置は、命令フェッ
チステージ（ＩＦステージ）、解読及びレジスタ読出し
ステージ及びオペランドアドレス生成を行うステージ
（Ｄ／Ａステージ）、演算及びオペランドアクセスを行
うステージ（Ｅ／Ｍステージ）、レジスタ書き戻しステ
ージ（Ｗステージ）の４つのステージから構成される４
段のパイプライン構造としている。

【００１８】図１において、１は機械語プログラムを格
納する命令ＲＡＭ、２０は命令ＲＡＭ１の出力とＩ２ラ
ッチからのフィードバック経路の２入力から１つを選択
するセレクタ、２はセレクタ２０の出力を格納するＤラ
ッチ、３ａはセレクタ２０から出力される命令をＩＦス
テージのうちに解読してマイクロプロセッサの各部を制
御する命令先行解読器、３ｂはＤラッチ２に保持された
命令を解読しマイクロプロセッサの各部を制御する命令
解読器、５はオペランドまたはオペランドを指定するた
めのアドレスを格納するレジスタファイルであり３２ビ
ット幅のレジスタを６４本内蔵している。４はＤラッチ
２の出力を保持するラッチであり出力はセレクタ２０に
接続されている。６はＤラッチの内容の一部とレジスタ
ファイル５の出力からオペランドアドレスを生成するた
めのアドレス生成部、７はアドレス生成部６の出力を保
持するためのＭラッチ、２１はＤラッチ２の内容の一部
とレジスタファイル５の出力と他の４つのバイパス入力
から１つを選択するセレクタ、２２はレジスタファイル
５と他の４つのバイパス入力から１つを選択するセレク
タ、８はセレクタ２１の出力を保持するＥ１ラッチ、９
はセレクタ２２の出力を保持するＥ２ラッチである。１
０はＭラッチの値をアドレス入力としてデータが読み出
されるＲＡＭ、１１はＲＡＭ１０の出力をゼロまたは符
号拡張する拡張器、１２はＥ１ラッチ８及びＥ２ラッチ
９の内容を用いて演算を行う演算器である。１３は拡張
器１１の出力を格納するＷ１ラッチ、１４は演算器１２
の出力を格納するＷ２ラッチである。Ｗ１ラッチ１３及
びＷ２ラッチ１４の出力は、Ｗステージ中にレジスタフ
ァイル５に格納される。

【００１９】３０は演算器１２の出力をセレクタ２１及
び２２とに接続するバイパスである。３１は拡張器１１
の出力をセレクタ２１及び２２に接続するバイパスであ
る。３２はＷ１ラッチ１３の出力をセレクタ２１及び２
２に接続するバイパスである。３３はＷ２ラッチの出力
をセレクタ２１及び２２に接続するバイパスである。図
１では演算器１２を一つしか示していないが実際は複数
の演算器を内蔵しており、それぞれにセレクタ、ラッチ
及びバイパス経路が存在する。そして命令コードは２命
令並列演算に対応しており１つの演算器を動作させるサ
ブ命令が２つで一つの６４ビット単一命令となってい
る。そのため命令ＲＡＭ１の出力、セレクタ２０、Ｄラ
ッチ及びＩ２ラッチは６４ビットの命令長に対応してい
る。またデータＲＡＭ１０の出力も６４ビットデータに
対応しており、拡張器１１、Ｗ１ラッチ、レジスタファ
イルのデータ書き戻し経路、バイパス３１は６４ビット
に対応している。６４ビットデータ経路であるバイパス
３１が接続されているセレクタ２１，２２では、この６
４ビットデータの上位３２ビット及び下位３２ビットの
いずれかが選択されるようになっている。また６４ビッ
トデータ経路であるレジスタファイルへのデータ書き戻
し処理では、６４ビットデータが３２ビットの連続する
レジスタに格納される。

【００２０】図２に命令フォーマットの概要を示す。図
２に示す演算命令フォーマットとロード命令フォーマッ
トは、サブ命令を示しており、これらサブ命令２個が１
セットで６４ビットの単一命令となっている。まず演算
命令フォーマットでは上位側からＯｐｅｃｏｄｅ，ｘ，
Ｒａ，Ｒｂ，ｓｒｃの５つのフィールドに分割されてい
る。Ｏｐｅｃｏｄｅは演算の種類を示すフィールド、ｘ
はモードフィールド、Ｒａはディスティネーションレジ
スタ指定フィールド、Ｒｂはソース１レジスタ指定フィ
ールド、そしてｓｒｃはソース２を指定するフィールド
でありモードフィールドｘの値によってレジスタか即値
が指定される。実動作としてはＲｂ，ｓｒｃで指定され
るソースデータに対して、Ｏｐｅｃｏｄｅで指定する演
算を実行し、Ｒａで指定するディスティネーションに演
算結果を格納する。次にロード命令フォーマットでは、
演算命令フォーマットと同様に上位側からＯｐｅｃｏｄ
ｅ，ｘ，Ｒａ，Ｒｂ，ｓｒｃの５つのフィールドに分割
されている。実動作としては、Ｒｂ，ｓｒｃで指定する
ソースデータを加算しオペランドアドレスを生成し、こ
のオペランドアドレスでＲＡＭのアクセスを行う。ＲＡ
Ｍから読み出されたデータはＯｐｅｃｏｄｅの指定に従
って拡張処理を行い、Ｒａで指定するディスティネーシ
ョンにロードデータを格納する。ロードデータの有効デ
ータが６４ビットである場合には、Ｒａと（Ｒａ＋１）
にデータが格納される。

【００２１】図３に図１に示す本発明の実施の形態によ
るパイプライン処理と、ロード命令と演算命令間でデー
タ干渉が発生した場合のパイプライン処理を示す。図３
のＡ）は図１の実施の形態による４段のパイプラインで
ある。ＩＦ、Ｄ／Ａ、Ｅ／Ｍ、Ｗの４段のパイプライン
ステージがシリアルに実行される。演算命令を実行する
場合はＩＦ→Ｄ→Ｅ→Ｗであり、ロード命令を実行する
場合はＩＦ→Ｄ／Ａ→Ｍ→Ｗである。またレジスタファ
イルの読出しはＩＦステージの後半に実行され、レジス
タファイルの書込みはＷステージの後半に実行される。
そのためもしバイパス経由がなければ、Ｂ）に示すよう
なデータ干渉が発生し、２ステージ分のパイプラインス
トール（パイプラインの待ち時間）が発生する。すなわ
ちＢ）の１）に示す拡張処理を伴わないロード命令ＬＤ
１のＲ１０と、以下データ干渉が発生しているレジスタ
は大文字のＲではじまるよう表示すると、２）に示す加
算命令ＡＤＤのＲ１０間でデータ干渉が発生した場合、
バイパス経路がないため１）のＷステージでレジスタフ
ァイルにデータを書込んだ後に２）のＤステージでレジ
スタファイルからデータを読み出す必要がある。

【００２２】図１のバイパス経由がある場合の動作を説
明する。拡張処理を伴わないロード命令ＬＤ１でデータ
干渉が発生し、これをバイパス経路で回避する場合をＣ
１），Ｃ２）に示す。Ｃ１）ではＢ）の１），２）と同
様なデータ干渉をバイパス経由でデータ転送することに
より、パイプラインストールすることなく処理可能であ
る。しかも先行命令のＭステージの遅れが少ない（拡張
しないので）ので、２）ＡＤＤ命令のＤステージ時にバ
イパスできる。このバイパス経路は図１のバイパス３１
であり、ロード命令Ｃ１）の１）のＭステージから加算
命令２）のＤステージへバイパス処理可能である。また
Ｃ２）では１）のロード命令と３）の加算命令間でデー
タ干渉が発生する場合である。この場合は図１のバイパ
ス３３でロード命令１）のＷステージから加算命令３）
が２つ前のパイプラインのデータが必要と判って拡張が
ないので２つ前のデータをＤステージへバイパス処理可
能であり、Ｃ１）と同様にパイプラインストールが発生
しない。

【００２３】次に拡張処理を伴うロード命令ＬＤ２のデ
ータ干渉発生時の処理をＤ１），Ｄ２）に示す。Ｄ１）
に示すように、ロード命令１）と加算命令２）とが続く
間のデータ干渉をＷ１ラッチに対するインターロックと
バイパス処理により回避している。すなわちロード命令
１）ではバイパス経路３１を禁止する。従ってＭステー
ジで拡張処理部の近くに配置されたＷ１ラッチへのデー
タ書込み処理までを実行するだけであり、時間がかかる
拡張器１１を使用しても１タイミング内に十分収まる。
即ち、１タイミング時間の短縮が可能である。そして加
算命令２）では、先行命令のロード命令１）がＷ１ラッ
チにデータを書込むまで１ステージ分だけＤステージを
インターロックし、その後バイパス３３からこのロード
データを受け取る。このように拡張処理が必要なロード
命令に対してのみインターロックをかける。Ｄ２）にＤ
１）のさらに詳細なパイプライン図を示す。すなわちイ
ンターロック処理を行う際に本実施の形態では、インタ
ーロックによりデータを受け取る命令（この場合は２）
の加算命令）を図１に示すＩ２ラッチ４を用いたフィー
ドバック経路により２回命令解読器３ａ，３ｂに入力す
る。つまりＤ２）の２）は命令ＲＡＭ１の出力をセレク
タ２０で選択し、３）ではＩ２ラッチの出力をセレクタ
２０で選択するようにする。そして２）の加算命令によ
る加算結果はＷステージでレジスタファイルへ書込みを
行わないようにする。このような機構でインターロック
＋バイパス処理を行うことにより、バイパス経路を選択
するための命令解読器の変更が不要となる。

【００２４】図４にロード命令の種類と、ロードデータ
の拡張処理の概要について示す。ロード命令は以下の１
０種がある。丸１ＬＤ２Ｗ（２ワードデータのロード）丸２ＬＤＷ（ワードデータのロード）丸３ＬＤＢＵ（ゼロ拡張処理を伴うバイトデータのロード）丸４ＬＤＨＵ（ゼロ拡張を伴うハーフワードデータのロード）丸５ＬＤＨＨ（上位１６ビットへのハーフワードデータのロード）丸６ＬＤ４ＢＨＵ（４バイトから４ハーフワードへのゼロ拡張処理を伴うロード）丸７ＬＤＢ（符号拡張処理を伴うバイトデータのロード）丸８ＬＤＨ（符号拡張処理を伴うハーフワードデータのロード）丸９ＬＤ２Ｈ（２ハーフワードから２ワードへの符号拡張処理を伴うロード）丸１０ＬＤ４ＢＨ（４バイトから４ハーフワードへの符号拡張処理を伴うロード）これら１０種のロード命令実行後のレジスタファイルの
内容を図４に示してある。図の行には１０種の命令と拡
張処理後のデータ（データ中のＲｂ＋ｓｒｃはＲＡＭに
格納されていた先頭アドレスを示している）が示してあ
り、列にはＲａで指定されるディスティネーションレジ
スタＲａ及び（Ｒａ＋１）の上位ハーフワードＲａＨ，
（Ｒａ＋１）Ｈと下位ハーフワードＲａＬ，（Ｒａ＋
１）Ｌがそれぞれ示してある。これら１０種のロード命
令丸１〜丸１０のうち、丸１はＲＡＭから読み出した６
４ビットデータをそのままレジスタＲａ，（Ｒａ＋１）
に格納する。丸２はＲＡＭから読み出した６４ビットデ
ータのうち上位または下位３２ビットデータのいずれか
を選択しレジスタＲａに格納する。丸３〜丸６は、ＲＡ
Ｍから読み出した６４ビットデータうち必要なバイト、
ハーフワードをそれぞれゼロ拡張（ゼロ拡張した部分は
太線枠で示している）しＲａ，（Ｒａ＋１）に格納す
る。丸７〜丸１０は、ＲＡＭから読み出した６４ビット
データうち必要なバイト、ハーフワードをそれぞれ符号
拡張（符号拡張した部分は斜線で示している）し、Ｒ
ａ，（Ｒａ＋１）に格納する。

【００２５】図５に拡張処理を行う拡張器のブロック図
を示す。ＯＤ［０：６３］はＲＡＭから読み出された６
４ビットデータ、ＳＥＬＡはＯＤ［０：３１］またはＯ
Ｄ［３２：６３］のいずれかを選択する３２ビットセレ
クタである。４０はセレクタＳＥＬＡの出力データのイ
メージであり、上位バイトからそれぞれＢＤ０，ＢＤ
１，ＢＤ２，ＢＤ３である。そして各バイトの最上位ビ
ットは符号ビットであり、それぞれＢＳ０，ＢＳ１，Ｂ
Ｓ２，ＢＳ３である。４１はＯＤ［３２：６３］のデー
タイメージであり、上位バイトからそれぞれＢＤ４，Ｂ
Ｄ５，ＢＤ６，ＢＤ７である。ＳＥＬ０〜７は拡張処理
後のデータを選択するセレクタであり、拡張処理後の６
４ビットデータの上位バイトに順に対応している。ＳＥ
ＬＢはＯＤ［０：６３］のバイパス経路４２と拡張処理
後のＳＥＬ０〜７の出力のうちいずれかを選択する６４
ビットセレクタであり、ロードデータＬＤ［０：６３］
を出力する。ＯＤ［０：６３］のバイパス経路４２は拡
張処理を伴わないデータ転送経路であり、高速転送のた
めに配線容量やファンアウト数等が最適化されている。
セレクタＳＬ０〜７に接続されているデータ経路では拡
張処理が行われている。バイト、ハーフワードデータは
所定の位置にシフト処理を行うと共にゼロ及び符号拡張
処理を行っている。ゼロ拡張は図５の０入力に示すよう
に、セレクタＳＬ０〜３，ＳＬ４，ＳＬ６で行ってい
る。また、符号拡張処理はデータイメージ４０の各バイ
トの符号ビットＢＳ０，ＢＳ１，ＢＳ２，ＢＳ３がコピ
ー処理される。そのため符号拡張はゼロ拡張に比較して
処理に時間がかかる。そしてこれらシフト処理とコピー
処理のために配線容量及びファンアウト数が増加し、拡
張処理自体に時間がかかる結果となっている。本発明で
は、拡張処理を行う拡張器に拡張処理の必要ないロード
命令ＬＤ２Ｗ，ＬＤＷのデータをバイパスする経路４２
を設け、拡張器１１を通りながら、ロードデータＬＤ
［０：６３］生成の高速化を図っている。

【００２６】

【発明の効果】以上のように、本発明によれば、記憶部
からの読出しロードと拡張処理を同一パイプラインステ
ージで実行し、命令の種類によって異なるステージにお
いてバイパス経路により拡張器の出力を帰還するように
したので、命令の内容を変更しないで拡張器でのロード
データ生成を高速に行え、バイパス処理を行ってもマイ
クロプロセッサの処理時間を短縮できる効果がある。

【図面の簡単な説明】

【図１】本発明の実施の形態１におけるパイプライン
形データ処理装置の構成ブロック図である。

【図２】実施の形態１における命令フォーマットの例
を示す図である。

【図３】実施の形態１におけるパイプライン処理とバ
イパス経路がない場合の処理を示すタイミング図であ
る。

【図４】実施の形態１におけるロード命令対応の拡張
処理の説明図である。

【図５】実施の形態１における拡張の構成ブロック図
である。

【図６】第１の従来例であるデータ処理装置の構成ブ
ロック図である。

【図７】第２の従来例であるデータ処理装置の構成ブ
ロック図である。

【図８】第２の従来例におけるアセンブリ言語から機
械語への変換例を示す図である。

【図９】第２の従来例におけるパイプライン処理のタ
イミング図である。

【符号の説明】

１０データＲＡＭ、１１拡張器、１２演算器、１
３Ｗ１ラッチ、１４Ｗ２ラッチ、３０，３１，３２，
３３バイパス経路。

フロントページの続き (56)参考文献特開平９−269895（ＪＰ，Ａ) 特開平10−312280（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】処理ステージを縦続接続してパイプライ
ン処理する構成において、演算及びオペランドアクセスを行うステージを同一ステ
ージとし、かつ該ステージに他ステージへも出力を帰還
バイパス可能な拡張器を備えて、命令がオペランドアクセスのステージで読み出されたデ
ータの拡張不要であることを示している場合は、上記拡
張器内に設けたバイパスを使用して必要に応じて帰還す
るようにしたことを特徴とするパイプライン形データ処
理装置。
【請求項２】命令実行が拡張を必要としない場合、ま
たはゼロ拡張のみの場合には、後続命令が必要とするデ
ータを帰還バイパスするようにしたことを特徴とする請
求項１記載のパイプライン形データ処理装置。