JPH02242429A

JPH02242429A - パイプライン浮動小数点ロード・インストラクシヨン回路

Info

Publication number: JPH02242429A
Application number: JP2032295A
Authority: JP
Inventors: Leslie D Kohn; レスリイ・デイ・コーン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1989-02-10
Filing date: 1990-02-13
Publication date: 1990-09-26
Also published as: DE4001165C2; CA2009744A1; AU4561889A; DE4001165A1; GB2228116B; GB2228116A; FR2643166B1; GB8925453D0; AU618425B2; CA2009744C; FR2643166A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、半導体マイクロプロセッサへのデータのロー
ディングをパイプラインするインストラクション回路に
関し、更に詳しく言えば、外部メモリにおけるデータを
アクセスすることができるプロセッサに関する。

〔発明の背景〕

本発明ハ、マイクロプロセッサのバス制御装置中に配置
し得るパイプライン浮動小数点ロード・インストラクシ
ョン回路に関わるものである。本発明において使用され
るマイクロプロセッサは、ＮＮ１０Ｔプロセツサと呼称
されているインテル８６０ＴＭマイクロプロセッサであ
る。（インテルハ、インテル・コーポレーションの登録
商標である。）Ｎ１０　プロセッサは、３２／６４ビツトＩ　ＥＥＢコ
ンパチブル浮動小数点プロセッサ、３２ビツトＲＩＳＯ
整数プロセツサ、および６４ビット３次元図形プロセッ
サである。ベクトルおよびスカラ演算の両方に適した数
値プロセッサを用いると、それは、単一チップで百万個
以上のトランジスタを内蔵しかつクレイ１の性能の約半
分を供給する産業用第１統合高性能ベクトル・プロセッ
サを意味している。

全プロセッサは、外部メモリまたは内部データ・キャッ
シュからの情報をアクセスすることができる何らかのロ
ード・インストラクション構成を有している。外部に記
憶されたデータのアクセスは、通常、プロセッサの内部
論理装置によ逆制御される外部データ・バスを介して行
なわれる。データ・キャッシュを使用するのは、しばし
ば使用される情報を有効にアクセスして、処理速度を加
速するためである。データ・キャッシュを使用している
プロセッサでは、ノーマル番ロード・インストラクショ
ンは、データ情報がオンチップ・キャッシュに常駐して
いる場合に最も有効的に働く。

すなわち、データがキャッシュ中にない場合、データを
アクセスする際の性能に悪い影響を与えてしまう。

代表的には、ノーマル・ロード・インストラクションを
用いて外部データ′ｆ：ｇ照する場合、それはキャッシ
ュに記憶される。その理由は、通常の状態では、参照さ
れたばかりのデータが近い将来に再び参照されることは
ほとんどないからである。

めったに参照または桝使用されない情報に対して外部メ
モリを予約する一方、最もよくアクセスされる情報を内
部データ・キャッシュに供給することによシ、データ・
アクセスにおける悪影響を最少にすることができる。フ
ログラムは、近い将来においであるデータを繰返し参照
する傾向があるので、これは、データ・キャッシュを有
効的な装置にする配置上の原理である。

しかし、プロセッサが非常に大きいデータ構造、すなわ
ちデータ・キャッシュが通常保持することができる大き
さよシもはるかに大きいデータ構造を処理するよう要求
されている場合には、問題が生じる。起こり得る問題の
例として、プロセッサは、巨大なデータ・マトリックス
の操作を必要とする様々な浮動小数点演算、たとえばマ
トリックス反転、乗算などを実行することがしばしば要
求される。従来のプロセッサでは、データがオンチップ
・データ・キャッシュにない場合、プロセッサは、実行
を凍結しかつ外部メモリからのアクセスを要求しなけれ
ばならない。実行が凍結されている期間、プロセッサは
、新しいアドレスをメモリに発生するのを阻止される。

言い換えれば、プロセッサは、その演算を継続する前に
、第］演算に関するデータが外部メモリから到着するの
を待機しなければならない。その結果、外部メモリのこ
の種のアクセスは、６クロツク・サイクルまたはそれ以
上かかつてし捷う。したがって、外部メモリの頻繁なア
クセスが、含まれているデータ構造の寸法に依存してい
る場合、システムの処理速度にかなシの遅延が生じる。

外部にアクセスされたデータがプロセッサに送られる場
合、大きいデータ構造の処理に関連した別の問題が生じ
る。外部データがプロセッサに送られる場合、外部デー
タは、通常、あらかじめ常駐しているデータに取って代
って、キャッシュに書き込まれる。しかし、キャッシュ
において取って代わられたデータが、近い将来に繰シ返
し参照されることが非常にあり得る情報であるのにもか
かわらず、ある外部データ（最も一般的には、大きいデ
ータ構造の場合）は、たまにしか参照されない情報であ
る、すなわち、それが再使用されることが見込まれてい
ないということを忘れてはならない。このように、プロ
セッサは、おそらく１度しか参照されないであろうデー
タのために、再使用されなければならないデータを放棄
している。

その結果として、取シ換えられたキャッシュ・データを
再び呼び出すのに非常に時間がかかりてしまうことにな
る。従来のプロセッサの実行速度が本発明により達成さ
れた速度よシもはるかに遅いという原因は、この多大な
アクセス時間にある。

後述するように、本発明は、プロセッサが次のアドレス
を発生するのを待機することによる遅延がなく、非常に
速い速度で（実質的に全バス帯域幅で）メモリ演算を処
理することができるパイプライン構造を提供する。この
パイプライン構造を使用することにより、本発明に関連
したプロセッサは、外部メモリからのデータの到着を待
機する必要なく、アドレスを発生し続けることができる
。

これにより、従来のフロセッサに比較して、本発明に関
するマイクロプロセッサの性能を高めることができる。

これを達成するため、本発明は、外部メモリに記憶され
たデータをすぐさまアクセスするパイプライン浮動小数
点ロード・インストラクション回路を提供する。”ＰＦ
Ｌｏａｄ”または　ＰＦｌｄ’　　として示されている
このパイプライン浮動小数点ロド嘩ンフトウエア・イン
ストラクションは、プログラマによシ使用されて、オン
チップ・データ・キャッシュまたは外部メモリ装置のい
ずれかに記憶されたデータをアクセスする。インストラ
クションハ、フロセッサの内部データ番キャッシュ中に
データがまだ存在していない状態に対して最適化される
。この状態は、゛キャッシュ・ミス”または”ＰＦＬｏ
ａｄミス”　と呼ばれている。口ドされるべきデータが
、既にデータ・キャッシュ中に記憶されているような逆
の場合、いわゆる“キャッシュ・ヒット”の場合も、本
発明により処理できる。

また、本発明のＰＦＬｏａｄインストラクション回路は
、データ・キャッシュ中に既に常駐しているデータを更
新するのではなく、プロセッサの浮動小数点装置の記憶
位置に、新たにアクセスされたデータを送る。ＰＦＬｏ
ａｄ　　インストラクションについては、Ｎ１０プロセ
ツサのバス制御装置に関連して後述する。

〔発明の概要〕

外部メモリ装置に記憶された浮動小数点データをアクセ
スするよう最適化されたマイクロプロセッサ・インスト
ラクション回路について説明する。

本発明ハ、マイクロプロセッサのパイプライン・アーキ
テクチユアを使用して、近い将来に再び使用されそうに
ない外部データを有効に検索し、浮動小数点データ・ラ
ッチに直接的にデータを転送する。オンチップ−データ
・キャッシュに常駐しているよく参照されるデータは、
そのまま保持される。

本発明のパイプライン浮動小数点ロード・インストラク
ション回路は、アクセスされたデータを累算する先入れ
先出しくＦＩＦＯ）メモリを含んでいる。ＦＩＦＯに関
し、第１回路装置は、外部メモリからＦＩＦＯにデータ
を送り、第２回路装置は、ＦＩＦＯから浮動小数点デー
タ・ラッチにデータを転送する。第２回路装置は、キャ
ッシュ・ヒット（すなわち、参照されたデータが実際に
データ・キャッシュに存在する）の場合には、データ・
キャッシュからのデータｉ　ＦＩＦＯに戻す。最後に、
第１および第２回路装置に接続したバス制御装置は、外
部メモリ装置から浮動小数点装置へのパイプラインされ
たデータ流を制御する。

本発明の目的は、従来のプロセッサよりもかなυ速い速
度でメモリ演算を処理することができるパイプライン・
インストラクション回路を提供することである。このよ
うにすれば、本発明は、外部メモリからの実際のデータ
の到着を待たなくても、アドレスを発生し続けることが
できる。

本発明の他の目的は、オンチップ・データ・キャッシュ
に既に常駐しているデータを更新することなく、外部デ
ータをアクセスすることである。

本発明の更に別の目的は、非常に大きいデータ構造を含
んでいる算術演算を処理する速くてしかも有効的な装置
を提供することである。

以下、添付の図面に基いて、本発明の実施例に関し説明
する。

〔実施例〕

外部メモリからのデータをロードするパイプライン浮動
小数点ロード・インストラクション回路から成るマイク
ロプロセッサについて説明する。

以下の説明において、ビット長など様々な特定の記載は
、本発明の理解を助けるためであって、本発明はこれら
記載に限定されないことは当業者には明白であろう。な
お、周知の回路についての詳細外説明は、本発明を不明
瞭にしないため省略している。

第１図は、ＮＩＯプロセツザの概要を示している。ＮＩ
Ｏプロセッサは、８つのそれぞれの装置に論理的にかつ
物理的に分割されている。

算術演算装置３５は、ＩＥＥＥ標準規格倍および単精度
の加算をサポートする浮動小数点アダー装置と、Ｉ　Ｅ
ＥＦ、標準規格単および倍精度の浮動小数点乗算をサポ
ートする浮動小数点乗算器から成る。

アダーも乗算器も３段パイプライン能力を有している。

演算中、二一モニツク５ｒｃｌ　、　５ｒｃ２によシ表
わされた入力オペランドは、ライン４２．４３（′こ沿
って算術演算装置３５に供給される。ニーモニソク５ｒ
ｃｌ、　５ｒｃ２　（ｄ、ｅｓｔと同じく）は、Ｎ１０
プロセツサ中に位置する３２ｉｉｉ！ｉｌの浮動小数点
レジスタの１つを示している。算術演算装置３５からの
出力は、６４ビツトのデスティネーション・バス４１に
接続したライン４９に生じる。バス４１〜４３は、それ
ぞれ６４ビツトの長さで、浮動小数点制御装置３３に接
続している。浮動小数点ソース・オペランド５ｒｃｌ、
　　５ｒｃ２は、また図形装置３４に供給される。

図形装置３４は、異なるシェーディング・アルゴリズム
に関する高速３次元図形およびピクセル計算、および隠
れた面を除去する２バッファ・チエツクを行なう６４ビ
ツト図形プロセッサである。

図形プロセッサは、いくつかの演算の結果をマジングし
、かつライン４５に沿って結果をデスティネーション・
バス４１に供給することができる。

■装置として示されているインストラクション・キャッ
シュ２０は、３２ビツト整数および３２ビット浮動小数
点インストラクションをライン２４．２５に沿ってＲＩ
ＳＣコア３１と浮動小数点制御装置３３にそれぞれ供給
する。インストラクション・キャッシュは、３２バイト
・ブロックで４にバイトの両刀向セット連想メモリであ
る。インストラクションは、各クロックにおいてキャッ
シュ２０により各バスに供給される。

メモリ管理装置２１は、データおよびインストラクショ
ンのアクセスに関し仮想アドレスを物理アドレスに翻訳
し、アクセス妨害に対して阻止し、かつ１つのクロック
において次の最も近い信号を発生するよう現在のサイク
ルの物理アドレスを前のサイクルに比較する。翻訳は、
６４個のエントリを伴なう連想キャッシュである変換索
引バッファ（ＴＬＢ）を用いて行なわれる。メモリ管理
装置２１は、３２ビツト・バス２６．２７に沿って入力
を受信し、ＲＩＳＣコア３１から出力する。

実行コアまたはＥ装置として示されているＲＩ　ＳＣコ
ア３１は、全３２ビツト整数およびロード／ストア演算
を行なう。これは、Ｎ１０プロセツサの中央コントロー
ラである。−！！、た、これは、３２ビツト・レジスタ
を備えた３ボート◆レジスターフアイルと、バイパス・
ネットワークと、シフタと、ＡＬＵと、インストラクシ
ョン・ポインタを有している。コア装置３１は、整数お
よび浮動小数点インストラクションの両方をフェッチす
る。さらに、これは、整数レジスタ・ファイルを含み、
ロード、ストア、整数、ビット、飛越し演算をデコード
しかつ実行する。

データ・キャッシュ装置２２は、Ｎ１０プロセツサの読
み取り／書き込み演算のためデータ・キャッシングおよ
びバイｌ−ｉ合を行なう。キャッシュ・データの交換は
、バス３７を介してデータ・キャッシュ２２と浮動小数
点制御装置３３との間で行なわれる。データ・キャッシ
ュ２２は、６４ビツト・バス２９でバス制御装置３０を
介して外部データを受信する。

バス制御装置３０（Ｂ装置）は、外部バスおよび内部チ
ップ間をインタフェイスするバス・サイクル・コントロ
ーラである。これは、Ｅ装置からのバス・ザイクル要求
を受信し、データおよびインストラクション・キャッシ
ュのアクセスを実行し、凍結制御およびキャッシュ・ラ
イン取り換えを含むキャッシュ・ミスのケースを処理し
、ＴＬＢ翻訳、ミスおよび障害処理を制御し、かつ外部
バスへのインタフェイスを行なう。本発明の主題である
パイプライン浮動小数点ロード・インスト２２７３７回
路は、Ｎ１０プロセツサのバス制御装置３０内に供給さ
れている。バス・コントローラは、最高３つのアウトス
タンディング・バス・サイクルを与えるパイプライン・
アーキテクチユアを有している。

最近の多くのマイクロプロセッサのアーキテクチュアに
おいて、パイプラインは、演算が行なわれる速度を増す
のに使用される。パイプライン・アーキテクチユアは、
平行して実行できる一連のより根本的な演算（段と呼称
する）として各演算を処理する。ＮＩＯプロセッサにお
いて、パイプラインの段差は、１〜３段である。３段パ
イプラインに関するパイプライン演算は、３つ前の演算
の結果を記憶する。２段パイプラインに関するパイプラ
イン演算は、２つ前の結果を記憶する。１段パイプライ
ンに関するパイプライン演算は、１つ前の演算の結果を
記憶する。ＮＩＯプロセッサは、外部バスにパイプライ
ンしている３レベル・バス・サイクルをサポートするの
で、第１サイクルに関するデータが戻る前に発生される
最高３つのバス・サイクルがある。さらに、Ｂ装置にお
ける内部アドレス経路は、次のサイクルに関するアドレ
ス翻訳が現在の外部バス・サイクルと平行して行なわれ
るようにパイプラインされる。

前述したように、たまに使用されるデータ、すなわち近
い将来再使用の予定がない外部メモリからのデータをア
クセスするのに、ＰＦＬｏａｄインストラクションが使
用される。バス制御装置内にあるＰＦＬｏａｄ　制御論
理装置は、キャッシュ・ミスの場合に対して最適化され
る。”キャッシュ・ミス”は、ＰＦＬ　ｏ　ａ　ｄデー
タがまだデータ・キャッシュ装置内にない状況のことで
ある。

第２図は、本発明のインストラクション回路の実施例を
示している。ＰＦＬｏａｄ　インストラクションは、６
４ビツト・バス４０に沿って外部メモリからのデータを
戻す。戻されたデータは、ＮＩＯプロセッサのパイプラ
イン特性にしたがって、３つ前のＰＦＬＱａｄインスト
ラクションによりアドレスされたデータである。トライ
・ステート・バッファ６０は、ＭＵＸ６２の”０”入力
に、およびＭＵＸ　６７のＤＢＳ入力に外部データを駆
動するのに使用される。バッファ６０は、ライン６１を
介してマルチプレクサ６２．６７に接続している。ドラ
イバ６９，７４．７５と同様に、バッファ６０は、通常
のトライ・ステート論理ドライバから成る。同様に、マ
ルチプレクサ６２．６７は、本実施例において使用され
ているような通常の論理回路から成る。マルチプし／フ
サ６２，６フと同様に、トライψステー１・・ドライバ
６０，６９゜７４．７５の制御は、Ｂ装置におけるバス
制御論理装置によシ行なわれる。この制御論理装置は、
バス制御装置の高レベル機能言語記述からコンピュータ
により合成されている。Ｂ装置により行なわれる制御動
作のフローチャートについては後述する。

ＰＦＬｏａｄインストラクション回路は、ライン６３に
よりマルチプレクサ６２の出力に接続したＰｉ；”ＬＱ
ａｄ先入れ先出しくＦＩＦＯ）メモリ６５を含んでいる
。ＰＩＦＯ６５は、ライン６６によ＃）ＭＵＸ　６７の
ＰＦＬｏａｄ　入力に送られる出力を発生する。

本実施例において、ＰＩＦＯ６５は、長さ６４ビツトで
、深さ３ワードである。ＰＦＬｏａｄ　　ＦＩＦＯ６５
は、３つ前のＰＦＬｏａｄインストラクションにより参
照された６４ビツト・データを含んでいる。プロセッサ
が初期化された時、すなわちリセット後、ＦＩＦＯの内
容は定義されていない。したがって、使用不可能データ
または不要情報は、最初の３つのＰＦＬｏａｄインスト
ラクションに関して戻される。（プログラマは、発生さ
れた最初の３つのＰＦＬｏａｄインストラクションに関
して戻されたデータを無視しなければならない。）マル
チプレクサ６７は、ＰＩＦＯ６５のトップからのデータ
出力を受信する一人力と、外部メモリから直接的にデー
タを受信する他の入力を有している。外部データは、ラ
イン６１を介してＭＵＸ６７に直接的に送られる。ＰＩ
ＦＯ６５は、ライン６６によりＭＵＸ　６７に接続して
いる。ＭＵＸ６７の出力は、トライ・ステート・バッフ
ァ６９に接続したライン６８に生じる。次に、トライ・
ステート・バッファ６９は、第２図においてライン２９
として示されているＢＩＢＵＳと称呼されている６４ビ
ット内部バスに接続している。その名が示すように、こ
のバスは双方向バスで、キャッシュカラのデータをＭＵ
Ｘ　６２に戻す他、浮動小数点装置にデータを送る。Ｂ
ＩＢＵＳ２９は、バッファ７５を介して、長さ６４ビツ
トのＤＡＢＵＳ　７６に接続している。ＤＡＢＵＳ　７
６は、浮動小数点入力データＱラッチ７８をデータ・キ
ャッシュ７０に接続する。前述したように、ＢＩＢＵＳ
２９は双方向バスなので、キャッシュ・ヒットの場合に
は、データ・キャッシュ７０に既に存在するデータをＭ
ＵＸ６２に戻すことができる。キャッシュ中のデータは
、バッファ７４を介してライン７９に沿ってＢＩＢＵＳ
　に送られる。

ＮＩＯプロセッサがデータをアクセスしなければならな
い場合、そのデータは、外部メモリ装置または内部デー
タ・キャッシュのいずれかにおいて見出すことができる
。データがＮＩＯプロセッサの外にある場合、ＰＦＬｏ
ａｄ　　インストラクションは、外部メモリからのデー
タ全外部バス４０を用いてマルチプレクサ６２を介しＰ
ＦＬｏａｄ　ＦＩＦＯ６，５にロードするよう動作する
。３つの連続ＰＦＬｏａｄ　インストラクションが（連
続するＦＩＦＯ段に対応して）発生された後、初期デー
タはライン６６に発生され、その後、ＢＩＢＵＳ２９に
送られる。ＰＩＦ’Ｏがいっばいになった後、各ノーマ
ルＰＦＬｏａｄサイクルは、ＦＩＦＯのトップからＢＩ
ＢＵＳ２９　にデータを転送し、その後、ＤＡＢＵＳ７
６を介して浮動小数点入力データ・ラッチ７８に送られ
る。したがって、各ノーマルＰＦＬｏａｄサイクルは、
プロセッサにおいて対応する読み取りサイクルを開始す
る。

外部データ・バスから新しいデータが到着すると、それ
は通常ＰＩＦＯ６５のボトムに送られる。

しかし、アドレスされたデータが既にデータ・キャッシ
ュに存在するならば、ＰＦＬｏａｄヒツト（キャッシュ
・ヒットと同意飴である）が生じ、例外が発生する。Ｐ
ＦＬｏａｄヒツトが生じると、Ｂ装置のバス制御論理装
置は、アウトスタンディング・バス・サイクルの全てが
完了するまで待機する。続いて、それは、ライン７９、
ＢＩＢＵＳ２９（ＭＵＸ６２の１”入力に接続）および
ライン６３から成るデータ経路に沿って、要求されたデ
ータをデータ・キャッシュ７０からＦＩＦＯ６５のボト
ムに転送する。

コントローラは、２つの理由でデータ・キャッジニア０
からＦＩＦＯ６５のボトムにＰＦＬｏａｄヒツト・デー
タを転送する前に、アウトスタンディング・バス・サイ
クルの全てが完了されるのを待機しなければならない。

第１に、アウトスタンディングＰＦＬｏａｄサイクルが
あるかもしれないからである。アウトスタンプ・１／グ
ＰＦＬｏａｄサイクルの全てが完了される前にＦＩＦＯ
にＰＦＬｏａｄヒツト・データを書き込もうとすると、
ＦＩＦＯ中のデータが乱れてしまう。第２に、Ｂ１１３
Ｕｓ　２９　が、３つ前のＰＦＬｏａｄ　　インストラ
クションから浮動小数点装置に転送されているデータで
既に占められているかもしれないからである。

キャッシュからのＰＦＬｏａｄヒツト・データがＢＩＢ
ＵＳによυすぐさま転送されるならば、バス・コンテン
ションが生シてＬ１５゜バス・コンチンジョンが生じる
のを阻止するため、Ｂ装置のバス制御論理装置は、デー
タをＰＩＦＯ６５に戻す前に１つの余剰クロックに関し
バッファＴ４を遮断する。アウトスタンディング・サイ
クルの全てが完了するのをＢ装置が待機した後、ＰＦＬ
ｏａｄ　ヒツト・データは、ＦＩＦＯのボトムに配置さ
れ、かつＰＦＬｏａｄ処理手続きが通常通りに行われる
。

プロセッサは外部バスまたはメモリよりも速い速度で演
算することが可能である。たとえば、プロセッサの速度
が外部ハードウェアよシも速い場合、ＦＩＦＯは空にな
る可能性がある。ＦＩＦＯは、プロセッサにより発生さ
れる最大数のアドレスを保持するのに十分な段数を有し
、かつプロセッサのパイプライン・アーキテクチユアと
コンパチブルでなければならない。したがって、ここで
述べられているＰＦＬｏａｄインストラクションはダイ
ナミックに動作する。

第５ｂ図において、ＰＦＬｏａｄＦＩＦＯ６５は、本実
施例ではビット当り３つのラッチまたはレジスタと、読
み取シ位置カウンタ８７と、書き込み位置カウンタ８６
から構成されている。読み取り位置カウンタは、デコー
ダ８８に接続し、さらにライン９４．９３を介して３　
：　Ｉ　ＭＵＸ　９５に接続している。これらラインは
、次のＰＦＬｏａｄサイクルがデータを読み取るレジス
タを、ＰＦＬｏａｄ演算において読み取υカウンタ８７
が選択するように、ＭＵＸ９５の選択ラインに接続して
いる。

書き込み位置カウンタ８６は、デコーダ８５に接続し、
さらにライン９２，９１．９０によりレジスタＡ、Ｂ、
Ｃにそれぞれ接続している。ライン９（１−９２によシ
、ライン６３に生じたデータを適尚なレジスタにラッチ
することができる。動作において、書き込み位置カウン
タ８６は、次のＰＦＬｏａｄサイクルが、戻されたデー
タを書き込むラッチを示す。読み取シ位置カウンタと書
き込み位置カウンタの両方とも、普通の０−２ラツフア
ラウン下・カウンタを有している。

読み取りカウンタは、ＰＦＬｏａｄインストラクション
が書き戻し段にある、すなわちベンディング中で、ＢＩ
、ＢＵＳがビジーでなく、かつＰＦＬｏａｄＦ’ＩＦＯ
が空でない場合にインクリメントされる。

ＦＩＦＯが空の場合、読み取りカウンタは、たとえデー
タがＦＩＦＯに実際にはラッチされなくて、浮動小数点
入力データ・ラッチに直接的に駆動されても、インクリ
メントされる。書き込みカウンタは、現在の外部バス・
サイクルがＰＦＬｏａｄの場合、すなわちＰＦＬｏａｄ
データがＰＦＬｏａｄヒツトに関しデータ・キャッシュ
からＦＩＦＯのボトムに書き込まれている場合に、イン
クリメントされる。データ全ＦＩＦＯにラッテするＦＩ
ＦＯ書き込み信号を発生ずるのに、書き込み位置カウン
タの２つのビットが使用される。

第５ａ図は、ＰＩＦＯ６５の別の実施例を示している。

第５ａ図は、ライン６６から出力される前に、データを
ラッチ１からラッテ２を通シ最終的にラッチ３に直列に
送るＦＩＦＯを示している。

たとえ、第５ａ図のＦＩＦＯがＰＦＬｏａ’ｄインスト
ラクション回路のパイプライン特性を適切に保持してい
ても、それは第５ｂ図に示されたＦＩＦＯのフレキシビ
リティは持っていない。たとえば、第５ｂ図のＦＩＦＯ
では、データは、１クロツク・サイクルにおいてラッテ
８７に書き込まれ、かつ他のレジスタを介して送ること
なく次のサイクルにおいて読み取られる。このように、
必要ならば、任意のデータをよシ早く利用できるように
することができる。

前述したよう釦、ＮＩＯプロセッサは、最高３つのアウ
トスタンディング・バス・サイクルを発生することがで
きる。プロセッサが外部メモリよシも速い速度でバス・
サイクルを発生しているならば、ＰＦＬｏａｄＦＩＦＯ
は空になる可能性がある。

これは、３つのアウトスタンディング・サイクルがＰＦ
Ｌｏａｄサイクルであることを意味している。

４番目のＰＦＬｏａｄサイクルが書き戻し段にあシ、デ
ータ・ラッチγ８にロードするのに使用し得るデータが
ない場合、バス・コントローラ装置は、凍結信号を発生
する。ＰＦＬｏａｄ　サイクルが要求されても、ＦＩＦ
Ｏが空の場合、ＰＦＬｏａｄデータがＤＡＢＵＳにおい
て使用し得る壕で、コアは凍結されなければならない。

（ＰＦＬｏａｄＦＩＦＯが空であるか、ＢＩＢＵＳがビ
ジーであるか、または変換索引バッファのミスのため、
ＦＩＦＯからのデータがデータ・ラッチ７８に転送され
ることができない場合、ＰＦＬｏａｄ　はベンディング
である。

）なお、データ・キャッシュが、通常の書き込みを行な
っている場合、データ・キャッシュ装置ＴＯは、ＤＡＢ
ＵＳ　７６　　およびＤＢＢＵＳ８０の両方を駆動する
ので、それは、同じクロック・サイクルで外部データを
ラッチに供給することができなくなる。しかし、ＰＦ″
Ｌｏａｄ　　インストラクションを使用すれば、データ
・キャッシュ１０は、キャッシュの内部ドライバ（ＤＡ
ＢＵＳ　７ｅに接続）がオフになるように、Ｂ装置によ
シ制御される。ＤＡＥＵＳ７６へのキャッシュ・ドライ
バをオフにすることにより、外部データは、バス・コン
テンション状態を生じることなく、データ・ランチ７８
に供給することができる。

一旦、ＰＦＬｏａｄデータがＤＡＢ’ＵＳ　７６におい
て利用できるようになると、凍結は解除される。

その稜、外部データは、ＢＩＢＵＳ２９からＤＡＢＵＳ
にバッファ７５によシ駆動される。ＢＩＢＵＳに沿って
供給されるデータは、ＰＩＦＯ６５から、または外部メ
モリ装置からのライン６１に沿って直接的に発生される
。ＭＵＸ６７は、ＦＩＦＯ６５が空の場合だけデータ・
ソースとしてライン６１を選択する。ＰＩＦＯ６５が空
かどうかは、外部メモリの速度や、どんなに頻繁にプロ
グラマがＰＦＬｏａｄインストラクションを発生するか
、などにより決まる。ＰＦＬｏａｄ　シーケンスに割込
む場合、外部バス４０において発生されたアウトスタン
ディングＰＦＬｏａｄ　コマンドがあるならば、外部メ
モリからデータを送シ続ける。前のＰＦＬｏａｄインス
トラクションによつ８揺された外部データは、プログラ
マがもう一度ＰＦＬｏａｄの発生を開始するまで、ＰＩ
ＦＯ６５に累算する。

いずれかのアウトスタンディングＰＦＬｏａｄサイクル
が完了される前にデータＦＩＦＯ６５が空にされるよう
に、プログラマが連続したＰＦＬｏａｄコマンドを発す
るならば、外部データ・バス４０に到着する新しいデー
タは、ライン６１に沿ってＭＵＸ　６７を介してＢＩＢ
ＵＳ　２９に直接的に供給されるように接続される。次
に、ＢＩＢＵＳ　２９に供給されたデータは、バッファ
γ５によυＤＡＢＵＳ７６に送られ、浮動小数点入力デ
ータ・ラッチ７８への記憶を終了する。データ人力ラッ
チは、実際には、ＮＩＯプロセッサの浮動小数点装置の
一部である。（ＤＢＢＵＳは、１２８ビツト・ロードを
処理する時に使用されるだけである。ＰＦＬｏａｄイン
ストラクションは、６４ビツトまたは３２ビツト・ロー
ドにおいて動作するだけなので、ＤＢＢＵＳは、本発明
のＰＦＬｏａｄインストラクション回路には直接的には
関係ない。）データ・キャッシュ・ヒットが生じた場合、すなわち実
際に要求されたデータが、外部メモリではなくデータ・
キャッシュ中にある場合、次のような事が行なわれる。

第１に、データの現在のワードは、ＰＦＬｏａｄＦＩＦ
Ｏ６５または外部データ・バス４０のいずれかから戻さ
れなければならない。

これを行なうため、バッファ７５は、バス制御装置の制
御論理装置によシ遮断され、データは、マルチプレクサ
６２の”１”入力に接続したＢＩＢＵＳ経路に沿って戻
される。次に、バス制御装置により制御されるマルチプ
レクサ６２は、ライン６３に沿ってＰＩＦＯ６５のボト
ムにデータを戻す。

多くのアウトスタンディングＰＦＬｏａｄが発生され次
場合−どれもまだ外部メモリからデータを戻していない
−およびキャッシュ・ヒットが生じた場合においては、
別の筋書が用意されている。

この場合、プロセッサが、データ・キャッシュに現在あ
るデータのワードですぐさま行なうことができることは
伺もない。最初に、バス制御装置は、あらかじめ発生さ
れた全ＰＦＬＯａｄ　インストラクションが外部メモリ
からデータ′ｆ、戻すのを待機しなければならない。残
っている２つのワードがＰＩＦＯ６５に書き込まれるの
に対し、戻されたデータの最初のワードは、ＰＩＦＯ６
５から、または外部バスから直接的に、データ入力ラッ
チ７８に転送される。最後に、データ・キャッシュ７０
に記憶されたデータ・ワードは、ＦＩＦＯにおける最後
のワードとしてＰＩＦＯ６５に転送される。

したがって、キャッシュからＦＩＦＯにデータを転送す
る前に、プログラマは、全アウトスタンディングＰＦＬ
ｏａｄ　サイクルが完了されるのを待念なけれげならな
いので、キャッシュ・ヒットの場合にかなりの時間的不
利がある。後述するように、ＰＦＬｏａｄ　　インスト
ラクションは、キャッシュ・ヒットよυもキャッシュ・
ミスに対して最適化される。

第４図には、本発明の別の実施例が示されている。第４
図の回路は、ライン７９、バッファ７４、およびＭＵＸ
　６２の”１”入力への復帰ＢＩＢＵＳ経路が省略され
ていることを除けば、第２図と同様である。ここには、
バス８１が含まれている。

バス８１は、キャッシュ７０の内部バッファ８２からマ
ルチプレクサ６２の１”入力に直接的に接続している。

この実施例による主な利点は、データをＦＩＦＯ６５に
書き込む前にバッファ６９がオフに々るのをユーザが待
機しなくてもいいことである。キャッシュ・ヒットに適
応するようバス８１が設けられているので、プログラマ
は、処理する前にアウトスタンディングＰＦＬｏａｄイ
ンストラクションからの外部データが全て戻されるのを
待機しなくてもよい。キャッシュ・ヒットカ生じた場合
、データがデータ・キャッシュ７０から直接的にＰＩＦ
Ｏ６５に供給されるので、クロックの不利もない。

一方、第２図の実施例は、１つのバスだけを必要として
いるので、シリコン面積を減少できるという利点を有し
ているのに対して、第４図の実施例では、バス８１をさ
らに必要としている。

第６図は、本発明のＰＦＬｏａｄインストラクション回
路に関するバス制御論理装置により供給される制御動作
を示したフロー・チャートを示している。このフロー・
チャートは、ＰＦＬｏａｄ　インストラクションの実行
において使用される後述するバス制御論理の概要を示し
ている。第６図において、ＰＦＬｏａｄチャートは、Ｐ
ＦＬｏａｃ１９求を表している状態１００から開始する
。−旦、要求が発生されると、バス制御論理装置ガとＢ
装置は、ＦＩＦＯ６５が空であるか、またはＢＩＢＵＳ
　２９がビジーであるかどうかを決定する。これは決定
要素１０１　によｐ示されている。２つの条件のいずれ
かが真であるならば、バス・コントローラは、条件が変
るまで待機する。ＦＩＦＯにデータが存在し、かつＢＩ
ＢＵＳがビジーでないならば、コントローラは、ＦＩＦ
Ｏに存在しているデータが浮動小数点データ・ラッチＴ
８に転送される状態１０２に進む。決定状態１０３にお
いて、バス・コントローラは、ＰＦＬｏａｄヒツト、言
い換えればデタφキャッシュ・ヒットが起きたかどうか
を調べるためチエツクする。データが外部メモリに存在
しているが、データ・キャッシュ７０にはない場合、バ
ス・コントローラは、状態１０４に示すようにＰＦＬｏ
ａｄバス・サイクルを発生する。インストラクションの
最後が来るまで、普通通シに処理が行なわれる。

なんらかのアウトスタンディングＰＦＬｏａｄサイクル
があるかどうか、またはＢＩＢＵＳがビジであるかどう
か、バス・コントローラが問わなければならないような
ＰＦＬｏａｄ　ヒツトが生じることがある。これは、第
６図の決定状態１０５によシ示されている。アウトスタ
ンディング・サイクルがあるか、またはＢＩＢＵＳがビ
ジーであるならば、バス・コントローラ論理装置は、ア
ウトスタンディング・バス・サイクルが全部完了しかつ
ＢＩＢＵＳがデータ転送に使用可能になるまで待機しな
ければならない。これが起きた場合、データは、状態１
０６に示すようにデータ・キャッシュからＦＩＦＯのボ
トムに転送される。この転送は、データがライン７９に
沿ってバッファ７４を介して送られ、ＢＩＢＵＳ　によ
シＭＵＸ６２の１人力に戻される第２図に関連した説明
と同様に行なわれる。第４図の実施例では、データ・キ
ャッシュ７０からのデータは、ライン８１に沿って直接
的にＭＵＸ６２の”１”入力に送られる。そして、イン
ストラクションの最後に至るまで、普通通りに動作が行
なわれる。

本発明の動作と利点をより理解するため、第３図に示し
たサンプル動作について説明する。第３図の式により示
されたサンプル動作は次の通りである。

ｋＶｌ　＋　Ｖ２　→Ｖ２ここで、ｋは所定の定数で、■１は外部メモリに記憶さ
れた１０００の異なる、すなわち１０００のエレメント
のベクトルの１つで、■２は、データ・キャッシュ装置
７０に記憶されたベクトルである。この特定の計算にお
いて、プロセッサは、ベクトルｖ２ヲ１０００回（各■
ｌの各エレメントのそれぞれに対して１度）再使用しな
ければならないのに対し、■１の各エレメントはたった
１回しか使用されない。本発明のＰＦＬｏａｄインスト
ラクション回路を用いれば、プロセッサは、データ・キ
ャッシュに常駐しているどの■２も書き直さずに、ベク
トルｖ１の各エレメントを浮動小数点レジスタにロード
することができる。

第３図は、第１■ｌベクトルの第１エレメントをＰＦＬ
ｏａｄ記憶位置ｆ２にロードするため、■１１のアドレ
スに発生されている第１　ＰＦＬｏａｄインストラクシ
ョンｐｆｌｄ＋　を示している。Ｉ）ｆ　ｌｄ　ｌコマ
ンドは、開始するのに２クロツク・サイクルかかる。外
部メモリからデータが戻るのを待機するとと々く、第２
ＰＦＬｏａｄインストラクシヨンｐｆｌｄ２；６’ベク
トル・エレメントＶＩ２　ヲアドレスするため発生され
、かつそれをＰＦＬｏａｄ記憶位置ｆ３に送る。別のＰ
ＦＬｏａｄコマンドが、ベクトル・エレメントＶ、３．
　Ｖ、、　、　Ｖ、５などに関して開始される。外部バ
スにより新しいアドレスが２クロツクごとに発生される
ので、新しいＰＦＬｏａｄを２クロツクごとに要求する
ことができる。

第４　ＰＦＬｏａｄコマンドｐｆｌｄ４　　が発生され
る場合、外部メモリは、第１　ＰＦＬｏａｄインストラ
クションからデータを戻し始める。第４　ＰＦＬｏａｄ
において指定されたデスティネーション・レジスタはｆ
２レジスタであるので、この戻されたデータは、実際に
は３つ前のＰＦＬ　ｏ　ａ　ｄインストラクションに対
応している。３つ前のＰＦＬｏａｄコマンドからのデー
タの到着は破線によシ示され、矢印は浮動小数点記憶位
置からＰＦＬｏａｄ命令のアドレスに斜めに向いている
。プログラマは外部バスの全帯域幅能力にしたがって、
２クロツクごとにＰＦＬｏａｄ　を指定し続けることが
できる。実際、プログラマがデータが戻る回数にデータ
・アドレスを指定する時間からトータル６クロツクの待
ち時間がある。したがって、メモリ装置は、たとえ新し
いバス・サイクルが１クロツクごとに開始していても、
データを供給するのにトータル６クロツクを有している
。これは、サイクルを処理できる速度の３倍速度を増す
ことができることを意味している。パイプライン方式な
しでは、プログラマは、新しいサイクルを発生するのに
１クロツクごとではなく６クロツクごとの発生に制限さ
れるであろう。

無論、前述の説明は、各ＰＦＬｏａｄ　　ロード・イン
ストラクションはデータ・キャッシュｅミスに対応して
いることを想定している。これが、従来のプロセッサに
おける通常の浮動小数点ロードであったならば、プログ
ラマが第２　ＰＦＬｏａｄを実施を試みたらすぐ、バス
制御装置は、アウトスタンディング・アクセスがあるこ
とに応答し、全６クロツク間凍結し、アウトスタンディ
ング・バス・ロードが戻るのを待つ。したがって、従来
技術のプロセッサでは、プログラマは１クロツクごとで
はなく６クロツクごとに新しいアドレスを発生するしか
ない。このように、本発明のＰＦＬｏａｄインストラク
ション回路に関連したパイプライン方式により、ユーザ
は、オンボード・キャッシュにデータがないにもかかわ
らず、より速い速度でアドレスを発生することができる
。し７たがって、非常に大きいデータ構造を有効的に処
理しかつアクセスすることができる。

本発明は、ｖ１エレメントを外部メモリに保持しながら
、ベクトルＶ２　ｔオンボードに記憶することができる
ので、ユーザは、ＰＦＬｏａｄインストラクションを用
いて■ｌエレメントを参照しかつノーマル・ロード・イ
ンストラクションでベクトル■２を参照することができ
る。ＰＦＬｏａｄインストラクション回路のない代表的
な従来のマイクロスロセツサでは、ユーザがＶ、を参照
する度に、データ・エレメントは、キャッシュに送られ
、それによシベクトルｖ２のエレメントが追い出されて
いた。したがって、Ｖ２エレメントヲロードしなければ
ならない次回にさらに遅延が生じてしまう。

以上のように、実施例に基いて説明してきたが、本発明
は、これら実施例に限定されず、様々に改変できること
は当業者には明白であろう。たとえば、パイプライン浮
動小数点ロード・インストラクション回路を供給する特
定の方法が示されているが、無論、本発明は他の方法で
も可能である。

このように、本発明は、実施例における詳細には限定さ
れず、本発明の思想の範囲において改変できる。

【図面の簡単な説明】

第１図は、本発明のパイプライン浮動小数点ロド・イン
ストラクション回路に関連したプロセッサの論理部分の
概要図、第２図は、本発明のパイプライン浮動小数点ロ
ード・インストラクション回路の実施例図、第３図は、
外部メモリに記憶されたベクトル・マトリックスとオン
チップ・データ・キャッシュに記憶された内部ベクトル
を含んでいる代表的な動作に関して発生された一連のパ
イプライン浮動小数点ロード・インストラクション回路
、第４図は、本発明の他の実施例回路図、第５ａ図は、
本発明に含まれているパイプライン浮動小数点ロード先
入れ先出しメモリの一実施例説明図、第５ｂ図は、本発
明に含まれた先入れ先出しメモリの別の実施例説明図、
第６図は、本発明のＰＦＬｏａｄインストラクションに
関連したバス制御論理装置によシ供給される制御動作を
示したフローチャートを示している。２０・・・・インストラクション回路−キャッシュ、２
１・・・・メモリ管理装置、２２・・・・データ・キャ
ッシュ、３０・・・・バス制御装置、３１・・・・ＲＩ
ＳＣコア、３３・・拳・浮動小数点制御装置、３４・・
・・図形装置、３５・・・・算術演算装置、６０・・・
・トライ・ステトφバッファ、６２．６７・・・・マル
チプレクサ、６５　・・・拳ＰＦＬｏａｄＦＩＦ０，６
９．７４゜Ｔ５・・・・ドライバ、７０・・・・データ
・キャッシュ、７８・・・・浮動小数点入力データ・ラ
ッチ、９５・・−−３：ＩＭＵＸ、８５．８８−−時・
デコーダ、８６，８７・命・・カウンタ。

Claims

【特許請求の範囲】

（１）パイプライン・アーキテクチユア、データ・キャ
ッシュ、処理装置、および外部バスに沿つた外部メモリ
のアクセスを制御するバス制御装置とを有するマイクロ
プロセッサにおける、上記マイクロプロセツサへのデー
タのローディングをパイプラインするインストラクショ
ン回路において、上記外部メモリからデータが送られる
時、パイプライン方式でデータを記憶する第１回路装置
と、上記第１回路装置に接続し、上記第１回路装置に記
憶されたデータをデータ・ラッチに転送するバス装置と
、上記外部メモリからのデータを上記マイクロプロセッサ
の上記データ・ラッチにパイプラインするように、上記
第１回路装置と上記データ・キャッシュを制御する制御
装置と、から成ることを特徴とするインストラクション回路。
（２）パイプライン・アーキテクチユアを有し、かつデ
ータ・キャッシュ、データ・ラッチを有する処理装置、
および外部バスにより外部メモリからデータをアクセス
するインストラクション回路とから成るマイクロプロセ
ッサにおいて、上記インストラクション回路は、データを累算するメモリ装置と、キャッシュ・ミスが生じた場合、上記外部メモリからの
データを上記メモリ装置に送る第１回路装置と、上記メモリ装置に累算されたデータを上記データ・ラッ
チに送り、かつキャッシュ・ヒットの場合には上記デー
タ・キャッシュ内にあるデータを上記メモリ装置に戻す
よう、上記データ・キャッシュを上記第１回路装置に接
続する第２回路装置と、上記第１および第２回路装置、上記メモリ装置、および
上記データ・キャッシュとに接続し、キヤツシユ・ミス
の場合には上記外部メモリから上記データ・ラツチへの
パイプラインされたデータ・フローを制御し、かつキャ
ッシュ・ヒットの場合には上記データ・キャッシュから
上記メモリ装置へのデータの復帰を制御するバス制御装
置と、から成ることを特徴とするインストラクション回
路。
（３）パイプライン・アーキテクチユア、データ・キャ
ッシュ、処理装置、および外部バスに沿つた外部メモリ
のアクセスを制御するバス制御装置とを有するプロセッ
サにおける、上記プロセツサへのデータのローディング
をパイプラインするインストラクション回路において、上記外部バスに接続し、上記外部メモリから上記プロセ
ッサにデータを送る第１バッファと、上記第１バッファ
により上記外部メモリからデータを送る時、パイプライ
ン方式でデータを記憶する第１回路装置と、上記第１回路装置に接続し、上記第１回路装置に記憶さ
れたデータをデータ・ラッチに転送する第１バス装置と
、上記外部メモリからのデータが上記プロセッサ内の上記
データ・ラッチにパイプラインされるように、上記第１
バッファ、上記第１回路装置および上記データ・キャッ
シュとを制御する制御装置と、から成ることを特徴とするインストラクション回路。
（４）処理装置、データ・キャッシュ、および外部メモ
リ装置への接続装置とを有するプロセッサにおいて、（ａ）上記外部メモリに上記データをアドレスする過程
と、（ｂ）上記外部メモリからの上記データを先入れ先出し
メモリに書き込む過程と、（ｃ）上記先入れ先出しメモリからの上記データをバス
に読み取る過程と、（ｄ）上記バスにおける上記データを上記処理装置内の
データ・ラッチに転送する過程と、から成ることを特徴
とする、上記外部メモリからデータをアクセスする方法
。