JPS60225262A

JPS60225262A - ２重キヤツシユメモリを有するパイプラインプロセツサ

Info

Publication number: JPS60225262A
Application number: JP60068210A
Authority: JP
Inventors: リチヤード・エフ・トンプソン; ダニエル・ジエイ・デイズニー; スウイーメン・クエク; エリツク・シー・ウエスターフエルド
Original assignee: FUOOFUEISU SYSTEMS Inc
Current assignee: FUOOFUEISU SYSTEMS Inc
Priority date: 1984-03-30
Filing date: 1985-03-30
Publication date: 1985-11-09
Also published as: EP0156307A2; EP0156307A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】発明の概要命令を先取ルする命令先取多装置（ＩＰＵ、２　）　。

命令を実行する算術論理演算装置（ＡＬＰＵ、　４　）
を含む、パイプライン・ディジタル・コンピュータ・プ
ロセッサ・システム（１０，第１図）が提供される。

ＩＰＵ（２）は高速命令キャッシュ（６）に付随され、
ＡＬＰＵ（４）は高速オペランド・キャッシュ（８）に
付随される。

各キャッシュは、ひんばんにアクセスするデータのスト
アするため、データ・ストア（８４，９４，第３図）、
それぞれのキャッシュの中に主メモリ位置が含まれるこ
とを示すタグ・ストア（８２、９２、第３図）を具えて
いる。

■′ＰＵとＡＬＰＵの処理装置（２，４）は、殆んど全
ア。。ア、、□に＋ゎイゎ。□イヤ２．−）にアクセス
できる。ＡＬＰＵが主メモリに書込み動作を演する時、
それはまた、オペランド・キャッシュに相当データを新
らしくいれ、もしそこにデータが存在すれば、命令キャ
ッシュを新らしくする。ＩＰＵは、いづれのキャッシュ
にも書き込まない。

その内容が無効になれば、ある状態ではキャッシュをク
リヤする設備が設けられている。

技術分野本発明は、全般的には、ディジタル計算装置に関するも
のでちゃ、詳細には、命令を先取）する第１演算処理装
置と、命令を実行する第２演算処理装置よｐなるパイプ
ライン・プロセッサ・システムに関するものであって、
各演算処理装置は、高速キャッシュ・メモリ装置に関連
している。

発明の背景ディジタル・データ処理技術では、多重演算処理装置を
準備し、そのオペレーションを重ネ、命令の実行ヲ、′
パイプライン”方式で並行して作業する処理装置によシ
行なうことは、既知である。

例えば、１つの処理装置は、処理される命令を取り出す
ために使用され、他の処理装置は、命令の実行に使用さ
れることが可能である。第２処理装置が前の命令を実行
する間に、第１処理装置は、すでに、次の命令を取り出
しているから、全処理時間は短縮される。

ディジタル・データ処理技術においてはまた、プロセッ
サと比較的大容量で低速の主メモリの間に、比較的小容
量で高速のメモリ（“キャッシュ・メモリ”として既知
）を用意し、プロセッサが与えられた命令を実行するの
に必要とする時間と定義される、プロセッサ・サイクル
タイムを短縮することは、既知である。命令実行段階の
１取シ出し”部分のあいだに、まづ、プロセッサはキャ
ッシュ・メモリをチェックし、希望情報がその中にある
か否か調べる。その中にあれば、主メモリにアクセスせ
ねばならない時よシ早く、プロセッサは情報にアクセス
ができる。その情報がキャッシュ・メモリに含まれてい
ないと、主メモリにストアされた情報のブロックは、プ
ロセッサにより取シ出されている情報を含み、キャッシ
ュ・メモリにストアされる。なんとなれば、次のメモリ
・アクセスは、そんなブロックにストアされた情報であ
る可能性が、比較的に高いからである。プロセッサに要
求される情報がキャッシュ内で見つけられる状態はキャ
ッシュ１ヒツト”と呼ばれ、反対の状態はキャッシュ１
ミス”と呼ばれる。

本発′明は、命令を取シ出すためと、命令を実行するた
めの１対のパイプライン・プロセッサと、各プロセッサ
が使用する高速キャッシュ・メモリを供給することによ
り、比較的に短い演算処理サイクル・タイムを達成する
高性能ディジタル演算処理システムを提供する。殆んど
あらゆる状態で各プロセッサに関連するキャッシュ・メ
モリは、いつでも、他のプロセッサの命令やその関連キ
ャッシュ・メモリに関係なく、そのプロセッサにとシ、
アクセス可能である。

発明の簡単な要約したがって、本発明の目的は、改良されたディジタル演
算処理システムを提供することである。

本発明の他の目的は、命令を先取シする第１演算処理装
置及び命令を実行する第２演算処理装置を使用して、処
理量を増大するディジタル演算処理システムを提供する
ことであシ、各演算処理装置は高速キャッシュ・メモリ
装置を付随する。

本発明のさらに他の目的は、独立した２つの演算処理装
置の各々に、高速キャッシュ・メモリ装置を供給するこ
とによシ、処理量を高めたパイプライン・ディジタル演
算処理システムの提供である。各キャッシュ・メモリは
、他の演算処理装置の命令や他のキャッシュ・メモリ装
置と関係なく、何時でもその付随演算処理装置にはアク
セス可能である。

これら及び他の目的は、本発明の好ましい実施例にもと
づき、そのシステムに使用できる命令やオペランドを含
む、情報の比較的大量を、そのアドレス可能な位置にス
トアする。比較的に大容量の低速度主メモリを持つ、デ
ィジタル演算処理システムを供給するこ・とで達成でき
る。このディジタル演算処理システ、ムは、命令を取り
出す命令先取シ装置、命令を実行する算術論理演算装置
、限られた情報ブロック量をそのアドレス可能位置にス
トアする命令先取り装置に付随し、それによ請求められ
た情報が、そこにあったか否か決定するため、命令先取
り装置に応答する手段を含む′、比較的に低容量、高速
の命令キャッシュ・メモリ装置、限られた量の情報ブロ
ックをそのアドレス可能の位置にストアするため算術論
理演算装置に付随され、また、それによ請求められた情
報がそこに含まれるか否か決定するため、算術論理演算
装置に応答する手段を含む、比較的に低容量、高速のオ
ペランド・キャッシュ・メモリ、を含む。それによシ、
命令先取シ装置のサイクル・タイムは、求められる情報
がすでに命令キャッシュ・メモリに存在する程度に減少
され、算術論理演算処理のサイクル・タイムは請求めら
れる情報がすでにオペランド・キャッシュ・メモリ装置
に存在する程度に減少される。

３、発明の詳細な説明第１図には、パイプライン・プロセッサと本発明の２重
キャッシュ・メモリを組合せた。ディジタル演算処理シ
ステムの好ましい実施例を図示するブロック図が示され
る。中央処理装置（ＣＰＵ）１０は、並列処理装置、即
ち、命令先取り装置（ＩＰＵ）２と算術論理演算装置（
ＡＬＰＵ）　４を含む。各処理装置は、自分の高速キャ
ッシュ・メモリ装置を有する。明確にＩＰＵ　２は命令
キャッシュ６に付随さｔＬ、ＡＬＰＵ　４　Ｕオペラン
ド・キャッシュ８に関連される。

第１図は本発明のディジタル演算処理システムの全アー
キテクチュアを図示し、その主な特徴をいまから説明す
る。ＩＰＵ　２は、データ・パスルを介し、命令キャッ
シュ６よりデータ情報を受け、ＩＰＵ２は、アドレス・
バス１４ヲ介し、命令キャッシュ６へ、アドレス情報を
送る。ＩＰＵ２は、マイクロアドレス・バス１８ｔ”介
ＬＡＬＰＵ４へ、マイクロアドレス情報を送り、また、
実効アドレス（ＥＡ）バス２０を介しＡＬＰＵ　４へ、
実効アドレス情報を送り、また直接にバス２１を介し、
オペランド・キャッシュ８へ実効アドレス情報を送る。

ＩＰＵ２はまた、加ビット・データ・バス１６を介し、
ＡＬＰＵ４と連絡することができる。

ＡＬＰＵ　４は、アドレス／データ・バス２２を介しオ
ペランド・キャッシュ８へ、アドレス及びデータ情報を
送ｐ１また、データ・バス２４を介しオペランド・キャ
ッシュ８からデータ情報を受ける。

命令キャッシュ６とオペランド・キャッシュ８は、シス
テム・バス２ｓｔ−介し、メモリ・コントローラ四とバ
ス２６を通夛、主メモリ（９）と連絡する。

直接メモリ・アクセス（ＤＭＡ’Ｓ）もまた周辺装置（
図示せず）によシ、メモリ・コントローラ２８トバヌ２
６を介し、主メモリにアクセスを行なうことができる。

ＩＰＵ２とＡＬＰＵ　４はともに、命令の並列処理をお
こない、これによシ命令の実行に要する時間を減少する
。分離された命令キャッシュ６とオペランド・キャッシ
ュ８は、それらに対応する処理装置が、メモリにアクセ
スするに必要な時間を減少する。分離されたキャッシュ
・メモリ装置と並列処理装置との組合せが、全プロセ、
ツサ能力の著るしい改良を達成した。

ＩＰＵ２の機能は命令を取シ出すことで、ＡＬＰＵ４の
機能は命令の実行である。ＩＰＵ２が命令を取９出す時
には、必要ならば、ＩＰＵ２はオペランドの実効アドレ
スを計算し、実行のために、それらをＡＬＰＵ　４に渡
す。大部分の時間ＡＬＰＵ　４−は、前の命令の実行を
おこなってお夛、他方ＩＰＵ２は、現在の命令を取シ出
す働きをしている。ＩＰＵ　２は２命令の１パイプ”を
有するので、ＩＰＵ２はＡＬＰＵ４より２命令進んでい
ることが可能である。

ＩＰＵ　２はまた、全ての割込、トラップ、コンソール
（図示せず）信号をモニタし、それにょ夛プログラム・
フローを変える。ＩＰＵ２は、命令の先取シラ無効にす
る殆んどの状態を見つける能力を有する。そのような場
合には、ＩＰＵ２は先取りしないか、もし先取シした時
には、そのパイプを空にする。

ＡＬＰＵ　４は、命令実行の実行段＃を行なう。ＡＬＰ
Ｕ　４が命令の実行を終れば、ＡＬＰＵ　４はＩＰＵ２
から他の命令全要求する。もしＩＰＵ２が命令を準　）
備していなければ、ＡＬＰＵ４は命令が準備されるまで
アイドルとなる。

ＩＰＵ　２とＡＬＰＵ　４は並列に処理するゆえ、両者
は、゛指標レジスタや他の情報の重複コピーを持続せね
ばならない。ＡＬＰＵ　４が、これらコピーの１つを新
らしくする時には常に、ＡＬＰＵ４は新データをＩＰＵ
　２　Ｋ送らねばならない。これによシ自分自身のコピ
ーも新らしくすることができる。

第２Ａ図及び第２Ｂ図は、本発明のディジタル演算処理
システムのより詳細なブロック線図を図示する。ＩＰＵ
　２は第２Ａ図の上部に詳細に図示され、ＡＬＰＵ４は
第２Ａ図の下部に図示される。命令キャッシュ６は第２
Ｂ図の上部に図示され、オペランド・キャッシュ８は第
２Ｂ図下部に図示される。

ＩＰＵ　２　、　ＡＬＰＵ　４　、命令キャッシュ６、
及びオペランド・キャッシュ８の詳細な特徴は、第２Ａ
図と第２Ｂ図に関連し、いまから説明されるであろう。

まづ第２Ａ図には、ＩＰＵ２は、システム・バス２５（
第２Ｂ図）を介し、主メモリ３０（第１図）からデータ
・バス１２で、実行する命令を受ける。

命令レジスタ（ＩＲ）４２を含むことが図示される。

命令レジスタ４２は、命令コード（ｏｐ　ｃｏｄｅ　）
部。

マイクロ−命令コード（ＭＯＰ　）部、及び実効アドレ
ス（ＦＡ）部を含む。命令レジスタ４２命令の命令コー
ド部は、内部バス１０５でマイクロアドレス・プログラ
マブル・リード・オンリ・メモリ（ＦＲＯＭ）祠に接続
さ゛れ、これは、バス１０５の命令コード入力に反応し
、バス１０７に、相応するマイクロアドレスを読み出す
。マイクロアドレスは、Ｒ２レジスタ絽のマイクロアド
レス部に一時的にストアされる。

命令レジスタ４２の命令のＥＡ部は、バス１１４テ加算
器に接続される。加算器４６はまた、５ビット指標レジ
スタ５６−５８にストアされた指標飴ＸＬ−Ｘ３の１つ
かそれ以上を、入力としてバス１１２で受ける。指標レ
ジスタ５６−５８の１つかそれ以上は、例えば、ＡＰＬ
Ｕ４への適当な接続（図示せず）手段による。前の命令
によシ、ロードされていることが可能である。加算器４
６は、１５ピツト出力を、Ｒ２レジスタ槌のＥＡ部へ通
ずるバス１１１に発生するとともに、トライステート・
バッファ５９を介し、命令キャッシュ６に接続する命令
アドレス・バス１４に通ずるバス１０９にも、正ビツト
出力を発生する。

ＩＰＵ２はまた、現在の命令のアドレスを保持し、ＡＬ
ＰＵ　４への適当な接続（図示せず）によシ、ロードさ
れうる。命令プログラム・カウンタ（ＩＰＣ）５２を含
む。ＩＰＣ５２の出力は、トライステート・バッファ団
を介し、命令キャッシュ６に接続されるアドレス・バス
１４に接続される。

１トラツプ”と１割込“に、ライン１１５及びライン１
１６で、それぞれ反応するブレイク論理（ｂｒｅａｋｌ
ｏｇｉｃ）は、以下で詳細に説明のため、ＩＰＵ２の中
に設けられる。

ＩＰＵ２の中にはまた、図示されているが、本発明に特
に密接な関係はない、雑多なレジスタや回路が含まれる
。これらには、自己テスト情報回路（ｓｅｌｆ−ｔｅｓ
ｔ　ｉｎｔｅｌｌｉｇｅｎｃ＠ｃｉｒｃｕｉｔ　）　４
］と関連番号詞で一般に示めされる類別レジスタがあり
、このレジスタは、有効プログラム・カウンタ（ＥＰＣ
）。

前プログラム・アドレス・レジスタ（ＯＬＤ　ＲＰ　）
　。

ブレイク状態コード・レジスタ（ＢＳＬ）　、テスト・
レジスタ（ＴＥＳＲ）　、と命令状態レジスタ（ＩＳＲ
）を含み、これらは全部、バス１０８を介し内部パス１
６に接続される。

ＡＬＰＵ　４は、シーケンサ６２を含むことが図示され
ている。本発明の好ましい実施例では、シーケンサは、
Ａｄｖａｎｃｅｄ　Ｍｉｃｒｏ　Ｄｅｖｉｃｅｓ（ＡＭ
Ｄ　）　２９１１汎用マイクロプログラマブル制御装置
が使用される。

シーケンサ６２は、計算、インクリメント、分岐。

スタッキング・アドレス等を含む、多くの機能を果す。

シーケンサ６２は、前に命令レジスタ４２に入力された
命令コードに相当するマイクロ命令順序の位置を探すた
めに、Ｒ２レジスタ槌よりくるマイクロアドレス・ワー
ドを、書込み可能制御記憶装ｆｉｔ（ｗｃｓ）６４にア
ドレスのため使用する。ＷＣ８６４の出力は一時、８０
ビット・マイクロワード・レジスタ６にストアされ、そ
の後、バス１２０に接続され、シーケンサ６２の入力で
利用される。マイクロワード・レジスタ６の内容はまた
、バス１２６でデータ算術論理演算装置（Ｄａｔａ　Ａ
ＬＵ　）　７４　ヘ、バス１２４で、テスト回路６３へ
接続され、また、内部バス６７に接続され、ＣＰＵの他
の部分で利用される。テスト回路６３は、マイクロプロ
グラムからの状態ビット（例えば、オーバフロー状態）
をテストする。

これはまた、マイクロプログラムが分岐すべきか、イン
クリメントすべきかも知らせる。

データＡＬＵ７４には、ＡＭｏ　２９０１装置が使用さ
れる。

データＡＬＵ　７４には、１４の作業レジスタがあシ、
その内の５側線プログラマが使用可能である。データＡ
ＬＵ７４は、メモリ・データ・レジスタ（ＭＤＲ）６８
゜実効アドレス（ＥＡ）　・レジスタ７０．一時レジス
タフ２、及び、トライステート・バッファ７１を介し内
部バス１６に接続されるバス１１８．によシ供給される
。ＭＤＲレジスタ絽への入力は、データ・バス２３に接
続される。ＫＡレジスタ７０への入力は、１５ビツト・
バス１０４を介し、ＩＰＵ２のＲ２レジスタ栃ＯＥＡ部
出力に接続される。Ｒ２レジスタ拐のＥＡ内容はまた、
バス１０６を介しオペランド・キャッシュ８０２対トマ
ルチプレクサ１１７に直接に接続される。一時レジスタ
フ２の入力は、バス１３０を介し、データＡＬＵ　７４
の出力へ接続される。データＡＬＵ７４の出力は、オペ
ランド・キャッシュ８に接続されるアドレス／データ・
バス２２とともに、トライステート・インバータ７３を
介し、内部バス１６に接続される。

第２Ｂ図には、５ビツトＸＩＫワードのメモリで編成さ
れ九タグ・ストア８２を含む命令キャッシュ６が図示さ
れる。タグ・ストア８２の中の各５ビツト・ワードは、
また、あるワードが有効か無効かを示す１有効″ビツト
が付加され、また、３個のパリティ・ビットも付加され
るので、タグ・ストアの中の各ワードは、実際には９ビ
ツトの長さである。タグ・ストア８２は、命令アドレス
・バス１４の１５ビツト・アドレスの最下位（Ｌ８）１
０ビツトで、アドレス可能である。タグ・ストア８２は
、双方向性５ビツト・バス１３２でコンパレータ８６に
接続される。コンパレータ８６はまた、命令アドレス・
バス１４の１５ビツト・アドレスの５最上位（ＭＳ）ビ
ットを伝導するバス４７に接続される。バス４７はまた
、トライステート・インバータ７５を介しタグ・□スト
ア８２へ接続される。

命令アドレス・バス１４の１５ビツト・アドレスの最下
位（ＬＳ）　１０　ヒラ）は、また、ＩＫ　Ｘ　２４ビ
ツト・メモリで編成されたデータ・ストアあに接続され
る。データ・ストアＢ４ｄ、ＩＰＵ２に結合された高速
度記憶装置であシ、現在ＩＰＵ　２に使用され、また、
ＩＰＵ２で使用される可能性の高いスピット・ワードを
、１Ｋまで保持する。　データ・ストアあの出力はバス
路を介しデータ・バス１２に接続され、次に、データ・
バスｎはＩＰＵ２の命令レジスタ４２へ接続される。デ
ータ・ストア８４はまた、トライステート・インバータ
７６、バス路を介し、システム・バス５へ双方向性に接
続される。

オペランド・キャッシュ８は、１３ビツトＩＫワード・
メモリとして編成されたタグ・ストア９２を含むことが
図示される。タグ・ストア９２の各１３ビツト・ワード
は、また、あるワードの有効、無効を示す１有効”ビッ
トが付加され、また３個のパリティ・ビットも付加され
るので、タグ・ストアの中の各ワードは、実際は１７ピ
ツトの長さである。

タグ・ストア９２は、アドレス／データ・バス２２のＡ
ＬＰＵ　４からの「ビット・アドレスの最下位（ＬＳ）
１０ビツト、あるいは、バス１０６のＩＰＵ　２からの
１５ビツト実効アドレスの最下位（ＬＳ）１０ビツトに
よシ、アクセス可能である。これらアドレスは２対トマ
ルチプレクサ１１７により、オペランド・キャッシュ８
のバス１３３及び１３４に多重化される。

タグ・ストア蛇は双方向性１３ビツト・バス１４０に１
７、：ｆｆンパレータ％に接続される。コンパレータ％
はまた、アドレス／データ・バスｎのスピット・アドレ
スの最上位（ＭＳ）１３ビツトを伝導するバス１３７に
接続される。バス１３７はまた、トライステート・イン
バータ７８を介しタグ・ストア９２へ接続される。アド
レス／データ・バス２２の１３最上位（ＭＳ）ビット部
は、バス１３７を介し、コンパレータ％に接続され、ト
ライステート・インバータ７８を介し、この１３Ｍ５ア
ドレス・ビットをタグ・′）７°２Ｃ）ｆ−′＆　Ｌ／
’ｆＸ　）　７ｆ、Ｌ７’ｊａｌ＞・°）ストア９２に
接続される。さらにアドレス／データ・バスｎの全スピ
ットの長さは、トライステートインバータ７９を介しバ
スｎに接続され、またノ（ス１３４及び１３９を介し、
出力がバス１４１を介しシステム・バス怒に接続される
トライステート・ラッチ郭に接続される。

データ・ストア％はＡＬＰＵ　４に付随された高速記憶
装置でアシ、現在ＡＬＰＵ　４で使用され、またＡＬＰ
Ｕ　４で使用される可能性の高い２４ビツト・ＩＫワー
ドを保持する。データ・ストア％は、アドレス／データ
・バスｎの１０最下位（ＬＳ　）ビット部に接続される
。データ・ストア９４の出力は、ノくス１４２を介しデ
ータ・バス※に接続され、次にデータ・バス詔は、ＡＬ
ＰＵ　４　ＭＤＲレジスタ錦へ接続される。データ・ス
トア９４はまた、トライステート・インバータ７７、バ
ス１４２ヲ介シ、システム・ノ（ス２５に双方向性に接
続される。

好ましい実施例の動作命令キャッシュ６とオペランド・キャッシュ８は、各々
１０２４ワードの独立した２つのキャッシュで、ＩＰＵ
２とＡＬＰＵ　４と主メモリ（資）の間でノ（ソファと
して作用する。各キャッシュのアクセス・タイムは、主
メモリ蜀へのアクセス・タイムに対し、約４倍速い。そ
れぞれのキャッシュの各ワードには、タグと１有効１ビ
ツトが付加される。１有効１ビツトは、そのワードに有
効データが存在することを示す。メモリ読み出しがＣＰ
Ｕによシ発行されると常に、アドレスの下位１０ビツト
は、適当なキャッシュ・タグ・ストアにアクセスのため
使用される。

例えば、ＩＰＵ２によシ、メモリ読み出しが発行される
と、アドレスの１０下位ビットが、タグ・ストア８２に
アクセスし、また、相当する最上位５アドレス・ビット
を読み出すために使用される。ＭＳ５ビットは、コンパ
レータ８６により、メモリ読出しアドレスのＭＳ　５ビ
ツトと比較される。もしこれらがマツチし、パリティ・
エラーがなく、１有効”ビットが真（ｔｒｕｅ　）であ
れば、キャッシュ１ヒツト”があり、これは、データは
主メモリ（資）からでなく、データ・ストア諷から取ら
れたことを意味する。もしキャッシュ・ヒツトがなけれ
ば、主メモリ父がアクセスされる。この場合には、デー
タが主メモリ（資）よシリターンされる時、データはデ
ータ・ストア８に書き込まれるとともに、新らしいタグ
・ビットでタグ・ストア８２に書き込まれ、要求者（ｒ
ｅｑｕ＠５ｔｏｒ）にリターンされる。データの源は要
求者には見えない（ｔｒａｓｐａｖｓｎｔ　）。

命令キャッシュ６は、ＩＰＵ２による読み出しのみであ
る。ＩＰＵ２はそれに書き込みはできない。

オペランド・キャッジ５−８のみが、ＡＬＰＵ４によシ
読み出し及び書き込みが行なわれる。ＡＬＰＵ４がメモ
リ書き込み命令を発行する時はいつも、データは、オペ
ランド・キャッシュ８にライト１スルー’　（ｗｒｉｔ
ｅ−４ｈｒｏｕｇｈ”）される。これは、データは、主
メモリ加と新らしいタグ・ビットつきの相当キャッシュ
位置の、両方に書き込まれることを意味する。これは、
そのキャッシュと主メモリが、一致するため行なわれる
。

ＡＬＰＵ　４がメモリに書き込む時には、そのキャッシ
ュはまた、そのワードが命令キャッシュ６に現在存在す
るか調べるためチェックする。現存すれば、ＡＬＰＵ４
のデータ書き込みは、命令キャッシュ６に書き込まれる
。これは、上に述べたオペランド・キャッシュ８０１ラ
イト・スルー”とは別である。この機能は自己修飾コー
ドの使用を許す。

キャッシュ及び主メモリ・アクセス動作命令キャッシュ
６とオペランド・キャッシュ８に関する。メモリ読出し
及び書き込み動作の数例がいまから説明されるだろう。

まづ書き込み動作については、オペランド・キャッシュ
８は、（１）ＡＩ、ＰＵ　４が主メモリ頷に書き込むた
びに、また（２ンメそり・データが、メモリ・コントロ
ーラ四を介し主メモリ加からＡＬＰＵ　４にリターンさ
れる時はいつでも、ＡＬＰＵ４によル書き込まれる。

命令キャッシュ６は、（１）　ＡＬＰＵ　４が主メモリ
加に書き込む時で、同−主メモリ位置が命令キャッシュ
６にすでに存在であれば常に、また（２）メモリ・デー
タが、メそり・コントローラ四を介し主メモリ胎からＩ
ＰＵ２にリターンされる時はいつも、ＡＬＰＵ　４によ
シ書き込まれる。

読み出し動作については、もし要求情報が適当なキャッ
シュで入手できれば、情報は同一メモリ・サイクルの終
夛に、要求装置に入手されるであろう。即ち、キャッシ
ュ”ヒツト”の時は、すべてのアクセス・タイムは１メ
モリ・サイクルである。

中ヤツシュ“ヒツト”がないとすれば、アクセス・タイ
ムハ、システム・バス器への競合ｅ　メそり・コントロ
ーラ困への競合、及び、主メモリ・アクセス・タイムを
含む、いくらかの要求に依存することになる。システム
・バス部への競合に関しては、ＡＬＰＵ４は一般に、全
ての他の要求装置に対し優先権を与えられる。

キャッシュ・フラッシュ／リセット動作ある状態が起こ
れば、命令キャッシュ６、ｔたは、オペランド・キャッ
ジ：Ｌ８にストアされた情報は、もはや有効とは考えら
れない。例えば、直接メモリ・アクセス（ＤＭＡ　）書
も込み動作がＤＭＡバス３２でメモリ・コントローラ詔
に演ぜられたとすれば、新情報は主メモリ（資）にスト
アされるであろう、かくして何れかのキャッシュ装置に
ストアされ九対応情報は無効になると考えられる。キャ
ッシュ内容の無効化はまた、例えば、主メモリ内容のり
マツピングがメモリ・コントローラあて遂行される時に
も起ζる。

キャッシュ情報が無効になる時、“フラッシュ”または
６リセツト“動作が演ぜられる。′フラッシュ”動作は
、あるキャッシュの情報ワードに付加された１有効”ビ
ットが全部クリア（たとえば０にされる）されることを
意味する。′リセット”動作は両方のキャッシュが１フ
ラツシユ”されることを意味する。フラッシュ、ｔたは
、リセット動作の後は、キャッシュの個々の位置は書き
なおされるまで無効（ｉｎＹａｌｉｄ）となる。

プログラミング研究キャッシュ装置はアプリケーション・ソフトウェアに見
えないから、適切なプログラミング研究は、その全体の
効率を改良する。

命令キャッシュ６のデータ・ストア別の部分は１０２４
ワードの長さであるから、１０２４ワードの長さ以上の
プログラム・ループは、１スラツシングがおこるから、
用心して避けねばならない。即ち、命令は、たびたび、
命令キャッシュ６にスワップインされ、オーバレイされ
、再びスワップアウトされ、平均メモリ・アクセス・タ
イムが遅い結果となるであろう。

命令キャッシュ６は直接マツプ・アルゴリズムを用い、
これは１０２４ワードの長さであるから、１０２４ワー
ド鉱なれたメモリ位置が、命令キャッシュ６の同一位置
にマツプされるであろう。例えば、主メモリ位置０　、
１０２４　、２０４８等は、同一キャッシュ位置にマツ
プされるであろう。かくして、ひんばんにお互いをコー
ルするルーチンがあれば、それらは、１０２４位置のあ
る倍数だけはなれているように位置４づけをされないと
、′スラッシングがおきるであろう。キャッシュの性能
を最良に≠番極するには、しばしばお互いにコールし、
同一のキャッシュ位置にマツプされる結果になるコード
を避けて、過度の１スシツシングを避けるべきである。

同様な考慮はオペランド・キャッシュ８にも適合スる。

大バッファやテーブルを通る長い移動及び走査は、オペ
ランド・キャッシュ８の内容の多くを置き換えるであろ
う。

命令実行の例第３Ａ図には、在来技術のディジタル演算処理システム
による命令の順序の実行を図示する。タイミング図が示
される。ある命令の順序は１例として与えられたもので
、多くの他の命令の順序も選択可能である。

第３Ａ図に示される順序命令は次のとおシ：Ｉｏ＝与え
られたメモリ位置の内容をレジスタＡにロード（ＬＤＡ
と省略）。

１１＝与えられたメモリ位置の内容をレジスタ人の内容
に加算（ＡＤＡ）。この命令は間接アドレスである。

工２＝命令Ｉ５に、　０（ｚｅｒｏ）で分岐（ＢＺＯ）
Ｉａ＝与えられたアドレス位置をインクリメント、０な
ら、とばす（ＩＮＲ）。　）Ｉａ＝命令ＩＯへ無条件分岐（ＢＲＡ）。

Ｉｓ＝次の命令第３Ａ図に示す命令順序は、在来技術の非パイプライン
・プロセッサで実行される。各命令の実行はいくつかの
サブ命令を含む。例えば、命令ＩＯ（ＬＤＡ　）は、ま
づ取出し命令（ＩＰ）を含み、これによシプロセッサは
、プログラム・カウンタ（図示せず）の内容に応じて、
実行される命令ワードを、主メモリよシ取シ出す。次に
、プロセッサハ、２つの連続メモリ命令はできないので
、遅延（ＤＥＬ）命令を演する。次に、プロセッサはデ
ータ取出しくＤＦ）命令を演じ、データ・ワードは主メ
モリよシ取り出される。最後にプロセッサは実行（Ｅ）
命令を演じ、データ・ワードはレジスタＡ（図示せず）
にロードされる。レジスタ人は、例えば、プログラマに
アクセス可能なプロセッサの作業レジスタの１つである
。

ＡＤＡ命令ＩＩに対しては、　プロセッサは命令を取り
出しくＩＦ）　、遅延命令（ＤＥＬ　）を演じ、間接ア
ドレスシング命令（ＩＮＤ）を行ない、データ・ワード
を取シ出しくＤＦ）　、取フ出したデータ・ワードをレ
ジスタＡの内容に加えて命令を実行（Ｋ）する。

ＢＺＯ命令Ｉｚに対しては、プロセッサは命令を取シ出
しくＩＰ）、遅延命令（ＤＥＬ　）を演じ、指定レジス
タの内容が０かテストしくＫＩＬＬ）　、指定レジスタ
の内容が０の時には、指示の新プログラム・アドレスに
分岐して命令を実行するＣＥ）。

ＩＮＲ命令工８に対しては、プロセッサは命令を取り出
しくＩＦ）、遅延命令（ＤＥＬ）を演じ、データ・ワー
ドを取り出しくＤＦ）、レジスタ・ロード命令を演じ（
Ｅ）、レジスタ加算命令を演じ（Ｅ）、ストア命令を演
じ（ＳＴＭ）、最後にテスト命令を演する（Ｅ）。

ＢＲＡ命令工４に対しては、プロセッサは命令を取り出
しくＩＦ）　、Ｉｏ命令に無条件に分岐して、それを実
行する（１）。

第３Ｂ図は、本発明のディジタル演算処理システムによ
る、同一命令順序の実行を図示するタイミング図を示す
。ＩＰＵは命令実行サイクルの１取）出し”部を演じ、
ＡＬＰＵは”実行”部を演する。

ＩＰＵはＬＤＡ命令１．０の実行を、取出し命令（ＩＰ
）の命令を演することで開始する。この時点で、もし要
求する命令が命令キャッシュ（資）になければ、その命
令と命令の関連ブロックは主メモリ（９）から命令キャ
ッシュ（資）へ読み出される。ＩＰＵで演ぜられる次の
命令は、次の取出し命令である。

ＩＰＵがＩ（ｌ命令実行の自分の部分を終えた時、ＡＬ
ＰＵはデータ取出しくＤＦ）命令を始める。此の時に、
もし要求するデータ・ワードがオペランド・キャッシュ
美にないと、データ・ワードと命令の関連ブロックは、
主メモリ（９）からオペランド・キャッシュ（イ）に読
み出される。次にＡＬＰＵは、Ｉ。

命令実行の自分の部分を、実行（Ｅ）動作で完了する。

Ｉｏ命令実行のＩＰＵのデータ取出しくＤＦ）部分が終
った時、ＩＰＵは、ＩＩｌ命令実行自分の取出し命令（
ＩＰ）を始める。工１命令の実行では、ＩＰＵは、ＩＦ
部、遅延部（ＤＥＬ）　、を演じ、それからまた、在来
技術プロセッサにょシ実行された間接アドレス部を演す
る。ＩＰＵが工１命令実行の自分の部分を終る時、ＡＬ
ＰＵはデータ取出し命令を始める。ＡＬＰＵは、工ｌ命
令実行の自己の部分を、実行（Ｅ）動作で終える。

ＩＰＵの１１　命令実行のデータ取出しくＤＦ）部が終
った時、ＩＰＵは工！命令実行の自己の命令取出しくＩ
Ｆ）部を始める。工２命令の実行はＩＰＵにのみ関係す
る。しかし、これはＥｌによる（即ち、それが分岐され
るか否かに）。

ＩＰＵのＩ！の実行終了で、ＩＰＵは命令取出しくＩＦ
）の動作を演することによＪ）、Ｉ８命令の実行を始め
る。ＩＰＵが取出しく　ＩＦ）の命令を終えた時、ＡＬ
ＰＵはデータ取出しくＤＦ）命令を始め、次いで実行（
Ｅ）命令を始める。ＡＬＰＵが、Ｉｓ命令で自分　−の
データ取出し動作を終えた時、工ＰＵは、Ｉ４命令で命
令取出しく　ＩＦ）動作を始める。

ＩＰＵが工（命令で、その命令取出しくＩＦ）動作を終
える時、ＡＬＰＵはＩｓでメモリ・ストア（ＳＴＭ）命
令を始め、またその後しばらくして、ＩＰＵはＩ＋命令
の実行を再び始める（砧令工２において、Ｏで分岐（ｂ
ｒａｎｃｈ−ｏｎ−ｚｅｒｏ　）が真でなかったと仮定
して）。

次ニ、命令キャッシュ（資）とオペランド・キャッジｚ
９Ｑのデータが、有効性を保つと仮定すれば、Ｉｏよ＃
）Ｉ４までの命令順序の実行でＩＰＵとＡＬＰＵの動作
は早い。命令やデータを取シ出すメモリ・アクセスは、
主メモリの代りに、いまは、それぞれ命令キャッシュ（
資）やオペランド・キャッシュ匍に対しなされるので、
ＩＰＵとＡＬＰＵが命令のそれぞれの部分を実行するの
に要する時間が、減少されているのは認められるであろ
う。システム・バス（１５０、第２Ｂ図）に対するＩＰ
ＵとＡＬＰＵの競合もまた消去された。

この点では、工ＰＵは、常に最小１つの命令があり、ま
た時には２つの命令がＡＬＰＵによる実行を待っている
ような方式で、命令を取シ出している。

かくしてＡＬＰＵの動作は、ＩＰＵによシ命令が取９出
されるのを待つことで、中止されない。

画業技術者に対しては、発表された２重キャッシュ・メ
モリを有するパイプライン・プロセッサは、多くの方法
で変更でき、特別に選び出し、以上に説明された、好ま
しい実施例の形式とは異なる多くの実施例が考えられる
のは、明白であろう。

例えば、ある入社命令取出しパイプラインの長さを変更
できる。またある人はキャッシュ・メモリの１方、また
は、両方の、長さ及び／または幅を変更できる。さらに
遅いクロックを使用して、ある人は遅い、安価なメモリ
累子を使用可能である。

したがって、添付特許請求の範囲により、本発明の真の
意図と範囲に入る本発明のすべての変更をカバーするこ
とが期待される。

【図面の簡単な説明】

第１図は、パイプライン・プロセッサと本発明の２重キ
ャッシュ・メモリを組入れたディジタル演算処理システ
ムの好ましい実施例を図示するブロック線図を示す。第２Ａ図及び第２Ｂ図は、本発明のディジタル・演算処
理装置のよシ詳細なブロック線図を示す。第３Ａ図は、従来技術のディジタル演算処理システムに
よる。命令順序（５ｅｑｕｅｎｃｅ　ｏｆ　１ｎｓｔｒ
ｕｃ−ｔｉｏｎ）の実行を図示するタイミング図を示す
。第３Ｂ図は、本発明のディジタル演算処理システムによ
る、同一の命令順序の実行を図示するタイミング図を示
す。第１図において、２はＩＰＵ、　４はＡＬＰＵ、　６は
命令キャッシュ、８はオペランドキャッシュ、詔はメモ
リコントローラ、菊は主メモリ。特許出願人　フォーフェイス・システムズ・インコーホ
レーテッド代理人弁理士　玉　蟲　久　五　部子１−心１ｉ”１０．２１３第１頁の続き［相］発　明　者　スウイーメン・クエク　アメリカ合
衆国力リルマデン・ロード。［相］発　明　者　エリツク・シー・ウニ　アメリカ合
衆国カリスターフェルト　カナダ・ドライブ。フォルニア州９５０３５．サン拳ノゼ、ア１９７９幡フォルニア州９５０３５．　ミルビティス。ｇ２１１

Claims

【特許請求の範囲】１、　システムで使用可能な命令及びオペランドを含む
、比較的大きい数の情報ブロックをそのアドレス可能の
位置にストアする。比較的に大容量で低速度の主メモリ
装置とともに使用するディジタル処理システムにして、該命令を取シ出すための命令先取シ装置、前記命令を実
行するための算術論理演算装置；限られたブロック数の
該情報をそのアドレス可能な位置にストアする該命令先
取り装置に付随され、それによりめられる情報がそこに
含まれているか否かを決定するため前記命令先取シ装置
に応答する手段を含む比較的に小容量で低速度の命令キ
ャッシュ・メモリ装置；限られた数の前記情報のブロッ
クをそのアドレス可能な位置にストアするため該算術論
理演算装置に付随され、それによ請求められる情報がそ
こに含まれるか否かを決定するための前記算術論理演算
装置に応答する手段を含む、比較的に小容量で高速度な
オペランド・キャッシュ・メモリ装置；を具えるディジ
タル演算処理システムであシ、それにょシ、前記命令先
取シ装置のサイクル・タイムは、それにょ請求められる
情報が、すでに前記命令キャッシュ・メモリに存在する
程度に減少され、それにょシ、前記算術論理演算装置の
サイクル・タイムは、それにょ請求められる情報が、す
でに前記オペランド・キャッシュ・メモリ装置に存在す
る程度に減少されるディジタル演算処理システム。２、　前記主メモリ装置は、唯一のアドレス・ワードに
よって各々識別された多くのデータ・ワードの形の前記
情報をストアするものであり、前記キャッシュメモリ装
置は、該データ・ワードの限られた数の形の情報ブロッ
クの前記各々限られた数をストアし、第１ストレッジ手
段の中の前記データ・ワードの少なくとも１個が、前記
の各命令先取シ装置や前記算術論理演算装置にょ夛、前
記データ・ワードを取出すため発生された。唯一のアド
レス・ワードの下位部分によシ、アクセス可能である該
第１ストレッジ手段を具え、前記決定手段は、前記第１
ストレッジ手段にストアされた前記データ・ワードに応
する前記アドレス・ワー・ドの上位部分をストアし、前
記アドレス・ワードの該下位部分によシアドレス可能な
第２ストレッジ手段、前記の唯一のアドレス・ワードの
前記下位部分に応じ前記の唯一のアドレス・ワードの上
位部分と該第２ストレッジ手段にストアされた上位部分
を比較し、前記の唯一のアドレス・ワードに応するデー
タ・ワードが前記の対応するキャッシュ・メモリ装置に
存在するか否かの指示を与える比較手段を具える特許請
求の範囲第１項記載のディジタル演算処理システム。３、前記中央演算処理装置は、いづれかのキャッシュ・
メモリ装置の内容が無効な時を検知し、無効内容の状態
を示す手段、無効データを含むキャッシュ・メモリ装置
の内容をクリヤし、該キャッシュ・メモリ装置に前記主
メモリ装置から適当な情報を再ロードし、前記検知手段
に有効内容の状態指摘を発生させる手段、を具える特許
請求の範囲第１項記載のディジタル演算処理システム。