JP2737820B2

JP2737820B2 - メモリアクセス方法およびシステム

Info

Publication number: JP2737820B2
Application number: JP5206635A
Authority: JP
Inventors: ディーングローブスランダル; トーマスオークィンザセカンドジョン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1992-09-24
Filing date: 1993-08-20
Publication date: 1998-04-08
Anticipated expiration: 2013-04-08
Also published as: JPH06161893A; US5555400A; EP0589661A1

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、コンピュータおよびデ
ータ処理システムの分野に関し、特に、メモリアクセス
および制御の分野に関する。特に、本発明は、データ処
理システムのキャッシュ操作機構に関する。

【０００２】なお、本明細書の記述は本件出願の優先権
の基礎たる米国特許出願第０７／９５０，３５１号（１
９９２年９月２４日出願）の明細書の記載に基づくもの
であって、当該米国特許出願の番号を参照することによ
って当該米国特許出願の明細書の記載内容が本明細書の
一部分を構成するものとする。

【０００３】

【従来の技術】記憶階層を有するデータ処理するシステ
ムでは、プロセッサにより高速アクセスするため、主記
憶に記憶されているデータの選択されたラインがキャッ
シュと呼ばれる高速バッファにコピーされる。プロセッ
サによりデータが要求されるか、あるいはプロセッサが
実行命令を必要とすると、常に、システムはまずキャッ
シュを検査し、データまたは命令がそのキャッシュから
獲得できるか否かを判定する。判定した結果、キャッシ
ュから獲得できる場合は、キャッシュに存在するデータ
／命令は直ちにプロセッサに供給される。他方、キャッ
シュから獲得できない場合は、データ／命令は主記憶か
ら取り出されるが、その取り出しはキャッシュからより
も遅い。キャッシュディレクトリに直接アクセスするに
は、変換された絶対アドレスではなく、非変換論理アド
レスの一部が、各プロセッサ要求で、よく用いられる。
というのは、データ／命令の変換されたアドレスを待つ
ため、システムパフォーマンスが著しく低下するからで
ある。代表的なキャッシュシステムは米国特許第5,113,
508 号（発明者：Groves他，出願人：本出願と同一）に
記載されている。ここに、特許番号を付して本明細書の
一部とする。また、代表的なキャッシュシステムは"IBM
RISC SYSTEM/6000 Technology",First Edition, 1990,
IBM order number SA23-2619 に記載されている。ここ
に、マニュアル名を付して本明細書の一部とする。

【０００４】キャッシュシノニム(cache synonym) は非
変換論理アドレスを用いて生成され、そのキャッシュに
アクセスする。所定のデータ／命令項目はキャッシュ内
の複数記憶場所に存在することができ、２つ以上の名前
でアクセスすることができる。米国特許第 4,400,770号
および米国特許第 4,797,814号に記載されているよう
に、シノニムは次の場合に柔軟性を有する。すなわち、
複数プロセスが所定のキャッシュラインを異なる論理
（仮想）アドレスを用いてアクセスするか、任意の時点
で、論理（仮想）または物理（実）アドレスのいずれか
を用いてキャッシュラインにアクセスする機能が存在す
るときに、柔軟性を有する。米国特許第 4,400,770号お
よび米国特許第 4,797,814号の番号を付して本明細書の
一部とする。

【０００５】このようなシノニムを用いた結果、種々の
スキーム、例えば、Brenza, J.G.,IBM Technical Discl
osure Bulletin, June 1991, pp377-381に記載されてい
るスキームは、キャッシュシノニムが異なるキャッシュ
ライン記憶場所に対するエントリがないように設計され
ている。

【０００６】しかし、その従来例では、キャッシュ内の
データを、キャッシュラインからキャッシュラインに、
効率的にコピーするか、あるいは移動する必要性または
要望を取り扱っていない。このような機能がある場合、
キャッシュ管理のシステムスループットが改善されるこ
とになる。すなわち、システムスループットは、主記憶
からの複数のロード／ストアを実行しデータをコピーす
るか、あるいは移動する要件を削除し、そのキャッシュ
に複製エントリを作成し、そのキャッシュと主記憶の間
に余分のトラフィックを生成することにより改善するこ
とができる。

【０００７】また、従来例では、キャッシュディレクト
リのキャッシュラインを容易にリネームする機能を取り
扱っていない。この機能がある場合は、データ項目を１
キャッシュラインごとに論理的にコピーするのが望まし
く、その上、１つのキャッシュラインを用いるだけで論
理的にコピーするのが望ましい。

【０００８】従って、本発明の目的は、データ処理シス
テムの全体的なシステムパフォーマンスを改善すること
にある。

【０００９】本発明の他の目的は、データ処理システム
のメモリアクセスのレイテンシ(latency) を改善するこ
とにある。

【００１０】本発明のさらに他の目的は、データ処理シ
ステムのキャッシュを管理する改善された方法を提供す
ることにある。

【００１１】本発明のさらにまた他の目的は、データ処
理システムのキャッシュパフォーマンスを改善すること
にある。

【００１２】本発明の他の目的は、主記憶からのリロー
ドを最小限にすることにある。

【００１３】本発明のさらに他の目的は、データ処理シ
ステムキャッシュのヒット率を向上させることにある。

【００１４】

【課題を解決するための手段】本発明は、キャッシュを
有するデータ処理システムのパフォーマンスを向上させ
る方法および装置を提供する。１つのキャッシュライン
からのデータを、そのキャッシュ内の別のキャッシュラ
インに、容易にしかも高速にコピーすることができる。
好ましい実施例では、このコピーキャッシュラインオペ
レーションは、中央処理装置の命令セットのオペコード
を用いて開始される。従って、データ処理システムでラ
ンしているソフトウェアは、このＣＰＵ命令を実行し
て、このキャッシュラインコピーを呼び出す。

【００１５】他の機能はキャッシュラインをリネームす
る機能であり、そのオペレーションを開始するのにＣＰ
Ｕ命令を再び用いる。このようにすると、物理的にコピ
ーすることなく、キャッシュデータが論理的にコピーさ
れる。

【００１６】次のようにすることができる。

【００１７】１）本発明に係るデータ処理システムのメ
モリアクセス方法であって、複数のデータバイトを前記
データ処理システムのメモリからキャッシュの第１のラ
インにロードするステップと、前記複数のデータバイト
を前記キャッシュの第２のラインに前記メモリに、再ア
クセスすることなくストアするステップとを備えたこと
を特徴とする。

【００１８】２）上記１）に記載の方法において、前
記ストアするステップは、前記ロードステップと実質的
に同一に起こることを特徴とする。

【００１９】３）上記１）に記載の方法において、前
記ロードステップおよびストアステップは、中央処理装
置 (CPU)命令により開始されることを特徴とする。

【００２０】４）上記１）に記載の方法において、前
記キャッシュはキャッシュアレイとキャッシュリロード
バッファを備えたことを特徴とする。

【００２１】５）上記４）に記載の方法において、前
記複数のデータバイトは前記キャッシュの前記キャッシ
ュリロードバッファにロードされることを特徴とする。

【００２２】６）上記５）に記載の方法において、前
記キャッシュリロードバッファの前記複数のデータバイ
トは、キャッシュミスの結果として、前記キャッシュア
レイに転送されることを特徴とする。

【００２３】７）本発明に係るデータ処理システムの
メモリアクセス方法において、キャッシュの第１のキャ
ッシュラインに前記データ処理システムのメモリにスト
アされたデータをロードするステップと、第２のキャッ
シュラインに前記第１キャッシュラインにストアされた
データをロードするステップとを備えたことを特徴とす
る。

【００２４】８）上記７）に記載の方法において、前
記第２のキャッシュラインにロードするステップは、中
央処理装置(CPU) 命令により開始されることを特徴とす
る。

【００２５】９）上記７）に記載の方法において、前
記第１のキャッシュおよび第２のキャッシュが中央処理
装置(CPU) 命令により開始されることを特徴とする。

【００２６】１０）上記９）に記載の方法において、
前記データは前記ＣＰＵ命令により指定されることを特
徴とする。

【００２７】１１）上記９）に記載の方法において、
前記第２のキャッシュラインは前記ＣＰＵ命令により指
定されることを特徴とする。

【００２８】１２）上記７）に記載の方法において、
前記キャッシュはキャッシュアレイとキャッシュリロー
ドバッファを備えたことを特徴とする。

【００２９】１３）上記７）に記載の方法において、
前記第２のキャッシュラインはキャッシュミスの結果と
してロードされることを特徴とする。

【００３０】１４）上記１２）に記載の方法におい
て、前記キャッシュリロードバッファは前記第１のキャ
ッシュラインを備えたことを特徴とする。

【００３１】１５）上記１２）に記載の方法におい
て、前記キャッシュアレイは前記第２のキャッシュライ
ンを備えたことを特徴とする。

【００３２】１６）本発明に係るデータ処理システム
のメモリアクセス方法において、キャッシュディレクト
リにディレクトリエントリを有するキャッシュラインを
前記データ処理システムのメモリにストアされたデータ
からロードするステップと、前記キャッシュラインのデ
ィレクトリエントリをリネームするステップとを備えた
ことを特徴とする。

【００３３】１７）上記１６）に記載の方法におい
て、キャッシュラインをロードするステップは、中央処
理装置(CPU) 命令により開始されることを特徴とする。

【００３４】１８）上記１７）に記載の方法におい
て、前記データは前記ＣＰＵ命令のオペランドにより指
定されることを特徴とする。

【００３５】１９）上記１７）に記載の方法におい
て、前記ディレクトリエントリは前記ＣＰＵ命令のオペ
ランドにより指定された値にリネームされることを特徴
とする。２０）上記１６）に記載の方法において、前記キャッ
シュはキャッシュアレイとキャッシュリロードバッファ
を備えたことを特徴とする。

【００３６】２１）本発明に係るデータ処理システム
のメモリをアクセスするシステムであって、複数のデー
タバイトを、前記データ処理システムのメモリから、キ
ャッシュの第１のラインにロードする手段と、前記複数
のデータバイトを前記キャッシュの第２のラインに、前
記メモリに再アクセスせずにストアする手段とを備えた
ことを特徴とする。

【００３７】２２）上記２１）に記載のシステムにお
いて、前記ストアは前記ロードと実質的に同時に起こる
ことを特徴とする。

【００３８】２３）上記２１）に記載のシステムにお
いて、前記キャッシュはキャッシュアレイとキャッシュ
リロードバッファを備えたことを特徴とする。

【００３９】２４）上記１９）に記載のシステムにお
いて、前記複数のデータバイトは前記キャッシュの前記
キャッシュリロードバッファにロードされることを特徴
とする。

【００４０】２５）上記２４）に記載の方法におい
て、前記キャッシュリロードバッファの前記複数のデー
タバイトは、キャッシュミスの結果として、前記キャッ
シュアレイに転送されることを特徴とする。

【００４１】２６）本発明に係るデータ処理システム
のメモリをアクセスするシステムであって、キャッシュ
の第１のキャッシュラインに前記データ処理システムの
メモリにストアされたデータをロードする手段と、第２
のキャッシュラインに前記第１キャッシュラインにスト
アされたデータをロードする手段とを備えたことを特徴
とする。

【００４２】２７）上記２６）に記載のシステムにお
いて、前記データは前記ＣＰＵ命令により指定されるこ
とを特徴とする。

【００４３】２８）上記２６）に記載のシステムにお
いて、前記第２のキャッシュラインはキャッシュミスの
結果としてロードされることを特徴とする。

【００４４】２９）上記２６）に記載のシステムにお
いて、前記キャッシュはキャッシュアレイとキャッシュ
リロードバッファを備えたことを特徴とする。

【００４５】３０）上記２６）に記載のシステムにお
いて、前記第２のキャッシュラインはキャッシュミスの
結果としてロードされることを特徴とする。

【００４６】３１）上記２３）に記載のシステムにお
いて、前記キャッシュリロードバッファは前記第１のキ
ャッシュラインを備えたことを特徴とする。

【００４７】３２）上記２３）に記載のシステムにお
いて、前記キャッシュアレイは前記第２のキャッシュラ
インを備えたことを特徴とする。

【００４８】３３）本発明に係るデータ処理システム
のメモリをアクセスするシステムであって、キャッシュ
ディレクトリにディレクトリエントリを有するキャッシ
ュラインに前記データ処理システムのメモリにストアさ
れたデータをロードする手段と、前記キャッシュライン
のディレクトリエントリをリネームする手段とを備えた
ことを特徴とする。

【００４９】３４）上記３３）に記載のシステムにお
いて、前記データは前記ＣＰＵ命令により指定されるこ
とを特徴とする。

【００５０】３５）上記３３）に記載のシステムにお
いて、前記ディレクトリエントリはＣＰＵ命令のオペラ
ンドにより指定された値にリネームされることを特徴と
する。３６）上記３３）に記載のシステムにおいて、前記キ
ャッシュはキャッシュアレイとキャッシュリロードバッ
ファを備えたことを特徴とする。

【００５１】３７）本発明に係るデータ処理システム
のメモリをアクセスするシステムであって、ＣＰＵと、
該ＣＰＵに結合され、複数のデータバイトを、前記デー
タ処理システムのメモリから、キャッシュの第１ライン
にロードする手段と、前記ＣＰＵに結合され、前記複数
のデータバイトを、前記キャッシュの第２のラインに、
前記メモリを再アクセスせずにストアする手段とを備え
たことを特徴とする。

【００５２】

【実施例】以下、図面を参照して本発明の実施例を詳細
に説明する。

【００５３】AIX カーネルには、データをコピーする速
度に非常に敏感なオペレーションが種々存在する。AIX
はInternational Business Machines Corporation の商
標である。（AIX はAT&TおよびUniversity of Berkeley
により開発されたUNIXオペレーティングシステムのIBM
バージョンである。）UINXはUnix System Laboratorie
s, Inc.の商標である。これらのオペレーションのうち
の最も重要なものは、'fork'システムコールである。こ
のシステムコールにより、親プロセスと並行して実行す
る子プロセスが生成(spawn) される。その子プロセスは
親プロセスのデータ領域のコピーを必要とする。種々の
スキームを用いて、AIX およびMachでそれぞれ用いられ
る'copy-on-read','copy-on-write'のようなスキームで
必要とする実際のコピーの実際の量を減少させた。この
ように適正化させた場合でも、ページをコピーするに
は、依然、大幅なシステムタイムを必要とする。そし
て、ページをより効率的にコピーする方法が切に望まれ
ている。

【００５４】１つの非常に効率的な方法は、"copy data
cache line"命令を供給することである。その命令が遅
い場合でも、この命令は、ページをコピーする現在の方
法よりも著しく速い。次に、代表的なデータ処理マシー
ンがコピーすることができるサイクル当たりのバイト数
と比較する。

【００５５】バイト／サイクルマシーン 2 RS/6000 Model 530 - 固定小数点 4 RS/6000 Model 530 - 浮動少数点このため、４サイクルコピーキャッシュラインは、浮動
少数点レジスタ（３２バイト／キャッシュラインとす
る）を用いて、２倍だけ速くデータを移動させることに
なる。コピーキャッシュライン命令はメモリからの'to
adress' を取り出すことはない。このことは、コピーキ
ャッシュライン命令はキャッシュミスの少なくとも1/2
を保管し、従って、ヒット率を改善するという点で、さ
らに別のパフォーマンスの効果である。

【００５６】キャッシュラインコピーをRISC型プロセッ
サにインプリメントするのに、３つの公知の任意指定が
存在する。

【００５７】１）２つのメモリアドレス、すなわち、RA
+ RB と(RA + 1) + RB を有する命令を有する。２つの
メモリアドレスのうちの一方はソースを指し、他方はデ
スティネーションを指す。ただし、RA + 1はRAの直後の
レジスタである。これは、ソフトウェアに対する簡単な
インタフェースであり、一般的に有用であるが、インプ
リメントは非常に複雑である。というのは、他のRISC型
命令は２つのメモリアドレスを有するからである。

【００５８】２）ソースアドレスまたはターゲットアド
レスのいずれかを含む新しい特定のレジスタを規定し、
しかも、RA + RB からその特定のレジスタのアドレスに
コピーし、その特定のレジスタのアドレスからRA + RB
にコピーする新しい命令を規定する。これもインプリメ
ントするのは複雑である。さらに、ソフトウェアはこの
新しいレジスタをどのようにハンドルするかに気を配ら
なければならない（すなわち、そのレジスタが新たにプ
ロセス状態の一部となるか、あるいは、割り込みをデセ
ーブルにしてランするのにこのコードを必要とする順次
使用可能なレジスタになるかのいずれかである）。

【００５９】３）２つの新しい特権命令を規定する。第
１の特権命令はdcmtrb(Data Cache Move to Reload Buf
fer;データキャッシュのリロードバッファへの移動 )で
ある。第２の特権命令はdcrrb(Data Cache Rename Relo
ad Buffer;データキャッシュリネームリロードバッファ
)である。CRB （Cache Reload Buffer; キャッシュリ
ロードバッファ）はインプリメンテーションレジスタで
あり、このレジスタは現在リロードされているラインを
含むデータキャッシュの１ライン追加セットのようにア
クトする。レジスタをこのようにソフトウェアにエクス
ポーズすることにより、コピーキャッシュライン機能を
ソフトウェアでパフォームすることができる。

【００６０】データキャッシュ移動およびリネームをイ
ンプリメントする好ましい例を説明する。図１を説明す
る。標準の中央処理装置(CPU) １０はアドレス信号とデ
ータ信号を生成し、バス１２上に出力する。このバスは
ＣＰＵ１０をシステムメモリ５０と、データキャッシュ
アレイ２０と、タグアレイ３０と、CRB タグアレイ６０
とに接続され、同様に、タグマッチングロジック７０
と、CRB タグマッチングロジック８０とに接続されてい
る。さらに、ＣＰＵ１０はバス１４を介してマルチプレ
クサ１６およびマルチプレクサ２２に接続されている。
マルチプレクサ１６はキャッシュリロードバッファ(CR
B) １８にアクセスし、マルチプレクサ２２はデータキ
ャッシュアレイ２０にアクセスする。ＣＰＵ１０による
キャッシュリロードバッファとデータキャッシュアレイ
への特定のアクセス例を次に説明する。

【００６１】データキャッシュアレイ２０は当業者に公
知の高速read/writeメモリの慣用のアレイであり、ＣＰ
Ｕ１０に対するデータキャッシュとして用いられる。デ
ータの完全なキャッシュライン（好ましい例では、３２
バイト）がそのキャッシュに書き込み実行可能になるま
で、システムメモリ５０からのバッファデータに対し
て、キャッシュリロードバッファ１８が用いられる。タ
グアレイ３０は１キャッシュラインごとに１エントリを
データキャッシュアレイ２０に含む。その１エントリは
所定のキャッシュライン記憶場所のシステムメモリアド
レスの値を備えている。CRB タグアレイ６０は、データ
キャッシュアレイ２０に書き込む予定のデータに対応す
るアドレスをキャッシュリロードバッファ１８に一時的
にストアするためのバッファである。キャッシュリロー
ドバッファ１８のデータがデータキャッシュアレイ２０
内の記憶場所に転送される場合、CRB タグアレイ６０に
ストアされた値は、タグアレイ３０の対応する記憶場所
に転送される。次に、CRB タグアレイとタグアレイ３０
の間でデータ転送をし、同様に、キャッシュリロードバ
ッファ１８とデータキャッシュアレイ２０の間でのデー
タ転送は、さらに図２ないし図５を参照して説明する。

【００６２】制御ロジック４０は図１に示す全体的なデ
ータフローを制御する。制御ロジック４０はＣＰＵ１０
と、CRB マルチプレクサ１６と、CRB １８と、データキ
ャッシュアレイマルチプレクサ２２と、データキャッシ
ュアレイ２０とに結合される。さらに、制御ロジックは
タグマッチングロジック７０と、CRB タグマッチングロ
ジック８０とに結合されている。タグマッチングロジッ
ク７０および８０はバス１２上に存在するアドレス間で
いつマッチングがとれたかを検知する。しかも、タグア
レイ３０またはCRB タグアレイ６０のいずれかにストア
されたアドレス間でいつマッチングがとれたかを検知す
る。

【００６３】慣用のキャッシュシステムでは、ＣＰＵ１
０はバス１２を介してデータにアクセスする。そのパフ
ォーマンスの場合、キャッシュ２０を用いて、ＣＰＵ１
０にデータを直ちに供給する。そのキャッシュはシステ
ムメモリ５０に駐在するデータの一部を局所的にコピー
する。そのキャッシュは、前のＣＰＵ命令でＣＰＵ１０
により最近(recently)にアクセスされたデータに、近い
か、あるいは近接するデータを備えている。従って、Ｃ
ＰＵ１０によりアクセスされる次のデータが、システム
メモリ５０にのみに駐在するより、（比較的速いアクセ
スタイムを有する）キャッシュ２０に駐在する確率の方
が高い。

【００６４】ＣＰＵ１０はアドレスをバス１２に入れ
て、このようなアドレスからデータを読み出すと、タグ
マッチングロジック７０は、タグアレイ３０のアドレス
と比較することにより、そのアドレスがデータキャッシ
ュアレイに現在存在するキャッシュラインのアドレスと
一致するか否かを判定する。このタグアレイ３０がその
キャッシュにストアされた対応するデータラインのアド
レスを備えていると、このタグマッチングロジック７０
はバス１２上のアドレスと、タグアレイ３０に記憶され
た値とを比較することができる。一致した場合、すなわ
ち、データキャッシュアレイ２０がＣＰＵ１０によりシ
ークされたデータ項目を含む場合、ＣＰＵ１０は要求さ
れたデータをキャッシュ２０から取り出す。このこと
は、タグマッチングロジック７０が信号線２４を介して
制御ロジック４０に、一致が検出されたことをシグナル
するので分かる。そして、制御ロジックは信号線２６を
介してキャッシュアレイ２０をイネーブルにし、そのキ
ャッシュアレイ２０に含まれる要求されたデータを信号
線２８を介してＣＰＵ１０に転送する。一致が検出され
ない場合、すなわち、データキャッシュアレイがＣＰＵ
１０によりシークされたデータ項目を含まない場合は、
タグマッチングロジックが検査され、要求されたデータ
が既にキャッシュリロードバッファ(CRB) １８にバッフ
ァリングされており、キャッシュ２０へのストアを待つ
（図２を参照して詳細に説明する）。このことは、バス
１２上のアドレスをCRB タグアレイ６０にストアされた
値と比較することにより行われる。その検査の結果は、
信号線２５を介して制御ロジック４０に転送される。一
致が検出された場合、制御ロジック４０により、CRB １
８からのデータは信号線２９を介してＣＰＵ１０に転送
される。一致がタグマッチングロジック７０および８０
により検出された場合は、ミスが生じる。これは、キャ
ッシュラインを、システムメモリ５０からのデータを用
いて、データキャッシュにロードしなければならないこ
とを意味する。多分、隣接データ、またはごく隣接した
データが実質的にＣＰＵから要求されるので、キャッシ
ュラインは要求された実際のデータを超えるデータを含
む。従って、キャッシュラインに要求された実際のデー
タがロードされ、同様に、システムメモリ５０にストア
されたデータの隣接するバイト／ワードがロードされ
る。再び、（ミスのため）キャッシュラインをロードす
るこの必要性は、タグマッチングロジック７０および８
０を用いて検出される。そのことは、信号線２４および
２５を介して制御ロジック４０に次のことをシグナルす
る。すなわち、タグアレイ３０またはCRB タグアレイ６
０にストアされたアドレスが、バス１２上に存在するア
ドレスに等しくないことをシグナルする。この時点で、
データはパス１３上のシステムメモリ５０から読み出さ
れ、制御ロジック４０により制御されたマルチプレクサ
１６を介して、パス１７上のキャッシュリロードバッフ
ァ１８にバッファリングされる。データ分の完全なキャ
ッシュラインがパス２１上のデータキャッシュアレイ２
０にストア可能になるまで、このキャッシュリロードバ
ッファを用いて、システムメモリ５０から受信されるデ
ータをバッファリングする。CRB １８が一杯になると、
制御ロジック４０はマルチプレクサ２２をイネーブルに
してCRB １８からのデータをキャッシュ２０の特定の記
憶場所にロードする。このことは、次の利用可能なサイ
クルの間に生じるか、あるいは、その後のキャッシュミ
スが生じるまで延期される。次に、このことを説明す
る。

【００６５】図２を説明する。図２はアドレス１からの
ロードミスの間のキャッシュオペレーションに対する一
方法を示す。再び、ロードミスとは、ＣＰＵ１０がアド
レス１からのデータをロードしようと試みたことを意味
し、このデータはデータキャッシュアレイ２０に現在存
在しないが、（図１に示す）より遅いシステムメモリ５
０に存在する。従って、データキャッシュアレイ２０に
システムメモリ５０からのデータが新たに供給されなけ
ればならない。図２はCRB １８と、データキャッシュア
レイ２０と、CRB タグアレイ６０と、タグアレイ３０と
を示す。CRB １８はデータキャッシュアレイ２０にスト
アされる１ラインのデータを含む。このデータキャッシ
ュアレイ２０は複数次元のアレイであり、そのアレイに
複数ラインのデータを、例えば、記憶場所３２および３
４に、ストアすることができる。各記憶場所には、好ま
しい実施例では、完全なキャッシュラインが含まれる。
しかし、他の構成、例えば、全キャッシュラインに対し
て２つ以上の記憶場所を必要とする構成は、本発明の精
神および範囲を逸脱しないで可能である。CRB タグアレ
イ６０はタグアレイ３０にロードされるアドレス（アド
レス１）を含む。このアドレスはCRB １８に存在するデ
ータと一致する。タグアレイ３０は複数記憶場所、例え
ば、記憶場所３６および３８を含む。ここで、キャッシ
ュアレイ２０にストアされたデータに一致するアドレス
がストアされる。例えば、３２で示すキャッシュライン
にストアされたデータは３６で示すタグアレイ３０にス
トアされるアドレスを有する。図２に示すように、（Ｃ
ＰＵ１０により要求された）アドレス１の１ラインのデ
ータは、１８で示すCRB にバッファリングされる。アド
レス１はCRB タグアレイ６０にバッファリングされる。
このデータおよびアドレス情報は、対応するデータキャ
ッシュアレイ２０およびタグ記憶場所３０にストアされ
ることになる。その情報は空の記憶場所３４および３８
にストアするか、あるいは空の記憶場所が存在しない場
合は最近アクセスされた(recently accessed) 記憶場所
のいずれかにストアされる。一例では、CRB １８および
CRB タグアレイ６０がその後のロードまたはストアミス
により必要とされるまで、データおよびアドレスがキャ
ッシュおよびタグに転送されない。他の例では、CRB デ
ータおよびCRB タグの場合は、CRB データおよびCRB タ
グを、キャッシュへのアクセスを必要としないシステム
サイクルの間、キャッシュアレイおよびタグに転送する
ことができる。従って、システムスループットの遅延が
軽減される。

【００６６】図１を説明する。ＣＰＵストアオペレーシ
ョンを説明する。ＣＰＵ１０はストアオペレーションを
開始すると、ロードオペレーションを説明する際に既に
説明した方法と同様にして、タグマッチングロジック７
０および８０を用いて、タグアレイ３０およびCRB タグ
アレイ６０をバス１２上のアドレスに対して検査しなけ
ればならない。キャッシュヒットがタグアレイ３０で検
知されると（アドレスのマッチングがタグアレイ３０で
検知され、しかも、データキャッシュアレイ２０が書き
込まれるデータのコピーを含む）、制御ロジック４０は
信号線２１′を介してマルチプレクサ２２にディレクト
し、ＣＰＵ１０からのデータをデータパス１４および１
７′を介してデータキャッシュアレイ２０にストアす
る。キャッシュヒットがCRB タグアレイ６０上で検知さ
れると（アドレスマッチングがCRBタグアレイ６０で検
知され、CRB １８が書き込まれるデータのコピーを含む
とき）、制御ロジック４０は信号線１９上のマルチプレ
クサ１６をディレクトし、ＣＰＵ１０からのデータをデ
ータパス１４および１５を介してCRB １８にストアす
る。タグ３０またはCRB タグアレイ６０のいずれかに対
してヒットがない場合、ストアミスが生じる。

【００６７】図３はアドレス２に対するストアミスを示
す。ストアミスとは、ＣＰＵ１０がアドレス２に対する
データストアを開始するが、キャッシュ２０もCRB １８
（データキャッシュアレイ２０を拡張したものである）
もアドレス２データの局所的なコピーを含まない。

【００６８】前にロードされたデータは、アドレス１か
らキャッシュアレイ２０に転送され、対応するタグエン
トリは記憶場所３８に存在する。アドレス２にストアさ
れるデータは、CRB １８に一時的に駐在し、対応するCR
B タグバッファ６０に駐在する。空の記憶場所か、ある
いはLRU(least recently used)記憶場所が４２で示すキ
ャッシュアレイに存在し、対応するタグは記憶場所４４
に存在する。

【００６９】図４を説明する。キャッシュアレイ２０は
アドレス１からのデータを記憶場所３４に含む。このデ
ータは（図２を参照して上述したような）前のロードコ
マンドにより得られる。このキャッシュライン３４に対
する対応するタグアドレスは、記憶場所３８にストアさ
れる。アドレス１からアドレス２に１ページのデータを
コピーするロード／ストアオペレーションは、実行され
ているＣＰＵ命令のストリームが非常に良く似ているの
が典型的であり、しかも、キャッシュアレイ２０にスト
アする前にキャッシュラインをバッファリングするのに
CRB １８を用いることが典型的である場合、その命令列
はアドレス１からのデータをロードし、そのデータをア
ドレス２にストアし、図４に示す状態にする。CRB １８
はアドレス１からのデータを、そのデータをコピーする
ストア命令の結果として含む。これは通常生じることで
はない。それは、１ページのデータが記憶場所（例え
ば、アドレス１）から記憶場所（アドレス２）にコピー
されるとき、同一のデータを用いて、ロード／ストアの
シーケンスが生じるからである。システムフォーク(for
k)オペレーションが生じるとき、Unixオペレーティング
システムでは、頻繁に、ページをこのようにコピーする
必要がある。このフォークにより子が生成(spawn) さ
れ、しかも、その子はそのフォークオペレーションの前
に親が保持した環境の複製コピーを必要とする。

【００７０】図５は図４の結果を示す。これは、CRB お
よびCRB タグ情報が、アドレス３に対するミスの結果と
して（CRB の使用をプロンプトして、キャッシュにミス
データをロードする）、キャッシュアレイ２０およびキ
ャッシュタグ３０に転送されている。理解できることで
あるが、このため、データのコピーがキャッシュアレイ
の記憶場所３４（図５参照）および４２に記憶される。
ストア命令により、アドレス２からのデータがアドレス
１からのデータにより実質的に置換されたとしても、ア
ドレス２からのデータを転送するのに、さらにシステム
サイクルが必要である。

【００７１】このアプローチは、RISC System/6000のよ
うなシステムにページをコピーする技術の現状を示す。
これには主に２つの不都合がある。1)コピーされたデー
タはデータキャッシュアレイ内に２ライン分を占有し、
データキャッシュがより非効率的に使用され、しかも、
キャッシュミス率が増加する。2)アドレス２からのデー
タが不必要にCRB １８にコピーされ、従って、システム
メモリバンド幅およびＣＰＵサイクルが消費される。

【００７２】図６を説明する。図６は、図２に示す命令
と同様のdcmtrb命令を実行することにより生じるミスを
示す。アドレス１からのデータ、すなわち、キャッシュ
にその前に存在しないデータが、CRB １８にバッファリ
ングされる。アドレス１からのデータはCRB ６０にスト
アされたアドレス１のアドレスを有する。dcmtrb命令
は、LRU キャッシュラインを選択して、データキャッシ
ュアレイ３０に空のスロットを作成する必要がない。と
いうのは、dcmtrb命令は、このエントリがデータキャッ
シュアレイ３０に転送されず、従って、そのキャッシュ
で１ラインだけ省かれることになるからである。

【００７３】dcrrb 命令を実行した結果は図７から充分
理解することができる。１ページのデータをコピーする
のに用いられる前のロード／ストアシーケンスに対し
て、dcrrb 命令により、CRB タグアレイ６０にストアさ
れたアドレス値のみを修正することができる。CRB に対
するその後のオペレーションにより、アドレス２からの
データをCRB にロードする必要はない。

【００７４】最後に、dcmtrb/dcrrb対を供給した結果は
図５よりも図８から明らかである。図８は、図７からの
CRB およびCRB タグ情報が、アドレス３に対するミスの
結果として（よって、CRB の使用をプロンプトし、その
伝送がトリガされる）、キャッシュアレイ２０およびタ
グ３０にどのように転送されたかを示す。アドレス１か
らのデータ、すなわち、図７に１８で示すCRB に存在す
るデータは、キャッシュアレイ２０のキャッシュライン
４２に今移動される。対応するアドレス（アドレス
２）、すなわち、図７に６０で示すCRB タグに存在する
アドレスは、タグアレイ３０の記憶場所４４に移動され
る。記憶場所４６および４８は空のままであり、アドレ
ス３からのデータおよびアドレスの受信が実行可能であ
る。アドレス１からのデータ（図５の３４）の複製コピ
ーは、このアプローチを用いて存在せず、データのこの
ような複製を除去することによりキャッシュの利用が改
善される。全体的なシステムパフォーマンスがキャッシ
ュアレイのサイズによりインパクトされると、高速アク
セスのため、キャッシュはシステムメモリに対して比較
的高価であるので、このアプローチを用いたシステムの
コスト／パフォーマンスは大幅に改善される。

【００７５】ハードウェアフローを記述したので、その
ハードウェアをドライブするのに用いられるソフトウェ
アオペレーションを記述する。データキャッシュのリロ
ードバッファへの移動(dcmtrb)と呼ばれる命令は、デー
タをキャッシュリロードバッファに移動するのに供給さ
れる。図９を説明する。命令６２は、オペコード６４
と、一時レジスタ６６と、レジスタＡ６８と、レジス
タＢ７２と、拡張オペコード７４とを有する。dcmtrb
オペコード６４を有する命令６２に対して、CRBに移動
されるキャッシュラインのアドレスは、レジスタＡ(RA)
６８の内容とレジスタＢ(RB)７２を加算することにより
計算される。このアドレスによりアドレスされるバイト
を含むラインは、データキャッシュに既に存在する場
合、キャッシュリロードバッファにコピーされる。この
アドレスによりアドレスされるバイトを含むラインは、
データキャッシュラインに既に存在しない場合、置換の
ために１ラインを選択せずに、キャッシュリロードバッ
ファに直接コピーされる。

【００７６】また、データキャッシュリネームリロード
バッファ(dcrrb) が供給される。dcrrb オペコード６４
を有する命令６２を図９を参照して説明する。CRB がリ
ネームされるアドレスがレジスタＡ(RA)６８とレジスタ
Ｂ(RB)７２の内容を加算することにより計算される。デ
ータキャッシュアレイの１ラインがこのアドレスにより
アドレスされたバイトを含む場合は、そのラインは無効
である。キャッシュリロードバッファのディレクトリエ
ントリにマークが付けられ、アドレスされたバイトを含
む記憶のキャッシュラインサイズのブロックのデータを
含み、しかも、１ラインが置換のために選択されること
を、このキャッシュラインにより示される。

【００７７】R2により指されたページをR3により指され
たページにコピーするコードは、表１のようになる。

【００７８】

【表１】 load r4,0 インデックスレジスタをクリア loop: dcmtrb (r2,r4) ラインをcrb にロード dcrrb (r3,r40 リネーム addi r4,r4,32 インデックスをキャッシュラインサイズだけインクリメント bdn loop 分岐およびカウンタのデクリメント R2は第１キャッシュラインのアドレスをソースページに
含み、R3は第１キャッシュラインのアドレスをデスティ
ネーションページに含む。R4はインデックスレジスタと
して用いられる。（分岐およびデクリメント(bdn) 命令
により用いられる）カウンタは、ライン数をそのページ
に含む。

【００７９】繰り返すため、キャッシュラインをリネー
ムする機能が果たされる。データを記憶場所から記憶場
所にコピーするのに、慣用のオペレーティングによりパ
フォームされたロード／ストアシーケンスは、データが
一度ストアされると、データからコピーされたものは必
要としない。しかし、慣用的なアプローチはこのデータ
を必要としないが、キャッシュに保持されているデータ
の複製コピーが得られる。我々は、データの複製を認識
し除去することにより、キャッシュベースシステムのコ
スト／パフォーマンスを大幅に改善した。従って、キャ
ッシュストア非効率を最小にし、同様に、キャッシュと
のデータトラフィックを最小にすることができる。

【００８０】以上、本発明の実施例を説明したが、本発
明の精神および範囲を逸脱することなく種々の変更を行
うことができることは、当業者にとって当然のことであ
る。

【００８１】

【発明の効果】以上説明したように、本発明によれば、
上記のように構成したので、データ処理システムの全体
的なシステムパフォーマンスを改善することができる。

【図面の簡単な説明】

【図１】キャッシュを有するデータ処理システムのシス
テムデータフローを示すブロック図である。

【図２】ロードミスが生じた後のキャッシュの状態と対
応するデータタグを示す図である。

【図３】ストアミスが生じた後のキャッシュの状態と対
応するタグを示す図である。

【図４】ＣＰＵ命令のロード／ストアシーケンスが生じ
た後のキャッシュの状態と対応するタグを示す図であ
る。

【図５】ＣＰＵ命令のロード／ストアシーケンスの後に
ミスが生じた場合のキャッシュの状態と、対応するタグ
を示す図である。

【図６】ロードミスが生じた後のキャッシュの状態と、
対応するタグを示す図である。

【図７】リネームＣＲＢ命令が生じた後のキャッシュの
状態と、対応するタグを示す図である。

【図８】ＣＰＵ命令のロード／リネームシーケンスの後
にミスが生じた場合のキャッシュの状態と、対応するタ
グを示す図である。

【図９】dcmtrbおよびdcrrb 命令のフォーマットを示す
図である。

【符号の説明】

１０ＣＰＵ１２，１４バス１６，２２マルチプレクサ１８キャッシュリロードバッファ２０データキャッシュアレイ３０タグアレイ４０制御ロジック５０システムメモリ６０ CRB タグアレイ７０タグマッチングロジック８０ CRB タグマッチングロジック

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョントーマスオークィンザセカンドアメリカ合衆国 78727 テキサス州オースチンハローデンドライブ 2700 (56)参考文献欧州特許出願公開280954（ＥＰ，Ａ) 欧州特許出願公開375883（ＥＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】プロセッサと、主記憶と、キャッシュと
相互結合したデータ処理装置であって、ディレクトリを
有するキャッシュ・リロード・バッファと相互結合した
データ処理システムで、データを移動させ、前記主記憶
と前記キャッシュの間のキャッシュミス・トラフィック
を減少させる方法であって、前記主記憶または前記キャッシュから第１のアドレスの
１ラインのデータを前記キャッシュ・リロード・バッフ
ァにロードするステップと、前記第１のアドレスを前記バッファ・ディレクトリにロ
ードするステップと、前記バッファ・ディレクトリの前記第１のアドレスを第
２のアドレスに変更するステップと、前記第１のアドレスを有する前記キャッシュの任意のデ
ータを前記バッファ・ディレクトリのアドレスの変更に
応答して無効にして前記キャッシュのストア効率を改善
するステップとを備えたことを特徴とする方法。
【請求項２】プロセッサと、主記憶と、キャッシュと
相互結合したデータ処理装置であって、ディレクトリを
有するキャッシュ・リロード・バッファと相互結合した
データ処理システムで、データを移動し、前記主記憶
と、前記キャッシュの間のキャッシュミス・トラフィッ
クを減少させるシステムであって、前記主記憶または前記キャッシュから第１のアドレスの
１ラインのデータを前記キャッシュ・リロード・バッフ
ァにロードする手段と、前記第１のアドレスを前記バッファ・ディレクトリにロ
ードする手段と、前記バッファ・ディレクトリの前記第
１のアドレスを第２のアドレスに変更する手段と、前記第１のアドレスを有する前記キャッシュの任意のデ
ータを前記バッファ・ディレクトリのアドレスの変更に
応答して無効にして前記キャッシュのストア効率を改善
する手段とを備えたことを特徴とするシステム。
【請求項３】データ処理システムのデータを移動させ
て、主記憶とキャッシュの間のキャッシュミス・トラフ
ィックを減少させるシステムにおいて、ＣＰＵと、該ＣＰＵに結合した手段であって、前記データ処理シス
テムの前記主記憶または前記キャッシュから第１のアド
レスの１ラインのデータをキャッシュ・リロード・バッ
ファにロードする手段と、前記キャッシュ・リロード・バッファと関係付けをした
バッファ・ディレクトリに、前記第１のアドレスをロー
ドする手段と、前記ＣＰＵに結合した手段であって、前記バッファ・デ
ィレクトリの前記第１のアドレスを第２のアドレスに変
更する手段と、前記第１のアドレスを有する前記キャッシュの任意のデ
ータを、前記バッファ・ディレクトリのアドレス変更に
応答して無効にして前記キャッシュのストア効率を改善
する手段とを備えたことを特徴とするシステム。
【請求項４】プロセッサと、主記憶と、キャッシュ・
アレイと相互結合したデータ処理システムであって、デ
ィレクトリを有するキャッシュ・リロード・バッファと
相互結合したデータ処理システムで、キャッシュライン
をリネームして前記キャッシュ・アレイのストア効率を
改善する方法であって、前記キャッシュ・アレイから第１のアドレスの最初のラ
インのデータを前記キャッシュ・リロード・バッファに
転送するステップと、前記第１のアドレスを前記バッファ・ディレクトリにロ
ードするステップと、前記バッファ・ディレクトリの前記第１のアドレスを第
２のアドレスに変更するステップと、前記第１のアドレスを有する前記キャッシュの任意のラ
インのデータを前記バッファ・ディレクトリの前記第１
のアドレスから前記第２のアドレスへの変更に応じて無
効にして前記キャッシュの１つ以上のラインを利用可能
にするステップと、前記第２のアドレスの最初のラインのデータを、前記キ
ャッシュ・リロード・バッファから前記キャッシュ・ア
レイの１つのラインに、キャッシュミスに応答して転送
するステップとを備えたことを特徴とする方法。
【請求項５】キャッシュ・ラインをリネームしてキャ
ッシュ・アレイのストア効率を改善するシステムであっ
て、前記キャッシュ・アレイから第１のアドレスの最初のラ
インのデータをキャッシュ・リロード・バッファに転送
する手段と、前記キャッシュ・リロード・バッファに関係付けをした
バッファ・ディレクトリに前記第１のアドレスをロード
する手段と、前記バッファ・ディレクトリの前記第１のアドレスを第
２のアドレスに変更する手段と、前記第１のアドレスを有する前記キャッシュアレイの任
意のラインのデータを前記バッファ・ディレクトリの前
記第１のアドレスから前記第２のアドレスへの変更に応
答して無効にして前記キャッシュアレイのストア効率を
改善する手段と、前記第２のアドレスの最初のラインのデータを、前記キ
ャッシュ・リロード・バッファから前記キャッシュ・ア
レイの１つのラインに、キャッシュミスに応答して転送
する手段とを備えたことを特徴とするシステム。