JP2002236614A

JP2002236614A - キャッシュ制御方法及びキャッシュ制御回路

Info

Publication number: JP2002236614A
Application number: JP2001033857A
Authority: JP
Inventors: Hisao Koyanagi; 尚夫小柳
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-02-09
Filing date: 2001-02-09
Publication date: 2002-08-23
Anticipated expiration: 2021-02-09
Also published as: JP3770091B2

Abstract

(57)【要約】【課題】従来技術の問題点を解消し、参照の局所性が
厳密な意味で保証されないプログラムであっても、キャ
ッシュメモリによる性能向上効果を得ることができるキ
ャッシュ制御方法およびキャッシュ制御回路を提供する
こと。【解決手段】キャッシュメモリを有する情報処理装置
のキャッシュ制御回路であって、ベクトルロード命令ア
クセス範囲を規定する値を保持する第１のレジスタと、
ベクトル長を保持する第２のレジスタと、ディスタンス
を保持する第３のレジスタと、前記第１、第２及び第３
のレジスタの値に基づいてベクトルロード命令のデータ
をキャッシュに対して登録または非登録の判定を実行す
る回路と、該判定結果を保持する第４のレジスタと、該
第４のレジスタの判定結果にしたがって、キャッシュへ
の登録または非登録の制御を選択的に実行するミスリプ
ライ制御回路と、を具備する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、各種情報処理シス
テムにおいて使用されるキャッシュメモリを制御するた
めのキャッシュ制御方法及びキャッシュ制御回路に関す
る。

【０００２】

【従来の技術】各種情報処理システムにおけるメモリア
クセスのボトルネック解消のために、キャッシュと呼ば
れる小容量で高速のバッファメモリを利用する技術は、
古くからほとんどのシステムで使用されている。キャッ
シュメモリを使用する効果は、以下の２つである。その
第１は、主メモリ等に比べて小容積に構成し得ることか
ら、プロセッサの近く、例えば、同一ＬＳＩ内部に配置
できることになり、オペランドデータのレイテンシー
（Ｌａｔｅｎｃｙ）の大幅短縮が実現できることであ
る。

【０００３】第２の効果は、特に、ストアイン型キャッ
シュのようにメモリへの書き込みを常時には行わない場
合、メモリアクセスに必要なスループットを抑えること
ができる。したがって、メモリ構造を簡素化でき、コス
ト面で有利であることと、逆にいえば、メモリアクセス
頻度を抑えることで、メモリインターフェースのリクエ
スト競合を回避できるため、性能向上が実現できること
である。

【０００４】このキャッシュメモリ方式が有効であるた
めには、以下に示す実際のプログラムにおけるメモリア
クセスの振る舞いが、通常は一定の性質を持つものであ
るとの前提が必要である。それは、参照の局所性（以
下、ローカリティともいう）というメモリアクセスの性
質によるものである。すなわち、空間的ローカリティ
（参照されるアドレスはある部分に固まっていること）
と、時間的ローカリティ（参照されるアドレスは、ある
時間内に集中していること）である。

【０００５】ここでキャッシュミス時の動作について簡
単に説明する。ただし、キャッシュメモリの動作につい
ては、多くの文献があり、例えば“並列コンピュータ”
天野英晴著（昭晃堂）に詳しく説明されているので、
本発明に直接関係しない動きに関しては説明を割愛す
る。

【０００６】まず、既にキャッシュに登録されている同
一キャッシュラインアドレスのラインは追い出される。
ストアスルー型キャッシュの場合は、メモリとの一貫性
が常時保たれているため、新しいラインをキャッシュに
上書きするだけで済む。しかし、ストアイン型キャッシ
ュの場合には、メモリとの一貫性が保たれていないの
で、追い出されるキャッシュラインをメモリに書き込む
必要がある。

【０００７】また、新しいラインのリフィルにラインデ
ータ分のブロックロードリクエストが発生する。メモリ
に対して、無駄なデータを持ってくる処理が入るが、そ
の一方で暗示的なプリフェッチとなるという長所もある
ため、その得失は一概には断じられない。

【０００８】この動作に関しては図５において説明して
おり、“Ａ”、“Ｂ”、“Ｗ”は、ロード（以下、ＬＤ
ともいう）命令が、各々メモリアクセスリクエストを発
行するステージ、キャッシュアクセスを終わるステー
ジ、レジスタへの書き込みステージに存在することを意
味する。

【０００９】まず、ＬＤ−１はキャッシュヒット（ｈｉ
ｔ）時のタイミングであり、この場合、わずか３サイク
ルで終了する。ＬＤ−２は、キャッシュミス（ｍｉｓ
ｓ）した場合の動作であり、メモリに対してリフィルデ
ータを要求し、ターゲットとなるデータが最初に帰って
くる場合が、一般的であり、その時点で、ＬＤ−２はＷ
ステージに移行することができる。しかし、リフィルの
ために、１ライン分のデータをキャッシュに書き込むた
めの時間が必要であり、その間は、後続のキャッシュア
クセス命令の発行が不可となる。ＬＤ−３は、キャッシ
ュにデータを登録しないキャッシュバイパスロードのタ
イミングであり、ＬＤ−２との違いは、ミスした場合
に、ミスリプライデータをキャッシュに登録しない点に
ある。

【００１０】参照の局所性がないメモリアクセスの場
合、リフィルデータのキャッシュ書き込み時における後
続キャッシュアクセス命令の発行が抑止されることがな
い点から、このケースだけを見ればＬＤ−３が性能上優
れていると言える。

【００１１】以上のようなキャッシュ制御は、前提とし
ている参照の局所性が崩れると、以下のような問題点が
発生する。問題点１）１回しかＬＤしないラインをキャ
ッシュに入れることは、キャッシュにデータを登録しな
い場合に比べて、キャッシュラインデータのストアとロ
ードが余計に必要となる。問題点２）まだ有用なキャッ
シュラインにもかかわらずリプレースしてしまう。

【００１２】このような参照の局所性がないといわれて
いるものには、科学技術計算プログラムがある。しか
し、近年、マイクロプロセッサにおけるキャッシュ容量
は、ＬＳＩ技術の絶え間ない進歩によって、ＫＢ単位か
らＭＢ単位に増強されている。また、キャッシュを考慮
したプログラムの最適化技術も、このようなキャッシュ
容量のトレンドに追従し、ストアイン型キャッシュのマ
イクロプロセッサにおいても、科学技術計算プログラム
の性能が向上してきた。しかし、コンパイラの最適化技
術はいくら進んでも、実行前のプログラムからメモリア
クセスの振る舞いを認識して、高いキャッシュヒット率
を実現するには限界がある。

【００１３】ところで、科学技術計算プログラムを効率
よく実行する装置として、ベクトル型計算機がある。ベ
クトル型計算機では、ベクトルレジスタという複数ワー
ドデータを格納するレジスタに対する処理を、ベクトル
命令という命令１つで規定できる。例えば、ベクトルロ
ード（以下、ＶＬＤともいう）命令は、ベクトル長レジ
スタ（以下、ＶＬともいう）の値分のロードを実行し、
その読み出しデータをベクトルレジスタという複数ワー
ドを集めたレジスタに格納する。逆に、ベクトルストア
（以下、ＶＳＴともいう）はベクトルレジスタにある複
数のワードデータを、メモリに格納する。

【００１４】このベクトル型計算機において、例えば
〔ディスタンス（distance）〕＊〔ＶＬ〕の大きなＶＬ
Ｄ命令が発行され、それが悉くキャッシュミスする場
合、ＶＬＤ１命令で数多くのキャッシュラインがリプレ
ースされてしまう。その中で、使ったばかりのラインが
存在していた場合、時間的局所性を期待してキャッシュ
に登録されているデータがキャンセルされ、再々度キャ
ッシュラインデータがリフィルされてしまうという、性
能上悲劇的状況に至る。

【００１５】

【発明が解決しようとする課題】本発明は、上述のよう
な従来技術の問題点を解消し、参照の局所性が厳密な意
味で保証されないプログラムであっても、キャッシュメ
モリによる性能向上効果を得ることができるキャッシュ
制御回路を提供することである。

【００１６】

【課題を解決する為の手段】本発明の課題は、キャッシ
ュメモリを有する情報処理装置のキャッシュ制御方法に
おいて、ベクトルロード命令アクセス範囲を規定する値
と、ベクトル長の値と、そしてディスタンス値と、の各
々の値を基礎として、ベクトルロード命令のデータをキ
ャッシュへ登録するかまたは非登録とするかの判定を行
い、その判定結果に従ってキャッシュへの登録または非
登録の制御を選択的に実行するキャッシュ制御方法によ
って解決される。

【００１７】さらに、本発明の課題は、キャッシュメモ
リを有する情報処理装置のキャッシュ制御回路におい
て、ベクトルロード命令アクセス範囲を規定する値を保
持する第１のレジスタと、ベクトル長を保持する第２の
レジスタと、ディスタンスを保持する第３のレジスタ
と、前記第１、第２及び第３のレジスタの値から、ベク
トルロード命令のデータをキャッシュへの登録または非
登録の判定を行う回路と、その結果を保持する第４のレ
ジスタと、該第４のレジスタの判定結果に従ってキャッ
シュへの登録または非登録の制御を選択的に行うミスリ
プライ制御回路と、を具備するキャッシュ制御回路によ
って解決される。

【００１８】また、本発明の課題は、キャッシュメモリ
を有する情報処理装置のキャッシュ制御回路において、
キャッシュアクセスの制限使用回数を格納する第５のレ
ジスタと、キャッシュの各エントリに対応してキャッシ
ュアクセス回数の計測結果を保持する第６のレジスタ群
と、その値を更新する制御回路と、アクセスしたキャッ
シュエントリに対応する第６のレジスタ値と第５のレジ
スタ値とを比較した結果から、キャッシュへの登録また
は非登録の判定を行う制御回路と、その結果を保持する
第４のレジスタと、該第４のレジスタの判定結果にした
がって、キャッシュへの登録または非登録の制御を選択
的に行うミスリプライ制御回路と、を具備するキャッシ
ュ制御回路によって有利に解決される。

【００１９】本発明にかかるキャッシュ制御方法及び制
御回路によれば、ロードリクエストの性質、あるいは、
ヒットしたラインの履歴によって、キャッシュメモリに
登録させるロードにするか否かをハードウェア（以下、
ＨＷともいう）が動的に判断する。

【００２０】また、ＶＬＤ範囲レジスタとＲＵカウンタ
制限値レジスタの更新によって、判断方法をソフトウェ
ア（以下、ＳＷともいう）が明示的に指定することがで
きる。それによって、発明の背景で説明したような問題
点を解決し、参照のローカリティが厳密な意味で保証さ
れないプログラムであっても、キャッシュメモリによる
性能向上効果を得ることができる。

【００２１】

【発明の実施の形態】以下、添付図を参照しつつ本発明
にかかるキャッシュ制御装置の実施の形態を説明する。
このキャッシュ制御装置は、図１に示されているような
基本構成に適用される。スカラプロセッサユニット（以
下、ＳＰＵともいう）−１は、全命令の解読／実行指
示、及びスカラ命令の実行を行う。１次キャッシュユニ
ット−２は、スカラメモリアクセス系命令で使用するデ
ータのみを格納するものである。ベクトルプロセッサユ
ニット（以下、ＶＰＵともいう）−３は、ＳＰＵ−１の
指示にしたがってベクトル命令の実行を行う。

【００２２】２次キャッシュユニット−４は、スカラ系
／ベクトル系の両方で使われるデータを格納するもので
ある。アドレス変換バッファ(以下、ＡＴＢという）−
５は、論理アドレスを物理アドレスに変換するバッファ
である。また、メモリユニット−６は、メモリとメモリ
アクセス制御部とを含んでいる。ＩＯＰ−７は入出力処
理を行う。

【００２３】スカラＬＤの場合、ＳＰＵ−１から信号線
１０２でＬＤリクエストを発行し、１次キャッシュユニ
ット−２内でミスすると、ラインデータのブロックリク
エストとして信号線２０４を介して２次キャッシュユニ
ット−４にデータを探しにゆく。そこでもミスした場合
は、信号線４０５を介してＡＴＢ５にメモリリクエスト
を送り、物理アドレスに変換して信号線５０６を介して
メモリユニット−６に送出される。メモリユニット−６
から読み出されたデータは、信号線６０４を介して２次
キャッシュユニット−４に戻ってきてラインデータが格
納され、信号線４０２を介して１次キャッシュユニット
−２に戻って、そのラインデータが登録される。その
時、最初のＬＤ命令のターゲットデータは、信号線２０
１を介してＳＰＵ−１に送られる。

【００２４】次に、ＶＬＤ命令の動きについて説明する
前に、ＶＬＤ命令の仕様について、図６に基づいて説明
する。ＶＰＵ−３内にはベクトルレジスタとも呼ばれる
複数の要素データを格納できるレジスタファイルが存在
する。ＶＬＤ命令は、Ｖｘで指定されたベクトルレジス
タに、ＳＰＵ−１から送られてくるＲｙ（ディスタン
ス）とＲｚ（開始アドレス）で規定されたＶＬというレ
ジスタで指定される個数のメモリロードを一括して行う
命令である。

【００２５】ここで本発明許の実施例を説明するため、
図１のような基本構成を用いる。ＶＬというレジスタ
は、ＬＶＬという命令によって、ソフトウェアで書き換
えられるレジスタで、ＶＰＵ−３内に存在する。ＶＬＤ
命令の動きを図１のブロック図にしたがって説明する。
ＶＬＤ命令はＳＰＵ−１で命令デコードされ、その結
果、信号線１０３を介して実行指示がＶＰＵ−３に送ら
れる。ＶＰＵ−３では、ＶＬＤ命令が処理されるが、そ
の際、開始アドレス、ディスタンス、ＶＬ（ベクトル
長）が信号線３０４を介して２次キャッシュユニット−
４に送られる。

【００２６】２次キャッシュユニット−４では、ミスし
た場合、該当するラインに対するブロックリクエストに
なり、スカラＬＤと同様にＡＴＢ−５を通過し、メモリ
ユニット−６から信号線６０４を介してリプライデータ
を２次キャッシュユニット−４に送る。２次キャッシュ
ユニット−４が受け取ったリプライデータは、対応する
キャッシュラインに格納されると同時に信号線４０３を
介してターゲットデータのみがＶＰＵ−３に送られ、ベ
クトルレジスタに格納される。このような処理がＶＬで
指定された数だけ実行される。しかし、２次キャッシュ
がヒットした場合は、２次キャッシュの読み出しデータ
だけが信号線４０３を介してＶＰＵ−３に送られる。

【００２７】ここで、このＶＬＤ命令を、本発明による
ＶＬＤ範囲レジスタ、または、ＲＵカウンタ制限値レジ
スタを用いたキャッシャブル判定回路によって、キャッ
シュミスした場合に必ずしもキャッシュに取り込まない
ようにする。この場合、２次キャッシュのラインサイズ
のブロックロードリクエストが発行されることはなく、
信号線４０５にＶＬＤの要素毎のリクエストが発行さ
れ、信号線６０４を介して送られてくるリプライデ−タ
を素通りさせて、信号線４０３を介して、ＶＰＵ−３へ
送る。

【００２８】まず、ＶＬＤ範囲レジスタによる、本発明
における動作について説明する。従来のベクトルメモリ
アクセスは、全てキャッシュされないものであったが、
前述のようにＬＳＩ技術の進歩によるキャッシュ容量の
大幅増加と、コンパイラによる最適化技術の進歩によっ
て、科学技術計算でもある程度のキャッシュを使って意
味のあるような参照局所性が実現できる。しかし、その
中でもどうしても局所性を維持するような最適化ができ
ない部分も時には存在する。その様子を図７に示す。

【００２９】その局所性のない部分では、広範囲にわた
るＶＬＤ命令でベクトルオペランドデータをフェッチし
て、それを演算し、ＶＳＴ命令でメモリに書き戻すとい
った処理が行われ、１回ＶＬＤ命令で読んだオペランド
は２回以上読み出されることはほとんどない。このよう
な場合、ＶＬＤのメモリデータをキャッシュに取り込む
ことは、無意味である。

【００３０】また、図８では、ＶＬＤ命令のディスタン
スが１２８ＢでＶＬが２５６のケースで、キャッシュ
（ラインサイズ１２８Ｂ）に登録したケースについて説
明している。ＶＬＤ命令の要素データは、ラインデータ
のある１部にのみ存在するため、ＶＬＤ命令１つのため
に、メモリＬＤデータは８Ｂ×２５６（＝２ＫＢ）しか
必要でないにもかかわらず、１２８Ｂ×２５６（＝３２
ＫＢ）ものブロックＬＤが発生し、無駄なＬＤリクエス
トが３０ＫＢ分も行われることになる。さらに、３２Ｋ
Ｂ分のキャッシュは、このＶＬＤ命令によって、図７で
示しているような参照局所性が維持されている部分で必
要とされているキャッシュデータが書きつぶされてしま
うという悲劇的状況が生まれる。

【００３１】このような状況を回避するための別の手段
として、キャッシュメモリにデータを登録しないことを
最初から命令で明示的に指定するという方法もある。こ
の方法の利点は、アドレス・ディスタンスといった値の
着目だけでは不十分な参照の局所性についても考慮でき
ることで、より効果的なキャッシュ制御が可能となる点
である。このキャッシュに登録しないＶＬＤ命令が実行
された場合には、無条件でキャッシュ登録を行わない。
ただし、ロードすべきデータがキャッシュメモリに存在
していた場合は、当然、キャッシュメモリを読み出す。

【００３２】しかし、キャッシュメモリにデータを登録
するか否かをＳＷ（ソフトウェア:コンパイラ）で判断
することは極めて困難であり、ある程度のＨＷによるサ
ポートが必要である。そのため、本発明では、ＶＬＤ範
囲レジスタで、ＶＬＤのアクセスする領域の広さを局所
性の有無と判断する回路の実装によって、図８に示した
ような非効率的なキャッシュ動作を回避することができ
る。

【００３３】次に、ＲＵカウンタ制限値レジスタによる
時間的局所性に着目したキャッシュ登録制御について説
明する。時間的局所性とは、１度アクセスされたデータ
は、再びアクセスされやすい傾向があるということであ
る。このようなラインは、他のメモリアクセス時のキャ
ッシュミスによって、キャッシュから追い出されないよ
うにしなければならない。このキャッシュにおける追い
出しアルゴリズムに関しては、従来技術にあるように、
ＬＲＵアルゴリズムがある。

【００３４】ところが、それは複数のＷａｙで構成され
るキャッシュにおいて有用なものであり、ダイレクトマ
ップ構成であると、同一ラインのアクセスに関しては、
無条件に追い出されてしまう。さらに、キャッシュ容量
の巨大化の方向では、ＨＷコストの面からダイレクトマ
ップ方式のキャッシュが一般的である。

【００３５】また、キャッシュ登録データは少なくと
も、キャッシュに存在している限り２回以上そのライン
にアクセスしないと、そのまま１ライン分のブロックＬ
Ｄのコストだけ、逆効果となる。そこで、最近特にアク
セスが頻発に行われているラインであることを判断する
ために、ＲＵカウンタという情報を各ラインに設ける。
ＲＵカウンタの動作論理は下記のようである。『ＶＨｉｔＬｉｎｅＨｉｔＲＵカウンタ備考０ − − Ａ１１０無効なライン１０ − Ｎｏｃｈａｎｇｅ１１０＋１別のラインでＨｉｔ１１１Ａ１１０Ｈｉｔして、使用』このようにして、使用されないキャッシュラインに関し
ては、ＲＵカウンタの値が上がってゆき、使用される可
能性が低いラインであると認識される。このＲＵカウン
タ値がＲＵカウンタ制限値レジスタを超えない場合は、
リプレース対象から外すことによって、使用される可能
性の高いラインがキャッシュに残ることになる。

【００３６】これらの動作を実現する本特許の特徴とな
る２次キャッシュの構成について、図２に基づいて説明
する。ＶＬＤ範囲ＲＥＧ−１（値と有効ビットで構成さ
れ、有効ビットが点灯していない時、比較結果はｎｏｎ
−ａｃｔｉｖｅである）は、乗算器−４によって計算さ
れた〔ＶＬレジスタ−２の出力〕＊〔ディスタンスレジ
スタ−３の出力〕と比較され、比較器−５の比較結果信
号によって、ミス時にキャッシュに登録するか否かを決
定する。命令コードレジスタ（ＯＰＣ）−１７の値から
命令デコーダ−７によって、ＶＬＤ信号（信号線７０
６）及びキャッシュ非登録ＶＬＤ信号（信号線７１０）
を生成する。

【００３７】ＡＮＤゲート−６は、ＶＬＤが範囲を超え
るものであったことを示す信号を生成する。ＡＮＤゲー
ト−９は、ＲＵカウンタ制限値ＲＥＧ−１２（値と有効
ビットとで構成され、有効ビットが点灯していない時
は、比較結果はＮｏｎ−ａｃｔｉｖｅである）とＲＵカ
ウンタ−３０の値を比較する比較器−８の比較結果信号
より、時間的局所性の解析結果の信号が生成される。Ｏ
Ｒゲート−１０は、Ｎｏｎ−Ｃａｃｈａｂｌｅ（キャッ
シュ非登録）の判断結果信号を出力し、その結果信号を
キャッシュ非登録指示フラグ−１１が受ける。

【００３８】有効フラグ−１３は、Ａステージに１次キ
ャッシュからのブロックロード、あるいは、ＶＰＵから
のベクトルメモリアクセス命令のリクエストが有効であ
ることを示し、２Ｗａｙセレクタ−１９は命令コードレ
ジスタ（ＯＰＣ）−１７ヘ格納する値を選択する。

【００３９】ＯＰＣ−１７及びアドレスレジスタ（ＡＤ
Ｒ）−１４には、Ａステージに存在する命令のコードと
アドレスが格納される。ＯＲゲート−１５は、１次キャ
ッシュからのブロックロード、あるいは、ＶＰＵからの
ベクトルメモリアクセス命令のリクエストが有効の出力
を生成する。

【００４０】ＷＥフラグ−１６の点灯するケースは、ス
トア命令がｗｒｉｔｅヒット時と、キャッシュミスリプ
ライのデータを書き込む時である。その２つのタイミン
グをＯＲゲート−２０で生成している。前者はキャッシ
ュヒット判定部−３３から、後者はＭｉｓｓＲＥＱ制御
部−３６からそれぞれ送られる。また、その時のアドレ
スは、１次キャッシュ、ＶＰＵ、Ｂステ−ジのアドレス
レジスタ−２６、ＭｉｓｓＲＥＱ制御部−３６から送ら
れる、各々、１次キャッシュブロックロードアドレス、
ベクトルメモリアクセス命令のアドレス、ストアｗｒｉ
ｔｅヒット時のアドレス、キャッシュミスリプライのア
ドレスを、４Ｗａｙセレクタ−１８で選択するものであ
る。

【００４１】ＷＤＲ（ＷｒｉｔｅＤａｔａＲｅｇｉ
ｓｔｅｒ）−２０は、ＤＡ（ＤａｔａＡｒｒａｙ）−
３２に対する書き込みデータレジスタである。２Ｗａｙ
セレクタ−２１は、ストアｗｒｉｔｅヒット時のストア
データ、キャッシュミスリプライデータを選択する。２
Ｗａｙセレクタ−２３は、１次キャッシュ／ＶＰＵから
のストアリクエストのデータを選択し、ストアデータレ
ジスタ−２２に格納する。ストアがｗｒｉｔｅヒットし
た場合、ストアデータレジスタ−２４で１サイクル持ち
回った後、ＷＤＲ−２０に格納し、そしてＤＡ−３２に
書き込む。有効フラグ−２５、アドレスレジスタ−２
６、ストアデータレジスタ−２４、キャッシュミスフラ
グ−２７は、いずれもＢステージの情報である。

【００４２】キャッシュ有効ビット−２９は、キャッシ
ュのラインが有効であることを示す。アドレスアレイ
（ＡＡ）−３１は、対応するラインが如何なるアドレス
のデータであるかを示す。データアレイ−３２は、キャ
ッシュデータを格納する。アドレス比較器−２８は、Ａ
Ａ−３１の出力を読んで、アドレスレジスタ−１４の値
と比較し、キャッシュミスを判定し、その結果をキャッ
シュミスフラグ−２７に格納する。

【００４３】キャッシュヒット判定部−３３は、Ｂステ
ージの制御情報を使用して、ＲＵカウンタ−３０を更新
するための制御信号を生成する。ＤＡ−３２から読んだ
キャッシュデータと、メモリからのキャッシュミスリプ
ライデータとを２Ｗａｙセレクタ−３４が選択し、ＲＤ
Ｒ（ＲｅａｄＤａｔａＲｅｇｉｓｔｅｒ）−３５に
格納する。

【００４４】次に、図３に基づいて、本実施例が前提と
している２次キャッシュ構成について説明する。本実施
例では、ラインサイズ１２８Ｂ×２５６エントリ（容量
３２ＫＢ）のダイレクトマップ方式を前提として説明す
る。このキャッシュの場合、ＡＡ（アドレスアレイ）及
びＤＡ（データアレイ）から構成され、ＡＡに格納され
るＩＮＤＥＸアドレスに対応するタグアドレスとリクエ
ストのアドレスが比較され、キャッシュヒットの判定が
行われる。メモリアクセスリクエストのアドレスは全体
で４０ｂｉｔであり、そのうち上位２５ビットはＴＡＧ
アドレス、下位７ビットはラインアドレス、中間の８ビ
ットはＩＮＤＥＸアドレスというように構成される。

【００４５】次に、図２中のＲＵカウンタ−３０の周辺
回路について、図４に基づいて説明する。ＲＵカウンタ
−３０は、キャッシュのエントリに存在し、ＡＤＲ−１
４の値に応じてデコーダ１４３とセレクタ３０１で選択
され、その出力がＣａｃｈａｂｌｅ決定回路に送られ
る。

【００４６】キャッシュヒット判定部３３は、ＩＮＤＥ
Ｘアドレスのデコーダ３３１、命令デコーダ３３２を使
って、ＲＵカウンタ−３０に対して、キャッシュヒット
時の状況を報告する信号を出力する。デコーダ３３１
は、ＩＮＤＥＸアドレスの２５６ビットのデコード信号
を生成する。命令デコーダ３３２は、信号線３３２１に
キャッシュ入りロード命令デコード信号を、そして信号
線３３２２にキャッシュ入りストア命令デコード信号を
それぞれ生成する。信号線３３３０の信号は、Ｂステー
ジに存在する有効なメモリロード命令がヒットしたこと
を示す。信号線３３３１の信号は、あるキャッシュエン
トリで、Ｂステージに存在する有効なメモリロード命令
がヒットしたことを示す。また、ストア命令でのｗｒｉ
ｔｅヒット検出信号を信号線３３３２に生成し、Ｂステ
ージの次のタイミングでＷＥフラグを点灯させ、キャッ
シュにストアデータを書き込む。

【００４７】次に、図９に基づいてＶＬ＝２の時のＶＬ
Ｄ命令がキャッシュヒットした場合の動作について説明
する。２次キャッシュをアクセスする命令は、Ａステー
ジで命令コード、アドレスが、各々、ＯＰＣ−１７、Ａ
ＤＲ−１４に設定される。Ｂステージで、１ｓｔ／２ｎ
ｄリクエストが両方ヒットした場合、次のタイミングは
両方ともＷステージに移行し、読み出しデータがＲＤＲ
−３５を介してＶＰＵに送られる。

【００４８】次に、図１０に基づいてＶＬ＝２の時のＶ
ＳＴ命令がキャッシュヒットした場合の動作について説
明する。Ａステージで命令コード、アドレス、ストアデ
ータが、各々、ＯＰＣ−１７、ＡＤＲ−１４、ストアデ
ータ−２２に設定される。Ｂステージで、１ｓｔ／２ｎ
ｄリクエストが両方ヒットした場合、次のタイミングは
両方ともストアデータが、ストアデータ−２２に格納さ
れ、ＷＥ−１６が点灯して、ＤＡ−３２に書き込まれ
る。

【００４９】次に、図１１に基づいてＶＬ＝２の時のＶ
ＬＤ命令がキャッシュミスした場合の動作について説明
する。Ａステージで命令コード、アドレスが、各々、Ｏ
ＰＣ−１７、ＡＤＲ−１４に格納され、Ｂステージでミ
スが判定される。それと同時にＶＬ−２、ｄｉｓｔａｎ
ｃｅ−３の値とＡＤＲ−２６、さらに、ＶＬＤ範囲ＲＥ
Ｇ−１との比較によって、Ｃａｃｈａｂｌｅであること
を判定する。ここでのＣａｃｈａｂｌｅ判定条件は、
〔ＶＬＤ範囲ＲＥＧ−１〕＞〔ＶＬ〕＊〔ｄｉｓｔａｎ
ｃｅ〕である。キャッシュミス時のメモリリクエスト
は、１ライン分データのｂｌｏｃｋロ−ドとしてＡＴＢ
へ送られ、その後ミスリプライ有効信号としてターゲッ
トになるワードデータから順に帰ってくる。そして、タ
イミング及びでＷＥ−１６を点灯させ、キャッシュ
に登録するとともにＲＤＲ−３５を介してＶＰＵにリプ
ライデータを送出する。さらに、残りのキャッシュライ
ンデータをキャッシュへ書き込むために、タイミング
（１０）以後でも、ＷＥ−１６が点灯する。この場合、
従来技術でも説明したように、後続命令の発行を止める
必要がある。

【００５０】次に、図１２に基づいてＶＬ＝２の時のＶ
ＳＴ命令がキャッシュミスした場合の動作について説明
する。Ａステージで、命令コード、アドレス、ストアデ
ータが、各々ＯＰＣ−１７、ＡＤＲ−１４、ストアデー
タ−２２に設定される。Ｂステージで、１ｓｔ／２ｎｄ
リクエストが両方ミスした場合、次のタイミングで両方
ともＡＴＢへのリクエストとして送出される。

【００５１】次に、図１３に基づいてＶＬ＝２の時のＶ
ＬＤ命令がキャッシュミスし、且つＮｏｎ‐ｃａｃｈａ
ｂｌｅとなった場合の動作について説明する。Ａステー
ジで命令コード、アドレスが、各々ＯＰＣ−１７、ＡＤ
Ｒ−１４に格納され、Ｂステージでミスが判定される。
それと同時にＶＬ−２、ｄｉｓｔａｎｃｅ−３の値とＡ
ＤＲ−２６、さらに、ＶＬＤ範囲ＲＥＧ−１との比較に
よって、Ｎｏｎ‐ｃａｃｈａｂｌｅであることを判定す
る。ここでのＣａｃｈａｂｌｅ判定条件は、〔ＶＬＤ範
囲ＲＥＧ−１〕＜＝〔ＶＬ〕＊〔ｄｉｓｔａｎｃｅ〕で
ある。キャッシュミス時のメモリリクエストは、要求す
るワードデータのみのリクエストとしてＡＴＢへ送ら
れ、その後ミスリプライ有効信号として帰ってくる。し
かし、Ｎｏｎ‐ｃａｃｈａｂｌｅであるため、ＷＥ−１
６は点灯せず、リプライデータを単にＶＰＵへ返すだけ
である。したがって、その後のリフィル動作が発生しな
いので、その分後続命令の待ちが発生しない点で図１１
の動作と異なる。

【００５２】次に、図１４に基づいて、本特許における
キャッシュ登録判定にかかわるＶＬＤ範囲ＲＥＧ−１、
ＲＵカウンタ制限値ＲＥＧ−１３への命令による書き込
み動作について説明する。上記２つのレジスタは、ＬＣ
ＲＧ命令によってセットされる。その命令のＹフィール
ドで指定されたレジスタ内容にしたがって各々のレジス
タに値を格納する。本発明における機能を有効にしたい
場合は、各々のＶビットに“１”を立てる必要がある。
一方、ＬＣＲＧ命令の動きとしては、Ａステージに到着
する１サイクル前にＶＰＵからの指示によって、ＶＬＤ
範囲ＲＥＧ（Ｖ、ｄａｔａ）−１、ＲＵカウンタ制限値
ＲＥＧ（Ｖ、ｄａｔａ）−１３に設定される。

【００５３】図１５は、図９〜図１３におけるＶＬＤ命
令及びＶＳＴ命令が発生した場合の動作についてフロー
チャートとしてまとめたものである。図左側に示すフロ
ーのように、ＶＬＤ命令リクエストが発生すると、キャ
ッシュヒットか否かが判定され、ヒットした場合は、キ
ャッシュを読んでＶＰＵに返す（図９に対応するフロ
ー）。

【００５４】ヒットしない場合には、次いで、Ｃａｃｈ
ａｂｌｅか否かが判定される。Ｃａｃｈａｂｌｅである
場合には、ＡＴＢへ１ライン分のブロックＬＤリクエス
トを発行し、リプライターゲットデータをＶＰＵに返し
て、キャッシュにブロックデータを書き込む（図１１に
対応するフロー）。

【００５５】他方、Ｃａｃｈａｂｌｅでない場合は、Ａ
ＴＢへ必要なワードのみのリクエストを発行し、そして
リプライターゲットデータをＶＰＵへ返す（図１３に対
応するフロー）。

【００５６】図１５右側のようにＶＳＴ命令リクエスト
が発生すると、キャッシュヒットか否かが判定される。
ヒットした場合には、Ｃａｃｈｅにデータの書き込みを
行う(図１０に対応するフロー）。他方、ヒットしない
場合には、ＡＴＢへメモリ書き込みのリクエストを発行
する(図１２に対応するフロー）。

【００５７】

【効果】本発明にかかるキャッシュ制御方法並びに制御
回路によれば、ロードリクエストの性質、あるいは、ヒ
ットしたラインの履歴によって、キャッシュに登録させ
るロードにするか否かをＨＷが動的に判断することにな
る。

【００５８】また、ＶＬＤ範囲レジスタとＲＵカウンタ
制限値レジスタの更新によって、判断方法をＳＷが明示
的に指定することができる。それによって、発明の背景
で説明したような問題点を解決し、参照のローカリティ
が厳密な意味で保証されないプログラムであっても、キ
ャッシュによる性能向上効果を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施例におけるキャッシュ制御回路の
全体構成図である。

【図２】本発明の実施例における２次キャッシュ周辺回
路の構成図である。

【図３】本発明の実施例における２次キャッシュ構成図
である。

【図４】ＲＵカウンタ制御回路周辺構成図である。

【図５】キャッシュリフィル時の性能低下について説明
した図である。

【図６】本発明の実施例におけるＶＬＤ命令仕様を示す
図である。

【図７】科学技術計算におけるメモリアクセスの局所性
について説明した図である。

【図８】局所性のないプログラムにおいてキャッシュが
意味をなさない例を説明した図である。

【図９】ＶＬ＝２の時のＶＬＤ命令がキャッシュヒット
した時の動作について説明した図である。

【図１０】ＶＬ＝２の時のＶＳＴ命令がキャッシュヒッ
トした時の動作について説明した図である。

【図１１】ＶＬ＝２の時のＶＬＤ命令がキャッシュミス
した時の動作について説明した図である。

【図１２】ＶＬ＝２の時のＶＳＴ命令がキャッシュミス
した時の動作について説明した図である。

【図１３】ＶＬ＝２の時のＶＬＤ命令がキャッシュミス
し、且つ、Ｎｏｎｃａｃｈａｂｌｅとなった時の動作に
ついて説明した図である。

【図１４】キャッシュ登録判定にかかわるレジスタへの
命令による書き込み動作について説明した図である。

【図１５】図９ないし図１３に対応するＶＬＤ命令及び
ＶＳＴ命令の動作に関するフロー図である。

【符号の説明】

ＳＰＵスカラプロセッサユニットＶＰＵベクトルプロセッサユニットＡＴＢアドレス変換バッファＩＯＰ入出力処理部ＶＬＤベクトルロードＶＬベクトル長ＡＡアドレスアレイＤＡデータアレイＷＤＲ書き込みデータレジスタＲＤＲ読み出しデータレジスタＯＰＣ命令コードレジスタ

Claims

【特許請求の範囲】

【請求項１】キャッシュメモリを有する情報処理装置
のキャッシュ制御方法において、ベクトルロード命令ア
クセス範囲を規定する値、ベクトル長の値、そしてディ
スタンス値、の各々の値を基礎として、ベクトルロード
命令のデータをキャッシュへ登録するかまたは非登録と
するかの判定を行い、その判定結果に従ってキャッシュ
への登録または非登録の制御を選択的に実行することを
特徴とするキャッシュ制御方法。
【請求項２】キャッシュメモリを有する情報処理装置
のキャッシュ制御回路において、ベクトルロード命令ア
クセス範囲を規定する値を保持する第１のレジスタと、
ベクトル長を保持する第２のレジスタと、ディスタンス
を保持する第３のレジスタと、前記第１、第２及び第３
のレジスタの値に基づいてベクトルロード命令のデータ
をキャッシュに対して登録または非登録の判定を行う回
路と、該判定結果を保持する第４のレジスタと、該第４
のレジスタの判定結果に従って、キャッシュへの登録ま
たは非登録の制御を選択的に実行するミスリプライ制御
回路と、を具備することを特徴とするキャッシュ制御回
路。
【請求項３】キャッシュメモリを有する情報処理装置
のキャッシュ制御回路において、キャッシュアクセスの
制限使用回数を格納する第５のレジスタと、キャッシュ
の各エントリに対応してキャッシュアクセス回数の計測
結果を保持する第６のレジスタ群と、その値を更新する
制御回路と、アクセスしたキャッシュエントリに対応す
る第６のレジスタ値と第５のレジスタ値とを比較した結
果から、キャッシュへの登録または非登録の判定を行う
制御回路と、その結果を保持する第４のレジスタと、該
第４のレジスタの判定結果にしたがって、キャッシュへ
の登録または非登録の制御を選択的に実行するミスリプ
ライ制御回路と、を具備することを特徴とするキャッシ
ュ制御回路。