JP2002163150A

JP2002163150A - プロセッサ

Info

Publication number: JP2002163150A
Application number: JP2000361282A
Authority: JP
Inventors: Kenju Osanai; 建樹小山内; Nobuo Matsui; 井伸郎松
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-11-28
Filing date: 2000-11-28
Publication date: 2002-06-07

Abstract

(57)【要約】【課題】プロセッサのハードウェアコンフィグレーシ
ョンを、プログラムに応じて動的に変更する。【解決手段】データキャッシュメモリのキャッシュヒ
ット回数を、レジスタ３９０に格納していく。また、デ
ータキャッシュメモリに格納したキャッシュラインに再
度アクセスした回数を、論理回路３５０で算出する。論
理回路３１３は、これらキャッシュヒット回数（レジス
タ３９０）とライン再アクセス回数（論理回路３５０）
とに基づいて、キャッシュラインのラインサイズを変更
し、レジスタ３０１に格納する。データキャッシュコン
トロール３３０は、レジスタ３０１に格納されているラ
インサイズに基づいて、データキャッシュメモリを制御
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はプロセッサに関し、
特に、ハードウェアコンフィグレーションを動的に変更
するプロセッサに関する。

【０００２】

【従来の技術】通常、プロセッサのハードウェア構成を
決定する際には、ハードウェアのパイプライン構造を表
現したシミュレータを作成し、そのシュミレータの上
で、典型的と見倣されるプログラムを実行して、ベンチ
マークテストを行っていた。すなわち、典型的なプログ
ラムを代表的なコンパイラを使って実行し、性能評価を
行った上で、ハードウェア構成を最適化していた。そし
て、分岐予測のアルゴリズムやキャッシュメモリのライ
ンサイズなど、ハードウェア構成、マイクロアーキテク
チャの基本パラメータとなるものは、固定された上でプ
ロセッサのチップとして出荷されていた。

【０００３】従って、従来技術ではハードウェアの設計
パラメータは設計段階での性能評価結果を反映して固定
されており、ユーザの実使用状態ではプログラムの実行
結果を観測しながらコンフィグレーションを動的に最適
化するということは行わなかった。

【０００４】従来からプロセッサのパフォーマンスを実
機上で測定する目的のパフォーマンスカウンタが知られ
ている。このパフォーマンスカウンタは、プロセッサの
イベントによってその内容がインクリメントされ、パフ
ォーマンスカウンタの内容がオーバーフローを起こした
ときに例外を発生することで、イベントの発生状況をプ
ログラムに通知する。これによって、プロセッサとして
は、プログラムに応じたパフォーマンスデータの取得が
可能になる。しかしながら、これはあくまでもソフトウ
ェア開発において、このプロセッサに対するフトウェア
の最適化を目的とするものであって、パフォーマンスカ
ウンタの出力に対応した動的なハードウェアコンフィグ
レーションの変更を行うことはできない。

【０００５】ハードウェアのコンフィグレーションにつ
いては、従来からコンフィグレーション・レジスタをプ
ロセッサの制御レジスタに設ける手法が知られている。
これはキャッシュのラインサイズなど、プロセッサのコ
ンフィグレーションを記録、設定するために設けられ
る。これは、様々な従来のキャッシュラインサイズ固定
のプロセッサにおいて、固定値が記録されていたり、ま
たは二次キャッシュサイズのようにプロセッサのブート
時に設定し、その後は変更しないという使い方をするも
のが常である。

【０００６】一方、プログラム実行中にコンフィグレー
ション・レジスタの更新を認めるプロセッサも従来存在
はしていた。しかし、それは、ソフトウェアが、ある処
理ルーチンになると、コンフィグレーションを書き換え
るというものであって、ハードウェアがパフォーマンス
測定の結果に対応してコンフィグレーションを変更する
というものではなかった。従って、このようなプロセッ
サでは、動的なコンフィグレーション変更を、ユーザが
作成したソフトウェアの命令に応じて、行うことができ
た。つまり、コンフィグレーションの変更をプロセッサ
に施すことを許しても、実行するプログラムの内容に応
じた動的なコンフィグレーション変更をプロセッサが行
うというものではなかった。

【０００７】図１３に従来のプロセッサの構成例を示
す。図１３に示すプロセッサにおいては、パフォーマン
ス測定のためのレジスタ１４０、１５０が設けられてお
り、ＣＰ０バスを通じてこれらレジスタ１４０、１５０
の内容をプログラムで読み出しのみ可能である。但し、
この図１３に示すプロセッサにおいては、パフォーマン
ス測定結果に応じてコンフィグレーションを変更しな
い。

【０００８】すなわち、図１３の例では、データキャッ
シュタグ１７０の出力とＴＬＢ（translation lookasid
e buffer）１６０の出力とを、アドレス比較器１８０で
比較する。このアドレス比較器１８０の比較結果が一致
している場合に、データキャッシュヒットのイベント
が、インクリメンタ１４０に入力される。一方、load/s
tore命令終了のイベントが、インクリメンタ１５０に入
力される。これにより、レジスタ１１０、１２０の内容
がインクリメントされて、レジスタ１１０、１２０にイ
ベントの数が保持される。レジスタ１１０、１２０の内
容は、プログラマがプログラムを用いて読み出すことが
可能である。すなわち、データキャッシュのヒットした
回数や、load/store命令の終了した回数を、レジスタ１
１０、１２０の格納する値から、知ることができる。こ
のため、プログラマは、このレジスタ１１０、１２０の
内容に基づいて、ハードウェアに対してどのくらい最適
化されているかを判断し、プログラム開発の参考にす
る。

【０００９】図１４は、従来の別のプロセッサ構成例を
示す。図１４に示すプロセッサにおいては、キャッシュ
メモリのラインサイズが、レジスタ２３０によって可変
になっている。すなわち、レジスタ２３０は、レジスタ
間転送命令によってレジスタファイル２１０に格納され
ている汎用レジスタとの間でデータのやり取りが可能で
あり、レジスタ２３０の中身はプログラムにより書き替
えることができる。レジスタ２３０は、データキャッシ
ュコントロール２９０に接続されており、このデータキ
ャッシュコントロール２９０は、レジスタ２３０の内容
に応じてデータキャッシュタグ２７０に対して行う制御
を変更する。この図１４の例では、プログラマーのプロ
グラミングにより、レジスタ２３０の格納する値を変更
して、ハードウェアのコンフィグレーションを変えるこ
とができるが、その変更はデータキャッシュメモリのパ
フォーマンスを反映していない。すなわち、パフォーマ
ンス測定の結果を、ハードウェアのコンフィグレーショ
ンに反映するものではない。

【００１０】

【発明が解決しようとする課題】上述したところからわ
かるように、従来のプロセッサにおいては、ユーザが実
際にあるプログラムを実行させた場合、ハードウェアは
個々のプログラムに対して最適化の余地が残ってしまっ
ている。これは、あくまでもハードウェア設計時に性能
評価に用いたプログラムに対する最適値が、ハードウェ
アコンフィグレーションの設計値として用いられてお
り、このため、この設計値がすべてのプログラムに対し
て平均的な処理速度を実現するための平均的な構成にな
るためである。特に、性能評価に使わなかったプログラ
ムで、使用したプログラムとは振る舞いが大きく違うプ
ログラムに対しては、かえって性能を落とすような構成
になってしまっていることもあり得る。特に、これは既
存のバイナリ・プログラムについて言える。それは、既
存のバイナリ・プログラムは、古い世代のハードウェア
構成を有するプロセッサについて、最適化されたソフト
ウェアであるからである。

【００１１】このように、従来の技術の問題点は、プロ
セッサのハードウェアが、個々の実行プログラムに対し
て最適なコンフィグレーションをとれないことにある。

【００１２】そこで本発明は、前記課題に鑑みてなされ
たものであり、個々の実行プログラムに対してハードウ
ェアコンフィグレーションを動的に変更することのでき
る、プロセッサを提供することを目的とする。

【００１３】

【課題を解決するための手段】上記課題を解決するた
め、本発明に係るプログラムは、各種の処理を行うモジ
ュールと、前記モジュールが各種の処理を行う際のパフ
ォーマンスを測定する、パフォーマンス測定手段と、前
記パフォーマンス測定手段により測定された測定結果に
基づいて、前記モジュール及び／又は当該プロセッサの
コンフィグレーションを変更するか否かを判断し、その
判断結果に応じてそのコンフィグレーションを変更す
る、コンフィグレーション変更手段と、を備えることを
特徴とする。

【００１４】また、本発明に係るプロセッサは、当該プ
ロセッサが行う各種の処理のパフォーマンスを測定す
る、パフォーマンス測定手段と、前記パフォーマンス測
定手段により測定された測定結果に基づいて、各種の処
理を行うモジュール及び／又は当該プロセッサのコンフ
ィグレーションを変更するか否かを判断し、その判断結
果に応じてそのコンフィグレーションを変更する、コン
フィグレーション変更手段と、を備えることを特徴とす
る。

【００１５】

【発明の実施の形態】本発明に係るプロセッサは、ソフ
トウェアを実行するハードウェアにパフォーマンス測定
機能を設け、測定されたパフォーマンスに応じてハード
ウェアコンフィグレーションを変更することにより、ユ
ーザが実際に実行する個別のプログラムに対して、適切
なハードウェアコンフィグレーションを提供しようとす
るものである。そして、これにより、実質的なプロセッ
サの性能向上を図ろうとするものである。以下に具体的
な実施の形態をいくつか示す。

【００１６】〔第１実施形態〕本発明の第１実施形態に
係るプロセッサは、実際にユーザがプログラムを実行し
た際のパフォーマンスの測定結果に応じて、ハードウェ
アコンフィグレーションとして、データキャッシュメモ
リのラインサイズを動的に変更するようにしたものであ
る。より詳しくを、以下に説明する。

【００１７】図１は、本発明の第１実施形態に係るプロ
セッサのハードウェア構成における主要部の一例を示す
ブロック図である。

【００１８】この図１に示すように、本実施形態に係る
プロセッサは、レジスタ３０１、３１０、３１１、３１
２、３１６、３７０、３９０と、レジスタファイル３２
０と、データキャッシュコントロール３３０と、論理回
路３１３、３５０と、データキャッシュタグ３４０と、
ＴＬＢ３１４と、アドレス比較器３１５と、カウンタ３
６０、３８０とを、備えている。

【００１９】レジスタ３０１は、データキャッシュメモ
リのラインサイズを格納するレジスタである。レジスタ
３１０は、レジスタ間データ転送命令によって、レジス
タファイル３２０に格納されている汎用レジスタとの間
でデータ転送可能である。従って、レジスタ３０１の内
容は、プログラムによって任意に読み書き可能に構成さ
れている。また、レジスタ３０１は、データキャッシュ
コントロール３３０に接続されている。このデータキャ
ッシュコントロール３３０は、データキャッシュメモリ
を制御する回路である。本実施形態においては、特に、
データキャッシュミスに伴うデータキャッシュフィルの
際に、レジスタ３０１の内容に基づいて、リフィルサイ
ズを決定する。すなわち、データキャッシュミスが発生
して、データキャッシュメモリに格納されているデータ
を置き換える際に、そのラインサイズを、レジスタ３０
１が保持する値に基づいて決定する。

【００２０】データキャッシュタグ３４０は、データキ
ャッシュメモリのエントリごとに、ｖａｌｉｄビット３
４１、ｄｉｒｔｙビット３４２、物理アドレス・ページ
フレーム・ナンバー５４４などの属性ビットを備えてい
る。Ｖａｌｉｄビット３４１は、そのエントリが有効で
あるか、無効であるかを示すビットである。ｄｉｒｔｙ
ビット３４２は、データキャッシュメモリに格納されて
いるそのエントリに対して書き込みを行った結果、メイ
ンメモリに格納された値よりも新しい値を持っているか
否かを示すビットである。

【００２１】このデータキャッシュタグ３４０のエント
リの数は、データキャッシュメモリのラインサイズを、
このプロセッサが許容する最も小さいサイズにした場合
における、データキャッシュメモリのエントリ数と同じ
である。したがって、データキャッシュメモリのライン
サイズが、このプロセッサが許容する最も小さいライン
サイズより大きい場合には、データキャッシュタグ３４
０には、使用していないエントリが存在することにな
る。

【００２２】物理アドレス・ページフレーム・ナンバー
３４４は、データキャッシュメモリに格納されているペ
ージのページアドレスを保持している。したがって、こ
の物理アドレス・ページフレーム・ナンバー３４４を参
照することにより、データキャッシュメモリに格納され
ているページの物理アドレスがわかるようになってい
る。

【００２３】また、データキャッシュタグ３４０は、各
エントリ毎に、１ビット以上のヒストリーフィールド３
４３を持つ。このヒストリーフィールド３４３は、デー
タキャッシュラインのリフィル時に、そのキャッシュラ
インに該当するエントリのものがクリアされ、そのキャ
ッシュラインがアクセスされるとセットされる。なお、
ヒストリーフィールド３４３が複数のビットで構成され
ている場合には、該当するキャッシュラインのエントリ
のヒストリーフィールド３４３は、インクリメントされ
ることになる。このヒストリーフィールド３４３は、デ
ータキャッシュラインが置き換えられる時に読み出さ
れ、論理回路３５０に送られる。

【００２４】論理論理３５０は、データキャッシュタグ
３４０から送信されるヒストリーフィールド３４３の情
報に基づいて、エントリに拘わらず同一キャッシュライ
ンに再度アクセスした回数の総和を算出して保持してお
く。すなわち、論理回路３５０は、同一のキャッシュラ
インに再度アクセスした回数を、ライン再アクセス回数
として保持しておく。

【００２５】ＴＬＢ（Translation Lookaside Buffer）
３１４は、仮想アドレスを物理アドレスに変換するため
のバッファである。ＴＬＢ３１４で求められた物理アド
レスは、アドレス比較器３１５に入力される。

【００２６】アドレス比較器３１５には、データキャッ
シュタグ３４０の出力も入力され、物理アドレスとデー
タキャッシュタグ３４０に格納されているアドレスとが
一致するかどうかを判断する。そして、両者が一致する
場合には、アドレス比較器３１５は、データキャッシュ
ヒット信号を出力する。

【００２７】カウンタ３６０は、データキャッシュメモ
リへのアクセス数をカウントする。すなわち、カウンタ
３６０には、Load/Store命令終了の信号と、レジスタ３
７０の出力信号とが、入力されている。Load/Store命令
終了の信号は、このプロセッサ内でLoad命令又はStore
命令が終了した場合に入力される信号である。このLoad
/Store命令終了の信号がカウンタ３６０に入力される
と、カウンタ３６０はレジスタ３７０の内容に１を加え
た上で、再びレジスタ３７０に格納する。つまり、カウ
ンタ３６０は、データキャッシュメモリへのLoad/Store
命令が終了するとレジスタ３７０の値をインクリメント
する。レジスタ３７０は、このカウントの結果をデータ
キャッシュメモリへのアクセス回数として保持する。

【００２８】カウンタ３８０は、キャッシュメモリのヒ
ット数をカウントする。すなわち、カウンタ３８０に
は、ＡＮＤ回路３８５の出力信号が入力される。ＡＮＤ
回路３８５は、アドレス比較器３１５の出力するデータ
キャッシュヒット信号と、Load/Store命令終了の信号と
のＡＮＤ演算をした結果を出力する。また、カウンタ３
８０には、レジスタ３９０の出力信号も入力されてい
る。したがって、このカウンタ３８０は、データキャッ
シュメモリがヒットした場合に、その命令が終了した時
点で、レジスタ３９０の内容に１を加え、再びレジスタ
３９０に格納する。レジスタ３９０は、このカウントの
結果をキャッシュヒット回数として保持する。

【００２９】レジスタ３１０は、データキャッシュメモ
リへのアクセス数の閾値を格納している。すなわち、レ
ジスタ３７０の値が、レジスタ３１０の値に達した場
合、論理回路３５０に格納されているライン再アクセス
回数と、レジスタ３９０に格納されているキャッシュヒ
ット回数とが、比較評価される。レジスタ３１０の内容
は、ユーザがプログラムで任意に読み書き可能である。

【００３０】レジスタ３１１は、キャッシュメモリのヒ
ット回数の閾値を格納している。レジスタ３１２は、ラ
イン再アクセス回数の閾値を格納している。これらレジ
スタ３１１、３１２の役割は、次に述べる。なお、これ
らレジスタ３１１、３１２の内容は、ユーザがプログラ
ムを用いて任意に読み書き可能である。

【００３１】論理回路３１３は、キャッシュメモリのラ
インサイズを決定する。すなわち、論理回路３１３は、
論理回路３５０と、レジスタ３７０、３９０、３１０、
３１１、３１２に接続されている。この論理回路３１３
では、レジスタ３７０に格納されているアクセス回数
が、レジスタ３１０の閾値に達したら論理回路３５０、
レジスタ３９０の値を、比較評価する。つまり、レジス
タ３７０が格納しているキャッシュメモリへのアクセス
回数が、レジスタ３１０が格納している閾値に達した場
合に、論理回路３１３は動作する。

【００３２】具体的には、キャッシュヒット回数（レジ
スタ３９０）が閾値（レジスタ３１１）よりも小さく、
ライン再アクセス回数（論理回路３５０）が閾値（レジ
スタ３１２）よりも大きい場合には、同一ラインへのア
クセス回数が多いのにも拘わらずキャッシュヒット率が
小さいのはラインサイズが小さ過ぎると判断できる。こ
のため、論理回路３１３は、ラインサイズを大きくする
ようにレジスタ３０１の内容を更新する。

【００３３】一方、キャッシュヒット回数（レジスタ３
９０）が閾値（レジスタ３１１）よりも大きく、ライン
再アクセス回数（論理回路３５０）が閾値（レジスタ３
１２）よりも小さい場合、使用しないデータまでリフィ
ルしていると判断できる。このため、論理回路３１３
は、ラインサイズを小さくするようにレジスタ３０１の
内容を更新する。

【００３４】また、本実施形態に係るプロセッサにおい
ては、レジスタ３１６を備えている。レジスタ３１６
は、このような自動的にコンフィグレーション（この例
ではキャッシュメモリのラインサイズ）を最適化する機
能のオン／オフを設定するためのレジスタである。例え
ばユーザが、レジスタ３１６を１に設定することによ
り、上述した動的なキャッシュメモリのラインサイズの
変更をオンにすることができ、レジスタ３１６を０に設
定することにより、動的なキャッシュメモリのラインサ
イズの変更をオフにすることができる。つまり、レジス
タ３１６の内容は、ユーザがプログラムを用いて、任意
に読み書き可能である。但し、図２に示すように、レジ
スタ３１６の代わりに、外部ピンに３９１を設け、この
外部ピンをユーザが操作することにより、この自動コン
フィグレーション機能をオン／オフするようにしてもよ
い。

【００３５】以上のように、本実施形態に係るプロセッ
サによれば、データキャッシュメモリのラインサイズと
いうコンフィグレーションを、パフォーマンス測定結果
に応じて動的に変更することとした。このため、実際に
ユーザが実行するプログラムに適したラインサイズの設
定が可能になる。

【００３６】このようなパフォーマンス測定とコンフィ
グレーションの変更は、上述したところから明らかなよ
うに、プロセッサーのブート後、複数回可能である。そ
れゆえ、ソフトウェアの局所的な傾向に合うようにプロ
セッサが、随時、キャッシュメモリのラインサイズを変
更していくことが可能である。

【００３７】具体的には、キャッシュヒット回数をレジ
スタ３９０に格納し、ライン再アクセス回数を論理回路
３５０で算出し、その時点のラインサイズにおけるパフ
ォーマンスを測定する。そして、この測定結果であるレ
ジスタ３９０及び論理回路３５０の内容に基づいて、所
定のパフォーマンスが発揮されているかどうかを論理回
路３１３で判断し、所定のパフォーマンスが発揮されて
いない場合には、ラインサイズを動的に変更することと
した。このため、ユーザが実際に実行しているプログラ
ムに可能な限り適応したラインサイズに、動的に変更し
ていくことができる。

【００３８】また、本実施形態においては、図３に示す
ように、カウンタ３１７、３１９と、レジスタ３１８、
３２０、３２２と、論理回路３２１を追加して、ＣＰＩ
（Cycle Per Instruction）をプロセッサのパフォーマ
ンスの指標を使って、コンフィグレーション（この例で
はキャッシュメモリのラインサイズ）を変化させるよう
にしてもよい。すなわち、カウンタ３１７は、クロック
数をカウントし、レジスタ３１８に格納する。カウンタ
３１９は、実行を完了した命令数をカウントし、レジス
タ３２０に格納する。レジスタ３２２には、ＣＰＩの閾
値が格納されている。このレジスタ３２２に格納されて
いる内容は、ユーザがプログラムを用いて任意に読み書
き可能である。論理回路３２１は、レジスタ３１８の値
が所定の値に達した際に、レジスタ３１８、３２０の格
納する値を用いて、ＣＰＩを算出する。そして、その算
出結果と、閾値（レジスタ３２２）とを比較して、算出
結果が閾値よりも悪い場合には、レジスタ３０１の内容
を変更することにより、ラインサイズを変更する。

【００３９】〔第２実施形態〕本発明の第２実施形態
は、パフォーマンス測定結果に基づいて動的に変更され
るコンフィグレーションが、分岐予測結果に対するキャ
ッシュメモリへのプリフェッチアルゴリズムの場合であ
る。

【００４０】分岐予測機構によって予測された命令フェ
ッチアドレスが命令キャッシュミスを起こしたとき、分
岐命令の結果の確定を待ってから命令キャッシュメモリ
のリフィルをするか、待たずにリフィルをするかという
のは、プロセッサの性能に比較的大きな影響を与える設
計パラメータである。分岐命令の結果確定を待たない投
機的なリフィルにより、リフィルのレイテンシを隠蔽で
きれば性能向上への寄与は大きい。一方で、予測ミスが
あった場合の性能へのペナルティは非常に大きい。これ
は、キャッシュメモリのリフィルは長いレイテンシを要
するからであり、また、特に投機的なリフィルは、必要
なキャッシュラインをキャッシュメモリから追い出して
しまうことになることが、あるためである。このように
効果とペナルティ双方が大きい機構はプログラムの挙動
を知った上で、導入するのか、又は、導入しないのか
を、決めることが望まれる。

【００４１】図４は、本実施形態に係るプロセッサのハ
ードウェア構成における主要部のブロック図である。こ
の図４に示すように、本実施形態に係るプロセッサは、
レジスタ４０１、４１０、４１１、４６０、４８０と、
カウンタ４７０、４９０と、論理回路４１２と、レジス
タファイル４２０と、分岐予測部４５０と、命令フェッ
チコントロール４３０と、命令キャッシュメモリ４４０
とを、備えている。

【００４２】レジスタ４０１には、分岐予測先の命令が
命令キャッシュミスをした時に、分岐命令の確定を待た
ずに命令キャッシュリフィルをするかしないかを示す設
定情報が、格納されている。このレジスタ４０１は、レ
ジスタファイル４２０と接続されており、レジスタ間転
送命令で読み書き可能に構成されている。同時にレジス
タ４０１は、命令フェッチコントロール４３０と接続さ
れている。命令フェッチコントロール４３０は、命令キ
ャッシュメモリ４４０の制御や、命令キャッシュメモリ
４４０がミスした時の外部バスとのやりとりや、分岐予
測部４５０の制御を司る。命令フェッチコントロール４
３０は、分岐予測部４５０によって予測された分岐先が
命令キャッシュメモリ４４０に無かった場合に、その分
岐命令の確定を待たずして命令キャッシュメモリ４４０
にリフィルするかどうかを、レジスタ４０１の設定内容
によって決定する。

【００４３】分岐予測部４５０は、フェッチした分岐命
令の分岐が成立するかどうかを予測し、分岐成立予測信
号を出力する。本実施形態においては、分岐予測部４５
０がフェッチした分岐命令の分岐が成立すると予測した
場合、分岐成立予測信号を１にし、分岐が成立しないと
予測した場合、分岐成立予測信号を０にする。この分岐
成立予測信号は、ＥＸＮＯＲ回路４５１に入力される。
このＥＸＮＯＲ回路４５１には、分岐成立信号も入力さ
れる。この分岐成立信号は、その分岐命令を実行した結
果、実際に分岐が成立した場合に１となり、分岐が成立
しなかった場合に０となる信号である。したがって、こ
のＥＸＮＯＲ回路４５１の出力は、分岐予測部４５０の
予測が当たった場合は１となり、はずれた場合は０とな
る。このＥＸＮＯＲ回路４５１の出力は、ＡＮＤ回路４
５２に入力される。ＡＮＤ回路４５２には、分岐命令終
了信号も入力されている。このため、ＡＮＤ回路４５２
の出力は、分岐予測部４５０の予測が当たり、その分岐
命令の実行が終了した際に１となり、カウンタ４９０に
入力される。

【００４４】レジスタ４６０は、分岐命令の完了数を格
納している。カウンタ４７０は、分岐命令の完了のたび
に、レジスタ４６０の中身をインクリメントする。ま
た、レジスタ４８０は、分岐予測部４５０による分岐予
測が当たった回数を格納している。カウンタ４９０は、
分岐予測が当たるたびに、レジスタ４８０の中身をイン
クリメントする。レジスタ４６０、４８０は、レジスタ
間転送命令でレジスタファイル４２０との間でデータ転
送できる。すなわち、レジスタ４６０、４８０は、ユー
ザがプログラムによって読み書き可能である。

【００４５】レジスタ４１０は、分岐命令の完了数の閾
値を格納している。レジスタ４１１は、分岐予測が当た
った回数の閾値を格納している。これらレジスタ４１
０、４１１も、ユーザがプログラムによって読み書き可
能である。

【００４６】レジスタ４６０、４８０、４１０、４１１
は、命令キャッシュメモリ４４０のプリフェッチアルゴ
リズムを決定する論理回路４１２に接続されている。論
理回路４１２では、レジスタ４６０の格納する分岐命令
の完了数が、閾値レジスタ４１０の格納する閾値に達し
た場合、レジスタ４８０の格納する分岐予測当たり回数
を評価する。

【００４７】すなわち、レジスタ４８０の格納する分岐
予測当たり回数が、レジスタ４１１の格納する閾値に達
していた場合、分岐予測は、命令キャッシュミスによる
投機的なリフィルの持つ性能ペナルティを補って余りあ
るほど精度が高いと判断される。そこで、論理回路４１
２は、レジスタ４０１をセットして、分岐予測によって
予測された分岐ターゲットが命令キャッシュミスを起こ
していた場合に、分岐命令の結果が確定する前に命令キ
ャッシュミスをリフィルするようにする。逆に、レジス
タ４８０の格納する分岐予測当たり回数を評価したとき
に、レジスタ４８０の格納する値が、レジスタ４１１の
格納する閾値に達していなかった場合、論理回路４１２
は、分岐予測の精度は不十分と判定して、レジスタ４０
１を投機的な命令キャッシュリフィルを行わないように
セットする。

【００４８】ここで、本実施形態に係るプロセッサで
は、上述した第１実施形態と異なって、レジスタでなく
外部ピンに４１３によって、このような自動的コンフィ
グレーションの最適化する機能を、オン／オフすること
ができる。もちろん、この外部ピン４１３を、図５に示
すように、ソフトウェアで読み書き可能なレジスタ４９
１に置き換えることもできるのは言うまでもない。

【００４９】以上のように、本実施形態に係るプロセッ
サによれば、分岐予測によって予測された分岐ターゲッ
トが、命令キャッシュミスを起こしていた場合に、分岐
命令の結果が確定する前に命令キャッシュミスをリフィ
ルするか否かという、プログラムの性質によって効果も
副作用も大きいコンフィグレーションの変更を、ユーザ
が実際に実行するプログラムに基づいて決定することと
した。このため、分岐命令の結果が確定する前に命令キ
ャッシュミスをリフィルするか否かというコンフィグレ
ーションを、可能な限り最適に設定することが可能にな
る。

【００５０】また、本実施形態においては、図６に示す
ように、カウンタ４１４、４１６と、レジスタ４１５、
４１７、４１９と、論理回路４１８とを追加して、ＣＰ
Ｉ（Cycle Per Instruction）をプロセッサのパフォー
マンスの指標を使って、コンフィグレーション（この例
では投機的な命令キャッシュリフィル有無）を変化させ
るようにしてもよい。すなわち、カウンタ４１４は、ク
ロック数をカウントし、レジスタ４１５に格納する。カ
ウンタ４１６は、実行を完了した命令数をカウントし、
レジスタ４１７に格納する。レジスタ４１９には、ＣＰ
Ｉの閾値が格納されている。このレジスタ４１９に格納
されている内容は、ユーザがプログラムを用いて任意に
読み書き可能である。論理回路４１８は、レジスタ４１
４の値が所定の値に達した際に、レジスタ４１５、４１
７の格納する値を用いて、ＣＰＩを算出する。そして、
その算出結果と、閾値（レジスタ４１９）とを比較し
て、算出結果が閾値よりも悪い場合には、レジスタ４０
１の内容を変更することにより、投機的な命令キャッシ
ュリフィルを行うかどうかの設定を変更する。

【００５１】〔第３実施形態〕本発明の第３実施形態
は、動的に変更されるコンフィグレーションが、キャッ
シュメモリにおけるストアのアルゴリズムの場合であ
る。

【００５２】ストアのアルゴリズムとして、ライト・ア
ロケートとノー・ライト・アロケートが知られている。
ライト・アロケートとは、ストア命令がデータキャッシ
ュミスを起こした場合、キャッシュメモリがリフィルさ
れ、ストアデータは少なくともデータキャッシュメモリ
に送られるというものである。一方、ノー・ライト・ア
ロケートはストア命令がデータキャッシュミスを起こし
た場合、キャッシュメモリはリフィルされず、ストアデ
ータは外部メモリにのみに送られる。従って、キャッシ
ュメモリの中身は更新されず、外部メモリのみが更新さ
れる。

【００５３】この動作から分かるように、ライト・アロ
ケートはストアデータがよく再利用されるプログラムで
性能向上に効果があり、ノー・ライト・アロケートはス
トアデータが再利用されないプログラムで性能向上に効
果がある。逆に、ストアデータが再利用されないプログ
ラムにライト・アロケートを用いると、再利用されない
データのリフィルに対してバスアクセスというコストを
払った挙げ句、キャッシュメモリの中身を再利用されな
いデータで置き換えてしまうということになりキャッシ
ュメモリのヒット率を落とすことになる。一方、ストア
データがよく再利用されるプログラムでノー・ライト・
アロケートを用いると、ストアミスがプリフェッチを兼
ねていることに等しいライト・アロケートに比べて性能
が低くなる。このように、実際に実行されるプログラム
の性質によって、ライト・アロケートにするか、ノー・
ライト・アロケートにするかを決定することは、プロセ
ッサの性能向上のため、重要である。

【００５４】以上をふまえた上で、本実施形態に係るプ
ロセッサを図７に基づいて説明する。図７は、本実施形
態に係るプロセッサのハードウェア構成における主要部
を示すブロック図である。

【００５５】この図７に示すように、本実施形態に係る
プロセッサは、レジスタ５０１、５１１、５１２、５１
３、５１５、５１７と、カウンタ５１４、５１６、５６
０と、レジスタファイル５２０と、データキャッシュコ
ントロール５３０と、データキャッシュタグ５４０と、
ストアミスアドレスバッファ５１８と、アドレス比較器
５１９と、論理回路５１０、５５０とを、備えている。

【００５６】レジスタ５０１は、ストアのアルゴリズム
を、ライト・アロケートにするか、又は、ノー・ライト
・アロケートにするかを、切り替えるための設定情報が
格納されている。レジスタ５０１は、ユーザがプログラ
ムによってレジスタファイル５２０との間でデータの読
み書きが可能である。

【００５７】データキャッシュコントロール５３０は、
レジスタ５０１に格納されている設定情報に基づいて、
キャッシュメモリをライト・アロケート、又は、ノー・
ライト・アロケートのアルゴリズムにより制御する。

【００５８】データキャッシュタグ５４０は、キャッシ
ュライン毎に、ｖａｌｉｄビット５４１、ｄｉｒｔｙビ
ット５４２、アクセス履歴のヒストリーフィールド５４
３、物理アドレス・ページフレーム・ナンバー５４４、
ｓビット５４５を、有している。つまり、上述した第１
実施形態と比べて、ｓビット５４５が追加されている。

【００５９】データキャッシュミスが起こると、リフィ
ルの際にデータキャッシュタグ５４０が更新される。そ
の際、リフィルがストアミスを起因として行われた場
合、ｓビット５４５がセットされる。また、データキャ
ッシュタグ５４０のヒストリーフィールド５４３は、そ
のキャッシュラインへのアクセスの回数、又は、アクセ
ス回数に相当する情報を保持し、その内容を随時更新す
る。

【００６０】また、ストアミスアドレスバッファ５１８
は、ストアミスが起こるたびにその物理アドレスを記録
する。ストアミスした物理アドレスは、ストアミスアド
レスバッファ５１８に順次格納されていき、このストア
ミスアドレスバッファ５１８がフルになったら、最も古
いストアミスアドレスから順に消去されていく。

【００６１】プロセッサがライト・アロケートで動作し
ている場合、ストアミスはキャッシュラインを更新する
ので、データキャッシュタグ５４０のｓビット５４５を
立ててリフィルする。このストアミスに起因してリフィ
ルされたキャッシュラインに、後続のロード／ストア命
令がアクセスすると、データキャッシュタグ５４０のヒ
ストリーフィールド５４０に、そのアクセス回数が記録
されていく。そのラインが別のミスによって置換される
場合、そのキャッシュラインのｓビット５４５と、ヒス
トリーフィールド５４３とは、データキャッシュタグ５
４０から論理回路５５０に送信される。

【００６２】論理回路５５０では、『ストアミスを起因
としてリフィルされたキャッシュライン』への再アクセ
ス回数の総和が、論理回路５５０自身が持つレジスタの
内容と、データキャッシュタグ５４０から受信したｓビ
ット５４５とヒストリーフィールド５４３の内容から、
算出される。

【００６３】一方、データキャッシュタグ５４０から出
力されたリフィルされるキャッシュラインのｓビット５
４５は、キャッシュミスのイベント信号とともに、ＡＮ
Ｄ回路５５５に入力される。したがって、ＡＮＤ回路５
５５の出力が１である場合には、「今回置換されるキャ
ッシュラインが、もともとストアミスのためにリフィル
された」こと意味する。そのようなライン置換の総和
を、カウンタ５６０とレジスタ５７０によって求め、レ
ジスタ５７０に保持しておく。

【００６４】ストアミスでリフィルされたキャッシュラ
インが置換された回数の閾値は、レジスタ５８０に格納
しておく。また、ストアミスを起因としてリフィルされ
たキャッシュラインへの再アクセスの総和の閾値は、レ
ジスタ５９０に保持しておく。レジスタ５７０の格納す
る値（ストアミスでリフィルされたキャッシュラインが
置換された回数）が、レジスタ５８０の格納する閾値に
達すると、論理回路５１０でコンフィグレーションを変
更するかどうかの判定がなされる。すなわち、論理回路
５１０において、論理回路５５０が保持するストアミス
を起因としてリフィルされたキャッシュライン』への再
アクセス回数の総和と、レジスタ５９０が保持する閾値
とが、比較される。論理回路５５０の値が、レジスタ５
９０の閾値以上であった場合、ストアでリフィルされた
ラインには十分な数の再アクセスがあったということで
あるから、論理回路５１０はレジスタ５０１の設定情報
をそのままにし、今後も変わらずライト・アロケートで
プロセッサが動作するようにする。逆に、論理回路５５
０の値が、レジスタ５９０の閾値未満であった場合、論
理５１０はレジスタ５０１の設定情報を変更し、今後は
ノー・ライト・アロケートでプロセッサが動作するよう
にする。

【００６５】これに対して、プロセッサがノー・ライト
・アロケートで動作している場合、ストアミスはキャッ
シュラインを更新しないため、ストアミスアドレスバッ
ファ５１８を用いて、そのパフォーマンスを測定する。
すなわち、ストアミスアドレスバッファ５１８に保持さ
れている過去のストアミスアドレスと、パイプラインで
発生するロード／ストアミスとなったミスアドレスと
を、アドレス比較器５１９で比較する。両者が一致して
いた場合には、ストアミスを起こしたキャッシュライン
が、再びアクセスされたことになる。アドレス比較器５
１９は、両者が一致した場合には、一致信号をカウンタ
５１４に出力し、カウンタ５１４はこの一致信号の回数
をカウントする。すなわち、一致信号が入力されたカウ
ンタ５１４は、レジスタ５１５の格納する値をインクリ
メントし、レジスタ５１５はその値を保持する。このレ
ジスタ５１５の保持する値は、ストアミスを起こしたキ
ャッシュラインヘの再アクセス回数である。

【００６６】一方、ストアミスが起こると、カウンタ５
１６は、レジスタ５１７の格納する値をインクリメント
する。したがって、レジスタ５１７は、ストアミスの回
数を保持することになる。ストアミスと同じキャッシュ
ラインヘのアクセスの回数の閾値はレジスタ５１２に保
持しておき、ストアミスの回数の閾値はレジスタ５１３
に保持しておく。

【００６７】レジスタ５１７の格納する値が、レジスタ
５１３の格納する閾値に達すると、論理回路５１０によ
って、レジスタ５１２、５１５が比較される。レジスタ
５１５の格納する値（ストアミスを起こしたキャッシュ
ラインへの再アクセス回数）が、レジスタ５１２の格納
する閾値に達していなかった場合、それはミスを起こし
たストアのキャッシュラインヘの再アクセスが少ないと
いうことを意味する。このため、論理回路５１０はレジ
スタ５０１の設定情報を変更せずに、そのままノー・ラ
イト・アロケートでプロセッサが動作するようにする。
逆に、レジスタ５１５の格納する値が、レジスタ５１２
の格納する閾値に達していた場合、それはストアミスを
起こしたキャッシュラインへの再アクセスが多いことを
意味する。このため、論理回路５１０は、レジスタ５０
１の設定情報を変更し、レジスタ５０１の設定情報をラ
イト・アロケートに変更し、今後はプロセッサがライト
・アロケートで動作するようにする。

【００６８】ここで、本実施形態に係るプロセッサは、
上述した第１実施形態と同様に、レジスタ５１１の設定
情報を変更することにより、この自動的コンフィグレー
ションの最適化する機能を、オン／オフすることができ
るようになっている。レジスタ５１１の設定情報は、ユ
ーザがプログラムを用いて、任意に読み書き可能に構成
されている。もちろん、このレジスタ５１１を、図８に
示すように、ユーザが手動で切り替え可能な外部ピン４
９１に置き換えることもできるのは言うまでもない。

【００６９】以上のように、本実施形態に係るプロセッ
サによれば、キャッシュメモリのストアアルゴリズムと
して、ライト・アロケートを用いるか、ノー・ライト・
アロケートを用いるかを、ユーザが実際に実行したプロ
グラムのパフォーマンス測定結果に基づいて変更決定す
ることとした。このため、ユーザが実際に実行するプロ
グラムに適した方のストアアルゴリズムを採用すること
ができ、かつこれを動的に変更することができる。

【００７０】また、本実施形態においては、図９に示す
ように、カウンタ５２１、５１３と、レジスタ５２０、
５２２、５２５と、論理回路５２４を追加して、ＣＰＩ
（Cycle Per Instruction）をプロセッサのパフォーマ
ンスの指標を使って、コンフィグレーション（この例で
はストアアルゴリズムとしてライト・アロケートを用い
るか、又は、ノー・ライト・アロケートを用いるか）を
変化させるようにしてもよい。すなわち、カウンタ５２
０は、クロック数をカウントし、レジスタ５２１に格納
する。カウンタ５２２は、実行を完了した命令数をカウ
ントし、レジスタ５２３に格納する。レジスタ５２５に
は、ＣＰＩの閾値が格納されている。このレジスタ５２
５に格納されている内容は、ユーザがプログラムを用い
て任意に読み書き可能である。論理回路５２４は、レジ
スタ５２１の値が所定の値に達した際に、レジスタ５２
１、５２３の格納する値を用いて、ＣＰＩを算出する。
そして、その算出結果と、閾値（レジスタ５２５）とを
比較して、算出結果が閾値よりも悪い場合には、レジス
タ５０１の設定情報の内容を変更することにより、スト
アアルゴリズムとして、ライト・アロケートを用いる
か、ノー・ライト・アロケートを用いるのかを、切り替
える。

【００７１】〔第４実施形態〕上述した各実施形態で述
べたように、プロセッサが動的にパフォーマンスを測定
し、その測定性能に応じて自らのコンフィグレーション
を動的に随時変更していくことが可能で、この考え方は
様々なコンフィグレーションに関して適用可能である。
従って、以上説明してきたことはあくまでも発明の具体
的な実装を示す例でしかなく、本発明の主旨を保ったま
ま様々な実現が考えられることは言うまでもない。

【００７２】例えば、プロセッサの外部バスのアービト
レーションの方式をコンフィグレーションとして、ＣＰ
Ｉを評価性能に設定して、命令キャッシュリフィルのた
めのバスリードとデータキャッシュリフィルのためのバ
スリードの優先順位を動的に決定することが可能であ
る。

【００７３】また、プロセッサが、システムクロックを
カウントするカウンタと、ある着眼する命令群の終了数
をカウントするカウンタとを、有する場合を考えること
ができる。これらのカウンタの値を組み合わせること
で、ある着眼する命令群の平均実行時間が計算できる。
特定命令群の平均実行時間をサンプリングする期間を定
めるクロックカウンタを用いれば、ある期間内のある着
眼する命令群のパフォーマンスを求めることができる。
それは、サンプリングする期間を定めるクロックカウン
タがその閾値に達したときのある着眼する命令群の終了
数を取り出すことによって可能になる。

【００７４】もちろん、時間によるサンプリングでな
く、上で説明してきたようなある特定イベントの発生頻
度に着眼する手法もあり得る。

【００７５】このように様々な測定の組合わせをコンフ
ィグレーション変更のためのデータとすることが可能で
ある。

【００７６】また、コンフィグレーションの変更の仕方
について、いくつかの応用例が考えられる。この応用例
の一例を図１０に示す。この図１０は、この応用例にお
けるプロセッサのハードウェア構成における主要部の一
例を示すブロック図である。

【００７７】この図１０に示すように、プロセッサに、
レジスタ６３０を追加して、以前のコンフィグレーショ
ンを格納しておく。更に、プロセッサに、レジスタ６７
０を追加して、プロセッサまたはモジュールの性能に換
算可能なイベントのカウント数のうち、以前の値を格納
しておく。

【００７８】この図１０の例では、レジスタ６４０に時
間に換算可能なイベント（例えば、クロック信号のクロ
ック数）のカウント結果を格納していく。レジスタ６４
０の値が、その閾値を格納するレジスタ６６０の中身に
達すると、性能に換算可能なイベントのカウント数のう
ち現在のもの（レジスタ６５０の格納する値）、以前の
もの（レジスタ６７０の格納する値）と、現在のコンフ
ィグレーション（レジスタ６１０の格納する設定情報）
と以前のコンフィグレーション（レジスタ６３０の格納
する設定情報）とに基づいて、次のコンフィグレーショ
ンを論理回路６８０で決定し、レジスタ６０１に格納す
る。この論理回路６８０のアルゴリズムとしては、以下
の通りである。

【００７９】レジスタ６５０、６７０の比較によって、
以前のパフォーマンスと現在のパフォーマンスの比較が
できるから、以前から現在へのコンフィグレーション変
更のために性能が低下したかどうかが分かる。性能低下
があった場合、現在のコンフィグレーションは以前のコ
ンフィグレーションよりもプログラムに適していないこ
とが分かる。よって、次は、論理回路６８０は、コンフ
ィグレーションを以前のコンフィグレーション（レジス
タ６３０の格納する設定情報）に戻す。コンフィグレー
ション変更時には、レジスタ６５０の格納する値がレジ
スタ６７０にコピーされ、レジスタ６１０の格納する値
がレジスタ６３０にコピーされることは言うまでもな
い。このように、次のコンフィグレーションを前のコン
フィグレーション（レジスタ６３０）に戻すというアル
ゴリズムの場合、論理回路６８０は、コンフィグレーシ
ョンを元に戻した後は、リセットするまで二度とコンフ
ィグレーション変更を許さないという応用例も可能であ
る。

【００８０】もちろん、ひとつのコンフィグレーション
について、３つ以上の選択肢がある場合は、論理回路６
８０のアルゴリズムを変更して、次のコンフィグレーシ
ョンは前のコンフィグレーション（レジスタ６３０）で
も今のコンフィグレーション（レジスタ６１０）でもな
い第３のコンフィグレーションを選ぶようにする、とい
う考え、方が可能である。このように、コンフィグレー
ション変更について、様々な手法が考えられる。

【００８１】〔第５実施形態〕上述した実施形態におい
ては、コンフィグレーション変更のために費やす性能ペ
ナルティ（サイクル）を特に意識しないで議論してき
た。変更するコンフィグレーションによっては、変更の
ために費やす時間的ロスが性能ペナルティ上無視できな
い場合もある。例えば、あるコンフィグレーションの変
更に伴ってデータキャッシュメモリをフラッシュしなけ
ればならない場合である。データキャッシュメモリのフ
ラッシュのために必要なサイクル数、つまり、時間的ロ
スは、プロセッサによっても異なるが、数千サイクル以
上になる場合もある。このような場合、コンフィグレー
ションの変更は、コンフィグレーション変更に必要なコ
スト、すなわち性能に対する影響にとりわけ注意しなけ
ればならない。

【００８２】図１１は、図３に示すプロセッサに、コン
フィグレーション変更コストを測定するためのカウンタ
機構を追加したものである。すなわち、カウンタ７１７
は、データキャッシュタグ３４０がｄｉｒｔｙビットを
０から１に変更したした回数をカウントする。レジスタ
７１８は、このカウンタ７１７がカウントした回数を保
持する。レジスタ７１９は、データキャッシュタグ３４
０がｄｉｒｔｙビットを０から１に変更したした回数の
閾値を保持する。このレジスタ７１８の保持する値は、
ユーザがプログラムを用いて、任意に読み書き可能に構
成されている。

【００８３】コピーバック方式のキャッシュメモリにお
けるラインサイズの変更の性能上のコストは、データキ
ャッシュメモリの中に残るダーティーラインをライトバ
ックすることに費やすサイクル数である。

【００８４】ここで、ストア命令(メモリへの書き込み
命令)が起こったとき、メインメモリは更新せず、キャ
ッシュメモリのみを更新する方式をコピーバック方式と
いう。この際、ストア命令の対象になったキャッシュラ
インは、メインメモリと異なる(最新の)データを保持し
ていて、メインメモリとの内容の一貫性(data consiste
ncy)がとれていない。このようなキャッシュラインをダ
ーティーラインという。キャッシュミスが発生して、ダ
ーティーラインを置き換えてリフィルする時には、リフ
ィルする前にダーティーラインをキャッシュメモリから
読んで、その内容をメインメモリに反映しなければなら
ない。これをダーティーライトバックという。ダーティ
ーライトバックは、バスオペレーションであるから一般
に多くのサイクル数を費やす。実際のライトバックが、
何サイクルを必要とするかは、キャッシュメモリとバス
の間に設けるライトバッファの大きさや、バスの混み具
合いに依存する。更に、それがプロセッサ本体のパイプ
ラインをどの程度インターロックするかは、キャッシュ
メモリの状態に対応するパイプラインの仕様に依存す
る。

【００８５】本実施形態では、キャッシュメモリのライ
ンサイズを変更する際に、キャッシュメモリにその時点
で存在するダーティーラインを全てライトバックしてお
くこととする。無論、そうでない仕様のプロセッサもあ
り得るが、シンプルさの観点から、ダーティーラインの
すべてをライトバックする方が一般的である。

【００８６】すると、ライトバッファの段数やパイプラ
インの制御の仕様が決まっていれば、プロセッサのライ
ンサイズ変更の実コストは、キャッシュメモリ中にどれ
くらいの数のダーティーラインが存在するかによって決
まる。ここでは、バスの状態とパイプラインの状態とは
予測できないため、そこにコストの不確定要素がある
が、平均的な状態を想定することで近似することとす
る。

【００８７】従って、本実施形態に係るプロセッサにお
いては、キャッシュメモリがいくつのダーティーライン
を持っているかを検出するために、カウンタ７１７を設
けている。すなわち、カウンタ７１７は、データキャッ
シュタグ３４０のｄｉｒｔｙビット３４２を０から１に
セットした回数をカウントする。このカウントした値
は、レジスタ７１８に保持しておく。

【００８８】ダーティーラインの本数の閾値をレジスタ
７１９に格納しておき、レジスタ７１８の保持する値
が、レジスタ７１９の保持する閾値よりも小さい場合、
論理回路３１３は、コンフィグレーションの変更を行
う。すなわち、論理回路３１３は、ダーティーライトバ
ックに費やす時間が短いと判断できる場合に、レジスタ
３０１の設定情報を変更し、ラインサイズの変更を実行
する。

【００８９】このようにすることにより、論理回路３１
３は、コンフィグレーションの変更に要する時間的ロス
をも考慮した上で、ラインサイズを変更すべきかどうか
を、決定することができるようになる。

【００９０】一方、古い世代のバイナリを新しいハード
ウェアで実行する場合、古いバイナリ中の複数の命令を
新しいハードウェアがサポートする１つの命令で置換す
ることが可能な場合がある。それは、例えば、メモリか
らバイト（8-bit）を取り出してレジスタファイル３２
０に格納したい場合、古いバイナリでは、「メモリヘの
ワード（32-bit）アクセス命令＋シフト命令」として実
現されていたものを、新しいハードウェアが「メモリヘ
のバイトアクセス（アライメントとり付き）命令」１つ
で実行できる場合である。このような場合は、プロセッ
サ上で古いバイナリ上の複数の命令を新しい命令で置換
してしまえば、置換後の実行性能は向上するが、通常、
このような置換は複雑な操作を伴うので、置換操作自体
に実行サイクルを割くことになる。この場合も、その時
間的ロスを加味して、置換操作を行うかどうかを決定す
ることが重要である。この例では、置換操作に費やすサ
イクル数が、コンフィグレーション変更の時間的ロスに
なる。また、コンフィグレーションを変更するかどうか
を判断するために測定すべき対象としては、ある置換可
能な命令列の出現頻度やＣＰＩが考えられる。

【００９１】〔第６実施形態〕プロセッサは、通常、い
くつかの動作モードを有している。それは例えば、ユー
ザモード、カーネルモードなどである。ユーザモードで
はユーザプログラムを実行し、カーネルモードでは例外
ベクタなどの基本プログラムを実行するというように、
各モードで実行するプログラムが暗黙的に決まってい
る。

【００９２】このため、プログラムに最適なハードウェ
アコンフィグレーションは、モードによって大きく異な
る。このことから、パフォーマンスの測定を各モード毎
に行い、更にはハードウェアコンフィグレーションの変
更をモード毎に行うことが考えられる。それによって、
よりきめ細かい、ハードウェアコンフィグレーションの
効果的な変更が可能になる。さらに応用例としては、ユ
ーザモードでのみパフォーマンスの測定とハードウェア
コンフィグレーションの変更とを行い、カーネルモード
では行わないような手法も考えられる。

【００９３】また、同じ考え方を命令のメモリ領域につ
いて適用することができる。すなわち、メモリは、キャ
ッシュ領域とアンキャッシュ領域とに区分することがで
きる。キャッシュ領域は、格納されているデータがキャ
ッシュメモリに格納され得る領域であり、アンキャッシ
ュ領域は、格納されているデータがキャッシュメモリに
格納されない領域である。したがって、例えば、アンキ
ャッシュ領域に格納されている命令シークエンスと、キ
ャッシュ領域に格納されている命令シークエンスとで
は、当然その振る舞いが異なるであろう。この前提の
下、命令シークエンスをその格納されているメモリ領域
の属性によって分類し、その分類ごとに、パフォーマン
スの測定とハードウェアコンフィグレーションの変更と
を動的に行うようにすることが考えられる。

【００９４】〔第７実施形態〕本発明の第７実施形態
は、コンフィグレーションの設定に関する選択肢が３つ
以上ある場合に、第１の選択肢から第２の選択肢にコン
フィグレーションを変更した後、変更前よりもプロセッ
サのパフォーマンスが悪化した際には、第３の選択肢に
コンフィグレーションを変更するものである。

【００９５】図１２は、本実施形態に係るプロセッサの
ハードウェア構成を示すブロック図である。この図１２
に示すように、本実施形態に係るプロセッサにおいて
は、上述した第１実施形態（図１参照）のプロセッサ
に、レジスタ８１７、８１８、８１９を追加している。

【００９６】レジスタ８１７は、コンフィグレーション
変更以前のキャッシュヒット回数を格納する。レジスタ
８１８は、コンフィグレーション変更以前の「リフィ
ルラインへの再アクセス数の合計」を格納する。レジス
タ８１９は、コンフィグレーション変更以前のラインサ
イズを格納する。

【００９７】すなわち、レジスタ８１７は、論理回路３
１３がコンフィグレーションを変更する時に、レジス３
９０の保持する値がコピーされる。レジスタ８１８は、
論理回路３１３が、コンフィグレーションを変更する時
に、論理回路３５０の出力が格納される。レジスタ８１
９は、論理回路３１３がコンフィグレーションを変更す
る時に、レジスタ３０１の格納するラインサイズがコピ
ーされる。

【００９８】これにより、これによりレジスタ８１７
は、コンフィグレーション変更以前のキャッシュヒット
回数を格納し、レジスタ８１８は、コンフィグレーショ
ン変更以前の「リフィルラインへの再アクセス回数」を
格納し、レジスタ８１９は、コンフィグレーション変更
以前のラインサイズを格納することになる。

【００９９】論理回路３１３は、コンフィグレーション
変更時に、ラインサイズを増やす方向に変えたか、減ら
す方向に変えたかを記憶しておく。本実施形態において
は、ラインサイズとして選択され得る値の選択肢が、３
つ以上存在しているが、その選択肢はいくつあってもよ
い。

【０１００】本実施形態に係るプロセッサは、上述した
第１実施形態と同様のアルゴリズムで動作する。但し、
論理回路３１３が、２回目以降のラインサイズの最適化
のための性能評価を行ったときの動作が異なる。

【０１０１】すなわち、前回の変化がラインサイズを大
きくする方向(論理回路３１３で記憶しておく)だった場
合、レジスタ８１８の格納する値と、論理回路３５０の
出力する値とを、比較する。レジスタ８１８の格納する
値の方が小さかった場合には、ラインサイズを大きくし
過ぎたために「リフィルラインへの再アクセス数」が減
少したと考えられるため、レジスタ３０１とレジスタ８
１９との中間の値を、新たにレジスタ３０１にセットす
る。

【０１０２】前回の変化がラインサイズを小さくする方
向(論理３１３で記憶しておく)だった場合、レジスタ８
１７の格納する値と、レジスタ３９０の格納する値と
を、比較する。レジスタ８１７の格納する値の方が小さ
かった場合、ラインサイズを小さくし過ぎたためにキャ
ッシュヒット率が減少したと考えられるから、レジスタ
３０１とレジスタ８１９の中間の値を、新たにレジスタ
８０１にセットする。

【０１０３】以上のように、本実施形態に係るプロセッ
サによれば、前回のキャッシュメモリのラインサイズを
レジスタ８１９に保持しておき、ラインサイズ変更後の
パフォーマンスがラインサイズ変更前のパフォーマンス
より悪化していた場合には、前回のラインサイズと今回
のラインサイズの中間の値を、新たなラインサイズに設
定することとした。つまり、前回のラインサイズが第１
の選択肢であり、今回のラインサイズが第２の選択肢で
あり、第２の選択肢のパフォーマンスの方が、第１の選
択肢のパフォーマンスより悪い場合には、第３の選択肢
としてその中間値を採用することとした。このため、ユ
ーザが実行しているプログラムに対する可能な限り最適
なラインサイズを、短い時間で特定することができるよ
うになる。

【０１０４】なお、本発明は上記実施形態に限定されず
種々に変形可能である。例えば、上述した実施形態にお
いては、パフォーマンスを測定したり、コンフィグレー
ションを変更するモジュールが、キャッシュメモリモジ
ュールや、分岐予測モジュールである場合を例に説明し
たが、これに限るものではない。また、あるモジュール
のパフォーマンスを測定した結果に基づいて、パフォー
マンスを測定したモジュールと別のモジュールのコンフ
ィグレーションを変更したり、プロセッサそのもののコ
ンフィグレーションを変更してもよい。さらに、上述し
た実施形態においては、プロセッサのパフォーマンスを
ＣＰＩに基づいて判断することとしたが、その判断指標
はＣＰＩに限るものではない。

【０１０５】

【発明の効果】以上説明したように、本発明によれば、
各種の処理を行うモジュールやプロセッサそのもののパ
フォーマンスを測定し、その測定結果に基づいて、モジ
ュールやプロセッサのコンフィグレーションを変更する
こととしたので、ユーザが実際に実行するプログラムに
適したコンフィグレーションを設定することができるよ
うになる。

【図面の簡単な説明】

【図１】本発明の第１実施形態に係るプロセッサの主要
部をブロックで示す図。

【図２】本発明の第１実施形態に係るプロセッサの変形
例を示す図。

【図３】本発明の第１実施形態に係るプロセッサのさら
に別の変形例を示す図。

【図４】本発明の第２実施形態に係るプロセッサの主要
部をブロックで示す図。

【図５】本発明の第２実施形態に係るプロセッサの変形
例を示す図。

【図６】本発明の第２実施形態に係るプロセッサのさら
に別の変形例を示す図。

【図７】本発明の第３実施形態に係るプロセッサの主要
部をブロックで示す図。

【図８】本発明の第３実施形態に係るプロセッサの変形
例を示す図。

【図９】本発明の第３実施形態に係るプロセッサのさら
に別の変形例を示す図。

【図１０】本発明の第４実施形態に係るプロセッサの主
要部をブロックで示す図。

【図１１】本発明の第５実施形態に係るプロセッサの主
要部をブロックで示す図。

【図１２】本発明の第７実施形態に係るプロセッサの主
要部をブロックで示す図。

【図１３】従来のプロセッサの一例を示す図。

【図１４】従来の別のプロセッサの一例を示す図。

【符号の説明】

３０１、３１０、３１１、３１２、３１６、３７０、３
９０レジスタ３１３、３５０論理回路３１４ＴＬＢ３１５アドレス比較器３２０レジスタファイル３３０データキャッシュコントロール３４０データキャッシュタグ３６０、３８０カウンタ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 9/38 ３３０Ｇ０６Ｆ 9/38 ３３０Ａ３８０３８０Ｃ 11/34 11/34 ＳＦターム(参考） 5B005 JJ13 KK12 MM02 MM03 NN23 QQ06 VV02 VV24 5B013 BB01 EE09 5B042 GA15 GA33 HH20 JJ41 MC24 MC25 MC28 NN38

Claims

【特許請求の範囲】

【請求項１】各種の処理を行うモジュールと、前記モジュールが各種の処理を行う際のパフォーマンス
を測定する、パフォーマンス測定手段と、前記パフォーマンス測定手段により測定された測定結果
に基づいて、前記モジュール及び／又は当該プロセッサ
のコンフィグレーションを変更するか否かを判断し、そ
の判断結果に応じてそのコンフィグレーションを変更す
る、コンフィグレーション変更手段と、を備えることを特徴とするプロセッサ。
【請求項２】当該プロセッサが行う各種の処理のパフォ
ーマンスを測定する、パフォーマンス測定手段と、前記パフォーマンス測定手段により測定された測定結果
に基づいて、各種の処理を行うモジュール及び／又は当
該プロセッサのコンフィグレーションを変更するか否か
を判断し、その判断結果に応じてそのコンフィグレーシ
ョンを変更する、コンフィグレーション変更手段と、を備えることを特徴とするプロセッサ。
【請求項３】前記コンフィグレーション変更手段がコン
フィグレーションを変更するために費やす性能ペナルテ
ィを測定する手段、前記コンフィグレーション変更手段
がコンフィグレーションを変更するために費やす性能ペ
ナルティを算出するのに必要な事項を測定する手段、又
は、予め測定若しくは計算された前記コンフィグレーシ
ョン変更手段がコンフィグレーションを変更するために
費やす性能ペナルティを記憶する手段を、さらに備える
ことを特徴とする請求項１又は請求項２に記載のプロセ
ッサ。
【請求項４】前記コンフィグレーション変更手段は、前
記パフォーマンス測定手段により測定された測定結果
と、コンフィグレーションを変更するために費やす性能
ペナルティとの双方に基づいて、前記モジュール及び／
又は当該プロセッサのコンフィグレーションを変更する
か否かを判断する、ことを特徴とする請求項１乃至請求
項３のいずれかに記載のプロセッサ。
【請求項５】所定の時間が経過したことを検出する、時
間検出手段と、前記所定の時間に実行された命令数を測定する、実行命
令数測定手段と、を備えるとともに、前記コンフィグレーション変更手段は、前記所定の時間
と前記実行命令数測定手段の測定結果とに基づいて、前
記モジュール及び／又は当該プロセッサのコンフィグレ
ーションを変更するか否かを判断する、ことを特徴とする請求項１乃至請求項４のいずれかに記
載のプロセッサ。
【請求項６】前記時間検出手段は、各種の処理の同期を
とるためのクロック信号のクロック数をカウントする第
１カウンタで構成され、前記実行命令数測定手段は、各命令の実行が終了した場
合に出力される命令終了信号をカウントする第２カウン
タで構成されている、ことを特徴とする請求項５に記載のプロセッサ。
【請求項７】前記コンフィグレーション変更手段におけ
るコンフィグレーションの変更は、当該プロセッサを起
動した後に、１又は複数回行われることを特徴とする請
求項１乃至請求項６のいずれかに記載のプロセッサ。
【請求項８】コンフィグレーションを変更する前に前記
パフォーマンス測定手段が測定したパフォーマンスの測
定結果を保持する、変更前パフォーマンス測定結果保持
手段と、コンフィグレーションを変更した後の前記パフォーマン
ス測定手段が測定したパフォーマンスの測定結果と、前
記変更前パフォーマンス測定結果保持手段が保持するパ
フォーマンスの測定結果とを、比較する、比較手段と、をさらに備えるとともに、前記コンフィグレーション変更手段は、コンフィグレー
ションを変更する前よりも、コンフィグレーションを変
更した後の方が、パフォーマンスの測定結果が悪い場合
には、コンフィグレーションの設定を変更前のものに戻
す、ことを特徴とする請求項１乃至請求項７のいずれか
に記載のプロセッサ。
【請求項９】前記コンフィグレーション変更手段が、変
更前のコンフィグレーションに戻した場合には、それ以
降、コンフィグレーションの変更を行わない、ことを特
徴とする請求項８に記載のプロセッサ。
【請求項１０】コンフィグレーションを変更する前に前
記パフォーマンス測定手段が測定したパフォーマンスの
測定結果を保持する、変更前パフォーマンス測定結果保
持手段と、コンフィグレーションを変更した後の前記パフォーマン
ス測定手段が測定したパフォーマンスの測定結果と、前
記変更前パフォーマンス測定結果保持手段が保持するパ
フォーマンスの測定結果とを、比較する、比較手段と、をさらに備えるとともに、前記コンフィグレーション変更手段は、コンフィグレー
ションを変更する前よりも、コンフィグレーションを変
更した後の方が、パフォーマンスの測定結果が悪い場合
には、コンフィグレーションを変更前と変更後のいずれ
とも異なる設定に変更する、ことを特徴とする請求項１
乃至請求項７のいずれかに記載のプロセッサ。
【請求項１１】前記コンフィグレーション変更手段によ
るコンフィグレーションの変更を、行うか否かをユーザ
が切り替えるための、切替手段を、さらに備えることを特徴とする請求項１乃至請求項１０
のいずれかに記載のプロセッサ。
【請求項１２】前記切替手段は、ユーザが手動で切替可
能な外部ピンである、ことを特徴とする請求項１１に記
載のプロセッサ。
【請求項１３】前記切替手段は、ユーザがソフトウェア
で書き替え可能なレジスタである、ことを特徴とする請
求項１１に記載のプロセッサ。
【請求項１４】前記パフォーマンス測定手段は、メモリ
を複数の領域に区分し、命令が格納されているメモリの
領域毎に、独立に、パフォーマンスを測定する、ことを
特徴とする請求項１乃至請求項１３のいずれかに記載の
プロセッサ。
【請求項１５】前記コンフィグレーション変更手段は、
コンフィグレーションの変更を、前記メモリの領域毎
に、独立して行う、ことを特徴とする請求項１４に記載
のプロセッサ。
【請求項１６】複数の動作モードを有するとともに、前記パフォーマンス測定手段は、前記動作モード毎に独
立に、パフォーマンスを測定することを特徴とする請求
項１乃至請求項１３のいずれかに記載のプロセッサ。
【請求項１７】前記コンフィグレーション変更手段は、
コンフィグレーションの変更を、前記動作モード毎に、
独立して行う、ことを特徴とする請求項１６に記載のプ
ロセッサ。
【請求項１８】前記コンフィグレーションとは、キャッ
シュメモリのラインサイズである、ことを特徴とする請
求項１乃至請求項１７のいずれかに記載のプロセッサ。
【請求項１９】前記モジュールのパフォーマンスとは、
前記キャッシュメモリのヒット率又はミス率である、こ
とを特徴とする請求項１８に記載のプロセッサ。
【請求項２０】フェッチした分岐命令がどちらに分岐す
るかを予測し、実行されるとして予測した命令をターゲ
ット命令とする、分岐予測部を、さらに備えるととも
に、前記コンフィグレーションとは、前記ターゲット命令を
フェッチする際にキャッシュミスを起こした場合に、そ
の分岐命令の実行結果が確定する前に前記ターゲット命
令を外部メモリからフェッチするか否かの設定である、
ことを特徴とする請求項１乃至請求項１７のいずれかに
記載のプロセッサ。
【請求項２１】前記モジュールのパフォーマンスとは、
前記分岐予測部における分岐予測のヒット率である、こ
とを特徴とする請求項１９に記載のプロセッサ。
【請求項２２】前記コンフィグレーションとは、データ
キャッシュメモリのストアアルゴリズムである、ことを
特徴とする請求項１乃至請求項１７のいずれかに記載の
プロセッサ。
【請求項２３】前記モジュールのパフォーマンスとは、
ストアミスでリフィルされたキャッシュラインの再利用
率である、ことを特徴とする請求項２２に記載のプロセ
ッサ。
【請求項２４】当該プロセッサのパフォーマンスとは、
１命令を実行するのに要する平均クロック数である、こ
とを特徴とする請求項１８乃至請求項２３のいずれかに
記載のプロセッサ。