JP2021047844A

JP2021047844A - プロセッサ機構をダイナミックにチューニングするための技術

Info

Publication number: JP2021047844A
Application number: JP2020105533A
Authority: JP
Inventors: ショーハンアダーシュ; Chauhan Adarsh; ガウルジャイエシュ; Gaur Jayesh; サラフランク; Sala Franck; ラパポートリフ; Rappoport Lihu; スペルバージーヴ; Sperber Zeev; ヨアズアディ; Yoaz Adi; サブラモニースリーニバス; Subramoney Sreenivas
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-09-19
Filing date: 2020-06-18
Publication date: 2021-03-25
Also published as: EP3796177B1; TW202113556A; US11656971B2; EP3796177A1; EP4075280A1; US20210109839A1; TWI831986B; CN112527477A; US10915421B1; JP2022153488A; JP2022172197A; US20220206925A1; US11256599B2

Abstract

【課題】データ処理システム内のプロセッサをダイナミックにチューニングする方法を提供する。【解決手段】マイクロアーキテクチャ機構及びダイナミックチューニングユニット（ＤＴＵ）回路を備えるプロセッサは、マイクロアーキテクチャ機構を無効にした状態と有効にした状態でプログラムをそれぞれ実行する。ＤＴＵ回路は、プロセッサがそれぞれの実行ウィンドウでより不良なパフォーマンスを実現したか否かを自動的に判定し、プログラムの選択されたアドレスに対する有用性状態を更新する。プロセッサがマイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、ＤＴＵ回路は確定した不良状態を示すべく、有用性状態を自動的に更新する。確定した不良状態を示す有用性状態に応じて、ＤＴＵ回路は、実行ウィンドウの選択されたアドレスに対するマイクロアーキテクチャ機構を自動的に無効にする。【選択図】図２

Description

本開示は、概して、データ処理システムに関し、特に、データ処理システム内のプロセッサをダイナミックにチューニングする技術に関する。

データ処理システム内の中央処理装置（ＣＰＵ）は、状況次第で、機能を有していないＣＰＵと比較してＣＰＵのパフォーマンスを改善する様々な異なる機能を含み得る。例えば、状況次第で、投機的実行の機能を有するＣＰＵは、投機的実行の機能を有していない同等のＣＰＵより良好に実行し得る。

ＣＰＵの機能はまた、機能が１つより多くの設定をサポートするという点で、チューニング可能又は設定可能であり得る。本開示の目的のために、ＣＰＵの設定可能な機能が、「マイクロアーキテクチャ機構（ｍｉｃｒｏａｒｃｈｉｔｅｃｔｕｒａｌｆｅａｔｕｒｅ）」と称され得る。例えば、ＣＰＵは、マイクロアーキテクチャ機構を有効及び無効にすることができ得る。さらに又は代替的に、ＣＰＵは、マイクロアーキテクチャ機構が有効にされるとき、マイクロアーキテクチャ機構に異なる設定を適用することができ得る。言い変えれば、マイクロアーキテクチャ機構は、設定範囲をサポートし得る。

しかしながら、有効にされる（すなわち、オンにされる）マイクロアーキテクチャ機構が、アプリケーションの一部のパフォーマンスの改善をもたらし得る一方で、アプリケーションの他の一部のパフォーマンスの低下をもたらす。さらに、マイクロアーキテクチャ機構がアプリケーション（又はアプリケーションの一部）のパフォーマンスの改善又はパフォーマンスの低下をもたらすかどうかは、アプリケーション（又はアプリケーションの一部）の実行と関連している他の状況に依存し得る。

例えば、マイクロアーキテクチャ機構は、アプリケーションにいくつかのデータのタイプ及び／又は量でより良好なパフォーマンスを実現させ得るが、データの他のタイプ及び／又は量でより不良なパフォーマンスを実現させる。また、データ処理システムは、複数のアプリケーションを同時に実行し得、１つのアプリケーションのパフォーマンスは、他のアプリケーションによって処理されているデータのタイプ及び／又は量だけでなく、データ処理システム上で実行している他のアプリケーションのタイプ及び数に依存して異なり得る。さらに、最新のプロセッサは、多くの異なるマイクロアーキテクチャ機構を有し得、これらの機能が、異なる状況でパフォーマンスにおける差をもたらす複雑な相互作用を有し得る。

少なくとも上述の理由のため、多種多様の異なる状況で改善したパフォーマンスを実現する方法でマイクロアーキテクチャ機構をチューニングすることは、困難である。

本発明の特徴及び利点は、添付の特許請求の範囲、１又は複数の例示的な実施形態の以下の詳細な説明、及び対応する図から明らかとなるだろう。

データ処理システム内のプロセッサをダイナミックにチューニングする技術を有するデータ処理システムの例示的な実施形態を示すブロック図である。

図１のプロセッサをダイナミックにチューニングする例示的な処理のフローチャートである。

図１のプロセッサ内の有限状態マシンの動作を示すブロック図である。

図１のプロセッサをダイナミックにチューニングする動作の疑似コードの記述である。

１又は複数の実施形態による、１つより多くのコアを有し得、統合メモリコントローラを有し得、統合グラフィックスを有し得るプロセッサのブロック図である。

１又は複数の実施形態による、システムおブロック図である。

１又は複数の実施形態による、より具体的で例示的なシステムのブロック図である。１又は複数の実施形態による、より具体的で例示的なシステムのブロック図である。

１又は複数の実施形態による、システムオンチップのブロック図である。

上述のとおり、本開示は、データ処理システム内のプロセッサをダイナミックにチューニングする技術を導入する。特に、本開示は、１又は複数のマイクロアーキテクチャ機構が現在の条件の望ましい設定を判定すべく、異なる設定のランタイム評価を提供し、その望ましい設定のダイナミックな適用を提供する。さらに、評価が時間とともに繰り返され得、変更された条件の望ましい設定を判定して適用する。

以下でより詳細に説明されるように、１つの実施形態において、プロセッサ内のダイナミックチューニングユニットは、第１の実行ウィンドウに対する第１の設定（例えば、無効にする）におけるプロセッサのマイクロアーキテクチャ機構を用いて、及び第２の実行ウィンドウに対する第２の設定（例えば、有効にする）におけるマイクロアーキテクチャ機構を用いてプロセッサにソフトウェアを実行させる。ここで、ウィンドウは、同じサイズである。ダイナミックチューニングユニットは、これらのウィンドウのそれぞれを完了するのに必要なサイクル数に基づいて、パフォーマンスが改善したか低下したかを判定する。例えば、第２のウィンドウが第１のウィンドウより著しく少ないサイクル数で完了した場合、ダイナミックチューニングユニットは、マイクロアーキテクチャ機構の第２の設定が改善したパフォーマンスをもたらしたと判定し得る。また、プロセッサが第２のウィンドウを第１のウィンドウより少ないサイクル数で完了した場合、プロセッサは、平均して、第２のウィンドウではより多くのサイクルあたりの命令（ＩＰＣ）を実行することができた。したがって、改善したパフォーマンスが高い効率のサイクルあたりの命令（ＩＰＣ）の観点から評価され得、パフォーマンスの改善がより高い効率のＩＰＣに反映される。

ダイナミックチューニングユニットは、有限状態マシンと一緒にそのような評価を用い得、マイクロアーキテクチャ機構の望ましい設定を判定する。さらに、ダイナミックチューニングユニットは実行されているソフトウェアの異なる部分を評価し得、ダイナミックチューニングユニットはソフトウェアのこれらの異なる部分にマイクロアーキテクチャ機構の異なる望ましい設定を判定して適用し得る。例えば、ダイナミックチューニングユニットは、ワークロードのいくつかの部分についてマイクロアーキテクチャ機構を有効にし得、ワークロードの他の部分についてマイクロアーキテクチャ機構を無効にし得る。本開示の目的のために、プロセッサのマイクロアーキテクチャ機構にワークロードの異なる一部について異なる設定（例えば、有効にする又は無効にする）を用いさせる処理が、このマイクロアーキテクチャ機構の「選択的なスロットル（ｓｅｌｅｃｔｉｖｅｔｈｒｏｔｔｌｉｎｇ）」と称され得る。

図１は、データ処理システム１０内のプロセッサ１２をダイナミックにチューニングする技術を有するデータ処理システム１０の例示的な実施形態を示すブロック図である。データ処理システム１０は、本明細書で導入された技術を示す様々な仮想構成要素及び機能を有する仮想システムである。

図に示されるように、ＣＰＵ又はプロセッサ１２に加えて、データ処理システム１０は、ランダムアクセスメモリ（ＲＡＭ）１４、不揮発性ストレージ（ＮＶＳ）１６、ネットワークインタフェースコントローラ（ＮＩＣ）１８等のような、他のハードウェアリソースを含む。また、図１の実施形態において、プロセッサ１２は、２つのコア２０Ａ−２０Ｂ、及びクロック２２等のような他のモジュールを含む。図に示されるように、コア２０Ａは、算術論理ユニット（ＡＬＵ）２４、汎用レジスタ２６のセット、プリフェッチユニット２８等のような、様々な処理リソースを含む。コア２０Ｂはまた、同じ又は類似のタイプの構成要素を含み得る。

また、他の実施形態において、プロセッサは、より少ないコア又はより多くのコアを含み得る。例えば、プロセッサは、シングルコア、又は数十若しくは数百のコアを含み得る。また、プロセッサは、基板に取り付けられてパッケージを形成する集積回路又は「チップ」として実装され得る。代替的に、プロセッサは、１つより多くのチップを含むパッケージとして実装され得る。

図１の実施形態において、ＮＶ１６は、オペレーティングシステム（ＯＳ）５２及びアプリケーション５４のような、ソフトウェアを含む。データ処理システム１０は、実行のためにソフトウェアをＲＡＭ１４にコピーし得る。また、データ処理システム１０は、複数のコア上でソフトウェアを同時に実行し得る。さらに、各コアは複数の論理プロセッサ（ＬＰ）含み得、各コアは複数のＬＰ上でソフトウェアを同時に実行し得る。例えば、コアごとに２つのＬＰを有する４つのコアを含むＣＰＵを有するデータ処理システムにおいて、データ処理システムは、８つの異なるアプリケーション又は単一アプリケーションの８つのインスタンス等を同時に実行し得る。

また、図１の実施形態において、プロセッサ１２がプリフェッチユニット２８をオン若しくはオフにできる、及び／又は、プリフェッチユニット２８がオンにされるとき、プロセッサ１２がプリフェッチユニット２８に異なる設定を適用できるという点で、プリフェッチユニット２８はチューニング可能である。言い変えれば、プリフェッチユニット２８は、マイクロアーキテクチャ機構である。特に、プリフェッチユニット２８は、プリフェッチユニット２８が動作するかどうか、及び／又は、どのようにプリフェッチユニット２８が動作するかに影響を与えるべく更新され得る機能設定２９を含む。

さらに、以下でより詳細に説明されるように、プリフェッチユニット２８は、（例えば、機能設定２９をダイナミックに調節することによって）プリフェッチユニット２８をダイナミックにチューニングするための制御ロジックを有するダイナミックチューニングユニット３０を含む。さらに、データ処理システムは、複数のマイクロアーキテクチャ機構、及びこれらのマイクロアーキテクチャ機構のそれぞれに別個のダイナミックチューニングユニットを含み得る。本開示の目的のために、ダイナミックチューニングユニットの制御ロジックの一部又は全部が、「チューニング制御ロジック（ｔｕｎｉｎｇｃｏｎｔｒｏｌｌｏｇｉｃ）」と称され得る。

図１の実施形態において、ダイナミックチューニングユニット３０内の制御ロジックは、以下でより詳細に説明されるように、リタイアした命令のカウンタ３２、グローバル有効フラグ３４、現サイクルのカウンタ３６、前サイクルのカウンタ３８、リフレッシュカウンタ３１、及び有用性有限状態マシン（ＦＳＭ）４２を含む。制御ロジックはまた、どのようにダイナミックチューニングユニット３０が動作するかを調節するための様々なチューニングパラメータ４０を含む。図１の実施形態において、チューニングパラメータ４０は、以下でより詳細に説明されるように、ウィンドウサイズ、関与閾値、重要性閾値、選択されたアドレスリスト、選択されたアドレスカウント、及びリフレッシュ閾値のパラメータを含む。制御ロジックはまた、以下でより詳細に説明されるように、プリフェッチユニット２８を有効にすることがより良好なパフォーマンスをもたらすのか又はより不良なパフォーマンスをもたらすのかを判定するパフォーマンス評価ユニット（ＰＥＵ）３３、及び、選択されたアドレスに対する有用性状態が確定した良好な状態又は確定した不良状態に到達した後、選択されたアドレスに対してプリフェッチユニット２８のプリフェッチ機能を有効又は無効にすることによってチューニング決定を実装するチューニング実施ユニット（ＴＩＵ）３５をそれぞれ含む。

プリフェッチユニット２８はまた、評価テーブル５０を含み、ダイナミックチューニングユニット３０は、プリフェッチユニット２８の異なる機能設定のパフォーマンスを評価するのに評価テーブル５０を用いる。図１の実施形態において、評価テーブル５０はアプリケーション５４における選択されたアドレス（ＳＡ）ごとに行又はエントリ５１を含み、行はＳＡの関与カウンタ（ＩＣ）、機能設定（ＦＳ）、及び有用性状態（ＵＳ）を含む。図１において、下付き文字が所与のＳＡに対応する変数又は値を識別するのに用いられる。評価テーブル５０を用いる処理の例示的な実施形態に対するさらなる詳細が、以下に提供される。ＳＡはまた、命令ポインタ（ＩＰ）と称され得る。

したがって、ダイナミックチューニングユニット３０内の制御ロジックは、様々な制御構造（例えば、ＰＥＵ３３、ＴＩＵ３５、及び有用性ＦＳＭ４２）、及び様々なデータストレージ構造（例えば、リフレッシュカウンタ３１、リタイアした命令のカウンタ３２等）を含む。これらのデータストレージ構造は、１又は複数のレジスタとして、１又は複数のレジスタの一部として、又は、その他の適切なタイプ若しくは複数のタイプのデータストレージ構造として実装され得る。同様に、制御構造は、任意の適切なタイプ又は複数のタイプのハードウェア構造を用いて実装され得る。例えば、以下で示されるように、ダイナミックチューニングユニット３０の動作の一部又は全部を実装する制御ロジックの一部又は全部が、チップ内のハードウェア回路に実装され得る。したがって、ダイナミックチューニングユニット（ＤＴＵ）はまた、ＤＴＵ回路（ＤＴＵｃｉｒｃｕｉｔ）（又はＤＴＵ回路（ＤＴＵｃｉｒｃｕｉｔｒｙ））と称され得、ＰＥＵはＰＥＵ回路（ＰＥＵｃｉｒｃｕｉｔ）（又はＰＥＵ回路（ＰＥＵｃｉｒｃｕｉｔｒｙ））と称され得、ＴＩＵはＴＩＵ回路（ＴＩＵｃｉｒｃｕｉｔ）（又はＴＩＵ回路（ＴＩＵｃｉｒｃｕｉｔｒｙ））等と称され得る。また、「ロジック（ｌｏｇｉｃ）」等の用語が、ハードウェア論理回路、他のタイプのハードウェア構成要素、又はハードウェア構成要素の組み合わせを指すのに用いられ得る。

図２は、プロセッサ１２をダイナミックにチューニングする例示的な処理のフローチャートである。特に、図２の処理は、どのようにダイナミックチューニングユニット３０がプリフェッチユニット２８の異なる設定を有するプロセッサ１２のパフォーマンスを評価し、改善したパフォーマンスのためにプリフェッチユニット２８をダイナミックにチューニングするかを示す。例示の目的のために、アプリケーション５４を実行している間にプロセッサ１２を有効にしてより良好なパフォーマンスを実現すべく、その処理が、プロセッサがアプリケーション５４を実行している間にプロセッサ１２のパフォーマンスを評価して調節するダイナミックチューニングユニット３０との関係において説明される。したがって、アプリケーション５４は、「ダイナミックにチューニング可能なソフトウェア（ｄｙｎａｍｉｃａｌｌｙ−ｔｕｎａｂｌｅｓｏｆｔｗａｒｅ）」と称され得る。しかしながら、ダイナミックチューニングユニット３０は、他のダイナミックにチューニング可能なソフトウェアのパフォーマンスを改善するのに同じ種類の工程を用い得る。

図２の処理は、ブロック１１０で示されるように、ダイナミックチューニングユニット３０が、（アプリケーション５４のような）ダイナミックにチューニング可能なソフトウェアが開始又は起動したか否かを判定することから開始し得る。そのようなソフトウェアが起動していない場合、ダイナミックチューニングユニット３０は、ダイナミックにチューニング可能なソフトウェアが起動するのを待機し得る。

しかしながら、アプリケーション５４が起動した場合、ブロック１１２に示されるように、ダイナミックチューニングユニット３０は、アプリケーション５４内の命令のアドレスのリストをチューニングパラメータ４０内の「選択されたアドレスリスト」パラメータにロードし得る。特に、このアドレスのリストは、プリフェッチユニット２８の異なる設定でパフォーマンスについて評価されるアプリケーション５４内の全ての命令を識別する。以下でより詳細に説明されるように、ダイナミックチューニングユニット３０は、続いて、選択されたアドレスリストを用いてアプリケーション５４の異なる部分を評価し、この評価に基づいてこれらの異なる部分についてプリフェッチユニット２８をダイナミックにチューニングするだろう。ダイナミックチューニングユニット３０はまた、ＳＡのカウントを「選択されたアドレスカウント」パラメータにロードし得る。特に、１つの実施形態において、ダイナミックチューニングユニット３０は、アプリケーション５４内のどの命令がプリフェッチユニット２８の選択的なスロットルに起因してパフォーマンスの改善を可能にする可能性が最も高いかに関する評価に基づいて、アプリケーション５４を自動的に分析して、選択されたアドレスリスト（及び選択されたアドレスカウント）を生成するヒューリスティックな制御ロジックを含む。選択されたアドレスリスト及び選択されたアドレスカウントを生成した後又は生成している間に、ダイナミックチューニングユニット３０は、これらの値をチューニングパラメータ４０にロードし得る。

ブロック１１４で示されるように、ダイナミックチューニングユニット３０は、次に、いくつかの初期化動作を実行してそれ自体を準備し得る。例えば、ダイナミックチューニングユニット３０は、アプリケーション５４内の各ＳＡの行又はエントリを含み、各ＳＡの有用性状態を中立の初期状態に初期化する、アプリケーション５４の評価テーブル５０を作成し得る。本開示の目的のために、選択されていない命令のアドレスは、「未選択のアドレス」（ＵＡ）と称され得る。例えば、図４は、ＳＡのリタイアによってトリガされた動作及びＵＡのリタイアによってトリガされた動作を示す。

図１を再び参照すると、以下でより詳細に説明されるように、ダイナミックチューニングユニット３０は、続いて、各ＳＡの状態を調節するのに有用性ＦＳＭ４２を用い得る。

図３は、有用性ＦＳＭ４２の動作を示すブロック図である。図に示されるように、このＦＳＭは、３つの中間状態及び２つの最終状態を含む。中間状態は、「中立（ｎｅｕｔｒａｌ）」の初期状態、並びに「不良の可能性がある（ｌｉｋｅｌｙｂａｄ）」状態及び「良好の可能性がある（ｌｉｋｅｌｙｇｏｏｄ）」状態を含む。最終状態は、「不良（ｂａｄ）」及び「良好（ｇｏｏｄ）」である。ラベル「より良好（Ｂｅｔｔｅｒ）」を有する矢印の上部のセットによって示されるように、有用性ＦＳＭ４２は、プリフェッチユニット２８の特定の設定がデフォルト又は以前の設定より良好なパフォーマンスをもたらしたという判定に応じて、ＳＡの有用性状態を中間状態から右の次の状態に変更する。同様に、ラベル「より不良（Ｗｏｒｓｅ）」を有する矢印の下部のセットによって示されるように、有用性ＦＳＭ４２は、プリフェッチユニット２８の特定の設定がデフォルト又は以前の設定より不良なパフォーマンスをもたらしたという判定に応じて、ＳＡの有用性状態を中間状態から左の次の状態に変更する。本開示の目的のために、「不良（ｂａｄ）」、「不良の可能性がある（ｌｉｋｅｌｙｂａｄ）」、「中立（ｎｅｕｔｒａｌ）」、「良好の可能性がある（ｌｉｋｅｌｙｇｏｏｄ）」、及び「良好（ｇｏｏｄ）」の有用性状態が、それぞれ値１−５を用いて示され得る。また、有用性ＦＳＭ４２内の特定の位置における矢印の欠如は、一旦ＳＡの状態が最終状態に到達すると、後続のパフォーマンスの結果に関わらず、ＳＡが（リセットされるまで）その状態のままでいることを示す。しかしながら、他の実施形態において、有用性ＦＳＭは、３つより多くの中間状態を含み得る。それでもなお、最終状態に到達すべく、ＳＡは、同じ方向に少なくとも２つの連続的な変更（すなわち、少なくとも２つの連続的なインクリメント又はデクリメント）を有していなければならない。

ＦＳＭ４２の１つの重要な態様は、それがＳＡの有用性状態が２つの異なる方向に移動することを可能にするという点で、それが二峰性を提供することである。例えば、ＳＡは、複数の異なるウィンドウの「不良の可能性がある」及び「良好の可能性がある」のような状態間を前後に変動し得、その結果、（アプリケーション５４がプログラムの相転移を実行したときに発生し得るような）改善したパフォーマンス又は低下したパフォーマンスの短時間の状態では、ダイナミックチューニングユニット３０にマイクロアーキテクチャ機構の特定の設定を固定させない。その代わりに、上述のとおり、最終状態に到達すべく、ＳＡは、同じ方向に少なくとも２つの連続的な変更を有していなければならない。

図３はまた、例示的なＳＡの有用性状態をダイナミックに評価して調節するのにダイナミックチューニングユニット３０が有用性ＦＳＭ４２に関連して用いるいくつかの変数を示す。特に、図３は、ＩＣ_１に少なくとも部分的に基づいて、ＳＡ_１のＵＳ_１（これらの変数はまた、図１の評価テーブル５０の第１の行５１に示される）を評価して調節する例示的な処理を反映する。特に、図３は、グローバル有効フラグ３４が設定された状態で実行された「現サイクル（ｃｕｒｒｅｎｔｃｙｃｌｅ）」の完了に応じて、ダイナミックチューニングユニット３０がパフォーマンスを評価することを示す。図３はまた、特定の状況において、ダイナミックチューニングユニット３０が有用性ＦＳＭ４２を用いてＳＡ_１の中間の有用性状態を「より良好」な有用性状態又は「より不良」な有用性状態に調節することを示す。特に、任意の調節は、（ａ）重要性閾値より大きい又はこれに等しいサイクル差３９、及び（ｂ）関与閾値より大きい又はこれに等しいＩＣ_１に依存する。これらの予備の条件が満たされて、かつ、現サイクルのカウンタ３６が前サイクルのカウンタ３８より小さい場合、ダイナミックチューニングユニット３０は、ＦＳＭ４２の「より良好」な機能を用いて中間の有用性状態から右の次の有用性状態にＵＳ_１を変更する。また、これらの予備の条件が満たされて、かつ、現サイクルのカウンタ３６が前サイクルのカウンタ３８より大きい場合、ダイナミックチューニングユニット３０は、ＦＳＭ４２の「より不良」な機能を用いて中間の有用性状態から左の次の有用性状態にＵＳ_１を変更する。有用性状態を評価して調節する処理が、以下でより完全に説明される。

再び図２のブロック１１４を参照すると、ダイナミックチューニングユニット３０を準備する動作はまた、リタイアした命令のカウンタ３２、グローバル有効フラグ３４、現サイクルのカウンタ３６、前サイクルのカウンタ３８、及びリフレッシュカウンタ３１のような変数のクリアを含み得る。以下でより詳細に説明されるように、ダイナミックチューニングユニット３０は、実行ウィンドウ内でリタイアした命令数をカウントするのにリタイアした命令のカウンタ３２を用いる。リタイアした命令カウンタはまた、「ウィンドウ長カウンタ（ｗｉｎｄｏｗ−ｌｅｎｇｔｈｃｏｕｎｔｅｒ）」と称され得る。

また、ダイナミックチューニングユニット３０は、プリフェッチユニット２８が実行ウィンドウに対して有効にされたか否かを示すのにグローバル有効フラグ３４を用いる。グローバル有効フラグはまた、「グローバルクオリファイビット（ｇｌｏｂａｌｑｕａｌｉｆｉｅｄｂｉｔ）」と称され得る。

また、ダイナミックチューニングユニット３０は、現在のウィンドウにおいて、今までに発生したサイクル数をカウントするのに現サイクルのカウンタ３６を用いる。そして、新しいウィンドウを開始する前に、ダイナミックチューニングユニット３０は、現サイクルのカウンタ３６から前サイクルのカウンタ３８に値をコピーし得、その結果、新しいウィンドウの総サイクル数が、続いて、前のウィンドウの総サイクル数と比較され得る。現サイクルのカウンタはまた、「現ウィンドウクロック（ｃｕｒｒｅｎｔ−ｗｉｎｄｏｗｃｌｏｃｋ）」と称され得る。

また、ダイナミックチューニングユニット３０は、複数のウィンドウにわたってサイクル数をカウントするのにリフレッシュカウンタ３１を用いる。以下でより詳細に説明されるように、リフレッシュカウンタ３１が予め定められたリフレッシュ閾値に到達するとき、ダイナミックチューニングユニット３０は、最終状態に到達した任意のＳＡをロック解除するのにグローバルリフレッシュを実行し得、これは、ダイナミックチューニングユニット３０が変更した条件に応じてこれらのＳＡに異なる状態を割り当てることを可能にする。

準備動作はまた、（例えば、ウィンドウサイズの値、関与閾値の値、重要性閾値の値、及びリフレッシュ閾値の値を含む）望ましい値を有する全てのチューニングパラメータ４０のうちのいくつかの設定を含み得る。準備動作はまた、現サイクルのカウンタ３６におけるベースラインの基準を取得すべく、プリフェッチユニット２８を無効にした状態でアプリケーション５４から１つのウィンドウ分の命令を実行することを含み得る。特に、この値は、プリフェッチユニット２８が無効にされたとき、１つのウィンドウ分の命令を実行するのにいくつのサイクルが必要とされたかを示すだろう。

ブロック１１６で示されるように、ダイナミックチューニングユニット３０が準備動作を終了した後、コア２０Ａは、アプリケーション５４を実行し続け得る。また、ブロック１１８及びブロック１２０で示されるように、アプリケーション５４の実行と同時に、ダイナミックチューニングユニット３０は、基準を収集し、これらの基準を使用してアプリケーション５４のパフォーマンスを評価し、これらの評価に基づいてプリフェッチユニット２８の設定を調節し得る。さらに、アプリケーション５４を実行し、実行基準を収集し、これらの基準に基づいてアプリケーション５４のパフォーマンスを評価し、それに応じてプリフェッチユニット２８の設定を調節する処理に関する詳細が、図４に関して以下に提供される。

ブロック１３０で示されるように、ダイナミックチューニングユニット３０は、アプリケーション５４が終了したか否かを判定し得る。アプリケーション５４が終了した場合、処理が終了し得る。しかし、アプリケーション５４が終了していない場合、ブロック１４２で示されるように、ダイナミックチューニングユニット３０は、リフレッシュカウンタ３０がリフレッシュ閾値に到達したか否かを判定し得る。リフレッシュ閾値に到達していない場合、上述のとおり、コア２０Ａはアプリケーションを実行し続け得、ダイナミックチューニングユニット３０はアプリケーション５４のパフォーマンスを評価し、プリフェッチユニット２８を調節するのに評価テーブル５０及び有用性ＦＳＭ４２を使用し続け得る。

しかしながら、リフレッシュ閾値に到達した場合、ダイナミックチューニングユニット３０は、評価テーブル５０内の各ＳＡの有用性状態を中立状態にリセットし得、それにより最終状態をクリアする。ダイナミックチューニングユニット３０はまた、ＩＣをリセットし得る。

その結果として、リフレッシュ処理は、ダイナミックチューニングユニット３０が実行の異なる段階で所与のＳＡに異なる最終状態を適用することを可能にし、それにより、多種多様の状況において改善したパフォーマンスを提供する。

図４は、図１のプロセッサをダイナミックにチューニングする動作の疑似コードの記述である。特に、図４は、図２のブロック１１６、ブロック１１８、及びブロック１２０を実装する実行ストリームの例示的な実施形態の疑似コード、並びに実行ストリームで用いられる特定の頭字語を定義するキーを含む。

概要として、ダイナミックチューニングユニット３０は、アプリケーション５４から予め定められた命令数のリタイアを含む実行のウィンドウに対するデータを評価テーブル５０に追加するのに図４の処理を用い得る。示された実施形態において、ダイナミックチューニングユニット３０は、この数を指定するのに「ウィンドウサイズ（ｗｉｎｄｏｗｓｉｚｅ）」のチューニングパラメータ４０を用いる。また、各ウィンドウの終了後、ダイナミックチューニングユニット３０は、１又は複数のＳＡの有用性状態を更新し得る。例えば、ウィンドウの間、プリフェッチユニット２８がＳＡに対して有効にされた場合、このＳＡがかなりの回数実行された場合、（プリフェッチユニット２８がこのＳＡに対して有効にされていない間のウィンドウと比較して）パフォーマンスが著しく改善された場合、及び、このＳＡに対する有用性状態がまだ最終状態でない場合、ダイナミックチューニングユニット３０は、評価テーブル５０内のこのＳＡの有用性状態を「より良好」な状態に変更し得る。

上述のとおり、ダイナミックチューニングユニット３０は、前のウィンドウを完了するのに必要とされるサイクル数と比較される、現在のウィンドウを完了するのに必要とされるサイクル数に基づいて、現在のウィンドウに対するパフォーマンスが前のウィンドウに対するパフォーマンスより良好であるか否かを判定し得る。現在のウィンドウが著しく少ないサイクルで完了した場合、パフォーマンスが改善したとみなされる。

ウィンドウのアプリケーションの実行を評価する動作及びその評価に基づいて有用性状態を更新する動作が以下でより詳細に説明される。

特に、図４の処理は、ダイナミックチューニングユニット３０が現サイクルのカウンタ３６から前サイクルのカウンタ３８に値を保存し、現サイクルのカウンタ３６及びリタイアした命令のカウンタ３２をリセットすることによって新しいウィンドウを評価する準備をすることから始め得る。ダイナミックチューニングユニット３０はまた、各ＳＡに対して評価テーブル５０内で関与カウンタをリセットし得る。

その後、アプリケーション５４が１つのウィンドウ分の命令を実行及びリタイアするときに、ダイナミックチューニングユニット３０はサイクルごとに一度現サイクルのカウンタ３６をインクリメントし得、命令がリタイアするときにリタイアした命令のカウンタ３２もインクリメントし、かつ、リタイアした命令が選択されたアドレスのうちの１つに存在するときにはいつでも評価テーブル５０内の関連関与カウンタをインクリメントする。

図４において、演算子「＋＋」は、インクリメント演算を示す。また、「開始ウィンドウ（ＳｔａｒｔＷｉｎｄｏｗ）」と「終了ウィンドウ（ＥｎｄＷｉｎｄｏｗ）」との間の演算は、仮想実行ストリームに実行される演算を表す。

特に、仮想シナリオという点で、図４は、各サイクルの間、ダイナミックチューニングユニット３０が現サイクルのカウンタ３６（ＣＣＣ）をインクリメントすることを示す。また、Ｃｙｃｌｅ_１について、命令がリタイアされず、よって、ダイナミックチューニングユニット３０がリタイアした命令のカウンタ３２をインクリメントしない。しかしながら「Ｃｙｃｌｅ_２」の間、コア２０Ａは、リオーダバッファからの命令をリタイアする。特に、コア２０Ａは、ＳＡ_１をリタイアする。言い変えれば、コア２０Ａは、ＳＡ_１に存在する命令をリタイアする。その結果として、ダイナミックチューニングユニット３０は、リタイアした命令のカウンタ３２（ＲＩＣ）及びリフレッシュカウンタ３１（ＲＣ）をインクリメントする。さらに、ダイナミックチューニングユニット３０は、ＳＡ_１に対して評価テーブル５０内の関与カウンタ（ＩＣ）をインクリメントする。言い変えれば、ダイナミックチューニングユニット３０は、ＩＣ_１をインクリメントする。

その後、「Ｃｙｃｌｅ_３」の間、コア２０Ａは、未選択アドレス（ＵＡ）で命令をリタイアする。その結果として、ダイナミックチューニングユニット３０は、ＣＣＣ、ＲＩＣ及びＲＣをインクリメントするが、ダイナミックチューニングユニット３０は、１つの関与カウンタもインクリメントしない。その後、「Ｃｙｃｌｅ_４」の間、命令がリタイアされず、よって、ダイナミックチューニングユニット３０はＣＣＣのみをインクリメントする。その後、「Ｃｙｃｌｅ_５」の間、コア２０Ａは、再びＳＡ_１をリタイアする。その結果として、ダイナミックチューニングユニット３０は、再びＲＩＣ、ＲＣ、及びＩＣ_１をインクリメントする。その後、「Ｃｙｃｌｅ_６」の間、コア２０ＡはＳＡ_２をリタイアする。その結果として、ダイナミックチューニングユニット３０は、ＲＩＣ、ＲＣ、及びＳＡ_２での命令に対する関与カウンタ（すなわち、ＩＣ_２）をインクリメントする。後続のサイクルの間、ダイナミックチューニングユニット３０は、どの命令がリタイアされるかに基づいて、必要に応じて、上述のような演算を実行し続ける。

さらに、コア２０ＡがＳＡをリタイアするとき、ダイナミックチューニングユニット３０は、評価テーブル５０内のそのＳＡのＦＳフィールドを更新して、プリフェッチユニット２８の現在の設定を反映し得る。例えば、ダイナミックチューニングユニット３０は、機能設定２９からの値をプリフェッチユニット２８からＳＡに対するＦＳフィールドにコピーし得る。

しかしながら、一旦、リタイアした命令のカウンタ３２内の値がチューニングパラメータ４０に示される予め定められたウィンドウサイズと等しくなると、ダイナミックチューニングユニット３０はウィンドウを終了する又は閉じる。特に、図４の実施形態において、ダイナミックチューニングユニット３０は、Ｃｙｃｌｅ_Ｑの後、ウィンドウを終了する。したがって、下付き文字Ｑは、１つのウィンドウ分の命令を実行してリタイアするのに必要なサイクル数を示す。同様に、現サイクルのカウンタ３６内の値は、そのサイクル数を反映するだろう。また、リフレッシュカウンタ３１内の値は、（ウィンドウの開始時のその初期値と比較して）現在のウィンドウでリタイアした命令数だけインクリメントされているだろう。代替的に、命令がリタイアしたときにはいつでもリフレッシュカウンタ３１をインクリメントするよりはむしろ、ダイナミックチューニングユニット３０は、ウィンドウサイズを各ウィンドウの終了時のリフレッシュカウンタ３１に単純に追加し得る。

一旦、最も近い（又は「現在」）のウィンドウが閉じると、ダイナミックチューニングユニット３０は、収集されたデータを分析し、そのウィンドウに関与していたＳＡに対する有用性状態を調節し得る。特に、図４の実施形態において、ダイナミックチューニングユニット３０は、グローバル有効フラグ３４が設定されているか否かを判定し、これは、プリフェッチユニット２８が現在のウィンドウに対して有効であったことを示す。しかしながら、グローバル有効フラグ３４が設定されていない場合、処理がその他の分岐に移動し、ダイナミックチューニングユニット３０がグローバル有効フラグ３４を設定する。

しかしながら、グローバル有効フラグ３４が設定されている場合、コア２０Ａはプリフェッチユニット２８を有効にした状態で現在のウィンドウを実行し、そのウィンドウがおそらく中間の有用性状態における命令の実行を含み、これは、これらの特定の命令がプリフェッチユニット２８を有効にした状態で実行されたであろうことを意味する。その結果として、ダイナミックチューニングユニット３０は、収集されたデータを分析し、プリフェッチユニット２８を有効にすることによって著しいパフォーマンスの改善又は低下をもたらした否かを判定し、それに応じてＳＡの状態を調節する。前のウィンドウと比較して現在のウィンドウのパフォーマンスに著しい損失又は利得が存在した否かを判定すべく、ダイナミックチューニングユニット３０は、前サイクルのカウンタ３８から現サイクルのカウンタ３６を減算し、どれくらい少ないサイクル（又はいくつのより多くのサイクル）が現在のウィンドウに用いられたのかを示す「サイクル差（ｃｙｃｌｅｄｉｆｆｅｒｅｎｃｅ）」３９を生成し得る。ダイナミックチューニングユニット３０は、サイクル差３９を予め定められた重要性閾値と比較し得る。サイクル差３９が重要性閾値より大きくない又はこれに等しい場合、ダイナミックチューニングユニット３０は、追加の評価をスキップして単にグローバル有効フラグ３４をリセットし得、ダイナミックチューニングユニット３０に次のウィンドウに対するプリフェッチユニット２８を無効にさせる。

しかしながら、この差が著しい場合、ダイナミックチューニングユニット３０は各ＳＡを検討し、そのＳＡに対する有用性状態が変更されるべきか否かを判定し得る。特に、Ｆｏｒループ内で示されるように、各ＳＡに対して、ダイナミックチューニングユニット３０は、（ａ）そのＳＡに対する関与カウンタ＞＝予め定められた関与閾値であるか否か、（ｂ）そのＳＡが中間（すなわち、最終でない）状態であるか否かを判定する。ＳＡが現在のウィンドウ内にあまり関与していない場合、ダイナミックチューニングユニット３０は、評価テーブル５０内のそのＳＡに対する有用性状態を変更しない。同様に、ＳＡが中間状態でない場合、ダイナミックチューニングユニット３０は、そのＳＡに対する有用性状態を変更しない。

しかしながら、そのＳＡがかなり関与し、かつ、ＳＡが中間状態である場合、ダイナミックチューニングユニット３０は、パフォーマンスが改善されたか低下されたかによって、そのＳＡに対する有用性状態を調節する。特に、より少ないサイクルが現在のウィンドウ内で用いられた場合、パフォーマンスが改善され、よって、ダイナミックチューニングユニット３０は、有用性ＦＳＭ４２内の「より良好」の矢印のうちの１つに沿って、そのＳＡに対する有用性状態をインクリメントする。しかし、より多くのサイクルが現在のウィンドウ内で用いられた場合、パフォーマンスが低下され、よって、ダイナミックチューニングユニット３０は、有用性ＦＳＭ４２内の「より不良」の矢印のうちの１つに沿って、そのＳＡに対する有用性状態をデクリメントする。

例示の目的のために、上記の操作がＦｏｒループとの関係において説明される。しかしながら、１つの実施形態において、ダイナミックチューニングユニット３０は、実際には、並列で全てのＳＡに対して評価及び更新を実行する。例えば、図２のブロック１１２に関して上述のとおり、評価テーブル５０内の各行／エントリは、有効フラグ（例えば、１ビット）を含み得、ダイナミックチューニングユニット５０は、ＳＡ（すなわち、パフォーマンスに対して評価される命令のアドレス）を行にロードすることと併せて、その行に対する有効フラグを設定し得る。したがって、ＳＡは、それらの有効フラグが設定された行に存在する、評価テーブル５０内のこれらのアドレスであり得る。その後、ウィンドウが終了ときにはいつでも、ダイナミックチューニングユニット５０は、パフォーマンスの影響を評価し得、並列に全ての有効なＳＡに対するパフォーマンス基準を更新し得る。

一旦、全てのＳＡが処理されると（又はサイクル差３９が重要性閾値より大きくない若しくはこれに等しい場合）、上述のとおり、ダイナミックチューニングユニット３０は、グローバル有効フラグ３４をリセットし得、ダイナミックチューニングユニット３０に次のウィンドウに対するプリフェッチユニット２８を無効にさせる。図４の処理は、開始時点に戻り得、プリフェッチユニット２８を無効にした状態でコア２０Ａが次のウィンドウを実行し、その後、プリフェッチユニット２８を有効にした状態で次のウィンドウを実行し、以下同様である。

さらに、コア２０Ａがアプリケーション５４を実行しているとき、たとえグローバル有効フラグ３４が設定されている場合でも、評価テーブル５０は、ＳＡが「不良」の最終の有用性状態を有することを示す場合、コア２０Ａは、そのＳＡに対してプリフェッチユニット２８を使用しないだろう。そして、たとえグローバル有効フラグ３４がクリアである場合でも、評価テーブル５０は、ＳＡが「良好」の最終の有用性状態を有することを示す場合、コア２０Ａは、そのＳＡに対してプリフェッチユニット２８を使用するだろう。

したがって、ダイナミックチューニングユニット３０は、実行時間の間、ソフトウェアのパフォーマンスを分析し、改善したパフォーマンスに対するプリフェッチユニット２８のようなマイクロアーキテクチャ機構をダイナミックに調節する。また、上述のとおり、図３に関して、最終状態に到達すべく、ＳＡは、同じ方向に少なくとも２つの連続的な変更を有していなければならない。したがって、プリフェッチユニット２８を有効することによって、２つの連続的なグローバル有効ウィンドウに対して著しく改善したパフォーマンスをもたらす場合、ダイナミックチューニングユニット３０は、これらのグローバル有効ウィンドウに著しく関与したＳＡに対する有用性状態を「中立」（例えば）から「良好の可能性がある」に、その後、「良好の可能性がある」から「良好」に変更し得る。（本開示の目的のために、用語「２つの連続的なグローバル有効ウィンドウ（ｔｗｏｃｏｎｓｅｃｕｔｉｖｅｇｌｏｂａｌｌｙ−ｅｎａｂｌｅｄｗｉｎｄｏｗｓ）」は、グローバル有効フラグを設定した状態で実行された２つのウィンドウを指し、グローバル有効フラグをクリアした状態で実行されたウィンドウを除いて、他ウィンドウがこれらの２つのウィンドウの間で実行されない。）そして、プリフェッチユニット２８を有効することによって、２つの連続的なグローバル有効ウィンドウに対して著しく低下したパフォーマンスをもたらす場合、ダイナミックチューニングユニット３０は、（著しく関与した）ＳＡに対する有用性状態を「中立」（例えば）から「不良の可能性がある」に、その後、「不良の可能性がある」から「不良」に変更し得る。しかしながら、状況に依存して、ＳＡに対する有用性状態が、２又はそれより多くの中間状態で変更し得る。

例示の目的のために、本開示は、ダイナミックにチューニングされる単一のマイクロアーキテクチャ機構の実施形態に焦点を合わせてきた。しかしながら、他の実施形態において、プロセッサは、ダイナミックにチューニングされる複数のマイクロアーキテクチャ機構を含み得る。例えば、コアは、２又はそれより多くマイクロアーキテクチャ機構を含み得、これらのマイクロアーキテクチャ機構のそれぞれは、それ自身のダイナミックチューニングユニット及びそれ自身の評価テーブルを含み得る。各ダイナミックチューニングユニットは、ダイナミックチューニングユニット３０に関して、これらの上述したものと同様の機能を含み得る。そして、各評価テーブルは、評価テーブル５０に関して、これらの上述したものと同様の機能を含み得る。

また、上述のとおり、マイクロアーキテクチャ機構は、オンとオフだけなく、設定範囲をサポートし得る。そして、ダイナミックチューニングユニットは、現在のウィンドウに対して基準を収集し、評価テーブルを更新するときに、ＳＡに用いられたＦＳを含み得る。その結果として、評価テーブルは、各ＳＡに用いられるＦＳを示し得る。ダイナミックチューニングユニットは、これらのＦＳに基づいて、パフォーマンスを最適化し得る。例えば、プロセッサは、様々な異なる速度（又はサイズ、又は他のタイプの設定）から選択する機能設定を有し得、ダイナミックチューニングユニットは、異なる速度設定（又はサイズ設定、又は他のタイプの設定）を用いてウィンドウ間のパフォーマンスを比較し得る。ダイナミックチューニングユニットは、これらの比較に基づいて、異なるＳＡに対する有用性状態を調節し得る。例えば、ほとんどの保存から最も積極的な設定範囲を有するマイクロアーキテクチャ機構に関して、ダイナミックチューニングユニットは、これらの設定値のそれぞれについて、範囲の一端から他端に反復し得る。範囲内の特定の設定で最大の最適なパフォーマンスが存在する場合、ダイナミックチューニングユニットは、１つずつ各設定又はレベルを段階的にテストすることによって、その設定を識別できる。

また、他の実施形態において、ダイナミックチューニングユニットは、２つの異なる重要性閾値を用い得、１つをパフォーマンスの改善が著しいか否かを判定するのに適用し、もう１つをパフォーマンスの低下が著しいか否かを判定するのに適用する。したがって、そのような閾値が「改善重要性閾値（ｉｍｐｒｏｖｅｍｅｎｔｓｉｇｎｉｆｉｃａｎｃｅｔｈｒｅｓｈｏｌｄ）」及び「低下重要性閾値（ｄｅｇｒａｄａｔｉｏｎｓｉｇｎｉｆｉｃａｎｃｅｔｈｒｅｓｈｏｌｄ）」と称され得る。

また、ダイナミックチューニングユニットは、ウィンドウサイズ、関与閾値、重要性閾値、及びリフレッシュ閾値のような変数に任意の適切な値を用い得る。例えば、１つの実施形態又はシナリオにおいて、ダイナミックチューニングユニットは、数千（例えば、８，０００−３２，０００）の命令のウィンドウサイズ、１０％又は１２．５％の重要性閾値、１０％−２０％の関与閾値、及び２００，０００のリフレッシュ閾値を用い得る。しかしながら、より小さい値又はより大きい値が、他の実施形態又はシナリオにおいてこれらの変数のそれぞれに用いられ得る。さらに、重要性閾値のような値が、実験的にチューニングされ得、特定のマイクロアーキテクチャ機構に対するメカニズムをスロットルする感度を調節する。

説明されたように、ダイナミックチューニングユニットは、現在の条件に基づいて、１又は複数マイクロアーキテクチャ機構の設定をダイナミックに適合することによって、プロセッサが改善したパフォーマンスを実現することを可能にする。さらに、ダイナミックチューニングユニットは、比較的単純であって、かつ、電力のような重要な処理リソースを必要としない制御ロジックで実装され得る。

少なくともいくつかのシナリオにおいて、本開示によるダイナミックチューニングユニットは、プロセッサが著しく改善された処理パフォーマンスを実現することを可能にし得る。例えば、１つのシミュレーションシナリオにおいて、分岐断定のマイクロアーキテクチャ機構を含むプロセッサが、３つの異なる設定をテストするようワークロードを実行するのに用いられた。第１のテストにおいて、プロセッサは、全体のワークロードに対してそのマイクロアーキテクチャ機構を無効にした状態でワークロードを実行した。第２のテストにおいて、プロセッサは、全体のワークロードに対してそのマイクロアーキテクチャ機構を有効にした状態でワークロードを実行した。第３のテストにおいて、プロセッサは、本明細書で説明されたように、ワークロードの一部に対してそのマイクロアーキテクチャ機構をダイナミックに有効した状態で、ワークロードの他の一部に対してそのマイクロアーキテクチャ機構を無効にした状態で、ワークロードを実行した。第２のテストは、第１のテストと比較して、機能を有効にすることによって、約５．９％のパフォーマンスの改善をもたらすことが示された。第３のテストは、第１のテストと比較して、本開示のように機能をダイナミックにチューニングすることによって、約８％のパフォーマンスの改善をもたらすことが示された。したがって、ダイナミックなチューニングは、マイクロアーキテクチャ機構の利点を約３０％改善した。

この改善は、実際にマイクロアーキテクチャ機構にプロセッサのパフォーマンスを減少させるワークロードの一部である、負のアウトライアの影響の減少に少なくとも部分的に起因し得る。例えば、プリフェッチのマイクロアーキテクチャ機構は、概して、このマイクロアーキテクチャ機構がプリフェッチの利点を上回る負の結果でキャッシュ汚染をもたらし得る、一部のワークロードがなければ、メモリレイテンシを減少又は隠し得る。

１又は複数の実施形態において、多くの異なる種類のマイクロアーキテクチャ機構が、ダイナミックチューニングユニットによって、ダイナミックにチューニングされ得る。これらのマイクロアーキテクチャ機構は、限定することなく、プロセッサ内に分岐断定ユニット、プリフェッチユニット、及び他の構成要素を含み得る。さらに又は代替的に、これらのマイクロアーキテクチャ機構は、限定することなく、コアクロック速度、１又は複数のバッファのサイズ、又は他のストレージ論理構成等のような設定を含む、プロセッサの設定可能な動作特性又は設定を含み得る。

また、上述の説明において、現サイクルのカウンタ３６は、マイクロアーキテクチャ機構が有効であるときにいくつのサイクルが消費されるかを示し、前サイクルのカウンタ３８は、マイクロアーキテクチャ機構が無効であるときにいくつのサイクルが消費されるかを示す。より一般的には、本開示の目的のために、マイクロアーキテクチャ機構が有効であるときにいくつのサイクルが消費されるかを示すカウンタは、「有効サイクルカウンタ（ｅｎａｂｌｅｄ−ｃｙｃｌｅｓｃｏｕｎｔｅｒ）」と称され得、マイクロアーキテクチャ機構が無効であるときにいくつのサイクルが消費されるかを示すカウンタは、「無効サイクルカウンタ（ｄｉｓａｂｌｅｄ−ｃｙｃｌｅｓｃｏｕｎｔｅｒ）」と称され得る。

追加の実施形態

図５〜図９は、典型的なコンピュータアーキテクチャのブロック図である。そのようなアーキテクチャは、本明細書で説明されるように、ダイナミックチューニングユニットの制御ロジックをチューニングするプロセッサを含み得る。図５〜図９における同じ又は類似要素は、同様の参照番号を有している。ラップトップ、デスクトップ、ハンドヘルドＰＣ、携帯情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、及び様々な他の電子デバイスに関して当該技術分野で知られた他のシステム設計及び構成にも適している。概して、本明細書で開示されるようなプロセッサ及び／又は他の実行ロジックを組み込むことが可能な多様なシステム又は電子デバイスが概して適している。

図５は、１又は複数の実施形態による、１つより多くのコアを有し得、統合メモリコントローラを有し得、統合グラフィックスを有し得るプロセッサ１１００のブロック図である。図５における実線枠は、シングルコア１１０２Ａ、システムエージェント１１１０、１又は複数のバスコントローラユニット１１１６のセットを有するプロセッサ１１００を示し、一方で、任意追加の破線枠は、複数のコア１１０２Ａ−Ｎ、システムエージェントユニット１１１０内の１又は複数統合メモリコントローラユニットのセット、及び専用ロジック１１０８を有する代替のプロセッサ１１００を示す。

したがって、プロセッサ１１００の異なる実装は、１）（１又は複数のコアを含み得る）統合グラフィックス及び／又は科学（スループット）ロジックである専用ロジック１１０８を有するＣＰＵ、及び、１又は複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、その２つの組み合わせ）であるコア１１０２Ａ−Ｎ、２）主にグラフィックス及び／又は科学（スループット）を対象としている多数の特定用途コアであるコア１１０２Ａ−Ｎを有するコプロセッサ、並びに、３）多数の汎用インオーダコアであるコア１１０２Ａ−Ｎを有するコプロセッサを含み得る。したがって、プロセッサ１１００は、汎用目的プロセッサ、例えば、ネットワーク若しくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、（３０若しくはそれより多くのコアを含む）高スループットの多数統合コア（ＭＩＣ）コプロセッサ、組み込みプロセッサ、若しくは同様のもののような、コプロセッサ又は専用プロセッサであり得る。プロセッサは、１又は複数のチップ上に実装され得る。プロセッサ１１００は、基板の一部であり得、及び／又は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ若しくはＮＭＯＳのような、多数の処理技術のいずれか用いて１若しくは複数の基板上に実装され得る。

メモリ階層は、コア内にある１又は複数のレベルのキャッシュユニット１１０４Ａ−Ｎと、共有キャッシュユニット１１０６のセット又は１又は複数の共有キャッシュユニット１１０６と、統合メモリコントローラユニット１１１４のセットに連結された外部メモリ（不図示）とを含む。共有キャッシュユニット１１０６のセットは、Ｌ２、レベル３（Ｌ３）、レベル４（Ｌ４）、又は他レベルのキャッシュのような１又は複数の中間レベルキャッシュ、最終レベルキャッシュ（ＬＬＣ）、及び／又はそれらの組み合わせを含み得る。一方、１つの実施形態において、リングベースの相互接続ユニット１１１２は、専用ロジック１１０８、共有キャッシュユニットのセット１１０６、及び、システムエージェントユニット１１１０／統合メモリコントローラユニット１１１４と相互接続するが、代替的な実施形態では、このようなユニットと相互接続する任意の数の周知技術を用い得る。１つの実施形態において、コヒーレンスが１又は複数キャッシュユニット１１０６とコア１１０２Ａ−Ｎとの間で維持される。

システムエージェントユニット１１１０は、コア１１０２Ａ−Ｎを調整して動作させるこれらの構成要素を含む。システムエージェントユニット１１１０は、例えば、電力制御ユニット（ＰＣＵ）及び表示ユニットを含み得る。ＰＣＵは、コア１１０２Ａ−Ｎ及び統合グラフィックスロジック１１０８の電力状態を管理するのに必要なロジック及び構成要素を含み得る。表示ユニットは、１又は複数の外部接続されたディスプレイを駆動するためのものである。

コア１１０２Ａ−Ｎは、アーキテクチャ命令セットの観点から同種又は異種であり得、すなわち、２又はそれより多くのコア１１０２Ａ−Ｎは、同じ命令セットを実行することが可能であり得、一方で、他のコアは、その命令セット又は異なる命令セットのサブセットのみを実行することが可能であり得る。本明細書で説明されるように、このようなコア１１０２Ａ−Ｎは、特定のメモリアクセス命令をサブラインのメモリアクセス命令に変換し得る。

図６は、１又は複数の実施形態によるシステム１２００のブロック図である。システム１２００は、コントローラハブ１２２０に連結されている１又は複数プロセッサ１２１０、１２１５を含み得る。１つの実施形態において、コントローラハブ１２２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）１２９０と、（別個のチップ上にあり得る）入力／出力ハブ（ＩＯＨ）１２５０とを含む。ＧＭＣＨ１２９０は、連結されたメモリ内で動作を制御するメモリコントローラと、メモリ１２４０及びコプロセッサ１２４５に連結されているグラフィックスコントローラとを含む。ＩＯＨ１２５０は、入力／出力（Ｉ／Ｏ）デバイス１２６０をＧＭＣＨ１２９０に連結する。代替的に、メモリ及びグラフィックスコントローラのうちの１つ又は両方がプロセッサ内に統合され、メモリ１２４０及びコプロセッサ１２４５がプロセッサ１２１０に直接連結され、コントローラハブ１２２０がＩＯＨ１２５０と共に単一チップ内にある。

追加のプロセッサ１２１５の任意の性質が、破線で図６に示される。各プロセッサ１２１０、１２１５は、本明細書で説明された１又は複数の処理コアを含み得、プロセッサ１１００のいくつかのバージョンであり得る。

メモリ１２４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、又はその２つの組み合わせであり得る。少なくとも１つの実施形態について、コントローラハブ１２２０は、フロントサイドバス（ＦＳＢ）のようなマルチドロップバス、ＱｕｉｃｋＰａｔｈＩｎｔｅｒｃｏｎｎｅｃｔ（ＱＰＩ）のようなポイントツーポイントインタフェース、又は同様の接続１２９５を介してプロセッサ１２１０、１２１５と通信する。

１つの実施形態において、コプロセッサ１２４５は、例えば、高スループットＭＩＣプロセッサ、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ、又は同様のもののような、専用プロセッサである。１つの実施形態において、コントローラハブ１２２０は、統合グラフィックスアクセラレータを含み得る。

アーキテクチャ特性、マイクロアーキテクチャ特性、熱特性、電力消費特性、及び同様のものを含む広範な評価基準の利点の観点から、物理リソース１２１０、１２１５の間には様々な差異が存在し得る。

１つの実施形態において、プロセッサ１２１０は、一般的なタイプのデータ処理動作を制御する命令を実行する。命令内に組み込まれているのは、コプロセッサ命令であり得る。プロセッサ１２１０は、これらのコプロセッサ命令を取り付けたコプロセッサ１２４５によって実行されるべきタイプであるとして認識する。したがって、プロセッサ１２１０は、コプロセッサ１２４５に対してコプロセッサバス又は他の相互接続上でこれらのコプロセッサ命令（コプロセッサ命令を表す制御信号）を発行する。コプロセッサ１２４５は、受信したコプロセッサ命令を受理し、これらを実行する。

図７及び図８は、１又は複数の実施形態による、より具体的で例示的なシステム１３００及び１４００のブロック図である。図７に示されるように、マルチプロセッサシステム１３００はポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続１３５０を介して連結される第１のプロセッサ１３７０及び第２のプロセッサ１３８０を含む。プロセッサ１３７０及び１３８０のそれぞれが、プロセッサ１１００のいくつかのバージョンであり得る。１つの実施形態において、プロセッサ１３７０及び１３８０は、それぞれ、プロセッサ１２１０及び１２１５であり、一方、コプロセッサ１３３８はコプロセッサ１２４５である。他の実施形態において、プロセッサ１３７０及び１３８０は、それぞれ、プロセッサ１２１０及びコプロセッサ１２４５である。

それぞれ統合メモリコントローラ（ＩＭＣ）ユニット１３７２及び１３８２を含む、プロセッサ１３７０及び１３８０が示される。プロセッサ１３７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ−Ｐ）インタフェース１３７６及び１３７８を含む。同様に、第２のプロセッサ１３８０は、Ｐ−Ｐインタフェース１３８６及び１３８８を含む。プロセッサ１３７０、１３８０は、Ｐ−Ｐインタフェース回路１３７８、１３８８を用いて、Ｐ−Ｐインタフェース１３５０を介して情報を交換し得る。図７に示されるように、ＩＭＣ１３７２及び１３８２は、それぞれのメモリ、すなわち、メモリ１３３２及びメモリ１３３４にプロセッサを連結し、これらは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であり得る。

プロセッサ１３７０、１３８０は、ポイントツーポイントインタフェース回路１３７６、１３９４、１３８６、１３９８を用いて、個々のＰ−Ｐインタフェース１３５２、１３５４を介してチップセット１３９０と情報をそれぞれ交換し得る。チップセット１３９０は、高パフォーマンスインタフェース１３３９を介してコプロセッサ１３３８と任意に情報を交換し得る。１つの実施形態において、コプロセッサ１３３８は、例えば、高スループットＭＩＣプロセッサ、ネットワーク又は通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ、又は同様のもののような、専用プロセッサである。

共有キャッシュ（不図示）が、いずれかのプロセッサ内に、又は、両方のプロセッサの外部に含まれ得、さらに、Ｐ−Ｐ相互接続を介してプロセッサと接続され、その結果、プロセッサが低電力モードに置かれている場合、プロセッサのローカルキャッシュ情報のいずれか又は両方が、共有キャッシュに格納され得る。

チップセット１３９０が、インタフェース１３９６を介して第１のバス１３１６に連結され得る。１つの実施形態において、第１のバス１３１６は、ペリフェラルコンポーネント相互接続（ＰＣＩ）バス、又は、ＰＣＩエクスプレスバス若しくは他の第３世代Ｉ／Ｏ相互接続バスのようなバスであり得るが、本発明の範囲はそのように限定されない。

図７に示されるように、様々なＩ／Ｏデバイス１３１４は、第２のバス１３２０に第１のバス１３１６を連結するバスブリッジ１３１８と共に第１のバス１３１６と連結され得る。１つの実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、（例えば、グラフィックスアクセラレータ又はデジタル信号処理（ＤＳＰ）ユニットのような）アクセラレータ、フィールドプログラマブルゲートアレイ、又はその他のプロセッサのような１又は複数の追加のプロセッサ１３１５が、第１のバス１３１６に連結される。１つの実施形態において、第２のバス１３２０は、ローピンカウント（ＬＰＣ）バスであり得る。１つの実施形態において、例えば、キーボード及び／又はマウス１３２２、通信デバイス１３２７、並びに、命令／コード及びデータ１３３０を含み得るディスクドライブ又は他の大容量ストレージデバイスのようなストレージユニット１３２８を含む、様々なデバイスが、第２のバス１３２０に連結され得る。さらに、オーディオＩ／Ｏ１３２４が第２のバス１３２０に連結され得る。他のアーキテクチャが可能であることに留意されたい。例えば、図７のポイントツーポイントアーキテクチャ代わりに、システムは、マルチドロップバス又は他のこのようなアーキテクチャを実装し得る。

図８は、１又は複数の実施形態による、第２のより具体的で例示的なシステム１４００のブロック図を表す。図８の他の態様を曖昧にすることを回避すべく、図７の特定の態様が図８から除外されている。

図８は、プロセッサ１３７０、１３８０が統合メモリ及びＩ／Ｏ制御ロジック（「ＣＬ」）１３７２及び１３８２をそれぞれ含み得ることを示す。したがって、ＣＬ１３７２、１３８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図８は、メモリ１３３２、１３３４がＣＬ１３７２、１３８２に連結されていることだけでなく、Ｉ／Ｏデバイス１４１４も制御ロジック１３７２、１３８２に連結されていることを示す。レガシＩ／Ｏデバイス１４１５がチップセット１３９０に連結されている。

図９は、１又は複数の実施形態による、システムオンチップ（ＳｏＣ）１５００のブロック図である。破線枠は、より高度なＳｏＣにおける任意の機能である。図９において、相互接続ユニット１５０２が、（構成要素のキャッシュユニット１１０４Ａ−Ｎを含む）１又は複数のコア１１０２Ａ−Ｎのセットを含むアプリケーションプロセッサ１５１０及び共有キャッシュユニット１１０６と、システムエージェントユニット１１１０と、バスコントローラユニット１１１６と、統合メモリコントローラユニット１１１４と、統合グラフィックスロジック、画像プロセッサ、オーディオプロセッサ、及びビデオプロセッサを含み得る１又は複数のコプロセッサ１５２０のセットと、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット１５３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット１５３２と、１又は複数の外部ディスプレイに連結するための表示ユニット１５４０とに連結される。１つの実施形態において、コプロセッサ１５２０は、例えば、ネットワーク又は通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサ、又は同様のもののような、専用プロセッサを含む。

結論

本開示において、「実施形態」、「１つの実施形態」、及び「他の実施形態」のような表現は、概して、実施形態の可能性を言及することを意図されている。これらの表現は、本発明を特定の実施形態の構成に限定することを意図しない。本明細書で用いられるように、これらの表現は、同じ実施形態又は異なる実施形態を言及し得、これらの実施形態は、他の実施形態に組み合わせ可能である。本明細書で説明されて示される原理及び例示的な実施形態に照らせば、示された実施形態が、本明細書で説明され及び／又は示された原理から逸脱することなく、配置及び詳細において修正され得ることを認識するだろう。

また、本開示によれば、デバイスは、プロセッサによってアクセスされるとき、デバイスに特定の動作を実行させる命令及び他のデータを含み得る。本開示の目的のために、デバイスに動作を実行させる命令は、概してソフトウェアと称され得る。ソフトウェア及び同様のものはまた、制御ロジックと称され得る。ブート処理の間に用いられるソフトウェアは、ファームウェアと称され得る。不揮発性メモリに格納されるソフトウェアはまた、ファームウェアと称され得る。ソフトウェアが、任意の適切な構造又は構造の組み合わせを用いて構成され得る。したがって、プログラム及びモジュールのような用語が、限定することなく、アプリケーションプログラム、サブプログラム、ルーチン、関数、プロシージャ、ドライバ、ライブラリ、データ構造、プロセス、マイクロコード、及び他のタイプのソフトウェア構成要素を含むソフトウェア構成の広範囲をカバーするのに概して用いられ得る。また、ソフトウェアモジュールが１つより多くの構成要素を含み得、これらの構成要素がモジュールの動作を完了するのに連携し得ることが理解されるべきである。また、ソフトウェアがデバイスに実行させる動作は、動作コンテキストを作成すること、特定のデータ構造を例示化すること等を含み得る。実施形態が、少なくとも１つのプロセッサと、ストレージシステム（例えば、揮発性メモリ及び／又は１又は複数不揮発性ストレージ要素）と、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを備えるプログラマブルシステム上で実行するソフトウェアとして実装され得る。

任意の適切な動作環境及びプログラミング言語（又は動作環境及びプログラミング言語の組み合わせ）が、本明細書で説明されたソフトウェア構成要素を実装するのに用いられ得る。例えば、プログラムコードが、高レベル手続き型プログラミング言語若しくはオブジェクト指向型プログラミング言語、又は、アセンブリ言語若しくは機械言語で実装され得る。本明細書で説明されるメカニズムが、任意の特定のプログラミング言語に限定されない。どのような場合でも、言語がコンパイラ型言語又はインタープリタ型言語であり得る。

データを含み、かつ、他のコンポーネントがそのデータを取得することを可能にする媒体は、機械アクセス可能媒体又は機械可読媒体と称され得る。したがって、実施形態は、本明細書で説明された動作の一部又は全部を実行する命令を含む機械可読媒体を含み得る。そのような媒体が、概して、装置、特にプログラム生成物と称され得る。１つの実施形態において、複数の構成要素のためのソフトウェアが、１つの機械可読媒体で格納される。他の実施形態において、２又はそれより多くの機械可読媒体が、１又は複数の構成要素のためのソフトウェアを格納するのに用いられ得る。例えば、１つのコンポーネントのための命令が、１つの媒体に格納され得、他のコンポーネントのための命令が、他の媒体に格納され得る。あるいは、１つのコンポーネントのための命令の一部が、１つの媒体に格納され得、その構成要素のための残りの命令（及び他の構成要素のための命令）が１又は複数の他の媒体に格納され得る。同様に、１つの実施形態において特定のデバイス上に存在するものとして上述されたソフトウェアが、他の実施形態において、１又は複数の他のデバイス上に存在し得る。例えば、分散環境において、いくつかのソフトウェアがローカルに格納され得、いくつかのソフトウェアがリモートに格納され得る。同様に、１つの実施形態において１つの特定のデバイス上で実行されるものとして上述された動作が、他の実施形態において、１又は複数の他のデバイスによって実行され得る。

他の実施形態が、データに実装され得、非一時的ストレージ媒体に格納され得、これは、少なくとも１つのマシンによって用いられる場合、少なくとも１つのマシンに本開示による１又は複数の動作を実行する少なくとも１つの集積回路を製造させる。さらに、さらなる実施形態が、ＳｏＣ又は他のプロセッサに製造された場合、ＳｏＣ又は他のプロセッサを本開示による１又は複数の動作を実行するように構成する情報を含むコンピュータ可読ストレージ媒体に実装され得る。少なくとも１つの実施形態の１つ又は複数の態様が、プロセッサ内の様々な論理ユニットを表し、かつ、マシンに読み出されると、本明細書で説明された技術を実行すべく、マシンに論理ユニットを作成させる、機械可読媒体に格納された典型的な命令によって実装され得る。様々な論理ユニットを表す命令は、「ＩＰコア」と称され得、それらが有形の機械可読媒体に格納され得、論理ユニット又はプロセッサを実際に作成する製造装置にロードすべく、様々な顧客又は製造施設に供給され得る。少なくとも１つの実施形態の１つ又は複数の態様は、本明細書で説明された構造、回路、装置、プロセッサ及び／又はシステムの機能を画定する命令又は設計データを含む機械可読媒体を含み得る。例えば、設計データは、ハードウェア記述言語（ＨＤＬ）でフォーマット化され得る。

いくつかの実施形態のための機械可読媒体は、限定することなく、プロセッサ、コントローラ、及びデータストレージ施設を含む他の構成要素だけでなく、磁気ディスク、光ディスク、磁気光ディスク、ダイナミックランダムアクセスメモリ（ＲＡＭ）、スタティックＲＡＭ、リードオンリーメモリ（ＲＯＭ）、ソリッドステートドライブ（ＳＳＤ）、相変化メモリ（ＰＣＭ）等のような、有形の非一時的ストレージ構成要素を含み得る。本開示の目的のために、用語「ＲＯＭ」は、消去可能プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、フラッシュＲＯＭ、フラッシュメモリ等のような不揮発性メモリデバイスを指すのに概して用いられ得る。

本明細書で示されたハードウェア構成要素及びソフトウェア構成要素は、それぞれが他のものと実質的に別個に設計、構築又は更新され得るように、ある程度自己完結型である機能的要素を表すことも理解されるべきである。代替的な実施形態において、構成要素が、本明細書で説明されて示された機能を提供するためのハードウェア、ソフトウェア、又はハードウェア及びソフトウェアの組み合わせとして実装され得る。例えば、いくつかの実施形態において、説明された動作の一部又は全部を実装する制御ロジックの一部又は全部が、（例えば、集積回路チップ内のマイクロコードとして、チップ内のプログラマブルゲートアレイ（ＰＧＡ）として、チップ内の特定用途向け集積回路（ＡＳＩＣ）として、チップ内のその他の適切なタイプのハードウェア回路として、又は、２又はそれより多くの異なるインスタンス及び／又は１又は複数のチップ内の複数のタイプのハードウェアロジックの組み合わせとして）ハードウェアロジックに実装され得る。また、「回路（ｃｉｒｃｕｉｔ）」及び「回路（ｃｉｒｃｕｉｔｒｙ）」のような用語が、本明細書で相互に交換可能に用いられ得る。これらの用語及び「ロジック」と同様の用語が、アナログ回路、デジタル回路、配線回路、プログラマブル回路、プロセッサ回路、マイクロコントローラ回路、ハードウェア論理回路、状態マシン回路、任意の他のタイプのハードウェア構成要素、又は、ハードウェア構成要素の任意の適切な組み合わせを指すのに用いられ得る。

さらに、本教示は、多くの異なる種類のデータ処理システムにおける利点に用いられ得る。そのようなデータ処理システムは、限定することなく、アクセラレータ、システムオンチップ（ＳｏＣ）、ウェアラブルデバイス、ハンドヘルドデバイス、スマートフォン、電話、オーディオデバイス、ビデオデバイス、オーディオ／ビデオデバイス（例えば、テレビシステム及びセットトップボックス）のようなエンターテイメントデバイス、車両処理システム、携帯情報端末（ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、ポータブルコンピュータ、パーソナルコンピュータ（ＰＣ）、ワークステーション、サーバ、クライアントサーバシステム、分散型コンピューティングシステム、スーパーコンピュータ、高パフォーマンスコンピューティングシステム、コンピューティングクラスタ、メインフレームコンピュータ、ミニコンピュータ、及び、情報を処理又は送信する他のデバイスを含み得る。したがって、そうでないことが明示的に規定され又は文脈によって要求されない限り、任意の特定のタイプのデータ処理システム（例えば、ＰＣ）への言及は、同様に他のタイプのデータ処理システムを包含するものとして理解されるべきである。データ処理システムはまた、装置と称され得る。データ処理システムの構成要素はまた、装置と称され得る。

また、そうでないことが明確に規定されない限り、互いに連結されているものとして、互いに通信しているものとして、互いに応答するものして、又は同様のものとして説明された構成要素は、互いに連続して通信している必要がなく、互いに直接連結されている必要がない。同様に、そうでないことが明確に規定されていない限り、１つのコンポーネントが他のコンポーネントからデータを受信するものとして、又は他のコンポーネントにデータを送信するものとして説明されるとき、そのデータが、１又は複数の中間構成要素を介して送信又は受信され得る。さらに、データ処理システムのいくつかの構成要素が、バスで通信するためのインタフェース（例えば、コネクタ）を有するアダプタカードとして実装され得る。代替的に、デバイス又は構成要素が、プログラマブル又は非プログラマブルロジックデバイス又はアレイ、ＡＳＩＣ、組み込みコンピュータ、スマートカード、及び同様のもののような構成要素を用いる組み込みコントローラとして実装され得る。本開示の目的のために、用語「バス」は、２つより多くのデバイスによって共有され得る経路、及びポイントツーポイント経路を含む。同様に、「ライン」、「ピン」等のような用語が、配線、配線のセット、又は、その他の適切な導体若しくは導体のセットを指すものとして理解されるべきである。例えば、バスは１又は複数のシリアルリンクを含み得、シリアルリンクは１又は複数のレーンを含み得、レーンは１又は複数の異なるシグナリングペアで構成され得、これらの導体が保持している電気特性を変更することは、ライン上の信号と称され得る。また、本開示の目的のために、用語「プロセッサ」は、ソフトウェアを実行することが可能なハードウェア構成要素を示す。例えば、プロセッサが、中央処理装置（ＣＰＵ）、処理コア、又は、その他の適切なタイプの処理要素として実装され得る。ＣＰＵは１又は複数の処理コアを含み得、デバイスは１又は複数のＣＰＵを含み得る。

また、１又は複数の例示的な処理が特定のシーケンスで実行される特定の動作に関して説明されてきたが、本発明の多数の代替的な実施形態を導出すべく、多数の修正がこれらの処理に適用され得る。例えば、代替的な実施形態は、全ての開示された動作より少ない動作を用いる処理、追加の動作を用いる処理、及び、本明細書で開示された個々の動作が組み合わされ、さらに分割され、再配列され、又はそうでなければ変更される処理を含み得る。

同様に、例示的な実施形態において他の構成要素内に存在するものとして説明されてきた構成要素が、代替的な実施形態において異なって配置され得る。例えば、ダイナミックチューニングユニットに存在するものとして上述された構成要素の少なくとも一部が、代替的な実施形態においてダイナミックチューニングユニットに存在しなくてよい。

実施形態は、以下の例を含む。

例Ａ１は、マイクロアーキテクチャ機構、ＤＴＵ回路、及びＤＴＵ回路内に無効サイクルカウンタを備えるプロセッサである。無効サイクルカウンタは、プロセッサがマイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す。ＤＴＵ回路は、有効サイクルカウンタであって、プロセッサがマイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、有効サイクルカウンタをさらに有する。ＤＴＵ回路は、ＰＥＵ回路であって、無効サイクルカウンタ及び有効サイクルカウンタに基づいて、プロセッサが第２の実行ウィンドウで第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する、ＰＥＵ回路をさらに有する。プロセッサは、評価テーブルであって、選択されたアドレスに対する有用性状態を有し、（ａ）プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したという判定に応じて、より不良なパフォーマンスを示すべく、有用性状態がＰＥＵ回路によって更新され、（ｂ）マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、プロセッサがマイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、有用性状態がＰＥＵ回路によって更新される、評価テーブルをさらに備える。ＤＴＵ回路は、ＴＩＵ回路であって、確定した不良状態を示す、評価テーブル内の選択されたアドレスに対する有用性状態に応じて、後続の実行ウィンドウの選択されたアドレスに対してマイクロアーキテクチャ機構を自動的に無効にする、ＴＩＵ回路をさらに有する。

例Ａ２は、ＤＴＵ回路の少なくとも一部がマイクロアーキテクチャ機構内に存在する、例Ａ１に記載のプロセッサである。

例Ａ３は、プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、選択されたアドレスに対する有用性状態がＰＥＵ回路によって更新される、例Ａ１に記載のプロセッサである。また、マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、プロセッサがマイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、選択されたアドレスに対する有用性状態がＰＥＵ回路によって更新される。また、ＴＩＵ回路は、確定した良好状態を示す、評価テーブル内の選択されたアドレスに対する有用性状態に応じて、後続の実行ウィンドウの選択されたアドレスに対してマイクロアーキテクチャ機構を自動的に有効にする。例Ａ３はまた、例Ａ２の特徴を含み得る。

例Ａ４は、ＤＴＵ回路は、選択されたアドレスに対する有用性状態の更新を制御するＦＳＭであって、ＦＳＭは、確定した不良状態と、確定した良好状態と、少なくとも３つの未確定の状態とを提供する、ＦＳＭを有する、例Ａ１に記載のプロセッサである。未確定の状態は、中立状態と、良好の可能性がある状態と、不良の可能性がある状態とを含む。また、選択されたアドレスに対する有用性状態は、中立状態で開始し、選択されたアドレスに対する有用性状態は、（ａ）中立状態から不良の可能性がある状態に、（ｂ）不良の可能性がある状態が確定した不良状態に有用性状態を連続的に更新することに応じて、確定した不良状態に到達する。例Ａ４はまた、例Ａ２−Ａ３の任意の１又は複数の特徴を含み得る。

例Ａ５は、各実行ウィンドウは、予め定められた数のリタイアした命令を含む、例Ａ１に記載のプロセッサである。例Ａ５はまた、例Ａ２−Ａ４の任意の１又は複数の特徴を含み得る。

例Ａ６は、ＤＴＵ回路は、プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較して著しく不良なパフォーマンスを実現したか否かを判定するのにＰＥＵ回路が用いる予め定められた重要性閾値を有する、例Ａ１に記載のプロセッサである。例Ａ６はまた、例Ａ２−Ａ５の任意の１又は複数の特徴を含み得る。

例Ａ７は、ＤＴＵ回路は、選択されたアドレスでの命令が第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのにＰＥＵ回路が用いる予め定められた関与閾値を有する、例Ａ１に記載のプロセッサである。また、ＰＥＵ回路は、選択されたアドレスが第２の実行ウィンドウの間に少なくとも閾値回数実行された場合に限り、マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、選択されたアドレスに対する有用性状態を更新する。例Ａ７はまた、例Ａ２−Ａ６の任意の１又は複数の特徴を含み得る。

例Ａ８は、評価テーブルは、選択されたアドレスで命令を実行することに応じてインクリメントされる、選択されたアドレスに対する関与カウンタを有する、例Ａ７に記載のプロセッサである。また、ＰＥＵ回路は、選択されたアドレスでの命令が第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのに関与カウンタ及び予め定められた関与閾値を用いる。

例Ｂ１は、ＲＡＭと、ＲＡＭに連結するプロセッサと、プロセッサ内のマイクロアーキテクチャ機構と、プロセッサ内のＤＴＵ回路と、ＤＴＵ回路内の無効サイクルカウンタを備えるデータ処理システムである。無効サイクルカウンタは、プロセッサがマイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す。ＤＴＵ回路はまた、有効サイクルカウンタであって、プロセッサがマイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、有効サイクルカウンタを有する。ＤＴＵ回路は、ＰＥＵ回路であって、無効サイクルカウンタ及び有効サイクルカウンタに基づいて、プロセッサが第２の実行ウィンドウで第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する、ＰＥＵ回路をさらに有する。プロセッサは、選択されたアドレスに対する有用性状態を含む評価テーブルをさらに有する。プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したという判定に応じて、より不良なパフォーマンスを示すべく、有用性状態がＰＥＵ回路によって更新され、マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、プロセッサがマイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、有用性状態がＰＥＵ回路によって更新される。ＤＴＵ回路は、ＴＩＵ回路であって、確定した不良状態を示す、評価テーブル内の選択されたアドレスに対する有用性状態に応じて、後続の実行ウィンドウの選択されたアドレスに対してマイクロアーキテクチャ機構を自動的に無効にする、ＴＩＵ回路をさらに有する。

例Ｂ２は、ＤＴＵ回路の少なくとも一部がマイクロアーキテクチャ機構内に存在する、例Ｂ１に記載のデータ処理システムである。

例Ｂ３は、プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、選択されたアドレスに対する有用性状態がＰＥＵ回路によって更新される、例Ｂ１に記載のデータ処理システムである。また、マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、プロセッサがマイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、選択されたアドレスに対する有用性状態がＰＥＵ回路によって更新される。また、ＴＩＵ回路は、確定した良好状態を示す、評価テーブル内の選択されたアドレスに対する有用性状態に応じて、後続の実行ウィンドウの選択されたアドレスに対してマイクロアーキテクチャ機構を自動的に有効にする。例Ｂ３はまた、例Ｂ２の特徴を含み得る。

例Ｂ４は、ＤＴＵ回路は、選択されたアドレスに対する有用性状態の更新を制御するＦＳＭであって、ＦＳＭは、確定した不良状態と、確定した良好状態と、少なくとも３つの未確定の状態とを提供する、ＦＳＭを有する、例Ｂ１に記載のデータ処理システムである。未確定の状態は、中立状態と、良好の可能性がある状態と、不良の可能性がある状態とを含む。選択されたアドレスの有用性状態は、中立状態で開始し、選択されたアドレスに対する有用性状態は、（ａ）中立状態から不良の可能性がある状態に、（ｂ）不良の可能性がある状態から確定した不良状態に有用性状態を連続的に更新することに応じて、確定した不良状態に到達する。例Ｂ４はまた、例Ｂ２−Ｂ３の任意の１又は複数の特徴を含み得る。

例Ｂ５は、各実行ウィンドウは、予め定められた数のリタイアした命令を含む、例Ｂ１に記載のデータ処理システムである。例Ｂ５はまた、例Ｂ２−Ｂ４の任意の１又は複数の特徴を含み得る。

例Ｂ６は、ＤＴＵ回路は、プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較して著しく不良なパフォーマンスを実現したか否かを判定するのにＰＥＵ回路が用いる予め定められた重要性閾値を有する、例Ｂ１に記載のデータ処理システムである。例Ｂ６はまた、例Ｂ２−Ｂ５の任意の１又は複数の特徴を含み得る。

例Ｂ７は、ＤＴＵ回路は、選択されたアドレスでの命令が第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのにＰＥＵ回路が用いる予め定められた関与閾値を有し、ＰＥＵ回路は、選択されたアドレスが第２の実行ウィンドウの間に少なくとも閾値回数実行された場合に限り、マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、選択されたアドレスに対する有用性状態を更新する、例Ｂ１に記載のデータ処理システムである。例Ｂ７はまた、例Ｂ２−Ｂ６の任意の１又は複数の特徴を含み得る。

例Ｂ８は、評価テーブルは、選択されたアドレスで命令を実行することに応じてインクリメントされる、選択されたアドレスに対する関与カウンタを有する、例Ｂ７に記載のデータ処理システムである。ＰＥＵ回路は、選択されたアドレスでの命令が第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのに関与カウンタ及び予め定められた関与閾値を用いる。

例Ｃ１は、マイクロアーキテクチャ機構及びＤＴＵ回路を含むプロセッサ上で実行される方法である。方法は、（ａ）マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを、（ｂ）マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行する段階を備える。方法は、（ａ）プロセッサが第２の実行ウィンドウで第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かをＤＴＵ回路が自動的に判定する段階と、（ｂ）プロセッサが第２の実行ウィンドウでより不良なパフォーマンスを実現したことを判定したことに応じて、より不良なパフォーマンスを示すべく、プログラムの選択されたアドレスに対する有用性状態を更新する段階と、（ｃ）プロセッサがマイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、選択されたアドレスに対する有用性状態を自動的に更新する段階と、（ｄ）確定した不良状態を示す、選択されたアドレスに対する有用性状態に応じて、第２の実行ウィンドウの後、実行ウィンドウの選択されたアドレスに対するマイクロアーキテクチャ機構を自動的に無効にする段階とをさらに備える。

例Ｃ２は、プロセッサが第２の実行ウィンドウで第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する前記段階は、ＤＴＵ回路内のＰＥＵ回路によって実行される、例Ｃ１に記載の方法である。また、確定した不良状態を示すべく、選択されたアドレスに対する有用性状態を自動的に更新する段階は、ＰＥＵ回路によって実行される。また、第２の実行ウィンドウの後、実行ウィンドウの選択されたアドレスに対するマイクロアーキテクチャ機構を自動的に無効にする段階は、ＤＴＵ回路内のＴＩＵ回路によって実行される。

例Ｃ３は、（ａ）プロセッサがマイクロアーキテクチャ機構を有効にした状態である第２の実行ウィンドウでマイクロアーキテクチャ機構を無効にした状態である第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、選択されたアドレスに対する有用性状態を更新する段階と、（ｂ）マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、プロセッサがマイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、選択されたアドレスに対する有用性状態を更新する段階と、（ｃ）確定した良好状態を示す、選択されたアドレスに対する有用性状態に応じて、後続の実行ウィンドウの選択されたアドレスに対するマイクロアーキテクチャ機構を自動的に有効にする段階とをさらに備える、例Ｃ１に記載の方法である。例Ｃ３はまた、例Ｃ２の特徴を含み得る。

例Ｃ４は、（ａ）選択されたアドレスでの命令が第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを自動的に判定するのに予め定められた関与閾値を用いる段階と、（ｂ）選択されたアドレスが第２の実行ウィンドウの間に少なくとも閾値回数実行された場合に限り、マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、選択されたアドレスに対する有用性状態を自動的に更新する段階とをさらに備える、例Ｃ１に記載の方法である。例Ｃ４はまた、例Ｃ２−Ｃ３の任意の１又は複数の特徴を含み得る。

本明細書で説明された例示的な実施形態から容易に導出され得る多種多様の有益な変形を考慮して、この詳細な説明が例示のみを意図するものであり、カバレッジの範囲を限定するものとして解釈されるべきでない。
［その他の可能な項目］
［項目１］
プロセッサであって、
マイクロアーキテクチャ機構と、
ダイナミックチューニングユニット（ＤＴＵ）回路と、
上記ＤＴＵ回路内の無効サイクルカウンタであって、上記無効サイクルカウンタは、上記プロセッサが上記マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、無効サイクルカウンタと、
上記ＤＴＵ回路内の有効サイクルカウンタであって、上記有効サイクルカウンタは、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、有効サイクルカウンタと、
上記ＤＴＵ回路内のパフォーマンス評価ユニット（ＰＥＵ）回路であって、上記ＰＥＵ回路は、上記無効サイクルカウンタ及び上記有効サイクルカウンタに基づいて、上記プロセッサが上記第２の実行ウィンドウで上記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する、ＰＥＵ回路と、
上記プロセッサ内の評価テーブルであって、上記評価テーブルは選択されたアドレスに対する有用性状態を有し、（ａ）上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したという判定に応じて、より不良なパフォーマンスを示すべく、上記有用性状態が上記ＰＥＵ回路によって更新され、（ｂ）上記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態でより悪いパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、上記有用性状態が上記ＰＥＵ回路によって更新される、評価テーブルと、
上記ＤＴＵ回路内のチューニング実施ユニット（ＴＩＵ）回路であって、上記ＴＩＵ回路は、上記確定した不良状態を示す、上記評価テーブル内の上記選択されたアドレスに対する上記有用性状態に応じて、後続の実行ウィンドウの上記選択されたアドレスに対して上記マイクロアーキテクチャ機構を自動的に無効にする、ＴＩＵ回路と
備える、プロセッサ。
［項目２］
上記ＤＴＵ回路の少なくとも一部が上記マイクロアーキテクチャ機構内に存在する、項目１に記載のプロセッサ。
［項目３］
上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、上記選択されたアドレスに対する上記有用性状態が上記ＰＥＵ回路によって更新され、
上記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、上記選択されたアドレスに対する上記有用性状態が上記ＰＥＵ回路によって更新され、
上記ＴＩＵ回路は、上記確定した良好状態を示す、上記評価テーブル内の上記選択されたアドレスに対する上記有用性状態に応じて、後続の実行ウィンドウの上記選択されたアドレスに対して上記マイクロアーキテクチャ機構を自動的に有効にする、
項目１に記載のプロセッサ。
［項目４］
上記ＤＴＵ回路は、上記選択されたアドレスに対する上記有用性状態の更新を制御する有限状態マシン（ＦＳＭ）であって、上記ＦＳＭは、上記確定した不良状態と、確定した良好状態と、少なくとも３つの未確定の状態とを提供する、ＦＳＭを有し、
上記未確定の状態は、中立状態と、良好の可能性がある状態と、不良の可能性がある状態とを含み、
上記選択されたアドレスに対する上記有用性状態は、上記中立状態で開始し、
上記選択されたアドレスに対する上記有用性状態は、（ａ）上記中立状態から上記不良の可能性がある状態に、（ｂ）上記不良の可能性がある状態から上記確定した不良状態に上記有用性状態を連続的に更新することに応じて、上記確定した不良状態に到達する、
項目１に記載のプロセッサ。
［項目５］
各実行ウィンドウは、予め定められた数のリタイアした命令を含む、項目１に記載のプロセッサ。
［項目６］
上記ＤＴＵ回路は、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較して著しく不良なパフォーマンスを実現したか否かを判定するのに上記ＰＥＵ回路が用いる予め定められた重要性閾値を有する、項目１に記載のプロセッサ。
［項目７］
上記ＤＴＵ回路は、上記選択されたアドレスでの命令が上記第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのに上記ＰＥＵ回路が用いる予め定められた関与閾値を有し、上記ＰＥＵ回路は、上記選択されたアドレスが上記第２の実行ウィンドウの間に少なくとも上記閾値回数実行された場合に限り、上記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、上記選択されたアドレスに対する上記有用性状態を更新する、項目１に記載のプロセッサ。
［項目８］
上記評価テーブルは、上記選択されたアドレスで上記命令を実行することに応じてインクリメントされる、上記選択されたアドレスに対する関与カウンタを有し、上記ＰＥＵ回路は、上記選択されたアドレスでの上記命令が上記第２の実行ウィンドウの間に少なくとも上記閾値回数実行されたか否かを判定するのに上記関与カウンタ及び上記予め定められた関与閾値を用いる、項目７に記載のプロセッサ。
［項目９］
ランダムアクセスメモリ（ＲＡＭ）と、
上記ＲＡＭに連結するプロセッサと、
上記プロセッサ内のマイクロアーキテクチャ機構と、
上記プロセッサ内のダイナミックチューニングユニット（ＤＴＵ）回路と、
上記ＤＴＵ回路内の無効サイクルカウンタであって、上記無効サイクルカウンタは、上記プロセッサが上記マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、無効サイクルカウンタと、
上記ＤＴＵ回路内の有効サイクルカウンタであって、上記有効サイクルカウンタは、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、有効サイクルカウンタと、
上記ＤＴＵ回路内のパフォーマンス評価ユニット（ＰＥＵ）回路であって、上記ＰＥＵ回路は、上記無効サイクルカウンタ及び上記有効サイクルカウンタに基づいて、上記プロセッサが上記第２の実行ウィンドウで上記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する、ＰＥＵ回路と、
上記プロセッサ内の評価テーブルであって、上記評価テーブルは、選択されたアドレスに対する有用性状態を有し（ａ）上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したという判定に応じて、より不良なパフォーマンスを示すべく、上記有用性状態が上記ＰＥＵ回路によって更新され、（ｂ）上記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、上記有用性状態が上記ＰＥＵ回路によって更新される、評価テーブルと、
上記ＤＴＵ回路内のチューニング実施ユニット（ＴＩＵ）回路であって、上記ＴＩＵ回路は、上記確定した不良状態を示す、上記評価テーブル内の上記選択されたアドレスに対する上記有用性状態に応じて、後続の実行ウィンドウの上記選択されたアドレスに対して上記マイクロアーキテクチャ機構を自動的に無効にする、ＴＩＵ回路と
を備える、データ処理システム。
［項目１０］
上記ＤＴＵ回路の少なくとも一部が上記マイクロアーキテクチャ機構内に存在する、項目９に記載のデータ処理システム。
［項目１１］
上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、上記選択されたアドレスに対する上記有用性状態が上記ＰＥＵ回路によって更新され、
上記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、上記選択されたアドレスに対する上記有用性状態が上記ＰＥＵ回路によって更新され、
上記ＴＩＵ回路は、上記確定した良好状態を示す、上記評価テーブル内の上記選択されたアドレスに対する上記有用性状態に応じて、後続の実行ウィンドウの上記選択されたアドレスに対して上記マイクロアーキテクチャ機構を自動的に有効にする、
項目９に記載のデータ処理システム。
［項目１２］
上記ＤＴＵ回路は、上記選択されたアドレスに対する上記有用性状態の更新を制御する有限状態マシン（ＦＳＭ）であって、上記ＦＳＭは、上記確定した不良状態と、確定した良好状態と、少なくとも３つの未確定の状態とを提供する、ＦＳＭを有し、
上記未確定の状態は、中立状態と、良好の可能性がある状態と、不良の可能性がある状態とを含み、
上記選択されたアドレスに対する上記有用性状態は、上記中立状態で開始し、
上記選択されたアドレスに対する上記有用性状態は、（ａ）上記中立状態から上記不良の可能性がある状態に、（ｂ）上記不良の可能性がある状態から上記確定した不良状態に上記有用性状態を連続的に更新することに応じて、上記確定した不良状態に到達する、
項目９に記載のデータ処理システム。
［項目１３］
各実行ウィンドウは、予め定められた数のリタイアした命令を含む、項目９に記載のデータ処理システム。
［項目１４］
上記ＤＴＵ回路は、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較して著しく不良なパフォーマンスを実現したか否かを判定するのに上記ＰＥＵ回路が用いる予め定められた重要性閾値を有する、項目９に記載のデータ処理システム。
［項目１５］
上記ＤＴＵ回路は、上記選択されたアドレスでの命令が上記第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのに上記ＰＥＵ回路が用いる予め定められた関与閾値を有し、上記ＰＥＵ回路は、上記選択されたアドレスが上記第２の実行ウィンドウの間に少なくとも上記閾値回数実行された場合に限り、上記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、上記選択されたアドレスに対する上記有用性状態を更新する、項目９に記載のデータ処理システム。
［項目１６］
上記評価テーブルは、上記選択されたアドレスで上記命令を実行することに応じてインクリメントされる、上記選択されたアドレスに対する関与カウンタを有し、上記ＰＥＵ回路は、上記選択されたアドレスでの上記命令が上記第２の実行ウィンドウの間に少なくとも上記閾値回数実行されたか否かを判定するのに上記関与カウンタ及び上記予め定められた関与閾値を用いる、項目１５に記載のデータ処理システム。
［項目１７］
マイクロアーキテクチャ機構及びダイナミックチューニングユニット（ＤＴＵ）回路を含むプロセッサ上で（ａ）上記マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを、（ｂ）上記マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行する段階と、
上記プロセッサが上記第２の実行ウィンドウで上記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを上記ＤＴＵ回路が自動的に判定する段階と、
上記プロセッサが上記第２の実行ウィンドウでより不良なパフォーマンスを実現したことを判定したことに応じて、より不良なパフォーマンスを示すべく、上記プログラムの選択されたアドレスに対する有用性状態を更新する段階と、
上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、上記選択されたアドレスに対する上記有用性状態を自動的に更新する段階と、
上記確定した不良状態を示す、上記選択されたアドレスに対する上記有用性状態に応じて、上記第２の実行ウィンドウの後、実行ウィンドウの上記選択されたアドレスに対する上記マイクロアーキテクチャ機構を自動的に無効にする段階と
を備える、方法。
［項目１８］
上記プロセッサが上記第２の実行ウィンドウで上記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現するか否かを自動的に判定する上記段階は、上記ＤＴＵ回路内のパフォーマンス評価ユニット（ＰＥＵ）回路によって実行され、
確定した不良状態を示すべく、上記選択されたアドレスに対する上記有用性状態を自動的に更新する上記段階は、上記ＰＥＵ回路によって実行され、
上記第２の実行ウィンドウの後、実行ウィンドウの上記選択されたアドレスに対する上記マイクロアーキテクチャ機構を自動的に無効にする上記段階は、上記ＤＴＵ回路内のチューニング実施ユニット（ＴＩＵ）回路によって実行される
項目１７に記載の方法。
［項目１９］
上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態である上記第２の実行ウィンドウで上記マイクロアーキテクチャ機構を無効にした状態である上記第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、上記選択されたアドレスに対する上記有用性状態を更新する段階と、
上記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、上記プロセッサが上記マイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、上記選択されたアドレスに対する上記有用性状態を更新する段階と、
上記確定した良好状態を示す、上記選択されたアドレスに対する上記有用性状態に応じて、後続の実行ウィンドウの上記選択されたアドレスに対する上記マイクロアーキテクチャ機構を自動的に有効にする段階と
をさらに備える、項目１７に記載の方法。
［項目２０］
上記選択されたアドレスでの命令が上記第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを自動的に判定するのに予め定められた関与閾値を用いる段階と、
上記選択されたアドレスが上記第２の実行ウィンドウの間に少なくとも上記閾値回数実行された場合に限り、上記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、上記選択されたアドレスに対する上記有用性状態を自動的に更新する段階と
をさらに備える、項目１７に記載の方法。

Claims

プロセッサであって、
マイクロアーキテクチャ機構と、
ダイナミックチューニングユニット（ＤＴＵ）回路と、
前記ＤＴＵ回路内の無効サイクルカウンタであって、前記無効サイクルカウンタは、前記プロセッサが前記マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、無効サイクルカウンタと、
前記ＤＴＵ回路内の有効サイクルカウンタであって、前記有効サイクルカウンタは、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、有効サイクルカウンタと、
前記ＤＴＵ回路内のパフォーマンス評価ユニット（ＰＥＵ）回路であって、前記ＰＥＵ回路は、前記無効サイクルカウンタ及び前記有効サイクルカウンタに基づいて、前記プロセッサが前記第２の実行ウィンドウで前記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する、ＰＥＵ回路と、
前記プロセッサ内の評価テーブルであって、前記評価テーブルは選択されたアドレスに対する有用性状態を有し、（ａ）前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したという判定に応じて、より不良なパフォーマンスを示すべく、前記有用性状態が前記ＰＥＵ回路によって更新され、（ｂ）前記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、前記有用性状態が前記ＰＥＵ回路によって更新される、評価テーブルと、
前記ＤＴＵ回路内のチューニング実施ユニット（ＴＩＵ）回路であって、前記ＴＩＵ回路は、前記確定した不良状態を示す、前記評価テーブル内の前記選択されたアドレスに対する前記有用性状態に応じて、後続の実行ウィンドウの前記選択されたアドレスに対して前記マイクロアーキテクチャ機構を自動的に無効にする、ＴＩＵ回路と
備える、プロセッサ。
前記ＤＴＵ回路の少なくとも一部が前記マイクロアーキテクチャ機構内に存在する、請求項１に記載のプロセッサ。
前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、前記選択されたアドレスに対する前記有用性状態が前記ＰＥＵ回路によって更新され、
前記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、前記選択されたアドレスに対する前記有用性状態が前記ＰＥＵ回路によって更新され、
前記ＴＩＵ回路は、前記確定した良好状態を示す、前記評価テーブル内の前記選択されたアドレスに対する前記有用性状態に応じて、後続の実行ウィンドウの前記選択されたアドレスに対して前記マイクロアーキテクチャ機構を自動的に有効にする、
請求項１又は２に記載のプロセッサ。
前記ＤＴＵ回路は、前記選択されたアドレスに対する前記有用性状態の更新を制御する有限状態マシン（ＦＳＭ）であって、前記ＦＳＭは、前記確定した不良状態と、確定した良好状態と、少なくとも３つの未確定の状態とを提供する、ＦＳＭを有し、
前記未確定の状態は、中立状態と、良好の可能性がある状態と、不良の可能性がある状態とを含み、
前記選択されたアドレスに対する前記有用性状態は、前記中立状態で開始し、
前記選択されたアドレスに対する前記有用性状態は、（ａ）前記中立状態から前記不良の可能性がある状態に、（ｂ）前記不良の可能性がある状態から前記確定した不良状態に前記有用性状態を連続的に更新することに応じて、前記確定した不良状態に到達する、
請求項１から３のいずれか一項に記載のプロセッサ。
各実行ウィンドウは、予め定められた数のリタイアした命令を含む、請求項１から４のいずれか一項に記載のプロセッサ。
前記ＤＴＵ回路は、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較して著しく不良なパフォーマンスを実現したか否かを判定するのに前記ＰＥＵ回路が用いる予め定められた重要性閾値を有する、請求項１から５のいずれか一項に記載のプロセッサ。
前記ＤＴＵ回路は、前記選択されたアドレスでの命令が前記第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのに前記ＰＥＵ回路が用いる予め定められた関与閾値を有し、前記ＰＥＵ回路は、前記選択されたアドレスでの前記命令が前記第２の実行ウィンドウの間に少なくとも前記閾値回数実行された場合に限り、前記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、前記選択されたアドレスに対する前記有用性状態を更新する、請求項１から６のいずれか一項に記載のプロセッサ。
前記評価テーブルは、前記選択されたアドレスで前記命令を実行することに応じてインクリメントされる、前記選択されたアドレスに対する関与カウンタを有し、前記ＰＥＵ回路は、前記選択されたアドレスでの前記命令が前記第２の実行ウィンドウの間に少なくとも前記閾値回数実行されたか否かを判定するのに前記関与カウンタ及び前記予め定められた関与閾値を用いる、請求項７に記載のプロセッサ。
ランダムアクセスメモリ（ＲＡＭ）と、
前記ＲＡＭに連結するプロセッサと、
前記プロセッサ内のマイクロアーキテクチャ機構と、
前記プロセッサ内のダイナミックチューニングユニット（ＤＴＵ）回路と、
前記ＤＴＵ回路内の無効サイクルカウンタであって、前記無効サイクルカウンタは、前記プロセッサが前記マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、無効サイクルカウンタと、
前記ＤＴＵ回路内の有効サイクルカウンタであって、前記有効サイクルカウンタは、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行していた間にいくつのサイクルが消費されたかを示す、有効サイクルカウンタと、
前記ＤＴＵ回路内のパフォーマンス評価ユニット（ＰＥＵ）回路であって、前記ＰＥＵ回路は、前記無効サイクルカウンタ及び前記有効サイクルカウンタに基づいて、前記プロセッサが前記第２の実行ウィンドウで前記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する、ＰＥＵ回路と、
前記プロセッサ内の評価テーブルであって、前記評価テーブルは、選択されたアドレスに対する有用性状態を有し（ａ）前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したという判定に応じて、より不良なパフォーマンスを示すべく、前記有用性状態が前記ＰＥＵ回路によって更新され、（ｂ）前記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、前記有用性状態が前記ＰＥＵ回路によって更新される、評価テーブルと、
前記ＤＴＵ回路内のチューニング実施ユニット（ＴＩＵ）回路であって、前記ＴＩＵ回路は、前記確定した不良状態を示す、前記評価テーブル内の前記選択されたアドレスに対する前記有用性状態に応じて、後続の実行ウィンドウの前記選択されたアドレスに対して前記マイクロアーキテクチャ機構を自動的に無効にする、ＴＩＵ回路と
を備える、データ処理システム。
前記ＤＴＵ回路の少なくとも一部が前記マイクロアーキテクチャ機構内に存在する、請求項９に記載のデータ処理システム。
前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、前記選択されたアドレスに対する前記有用性状態が前記ＰＥＵ回路によって更新され、
前記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、前記選択されたアドレスに対する前記有用性状態が前記ＰＥＵ回路によって更新され、
前記ＴＩＵ回路は、前記確定した良好状態を示す、前記評価テーブル内の前記選択されたアドレスに対する前記有用性状態に応じて、後続の実行ウィンドウの前記選択されたアドレスに対して前記マイクロアーキテクチャ機構を自動的に有効にする、
請求項９又は１０に記載のデータ処理システム。
前記ＤＴＵ回路は、前記選択されたアドレスに対する前記有用性状態の更新を制御する有限状態マシン（ＦＳＭ）であって、前記ＦＳＭは、前記確定した不良状態と、確定した良好状態と、少なくとも３つの未確定の状態とを提供する、ＦＳＭを有し、
前記未確定の状態は、中立状態と、良好の可能性がある状態と、不良の可能性がある状態とを含み、
前記選択されたアドレスに対する前記有用性状態は、前記中立状態で開始し、
前記選択されたアドレスに対する前記有用性状態は、（ａ）前記中立状態から前記不良の可能性がある状態に、（ｂ）前記不良の可能性がある状態から前記確定した不良状態に前記有用性状態を連続的に更新することに応じて、前記確定した不良状態に到達する、
請求項９から１１のいずれか一項に記載のデータ処理システム。
各実行ウィンドウは、予め定められた数のリタイアした命令を含む、請求項９から１２のいずれか一項に記載のデータ処理システム。
前記ＤＴＵ回路は、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較して著しく不良なパフォーマンスを実現したか否かを判定するのに前記ＰＥＵ回路が用いる予め定められた重要性閾値を有する、請求項９から１３のいずれか一項に記載のデータ処理システム。
前記ＤＴＵ回路は、前記選択されたアドレスでの命令が前記第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを判定するのに前記ＰＥＵ回路が用いる予め定められた関与閾値を有し、前記ＰＥＵ回路は、前記選択されたアドレスでの前記命令が前記第２の実行ウィンドウの間に少なくとも前記閾値回数実行された場合に限り、前記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、前記選択されたアドレスに対する前記有用性状態を更新する、請求項９から１４のいずれか一項に記載のデータ処理システム。
前記評価テーブルは、前記選択されたアドレスで前記命令を実行することに応じてインクリメントされる、前記選択されたアドレスに対する関与カウンタを有し、前記ＰＥＵ回路は、前記選択されたアドレスでの前記命令が前記第２の実行ウィンドウの間に少なくとも前記閾値回数実行されたか否かを判定するのに前記関与カウンタ及び前記予め定められた関与閾値を用いる、請求項１５に記載のデータ処理システム。
マイクロアーキテクチャ機構及びダイナミックチューニングユニット（ＤＴＵ）回路を含むプロセッサ上で（ａ）前記マイクロアーキテクチャ機構を無効にした状態で第１の実行ウィンドウのプログラムを、（ｂ）前記マイクロアーキテクチャ機構を有効にした状態で第２の実行ウィンドウのプログラムを実行する段階と、
前記プロセッサが前記第２の実行ウィンドウで前記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを前記ＤＴＵ回路が自動的に判定する段階と、
前記プロセッサが前記第２の実行ウィンドウでより不良なパフォーマンスを実現したことを判定したことに応じて、より不良なパフォーマンスを示すべく、前記プログラムの選択されたアドレスに対する有用性状態を更新する段階と、
前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した不良状態を示すべく、前記選択されたアドレスに対する前記有用性状態を自動的に更新する段階と、
前記確定した不良状態を示す、前記選択されたアドレスに対する前記有用性状態に応じて、前記第２の実行ウィンドウの後、実行ウィンドウの前記選択されたアドレスに対する前記マイクロアーキテクチャ機構を自動的に無効にする段階と
を備える、方法。
前記プロセッサが前記第２の実行ウィンドウで前記第１の実行ウィンドウと比較してより不良なパフォーマンスを実現したか否かを自動的に判定する前記段階は、前記ＤＴＵ回路内のパフォーマンス評価ユニット（ＰＥＵ）回路によって実行され、
確定した不良状態を示すべく、前記選択されたアドレスに対する前記有用性状態を自動的に更新する前記段階は、前記ＰＥＵ回路によって実行され、
前記第２の実行ウィンドウの後、実行ウィンドウの前記選択されたアドレスに対する前記マイクロアーキテクチャ機構を自動的に無効にする前記段階は、前記ＤＴＵ回路内のチューニング実施ユニット（ＴＩＵ）回路によって実行される、
請求項１７に記載の方法。
前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態である前記第２の実行ウィンドウで前記マイクロアーキテクチャ機構を無効にした状態である前記第１の実行ウィンドウと比較してより良好なパフォーマンスを実現したという判定に応じて、より良好なパフォーマンスを示すべく、前記選択されたアドレスに対する前記有用性状態を更新する段階と、
前記マイクロアーキテクチャ機構を有効にした状態で少なくとも２つの実行ウィンドウを反復した後、前記プロセッサが前記マイクロアーキテクチャ機構を有効にした状態でより良好なパフォーマンスを実現したという複数の連続的な判定に応じて、確定した良好状態を示すべく、前記選択されたアドレスに対する前記有用性状態を更新する段階と、
前記確定した良好状態を示す、前記選択されたアドレスに対する前記有用性状態に応じて、後続の実行ウィンドウの前記選択されたアドレスに対する前記マイクロアーキテクチャ機構を自動的に有効にする段階と
をさらに備える、請求項１７又は１８に記載の方法。
前記選択されたアドレスでの命令が前記第２の実行ウィンドウの間に少なくとも閾値回数実行されたか否かを自動的に判定するのに予め定められた関与閾値を用いる段階と、
前記選択されたアドレスでの前記命令が前記第２の実行ウィンドウの間に少なくとも前記閾値回数実行された場合に限り、前記マイクロアーキテクチャ機構を有効にした状態でより不良なパフォーマンスを示すべく、前記選択されたアドレスに対する前記有用性状態を自動的に更新する段階と
をさらに備える、請求項１７から１９のいずれか一項に記載の方法。
請求項１７から２０のいずれか一項に記載の方法を実行する手段を備える装置。