JP2000148518A

JP2000148518A - 正確なキャッシュ感応性を可能にするキャッシュ・ア―キテクチャ

Info

Publication number: JP2000148518A
Application number: JP11141208A
Authority: JP
Inventors: Hubertus Franke; フベルトゥス・フランケ; Pratap Chandra Pattnaik; プラタプ・チャンドラ・パットナイク; Orran Yakov Krieger; オラン・ヤコフ・クリーガー; Yurij Andrij Baransky; ユーリー・アンドリー・バランスキ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-06-17
Filing date: 1999-05-21
Publication date: 2000-05-30
Also published as: US6243788B1; KR20000005675A; CN1133942C; EP0965918A2; EP0965918A3; TW508533B; CN1239249A; KR100337219B1

Abstract

(57)【要約】【課題】所与のプロセッサおよびそれに関連するキャ
ッシュでの関連スレッドのキャッシュ・フットプリント
を監視し、したがって、オペレーティング・システムが
よりよいキャッシュ感応型スケジューリングを実行でき
るようにする技法を提供すること。【解決手段】キャッシュ内のスレッドのフットプリン
トの関数を、そのキャッシュのプロセッサに対するその
スレッドの類縁性の表示として使用することができる。
たとえば、キャッシュ内にすでに存在するキャッシュラ
インの数が多いほど、そのプロセッサにスケジューリン
グされた時にスレッドが経験するキャッシュ・ミスの数
が少なくなり、したがって、そのプロセッサに対するス
レッドの類縁性が高くなる。スレッドの優先順位および
他のシステム定義のパラメータのほかに、スケジューリ
ング・アルゴリズムは、スレッドの実行を特定のプロセ
ッサに割り当てる時に、キャッシュ類縁性を考慮に入れ
ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ・シ
ステムのスレッドのスケジューリングに関する。具体的
に言うと、本発明は、キャッシュ感応型スケジューリン
グのために、スレッドのキャッシュ・フットプリントの
追跡を容易にするための方法およびシステムに関する。

【０００２】

【従来の技術】現代のコンピュータ・アーキテクチャで
は、ＣＰＵの速度が、メモリ・アクセス速度よりはるか
に速いテンポでスケール・アップしつつある。したがっ
て、メモリ待ち時間の影響に対処することがますます重
要になってきた。相対的に長いメモリ・アクセス時間を
緩和するために、コンピュータ・システムでは、図１に
示されているように、マイクロプロセッサ（図ではμ
Ｐ）（１２ａおよび１２ｂ）とメモリ（１３）の間にま
すます大容量になるキャッシュ（１４ａおよび１４ｂ）
が挿入され、複数レベルのキャッシュ（１４ａ、１４
ｂ、１５ａおよび１５ｂ）が使用されることもしばしば
である［１］。それにもかかわらず、メモリ・アクセス
速度の向上に対するＣＰＵ速度の向上の不一致が、キャ
ッシュ・ミスの発生時に、ＣＰＵサイクルに関するより
大きいキャッシュ再ロード時間をもたらす。命令依存性
分析、投機実行、アウトオブオーダ実行および事前取出
しなど、キャッシュ・ミスを隠蔽するためのさまざまな
技法が既知である［１］。キャッシュ・アクセス時間と
メモリ待ち時間の間の不一致が増加するにつれて、これ
らの技法を使用してキャッシュ・ミスを隠蔽することが
ますます困難になる。その結果、マイクロプロセッサ
は、より多くのストールを経験し、したがって、１つの
命令を実行するのに必要なサイクル数（cpi）の平均値
が増加する。したがって、コンピュータ・システムのcp
iを低く保つために、マイクロプロセッサが被るキャッ
シュ・ミスの数を減らすことが重要である。

【０００３】キャッシュ・ミスは、通常は限られたキャ
ッシュ資源に起因し、プロセッサ上の活動状態のスレッ
ドの作業セット全体をキャッシュ内に提示できない場合
に発生する。この場合、あるスレッドによってアクセス
されるメモリが他のスレッドのキャッシュ内容を追い出
すので、スレッド間の切替えがキャッシュ・ミスを引き
起こす。この問題を軽減するための明白な方法の１つ
は、実行中のスレッドのタイム・スライスを増やし、し
たがって、その長い期間中にキャッシュが再利用される
確率を高めることである。しかし、タイム・スライスの
増加は、応答時間などの他のシステム・パラメータに関
する悪影響を及ぼし、したがって、これは一般的には選
択されない。

【０００４】現在、多数というよりほとんどの近代的サ
ーバ・システムは、キャッシュ・コヒーレント共用メモ
リ型の多重プロセッサ・システム（ＭＰ）（１１）であ
り、複数のマイクロプロセッサ（１２ａおよび１２ｂ）
が、１つまたは複数のメモリ（１３）にリンクされてい
る［１］。これらのシステムでは、スレッドの実行があ
るプロセッサから別のプロセッサに移され、そのスレッ
ドがアクセスするメモリの一部が、まだ前のプロセッサ
のキャッシュにキャッシュ記憶されている時に、キャッ
シュ・ミスが発生する。これらのメモリ位置のアクセス
の際に、キャッシュ・ミスが発生し、新しいプロセッサ
へのキャッシュラインの転送をもたらす。このようなシ
ステムのスケジューラは、スケジューリングされるスレ
ッドの優先順位だけでなく、異なるプロセッサに対する
スレッドの類縁性も考慮することによって、スループッ
トと応答性の両方を改善できる［２、４、５、６］。ス
レッドが、通常は高い類縁性を有するプロセッサにスケ
ジューリングされる場合には、キャッシュ・ミスの総数
が減り、したがって、スループットが高まる。スレッド
が類縁性を有するプロセッサにスレッドをスケジューリ
ングするためのスレッド・スケジューリングのわずかな
遅延は、実際にはスレッドの応答性を高めることができ
る。というのは、スレッドが実際に走行する時に、プロ
セッサがキャッシュ内容を再確立するのに費やす時間が
減るからである。多数の多重プロセッサ・スケジューラ
が、なんらかの形の類縁性に基づくスケジューリングを
試みているが、スケジューラがキャッシュ類縁性を正確
に推定する方法が存在しないので、このスケジューリン
グの有効性は限られている。

【０００５】オペレーティング・システムでの最初の試
みであり、多重プロセッサ・システムのための商用オペ
レーティング・システムで最も広範囲に使用されている
のが、「仮想タイム・スタンプ」である。この場合、プ
ロセッサＰ_iでのスレッドＴの実行時に、プロセッサご
とのタイム・スタンプがスレッドに割り当てられる。所
与のプロセッサに関して最高のタイム・スタンプを有す
るスレッドに、より高い類縁性値が割り当てられる。こ
の概念に関しては、非常に単純な実装すなわち、スレッ
ドがそのプロセッサで最後に走行した場合に値「１」、
そうでない場合に値「０」という実装が設けられること
がしばしばである。この方法では、スレッドのキャッシ
ュ・フットプリントを考慮に入れていない。この方法で
は、しばしば誤って、あるプロセッサ上で最も最近に走
行したスレッドが、そのプロセッサに対する最も高い類
縁性を有すると仮定される。

【０００６】多数のプロセッサに、セット・インターバ
ル中のキャッシュ・ミスの回数を考慮に入れるための機
構が導入されており、オペレーティング・システムは、
この情報を利用し始めている［３、４、５、６］。「最
少ミス」戦略では、スレッドが最後の走行中にこうむっ
たキャッシュ・ミスの回数をスケジューラが記憶する。
所与のスレッドに関するキャッシュ・ミスの回数が少な
いほど、それに割り当てられたキャッシュの類縁性が高
くなる。より精巧な戦略は、「キャッシュ再ロード遷移
モデル」に基づくものである。再ロード遷移は、スレッ
ドを再始動した後にスレッドのフットプリントを再確立
するコストとして定義される。マルコフ連鎖モデルを使
用して、所与の時刻のスレッドのフットプリントを推定
することができる［３、５、６］。具体的に言うと、マ
ルコフ連鎖では、スレッドの実行中のキャッシュ・ミス
の結果として活動状態のキャッシュラインの数が増える
確率をモデル化する。たとえば、Ｎ個のキャッシュライ
ンを有し、現在Ｍ個のキャッシュラインを保持するスレ
ッドＴが走行するシステムがあると仮定すると、キャッ
シュ・ミスによってＴのキャッシュ・フットプリントが
増える（すなわち、Ｔのキャッシュラインがミスによっ
て置換されない）確率は、（Ｎ−Ｍ）／Ｎである。複数
のキャッシュ・ミスに対して同一の論理を適用すること
によって、連鎖を構成する。同様に、同一のモデルを使
用して、スレッドの最後の実行以降のキャッシュ・ミス
の回数に対するスレッドのキャッシュ・フットプリント
の減少を推定することができる。スケジューリングの時
点では、最低の再ロード遷移を有するスレッドを選択す
ることが意味をなす。というのは、そのスレッドが、前
の状態を復元するために最少のキャッシュ・ミスをこう
むると期待されるからである。この戦略では、システム
がマルコフ連鎖的である、すなわち、履歴がないと仮定
されるが、これは、スレッドの振る舞いを正確に反映し
ておらず、キャッシュ・アソシアティビティなどのキャ
ッシュ・ハードウェアの制約を反映してもいない
［１］。さらに、キャッシュ・フットプリントは、スレ
ッドの寿命に対して増分的に推定されるので、このモデ
ルは同期がとれなくなり、劣悪なスケジューリング決定
をもたらす可能性がある。

【０００７】上で述べた現在の類縁性（affinity）に基
づくスケジューリング方式の主な障害は、キャッシュ類
縁性機能が、たとえば仮想タイム・スタンプなどの非常
に単純なヒューリスティックに基づくか、たとえばマル
コフ連鎖などの統計モデルなどのキャッシュ・フットプ
リント推定に基づくことである。

【０００８】したがって、正確なキャッシュ・フットプ
リント測定に基づく改良されたキャッシュ類縁性（アフ
ィニティ）に基づくスケジューリングを備えたオペレー
ティング・システムが必要である。

【０００９】参考文献１．ヘネシー（J. L. Hennessy）およびパターソン（D.
A. Patterson）共著、「Computer Architecture: A Qu
antitative Approach」、Morgan Kaufmann Publishers
刊、ISBN 1-55860-329-8、１９９６年。２．バハラ（U. Vahalla）著、「UNIX Internals: The
New Frontier」、Prentice Hall刊、ISBN 0-13-101908-
2、１９９６年。３．シーボウ（D. Thiebaut）およびストーン（H. Ston
e）共著、「Footprintsin the Cache」、ACM Transacti
ons on Computer Systems, 5(4)、１９８７年１１月、
第３０５ないし３２９ページ。４．スキランテ（M. Squillante）およびラゾフスカ
（E. Lazowska）共著、「Using Processor Cache Affin
ity in Shared-Memory Multiprocessor Scheduling」、
IEEE Transactions on Parallel and Distributed Syst
ems, 4(2)、１９９３年２月、第１３１ないし１４３ペ
ージ。５．タッカー（A. Tucker）著、「Efficient Schedulin
g on Multiprogrammed Shared Memory Multiprocessor
s」、Ph.D. Thesis, Department of Computer Science,
Stanford University, CX-TN-94-4、１９９３年１２
月。６．ベロッサ（F. Belossa）、「Locality-Information
-Based Scheduling in Shared-Memory Multiprocessor
s」、IPPS'96 Workshop on Job Scheduling Strategies
for Parallel Processing, Honolulu, Hawaii、１９９
６年４月。

【００１０】

【発明が解決しようとする課題】本発明の目的は、キャ
ッシュ類縁性に基づく改良されたスケジューリングを提
供することである。

【００１１】

【課題を解決するための手段】本発明は、プロセッサの
それぞれについてスレッドのそれぞれのキャッシュ・フ
ットプリントを測定することによって多重プロセッサ・
システムのスレッドをスケジューリングするための方法
および装置を提供する。プロセッサのそれぞれに関する
スレッドのそれぞれの類縁性は、上で判定されたキャッ
シュ・フットプリントを使用して判定される。プロセッ
サのそれぞれでのスレッドのそれぞれの実行は、その類
縁性に従ってスケジューリングされる。本発明のより具
体的な実施例では、キャッシュのそれぞれのスレッドの
それぞれのキャッシュ・フットプリントが、各スレッド
によって特定のキャッシュから取り出される活動状態の
キャッシュラインの数によって測定される。

【００１２】

【発明の実施の形態】上で述べたように、図１には、複
数のマイクロプロセッサ（１２ａおよび１２ｂ）を有す
る多重プロセッサシステム（１１）が示されている。各
プロセッサは、アプリケーションおよびオペレーティン
グ・システム・ソフトウェアを保持またはサポートする
短期記憶媒体であるメモリ（１３）に接続される。プロ
セッサとそれに関連するメモリの通信経路には、少なく
とも１つのキャッシュ（１４ａまたは１４ｂ）が挿入さ
れる。ただし、複数レベルのキャッシュ（１４ａ、１４
ｂ、１５ａおよび１５ｂ）が可能である。前記キャッシ
ュの目的は、高速のメモリ・アクセスを実現するため
に、前記メモリの頻繁にアクセスされる内容を一時的に
記憶し、前記キャッシュ記憶されたメモリ内容への高速
の通信経路を提供することである。

【００１３】本発明によれば、図２に示されているよう
に、キャッシュ監視ユニット（ＣＭＵ）（２０）によっ
て標準キャッシュ・アーキテクチャが拡張される。名前
からわかるように、この拡張の目的は、計算単位（プロ
セス、スレッド）のキャッシュ・フットプリントを測定
するために、キャッシュの所有権と使用法を監視し、そ
れを行う計算単位を特定することである。図２に、ＣＭ
Ｕと、他の標準システム構成要素すなわち、キャッシュ
（２１）、ＣＰＵ（２２）およびメモリとの統合および
対話の高水準の概要を示す。ＣＰＵ上で命令ストリーム
を実行している現行スレッドが、ロード動作またはスト
ア動作であるｌｄ（Ａ）／ｓｔ（Ａ）（２４）を介して
メモリ位置Ａ（Ｍ［Ａ］）の内容にアクセスする時に、
ＣＰＵは、これらの要求を、ＣＰＵキャッシュ・インタ
ーフェース（２８）を介してそのＣＰＵに関連するキャ
ッシュ（２１）に発行する。キャッシュの仕事は、Ｍ
［Ａ］がすでにキャッシュの記憶域にあるかどうかを識
別し、（ａ）そのデータをＣＰＵに返すか、（ｂ）前記
仕事（ａ）を実行する前に、Ｍ［Ａ］を主記憶から取り
出さなければならないかどうかを識別することである。
Ｍ［Ａ］がすでにキャッシュのメモリにある場合には、
主記憶へのアクセスなしにＭ［Ａ］がＣＰＵに返され
る。この時点では、ＣＭＵとの対話は不要である。しか
し、Ｍ［Ａ］がキャッシュのメモリで使用可能でない場
合には、キャッシュは、まずキャッシュ・メモリ・イン
ターフェース（２３）を介して主記憶からデータを取り
出さなければならない。キャッシュのメモリは主記憶よ
りかなり小さいので、キャッシュは、Ｍ［Ａ］を格納す
るために、スペースを作るすなわち、他のキャッシュ記
憶されたメモリを「追い出」さなければならない。キャ
ッシュは、有限の個数（NUM_CL）のキャッシュラインに
編成され、各キャッシュラインは、キャッシュライン・
サイズ（ＣＬＳ）と称する特定の数の連続したメモリの
バイトを保持する。キャッシュは、通常、単純なマッピ
ング関数Ｆ（Ａ）（たとえばアドレス・ビット・ハッシ
ング）に基づいて、複数のキャッシュラインをグループ
に編成する。言い換えると、Ｍ［Ａ］は、それに関連す
るキャッシュライン・グループＣＧ［Ａ］に含まれるキ
ャッシュラインに格納することしかできない。ＣＧ
［Ａ］に使用可能なキャッシュラインがない場合には、
キャッシュは、ＣＧ［Ａ］からキャッシュラインを追い
出さなければならない。キャッシュラインの追出しに
は、そのキャッシュラインが変更済みの状態である場
合、すなわち、主記憶とキャッシュの内容が同期してい
ない場合の主記憶へのライトバックが組み込まれてい
る。その後になって、初めてＭ［Ａ］を新たに解放され
たキャッシュラインに取り出すことができる。編成と追
出しの機構は、現在のキャッシュ開発で標準的に実践さ
れている［１］。

【００１４】しかし、本発明のもう１つの態様によれ
ば、どのラインが追い出され、どのラインにメモリ内容
が書き込まれたかの通知が、キャッシュに要求される。
ＣＭＵが所与の時刻での正確なキャッシュ・フットプリ
ント測定を実現できるようにするために、これらの通知
は、追出しイベントまたは書込イベントが発生した時に
即座に行われなければならない。これらの追加動作は、
並列に実行することができ、キャッシュ・アクセスのク
リティカル・パスには追加のオーバーヘッドが全く導入
されない。具体的に言うと、キャッシュは、キャッシュ
ラインＬ_iを追い出すことを決定した後に、キャッシュ
ＣＭＵ通信バス（Ｃ³バス）（２７）上で「evict
（Ｌ_i）」通知を発行し、キャッシュラインに書き込ん
だ後には、「filled（Ｌ_i）」通知をＣＭＵに送る。実
用上の目的のために、キャッシュライン無効化と初期Ｃ
ＭＵ状態を除いて、すべての追出しの後に、同一のキャ
ッシュラインの書込が行われる。したがって、「evict
（Ｌ_i）」と「filled（Ｌ_i）」を、１つの要求にまとめ
ることができる。無効化命令は、要求に対する追加パラ
メータＩＮＶ（ハードウェアでは、これは、キャッシュ
無効化命令が発行された時に立てられる追加の信号線に
なる）によって包含することができる。したがって、キ
ャッシュからＣＭＵに対して発行される要求のそれぞれ
は、Ｒｅｑ＜Ｌ，Ｉｎｖ＞という形式を有し、このＬ
は、影響を受けるラインを識別し、Ｉｎｖは、この要求
が無効化命令の結果であるか、キャッシュラインの書込
（追出しを暗示する）の結果であるかを識別する。

【００１５】キャッシュからの通知要求を利用し、前記
スレッドのそれぞれによって取り出されたキャッシュラ
インのうちの何個がキャッシュ内でまだ活動状態である
かの測定を前記スレッドのそれぞれにＣＭＵが供給でき
るようにする方法を、これから説明する。

【００１６】ＣＭＵは、通知要求Ｒｅｑ＜Ｌ，Ｉｎｖ＞
のそれぞれを取り上げ、肯定応答を送る（たとえば、Ｃ
³バスの特定の信号線をロウにすることによって）。Ｃ
ＭＵキャッシュ・インターフェースのほかに、ＣＭＵ
は、ＣＭＵの状態を変更または問い合わせるために下の
２つの「命令」を公開するＣＰＵへのインターフェース
（２９）を提供する。１）setowner (oid) 別の「setowner (oid)」が発行さ
れるまで、ここから取り出されるすべてのキャッシュラ
インの所有者を識別する。oidは、有効なＩＤでなけれ
ばならない（下を参照）。２）getusage (oid) 有効なoidが所有するキャッシュ
ラインの数を取り出す。

【００１７】有効なoidとして、次の制約を仮定する。
[0 < oid < MAX_OID]、ただし、MAX_OIDは、なんらかの
システム定数であり、０は、ＩＮＶの場合とＣＭＵの初
期状態の処理のために予約済みである。この時点でのこ
の実施例の説明を簡単にするために、可能な所有者の数
（たとえばスレッド、プロセス）は、MAX_OIDを超えな
いと仮定する。可能な所有者の数がMAX_OIDを超える場
合については、後で説明する。

【００１８】現在の所有者だけではなく、有効なoidの
それぞれについて、ＣＭＵは、OC (oid)と称する、この
oidによって「所有」されるキャッシュラインの数を維
持しなければならない。この数を維持できるようにする
ために、ＣＭＵは、キャッシュラインＬ_iのそれぞれに
ついて、キャッシュライン所有者ＣＬＯ（Ｌ_i）を維持
しなければならない。具体的に言うと、キャッシュから
受け取る要求＜Ｌ，Ｉｎｖ＞のそれぞれについて、ＣＭ
Ｕは、キャッシュラインＬの現所有者に関連するカウン
タをデクリメントし、最後の「setowner」命令によって
示されるキャッシュラインＬの新しい所有者に関連する
カウンタをインクリメントする。通常、オペレーティン
グ・システムは、コンテキスト切替えの時に、ＣＭＵに
「setowner」命令を発行する。Ｉｎｖ信号がこの要求で
立てられる場合、新しい所有者として「０」が選択さ
れ、そのキャッシュラインに関連する所有者がないこと
が示される（「０」は有効なoidでないことに留意され
たい）。同様に、システム始動時には、すべてのキャッ
シュラインにoid「０」が与えられる。

【００１９】図３は、ＣＭＵの内部アーキテクチャを詳
細に示し、以下に一覧を示すさまざまなＣＭＵ構成要素
に対して上記の要件を示す図である。１．現在走行中の所有者（スレッド、プロセス）を識別
するoid（３１）を含む所有者識別子レジスタoid-reg
（３０）。２．キャッシュラインＬ_{[0...NUM_CL-1]}（３２ａないし
３２ｚ）ごとにキャッシュラインの所有者のoidすなわ
ちＣＬＯ（Ｌ_i）を保持する、サイズがNUM_CLのcacheli
ne_oidベクトル（３２）。３．可能な有効なoid値ごとに、前記oidによって所有さ
れるキャッシュラインの数を維持する、counter_vector
（３３）。４．キャッシュ・ユニットと対話するＣ³バス・インタ
ーフェース（３４）。５．「追出し」通知および「書込」通知に基づいてＣＭ
Ｕ状態を変更するＣＭＵ更新ユニット（３５）。６．ＣＰＵによって発行されるsetowner命令およびgetu
sage命令で動作するＣＰＵインターフェース（３６）。
副作用は、ＣＭＵが、そうでなければキャッシュ・コア
・ハードウェア自体に束縛される他の情報を簡単に記憶
できることである。たとえば、単に通知要求を数えるこ
とによって、ＣＭＵは、実際のキャッシュ・ミス会計情
報を提供できる。

【００２０】ＣＭＵ更新ユニット（３５）の動作は、キ
ャッシュラインの正しいカウントと所有権を維持するこ
とである。図４の流れ図からわかるように、ＣＭＵ更新
ユニットは以下の動作の流れに従う。・（４１）Ｃ³バス・インターフェース（３４）から
次の通知要求＜Ｌ，Ｉｎｖ＞を取り出す。・（４２） cacheline_oidベクトル（３２）からキャ
ッシュラインＬの現所有者を取り出す。・（４３） counter_vector（３３）の、上で判定され
た所有者の項目をデクリメントする。・（４４）Ｉｎｖ信号が立っている場合には、new_ow
nerに「０」をセットし、無効化を示す（４６）。そう
でない場合には、oid-regの内容によってnew_ownerを決
定する（４５）。・（４７）キャッシュラインの所有者ＣＬＯ（Ｌ）に
new_ownerをセットする。・（４８） new_ownerのcounter_vector（３３）をイ
ンクリメントする。

【００２１】MAX_OIDの選択は、キャッシュライン数NUM
_CL、キャッシュ・サイズＣＬＳ、スレッド数、プロセ
ス数などのさまざまなシステム・パラメータに依存す
る。以下で、最新技術のキャッシュ・アーキテクチャと
オペレーティング・システム・パラメータに基づく推定
を示す。キャッシュ内のキャッシュライン数NUM_CLは、
１００００００ではなく１０００から１００００程度で
ある。たとえば、キャッシュライン・サイズが１２８バ
イト（２⁷）、サイズが４メガバイト（２²²）のキャッ
シュを仮定すると、３２７６８キャッシュライン
（２¹⁵）がもたらされる。さらに、作成できるスレッド
数が４０９６（２¹²）までに制限されているオペレーテ
ィング・システムを仮定する。多数の市販オペレーティ
ング・システムは、これよりかなり少ない数に制限され
ていることに留意されたい。しかし、２バイトの記憶域
でoidを表現することによって、２¹⁶個の異なるoidを発
行できる。上の数値の場合、cacheline_oidベクトルの
ために６４キロバイト、MAX_OID=4096なのでcounter_ve
ctorのために８キロバイト、合計７２キロバイトの追加
記憶域を提供するキャッシュ設計が必要になる。これ
は、元の記憶域の約１．７５％である。キャッシュ・サ
イズは増加し続けているが、ＣＭＵ拡張に必要な総キャ
ッシュ・サイズの実効比率は、キャッシュライン・サイ
ズが同様に増加するので低下すると思われる。したがっ
て、キャッシュライン数は、キャッシュサイズ自体の比
率では増加せず、最終的に、キャッシュ・チップの総面
積に対して、ＣＭＵに必要なチップ面積が相対的に減
る。

【００２２】それでも、ＯＳは、oidがクリティカルな
資源になる可能性があるという事実に対処する準備をし
なければならない。本発明は、MAX_OID個を超えるスレ
ッドを処理する方法を提供する。静的でスレッドをグル
ープにまとめるアプローチと、より動的であり、ＯＳが
時間方向でoidの割り当てを能動的に管理する必要があ
るアプローチという２つの全般的なアプローチが意味を
なす。

【００２３】静的oid割当アプローチでは、同一のアド
レス空間またはプロセスに属するスレッドに、共通のoi
dを割り当てなければならない。これは、同一プロセス
に属するスレッドがデータまたはコードすなわちメモリ
を共有することがしばしばであるから、ランダムなスレ
ッドのグループ化より有利である。また、あるプロセス
のすべてのスレッドを複数のスレッド・グループに分割
し、各グループに別々のoidを割り当てることも可能で
ある。具体的に言うと、スレッドのメモリ共有に関する
知識があるならば、アドレッシングするメモリの大半を
共有するスレッド群を、別個のoidを有するスレッド・
グループに割り当てなければならない。これによって、
プロセスまたはスレッド・グループの最大個数をMAX_OI
Dに制限する。

【００２４】動的oid割当アプローチでは、キャッシュ
類縁性スケジューリングにおいて、限られた数のスレッ
ドすなわち、走行可能にされるスレッドだけが利益を得
ることができるという事実が認識されている。通常、多
数のスレッドは、動作不能状態であり、時間が経つにつ
れてそのスレッドのキャッシュ・フットプリントが減少
する。したがって、オペレーティング・システムが、
（ｉ）動作不能にされているスレッドまたはスレッド・
グループがあるならばそのoidを再利用し、（ｉｉ）そ
のoidを異なる実体に再割り当てし、（ｉｉｉ）スレッ
ドまたはスレッド・グループが再び動作可能にされたな
らば、新しいoidを割り当てることが、有効なアプロー
チである。この場合、MAX_OIDによって、スレッドの総
数ではなく、システム内で走行の準備ができている動作
可能にされるスレッドの数が制限されるが、これは、内
部資源の制約からほとんどの多重プロセッサ・オペレー
ティング・システムが実行しなければならないことであ
る。

【００２５】どちらのアプローチにも長所と短所がある
が、その多くは、これらのシステムで実行される作業負
荷に依存し、したがって、静的方式または動的方式のい
ずれかに向かう選択は、この実施例では直交している。

【００２６】下記に制限されるわけではないが、ほとん
どのプロセッサ設計では、「setowner」命令と「getusa
ge」命令が、専用レジスタ命令（たとえばキャッシュ・
ミスの回数を取り出すなど、キャッシュ状態の取出また
はリセット、リアルタイム・クロック読取、キャッシュ
ライン無効化などの命令に類似の）またはロード／スト
ア命令のいずれかとして提供され、ＣＭＵレジスタは、
プロセッサの物理アドレス範囲の一部にマッピングされ
る。

【００２７】１例として、レジスタ・ベースの命令セッ
ト用のＣＰＵ−ＣＭＵインターフェースとメモリ・マッ
ピング式ＣＭＵレジスタをオペレーティング・システム
で使用するための簡単な命令シーケンスを示す。当業者
は、この例を他の命令セットまたは専用レジスタに簡単
にマッピングできる。一般性を失うことなく、この例で
は、レジスタｒ４が、スレッド記述子ブロックのアドレ
スを保持し、OID_OFFSETが、このスレッドのoidが格納
される、このブロック内の固定されたオフセットを表
し、CMU_OIDが、ＣＭＵのoidレジスタがマッピングされ
る物理アドレスを表し、CMU_VECが、ＣＭＵカウンタ・
ベクトルの最初の項目（１項目あたり２バイト）がマッ
ピングされる物理アドレスを表すと仮定することができ
る。

【００２８】前に述べたように、スケジューラは、下記
に類似のコードを使用して、選択されたタスクに実行を
切り替える直前のスケジューリング決定の時に、oid-re
gをセットすることが好ましい。 lds r3,r4(OID_OFFSET) // 16ビット値のスレッド<oid>をレジスタr3にロードする ldw r5,@CMU_OID // CMU_OIDレジスタのアドレスをロードする stsx r3,0(r5) // CMU_OIDレジスタのオフセット0に16ビット値をストアする

【００２９】キャッシュ類縁性スケジューリングを実行
するために、スケジューラは、キャッシュ・フットプリ
ントの関数としてキャッシュ類縁性を確立しなければな
らず、したがって、ＣＭＵからキャッシュ・フットプリ
ントを取り出さなければならない。 lds r3,r4(OID_OFFSET) // 16ビット値のスレッド<oid>をレジスタr3にロードする ldw r5,@CMU_VEC // CMU_OIDレジスタのアドレスをロードする shl r3,r3,1 // 正しいベクトル・オフセットを得るために左に1ビットだけシフトする ldsx r6,r3(r5) // counter_vector[oid]の16ビット内容をr6にロードする

【００３０】これで、キャッシュ・フットプリント測定
値が、レジスタｒ６に格納され、他のスケジューリング
優先順位と組み合わせて総合的な実行優先順位を導出で
きるようになった。これを以下で説明する。

【００３１】ここで、キャッシュ監視装置の使用をオペ
レーティング・システムのスケジューラに統合化する方
法の例を示す。まず、図５に示された一般的で抽象的な
アルゴリズムを説明し、次に、図６に示されたＵＮＩＸ
スケジューラなどの標準的な公平なスケジューラの統合
を詳細に説明する。しかし、本発明はこれらの説明に制
限されないことに留意されたい。当業者は、本発明のキ
ャッシュ監視装置および基本アルゴリズムを他のスケジ
ューリング・アルゴリズムに統合する処理を導出できる
はずである。

【００３２】最終的に、スケジューリング・パラメータ
の組に対して、すべてのスケジューラは、次に実行する
のに適したスレッドを選択するためにスケジューラが比
較することのできる、本明細書で実行優先順位と称する
正規化された数をスレッドごとに導出する。一般性を失
うことなく、大きい数が選択順序に関連すると仮定する
ことができる。図５は、実行優先順位ｅｐ（５０）の計
算全体に寄与するさまざまなパラメータを示す図であ
る。スレッドＴ_jは、ある基本優先順位ｂｐ（Ｔ_j）（５
１）を用いて作成される。ある程度の公平さをもたらす
ために、スレッドＴ_jは、常に基本優先順位ｂｐ（Ｔ_j）
でスケジューリングされるのではなく、すべてのタイム
・スライスについて、時刻ｔでの現優先順位ｃｐ
（Ｔ_j，ｔ）（５２）が、時刻ｔに依存する量０≦ζ
（ｔ）≦ｂｐ（Ｔ_j）（５３）によってスレッドの基本
優先順位ｂｐ（Ｔ_j）を下げることによって計算され
る。したがって、現優先順位ｃｐ（Ｔ_j，ｔ）は、ある
優先順位区間≦ｂｐ（Ｔ_j）に含まれる。通常、ζ
（ｔ）は、簡単な低下方式を使用して実施される。キャ
ッシュ類縁性に基づかないスケジューリングでは、実行
優先順位は、次式の現優先順位に等しい。ｅｐ（Ｔ_j，ｔ）＝ｃｐ（Ｔ_j，ｔ）＝ｂｐ（Ｔ_j）−ζ（Ｔ_j，ｔ）（式１）

【００３３】本発明の下では、プロセッサＰ_iに対する
スレッドＴ_jのキャッシュ類縁性ＣＡ（Ｔ_j，Ｐ_i）が、
所与のプロセッサＰ_iでのスレッドＴ_jの実行優先順位を
計算する時に考慮されるので、同一時刻の同一スレッド
の実行優先順位の計算が、異なるプロセッサで異なる値
を生じる可能性があることが暗示される。具体的に言う
と、スレッドの現優先順位ｃｐ（Ｔ_j，ｔ）（５２）は
プロセッサ依存であり、各スケジューリング・ポイント
でΔｐ（５５）（０≦Δｐ＜ΔＰ）だけ増やされる（５
４）。ΔＰは、この形でスレッドが増やすことのできる
優先順位レベルの最大値である。Δｐは、単調関数Ψ
（ＣＡ（Ｔ_j，Ｐ_i））（５６）を介してキャッシュ類縁
性ＣＡ（Ｔ_j，Ｐ_i）（５７）から計算される。ＣＡ（Ｔ
_j，Ｐ_i）自体は、単調関数Θ（ＣＦＰ（Ｔ_j，Ｐ_i））
（５８）を介して、本発明の装置によって測定されるス
レッドＴ_jのキャッシュ・フットプリントＣＦＰ（Ｔ_j，
Ｐ_i）（５９）から計算される。したがって、この実行
優先順位は、スレッドの基本優先順位、時刻およびプロ
セッサの関数であり、後者は、プロセッサに対する類縁
性によって表現される。ｅｐ（Ｐ_i，Ｔ_j，ｔ）＝ｃｐ（Ｔ_j，ｔ）＋Δｐ（式２）ｃｐ（Ｔ_j，ｔ）＝ｂｐ（Ｔ_j）−ζ（Ｔ_j，ｔ） Δｐ＝Ψ（Θ（ＣＦＰ（Ｐ_i，Ｔ_j））

【００３４】これを具体的な文脈に移すために、本発明
の装置を一般的な公平なＵＮＩＸベースのスケジューラ
に統合する方法を例によって示す。本発明は、本明細書
で説明する統合に制限されるものではないことに留意さ
れたい。そうではなくて、当業者は、他のスケジューリ
ング・アルゴリズムにこの戦略を組み込むことができる
はずである。これによって、参考文献［２］が、参照に
よって本明細書に組み込まれる。図６に示されているの
は、スケジューリング状態の主要部分である中央ディス
パッチ・ベクトルまたはディスパッチ待ち行列（６０）
である。スケジューリング状態は、すべてのプロセッサ
によって共用され、スケジューリング状態へのアクセス
は、ロックまたは他の既知の機構を使用して適宜調整さ
れる。これが必要になるのは、現在走行中のスレッドが
自主的に別のスレッドにプロセッサを明け渡す時か、こ
のプロセッサで現在走行中のスレッドのタイム・スライ
スが満了した時のいずれかに、スケジューラのコードが
すべてのプロセッサで実行されるからである。ディスパ
ッチ待ち行列（６０）は、概念上は、待ち行列Ｑ_iの待
ち行列として編成され、効果的には、待ち行列Ｑ_i（６
１ａないし６１ｚ）の配列として編成され、各待ち行列
Ｑ_iは、それぞれがスレッドの優先順位や保存されたレ
ジスタなどの状態を保持するスレッド制御ブロック（Ｔ
ＣＢ）（６２ａないし６２ｚ）の組をリンクする。この
ベクトルにはmax個の優先順位があり、したがって、max
個の待ち行列がある。スレッドＴ_jに関連するＴＣＢ
_jは、Ｔ_jの走行の準備ができており、現時刻ｔにその現
優先順位ｃｐ（Ｔ_j，ｔ）がＰＲＩＯ_i（ただし、０≦ｉ
＜_max）である場合に、Ｑ_iに待ち行列化される。ＴＣＢ
_jによって表されるスレッドＴ_jは、基本優先順位ｂｐ
（Ｔ_j）を用いて作成され、ＰＲＩＯ_max／２≦ｂｐ（Ｔ
_j）＜ＰＲＩＯ_max−ΔＰである。スレッドのｃｐ
（Ｔ_j，ｔ）は、０または（ｂｐ（Ｔ_j）−ＰＲＩＯ_max
／２）のいずれかになるまで、タイム・スライスごとに
デクリメントされ、０または（ｂｐ（Ｔ_j）−ＰＲＩＯ
_max／２）になった時点で、もう一度ｂｐ（Ｔ_j）にリセ
ットされる。

【００３５】図６には、スケジューラがスレッドのキャ
ッシュ類縁性に基づいてスレッドの実行優先順位を高め
る量を示す優先順位間隔ΔＰ（６３）が示されている。
たとえば、キャッシュ類縁性を判定するために再ロード
遷移モデルを仮定する。前の状態を確立するために再取
出が必要になるキャッシュラインの数で測定される再ロ
ード遷移が非常に小さい場合には、スケジューラは、Δ
Ｐ（６３）に近いΔｐ（５４）を与える。再ロード遷移
がクリティカルな閾値未満になる場合には、スケジュー
ラは、優先順位昇格についてそのスレッドを検討しな
い。Θ（ＣＦＰ（Ｔ_j，Ｐ_i））（５８）によって決定さ
れるＣＡ（Ｔ_j，Ｐ_i）は、単に、スレッドのキャッシュ
・フットプリントＣＦＰ（Ｔ_j，Ｐ_i）とそのスレッドの
最後の実行後のキャッシュ・フットプリントＣＦＰ（Ｔ
_j，Ｐ_i）^stopの差すなわち、再ロード遷移になる。Ψ
（ＣＡ（Ｔ_j，Ｐ_i））（５６）は、どちらかといえば単
純な関数（たとえば、シフト演算とビット・マスク演算
か、スレッドのＣＡ値に対するテーブル索引）にするこ
とができる。

【００３６】スレッドの優先順位は、多くともΔＰ６３
だけ増やすことができるので、スケジューラは、待ち行
列Ｑ_cur６１ｂのＴＣＢ６２ａのスレッドから待ち行列
Ｑ_cur _-(Δ_P-1P-1)６１ｄのＴＣＢ６２ｆのスレッドまで
のキャッシュ類縁性を検査および／または計算するだけ
でよい。ＣＡ（Ｔ_j，Ｐ_i）値を導出するために、キャッ
シュ・フットプリントまたはキャッシュ類縁性に関連す
る情報の一部を、プロセッサごとに記憶しなければなら
ない。このプロセッサごとの値のベクトルを、類縁性ユ
ーティリティ・ベクトル（ＡＵＶ）（６４）と呼ぶ。ｏ
ｉｄ割当方法（独自またはグループ）に応じて、ＡＵＶ
を、異なるデータ構造に関連付けなければならない。独
自割当方法では、ＡＵＶは、スレッド制御ブロック（Ｔ
ＣＢ）（６５）自体に関連付けなければならない。グル
ープoid割当方法では、ＡＵＶは、たとえば１プロセス
のすべてのスレッドが同一のoidを共用する場合にはプ
ロセス制御ブロックなど、スレッドのグループに関連す
る共用データ構造（６６）であるシーケンス番号６６に
関連付けなければならない。ＡＵＶ（６４）は、下で説
明するようにさまざまなセマンティックスを仮定するこ
とができる。従来技術の節で説明したタイムスタンプ・
ベースのアルゴリズムでは、スレッドが最後に走行した
プロセッサのビットを立てるか、最後の実行が古すぎる
場合にはビット・ベクトルを０にするという形のビット
・ベクトルがＡＵＶとして十分である。この場合、ＡＵ
Ｖベクトルの各項目ＡＵＶ［ｉ］は、ビットｉとして表
現され、２進キャッシュ類縁性値が格納される。再ロー
ド遷移モデルの場合には、ＡＵＶ［ｉ］に、プロセッサ
Ｐ_i上での最後の実行を停止した時のスレッドのキャッ
シュ・フットプリントが格納される。

【００３７】スケジューリング・アルゴリズムがプロセ
ッサＰ_i上で実行される（たとえば、現在走行中のスレ
ッドによる自主的な明渡しに起因するか、タイマ割込み
に起因して）時には、スケジューラは、待ち行列Ｑ_cur
からＱ_cur-Δ_pまでのすべてのスレッドＴ_jを検査し、そ
のｃｐ（Ｔ_j，Ｐ_i）をΨ（Θ（ＣＦＰ（Ｔ_j，Ｐ_i）））
だけ増やし、最大値を判定しなければならない。すべて
のスレッドのＣＡ（Ｔj，Ｐi）値を得るために、スケジ
ューラは、まず、スレッドごとに「getusage（Ｔ_j.oi
d）」を呼び出すことによって、各スレッドＴ_jのキャッ
シュ・フットプリントを取り出さなければならない。

【００３８】したがって、ほぼ同一の現優先順位を有す
る複数のスレッドが、以前に走行したのと同一のプロセ
ッサで反復してスケジューリングされる傾向を有し、性
能の改善がもたらされる。現優先順位ｃｐ（Ｔ_j，ｔ)の
ζ（Ｔ_j,ｔ）だけの低下は、非常に高い類縁性を有する
同等のスレッドの実行優先順位が、最終的にはキャッシ
ュ類縁性の低いスレッドの実行優先順位より低くなり、
プロセッサの公平で応答性のよいスケジューリングが保
証されることを意味する。

【００３９】これから、キャッシュ監視ユニットとの対
話の数を減らすために、キャッシュ類縁性ユーティリテ
ィ状態を維持し、この状態を検査する方法を説明する。
このような減少は、ＣＭＵ照会のオーバーヘッドが大き
い場合に重要になる。これらの方法は、どれもが例外な
く適用可能ではなく、選択されたoid割当アルゴリズム
に依存する。

【００４０】各スレッドが独自のoidを維持する場合に
は、以下の最適化を適用することができる。この場合に
関連するデータ構造を、図６の符号（６５）に示す。独
自oidを有するスレッドの場合、プロセッサＰ_iに対する
そのスレッドのキャッシュ・フットプリントＣＦＰ（Ｔ
_j，Ｐ_i）およびキャッシュ類縁性ＣＡ（Ｔ_j，Ｐ_i）は、
そのスレッドがＰ_i上で走行しない場合に増加する可能
性がないことは当業者にとって明白である。したがっ
て、スケジューラは、（ａ）最後に走行したスレッドＴ
_jのタイム・スライスの終りにＣＡ（Ｔ_j，Ｐ_i）^lastを
計算し、（ｂ）ｅｐｍａｘがこれまでに見つかった最大
の実行優先順位であるものとして、ｃｐ（Ｖ_j）＋Ψ（ＣＡ（Ｔ_j，Ｐ_i）^last）＞ｅｐｍａｘ（式３）である場合に限って、スレッド選択フェーズ中にＣＡ
（Ｔ_j，Ｐ_i）を再計算すれば十分である。この方式で
は、新しいスレッドが、ＣＡ（Ｔ_j，Ｐ_i）^lastを最大値
に格納されなければならない。このアルゴリズムは、類
縁性の低いスレッドの場合に、各再取出によって新たに
計算されるＣＡ（Ｔ_j，Ｐ_i）^lastが小さくなることが保
証されるので、ＣＦＰが限られた回数（通常は１回）だ
け再取出（「getusage」）されるという振る舞いをもた
らす。キャッシュ類縁性の高いスレッドの場合、ＣＦＰ
は、スケジューリング処理中により頻繁に再取出され
る。

【００４１】シーケンス番号（６６）を使用するスレッ
ド・グループ化の場合には、上の前提があてはまらな
い。しかし、スケジューリング時点でのＣＭＵ要求の数
は、待ち行列Ｑ_cur６１ｂから待ち行列Ｑ_cur-(Δ_P-1)
６１ｄまでの組で表されるスレッド・グループの数まで
減らすことができる。プロセッサごとのベクトルＡＵＶ
は、同一スレッド・グループのすべてのスレッドに共通
の別のデータ構造（６７）、たとえばプロセス記述子ブ
ロックに格納される。さらに、好ましくはスケジューリ
ングの試みのたびにインクリメントされるプロセッサご
とのシーケンス番号（６６）であるタイム・スタンプ
は、oidによって識別されるグループ記述子ブロックに
ついて所与のプロセッサ上でＣＦＰが最後に読み取られ
た時を示す。各スケジューリング・サイクルで、所与の
スレッド・グループのＣＦＰは、１回だけすなわち、そ
のシーケンス番号（６６）がスケジューリング・サイク
ルの現シーケンス番号と一致しない時に、読み取られな
ければならない。

【００４２】上の最適化がどれも所望されない場合に
は、以下の近似を使用することができる。これは、独自
oid方法とグループ化oid割当方法のどちらにも適用可能
である。すべての単一のスケジューリング・サイクル
で、選ばれる資格のあるスレッドまたはスレッド・グル
ープのキャッシュ・フットプリントにアクセスするので
はなく、スケジューラは、所与のスレッドまたはスレッ
ド・グループＴ_jについて、周期的（たとえばｎスケジ
ューリング・サイクルごと）にＣＦＰ（Ｔ_j，Ｐ_i）を取
得することができる。それ以外のすべてのスケジューリ
ング・サイクルでは、スケジューラは、従来技術の節で
説明したＣＦＰの近似を使用することができる。たとえ
ば、再ロード遷移方法では、スケジューラは、１スケジ
ューリング・サイクルあたり１回だけ読み取る必要があ
るキャッシュ・ミス情報を使用し、マルコフ連鎖を使用
して、最後にＣＦＰ（Ｔ_j，Ｐ_i）を読み取った後のキャ
ッシュ・ミスの数に基づいてＣＦＰ（Ｔ_j，Ｐ_i）の変化
を推定することができる。これによって、スケジューラ
・アルゴリズムに推定要因が導入されるが、従来技術の
節で説明したスケジューリングの実践と比較して、この
方法は、従来技術の節で導入されたものと同一の問題を
こうむらない。まず、ＣＦＰ（Ｔ_j，Ｐ_i）は、ごくわず
かな潜在的なΔｐにマッピングされるので、互に近いＣ
ＦＰ値は、同一のΔｐにマッピングされる可能性が非常
に高い。したがって、ＣＦＰ（Ｔ_j，Ｐ_i）の推定のわず
かな誤差は、なんの結果ももたらさない。推定されたＣ
ＦＰ（Ｔ_j，Ｐ_i）の値は、実際に測定されたＣＦＰ（Ｔ
_j，Ｐ_i）に周期的にリセットされるので、わずかな御差
が累算されて大きな誤差になる可能性はなく、Δｐ計算
の結果に実際には影響しない。

【００４３】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００４４】（１）各プロセッサが少なくとも１つの関
連キャッシュを有する、複数のプロセッサを有するコン
ピュータ・システムにおいて、ａ．前記プロセッサのそれぞれのスレッドのそれぞれに
ついてキャッシュ・フットプリントを測定するステップ
と、ｂ．ステップａで判定されたそれぞれのキャッシュ・フ
ットプリントを使用することによって、前記プロセッサ
のそれぞれに関する前記スレッドのそれぞれの類縁性を
判定するステップとを含み、前記プロセッサのそれぞれ
での前記スレッドのそれぞれの実行が、少なくともその
類縁性に従って実行のためにスケジューリングされる、
前記プロセッサのそれぞれでの前記スレッドのスケジュ
ーリングの方法。（２）前記キャッシュ・フットプリント測定が、キャッ
シュ・ミスのたびに更新される、上記（１）に記載の方
法。（３）前記キャッシュのそれぞれの各スレッドの前記キ
ャッシュ・フットプリントが、前記各キャッシュから前
記各スレッドによって取り出される活動状態のキャッシ
ュラインの数によって測定される、上記（１）に記載の
方法。（４）スレッドによって取り出される活動状態のキャッ
シュの前記数が、ａ．前記キャッシュに取り出されるキャッシュラインを
所有するスレッドを識別する、キャッシュごとの所有権
識別子レジスタと、ｂ．前記キャッシュラインのそれぞれを所有するスレッ
ドを示す、キャッシュラインごとの所有者識別子と、ｃ．前記スレッドのうちの１つが前記キャッシュのうち
の対応する１つに関して有する前記キャッシュ・フット
プリントをベクトルの各要素が示す、キャッシュごとの
カウンタ・ベクトルと、ｄ．前記スレッドのそれぞれの上記カウンタ・ベクトル
の内容を取り出すためのキャッシュごとの方法とを維持
することによって測定される、上記（３）に記載の方
法。（５）前記スレッドの数が、上記カウンタ・ベクトルの
サイズを超えることができる、上記（４）に記載の方
法。（６）前記スレッドのそれぞれが、プロセッサに対する
類縁性の関数である実行優先順位を割り当てることによ
って、前記プロセッサに実行のためにスケジューリング
される、上記（１）に記載の方法。（７）前記スレッドのそれぞれについて、前記実行優先
順位が、スレッドごとにユーザが割り当てる基本優先順
位、時刻およびキャッシュ類縁性の組み合わせである、
上記（１）に記載の方法。（８）前記プロセッサのうちの１つで実行中のスケジュ
ーラが、前記スレッドのうちの１つが最も高い実行優先
順位を生ずるかどうかの判定を、すべてのスケジューリ
ング・サイクルに前記スレッドの実行優先順位を再計算
するのではなく、前記１つのスレッドの前に計算された
類縁性に基づいて行うことができる、上記（１）に記載
の方法。（９）ａ．プロセッサのそれぞれに関するスレッドのそ
れぞれのキャッシュ・フットプリントを測定するステッ
プと、ｂ．ステップａで判定されたそれぞれのキャッシュ・フ
ットプリントを使用することによって、前記プロセッサ
のそれぞれに関する前記スレッドのそれぞれの類縁性を
判定するステップとを含み、前記プロセッサのそれぞれ
での前記スレッドのそれぞれの実行が、少なくともその
類縁性に従って実行のためにスケジューリングされる、
複数のプロセッサを有するコンピュータ・システムでス
レッドをスケジューリングするための方法ステップを実
行するために計算機によって実行可能な命令のプログラ
ムを具体的に実施する、計算機によって読み取ることの
できるプログラム記憶装置。

【図面の簡単な説明】

【図１】統合キャッシュ・アーキテクチャを有する共有
メモリ型多重プロセッサの概略を示す図である。

【図２】本発明の多重プロセッサに統合化されたキャッ
シュ・アーキテクチャの高水準の概略を示す図である。

【図３】本発明のキャッシュ監視ユニットの内部構造の
概略を示す図である。

【図４】本発明によるキャッシュ監視ユニットの更新動
作の概略を示す図である。

【図５】次に実行するスレッドを選択するために、所与
のプロセッサ上のスレッドの実行優先順位を判定するの
に使用される一般的なアルゴリズムを示す図である。

【図６】スレッドのうちの１つのためのディスパッチ待
ち行列と類縁性ベクトルを含み、スケジューラの概略を
示す図である。

【符号の説明】２０キャッシュ監視ユニット（ＣＭＵ）２１キャッシュ２２ＣＰＵ２３キャッシュ・メモリ・インターフェース２７キャッシュＣＭＵ通信バス（Ｃ³バス）２８ＣＰＵキャッシュ・インターフェース２９ＣＰＵへのインターフェース３０ oid-reg ３１ oid ３２ cacheline_oidベクトル３３ counter_vector ３４Ｃ³バス・インターフェース３５ＣＭＵ更新ユニット３６ＣＰＵインターフェース

───────────────────────────────────────────────────── フロントページの続き (72)発明者フベルトゥス・フランケアメリカ合衆国10567 ニューヨーク州コートランド・マナーグリーンローン・ロード 27 (72)発明者プラタプ・チャンドラ・パットナイクアメリカ合衆国10562 ニューヨーク州オシニングバーンズ・ストリート 213 (72)発明者オラン・ヤコフ・クリーガーアメリカ合衆国02146 マサチューセッツ州ブルックライングリーンオート・ストリート 50 (72)発明者ユーリー・アンドリー・バランスキアメリカ合衆国10548 ニューヨーク州モントローズキングズ・フェリー・ロード 63

Claims

【特許請求の範囲】

【請求項１】各プロセッサが少なくとも１つの関連キャ
ッシュを有する、複数のプロセッサを有するコンピュー
タ・システムにおいて、ａ．前記プロセッサのそれぞれのスレッドのそれぞれに
ついてキャッシュ・フットプリントを測定するステップ
と、ｂ．ステップａで判定されたそれぞれのキャッシュ・フ
ットプリントを使用することによって、前記プロセッサ
のそれぞれに関する前記スレッドのそれぞれの類縁性を
判定するステップとを含み、前記プロセッサのそれぞれ
での前記スレッドのそれぞれの実行が、少なくともその
類縁性に従って実行のためにスケジューリングされる、
前記プロセッサのそれぞれでの前記スレッドのスケジュ
ーリングの方法。
【請求項２】前記キャッシュ・フットプリント測定が、
キャッシュ・ミスのたびに更新される、請求項１に記載
の方法。
【請求項３】前記キャッシュのそれぞれの各スレッドの
前記キャッシュ・フットプリントが、前記各キャッシュ
から前記各スレッドによって取り出される活動状態のキ
ャッシュラインの数によって測定される、請求項１に記
載の方法。
【請求項４】スレッドによって取り出される活動状態の
キャッシュの前記数が、ａ．前記キャッシュに取り出されるキャッシュラインを
所有するスレッドを識別する、キャッシュごとの所有権
識別子レジスタと、ｂ．前記キャッシュラインのそれぞれを所有するスレッ
ドを示す、キャッシュラインごとの所有者識別子と、ｃ．前記スレッドのうちの１つが前記キャッシュのうち
の対応する１つに関して有する前記キャッシュ・フット
プリントをベクトルの各要素が示す、キャッシュごとの
カウンタ・ベクトルと、ｄ．前記スレッドのそれぞれの上記カウンタ・ベクトル
の内容を取り出すためのキャッシュごとの方法とを維持
することによって測定される、請求項３に記載の方法。
【請求項５】前記スレッドの数が、上記カウンタ・ベク
トルのサイズを超えることができる、請求項４に記載の
方法。
【請求項６】前記スレッドのそれぞれが、プロセッサに
対する類縁性の関数である実行優先順位を割り当てるこ
とによって、前記プロセッサに実行のためにスケジュー
リングされる、請求項１に記載の方法。
【請求項７】前記スレッドのそれぞれについて、前記実
行優先順位が、スレッドごとにユーザが割り当てる基本
優先順位、時刻およびキャッシュ類縁性の組み合わせで
ある、請求項１に記載の方法。
【請求項８】前記プロセッサのうちの１つで実行中のス
ケジューラが、前記スレッドのうちの１つが最も高い実
行優先順位を生ずるかどうかの判定を、すべてのスケジ
ューリング・サイクルに前記スレッドの実行優先順位を
再計算するのではなく、前記１つのスレッドの前に計算
された類縁性に基づいて行うことができる、請求項１に
記載の方法。
【請求項９】ａ．プロセッサのそれぞれに関するスレッ
ドのそれぞれのキャッシュ・フットプリントを測定する
ステップと、ｂ．ステップａで判定されたそれぞれのキャッシュ・フ
ットプリントを使用することによって、前記プロセッサ
のそれぞれに関する前記スレッドのそれぞれの類縁性を
判定するステップとを含み、前記プロセッサのそれぞれ
での前記スレッドのそれぞれの実行が、少なくともその
類縁性に従って実行のためにスケジューリングされる、
複数のプロセッサを有するコンピュータ・システムでス
レッドをスケジューリングするための方法ステップを実
行するために計算機によって実行可能な命令のプログラ
ムを具体的に実施する、計算機によって読み取ることの
できるプログラム記憶装置。