JP2001521215A

JP2001521215A - マルチスレッド式プロセッサでスレッド切替えイベントを選択するための方法および装置

Info

Publication number: JP2001521215A
Application number: JP2000517334A
Authority: JP
Inventors: ボルケンハーゲン、ジョン、マイケル; アイケマイヤー、リチャード、ジェームズ; フリン、ウィリアム、トーマス; レヴィンステイン、シェルダン、ベマード; ウォットレング、アンドリュー、ヘンリー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-10-23
Filing date: 1998-10-14
Publication date: 2001-11-06
Anticipated expiration: 2018-10-14
Also published as: HUP0100013A3; CA2299348A1; CA2299348C; PL340095A1; TW409227B; KR20010031167A; KR100403658B1; IL134823A; WO1999021081A1; EP1029269B1; CN1112636C; CN1276888A; PL193285B1; IL134823A0; US6697935B1; HUP0100013A2; JP4006180B2; EP1029269A1

Abstract

(57)【要約】【課題】マルチスレッド式プロセッサ（１００）とスレッド切替え論理（４００）とを含むデータ処理システムで、コンピュータ処理動作を実行するためのシステムおよび方法。【解決手段】マルチスレッド式プロセッサは、独立に実行することのできる命令の複数のスレッドの間で切り替える能力を有する。各スレッドは、その実行状態に依存する状態を、スレッド状態レジスタ（４４０）内に有する。スレッド切替え論理には、スレッド切替えが発生する条件を格納するためのスレッド切替え制御レジスタ（４１０）が含まれる。スレッド切替え論理は、タイムアウト・レジスタ（４３０）を有し、これによって、マルチスレッド式プロセッサ内のアクティブ・スレッドの実行がプログラム可能な時間期間を超える時にスレッド切替えが強制される。スレッド切替え論理は、マルチスレッド式プロセッサ内のスレッドの間のスレッド切替えの反復を防ぐために、フォワード・プログレス・カウンタ・レジスタ（４２０）も有する。スレッド切替え論理は、異なるスレッドの優先順位を変更でき、したがって、スレッド切替えイベントを取り替えることができるソフトウェア・マネージャ（４６０）にも応答する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】

関連特許出願データ本発明は、下記の米国特許出願に関連し、その要旨は参照によって本明細書に
組み込まれる：（１）米国特許出願第０８／９５７００２号明細書、（２）米国
特許出願第０８／９５６８７５号明細書、（３）米国特許出願第０８／９５８７
１８号明細書、（４）米国特許出願第０８／９５６５７７号明細書、（５）米国
特許出願第７７３５７２号明細書、（６）米国特許出願第７６１３７８号明細書
、（７）米国特許出願第７６１３８０号明細書、（８）米国特許出願第７６１３
７９号明細書、（９）米国特許出願第４７３６９２号明細書、（１０）米国特許
第５７７８２４３号明細書。

【０００２】本発明は、全般的にはコンピュータ・データ処理システムのための改良された
方法およびその装置に関し、具体的には、改良された高性能マルチスレッド式コ
ンピュータ・データ処理システムと、そのプロセッサのハードウェア内で実施さ
れる方法に関する。

【０００３】

【従来の技術】

現代のコンピュータの基本構造には、外部の世界との間で情報を通信するため
の周辺装置が含まれ、そのような周辺装置は、キーボード、モニタ、テープ駆動
装置、ネットワークに接続された通信回線などとすることができる。やはりコン
ピュータの基本構造に含まれるのが、外部の世界との間でこの情報を受け取り、
処理し、配送するのに必要なハードウェアであり、これには、バス、メモリ・ユ
ニット、入出力コントローラ、記憶装置、少なくとも１つの中央処理装置（ＣＰ
Ｕ）などが含まれる。ＣＰＵは、システムの頭脳である。ＣＰＵは、コンピュー
タ・プログラムを含む命令を実行し、他のシステム構成要素の動作を指示する。

【０００４】コンピュータのハードウェアの観点から、ほとんどのシステムは、基本的に同
一の形で動作する。プロセッサは、実際には、算術演算、論理比較、ある位置か
ら別の位置へのデータの移動など、非常に単純な動作をすばやく実行する。これ
らの単純な動作を大量に実行するようにコンピュータに指示するプログラムが、
コンピュータが洗練されたことを行っているという錯覚をもたらす。しかし、コ
ンピュータの新機能または改良された機能としてユーザに知覚されるものは、実
際には、同一の単純な動作をはるかに高速に実行する計算機である場合がある。
したがって、コンピュータ・システムに対する改良を継続するためには、これら
のシステムをさらに高速にする必要がある。

【０００５】コンピュータ・システムの総合速度の尺度の１つをスループットとも称するが
、これは、単位時間あたりに実行される動作の数として測定される。概念上、シ
ステム速度に対するすべての可能な改良のうちで最も単純なものは、さまざまな
構成要素のクロック速度、特にプロセッサのクロック速度を高めることである。
したがって、すべてが２倍の速度で走行するが、それ以外は正確に同一の形で機
能する場合、そのシステムは、所与のタスクを半分の時間で実行することになる
。以前に別個の構成要素から構成されていたコンピュータ・プロセッサは、構成
要素のサイズの縮小と個数の減少とによって大幅に高速に動作するようになり、
最終的には、プロセッサ全体が、単一チップ上の集積回路としてパッケージされ
るようになった。サイズの縮小によって、プロセッサのクロック速度を高めるこ
とが可能になり、したがって、システム速度を高めることが可能になった。

【０００６】集積回路から得られる速度の大幅な向上にもかかわらず、さらに高速のコンピ
ュータ・システムに対する需要がいまだに存在する。ハードウェア設計者は、よ
り大規模の集積、回路のサイズのさらなる縮小および他の技法によって、さらな
る速度の向上を得ることができた。しかし、設計者は、物理的なサイズの縮小を
際限なく継続することは不可能であり、継続的にプロセッサ・クロック速度を高
めることに限界があると考えている。したがって、コンピュータ・システムの総
合速度をさらに改善するために、他の手法に注意が向けられた。

【０００７】クロック速度を変更しなくても、複数のプロセッサを使用することによってシ
ステム速度を改善することが可能である。集積回路チップにパッケージされた個
々のプロセッサのコストが適度であるので、これが実用的になった。スレーブ・
プロセッサを使用すると、作業をＣＰＵからスレーブ・プロセッサにオフロード
することによって、システム速度がかなり改善される。たとえば、スレーブ・プ
ロセッサは、通常は、入出力装置の通信および制御など、反復的で単純な専用プ
ログラムを実行する。複数のＣＰＵを単一のコンピュータ・システム、通常は複
数のユーザを同時にサービスするホストベース・システム内に配置することも可
能である。異なるＣＰＵのそれぞれが、異なるユーザのために異なるタスクを別
々に実行することができ、したがって、複数のタスクを同時に実行するシステム
の総合速度が高まる。しかし、アプリケーション・プログラムなどの単独のタス
クが実行される速度を改善することは、はるかに困難である。複数のＣＰＵの間
でさまざまな機能の実行および結果の配布を調整することは、注意を要する作業
である。スレーブ入出力プロセッサの場合、機能が事前に定義され、制限されて
いるので、これはそれほど困難ではないが、汎用アプリケーション・プログラム
を実行する複数のＣＰＵの場合、システム設計者がプログラムの詳細を事前に知
らないことが一因となって、機能を調整することがより困難になる。ほとんどの
アプリケーション・プログラムは、プロセッサによって実行されるステップの単
一の経路または流れに従う。この単一の経路を複数の並列経路に分割することが
可能である場合もあるが、それを行うための万能のアプリケーションは、まだ研
究中である。一般に、複数のプロセッサによる並列処理のために長いタスクを小
さいタスクに分割することは、コードを記述するソフトウェア・エンジニアによ
って、ケースバイケースで行われる。この、その場限りの手法は、必ずしも反復
的でなく、予測可能でもない商業トランザクションを実行する場合に特に問題が
ある。

【０００８】したがって、複数のプロセッサによって総合的なシステム性能は改善されるが
、個々のＣＰＵの速度を改善する理由はまだ多数存在する。ＣＰＵクロック速度
が与えられた場合、１クロック・サイクルあたりに実行される命令の「平均」数
を増やすことによって、ＣＰＵの速度すなわち１秒あたりに実行される命令の数
をさらに増やすことが可能である。高性能単一チップ・マイクロプロセッサのた
めの一般的なアーキテクチャが、高速実行のために頻繁に使用される命令の小さ
い簡略されたセットを特徴とする縮小命令セット・コンピュータ（ＲＩＳＣ）ア
ーキテクチャであり、これらの単純な動作は、前に述べたものより高速に実行さ
れる。半導体技術が進歩するにつれて、ＲＩＳＣアーキテクチャの目標は、計算
機の各クロック・サイクルに１つまたは複数の命令を実行できるプロセッサの開
発になってきた。１クロック・サイクルあたりに実行される命令の「平均」数を
増やすためのもう１つの手法が、ＣＰＵ内のハードウェアを変更することである
。この命令あたりのクロック数というスループット尺度は、高性能プロセッサの
アーキテクチャの特徴を表すのに一般的に使用されている。命令パイプライン化
とキャッシュ・メモリが、これを達成することを可能にしたコンピュータ・アー
キテクチャの特徴である。パイプライン命令実行を用いると、前に発行された命
令が完了する前に、後続の命令の実行を開始できるようになる。キャッシュ・メ
モリは、頻繁に使用されるデータおよび他のデータをプロセッサの近くに格納し
、これによって、ほとんどの場合に主記憶のフル・アクセス・タイムを待つこと
なしに、命令実行を継続できるようにするものである。並列に実行する命令を見
つけるためのルック・アヘッド・ハードウェアを有する複数の実行ユニットを用
いるいくつかの改良も示されてきた。

【０００９】通常のＲＩＳＣプロセッサの性能は、スーパースカラ・コンピュータおよびＶ
ＬＩＷ（Very Long Instruction Word）コンピュータでさらに高めることができ
、これらのコンピュータの両方が、１プロセッサ・サイクルあたりに複数の命令
を並列に実行する。これらのアーキテクチャでは、複数の機能ユニットまたは実
行ユニットを設けて、複数のパイプラインを並列に走行させる。スーパースカラ
・アーキテクチャでは、命令は、インオーダー（in-order）またはアウトオブオ
ーダー（out-of-order）で完了できる。インオーダー完了とは、ある命令の前に
ディスパッチされたすべての命令が完了するまでは、その命令を完了できないこ
とを意味する。アウトオブオーダー完了とは、事前に定義された規則が満たされ
る限り、ある命令の前のすべての命令が完了する前に、その命令が完了すること
を許可されることを意味する。

【００１０】スーパースカラ・システムでのインオーダー実行とアウトオブオーダー実行の
両方について、パイプラインは、ある状況の下でストールする。前にディスパッ
チされ、まだ完了していない命令の結果に依存する命令が、パイプラインのスト
ールを引き起こす可能性がある。たとえば、必要なデータがキャッシュ内にない
、すなわち、キャッシュ・ミスを引き起こすロード／ストア命令に依存する命令
は、そのデータがキャッシュ内で使用可能になるまでは実行できない。継続実行
のため、また、高いヒット率すなわちデータがキャッシュ内ですぐに使用可能で
ある回数と比較したデータに対する要求の回数を維持するために必要な、キャッ
シュ内の必要不可欠なデータを維持することは、特に大きいデータ構造を伴う計
算の場合には簡単ではない。キャッシュ・ミスは、数サイクルにわたるパイプラ
インのストールを引き起こす可能性があり、データがほとんどの時間に使用可能
でない場合には、メモリ待ち時間の総量が厳しくなる。主記憶に使用される記憶
装置は、高速になりつつあるが、そのようなメモリ・チップとハイエンド・プロ
セッサの間の速度ギャップは、ますます大きくなりつつある。したがって、現在
のハイエンド・プロセッサ設計での実行時間のかなりの量が、キャッシュ・ミス
の解決を待つのに費やされ、これらのメモリ・アクセスの遅れが、プロセッサ実
行時間のうちで占める比率がますます大きくなっている。

【００１１】ＣＰＵ内のハードウェアの効率を改善するためのもう１つの技法が、処理タス
クを、スレッドと称する独立に実行可能な命令のシーケンスに分割することであ
る。この技法は、スレッドが同一のプロセッサによって実行される点を除いて、
異なるプロセッサによる独立実行のために大きいタスクを小さいタスクに分割す
ることに関連する。ＣＰＵが、複数の理由のいずれかのために、これらのスレッ
ドのうちの１つの処理または実行を継続できない時には、ＣＰＵは、別のスレッ
ドに切り替え、そのスレッドを実行する。これが、メモリ待ち時間を許容するた
めにハードウェア・マルチスレッディングを組み込んだ、本明細書に記載の発明
の要旨である。コンピュータ・アーキテクチャ界で定義される用語「マルチスレ
ッディング」は、複数の関連するスレッドに分割された１つのタスクを意味する
ソフトウェアでのこの用語の使用と同一ではない。アーキテクチャ的定義では、
スレッドは、独立とすることができる。したがって、この２つの用語の使用を区
別するために、「ハードウェア・マルチスレッディング」が使用されることがし
ばしばである。本発明は、ハードウェア・マルチスレッディングを含むように用
語マルチスレッディングを組み込む。

【００１２】マルチスレッディングを用いると、プロセッサのパイプラインが、現在のスレ
ッドに関してパイプライン・ストール状態が検出された時に、異なるスレッド上
の有用な作業を行えるようになる。マルチスレッディングを用いると、非パイプ
ライン・アーキテクチャを実施するプロセッサが、現在のスレッドに関してスト
ール状態が検出された時に、別のスレッドに関して有用な作業を行えるようにも
なる。マルチスレッディングには、２つの基本形態がある。従来の形態では、プ
ロセッサ内でＮ個のスレッドまたは状態を保ち、サイクル単位でスレッドをイン
ターリーブする。これによって、単一のスレッド内の命令が分離されるので、す
べてのパイプライン依存性が除去される。本発明によって考慮される、マルチス
レッディングのもう１つの形態では、いくつかの長い待ち時間のイベントの際に
スレッドをインターリーブする。

【００１３】マルチスレッディングの従来の形態では、スレッドごとのプロセッサ・レジス
タの複製が用いられる。たとえば、商品名PowerPC（商標）の下で販売されるアーキテクチャを実施するプロセッサがマルチスレッディングを実行するためには
、プロセッサは、Ｎ個のスレッドを走行させるためにＮ個の状態を維持しなけれ
ばならない。したがって、汎用レジスタ、浮動小数点レジスタ、条件レジスタ、
浮動小数点状態および制御レジスタ、カウント・レジスタ、リンク・レジスタ、
例外レジスタ、セーブ／リストア・レジスタおよび特殊目的レジスタが、Ｎ回複
製される。さらに、セグメント・ルックアサイド・バッファなどの特殊バッファ
を複製することができ、また、各項目にスレッド番号のタグを付けることができ
、タグを付けない場合にはスレッド切り替えのたびにフラッシュしなければなら
ない。また、一部の分岐予測機構、たとえば相関レジスタとリターン・スタック
なども、複製しなければならない。幸い、レベル１命令キャッシュ（Ｌ１Ｉ−
キャッシュ）、レベル１データ・キャッシュ（Ｌ１Ｄ−キャッシュ）、命令バ
ッファ、ストア待ち行列、命令ディスパッチャ、機能ユニットまたは実行ユニッ
ト、パイプライン、変換ルックアサイド・バッファ（ＴＬＢ）および分岐履歴テ
ーブルなどのプロセッサのより大きい機能のうちのいくつかは、複製する必要が
ない。あるスレッドが遅延に遭遇した時に、プロセッサは、すばやく別のスレッ
ドに切り替える。このスレッドの実行は、第１のスレッドでのメモリ遅延とオー
バーラップする。

【００１４】既存のマルチスレッディング技法では、キャッシュ・ミスまたはメモリ参照の
際のスレッド切り替えが説明される。この技法の主な例は、アガーワル（Agarwa
l）他著、「Sparcle: An Evolutionary Design for Large-Scale Multiprocesso
rs」、IEEE Micro Volume 13、No.3、pp.48-60、1993年6月に記載されている。Ｒ
ＩＳＣアーキテクチャで適用される際には、通常は関数呼出しのサポートに使用
される複数のレジスタ・セットが、複数のスレッドを維持するように変更される
。８つのオーバーラップするレジスタ・ウィンドウが、４つのオーバーラップし
ないレジスタ・セットになるように変更され、各レジスタ・セットは、トラップ
およびメッセージ処理のために予約される。このシステムでは、リモート・メモ
リ要求をもたらす第１レベルのキャッシュ・ミスのそれぞれで発生するスレッド
切替えが開示される。このシステムは、当技術分野での進歩を表すが、現代のプ
ロセッサ設計では、プロセッサに付加される複数のレベルのキャッシュ・メモリ
または高速メモリが使用されることがしばしばである。プロセッサ・システムは
、周知のアルゴリズムを使用して、その主メモリ記憶域のどの部分がキャッシュ
の各レベルにロードされるかを決定し、したがって、第１レベルのキャッシュ内
に存在しないメモリ参照が発生するたびに、プロセッサは、第２レベルまたはさ
らに上位のレベルのキャッシュからのそのメモリ参照の取得を試みなければなら
ない。

【００１５】米国特許第５５２４２５０号明細書は、データ・ストリームおよびプロトコル
の処理の問題に対処するものである。同特許では、環境間の切替え時のＣＰＵの
速度を改善するために、複数の組の汎用レジスタおよび特殊目的レジスタが提供
される。同特許では、効率的なスレッド・スケジューリングと、分岐遅延と、性
能および帯域幅の向上をもたらすストアの後の遅延スロットの削除とを容易にす
る、パイプライン・コントローラ、スケジューラ、イベント・システムおよびマ
スカレード・レジスタも提供される。

【００１６】

【発明が解決しようとする課題】

したがって、本発明の目的は、マルチスレッド式データ処理システムで実施さ
れるハードウェア論理およびレジスタを使用する、マルチレベル・キャッシュ・
システムでのメモリ待ち時間に起因する遅延を減らすことのできる、改良された
データ処理システムを提供することである。

【００１７】

【課題を解決するための手段】

本発明は、命令の２つのスレッドの間で実行を切り替える能力を有するマルチ
スレッド式プロセッサと、任意選択のスレッド切替え条件のソフトウェア・オー
バーライドを有するハードウェア・レジスタで実施されるスレッド切替え論理と
を提供することによって、この目的に対処する。

【００１８】命令のさまざまなスレッドのさまざまな状態を処理することによって、スレッ
ドの間でのプロセッサの使用を最適化できるようになる。プロセッサが命令の第
２のスレッドを実行できるようにすることによって、キャッシュ、メモリ、外部
入出力、直接アクセス記憶装置などのさまざまな記憶要素から第１スレッドのた
めに必要なデータまたは命令を取り出している時に、そうでなければ遊休状態に
なるプロセッサ利用度が高まる。スレッド切替えの条件は、スレッドごとに異な
るものとすることができ、また、ソフトウェア・スレッド制御マネージャの使用
によって処理中に変更することができる。

【００１９】本発明は、イベントを実施できるようにし、マルチスレッド式プロセッサにス
レッドを切り替えさせることのできるビットを含む、ハードウェア・スレッド切
替え制御レジスタを提供する。このハードウェア・レジスタは、ソフトウェア・
スレッド切替え制御よりはるかに高速なので、プロセッサ性能の改善というもう
１つの長所を有する。

【００２０】本発明のもう１つの態様は、マルチスレッド式プロセッサが、複数のプロセッ
サ待ち時間イベントのうちの１つを経験する時に、少なくとも２つの命令のスレ
ッドの間で処理を切り替えることができるマルチスレッド式プロセッサを有する
コンピュータ・システムである。このコンピュータ・システムは、機能的にマル
チスレッド式プロセッサに結合された、命令のスレッドの状態を格納するための
少なくとも１つのスレッド状態レジスタも有し、命令の各スレッドの状態は、プ
ロセッサが各スレッドに処理を切り替える時に変化する。このシステムは、機能
的にスレッド状態レジスタとマルチスレッド式プロセッサに結合された、複数の
スレッド切替え制御イベントを記憶するための少なくとも１つのスレッド切替え
制御レジスタも有し、スレッド切替え制御イベントは、対応する複数のイネーブ
ル・ビットをセットすることによってイネーブルされる。このコンピュータ・シ
ステムには、さらに、マルチスレッド式プロセッサを複数のメモリ要素に接続す
る複数の内部接続が含まれる。マルチスレッド式プロセッサによるメモリ要素の
いずれかへのアクセスが、プロセッサ待ち時間イベントを引き起こし、本発明は
、外部記憶装置、通信装置、コンピュータ・ネットワークまたは入出力装置にマ
ルチスレッド式プロセッサを接続するための少なくとも１つの外部接続も有し、
マルチスレッド式プロセッサによるこれらの装置またはネットワークのいずれか
へのアクセスも、複数のプロセッサ待ち時間イベントを引き起こす。マルチスレ
ッド式プロセッサ内で実行されるスレッドのうちの１つが、プロセッサ待ち時間
イベントのうちの１つが原因で実行を継続できず、そのプロセッサ待ち時間イベ
ントが、そのビットをイネーブルされたスレッド切替え制御イベントである時に
は、マルチスレッド式プロセッサは、別のスレッドに実行を切り替える。

【００２１】スレッド切替え制御レジスタは、複数のビットを有し、このビットのそれぞれ
が、複数のスレッド切替え制御イベントのうちの１つに一意に関連付けられ、ビ
ットのうちの１つがイネーブルされている場合には、そのビットに関連するスレ
ッド切替え制御イベントが、ある命令のスレッドから別の命令のスレッドへのマ
ルチスレッド式プロセッサの切替えを引き起こす。スレッド切替え制御レジスタ
は、プログラム可能である。さらに、特定のビットのイネーブルは、オペレーテ
ィング・ソフトウェアまたはスレッドのうちの１つの命令のいずれかによって、
動的に変更することができる。

【００２２】コンピュータ処理システムは、複数のスレッド切替え制御レジスタを有するこ
とができ、あるスレッド切替え制御レジスタのビット値は、別の前記スレッド切
替え制御レジスタのビット値と異なる。

【００２３】通常は、多数のスレッド切替え制御イベントがあり、これには、たとえば、Ｌ
１データ・キャッシュと、Ｌ２キャッシュと、ダブル・ワード境界をまたぐデー
タの記憶域とのうちの少なくとも１つからのデータ・ミス、Ｌ１命令キャッシュ
と、変換ルックアサイド・バッファとのうちの少なくとも１つからの命令ミス、
主記憶からのデータまたは命令のミス、または、データまたは命令のアドレス変
換のエラーが含まれる。プロセッサの外部の入出力装置へのアクセスまたは別の
プロセッサへのアクセスも、スレッド切替え制御イベントとすることができる。
他のスレッド切替え制御イベントには、複数のスレッドのうちの前記１つが、複
数のスレッドのうちの上記１つの命令が実行されていない状態で、あるマルチス
レッド式プロセッサから切り替えられた回数のフォワード・プログレス・カウン
ト（forward progress count）と、少なくとも１つのプロセッサによって有用な
作業が行われなかったタイムアウト期間が含まれる。

【００２４】本発明のコンピュータ処理システムは、複数の命令のスレッドを処理するため
の手段と、スレッドのうちの１つがプロセッサ待ち時間イベントを経験するので
処理手段がストールする時を示すための手段と、複数のスレッド切替え制御イベ
ントを登録するための手段と、プロセッサ待ち時間イベントが複数のスレッド切
替え制御イベントのうちの１つであるかどうかを判定するための手段とを含む。
処理システムは、プロセッサ待ち時間イベントがスレッド切替え制御イベントで
ある場合に、処理手段が処理を別のスレッドに切り替えることを可能にするため
の手段も含むことができる。

【００２５】本発明は、スレッド切替え制御レジスタの内容を決定するための方法であって
、マルチスレッド式プロセッサがプロセッサ待ち時間イベントのためにストール
するプロセッサ・サイクルの第１の数をカウントするステップと、マルチスレッ
ド式プロセッサが命令の第１スレッドの処理を命令の第２スレッドに切り替える
のに必要なプロセッサ・サイクルの第２の数をカウントするステップと、プロセ
ッサ・サイクルの第１の数がプロセッサ・サイクルの第２の数より大きい場合に
、スレッド切替え制御レジスタ内のイネーブル・ビットをセットすることによっ
て、スレッド切替え制御イベントになるようにプロセッサ待ち時間イベントを割
り当てるステップとを含む方法でもある。その後、イネーブル・ビットがイネー
ブルされている場合に、この方法には、イネーブル・ビットがイネーブルされて
いる場合にマルチスレッド式プロセッサがスレッド切替え制御イベントを経験す
る時に、スレッドを切り替えるために信号を出力するステップが含まれる。

【００２６】本発明のコンピュータ処理の方法には、スレッド状態レジスタにスレッドの状
態を格納するステップと、スレッド切替え制御レジスタに複数のスレッド切替え
制御イベントを格納するステップとも含まれる。スレッドの状態が変化した時に
、信号がスレッド状態レジスタに出力され、スレッドの変化した状態が、複数の
スレッド切替え制御イベントと比較される。変化した状態が、スレッド切替え制
御イベントから生じたものである場合には、信号がマルチスレッド式プロセッサ
に出力されて、実行がそのスレッドから切り替えられる。

【００２７】本発明の他の目的、特徴および特性と、構造の関連する要素の方法、動作およ
び機能と、部分の組合せと、製造の経済性とは、好ましい実施例の以下の詳細な
説明および添付図面から明らかになる。添付図面は、すべてが本明細書の一部を
形成し、同様の符号は、さまざまな図面の対応する部分を示す。

【００２８】本発明自体、ならびにその使用の好ましい態様、さらなる目的および長所は、
下記の添付図面と共に例の実施例の詳細な説明を参照することによって最もよく
理解される。

【００２９】

【発明の実施の形態】

ここで図面、具体的には図１を参照すると、本発明の方法およびシステムの実
施に使用することのできる、コンピュータ・データ処理システム１０の高水準ブ
ロック図が示されている。本発明を使用することのできるコンピュータ・データ
処理システム１０の主要なハードウェア構成要素および相互接続が、図１に示さ
れている。命令を処理するための中央処理装置（ＣＰＵ）１００は、キャッシュ
１２０、１３０および１５０に結合される。命令キャッシュ１５０には、ＣＰＵ
１００による実行のための命令が格納される。データ・キャッシュ１２０および
１３０には、ＣＰＵ１００によって使用されるデータが格納される。キャッシュ
は、主記憶１４０内のランダム・アクセス・メモリと通信する。ＣＰＵ１００お
よび主記憶１４０も、バス・インターフェース１５２を介してシステム・バス１
５５と通信する。さまざまな入出力プロセッサ（ＩＯＰ）１６０ないし１６８が
、システム・バス１５５に付加され、直接アクセス記憶装置（ＤＡＳＤ）１７０
、テープ駆動装置１７２、遠隔通信回線１７４、ワークステーション１７６およ
びプリンタ１７８などのさまざまな記憶装置および入出力装置との通信をサポー
トする。図１は、高水準でコンピュータ・データ処理システム１０の代表的な構
成要素を示す目的のものであり、そのような構成要素の数と種類を変更できるこ
とを理解されたい。

【００３０】ＣＰＵ１００内では、プロセッサ・コア１１０に、特化した機能ユニットが含
まれ、これらの機能ユニットのそれぞれが、命令のシーケンシング、整数を用い
る演算の実行、実数を用いる演算の実行、アドレス可能記憶域と論理レジスタ・
アレイの間の値の転送などのプリミティブ動作を実行する。図２は、プロセッサ
・コア１００を示す図である。好ましい実施例では、データ処理システム１０の
プロセッサ・コア１００は、単一集積回路のパイプライン式スーパースカラ・マ
イクロプロセッサであり、これは、たとえばＩＢＭ社によって販売されるPowerP
C（商標）６０４マイクロプロセッサ・チップなど、商品名PowerPC（商標）の下
で販売されるＲＩＳＣプロセッサの系列などのコンピュータ・アーキテクチャを
使用して実施できる。

【００３１】下で述べるように、データ処理システム１０には、さまざまなユニット、レジ
スタ、バッファ、メモリおよび他のセクションが含まれることが好ましく、これ
らのすべてが集積回路によって形成されることが好ましい。図では、さまざまな
データ経路が簡略化されていることを理解されたい。実際には、さまざまな構成
要素から出入りする多数の別々の並列のデータ経路がある。さらに、本明細書に
記載の発明に密接に関係しないさまざまな構成要素が省略されているが、追加機
能のためにプロセッサに追加ユニットが含まれることを理解されたい。データ処
理システム１０は、縮小命令セット・コンピューティング（ＲＩＳＣ）技法また
は他のコンピューティング技法に従って動作することができる。

【００３２】図２からわかるように、データ処理システム１０のプロセッサ・コア１００に
は、レベル１データ・キャッシュ（Ｌ１Ｄ−キャッシュ）１２０、レベル２（
Ｌ２）キャッシュ１３０、主記憶１４０およびレベル１命令キャッシュ（Ｌ１
Ｉ−キャッシュ）１５０が含まれることが好ましく、これらのすべてが、機能的
にさまざまなバス接続を使用して記憶域制御ユニット２００に相互接続される。
図１からわかるように、記憶域制御ユニット２００には、Ｌ１Ｄ−キャッシュ
１２０およびＬ２キャッシュ１３０と、主記憶１４０と、複数の実行ユニットと
を相互接続するための遷移キャッシュ２１０が含まれる。Ｌ１Ｄ−キャッシュ
１２０とＬ１Ｉ−キャッシュ１５０は、プロセッサ１００の一部としてチップ
上に設けられることが好ましく、主記憶１４０とＬ２キャッシュ１３０は、チッ
プ外に設けられる。メモリ・システム１４０は、プロセッサ・コア１００の内部
または外部とすることのできるランダム・アクセス・メイン・メモリ、プロセッ
サ・コア１００の外部の他のデータ・バッファおよびキャッシュ（存在する場合
）、および、たとえば図１に示されたＤＡＳＤ１７０、テープ駆動装置１７２、
ワークステーション１７６などの他の外部メモリを表す目的のものである。Ｌ２
キャッシュ１３０は、主記憶１４０より高速のメモリ・システムであることが好
ましく、選択されたデータをＬ２キャッシュ１３０に格納することによって、主
記憶１４０への参照の結果として発生するメモリ待ち時間を最小にすることがで
きる。図１からわかるように、Ｌ２キャッシュ１３０および主記憶１４０は、Ｌ
１Ｉ−キャッシュ１５０に直接に、また記憶域制御ユニット２００を介して命
令ユニット２２０に接続される。

【００３３】Ｌ１Ｉ−キャッシュ１５０からの命令は、命令ユニット２２０に出力される
ことが好ましく、命令ユニット２２０は、本発明の方法およびシステムに従って
、さまざまなサブプロセッサ・ユニット、たとえば分岐ユニット２６０、固定小
数点ユニット２７０、記憶域制御ユニット２００、浮動小数点ユニット２８０お
よび、データ処理システム１０のアーキテクチャによって指定される他のユニッ
トによる複数のスレッドの実行を制御する。当業者は、図１に示されたさまざま
な実行ユニットのほかに、現代のスーパースカラ・マイクロプロセッサ・システ
ムに、本発明の趣旨および範囲から逸脱せずに追加することのできるそのような
実行ユニットのそれぞれの複数の版が含まれることがしばしばであることを了解
するであろう。これらのユニットのほとんどは、入力として、汎用レジスタ（Ｇ
ＰＲ）２７２および浮動小数点レジスタ（ＦＰＲ）２８２などのさまざまなレジ
スタからのソース・オペランド情報を有する。さらに、複数の特殊目的レジスタ
（ＳＰＲ）２７４を使用することができる。図２からわかるように、記憶域制御
ユニット２００と遷移キャッシュ２１０は、汎用レジスタ２７２および浮動小数
点レジスタ２８２に直接に接続される。汎用レジスタ２７２は、特殊目的レジス
タ２７４に接続される。

【００３４】このマルチスレッド式プロセッサ１００に固有の機能ハードウェア・ユニット
の中に、スレッド切替え論理４００と遷移キャッシュ２１０がある。スレッド切
替え論理４００には、どのスレッドをアクティブ・スレッドまたは実行中のスレ
ッドにするかを決定するさまざまなレジスタが含まれる。スレッド切替え論理４
００は、機能的に、記憶域制御ユニット２００と、実行ユニット２６０、２７０
および２８０と、命令ユニット２２０に接続される。記憶域制御ユニット２００
内の遷移キャッシュ２１０は、マルチスレッディングを実施できなければならな
い。記憶域制御ユニット２００と遷移キャッシュ２１０は、１スレッドあたり少
なくとも１つの未処理のデータ要求を許容することが好ましい。したがって、た
とえばＬ１Ｄ−キャッシュ・ミスの発生に応答して、第１スレッドが延期され
る時に、第２スレッドが、そこに存在するデータについてＬ１Ｄ−キャッシュ
１２０にアクセスできるようになる。第２スレッドも、Ｌ１Ｄ−キャッシュ・
ミスをもたらす場合には、別のデータ要求が発行され、したがって、複数のデー
タ要求を、記憶域制御ユニット２００および遷移キャッシュ２１０内で維持しな
ければならない。遷移キャッシュ２１０は、参照によって本明細書に組み込まれ
る米国特許出願第０８／７６１３７８号明細書の遷移キャッシュであることが好
ましい。記憶域制御ユニット２００と、実行ユニット２６０、２７０および２８
０と、命令ユニット２２０は、すべてが機能的にスレッド切替え論理４００に接
続され、スレッド切替え論理４００は、どのスレッドを実行するかを決定する。

【００３５】図２からわかるように、バス２０５は、たとえば記憶域制御ユニット２００へ
のデータ要求および命令ユニット２２０へのＬ２キャッシュ１３０ミスなどの通
信のために、記憶域制御ユニット２００と命令ユニット２２０の間に設けられる
。さらに、変換ルックアサイド・バッファ（ＴＬＢ）２５０が設けられ、これに
は、仮想アドレスから実アドレスへのマッピングが格納される。図示されてはい
ないが、本発明では、変換ルックアサイド・バッファ２５０に類似の形で動作す
るセグメント・ルックアサイド・バッファなどの追加の高水準メモリ・マッピン
グ・バッファを設けることができる。

【００３６】図３は、記憶域制御ユニット２００を詳細に示す図であり、名前から暗示され
るように、このユニットは、さまざまなキャッシュ、バッファおよび主記憶を含
むさまざまな記憶ユニットからのデータおよび命令の入出力を制御する。図３か
らわかるように、記憶域制御ユニット２００には、機能的にＬ１Ｄ−キャッシ
ュ１２０、マルチプレクサ３６０、Ｌ２キャッシュ１３０および主記憶１４０に
接続された遷移キャッシュ２１０が含まれる。さらに、遷移キャッシュ２１０は
、シーケンサ３５０から制御信号を受け取る。シーケンサ３５０には、命令また
はデータの取出要求を処理するために、複数、好ましくは３つのシーケンサが含
まれる。シーケンサ３５０は、遷移キャッシュ２１０およびＬ２キャッシュ１３
０に制御信号を出力し、主記憶１４０との間で制御信号を送受する。

【００３７】図３に示された記憶域制御ユニット２００内のマルチプレクサ３６０は、Ｌ１
Ｄ−キャッシュ１２０、遷移キャッシュ２１０、Ｌ２キャッシュ１３０および
主記憶１４０からデータを受け取り、データをメモリに格納する場合には、実行
ユニット２７０および２８０からデータを受け取る。これらの供給源のうちの１
つからのデータは、マルチプレクサ３６０によって選択され、シーケンサ３５０
から受け取った選択制御信号に応答して、Ｌ１Ｄ−キャッシュ１２０または実
行ユニットに出力される。さらに、図３からわかるように、シーケンサ３５０は
、第２のマルチプレクサ３７０を制御する選択信号を出力する。シーケンサ３５
０からのこの選択信号に基づいて、マルチプレクサ３７０は、Ｌ２キャッシュ１
３０または主記憶１４０からのデータを、Ｌ１Ｉ−キャッシュ１５０または命
令ユニット２２０に出力する。上で述べた制御信号および選択信号を作る際に、
シーケンサ３５０は、Ｌ１Ｄ−キャッシュ１２０用のＬ１ディレクトリ３２０
とＬ２キャッシュ１３０用のＬ２ディレクトリ３３０にアクセスし、これらを更
新する。

【００３８】本明細書に記載のプロセッサのマルチスレッディング能力に関して、記憶域制
御ユニット２００のシーケンサ３５０は、スレッド切替え論理４００にも信号を
出力して、データ要求および命令要求の状態を示す。したがって、キャッシュ１
２０、１３０および１５０と、主記憶１４０と、変換ルックアサイド・バッファ
２５０からのフィードバックが、シーケンサ３５０に送られ、その後、スレッド
切替え論理４００に通信され、スレッド切替え論理４００は、下で述べるように
スレッド切替えをもたらすことができる。マルチスレッド式プロセッサ内でのス
レッド切替えを引き起こすように設計されたイベントが発生する装置は、機能的
にシーケンサ３５０に接続されることに留意されたい。

【００３９】図４は、スレッドを切り替えるかどうかを判定し、切り替える場合にはどのス
レッドに切り替えるかを判定するスレッド切替え論理ハードウェア４００の論理
表現およびブロック図である。記憶域制御ユニット２００と命令ユニット２２０
は、スレッド切替え論理４００と相互接続される。スレッド切替え論理４００は
、命令ユニット２２０に組み込まれることが好ましいが、多数のスレッドがある
場合には、スレッド切替え論理４００の複雑さが増し、その結果、スレッド切替
え論理が命令ユニット２２０の外部になる場合がある。説明を簡単にするために
、スレッド切替え論理４００は、記憶域制御ユニット２００の外部にあるものと
して図示した。

【００４０】この実施例でスレッドの切替えをもたらすいくつかのイベントは、記憶域制御
ユニット２００のシーケンサ３５０からスレッド切替え論理４００へ、信号線４
７０、４７２、４７４、４７６、４７８、４８０、４８２、４８４および４８６
を介して通信される。他の待ち時間イベントが、スレッド切替えを引き起こす可
能性があるが、このリストは、網羅的であることを意図したものではなく、スレ
ッド切替えを実施できる方法を代表するものにすぎない。命令ユニット２２０内
にない第１スレッドＴ０または第２スレッドＴ１のいずれかによる命令の要求は
、それぞれ図４の符号４７０または４７２によって示されるスレッド切替えをも
たらす可能性があるイベントである。信号線４７４は、Ｔ０またはＴ１のいずれ
かであるアクティブ・スレッドが、Ｌ１Ｄ−キャッシュ１２０ミスを経験する
時を示す。スレッドＴ０またはＴ１のいずれかに関するＬ２キャッシュ１３０の
キャッシュ・ミスは、それぞれ信号線４７６または４７８によって知らされる。
信号線４８０および４８２は、それぞれＴ０スレッドまたはＴ１スレッドの継続
実行のためにデータが返される時にアクティブになる。変換ルックアサイド・バ
ッファ・ミスおよびテーブル・ウォークの完了は、それぞれ信号線４８４または
４８６によって示される。

【００４１】これらのイベントは、すべてがスレッド切替え論理４００に供給され、具体的
には、スレッド状態レジスタ４４０およびスレッド切替えコントローラ４５０に
供給される。スレッド切替え論理４００は、スレッドごとに１つのスレッド状態
レジスタを有する。本明細書に記載の実施例では、２つのスレッドが表現される
ので、第１スレッド用Ｔ０のＴ０状態レジスタ４４２と、第２スレッドＴ１用の
Ｔ１状態レジスタ４４４があり、これらを本明細書で説明する。スレッド切替え
論理４００には、どのイベントがスレッド切替えをもたらすかを制御するスレッ
ド切替え制御レジスタ４１０が含まれる。たとえば、スレッド切替え制御レジス
タ４１０は、状態変化がスレッド切替えコントローラ４５０によって見られるよ
うにするイベントをブロックし、その結果、ブロックされたイベントの結果とし
てスレッドが切り替えられなくすることができる。スレッド状態レジスタおよび
スレッドを変更する論理は、本明細書と同時に出願され、参照によって本明細書
に組み込まれる米国特許出願第０８／９５７００２号明細書の主題である。フォ
ワード・プログレス・カウント・レジスタ４２０は、スラッシングの防止に使用
され、スレッド切替え制御レジスタ４１０に含めることができる。フォワード・
プログレス・カウント・レジスタ４２０は、本明細書と同時に出願され、参照に
よって本明細書に組み込まれる米国特許出願第０８／９５６８７５号明細書の主
題である。スレッド切替えタイムアウト・レジスタ４３０は、本明細書と同時に
出願され、参照によって本明細書に組み込まれる米国特許出願第０８／９５６５
７７号明細書の主題であり、これによって、公平さとライブロック発行が割り振
られる。また、スレッド優先順位は、本明細書と同時に出願され、参照によって
本明細書に組み込まれる米国特許出願第０８／９５８７１８号明細書の主題であ
るソフトウェア４６０を使用して変更することができる。制限的ではないが、最
後に、スレッド切替えコントローラ４５０には、スレッドを切り替えるかどうか
と、どのスレッドにどの状況の下で切り替えるのかを実際に判定するすべての論
理の頂点を表す無数の論理ゲートが含まれる。これらの論理構成要素とその機能
のそれぞれを、さらに詳細に説明する。

【００４２】スレッド状態レジスタスレッド状態レジスタ４４０には、各スレッドの状態レジスタが含まれ、名前
からわかるように、対応するスレッドの状態が格納される。この例では、Ｔ０ス
レッド状態レジスタ４４２とＴ１スレッド状態レジスタ４４４がある。ビットの
数と、各スレッドの状態を記述するための特定のビットの割振りは、特定のアー
キテクチャおよびスレッド切替え優先順位方式に合わせてカスタマイズすること
ができる。２つのスレッドを有するマルチスレッド式プロセッサのスレッド状態
レジスタ４４２および４４４のビットの割振りの例を、下の表に示す。スレッド状態レジスタのビット割振り (0) 命令／データ 0=命令 1=データ (1:2) ミス・タイプ・シーケンサ 00=なし 01=変換ルックアサイド・バッファ・ミス（I/Dのビット0を検査） 10=L1キャッシュ・ミス 11=L2キャッシュ・ミス (3) 遷移 0=現在の状態への遷移はスレッド切替えをもたらさない 1=現在の状態への遷移はスレッド切替えをもたらす (4:7) 予約済み (8) 0=ロード 1=ストア (9:14) 予約済み (15:17) フォワード・プログレス・カウンタ 111=リセット（このスレッド中に命令が完了した） 000=命令完了なしでのこのスレッドの１回目の実行 001=命令完了なしでのこのスレッドの２回目の実行 010=命令完了なしでのこのスレッドの３回目の実行 011=命令完了なしでのこのスレッドの４回目の実行 100=命令完了なしでのこのスレッドの５回目の実行 (18:19) 優先順位（ソフトウェアによって設定可能） 00=中 01=低 10=高 11=＜不正＞ (20:31) 予約済み (32:63) 64ビット実施形態の場合に予約済み

【００４３】上で説明した実施例では、ビット０によって、ミスまたはプロセッサが実行を
ストールした理由が、命令の要求とデータの要求のどちらの結果であるかが識別
される。ビット１および２は、図５の説明でさらに説明するように、要求された
情報が使用可能でなかったかどうかと、使用可能でなかった場合に、どのハード
ウェアから使用可能でなかったか、すなわち、データまたは命令の変換されたア
ドレスが変換ルックアサイド・バッファ２５０になかったのか、データまたは命
令自体がＬ１Ｄ−キャッシュ１２０またはＬ２キャッシュ１３０になかったの
かを示す。ビット３は、スレッドの状態の変化が、スレッド切替えをもたらすか
どうかを示す。スレッドは、スレッド切替えをもたらさずに状態を変更すること
ができる。たとえば、スレッドＴ１がＬ１キャッシュ・ミスを経験する時にスレ
ッド切替えが発生する場合に、スレッドＴ１がＬ２キャッシュ・ミスを経験する
場合、Ｌ１キャッシュ・ミスの際にすでにスレッドが切り替えられているので、
スレッド切替えはない。しかし、Ｔ１の状態は、まだ変化する。その代わりに、
選択によって、スレッド切替え論理４００が、Ｌ１キャッシュ・ミスの際に切り
替えないように構成またはプログラミングされる場合には、スレッドがＬ１キャ
ッシュ・ミスを経験した時に、スレッドの状態が変化してもスレッド切替えはな
い。スレッド状態レジスタ４４２および４４４のビット８は、特定のスレッドに
よって要求された情報が、プロセッサ・コアにロードされるのか、プロセッサ・
コアからキャッシュまたは主記憶にストアされるのかに割り当てられる。ビット
１５ないし１７は、フォワード・プログレス・カウント・レジスタ４２０に関し
て後で説明するように、スラッシングの防止に割り振られる。ビット１８および
１９は、スレッドの優先順位を示すために、ハードウェアで設定するか、ソフト
ウェアによって設定することができる。

【００４４】図５は、データ処理システム１０によって処理されるスレッドの現在の実施例
での４つの状態を表し、これらの状態は、スレッド状態レジスタ４４０のビット
位置１：２に格納される。状態００は、「実行可能」状態すなわち、必要なすべ
てのデータおよび命令が使用可能であるので、スレッドの処理の準備ができてい
ることを表す。状態１０は、スレッドがＬ１Ｄ−キャッシュ１２０にデータが
返されるかＬ１Ｉ−キャッシュ１５０に命令が返されるかのいずれかを待って
いるので、プロセッサ内でのスレッドの実行がストールしているスレッド状態を
表す。状態１１は、スレッドがＬ２キャッシュ１３０にデータが返されるのを待
っていることを表す。状態０１は、テーブル・ウォークと称する、変換ルックア
サイド・バッファ２５０でのミスがある、すなわち、仮想アドレスがエラー状態
であったか、使用可能でなかったことを示す。図５には、スレッド状態の階層も
示されており、スレッドの実行の準備ができていることを示す状態００が、最も
高い優先順位を有する。短い待ち時間イベントには、高い優先順位を割り当てる
ことが好ましい。

【００４５】図５には、データがさまざまな供給源から取り出される時の状態の変化も示さ
れている。スレッドＴ０の正常に割り込まれない実行は、ブロック５１０で状態
００として表されている。Ｌ１Ｄ−キャッシュまたはＩ−キャッシュのミスが
発生した場合、スレッドの状態は、記憶域制御ユニット２００からの信号線４７
４（図４）または命令ユニット２２０からの信号線４７０（図４）で送られる信
号に従って、ブロック５１２に示されている状態１０に変化する。要求されたデ
ータまたは命令が、Ｌ２キャッシュ１３０内にあり、取り出される場合には、ブ
ロック５１０のＴ０の正常実行が再開される。同様に、図５のブロック５１４は
、Ｌ２キャッシュ・ミスを表し、これによって、Ｔ０またはＴ１のいずれかのス
レッドの状態が、記憶域制御ユニット２００が信号線４７６または４７８（図４
）でミスの信号を送る時に、状態１１に変化する。信号線４８０および４８２（
図４）に示されているように、Ｌ２キャッシュ内の命令またはデータが、主記憶
１４０から取り出され、プロセッサ・コア１００にロードされる時には、状態は
、やはりブロック５１０の状態００に戻る。要求された情報の仮想アドレスが変
換ルックアサイド・バッファ２５０内で使用可能でない時には、ブロック５１６
に示されるように、ＴＬＢミスまたは状態０１として、記憶域制御ユニット２０
０が、信号線４８４（図４）を介してスレッド・レジスタ４４０に通信する。そ
のアドレスが使用可能になる時または、信号線４８６（図４）上で記憶域制御ユ
ニット２００によって送られるデータ記憶域割り込み命令がある場合には、スレ
ッドの状態は、状態００に戻り、実行の準備ができる。

【００４６】状態の数と、各状態が表すものは、コンピュータ設計者が自由に選択できる。
たとえば、あるスレッドが、Ｌ１Ｉ−キャッシュ・ミスとＬ１Ｄ−キャッシ
ュ・ミスなど、複数のＬ１キャッシュ・ミスを有する場合には、キャッシュ・ミ
スのタイプのそれぞれに別々の状態を割り当てることができる。その代わりに、
単一のスレッド状態を割り当てて、複数のイベントまたはできごとを表すことが
できる。等しい優先順位を有する２つのスレッドについて、スレッドを切り替え
るかどうかを判定するスレッド切替えアルゴリズムの例を示す。このアルゴリズ
ムは、本発明の教示に従って、より多くのスレッドおよびスレッド切替え条件の
ためにそれ相応に拡張し、変更することができる。スレッド切替えアルゴリズム
による、スレッド状態レジスタ４４０（図４）に格納された各スレッドの状態と
各スレッドの優先順位との間の相互作用は、各サイクルに動的に問い合わされる
。アクティブ・スレッドＴ０がＬ１ミスを有する場合に、このアルゴリズムは、
休止スレッドＴ１がＬ２ミスの解決を待っている場合を除いて、休止スレッドＴ
１へのスレッド切替えを引き起こす。切替えが発生せず、アクティブ・スレッド
Ｔ０のＬ１キャッシュ・ミスがＬ２キャッシュ・ミスになった場合には、このア
ルゴリズムは、プロセッサに、Ｔ１の状態に無関係に休止スレッドＴ１に切り替
えるように指示する。両方のスレッドがＬ２キャッシュ・ミスの解決を待ってい
る場合には、最初にＬ２ミスを解決されたスレッドが、アクティブ・スレッドに
なる。すべての切替え決定時に、行われる処置は、最も可能性の高い事例に合わ
せて最適化され、最良の性能をもたらす。Ｌ２キャッシュ・ミスから生じるスレ
ッド切替えは、性能の低下をもたらす余分なスレッド切替えが発生しない場合に
、他方のスレッドの状態次第である。

【００４７】スレッド切替え制御レジスタどのマルチスレッド式プロセッサにも、スレッド切替えに関連する待ち時間と
性能のペナルティが存在する。本明細書で説明する好ましい実施例のマルチスレ
ッド式プロセッサでは、この待ち時間に、現在のスレッドに割り込むことができ
、現在のスレッドが次に呼び出された時に正しく再始動できる点まで現在のスレ
ッドの実行を完了するのに必要な時間と、スレッド固有のハードウェア機能を現
在のスレッドの状態から新しいスレッドの状態に切り替えるのに必要な時間と、
新しいスレッドを再始動し、その実行を開始するのに必要な時間が含まれる。本
発明と共に動作可能なスレッド固有のハードウェア機能には、上で説明したスレ
ッド状態レジスタと、参照によって本明細書に組み込まれる米国特許第５７７８
２４３号明細書に記載のメモリ・セルが含まれることが好ましい。粒度の粗いマ
ルチスレッド式データ処理システムで最適の性能を達成するために、スレッド切
替えを生成するイベントの待ち時間は、通常の単一スレッド・モードに対して、
マルチスレッド・モードでのスレッド切替えに関連する性能コストより大きくな
ければならない。

【００４８】スレッド切替えを生成するのに使用されるイベントの待ち時間は、ハードウェ
アとソフトウェアの両方に依存する。たとえば、マルチスレッド式プロセッサの
特定のハードウェア検討事項には、プロセッサ・チップの外部のＬ２キャッシュ
の実施に使用される外部ＳＲＡＭの速度が含まれる。Ｌ２キャッシュのＳＲＡＭ
が高速になると、Ｌ１ミスの平均待ち時間が減るが、ＳＲＡＭが低速になると、
Ｌ１ミスの平均待ち時間が増える。したがって、あるスレッド切替えイベントが
、スレッド切替えのペナルティより大きい外部Ｌ２キャッシュ・データ・アクセ
ス待ち時間を有するハードウェアのＬ１キャッシュ・ミスとして定義される場合
に、高性能が得られる。特定のソフトウェア・コードの特性が、スレッド切替え
イベントの待ち時間にどのように影響するかの例として、コードのＬ２キャッシ
ュのヒット対ミス比すなわち、データがＬ２キャッシュにないので主記憶から取
り出さなければならない回数と比較した、データが実際にＬ２キャッシュ内で使
用可能である回数を検討されたい。Ｌ２ヒット対ミス比が高いと、Ｌ１キャッシ
ュ・ミスが、より長い待ち時間のＬ２ミスをほとんどもたらさないので、Ｌ１キ
ャッシュ・ミスの平均待ち時間が減る。Ｌ２ヒット対ミス比が低いと、より長い
待ち時間のＬ２ミスをもたらすＬ１ミスが増えるので、Ｌ１ミスの平均待ち時間
が増える。したがって、実行中のコードが高いＬ２ヒット対ミス比を有する場合
には、Ｌ２キャッシュ・データ・アクセス待ち時間がスレッド切替えペナルティ
より小さいので、スレッド切替えイベントとしてのＬ１ミスを使用不能にするこ
とができる。低いＬ２ヒット対ミス比を有するソフトウェア・コードを実行する
時には、Ｌ１キャッシュ・ミスが、より長い待ち時間のＬ２キャッシュ・ミスに
なる可能性が高いので、Ｌ１キャッシュ・ミスをスレッド切替えイベントとして
使用可能にすることになる。

【００４９】いくつかのタイプの待ち時間イベントは、簡単には検出できない。たとえば、
いくつかのシステムでは、キャッシュ・ミスが発生した時に、Ｌ２キャッシュが
、命令ユニットに信号を出力する。しかし、他のＬ２キャッシュは、たとえばＬ
２キャッシュ・コントローラがプロセッサとは別のチップ上にあり、したがって
、プロセッサが状態変化を簡単に判定できない場合に、そのような信号を出力し
ない。これらのアーキテクチャでは、プロセッサに、未処理のＬ１キャッシュ・
ミスごとに１つのサイクル・カウンタを含めることができる。所定のサイクル数
の前にミス・データがＬ２キャッシュから返されない場合には、プロセッサは、
Ｌ２キャッシュ・ミスがあったかのように動作し、スレッドの状態をそれ相応に
変更する。このアルゴリズムは、複数の別個のタイプの待ち時間が存在する他の
場合にも適用可能である。例のみとして、多重プロセッサでのＬ２キャッシュ・
ミスの場合、主記憶からのデータの待ち時間は、別のプロセッサからのデータの
待ち時間と大きく異なる場合がある。これらの２つのイベントに、スレッド状態
レジスタ内で異なる状態を割り当てることができる。これらの状態を区別する信
号が存在しない場合には、カウンタを使用して、スレッドがＬ２キャッシュ・ミ
スに遭遇した後に、スレッドがどの状態にならなければならないかを推定するこ
とができる。

【００５０】スレッド切替え制御レジスタ４１０は、スレッド切替えを生成するイベントを
選択するソフトウェア・プログラム可能レジスタであり、定義されたスレッド切
替え制御イベントのそれぞれについて別々のイネーブル・ビットを有する。本明
細書で説明する実施例では、スレッドごとに別々のスレッド切替え制御レジスタ
４１０は実施されないが、スレッドごとに別々のスレッド切替え制御レジスタ４
１０を実施して、より多くのハードウェアおよび複雑さという犠牲と引き換えに
より高い柔軟性と性能をもたらすことができる。さらに、あるスレッド切替え制
御レジスタ内のスレッド切替え制御イベントは、他のスレッド切替え制御レジス
タのスレッド切替え制御イベントと同一である必要はない。

【００５１】スレッド切替え制御レジスタ４１０は、米国特許第５０７９７２５号明細書に
開示された動的走査通信インターフェースなどのソフトウェアを用いるサービス
・プロセッサによるか、ソフトウェア・システム・コードを用いてプロセッサ自
体によって、書き込むことができる。スレッド切替え制御レジスタ４１０の内容
は、スレッド切替えの生成を使用可能または使用不能にするために、スレッド切
替えコントローラ４５０によって使用される。レジスタ４１０内の１の値によっ
て、そのビットに関連するスレッド切替え制御イベントが使用可能にされて、ス
レッド切替えが生成される。スレッド切替え制御レジスタ４１０内の０の値によ
って、そのビットに関連するスレッド切替え制御イベントが、スレッド切替えの
生成を禁止される。もちろん、実行中のスレッド内の命令によって、その特定の
スレッドまたは他のスレッドのスレッド切替え条件のうちのいくつかまたはすべ
てを使用不能にすることができる。下の表に、スレッド切替えイベントと、レジ
スタ４１０内のイネーブル・ビットの間の関連を示す。スレッド切替え制御レジスタのビット割当 (0) Ｌ１データ・キャッシュ取出ミスに対するスイッチ (1) Ｌ１データ・キャッシュ・ストア・ミスに対するスイッチ (2) Ｌ１命令キャッシュ・ミスに対するスイッチ (3) 命令ＴＬＢミスに対するスイッチ (4) Ｌ２キャッシュ取出ミスに対するスイッチ (5) Ｌ２キャッシュ・ストア・ミスに対するスイッチ (6) Ｌ２命令キャッシュ・ミスに対するスイッチ (7) データＴＬＢ／セグメント・ルックアサイド・バッファ・ミスに対するスイッチ (8) Ｌ２キャッシュ・ミスおよび休止スレッド非Ｌ２キャッシュ・ミスに対するスイッチ (9) スレッド切替えタイムアウト値到達時のスイッチ (10) Ｌ２キャッシュ・データが返された時のスイッチ (11) 入出力外部アクセスに対するスイッチ (12) ダブルＸストア：２つのうちの１番目でのミスに対するスイッチ＊ (13) ダブルＸストア：２つのうちの２番目でのミスに対するスイッチ＊ (14) 複数／列ストア：すべてのアクセスでのミスに対するスイッチ (15) 複数／列ロード：すべてのアクセスでのミスに対するスイッチ (16) 予約済み (17) ダブルＸロード：２つのうちの１番目でのミスに対するスイッチ＊ (18) ダブルＸロード：２つのうちの２番目でのミスに対するスイッチ＊ (19) 計算機状態レジスタ（問題状態）ビット、msr(pr)=1の場合のor 1,1,1
命令に対するスイッチ。msr(pr)と独立のソフトウェア優先順位変更を可能にする。ビット１９が１の場合、or 1,1,1命令によって低優先順位が設定される。ビ
ット１９が０の場合、or 1,1,1命令が実行される時にmsr(pr)=0の場合に限って優先順位が低に設定される。後で説明する、ソフトウェアによる優先順位の変更
を参照されたい。 (20) 予約済み (21) スレッド切替え優先順位イネーブル (22:29) 予約済み (30:31) フォワード・プログレス・カウント (32:63) ６４ビット・レジスタ実施形態で予約済み＊ダブルＸロード／ストアとは、基本ハーフワード、ワードまたはダブル・ワ
ードの、ダブルワード境界をまたぐロードまたはストアを指す。この文脈でのダ
ブルＸロード／ストアは、複数ワードまたはワードの列のロードまたはストアで
はない。

【００５２】スレッド切替えタイムアウト・レジスタ上で述べたように、粒度の粗いマルチスレッド式プロセッサは、スレッド切替
えをトリガするために、長い待ち時間のイベントに頼る。実行中に、多重プロセ
ッサ環境内のプロセッサまたはマルチスレッド式アーキテクチャのバックグラウ
ンド・スレッドが、単独の所有者だけを有することのできる資源の所有権を有し
、別のプロセッサまたはアクティブ・スレッドが、フォワード・プログレスを行
う前にその資源へのアクセスを必要とする場合がある。その例には、メモリ・ペ
ージ・テーブルの更新またはタスク・ディスパッチャからのタスクの取得が含ま
れる。アクティブ・スレッドが資源の所有権を得ることができなくても、スレッ
ド切替えイベントはもたらされないが、スレッドは、有用な作業を行うことがで
きないループを回り続ける。この場合、資源を保持しているバックグラウンド・
スレッドは、プロセッサへのアクセスを得ず、その結果、スレッド切替えイベン
トに遭遇せず、アクティブ・スレッドにならないので、資源を解放することがで
きない。

【００５３】スレッドの間での処理サイクルの割振りが、もう１つの問題である。あるスレ
ッド上で走行するソフトウェア・コードが、同一のプロセッサ内の他のスレッド
上で走行するソフトウェア・コードと比較して長い待ち時間の切替えイベントに
ほとんど遭遇しない場合には、そのスレッドは、処理サイクルの公平な割当分以
上の処理サイクルを得る。最大の許容可能な時間を超える可能性があるもう１つ
の過度な遅延が、限られた時間期間内に外部割込みをサービスするために待機す
るかプロセッサの外部の他のイベントを待機する非アクティブ・スレッドの待ち
時間である。したがって、有用な処理が達成されていない場合に、システムがハ
ングしないようにするために、ある時間の後に休止スレッドへのスレッド切替え
を強制的に行うことが好ましくなる。

【００５４】ある時間期間の後にスレッド切替えを強制するための論理が、スレッド切替え
タイムアウト・レジスタ４３０（図４）、デクリメンタおよび、減分された値を
保持する減分レジスタである。スレッド切替えタイムアウト・レジスタ４３０は
、スレッド切替えタイムアウト値を保持する。この実施例で使用されるスレッド
切替えタイムアウト・レジスタ４３０の実施形態を、次の表に示す。スレッド切替えタイムアウト・レジスタのビット (0:21) 予約済み (22:31) スレッド切替えタイムアウト値

【００５５】本明細書で説明する本発明の実施例では、スレッドごとに別々のスレッド切替
えタイムアウト・レジスタ４３０が実施されないが、柔軟性を高めるためにそれ
を行うことは可能である。同様に、複数のスレッドがある場合に、各スレッドが
同一のスレッド切替えタイムアウト値を有する必要はない。スレッド切替えが発
生するたびに、スレッド切替えタイムアウト・レジスタ４３０からのスレッド切
替えタイムアウト値が、ハードウェアによって減分レジスタにロードされる。減
分レジスタは、減分レジスタ値が０に等しくなるまで各サイクルに１回減分され
、０になった時に、スレッド切替えコントローラ４５０に信号が送られ、スレッ
ド切替えコントローラ４５０は、命令を処理する準備ができている他のスレッド
がない場合を除いて、スレッド切替えを強制する。たとえば、システム内の他の
すべてのスレッドが、キャッシュ・ミスで待機状態になっており、命令を実行す
る準備ができていない場合には、スレッド切替えコントローラ４５０は、スレッ
ド切替えを強制しない。減分レジスタの値が０に達した時に、命令を処理する準
備ができている他のスレッドが存在しない場合には、別のスレッドが命令を処理
する準備ができるまで、減分された値は０で凍結され、準備ができた時点で、ス
レッド切替えが発生し、減分レジスタに、そのスレッドのスレッド切替えタイム
アウト値が再ロードされる。同様に、減分レジスタは、簡単に増分レジスタと命
名することができ、スレッドが実行中である時に、そのレジスタをある所定の値
まで増分することができ、その値に達した時にスレッド切替えが強制される。

【００５６】スレッド切替えタイムアウト・レジスタ４３０は、上で述べたようにサービス
・プロセッサによって書き込むか、ソフトウェア・コードを用いてプロセッサ自
体によって書き込むことができる。スレッド切替えタイムアウト・レジスタ４３
０にロードされるスレッド切替えタイムアウト値は、特定のハードウェア構成ま
たは特定のソフトウェア・コードに従って、不要なスレッド切替えから生じる浪
費サイクルを最小にするためにカスタマイズすることができる。スレッド切替え
タイムアウト・レジスタ４３０の値が大きすぎると、アクティブ・スレッドが別
のスレッドによって保持されている資源を待っている場合と、外部割込みまたは
他のプロセッサ外部のイベントの応答待ち時間が長すぎる場合に、性能低下がも
たらされる可能性がある。また、値が大きすぎると、一方のスレッドが多数のス
レッド切替えイベントを経験し、もう一方のスレッドがそうでない場合に、公平
さが損なわれる可能性がある。スレッド切替えを引き起こす、最も頻繁な最長の
待ち時間イベント、たとえば主記憶へのアクセスより２倍ないし数倍長いスレッ
ド切替えタイムアウト値が、推奨される。スレッド切替えタイムアウト・レジス
タ４３０で指定されたサイクル数だけ待った後にスレッド切替えを強制すること
によって、共用資源の競合に起因するシステム・ハングが防止され、スレッド間
のプロセッサ・サイクル割振りの公平さが実施され、外部割り込みおよび他のプ
ロセッサ外部のイベントに対する最大応答待ち時間が制限される。

【００５７】フォワード・プログレスの保証スレッド切替えが発生し、新しいスレッドがアクティブになるたびに、少なく
とも１つの命令が実行されなければならないことは、単一の命令によって複数の
キャッシュ・アクセスまたは複数のキャッシュ・ミスが発生する時など、いくつ
かの状況では制限が強すぎる。たとえば、取出命令は、要求された命令がキャッ
シュ内にない場合にＬ１Ｉ−キャッシュ１５０ミスを引き起こす可能性がある
が、その命令が返された時に、必要なデータがＬ１Ｄ−キャッシュ１２０内で
使用可能でない可能性がある。同様に、変換ルックアサイド・バッファ２５０で
のミスが、データ・キャッシュ・ミスをももたらす可能性がある。したがって、
フォワード・プログレスを厳密に実施する場合には、後続アクセスでのミスは、
スレッド切替えをもたらさない。第２の問題は、一部のキャッシュ・ミスが、完
了に大量のサイクルを必要とする可能性があり、その時間の間に、別のスレッド
が、同一のキャッシュ・レベルで、はるかに短い時間で完了できるキャッシュ・
ミスを経験する可能性があることである。第１のスレッドに戻る時に、厳密なフ
ォワード・プログレスが実施される場合には、プロセッサは、より短いキャッシ
ュ・ミスを有するスレッドに切り替えることができない。各スレッドが、命令実
行を伴わないスレッド切替えの反復サイクルでロックされるスラッシングの問題
を救済するために、フォワード・プログレス・カウント・レジスタ４２０（図４
）が存在し、これによって、フォワード・プログレス閾値と称するプログラム可
能な最大回数までのスレッド切替えが許容される。そのスレッド切替えの最大回
数の後は、命令を完了しなければ切替えは発生しない。この形で、スラッシング
が防止される。フォワード・プログレス・カウント・レジスタ４２０は、実際に
は、スレッド切替え制御レジスタ４１０のビット３０：３１とするか、プロセッ
サのためのソフトウェア・プログラム可能フォワード・プログレス閾値レジスタ
とすることができる。フォワード・プログレス・カウント論理は、スレッドの状
態を示し、命令実行なしでスレッドが経験したスレッド切替えの回数のために割
り振られる、スレッド状態レジスタ４４２および４４４のビット１５：１７を使
用する。これらのビットは、フォワード・プログレス・カウンタを含むことが好
ましい。

【００５８】スレッドの状態が変化し、スレッド切替えアルゴリズムが呼び出される時に、
アクティブ・スレッド内で少なくとも１つの命令が完了している場合、アクティ
ブ・スレッドのフォワード・プログレス・カウンタは、リセットされ、スレッド
切替えアルゴリズムは、プロセッサ内のスレッドの間でのスレッド状態の比較を
継続する。完了した命令がない場合、アクティブ・スレッドのスレッド状態レジ
スタ内のフォワード・プログレス・カウンタ値が、フォワード・プログレス閾値
と比較される。カウンタ値が、閾値と等しくない場合には、スレッド切替えアル
ゴリズムは、プロセッサ内のスレッドのスレッド状態の評価を継続する。その後
、スレッド切替えが発生した場合に、フォワード・プログレス・カウンタが増分
される。しかし、カウンタ値が閾値と等しい場合には、命令を実行できるまで、
すなわち、フォワード・プログレスが発生するまで、スレッド切替えは発生しな
い。閾値レジスタが値０を有する場合には、別のスレッドに切り替える前に、ア
クティブ・スレッド内で少なくとも１つの命令が完了しなければならないことに
留意されたい。各スレッド切替えが、３プロセッサ・サイクルを必要とし、２つ
のスレッドが存在し、スレッド切替え論理が、５回の試行の値にスレッド切替え
の試行を停止するようにプログラミングされている場合、プロセッサのスラッシ
ングが発生する最大サイクル数は、３０サイクルである。当業者は、一方でフォ
ワード・プログレスが行われないのでスレッド切替えを禁止することと、他方で
タイムアウト・カウントを超えたのでスレッド切替えを強制することの間に潜在
的な衝突が存在することを了解するであろう。このような衝突は、アーキテクチ
ャおよびソフトウェアに従って簡単に解決することができる。図６は、スラッシ
ングを防止する、スレッド切替え論理４００のフォワード・プログレス・カウン
ト機能の流れ図である。ブロック６１０で、スレッドＴ０に関係するスレッド状
態レジスタ４４２のビット１５：１７が、状態１１１にリセットされる。ブロッ
ク６２０で、このスレッドの実行を試み、状態が０００に変化する。スレッドＴ
０で命令が成功裡に実行された場合、スレッドＴ０の状態は、１１１に戻り、そ
のままにとどまる。しかし、スレッドＴ０が命令を実行できない場合には、スレ
ッドＴ１または、プロセッサ・アーキテクチャで３つ以上のスレッドが許容され
る場合には別のバックグラウンド・スレッドへのスレッド切替えが発生する。Ｔ
１または他のバックグラウンド・スレッドからのスレッド切替えが発生し、実行
がスレッドＴ０に戻った時に、ブロック６３０で、スレッドＴ０を実行する２回
目の試みが行われ、スレッドＴ０の状態は００１になる。やはり、スレッドＴ０
がスレッド切替えイベントに遭遇した場合に、プロセッサの制御は、スレッドＴ
０から別のスレッドに切り替えられる。同様に、たとえばＴ１などの他のスレッ
ドからスレッドＴ０へのスレッド切替えが発生した時に、Ｔ０の状態は、Ｔ０実
行の３回目の試みでは０１０に変化し（ブロック６４０）、Ｔ０実行の４回目の
試みでは０１１に変化し（ブロック６５０）、Ｔ０実行の５回目の試みでは状態
１００に変化する（ブロック６６０）。

【００５９】この実施形態では、スレッドＴ０への切替えの試みが５回ある。５回目の試み
の後と、スレッド状態レジスタ（ＴＳＲ）４４２のビット１５：１７の値が、ス
レッド切替え制御レジスタ（ＴＳＣ）４１０のビット３０：３１の値＋１に等し
い時すなわち、ＴＳＣ（３０：３１）＋１＝ＴＳＲ（１５：１７）の時に必ず、
スレッドＴ０からのスレッド切替えが発生しなくなる。５回の試みは、任意の数
であり、不成功の実行を伴う切替えの許容可能な最大回数すなわち、フォワード
・プログレス閾値は、プログラム可能であることが了解されよう。また、あるア
ーキテクチャでは、５回の切替えが多すぎ、他のアーキテクチャでは５回が少な
すぎることが理解されよう。どの場合でも、命令実行なしでスレッドに切り替え
る試みの回数の間の関係を閾値と比較しなければならず、その閾値に達した後に
は、そのスレッドからのスレッド切替えが発生せず、プロセッサは、そのスレッ
ドに関連する待ち時間が解決されるまで待機する。本明細書で説明する実施例で
は、スレッド状態レジスタ４４２のビット１５：１７によって表されるスレッド
の状態が、スレッド切替え制御レジスタ４１０のビット３０：３１と比較される
。フォワード・プログレス論理による早すぎるスレッド切替えのブロックを防ぐ
ための、入出力装置との相互作用などの極端に長い待ち時間を有する特定のイベ
ントのための特別な処理によって、プロセッサ性能が改善される。これらの極端
に長い待ち時間のイベントを処理する方法の１つが、フォワード・プログレス・
カウンタの増分をブロックするか、データが返されなかった場合のフォワード・
プログレス・カウンタと閾値の間の比較の出力信号を無視することである。極端
に長い待ち時間のイベントを処理するもう１つの方法は、これらの特定のイベン
トについて、別のより大きいフォワード・プログレス・カウントを使用すること
である。

【００６０】スレッド切替えマネージャプロセッサにディスパッチされたすべてのソフトウェア・スレッドのスレッド
状態は、前に説明したように図４のスレッド状態レジスタ４４２および４４４で
維持されることが好ましい。単一のプロセッサでは、一時に１つのスレッドがそ
の命令を実行し、他のすべてのスレッドは、休止状態になる。実行がアクティブ
・スレッドから休止スレッドに切り替えられるのは、アクティブ・スレッドが、
フォワード・プログレス・レジスタ４２０、スレッド切替え制御レジスタ４１０
またはスレッド切替えタイムアウト・レジスタ４３０に関して上で説明した長い
待ち時間のイベントに出会った時である。どのスレッドがアクティブであるかに
無関係に、これらのハードウェア・レジスタでは、実行の過程の間に動的に変化
しない状態が使用される。

【００６１】スレッド切替えマネージャによってスレッド切替え条件を変更する柔軟性によ
って、総合的なシステム性能が改善される。ソフトウェア・スレッド切替えマネ
ージャは、スレッド切替えの頻度を変更でき、クリティカルなタスクが使用でき
る実行サイクルを増やすことができ、スレッド切替え待ち時間のために失われる
総合サイクルを減らすことができる。スレッド切替えマネージャは、コンパイル
時または、オペレーティング・システムによる実行中のいずれかにプログラミン
グすることができ、たとえば、ロックしているループからスレッド切替えの頻度
を変更でき、また、低い優先順位状態の休止スレッドが外部割込みを待っている
か他の形で作動可能であるのでオペレーティング・システム・タスクをディスパ
ッチすることができる。アクティブ・スレッドからのスレッド切替えを許容しな
いか、その頻度を減らし、その結果、現在の命令ストリームの性能が、そこから
の切替えとそこに戻る切替えから生じる待ち時間を被らなくすることが有利であ
る場合がある。その代わりに、スレッドが、総合的なシステム性能を強化するた
めに、本質的にその優先順位を下げ、その結果として、それへの切替えの頻度を
下げるか、そのスレッドからの切替えの頻度を高めることによって、その実行サ
イクルの一部またはすべてを捨てることができる。スレッド切替えマネージャは
、スレッド切替えを無条件で強制または禁止することもでき、どのスレッドが次
に実行のために選択されるかに影響することもできる。

【００６２】複数優先順位スレッド切替え方式では、各スレッドに優先順位値を割り当てて
、切替えを引き起こす条件を制限する。場合によっては、ハードウェアにスレッ
ド優先順位を変更させることが望ましい可能性もある。たとえば、低優先順位の
スレッドが、あるイベントを待っており、そのイベントが発生した時に、ハード
ウェアが、そのスレッドの優先順位を引き上げて、そのイベントに対するスレッ
ドの応答時間に影響することができる。スレッド間の相対優先順位またはあるス
レッドの優先順位は、そのようなイベントの処理に影響する。スレッドの優先順
位は、１つまたは複数の命令の使用を介してスレッド切替えマネージャソフトウ
ェアによって、または、イベントに応答してハードウェアによって、調節するこ
とができる。スレッド切替えマネージャは、ハードウェア・スレッド切替え論理
によって実行される処置を変更して、効果的にスレッドの相対優先順位を変更す
る。

【００６３】３つの優先順位が、本明細書で説明する２スレッドの実施例と共に使用され、
これによって、システム性能に悪影響を及ぼさずに、性能のチューニングを可能
にするのに十分な、スレッドの間の区別がもたらされる。３つの優先順位を用い
ると、２つのスレッドが、中優先順位の同等の状況を有することができる。２つ
のスレッドに関する３つの優先順位の選択は、制限的であることを目的とするも
のではない。いくつかのアーキテクチャでは、「通常」状態が、一方のスレッド
が必ず他方のスレッドより高い優先順位を有する状態であるものとすることがで
きる。ハードウェアで設定するかソフトウェアによってプログラミングすること
のできる１つまたは複数の優先順位を有する３つ以上の実行のスレッドを含むこ
とが、本発明の範囲内であることが意図されている。

【００６４】各スレッドの３つの優先順位は、高、中および低である。スレッドＴ０の優先
順位がスレッドＴ１と同一である時には、スレッド切替え論理に対する影響はな
い。両方のスレッドが等しい優先順位を有するので、優先的に実行時間を与えら
れるスレッドは存在しない。スレッドＴ０の優先順位が、スレッドＴ１の優先順
位より高い時には、Ｔ０からＴ１へのスレッド切替えが、Ｌ１キャッシュ・ミス
のすべて、すなわち、データ・ロード、データ・ストアおよび命令取出について
使用不能にされる。というのは、Ｌ１キャッシュ・ミスが、Ｌ２ミスおよび変換
などの他の条件よりはるかに高速に解決されるからである。スレッドＴ０には、
スレッドＴ１より多くの実行サイクルを受け取る機会が与えられ、これによって
、スレッドＴ０が、過度な数の実行サイクルを消費しない限り、実行を継続でき
るようになる。しかし、プロセッサは、スレッドＴ０が比較的長い時刻待ち時間
を経験する場合に、スレッドＴ１に制御を譲る。Ｔ１からＴ０へのスレッド切替
えは、休止スレッドＴ０がスレッドＴ１をプリエンプトした場合にスレッドＴ０
が作動可能になった時に切替えが発生する点を除いて、影響を受けない。この事
例は、Ｌ２キャッシュ・ミスまたは変換要求が原因でスレッドＴ０からの切替え
が発生し、その条件が、スレッドＴ０の実行中にバックグラウンドで解決された
時に発生すると予想される。スレッドＴ０がスレッドＴ１より低い優先順位を有
する場合は、上の場合でスレッドの指定を逆転したものに類似する。

【００６５】スレッド優先順位の変更によるスレッド切替えの管理を実装することができる
異なる手法が存在する。新しい命令をプロセッサ・アーキテクチャに追加するこ
とができる。所望の動作を有する副作用を有する既存のプロセッサ命令を使用す
ることもできる。ソフトウェア制御を可能にする方法の間での選択には、以下の
複数の要因が影響する。（ａ）新規命令を含めるためのアーキテクチャ再定義の
容易さと、既存プロセッサに対するアーキテクチャ変更の影響、（ｂ）異なる版
のプロセッサ上で同一のソフトウェアを走行させることの望ましさ、（ｃ）新規
の専用命令の使用と、既存命令を再利用し結果の副作用を定義することとの間の
性能トレードオフ、（ｄ）たとえば、特定のロードまたはストアなどの一部の既
存命令のすべての実行によって効果が生じるか、特にその効果を生じさせるため
にストリームに命令を追加することによるさらなる制御を必要とするか、など、
ソフトウェアによる制御の所望のレベル。

【００６６】本明細書で説明するアーキテクチャは、その値によってプロセッサのアーキテ
クチャ的汎用レジスタが変更されない、未使用命令を活用する。この機能は、プ
ロセッサ・アーキテクチャを更新してマルチスレッディング機能を組み込むのに
非常に重要である。そうでなければ、特殊命令をコーディングすることができる
。この命令は、「好ましいnop」or 0,0,0であるが、他の命令が、効果的にnopと
して働くことができる。or命令の異なる版、or 0,0,0または1,1,1などを使用して、スレッド優先順位を変更することによって、同一の命令ストリームを、不正
命令割込みなどの悪影響なしに、プロセッサ上で実行することができる。機能拡
張では、計算機状態レジスタの状態を使用して、これらの命令の意味を変更する
。たとえば、ユーザがこれらのスレッド優先順位命令の一部またはすべてをコー
ディングし、それらが提供する機能にアクセスできるようにすることは、望まし
くない場合がある。それらが提供する特殊機能は、実行のあるモードだけで発生
するように定義することができ、それらの命令は、他のモードでは効果がなく、
通常通りnopとして実行される。

【００６７】二重スレッド・マルチスレッド式プロセッサを使用する可能な実施形態の１つ
では、実行中のソフトウェア自体の一部になる下記の３つの命令を使用して、そ
れ自体の優先順位を変更する。 tsop 1 or 1,1,1 休止スレッドへの切替え tsop 2 or 1,1,1 アクティブ・スレッドを「低」優先順位に設定する休止スレッドに切り替える注：TSC[19]=1でなければ特権モードでのみ有効 tsop 3 or 2,2,2 アクティブ・スレッドを「中」優先順位に設定する tsop 4 or 3,3,3 アクティブ・スレッドを「高」優先順位に設定する注：特権モードでのみ有効

【００６８】命令tsop 1およびtsop 2は、本明細書でor 1,1,1として実施されるものと同一
の命令とすることができるが、これらを別々の命令とすることもできる。これら
の命令は、スレッド切替え制御レジスタ４１０のビット１９および２１と、本明
細書で説明した計算機状態レジスタの問題／優先順位ビットとに相互作用する。
スレッド切替え制御レジスタ４１０のビット２１が１の値を有する場合には、ス
レッド切替えマネージャは、そのスレッドの優先順位に、スレッド状態レジスタ
のビット１８：１９で表される３つの優先順位のうちの１つをセットすることが
できる。スレッド切替え制御レジスタ４１０のビット１９が値０を有する場合に
は、命令tsop 2のスレッド切替えおよびスレッド優先順位の設定は、計算機状態
レジスタの問題／優先順位ビットによって制御される。その一方で、スレッド切
替え制御レジスタ４１０のビット１９が値１を有する場合または、計算機状態レ
ジスタの問題／優先順位ビットが値０を有し、命令or 1,1,1がコードに存在する
場合には、アクティブ・スレッドの優先順位は、低に設定され、実行は、休止ス
レッドがイネーブルされる場合に即座に休止スレッドまたはバックグラウンド・
スレッドに切り替えられる。命令or 2,2,2では、アクティブ・スレッドの優先順
位が、計算機状態レジスタの問題／優先順位ビットの値に無関係に中に設定され
る。命令or 3,3,3では、計算機状態レジスタの問題／優先順位ビットが０の値を
有する時に、アクティブ・スレッドの優先順位に高がセットされる。スレッド切
替え制御レジスタ４１０のビット２１が０の場合、両方のスレッドの優先順位に
、中がセットされ、優先順位に対するor x,x,xの影響がブロックされる。外部割
込み要求がアクティブであり、対応するスレッドの優先順位が低の場合、そのス
レッドの優先順位は、中に設定される。

【００６９】スレッド優先順位によって変更されるイベントは、（１）データをロードする
際のＬ１Ｄ−キャッシュ・ミスに対するスイッチと、（２）データをストアす
る際のＬ１Ｄ−キャッシュ・ミスに対するスイッチと、（３）命令を取り出す
際のＬ１Ｉ−キャッシュ・ミスに対するスイッチと、（４）休止スレッドが作
動可能状態である場合のスイッチである。さらに、外部割込みの活動化によって
、対応するスレッドの優先順位を変更することができる。下の表に、スレッド切
替えを引き起こす条件に対する優先順位の影響を示す。列３および４の「ＴＳＣ
」だけの項目は、スレッド切替えを開始するためにスレッド切替え制御（ＴＳＣ
）レジスタ４１０に示された条件を使用することを意味する。「０として扱われ
るＴＳＣ［０：２］」の項目は、スレッド切替え制御レジスタ４１０のビット０
：２が、そのスレッドに関してこれらのビットの値が０であるかのように扱われ
、スレッド切替え制御レジスタ４１０の他のビットが、スレッド切替えを引き起
こす条件の定義にそのまま使われることを意味する。列４の「スレッドＴ０作動
可能時」は、スレッドＴ０が、それからのスレッド切替えを引き起こしたミス・
イベントの待機を終えると同時に、スレッドＴ０への切替えが発生することを意
味する。列３の「スレッドＴ１作動可能時」は、スレッドＴ１が、それからのス
レッド切替えを引き起こしたミス・イベントの待機を終えると同時に、スレッド
Ｔ１への切替えが発生することを意味する。ミス・イベントが、スレッド切替え
タイムアウトである場合には、より高い優先順位のスレッドに切り替えられる前
に、より低い優先順位のスレッドが命令を完了するという保証はない。

【表１】

【００７０】生産的な作業を行わないスレッドには、遊休ループ内のすべての命令がスレッ
ド切替えを引き起こす場合であっても、性能の損失を避けるために、低優先順位
を与えることが推奨される。それでも、低優先順位に設定されたスレッドに対し
て外部割込みが要求された場合に、ハードウェアがスレッド優先順位を変更でき
るようにすることが重要である。この場合、そのスレッドは、割込みに対するす
ばやい応答を可能にするために、中優先順位に引き上げられる。これによって、
外部イベントを待っているスレッドが、それ自体を低優先順位に設定し、イベン
トがシグナリングされるまでその状態にとどまることが可能になる。

【００７１】最も実用的であり好ましい実施例と現在考えられるものに関して本発明を説明
してきたが、本発明は、開示された実施例に制限されず、逆に、請求項の趣旨お
よび範囲に含まれるさまざまな修正形態および同等配置を含むことが意図されて
いることを理解されたい。

【図面の簡単な説明】

【図１】本明細書に記載の発明を実施することのできるコンピュータ・システムのブロ
ック図である。

【図２】本発明によるマルチスレッド式データ処理システムの高水準ブロック図である
。

【図３】図２の記憶域制御ユニットのブロック図である。

【図４】図２のスレッド切替え論理、記憶域制御ユニットおよび命令ユニットのブロッ
ク図である。

【図５】図４に示されたスレッドが異なるスレッド切替えイベントを経験する際のスレ
ッドの状態の変化を示す図である。

【図６】本発明のフォワード・プログレス・カウントの流れ図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アイケマイヤー、リチャード、ジェームズアメリカ合衆国55901 ミネソタ州ロチェスターハワード・ストリートノースウェスト 5277 (72)発明者フリン、ウィリアム、トーマスアメリカ合衆国55902 ミネソタ州ロチェスターフォーティーンス・アベニューサウスウェスト 2516 (72)発明者レヴィンステイン、シェルダン、ベマードアメリカ合衆国55906 ミネソタ州ロチェスター７ストリートエヌ・イー 1608 (72)発明者ウォットレング、アンドリュー、ヘンリーアメリカ合衆国55901 ミネソタ州ロチェスターマナー・ビュー・ドライブノースウェスト 4224 Ｆターム(参考） 5B005 JJ11 KK12 KK22 LL01 MM02 MM03 SS12 5B098 AA03 GA05 GC01 GD03 GD14 【要約の続き】て、スレッド切替えイベントを取り替えることができるソフトウェア・マネージャ（４６０）にも応答する。

Claims

【特許請求の範囲】

【請求項１】命令の複数のスレッドの間で実行を切り替える少なくとも１つのマルチスレッ
ド式プロセッサ（１００）と、複数のビットを有し、前記ビットのそれぞれが、複数のスレッド切替え制御イ
ベントのうちの１つに一意に関連する、前記マルチスレッド式プロセッサに相互
接続された、少なくとも１つのソフトウェア・プログラム可能スレッド切替え制
御レジスタ（４１０）とを含むコンピュータ・プロセッサ。
【請求項２】前記ビットのうちの１つがイネーブルされる場合に、そのビットに関連する前
記スレッド切替え制御イベントが、前記少なくとも１つのマルチスレッド式プロ
セッサ（１００）に、複数のスレッドのうちの１つから前記複数のスレッドのう
ちの別の１つに切り替えさせる、請求項１に記載のプロセッサ。
【請求項３】［取消］
【請求項４】少なくとも１つの命令が、前記ソフトウェア・プログラム可能スレッド切替え
制御レジスタの前記ビットのうちの少なくとも１つをディスエーブルすることが
できる、請求項１ないし３のいずれか一項に記載のプロセッサ。
【請求項５】複数のソフトウェア・プログラム可能スレッド切替え制御レジスタ（４１０）
を含む、請求項１ないし４のいずれか一項に記載のプロセッサ。
【請求項６】あるソフトウェア・プログラム可能スレッド切替え制御レジスタ（４１０）の
前記ビット値が、もう１つの前記ソフトウェア・プログラム可能スレッド切替え
制御レジスタ（４１０）の前記ビット値と異なる、請求項５に記載のプロセッサ
。
【請求項７】前記複数のスレッド切替え制御イベントが、Ｌ１−データ・キャッシュ、Ｌ２
キャッシュ、変換ルックアサイド・バッファのうちの少なくとも１つからのデー
タ・ミスを含む、請求項１ないし６のいずれか一項に記載のプロセッサ。
【請求項８】前記複数のスレッド切替え制御イベントが、Ｌ１−命令キャッシュ、変換ルッ
クアサイド・バッファのうちの少なくとも１つからの命令ミスを含む、請求項１
ないし７のいずれか一項に記載のプロセッサ。
【請求項９】前記複数のスレッド切替え制御イベントが、データまたは命令もしくはその両
方のアドレス変換のエラーを含む、請求項１ないし８のいずれか一項に記載のプ
ロセッサ。
【請求項１０】前記複数のスレッド切替え制御イベントが、前記プロセッサの外部の入出力装
置へのアクセスを含む、請求項１ないし９のいずれか一項に記載のプロセッサ。
【請求項１１】前記複数のスレッド切替え制御イベントが、もう１つのプロセッサへのアクセ
スを含む、請求項１ないし１０のいずれか一項に記載のプロセッサ。
【請求項１２】前記複数のスレッド切替え制御イベントが、複数のスレッドのうちの前記１つ
の命令が実行されない状態で複数のスレッドのうちの前記１つが前記少なくとも
１つのマルチスレッド式プロセッサから切り替えられた回数のフォワード・プロ
グレス・カウントを含む、請求項２ないし１１のいずれか一項に記載のプロセッ
サ。
【請求項１３】前記複数のスレッド切替え制御イベントが、タイムアウト期間を含む、請求項
１ないし１２のいずれか一項に記載のプロセッサ。
【請求項１４】［取消］
【請求項１５】［取消］
【請求項１６】プロセッサ待ち時間イベントのためにマルチスレッド式プロセッサ（１００）
がストールした、プロセッサ・サイクルの第１の数をカウントするステップと、前記マルチスレッド式プロセッサ（１００）が命令の第１スレッドの処理を命
令の第２スレッドに切り替えるのに必要な、プロセッサ・サイクルの第２の数を
カウントするステップと、前記第１の数が前記第２の数より大きい場合に、ソフトウェア・プログラム可
能スレッド切替え制御レジスタ（４１０）内のイネーブル・ビットをセットする
ことによって、前記プロセッサ待ち時間イベントがスレッド切替え制御イベント
になるように割り当てるステップとを含む、前記ソフトウェア・プログラム可能スレッド切替え制御レジスタの内
容を決定する方法。
【請求項１７】前記イネーブル・ビットがイネーブルされている場合に、前記マルチスレッド
式プロセッサ（１００）が前記スレッド切替え制御イベントを経験した時に、ス
レッドを切り替える信号を出力するステップをさらに含む、請求項１６に記載の方法。
【請求項１８】［取消］
【請求項１９】［取消］
【請求項２０】［取消］
【請求項２１】［取消］