JP4568292B2 - キャッシュライン・ポーリングを実行する方法、装置、プログラム及び情報処理システム - Google Patents

キャッシュライン・ポーリングを実行する方法、装置、プログラム及び情報処理システム Download PDF

Info

Publication number
JP4568292B2
JP4568292B2 JP2007039392A JP2007039392A JP4568292B2 JP 4568292 B2 JP4568292 B2 JP 4568292B2 JP 2007039392 A JP2007039392 A JP 2007039392A JP 2007039392 A JP2007039392 A JP 2007039392A JP 4568292 B2 JP4568292 B2 JP 4568292B2
Authority
JP
Japan
Prior art keywords
load
memory location
store
cacheable memory
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007039392A
Other languages
English (en)
Other versions
JP2007249960A (ja
Inventor
チャールズ・レイ・ジョーンズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007249960A publication Critical patent/JP2007249960A/ja
Application granted granted Critical
Publication of JP4568292B2 publication Critical patent/JP4568292B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/3834Maintaining memory consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Advance Control (AREA)
  • Memory System (AREA)

Description

本発明は、一般にデータ処理システムの動作に関し、より具体的には、「ストア及び予約命令」と「予約喪失時のロード命令」を用いてキャッシュライン・ポーリングを実行する方法、システム、装置、及びプログラムに関する。
コンピュータが出現時したとき、情報処理システム(例えば、コンピュータ)は、単一のプロセッサ、システム・メモリ、並びに、ディスプレイ装置、キーボード、グラフィカル・ユーザ・インタフェース、入出力(I/O)デバイス(マウス、トラックボールなど)などの限られた数のコンポーネントを備えているだけだった。しかし、情報処理システム技術が発達するにつれて、共有システム・リソースに関する通信及び競合を介して相互にインタフェースするシステム・コンポーネントの数が劇的に増加している。従って、現代の通常の情報処理システムは、種々様々なシステム・コンポーネント(例えば、SMP、ASMP、NUMA、又は類似の構成を用いるマルチプロセッサ、コプロセッサ、直接メモリ・アクセス・コントローラ、及び各々が付加的なプロセッサ、レジスタ、及びメモリを有するI/Oデバイス)を含む可能性がある。
現代の情報処理システムにおけるシステム・コンポーネントの機能を調整するために、多くの方法が実施されている。割り込みサービス・ルーチン又はハンドラと結合された割り込みは、イベントの発生を伝達し示すために、情報処理システム・コンポーネントによって利用することができる。同様に、メモリ・マップI/O、及びポート又は「ポート・マップ」I/Oは、システム・コンポーネント(例えば、プロセッサと入出力デバイス)の間の通信手段を提供するために用いることができる。
情報処理システムのエレメント間の機能の調整は、入出力(I/O)動作を実行するためのエレメント間のデータ転送において特に重要である。例えば、情報処理システムのプロセッサが、入出力デバイス、又はマルチプロセッサ・システム内の別のプロセッサによる処理のために、バッファ内にデータをデポジットした後、データ提供プロセッサは、典型的には入出力デバイス又はデータ受取りプロセッサに対してバッファへのデータ転送が完了したことを通知する。通常の情報処理システムにおいては、そのような通知は典型的には、入出力デバイス又はデータ受取りプロセッサ内のメモリ・マップ入力/出力(MMIO)レジスタに、特定のデータ値を書き込むことによって実行される。関連するMMIOレジスタへの書込み動作が検出された後に、入出力デバイス又はデータ受取りプロセッサは直接メモリ・アクセス(DMA)を介してバッファからデータを取得することができる。
幾つかの通常の情報処理システムにおいては、データのDMA取得の完了はMMIOレジスタのポーリングを介して、又は割り込みを介して検出される。しかし、MMIOレジスタ・ポーリングも割り込みも、DMAの完了を検出するための効率的な機構ではなく、その理由は、割り込みのオーバーヘッドが比較的小さなバッファに対して普通は大き過ぎ、そしてMMIOレジスタ・ポーリングは、他の場合には全体のシステム・スループットを増加させるようにDMA転送のために用いることができるバス・バンド幅を、非効率的に利用するからである。
「キャッシュライン・ポーリング」として既知の、DMAの完了を検出するための別の通常の方法においては、入出力デバイスにバッファが利用可能であることを通知する(例えば、MMIOを介して)前に、普通バッファ・フラグ又はセマフォーとして既知のキャッシュ可能メモリ・ロケーションに、所定の「ビジー」標識データ値が書き込まれる。次にプロセッサは、対応するDMAの完了を検出するために、所定の「非ビジー」標示データ値に関してバッファ・フラグをポーリングする。データは既にプロセッサのキャッシュ内で変更されているので、キャッシュライン・ポーリングは如何なる追加のバス・アクティビティも発生させない。バッファからの(DMA)データ取得が完了した後、入出力デバイス又は受取りプロセッサはバッファ・フラグに「非ビジー」完了データ値を書き込む。新しいバッファ・フラグ値は、次に、それによってキャッシュ・メモリ内の「ビジー」標識バッファ・フラグ・データが無効化されるか又は新しい完了値で置き換えられる標準的なキャッシュ・コヒーレンシ・プロトコルを介して、データ提供プロセッサがアクセスすることが可能になる。
システムの見地からは、キャッシュライン・ポーリングは効率的なポーリング機構である。しかし、キャッシュライン・ポーリングを実行するために、データ提供プロセッサは、DMA転送が完了してバッファ・フラグ値が更新されるまで、一組の「ポーリング」命令を繰返して実行するので、貴重なシステム・リソース(例えば、プロセッサ・サイクル、バス・サイクル、電力、命令又はスレッド・ディスパッチ・スロットなど)を徒に消費してしまう。
ストア及び予約命令と予約喪失時のロード命令を用いてキャッシュライン・ポーリングを実行する方法、システム、装置、プログラム及び情報システムが開示される。ある実施形態においては、第1のキャッシュ可能メモリ・ロケーション内にバッファ・フラグ・ビジー標識データ値をストアするステップと、ストア及び予約命令を介して第1のキャッシュ可能メモリ・ロケーション上にロード/ストア・オペレーション予約を設定するステップとを含む方法が提供される。実施形態においては、第1のキャッシュ可能メモリ・ロケーション上のロード/ストア・オペレーション予約がリセットされているとの判断に応答して、予約喪失時のロード命令を介して、第1のキャッシュ可能メモリ・ロケーション内にストアされたデータ値がアクセスされる。逆に、第1のキャッシュ可能メモリ・ロケーション上のロード/ストア・オペレーション予約がリセットされていないとの判断に応答して、予約喪失時のロード命令の実行が停止される。
前述の開示は例証のためだけのものであって、如何なる限定をも意図したものではないことを当業者は認識するであろう。当業者にはやはり自明であるように、ここで開示される動作は、ハードウェア、ソフトウェア、又はそれらの組合せにおける実施を含む、多くの方法で実施することができ、それらの変更及び改変は、本発明及びそのより広い態様から逸脱することなく実施することができる。本発明の他の態様、発明の特徴、及び利点は、特許請求の範囲のみによって規定され、以下の詳細な説明において明白となるであろう。
本発明は、添付の図面を参照することによってより良く理解され、その多くの特徴と利点が当業者には明らかとなる。
添付の図面中の同じ又は類似の参照記号の使用は、類似の又は同一の項目を示すことを意図している。
以下に、ここで説明される1以上のシステム、デバイス及び/又はプロセスを実施するための少なくとも最も良く企図された様式の詳しい説明を記述する。説明は例証のためであって、限定するものと考えるべきではない。
以下の詳細な説明においては、特定の方法の順序、構造体、エレメント、及び接続などの多くの特定の詳細が記述される。しかし、これらの特定の詳細な説明は、本発明の実施形態を実行するのに必ずしも必要とは限らないことを理解されたい。また、説明を不必要に不明瞭にすることを避けるために、周知の構造体、要素、又は接続は省略されたり、又は詳細には説明されない場合がある。
本明細書中での「実施形態」に関する言及は、その実施形態に関連して説明される特定の特徴、構造体、又は特性が、本発明の少なくとも1つの実施形態に含まれることを示すためである。本明細書の種々の箇所におけるそれらの語句の出現は、必ずしも全てが同じ実施形態に言及するものではなく、また別々の又は代替の実施形態が他の実施形態と互いに両立しないことを意味するものでもない。さらに、幾つかの実施形態によって示され、他の実施形態によっては示されない種々の特徴が説明される。同様に、幾つかの実施形態には必要であるが、他の実施形態には必要でないこともある種々の事項が説明される。
本発明の実施形態は、ここで説明される方法、装置、情報処理システム、及びプログラムの中に具体化されて、キャッシュライン・ポーリングを実行するのに用いることができる、ストア及び予約命令と予約喪失時のロード命令を提供する。図1は、本発明の一実施形態による情報処理システムを含んだ通信ネットワークを示す。本発明の1以上の実施形態においては、説明されるようにストア及び予約(Store and Reservation、STAR)命令の後に実行される通常のロード(Load、LD)命令は、以前に設定されたロード予約が「喪失された」又はリセットされた後に、実行を完了してロード予約を設定するデータを返すことになるか、又はさもなければ普通は停止することになる。同様に、予約喪失時のロード(Load when Reservation lost、LDRL)命令は実行を完了して、対応するロード/ストア・オペレーション予約の喪失又はリセットの後でデータを返すことができる。1つの実施形態において、STAR及びLDRL命令は、プロセス・コンテキストが切り替わる間に予約の設定及びリセットを正しく管理するように、単一のキャッシュライン・ポーリングのルーチン・ループ内で組み合わせることができる。通常のロード命令ではなくLDRL命令の追加は、プログラム又はプロセッサが、不必要なプロセッサ・スレッドの停止をせずに、バッファ・フラグ・データ値の状態を検査することを可能にする。
図1に示されるように、システム101は、複数の情報処理システム(例えば、コンピュータ及びコンピュータ・デバイス)が接続しているネットワーク104を含む。本発明の種々の実施形態において、ネットワーク104は、LAN、インターネットなどのグローバル・ネットワーク、又は任意の他の通信ネットワークを含むことができる。図1の実施形態においては、ネットワーク104に接続する情報処理システムは、クライアント・コンピュータ106、サーバ・コンピュータ108、携帯情報端末(PDA)110、ディジタル・テレビ(DTV)112を備え、さらに図示されていない他の有線又は無線のコンピュータ及びコンピュータ・デバイスを備えることができる。示される実施形態においては、ネットワーク104のメンバーの情報処理システムによって用いられる処理エレメントは、普通のコンピュータ・モジュールから構築される。これらの処理エレメントはまた、全てが同じ命令セット・アーキテクチャ(Instruction Set Architecture、ISA)を有して共通のプロセッサ命令セットに従って処理を実行することが好ましい。
図1の実施形態において、任意の特定の処理エレメント内に含まれるコンピュータ・モジュールの数は、その処理エレメントが実行する情報処理に要求される処理能力に依存する。例えば、システム101のサーバ108は、クライアント106よりも多くのデータ及びアプリケーションの処理を実行するので、サーバ108はクライアント106よりも多くのコンピュータ・モジュールを含む。他方、PDA110は、比較的より少量の処理を実行する。示される実施形態においては、各々のコンピュータ・モジュールは1つの処理コントローラと、ネットワーク104上で伝送されるデータ及びアプリケーションの並列処理を実行するための複数の同一の処理ユニットを含む。
システム101のこの均質な構成は、適応性、処理速度、及び処理効率を促進する。システム101の各々のメンバーは1以上の(又はある部分)の同じコンピュータ・モジュールを用いて処理を実行するので、データ及びアプリケーションの実際の処理を実行する特定のコンピュータ又はコンピュータ・デバイスは、通常のシステムにおけるよりも関連性が少ない。特定のアプリケーション及びデータの処理は、さらに、ネットワークのメンバーの間で分担することができる。システム101によってシステム全体で処理されるデータ及びアプリケーションを含んだセルを一義的に識別することにより、処理結果は、その処理がどこで実施されたかに関らず、処理を要求しているコンピュータ又はコンピュータ・デバイスに伝送することができる。この処理を実行するモジュールは共通の構造体を有し、共通のISAを用いるので、処理エレメント間の互換性を達成するためのソフトウェアの追加層の計算負担は避けられる。このアーキテクチャ及びプログラミング・モデルは、実時間マルチメディア・アプリケーションなどを実行するのに必要な処理速度を促進する。
システム101によって促進される処理速度及び効率の更なる利点を利用するために、このシステムによって処理されるデータ及びアプリケーションは一義的に識別される均一にフォーマットされたソフトウェア・セル102の中にパッケージされる。各々のソフトウェア・セル102は、アプリケーションとデータの両方を含み、又は含むことができる。各々のソフトウェア・セル102はまた、ネットワーク104及びシステム101全体にわたってセルをグローバルに識別するためのIDを含む。このソフトウェア・セルの構造の均一性、及びソフトウェア・セルのネットワーク全体にわたる一義的な識別性は、ネットワーク104の任意のコンピュータ又はコンピュータ・デバイス上のアプリケーション及びデータの処理を促進する。例えば、クライアント106はソフトウェア・セル102を策定することはできるが、クライアント106の限られた処理能力のゆえに、このソフトウェア・セルを処理のためにサーバ108に伝送することができる。従って、ソフトウェア・セルは、ネットワーク上の処理リソースの利用可能性に基づく処理のために、ネットワーク104のいたるところに移動することができる。
システム101の処理エレメントとソフトウェア・セルの均一な構造はまた、今日の異機種ネットワークの多くの問題を回避する。例えば、任意の命令セット、例えばJAVA(登録商標)仮想マシンなどの仮想マシンを用いる任意のISA上でのアプリケーション処理の許可を探し求める非効率なプログラミング・モデルが避けられる。従って、システム101は、通常のネットワークよりも遥かに効果的且つ効率的にブロードバンド処理を実行することができる。
図2は、本発明の一実施形態による情報処理システムの高次レベルのブロック図を示す。図2の情報処理システムに関して、エレメントの特定の数と配置が示されているが、本発明の実施形態は、コンポーネントの如何なる特定の数、型、又は配置を有するデータ処理システムには限定されず、それ故その多くは種々様々なデータ処理システムの型、アーキテクチャ、及びフォーム・ファクタ(例えば、ネットワーク・エレメント又はノード、パーソナル・コンピュータ、ワークステーション、サーバ、など)を包含する。
図2の図解された情報処理システムは、本発明の例示的な態様を実施できるCell Broadband Engine(CBE)アーキテクチャの一例である。図2に示されるように、CBE200は、高帯域幅の内部エレメント接続バス(EIB)286を介する通信で互いに接続される、Power Processor Element(PPE)210と、多数のSynergistic Processor Element(SPE)220−234と、ここで更に説明される付加的なシステム・エレメントとを含む。説明される実施形態のCBE200はさらに、示されているように、バス・インタフェース・コントローラ(BIC)287を介してEIBに接続する1以上の外部バス又はデバイス290と、メモリ・インタフェース・コントローラ(MIC)288を介してEIB286に接続する共有メモリ289を含む。
CBE200は、図2に図解されたエレメントの各々を単一のマイクロプロセッサ・チップ上に備え付けることのできるシステム・オン・ア・チップとすることができる。さらに、1つの実施形態においてCBE200は、SPE220−234の各々がシステム内の他のSPEの各々から異なる命令を受信することのできる異機種処理環境として提供される。さらに、SPEの各々の命令セットはPPE210の命令セットとは異なり、例えば、PPE210はReduced Instruction Set Computer(RISC)ベースの命令を実行することができ、一方SPE220−234はベクトル化された命令を実行することができる。
図2の説明される実施形態においては、SPE220−234は、EIB286を介して、相互に及びPPE210に接続される。さらに、SPE220−234は、それぞれEIB286を介して、MIC288とBIC287とに接続される。MIC288は共有メモリ289への通信インタフェースを提供する。共有メモリ289は、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、フラッシュ・メモリなどの多くのシステム・メモリ型ストレージ・エレメントの何れをも含むことができる。BIC287は、CBE200と他の外部バス及びデバイス290との間の通信インタフェースを提供する。例示的な外部デバイスには、キーボード、ディスプレイ、プリンタ、カーソル制御デバイス(例えば、トラックボール、マウス、タブレットなど)、スピーカー、及びマイクロフォンなどの伝統的なI/Oデバイスと、固定又は「ハード」磁気媒体ストレージ・デバイス、光学ストレージ・デバイス(例えば、CD又はDVD ROM)、固体ストレージ・デバイス(例えば、USB,Secure Digital SD(登録商標)、CompactFlash(登録商標)、MMCなど)、フロッピー(登録商標)・ディスク及びテープなどの取外し可能磁気媒体ストレージ・デバイス、又は他のストレージ・デバイス又は媒体などのストレージ・デバイスと、有線又は無線通信デバイス又は媒体(例えば、モデム又はダイレクト・ネットワーク・インタフェースを介してアクセスされる通信ネットワーク)とが挙げられる。
本発明の1つの実施形態においては、PPE210はデュアル・スレッド処理エレメントである。このデュアル・スレッドPPE210と8個のSPE220−234との組合せが、10個の同時のスレッドと228を越える未解決のメモリ要求を処理することができるCBE200を構成する。通常の動作環境においては、PPE210は、計算作業負荷の殆どを処理する8個のSPE220−234のコントローラとして機能する。例えば、SPE220−234がベクトル化された浮動小数点コード実行を実行する間に、PPE210は1以上の通常のオペレーティング・システムを実行するために用いることができる。
1つの実施形態においては、PPE210はPower Processor Unit(PPU)又はコア、並びに、関連するレベル1(L1)及びレベル2(L2)のキャッシュ(図示せず)を備え、SPE220−234の各々は、協働プロセッサ・ユニット(SPU)と、メモリ・フロー制御ユニットと、ローカル・メモリ又はストアと、直接メモリ・アクセス(DMA)コントローラ、メモリ管理ユニット(MMU)、及びバス・インタフェース・ユニット(図示せず)の組合せを含むバス・インタフェース・ユニットを備える。1つの例示的な実施形態においては、ローカル・メモリ又はストアは、PPE210には認識可能でありソフトウェアによって直接アドレス指定することのできる、256KBの命令及びデータ・メモリを備える。
PPE210は、複雑な動作における各々のステップを協働で処理するようにSPEを連結して、小さなプログラム又はスレッドをSPE220−134に読み込むことができる。例えば、CBE200を組み込んだセット・トップ・ボックスは、DVDの読み取り、ビデオ及び音声のデコード、及びディスプレイのためのプログラムを読み込むことができて、そのデータは最終的に出力ディスプレイ上で終るまでSPEからSPEへと運ばれることになる。4GHzにおいて、各々のSPE220−234は、理論的に、PPE210が有するのと同じレベルの性能である32GFLOPSの性能を与える。動作に際しては、PPE210は命令を実行して、MIC288を介して共有メモリからそれ自体のローカル・レジスタ又はキャッシュ内に取得したデータを取り扱う又は処理することができる。同様に、外部デバイス290は、例えばBIC287と、SPE220−234内の1以上のDMAコントローラとを介して、共有メモリ289にアクセスすることができる。
図3は、本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令を用いてキャッシュライン・ポーリングを実行する機能をもつ情報処理システムの選択された部分のブロック図表示を示す。本説明において、図2及び図3の情報処理システムの間で、対応するシステム・エレメントを示すために類似の参照数字が用いられている。例えば、図3の説明される実施形態のPPE310は、図2のPPE210に対応する。図3の情報処理システム300はPPE310を含み、PPE310はEIB386を介して、共有メモリ389と外部デバイス390とに、それぞれMIC388とBIC387を用いて、接続されている。
図3の説明される実施形態においては、共有メモリ389は、示されるようにバッファ・フラグ・データ値を指定するデータを含んだキャッシュ可能メモリ・ロケーション336を含む。PPE310は、示されるようにL1キャッシュ312とL2キャッシュ314に階層的に接続されたPower Processor Unit(PPU)316を含む。図3の実施形態においては、PPU316は多くの機能性ユニットとデータ・ストレージ・エレメントを含む。より具体的には、PPU316は、メモリ・アクセス命令(例えば、メモリからのロード及びメモリへのストア)を実行するのに用いられるロード/ストア・ユニット318と、ビット形式のデータ又はPPU316の現在の状態を示すフラグを格納して、特定のデータ処理又は情報処理動作の結果(例えば、データ・オーバーフロー又はアンダーフロー、正又は負の結果など)を反映する状態レジスタ320とを備える。
L1キャッシュ312及びL2キャッシュ314の各々は、キャッシュ管理ユニット(CMU)(例えば、L1キャッシュ312のCMU322、及びL2キャッシュ314のCMU328)と、ストレージ・エレメント(例えば、L1キャッシュ312のストレージ・エレメント324、及びL2キャッシュ314のストレージ・エレメント332)を含む。CMU322及び328は、それぞれ、ストレージ・エレメント324及び332のうちの対応する1つの中でのデータ及び/又は命令のストレージを制御するために用いられて、例えば、キャッシュライン置換アルゴリズム、キャッシュライン状態又は状態メタデータの更新などを実行する。次に、ストレージ・エレメント324及び332は、アプリケーション・データ及び/又は命令と、附随するメタデータ(例えば、キャッシュ・タグ、状態ビットなど)とを含むデータのライン又はブロックをストアするのに用いられる。CMU322及び328は、それらそれぞれのキャッシュの統合ユニット又はモジュールとして描かれているが、本発明の代替の実施形態においては、CMU322及び/又は328、又はそれらの機能性は、他の構成(例えば、PPU316内の、一体化したL1キャッシュ312及びL2キャッシュ328の中に、別々のユニット又はモジュールとして、或いはそれらの組合せとして)で提供することもできる。
本発明の1つの実施形態によれば、ここで説明されるように、PPU316は、「ストア及び予約(STAR)命令」と「予約喪失時のロード(LDRL)命令」の実行を介してキャッシュライン・ポーリングを実行するのに用いることができる。動作においては、PPU316のロード/ストア・ユニット318は、初めに、「ビジー」バッファ・フラグ標識データ値(例えば、0xBB)を指定するデータを、破線338で示されるように、共有メモリ389のキャッシュ可能メモリ・ロケーション336内に格納させるSTAR命令を実行するのに用いることができる。説明される実施形態においては、STAR命令は、関連する外部デバイス390(例えば、グラフィックス・デバイス)に、そのデバイスが取得するべきデータが関連するバッファ内(例えば、共有メモリ389の専用部分、又は情報処理システム300の中若しくは外部の他のメモリ)に格納されたという信号を送る。本発明の他の実施形態においては、データがキャッシュ可能メモリ・ロケーション336内に格納されているバッファ・フラグに書き込まれたこと、及び、バッファからのデータ取得が開始可能であることを、外部デバイス390に通知するために追加の動作(例えば、例外又は割り込みの生成、シグナリング、MMIO書込み動作など)を用いることができる。
ひとたびPPU316がSTARを実行すると、共有メモリ389のキャッシュ可能メモリ・ロケーション336内に格納されているデータを、PPU316内のレジスタ(例えば、汎用レジスタ)(図示せず)内に格納するLDRL命令を実行することのできるPPE310を用いて、キャッシュライン・ポーリングは継続して実行することができる。ここでさらに説明されるように、STAR及び/又はLDRL命令は、L2キャッシュ314内の予約レジスタ330内に指定のデータ値を格納することによって、予約を設定させることができる。1つの実施形態においては、予約レジスタ330の予約ビット内と、予約に関連するメモリ領域(例えば、共有メモリ389のキャッシュ可能メモリ・ロケーション336に関連する指定メモリ・ロケーション又は領域)内とに論理「l」を格納することによって、予約が設定される。実施形態においては、予約レジスタ330内の予約の設定及びリセットは、状態レジスタ320内の対応する予約状態ビットの設定又はリセットをもたらす。予約レジスタ330は、L2キャッシュ314のCMU328内にあるように示されているが、本発明の代替の実施形態においては、それらの予約レジスタ又はデータは、情報処理システム300内の他所(例えば、L1キャッシュ312、PU316、異なるバス/EIBインタフェース・ユニットなどの内部)に格納することができる。
予約が設定された後、LDRL命令は、状態レジスタ320内の対応する予約状態ビットによって示されるように、多くの情報処理システム・イベントのうちの1以上の出現に続いて予約がクリア又は「リセット」されるまで停止させられる(例えば、実行又は発行/完了動作から一時的に中断される)。1つの実施形態においては、破線340によって示されるキャッシュ可能メモリ・ロケーション336への書込み(例えば、外部デバイス390による)の試行、要求、又は実行の検出に続いて、キャッシュ・スヌープ動作を用いてL2キャッシュ314のCMU328により、予約をリセットすることができる。ひとたび外部デバイス390がキャッシュ可能メモリ・ロケーション336内に格納されているバッファ・フラグ・データを変更して、予約をリセットさせて喪失させると、以前に停止されたLDRL命令は再開することができ、L1キャッシュ312とL2キャッシュ314のそれぞれのストレージ・エレメント324と332の内への、そして最終的にはPPU316内の指定されたレジスタ内への、バッファ・フラグ・データ値の階層的ストレージを生じる。
ここで更に詳しく説明されるように、ひとたびLDRL動作が成功裡に完了すると、取得されたバッファ・フラグ・データ値は、既知の「ビジー」及び/又は「非ビジー」バッファ・フラグ標識データ値と比較することができる。比較は、外部デバイス390による、関連するバッファ内に以前に格納されたデータの取得(例えば、DMA転送を介して)が、例えば、関連するバッファが外部デバイス390への追加のデータ転送のために再利用できるように、完了したかどうかを判断するのに利用することができる。
図4は、本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令に関する予約を管理する状態マシンの状態図を示す。説明される「状態マシン」は、従って、情報処理システム(例えば、図3の情報処理システム300)の1以上のエレメントによって実行される動作、又はその中に組み込まれる機能性を表す。1つの実施形態においては、そのような機能性は図3のPPU316のようなプロセッサ・エレメント又はユニットに組み込まれ、他の実施形態においては、そのような機能性は、関連する情報処理システムの動作を監視及び制御することのできる独立の又は追加のシステム・エレメント内に具体化することができる。本発明の1つの実施形態においては、図4の状態図によって表される機能性は、開始又はサポートされる各々のハードウェア・スレッドに関してインスタンス化される。
図4に示されるように、状態マシン400は5つの別々の状態、即ち、状態S0、状態S1、状態S2、状態S3、及び状態S4を有する。1つの実施形態においては、バッファ・フラグ「ビジー」標識データ値を設定するため、及びアクセスされるバッファ・データの状態を初期化するために、ストア命令を用いることができる。別の実施形態においては、ストア命令はさらにロード予約を設定するために用いることができる。
初期状態S0において状態マシン400は、条件付きロード命令(例えば、予約喪失時のロード命令)を受け取った後、バッファ・フラグのキャッシュラインのアドレスを記録し、状態S1に移行する。条件付きロードは、バッファ・フラグをストアしているキャッシュラインに対応するアドレスをターゲットとする。複数のロード予約が同時に存在することが可能である。
キャッシュ状態検査の状態S1においては、キャッシュ・メモリの状態が検査される。バッファ・フラグを格納しているキャッシュラインが無効である場合には、状態マシン400は状態S4に移行する。バッファ・フラグを格納しているキャッシュラインが変更又は共有される場合には、状態マシン400は状態S2に移行する。
予約喪失を待つ状態S2においては、状態マシン400は、ロード・オペレーションに関するロード予約が存在する間はアイドル状態にとどまる。ロード予約が喪失された後に、状態マシン400は状態S4に移行する。
キャッシュ・メモリは、そのキャッシュラインの1つに他のプロセッサがアクセスしているかどうかを検出する機構を有する。通常、この機構はスヌープ・マシンと呼ばれる。同様のプロセスは、キャッシュラインが他のプロセッサ又はデバイスによって変更されているかどうかを判断するために、状態マシン400によって用いることができる。さらに、状態マシン400は、同じプロセッサの又はキャッシュ・メモリを共有する他のプロセッサの別のスレッドによる、バッファ・フラグへのストア命令を監視する。
状態S2からの唯一の終了が、バッファ・フラグを格納するキャッシュラインが変更されることによる場合には、プロセッサは潜在的にデッドロック状態(プロセスの進行が完全に停止した状態)となる可能性がある。本発明の1以上の実施形態においては、潜在的なデッドロック状態を避けるために、ロード予約が失われていない場合でも状態マシン400が状態S4に移行するように、他の終了条件が加えられる。例えば、状態S2から状態S4への移行を開始する又は引き起こすのに、割り込みを用いることができる。割り込みが、実施形態における停止されたプロセッサ又はプロセッサ・スレッドに向けられる場合には、状態マシン400は、割り込みを処理できるように状態S4に移行することになる。割り込みが処理されない場合には、プロセッサ又は他のデバイスは決してバッファ・フラグを更新することはできない。
別の例示的な実施形態においては、状態S2から状態S4への移行を引き起こすのにタイムアウト処理を用いることができる。状態S2と状態S4の間で起こる移行に関して容認できないほどの長時間の待ちを避けるために、キャッシュライン・ポーリングの時間に関するタイムアウト処理を起動するのにソフトウェアを用いることができる。タイムアウト処理のオプションにより、状態マシン400は、指定された時間の後、状態S400に出ることになる。本発明の代替の実施形態においては、タイムアウト値は予め設定するか、又は予約喪失時のロード命令のパラメータとして設定することができる。
図4の説明される状態図においては、予約喪失(プロセッサのキャッシュ内にはないバッファ・フラグ)待ち状態S3は、バッファ・フラグをストアするキャッシュラインが、同じキャッシュラインを要求する他のロード命令又はストア命令によってキャストアウトされる場合に移行することができる。状態S3は、バッファ・フラグがプロセッサのキャッシュ・メモリに格納されないことを除いて、実質的に前述の状態S2と同じである。状態S2に関するのと同じ終了条件が状態S3に関して存在するが、バッファ・フラグを格納するキャッシュラインは、状態S3におけるプロセッサのキャッシュ内では、もはや有効(即ち、変更又は共有さている)ではないとマーク付けされる。1つの実施形態において、キャッシュラインのキャストアウト・オペレーションが予約のリセットを引き起こし得るときには、状態S3は削除することができる。別の実施形態においては、キャッシュ・メモリがシステム・バスからデータをプリロード(例えば、キャッシュ注入)する場合には、状態S3から状態S2へ戻る移行が起り得る。
データ転送状態S4においては、バッファ・フラグを格納するキャッシュラインの状態が検査されて、バッファ・フラグを格納するキャッシュラインが有効データ(即ち、変更された又は共有された)を含むかどうかが判断される。もしそうであれば、データはプロセッサに転送され、状態マシン400は状態S0に再入する。これは、ロード予約の喪失が別のイベント(例えば、割り込み又はタイムアウト)によって引き起こされるために、バッファ・フラグ・データがプロセッサ又はデバイスによっては変更されない場合である。この場合、バッファ・フラグは「ビジー」標識データ値を指定するデータを含み、比較命令が実行されることになる。割り込みが処理待ちの場合には、割り込みは次に処理されることになる。割り込みが戻るとき、返されたデータが「ビジー」標識データ値であった場合には、分岐が行われることになる。分岐が行われる場合、キャッシュライン・ポーリング・ルーチンを開始するロード予約が、再びロード予約プロセスを開始する。
バッファ・フラグを格納するキャッシュラインが無効データを含む場合には、「ロード失敗」が生成され、バスを介してバッファ・フラグ・データが共有メモリから要求される。バッファ・フラグ・データが返されたとき、そのデータはプロセッサに転送され、キャッシュ・メモリの状態が更新される。状態マシン400は次に状態S0に移行する。このプロセスは、キャッシュ・メモリ内で失敗した正規のロード・オペレーションと同じである。この場合、データは、「非ビジー」標識データ値(例えば、0xBC又は0xBBとは異なる任意の値)を含むようにデバイスによって変更されている。
その後、比較命令が実行される。返されたデータが「ビジー」標識データ値を指定しない場合には、分岐は行われず、キャッシュライン・ポーリング・ルーチンが終了して、外部デバイスが関連するバッファからのデータの検索を完了したことを示す。
予約喪失をもたらし得る幾つかの条件には、予約喪失時のロード命令のアドレスによって参照されるキャッシュライン含有データの無効化、同じプロセッサ又は同じキャッシュ・メモリを共有する別のプロセッサによる予約喪失時のロード命令のアドレスに関連するデータの変更、予約喪失時のロード命令を以前に実行していた停止されたスレッドに対する割り込みの表示、同じプロセッサ又はS3状態が前述されたキャッシュを共有する別のプロセッサのメモリ動作によって生じる通常のキャッシュライン置換/排出/キャストアウト、或いは、1以上の他の終了条件(例えば、条件付きロード命令に対するタイムアウト)の発生が含まれる。
実施形態において、キャッシュラインの無効化は、そこに格納されているデータを変更する目的でキャッシュラインを読み取るデバイス又は別のプロセッサによって、又は、キャッシュラインに書き込む(フラッシュによる書込み)デバイス又は他のプロセッサによって、もたらされる可能性がある。
バッファ・フラグ又はセマフォーは、ここではキャッシュ可能メモリ・ロケーション内に格納されるように説明されているが、代替の実施形態においては、メモリ・ロケーションはキャッシュ可能である必要はない。より具体的には、本発明の方法又はプロセスは、プロセッサが、バッファ・フラグ含有メモリ・アドレスを更新するデバイスをスヌープする手段を有する限りは、非キャッシュ可能メモリ・ロケーション内に配置されるバッファ・フラグに対して適用することも可能である。非キャッシュ可能メモリ・ロケーション内のバッファ・フラグの位置見出は、状態S3の存在によって明白にされる。状態3においては、バッファ・フラグはプロセッサ・キャッシュ内で有効ではないが、これは非キャッシュ可能フラグに対して存在することになるのと同じ状態である。
図5は、本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令を用いてキャッシュライン・ポーリングを実行するプロセスのフロー図を示す。例として記述されたプロセスの実施形態は、図3の情報処理システム300のシステム・エレメントに関連して説明されることになる。初めに、図5の説明されるプロセスの実施形態において、PPU316のロード/ストア・ユニット318は、共有メモリ389内のバッファをデータ(例えば、外部デバイス390によって取り扱われる又は処理されるデータ)で充填する(プロセス・ブロック502)。本発明の代替の実施形態においては、データのバッファへの転送は、1以上のSPE220−234内に準備されるDMAコントローラ又はエンジンを利用して実行することができる。その後、ロード/ストア・ユニット318がストア及び予約命令を実行する(プロセス・ブロック503)。説明されるプロセスの実施形態において、STAR命令の実行は、「ビジー」標識データ値を指示又は指定するデータを、共有メモリ389のキャッシュ可能メモリ・ロケーション336内にストアし(プロセス・ブロック504)、予約レジスタ330を用いて予約を「設定する」(プロセス・ブロック506)。
その後、外部(例えば、I/O)デバイス390は、関連するデータ・バッファがアクセスされる準備ができた(図示せず)ことを通知される(例えば、MMIOレジスタへの書込み、例外、割り込み、トラップなどの発生によって)ことができる。或いは、そのような通知は、前述のように、単にキャッシュ可能メモリ・ロケーション336内へのバッファ「ビジー」標識データ値のストアによって行うこともできる。ロード/ストア・ユニット318は次に予約喪失時のロード(LDRL)命令を実行することができる(プロセス・ブロック507)。図5に示されるように、LDRL命令の実行は、予約がリセットされたかどうかを判断し(プロセス・ブロック508)(例えば、状態レジスタ320内のフラグの1以上のビットを検査することによって)、予約がリセットされる(例えば、外部デバイス390によるキャッシュ可能メモリ・ロケーション336のバッファ・フラグ内への「非ビジー」標識データ値の格納を介して)までLDRL命令の更なる実行を停止するか、或いは、ひとたび予約がリセットされると、キャッシュ可能メモリ・ロケーション336内に格納されているバッファ・フラグ・データをPPU316のレジスタ内に読み込む(プロセス・ブロック510)。予約がリセットされるときの決定を描くために連続的なループが用いられているが、プロセッサ(単一スレッドのユニ又はマルチプロセッサ・システム)又は関連するスレッド(マルチ・スレッドのプロセッサ・システム)のどちらによっても何ら実際の命令は実行されておらず、従って、通常のキャッシュライン・ポーリング法を用いた場合には浪費される貴重な処理能力及び電力が節約されることを認識されたい。
その後、PPU316の固定小数点実行ユニット(図示せず)が、キャッシュ可能メモリ・ロケーション336のバッファ・フラグ・データが読み込まれたPPU316のレジスタのコンテンツを、指定された「ビジー」標識データ値と比較する(プロセス・ブロック512)。次に、PPU316の分岐ユニット(図示せず)は比較結果を利用して、レジスタのコンテンツが「ビジー」標識データ値と一致するかどうかを判断する(プロセス・ブロック514)。その後、描かれたプロセス実施形態は、レジスタのコンテンツが既知の「ビジー」標識データ値と一致しないとの判断に応答して完全にリスタートされるか、又は、LDRL命令実行の点に再入される(プロセス・ブロック507)。
図5に図解された動作は、特定のシステム・エレメントに関して説明されているが、そのような動作を実行するのに用いられる実際のエレメントは、本発明のプロセス実施形態には重要ではない。さらに、代替の実施形態においては、それらの動作は任意の情報処理システムによって実行することができる。同様に、図5に描かれたフロー図は、特定の動作順序、及びプロセス動作の特定の細分度を示すが、代替の実施形態においては説明される順序は変えることができ(例えば、プロセス動作は別の順序で実行するか、又は実質的に並列に実行することができる)、そして1以上のプロセス動作は合体させるか、又は細分化することができる。同様に、本発明の代替の実施形態において必要な場合には、追加のプロセス動作を加えることができる。
本発明の実施形態は、ソフトウェア、情報処理ハードウェア、及び、ここで更に説明される種々のプロセス動作を含むことができる。本発明の種々の実施形態の特徴とプロセス動作は、共有メモリ289、ストレージ・デバイス、通信デバイス又は媒体などの機械可読媒体内に具体化された実行可能命令の中に具体化することができる。機械可読媒体は、データをマシン(例えば、CBE200)による可読な形式でデータを提供する(即ち、ストアする及び/又は伝送する)任意の機構を含むことができる。
例えば、機械可読媒体は、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、磁気ストレージ媒体、光学ストレージ媒体、フラッシュ・メモリ・デバイス、電気的、光学的、及び/又は音響的伝播信号(例えば、搬送波、赤外信号、ディジタル信号など)などを含むが、それらに限定はされない。実行可能命令は、その命令をもつプログラムを与えられた汎用又はPPU316のような専用プロセッサに、本発明の動作、方法又はプロセスを実行させるために用いることができる。或いは、本発明の特徴又は動作は、それらの動作を実行するハード・ワイヤード(hard−wired)論理回路を含む特定のハードウェア・コンポーネントによって、又はプログラムされたデータ処理コンポーネントと特注のハードウェア・コンポーネントの任意の組合せによって、実行することができる。
図6は、本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令を介するプロセス間通信を用いてキャッシュライン・ポーリングを実行するプロセスの実行フロー図を示す。図6の実行フロー図に描かれるように、少なくとも2つのプロセス(プロセスAとプロセスB)の実行が、時間周期にわたってインターリーブされる。プロセスAのコンテキスト内のSTART命令の実行の後、プロセスBのコンテキストの実行へのコンテキスト切替えが起る。プロセスBのコンテキスト内の対応するSTART命令の実行は、プロセスAによって以前に保持された既存の予約をリセットし、そしてプロセスBの予約を設定する。次にプロセスBのコンテキストによるLDRL命令の実行は、LDRL命令(プロセスBの予約)の標的アドレスに対する予約が存在する場合に停止し、LDRLによって何のデータも返されない。
次に、別のプロセス・コンテキスト切替えが起こり、バッファ・フラグ・データ値が依然としてバッファ・ビジー状態を示しているとの判断に基づいて、プロセスBのLDRL命令に対してデータを返し、ループ入りをもたらす。プロセスAへ戻るコンテキスト切替えに続いて、そこで再入力されたLDRL命令によって、データが返される。図6の例示的な実施形態においては、返されたデータはバッファ・ビジー状態を示し、LDRL命令の再実行を含むループ実行をもたらし、プロセスAのために別の予約を設定させるようにする。プロセスAは次にLDRL命令において、データ(バッファ非ビジー状態を示す)が返されてプロセスAに関するキャッシュライン・ポーリング・ループが、示されるように終了される時点で予約がリセットされるまで、停止させられる。
プロセスBへ戻るコンテキスト切替えにより、データは再びそこで再入力されたLDRL命令によって返され、対応する予約が再び設定される。示されるように、バッファ・ビジー状態を示すデータがこの時点で返されて、ループが再入されるようにする。再入により、LDRL命令は、予約状態に基づいてバッファ・フラグ・データ値が変更される(例えば、外部デバイスによって)まで停止するが、その際、バッファ非ビジー状態を示すデータが、プロセスBのキャッシュライン・ポーリング・ルーチンが終了する時点に返される。用語「プロセス」及びプロセス・コンテキスト切替えがここで用いられているが、他の実行コンテキスト(例えば、軽量プロセス、スレッド、ファイバなど)を用いることもできることを認識されたい。
本発明の実施形態は、十分に機能的なデータ処理システムの文脈において説明されている。しかし、当業者は、本発明は種々の形態のコンピュータ・プログラムとして配布することが可能であり、配布を実施するのに用いられる信号保持媒体の特定の型にはよらずに等しく適用され得ることを認識するであろう。そのような信号保持媒体の例は、フロッピー(登録商標)・ディスク及びCD−ROMなどの記録可能媒体、ディジタル及びアナログ通信リンクなどの伝送型媒体、および将来開発される媒体ストレージ及び配布システムを含む。本発明の実施形態は、特定の動作又はタスクを実行するのに用いられるソフトウェア・モジュールを利用して、同様に実施することができる。ソフトウェア・モジュールは、スクリプト型、バッチ型、又は他の実行可能なファイルを含むことができ、機械可読又はコンピュータ可読媒体上に格納することができる。従って、モジュールは、ソフトウェア・モジュールの1以上の機能を実行するためにデータ処理又はコンピュータ・システムを構成するようにコンピュータ・システム・メモリ内に格納することができる。他の新しい種々の型の機械又はコンピュータ可読ストレージ媒体も、ここで論じられたモジュールを格納するのに用いることができる。
本発明の特定の実施形態が示され、説明されているが、ここでの教示に基づいて、本発明及びそのより広い態様から逸脱することなしに、変更及び改変を施すことができることは、当業者には明白であろう。従って、特許請求の範囲は、その範囲内に全ての変更及び改変を本発明の真の精神と範囲内にあるものとして包含するものである。本発明の実施形態は、全ての点における均等物に対する完全な認識を与えるものであり、本発明が特許請求の範囲のみによって限定され他の記載によっては限定されないことが意図されている。
本発明の一実施形態による情報処理システムを含む通信ネットワークを示す。 本発明の一実施形態による情報処理システムの高次レベルのブロック図を示す。 本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令を用いてキャッシュライン・ポーリングを実行する機能をもつ情報処理システムの選択された部分のブロック図による表示を示す。 本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令に関する予約を管理する状態マシンの状態図を示す。 本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令を用いてキャッシュライン・ポーリングを実行するプロセスのフロー図を示す。 本発明の一実施形態による、ストア及び予約命令と予約喪失時のロード命令を介するプロセス間通信を用いて、キャッシュライン・ポーリングを実行するプロセスの実行フロー図を示す。
符号の説明
101:システム
102A、102B、102C、102D:ソフトウェア・セル
104:ネットワーク
106A、106B:クライアント・コンピュータ
108A、108B:サーバ・コンピュータ
110A、110B:携帯情報端末
112:ディジタル・テレビ
200:Cell Broadband Engine
210、310:Power Processor Element
220−234:Synergistic Processor Element
286、386:エレメント接続バス
287、387:バス・インタフェース・コントローラ
288、388:メモリ・インタフェース・コントローラ
289、389:共有メモリ
290、390:外部バス/デバイス
300:情報処理システム
312、314:キャッシュ
316:パワー・プロセッサ・ユニット
318:ロード/ストア・ユニット
320:状態レジスタ
322、328:キャッシュ管理ユニット
324、332:ストレージ・エレメント
330:レジスタ
336:キャッシュ可能メモリ・ロケーション
338、340:破線
400:状態マシン
S0−S4:状態

Claims (9)

  1. キャッシュライン・ポーリング・オペレーションを実行する方法であって、
    第1のキャッシュ可能メモリ・ロケーション内にバッファ・フラグ・ビジー標識データ値をストアし、ストア及び予約命令を介して前記第1のキャッシュ可能メモリ・ロケーション上にロード/ストア・オペレーション予約を設定するステップと、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされたとの判断に応答して、条件付きロード命令を介して、前記第1のキャッシュ可能メモリ・ロケーション内にストアされているデータ値にアクセスするステップと、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされていないとの判断に応答して、前記条件付きロード命令の実行を停止するステップと、
    を含む方法。
  2. 前記第1のキャッシュ可能メモリ・ロケーション内に格納されている前記データのアクセスに応答して、該第1のキャッシュ可能メモリ・ロケーション内に格納されている前記データ値を前記バッファ・フラグ・ビジー標識データ値と比較するステップをさらに含む、請求項1に記載の方法。
  3. プロセス・コンテキスト切替えを検出するステップと、
    前記プロセス・コンテキスト切替えの検出に応答して、前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約をリセットするステップ
    をさらに含む、請求項1に記載の方法。
  4. 前記ストア及び予約命令を介して前記第1のキャッシュ可能メモリ・ロケーション上に前記ロード/ストア・オペレーション予約を設定するステップは、
    第2のキャッシュ可能メモリ・ロケーション上の以前のロード/ストア・オペレーション予約をリセットするステップと、
    前記以前のロード/ストア・オペレーション予約がリセットされたとの判断に応答して、前記第1のキャッシュ可能メモリ・ロケーション上に前記ロード/ストア・オペレーション予約を設定するステップと、
    を含む、請求項1に記載の方法。
  5. 前記条件付きロード命令は、予約喪失時のロード命令を含む、請求項1に記載の方法。
  6. 情報処理システム内でキャッシュライン・ポーリング・オペレーションを実行するための装置であって、
    第1のキャッシュ可能メモリ・ロケーション内にバッファ・フラグ・ビジー標識データ値をストアし、ストア及び予約命令を介して前記第1のキャッシュ可能メモリ・ロケーション上にロード/ストア・オペレーション予約を設定するための手段と、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされたとの判断に応答して、条件付きロード命令を介して、前記第1のキャッシュ可能メモリ・ロケーション内にストアされているデータ値にアクセスするための手段と、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされていないとの判断に応答して、前記条件付きロード命令の実行を停止するための手段と、
    を備える装置。
  7. 情報処理システム内のキャッシュライン・ポーリングを実行するためのプログラムであって、
    第1のキャッシュ可能メモリ・ロケーション内にバッファ・フラグ・ビジー標識データ値をストアし、かつ、ストア及び予約命令を介して前記第1のキャッシュ可能メモリ・ロケーション上にロード/ストア・オペレーション予約を設定するステップと、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされたとの判断に応答して、条件付きロード命令を介して、前記第1のキャッシュ可能メモリ・ロケーション内にストアされているデータ値にアクセスするステップと、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされていないとの判断に応答して、前記条件付きロード命令の実行を停止するステップと、
    を実行させる、プログラム。
  8. 第1のキャッシュ可能メモリ・ロケーションを含むメモリと、
    前記メモリに結合された処理エレメントを備え、
    前記処理エレメントは、ロード/ストア・オペレーション予約を指定するデータをストアするレジスタと、
    ロード/ストア・ユニットを含み、
    前記ロード/ストア・ユニットは、
    前記第1のキャッシュ可能メモリ・ロケーション内にバッファ・フラグ・ビジー標識データ値をストアし、かつ、ストア及び予約命令を介して、前記第1のキャッシュ可能メモリ・ロケーション上にロード/ストア・オペレーション予約を前記レジスタに格納するための第1のロード/ストアロジックと、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされたとの判断に応答して、条件付きロード命令を介して、前記第1のキャッシュ可能メモリ・ロケーション内にストアされているデータ値にアクセスための第2のロード/ストアロジックと、
    前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされていないとの判断に応答して、前記条件付きロード命令の実行を停止するための第3のロード/ストアロジックを含む、
    情報処理システム。
  9. 前記処理エレメントは、
    前記第1のキャッシュ可能メモリ・ロケーションのデータをストアするためのキャッシュ・メモリと、
    前記第1のキャッシュ可能メモリ・ロケーション内の前記バッファ・フラグ・ビジー標識データ値の変更を検出するための第1のキャッシュ管理ロジックと、
    前記変更に応答して、前記第1のキャッシュ可能メモリ・ロケーション上の前記ロード/ストア・オペレーション予約がリセットされたことを示すデータを前記レジスタ内にストアするための第2のキャッシュ管理ロジック
    を含むキャッシュ管理ユニットと、

    を含む、請求項8に記載の情報処理システム。
JP2007039392A 2006-03-16 2007-02-20 キャッシュライン・ポーリングを実行する方法、装置、プログラム及び情報処理システム Expired - Fee Related JP4568292B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/377,506 US7600076B2 (en) 2006-03-16 2006-03-16 Method, system, apparatus, and article of manufacture for performing cacheline polling utilizing store with reserve and load when reservation lost instructions

Publications (2)

Publication Number Publication Date
JP2007249960A JP2007249960A (ja) 2007-09-27
JP4568292B2 true JP4568292B2 (ja) 2010-10-27

Family

ID=38519306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007039392A Expired - Fee Related JP4568292B2 (ja) 2006-03-16 2007-02-20 キャッシュライン・ポーリングを実行する方法、装置、プログラム及び情報処理システム

Country Status (4)

Country Link
US (1) US7600076B2 (ja)
JP (1) JP4568292B2 (ja)
CN (1) CN101038567B (ja)
TW (1) TW200813745A (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9983874B2 (en) * 2006-03-16 2018-05-29 International Business Machines Corporation Structure for a circuit function that implements a load when reservation lost instruction to perform cacheline polling
US8219763B2 (en) 2006-03-16 2012-07-10 International Business Machines Corporation Structure for performing cacheline polling utilizing a store and reserve instruction
US9390015B2 (en) * 2006-03-16 2016-07-12 International Business Machines Corporation Method for performing cacheline polling utilizing a store and reserve instruction
US8117389B2 (en) * 2006-03-16 2012-02-14 International Business Machines Corporation Design structure for performing cacheline polling utilizing store with reserve and load when reservation lost instructions
US8024521B2 (en) * 2007-03-13 2011-09-20 Sony Computer Entertainment Inc. Atomic operation on non-standard sized data using external cache
US8539485B2 (en) * 2007-11-20 2013-09-17 Freescale Semiconductor, Inc. Polling using reservation mechanism
US20090240928A1 (en) * 2008-03-18 2009-09-24 Freescale Semiconductor, Inc. Change in instruction behavior within code block based on program action external thereto
US8713261B1 (en) * 2011-03-11 2014-04-29 Emc Corporation Caching techniques
GB2524063B (en) 2014-03-13 2020-07-01 Advanced Risc Mach Ltd Data processing apparatus for executing an access instruction for N threads
US10552153B2 (en) * 2017-03-31 2020-02-04 Intel Corporation Efficient range-based memory writeback to improve host to device communication for optimal power and performance
GB2580316B (en) * 2018-12-27 2021-02-24 Graphcore Ltd Instruction cache in a multi-threaded processor
CN114610394B (zh) * 2022-03-14 2023-12-22 海飞科(南京)信息技术有限公司 指令调度的方法、处理电路和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5611074A (en) * 1994-12-14 1997-03-11 International Business Machines Corporation Efficient polling technique using cache coherent protocol

Also Published As

Publication number Publication date
TW200813745A (en) 2008-03-16
US20070220213A1 (en) 2007-09-20
CN101038567B (zh) 2012-05-23
JP2007249960A (ja) 2007-09-27
US7600076B2 (en) 2009-10-06
CN101038567A (zh) 2007-09-19

Similar Documents

Publication Publication Date Title
JP4568292B2 (ja) キャッシュライン・ポーリングを実行する方法、装置、プログラム及び情報処理システム
JP4566264B2 (ja) 格納および予約命令を利用して関連アプリケーションと相互参照してキャッシュライン・ポーリングを行う方法、システム、装置、およびプログラム
US8117389B2 (en) Design structure for performing cacheline polling utilizing store with reserve and load when reservation lost instructions
CN110865968B (zh) 多核处理装置及其内核之间数据传输方法
US7581067B2 (en) Load when reservation lost instruction for performing cacheline polling
JP5801372B2 (ja) システム管理モードのためのプロセッサにおける状態記憶の提供
US9658877B2 (en) Context switching using a context controller and on-chip context cache
US8225120B2 (en) Wake-and-go mechanism with data exclusivity
US8145849B2 (en) Wake-and-go mechanism with system bus response
US8127080B2 (en) Wake-and-go mechanism with system address bus transaction master
US8452947B2 (en) Hardware wake-and-go mechanism and content addressable memory with instruction pre-fetch look-ahead to detect programming idioms
US20060136919A1 (en) System and method for controlling thread suspension in a multithreaded processor
US20100293341A1 (en) Wake-and-Go Mechanism with Exclusive System Bus Response
JP2003030050A (ja) マルチスレッド実行方法及び並列プロセッサシステム
EP3588288B1 (en) A multithreaded processor core with hardware-assisted task scheduling
US9009420B2 (en) Structure for performing cacheline polling utilizing a store and reserve instruction
US20040123078A1 (en) Method and apparatus for processing a load-lock instruction using a scoreboard mechanism
US7080209B2 (en) Method and apparatus for processing a load-lock instruction using a relaxed lock protocol
US9983874B2 (en) Structure for a circuit function that implements a load when reservation lost instruction to perform cacheline polling
JP5213485B2 (ja) マルチプロセッサシステムにおけるデータ同期方法及びマルチプロセッサシステム
US9946665B2 (en) Fetch less instruction processing (FLIP) computer architecture for central processing units (CPU)
WO1999032976A1 (en) Risc processor with concurrent snooping and instruction execution
US20060095905A1 (en) Method and apparatus for servicing threads within a multi-processor system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100803

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100806

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees