JP4566264B2 - 格納および予約命令を利用して関連アプリケーションと相互参照してキャッシュライン・ポーリングを行う方法、システム、装置、およびプログラム - Google Patents

格納および予約命令を利用して関連アプリケーションと相互参照してキャッシュライン・ポーリングを行う方法、システム、装置、およびプログラム Download PDF

Info

Publication number
JP4566264B2
JP4566264B2 JP2008558761A JP2008558761A JP4566264B2 JP 4566264 B2 JP4566264 B2 JP 4566264B2 JP 2008558761 A JP2008558761 A JP 2008558761A JP 2008558761 A JP2008558761 A JP 2008558761A JP 4566264 B2 JP4566264 B2 JP 4566264B2
Authority
JP
Japan
Prior art keywords
reservation
data
cache line
memory location
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008558761A
Other languages
English (en)
Other versions
JP2009529740A5 (ja
JP2009529740A (ja
Inventor
ジョーンズ、チャールズ、レイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2009529740A publication Critical patent/JP2009529740A/ja
Publication of JP2009529740A5 publication Critical patent/JP2009529740A5/ja
Application granted granted Critical
Publication of JP4566264B2 publication Critical patent/JP4566264B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0842Multiuser, multiprocessor or multiprocessing cache systems for multiprocessing or multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3004Arrangements for executing specific machine instructions to perform operations on memory
    • G06F9/30043LOAD or STORE instructions; Clear instruction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/3834Maintaining memory consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1032Reliability improvement, data loss prevention, degraded operation etc

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Description

本発明の実施形態は、全般にはデータ処理システムの動作に関し、より詳細には、格納および予約命令を利用してキャッシュライン・ポーリングを行う方法、システム、装置、および製品に関する。
現代のコンピュータが出現した際には、情報処理(例えば、コンピュータ)システムは、1つのプロセッサ、システム・メモリ、ならびに、ディスプレイ装置、キーボード、およびグラフィカル・ユーザ・インタフェースの創造に関連したカーソル・コントロール・デバイス(例えば、マウス、トラックボール、または同様のもの)をはじめとする少数の入出力(I/O)デバイスを含む限られた数のコンポーネントを備えているだけだった。しかし、情報処理システムが発達するにつれ、共有システム・リソースに関する通信および競合によって相互にインタフェースをとるシステム・コンポーネントの数が劇的に増加してきた。従って、現代の通常の情報処理システムは、幅広い種類のシステム・コンポーネント(例えば、対称型多重プロセッシング(SMP:Symmetric Multipleprocessing)、非対称型多重プロセッシング(ASMP:Asymmetric Multiprocessing)、不均等メモリ・アクセス(NUMA:Non−Uniform Memory Access)、または類似の構成を用いるマルチ・プロセッサ、コプロセッサ、直接メモリ・アクセス・コントローラ、ならびに各々が付加的なプロセッサ、レジスタ、およびメモリを備えることもあるI/Oデバイス)を含むこともある。
現代の情報処理システムにおける各システム・コンポーネントの機能を調整するために、多くの方法が実施されてきた。割り込みサービス・ルーチン、またはハンドラと結合された割り込みが、イベント発生の情報交換、または教示、あるいはその両方のために情報処理システムの各コンポーネントによって利用されることもある。同様に、メモリ・マップ入出力、およびポートまたは「ポート・マップ」入出力が、システム・コンポーネント(例えば、プロセッサとI/Oデバイス)の間の通信手段を提供するために利用されることもある。
情報処理システムのエレメント間の機能の調整は、入出力(I/O)動作を行うためのエレメント間のデータ転送において特に重要である。例えば、情報処理システムのプロセッサが、I/Oデバイス、またはマルチプロセッサ・システム内の別のプロセッサによる処理のために、バッファにデータを寄託した後、データ提供プロセッサが、一般に、I/Oデバイスまたはデータ受取りプロセッサに対してバッファへのデータ転送が完了したことを通知する。通常の情報処理システムにおいては、そのような通知は通常、I/Oデバイスまたはデータ受取りプロセッサ内のメモリ・マップ入出力(memory−mapped I/O:MMIO)レジスタに特定のデータ値を書き込むことによって行われる。関連するMMIOレジスタへの書込み動作が検出されると、I/Oデバイスまたはデータ受取りプロセッサが直接メモリ・アクセス(DMA:direct memory access)によってバッファからデータを取得することもある。
いくつかの通常の情報処理システムにおいては、データのDMA取得の完了は、MMIOレジスタ・ポーリングによって、または割り込みによって検出可能である。しかし、MMIOレジスタ・ポーリングも割り込みも、DMAの完了を検出するための効率的な機構ではない。割り込みオーバーヘッドが比較的小さなバッファに対して一般に大き過ぎ、MMIOレジスタ・ポーリングも、他の場合には全体のシステム・スループットを増加させるようにDMA転送に用いることができるバス・バンド幅を、非効率的に利用するからである。
「キャッシュライン・ポーリング」として知られる、DMAの完了を検出するための別の従来の方法においては、バッファが利用可能であることをI/Oデバイスに(例えば、MMIOを介して)通知する前に、所定の「ビジー」標識データ値(“busy”indicator data value)(”busy”indicator data value)が、一般にバッファ・フラグまたはセマフォとして知られるキャッシュ可能メモリ・ロケーションに書き込まれる。次にプロセッサは、対応するDMAの完了を検出するために、所定の「非ビジー」標識データ値(“not busy”indicator data value)(”not busy”indicator data value)に関してバッファ・フラグをポーリングする。データは既にプロセッサのキャッシュ内で書き換えられているので、キャッシュライン・ポーリングにより追加のバス・アクティビティが発生することはない。バッファからの(DMA)データ取得が完了した後、I/Oデバイスまたは受取りプロセッサはバッファ・フラグに「非ビジー」完了データ値を書き込む。その結果、その新たなバッファ・フラグ値へは、キャッシュ・メモリ内の「ビジー」を示しているバッファ・フラグの無効化、または新たな完了値による置き換えが行われる標準的なキャッシュ・コヒーレンシ・プロトコルの処理時に、そのプロトコルを介してデータ提供プロセッサがアクセスすることが可能になる。
システムの観点からは、キャッシュライン・ポーリングは効率的なポーリング機構である。しかし、キャッシュライン・ポーリングを実施するために、データ提供プロセッサは、DMA転送が完了してバッファ・フラグ値が更新されるまで、一組の「ポーリング」命令を繰返して実行するので、貴重なシステム・リソース(例えば、プロセッサ・サイクル、バス・サイクル、電力、命令またはスレッド・ディスパッチ・スロット、または同様のもの)を消費してしまう。
格納および予約命令を利用してキャッシュライン・ポーリングを行う方法、システム、装置、および製品が本明細書で提供される。本発明の一実施形態によれば、第1のプロセスが、最初に第2のプロセスにより行われるアクションを要求する。予約が、格納動作によりキャッシュ可能メモリ・ロケーションにおいて設定される。第1のプロセスが、その要求されたアクションが第2のプロセスにより完了済みか否かを判断するため、ロード動作によりキャッシュ可能メモリ・ロケーションを読み込む。第1のプロセスのロード動作は、キャッシュ可能メモリ・ロケーションの予約が喪失されるまで停止される。要求されたアクションが完了した後、キャッシュ可能メモリ・ロケーション内の予約が、第2のプロセスによりリセットされる。
上記は概略であり、それゆえ必然的に簡素化、一般化および省略化されている。このため、当業者には、この概略が例証のためだけのものであって、多少なりとも限定を意図するものではない事が理解されよう。当業者にはやはり明白であるように、ここで開示される動作は、ハードウェア、ソフトウェア、またはそれらの組合せにおける実装を含む、多くの方法で実施することもでき、それらの変更および改変は、本発明およびそのより広い態様から逸脱することなく実施することもできる。本発明の他の態様、発明の特徴、および利点は、特許請求の範囲によってのみ規定されるように、以下の非限定的な詳細説明において明らかとなるであろう。
添付図面を参照することにより、本発明がより良く理解され、その多くの特徴および利点が当業者には明らかとなるであろう。
添付の図面中の同じまたは類似の参照記号の使用は、類似のまたは同一の項目を示すことを意図している。
以下に、ここで説明される1つ以上のシステム、デバイスまたはプロセス、あるいはそれらすべてを実施するための、少なくとも最も良く熟慮された様式の詳しい説明を記載する。説明は例証のためであって、限定するものと解釈すべきではない。
以下の詳細な説明においては、特定の方法の順序、構造、エレメント、および接続のような多くの特定の詳細が記載される。しかし、これらをはじめとする特定の詳細は、本発明の実施形態を実践するために必ずしも利用される必要がないことを理解されたい。また、他の状況下では説明を不必要に不明瞭にすることを避けるために、周知の構造、エレメント、または接続が省略されていたり、または特に詳細には説明されていないこともある。
本明細書中で「一実施形態」、「ある実施形態」または「複数の実施形態」という表現は、その実施形態に関連して説明される特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを示すことを目的としている。本明細書の様々な箇所におけるそのような表現の出現は、必ずしも全てが同じ実施形態に言及するものではなく、また、別々のもしくは代替の実施形態が他の実施形態と互いに相容れないことを意味するものでもない。さらに、いくつかの実施形態によって示されることもあるが、他の実施形態によっては示されないこともある様々な特徴が説明される。同様に、いくつかの実施形態には必要となることもあるが、他の実施形態には必要とならないこともある様々な要件が説明される。
本発明の複数の実施形態は、ここで説明される方法、情報処理システム、および機械可読媒体製品の中で具体化されるキャッシュライン・ポーリングを行うために利用されても良い格納および予約命令を提供する。図1は、本発明のある実施形態による情報処理システムを含む通信ネットワークを示す。本発明の1つ以上の実施形態においては、説明されるように、格納および予約(Store and Reservation:STAR)命令の後に実行される通常のロード(Load:LD)命令は、以前に設定されたロード予約が「喪失されてしまった」またはリセットされた後に、実行を完了してロード予約を設定するデータを返すことになるか、さもなければ普通は停止することになる。一実施形態においては、STAR命令が、予約を正しく管理するように、単一のキャッシュライン・ポーリングのループ内で利用されても良い。
図1に示されるように、システム101は、複数の情報処理システム(例えば、コンピュータおよびコンピュータ・デバイス)が接続されるネットワーク104を含む。本発明の様々な実施形態において、ネットワーク104は、LAN、インターネットなどのグローバル・ネットワーク、またはその他のいかなる通信ネットワークを備えても良い。図1の実施形態においては、ネットワーク104に接続された情報処理システムは、クライアント・コンピュータ106、サーバ・コンピュータ108、携帯情報端末(PDA:personal digital assistants)110、ディジタル・テレビ(DTV:digital television)112を備え、また、図示されていない他の有線または無線のコンピュータおよびコンピュータ・デバイスをさらに備えても良い。図示される実施形態においては、ネットワーク104の構成要素である情報処理システムによって採用される処理エレメントは、普通のコンピュータ・モジュールから構築される。これらの処理エレメントはまた、全てが同じ命令セット・アーキテクチャ(Instruction Set Architecture:ISA)を有し、共通のプロセッサ命令セットに従って処理を行うことが好ましい。
図1の実施形態において、任意の特定の処理エレメント内に含まれるコンピュータ・モジュールの数は、その処理エレメントにより行われる情報処理により要求される処理能力に依存する。例えば、システム101のサーバ108は、クライアント106よりも多くのデータおよびアプリケーションの処理を行うので、サーバ108はクライアント106よりも多くのコンピュータ・モジュールを含む。PDA110は、その一方で、比較的少ない処理を行う。図示される実施形態においては、各コンピュータ・モジュールが、1つの処理コントローラおよびネットワーク104上で伝送されるデータおよびアプリケーションの並列処理を行うための複数の同一の処理ユニットを含む。
システム101のこの一様な構成は、適応性、処理速度、および処理効率を促進する。システム101の各構成要素は1つ以上の(またはある部分)同じコンピュータ・モジュールを用いて処理を行うので、データおよびアプリケーションの実際の処理を行う特定のコンピュータまたはコンピュータ・デバイスは、通常のシステムにおけるよりも関連性が薄い。さらに、特定のアプリケーションおよびデータの処理を、ネットワークの構成エレメント間で分担することが可能である。システム101によってシステム全体で処理されるデータおよびアプリケーションを含んだセルを一意的に識別することにより、処理結果を、その処理がどこで実施されたかに関らず、処理を要求しているコンピュータまたはコンピュータ・デバイスに伝送することが可能である。この処理を実行するモジュールは共通の構造を有し、共通のISAを採用するので、処理エレメント間の互換性を達成するためのソフトウェアの追加層の計算上の負担が避けられる。このアーキテクチャおよびプログラミング・モデルは、リアルタイム・マルチメディア・アプリケーションなどを実行するために必要な処理速度を促進する。
システム101によって促進される処理速度および効率の更なる利点を利用するために、このシステムによって処理されるデータおよびアプリケーションは、一意的に識別される均一にフォーマットされたソフトウェア・セル102の中にパッケージされる。各ソフトウェア・セル102は、アプリケーションとデータの両方を含むかまたはそうすることが可能である。各々のソフトウェア・セル102はまた、ネットワーク104およびシステム101全体にわたってセルをグローバルに識別するためのIDを含む。このソフトウェア・セルの構造の均一性、およびソフトウェア・セルのネットワーク全体にわたる一意的な識別性は、ネットワーク104の任意のコンピュータまたはコンピュータ・デバイス上のアプリケーションおよびデータの処理を促進する。例えば、クライアント106はソフトウェア・セル102を策定することもできるが、クライアント106の限られた処理能力のために、このソフトウェア・セルを処理のためにサーバ108に伝送することもある。従って、ソフトウェア・セルは、ネットワーク上の処理リソースの利用可能性に基づいて処理のために、ネットワーク104中を移動することが可能である。
システム101の処理エレメントおよびソフトウェア・セルの一様な構造はまた、今日の異機種環境のネットワークの問題の多くを回避する。例えば、任意の命令セット、例えばJAVA(R)仮想マシンなどの仮想マシンを用いる任意のISAによるアプリケーション処理の許可を求める非効率なプログラミング・モデルが避けられる。従って、システム101は、通常のネットワークよりも遥かに効果的、かつ効率的にブロードバンド処理を実施することが可能である。
図2は、本発明のある実施形態による情報処理システムのハイレベル・ブロック図を示す。図2の情報処理システムに関して、特定の数と配置のエレメントが示されているが、本発明の複数の実施形態は、いかなる特定の数、型、または配置のコンポーネントを有するデータ処理システムに限定されるものではなく、したがって、その多くが、幅広い種類のデータ処理システムの型、アーキテクチャ、およびフォーム・ファクタ(例えば、ネットワーク・エレメントまたはノード、パーソナル・コンピュータ、ワークステーション、サーバ、または同様のもの)を取り入れる。
図2で図解される情報処理システムは、本発明の例示的な態様を実施することもできるCell Broadband Engine(CBE)アーキテクチャの一例である。図2に示されるように、CBE200は、高帯域幅の内部エレメント接続バス(EIB:element interconnection BUS)286を介して通信可能に接続されている、Power Processor Element(PPE)210および、多数のSynergistic Processor Element(SPE)220−234と、ここでさらに説明される付加的なシステム・エレメントとを含む。この実施形態のCBE200は、示されているように、バス・インタフェース・コントローラ(BIC)287を介してEIB286に接続される1つ以上の外部バスまたはデバイス290およびメモリ・インタフェース・コントローラ(MIC:memory interface controller)288を介してEIB286に接続される共有メモリ289をさらに含む。
CBE200は、図2に図解される各エレメントを単一のマイクロプロセッサ・チップ上に設けることもできるシステム・オン・ア・チップとすることもできる。さらに、一実施形態においてCBE200は、SPE220−234の各々がシステム内の他のSPEの各々から異なる命令を受信することもある異機種処理環境として提供される。さらに、各SPEの命令セットはPPE210のそれとは異なり、例えば、PPE210は、SPE220−234がベクトル化された命令を実行する一方で、縮小命令セット・コンピュータ(Reduced Instruction Set Computer:RISC)ベースの命令を実行することもできる。
図2のこの実施形態においては、SPE220−234は、EIB286を介して、相互におよびPPE210に接続される。さらに、SPE220−234は各々が、EIB286を介して、MIC288およびBIC287に接続される。MIC288は共有メモリ289への通信インタフェースを提供する。共有メモリ289は、ランダム・アクセス・メモリ(random access memory:RAM)、読み取り専用メモリ(read−only memory:ROM)、フラッシュ・メモリ、または同様のものをはじめとする多くのシステム・メモリ型ストレージ・エレメントのどれを備えても良い。BIC287は、CBE200と他の外部バスおよびデバイス290との間の通信インタフェースを提供する。例示的な外部デバイスには、キーボード、ディスプレイ、プリンタ、カーソル制御デバイス(例えば、トラックボール、マウス、タブレットなど)、スピーカー、およびマイクロフォンをはじめとする伝統的なI/Oデバイスと、固定または「ハード」磁気媒体ストレージ・デバイス、光学ストレージ・デバイス(例えば、CDまたはDVD ROM)、固体ストレージ・デバイス(例えば、USB,Secure Digital SD(商標)、CompactFlash(商標)、MMCまたは同様のもの)、フレキシブル・ディスクおよびテープなどの取外し可能磁気媒体ストレージ・デバイス、または他のストレージ・デバイスもしくは媒体などのストレージ・デバイス、および有線もしくは無線通信デバイスまたは媒体(例えば、モデムまたはダイレクト・ネットワーク・インタフェースを介してアクセスされる通信ネットワーク)が含まれても良い。
本発明の一実施形態においては、PPE210はデュアル・スレッド処理エレメントである。このデュアル・スレッドPPE210および8個のSPE220−234を組み合わせることで、CBE200が10個のスレッドの同時処理と228を越える未解決のメモリ要求を扱うことが可能になる。通常の動作環境においては、PPE210は、計算作業負荷の殆どを処理する8個のSPE220−234のコントローラとして機能する。例えば、SPE220−234がベクトル化された浮動小数点コード実行を行う間に、PPE210を、1つ以上の通常のオペレーティング・システムを実行するために用いることもできる。
一実施形態においては、PPE210は、パワー・プロセッサ・ユニット(Power Processor Unit:PPU)またはコア、ならびに関連するレベル1(L1)およびレベル2(L2)のキャッシュ(図示せず)を備え、SPE220−234の各々は、協働プロセッサ・ユニット(synergistic processing unit:SPU)、メモリ・フロー制御ユニット、ローカル・メモリまたはストアならびに、直接メモリ・アクセス(direct memory access:DMA)コントローラ、メモリ管理ユニット(memory management unit:MMU)、およびバス・インタフェース・ユニット(図示せず)の組合せを含むバス・インタフェース・ユニットを備える。一例示的実施形態においては、前述のローカル・メモリまたはストアが、256KBの命令および、PPE210には認識可能であり、かつソフトウェアが直接アドレス指定することが可能なデータ・メモリとを備える。
PPE210は、複雑な動作における各ステップを協働で処理するようにSPEを連結し、小さなプログラムまたはスレッドをSPE220−234に読み込むこともできる。例えば、CBE200を組み込んだセット・トップ・ボックスは、DVDの読み取り、ビデオおよび音声のデコード、ならびにディスプレイのためのプログラムを読み込むこともでき、そのデータは最終的に出力ディスプレイ上で終るまでSPEからSPEへと送られることになる。4GHzにおいては、各SPE220−234は、PPE210が有するのと同レベルの性能であるが、理論的に32GFLOPSの性能を与える。動作中には、PPE210はまた、命令を実行して、MIC288を介して共有メモリからそれ自体のローカル・レジスタまたはキャッシュ内に取得したデータを取り扱うまたは処理することもできる。同様に、外部デバイス290は、例えばBIC287および、SPE220−234内の1つ以上のDMAコントローラを介して、共有メモリ289にアクセスすることもできる。
図3は、本発明のある実施形態による、格納および予約命令を利用してキャッシュライン・ポーリングを行うことが可能な情報処理システムの選択された部分のブロック線図表示を示す。本説明では、図2および図3の情報処理システムの間で、対応するシステム・エレメントを示すために類似の参照番号が利用されている。例えば、図3で図解される実施形態のPPE310は、図2のPPE210に対応する。図3の情報処理システム300はPPE310を含み、PPE310はEIB386を介して、共有メモリ389および外部デバイス390のそれぞれに、MIC388およびBIC387を利用して接続されている。
図3で図解される実施形態においては、共有メモリ389は、示されるようにバッファ・フラグ・データ値を指定するデータを含むキャッシュ可能メモリ・ロケーション336を含む。PPE310は、示されるようにL1キャッシュ312およびL2キャッシュ314に階層的に接続されたパワー・プロセッサ・ユニット(PPU)316を含む。図3の実施形態においては、PPU316は多くの機能性ユニットおよびデータ・ストレージ・エレメントを含む。より具体的には、PPU316は、メモリ・アクセス命令(例えば、メモリからのロードおよびメモリへの格納)を実行するのに利用されるロード/格納・ユニット318および、ビット形式のデータまたはPPU316の現在の状態を示すフラグを格納して、特定のデータ処理または情報処理動作の結果(例えば、データ・オーバーフローもしくはアンダーフロー、正もしくは負の結果、または同様のもの)を反映する状態レジスタ320を備える。
L1キャッシュ312およびL2キャッシュ314の各々は、キャッシュ管理ユニット(cache management unit:CMU)(例えば、L1キャッシュ312のCMU322、およびL2キャッシュ314のCMU328)ならびに、ストレージ・エレメント(例えば、L1キャッシュ312のストレージ・エレメント324、およびL2キャッシュ314のストレージ・エレメント332)を含む。CMU322および328は、それぞれ、ストレージ・エレメント324および332のうちの対応する1つの中でのデータまたは命令、あるいはその両方の格納を制御するために用いられ、例えば、キャッシュライン置換アルゴリズム、キャッシュライン状態もしくは状態メタデータの更新、または同様のことを実施する。次に、ストレージ・エレメント324および332は、アプリケーション・データまたは命令、あるいはその両方、ならびに附随するメタデータ(例えば、キャッシュ・タグ、状態ビット、または同様のもの)を含むデータのラインまたはブロックを格納するために利用される。CMU322および328は、それらそれぞれのキャッシュの統合ユニットまたはモジュールとして描かれているが、本発明の代替実施形態においては、CMU322または328、あるいはその両方、またはそれらの機能性は、他の構成で(例えば、L1キャッシュ312およびL2キャッシュ314のうちの一つ内またはPPU316内に、別々のユニットもしくはモジュールとして、またはそれらの組合せとして)提供することもできる。
本発明の一実施形態によれば、ここで説明されるように、PPU316を、格納および予約(STAR)命令の実行によって、キャッシュライン・ポーリングを行うために利用することができる。動作においては、PPU316のロード/格納・ユニット318は、初めに、「ビジー」バッファ・フラグ標識データ値(例えば、0xBB)を指定するデータを、破線338で示されるように、共有メモリ389のキャッシュ可能メモリ・ロケーション336内に格納させるSTAR命令を実行するために利用することもできる。図解される実施形態においては、このSTAR命令は、関連する外部デバイス390(例えば、グラフィックス・デバイス)に、そのデバイスが取得するべきデータが関連するバッファ内(例えば、共有メモリ389の専用部分、または情報処理システム300の中または外部の他のメモリ)に格納済みだという信号を送るために利用される。本発明の他の実施形態においては、データがキャッシュ可能メモリ・ロケーション336内に格納されているバッファ・フラグに書き込まれたこと、および、このバッファからのデータ取得が開始可能であることを、外部デバイス390に通知するために追加の動作(例えば、例外または割り込みの生成、シグナリング、MMIO書込み動作、または同様のこと)を利用しても良い。
ひとたびPPU316がこのSTARを行うと、共有メモリ389のキャッシュ可能メモリ・ロケーション336内に格納されているデータをPPU316内のレジスタ(例えば、汎用レジスタ)(図示せず)内に格納させるためのLDRL命令を実行することもあるPPE310を利用いて、キャッシュライン・ポーリングを継続して実行することもできる。ここでさらに説明されるように、STAR命令は、L2キャッシュ314内の予約レジスタ330内に指定のデータ値を格納することによって、予約を設定する。一実施形態においては、予約レジスタ330の予約ビット内、および予約に関連するメモリ領域(例えば、共有メモリ389のキャッシュ可能メモリ・ロケーション336に関連する指定メモリ・ロケーションまたは領域)のメモリ・アドレス内に論理「l」を格納することによって、予約が設定される。説明される実施形態においては、予約レジスタ330内の予約の設定およびリセットにより、状態レジスタ320内の対応する予約状態ビットが設定またはリセットされる。予約レジスタ330は、L2キャッシュ314のCMU328内にあるように示されているが、本発明の代替実施形態においては、それらの予約レジスタまたはデータを、情報処理システム300内の他所(例えば、L1キャッシュ312、PPU316、異なるバス/EIBインタフェース・ユニット、または同様のものの内部)に格納しても良い。
予約が設定された後、LDRL命令は、ここでさらに十分に説明され、かつ状態レジスタ320内の対応する予約状態ビットによって示されるように、多くの情報処理システム・イベントのうちの1つ以上の発生に続いて予約がクリアまたは「リセット」されるまで停止させられる(例えば、実行または発行/完了動作から一時的に中断される)。一実施形態においては、破線340によって示されるように(例えば、外部デバイス390による)キャッシュ可能メモリ・ロケーション336への書込みの試行、要求、または実行の検出に続いて、キャッシュ「スヌープ」動作(snoop machine)(snoop machine)を用いてL2キャッシュ314のCMU328により、予約をリセットすることもできる。ひとたび外部デバイス390がキャッシュ可能メモリ・ロケーション336内に格納されているバッファ・フラグ・データを書き換えて、予約をリセットさせその結果として喪失させると、以前に停止されたLDRL命令は再開することもでき、L1キャッシュ312およびL2キャッシュ314のそれぞれのストレージ・エレメント324および332の内への、そして最終的にはPPU316内の指定されたレジスタ内への、バッファ・フラグ・データ値の階層的な格納が行われる。
ここでさらに十分に説明されるように、ひとたびLDRL動作が首尾よく完了すると、取得されたバッファ・フラグ・データ値を、既知の「ビジー」バッファ・フラグ標識データ値、または「非ビジー」バッファ・フラグ標識データ値、あるいはその両方と比較することもできる。この比較は、外部デバイス390による関連するバッファ内に以前に格納されたデータの(例えば、DMA転送による)取得が、例えば、関連するバッファが外部デバイス390への追加のデータ転送のために再利用できるように、完了したか否かを判断するため利用されても良い。
図4は、本発明のある実施形態による、格納および予約命令に関する予約を管理する状態マシンの状態図を示す。図解される「状態マシン」は、従って、情報処理システム(例えば、図3の情報処理システム300)の1つ以上のエレメントによって行われる動作、またはその中に組み込まれる機能性を表す。一実施形態においては、そのような機能性は図3のPPU316のような処理エレメントまたはユニットに組み込まれ、他の実施形態においては、そのような機能性は、関連する情報処理システムの動作を監視および制御することのできる独立のまたは追加のシステム・エレメント内で具体化されることもある。本発明の一実施形態においては、図4の状態図によって表される機能性は、開始またはサポートされる各ハードウェア・スレッドに関してインスタンス化される。
示されるように、状態マシン400は5つの別々の状態、すなわち、状態S0、状態S1、状態S2、状態S3、および状態S4を含む。一実施形態においては、バッファ・フラグ「ビジー」標識データ値を設定するため、アクセスされるバッファ・データの状態を初期化するため、およびここで説明されるようにロード予約を設定するためにSTAR命令が利用される。
初期状態S0において状態マシン400は、ロード命令を受け取った後、バッファ・フラグのキャッシュラインのアドレスを記録し、状態S1に移行する。このロードは、バッファ・フラグを格納しているキャッシュラインに対応するアドレスをターゲットとする。多数のロード予約が同時に存在することが可能である。
キャッシュ状態検査の状態S1では、キャッシュ・メモリの状態が検査される。バッファ・フラグを格納しているキャッシュラインが無効である場合は、状態マシン400が状態S4に移行する。バッファ・フラグを格納しているキャッシュラインが書き換えまたは共有される場合は、状態マシン400が状態S2に移行する。
予約喪失待機状態S2では、状態マシン400は、ロード動作に対するロード予約が存在する間はアイドル状態にとどまる。ロード予約が喪失されてしまうと、状態マシン400は状態S4に移行する。
キャッシュ・メモリは、そのキャッシュラインの1つに他のプロセッサがアクセスしているかどうかを検出する機構を有している。この機構はスヌープ機構と通常呼ばれる。キャッシュラインが他のプロセッサまたはデバイスによって書き換えられているかを判断するために、状態マシン400が同様のプロセスを用いることが可能である。さらに、状態マシン400は、同じプロセッサの、またはキャッシュ・メモリを共有する他のプロセッサの別のスレッドによる、バッファ・フラグへの格納命令を監視する。
状態S2が、バッファ・フラグを格納するキャッシュラインが書き換えられることでしか終了しない場合には、プロセッサは潜在的にデッドロック(すなわち、まったく進行しない)状態になる可能性がある。本発明の1つ以上の代替実施形態においては、潜在的なデッドロック状態を避けるために、ロード予約が喪失されていない場合でも状態マシン400が状態S4に移行するように、別の終了条件が加えられている。例えば、状態S2から状態S4への移行を開始するまたは引き起こすために、割り込みが利用されることもある。割り込みが、この実施形態で停止されたプロセッサまたはプロセッサ・スレッドに向けられると、状態マシン400は、割り込みを処理できるように状態S4に移行することになる。割り込みが処理されない場合には、プロセッサまたは他のデバイスがバッファ・フラグを更新することは決してできない。
別の例示的な実施形態においては、状態S2から状態S4への移行を引き起こすためにタイムアウトを利用することもある。状態S2から状態S4への移行が起こるまでに容認できないほどの長い時間待たされることを裂けるために、キャッシュライン・ポーリングの時間に関するタイムアウト処理を起動するのにソフトウェアが利用されても良い。タイムアウト・オプションにより、状態マシン400は、指定時間経過後に状態S4へと抜け出ることになる。本発明の代替実施形態においては、タイムアウト値を予め設定するか、または予約喪失時のロード命令のパラメータとして設定することができる。
図4で図解される状態図においては、予約喪失待機状態S3(プロセッサのキャッシュ内にバッファ・フラグがない状態)へは、バッファ・フラグを格納するキャッシュラインが、同じキャッシュラインを要求する他のロード命令または格納命令によって追い出される(キャストアウトされる)場合に移行することができる。状態S3は、バッファ・フラグがプロセッサのキャッシュ・メモリに格納されないことを除いて、先に説明した状態S2と実質的に同じである。状態S2に関するのと同じ終了条件が状態S3に関して存在するが、バッファ・フラグを格納するキャッシュラインは、状態S3ではプロセッサのキャッシュ内には、もはや有効ではない(すなわち、書き換えまたは共有されている)とマークが付けられている。キャッシュライン追い出し動作により予約がリセットされることもある一実施形態においては、状態S3が削除されることもある。別の実施形態においては、キャッシュ・メモリがシステム・バスからデータをプリロード(例えば、キャッシュ・インジェクション)する場合には、状態S3から状態S2への逆戻りが発生することもある。
データ転送状態S4においては、バッファ・フラグを格納するキャッシュラインの状態が検査されて、バッファ・フラグを格納するキャッシュラインが有効(すなわち、共有されている、書き換えられているなどの)データを含むかが判断される。もしそうであれば、データはプロセッサに転送され、状態マシン400は状態S0に再入する。これが起こるのは、ロード予約の喪失が別のイベント(例えば、割り込みまたはタイムアウト)により引き起こされるため、バッファ・フラグ・データがプロセッサまたはデバイスにより書き換えられていない場合である。この場合、バッファ・フラグは「ビジー」標識データ値を指定するデータを含んでおり、したがって、比較命令が実行されることになる。割り込みが処理待ちになっている場合には次に処理されることになる。この割り込みに戻る際、返されたデータが「ビジー」標識データ値であった場合には、分岐が行われることになる。分岐が行われる場合、キャッシュライン・ポーリングのルーチンを開始するロード予約が、ロード予約プロセスを再び起動する。
バッファ・フラグを格納するキャッシュラインが無効データを含む場合には、「ロード失敗」が生成され、バスを介して共有メモリからバッファ・フラグ・データが要求される。バッファ・フラグ・データが返されると、そのデータはプロセッサに転送され、キャッシュ・メモリの状態が更新される。状態マシン400は次に状態S0に移行する。このプロセスは、キャッシュ・メモリ内で失敗した正規のロード動作と同じである。この場合、データは、「非ビジー」標識データ値(例えば、0xBCまたは0xBBとは異なる任意の値)を含むようにデバイスによって書き換えられている。
その後、比較命令が行われる。返されたデータが「ビジー」標識データ値を指定しない場合には、分岐は行われず、キャッシュライン・ポーリングのルーチンが終了し、外部デバイスが関連するバッファからのデータの検索を完了したことを示す。
予約喪失の原因となることもあるいくつかの条件には、予約喪失時のロード命令のアドレスによって参照されるデータを含むキャッシュラインの無効化、同じプロセッサまたは同じキャッシュ・メモリを共有している別のプロセッサによる予約喪失時のロード命令のアドレスに関連するデータの書き換え、予約喪失時のロード命令を以前に実行していた、停止されたスレッドに対する割り込みの実施、同じプロセッサまたはS3状態が前述のキャッシュを共有する別のプロセッサのメモリ動作によって生じる通常のキャッシュライン置換/排出/追い出し、または、1つ以上の他の終了条件(例えば、ロード命令に対するタイムアウト)の発生が含まれる。
説明されている実施形態では、キャッシュラインの無効化を、そこに格納されているデータを書き換える目的でキャッシュラインを読み取る(RWITM(read with intent to modify):「変更予定読取り」を行う)デバイスもしくは別のプロセッサが、または、キャッシュラインに書き込む(フラッシュを伴う書込み)デバイスもしくは他のプロセッサが引き起こすことが可能性である。
バッファ・フラグまたはセマフォは、ここではキャッシュ可能メモリ・ロケーション内に格納されるように説明されているが、代替実施形態においては、メモリ・ロケーションがキャッシュ可能である必要はない。より具体的には、プロセッサが、バッファ・フラグを含んでいるメモリ・アドレスを更新するデバイスをスヌープする手段を有する限り、本発明の方法またはプロセスを、非キャッシュ可能メモリ・ロケーション内に配置されるバッファ・フラグに対して適用することもできる。バッファ・フラグを非キャッシュ可能メモリ・ロケーション内に配置することは、状態S3の存在によって明白にされる。状態3においては、バッファ・フラグはプロセッサ・キャッシュ内で有効ではないが、これは非キャッシュ可能フラグに対して存在することになるのと同じ状態である。
図5は、本発明のある実施形態による、格納および予約命令を利用してキャッシュライン・ポーリングを行うプロセスのフロー図を示す。例として記述されるプロセスの実施形態は、図3の情報処理システム300のシステム・エレメントに関連して説明されることになる。初めに、図5で図解されるプロセスの実施形態において、PPU316のロード/格納・ユニット318は、共有メモリ389内のバッファをデータ(例えば、外部デバイス390によって取り扱われるまたは処理されるデータ)で満たす(プロセス・ブロック502)。本発明の代替実施形態においては、データのこのバッファへの転送は、1つ以上のSPE220−234内に準備されるDMAコントローラまたはエンジンを利用して行われても良い。その後、ロード/格納・ユニット318が格納および予約命令を実行する(プロセス・ブロック503)。図解されるプロセスの実施形態において、STAR命令の実行は、「ビジー」標識データ値を指示または指定するデータを、共有メモリ389のキャッシュ可能メモリ・ロケーション336内に格納し(プロセス・ブロック504)、予約レジスタ330を利用して予約を「設定する」(プロセス・ブロック506)。
その後、外部(例えば、I/O)デバイス390に、関連するデータ・バッファがアクセスされる準備ができた(図示せず)ことが(例えば、MMIOレジスタへの書込み、例外、割り込み、トラップ、または同様のことの発生によって)通知されても良い。あるいは、そのような通知が、先に説明したように、単にキャッシュ可能メモリ・ロケーション336内へのバッファ「ビジー」標識データ値の格納によって行われても良い。ロード/格納・ユニット318は、次に予約がリセットされたかを(例えば、状態レジスタ320内のフラグの1以上のビットを検査することによって)判断する(プロセス・ブロック508)。予約がリセットされるときの判断を表すために連続的なループが利用されているが、(単一スレッドのユニプロセッサ・システムまたはマルチプロセッサ・システム内の)プロセッサ、または(マルチ・スレッドのプロセッサ・システム内の)関連するスレッドのどちらによっても実際の命令は実行されておらず、従って、通常のキャッシュライン・ポーリング法を利用した場合には浪費される貴重な処理能力および電力が節約されることを理解されたい。ひとたび予約が(例えば、外部デバイス390によるキャッシュ可能メモリ・ロケーション336のバッファ・フラグ内への「非ビジー」標識データ値の格納により)リセットされると、ロード/格納・ユニット318により、キャッシュ可能メモリ・ロケーション336内に格納されているバッファ・フラグ・データがPPU316のレジスタ内に読み込まれる(プロセス・ブロック510)。
その後、PPU316の固定小数点実行ユニット(図示せず)が、キャッシュ可能メモリ・ロケーション336のバッファ・フラグ・データが読み込まれたPPU316のレジスタのコンテンツを、指定された「ビジー」標識データ値と比較する(プロセス・ブロック512)。次に、PPU316の分岐ユニット(図示せず)は比較結果を利用して、レジスタのコンテンツが「ビジー」標識データ値と一致するかを判断する(プロセス・ブロック514)。その後、このプロセス実施形態は、レジスタのコンテンツが既知の「ビジー」標識データ値と一致しないとの判断を受けて完全にリスタートされるか(プロセス・ブロック502)、または、STAR命令が実行され、予約が設定される点に再入される(プロセス・ブロック503)。
図5で示される動作は、特定のシステム・エレメントに関して説明されているが、そのような動作を行うのに利用される実際のエレメントは、本発明のプロセス実施形態には重要ではない。さらに、代替実施形態においては、それらの動作が任意の情報処理システム・エレメントによって行われても良い。同様に、図5で示されるフロー図は、特定の動作順序、およびプロセス動作の特定の細分性を示すが、代替実施形態においては、説明されている順序を変えても良く(例えば、プロセス動作を別の順序で行っても、または実質的に並列で行っても良く)、そして1つ以上のプロセス動作を合体させても、または細分化しても良い。同様に、本発明の代替実施形態において必要な場合には、追加のプロセス動作が加えられても良い。
本発明の複数の実施形態は、ソフトウェア、情報処理ハードウェア、および、ここでさらに説明される様々なプロセス動作を含んでも良い。本発明の様々な実施形態の特徴とプロセス動作は、共有メモリ289、ストレージ・デバイス、通信デバイスもしくは媒体、または同様のものを始めとする機械可読媒体内に具体化された実行可能命令の中に具体化することもできる。機械可読媒体は、マシン(例えば、CBE200)による可読形式でデータを提供(すなわち、格納または伝送、あるいはそのどちらをも)するいかなる機構も含むことができる。
例えば、機械可読媒体は、ランダム・アクセス・メモリ(RAM)、読取り専用メモリ(ROM)、磁気ストレージ媒体、光学ストレージ媒体、フラッシュ・メモリ・デバイス、電気的伝播信号、光学的伝播信号または音響的伝播信号、あるいはそれらすべて(例えば、搬送波、赤外信号、ディジタル信号など)、または同様のものを含むが、それらに限定はされない。記載される実行可能命令を、その命令でプログラムされた汎用プロセッサ、またはPPU316のような専用プロセッサに、本発明の動作、方法またはプロセスを行わせるために用いることができる。あるいは、本発明の特徴または動作は、それらの動作を行うハードワイヤード・ロジックを含む特定のハードウェア・コンポーネント、またはプログラムされたデータ処理コンポーネントと特注のハードウェア・コンポーネントの任意の組合せによって行なわれても良い。
本発明は、十分に機能的なデータ処理システムのコンテキストにおいて説明されているが、当業者は、本発明は、幅広い種類の形態のプログラム製品として配布することが可能であり、配布実施のために用いられる信号保持媒体の特定の型に関係なく等しく適用されることを理解するであろう。そのような信号保持媒体の例は、フレキシブル・ディスクおよびCD−ROMなどの記録可能媒体、ディジタルおよびアナログ通信リンクなどの伝送型媒体、ならびに将来開発される媒体ストレージおよび配布システムを含む。本発明の複数の実施形態は、特定の動作またはタスクを行うために用いられるソフトウェア・モジュールを利用して同様に実施されても良い。このソフトウェア・モジュールは、スクリプト型、バッチ型、または他の実行可能なファイルを含むこともあり、機械可読またはコンピュータ可読媒体上に格納されることもある。従って、このモジュールは、ソフトウェア・モジュールの1つ以上の機能を行うためにデータ処理またはコンピュータ・システムを構成するようにコンピュータ・システム・メモリ内に格納されても良い。他の新しい様々な型の機械またはコンピュータ可読ストレージ媒体を、ここで論じられたモジュールを格納するために用いても良い。
本発明の特定の実施形態が示され、説明されているが、ここでの教示に基づいて、本発明およびそのより広い態様から逸脱することなく、変更および改変を加えても良いことが、当業者には明白となるであろう。従って、添付の特許請求の範囲は、その範囲内に全ての変更および改変を本発明の真の精神と範囲内にあるものとして包含するものである。本発明の実施形態は、全ての点における均等物に対する完全な認識を与えるものであり、添付の特許請求の範囲のみによって限定されることが意図されている。
本発明のある実施形態による情報処理システムを含む通信ネットワークを示す。 本発明のある実施形態による情報処理システムのハイレベル・ブロック図を示す。 本発明のある実施形態による、格納および予約命令を利用してキャッシュライン・ポーリングを行うことが可能な情報処理システムの選択された部分のブロック線図表示を示す。 本発明のある実施形態による、格納および予約命令に関する予約を管理する状態マシンの状態図を示す。 本発明のある実施形態による、格納および予約命令を利用してキャッシュライン・ポーリングを行うプロセスのフロー図を示す。

Claims (9)

  1. 複数のプロセスを有するデータ処理システムにおいてキャッシュライン・ポーリングを行う方法であって、
    第1のプロセスにより、第2のプロセスによって行われるアクションを要求し、格納動作を介してキャッシュ可能メモリ・ロケーション上に予約を設定するステップと、
    前記第1のプロセスにより、前記要求されたアクションが前記第2のプロセスによって完了したか否かを判断するためにロード動作を介してキャッシュ可能メモリ・ロケーションを読み込むステップと、
    リセットにより前記キャッシュ可能メモリ・ロケーション上の前記予約が喪失するまで前記ロード動作を停止するステップと、
    前記第2のプロセスにより、前記要求されたアクションが完了後、前記キャッシュ可能メモリ・ロケーションにおいて前記予約を喪失させるために前記予約をリセットするステップと、
    を含む、方法。
  2. 前記設定するステップが前記キャッシュ可能メモリ・ロケーション上にバッファ・ビジー標識を設定することをさらに含む、請求項1に記載の方法。
  3. 前記停止するステップが、前記予約がリセットされるまでキャッシュライン・ポーリングのループにおいて前記ロード動作の実行を防止することをさらに含む、請求項1または2に記載の方法。
  4. 前記ロード動作が条件付きロード動作である請求項1、2または3に記載の方法。
  5. 第1のデバイスおよび第2のデバイスを有するデータ処理システムにおいてキャッシュライン・ポーリングを行う装置であって、
    第1のデバイスにより、第2のデバイスによって行われるアクションを要求し、格納動作を介してキャッシュ可能メモリ・ロケーション上に予約を設定する手段と、
    前記第1のデバイスにより、前記要求されたアクションが前記第2のデバイスによって完了したか否かを判断するためにロード動作を介してキャッシュ可能メモリ・ロケーションを読み込む手段と、
    リセットにより前記キャッシュ可能メモリ・ロケーション上の前記予約が喪失するまで前記ロード動作を停止する手段と、
    前記第2のデバイスにより、前記要求されたアクションが完了後、前記キャッシュ可能メモリ・ロケーションにおいて前記予約を喪失させるために前記予約をリセットする手段と、
    を備えてい、前記装置。
  6. 前記設定する手段が前記キャッシュ可能メモリ・ロケーション上にバッファ・ビジー標識を設定する手段をさらに備えている、請求項5に記載の装置。
  7. 前記停止する手段が、前記予約がリセットされるまでキャッシュライン・ポーリングのループにおいて前記ロード動作の実行を防止する手段をさらに備えている、請求項5または6に記載の装置。
  8. 前記ロード動作が条件付きロード動作である請求項5、6または7に記載の装置。
  9. 複数のプロセスを有するデータ処理システムにおいてキャッシュライン・ポーリングを行うプログラムであって、データ処理システムに、請求項1〜8のいずれか一項に記載の方法の各ステップを実行させる前記プログラム。
JP2008558761A 2006-03-16 2007-02-26 格納および予約命令を利用して関連アプリケーションと相互参照してキャッシュライン・ポーリングを行う方法、システム、装置、およびプログラム Active JP4566264B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/377,505 US9390015B2 (en) 2006-03-16 2006-03-16 Method for performing cacheline polling utilizing a store and reserve instruction
PCT/EP2007/051810 WO2007104638A2 (en) 2006-03-16 2007-02-26 Method, system, apparatus, and article of manufacture for performing cacheline polling utilizing a store and reserve instruction

Publications (3)

Publication Number Publication Date
JP2009529740A JP2009529740A (ja) 2009-08-20
JP2009529740A5 JP2009529740A5 (ja) 2010-06-03
JP4566264B2 true JP4566264B2 (ja) 2010-10-20

Family

ID=38509831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008558761A Active JP4566264B2 (ja) 2006-03-16 2007-02-26 格納および予約命令を利用して関連アプリケーションと相互参照してキャッシュライン・ポーリングを行う方法、システム、装置、およびプログラム

Country Status (5)

Country Link
US (1) US9390015B2 (ja)
EP (1) EP1994469B1 (ja)
JP (1) JP4566264B2 (ja)
CN (1) CN101401071B (ja)
WO (1) WO2007104638A2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219763B2 (en) * 2006-03-16 2012-07-10 International Business Machines Corporation Structure for performing cacheline polling utilizing a store and reserve instruction
US9983874B2 (en) * 2006-03-16 2018-05-29 International Business Machines Corporation Structure for a circuit function that implements a load when reservation lost instruction to perform cacheline polling
CN101510177B (zh) * 2009-03-06 2012-04-18 成都市华为赛门铁克科技有限公司 一种存储方法和存储系统
CN102739788B (zh) * 2012-06-25 2015-08-19 广州复旦奥特科技股份有限公司 一种基于eib协议的现场设备通信方法
WO2014065880A1 (en) * 2012-10-22 2014-05-01 Robert Beers Coherence protocol tables
WO2014192867A1 (ja) * 2013-05-31 2014-12-04 日本電気株式会社 分散処理システム、分散処理装置、分散処理方法および分散処理プログラム
EP2840503A1 (de) * 2013-08-22 2015-02-25 Continental Automotive GmbH Verfahren zum Betreiben eines Pufferspeichers einer Datenverarbeitungsanlage und Datenverarbeitungsanlage
CN103760855B (zh) * 2014-01-09 2017-01-18 厦门立林科技有限公司 自组式模块化家居控制系统
GB2524063B (en) 2014-03-13 2020-07-01 Advanced Risc Mach Ltd Data processing apparatus for executing an access instruction for N threads
US11086672B2 (en) 2019-05-07 2021-08-10 International Business Machines Corporation Low latency management of processor core wait state

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4380798A (en) * 1980-09-15 1983-04-19 Motorola, Inc. Semaphore register including ownership bits
US5669002A (en) * 1990-06-28 1997-09-16 Digital Equipment Corp. Multi-processor resource locking mechanism with a lock register corresponding to each resource stored in common memory
US5574922A (en) * 1994-06-17 1996-11-12 Apple Computer, Inc. Processor with sequences of processor instructions for locked memory updates
JP2507235B2 (ja) 1994-06-24 1996-06-12 インターナショナル・ビジネス・マシーンズ・コーポレイション クライアント・サ―バ・コンピュ―タ・システム、及びそのクライアント・コンピュ―タ、サ―バ・コンピュ―タ、並びにオブジェクト更新方法
US5611074A (en) * 1994-12-14 1997-03-11 International Business Machines Corporation Efficient polling technique using cache coherent protocol
JPH10149285A (ja) * 1996-11-18 1998-06-02 Hitachi Ltd 命令実行制御方法および情報処理装置
US6141734A (en) * 1998-02-03 2000-10-31 Compaq Computer Corporation Method and apparatus for optimizing the performance of LDxL and STxC interlock instructions in the context of a write invalidate protocol
CN1211737C (zh) * 1999-12-30 2005-07-20 皇家菲利浦电子有限公司 多任务处理软件体系结构
US20030115476A1 (en) * 2001-10-31 2003-06-19 Mckee Bret Hardware-enforced control of access to memory within a computer using hardware-enforced semaphores and other similar, hardware-enforced serialization and sequencing mechanisms
US6904504B2 (en) * 2001-11-14 2005-06-07 Intel Corporation Method and apparatus for software selection of protected register settings
US7080209B2 (en) * 2002-12-24 2006-07-18 Intel Corporation Method and apparatus for processing a load-lock instruction using a relaxed lock protocol
US20050120185A1 (en) * 2003-12-01 2005-06-02 Sony Computer Entertainment Inc. Methods and apparatus for efficient multi-tasking
US7516306B2 (en) * 2004-10-05 2009-04-07 International Business Machines Corporation Computer program instruction architecture, system and process using partial ordering for adaptive response to memory latencies
US7581067B2 (en) * 2006-03-16 2009-08-25 International Business Machines Corporation Load when reservation lost instruction for performing cacheline polling
US8117389B2 (en) 2006-03-16 2012-02-14 International Business Machines Corporation Design structure for performing cacheline polling utilizing store with reserve and load when reservation lost instructions
US7600076B2 (en) * 2006-03-16 2009-10-06 International Business Machines Corporation Method, system, apparatus, and article of manufacture for performing cacheline polling utilizing store with reserve and load when reservation lost instructions
US8219763B2 (en) 2006-03-16 2012-07-10 International Business Machines Corporation Structure for performing cacheline polling utilizing a store and reserve instruction

Also Published As

Publication number Publication date
EP1994469B1 (en) 2016-06-08
CN101401071A (zh) 2009-04-01
US9390015B2 (en) 2016-07-12
JP2009529740A (ja) 2009-08-20
CN101401071B (zh) 2012-06-20
WO2007104638A2 (en) 2007-09-20
WO2007104638A3 (en) 2007-12-13
EP1994469A2 (en) 2008-11-26
US20070220212A1 (en) 2007-09-20

Similar Documents

Publication Publication Date Title
JP4566264B2 (ja) 格納および予約命令を利用して関連アプリケーションと相互参照してキャッシュライン・ポーリングを行う方法、システム、装置、およびプログラム
JP4568292B2 (ja) キャッシュライン・ポーリングを実行する方法、装置、プログラム及び情報処理システム
CN110865968B (zh) 多核处理装置及其内核之间数据传输方法
US8117389B2 (en) Design structure for performing cacheline polling utilizing store with reserve and load when reservation lost instructions
US7581067B2 (en) Load when reservation lost instruction for performing cacheline polling
US7526608B2 (en) Methods and apparatus for providing a software implemented cache memory
US10169087B2 (en) Technique for preserving memory affinity in a non-uniform memory access data processing system
US7797563B1 (en) System and method for conserving power
KR20120061938A (ko) 시스템 관리 모드의 프로세서에 상태 스토리지를 제공하기 위한 장치, 방법 및 시스템
US9009420B2 (en) Structure for performing cacheline polling utilizing a store and reserve instruction
JP4767361B2 (ja) キャッシュメモリ装置、キャッシュメモリシステム、プロセッサシステム
US9983874B2 (en) Structure for a circuit function that implements a load when reservation lost instruction to perform cacheline polling
US7107410B2 (en) Exclusive status tags
US9285865B2 (en) Dynamic link scaling based on bandwidth utilization
US8938588B2 (en) Ensuring forward progress of token-required cache operations in a shared cache
Pitter et al. Towards a Java multiprocessor
US9558119B2 (en) Main memory operations in a symmetric multiprocessing computer
US20150113221A1 (en) Hybrid input/output write operations
WO2022246769A1 (zh) 一种访问数据的方法和装置
CN112765086A (zh) 固态存储中一种基于cache一致性的软硬件交互方法
JPH09198310A (ja) マルチプロセッサシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091116

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20100311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100419

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100610

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100610

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20100610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100728

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20100728

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100803

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4566264

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3