JP4452644B2

JP4452644B2 - 記憶性能の改善

Info

Publication number: JP4452644B2
Application number: JP2005100190A
Authority: JP
Inventors: ペントコヴスキーヴラディーミル; チェンリング; ガルガヴィヴェック; ブッチディープ; ザオデーヴィッド
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-03-30
Filing date: 2005-03-30
Publication date: 2010-04-21
Anticipated expiration: 2025-03-30
Also published as: KR20060045031A; US20050223177A1; US8244985B2; CN101539889A; US20090144500A1; TWI318373B; US7484045B2; CN100480993C; TW200620103A; CN1677341A; CN101539889B; KR100876486B1; JP2005310134A

Description

本発明の複数の実施形態は、マイクロプロセッサアーキテクチャに関する。より詳細には、本発明の複数の実施形態は、複数のオーナー権に対する読み取り動作をばらばらの順序で発しさせるのを可能にし、より効果的に複数の記憶バッファ待ち時間を用いることにより１つのマイクロプロセッサでの記憶性能を改善する１つの方法及び装置に関する。

マイクロプロセッサは、「フロントサイドバス」（ＦＳＢ）として既知である共有コンピュータシステムバスを介してコンピュータシステムと典型的に通信する。しかし、マイクロプロセッサ性能が改善されるにつれて、そして、複数のコンピュータシステムが、同じＦＳＢに沿って相互接続された複数のプロセッサを用いる程、ＦＳＢは性能障害になる。
米国特許第５０４３８８６号明細書

この問題に対する１つのアプローチは、１つのマルチプロセッサシステム内の様々な複数のプロセッサ間で複数のポイントツーポイント（ＰｔＰ）リンクを使用することである。複数のＰｔＰリンクは、マルチプロセッサネットワーク内の各プロセッサに対して専用の複数のバストレースとして典型的に実施される。典型的な複数のＰｔＰリンクはＦＳＢよりも大きい処理能力を備えるが、複数のＰｔＰリンクの待ち時間がＦＳＢの待ち時間よりもひどい可能性がある。

ＰｔＰの待ち時間は、特に、複数の記憶動作間で厳しい順序付けを必要とする複数のマイクロプロセッサアーキテクチャ内のマイクロプロセッサにより実行される複数の記憶動作の性能に特に影響を与える可能性がある。複数の厳しい順序付け要件のため、例えば、前に発せられた複数の記憶動作は、後の複数の記憶動作をプロセッサにより発しさせる前にシステム内のその他の複数のバスエージェントに対して典型的にアクセス可能である必要があり、または、少なくとも検知可能である必要がある。１つのコンピュータシステム内のその他の複数のバスエージェントに対する１つの動作、例えば、１つの記憶動作、ロード動作またはその他の動作の検知能力はしばしば、動作の「大域的観測」と称される。典型的に、システム内のその他の複数のエージェントが動作または命令の存在を検知できる１つのキャッシュまたはその他のメモリに、複数のマイクロプロセッサ動作または命令が記憶された後にこれらマイクロプロセッサ動作または命令だけが大域的に観測可能となる。

１つの厳しい順序付けマイクロプロセッサアーキテクチャでの複数の記憶動作の場合、前の記憶動作が大域的に観測されるまで、典型的な複数のマイクロプロセッサは１つの記憶バッファまたはその他の記憶待ち行列構造体から、あるいは場合によってプロセッサ実行ユニットから１つの記憶動作を発しない。１つの記憶動作を大域的に観測できるように記憶動作が記憶されるキャッシュまたはその他の記憶領域の１つのラインの排他的制御を得るために、典型的な複数のマイクロプロセッサアーキテクチャでの記憶動作の発生は、オーナー権に対する読み取り（ＲＦＯ）動作のような１つの動作により先行される。しかし、典型的な複数のマイクロプロセッサアーキテクチャでは、前の複数の記憶動作が大域的に観測されるまで複数のＲＦＯ動作は発せられない。

図１には、１つの厳しく順序付けられたマイクロプロセッサアーキテクチャで発せられた複数の記憶動作を処理する１つの従来技術のキャッシュアーキテクチャを示す。記憶バッファは、キャッシュラインフィルバッファ（ＬＦＢ）を介してレベル１（Ｌ１）キャッシュの複数のアドレスＸ，Ｙにそれぞれ記憶されるデータＸ_１，Ｙ_１を含む。しかし、典型的な従来技術の複数のアーキテクチャでは、Ｌ１キャッシュ内のデータＸ_０及びアドレスＸが大域的に観測されるまで、記憶データＸ_１，Ｙ_１のどちらも、あるいは、それらの対応の複数のＲＦＯ動作を発しさせられない。

従来技術の複数のアーキテクチャで複数の記憶動作を発しさせる際の待ち時間のため、最終的にはリタイアのため、１つのマイクロプロセッサと、それが存在するシステムとの全性能を妥協するおそれがある。更に、ＰｔＰの複数のプロセッサシステムがもっと広がるにつれ、この問題を悪化させるおそれがある。その理由は、システム内の各プロセッサが、システム内のその他の複数のプロセッサにより記憶されているデータに依存する可能性があるためである。

本発明の複数の実施形態を例として示すが、複数の添付図面の複数の図表に限定しない。図中、複数の同一符号は、複数の類似の構成要素を示す。

本発明の複数の実施形態はマイクロプロセッサアーキテクチャに関する。特に、本発明の複数の実施形態は、複数のオーナー権に対する読み取り（ＲＦＯ）動作をばらばらの順序で発しさせるのを可能にし、より効果的に複数の記憶バッファ待ち時間を用いることにより１つのマイクロプロセッサでの記憶性能を改善する１つの方法及び装置に関する。

記憶バッファ効率を改善しながら、ばらばらの順序の複数のＲＦＯ動作を容易にするため、本発明の少なくとも１つの実施形態は、１つの大域的に観測可能な記憶バッファ（ＧｏＳＢ）のような１つの記憶媒体を用いて、大域的に観測可能になった記憶データの追跡を続けることを含む。ＧｏＳＢ内で大域的に観測されたデータを追跡することにより、前の記憶データが大域的に観測されたかどうかにかかわらず、記憶データを、１つのレベル１（Ｌ１）キャッシュや１つのラインフィルバッファ（ＬＦＢ）のように監視可能な複数の記憶装置に記憶でき、これによりマイクロプロセッサ内の記憶データの処理能力及び複数の記憶動作の性能を増大させる。

図２には、本発明の少なくとも１つの実施形態と併せて用いることができる１つのコンピュータシステムを示す。１つのプロセッサ２０５は、１つのキャッシュメモリ２１０及びメインメモリ２１５からのデータにアクセスする。本発明の一実施形態の位置２０６を図２のプロセッサ内に示す。しかし、本発明の複数の実施形態を、１つの分離したバスエージェントのようなシステム内の、または、システムを通して分散されたその他の複数の装置で実施できる。メインメモリをダイナミックランダムアクセスメモリ（ＤＲＡＭ）、１つのハードディスクドライブ（ＨＤＤ）２２０、または、様々な複数の記憶装置及び複数の技術を含むコンピュータシステムから離れて配置された１つのメモリソース２３０とすることができる。キャッシュメモリをプロセッサ内に配置でき、または、プロセッサのローカルバス２０７上のようにプロセッサに極めて接近して配置できる。更に、６個のトランジスタ（６Ｔ）セルのような比較的高速の複数のメモリセルあるいは、ほぼ等しい、または、より高速のアクセス速度のその他の複数のメモリセルをもってキャッシュメモリを構成することができる。

図３には、本発明の少なくとも１つの実施形態を用いることができる１つのバスエージェントを示す。特に、図３には、本発明の少なくとも１つの実施形態の１つ以上の部分３０５を含む１つのマイクロプロセッサ３０１を示す。図３のマイクロプロセッサ内には、複数の記憶動作のような複数の動作をマイクロプロセッサ内で実行する１つの実行ユニット３１０を更に示す。本発明の複数の実施形態の複数の部分及び実行ユニットの正確な、または相対的な位置は、図３に示すそれらに限定されるものではない。

図４には、１つのＧｏＳＢ４０１が、複数の記憶動作を追跡し、大域的に観測可能になった複数の対応のデータ値を記憶するのに用いられる本発明の一実施形態を示す。図２のＧｏＳＢの各エントリー４０５は、エントリーに参照を付けることができる１つのインデックス値フィールド４０６と、記憶動作の対象アドレスを示す１つのアドレス値フィールド４０７と、記憶動作と関連するデータを記憶する１つのデータ値フィールド４０８と、まだ大域的に観測可能になっていない複数の記憶動作の１つの総数をカウントする１つのカウンタフィールド４０９と、大域的に観測可能な記憶動作に対応するデータを利用できるかどうか、そして、ＧｏＳＢのデータフィールド内に記憶されているかどうかを示す１つの有効ビットフィールド４１０とを含む。

図４には、１つの非コミット記憶待ち行列（ＮｃＳＱ）４１５をも示す。ＮｃＳＱは、ラインフィルバッファ（ＬＦＢ）４２０またはレベル１（Ｌ１）キャッシュ４２５に記憶されているが、まだ大域的に観測可能になっていない複数の記憶動作に対応するデータ及びアドレス情報を記憶する。図４に示す実施形態では、ＮｃＳＱは、複数のエントリーを有する１つの先入れ先出し（ＦＩＦＯ）待ち行列であり、これらエントリーは、１つの特定の記憶動作に対応するアドレス情報を記憶する１つのアドレスフィールド４１６と、記憶動作に対応するデータを記憶する１つのデータフィールド４１７と、ＧｏＳＢ内の対応のエントリーに参照を付けるインデックス情報を記憶する１つのＧｏＳＢインデックスフィールド４１８とを含む。

図４に示す実施例では、記憶バッファ４３０から複数の記憶動作が発せられ、転送され、または読み取られ、ＮｃＳＱ並びに、Ｌ１キャッシュまたはＬＦＢのどちらかに記憶され、１つの対応のエントリーがＧｏＳＢ内に割り付けられる。記憶データが大域的に観測可能になった後、データがＮｃＳＱから対応のＧｏＳＢエントリーに記憶される。

１つの特定の対象アドレスに対応する記憶データがＮｃＳＱ内に記憶されているので、ＧｏＳＢ内の対応のカウンタフィールドがインクリメントされる。複数の記憶動作が大域的に観測可能になったので、対応の記憶アドレス及びデータがＮｃＳＱから除去され、ＧｏＳＢ内の対応のカウンタフィールドがデクリメントされる。１つのＧｏＳＢカウンタフィールドが零に達した後、対応のＧｏＳＢエントリーを割り当て解除し、１つの新たな記憶動作に再割り当てすることができる。

図４に示す本発明の実施形態では、Ｌ１キャッシュ及びＬＦＢの各々を、１つの記憶データに対する１つ以上のバスエージェント、例えば１つのマイクロプロセッサにより監視できる。Ｌ１キャッシュ及びＬＦＢの各エントリー内には、１つのＧｏＳＢインデックスフィールド４２６及び１つのＧｏＳＢ有効フィールド４２７がある。ＧｏＳＢインデックスフィールドは、ＧｏＳＢ内で対応する記憶データの位置を１つの監視エージェントに示す。ＧｏＳＢ有効フィールドは、対応のＧｏＳＢインデックスが有効であるか、そして、まだ大域的に観測可能になっていないかを示す。また、データに対する１つのバスエージェントによりＧｏＳＢを監視でき、ＧｏＳＢはデータを発生し、あるいはその代わりに、監視エージェントにより用いられるべき最も有効なデータを指す。Ｌ１キャッシュまたはＬＦＢとＧｏＳＢとの双方が、要求されたデータを含んでいれば、ＧｏＳＢはデータを要求エージェントに供給する。

図５には、本発明の一実施形態を示し、この場合、複数のＧｏＳＢインデックス及びＧｏＳＢ有効フィールドが複数のＬ１キャッシュまたはＬＦＢエントリー内に記憶されていないが、その代わり、ＧｏＳＢインデックス５０１フィールドが記憶バッファの複数のエントリー内に記憶されている。図５に示す実施形態では、記憶動作が記憶バッファからＬＦＢまたはＬ１キャッシュへ読み取られ、転送され、または発せられるまで待つというよりはむしろ、記憶動作が非投機的に、または「上位」になると直ぐに１つのＧｏＳＢエントリーを１つの記憶動作に対して割り付けできる。

あるいはまた、１つの対応の記憶バッファフィールドがアクセスされた時に、ロジックを用いて１つの特定のＧｏＳＢインデックスフィールドを指すことによりＧｏＳＢインデックスフィールド５０１を、記憶バッファと同じ構造体内に物理的にではなく、論理的に記憶バッファと関連付けることができる。いずれにしても、記憶バッファの各エントリーと関連するＧｏＳＢインデックスフィールドにより複数の監視エージェントが記憶データをＧｏＳＢ内に早期に位置付けできるので、監視エージェントは、データがＧｏＳＢ内で大域的に観測可能になると直ぐにデータを取り出せるようになる。図５に示す実施形態では、対応の記憶データが記憶バッファ内に記憶される前に、複数のオーナー権に対する読み取り（ＲＦＯ）動作を発しさせることができる。図５に示す実施形態のその他の複数の態様は、図４に示す本発明の実施形態に関して既に説明した態様に類似する。

図６は、本発明の少なくとも１つの実施形態と関連する複数の動作を示す１つのフローチャートである。図６を参照する。動作６０１において、１つの第１の記憶動作をマイクロプロセッサ実行ロジックから発し、対応のデータを１つの記憶バッファエントリー内に記憶する。第１の記憶動作を記憶バッファから発しさせる前か後かに、動作６０２において、１つのＧｏＳＢエントリーを割り付け、１つのＲＦＯ動作を実行して、ＧｏＳＢ内並びに、Ｌ１キャッシュまたはＬＦＢ内で１つのラインの排他的なオーナー権を得る。次に、第１の記憶動作データをＮｃＳＱ並びに、１つのＬＦＢまたは１つのＬ１キャッシュエントリー内に記憶する。動作６０３において、対応のＧｏＳＢカウンタをインクリメントする。

動作６０４において、１つの第２の記憶動作を発し、対応のデータを１つの記憶バッファエントリー内に記憶する。動作６０５において、第２の記憶動作を記憶バッファから発しさせる前か後かに、１つのＧｏＳＢエントリーを割り付け、１つのＲＦＯ動作を実行して、ＧｏＳＢ内並びに、Ｌ１キャッシュまたはＬＦＢ内で１つのラインの排他的なオーナー権を得る。次に、動作６０６において、第２の記憶動作をＮｃＳＱ並びに、ＬＦＢまたはＬ１キャッシュに移動し、対応のＧｏＳＢのカウンタをインクリメントする。

本発明の少なくとも１つの実施形態では、第１及び第２の記憶動作データが、同じ期間にＬＦＢ及びＬ１キャッシュ内に存在する。第１の記憶動作のデータが大域的に観測可能になる前に、第２の記憶に対応するＲＦＯデータがＬ１キャッシュまたはＬＦＢから戻されていれば、操作６０７において、第２の記憶動作を、ＧｏＳＢの対応のエントリーにでなく、Ｌ１及び／またはＬＦＢの適切なエントリーに併合する。しかし、第２の記憶動作のＲＦＯデータがＬ１キャッシュまたはＬＦＢから戻される前に第１の記憶動作のデータが大域的に観測可能であれば、動作６０８において、第２の記憶動作データをＧｏＳＢの適切なエントリーに併合できる。大域的に観測可能になっていない、あるいは、大域的に観測可能になった、ＧｏＳＢ内に割り当てられた１つの特定の記憶動作に関連するデータの数を示すように１つのカウンタをインクリメントまたはデクリメントする。

複数の相補型金属酸化膜半導体（ＣＭＯＳ）回路素子（ハードウェア）、または、１つの記憶媒体内に記憶された複数の命令（ソフトウェア）であって、１つのマイクロプロセッサのような１つの機械により実行されると、ここで説明した複数の動作をマイクロプロセッサに実行させる複数の命令、あるいは、ハードウェア及びソフトウェアの１つの組み合わせを用いるロジックを含むが、これに限定されない多くの手段で、ここで示した本発明の複数の実施形態のいずれかまたはすべての部分を実施できる。ここで言及した「マイクロプロセッサ」または「プロセッサ」は、複数のＣＭＯＳ装置を含み、１つ以上の入力信号または命令を受信した１つの結果として複数の動作を実行できるいかなる機械または装置をも意味するものとする。

複数の例示的な実施形態を参照して本発明を説明したが、この説明は、１つの制限的な意味に解釈されるものではない。本発明が関連する複数の当業者にとって明らかであるその他の複数の実施形態と同様に、複数の例示的な実施形態の様々な複数の変形形態が本発明の精神及び範囲内にあると見なす。

複数の発せられた記憶動作を、１つの厳しく順序付けられたマイクロプロセッサアーキテクチャ内で処理する１つの従来技術のキャッシュアーキテクチャを示す。本発明の少なくとも１つの実施形態を用いうる１つのコンピュータシステムを示す。本発明の少なくとも１つの実施形態を用いうる１つのバスエージェントを示す。複数の記憶動作を追跡し、大域的に観測可能になった複数の対応のデータ値を記憶するのに１つの大域的観測記憶バッファ（ＧｏＳＢ）が用いられる本発明の一実施形態を示す。複数のＧｏＳＢインデックス及びＧｏＳＢ有効フィールドが複数のレベル１（Ｌ１）キャッシュまたはラインフィルバッファ（ＬＦＢ）エントリー内に記憶されていないが、その代わり、ＧｏＳＢインデックスフィールドが記憶バッファの複数のエントリー内に記憶されている本発明の一実施形態を示す。本発明の少なくとも１つの実施形態と関連する複数の動作を示す１つのフローチャートである。

Claims

厳しい順序付け命令アーキテクチャを有するプロセッサであって、
データ値が大域的に観測可能になった後に、前記データ値を記憶する１または複数のエントリーを有する大域的観測記憶バッファ（ＧｏＳＢ）と、
キャッシュメモリ内に記憶されているが、まだ大域的に観測されていないデータ値を記憶する１または複数のエントリーを有する非コミット記憶待ち行列（ＮｃＳＱ）と、
を備え、
前記ＧｏＳＢの各エントリーは、前記エントリーに対応するデータ値であり、前記ＮｃＳＱ内に記憶されるデータ値である、データ値の個数を示すカウント値を格納するカウンタフィールドを有し、
前記ＮｃＳＱにデータ値が記憶されると、前記ＧｏＳＢにエントリーを割り当て、
前記カウント値が０に達した後に、前記エントリーの割り当てを解除する、プロセッサ。
データ値が大域的に観測されるようになった後にこのデータ値が前記ＮｃＳＱから除去されるようになっている、請求項１に記載のプロセッサ。
前記ＮｃＳＱの各エントリーは、前記ＧｏＳＢ内の位置を示すインデックス値を記憶するインデックスフィールドを具え、前記位置には、対応のデータ値が大域的に観測可能になった後にこのデータ値が記憶されるようになっている、請求項１または２に記載のプロセッサ。
バスエージェントが要求したデータ値が前記ＧｏＳＢおよび前記キャッシュメモリの双方に含まれる場合、前記ＧｏＳＢが前記データ値を前記バスエージェントに供給する、請求項１から３のいずれかに記載のプロセッサ。
前記ＧｏＳＢの各エントリーは、
前記エントリー内に記憶されるべきデータ値に対するインデックスフィールドと、
前記エントリー内に記憶されるべきデータ値が書き込まれる位置に対応するアドレスフィールドと、
を更に備える、請求項１から４のいずれかに記載のプロセッサ。
ストアバッファであって、前記ストアバッファから第２データ値が読み取られる前に前記ストアバッファから読み取られる第１データ値が大域的に観測可能かどうかに関わらず、前記ストアバッファから前記第２データ値が読み取られ、前記キャッシュメモリに記憶されるようになっている、ストアバッファを更に備える、請求項１から５のいずれかに記載のプロセッサ。
第１の記憶動作が大域的に観測可能になる前に、第２の記憶動作に対するオーナー権に対する読み取り（ＲＦＯ）データが戻された場合に、第２の記憶動作を前記キャッシュメモリ内の適切なエントリーに併合する、請求項１から６のいずれかに記載のプロセッサ。
前記キャッシュメモリがレベル１（Ｌ１）キャッシュを備える、請求項１から７のいずれかに記載のプロセッサ。
前記キャッシュメモリが、レベル１（Ｌ１）キャッシュに書き込まれるべきデータ値を記憶するラインフィルバッファ（ＬＦＢ）を備える、請求項１から８のいずれかに記載のプロセッサ。
前記Ｌ１キャッシュまたは前記ＬＦＢがデータ値を監視エージェントに供給する前に前記ＧｏＳＢが前記データ値を前記監視エージェントに供給するようになっている、請求項９に記載のプロセッサ。
第１データ値を少なくとも１つのバスエージェントに記憶するための第１命令と、前記第１データ値が少なくとも１つのバスエージェントに記憶された後に第２データ値を少なくとも１つのバスエージェントに記憶するための第２命令とを記憶するメモリユニットと、
前記第１及び第２データ値のどちらかが少なくとも１つのバスエージェントにより検知可能になる前に前記第１及び第２データ値を同時に記憶するレベル１（Ｌ１）キャッシュ及びラインフィルバッファ（ＬＦＢ）と、
前記第１及び第２データ値が少なくとも１つのバスエージェントにより検知可能になった後に前記第１及び第２データ値を記憶する記憶構造体と、
第１バスエージェントと、
を備え、
前記第１及び第２データ値の双方またはいずれか一方が前記第１バスエージェントにより前記Ｌ１キャッシュまたは前記ＬＦＢ内で検知可能になる前に前記第１バスエージェントが前記第１及び第２データ値の双方またはいずれか一方を前記記憶構造体内で検知するようになっている、コンピュータシステム。
前記第１バスエージェントが、前記第１及び第２データ値の双方またはいずれか一方に関して前記Ｌ１キャッシュ及び前記ＬＦＢの双方またはいずれか一方を監視するようになっている、請求項１１に記載のコンピュータシステム。
前記第１及び第２データ値が、少なくとも１つのバスエージェント内にプログラム順に記憶される、請求項１１または１２に記載のコンピュータシステム。
前記第１及び第２命令が前記メモリユニット内にプログラム順に記憶される、請求項１１から１３のいずれかに記載のコンピュータシステム。
前記Ｌ１キャッシュ及び前記ＬＦＢの双方またはいずれか一方が、ポイントツーポイントバスを介して前記第１バスエージェントに結合されている、請求項１１から１４のいずれかに記載のコンピュータシステム。
前記メモリユニットがダイナミックランダムアクセスメモリ（ＤＲＡＭ）である、請求項１１から１５のいずれかに記載のコンピュータシステム。
前記Ｌ１キャッシュ及び前記ＬＦＢの双方またはいずれか一方がマイクロプロセッサ内に存在している、請求項１１から１６のいずれかに記載のコンピュータシステム。
前記第１バスエージェントが、マイクロプロセッサ、ＤＲＡＭ、磁気記憶媒体、バスアービトレーション装置及び無線記憶媒体から成るリストから選択される装置を備える、請求項１１から１７のいずれかに記載のコンピュータシステム。
大域的に観測可能なデータを格納するための大域的観測記憶バッファ（ＧｏＳＢ）内にエントリーを割り当てる割り当てロジックであって、前記エントリーの割り当ては、データに対応する記憶動作が非投機的になった後で、かつ、前記データがストアバッファから読み取られる前に行う、割り当てロジックと、
前記データが大域的に観測可能になる前に前記データを記憶するように前記ＧｏＳＢに結合されたキャッシュメモリと、
前記キャッシュメモリ内に前記データを記憶する前に前記キャッシュ内でラインの排他的オーナー権を得る、オーナー権に対する読み取り（ＲＦＯ）ロジックと
を備える、装置。
前記ＧｏＳＢのエントリーが割り当てられる前に前記ＲＦＯロジックが前記キャッシュメモリ内に前記ラインの排他的オーナー権を得るようになっている、請求項１９に記載の装置。
前記ストアバッファの各エントリーが、前記ＧｏＳＢ内で前記割り当てられたエントリーの位置を示すインデックスを備える、請求項１９または２０に記載の装置。
前記データが大域的に観測可能になると、前記ＧｏＳＢ内で前記割り当てられたエントリーが再割り当てされる、請求項１９から２１のいずれかに記載の装置。
複数の厳しく順序付けられたメモリ動作を発行する方法であって、
第１記憶動作を発行する段階と、
前記第１記憶動作と関連する第１データをストアバッファ内に記憶する段階と、
第２記憶動作を発行する段階と、
前記第２記憶動作と関連する第２データを前記ストアバッファ内に記憶する段階と、
前記第１データを記憶ユニットに記憶する段階と、
前記第１データが前記記憶ユニット内に記憶されているが、大域的に観測可能でない一期間中に前記第２データを前記記憶ユニットに記憶する段階と、
前記第１及び第２データが大域的に観測可能になった後に、これら第１及び第２データを記憶する１または複数のエントリーを有する大域的観測記憶バッファ（ＧｏＳＢ）に、前記第１及び第２データを格納する段階と、
を備える、方法。
前記第１データまたは第２データの一方が前記記憶ユニット内に記憶される前に、前記記憶ユニット内のラインについて排他的制御を得る、オーナー権に対する読み取り（ＲＦＯ）動作を発行する段階を更に備える、請求項２３に記載の方法。
前記第１データまたは第２データのどちらかが前記記憶ユニットに記憶されているが、大域的に観測可能ではない期間中に、発行された前記第１記憶動作または第２記憶動作に対応するエントリーを大域的観測記憶バッファ（ＧｏＳＢ）内に割り当てる段階を更に備える、請求項２３または２４に記載の方法。
前記ＧｏＳＢ内の各エントリーに備えられたカウンタを更新する段階であって、前記カウンタは、前記エントリーに対応する、大域的に観測可能となっていないデータの個数を示すものである、カウンタを更新する段階を更に備える、請求項２３から２５のいずれかに記載の方法。
前記カウンタが零に等しくなった後、別のデータを記憶するのに前記エントリーを再割り当てする、請求項２６に記載の方法。
大域的に観測可能となっていないデータを非コミット記憶待ち行列（ＮｃＳＱ）に格納する段階と、
前記データの個数を指示するように前記カウンタを更新する段階と、
を更に備える、請求項２６または２７に記載の方法。
前記記憶ユニットがレベル１（Ｌ１）キャッシュである、請求項２３から２８のいずれかに記載の方法。
前記記憶ユニットがラインフィルバッファである、請求項２３から２８のいずれかに記載の方法。