JP2003044452A

JP2003044452A - 同期メモリ・バリアを実装する方法およびシステム

Info

Publication number: JP2003044452A
Application number: JP2002157137A
Authority: JP
Inventors: Paul E Mckenney; ポウル・イー・マッケニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-06-18
Filing date: 2002-05-30
Publication date: 2003-02-14
Also published as: US20020194436A1; US6996812B2

Abstract

(57)【要約】【課題】マルチプロセッサ・コンピュータ・システム
において同期メモリ・バリアを実装するソフトウェアを
提供する。【解決手段】ソフトウェアにおけるシーケンシャル・
コンシステンシの選択的なエミュレートは、マルチプロ
セッシング・コンピュータ環境における効率を改善す
る。書込みＣＰＵは、高い優先順位のプロセッサ間割り
込みを用いて、システム内のそれぞれのＣＰＵにメモリ
・バリアを実行するよう強制する。このステップは、シ
ステム内の旧データを無効にする。メモリ・バリア命令
を実行したそれぞれのＣＰＵは、完了を登録し、記憶場
所へインディケータを送信してメモリ・バリア命令の完
了を指示する。データの更新より前に、書込みＣＰＵは
登録を検査してそれぞれのＣＰＵによるメモリ・バリア
実行の完了を保証しなければならない。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マルチプロセッサ
・コンピュータ環境において同期メモリ・バリア（ｓｙ
ｎｃｈｒｏｎｏｕｓｍｅｍｏｒｙｂａｒｒｉｅｒ）
を実装するソフトウェアに関し、特に、共用メモリ・コ
ンピュータ環境においてシーケンシャル・コンシステン
シ（ｓｅｑｕｅｎｔｉａｌｃｏｎｓｉｓｔｅｎｃｙ）
を選択的にエミュレートする方法およびシステムに関す
る。

【０００２】

【従来の技術】マルチプロセッサ・システムは、複数の
プロセスあるいは単一プロセス内の複数のスレッドを並
列コンピューティングとして知られる方法で同時に実行
できる複数のプロセッサ（ここでは“ＣＰＵ”とも称さ
れる）を含む。一般的に、マルチプロセッサ・システム
は、複数のプロセスまたは複数のスレッドを、プログラ
ムを逐次的に実行するパーソナル・コンピュータのよう
な一般的なシングル・プロセッサ・システムよりも高速
で実行する。実際の性能上の利益は、マルチスレッド化
されたプロセスの一部および／または複数の個別のプロ
セスを並列に実行できる程度と、特定のマルチプロセッ
サ・システムのアーキテクチャとを含む多数の要因によ
って決まる。プロセスを並列に実行できる程度は、プロ
セスが共用メモリ・リソースへの排他的アクセスを競合
する程度に部分的に依存する。

【０００３】共用メモリ・マルチプロセッサ・システム
は、全てのプロセッサがアクセスできる共通の物理記憶
アドレス空間を提供する。ここにおいて複数のプロセ
ス、あるいはプロセス内部の複数のスレッドは、プロセ
スがコンピュータ・システム内の同一の記憶場所を読み
取り同一の記憶場所へ書き込むことを可能にするメモリ
内の共用変数を通じて通信することができる。メッセー
ジ受渡し（ｍｅｓｓａｇｅｐａｓｓｉｎｇ）マルチプ
ロセッサ・システムは、共用メモリ・システムと対照的
に、各々のプロセッサごとの個別の記憶空間を有する。
メッセージ受渡しマルチプロセッサ・システムは、プロ
セスに、明示的メッセージを通じて相互に通信すること
を要求する。

【０００４】マルチプロセッサ・システムの設計におけ
る重要な問題は、プロセス同期である。プロセスを並列
に実行できる程度は、プロセスが共用メモリ・リソース
への排他的アクセスを競合する程度に部分的に依存す
る。たとえば、２つのプロセスＡおよびＢが並列に実行
される場合には、プロセスＢがバッファにアクセス可能
となる前に、プロセスＢは、プロセスＡがバッファへ値
を書き込むのを待たなければならないかもしれない。さ
もなければ、プロセスＡがバッファの更新途中であるの
と同時にプロセスＢがバッファにアクセスするという競
争状態が生ずることとなる。競合を回避するために、同
期メカニズムを与えてプロセス実行の順序を制御する。
これらのメカニズムは、相互排除ロック，条件変数，計
数セマフォ，およびリーダ・ライタ・ロック（ｒｅａｄ
ｅｒ−ｗｒｉｔｅｒｌｏｃｋ）を含む。相互排除ロッ
クは、ロックを保持するプロセッサのみが関連したアク
ションを実行することを可能にする。プロセッサが相互
排除ロックを要求する場合、相互排除ロックは、そのプ
ロセッサに排他的に与えられる。ロックを欲する他のプ
ロセッサは、ロックを保持するプロセッサがそれをリリ
ースするまで待たなければならない。上述したバッファ
・シナリオを処理するため、双方のプロセスは、さらな
る実行の前に相互排除ロックを要求する。どちらのプロ
セスがロックを最初に獲得するにしても、バッファを更
新し（プロセスＡの場合）、あるいはバッファにアクセ
スする（プロセスＢの場合）。他方のプロセッサは、最
初のプロセッサが終了し、ロックをリリースするまで待
たなければならない。このように、ロックは、たとえ並
列に処理を行うプロセッサがプロセスＡおよびＢを実行
しても、プロセスＢがコンシステント（ｃｏｎｓｉｓｔ
ｅｎｔ）情報を参照するということを保証する。

【０００５】同期されるべきプロセスに関して、排他的
アクセスを必要とする命令をクリティカル・セクション
へグループ化し、ロックと関連付けることが可能であ
る。プロセスが自身のクリティカル・セクションにおい
て命令を実行しているとき、相互排除ロックは、同一の
命令を実行している他のプロセスはないということを保
証する。これは、プロセッサがデータの変更を試みてい
る場合には重要である。しかしながら、このようなロッ
クは、プロセスがデータを読み取ることのみを可能にす
る命令を、複数のプロセスが同時に実行するのを不可能
にするという点で短所を有する。リーダ・ライタ・ロッ
クは、対照的に、複数の読取りプロセス（“リーダ”）
がデータベースのような共用リソースに同時にアクセス
することを可能にするが、書込みプロセス（“ライ
タ”）は、コンシステンシを得るため全ての更新を実行
する前にデータベースへの排他的アクセスを備えなけれ
ばならない。リーダ・ライタ・ロックに適した状況の実
例は、多くのリーダと、情報の不定期の更新とを伴うＴ
ＣＰ／ＩＰルーティング構造である。リーダ・ライタ・
ロックの近年の実施例は、Mellor-Crummey and Scott
（MCS）in "Scalable Reader-Writer Synchronization
for Shared-Memory Multiprocessors," Proceedingsof
the Third ACM SIGPLAN Symposium on Principles and
Practice of Parallel Programming,１０６〜１１３ペ
ージ（１９９１年），およびHseih and Weihlin "Scala
ble Reader-Writer Locks for Parallel Systems," Tec
hnical ReportMIT/LCS/TR-521（１９９１年１１月）に
よって説明される。

【０００６】リーダ・ライタ・ロックの基本的なメカニ
ズムと構造は周知である。典型的なロックにおいて、複
数のリーダは、アクティブ・ライタが存在しない場合に
限ってロックを獲得できる。反対に、ライタは、アクテ
ィブ・リーダまたは他のライタが存在しない場合に限っ
てロックを獲得できる。リーダがロックをリリースする
とき、それが最後のアクティブ・リーダである場合を除
いて、リーダはアクションを起こさず、最後のアクティ
ブ・リーダである場合には、リーダは次の待機ライタへ
ロックを与える。

【０００７】従来のリーダ・ライタ・ロックの短所は、
他のプロセッサが単一データ構造上でスピンしている可
能性がある一方で、複数のプロセッサが当該単一データ
構造をたて続けに変更してしまうという望まれないメモ
リ競合である。結果として生じるキャッシュ・ミス（ｃ
ａｃｈｅｍｉｓｓｅｓ）は、性能を大きく低下させる
こととなる。当該短所は、Hseih and Weihlによって説
明されるようなより新しいロック・スキームにおいて部
分的に処理されてきた。それらの静的ロック・アルゴリ
ズムは、プロセッサにとってローカルのメモリに格納さ
れた１つのセマフォをプロセッサごとに割り当てる。追
加のセマフォは、ライタに対するゲートの働きをする。
静的ロックを獲得するために、リーダは、自身のローカ
ル・セマフォを獲得することのみを必要とし、スピンの
量を大いに低減させる。一方、ライタは、ここではプロ
セッサごとに１つ存在するセマフォの全てと追加のセマ
フォとをさらに獲得しなければならない。静的ロックを
リリースする場合、リーダは、自身のローカル・セマフ
ォを単にリリースし、ライタは、セマフォの全てをリリ
ースする。ロックは、このようにして、リーダが相互に
干渉せず、リーダが、ロックを獲得するためにシステム
相互接続を繰り返す（ｇｏｏｖｅｒ）必要がないとい
う点で従来のロックより優れた改良を提供する。しかし
ながら、リーダが決して干渉しないという事実は、ライ
タが、多数のプロセッサを備えるシステムにおいて相当
な量の作業をしなければならないということを意味す
る。たとえわずかなパーセントの要求が書き込みである
場合であっても、ライタは、ロックを首尾良く獲得する
ためには、全てのノード上の全てのプロセッサについて
のセマフォを獲得しなければならないので、スループッ
トは非常に悪化する。最後に、複数のリーダ・ライタ・
ロックの使用は、デッドロックしやすい。したがって、
これらの短所は、リーダにロックの獲得を要求しない手
法を促す。

【０００８】読取りコピー（ｒｅａｄ-ｃｏｐｙ）更新
は、リーダにロックの獲得を要求しない手法の１例であ
る。リーダがロックを獲得しない他の例は、シーケンシ
ャル・コンシステント（ｓｅｑｕｅｎｔｉａｌｌｙｃ
ｏｎｓｉｓｔｅｎｔ）・メモリ・モデルのような強いメ
モリ・コンシステンシ（ｃｏｎｓｉｓｔｅｎｃｙ）・モ
デルに依存するアルゴリズムを用いる。シーケンシャル
・コンシステント・メモリは、あらゆる実行の結果が、
まるで各プロセッサによって実行されるアクセスが正し
い順序を保たれ、異なるプロセッサ間のアクセスがイン
ターリーブされるかのように同一であることを必要とす
る。シーケンシャル・コンシステンシを実現する一つの
方法は、ある種のメモリ・アクセスの完了を遅らせるこ
とである。したがって、シーケンシャル・コンシステン
ト・メモリは、一般的に非効率である。

【０００９】図１〜３は、シーケンシャル・コンシステ
ント・メモリ・モデルにおけるデータ構造５へ新たなエ
レメント３０を追加する従来のプロセスの概略図であ
る。図１は、新たなエレメント３０をデータ構造５へ追
加するあるいは新たなエレメント３０を初期化する前の
データ構造についてのシーケンシャル・コンシステント
・メモリ・モデルを説明する図である。データ構造５
は、第１のエレメント１０と第２のエレメント２０とを
有する。第１のエレメント１０と第２のエレメント２０
とは、個々に、３つのフィールド１２，１４および１６
と、２２，２４および２６とを有する。マルチプロセッ
サ環境内のＣＰＵがデータ構造を並行して検索できるよ
うに、データ構造５へ新たなエレメント３０を追加する
ためには、新たなエレメント３０を最初に初期化する必
要がある。これは、リンクされたデータ構造を検索する
ＣＰＵが、破壊されたデータで占められる新たなエレメ
ント内のフィールドを参照することがないということを
保証する。新たなエレメント３０のフィールド３２，３
４および３６の初期化に続いて、新たなエレメントをデ
ータ構造５へ追加できる。図２は、新たなエレメント３
０のフィールド３２，３４および３６の各々の初期化の
後であり、かつデータ構造５への新たなエレメント３０
の追加より前の新たなエレメント３０を説明する図であ
る。最後に、図３は、フィールド３２，３４および３６
の初期化に続くデータ構造への第３のエレメントの追加
を説明する図である。このように、シーケンシャル・コ
ンシステント・メモリ・モデルにおいて、プロセス内の
各ステップの実行は、プログラム順序で発生する必要が
ある。

【００１０】図１〜３のプロセスは、シーケンシャル・
コンシステンシのような強いメモリ・コンシステンシ・
モデルを用いるＣＰＵに対してのみ有効である。たとえ
ば、新たなエレメントの追加は、他のＣＰＵが、異なる
順序で生じる一定のＣＰＵからの書込みオペレーション
を経験し得る弱いメモリ・モデルにおいては、失敗する
ことがある。図４は、新たなエレメントをデータ構造へ
追加する従来の弱いメモリ・コンシステンシ・モデルを
説明する図である。この例において、新たなエレメント
３０の第１のフィールド３２への書込みオペレーション
は、第２のエレメント２０のネクスト・フィールドへの
書込みオペレーションをパスする。

【００１１】データ構造を検索するＣＰＵは、第３のエ
レメント３０の第１フィールド３２を参照し、破壊され
たデータをもたらし得る。検索ＣＰＵは、その上、フィ
ールド３２から確定されるデータをポインタとして用い
ようと試みることがあり、ほとんどの場合、これはプロ
グラム障害あるいはシステム・クラッシュをもたらすこ
ととなる。したがって強いメモリ・コンシステンシを強
制するＣＰＵを用いることにより、データ破壊を回避す
ることができる。

【００１２】強いハードウェア・メモリ・コンシステン
シは、より多くのオーバーヘッドを必要とし、読取り要
求と書込み要求との間の優先順位を暗黙的に識別するこ
とができない。この問題を克服するために、現在のマイ
クロプロセッサは、メモリ・オペレーションが異なるＣ
ＰＵ上で異なる順序で発生可能である緩和されたメモリ
・コンシステンシ・モデルを実装する。たとえば、ＤＥ
Ｃ／ＣｏｍｐａｑＡｌｐｈａは、メモリ・バリアを実
行するＣＰＵに関してのみ、書込みと無効化とを直列化
するメモリ・バリアを有する。全ての他のＣＰＵのキャ
ッシュのデータ項目を無効にし、これらの無効化が完了
するまで待機するハードウェア・メカニズムは存在しな
い。したがって、システム内の全てのＣＰＵがメモリ・
バリア命令を実行することを要求する高い優先順位のプ
ロセッサ間割り込みを与えて、読取りＣＰＵと更新ＣＰ
Ｕとにメモリ・バリアを通過してメモリのコンシステン
ト・ビュー（ｃｏｎｓｉｓｔｅｎｔｖｉｅｗ）を保証
するよう求めることが望ましい。

【００１３】

【発明が解決しようとする課題】本発明の目的は、マル
チプロセッサ・コンピュータ・システムにおいて同期メ
モリ・バリアを実装するソフトウェアを提供することで
ある。本発明のさらなる目的は、メモリ・バリア命令の
使用を通じてメモリ無効化を処理してメモリのコンシス
テント・ビューを保証することである。

【００１４】

【課題を解決するための手段】本発明の第１の態様は、
ソフトウェアにおいてシーケンシャル・コンシステンシ
を選択的にエミュレートする方法である。マルチプロセ
ッシング・コンピュータ環境内のそれぞれのＣＰＵは、
メモリ・バリア命令を実行するよう強制される。メモリ
・バリアの実行に続いて、それぞれのＣＰＵはインディ
ケータを送信して、メモリ・バリア命令の完了を伝達す
る。プロセッサ間割り込みがそれぞれのＣＰＵへ送信さ
れてメモリ・バリア命令の実行を強制する。デッドロッ
クを回避するために、応答側ＣＰＵからのメモリ・バリ
ア命令の実行が要求側ＣＰＵに登録される。さらに、他
のＣＰＵがメモリ・バリア命令を実行するのを待つＣＰ
Ｕは、コンカレント（同時発生の）（ｃｏｎｃｕｒｒｅ
ｎｔ）要求に依存した（ｓｅｎｓｉｔｉｖｅ）ままでな
ければならない。メモリ・バリア命令の登録の実装は、
必須ではないが、ビットマスク，アレイ，および結合ツ
リーより成るグループから好ましくは選択される。

【００１５】本発明の第２の態様は、それぞれのＣＰＵ
にメモリ・バリア命令を実行するよう強制する命令と、
メモリ・バリア命令の完了を指示する命令マネージャと
を有するマルチプロセッサ・コンピュータ・システムで
ある。メモリ・バリア・マネージャが与えられてＣＰＵ
の全てにプロセッサ間割り込みを送信し、メモリ・バリ
ア命令の実行を強制する。競合するＣＰＵ間のデッドロ
ックを回避するために、応答側ＣＰＵからのメモリ・バ
リア命令の実行の登録が要求側ＣＰＵへ与えられる。加
えて、要求側ＣＰＵはコンカレント要求に依存したまま
であり、コンカレント要求を実行する。命令の登録の実
装は、必須ではないが、ビット・マスク，アレイ，およ
び結合ツリーより成るグループから好ましくは選択され
る。

【００１６】本発明の第３の態様は、当該媒体内に複数
のプロセッサ・オペレーティングを備えるコンピュータ
読取可能信号伝達媒体を含む製造物品である。当該製造
物品は、それぞれのＣＰＵにメモリ・バリア命令の実行
を強制する媒体内の手段と、メモリ・バリア命令の完了
を指示する命令マネージャとを有する。メモリ・バリア
・マネージャが与えられてＣＰＵの全てにプロセッサ間
割り込みを送信し、メモリ・バリア命令の実行を強制す
る。競合するＣＰＵ間のデッドロックを回避するため
に、応答側ＣＰＵからのメモリ・バリア命令の実行の登
録が要求側ＣＰＵに与えられる。加えて、要求側ＣＰＵ
は、コンカレント要求に依存したままであり、コンカレ
ント要求を実行する。命令の登録の実装は、必須ではな
いが、ビット・マスク，アレイ，および結合ツリーより
成るグループから好ましくは選択される。

【００１７】本発明の他の特徴および利点は、添付図面
と共に理解される本発明の好適な実施の形態の下記の詳
細な説明から明らかとすることができる。

【００１８】

【発明の実施の形態】（概要）共用メモリ・マルチプロ
セッサ・システムにおいて、複数のプロセッサがメモリ
のコンシステント・ビューを参照するということが必須
である。読取りＣＰＵがロックを獲得しない手法の例
が、読取りコピー更新において、そして、シーケンシャ
ル・コンシステンシ・モデルにおける弱いメモリ・バリ
ア命令の実装において認められる。リンク・リスト内の
新たなエレメントへのポインタを更新する擬似コードを
下記に示す：１．次のエレメントへのポインタを含む新たな構造を初
期化する２．セマフォ“ｓ”上でスリープ中の全てのプロセスを
呼び起こす関数を起動する読取りコピー・コールバック
を登録する３．セマフォ“ｓ”上でスリープする４．指定された先行エレメントに新たなエレメントをポ
イントさせる。

【００１９】読取りコピー・コールバックの実施は、メ
モリ・バリアがそれぞれのＣＰＵ上で実行されることを
強制するので、全ての読取りＣＰＵは、メモリ破壊の回
避が必要とされる、構造が初期化されポインタが変更さ
れる期間の間メモリ・バリアを実行することを保証され
る。しかしながら、このプロシージャは、割り込みハン
ドラ，スピンロック・クリティカル・セクション，また
は割り込み禁止のコードのセクション内部からは使用で
きない。緩和されたメモリ・コンシステンシ・モデルを
使用するＣＰＵは、無効にされるプロセス中にある読取
りデータから読取りＣＰＵを分けるメカニズムを提供す
ることができない。したがって、複数のＣＰＵ間のデッ
ドロック・シナリオを回避しながら、シーケンシャル・
コンシステンシをエミュレートするソフトウェアを実現
することが望ましくかつ有効である。

【００２０】（技術的背景）一般的に、弱いメモリ・コ
ンシステンシ・モデルへのソフトウェア・アプローチの
実装は、オーバーヘッドを緩和しながら効率を改善す
る。図５は、弱いメモリ・バリア実行の問題を説明する
書込みＣＰＵ６０と読取りＣＰＵ７０とのブロック図５
０を示す。各々のＣＰＵは、キャッシュ₀ ６２およびキ
ャッシュ₀ ６４によってそれぞれ処理される偶数番号の
キャッシュ線と、キャッシュ₁ ７２およびキャッシュ₁
７４によってそれぞれ処理される奇数番号のキャッシュ
線とを有する。キャッシュ線サイズは７２バイトであ
り、アドレス０，６４，１２８，１９２，２５６…にお
いて偶数番号のキャッシュ線であり、アドレス３２，９
６，１６０，２２４，２８８…において奇数番号のキャ
ッシュ線である。この例において、書込みＣＰＵ６０
は、リンク・リストの末尾に新たなデータ構造を追加し
ており、同時に、読取りＣＰＵ７０は、同じリンク・リ
ストを並行してスキャンしている。書込みＣＰＵ６０
は、最初にデータ構造に記入し、リンク・リスト内の最
後のエレメントからのポインタを更新して新たなエレメ
ントをポイントすることができる。しかしながら、この
プロシージャは、読取りＣＰＵ７０がこの新たなエレメ
ント内でガーベッジ値を参照する結果をもたらすことが
ある。というのは、ポインタへの更新が、データ構造へ
の変更より速く読取りＣＰＵへ伝搬し得るからである。
例えば、ポインタが偶数番号のキャッシュ線内にあり、
新たなエレメントが奇数番号のキャッシュ線にあること
がある。そして、偶数番号のハードウェアが使用されて
いない一方で、奇数番号のハードウェアが使用中である
ことがある。したがって、メモリ・バリアの適正な実行
を実現して双方のＣＰＵとのメモリ・コンシステンシを
保証する必要性が存在する。

【００２１】図５において説明される例でメモリ・コン
システンシを保証するために、書込みＣＰＵ６０は、デ
ータ構造に記入後でありかつポインタの更新前にメモリ
・バリア命令を実行する必要がある。メモリ・バリア命
令の効果が単一ＣＰＵに制限される場合には、書込みＣ
ＰＵ６０によって実行されるメモリ・バリア命令は、無
効化が相互接続上で順序正しく発生するよう強制する
が、読取りＣＰＵ７０が順序正しく無効化を処理すると
いうことを保証しない。例えば、読取りＣＰＵ７０内の
偶数番号のキャッシュ・ハードウェアが使用されていな
い一方で、読取りＣＰＵ７０上の奇数番号のキャッシュ
・ハードウェアが使用中であることがある。これは、読
取りＣＰＵ７０がポインタの新たな値を読取るけれども
データ・エレメント内の旧データを参照する結果をもた
らす。したがって、読取りＣＰＵ７０がデータ構造にア
クセスするよりも前に旧データが無効にされるというこ
とを保証する必要性が存在する。

【００２２】図６は、メモリ・バリアの実施例を使用し
てデータ構造へのポインタを更新するプロセスを説明す
るフローチャート１００を示す。データ構造を更新する
ＣＰＵは、データ構造へ書込む（ステップ１１０）。こ
のＣＰＵは、書込みＣＰＵと称される。このプロセスの
際、データ構造にアクセスしデータ構造を読取るそれぞ
れのＣＰＵは、書込みＣＰＵが新たなエレメントへのポ
インタを更新する時まで旧データ構造を使用している。
データ構造を読取るそれぞれのＣＰＵは、読取りＣＰＵ
として知られる。データ構造の更新に続いて、書込みＣ
ＰＵは、システム内のそれぞれのＣＰＵにメモリ・バリ
ア命令を実行するよう強制する（ステップ１２０）。書
込みＣＰＵは、高い優先順位のプロセッサ間割り込みを
使用して、全てのＣＰＵにメモリ・バリア命令を実行す
るよう強制する。メモリ・バリア命令の実行は、不整合
データを無効にし、読取りＣＰＵが変更されたデータ構
造内の新たなデータにアクセスできることを保証する。
それぞれのＣＰＵは、インディケータを記憶場所へ送信
してメモリ・バリア命令の完了を指示する（ステップ１
３０）。このステップは、メモリ・バリア命令の完了を
指示する共通ロケーション内の記録を保証する。このよ
うにして、書込みＣＰＵは、新たなデータに関するデー
タ構造へのポインタの更新より前に旧データを無効にす
るために、システム内のそれぞれのＣＰＵによるメモリ
・バリア命令の実行を強制する。

【００２３】一方、２つの競合する書込みＣＰＵ間のデ
ッドロックを回避することが重要である。それぞれの書
込みＣＰＵは、データ構造へのポインタを更新する前
に、各ＣＰＵがメモリ・バリアの実行を完了しているこ
とを保証しなければならない（ステップ１４０）。それ
ぞれのＣＰＵがメモリ・バリア命令を実行していない場
合には、書込みＣＰＵは、データ構造へのポインタを更
新することができない。書込みＣＰＵは、それぞれのＣ
ＰＵがメモリ・バリア命令を実行するのを待たなければ
ならず、あるいは、メモリ・バリア命令の実行を再び要
求することとなる（ステップ１２０）。書込みＣＰＵ
は、それぞれのＣＰＵがメモリ・バリアの実行を登録す
るのを待っている一方で、書込みＣＰＵは、コンカレン
ト・メモリ・バリア実行要求を確認し、この要求を満た
す（ステップ１４５）。それぞれのＣＰＵがメモリ・バ
リア命令の実行の完了を登録した場合には、書込みＣＰ
Ｕは、データ構造へのポインタを更新することができる
（ステップ１５０）。システム内のそれぞれのＣＰＵが
メモリ・バリア命令を実行したということを保証する登
録のレビューに続いて、書込みＣＰＵは、データ構造へ
のポインタを更新することができる。

【００２４】メモリ・バリア命令の実行の完了の登録
と、コンカレント・メモリ・バリア要求の充足という、
デッドロックを回避するための２つの要素が存在する。
デッドロック・シナリオを回避する第１の実施の形態
は、各ＣＰＵがメモリ・バリア実行要求を登録するため
のアレイを提供することである。アレイは、ＣＰＵごと
に１つのエントリを備える。データ構造に書き込むため
にロックを要求するＣＰＵは、アレイをスキャンして、
ポインタの更新より前に、全てのＣＰＵがメモリ・バリ
アを実行して全ての無効化をフラッシュしたということ
を保証しなければならない。好適な実施の形態におい
て、アレイ内の各エントリは、ＣＰＵごとに１つのビッ
トを備えるビット・マスクである。ポインタを更新する
ためにロックを要求するＣＰＵは、全てのＣＰＵに割り
込みを送信して、メモリ・バリアの実行を強制する。そ
れぞれのＣＰＵは、アトミック演算を用いてアレイの各
ＣＰＵビット・マスクから自身のビットを減算し、要求
側ＣＰＵは、アレイ内の値の各々がゼロになるまでアレ
イをスキャンしなければならない。この期間の間、書込
みＣＰＵは、コンカレント・メモリ・バリア要求を確認
し、この要求を満たす。これは、それぞれのＣＰＵがメ
モリ・バリア命令を実行したということを保証する。

【００２５】第１の実施の形態のアレイ・エントリ・シ
ステムに関連して、要求に応答したＣＰＵが、メモリ・
バリア命令を実行するための擬似コードを以下に示す：１．ローカル変数“ｃｌｅａｒｅｄ＿ｂｉｔｓ”をゼロ
にセットする２．割り込みを抑制する３．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”を獲得する４．“ｎｅｅｄ＿ｍｂ”アレイをスキャンする。このＣ
ＰＵのビット・セットを有する各エントリに関して、以
下を行う：ａ）このＣＰＵのビットをクリアするｂ）“ｃｌｅａｒｅｄ＿ｂｉｔｓ”ローカル変数を増分
する５．“ｃｌｅａｒｅｄ＿ｂｉｔｓ”がゼロでない場合、
メモリ・バリア命令を実行する６．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”をリリースする７．割り込みを復元するこのように、ステップ４は、メモリ・バリア実行の完了
を登録するステップを伴う。

【００２６】ある種のアーキテクチャは、ロックの獲得
およびロックのリリースをそれぞれ割り込みの抑制およ
び割り込みの復元と組み合せることを可能にする。第１
の実施の形態のアレイ・エントリ・システムに関連し
て、グローバル・メモリ・バリア・シュートダウン（ｓ
ｈｏｏｔｄｏｗｎ）を要求するＣＰＵのための擬似コー
ドを以下に示す：１．割り込みを抑制する２．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”を獲得する３．ロックの獲得によって暗黙指定される、メモリ・バ
リア命令を実行する４．このＣＰＵについての“ｎｅｅｄ＿ｍｂ＿ｅｎｔｒ
ｙ”内部で、全てのその他のＣＰＵについてのビットを
セットする５．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”をリリースする６．全ての他のＣＰＵへ割り込みを送信する７．このＣＰＵの“ｎｅｅｄ＿ｍｂ”エントリがゼロで
ない間、以下のステップをくり返す：ａ）ローカル変数“ｃｌｅａｒｅｄ＿ｂｉｔｓ”をゼロ
にセットするｂ）“ｎｅｅｄ＿ｍｂ”アレイをスキャンする。それぞ
れのエントリ“ｊ”について：ｉ）ｊ番目のエントリがこのＣＰＵのビット・セットを
有する場合には：（１）“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”を獲得する（２）このＣＰＵのビットをクリアする（３）“ｃｌｅａｒｅｄ＿ｂｉｔｓ”ローカル変数を増
分する（４）“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”をリリースするｃ）“ｃｌｅａｒｅｄ＿ｂｉｔｓ”がゼロでない場合に
は、メモリ・バリア命令を実行する８．割り込みを復元するステップ７および従属ステップは、待機ＣＰＵに他のＣ
ＰＵによるコンカレント要求へ応答させることによりデ
ッドロックを回避する。したがって、アレイ・システム
の実施例の双方は、要求側ＣＰＵに、アレイをスキャン
して、データ構造内のポインタの更新より前にその他の
ＣＰＵの各々がメモリ・バリアを実行していることを保
証するよう要求し、一方、待機ＣＰＵにコンカレント・
メモリ・バリア要求に応答することを要求し、それによ
ってデッドロックを回避する。

【００２７】デッドロック・シナリオを回避する第２の
実施の形態は、世代ベースのビット・マスクの使用であ
る。それぞれのメモリ・バリア実行要求は、世代番号を
割り当てられる。直前の要求が処理されている間に開始
される要求は、直前の要求と同じ世代番号を割り当てら
れる。いったん世代番号が処理されると、要求が完了す
る。全ての待機ＣＰＵにメモリ・バリア命令をくり返し
実行させ、メモリ・バリア命令の完了をビット・マスク
に登録することにより、デッドロックが回避される。

【００２８】世代ベースのビット・マスクを実装するメ
モリ・バリア実行を要求する割り込みに応答したＣＰＵ
のための擬似コードを以下に示す：１．割り込みを抑制する２．“ｎｅｅｄ＿ｍｂ”（ビット・マスク）内の問題の
（ｏｕｒ）ビットがセットされていない場合には、割り
込みを復元してリターンする３．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”を獲得する４．メモリ・バリア命令を実行する５．“ｎｅｅｄ＿ｍｂ”内のビットをクリアする。問題
のビット（ｏｕｒｓ）が最後のビット・セットである場
合には、以下のステップを行う：ａ）“ｃｕｒｒｅｎｔｇｅｎｅｒａｔｉｏｎ”カウン
タを増分するｂ）”ｃｕｒｒｅｎｔｇｅｎｅｒａｔｉｏｎ”カウン
タが“ｍａｘｉｍｕｍｇｅｎｅｒａｔｉｏｎ”カウン
タより小さいかまたは等しい場合には、以下のステップ
を行う：ｉ）“ｎｅｅｄ＿ｍｂ”ビット・マスク内の（このＣＰ
Ｕのビット以外の）それぞれのＣＰＵのビットをセット
する ii）割り込みをそれぞれの他のＣＰＵに送信する６．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”をリリースするこの
ように、ステップ５は、メモリ・バリア実行の完了を登
録するステップを伴う。

【００２９】グローバル・メモリ・バリア・シュートダ
ウンを要求するＣＰＵのための擬似コードを以下に示
す：１．割り込みを抑制し、“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”
を獲得する２．メモリ・バリア命令を実行する３．現行世代（ｃｕｒｒｅｎｔｇｅｎｅｒａｔｉｏ
ｎ）が最大世代（ｍａｘｉｍｕｍｇｅｎｅｒａｔｉｏ
ｎ）より小さいかまたは等しい場合には、以下のステッ
プを行う：ａ）“ｍａｘｉｍｕｍｇｅｎｅｒａｔｉｏｎ”を“ｃ
ｕｒｒｅｎｔｇｅｎｅｒａｔｉｏｎ”＋１にセットす
る４．もしそうでなければ以下のステップを行う：ａ）“ｍａｘｉｍｕｍｇｅｎｅｒａｔｉｏｎ”を“ｃ
ｕｒｒｅｎｔｇｅｎｅｒａｔｉｏｎ”にセットするｂ）“ｍｙｇｅｎｅｒａｔｉｏｎ”を“ｍａｘｉｍｕ
ｍｇｅｎｅｒａｔｉｏｎ”にセットするｃ）“ｎｅｅｄ＿ｍｂ”ビット・マスク内の（このＣＰ
Ｕのビット以外の）それぞれのＣＰＵのビットをセット
するｄ）割り込みをそれぞれの他のＣＰＵに送信する５．“ｍｙｇｅｎｅｒａｔｉｏｎ”を“ｍａｘｉｍｕ
ｍｇｅｎｅｒａｔｉｏｎ”にセットする６．“ｎｅｅｄ＿ｍｂ＿ｌｏｃｋ”をリリースする７．“ｍｙｇｅｎｅｒａｔｉｏｎ”が“ｃｕｒｒｅｎ
ｔｇｅｎｅｒａｔｉｏｎ”より大きいかまたは等しい
間：ａ）それぞれのＣＰＵの要求に応答するプロシージャを
起動してメモリ・バリア命令を実行するこのように、ステップ７は、待機ＣＰＵがコンカレント
・メモリ・バリア要求に依存したままであり、コンカレ
ント・メモリ・バリア要求に応答するということを保証
する。

【００３０】デッドロックを回避する第１の実施の形態
あるいは第２の実施の形態の実装において、それぞれの
読取りＣＰＵにメモリ・バリア命令を実行させることが
重要である。一方、残りのＣＰＵに対してメモリ・バリ
ア命令を要求する書込みＣＰＵを含むそれぞれのＣＰＵ
が、メモリ・バリア命令を実行することが望ましい。メ
モリ・バリア命令の実行は、それぞれのＣＰＵのキャッ
シュから旧データを無効にする。それぞれのＣＰＵによ
るメモリ・バリア実行の実現は、高い優先順位のプロセ
ッサ間割り込みをシステム内のすべてのＣＰＵに送信す
ることによって実施される。これは、それぞれのＣＰＵ
に、関連したメモリ・バリア命令を実行するよう強制す
る。コンカレント・メモリ・バリア実行要求は、要求の
それぞれのグループが世代番号を割り当てられるグルー
プへマージされる。直前のメモリ・バリア実行要求が処
理されている間、現行の世代番号が、到着したすべての
メモリ・バリア実行要求に割り当てられる。シーケンシ
ャル・コンシステンシをエミュレートするソフトウェア
は、他のＣＰＵがメモリ・バリア命令のセットを実行す
るのを待っているそれぞれのＣＰＵに、コンカレント・
メモリ・バリア実行要求を絶えず満たすことをさらに要
求する。マルチプロセッシング・コンピュータ環境にお
いて、それぞれのＣＰＵは異なるアジェンダを有するこ
とがあり、複数のメモリ・バリア実行要求が短時間のイ
ンターバル内で処理されていることがある。したがっ
て、無効にされたデータが、不適切に消費されないとい
うことの保証を、コンカレント・メモリ・バリア命令要
求が達成することが重要である。

【００３１】（従来技術より優れた利点）メモリ・バリ
ア命令を同期させるソフトウェアの実装は、読取りオペ
レーションおよび書込みオペレーションにおける性能を
改善する。書込みＣＰＵからのメモリ・バリア要求の実
施により、読取りＣＰＵがデータ構造へのポインタを読
み取る前に無効化が処理されるよう強制される。これ
は、読取りＣＰＵが、無効にされたデータあるいは無効
にされるプロセス中にあるデータを読み取らないという
ことを保証する。強いハードウェア・コンシステンシ・
モデルは、より多くの時間を使用し、したがってより多
くのオーバーヘッドを伴う。メモリ・バリアの実施は、
無効化をフラッシュする。さらに、ハードウェアは、読
取りオペレーションと書込みオペレーションとの間の優
先順位を暗黙的に区別することができない。このよう
に、ソフトウェアにおいてシーケンシャル・コンシステ
ンシをエミュレートする方法は、コストを低減し、複数
のＣＰＵ間のデッドロックの回避を保証する。

【００３２】（他の実施の形態）本発明の特定の実施の
形態を、例示のためにここで述べてきたが、本発明の趣
旨および範囲から外れることなしに様々な変更を行うこ
とが可能であることが理解できる。特に、複数のＣＰＵ
間のデッドロックを回避するために、他のメカニズムを
用いることができる。例えば、要求カウンタのセットを
登録と関連して用い、たった１つのＣＰＵだけが同時に
動作するということを保証できる。他のメカニズムは、
たった１つのＣＰＵだけが同時に動作するということを
保証する結合ツリーの使用である。結合ツリー・メカニ
ズムは、ＭＵＭＡ環境において、あるいは、コンピュー
タ・システムのバス構造を反映することが望ましい他の
コンピュータ・システムにおいて好適である。このよう
に、本発明の保護範囲は、特許請求の範囲およびその均
等範囲によってのみ制限される。

【００３３】まとめとして、本発明の構成に関して以下
の事項を開示する。（１）ソフトウェアにおいてシーケンシャル・コンシス
テンシを選択的にエミュレートする方法であって、
（ａ）それぞれのＣＰＵにメモリ・バリア命令を実行す
るよう強制するステップと、（ｂ）それぞれのＣＰＵに
前記メモリ・バリア命令の完了を伝達するインディケー
タを送信させるステップと、を含む方法。（２）前記それぞれのＣＰＵにメモリ・バリア命令を実
行するよう強制するステップは、プロセッサ間割り込み
を全てのＣＰＵに送信するステップを含む、上記（１）
に記載の方法。（３）他のＣＰＵが前記メモリ・バリア命令を実行する
のを待っているそれぞれのＣＰＵに、コンカレント・メ
モリ・バリア実行要求を絶えず満たさせることによって
デッドロックを回避するステップをさらに含む上記
（２）に記載の方法。（４）単一セットのメモリ・バリア命令の実行を用い
て、コンカレント・メモリ・バリア実行要求のグループ
を満たすステップを、さらに含む上記（１）に記載の方
法。（５）前記メモリ・バリア実行要求のそれぞれのグルー
プに世代番号を割り当てるステップを、さらに含む上記
（４）に記載の方法。（６）直前のメモリ・バリア実行要求が処理されている
間に到着したすべてのメモリ・バリア実行要求に、現行
の世代番号を割り当てるステップを、さらに含む上記
（５）に記載の方法。（７）前記それぞれのＣＰＵに前記メモリ・バリア命令
の完了を伝達するインディケータを送信させるステップ
は、前記ＣＰＵがアレイ，ビット・マスク，および結合
ツリーより成るグループから選択されたツールを用いて
前記メモリ・バリアの完了を登録するステップを含む、
上記（１）に記載の方法。（８）それぞれのアレイ・エントリがＣＰＵからのメモ
リ・バリア実行要求に対応し、ＣＰＵがメモリ・バリア
要求を登録するためのアレイを与えるステップを、さら
に含む上記（１）に記載の方法。（９）前記アレイをスキャンして、それぞれのＣＰＵに
よる前記メモリ・バリア命令の実行を判断するステップ
をさらに含む、上記（８）に記載の方法。（１０）複数のプロセッサと、それぞれのＣＰＵにメモ
リ・バリア命令を実行するよう強制する命令と、前記メ
モリ・バリア命令の完了を指示する命令マネージャとを
備えるコンピュータ・システム。（１１）前記それぞれのＣＰＵにメモリ・バリア命令を
実行するよう強制する命令は、プロセッサ間割り込みを
すべてのＣＰＵに送信するメモリ・バリア・マネージャ
を有する上記（１０）に記載のシステム。（１２）前記メモリ・バリア・マネージャは、他のＣＰ
Ｕが前記メモリ・バリア命令を実行するのを待つそれぞ
れのＣＰＵに、コンカレント・メモリ・バリア実行要求
を満たすことを要求する待機命令を含む、上記（１１）
に記載のシステム。（１３）前記それぞれのＣＰＵにメモリ・バリア命令を
実行するよう強制する命令は、単一セットのメモリ・バ
リア命令の実行によりコンカレント・メモリ・バリア実
行要求のグループを満たす統合命令を含む上記（１０）
に記載のシステム。（１４）前記メモリ・バリア実行要求のそれぞれのグル
ープは、世代番号を割り当てられる、上記（１３）に記
載のシステム。（１５）直前のメモリ・バリア実行要求が実行されてい
る間に到着するすべてのメモリ・バリア実行要求は、現
行の世代番号を割り当てられる、上記（１４）に記載の
システム。（１６）前記命令マネージャは、それぞれのＣＰＵが前
記メモリ・バリア命令の完了を登録するためのツールを
有する、上記（１０）に記載のシステム。（１７）前記ツールは、ビット・マスク，アレイ，およ
び結合ツリーより成るグループから選択される、上記
（１６）に記載のシステム。（１８）前記命令マネージャは、ＣＰＵがメモリ・バリ
ア要求を登録するためのアレイを有する、上記（１０）
に記載のシステム。（１９）前記アレイへのそれぞれのエントリは、ＣＰＵ
からのメモリ・バリア実行要求に対応する上記（１８）
に記載のシステム。（２０）それぞれの要求側ＣＰＵが前記アレイをスキャ
ンして、それぞれのＣＰＵによる前記メモリ・バリア命
令の実行を判断する、上記（１９）に記載のシステム。（２１）コンピュータ読み取り可能信号伝達媒体と、そ
れぞれのＣＰＵにメモリ・バリア命令を実行するよう強
制する前記媒体内の手段と、前記メモリ・バリア命令の
完了を指示する命令マネージャとを含む製造物品。（２２）前記媒体は、記録可能データ記憶媒体，および
変調キャリア信号より成るグループから選択される上記
（２１）に記載の製造物品。（２３）前記それぞれのＣＰＵにメモリ・バリア命令を
実行するよう強制する手段は、プロセッサ間割り込みを
すべてのＣＰＵに送信するメモリ・バリア・マネージャ
を有する上記（２１）に記載の製造物品。（２４）他のＣＰＵが前記メモリ・バリア命令を実行す
るのを待つそれぞれのＣＰＵは、コンカレント・メモリ
・バリア実行要求を絶えず満たす上記（２１）に記載の
製造物品。（２５）前記命令マネージャは、それぞれのＣＰＵが前
記メモリ・バリア命令の完了を登録するためのツールを
有する、上記（２１）に記載の製造物品。（２６）前記ツールは、ビット・マスク，アレイ，およ
び結合ツリーより成るグループから選択される、上記
（２５）に記載の製造物品。（２７）ソフトウェアにおいてシーケンシャル・コンシ
ステンシを選択的にエミュレートする方法であって、
（ａ）それぞれのＣＰＵにメモリ・バリア命令を実行す
るよう強制するステップと、（ｂ）それぞれのＣＰＵに
前記メモリ・バリア命令の完了を伝達するインディケー
タを送信させるステップと、（ｃ）単一セットのメモリ
・バリア命令の実行によりコンカレント・メモリ・バリ
ア実行要求のグループを満たすステップとを含み、
（ｄ）前記それぞれのＣＰＵにメモリ・バリア命令を実
行するよう強制するステップは、プロセッサ間割り込み
をすべてのＣＰＵに送信して前記メモリ・バリア命令の
実行を強制するステップを含む方法。（２８）前記それぞれのＣＰＵに前記メモリ・バリア命
令の完了を伝達するインディケータを送信させるステッ
プは、前記ＣＰＵが、ビット・マスク，アレイ，および
結合ツリーより成るグループから選択されたツールによ
り前記メモリ・バリアの完了を登録するステップを含
む、上記（２７）に記載の方法。

【図面の簡単な説明】

【図１】初期状態における従来のデータ構造のブロック
図である。

【図２】初期化された新たなエレメントを備える従来の
データ構造のブロック図である。

【図３】リストへ追加された新たなエレメントを備える
従来のデータ構造のブロック図である。

【図４】弱いメモリ・コンシステンシ・モデルの従来の
データ構造のブロック図である。

【図５】読取りＣＰＵと書込みＣＰＵとの間の相互接続
のブロック図である。

【図６】本発明の好適な実施の形態に係るシーケンシャ
ル・コンシステンシを説明するフローチャートである。

【符号の説明】

５データ構造１０第１のエレメント１２，１４，１６フィールド２０第２のエレメント２２，２４，２６フィールド３０新たなエレメント３２，３４，３６フィールド５０ブロック図６０書込みＣＰＵ６２，６４キャッシュ₀ ７０読取りＣＰＵ７２，７４キャッシュ₁

───────────────────────────────────────────────────── フロントページの続き (72)発明者ポウル・イー・マッケニーアメリカ合衆国 97006 オレゴン州ビーヴァートンエヌダブリュアルビオンコート 1975 Ｆターム(参考） 5B045 CC07 CC08 EE19 FF03 FF06 JJ40

Claims

【特許請求の範囲】

【請求項１】ソフトウェアにおいてシーケンシャル・コ
ンシステンシを選択的にエミュレートする方法であっ
て、（ａ）それぞれのＣＰＵにメモリ・バリア命令を実行す
るよう強制するステップと、（ｂ）それぞれのＣＰＵに前記メモリ・バリア命令の完
了を伝達するインディケータを送信させるステップと、
を含む方法。
【請求項２】前記それぞれのＣＰＵにメモリ・バリア命
令を実行するよう強制するステップは、プロセッサ間割
り込みを全てのＣＰＵに送信するステップを含む、請求
項１に記載の方法。
【請求項３】他のＣＰＵが前記メモリ・バリア命令を実
行するのを待っているそれぞれのＣＰＵに、コンカレン
ト・メモリ・バリア実行要求を絶えず満たさせることに
よってデッドロックを回避するステップをさらに含む請
求項２に記載の方法。
【請求項４】単一セットのメモリ・バリア命令の実行を
用いて、コンカレント・メモリ・バリア実行要求のグル
ープを満たすステップを、さらに含む請求項１に記載の
方法。
【請求項５】前記メモリ・バリア実行要求のそれぞれの
グループに世代番号を割り当てるステップを、さらに含
む請求項４に記載の方法。
【請求項６】直前のメモリ・バリア実行要求が処理され
ている間に到着したすべてのメモリ・バリア実行要求
に、現行の世代番号を割り当てるステップを、さらに含
む請求項５に記載の方法。
【請求項７】前記それぞれのＣＰＵに前記メモリ・バリ
ア命令の完了を伝達するインディケータを送信させるス
テップは、前記ＣＰＵがアレイ，ビット・マスク，およ
び結合ツリーより成るグループから選択されたツールを
用いて前記メモリ・バリアの完了を登録するステップを
含む、請求項１に記載の方法。
【請求項８】それぞれのアレイ・エントリがＣＰＵから
のメモリ・バリア実行要求に対応し、ＣＰＵがメモリ・
バリア要求を登録するためのアレイを与えるステップ
を、さらに含む請求項１に記載の方法。
【請求項９】前記アレイをスキャンして、それぞれのＣ
ＰＵによる前記メモリ・バリア命令の実行を判断するス
テップをさらに含む、請求項８に記載の方法。
【請求項１０】複数のプロセッサと、それぞれのＣＰＵにメモリ・バリア命令を実行するよう
強制する命令と、前記メモリ・バリア命令の完了を指示する命令マネージ
ャとを備えるコンピュータ・システム。
【請求項１１】前記それぞれのＣＰＵにメモリ・バリア
命令を実行するよう強制する命令は、プロセッサ間割り
込みをすべてのＣＰＵに送信するメモリ・バリア・マネ
ージャを有する請求項１０に記載のシステム。
【請求項１２】前記メモリ・バリア・マネージャは、他
のＣＰＵが前記メモリ・バリア命令を実行するのを待つ
それぞれのＣＰＵに、コンカレント・メモリ・バリア実
行要求を満たすことを要求する待機命令を含む、請求項
１１に記載のシステム。
【請求項１３】前記それぞれのＣＰＵにメモリ・バリア
命令を実行するよう強制する命令は、単一セットのメモ
リ・バリア命令の実行によりコンカレント・メモリ・バ
リア実行要求のグループを満たす統合命令を含む請求項
１０に記載のシステム。
【請求項１４】前記メモリ・バリア実行要求のそれぞれ
のグループは、世代番号を割り当てられる、請求項１３
に記載のシステム。
【請求項１５】直前のメモリ・バリア実行要求が実行さ
れている間に到着するすべてのメモリ・バリア実行要求
は、現行の世代番号を割り当てられる、請求項１４に記
載のシステム。
【請求項１６】前記命令マネージャは、それぞれのＣＰ
Ｕが前記メモリ・バリア命令の完了を登録するためのツ
ールを有する、請求項１０に記載のシステム。
【請求項１７】前記ツールは、ビット・マスク，アレ
イ，および結合ツリーより成るグループから選択され
る、請求項１６に記載のシステム。
【請求項１８】前記命令マネージャは、ＣＰＵがメモリ
・バリア要求を登録するためのアレイを有する、請求項
１０に記載のシステム。
【請求項１９】前記アレイへのそれぞれのエントリは、
ＣＰＵからのメモリ・バリア実行要求に対応する請求項
１８に記載のシステム。
【請求項２０】それぞれの要求側ＣＰＵが前記アレイを
スキャンして、それぞれのＣＰＵによる前記メモリ・バ
リア命令の実行を判断する、請求項１９に記載のシステ
ム。
【請求項２１】コンピュータ読み取り可能信号伝達媒体
と、それぞれのＣＰＵにメモリ・バリア命令を実行するよう
強制する前記媒体内の手段と、前記メモリ・バリア命令の完了を指示する命令マネージ
ャとを含む製造物品。
【請求項２２】前記媒体は、記録可能データ記憶媒体，
および変調キャリア信号より成るグループから選択され
る請求項２１に記載の製造物品。
【請求項２３】前記それぞれのＣＰＵにメモリ・バリア
命令を実行するよう強制する手段は、プロセッサ間割り
込みをすべてのＣＰＵに送信するメモリ・バリア・マネ
ージャを有する請求項２１に記載の製造物品。
【請求項２４】他のＣＰＵが前記メモリ・バリア命令を
実行するのを待つそれぞれのＣＰＵは、コンカレント・
メモリ・バリア実行要求を絶えず満たす請求項２１に記
載の製造物品。
【請求項２５】前記命令マネージャは、それぞれのＣＰ
Ｕが前記メモリ・バリア命令の完了を登録するためのツ
ールを有する、請求項２１に記載の製造物品。
【請求項２６】前記ツールは、ビット・マスク，アレ
イ，および結合ツリーより成るグループから選択され
る、請求項２５に記載の製造物品。
【請求項２７】ソフトウェアにおいてシーケンシャル・
コンシステンシを選択的にエミュレートする方法であっ
て、（ａ）それぞれのＣＰＵにメモリ・バリア命令を実行す
るよう強制するステップと、（ｂ）それぞれのＣＰＵに前記メモリ・バリア命令の完
了を伝達するインディケータを送信させるステップと、（ｃ）単一セットのメモリ・バリア命令の実行によりコ
ンカレント・メモリ・バリア実行要求のグループを満た
すステップとを含み、（ｄ）前記それぞれのＣＰＵにメ
モリ・バリア命令を実行するよう強制するステップは、プロセッサ間割り込みをすべてのＣＰＵに送
信して前記メモリ・バリア命令の実行を強制するステッ
プを含む方法。
【請求項２８】前記それぞれのＣＰＵに前記メモリ・バ
リア命令の完了を伝達するインディケータを送信させる
ステップは、前記ＣＰＵが、ビット・マスク，アレイ，
および結合ツリーより成るグループから選択されたツー
ルにより前記メモリ・バリアの完了を登録するステップ
を含む、請求項２７に記載の方法。