JP2000122916A

JP2000122916A - 原子的更新処理を実行する方法

Info

Publication number: JP2000122916A
Application number: JP11286660A
Authority: JP
Inventors: Mittall Millard; ミラード・ミッタル; J Wittiker Martin; マーティン・ジェイ・ウイッテカー; N Hammond Garry; ガリー・エヌ・ハモンド; C Hack Jerome; ジェローム・シー・ハック
Original assignee: EMERGING ARCHITECTURES LLC
Current assignee: EMERGING ARCHITECTURES LLC
Priority date: 1998-10-12
Filing date: 1999-10-07
Publication date: 2000-04-28
Anticipated expiration: 2019-10-07
Also published as: JP4531890B2; US6430657B1

Abstract

(57)【要約】【課題】ソフトウェアが、ハードウェアにより提供され
る最高のパフォーマンスの原子的更新方法にアクセスで
きるようにする。【解決手段】エクスポート可能な６４ビットのFETCHADD
命令を定義する。それぞれの仮想メモリページは、ライ
トバック方式を使用するキャッシュ可(WB)、キャッシュ
不可(UC)、キュッシュ不可でエクスポート可(UCE)のい
ずれかのメモリ属性を持つ。FETCHADD命令が実行され、
WBに設定された属性のページにあるメモリ位置がアクセ
スされると、ＣＰＵはそのメモリ位置を含むキャッシュ
ラインの排他的使用を得ることによりFECHADDを原子的
に実行する。UCEに設定された属性のページのメモリ位
置がアクセスされると、メモリコントローラのような中
央ロケーションにFETCHADD命令をエクスポートすること
により、ＣＰＵはFETCHADDを原子的に実行する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータシス
テムにおけるメモリアクセス操作に関する。より具体的
には、本発明は、典型的にはセマフォにアクセスするの
に使用される原子的メモリ更新処理に関する。

【０００２】

【従来の技術】コンピュータシステムにおいては、２つ
以上のプロセスが同じリソースに対して競合することが
よくある。例えば、２つ以上のプロセスが、特定のコマ
ンドシーケンスをビデオコントローラに書き込もうとす
ることがある。これらのプロセスは、１つの中央処理装
置（ＣＰＵ）により実行されることもあれば、マルチプ
ロセッサコンピュータシステムの２つ以上のＣＰＵによ
り実行されることもある。ここでは、「ＣＰＵ」及び
「プロセッサ」という用語を、互いに取り替え可能に使
用する。

【０００３】複数のプロセスが、同時に１つのリソース
をアクセスすることができないので、コンピュータのオ
ペレーティングシステムは、リソースへのアクセスをス
ケジュールするなんらかの機構を提供しなければならな
い。当該技術分野で知られている一般的な機構の１つと
して、「番号取得（take-a-number）」スケジューリン
グ・アルゴリズムがある。このアルゴリズムは、１人の
店員の手があくのを待っている顧客の集団に多少似てい
る。顧客は店に入るときに番号を受け取る。店員がその
番号を呼ぶと、その顧客は店員のサービスを受けること
ができる。

【０００４】これに類似したものとして、「番号」をプ
ロセスに提供する機構は、当該技術分野ではセマフォと
して知られている。典型的には、セマフォはメモリ位置
に記憶される。セマフォをアクセスしようとするプロセ
スは、最初にメモリ位置を読み出し、このメモリ位置か
ら読み出した値をインクリメントし、結果をそのメモリ
位置に記憶し戻す。メモリ位置から読み出された値は、
そのプロセスの「番号」の役割を果たし、メモリ位置に
記憶し戻された結果は、そのリソースをアクセスしよう
とする次のプロセスの次の「番号」の役割を果たす。特
定の「番号」の保持者がリソースにアクセスしてもよい
ことをオペレーティングシステムが示すとき、その「番
号」を持つプロセスがアクセスを行う。

【０００５】「番号取得」スケジューリングアルゴリズ
ムが正確に作動するには、メモリ読み出し、インクリメ
ントおよびメモリ書き込み処理が、「原子的」に発生し
なければならない。言い換えると、第１のプロセスがメ
モリ位置を読み出した時点から、第１のプロセスがイン
クリメントした値をメモリ位置に記憶し戻す時点までの
間は、セマフォを保持するメモリ位置を第２のプロセス
が読み出す機会があってはならないということである。
もし第２のプロセスによるそのような読み出し処理が発
生すると、第１および第２のプロセスはそれぞれ同じ
「番号」を持つことになり、リソースへのアクセスを同
時に試みようとすることがある。

【０００６】セマフォ操作が原子的に発生するのを確実
にすることは、バスに連結される他の装置が直接記憶ア
クセス（ＤＭＡ）処理を行わない単一ＣＰＵのコンピュ
ータシステムにおいては比較的簡単なことである。例え
ば、３２ビットのIntel（商標）のアーキテクチャ（Ｉ
Ａ−３２）は、Intel i486^TM、Pentium（商標）、Pent
ium Pro、Pentium IIおよびCeleron^TMのＣＰＵにより
使用され、「ＸＡＤＤ（exchange and add；交換および
加算) 」命令を含んでいる。この命令を使ってセマフォ
を含むメモリ位置をアクセスするとき、ＸＡＤＤ命令は
通常以下のように用いられる。ＸＡＤＤ宛先メモリ位置，ソースレジスタ

【０００７】この命令は、宛先メモリ位置およびソース
レジスタに含まれる値の合計を一時レジスタに記憶し、
宛先メモリ位置の内容をソースレジスタに記憶し、一時
レジスタの内容を宛先メモリ位置に記憶する。従って、
命令が実行されるときに値「１」がソースレジスタに記
憶されていると、命令が完了した時に宛先メモリ位置の
値は「１」だけインクリメントし、宛先メモリ位置にも
ともとあった値はソースレジスタに記憶される。命令が
完了するまでは割込みが処理されることは無く、またこ
の例のコンピュータシステムが単一ＣＰＵ（他の装置
は、ＤＭＡ処理を行わない）であるので、ＸＡＤＤ命令
によって実行される「読み出し−変更−書き込み（read
-modify-write；リードモディファイライト）」処理の
間は、他のプロセスはセマフォにアクセスすることがで
きない。したがって、セマフォ処理は原子的に発生す
る。ＩＡ−３２のＸＣＨＧ（exchange；交換）命令及び
ＣＭＰＸＣＨＧ（compareおよびexchange；比較および
交換）命令もまた、セマフォへの原子的アクセスを確実
にするのに広く用いられている。

【０００８】マルチプロセッサコンピュータシステムお
よびＤＭＡ処理を実行するデバイスを備えるシステムに
おいては、第１のＣＰＵがインクリメントしてセマフォ
をメモリ位置にと書き戻す前に、第２のＣＰＵまたはデ
バイスがセマフォにアクセスしようとすることがあるの
で、原子性を保証するのがより複雑になる。このような
コンピュータシステムでは、バスのロック機構またはキ
ャッシュのコヒーレンシー機構のいずれかを使用するこ
とにより原子性が提供される。これらの機構を詳細を述
べる前に、ＣＰＵのキャッシュメモリの処理を最初に考
えるのが有用である。

【０００９】キャッシュメモリは、メインメモリの内容
のサブセットを保持する比較的小容量で高速のメモリで
ある。例えば、Pentium（商標) IIのＣＰＵをベースと
したコンピュータシステムは、レベル１（Ｌ１）のキャ
ッシュをＣＰＵと同じ集積回路（ＩＣ）上に有してお
り、レベル２（Ｌ２）のキャッシュをＣＰＵと同じモジ
ュールではあるが異なるＩＣ上に有している。Ｌ１キャ
ッシュはＬ２キャッシュより小さく、より高速である。
メインメモリの内容は、キャッシュラインと呼ばれる単
位でキャッシュメモリに記憶される。Pentium IIのＣＰ
Ｕでは、Ｌ１およびＬ２キャッシュのキャッシュライン
の大きさが３２バイトである。

【００１０】Intel（商標）i486^TMのＣＰＵは、「ライ
トスルー（write-through）」のＬ１キャッシュを採用
する。このようなキャッシュにおいては、ＣＰＵからの
メモリ書き込みが、キャッシュおよびメインメモリに同
時に書込まれる。Intel PentiumのＣＰＵ以降、Intelの
プロセッサは、「ライトバック（write-back）」のキャ
ッシュをサポートしている。ライトバックキャッシュに
おいては、ＣＰＵからのメモリ書き込みがキャッシュに
のみ書込まれる。その後、キャッシュ機構が、そのメモ
リ書き込みが実際にメインメモリにコミットされたかど
うか（および、いつコミットされたか）を判断する。こ
れにより、メインメモリがビジーでなくなるまでメイン
メモリへの書き込みを遅らせることができるので、性能
（パフォーマン）が上がる。さらに、メモリオペランド
をメインメモリに書き戻す前に、メモリオペランドが何
回か変わることがある。また、メモリにキャッシュライ
ンを書き戻す前に、キャッシュラインの変更を完全に組
み立てる機会がキャッシュに与えられるが、これは当該
技術分野ではコウレシング（coalescing；併合）として
知られている。

【００１１】キャッシュ・コヒーレンシー機構は、ＣＰ
Ｕキャッシュおよびメインメモリに記憶されたメモリ内
容が確実にコヒーレンス（一貫性）に保たれるようにす
る。例えば、第１のＣＰＵのキャッシュが、メインメモ
リにまだ書き戻されていない、変更された（即ち「ダー
ティな(dirty)」）内容を持つキャッシュラインを含ん
でおり、第２のＣＰＵが、メインメモリから対応するメ
モリ位置を読み出そうと試みる場合、キャッシュ・コヒ
ーレンシー機構は、メインメモリに現在記憶された正し
くない内容ではなく、第１のＣＰＵのキャッシュからの
正しい内容が、確実に第２のＣＰＵに提供されるように
する。キャッシュ・コヒーレンシー機構は、これを幾つ
かの方法で実現することができる。１つの手法は、単純
に第１のＣＰＵのキャッシュに対し、変更されたキャッ
シュラインをメインメモリに強制的に書き戻させること
である。他の手法は、第２のＣＰＵのキャッシュが、第
１のＣＰＵのキャッシュに対する変更を「スヌープ（sn
oop；監視する)」できるようにすることにより、第１の
ＣＰＵのキャッシュで行われた変更で、第２のＣＰＵの
キャッシュを継続的に更新できるようにする。

【００１２】さらに、ＣＰＵは、キャッシュラインが
「共用（shared）」または「専有（exclusive）」とし
てロードされるよう要求することができる。共用キャッ
シュラインはＣＰＵにより変更することができず、従っ
てキャッシュラインの内容が変更されないことがわかっ
ているような状況（例えば、プログラムコード）で有利
に使用される。専有（または、代わりに「専用（privat
e）」とも言う）キャッシュラインは、ＣＰＵにより変
更することができる。典型的には、「ダーティビット
（dirty-bit）」が、専有キャッシュラインに関連して
おり、内容が変更されたかどうかを示す。ダーティビッ
トが設定され、キャッシュラインが変更されたことを示
すならば、キャッシュラインをメインメモリに書き戻さ
なくてはならない。ダーティビットがクリアされ、キャ
ッシュラインが変更されていないことを示すならば、メ
インメモリに書き戻されたものとしてキャッシュライン
を廃棄することができる。通常、いずれの時点において
も、１のみのＣＰＵが特定のキャッシュラインを専有と
して保持することができる。

【００１３】原子性の話に戻ると、初期のＩＡ−３２の
ＣＰＵは、キャッシュ不可のメモリまたはライトスルー
方法を使ってキャッシュされたメモリにセマフォを記憶
することにより、そしてセマフォにアクセスするときに
「バスロック（bus lock）」を発行することにより、原
子性を提供する。バスロックは、セマフォ処理によって
必要とされる「読み出し−変更−書き込み」トランザク
ションの間、１つのＣＰＵが確実にバスの排他的所有権
を持つようにする。この方法では、他のＣＵＰがセマフ
ォを含むメモリ領域にアクセスする必要がないとして
も、「読み出し−変更−書き込み」トランザクションが
完了するまでの間は、すべての他のＣＰＵが、バスにア
クセスすることからブロックされるので、パフォーマン
スにかなり重い負担をかける。様々な相互接続構造を使
用するハイエンドのマルチプロセッサシステムにおいて
は、「バス」という概念が完全に消えてしまうことがあ
り、したがって「バスロック」という概念も完全に消え
てしまうことがあるということに注意されたい。例え
ば、４つのプロセッサから成るポッド（pod）を持ち、
１つのポッドにおけるそれぞれのプロセッサが従来のバ
スを介して結合され、ポッドのそれぞれがリング・トポ
ロジーで相互接続されているマルチプロセッサシステム
においては、１つのポッドにおけるＣＰＵが、他のポッ
ドにおけるバスをロックすることが通常できない。

【００１４】後のＩＡ−３２ＣＰＵは、キャッシュ・コ
ヒーレンシー機構を介して原子性を提供する。ＣＰＵが
セマフォをアクセスするとき、ＣＰＵのＬ１キャッシュ
が、セマフォを保持するメモリ位置を含むキャッシュラ
インの専有使用を要求する。従って、トランザクション
中に他のＣＰＵがセマフォにアクセスできる可能性無し
に、ＣＰＵは、セマフォ処理により必要とされる「読み
出し−変更−書き込み」トランザクションを実行するこ
とができる。従って、他のＣＰＵは引き続きバスにアク
セスすることができるので、引き続きメモリにアクセス
することができる。他のＣＰＵに対してアクセス可能で
ないメインメモリ領域だけが、セマフォ処理を実行する
ＣＰＵのキャッシュに専有として保持されるキャッシュ
ラインであるので、本質的に、「キャッシュ内（in-cac
he）」の原子的更新が、「アドレスロック（address lo
ck）」を介して実行される。そのキャッシュライン全体
が専有として保持されるので、１つのキャッシュライン
に複数のセマフォを記憶しない方が望ましい場合が多い
ということに注意されたい。

【００１５】このキャッシュ・コヒーレンシーを介した
原子性の提供は、バスロックを介してキャッシュ・コヒ
ーレンスを提供するよりもかなり良いパフォーマンスを
提供するが、「セマフォのキャッシュラインのスラッシ
ング」によってパフォーマンスがなお制限されることが
ある。セマフォのキャッシュラインのスラッシングは、
２つ以上のＣＰＵが同じリソース、よって同じセマフォ
について継続的に競合する時に発生する。したがって、
それぞれのＣＰＵがセマフォを含むキャッシュラインの
排他制御を得ようと継続的に試み、そのキャッシュライ
ンが継続的にそれぞれのＣＰＵのキャッシュにロードさ
れて書き込まれる。通常、ＣＰＵがセマフォを含むキャ
ッシュラインに対する専有アクセス権を得るために待っ
ている間は、そのＣＰＵの処理は進行することができな
い。

【００１６】従来技術において、大型マルチプロセッサ
システムの中には、ＦＥＴＣＨＡＤＤ（fetch and add
（フェッチおよび加算））命令を用いてこの問題に対処
してきたものがある。「ＦＥＴＣＨＡＤＤ」命令に関連
する「インクリメント」処理は、メモリコントローラの
ような中央ロケーションにエクスポートされる。したが
って、ＣＰＵが、メモリ位置に記憶されたセマフォを参
照するＦＥＴＣＨＡＤＤ命令を実行するとき、メモリコ
ントローラは、メモリ位置に記憶されたセマフォ値をそ
のＣＰＵに提供する。さらに、メモリコントローラはセ
マフォをインクリメントし、その結果をそのメモリ位置
に記憶し戻す。従って、ＣＰＵが、セマフォを含むメモ
リ位置に書き込む必要が無いので、ＣＰＵは、セマフォ
を含むキャッシュラインへの専有アクセスを獲得する必
要はなく、それによりセマフォのキャッシュラインのス
ラッシングが取り除かれる。加えて、複数のセマフォ
が、パフォーマンスを犠牲にすることなくキャッシュラ
インの境界内に存在することができるので、セマフォを
より効率的にメモリに記憶することが可能になる。

【００１７】

【発明が解決しようとする課題】コンピュータ産業にお
いては、より高性能なハードウェアに向かって積極的な
動きが続いている。しかしながら、それとは相反するよ
うに、原子的セマフォ更新を提供するよう設計されたバ
スロック、キャッシュ・コヒーレンシー機構および命令
のエクスポートを介して原子性を提供するハードウェア
・アーキテクチャも含め、幅広い多様なハードウェア・
アーキテクチャ上で実行可能な、より低コストの「既製
品でシュリンクラップされた（off-the-shelf shrink-w
rapped）」オペレーティングシステム（およびその他の
ソフトウェア）に積極的に向かう傾向もある。しかし、
従来技術による原子性を提供する方法は、通常、どの方
法で原子性が提供されるのかをソフトウェアが「認識し
て」いることを当然としている。したがって、バスロッ
クを使用してセマフォにアクセスするよう設計されたソ
フトウェアは、原子的セマフォ更新を提供するよう設計
されたキャッシュ・コヒーレンシー機構、および命令エ
クスポートによって提供されるより高いセマフォのパフ
ォーマンスを使用することができない。同様に、キャッ
シュ・コヒーレンシー機構を使用してセマフォにアクセ
スするよう設計されたソフトウェアも、原子的セマフォ
更新を提供するよう設計された命令エクスポートにより
提供される、より高いセマフォのパフォーマンスを使用
することができない。当該技術分野において必要なの
は、特定の原子的更新方法を利用するようソフトウェア
を明確にコード化する必要なく、低コストの「既製品で
シュリンクラップされた」ソフトウェアが、それが実行
されるコンピュータシステムのハードウェアにより提供
される最高のパフォーマンスの原子的更新方法にアクセ
スできるようにするコンピュータアーキテクチャであ
る。

【００１８】

【課題を解決するための手段】上記の課題を解決するた
め、この発明は、メモリ属性フィールドをアクセスし
て、原子的更新処理によりアクセスされるメモリ位置
が、エクスポート可能な命令をサポートしているかどう
かを判断するステップと、前記原子的更新処理によりア
クセスされるメモリ位置がエクスポート可能な命令をサ
ポートしているならば、該原子的更新処理を中央ロケー
ションにエクスポートするステップと、前記原子的更新
処理によりアクセスされるメモリ位置がエクスポート可
能な命令をサポートしていないならば、キャッシュ・コ
ヒーレンシー機構を使用して原子的更新処理を実行する
ステップとを含む原子的更新処理を実行する方法を提供
する。この発明は、バスロックを必要とするＩＡ−３２
命令が、原子性を提供する優れた方法を提供するコンピ
ュータハードウェア上で効率的に実行するような、６４
ビットのアーキテクチャ・フレームワークを提供するも
のである。さらに、この発明は、「既製品でシュリンク
ラップ」のソフトウェアにコード化することのできるエ
クスポート可能な６４ビットのＦＥＴＣＨＡＤＤ（フェ
ッチおよび加算）命令を定義するアーキテクチャ・フレ
ームワークを提供し、命令をエクスポートすることによ
り、またはキャッシュ・コヒーレンシー機構を用いるこ
とにより、ＦＥＴＣＨＡＤＤ命令を実行する上でハード
ウェアが原子性を保証するプログラム可能な方法を提供
する。

【００１９】ＩＡ−３２命令セットにおいては、ＬＯＣ
Ｋプレフィクスを、メモリオペランドにアクセスする形
の命令に限り、それらの命令の前につけることができ
る。すなわち、ＡＤＤ、ＡＤＣ、ＡＮＤ、ＢＴＣ、ＢＴ
Ｒ、ＢＴＳ、ＣＭＰＸＣＨＧ、ＤＥＣ、ＩＮＣ、ＮＥ
Ｇ、ＮＯＴ、ＯＲ、ＳＢＢ、ＳＵＢ、ＸＯＲ、ＸＡＤ
Ｄ、ＸＣＨＧ命令の前につけることができる。この発明
によれば、ＣＰＵは、ＩＡ−３２ロックチェック・イネ
ーブルビット（ＬＣ）を含む省略時制御レジスタを備え
る。ＬＣビットが「１」に設定されており、ＩＡ−３２
の原子的メモリ参照が、外部バスロック下でプロセッサ
の外部の「読み出し−変更−書き込み」処理を要求する
（例えば、命令が、ＬＯＣＫプレフィクスを含む）と
き、ＩＡ−３２インターセプト・ロックフォールトが発
生し、ＩＡ−３２インターセプト・ロックフォールト・
ハンドラーが呼び出される。フォールト・ハンドラー
は、割り込みの原因となったＩＡ−３２命令を調べ、命
令を原子的にエミュレートするために適切なコードへと
分岐する。従ってこの発明は、この発明に基づいた６４
ビットのアーキテクチャを持つコンピュータシステム
が、ＩＡ−３２命令と２値（バイナリ）互換性を維持す
ることができるようにし、バスをロックしないことによ
って、６４ビットのアーキテクチャにより提供される優
れたパフォーマンスを保つことができるようにする。

【００２０】さらに、この発明は、以下のフォーマット
を持つエクスポート可能なＦＥＴＣＨＡＤＤ命令を定義
する。

【数１】ＦＥＴＣＨＡＤＤＲ_１＝［Ｒ_３],ＩＮＣ

【００２１】この命令は、レジスタＲ_３でのインデック
スがついたメモリ位置を読み出し、そのメモリ位置から
読み出された内容をレジスタＲ_１に置き、そのメモリ位
置から読み出された内容にＩＮＣ値を加算し、そしてそ
の和をそのメモリ位置に記憶しなおす。

【００２２】それぞれの仮想メモリページに関連するの
は、「ライトバック方式を用いたキャッシュ可（Ｗ
Ｂ）」、「キャッシュ不可（ＵＣ）」または「キャッシ
ュ不可で、エクスポート可（ＵＣＥ）」の状態をとるこ
とができるメモリ属性である。ＦＥＴＣＨＡＤＤ命令が
実行され、アクセスされたメモリ位置が、ＷＢに設定さ
れた属性を持つページにあるとき、そのメモリ位置を含
むキャッシュラインの専有使用を得ることで、ＣＰＵに
よりＦＥＴＣＨＡＤＤ命令が原子的に実行される。しか
しながら、ＦＥＴＣＨＡＤＤ命令が実行され、アクセス
されたメモリ位置が、ＵＣＥに設定された属性を持つペ
ージにあるときは、ＦＥＴＣＨＡＤＤ命令を、メモリコ
ントローラのような中央ロケーションにエクスポートす
ることにより、そのＦＥＴＣＨＡＤＤ命令は原子的に実
行され、それによりセマフォのキャッシュラインのスラ
ッシングを除去することができる。

【００２３】したがって、この発明は、原子性が、キャ
ッシュ・コヒーレンシー機構により提供されるのか、ま
たはＦＥＴＣＨＡＤＤ命令をメモリコントローラのよう
な中央ロケーションにエクスポートすることにより提供
されるのかをソフトウェアが「認識しなく」ても、ＦＥ
ＴＣＨＡＤＤ命令によりアクセスされるセマフォで、
「既製品でシュリンクラップの」ソフトウェアをコード
化することのできるアーキテクチャ・フレームワークを
提供する。したがって、そのようなソフトウェアは、そ
れぞれの方法に対して個々のコードセグメントを必要と
するソフトウェア無しで、コンピュータのハードウェア
上で利用可能な原子的更新処理を提供する最速の方法に
アクセスすることができる。

【００２４】

【発明の実施の形態】この発明は、キャッシュ・コヒー
レンスを提供する優れた方法を提供するコンピュータハ
ードウェア上で、バスロックを必要とするＩＡ−３２命
令が効率的に実行する６４ビットのアーキテクチャ・フ
レームワークを提供する。さらに、この発明は、「既製
品でシュリンクラップ」のソフトウェアにコード化する
ことのできるエクスポート可能な６４ビットのＦＥＴＣ
ＨＡＤＤ命令を定義するアーキテクチャと、命令をエク
スポートすることにより、またはキャッシュ・コヒーレ
ンシー機構を用いることにより、ＦＥＴＣＨＡＤＤ命令
を実行する上で原子性をハードウェアが保証することの
できるプログラム可能な方法を提供する。

【００２５】図１はコンピュータシステム１０の概略図
であり、この発明を説明するのに使用される。コンピュ
ータシステム１０は、ＣＰＵ１２および１４のようなＮ
個のＣＰＵを備える。また、システム１０は、メモリコ
ントローラ１６およびメインメモリ１８を備える。メモ
リコントローラ１６は、エクスポート可能なＦＥＴＣＨ
ＡＤＤ命令の実行をサポートする。

【００２６】以下にＣＰＵ１２および１４について説明
する前に、この発明に従って定義されるＦＥＴＣＨＡＤ
Ｄ命令について最初に述べる。この命令は、以下のフォ
ーマットを持つ。

【数２】ＦＥＴＣＨＡＤＤＲ_１＝［Ｒ_３],ＩＮＣ

【００２７】この命令は、レジスタＲ_３のインデックス
がついたメモリ位置を読み出し、そのメモリ位置から読
み出した内容をレジスタＲ_１に置く。さらに、この命令
は、値ＩＮＣを、そのメモリ位置から読み出した内容に
加算し、その和をそのメモリ位置に記憶しなおす。上記
のＦＥＴＣＨＡＤＤ命令の表現は簡略化したものであ
る。追加の命令「コンプリーターズ（completers）」
は、メモリから読み出されるべきオペランドのサイズ、
他の命令に対するその命令の順序づけセマンティクス
（ordering semantics）、およびＦＥＴＣＨＡＤＤ命令
をＣＰＵキャッシュにプリフェッチ（先読み）するとき
に使用されるプリフェッチヒントなどのようなオプショ
ンを指定する。しかしながら、この発明を理解するには
上記の命令のフォーマットで充分である。

【００２８】図２は、図１のＣＰＵ１２のブロック図で
ある。当然ながら、図２は、コンピュータシステム１０
におけるすべてのＣＰＵを代表する。ＣＰＵ１２には、
命令レジスタ２０、命令解読実行ロジック２２、フォー
ルト・ハンドラー・ポインタ２４、プログラムカウンタ
２６、ソフトウェアベースのＩＡ−３２インターセプト
・ロックフォールト・ハンドラー２８、省略時制御レジ
スタ（ＤＣＲ）３０、変換索引バッファ（ＴＬＢ）３
６、Ｌ１およびＬ２キャッシュメモリ４０を備える。図
２は概略図であり、この発明を実現するＣＰＵがこれよ
りも著しく複雑であることは当業者には明らかであろ
う。しかしながら、図２は、この発明の新規な側面を説
明するのには充分である。

【００２９】当該技術分野で知られているように、ほと
んどのコンピュータシステムは、実際に存在する物理メ
モリより多くのメモリがあるようシミュレートする仮想
メモリと呼ばれる技術を用いる。メインメモリアドレス
に対する仮想アドレスのマッピングは、仮想アドレス変
換として知られるプロセスである。仮想アドレスおよび
物理アドレス空間は、典型的にはページと呼ばれる等サ
イズのメモリブロックに分割され、ページテーブルが、
仮想アドレスおよび物理アドレスの間の変換を行う。そ
れぞれのページテーブルのエントリは、典型的には物理
アドレスと、ページに関する保護および状態情報とを含
む。保護および状態情報は、典型的にはページが受けた
アクセスの種類についての情報およびページ保護情報を
含む。例えば、ダーティビットは、そのページのデータ
に対して変更が加えられていることを示す。通常、ペー
ジテーブルは大きいのでメモリに記憶される。従って、
それぞれの規則的なメモリアクセスは、少なくとも２つ
のアクセスを実際には要求することができ、１つは変換
を得るためのものであり、２つめは物理メモリ位置にア
クセスするためのものである。

【００３０】仮想アドレス変換をサポートするほとんど
のコンピュータシステムは、変換索引バッファ（ＴＬ
Ｂ）を使用する。ＴＬＢは、典型的には小容量で高速の
連想メモリであり、ＣＰＵ上またはＣＰＵの近傍に通常
は位置し、最近使用された仮想および物理アドレスの対
を記憶する。ＴＬＢは、ページテーブルにおける変換の
サブセットを含み、より高速にアクセスされることがで
きる。処理装置は、メインメモリから情報を必要とする
とき、仮想アドレスをＴＬＢに送る。ＴＬＢは、仮想ア
ドレスのページ番号を受け取り、物理ページ番号を返
す。物理ページ番号は、メインメモリにおける所望のバ
イトまたはワードをアクセスするため、下位のアドレス
情報と組み合わされる。その仮想アドレスの変換がＴＬ
Ｂに無いならば、ページテーブルから抽出される。ペー
ジテーブルにその変換が無いならば、ページフォールト
が生成される。

【００３１】この発明によると、ＴＬＢ３６は、ＴＬＢ
エントリにより表わされるページに対して読み出しおよ
び書き込みを行うＦＥＴＣＨＡＤＤ命令を、エクスポー
ト可能であるか否かを決めるメモリアクセスビットを含
む。例えば、ＴＬＢエントリ３８は、メモリアクセスビ
ットフィールド４４を含む。上述したように、ＴＬＢは
通常、ページテーブルに含まれる仮想−物理マッピング
のサブセットを含んでいる。従って、この発明で使用す
るのに適合したページテーブルも、メモリアクセスビッ
トのコピーを含む。

【００３２】表１は、メモリアクセスビットにより表す
ことができる仮想アドレッシングメモリ属性のコード化
を示す。

【表１】

【００３３】表１に示されるコードは、この発明をより
わかりやすく説明するため簡略化されたものであること
に注意されたい。他の実施形態においては、追加の機能
性をメモリアクセスビットにコード化するのが望ましい
こともある。

【００３４】これらのコードがどのように使用されるの
かを説明するため、ＣＰＵ１２、またはＣＰＵ１２が作
動するコンピュータシステムのいずれも、エクスポート
可能のＦＥＴＣＨＡＤＤ命令をサポートしていない場合
を想定する。そのようなコンピュータシステムにおいて
は、原子性は、キャッシュ・コヒーレンシーのアルゴリ
ズムによって提供される。セマフォを含むメモリ位置に
ついて仮想−物理マッピングが確立されると、ページテ
ーブルにおけるメモリアクセスビット、およびセマフォ
が記憶されたページに対応するＴＬＢエントリが、ＷＢ
のメモリ方式に指定され、従ってメモリアクセスビット
が「００」に設定される。

【００３５】従って、ＦＥＴＣＨＡＤＤ命令が命令レジ
スタ２０にロードされると、命令解読実行ロジック２２
は、ＦＥＴＣＨＡＤＤ命令により指定されたメモリ位置
に対応するＴＬＢエントリに記憶されたメモリアクセス
ビットを調べる。メモリアクセスビットは、ライトバッ
ク方式を用いてキャッシュされたメモリページにセマフ
ォが記憶されることを示すので、セマフォを含むキャッ
シュラインがＬ１およびＬ２キャッシュ４０にロードさ
れ、専有として保持される。その後、命令解読実行ロジ
ック２２は、セマフォをＬ１キャッシュから抽出し、そ
のセマフォを、ＦＥＴＣＨＡＤＤ命令中に指定されたレ
ジスタファイル４２のレジスタにロードし、セマフォを
インクリメントし、インクリメントされたセマフォをＬ
１キャッシュに記憶し直す。セマフォが他のＣＰＵによ
り要求されるとき、ＣＰＵ１２は、セマフォを含むキャ
ッシュラインの専有使用を放棄し、他のＣＰＵがそのキ
ャッシュラインの専有使用を獲得する。これにより、あ
る量のキャッシュラインのスラッシングとなるけれど
も、パフォーマンスは、ローエンドからミドルレンジの
コンピュータシステムにおいては充分過ぎると言える。

【００３６】次に、ＣＰＵ１２、およびＣＰＵ１２が作
動するコンピュータシステムの両方が、エクスポート可
能なＦＥＴＣＨＡＤＤ命令をサポートする場合を想定す
る。そのようなコンピュータシステムにおいては、ＦＥ
ＴＣＨＡＤＤ命令の原子性は、ＦＥＴＣＨＡＤＤ命令を
メモリコントローラ（または、その他の中央ロケーショ
ン）にエクスポートすることによるか、またはキャッシ
ュ・コヒーレンシー機構によるかのいずれかによって提
供することができる。仮想−物理マッピングが、セマフ
ォを含むメモリ位置について確立されるとき、ページテ
ーブルのメモリアクセスビット、およびセマフォが記憶
されているページに対応するＴＬＢエントリが、ＵＣＥ
メモリ方式に指定され、従ってメモリアクセスビットは
「１０」に設定される。

【００３７】従って、ＦＥＴＣＨＡＤＤ命令が命令レジ
スタ２０にロードされるとき、命令解読実行ロジック２
２は、ＦＥＴＣＨＡＤＤ命令により指定されたメモリ位
置に対応するＴＬＢエントリに記憶されたメモリアクセ
スビットを調べる。メモリアクセスビットは、セマフォ
が、キャッシュ不可でエクスポート可能なメモリページ
に記憶されていることを示す。従って、命令解読実行ロ
ジック２２は、ＦＥＴＣＨＡＤＤ命令を図１のメモリコ
ントローラ１６にエクスポートする。コントローラ１６
は、図１のメインメモリ１８からセマフォを読み出し、
そのセマフォを命令解読実行ロジック２２に提供し、命
令解読実行ロジック２２は、ＦＥＴＣＨＡＤＤ命令中に
指定されたレジスタファイル４２のレジスタにセマフォ
を記憶する。メモリコントローラ１６は、セマフォをイ
ンクリメントし、結果をメインメモリ１８に記憶しなお
す。セマフォがキャッシュラインに専有として保持され
ることが無いので、他のＣＰＵは、セマフォを含むキャ
ッシュラインの専有使用を得る必要なく、即座にセマフ
ォにアクセスすることができる。従って、キャッシュラ
インのスラッシングが除去される。メモリコントローラ
１６が、ＦＥＴＣＨＡＤＤ命令によりアクセスされるセ
マフォのキャッシュを保持するのが好ましく、これによ
り、メモリコントローラ１６は、メインメモリ１８にア
クセスする必要がなくなってより速い応答が可能となる
点に注意されたい。

【００３８】要約すると、この発明は、原子性がキャッ
シュ・コヒーレンシー機構により提供されるのか、また
はＦＥＴＣＨＡＤＤ命令をメモリコントローラ１６のよ
うな中央ロケーションへとエクスポートすることにより
提供されるのかを「既製品でシュリンクラップの」ソフ
トウェアが「知らない」場合でも、該ソフトウェアを、
ＦＥＴＣＨＡＤＤ命令によりアクセスされるセマフォで
コード化することのできるアーキテクチャ・フレームワ
ークを提供する。従って、このようなソフトウェアは、
それぞれの方法について個々のコードセグメントを必要
とするソフトウェアなしで、コンピュータハードウェア
上で利用可能な原子性更新処理を提供するもっとも高速
な方法をアクセスすることができる。

【００３９】この発明により提供される他の利点は、Ｆ
ＥＴＣＡＤＤ命令のエクスポートをサポートするのに、
非常に狭い範囲のメモリ位置を選択的にイネーブル（使
用可能）にできるということである。従って、オペレー
ティングシステムは、メモリの小さな部分を、キャッシ
ュ不可でエクスポート可能なよう構成することができ、
アプリケーションプログラムが、オペレーティングシス
テムからセマフォ用のメモリ空間を要求するとき、オペ
レーティングシステムは、そのような空間を、キャッシ
ュ不可でエクスポート可能なよう構成された領域に割り
振ることができる。また、この発明は、オペレーティン
グシステムが、Ｉ／Ｏ装置にマッピングされたメモリ位
置のような、エクスポート可能なＦＥＴＣＨＡＤＤ命令
をサポートしないメモリ範囲に対するＦＥＴＣＨＡＤＤ
命令のエクスポートを防ぐことができるようにする。

【００４０】この発明は、キャッシュ・コヒーレンシー
機構またはＦＥＴＣＨＡＤＤ命令のエクスポートのいず
れかを選択することにより原子性を提供する、６４ビッ
トのＦＥＴＣＨＡＤＤ命令およびそれをサポートするア
ーキテクチャ・フレームワークを提供するけれども、こ
の発明は、バスロックのプレフィクスを介して原子性を
提供するＩＡ−３２命令をもサポートする。ＩＡ−３２
命令セットの詳細は、「Intel 命令セットリファレン
ス」に見つけることができ、ここで参照により取り入れ
る。

【００４１】ＩＡ−３２の命令セットにおいて、ＬＯＣ
Ｋプレフィクスは、メモリオペランドにアクセスする形
の命令に限り、それらの命令の前に付けることが出来
る。すなわち、ＡＤＤ、ＡＤＣ、ＡＮＤ、ＢＴＣ、ＢＴ
Ｒ、ＢＴＳ、ＣＭＰＸＣＨＧ、ＤＥＣ、ＩＮＣ、ＮＥ
Ｇ、ＮＯＴ、ＯＲ、ＳＢＢ、ＳＵＢ、ＸＯＲ、ＸＡＤ
Ｄ、ＸＣＨＧ命令につけることができる。

【００４２】図２を参照すると、省略時制御レジスタ
（ＤＣＲ）３０は、ＩＡ−３２ロックチェック・イネー
ブルビット（ＬＣ）３２を含む。ＬＣビット３２が
「１」に設定され、ＩＡ−３２の原子的メモリ参照が、
外部バスロック下でプロセッサの外部の「読み出し−変
更−書き込み」処理を要求する（例えば、命令がＬＯＣ
Ｋプレフィクスを含む）とき、ＩＡ−３２インターセプ
ト・ロックフォールトが起こる。ＬＣビット３２が
「０」にクリアされ、ＩＡ−３２原子的メモリ参照が、
外部バスロック下でプロセッサの外部の「読み出し−変
更−書き込み」処理を要求とするとき、プロセッサは、
ＩＡ−３２インターセプト・ロックフォールトを生成す
るか（バスロックが、コンピュータシステムのハードウ
ェアによりサポートされていない場合）、または外部バ
スロックでトランザクションを実行することができる。
ＩＡ−３２アーキテクチャにおいては、ライトバックの
キャッシュ方式を使用してキャッシュされないメモリに
対して行われる原子的メモリアクセスには、外部バスロ
ックが必要となる点に注意されたい。言い換えると、メ
モリがキャッシュ不可またはライトスルー方式でキャッ
シュされる場合には、ＩＡ−３２アーキテクチャには外
部バスロックが必要となる。

【００４３】複数の相互接続トポロジーで接続された複
数のプロセッサを持つコンピュータシステムのように、
バスをロックすることができないコンピュータシステム
においては、当然ながら、ＬＯＣＫプレフィクスが前に
ついたＩＡ−３２命令は、ＩＡ−３２インターセプト・
ロックフォールトにより取り扱われなければならない。
そのようなシステムでは、ＬＣビット３２の値は問題と
ならない。

【００４４】しかしながら、バスをロックすることがで
きるコンピュータシステムを考えてみる。バスをロック
することが可能であるけれども、継続的にそうすること
によりパフォーマンスが著しく低下することがある。従
って、バスをロックしない命令を使ってＬＯＣＫプレフ
ィクスのついたＩＡ−３２命令をエミュレートするのが
望ましい。エミュレーションは、ハードウェアによって
直接実行する程速くはないが、ＬＯＣＫプレフィクスの
ついたＩＡ−３２命令がエミュレートされる間に他のＣ
ＰＵおよび装置がアクセスを続けることができるので、
システム全体のパフォーマンスを上げることができる。
このようなシステムにおいては、ＬＯＣＫプレフィクス
のついたＩＡ−３２命令が、バスロックを使用してハー
ドウェアにより実行されるのか、またはバスロックを使
用せずにソフトウェアでエミュレートされるのかを、Ｌ
Ｃビット３２の値が決定する。ＬＯＣＫプレフィクスの
ついたＩＡ−３２命令をエミュレートするとき、当然な
がら、エミュレーションコードは、キャッシュ・コヒー
レンシー機構および／またはエクスポート可能なＦＥＴ
ＣＨＡＤＤ命令を使用して原子性を確保することができ
る。

【００４５】図２に戻ると、ＡＤＤ、ＡＤＣ、ＡＮＤ、
ＢＴＣ、ＢＴＲ、ＢＴＳ、ＣＭＰＸＣＨＧ、ＤＥＣ、Ｉ
ＮＣ、ＮＥＧ、ＮＯＴ、ＯＲ、ＳＢＢ、ＳＵＢ、ＸＯ
Ｒ、ＸＡＤＤおよびＸＣＨＧの命令セットからのＩＡ−
３２命令が、ＬＯＣＫプレフィクスが前につけられてお
り、メモリ位置をアクセスし、命令レジスタ２０にロー
ドされると想定する。さらに、ＤＣＲ３０のＬＣビット
３２が「１」に設定されていると想定する。このような
命令に応答して、命令解読実行ロジック２２は、ＩＡ−
３２インターセプト・ロックフォールトを生成する。ロ
ジック２２は、フォールト・ハンドラー・ポインタ２４
におけるＩＡ−３２インターセプト・ロックフォールト
エントリ３４に記憶されたアドレスを、プログラムカウ
ンタ２６にロードする。これにより、フォールト・ハン
ドラー２８の最初の命令が命令レジスタ２０にロードさ
れ、ソフトウェアベースのＩＡ−３２インターセプト・
ロックフォールト・ハンドラー２８の最初の命令が実行
される。フォールト・ハンドラー２８は、割り込みを引
き起こしたＩＡ−３２命令を調べ、原子的にその命令を
エミュレートするため適切なコードへと分岐する。ＩＡ
−３２命令がエミュレートされ、適切な値がレジスタフ
ァイル４２、Ｌ１およびＬ２キャッシュ４０および図１
のメインメモリ１８に記憶された後、フォールト・ハン
ドラー２８は終了し、フォールトを引き起こした命令の
すぐ後の命令を続けて実行する。

【００４６】フォールト・ハンドラー２８が、上述した
ようなエクスポート可能なＦＥＴＣＨＡＤＤ命令を含む
ことができる点に注意されたい。例えば、宛先メモリ位
置を「１」だけインクリメントするようコード化された
ＩＡ−３２ＸＡＤＤ命令を、「１」に設定されたインク
リメント値（ＩＮＣ）を持つＦＥＴＣＨＡＤＤ命令によ
りエミュレートすることができる。ＦＥＴＣＨＡＤＤ命
令によりエミュレートすることのできない他の命令につ
いては、変更されるべきメモリ位置を含むキャッシュラ
インの専有使用を得る命令によりエミュレートすること
ができる。

【００４７】要約すると、ＤＣＲ３０のＬＣビット３２
およびソフトウェアベースのＩＡ−３２インターセプト
・ロックフォールト・ハンドラー２８により、ＣＰＵ１
２は、バスをロックすることなくＬＯＣＫプレフィクス
のついたＩＡ−３２命令を原子的に実行することができ
るようになる。従って、この発明により、６４ビットの
アーキテクチャを持つコンピュータシステムは、６４ビ
ットのアーキテクチャにより提供される優れたパフォー
マンスを維持しつつ、ＩＡ−３２命令との２値互換性を
維持することができるようになる。

【００４８】この発明を、好ましい実施形態を参照しつ
つ説明してきたけれども、当該技術分野の当業者には、
この発明の精神および範囲から離れること無く、形式お
よび詳細において変更を加えることができるということ
が明らかであろう。

【発明の効果】特定の原子的更新方法を利用するようソ
フトウェアを明確にコード化することなく、ソフトウェ
アは、ハードウェアにより提供される最高のパフォーマ
ンスの原子的更新方法をアクセスできるようになる。

【図面の簡単な説明】

【図１】Ｎ個のＣＰＵ、メモリコントローラおよびメイ
ンメモリを備えるコンピュータシステムの概略図。

【図２】この発明による、図１のＣＰＵのうちの１つの
ブロック図。

【符号の説明】

１２、１４ＣＰＵ１６メモリコントローラ１８メインメモリ３６ＴＬＢ４４メモリ属性フィールド

───────────────────────────────────────────────────── フロントページの続き (72)発明者ミラード・ミッタルアメリカ合衆国94080カリフォルニア州サウス・サン・フランシスコ、ヒルサイド・ブルバード 1149 (72)発明者マーティン・ジェイ・ウイッテカーアメリカ合衆国95014カリフォルニア州クパーチノ、ストニーデイル・ドライブ 10241 (72)発明者ガリー・エヌ・ハモンドアメリカ合衆国95008カリフォルニア州キャンベル、サニーブルック・ドライブ 519 (72)発明者ジェローム・シー・ハックアメリカ合衆国94303カリフォルニア州パロ・アルト、タリスマン・ドライブ 851

Claims

【特許請求の範囲】

【請求項１】メモリ属性フィールドをアクセスして、原
子的更新処理によりアクセスされるメモリ位置が、エク
スポート可能な命令をサポートしているかどうかを判断
するステップと、前記原子的更新処理によりアクセスされるメモリ位置が
エクスポート可能な命令をサポートしているならば、該
原子的更新処理を中央ロケーションにエクスポートする
ステップと、前記原子的更新処理によりアクセスされるメモリ位置が
エクスポート可能な命令をサポートしていないならば、
キャッシュ・コヒーレンシー機構を使用して原子的更新
処理を実行するステップと、を含む原子的更新処理を実行する方法。