JP2000194680A

JP2000194680A - マルチプロセッサシステム

Info

Publication number: JP2000194680A
Application number: JP10372772A
Authority: JP
Inventors: Naonobu Sukegawa; 直伸助川; Koju Ueno; 幸樹上野; Shigeko Hashimoto; 茂子橋本; Shoichi Fukagawa; 正一深川; Eiki Kamata; 栄樹釜田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-12-28
Filing date: 1998-12-28
Publication date: 2000-07-14
Anticipated expiration: 2018-12-28
Also published as: US6466988B1; JP3858492B2

Abstract

(57)【要約】【課題】スイッチ型の主記憶共有型マルチプロセッサシ
ステムのプロセッサ間データ交換を高速化する。【解決手段】同期用のトランザクションを出力する命令
を用意する。ＣＰＵはこの命令を実行すると、先行命令
のトランザクションを全て出力した後に同期用のトラン
ザクションを主記憶とコヒーレンス管理部とに出力す
る。主記憶はこの同期用のトランザクションでメモリア
クセスのシリアライズを、コヒーレンス管理部はこのト
ランザクションでキャッシュコヒーレンス制御の完了保
証とを行う。これにより、メモリアクセスのシリアライ
ズとキャッシュコヒーレンス制御の完了保証とが同時に
実行できる。【効果】プロセッサ間のデータ交換が高速化できる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、スイッチ構成の主
記憶共有型マルチプロセッサシステムに関する。特に、
各プロセッサ内のキャッシュのコヒーレンス制御を含む
プロセッサ間のメモリアクセス順序制御を行うのに適し
たマルチプロセッサシステムに関する。

【０００２】

【従来の技術】計算機の性能を向上する手段として、複
数のプロセッサを同時に使用するマルチプロセッサシス
テムが広く使われている。マルチプロセッサシステムに
は、主記憶をそれぞれのプロセッサに用意する分散記憶
型と、主記憶をプロセッサ間で共有する主記憶共有型と
がある。この内、主記憶共有型は、プロセッサ間で共有
するデータの管理が容易であることから、分散記憶型に
比べてプログラミングがしやすく、普及が進んでいる。

【０００３】マルチプロセッサシステムでは、各プロセ
ッサが独立に動作するだけでなく、必要に応じてプロセ
ッサ間でデータ交換を行いながら動作する。主記憶共有
型のマルチプロセッサでは、あるプロセッサが主記憶に
書き込んだ値を別なプロセッサが読み出すことでデータ
交換を行う。このようなプロセッサ間のデータ交換で
は、プロセッサ間のメモリアクセス順序保証が必要であ
る。具体的には、あるプロセッサが書き込むデータを別
なプロセッサが読み出す場合、この読み出しがデータの
書き込み前ではなく、書き込んだ後になることを保証す
る手段が要る。

【０００４】ここで主記憶共有型マルチプロセッサの代
表的な構成概要を図１２、図１３を用いて説明する。図
１２はバス構成のマルチプロセッサを示す。ＣＰＵ５１
００〜５１３０はメモリバス５１５０で結合されてお
り、主記憶５１４０へのアクセスはこのメモリバス５１
５０を通して行う。メモリバス５１５０によりアクセス
をシリアライズできるので、データ交換のための書き込
みと読み出しの順序保証を制御しやすい。反面、ＣＰＵ
５１００〜５１３０から主記憶５１４０へのアクセス量
は、メモリバス５１５０ネックにより制限される。

【０００５】これに対して図１３に示すスイッチ構成の
マルチプロセッサでは、ＣＰＵ５２００〜５２３０が独
立に主記憶５２４０と接続される。スイッチ型の特徴
は、各ＣＰＵの主記憶アクセスの干渉が少ないという点
にある。例えばＣＰＵ５２００からの線５２５０を通し
た主記憶５２４０へのアクセスは、他のＣＰＵ５２１０
〜５２３０からの主記憶アクセスのパス５２６０〜５２
８０に影響を与えない。実際の構成ではＣＰＵ５２００
〜５２３０と主記憶５２４０との間に多段のスイッチを
用意することが多く、この場合は干渉は全く無い訳では
ない。しかし、バス構成のように主記憶アクセスを完全
にシリアライズする要素はないので影響の程度は小さ
く、高いアクセス性能を実現できる。反面、各プロセッ
サがバラバラに動作するので、プロセッサ間のメモリア
クセス順序保証は難しい。

【０００６】特開平１０−１８７６３４公報は、スイッ
チ構成の主記憶共有型マルチプロセッサシステムで、プ
ロセッサ間のメモリアクセス順序保証を高速に行う技術
を開示する。具体的には、同期用の命令をプロセッサに
用意し、この命令により出力されるトランザクションを
利用してメモリアクセスのシリアライズを行う。これに
より、プロセッサ間の書き込みと読み出しの順序制御を
行う。

【０００７】

【発明が解決しようとする課題】プロセッサの高速化技
術としてキャッシュが広く使われている。このキャッシ
ュをプロセッサ毎に持つケースでは、プロセッサ間のデ
ータ交換のためにキャッシュの一致制御（コヒーレンス
制御）が必要になる。コヒーレンス制御とは、あるプロ
セッサのキャッシュに登録されているデータと同じメモ
リアドレスを持つデータを別なプロセッサが更新した場
合、キャッシュ上の古いデータを更新するか、もしくは
抹消する制御である。データ交換で正しいデータを読み
出せることを保証するには、所望のデータについてのコ
ヒーレンス制御を実行する必要がある。

【０００８】したがって、本発明の目的はプロセッサ間
同期用の命令を用意したマルチプロセッサシステムにお
いて、キャッシュコヒーレンスを保証を可能にすること
である。

【０００９】更に言えば、本発明の目的はメモリアクセ
ス順序制御とコヒーレンス制御との２つを独立して行う
のではなく、同時にまとめて実行して効率の良いプロセ
ッサ間のデータ交換を実現することにある。

【００１０】

【課題を解決するための手段】同期用の命令を各プロセ
ッサに用意し、この命令により各プロセッサから出力さ
れるトランザクションを用いて、主記憶アクセスのシリ
アライズを行うとともにコヒーレンス制御の完了保証も
行う。具体的には、次の４つを実現する。

【００１１】（１）各プロセッサは、同期命令よりも前
に実行した命令のトランザクションを全て主記憶側へ出
力した後で、同期命令によるトランザクションを出力す
る。このトランザクションを主記憶とコヒーレンス管理
部との両方に出力する。

【００１２】（２）主記憶は、同期用のトランザクショ
ンを受けると、そのソースとなるプロセッサからの主記
憶アクセスを止める機構を持つ。全プロセッサより同期
用のトランザクションを受けると主記憶アクセスを再開
する。これにより、主記憶アクセスのシリアライズを行
う。

【００１３】（３）コヒーレンス管理部は、全プロセッ
サから同期用のトランザクションを受けると、同期用ト
ランザクションよりも前のトランザクションについてコ
ヒーレンス制御を完了させ、その後に各プロセッサに対
してコヒーレンス制御の完了を通知する。

【００１４】（４）各プロセッサが、コヒーレンス管理
部からの完了通知を待つ手段を用意する。これにより、
コヒーレンス制御の完了が保証される。

【００１５】

【発明の実施の形態】以下、本発明の１実施例を示す。
最初に本実施例で採用する「コヒーレンス制御を伴うメ
モリアクセス順序保証方法」であるバリア同期の概念に
ついて説明し、その後で本実施例の概要、および詳細を
記述する。

【００１６】＜１．バリア同期の概念＞本実施例の内容
を理解する上で、コヒーレンス制御とメモリアクセス順
序制御とを同時に行う手段として本実施例が採用する
「バリア同期」について説明する。

【００１７】１．１バリア同期の意味本実施例では、バリア同期という言葉を、次の３項目を
満たす意味で使用する。

【００１８】（キャッシュが有効な場合にも下記３項目
を満たす。つまり、下記のload／storeはキャッシュヒ
ットでもミスヒットでも良い。）（１）２プロセッサ以上任意の数のプロセッサが参加で
き、バリア同期に参加した全プロセッサの間で（２）
（３）に記述するコヒーレンス制御、およびメモリアク
セス順序制御を行う。（以下、（２）（３）の項目は、
バリア同期に参加しているプロセッサ間での保証事項と
して記述する。）（２）バリア同期の前に各プロセッサが行ったメモリア
クセスは、バリア同期の後に各プロセッサが実行するメ
モリアクセスに反映される。別な記述をすれば、いずれ
のプロセッサがバリア同期の前に行った主記憶へのstor
eも、バリア同期の後に実行する任意のプロセッサの同
一アドレスに対するloadに反映される。

【００１９】（３）バリア同期の後に各プロセッサが行
ったメモリアクセスは、バリア同期の前に各プロセッサ
が実行したメモリアクセスに影響を及ぼさない。別な記
述をすれば、いずれのプロセッサがバリア同期の後に行
う主記憶へのstoreも、バリア同期の前に行った任意の
プロセッサによる同一アドレスに対するloadに反映され
ることはない。

【００２０】１．２バリア同期の使用方法バリア同期の使用方法を図１１を用いて説明する。

【００２１】技術計算に多い巨大なループ演算をマルチ
プロセッサで実行する場合は、ループの中身を分割し、
各プロセッサに実行させる手段が用いられる。図１１で
は、並列実行するプログラムを５０００に、このプログ
ラムを４ＣＰＵで実行する様子を５０１０〜５０６０に
示す。なお、ハッチングされている部分が、本プログラ
ムの処理を各ＣＰＵが実行している時間を示す。

【００２２】ループ部分以外はマルチプロセッサで実行
することによるメリットが小さいことから、シングルプ
ロセッサで処理をすることが一般的である。図では、ル
ープ演算以外の部分を全てＣＰＵ０が実行する。（図中
５０１０、５０６０）これに対し、ループ部分は処理量
が多いので、全ＣＰＵで分担して実行する。（図中５０
２０〜５０５０）図１１に示すようなプログラムでは、ほとんどの場合、
ＣＰＵ０がループ前の処理５０１０でstoreした結果を
ＣＰＵ１〜３がループ演算５０３０〜５０５０中で使用
することになる。また、ループ演算５０３０〜５０５０
でのＣＰＵ１〜３の計算結果を、ＣＰＵ０がループ以降
の処理５０６０で使用することも多い。よって、ループ
の前後でアクセス順序保証を行う必要がある。

【００２３】ここで図中の同期Ａ、Ｂのポイントで前節
で示したバリア同期を使用すれば、必要なアクセス順序
保証が実現できる。つまり、同期Ａにバリア同期を使用
することで、ＣＰＵ０が５０１０でstoreした結果を、
ＣＰＵ１〜３は５０３０〜５０５０で正しくloadできる
ことを保証される。また、同期Ｂにバリア同期を使用す
ることで、ＣＰＵ１〜３が５０３０〜５０５０でstore
した結果を、ＣＰＵ０は５０６０で正しくloadできるこ
とが保証される。この場合、同期ＡでもＢでもＣＰＵ
０，１，２，３ともにバリア同期に参加することが必要
である。

【００２４】以下、本実施例では、スイッチ構成の主記
憶共有型マルチプロセッサシステムにおける、バリア同
期の実装方法およびその動作を説明する。

【００２５】＜２．本実施例の概要＞２．１本実施例の全体構成本節では、本実施例の構成概要を図１を用いて説明す
る。

【００２６】図１は、ＣＰＵ１０，１０１０，２０１
０，３０１０の４つが主記憶制御部５０を共有する、ス
イッチ構成の主記憶共有マルチプロセッサシステムを示
す。コヒーレンス管理については、コヒーレンス管理部
８０を用いたＦＡＡ方式を採用する。

【００２７】ＣＰＵ１０，１０１０，２０１０，３０１
０は完全に同一であり、図１ではＣＰＵ１０のみ内部を
記述している。内部には、バリア同期の要求を保持する
要求レジスタ１２０とバリア同期の結果を記録する結果
レジスタ１３０とを持つ。また内部のキャッシュに登録
しているデータのアドレス情報をタグ１６０に記憶す
る。

【００２８】バリア同期の制御論理として、各ＣＰＵ毎
に同期制御部３００，１３００，２３００，３３００を
用意する。同期制御部は、次の４つの制御を行う。

【００２９】（１）and回路２００，２１０，２２０を
使ったＣＰＵ間の同期情報の管理。

【００３０】（２）通信レジスタ３７０，１３７０，２
３７０，３３７０を使ったＣＰＵ間での高速データ転送
の制御。

【００３１】（３）マスク３５０，１３５０，２３５
０，３３５０を使った各ＣＰＵのバリアへの参加不参加
制御。

【００３２】（４）状態レジスタ３６０，１３６０，２
３６０，３３６０を使ったバリア同期状態の保持。

【００３３】本実施例では、同期制御部３００，１３０
０，２３００，３３００をＣＰＵ１０，１０１０，２０
１０，３０１０とは独立して持つが、もちろんＣＰＵ内
部に同期制御部を取り込むことも可能である。

【００３４】主記憶制御部５０は、各ＣＰＵ１０，１０
１０，２０１０，３０１０からのメモリアクセスに応じ
て動作する。内部にバリア検出部７００，１７００，２
７００，３７００を持ち、バリア同期のトランザクショ
ンによる主記憶アクセスのシリアライズを行う。

【００３５】コヒーレンス管理部８０は、ＣＰＵ１０，
１０１０，２０１０，３０１０のキャッシュのコヒーレ
ンス管理を行う。概要は、各ＣＰＵのタグ情報を内部に
保持し、storeを受けるとこれに従い他ＣＰＵのタグ情
報をチェックし、キャッシュに登録されているデータへ
のstoreだと検出すると、その登録データを抹消するkil
lトランザクションをＣＰＵに通知する。コヒーレンス
制御の詳細は後述する。コヒーレンス管理部８０は、内
部にバリア検出部８００，１８００，２８００，３８０
０を持ち、バリア同期によるコヒーレンス管理のシリア
ライズを行う。

【００３６】２．２本実施例の動作概要本節では、図１を用いて本実施例の動作の概要を説明す
る。まず、前提となるＣＰＵの動作／命令を挙げ、次に
メモリアクセス方法、通常のコヒーレンス制御方法の概
要を記述し、最後にバリア同期の動作概要を説明する。

【００３７】２．２．１ＣＰＵの動作／命令本実施例では、次のＣＰＵの動作／命令について、以下
の５つを前提として説明する。

【００３８】（１）各ＣＰＵ１０，１０１０，２０１
０，３０１０はストアスルー制御のキャッシュメモリを
持つ。

【００３９】（２）各ＣＰＵ１０，１０１０，２０１
０，３０１０はキャッシュヒット時はキャッシュからlo
adする通常の「load命令」の他に、キャッシュがヒット
した場合も必ず主記憶（もしくは後述する通信レジス
タ）からデータをloadする「dload命令」（direct load
命令）を持つ。本dload命令は、いくつかのＲＩＳＣプ
ロセッサでは、「キャッシュ禁止ページへのload」とい
う形で実現できる。

【００４０】（３）各ＣＰＵ１０，１０１０，２０１
０，３０１０はバリア同期専用の命令である「barrier
命令」を持つ。このbarrier命令により生成されるbarri
erトランザクションは、barrier命令に先行するトラン
ザクションよりも後に、同期制御部３００，１３００，
２３００，３３００、主記憶制御部５０、コヒーレンス
制御部８０へと出力される。

【００４１】（４）各ＣＰＵ１０，１０１０，２０１
０，３０１０はbarrier命令を実行すると、バリア同期
が規定の状態になるまで後続の命令の実行を止める。

【００４２】（５）各ＣＰＵ１０，１０１０，２０１
０，３０１０は、基本的に命令の実行順序は命令列上の
順序と一致しなくてよい。（out-of-oder実行）（２）については、dload命令が無い場合には一部の最
適化が不可能になるだけで、本実施例の基本的な動作は
変わらない。（３）（４）については、バリア同期専用
命令である必要は必ずしも無いが、barrierトランザク
ションについては、同期制御部３００，１３００，２３
００，３３００、主記憶制御部５０、コヒーレンス制御
部８０が他のトランザクションと区別して「同期のため
のトランザクション」であることを認識できる必要があ
る。（５）については、barrier命令では後述２．２．
３節の条件を満たすことが必要になる。

【００４３】２．２．２メモリアクセス方法／通常の
コヒーレンス制御メモリアクセス方法／通常のコヒーレンス制御（バリア
同期時以外でのコヒーレンス制御）について説明する。
以下、load動作／direct load動作／store動作につい
て、ＣＰＵ１０の動作で説明する。

【００４４】・load動作：ＣＰＵ１０がload命令を実行
すると、タグ１６０を見て、loadのターゲットアドレス
のデータがキャッシュに存在するかどうかをチェックす
る。キャッシュがヒットすればキャッシュからloadす
る。ミスした場合は、線ｐ１５０、同期制御部３００、
線ｐ３００を通じて、主記憶制御部５０、コヒーレンス
管理部８０までloadトランザクションを出力する。

【００４５】主記憶制御部５０にloadトランザクション
が届くと、主記憶制御部５０は要求loadアドレスに従い
メモリを読み出した値を、線ｐ３１０、同期制御部３０
０、線ｐ１６０を通してＣＰＵ１０に戻す。データが戻
ると、ＣＰＵ１０は、リプライデータをレジスタに格納
し使用するとともに、キャッシュにもリプライデータ
を、タグ１６０にリプライデータのアドレス情報を登録
しておき、後でまだ同じデータに対してloadが発生した
時にはキャッシュ上のデータを使えるようにする。

【００４６】コヒーレンス管理部８０にloadトランザク
ションが届くと、コヒーレンス管理部８０は要求loadア
ドレスの情報がＣＰＵ１０のキャッシュに登録されるこ
とをＦＡＡに記憶しておく。

【００４７】・direct load動作：ＣＰＵ１０がdirect
load命令を実行すると、タグ１６０のチェックを行わ
ず、線ｐ１５０、同期制御部３００、線ｐ３００を通じ
て、主記憶制御部５０コヒーレンス管理部８０までdire
ct loadトランザクションを出力する。

【００４８】主記憶制御部５０にdirect loadトランザ
クションが届くと、主記憶制御部５０は要求loadアドレ
スに従いメモリを読み出した値を、線ｐ３３０、同期制
御部３００、線ｐ１６０を通してＣＰＵ１０に戻す。デ
ータが戻ると、ＣＰＵ１０は、リプライデータをレジス
タに格納し使用することは行うが、キャッシュにはリプ
ライデータを登録しない。

【００４９】コヒーレンス管理部８０にdirect loadト
ランザクションが届いた場合は、このトランザクション
を無視してＦＡＡには登録しない。もちろん、direct l
oadトランザクション自身がコヒーレンス管理部８０に
到達する前に消される制御にしてもよい。

【００５０】・store動作：ＣＰＵ１０がstore命令を実
行すると、タグ１６０を見て、storeのターゲットアド
レスのデータがキャッシュに存在するかどうかをチェッ
クし、キャッシュがヒットすればキャッシュの値を更新
する。また、キャッシュのヒット／ミスに関わらず、線
ｐ１５０、同期制御部３００、線ｐ３００を通じて、主
記憶制御部５０、コヒーレンス管理部８０までstoreト
ランザクション（storeデータ込み）を出力する。

【００５１】主記憶制御部５０にstoreトランザクショ
ンが届くと、主記憶制御部５０はターゲットアドレスに
ついてstoreデータで更新する。

【００５２】コヒーレンス管理部８０にstoreトランザ
クションが届くと、コヒーレンス管理部８０ではstore
のターゲットアドレスのデータが、store元のＣＰＵ１
０以外のＣＰＵ１０１０，２０１０，３０１０のキャッ
シュに登録されているかどうか、ＦＡＡをチェックす
る。登録されているＣＰＵがあれば、そのＣＰＵに対し
て当該データのkillトランザクションを出力する。ここ
ではＣＰＵ間の動作パタンを変えて、「ＣＰＵ１０１０
からのstoreによりＣＰＵ１０にkillトランザクション
を出力する」ケースについて、killトランザクションの
動きを説明する。線ｐ３３０、同期制御部３００、線ｐ
１７０を通して、タグ１６０にkillトランザクションが
届く。タグ１６０では、killトランザクションに示され
るデータがキャッシュ上に存在する時は、これを抹消す
る。

【００５３】上記のコヒーレンス制御により、ＣＰＵ１
０，１０１０，２０１０，３０１０のキャッシュにデー
タを登録する時にはコヒーレンス管理部８０にも登録さ
れる。また、あるＣＰＵのキャッシュに登録されるデー
タに対して別なＣＰＵがstoreを実行した場合に、キャ
ッシュに登録されるデータを抹消する動作が行える。よ
って、あるＣＰＵがstoreしたにも関わらず、別なプロ
セッサのキャッシュにstore前のデータが残りつづける
ということはなく、基本的なコヒーレンス制御は達成で
きている。ただし、storeが主記憶制御部５０に影響を
及ぼす時点と、killトランザクションにより各ＣＰＵの
タグ上からデータが消える時点との間には、当然時間差
がある。

【００５４】２．２．３バリア同期の動作概要次にバリア同期での基本的な動作を説明する。バリア同
期では前記の通り、「バリア同期前のメモリアクセスの
影響は、バリア同期の後のメモリアクセスには完全に反
映されている」、「バリア同期後のメモリアクセスは、
バリア同期の前のメモリアクセスには影響を及ぼさな
い」、の２点を守る必要がある。（ここでのメモリアク
セスとは、キャッシュがヒットして実際には主記憶制御
部５０へのトランザクションが発生しないケースを含
む）これを実現するため、図１に示すハードウェアで
は、バリア同期で基本的に次の動作を行う。

【００５５】（Ａ）各ＣＰＵ１０，１０１０，２０１
０，３０１０は、barrier命令よりも前の各メモリアク
セス命令について、以下の３条件が成立するまで待って
からbarrierトランザクションをＣＰＵより出力する。

【００５６】（Ａ−１）barrier命令の前の全load命令
について、キャッシュヒットであればキャッシュより読
み出し終わっていること。キャッシュミスであれば、少
なくともload要求トランザクションがＣＰＵ１０，１０
１０，２０１０，３０１０より出力されたこと。

【００５７】（Ａ−２）barrier命令の前の全dload命令
については、少なくともdload要求トランザクションが
ＣＰＵ１０，１０１０，２０１０，３０１０より出力さ
れたこと。

【００５８】（Ａ−３）barrier命令の前の全store命令
については、少なくともstore要求トランザクションが
ＣＰＵ１０，１０１０，２０１０，３０１０より出力さ
れたこと。

【００５９】（Ｂ）主記憶制御部５０は、内部のバリア
検出部７００，１７００，２７００，３７００でbarrie
rトランザクションを検出する。検出すると、そのパス
からのリクエスト（例えばバリア検出部７００が検出し
た時は、線ｐ３００を通してのリクエスト）を止める。
全バリア検出部７００，１７００，２７００，３７００
ともに検出すると、リクエストを止める動作を終了し、
主記憶アクセスを再開させる。

【００６０】（Ｃ）コヒーレンス制御部８０は、内部の
バリア検出部８００，１８００，２８００，３８００で
barrierトランザクションを検出する。バリア検出部８
００，１８００，２８００，３８００の全てがバリアを
検出すると、最後のbarrierトランザクションの前にコ
ヒーレンス管理部８０に到達している全てのリクエスト
に起因するkillトランザクションの後ろにackトランザ
クションを生成し、各同期制御部３００，１３００，２
３００，３３００を通してＣＰＵ１０，１０１０，２０
１０，３０１０に送出する。

【００６１】（Ｄ）各ＣＰＵ１０，１０１０，２０１
０，３０１０は、コヒーレンス管理部８０からのackト
ランザクションが到着し、更にackトランザクションに
先行するkillトランザクションの処理が全て完了するま
でbarrier命令で待つ。barrier命令より後の命令は、ba
rrier命令が終わるまで実行しない。

【００６２】以上の（Ａ）〜（Ｄ）により、次のことが
保証できる。

【００６３】（１）barrier命令の前の命令に起因する
主記憶制御部５０へのトランザクションは、（Ａ）によ
りbarrierトランザクションより前に主記憶制御部５０
に到着する。barrier命令の後の命令に起因する主記憶
制御部５０へのトランザクションは、（Ｄ）によりbarr
ier成立後にＣＰＵより出力される。ここでbarrier成立
時点では（Ｃ）により全ＣＰＵよりbarrierトランザク
ションが出力されたことが保証される。このことから、
barrier命令の後の命令に起因するトランザクション
が、barrierトランザクションよりも前に主記憶制御部
５０に到着することはない。（注：構成によっては、ba
rrier成立時点で、主記憶制御部５０でもbarrierトラン
ザクションが揃っているという保証は無い。これは、ba
rrier成立はあくまでコヒーレンス管理部８０でbarrier
トランザクションが揃ったことを意味し、主記憶制御部
５０のＢｕｓｙの状態によっては主記憶制御部５０の方
ではまだbarrierトランザクションが揃っていない場合
も有り得る。但し、既にbarrierトランザクションが主
記憶制御部５０の方向に出力された後であることは保証
される。）よって、（Ｂ）の制御により、主記憶制御
部５０へのトランザクションについては、任意のＣＰＵ
がbarrier命令よりも前に実行する命令に起因する主記
憶制御部５０へのトランザクションは、任意のＣＰＵが
barrier命令よりも後に実行する命令に起因する主記憶
制御部５０へのトランザクションに反映される。また逆
に、任意のＣＰＵがbarrier命令よりも前に実行する命
令に起因する主記憶制御部５０へのトランザクション
は、、任意のＣＰＵがbarrier命令よりも後に実行する
命令に起因する主記憶制御部５０へのトランザクション
の影響を受けない。

【００６４】（２）barrier命令の前に存在するstore命
令によるstoreトランザクションについては、（Ａ）に
よりbarrierトランザクションより前にコヒーレンス制
御部８０に到着する。（Ｃ）により、各ＣＰＵがbarrie
rのackを受ける前に、全ＣＰＵのbarrier命令の前のsto
re命令に起因するkillトランザクションを受け取ること
になる。（Ｄ）により、barrier命令の後続が動作を始
める時点では、コヒーレンス制御部８０より受け取った
killトランザクションは処理することになる。つまり、
barrier命令の前に存在するstore命令によるコヒーレン
ス制御が完了してから、各ＣＰＵはbarrier命令の後続
を実行することになる。

【００６５】以上の（１）（２）により、任意のＣＰＵ
がbarrier命令より前に実行したstore命令の結果を任意
のＣＰＵはbarrier命令の後に実行するload命令（キャ
ッシュヒット/ミスヒット両方のケースを含む）およびd
load命令で参照することができる。また、任意のＣＰＵ
がbarrier命令の後に実行するstore命令の影響を任意の
ＣＰＵが実行するbarrier命令の前のload/dloadは影響
を受けない。よって、バリア同期の定義として記述した
１．１節の（２）（３）の条件を満たすことになる。

【００６６】＜３．本実施例の詳細＞以下、本実施例の
詳細を、図１〜図１０を使用して、本実施例の各構成要
素の動作を説明する。最後に、本実施例の機能を用いた
命令列について図１４〜１６を用いて説明する。

【００６７】３．１ＣＰＵ図１に示されるＣＰＵ１０，１０１０，２０１０，３０
１０は全て同一の構成である。本節では、図２を用いて
ＣＰＵ１０内部の構成、および動作を説明する。

【００６８】ＣＰＵ１０は、内部にキャッシュ１５０、
キャッシュに登録されるデータのアドレス情報を記憶す
るタグ１６０、主記憶制御部５０へのload/dloadトラン
ザクションのバッファであるフェッチバッファ１７０、
storeトランザクションのバッファであるストアバッフ
ァ１８０を持つ。更に、各種レジスタを含むＣＰＵコア
１１０内部にbarrierの要求状態を保持する要求レジス
タ１２０、barrierの結果が入る結果レジスタ１３０、b
arrier命令での待ち時間を監視するタイマ１４０を持
つ。

【００６９】以下、最初にload/dload/store命令でのＣ
ＰＵ１０の動作を説明する。

【００７０】load命令をＣＰＵコア１１０が実行する
と、線ｐ１００を通してキャッシュへとload要求を出力
する。キャッシュ１５０は、load要求のアドレスとタグ
１６０に登録されるアドレスとを比較し、キャッシュヒ
ットの場合は線ｐ１１０を通してＣＰＵコア１１０に結
果を返答する。キャッシュミスの場合は、線ｐ１２０を
通してフェッチバッファ１７０にloadリクエストが格納
される。dload命令では、load命令と異なりキャッシュ
ヒットのケースでも線ｐ１２０を通してフェッチバッフ
ァ１７０にdloadリクエストを格納する。store命令をＣ
ＰＵコア１１０が実行すると、線１００を通してキャッ
シュへとstore要求を出力する。キャッシュ１５０は、s
tore要求のアドレスとタグ１６０に登録されるアドレス
とを比較し、キャッシュヒットの場合はキャッシュ上の
データを更新する。また、キャッシュヒット／ミスに関
らず、線ｐ１４０を通してストアバッファ１８０にstor
eトランザクションを格納する。なお、ＣＰＵ１０はout
-of-oder実行を基本としているので、命令列上の順番と
フェッチバッファ１７０、ストアバッファ１８０に格納
される順序は同一で無くて良い。但し、フェッチバッフ
ァ１７０、ストアバッファ１８０自身はＦＩＦＯ制御を
行う。

【００７１】プライオリティ回路１９０は、フェッチバ
ッファ１７０、ストアバッファ１８０に格納されるトラ
ンザクションを、線ｐ１５０を通して同期制御部３００
へと出力する。フェッチバッファ１７０とストアバッフ
ァ１８０のプライオリティの付け方は任意である。load
/dloadリクエストの場合は、最終的に線ｐ１６０を通し
てリプライデータが戻るが、このデータはフェッチバッ
ファ１７０、線ｐ１３０を経由して、キャッシュ１５０
に記憶し、そのアドレス情報はタグ１６０に記憶する。

【００７２】次に、コヒーレンス制御のためのkillトラ
ンザクションについて説明する。

【００７３】killトランザクションは同期制御部３００
より線ｐ１７０を経由してタグ１６０に伝わる。タグ１
７０では、killトランザクションのアドレスにヒットす
るエントリがあれば、それを抹消する。

【００７４】次に、barrier命令を実行した場合の動作
を説明する。

【００７５】ＣＰＵコア１１０がbarrier命令を実行す
ると、最初に要求レジスタ１２０をセットする。要求レ
ジスタ１２０の構成を図３に示す。要求レジスタ１２０
はＲビット１２２、Ｃビット１２４の２ビットを持つ。
ここで、Ｒビットはbarrier要求、Ｃビットはコヒーレ
ンス制御完了待ち有り（Ｃ＝０）／無し（Ｃ＝１）を示
す。barrier命令で指定される即値が０であればＲ＝
１，Ｃ＝０に、barrier命令で指定される即値が１であ
ればＲ＝１，Ｃ＝１になる。コヒーレンス制御待ち有り
／無しについて、およびbarrier命令の即値については
後述する。なお、この要求レジスタにセットされた値
は、線ｐ２１０よりバリアの開始が通知されるとリセッ
トされる。なお、Ｒビットの値は線ｐ１９０より、Ｃビ
ットの値は線ｐ２００より同期制御部３００へ伝えられ
る。

【００７６】ＣＰＵコア１１０は、barrier命令によるb
arrierトランザクションを、barrier命令に先行する全
てのload/dload/store命令の後に線ｐ１００に出力す
る。ＣＰＵコア１１０からキャッシュ１５０に出力され
たbarrierに先行するloadリクエストの内、キャッシュ
ヒットのloadリクエストに対するリプライが線ｐ１８０
を通してＣＰＵコア１１０に返答されたことが保証され
た、およびＣＰＵコア１１０からキャッシュ１５０に投
げられたbarrierに先行するload/dload/storeリクエス
トによるトランザクションを全てフェッチバッファ１７
０、ストアバッファ１８０に積まれたことが保証された
時点で、キャッシュ１５０はbarrierトランザクション
をフェッチバッファ１７０、ストアバッファ１８０に積
む。

【００７７】プライオリティ回路１９０は、フェッチバ
ッファ１７０、ストアバッファ１８０の両方からbarrie
rトランザクションを受けると、線ｐ１５０を通して同
期制御部３００にbarrierトランザクションを出力す
る。

【００７８】ＣＰＵコア１１０は、更にbarrier命令を
実行すると、結果レジスタ１３０にbarrierの完了が記
録されるまで後続命令の実行を止める。結果レジスタの
構成を図４に示す。結果レジスタはＥビット１３２の１
ビットを持つ。同期制御部３００より、barrierのackが
線ｐ１７０を通してタグ１６０に伝わると、先行killト
ランザクションのタグ１６０への反映が終わった後で線
ｐ１８０を通して結果レジスタにbarrierのackが伝えら
れる。これによりＥビットが立つ。このＥビットは、ba
rrier命令でＣＰＵコアがackを待つ動作を終えた時点で
リセットされる。

【００７９】barrier命令でＣＰＵコアが待っている時
間は、タイマ１４０で監視する。規定時間を超えてbarr
ier命令で待ち続けた場合は、ＣＰＵコアはbarrier命令
で待ち続ける動作を止め、例外動作に入る。但し、この
場合もbarrierトランザクションの出力および要求レジ
スタへの設定は通常通り行い、待つ動作のみ中止する。
例えばＣＰＵ１０はbarrier命令を実行して待ち状態に
入っているのに、別なＣＰＵ１０１０がプログラムバグ
でbarrier命令に到達しないケースも有り得るので、タ
イマによるbarrier同期完了待ち中止は必要な機能であ
る。なお、タイマでタイムアウトした時にプロセスをki
llするためにも、要求レジスタ１２０、結果レジスタ１
３０の退避回復ができる必要がある。

【００８０】３．２同期制御部図１に示される同期制御部３００，１３００，２３０
０，３３００は全て同一の構成である。本節では、図５
を用いて同期制御部３００の構成概要、および動作を説
明する。

【００８１】同期制御部３００の主構成要素は、マスク
３５０、状態レジスタ３６０、通信レジスタ３７０であ
る。マスク３５０は、図６に示すとおりＭビット３５５
の１ビットにより構成されるレジスタで、その同期制御
部３００に接続されるＣＰＵ１０がバリア同期に参加す
るかしないかを表す。

【００８２】状態レジスタ３６０は、図７に示す通りＢ
ビット３６５の１ビットにより構成されるレジスタで、
接続されるＣＰＵ１０よりbarrierトランザクションが
来るとＢ＝１にセットし、主記憶制御部５０、コヒーレ
ンス制御部８０までbarrierトランザクションを出力す
ると、（もしくはコヒーレンス制御完了待ち無しのバリ
ア同期となり、barrierトランザクションを出力する必
要が無くなると（後述））Ｂ＝０にリセットされる。

【００８３】状態レジスタ３６０の意味について述べ
る。ＣＰＵ１０がbarrier命令を実行し、このbarrierト
ランザクションが同期制御部３００に来ただけで主記憶
制御部５０にbarrierトランザクションを出力してしま
うと、以降主記憶制御部５０のバリア検出部７００で後
続リクエストをストップする動作に入る。よって、これ
以降にＣＰＵ１０がbarrierタイムアウトを検出したと
しても、主記憶をアクセスできない。これを防ぐため
に、後述するようにＣＰＵ１０，１０１０，２０１０，
３０１０の内、マスクされていないＣＰＵ全てがbarrie
r命令を実行し、必ずbarrierトランザクションが主記憶
制御部５０で揃うことが保証されるまで、同期制御部３
６０はbarrierトランザクションを状態レジスタ３６０
に記憶しておき、主記憶制御部５０へは出力しない。な
お、ＣＰＵ１０でタイムアウトを検出した時のプロセス
kill作業の為にも、状態レジスタ３６０は退避回復がで
きることが必須である。

【００８４】通信レジスタ３７０は、主記憶経由より高
速なＣＰＵ間データ転送の為に用意するメモリマップド
レジスタである。構成は図８のようなフルビットのレジ
スタである。図１に示すとおり、通信レジスタ３７０，
１３７０，２３７０，３３７０はそれぞれ線ｐ３２０の
バスで結合されており、全てがミラーリングされてい
る。すなわち、例えばＣＰＵ１０が通信レジスタ３７０
に設定した値は、速やかに通信レジスタ１３７０，２３
７０，３３７０にも伝達される。

【００８５】なお、マスク３５０、状態レジスタ３６
０、通信レジスタ３７０はメモリマップドレジスタであ
るが、これらはコヒーレンス管理部８０によるコヒーレ
ンス制御が不可能なので、読み出しにはload命令ではな
くdload命令を使用する必要がある。（設定はstore命令
で良い）ＣＰＵ１０よりload/dload/storeトランザクシ
ョンを受けた時の同期制御部３００の動作を説明する。
同期制御部３００は線ｐ１５０よりこれらのトランザク
ションを受けると、デコーダ制御部３３０、線ｐ４０
０、バリア生成部３４０、線ｐ３００を通して、主記憶
制御部５０、コヒーレンス制御部８０へ出力する。主記
憶制御部５０からのリプライデータは、線ｐ３１０、デ
コーダ制御部３３０、線ｐ１６０を経由して、ＣＰＵ１
０へと戻る。

【００８６】このように主記憶に対するload/dload/sto
reでは、デコーダ制御部３３０は何も機能しないが、dl
oad/storeトランザクションのアドレスから、マスク３
５０、状態レジスタ３６０、通信レジスタ３７０へのア
クセスと判定した場合は、それぞれのレジスタを線ｐ４
１０，ｐ４３０，ｐ４６０を通じてアクセスする。dloa
dであればリプライ値を線ｐ４２０，ｐ４４０，ｐ４７
０経由で集め、線ｐ１６０を通してＣＰＵ１０に返答す
る。

【００８７】load/dload/storeトランザクションによ
り、コヒーレンス制御部８０からＣＰＵ１０へのkillト
ランザクションが発生した場合は、線ｐ３３０、ack検
出部５１０、線ｐ６６０、ack生成部５００、線ｐ１７
０を通して、ＣＰＵ１０までkillトランザクションを上
げる。

【００８８】次に、barrierでの同期制御部３００の動
作を説明する。barrier命令により、ＣＰＵ１０内の要
求レジスタ１２０に値がセットされると、要求レジスタ
の設定値は同期制御部まで線ｐ１９０、線２００を通じ
て伝えられる。線ｐ１９０、ｐ２００経由の情報は、線
ｐ３４０，ｐ３５０経由でand回路２００，２１０へと
出力される。ここで、ＣＰＵ１０がマスクされていた場
合は、同期制御部３００内のor回路３１０，３２０によ
りand回路２００、２１０への出力が常に１になる。

【００８９】また、barrierトランザクションがＣＰＵ
１０より線ｐ１５０を通して同期制御部３００に出力さ
れると、デコーダ制御部３３０はbarrierトランザクシ
ョンであることを識別し、状態レジスタ３６０をセット
する。更に、barrierトランザクションは通信レジスタ
３７０にも線ｐ４６０経由で伝えられる。通信レジスタ
３７０については、barrierトランザクションよりも前
のstoreを反映し終わり、これが他の通信レジスタ１３
７０、２３７０、３３７０へと線ｐ３２０を経由して伝
達されたことが保証できる時に、同期制御部内の線ｐ５
１０を１にする。この信号は線ｐ３６０経由でand回路
２２０へ出力されるが、この信号もやはり同期制御部３
００内のor回路３８０により、マスクされている場合は
常に１になる。

【００９０】and回路２００，２１０，２２０により、
同期制御部３００，１３００，２３００，３３００から
の出力が全て１になると、その結果が線ｐ３７０，ｐ３
８０，ｐ３９０を経由して同期制御部３００内のラッチ
４６０，４７０，４８０に伝わる。

【００９１】この構成により、マスクされていない全て
のＣＰＵの要求レジスタ１２０のＲビットが１になった
ときに線ｐ３７０は１になる。ラッチ４６０は線ｐ３７
０が１になると１にセットされる。ラッチ４６０がセッ
トされると、すなわちいずれ必ず各同期制御部３００，
１３００，２３００，３３００より主記憶制御部５０に
barrierトランザクションが出力されるので、主記憶制
御部５０へbarrierトランザクションを出力しても良い
ことになる。

【００９２】マスクされていない全てのＣＰＵの要求レ
ジスタ１２０のＣビットが１になったときに線ｐ３８０
は１になる。ラッチ４７０は線ｐ３７０が１になったこ
とをトリガに線ｐ３８０の情報を記憶する。これはすな
わちマスクされていないすべてのＣＰＵがbarrier命令
の即値で１を指定したことを意味する。１ＣＰＵでも０
を指定した場合には、ラッチ４７０が記憶する値は０に
なる。

【００９３】マスクされていない全ての同期制御部の通
信レジスタより１が上がると線ｐ３９０は１になる。こ
れはすなわちbarrier命令の前のstoreトランザクション
を全通信レジスタ３７０，１３７０，２３７０，３３７
０に反映し終わったことを表す。

【００９４】ラッチ４６０に１が設定されたことで、同
期制御部３００でバリア同期動作が引き起こされる。以
下、（１）マスクされていない同期制御部３００で、ラ
ッチ４６０が１になり、４７０が０だった場合（コヒー
レンス制御完了待ち有り）、（２）マスクされていない
同期制御部３００で、ラッチ４６０が１になり、４７０
が１だった場合（コヒーレンス制御完了待ち無し）、
（３）マスクされている同期制御部３００で、ラッチ４
６０が１になり、４７０が０だった場合（コヒーレンス
制御完了待ち有り）、（４）マスクされている同期制御
部３００で、ラッチ４６０が１になり、４７０が１だっ
た場合（コヒーレンス制御完了待ち無し）、の４パタン
について説明する。

【００９５】（１）マスクされていない同期制御部３０
０で、ラッチ４６０が１になり、４７０が０だった場合
（コヒーレンス制御完了待ち有り）ラッチ４６０がセットされたことで線ｐ５６０が１にな
り、かつbarrierトランザクションが状態レジスタ３６
０にセットされたことでor回路３９０の出力線５４０が
１になると、線５５０も１になる。この時、ラッチ４７
０の出力線ｐ５８０は０でなので、and回路４２０の出
力も１になり、線ｐ５３０を通じてバリア生成部３４０
を起動する。バリア生成部３４０は起動されると、barr
ierトランザクションを生成し、線ｐ３００を通じて主
記憶制御部５０、コヒーレンス管理部８０に出力する。
また、and回路４００の出力も１になることから、線ｐ
５００を通じて状態レジスタ３６０をリセットし、また
線ｐ２１０を通じて、ＣＰＵ１０の要求レジスタ１２０
のリセットも行う。

【００９６】この動作は、すなわち、マスクされていな
いＣＰＵ全てがbarrier命令を実行してbarrier動作が開
始された時点で、コヒーレンス制御完了待ち有りが指定
されている（少なくとも１ＣＰＵはbarrier命令の即値
で０を指定した）時には、マスクされていない同期制御
部３００は、ＣＰＵ１０からのbarrierトランザクショ
ンの到着を一旦状態レジスタに格納し確認したら、主記
憶制御部５０およびコヒーレンス制御部８０へbarrier
トランザクションを出力するということを表す。同時
に、状態レジスタ３６０をクリアし、ＣＰＵ１０の要求
レジスタもクリアする。

【００９７】バリア生成部３４０から出力したbarrier
トランザクションに従い、コヒーレンス管理部８０は必
要なkillトランザクションを線ｐ３３０に出力した後、
ackトランザクションをack検出部５１０まで出力して来
る。ack検出部５１０はackトランザクションを検出する
と、線ｐ６１０を使い、ラッチ４９０をセットする。こ
れにより、線ｐ６００が１になり、更にor回路４３０に
より線ｐ６４０が１になる。ここで、ラッチ４６０は既
に１なので線ｐ５７０も１になっていることから、ラッ
チ４８０も１になれば線ｐ６５０は１になる。ack生成
部５００は線ｐ６５０が１になるとackトランザクショ
ンを生成し、線ｐ１７０を経由してＣＰＵ１０に出力す
る。これはすなわち、コヒーレンス管理部８０からack
トランザクションを受けると、通信レジスタの更新も終
わっていればＣＰＵ１０にackトランザクションを出力
することになる。ack生成部５００は、ackトランザクシ
ョンをＣＰＵ１０に出力すると、線ｐ６２０を通じて、
ラッチ４６０，４７０，４８０をリセットする。

【００９８】（２）マスクされていない同期制御部３０
０で、ラッチ４６０が１になり、４７０が１だった場合
（コヒーレンス制御完了待ち無し）ラッチ４６０がセットされたことで線ｐ５６０が１にな
り、かつbarrierトランザクションが状態レジスタ３６
０にセットされたことでor回路３９０の出力線５４０が
１になると、線５５０も１になる。この時、ラッチ４７
０の出力線ｐ５８０は１でなので、and回路４２０の出
力は０のままであり、バリア生成部３４０は起動されな
い。and回路４００の出力は１になることから、線ｐ５
００を通じて状態レジスタ３６０をリセットし、また線
ｐ２１０を通じて、ＣＰＵ１０の要求レジスタ１２０の
リセットも行う。

【００９９】この動作は、すなわち、マスクされていな
いＣＰＵ全てがbarrier命令を実行してbarrier動作が開
始された時点で、コヒーレンス制御完了待ち無しが指定
されている（全ＣＰＵがbarrier命令の即値で１を指定
した）時には、マスクされていない同期制御部３００
は、ＣＰＵ１０からのbarrierトランザクションの到着
を一旦状態レジスタに格納し確認した後、主記憶制御部
５０、コヒーレンス制御部８０へ出力することなく、抹
消することを表す。状態レジスタ３６０とＣＰＵ１０の
要求レジスタについては、コヒーレンス制御完了待ち無
しの場合と同様にクリアする。

【０１００】コヒーレンス管理部８０からのackトラン
ザクションは無いので、ラッチ４９０は１にはならない
が、ラッチ４６０，４７０は１なので、or回路４３０の
出力は１になり、よって、ラッチ４８０も１になれば線
ｐ６５０は１になる。ack生成部５００は線ｐ６５０が
１になるとackトランザクションを生成し、線ｐ１７０
を経由してＣＰＵ１０に出力する。これはすなわち、コ
ヒーレンス管理部８０からackトランザクションを受け
なくても、通信レジスタの更新が終わっていればＣＰＵ
１０にackトランザクションを出力することになる。ack
生成部５００は、ackトランザクションをＣＰＵ１０に
出力すると、線ｐ６２０を通じて、ラッチ４６０，４７
０，４８０をリセットする。

【０１０１】上記の動作を行うため、コヒーレンス制御
完了待ち無しは、通信レジスタ３７０の値保証だけを高
速に行うために使える。実際の例は後述する。

【０１０２】（３）マスクされている同期制御部３００
で、ラッチ４６０が１になり、４７０が０だった場合
（コヒーレンス制御完了待ち有り）マスクされている場合は、barrierトランザクションが
状態レジスタ３６０にセットされなくても、or回路３９
０の出力が１になるので、ラッチ４６０がセットされた
ことだけで（ラッチ４７０の出力線ｐ５８０は０でなの
で）、線ｐ５３０を通じてバリア生成部３４０が起動さ
れることになる。バリア生成部３４０は起動されると、
barrierトランザクションを生成し、線ｐ３００を通じ
て主記憶制御部５０、コヒーレンス管理部８０に出力す
る。ただし、and回路４００の出力は１にならないこと
から、状態レジスタ３６０、ＣＰＵ１０の要求レジスタ
１２０のリセットは行われない。

【０１０３】この動作は、すなわち、マスクされていな
いＣＰＵ全てがbarrier命令を実行してbarrier動作が開
始された時点で、コヒーレンス制御完了待ち有りが指定
されている（少なくとも１ＣＰＵはbarrier命令の即値
で０を指定した）時には、マスクされている同期制御部
３００は、無条件に主記憶制御部５０およびコヒーレン
ス制御部８０へbarrierトランザクションを出力すると
いうことを表す。

【０１０４】バリア生成部３４０から出力したbarrier
トランザクションに従い、コヒーレンス管理部８０は必
要なkillトランザクションを線ｐ３３０に出力した後、
ackトランザクションをack検出部５１０まで出力して来
る。ack検出部５１０はackトランザクションを検出する
と、線ｐ６１０を使い、ラッチ４９０をセットする。こ
れにより、線ｐ６００が１になり、更にor回路４３０に
より線ｐ６４０が１になる。ここで、ラッチ４６０は既
に１なので線ｐ５７０も１になっていることから、ラッ
チ４８０も１になれば線ｐ６５０は１になる。ack生成
部５００は線ｐ６５０が１になっても、マスクされてい
ることで線ｐ６７０が１であると、ackトランザクショ
ンは生成せず、線ｐ６２０を通じてラッチ４６０，４７
０，４８０のリセットのみ行う。これはすなわち、コヒ
ーレンス管理部８０からackトランザクションを受けて
も、ＣＰＵ１０へはackトランザクションは返さず、ラ
ッチ４６０，４７０，４８０の状態のみリセットするこ
とを意味する。

【０１０５】（４）マスクされている同期制御部３００
で、ラッチ４６０が１になり、４７０が１だった場合
（コヒーレンス制御完了待ち無し）マスクされている場合は、barrierトランザクションが
状態レジスタ３６０にセットされなくても、or回路３９
０の出力が１になるが、ラッチ４７０も１であり、and
回路４００，４２０とも１にはならない。よって、バリ
ア生成部３４０は起動されず、状態レジスタ３６０、要
求レジスタ１２０のリセットも行われない。

【０１０６】この動作は、すなわち、マスクされていな
いＣＰＵ全てがbarrier命令を実行してbarrier動作が開
始された時点で、コヒーレンス制御完了待ち無しが指定
されている（全ＣＰＵがbarrier命令の即値で１を指定
した）時には、マスクされている同期制御部３００は、
特に動作が無いことを意味する。

【０１０７】コヒーレンス管理部８０からのackトラン
ザクションは無いので、ラッチ４９０は１にはならない
が、ラッチ４６０，４７０は１なので、or回路４３０の
出力は１になり、よって、ラッチ４８０も１になれば線
ｐ６５０は１になる。ack生成部５００は線ｐ６５０が
１になっても、マスクされていることで線ｐ６７０が１
であると、ackトランザクションは生成せず、線ｐ６２
０を通じてラッチ４６０，４７０，４８０のリセットの
み行う。これはすなわち、コヒーレンス管理部８０から
ackトランザクションを受けても、ＣＰＵ１０へはackト
ランザクションは返さず、ラッチ４６０，４７０，４８
０の状態のみリセットすることを意味する。

【０１０８】同期制御部の内いくつかがマスクされてい
るケースで、コヒーレンス制御完了待ち有りとなった場
合は、各同期制御部で（１）（３）の動作が混じるが、
いずれも主記憶制御部５０，コヒーレンス管理部８０へ
barrierトランザクションを出力する。逆に、コヒーレ
ンス制御完了待ち無しとなった場合は、各同期制御部で
（２）（４）の動作が混じるが、いずれも主記憶制御部
５０，コヒーレンス管理部８０へbarrierトランザクシ
ョンを出力しない。

【０１０９】３．３主記憶制御部本節では、図９を用いて主記憶制御部５０の構成、およ
び動作を説明する。

【０１１０】主記憶制御部５０は、内部にバリア検出部
７００，１７００，２７００，３７００と、主記憶６０
とを持つ。barrierトランザクションが検出されなけれ
ば、線ｐ３００，ｐ１３００，ｐ２３００，ｐ３３００
を通して同期制御部３００，１３００，２３００，３３
００より来たload/dload/storeトランザクションは、バ
リア検出部７００，１７００，２７００，３７００を通
過して、線ｐ７２０，１７２０，２７２０，３７２０経
由で主記憶６０にアクセスする。storeトランザクショ
ンについてはstoreデータを主記憶６０に反映し、load/
dloadトランザクションについては、リプライ値を線ｐ
３１０，ｐ１３１０，ｐ２３１０，ｐ３３１０を経由し
て同期制御部３００，１３００，２３００，３３００に
返答する。

【０１１１】バリア検出部７００がbarrierトランザク
ションを検出すると、線ｐ３００からの主記憶６０への
アクセスをバリア検出部７００で停止し、また線ｐ７０
０よりand回路７１０へ１を出力する。同様に、バリア
検出部１７００，２７００，３７００全てでbarrierト
ランザクションを検出すると、and回路７１０の出力線
ｐ７１０が１になり、各バリア検出部７００，１７０
０，２７００，３７００をリセットする。

【０１１２】よって、barrierトランザクションの前の
トランザクション全てが主記憶６０に出力された後で、
barrierトランザクションの後のトランザクションが主
記憶６０へ出力される動作になり、barrierトランザク
ションによる主記憶アクセスのシリアライズが実現す
る。

【０１１３】３．４コヒーレンス管理部本節では、図１０を用いてコヒーレンス管理部８０の構
成、および動作を説明する。

【０１１４】コヒーレンス制御部８０は、内部にバリア
検出部８００，１８００，２８００，３８００と、ＦＡ
Ａ９０とを持つ。barrierトランザクションが検出され
なければ、線ｐ３００，ｐ１３００，ｐ２３００，ｐ３
３００を通して同期制御部３００，１３００，２３０
０，３３００より来たload/storeトランザクションは、
バリア検出部８００，１８００，２８００，３８００を
通過して、線ｐ８２０，ｐ１８２０，ｐ２８２０，ｐ３
８２０経由でＦＡＡ９０に到達する。loadであればＦＡ
Ａ登録、storeであればＦＡＡチェックおよびチェック
に引っ掛かった場合はkillトランザクションを生成し、
線ｐ３３０，ｐ１３３０，ｐ２３３０，ｐ３３３０を経
由して同期制御部３００，１３００，２３００，３３０
０に出力する。

【０１１５】バリア検出部８００がbarrierトランザク
ションを検出すると、線ｐ８００を１にする。この時、
線ｐ３００からＦＡＡへのトランザクションの流れを止
めるかどうかについては、止めても止めなくてもどちら
でもよい。これは、ＣＰＵ１０，１０１０，２０１０，
３０１０がbarrier命令から抜けるには、コヒーレンス
管理部８０よりackを出力する必要があることから、bar
rierトランザクションの後ろに別のトランザクションが
来ることがないことと、仮にbarrier命令よりも後のsto
reトランザクションが来てしまい、不当にkillトランザ
クションが生成されたとしても、主記憶側でシリアライ
ズしているので、結局、barrier命令よりも前のlload命
令はbarrier命令より後のstore命令よりも先に主記憶ア
クセスすることになり、問題が発生し得ないことによ
る。（これに対し、主記憶制御部５０の方は、barrier
トランザクションが揃うまでＣＰＵ１０，１０１０，２
０１０，３０１０を必ず待たせることができる保証がな
いので、シリアライズが必要である。）同様に、バリア
検出部１８００，２８００，３８００全てでbarrierト
ランザクションを検出すると、and回路８１０の出力線
ｐ８１０が１になり、各バリア検出部８００，１８０
０，２８００，３８００をリセットするとともに、ack
生成部８２０を起動して、ackトランザクションを線ｐ
３３０，ｐ１３３０，ｐ２３３０，ｐ３３３０を経由し
て同期制御部３００，１３００，２３００，３３００に
出力する。

【０１１６】よって、barrierトランザクションの前の
トランザクション全てについてのＦＡＡ９０への操作が
終わり、それに伴うkillトランザクションを同期制御部
３００，１３００，２３００，３３００に出力した後
で、ackトランザクションを出力する制御が実現する。

【０１１７】３．５命令列例図１４、図１５、図１６に、本実施例のbarrier命令を
用いた命令列例を示す。

【０１１８】図１４は、図１１における同期Ａのパタン
について、ＣＰＵ１０、ＣＰＵ１０１０の間での命令列
例を示す。ＣＰＵ１０がbarrier命令（即値０）の前に
実行した、主記憶６０、通信レジスタ３７０へのstore
（６０１０、６０２０）の値は、ＣＰＵ１０１０がbarr
ier命令（即値０）の後に実行する通信レジスタ３７０
へのdload命令（６１２０）、主記憶６０へのload命令
（６１３０）に必ず反映されることが保証できる。な
お、ここでは命令６０２０，６１２０のdloadで通信レ
ジスタ３７０をアクセスしたが、これは主記憶６０に対
するアクセスでも問題ない。また、barrier命令の即値
はＣＰＵ１０、ＣＰＵ１０１０とも０としたが、これは
どちらかが１であっても変わらない。

【０１１９】図１５は、図１１における同期Ｂのパタン
について、ＣＰＵ１０、ＣＰＵ１０１０の間での命令列
例を示す。ＣＰＵ１０１０がbarrier命令（即値０）の
前に実行した、主記憶６０、通信レジスタ３７０へのst
ore（６３１０、６３２０）の値は、ＣＰＵ１０がbarri
er命令（即値０）の後に実行する通信レジスタ３７０へ
のdload命令（６２２０）、主記憶６０へのload命令
（６２３０）に必ず反映されることが保証できる。な
お、ここではdloadで通信レジスタ３７０をアクセスし
たが、これは主記憶６０に対するアクセスでも問題な
い。また、barrier命令の即値はＣＰＵ１０、ＣＰＵ１
０１０とも０としたが、これはどちらかが１であっても
変わらない。

【０１２０】図１６はコヒーレンス制御完了待ち無しの
例として示す。ＣＰＵ１０、ＣＰＵ１０１０ともbarrie
r命令の即値が１なので、コヒーレンス制御完了待ち無
しのバリア同期が機能する。この場合、ＣＰＵ１０がba
rrier命令の前で実行した通信レジスタ３７０へのstore
（６４１０）は、ＣＰＵ１０１０がbarrier命令の後で
実行するdload命令（６５２０）に必ず反映される。但
し、この場合は通信レジスタ３７０の代りに主記憶６０
を指定すると、store結果の反映が保証できない。load
命令を使った場合も同様である。

【０１２１】

【発明の効果】スイッチ構成の主記憶共有型マルチプロ
セッサにおいて、メモリアクセス順序保証とコヒーレン
ス保証とを同時に高速に実行でき、プロセッサ間のデー
タ交換の性能が高まる。

【図面の簡単な説明】

【図１】本発明の同期機構を持つマルチプロセッサシス
テムを表す図である。

【図２】本発明のマルチプロセッサシステム中のＣＰＵ
を表す図である。

【図３】本発明のマルチプロセッサシステム中の要求レ
ジスタを表す図である。

【図４】本発明のマルチプロセッサシステム中の結果レ
ジスタを表す図である。

【図５】本発明のマルチプロセッサシステム中の同期制
御部を表す図である。

【図６】本発明のマルチプロセッサシステム中のマスク
を表す図である。

【図７】本発明のマルチプロセッサシステム中の状態レ
ジスタを表す図である。

【図８】本発明のマルチプロセッサシステム中の通信レ
ジスタを表す図である。

【図９】本発明のマルチプロセッサシステム中の主記憶
制御部を表す図である。

【図１０】本発明のマルチプロセッサシステム中のコヒ
ーレンス管理部を表す図である。

【図１１】本発明の同期の適用例を表す図である。

【図１２】バス構成の主記憶共有型マルチプロセッサを
表す図である。

【図１３】スイッチ構成の主記憶共有型マルチプロセッ
サを表す図である。

【図１４】本発明の同期を用いた命令列例を表す図であ
る。

【図１５】本発明の同期を用いた命令列例を表す図であ
る。

【図１６】本発明の同期を用いた命令列例を表す図であ
る。

【符号の説明】

１９０…プライオリティ回路２００，２１０，２２０，４００，４１０，４２０，４
４０，４５０，７１０，８１０…and回路３１０，３２０，３８０，３９０，４３０…or回路７００，８００，１７００，１８００，２７００，２８
００，３７００，３８００…バリア検出部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者橋本茂子神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内 (72)発明者深川正一神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内 (72)発明者釜田栄樹神奈川県秦野市堀山下１番地株式会社日立製作所汎用コンピュータ事業部内Ｆターム(参考） 5B045 AA07 DD13 EE02 EE12

Claims

【特許請求の範囲】

【請求項１】キャッシュを有する複数のプロセッサと、前記複数のプロセッサにより共有される主記憶と、前記複数のプロセッサのキャッシュに保持するデータの
アドレス情報を管理してプロセッサ間のキャッシュコヒ
ーレンス制御を行うコヒーレンス管理機構と、前記プロセッサはプロセッサ間の同期を目的とする命令
を実行した時に同期用トランザクションを発生するマル
チプロセッサシステムにおいて、、前記複数のプロセッサのいずれかから同期用トランザク
ションを受けると前記主記憶に対するアクセス処理を停
止し、前記複数のプロセッサの全てより前記同期用トラ
ンザクションが出力されると前記主記憶に対するアクセ
ス処理を再開する主記憶アクセス順序保証機構と、前記複数のプロセッサの同期用トランザクションよりも
前のリクエストに対する前記コヒーレンス管理機構によ
るキャッシュコヒーレンス制御を完了したことを当該プ
ロセッサに通知するコヒーレンス完了保証機構とを備
え、かつ前記プロセッサの各々は、前記同期を目的とする命
令を実行した後前記コヒーレンス完了保証機構からの前
記通知を受けるまで後続の命令の実行を停止すること特
徴とするマルチプロセッサシステム。
【請求項２】前記プロセッサから前記同期用トランザク
ションを受けるとこれを保持し、前記プロセッサの全て
が前記同期を目的とする命令を実行すると主記憶と前記
コヒーレンス管理機構に該同期用トランザクションを出
力する同期用トランザクション保持機構をさらに有する
請求項１記載のマルチプロセッサシステム。
【請求項３】前記プロセッサの１つから同期用トランザ
クションを受けるとこれを記憶し、前記プロセッサの全
てから該同期用トランザクションを受けるとこれを解除
するとともに、最後に受けた該同期用トランザクション
よりも前のトランザクションに対するコヒーレンス制御
が終わったことをもって同期前のキャッシュコヒーレン
ス制御が完了したことを検出するコヒーレンス完了保証
機構を持つ請求項１記載のマルチプロセッサシステム。
【請求項４】キャッシュを有する複数のプロセッサと、前記複数のプロセッサにより共有される主記憶と、前記複数のプロセッサのキャッシュに保持するデータの
アドレス情報を管理してプロセッサ間のキャッシュコヒ
ーレンス制御を行うコヒーレンス管理機構を具備し、前記複数のプロセッサ間の同期について参加不参加を表
すマスク情報を各プロセッサ毎に持ち、該プロセッサのプロセッサ間の同期を目的とする命令を
実行した時に同期用トランザクションを発生するマルチ
プロセッサシステムにおいて、前記複数のプロセッサのいずれかから同期用トランザク
ションを受けるとプロセッサからの主記憶に対するアク
セス処理を停止し、前記複数のプロセッサの内同期に参
加するプロセッサの全てより同期用トランザクションが
出力されると該主記憶に対するアクセス処理を再開する
主記憶アクセス順序保証機構と、前記複数のプロセッサの内同期に参加するプロセッサの
全てより出力された同期用トランザクションよりも前の
全てのリクエストに対する、前記コヒーレンス管理機構
によるキャッシュコヒーレンス制御を完了したことを前
記プロセッサに通知するコヒーレンス完了保証機構とを
備え、かつ前記プロセッサの各々は、前記同期を目的とする命
令を実行した後前記コヒーレンス完了保証機構からの前
記通知を受けるまで後続の命令の実行を停止すること特
徴とするマルチプロセッサシステム。
【請求項５】前記プロセッサから前記同期用トランザク
ションを受けるとこれを保持し、前記プロセッサの全て
が前記同期を目的とする命令を実行すると主記憶と前記
コヒーレンス管理機構に該同期用トランザクションを出
力する同期用トランザクション保持機構をさらに有する
請求項４記載のマルチプロセッサシステム。
【請求項６】前記プロセッサの１つから同期用トランザ
クションを受けるとこれを記憶し、前記プロセッサの全
てから該同期用トランザクションを受けるとこれを解除
するとともに、最後に受けた該同期用トランザクション
よりも前のトランザクションに対するコヒーレンス制御
が終わったことをもって同期前のキャッシュコヒーレン
ス制御が完了したことを検出するコヒーレンス完了保証
機構を持つ請求項４記載のマルチプロセッサシステム。
【請求項７】キャッシュを有する複数のプロセッサと、
複数の該プロセッサにより共有される主記憶と、全ての
該プロセッサの該キャッシュに保持するデータのアドレ
ス情報を管理してプロセッサ間のキャッシュコヒーレン
ス制御を行うコヒーレンス管理機構を具備し、該プロセッサのプロセッサ間の同期を目的とする命令を
実行した時に同期用トランザクションを発生し、該全プロセッサの該同期用トランザクションよりも前の
全てのリクエストに対する、該コヒーレンス管理機構に
よるキャッシュコヒーレンス制御を完了したことを該プ
ロセッサに通知するコヒーレンス完了保証機構と、該プロセッサが該コヒーレンス管理機構からの該キャッ
シュコヒーレンス制御完了通知を待つ機構と、該プロセッサが該キャッシュコヒーレンス制御完了通知
を待つ時間が規定時間を超えると割込みを発生するタイ
マを持つことを特徴とするマルチプロセッサシステム。
【請求項８】キャッシュを有する複数のプロセッサと、
複数の該プロセッサにより共有される主記憶と、全ての
該プロセッサの該キャッシュに保持するデータのアドレ
ス情報を管理してプロセッサ間のキャッシュコヒーレン
ス制御を行うコヒーレンス管理機構を具備し、該プロセッサ間の同期について参加不参加を表すマスク
情報を該各プロセッサ毎に持ち、該プロセッサのプロセッサ間の同期を目的とする命令を
実行した時に同期用トランザクションを発生し、少なくとも該プロセッサの内同期に参加するもの全てよ
り出力された該同期用トランザクションよりも前の全て
のリクエストに対する、該コヒーレンス管理機構による
キャッシュコヒーレンス制御を完了したことを該プロセ
ッサに通知するコヒーレンス完了保証機構と、該プロセッサが該コヒーレンス管理機構からの該キャッ
シュコヒーレンス制御完了通知を待つ機構と、該プロセッサが該キャッシュコヒーレンス制御完了通知
を待つ時間が規定時間を超えると割込みを発生するタイ
マを持つことを特徴とするマルチプロセッサシステム。
【請求項９】キャッシュを有する複数のプロセッサと、
複数の該プロセッサにより共有される主記憶と、全ての
該プロセッサの該キャッシュに保持するデータのアドレ
ス情報を管理してプロセッサ間のキャッシュコヒーレン
ス制御を行うコヒーレンス管理機構を具備し、該プロセッサ間のデータ交換のための通信レジスタを持
ち、該プロセッサのプロセッサ間の同期を目的とする命令を
実行した時に同期用トランザクションを発生し、該同期用トランザクションを受けると該プロセッサから
の該主記憶に対するアクセス処理を停止し、該プロセッ
サ全てより該同期用トランザクションが出力されると該
主記憶に対するアクセス処理を再開する主記憶アクセス
順序保証機構と、該全プロセッサの該同期用トランザクションよりも前の
全てのリクエストに対する、該コヒーレンス管理機構に
よるキャッシュコヒーレンス制御を完了したことと、該
全プロセッサの該同期用トランザクションよりも前の全
ての該通信レジスタに対するアクセスが完了したことと
を該プロセッサに通知するコヒーレンス完了保証機構
と、該プロセッサが該コヒーレンス管理機構からの該キャッ
シュコヒーレンス制御完了通知を待つ機構とを持つこと
を特徴とするマルチプロセッサシステム。
【請求項１０】前記同期を目的とする命令で、同期によ
る保証範囲が前記通信レジスタの値のみか、前記主記憶
に対するアクセス順序保証および前記コヒーレンス管理
機構によるキャッシュコヒーレンス制御完了保証までか
を選択できることを特徴とする請求項９に記載のマルチ
プロセッサシステム。
【請求項１１】キャッシュを有する複数のプロセッサ
と、複数の該プロセッサにより共有される主記憶と、全
ての該プロセッサの該キャッシュに保持するデータのア
ドレス情報を管理してプロセッサ間のキャッシュコヒー
レンス制御を行うコヒーレンス管理機構を具備し、該プロセッサ間の同期について参加不参加を表すマスク
情報を該各プロセッサ毎に持、該プロセッサ間のデータ交換のための通信レジスタを持
ち、該プロセッサのプロセッサ間の同期を目的とする命令を
実行した時に同期用トランザクションを発生し、該同期用トランザクションを受けると該プロセッサから
の該主記憶に対するアクセス処理を停止し、該プロセッ
サの内同期に参加する全てより該同期用トランザクショ
ンが出力されると該主記憶に対するアクセス処理を再開
する主記憶アクセス順序保証機構と、少なくとも該プロセッサの内同期に参加するもの全てよ
り出力された該同期用トランザクションよりも前の全て
のリクエストに対する、該コヒーレンス管理機構による
キャッシュコヒーレンス制御を完了したことと、少なく
とも該プロセッサの内同期に参加するもの全てより出力
された該同期用トランザクションよりも前の全ての該通
信レジスタに対するアクセスが完了したこととを該プロ
セッサに通知するコヒーレンス完了保証機構と、該プロセッサが該コヒーレンス管理機構からの該キャッ
シュコヒーレンス制御完了通知を待つ機構とを持つこと
を特徴とするマルチプロセッサシステム。
【請求項１２】前記同期を目的とする命令で、同期によ
る保証範囲が前記通信レジスタの値のみか、前記主記憶
に対するアクセス順序保証および前記コヒーレンス管理
機構によるキャッシュコヒーレンス制御完了保証までか
を選択できることを特徴とする請求項１１に記載のマル
チプロセッサシステム。