JP3312361B2

JP3312361B2 - 分散共有メモリシステム

Info

Publication number: JP3312361B2
Application number: JP07466994A
Authority: JP
Inventors: 茂樹山田; 勝己丸山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1994-04-13
Filing date: 1994-04-13
Publication date: 2002-08-05
Anticipated expiration: 2017-08-05
Also published as: JPH07282027A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、分散共有メモリを介し
て複数のプロセッサモジュール間でデータ転送を行う際
の分散共有メモリの構成ならびに管理に関し、特に大規
模分散処理システムにおけるデータ送受信に好適な分散
共有メモリシステムに関する。

【０００２】

【従来の技術】従来、複数のプロセッサを組み合わせた
マルチプロセッサシステムにおいて、複数のスレッド、
つまり並列実行の単位となる軽量プロセスの間でメッセ
ージと呼ばれるデータを交信しながら処理を進行させる
分散処理方式が提案されている。この分散処理方式を具
体的に実現する案として、例えば、特公平５−１１３４
１号公報に示されている技術を適用する方法が考えられ
る。図２はそのシステム構成ブロックを示したもので、
１１０は通信機構、１１１は通信機構１１０の制御部、
１１２は共用メモリ、１１３は転送制御部、１２０は計
算機、１２１は中央処理装置、１２２は主記憶装置、１
２４は通信領域を示す。疎結合マルチプロセッサシステ
ムを構成する各計算機１２０の主記憶装置１２２の記憶
領域には、同じ領域構成の通信領域１２４が設けられ、
各通信領域１２４は、このシステムの各計算機１２０に
割り当てられたブロックに分割されている。また、通信
機構１１０には、通信領域１２４と同一の構成の記憶領
域からなる共用メモリ１１２を設け、転送制御部１１３
を経て、全ての主記憶装置１２２と接続し転送制御部１
１３の制御によって主記憶装置１２２の通信領域１２４
と共用メモリとの対応ブロック間でデータ転送が可能と
なるように構成されている。ここで、送信スレッドが計
算機Ａ、受信スレッドが計算機Ｂに存在し、送信スレッ
ドから受信スレッドへデータを送る場合、送信スレッド
の計算機１２０Ａでは、ＣＰＵ１２１が、通信領域１２
４の宛先計算機１２０Ｂに対応するブロックＢにデータ
を書き込み、通信機構１１０に送る。通信機構１１０の
制御部１１１がこの要求を受信し、要求元（送信スレッ
ド）の宛先対応ブロックＢのデータを、共用メモリ１１
２の同じブロックＢに転送し、宛先のＣＰＵ１２１に割
り込み要求を送る。宛先のＣＰＵ１２１は割り込みによ
って、データ受信の必要を知ると、通信機構に応答し、
その応答により通信機構１１０では、共用メモリ１１２
の宛先対応ブロックＢから、宛先通信領域１２４の同じ
ブロックＢへデータを転送することにより、スレッド間
のデータ送受信を実現することができる。

【０００３】

【発明が解決しようとする課題】上記従来技術では、宛
先計算機すなわち受信側計算機対応にデータの書き込み
領域が決められているため、例えば計算機Ａから計算機
Ｂへのデータ送受信は、計算機Ｃから計算機Ｂへのデー
タ送受信と同じ対応ブロックＢを使用することになり、
宛先計算機を同じくする複数の送信側計算機間で、ブロ
ックを捕捉するための競合整理を通信機構１１０で集中
的に行う必要がある。しかしながら、通信機構１１０は
システムに１個のみ設置されているので、データ送受信
頻度が高い場合には競合整理の負荷が増大し、通信機構
１１０の制御部１１１がシステム全体の性能ボトルネッ
クなってしまうという問題がある。さらに、この方式の
構造では、データは送信側のブロックから通信機構１１
０内の共用メモリ１１２に一旦蓄積された後、受信側の
ブロックに転送されるので、通信機構１１０の転送制御
部１１３がシステム全体のメッセージ転送能力の上限を
決めてしまう他、データの蓄積によってメッセージ転送
遅延も大きくなるという問題がある。本発明の目的は、
このような問題点を改善し、特に大規模分散処理システ
ムにおけるデータ送受信を効率よく行うことが可能な分
散共有メモリシステムを提供することにある。

【０００４】

【課題を解決するための手段】上記目的を達成するた
め、本発明の分散共有メモリシステムは、分散共有メモ
リシステムにおいて、複数のプロセッサモジュールの各
々は、一つ以上のプロセッサ（図３の１９−１、１９−
２）、分散共有メモリ（図３の２１−１、２１−２）、
メモリセグメント管理手段（図６の６０−１、６０−
２）、データ転送手段（図３の２３−１、２３−２）を
具備し、分散共有メモリは、全プロセッサモジュールで
同一のアドレスが割り付けられ、その分散共有メモリが
属するプロセッサモジュールのプロセッサからアクセス
され、その分散共有メモリは、データを記憶するための
複数のメモリセグメント（図１のＸ１２−１、Ｙ１２−
１等）を含み、その複数のメモリセグメントは、データ
送信側である送信プロセッサモジュールと、データ受信
側である受信プロセッサモジュールの組み合わせで指定
される管理単位毎に分類され、その管理単位内の各メモ
リセグメントは、送信側の分散共有メモリと受信側の分
散共有メモリの同一アドレスロケーションに配置され
て、一つのメモリセグメントペアを構成し、そのメモリ
セグメントペアは、ペアを単位として送信側プロセッサ
モジュールのメモリセグメント管理手段または受信側プ
ロセッサモジュールのメモリセグメント管理手段の何れ
かによって重複しないように管理され、その送信側プロ
セッサモジュールのメモリセグメント管理手段は、メモ
リセグメント補捉要求に対しては、管理下のメモリセグ
メントペアのうち１ペア（Ａ，Ｂ）を捕捉し、送信側プ
ロセッサモジュールのデータ転送手段は、捕捉されたメ
モリセグメントＡ内のデータを受信側プロセッサモジュ
ールに転送し、受信側プロセッサモジュールのデータ転
送手段は、受信したデータを、受信側プロセッサモジュ
ールの分散共有メモリ内の、送信側と同一アドレスでペ
アを構成するメモリセグメントＢに転送し、受信側プロ
セッサモジュールのメモリセグメント管理手段は、メモ
リセグメントペア（Ａ，Ｂ）の解放要求に対して、その
メモリセグメントペア（Ａ，Ｂ）を解放して受信側プロ
セッサモジュールで再利用すること等に特徴がある。ま
た、各分散共有メモリは、その分散共有メモリが属する
プロセッサモジュールが送信または受信するデータを記
憶するメモリセグメントに相当する容量のメモリのみを
実装することに特徴がある。さらに、送信側プロセッサ
モジュールと受信側プロセッサモジュールとが同一であ
るローカル転送データと、送信側プロセッサモジュール
と受信側プロセッサモジュールとが異なるリモート転送
データを識別する手段（図６の６０−１、６０−２）を
具備し、ローカル転送データの場合とリモート転送デー
タの場合とで、異なる数のメモリセグメントを割り当
て、ローカル転送データの場合には同一のメモリセグメ
ントを用い、送信スレッドが直接、データを書こ込み、
受信スレッドが直接、そのデータを読み出すことに特徴
がある。

【０００５】

【作用】本発明においては、分散共有メモリは、全ての
プロセッサモジュール間で同一のアドレスが割り付けら
れ、分散共有メモリ内の複数のメモリセグメントは送信
プロセッサモジュールと受信プロセッサモジュールの組
み合わせで指定される管理単位毎に分類され、各メモリ
セグメントは送信プロセッサモジュールまたは受信プロ
セッサモジュールの何れかによって捕捉、解放の管理が
行われる。従って、各プロセッサモジュール毎に管理さ
れるメモリセグメントが異なるので、異なる二つの送信
プロセッサモジュールから、同一受信プロセッサモジュ
ール宛てにデータ通信要求が同時に発生しても、各送信
側プロセッサモジュールが、互いに重複しないメモリセ
グメントを捕捉することができ、プロセッサモジュール
間でメモリセグメント捕捉のための競合処理が不要とな
る。従って、性能低下や性能ボトルネックを回避するこ
とができる。捕捉されたメモリセグメント内のデータ
は、データ転送機構によって受信側の分散共有メモリ
の、送信側と同一アドレスのメモリセグメントに書き込
まれ、受信スレッドによってメモリセグメントからデー
タが読み出される。受信側プロセッサモジュールは、上
記メモリセグメントが不要となった時、受信側プロセッ
サモジュールで解放して再利用するか、あるいは送信プ
ロセッサモジュールに通知し、送信プロセッサモジュー
ルで解放して再利用する。このように、送信側でのメッ
セージバッファ捕捉に伴い、自動的に受信側のメッセー
ジバッファ捕捉もなされるので、受信側のメッセージバ
ッファ捕捉のオーバヘッドがなくなる。また、各プロセ
ッサモジュールは、自分がデータ送受信に使用する全て
の受信プロセッサ対応の分散共有メモリのみを実装す
る。これによって、広い共有アドレス空間に対して少な
いメモリ実装量で実現する。また、ローカル転送データ
かリモート転送データかを識別できるようにして、例え
ばローカル転送データ用には多数のメモリセグメント
を、リモート転送データ用には比較的少数のメモリセグ
メントを割り当てることにより、ローカル転送データに
ついては物理的な転送や複写を不要にするとともに、ロ
ーカル／リモート転送データのトラヒック・アンバラン
スにも柔軟に対処できる。

【０００６】

【実施例】以下、本発明の一実施例を図面により説明す
る。本実施例は、プロセッサモジュール内およびプロセ
ッサモジュール間でメッセージと呼ばれるデータを送受
信するもので、データを記憶するメモリセグメントをメ
ッセージバッファと称して説明する。図３は、本発明の
一実施例における分散共有メモリシステムの構成図であ
る。図３において、１８−１、１８−２はマルチプロセ
ッサシステムにおけるプロセッサモジュール、１９−
１、１９−２はプロセッサ、２０−１、２０−２はそれ
ぞれ対応するプロセッサ１９−１、１９−２から読み書
きアクセス可能なローカルメモリ、２１−１、２１−２
は全プロセッサモジュール間で同一のアドレスを与えら
れた分散共有メモリである。但し、プロセッサ１９−１
からアクセスできる分散共有メモリは２１−１のみであ
り、分散共有メモリ２１−２はアクセスできない。同様
に、プロセッサ１９−２からアクセスできる分散共有メ
モリ２１−２のみであり、分散共有メモリ２１−１には
アクセスできない。２２−１、２２−２はそれぞれ分散
共有メモリ２１−１、２１−２上に配置されたメッセー
ジエリア群で、両者とも同じアドレスを持つものとす
る。２３−１、２３−２はメッセージ転送装置で、メッ
セージ同期化ならびにプロセッサモジュール間のメッセ
ージ転送を行う。２４−１、２４−２はプロセッサモジ
ュール間でメッセージ転送を行うための要求を記憶する
キュー（待ち行列）でモジュール間転送要求キュー（Ｉ
ＰＱと略す）と呼ぶ。ＩＰＱ２４−１、２４−２はそれ
ぞれ、他プロセッサモジュールへの要求を記憶する要求
出力キュー（ＩＰＯＱと域す）２５−１、２５−２と、
自プロセッサモジュールおよび他プロセッサモジュール
からの要求を記憶する要求入力キュー（ＩＰＩＱと略
す）２６−１、２６−２より構成される。２７−１、２
７−２は、メッセージ等を一時的に記憶するキュー（待
ち行列）で、メッセージバッファキュー（ＭＢＱと略
す）と呼ぶ。ＭＢＱ２７−１、２７−２はそれぞれ、自
プロセッサモジュールからのメッセージを記憶する出力
メッセージバッファキュー（ＭＢＯＱと略す）２８−
１、２８−２と、他プロセッサモジュールからのメッセ
ージを記憶する入力メッセージバッファキュー（ＭＢＩ
Ｑと略す）２９−１、２９−２より構成される。３０−
１、３０−２はそれぞれ、分散共有メモリ２１−１、２
１−２とＭＢＱ２７−１、２７−２との間のデータ転
送、あるいは自プロセッサモジュールのＭＢＱ２７−
１、２７−２と他プロセッサモジュールのＭＢＱとの間
のデータ転送を司る転送制御部である。３２はモジュー
ル間通信路で、指定された宛先のプロセッサモジュール
に情報を転送する。３３−１、３３−２はメッセージ同
期化機構で、送信ストレッドあるいは受信ストレッドの
うち、先に実行されたストレッドに関して、そのメッセ
ージ送信要求または受信要求を記憶しておき、残りの一
方のストレッドが実行されるまで待ち合わせる機能を有
する。５４−１、５４−２は、同期待ちバッファ（ＳＷ
Ｂ）で、送信要求あるいは受信要求を記憶しておく部分
である。

【０００７】図１は、本発明の一実施例における分散共
有メモリ内のメッセージバッファの配置を示す図であ
る。図１において、分散共有メモリ２１−３（図３では
図示省略）は第３番目のプロセッサモジュール１８−３
（図３では図示省略）内の分散共有メモリを指す。ま
た、各分散共有メモリ２１−１〜２１−３は、同一の物
理アドレスが割り付けられているものとする。本実施例
では、各メッセージバッファを識別するために、「Ｍｉ
ｊ−ｋ」という識別名を用いる。「Ｍ」は、その所属す
るプロセッサモジュールの識別名で、プロセッサモジュ
ール１８−１〜１８−３に対応して「Ｘ、Ｙ、Ｚ」とい
う名前が与えられている。「ｉ」および「ｊ」は、メッ
セージ送受信に関わるプロセッサモジュールの識別番号
で、プロセッサモジュール１８−１〜１８−３に対応し
てそれぞれ「１、２、３」という名前が与えられてい
る。「ｋ」は同一エリア内での複数個のメッセージバッ
ファを識別するためのもので、１から順に値が割りふら
れている。例えば、Ｚ１３−２は、分散共通メモリ２１
−３内に実装されたメッセージバッファで、１番目と３
番目のプロセッサモジュールとの間で対応するメッセー
ジバッファ４個（Ｚ１３−１〜Ｚ１３−４）のうち、２
番目のバッファを表わす。分散共有メモリ内のメッセー
ジバッファ群は（ａ）リモートメッセージ送受信用、
（ｂ）ローカルメッセージ送受信用の２種類に大別され
る。リモートメッセージ送受信用のメッセージバッファ
は、あるプロセッサモジュールから他のプロセッサモジ
ュールへ転送されるメッセージを記憶するエリアで、ｉ
≠ｊとなるメッセージバッファである。例えば、１番目
のプロセッサモジュール１８−１の分散共有メモリ２１
−１内ではリモートメッセージ送受信用メッセージバッ
ファはＸ１２−１〜Ｘ１２−４、Ｘ１３−１〜Ｘ１３−
４であり、このうち、２番目のプロセッサモジュール１
８−２との送受信用メッセージバッファはＸ１２−１〜
Ｘ１２−４で、３番目のプロセッサモジュール１８−３
との送受信用メッセージバッファはＸ１３−１〜Ｘ１３
−４である。ローカルメッセージ送受信用メッセージバ
ッファは、自プロセッサモジュール内で送受信されるメ
ッセージを記憶するエリアで、ｉ＝ｊとなるメッセージ
バッファである。ローカルメッセージ送受信用メッセー
ジバッファは、送受信スレッドから直接アクセス可能な
共有メモリ空間に配置されているので、送信スレッドが
直接、メッセージを書き込んだ後、受信スレッドが同一
のメッセージバッファから直接、メッセージを読み出す
ようにしてメッセージの物理的な転送や複写を不要にし
ている。一般に、ローカルメッセージのトラヒックが特
定プロセッサモジュール宛のリモートメッセージのトラ
ヒックより多いことを考慮して、プロセッサモジュール
当たりのローカルメッセージバッファの数を他のプロセ
ッサモジュール宛のメッセージバッファの数よりも多く
設定する。例えば、図１では、分散共有メモリ２１−１
内でローカル受信用メッセージバッファは６個のメッセ
ージバッファＸ１１−１〜Ｘ１１−６が用意されてお
り、これらの数（＝６）は、プロセッサモジュール１８
−２との送受信用メッセージバッファＸ１２−１〜Ｘ１
２−４の数（＝４）よりも多く設定されている。各分散
共有メモリは実効的に必要とされるメモリ量、すなわ
ち、自プロセッサが送受信するのに必要なメッセージバ
ッファのみが実装されている。より具体的には、図１の
ハッチ部分が実装されている部分、例えば分散共有メモ
リ２１−１に実装されているメッセージバッファはＸ１
２−１〜Ｘ１２−４、Ｘ１３−１〜Ｘ１３−４、Ｘ１１
−１〜Ｘ１１−６であり、それ以外のエリアにはメモリ
が実装されていない。

【０００８】二つのメッセージバッファのｉ，ｊ，ｋの
値がそれぞれ一致し、Ｍが異なるメッセージバッファが
ペアを構成する。これらは、異なる分散共有メモリ内の
同一の物理アドレスのロケーションに配置される。例え
ば、図１において、メッセージバッファＸ１２−１とＹ
１２−１はペアを構成し、互いに同じ物理アドレスを有
する。各ペアは、初期設定時に送信側プロセッサモジュ
ールのカーネルまたは受信側プロセッサモジュールのカ
ーネルの何れかによって、互いに重複しないように管理
されている。例えば、プロセッサモジュール１８−１、
１８−２間の送受信メッセージバッファペア群（Ｘ１２
−１、Ｙ１２−１）、（Ｘ１２−２、Ｙ１２−２）は初
期設定時にプロセッサモジュール１８−１のカーネルに
よって管理され、残りのペア群（Ｘ１２−３、Ｙ１２−
３）、（Ｘ１２−４、Ｙ１２−４）は初期設定時にプロ
セッサモジュール１８−２のカーネルによって管理され
る。他のメッセージバッファペア群についても、同様に
ペア毎に唯一つのカーネルによって管理されている。管
理の具体的な方法としては、各カーネルは、自分が管理
している未使用のメッセージバッファペアの情報をロー
カルメモリ２０−１、２０−２内にリスト形式で記憶し
ておき、ペアの捕捉要求に対しては、リストから一つ取
り出してリストから外す。また、ペアの解放要求に対し
ては、管理リストに追加し、再使用する。各カーネル
は、ペアの捕捉、解放の責任を通信相手のカーネルに譲
る場合がある。例えば、プロセッサモジュール１８−
１、１８−２間の送受信メッセージバッファペア（Ｘ１
２−１、Ｙ１２−１）に対して初期設定時に、プロセッ
サモジュール１８−１のカーネルが管理責任を有してお
り、このペアを捕捉したものと仮定する。メッセージが
Ｘ１２−１に書き込まれると、最終的に受信プロセッサ
モジュール１８−２のＹ１２−１に届き、そのメッセー
ジを読み出して処理が終わると、メッセージバッファペ
ア（Ｘ１２−１、Ｙ１２−１）を解放する必要がある。
この解放は受信側カーネルまたは送信側カーネルで行わ
れる。受信側カーネルが解放する場合は、受信側カーネ
ルの未使用メッセージバッファペアの管理リストに登録
し、送信側カーネルで行う場合には、受信側カーネルが
送信側カーネルに通知し、送信側カーネルが自分の未使
用メッセージバッファペアの管理リストに登録する。こ
のようにして、登録されたプロセッサモジュールでメッ
セージバッファの再利用が行われる。

【０００９】図４は、本発明の一実施例におけるメッセ
ージの先頭に付加するヘッダの情報フォーマットを示す
図である。これらの情報は、後述するメッセージ送信要
求あるいは受信要求の情報フォーマットと同一である。
このヘッダ情報は、図４に示すように、ワード単位に分
割されてメッセージ転送装置２３内のキュー（ＩＰＩＱ
２６、ＩＰＯＱ２５）内に一時記憶される。自プロセッ
サモジュール内あるいは他プロセッサモジュールに転送
されて使用される。図４で、７９は受信スレッドＩＤフ
ィールドで、メッセージを受信するスレッドの識別番号
であり、その上位ビットは受信プロセッサモジュール番
号、下位ビットは受信プロセッサモジュール内のスレッ
ド番号を表わす。８０はメッセージバッファ（ＭＢ）論
理アドレスフィールドで、分散共有メモリにおけるメッ
セージバッファの先頭の論理アドレスを表示するもの
で、送信スレッドから受信スレッドにメッセージの所在
場所を知らせるためのソフトウェアレベルの情報であ
る。８１はメッセージサイズフィールドでメッセージ本
体の長さを表わす。８２はメッセージバッファ（ＭＢ）
物理アドレスフィールドで、分散共有メモリにおけるメ
ッセージバッファの先頭の物理アドレスを示し、送受信
プロセッサモジュールのメッセージ転送装置が分散共有
メモリへハードウェアレベルでアクセスする際に使用す
る。８３は送信スレッドＩＤフィールドで、メッセージ
を送信するスレッドの識別番号を表わし、その上位ビッ
トは送信プロセッサモジュール番号、下位ビットは送信
プロセッサモジュール内のスレッド番号を表わす。８４
はカーネルコマンドフィールドで、異なるプロセッサモ
ジュールのカーネル間でやりとりするコマンド情報が含
まれる。

【００１０】図５は、本発明の一実施例におけるローカ
ルメッセージ送受信のソフトウェア制御シーケンス図で
あって、送信スレッドが受信スレッドよりも先に実行さ
れる場合を表わす。図５でカーネル６０−１、６０−２
は、各プロセッサモジュールのローカルメモリ２０−
１、２０−２に存在し、自プロセッサモジュール内に存
在するスレッドの実行制御、メッセージバッファの管理
等を行うものである。図６は、本発明の一実施例におけ
るリモートメッセージ送受信のソフトウェア制御シーケ
ンス図であって、図５と同様、送信スレッドが受信スレ
ッドよりも先に実行される場合を表わしている。

【００１１】以下、ローカルメッセージとリモートメッ
セージ各々のケースについて図１、図３〜図６を用いて
説明する。（１）ローカルメッセージ通信の実施例（ａ）送信側の処理プロセッサモジュール１８−１内の送信スレッドから同
じプロセッサモジュール１８−１内の受信スレッドにロ
ーカルメッセージを転送する場合を仮定する。送信スレ
ッドと受信スレッドは互いに非同期に実行されるため、
その実行順序はいろいろなケースが考えられるが、ここ
では簡単のため、送信スレッドが受信スレッドよりも先
に実行される図５のケースを仮定する。図５において、
カーネル６０−１が次に実行すべきスレッドとして送信
スレッドを選択すると、ステップ２０１で送信スレッド
を起動する。ステップ２０２で送信スレッドは、受信ス
レッドＩＤ情報（図４の７９）とともにメッセージバッ
ファ（ＭＢ）捕捉要求をカーネルに送る。カーネルは受
信スレッドＩＤ７９の上位ビットを参照し、自プロセッ
サモジュール番号と一致すればローカルメッセージ、一
致しなければリモートメッセージと判定する。本実施例
ではローカルメッセージなので、カーネルは、リスト形
式で管理しているローカルメッセージ送受信用メッセー
ジバッファ（図３のＸ１１−１〜Ｘ１１−６）のうち、
リストの先頭に登録されている空きのメッセージバッフ
ァ（例えばＸ１１−１）を捕捉し、ステップ２０３（Ｍ
Ｂ確保通知）で、その論理アドレスを送信スレッドに通
知する。送信スレッドはステップ２０４でメッセージバ
ッファＸ１１−１にメッセージを書き込み、ステップ２
０５でカーネルにメッセージ送信トラップを発行する。
カーネルはステップ２０６ａで送信要求をメッセージ転
送装置２３−１に送って起動すると、メッセージ転送装
置２３−１内のメッセージ同期化機構３３−１は、送ら
れてきた要求がローカルメッセージの送信要求であるこ
とを識別し、ステップ２０６ｂで同期待ちバッファ（Ｓ
ＷＢ）５４−１内に、対応する受信要求が登録されてい
るかどうかをチェックする。この時点では、まだ登録さ
れていないので同期待ちバッファ５４−１に送信要求を
登録し、ステップ２０７でカーネルに戻る。カーネルは
ステップ２０８で送信トラップを終了し、ステップ２０
９で送信スレッド全体の処理が終了する。

【００１２】（ｂ）受信側の処理その後、カーネル６０−１は次に実行すべきスレッドと
して受信スレッドを選択すると仮定する。ステップ２１
３で受信スレッドを起動すると、ステップ２１４で受信
スレッドが受信トラップを発行する。カーネルはステッ
プ２１５（同期化チェック）でメッセージ転送装置２３
−１をアクセスし、相手側（送信側）の要求が到着して
いるかどうかをチェックする。メッセージ転送装置２３
−１内メッセージ同期化機構３３−１は、対応する送信
要求が同期待ちバッファ５４−１内に登録されているか
どうかをチェックする。この時点では登録されているの
で、受信要求の情報と同期待ちバッファ５４−１内の送
信要求の情報を合わせて同期済み情報を作成し、ステッ
プ２１６でカーネルに通知する。カーネルはステップ２
１７で受信トラップを終了し、受信スレッドはステップ
２１８でＭＢ２２−１からメッセージを読み出し、必要
な処理を行った後、ステップ２１９でメッセージバッフ
ァＸ１１−１のアドレス情報と併せてＭＢ解放要求をカ
ーネルに送る。カーネルは、指定されたメッセージバッ
ファＸ１１−１を空きバッファ管理リストの最後に登録
する。この後、ステップ２２０で送信トラップを終了
し、ステップ２２１で処理を終了する。このように、ロ
ーカルメッセージの場合、分散共有メモリを介して送信
スレッドが確保したメッセージバッファをコピーした
り、移動したりせずに、受信スレッドがそのまま使用で
きるようにしている。

【００１３】（２）リモートメッセージ通信の実施例（ａ）送信側の処理プロセッサモジュール１８−１内の送信スレッドから他
のプロセッサモジュール１８−２内の受信スレッドにリ
モートメッセージを転送する場合を仮定する。さらに、
ローカルメッセージ通信の実施例と同様に、送信スレッ
ドが受信スレッドよりも先に実行される図６のケースを
仮定する。また、プロセッサモジュール１８−２との送
受信用のメッセージバッファペア（図３の（Ｘ１２−
１，Ｙ１２−１）、（Ｘ１２−２，Ｙ１２−２）、（Ｘ
１２−３，Ｙ１２−３）、（Ｘ１２−４，Ｙ１２−
４））のうち、この時点ではプロセッサモジュール１８
−１が管理しているペアは（Ｘ１２−１，Ｙ１２−
１）、（Ｘ１２−２，Ｙ１２−２）で、プロセッサモジ
ュール１８−２が管理しているペアは（Ｘ１２−３，Ｙ
１２−３）、（Ｘ１２−４，Ｙ１２−４）であると仮定
する。図６で、カーネル６０−１が次に実行すべきスレ
ッドとして送信スレッドを選択すると、ステップ３０１
で送信スレッドを起動する。ステップ３０２で送信スレ
ッドは、受信スレッドＩＤ情報（図４の７９）とともに
メッセージバッファ（ＭＢ）捕捉要求をカーネルに知ら
せる。カーネルは受信スレッドＩＤ７９の上位ビットを
参照して、プロセッサモジュール１８−２宛のリモート
メッセージであることを識別し、メッセージバッファリ
ストの先頭に登録されている空きのメッセージバッファ
ペアの一つ（例えば（Ｘ１２−１，Ｙ１２−１））を捕
捉し、ステップ３０３で、Ｘ１２−１の論理アドレスを
送信スレッドに通知する。送信スレッドはステップ３０
４でメッセージバッファＸ１２−１にメッセージを書き
込み、ステップ３０５でカーネルにメッセージ送信（ト
ラップ）を要求すると、カーネルは、ステップ３０６で
送信要求をメッセージ転送装置２３−１に送る。メッセ
ージ転送装置２３−１内のメッセージ同期化機構３３−
１は、送られてきた要求がリモートメッセージの送信要
求であることを識別して送信要求を要求出力キュー（Ｉ
ＰＯＱ）２５−１に登録し、ステップ３０７でカーネル
に登録終了を通知する。このＩＰＯＱ２５−１はＦＩＦ
Ｏ(First In First Out)構造になっており、登録した要
求は転送制御部３０−１が順次処理していく（ステップ
３０８（送信要求の移送））。ステップ３０９で、着目
しているリモート送信要求の処理の順番がくると、転送
制御部３０−１はＩＰＯＱ２５−１内の送信要求をメッ
セージヘッダ情報としてＭＢＯＱ２８−１に送る。引き
続き転送制御部３０−１はＩＰＯＱ２５−１内の送信要
求に基づいてメッセージバッファＸ１２−１内のメッセ
ージをＭＢＯＱ２８−１内の転送データ（メッセージヘ
ッダ＋メッセージ本体）が準備されたことになるので、
転送制御部３０−１は、ステップ３２０で、モジュール
間通信路３２にメッセージを送り出す。モジュール間通
信路３２では、メッセージヘッダ中の受信スレッドＩＤ
７９の上位ビットを参照して受信プロセッサモジュール
を識別し、受信プロセッサモジュール１８−２にルーチ
ングして、そのＭＢＩＱ２９−２に転送データを送り届
ける。一方、送信側のカーネルはステップ３１０で送信
トラップを終了し、送信スレッドはステップ３１１で処
理を終了する。

【００１４】（ｂ）受信側の処理受信側ＭＢＩＱ２９−２内のメッセージヘッダ情報７９
−８４のうち、ＭＢ物理アドレス８２の値はメッセージ
バッファＸ１２−１のアドレスを示しているが、この値
は、ペアをなす受信側分散共有メモリ２１−２のメッセ
ージバッファＹ１２−１のアドレスと等しい。従って、
受信プロセッサモジュール１８−２の転送制御部３０−
２は、図６のステップ３２１で２９−２内のメッセージ
本体をメッセージバッファＹ１２−１にメッセージサイ
ズ３２で指定された分、転送することになる。これは、
物理アドレスは同一で、かつ物理的には異なる二つの分
散共有メモリ間でデータのコピーが行われたことを意味
する。このように、送信側の分散共有メモリにメッセー
ジを転送することにより、カーネル６０−１によるメッ
セージバッファ割り当ての処理を不要にしている。次
に、転送制御部３０−２はステップ３２２で受信側のメ
ッセージ同期化機構３３−２を起動し、ＭＢＩＱ２９−
２に到着した送信要求に対応する受信要求が同期待ちバ
ッファ（ＳＷＢ）５４−２に登録されているかどうかを
チェックする。この時点では登録されていないので、ス
テップ１９４でこの送信要求を同期待ちバッファ（ＳＷ
Ｂ）５４−２に登録する。一方、受信側プロセッサモジ
ュールのカーネル６０−２は、受信スレッドを実行する
段階になると、ステップ３２４で受信スレッドを起動す
る。受信スレッドはステップ３２５でカーネルに受信ト
ラップを発行する。カーネルはステップ３２６で、対応
する送信要求が同期待ちバッファ（ＳＷＢ）５４−２に
登録されているかどうかをチェックする。この時点では
登録されているので、ステップ３２７でメッセージ転送
装置から同期済みの要求を読み出す。その後、ステップ
３２８で呼び出し元の受信スレッドに戻り、受信スレッ
ドはメッセージが到着していることを知り、ステップ３
２９でメッセージの読み出しを開始し、対応する処理を
行う。その後、カーネルはステップ３３０でＭＢ解放要
求の情報をカーネルに登録し、ステップ３３１でカーネ
ルの処理を終了し、ステップ３３２で受信スレッド処理
を完了する。

【００１５】その後、カーネル６０−２はＭＢ解放要求
登録情報を参照して、送信スレッドＩＤ情報を基にメッ
セージを送信したプロセッサモジュール番号を求め、こ
のプロセッサモジュール対応に記憶されている未使用メ
ッセージバッファペアの管理リストを参照し、予め規定
された数以上のペアが記憶されているかチェックする。
もし、規定値より小さければ、この未使用メッセージバ
ッファペアの管理リストに登録し、次回の再利用に備え
る。もし、規定値以上になれば、これは、自分が再利用
できるメッセージバッファのペアは多数あるが、通信相
手のプロセッサモジュールでは再利用できるメッセージ
バッファのペアは不足している状態を表わしているの
で、相手側プロセッサモジュールに未使用メッセージバ
ッファペアの再利用権を譲るために、受信側カーネル６
０−２が相手側プロセッサモジュール１８−１にＭＢ解
放要求メッセージを送る。具体的には、相手側プロセッ
サモジュール１８−１宛のリモートメッセージ送信用メ
ッセージバッファペアの一つ（例えば（Ｘ１２−３、Ｙ
１２−３））を補捉し、ステップ３４０でＹ１２−３
に、解放したい全てのメッセージバッファペアの論理ア
ドレスをまとめて書き込む。なお、ＭＢ解放要求メッセ
ージのメッセージヘッダは以下のように作成する。図４
に示したフォーマットと対応させて述べると、受信スレ
ッドＩＤフィールド７９の上位ビットは、ＭＢ解放要求
メッセージを受信するプロセッサモジュール１８−１の
番号とし、下位ビットは、そのカーネル６０−１のＩＤ
とする。また、ＭＢ論理アドレスフィールド８０の内容
は、ＭＢ解放要求メッセージを書き込んだＭＢ（Ｙ１２
−３）の論理アドレスメッセージサイズフィールド８１
と同じであって、「Ｙ１２−３内のメッセージサイズ」
を示す。また、ＭＢ物理アドレスフィールド８２の内容
は、Ｙ１２−３の物理アドレスとする。また、送信スレ
ッドＩＤフィールド８３の上位ビットは、ＭＢ解放要求
メッセージを送信するプロセッサモジュール１８−２の
番号とし、下位ビットは、そのカーネル６０−２のＩＤ
とする。また、カーネルコマンドフィールド８５の内容
は、メッセージバッファ解放要求の指示コマンドとす
る。

【００１６】以上のメッセージヘッダとメッセージ本体
を、プロセッサモジュール間で転送する。即ち、ステッ
プ３４１でメッセージ転送装置２３−２に転送要求を送
り、ステップ３４２、３４３で転送要求（メッセージヘ
ッダ）とメッセージ本体をＭＢＯＱ２８−２に取り出
し、それらをステップ３４４で相手プロセッサモジュー
ル１８−１のメッセージ転送装置２３−１に送り込む。
また、ステップ３４５でメッセージ転送装置２３−２は
カーネル６０−２に転送終了通知を行なう。一方、メッ
セージ転送装置２３−１はステップ３４６でメッセージ
を、指定されたメッセージバッファＸ１２−３に転送
し、メッセージヘッダ内のカーネルコマンドフィールド
８４を見て、メッセージバッファペア（（Ｘ１２−１、
Ｙ１２−１）等）を次々と未使用バッファ管理リストに
登録することにより、解放処理を行ない、ステップ３４
７で転送終了通知をカーネル６０−１に行なう。このよ
うにカーネル間のメッセージ転送では、送信、受信間の
同期を必要とせず、メッセージの転送のみでカーネル間
の同期がとれるようにしてカーネル間のメッセージ転送
の効率を上げている。なお、この際、ＭＢ解放要求に使
用したメッセージバッファペア（Ｘ１２−３、Ｙ１２−
３）も一緒に未使用バッファ管理リストに登録してお
く。上記実施例は、プロセッサモジュール内のプロセッ
サが１台の場合を説明したが、２台以上の場合でも、カ
ーネルが、自己の属するプロセッサモジュールから送信
するメッセージのためのメッセージバッファを一元管理
する限り、上記と全く同様の方法で実現できる。また、
ＭＢ解放要求メッセージの内容としてＭＢ論理アドレス
を使用したが、ＭＢ物理アドレス等、ＭＢを一意に識別
できる手段ならば、何でもよい。さらに、上記実施例で
は、送信プロセッサモジュールと受信プロセッサモジュ
ールのペアで分類されたメッセージバッファ群が、連続
したメモリロケーションに配置された場合を説明した
が、これらは、必ずしも連続エリアに配置する必要はな
く、リスト構造等により、メッセージバッファ単位で分
散共有メモリ上の任意のエリアに配置することができ
る。

【００１７】次に、各プロセッサモジュールに最低必要
な分散共有メモリの実装量を算出する。Ｓ＝メッセージバッファサイズ（バイト）Ｒ＝送信、受信プロセッサモジュールの組み合わせごと
に必要なリモートメッセージ用送受信メッセージバッフ
ァの面数Ｌ＝プロセッサモジュールあたり必要なローカルメッセ
ージ用送受信メッセージバッファの面数Ｐ＝システムあたりのプロセッサモジュール数とした場合、各プロセッサモジュールでローカルメッセ
ージ用にＳＬ、リモートメッセージ用にＳＲ（Ｐ−１）
の実装量が必要なので、各プロセッサモジュールあたり
必要な分散共有メモリの実送量Ｃ１は、次のように表わ
せる。Ｃ１＝Ｓ（Ｌ＋Ｒ（Ｐ−１））一方、共有空間全体のサイズは、アドレスローカルメッ
セージ用にＳＬＰ、リモートメッセージの送信用バッフ
ァと受信用バッファのアドレス空間が重複していること
を考慮して、リモートメッセージ送受信用にＳＲ（Ｐ−
１）Ｐ／２のサイズが必要となり、共有空間全体サイズ
Ｃ２は、Ｃ２＝ＳＰ（Ｌ＋Ｒ（Ｐ−１）／２）となる。したがって各プロセッサの共有分散メモリの実
装量の縮小比率ｒは、Ｐの値が充分大きい場合には、ｒ＝Ｃ１／Ｃ２≒２／Ｐとなる。本実施例によれば、プロセッサモジュールが多
いほど、メモリ量削減効果が大きいことがわかる。

【００１８】

【発明の効果】本発明によれば、分散共有メモリは、送
信プロセッサモジュールと受信プロセッサモジュールの
組み合わせ毎に対応して分割されており、各プロセッサ
モジュールからメッセージを送信する場合に、自プロセ
ッサモジュールを送信元とする受信プロセッサモジュー
ル対応のエリアを使用する。その結果、異なる二つの送
信プロセッサモジュールから、同一受信プロセッサモジ
ュールにメッセージ通信要求が同時に発生しても、互い
に使用するメッセージバッファが重複することはなく、
メッセージバッファ確保のための競合処理に伴う性能低
下や性能ボトルネックを回避することができる。また、
送信側と受信側で同一アドレスのメッセージバッファを
使用しているので、送信側でメッセージバッファを捕捉
すると、受信側でメッセージバッファを自動的に捕捉し
たことになり、従来、必要であった受信側のメッセージ
バッファ捕捉のオーバヘッドを除去できる。さらに、各
プロセッサモジュールは、自プロセッサモジュールで使
用する分散共有メモリのみを実装すればよく、広い共有
アドレス空間に対しても少ないメモリ実装量で実現する
ことが可能となる。さらに、ローカルメッセージかリモ
ートメッセージかを識別できるようにして、例えばロー
カルメッセージ用には多数のメッセージバッファを、リ
モートメッセージ用には比較的少ない数のメッセージバ
ッファを自由に割り当てられるようにして、ローカル転
送データについては物理的な転送や複写を不要にすると
ともに、ローカル／リモートメッセージのトラヒック・
アンバランスにも柔軟に対処できる。なお、本発明は、
メッセージの転送やメッセージバッファと言う特殊な応
用に限定されるものではなく、一般のデータの転送と、
それらのデータを記憶するデータセグメントへの応用に
適用できることは言うまでもない。例えば、リスト処理
におけるリスト構造や仮想記憶システムにおけるページ
等をプロセッサモジュール間で転送する場合は、その一
例である。

【図面の簡単な説明】

【図１】本発明の一実施例における分散共有メモリ内の
メッセージバッファの配置を示す図である。

【図２】従来の分散共有メモリシステムの構成例図であ
る。

【図３】本発明の一実施例における分散共有メモリシス
テムの構成図である。

【図４】本発明の一実施例におけるメッセージの先頭に
付加するヘッダの情報フォーマットを示す図である。

【図５】本発明の一実施例におけるローカルメッセージ
送受信のソフトウェア制御シーケンス図である。

【図６】本発明の一実施例におけるリモートメッセージ
送受信のソフトウェア制御シーケンス図である。

【符号の説明】

１８−１，１８−２：プロセッサモジュール、１９−
１，１９−２：プロセッサ、２０−１，２０−２：ロー
カルメモリ、２１−１，２１−２，２１−３：分散共有
メモリ、２２−１，２２−２：メッセージエリア群、２
３−１，２３−２：メッセージ転送装置、２４−１，２
４−２：モジュール間転送要求キュー（ＩＰＱ）、２５
−１，２５−２：要求出力キュー（ＩＰＯＱ）、２６−
１，２５−２：要求入力キュー（ＩＰＩＱ）、２７−
１、２７−２：メッセージバッファキュー（ＭＢＱ）、
２８−１、２８−２：出力メッセージバッファキュー
（ＭＢＯＱ）、２９−１、２９−２：入力メッセージバ
ッファキュー（ＭＢＩＱ）、３０−１，３０−２：転送
制御部、３２：モジュール間通信路、３３−１、３３−
２：メッセージ同期化機構、５４−１、５４−２：同期
待ちバッファ（ＳＷＢ）、６０−１、６０−２：カーネ
ル、７９：受信スレッドＩＤフィールド、８０：メッセ
ージバッファ（ＭＢ）論理アドレスフィールド、８１：
メッセージサイズフィールド、８２：メッセージバッフ
ァ（ＭＢ）物理アドレスフィールド、８３：送信スレッ
ドＩＤフィールド、８４：カーネルコマンドフィールド

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平６−19785（ＪＰ，Ａ) 特開平４−291660（ＪＰ，Ａ) 村山秀樹、他５名，マルチコンピュータにおけるノード間高速通信アーキテクチャの検討，情報処理学会研究報告，日本，社団法人情報処理学会，1994年３月 11日，Ｖｏｌ．94，Ｎｏ．22，（94−ＡＲＣ−105，94−ＨＰＣ−50），Ｐ．89 −96 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 15/16 - 15/177 G06F 9/46 - 9/54

Claims

(57)【特許請求の範囲】

【請求項１】複数のプロセッサモジュールを接続し、
プロセッサモジュール間でデータを転送するコンピュー
タシステムでの分散共有メモリシステムにおいて、上記プロセッサモジュールには、各プロセッサモジュール間で共通の同一アドレスを有
し、送信側プロセッサモジュールと受信側プロセッサモ
ジュールの組み合わせで指定される管理単位毎に分類さ
れた、複数のメモリセグメントを含む分散共有メモリ
と、送信側と受信側の分散共有メモリの同一アドレスロケー
ションに配置された、該メモリセグメントのペアを単位
として、分散共有メモリの当該エリアを一元管理するメ
モリセグメント管理手段と、所属プロセッサモジュールの分散共有メモリをアクセス
するプロセッサと、転送データの同期化および各プロセッサモジュール間の
データ転送を行うデータ転送手段とを具備するととも
に、各プロセッサモジュール間でデータ転送を行なう際
に、（１）送信側のプロセッサモジュールでは、前記メモリセグメント管理手段が、管理下のメモリセ
グメントペア（Ａ，Ｂ）を捕捉し、前記データ転送手段は、該捕捉したメモリセグメント
Ａ内のデータを、受信側プロセッサモジュールの前記分
散共有メモリ内のメモリセグメントＢ宛に転送し、（２）受信側のプロセッサモジュールでは、前記データ転送手段が、受信したデータを、自プロセ
ッサモジュール内の自分散共有メモリ内のメモリセグメ
ントＢに転送し、前記メモリゼクメント管理手段は、前記メモリセグメ
ントペア（Ａ，Ｂ）を解放して自プロセッサモジュール
で再利用するか、該メモリセグメントペア（Ａ，Ｂ）を
解放して送信側のプロセッサモジュールに再利用させる
ために送信側に通知するか、の何れかを選択・決定する
ことにより、前記メモリセグメントペアを送受信プロセ
ッサモジュールの何れかで一元管理してプロセッサモジ
ュール間のデータ転送を行う如く構成したことを特徴と
する分散共有メモリシステム。
【請求項２】上記分散共有メモリは、該分散共有メモ
リが属するプロセッサモジュールが送受信したデータを
記憶するメモリセグメントに相当する容量のメモリのみ
を実装することを特徴とする請求項１記載の分散共有メ
モリシステム。
【請求項３】上記送信側プロセッサモジュールと受信
側プロセッサモジュールが同一であるローカル転送デー
タと両該プロセッサモジュールが異なるリモート転送デ
ータとを識別する手段を具備し、上記分散共有メモリ
は、ローカル転送用およびリモート転送用のエリアから
なり、該ローカル転送用とリモート転送用で上記メモリ
セグメントの割り当て数が異なることを特徴とする請求
項１または２に記載の分散共有メモリシステム。
【請求項４】複数のプロセッサモジュールを接続し、
プロセッサモジュール間でデータを転送するコンピュー
タシステムでの分散共有メモリシステムにおいて、上記プロセッサモジュールには、各プロセッサモジュール間で共通の同一アドレスを有
し、送信側プロセッサモジュールと受信側プロセッサモ
ジュールの組み合わせで指定される管理単位毎に分類さ
れた、複数のメモリセグメントを含む分散共有メモリ
と、送信側と受信側の分散共有メモリの同一アドレスロケー
ションに配置された、該メモリセグメントのペアを単位
として、分散共有メモリの当該エリアを一元管理するメ
モリセグメント管理手段と、所属プロセッサモジュールの分散共有メモリをアクセス
するプロセッサと、転送データの同期化および各プロセッサモジュール間の
データ転送を行うデータ転送手段とを具備することを特
徴とする分散共有メモリシステム。