JPH11126196A

JPH11126196A - データ転送方法およびそれに適した計算機システム

Info

Publication number: JPH11126196A
Application number: JP9290597A
Authority: JP
Inventors: Yoshiko Yasuda; 淑子保田; Keimei Fujii; 啓明藤井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1997-10-23
Filing date: 1997-10-23
Publication date: 1999-05-11
Anticipated expiration: 2017-10-23
Also published as: US6338095B1; JP3601955B2

Abstract

(57)【要約】【課題】標準ＭＰＩライブラリを介したメモリ間直接転
送を高速化する。【解決手段】送信側ＰＵＴ／ＧＥＴライブラリは、ユー
ザプロセスがＭＰＩライブラリに対して発行したデータ
送信要求コマンドに応答して転送制御情報２００を生成
する。送信側ネットワークインタフェース回路は、その
中の送信データアドレスと送信フラグアドレスを用いて
それぞれユーザデータ７１３とＭＰＩライブラリにより
使用されるユーザデータに対応する付加情報７１４をロ
ーカルメモリ３０４から読み出し、一つのメッセージ７
０５としてネットワーク１０５に送出し、送信完了フラ
グ７１５を送信フラグアドレスを用いて書き込む。受信
側のネットワークインタフェース回路は、メッセージ内
の受信データアドレスと受信フラグアドレスで指定され
るローカルメモリ領域７２１、７２２にそれぞれユーザ
データと付加情報を書き込み、受信完了フラグ７２３を
領域７２３に書き込む。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、相互結合ネットワ
ークを介して接続された複数の要素プロセッサ間でのデ
ータ転送方法およびそれに適した計算機システムに関す
る。

【０００２】

【従来の技術】従来、並列計算機は、ローカルメモリと
命令プロセッサから構成される複数の要素プロセッサを
相互結合ネットワークで結合した構成をとっている。一
般に、このような形態の並列計算機は、分散メモリ型並
列計算機と呼ばれる。各要素プロセッサは、相互結合ネ
ットワークを介して個々のローカルメモリに格納されて
いるデータの授受を行い、並列に処理を実行する。

【０００３】一般に、分散メモリ型の並列計算機では、
メッセージパッシングと呼ぶプログラミングモデルを用
いてデータ転送を実現する。メッセージパッシングモデ
ルでは、ユーザが並列プログラム中に明示的に送信（Ｓ
ＥＮＤ）手続きおよび受信（ＲＥＣＥＩＶＥ）手続きを
記して、要素プロセッサ間で必要になるデータの授受を
メッセージのやりとりという形で行う。命令プロセッサ
はこれらの通信手続きを解析して、相互結合ネットワー
クにデータを送信したり、相互結合ネットワークからデ
ータを受信しながら処理を進める。送信元の要素プロセ
ッサは、転送先の要素プロセッサ番号を指定してメッセ
ージを転送し、転送先の要素プロセッサでメッセージを
バッファリングする。メッセージパシングモデルでは、
メッセージ通信に伴ってデータのバッファリングやフロ
ー制御が必要となり、送受信オーバヘッドが大きくなっ
てしまう。

【０００４】この送受信オーバヘッドを削減するため
に、近年複数の並列計算機において、要素プロセッサの
ローカルメモリの内容を、メッセージの生成あるいは受
信を行う送受信回路が直接アクセスするメモリ間直接転
送方法が使用されている。この方法を実行する代表例
は、ＰＵＴ／ＧＥＴ通信である。例えば、”情報処理学
会並列処理シンポジウムＪＳＰＰ’９５、”ＰＰ．２
３３−２４０（１９９５年５月）参照。メモリ間直接転
送方法では、各要素プロセッサのローカルメモリからの
送信データの読み出しあるいはそのメモリへの受信デー
タの書き込みをメッセージの生成あるいは受信を行う送
受信回路が直接実行するため、これらのデータをＯＳ管
理の領域にコピーする必要がなく、このコピーに由来す
るオーバーヘッドを削減できる。

【０００５】しかしながら、このようなＰＵＴ／ＧＥＴ
通信を実際に実行する通信ライブラリは、各並列計算機
メーカーや研究機関が独自に開発しているため、それを
用いて作成された並列プログラムを他機種へ移植するこ
とは困難であった。この問題点を解決するために、ＭＰ
Ｉ（ＭｅｓｓａｇｅＰａｓｓｉｎｇＩｎｔｅｒｆａ
ｃｅ）に代表される、メッセージパッシングライブラリ
の標準化が進みつつある。ＭＰＩは、米国各大学および
並列計算機メーカーがメッセージパッシングインタフェ
ース標準化団体ＭＰＩＦｏｒｕｍを組織し、その研究
成果をまとめた仕様である。この仕様に基づいて作成さ
れたライブラリ（以下ＭＰＩライブラリと呼ぶことがあ
る）は、今後の並列プログラム開発支援ライブラリの主
流になると考えられる。ＭＰＩライブラリを用いて記述
された並列プログラムは、異機種間で変更なしに走らせ
ることができる。各計算機メーカーは、自社の並列計算
機上で高性能を達成するようにＭＰＩライブラリを開発
している。

【０００６】上記ＭＰＩ仕様は、ＰＵＴ／ＧＥＴ通信に
関する仕様を含んでいない。しかし、データ転送の高速
化のためには、ＰＵＴ／ＧＥＴ通信を併用することが重
要である。このために、並列計算機メーカー等は、ＰＵ
Ｔ／ＧＥＴ通信ライブラリを使用可能にしたＭＰＩライ
ブラリを開発している。たとえば、本出願人による、
「並列計算機ＳＲ２２Ｄ支援ライブラリ」参照。したが
って、ＭＰＩライブラリは、各計算機メーカーごとに異
なるものであるが、ユーザプログラムから見れば、ＭＰ
Ｉライブラリとの間のインタフェースは、いずれの計算
機メーカのＭＰＩライブラリに対しても同じである。従
って、そのユーザプログラムは、いずれの計算機のメー
カの上でも実行できることになる。

【０００７】ＭＰＩライブラリを用いるユーザプログラ
ムは、データを送信する時点で、ＭＰＩライブラリをコ
ールする。従来は、ユーザプログラムがＰＵＴ／ＧＥＴ
通信ライブラリを使用するときには、ユーザプログラム
は送信すべきユーザデータおよびデータ長をこのコール
文の引数でもって指定すればよい。しかし、ＭＰＩライ
ブラリを使用するときには、ユーザプログラムは、この
コール文の中でこのＭＰＩライブラリにより定められた
付加情報を引数としてさらに指定する必要がある。この
付加情報は、送信先のプロセスの識別子、プロセスグル
ープ識別子等を含む固定長のデータであり、メッセージ
の送信先の要素プロセッサにおいて、受信したメッセー
ジがそこで実行中のユーザプロセスが発行する受信要求
が要求したメッセージか否かの識別に使用される。以
下、この情報をＭＰＩ付加情報とも呼ぶ。従来のＭＰＩ
ライブラリとＰＵＴ／ＧＥＴライブラリを併用した通信
方法では、ユーザデータおよびＭＰＩ付加情報を異なる
二つのメッセージにより転送していた。

【０００８】

【発明が解決しようとする課題】従来のように、同じ転
送先プロセッサに対しユーザデータおよびＭＰＩ付加情
報を２つのメッセージとして転送する場合、各メッセー
ジの転送に異なる転送制御情報が必要になる。その結
果、これらの情報の生成も２度行わなければならない。
このために、従来のＭＰＩライブラリを使用したデータ
転送では、ユーザプログラムがデータの転送を要求して
から、実際に転送が開始されるまでの遅延時間（転送レ
イテンシと呼ばれる）が大きい。

【０００９】さらに、これらの２種のデータに対して別
々のメッセージとして送信処理、受信処理を行うと、メ
ッセージ数に比例してローカルメモリに対するアクセス
回数（転送制御情報の読み出し、転送データの読み出
し、フラグの書き込み）が増加してしまう。

【００１０】本発明の目的は、以上の問題を減少させ、
より高速にデータを転送できるデータ転送方法を提供す
ることにある。

【００１１】

【発明を解決するための手段】上記の目的を達成するた
めに、本発明によるデータ転送方法は、送信側の要素プ
ロセッサで走行中のユーザプロセスから発行されたデー
タ送信要求が要求する、送信データとそれに関連する付
加情報とを、送信元のメッセージパッシングライブラリ
から送信元のメモリ間直接転送ライブラリに通知し、そ
のメモリ間直接転送ライブラリにより、上記送信データ
および付加情報と、それらの受信の完了を示す制御情報
を書き込むべき領域を指定するための、受信側の要素プ
ロセッサがあらかじめ決定した受信側アドレス情報とを
含むメッセージの送信をネットワークインタフェース回
路に対して要求し、上記ネットワークインタフェース回
路により、上記メッセージを組立て、受信側の要素プロ
セッサに宛てて上記相互結合ネットワークに送信し、上
記メッセージの送信後に、そのメモリ間直接転送ライブ
ラリが決定したアドレスを有する、上記メモリ内の記憶
位置に送信完了を示す制御情報を上記ネットワークイン
タフェース回路により書き込む。

【００１２】より具体的には、上記メモリ間直接転送ラ
イブラリは、上記付加情報を上記メモリ内の領域に書き
込み、ユーザが指定した送信データの記憶位置を示す第
１のアドレスとそのデータの長さと、上記付加情報の記
憶位置を示す第２のアドレスと、送信先の要素プロセッ
サのメモリにおける、送信データの記憶位置を指定する
第３のアドレスと、上記付加情報を記憶する位置を示す
第４のアドレス等を指定し、これらの情報を含むメッセ
ージの送信を上記ネットワークインタフェース回路に要
求する。

【００１３】この回路は、上記第１のアドレスと上記デ
ータ長により送信データを読み出し、上記第２のアドレ
スにより付加情報を読み出し、これらの送信データ、付
加情報および上記第３，第４のアドレスを含むメッセー
ジを生成し、送信先にあてて送信する。この送信の完了
後に、上記第２のアドレスを使用して、送信完了を示す
制御情報をメモリ内の、上記付加情報の書き込み位置と
異なる位置、具体的には、付加情報が書き込まれた記憶
位置の次の記憶位置に書き込む。

【００１４】さらに、受信側の要素プロセッサにおいて
も、ネットワークインタフェース回路が、上記メッセー
ジ内の上記送信データと付加情報とをそれぞれ上記第
３、第４のメモリアドレスが指定する記憶位置に書き込
むとともに、この書き込みの完了後に、受信完了を示す
制御情報を上記第４のアドレスの基づいて上記付加情報
の書き込み位置と異なる記憶位置に書き込む。

【００１５】本発明のより具体的な態様では、ユーザプ
ロセスが、メッセージパッシングライブラリを介して行
う上記の転送とともに、他のユーザプロセスはメッセー
ジパッシングライブラリを介さないでメモリ間直接転送
ライブラリにデータの送信要求を発行することができる
ようになっている。この場合には、メモリ間直接転送ラ
イブラリとネットワークインタフェース回路は、上に述
べた処理における、付加情報が存在しない場合の処理と
基本的に同じ処理を行う。

【００１６】

【発明の実施の形態】以下、本発明に係る計算機システ
ムを図面に示した実施の形態を参照してさらに詳細に説
明する。

【００１７】＜発明の実施の形態＞図１に、本発明にお
ける並列計算機の概略構成を示す。図中、１０１〜１０
４は並列計算機を構成する要素プロセッサ、１０５は相
互結合ネットワークである。要素プロセッサ１０１〜１
０４は、相互結合ネットワーク１０５に接続し、相互結
合ネットワーク１０５を介して、要素プロセッサ間でデ
ータの授受を行う。相互結合ネットワーク１０５の構成
方法（トポロジ）は、クロスバ結合、格子結合、リング
結合、多段結合等多種存在するが、本発明は、これらの
いずれにも適用可能であり、特定の相互結合ネットワー
クトポロジに限定されない。図３に要素プロセッサ１０
１の概略構成を示す。図中、３０１は命令プロセッサ、
３０２はキャッシュローカルメモリ、３０３はストレー
ジコントローラ、３０４はローカルメモリ、３０５はネ
ットワークインタフェース回路、３０６はＩ／Ｏインタ
フェース回路である。この並列計算機は、個々の要素プ
ロセッサがそれぞれ固有のローカルメモリ３０４を有す
る分散ローカルメモリ型の並列計算機である。

【００１８】各要素プロセッサは、他の要素プロセッサ
との間でメッセージパッシングによる通信を実行するよ
うに構成されている。すなわち、各要素プロセッサは、
標準のメッセージパッシングインタフェース、たとえば
ＭＰＩを有するメッセージパッシングライブラリ（以
下、ＭＰＩライブラリと呼ぶ）と、このライブラリと交
信して自要素プロセッサ内のローカルメモリとの間で直
接データの授受を行うメモリ間直接転送を実行するライ
ブラリとして、ＰＵＴ／ＧＥＴ型通信を実行するための
ライブラリ（以下、ＰＵＴ／ＧＥＴ型ライブラリと呼
ぶ）と、ＰＵＴ／ＧＥＴ型ライブラリからのコマンドに
より起動されるネットワークインタフェース回路３０５
を有している。なお、本発明は、この特定のメッセージ
パッシングライブラリに限定されるのではなく、他のメ
ッセージパッシングライブラリたとえばＰＶＭ、ＰＡＲ
ＭＡＣＳとして知られているライブラリも適用できる。

【００１９】本実施の形態では、各要素プロセッサ内の
ユーザプロセスがＭＰＩライブラリに対してデータ送信
要求を発行したときに、ＭＰＩライブラリ、ＰＵＴ／Ｇ
ＥＴ型ライブラリおよびネットワークインタフェース回
路３０５は、協同してユーザデータとＭＰＩ付加情報を
一つのメッセージにて転送し、さらに他の要素プロセッ
サからユーザデータとＭＰＩ付加情報を含むメッセージ
を受信したときに、ネットワークインタフェース回路３
０５は、これらのデータを区分してローカルメモリに書
き込むところに特徴がある。この付加情報は、ＭＰＩラ
イブラリを介した通信のために使用されるもので、MPI
ライブラリが指定した形式の、データ送信に関連する複
数の情報からなり、それぞれの情報は、ユーザプロセス
により指定される。具体的には、既に例示したように、
この付加情報は、受信側のユーザプロセスの識別子、プ
ロセスグループの識別子等を含む。

【００２０】より具体的には、各要素プロセッサで実行
中のユーザプロセスからＭＰＩライブラリに対する送信
要求が発行されたときに、ＭＰＩライブラリは、その送
信要求が指定するユーザデータと付加情報の送信をＰＵ
Ｔ／ＧＥＴ型ライブラリに要求する。ＰＵＴ／ＧＥＴ型
ライブラリにその送信要求が指定する付加情報をローカ
ルメモリに書き込み、そのユーザデータとＭＰＩ付加情
報の両方を一つのメッセージとして転送するための転送
制御情報を生成し、ローカルメモリ３０４に書き込み、
その後転送制御情報によるユーザデータおよび付加情報
の送信をネットワークインタフェース回路３０５に要求
する。

【００２１】ネットワークインタフェース回路３０５
は、この送信要求に応答して、転送制御情報に従ってユ
ーザデータとＭＰＩ付加情報を含む一つのメッセージを
組み立て、受信側の要素プロセッサに相互結合ネットワ
ーク１０５を介して転送する。受信側の要素プロセッサ
では、ネットワークインタフェース回路３０５は、この
メッセージを受信すると、メッセージに含まれたユーザ
データおよびＭＰＩ付加情報をメッセージのヘッダ内の
転送制御情報が指定するローカルメモリ内の二つのアド
レスに書き込み、それぞれを受信側のユーザプロセスお
よび受信側のＭＰＩライブラリに引き渡す。

【００２２】図２に転送制御情報の例を示す。転送制御
情報２００には、ＧＥＴあるいはＰＵＴ動作の場合に使
用される転送先プロセッサ番号２０１、ＰＵＴ動作の場
合に送信されるユーザデータが格納されているローカル
メモリ領域の先頭アドレスである送信データアドレス２
０３、ＰＵＴ動作の場合に送信完了フラグを書き込むロ
ーカルメモリ領域の先頭アドレスである送信フラグアド
レス２０４、ＧＥＴあるいはＰＵＴ動作の場合に使用さ
れる、転送されるデータの長さである転送データ長２０
５、受信側の要素プロセッサにおいて受信データを書き
込むローカルメモリ領域の先頭アドレスである受信デー
タアドレス２０６、その要素プロセッサにおいて、その
受信データに対する受信完了フラグを書き込むローカル
メモリ領域の先頭アドレスである受信フラグアドレス２
０７、その他通信処理に必要な情報２０８等を格納す
る。

【００２３】さらに、本実施の形態では、モードビット
２０２がセットされていない場合、送信フラグアドレス
２０４および受信フラグアドレス２０７は、それぞれＰ
ＵＴ動作時の送信完了フラグおよびＧＥＴ動作時の受信
完了フラグを書き込むローカルメモリアドレスを指定す
る。しかし、モードビット２０２がセットされている場
合、送信フラグアドレスフィールド２０４は、ＰＵＴ動
作時にＭＰＩ付加情報を読み出すべきローカルメモリア
ドレスを指定するのに使用され、受信フラグアドレスフ
ィールド２０７は、ＧＥＴ動作時に受信したＭＰＩ付加
情報を書き込むべきローカルメモリアドレスを指定する
のに使用される。

【００２４】この結果、ＰＵＴ動作時に送信完了フラグ
を書き込むべきローカルメモリアドレスが転送制御情報
２００により指定されなくなるが、本実施の形態では、
あらかじめセットされたＭＰＩ付加情報サイズを送信フ
ラグアドレスに加算し、その結果得られるアドレスにユ
ーザデータおよびＭＰＩ付加情報という二つのデータの
送信完了フラグを書き込む。同様に、ＧＥＴ動作時に
は、ＧＥＴ動作時には、あらかじめセットされたＭＰＩ
付加情報サイズを受信フラグアドレスフィールドに加算
し、その結果得られるアドレスに２種類のデータの受信
完了フラグを書き込む。これにより、１つの転送制御情
報２００を用いてユーザデータとＭＰＩ付加情報という
２つの種類のデータを１つのメッセージで送信または受
信し、従来と同様に送信完了フラグあるいは受信完了フ
ラグもローカルメモリに書き込むことができる。

【００２５】命令プロセッサ３０１は、プログラム処理
を行うユニットである。キャッシュローカルメモリ３０
２は、命令プロセッサ３０１に付随する、高速かつ小容
量のローカルメモリである。ネットワークインタフェー
ス回路３０５は、相互結合ネットワーク１０５に接続
し、命令プロセッサ３０１からの指示に従って、ローカ
ルメモリ分散型の並列計算機の特徴であるデータ転送処
理を命令プロセッサ３０１のプログラム処理とは独立し
て行うユニットである。ストレージコントローラ３０３
は、命令プロセッサ３０１、ネットワークインタフェー
ス回路３０５およびＩ／Ｏインタフェース回路３０６か
ら発行されるデータアクセス要求に従って、適当な記憶
媒体にアクセスする。ローカルメモリ３０４は、ストレ
ージコントローラ３０３で制御され、データ等を格納す
る。命令プロセッサ３０１およびネットワークインタフ
ェース回路３０５は独立に動作するため、ストレージコ
ントローラ３０３は、命令プロセッサ３０１からローカ
ルメモリ３０４へのアクセス要求を処理するのと同時
に、ネットワークインタフェース回路３０５からのデー
タ転送に伴うローカルメモリ３０４へのアクセスも処理
する。Ｉ／Ｏインタフェース回路３０６は、ストレージ
コントローラ３０３からのアクセス要求に従って、Ｉ／
Ｏ装置にアクセスする。Ｉ／Ｏインタフェース回路３０
６は、要素プロセッサの構成によっては、存在しない場
合もある。

【００２６】図４に示すように、ストレージコントロー
ラ３０３は、命令プロセッサインタフェース回路４０
１、アドレス解析部４０２、メモリアクセスインタフェ
ース回路４０３およびデータ転送インタフェース回路４
０４で構成される。命令プロセッサインタフェース回路
４０１は、命令プロセッサ３０１からローカルメモリ３
０４へのアクセスおよび命令プロセッサ３０１からネッ
トワークインタフェース回路３０５へのコマンド発行と
いうトランザクションを線４０１Ｓから受け取る。通
常、このコマンドは、ネットワークインタフェース回路
３０５内部の制御レジスタへのアクセス要求である。命
令プロセッサインタフェース回路４０１は、このトラン
ザクションへの返答、ストレージコントローラ３０３や
ネットワークインタフェース回路３０５で検出した割り
込み要因を線４０２Ｓを介して命令プロセッサ３０１へ
伝える。このトランザクションの応答は、たとえば、ロ
ーカルメモリからの読み出しデータである。

【００２７】アドレス解析部４０２は、命令プロセッサ
３０１が発行した、ローカルメモリアクセス要求および
ネットワークインタフェース回路３０５へのコマンドを
線４０３Ｓを介して受け取り、そのアクセス要求あるい
はコマンドが指定するアクセス先アドレスを解析する。
ローカルメモリアクセス要求は線４０４Ｓを介してメモ
リアクセスインタフェース回路４０３に伝えられる。ま
た、ネットワークインタフェース回路３０５へのコマン
ドは、線４０６Ｓを介してデータ転送インタフェース回
路４０４に伝達される。

【００２８】メモリアクセスインタフェース回路４０３
は、アドレス解析部４０２からのローカルメモリアクセ
ス要求を線４０４Ｓを介して受け、線４０７Ｓを介して
ローカルメモリ３０４に伝達する。ローカルメモリアク
セス要求がローカルメモリからの読み出し要求であった
場合、この読み出し要求が指定するデータがローカルメ
モリ３０４から線４０８Ｓを介して伝達される。読み出
しデータは、メモリアクセスインタフェース回路４０３
から線４０９Ｓを介して命令プロセッサインタフェース
回路４０１に伝達され、線４０２Ｓを介して命令プロセ
ッサ３０１に伝達される。また、ローカルメモリアクセ
スインターフェース４０３は、データ転送に関わるロー
カルメモリアクセスも処理する。データ転送処理に関わ
るローカルメモリアクセスは、データ転送インタフェー
ス回路４０４から線４１０Ｓを介して伝達される。メモ
リアクセスインタフェース回路４０３は、アドレス解析
部４０２からローカルメモリアクセス要求が伝達された
時と同様に、ローカルメモリアクセス要求をローカルメ
モリ３０４に対して発行し、読み出しアクセスに対して
は、読み出しデータを線４１１Ｓを介してデータ転送イ
ンタフェース回路４０４に返送する。

【００２９】データ転送インタフェース回路４０４は、
アドレス解析部４０２から線４０６Ｓを介して伝達され
るネットワークインタフェース回路３０５へのコマンド
を受け取り、線４１２Ｓを介してネットワークインタフ
ェース回路３０５に伝達する。ネットワークインタフェ
ース回路３０５からは、線４１３Ｓを介してコマンドに
対する返答およびデータ転送に関わるローカルメモリア
クセス要求が伝達される。データ転送インタフェース回
路４０４は、前記コマンドに対する返答を線４１４Ｓを
介して命令プロセッサインタフェース回路４０１に伝達
し、線４０２Ｓを介して命令プロセッサ３０１に伝達す
る。ローカルメモリアクセス要求は、線４１０Ｓを介し
てメモリアクセスインタフェース回路４０３に伝達す
る。ローカルメモリ読み出しデータは、線４１１Ｓを介
してデータ転送インタフェース回路４０４に伝達され、
データ転送インタフェース回路４０４から線４１２Ｓを
介してネットワークインタフェース回路３０５に伝達さ
れる。データ転送インタフェース回路４０４は、ネット
ワークインタフェース回路３０５内部で発生した割り込
み伝達要求を受ける場合もある。この場合、割り込み伝
達要求は線４１４Ｓを介して命令プロセッサインタフェ
ース回路４０１に伝達され、さらに命令プロセッサ３０
１に伝達される。

【００３０】ネットワークインタフェース回路３０５
は、コマンド受信部４０５、コマンド処理部４０６、メ
ッセージ生成部４０７、メッセージ送信部４０８、メッ
セージ受信部４０９、メッセージ分解部４１０およびコ
マンド送信部４１１で構成される。コマンド受信部４０
５は、ストレージコントローラ３０３から線４１２Ｓを
介して、ネットワークインタフェース回路３０５内部の
制御レジスタへのアクセスあるいはネットワークインタ
フェース回路３０５が要求したローカルメモリ３０４か
ら読み出されたデータ等を受け取る。このデータは、線
４１５Ｓを介してコマンド処理部４０６に伝達され、転
送データとして使用されたり、ネットワークインタフェ
ース回路３０５の動作制御用データとしてネットワーク
インタフェース回路内部の制御レジスタに設定された
り、データ送信時にメッセージ生成用データ（転送先プ
ロセッサ番号、送信データアドレス、送信フラグアドレ
ス、転送データ長、受信データアドレス、受信フラグア
ドレス等）として使用される。

【００３１】コマンド処理部４０６は、線４１５Ｓを介
してコマンド受信部４０５から伝達されるネットワーク
インタフェース回路３０５内部の制御レジスタへのアク
セスを行う。制御レジスタ読み出しアクセスを受けた場
合、コマンド処理部４０６は、読み出し結果を線４１７
Ｓを介してコマンド送信部４１１に伝達する。また、制
御レジスタ書き込みアクセスを受けた場合には、コマン
ド処理部４０６は、その書き込みを実行する。メッセー
ジの送信処理は、上記の制御レジスタへのアクセスがメ
ッセージ送信起動用レジスタへの書き込み要求である場
合に開始する。メッセージの送信処理では、データを宛
先の要素プロセッサに転送するのに必要な情報であるヘ
ッダを作成したり、転送データが存在するローカルメモ
リアドレスを知るために、ローカルメモリ３０４に格納
されている転送制御情報２００を読み出すローカルメモ
リアクセス要求が発生される。このアクセス要求は線４
１７Ｓを介してコマンド送信部４１１に伝達され、線４
１３Ｓ、データ転送インタフェース回路４０４、線４１
０Ｓ、メモリアクセスインタフェース回路４０３、線４
０７Ｓを介してローカルメモリ３０４から読み出され
る。ローカルメモリ３０４からの読み出し結果は、線４
０８Ｓ、メモリアクセスインタフェース回路４０３、線
４１１Ｓ、データ転送インタフェース回路４０４、線４
１２Ｓ、コマンド受信部４０５を介してコマンド処理部
４０６に伝達され、メッセージ生成部４０７に伝達され
る。

【００３２】メッセージ生成部４０７は、本実施の形態
での特徴的な回路の一つであり、４１８Ｓを介して伝達
された転送データと転送制御情報２００を含むヘッダか
らメッセージを生成し、線４１９Ｓを介してメッセージ
送信部４０８に送出する。転送制御情報２００内のモー
ドビット２０２が１である場合、メッセージ生成部４０
７は、転送制御情報２００から生成されるヘッダと、転
送制御情報２００内の送信データアドレス２０３に従っ
てローカルメモリ３０４から読み出した送信データと、
送信フラグアドレス２０４に従ってローカルメモリ３０
４から読み出したＭＰＩ付加情報からメッセージを組み
立て、メッセージ送信部４０８に送出する。

【００３３】図５に、メッセージ生成部４０７の内部構
成を示す。メッセージ生成部４０７は、ローカルメモリ
３０４から読み出した転送制御情報２００内の、送信デ
ータアドレス、送信フラグアドレスフィールド内のアド
レス、転送データ長をそれぞれ保持するレジスタ５０
１、５０２、５０３を有する。メッセージ生成部４０７
は、さらに、ローカルメモリ３０４から生成中のメッセ
ージのためにローカルメモリからすでに読みだされたデ
ータの量を保持するレジスタ５０４と、本実施の形態に
特徴的な回路として、ＭＰＩ付加情報のサイズを保持す
るレジスタ５０５と、転送制御情報２００内モードビッ
トを保持するレジスタ５０６を有する。レジスタ５０４
に保持された読み出し済みのデータの量はデータがロー
カルメモリ３０４から読み込まれるたびにカウントアッ
プされ、送信すべきすべてのデータがメッセージ送信部
４０８に伝達された後リセットされる。従って、この読
み出し済みのデータの量は、送信済みのデータの総量と
考えることができる。ＭＰＩ付加情報のサイズは、ユー
ザプロセスからの初期化要求によりＭＰＩライブラリと
ＰＵＴ／ＧＥＴライブラリが初期化される時にレジスタ
５０５にあらかじめセットされる。レジスタ５０６に
は、転送制御情報２００の読み出し時にその情報内のモ
ードビットがセットされ、すべてのデータがメッセージ
送信部４０８に伝達された後このレジスタ内のモードビ
ットがリセットされる。メッセージ生成部４０７は、さ
らに、ローカルメモリ読み出し要求発行部５１１と、ロ
ーカルメモリ書込み要求発行部５１２と、メッセージ組
み立て部５１３の他に、本実施の形態に特徴的な回路と
して、アンドゲート５０７と、加算器５０８および５０
９と比較回路５１０とを有する。

【００３４】アンドゲート５０７は、モードビットが１
である場合には、レジスタ５０５内のＭＰＩ付加情報サ
イズを出力し、０である場合にはモードビットの値０を
出力する。加算器５０９は、アンドゲート５０７の出力
とレジスタ５０２に保持されている送信フラグアドレス
フィールドの値を加算する。ＰＵＴ動作時にモードビッ
トが１にセットされている場合、レジスタ５０２に保持
されている送信フラグアドレスフィールドには、ローカ
ルメモリ３０４内の、ＭＰＩ付加情報７１４の先頭アド
レスが含まれているので、この加算の結果アドレスは、
そのＭＰＩ付加情報の次のアドレスを指すことになり、
ＰＵＴ動作時の送信完了フラグの書込みアドレスとして
使用される。加算器５０８は、アンドゲート５０７の出
力と、レジスタ５０３に保持された転送データ長を加算
する。この加算の結果は、モードビットに１がセットさ
れた場合、ＰＵＴ動作時に送信すべきメッセージに含ま
れるべき、ローカルメモリ３０４から読み出すべきデー
タの総量を示す。

【００３５】比較回路５１０は、レジスタ５０４に保持
された読み出し済みのデータ量を、レジスタ５０３に保
持された転送データ量と加算器５０８から出力される転
送データの総量とを比較する。比較の結果として、レジ
スタ５０４に保持された読み出し済みデータ量がレジス
タ５０３内の転送データ長を越えていない場合には、そ
のことを示す比較結果信号をローカルメモリ読み出し要
求発行部５１１に出力する。レジスタ５０４に保持され
た読み出し済みデータ量がレジスタ５０３内の転送デー
タ長を越えているが、加算器５０８から与えられる、ロ
ーカルメモリ３０４から読み出すべきデータの総量を越
えていない場合には、そのことを示す比較結果信号をロ
ーカルメモリ読み出し要求発行部５１１に出力する。レ
ジスタ５０４に保持された読み出し済みデータ量が読み
出すべきデータの総量に達した場合、そのことを示す比
較結果信号をローカルメモリ書込み要求発行部５１２に
出力する。

【００３６】ローカルメモリ読み出し要求発行部５１１
は、比較回路５１０からの比較結果信号と、レジスタ５
０１内の送信データアドレスおよびレジスタ５０２内の
送信フラグアドレスとからローカルメモリ読み出し要求
を生成し、コマンド送信部４１１に送信する。すなわ
ち、比較結果信号が、読み出し済みのデータが転送デー
タ長を超えていないことを示すときには、送信データア
ドレスを元に後続の未読み出しのユーザデータを読み出
すためのローカルメモリ読み出し要求を生成し、読み出
し済みのデータが転送データ長を越えているが、読み出
すべきデータの総量を超えていないときには、送信フラ
グアドレスを元にして未読み出しのＭＰＩ付加情報を読
み出すためのローカルメモリ読み出し要求を生成する。

【００３７】ローカルメモリ書込み要求発行部５１２
は、比較回路５１０からの比較結果信号と、加算器５０
９から出力される送信完了フラグアドレスとを元にロー
カルメモリ書込み要求をコマンド送信部４１１に送信す
る。すなわち、比較結果信号が、読み出し済みデータ量
が読み出すべきデータの総量に達したことを示す場合、
加算器５０８より与えられる送信完了フラグアドレスに
送信完了フラグを書き込むことを要求する書き込み要求
を生成する。

【００３８】メッセージ組み立て部５１３では、本実施
の形態に特徴的なセレクタ５１４がモードビットの値に
従ってメッセージを組み立て、メッセージ送信部４０８
にそのメッセージの送信要求を送付する。モードビット
が１である場合、ヘッダとデータとＭＰＩ付加情報を含
むメッセージ５１５を組立て、モードビットが０である
場合には、ヘッダとデータのみからなるメッセージ５１
６を組立る。

【００３９】図４において、メッセージ送信部４０８
は、メッセージ生成部４０７からのメッセージ送信要求
を受けて線４２０Ｓを介して相互結合ネットワーク１０
５にメッセージを送出する。送出されたメッセージは、
相互結合ネットワーク１０５を介してそのヘッダ情報に
従って宛先に転送される。メッセージ生成部４０７にお
ける送信処理は、ネットワークインタフェース回路３０
５へ送信される複数のメッセージ送信要求に対してそれ
らの送信要求の到着順に順次行われる。

【００４０】次に、メッセージ受信部４０９について説
明する。メッセージ受信部４０９は、線４２１Ｓを介し
て、相互結合ネットワーク１０５からメッセージを順次
受け取り、メッセージ分解部４１０に線４２２Ｓを介し
て転送する。メッセージ分解部４１０はこのメッセージ
のヘッダ部に含まれる転送制御情報に従ってこのメッセ
ージをデータ部とヘッダ部に分解し、ローカルメモリ３
０４へこのデータ部や受信完了フラグの書き込みを要求
する書き込み要求を線４２３Ｓを介してコマンド送信部
４１１に伝達する。

【００４１】図６にメッセージ分解部４１０の内部構成
を示す。メッセージ分解部４１０には、メッセージヘッ
ダ内の受信データアドレス、受信フラグアドレス、転送
データ長、モードビットをそれぞれ保持するレジスタ６
０１、６０２、６０３、６０６が設けられている。レジ
スタ６０６は本実施の形態で特徴的なレジスタであり、
レジスタ６０６には、ヘッダ受信時にヘッダ内のモード
ビットがセットされ、メッセージ内の全データを受信し
たときにそのモードビットがリセットされる。さらに、
受信したメッセージ内のデータの内、ローカルメモリに
書き込み済みのデータの総量を保持するレジスタ６０４
と、ＭＰＩ付加情報のサイズを保持する、本実施の形態
に特徴的なレジスタ６０５が設けられている。レジスタ
６０５には、ＭＰＩ初期化時あるいはジョブ起動時にあ
らかじめ定められたＭＰＩ付加情報サイズがセットさ
れ、このサイズ情報はメッセージ内の全データが受信さ
れたときにリセットされる。レジスタ６０４に保持され
た書き込み済みのデータの量は受信されたデータがロー
カルメモリ３０４に書き込まれるたびにカウントアップ
され、受信すべきすべてのデータがローカルメモリ３０
４に書き込まれた後リセットされる。従って、この書き
込み済みのデータの総量は、受信済みのデータの総量で
あるとも考えることができる。

【００４２】メッセージ分解部４１０には、ローカルメ
モリ書込み要求発行部６１１の他に、本実施の形態で特
徴的な、アンドゲート６０７、加算器６０８、６０９と
比較回路６１０とがさらに設けられている。アンドゲー
ト６０７は、レジスタ６０６内のモードビットが１であ
る場合にレジスタ６０５内のＭＰＩ付加情報サイズを出
力し、モードビットが０である場合には０を出力する。
加算器６０８および６０９の動作は、加算器５０８およ
び５０９（図５）と同様である。比較回路６１０は、レ
ジスタ５０４内の受信済みデータの総量を、転送データ
長、アンドゲート６０７の出力結果データと比較し、比
較結果信号をローカルメモリ書込み要求発行部６１１に
出力する。すなわち、この比較回路は、受信済みのデー
タが転送データ長よりも短いか、受信済みのデータの総
量が転送データ長より大きいが、転送データ長とアンド
ゲート６０７から出力されるＭＰＩ付加情報のサイズの
和より小さいか、あるいは受信済みのデータの総量が転
送データ長とＭＰＩ付加情報サイズの和より大きいかを
判別する。

【００４３】メモリ書込み要求発行部６１１は、比較回
路６１０の比較結果信号と、レジスタ６０１内の受信デ
ータアドレスと、加算器６０９の出力とレジスタ６０２
内の受信フラグアドレスフィールドの値とから、ローカ
ルメモリ書込み要求を生成し、コマンド送信部４１１に
線４２Ｓを介して伝達する。加算器６０９は、モードビ
ットが１である場合に、レジスタ６０２内の受信フラグ
アドレスフィールドの値にＭＰＩ付加情報サイズを加算
したアドレスを受信完了フラグを書き込むべきローカル
メモリアドレスとして出力する。

【００４４】比較回路６１０の出力が、受信済みのデー
タの総量が転送データ長よりも大きいことを示す場合、
メモリ書き込み要求発行部６１１は、受信されたデータ
をそれまでに受信したデータの書き込み位置に続けて書
き込むためのローカルメモリ書き込み要求をレジスタ６
０１内の受信データアドレスに基づいて生成する。

【００４５】比較回路６１０の出力が、受信済みのデー
タの総量が転送データ長よりも大きく転送データ長とア
ンドゲート６０７から出力されるＭＰＩ付加情報のサイ
ズの和より小さいことを示す場合、新たに受信されたデ
ータは、ＭＰＩ付加情報である。従って、この場合に
は、メモリ書き込み要求発行部６１１は、受信されたデ
ータをそれまでに受信したＭＰＩ付加情報の書き込み位
置に続けて書き込むためのローカルメモリ書き込み要求
を、レジスタ６０２内の受信フラグアドレスフィールド
に含まれる、ＭＰＩ付加情報の書き込みアドレスに基づ
いて生成する。

【００４６】比較回路６１０の出力が、受信済みのデー
タの総量が転送データ長とアンドゲート６０７から出力
されるＭＰＩ付加情報のサイズの和より大きいことを示
す場合、すべてのデータが受信されたこといなる。従っ
て、この場合には、メモリ書き込み要求発行部６１１
は、受信完了フラグをＭＰＩ付加情報の書き込み位置に
続けて書き込むためのローカルメモリ書き込み要求を、
加算器６０９の出力に基づいて生成する。

【００４７】コマンド送信部４１１は、これらの書き込
み要求に従って、受信されたデータあるいは受信完了フ
ラグをローカルメモリ３０４に書き込む。コマンド送信
部４１１は、線４１７Ｓを介して伝達される、ネットワ
ークインタフェース回路３０５内部の制御レジスタから
の読み出しデータ、線４２４Ｓを介して伝達される、メ
ッセージ送信処理において使用される送信データのロー
カルメモリ３０４からの読み出し要求、線４２４Ｓを介
して伝達される、メッセージ送信処理の完了に伴う送信
完了フラグのローカルメモリ３０４への書き込み要求、
線４２３Ｓを介して伝達される、メッセージ受信処理に
伴う受信データあるいは受信完了フラグのローカルメモ
リ３０４への書き込み要求およびネットワークインタフ
ェース回路３０５内で発生した割り込み要求を、線４１
３Ｓを介してストレージコントローラ３０３内のデータ
転送インタフェース回路４０４に伝達する。また、コマ
ンド送信部４１１は、ネットワークインタフェース回路
３０５の動作制御に関わる情報のローカルメモリ３０４
からの読み出し要求、メッセージ送信処理に使用する転
送制御情報２００のローカルメモリ３０４からの読み出
し要求を線４１３Ｓを介してデータ転送インタフェース
回路４０４に伝達する。

【００４８】次に本実施の形態におけるメッセージ転送
の流れを説明する。最初に自プロセッサのローカルメモ
リに格納されているユーザデータおよびＭＰＩ付加情報
を転送先の要素プロセッサのローカルメモリに直接書き
込むＰＵＴ処理について図４、５、７を用いて説明す
る。まず、本実施の形態に係わる通信方式では、送信側
のユーザプロセスおよび受信側のユーザプロセスは、Ｍ
ＰＩライブラリを使用する前に、ＭＰＩライブラリ内の
初期化ルーチンたとえばＭＰＩ＿ｉｎｉｔをコールする
コマンド発行する。この初期化ルーチンのコールを受け
ると、ＭＰＩライブラリは、ＰＵＴ／ＧＥＴライブラリ
内のいくつかの通信準備手続きをコールする。これらの
通信準備手続きは、使用するＰＵＴ／ＧＥＴライブラリ
により予め定められているが、以下では、後の説明に関
連する部分および本実施の形態で新規に行われる処理の
みを説明する。

【００４９】本実施の形態では、送信側のＰＵＴ／ＧＥ
Ｔライブラリおよび受信側のＰＵＴ／ＧＥＴライブラリ
は、いずれもこれらの通信準備手続において以下の処理
をすると仮定する。すなわち、ローカルメモリ７０１を
ユーザ空間にあらかじめマップし、さらに、通信領域７
０３、７０４（図７）を確保する。さらに、それぞれの
通信領域内に送信データ領域およびそれに対応する送信
完了フラグ領域を確保する。図７では、７１３は送信デ
ータ領域の例を示す。図では、受信側の通信領域７０４
内の送信データ領域は図示していない。本実施の形態で
は、送信完了フラグ領域として、ＭＰＩ付加情報７１４
および送信完了フラグ７１５の両方を格納する連続した
領域を確保する点で従来と異なる。同様に、各通信領域
内に、受信データ領域および受信完了フラグ領域を確保
する。本実施の形態では図７では、７２１は受信データ
領域の例を示す。図では、送信側の通信領域７０３内の
受信データ領域は図示していない。本実施の形態では、
受信完了フラグ領域として、ＭＰＩ付加情報７２２およ
び受信完了フラグ７２３の両方を格納する連続した領域
を確保する点で従来と異なる。なお、MPI付加情報７１
４の長さは例えば６４バイト程度である。なお、送信完
了フラグあるいは受信完了フラグを書き込む領域７１
５，７２３は例えば８バイトである。

【００５０】ＰＵＴ／ＧＥＴ型ライブラリとして、送信
すべきユーザデータを、ローカルメモリ７０１に常駐さ
せることを前提とする場合とそうでない場合とがある。
前者の場合には、送信データ領域７１３は、この常駐さ
れたユーザデータの領域と一致するように、送信データ
領域７１３が決定される。一方、後者の場合には、送信
データ領域７１３は、送信側のユーザプロセスが使用す
るユーザデータに割り当てられたローカルメモリ内の領
域とは独立に決定される。本発明はいずれの構造のＰＵ
Ｔ／ＧＥＴ型ライブラリにも適用可能である。しかし、
後者の場合には、後に述べるように、ユーザプロセスが
使用しているユーザデータに割り当てられたローカルメ
モリ内の領域のデータを送信データ領域７１３にコピー
する処理が必要となる。しかし、前者の場合にはこのコ
ピー動作が必要でなく、それだけデータ転送動作が高速
化される。

【００５１】以上のようにして、通信準備手続きが実行
された後に、送信側のユーザプロセスの処理が進むと、
そのユーザプロセスは、送信すべきデータを送信側の通
信領域７０３内のユーザデータ領域７１３に書き込んだ
後に、データ送信要求コマンド、たとえばＭＰＩ_ｓｅ
ｎｄを送信側のＭＰＩライブラリに対して発行する。こ
のコマンドの名称は、使用するメッセージパッシングラ
イブラリにより定まり、それが指定する引数も同様にそ
のライブラリにより定められた複数の種類の情報からな
る。ここで仮定するＭＰＩライブラリの場合には、この
コマンドの引数は、送信すべきユーザデータの先頭アド
レス、ユーザデータ長と付加情報からなり、この先頭ア
ドレスは、ユーザプロセスに割り当てられた仮想メモリ
空間内での、そのユーザデータに対する仮想アドレスで
ある。この付加情報は、受信側のユーザプロセスの識別
子、プロセスグループの識別子等を含む。最初の二つの
引数は、ＭＰＩライブラリを介さないでデータ転送をユ
ーザプロセスがＰＵＴ／ＧＥＴ型ライブラリに直接要求
するためのデータ送信要求が指定する引数と同じであ
り、付加情報がＭＰＩライブラリに対するデータ転送要
求が新たに指定する引数である。

【００５２】送信側のＭＰＩライブラリは、このデータ
送信要求コマンドＭＰＩ_ｓｅｎｄに応答して、送信側
のＰＵＴ／ＧＥＴ型ライブラリに、この送信要求が指定
するデータの送信を要求する。送信側のＭＰＩライブラ
リは、この要求を、ＭＰＩライブラリとＰＵＴ／ＧＥＴ
型ライブラリにより予め定められた一つまたは複数のコ
マンドの形で発行する。以下では、それらのコマンドの
内、本実施の形態で使用すると仮定する主なコマンドの
みを説明する。

【００５３】まず、送信側のＭＰＩライブラリは、送信
権の取得を要求するコマンドを発行する。送信側のＰＵ
Ｔ／ＧＥＴ型ライブラリは、このコマンドに応答して、
受信側のユーザプロセスと交信してそのプロセスに対す
るデータの送信権を得る。受信側のユーザプロセスおよ
びそのプロセスを実行している要素プロセッサの番号
は、上記データ送信要求コマンドＭＰＩ_ｓｅｎｄが指
定する付加情報中の、受信側のプロセス識別番号とプロ
セスグループ識別番号とにより決定される。

【００５４】送信側のＭＰＩライブラリは、さらに、受
信側のユーザプロセスの受信データ領域および受信フラ
グ領域のそれぞれの先頭位置を示す受信データアドレス
および受信フラグアドレスを受信する。但し、この後に
再度同じデータ送信要求コマンドＭＰＩ_ｓｅｎｄを送
信側のユーザプロセスが発行したときには、このコマン
ドを実行する必要はない。

【００５５】既に述べたように、ＰＵＴ／ＧＥＴ型ライ
ブラリが、送信すべきユーザデータがローカルメモリ７
０１に常駐されることを前提としない場合には、送信側
のＭＰＩライブラリは、送信すべきユーザデータを、ユ
ーザデータ領域７１３にコピーすることを要求するコマ
ンドを発行し、送信側のＰＵＴ／ＧＥＴ型ライブラリに
より、このコマンドの引数で指定されるユーザデータの
アドレスとデータ長で指定されるユーザデータに割り当
てられた、ローカルメモリ内の領域のデータを、先に決
定された送信データ領域７０３にコピーする。ＰＵＴ／
ＧＥＴ型ライブラリが、送信すべきユーザデータをロー
カルメモリ７０１に常駐させることを前提とする場合に
は、このコピー動作は不要である。

【００５６】次に、送信側のＭＰＩライブラリは、付加
情報のローカルメモリへの書き込みを要求するコマンド
を発行する。送信側のＰＵＴ／ＧＥＴ型ライブラリは、
このコマンドに応答して、このコマンドの引数で指定さ
れるＭＰＩ付加情報を、先に決定された送信データ領域
７０３に対応して決定された送信フラグ領域の先頭の領
域７１４に書き込む。

【００５７】送信側のＭＰＩライブラリは、付加情報の
ローカルメモリへの書き込みを要求するコマンドを発行
する。送信側のＰＵＴ／ＧＥＴ型ライブラリは、このコ
マンドに応答して、このコマンドの引数で指定されるＭ
ＰＩ付加情報を、先に決定された送信データ領域７０３
に対応して決定された送信フラグ領域の先頭の領域７１
４に書き込む。

【００５８】送信側のＭＰＩライブラリは、転送制御情
報を生成することを要求するコマンドを発行する。送信
側のＰＵＴ／ＧＥＴ型ライブラリは、このコマンドに応
答して、転送制御情報７００を生成して、ローカルメモ
リ７００内の適当な領域に書き込む。この転送制御情報
７００に含まれた情報は以下の通りである。転送先プロ
セッサ番号２０１は、受信側のユーザプロセスが実行さ
れているプロセッサの番号であり、この番号は、すでに
述べたように、ＭＰＩ初期化ルーチンにおいて決定され
ている。モードビット２０２は、送信フラグアドレスフ
ィールド２０４を本実施の形態に従って拡張して使用す
るか否かを示すビットである。送信側のＰＵＴ／ＧＥＴ
型ライブラリは、送信側のＭＰＩライブラリから、デ
ータ転送を要求されたときに、ＰＵＴ／ＧＥＴ型ライブ
ラリはこのモードビットを１にセットする。モードビッ
ト２０２が１であることは、ユーザデータとＭＰＩ付加
情報とを一つのメッセージで送信することを指示する。
なお、本実施例の形態では、送信側のユーザプロセス
が、ＭＰＩライブラリに対してでなく、ＰＵＴ／ＧＥＴ
型ライブラリに対して直接データ送信要求コマンドを発
行した場合には、ＰＵＴ／ＧＥＴ型ライブラリは、その
データ要求に対して、図７に示す転送制御情報７００と
同じ構造を有し、モードビット２０２の値が０である転
送制御情報を生成する。

【００５９】送信データアドレス２０３は、送信側のユ
ーザプロセスにより転送が要求されたユーザデータまた
はそのコピーを保持する送信データ領域７１３の先頭ア
ドレスである。転送データ長２０５は、データ送信要求
コマンドＭＰＩ_ｓｅｎｄが指定した、ユーザデータの
データ長であり、そのコマンドを受けたＭＰＩライブラ
リがＰＵＴ／ＧＥＴ型ライブラリに通知する。

【００６０】送信フラグアドレスフィールド２０４に
は、従来では送信完了フラグを書き込むためのローカル
メモリアドレスが格納されるが、本実施の形態では、モ
ードビット２０２が１である場合には、ローカルメモリ
７０１内のＭＰＩ付加情報７１４の先頭アドレスをこの
送信フラグアドレスフィールド２０４に格納する。な
お、モードビット２０２が１の場合には、送信完了フラ
グを格納するローカルメモリ内の領域７１５のアドレス
は送信フラグアドレスフィールド２０４によっては明に
は指定されないことになる。本実施の形態では、ネット
ワークインタフェース回路３０５が、ユーザプロセスと
ＭＰＩ付加情報とに対する共通の送信完了フラグを、ロ
ーカルメモリ７０１内のＭＰＩ付加情報７１４の最終の
アドレスの次のアドレスの領域７１５に格納するように
なっている。このため、送信型のＰＵＴ／ＧＥＴ型ライ
ブラリは、ユーザプロセスからの先のデータ送信要求コ
マンドに対する応答として、この送信完了フラグが書き
込まれた時点で、送信完了を送信側のユーザプロセスに
通知するようになっている。なお、モードビット２０２
が０である場合には、ＰＵＴ／ＧＥＴ型ライブラリは、
送信フラグアドレスフィールド２０４に、そのライブラ
リが決定した送信完了フラグを書き込むアドレスをセッ
トする。

【００６１】受信データアドレス２０６は、受信側の要
素プロセッサにおいて、受信したデータを格納するため
のローカルメモリ領域７２１（図７）のアドレスであ
る。受信フラグアドレスフィールド２０７には、この受
信データとともに受信した付加情報と受信完了を示す受
信完了フラグを格納する領域の先頭アドレスである。本
実施の形態では、付加情報を記憶する領域７２２の後続
の領域７２３に受信完了フラグを書き込む。したがっ
て、受信フラグアドレスフィールド２０７には、この領
域７２２の先頭アドレスが書き込まれる。受信データア
ドレス２０６と受信フラグアドレス２０７は、いずれも
ＭＰＩ初期化ルーチンにて送信先のＰＵＴ／ＧＥＴライ
ブラリにより通知される。これらのアドレスは、ＧＥＴ
動作時に送信側のＰＵＴ／ＧＥＴ型ライブラリにより使
用される。

【００６２】その他制御情報２０８は、ＰＵＴメッセー
ジあるいはＧＥＴメッセージあるいはＧＥＴ要求メッセ
ージの種別を示したり、１対１通信あるいは１対多通信
等の通信形態を示すといった、その他通信処理に必要な
情報を含む。

【００６３】なお、転送制御情報２００の中に、ＭＰＩ
付加情報を読み出すべきローカルメモリアドレスを指定
するフィールドおよび受信したＭＰＩ付加情報を書き込
むべきローカルメモリアドレスを指定するフィールドを
別に設けることも可能であるが、本実施の形態のように
モードビット２０２を用いて、送信フラグアドレス２０
４および受信フラグアドレス２０７が指定する二つのア
ドレスを切り替えることにより転送制御情報２００の構
造と大きさを、ユーザプロセスがＰＵＴ／ＧＥＴ型ライ
ブラリのみを使用して送信あるいは受信する場合と同じ
とすることができる。

【００６４】こうして、転送制御情報７００が生成され
ると、送信側のＭＰＩライブラリは、生成された転送制
御情報に従って、データの送信を行うことをネットワー
クインタフェース回路３０５に要求するコマンドを発行
する。ＰＵＴ／ＧＥＴライブラリは、このコマンドに応
答して、ネットワークインタフェース回路３０５内部の
送信起動用レジスタ（図示せず）にその転送制御情報７
００のアドレスを書き込むことを要求する書き込みコマ
ンドを発行する。コマンド処理部４０６は、この書き込
みコマンドを実行して、ネットワークインタフェース回
路３０５内のメッセージ送信起動用レジスタ（図示せ
ず）へ転送制御情報７００の先頭アドレスを書き込む。
この書き込みによりネットワークインタフェース回路３
０５はメッセージ送信処理を開始する。

【００６５】図４に示すように、コマンド処理部４０６
は、メッセージのヘッダを作成するためにローカルメモ
リ３０４に格納されている転送制御情報７００を読み出
すローカルメモリアクセス要求を線４１７Ｓを介してコ
マンド送信部４１１に伝達する。線４１３Ｓ、データ転
送インタフェース回路４０４、線４１０Ｓ、メモリアク
セスインタフェース回路４０３を介して、送信起動用レ
ジスタ（図示せず）に書き込まれたアドレスをもとにロ
ーカルメモリ３０４から読み出された転送制御情報７０
０は、メモリアクセスインタフェース回路４０３、線４
１１Ｓ、データ転送インタフェース回路４０４、線４１
２Ｓ、コマンド受信部４０５を介してコマンド処理部４
０６に伝達され、メッセージ生成部４０７に伝達され
る。

【００６６】図５において、メッセージ生成部４０７
は、転送制御情報７００内の送信データアドレス２０
３、送信フラグアドレスフィールド２０４の値、転送デ
ータ長２０５、モードビット２０２をそれぞれレジスタ
５０１、５０２、５０３、５０６にセットする。その他
の情報は図示しないレジスタに保持される。レジスタ５
０６内のモードビットは今の場合には１である。レジス
タ５０６内のモードビットが１であるため、アンドゲー
ト５０７がＯＮになり、レジスタ５０５内のＭＰＩ付加
情報サイズを出力する。加算器５０８は、レジスタ５０
３内の転送データ長とアンドゲート５０７から出力され
たＭＰＩ付加情報を足しあわせ、ローカルメモリ７０１
から読み出すべきデータの総量を出力する。比較回路５
１０がレジスタ５０４に保持された、読み出し済みデー
タの総量がレジスタ５０３内の転送データ長よりも小さ
いと判断した場合には、ローカルメモリ７０１内の、レ
ジスタ５０１に保持された送信データアドレスの記憶位
置からユーザデータ７１３を読み出すために、コマンド
送信部４１１にローカルメモリ読み出し要求を伝達す
る。このユーザデータは、コマンド送信部４１１からス
トレージコントローラ３０３内のメモリアクセスインタ
フェース回路４０３を介してローカルメモリ３０４から
読み出される。読み出されたデータは、ストレージコン
トローラ３０３内のメモリアクセスインタフェース回路
４０３、データ転送インタフェース回路４０４およびコ
マンド受信部４０５を介してコマンド処理部４０６に伝
達され、線４１８Ｓを介してメッセージ生成部４０７に
伝達される。

【００６７】メッセージ生成部４０７では、比較回路５
１０が、レジスタ５０４内の読み出し済みのデータの量
が、レジスタ５０３内の転送データ長より大きいが、
（転送データ長＋レジスタ５０５内のＭＰＩ付加情報サ
イズ）以下であると判断したときには、メモリ読み出し
要求発行部５１１は、ローカルメモリ７０１内の、レジ
スタ５０２に保持された送信フラグアドレスを有する記
憶位置からＭＰＩ付加情報７１４を読み出すためのロー
カルメモリ読み出し要求をコマンド送信部４１１に伝達
する。この読み出し要求は、コマンド送信部４１１から
ストレージコントローラ３０３内の、データ転送インタ
フェース回路４０４およびメモリアクセスインタフェー
ス回路４０３を介してローカルメモリ３０４に送られ、
ＭＰＩ付加情報７１４がそこから読み出される。読み出
されたＭＰＩ付加情報７１４は、ストレージコントロー
ラ３０３内のメモリアクセスインタフェース回路４０
３、データ転送インタフェース回路４０４およびコマン
ド受信部４０５を介してコマンド処理部４０６に伝達さ
れ、線４１８Ｓを介してメッセージ生成部４０７に伝達
される。

【００６８】メッセージ生成部４０７では、メッセージ
組み立て部５１３内のセレクタ５１４は、モードビット
が１であることから、ローカルメモリ３０４から読み出
された転送制御情報７００内の送信データアドレス、送
信フラグアドレス以外の部分をレジスタ５１５内のヘッ
ダ部の格納する。同様に、ユーザデータ７１３およびＭ
ＰＩ付加情報７１４をレジスタ５１５のデータ部に格納
する。

【００６９】比較回路６１０が、読み出したユーザデー
タの総量が、転送データ長とＭＰＩ付加情報サイズの和
に等しくなったことを検出したとき、メモリ書き込み要
求発行部５１２は、送信完了フラグを書き込むことを要
求するローカルメモリ書込み要求をコマンド送信部４１
１に伝達する。このコマンドは、加算器５０９により与
えられる、レジスタ６０２内の送信フラグアドレスフィ
ールドに保持されたＭＰＩ付加情報の先頭アドレスと、
レジスタ５０５内のＭＰＩ付加情報サイズとの和に等し
いアドレスにこのフラグを書き込むことを要求する。送
信完了フラグ７１５は、コマンド送信部４１１からスト
レージコントローラ３０３内のメモリアクセスインタフ
ェース回路４０３を介してローカルメモリ３０４に書き
込まれる。本実施の形態では、メッセージに含まれるべ
きユーザデータとＭＰＩ付加情報の読み出しが完了した
時点で、メッセージの送信が完了したと見なして、送信
完了フラグ７１５を書き込む。しかし、このメッセージ
が実際に相互結合ネットワーク１０５に送信された時点
でこのフラグを書き込むようにしてもよい。

【００７０】こうして、レジスタ５１５内にユーザデー
タとそれに関連するＭＰＩ付加情報を含む一つのメッセ
ージ７０５が生成される。このメッセージ７０５には、
転送制御情報７００に含まれていたのと同じ転送先プロ
セッサ番号７１６、モードビット７１７、転送データ長
７１８、受信データアドレス７１９、受信フラグアドレ
ス７２０、その他の制御情報２０８をそのまま含み、転
送制御情報７００に含まれていた送信データアドレス２
０３と送信フラグアドレス２０４に代えて、ユーザデー
タ７２６、付加情報７２７を含むことになる。送信デー
タアドレスメッセージ生成部４０７はそのメッセージ７
０５をメッセージ送信部４０８に送信する。メッセージ
生成部４０７は、メッセージ７０５の生成に使用される
上記３つの情報をメッセージ送信部４０８へ送出し終る
と、メッセージ送信部４０８はレジスタ５０４と５０６
をリセットする。メッセージ送信部４０８はそのメッセ
ージ７０５を相互結合ネットワーク１０５に送出する。
相互結合ネットワーク１０５はそのメッセージ内の転送
先プロセッサ番号２０１により指定されるプロセッサに
そのメッセージを転送する。

【００７１】次に受信処理について説明する。相互結合
ネットワーク１０５から転送されたメッセージ７０５
は、まずメッセージ受信部４０９で受け取られ、メッセ
ージ分解部４１０に転送される。メッセージ分解部４１
０は、メッセージヘッダ内の受信データアドレス７１
９、受信フラグアドレス７２０、転送データ長７１８、
モードビット７１７をそれぞれレジスタ６０１、６０
２、６０３、６０６（図６）に書き込む。レジスタ６０
４はあらかじめ０にリセットされ、レジスタ６０５には
あらかじめＭＰＩ付加情報サイズがセットされている。
メッセージ分解部４１０では、メモリ書き込み要求発行
部６１１は、受信されたユーザデータをヘッダ内の受信
データアドレス７１９が示すローカルメモリ領域に書き
込むためのローカルメモリアクセス要求を生成し、線４
２３Ｓを介してコマンド送信部４１１に伝達する。受信
されたユーザデータは、メッセージヘッダ内の受信デー
タアドレス７１９に従って、ストレージコントローラ３
０３内のメモリアクセスインタフェース回路４０３を介
して、ローカルメモリ３０４の通信領域７０４内の領域
７２１に書き込まれる。レジスタ６０６内のモードビッ
トは１であるため、アンドゲート６０７がＯＮになり、
レジスタ６０５内のＭＰＩ付加情報サイズを加算器６０
８に供給する。加算器６０８では、レジスタ６０３内の
転送データ長とアンドゲート６０７から与えられるＭＰ
Ｉ付加情報サイズを足しあわせ、ローカルメモリに書込
むべきデータの総量を得る。レジスタ６０４内の受信デ
ータ量は、メッセージ受信部４０９が相互結合ネットワ
ーク１０５からメッセージ内のデータの異なる部分を受
信するごとに更新される。

【００７２】メッセージ分解部４１０では、ユーザデー
タの異なる部分がメッセージ受信部４０９により受信さ
れるごとに、比較回路６１０が、レジスタ６０４内の受
信されたデータの総量がレジスタ６０３内の転送データ
長よりも小さいか否かを判断し、前者が後者より小さい
と判断したときには、メモリ書き込み要求発行部６１１
は、レジスタ６０１に保持された受信データアドレスに
したがって受信されたデータを受信側のローカルメモリ
７０２に書き込むことを要求するコマンド送信部４１１
にローカルメモリ書込み要求を伝達する。

【００７３】その後比較回路６１０が、レジスタ６０４
内の、受信されたデータの総量がレジスタ６０３内の転
送データ長よりも大きいが、転送データ長とレジスタ６
０５内のＭＰＩ付加情報サイズの和以下と判断したなら
ば、メモリ書き込み要求発行部６１１は、レジスタ６０
２に保持された受信フラグアドレスフィールドの値のア
ドレスに、受信されたＭＰＩ付加情報を書き込むことを
要求するローカルメモリ書込み要求を伝達する。

【００７４】加算器６０９は、レジスタ６０２内の受信
フラグアドレスフィールドの値とアンドゲート６０７か
ら与えられるＭＰＩ付加情報サイズを加算し、受信完了
フラグを書き込むべきメモリアドレスを決定する。比較
回路６１０が、レジスタ６０４内の受信データ数が、加
算器６０８より与えられる、転送データ長＋ＭＰＩ付加
情報サイズに等しくなったことを検出すると、メモリ書
き込み要求発行部６１１は、加算器６０９により与えら
れるアドレスに受信完了フラグを書き込むことを要求す
るローカルメモリ書き込み要求をコマンド送信部４１１
に伝達する。その結果、受信完了フラグ７２３は、コマ
ンド送信部４１１から、ストレージコントローラ３０３
内のメモリアクセスインタフェース回路４０３を介して
ローカルメモリ３０４に書き込まれる。こうして、デー
タ受信処理が完了する。また、受信の完了でもってデー
タ転送処理が終了する。

【００７５】なお、受信されたデータおよび付加情報
は、以下のようにして受信側の要素プロセッサ７０２で
使用される。受信側のユーザプロセスが、他の要素プロ
セッサから送信されたデータの受信を要求するコマン
ド、例えば、ＭＰＩ＿ｒｅｃｖを発行する。このコマン
ドは、受信すべきユーザデータを指定するアドレスと、
そのデータの最大長、およびＭＰＩライブラリにより定
められた付加情報とからなる引数を指定する。この付加
情報は、送信元ユーザプロセスの識別子その他の情報か
らなる。このコマンドで指定される上記アドレスは、受
信側のユーザプロセスに割り当てられたアドレス空間に
属する仮想アドレスである。受信側のＭＰＩライブラリ
は、この受信コマンドの引数で指定されるユーザデータ
がローカルメモリ７０４に書き込み済みであるか否か
を、ローカルメモリ７０４に書き込まれたユーザデータ
７２１、付加情報７２２、受信完了フラグ７２３に基づ
いて判別する。もし、この要求されたデータがローカル
メモリ７０４に書き込み済みであるときには、受信側の
ＭＰＩライブラリは、受信側のユーザプロセスに受信完
了を通知する。この要求されたデータがローカルメモリ
７０４に書き込み済みでないときには、ＭＰＩライブラ
リは、上記判別が成功するまでその判別を繰り返す。

【００７６】なお、受信側のユーザプロセスが指定した
仮想アドレスを有するデータ領域が、ローカルメモリ７
０４に常駐していない場合には、受信側のＭＰＩライブ
ラリは、上記通知を行う前に、受信されたユーザデータ
７２１を、ユーザプロセスが指定するアドレスに割り当
てられたローカルメモリ領域にコピーする。もし、受信
側のユーザプロセスが指定した仮想アドレスを有するデ
ータ領域が、ローカルメモリ７０４に常駐している場合
には、このコピーは不要である。

【００７７】受信側のユーザプロセスは、この受信完了
の通知を受けると、受信データを読みだす命令を実行す
る。したがって、この受信側でのユーザデータの受信判
別処理では、ユーザデータ７２１と付加情報７２２が書
き込み済みであるか否かを検出するのに、共通の受信完
了フラグ７２３を使用するところが従来と異なる。

【００７８】以上は、ユーザプロセスがデータの送信要
求コマンドをＭＰＩライブラリに対して発行した場合で
ある。本実施の形態では、他のユーザプロセスは、ＰＵ
Ｔ／ＧＥＴライブラリに対してデータ送信要求を発行す
ることもできるようになっている。この場合には、この
データ送信要求コマンドは、送信すべきユーザデータを
示す仮想アドレスと、データ長を指定する。送信側のＭ
ＰＩライブラリは、このコマンドに応答して、先に述べ
たと同じようにして、転送制御情報７００を生成する。
但し、この情報の中のモードビット２０２の値は０であ
る。さらに、送信フラグアドレスフィールド２０４は、
送信完了フラグの書き込み領域７１５のアドレスを指定
する。受信フラグアドレスフィールド７２３についても
同じである。上記データ送信要求コマンドの場合には、
付加情報記憶領域７１４，７２２は不要である。

【００７９】転送制御情報７００内のモードビット２０
２が０である場合、転送制御情報７００内のモードビッ
ト２０２が１である場合と比べると、メッセージ生成部
４０７およびメッセージ分解部４１０の動作が異なる。
すなわち、レジスタ５０６内のモードビットが０である
ため、加算器５０８の出力は、レジスタ５０３内の転送
データ長に等しく、加算器５０９の出力は、レジスタ５
０２内の送信完了フラグアドレスに等しい。したがっ
て、メッセージ生成部４０７では、比較回路５１０が、
レジスタ５０４内の読み出し済みのデータの総量がアン
ドゲート５０７より与えられる、レジスタ５０３内の転
送データ長に等しくなったことを検出したときに、メモ
リ読み出し要求発行部５１１は、ローカルメモリ７０１
からの送信すべきデータの読み出しを終了する。この読
み出されたデータを含むメッセージがすべて相互結合ネ
ットワーク１０５へ送出されると、メッセージ生成部４
０７内のメモ書き込み要求発行部５１２は、加算器５０
９より与えられる、レジスタ５０２内の送信フラグアド
レスに示されるローカルメモリ領域に送信完了フラグを
書き込むことを要求する書き込み要求をコマンド送信部
４１１に伝達する。

【００８０】受信側の要素プロセッサでは、相互結合ネ
ットワーク１０５から転送されたメッセージ内のヘッダ
内のモードビット７１７は０であるため、レジスタ６０
６（図６）には０がセットされる。レジスタ６０６内の
モードビットが０であるため、加算器６０８の出力はレ
ジスタ６０３内の転送データ長に等しく、加算器６０９
の出力は、レジスタ６０２にセットされる受信フラグア
ドレスに等しい。したがって、比較回路６１０が、レジ
スタ６０４内の受信済みのデータの総量が加算器６０８
から出力される、転送データ長に等しくなったことを検
出するまで、メモリ書き込み要求発行部６１１は、受信
データのローカルメモリへの書き込みを要求する書き込
み要求を発行する。すべての受信データがローカルメモ
リに書き込まれた後、メモリ書き込み要求発行部６１１
は加算器６０９が出力する、レジスタ６０２内の受信フ
ラグアドレスに従ってローカルメモリ３０４に受信完了
フラグを書き込むための書き込み要求を発行する。こう
して、ＭＰＩライブラリが要求したデータ転送が終了す
る。

【００８１】なお、比較のために、従来のＰＵＴ処理で
は、ＭＰＩ_ｓｅｎｄに示すように、送信側のＰＵＴ／
ＧＥＴライブラリは、ユーザデータとそれに対する付加
情報をそれぞれ転送するための転送制御情報Ａ、Ｂ（８
００、８０１）を作成し、通信領域８０２内にユーザデ
ータとそれに対する送信完了フラグＡ、付加情報とそれ
に対する送信完了フラグＢを記憶するように構成され、
送信側のネットワークインタフェース回路はこえらの転
送制御情報に基づいて、二つのメッセージＡ、Ｂ（８０
４、８０５）を送信する。受信側のネットワークインタ
フェース回路は、通信領域８０３内にユーザデータおよ
びそれに対する受信完了フラグ、付加情報とそれに対す
る受信完了フラグを書き込むように構成される。なお、
転送制御情報Ａ、Ｂには、本実施の形態で言うモードビ
ットが存在しない。

【００８２】これに対して、本実施の形態では、ユーザ
データおよびその付加情報という異なる２つのデータを
ローカルメモリ間直接転送にしたがって１回のメッセー
ジ転送で行なえる。したがって、２回のメッセージ転送
が必要であった従来よりも転送レイテンシおよびローカ
ルメモリアクセス回数を削減して並列処理効率を向上で
きる。さらに、ＭＰＩライブラリを介さない従来のメモ
リ間直接転送も実行できる。

【００８３】さらに、送信側のネットワークインタフェ
ース回路は、送信完了フラグアドレスを付加情報と送信
完了を示す制御情報の書き込みの両方に使用しているの
で、ＰＵＴ／ＧＥＴライブラリがネットワークインタフ
ェース回路に対して指定すべき情報量が少なくて済む。
また、受信側においても、ネットワークインタフェース
回路は、受信完了アドレスを、付加情報と受信完了を示
す制御情報の書き込みの両方に使用しているので、ＰＵ
Ｔメッセージに含まれる情報量が少なくて済み、それだ
けネットワークの混雑を防ぐことができ、さらに、メッ
セージの、送信元の要素プロセッサでの送信時間、ネッ
トワーク上の転送時間および送信先の要素プロセッサに
おける受信時間が短くでき、全体としてメッセージの転
送時間が短くなる。

【００８４】以上のように、従来の方式では、異なる２
種類のデータ送信処理を行う場合、ネットワークインタ
フェース回路３０５がローカルメモリを６回アクセス
（転送制御情報の読み出し×２と転送データの読み出し
×２とフラグの書き込み×２）し、受信処理の場合も送
信と同様に、ネットワークインタフェース回路３０５が
ローカルメモリを４回アクセス（転送データの書き込み
×２とフラグの書き込み×２）することになり、本実施
の形態に比べて処理オーバーヘッドが大きい。本実施の
形態では、転送制御情報にモードビットを持つことで、
転送制御情報の読み出し回数、およびフラグのローカル
メモリへの書き込み回数を送信側４回、受信側３回に削
減してローカルメモリアクセスに関わる処理オーバヘッ
ドを小さくできる。また、従来は２回にわけて転送して
いたメッセージを１回で転送できるため、データ転送の
レイテンシを削減できる。

【００８５】以上ではＭＰＩライブラリを介したＰＵＴ
処理について説明したが、他の通信として、送信元の要
素プロセッサが宛先の要素プロセッサのローカルメモリ
に格納されているユーザデータを取ってくるＧＥＴ処理
がある。本実施の形態は、ＭＰＩライブラリを介したＧ
ＥＴ処理にも同様に適用できる。すなわち、ＭＰＩライ
ブラリとＰＵＴ／ＧＥＴ処理を併用して、ユーザデータ
とそれに対する付加情報を同時に一つのメッセージでＧ
ＥＴ（転送）できる。

【００８６】まず、要求元のユーザプロセスは、ＧＥＴ
要求コマンドをＭＰＩライブラリに対して発行する。こ
のコマンドは、要求するデータのアドレスとデータ長お
よびＭＰＩライブラリが定めた付加情報等からなる点
で、先に説明した送信要求コマンドと同様の引数を指定
する。このコマンドを受けて、ＭＰＩライブラリとＰＵ
Ｔ／ＧＥＴライブラリとネットワークインタフェース回
路は、ＰＵＴ動作の場合と同様にしてＧＥＴ要求メッセ
ージを宛先要素プロセッサに対して転送する。このメッ
セージには、ＰＵＴのときのメッセージにおける受信デ
ータアドレス、受信完了フラグアドレスの代わりに、Ｇ
ＥＴすべきデータに対する送信データアドレスおよび送
信完了フラグが含まれ、ユーザデータと付加情報は含ま
れない。このメッセージが従来のＧＥＴ要求メッセージ
と異なる点は、モードビットを有することである。

【００８７】宛先プロセッサは、ＧＥＴ要求メッセージ
に含まれたデータアドレスで指定されるローカルメモリ
領域からユーザデータを読み出し、送信完了フラグアド
レスで指定されるローカルメモリ領域から付加情報を読
み出し、送信元プロセッサにそのユーザデータと付加情
報を含むＧＥＴメッセージを送り返す。このメッセージ
は、受信データアドレスと受信完了フラグも含む。宛先
プロセッサではそのメッセージを全て相互結合ネットワ
ークに送出した後、送信完了フラグをローカルメモリ内
の、上記付加情報の記憶領域の次のアドレス位置に書き
込む。

【００８８】送信元要素プロセッサは、ＧＥＴメッセー
ジを受信し、メッセージ内の受信データアドレスに従っ
てローカルメモリにそのメッセージ内のデータを書き込
み、そのメッセージ内の受信完了フラグアドレスに従っ
て、メッセージ内の付加情報をローカルメモリに書き込
む。これらのユーザデータと付加情報をすべて受信した
後に受信完了フラグをローカルメモリに書き込む。

【００８９】ＰＵＴ処理と同様に、ＧＥＴ処理でも、転
送制御情報の読み出し回数およびフラグのローカルメモ
リへの書き込み回数を削減してローカルメモリアクセス
に関わる処理オーバヘッドを小さくできる。また、従来
はユーザデータとそれに対する付加情報とを２回にわけ
て転送していたが、本実施の形態では、一つのＧＥＴメ
ッセージでこれらの二つのデータを転送できるため、デ
ータ転送のレイテンシを削減できる。

【００９０】＜変形例＞本発明は以上の実施の形態に限
定されるのではなく、以下に示す変形例を含むいろいろ
の実施の形態により実施可能である。たとえば、ローカ
ルメモリ３０４に格納する転送制御情報に拡張サイズフ
ィールドを設ける。拡張サイズフィールドには、拡張し
たいフラグ領域のサイズをセットする。モードビットが
セットされた場合、送信処理において、転送制御情報を
含むヘッダと、送信データアドレスに従ってローカルメ
モリ領域からよみだされる転送データ長分のデータと、
送信フラグアドレスに従ってローカルメモリ領域から読
み出される拡張サイズフィールドに設定されたサイズ分
の別のデータからメッセージを生成し、相互結合ネット
ワーク１０５に送出する。受信処理においては、メッセ
ージをヘッダ部とデータ部に分解し、ヘッダ内の転送制
御情報に含まれる受信データアドレスで示されるローカ
ルメモリ領域にデータを転送データ長分書き込み、さら
に、ヘッダ内の転送制御情報に含まれる受信フラグアド
レスで示されるローカルメモリ領域に対し、別のデータ
を拡張サイズフィールドに設定されたサイズ分書き込
む。モードビットがセットされていない場合、拡張サイ
ズフィールドにセットされた値は無視される。

【００９１】

【発明の効果】本実施の形態によれば、ＭＰＩのような
メッセージパッシングライブラリを介してメモリ間直接
転送を行う場合におけるデータ転送処理をより高速に行
うことができる。

【図面の簡単な説明】

【図１】本実施の形態が対象とする並列計算機の概略構
成を示す図である。

【図２】本実施の形態で使用する転送制御情報の例を示
す図である。

【図３】図１の装置に使用する要素プロセッサの概略構
成を示す図である。

【図４】図３の要素プロセッサに使用するストレージコ
ントローラおよびネットワークインタフェース回路の構
成を示す図である。

【図５】図４のネットワークインタフェース回路内のメ
ッセージ生成部の内部構成を示す図である。

【図６】図４のネットワークインタフェース回路内のメ
ッセージ分解部の内部構成を示す図である。

【図７】本実施の形態におけるデータ転送処理の概要を
説明する図である。

【図８】従来例のデータ転送処理の概要を説明する図で
ある。

【符号の説明】１０５…相互結合ネットワーク

Claims

【特許請求の範囲】

【請求項１】相互結合ネットワークで接続された複数の
要素プロセッサを有し、各要素プロセッサ内には、ユー
ザプロセスと交信するメッセージパッシングライブラリ
と、そのメッセージパッシングライブラリと交信するメ
モリ間直接転送ライブラリとが組み込まれ、各要素プロ
セッサは、プロセッサと、メモリと、上記相互結合ネッ
トワークとの間でメッセージを交換するためのネットワ
ークインタフェース回路とを有する計算機システムにお
いて、送信側の要素プロセッサで走行中のユーザプロセスによ
り、その要素プロセッサ内のメッセージパッシングライ
ブラリに対して発行されたデータ送信要求が要求する送
信データと、そのデータ送信要求が要求する、メッセー
ジパッシングライブラリにより定められた、受信側の要
素プロセッサに送信されるべき付加情報との送信を、そ
のメッセージパッシングライブラリからその要素プロセ
ッサ内のメモリ間直接転送ライブラリに対して要求し、そのメモリ間直接転送ライブラリにより、上記要求され
た送信データおよび付加情報と、それらの受信の完了を
示す制御情報を書き込むべき領域を指定するための、受
信側の要素プロセッサがあらかじめ決定した受信側アド
レス情報とを含むメッセージの送信を上記ネットワーク
インタフェース回路に対して要求し、上記ネットワークインタフェース回路により、上記メッ
セージを組立て、受信側の要素プロセッサに宛てて上記
相互結合ネットワークに送信し、上記メッセージの送信後に、そのメモリ間直接転送ライ
ブラリが決定したアドレスを有する、上記メモリ内の記
憶位置に送信完了を示す制御情報を上記ネットワークイ
ンタフェース回路により書き込むステップからなるデー
タ転送方法。
【請求項２】受信側の要素プロセッサ内のネットワーク
インタフェース回路により、上記メッセージ内の送信デ
ータと付加情報を、受信側の要素プロセッサのメモリ内
の、上記受信側アドレス情報により定まる領域に書き込
み、上記書き込みの終了後に、受信側の要素プロセッサ内の
ネットワークインタフェース回路により、受信完了を示
す制御情報を、上記メモリ内の、上記受信側アドレス情
報により定まる領域に書き込むステップをさらに有する
請求項１記載のデータ転送方法。
【請求項３】上記データ送信要求は、上記送信データに
関する第１のアドレス情報とデータ長情報と上記付加情
報を指定し、上記メッセージの送信を要求するステップは、送信側の要素プロセッサ内の上記メモリ間直接転送ライ
ブラリにより、上記要求された付加情報を、そのメモリ
間直接転送ライブラリが付加情報と送信完了を示す制御
情報を書き込むための領域として決定した、上記メモリ
内の領域に書き込み、そのメモリ間直接転送ライブラリにより、上記第１のア
ドレス情報、上記送信データ長情報、上記付加情報が書
き込まれた上記領域を指定する第２のアドレス情報およ
び上記受信側アドレス情報とを指定するメッセージ送信
要求を送信側の要素プロセッサ内の上記ネットワークイ
ンタフェース回路に対して発行するステップからなり、上記メッセージを送信するステップは、上記ネットワークインタフェース回路により、そのメッ
セージ送信要求で指定された上記第１のアドレス情報と
上記データ長情報との組および上記第２のアドレス情報
にそれぞれ基づいて、上記送信データおよび上記付加情
報を送信側の要素プロセッサのメモリより読み出し、上記ネットワークインタフェース回路により、そのメッ
セージ送信要求が指定した上記受信側アドレス情報と上
記データ長情報、上記読み出された送信データおよび付
加情報を含むメッセージを生成し、上記ネットワークを
介して受信側の要素プロセッサに送信するステップを有
し、上記送信完了を示す制御情報を書き込むステップは、上
記第２のアドレス情報に基づいて、上記付加情報が記憶
された領域と異なる記憶位置に送信完了を示す制御情報
を書き込むステップを有する請求項１記載のデータ送信
方法。
【請求項４】受信側の要素プロセッサ内のネットワーク
インタフェース回路により、上記メッセージ内の送信デ
ータと付加情報を、受信側の要素プロセッサのメモリ内
の、上記受信側アドレス情報により定まる領域に書き込
み、上記書き込みの終了後に、受信側の要素プロセッサ内の
ネットワークインタフェース回路により、受信完了を示
す制御情報を、上記メモリ内の、上記受信側アドレス情
報により定まる領域に書き込むステップをさらに有し、上記受信側のアドレス情報は、上記メッセージ内の送信
データを書き込むべき第３のアドレス情報と受信完了を
示す制御情報を書き込む第４のアドレス情報からなり、上記メッセージ内の送信データと付加情報を書き込むス
テップは、上記第３、第４のアドレス情報に基づいて、
上記送信データおよび上記付加情報を、受信側の要素プ
ロセッサのメモリに書き込むステップからなり、上記受信完了を示す制御情報を書き込むステップは、上
記第４のアドレス情報に基づいて、受信側の要素プロセ
ッサのメモリ内の、上記付加情報が書き込まれた領域と
異なる領域に書き込むステップからなる請求項３記載の
データ転送方法。
【請求項５】送信側の要素プロセッサで走行中の他のユ
ーザプロセスによりその要素プロセッサ内の上記メモリ
間直接転送ライブラリに対して発行された他のデータ送
信要求が要求する送信データと、受信側の要素プロセッ
サがあらかじめ決定した、受信データと受信完了を示す
制御情報を書き込むべき領域を指定するための受信側ア
ドレス情報とを含むメッセージの送信を、そのメモリ間
直接転送ライブラリにより、送信側の要素プロセッサの
上記ネットワークインタフェース回路に対して要求し、上記メッセージを上記ネットワークインタフェース回路
により組立て、受信側の要素プロセッサに宛てて上記相
互結合ネットワークに送信し、上記メッセージの送信後に、そのメモリ間直接転送ライ
ブラリが決定したアドレスを有する、上記メモリ内の記
憶位置に送信完了を示す制御情報を上記ネットワークイ
ンタフェース回路により書き込み、受信側の要素プロセッサ内のネットワークインタフェー
ス回路により、上記メッセージ内の送信データを、受信
側の要素プロセッサのメモリ内の、上記受信側アドレス
情報により定まる領域に書き込み、上記書き込みの終了後に、受信側の要素プロセッサ内の
ネットワークインタフェース回路により、受信完了を示
す制御情報を、上記メモリ内の、上記受信側アドレス情
報により定まる領域に書き込むステップをさらに有する
請求項２記載のデータ転送方法。
【請求項６】相互結合ネットワークで接続された複数の
要素プロセッサを有し、各要素プロセッサは、プロセッサと、メモリと、上記相
互結合ネットワークとの間でメッセージを交換するため
のネットワークインタフェース回路とを有し、上記ネッ
トワークインタフェース回路は、転送すべきメッセージに関する情報として上記プロセッ
サにより供給される、第１のアドレス情報とデータ長情
報との組および第２のアドレス情報とに基づいて、それ
ぞれ送信されるべき第１のデータおよびそのデータとと
もに送信されるべき第２のデータを上記メモリから読み
出すメモリアクセス回路と、読みだされた第１，第２のデータと、転送すべきメッセ
ージに関する他の情報として上記プロセッサにより供給
される第３，第４のアドレス情報を含む一つのメッセー
ジを生成し、上記相互結合ネットワークに送信する回路
とを有し、上記メモリアクセス回路は、上記メッセージの送信後
に、上記第２のアドレス情報に基づいて、上記送信完了
を示す制御情報を上記メモリ内の、上記第２のデータが
記憶されている記憶位置と異なる記憶位置に書き込み、該第１のアドレス情報は、上記第１のデータを保持す
る、上記メモリ内の領域のアドレスを指示し、上記デー
タ長情報は、上記第１のデータの長さを指定し、該第２
のアドレス情報は、上記第２のデータを保持し、かつ、
該第１のデータの送信完了を示す制御情報をさらに保持
すべき、上記メモリ内の領域のアドレスを指示し、該第
３のアドレス情報は、第１のデータを書き込むべき、受
信側の要素プロセッサのメモリ内の領域のアドレスを指
示し、該第４のアドレス情報は、上記第１のデータおよ
び該第１のデータの受信完了を示す制御情報とを格納す
るための、受信側の要素プロセッサのメモリ内の領域の
アドレスを指示する計算機システム。
【請求項７】上記ネットワークインタフェース回路は、
他の要素プロセッサから送信されたメッセージを上記相
互結合ネットワークから受信する回路をさらに有し、上記メモリアクセス回路は、受信されたメッセージ内の
上記第３のアドレス情報に基づいて、受信されたメッセ
ージ内の上記第１のデータを上記メモリに書き込み、受
信されたメッセージ内の上記第４のアドレス情報に基づ
いて、受信されたメッセージ内の上記第２のデータを上
記メモリに書き込み、上記受信されたメッセージ内の上
記第１，第２のデータの書き込みの終了後に、上記第４
のアドレス情報に基づいて、上記第１のデータの受信完
了を示す制御情報を、上記メモリ内の、受信された上記
第２のデータが記憶されている記憶位置と異なる記憶位
置に書き込む回路を有する請求項６記載の計算機システ
ム。
【請求項８】上記転送制御情報はモードビットをさらに
有し、上記メモリアクセス回路は、上記モードビットが第１の
値の時に、上記第２のデータの読み出しを実行し、上記
モードビットが第２の値の時に、上記第２のデータの読
み出しを実行せず、上記メッセージ送信回路は、上記モードビットが第１の
値の時に、上記第２のデータを含むメッセージを生成
し、上記モードビットが第２の値の時に、上記第２のデ
ータを含まないメッセージを生成し、上記メモリアクセス回路は、上記モードビットが第１の
値の時には、上記メッセージの送信後に、上記第２のア
ドレス情報に基づいて、上記送信完了を示す制御情報
を、上記メモリ内の、上記第２のデータが記憶されてい
る記憶位置と異なる記憶位置に書き込み、上記モードビ
ットが第２の値の時には、上記メッセージの送信後に、
上記送信完了を示す制御情報を、上記第２のアドレス情
報に依存する、上記メモリ内の記憶位置に書き込む回路
を有する請求項６記載の計算機システム。
【請求項９】上記メッセージ送信が生成するメッセージ
は、上記モードビットを含み、上記ネットワークインタフェース回路は、他の要素プロ
セッサから送信されたメッセージを上記相互結合ネット
ワークから受信する回路をさらに有し、上記メモリアクセス回路は、受信されたメッセージ内のモードビットが第１の値の時
には、受信されたメッセージ内の上記第３のアドレス情
報に基づいて、受信されたメッセージ内の上記第１のデ
ータを上記メモリに書き込み、上記受信されたメッセー
ジ内の上記第４のアドレス情報に基づいて、受信された
メッセージ内の上記第２のデータを上記メモリに書き込
み、上記受信されたメッセージ内の上記第１，第２のデ
ータの書き込みの終了後に、上記第４のアドレス情報に
基づいて、上記第１のデータの受信完了を示す制御情報
を、上記メモリ内の、受信された上記第２のデータが記
憶されている記憶位置と異なる記憶位置に書き込み、受信されたメッセージ内のモードビットが第２の値の時
には、受信されたメッセージ内の上記第１のデータを、
受信されたメッセージ内の上記第３のアドレス情報に基
づいて、上記メモリ内の記憶位置に書き込み、上記受信
されたメッセージ内の上記第１のデータの書き込みの終
了後に、上記第１のデータの受信完了を示す制御情報
を、上記第４のアドレス情報に依存する、上記メモリ内
の記憶位置に書き込む回路を有する請求項８記載の計算
機システム。