JP3251147B2

JP3251147B2 - プロセッサ間データ転送方法およびその装置

Info

Publication number: JP3251147B2
Application number: JP11374295A
Authority: JP
Inventors: 哲也広瀬
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1995-04-14
Filing date: 1995-04-14
Publication date: 2002-01-28
Anticipated expiration: 2017-01-28
Also published as: JPH08287031A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、複数のプロセッサがプ
ロセッサ間ネットワークによって結合された並列計算機
におけるプロセッサ間データ転送技術に関する。

【０００２】

【従来の技術】一般にプロセッサ間ネットワーク内を転
送されるパケットには、その語数について制限がある。
このため、複数のプロセッサがプロセッサ間ネットワー
クによって結合された並列計算機において、プロセッサ
間で大量のデータを転送する場合、複数のパケットに分
割してプロセッサ間ネットワークを通じて転送する必要
がある。

【０００３】またプロセッサ間ネットワークからデータ
を受信したプロセッサ側では、その旨を当該プロセッサ
内のＣＰＵに通知するために一般にＣＰＵに割り込みが
かけられるが、前述のように複数のパケットに分割され
て転送されるデータに関しては、割り込みをかける方式
として、次の２通りの方式がある。

【０００４】その１つは、個々のパケットを受信する毎
に、そのパケットのデータを主記憶に格納してＣＰＵに
割り込みをかける方式である。

【０００５】他の方式は、本出願人が先に提出した特願
平６−１３８８２２号に開示するように、一連のパケッ
トのうちの最後のパケットのデータを主記憶に格納した
時点でＣＰＵに割り込みをかける方式である。

【０００６】なお、何れの方式においても、受信したパ
ケットを一時的に蓄えておくバッファメモリは設けられ
ておらず、受信したパケットのデータを主記憶に直接に
書き込む方式が採用されている。

【０００７】前者のように各パケット受信毎にＣＰＵに
割り込みをかけると、その度にＣＰＵの処理が中断さ
れ、レジスタ退避などのオーバヘッドが発生して処理の
効率が低下する問題がある。これに対し、後者のように
最後のパケットを受信した時点でＣＰＵに割り込みをか
ける方式によれば、不必要な割り込みによるＣＰＵの処
理の中断を防ぐことができる。

【０００８】

【発明が解決しようとする課題】ところで、一般に並列
計算機において、各プロセッサが遠隔のデータにアクセ
スするのに、その都度ネットワークを介してデータ転送
するのは効率的でない。そこで、自プロセッサの主記憶
上にそのコピーを保持しておき、可能なかぎりそのコピ
ーを利用することで実質的なデータアクセス時間を短縮
している。このとき問題となるのが主記憶とキャッシュ
メモリとの一貫性の維持である。即ち、キャッシュメモ
リは主記憶の一部のコピーを保持しているため、転送さ
れてきたデータによって主記憶が書き替えられた場合、
そのコピー部分がキャッシュメモリ上に存在していれば
矛盾が生じることになる。そこで、主記憶のデータが書
き替えられた場合、何らかの手段でその領域がキャッシ
ュメモリに存在するか否かを調べ、若し存在すればその
一貫性を保つ処理を行う必要がある。ハードウェアでこ
の処理を行う事は、キャッシュ処理速度は早くなるが、
コスト高や、バスの使用量の増大により全体の性能を落
とす可能性がある。一方、ＣＰＵによるソフトウェア処
理によってこの処理を行う場合、従来のプロセッサ間デ
ータ転送方法を採用している関係上、以下のような問題
があった。

【０００９】データを複数のパケットに分割して転送
し、その個々のパケットの受信時にＣＰＵに割り込みを
かける方法では、頻繁な割り込みによってオーバヘッド
が増大するのに加え、割り込みがかかったＣＰＵがキャ
ッシュ処理を行っている期間中は、次の受信パケットの
データを主記憶へ格納することができないため、実質的
なパケットの転送時間間隔が長くなり、データ転送速度
が低下するという問題がある。

【００１０】他方、データを複数のパケットに分割して
転送し、その最後のパケットの受信時にのみＣＰＵに割
り込みをかける方法では、ＣＰＵによるキャッシュ処理
のための主記憶からのデータの読み出しと受信したパケ
ットの主記憶への書き込みとが競合することはないが、
キャッシュ処理が全データの受信後に実施されるため、
キャッシュ処理の完了が遅延するという問題がある。

【００１１】本発明はこのような従来の問題点を解決し
たものであり、その目的は、データ転送速度を向上し得
ると共に、受信側で一貫性を維持するためのキャッシュ
処理を速やかに完了し得るようにすることにある。

【００１２】

【課題を解決するための手段】本発明は上記の目的を達
成するために、ＣＰＵと主記憶とその一部のコピーを保
持するキャッシュメモリとを備えた第１のプロセッサの
前記主記憶に書き込むべきデータを複数のパケットに分
割して第２のプロセッサからプロセッサ間ネットワーク
を介して前記第１のプロセッサに転送するプロセッサ間
データ転送方法において、前記第２のプロセッサは、前
記データを前記プロセッサ間ネットワークの転送速度，
前記第１のプロセッサのバッファメモリ容量および前記
第１のプロセッサの処理速度から決まる最適な大きさの
複数のブロックに分割すると共に個々のブロックを複数
のパケットに分割し、各ブロックの複数のパケットのう
ち最後に転送するパケットのヘッダ部の受信終了割り込
みフラグを１、その他のパケットのヘッダ部の受信終了
割り込みフラグは０にして、前記プロセッサ間ネットワ
ークを介して前記第１のプロセッサにそれらのパケット
を順次に転送し、前記第１のプロセッサにおいては、前
記プロセッサ間ネットワークを介して受信したパケット
をバッファメモリに蓄積する処理と並行して、該蓄積さ
れたパケットに格納されているデータを主記憶に格納す
る処理を実行し、且つ、ヘッダ部の受信終了割り込みフ
ラグが１になっているパケットに格納されていたデータ
を主記憶に格納し終わる毎にＣＰＵに割り込みをかけ、
該ＣＰＵは割り込みをかけられる毎に主記憶に格納され
たデータに基づいてキャッシュメモリの一貫性を保つ処
理を実行するようにしている。

【００１３】そして、このようなプロセッサ間データ転
送方法を実施するために、本発明のプロセッサ間データ
転送装置は、第２のプロセッサに、データをプロセッサ
間ネットワークの転送速度，第１のプロセッサのバッフ
ァメモリ容量および第１のプロセッサの処理速度から決
まる最適な大きさの複数のブロックに分割すると共に個
々のブロックを複数のパケットに分割し、各ブロックの
複数のパケットのうち最後に転送するパケットのヘッダ
部の受信終了割り込みフラグを１、その他のパケットの
ヘッダ部の受信終了割り込みフラグは０にして、前記プ
ロセッサ間ネットワークを介して前記第１のプロセッサ
にそれらのパケットを順次に転送する送信装置を備え、
第１のプロセッサに、プロセッサ間ネットワークを介し
て受信したパケットを蓄積するバッファメモリを有し、
このバッファメモリに蓄積されたパケットに格納されて
いるデータを主記憶に格納し、ヘッダ部の受信終了割り
込みフラグが１になっているパケットに格納されていた
データを主記憶に格納する毎に、その格納データに基づ
いてキャッシュメモリの一貫性を保つ処理を起動するた
めにＣＰＵに割り込みをかける受信装置とを備えてい
る。

【００１４】なお、データの転送は相互に行われること
が一般的であるため、各プロセッサには、上述した送信
装置と受信装置から構成されるプロセッサ間データ転送
装置が備えられる。

【００１５】

【作用】本発明においては、第１のプロセッサの主記憶
ヘ書き込むべきデータを第２のプロセッサから転送する
際、第２のプロセッサに設けられた送信装置が、データ
を複数のブロックに分割すると共に個々のブロックを複
数のパケットに分割し、各ブロックの複数のパケットの
うち最後に転送するパケットのヘッダ部の受信終了割り
込みフラグを１、その他のパケットのヘッダ部の受信終
了割り込みフラグは０にして、プロセッサ間ネットワー
クを介して第１のプロセッサにそれらのパケットを順次
に転送し、第１のプロセッサに設けられた受信装置にお
いて、プロセッサ間ネットワークを介して受信したパケ
ットをバッファメモリに蓄積すると共に、それと並行し
て、バッファメモリに蓄積されたパケットに格納されて
いるデータを主記憶に格納し、ヘッダ部の受信終了割り
込みフラグが１になっているパケットに格納されていた
データを主記憶に格納し終わる毎に、ＣＰＵに割り込み
をかけ、ＣＰＵがその割り込み時に主記憶に格納された
データに基づいてキャッシュメモリの一貫性を維持する
処理を実行する。

【００１６】

【実施例】次に本発明の実施例について図面を参照して
詳細に説明する。

【００１７】図１は本発明を適用した並列計算機の構成
例を示すブロック図である。この例の並列計算機は、Ｎ
台のプロセッサ１−１〜１−Ｎをプロセッサ間ネットワ
ーク２によって相互に接続したものである。プロセッサ
１−１〜１−Ｎは全て同じ構成を有しており、図１には
プロセッサ１−１を例にその内部構成を示してある。

【００１８】図１に示すように、各プロセッサ１−１〜
１−Ｎは、ＣＰＵ７と、主記憶３と、プロセッサ間デー
タ転送装置４と、これらを結ぶバス５と、ＣＰＵ７に接
続されたキャッシュメモリ６とで構成される。また、プ
ロセッサ間データ転送装置４は、送信装置４１および受
信装置４２で構成される。

【００１９】ＣＰＵ７は演算処理等を司ると共に、主記
憶３上のデータを他のプロセッサに転送する際の起動処
理および他のプロセッサから転送されてきたデータに基
づくキャッシュ処理を司る。

【００２０】他のプロセッサに転送する際の起動処理で
は、ＣＰＵ７は、主記憶３上に転送データ用のヘッダを
作成し、バス５を介してプロセッサ間データ転送装置４
の送信装置４１を起動する。

【００２１】図２に主記憶上に作成される転送データ用
のヘッダ３１の例を示す。同図に示すように、ヘッダ３
１は、宛先プロセッサ指定情報３１１と、転送すべき一
連のデータの語数を指定したデータ長３１２と、受信終
了割り込みフラグ３１３と、一連のデータの主記憶３上
の先頭アドレスを指し示すソースアドレス３１４と、受
信側プロセッサにおいて転送されてきたデータをその主
記憶に書き出す先頭アドレスを指し示すデスティネーシ
ョンアドレス３１５と、その他の情報３１６とで構成さ
れている。ここで、受信終了割り込みフラグ３１３は、
２または１または０の値をとり、２のときに本発明にお
ける転送方法が有効となる。なお、１のときは例えば一
連のデータをパケットに分割して転送する際の最後のパ
ケットの受信終了時に割り込みを発生させる従来の方法
が有効となり、０の場合は受信終了時に割り込みを発生
させない。なお、本発明の特徴は受信終了割り込みフラ
グ３１３が２の場合にあるので、以下では受信終了割り
込みフラグ３１３が２になっている場合に限って説明す
る。

【００２２】また、他のプロセッサから転送されてきた
データに基づくキャッシュ処理は、受信装置４２からの
受信終了割り込みを契機に開始される。キャッシュ処理
では、ＣＰＵ７は、受信終了割り込みにて指定された主
記憶３上の領域のコピーがキャッシュメモリ６に存在す
るか否かを調査し、若しコピーが存在すればそれを無効
化する。

【００２３】プロセッサ間データ転送装置４の送信装置
４１は、他のプロセッサに転送すべき一連のデータを複
数のブロックに分割すると共に個々のブロックを複数の
パケットに分割し、各ブロックの複数のパケットのうち
最後に転送するパケットのヘッダ部の受信終了割り込み
フラグを１、その他のパケットのヘッダ部の受信終了割
り込みフラグは０にして、プロセッサ間ネットワーク２
を介して他のプロセッサにそれらのパケットを順次に転
送する装置であり、本実施例の場合、バスインタフェイ
ス４１１と、送信制御部４１２と、レジスタ群４１３
と、ネットワークインタフェイス４１４とで構成されて
いる。ここで、バスインタフェイス４１１は、バス５を
通じてＣＰＵ７と信号の授受を行うと共に主記憶３から
のデータの読み出しを行う部分であり、レジスタ群４１
３は送信処理に際して必要な種々のデータを一時的に保
持する部分であり、ネットワークインタフェイス４１４
は作成したパケットをプロセッサ間ネットワーク２に送
出する部分であり、送信制御部４１２は送信装置４１全
体の制御を司る部分である。

【００２４】図３にプロセッサ間ネットワーク２を転送
されるパケットの構成例を示す。同図に示すように、パ
ケット３２は、パケットヘッダ３２１と転送データが格
納されるパケット本体３２２とから構成される。また、
パケットヘッダ３２１は、宛先プロセッサ指定情報３２
１１，送り元プロセッサ３２１２，パケット本体３２２
に格納されているデータの語数を示すパケット語数３２
１３，受信終了割り込みフラグ３２１４，及び当該パケ
ット本体３２２のデータを書き込むべき受信側の主記憶
の先頭アドレスを指し示すデスティネーションアドレス
３２１５，その他の情報３２１６で構成される。ここ
で、受信終了割り込みフラグ３２１４は１または０の値
をとり、１のときに受信終了割り込みが有効となり、０
のときに無効となる。

【００２５】また図４に送信装置４１の送信制御部４１
２の処理例を示す。各ステップでは以下のような処理が
行われる。処理Ｓ１では、主記憶３から転送データ用の
ヘッダ３１（図２参照）を読み出して解析する。処理Ｓ
２では、ヘッダ３１に設定されたデータ長３１２を残デ
ータ長Ａに、ソースアドレス３１４を現ソースアドレス
Ｂに、デスティネーションアドレス３１５を現デスティ
ネーションアドレスＣにそれぞれ初期設定する。

【００２６】処理Ｓ３では、転送データ長Ａをブロック
サイズ（分割単位語数）Ｐで除算してその余りを切り上
げることで、転送する一連のデータを何ブロックに分け
て送るか求め、ブロック数Ｎとする。

【００２７】このブロックサイズ（分割単位語数）Ｐ
は、プロセッサ間ネットワーク２の実行転送速度，受信
装置内のバッファメモリの容量，受信装置のメモリ転送
速度，受信側ＣＰＵによるキャッシュ処理の速度，割り
込み等の遅延時間によって最適値が求められる。例え
ば、ネットワークがＮ（Ｂ／ｓ），メモリ転送速度がＭ
（Ｂ／ｓ），バッファメモリがＢ（Ｂ）、受信側のキャ
ッシュ処理速度がＩ（Ｂ／ｓ），割り込み等の遅延時間
をＤ（ｓ）とすると、Ｐは次のように求められる。

【００２８】Ｌ＝［Ｍ×ｍｉｎ〔Ｎ｛（ｘ／Ｉ）＋
Ｄ｝，Ｂ〕］／（Ｍ−Ｎ）として、ｘ≦Ｌである場合には、ｙ＝ｘ／｛（ｘ／Ｍ）＋（ｘ／Ｉ）＋Ｄ｝ｘ＞Ｌである場合には、ｙ＝ｘ／〔（Ｌ／Ｍ）＋｛（ｘ−Ｌ）／Ｎ｝＋（ｘ／
Ｉ）＋Ｄ〕で表される値ｙを、最大とする値ｘをＰとする。但し、
このブロックサイズ（分割単位語数）Ｐは、予め送信装
置４１に設定されたパケット語数Ｑの倍数とし、この値
も予め送信装置４１に設定しておく。

【００２９】処理Ｓ４〜処理Ｓ１２は、１つのブロック
を転送する手順である。処理Ｓ４では、１つのブロック
（１分割単位）当たりのパケット数Ｒを求める。Ｒは、
基本的にはブロック語数（分割単位語数）Ｐをパケット
語数Ｑで除算することで求める。最後のブロックの場合
は残データ長ＡがブロックサイズＰより小さいことがあ
る。このような場合は残データ長Ａをパケット語数Ｑで
除算してその余りを切り上げることで、Ｒを求める。

【００３０】処理Ｓ５では、Ｒの値（その初期値は処理
Ｓ４で設定されるが、後述する処理Ｓ８で減算されるの
で変化する）が１になったか否かを、即ち次に送出すべ
きパケットが転送中のブロックにおける最後のパケット
であるか否かを判定する。処理Ｓ６では、送出する１つ
のパケットを生成する。このとき生成されるパケット
は、図３の受信終了割り込みフラグ３２１４が０となる
パケットであり、またパケット語数３２１３はパケット
語数Ｑ、デスティネーションアドレス３２１５は現デス
ティネーションアドレスＣ、パケット本体は主記憶３の
現ソースアドレスＢから始まる語数Ｑのデータである。
処理Ｓ７では、作成したパケットをネットワークインタ
フェイス４１４によってプロセッサ間ネットワーク２に
送出する。処理Ｓ８では、パケット語数Ｑのパケットを
１つ送出したので、残データ長Ａ，現ソースアドレス
Ｂ，現デスティネーションアドレスＣをそれぞれパケッ
ト語数Ｑ分だけ変更し、ブロック当たりのパケット数Ｒ
の値を−１する。

【００３１】他方、処理Ｓ９〜処理Ｓ１２では、各ブロ
ックの最後のパケットの送出の手順である。処理Ｓ９で
は、Ｎの値（その初期値は処理Ｓ３で設定されるが、後
述する処理Ｓ１２で減算されるので変化する）が１にな
ったか否か、即ち転送中のブロックが全転送データ中の
最後のブロックであるか否かを判定する。処理Ｓ１０で
は、送出する１つのパケットを生成する。このとき生成
されるパケットは、図３の受信終了割り込みフラグ３２
１４が１となるパケットであり、またパケット語数３２
１３はパケット語数Ｑ、デスティネーションアドレス３
２１５は現デスティネーションアドレスＣ、パケット本
体は主記憶３の現ソースアドレスＢから始まる語数Ｑの
データである。処理Ｓ１１では、作成したパケットをネ
ットワークインタフェイス４１４によってプロセッサ間
ネットワーク２に送出する。処理Ｓ１２では、パケット
語数Ｑのパケットを１つ送出したので、残データ長Ａ，
現ソースアドレスＢ，現デスティネーションアドレスＣ
をそれぞれパケット語数Ｑ分だけ変更し、転送ブロック
数Ｎの値を−１する。

【００３２】処理Ｓ１３と処理Ｓ１４は、最後のブロッ
クの最後のパケットの送出手順である。処理Ｓ１３で送
出する１つのパケットを生成し、処理Ｓ１４でそのパケ
ットをネットワークインタフェイス４１４によってプロ
セッサ間ネットワーク２に送出する。このとき生成され
るパケットは、図３の受信終了割り込みフラグ３２１４
が１となるパケットであり、またパケット語数３２１３
は残データ長Ａ（この時点でＡは、パケット語数Ｑ以下
となっている）、デスティネーションアドレス３２１５
は現デスティネーションアドレスＣ、パケット本体のデ
ータは、主記憶３の現ソースアドレスＢから始まる語数
Ａのデータである。

【００３３】次に、図１における受信装置４２は、プロ
セッサ間ネットワーク２を介して受信したパケットをバ
ッファメモリに蓄積する処理と並行して、この蓄積され
たパケットに格納されているデータを主記憶３に格納す
る処理を実行し、且つ、受信終了割り込みフラグが１に
なっているパケットに格納されていたデータを主記憶３
に格納し終わる毎にＣＰＵ７に受信終了割り込みをかけ
る装置であり、本実施例の場合、バスインタフェイス４
２１と、受信制御部４２２と、バッファメモリ４２３
と、ネットワークインタフェイス４２５とで構成され
る。ここで、バスインタフェイス４２１は、バス５を通
じてＣＰＵ７と信号の授受を行うと共に主記憶３へのデ
ータの書き込みを行う部分であり、バッファメモリ４２
３は受信したパケットを一時的に蓄積する十分な容量を
有するＦＩＦＯ等であり、ネットワークインタフェイス
４２５はプロセッサ間ネットワーク２から自プロセッサ
宛のパケットを受信しバッファメモリ４２３に格納する
部分であり、受信制御部４２２は受信装置４２全体の制
御を司る部分である。

【００３４】図５は受信装置４２における受信制御部４
２２の処理例を示すフローチャートである。プロセッサ
間ネットワーク２から受信されたパケットがバッファメ
モリ４２３に蓄積され始めてバッファメモリ４２３が空
でなくなると、バッファ制御部４２４からのその旨の信
号によって受信制御部４２２が図５に示す処理を開始す
る。先ず、処理Ｓ２１では、バッファメモリ４２３から
受信パケットのパケットヘッダを読み出す。処理Ｓ２２
では、受信パケットのパケット本体のデータをバッファ
メモリ４２３から読み出し、前記パケットヘッダの図３
のデスティネーションアドレス３２１５が指し示す主記
憶３のアドレス以降に、その読み出したパケット本体の
データをバスインタフェイス４２１およびバス５を介し
て書き込む。処理Ｓ２３では、今回処理したパケットヘ
ッダの図３の受信終了割り込みフラグ３２１４を調べ、
０であれば、今回のデスティネーションアドレス３２１
５を記憶しておいて、処理Ｓ２１に戻って次のパケット
を処理する。

【００３５】他方、受信終了割り込みフラグ３２１４が
１であれば、処理Ｓ２４で、バスインタフェイス４２１
およびバス５を通じてＣＰＵ７に受信終了割り込みをか
ける。この割り込みでは、今回のデスティネーションア
ドレス３２１５及びパケット語数３２１４と、起動時あ
るいは前回の割り込み時より記憶しておいた以前の書き
込み時のデスティネーションアドレス３２１５とから、
データを格納した主記憶３のアドレス範囲を示す情報を
作成し、これが併せて通知される。そして、処理Ｓ２５
でＣＰＵ７からの再起動を待つ。ＣＰＵ７からの再起動
は、ＣＰＵ７が今回のキャッシュ処理を終えた時点で、
バス５およびバスインタフェイス４２１を通じて受信制
御部４２２に与えられる。受信制御部４２２は、再起動
されると、処理Ｓ２１に戻って次の受信パケットを処理
する。この時、ネットワークインタフェイス４２５は独
立して動いていてバッファメモリ４２３に空きがある限
り、ネットワークからのパケットをバッファメモリ４２
３に蓄積する処理を行う。

【００３６】図６は、プロセッサ間データ転送の手順の
概要を示しており、例として図１のプロセッサ１−１を
送信側プロセッサ、プロセッサ１−Ｎを受信側プロセッ
サとしたものである。以下、プロセッサ１−１からプロ
セッサ１−Ｎにデータを転送する場合を例にして本実施
例の動作を説明する。

【００３７】送信側プロセッサ１−１のＣＰＵ７は、図
６に示すように、主記憶３上の連続したアドレス空間上
に存在する一連のデータ３３をプロセッサ１−Ｎへ転送
する場合、主記憶３上に図２で説明したようなヘッダ３
１を作成し、このヘッダ３１のアドレスを通知してプロ
セッサ間データ転送装置４の送信装置４１を起動する。

【００３８】送信装置４１の送信制御部４１２は、起動
をかけられると、主記憶３からヘッダ３１を読み出して
解析し（図４のＳ１）、次いで、そのヘッダ３１のデー
タ長３１２，ソースアドレス３１４，デスティネーショ
ンアドレス３１５から残データ長Ａ，現ソースアドレス
Ｂ，現デスティネーションアドレスＣを初期設定し（Ｓ
２）、転送ブロック数を決定する（Ｓ３）。そして、図
４の処理Ｓ４〜Ｓ１４を実行することにより、主記憶上
のデータ３２を複数のブロックに分割した場合の個々の
ブロックを複数のパケットに分割してプロセッサ間ネッ
トワーク２に送出する。図６のプロセッサ間ネットワー
ク２内に図示したパケット列Ｐ１〜Ｐｍは、このように
して送出された一連のパケットを示しており、各パケッ
ト列Ｐ１〜Ｐｍがそれぞれ１ブロックに対応しており、
各パケット列Ｐ１〜Ｐｍの複数のパケットのうち最後に
転送されるパケットのみが受信終了割り込みフラグ＝１
になっている。

【００３９】さて、送信側プロセッサ１−１からプロセ
ッサ間ネットワーク２に順次に送出されたパケットはそ
の送出順に受信側プロセッサ１−Ｎの受信装置４２にお
けるネットワークインタフェイス４２５で受信され、バ
ッファメモリ４２３に蓄積されていく。

【００４０】受信装置４２の受信制御部４２２は、バッ
ファメモリ４２３にパケットが蓄積され始めると、図５
に示す処理を開始し、受信したパケットのパケット本体
のデータをバッファメモリ４２３から読み出して、その
パケットヘッダのデスティネーションアドレス３１５で
指定された主記憶３のアドレス以降にバスインタフェイ
ス４２１およびバス５を介して順次に書き込んでいく。
そして、今回書き込んだパケットの受信終了割り込みフ
ラグ３２１４が０のときは、ＣＰＵ７に受信終了割り込
みをかけることなく次の受信パケットのバッファメモリ
４２３からの読み出しと主記憶３への書き込みを続ける
が、受信終了割り込みフラグ３２１４が１であると、バ
スインタフェイス４２１およびバス５を介してＣＰＵ７
に受信終了割り込みをかける。従って、図６に示した一
連のパケットの転送においては、最初のパケット列Ｐ１
の最後のパケットのデータを主記憶３に書き込んだ時点
でＣＰＵ３に受信終了割り込みがかけられることにな
る。

【００４１】ＣＰＵ７は、受信装置４２から受信終了割
り込みがかけられると、その割り込み時に通知された主
記憶３の書き込み範囲を示すアドレス範囲情報に従っ
て、主記憶３に今回書き込まれた範囲を認識し、その部
分に関してのキャッシュ処理を実行する。即ち、その範
囲内のデータのコピーがキャッシュメモリ６に存在する
か否かを調べ、若し存在する場合にはそのコピーを無効
化する。そして、今回書き込まれたデータに関するキャ
ッシュ処理を終えると、バス５を介して受信装置４２を
再起動する。

【００４２】この再起動により、受信装置４２の受信制
御部４２２は、次の受信パケットのバッファメモリ４２
３からの読み出しと主記憶３への書き込みを再開する。

【００４３】以上のような処理によって、図６に示され
た次のパケット列Ｐ２以降の各パケット列の受信毎に、
ＣＰＵ７によるキャッシュ処理が行われる。なお、受信
制御部４２２は最終のパケットを処理し終えると処理を
終了する。

【００４４】図７（ａ）に本発明のプロセッサ間データ
転送方法を適用した場合の受信側での動作タイミングチ
ャートを示す。同図に示すように、本発明では、キャッ
シュ処理中においてもバッファメモリへの書き込み、即
ちパケットの受信が可能であり、またキャッシュ処理を
開始させる契機となるＣＰＵ割り込みがパケット単位で
なくブロック単位で発生するため、割り込み時における
レジスタ退避等のオーバヘッドも低減され、パケットの
受信完了後、速やかにキャッシュ処理が完了している。
なお、主記憶への書き込み速度は、バッファメモリにデ
ータがなければ、ほぼバッファメモリへの書き込み速度
（つまりネットワーク転送速度）に等しくなるが、バッ
ファメモリにデータが蓄積されている再起動時点ではネ
ットワーク転送速度より速い速度でバッファメモリから
主記憶へデータを書き込むことができる。

【００４５】これに対して、各パケットの受信毎にＣＰ
Ｕに割り込みをかけてキャッシュ処理を行わせる方法で
は、受信側の動作タイミングチャートは図７（ｂ）に示
すようになり、キャッシュ処理中には主記憶への書き込
み（つまりパケットの受信）が行えないこと、頻繁に割
り込みがかかるためレジスタ退避等によるオーバヘッド
が増大することから、一連のデータの受信完了およびキ
ャッシュ処理完了までに多くの時間を必要とする。

【００４６】更に、一連のデータの最後のパケットの受
信時点でのみＣＰＵに割り込みをかけてキャッシュ処理
を行わせる方法では、受信側の動作タイミングチャート
は図７（ｃ）に示すようになり、キャッシュ処理が全デ
ータ受信後に開始されるために、キャッシュ処理が完了
するまでの時間が長くなる。

【００４７】

【発明の効果】以上説明したように本発明によれば、受
信装置にプロセッサ間ネットワークから受信したパケッ
トを蓄積するバッファメモリを設け、受信したパケット
をバッファメモリに蓄積する処理と並行して、その蓄積
されたデータの主記憶への格納処理を実行して幾つかの
パケットのデータを主記憶へ格納する毎にＣＰＵにキャ
ッシュ処理を行わせるものであり、ＣＰＵがキャッシュ
処理を行っている期間中においても後続のパケットをバ
ッファメモリにて受信できるため、パケットの連続受信
が可能となり、データ転送速度が向上すると共に、キャ
ッシュ処理がデータ転送と並行して進められるため、全
体のデータ転送処理を速やかに完了し得る効果がある。

【図面の簡単な説明】

【図１】発明を適用した並列計算機の構成例を示すブロ
ック図である。

【図２】送信側プロセッサが一連のデータを転送する際
に作成するヘッダの構成例を示す図である。

【図３】パケットの構成例を示す図である。

【図４】プロセッサ間データ転送装置の送信装置におけ
る送信制御部の処理例を示すフローチャートである。

【図５】プロセッサ間データ転送装置の受信装置におけ
る受信制御部の処理例を示すフローチャートである。

【図６】プロセッサ間データ転送の手順の概要を示す図
である。

【図７】本発明のプロセッサ間データ転送方法および従
来方法を適用した場合の受信側での動作タイミングチャ
ートを示す図である。

【符号の説明】

１−１〜１−Ｎ…プロセッサ２…プロセッサ間ネットワーク３…主記憶４…プロセッサ間データ転送装置４１…送信装置４１１…バスインタフェイス４１２…送信制御部４１３…レジスタ群４１４…ネットワークインタフェイス４２…受信装置４２１…バスインタフェイス４２２…受信制御部４２３…バッファメモリ４２４…バッファ制御部４２５…ネットワークインタフェイス５…バス６…キャッシュメモリ７…ＣＰＵ

Claims

(57)【特許請求の範囲】

【請求項１】ＣＰＵと主記憶とその一部のコピーを保
持するキャッシュメモリとを備えた第１のプロセッサの
前記主記憶に書き込むべきデータを複数のパケットに分
割して第２のプロセッサからプロセッサ間ネットワーク
を介して前記第１のプロセッサに転送するプロセッサ間
データ転送方法において、前記第２のプロセッサは、前記データを前記プロセッサ
間ネットワークの転送速度，前記第１のプロセッサのバ
ッファメモリ容量および前記第１のプロセッサの処理速
度から決まる最適な大きさの複数のブロックに分割する
と共に個々のブロックを複数のパケットに分割し、各ブ
ロックの複数のパケットのうち最後に転送するパケット
のヘッダ部の受信終了割り込みフラグを１、その他のパ
ケットのヘッダ部の受信終了割り込みフラグは０にし
て、前記プロセッサ間ネットワークを介して前記第１の
プロセッサにそれらのパケットを順次に転送し、前記第１のプロセッサにおいては、前記プロセッサ間ネ
ットワークを介して受信したパケットをバッファメモリ
に蓄積する処理と並行して、該蓄積されたパケットに格
納されているデータを主記憶に格納する処理を実行し、
且つ、ヘッダ部の受信終了割り込みフラグが１になって
いるパケットに格納されていたデータを主記憶に格納し
終わる毎にＣＰＵに割り込みをかけ、該ＣＰＵは割り込
みをかけられる毎に主記憶に格納されたデータに基づい
てキャッシュメモリの一貫性を保つ処理を実行すること
を特徴とするプロセッサ間データ転送方法。
【請求項２】ＣＰＵと主記憶とその一部のコピーを保
持するキャッシュメモリとを備えた第１のプロセッサの
前記主記憶に書き込むべきデータを複数のパケットに分
割して第２のプロセッサからプロセッサ間ネットワーク
を介して前記第１のプロセッサに転送するプロセッサ間
データ転送装置において、前記第２のプロセッサに、前記データを前記プロセッサ間ネットワークの転送速
度，前記第１のプロセッサのバッファメモリ容量および
前記第１のプロセッサの処理速度から決まる最適な大き
さの複数のブロックに分割すると共に個々のブロックを
複数のパケットに分割し、各ブロックの複数のパケット
のうち最後に転送するパケットのヘッダ部の受信終了割
り込みフラグを１、その他のパケットのヘッダ部の受信
終了割り込みフラグは０にして、前記プロセッサ間ネッ
トワークを介して前記第１のプロセッサにそれらのパケ
ットを順次に転送する送信装置を備え、前記第１のプロセッサに、前記プロセッサ間ネットワークを介して受信したパケッ
トを蓄積するバッファメモリを有し、該バッファメモリ
に蓄積されたパケットに格納されているデータを主記憶
に格納し、ヘッダ部の受信終了割り込みフラグが１にな
っているパケットに格納されていたデータを主記憶に格
納する毎に、該格納されたデータに基づいてキャッシュ
メモリの一貫性を保つ処理を起動するためにＣＰＵに割
り込みをかける受信装置とを備えることを特徴とするプ
ロセッサ間データ転送装置。
【請求項３】他プロセッサの主記憶に書き込むべきデ
ータをプロセッサ間ネットワークの転送速度，前記他プ
ロセッサのバッファメモリ容量および前記他プロセッサ
の処理速度から決まる最適な大きさの複数のブロックに
分割すると共に個々のブロックを複数のパケットに分割
し、各ブロックの複数のパケットのうち最後に転送する
パケットのヘッダ部の受信終了割り込みフラグを１、そ
の他のパケットのヘッダ部の受信終了割り込みフラグは
０にして、プロセッサ間ネットワークを介して他プロセ
ッサにそれらのパケットを転送する送信装置と、前記プロセッサ間ネットワークを介して他プロセッサか
ら受信したパケットを蓄積するバッファメモリを有し、
該バッファメモリに蓄積されたパケットに格納されてい
るデータを主記憶に格納し、ヘッダ部の受信終了割り込
みフラグが１になっているパケットに格納されていたデ
ータを主記憶に格納し終わる毎に、該格納されたデータ
に基づいてキャッシュメモリの一貫性を保つ処理を起動
するためにＣＰＵに割り込みをかける受信装置とから構
成されることを特徴とするプロセッサ間データ転送装
置。