JP3480973B2

JP3480973B2 - 並列処理システムの動作解析装置

Info

Publication number: JP3480973B2
Application number: JP30020593A
Authority: JP
Inventors: 伸橋本; 玲司正木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1993-11-30
Filing date: 1993-11-30
Publication date: 2003-12-22
Anticipated expiration: 2018-12-22
Also published as: US6308316B1; JPH07152614A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は並列処理システムの動作
解析装置に関し、特に、マルチプロセッサ・システムに
おける並列処理の実行情報の取得および解析を行うため
の並列処理システムの動作解析装置に関する。近年、複
数のプロセッサ・エレメント（ＰＥ）を備え、該複数の
ＰＥが並列的に処理を行う並列処理システム（マルチプ
ロセッサ・システム）が提案されている。マルチプロセ
ッサ・システムにおいて、実運用のための実行プログラ
ムを実行している環境下において、並列実行の状態およ
びデータ転送の状態を取得し、それらの情報を解析する
ことのできる並列処理システムの動作解析装置の提供が
要望されている。

【０００２】

【従来の技術】従来、マルチプロセッサ・システムにお
ける並列処理の実行情報を取得するために、実行プログ
ラム（高級言語：例えば、フォートラン言語やＣ言語）
中に実行時の情報を出力する命令を埋め込み、その出力
結果を解析することが行われていた。

【０００３】ところで、実行プログラム中に実行時の情
報を出力するための命令を埋め込むと、実行性能を悪く
することになるため、この命令の埋め込みは、翻訳時の
オプションによって行うようになっている。一方、従
来、逐次処理の実行情報を取得するために、一定間隔で
プログラムに割り込みをかけ、その時の実行中アドレス
を取得する方式が提案されている。しかしながら、この
方式では、並列処理として必要な情報を取得することは
できなかった。

【０００４】

【発明が解決しようとする課題】上述したように、マル
チプロセッサ・システムにおける並列処理の実行情報を
取得するために、実行時の情報を出力するための命令を
翻訳時のオプションによって実行プログラム中に埋め込
むと、実行情報取得用の実行プログラムと実運用のため
の実行プログラムが異なるため測定結果の妥当性に問題
が生じることになる。さらに、再翻訳（チューニング時
の再コンパイル）を行うには長時間（数分〜数時間）を
要するため、並列処理の実行情報を取得するためにに要
する負担が増大することになる。

【０００５】本発明は、上述した従来のマルチプロセッ
サ・システムにおける動作解析技術が有する課題に鑑
み、マルチプロセッサ・システムにおける並列処理の実
行情報を効率良く取得することを目的とする。

【０００６】

【課題を解決するための手段】本発明の第１の形態によ
れば、プログラムマスタ割り込みとリージョンマスタ割
り込みを含む割り込み情報を有するプログラム実行時動
作情報より求めた、プログラムマスタ割り込み回数と全
割り込み回数とリージョンマスタ割り込み回数を記憶す
る記憶手段と、並列処理システムにおけるオペレーティ
ングシステムレベルの割り込みタイマ機能とプログラム
マスタ割り込みとリージョンマスタ割り込みを含むプロ
グラム実行時動作情報を取得する機能と前記並列処理シ
ステムで使用するプロセッサ数を有する解析対象となる
並列処理されるプログラム中の前記割り込みタイマ機能
による割り込み毎に前記プログラム実行時動作情報を取
得する機能により前記プログラム実行時動作情報を取得
し、取得したプログラム実行時動作情報より求めた、プ
ログラムマスタ割り込み回数と全割り込み回数とリージ
ョンマスタ割り込み回数を前記記憶手段に格納する手段
と、前記プログラムマスタ割り込み回数と前記全割り込
み回数と前記リージョンマスタ割り込み回数と前記プロ
セッサ数に基づいて前記並列処理されるプログラムの並
列化率を算出する機能を有する解析プログラムに入力と
して前記並列処理されるプログラムと前記記憶手段に格
納された情報が与えられた場合、前記並列処理されるプ
ログラムから前記プロセッサ数を取得し、取得したプロ
セッサ数と前記プログラムマスタ割り込み回数を掛け合
わせて得た数値から前記全割り込み回数を引いて得た数
値を、前記リージョンマスタ割り込み回数と前記プロセ
ッサの数から１を引いて得た数値を掛け合わせて得た数
値で割って得た数値を１から引いて並列化率を算出する
手段と、を備えたことを特徴とする並列処理システムの
動作解析装置が提供される。本発明の第２の形態によれ
ば、プログラムマスタ割り込みとリージョンマスタ割り
込みを含む割り込み情報を有するプログラム実行時動作
情報より求めた、プログラムマスタ割り込み回数と全割
り込み回数とリージョンマスタ割り込み回数を記憶する
記憶手段と、並列処理システムにおけるオペレーティン
グシステムレベルの割り込みタイマ機能とプログラムマ
スタ割り込みとリージョンマスタ割り込みを含むプログ
ラム実行時動作情報を取得する機能と前記並列処理シス
テムで使用するプロセッサ数を有する解析対象となる並
列処理されるプログラム中の前記割り込みタイマ機能に
よる割り込み毎に前記プログラム実行時動作情報を取得
する機能により前記プログラム実行時動作情報を取得
し、取得したプログラム実行時動作情報より求めた、プ
ログラムマスタ割り込み回数と全割り込み回数とリージ
ョンマスタ割り込み回数を前記記憶手段に格納する手段
と、前記プログラムマスタ割り込み回数と前記全割り込
み回数と前記リージョンマスタ割り込み回数と前記プロ
セッサ数に基づいて前記並列処理されるプログラムの並
列加速率を算出する機能を有する解析プログラムに入力
として前記並列処理されるプログラムと前記記憶手段に
格納された情報が与えられ場合、前記並列処理されるプ
ログラムから前記プロセッサ数を取得し、取得したプロ
セッサ数から１を引いて得た数値と前記リージョンマス
タ割り込み回数から前記プログラムマスタの割り込み回
数を引いて得た数値を掛け合わせて得た数値を、前記全
割り込み回数から前記プログラムマスタ割り込み回数を
引いて得た数値で割って得た数値に、１を足して並列加
速率を算出する手段と、を備えたことを特徴とする並列
処理システムの動作解析装置が提供される。

【０００７】

【作用】本発明の第１の形態の並列処理システムの動作
解析装置によれば、並列化率を算出する手段は、プログ
ラムマスタ割り込み回数と全割り込み回数とリージョン
マスタ割り込み回数とプロセッサ数に基づいて並列処理
されるプログラムの並列化率を算出する機能を有する解
析プログラムに入力として並列処理されるプログラムと
記憶手段に格納された情報が与えられた場合、並列処理
されるプログラムからプロセッサ数を取得する。さら
に、並列化率を算出する手段は、取得したプロセッサ数
とプログラムマスタ割り込み回数を掛け合わせて得た数
値から全割り込み回数を引いて得た数値を、リージョン
マスタ割り込み回数とプロセッサの数から１を引いて得
た数値を掛け合わせて得た数値で割って得た数値を１か
ら引いて並列化率を算出する。本発明の第２の形態の並
列処理システムの動作解析装置によれば、並列加速率を
算出する手段は、プログラムマスタ割り込み回数と全割
り込み回数とリージョンマスタ割り込み回数とプロセッ
サ数に基づいて並列処理されるプログラムの並列加速率
を算出する機能を有する解析プログラムに入力として並
列処理されるプログラムと記憶手段に格納された情報が
与えられ場合、並列処理されるプログラムから前記プロ
セッサ数を取得する。さらに、並列加速率を算出する手
段は、取得したプロセッサ数から１を引いて得た数値と
リージョンマスタ割り込み回数からプログラムマスタの
割り込み回数を引いて得た数値を掛け合わせて得た数値
を、全割り込み回数からプログラムマスタ割り込み回数
を引いて得た数値で割って得た数値に、１を足して並列
加速率を算出する。そして、これらの情報（並列化率お
よび並列加速率）を解析することによって並列処理に必
要な情報を得ることができる。この本発明の並列処理シ
ステムの動作解析装置によれば、実運用向けの実行プロ
グラムに割り込み用ライブラリを入れておき、実行時の
環境によって情報取得を行うかどうかの制御が可能であ
るため、マルチプロセッサ・システムにおける並列処理
の実行情報を効率良く取得することができる。

【０００８】

【実施例】以下、図面を参照して本発明に係る並列処理
システムの動作解析装置の実施例を説明する。図１は本
発明に係る並列処理システムの動作解析装置（サンプ
ラ）の一実施例を模式的に示すブロック図である。同図
において、参照符号１はソース（例えば、フォートラン
によるプログラム),２はコンパイラ，３はオブジェクト
（コンパイルされたオブジェクト・コード),４は測定ラ
イブラリ，５はリンカ，６は実行プログラム，７は情報
ファイル，８は解析プログラム，そして，９は解析出力
を示している。

【０００９】図１に示されるように、リンカ５によっ
て、実行プログラム６の中に測定用の測定ライブラリ４
を組み込む。適当な実行時のオプションを指定して、実
行プログラム６を実行することによって、組み込まれた
測定ライブラリ４を起動して、情報ファイル７を生成す
る。ここで、実行時のオプションを指定しない場合に
は、初期化時の判定のオーバヘッドは殆どない。

【００１０】生成された情報ファイル７は、解析プログ
ラム８によって解析される。このとき、解析プログラム
８は、例えば、実行プログラム６に含まれる情報（ｅｌ
ｆ情報）を使用する。本実施例の並列処理システムの動
作解析装置は、以下に詳述するように、タイマによる割
り込みによってプルグラムの実行状態を調べるもので、
ＯＳ（オペレーティング・システム）レベルの持つ割り
込みタイマ機能を利用して行うようになっている。ここ
で、動作解析装置（サンプラ）の割り込み回数が十分に
大きい場合、該サンプラの割り込み回数の割合はプログ
ラムの実行状態を反映することになり、得られた情報
（解析出力９）からプログラムをチューニングすること
ができる。なお、周期的な動作を行うプログラムでは、
割り込み間隔とプログラムの周期とが整数倍の関係にあ
ると、実行状態を正確に得ることができない場合がある
ため、このようなときには割り込み間隔を変えればよ
い。

【００１１】図２は図１の並列処理システムの動作解析
装置における測定ライブラリの構成を示す図である。図
２に示されるように、測定ライブラリ４は、制御ルーチ
ン４１および割り込み処理ルーチン（割り込みハンド
ラ）４２から構成されている。制御ルーチン４１は、初
期化（初期化機能),再初期化（再初期化機能),および，
終了処理（終了機能）を行うために使用される。また、
割り込みハンドラ４２は、初期化時にＯＳ（オペレーテ
ィング・システム）に登録され、タイマ割り込みが発生
する毎にＯＳによって呼び出されるようになっている。

【００１２】図３は本発明の並列処理システムの動作解
析装置における実行プログラムの実行処理の一例を示す
フローチャートである。図３に示されるように、まず、
プログラムを実行すると、ステップＳ１０において、フ
ォートラン（ＦＯＲＴＲＡＮ）の初期化を行い、続い
て、ステップＳ１１で測定ライブラリの初期化（図４参
照）を行う。さらに、ステップＳ１２において、ユーザ
プログラムの実行を開始し、ステップＳ１３に進んで、
並列処理を開始する。そして、ステップＳ１４に進ん
で、測定ライブラリの再初期化（図５参照）を行う。す
なわち、実行プログラム（例えば、ＦＯＲＴＲＡＮで作
成）は、ＦＯＲＴＲＡＮの初期化（ステップＳ１０）の
中から、測定ライブラリの初期化（ステップＳ１１）を
実行する。また、並列処理が開始（ステップＳ１３）さ
れると、プログラムは、複数のプロセッサで作動を開始
するが、そのとき、親プロセッサ（最初から動いている
プロセッサ）以外のプロセッサ（子プロセッサ）では、
測定ライブラリの再初期化（ステップＳ１４）を実行す
る。

【００１３】さらに、ステップＳ１５でユーザプログラ
ムを実行して、ステップＳ１６に進み、並列処理を終了
する。また、ステップＳ１７に進んで、ユーザプログラ
ムを実行し、ステップＳ１８に進んで、測定ライブラリ
の終了処理（図６参照）を行う。そして、ステップＳ１
９において、ＦＯＲＴＲＡＮの終了処理を行った後、プ
ログラムが終了する。

【００１４】図４は図３における測定ライブラリの初期
化処理（ステップＳ１１）の一例を示すフローチャート
である。測定ライブラリの初期化処理を開始すると、ま
ず、ステップＳ111 において、測定が指定されているか
どうかが判別され、測定が指定されていなければそのま
ま処理を終了し、測定が指定されていればステップＳ11
2 に進む。ステップＳ112 では、割り込み処理ルーチン
を設定し、ステップＳ113 に進んで、割り込みタイマを
設定する。さらに、ステップＳ114 に進んで、情報ファ
イルのヘッダを出力する。すなわち、測定ライブラリの
初期化時には、割り込み処理ルーチンをＯＳに登録（ス
テップＳ112)し、インターバルタイマを起動（ステップ
Ｓ113)して一定間隔で割り込みが発生するようにし、さ
らに、情報ファイルの管理情報を出力（ステップＳ114)
する。

【００１５】ここで、図４に示す測定ライブラリの初期
化処理は、複数のプロセッサ・エレメントの内、親プロ
セッサのみで行われる処理である。また、ステップＳ11
3 における割り込みタイマは、数ｍsec.〜数sec.程度
（例えば、１０ｍsec.) のインターバルを持つように設
定される。図５は図３における測定ライブラリの再初期
化処理（ステップＳ１４）の一例を示すフローチャート
である。

【００１６】測定ライブラリの再初期化処理を開始する
と、まず、ステップＳ141 において、測定が指定されて
いるかどうかが判別され、測定が指定されていなければ
そのまま処理を終了し、測定が指定されていればステッ
プＳ142 に進む。ステップＳ142 において、バッファを
廃棄し、さらに、ステップＳ143 に進んで、割り込みタ
イマを設定する。すなわち、測定ライブラリの再初期化
時には、バッファリングされている出力情報を無効化
（ステップＳ142)し、さらに、インターバルタイマを起
動（ステップＳ143)する。

【００１７】ここで、図５に示す測定ライブラリの再初
期化処理は、複数のプロセッサ・エレメントの内、子プ
ロセッサで行われる処理である。また、ステップＳ143
における割り込みタイマは、例えば、測定ライブラリの
初期化処理のステップＳ113と同様に、数ｍsec.〜数se
c.程度（例えば、１０ｍsec.) のインターバルを持つよ
うに設定される。

【００１８】図６は図３における測定ライブラリの終了
処理（ステップＳ１８）の一例を示すフローチャートで
ある。測定ライブラリの終了処理を開始すると、まず、
ステップＳ181 において、測定が指定されているかどう
かが判別され、測定が指定されていなければそのまま処
理を終了し、測定が指定されていればステップＳ182 に
進む。ステップＳ182では、割り込みタイマを解除し、
ステップＳ183 に進んで、割り込み処理ルーチンを復元
する。さらに、ステップＳ184 に進んで、収集情報を出
力する。すなわち、測定ライブラリの終了時には、イン
ターバルタイマを停止（ステップＳ182)し、割り込み処
理ルーチンをもとに戻（ステップＳ183)し、さらに、バ
ッファリングされている出力情報を出力（ステップＳ18
4)する。

【００１９】図７は本発明の並列処理システムの動作解
析装置における割り込み処理ルーチン（４２）の一例を
示すフローチャートである。割り込み処理を開始する
と、まず、ステップＳ２１において、実行中のアドレス
を取得し、ステップＳ２２に進んで、アドレスが特殊処
理中かどうかが判別される。ステップＳ２２において、
アドレスが特殊処理中であると判別されると、ステップ
Ｓ２３を介してステップＳ２４に進み、逆に、アドレス
が特殊処理中ではないと判別されると、ステップＳ２４
に進む。ステップＳ２３では、呼び出し関係の検索を行
い、また、ステップ２４では、プロセス番号の取得を行
う。さらに、ステップＳ２５において、並列実行状態の
取得を行い、ステップＳ２６に進んで、収集情報を出力
する。

【００２０】すなわち、割り込み処理ルーチンは、ま
ず、割り込んだアドレスを取得（ステップＳ２１）し、
次に、そのアドレスが特殊な処理を必要とするルーチン
を実行中であるかどうかを判定（ステップＳ２２）す
る。ここで、特殊な処理を必要とするルーチンとして
は、同期待ちを行うライブラリや非同期転送の転送待ち
を行うライブラリ等がある。これらのライブラリを実行
中であると判定した場合には、プログラムの呼び出しを
逆上り、それらのライブラリを呼び出しているソースプ
ログラムのアドレスを取得（ステップＳ２３）する。

【００２１】次に、プログラムが実行されているプロセ
ッサの番号を取得（ステップＳ２４）し、さらに、並列
実行の状態を取得（ステップＳ２５）する。ここで、並
列サンプラが対象としている並列処理システムでは、プ
ログラムの実行状態として、単一実行状態，リージョン
マスタ状態，リージョンスレーブ状態という３つの状態
がある。なお、単一実行状態・リージョンマスタ状態
（マスタ状態）・リージョンスレーブ状態（スレーブ状
態）は、図１０〜図１２を参照して後に詳述する。

【００２２】そして、割り込みルーチンは、以上の情報
（収集情報）を出力（ステップＳ２６）する。なお、効
率を向上させるために、出力はバッファに格納され、該
バッファが一杯になったときか，或いは，プログラムの
終了時に収集情報を出力するのが好ましい。図８は本発
明の並列処理システムの動作解析装置における解析ルー
チン（解析プログラム８）の一例を示すフローチャート
である。

【００２３】解析処理を開始すると、まず、ステップＳ
３１において、実行プログラムの解析を行い、ステップ
Ｓ３２に進んで、割り込み情報統計表を作成する。次
に、ステップＳ３３において、並列情報を作成し、さら
に、ステップＳ３４に進んで、プロセッサ別情報統計表
を作成する。そして、ステップＳ３５に進んで、上記各
情報を出力する。

【００２４】すなわち、解析プログラムは、まず、実行
プログラムを解析（ステップＳ３１）して、そこに含ま
れる各手続きの開始アドレスと終了アドレスを取得す
る。次に、各手続きに対して、単一実行状態・リージョ
ンマスタ状態・リージョンスレーブ状態のそれぞれにつ
いて、割り込みの起こった回数を数える（ステップＳ３
２）。さらに、それらの情報を元に、並列実行の状態を
示す指標値を各手続きおよびプログラム全体に対して計
算（ステップＳ３３）する。なお、指標値としては、並
列化効果，並列化率，並列加速率，負荷バランス，およ
び，非同期転送待ち率等がある。そして、各プロセッサ
別に、各手続きに対して割り込みの起こった回数を数え
（ステップＳ３４）、さらに、それらの各情報を出力
（ステップＳ３５）する。

【００２５】このように、本実施例によれば、並列処理
の実行情報を効率良く取得することができ、並列プログ
ラムの開発に役立たせることができる。図９は並列処理
システムの一例を概略的に示す図である。同図におい
て、参照符号２０はプロセッサ・エレメント（ＰＥ),２
１はクロスバー・ネットワーク，２２はコントロール・
プロセッサ（ＣＰ),２３はＲＡＭディスク或いは外部メ
モリと称されるシステム記憶装置（ＳＳＵ),２４はジェ
ネラル・システム・プロセッサ（ＧＳＰ),そして, ２５
はディスク装置を示している。各プロセッサ・エレメン
ト２０は、データ転送装置（ＤＴＵ)201, 主記憶装置20
2,スカラー演算装置（ＳＵ)203, および, ベクトル演算
装置（ＶＵ)204を備えている。また、スカラー演算装置
203 には、割り込み処理に使用するタイマ（インターバ
ルタイマ)231, および, 割り込み時の時刻を得るための
時計232 が設けられている。ここで、プログラムのコン
パイル（図１中のコンパイラ２）は、ＧＳＰ２４で行わ
れ、また、実際のプログラムの実行は各ＰＥ２０におい
て行われる。

【００２６】図１０は図９に示す並列処理システムの動
作の一例を示す図であり、図１１は図１０に示す並列処
理システムの動作を説明するための図である。なお、図
１０における符号“＊”はバリア同期を示している。ま
ず、命令"PROCESSOR P(8) A" により、並列処理を実行
するプロセッサの台数を指定して、プログラムマスタ
（親プロセッサ）であるプロセッサＰＥ０（識別番号１
のプロセッサ）にプログラム（処理）Ａを実行させる。
ここで、並列プログラムは、複数（例えば、８つ）のプ
ロセッサ（プロセッサ・エレメントＰＥ０〜ＰＥ７）を
使用して実行されるが、各プロセッサには『１』から指
定されたプロセッサ数（例えば、『８』）まで識別番号
が与えられている。また、識別番号『１』のプロセッサ
（ＰＥ０）をプログラムマスタと呼び、該プログラムマ
スタの開始が並列プログラムの開始であり、該プログラ
ムマスタの終了が並列プログラムの終了である。

【００２７】次に、命令"PARALLEL REGION B"により、
プログラムＢの並列処理が実行される。ここで、"PARAL
LEL REGION" の前では、プログラムマスタＰＥ０は、単
一実行状態（逐次実行状態）でプログラムＡを実行して
おり、また、"PARALLEL REGION" の後では、全てのプロ
セッサＰＥ０〜ＰＥ７（親プロセッサＰＥ０および子プ
ロセッサＰＥ１〜ＰＥ７）が並列に（並列冗長実行状態
で）プログラムＢを実行している。ここで、"PARALLEL
REGION" による並列処理の開始は、図３のフローチャー
トにおけるステップＳ１３に対応している。従って、図
４に示す測定ライブラリの初期化処理は、プログラムマ
スタ（親プロセッサ）ＰＥ０だけで実行され、また、図
５に示す測定ライブラリの再初期化処理は、子プロセッ
サＰＥ１〜ＰＥ７で実行される。

【００２８】並列冗長実行処理は、同一のプログラムＢ
を複数のプロセッサで行うものであるが、これは１つの
プロセッサで処理した結果を他のプロセッサに転送する
よりも、冗長ではあっても複数のプロセッサで並列的に
処理し、その処理結果を各プロセッサでそのまま使用す
る方が短時間で行える場合等に利用される。なお、複数
のプロセッサが同じリージョンを実行しているとき、そ
のプロセッサの内の１台（ＰＥ０）をリージョンマスタ
プロセッサと呼び、リージョンマスタプロセッサ上で実
行されているプログラムをリージョンマスタ状態（マス
タ状態）と呼ぶ。このとき、他のプロセッサをリージョ
ンスレーブプロセッサと呼び、リージョンスレーブプロ
セッサ上で実行されているプログラムをリージョンスレ
ーブ状態（スレーブ状態）と呼ぶ。

【００２９】さらに、命令"SPREAD REGION /P(1:2) C
REGION /P(3:8) D"により、プロセッサＰＥ０および
ＰＥ１でプログラムＣを実行し、同時に、プロセッサＰ
Ｅ２〜ＰＥ７でプログラムＤを実行する。このとき、プ
ロセッサＰＥ０で実行されているプログラムＣおよびプ
ロセッサＰＥ２で実行されているプログラムＤはマスタ
状態（リージョンマスタ状態）であり、プロセッサＰＥ
１で実行されているプログラムＣおよびプロセッサＰＥ
３〜ＰＥ７で実行されているプログラムＤはスレーブ状
態（リージョンスレーブ状態）である。

【００３０】そして、命令"END SPREAD E" により、全
てのプロセッサＰＥ０〜ＰＥ７において、プログラムＥ
の並列処理（並列冗長処理）が実行される。さらに、命
令"SPREAD DO /(P) do 10 i = 1,n F"により、各プロ
セッサＰＥ０〜ＰＥ７でそれぞれプログラムＦ₁〜Ｆ₈
が実行される。このとき、プロセッサＰＥ０〜ＰＥ７で
実行されるプログラムＦ₁〜Ｆ₈は、全てマスタ状態で
ある。

【００３１】さらに、命令"END SPRED G"により、全て
のプロセッサＰＥ０〜ＰＥ７で、プログラムＧの並列処
理（並列冗長処理）が実行される。そして、命令"END P
ARALLEL H" により、並列処理が終了し、プログラムマ
スタＰＥ０だけがプログラムＨを実行する。ここで、"E
ND PARALLEL"は図３のフローチャートにおけるステップ
Ｓ１６に対応している。従って、図６に示す測定ライブ
ラリの終了処理は、プログラムマスタ（親プロセッサ）
ＰＥ０だけで実行される。

【００３２】図１２は図１１に示す親プロセッサおよび
子プロセッサの状態遷移を示す図であり、同図(a) は親
プロセッサＰＥ０の状態遷移を示し、また、同図(b) は
子プロセッサＰＥ１〜ＰＥ７の状態遷移を示している。
図１２(a) および(b) において、同期待ち状態とは、例
えば、バリア同期を取ったときにプロセッサ側で発生す
る待ち状態であり、同時に実行しているリージョンの実
行時間にばらつきがある場合に多く発生する。ここで、
上記のリージョンの実行時間のばらつきを負荷バランス
と呼ぶ。また、転送待ち状態とは、例えば、複数のプロ
セッサが同一のグローバルデータにアクセスした場合等
に発生する待ち状態である。

【００３３】ここで、本実施例の並列処理システムの動
作解析装置により得られる情報としては、並列処理ライ
ブラリから得られる情報（仮想プロセッサ番号, マスタ
／スレーブ状態, および，同一リージョンのプロセッサ
数）、フォートラン・オブジェクトから得られる情報
（プログラムの呼び出し関係）、ハードウェアから得ら
れる情報（ベクトル長）、ＯＳから得られる情報（実行
中アドレス, 時刻）、割り込み時に取得する情報（同期
待ち状態, 転送状態, および，実行中ライブラリの呼び
出し元アドレス）、および、実行後の解析時に収拾する
情報（実行プログラムのアドレスと手続きの対応情報）
がある。ここで、プログラムの呼び出し関係とは、例え
ば、待ち状態のライブラリにぶつかった時、フォートラ
ンのサブルーチンから得られたオブジェクトまでを遡
り、そのアドレス（待ち状態の出発点となるアドレス）
を出力することを意味する。また、ベクトル長はベクト
ル演算装置（ＶＵ：204)から読み出し、実行中アドレス
および時刻は、スカラー演算装置（ＳＵ：203,時計：23
2)から読み出し、そして、他の情報は主記憶装置202 か
ら読み出すことになる。

【００３４】図１３は図９に示す並列処理システムの動
作の他の例を示す図であり、次のプログラムに従った動
作を示すものである。

【００３５】

【数１】

【００３６】上記のプログラムは、拡張されたフォート
ラン（ＦＯＲＴＲＡＮ）により記述されたものである。
なお、 "！XOCL" は、該拡張されたフォートランにおけ
る拡張命令を示し、通常のフォートランではプログラム
の実行とは関係の無い単なる注釈として処理される。図
１３において、ＡパートおよびＬパートはパラレルリー
ジョンの外にあり、また、Ｂパート，ＩパートおよびＫ
パートはパラレルリージョンであり、さらに、Ｃパート
およびＥパートは同じリージョンである。また、Ｄパー
トは４個のリージョンから成り、Ｇパートは２個のリー
ジョンから成り、そして、Ｊパートは８個のリージョン
から成る。ここで、Ａパートの待ち時間も含めた実行時
間を“Ａ”で示し、他の英字も同様とし、また、Ａパー
トの待ち時間を含めない実行時間を“ａ”で示し、Ｄ，
ＧおよびＪを除く他の英字も同様とする。Ｄi でＤパー
トの分割されたそれぞれの待ち時間を含めた実行時間を
示し、ｄi でＤパートの分割されたそれぞれの待ち時間
を含めない実行時間を示し、ＤおよびＪも同様とする。
従って、Ｄ＝ΣＤi となり、ｄ＝Σｄi となる。

【００３７】次に、本発明の並列処理システムの動作解
析装置により得られる解析結果としての並列化率，並列
加速率，負荷バランス，および，転送と演算の並列実行
について説明する。まず、並列化率を説明する。プログ
ラムの並列に実行する部分を増やすことを並列化と呼
び、プログラムがどれだけ並列化されているかを示す指
標として並列化率を次のように定義する。

【００３８】Ｐ＝Ｃp ／Ｃa ここで、Ｐは並列化率, Ｃa はプログラムを逐次実行し
た場合の全コスト, そして, Ｃp は並列化できる部分コ
ストを示している。並列化とは、並列化率を上げること
であり、上式から明らかなように、並列化率を上げるた
めには、コストの大きい部分を並列化する必要がある。
並列化率Ｐは次の式で表される。

【００３９】Ｐ＝（c+d+e+f+g+h+i)／(a+b+c+d+e+f+g+h+i+j+k+l) ところで、マルチプロセッサ・システムにおいては、冗
長実行という概念があり、並列性のない場合でも複数の
プロセッサが動作していることがある。そこで、マルチ
プロセッサ・システムにおける並列化率Ｐ’を次の式で
定義する。Ｐ’＝Ｃp'／Ｃa ここで、Ｃp'はパラレルリージョン内のコストを示して
いる。従って、マルチプロセッサ・システムにおける並
列化率Ｐ’は次の式で表される。

【００４０】Ｐ’＝（b+c+d+e+f+g+h+i+j+k)／(a+b+c+d
+e+f+g+h+i+j+k+l) なお、Ｂパート，ＩパートおよびＫパートの実行時間は
少ないと考えられるため、マルチプロセッサ・システム
の並列化率Ｐ’は、並列化率Ｐの近似値となる。次に、
並列加速率を説明する。プログラムの並列化された部分
が何台のプロセッサで並列実行処理されるかは、性能向
上のための重要な問題であり、例えば、１００台のプロ
セッサで実行する場合、並列化率がいくら高くても２台
のプロセッサしか有効に使えないのであれば、高々２倍
の性能しか得ることができない。そこで、並列度を測る
指標として並列加速率を考える。

【００４１】プログラムの並列化された部分の実行時間
と同じ部分を逐次実行した時間との比率を並列加速率と
呼ぶ。並列処理のオーバーヘッドが無視でき、一定台数
のプロセッサが有効に計算を行っている場合には、その
台数が並列加速率になる。また、各時点で有効に計算を
行っているプロセッサの数が変化する場合には、プロセ
ッサ数の平均（積分）が並列加速率になる。ここで、並
列処理のオーバーヘッドが無視できる場合には、並列加
速率βは定義により次の式を満たす。

【００４２】１≦β≦Ｎ（ここで、Ｎはプロセッサ数を示す）マルチプロセッサ・システムでは、パラレルリージョン
内の部分について並列加速率を考え、該並列加速率β
は、次式により表される。 β＝（B+C+D+E+F+G+H+I+J+K)／(B+MAX(X,Y)+I+MAX(Ji)+
K) ここで、Ｘ＝Ｃ＋ＭＡＸ（Ｄi)＋Ｅ，Ｙ＝Ｆ＋ＭＡＸ
（Ｇi)＋Ｈとする。

【００４３】さらに、負荷バランスを説明する。並列処
理では、プロセッサにかかる負荷のバランスが実行性能
に影響する。並列処理の実行中は、データの整合性を保
つために適当なタイミングで同期を取る必要があり、コ
ンパイラは、特に指定されない限りリージョンの開始時
と終了時には同期を取るようになっている。開始時の同
期から終了時の同期まで各プロセッサの実行時間が等し
くない場合には、実行時間の短いプロセッサは他のプロ
セッサの終了を待つことになり、この待ち時間が少なけ
れば少ないほど、プログラムの実行性能は向上すること
になる。

【００４４】ある同期の時点から次の同期の時点までの
時間をＴとし、この間にＮ台のプロセッサが実行してい
る場合、負荷バランスの比率（負荷バランス率）γを次
のように定義する。 γ＝ΣＷ／（Ｎ×Ｔ），０≦γ≦１次に、転送と演算の並列実行を説明する。例えば、拡張
されたフォートランにおける "SPREAD MOVE"文や"OVERL
APFIX"文を転送文と呼ぶが、これらの転送文と"MOVE W
AIT"文を併用することで非同期に転送を行うことができ
る。ここで、非同期とは、転送の終了を待つことなく制
御がプログラムに戻って来ることを意味し、この機能を
利用して、転送文と"MOVE WAIT"文との間に計算を行う
ことで転送と演算を同時に行うことが可能となる。

【００４５】転送量が一定であれば、転送文が実行され
てから完了するまでの時間はほぼ一定となり、従って、
転送文と"MOVE WAIT"文との間の計算時間が長くなれば
該"MOVE WAIT"文で待つ時間（転送待ち時間）は短くな
る。これを転送時間が演算により隠されたと呼ぶ。"MOV
E WAIT"文が実行された時点で転送が完了している場合
には、該"MOVE WAIT"文は直ちに終了し、プログラムの
次の部分が実行される。これを転送が演算によって完全
に隠された状態と呼ぶ。このように、転送を演算で隠す
ことは、マルチプロセッサ・システムで実行する並列プ
ログラムの性能向上に非常に有効である。

【００４６】次に、並列化情報の計算方法および並列化
情報の意味付けを説明する。なお、以下の説明におい
て、Ｐは並列化率, βは並列加速率, γは負荷バランス
率, そして, Ｍは非同期転送率を示す。また、Ｃp はプ
ログラムの並列化できる部分のコスト, Ｃs は並列化で
きない部分コスト（Ｃa ＝Ｃp ＋Ｃs), Ｎはプロセッサ
数, Ｊはプログラムマスタ割り込み回数, Ｒはリージョ
ンマスタ割り込み回数,Ａは全割り込み回数, Ｊw はプ
ログラムマスタ待ち状態割り込み回数, Ｒw はリージョ
ンマスタ待ち状態割り込み回数, そして, Ｒm はリージ
ョンマスタ転送待ち状態割り込み回数を示している。

【００４７】まず、プログラムマスタ割り込み回数Ｊ
は、プログラムの実行にかかる時間を示しているので、
次の式(1) のようになる。Ｊ＝Ｃs ＋Ｃp ／β …… (1) また、リージョンマスタ割り込み回数Ｒは、冗長部を除
いた実行全体にかかる時間の総和を示しているので、次
の式(2) のようになる。

【００４８】Ｒ＝Ｃs ＋Ｃp …… (2) さらに、全割り込み回数Ａは、並列化された部分につい
て、プロセッサ数の時間を消費したと考えられるので、
次の式(3) のようになる。Ａ＝Ｃs ＋（Ｃp ／β）×Ｎ …… (3) そして、並列化率Ｐは、その定義から、次の式(4) のよ
うになる。

【００４９】Ｐ＝Ｃp ／（Ｃs ＋Ｃp) …… (4) 従って、Ｊ, Ｒ, Ａ, Ｎが既知である場合には、Ｃs,Ｃ
p,Ｐ, βに関する連立方程式であるから、解くことがで
き、上記式(1) 〜(4) により、並列化率Ｐおよび並列加
速率βは、Ｐ＝１−（Ｎ×Ｊ−Ａ）／（Ｒ×（Ｎ−１）） β＝（（Ｎ−１）×（Ｒ−Ｊ））／（Ａ−Ｊ）＋１となる。

【００５０】また、負荷バランス率γは、リージョンマ
スタ待ち状態割り込み回数Ｒw とリージョンマスタ割り
込み回数Ｒとの比で表すと、０ ≦ γ＝Ｒw ／Ｒ ≦ １となる。さらに、非同期転送率Ｍは、リージョンマスタ
転送待ち割り込み回数Ｒm とリージョンマスタ割り込み
回数Ｒとの比で表すと、０ ≦ Ｍ＝Ｒm ／Ｒ ≦ １となる。

【００５１】図１４および図１５は本発明の並列処理シ
ステムの動作解析装置により得られた出力の一例を示す
図である。本発明に係る並列処理システムの動作解析装
置による出力（解析出力）は、並列化情報(PARALLEL IN
FORMATION), 総合情報(SYNTHESIS INFORMATION),およ
び，プロセッサ情報(PROCESSOR INFORMATION) を含んで
いる。

【００５２】図１４に示されるように、並列化情報は、
並列化率(PARALLELIZATION RATIO:Ｐ),並列加速率(PARA
LLEL TO SERIAL SPEED RATIO:β),負荷バランス率(LOAD
BALANCE:γ),および，非同期転送率(ASYNCHRONOUS TRA
NSFER RATIO: Ｍ) の情報を有している。ここで、並列
化率Ｐは、その値が大きいほど並列化が進んでいること
を示し、並列加速率βは、その値が大きいほどプロセッ
サを有効に利用していることを示す。また、負荷バラン
ス率γは、その値が小さいほどバランスがとれているこ
とを示し、非同期転送率Ｍは、その値が小さいほど転送
が演算に比べて無視できることを示す。なお、図１４に
おいては、プロセッサの数(NUMBER OF PROCESSOR),性能
情報(PERFORMANCE INFORMATION),および, 割り込みタイ
マの設定値(INTERVAL TIMER VALUE)等も出力されるよう
になっている。総合情報は、全プロセッサを総合した以
下の情報を関数毎にカウントとパーセントの２種類で表
示する。すなわち、総合情報は、図１５に示されるよう
に、プログラムマスタでの割り込み回数（ＰＭ),プログ
ラムマスタでの待ち状態割り込み回数（ＰＭＷ),プログ
ラムマスタでの転送待ち状態割り込み回数（ＰＭＭＷ),
リージョンマスタでの割り込み回数（ＲＭ),リージョン
マスタでの待ち状態割り込み回数（ＲＭＷ),リージョン
マスタでの転送待ち状態割り込み回数（ＲＭＭＷ),全プ
ロセッサでの割り込み回数（ＡＬＬ),全プロセッサでの
待ち状態割り込み回数（ＡＷ),および, 全プロセッサで
の転送待ち状態割り込み回数（ＡＭＷ) をカウント値お
よびパーセント値で示すようになっている。ここで、プ
ロセッサ情報は、図１５に示すマスタプロセッサの総合
情報に対応する情報が各プロセッサに対して出力された
ものである。

【００５３】

【発明の効果】以上、詳述したように、本発明の並列処
理システムの動作解析装置によれば、マルチプロセッサ
・システムにおける並列処理の実行情報を効率良く取得
することができる。

【図面の簡単な説明】

【図１】本発明に係る並列処理システムの動作解析装置
の一実施例を模式的に示すブロック図である。

【図２】図１の並列処理システムの動作解析装置におけ
る測定ライブラリの構成を示す図である。

【図３】本発明の並列処理システムの動作解析装置にお
ける実行プログラムの実行処理の一例を示すフローチャ
ートである。

【図４】図３における測定ライブラリの初期化処理の一
例を示すフローチャートである。

【図５】図３における測定ライブラリの再初期化処理の
一例を示すフローチャートである。

【図６】図３における測定ライブラリの終了処理の一例
を示すフローチャートである。

【図７】本発明の並列処理システムの動作解析装置にお
ける割り込みルーチンの一例を示すフローチャートであ
る。

【図８】本発明の並列処理システムの動作解析装置にお
ける解析ルーチンの一例を示すフローチャートである。

【図９】並列処理システムの一例を概略的に示す図であ
る。

【図１０】図９に示す並列処理システムの動作の一例を
示す図である。

【図１１】図１０に示す並列処理システムの動作を説明
するための図である。

【図１２】図１１に示す親プロセッサおよび子プロセッ
サの状態遷移を示す図である。

【図１３】図９に示す並列処理システムの動作の他の例
を示す図である。

【図１４】本発明の並列処理システムの動作解析装置に
より得られた出力の一例を示す図（その１）である。

【図１５】本発明の並列処理システムの動作解析装置に
より得られた出力の一例を示す図（その２）である。

【符号の説明】

１…ソース２…コンパイラ３…オブジェクト４…測定用ライブラリ５…リンカ６…実行プログラム７…情報ファイル８…解析プログラム９…解析出力２０…プロセッサ・エレメント（ＰＥ）２１…クロスバー・ネットワーク２２…コントロール・プロセッサ（ＣＰ）２３…システム記憶装置（ＳＳＵ：ＲＡＭディスク，外
部メモリ）２４…ジェネラル・システム・プロセッサ（ＧＳＰ）２５…ディスク装置４１…制御ルーチン４２…割り込みルーチン 201…データ転送ユニット（ＤＴＵ） 202…主記憶装置 203…スカラー演算ユニット（ＳＵ） 204…ベクトル演算ユニット（ＶＵ） 231…タイマ 232…時計

フロントページの続き (56)参考文献特開平５−2508（ＪＰ，Ａ) 特開平４−225439（ＪＰ，Ａ) 特開平５−189395（ＪＰ，Ａ) 特開平５−173994（ＪＰ，Ａ) 特開平５−81221（ＪＰ，Ａ) Ｄｏｎｇａｒｒａほか著，小国訳，コンピュータによる連立一次方程式の解法 −ベクトル計算機と並列計算機，丸善株式会社，1993年１月30日，ｐ．45−51 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 11/34 G06F 15/16

Claims

(57)【特許請求の範囲】

【請求項１】プログラムマスタ割り込みとリージョン
マスタ割り込みを含む割り込み情報を有するプログラム
実行時動作情報より求めた、プログラムマスタ割り込み
回数と全割り込み回数とリージョンマスタ割り込み回数
を記憶する記憶手段と、並列処理システムにおけるオペレーティングシステムレ
ベルの割り込みタイマ機能とプログラムマスタ割り込み
とリージョンマスタ割り込みを含むプログラム実行時動
作情報を取得する機能と前記並列処理システムで使用す
るプロセッサ数を有する解析対象となる並列処理される
プログラム中の前記割り込みタイマ機能による割り込み
毎に前記プログラム実行時動作情報を取得する機能によ
り前記プログラム実行時動作情報を取得し、取得したプ
ログラム実行時動作情報より求めた、プログラムマスタ
割り込み回数と全割り込み回数とリージョンマスタ割り
込み回数を前記記憶手段に格納する手段と、前記プログラムマスタ割り込み回数と前記全割り込み回
数と前記リージョンマスタ割り込み回数と前記プロセッ
サ数に基づいて前記並列処理されるプログラムの並列化
率を算出する機能を有する解析プログラムに入力として
前記並列処理されるプログラムと前記記憶手段に格納さ
れた情報が与えられた場合、前記並列処理されるプログ
ラムから前記プロセッサ数を取得し、取得したプロセッ
サ数と前記プログラムマスタ割り込み回数を掛け合わせ
て得た数値から前記全割り込み回数を引いて得た数値
を、前記リージョンマスタ割り込み回数と前記プロセッ
サの数から１を引いて得た数値を掛け合わせて得た数値
で割って得た数値を１から引いて並列化率を算出する手
段と、を備えたことを特徴とする並列処理システムの動作解析
装置。
【請求項２】プログラムマスタ割り込みとリージョン
マスタ割り込みを含む割り込み情報を有するプログラム
実行時動作情報より求めた、プログラムマスタ割り込み
回数と全割り込み回数とリージョンマスタ割り込み回数
を記憶する記憶手段と、並列処理システムにおけるオペレーティングシステムレ
ベルの割り込みタイマ機能とプログラムマスタ割り込み
とリージョンマスタ割り込みを含むプログラム実行時動
作情報を取得する機能と前記並列処理システムで使用す
るプロセッサ数を有する解析対象となる並列処理される
プログラム中の前記割り込みタイマ機能による割り込み
毎に前記プログラム実行時動作情報を取得する機能によ
り前記プログラム実行時動作情報を取得し、取得したプ
ログラム実行時動作情報より求めた、プログラムマスタ
割り込み回数と全割り込み回数とリージョンマスタ割り
込み回数を前記記憶手段に格納する手段と、前記プログラムマスタ割り込み回数と前記全割り込み回
数と前記リージョンマスタ割り込み回数と前記プロセッ
サ数に基づいて前記並列処理されるプログラムの並列加
速率を算出する機能を有する解析プログラムに入力とし
て前記並列処理されるプログラムと前記記憶手段に格納
された情報が与えられ場合、前記並列処理されるプログ
ラムから前記プロセッサ数を取得し、取得したプロセッ
サ数から１を引いて得た数値と前記リージョンマスタ割
り込み回数から前記プログラムマスタの割り込み回数を
引いて得た数値を掛け合わせて得た数値を、前記全割り
込み回数から前記プログラムマスタ割り込み回数を引い
て得た数値で割って得た数値に、１を足して並列加速率
を算出する手段と、を備えたことを特徴とする並列処理システムの動作解析
装置。