JP2000276454A

JP2000276454A - ソフトウェアの構成方法

Info

Publication number: JP2000276454A
Application number: JP11083962A
Authority: JP
Inventors: Takeshi Naono; 健直野; Yusaku Yamamoto; 有作山本; Satoshi Ito; 智伊藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1999-03-26
Filing date: 1999-03-26
Publication date: 2000-10-06

Abstract

(57)【要約】【課題】性能を左右し、かつ、ユーザーインターフェ
イスには現れないパラメータを、性能予測方法に基づ
き、ユーザーインターフェイスに現れるパラメータに応
じて自動的に調節してインストールを行う並列ソフトウ
ェアの構成方法。【解決手段】性能を大きく左右するパラメータ、クリ
ティカルパラメータＣＰを抽出し、さらにそのパラメー
タ群を、ユーザーインターフェイスに現れるユーザーク
リティカルパラメータＵＣＰと、そうでない内部クリテ
ィカルパラメータＩＣＰとに分類する。次に、ＵＣＰと
ＩＣＰとを用いたソフトウェアの性能（実行時間）を予
測する性能予測モデルを作成する。さらに、ソフトウェ
アを実行する環境下での、ＩＣＰの最適なパラメータ選
択を行うため、上記のＵＣＰとＩＣＰとの関数に対し、
与えられたＵＣＰの制限の下で実行時間を最小にするよ
うなＩＣＰの値を定める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、並列計算環境で動
くソフトウェアの構成方法に係り、特に、インストール
の容易な高性能の並列ソフトウェア群（並列プログラム
群）の構成方法に関する。

【０００２】

【従来の技術】並列ソフトウェア（並列プログラム）が
実行される計算環境には、主に２種類ある。１つは、複
数の同一プロセッサユニットあるいは計算機から構成さ
れるフラットな並列計算環境であり、もう１つは、異な
ったプロセッサや計算機から構成される分散計算環境で
ある。

【０００３】フラットな並列計算環境のものとして、例
えば、日立のＳＲ２２０１、ＣrayＴ３Ｄ、Ｔ３Ｅ、日
本電気のＳＸ−５、富士通のＶＰＰ７００等の分散メモ
リ型並列計算機、同じ性能のワークステーションから構
成されるワークステーションクラスター、同じ性能のパ
ーソナルコンピューターから構成されるパーソナルコン
ピュータークラスターなどがある。このようなフラット
な並列計算環境を単に並列計算機と呼ぶことにする。ま
た、分散計算環境のものとして、例えば、スーパーコン
ピューターとワークステーションとパーソナルコンピュ
ーターとがネットワークで接続されているような複数の
異なる計算機が接続されて構成されたみのがある。

【０００４】次に、前述のような計算環境で実行させる
ソフトウェアについて説明する。並列計算機上で実行さ
せるソフトウェアは、並列計算機の構成要素であるプロ
セッサあるいは計算機に、実行に要するメモリを分けて
担当させる。これを単に並列ソフトウェアと呼ぶことに
する。

【０００５】一方、分散計算環境で実行させるソフトウ
ェアは、サブルーチン等プログラムのある一部分がある
特定の機能を有するまとまり毎に、実行させる計算機を
指定して実行される。例えば、あるソフトウェアがサブ
ルーチンＡとサブルーチンＢとから構成され、そのソフ
トウェアを実行する計算環境がスーパーコンピューター
ＸとワークステーションＹとがネットワークで接続され
て構成されている場合、サブルーチンＡをスーパーコン
ピューターＸで実行させ、サブルーチンＢをワークステ
ーションＹで実行させる。これらのサブルーチン等のプ
ログラム中のあるまとまりを、コンポーネントと呼ぶこ
とにし、このコンポーネントが複数で構成されるソフト
ウェアを複数コンポーネントソフトウェアと呼ぶ。

【０００６】並列ソフトウェアや複数コンポーネントソ
フトウェアをこれらの計算環境で実行させる場合、特に
その性能が重要視される。そして、単一のワークステー
ションや単一のスーパーコンピューターでソフトウェア
を実行させるよりも、より高速に実行させるために並列
計算機や分散計算環境が求められている。そのため、並
列計算機で実行させる並列ソフトウェアに対するものと
して、実行に要するメモリを上手く分散させる技術が、
また、複数コンポーネントソフトウェアに対するものと
して、プログラムのある部分を他の計算機のライブラリ
をネットワークを介して接続する技術や、もともと別の
計算機毎にあるプログラムを接続させる技術が知られて
いる。以下、これらの技術のそれぞれについて説明す
る。

【０００７】（１）並列計算機で実行させる並列ソフト
ウェアのデータ分割技術並列計算機上で実行するソフトウェアとして、ScaLAPAC
K （http://www.netlib.org/scalapack）、NAG(http://
www.nag.co.uk/）等の並列行列ライブラリが知られてい
る。この技術は、並列計算機上で行列計算を行う場合
に、行列データを、ソフトウェアを実行するプロセッサ
に分割して保持させものであり、行列の分割ブロックサ
イズを定めて分割を行うものである。

【０００８】図５は行列の分割ブロックサイズについて
説明する図であり、以下、これについて説明する。図５
において、０〜１５の数字が内部にあるブロックのそれ
ぞれ１つは、分割ブロックであり、内部の数字がその分
割ブロックについての処理を行うプロセッサ番号を示し
ている。

【０００９】図５に示す例は、縦方向が３２０、横方向
が３２０の正方行列を１６台のプロセッサで分割して持
つ１つの方法を表わしたものであり、縦方向が４０、横
方向が４０の正方行列の分割ブロック毎に各プロセッサ
に割り当てた例である。その際、横方向に、０番プロセ
ッサ、１番プロセッサ、２番プロセッサ、３番プロセッ
サと割り当てる。次の段でも同様に、縦方向が４０、横
方向が４０の正方行列毎に４番プロセッサ、５番プロセ
ッサ、６番プロセッサ、７番プロセッサと割り当てる。
その次の段でも同様にして８番プロセッサ、９番プロセ
ッサ、１０番プロセッサ、１１番プロセッサ、その次の
段でも１２番プロセッサ、１３番プロセッサ、１４番プ
ロセッサ、１５番プロセッサと割り当てる。

【００１０】この結果、０番プロセッサから１５番プロ
セッサまで合計１６台のプロセッサが縦方向が１６０、
横方向が１６０の正方行列５０３を構成する。そして、
この正方行列５０３を縦、横にならべる形で、縦方向が
３２０、横方向が３２０の正方行列を１６台のプロセッ
サが分割する。例えば、５番プロセッサが持つ行列デー
タは、影を付けた縦方向が４０、横方向が４０の正方行
列の分割ブロック部分５０４〜５０７である。なお、以
下では、各プロセッサに割り当てられた一番小さい正方
行列のサイズ（縦方向でも横方向でもよい）を行列の分
割ブロックサイズと呼ぶ。図５に示す例では４０であ
る。

【００１１】（２）分散計算環境での複数コンポーネン
トソフトウェアの実行技術プログラムが複数のコンポーネントで構成される場合、
各コンポーネントを、別々の計算機上で稼動させること
ができる。これを分散計算環境での複数コンポーネント
ソフトウェアの実行という。

【００１２】分散計算環境でのソフトウェアの実行方法
としては、プログラム中の一部のコンポーネントを高速
に実行できる別の計算機に割り当て、残りは同じ計算機
で実行する方法、予め別々の計算機上で実行できるプロ
グラムをネットワークを介して接続し、１つのプログラ
ムとみなして実行する方法の２つの方法がある。

【００１３】前者の方法としては、例えば、NetSolve
（http://www.cs.utk.edu/~casanova/NetSolve、あるい
は、NetSolve: A Network-Enabled Server for Solving
Computational Science Problems, H. Casanova and
J. Dongarra, The International Journal of Supercom
puter Applications and High Performance Computing,
Volume 11, Number 3, pp 212-223, Fall 1997.）、Nin
f（http://ninf.etl.go.jp 、あるいは、Ninf: A Netwo
rk based Information Library for a Global World-Wi
de Computing Infrastracture. Mitsuhisa Sato, Hidem
oto Nakada, Satoshi Sekiguchi, Satoshi Matsuoka, U
mpei Nagashima and Hiromitsu Takagi, HPCN'97 (LNCS
-1225), pp. 491-50,1997.）といったコンポーネントの
一部をライブラリ呼び出しによって実行させる方法が知
られている。

【００１４】また、後者の方法としては、ＣＯＲＢＡ
（＝ Common Object Request BrokerArchitecture、 ht
tp://www.acl.lanl.gov/CORBA/）という分散計算環境で
のソフトウェアをつなげる方法によって、異なる計算機
上でソフトウェア群を実行させる技術が知られている。

【００１５】

【発明が解決しようとする課題】前述した従来技術にお
いても説明したように、並列計算環境においては性能が
重要視される。そこで、並列計算機で実行させる並列ソ
フトウェアの技術としては、例えば、行列等のデータを
分割する技術があり、また、分散計算環境での複数コン
ポーネントソフトウェアの実行技術としては、プログラ
ム中の一部を高速に実行できる別の計算機に割り当てる
方法、予め別々の計算機上で実行できるプログラムをネ
ットワークを介して接続して実行する方法がある。

【００１６】しかし、前述した従来技術は、計算環境の
充分な性能を引き出し、できる限り短い実行時間でソフ
トウェアを実行させるには不充分な面があるという問題
点を有している。また、前述した従来技術は、性能を引
き出すためにインターフェイスを追加しなければならな
いという課題もあった。それらの課題について以下に説
明する。

【００１７】（課題１）前述の従来技術の１つである並
列計算機で実行させる並列ソフトウェアのデータ分割技
術は、行列の分割ブロックサイズを利用者が定めなけれ
ばならず、その条件をプログラム中に組み込まなければ
ならないものである。

【００１８】図７は単一の計算機と並列計算機とに同一
の行列演算を実行させる場合のプログラム例を示す図で
あり、図７に示すように、単一の計算機の場合、例え
ば、図７のプログラム７０１のように、行列データａと
行列サイズｎとのみをインターフェイスに記述すればよ
かったのが、並列計算機の場合、プログラム７０２とし
て示すように、実行するプロセッサ数 npuとさらに行列
の分割ブロックサイズＬＢを追加しなければならない。

【００１９】（課題２）また、前述の従来技術の１つで
ある並列計算機で実行させる並列ソフトウェアのデータ
分割技術は、行列の分割ブロックサイズの値によって計
算実行時間が大きく変わり、また、利用する計算機や使
用するプロセッサ数によっても最適な値が変わる場合が
多く、実行の条件が変わるごとに調整しなければならな
い。

【００２０】図６はこのことを説明するための行列の分
割を示す図であり、以下、これについて説明する。

【００２１】図６に示す例は、図５に示す行列と同一の
大きさ、すなわち、縦方向が３２０、横方向が３２０の
行列であるが、行列の分割ブロックサイズを２０とした
ものである。そして、縦方向に２０、横方向に２０の正
方行列を図５の場合と同様に０番プロセッサから１５番
プロセッサまでならべて、縦方向に８０、横方向に８０
の正方行列６０３を構成する。そして、その正方行列を
横に４つならべたものを４段重ねる構成で縦方向３２
０、横方向３２０の正方行列を分割している。５番プロ
セッサが担当する行列データは影を付けた分割ブロック
６０４〜６１９である。

【００２２】図５、図６に示す例では、行列の分割ブロ
ックサイズが変わっても、各プロセッサが担当する行列
データはいずれも縦方向８０、横方向８０と変化はな
い。しかし、核プロセッサが担当する部分が違い、ま
た、連続的に扱うことができる範囲が異なってくる。す
ると、計算機によって、また行列計算のアルゴリズムに
よって、計算の実行時間が変わってくる。例えば、行列
のデータで縦方向に一列のデータが同時に計算される場
合、４台のプロセッサが実行し、その間、他のプロセッ
サが待ちとなる。計算される縦方向の一列のデータの範
囲が横方向に順次必要な場合、行列の分割ブロックサイ
ズによって待ちの時間が短かったり長かったりして、実
行時間に大きく影響を及ぼす。待ちの状態について見る
と、図５の場合に比べ、図６の場合は短く、全体で実行
する計算負荷の均等性では優れている。すなわち、図６
のような分割のほうが実行時間が短い場合がある。

【００２３】一方、ベクトルプロセッサと呼ばれる計算
機構を有する計算機の場合、必要なデータを連続的にア
クセスし、データフローをパイプライン的に運ぶことに
より計算実行時間を短縮している。この場合、連続的に
データをアクセスできる範囲が長い図５に示す例のよう
な分割のほうが実行時間が短い場合がある。このよう
に、実行するプロセッサ台数や、実行する計算機等、様
々な条件によって、行列の最適な分割ブロックサイズは
大きく変わってくる。このため、この従来技術は、ユー
ザーが、行列の分割ブロックサイズを調整することが非
常に困難であるという問題点があった。

【００２４】（課題３）前述の従来技術の１つである分
散計算環境での複数コンポーネントソフトウェアの実行
技術は、複数コンポーネントソフトウェアを稼動させる
場合、どのコンポーネントをどの計算機に行わせるかの
指定を行わなければならない。このため、この従来技術
は、それらの情報を利用インターフェイスに追加する
等、利用者が実行前にこれらの情報を指定をしなければ
ならなかった。

【００２５】（課題４）また、前述の従来技術の１つで
ある分散計算環境での複数コンポーネントソフトウェア
の実行技術は、複数コンポーネントソフトウェアを稼動
させる場合、どのコンポーネントをどの計算機に行わせ
れば短い実行時間でできるかが不明であった。たとえあ
る特定の場合に実行時間が最短になるような各コンポー
ネントを各計算機に実行させる組みがわかったとして
も、各コンポーネントの稼動させる条件が異なると、長
い実行時間となる場合があった。

【００２６】図１１は複数コンポーネントからなるプロ
グラムと２台のワークステーションとによる並列計算環
境を説明する図であり、以下、図１１を参照して、前述
の課題４について説明する。

【００２７】例えば、図１１に示すように、プログラム
がＰ−１というコンポーネント１１０１と、Ｐ−２とい
うコンポーネント１１０２とを有し、そのソフトウェア
を実行する計算環境が、ＷＳ−１（ワークステーション
１）１１０３とＷＳ−２（ワークステーション２）１１
０４とがネットワーク１１０５で結合されて構成されて
いるものとする。この場合、Ｐ−１、Ｐ−２をそれぞれ
ＷＳ−１、ＷＳ−２のどちらで実行させるかは、Ｐ−
１、Ｐ−２のそれぞれの実行上のパラメータをどう定め
るか、また、ＷＳ−１、ＷＳ−２の計算機の性質等によ
って変わる。しかし、前述の従来技術は、このような場
合に、各コンポーネントを各計算機に実行させる組みを
定める方法が確立されていないものであった。

【００２８】従って、本発明の目的は、前述した従来技
術の課題を解決し、並列計算環境において、並列ソフト
ウェアや複数コンポーネントソフトウェアをできる限り
短い時間で実行させることのできる性能調整インストー
ル機能付きの並列ソフトウェアの構成方法を提供するこ
とにある。具体的には、以下の４つの目的がある。

【００２９】本発明の第１の目的は、前記課題１の解決
のため、従来技術の１つである並列計算機で実行させる
並列ソフトウェアのデータ分割技術におけるデータ分割
を、処理を行わせる並列計算機に合わせて自動的に定め
ることのできる並列ソフトウェアの構成方法を提供する
ことにある。

【００３０】本発明の第２の目的は、前記課題２の解決
のため、従来技術の１つである並列計算機の利用者が、
並列計算機で実行させる並列ソフトウェアのデータ分割
を、並列計算機毎に調整したり、利用インターフェイス
に追加しなくてもよい並列ソフトウェアの構成方法を提
供することにある。

【００３１】本発明の第３の目的は、前記課題３の解決
のため、従来技術の１つである分散計算環境での複数コ
ンポーネントソフトウェアの実行技術において、どのコ
ンポーネントをどの計算機で実行させるかを、処理を行
わせる分散計算環境に合わせて自動的に定めることので
きる並列ソフトウェアの構成方法を提供することにあ
る。

【００３２】本発明の第４の目的は、前記課題４の解決
のため、従来技術の１つである分散計算環境での複数コ
ンポーネントソフトウェアの実行技術において、利用者
が、どのコンポーネントをどの計算機で実行させるかを
分散計算環境毎に調整したり、利用インターフェイス等
に追加しなくてもよい並列ソフトウェアの構成方法を提
供することにある。

【００３３】

【課題を解決するための手段】本発明によれば前記目的
は、以下に説明する３つの手段を備えることにより達成
される。

【００３４】第１は、性能を大きく左右するパラメータ
を抽出し、さらにそのパラメータ群を、ユーザーインタ
ーフェイスに現れるものと、そうでないものに分類する
ことである。この性能を大きく左右するパラメータをク
リティカルパラメータ（Ｃritical Ｐarameter、以下、
ＣＰという）と呼ぶことにし、また、ユーザーインター
フェイスに現れて性能を大きく左右するパラメータをユ
ーザークリティカルパラメータ（Ｕsers' Ｃritical Ｐ
arameter、以下、ＵＣＰという）と呼ぶことにし、さら
に、ユーザーインターフェイスに現れないが性能を大き
く左右するパラメータを内部クリティカルパラメータ
（Ｉnertial Ｃritical Ｐarameter、以下、ＩＣＰとい
う）と呼ぶことにする。

【００３５】第２は、前述のＣＰ、すなわち、ＵＣＰと
ＩＣＰとを用いた性能予測モデルの構成である。ソフト
ウェアの性能（実行時間）は、実行させるべき計算環境
が定まれば、前述のクリティカルパラメータＣＰの関数
ｆとして定まる。特に、ソフトウェアの性能としての実
行時間は、ＣＰをＵＣＰとＩＣＰとに分けて書くと、

【００３６】

【数１】

【００３７】として示す数１の式のようになる。特に、
ＵＣＰとＩＣＰとの多項式で、

【００３８】

【数２】

【００３９】として示す数２の式となる場合がある。数
２の式において、「＊」は乗算を意味し、また、ＵＣ
Ｐ、ＩＣＰ以外は係数である。この場合、最小２乗法と
呼ばれる統計処理手法（FORTRAN77 時系列解析プログラ
ミング、北川源四郎著、岩波コンピュータサイエンス）
により、適当な個数のＵＣＰ、ＩＣＰとそれに対応する
実行結果から、実行させる計算環境に特有の数２の式に
おける係数を定めるができる。これを、実行させたいソ
フトウェアのインストールの際に行う。

【００４０】第３は、ソフトウェアを実行する環境下で
の、ＩＣＰの最適なパラメータ選択を行うことの定式化
である。できる限り実行時間を短くするためには、与え
られたＵＣＰの制限の下で関数ｆの値を最小にするよう
なＩＣＰの値を定める問題になる。数２に示す式の例の
場合、計算環境下で特有の係数が定まった性能（実行時
間）の予測関数に対し、実行させたいＩＣＰの制限の下
で、関数の値を最小にするようなＩＣＰを求めて実行さ
せる。

【００４１】次に、前述した３つの解決手段により、課
題１〜課題４を解決することができることを説明する。

【００４２】まず、並列計算機で実行させる並列ソフト
ウェアのデータ分割技術の場合、行列データの分割サイ
ズ等を、ＩＣＰとし、それを自動的に定める方法にする
ことにより、利用者は、分割サイズを書く必要がなくな
り、本来ソフトウェアを実行させるのに必要なパラメー
タのみをインターフェイスに記述すればよくなる。これ
により、前述の課題１を解決することができる。

【００４３】また、並列ソフトウエアを実行させる並列
計算機が決定されれば、ＩＣＰとＵＣＰとが組み込まれ
た性能予測方法によって、ＩＣＰとＵＣＰとに対応する
並列ソフトウェアの実行時間が判る。この性能予測方法
による定式化によって、逆に、実行時間をできるだけ短
くするように、利用者が与えるＵＣＰの制限の下でＩＣ
Ｐを定めるという、いわゆる逆問題を定式化することが
できる。このように、ＩＣＰを定める処理を実行前に自
動的に行うことにより、並列ソフトウェアをできる限り
短い時間で実行させることができる。これにより、前述
の課題２を解決することができる。

【００４４】次に、分散計算環境での複数コンポーネン
トソフトウェアの実行技術の場合、どのコンポーネント
をどの計算機に実行させるかという情報をＩＣＰとし、
それを自動的に定める方法とすることにより、利用者
は、どのコンポーネントをどの計算機に実行させるかと
いう情報を書く必要がなくなり、本来ソフトウェアを実
行させるのに必要なパラメータのみをインターフェイス
に記述すればよくなる。これにより、これにより、前述
の課題３を解決することができる。

【００４５】また、前述により実行させる分散計算環境
が決定されれば、ＩＣＰとＵＣＰとが組み込まれた性能
予測方法によって、ＩＣＰとＵＣＰとに対応する複数コ
ンポーネントソフトウェアの実行時間が判る。この性能
予測方法による定式化によって、逆に、実行時間をでき
るだけ短くするように、利用者が与えるＵＣＰの制限の
下でＩＣＰを定めるという、いわゆる逆問題が定式化す
ることができる。このように、ＩＣＰを定める処理を実
行前に自動的に行うことにより、複数コンポーネントソ
フトウェアをできる限り短い時間で実行させることがで
きる。これにより、前述の課題４を解決することができ
る。

【００４６】

【発明の実施の形態】以下、本発明による並列ソフトウ
ェアの構成方法の実施形態を図面により詳細に説明す
る。

【００４７】図１は本発明の第１の実施形態による並列
ソフトウェアの構成方法を説明するフローチャート、図
２は未定係数を決定するためのＵＣＰ、ＩＣＰの数値例
を示す図である。

【００４８】本発明の第１の実施形態によるソフトウェ
ア構成方法は、ソフトウェアのインストール方法及び実
行も含んでおり、図１に示すように、実行時間予測モデ
ル付きの並列ソフトウェアの作成の処理（ステップ１０
１）と、並列計算機への並列ソフトウェアのインストー
ルの処理（ステップ１０２）と、ユーザーが並列ソフト
ウェアを実行する処理（ステップ１０３）とから成る。

【００４９】まず、ステップ１０１での実行時間予測モ
デル付きの並列ソフトウェアの作成の処理について説明
する。ステップ１０１の処理において、並列ソフトウェ
アの作成の処理（ステップ１０４）により、並列ソフト
ウエアの本体を作成し、この並列ソフトウェアの中から
並列ソフトウェアの性能を大きく左右するクリティカル
パラメータ（簡単のためＣＰ）を抽出する処理（ステッ
プ１０５）を行う。このクリティカルパラメータＣＰ
は、プログラム中に現れる全ての変数の中で、その値が
変わると、ソフトウェア実行時間が大きく変わるものの
全てとする。

【００５０】次に、ＣＰをユーザークリティカルパラメ
ータ（簡単のためＵＣＰ）と内部クリティカルパラメー
タ（簡単のためＩＣＰ）に分類する処理（ステップ１０
６）行う。次に、ＵＣＰとＩＣＰとを変数として未定係
数を持つ並列ソフトウェアの実行時間予測モデル作成の
処理（ブロック１０７）を行う。この実行時間予測モデ
ルの作成は、前述した数１、具体的には数２に示す式を
作ることである。さらに、統計処理（最小２乗法）に必
要な、未定係数を決定できるＵＣＰとＩＣＰとの数値例
の表を作成する処理（ステップ１０８）を行う。

【００５１】ステップ１０８で作成する表は、例えば、
図２に示すように、並列ソフトウェアの実行が可能な各
ＵＣＰ２０１とＩＣＰ２０２との組を項目とし、それぞ
れの組に対する実行時間２０３が記入できるようなもの
である。例えば、行列計算の場合、図２に示す表のＵＣ
Ｐ２０１に例示する値は、行列全体のサイズであり、Ｉ
ＣＰ２０２に例示する値は分割ブロックサイズである。

【００５２】次に、ステップ１０２での並列計算機への
並列ソフトウェアのインストールの処理について説明す
る。ステップ１０２の処理において、図２に例示したよ
うな数値例のＩＣＰ、ＵＣＰの値によって並列ソフトウ
ェアの実行時間を計測する処理、すなわち、試験実行
（ステップ１０９）を行い、実行時間の実測結果を図２
の実行時間２０３に記入する。次に、統計処理（最小２
乗法）によって性能予測モデルの未定係数を決定する処
理（ステップ１１０）を行い、ＵＣＰの値が全て定まれ
ば性能予測のモデルから、最も実行時間が短くなるよう
なＩＣＰの値を直ちに求められるようにしておく。

【００５３】次に、ステップ１０３でのユーザーが並列
ソフトウェアを実行する処理について説明する。ステッ
プ１０３の処理において、ユーザーが実行するユーザー
が指定するＵＣＰについて、実行時間が最も短くなるＩ
ＣＰを性能予測モデルから決定する処理（ステップ１１
１）を行い、ユーザーの定義したＵＣＰに対応する最適
なＩＣＰによって、並列ソフトウェアを実行（ステップ
１１２）する。

【００５４】図３は並列ソフトウェアの実際の実行時間
をフィードバックして性能予測のモデルに利用する本発
明の第２の実施形態による並列ソフトウェアの構成方法
を説明するフローチャートであり、以下、図３を参照し
て、本発明の第２の実施形態を説明する。

【００５５】本発明の第２の実施形態は、前述した本発
明の第１の実施形態におけるユーザーが並列ソフトウェ
アを実行する図１のステップ１０３において、実際に実
行した時間の測定結果を性能予測のモデルに利用する表
に追加していく方法である。

【００５６】ユーザーが並列ソフトウェアの実行を開始
し（ステップ３０１）、ユーザーが実行するＵＣＰか
ら、インストール時に作成された最も実行時間が短くな
るＩＣＰを定める図２に示すような表を参照し、最適な
ＩＣＰを決定する（ステップ３０２）。次に、ユーザー
の定義したＵＣＰと最適なＩＣＰによって、並列ソフト
ウェアを実行する（ステップ３０３）。ステップ３０３
による実際の実行時間を計測し、ＵＣＰとＩＣＰとの組
みに対する図２に示すような実行時間測定表にデータを
追加する（ステップ３０４）。以上によりユーザーの並
列ソフトウェアの実行を終了する（ステップ３０５）。

【００５７】図４は本発明の第３の実施形態による並列
行列ライブラリの構成方法を説明するフローチャート、
図８、図９は並列行列ライブラリの構成の処理で作成す
るＵＣＰ、ＩＣＰ、実行時間の表（その１、その２）を
説明する図である。

【００５８】本発明の第３の実施形態による並列行列ラ
イブラリの構成方法は、並列行列ライブラリのインスト
ール方法及び実行も含んでおり、図４に示すように、実
行時間予測モデル付きの並列行列ライブラリの作成の処
理（ステップ４０１）と、並列計算機への並列行列ライ
ブラリのインストールの処理（ステップ４０２）と、ユ
ーザーが並列行列ライブラリを実行する処理（ステップ
４０３）から成る。

【００５９】まず、ステップ４０１での実行時間予測モ
デル付きの並列行列ライブラリの作成の処理について説
明する。ステップ４０１の処理において、並列行列ライ
ブラリの作成の処理（ステップ４０４）により、並列計
算機向けの行列ライブラリのプログラム本体を作成す
る。次に、そのプログラムの中に現れる、性能を左右す
るパラメータを抽出する。すなわち、行列の次元数Ｎ、
プロセッサ数ＮＰＵ、行列データの分割ブロックサイズ
ＬＢをクリティカルパラメータＣＰとして抽出する（ス
テップ４０５）。次に、前述のＣＰのうち、行列次元数
Ｎとプロセッサ数ＮＰＵとをＵＣＰ、行列データの分割
ブロックサイズＬＢをＩＣＰとして分類する（ステップ
４０６）。次に、並列行列ライブラリの実行時間予測モ
デルを作成する（ステップ４０７）。この実行時間予測
モデルは、例えば、数３の式によって表わすことができ
る。数３において、Nは行列サイズ、NPUはプロセッサ
数、LBは分割ブロックサイズである。これらは他の式の
場合も同一である。

【００６０】

【数３】

【００６１】数３の式は、並列行列ライブラリの典型的
な実行時間予測モデルであり、プロセッサの演算時間の
項 a*(N*N*N/NPU)*(1+0.01*LB)と、プロセッサ間の通信
時間の項 b*(N*N/NPU)と、プロセッサ間の通信時間の起
動の項 c*(N*N/(LB*LB))*NPUとにより構成される。プロ
セッサの演算時間の項 a*(N*N*N/NPU)*(1+0.01*LB)は、
全体計算時間の一部が行列分割のための処理にかかるの
で、行列の分割ブロックサイズＬＢ分の項がある。プロ
セッサ間の通信時間の項 b*(N*N/NPU)は、各プロセッサ
のデータ量がＬＢに関係なく一定であるのでＬＢがない
式となる。また、プロセッサ間の通信時間の起動の項 c
*(N*N/(LB*LB))*NPUは、通信の起動が各プロセッサが持
っている最小の行列ブロックの数なので、(N*N/(LB*L
B))に比例し、それを他のプロセッサに送るので NPU倍
されたものとする。

【００６２】次に、上記モデルの未定係数を定めるため
のＮ、ＮＰＵ、ＬＢの数値例の表を作成する（ステップ
４０８）。この数値の表は、図８、図９に示すように、
ユーザークリティカルパラメータＵＣＰである行列デー
タサイズＮ、プロセッサ数ＮＰＵ、内部クリティカルパ
ラメータＩＣＰである行列データ分割ブロックサイズＬ
Ｂ、実行時間の項から構成されている。但し、この時点
では、実行時間は記述されていないが、ユーザークリテ
ィカルパラメータＵＣＰである行列データサイズＮ、プ
ロセッサ数ＮＰＵ、内部クリティカルパラメータＩＣＰ
である行列データ分割ブロックサイズＬＢについては、
数３の式における係数を定めるために適当な数値を用意
しておく。

【００６３】以上が、ステップ４０１の処理による実行
時間予測モデル付きの並列行列ライブラリの作成の処理
内容である。

【００６４】次に、ステップ４０２での並列計算機への
並列行列ライブラリのインストールの処理について説明
する。ステップ４０２の処理において、まず、図８、図
９に示すようなＩＣＰ（Ｎ、ＮＰＵ）、ＵＣＰ（ＬＢ）
の数値例の表の値を代入して並列行列ライブラリを実行
し、その実行時間を計測する。そして、図８、図９に示
す表に計測した実行時間を記入する（ステップ４０
９）。次に、統計処理によって性能予測モデルの未定係
数を決定する。この処理は、図８、図９に示す表の実行
時間、行列データサイズ、プロセッサ数、行列データ分
割ブロックサイズのそれぞれの値を数３の式の time(se
c)、N、NPU、LBに代入し、数３の式の未定係数ａ、ｂ、
ｃの値を定める処理である。実際に図８と図９とに示す
表にある値から、最小２乗法という統計処理の手法によ
り未定係数を求めると、およその値として、ａが１０
~⁹、ｂが１０~⁸、ｃが１０~⁷となる（ステップ４１
０）。

【００６５】以上が、ステップ４０２の処理による並列
計算機への並列行列ライブラリのインストールの処理内
容である。

【００６６】最後に、ステップ４０３でのユーザーが並
列行列ライブラリを実行する処理について説明する。ス
テップ４０３の処理において、まず、ユーザーが実行す
るＵＣＰ(Ｎ，ＮＰＵ)から、インストール時に作成され
た最も実行時間が短くなるＩＣＰ(ＬＢ)を、未定係数が
決定されたモデルから決定する。すなわち、この処理に
より、数３の式で定まった係数ａ、ｂ、ｃの値によって
実行時間を具体的に求める式が定まり、また、ユーザー
が実行するＵＣＰを代入すれば実行時間が短くなるよう
にＬＢの値を定めることができる。図８、図９に示す表
にある値から定まった係数ａ、ｂ、ｃにより、例えば、
数３の式が(10-9)*(N*N*N/NPU)*(1+0.01*LB)+(10-8)*(N
*N/NPU)+(10-7)*(N*N/(LB*LB))*NPUとなる。この数３の
式から、例えば、N＝1000、NPU＝16としたとき、LBは、
図５、図６に示すように、２方向格子のような分割にす
る必要があるので、250の約数になり、LB=1では実行時
間が1.600、LB=2では実行時間が0.400、LB=5では実行時
間が0.065、LB=10では実行時間が0.017、LB=25では実行
時間が0.005、LB=50では実行時間が0.004、LB=125では
実行時間が0.008、LB=250では実行時間が0.016となり、
LB=50が最も短い実行時間になると判り、ユーザーは、L
Bとして50を採用して並列行列ライブラリを実行させれ
ばよいことが判る（ステップ４１１）。ステップ４１１
の処理で最適なＬＢが定まったので、ユーザーの指定し
たＵＣＰ(Ｎ，ＮＰＵ)と、最適なＩＣＰ(ＬＢ)とによっ
て、並列行列ライブラリを実行する（ステップ４１
２）。

【００６７】以上が、ステップ４０３の処理によるユー
ザーが並列行列ライブラリを実行する処理内容である。

【００６８】図１０は本発明の第４の実施形態による複
数コンポーネントソフトウェアの構成方法を説明するフ
ローチャート、図１１はすでに説明しているが複数コン
ポーネントからなるプログラムと２台のワークステーシ
ョンとによる並列計算環境を説明する図、図１２は２つ
のコンポーネントを両方ともワークステーション１に実
行させる場合の並列計算環境を説明する図、図１３、図
１４は２つのコンポーネントのうち一方をワークステー
ション１にもう一方をワークステーション２に実行させ
る場合の並列計算環境を説明する図、図１５は複数コン
ポーネントソフトウェアのＵＣＰ、ＩＣＰ、実行時間の
対応例を説明する図である。

【００６９】本発明の第４の実施形態によるコンポーネ
ントソフトウェア構成方法は、ソフトウェアのインスト
ール方法及び実行も含んでおり、図１０に示すように、
実行時間予測モデル付きの複数コンポーネントソフトウ
ェアの作成の処理（ステップ１００１）と、並列計算環
境への複数コンポーネントソフトウェアのインストール
の処理（ステップ１００２）と、ユーザーが複数コンポ
ーネントソフトウェアを実行する処理（ステップ１００
３）とから成る。

【００７０】まず、ステップ１００１での実行時間予測
モデル付きの複数コンポーネントソフトウェアの作成の
処理について説明する。ステップ１００１の処理におい
て、まず、複数コンポーネントソフトウェアを作成す
る。この処理は、ソフトウェアのプログラムの本体を作
成する処理である（ステップ１００４）。次に、ステッ
プ１００４で作成したソフトウェアを構成する各コンポ
ーネントにＰ−１、Ｐ−２等の番号を付ける。このコン
ポーネントは、１つの計算機で実行するプログラムの範
囲で区切られるプログラムの各部分であるとする。例え
ば、ある計算機で実行させる部分をＰ−１とし、別の計
算機で実行させる部分をＰ−２とする等である（ステッ
プ１００５）。次に、ソフトウェアからクリティカルパ
ラメータＣＰを抽出し、ユーザークリティカルパラメー
タをＵＣＰ−１、ＵＣＰ−２等とする（ステップ１００
６）。また、内部クリティカルパラメータとして、各コ
ンポーネントを実行させる計算機を定めるパラメータを
ＩＣＰとして抽出する（ステップ１００７）。

【００７１】ここで、前述のＩＣＰについて具体的に説
明する。例えば、図１１に示すように、複数コンポーネ
ントソフトウェアがＰ−１とＰ−２という２つのコンポ
ーネント部分１１０１、１１０２から構成されていて、
そのソフトウェアを実行する計算環境がワークステーシ
ョンＷＳ−１とＷＳ−２とがネットワーク１１０５で結
合されて構成されているものとする。そして、例えば、
ＩＣＰの値が（１，１）であれば、図１２に示すよう
に、コンポーネント部分Ｐ−１をワークステーションＷ
Ｓ−１で実行させ、コンポーネント部分Ｐ−２もワーク
ステーションＷＳ−１により実行させるとし、ＩＣＰの
値が（２，１）であれば、図１３に示すように、コンポ
ーネント部分Ｐ−１をワークステーションＷＳ−２によ
り実行させ、コンポーネント部分Ｐ−２をワークステー
ションＷＳ−１により実行させるとし、さらに、ＩＣＰ
の値が（１，２）であれば、図１４に示すように、コン
ポーネント部分Ｐ−１をワークステーションＷＳ−１に
より実行させ、コンポーネント部分Ｐ−２をワークステ
ーションＷＳ−２で実行させるとする。このＩＣＰは複
数コンポーネントソフトウェアに必須の特徴的なパラメ
ータである。

【００７２】次に、複数コンポーネントソフトウェアの
実行時間予測モデルの作成を行う。このモデルは、各コ
ンポーネントの計算回数を各ＵＣＰの関数としてカウン
トし、そのコンポーネントを実行する計算機の計算性能
で割って計算実行時間を予測するものである（ステップ
１００８）。

【００７３】例えば、コンポーネントＰ−１の計算回数
ＣＯＵＮＴ（Ｐ−１）が、

【００７４】

【数７】

【００７５】として示す数７の式のように、ＵＣＰ−
１、ＵＣＰ−２の関数で書かれ、コンポーネントＰ−２
の計算回数ＣＯＵＮＴ（Ｐ−２）が、

【００７６】

【数８】

【００７７】として示す数８の式のように、ＵＣＰ−２
の関数で書かれているものとする。

【００７８】この場合、ＩＣＰ＝（１，１）の実行時間
ｔｉｍｅ（ＩＣＰ＝（１，１））は、コンポーネントＰ
−１の計算回数を、コンポーネントＰ−１をワークステ
ーションＷＳ−１で実行する計算性能で割った値と、コ
ンポーネントＰ−２の計算回数を、コンポーネントＰ−
２をワークステーションＷＳ−１で実行する計算性能で
割った値との和となるので、

【００７９】

【数４】

【００８０】として示す数４の式で求めることができ
る。この数４の式において、SPEED(Ｐ−１、ＷＳ−１)
は、Ｐ−１をＷＳ−１で実行した場合のＷＳ−１の計算
性能、SPEED(Ｐ−２、ＷＳ−１)は、Ｐ−２をＷＳ−１
で実行した場合のＷＳ−１の計算性能である。

【００８１】同様に、ＩＣＰ＝（１，２）の場合の実行
時間ｔｉｍｅ（ＩＣＰ＝（１，２））は、コンポーネン
トＰ−１の計算回数を、コンポーネントＰ−１をワーク
ステーションＷＳ−１で実行する計算性能で割った値
と、コンポーネントＰ−２の計算回数を、コンポーネン
トＰ−２をワークステーションＷＳ−２で実行する計算
性能で割った値との和となるので、

【００８２】

【数５】

【００８３】として示す数５の式で求めることができ
る。この数５の式において、SPEED(Ｐ−２、ＷＳ−２)
は、Ｐ−２をＷＳ−２で実行した場合のＷＳ−２の計算
性能である。

【００８４】同様に、ＩＣＰ＝（２，１）の場合の実行
時間ｔｉｍｅ（ＩＣＰ＝（２，１））は、コンポーネン
トＰ−１の計算回数を、コンポーネントＰ−１をワーク
ステーションＷＳ−２で実行する計算性能で割った値
と、コンポーネントＰ−２の計算回数を、コンポーネン
トＰ−２をワークステーションＷＳ−１で実行する計算
性能で割った値との和となるので、

【００８５】

【数６】

【００８６】として示す数６の式で求めることができ
る。この数６の式において、SPEED(Ｐ−１、ＷＳ−２)
は、Ｐ−１をＷＳ−２で実行した場合のＷＳ−２の計算
性能である。

【００８７】以上が、ステップ１００１の処理による実
行時間予測モデル付きの複数コンポーネントソフトウェ
アを作成する処理内容である。

【００８８】次に、ステップ１００２での並列計算環境
への複数コンポーネントソフトウェアのインストールの
処理について説明する。ステップ１００２の処理におい
て、まず、並列計算環境における各計算機上での各コン
ポーネントの性能を測定し、実行時間予測モデルに組み
込む（ステップ１００９）。

【００８９】このステップ１００９の処理は、ワークス
テーションＷＳ−１がコンポーネントＰ−１を実行する
場合の計算性能が、

【００９０】

【数９】

【００９１】で示す数９の式で示され、ワークステーシ
ョンＷＳ−２がコンポーネントＰ−１を実行する場合の
計算性能が、

【００９２】

【数１０】

【００９３】で示す数１０の式で示され、ワークステー
ションＷＳ−１がコンポーネントＰ−２を実行する場合
の計算性能が、

【００９４】

【数１１】

【００９５】で示す数１１の式で示され、ワークステー
ションＷＳ−２がコンポーネントＰ−２を実行する場合
の計算性能が、

【００９６】

【数１２】

【００９７】で示す数１２の式で示されるとしたとき、
これらを前述した数４、数５、数６の各式に代入する処
理であり、これにより、各ＩＣＰ毎にＵＣＰを代入すれ
ばすぐに実行時間が予測できるようにしておくことがで
きる。

【００９８】この結果、各ＩＣＰに対する実行時間の予
測モデルは、次のような、数１３、数１４、数１５の各
式に示すようなものとなる。

【００９９】

【数１３】

【０１００】

【数１４】

【０１０１】

【数１５】

【０１０２】前述した数９〜数１２の各式において、計
算性能ＳＰＥＥＤの値として示されている数値の単位
は、例えば、ＭＦlops／Ｓecである。

【０１０３】次に、並列計算環境において、各ＩＣＰが
計算機の資源の制約上問題がないか否かをチェックす
る。この処理は、例えば、コンポーネントＰ−１とＰ−
２との両方をワークステーションＷＳ−２に実行させる
ことが不可能となるような場合に、このような組合せに
よる実行時間の予測モデルから外すというような処理で
ある（ステップ１０１０）。

【０１０４】すなわち、例えば、コンポーネントＰ−１
において使用するメモリ量が１００メガバイトであり、
ワークステーションＰ−２において使用するメモリ量が
２００メガバイトであり、ワークステーションＷＳ−１
に搭載してあるメモリ量が４００メガバイトであり、ワ
ークステーションＷＳ−２に搭載してあるメモリ量が２
５０メガバイトであるとする。このとき、コンポーネン
トＰ−１とＰ−２との両方をワークステーションＷＳ−
２に実行させる場合の実行時間の予測だけは行えるが、
実際にコンポーネントＰ−１とＰ−２とのメモリ量の合
計が同時に必要な場合、コンポーネントＰ−１とＰ−２
との両方をワークステーションＷＳ−２に実行させるこ
とは不可能になる。このような場合に、実行時間の予測
モデルから外す処理を行う。

【０１０５】以上が、ステップ１００２の処理による複
数並列計算環境への複数コンポーネントソフトウェアの
インストールの処理内容である。

【０１０６】次に、ステップ１００３でのユーザーが複
数コンポーネントソフトウェアを実行する処理について
説明する。ステップ１００３の処理において、まず、ユ
ーザーが実行するＵＣＰから、インストール時に作成さ
れたモデルによりＩＣＰを決定する（ステップ１０１
１）。

【０１０７】例えば、前述で説明した例において、複数
コンポーネントソフトウェアのＵＣＰ、ＩＣＰ、実行時
間の対応が図１５に示す例のようなものであるとする。
なお、図１５におけるＵＣＰ−１、１、ＵＣＰ−２の欄
に示される数値は、計算回数を決めるパラメータであ
り、図示数値の１０⁶ 倍程度の値であり、実行時間time
の欄の数値は、Ｓecである。いま、ユーザーが、ＵＣＰ
−１を１、ＵＣＰ−２を１とすると、図１５に示すよう
に、ＩＣＰが（１、２）の場合、実行時間が８０、ＩＣ
Ｐが（２、１）の場合、実行時間が６４となる。ＩＣＰ
が（１、１）の場合は、数１３、数１４、数１５の各式
の相互比較により、どんなＵＣＰ−１、ＵＣＰ−２で
も、ＩＣＰが（１、２）、（２、１）の場合の実行時間
よりも長くなることが判る。この結果、ＩＣＰが（２、
１）、すなわち、コンポーネントＰ−１をワークステー
ションＷＳ−２で実行させ、コンポーネントＰ−２をワ
ークステーションＷＳ−１で実行させるのがよいことが
判る。

【０１０８】また、ユーザーが、ＵＣＰ−１を１、ＵＣ
Ｐ−２を５とすると、図１５に示すように、ＩＣＰが
（１、２）の場合、実行時間が２００、ＩＣＰが（２、
１）の場合、実行時間が２４０となり、ＩＣＰが（１、
２）、すなわち、コンポーネントＰ−１をワークステー
ションＷＳ−１で実行させ、コンポーネントＰ−２をワ
ークステーションＷＳ−２で実行させるのがよいことが
判る。また、ユーザーが、ＵＣＰ−１を２、ＵＣＰ−２
を１とすると、ＩＣＰが（１、２）の場合、実行時間が
１３０、ＩＣＰが（２、１）の場合、実行時間が８４と
なり、ＩＣＰが（２、１）、すなわち、コンポーネント
Ｐ−１をワークステーションＷＳ−２で実行させ、コン
ポーネントＰ−２をワークステーションＷＳ−１で実行
させるのがよいことが判る。

【０１０９】次に、前述の処理により得られた最適なＩ
ＣＰに従い、各コンポーネントを並列計算環境の各計算
機に割り振り、複数コンポーネントソフトウェアを実行
する（ステップ１０１２）。

【０１１０】以上が、ステップ１００３の処理による複
数コンポーネントソフトウェアを実行する処理内容であ
る。

【０１１１】前述した本発明の実施形態によれば、以下
に説明するような効果を得ることができる。

【０１１２】本発明の実施形態は、並列計算機におい
て、プロセッサ台数の多少、プロセッサ性能の高低等の
性能を大きく左右するパラメータを抽出し、そのうちユ
ーザーインターフェイスに現れるものをＵＣＰ、ユーザ
ーインターフェイスに現れないものをＩＣＰとして、Ｕ
ＣＰとＩＣＰとから成る性能予測モデルを構成し、その
性能予測モデルを用いて、任意の実行環境下で任意のＵ
ＣＰに応じたＩＣＰを定めるようにしており、これによ
り、最適な実行時間で並列ソフトウェアを稼動させるこ
とができる。

【０１１３】例えば、並列行列ライブラリを実行させる
場合、本来、ユーザーが行わなければならなかった行列
の分割ブロックサイズ等の調整を行う必要がなくなり、
ユーザは、最短の実行時間にするための調整を行う必要
がなくなる。また、ブロックサイズをインターフェイス
に書く必要がなくなり、簡潔なインターフェイスにな
る。

【０１１４】また、本発明の実施形態は、分散計算環境
において、計算機の台数、性能の高低等、プロセッサ台
数の多少、プロセッサ性能の高低等の性能を大きく左右
するパラメータを抽出し、そのうちユーザーインターフ
ェイスに現れるものをＵＣＰ、ユーザーインターフェイ
スに現れないもの（どのコンポーネントをどの計算機に
実行させるか）をＩＣＰとして、ＵＣＰとＩＣＰとから
成る性能予測モデルを構成し、その性能予測モデルを用
いて、任意の実行環境下で任意のＵＣＰに応じたＩＣＰ
を定めるようにしており、これにより、最適な実行時間
で複数コンポーネントソフトウェアを稼動させることが
できる。

【０１１５】すなわち、ユーザは、どのコンポーネント
をどの計算機に実行させるかの組み合わせについての複
雑な調整を行うことなく、最適な実行時間で複数コンポ
ーネントソフトウェアを実行させることができる。ま
た、どのコンポーネントをどの計算機に実行させるか
を、利用者が複数コンポーネントソフトウェアの実行毎
に指定する必要がなくなり、簡潔な利用法とすることが
できる。

【０１１６】

【発明の効果】以上説明したように本発明によれば、並
列計算機で実行させる並列ソフトウェアのデータ分割
を、処理を行わせる並列計算機に合わせて自動的に定め
ることができ、また、並列計算機の利用者が、並列計算
機で実行させる並列ソフトウェアのデータ分割を、並列
計算機毎に調整したり、利用インターフェイスに追加す
る必要をなくすことができる。

【０１１７】また、本発明によれば、分散計算環境での
複数コンポーネントソフトウェアの実行において、どの
コンポーネントをどの計算機で実行させるかを、処理を
行わせる分散計算環境に合わせて自動的に定めることが
でき、また、利用者が、どのコンポーネントをどの計算
機で実行させるかを分散計算環境毎に調整したり、利用
インターフェイス等に追加する必要をなくすことができ
る。

【図面の簡単な説明】

【図１】本発明の第１の実施形態による並列ソフトウェ
アの構成方法を説明するフローチャートである。

【図２】未定係数を決定するためのＵＣＰ、ＩＣＰの数
値例を示す図である。

【図３】並列ソフトウェアの実際の実行時間をフィード
バックして性能予測のモデルに利用する本発明の第２の
実施形態による並列ソフトウェアの構成方法を説明する
フローチャートである。

【図４】本発明の第３の実施形態による並列行列ライブ
ラリの構成方法を説明するフローチャートである。

【図５】行列の分割ブロックサイズ４０で１６台のプロ
セッサに縦横３２０の正方行列を分割実行させる例につ
いて説明する図である。

【図６】行列の分割ブロックサイズ２０で１６台のプロ
セッサに縦横３２０の正方行列を分割実行させる例につ
いて説明する図である。

【図７】単一の計算機と並列計算機とに同一の行列演算
を実行させる場合のプログラム例を示す図である。

【図８】並列行列ライブラリの構成の処理で作成するＵ
ＣＰ、ＩＣＰ、実行時間の表（その１）を説明する図で
ある。

【図９】並列行列ライブラリの構成の処理で作成するＵ
ＣＰ、ＩＣＰ、実行時間の表（その２）を説明する図で
ある。

【図１０】本発明の第４の実施形態による複数コンポー
ネントソフトウェアの構成方法を説明するフローチャー
トである。

【図１１】すでに説明しているが複数コンポーネントか
らなるプログラムと２台のワークステーションとによる
並列計算環境を説明する図である。

【図１２】２つのコンポーネントを両方ともワークステ
ーション１に実行させる場合の並列計算環境を説明する
図である。

【図１３】２つのコンポーネントのうち一方をワークス
テーション１にもう一方をワークステーション２に実行
させる場合の並列計算環境を説明する図である。

【図１４】２つのコンポーネントのうち一方をワークス
テーション１にもう一方をワークステーション２に実行
させる場合の並列計算環境を説明する図である。

【図１５】複数コンポーネントソフトウェアのＵＣＰ、
ＩＣＰ、実行時間の対応例を説明する図である。

【符号の説明】

Ｐ−１、Ｐ−２コンポーネントプログラムＷＳ−１、ＷＳ−２ワークステーション

───────────────────────────────────────────────────── フロントページの続き (72)発明者伊藤智東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内Ｆターム(参考） 5B045 GG02 GG11

Claims

【特許請求の範囲】

【請求項１】並列計算機に実行させるソフトウェアの
構成方法において、前記ソフトウェアの実行性能を大き
く左右し、かつ、ユーザーインターフェイスには現れな
いパラメータを調節してインストールを行う機能を有す
ることを特徴とするソフトウェアの構成方法。
【請求項２】分散計算環境で実行させるソフトウェア
の構成方法において、前記ソフトウェアの実行性能を大
きく左右し、かつ、ユーザーインターフェイスには現れ
ないパラメータを調節してインストールを行う機能を有
する複数のコンポーネントプログラムからなることを特
徴とするソフトウェアの構成方法。
【請求項３】並列計算機に実行させるソフトウェアの
構成方法において、前記ソフトウェアの実行性能を大き
く左右し、かつ、ユーザーインターフェイスには現れな
いパラメータを、性能予測方法に基づいて、ユーザーイ
ンターフェイスに現れるパラメータに応じて自動的に調
節してインストールを行う機能を有することを特徴とす
るソフトウェアの構成方法。
【請求項４】分散計算環境で実行させるソフトウェア
の構成方法において、前記ソフトウェアの実行性能を大
きく左右し、かつ、ユーザーインターフェイスには現れ
ないパラメータを、性能予測方法に基づいて、ユーザー
インターフェイスに現れるパラメータに応じて自動的に
調節してインストールを行う機能を有する複数のコンポ
ーネントプログラムからなることを特徴とするソフトウ
ェアの構成方法。
【請求項５】並列計算機に実行させるソフトウェアの
構成方法において、前記ソフトウェアの実行性能を大き
く左右し、かつ、ユーザーインターフェイスには本来必
要のない行列を分割するサイズを表わすパラメータを、
性能予測方法に基づいて、ユーザーインターフェイスに
現れるパラメータに応じて自動的に調節してインストー
ルを行う機能を有することを特徴とする並列行列計算用
のソフトウェアの構成方法。
【請求項６】分散計算環境で実行させるソフトウェア
の構成方法において、前記ソフトウェアの実行性能を大
きく左右し、かつ、ユーザーインターフェイスには本来
必要のないどのコンポーネントをどの計算機で実行させ
るかを表わすパラメータを、性能予測方法に基づいて、
ユーザーインターフェイスに現れるパラメータに応じて
自動的に調節してインストールを行う機能を有する複数
のコンポーネントプログラムからなることを特徴とする
ソフトウェアの構成方法。
【請求項７】並列計算機に実行させるソフトウェアの
構成方法において、前記ソフトウェアの実行性能を大き
く左右し、かつ、ユーザーインターフェイスには現れな
いパラメータを、性能予測方法に基づいて、また、過去
の性能実績に基づいて、ユーザーインターフェイスに現
れるパラメータに応じて自動的に調節してインストール
を行う機能を有することを特徴とするソフトウェアの構
成方法。
【請求項８】分散計算環境で実行させるソフトウェア
の構成方法において、前記ソフトウェアの実行性能を大
きく左右し、かつ、ユーザーインターフェイスには現れ
ないパラメータを、性能予測方法に基づいて、また、過
去の性能実績に基づいて、ユーザーインターフェイスに
現れるパラメータに応じて自動的に調節してインストー
ルを行う機能を有する複数のコンポーネントプログラム
からなることを特徴とするソフトウェアの構成方法。