JP2003280921A

JP2003280921A - 並列性抽出装置

Info

Publication number: JP2003280921A
Application number: JP2002082303A
Authority: JP
Inventors: Satoshi Hosoi; 聡細井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-03-25
Filing date: 2002-03-25
Publication date: 2003-10-03

Abstract

(57)【要約】【課題】並列接続したコンピュータにオリジナルプログ
ラムを並列処理し易いように、オリジナルプログラムを
分割処理する並列性抽出装置を提供すること。【解決手段】このため、本発明では、プロセッサＣＰＵ
とメモリｍを備えたパーソナル・コンピュータＰＣを複
数台ネットワークＮより並列接続するとともに、この複
数台のデータ処理手段に、プログラムを送出するマスタ
として機能するマスタ用パーソナル・コンピュータＰＣ
１０を接続したパーソナル・コンピュータ・クラスタ１
００において、前記マスタ用パーソナル・コンピュータ
ＰＣ１０に、オリジナル・プログラムの配列名及び配列
を解析してその同一性を判断する配列解析手段３０を有
するコンパイラ２０を具備し、同じ配列名にライトする
実行文およびそれらと同じ配列をリードする実行文を１
つのグループとすることにより、オリジナル・プログラ
ムのループを独立な複数のループに分割する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はパーソナル・コンピ
ュータの如きコンピュータを汎用のネットワークで並列
接続して処理を行う処理装置に係り、特にオリジナルプ
ログラムを、並列接続したコンピュータに並列処理し易
いように分割する並列性抽出装置に関するものである。

【０００２】

【従来の技術】例えば天気予報の計算など、科学技術計
算では非常に多くの計算を行うので、並列処理を行うこ
とが古くから行われてきた。科学技術計算のプログラム
では、ループが実行時間の大半を占めるので、このルー
プを複数のプロセッサに分割して並列実行することがよ
く行われる。並列化による性能向上を得るためには、デ
ータをセットして起動するスタートアップのオーバヘッ
ドがあるため、この負担を小さくするため、できるだけ
大きな粒度に分割することが重要とされてきた。

【０００３】ところが現在このような状況が変わりつつ
ある。それはＣＰＵの性能が格段に向上して、１ＣＰＵ
で昔の並列計算機数台のＣＰＵ分の性能を凌駕するよう
になってきたため、例えば数千台規模のパーソナル・コ
ンピュータ（以下パソコンという）をクラスタ接続し
た、ＰＣクラスタが新しいタイプの安価な並列計算機と
して注目されつつある。

【０００４】従来のＰＣクラスタを図４により簡単に説
明する。図４において、ＰＣ０、ＰＣ１、ＰＣ２・・・
ＰＣ３はパソコンであり、それぞれプロセッサＣＰＵ
０、ＣＰＵ１、ＣＰＵ２・・・ＣＰＵ３と、メモリ
ｍ₀、ｍ₁、ｍ₂・・・ｍ₃を具備している。プロセッ
サＣＰＵ１〜ＣＰＵ３はその入出力部分がネットワーク
Ｎにより並列接続され、マスタとなるＰＣ０とこれまた
ネットワークＮを介して接続されている。パソコンＰＣ
０は、いわゆるマスターとして機能するものであり、Ｐ
Ｃ１〜ＰＣ３が動作するためのプログラムやデータをＰ
Ｃ１〜ＰＣ３に出力したり、ＰＣ１〜ＰＣ３の演算結果
をユーザに出力するものである。そしてこのマスターの
ＰＣ０と並列接続されたＰＣ１〜ＰＣ３でＰＣクラスタ
１０が構成される。パソコンの代わりにプロセッサボー
ドを使用してもよい。

【０００５】このような状況において、従来型の単純な
ループ分割方式では、並列に実行はできるが、各ＣＰＵ
の性能（以下スカラ性能という）を充分に引き出すこと
が必ずしもできないようになってきた。すなわち並列計
算機の性能を必ずしも充分に引き出していないのが現状
である。その原因は、従来型のループ分割方式が、各Ｃ
ＰＵのスカラ性能を有効に利用することを必ずしも考慮
していないからである。

【０００６】例えば図５に示すプログラムを従来方式で
実行する場合について説明する。図５のプログラムは、
図６に示す、テーブルＵ、Ｖ、Ｐ、テーブルＵＯＬＤ、
ＶＯＬＤ、ＰＯＬＤ、テーブルＵＮＥＷ、ＶＮＥＷ、Ｐ
ＮＥＷの９個のテーブルを使用する。

【０００７】実行文（１）の右辺は、テーブルＵＮＥＷ
のエレメント（Ｉ，Ｊ）からテーブルＵのエレメント
（Ｉ，Ｊ）を２倍（小数点は浮動小数点を示す）したも
のにテーブルＵＯＬＤのエレメント（Ｉ，Ｊ）を加算
し、これに定数（ＡＬＰＨＡ）を乗じたものに、テーブ
ルＵのエレメント（Ｉ，Ｊ）を加算することを示し、左
辺は右辺で実行したデータをテーブルＵＯＬＤのエレメ
ント（Ｉ，Ｊ）に書き込むことを示している。実行文
（２）、（３）も（１）と同様である。実行文（４）は
テーブルＵＮＥＷのエレメント（Ｉ，Ｊ）のデータを読
み出し、これをテーブルＵのエレメント（Ｉ，Ｊ）に書
き込むことを示している。実行文（５）、（６）も
（４）と同様である。

【０００８】そしてＤＯＩ＝１、Ｍは（１）〜（６）を
Ｉ＝１〜Ｍまで繰り返すことを示し、ＤＯＪ＝１、Ｎは
Ｊ＝１〜Ｎまでこれを繰り返すことを示している。

【０００９】従来は、図５に示す如きプログラムのＪル
ープを図７に示す如く、各プロセッサに分割している。
すなわちＤＯＪ文のｍｙＬＢ、ｍｙＵＢを該当プロセッ
サが処理をするＪの範囲（上限、下限の範囲）を記入し
て分割している。例えば７台のＰＣで処理するときは１
〜Ｎを７分割すればよい。

【００１０】

【発明が解決しようとする課題】ところで図７に示すプ
ログラムにより明らかなように、従来の並列分割方式で
は各プロセッサが実行するループ本体は全く同じであ
る。従来は常に粒度を大きくすることが良いとされてい
たので、このように外側のループで分割していた。

【００１１】このため、従来の分割方式では、ループ本
体の複雑度はオリジナル・プログラムの逐次ループと何
等変わらない。これは後述するように本来独立に実行で
きる処理をミックスして実行しようとしているためであ
る。

【００１２】また従来の並列実行では、コンパイラとの
連携を充分に考慮していない。そのため両者がうまく統
合できていない。

【００１３】したがって本発明の目的は、このような欠
点を改善した並列性抽出装置を提供することである。

【００１４】

【課題を解決するための手段】本発明の原理を図１に示
す。ＰＣ１、ＰＣ２・・・ＰＣ３はパソコン、ＣＰＵ
１、ＣＰＵ２・・・ＣＰＵ３はプロセッサ、ｍ ₁、ｍ₂
・・・ｍ₃はメモリ、ＰＣ１０はマスタとして動作する
パソコンで、配列解析手段３０を有するコンパイラ２０
を備えているプロセッサＣＰＵ１０と、メモリｍ₁₀を具
備している。

【００１５】本発明の前記目的は下記（１）〜（５）に
より達成することができる。

【００１６】（１）プロセッサＣＰＵとメモリｍを備え
たパーソナル・コンピュータＰＣを複数台ネットワーク
より並列接続するとともに、この複数台のデータ処理手
段に、プログラムを送出するマスタとして機能するマス
タ用パーソナル・コンピュータＰＣ１０を接続したパー
ソナル・コンピュータ・クラスタにおいて、前記マスタ
用パーソナル・コンピュータＰＣ１０に、オリジナル・
プログラムの配列名及び配列を解析してその同一性を判
断する配列解析手段３０を有するコンパイラ２０を具備
し、同じ配列名にライトする実行文およびそれらと同じ
配列をリードする実行文を１つのグループとすることに
より、オリジナル・プログラムのループを独立な複数の
ループに分割することを特徴とする並列性抽出装置。

【００１７】（２）前記配列解析手段３０は、前記オリ
ジナル・プログラムのループ中でリードしかされない配
列を参照している実行文を１つのグループとすることに
より、ループを独立な複数のループに分割することを特
徴とする前記（１）記載の並列性抽出装置。

【００１８】（３）前記配列解析手段３０は、同じキャ
ッシュブロックにライトする実行文を解読して、これを
１つのグループとすることにより、ループを独立な複数
のループに分割することを特徴とする前記（１）記載の
並列性抽出装置。

【００１９】（４）前記配列解析手段３０は、同じキャ
ッシュブロックにリードする実行文を解読して、これを
１つのグループとすることにより、ループを独立な複数
のループに分割することを特徴とする前記（１）又は前
記（３）記載の並列性抽出装置。

【００２０】（５）前記配列解析手段３０は、前記
（１）または前記（２）又は前記（３）又は前記（４）
により得られたループの最外ループを分割することによ
り、分割しないときよりも多くのパーソナル・コンピュ
ータで並列実行処理を行うことを特徴とする前記（１）
又は前記（２）又は前記（３）又は前記（４）記載の並
列性抽出装置。

【００２１】そしてこれにより下記（１）〜（５）の作
用効果を奏する。

【００２２】（１）本発明によれば従来のものに比較し
て各プロセッサが実行する粒度は小さくなるが、ループ
本体は単純になるので、高速に処理を行うことができ
る。本発明によれば、各ＣＰＵのスカラ性能を引き出す
ためのコンパイラの最適化がより効果的に効くようにな
るからである。またデータを保持するフローテングレジ
スタが少なくなるとともに、ループ内で参照する配列
（要素）の種類が少なくなるので、そのアドレスを保持
する整数レジスタが少なくて済むことになる。

【００２３】（２）ループの中でリードしかされない配
列を参照している実行文を１つのグループとすることに
より１つのプロセッサで実行文と読み出し文を実行する
ことができるので、少ないプロセッサでデータ処理を行
うことが可能となる。

【００２４】（３）同じキャッシュブロックにライトす
る実行文を１つのグループとすることにより、フォルス
シェアリングの発生を回避しながら、ループを全く独立
した複数のループに分割することができる。キャッシュ
ブロックにライトするとき、フォルスシェアリングの発
生がないので、メモリアクセス回数が大きく減少し、デ
ータ処理速度を向上することができる。

【００２５】（４）同じキャッシュブロックにリードす
る実行文を１つのグループとすることにより、フォルス
シェアリングの発生（同一キャッシュブロック内の別々
の要素に異なるプロセッサから同時にアクセスするこ
と）またはトルーシェアリングの発生（同一キャッシュ
ブロック内の同一要素に異なるプロセッサから同時にア
クセスすること）を回避しながら、ループを全く独立な
複数のループに分割できる。したがってキャッシュブロ
ックにリードするとき、フォルスシェアリングの発生ま
たはトルーシェアリングの発生がないので、メモリアク
セス回数が大きく減少し、データ処理速度を向上するこ
とができる。

【００２６】（５）ループの最外ループを更に分割する
ことにより、多くのプロセッサで並列処理可能になるの
で、更にデータ処理速度を向上することができる。

【００２７】

【発明の実施の形態】本発明の実施の形態を図１に基づ
き説明する。図中ＰＣ１、ＰＣ２・・・ＰＣ３、ＰＣ１
０はパソコンで、ＰＣ１０はマスタとして動作するもの
であり、これらはインターネットの如きネットワークで
接続され、パソコンクラスタ１００を構成している。Ｐ
Ｃ１〜ＰＣ３にはプロセッサＣＰＵ１〜ＣＰＵ３とメモ
リｍ₁〜メモリｍ₃が具備され、ＰＣ１０にもプロセッ
サＣＰＵ１０とメモリｍ₁₀が具備されている。

【００２８】ＣＰＵ１０には配列解析手段３０を有する
コンパイラ２０が用意されている。配列解析手段３０
は、オリジナルプログラムを解読して、ループの情報に
もとづきループ回数を認識したり、配列名を認識した
り、各配列名の実行文を構成する配列を認識して、同じ
配列のものが複数のグループに分けられないようにグル
ープ化したり、ループ中でリードしかされない配列を参
照している実行文を１つのグループとしたり、キャッシ
ュの同じキャッシュブロックにライトあるいはリードす
る実行文を１つのグループとしたり、ループの最外ルー
プを分割したりするものである。

【００２９】本発明の動作を説明する。

【００３０】いまマスタとして動作するＣＰＵ１０に、
図１（Ｂ）に示すオリジナルプログラムが入力される
と、コンパイラ２０、配列解析手段３０はこれを解読す
る。そして実行文（１）については、配列名ＵＯＬＤに
ライトする実行文の配列つまり要素がＵ、ＵＮＥＷ、Ｕ
ＯＬＤであること、また実行文（４）についてはその配
列名Ｕが配列ＵＮＥＷをリードするものであること等を
解読し、これらを１つのグループにすることができるこ
とを判断し、図１（Ｃ）のグループＣ−１に示す如く、
全く独立に実行できるループにする。

【００３１】同様にして、図１（Ｂ）の実行文（２）及
び（５）を図１（Ｃ）のグループＣ−２に、図１（Ｂ）
の実行文（３）及び（６）を図１（Ｃ）のグループＣ−
３にそれぞれ示す如く、全く独立に実行できるループに
する。

【００３２】これによりプロセッサＣＰＵ１がＣ−１
を、プロセッサＣＰＵ２がＣ−２を、プロセッサＣＰＵ
３がＣ−３を実行することが可能となる。

【００３３】この場合、図７に示す従来の場合に比べ
て、各プロセッサが実行する粒度は小さくなるが、ルー
プ本体は単純になるので、図１（Ｃ）の如くグループ化
する方が高速に処理することができる。このようにプロ
グラムが単純化されることにより、ＣＰＵのスカラ性能
を引き出すためのコンパイラの最適化がより効果的に効
くようになる状況が生まれるからである。

【００３４】しかも図７に示す従来の場合に比較して、
データを保持するフローテングレジスタが少なくて済む
ことになるが、データもグループＣ−１の場合には配列
Ｕ、ＵＯＬＤ、ＵＮＥＷの３種類の配列の種類だけでよ
く、ループ内で参照するものが少なくなるので、そのア
ドレスを保持する整数レジスタが少なくて済むことにな
る。これに比べ図７に示す従来の場合は、ループ内で参
照する配列の種類がＵ、Ｖ、Ｐ、ＵＯＬＤ、ＶＯＬＤ、
ＰＯＬＤ、ＵＮＥＷ、ＶＮＥＷ、ＰＮＥＷの９種類もあ
るので、本発明よりもはるかに多くのレジスタを必要と
する。

【００３５】またループの中味を構成するプログラムが
単純なので、データ処理を高速に実行できるループアン
ローリングが可能となり、アンローリグ回数を増すこと
ができる。ループの中味のプログラムが単純化されるの
で、最内ループに加えて外側のループをアンローリング
することができる。アンローリングを行うか否かはコン
パイラが判断する。

【００３６】しかもレジスタ数に余裕が出てくるので、
繰り返し使用するようなデータ、つまりイタレーション
（ｉｔｅｒａｔｉｏｎ）間にまたがって存在する値をレ
ジスタに保持することができ、毎回ロードする必要がな
く、データ処理効率を向上することができる。

【００３７】また、実行文が単純になれば、前記アンロ
ーリングが可能となるのみならず、ソフトウェアパイプ
ライン（ｓｏｆｔｗａｒｅｐｉｐｅｌｉｎｉｎｇ）の
効果を上げることができる。ソフトウェアパイプライン
を行うとき、読み出し、演算・・・ストアといった各テ
スージを、Ｉ＝１、２、３・・・間毎に１サイクルづら
して実行すればよい。これを可能にするには当然命令を
保持するレジスタが必要であり、単純の方がパイプライ
ンの効果が得やすくなる。

【００３８】さらにプリフェッチを効果的に行うことが
できる。ところでループアンローリングの回数がある程
度以上とならないと、効果的にプリフェッチ命令を発行
できないが、実行文が単純になるためアンローリングの
回数を増すことができ、効果的にプリフェッチ命令の発
行が可能となる。しかもオリジナルループに比較して、
参照すべき配列の種類が少なくなるので（参照すべき配
列の種類は、図１（Ｂ）のオリジナルループでは９種類
であるのに対し、同（Ｃ）に示す各グループでは３種
類）、プリフェッチの対象となる配列も少なくなり、よ
り効果的にプリフェッチ命令を発行できる。

【００３９】これに対し従来方式ではループ本体の複雑
度は、オリジナルの逐次ループと何等変わらない。した
がって、前記本発明におけるメリットを受けられる可能
性はそれだけ小さくなる。これは本来独立に実行できる
処理をわざわざミックスして実行していることにもとづ
く。

【００４０】従来の方式では、プログラムを並行実行す
るためにプロセッサ毎に分けただけであり、プロセッサ
の機能を充分に生かしてはいない。これに対し本発明で
は、コンパイラにより独立して処理できるところをグル
ープ化して、プロセッサのスカラ性能を積極的に利用し
ようとするものでありスカラ最適化との相性を良くした
ものを提供できる。

【００４１】本発明の実施の形態を更に説明する。図１
（Ｃ）に示すプログラムを非常に多くのプロセッサで並
列実行するためには、各ループの最外ループをＮ個に分
割すればよい。

【００４２】図２は、図１（Ｃ）のグループＣ−１を２
分割した場合のコードであり、図２（Ａ）と（Ｂ）とは
それぞれ異なるプロセッサで実行する。同様に図１
（Ｃ）のグループＣ−２、Ｃ−３も２分割してそれぞれ
異なるプロセッサで実行する。このようにＮ個に分割す
ることにより更にデータ処理を高速化することができ
る。

【００４３】本発明の他の形態を図３に示す。図３にお
いて、実行文（１０）は、配列ＵＮＥＷ（Ｉ，Ｊ）を配
列名Ｕ１というテーブルに書き込むことを示している。

【００４４】前記図１の本発明では、実行文（１０）と
（１１）は依存性がないので、それぞれ別のプロセッサ
で実行することになる。

【００４５】しかし、実行文（１０）ではＵＮＥＷ
（Ｉ，Ｊ）を読み出しており、これをレジスタに保持し
ておけば、実行文（１１）ではこれを使用すればよく、
別に同じデータをもう一回読み出す必要はなく効率的で
あるので、本発明ではこのようなものを１つのグループ
にまとめたものである。

【００４６】

【発明の効果】本発明により下記（１）〜（５）の効果
を奏することができる。

【００４７】（１）本発明によれば従来のものに比較し
て各プロセッサが実行する粒度は小さくなるが、ループ
本体は単純になるので、高速に処理を行うことができ
る。本発明によれば、各ＣＰＵのスカラ性能を引き出す
ためのコンパイラの最適化がより効果的に効くようにな
るからである。またデータを保持するフローテングレジ
スタが少なくなるとともに、ループ内で参照する配列
（要素）の種類が少なくなるので、そのアドレスを保持
する整数レジスタが少なくて済むことになる。

【００４８】（２）ループの中でリードしかされない配
列を参照している実行文を１つのグループとすることに
より１つのプロセッサで実行文と読み出し文を実行する
ことができるので、少ないプロセッサでデータ処理を行
うことが可能となる。

【００４９】（３）同じキャッシュブロックにライトす
る実行文を１つのグループとすることにより、フォルス
シェアリングの発生を回避しながら、ループを全く独立
した複数のループに分割することができる。キャッシュ
ブロックにライトするとき、フォルスシェアリングの発
生がないので、メモリアクセス回数が大きく減少し、デ
ータ処理速度を向上することができる。

【００５０】（４）同じキャッシュブロックにリードす
る実行文を１つのグループとすることにより、フォルス
シェアリングの発生（同一キャッシュブロック内の別々
の要素に異なるプロセッサから同時にアクセスするこ
と）またはトルーシェアリングの発生（同一キャッシュ
ブロック内の同一要素に異なるプロセッサから同時にア
クセスすること）を回避しながら、ループを全く独立な
複数のループに分割できる。したがってキャッシュブロ
ックにリードするとき、フォルスシェアリングの発生ま
たはトルーシェアリングの発生がないので、メモリアク
セス回数が大きく減少し、データ処理速度を向上するこ
とができる。

【００５１】（５）ループの最外ループを更に分割する
ことにより、多くのプロセッサで並列処理可能になるの
で、更にデータ処理速度を向上することができる。

【図面の簡単な説明】

【図１】本発明の一実施の形態である。

【図２】本発明の第２の実施の形態説明図である。

【図３】本発明の第３の実施の形態説明図である。

【図４】クラスタ接続状態説明図である。

【図５】オリジナルプログラムである。

【図６】データ格納用のテーブル説明図である。

【図７】従来例動作説明図である。

【符号の説明】

ＣＰＵ０、ＣＰＵ１、ＣＰＵ２、ＣＰＵ３、ＣＰＵ１０
プロセッサｍ₀ ｍ₁、ｍ₂、ｍ₃、ｍ₁₀ メモリ１０、１００ＰＣクラスタ２０コンパイラ３０配列解析手段

Claims

【特許請求の範囲】

【請求項１】プロセッサとメモリを備えたパーソナル・
コンピュータを複数台ネットワークより並列接続すると
ともに、この複数台のデータ処理手段に、プログラムを
送出するマスタとして機能するマスタ用パーソナル・コ
ンピュータを接続したパーソナル・コンピュータ・クラ
スタにおいて、前記マスタ用パーソナル・コンピュータに、オリジナル
・プログラムの配列名及び配列を解析してその同一性を
判断する配列解析手段を有するコンパイラを具備し、同
じ配列名にライトする実行文およびそれらと同じ配列を
リードする実行文を１つのグループとすることにより、
オリジナル・プログラムのループを独立な複数のループ
に分割することを特徴とする並列性抽出装置。
【請求項２】前記配列解析手段は、前記オリジナル・プ
ログラムのループ中でリードしかされない配列を参照し
ている実行文を１つのグループとすることにより、ルー
プを独立な複数のループに分割することを特徴とする請
求項１記載の並列性抽出装置。
【請求項３】前記配列解析手段は、同じキャッシュブロ
ックにライトする実行文を解読して、これを１つのグル
ープとすることにより、ループを独立な複数のループに
分割することを特徴とする請求項１記載の並列性抽出装
置。
【請求項４】前記配列解析手段は、同じキャッシュブロ
ックにリードする実行文を解読して、これを１つのグル
ープとすることにより、ループを独立な複数のループに
分割することを特徴とする請求項１又は請求項３記載の
並列性抽出装置。
【請求項５】前記配列解析手段は、前記請求項１または
請求項２又は請求項３又は請求項４により得られたルー
プの最外ループを分割することにより、分割しないとき
よりも多くのパーソナル・コンピュータで並列実行処理
を行うことを特徴とする請求項１又は請求項２又は請求
項３又は請求項４記載の並列性抽出装置。