JP2003099412A

JP2003099412A - 超並列コンピュータ

Info

Publication number: JP2003099412A
Application number: JP2001289760A
Authority: JP
Inventors: Haruki Inoue; 春樹井上
Original assignee: Hitachi Engineering Co Ltd
Current assignee: Hitachi Engineering Co Ltd
Priority date: 2001-09-21
Filing date: 2001-09-21
Publication date: 2003-04-04

Abstract

(57)【要約】【課題】本発明の目的は、膨大な繰り返し演算を必要と
する分割問題においても全てのＣＰＵを有効に活用しＣ
ＰＵの数が増大しても並列処理効率を向上させることが
できる超並列コンピュータを提供することにある。【解決手段】任意の当該セルコンピュータ１０６（Ａ）
は、他のセルコンピュータ１０６（Ｂ）の稼働率を監視
し、他のセルコンピュータ１０６（Ｂ）の稼働率が所定
値より小さい場合に当該セルコンピュータ１０６（Ａ）
と実行命令の等しいクローンプログラムを他のセルコン
ピュータ１０６（Ｂ）に複製し、自己の処理担当範囲を
均等に分割して分割した他方の処理範囲を他のセルコン
ピュータ１０６（Ｂ）に処理させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、複数の中央演算装
置（以後、ＣＰＵと称する）と複数のオペレーティング
システム（以後、ＯＳと称する）及び通信手段を有する
超並列コンピュータに関する。

【０００２】

【従来の技術】一般に、並列コンピュータはＳＭＰ（対
称型並列処理）タイプとＭＰ（マッシブリー並列処理）
タイプの２種類に大別される。ＳＭＰタイプは、１つの
共有メモリー上に複数のＣＰＵを接続し、このメモリー
を介してＣＰＵ同志が交信を行うようにしている。ＳＭ
Ｐタイプは装置構成が簡単であり、コストパフォーマン
スが高い為、ビジネス用コンピュータとして広く使用さ
れている。

【０００３】しかし、ＳＭＰタイプは共有メモリーへの
データのアクセス処理能力に限界がある為に処理遅れ無
しに異なるＣＰＵ同志が交信できる条件での最大のＣＰ
Ｕ数は１６台程度である。

【０００４】ＭＰ（マッシブリ・パラレル）タイプの並
列コンピュータは、各ＣＰＵにそれぞれメモリーが接続
され、かつ、各ＣＰＵ同志が高速の通信回線で相互に、
１対１で結合されている為、任意の２つのＣＰＵ間交信
は、他ＣＰＵ間の交信に全く影響を受けない。従って、
ＭＰタイプはＣＰＵ交信処理による待ち時間が極めて小
さくなる。しかし、メモリーが膨大に必要となり、か
つ、ＣＰＵ間の接続回路が複雑になることから、ＣＰＵ
の数が大きくなるとコストパフォーマンス（コスト対性
能比）、スケーラビリティ、エキスパンダビリティ(拡
張性)が極端に低下するという欠点を有する。

【０００５】この為、近年では小型のＳＭＰ（対照性メ
モリ型並列）型のコンピュータであるセルコンピュータ
を多数,超並列接続バスで結合する形態のＳＭＰクラス
タ超並列コンピュータシステムが産業、流通、金融など
ほとんどのビジネス分野における標準的なコンピュータ
となっている。

【０００６】このＳＭＰクラスタ超並列コンピュータシ
ステムは文献「スーパーコンピュータへの挑戦」(岩波
書店発行)に見られるように1960年代から数多く提案さ
れ、実用化されてきている。ＳＭＰクラスタ超並列コン
ピュータシステムは、前述の文献に記載されている通り
「核反応時の中性子線の拡散シミュレーション」、「大
企業の社員の給料計算」、「巨大データベースのパター
ン検索」、「インターネットによる大規模受注処理」等
膨大な数の繰り返し演算を必要とする分割問題の処理演
算に用いられている。

【０００７】しかし一方で並列使用時の、複数のコンピ
ュータの稼働率が大きく低下するという課題があり、Ｓ
ＭＰクラスタ構成による超並列処理は広い分野で使われ
ることがなく適用分野が限定されている。

【０００８】例えば100本以上の、多数のＣＰＵの並列
使用時、一般的には各々のＣＰＵは繰り返し演算回数処
理を均等に分割した分だけ処理を行う。しかし現実のビ
ジネス分野の課題は時々刻々変化する状況に対応する為
に、夥しい数の分岐命令が使用されるのが一般的である
ため、これらにより繰り返し処理ごとの処理に要する時
間が大きく変動する。

【０００９】具体的には、例えば、1000回分の処理を担
当する２つのＣＰＵ、Ａ，Ｂの処理時間をそれぞれ、t
a、tbとすると、taは１ミリ秒なのに対し、tbは10秒を
要するというようなことが常に発生する。例えば、図２
２に示すように10000本のＣＰＵを使用して、従来の並
列処理方法で大きな分割問題を解こうとした時、一つの
ＣＰＵで340秒を要しているボトルネックという現象の
為に、他のＣＰＵのほとんどは1秒以内で処理を完了し
ているにも拘らず、それらのＣＰＵは339秒の間何の仕
事もしていない、という非効率的な動作になってしま
う。この場合の全体のＣＰＵ稼働率は１％以下となる。

【００１０】このように、10000本という膨大な数のＣ
ＰＵを備えたのに、100本のＣＰＵをフルに使って処理
を行ったのと同等かそれ以下の能力しか発揮できないこ
とを示している。以後、このことを並列同期処理におけ
る無駄時間の発生と称する。

【００１１】この並列同期処理における無駄時間という
欠点を克服する為に多くの提案が行われている。例え
ば、特開平7‐93265号公報に記載されている従来技術で
は、処理時間が大きいと予想される処理と、そうでない
処理をバランス良くＣＰＵに割当て、ＣＰＵの無駄時間
を無くすという工夫が行われている。

【００１２】

【発明が解決しようとする課題】しかし、従来から頻繁
に行われてきたＣＰＵ全体の処理負荷バランスを平準化
する方法は以下に示す様な欠点を有する。

【００１３】繰り返し番号毎の処理時間が予め予想でき
る場合は良いが、現実の状況は時間経過や環境の変化に
より常に変動する為、結局効率が良い場合とそうでない
場合が混在し、大変不安定な結果しか得られない。例え
ば、時々刻々、全てのＣＰＵの処理状況を監視し、負荷
の分散を図るプロセスを設ければ時々刻々状況が変化す
る場合であってもある程度の効率向上は期待できる。し
かし、常にシステム全体のＣＰＵの状況を監視する為に
は、全てのＣＰＵと頻繁に交信を続けなければならず、
ＣＰＵの数が増大すると交信の為の処理が全体の効率を
低下させることになる。

【００１４】このように、従来方法の根本的な問題は、
並列処理において計算の状況全体を監視し、必要に応じ
制御を行う全体監視制御用の全体を統括する処理が必要
不可欠であった点にあると言える。つまり、この必要不
可欠と思われていた全体統括処理が実は大きな処理効率
低下の主たる原因になっていたのである。

【００１５】以上の様な欠点は、ＣＰＵの並列度が大き
くなる程大きなものとなり、現実的には、１００本以下
のＣＰＵによる、並列コンピュータ程度の並列コンピュ
ータしか、実用に供しない。しかし、近年の産業・経済
の動向等より、より大型の、つまり並列度が１０００を
超える様な構成の並列コンピュータであっても、処理性
が低下しない様な方法と手段が必須となってきている。

【００１６】本発明の目的は、膨大な繰り返し演算を必
要とする分割問題においても全てのＣＰＵを有効に活用
しＣＰＵの数が増大しても並列処理効率を向上させるこ
とができる超並列コンピュータを提供することにある。

【００１７】

【課題を解決するための手段】本発明の特徴は、任意の
当該セルコンピュータは、他のセルコンピュータの稼働
率を監視し、他のセルコンピュータの稼働率が所定値よ
り小さい場合に当該セルコンピュータと実行命令の等し
いクローンプログラムを他のセルコンピュータに複製
し、自己の処理担当範囲を均等に分割して分割した他方
の処理範囲を他のセルコンピュータに処理させるように
したことにある。

【００１８】これを実現する為には、以下の様な人工生
命プログラム（クローンプログラム）を並列コンピュー
タハードウエア上に１体だけ生成させる。

【００１９】具体的に、繰り返し回数10000の分割処理
向けを例に説明する。要求に応じて、あるひとつのセル
コンピュータのOS（オペレーティングシステム）は２次
記憶装置内に格納されている人工生命プログラムＡＬ
(ｉ)(１〜１００００)をＣＰＵ(ｉ)上に読み上げ、起動
する。ここで(１〜１００００)とは、人工生命ＡＬが担
当する分割処理範囲を示している。

【００２０】人工生命体ＡＬ(ｉ)は以下の様にして問題
を解くようにする。 [1]．ＡＬ(i)は自身に論理的に近接しているＣＰＵ（ｉ
＋１）の状況を参照し、動作可能と判断した場合、自身
と同一のプログラムを生成（クローンの増殖）し、自身
の処理範囲（１〜10000）を等分割して（１〜5000）
を自身の処理範囲、（5001〜10000）を生成したＡＬ(ｉ
＋１)の範囲として起動する。つまり、ＡＬ(ｉ＋１)と
する。 [2]．ＡＬ（ｉ）は自身に割り当てられた処理を実行す
る。 [3]．各人工生命は自身の接続されているメモリー上に
自身のメールボックスを持ち、繰り返し処理毎に自身の
メールボックスを参照し上記[1]と同じ処理を行う。す
なわち、近接しているＣＰＵ上のクローンの処理が完了
している場合は、再び残処理の分譲を行う。 [4]．全ての担当処理が完了完了した場合は、近接する
ＣＰＵ（ｉ＋１）に対し処理が完了した旨の通知を送信
する。 [5]．処理を終了する。

【００２１】以上により、1種類のプログラムによる人
工生命体が、存在する処理資源としての空いているＣＰ
Ｕを探し、近隣で空いているＣＰＵを探し当てた場合、
自身のクローンを生成し、対象とする問題を連鎖的に分
割してゆくことで、自律的にＣＰＵ毎の負荷を分散す
る。所定の処理が完了する都度自律的にこれが繰り返さ
れていくので、全ての処理が完了するまで各ＣＰＵの負
荷が均等に分散されることになる。

【００２２】また、上記[3]、[4]におけるＣＰＵ間の交
信は、交信専用のプロセッサを用いて非同期に行わせる
ことにより、分割処理を担当するＣＰＵの処理能力をＣ
ＰＵ間の交信の為に使う必要性をなくすことができる。

【００２３】以上のように本発明は、1種類のソフトウ
エアプログラムにより並列処理に用いるＣＰＵの数に係
わらず、全てのＣＰＵを100（％）に近い稼動率で動作
させることが可能となる。

【００２４】換言すると、本発明は膨大な繰り返しを要
しかつ、該当の繰り返し処理ごとの処理量が計測、推定
あるいは予測できない場合であっても、複数の割り当て
られた全てのＣＰＵが１００(％)に近い効率で動作する
ことを可能としている。また、解こうとする課題に係わ
り無くCPUの数の増減に自律的に対応出来る方法でもあ
る。この性質をスケーラブルと称する。更に使用するCP
Uの数に係わり無く、用意するソフトウエアプログラム
は１種類で良い為、ソフトウエア開発効率、保守効率を
最大にできる。

【００２５】

【発明の実施の形態】図２に本発明の一実施例による超
並列コンピュータの全体構成図を示す。

【００２６】本装置は、複数台（７２台）のＣＰＵ１０
１、複数個（１８個）の共有メモリー１０２、超並列接
続バス１０３、２次記憶装置１０４、マンマシン装置１
０５により構成されている。ＣＰＵ１０１、共有メモリ
ー１０２はキャビネット１１０に収納され超並列接続バ
ス１０３に接続されている。

【００２７】図３に示すように３個のキャビネット１１
０と、パソコンやワークステーションなどのマンマシン
装置１０５により成っている。各キャビネット１１０に
は複数のセルコンピュータ１０６と呼ばれる小型のコン
ピュータのユニットがセットされている。セルコンピュ
ータ１０６はＳＭＰコンピュータである。本例では、３
個のキャビネット１１０が有り、各々のキャビネット１
１０には６台のセルコンピュータ１０６が段積みセット
されている。

【００２８】図４は１台のセルコンピュータ１０６の外
観図を示しており、４台のＣＰＵ１０１が装着されてい
る例を示している。図５はセルコンピュータ１０６の概
略構成図を示しており、４個のＣＰＵ１０１がメモリー
コントローラー１０７を介して共有メモリー１０２に接
続され、かつ、超並列接続バス１０３がバス（ＬＡＮ）
コントローラー１０８を介して接続されている。メモリ
ーコントローラー１０７は、４個のＣＰＵ１０１が同時
に共有メモリー１０２をアクセスした場合であっても、
単独でのメモリーアクセス時間より大きな処理時間を要
しないメモリーアクセススイッチ機構を備えている。

【００２９】図６は、図５の２つのコントローラー１０
７、１０８を除いて表現した模式図で図５と等価なもの
である。図２は、図６の模式図で示している。

【００３０】図１に本発明によるセルコンピュータ１０
６の一例機能ブロック図を示す。

【００３１】オペレータ１１２はマンマシン装置１０５
の表示装置を見てシステム全体を監視制御してデータを
入力する。セルコンピュータ１０６は、マンマシン装置
１０５の入力装置から入力されたデータを格納する主記
憶手段１１３、セルコンピュータ１０６を制御するオペ
レーティングシステムの全体制御手段１１４、クローン
生成依頼手段１１５、処理範囲分割手段１１６、応用処
理実行手段１１７、自ＣＰＵ開放手段１１８、クローン
生成手段１１９、および２次記憶手段１２０により構成
される。

【００３２】図１の各機能を図７を参照して説明する。

【００３３】図７はクローン生成依頼手段１１５とクロ
ーン生成手段１１９の動作を説明するもので、セルコン
ピュータ１０６Ａが他の異なるセルコンピュータ１０６
Ｂ上に自身と同一のプログラム構造を有するクローンを
生成する状況を示している。なお、情報処理におけるク
ローンとは、実行命令が全く等しいプログラムのことを
意味している。すなわち、外部データは異なるが処理は
同一である人工生命体がクローンである。

【００３４】セルコンピュータA（１０６Ａ）上の人工
生命体ALのクローン生成依頼手段１１９がセルコンピュ
ータB（１０６Ｂ）上へ、人工生命体AL'の生成を依頼す
る（）。この依頼は超並列バス１０３を経由してセル
コンピュータBのオペレーティングシステムOS2である全
体制御手段１１４に対して行われる。

【００３５】全体制御手段１１４は予めシステムジェネ
レーション時に設定されているプログラムAの実行モジ
ュールAL'を２次記憶装置１２０から読み出す（）。
次に、読み出した実行命令をセルコンピュータBの主記
憶手段１１３上に設定し、プログラム開始アドレスを主
記憶装置１１３上のAL'の先頭アドレスに設定してプロ
グラムを実行する（）。

【００３６】この様にして、異なるコンピュータ上にＡ
Ｌ自身とまったく同一のプログラムを動作できるように
することにより、従来とは全く異なる情報処理を実現で
き、かつ大きな効果を得ることができる。本発明の第1
の大きな特徴である。

【００３７】図８に本発明の中心的処理である人工生命
型分割並列処理のフロー図を示す。図８は理解を容易に
するために、オペレータの設定入力手順と２台のセルコ
ンピュータＡ、Ｂの処理の流れに限定して示している。
実際の動作は、半無限数のセルコンピュータ及びＣＰＵ
上で同一の処理が行われる。

【００３８】また、図８の各々の処理は図１における各
手段の動作に対応している。クローン生成依頼手段１１
５は処理Ｃに、処理範囲分割手段１１６は処理Ｄに、応
用処理実行手段１１７は処理Ｅに、自ＣＰＵ開放手段１
１８は処理Ｆに夫々対応している。

【００３９】オペレータ１１２はマンマシン装置１０５
から分割繰り返し処理スタート番号ｎと最終番号ｍを入
力する。これらのデータは、セルコンピュータＡ上の共
有メモリ―１０２に記憶される。次に、オペレータ１１
２はセルコンピュータＡ上の人工生命体ALの動作開始を
指示する。人工生命体ALは指定された処理範囲ｎ〜ｍを
繰り返して処理（処理A1）する。

【００４０】この繰り返し処理の先頭で近傍(論理的な
隣り)のCPUの、過去一定時間の負荷率（稼働率）が定め
られた値（所定値）より小さい時は「隣接CPUは空きで
ある」と判断(処理B1)し、隣接CPU上に、自身のクロー
ンプログラムを生成し起動する（処理C1）。

【００４１】次に、処理範囲ｎ〜ｍを2等分になる様に
分割し、新しいクローンに分割された半分の処理を分譲
する（処理D1）。具体的には、自身の処理範囲を書き換
え、かつ隣接CPUの共有メモリー上に分割後のスタート
番号と最終番号を書き込む処理を実行する。次に、所定
の処理（処理E1）を実行し、残処理がある場合は処理B1
に戻る。処理B1で隣接CPUが空きではない場合処理C1,D1
は行われず処理E1にジャンプする。

【００４２】この様にして、すべての処理が終了した場
合、自身を産み出した親に相当する人工生命が存在する
CPUに対し自CPUが開放されたことを通知する(処理F1)。
生成されたセルコンピュータB上のクローンAL’はALと
全く同じ動作を行う。

【００４３】以上により、システム全体の状況、問題の
性質、環境の変化に関わり無く、処理負荷が全てのCPU
に均等に分散される。従来の文献（特開平７−９３２６
５号公報）に見られる方法では、システム全体を常に監
視せねばならずかつ、全体監視制御の為の処理が大きな
効率低下をもたらす。つまり、動作中の処理を必ず一時
停止させなければならないのである。また、CPUの数の
増減に対しては、プログラムの変更が必ず必要となり、
この結果、自動的並びに自律的に処理資源の拡張・縮小
に追従できないという深刻な制約がある。

【００４４】本発明では、以上の制約は発生せず、CPU
の数や環境の変化があった場合であっても自動的、自律
的に全ての処理資源を１００％に近い効率で動作させる
ことができる。

【００４５】図９は空きCPUの判断の判断基準を説明す
る説明図である。

【００４６】CPU負荷率とは図９（ａ）のように、測定
全体時間が３０秒であった場合、CPUが使用されていた
総計時間７秒であった場合、７／３０＊１００（％）で
定義される。ここでの近傍CPUの判断は、図９（ｂ）の
ように過去一定時間（５分）の負荷が例えば１０（％）
以下ならば図９（ｃ）のように空きと判定することによ
り行われる。

【００４７】図１０は処理範囲分割状況の説明図であ
る。図１０は、初期状態として処理範囲が１〜１０２４
で設定されている状態としている。時刻ｔ１では人工生
命Aのみが存在し、その時点での処理範囲は、セルコン
ピュータAが全てを受け持つことになる。時刻ｔ２で
は、新たに人工生命Bが増殖され、セルコンピュータAの
処理範囲は半分の１〜５１２に減少し、一方セルコンピ
ュータBはケース番号５１３〜１０２４までの５１２の
範囲を受け持つことになる。

【００４８】時刻ｔ３になると更に新たな人工生命Cが
生成され、この結果、Bの範囲は５１３〜７６８の２５
６ケースとなり、人工生命Cは７６９〜１０２４の合計
２５６ケースとなる。時刻ｔ４では人工生命Dの生成に
よりCとDが受け持つ範囲がそれぞれ１２８ケースとなる
ことを示している。

【００４９】以上の様にクローンの自己増殖機能により
処理範囲が自律的に分割されて行くため、各々の処理の
内容が未知の物であってもシステム全体としては、あら
ゆる状況で自動的に負荷が均等に分散される。分割の数
が５１２→２５６→１２８と徐々に小さくなる為、一
見、負荷が均等に分散されないようなイメージを与える
が、実際は各々の処理量のばらつきにより、システム全
体としてはいかなる場合も、負荷は自律的に均等に分散
される。

【００５０】図１１は処理範囲の分割処理における詳細
フロー図である。図１１は、全体フロー図中の処理範囲
分割処理の詳細で、処理D１０とD２０で未処理開始番号
ｉと最終ケース番号処理ｊを取り込んだ後に、処理D30
で自身の処理範囲を計算する。常に隣接のCPUと処理範
囲を均等に分担するように分割する。処理D40では、同
様に新しいクローンの処理分担範囲を計算する。

【００５１】以上のことを更に一般化しつつ詳細に記述
する。外部より解くべき課題の処理範囲であるスタート
番号ｎと最終番号ｍがパーソナルコンピュータあるいは
ワークステーション等のマンマシン装置１１２により入
力され、プログラムＡＬが起動される。所定のサーバの
ＯＳ（オペレーティングシステム）はＡＬをＣＰＵ
（ｉ）上にローディングしてＡＬはＡＬ(ｉ) (ｎ，ｍ)
として動作を開始する。

【００５２】ＡＬ(ｉ)(ｎ,ｍ)は、処理Ａにて、問題解
決範囲（処理範囲）をｎからｍに設定し処理を開始す
る。次に処理Ｂで近接するＣＰＵ（ｉ+１）の状態が空
かを参照する。最初の参照では,超並列バス１０３を用
いた実通信を実施しても良いし、別のプロセスに状態を
常時共有メモリー上に設定させておいても良い。ここで
は、例えば、ＣＰＵ(ｉ+１)からＣＰＵ(ｉ+７)までが全
て空きであり使用可能であるとする。

【００５３】次に処理処理Ｃでは、ＣＰＵ(ｉ+１)上に
ＡＬ(ｉ)自身のクローンＡＬ(ｉ+１)を生成する。具体
的には国際規格のＭＰＩ（メッセージパシングインター
フェース Message Passing Interface）や、ＰＶＭ（パ
ラレルバーチャルマシン Parallel Virtual Machine）
の手続きに従って生成しても良いし、あるいはＴＣＰ／
ＩＰなどの通信手順により生成することもできる。

【００５４】処理Ｄでは処理範囲(ｎ,ｍ)を等分割して
ＡＬ(ｉ)とＡＬ(ｉ+１)に処理を分譲する。これによ
り、２つの人工生命体が2つの異なるＣＰＵ上に以下の
様に生成される。

【００５５】ＡＬ(ｉ)(ｎ,(ｎ+ｍ―１)/２)， {Ａ
Ｌ(ｉ)(１，５１２)} ＡＬ(ｉ+１)((ｎ+ｍ+１)/２+１,ｍ)，｛ＡＬ(ｉ+１)(５
１３，１０２４)｝ここで｛｝は、ｎ=１,ｍ=１０２４の時の値を示し
ている。

【００５６】ＣＰＵ(ｉ)上では処理Ｅにて、所定の業務
処理が実行される。一方ＣＰＵ(ｉ+１)上では、処理Ｅ
にてＣＰＵ(ｉ+２)が空であることが検出されるので新
たな人工生命体ＡＬ(ｉ+２)が誕生する。この結果、並
列コンピュータ上には、ＡＬ(ｉ)(ｎ,(ｎ+ｍ―１)/２) ＡＬ(ｉ+１)((ｎ+ｍ―１)/２+１,((ｎ+ｍ―１)/２+１+
ｍ)/２) ＡＬ(ｉ+２)((ｎ+ｍ―１)/２+１+ｍ)/２+１,ｍ）具体的には、｛ＡＬ(ｉ)(１,５１２)｝｛ＡＬ(ｉ+１)(５１３,７６８)｝｛ＡＬ(ｉ+２)(７６９，１０２４)｝という３種の人工生命体が存命することになる。

【００５７】以下同様にして、ほぼ同時に下記８種類の
生命体が並列コンピュータ上に生成される。ここでは、
煩雑さを避ける為に(ｎ,ｍ)=(１，１０２４)の場合につ
いてのみ記載する。

【００５８】ＡＬ(ｉ)(１，５１２)，ＡＬ(ｉ+１)(５１
３，７６８)，ＡＬ(ｉ+２)(７６９，８９６)，ＡＬ(ｉ+３)(８９７，
９６０) ＡＬ(ｉ+４)(９６１，９９２)，ＡＬ(ｉ+５)(９９３，
１００８)，ＡＬ(ｉ+６)(１００９，１０１６)，ＡＬ(ｉ+７)(１０
１７，１０２４)

【００５９】この様にして、実処理が進むと上記８つの
人工生命体のうち少なくとも１体は全ての処理を完了す
る為、処理Ｆにて近傍ＣＰＵに対して自ＣＰＵが開放さ
れたことを通知する。

【００６０】本例においてＡＬ(ｉ+１)が完了した場合
を仮定すると、ＣＰＵ(ｉ+１)の近接ＣＰＵはＣＰＵ
(ｉ)であるので、ＣＰＵ(ｉ)のメールボックスにＣＰＵ
(ｉ+１)が空いたことを知らせる。ここで、ＡＬ(ｉ)は
まだ担当範囲の半分しか処理が完了していないとすると
状態はＡＬ(ｉ)(２５７，５１２)であるのでＡＬ(ｉ)は
処理カウンタ=２５６の処理を完了後再び、処理Ｃ,Ｄに
てＣＰＵ(ｉ)上に新たな生命体を増殖することで、自身
の処理負荷を軽減する。

【００６１】この結果、各生命体の状態はＡＬ(ｉ)(２５７，３８４) ＡＬ(ｉ+１)(３８５，５１２) と推移する。

【００６２】この様な局所的な作用が連鎖的に発生し、
結果として１本のＣＰＵで全ての処理を行った場合に比
べ、同一の処理性能を有するＣＰＵを８本使用した場合
約１／８近くの時間で同じ結果が得られる。勿論、異な
る処理性能を有するＣＰＵを組み合わせて使用した場合
であっても、処理能力の合計値に応じた性能向上が得ら
れる事はいうまでもない。また、繰り返し処理の処理量
がどの様にばらついてもまた時間的に変化していても、
各ＣＰＵはほぼ１００(％)に近い稼働率で問題解決を図
ることができる。

【００６３】更に、処理の途中でＣＰＵを増やしたり減
らしたりしても本方法であれば自律的に全てのＣＰＵを
均等に動作させることができる。

【００６４】図１２は、本発明を実際の問題に適用した
場合の例を示したものである。ここではデジタル(ベク
トル)情報により成るデジタル地図の表示の例を挙げて
いる。

【００６５】例えば、日本全体のデジタル道路地図は１
０(ｋｍ)平方毎（２次メッシュと称す）にデジタル情報
はまとめて記憶されており、これが約4400種類ある。本
例では説明の簡易化の為、緯経度方向とも100分割し、
全部で10000メッシュであるものと仮定している。

【００６６】各メッシュに対応するデータはベクトル情
報と呼ばれ、道路、鉄道、山、湖、海などのグラフィカ
ルな地形(目標物)を表すデータと、該目標物の名称を表
す文字型のデータに大別される。例えば、図１２でのメ
ッシュ１３７は都市部分に対応しており、大量のデータ
を含むことになる。本例では１００(メガバイト＝ＭＢ)
の容量が必要であることを示している。

【００６７】一方、メッシュ10000は小さな島を含む海
洋部分に対応するため、含まれるデータはわずか０．０
１（ＭＢ）である。これはメッシュ１３７の1/10000し
かない。同様に、メッシュ１３５は海洋部分と陸地部分
がほぼ半分ずつで構成される部分に対応しており、この
データ容量は８（ＭＢ）である。この様にメッシュの対
応する地図上の面積は全く等しいが、そこに含まれる情
報量には大きなばらつきがあることがわかる。

【００６８】この様なデジタル情報を基に地図をグラフ
ィカルな形に再合成し表示する為には、各データを順順
に実際のグラフィカルデータに変換しながら表示する処
理を行なう必要がある。従って海洋に対応するメッシュ
10000の処理は大変短い時間で終了するのに対して、都
市部に該当するメッシュ１３７を表示するには非常に長
い時間を要することになる。

【００６９】図１３は、ＣＰＵが1本しかない従来のコ
ンピュータでの処理フロー図である。この場合はＣＰＵ
が1本しかない為、処理はメッシュ１〜10000まで逐次的
に処理することしか出来ない。

【００７０】図１４は、図１３に示したプログラムで編
集と表示を行った場合のタイムチャートである。各メッ
シュ毎の処理時間に大きなばらつきがみられ処理完了ま
で２５秒を要している。従来の逐次実行型のコンピュー
タを使用する限りこれより処理時間を小さくすることは
できない。

【００７１】図１５は図１２の処理で用いたコンピュー
タ内に使用されているものと同一のＣＰＵ１０１を５０
本用いた並列コンピュータを用いて、同じ地図表示の処
理を行うプログラムの処理フロー図である。ここでは、
10000メッシュを各ＣＰＵで均等に処理させる意図の基
に50分割し、各ＣＰＵに200メッシュずつの処理を与え
ている。

【００７２】図１６は、図１５で処理を実施した場合の
結果を示すタイムチャートである。ここで、横軸は時間
推移、縦軸はＣＰＵ番号を示している。図１４に示した
逐次実行型の処理では２５秒を要したのに対し、ここで
は約１０秒で完了しているので、処理時間は１／２．５
に短縮されたことになる。しかし処理能力的には50倍を
有するのに１／２．５しか時間が短縮されていないのは
極めて並列効率が低いということになる。ここで並列効
率ＰＥ（Parallel Efficiency）を以下の式の様に定義
する。

【００７３】ＰＥ=ＡＥ／ＬＡ＊100（％）（式１）ＡＥ：実際のＣＰＵが有効に動作した処理時間合計値
（図の黒い部分) ＬＡ：理想的に全てのＣＰＵが動作した場合の総処理時
間（図中の全面積）ここではＡＥ＝６６（秒）ＬＡ＝１０(秒)＊５０（ＣＰＵ)＝５００（秒）であるので、ＰＥ＝６６／５００＊１００＝１３．２（％）つまり、7並列の並列コンピュータがフルに動作した場
合よりも効率が低いことを示している。これでは、コス
トパフォーマンスが悪く実ビジネスに使用することは困
難である。これが、コンピュータが開発されて以来長い
年月が経過しているにもかかわらず並列コンピュータが
コンピュータの主流になり得なかった大きな理由の一つ
である。

【００７４】この原因は図１６におけるＣＰＵ１０１
（番号５）が都市部対応の大容量データを含むメッシュ
の処理を集中的に担当している為、ＣＰＵ１０１（番号
５）だけが他のＣＰＵ１０１に比べると突出した処理時
間を要している為である。従って、ＣＰＵ１０１（番号
５）などに加えデータの密集度の高いメッシュを担当し
ている他のＣＰＵの処理時間を効率良く他の余裕のある
ＣＰＵ１０１に分散できれば総処理時間は大幅に短縮で
きることになる。

【００７５】図１７は、図１の構成、図８の処理フロー
に示した本発明による人工生命体を５０本のＣＰＵ１０
１で動作させた結果のタイムチャートである。

【００７６】各ＣＰＵ内でのメッシュ毎の処理時間のば
らつきは大きいが、総処理時間は０．５(秒)に収束して
いることがわかる。図１４に比べ処理時間は約１／５０
に短縮されていることから本発明による人工生命型超並
列処理方法を適用したことで、ほぼ１００（％）の並列
効率が得られたことが分かる。

【００７７】また、各メッシュの構造や容量が変化した
場合でもそれらに自律的に追従可能であり、同様な結果
が得られることは明らかである。またＣＰＵの並列本数
が変化しても処理プログラムの変更無しに１００（％）
に近い並列効率が得られる。

【００７８】図１８は、以上の結果を纏めたタイムチャ
ートである。すなわち、従来の逐次処理実行型のコンピ
ュータを使用した場合は少なくとも２５(秒)を要したも
のが、５０ＣＰＵによる並列コンピュータ上で従来の並
列処理方法に基づくプログラムを動作させた場合は１０
(秒)で処理が完了する。そして同じ５０ＣＰＵの並列コ
ンピュータ上で本発明による人工生命型超並列処理方法
に基づくプログラムを動作させた場合は０．５(秒)で処
理が完了することがわかる。

【００７９】従来の並列処理方法では更にＣＰＵ本数を
増やしても総処理時間は短縮されないのに対して、本発
明に基づくプログラムを用いるならば対象とする処理内
容に拘らず、ＣＰＵ本数を増加させることで更に処理時
間を短縮できる点が特徴である。

【００８０】つまり、本発明は応用処理プログラムの内
容が不明であっても、あるいは繰り返し処理毎の処理対
象データ量がダイナミックに変化する場合でも常に並列
コンピュータの並列効率を１００(％)に近い効率で動作
させることができる。換言すると、本発明は、ユーザが
望む処理性はＣＰＵの本数の増減により自在に実現でき
る、ということである。

【００８１】図２４は、並列多次元空間の多様性と本発
明の定量的効果を示したものである。

【００８２】図２４において、縦軸は、問題の複雑さを
表す指標として、分割の数のグレードを定義している。
横軸は、それに対する処理時間のばらつき、及び従来の
並列処理によるCPU稼動率、及び本発明によるCPU稼動率
を定義している。

【００８３】本発明はあらゆる分割問題に対して唯一有
効な方法ではなく、分割された問題間での処理の複雑さ
のばらつきが大きい程有効になる、という点に留意が必
要である。一般的に対象問題が単純な場合、例えば分割
数が１００以下の場合であれば、全ての分割部分に対応
するＣＰＵの処理時間は平均値にそれぞれ近づくように
なる。つまり、平均処理時間に対する分散値はゼロに近
くなる。この場合は従来の単純な並列処理であっても高
い効率を得ることができる。

【００８４】図２４では従来の並列処理はＣＰＵ稼働率
(並列効率)が９８(％)以上も得られており本発明による
結果よりむしろ優れているといえる。ここでのＣＰＵ稼
働率は、前述の並列効率と同一な評価指標である。処理
時間の分散値が小さくなるのは課題が単純であり、この
結果それを記述するプログラムがシンプルになり処理分
岐可能ルートや、状況に応じた繰り返し処理が少なくな
る為である。

【００８５】ところが問題が複雑になるのに伴い処理時
間の平均値に対する分散値は急激に増大してくる。分割
数が10000より大きかったり、あるいはシステムの複雑
さを決定する要素の数が大きくなると、処理時間の平均
値に対する分散値は８０(％)より大きくなり、従来の並
列処理方法でのＣＰＵ稼働率はわずか５(％)以下になっ
てしまうのがわかる。つまり、１００本のＣＰＵを用い
ているにも拘らず、同じＣＰＵの５本分の能力しか発揮
できないことになる。

【００８６】これに対して本発明によるプログラムでは
複雑さの増大に連れ、従来方法とは逆にＣＰＵ稼働率は
向上する。図２４では分割数が10000以上の問題に対し
ては９９．６(％)以上の稼働率が得られることがわか
る。

【００８７】現実世界の問題は、近年急激に複雑さを増
しており、図２４を遥かに超える複雑なものばかりにな
ってきている。そういった意味で本発明の重要性は極め
て大きい。何故なら、所望の処理性の向上はＣＰＵを増
加させることでスケーラブルに得られるからである。

【００８８】図１９は、動的に環境が変化する場合にお
ける本発明の動作を説明するものである。図１９は、時
間的に制約度が高い、インターネットなどの通信回線を
用いるオークションの受付け運用を例に挙げている。

【００８９】オークションとは、出展されたある商品を
複数の参加者が入札価格を時々刻々更新して行くもので
あり応答での時間的な制約が大きく、また、データの時
系列情報の保持に厳密さが要求されるビジネスモデルで
ある。

【００９０】図１９ではCPU１０１が８台あり、それら
は全て同一のメモリー(共有メモリー)１０２に高速デー
タ転送装置(バス)を用いて接続されている。オークショ
ンの受付けデータは他のシステムを経由して、共有メモ
リー１０２に８つの地域毎にまとめられ記憶される。

【００９１】８台のCPU１０１は原則的に、各々の分担
地域のデータを処理するが、特定の地域にデータが集中
する場合は、他のCPU１０１が応援することで、システ
ム全体のスループットを最大にすることが必要である。

【００９２】図２０はオークションにおけるダイナミッ
ク制御システムの実際の動作例を示したものである。

【００９３】時刻ｔ１では、CPU２が受け持つ東北のデ
ータが４０件、CPU３が受け持つ関東のデータが１００
件入力済みであることを示している。時刻ｔ２になる
と、CPU２は４０件のデータのうち、３９件の処理を完
了しており、一方CPU3は１００件のデータのうち６０件
を処理済であるが、処理中に更に４２件がダイナミック
に追加されている。

【００９４】時刻ｔ３では、CPU２は自身の東北のデー
タを処理してしまい一旦処理を終了してCPUを開放した
為、CPU３上の関東担当のCPU３は未処理分の８２件のう
ち、４１件をCPU２に分譲していることが分かる。この
様に、本発明によれば、ダイナミックに状況が変化して
も常に負荷を均等に分散できることが分かる。

【００９５】図２１は、ビジネス現場におけるユーザか
らの注文の受けつけ処理、すなわち受注処理を１０００
本のＣＰＵを有する並列コンピュータ上で、従来の並列
情報処理プログラムを用いて行った場合の、実際の運用
時に採取されたデータによる処理時間タイムチャートで
ある。

【００９６】注文の受付け(受注)、オークション参加／
結果の配信、問い合わせ／回答、そのほか広域から大量
の処理要求が一定の時間内に集中して発生しそれを速や
かに処理することはインターネットビジネス等の近年の
ビジネスにおいては最重要課題である。ところがそれら
に対する処理を地域毎、あるいは商品毎などの単位でＣ
ＰＵの仕事を固定的に割り当ててしまうと、しばしば図
１２にみられる様に、全体業務にとって致命的な処理遅
れが発生する。この例では１０００(本)のＣＰＵのう
ち、ＣＰＵ１３６，１３７の担当する地域からの要求が
集中してしまい、全体処理が終了するまでに３４０
（秒）を要している。オークションなど秒をあらそうよ
うなビジネスならば致命的な事故になることが分かる。

【００９７】図２２は、図２１の詳細を示したものであ
る。ほとんどのＣＰＵが０．１(秒)以内で処理を完了し
ているのに対し、全体からみると少数のいくつかのＣＰ
Ｕだけが突出して長い処理時間を浪費しているのが分か
る。この結果、ほとんどのＣＰＵに大きな無駄時間が発
生してしまい、１０００(本)のＣＰＵに対する総合稼働
率は１(％)以下になってしまっている。つまり、１００
０本ものＣＰＵを使用できるのに１０(本)のＣＰＵで効
率良く処理したのと同等以下の処理性しか得られないこ
とを示している。

【００９８】これに対して、本発明に基づくプログラム
で処理した場合の結果は図２３に示すように、全てのＣ
ＰＵの稼働率は９９．５(％)を超えており、実行処理時
間はわずか０．２２(秒)しか要していない。

【００９９】このようにして分散処理を行うのである
が、任意の当該セルコンピュータは、他のセルコンピュ
ータの稼働率を監視し、他のセルコンピュータの稼働率
が所定値より小さい場合に当該セルコンピュータと実行
命令の等しいクローンプログラムを他のセルコンピュー
タに複製し、自己の処理担当範囲を均等に分割して分割
した他方の処理範囲を他のセルコンピュータに処理させ
るようにしている。したがって、近隣で空いているＣＰ
Ｕを探し当てた場合、自身のクローンを生成し、対象と
する問題を連鎖的に分割してゆくことで、自律的にＣＰ
Ｕ毎の負荷を分散する。所定の処理が完了する都度自律
的にこれが繰り返されていくので、全ての処理が完了す
るまで各ＣＰＵの負荷を均等に分散させることができ
る。

【０１００】

【発明の効果】本発明によれば、膨大な繰り返し演算を
必要とする分割問題においても全てのＣＰＵを有効に活
用しＣＰＵの数が増大しても並列処理効率を向上させる
ことができ、保守性と拡張性が極めて大きくなるという
効果を奏し得る。

【図面の簡単な説明】

【図１】本発明によるセルコンピュータの一例を示す機
能ブロック図である。

【図２】本発明の一実施例を示す構成図である。

【図３】並列コンピュータの外観図である。

【図４】セルコンピュータの外観図である。

【図５】セルコンピュータの概略構成図である。

【図６】セルコンピュータの模式図である。

【図７】クローンプログラムの生成状況の説明図であ
る。

【図８】人工生命型の分割並列処理フロー図である。

【図９】空ＣＰＵの判断処理の説明図である。

【図１０】処理範囲の分割状況説明図である。

【図１１】処理範囲分割処理の詳細フロー図である。

【図１２】デジタル道路地図の表示例図である。

【図１３】従来の逐次実行型の処理フロー図である。

【図１４】従来の逐次実行型の処理タイムチャートであ
る。

【図１５】従来の並列処理のフロー図である。

【図１６】従来の並列処理のタイムチャートである。

【図１７】本発明による超並列処理のタイムチャートで
ある。

【図１８】処理時間の比較特性図である。

【図１９】オークションにおけるダイナミック制御の一
例構成図である。

【図２０】ダイナミック制御の状況説明図である。

【図２１】大規模シミュレーション処理のタイムチャー
トである。

【図２２】従来の並列処理のタイムチャートの詳細図で
ある。

【図２３】本発明による人工生命型処理のタイムチャー
トの詳細図である。

【図２４】本発明の効果を説明するための説明図であ
る。

【符号の説明】

１０１…ＣＰＵ、１０２…共有メモリー、１０３…超並
列接続バス、１０４…２次記憶装置、１０５…マンマシ
ン装置、１０６…セルコンピュータ、１１２…オペレー
タ、１１３…主記憶手段、１１４…全体制御手段（オペ
レーティングシステム）、１１５…クローン生成依頼手
段、１１６…処理範囲分割手段、１１７…応用処理実行
手段、１１８…自ＣＰＵ開放手段、１１９…クローン生
成手段。

Claims

【特許請求の範囲】

【請求項１】共有メモリーに複数の中央演算装置を接続
して構成される複数台のセルコンピュータをバスに並列
接続した超並列コンピュータであって、任意の当該セル
コンピュータは、他のセルコンピュータの稼働率を監視
し、前記他のセルコンピュータの稼働率が所定値より小
さい場合に前記当該セルコンピュータと実行命令の等し
いクローンプログラムを前記他のセルコンピュータに複
製し、自己の処理担当範囲を均等に分割して分割した他
方の処理範囲を前記他のセルコンピュータに処理させる
ようにしたことを特徴とする超並列コンピュータ。
【請求項２】共有メモリーに複数の中央演算装置を接続
して構成される複数台のセルコンピュータをバスに並列
接続した超並列コンピュータであって、任意の当該セル
コンピュータは、予め定めた近接する他のセルコンピュ
ータの稼働率を監視し、前記他のセルコンピュータの稼
働率が所定値より小さい場合に割込みを行い前記当該セ
ルコンピュータと実行命令の等しいクローンプログラム
を前記他のセルコンピュータに複製し、自己の処理担当
範囲を均等に分割して分割した一方の分割処理範囲を自
己で処理を行い他方の他方の分割処理範囲を前記他のセ
ルコンピュータに処理させるようにしたことを特徴とす
る超並列コンピュータ。
【請求項３】共有メモリーに複数の中央演算装置を接続
して構成される複数台のセルコンピュータをバスに並列
接続した超並列コンピュータであって、任意の当該セル
コンピュータは、予め定めた近接する他のセルコンピュ
ータの負荷率を監視し、前記他のセルコンピュータの負
荷率が所定値より小さい場合に割込みを行い前記当該セ
ルコンピュータと実行命令の等しいクローンプログラム
を前記他のセルコンピュータに複製し、自己の処理担当
範囲を均等に分割して分割した一方の分割処理範囲を自
己で処理を行い他方の他方の分割処理範囲を前記他のセ
ルコンピュータに処理させるようにすると共に、前記他
のセルコンピュータは他方の分割処理範囲の処理を完了
すると前記当該セルコンピュータに通知するようにした
ことを特徴とする超並列コンピュータ。