JPH0520348A

JPH0520348A - 並列演算装置

Info

Publication number: JPH0520348A
Application number: JP17216891A
Authority: JP
Inventors: Yoshiyuki Mochizuki; 義幸望月
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1991-07-12
Filing date: 1991-07-12
Publication date: 1993-01-29

Abstract

(57)【要約】【目的】数値データ処理分野における連立１次方程式
の高速かつ並列処理に適した直接法による求解の演算手
段を提供する。【構成】ホストコンピュータの制御のもと、データ割
付手段１によって、連立１次方程式の係数行列と未知数
ベクトル、既知数ベクトルをメモリに割り付け、枢軸選
択手段２によって、ピボティング処理を並列に行い、基
本前消去手段３によって、多枢軸列同時消去の前処理を
行い、多枢軸消去手段４によって、多枢軸による多枢軸
列同時消去を並列に行うことを繰り返し、しかる後、残
余消去手段５によって、残った行の消去を行い、その上
で基本後退代入手段６によって、未知数ベクトル成分へ
の代入を行い、基本後退転送手段７によって、求まった
解をクラスタの共有メモリに転送し、基本後退演算手段
８によって求解演算を行う操作を繰り返す構成とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、多数の情報処理装置で
構成される連立１次方程式の並列処理装置に関する。

【０００２】

【従来の技術】数値データ処理の分野においては、以前
から数多くの連立１次方程式の直接法による解法アルゴ
リズムが提案されてきた。それらの中で特に、ガウス消
去法に基づく２枢軸による２列同時消去法のアルゴリズ
ムについては、村田健郎、小国力、唐木幸比古「スーパ
ーコンピュータ科学技術への適用」，丸善，1985，pp
95-96に記載されている。また、ＬＵ分解に基づく多枢
軸による多数列同時消去法のアルゴリズムについては、
ジム・アームストロング, ”アルゴリズムアンドパ
フォーマンスノーツフォーブロックＬＵファク
タリゼーション”，1988，インターナショナルコンフ
ェレンスオンパラレルプロセッシング，Vol.3 ，
pp161-164 （Jim Armstrong,"ALGORITHM AND PERFORMAN
CE NOTES FOR BLOCK LUFACTORIZATION",1988,Internati
onal Conference on Parallel Processing,Vol.3,pp161
-164）に記載されており、これらには逐次処理または少
数の複数プロセッサによる計算の多重化処理についての
み述べられている。しかし、これらの方法では、メモリ
アクセス回数が多いため高速計算が困難である。

【０００３】

【発明が解決しようとする課題】本発明は上記困難を解
決するためなされたものであり、多枢軸による多枢軸列
同時消去法を採用することにより、１枢軸による１列消
去法と比べ計算量は変わらないが、メモリアクセス回数
が減ることと、ループ展開と同様の効果により高速計算
が可能となり、ひいては並列処理に適し、しかも高速な
連立１次方程式の直接法による求解のための並列演算装
置を提供することを目的とする。

【０００４】

【課題を解決するための手段】上記目的を達成するた
め、請求項１に係る発明においては、１番からＰc 番ま
での要素プロセッサと共有メモリによって構成されるク
ラスタと、１番からＣ番までの前記クラスタをネットワ
ークで接続することで構成される並列計算機において、
係数行列Ａ＝（ａ_ij）（１≦ｉ, ｊ≦ｎの整数），既知
数ベクトルｂ＝（ｂ₁,ｂ₂,...,ｂ_n）^T，未知数ベクト
ルｙ＝（ｙ₁,ｙ₂,...,ｙ_n）^Tで表現される連立１次方
程式をＡｙ＝ｂするとき、前記クラスタの共有メモリへ
順に、係数行列はＰc 行づつ、既知数ベクトルと未知数
ベクトルは係数行列を割り付けた行番号と対応する成分
番号の成分をＰc 成分づつ割り付けていき、１巡目で割
り付けが終わらないときは、更に２巡目、３巡目と繰り
返すことにより、係数行列、既知数ベクトル、未知数ベ
クトルの要素全てを割り付け、前記クラスタ内のＰc個
の要素プロセッサに対しては、係数行列は、前記クラス
タの共有メモリに割り付けたＰc 行のうちの１行づつ
を、既知数ベクトルや未知数ベクトルは、係数行列を割
り付けた行番号と対応する成分番号の成分を前記要素プ
ロセッサに割り付けるデータ割り付け手段と、前記クラ
スタの１番目の要素プロセッサで、枢軸選択手段によっ
てａ_{hxPc+1 hxPc+1}の選択を行い、ａ_{hxPc+1 j}：＝ａ
_{hxPc+1 j}／ａ _{hxPc+1 hxPc+1}（ここに，ａ_hxPc+1jの後
の：は定義を意味する。即ち、ａ_hxPc _+1j／ａ
_{hxPc+1 hxPc+1}をａ_hxPc+_{1 j}と置く意味である。以下に
同じ。）ｂ_hxPc ₊₁：＝ｂ_hxPc+1／ａ_{hxPc+1 hxPc+1} の計
算を行い、計算結果を第ｈ×Ｐc ＋２行から第ｎ行を担
当する要素プロセッサが属し、かつ第（ｈ×Ｐc ＋１）
行を担当する要素プロセッサの属するクラスタ以外のク
ラスタの共有メモリに転送し、係数行列の第（ｈ×Ｐc
＋２）行から第ｎ行を担当するの前記要素プロセッサ
で、担当する行に対して、ｔ_i ⁽¹⁾：＝ａ_{1 hxPc+2}−ａ
_{i hxPc+1}×ａ_{hxPc+1 hxPc+2}の計算を行い、特に、前記
クラスタの２番目の要素プロセッサでは、ａ_{hxPc+2 j}：
＝ａ_{hxPc+2 j}−ａ_{hxPc+2 hxPc+1} ×ａ_{hxPc+1 j}，ｂ
_hxPc+2：＝ｂ_hxPc+2−ａ_hx _{Pc+2 hxPc+1}×ｂ_hxPc+1の計
算と、前記枢軸選択手段によってａ_{hxPc+2 hxPC+2}の選
択を行い、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}／ａ
_{hxPc+2 hxPc+2}，ｂ_hxPc+2：＝ｂ _hxPc+2／ａ
_{hxPc+2 hxPc+2}の計算も併せ行い、後者の計算結果を第
（ｈ×Ｐc ＋３）行から第ｎ行を担当する要素プロセッ
サが属し、かつ第（ｈ×Ｐc ＋２）行を担当する要素プ
ロセッサの属するクラスタ以外のクラスタの共有メモリ
に転送し、その後、係数行列の第（ｈ×Ｐc ＋ｋ）行か
ら第ｎ行を担当する前記要素プロセッサで、担当する行
に対して、

【０００５】

【数１１】

【０００６】の計算を行い、特に、前記クラスタのｋ番
目の要素プロセッサでは、

【０００７】

【数１２】

【０００８】

【数１３】

【０００９】の計算と、前記枢軸選択手段によってａ
_{hxPc+k hxPc+k}の選択を行い、ａ_hxPc+k _j：＝ａ
_{hxPc+k j}／ａ_{hxPc+k hxPc+k}，ｂ_hxPc+K：＝ｂ_hxPc+k／
ａ_{hxPc+k hxPc+} _kの計算も併せ行い、後者の計算結果を
第（ｈ×Ｐc ＋ｋ＋１）行から第ｎ行を担当する要素プ
ロセッサが属し、かつ第（ｈ×Ｐc ＋ｋ）行を担当する
要素プロセッサの属するクラスタ以外のクラスタの共有
メモリに転送するという一連の基本前消去の操作をｋ＝
３からｋ＝Ｐc まで繰り返す基本前消去手段と、係数行
列の第（（ｈ＋１）×Ｐc ＋１）行から第ｎ行を担当す
る各要素プロセッサで、自分の担当する行に対して、

【００１０】

【数１４】

【００１１】

【数１５】

【００１２】という多枢軸列同時消去計算を行う多枢軸
消去処理手段と、クラスタ単位で順に前記基本前消去の
操作を行い、その後前記多枢軸消去処理手段の操作を行
うという一連の操作を［ｎ／Ｐc ］回行う繰り返し消去
手段と、前記繰り返し消去手段の操作が終了したとき
に、ｎ−［ｎ／Ｐc ］×Ｐc＞０ならば、更に係数行列
の第（［ｎ／Ｐc ］×Ｐc ＋１）行から第ｎ行を担当す
る前記要素プロセッサで、第（［ｎ／Ｐc ］×Ｐc ＋
１）行から第ｎ行に対して、前記基本前消去と同じ操作
で残りの行に対する消去を行う残余消去手段とを備えた
ことを特徴としている。

【００１３】請求項２に係る発明においては、前記請求
項１の並列消去装置によって消去終了後、前記要素プロ
セッサで、y _i：＝ｂ_iとする基本後退代入手段と、第
１成分から第（ｉ−１）成分を担当する前記要素プロセ
ッサの属するクラスタの共有メモリにｙ_iを転送する基
本後退転送手段と、第１成分から第（ｉ−１）成分を担
当する前記要素プロセッサで、担当する成分に対し、ｂ
_i：＝ｂ_i−ａ_{i n-k}×ｙ_n-kの計算を行う基本後退演
算手段と、既知数ベクトル、未知数ベクトルの第（ｎ−
ｋ＋１）成分を担当する前記要素プロセッサにおいて
は、前記基本後退代入手段によるｙ_n-k+1：＝ｂ_n-k+1
を行い、前記基本後退転送手により既知数ベクトル、未
知数ベクトルの第１成分から第（ｎ−ｋ）成分を担当す
る前記要素プロセッサの属するクラスタの共有メモリに
ｙ_n-k+1を転送した後、第１成分から第（ｎ−ｋ）成分
を担当する各前記要素プロセッサで基本後退演算手段に
よる計算を行うという一連の操作をｋ＝１からｋ＝（ｎ
−１）まで繰り返し、最後に、前記基本後退代入手段に
よるｙ₁：＝ｂ₁を行う繰り返し後退処理手段とを備え
たことを特徴とする並列演算装置としている。

【００１４】請求項３に係る発明においては、１番から
Ｐc 番までの要素プロセッサと共有メモリによって構成
されるクラスタと、１番からＣ番（１≦Ｃの整数）まで
のＣ個の前記クラスタをネットワークで接続することで
構成される並列計算機において、係数行列Ａ＝
（ａ_ij），既知数ベクトルｂ＝（ｂ₁,ｂ₂,...,ｂ_n)
^T，未知数ベクトルｙ＝（ｙ₁,ｙ₂,...,ｙ_n）^Tで表
現される連立１次方程式をＡｙ＝ｂするとき、前記クラ
スタの共有メモリへ順に、係数行列はＰc 行づつ、既知
数ベクトルと未知数ベクトルは係数行列を割り付けた行
番号と対応する成分番号の成分をＰc 成分づつ割り付け
ていき、１巡目で割り付けが終わらないときは、更に２
巡目、３巡目と繰り返し、係数行列、既知数ベクトル、
未知数ベクトルの要素全てを割り付け、前記クラスタ内
のＰc 個の要素プロセッサに対しては、係数行列は、前
記クラスタの共有メモリに割り付けたＰc 行のうちの１
行づつを、既知数ベクトルや未知数ベクトルは、係数行
列を割り付けた行番号と対応する成分番号の成分を前記
要素プロセッサに割り付けるデータ割り付け手段と、前
記クラスタの１番目の要素プロセッサで、枢軸選択手段
によってａ_{hxPc+1 hxPc+1}の選択を行い、ａ_{hxPc+1 j}：
＝ａ_{hxPc+1 j}／ａ_{hxPc+1 hxPc+1}，ｂ_hxPc+1：＝ｂ
_hxPc+1／ａ_{hxPc+1 hxPc+1}の計算を行い、計算結果を第
（ｈ×Ｐc ＋１）行を担当する要素プロセッサの属する
クラスタ以外のクラスタの共有メモリに転送し、係数行
列の第（ｈ×Ｐc ＋２）行から第ｎ行を担当する前記要
素プロセッサで、担当する行に対して、ｔ_i ⁽¹⁾：＝ａ
_{i hxPc+2}−ａ_{i hxPc+1}×ａ_{hxPc+1 hxPc+2}の計算を行
い、特に、前記クラスタの２番目の要素プロセッサで
は、前記ｔ_i ⁽¹⁾の他、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}−ａ
_{hxPc+2 hxPc+1}×ａ_{hxPc+1 j}，ｂ_hxPc+2：＝ｂ _hxPc+2−
ａ_{hxPc+2 hxPc+1}×ｂ_hxPc+1の計算と、前記枢軸選択手
段によってａ_hx _{Pc+2 hxPc+2}の選択を行い、
ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}／ａ_{hxPc+2 hxPc+2}，ｂ
_hxPc+2：＝ｂ_hxPc+2／ａ_{hxPc+2 hxPc+2} の計算も併せ
行い、後者の計算結果を第（ｈ×Ｐc ＋２）行を担当す
る要素プロセッサの属するクラスタ以外のクラスタの共
有メモリに転送し、その後、係数行列の第（ｈ×Ｐc ＋
ｋ）行から第ｎ行を担当する前記要素プロセッサで、担
当する行に対して、

【００１５】

【数１６】

【００１６】の計算を行い、特に、前記クラスタのｋ番
目の要素プロセッサでは、

【００１７】

【数１７】

【００１８】

【数１８】

【００１９】の計算と、前記枢軸選択手段によってａ
_{hxPc+k hxPc+k}の選択を行い、ａ_hxPc+k _j：＝ａ
_{hxPc+k j}／ａ_{hxPc+k hxPc+k}，ｂ_hxPc+k：＝ｂ_hxPc+k／
ａ_{hxPC+k hxPc+} _kの計算も併せ行い、後者の計算結果を
第（ｈ×Ｐｃ＋ｋ）行を担当する要素プロセッサの属す
るクラスタ以外のクラスタの共有メモリに転送するとい
う一連の操作をｋ＝３からｋ＝Ｐc まで繰り返す基本前
消去手段と、係数行列の第１行から第（ｈ×Ｐc ）行と
第（（ｈ＋１）×Ｐｃ＋１）行から第ｎ行を担当する各
要素プロセッサで、自分の担当する行に対して、

【００２０】

【数１９】

【００２１】

【数２０】

【００２２】という多枢軸列同時消去計算を行う多枢軸
消去処理手段と、前記要素プロセッサで、ａ_ij＝ａ_ij−
ａ_{i i+k}・ａ_{i+k j}，ｂ_i：ｂ_i−ａ_{i i+k}・ｂ_i+kの
計算を行う基本後消去手段と、係数行列の第（ｈ×Ｐｃ
＋１）行から第（ｈ×Ｐｃ＋ｑ）行を担当する各前記要
素プロセッサで、第（ｈ×Ｐｃ＋ｗ）行には前記基本後
消去手段のｋ＝−ｗ＋ｑ＋１の場合を適用するという操
作をｗ＝１からｗ＝ｑまで同時に各行に対して行い、そ
の処理を、ｑ＝１から（Ｐc −１）まで繰り返し行うと
いう後消去処理を行う後消去処理手段と、クラスタ単位
で、Ｐc 行毎に前記基本前消去を行い、その後前記多枢
軸列同時消去計算を行い、前記後消去処理を行うという
一連の操作を［ｎ／Ｐc ］回行う繰り返し消去手段と、
前記繰り返し消去手段の操作が終了したときに、ｎ−
［ｎ／Ｐc ］×Ｐc ＞０ならば、残りの第（［ｎ／Ｐc
］×Ｐc ＋１）行から第ｎ行を担当する前記要素プロ
セッサで、第（［ｎ／Ｐc ］×Ｐｃ＋１）行から第ｎ行
に対して、前記基本前消去を行い、その後前記多枢軸列
同時消去計算を行い、更に前記後消去処理を行う残余消
去手段とを備えたことを特徴とする並列演算装置として
いる。

【００２３】請求項４に係る発明においては、係数行列
のある対角要素の属する行を担当する前記要素プロセッ
サで、前記対角要素が０のときに、前記対角要素から要
素の列番号の大きくなる方向に非ゼロ要素を検索する検
索手段と、前記検索手段によって見つかった要素の列番
号を他の前記要素プロセッサに知らせる列番号放送手段
と、前記各要素プロセッサが係数行列の自分の担当する
行に対して、前記列番号放送手段によって知らされた列
番号の要素と前記対角要素の列番号と等しい列番号の要
素を交換する要素交換手段と、前記列番号放送手段によ
って知らされた列番号と等しい番号の未知数ベクトルの
成分を担当する前記要素プロセッサと前記対角要素の列
番号と等しい番号の未知数ベクトルの成分を担当する前
記要素プロセッサにおいて、前記列番号放送手段によっ
て知らされた列番号と等しい番号の未知数ベクトルの成
分と元の対角成分の列番号と番号の等しい未知数ベクト
ルの成分の位置を交換する成分位置交換手段とを備えた
ことを特徴とする請求項１、３記載の枢軸選択手段とし
ている。

【００２４】請求項５に係る発明においては、係数行列
のある対角要素の属する行を担当する前記要素プロセッ
サで、前記対角要素から要素の列番号の大きくなる方向
に絶対値の最大な要素を検索する検索手段と、前記検索
手段によって見つかった要素の列番号を他の前記要素プ
ロセッサに知らせる列番号放送手段と、前記各要素プロ
セッサが係数行列の自分の担当する行に対して、前記列
番号放送手段によって知らされた列番号の要素と前記対
角要素の列番号と等しい列番号の要素を交換する要素交
換手段と、前記列番号放送手段によって知らされた列番
号と等しい番号の未知数ベクトルの成分を担当する前記
要素プロセッサと前記対角要素の列番号と等しい番号の
未知数ベクトルの成分を担当する前記要素プロセッサに
おいて、前記列番号放送手段によって知らされた列番号
と等しい番号の未知数ベクトルの成分と元の対角成分の
列番号と番号の等しい未知数ベクトルの成分の位置を交
換する成分位置交換手段とを備えたことを特徴とする請
求項１、３記載の枢軸選択手段としている。

【００２５】請求項６に係る発明においては、係数行列
のある対角要素の属する行を担当する前記要素プロセッ
サで、前記対角要素が０のときに、前記対角要素から要
素の列番号の大きくなる方向に非ゼロ要素を検索する検
索手段と、前記検索手段によって見つかった要素の列番
号を他の前記要素プロセッサに知らせる列番号放送手段
と、前記列番号放送手段によって知らされた列番号と等
しい番号の未知数ベクトルの成分を担当する前記要素プ
ロセッサと前記対角要素の列番号と等しい番号の未知数
ベクトルの成分を担当する前記要素プロセッサにおい
て、前記列番号放送手段によって知らされた列番号と等
しい番号の未知数ベクトルの成分と元の対角成分の列番
号と番号の等しい未知数ベクトルの成分の位置を交換す
る成分位置交換手段と、前記各要素プロセッサが係数行
列の自分の担当する行に対して、前記列番号放送手段に
よって知らされた列番号の要素と前記対角要素の列番号
と等しい列番号の要素を交換する要素交換手段とを備え
たことを特徴とする請求項１、３記載の枢軸選択手段と
している。

【００２６】請求項７に係る発明においては、係数行列
のある対角要素の属する行を担当する前記要素プロセッ
サで、前記対角要素から要素の列番号の大きくなる方向
に絶対値の最大な要素を検索する検索手段と、前記検索
手段によって見つかった要素の列番号を他の前記要素プ
ロセッサに知らせる列番号放送手段と、前記列番号放送
手段によって知らされた列番号と等しい番号の未知数ベ
クトルの成分を担当する前記要素プロセッサと前記対角
要素の列番号と等しい番号の未知数ベクトルの成分を担
当する前記要素プロセッサにおいて、前記列番号放送手
段によって知らされた列番号と等しい番号の未知数ベク
トルの成分と元の対角成分の列番号と番号の等しい未知
数ベクトルの成分の位置を交換する成分位置交換手段
と、前記各要素プロセッサが係数行列の自分の担当する
行に対して、前記列番号放送手段によって知らされた列
番号の要素と前記対角要素の列番号と等しい列番号の要
素を交換する要素交換手段とを備えたことを特徴とする
請求項１、３記載の枢軸選択手段としている。

【００２７】

【作用】上記の構成により、ガウス消去法及びガウス・
ヨルダン法に基づく少ないメモリアクセス回数でのＰc
枢軸によるＰc 列同時消去法を用いた、高速の連立１次
方程式の直接法による求解がなされる。

【００２８】

【実施例】

（第１実施例）以下、本発明に係る並列演算装置の第１
の実施例について、図１に基づき説明する。同図は、そ
の構成図であり、１は連立１次方程式の係数行列と未知
数ベクトル、既知数ベクトルをメモリに割り付けるデー
タ割付手段であり、本実施例においてはホストコンピュ
ータがこの役を果たす。２はピボティング処理を並列に
行う枢軸選択手段、３は多枢軸列同時消去を行うための
前処理を行う基本前消去手段、４は多枢軸による多枢軸
列同時消去を並列に行う多枢軸消去手段、１００は基本
前消去手段３と多枢軸消去手段４とを繰り返し作動させ
ることで消去を行う枢軸選択手段２と基本前消去手段３
と多枢軸消去手段４とを構成要素とする繰り返し消去手
段、５は残った行の消去を行う残余消去手段、６は未知
数ベクトル成分への代入を行う基本後退代入手段、７は
求まった解をクラスタの共有メモリに転送する基本後退
転送手段、８は求解演算を行う基本後退演算手段、１０
１は基本後退代入手段６、基本後退転送手段７、基本後
退演算手段８の操作を繰り返す基本後退代入手段６と基
本後退転送手段７と基本後退演算手段８とを構成要素と
する繰り返し後退処理手段であり、これらはホストコン
ピュータ（図示せず）の制御のもとで作動するよう構成
されている。

【００２９】次に、図４に本実施例をイプリメントする
並列計算機の要素プロセッサ（プロセッサ・モジュー
ル）の構成図を示す。同図のローカルメモリ及びキャッ
シュメモリは半導体メモリよりなり、プロセッサは情報
処理装置又はＭＰＵよりなり、これらと外部のデータ入
出力等はゲート・ウェイにより制御、判定される。図５
にこの要素プロセッサで構成されるクラスタ内の構成を
示す。なお、本図の共有メモリは半導体メモリより構成
される。ここに、１クラスタ中の要素プロセッサ数はＰ
ｃであり、クラスタ数はＣであり、全要素プロセッサ数
はＰである（従ってＰ＝Ｃ×Ｐc ）。なお、以下の説明
の都合もあり、各クラスタと要素プロセッサには便宜的
に番号付けをなし、クラスタは、ＣＬ1,ＣＬ2,・・・ , Ｃ
Ｌc とし、要素プロセッサについては、ＣＬk 内の要素
プロセッサをＰＲk1, ＰＲk2, ・・・, ＰＲkPc とする。

【００３０】以上のように構成された第１の実施例の演
算装置について、以下その動作を説明する。ここに、連
立一次方程式の係数行列をＡ＝（ａ_ij）（ｉ，ｊは１≦
ｉ，ｊ≦ｎの整数），既知数ベクトルｂ＝（ｂ₁、ｂ
_{2 ....}ｂ_n）^T，未知数ベクトルｙ＝（ｙ₁，ｙ₂，
_....ｙ_n）^Tとする。

【００３１】まず、データ割付手段１が、クラスタＣＬ
k （１≦ｋ≦Ｃ）に対して、（ａ_ij），ｙ_i，ｂ_iを割
り付ける。ｊの条件は、１≦ｊ≦ｎであり、ｉの条件
は、（ｍ×Ｃ＋ｋ−１）×Ｐc ＋１≦ｉ≦（ｍ×Ｃ＋
ｋ）×Ｐc であり、更に、ｎによって、次のように分類
される。ｎ−［ｎ／Ｐ］×Ｐ＞Ｐc のときは、ｋ≦［ｎ
／Ｐc −［ｎ／Ｐ］×Ｃ］ならば０≦ｍ≦［ｎ／Ｐ］＋
１であり、ｋ＞［ｎ／Ｐc−［ｎ／Ｐ］×Ｃ］ならば０
≦ｍ≦［ｎ／Ｐ］である。更に、n −〔n/P 〕×P−〔n
/Pc−〔n/P 〕× C〕Pc > 0 ならばクラスタ番号〔n/P
c−〔n/P 〕×C 〕＋1 に残りの〔n/P 〕×Ｐ＋〔n/Pc
−〔n/P 〕×C 〕×Pc＋1 ≦ｉ≦ｎのデータが割り付け
られる。０＜ｎ−［ｎ／Ｐ］×Ｐ＜Ｐc のときは、０≦
ｍ≦［ｎ／Ｐ］であり、ＣＬ1 に残りの［ｎ／Ｐ］×Ｐ
＋１≦ｉ≦ｎのデータが割り付けられる。ｎ−［ｎ／
Ｐ］×Ｐ＝０のときは、０≦ｍ≦［ｎ／Ｐ］である。

【００３２】クラスタ内の各要素プロセッサは、共有メ
モリに割り付けられたデータのうち、例えばＣＬk 内の
プロセッサＰＲkh（１≦ｈ≦Ｐc）は、１≦ｊ≦ｎ，ｉ
＝（ｍ×Ｃ＋ｋ−１）×Ｐｃ＋ｈのデータを担当する。
次に、基本前消去手段３の動作を説明する。図１からも
解るように、この動作は枢軸選択手段２の動作を含み、
この基本前消去手段３の動作は、枢軸選択手段２によっ
て、第１行目の枢軸選びを行うことから始まる。そこ
で、最初に枢軸選択手段２の説明を行う。

【００３３】一般に、枢軸の選び方には、係数行列全要
素の中で絶対値が最大のものを選ぶ完全枢軸選択と各行
（列）中で絶対値が最大のものを選ぶ部分枢軸選択があ
るが、本方法は、後者に属する。なお、解の精度がそれ
ほど問題にならない場合には、枢軸の選択が必要となる
のはａ₁₁＝０のときだけであり、この場合の選択は非ゼ
ロの要素を探すことである。ここでは、非ゼロ要素を選
ぶ場合と絶対値が最大のものを選ぶ場合の枢軸選択手段
２の動作について、図３を用いて詳細に説明する。

【００３４】図３において、２１は共有メモリ内の枢軸
の検索を行方向に行うクラスター内の要素プロセッサよ
りなる検索手段、２２は見つけた要素の列番号を各要素
プロセッサに放送する要素プロセッサよりなる列番号放
送手段、２３は列番号放送手段２２によって知らされた
列番号の要素と検索を開始した要素の列番号の要素を交
換する要素プロセッサよりなる要素交換手段、２４は列
番号放送手段２２によって知らされた列番号と等しい成
分番号の成分と検索を開始した要素の列番号と等しい成
分番号の成分の位置を交換する同じく要素プロセッサよ
りなる成分位置交換手段である。以上のように構成され
た枢軸選択手段の動作について第１行目の枢軸選びを例
にとって具体的に説明する。

【００３５】まず、非ゼロ要素を選ぶ場合の動作につい
て説明する。ＰＲ11において、検索手段２１によって、
ａ₁₁＝０かどうかの判定を行い、もし、ａ₁₁＝０でなけ
れば枢軸の選択は行う必要がない。ａ₁₁＝０の場合は、
ａ₁₂から始めて、列番号の増える方向、つまりａ_ijでｊ
の増える方向に非ゼロ要素を検索する。なお、第ｉ行で
の枢軸選択の場合には、もしａ_ii＝０なら、ａ_ii+1から
検索を始めることとなる。次に、例えばｊ＝ｋで非ゼロ
要素が見つかったとすると、列番号放送手段２２は、そ
の番号ｋを各要素プロセッサに放送して知らせる。知ら
せ方は、本実施例では各クラスタ（ＣＬ1,・・・ , ＣＬc
）の共有メモリの特定領域へ番号ｋを転送して転送
後、各要素プロセッサはそれを見に行く方法を採用して
いるが、他にブロードキャスト用の専用線を設けて、Ｐ
Ｒ11が番号ｋをブロードキャスト用の専用線に放送して
いる間に他の要素プロセッサは、その専用線からそのデ
ータを自分のローカルメモリ等に取り込む等がある。次
に、各要素プロセッサは一斉に、要素交換手段２３によ
って、係数行列の自分の担当する各行の列番号が１の要
素と列番号がｋの要素の交換を行う。具体的には、例え
ばｉ行を担当する要素プロセッサは、ａ_i1とａ_ikに対し
て、temp：＝ａ_i1，ａ_i1：＝ａ_ik，ａ_ik：＝tempの操作
を行う。この操作が終了後、成分位置交換手段２４は、
係数行列の１行目とｋ行目を担当する要素プロセッサの
未知数ベクトルの第１成分と第ｋ成分の位置を交換す
る。即ち、元の未知数ベクトルｙ＝（ｙ₁,..,ｙ_k,..,
ｙ_n）^Tだったものをｙ＝（ｙ_K,..,ｙ₁,...,ｙ_n）^T
に変える。以上により枢軸の選択終了する。

【００３６】次に、絶対値が最大のものを選ぶ場合の手
順を説明する。ＰＲ11において、検索手段２１が最初
に、ａ₁₁の絶対値を最大絶対値とする。次に、ａ₁₂から
始めて、列番号の増える方向、つまりａ_1jでｊの増える
方向に、最大絶対値と絶対値｜ａ_ij｜を比較していき｜
ａ_ij｜の方が大きいなら、これを新たに最大絶対値とす
る。そして、この検索、交換をｊ＝ｎまで行う。従っ
て、第ｉ行の枢軸選択は、ａ_ii+1からなされることにな
る。なお、この際、最大絶対値の交換が起こったなら
ば、交換と同時に絶対値の要素の列番号も記憶される。
この後、検索手段２１によって見つけられ保持されてい
る最大絶対値の要素の列番号が列番号放送手段２２によ
って各要素プロセッサに放送により知らせられる。以
下、要素交換手段２３、成分位置交換手段２４による動
作は上述のものと同様である。以上により枢軸の選択は
終わる。

【００３７】枢軸選択手段２によってａ₁₁の選択が終了
後、ＰＲ11で、ａ_1j：＝ａ_1j／ａ₁₁，ｂ₁：＝ｂ₁／ａ
₁₁の計算を行い、計算結果のａ_1jとｂ₁をＣＬ2,・・・ ,
ＣＬc の共有メモリにする。係数行列の第２行から第ｎ
行を担当する各要素プロセッサでは、自分の担当するの
行に対して（ここでは第ｉ行とするが）、ｔ_i ⁽¹⁾：＝
ａ_i2−ａ_i1×ａ₁₂の計算を行う。特に、ＰＲ12では、第
２行目に対しては、ａ _2j：＝ａ_2j−ａ₂₁×ａ_1j，ｂ₂：
＝ｂ₂−ａ₂₁×ｂ₁の計算を行い、枢軸選択手段２によ
ってａ₂₂の選択が行われた後、ａ_2j：＝ａ_2j／ａ₂₂，
ｂ：＝ｂ₂／ａ₂₂の計算が行われる。この計算結果のａ
_2jとｂ₂とを第３行から第ｎ行を担当する要素プロセッ
サが属する、かつＣＬ1 以外のクラスタの共有メモリに
転送する。以降、以下に記述する一連の操作をｋ＝３か
らｋ＝Ｐc まで繰り返すことにより、第１行目から第Ｐ
c 行目に対る基本前消去手段３の動作は終了する。係数
行列の第ｋ行から第ｎ行を担当する各要素プロセッサで
は、自分の担当する行に対して

【００３８】

【数２１】

【００３９】の計算を行う。特に、ＰＲ1kでは、第ｋ行
目に対しては、

【００４０】

【数２２】

【００４１】

【数２３】

【００４２】の計算を行い、枢軸選択手段２によってａ
_kkの選択がなされた後、ａ_kj：＝ａ_kj／ａ_kk，ｂ_k：＝
ｂ_k／ａ_kkの計算も併せ行い、計算結果のａ_kjとｂ_kと
を第ｋ＋１行から第ｎ行を担当る要素プロセッサが属
し、ＣＬ1 以外のクラスタの共有メモリに転送する。次
に、多枢軸消去手段４によって、係数行列の第（Ｐc ＋
１）行から第ｎ行を担当する各要素プロセッサが、自分
の担当する行、仮にｉとする、に対して、

【００４３】

【数２４】

【００４４】

【数２５】

【００４５】の計算を行う。この計算により、Ｐc 枢軸
によるＰc 列同時消去が行われる。以上の動作（基本前
消去処理、多枢軸消去処理）を一般的に書くと、次のよ
うになる。ここにｈは、０≦ｈ≦［ｎ／Ｐc ］−１の整
数とし、またｒ＝ｈ−［ｈ／Ｃ］×Ｃとする。クラスタ
ＣＬr の１番目の要素プロセッサＰＲr1で、枢軸選択手
段２によってａ_{hxPc+1 hxPc+1}の選択を行う。次に、ａ
_{hxPc+1 j}：＝ａ_hxPc _{+1 j}／ａ_{hxPc+1 hxPc+1}，
ｂ_hxPc+1：＝ｂ_hxPc+1／ａ_{hxPc+1 hPc+1}の計算を行い、
計算結果のａ_{hxPc+1 j}とｂ_hxPc+1を第（ｈ×Ｐc ＋２）
行から第ｎ行を担当す要素プロセッサが属し、ＣＬr 以
外のクラスタの共有メモリに転送する。係数行列の第
（ｈ×Ｐc ＋２）行から第ｎ行を担当する各要素プロセ
ッサで、自分の担当する行に対して、ｔ_i ⁽¹⁾：＝ａ
_{i hxPc+2}−ａ_{i hxPc+1}× ａ_{hxPc+1 hxPc+2}の計算を行
う。特に、ＰＲr2では、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}−ａ
_{hxPc+2 hxPc+} ₁×ａ_{hxPc+i j}，ｂ_hxPc+2：＝ｂ_hxPc+2−
ａ_{hxPc+2 hxPc+1}×ｂ_hxPc+1の計算を行う。更に、枢軸
選択手段２によってａ_{hxPc+2 hxPc+2}の選択を行い、ａ
_hxPc+2 _j：＝ａ_{hxPc+2 j}／ａ_{hxPc+2 hxPc+2}，
ｂ_hxPc+2：＝ｂ_hxPc+2／ａ_{hxPc+2 hxPc+} ₂の計算も併せ
行い、後者の計算結果のａ_{hxPc+2 j}とｂ_hxPc+2を第（ｈ
×Ｐc ＋３）行から第ｎ行を担当する要素プロセッサが
属し、ＣＬr 以外のクラスタの共有メモリに転送する。
その後、係数行列の第（ｈ×Ｐc ＋ｋ）行から第ｎ行を
担当する各要素プロセッサで、自分の担当する行に対し
て、

【００４６】

【数２６】

【００４７】の計算を行う。特に、ＰＲrkでは、

【００４８】

【数２７】

【００４９】

【数２８】

【００５０】の計算を行い、更に、枢軸選択手段２によ
ってａ_hxPc+khPc+kの選択を行い、ａ _{hxPc+k j}：＝ａ
_{hxPc+k j}／ａ_{hxPc+k hxPc+k}，ｂ_hxPc+k：＝ｂ_hPc+k／
ａ_hxPc+k _hxPc+kの計算を行う。そして、この計算結果
のａ_{hxPc+k j}とｂ_hxPc+kを第（ｈ×Ｐc ＋ｋ＋１）行か
ら第ｎ行を担当する要素プロセッが属し、かつＣＬr 以
外のクラスタの共有メモリに転送する。この一連の操作
をｋ＝３からｋ＝Ｐc まで繰り返す。その後、多枢軸消
去手段４によって、係数行列の第（（ｈ＋１）×Ｐc ＋
１）行から第ｎ行を担当する各要素プロセッサが、自分
の担当する行に対して、

【００５１】

【数２９】

【００５２】

【数３０】

【００５３】を計算することにより、Ｐc 枢軸によるＰ
c 列同時消去が実行される。繰り返し消去手段１００
は、上述の基本前消去手段３、多枢軸消去手段４という
一連の動作をＣＬ1から始めて、次にＣＬ2 という具合
に繰り返し、［ｎ／Ｐc］回行う。繰り返し消去手段１
００の操作が終了した後、ｎ−［ｎ／Ｐc ］×Ｐc ＞０
ならば、残余消去手段５によって、更に、係数行列の第
（［ｎ／Ｐc ］×Ｐc ＋１）行から第ｎ行を担当する前
要素プロセッサで、第（［ｎ／Ｐc ］×Ｐc ＋１）行か
ら第ｎ行に対して、基本前消去手段２と様の操作を適用
することにより、残りの要素の消去を行う。

【００５４】以上までの操作で、一般に前進消去と呼ば
れる消去操作が終了する。次に、後退代入と呼ばれる求
解操作の説明にはいる。まず、前述の消去が終了時点
で、ｙ_nについては、解がｂn として求まっているの
で、基本後退代入手段６によってｙ_n：＝ｂ_nとする。
次に、基本後退転送手段７によって、第１成分から第
（ｎ−１）成分を担当する要素プロセッサの属するクラ
スタの共有メモリにｙ_nを転送する。転送方法は、前述
の枢軸選択手段２で述べたような方法が考えられる。転
送後、第１成分から第（ｎ−１）成分を担当する各要素
プロセッサでは、基本後退演算手段８によって、自分の
担当する成分に対し、ｂ_i：＝ｂ_i−ａ_{i n}×ｙ_nの計
算を行う。ｙ_n-1についてこの基本後退演算手段８によ
る操作が終了した時点で、解はｂ_n-1として求まってい
るので、先ほどの操作と同様に、基本後退代入手段６に
よって、ｙ_n-1：＝ｂ_n-1とし、基本後退転送手段７に
より、第１成分から第（ｎ−２）成分を担当する要素プ
ロセッサの属するクラスタの共有メモリにｙ_n-1を転送
し、基本後退演算手段８により、第１成分から第（ｎ−
２）成分を担当する各要素プロセッサでは、自分の担当
する成分に対し、ｂ_i：＝ｂ_i−ａ_{i n-1}×ｙ_n-1の計
算をする。以上の一連の操作が繰り返し後退処理手段１
０１によって、繰り返されるが、それを一般的に表現す
ると次のようになる。既知数ベクトル、未知数ベクトル
の第（ｎ−ｋ＋１）成分を担当する要素プロセッサにお
いて、基本後退代入手段６によって、ｙ_n-k+1：＝ｂ
_n-k+1を行い、次に、基本後退転送手段７により、既知
数ベクトル、未知数ベクトルの第１成分から第（ｎ−
ｋ）成分を担当する要素プロセッサの属するクラスタの
共有メモリにｙ_n-k+1を転送した後、基本後退演算手段
８により、第１成分から第（ｎ−ｋ）成分を担当する各
要素プロセッサで、担当する成分に対し、ｂ_i：＝ｂ_i
−ａ_{i n-k}×ｙ_n-kの計算を行うという一連の操作をｋ
＝１からｋ＝（ｎ−１）まで繰り返し、最後に、前記基
本後退代入手段６によるｙ₁：＝ｂ₁を行う。以上によ
り、解ｙが全て求まる。（第２実施例）本発明に係る並列演算装置の第２の実施
例を、図２に基づき説明する。本図はその構成図であ
り、１は、連立１次方程式の係数行列と未知数ベクト
ル、既知数ベクトルをメモリに割り付けるデータ割付手
段、２はピボティング処理を並列に行う枢軸選択手段で
あり、両者は第１実施例と同じである。１１は多枢軸列
同時消去を行うための前処理を行う基本前消去手段、１
２は多枢軸による多枢軸列同時消去を並列に行う多枢軸
消去手段、１３は枢軸列の余分な要素を消去する基本後
消去手段、１４は基本後消去手段１３による操作を繰り
返すことで、１回の多枢軸列同時消去で生じる余分な要
素を全て消去する後消去処理手段、２００は基本前消去
手段１１、多枢軸消去手段１２、後消去処理手段１３の
一連の操作を繰り返す繰り返し消去手段、１５は繰り返
し消去手段２００の操作後に残った部分の消去を行う残
余消去手段である。

【００５５】以上のように構成された第２の実施例の並
列演算方法について、以下その動作を説明する。第１の
実施例と同じく、連立１次方程式の係数行列をＡ＝（ａ
_ij）（ｉ，ｊは１≦ｉ, ｊ≦ｎの整数），既知数ベクト
ルｂ＝（ｂ₁,ｂ₂,...,ｂ_n）^T，未知数ベクトルｙ＝
（ｙ_1,ｙ₂,...,ｙ_n）^Tとする。また、本実施例をイプ
リメントする並列計算機の要素プロセッサ（プロセッサ
・モジュール）の構成図とこの要素プロセッサで構成さ
れるクラスタ内の構成図を図４、図５に示す。更に、１
クラスタ中の要素プロセッサ数はＰc とし、クラスタ数
はＣとし、全要素プロセッサ数はＰとする（従ってＰ＝
Ｃ×Ｐc ）。更に、クラスタと要素プロセッサには便宜
的に番号付け、クラスタは、ＣＬ1,ＣＬ2 ，・・・ , ＣＬ
c とし、要素プロセッサについては、ＣＬk 内の要素プ
ロセッサをＰＲk1, ＰＲk2, ・・・ , ＰＲkPc とする。

【００５６】まず、データ割付手段１によって、第１実
施例と同様に、データの割付を行う。クラスタ内の各要
素プロセッサの担当についても、第１の実施例と同様で
ある。次に、基本前消去手段１１の動作であるが、図２
からも解るように、この動作は枢軸選択手段２の動作を
含む。そして、これは第１実施例と同様なのでその説明
は省略し、以下に枢軸選択後の動作のみを説明する。

【００５７】まず、枢軸選択手段２によってａ₁₁の選択
が終了後、ＰＲ11で、ａ_1j：＝ａ_1j／ａ₁₁，ｂ₁：＝ｂ
₁／ａ₁₁の計算を行い、計算結果のａ_1jとｂ₁をＣＬ1
以外の全てのクラスタ共有メモリに転送する。係数行列
の第２行から第ｎ行を担当する各要素プロセッサでは、
担当する行に対して（ここでは第ｉ行とするが）、ｔ _i
⁽¹⁾：＝ａ_i2−ａ_i1×ａ₁₂の計算を行う。特に、ＰＲ12
では、第２行目に対しては、ａ_2j：＝ａ_2j−ａ₂₁×
ａ_1j，ｂ₂：＝ｂ₂−ａ₂₁×ｂ₁の計算を行い、枢軸選
択手段２によってａ₂₂の選択を行い、ａ_2j：＝ａ_2j／ａ
₂₂，ｂ₂：＝ｂ₂／ａ₂₂の計算を行う。この計算結果の
ａ_2jとｂ₂をＣＬ1 以外の全てのスタの共有メモリに転
送する。以降、以下に記述する一連の操作をｋ＝３から
ｋ＝Ｐｃまで繰り返すことで、第１行目から第Ｐｃ行目
に対する基本前消去手段３の動作は終了する。係数行列
の第ｋ行から第ｎ行を担当する各要素プロセッサでは、
自分の担当する行に対して、

【００５８】

【数３１】

【００５９】の計算を行う。特に、ＰＲ1kでは、第ｋ行
目に対しては、

【００６０】

【数３２】

【００６１】

【数３３】

【００６２】の計算を行い、枢軸選択手段２によってａ
_kkの選択を行った後、ａ_kj：＝ａ_kj／ａ_kk，ｂ_k：＝ｂ
_k／ａ_kkの計算も併せ行い、計算結果のａ_kjとｂ_kをＣ
Ｌ1 以外の全てのクラスタの共有メモリに転送する。次
に、多枢軸消去手段１１によって、係数行列の第（Ｐc
＋１）行から第ｎ行を担当する各要素プロセッサで、自
分の担当する行に対して、ここでは仮に第ｉ行とする
と、

【００６３】

【数３４】

【００６４】

【数３５】

【００６５】の計算を行う。この計算によって、Ｐc 枢
軸によるＰc 列同時消去が行われる。以上の動作（基本
前処理手段１１、多枢軸消去手段１２）を一般的に書く
と、次のようになる。なお、ここにｈは、０≦ｈ≦［ｎ
／Ｐc ］−１の整数とし、ｒはｒ＝ｈ−［ｈ／Ｃ］×Ｃ
＋１とする。クラスタＣＬr の１番目の要素プロセッサ
ＰＲr1で、枢軸選択手段２によってａ_{hxPc+1 hxPc+1}の
選択を行う。次に、ａ _{hxPc+1 j}：＝ａ_{hxPc+1 j}／ａ
_{hxPc+1 hxPc+1}，ｂ_hxPc+1：＝ｂ_hxPc+1／ａ_hxPc+1
_hxPc+1の計算を行い、計算結果のａ_{hxPc+1 j}とｂ
_hxPc+1をＣＬr 以外の全てのクラスタの共有メモリに転
送する。係数行列の第１行から第（ｈ×Ｐc ）行と第
（ｈ×Ｐc ＋２）行から第ｎ行を担当する各要素プロセ
ッサで、自分の担当する行に対して、ｔ_i ⁽¹⁾：＝ａ
_{i hxPc+2}−ａ_{i hxpc+1}×ａ_hxPc+1hxPc+2の計算を行
う。特に、ＰＲr2では、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}−ａ
_{hxPc+2 hxPc+1}×ａ_hx _{Pc+1 j}，ｂ_hxPc+2：＝ｂ_hxPc+2−
ａ_{hxPc+2 hxPc+1}×ｂ_hxPc+1の計算を行う。更に、枢軸
選択手段２によってａ_{hxPc+2 hxPc+2}の選択を行い、ａ
_{hxPc+2 j}：＝ａ _{hxPc+2 j}／ａ_{hxPc+2 hxpc+2}，
ｂ_hxPc+2：＝ｂ_hxPc+2／ａ_{hxPc+2 hxPc+2}の計算も併せ
行い、後者の計算結果のａ_{hxPc+2 j}とｂ_hxP2をＣＬr 以
外のクラスタの共有メモリに転送する。その後、係数行
列の第１行から第（ｈ×Ｐc ）行と第（ｈ×Ｐc ＋ｋ）
行から第ｎ行を担当する各要素プロセッサで、自分の担
当する行に対して、

【００６６】

【数３６】

【００６７】の計算を行う。特に、ＰＲrkでは、

【００６８】

【数３７】

【００６９】

【数３８】

【００７０】の計算を行い、更に、枢軸選択手段２によ
ってａ_hPxc+khxPc+kの選択を行い、ａ_{hxPc+k j}：＝ａ
_{hxPc+k j}／ａ_{hxpc+k hxPc+k}，ｂ_hxPc+k：＝ｂ_hxPc+k／
ａ_hxPc _{+k hxPc+k}の計算を行う。そして、この計算結果
のａ_{hxPc+k j}とｂ_hxPc+kをＣＬr 以外のクラスタの共有
メリに転送する。この一連の操作をｋ＝３からｋ＝Ｐc
まで繰り返す。その後、多枢軸消去手段１２によって、
係数行列の第１行から第（ｈ×Ｐc ）行と第（（ｈ＋
１）×Ｐc ＋１）行から第ｎを担当する各要素プロセッ
サでは、自分の担当する行に対して、

【００７１】

【数３９】

【００７２】

【数４０】

【００７３】を計算することにより、Ｐc 枢軸によるＰ
c 列同時消去が実行される。次に、後消去処理手段１４
の動作であるが、図２からも判るように後消去処理手段
１４は、基本後消去手段１３を含むので、先に基本後消
去手段１３の動作説明をする。基本後消去手段１３は、
要素プロセッサで、自分の担当する行、仮にｉ行とす
る、に対して、ａ_ij：＝ａ_ij−ａ_{i i+k}×ａ_{i+k j}，ｂ
_i：＝ｂ_i−ａ _{i i+k}×ｂ_i+kの計算を行うものであ
る。

【００７４】後消去処理手段１４は、係数行列の第（ｈ
×Ｐc ＋１）行から第（ｈ×Ｐc ＋ｑ）行を担当する各
前記要素プロセッサで、第（ｈ×Ｐｃ＋Ｗ）行には基本
後消去手段１３のｋ＝−ｗ＋ｑ＋１の場合を適用すると
いう操作をｗ＝１からｗ＝ｑまで同時に各行に対して行
う操作を、ｑ＝１からＰc−１まで繰り返し行う。つま
り、パラメータｑを１からＰc −１まで１回固定する毎
に、係数行列の第( ｈ×Ｐc ＋１）行から第ｈ×Ｐc ＋
ｑ行を担当する各前記要素プロセッサで、第（ｈ×Ｐｃ
＋１）行に対しては基本後消去手段１３のｋ＝ｑの場合
を適用し、第（ｈ×Ｐc ＋２）行に対して基本後消去手
段１３のｋ＝ｑ−１の場合を適用し、・・・、第（ｈ×Ｐ
c ＋ｑ）行に対してはｋ＝１の場合を適用する操作を同
時に行う。

【００７５】繰り返し消去手段２００は、クラスタ単位
で、Ｐc 行毎に、基本前消去処理を行い、その後、多枢
軸消去処理を行い、後消去処理を行うという一連の操作
を［ｎ／Ｐc ］回行う。上述の一般式による説明を用い
れば、ｈ＝１からｈ＝［ｎ／Ｐc ］−１まで、基本前消
去手段１１、多枢軸消去処理手段１２、後消去処理手段
１４による処理という一連の操作を繰り返す。

【００７６】残余消去手段１５は、繰り返し消去手段２
００の操作が終了したときに、ｎ−［ｎ／Ｐc ］×Ｐc
＞０ならば、残りの第（［ｎ／Ｐc ］×Ｐc ＋１）行か
ら第ｎ行を担当する要素プロセッサで、第（［ｎ／Ｐc
］×Ｐc ＋１）行から第ｎ行に対して、基本前消去処
理を行い、その後多枢軸列同時消去計算を行い、後消去
処理を行うという残余消去処理を行う。つまり、ｒ＝
［ｎ／Ｐc ］−［［ｎ／Ｐc ］／Ｃ］×Ｃ＋１，ｈ＝
［ｎ／Ｐc ］とすると、クラスタＣＬr の１番目の要素
プロセッサＰＲr1で、枢軸選択手段２によってａ
_{hxPc+1 hxPc+1}の選択を行う。次に、ａ_{hxPc+1 j}：＝ａ
_{hxPc+1 j}／ａ_{hxPc+1 hxPc+1}，ｂ_hxPc+1：＝ｂ_hxPc+1／
ａ_{hxPc+1 hxPc+1}の計算を行い、計算結果のａ_{hxPc+1 j}
とｂ_hxPc+1をＣＬr 以外の全てのクラスタの共有メモリ
に転送する。係数行列の第１行から第（ｈ×Ｐc ）行と
第（ｈ×Ｐｃ）行から第ｎ行を担当する各要素プロセッ
サで、自分の担当する行に対して、t _i ⁽¹⁾：＝ａ
_{i hxPc+2}−ａ_{i hxPc+1}×ａ_{hxPc+1 hxPc+2}の計算を行
う。特に、ＰＲr2では、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}−ａ
_{hxPc+2 hxPc+1}×ａ_{hxPc+1 j}，ｂ_hxPc+2：＝ｂ_hxPc+2−
ａ_{hxPc+2 hxPc+1}×ｂ_hxPc+1の計算を行う。更に、枢軸
選択手段２によってａ_{hxPc+2 hxPc+2}の選択を行い、ａ
_{hxPc+2 j}：＝ａ_{hxPc+2 j}／ａ_{hxPc+2 hxPc+2,}ｂ_hxPc+2：
＝ｂ_hxPc+2／ａ_{hxPc+2 hxPc+2}の計算も併せ行い、後者
の計算結果のａ_{hxPc+2 j}とｂ_hxPc+2をＣＬｒ以外のクラ
スタの共有メモリに転送する。その後、係数行列の第１
行から第（ｈ×Ｐｃ）行と（ｈ×Ｐc ＋ｋ）行から第ｎ
行を担当する各要素プロセッサで自分の担当する行に対
して、

【００７７】

【数４１】

【００７８】の計算を行う特に、ＰＲrkでは、

【００７９】

【数４２】

【００８０】

【数４３】

【００８１】の計算の計算を行い、更に、枢軸選択手段
２によってａ_{hxPc+k hxPc+k}の選択を行い、
ａ_{hxPc+k j}：＝ａ_{hxPc+k j}／ａ_{hxPc+k hxPc+k}，ｂ
_hxPc+k：＝ｂ_hxPc+k／ａ_{hxPc+k hxPc+k}の計算を行う。
そして、この計算果のａ_{hxPc+k j}とｂ_hxPc+kをＣＬr 以
外のクラスタの共有メモリに転送する。この一連の操を
ｋ＝３からｋ＝ｎ−［ｎ／Ｐc ］×Ｐc まで繰り返す。
その後、多枢軸消去手段１２によて、係数行列の第１行
から第（ｈ×Ｐc ）行を担当する各要素プロセッサで
は、自分の担当する行に対して、

【００８２】

【数４４】

【００８３】

【数４５】

【００８４】を計算することにより、ｎ−［Ｐc ］×Ｐ
c 枢軸による（ｎ−［ｎ／Ｐc ］×Ｐc ）列同時消去が
実行される。それから、後消去手段１４によって、係数
行列の第（ｈ×Ｐc ＋１）行から第（ｈ×Ｐc ＋ｑ）行
を担当する各前記要素プロセッサで、第（ｈ×Ｐc＋
ｗ）行には基本後消去手段１３のｋ＝−ｗ＋ｑ＋１の場
合を適用するという操作をｗ＝１からｗ＝ｑまで同時に
各行に対して行う操作を、ｑ＝１からｎ−［ｎ／Ｐc ］
Ｐc まで繰り返し行う。

【００８５】以上の操作の結果として、解がｂとして求
まる。なお、第１実施例、第２実施例とも、未知数ベク
トルｙは、枢軸選択が行われると、成分の位置の入れ替
えが起こるが、入れ替え後の位置さえ正しく記憶してお
けば、最後の未知数ベクトルへの代入のところで、それ
を考慮して代入すればよいだけであるため実施例におけ
る動作説明ではその入れ替えを考慮した説明はしていな
い。また、数式中に変数ｔを含むものは、その計算をす
る際に変数ｔの値をプロセッサのレジスタ上に保持した
状態で行うとロード回数が低減するが、このように構成
してもよいのは勿論である。

【００８６】

【発明の効果】以上説明したように、本発明によれば、
多数の要素プロセッサを持つ並列コンピュータでの連立
１次方程式の直接法による求解のための高速な並列演算
処理が可能となる。

【図面の簡単な説明】

【図１】本発明に係る並列演算装置の第１実施例の構成
図である。

【図２】本発明に係る並列演算装置の第２実施例の構成
図である。

【図３】本発明の第１及び第２の実施例における枢軸選
択手段の構成図である。

【図４】本発明の第１及び第２実施例をイプリメントす
る並列計算機の要素プロセッサ（プロセッサ・モジュー
ル）の構成図である。

【図５】本発明の第１、第２の実施例をイプリメントす
る並列計算機の要素プロセッサで構成されるクラスタ内
の構成図を示す。

【符号の説明】

１データ割付手段２枢軸選択手段３基本前消去手段４多枢軸消去手段５残余消去手段６基本後退代入手段７基本後退転送手段８基本後退演算手段１１基本前消去手段１２多枢軸消去手段１３基本後消去手段１４後消去処理手段１５残余消去手段２１検索手段２２列番号放送手段２３要素交換手段２４成分位置交換手段１００繰り返し消去手段１０１繰り返し後退処理手段２００繰り返し消去手段

Claims

【特許請求の範囲】

【請求項１】１番からＰc 番までの要素プロセッサと
共有メモリによって構成されるクラスタと、１番からＣ
番までの前記クラスタをネットワークで接続することで
構成される並列計算機において、係数行列Ａ＝（ａ_ij）（１≦ｉ, ｊ≦ｎの整数），既知
数ベクトルｂ＝（ｂ₁,ｂ ₂,...,ｂ_n）^T（ここに、
（）^Tの上添字Ｔは縦ベクトルであることを示す。以
下同じ。），未知数ベクトルｙ＝（ｙ₁,ｙ₂,...,ｙ_n）
^Tで表現される連立１次方程式をＡｙ＝ｂするとき、前記クラスタの共有メモリへ順に、係数行列はＰc 行づ
つ、既知数ベクトルと未知数ベクトルは係数行列を割り
付けた行番号と対応する成分番号の成分をＰc成分づつ
割り付けていき、１巡目で割り付けが終わらないとき
は、更に２巡目、３巡目と繰り返すことにより、係数行
列、既知数ベクトル、未知数ベクトルの要素全てを割り
付け、前記クラスタ内のＰc 個の要素プロセッサに対し
ては、係数行列は、前記クラスタの共有メモリに割り付
けたＰc 行のうちの１行づつを、既知数ベクトルや未知
数ベクトルは、係数行列を割り付けた行番号と対応する
成分番号の成分を前記要素プロセッサに割り付けるデー
タ割り付け手段と、前記クラスタの１番目の要素プロセッサで、枢軸選択手
段によってａ_{hxPc+1 h} _xPc+1の選択を行い、
ａ_{hxPc+1 j}：＝ａ_{hxPc+1 j}／ａ_{hxPc+1 hxPc+1}（ここ
に，ａ_{hxPc+1 j}の後の：は定義を意味する。即ち、ａ
_{hxPc+1 j}／ａ_{hxPc+1 hxPc+1}をａ_hxPc+_{1 j}と置く意味で
ある。以下に同じ。）ｂ_hxPc+1：＝ｂ_hxPc+1／ａ_hxPc+1
_hxPc+1 の計算を行い、計算結果を第ｈ×Ｐc ＋２行か
ら第ｎ行を担当する要素プロセッサが属し、かつ第（ｈ
×Ｐc ＋１）行を担当する要素プロセッサの属するクラ
スタ以外のクラスタの共有メモリに転送し、係数行列の
第（ｈ×Ｐc ＋２）行から第ｎ行を担当する前記要素プ
ロセッサで、担当する行に対して、ｔ_i ⁽¹ ⁾：＝ａ
_{1 hxPc+2}−ａ_{i hxPC+1}・ａ_{hxPc+1 hxPc+2} の計算を行
い、特に、前記クラスタの２番目の要素プロセッサで
は、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}−ａ_hxPc+2h _xPc+1 ・ａ
_{hxPc+1 j}，ｂ_hxPc+2：＝ｂ_hxPc+2−ａ_{hxPc+2 hxPc+1}・
ｂ_hxPc+1の計算と、前記枢軸選択手段によってａ
_{hxPc+2 hxPC+2} の選択を行い、ａ_{hxPc+2 j}：＝ａ
_{hxPc+2 j}／ａ_{hxPc+2 hxPc+2}，ｂ_hxPc+2：＝ｂ_hxPc+2／
ａ_{hxPc+2 hxPc+2}の計算も併せ行い、後者の計算結果を
第（ｈ×Ｐc ＋３）行から第ｎ行を担当する要素プロセ
ッサが属し、かつ第（ｈ×Ｐc ＋２）行を担当する要素
プロセッサの属するクラスタ以外のクラスタの共有メモ
リに転送し、その後、係数行列の第（ｈ×Ｐc ＋ｋ）行
から第ｎ行を担当する前記要素プロセッサで、担当する
行に対して、【数１】の計算を行い、特に、前記クラスタのｋ番目の要素プロ
セッサでは、【数２】【数３】の計算と、前記枢軸選択手段によってａ_{hxPc+k hxPc+k}
の選択を行い、ａ_hxPc+k _j：＝ａ_{hxPc+k j}／ａ
_{hxPc+k hxPc+k}，ｂ_hxPc+K：＝ｂ_hxPc+k／ａ
_{hxPc+k hxPc+} _kの計算も併せ行い、後者の計算結果を第
（ｈ×Ｐc ＋ｋ＋１）行から第ｎ行を担当する要素プロ
セッサが属し、かつ第（ｈ×Ｐc ＋ｋ）行を担当する要
素プロセッサの属するクラスタ以外のクラスタの共有メ
モリに転送するという一連の基本前消去の操作をｋ＝３
からｋ＝Ｐc まで繰り返す基本前消去手段と、係数行列の第（（ｈ＋１）×Ｐc ＋１）行から第ｎ行を
担当する各要素プロセッサで、自分の担当する行に対し
て、【数４】【数５】という多枢軸列同時消去計算を行う多枢軸消去処理手段
と、クラスタ単位で順に前記基本前消去の操作を行い、その
後前記多枢軸列同時消去計算を行うという一連の操作を
［ｎ／Ｐc ］（ここに〔〕はガウスの記号であり、
〔Ｘ〕はＸを越えない最大の整数を表す。）回行う繰り
返し消去手段と、前記繰り返し消去手段の操作が終了したときに、ｎ−
［ｎ／Ｐc ］×Ｐc ＞０ならば、更に係数行列の第
（［ｎ／Ｐc ］×Ｐc ＋１）行から第ｎ行を担当する前
記要素プロセッサで、第（［ｎ／Ｐc ］×Ｐc ＋１）行
から第ｎ行に対して、前記基本前消去と同じ操作で残り
の行に対する消去を行う残余消去手段とを備たことを特
徴とする並列消去装置。
【請求項２】前記請求項１の並列消去装置によって消
去終了後、前記要素プロセッサで、y _i：＝ｂ_iとする基本後退代
入手段と、第１成分から第（ｉ−１）成分を担当する前記要素プロ
セッサの属するクラスタの共有メモリにｙ_iを転送する
基本後退転送手段と、第１成分から第（ｉ−１）成分を担当する前記要素プロ
セッサで、担当する成分に対し、ｂ_i：＝ｂ_i−ａ
_{i n-k}×ｙ_n-kの計算を行う基本後退演算手段と、既知数ベクトル、未知数ベクトルの第（ｎ−ｋ＋１）成
分を担当する前記要素プロセッサにおいては、前記基本
後退代入手段によるｙ_n-k+1：＝ｂ_n-k+1を行い、前記
基本後退転送手により既知数ベクトル、未知数ベクトル
の第１成分から第（ｎ−ｋ）成分を担当する前記要素プ
ロセッサの属するクラスタの共有メモリにｙ_n-k+1を転
送した後、第１成分から第ｎ−ｋ成分を担当する各前記
要素プロセッサで基本後退演算手段による計算を行うと
いう一連の操作をｋ＝１からｋ＝（ｎ−１）まで繰り返
し、最後に、前記基本後退代入手段によるｙ₁：＝ｂ₁
を行う繰り返し後退処理手段とを備えたことを特徴とす
る並列演算装置。
【請求項３】１番からＰc 番（Ｐc は整数）までの要
素プロセッサと共有メモリによって構成されるクラスタ
と、１番からＣ番（Ｃは整数）までのＣ個の前記クラス
タをネットワークで接続することで構成される並列計算
機において、係数行列Ａ＝（ａ_ij）（ｉ，ｊは１≦ｉ, ｊ≦ｎの整
数），既知数ベクトルｂ＝（ｂ₁,ｂ₂,...,ｂ_n) ^T，未
知数ベクトルｙ＝（ｙ₁,ｙ₂,...,ｙ_n）^Tで表現される
連立１次方程式をＡｙ＝ｂするとき、前記クラスタの共有メモリへ順に、係数行列はＰc 行づ
つ、既知数ベクトルと未知数ベクトルは係数行列を割り
付けた行番号と対応する成分番号の成分をＰc 成分づつ
割り付けていき、１巡目で割り付けが終わらないとき
は、更に２巡目、３巡目と繰り返し、係数行列、既知数
ベクトル、未知数ベクトルの要素全てを割り付け、前記
クラスタ内のＰc 個の要素プロセッサに対しては、係数
行列は、前記クラスタの共有メモリに割り付けたＰc 行
のうちの１行づつを、既知数ベクトルや未知数ベクトル
は、係数行列を割り付けた行番号と対応する成分番号の
成分を前記要素プロセッサに割り付けるデータ割り付け
手段と、前記クラスタの１番目の要素プロセッサで、枢軸選択手
段によってａ_{hxPc+1 h} _xPc+1の選択を行い、
ａ_{hxPc+1 j}：＝ａ_{hxPc+1 j}／ａ_{hxPc+1 hxPc+1}，ｂ
_hxPc+1：＝ｂ_hxPc+1／ａ_{hxPc+1 hxPc+1}の計算を行い、
計算結果を第（ｈ×Ｐc ＋１）行を担当する要素プロセ
ッサの属するクラスタ以外のクラスタの共有メモリに転
送し、係数行列の第（ｈ×Ｐc ＋２）行から第ｎ行を担
当する前記要素プロセッサで、担当する行に対して、ｔ
_i ⁽¹⁾：＝ａ_{i hxPc+2}−ａ_{i hxPc+1}×ａ_{hxPc+1 h} _xPc+2
の計算を行い、特に、前記クラスタの２番目の要素プロ
セッサでは、前記ｔ_i ⁽¹⁾の他、ａ_{hxPc+2 j}：＝ａ
_{hxPc+2 j}−ａ_{hxPc+2 hxPc+1}×ａ_{hxPc+1 j}，ｂ _hxPc+2：
＝ｂ_hxPc+2−ａ_{hxPc+2 hxPc+1}×ｂ_hxPc+1の計算と、前
記枢軸選択手段によってａ_{hxPc+2 hxPc+2}の選択を行
い、ａ_{hxPc+2 j}：＝ａ_{hxPc+2 j}／ａ_hxPc+2 _hxPc+2，ｂ
_hxPc+2：＝ｂ_hxPc+2／ａ_{hxPc+2 hxPc+2} の計算も併せ
行い、後者の計算結果を第（ｈ×Ｐc ＋２）行を担当す
る要素プロセッサの属するクラスタ以外のクラスタの共
有メモリに転送し、その後、係数行列の第（ｈ×Ｐc ＋
ｋ）行から第ｎ行を担当する前記要素プロセッサで、担
当する行に対して、【数６】の計算を行い、特に、前記クラスタのｋ番目の要素プロ
セッサでは、【数７】【数８】の計算と、前記枢軸選択手段によってａ_{hxPc+k hxPc+k}
の選択を行い、ａ_hxPc+k _j: ＝ａ_{hxPc+k j}／ａ
_{hxPc+k hxPc+k}，ｂ_hxPc+k：＝ｂ_hxPc+k／ａ
_{hxPc+k hxPc+} _kの計算も併せ行い、後者の計算結果を第
（ｈ×Ｐｃ＋ｋ）行を担当する要素プロセッサの属する
クラスタ以外のクラスタの共有メモリに転送するという
一連の操作をｋ＝３からｋ＝Ｐc まで繰り返す基本前消
去手段と、係数行列の第１行から第（ｈ×Ｐc ）行と第（（ｈ＋
１）×Ｐｃ＋１）行から第ｎ行を担当する各要素プロセ
ッサで、自分の担当する行に対して、【数９】【数１０】という多枢軸列同時消去計算を行う多枢軸消去処理手段
と、前記要素プロセッサで、ａ_ij＝ａ_ij−ａ_{i i+k}×ａ
_{i+k j}，ｂ_i：＝ｂ_i−ａ _{i i+k}×ｂ_i+kの計算を行う
基本後消去手段と、係数行列の第（ｈ×Ｐｃ＋１）行から第（ｈ×Ｐｃ＋
ｑ）行を担当する各前記要素プロセッサで、第（ｈ×Ｐ
ｃ＋ｗ）行には前記基本後消去手段のｋ＝−ｗ＋ｑ＋１
の場合を適用するという操作をｗ＝１からｗ＝ｑまで同
時に各行に対して行い、その処理を、ｑ＝１から（Ｐc
−１）まで繰り返し行うという後消去処理を行う後消去
処理手段と、クラスタ単位で、Ｐc 行毎に前記基本前消去を行い、そ
の後前記多枢軸列同時消去計算を行い、前記後消去処理
を行うという一連の操作を［ｎ／Ｐc ］回行う繰り返し
消去手段と、前記繰り返し消去手段の操作が終了したときに、ｎ−
［ｎ／Ｐc ］×Ｐc ＞０ならば、残りの第（［ｎ／Ｐc
］×Ｐc ＋１）行から第ｎ行を担当する前記要素プロ
セッサで、第（［ｎ／Ｐc ］×Ｐｃ＋１）行から第ｎ行
に対して、前記基本前消去を行い、その後前記多枢軸列
同時消去計算を行い、更に前記後消去処理を行う残余消
去手段とを備えたことを特徴とする並列演算装置。
【請求項４】係数行列のある対角要素の属する行を担
当する前記要素プロセッサで、前記対角要素が０のとき
に、前記対角要素から要素の列番号の大きくなる方向に
非ゼロ要素を検索する検索手段と、前記検索手段によって見つかった要素の列番号を他の前
記要素プロセッサに知らせる列番号放送手段と、前記各要素プロセッサが係数行列の自分の担当する行に
対して、前記列番号放送手段によって知らされた列番号
の要素と前記対角要素の列番号と等しい列番号の要素を
交換する要素交換手段と、前記列番号放送手段によって知らされた列番号と等しい
番号の未知数ベクトルの成分を担当する前記要素プロセ
ッサと前記対角要素の列番号と等しい番号の未知数ベク
トルの成分を担当する前記要素プロセッサにおいて、前
記列番号放送手段によって知らされた列番号と等しい番
号の未知数ベクトルの成分と元の対角成分の列番号と番
号の等しい未知数ベクトルの成分の位置を交換する成分
位置交換手段とを備えたことを特徴とする請求項１、３
記載の枢軸選択手段。
【請求項５】係数行列のある対角要素の属する行を担
当する前記要素プロセッサで、前記対角要素から要素の
列番号の大きくなる方向に絶対値の最大な要素を検索す
る検索手段と、前記検索手段によって見つかった要素の列番号を他の前
記要素プロセッサに知らせる列番号放送手段と、前記各要素プロセッサが係数行列の自分の担当する行に
対して、前記列番号放送手段によって知らされた列番号
の要素と前記対角要素の列番号と等しい列番号の要素を
交換する要素交換手段と、前記列番号放送手段によって知らされた列番号と等しい
番号の未知数ベクトルの成分を担当する前記要素プロセ
ッサと前記対角要素の列番号と等しい番号の未知数ベク
トルの成分を担当する前記要素プロセッサにおいて、前
記列番号放送手段によって知らされた列番号と等しい番
号の未知数ベクトルの成分と元の対角成分の列番号と番
号の等しい未知数ベクトルの成分の位置を交換する成分
位置交換手段とを備えたことを特徴とする請求項１、３
記載の枢軸選択手段。
【請求項６】係数行列のある対角要素の属する行を担
当する前記要素プロセッサで、前記対角要素が０のとき
に、前記対角要素から要素の列番号の大きくなる方向に
非ゼロ要素を検索する検索手段と、前記検索手段によって見つかった要素の列番号を他の前
記要素プロセッサに知らせる列番号放送手段と、前記列番号放送手段によって知らされた列番号と等しい
番号の未知数ベクトルの成分を担当する前記要素プロセ
ッサと前記対角要素の列番号と等しい番号の未知数ベク
トルの成分を担当する前記要素プロセッサにおいて、前
記列番号放送手段によって知らされた列番号と等しい番
号の未知数ベクトルの成分と元の対角成分の列番号と番
号の等しい未知数ベクトルの成分の位置を交換する成分
位置交換手段と、前記各要素プロセッサが係数行列の自分の担当する行に
対して、前記列番号放送手段によって知らされた列番号
の要素と前記対角要素の列番号と等しい列番号の要素を
交換する要素交換手段とを備えたことを特徴とする請求
項１、３記載の枢軸選択手段。
【請求項７】係数行列のある対角要素の属する行を担
当する前記要素プロセッサで、前記対角要素から要素の
列番号の大きくなる方向に絶対値の最大な要素を検索す
る検索手段と、前記検索手段によって見つかった要素の列番号を他の前
記要素プロセッサに知らせる列番号放送手段と、前記列番号放送手段によって知らされた列番号と等しい
番号の未知数ベクトルの成分を担当する前記要素プロセ
ッサと前記対角要素の列番号と等しい番号の未知数ベク
トルの成分を担当する前記要素プロセッサにおいて、前
記列番号放送手段によって知らされた列番号と等しい番
号の未知数ベクトルの成分と元の対角成分の列番号と番
号の等しい未知数ベクトルの成分の位置を交換する成分
位置交換手段と、前記各要素プロセッサが係数行列の自分の担当する行に
対して、前記列番号放送手段によって知らされた列番号
の要素と前記対角要素の列番号と等しい列番号の要素を
交換する要素交換手段とを備えたことを特徴とする請求
項１、３記載の枢軸選択手段。