JP2000298658A

JP2000298658A - 並列処理方法および並列処理装置

Info

Publication number: JP2000298658A
Application number: JP10553699A
Authority: JP
Inventors: Sou Yamada; 想山田; Shinjirou Inahata; 深二郎稲畑; Nobuaki Miyagawa; 宣明宮川; Hajime Takashima; 一高島; Kazuyasu Kitamura; 一泰北村; Shigeru Obara; 繁小原
Original assignee: Fuji Xerox Co Ltd; Taisho Pharmaceutical Co Ltd
Current assignee: Taisho Pharmaceutical Co Ltd; Fujifilm Business Innovation Corp
Priority date: 1999-04-13
Filing date: 1999-04-13
Publication date: 2000-10-24
Anticipated expiration: 2019-04-13
Also published as: JP4159699B2; US6799151B1

Abstract

(57)【要約】【課題】安価な通信手段と、小容量のメモリを有する
多数のプロセッサエレメントとを用いた並列計算によっ
ても、ホスト計算機とプロセッサエレメントとの間の通
信性能に律速されることなく、効率的に行列要素計算を
行える。【解決手段】例えば、分子軌道計算方法において、フ
ォック行列の全ての要素Ｆ（Ｉ，Ｊ）の計算を、最も外
側のループは、Ｒ≦ＮｓｈｅｌｌおよびＴ≦Ｒなる関係
を満たす縮約シェルＲと縮約シェルＴとの組み合わせ
（ＲＴ）に関するループとする。２番目は、縮約シェル
Ｓに関するループ、３番目は縮約シェルＵに関するルー
プとするか、あるいは、２番目は縮約シェルＵに関する
ループ、３番面は縮約シェルＳに関するループとする。
Ｓのとりうる値の範囲を１からＲの間とし、また、Ｕの
とりうる値の範囲を１からＲの間とする。３番目のルー
プの内側で、所定の２電子積分の計算およびその結果を
用いた所定のフォック行列要素の一部の計算を行うこと
により行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、大規模で、特定
の対称性を有する行列要素計算、特に、非経験的分子軌
道法を用いた分子シミュレーションにおいてフォック行
列要素計算を高速に処理するために用いて好適な、並列
処理方法および並列処理装置に関する。

【０００２】

【従来の技術】化学の分野において、分子の状態や挙動
を数値的に解析する手法として、分子軌道法、分子動力
学法、モンテカルロ法などがある。その中でも、非経験
的分子軌道計算法は、第一原理に基づいた量子力学的計
算で、分子中の電子の挙動を記述することを目的として
いる。そのため、この手法は、分子シミュレーションの
基盤として位置づけられ、物質構造や化学反応の詳細な
解析に用いられている工業的に重要な手法である。

【０００３】非経験的分子軌道計算法では、分子を構成
する原子の原子核と軌道電子との距離の２乗に経験的な
定数を乗じたものを指数とする指数関数の逆数あるいは
それらの線形結合を基底関数とし、この基底関数を１つ
の原子に対して複数個用意する。これらの基底関数の線
形結合で、分子内の軌道電子の波動関数、すなわち分子
軌道を記述する。

【０００４】分子軌道における基底関数の線形結合係数
を決めることが、非経験的分子軌道計算法での主要な処
理であるが、その計算には、基底関数の数の４乗に比例
した計算量と記憶容量を必要とする。そのため、非経験
的分子軌道計算法は、現状では、１００原子程度の規模
の分子系に適用されているに過ぎない。生命現象／化学
現象の分子論的解明を、より現実的なものとするために
は、数１０００原子規模の分子系への適用も視野に入れ
た、非経験的分子軌道計算専用の計算システムの開発が
必須である。

【０００５】［非経験的分子起動法の概要］非経験的分
子軌道計算法では、分子の状態Ψを、分子中の電子の空
間的な軌道に相当する電子軌道関数φ_μを用いて記述す
る。ここでμは複数ある分子軌道のμ番目という意味の
添え字である。分子軌道φ_μは、原子軌道χ_Ｉの線形結
合で、図２３の（数式１）のように近似的に表わされ
る。

【０００６】ここで、（数式１）において、Ｉは複数あ
る原子軌道のＩ番目という意味の添え字である。なお、
原子軌道は基底関数とも呼ばれることがある。この明細
書中では、以降、原子軌道のことを基底関数と呼ぶ。ま
た、数式１に現れるＣ_Iμは、線形結合係数である。数
式１におけるＩに関する総和は、計算の対象とする分子
を構成する全ての基底関数に関するものである。

【０００７】さて、量子力学的に分子軌道を記述するた
めには、良く知られるパウリの排他律を、分子内の電子
の状態が満たさなければならない。電子のスピンを考慮
に入れて、パウリの排他律を満たすように、２ｎ電子系
の分子の状態Ψを記述する表式として、図２３の（数式
２）のようなスレーター行列式が用いられる。ここで、
（数式２）において、α（ｘ）およびはβ（ｘ）、ｘ番
目の電子のスピンが、それぞれ、上向きおよび下向きの
状態を表わしている。

【０００８】２ｎ電子系に対するハミルトニアンＨは、
１電子部分Ｈ₁と２電子部分Ｈ₂との和という形式で、
図２３の（数式３）から（数式５）のように書き表され
る。

【０００９】図２３の（数式４）において、右辺の（・
・・）内の第１項は、電子ｐの運動エネルギー、第２項
はｐ番目の電子とＡ番目の原子核との相互作用である。
（数式４）において、Σ_p（この明細書でΣ_ｉは、ｉに
ついての総和を取ることを表すものとする。以下、同
じ）は全電子に関する総和、Σ_Aは全原子核に関する総
和、Ｚ_Aは原子核Ａの電荷、ｒ_pAは電子ｐと原子核Ａと
の距離である。

【００１０】また、（数式５）は、電子ｐと電子ｑとの
間の相互作用を表わしており、Σ_pΣ_q(＞p)は２個の電
子の組み合わせに関する総和、ｒ_pqは電子ｐ，ｑ間の距
離である。

【００１１】上記のハミルトニアンＨと、（数式２）の
スレーター行列式とを用いると、分子エネルギーの期待
値εが、図２４の（数式６）〜（数式９）のように表わ
される。

【００１２】（数式６）において、Σ_μおよびΣ_νは、
ｎ個（ｎは正の整数）ある分子軌道に関する総和であ
る。（数式７）は「コア積分」と呼ばれ、代表として番
号１の電子について書かれている。また、（数式８）お
よび（数式９）は、それぞれ「クーロン積分」および
「交換積分」と呼ばれ、代表として電子１および電子２
について書かれている。

【００１３】（数式６）を基底関数を用いて書き直す
と、図２５に示す（数式１０）〜（数式１３）に示すよ
うなものになる。（数式１３）で表わされる積分を、
「２電子間反発積分」あるいは省略して「２電子積分」
と呼ぶ。

【００１４】（数式１０）で表わされる分子エネルギー
の期待値εは、Ｃ_Iμという未知数を含んでおり、この
ままでは数値が得られない。Ｃ_Iμは、（数式１）にお
ける線形結合定数であり、μは１からｎ（分子軌道の
数）の整数、Ｉは１からＮ（Ｎが基底関数の数であり、
正の整数）の整数である。以下では、Ｃ_Iμを要素とす
るＮ×ｎ行列Ｃを係数行列と呼ぶ。

【００１５】期待値εが最小となるように係数行列を決
定し、基底状態の波動関数Ψを求める手法の１つとし
て、ハートリー・フォック・ローサーンの変分法（以
下、ＨＦＲ法と略称する）が用いられる。導出過程は省
略し、ＨＦＲ法の結果として得られる式を、図２６の
（数式１４）〜（数式１８）に示す。

【００１６】Ｆ_IJはフォック行列要素、Ｐ_KLは密度行列
要素と、それぞれ呼ばれる。以下の説明では、これらを
Ｆ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｌ）のように表記する場合があ
る。これらは、１からＮの値をとる各Ｉ，Ｊ，Ｋ，Ｌに
対して数値を持っており、それぞれＮ×Ｎ行列の形で表
わされる。

【００１７】（数式１４）を解くことにより、係数行列
が求まる。（数式１４）は、１からｎの間の全てのμ、
および１からＮの間の全てのＩに対して存在するので、
ｎ×Ｎ本の連立方程式になっている。

【００１８】（数式１４）を解いて得られた係数行列Ｃ
の計算には、密度行列Ｐが用いられている。密度行列Ｐ
は、（数式１８）に示すように係数行列Ｃから計算され
る。そのため、具体的な計算手順としては、まず、適当
に係数行列Ｃを与えておき、それを用いて計算した密度
行列Ｐを使って、（数式１５）でフォック行列Ｆを計算
し、（数式１４）の連立方程式を解いて新たな係数行列
Ｃを得る。密度行列Ｐの元となるＣと、結果として得ら
れるＣとの間の差が十分小さく、すなわち自己無撞着に
なるまで、上記の計算を繰り返し行う。この反復計算を
自己無撞着計算（以下、ＳＣＦ計算と称する）と呼ぶ。

【００１９】実際の計算で最も時間を要するのは、（数
式１５）のフォック行列要素Ｆ_IJの計算である。これ
は、全てのＩ，Ｊに対して、この（数式１５）を計算し
なければならないこと、および各Ｉ，Ｊの組み合わせに
対して、密度行列要素Ｐ_KLのＫ，Ｌに関する和を計算し
なければならないことに起因する。

【００２０】ＳＣＦ計算の手法には２通りある。１つは
ディスクストレージＳＣＦ法と呼ばれる手法で、１回目
のＳＣＦ計算の際に得た２電子積分の値を全てディスク
に保存しておき、２回目以降は必要な２電子積分をディ
スクから取り出して用いる手法である。もう１つはダイ
レクトＳＣＦ法と呼ばれる手法で、ＳＣＦ計算の度に２
電子積分の計算をやり直す手法である。

【００２１】現在では、ディスク容量の制限やアクセス
時間の大きさなどから、後者のダイレクトＳＣＦ法を用
いるのが主流である。このダイレクトＳＣＦ法による分
子軌道計算においては、ＳＣＦ計算の１回あたりに、Ｎ
⁴にほぼ比例する個数の２電子積分の計算を行わなけれ
ばならないため、２電子積分計算を高速に行うことが分
子軌道計算を高速化することに直結する。

【００２２】２電子積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）、密度行
列Ｐ（Ｋ，Ｌ）、およびフォック行列Ｆ（Ｉ，Ｊ）の対
称性に関して、ここで言及しておく。

【００２３】２電子積分は、（数式１３）から明らかな
ように、図２６の（数式１９）に示すような対称性を有
している。したがって、（数式１９）の内の１つに関し
て数値を得ることができれば、他の７つについても数値
が得られたことになる。

【００２４】また、図２６の（数式１８）から、Ｐ（Ｋ，Ｌ）＝Ｐ（Ｌ，Ｋ）であることがわかり、図２６の（数式１５）および図２
５の（数式１１）から、Ｆ（Ｉ，Ｊ）＝Ｆ（Ｊ，Ｉ）であることがわかる。

【００２５】［縮約基底関数と原始基底関数］非経験的
分子軌道法では、図２７の（数式２０）に示すような基
底関数が一般的に用いられる。この（数式２０）におい
て、ｒ，ｎ，Ｒはベクトルであり、添え字ｘ，ｙ，ｚの
付いたものがその成分である。ｒは電子の座標、ｎは電
子の角運動量、Ｒは原子核の座標である。

【００２６】ｎ_ｘ＋ｎ_ｙ＋ｎ_ｚ＝λは、角運動量の大き
さであり、軌道量子数とも呼ばれる。この軌道量子数λ
が、０の場合にその軌道をｓ軌道、１の場合にその軌道
をｐ軌道、２の場合にその軌道をｄ軌道などと呼ぶ。

【００２７】ζ_ｍは軌道指数であり、軌道の空間的な広
がり具合を示す。軌道指数の異なる複数の軌道の線形結
合で１つの基底関数を表わす場合があり、そのようにし
て表わした基底関数を縮約基底関数と呼び、線形結合係
数ｄ_ｍを縮約係数と呼ぶ。これに対して、線形結合され
る前の、図２７の（数式２１）の形の関数ψを原始基底
関数と呼ぶ。

【００２８】縮約基底関数χは、Ｉ，Ｊ，Ｋ，Ｌのよう
に大文字で番号付けをし、また、原始基底関数ψは、
ｉ，ｊ，ｋ，ｌのように小文字で番号付けするのが慣例
であり、本明細書中でもこれに従う。

【００２９】［縮約シェルと原始シェル］軌道量子数が
１の場合の縮約基底関数には、ｎ＝（１，０，０）の場
合、ｎ＝（０，１，０）の場合、ｎ＝（０，０，１）の
場合の３通りが存在する。同様に、軌道量子数が２の場
合には６通り（あるいは、基底関数の構成の仕方によっ
ては５通り）の縮約基底関数が存在する。

【００３０】（数式２０）のうちの図２７の（数式２
２）で示す部分が共通な、これら複数の縮約基底関数の
集合を、縮約シェルと呼ぶ。ｐ軌道の縮約シェルは３つ
の縮約基底関数で構成され、また、ｄ軌道の縮約シェル
は６つ（または５つ）の縮約基底関数で構成される。ｓ
軌道の場合にも、便宜上１つの縮約基底関数の集合を縮
約シェルと呼ぶ。

【００３１】（数式２１）のうちのｅｘｐ［−ζ（ｒ−
Ｒ）²］の部分が共通な、原始基底関数の集合を、同様
に原始シェルと呼ぶ。縮約シェルは、Ｒ，Ｓ，Ｔ，Ｕの
ように大文字で番号付けをし、原始シェルは、ｒ，ｓ，
ｔ，ｕのように小文字で番号付けするのが慣例であり、
本明細書中でもこれに従う。

【００３２】分子軌道計算の実施に際しては、計算の対
象とする分子を構成する原子毎に軌道量子数の異なる複
数の縮約シェルを用意し、それら全ての集合を基底関数
のセットとして用いる。原子核座標Ｒと軌道量子数λと
の組み合わせ（Ｒ，λ）で、１つの縮約シェルを表わす
ことができる。

【００３３】［２電子積分の表式］縮約基底関数で表わ
される２電子積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）は、原始基底関
数を用いると、図２７の（数式２３）のように表わされ
る。ここで、ｇ（ｉ，ｊ，ｋ，ｌ）は、図２７の（数式
２４）のように表すことができる。

【００３４】Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）を、縮約基底関数で
表現した２電子積分と呼び、ｇ（ｉ，ｊ，ｋ，ｌ）を、
原始基底関数で表現した２電子積分と呼ぶが、以降の説
明では、どちらも単に２電子積分と呼ぶ場合がある。ｇ
（ｉ，ｊ，ｋ，ｌ）も、図２７の（数式２５）で示すよ
うな対称性を有している。

【００３５】さて、原始基底関数ψは、その角運動量
ｎ、軌道指数ζ、原子核座標Ｒの組み合わせで、一意的
に示すことができる。ｉ，ｊ，ｋ，ｌ番目の原始基底関
数が、図１９に示す表１のような角運動量、軌道指数、
原子核座標を有するものと仮定する。

【００３６】説明の煩雑さを避けるために、以下の説明
では、原始基底関数の番号ｉ，ｊ，ｋ，ｌの代わりに、
それぞれの角運動量ａ，ｂ，ｃ，ｄを用いて２電子積分
を［ａｂ，ｃｄ］のように表わすことにする。

【００３７】上記のように用意された基底関数セットを
用いて２電子積分を計算する効率的な手法を、文献１
（Ｓ．ＯｂａｒａａｎｄＡ．Ｓａｉｋａ，ＪＣＰ，
ｖｏｌ．８４，ｎｏ．７，ｐ．３９６４，１９８６）に
従って説明する。

【００３８】まず、ａ，ｂ，ｃ，ｄが全てｓ軌道、すな
わちａ＝０_a＝（０，０，０），ｂ＝０_b＝（０，０，
０），ｃ＝０_c＝（０，０，０），ｄ＝０_d＝（０，
０，０）である場合には、（数式２４）の２電子積分
は、図２８の（数式２６）〜（数式３４）に示すように
求まる。

【００３９】ここで、（数式２６）に現れる［・・，・
・］^(m)は補助積分、ｍは補助インデックスであるが、
これらについては後で述べる。（数式２７）の積分範囲
は、０から１である。

【００４０】また、ａ，ｂ，ｃ，ｄのうち１つでもｓ軌
道以外のものがある場合には、図２９の（数式３５）お
よび（数式３６）に示す漸化式を用いて計算する。

【００４１】（数式３５）で、添え字のｉは、ｘまたは
ｙまたはｚ成分であることを示す。また、１_ｉは、ｉ成
分のみ１で、他は０であるようなベクトルである。さら
に、Ｎ_ｉ（ｎ）は、角運動量ｎのｉ成分の値を示すもの
である。（数式３５）は、左辺の補助積分に現れる角運
動量の１つは右辺では確実に１以上減少し、また、左辺
の補助積分の補助インデックスは右辺では同じあるいは
１だけ増加する、という性質を有している。

【００４２】補助積分［・・，・・］^(m)は、補助イン
デックスｍが０であるときに、２電子積分［・・，・
・］に正確に一致するものであり、２電子積分の計算を
補助するものである。どんなに角運動量の大きな基底関
数を含んだ２電子積分であっても、（数式３５）を繰り
返し用いて角運動量を減少させ、最後には、全て角運動
量が（０，０，０）であるような補助積分に行き着くこ
とができる。角運動量が（０，０，０）であるような補
助積分は、（数式２６）を用いて計算できるので、その
数値と適当な係数を乗じ、加算すれば２電子積分の数値
が得られる。

【００４３】実際の計算は、以下のように行う。まず、
（数式３５）に従って、２電子積分を８つ以下の補助積
分を用いた形式に表わす。ここで現れた補助積分に対し
て、さらに、（数式３５）を適用する。このような手続
きを繰り返して、全て角運動量が（０，０，０）である
ような補助積分に行き着くまでの道筋を、計算手順とし
て記録しておく。

【００４４】次に、（数式２６）を用いて角運動量が
（０，０，０）であるような補助積分を計算し、そこか
ら出発して、先ほどの計算手順をたどりながら補助積分
の数値を計算していき、最後に目的とする２電子積分の
数値を得る。

【００４５】（数式３５）が有するもう一つの重要な性
質は、２電子積分に現れる４つの角運動量の組み合わせ
が同じであれば、軌道指数や原子核座標の組み合わせが
異なっていても、上記の計算手順としては全く同じもの
を用いることができることである。計算の実行に際して
は、軌道指数や原子核座標に応じて補助積分に乗じる係
数を変えてやるだけで良い。

【００４６】［カットオフ］上述したように、計算しな
ければならない縮約基底関数で表わした２電子積分の数
は、縮約基底関数の数Ｎに対してＮ⁴となる。実際に数
値を得なければならないのは、原始基底関数で表わした
２電子積分の方であるが、その総数は、縮約基底関数で
表わした２電子積分の数の数倍から数１０倍（縮約基底
関数を構成する原始基底関数の数、すなわち縮約数に依
存する）に及ぶ。

【００４７】この個数を減らす手法として、第１に考え
られるのは、（数式１９）あるいは（数式２５）に記し
た対称性を利用することである。しかしながら、この方
法では最も効率化を行っても２電子積分の計算量は１／
８にしかならない。

【００４８】もう１つの手法は、計算精度の観点から、
不必要と判断できる２電子積分の計算を、積極的に排除
する方法である。不必要な２電子積分の判断は、以下の
ように行うことができる。

【００４９】上述したように、全ての２電子積分の数値
は、（数式２６）に示した全て角運動量が（０，０，
０）であるような補助積分［００，００］^(m)の数値に
基づいて計算される。したがって、２電子積分の数値
の、フォック行列要素の数値への寄与が計算誤差の程度
であるかどうかを、［００，００］^(m)の数値で判断す
ることが可能である。さらに、［００，００］^(m)の数
値の大きさは、（数式２９）に示した関数Ｋ（ζ，
ζ’，Ｒ，Ｒ’）の値から、さらに、それは、図２９の
（数式３７）の大きさから判断することができる。

【００５０】したがって、（ζ_ａ，Ａ，ζ_ｂ，Ｂ）の数
値の組み合わせで、（数式２５）の１つ目の関数Ｋの大
きさを見積ることで、２電子積分［ａｂ，＊＊］を計算
する必要があるかどうかを判断し、また、（ζ_ｃ，Ｃ，
ζ_ｄ，Ｄ）の数値の組み合わせで、（数式２６）の２つ
目の関数Ｋの大きさを見積ることで、２電子積分［＊
＊，ｃｄ］を計算する必要があるかどうかを判断するこ
とができる。

【００５１】このようにして、不必要な２電子積分の計
算を排除することを、「カットオフする」と呼ぶことに
する。上記の例で、ａおよびｂの情報だけから判断して
カットオフする場合には、ａｂでのカットオフ、ｃおよ
びｄの情報だけから判断してカットオフする場合には、
ｃｄでのカットオフ、と呼ぶ場合がある。このように、
ａｂだけで、あるいはｃｄだけでカットオフするかどう
かの判断ができるのは、図２９の（数式３７）の最大値
が１で下限値が０だからである。このようにカットオフ
を行うことにより、計算しなければならない２電子積分
は、概略でＮ²に比例する個数となり、計算量を大幅に
低減できる。

【００５２】上述のことから、Ｎが大きい場合には、２
電子積分の対称性を利用することによる効果よりも、カ
ットオフによる計算量低減の効果の方が桁違いに大き
く、これを取り入れることによって、非経験的分子軌道
計算におけるフォック行列の計算に要する処理時間が大
きく短縮できることがわかる。

【００５３】［分子軌道計算機システムの例］フォック
行列要素の計算を、並列計算機を用いて高速に行うシス
テムの例として、文献２（白川他，”超高速分子軌道計
算専用機ＭＯＥのアーキテクチャ”，電子情報通信学会
技術報告，ｖｏｌ．ＣＰＳＹ９６−４６，ｎｏ．５，ｐ
ｐ．４５−５０，１９９６）に記載のシステムがある。

【００５４】この文献２では、ホスト計算機に、複数個
のプロセッサエレメントをバスを介して接続して並列処
理を行うシステムが示されている。この文献２では、こ
のような構成を有する並列処理システムのアーキテクチ
ャの検討に際して、Ｒ，Ｓ，Ｔ，Ｕの４つのインデック
スで構成される４重ループのまわし方および並列化を行
う部分の種々の方法に関して、全体の計算量およびプロ
セッサエレメントに必要なメモリ量を見積っている。

【００５５】文献２に記載されている並列処理システム
は、個々のプロセッサ・エレメントが高い演算処理能力
を有する上、システム全体を低価格で実現することが可
能であるため、コストパフォーマンスの優れた計算シス
テムを提供することができる。しかしながら、文献２で
は、前述したカットオフを考慮する場合の方法や具体的
なループの制御方法への言及がなく、効率的な処理が行
えるかどうかが不明であった。

【００５６】［Ｉ．Ｆｏｓｔｅｒらの方法］フォック行
列要素の計算を、並列計算機を用いて効率的に行うアル
ゴリズムとして、文献３（Ｉ．Ｔ．Ｆｏｓｔｅｒ，ｅ
ｔ．ａｌ．，”ＴｏｗａｒｄＨｉｇｈ−Ｐｅｒｆｏｒ
ｍａｎｃｅＣｏｍｐｕｔａｔｉｏｎａｌＣｈｅｍｉ
ｓｔｒｙ：Ｉ．ＳｃａｌａｂｌｅＦｏｃｋＭａｔ
ｒｉｘＣｏｎｓｔｒｕｃｔｉｏｎＡｌｇｏｒｉｔｈ
ｍｓ”，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏ
ｎａｌＣｈｅｍｉｓｔｒｙ，ｖｏｌ．１７，ｎｏ．
１，ｐ．１０９，１９９６）に記載のアルゴリズムがあ
る。

【００５７】この文献３では、幾つかのフォック行列要
素計算アルゴリズムに関して、その計算量およびホスト
計算機と、複数のプロセッサ・エレメントとの間の通信
量を解析している。その内容を、以下に説明する。

【００５８】第１のアルゴリズムは、カノニカル法と呼
ばれる最も簡単なアルゴリズムである。この手法では、
１つのプロセッサ・エレメントに、図３０に示す（数式
３８）の関係を満たす４個の縮約基底関数Ｉ，Ｊ，Ｋ，
Ｌと、６個の密度行列要素Ｐ_IJ，Ｐ_IK，Ｐ_IL，Ｐ_JK，Ｐ
_JL，Ｐ_KLとを渡し、プロセッサエレメントには２電子積
分を計算させて、フォック行列要素Ｆ_IJ，Ｆ_IK，Ｆ_IL，
Ｆ_JK，Ｆ_JL，Ｆ_KLの一部を、図３０の（数式３９）に従
って計算させる。

【００５９】１つの２電子積分を計算する間に、ホスト
計算機とプロセッサエレメントとの間で通信される行列
要素の数を、ｐｅｒＥＲＩという単位で勘定することに
すると、この場合には、通信データ数が１２［ｐｅｒＥ
ＲＩ］となる。

【００６０】第２のアルゴリズムは、トリプルソート法
と呼ばれるアルゴリズムである。図３１の（数式４０）
の関係を満たす４個の縮約基底関数Ｉ，Ｊ，Ｋ，Ｌと、
６個の密度行列要素Ｐ_IJ，Ｐ_IK，Ｐ_IL，Ｐ_JK，Ｐ_JL，Ｐ
_KLとを、１つのプロセッサエレメントに渡し、そのプロ
セッサエレメントに３つの２電子積分Ｇ（Ｉ，Ｊ，Ｋ，
Ｌ），Ｇ（Ｉ，Ｋ，Ｊ，Ｌ），Ｇ（Ｉ，Ｌ，Ｊ，Ｋ）を
計算させて、フォック行列要素Ｆ_IJ，Ｆ_IK，Ｆ_IL，
Ｆ_JK，Ｆ_JL，Ｆ_KLの一部を、図３１の（数式４１）に従
って計算させる。

【００６１】この場合、３つの２電子積分を計算する間
に、６つの密度行列要素と、６つのフォック行列要素の
転送が必要であるので、通信データ数は、４［ｐｅｒＥ
ＲＩ］である。したがって、通信データ数の観点からカ
ノニカル法より優れていると言える。

【００６２】しかしながら、プロセッサエレメントにお
ける原始基底関数で表わした２電子積分の計算時間を、
例えば２マイクロ秒（＝１０^-6秒、以下ではμｓと記
す）と仮定し、また、縮約基底関数の平均の縮約数を
１．５と仮定し、密度行列要素やフォック行列要素が、
倍精度の浮動小数点数すなわち６４ビットのデータサイ
ズであると仮定すると、１つの縮約基底関数で表わした
２電子積分の計算時間は、約１０μｓとなり、１つのプ
ロセッサエレメント当たりで、２５．６Ｍｂｐｓ（２
５．６×１０⁶ｂｉｔｐｅｒｓｅｃｏｎｄ）の通信
性能が、ホスト計算機とプロセッサエレメントとの間で
必要とされることになる。

【００６３】計算性能を上げるために、プロセッサエレ
メント数Ｍを、例えば１００とした場合には、全体の通
信性能としては、２５６０Ｍｂｐｓが要求されることと
なるが、現在の技術で、このような通信性能を達成する
のは容易でない。

【００６４】安価な通信手段、例えばＩＥＥＥ１３９４
バス規格で定められたシリアル通信では、２００Ｍｂｐ
ｓの通信性能が実現できるが、それを用いてトリプルソ
ート法を採用したフォック行列要素並列計算を行うと、
全体の処理時間が通信時間で律速されてしまい、行列の
対称性を利用した計算時間低減の効果は得られなくなっ
てしまう。

【００６５】第３のアルゴリズムは、単純ブロック法と
呼ばれる手法である。これは、さらに、カノニカル法に
基づいたものと、トリプルソート法に基づいたものとに
細分類できる。この第３のアルゴリズムは、縮約基底関
数をブロック化しておくことにより、密度行列要素やフ
ォック行列要素の利用効率を高め、通信量を低減する手
法である。

【００６６】トリプルソート法に基づいて、その手法を
説明する。まず、Ｎ個ある縮約基底関数を、Ｉ_C個毎
に、ｎ（＝Ｎ÷Ｉ_C）個のブロックに分割する。ブロッ
クの番号を、Ｉ_B，Ｊ_B，Ｋ_B，Ｌ_Bのように表わすこ
とにする。次に、図３１の（数式４２）の関係を満たす
４個の縮約基底関数ブロックＩ_B，Ｊ_B，Ｋ_B，Ｌ
_Bと、６個の密度行列要素ブロックＰ（Ｉ_B，Ｊ_B），
Ｐ（Ｉ_B，Ｋ_B），Ｐ（Ｉ_B，Ｌ_B），Ｐ（Ｊ_B，
Ｋ_B），Ｐ（Ｊ_B，Ｌ_B），Ｐ（Ｋ_B，Ｌ_B）を、１つ
のプロセッサエレメントに渡す。渡される密度行列要素
の数は６Ｉ_C ²個となる。

【００６７】プロセッサエレメントが計算する２電子積
分は、Ｇ（Ｉ，Ｊ，Ｋ，Ｌ），Ｇ（Ｉ，Ｋ，Ｊ，Ｌ），
Ｇ（Ｉ，Ｌ，Ｊ，Ｋ）に対応する３Ｉ_C ⁴個の２電子積
分であり、プロセッサエレメントは、前述の（数式４
１）と同様に、フォック行列要素ブロックＦ（Ｉ_B，Ｊ
_B），Ｆ（Ｉ_B，Ｋ_B），Ｆ（Ｉ_B，Ｌ_B），Ｆ
（Ｊ_B，Ｋ_B），Ｆ（Ｊ_B，Ｌ_B），Ｆ（Ｋ_B，Ｌ_B）
を計算して、ホスト計算機に送り返す。

【００６８】このときに送り返されるフォック行列要素
数も、６Ｉ_C ²個である。その結果、通信データ数は、
１２Ｉ_C ²÷３Ｉ_C ⁴＝４／Ｉ_C ²［ｐｅｒＥＲＩ］と
なる。つまり、ブロック内の縮約基底関数の数を多くす
ればするほど、密度行列要素やフォック行列要素の利用
効率が高まり、通信量が低減する。なお、カノニカル法
の場合には、図３１の（数式４２）に代わり（数式４
３）を用いる。

【００６９】さらに、通信量を低減する第４の手法とし
て、列ブロック法がある。これは、単純ブロック法にお
いて、Ｉ_B，Ｊ_B，Ｋ_Bの組み合わせが同じで、Ｌ_Bだ
けが異なる計算を、全て１つのプロセッサエレメントに
割り当てる手法である。この手法のフローチャートを図
２０に示した。なお、図２０において破線で示した矢印
の部分は、その後の処理がその前の処理で律速されるの
でなく、他の処理系からの情報の入力待ちとなることを
示している。

【００７０】列ブロック法も、さらに、カノニカル法に
基づいたものとトリプルソート法に基づいたものとに細
分類できるが、トリプルソート法に基づいて、図２０の
フローチャートを参照しながら説明する。

【００７１】まず、最初に単純ブロック法と同様に、Ｎ
個ある縮約基底関数を、Ｉ_C個毎にｎ（＝Ｎ÷Ｉ_C）個
のブロックに分割する（ステップＳ１）。次に、ホスト
計算機は、特定のプロセッサエレメントに割り当てる縮
約基底関数ブロックＩ_B，Ｊ_B，Ｋ_Bの組み合わせ（Ｉ
_B，Ｊ_B，Ｋ_B）を決定する（ステップＳ２）。

【００７２】次に、ホスト計算機は、プロセッサエレメ
ントへ、前述の（数式４２）の関係を満たす３個の縮約
基底関数ブロックＩ_B，Ｊ_B，Ｋ_Bに対応して、要素数
が各々Ｉ_C×Ｉ_C個の密度行列要素ブロックＰ（Ｉ_B，
Ｊ_B），Ｐ（Ｉ_B，Ｋ_B），Ｐ（Ｊ_B，Ｋ_B）および要
素数が各々Ｋ_B×Ｉ_C×Ｉ_C個の密度行列要素ブロック
の列Ｐ（Ｉ_B，Ｌ），Ｐ（Ｊ_B，Ｌ），Ｐ（Ｋ_B，Ｌ）
を送信する（ステップＳ３およびステップＳ４）。但
し、Ｌは、１からＫ_B×Ｉ_Cの範囲の全てである。

【００７３】次に、これらをステップＳ１１およびステ
ップＳ１２で受信したプロセッサエレメントは、内部で
Ｌに関するループをまわし、単純ブロック法と同じ２電
子積分およびフォック行列要素を計算する（ステップＳ
１３）。全てのＬに対する計算が終了すると、プロセッ
サエレメントは、要素数が各々Ｋ_B×Ｉ_C×Ｉ_C個のフ
ォック行列要素ブロックの列Ｆ（Ｉ_B，Ｌ），Ｆ
（Ｊ_B，Ｌ），Ｆ（Ｋ_B，Ｌ）および要素数が各々Ｉ_C
×Ｉ_C個のフォック行列要素ブロックＦ（Ｉ_B，
Ｊ_B），Ｆ（Ｉ_B，Ｋ_B），Ｆ（Ｊ_B，Ｋ_B）をホスト
計算機に送り返す（ステップＳ１４およびステップＳ１
５）。

【００７４】ホスト計算機は、ステップＳ５およびステ
ップＳ６で、それらを受信する。そして、ステップＳ２
に戻り、以上の処理を繰り返す。

【００７５】このようにすることにより、密度行列要素
やフォック行列要素の利用効率がさらに高まり、２電子
積分１つあたりの通信データ数は、２／ＮＩ_C＋２／Ｉ
_C ²［ｐｅｒＥＲＩ］となり、Ｎ＞＞Ｉ_Cを仮定すれ
ば、単純ブロック法の約半分となる。

【００７６】さらに、プロセッサエレメント上のＩ_B，
Ｊ_B，Ｋ_Bの組み合わせを更新した際に、変化するのが
Ｋ_Bのみである場合には、行列要素ブロックＰ（Ｉ_B，
Ｊ_B），Ｆ（Ｉ_B，Ｊ_B）および行列要素ブロックの列
Ｐ（Ｉ_B，Ｌ），Ｐ（Ｊ_B，Ｌ），Ｆ（Ｉ_B，Ｌ），Ｆ
（Ｊ_B，Ｌ）は、プロセッサエレメント上に残して再利
用できるので、通信データ数はさらに減って、４／３Ｎ
Ｉ_C＋２／３Ｉ_C ²［ｐｅｒＥＲＩ］となる。

【００７７】列ブロック法と同様の思想で、さらに密度
行列要素やフォック行列要素の利用効率を高める第５の
手法として、クラスタリング法が、文献２では紹介され
ている。しかしながら、この手法は、負荷分散あるいは
スケーラビリティの観点から劣る手法であるとされてお
り、ここでは説明を省略する。

【００７８】

【発明が解決しようとする課題】［カットオフを考慮し
た場合の問題点］上述した文献３に記載されているうち
で、最も優れた第４のアルゴリズムであっても、カット
オフを考慮した場合には不都合が生じる場合がある。そ
のような例を以下に示す。なお、カットオフにより生き
残る割合をα、プロセッサエレメント数をＭ、１つの２
電子積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）当たりの計算時間をＴｅ
ｒｉ（μｓ）、行列要素のデータ長を６４ビットとす
る。

【００７９】カノニカル法の場合には、１つのプロセッ
サエレメントに割り当てられたジョブ当たりに発生する
通信量は、最低（すなわち、組み合わせの更新時に変化
するのがＫ_Bだけの場合）でも、２（２Ｉ_C ²＋Ｋ_BＩ_C ²）×６４（ｂｉｔ）となる一方、その間にプロセッサエレメントで計算され
る２電子積分の個数は、 α²Ｋ_BＩ_C ⁴ （個）なので、全体で必要な通信性能は、図３２に示す（数式
４４）のようなものとなる。

【００８０】トリプルソート法の場合には、１つのプロ
セッサエレメントに割り当てられたジョブ当たりに発生
する通信量は、最低（すなわち、組み合わせの更新時に
変化するのがＫ_Bだけの場合）でも、２（２Ｉ_C ²＋Ｋ_BＩ_C ²）×６４（ｂｉｔ）となる一方、その間にプロセッサエレメントで計算され
る２電子積分の個数は、３α²Ｋ_BＩ_C ⁴ （個）なので、全体で必要な通信性能は、図３２に示す（数式
４５）のようなものとなる。

【００８１】並列処理のプロセッサ・エレメント数Ｍを
１００、プロセッサエレメントにおける原始基底関数で
表わした２電子積分ｇ（ｉ，ｊ，ｋ，ｌ）の計算時間が
２μｓ、縮約基底関数の平均縮約数を１．５（従って、
２電子積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）１つ当たりの計算時間
Ｔｅｒｉを１０μｓ）、カットオフにより生き残る割合
αを０．０５、とした場合に、必要とされるホスト計算
機とプロセッサエレメントとの間の通信性能のブロック
サイズＩ_Cに対する依存性を計算すると、カノニカルの
場合には、図２１に示すように、トリプルソートの場合
には、図２２に示すようになる。

【００８２】カノニカルの場合にも、また、トリプルソ
ートの場合にも、必要な通信性能はＫ_Bの値に依存して
変化するが、Ｋ_B＞１００ではその変化量が小さく、実
際の通信性能に応じて、ブロックサイズＩ_Cを、カノニ
カルの場合なら、例えば５０に、トリプルソートの場合
であれば、例えば３０に、それぞれ設定することが可能
である。

【００８３】文献３で前提としているような、十分に大
きなデータ保持容量を有するワークステーションを、多
数台用いるシステムでは、このような方法で計算を行う
ことが可能であるが、そのようなシステムを構成するに
は、多大な費用が必要である。

【００８４】一方、文献２にあるような、せいぜい数１
０Ｍビット程度の小さな容量のメモリが接続される安価
な専用プロセッサ・エレメントを用いた計算システムで
は、列単位で保持できる行列要素は１０列以下、すなわ
ち、許されるブロックサイズは２から３程度までであ
る。

【００８５】この場合には、図２１あるいは図２２の結
果から、通信の手段としてＩＥＥＥ１３９４バス規格で
定められているような安価なシリアル通信を用いた場合
には、その性能が２００Ｍｂｐｓであることを考慮する
と、通信性能が律速しない効率的な処理を行うことが不
可能である。

【００８６】この発明は、以上のような点にかんがみ、
安価な通信手段と小容量のメモリを有する多数のプロセ
ッサ・エレメントを用いた並列計算によっても、ホスト
計算機とプロセッサ・エレメントとの間の通信性能に律
速されることなく、効率的に行列要素計算を行える並列
処理方法を提供することを目的とする。

【００８７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１の発明の並列処理方法は、同じ１からＮ
（Ｎは正の整数）の範囲にある４つの整数型の変数Ｒ，
Ｓ，Ｔ，Ｕを用いて表わされ、Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）＝
Ｇ（Ｒ，Ｓ，Ｕ，Ｔ）＝Ｇ（Ｓ，Ｒ，Ｔ，Ｕ）＝Ｇ
（Ｓ，Ｒ，Ｕ，Ｔ）＝Ｇ（Ｔ，Ｕ，Ｒ，Ｓ）＝Ｇ（Ｔ，
Ｕ，Ｓ，Ｒ）＝Ｇ（Ｕ，Ｔ，Ｒ，Ｓ）＝Ｇ（Ｕ，Ｔ，
Ｓ，Ｒ）なる関係を満たす関数Ｇの関数値Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）と；２つの変数Ｔ，Ｕを用いて表わされ、Ｐ
（Ｔ，Ｕ）＝Ｐ（Ｕ，Ｔ）なる関係を満たす行列Ｐの要
素Ｐ（Ｔ，Ｕ）と；係数Ａ１との積Ａ１・Ｐ（Ｔ，Ｕ）
・Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）についての前記範囲の全てのＴ
およびＵに関する総和Ｆ１（Ｒ，Ｓ）と、前記関数値Ｇ
（Ｒ，Ｕ，Ｔ，Ｓ）と；前記行列要素Ｐ（Ｔ，Ｕ）と；
係数Ａ２との積Ａ２・Ｐ（Ｔ，Ｕ）・Ｇ（Ｒ，Ｕ，Ｔ，
Ｓ）に関する前記範囲の全てのＴおよびＵにおける総和
Ｆ２（Ｒ，Ｓ）との和Ｆ（Ｒ，Ｓ）＝Ｆ１（Ｒ，Ｓ）＋
Ｆ２（Ｒ，Ｓ）を要素とする行列Ｆの全要素の計算を、
ホスト計算機と、１つまたは複数個のプロセッサエレメ
ントとを有する並列処理装置を用いて行う並列処理方法
において、前記変数Ｒ，Ｓ，Ｔ，Ｕについて、３重ルー
プを形成し、前記３重ループの最も外側のループは、Ｒ
≦ＮおよびＴ≦Ｒなる関係を満たす変数Ｒと変数Ｔとの
組み合わせに関するループとし、前記最も外側のループ
の内側の２番目は前記変数Ｓに関するループ、前記２番
目よりも内側の３番目は前記変数Ｕに関するループとす
るか、あるいは前記２番目は変数Ｕに関するループ、前
記３番目は変数Ｓに関するループとし、前記変数Ｓのと
りうる値の範囲を１からＲの間とし、前記変数Ｕのとり
うる値の範囲を１からＲの間とし、前記３番目のループ
の内側で、所定の前記関数値Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）の計
算およびその計算結果を用いた所定の前記行列要素Ｆの
一部の計算を行うものであって、前記２番目および３番
目のループをひとまとまりとして１つのジョブ単位を形
成し、前記ジョブ単位毎に前記複数のプロセッサエレメ
ントに処理させることを特徴とする。

【００８８】また、請求項２の発明の並列処理方法は、
Ｎ個（Ｎは正の整数）の縮約シェルを用いて表現される
分子のエネルギーを計算する分子軌道計算を、ホスト計
算機と、１つまたは複数個のプロセッサエレメントとを
有する並列処理装置を用いて行う並列処理方法におい
て、縮約シェルＲ，Ｓ，Ｔ，Ｕのそれぞれに含まれる原
始シェルｒ，ｓ，ｔ，ｕのそれぞれの成分である原始基
底関数ｉ，ｊ，ｋ，ｌをインデックスとして用いて表わ
される２電子積分関数ｇの関数値ｇ（ｉ，ｊ，ｋ，ｌ）
と；前記原始基底関数ｋをひとつの構成要素とする縮約
基底関数Ｋおよび前記原始基底関数ｌをひとつの構成要
素とする縮約基底関数Ｌとをインデックスとして用いて
表わされる密度行列Ｐの要素Ｐ（Ｋ，Ｌ）と；係数Ａ１
との積Ａ１・Ｐ（Ｋ，Ｌ）・ｇ（ｉ，ｊ，ｋ，ｌ）の全
ての縮約基底関数に関する総和ｆ１（Ｉ，Ｊ）と、前記
２電子積分関数の関数値ｇ（ｉ，ｋ，ｊ，ｌ）と；前記
密度行列Ｐの要素Ｐ（Ｋ，Ｌ）と；係数Ａ２との積Ａ２
・Ｐ（Ｋ，Ｌ）・ｇ（ｉ，ｋ，ｊ，ｌ）の全ての縮約基
底関数に関する総和ｆ２（Ｉ，Ｊ）との和ｆ（Ｉ，Ｊ）
＝ｆ１（Ｉ，Ｊ）＋ｆ２（Ｉ，Ｊ）の、前記原始基底関
数ｉ，ｊをひとつの構成要素とする前記縮約基底関数
Ｉ，Ｊに含まれる全ての前記原始基底関数に関する和で
表わされるフォック行列Ｆの全ての行列要素Ｆ（Ｉ，
Ｊ）の計算を、最も外側のループは、Ｒ≦ＮおよびＴ≦
Ｒなる関係を満たす前記縮約シェルＲとＴとの組み合わ
せに関するループとし、前記最も外側のループの内側の
２番目は前記縮約シェルＳに関するループ、前記２番目
よりも内側の３番目は前記縮約シェルＵに関するループ
とするか、あるいは前記２番目は前記縮約シェルＵに関
するループ、前記３番目は前記縮約シェルＳに関するル
ープとし、前記縮約シェルＳのとりうる値の範囲を１か
らＲの間とし、前記縮約シェルＵのとりうる値の範囲を
１からＲの間とし、前記３番目のループの内側で、所定
の２電子積分の計算およびその結果を用いた所定のフォ
ック行列要素の一部の計算を行うものであって、前記２
番目および３番目のループをひとまとまりとして１つの
ジョブ単位を形成し、前記ジョブ単位毎に前記複数のプ
ロセッサ・エレメントに処理を割り当てることを特徴と
する。

【００８９】

【作用】上述の構成の請求項１の発明、請求項２の発明
を用いて、フォック行列計算アルゴリズムを行うと、カ
ットオフを考慮して２電子積分の計算数を減少させる場
合においても、ホスト計算機とプロセッサエレメントと
の間の通信性能およびホスト計算機の処理性能に律速さ
れることのない効率的な並列計算によって、フォック行
列を高速に計算することができる。

【００９０】

【発明の実施の形態】以下、この発明の実施の形態を、
図を参照しながら説明する。以下に説明する実施の形態
では、図１に示すような安価な計算機システムを用い
る。

【００９１】すなわち、図１は、この実施の形態の並列
計算システムの全体の構成を示すもので、ホスト計算機
１に対して、バス３を通じて、複数個のプロセッサエレ
メント２が接続されている。バス３としては、例えばＩ
ＥＥＥ１３９４シリアルバスが用いられる。

【００９２】なお、各プロセッサエレメント２のメモリ
容量は、数１０Ｍビット、例えば２０Ｍビットであり、
行列要素が６４ビットの浮動小数点数で表わされる密度
行列およびフォック行列のサイズが、１００００×１０
０００であっても、各行列の１０列分は十分格納できる
容量のものが用いられる。この程度の容量のメモリを各
プロセッサエレメントに持たせることは、現在の技術で
十分に可能である。

【００９３】まず、この実施の形態における行列要素計
算方法と比較するために、従来例のトリプルソート法に
おける全体の計算アルゴリズムを、プログラムコードの
形式で表わしたものを図２に示す。

【００９４】図２で、Ｎｓｈｅｌｌは縮約シェルの総数
を表わす整数型の変数、Ｒ，Ｓ，Ｔ，Ｕは縮約シェル番
号に用いる整数型の変数、Ｉ，Ｊ，Ｋ，Ｌは縮約基底番
号に用いる整数型の変数、Ｇ＿ＩＪＫＬ，Ｇ＿ＩＫＪ
Ｌ，Ｇ＿ＩＬＪＫは２電子積分の数値に用いる実数型の
変数、Ｆ，Ｐはフォック行列および密度行列に用いる実
数型の２次元配列である。

【００９５】また、ここでは、縮約基底が通し番号で番
号付けされていること、および同一の縮約シェルを構成
する縮約基底の番号が連続していることを前提として、
ｂ＿ｂａｓｉｓおよびｅ＿ｂａｓｉｓは、その引数とな
っている番号に相当する縮約シェルを構成する縮約基底
の番号の始まりと終わりをリターン値とする整数型の関
数である。さらに、Ｇは、その引数となっている４つの
番号Ｉ，Ｊ，Ｋ，Ｌに対応する縮約基底で一意的に決ま
る２電子積分を、前述の（数式２３）に従って計算する
実数型の関数である。

【００９６】さて、この図２に示す従来例のトリプルソ
ート法では、縮約シェルの計算に関する４重ループのう
ちの最も内側で行われるフォック行列要素への足し込み
の計算において、密度行列要素Ｐ［Ｉ］［Ｊ］，Ｐ
［Ｉ］［Ｋ］，Ｐ［Ｉ］［Ｌ］，Ｐ［Ｊ］［Ｋ］，Ｐ
［Ｊ］［Ｌ］，Ｐ［Ｋ］［Ｌ］が用いられている。

【００９７】したがって、縮約シェルに関する４重ルー
プをどのような順序で形成しても、ホスト計算機１から
密度行列要素がプロセッサ・エレメント２に送信される
頻度を、１つの２電子積分計算あたりの行列要素数で表
わすと、それは１のオーダー（トリプルソート法では正
確には１／３）となる。

【００９８】前述した従来例におけるブロック法は、行
列要素の再利用性を高めて密度行列要素が送信される頻
度を１より小さい定数倍にするものであった。ここで、
その定数は、ブロックサイズの２乗に反比例するもので
ある。図１に示すような安価なシステムを前提とした場
合には、プロセッサエレメント２のメモリの容量の大き
さで上限が規定されて、ブロックサイズを大きくできな
いため、密度行列要素が送信される頻度が、１よりも大
して小さくならなかった。

【００９９】また、計算の結果として得られるフォック
行列要素は、Ｆ［Ｉ］［Ｊ］，Ｆ［Ｉ］［Ｋ］，Ｆ
［Ｉ］［Ｌ］，Ｆ［Ｊ］［Ｋ］，Ｆ［Ｊ］［Ｌ］，Ｆ
［Ｋ］［Ｌ］であり、プロセッサ・エレメント２からホ
スト計算機１へフォック行列要素が送信される頻度は、
密度行列の場合と全く同様であった。さらに、カットオ
フを考慮した場合には、カットオフにより生き残る割合
αの２乗に反比例して通信の頻度が高くなるという問題
があった。

【０１００】この発明の実施の形態のアルゴリズムで
は、カットオフにより生き残る割合αに対する通信の頻
度の依存性を弱くし、通信量を低く保つことが可能であ
る。この実施の形態の計算アルゴリズムをプログラムコ
ードの形式で表わしたものを図３に示す。

【０１０１】すなわち、図３のアルゴリズムでは、最も
外側のループはＲ≦ＮｓｈｅｌｌおよびＲ≧Ｔなる関係
を満たす縮約シェルＲとＴとの組み合わせ（ＲＴ）に関
するループとしている。そして、２番目は縮約シェルＳ
に関するループ、３番目は縮約シェルＵに関するループ
としている。この場合、Ｓのとりうる値の範囲は１から
Ｒの間とし、また、Ｕのとりうる値の範囲も１からＲの
間とする。さらに、３番目のループの内側で、関数値Ｇ
（Ｒ，Ｓ，Ｔ，Ｕ）の計算およびその結果を用いた所定
の行列要素Ｆの一部の計算を行うようにしている。

【０１０２】なお、２番目はＵに関するループ、３番目
はＳに関するループとするようにしてもよい。すなわ
ち、図３では、Ｕに関するループが、Ｓに関するループ
の内側に形成されているが、このループの順序は逆でも
良い。

【０１０３】そして、ＲとＴとが固定された２番目およ
び３番目の２つのループをひとまとまりとして一つのジ
ョブ単位を形成し、このジョブ単位毎に複数のプロセッ
サエレメント２に処理させるようにする。

【０１０４】このとき、ホスト計算機１は、全ての行列
要素Ｐの初期値の計算と、プロセッサエレメントと共に
行うＳＣＦ計算と、このＳＣＦ計算を継続するかどうか
の決定などを行う。ＳＣＦ計算に当たって、ホスト計算
機１は、複数個のプロセッサエレメント２に対するＲと
Ｔとが固定されたジョブ単位の割り当て決定と、プロセ
ッサエレメントに対して送信すべき行列Ｐの一部の行列
要素の選択と、選択された行列要素のプロセッサエレメ
ントに対する送信と、プロセッサエレメントから送信さ
れてきた行列Ｆの一部の行列要素の受信と、行列Ｆを用
いた行列Ｐの更新とを行う。

【０１０５】一方、プロセッサエレメント２は、ホスト
計算機から送信された行列Ｐの一部の行列要素の受信
と、縮約シェルＳに関するループの制御および縮約シェ
ルＵに関するループの制御と、関数Ｇ（Ｒ，Ｓ，Ｔ，
Ｕ）または関数ｇ（ｉ，ｊ，ｋ，ｌ）の計算と、行列Ｆ
の一部の行列要素の計算と、行列Ｆの一部の行列要素の
ホスト計算機に対する送信とを行う。

【０１０６】この実施の形態では、ホスト計算機１とプ
ロセッサ・エレメント２との間で通信される密度行列要
素およびフォック行列要素を、Ｐ［Ｉ］［Ｊ］，Ｐ
［Ｉ］［Ｌ］，Ｐ［Ｊ］［Ｋ］，Ｐ［Ｋ］［Ｌ］および
Ｆ［Ｉ］［Ｊ］，Ｆ［Ｉ］［Ｌ］，Ｆ［Ｊ］［Ｋ］，Ｆ
［Ｋ］［Ｌ］だけにし、また、プロセッサ・エレメント
２で計算する２電子積分を、Ｇ＿ＩＪＫＬだけにした。
この実施の形態の場合、行列要素の通信頻度は、１／Ｎ
のオーダーである。

【０１０７】ここで、図３の計算アルゴリズムで行列要
素の通信頻度を１／Ｎのオーダーとすることが可能な理
由を説明する。

【０１０８】前述したように、図３において、最も外側
のループは、縮約シェルＲとＴの組み合わせ（以下では
ＲＴペアと記す）の番号ＲＴに関するループである。Ｒ
とＴの組み合わせの総数は、Ｎｓｈｅｌｌ×（Ｎｓｈｅ
ｌｌ＋１）／２である。以下の説明ではＲ≧Ｔを前提と
する。したがって、Ｒの取りうる範囲は、１からＮｓｈ
ｅｌｌまで、Ｔの取りうる範囲は、１からＲまでであ
る。

【０１０９】図３では、表記を簡略にするために、ＲＴ
に関しては、１からＮｓｈｅｌｌ×（Ｎｓｈｅｌｌ＋
１）／２まで、ＳおよびＵに関しては、１からＲまで、
それぞれ番号の小さい順番にループを回すようにしてい
るが、必ずしもこのような順序でループを回す必要はな
い。また、ＳおよびＵに関しては、１からＲまでの全て
の値を取る必要はない。

【０１１０】縮約シェルＵに関するループの内部では、
縮約基底Ｉ，Ｊ，Ｋ，Ｌに関する４重ループとなってお
り、その内部で２電子積分の計算を行い、また、Ｉ，
Ｊ，Ｋ，Ｌ相互の関係に依存した条件に従ったフォック
行列の足し込み計算を行なうアルゴリズムとなってい
る。上記の条件分岐により、（数式１５）に示したフォ
ック行列要素の計算を、過不足なく計算することが可能
となる。

【０１１１】前述したように、図３のアルゴリズムで、
縮約シェルＲおよびＴに関するループの制御はホスト計
算機１で行い、縮約シェルＳに関するループより内側は
プロセッサエレメント２で行う。すなわち、各プロセッ
サエレメント２には、縮約シェルＲとＴの組み合わせ
（ＲＴペア）が固定されたジョブが割り当てられる。あ
るＲＴペアが固定されたジョブが割り当てられたプロセ
ッサ・エレメント２において、使用する密度行列要素
は、Ｐ［Ｉ］［Ｊ］，Ｐ［Ｉ］［Ｌ］，Ｐ［Ｊ］
［Ｋ］，Ｐ［Ｋ］［Ｌ］である。

【０１１２】ここで、ＩおよびＫは、それぞれ縮約シェ
ルＲおよびＴを形成する縮約基底であるので、ジョブが
割り当てられた時点で、これらは数個（縮約シェルがｓ
軌道の場合には１個、ｐ軌道の場合には３個、ｄ軌道の
場合には６個）に固定される。ＪおよびＬは任意であ
る。

【０１１３】したがって、ＲＴペアに関するジョブのた
めに、ホスト計算機１からプロセッサエレメント２に送
信する密度行列要素数は、Ｎの定数倍のオーダーであ
る。フォック行列に関しても同様である。プロセッサエ
レメント２には、これら全てを保持することができるだ
けの容量のメモリを有している。

【０１１４】一方、ＲＴペアが固定されたジョブが割り
当てられたプロセッサエレメントでは、縮約シェルＳお
よびＵに関するループが回るので、そこで計算される２
電子積分の個数は、Ｎ²のオーダーとなる。したがっ
て、１つの２電子積分当たりに換算した通信の頻度は１
／Ｎとなる。

【０１１５】このように、複数のプロセッサエレメント
２へのジョブ割り当てが、ＲＴペア単位で行われること
から、この発明のアルゴリズムを、ＲＴ並列アルゴリズ
ムと呼ぶことにする。

【０１１６】ＲＴ並列アルゴリズムでカットオフを考慮
する場合には、プロセッサエレメント２で計算する２電
子積分の個数は、カットオフにより生き残る割合αの２
乗に比例して減少する。一方、計算に用いる密度行列要
素および計算されるフォック行列要素も、カットオフに
より生き残る割合αに比例して減少させることができ
る。この理由を以下に説明する。

【０１１７】プロセッサエレメント２に割り当てるＲＴ
ペアを決めた時点で、ホスト計算機１は、ＩＪペアでカ
ットオフされないＪ、およびＫＬペアでカットオフされ
ないＬをリストアップできる。

【０１１８】したがって、ホスト計算機１は、Ｉが固定
された１列の密度行列要素Ｐ［Ｉ］［Ｊ］の中からＩＪ
ペアでカットオフされないＪに対応するものだけを、Ｋ
が固定された１列の密度行列要素Ｐ［Ｋ］［Ｊ］の中か
らＩＪペアでカットオフされないＪに対応するものだけ
を、Ｉが固定された１列の密度行列要素Ｐ［Ｉ］［Ｌ］
の中からＫＬペアでカットオフされないＬに対応するも
のだけを、Ｋが固定された１列の密度行列要素Ｐ［Ｋ］
［Ｌ］の中からＫＬペアでカットオフされないＬに対応
するものだけを、それぞれ選び出して送信することが可
能である。そのため、ホスト計算機１から送信される密
度行列要素数は、αに比例して減少する。

【０１１９】また、プロセッサエレメント２は、Ｉが固
定された１列のフォック行列要素Ｆ［Ｉ］［Ｊ］のう
ち、ＩＪペアでカットオフされないＪに対応するものだ
けを、Ｋが固定された１列のフォック行列要素Ｆ［Ｋ］
［Ｊ］のうち、ＩＪペアでカットオフされないＪに対応
するものだけを、Ｉが固定された１列のフォック行列要
素Ｆ［Ｉ］［Ｌ］のうち、ＫＬペアでカットオフされな
いＬに対応するものだけを、Ｋが固定された１列のフォ
ック行列要素Ｆ［Ｋ］［Ｌ］のうちＫＬペアでカットオ
フされないＬに対応するものだけを、それぞれ計算す
る。

【０１２０】プロセッサエレメント２からホスト計算機
１へは、計算されたフォック行列要素のみを送信すれば
よいので、プロセッサエレメント２からホスト計算機１
へ送信されるフォック行列要素数も、カットオフにより
生き残る割合αに比例して減少する。

【０１２１】したがって、カットオフを考慮した計算を
行う場合においては、１つの２電子積分当たりに換算し
た通信の頻度は、カットオフにより生き残る割合αに反
比例して増加するが、それは、αの２乗に反比例して増
加する従来例と比較して、実用上の大きな利点となる。

【０１２２】次に、プロセッサエレメントの数をＭ、１
つの２電子積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）当たりの計算時間
をＴｅｒｉ（μｓ）、１つの縮約シェルを構成する平均
の縮約基底数をａ、行列要素のデータ長を６４ｂｉｔと
して、必要な通信性能を定式化する。

【０１２３】密度行列要素ブロックＰ（Ｒ，Ｓ）が、縮
約シェルＲを構成する任意の縮約基底Ｉと縮約シェルＳ
を構成する任意の縮約基底Ｊとの組み合わせで表わされ
る密度行列要素Ｐ（Ｉ，Ｊ）の集合であるとすると、そ
の密度行列要素ブロックの要素数は、約ａ²となる。密
度行列要素ブロックＰ（Ｒ，Ｓ）は、Ｓ＝１から、Ｓ＝
Ｒまでの範囲のうち、ＲＳの組み合わせでのカットオフ
で生き残るもの全てが、ホスト計算機１からプロセッサ
エレメント２へ転送される。したがって、その要素数
は、ａ²×ａＲ×α個となる。

【０１２４】他の密度行列要素ブロックＰ（Ｒ，Ｕ），
Ｐ（Ｔ，Ｓ），Ｐ（Ｔ，Ｕ）に関しても、概略で同じ要
素数となる。また、プロセッサエレメント２からホスト
計算機１へ送信するフォック行列要素数は、密度行列要
素数と全く同じである。したがって、１つのジョブ当た
りのホスト計算機１とプロセッサエレメント２との間の
通信データ量は、８αａ³Ｒ×６４（ビット）となる。

【０１２５】一方、１つのジョブ当たりで計算される２
電子積分の個数は、概略で、 α²ａ⁴Ｒ²（個）なので、全体で必要な通信性能は、図３２の（数式４
６）に示すようなものと見積もられる。

【０１２６】プロセッサエレメント２の数Ｍを１００、
プロセッサエレメント２における原始基底関数で表わし
た２電子積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）当たりの計算時間Ｔ
ｅｒｉを１０（μｓ）、１つの縮約シェルを構成する平
均の縮約基底数ａを３、カットオフによる生き残り割合
αを０．０５とした場合に、必要な通信性能のＲに対す
る依存性を図４に示す。

【０１２７】この図４からわかるように、縮約シェルＲ
が小さいごく一部の範囲では、必要な通信性能が１００
Ｍｂｐｓを超えるが、他の殆どの領域では１００Ｍｂｐ
ｓの通信性能があれば、十分に通信時間を計算時間でカ
バーできることがわかる。

【０１２８】一定のＲに対するジョブ数が、Ｒ²に比例
することを考慮すると、通信時間が計算時間を上回る可
能性は、ごくわずかとなる。したがって、この実施の形
態のＲＴ並列アルゴリズムは、１００Ｍｂｐｓ程度の通
信性能の、安価な通信手段を用いても、システム全体の
処理効率を低下させることのない、効率的なアルゴリズ
ムとなっている。

【０１２９】［より具体的な説明］以下では、この発明
の実施の形態の並列処理方法の詳細を、より具体的に説
明する。

【０１３０】［ホスト計算機１の処理手順］図５は、こ
の発明の実施の形態の並列処理方法を説明するフローチ
ャートである。ホスト計算機１とプロセッサエレメント
２とでは異なる処理を行うため、それぞれについてフロ
ーチャートを併記した。

【０１３１】また、プロセッサエレメント２は、並列に
複数（典型的には１００個）がホスト計算機１に接続さ
れていることを前提としているが、それらは同様のフロ
ーチャートに従って動作し、また、それらの間のデータ
の相関はないので、代表として１つのプロセッサエレメ
ント２における処理フローを表記した。なお、図５にお
いて、破線で示した矢印の部分は、その後の処理が、そ
の前の処理で律速されるのでなく、他の処理系からの情
報の入力待ちとなることを示している。

【０１３２】まず、ホスト計算機１の処理手順を説明す
る。ホスト計算機１は、係数行列の初期設定（ステップ
Ｓ１０１）を行った後、（数式１８）に従って係数行列
から密度行列を計算する（ステップＳ１０２）。次に、
特定のプロセッサエレメント２に割り当てる縮約シェル
番号ＲとＴの組み合わせ、すなわち（ＲＴ）ペア番号を
決める（ステップＳ１０３）。（ＲＴ）ペア番号の割り
当て順序は任意であり、ランダムに決めても良いし、あ
る一定の規則に従って決めても良い。

【０１３３】次に、（ＲＴ）ペア番号に対応する密度行
列情報を、その（ＲＴ）ペア番号が割り当てられたプロ
セッサエレメントに対して送信する（ステップＳ１０
４）。送信される密度行列情報は、カットオフ条件を考
慮して作成されるが、そのときにホスト計算機１が行う
処理内容に関しては後述する。

【０１３４】プロセッサエレメント２は、このホスト計
算機からの密度行列情報を受信し、受信バッファメモリ
に格納する（ステップＳ２０１）。そして、割り当てら
れた（ＲＴペア）のジョブについて、縮約シェルＳ，Ｕ
に関するループを制御して、フォック行列要素の計算を
行う（ステップＳ２０２）。そして、計算が終了する
と、求めたフォック行列情報を送信バッファメモリに格
納し、その送信バッファメモリからホスト計算機１に、
その求めたフォック行列情報を送信する（ステップＳ２
０３）。

【０１３５】ホスト計算機１は、以上のようにして、あ
るプロセッサエレメント２での処理が終了して、そのプ
ロセッサエレメント２からフォック行列情報を受信する
と（ステップＳ１０５）、そのプロセッサエレメント２
に対する全てのプロセッサ・エレメントに対する（Ｒ
Ｔ）ペア番号の割り当てと密度行列情報の送信が終了し
かたどうか判断し（ステップＳ１０７）、終了していな
ければ、ステップＳ１０３に戻って、新たな（ＲＴ）ペ
ア番号の割り当てを決め、その（ＲＴ）ペア番号に対応
する密度行列情報を、そのプロセッサエレメント２に送
信する。

【０１３６】同様の操作を繰り返して、ホスト計算機１
は、全てのプロセッサエレメントに対する（ＲＴ）ペア
番号の割り当てと密度行列情報の送信を行い、プロセッ
サエレメントからのフォック行列の受信を待つ。

【０１３７】ステップＳ１０６で、全ての（ＲＴ）ペア
番号の処理が終了したと判断すると、ホスト計算機１
は、収集したフォック行列情報をもとに、図２６の（数
式１４）を解き、新たな係数行列を計算する（ステップ
Ｓ１０７）。そして、新たな係数行列とその直前の係数
行列とを比較して、自己無撞着な解が得られたかどうか
判断する（ステップＳ１０８）。そして、両者が十分良
く一致していれば、自己無撞着な解が得られたと判断
し、計算を終了する。そうでなければ、ステップＳ１０
８からステップＳ１０２に戻り、（数式１８）に従って
新たな密度行列を生成し、同様の操作を繰り返す。

【０１３８】ここで、ホスト計算機１におけるカットオ
フ処理について説明を加える。

【０１３９】縮約シェルＲが与えられ、その原子核座標
を、その縮約シェルＲを構成する原始基底の軌道指数の
最小値をζ_A、その原始基底をｉとする。また、任意の
縮約シェルＳの原子核座標を、その縮約シェルＳを構成
する原始基底の軌道指数の最小値をζ_B、その原始基底
をｊとする。

【０１４０】従来の技術の欄で記したように、任意の原
始基底ｋ，ｌに対して、２電子積分ｇ（ｉ，ｊ，ｋ，
ｌ）をカットオフできるかどうかが、（ζ_A，Ａ，
ζ_B，Ｂ）の数値の組み合わせによって判断できる。例
えば、図３２の（数式４７）を満足するかどうかを判定
し、この（数式４７）の不等式が成り立っていれば、カ
ットオフできると判断する。

【０１４１】それぞれ同じ縮約シェルに属する任意の２
つの原始基底の組み合わせで考えると、これらの軌道指
数は、上記のものよりも大きいため、その組み合わせで
計算した指数関数の数値は、上記のものよりも必ず小さ
くなる。

【０１４２】したがって、この最小の軌道指数の組み合
わせでカットオフできると判断された場合、縮約シェル
Ｒを構成する任意の原始基底と、縮約シェルＳを構成す
る任意の原始基底との組み合わせで、必ずカットオフで
きることになる。

【０１４３】このように、縮約シェルＳとして全ての縮
約シェルを当てはめて判定を行い、縮約シェルＲとのペ
アでのカットオフに生き残る縮約シェルの番号を１つの
集合とすることができる。

【０１４４】ホスト計算機１は、ＳＣＦ計算の開始前
に、全ての縮約シェルに対して、それとのペアでのカッ
トオフに生き残る番号の集合を、データベースとして作
成しておく。これを、この実施の形態では、カットオフ
テーブルと呼ぶことにする。

【０１４５】図６に、このカットオフテーブルの一例を
示す。この例において、例えば、番号が１の縮約シェル
が、Ｒとして選ばれた（Ｒ＝１）場合、カットオフで生
き残る縮約シェルＳの番号は１，２，３，５となる。但
し、ＲＴ並列アルゴリズムで、プロセッサエレメント２
において計算が行われるのは、Ｓ≦Ｒの場合のみである
ので、Ｒ＝１が割り当てられたプロセッサエレメント２
で計算が行われるＳの番号は、１のみとなる。

【０１４６】別の例として、Ｒ＝４の場合を考えると、
カットオフで生き残り、しかも、Ｓ≦Ｒを満たすＳの番
号は、２，３，４となる。

【０１４７】図６のカットオフテーブルは、ＴＵの組み
合わせにおけるカットオフ判断にも全く同様に用いるこ
とができる。例えば、Ｔ＝１の縮約シェルに対して、カ
ットオフで生き残る縮約シェルＵの番号は、１，２，
３，５である。ただし、ＲＴ並列アルゴリズムで、プロ
セッサエレメント２において計算が行われるのは、Ｕ≦
Ｒの場合であるので、Ｔ＝１とともに、プロセッサエレ
メント２に割り当てられたＲの番号に依存して、プロセ
ッサエレメント２で計算が行われるＵの番号は変わる。

【０１４８】例えば、Ｒ＝１０であれば、Ｕとして、
１，２，３，５が用いられるし、Ｒ＝２ならば、Ｕとし
て、１，２が用いられる。

【０１４９】さて、ＳＣＦ計算が開始され、あるプロセ
ッサエレメント２に割り当てるＲＴペア番号が決まる
と、ホスト計算機１は、このカットオフテーブルを参照
しながら密度行列情報を作成する。

【０１５０】縮約シェルＲ，Ｓ，Ｔ，Ｕを構成する縮約
基底を、Ｉ，Ｊ，Ｋ，Ｌで、それぞれ表わすことにする
と、ホスト計算機１からプロセッサエレメント２へ送信
する密度行列は、Ｐ（Ｉ，Ｊ），Ｐ（Ｉ，Ｌ），Ｐ
（Ｋ，Ｌ），Ｐ（Ｋ，Ｊ）であり、また、プロセッサエ
レメント２で計算される２電子積分は、Ｇ（Ｉ，Ｊ，
Ｋ，Ｌ）である。

【０１５１】Ｐ（Ｉ，Ｊ）が必要かどうかは、Ｇ（Ｉ，
Ｊ，Ｋ，Ｌ）が、カットオフで生き残るかどうかに依存
し、従って、カットオフテーブルに記述されている番号
から、Ｓとして用いられる番号をリストアップし、それ
らの縮約シェルを構成する縮約基底をＪとしてＰ（Ｉ，
Ｊ）を選び出せば良い。

【０１５２】このように、Ｊに対して、Ｇ（Ｉ，Ｊ，
Ｋ，Ｌ）がカットオフで生き残るかどうかは、ＲＳの組
み合わせでカットオフされないかどうかで決まるので、
Ｐ（Ｋ，Ｊ）が必要かどうかも全く同様に決めることが
できる。すなわち、Ｐ（Ｉ，Ｊ）とＰ（Ｋ，Ｊ）とで
は、送信すべきＪの番号の集合は全く同じである。

【０１５３】したがって、Ｓ≦Ｒを満たすＲ個の縮約シ
ェルの中で、ＲＳの組み合わせで生き残るＮｖ個の縮約
シェルの集合を、Ｖ＝｛Ｖ［１］，Ｖ［２］，・・・，
Ｖ［Ｎｖ］｝とすると、Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）に
係わるものとして、Ｖの要素の個数Ｎｖと、Ｖの要素す
なわちＶ［１］，Ｖ［２］，・・・，Ｖ［Ｎｖ］と、Ｖ
［ｘ］（ｘ＝１〜Ｎｖ）に係わる密度行列データブロッ
クとを、ホスト計算機１からプロセッサエレメント２へ
送信する密度行列情報に含めれば良い。

【０１５４】ここで、Ｖ［ｘ］に係わる密度行列データ
ブロックの内容は、縮約シェルＲを構成する全ての縮約
基底Ｉと縮約シェルＶ［ｘ］とを構成する全ての縮約基
底Ｍの任意の組み合わせに対するＰ（Ｉ，Ｍ）の数値、
および縮約シェルＴを構成する全ての縮約基底Ｋと縮約
シェルＶ［ｘ］とを構成する全ての縮約基底Ｍの任意の
組み合わせに対するＰ（Ｋ，Ｍ）の数値であれば良い。

【０１５５】全く同様に、用いられる縮約シェルＵの番
号を、カットオフテーブルからリストアップし、プロセ
ッサエレメント２で用いられるＰ（Ｉ，Ｌ），Ｐ（Ｋ，
Ｌ）を選び出すことが可能である。

【０１５６】Ｕ≦Ｒを満たすＲ個の縮約シェルの中でＴ
Ｕの組み合わせで生き残るＮｗ個の縮約シェルの集合
を、Ｗ＝｛Ｗ［１］，Ｖ［２］，・・・，Ｗ［Ｎｗ］｝
とすると、Ｐ（Ｉ，Ｌ），Ｐ（Ｋ，Ｌ）に係わるものと
して、Ｗの要素の個数Ｎｗと、Ｗの要素すなわちＷ
［１］，Ｗ［２］，・・・，Ｗ［Ｎｗ］と、Ｗ［ｘ］
（ｘ＝１〜Ｎｗ）に係わる密度行列データブロックと
を、ホスト計算機１からプロセッサエレメント２へ送信
する密度行列情報に含めれば良い。

【０１５７】ここで、Ｗ［ｘ］に係わる密度行列データ
ブロックの内容は、縮約シェルＲを構成する全ての縮約
基底Ｉと縮約シェルＷ［ｘ］とを構成する全ての縮約基
底Ｎの任意の組み合わせに対するＰ（Ｉ，Ｎ）の数値、
および縮約シェルＴを構成する全ての縮約基底Ｋと縮約
シェルＷ［ｘ］とを構成する全ての縮約基底Ｎの任意の
組み合わせに対するＰ（Ｋ，Ｎ）の数値であれば良い。

【０１５８】［転送データの形式］次に、密度行列情報
およびフォック行列情報の内容に関して説明する。

【０１５９】図７に、ホスト計算機１からプロセッサエ
レメント２へ送信する密度行列情報のフォーマットの一
例を示す。縮約シェルＲの番号から縮約シェルＷ［Ｎ
ｗ］の番号までは、整数型データである。また、縮約シ
ェルＶ［１］に関わる密度行列データブロックから縮約
シェルＷ［Ｎｗ］に関わる密度行列データブロックは、
１つまたは複数の浮動小数点型データ、または、固定小
数点型データにより構成されるブロックである。

【０１６０】図７の上から２つの縮約シェルＲおよび縮
約シェルＴの番号により、その密度行列情報を受け取っ
たプロセッサエレメント２が処理すべきＲＴペア番号が
決まる。ここで、Ｔ≦Ｒであるので、図３２の（数式４
８）に示す式によって、ＲＴペア番号（ＲＴ）を一意的
に決め、２つの縮約シェル番号を用いる代わりに、１つ
の整数型データ（ＲＴ）によって、ＲＴペア番号を決め
ることも可能である。

【０１６１】このようにすることで、転送すべき情報量
を、整数データ１つ分だけ減らすことも可能である。し
かしながら、密度行列情報全体のデータ量と比較して、
整数データ１つの差は、無視できる程度に小さい上、上
記のようにして決めた整数データ（ＲＴ）から縮約シェ
ルＲおよびＴの番号を復元するために、プロセッサエレ
メント２上で行うべき処理が増加するため、図７に示す
ように、縮約シェルＲおよびＴの番号を、別々に記述す
る形式を用いるのが、より望ましい。

【０１６２】図７において、縮約シェルＲおよびＴの番
号の次は、縮約シェルの集合Ｖおよび縮約シェルの集合
Ｗの要素数を表わす２つの整数型データである。

【０１６３】密度行列データブロックの構成例を、縮約
シェルＶ［１］に関わる密度行列データブロックを代表
例として図８に示す。

【０１６４】縮約シェルの軌道量子数が１より大きい場
合には、その縮約シェルに関わる密度行列データブロッ
クは、さらに縮約基底に関わるサブブロックにより構成
されることになる。図８に示した例は、縮約シェルＶ
［１］を構成する縮約基底が、Ｍ１（Ｖ［１］），Ｍ２
（Ｖ［１］），・・・，Ｍｍ（Ｖ［１］）と、ｍ個ある
場合であり、それぞれの縮約基底に対応したサブブロッ
クがｍ個ある。

【０１６５】１つのサブブロックは、さらに２つの領域
に別れる。１つは、縮約シェルＲを構成する縮約基底Ｉ
１（Ｒ）からＩｉ（Ｒ）と、Ｍ１（Ｖ［１］）とをイン
デックスとする密度行列要素の領域である。もう１つ
は、縮約シェルＴを構成する縮約基底Ｋ１（Ｔ）からＫ
ｋ（Ｔ）と、Ｍ１（Ｖ［１］）とをインデックスとする
密度行列要素の領域である。ここで、ｉ，ｋは、それぞ
れ縮約シェルＲ，Ｔを構成する縮約基底の個数である。
これらの領域に含まれる密度行列要素の個数は、縮約シ
ェルＲおよびＴの軌道量子数によって決まり、したがっ
て、１組の密度行列情報の中では、どのサブブロックも
同じ大きさとなる。

【０１６６】図９に、プロセッサエレメント２からホス
ト計算機１に送信するフォック行列情報のフォーマット
の一例を示す。上から２つの縮約シェルＲの番号および
縮約シェルＴの番号のみが整数型データであり、それ以
降の、縮約シェルＶ［１］に関わるフォック行列データ
ブロックから縮約シェルＷ［Ｎｗ］に関わるフォック行
列データブロックは、１つまたは複数の浮動小数点型デ
ータまたは固定小数点型データにより構成されるブロッ
クである。

【０１６７】密度行列情報の場合と同様に、上から２つ
の縮約シェルＲおよび縮約シェルＴの番号により、その
フォック行列情報を送信したプロセッサエレメント２が
処理したＲＴペア番号を、ホスト計算機１が認識するこ
とができる。また、これらは、ＲとＴから一意に決まる
１つの整数型データであるＲＴペア番号で代用すること
も可能である。

【０１６８】さらに、また、ホスト計算機１上に、プロ
セッサエレメント２に割り当てたＲＴペア番号を記録し
ておき、ＲＴペアを表わす番号の代わりに、プロセッサ
エレメント認識番号により、プロセッサエレメント２が
送信したフォック行列情報が、どのＲＴペアに対応する
ものかを、ホスト計算機１に判断させることも可能であ
る。

【０１６９】フォック行列データブロックの構成は、図
８に示した密度行列データブロックと同様である。な
お、フォック行列情報には、密度行列情報を構成してい
る、縮約シェルの集合ＶおよびＷの要素数や縮約シェル
の番号情報を含む必要がない。なぜならば、ホスト計算
機１上にはカットオフテーブルがあるため、ホスト計算
機１は、ＲおよびＴから、これらの情報を簡単に再生す
ることが可能だからである。

【０１７０】ホスト計算機１上に十分なデータ保持容量
がある場合には、プロセッサエレメント２へ密度行列情
報を送信してから、プロセッサエレメント２からフォッ
ク行列情報を受信するまでの間、これらの情報を保持し
ておくことができる。いずれにしても、プロセッサエレ
メント２からホスト計算機１へ送信するフォック行列情
報に、縮約シェルの集合ＶおよびＷの要素数や縮約シェ
ルの番号情報を含む必要はなく、これらをフォック行列
情報に含まないことによって、プロセッサエレメント２
とホスト計算機１との間の通信データ量を小さくするこ
とができる。

【０１７１】図１０に、密度行列情報およびフォック行
列情報のプロセッサエレメント２内のメモリ空間への割
付の一例を示す。

【０１７２】図１０では、プロセッサエレメント２のメ
モリ空間へのアドレッシングが、全てワード・アドレッ
シングで行われることを前提としている。また、縮約シ
ェルの集合Ｖの要素数を１０００、Ｗの要素数を５００
とした場合を示している。

【０１７３】０番地および１番地に、そのプロセッサエ
レメント２に割り当てられたＲおよびＴの番号を格納す
る。２番地および３番地には、縮約シェルの集合Ｖおよ
びＷの要素数Ｎｖ，Ｎｗを格納する。４番地から（４＋
Ｎｖ−１）番地は、縮約シェルＶ［１］からＶ［Ｎｖ］
の番号を格納する領域、（４＋Ｎｖ）番地から（４＋Ｎ
ｖ＋Ｎｗ−１）番地は、縮約シェルＷ［１］からＷ［Ｎ
ｗ］の番号を格納する領域である。以上には全て整数型
のデータが保存される。

【０１７４】空き領域を挟んで、２０００番地から９９
９９番地は、縮約シェルＶ［１］からＶ［Ｎｖ］に係わ
る密度行列データブロックを格納する領域、１００００
番地から１７９９９番地は、縮約シェルＷ［１］からＷ
［Ｎｗ］に係わる密度行列データブロックを格納する領
域である。これらの領域に、Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，
Ｊ），Ｐ（Ｉ，Ｌ），Ｐ（Ｋ，Ｌ）を、それぞれ４００
０個ずつ格納することが可能である。

【０１７５】１８０００番地から２５９９９番地は、縮
約シェルＶ［１］からＶ［Ｎｖ］に係わるフォック行列
データブロックを格納する領域、２６０００番地から３
３９９９番地は、縮約シェルＷ［１］からＷ［Ｎｗ］に
係わるフォック行列データブロックを格納する領域であ
る。これらの領域に、Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ），Ｆ
（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ）を、それぞれ４０００個ずつ
格納することが可能である。

【０１７６】メモリ上で、１ワードが６４ビットである
と仮定しても、これらのデータ領域の容量は、せいぜい
２Ｍビット程度である。カットオフで生き残るデータの
みが格納されることを考慮すると、数１０００基底以上
の規模の分子軌道計算に対しても、十分に必要なデータ
を格納する領域がある。なお、この例よりも大きなデー
タ保持能力を有するメモリを実装することも、現在の技
術では非常に安価に実現できる。

【０１７７】［ループの回しかた（プロセッサエレメン
ト２の処理手順）］次に、プロセッサエレメント２にお
ける処理の手順を、図１１および図１２のフローチャー
トに従って説明する。

【０１７８】まず、プロセッサエレメント２は、ホスト
計算機１から密度行列情報を受信し、それをメモリに格
納する（ステップＳ３０１）。格納が済んだ時点から、
図５に示したＳおよびＵに関するループによる計算を開
始する。

【０１７９】Ｓに関するループは、以下のように制御さ
れる。まず、整数型変数ｖを用意し、初期値をゼロにセ
ットする（ステップＳ３０２）。次に、ループに入り、
変数ｖを１だけ増加させる（ステップＳ３０３）。次
に、メモリから縮約シェルＶ［ｖ］の数値を読み出し、
それをＳに代入する（ステップＳ３０４）。

【０１８０】以下、適当な処理を終了すると、変数ｖ
と、縮約シェルＶの個数Ｎｖとを比較する（図１２のス
テップＳ３２３）。変数ｖとＮｖとが等しければ、Ｓに
関するループを終了し、フォック行列情報をホスト計算
機１へ送信して（ステップＳ３２４）、割り当てられた
ＲＴペアの処理を終了する。その後、プロセッサエレメ
ント２は密度行列情報の受信待ちの状態となる。変数ｖ
とＮｖとが等しくなければ、ステップＳ３０３で変数ｖ
を１だけ増加させて、同様の処理を繰り返す。

【０１８１】同様に、Ｕに関するループは以下のように
制御される。Ｓに関するループ内で、整数型変数ｗを用
意し、初期値をゼロにセットする（ステップＳ３０
５）。次に、ループに入り、変数ｗを１だけ増加させる
（ステップＳ３０６）。次に、メモリから縮約シェルＷ
［ｗ］の数値を読み出し、それをＵに代入する（ステッ
プＳ３０７）。

【０１８２】以下、適当な処理を終了すると、変数ｗと
縮約シェルＷの個数Ｎｗとを比較する（ステップＳ３２
２）。変数ｗとＮｗとが等しければ、Ｕに関するループ
を終了し、前記ステップＳ３２３の変数ｖとＮｖとが等
しいかどうかの判断を行う。ステップＳ３２２で、変数
ｗとＮｗとが等しくなければ、ステップＳ３０６に戻っ
て、変数ｗを１だけ増加させて、同様の処理を繰り返
す。

【０１８３】このように、ＳおよびＵに関するループ
は、メモリに格納された縮約シェルＶ［１］，Ｖ
［２］，・・・，Ｖ［Ｎｖ］や、縮約シェルＷ［１］，
Ｗ［２］，・・・，Ｗ［Ｎｗ］の数値を、順次、読み出
して、それらをＳおよびＵの数値として用いることによ
り制御され、その結果、プロセッサエレメント２は、カ
ットオフで生き残るＳおよびＵのみに関する数値にしか
セットされないため、非常に効率よくループ制御を行う
ことができる。

【０１８４】分子軌道計算における２電子積分およびフ
ォック行列要素の計算は、縮約シェル単位でなく、縮約
基底を単位として行う。そのため、Ｕに関するループの
内側では、縮約シェルＲを構成する縮約基底Ｉに関する
ｂ＿ｂａｓｉｓ（Ｒ）からｅ＿ｂａｓｉｓ（Ｒ）までの
ループ（ステップＳ３０８、ステップＳ３０９およびス
テップＳ３２１参照）、縮約シェルＳを構成する縮約基
底Ｊに関するｂ＿ｂａｓｉｓ（Ｓ）からｅ＿ｂａｓｉｓ
（Ｓ）までのループ（ステップＳ３１０、ステップＳ３
１１およびステップＳ３２０参照）、縮約シェルＴを構
成する縮約基底Ｋに関するｂ＿ｂａｓｉｓ（Ｔ）からｅ
＿ｂａｓｉｓ（Ｔ）までのループ（ステップＳ３１２、
ステップＳ３１３およびステップＳ３１９参照）、縮約
シェルＵを構成する縮約基底Ｌに関するｂ＿ｂａｓｉｓ
（Ｕ）からｅ＿ｂａｓｉｓ（Ｕ）までのループ（ステッ
プＳ３１４、ステップＳ３１５およびステップＳ３１８
参照）よりなる４重ループを形成し、その中で、２電子
積分Ｇ（Ｉ，Ｊ，Ｋ，Ｌ）の計算（ステップＳ３１
６）、および２電子積分と密度行列要素との積をフォッ
ク行列要素に足し込む計算（ステップＳ３１７）を行
う。

【０１８５】ここで、同一の縮約シェルを構成している
縮約基底の番号が、連続となるように縮約基底の番号付
けがなされていることを前提として、縮約シェルＸを構
成する縮約基底の番号が、ｂ＿ｂａｓｉｓ（Ｘ）からｅ
＿ｂａｓｉｓ（Ｘ）の範囲にあるものとした。

【０１８６】この４重ループの中では、カットオフとし
て上記のＲＳおよびＴＵの組み合わせによるもの以外を
考えない限りは、必ず、２電子積分Ｇ（Ｉ，Ｊ，Ｋ，
Ｌ）の計算が行われる。

【０１８７】したがって、ＳおよびＵのループがまわる
間に、メモリに格納された密度行列要素の全てが、必
ず、フォック行列要素への足し込み計算に用いられる。
計算で用いられないような密度行列要素の通信を行うこ
とは、通信量を無意味に増加させることになるが、その
ような無駄な通信が生じないようになっていることによ
り、低価格な通信手段を用いた場合においてさえ、シス
テムの処理性能が通信性能により制限されることがな
く、システムの処理効率を向上させることが可能であ
る。

【０１８８】［データ転送のタイミングおよび行列がメ
モリに入りきらない場合の方法］縮約シェルＳおよびＵ
に関するループのうち、外側にあるＳに係わる密度行列
要素Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）やフォック行列要素Ｆ
（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）は、２電子積分Ｇ（Ｉ，Ｊ，
Ｋ，Ｌ）の計算終了後に、その都度必要な密度行列要素
を、ホスト計算機から受信し、計算し終わったフォック
行列要素を、その都度ホスト計算機へ送信する、という
手順で送受信することも可能である。

【０１８９】しかしながら、データの通信時には、純粋
に通信するデータだけでなく通信プロトコルに関係する
付加的な情報が必ず付随するため、通信する情報の単位
を細かくすることにより、通信量を増大させることに繋
がる。

【０１９０】この実施の形態のように、ＲＴペアにつ
き、密度行列情報およびフォック行列情報を、それぞれ
１回の通信で、ホスト計算機とプロセッサ・エレメント
との間で通信することにより、プロトコルに付随する付
加的な情報による通信量の増大を最小限にとどめること
ができる。

【０１９１】なお、計算の対象とする系のサイズが大き
かったり、カットオフ判断を行うための閾値が大きく、
カットオフによる生き残り割合が高い場合には、密度行
列要素Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）、フォック行列要素
Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）、および密度行列要素Ｐ
（Ｉ，Ｌ），Ｐ（Ｋ，Ｌ）、フォック行列要素Ｆ（Ｉ，
Ｌ），Ｆ（Ｋ，Ｌ）の全てをプロセッサエレメント２内
のメモリに保存できなくなることがある。その場合の処
理方法を説明する。

【０１９２】まず、密度行列要素Ｐ（Ｉ，Ｊ），Ｐ
（Ｋ，Ｊ）と、フォック行列要素Ｆ（Ｉ，Ｊ），Ｆ
（Ｋ，Ｊ）とが、全てプロセッサエレメント２内のメモ
リに保存可能である場合には、これら全てと、密度行列
要素Ｐ（Ｉ，Ｌ），Ｐ（Ｋ，Ｌ）およびフォック行列要
素Ｆ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ）がメモリに保存できるよ
うに、縮約シェルＵの番号を区切る。

【０１９３】このことにより、（ＲＴ）ペアで指定され
るジョブは、複数のサブジョブに分割される。これらの
サブジョブは、同一のプロセッサエレメント２に割り当
てられるようにした上で、密度行列要素Ｐ（Ｉ，Ｊ），
Ｐ（Ｋ，Ｊ）は、最初のサブジョブの開始前に、１度だ
けホスト計算機１からプロセッサエレメント２に送信す
る。

【０１９４】これらの密度行列要素は、縮約シェルＵの
値が、いくらであろうとも、全て共通に用いることがで
きるからである。一方、密度行列要素Ｐ（Ｉ，Ｌ），Ｐ
（Ｋ，Ｌ）は、各サブジョブの開始前に、ホスト計算機
１からプロセッサエレメント２に送信し、その前のサブ
ジョブで用いられたメモリ上の密度行列要素Ｐ（Ｉ，
Ｌ），Ｐ（Ｋ，Ｌ）の領域に上書きしてしまって構わな
い。これらの密度行列要素は、特定のＵに係わる計算に
しか用いられないからである。

【０１９５】同様に、フォック行列要素Ｆ（Ｉ，Ｌ），
Ｆ（Ｋ，Ｌ）を、各サブジョブの終了後に、プロセッサ
エレメント２からホスト計算機１に送信し、そのメモリ
領域を、次のサブジョブで計算されるフォック行列要素
Ｆ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ）の格納領域として開放す
る。

【０１９６】一方、フォック行列要素Ｆ（Ｉ，Ｊ），Ｆ
（Ｋ，Ｊ）は、全てのサブジョブで共通に用いることが
できるので、全てのサブジョブの終了後に、１度だけプ
ロセッサエレメント２からホスト計算機１へ送信する。

【０１９７】密度行列要素Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）
とフォック行列要素Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）との全
ては、プロセッサエレメント２内のメモリに保存するこ
とができないが、密度行列要素Ｐ（Ｉ，Ｌ），Ｐ（Ｋ，
Ｌ）と、フォック行列要素Ｆ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ）
との全てを、プロセッサエレメント２内のメモリに保存
可能な場合には、縮約シェルＳの番号を区切って、ジョ
ブを複数のサブジョブに分割する。

【０１９８】このような処理方法とすることにより、全
ての行列要素を、プロセッサエレメント２内のメモリに
保存可能な場合と比較した通信量の増加分は、密度行列
要素とフォック行列要素とを分割して送受信することに
起因する通信プロトコルに関係する付加的な情報の個数
の増分のみとなる。

【０１９９】密度行列要素Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）
とフォック行列要素Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）との全
て、および密度行列要素Ｐ（Ｉ，Ｌ），Ｐ（Ｋ，Ｌ）と
フォック行列要素Ｆ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ）との全て
のどちらも、プロセッサエレメント２内のメモリに格納
できないような、計算規模が非常に大きい場合に対して
も、この実施の形態のＲＴ並列アルゴリズムは対応可能
である。以下に、その処理アルゴリズムを説明する。

【０２００】密度行列要素Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）
とフォック行列要素Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）（以下
では行列情報Ａとする）との全てで、データサイズがＸ
であり、密度行列要素Ｐ（Ｉ，Ｌ），Ｐ（Ｋ，Ｌ）とフ
ォック行列要素Ｆ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ）（以下では
行列情報Ｂとする）との全てで、データサイズがＹであ
ると仮定する。

【０２０１】また、縮約シェル番号Ｓを区切って、行列
情報Ａをｘ等分し、縮約シェル番号Ｕを区切って、行列
情報Ｂをｙ等分したときに、Ｘ／ｘ＋Ｙ／ｙのサイズの
データ量であれば、プロセッサエレメント２内のメモリ
に保存可能であると仮定する。（ＲＴ）ペアで指定され
る１つのジョブが、ｘ×ｙ個のサブジョブに分割された
ことになる。

【０２０２】図１３に示すように、サブジョブの番号を
（Ｓに関する分割番号、Ｕに関する分割番号）の形式で
表わし、（１，１）から（１，ｙ）をプロセッサエレメ
ントＰＥ１に、（２，１）から（２，ｙ）をプロセッサ
エレメントＰＥ２に、（ｘ，１）から（ｘ，ｙ）をプロ
セッサエレメントＰＥｘに、というようにプロセッサエ
レメントへの割り付けを行う（第１の分割方法）ことに
すると、１つのプロセッサエレメントに係わって、ホス
ト計算機１との間で送受信されるデータ量は、Ｘ／ｘ＋
ｙ×Ｙ／ｙとなる。

【０２０３】このような通信を、ｘ個のプロセッサエレ
メントがそれぞれ行うので、（ＲＴ）ペアにより指定さ
れる１つのジョブ当たりで、ｘ×［Ｘ／ｘ＋ｙ×Ｙ／ｙ］＝Ｘ＋ｘＹの通信量となる。

【０２０４】上記の例とは逆に、（１，１）から（ｘ，
１）をプロセッサエレメントＰＥ１に、（１，２）から
（ｘ，２）をプロセッサエレメントＰＥ２に、（１，
ｙ）から（ｘ，ｙ）をプロセッサエレメントＰＥｙに、
というように、プロセッサエレメントへの割り付けを行
う（第２の分割方法）場合、（ＲＴ）ペアにより指定さ
れる１つのジョブ当たりの通信量は、ｙＸ＋Ｙとなる。

【０２０５】プロセッサエレメント２内のメモリ容量は
限られているので、縮約シェル番号の区切り数を少なく
するためには元々のデータ量がなるべく小さい方の区切
りで別々のプロセッサエレメント２にサブジョブを割り
当てるのが良い。

【０２０６】第１の分割方法と第２の分割方法とで大き
さを比較してみる。ｘはＸに比例し、ｙはＹに比例し
て、その比例定数は近似的に共通とすることができるの
で、第１の分割方法と第２の分割方法とでの通信量の差
は、Ｘ−Ｙとなる。したがって通信量は、Ｘ＞Ｙの場合
には、第２の分割方法の方が小さく、Ｘ＜Ｙの場合に
は、第１の分割方法の方が小さくなる。

【０２０７】すなわち、密度行列要素Ｐ（Ｉ，Ｊ），Ｐ
（Ｋ，Ｊ）とフォック行列要素Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，
Ｊ）の要素数の和が、密度行列要素Ｐ（Ｉ，Ｌ），Ｐ
（Ｋ，Ｌ）とフォック行列要素Ｆ（Ｉ，Ｌ），Ｆ（Ｋ，
Ｌ）の要素数の和よりも大きい（Ｘ＞Ｙ）場合には、第
２の分割方法を用いる。逆に、密度行列要素Ｐ（Ｉ，
Ｊ），Ｐ（Ｋ，Ｊ）とフォック行列要素Ｆ（Ｉ，Ｊ），
Ｆ（Ｋ，Ｊ）の要素数の和が、密度行列要素Ｐ（Ｉ，
Ｌ），Ｐ（Ｋ，Ｌ）とフォック行列要素Ｆ（Ｉ，Ｌ），
Ｆ（Ｋ，Ｌ）の要素数の和よりも小さい（Ｘ＜Ｙ）場合
には、第１の分割方法を用いることにより、通信量の増
大分を小さくすることが可能である。

【０２０８】図１４に、ジョブの分割を考慮した場合の
ホスト計算機における処理のアルゴリズムを示す。この
図１４は、図５中のホスト計算機の処理アルゴリズムに
おけるステップＳ１０３からステップＳ１０６までの部
分に対応するもので、図１４のステップＳ４０１が図５
のステップＳ１０３に、図１４のステップＳ４１１が図
５のステップＳ１０６に、それぞれ対応している。な
お、この図１４では、プロセッサエレメントは、簡単の
ためＰＥと記述した。

【０２０９】すなわち、図１４において、ステップＳ４
０１では、プロセッサエレメント２に割り当てる（Ｒ
Ｔ）ペア番号を決定する。その後、ホスト計算機１は、
まず、（ＲＴ）ペア番号が割り当てられたプロセッサエ
レメント２のメモリに、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），
Ｆ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てを格納可能かどうか
を判断する（ステップＳ４０２）。

【０２１０】ステップＳ４０２で、格納可能であると判
断されたときには、次に、（ＲＴ）ペア番号が割り当て
られたプロセッサエレメント２のメモリに、Ｐ（Ｉ，
Ｊ），Ｐ（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全
てを格納可能かどうかを判断し（ステップＳ４０５）、
格納可能であれば、ステップＳ４０６、ステップＳ４０
７に順に進む。また、格納可能でなければ、後述する図
１５に示す処理に進む。

【０２１１】ステップＳ４０６、４０７の処理は、プロ
セッサエレメント２に割り当てられた（ＲＴ）ペア番号
に相当する処理に必要な密度行列およびフォック行列
を、全て、プロセッサエレメント２のメモリに格納可能
な場合の処理であるので、図５における処理と同様であ
る。すなわち、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｐ（Ｉ，
Ｊ），Ｐ（Ｋ，Ｊ）の全てをプロセッサエレメント２へ
送信する（ステップＳ４０６）。その後は、処理が終了
して、プロセッサエレメント２から、Ｆ（Ｋ，Ｌ），Ｆ
（Ｉ，Ｌ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てを受信
するまで、ホスト計算機は処理待ちの状態となる（ステ
ップＳ４０７）。

【０２１２】また、ステップＳ４０２で、格納可能でな
いと判断されたときには、（ＲＴ）ペア番号が割り当て
られたプロセッサエレメント２のメモリに、Ｐ（Ｉ，
Ｊ），Ｐ（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全
てが格納可能かどうかを判断し（ステップＳ４０３）、
格納可能であると判断されたときには、後述する図１６
に示す処理を行い、そうでなければステップＳ４０４に
進む。

【０２１３】ステップＳ４０４では、Ｐ（Ｉ，Ｊ）とＰ
（Ｋ，Ｊ）の個数の和と、Ｐ（Ｋ，Ｌ）とＰ（Ｉ，Ｌ）
の個数の和とを比較し、等しいかあるいは後者が大きけ
れば、後述する図１７に示す処理を行ない、前者が大き
ければ、後述する図１８に示す処理を行なう。

【０２１４】図１５、図１６、図１７および図１８の処
理のいずれかの処理が終了すると、ホスト計算機１は、
全ての（ＲＴ）ペアの処理が終了したかどうかを判断す
る（ステップＳ４１１）。以下、図５の処理と同様であ
る。

【０２１５】次に、図１５に示す処理を説明する。この
処理は、プロセッサエレメント２に割り当てられた（Ｒ
Ｔ）ペア番号に相当する処理に必要な密度行列およびフ
ォック行列の全ては、プロセッサエレメント２のメモリ
に格納できないが、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｆ
（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てを格納することができ
る場合の処理である。

【０２１６】まず、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｆ
（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てを格納した場合に、プ
ロセッサエレメント２のメモリに残る空き容量を見積
り、対応するＰ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ），Ｆ（Ｉ，
Ｊ），Ｆ（Ｋ，Ｊ）の全てがその空き容量以下となるよ
うに、Ｓの範囲をＭ分割する。それとともに、分割され
た各Ｓの範囲を単位としてＭ個のサブジョブを定義する
（ステップＳ４０８）。

【０２１７】次に、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ）の全て
をプロセッサエレメント２に送信する（ステップＳ４０
９）。その後、ｍ＝１からｍ＝Ｍまでに対して、ｍ番目
のサブジョブに対応するＰ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）の
全てをプロセッサエレメント２へ送信し、処理待ちの状
態を経て、プロセッサエレメント２からｍ番目のサブジ
ョブに対応するＦ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てを受
信する、という処理を繰り返す（ステップＳ４１０〜ス
テップＳ４１４）。

【０２１８】そして、ｍ＝１からｍ＝Ｍまでの繰り返し
の処理の全てを終了すると、プロセッサエレメントから
Ｆ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てを受信する（ステッ
プＳ４１５）。その後、図１４のステップＳ４１１に進
む。

【０２１９】次に、図１６に示す処理を説明する。これ
は、プロセッサエレメント２に割り当てられた（ＲＴ）
ペア番号に相当する処理に必要な密度行列およびフォッ
ク行列の全てをプロセッサエレメント２のメモリに格納
できず、また、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｆ（Ｋ，
Ｌ），Ｆ（Ｉ，Ｌ）の全てを格納することもできない
が、Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ
（Ｋ，Ｊ）の全てを格納することができる場合の処理で
ある。

【０２２０】まず、Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ），Ｆ
（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てを格納した場合に、プ
ロセッサエレメント２のメモリに残る空き容量を見積
り、対応するＰ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｆ（Ｋ，
Ｌ），Ｆ（Ｉ，Ｌ）の全てががその空き容量以下となる
ようにＵの範囲をＭ分割する。それとともに、分割され
た各Ｕの範囲を単位としてＭ個のサブジョブを定義する
（ステップＳ４１６）。

【０２２１】次に、Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）の全て
をプロセッサエレメント２に送信する（ステップＳ４１
７）。その後、ｍ＝１からｍ＝Ｍまでに対して、ｍ番目
のサブジョブに対応するＰ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ）の
全てをプロセッサエレメントへ送信し、処理待ちの状態
を経て、プロセッサエレメントからｍ番目のサブジョブ
に対応するＦ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てを受信す
る、という処理を繰り返す（ステップＳ４１８〜ステッ
プＳ４２２）。

【０２２２】そして、ｍ＝１からｍ＝Ｍまでの繰り返し
の処理の全てを終了すると、プロセッサエレメント２か
らＦ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てを受信する（ステ
ップＳ４２３）。その後、図１４のステップＳ４１１に
進む。

【０２２３】次に、図１７に示す処理を説明する。これ
は、プロセッサエレメント２のメモリに、Ｐ（Ｋ，
Ｌ），Ｐ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全
てを格納することができず、また、Ｐ（Ｉ，Ｊ），Ｐ
（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てを格納
することもできない場合で、Ｐ（Ｉ，Ｊ）とＰ（Ｋ，
Ｊ）の個数の和がＰ（Ｋ，Ｌ）のＰ（Ｉ，Ｌ）個数の和
よりも大きくない場合の処理である。

【０２２４】まず、Ｐ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ），Ｆ
（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てがメモリの空き容量以
下となるように、Ｓの範囲をＭ１分割する。Ｍ１はでき
るだけ小さく設定する（ステップＳ４２４）。

【０２２５】次に、ステップＳ４２５で、ｍ１＝０とし
て初期化した後、ステップＳ４２６以降に進み、ｍ１に
関するループを、ｍ１＝１からｍ１＝Ｍ１の範囲で回
す。ｍ１に関するループの中では、まず、分割されたＰ
（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，
Ｊ）の全てを格納した場合に、プロセッサエレメント２
のメモリに残る空き容量を見積り、対応するＰ（Ｋ，
Ｌ），Ｐ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全
てがその空き容量以下となるようにＵの範囲をＭ２分割
する。さらに、分割された各Ｕの範囲を単位としてＭ２
個のサブジョブを定義する（ステップＳ４２７）。そし
て、次に、ｍ１番目の分割に対応するＰ（Ｉ，Ｊ），Ｐ
（Ｋ，Ｊ）の全てを、プロセッサエレメント２へ送信す
る（ステップＳ４２８）。

【０２２６】その後、ステップＳ４２９で、ｍ２＝０と
して初期化した後、ステップＳ４３０以降に進み、ｍ２
に関するループを、ｍ２＝１からｍ２＝Ｍ２の範囲で回
す。ｍ２に関するループでは、まず、ｍ２番目の分割に
対応するＰ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ）の全てをプロセッ
サエレメントへ送信し（ステップＳ４３１）、処理待ち
の状態を経て、プロセッサエレメントからｍ２番目の分
割に対応するＦ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てを受信
する（ステップＳ４３２）。

【０２２７】ｍ２に関するループが終了したと判断する
と（ステップＳ４３３）、プロセッサエレメント２から
ｍ１番目の分割に対応するＦ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）
の全てを受信する（ステップＳ４３４）。そして、ｍ１
に関するループが終了したと判断すると（ステップＳ４
３５）、図１４のステップＳ４１１に進む。

【０２２８】なお、ｍ１番目の分割に対応するループ内
の全てのサブジョブの処理は、同一のプロセッサエレメ
ント２で行なう必要があるが、Ｍ１個に分割された異な
るＳの範囲に対応する処理は、それぞれを独立のジョブ
と見なして、別々のプロセッサエレメントで処理を行な
ってもよい。それらのジョブを、同一のプロセッサエレ
メントで行なっても、別々のプロセッサエレメントで行
なっても、発生する通信量は同じである。

【０２２９】次に、図１８に示す処理を説明する。この
処理は、プロセッサエレメント２のメモリに、Ｐ（Ｋ，
Ｌ），Ｐ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全
てを格納することができず、また、Ｐ（Ｉ，Ｊ），Ｐ
（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，Ｊ）の全てを格納
することもできない場合で、Ｐ（Ｉ，Ｊ）とＰ（Ｋ，
Ｊ）の個数の和が、Ｐ（Ｋ，Ｌ）のＰ（Ｉ，Ｌ）個数の
和よりも大きい場合の処理である。

【０２３０】まず、Ｐ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｆ
（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）の全てがメモリの空き容量以
下となるように、Ｕの範囲をＭ１分割する。Ｍ１はでき
るだけ小さく設定する（ステップＳ４３６）。次に、ス
テップＳ４３７で、ｍ１＝０として初期化した後、ステ
ップＳ４３８以降に進み、ｍ１に関するループを、ｍ１
＝１からｍ１＝Ｍ１の範囲で回す。

【０２３１】ｍ１に関するループの中では、まず、分割
されたＰ（Ｋ，Ｌ），Ｐ（Ｉ，Ｌ），Ｆ（Ｋ，Ｌ），Ｆ
（Ｉ，Ｌ）の全てを格納した場合に、プロセッサエレメ
ントのメモリに残る空き容量を見積り、対応するＰ
（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ），Ｆ（Ｉ，Ｊ），Ｆ（Ｋ，
Ｊ）の全てがその空き容量以下となるように、Ｓの範囲
をＭ２分割する。さらに、分割された各Ｓの範囲を単位
としてＭ２個のサブジョブを定義する（ステップＳ４３
９）。

【０２３２】ｍ１番目の分割に対応するＰ（Ｋ，Ｌ），
Ｐ（Ｉ，Ｌ）の全てをプロセッサエレメント２へ送信し
た後、ステップＳ４４１で、ｍ２＝０として初期化した
後、ステップＳ４４２以降に進み、ｍ２に関するループ
を、ｍ２＝１からｍ２＝Ｍ２の範囲で回す。

【０２３３】ｍ２に関するループでは、まず、ｍ２番目
の分割に対応するＰ（Ｉ，Ｊ），Ｐ（Ｋ，Ｊ）の全てを
プロセッサエレメント２へ送信し（ステップＳ４４
３）、処理待ちの状態を経て、プロセッサエレメント２
からｍ２番目の分割に対応するＦ（Ｉ，Ｊ），Ｆ（Ｋ，
Ｊ）の全てを受信する（ステップＳ４４４）。

【０２３４】ｍ２に関するループが終了したと判断する
と（ステップＳ４４５）、プロセッサエレメント２から
ｍ１番目の分割に対応するＦ（Ｋ，Ｌ），Ｆ（Ｉ，Ｌ）
の全てを受信する（ステップＳ４４６）。そして、ｍ１
に関するループが終了したと判断すると（ステップＳ４
４７）、図１４のステップＳ４１１に進む。

【０２３５】なお、この場合も、ｍ１番目の分割に対応
するループ内の全てのサブジョブの処理は、同一のプロ
セッサエレメント２で行なう必要があるが、Ｍ１個に分
割された異なるＵの範囲に対応する処理は、それぞれを
独立のジョブと見なして、別々のプロセッサエレメント
２で処理を行なってもよい。

【０２３６】以上説明した実施の形態は、非経験的分子
軌道法を用いた分子シミュレーションにおいて、フォッ
ク行列要素計算を高速に行う場合に、この発明を適用し
た場合であるが、この発明は、このような非経験的分子
軌道法に限らず、種々の並列処理アルゴリズムに適用可
能であることは、言うまでもない。

【０２３７】

【発明の効果】以上説明したように、この発明によれ
ば、安価な通信手段と比較的小さなメモリを持った並列
処理システムを用いて、大規模な行列要素の計算を高速
に行うことが可能となる。

【図面の簡単な説明】

【図１】この発明による並列処理装置の実施の形態のシ
ステム構成を示すブロック図である。

【図２】この発明の実施の形態の比較例として示す従来
例のＦｏｓｔｅｒの列ブロックアルゴリズムでトリプル
ソート法のアルゴリズムを示すプログラム・コードを示
す図である。

【図３】この発明の実施の形態のＲＴ並列アルゴリズム
を示すプログラム・コードを示す図である。

【図４】この発明の実施の形態のＲＴ並列アルゴリズム
において、必要な通信性能と縮約シェル番号Ｒとの関係
を示す図である。

【図５】この発明の実施の形態におけるホスト計算機お
よびプロセッサエレメントの処理のフローチャートであ
る。

【図６】この発明の実施の形態におけるホスト計算機上
に用意されるカットオフテーブルの一例を示す図であ
る。

【図７】この発明の実施の形態において、ホスト計算機
からプロセッサエレメントへ送信される密度行列情報の
フォーマットの一例を示す図である。

【図８】この発明の実施の形態における密度行列データ
ブロックの構成例を示す図である。

【図９】この発明の実施の形態において、プロセッサエ
レメントからホスト計算機へ送信されるフォック行列情
報のフォーマットの一例を示す図である。

【図１０】この発明の実施の形態におけるメモリへの行
列情報の割り付け例を示す図である。

【図１１】この発明の実施の形態におけるプロセッサエ
レメントの処理のフローチャートの一部を示す図であ
る。

【図１２】この発明の実施の形態におけるプロセッサエ
レメントの処理のフローチャートの一部を示す図であ
る。

【図１３】この発明の実施の形態における、計算規模が
大きい場合のサブジョブへの分割と、それらのプロセッ
サエレメントへの割り当て方法の一例を示す図である。

【図１４】この発明の実施の形態における、ジョブ分割
を考慮した場合のホスト計算機の処理アルゴリズムの一
例を示すフローチャートの一部を示す図である。

【図１５】この発明の実施の形態における、ジョブ分割
を考慮した場合のホスト計算機の処理アルゴリズムの一
例を示すフローチャートの一部を示す図である。

【図１６】この発明の実施の形態における、ジョブ分割
を考慮した場合のホスト計算機の処理アルゴリズムの一
例を示すフローチャートの一部を示す図である。

【図１７】この発明の実施の形態における、ジョブ分割
を考慮した場合のホスト計算機の処理アルゴリズムの一
例を示すフローチャートの一部を示す図である。

【図１８】この発明の実施の形態における、ジョブ分割
を考慮した場合のホスト計算機の処理アルゴリズムの一
例を示すフローチャートの一部を示す図である。

【図１９】原始基底関数と、その角運動量、軌道指数、
原子核座標との対応例を示す図である。

【図２０】従来例のＦｏｓｔｅｒの列ブロックアルゴリ
ズムのフローチャートである。

【図２１】従来例のＦｏｓｔｅｒの列ブロックアルゴリ
ズムでカノニカル法の場合における、必要な通信性能の
ブロックサイズ依存性を説明するための図である。

【図２２】従来例のＦｏｓｔｅｒの列ブロックアルゴリ
ズムでトリプルソート法の場合における、必要な通信性
能のブロックサイズ依存性を説明するための図である。

【図２３】非経験的分子軌道計算法の説明に用いる数式
を示す図である。

【図２４】非経験的分子軌道計算法の説明に用いる数式
を示す図である。

【図２５】非経験的分子軌道計算法の説明に用いる数式
を示す図である。

【図２６】非経験的分子軌道計算法の説明に用いる数式
を示す図である。

【図２７】非経験的分子軌道計算法の説明に用いる数式
を示す図である。

【図２８】文献１の２電子積分計算手法の説明に用いる
数式を示す図である。

【図２９】文献１の２電子積分計算手法の説明に用いる
数式を示す図である。

【図３０】従来例のＦｏｓｔｅｒのアルゴリズムの説明
に用いる数式を示す図である。

【図３１】従来例のＦｏｓｔｅｒのアルゴリズムの説明
に用いる数式を示す図である。

【図３２】従来例における通信量（数式４４）、従来例
における必要な通信性能（数式４５）、この発明の実施
の形態における必要な通信性能（数式４６）、この発明
の実施の形態におけるカットオフの判定基準の一例（数
式４７）、この発明の実施の形態におけるＲＴペア番号
の一意的な決め方の一例（数式４８）に、それぞれ用い
る数式を示す図である。

【符号の説明】

１ホスト計算機２プロセッサエレメント３バス

───────────────────────────────────────────────────── フロントページの続き (72)発明者稲畑深二郎神奈川県足柄上郡中井町境430 グリーンテクなかい富士ゼロックス株式会社内 (72)発明者宮川宣明神奈川県足柄上郡中井町境430 グリーンテクなかい富士ゼロックス株式会社内 (72)発明者高島一東京都豊島区高田３−24−１大正製薬株式会社内 (72)発明者北村一泰東京都豊島区高田３−24−１大正製薬株式会社内 (72)発明者小原繁北海道釧路市武佐３−12−358 Ｆターム(参考） 5B045 AA07 GG12 KK04 5B049 BB07 EE03 EE04 EE41 GG07

Claims

【特許請求の範囲】

【請求項１】同じ１からＮ（Ｎは正の整数）の範囲にあ
る４つの整数型の変数Ｒ，Ｓ，Ｔ，Ｕを用いて表わさ
れ、Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）＝Ｇ（Ｒ，Ｓ，Ｕ，Ｔ）＝Ｇ
（Ｓ，Ｒ，Ｔ，Ｕ）＝Ｇ（Ｓ，Ｒ，Ｕ，Ｔ）＝Ｇ（Ｔ，
Ｕ，Ｒ，Ｓ）＝Ｇ（Ｔ，Ｕ，Ｓ，Ｒ）＝Ｇ（Ｕ，Ｔ，
Ｒ，Ｓ）＝Ｇ（Ｕ，Ｔ，Ｓ，Ｒ）なる関係を満たす関数
Ｇの関数値Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）と；２つの変数Ｔ，Ｕ
を用いて表わされ、Ｐ（Ｔ，Ｕ）＝Ｐ（Ｕ，Ｔ）なる関
係を満たす行列Ｐの要素Ｐ（Ｔ，Ｕ）と；係数Ａ１との
積Ａ１・Ｐ（Ｔ，Ｕ）・Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）について
の前記範囲の全てのＴおよびＵに関する総和Ｆ１（Ｒ，
Ｓ）と、前記関数値Ｇ（Ｒ，Ｕ，Ｔ，Ｓ）と；前記行列要素Ｐ
（Ｔ，Ｕ）と；係数Ａ２との積Ａ２・Ｐ（Ｔ，Ｕ）・Ｇ
（Ｒ，Ｕ，Ｔ，Ｓ）に関する前記範囲の全てのＴおよび
Ｕにおける総和Ｆ２（Ｒ，Ｓ）との和Ｆ（Ｒ，Ｓ）＝Ｆ
１（Ｒ，Ｓ）＋Ｆ２（Ｒ，Ｓ）を要素とする行列Ｆの全
要素の計算を、ホスト計算機と、１つまたは複数個のプ
ロセッサエレメントとを有する並列処理装置を用いて行
う並列処理方法において、前記変数Ｒ，Ｓ，Ｔ，Ｕについて、３重ループを形成
し、前記３重ループの最も外側のループは、Ｒ≦ＮおよびＴ
≦Ｒなる関係を満たす変数Ｒと変数Ｔとの組み合わせに
関するループとし、前記最も外側のループの内側の２番目は前記変数Ｓに関
するループ、前記２番目よりも内側の３番目は前記変数
Ｕに関するループとするか、あるいは前記２番目は変数
Ｕに関するループ、前記３番目は変数Ｓに関するループ
とし、前記変数Ｓのとりうる値の範囲を１からＲの間とし、前記変数Ｕのとりうる値の範囲を１からＲの間とし、前記３番目のループの内側で、所定の前記関数値Ｇ
（Ｒ，Ｓ，Ｔ，Ｕ）の計算およびその計算結果を用いた
所定の前記行列要素Ｆの一部の計算を行うものであっ
て、前記２番目および３番目のループをひとまとまりとして
１つのジョブ単位を形成し、前記ジョブ単位毎に前記複数のプロセッサエレメントに
処理させることを特徴とする並列処理方法。
【請求項２】Ｎ個（Ｎは正の整数）の縮約シェルを用い
て表現される分子のエネルギーを計算する分子軌道計算
を、ホスト計算機と、１つまたは複数個のプロセッサエ
レメントとを有する並列処理装置を用いて行う並列処理
方法において、縮約シェルＲ，Ｓ，Ｔ，Ｕのそれぞれに含まれる原始シ
ェルｒ，ｓ，ｔ，ｕのそれぞれの成分である原始基底関
数ｉ，ｊ，ｋ，ｌをインデックスとして用いて表わされ
る２電子積分関数ｇの関数値ｇ（ｉ，ｊ，ｋ，ｌ）と；
前記原始基底関数ｋをひとつの構成要素とする縮約基底
関数Ｋおよび前記原始基底関数ｌをひとつの構成要素と
する縮約基底関数Ｌとをインデックスとして用いて表わ
される密度行列Ｐの要素Ｐ（Ｋ，Ｌ）と；係数Ａ１との
積Ａ１・Ｐ（Ｋ，Ｌ）・ｇ（ｉ，ｊ，ｋ，ｌ）の全ての
縮約基底関数に関する総和ｆ１（Ｉ，Ｊ）と、前記２電子積分関数の関数値ｇ（ｉ，ｋ，ｊ，ｌ）と；
前記密度行列Ｐの要素Ｐ（Ｋ，Ｌ）と；係数Ａ２との積
Ａ２・Ｐ（Ｋ，Ｌ）・ｇ（ｉ，ｋ，ｊ，ｌ）の全ての縮
約基底関数に関する総和ｆ２（Ｉ，Ｊ）との和ｆ（Ｉ，
Ｊ）＝ｆ１（Ｉ，Ｊ）＋ｆ２（Ｉ，Ｊ）の、前記原始基
底関数ｉ，ｊをひとつの構成要素とする前記縮約基底関
数Ｉ，Ｊに含まれる全ての前記原始基底関数に関する和
で表わされるフォック行列Ｆの全ての行列要素Ｆ（Ｉ，
Ｊ）の計算を、最も外側のループは、Ｒ≦ＮおよびＴ≦Ｒなる関係を満
たす前記縮約シェルＲとＴとの組み合わせに関するルー
プとし、前記最も外側のループの内側の２番目は前記縮約シェル
Ｓに関するループ、前記２番目よりも内側の３番目は前
記縮約シェルＵに関するループとするか、あるいは前記
２番目は前記縮約シェルＵに関するループ、前記３番目
は前記縮約シェルＳに関するループとし、前記縮約シェルＳのとりうる値の範囲を１からＲの間と
し、前記縮約シェルＵのとりうる値の範囲を１からＲの間と
し、前記３番目のループの内側で、所定の２電子積分の計算
およびその結果を用いた所定のフォック行列要素の一部
の計算を行うものであって、前記２番目および３番目のループをひとまとまりとして
１つのジョブ単位を形成し、前記ジョブ単位毎に前記複数のプロセッサ・エレメント
に処理を割り当てることを特徴とする並列処理方法。
【請求項３】ホスト計算機と、１つまたは複数個のプロ
セッサエレメントとを備え、請求項１または請求項２に
記載の並列処理方法を実行する並列処理装置であって、前記ホスト計算機は、少なくとも、前記複数のプロセッサエレメントに対する前記ＲとＴと
が固定されたジョブ単位の割り当て決定と、前記プロセッサエレメントに対して送信すべき前記行列
Ｐの一部の行列要素の選択と、前記選択された行列要素の前記プロセッサエレメントに
対する送信と、プロセッサ・エレメントから送信された行列Ｆの一部の
行列要素の受信と、前記行列Ｆを用いた前記行列Ｐの更新と、を行い、前記プロセッサエレメントは、前記ホスト計算機との間
でデータの送受信が可能で、少なくとも、前記ホスト計算機から送信された前記行列Ｐの一部の行
列要素の受信と、前記Ｓに関するループの制御と、前記Ｕに関するループの制御と、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）または前記関数ｇ（ｉ，
ｊ，ｋ，ｌ）の計算と、前記行列Ｆの一部の行列要素の計算と、前記行列Ｆの一部の行列要素の前記ホスト計算機に対す
る送信とを行い、かつ、少なくとも前記ホスト計算機か
ら送信された前記行列Ｐの一部の行列要素と、前記ホスト計算機へ送信する前記行列Ｆの一部の行列要
素とを格納するデータ格納手段を備えることを特徴とす
る並列処理装置。
【請求項４】請求項１に記載の並列処理方法において、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｒ，Ｓ）の計算を行うために用いる行列要素Ｐ（Ｔ，
Ｕ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｔ，Ｕ）を除いた
全てと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｔ，Ｕ）の計算を行うために用いる行列要素Ｐ（Ｒ，
Ｓ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｒ，Ｓ）を除いた
全てと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｒ，Ｕ）の計算を行うために用いる行列要素Ｐ（Ｔ，
Ｓ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｔ，Ｓ）を除いた
全てと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｓ，Ｔ）の計算を行うために用いる行列要素Ｐ（Ｒ，
Ｕ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｒ，Ｕ）を除いた
全てとを含むデータを、前記変数Ｓおよび前記変数Ｕに
関するループのうち、外側に位置するものの開始前に、
前記ホスト計算機から前記プロセッサエレメントに転送
することを特徴とする並列処理方法。
【請求項５】請求項２に記載の並列処理方法において、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｉ，Ｊ）の計算を行うために用いる行列要素Ｐ（Ｋ，
Ｌ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｋ，Ｌ）を除いた
全てと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｋ，Ｌ）の計算を行うために用いる行列要素Ｐ（Ｉ，
Ｊ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｉ，Ｊ）を除いた
全てと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｉ，Ｌ）の計算を行うために用いる行列要素Ｐ（Ｋ，
Ｊ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｋ，Ｊ）を除いた
全てと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｊ，Ｋ）の計算を行うために用いる行列要素Ｐ（Ｉ，
Ｌ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｒ，Ｕ）またはＰ
（Ｉ，Ｌ）を除いた全てとを含むデータを、前記インデ
ックスＳおよび前記インデックスＵに関するループのう
ち、外側に位置するものの開始前に、前記ホスト計算機
から前記プロセッサエレメントに転送することを特徴と
する並列処理方法。
【請求項６】請求項４に記載の並列処理方法において、前記ホスト計算機から前記プロセッサエレメントへ送信
されるデータが、少なくとも、前記変数Ｒを表わすデータと前記変数Ｔを表わすデー
タ、または前記変数ＲとＴとの組み合わせを一意的に表
わすデータと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｒ，Ｓ）の計算を行うために用いる行列要素Ｐ（Ｔ，
Ｕ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｔ，Ｕ）を除いた
全ての数値データと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｔ，Ｕ）の計算を行うために用いる行列要素Ｐ（Ｒ，
Ｓ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｒ，Ｓ）を除いた
全ての数値データと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｒ，Ｕ）の計算を行うために用いる行列要素Ｐ（Ｔ，
Ｓ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｔ，Ｓ）を除いた
全ての数値データと、前記関数Ｇ（Ｒ，Ｓ，Ｔ，Ｕ）に乗じて行列要素Ｆ
（Ｒ，Ｕ）の計算を行うために用いる行列要素Ｐ（Ｔ，
Ｓ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数Ｇ（Ｒ，Ｓ，
Ｔ，Ｕ）に乗じるための行列要素Ｐ（Ｔ，Ｓ）を除いた
全ての数値データと、前記行列要素Ｐ（Ｔ，Ｕ）およびＰ（Ｒ，Ｕ）を特定す
る前記変数Ｕを表わすデータと、前記行列要素Ｐ（Ｒ，Ｓ）およびＰ（Ｔ，Ｓ）を特定す
る変数Ｓを表わすデータと、上記変数Ｕの個数を表わすデータと、上記変数Ｓの個数を表わすデータとから構成されること
を特徴とする並列処理方法。
【請求項７】請求項５に記載の並列処理方法において、前記ホスト計算機から前記プロセッサエレメントへ送信
されるデータが、少なくとも、前記インデックスＲを表わすデータと前記インデックス
Ｔを表わすデータ、または前記インデックスＲとＴとの
組み合わせを一意的に表わすデータと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｉ，Ｊ）の計算を行うために用いる行列要素Ｐ（Ｋ，
Ｌ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｋ，Ｌ）を除いた
全ての数値データと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｋ，Ｌ）の計算を行うために用いる行列要素Ｐ（Ｉ，
Ｊ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｉ，Ｊ）を除いた
全ての数値データと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｉ，Ｌ）の計算を行うために用いる行列要素Ｐ（Ｋ，
Ｊ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｋ，Ｊ）を除いた
全ての数値データと、前記関数ｇ（ｉ，ｊ，ｋ，ｌ）に乗じて行列要素Ｆ
（Ｉ，Ｌ）の計算を行うために用いる行列要素Ｐ（Ｋ，
Ｊ）のうち、前記プロセッサエレメントで計算されない
ことがあらかじめ判明している、前記関数ｇ（ｉ，ｊ，
ｋ，ｌ）に乗じるための行列要素Ｐ（Ｋ，Ｊ）を除いた
全ての数値データと、前記行列要素Ｐ（Ｋ，Ｌ）およびＰ（Ｉ，Ｌ）を特定す
る、前記インデックスＬで代表される縮約基底関数を構
成要素とする前記縮約シェルＵを表わすデータと、前記行列要素Ｐ（Ｉ，Ｊ）およびＰ（Ｋ，Ｊ）を特定す
る、前記インデックスＪで代表される縮約基底関数を構
成要素とする前記縮約シェルＳを表わすデータと、前記縮約シェルＵの個数を表わすデータと、前記縮約シェルＳの個数を表わすデータとから構成され
ることを特徴とする並列処理方法。
【請求項８】請求項４に記載の並列処理方法において、前記プロセッサエレメントで計算された行列要素Ｆ
（Ｒ，Ｓ）、Ｆ（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）、Ｆ（Ｓ，
Ｔ）の全てを、前記Ｓおよび前記Ｕに関するループのう
ち、外側に位置するものの終了後に、前記プロセッサエ
レメントから前記ホスト計算機に転送することを特徴と
する並列処理方法。
【請求項９】請求項５に記載の並列処理方法において、前記プロセッサエレメントで計算された行列要素Ｆ
（Ｉ，Ｊ）、Ｆ（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）、Ｆ（Ｊ，
Ｋ）の全てを、前記Ｓおよび前記Ｕに関するループのう
ち、外側に位置するものの終了後に、前記プロセッサエ
レメントから前記ホスト計算機に転送することを特徴と
する並列処理方法。
【請求項１０】請求項６または請求項８に記載の並列処
理方法において、前記プロセッサエレメントから前記ホスト計算機へ送信
されるデータが、少なくとも、前記プロセッサエレメントで計算された行列要素Ｆ
（Ｒ，Ｓ）、Ｆ（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）、Ｆ（Ｔ，
Ｓ）から構成されることを特徴とする並列処理方法。
【請求項１１】請求項７または請求項９に記載の並列処
理方法において、前記プロセッサエレメントから前記ホスト計算機へ送信
されるデータが、少なくとも、前記プロセッサエレメントで計算された行列要素Ｆ
（Ｉ，Ｊ）、Ｆ（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）、Ｆ（Ｋ，
Ｊ）から構成されることを特徴とする並列処理方法。
【請求項１２】請求項６に記載の並列処理方法におい
て、前記プロセッサエレメントにおける前記変数Ｓおよび前
記変数Ｕに関するループ制御は、前記行列要素Ｐ（Ｒ，Ｓ）およびＰ（Ｔ，Ｓ）を特定す
る変数Ｓを表わすデータを、その最初から前記変数Ｓの
個数を表わすデータで示される個数まで順次読み取りな
がら前記変数Ｓに関するループを制御し、前記行列要素Ｐ（Ｔ，Ｕ）およびＰ（Ｒ，Ｕ）を特定す
る変数Ｕを表わすデータを、その最初から前記変数Ｕの
個数を表わすデータで示される個数まで順次読み取りな
がら前記変数Ｕに関するループを制御することにより行
われることを特徴とする並列処理方法。
【請求項１３】請求項７に記載の並列処理方法におい
て、前記プロセッサエレメントにおける前記Ｓおよび前記Ｕ
に関するループ制御は、前記行列要素Ｐ（Ｉ，Ｊ）およびＰ（Ｋ，Ｊ）を特定す
る、インデックスＪで代表される縮約基底関数を構成要
素とする縮約シェルＳを表わすデータを、その最初から
前記縮約シェルＳの個数を表わすデータで示される個数
まで順次読み取りながら前記Ｓに関するループを制御
し、前記行列要素Ｐ（Ｋ，Ｌ）およびＰ（Ｉ，Ｌ）を特定す
る、インデックスＬで代表される縮約基底関数を構成要
素とする縮約シェルＵを表わすデータを、その最初から
前記縮約シェルＵの個数を表わすデータで示される個数
まで順次読み取りながら前記Ｕに関するループを制御す
ることにより行われることを特徴とする並列処理方法。
【請求項１４】請求項１０に記載の並列処理方法におい
て、行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、
Ｐ（Ｔ，Ｓ）と、行列要素Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，
Ｕ）、Ｆ（Ｒ，Ｕ）、Ｆ（Ｔ，Ｓ）との全てを、前記プ
ロセッサエレメントに備えられたデータ格納手段に格納
できない場合に、前記ホスト計算機は、前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、Ｆ（Ｔ，
Ｕ）、Ｆ（Ｒ，Ｕ）の全てを前記データ格納手段に格納
可能であれば、前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、Ｆ（Ｔ，
Ｕ）、Ｆ（Ｒ，Ｕ）の全てとともに前記データ格納手段
に前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）、Ｆ（Ｒ，
Ｓ）、Ｆ（Ｔ，Ｓ）を格納できるように、前記変数Ｓの
範囲を区切って、前記ジョブを複数のサブジョブに分割
し、前記分割された複数のサブジョブを、同一の前記プロセ
ッサエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）を
前記プロセッサエレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサエ
レメントに対して行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）
を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）を前記プロセッサエレメント
から受信するようにし、前記行列要素Ｐ（Ｒ，Ｕ）、Ｐ（Ｔ，Ｕ）、Ｆ（Ｒ，
Ｕ）、Ｆ（Ｔ，Ｕ）の全てを前記データ格納手段に格納
することができず、かつ、前記行列要素Ｐ（Ｒ，Ｓ）、
Ｐ（Ｔ，Ｓ）、Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）の全てを、
前記データ格納手段に格納可能であれば、前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）、Ｆ（Ｒ，
Ｓ）、Ｆ（Ｔ，Ｓ）の全てとともに前記データ格納手段
に行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、Ｆ（Ｔ，
Ｕ）、Ｆ（Ｒ，Ｕ）を格納できるように、前記変数Ｕの
範囲を区切って、前記ジョブを複数のサブジョブに分割
し、前記分割された複数のサブジョブを、同一の前記プロセ
ッサエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）を
前記プロセッサエレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサエ
レメントに対して前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，
Ｕ）を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）を前記プロセッサエレメント
から受信することを特徴とする並列処理方法。
【請求項１５】請求項１１に記載の並列処理方法におい
て、行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、
Ｐ（Ｋ，Ｊ）と、行列要素Ｆ（Ｉ，Ｊ）、Ｆ（Ｋ，
Ｌ）、Ｆ（Ｉ，Ｌ）、Ｆ（Ｋ，Ｊ）の全てをプロセッサ
エレメントに備えられたデータ格納手段に格納できない
場合に、前記ホスト計算機は、前記行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、Ｆ（Ｋ，
Ｌ）、Ｆ（Ｉ，Ｌ）の全てを前記データ格納手段に格納
可能であれば、前記行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、Ｆ（Ｋ，
Ｌ）、Ｆ（Ｉ，Ｌ）の全てとともに前記データ格納手段
に前記行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）、Ｆ（Ｉ，
Ｊ）、Ｆ（Ｋ，Ｊ）を格納できるように、前記縮約シェ
ルＳの範囲を区切って、前記ジョブを複数のサブジョブ
に分割し、前記分割された複数のサブジョブを同一の前記プロセッ
サエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）を
前記プロセッサエレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサエ
レメントに対して前記行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，
Ｊ）を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｉ，Ｊ）、Ｆ（Ｋ，Ｊ）を前記プロセッサエレメント
から受信するようにし、前記行列要素Ｐ（Ｉ，Ｌ）、Ｐ（Ｋ，Ｌ）、Ｆ（Ｉ，
Ｌ）、Ｆ（Ｋ，Ｌ）の全てを前記データ格納手段に格納
することができず、かつ、前記行列要素Ｐ（Ｉ，Ｊ）、
Ｐ（Ｋ，Ｊ）、Ｆ（Ｉ，Ｊ）、Ｆ（Ｋ，Ｊ）の全てを前
記データ格納手段に格納可能であれば、前記行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）、Ｆ（Ｉ，
Ｊ）、Ｆ（Ｋ，Ｊ）の全てとともに前記データ格納手段
に行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、Ｆ（Ｋ，
Ｌ）、Ｆ（Ｉ，Ｌ）を格納できるように、前記縮約シェ
ルＵの範囲を区切って、前記ジョブを複数のサブジョブ
に分割し、前記分割された複数のサブジョブを、同一の前記プロセ
ッサエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｉ，Ｊ）、Ｆ（Ｋ，Ｊ）を
前記プロセッサエレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサエ
レメントに対して前記行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，
Ｌ）を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）を前記プロセッサエレメント
から受信することを特徴とする並列処理方法。
【請求項１６】請求項１０に記載の並列処理方法におい
て、行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、
Ｐ（Ｔ，Ｓ）と、行列要素Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，
Ｕ）、Ｆ（Ｒ，Ｕ）、Ｆ（Ｔ，Ｓ）の全てを、前記プロ
セッサエレメントに備えられたデータ格納手段に格納で
きない場合に、前記ホスト計算機は、前記行列要素Ｐ（Ｒ，Ｓ）と前記行列要素Ｐ（Ｔ，Ｓ）
の個数の和が、前記行列要素Ｐ（Ｒ，Ｕ）と前記行列要
素Ｐ（Ｔ，Ｕ）の個数の和よりも大きく、かつ、前記行
列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、Ｆ（Ｔ，Ｕ）、Ｆ
（Ｒ，Ｕ）の全てを、前記データ格納手段に格納可能で
なければ、前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、Ｆ（Ｔ，
Ｕ）、Ｆ（Ｒ，Ｕ）が前記データ格納手段に格納可能と
なるように、前記変数Ｕの範囲を等分割し、前記等分割された前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，
Ｕ）、Ｆ（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）とともに前記データ
格納手段に前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）、
Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）を格納できるように、前記
変数Ｓの範囲を区切って、前記ジョブを複数のサブジョ
ブに分割し、前記分割された複数のサブジョブを、同一の前記プロセ
ッサエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）を
前記プロセッサエレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサエ
レメントに対して前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，
Ｓ）を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）を前記プロセッサエレメント
から受信するようにし、前記行列要素Ｐ（Ｒ，Ｓ）と前記行列要素Ｐ（Ｔ，Ｓ）
の個数の和が、前記行列要素Ｐ（Ｒ，Ｕ）と前記行列要
素Ｐ（Ｔ，Ｕ）の個数の和よりも小さいか、または等し
く、かつ、前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）、
Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）の全てを前記データ格納手
段に格納可能でなければ、前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）、Ｆ（Ｒ，
Ｓ）、Ｆ（Ｔ，Ｓ）が前記データ格納手段に格納可能と
なるように、前記変数Ｓの範囲を等分割し、前記等分割された前記行列要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，
Ｓ）、Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）とともに前記データ
格納手段に前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ（Ｒ，Ｕ）、
Ｆ（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）を格納できるように、前記
変数Ｕの範囲を区切って、前記ジョブを複数のサブジョ
ブに分割し、前記分割された複数のサブジョブを、同一の前記プロセ
ッサ・エレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｒ，Ｓ）、Ｐ（Ｔ，Ｓ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｒ，Ｓ）、Ｆ（Ｔ，Ｓ）を
前記プロセッサ・エレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサ・
エレメントに対して前記行列要素Ｐ（Ｔ，Ｕ）、Ｐ
（Ｒ，Ｕ）を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｔ，Ｕ）、Ｆ（Ｒ，Ｕ）を前記プロセッサエレメント
から受信する、ことを特徴とする並列処理方法。
【請求項１７】請求項１１に記載の並列処理方法におい
て、行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、
Ｐ（Ｋ，Ｊ）と、行列要素Ｆ（Ｉ，Ｊ）、Ｆ（Ｋ，
Ｌ）、Ｆ（Ｉ，Ｌ）、Ｆ（Ｋ，Ｊ）の全てを、前記プロ
セッサエレメントに備えられたデータ格納手段に格納で
きない場合に、前記ホスト計算機は、前記行列要素Ｐ（Ｉ，Ｊ）と前記行列要素Ｐ（Ｋ，Ｊ）
の個数の和が、前記行列要素Ｐ（Ｉ，Ｌ）と前記行列要
素Ｐ（Ｋ，Ｌ）の個数の和よりも大きく、かつ、前記行
列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、Ｆ（Ｋ，Ｌ）、Ｆ
（Ｉ，Ｌ）の全てを前記データ格納手段に格納可能でな
ければ、行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、Ｆ（Ｋ，Ｌ）、
Ｆ（Ｉ，Ｌ）を前記データ格納手段に格納可能となるよ
うに縮約シェルＵの範囲を等分割し、前記等分割された行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，
Ｌ）、Ｆ（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）とともに前記データ
格納手段に行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）、Ｆ
（Ｉ，Ｊ）、Ｆ（Ｋ，Ｊ）を格納できるように縮約シェ
ルＳの範囲を区切ってジョブを複数のサブジョブに分割
し、前記のように区切られた複数のサブジョブを同一の前記
プロセッサエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ前記プロセッサ・エレメントに対して行列要素
Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ行列要素Ｆ（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）を前記プ
ロセッサ・エレメントから受信し、前記複数の各サブジョブの開始時に前記プロセッサエレ
メントに対して行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）を
送信し、前記複数の各サブジョブの終了時に行列要素Ｆ（Ｉ，
Ｊ）、Ｆ（Ｋ，Ｊ）を前記プロセッサエレメントから受
信するようにし、行列要素Ｐ（Ｉ，Ｊ）と前記行列要素Ｐ（Ｋ，Ｊ）の個
数の和が行列要素Ｐ（Ｉ，Ｌ）と前記行列要素Ｐ（Ｋ，
Ｌ）の個数の和よりも小さいか、または等しく、かつ、
前記行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）、Ｆ（Ｉ，
Ｊ）、Ｆ（Ｋ，Ｊ）の全てを前記データ格納手段に格納
可能でなければ、前記行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）、Ｆ（Ｉ，
Ｊ）、Ｆ（Ｋ，Ｊ）を前記データ格納手段に格納可能と
なるように、前記縮約シェルＳの範囲を等分割し、前記等分割された前記行列要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，
Ｊ）、Ｆ（Ｉ，Ｊ）、Ｆ（Ｋ，Ｊ）とともに前記データ
格納手段に前記行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）、
Ｆ（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）を格納できるように、前記
縮約シェルＵの範囲を区切って、前記ジョブを複数のサ
ブジョブに分割し、前記分割された複数のサブジョブを、同一の前記プロセ
ッサエレメントに割り当て、前記複数のサブジョブのうちの最初のサブジョブの開始
時にだけ、前記プロセッサエレメントに対して前記行列
要素Ｐ（Ｉ，Ｊ）、Ｐ（Ｋ，Ｊ）を送信し、前記複数のサブジョブのうちの最後のサブジョブの終了
時にだけ、前記行列要素Ｆ（Ｉ，Ｊ）、Ｆ（Ｋ，Ｊ）を
前記プロセッサエレメントから受信し、前記複数の各サブジョブの開始時に、前記プロセッサエ
レメントに対して行列要素Ｐ（Ｋ，Ｌ）、Ｐ（Ｉ，Ｌ）
を送信し、前記複数の各サブジョブの終了時に、前記行列要素Ｆ
（Ｋ，Ｌ）、Ｆ（Ｉ，Ｌ）を前記プロセッサエレメント
から受信することを特徴とする並列処理方法。