JP3524430B2

JP3524430B2 - 並列計算機におけるリダクション処理方法

Info

Publication number: JP3524430B2
Application number: JP14526299A
Authority: JP
Inventors: 洋光永; 和也樋口; 俊明砂子; 知晴石崎; 博之櫻庭; 均木原; 敏文田中; 保佐藤
Original assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Current assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Priority date: 1999-05-25
Filing date: 1999-05-25
Publication date: 2004-05-10
Anticipated expiration: 2019-05-25
Also published as: JP2000339278A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、並列計算機を構成
するＮ個の計算機が持つデータに対して、各計算機内の
同位置にある全てのデータを演算する並列計算機におけ
るリダクション処理方法に係り、特に、前記Ｎ個の計算
機が高速に同一の演算結果を得ることを可能にした並列
計算機におけるリダクション処理方法に関する。

【０００２】

【従来の技術】並列計算機において、演算に関わる全て
の計算機で同一の演算結果を得るためのリダクション処
理に関する従来技術として、特開平９−８１５３０号公
報等に記載された技術が知られている。この従来技術
は、ハイパーキューブアルゴリズムを用いたコンビネー
ション処理部（以下、演算部という）と、演算部での処
理後の演算を省いた処理（以下、収集部という）とを使
用することにより行われている。

【０００３】しかし、従来技術で使用されるハイパーキ
ューブアルゴリズムは、並列計算機を構成する計算機の
個数が２のべき乗個の場合にしか適用することができな
いものである。このため、前述のハイパーキューブアル
ゴリズムを使用する従来技術は、計算機の個数が２のべ
き乗個でない場合、全計算機個数より小さい最大の２の
べき乗（＝２^k ）個の計算機（以下、２のべき乗個の計
算機という）と、最大の２のべき乗（＝２^k ）個を超え
る計算機（以下、端数計算機という）とに分け、端数計
算機が、２のべき乗個の計算機に全データを転送し、２
のべき乗個の計算機が、演算を行い（以下、転入ステッ
プという）、端数計算機のデータを保持する状態で演算
部及び収集部での処理を行う必要があり、また、収集部
での処理終了後、２のべき乗個の計算機が端数計算機に
演算結果を転送する（以下、転出ステップという）必要
があるものである。

【０００４】

【発明が解決しようとする課題】前述した従来技術は、
並列計算機を構成する計算機の個数が２のべき乗個の場
合に、最適なリダクション処理を行うことができるもの
であるが、計算機個数が２のべき乗個でない場合、端数
計算機の処理だけで２のべき乗個の計算機による処理と
同一の時間が余分にかかってしまうという問題点を有し
ている。このため、前述した従来技術は、全体の計算時
間を短縮するために並列計算機を構成する計算機個数を
増加させても、前述した従来技術によるリダクション処
理を行うと、計算機を増加したメリットが損なわれてし
まうという問題点を生じる。

【０００５】本発明の目的は、前記従来技術の問題点を
解決し、並列計算機を構成する計算機個数をＮとし、Ｎ
が、２ⁿ ＜Ｎ＜２ⁿ⁺¹−１（ｎは自然数）となる場合
に、端数計算機の処理にかかる時間を短縮することがで
きる並列計算機におけるリダクション処理方法を提供す
ることにある。

【０００６】

【課題を解決するための手段】本発明によれば前記目的
は、固有の識別番号を有する複数個の計算機がネットワ
ークで結合され、演算に関わる計算機が保持するデータ
を、演算部と収集部とにより演算し、演算に関わる計算
機で同一の演算結果を得る並列計算機におけるリダクシ
ョン処理方法において、演算に関わる計算機個数をＮと
し、Ｎが２ⁿ ＜Ｎ＜２ⁿ⁺¹ であり、かつ、Ｎ−２ⁿ （ｎ
は自然数）が２^m （ｍは自然数）で割り切れる場合、２
ⁿ 個の計算機を２のべき乗の計算機とし、残りのＮ−２
ⁿ 個の計算機を端数計算機とし、前記端数計算機は、前
記２のべき乗の計算機と同時に演算部を行い、途中で前
記２のべき乗の計算機に演算済みのデータを転入して演
算させる演算部を実行することにより達成される。

【０００７】また、前記目的は、演算に関わる計算機個
数をＮとし、Ｎが２ⁿ ＜Ｎ＜２ⁿ⁺¹−１であり、かつ、
Ｎ−２ⁿ （ｎは自然数）が２^m （ｍは自然数）で割り切
れない場合、２ⁿ 個の計算機を２のべき乗の計算機と
し、残りのＮ−２ⁿ 個の計算機のうち２^m （ｍは自然
数）で割り切れる数の計算機を端数計算機とし、残りの
計算機を余り計算機とし、前記余り計算機を除く計算機
は、データを転入して演算し、途中で、余り計算機が、
２のべき乗の計算機にデータを分割して転入して演算さ
せる演算部を実行することにより達成される。

【０００８】

【発明の実施の形態】以下、本発明による並列計算機に
おけるリダクション処理方法の一実施形態を図面により
詳細に説明する。

【０００９】図１は並列計算機を構成する計算機の個数
に基づいて、各計算機に適用する処理方法を決定する手
順を説明するフローチャート、図５は本発明が適用され
る並列計算機の構成例、各計算機の構成例を示すブロッ
ク図及び記憶装置に格納される演算データの例を説明す
る図である。図５において、５０１はネットワーク、５
０２〜５０７は計算機“１”〜“ｎ−１”、５０８は通
信装置、５０９は演算処理装置、５１０は記憶装置であ
る。

【００１０】本発明による並列計算機におけるリダクシ
ョン処理方法は、ペアとなる計算機との間で異なる部分
データをお互いに転送し、相手計算機から受信する部分
データと自計算機が持つ同位置の部分データとに対して
加算等の演算を行うコンビネーション処理を使用するも
のである。

【００１１】まず、図５（Ａ）を参照して、本発明が適
用される並列計算機の構成を説明する。本発明が適用さ
れる並列計算機は、ｎ台の計算機５０２〜５０７がネッ
トワーク５０１によって結合されて構成される。そし
て、各計算機は、計算機“０”５０２を例に示している
ように、ネットワーク５０１を介して計算機相互間で通
信を行う通信装置５０８と、演算を行う演算処理装置５
０９と、データを保持する記憶装置５１０とにより構成
されている。

【００１２】各計算機内の記憶装置５１０には、計算機
“０”５０２の記憶装置５１０の例として、図５（Ｂ）
に示すように、初期データ５１１と、演算結果５１２と
が格納される。初期データ５１１は、分割された複数の
部分データ５１３により構成され、図示例における初期
データ５１１の配列は、計算機上で初期データを４分割
した部分データの配列の例であり、例えば、図５（Ｂ）
におけるＳ１｛０｝は、計算機“０”上で４分割した２
番目の部分データである。また、演算結果５１２の配列
は、計算機“０”〜計算機“ｎ−１”において、部分デ
ータを演算して得られた部分データ５１４の配列であ
り、Ｓ１｛０１２３４...ｎ−１｝は、計算機“０”〜
計算機“ｎ−１”の各計算機の２番目の部分データを演
算して得られた演算結果を示している。すなわち、Ｓｉ
｛ｊ｝は、計算機“ｊ”のｉ＋１番目の部分データを意
味しており、Ｓｉ｛ｊｋ｝は、部分データＳｉ｛ｊ｝
と、Ｓｉ｛ｋ｝とを演算した結果を意味している。

【００１３】次に、図１に示すフローを参照して、並列
計算機を構成する計算機の個数に基づいて、各計算機に
適用する処理方法を決定する手順を説明する。

【００１４】（１）並列計算機を構成する計算機の個数
が２のべき乗個であるか否か、計算機の個数が２のべき
乗個でない場合、端数計算機の個数が偶数か否か、端数
計算機の個数が偶数でない場合、計算機の個数が２のべ
き乗個−１であるか否かをチェックして並列計算機を構
成している計算機の個数を判定する（ステップ１０１〜
１０３）。

【００１５】（２）ステップ１０１で、計算機の個数が
２のべき乗個であると判定された場合、従来技術による
ハイパーキューブアルゴリズムにより演算部での処理を
行い、また、従来技術によるハイパーキューブアルゴリ
ズムにより収集部での処理を行う（ステップ１０４）。

【００１６】（３）ステップ１０２、ステップ１０３
で、端数計算機の個数が２のべき乗個−１であると判定
された場合、従来技術の場合と同様に、演算部での処理
の前に転入ステップを行い、端数計算機のデータを２の
べき乗の計算機に転送し、従来技術によるハイパーキュ
ーブアルゴリズムにより演算部での処理を行い、従来技
術によるハイパーキューブアルゴリズムにより収集部で
の処理を行う。処理後、２のべき乗計算機内の演算結果
を端数計算機に転送する転出ステップを行う（ステップ
１０５）。

【００１７】（４）ステップ１０２、ステップ１０３
で、端数計算機の個数が奇数で、２のべき乗個−１でな
いと判定された場合、演算部、収集部を行うとき、余り
計算機がそれぞれ異なる２のべき乗の計算機に対して、
余り計算機が持つ異なる１／２のデータを対象に転入ス
テップ、転出ステップを２回に別けて行う。すなわち、
余り計算機を除く計算機がハイパーキューブアルゴリズ
ムによりデータの転送と演算を行う。その途中で、余り
計算機が２のべき乗の計算機にデータを分割して転送し
演算する演算部の処理を行う。ままた、余り計算機を除
く計算機が、ハイパーキューブアルゴリズムにより演算
結果の転送を行う。その途中で、２のべき乗の計算機か
ら余り計算機へ演算結果を分割して転送する収集部の処
理を行う。なお、この処理の詳細は、図３、図４により
後述する（ステップ１０６）。

【００１８】（５）ステップ１０２で、端数計算機の個
数が偶数個であると判定された場合、全ての計算機がハ
イパーキューブアルゴリズムにより演算部、収集部の処
理を行うが、途中で端数計算機の演算済みデータのみを
対象に転入ステップ、転出ステップを行う。すなわち、
全ての計算機がハイパーキューブアルゴリズムによりデ
ータの転送、演算を行う、その途中で、端数計算機の演
算済みデータを２のべき乗の計算機に転送、演算する演
算部の処理を行う。また、全ての計算機がハイパーキュ
ーブアルゴリズムにより演算結果の転送を行う。その途
中で、２のべき乗の計算機の演算済み結果を端数計算機
に転送する収集部の処理を行う。なお、この処理の詳細
は、図２により後述する（ステップ１０７）。

【００１９】図６は計算機個数が２のべき乗でない場合
の従来技術によるデータの流れを、計算機個数が６の場
合を例として、転入ステップと演算部とについて説明す
る図、図７は計算機個数が２のべき乗でない場合の従来
技術によるデータの流れを、計算機個数が６の場合を例
として、転出ステップと収集部とについて説明する図で
あり、本発明によるデータの流れを説明する前に、従来
技術によるデータの流れについて説明する。なお、この
例では計算機“４”、“５”が端数計算機となる。

【００２０】図６、図７において、６０１〜６０６は各
計算機とその計算機が持つデータを表しており、矢印６
０８はデータ転送とデータを受信した計算機が演算を行
うことを表している。また、矢印７０１は演算結果の転
送を表している。

【００２１】次に、図６、図７に示す各ステップでのデ
ータ転送の内容と転送相手及び演算後に各計算機が持つ
演算済みデータについて説明する。

【００２２】（１）６０７として示すステップ０には、
各計算機が持つ初期データを示している。

【００２３】（２）６０９として示す転入ステップで
は、次のように処理が行われる。（ａ）端数計算機“４”のデータS0{4}、S1{4}、S2
{4}、S3{4}（以下、これらの各部分データを纏めてS012
3{4}と記述する）を計算機“０”へ転送する。計算機
“０”では、対応するデータS0123{0}との演算を行い、
S0123{04}を得る(以下、データの転送部分を「計算機
“４”S0123{4}⇒計算機“０”」等と記述し、その後得
た演算結果を「計算機“０”S0123{04}」等と記述す
る）。（ｂ）計算機“５”S0123{5}⇒計算機“１” 計算機“１”S0123{15} このような転入ステップにより端数計算機“４”、
“５”のデータが計算機“０”、“１”に含まれること
になり、以降２のべき乗の計算機のみで処理を行うこと
ができる。

【００２４】（３）６１０として示す演算部ステップ１
では、次のような処理が行われる。（ａ）計算機“０”の部分データS23{04}と計算機
“１”の部分データＳ０１｛１５｝をお互いに転送し、
各計算機が持つ同位置の部分データとの演算を行い、そ
れぞれ、Ｓ０１｛０１４５｝、S23{0145}を得る（以
下、データをお互いに転送する部分を「計算機“０”S2
3{04}⇔計算機“１”S01{15}」等と記述し、その後得た
演算結果を「計算機“０”S01{0145}：計算機“１”S23
{0145}」等と記述する）。（ｂ）計算機“２”S23{2}⇔計算機“３”S01{3} 計算機“２”S01{23}：計算機“３”S23{23}

【００２５】（４）６１１として示す演算部ステップ２
では、次のような処理が行われる。（ａ）計算機“０”S1{0145}⇔計算機“２”S0{23} 計算機“０”S0{012345}：計算機“２”S1{012345} （ｂ）計算機“１”S3{0145}⇔計算機“３”S2{23} 計算機“１”S2{012345}：計算機“３”S3{012345} 以上で、演算部による処理が完了し、２のべき乗の計算
機が全ての演算結果を分散して保持したことになる。

【００２６】（５）７０２として示す収集部ステップ１
では、次のような処理が行われる。（ａ）計算機“０”S0{012345}⇔計算機“２”S1{01234
5} 計算機“０”S01{012345}：計算機“２”S01{012345} （ｂ）計算機“１”S2{012345}⇔計算機“３”S3{01234
5} 計算機“１”S23{012345}：計算機“３”S23{012345}

【００２７】（６）７０３として示す収集部ステップ２
では、次のような処理が行われる。（ａ）計算機“０”S01{012345}⇔計算機“１”S23{012
345} 計算機“０”S0123{012345}：計算機“１”S0123{01234
5} （ｂ）計算機“２”S01{012345}⇔計算機“３”S23{012
345} 計算機“２”S0123{012345}：計算機“３”S0123{01234
5} 以上で、収集部の処理が完了し、２のべき乗の計算機が
全ての演算結果を得ることができる。

【００２８】（７）７０４として示す転出ステップで
は、次のような処理が行われる。（ａ）計算機“０”S0123{012345}⇒計算機“４”計算
機“４”S0123{012345} （ｂ）計算機“１”S0123{012345}⇒計算機“５”計算
機“５”S0123{012345}

【００２９】従来技術においては、以上の処理により、
端数計算機を含めて全ての計算機は全ての演算結果を得
ることができるが、転入ステップ、転出ステップで転送
するデータが端数計算機が持つデータの全てを対象とし
ているため、転入ステップ、転出ステップが、それぞれ
演算部、収集部と同じくらいの処理時間を要してしまう
ことになる。

【００３０】図２は計算機個数をＮとし、２ⁿ ＜Ｎ＜２
ⁿ⁺¹ かつＮ−２ⁿ が２^m （ｎ、ｍは自然数）で割り切れ
る任意のＮ台の計算機による本発明の実施形態によるリ
ダクション処理を説明するフローチャートであり、以
下、図２を参照して、本発明の実施形態による処理を演
算部と収集部に分けて説明する。

【００３１】（１）計算機の個数をＮ、２のべき乗の計
算機の個数をＮ２、端数計算機の個数を割り切れる最大
の２^m （ｍは自然数）をＮＨとする。また、Ｒを自計算
機の識別番号とする。Ｓhiftはハイパーキューブアルゴ
リズムを使用するための変数であり、１に初期設定する
（ステップ２０１）。

【００３２】（２）ＲとＮ２とを比較し、自計算機が端
数計算機であるか、２のべき乗の計算機であるか判定す
る。Ｒ≧Ｎ２の場合、自計算機が端数計算機であると判
定し、Ｎ２＞Ｒの場合、自計算機が２のべき乗の計算機
であると判定して処理を分ける（ステップ２０２）。

【００３３】（３）ステップ２０２で、自計算機が端数
計算機であると判定した場合、通信相手となる計算機の
番号を、ＲとＳhiftとのビット毎の論理積をとった値が
１であればＲ−Ｓhiftとして、論理積の値が０であれば
Ｒ＋Ｓhiftとして求める（ステップ２０３）。

【００３４】（４）求めた通信相手の計算機に対してＲ
とＳhiftとのビット毎の論理積をとった値が１であれ
ば、演算済み部分データ（演算前は全てのデータ）の上
位１／２を送信し下位１／２を受信してデータをお互い
に転送する。また、論理積の値が０であれば下位１／２
を送信し上位１／２を受信してデータをお互いに転送す
る。その後、受信した部分データに対して演算を行う
（ステップ２０４）。

【００３５】（５）Ｓhiftを２倍にしてＳhiftとし、そ
のＳhiftとＮＨとを比較する。ＳhiftがＮＨより小さい
間、ステップ２０３以降の処理を繰り返す。また、Ｓhi
ftがＮＨ以上になると、端数計算機は、Ｒ−Ｎ２を識別
番号とする２のべき乗の計算機に演算済み部分データを
送信する。このとき送信するデータ量は、１つの計算機
が持つデータ量の１／ＮＨとなる（ステップ２０５〜２
０７）。

【００３６】（６）一方、ステップ２０２で、自計算機
が２のべき乗の計算機であると判定した場合、２のべき
乗の計算機は、端数計算機の場合のステップ２０３での
方法と同様にして通信相手となる計算機を求め、また、
ステップ２０４での方法と同様にして部分データをお互
いに転送し受信した部分データに対して演算を行う（ス
テップ２０８、２０９）。

【００３７】（７）Ｓhiftを２倍にしてＳhiftとし、そ
のＳhiftがＮＨと等しくなく、かつ、Ｎ２より小さい
間、ステップ２０８からの処理を繰り返す（ステップ２
１０、２１１、２１３）。

【００３８】（８）ステップ２１１でＳhiftがＮＨと等
しく、Ｎ−ＲがＮ２より大きいと判別された場合、Ｓhi
ftがＮＨと等しく、Ｎ−ＲがＮ２より大きい識別番号を
持つ計算機は、Ｒ＋Ｎ２を識別番号とする端数計算機よ
り、前述のステップ２０７で送信された１／ＮＨの部分
データを受信して演算を行う（ステップ２１２）。

【００３９】（９）ステップ２１３を介したループが終
了したとき演算部での処理が終了し、全ての計算機のデ
ータを演算した結果が２のべき乗の計算機に１／Ｎ２ず
つ分散して保持された状態になる。

【００４０】（10）前述までの処理が終了すると、次に
収集部の処理が開始され、２のべき乗の計算機は、Ｓhi
ftを１／２にしてＳhiftとし、ステップ２０８の場合と
同一の方法により通信相手の計算機の番号を求め、求め
た番号の計算機が保持する演算済み部分データと自計算
機が保持する演算済み部分データとをお互いに転送する
（ステップ２１４〜２１６）。

【００４１】（11）ＳhiftがＮＨと等しくなく、かつ、
１より大きい間、ステップ２１４からの処理を繰り返す
（ステップ２１７、２１９）。

【００４２】（12）ステップ２１７でＳhiftがＮＨと等
しく、Ｎ−ＲがＮ２より大きいと判別された場合、Ｓhi
ftがＮＨと等しく、Ｎ−ＲがＮ２より大きい識別番号を
持つ計算機は、Ｒ＋Ｎ２を識別番号とする端数計算機に
１／ＮＨの演算済み部分データを送信する（ステップ２
１８）。

【００４３】（13）ステップ２１９でＳhiftが１以下に
なるとき処理を終了し、２のべき乗の計算機で同じ演算
結果を得ることができる。

【００４４】（14）一方、端数計算機は、Ｒ−Ｎ２を識
別番号とする２のべき乗の計算機よりステップ２１８で
送信された１／ＮＨの演算済み部分データを受信する
（ステップ２２０）。

【００４５】（15）その後、端数計算機は、Ｓhiftを１
／２にしてＳhiftとし、ステップ２０３の場合と同一の
方法により通信相手を求め、求めた計算機と自計算機が
保持する演算済み部分データをお互いに転送する（ステ
ップ２２１〜２２３）。

【００４６】（16）Ｓhiftが１より大きい間、ステップ
２２１からの処理を繰り返し、Ｓhiftが１以下になった
ときに処理を終了する。これにより、端数計算機内で２
のべき乗の計算機と同じ演算結果を得ることができる
（ステップ２２４）。

【００４７】前述した本発明の実施形態による処理によ
れば、端数計算機内でステップ２０３から２０６、及
び、ステップ２２１から２２４の処理を行うことによ
り、ステップ２０７で端数計算機が２のべき乗の計算機
へ送信するデータと、ステップ２１８で２のべき乗の計
算機が端数計算機へ送信するデータを１／ＮＨに削減す
ることができ、処理時間の短縮を図ることができる。

【００４８】図８は計算機個数が２のべき乗でない場合
の本発明の実施形態によるデータの流れを、転入ステッ
プと演算部とについて説明する図、図９は計算機個数が
２のべき乗でない場合の本発明の実施形態によるデータ
の流れを、転出ステップと収集部とについて説明する図
であり、図８、図９を参照して本発明の実施形態による
前述した図２に示すフローによるデータの流れについて
説明する。なお、この例は、端数計算機個数が２^m （ｍ
は自然数）で割り切れる６台とした場合の例である。

【００４９】（１）６０７として示すステップ０には、
各計算機が持つ初期データを示している。

【００５０】（２）８０１として示す演算部ステップ１
では、次のように処理が行われる。（ａ）計算機“０”S23{0}⇔計算機“１”S01{1} 計算機“０”S01{01}：計算機“１”S23{01} （ｂ）計算機“２”S23{2}⇔計算機“３”S01{3} 計算機“２”S01{23}：計算機“３”S23{23} （ｃ）計算機“４”S23{4}⇔計算機“５”Ｓ０１｛５｝計算機“４”Ｓ０１｛４５｝：計算機“５”S23{45} 前述の演算部ステップ１では、２のべき乗の計算機（計
算機０〜３）の処理と同時に端数計算機（計算機４、
５）も同様な処理を行っている。

【００５１】（３）８０２として示す演算部転入ステッ
プでは、次のように処理が行われる。（ａ）計算機“４”S01{45}⇒計算機“０”：計算機
“０”S01{0145} （ｂ）計算機“５”S23{45}⇒計算機“１”：計算機
“１”S23{0145} 前述の転入ステップでは、端数計算機がステップ１によ
り得た演算結果のみを２のべき乗の計算機に転送し、２
のべき乗の計算機が演算を行っている。この転入ステッ
プにより、端数計算機が持つデータが２のべき乗の計算
機内に保持されることになる。

【００５２】（４）８０３として示す演算部ステップ２
では、次のように処理が行われる。（ａ）計算機“０”S1{0145}⇔計算機“２”S0{23} 計算機“０”S0{012345}：計算機“２”S1{012345} （ｂ）計算機“１”S3{0145}⇔計算機“３”S2{23} 計算機“１”S2{012345}：計算機“３”S3{012345} 前述の演算部ステップ２で演算部が完了し、２のべき乗
の計算機内に演算結果が分割されて保持されることにな
る。

【００５３】（５）９０１として示す収集部ステップ１
では、次のように処理が行われる。（ａ）計算機“０”S0{012345}⇔計算機“２”S1{01234
5} 計算機“０”S01{012345}：計算機“２”S01{012345} （ｂ）計算機“１”S2{012345}⇔計算機“３”S3{01234
5} 計算機“１”S23{012345}：計算機“３”S23{012345}

【００５４】（６）９０２として示す収集部転出ステッ
プでは、次のように処理が行われる。（ａ）計算機“０”S01{012345}⇒計算機“４”：計算
機“４”S01{012345} （ｂ）計算機“１”S23{012345}⇒計算機“５”：計算
機“５”S23{012345}

【００５５】（７）９０３として示す収集部ステップ２
では、次のように処理が行われる。（ａ）計算機“０”S01{012345}⇔計算機“１”S23{012
345} 計算機“０”S0123{012345}：計算機“１”S0123{01234
5} （ｂ）計算機“２”S01{012345}⇔計算機“３”S23{012
345｝計算機“２”S0123{012345}：計算機“３”S0123{01234
5} （ｃ）計算機“４”S01{012345}⇔計算機“５”S23{012
345} 計算機“４”S0123{012345}：計算機“５”S0123{01234
5}

【００５６】以上の処理により収集部での処理が完了
し、全ての計算機が全ての演算結果を得ることができ
る。前述した例の場合、転入ステップ、転出ステップで
のデータ転送は、端数計算機の個数が２¹ で割り切れる
ため、データの転送量を従来の１／２として行うことが
できる。

【００５７】図３、図４は計算機個数をＮとし、２ⁿ ＜
Ｎ＜２ⁿ⁺¹−１かつＮ−２ⁿ が２^m（ｎ、ｍは自然数）
で割り切れない任意のＮ台の計算機による本発明の実施
形態によるリダクション処理を説明するフローチャート
であり、以下、図３、図４を参照して、本発明の実施形
態による処理を演算部と収集部に分けて説明する。

【００５８】（１）計算機の個数をＮ、２のべき乗の計
算機の個数をＮ２とする。また、Ｒを自計算機の識別番
号とする。Ｓhiftはハイパーキューブアルゴリズムを使
用するための変数であり、１に初期設定する（ステップ
３０１）。

【００５９】（２）ＲとＮ２とを比較し、自計算機が端
数計算機であるか、２のべき乗の計算機であるか判定す
る。Ｒ≧Ｎ２の場合、自計算機が端数計算機であると判
定し、Ｎ２＞Ｒの場合、自計算機が２のべき乗の計算機
であると判定して処理を分ける（ステップ３０２）。

【００６０】（３）ステップ３０２で、自計算機が端数
計算機であると判定した場合、その端数計算機は、さら
に、ＲとＮ−１とを比較し、余り計算機と他の端数計算
機とに処理を分ける（ステップ３０３）。

【００６１】（４）ステップ３０３で自計算機が、Ｎ−
１を識別番号とする余り計算機であった場合、０を識別
番号とする２のべき乗の計算機へ上位１／２の部分デー
タを送信し、Ｎ２−１を識別番号とする２のべき乗の計
算機へ下位１／２の部分データを送信する（ステップ３
０４、３０５）。

【００６２】（５）ステップ３０３で自計算機が、余り
計算機を除く端数計算機であった場合、通信相手となる
計算機の番号を求める。すなわち、Ｒと１とのビット毎
の論理積をとった値が１であればＲ−１を識別番号とす
る計算機を、論理積の値が０であればＲ＋１を識別番号
とする計算機を通信相手としての計算機として求める
（ステップ３０６）。

【００６３】（６）ステップ３０６で求めた通信相手の
計算機とＲと１とのビット毎の論理積をとった値が１で
あれば、データの上位１／２を送信し下位１／２を受信
して部分データをお互いに転送し、また、論理積の値が
０であれば、下位１／２を送信し上位１／２を受信して
部分データをお互いに転送して、受信した部分データに
対して演算を行う（ステップ３０７）。

【００６４】（７）その後、Ｒ−Ｎ２＋２を識別番号と
する２のべき乗の計算機に演算済み部分データを送信す
る（ステップ３０８）。

【００６５】（８）一方、ステップ３０２で、自計算機
が２のべき乗の計算機であると判定した場合、その２の
べき乗の計算機は、計算機の識別番号が０の場合にのみ
Ｎ−１を識別番号とする計算機から上位１／２の部分デ
ータを受信して演算を行う。この部分データは、余り計
算機がステップ３０４で送信する部分データである（ス
テップ３０９、３１０）。

【００６６】（９）ステップ３１０の処理後、または、
ステップ３０９で、計算機の識別番号が０でない場合、
通信相手となる計算機の番号を求める。すなわち、Ｒと
Ｓhiftとのビット毎の論理積をとった値が１であれば、
通信相手の計算機をＲ−Ｓhiftとして、論理積の値が０
であれば、通信相手の計算機をＲ＋Ｓhiftとして求める
（ステップ３１１）。

【００６７】（10）求めた通信相手の計算機に対してＲ
とＳhiftとのビット毎の論理積をとった値が１であれ
ば、演算済み部分データ（演算前はすべてのデータ）の
上位１／２を送信し下位１／２を受信してデータをお互
いに転送し、受信した部分データに対して演算を行い、
また、論理積の値が０であれば下位１／２を送信し上位
１／２を受信してデータをお互いに転送し、受信した部
分データに対して演算を行う（ステップ３１２）。

【００６８】（11）Ｓhiftを２倍にしてＳhiftとし、Ｓ
hiftが２と等しくなく、Ｎ２より小さい場合、ステップ
３１１からの処理を繰り返す（ステップ３１３、３１
４、３１９）。

【００６９】（12）Ｓhiftが２と等しく、かつ、ＲがＮ
２−１と等しい場合、Ｎ−１を識別番号とする余り計算
機より下位１／２の部分データを受信して演算を行い、
その後、ステップ３１１からの処理に戻る（ステップ３
１４〜３１６）。

【００７０】（13）ＲがＮ２−１と等しくなく、かつ、
Ｒが２以上Ｎ−Ｎ２以下の場合、Ｎ２＋Ｒ−２を識別番
号とする端数計算機より演算済み部分データを受信し演
算を行い、その後、ステップ３１１からの処理を繰り返
す（ステップ３１５、３１７、３１８）。

【００７１】（14）ステップ３１７でＲが２以上Ｎ−Ｎ
２以下でない場合、ステップ３１９の処理を行い、ステ
ップ３１９の処理でループが終了したとき演算部の処理
を終了する。このとき、全ての計算機のデータを演算し
た結果が、２のべき乗の計算機に１／Ｎ２ずつ分散した
状態で保持されることになる。

【００７２】（15）前述までの処理が終了すると、次に
収集部の処理が開始され、２のべき乗の計算機は、Ｓhi
ftを１／２にしてＳhiftとし、ステップ３１１の場合と
同一の方法により通信相手の計算機の番号を求め、求め
た番号の計算機が保持する演算済み部分データと自計算
機が保持する演算済み部分データとをお互いに転送する
（ステップ３２０〜３２２）。

【００７３】（16）Ｓhiftが２と等しくなく、かつ、Ｓ
hiftが１より大きい場合、ステップ３２０からの処理を
繰り返す（ステップ３２３、３２８）。

【００７４】（17）Ｓhiftが２と等しく、かつ、ＲがＮ
２−１と等しい場合、Ｎ−１を識別番号とする余り計算
機へ下位１／２の演算済み部分データを送信し、その
後、ステップ３２０からの処理を繰り返す（ステップ３
２３〜３２５）。

【００７５】（18）ＲがＮ２−１と等しくなく、かつ、
Ｒが２以上Ｎ−Ｎ２以下の場合、Ｎ２＋Ｒ−２を識別番
号とする端数計算機へ１／２の演算済み部分データを送
信し、その後、ステップ３２０からの処理を繰り返す
（ステップ３２４、３２６、３２７）。

【００７６】（19）ステップ３２６でＲが２以上Ｎ−Ｎ
２以下でない場合、ステップ３２８の処理を行い、ステ
ップ３２８でＳhiftが１以下になるときループが終了
し、２のべき乗の計算機内に同一の演算結果を得ること
ができる。

【００７７】（20）ステップ３２８で処理が終了したと
き、さらに、識別番号０の計算機は、Ｎ−１を識別番号
とする余り計算機に上位１／２の演算済み部分データを
送信する（ステップ３２９、３３０）。

【００７８】（21）一方、端数計算機は、ＲとＮ−１を
比較して、処理を余り計算機と他の端数計算機とに分け
る。端数計算機は、自計算機が余り計算機であった場
合、Ｎ２−１を識別番号とする２のべき乗の計算機から
ステップ３２５の処理で送られてくる下位１／２の演算
済み部分データを受信する。その後、余り計算機は、識
別番号０の計算機からステップ３３０の処理で送られて
くる上位１／２の演算済み部分データを受信する（ステ
ップ３３１〜３３３）。

【００７９】前述したステップ３３２、３３３の処理に
より、余り計算機は、全ての演算結果を得ることができ
る。

【００８０】（22）余り計算機を除く端数計算機は、Ｒ
−Ｎ２＋２を識別番号とする２のべき乗の計算機からス
テップ３２７で送られてくる１／２の演算済み部分デー
タを受信する。その後、ステップ３０６と同様な方法に
より通信相手となる計算機の識別番号を求め、その計算
機との間で自計算機が保持する演算済み部分データをお
互いに転送する（ステップ３３４〜３３６）。

【００８１】以上により端数計算機の処理が終了し、端
数計算機は、２のべき乗の計算機と同一の演算結果を得
ることができる。

【００８２】前述した本発明の実施形態による処理によ
れば、余り計算機が、自計算機持つデータを１／２ずつ
に分割して（ステップ３０４、３０５）２のべき乗の計
算機に送信し、また、２のべき乗の計算機からの分割さ
れたデータ受信する（ステップ３３２、３３３）ことに
より、余り計算機がデータ転送を行う時間を１／２に削
減することができ、処理時間の短縮を図ることができる
という効果を得ることができる。

【００８３】前述した本発明の実施形態は、余り計算機
がデータを転送する２のべき乗の計算機は、最小と最大
との識別番号をもつ２のべき乗の計算機となっている
が、余り計算機がデータを転送する２のべき乗の計算機
は、他の端数計算機が演算済みデータを転送する２のべ
き乗の計算機と異なっていれば、識別番号が最小と最大
との２のべき乗の計算機に限定する必要はない。

【００８４】図１０は端数計算機個数が２^m （ｍは自然
数）で割り切れない場合の本発明の実施形態によるデー
タの流れを、転入ステップと演算部とについて説明する
図、図１１は計算機個数が２^m （ｍは自然数）で割り切
れない場合の本発明の実施形態によるデータの流れを、
転出ステップと収集部とについて説明する図であり、図
１０、図１１を参照して本発明の実施形態による前述し
た図３、図４に示すフローによるデータの流れについて
説明する。なお、この例は、端数計算機個数が２^m （ｍ
は自然数）で割り切れない５台とした場合の例である。

【００８５】（１）６０７として示すステップ０には、
各計算機が持つ初期データを示している。

【００８６】（２）１００１として示す演算部ステップ
１−１と転入ステップ１では、次のように処理が行われ
る。（ａ）計算機“４”S01{4}⇒計算機“０”：計算機
“０”S01{04} （ｂ）計算機“２”S23{2}⇔計算機“３”S01{3} 計算機“２”S01{23}：計算機“３”S23{23} 前述では、計算機“４”が計算機“０”に１／２のデー
タを転送、演算する転入ステップ１と、計算機“２”と
“３”とがデータをお互いに転送し、演算を行うステッ
プ１−１とが同時に行われている。

【００８７】（３）１００２として示す演算部ステップ
１−２と転入ステップ２では、次のように処理が行われ
る。（ａ）計算機“０”S23{0}⇔計算機“１”S01{1} 計算機“０”S01{014}：計算機“１”S23{01} （ｂ）計算機“４”S23{4}⇒計算機“３”：計算機
“３”S23{234} 前述では、計算機“０”と“１”とがデータをお互いに
転送し、演算を行うステップ１−２と、計算機“４”が
計算機“３”に前述の１００１とは異なる１／２のデー
タを転送、演算する転入ステップ２とが同時に行われ
る。このステップの完了により、端数計算機が持つデー
タは、２のべき乗の計算機内に保持されることになる。

【００８８】（４）１００３として示す演算部ステップ
２では、次のように処理が行われる。（ａ）計算機“０”S1{014}⇔計算機“２”S0{23} 計算機“０”S0{01234}：計算機“２”S1{01234} （ｂ）計算機“１”S3{01}⇔計算機“３”S2{234} 計算機“１”S2{01234}：計算機“３”S3{01234} 以上のステップの処理の終了で演算部での処理が完了
し、２のべき乗の計算機内に全ての演算結果が分割され
て保持されることになる。

【００８９】（５）１１０１として示す収集部ステップ
１では、次のように処理が行われる。（ａ）計算機“０”S0{01234}⇔計算機“２”S1{01234} 計算機“０”S01{01234}：計算機“２”S01{01234} （ｂ）計算機“１”S2{01234}⇔計算機“３”S3{01234} 計算機“１”S23{01234}：計算機“３”S23{01234}

【００９０】（６）１１０２として示す収集部ステップ
２−１と転出ステップ１では、次のように処理が行われ
る。（ａ）計算機“０”S01{01234}⇔計算機“１”S23{0123
4} 計算機“０”S0123{01234}：計算機“１”Ｓ０２１３
｛０１２３４｝（ｂ）計算機“３”Ｓ２３｛０１２３４｝⇒計算機
“４”：計算機“４”S23{01234} 前述では、計算機“０”と“１”とが演算結果をお互い
に転送するステップ２−１と、計算機“３”が計算機
“４”に演算結果の１／２を転送する転出ステップ１と
が同時に行われる。

【００９１】（７）１１０３として示す収集部ステップ
２−２と転出ステップ２では、次のように処理が行われ
る。（ａ）計算機“０”S01{01234}⇒計算機“４”：計算機
“４”S0123{01234} （ｂ）計算機“２”S01{01234}⇔計算機“３”S23{0123
4} 計算機“２”S0123{01234}：計算機“３”S0123{01234} 前述では、計算機“１”が計算機“４”に前述の１１０
２とは異なる演算結果の１／２を転送する転出ステップ
２と、計算機“２”と“３”とが演算結果をお互いに転
送するステップ２−２とが同時に行われる。

【００９２】以上のステップの処理の終了で収集部での
処理が完了し、全ての計算機で全ての演算結果を得るこ
とができる。前述の例によれば、転入ステップ、転出ス
テップでのデータ転送は、２回に分割して、演算部及び
収集部のステップと同時に行うことができ、データ転送
を行う時間を従来の１／２とすることができる。

【００９３】

【発明の効果】以上説明したように本発明によれば、端
数計算機の個数が２^m （ｍは自然数）で割り切れる場
合、従来、端数計算機の処理にかかっていた時間を１／
２^m に短縮することができ、端数計算機の個数が２^m で
割り切れない場合、１／２に短縮することができ、これ
により、リダクション処理を高速に行うことができる。

【図面の簡単な説明】

【図１】並列計算機を構成する計算機の個数に基づい
て、各計算機に適用する処理方法を決定する手順を説明
するフローチャートである。

【図２】計算機個数をＮとし、２ⁿ ＜Ｎ＜２ⁿ⁺¹ かつＮ
−２ⁿ が２^m （ｎ、ｍは自然数）で割り切れる任意のＮ
台の計算機による本発明の実施形態によるリダクション
処理を説明するフローチャートである。

【図３】計算機個数をＮとし、２ⁿ ＜Ｎ＜２ⁿ⁺¹−１か
つＮ−２ⁿ が２^m （ｎ、ｍは自然数）で割り切れない任
意のＮ台の計算機による本発明の実施形態によるリダク
ション処理を説明するフローチャートである。

【図４】計算機個数をＮとし、２ⁿ ＜Ｎ＜２ⁿ⁺¹ かつＮ
−２ⁿ が２^m （ｎ、ｍは自然数）で割り切れない任意の
Ｎ台の計算機による本発明の実施形態によるリダクショ
ン処理を説明するフローチャートである。

【図５】本発明が適用される並列計算機の構成例、各計
算機の構成例を示すブロック図及び記憶装置に格納され
る演算データの例を説明する図である。

【図６】計算機個数が２のべき乗でない場合の従来技術
によるデータの流れを計算機個数が６の場合を例とし
て、転入ステップと演算部とについて説明する図であ
る。

【図７】計算機個数が２のべき乗でない場合の従来技術
によるデータの流れを計算機個数が６の場合を例とし
て、転出ステップと収集部とについて説明する図であ
る。

【図８】端数計算機個数が２^m （ｍは自然数）で割り切
れる場合の本発明の実施形態によるデータの流れを、転
入ステップと演算部とについて説明する図である。

【図９】端数計算機個数が２^m （ｍは自然数）で割り切
れる場合の本発明の実施形態によるデータの流れを、転
出ステップと収集部とについて説明する図である。

【図１０】端数計算機個数が２^m （ｍは自然数）で割り
切れない場合の本発明の実施形態によるデータの流れ
を、転入ステップと演算部とについて説明する図であ
る。

【図１１】計算機個数が２^m （ｍは自然数）で割り切れ
ない場合の本発明の実施形態によるデータの流れを、転
出ステップと収集部とについて説明する図である。

【符号の説明】

５０１ネットワーク５０２〜５０７計算機“１”〜“ｎ−１” ５０８通信装置５０９演算処理装置５１０記憶装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者樋口和也神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者砂子俊明神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者石崎知晴神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者櫻庭博之神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者木原均神奈川県横浜市戸塚区戸塚町5030番地株式会社日立製作所ソフトウェア事業部内 (72)発明者田中敏文神奈川県横浜市中区尾上町六丁目81番地日立ソフトウェアエンジニアリング株式会社内 (72)発明者佐藤保神奈川県横浜市中区尾上町六丁目81番地日立ソフトウェアエンジニアリング株式会社内 (56)参考文献特開平９−81530（ＪＰ，Ａ) 特開平６−68051（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 15/80 G06F 15/173

Claims

(57)【特許請求の範囲】

【請求項１】固有の識別番号を有する複数個の計算機
がネットワークで結合され、演算に関わる計算機が保持
するデータを、演算部と収集部とにより演算し、演算に
関わる計算機で同一の演算結果を得る並列計算機におけ
るリダクション処理方法において、演算に関わる計算機
個数をＮとし、Ｎが２ⁿ ＜Ｎ＜２ⁿ⁺¹であり、かつ、Ｎ
−２ⁿ （ｎは自然数）が２^m （ｍは自然数）で割り切れ
る場合、２ⁿ 個の計算機を２のべき乗の計算機とし、残
りのＮ−２ⁿ 個の計算機を端数計算機とし、前記端数計
算機は、前記２のべき乗の計算機と同時に演算部を行
い、途中で前記２のべき乗の計算機に演算済みのデータ
を転入して演算させる演算部を実行することを特徴とす
る並列計算機におけるリダクション処理方法。
【請求項２】全ての計算機が前記収集部を実行する途
中で、前記２のべき乗の計算機が、その演算済み結果を
端数計算機に転出する収集部を実行することを特徴とす
る請求項１記載の並列計算機におけるリダクション処理
方法。
【請求項３】固有の識別番号を有する複数個の計算機
がネットワークで結合され、演算に関わる計算機が保持
するデータを、演算部と収集部とにより演算し、演算に
関わる計算機で同一の演算結果を得る並列計算機におけ
るリダクション処理方法において、演算に関わる計算機
個数をＮとし、Ｎが２ⁿ ＜Ｎ＜２ⁿ⁺¹−１であり、か
つ、Ｎ−２ⁿ （ｎは自然数）が２^m （ｍは自然数）で割
り切れない場合、２ⁿ 個の計算機を２のべき乗の計算機
とし、残りのＮ−２ⁿ 個の計算機のうち２^m （ｍは自然
数）で割り切れる数の計算機を端数計算機とし、残りの
計算機を余り計算機とし、前記余り計算機を除く計算機
は、データを転入して演算し、途中で、余り計算機が、
２のべき乗の計算機にデータを分割して転入して演算さ
せる演算部を実行することを特徴とする並列計算機にお
けるリダクション処理方法。
【請求項４】余り計算機を除く計算機が前記収集部を
実行する途中で、前記２のべき乗の計算機が、その演算
結果を分割して余り計算機に転出する収集部を実行する
ことを特徴とする請求項３記載の並列計算機におけるリ
ダクション処理方法。