JPH0844577A

JPH0844577A - データ分割方法及びマルチプロセッサシステム

Info

Publication number: JPH0844577A
Application number: JP6174338A
Authority: JP
Inventors: Tsuneo Nakanishi; 恒夫中西
Original assignee: SUMISHO ELECTRON KK
Current assignee: SUMISHO ELECTRON KK
Priority date: 1994-07-26
Filing date: 1994-07-26
Publication date: 1996-02-16

Abstract

(57)【要約】【目的】マルチプロセッサシステムのデータ分割方法
及びマルチプロセッサシステムにおいて、変数にアクセ
スする時間を最小にし、またはプログラマが割り当てを
考える必要がない、一般的なデータ分割を提供すること
ができる。【構成】それぞれに割り当てられたタスクを行う複数
のプロセッサ２と、該複数のプロセッサに対応する複数
のメモリ３と、を備えたマルチプロセッサシステムにお
いて、該複数のメモリ３にデータを分割するデータ分割
方法が、該タスクと、該タスクにアクセスされる変数と
を対応づけるステップと、該変数に該タスクがアクセス
するときのアクセスの種別を決定するステップと、該変
数に該タスクがアクセスするときのアクセスコストを決
定するステップと、アクセスコストが最大であるタスク
を行うプロセッサに対応するメモリに、該変数を割り当
てるステップと、を包含している。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、マルチプロセッサシス
テムのデータ分割方法及びマルチプロセッサシステムに
関する。更に詳細にいえば、並列または分散環境上に分
散された複数のメモリ（記憶装置）をもつマルチプロセ
ッサシステムのデータ分割方法、及び並列または分散環
境上に分散された複数のメモリをもつマルチプロセッサ
システムに関するものである。

【０００２】

【従来の技術】密結合型マルチプロセッサ（共有メモリ
型マルチプロセッサ）システムは、その共有メモリの配
置形式により、集中共有型と分散共有型の２種類に大別
される。近年、ハードウェア実装技術が進歩するにした
がい、一つのマルチプロセッサシステムに、数千〜数万
個のプロセッサが実装されるようになりつつある。この
ように非常に多くのプロセッサを有する超並列計算機の
共有メモリシステムは、メモリ上での競合回避などを考
えれば、分散共有型とするのが好ましい。

【０００３】分散共有型マルチプロセッサシステムで
は、各プロセッサに対してローカルに配置された共有メ
モリへのアクセスは、充分短い時間で行うことができ
る。いっぽう、リモートに配置された共有メモリへのア
クセスは、相互結合網を通らなければならないので、少
なくともアクセスに伴うオーバヘッド（むだ時間）だ
け、余分に時間がかかる。各プロセッサに割り当てられ
たタスクが、変数（以下、「変数」は、スカラ変数また
は配列変数を示す）にアクセスする仕方に局所性がある
場合、各プロセッサに割り当てられたタスクによってア
クセスされる変数を、対応するローカルメモリ内に配置
すれば、プロセッサ間のアクセスを抑えることができ
る。すなわち各プロセッサは、最小のオーバヘッドでア
クセスを行うことができる。したがってデータ分割の方
法は、システムで用いる変数のアクセス時間に大きな影
響を与え、ひいてはシステム全体の演算速度をも大きく
左右し得る。以下において「データ分割」という場合、
複数の変数を分割し、各変数を各メモリに割り当てるこ
とをいう。また「分割パターン」とは、複数の変数を分
割して、各メモリに割り当てるときの、変数とメモリと
の対応関係をいう。

【０００４】最適な変数割り当て（最適な割り当てが事
実上不可能または困難な場合は、準最適な割り当て）
は、オーバヘッドを削減し、アクセス時間の短縮に大き
く貢献する。例えば数値計算において配列要素の割り当
てを行う場合、プログラマが問題ごとに最適な分割パタ
ーンを求め、コード上に指示を書き込むことによって、
変数の割り当てについての情報をコンパイラに与えると
いうアプローチが従来から考えられている。この方法に
ついては、例えば、S.Hiranandani, K.Kennedy,C.Koelb
el, U.Kremer and C.W.Tseng: "An Overview of the Fo
rtran D Programming System", Proc. 4th Workshop on
Language and Compilers for ParallelComputing, Au
g. 1991. に詳細が述べられている。この方法は、充分
に最適化された分割パターンを実現し得る。

【０００５】いっぽう、データ分割を自動的に行う手法
もある。配列変数を分割する場合を考える。例えば、図
１２に代表される配列の分割パターンを複数用意し、そ
の中から最もよい（最もアクセス速度が早い）分割パタ
ーンを選択するという手法がある。図１２の各部に付け
られた記号Ｂ１〜Ｂ４は、変数が割り当てられるメモリ
に対応するプロセッサを表現している。図１２は、４つ
のプロセッサに対応するメモリに、変数（配列要素）が
分割されている（割り当てられている）状態を示してい
る。

【０００６】自動並列化コンパイラなどにおいて、スケ
ジューリングやプロセッサ割り当てなどの問題を取り扱
う際、タスクグラフと呼ばれるグラフ構造（例えば M.G
irkar and C.D.Polychronopoulos: "Automatic Extract
ion of Functional Parallelism from Ordinary Progra
ms" IEEE Trans. on Parallel and Distributed System
s, Vol.3, No.2, pp.166-178, Mar.1992 を参照された
い）がよく利用される。その多くは、タスクを節点で表
現し、タスク間のデータの依存関係や制御の依存関係を
有向枝で表現したものである。したがってタスクの実行
可能条件の導出や、アクセスコスト（タスクが変数にア
クセスするときに必要な時間を表現する量で、通信コス
トともいう）があまり問題とならない場合のスケージュ
リングは、従来のタスクグラフによって十分対応でき
る。このようなアプローチをとる場合、データ分割をど
のように行うかは、考慮されないことが多い。

【０００７】

【発明が解決しようとする課題】しかしながら、上述の
従来技術においては、次に示す問題があった。

【０００８】プログラマが問題ごとに最適な分割パター
ンを求め、コンパイラに指示する方法では、ソースコー
ド中に指示するためのコードが必要であり、これはプロ
グラマの負担になる。またよい分割パターンを探す作業
も、プログラマにとっては大きな負担である。とりわけ
最適な分割パターンを手作業で求めることしばしば不可
能である。

【０００９】データの分割を自動的に行う従来の手法
は、簡単ではあるが、最適な分割パターンを得るには不
適当である。なぜなら、自動的に分割を行う場合に用い
られる分割パターンは、比較的単純なパターンがいくつ
かあるだけで、この限られたパターンの中から最適な分
割パターンが見つかる可能性は、非常に小さいからであ
る。

【００１０】また従来のタスクグラフには、依存関係の
もととなる変数（スカラ変数及び配列変数）そのものは
表現されていなかった。そのため、プロセッサ間のアク
セスが頻繁に発生するマルチプロセッサシステムにおい
て、従来のタスクグラフによるデータ分割方法では、効
率的な割り当てができない。

【００１１】本発明は、上記課題を解決するためになさ
れたものであり、その目的とするところは、それぞれの
問題に依存したデータ分割を行うのではなく、一般的か
つ一元的なデータ分割を行う方法、及び最適にデータ分
割されたマルチプロセッサシステムを提供することにあ
る。

【００１２】

【課題を解決するための手段】本発明によるデータ分割
方法は、それぞれに割り当てられたタスクを行う複数の
プロセッサと、該複数のプロセッサに対応する複数のメ
モリと、を備えたマルチプロセッサシステムにおいて、
該複数のメモリにデータを分割するデータ分割方法であ
って、該タスクと、該タスクにアクセスされる変数とを
対応づけるステップと、該変数に該タスクがアクセスす
るときのアクセスの種別を決定するステップと、該変数
に該タスクがアクセスするときのアクセスコストを決定
するステップと、アクセスコストが最大であるタスクを
行うプロセッサに対応するメモリに、該変数を割り当て
るステップと、を包含しており、そのことにより上記目
的が達成される。

【００１３】前記アクセスコストが、アクセスコスト＝
（変数のサイズ）×（変数へのアクセス回数）なる式で
決定されていてもよい。

【００１４】本発明によるデータ分割方法は、それぞれ
に割り当てられたタスクを行う複数のプロセッサと、該
複数のプロセッサに対応する複数のメモリと、を備えた
マルチプロセッサシステムにおいて、該複数のメモリに
データを分割するデータ分割方法であって、該タスク
と、該タスクにアクセスされる変数と、該複数のプロセ
ッサとの関係を規定するデータ分割グラフ構造を決定す
るステップと、該構造に基づいて該変数を該複数のメモ
リのそれぞれに割り当てるステップと、を包含してお
り、そのことにより上記目的が達成される。

【００１５】前記構造に基づいて該変数を該複数のメモ
リのそれぞれに割り当てるステップは、異なるプロセッ
サに割り当てられた複数のタスクにアクセスされる変数
を、該異なるプロセッサから選択された一つのプロセッ
サに対応するメモリに割り当てるサブステップを含んで
いてもよい。

【００１６】前記サブステップは、前記変数を、アクセ
スコストが最大であるタスクを行うプロセッサに対応す
るメモリに割り当てるサブステップであってもよい。

【００１７】前記アクセスコストは、アクセスコスト＝
ｆ（アクセス量ｎ、アクセス生起確率ｐ、コスト係数
α）なる式で表現されていてもよい。

【００１８】前記アクセスコストは、アクセスコスト＝
（該変数の大きさ）×（該プロセッサとのアクセス回
数）なる式で表現されていてもよい。

【００１９】前記構造をグラフとして視覚的に表現する
ステップを包含していてもよい。

【００２０】本発明によるマルチプロセッサシステム
は、それぞれに割り当てられたタスクを行う複数のプロ
セッサと、該複数のプロセッサに対応する複数のメモリ
と、を備えたマルチプロセッサシステムであって、該複
数のプロセッサに割り当てられたタスクにアクセスされ
る変数は、アクセスコストが最大であるタスクを行うプ
ロセッサに対応するメモリに割り当てられており、その
ことにより上記目的が達成される。

【００２１】前記アクセスコストが、アクセスコスト＝
ｆ（アクセス量ｎ、アクセス生起確率ｐ、コスト係数
α）なる式で表現されていてもよい。

【００２２】前記アクセスコストが、アクセスコスト＝
（該変数の大きさ）×（該プロセッサとのアクセス回
数）で表現されていてもよい。

【００２３】本発明によるマルチプロセッサシステム
は、それぞれに割り当てられたタスクを行う複数のプロ
セッサと、該複数のプロセッサに対応する複数のメモリ
と、を備えたマルチプロセッサシステムであって、異な
るプロセッサに割り当てられた複数のタスクにアクセス
される変数を、該異なるプロセッサから選択された一つ
のプロセッサに対応するメモリに割り当てられており、
そのことにより上記目的が達成される。

【００２４】本発明によるマルチプロセッサシステム
は、それぞれに割り当てられたタスクを行う複数のプロ
セッサと、該複数のプロセッサに対応する複数のメモリ
と、を備えたマルチプロセッサシステムであって、ｉ番
目（１≦ｉ≦Ｎ）のプロセッサに割り当てられたタスク
のみにアクセスされる変数は、該ｉ番目のプロセッサに
対応するメモリに割り当てられ、ｊ番目（１≦ｊ≦Ｎ）
のプロセッサに割り当てられたタスク、及びｋ番目（１
≦ｋ≦Ｎ、ｋ≠ｊ）のプロセッサに割り当てられたタス
クの両方にのみアクセスされる変数は、該ｊ番目及びｋ
番目のプロセッサから選択された一方のプロセッサに対
応するメモリに割り当てられており、そのことにより、
上記目的が達成される。

【００２５】前記変数は、前記ｊ番目及び前記ｋ番目の
プロセッサのうち、アクセスコストが大きいほうのプロ
セッサに対応するメモリに割り当てられていてもよい。

【００２６】

【作用】本発明の方法によれば、それぞれに割り当てら
れたタスクを行う複数のプロセッサと、複数のプロセッ
サに対応する複数のメモリと、を備えているマルチプロ
セッサシステムにおいて、複数のメモリにデータを分割
するときに、まず、タスクと、タスクにアクセスされる
変数とを対応づける。次に、変数にタスクがアクセスす
るときのアクセスの種別、及び変数にタスクがアクセス
するときのアクセスコストを決定する。このアクセスコ
ストが最大であるタスクを行うプロセッサに対応するメ
モリに、変数は割り当てられる。アクセスコストを、ア
クセスコスト＝（変数のサイズ）×（変数へのアクセス
回数）なる式によって求めることもできる。このように
すれば、アクセスコストが一義的に決定され、種々の場
合にも統一的にデータ分割を行うことができる。

【００２７】本発明によれば、一つまたは二つのタスク
にのみアクセスされる変数は、そのタスクが割り当てら
れているプロセッサに対応するメモリに割り当てられ
る。その結果、タスクにアクセスされる変数は、そのタ
スクを行わないプロセッサに対応するメモリに割り当て
られることはない。こうして、最適な（場合によっては
準最適な）メモリ割り当てを行うことができる。

【００２８】タスクにアクセスされる変数は、アクセス
コストが最大であるタスクを行うプロセッサに対応する
メモリに割り当てられる。変数が、アクセスコスト＝ｆ
（アクセス量ｎ、アクセス生起確率ｐ、コスト係数α）
なる式で表現されるアクセスコストが最大であるタスク
を行うプロセッサに対応するメモリに割り当てられる
と、システムの構成を反映させた、より厳密な最適化が
行える。

【００２９】アクセスコスト＝（変数の大きさ）×（プ
ロセッサとのアクセス回数）なる式でアクセスコストを
表現すれば、アクセスコストの算出は、簡易でありなが
らもデータ分割の最適化（または準最適化）を図ること
ができる。

【００３０】タスクと、タスクにアクセスされる変数
と、複数のプロセッサとの関係を規定する構造が、グラ
フとして視覚的に表現され得ると、関係を規定する構造
を容易に把握できる。

【００３１】本発明のマルチプロセッサシステムは、そ
れぞれに割り当てられたタスクを行う複数のプロセッサ
と、複数のプロセッサに対応する複数のメモリと、を備
えている。複数のプロセッサに割り当てられたタスクに
アクセスされる変数は、アクセスコストが最大であるタ
スクを行うプロセッサに対応するメモリに割り当てられ
る。つまり、データのサイズが大きく、頻繁にアクセス
される変数が、アクセスする時間の充分小さいプロセッ
サに対応するメモリに割り当てられる。例えば、タスク
ＴＡが、変数Ｘに対し、アクセスコスト１０のアクセス
を行い、タスクＴＢが、変数Ｘに対し、アクセスコスト
が１００のアクセスを行う場合を例に挙げる。このと
き、二つのタスクＴＡ、ＴＢを行うプロセッサにそれぞ
れ対応するメモリＭＡ、ＭＢに変数Ｘを割り当てる問題
を考える。一般に、あるプロセッサとそのプロセッサに
対応するメモリとの間のアクセスに要する時間は、プロ
セッサ間での通信を伴う場合のアクセス時間に比較し
て、非常に短い。「プロセッサ間での通信」とは、ある
タスクを行うプロセッサが、それと対応しないメモリに
割り当てられた変数にアクセスするときに、相互結合網
を介して、プロセッサどうしで行う通信のことをいう。
メモリＭＡに変数Ｘを割り当てると、タスクＴＢは、ア
クセスコストが１００のアクセスを、プロセッサ間通信
によって行うことになる。メモリＭＢに変数Ｘを割り当
てると、プロセッサ間通信によるアクセスは、アクセス
コストが１０になる。プロセッサ間通信に時間がかかる
ことを考えると、プロセッサ通信によるアクセスは、ア
クセスコストが小さいほどよい。つまり、変数を、それ
にアクセスするアクセスコストが最大であるタスクを行
うプロセッサに対応するメモリに割り当てることによっ
て、アクセスに要する時間を短縮できる。

【００３２】本発明のマルチプロセッサシステムにおい
て、以下のように変数をメモリに割り当てることもでき
る。すなわち、異なるプロセッサに割り当てられた複数
のタスクにアクセスされる変数を、これらの異なるプロ
セッサから選択された一つのプロセッサに対応するメモ
リに割り当てる。もし、全く恣意的に、変数をメモリに
割り当てるならば、その変数をアクセスしないタスクを
行うプロセッサに対応するメモリにその変数を割り当て
る可能性がある。しかし本発明のマルチプロセッサシス
テムにおいては、そのような割り当ての可能性を排除で
きるのでアクセス時間が短縮される。

【００３３】

【実施例】以下に、本発明を実施例について説明する。

【００３４】まず、本発明のマルチプロセッサシステム
のアーキテクチャ及び本発明のデータ分割方法が対象と
するシステムのアーキテクチャを図１（ａ）〜（ｄ）に
示す。各プロセッサ２は、相互結合網１を介して、他の
プロセッサとデータのやりとりを行うことができる。図
１（ａ）及び（ｂ）においては、各プロセッサ２に、対
応するメモリ３が直接接続されている。図１（ｃ）、
（ｄ）においては、各プロセッサ２は、１次キャッシュ
メモリ４を介して対応するメモリ３に接続されている。
図１（ｄ）においては、１次キャッシュメモリ４と相互
結合網１との間に２次キャッシュメモリ５が設けられて
いる。

【００３５】各タスクは、各プロセッサに割り当てられ
る。あるプロセッサが行うタスクにアクセスされる変数
が、そのプロセッサに対応するメモリに割り当てられる
と、そのプロセッサは、直接、または１次キャッシュメ
モリを介してメモリ３にアクセスする。いっぽうプロセ
ッサが行うタスクにアクセスされる変数が、そのプロセ
ッサに対応するメモリ以外のメモリに割り当てられる
と、そのプロセッサは相互結合網１を経由してメモリに
アクセスしなければならない。

【００３６】相互結合網１を介したメモリアクセスは、
相互結合網１を介さないメモリアクセスに比べてアクセ
スに時間がかかる。したがってアクセスに要する時間を
小さくするためには、相互結合網１を介するアクセスを
避けるようにデータを分割することが重要である。

【００３７】本発明によって変数を各メモリに割り当て
る際には、データ分割グラフ（datapartitioning grap
h、以下「ＤＰＧ」と略記する）を用いることができ
る。ＤＰＧは、プログラム中の変数を、複数のタスクか
らどのようにアクセスされるか（以下「アクセスパター
ン」という）によってグループに分け、その各グループ
を一つの節点のかたちで、従来のタスクグラフ中に表現
するものである。その結果、ＤＰＧには、Ｃ−ｎｏｄ
ｅ、Ｄ−ｎｏｄｅと呼ばれる２種類の節点が存在する。

【００３８】Ｃ−ｎｏｄｅは、従来のタスクグラフにお
ける節点と同じもので、プログラム中のタスクを表現す
る。細粒度の割り当てを行うなら、Ｃ−ｎｏｄｅは、例
えば代入文を表す。中粒度の割り当てを行うなら、Ｃ−
ｎｏｄｅは、例えばループイタレーションを表現する。

【００３９】Ｄ−ｎｏｄｅは、同一のアクセスパターン
をもつプログラム中の変数を表現する。ＤＰＧでは、各
タスクの各変数へのアクセスの種別をＮ、Ｒ、Ｗ、ＲＷ
の４種類の記号で表現する。「Ｎ」は、そのタスクがそ
の変数に読み出しも書き込みもしないことを表す。
「Ｒ」、「Ｗ」、「ＲＷ」は、それぞれ読み出し（Ｒｅ
ａｄ）だけを行うこと、書き込み（Ｗｒｉｔｅ）だけを
行うこと、読み出し及び書き込み（Ｒｅａｄ／Ｗｒｉｔ
ｅ）の両方を行うことを意味する。例えば、変数Ａ、
Ｂ、及びＣが、次の表１のようなアクセスパターンをも
つとする。

【００４０】

【表１】

【００４１】この場合、Ａ及びＣは同じアクセスパター
ンをもつので、同一のＤ−ｎｏｄｅで表現される。Ｂ
は、Ａ及びＣとは異なるアクセスパターンをもつので、
別のＤ−ｎｏｄｅで表現される。なお本明細書のグラフ
では、Ｃ−ｎｏｄｅを円形の節点で、Ｄ−ｎｏｄｅを方
形の節点で表すことにする。

【００４２】ＤＰＧでは、Ｃ−ｎｏｄｅからＣ−ｎｏｄ
ｅに、Ｃ−ｎｏｄｅからＤ−ｎｏｄｅに、及びＤ−ｎｏ
ｄｅからＣ−ｎｏｄｅに有向枝が張られる。Ｃ−ｎｏｄ
ｅ間の有向枝は、従来のタスクグラフと同様に制御依存
を表す。Ｃ−ｎｏｄｅからＤ−ｎｏｄｅへ張られる有向
枝、及びＤ−ｎｏｄｅからＣ−ｎｏｄｅへ張られる有向
枝は、それぞれ、変数への書き込み及び変数からの読み
出しを表す。Ｃ−ｎｏｄｅに対応するタスクが、Ｄ−ｎ
ｏｄｅに含まれる変数へ書き込みを行う場合（すなわち
Ｃ−ｎｏｄｅのＤ−ｎｏｄｅに対するアクセスが、Ｗま
たはＲＷの場合）、Ｃ−ｎｏｄｅからＤ−ｎｏｄｅに有
向枝を張る。いっぽう、Ｃ−ｎｏｄｅに対応するタスク
がＤ−ｎｏｄｅに含まれる変数から読み出しを行う場合
（すなわちＣ−ｎｏｄｅのＤ−ｎｏｄｅに対するアクセ
スがＲまたはＲＷの場合）、Ｄ−ｎｏｄｅからＣ−ｎｏ
ｄｅに有向枝を張る。Ｃ−ｎｏｄｅとＤ−ｎｏｄｅとの
間の有向枝には、アクセスコストが属性として付与され
る。

【００４３】このＤＰＧに基づくデータ分割は、次のよ
うなフロー（図６を参照）にしたがって行うことができ
る。

【００４４】(1)タスクグラフの生成：タスクグラフ
は、並列化コンパイラにより既存のアルゴリズムにした
がって生成され得る。ここでいうタスクグラフとは、タ
スクを節点で表し、データ依存関係、制御依存関係を有
向枝（矢印）で表したものとする。タスクグラフの一例
を図２に示す。図２において、節点ＳＴＡＲＴは、プロ
グラムの開始点を、節点ＳＴＯＰは、プログラムの終了
点を示す。節点Ｃ１〜Ｃ８は、Ｃ−ｎｏｄｅを表す。実
線の有向枝、破線の有向枝は、それぞれ、データ依存関
係、制御依存関係を表現している。また有向枝に付けら
れた添え字（１−２、１−５など）は、制御依存関係を
表す。例えば「ｘ−ｙ」という添え字は、節点ｘからＳ
ＴＯＰへ向かう全てのパスが節点ｙを含む、すなわちｘ
からＳＴＯＰへ向かう場合ｙを通らざるを得ないことを
示す。

【００４５】(2)Ｄ−ｎｏｄｅの生成：アクセスする
タスクと、アクセスパターンによってプログラム中の変
数を、クラス分けする。例えば、変数ａ、ｂ、…、ｆ
が、タスク１、２、…、８から、次の表２に示すような
アクセスを受けるものとする。ここでａとｅ、ｃとｆ
は、同じアクセスのパターンを有するため、この例では
Ａ＝｛ａ、ｅ｝、Ｂ＝｛ｂ｝、Ｃ＝｛ｃ、ｆ｝、Ｄ＝
｛ｄ｝の４つの、グループ化された変数の集まり（以下
「変数群」という）が生成される。この各変数群をデー
タ分割グラフ上ではＤ−ｎｏｄｅとして表現する。以下
の表においては見やすくするために、アクセスの種別の
うちＮを「−」で記している。

【００４６】

【表２】

【００４７】(3)Ｄ−ｎｏｄｅ／Ｃ−ｎｏｄｅ間の有向
枝の生成：Ｃ−ｎｏｄｅに相当するタスクが、Ｄ−ｎ
ｏｄｅに相当する変数群に、Ｒｅａｄアクセスする（読
み込む）場合は、Ｄ−ｎｏｄｅからＣ−ｎｏｄｅに有向
枝を引き、Ｗｒｉｔｅアクセスする（書き込む）場合
は、Ｃ−ｎｏｄｅからＤ−ｎｏｄｅに有向枝を引く。

【００４８】(4)アクセスコストの算出：各アクセス
（データ分割グラフ上では、Ｄ−ｎｏｄｅ／Ｃ−ｎｏｄ
ｅ間の有向枝として表される）に伴うアクセスコストを
算出し、該当する有向枝の属性として付与する。各変数
群のアクセスコストは、例えば、次式で算出される。

【００４９】アクセスコスト＝（変数のサイズ）×（変
数へのアクセス回数）また、アクセスコストは、より一般的な表現として、ア
クセス量、アクセス生起確率、及びコスト係数の関数と
しても表現され得る。

【００５０】アクセスコスト＝ｆ（ｎ、ｐ、α）ここで、ｎ：アクセス量、ｐ：アクセス生起確率、α：
コスト係数である。コスト係数αは、システム構成（キ
ャッシュメモリの有無など）やアクセス種別（Ｒｅａｄ
かＷｒｉｔｅかなどの種別）などによって決定される係
数である。Ｄ−ｎｏｄｅとＣ−ｎｏｄｅ間の有向枝に付
与されるアクセスコストは、Ｄ−ｎｏｄｅの表す変数群
に含まれる各変数への、各々のアクセスコストを総和し
たものである。

【００５１】ここでは、先の例において、変数ａ、ｂ、
…、ｆのアクセスコストが次の表３に示すように得られ
たものとする。

【００５２】

【表３】

【００５３】したがって、Ｄ−ｎｏｄｅＡ、Ｂ、…、
Ｄと、Ｃ−ｎｏｄｅ１、２、…、８間の有向枝に付与
される、アクセスコストは、次の表４のようになる。

【００５４】

【表４】

【００５５】以上のステップによって、ＤＰＧが生成さ
れる。この例において生成されたＤＰＧを図３に示す。
図３において、節点Ａ〜Ｄは、Ｄ−ｎｏｄｅを示し、実
線の有向枝に付けられた数値は、アクセスコストを示
す。

【００５６】(5)プロセッサ割り当て：タスク（Ｃ−
ｎｏｄｅに相当する）にプロセッサを割り当てる。割り
当てられたプロセッサが、そのタスクを実行する。この
プロセッサ割り当ては、既存のアルゴリズムによって行
う。

【００５７】先の例においては、各タスクを３個のプロ
セッサＰ１〜Ｐ３に割り当てた後の状態を図４に示す。
図４において、網かけされた複数のタスクは、同一のプ
ロセッサに割り当てられることを示す。

【００５８】(6)データ分割：変数（Ｄ−ｎｏｄｅに
相当する）の、プロセッサへの割り当て、すなわちデー
タ分割を行う。ＤＰＧ上でのデータ分割は、Ｄ−ｎｏｄ
ｅをグルーピングすることにより行う。Ｄ−ｎｏｄｅを
グルーピングする際は、Ｄ−ｎｏｄｅ／Ｃ−ｎｏｄｅ間
の有向枝に属性として付与されたアクセスコストに注目
する。アクセスコストが最も大きい有向枝をグループ内
に含ませることにより、その変数に対するアクセスによ
るコストを最小にすることが可能になる。

【００５９】先の例におけるデータ分割の例を示す。Ｄ
−ｎｏｄｅＢ、Ｄに該当する変数は、それぞれプロセ
ッサ２、３からしかアクセスされないため、それぞれプ
ロセッサ２、３に割り当てる。いっぽう、Ａに該当する
変数は、それぞれタスク２からアクセスコスト２０、タ
スク３からトータルアクセスコスト４０のアクセスを受
けている。この場合、二つのアクセスコストのうち大き
いほうであるアクセスコスト４０のアクセスを防ぐべ
く、Ａをプロセッサ２に割り当てる。同様の考えかた
で、Ｃに該当する変数は、プロセッサ１に割り当てる。
このときの割り当ての図を図５に示す。図５において、
網かけされたＤ−ｎｏｄｅは、同一のプロセッサに対応
するメモリに割り当てられることを示す。

【００６０】上記(6)においては、アクセスコストを考
慮して、データ分割を最適化している。分割が、必ずし
も最適化されなくてもよいなら、(6)のデータ分割には
以下に示す他の方法もある。また、あるプロセッサに割
り当てられたタスクのみにアクセスされる変数は、その
プロセッサに対応するメモリに割り当て、ある複数のプ
ロセッサに割り当てられたタスクにアクセスされる変数
は、それら複数のプロセッサのうちから選択されたプロ
セッサに対応するメモリに割り当ててもよい。

【００６１】本発明の他の実施例として、２×２行列の
積を求めるプログラムのＤＰＧを作成する。まずプログ
ラムのリストを下記に示す。

【００６２】 begin for i := 1 to 2 do for j := 1 to 2 do begin c[i][j] := 0; for k := 1 to 2 do c[i][j] := c[i][j] + a[i][j] * b[i][j]; end end. このプログラムのループを下記のように、既存手法によ
って展開した。

【００６３】 1: c[1][1] := 0; 2: c[1][1] := c[1][1] + a[1][1] * b[1][1]; 3: c[1][1] := c[1][1] + a[1][2] * b[2][1]; 4: c[1][2] := 0; 5: c[1][2] := c[1][2] + a[1][1] * b[1][2]; 6: c[1][2] := c[1][2] + a[1][2] * b[2][2]; 7: c[2][1] := 0; 8: c[2][1] := c[2][1] + a[2][1] * b[1][1]; 9: c[2][1] := c[2][1] + a[2][2] * b[2][1]; 10: c[2][2] := 0; 11: c[2][2] := c[2][2] + a[2][1] * b[1][2]; 12: c[2][2] := c[2][2] + a[2][2] * b[2][2]; 展開した各文を一つのタスクとし、ＤＰＧを求めると図
７のようになる。図７において、Ｃ１１〜Ｃ２２は、Ｃ
−ｎｏｄｅを示し、方形（a[1][1]など）は、Ｄ−ｎｏ
ｄｅを示す。また矢印は、データ依存関係を表す。

【００６４】ＤＰＧにおいては、データ分割は、Ｃ−ｎ
ｏｄｅ及びＤ−ｎｏｄｅを、ｐ個の各プロセッサに割り
当てる問題となる。言い換えれば、節点をｐ色に塗り分
ける問題である。隣接するＣ−ｎｏｄｅとＤ−ｎｏｄｅ
が同色であるなら、各々が表すタスクと変数が同じプロ
セッサに割り当てられることを意味し、これはその変数
に対するタスクからのアクセスが充分速い速度で行われ
る（アクセスが隠ぺいされる）ことを意味する。したが
って変数割り当てのときには、隣接するＣ−ｎｏｄｅと
Ｄ−ｎｏｄｅとは、できる限り同じ色になるようにし、
またＤ−ｎｏｄｅに塗る色が複数考えられる場合は、そ
のＤ−ｎｏｄｅに接続されている有向枝のうち、最もア
クセスコストの大きい有向枝につながるＣ−ｎｏｄｅと
同じ色になるように塗るのが望ましい。

【００６５】ここでは、プロセッサが２つある場合及び
４つある場合のデータ分割を考える。システムは、２つ
のプロセッサと２つのメモリバンクを相互結合したも
の、及び４つのプロセッサと４つのメモリバンクを相互
結合したものを考える。図７中のＤ−ｎｏｄｅが示す変
数のサイズは全て等しく、またＤ−ｎｏｄｅにつながる
有向枝が表すアクセスは必ず生起する。よって、各有向
枝に付与されるアクセスコストは全て等しいと考えてよ
い。タスク３ｎ＋１はタスク３ｎに、タスク３ｎ＋２は
タスク３ｎ＋１にフロー依存している（ただしｎは自然
数）ため、タスク３ｎ、３ｎ＋１、３ｎ＋２は、まとめ
て一つのプロセッサに割り当てるのがよい。このタスク
割り当てに応じて、Ｄ−ｎｏｄｅを各プロセッサに割り
当てたものが、図８、図９である。図８、図９において
同じ種類の網かけは、同じ色を表すとする。ここでは、
有向枝のアクセスコストは全て同じ大きさになるため、
Ｄ−ｎｏｄｅに塗れる色が複数あるときは、その中の任
意の一色を選択することができる。つまりアクセスコス
トを考慮しない場合、複数のプロセッサに割り当てられ
た複数のタスクにアクセスされる変数は、複数のプロセ
ッサのうちの任意のプロセッサに対応するメモリに割り
当てればよい。こうすることにより、その変数をアクセ
スしないタスクを割り当てているプロセッサに対応する
メモリに、その変数を割り当てるよりは、アクセスの時
間が短縮される。

【００６６】図８、図９のＤＰＧより、変数（配列の各
要素）は、図１０、図１１のように分割すればよいこと
がわかる。図１０、図１１において、４分割された方形
は、配列変数を表す。ｐ＝２の場合の配列 a[][] の分
割と、ｐ＝４の場合の配列 b[][]、c[][]の分割に関し
ては、図１０、図１１の分割と同等な効果の分割方法が
他にもいくつか考えられる。

【００６７】本発明のマルチプロセッサシステムにおい
ては、上記の方法を用いて分割されたデータは、例えば
図１のメモリ３に割り当てられる。

【００６８】本発明のデータ分割方法を用いて、並列化
コンパイラ上でデータ分割を行うことも可能である。特
に、使用されるプロセッサの数が多い、大規模なシステ
ムにおけるデータ分割には、並列化コンパイラが非常に
有用な手段となる。

【００６９】

【発明の効果】本発明のデータ分割方法によれば、変数
を、アクセスコストが最大であるタスクを行うプロセッ
サに対応するメモリに割り当てるので、変数にアクセス
する時間を最小にできる。またタスクと変数との関係を
規定する構造を決定し、この構造に基づいて変数を複数
のメモリに割り当てるので、プログラマが割り当てを考
える必要がなく、一般的なデータ分割方法を提供するこ
とができる。

【００７０】また複数のプロセッサに割り当てられた複
数のタスクにアクセスされる変数は、それら複数のプロ
セッサのうちの一つのプロセッサに対応するメモリに割
り当てられるので、恣意的に割り当てられる場合より
は、アクセスする時間を短くできる。

【００７１】またアクセスコストを、アクセスコスト＝
（変数の大きさ）×（プロセッサとのアクセス回数）と
いう式で表現するので、アクセスコストを算出するのが
簡易でありながら、アクセスする時間が最適化（もしく
は準最適化）される。

【００７２】複数のタスクと変数との関係を規定する構
造を、グラフとして視覚的に表現するので、タスクと変
数との関係を目で見て容易に理解できる。

【図面の簡単な説明】

【図１】（ａ）から（ｄ）は、本発明のマルチプロセッ
サシステムのアーキテクチャ及び本発明のデータ分割方
法が対象とするシステムのアーキテクチャを示す図であ
る。

【図２】タスクグラフを示す図である。

【図３】ＤＰＧ（データ分割グラフ）を示す図である。

【図４】プロセッサ割り当てを行ったＤＰＧを示す図で
ある。

【図５】本発明のデータ分割方法を行ったＤＰＧを示す
図である。

【図６】本発明のデータ分割方法のフローチャートを示
す図である。

【図７】ＤＰＧ（データ分割グラフ）を示す図である。

【図８】プロセッサ割り当てを行った後のＤＰＧ（プロ
セッサが２つの場合）を示す図である。

【図９】プロセッサ割り当てを行った後のＤＰＧ（プロ
セッサが４つの場合）を示す図である。

【図１０】本発明のデータ分割方法によるデータ分割
（プロセッサが２つの場合）を示す図である。

【図１１】本発明のデータ分割方法によるデータ分割
（プロセッサが４つの場合）を示す図である。

【図１２】従来の、配列の分割を自動的に行う場合の分
割パターンを示す図である。

【符号の説明】

１相互結合網２プロセッサ３メモリ４１次キャッシャメモリ５２次キャッシュメモリ

Claims

【特許請求の範囲】

【請求項１】それぞれに割り当てられたタスクを行う
複数のプロセッサと、該複数のプロセッサに対応する複
数のメモリと、を備えたマルチプロセッサシステムにお
いて、該複数のメモリにデータを分割するデータ分割方
法であって、（ａ）該タスクと、該タスクにアクセスさ
れる変数とを対応づけるステップと、（ｂ）該変数に該
タスクがアクセスするときのアクセスの種別を決定する
ステップと、（ｃ）該変数に該タスクがアクセスすると
きのアクセスコストを決定するステップと、（ｄ）アク
セスコストが最大であるタスクを行うプロセッサに対応
するメモリに、該変数を割り当てるステップと、を包含
するデータ分割方法。
【請求項２】前記アクセスコストが、アクセスコスト
＝（変数のサイズ）×（変数へのアクセス回数）なる式
で決定される請求項１に記載のデータ分割方法。
【請求項３】それぞれに割り当てられたタスクを行う
複数のプロセッサと、該複数のプロセッサに対応する複
数のメモリと、を備えたマルチプロセッサシステムにお
いて、該複数のメモリにデータを分割するデータ分割方
法であって、（ａ）該タスクと、該タスクにアクセスさ
れる変数と、該複数のプロセッサとの関係を規定するデ
ータ分割グラフ構造を決定するステップと、（ｂ）該構
造に基づいて該変数を該複数のメモリのそれぞれに割り
当てるステップと、を包含するデータ分割方法。
【請求項４】前記構造に基づいて該変数を該複数のメ
モリのそれぞれに割り当てるステップは、異なるプロセッサに割り当てられた複数のタスクにアク
セスされる変数を、該異なるプロセッサから選択された
一つのプロセッサに対応するメモリに割り当てるサブス
テップを含む請求項３に記載のデータ分割方法。
【請求項５】前記サブステップは、前記変数を、アクセスコストが最大であるタスクを行う
プロセッサに対応するメモリに割り当てるサブステップ
である請求項４に記載のデータ分割方法。
【請求項６】前記アクセスコストは、アクセスコスト＝ｆ（アクセス量ｎ、アクセス生起確率
ｐ、コスト係数α）なる式で表現される請求項５に記載のマルチプロセッサ
システム。
【請求項７】前記アクセスコストは、アクセスコスト
＝（該変数の大きさ）×（該プロセッサとのアクセス回
数）なる式で表現される請求項５に記載のデータ分割方
法。
【請求項８】前記構造をグラフとして視覚的に表現す
るステップを包含する請求項３に記載のデータ分割方
法。
【請求項９】それぞれに割り当てられたタスクを行う
複数のプロセッサと、該複数のプロセッサに対応する複
数のメモリと、を備えたマルチプロセッサシステムであ
って、該複数のプロセッサに割り当てられたタスクにアクセス
される変数は、アクセスコストが最大であるタスクを行
うプロセッサに対応するメモリに割り当てられるマルチ
プロセッサシステム。
【請求項１０】前記アクセスコストが、アクセスコスト＝ｆ（アクセス量ｎ、アクセス生起確率
ｐ、コスト係数α）なる式で表現される請求項９に記載のマルチプロセッサ
システム。
【請求項１１】前記アクセスコストが、アクセスコス
ト＝（該変数の大きさ）×（該プロセッサとのアクセス
回数）で表現される請求項９に記載のマルチプロセッサ
システム。
【請求項１２】それぞれに割り当てられたタスクを行
う複数のプロセッサと、該複数のプロセッサに対応する
複数のメモリと、を備えたマルチプロセッサシステムで
あって、異なるプロセッサに割り当てられた複数のタスクにアク
セスされる変数を、該異なるプロセッサから選択された
一つのプロセッサに対応するメモリに割り当てるマルチ
プロセッサシステム。
【請求項１３】それぞれに割り当てられたタスクを行
う複数のプロセッサと、該複数のプロセッサに対応する
複数のメモリと、を備えたマルチプロセッサシステムで
あって、ｉ番目（１≦ｉ≦Ｎ）のプロセッサに割り当てられたタ
スクのみにアクセスされる変数は、該ｉ番目のプロセッ
サに対応するメモリに割り当てられ、ｊ番目（１≦ｊ≦Ｎ）のプロセッサに割り当てられたタ
スク、及びｋ番目（１≦ｋ≦Ｎ、ｋ≠ｊ）のプロセッサ
に割り当てられたタスクの両方にのみアクセスされる変
数は、該ｊ番目及びｋ番目のプロセッサから選択された一方の
プロセッサに対応するメモリに割り当てられるマルチプ
ロセッサシステム。
【請求項１４】前記変数は、前記ｊ番目及び前記ｋ番
目のプロセッサのうち、アクセスコストが大きいほうの
プロセッサに対応するメモリに割り当てられる、請求項
１３に記載のマルチプロセッサシステム。