JP2003167748A

JP2003167748A - マルチスレッド計算機

Info

Publication number: JP2003167748A
Application number: JP2001366320A
Authority: JP
Inventors: Akira Yasusato; 彰安里
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-11-30
Filing date: 2001-11-30
Publication date: 2003-06-13

Abstract

(57)【要約】【課題】並列化コンパイラで抽出された並列実行可能
な複数プログラム流を単一のプロセッサでマルチスレッ
ド実行させるマルチスレッド計算機を提供する。【解決手段】一定数のプログラム流を同時に処理する
のに必要なプログラムカウンタ及びレジスタと、パイプ
ライン制御を行う制御機構と、を備えるマルチスレッド
計算機であって、該制御機構が、並列に実行可能なタス
クの先頭アドレスをオペランドにて指定する第１の命令
コードに応じて、新たなスレッドを生成して実行させる
手段と、該並列に実行可能なタスクの終了を指定する第
２の命令コードに応じて、該新たなスレッドを消滅させ
る手段と、を具備する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、マルチスレッド計
算機に関し、より詳細には、ハードウェアリソースの稼
働効率の向上を図ったマルチスレッド計算機に関する。

【０００２】

【従来の技術】パイプライン計算機の実行スループット
を向上させる手段として、マルチスレッド方式が提案さ
れ、実現されている。これは、パイプライン計算機が提
供する並列の演算リソースを単一プログラム流が十分に
使い切ることが一般に困難である点に注目し、複数のプ
ログラム流をパイプラインに同時に投入することで、い
わゆる空きスロットの割合を大幅に削減することを狙っ
たものである。

【０００３】一方、並列化コンパイラによってプログラ
ムに存在する並列性を抽出し、マルチプロセッサで並列
実行するアプローチが従来から行われている。

【０００４】

【発明が解決しようとする課題】ところで、一度に並列
に処理することが可能な部分の大きさのことを並列性に
関する粒度（granularity）と呼んでいるが、小さな粒
度で並列処理しようとすると、オーバヘッドが大きくな
り、あまり効率を向上させることができない。従来、マ
ルチスレッド計算機は、小さな粒度での並列処理を目的
とするものであり、プログラムの持つ大きな粒度の並列
性には対応していない。その一方、並列化コンパイラに
よる並列性の抽出は、大きな粒度のレベルで行われ、ハ
ードウェアリソースを必ずしもきめ細かいレベルで充分
に活用しているとはいえない。

【０００５】本発明は、上述した問題点に鑑み、上述し
た二つの技術の融合を目指すものであり、その目的は、
並列化コンパイラで抽出された並列実行可能な複数プロ
グラム流を単一のプロセッサでマルチスレッド実行させ
るマルチスレッド計算機を提供することにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、本発明の第１の面によれば、一定数のプログラム流
を同時に処理するのに必要なプログラムカウンタ及びレ
ジスタと、パイプライン制御を行う制御機構と、を備え
るマルチスレッド計算機であって、該制御機構が、並列
に実行可能なタスクの先頭アドレスをオペランドにて指
定する第１の命令コードに応じて、新たなスレッドを生
成して実行させる手段と、該並列に実行可能なタスクの
終了を指定する第２の命令コードに応じて、該新たなス
レッドを消滅させる手段と、を具備するマルチスレッド
計算機が提供される。

【０００７】また、本発明の第２の面によれば、一定数
のプログラム流を同時に処理するのに必要なプログラム
カウンタ及びレジスタと、パイプライン制御を行う制御
機構と、を備えるマルチスレッド計算機であって、該制
御機構が、同一の先頭アドレスを有する並列に実行可能
な複数のタスクの該先頭アドレスと該タスクの数とをオ
ペランドにて指定する所定の命令コードに応じて、複数
の新たなスレッドを生成して実行させる手段、を具備す
るマルチスレッド計算機が提供される。

【０００８】また、本発明によれば、その制御機構は、
生成されたスレッドにそれぞれ付加されるユニークなＩ
Ｄ番号を格納するスレッドＩＤレジスタを有し、該スレ
ッドＩＤレジスタを指定する命令コードに応じて該命令
コードが属するスレッドに対応するスレッドＩＤレジス
タに格納された値を読み出す手段を更に具備する。

【０００９】また、本発明によれば、その制御機構は、
計算機の状況に応じて、命令コードに応じた新たなスレ
ッドの生成を抑止して、シーケンシャルに命令を実行さ
せるスレッド生成抑止手段を更に具備する。

【００１０】また、本発明によれば、その制御機構は、
生成された新たなスレッドのうち同時実行されるべきス
レッドの数を制御するスレッド数制御手段を更に具備す
る。

【００１１】

【発明の実施の形態】以下、添付図面を参照して本発明
の実施形態について説明する。

【００１２】図１は、一般的なマルチスレッド計算機の
動作を説明するためのブロック図である。同図におい
て、１２は命令キャッシュ、１４ａ〜１４ｄはそれぞれ
プログラムカウンタ、１６はパイプライン、１８ａ〜１
８ｄはそれぞれレジスタファイル、２０は制御機構であ
る。プログラムカウンタおよびレジスタファイルは複数
存在し、その個数はプロセッサ（計算機）がハードウェ
ア的にサポートする同時実行可能なスレッド数の上限値
である。

【００１３】実行中の各スレッドは、１４ａ〜１４ｄ中
の該当するプログラムカウンタの示すアドレスを用いて
命令キャッシュ１２からフェッチされ、パイプライン１
６に投入される。命令実行中にアクセスされるレジスタ
ファイルは、１８ａ〜１８ｄ中のいずれかから選択され
て用いられる。このようなマルチスレッドプロセッサの
構造は公知であり、本発明もそれを前提とするものであ
る。

【００１４】図２は、並列化コンパイラによって抽出さ
れたプログラムの構造の例を示す図である。同図の例で
は、当初、タスクＡのみが実行されており、その後、並
列実行可能な複数のタスクＢ１〜Ｂ４に制御が移り、最
後は一本に合流してタスクＣとなる。

【００１５】本発明の一実施形態においては、図２のタ
スクＡの最後にthread_fork命令を置くことで、タスク
Ｂ１〜Ｂ４をマルチスレッド実行する枠組みが提供され
る。かかるthread_fork命令は、図３に示されるよう
に、タスク開始アドレスをオペランドとして持つ。

【００１６】このthread_fork命令が実行されると、指
定されたアドレスを先頭とするプログラム流が新たなス
レッドとして定義され、公知の実行方式に従ってマルチ
スレッド実行される。図２に対応する図３の例では、並
列化コンパイラによって、タスクＡの最後にタスクＢ１
〜Ｂ４に対応する４個のthread_fork命令が置かれるこ
とになる。

【００１７】また、スレッドの終わりを表すthread_ter
minate命令も用意され、この命令が実行されると公知の
方式に従ってスレッドが消滅する。すなわち、並列化コ
ンパイラによって、図４に示されるように、タスクＢ１
の最後にはthread_terminate命令が置かれることにな
る。タスクＢ２〜Ｂ４に関しても同様である。

【００１８】図２の構造の特殊な場合として、図５の例
がある。図５はプログラムの流れとしては図２と同じで
あるが、プログラムがループ構造をとっており、タスク
Ｂ１〜Ｂ４が命令コード内の同一部分に位置する点が特
殊である。本発明の一実施形態においては、この例に対
応して、multi_thread_fork命令が用意される。

【００１９】このmulti_thread_fork命令は、スレッド
開始アドレスと、生成されるべきスレッドの数とをオペ
ランドとして持つ。すなわち、図５の例の場合、並列化
コンパイラによって、図６に示されるように、タスクＡ
の命令列の最後にmulti_thread_fork命令が置かれ、そ
のオペランドにはタスクＢ１の開始アドレスとスレッド
数４とが指定される。かくして、図５のタスクＢ１〜Ｂ
４をマルチスレッド実行させることが可能になる。

【００２０】なお、図５において、変数Ｉは、ループの
繰り返し回数を意味するインデクス変数として用いら
れ、例えば、タスクＢ１で参照された場合には“１”の
値、タスクＢ２で参照された場合には“２”の値とな
る。すなわち、これらのタスクが並列に実行される場
合、同じ変数であっても異なる値が読み出される必要が
あり、何らかの対処が必要となる。本発明の一実施形態
においては、スレッドＩＤレジスタによってこの問題が
解決される。

【００２１】図７は、かかるスレッドＩＤレジスタがソ
ースオペランドに指定された場合の動作を示すものであ
る。同図において、２２はスレッド制御部、２４ａ〜２
４ｄはそれぞれスレッドＩＤレジスタ、２６は命令コー
ド、２８はデコーダ、３０はセレクタであり、これらの
要素は図１の制御機構２０に含まれる。

【００２２】スレッド制御部２２は、マルチスレッドプ
ロセッサが一般的に有しているもので、並列実行中の複
数のスレッドＩＤを格納するレジスタ群２４ａ〜２４ｄ
を内部に備えている。

【００２３】図７に示されるように、デコーダ２８が出
力する信号４０によってスレッドＩＤレジスタ群２４ａ
〜２４ｄの中から１個のレジスタが選択され、それに格
納された値が読み出されて、常に信号４２として出力さ
れている。この仕組みによってデコーダ２８がデコード
している命令のスレッドＩＤを信号４２の値として得る
ことが可能になっている。

【００２４】セレクタ３０は、複数のソースオペランド
候補から、命令コードで指定される適切なものを選択す
るもので、その選択はセレクト信号４４の値で決定され
る。選択肢としては、通常のソースオペランド群４６に
加えて信号４２で与えられるスレッドＩＤがあり、それ
らの中から選ばれた値が信号４８として出力される。

【００２５】スレッドＩＤレジスタをソースオペランド
に持つ命令コード２６が与えられると、デコーダ２８が
それを解釈し、セレクタ３０が信号４２を選ぶような値
をセレクト信号４４として設定する。これによって、命
令が属するスレッドのＩＤをソースオペランド値として
読み出すことができる。

【００２６】このように、スレッドＩＤレジスタが命令
のオペランドとして指定されると、各スレッドにユニー
クな番号（スレッドＩＤ）が読み出されるので、これを
利用して、例えば、図８に示されるように、変数Ｉ（図
５）にアクセスすれば、正しい値を参照することができ
る。なお、図８中、＜ｒ０＞はベースアドレスを与える
レジスタｒ０の内容、＜ＩＤ＞はスレッドＩＤレジスタ
の内容をそれぞれ示す。

【００２７】ところで、図２や図５のプログラムではコ
ンパイラによって並列に実行可能なタスクが抽出された
が、本来はシーケンシャルなプログラムであり、並列実
行しなくても正しく動作するものである。一方、マルチ
スレッドプロセッサは、動作状況によって最適な同時実
行スレッド数が変化するのが一般的であり、システム全
体の実効性能を高めるためには、スレッド数を適切に管
理制御することが必須である。

【００２８】この点に鑑みて、本発明では、並列実行す
るスレッド数を制限すべく制御する枠組みが提供され
る。その一つは、thread_fork命令が実行されても、ハ
ードウェア（すなわち制御機構２０）が自動的にプロセ
ッサ（計算機）の稼動状況から、新たにスレッド生成す
ることの得失を判断し、損失が大きいと判断した場合に
はスレッド生成を行わないようにするものである。上記
のようにプログラム自体は並列実行しなくても正しく動
作するので、このような制御を行っても問題はない。

【００２９】また、もう一つは、この判断をハードウェ
アが自動的に行うのではなく、オペレーティングシステ
ム等のソフトウェアが制御する手段を与えるものであ
る。例えば、図９に示されるように、ソフトウェアによ
る設定が可能なスレッド生成抑止レジスタを用意し、オ
ペレーティングシステムがスレッド生成を抑制すべきと
判断した場合にこのレジスタをＯＮにセットすることで
同様の効果を得ることができる。

【００３０】本発明によれば一般に複数のスレッドが同
時に生成されることになる。図２や図５の例ではその数
は４個である。しかし、前述のように、同時実行によっ
て最大の効果が得られるスレッド数は、プログラムの性
質やシステム全体の稼動状況に依存して変化する。そこ
で、同時に生成されたスレッド群のうち何個を同時実行
すべきかを決定する手段を用意する。

【００３１】図１０は、ハードウェアが、状況に応じ
て、同時実行するスレッド数を自動的に決定し制御する
機構を説明する図である。同図において、２２はスレッ
ド制御部、１２は命令キャッシュ、５０は命令実行部、
５２はモニタ部、５４はスレッド数指定レジスタであ
る。

【００３２】命令キャッシュ１２の中には実行可能なス
レッドの命令が複数存在し、その中からスレッド数指定
レジスタ５４で指定された数のスレッドが選択されて並
列実行される。モニタ部５２は、命令実行部５０の状況
（演算リソースの使用状況など）を適宜モニタリングし
ながら、適切なスレッド数を決定し、信号５６を介して
そのスレッド数をスレッド数指定レジスタ５４に設定す
る。

【００３３】図１１は、図１０におけるスレッド数指定
レジスタ５４の設定をソフトウェアが実行することがで
きるようにした構成を示す図である。図１１に示される
構成は、図１０に示されるものに信号５８が加えられた
ものとなっている。コンパイラ等の解析により、適切な
並列実行スレッド数が分かる場合には、図１０のような
ハードウェア機能によらず、ソフトウェアによって信号
５８を介してスレッド数指定レジスタ５４を設定する。

【００３４】以上、本発明を特にその好ましい実施の形
態を参照して詳細に説明した。本発明の容易な理解のた
め、本発明の具体的な形態を以下に付記する。

【００３５】（付記１）一定数のプログラム流を同時
に処理するのに必要なプログラムカウンタ及びレジスタ
と、パイプライン制御を行う制御機構と、を備えるマル
チスレッド計算機であって、該制御機構が、並列に実行
可能なタスクの先頭アドレスをオペランドにて指定する
第１の命令コードに応じて、新たなスレッドを生成して
実行させる手段と、該並列に実行可能なタスクの終了を
指定する第２の命令コードに応じて、該新たなスレッド
を消滅させる手段と、を具備するマルチスレッド計算
機。

【００３６】（付記２）一定数のプログラム流を同時
に処理するのに必要なプログラムカウンタ及びレジスタ
と、パイプライン制御を行う制御機構と、を備えるマル
チスレッド計算機であって、該制御機構が、同一の先頭
アドレスを有する並列に実行可能な複数のタスクの該先
頭アドレスと該タスクの数とをオペランドにて指定する
所定の命令コードに応じて、複数の新たなスレッドを生
成して実行させる手段、を具備するマルチスレッド計算
機。

【００３７】（付記３）前記制御機構は、生成された
スレッドにそれぞれ付加されるユニークなＩＤ番号を格
納するスレッドＩＤレジスタを有し、該スレッドＩＤレ
ジスタを指定する命令コードに応じて該命令コードが属
するスレッドに対応するスレッドＩＤレジスタに格納さ
れた値を読み出す手段を更に具備する、付記１又は付記
２に記載のマルチスレッド計算機。

【００３８】（付記４）前記制御機構は、計算機の状
況に応じて、命令コードに応じた新たなスレッドの生成
を抑止して、シーケンシャルに命令を実行させるスレッ
ド生成抑止手段を更に具備する、付記１又は付記２に記
載のマルチスレッド計算機。

【００３９】（付記５）前記スレッド生成抑止手段
は、自動的に計算機の状況を監視した結果として、シー
ケンシャルに命令を実行させるものである、付記４に記
載のマルチスレッド計算機。

【００４０】（付記６）前記スレッド生成抑止手段
は、計算機の状況を監視するソフトウェアの指示を受け
て、シーケンシャルに命令を実行させるものである、付
記４に記載のマルチスレッド計算機。

【００４１】（付記７）前記制御機構は、生成された
新たなスレッドのうち同時実行されるべきスレッドの数
を制御するスレッド数制御手段を更に具備する、付記１
又は付記２に記載のマルチスレッド計算機。

【００４２】（付記８）前記スレッド数制御手段は、
自動的に計算機の状況を監視した結果として、同時実行
されるべきスレッドの数を制御するものである、付記７
に記載のマルチスレッド計算機。

【００４３】（付記９）前記スレッド数制御手段は、
計算機の状況を監視するソフトウェアの指示を受けて、
同時実行されるべきスレッドの数を制御するものであ
る、付記７に記載のマルチスレッド計算機。

【００４４】

【発明の効果】以上説明したように、本発明によれば、
並列化コンパイラで抽出された並列実行可能な複数プロ
グラム流を単一のプロセッサでマルチスレッド実行させ
るマルチスレッド計算機が提供され、パイプライン制御
を行うハードウェアリソースの稼働効率が更に向上せし
められる。

【図面の簡単な説明】

【図１】一般的なマルチスレッド計算機の動作を説明す
るためのブロック図である。

【図２】並列化コンパイラによって抽出されるプログラ
ムの構造の例を示す図である。

【図３】命令列の終わりに配置されたthread_fork命令
を示す図である。

【図４】命令列の終わりに配置されたthread_terminate
命令を示す図である。

【図５】並列化コンパイラによって抽出されるプログラ
ム構造の他の例を示す図である。

【図６】命令列の終わりに配置されたmulti_thread_for
k命令を示す図である。

【図７】スレッドＩＤレジスタがソースオペランドに指
定された場合の動作を示す図である。

【図８】インデクス変数へのアクセスを示す図である。

【図９】スレッド生成抑止レジスタについて説明するた
めの図である。

【図１０】ハードウェアが、状況に応じて、同時実行す
るスレッド数を自動的に決定し制御する機構を説明する
図である。

【図１１】ソフトウェアが、状況に応じて、同時実行す
るスレッド数を自動的に決定し制御する機構を説明する
図である。

【符号の説明】

１２…命令キャッシュ１４ａ〜１４ｄ…プログラムカウンタ１６…パイプライン１８ａ〜１８ｄ…レジスタファイル２２…スレッド制御部２４ａ〜２４ｄ…スレッドＩＤレジスタ２６…命令コード２８…デコーダ３０…セレクタ５０…命令実行部５２…モニタ部５４…スレッド数指定レジスタ

Claims

【特許請求の範囲】

【請求項１】一定数のプログラム流を同時に処理する
のに必要なプログラムカウンタ及びレジスタと、パイプ
ライン制御を行う制御機構と、を備えるマルチスレッド
計算機であって、該制御機構が、並列に実行可能なタスクの先頭アドレスをオペランドに
て指定する第１の命令コードに応じて、新たなスレッド
を生成して実行させる手段と、該並列に実行可能なタスクの終了を指定する第２の命令
コードに応じて、該新たなスレッドを消滅させる手段
と、を具備するマルチスレッド計算機。
【請求項２】一定数のプログラム流を同時に処理する
のに必要なプログラムカウンタ及びレジスタと、パイプ
ライン制御を行う制御機構と、を備えるマルチスレッド
計算機であって、該制御機構が、同一の先頭アドレスを有する並列に実行可能な複数のタ
スクの該先頭アドレスと該タスクの数とをオペランドに
て指定する所定の命令コードに応じて、複数の新たなス
レッドを生成して実行させる手段、を具備するマルチスレッド計算機。
【請求項３】前記制御機構は、生成されたスレッドに
それぞれ付加されるユニークなＩＤ番号を格納するスレ
ッドＩＤレジスタを有し、該スレッドＩＤレジスタを指
定する命令コードに応じて該命令コードが属するスレッ
ドに対応するスレッドＩＤレジスタに格納された値を読
み出す手段を更に具備する、請求項１又は請求項２に記
載のマルチスレッド計算機。
【請求項４】前記制御機構は、計算機の状況に応じ
て、命令コードに応じた新たなスレッドの生成を抑止し
て、シーケンシャルに命令を実行させるスレッド生成抑
止手段を更に具備する、請求項１又は請求項２に記載の
マルチスレッド計算機。
【請求項５】前記制御機構は、生成された新たなスレ
ッドのうち同時実行されるべきスレッドの数を制御する
スレッド数制御手段を更に具備する、請求項１又は請求
項２に記載のマルチスレッド計算機。