JP2000305795A

JP2000305795A - 並列処理装置

Info

Publication number: JP2000305795A
Application number: JP11112895A
Authority: JP
Inventors: Sachiko Shimada; 幸子嶋田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1999-04-20
Filing date: 1999-04-20
Publication date: 2000-11-02
Also published as: US6687812B1

Abstract

(57)【要約】【課題】複数のプロセッサを起動するためのフォーク
命令を効率的に行うことにより、消費電力の低減を図る
ことのできる並列処理装置を提供する。【解決手段】複数命令から構成されるスレッドを外部
のユニット上に生成する（フォークする）プロセッサエ
レメント１０を有する並列処理装置において、プロセッ
サエレメント１０は、条件付フォーク命令のフォーク条
件が成立するか否かを、命令を読み込んだ後、当該命令
の実行前に予測する予測部を有するフォーク命令予測部
１４を備える。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、並列処理装置に係
り、特に複数のプロセッサ間で複数の命令からなるスレ
ッドを生成、終了しながらプログラムを並列に処理する
並列処理装置に関する。

【０００２】

【従来の技術】現在のコンピュータは一般的にノイマン
型コンピュータであり、その内部に設けられたコンピュ
ータの中心的役割を果たすプロセッサも、一つの命令を
読み込んでその命令を解読し、その命令毎に指示された
処理を実行し、メモリにアクセスし、実行結果をメモリ
に書き戻す、という手順を繰り返す。また、現在のコン
ピュータは処理の高速化を図るため、メインメモリとプ
ロセッサとの間にアクセス速度が高速なキャッシュメモ
リを備える。よって、主としてプロセッサはキャッシュ
メモリとの間でデータの授受を行う。プロセッサがキャ
ッシュメモリから命令を読み込む操作を命令フェッチ、
命令を解読する操作を命令デコード、メモリに書き戻す
操作をライトバックと称する。

【０００３】プロセッサの高速化の技術の１つとして、
パイプライン処理が知られている。パイプライン処理に
ついては、例えばヘネシー＆パターソンによる「コンピ
ュータ・アーキテクチャ」等のコンピュータに関する多
くの書物に述べられている。パイプライン処理は１クロ
ックサイクルで処理全体の一部のみを行う複数の命令を
オーバーラップさせて行うことによって処理能力を向上
させる技術である。

【０００４】図１３は、パイプライン処理を説明するた
めの図である。命令の実行は命令フェッチ（ＩＦ）、命
令デコード（ＩＤ）、命令実行（ＥＸ）、メモリアクセ
ス（ＭＥＭ）、ライトバック（ＷＢ）と呼ばれるパイプ
ラインステージに分かれて行われる。Ｔ１サイクルにお
いて１０００番地の命令が命令フェッチを行う。Ｔ２サ
イクルにおいて１０００番地の命令は命令デコードが行
われ、同時に１００４番地の命令の命令フェッチが行わ
れる。このように複数の命令を重複させて同時に実行す
る技術をパイプライン処理と称する。各処理の間に置か
れたレジスタをパイプラインレジスタ、各処理を行う処
理単位をパイプラインステージと呼ぶ。このようにパイ
プライン処理では、プログラム内に記述された命令を並
列に行うことにより処理全体の高速化を計っている。

【０００５】しかしながら、分岐命令によるプログラム
・フローの変化により命令を適切なサイクルで実行でき
ないような状況が生じる。高速化ために例えばＩＤステ
ージ等のパイプラインステージの早い段階において分岐
命令で指定される分岐先のアドレスを計算するなどの手
法がとられているが、条件付分岐命令では条件が決定す
るまで分岐先を決定することができない。そこで条件付
分岐命令では分岐条件が成立するか否かを履歴情報を用
いて予測する手法（前述のヘネシー＆パターソンによる
「コンピュータ・アーキテクチャ」ｐ３０２〜３０７）
によりパイプライン停止するサイクルを削減している。

【０００６】また、１つのプロセッサ内に複数の演算器
を設け、同時に複数の命令を発行することにより処理速
度を向上させるスーパースカラ方式（「スーパースカ
ラ」ジョンソン）が実用化されている。スーパースカラ
方式では理想的には１クロックで演算器の数の命令を実
行することが可能である。しかしながら、演算器を無限
に増やした場合にも分岐命令によって命令がスムーズに
実行されず実際の性能は１つのプロセッサのみの場合の
３〜４倍程度に抑えられてしまうと言われている。

【０００７】また、複数のプロセッサを用いて並列処理
による高速化も行われている。複数のプロセッサを用い
た並列処理を実現するプロセッサシステムにおいては、
一般に各プロセッサでの処理を分担するためプロセッサ
間の通信を行い、並列処理を実現している。従来のプロ
セッサを使用したシステムにおいてはこのような通信は
プロセッサの外部からプロセッサに対する制御として割
り込み処理技術により実現されている。

【０００８】割り込み処理技術では、プロセッサに外部
から割り込みが通知されると、ユーザプログラムから割
り込み処理用のプログラムへとプロセッサ内の実行プロ
グラムが切り替わり、それぞれの割り込み処理を行い、
その後元のユーザプログラムに戻る。プロセッサ内の実
行プログラムが切り替わるためには、プログラムカウン
タやレジスタファイル内のデータなど元のユーザプログ
ラムで再度使用するデータをメモリ装置内へ退避させ
る。このようにプログラムの切替えのためのデータ退避
などに要するオーバーヘッドは無視できないほど大き
く、一般に割り込み処理は時間を要する。このため割り
込み処理技術を用いた並列処理システムではプロセッサ
間通信処理に大きなオーバーヘッドが生じ、性能を向上
する上でボトルネックとなってきた。

【０００９】このような問題を解決する技術として、マ
ルチスレッドアーキテクチャと呼ばれるものがある。こ
の技術は、例えば“A Multi-threaded Massively Paral
lelArchitecture”, Proceedings of 19th Internation
al Symposium on ComputerArchitecture, R. S. Nikhi
l, G. M. Papadopuolos and Arvind, PP.156-167 に開
示されている。

【００１０】ここで、スレッドとは複数の命令から構成
される命令列である。またプログラムは複数のスレッド
から成る。マルチスレッドアーキテクチャではスレッド
単位での処理を複数プロセッサに分割して行い、複数の
プロセッサがスレッドを並列に処理することを可能とし
ている。このためマルチスレッドアーキテクチャではプ
ロセッサ上で実行されているスレッドが別のプロセッサ
上に新たにスレッドを生成するための機構及び命令を備
える。

【００１１】ここで他のプロセッサ上に新たなスレッド
を生成することを「スレッドをフォークする」と称し、
そのためのスレッドのフォークを指示する命令をフォー
ク命令と称する。フォーク命令ではどのプロセッサ・エ
レメント（ＰＥ）にスレッドをフォークするか、及びど
のスレッドをフォークするかを指定する。

【００１２】例えば、“On Chip Multiprocessor指向制
御並列アーキテクチャＭＵＳＣＡＴの提案”,鳥居他,並
列処理シンポジウムJSPP'97,pp.229-236 では制御並列
処理が提案されている。制御並列処理ではプログラムの
制御フローを解析し、将来実行する可能性の高いパスを
予測し、実行確定前に投機的に実行することによりプロ
グラムを並列に処理する。

【００１３】図１４は、制御並列処理のモデルを示す図
である。従来の逐次実行される命令列はスレッドＡ，
Ｂ，Ｃから成る。逐次実行では図１４（ａ）に示したよ
うに、１つのプロセッサが順番にスレッドＡ，Ｂ，Ｃを
処理するのに対し、制御並列処理では図１４（ｂ）に示
したように、ＰＥ＃０で処理を行っているスレッドＡを
実行している最中に、将来実行されるスレッドＢをＰＥ
＃１にフォークしＰＥ＃１においてスレッドＢを実行す
る。また、ＰＥ＃１は更にスレッドＣをＰＥ＃２にフォ
ークする。このように将来実行されるスレッドを投機的
に実行することにより、並列実行が可能となり性能向上
を図っている。

【００１４】

【発明が解決しようとする課題】ところで、前述のＭＵ
ＳＣＡＴで提案されている並列制御においてはスレッド
がフォークされるかどうか実行前から解る場合と解らな
い場合があることが述べられている。しかしながら実行
前からスレッドのフォークが確定されている確定フォー
クのみによっては十分な並列性が得られないことも分か
っている。このため前述のＭＵＳＣＡＴではプログラム
のコンパイル時に解析を行い実行する可能性の高いスレ
ッドを実行確定前に投機的に実行する制御スペキュレー
ションを導入している。また、この投機的に実行される
フォーク命令をスペキュレーション・フォーク命令と称
している。しかしながら、制御並列処理では投機的実行
が失敗した場合に投機的に実行したスレッドを取り消さ
なければならず、無駄にＰＥを動作させることが生じる
ため消費電力が増加するという問題を抱えている。

【００１５】また、各ＰＥで実行されるスレッドはその
終了命令により一連の処理を終了する。スペキュレーシ
ョン・フォーク命令によりスレッドがフォークされた場
合には終了命令が有効となって実行が行われるが、スレ
ッドのフォークが行われない場合には終了命令の実行を
行う必要がなくなる場合も生じる。このためＭＵＳＣＡ
Ｔでは条件付終了命令を用意し、その条件の正否に従い
終了命令の実行を行っている。しかしながら、並列に複
数のスレッドを処理するため、制御並列処理においては
条件確定後に行われる条件付終了命令の処理が、その条
件を決定する命令処理の実行よりも先に行われることが
生じる。このような場合、条件付終了命令はその条件が
決定される命令の処理が終了するまで実行処理を待たな
ければならない。また条件が決定するまでは、終了が決
定した場合には不必要となる後続命令のフェッチなどが
行われ、消費電力が増加するという問題を抱えている。

【００１６】本発明は、上記事情に鑑みてなされたもの
であり、複数のプロセッサを用いて並列処理を行うプロ
セッサシステムにおいて、複数のプロセッサを起動する
ためのフォーク命令を効率的に行うことにより、消費電
力の低減を図ることのできる並列処理装置を提供するこ
とを目的とする。また、本発明は、前述のスレッドの条
件付終了命令についても、効率的にスレッドを終了させ
ることのできる並列処理装置を提供することを目的とす
る。更に、前述のスペキュレーション・フォーク命令、
スレッド終了条件付スレッド終了命令を行うユニットを
ハードウェアで効率的に実現する並列処理装置を提供す
ることを目的とする。

【００１７】

【課題を解決するための手段】上記課題を解決するため
に、第１の発明は、複数命令から構成されるスレッドを
外部のユニット上に生成する（フォークする）処理手段
を有する並列処理装置において、前記処理手段は、フォ
ーク条件付フォーク命令のフォーク条件が成立するか否
かを、命令を読み込んだ後、当該命令の実行前に予測す
る予測部を具備することを特徴とする。第２の発明は、
外部からフォークされたスレッドを発行する手段を有す
る処理手段を備える並列処理装置において、前記処理手
段は、フォークされたスレッドを終了させるスレッド終
了条件付スレッド終了命令のスレッド終了条件が成立す
るか否かを、命令を読み込んだ後、当該命令の実行前に
予測する予測部を具備することを特徴とする。第３の発
明は、複数命令から構成されるスレッドを外部のユニッ
ト上に生成するとともに、外部からフォークされたスレ
ッドを発行する手段を有する処理手段を備える並列処理
装置において、前記処理手段は、フォーク条件付フォー
ク命令のフォーク条件が成立するか否か、及びフォーク
されたスレッドを終了させるスレッド終了条件付スレッ
ド終了命令のスレッド終了条件が成立するか否かを、命
令を読み込んだ後、当該命令の実行前に予測する予測部
を具備することを特徴とする。また、第４の発明は、第
１〜第３の発明において、前記予測部が、前記予測を行
うとともに、入力された命令が条件付分岐命令である場
合には、当該条件付分岐命令が成立するか否かを予測す
ることを特徴とする。また、第５の発明は、第１〜第４
の発明において、前記処理手段を複数設けたことを特徴
とする。また、第１〜第５の発明は、前記予測部が、履
歴情報を用いて前記予測を行うことを特徴とする。前記
履歴情報は、前記予測の確率に応じて複数の状態を有す
る情報であることを特徴とする。また、前記予測部は、
前記状態に基づいて前記フォーク条件、スレッド終了条
件、又は条付件分岐命令を予測することを特徴とする。
また、第１の発明は、前記フォーク条件付フォーク命令
が、フォーク条件の確率を予め解析した情報を含み、前
記予測部が、前記確率に応じてフォーク条件が成立する
か否かを予測することを特徴とする。また、第２の発明
は、前記スレッド終了条件付スレッド終了命令が、スレ
ッド終了条件の確率を予め解析した情報を含み、前記予
測部が、前記確率に応じてスレッド終了条件が成立する
か否かを予測することを特徴とする。また、第３の発明
は、前記フォーク条件付フォーク命令が、フォーク条件
及びスレッド終了条件の確率を予め解析した情報を含
み、前記予測部が、前記確率に応じてフォーク条件及び
スレッド終了条件が成立するか否かを予測することを特
徴とする。また、前記処理手段は、前記フォーク条件、
スレッド終了条件、及び条付件分岐命令の内の２以上の
命令に関する前記履歴情報を共に記憶する記憶手段を具
備することを特徴とする。また、前記処理手段は、前記
フォーク条件が成立した場合に、生成されるスレッドの
先頭命令アドレスを生成するとともに、前記条件付分岐
命令が成立した場合に、分岐先ターゲットの命令アドレ
スを生成する生成手段を更に具備することを特徴とす
る。より具体的な第１の発明は、入力される命令を解析
する解析手段と、前記解析手段により解析された命令が
フォーク条件付フォーク命令である場合に、当該フォー
ク条件付フォーク命令のフォーク条件が成立するか否か
を、前記命令を読み込んだ後、当該命令の実行前に予測
し、予測結果に応じてフォーク命令を外部に出力する予
測手段と、前記命令を実行するとともに、前記フォーク
命令の予測が正しいか否かの判定を行い、前記フォーク
命令が外部に出力され、且つ前記予測が誤りであった場
合には前記フォーク命令によって生成されたスレッドを
取り消す命令を前記外部に出力する実行手段とを具備す
ることを特徴とする。また、具体的な第２の発明は、入
力される命令を解析する解析手段と、前記解析手段によ
り解析された命令がフォークされたスレッドを終了させ
るスレッド終了条件付スレッド終了命令である場合に、
当該スレッド終了条件付スレッド終了命令のスレッド終
了条件が成立するか否かを、前記命令を読み込んだ後、
当該命令の実行前に予測し、予測結果に応じてスレッド
終了命令を外部に出力する予測手段と、前記命令を実行
するとともに、前記フォーク命令の予測が正しいか否か
の判定を行い、前記スレッド終了命令が外部に出力さ
れ、且つ前記予測が誤りであった場合には前記スレッド
終了命令によって停止されたスレッドの停止を解除する
命令を前記外部に出力する実行手段とを具備することを
特徴とする。また、具体的な第１又は第２の発明は、前
記予測手段が、履歴情報を記憶する記憶手段と、当該記
憶手段に記憶された履歴情報を更新する更新手段とを備
え、前記実行手段は、前記判定の結果を前記更新手段に
通知し、前記更新手段が、前記判定の結果に応じて履歴
情報を更新することを特徴とする。

【００１８】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態による並列処理装置について詳細に説明する。〔第１実施形態〕図１は、本発明の第１実施形態による
並列処理装置の構成を示すブロック図である。図１に示
すように、本発明の第１実施形態による並列処理装置
は、２組のプロセッサエレメント（ＰＥ）１０，２０か
らなり、これらはバスＢを介して相互に接続されてい
る。プロセッサエレメント１０は、プログラムカウンタ
レジスタ（以下、ＰＣレジスタと称する）１１、命令キ
ャッシュ１２、命令デコード部１３、フォーク命令予測
部１４、及び命令実行部１５から構成される。また、プ
ロセッサエレメント２０も同様にプログラムカウンタレ
ジスタ２１、命令キャッシュ２２、命令デコード部２
３、フォーク命令予測部２４、及び命令実行部２５から
構成される。

【００１９】上記ＰＣレジスタ１１，２１は、処理を行
う命令のアドレスを保持するレジスタである。命令キャ
ッシュ１２，２２は、ＰＣレジスタ１１，２１から出力
される命令をそれぞれキャッシュする。命令デコード部
１３，２３は、命令キャッシュ１２，２２にそれぞれキ
ャッシュされている命令を読み出してデコード（解読）
を行う。フォーク命令予測部１４，２４は、内部で保持
しているフォーク命令の履歴情報に従いスペキュレーシ
ョン・フォーク命令（フォーク条件付フォーク命令）が
スレッドのフォークを行うかどうかを予測する。命令実
行部１５，２５は、命令デコード部１３，２３において
解読された命令に従い命令の実行を行う。また、スペキ
ュレーション・フォーク命令の予測が正しいかどうかの
判定も行う。

【００２０】次に、フォーク命令予測部１４，２４につ
いて詳細に説明する。図２は、フォーク命令予測部１
４，２４の内部構成を示すブロック図である。図２に示
したように、フォーク命令予測部１４，２４はアドレス
計算部３０、履歴バッファ３２、予測部３４、及び履歴
情報更新部３６からなる。上記アドレス計算部３０は、
命令デコード部１３，２３から出力される命令からフォ
ーク先のアドレスを計算する。履歴バッファ３２は、ス
ペキュレーション・フォーク命令がスレッドのフォーク
を行ったかどうかの履歴情報を記憶する。予測部３４
は、履歴バッファ３２に記憶された履歴情報に基づいて
スレッドのフォークを行うか否かを予測する。履歴情報
更新部３６は図１中の命令実行部１５，２５からの判定
結果が入力され、この判定結果に基づいて履歴バッファ
３２に記憶された履歴情報の更新を行う。

【００２１】次に、上記構成におけるフォーク命令予測
部１４，２４の動作について説明する。まず、命令デコ
ード部１３，２３からデコードされた命令が出力される
とアドレス計算部３０はフォーク先のアドレス計算を行
い予測部３４へ出力する。また、命令デコード部１３，
２３から命令アドレスが出力されると、この命令アドレ
スに従い、履歴バッファ３２から履歴情報が出力され、
予測部３４及び履歴情報更新部３６へ出力される。予測
部３４は、入力された履歴情報に基づいてスレッドのフ
ォークを行うか否かを予測する。

【００２２】予測部３４がフォークを行うと予測した場
合は、アドレス計算部３０から出力されたフォーク先の
アドレスをフォーク先のアドレスとして信号線１４ａ，
２４ａへ出力する。また、命令実行部１５，２５からフ
ォーク予測の判定結果が入力された場合には履歴情報更
新部３６は、読み込んでいる履歴情報を更新し、信号線
３６ａを介して更新後の履歴情報を履歴バッファへ書き
込む。

【００２３】次に、図２中の予測部３４において用いら
れている履歴情報を用いてスレッドのフォークを予測す
るアルゴリズムについて説明する。図３は、予測部３４
において用いられている履歴情報を用いてスレッドのフ
ォークを予測するアルゴリズムを説明する状態遷移図で
ある。履歴バッファ３２内に記憶された履歴情報は４状
態を表すことができる。４状態はそれぞれ、・フォークしない可能性大（Ｓｔ１）・フォークしない可能性小（Ｓｔ２）・フォークする可能性小（Ｓｔ３）・フォークする可能性大（Ｓｔ４）を示す。

【００２４】履歴情報が、「フォークしない可能性大」
（Ｓｔ１）又は「フォークしない可能性小」（Ｓｔ２）
であった場合、予測部３４はスレッドがフォークしない
と予測する。一方、履歴情報が「フォークする可能性
小」（Ｓｔ３）又は「フォークする可能性大」（Ｓｔ
４）であった場合、予測部３４はスレッドがフォークす
ると予測する。

【００２５】履歴情報の状態は予測の判定により遷移す
る。履歴情報が「フォークしない可能性大」（Ｓｔ１）
である場合において、予測が成功した場合は、状態は変
化せず「フォークしない可能性大」（Ｓｔ１）となる。
一方、予測が失敗した場合は、「フォークしない可能性
小」（Ｓｔ２）に遷移する。また、履歴情報が「フォー
クしない可能性小」（Ｓｔ２）である場合において、予
測が成功した場合は「フォークしない可能性大」（Ｓｔ
１）に遷移し、予測に失敗した場合は「フォークする可
能性小」（Ｓｔ３）に遷移する。更に、履歴情報が「フ
ォークする可能性小」（Ｓｔ３）である場合において、
予測が成功した場合は「フォークする可能性大」（Ｓｔ
４）に遷移し、予測に失敗した場合には、「フォークし
ない可能性小」（Ｓｔ２）に遷移する。履歴情報が「フ
ォークする可能性大」（Ｓｔ４）である場合において、
予測が成功した場合は状態は遷移せず「フォークする可
能性大」（Ｓｔ４）である。一方、予測に失敗した場合
には「フォークする可能性小」（Ｓｔ３）に遷移する。
以上のようなアルゴリズムを用いて予測部３４は、入力
された履歴情報に基づいてスレッドのフォークを行うか
否かを予測する。

【００２６】次に、上記構成における本発明の第１実施
形態による並列処理装置の全体の動作について説明す
る。図４は、本発明の第１実施形態による並列処理装置
の全体の動作を示すフローチャートである。図４におい
て、ＩＦ，ＩＤ，ＥＸ，ＭＥＭ，ＷＢはパイプラインス
テージを表し、それぞれ命令フェッチ、命令デコード、
命令実行、メモリアクセス、ライトバックのステージで
あることを示している。

【００２７】まず、ＩＦステージにおいてプロセッサエ
レメント１０はＰＣレジスタ１１に記憶されたアドレス
を命令キャッシュに送付する（ステップＳ１０）。次
に、命令デコード部１３は、ＰＣレジスタ１１から命令
キャッシュ１２に送付されたアドレスによって指定され
た命令を命令キャッシュ１２から読み出す（ステップＳ
１２）。

【００２８】次に、ＩＤステージでは、命令デコード部
１３がステップＳ１２で読み出した命令を解読して実行
する処理を決定する。また、命令デコード部１３は解読
した命令がスペキュレーション・フォーク命令であるか
否かを判断し（ステップＳ１４）、スペキュレーション
・フォーク命令である場合にはその旨が命令デコード部
１３からフォーク命令予測部１４に通知される。一方、
解読した命令がスペキュレーション・フォーク命令でな
い場合には、ステップＳ３２においてその命令の実行が
行われる。

【００２９】上記通知がなされると、フォーク命令予測
部１４は、内部に保持しているフォーク命令の履歴情報
に従いスペキュレーション・フォーク命令がスレッドの
フォークを行う命令であるかどうかを予測する（ステッ
プＳ１６）。この判断結果が「ＹＥＳ」の場合、つまり
スレッドのフォークを行うと予測した場合はフォーク先
のアドレスをフォーク命令予測部１４から信号線１４ａ
及びバスＢを介してプロセッサエレメント２０内のＰＣ
レジスタ２１に送出する（ステップＳ１８）。この処理
によってプロセッサエレメント２０には新しいスレッド
が生成され命令の処理が開始され、プロセッサエレメン
ト１０の処理はステップＳ２０へ進む。一方、ステップ
Ｓ１６における判断結果が「ＮＯ」の場合、つまりスレ
ッドのフォークを行わないと予測した場合はフォーク命
令予測部１４はプロセッサエレメント２０に対するスレ
ッドの生成を行わず、処理はステップＳ２６へ進む。

【００３０】次に、ＥＸステージでは、命令デコード部
１３において解読された命令に従い命令実行部１５にお
いて命令の実行処理が行われる。また、スペキュレーシ
ョン・フォーク命令の予測が正しいかどうかの判定も行
われる（ステップＳ２０，Ｓ２６）。まず、ステップＳ
２０における判断結果が「成功」の場合は、「スレッド
のフォークを行う」という予測が成功したことを意味
し、この場合、命令の実行が続行され、命令実行部１５
からフォーク命令予測部１４へ「予測成功」が通知され
る。またフォーク命令予測部１４においてスペキュレー
ション・フォーク命令の履歴情報が更新される。更にフ
ォークされたスレッドの確定を信号線１５ｂを介してプ
ロセッサエレメント２０へ通知する（ステップＳ２
２）。

【００３１】一方、ステップＳ２０における判断結果が
「失敗」の場合は、「スレッドのフォークを行う」とい
う予測が失敗したことを意味し、信号線１５ｂを介して
プロセッサエレメント２０へその旨を通知し、フォーク
されたスレッドの取消を行う。また命令実行部１５はフ
ォーク命令予測部１４に対し、「予測失敗」を通知す
る。この通知がなされると、フォーク命令予測部１４
は、スペキュレーション・フォーク命令の履歴情報を更
新する（ステップＳ２４）。以上の処理が終了すると、
プロセッサエレメント１０においては命令の実行が続行
される。

【００３２】次に、ステップＳ２６における判断結果が
「成功」の場合は、「スレッドのフォークを行わない」
という予測が成功したことを意味し、命令実行部１５か
らフォーク命令予測部１４へ「予測成功」が通知され
る。そしてフォーク命令予測部１４においてスペキュレ
ーション・フォーク命令の履歴情報が更新される（ステ
ップＳ２８）。

【００３３】一方、ステップＳ２６における判断結果が
「失敗」の場合は、「スレッドのフォークを行わない」
という予測が失敗したことを意味し、スレッドのフォー
クを行うため、命令実行部１５は信号線１５ｂ及びバス
Ｂを介してフォーク先アドレスをプロセッサエレメント
２０のＰＣレジスタ２１へ送出する。これによってプロ
セッサエレメント２０には新しいスレッドが生成され、
命令の処理が開始される。また、命令実行部１５からフ
ォーク命令予測部１４へ「予測失敗」が通知され、スペ
キュレーション・フォーク命令の履歴情報が更新される
（ステップＳ３０）。以上説明したように、本実施形態
においては、予測部３４が履歴情報に基づいてスレッド
をフォークを予測しているため、新規スレッドの生成と
スレッドの終了を効率的に行うことによって不必要なス
レッドの生成を抑制することができ、ひいては消費電力
を削減につながる。

【００３４】次に、フォークされる確率が高い場合に図
２中の予測部３４において用いられている履歴情報を用
いてスレッドのフォークを予測するアルゴリズムについ
て説明する。図５は、フォークされる確率が高い場合
に、予測部３４において用いられている履歴情報を用い
てスレッドのフォークを予測するアルゴリズムを説明す
る状態遷移図である。

【００３５】履歴バッファ３２内に記憶された履歴情報
は、図３で説明した場合と同様に、４状態である。フォ
ークされる確率が高いスペキュレーション・フォーク命
令における４状態はそれぞれ、・フォークしない可能性あり（Ｓｔ１１）・フォークする可能性小（Ｓｔ１２）・フォークする可能性大（Ｓｔ１３）・フォークする可能性極めて大（Ｓｔ１４）である。

【００３６】履歴情報が「フォークする可能性極めて
大」（Ｓｔ１４）、「フォークする可能性大」（Ｓｔ１
３）、又は「フォークする可能性小」（Ｓｔ１２）の何
れかであった場合に予測部３４はスレッドがフォークす
ると予測する。一方、履歴情報が「フォークしない可能
性あり」（Ｓｔ１１）の場合のみ予測部３４はスレッド
がフォークしないと予測する。

【００３７】履歴情報の状態は予測の判定により遷移す
る。履歴情報が「フォークしない可能性あり」（Ｓｔ１
１）である場合において、予測が成功した場合は、状態
は変化せず「フォークしない可能性あり」（Ｓｔ１１）
となる。一方、予測が失敗した場合は、「フォークする
可能性小」（Ｓｔ１２）に遷移する。また、履歴情報が
「フォークする可能性小」（Ｓｔ１２）である場合にお
いて、予測が失敗した場合は「フォークしない可能性あ
り」（Ｓｔ１１）に遷移し、予測に成功した場合は「フ
ォークする可能性大」（Ｓｔ１３）に遷移する。更に、
履歴情報が「フォークする可能性大」（Ｓｔ１３）であ
る場合において、予測が成功した場合は「フォークする
可能性極めて大」（Ｓｔ１４）に遷移し、予測に失敗し
た場合には、「フォークする可能性小」（Ｓｔ１２）に
遷移する。履歴情報が「フォークする可能性極めて大」
（Ｓｔ１４）である場合において、予測が成功した場合
は状態は遷移せず「フォークする可能性極めて大」（Ｓ
ｔ１４）である。一方、予測に失敗した場合には「フォ
ークする可能性大」（Ｓｔ１３）に遷移する。以上のよ
うなアルゴリズムを用いて予測部３４は、入力された履
歴情報に基づいてスレッドのフォークを行うか否かを予
測する。

【００３８】つまり、図５に示したアルゴリズムでは、
コンパイル時の解析においてスレッドのフォークを行う
確率が高いと判断されたスペキュレーション・フォーク
命令ではその情報を命令中に含ませる。このようなフォ
ークする確率の高いスペキュレーション・フォーク命令
の予測を履歴情報を用いて行う際には、「スレッドのフ
ォークを行う」と予測を行うと判断する状態数を「スレ
ッドのフォークを行わない」と予測を行う状態数に比べ
多くし、偏りを持たせる。

【００３９】次に、フォークされる確率が低い場合に図
２中の予測部３４において用いられている履歴情報を用
いてスレッドのフォークを予測するアルゴリズムについ
て説明する。図６は、フォークされる確率が低い場合
に、予測部３４において用いられている履歴情報を用い
てスレッドのフォークを予測するアルゴリズムを説明す
る状態遷移図である。

【００４０】履歴バッファ３２内に記憶された履歴情報
は、図３で説明した場合と同様に、４状態である。フォ
ークされる確率が高いスペキュレーション・フォーク命
令における４状態はそれぞれ、・フォークしない可能性極めて大（Ｓｔ２１）・フォークしない可能性大（Ｓｔ２２）・フォークしない可能性小（Ｓｔ２３）・フォークする可能性あり（Ｓｔ２４）である。

【００４１】履歴情報が「フォークしない可能性極めて
大」（Ｓｔ２１）、「フォークしない可能性大」（Ｓｔ
２２）、又は「フォークしない可能性小」（Ｓｔ２３）
の何れかであった場合に予測部３４はスレッドがフォー
クしないと予測する。一方、履歴情報が「フォークする
可能性あり」（Ｓｔ２４）の場合のみ予測部３４はスレ
ッドがフォークすると予測する。

【００４２】履歴情報の状態は予測の判定により遷移す
る。履歴情報が「フォークしない可能性極めて大」（Ｓ
ｔ２１）である場合において、予測が成功した場合は、
状態は変化せず「フォークしない可能性極めて大」（Ｓ
ｔ２１）となる。一方、予測が失敗した場合は、「フォ
ークしない可能性大」（Ｓｔ２２）に遷移する。また、
履歴情報が「フォークしない可能性大」（Ｓｔ２２）で
ある場合において、予測が失敗した場合は「フォークし
ない可能性小」（Ｓｔ２３）に遷移し、予測に成功した
場合は「フォークしない可能性極めて大」（Ｓｔ２１）
に遷移する。更に、履歴情報が「フォークしない可能性
小」（Ｓｔ２３）である場合において、予測が成功した
場合は「フォークしない可能性大」（Ｓｔ２２）に遷移
し、予測に失敗した場合には、「フォークする可能性あ
り」（Ｓｔ２４）に遷移する。履歴情報が「フォークす
る可能性あり」（Ｓｔ２４）である場合において、予測
が成功した場合は状態は遷移せず「フォークする可能性
あり」（Ｓｔ２４）である。一方、予測に失敗した場合
には「フォークしない可能性小」（Ｓｔ２３）に遷移す
る。以上のようなアルゴリズムを用いて予測部３４は、
入力された履歴情報に基づいてスレッドのフォークを行
うか否かを予測する。

【００４３】命令実行前の解析においてスレッドのフォ
ークを行う確率が低いと判断されたスペキュレーション
・フォーク命令ではその情報を命令中に含ませる。この
ようなフォークする確率の低いスペキュレーション・フ
ォーク命令の予測を履歴情報を用いて行う際には、「ス
レッドのフォークを行う」と予測を行うと判断する状態
数を「スレッドのフォークを行わない」と予測を行う状
態数に比べ少なくし、偏りを持たせる。

【００４４】このように、命令実行前の解析において
「スレッドのフォークを行う」と予測される確率分かっ
ているスペキュレーション・フォーク命令では命令中に
その情報を持たせる。実行時に予測の判断を行う履歴情
報の状態数に偏りを持たせることにより命令実行前の解
析を有効に使うことが可能となる。このように偏りを持
たせることで、予測の確率を向上させることができる結
果、更に、新規スレッドの生成とスレッドの終了を効率
的に行うことによって不必要なスレッドの生成を抑制す
ることができ、ひいては消費電力を削減につながる。

【００４５】以上は、履歴情報に基づいて予測を行う場
合について説明したが、次に、命令中に予めフォークの
確率の情報が含まれる場合の動作について説明する。フ
ォークの確率の情報は予めコンパイル時に追加される。
図７は、命令中にフォーク条件の確率を予め解析した情
報が含まれる場合の並列処理装置の全体の動作を示すフ
ローチャートである。動作が開始すると、まず、ＩＦス
テージにおいてプロセッサエレメント１０はＰＣレジス
タ１１に記憶されたアドレスを命令キャッシュに送付す
る（ステップＳ１０）。次に、命令デコード部１３は、
ＰＣレジスタ１１から命令キャッシュ１２に送付された
アドレスによって指定された命令を命令キャッシュ１２
から読み出す（ステップＳ１２）。

【００４６】次に、ＩＤステージでは、命令デコード部
１３がステップＳ１２で読み出した命令を解読して実行
する処理を決定する。また、命令デコード部１３は解読
した命令がスペキュレーション・フォーク命令であるか
否かを判断し（ステップＳ１４）、スペキュレーション
・フォーク命令である場合にはその旨が命令デコード部
１３からフォーク命令予測部１４に通知される。一方、
解読した命令がスペキュレーション・フォーク命令でな
い場合には、ステップＳ３２においてその命令の実行が
行われる。

【００４７】上記通知がなされると、フォーク命令予測
部１４は、命令中に含まれるフォーク条件の確率を予め
解析した情報に基づいて、フォークする確率が高いか否
かを予測する（ステップＳ１５）。このフォークする確
率が「高い」と予測した場合はフォーク先のアドレスを
フォーク命令予測部１４から信号線１４ａ及びバスＢを
介してプロセッサエレメント２０内のＰＣレジスタ２１
に送出する（ステップＳ１８）。この処理によってプロ
セッサエレメント２０には新しいスレッドが生成され命
令の処理が開始され、プロセッサエレメント１０の処理
はステップＳ２０へ進む。一方、ステップＳ１６におい
てフォークする確率が「低い」と予測した場合にはフォ
ーク命令予測部１４はプロセッサエレメント２０に対す
るスレッドの生成を行わず、処理はステップＳ２６へ進
む。

【００４８】次に、ＥＸステージでは、命令デコード部
１３において解読された命令に従い命令実行部１５にお
いて命令の実行処理が行われる。また、スペキュレーシ
ョン・フォーク命令の予測が正しいかどうかの判定も行
われる（ステップＳ２０，Ｓ２６）。まず、ステップＳ
２０における判断結果が「成功」の場合は、「スレッド
のフォークを行う」という予測が成功したことを意味
し、この場合、命令の実行が続行され、フォークされた
スレッドの確定を信号線１５ｂを介してプロセッサエレ
メント２０へ通知する（ステップＳ２３）。

【００４９】一方、ステップＳ２０における判断結果が
「失敗」の場合は、「スレッドのフォークを行う」とい
う予測が失敗したことを意味し、信号線１５ｂを介して
プロセッサエレメント２０へその旨を通知し、フォーク
されたスレッドの取消を行う。（ステップＳ２５）。以
上の処理が終了すると、プロセッサエレメント１０にお
いては命令の実行が続行される。

【００５０】次に、ステップＳ２６における判断結果が
「成功」の場合は、「スレッドのフォークを行わない」
という予測が成功したことを意味し、この場合はスレッ
ドのフォークが行われない（ステップＳ２９）。

【００５１】一方、ステップＳ２６における判断結果が
「失敗」の場合は、「スレッドのフォークを行わない」
という予測が失敗したことを意味し、スレッドのフォー
クを行うため、命令実行部１５は信号線１５ｂ及びバス
Ｂを介してフォーク先アドレスをプロセッサエレメント
２０のＰＣレジスタ２１へ送出する。これによってプロ
セッサエレメント２０には新しいスレッドが生成され、
命令の処理が開始される（ステップＳ３１）。以上説明
したように、本実施形態においては、フォーク命令予測
部１４が命令中に予めフォークの確率の情報が含まれる
場合には、その確率の情報に基づいてスレッドをフォー
クを予測しているため、新規スレッドの生成とスレッド
の終了を効率的に行うことによって不必要なスレッドの
生成を抑制することができ、ひいては消費電力を削減に
つながる。

【００５２】〔第２実施形態〕次に、図面を参照して本
発明の第２実施形態による並列処理装置について詳細に
説明する。図８は、本発明の第２実施形態による並列処
理装置の構成を示すブロック図である。図８に示すよう
に、本発明の第２実施形態による並列処理装置は、２組
のプロセッサエレメント（ＰＥ）４０，５０からなり、
これらはバスＢを介して相互に接続されている。プロセ
ッサエレメント４０は、プログラムカウンタレジスタ
（以下、ＰＣレジスタと称する）１１、命令キャッシュ
１２、命令デコード部１３、スレッド終了命令予測部４
２、及び命令実行部１５から構成される。また、プロセ
ッサエレメント５０も同様にプログラムカウンタレジス
タ２１、命令キャッシュ２２、命令デコード部２３、ス
レッド終了命令予測部５２、及び命令実行部２５から構
成される。

【００５３】これらの内、スレッド終了命令予測部４
２，５２以外は第１実施例で同一の符号を付して説明し
たものと同一である。スレッド終了命令予測部４２，５
２は内部で保持しているフォーク終了命令の履歴情報に
従いスレッド終了条件付スレッド終了命令（スレッド終
了条件付スレッド終了命令）がスレッドの終了をさせる
かどうかを予測する。

【００５４】次に、上記構成における本発明の第２実施
形態による並列処理装置の全体の動作について説明す
る。図９は、本発明の第１実施形態による並列処理装置
の全体の動作を示すフローチャートである。図９におい
て、ＩＦ，ＩＤ，ＥＸ，ＭＥＭ，ＷＢはパイプラインス
テージを表し、それぞれ命令フェッチ、命令デコード、
命令実行、メモリアクセス、ライトバックのステージで
あることを示している。

【００５５】まず、ＩＦステージにおいてプロセッサエ
レメント４０はＰＣレジスタ１１に記憶されたアドレス
を命令キャッシュに送付する（ステップＳ５０）。次
に、命令デコード部１３は、ＰＣレジスタ１１から命令
キャッシュ１２に送付されたアドレスによって指定され
た命令を命令キャッシュ１２から読み出す（ステップＳ
５２）。

【００５６】次に、ＩＤステージでは、命令デコード部
１３がステップＳ１２で読み出した命令を解読して実行
する処理を決定する。また、命令デコード部１３は解読
した命令がスレッド終了条件付スレッド終了命令である
か否かを判断し（ステップＳ５４）、スレッド終了条件
付スレッド終了命令である場合にはその旨がデコード部
１３からスレッド終了命令予測部４２に通知される。一
方、解読した命令がスレッド終了条件付スレッド終了命
令でない場合には、ステップＳ７２においてその命令の
実行が行われる。

【００５７】上記通知がなされると、スレッド終了命令
予測部４２は、内部に保持しているフォーク命令の履歴
情報に従いスレッド終了条件付スレッド終了命令がスレ
ッドの終了をさせるかどうかを予測する（ステップＳ５
６）。この判断結果が「ＹＥＳ」の場合、つまりスレッ
ドを終了させると予測した場合はスレッドの終了をスレ
ッド終了命令予測部４２から命令実行部１５に送出する
（ステップＳ５８）。一方、ステップＳ５６における判
断結果が「ＮＯ」の場合、つまりスレッドを終了させる
と予測した場合はスレッドの終了を送出せず、処理はス
テップＳ６６へ進む。

【００５８】次に、ＥＸステージでは、命令デコード部
１３において解読された命令に従い命令実行部１５にお
いて命令の実行処理が行われる。また、スレッド終了条
件付スレッド終了命令の予測が正しいかどうかの判定も
行われる（ステップＳ６０，Ｓ６６）。まず、ステップ
Ｓ６０における判断結果が「成功」の場合は、「スレッ
ドを終了させる」という予測が成功したことを意味し、
この場合、命令実行部１５からスレッド終了命令予測部
４２へ「予測成功」が通知される。更にスレッド終了命
令予測部４２において、スレッド終了条件付スレッド終
了命令の履歴情報が更新される（ステップＳ６２）。

【００５９】一方、ステップＳ６０における判断結果が
「失敗」の場合は、「スレッドを終了させる」という予
測が失敗したことを意味し、後続命令のフェッチ停止を
解除し、命令実行部１５からバスＢを介してＰＣレジス
タ１１へ後続命令のアドレスが送出される。また命令実
行部１５はスレッド終了命令予測部４２に対し、「予測
失敗」を通知する。この通知がなされると、スレッド終
了命令予測部４２は、スレッド終了条件付スレッド終了
命令の履歴情報を更新する（ステップＳ６４）。以上の
処理が終了すると、プロセッサエレメント１０において
は命令の実行が続行される。

【００６０】次に、ステップＳ６６における判断結果が
「成功」の場合は、「スレッドを終了させない」という
予測が成功したことを意味し、命令実行部１５からスレ
ッド終了命令予測部４２へ「予測成功」が通知される。
そしてスレッド終了命令予測部４２においてスレッド終
了条件付スレッド終了命令の履歴情報が更新される（ス
テップＳ６８）。

【００６１】一方、ステップＳ６６における判断結果が
「失敗」の場合は、「スレッドの終了を行わない」とい
う予測が失敗したことを意味し、後続命令のフェッチを
停止する。また、命令実行部１５からスレッド終了命令
予測部４２へ「予測失敗」が通知され、スレッド終了条
件付スレッド終了命令の履歴情報が更新される（ステッ
プＳ６０）。以上説明したように、本実施形態において
は、履歴情報を用いてスレッド終了条件付スレッド終了
命令の実行条件を予測するスレッド終了命令予測部４
２，５２を設けることにより効率的にスレッドを終了さ
せることができ、ひいては消費電力を削減につながる。

【００６２】次に、図８中のスレッド終了命令予測部４
２，５２において用いられている履歴情報を用いてスレ
ッドの終了を予測するアルゴリズムについて説明する。
図１０は、スレッド終了命令予測部４２において用いら
れている履歴情報を用いてスレッドの終了を予測するア
ルゴリズムを説明する状態遷移図である。スレッド終了
命令予測部４２内に設けられる履歴バッファに記憶され
た履歴情報は４状態を表すことができる。４状態はそれ
ぞれ、・終了しない可能性大（Ｓｔ３１）・終了しない可能性小（Ｓｔ３２）・終了する可能性小（Ｓｔ３３）・終了する可能性大（Ｓｔ３４）を示す。

【００６３】履歴情報が、「終了しない可能性大」（Ｓ
ｔ３１）又は「終了しない可能性小」（Ｓｔ３２）であ
った場合、予測部３４はスレッドが終了しないと予測す
る。一方、履歴情報が「終了する可能性小」（Ｓｔ３
３）又は「終了する可能性大」（Ｓｔ３４）であった場
合、予測部３４はスレッドが終了すると予測する。

【００６４】履歴情報の状態は予測の判定により遷移す
る。履歴情報が「終了しない可能性大」（Ｓｔ３１）で
ある場合において、予測が成功した場合は、状態は変化
せず「終了しない可能性大」（Ｓｔ３１）となる。一
方、予測が失敗した場合は、「終了しない可能性小」
（Ｓｔ３２）に遷移する。また、履歴情報が「終了しな
い可能性小」（Ｓｔ３２）である場合において、予測が
成功した場合は「終了しない可能性大」（Ｓｔ３１）に
遷移し、予測に失敗した場合は「終了する可能性小」
（Ｓｔ３３）に遷移する。

【００６５】更に、履歴情報が「終了する可能性小」
（Ｓｔ３３）である場合において、予測が成功した場合
は「終了する可能性大」（Ｓｔ３４）に遷移し、予測に
失敗した場合には、「終了しない可能性小」（Ｓｔ３
２）に遷移する。履歴情報が「終了する可能性大」（Ｓ
ｔ３４）である場合において、予測が成功した場合は状
態は遷移せず「終了する可能性大」（Ｓｔ３４）であ
る。一方、予測に失敗した場合には「終了する可能性
小」（Ｓｔ３３）に遷移する。以上のようなアルゴリズ
ムを用いて予測部３４は、入力された履歴情報に基づい
てスレッドの終了を行うか否かを予測する。

【００６６】以上、第１実施形態では主としてフォーク
を生成する場合、第２実施形態ではフォークによって生
成されたスレッドを終了する場合を中心に説明したが、
第１実施形態と第２実施形態とを併せもった構成である
ことが本発明の目的を達成するには好ましい。つまり、
フォークの生成及びスレッドの終了を共に予測する手段
を備えることが本発明には好適である。

【００６７】尚、本実施形態においては、コンパイル時
に命令中に予めスレッド終了の確率の情報を含ませてお
き、スレッド終了命令予測部４２が命令中に予めスレッ
ド終了の確率の情報が含まれる場合には、その確率の情
報に基づいてスレッドの終了を予測するようにしてもよ
い。

【００６８】〔第３実施形態〕次に、本発明の第３実施
形態による並列処理装置について詳細に説明する。本発
明の第３実施形態による並列処理装置は、基本的には第
１実施形態と第２実施形態の構成と同様の構成を有する
が、第１実施形態と相違点は図１に示されたフォーク命
令予測部１４，２４、特に図２に示された予測部３４の
動作が異なる。本実施形態においては、第１実施形態の
フォーク命令予測部１４，２４に代えて分岐等予測部６
０を備え、条件付分岐命令、スペキュレーションフォー
ク命令、スレッド終了条件付スレッド終了命令の何れか
が入力された場合に、履歴情報に基づいてスレッドの生
成、終了を行う。図１１は、本発明の第３実施形態によ
る並列処理装置が備える分岐等予測部６０の構成を示す
ブロック図である。

【００６９】分岐等予測部６０は、アドレス計算部３
０、履歴バッファ３２、予測部６２、及び履歴情報更新
部３６からなる。アドレス計算部３０、履歴バッファ３
２、及び履歴情報更新部３６は、第１実施形態及び第２
実施形態で説明したものと同様である。

【００７０】上記構成において、命令デコードにより条
件付分岐命令、スペキュレーションフォーク命令、スレ
ッド終了条件付スレッド終了命令が確認されるとこれら
の命令がアドレス計算部３０に入力されつとともに、命
令アドレスが履歴バッファに入力される。命令アドレス
及び命令が分岐等予測部６０に入力されると履歴バッフ
ァ３２から各命令アドレスに従い履歴情報が出力され
る。また、入力された命令が条件付分岐命令又はスペキ
ュレーションフォーク命令であった場合には命令の種類
に応じて分岐先又はフォーク先の命令アドレスがアドレ
ス計算部３０において計算される。

【００７１】履歴バッファ３２から出力された履歴情報
は履歴情報更新部３６及び予測部６２へ入力される。予
測部６２は、条件付分岐命令又はスペキュレーションフ
ォーク命令の場合には、アドレス計算部３０で計算され
たアドレスが予測部６２から出力される。また、スレッ
ド終了条件付スレッド終了命令の場合には予測部６２か
ら履歴情報に従いスレッド終了信号が出力される。尚、
予測部６２においては、第１実施形態及び第２実施形態
と同様に、予測が行われる。

【００７２】また、命令実行部（図示省略）からの判定
結果が履歴情報更新部３６へ入力されると履歴情報更新
部３６は予測した命令の履歴情報を更新して、更新後の
内容を履歴バッファ３２に書き込む。以上、述べたよう
に、本実施形態においては、条件付分岐命令、スペキュ
レーション・フォーク命令、スレッド終了条件付スレッ
ド終了命令の予測の一連の動作を一体化することが可能
となる。図１２は、履歴バッファ３２内の履歴情報を説
明する図表である。履歴情報は２ビットの信号を用いて
４状態を示している。つまり“００”、“０１”、“１
０”、“１１”の４状態を用いて区別される。条件付分
岐命令、スペキュレーションフォーク命令、実行前の解
析情報を含んだスペキュレーションフォーク命令、スレ
ッド終了条件付スレッド終了命令、実行前の解析情報を
含んだスレッド終了条件付スレッド終了命令の履歴情報
は４状態で示される。分岐等予測機構に入力された命令
が図１２に示すいずれかの命令かを解析することによ
り、履歴バッファのエントリを共有することを可能とす
る。

【００７３】尚、本実施形態においても、コンパイル時
に命令中に予めフォークの確率、スレッド終了の確率、
又は条件付分岐命令の確率の情報を含ませておき、命令
中に予めこれらの確率の情報が含まれる場合には、その
確率の情報に基づいてフォーク、スレッドの終了、又は
奮起付き条件命令を予測するようにしてもよい。

【００７４】

【発明の効果】以上、説明したように、本発明によれ
ば、複数のプロセッサを用いて並列処理を行うプロセッ
サシステムにおいて、複数のプロセッサを起動するため
のフォーク命令を効率的に行うようにしたので、消費電
力の低減を図ることができるという効果がある。また、
本発明によれば、スレッドを終了させる場合のスレッド
終了条件付スレッド終了命令についても、効率的にスレ
ッドを終了させることができるという効果がある。

【図面の簡単な説明】

【図１】本発明の第１実施形態による並列処理装置の
構成を示すブロック図である。

【図２】フォーク命令予測部１４，２４の内部構成を
示すブロック図である。

【図３】予測部３４において用いられている履歴情報
を用いてスレッドのフォークを予測するアルゴリズムを
説明する状態遷移図である。

【図４】本発明の第１実施形態による並列処理装置の
全体の動作を示すフローチャートである。

【図５】フォークされる確率が高い場合に、予測部３
４において用いられている履歴情報を用いてスレッドの
フォークを予測するアルゴリズムを説明する状態遷移図
である。

【図６】フォークされる確率が低い場合に、予測部３
４において用いられている履歴情報を用いてスレッドの
フォークを予測するアルゴリズムを説明する状態遷移図
である。

【図７】命令中にフォーク条件の確率を予め解析した
情報が含まれる場合の並列処理装置の全体の動作を示す
フローチャートである。

【図８】本発明の第２実施形態による並列処理装置の
構成を示すブロック図である。

【図９】本発明の第１実施形態による並列処理装置の
全体の動作を示すフローチャートである。

【図１０】スレッド終了命令予測部４２において用い
られている履歴情報を用いてスレッドの終了を予測する
アルゴリズムを説明する状態遷移図である。

【図１１】本発明の第３実施形態による並列処理装置
が備える分岐等予測部６０の構成を示すブロック図であ
る。

【図１２】図１２は、履歴バッファ３２内の履歴情報
を説明する図表である。

【図１３】パイプライン処理を説明するための図であ
る。

【図１４】制御並列処理のモデルを示す図である。

【符号の説明】

１０，２０，４０，５０プロセッサエレメント（処
理手段）３４，６２予測部３２履歴バッファ（記憶手段）３０アドレス計算部（生成手
段）１３，２３命令デコード部（解析手
段）１４，２４フォーク命令予測部（予測
手段）４２，５２スレッド終了命令予測部
（予測手段）１５，２５命令実行部（実行手段）

Claims

【特許請求の範囲】

【請求項１】複数命令から構成されるスレッドを外部
のユニット上に生成する（フォークする）処理手段を有
する並列処理装置において、前記処理手段は、フォーク条件付フォーク命令のフォー
ク条件が成立するか否かを、命令を読み込んだ後、当該
命令の実行前に予測する予測部を具備することを特徴と
する並列処理装置。
【請求項２】外部からフォークされたスレッドを発行
する手段を有する処理手段を備える並列処理装置におい
て、前記処理手段は、フォークされたスレッドを終了させる
スレッド終了条件付スレッド終了命令のスレッド終了条
件が成立するか否かを、命令を読み込んだ後、当該命令
の実行前に予測する予測部を具備することを特徴とする
並列処理装置。
【請求項３】複数命令から構成されるスレッドを外部
のユニット上に生成するとともに、外部からフォークさ
れたスレッドを発行する手段を有する処理手段を備える
並列処理装置において、前記処理手段は、フォーク条件付フォーク命令のフォー
ク条件が成立するか否か、及びフォークされたスレッド
を終了させるスレッド終了条件付スレッド終了命令のス
レッド終了条件が成立するか否かを、命令を読み込んだ
後、当該命令の実行前に予測する予測部を具備すること
を特徴とする並列処理装置。
【請求項４】前記予測部は、前記予測を行うととも
に、入力された命令が条件付分岐命令である場合には、
当該条件付分岐命令が成立するか否かを予測することを
特徴とする請求項１乃至請求項３の何れかに記載の並列
処理装置。
【請求項５】前記処理手段を複数設けたことを特徴と
する請求項１乃至請求項４の何れかに記載の並列処理装
置。
【請求項６】前記予測部は、履歴情報を用いて前記予
測を行うことを特徴とする請求項１乃至請求項５の何れ
かに記載の並列処理装置。
【請求項７】前記履歴情報は、前記予測の確率に応じ
て複数の状態を有する情報であることを特徴とする請求
項６記載の並列処理装置。
【請求項８】前記予測部は、前記状態に基づいて前記
フォーク条件、スレッド終了条件、又は条付件分岐命令
を予測することを特徴とする請求項７記載の並列処理装
置。
【請求項９】前記フォーク条件付フォーク命令は、フ
ォーク条件の確率を予め解析した情報を含み、前記予測部は、前記確率に応じてフォーク条件が成立す
るか否かを予測することを特徴とする請求項１記載の並
列処理装置。
【請求項１０】前記スレッド終了条件付スレッド終了
命令は、スレッド終了条件の確率を予め解析した情報を
含み、前記予測部は、前記確率に応じてスレッド終了条件が成
立するか否かを予測することを特徴とする請求項２記載
の並列処理装置。
【請求項１１】前記フォーク条件付フォーク命令は、
フォーク条件及びスレッド終了条件の確率を予め解析し
た情報を含み、前記予測部は、前記確率に応じてフォーク条件及びスレ
ッド終了条件が成立するか否かを予測することを特徴と
する請求項３記載の並列処理装置。
【請求項１２】前記処理手段は、前記フォーク条件、
スレッド終了条件、及び条付件分岐命令の内の２以上の
命令に関する前記履歴情報を共に記憶する記憶手段を具
備することを特徴とする請求項７記載の並列処理装置。
【請求項１３】前記処理手段は、前記フォーク条件が
成立した場合に、生成されるスレッドの先頭命令アドレ
スを生成するとともに、前記条件付分岐命令が成立した
場合に、分岐先ターゲットの命令アドレスを生成する生
成手段を更に具備することを特徴とする請求項４記載の
並列処理装置。
【請求項１４】入力される命令を解析する解析手段
と、前記解析手段により解析された命令がフォーク条件付フ
ォーク命令である場合に、当該フォーク条件付フォーク
命令のフォーク条件が成立するか否かを、前記命令を読
み込んだ後、当該命令の実行前に予測し、予測結果に応
じてフォーク命令を外部に出力する予測手段と、前記命令を実行するとともに、前記フォーク命令の予測
が正しいか否かの判定を行い、前記フォーク命令が外部
に出力され、且つ前記予測が誤りであった場合には前記
フォーク命令によって生成されたスレッドを取り消す命
令を前記外部に出力する実行手段とを具備することを特
徴とする並列処理装置。
【請求項１５】入力される命令を解析する解析手段
と、前記解析手段により解析された命令がフォークされたス
レッドを終了させるスレッド終了条件付スレッド終了命
令である場合に、当該スレッド終了条件付スレッド終了
命令のスレッド終了条件が成立するか否かを、前記命令
を読み込んだ後、当該命令の実行前に予測し、予測結果
に応じてスレッド終了命令を外部に出力する予測手段
と、前記命令を実行するとともに、前記フォーク命令の予測
が正しいか否かの判定を行い、前記スレッド終了命令が
外部に出力され、且つ前記予測が誤りであった場合には
前記スレッド終了命令によって停止されたスレッドの停
止を解除する命令を前記外部に出力する実行手段とを具
備することを特徴とする並列処理装置。
【請求項１６】前記予測手段は、履歴情報を記憶する
記憶手段と、当該記憶手段に記憶された履歴情報を更新
する更新手段とを備え、前記実行手段は、前記判定の結果を前記更新手段に通知
し、前記更新手段は、前記判定の結果に応じて履歴情報を更
新することを特徴とする請求項１４又は請求項１５記載
の並列処理装置。