JPH1196005A

JPH1196005A - 並列処理装置

Info

Publication number: JPH1196005A
Application number: JP27391997A
Authority: JP
Inventors: Atsushi Torii; 淳鳥居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-09-19
Filing date: 1997-09-19
Publication date: 1999-04-09

Abstract

(57)【要約】【課題】並列処理装置において、待機中のスレッド実行
部を活用して条件分岐命令の、条件成立側、非成立側の
双方を投機的に実行し、条件成立時にどちらかの処理を
選択することによって高速化を図る分岐命令処理方法及
び装置に提供。【解決手段】並列処理装置において、条件分岐命令をフ
ェッチした際に、システム中の他の待機中のスレッド実
行部において分岐側のアドレスを開始アドレスとする投
機実行スレッドを起動し、レジスタ値をコピーして実行
を行い、一方、条件分岐命令を実行したスレッド実行部
は条件非成立時の処理を投機的に継続して行う。条件分
岐命令の条件が確定した際に、その条件の成否によって
投機実行している処理のいずれかを確定し他方を破棄す
る。これによって分岐予測が当たりにくい分岐命令を高
速に実行することを可能とする。同時にプログラム中で
並列実行を行いにくい部分でスレッド実行部を有効に使
用することを可能とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は情報処理装置に関
し、特に複数のスレッドを同時に実行する高性能マイク
ロプロセッサのスレッドの実行制御方法に関する。

【０００２】

【従来の技術】近年の高性能マイクロプロセッサは、１
サイクルに複数の命令を同時に実行するスーパスカラ機
能を備え、命令レベルの並列処理を行うことによって、
性能向上を実現している。さらに、命令レベル並列処理
のさらなる向上のために、プログラムコードの非順序実
行（ｏｕｔ−ｏｆ−ｏｒｄｅｒｅｘｅｃｕｔｉｏｎ）
を導入している。非順序実行とは、プログラムコードの
順序にかかわらず、計算に必要なデータの揃った命令か
ら実行を行うものである。

【０００３】更に、実行可能な命令を増やすために、レ
ジスタの逆依存性などを解消するレジスタ・リネーミン
グ（ｒｅｇｉｓｔｅｒｒｅｎａｍｉｎｇ）、条件分岐
命令を挟んでの非順序実行を実現する分岐予測と投機的
実行（ｓｐｅｃｕｌａｔｉｖｅｅｘｅｃｕｔｉｏｎ）
などの高度な機能が提案され且つ導入されている。

【０００４】しかしながら、このような高度な実行方法
を用いた場合にも、分岐予測が外れる場合には、投機的
実行がキャンセルされてしまい、性能向上が制約されて
しまう、という問題が生じる。

【０００５】このような問題に対して、分岐予測機構の
工夫による予測精度の高度化の研究、例えば文献（Ｃ，
Ｈ．ＰｅｒｌｅｂｅｒｇａｎｄＡ，Ｊ．Ｓｍｉｔ
ｈ，“ＢｒａｎｃｈＴａｒｇｅｔＢｕｆｆｅｒＤ
ｅｓｉｇｎａｎｄＯｐｔｉｍｉｚａｔｉｏｎ，”
ＩＥＥＥＴｒａｎｓ．ｏｎＣｏｍｐｕｔｅｒｓ，Ｖ
ｏｌ．４２，Ｎｏ．４，ｐａｇｅｓ３９６−４１２，
Ａｐｒｉｌ１９９３）など、分岐予測が外れた際の回
復処理の高速化の提案が数多く行われている。

【０００６】これらの機能を用いた場合にも、分岐の予
測精度を１００％にすることは不可能であり、本質的に
予測が当りにくい振舞をするプログラムに対する性能向
上は難しいものとなっている。

【０００７】ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行を行わない
パイプラインプロセッサにおいては、条件分岐の条件成
立／不成立の両方向の命令を、フェッチ、デコードしパ
イプラインに空きスロットが生じないように工夫した提
案がいくつか行われている。

【０００８】例えば特開平６−２５０８４３号公報（発
明の名称：「演算処理方法および演算処理装置」）に
は、命令フェッチ部を複数系統設け、分岐が成立した場
合と成立しない場合の両方向の命令を同時に先取りし、
いずれかの命令を選択する方式が提案されている。しか
しながら、この方式は、命令を仮実行する訳ではないの
で、ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行にふさわしい方式と
は言い難い。

【０００９】一方、問題の持つ並列性を活用し、単一の
プログラムを複数の命令流（スレッド）群に分割して、
それらを並列に実行することによって、性能を向上させ
るプログラム実行方法として、マルチスレッド実行方法
が挙げられる。マルチスレッド実行方法では、あらかじ
めスレッドの生成や終了、同期などの並列化をプログラ
ム中で行う。つまり、プログラムを実行する前に並列化
を行うという点が、命令レベル並列処理とは本質的に異
なる。

【００１０】しかしながら、プログラムの並列化の過程
において、プログラム実行前に並列処理が出来ないと判
断する部分は当然存在する。この割合が大きい場合に
は、マルチスレッド並列実行の効果が期待できない。こ
のことは、アムダールの法則として良く知られている。

【００１１】複数のスレッド実行部を備えた並列処理装
置において、マルチスレッド実行を行う場合、プログラ
ム中の逐次部分では一つのスレッド実行部以外は待機状
態となり、性能向上に寄与しない。

【００１２】並列処理可能な部分を増やす方法として、
スレッドの粒度を細かくするという方法が考えられる。
このようなマルチスレッド実行方法として、本願出願人
は、ＭＵＳＣＡＴアーキテクチャを提案している。文献
（情報処理学会並列処理シンポジウム１９９７予稿集ｐ
ｐ．ＸＸ−ｐｐ．ＸＸ１９９７／５／２８予稿集発
行）参照。このＭＵＳＣＡＴでは、スレッドの投機実行
をサポートしており、実行が確定していないスレッドを
投機的に実行することが可能である。

【００１３】

【発明が解決しようとする課題】しかしながら、このよ
うなスレッドの細粒度化や投機的実行をサポートした場
合にも、命令間の制御の依存性やデータの依存性が強
く、相変わらず並列化によって性能向上が困難な部分が
残る。また、マルチスレッド並列実行が可能な部分にお
いても、スレッド内に存在する本質的に予測精度が向上
しないような条件分岐命令は存在する。このような条件
分岐命令の存在によって、スレッドの投機的実行の成功
率が低下して、性能向上を妨げるという問題が生じる。

【００１４】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、並列処理装置に
おいて、待機中のスレッド実行部を活用して条件分岐命
令の、条件成立側、非成立側の双方を投機的に実行し、
条件成立時にどちらかの処理を選択することによって高
速化を図る並列処理装置及び分岐命令処理方法を提供す
ることにある。

【００１５】

【課題を解決するための手段】前記目的を達成するた
め、本発明は、複数のスレッド実行部を持つ並列処理装
置上のスレッド実行部を有効に利用して、条件分岐命令
以降の命令を分岐側と非分岐側の両者を投機的に実行
し、条件分岐命令確定時点で、誤った側の実行を取り消
すことにより、実質的に分岐予測が外れることなく実行
を継続することを可能とし性能向上を達成するものであ
る。以下、このような処理方式を「分岐両実行」と呼ぶ
ことにする。

【００１６】より詳細には、本発明は、並列処理装置に
おいて、条件分岐命令をフェッチした際に、システム中
で他の待機中のスレッド実行部において分岐側のアドレ
スを開始アドレスとする投機実行スレッドを起動し、レ
ジスタ値をコピーして実行を行い、一方、条件分岐命令
を実行したスレッド実行部は条件非成立時の処理を投機
的に継続して行い、条件分岐命令の条件が確定した際
に、その条件の成否によって、投機実行している処理の
いずれかを確定し、他方を破棄する。これによって分岐
予測が当たりにくい分岐命令を高速に実行することを可
能とすると同時に、プログラム中で並列実行を行い難い
部分でスレッド実行部を有効に使用することを可能とし
たものである。

【００１７】

【発明の実施の形態】本発明の実施の形態について以下
に説明する。まず、本発明の原理について以下に説明す
る。コード中に存在する条件分岐命令は、プログラマや
コンパイラによってコードが生成される際に静的に予測
できるもの、動的な履歴からある程度の確率で予測でき
るもの、ほとんど予測があたらないものに分けることが
可能である。本発明においては、これらの予測結果から
静的予測結果から分岐両実行するものを指定する方式、
分岐の予測および結果の履歴から分岐両実行するものを
決定する方式を併せて提案する。これによって、分岐予
測の成功率が低い分岐のみを分岐両実行し、分岐予測が
外れることによる性能向上阻害要因の解消を図るもので
ある。

【００１８】本発明の並列処理装置は、その好ましい実
施の形態において、複数の命令列から構成されるスレッ
ドが同時に存在し前記複数スレッドが論理的に複数のス
レッド実行部によって並列に実行される並列処理装置に
おいて、プログラムコード中の条件分岐命令が、分岐す
るか否かを決定する以前に、新たに分岐先のアドレスを
開始地点とするスレッドを他のスレッド実行部において
投機的に起動して実行し、前記条件分岐命令を実行した
スレッド実行部においては該条件分岐命令が分岐しない
ものとして、前記条件分岐命令以降の命令を投機的に実
行し、前記条件分岐命令が決定し、分岐することが判明
した場合には、前記条件分岐命令を実行したスレッドの
前記条件分岐命令以降の命令を取り消し、分岐しないこ
とが判明した場合には、前記新たに生成したスレッドの
実行を取り消すようにしたものである。

【００１９】すなわち、本発明の実施の形態において
は、条件分岐命令をフェッチした際に、システム中の他
の待機中のスレッド実行部において分岐側のアドレスを
開始アドレスとする投機実行スレッドを起動し、レジス
タ値をコピーして実行を行う。

【００２０】一方、前記条件分岐命令を実行したスレッ
ド実行部は、条件非成立時の処理を投機的に継続して行
う。

【００２１】そして、条件分岐命令の条件が確定した際
に、その条件の成否によって投機実行している処理のい
ずれかを確定し他方を破棄する。

【００２２】これによって、分岐予測が当たりにくい分
岐命令を高速に実行することを可能とする。同時に、プ
ログラム中で並列実行を行いにくい部分でスレッド実行
部を有効に使用することを可能とする。

【００２３】

【実施例】上記した本発明の実施の形態についてより具
体的に説明すべく、本発明の実施例について図面を参照
して以下に説明する。

【００２４】図１は、本発明の並列処理装置の一実施例
のシステム構成を示すブロック図である。図１を参照す
ると、本発明の一実施例は、２スレッド並列実行型の並
列処理システムであり、スレッド実行部＃０（２ａ）、
スレッド実行部＃１（２ｂ）はスレッド管理部１と接続
される。また、スレッド実行部＃０（２ａ）、＃１（２
ｂ）は、命令キャッシュメモリ３とデータキャッシュ４
を共有している。なお、複数のスレッド実行部を符号２
でまとめて示すこともある。

【００２５】各スレッド実行部＃０（２ａ）、＃１（２
ｂ）は、ともに、複数同時デコード／実行可能なスーパ
スカラ型プロセッサとして構成されており、いずれも、
命令デコーダ５、リオーダバッファ６、レジスタファイ
ル７、データセレクタ８、命令キュー９、演算ユニット
１０、及び、アドレス計算ユニット１１を備えて構成さ
れる。

【００２６】また、スレッド実行部＃０（２ａ）、＃１
（２ｂ）の各々のレジスタファイル７はレジスタコピー
バス１２によって接続されている。

【００２７】図２は、本発明の一実施例におけるスレッ
ド管理部１の内部構成を示したブロック図である。図２
を参照すると、スレッド管理部１は、スレッド状態テー
ブル１３、分岐実行管理テーブル１５、スレッド状態決
定論理２０、及び、分岐投機実行管理論理２１を備えて
構成されている。

【００２８】スレッド状態テーブル１３は、スレッド実
行部＃０（２ａ）、＃１（２ｂ）毎の実行状態を示す状
態ビット１４を持っており、「待機」／「通常実行（確
定実行）」／「投機実行」という状態を格納する。ま
た、分岐実行管理テーブル１５は、有効ビット１６、分
岐命令実行スレッド番号１７、命令識別番号１８、及
び、投機スレッド実行スレッド番号１９を備えて構成さ
れる。

【００２９】各スレッド実行部＃０（２ａ）、＃１（２
ｂ）は、プログラムコードの非順序実行が可能である。
命令は命令デコーダ５でデコードされると、この命令の
結果を蓄えるために、リオーダバッファ６の１エントリ
を確保する。

【００３０】また、この命令が参照するレジスタ番号と
同じ番号が他のエントリに格納されているか否かを調
べ、一致するレジスタ番号が存在する場合には、結果の
データもしくはエントリ番号をデータセレクタ８に出力
する。一致するエントリが存在しない場合には、レジス
タファイル７からレジスタ値をデータセレクタ８に出力
する。

【００３１】データセレクタ８は、リオーダバッファ
６、レジスタファイル７のデータ出力を選択して、命令
キュー９に格納する。

【００３２】命令キュー９は、命令が参照するレジスタ
の値がすべて確定した時点で演算ユニット１０もしくは
アドレス計算ユニット１１に対して命令を発行する。

【００３３】計算終了の結果データは命令デコード時に
確保したリオーダバッファ６に格納される。また、命令
キュー９にリオーダバッファ６のエントリ番号が格納さ
れており、リオーダバッファ６の格納エントリ番号が一
致した場合には、命令キュー９にもデータが格納され
る。

【００３４】リオーダバッファ６は、プログラムコード
順にレジスタファイル７に演算が終了した結果を書き込
んで、エントリをクリアする。以上の動作は、従来の非
順序実行方式の一例に従っている。

【００３５】本発明の一実施例は、このようなスレッド
実行部２を複数持つ構造のマルチスレッド型のプロセッ
サとして構成されたものであり、後述するように、この
マルチスレッド型プロセッサで条件分岐命令を高速に実
行するようにしたものである。

【００３６】以下、本発明の一実施例において具体的な
動作を説明するために、本発明の一実施例の並列処理シ
ステムにおいて、図３に示すプログラムコードを実行し
た際の動作を説明する。なお、図３には、プログラムコ
ードとして、命令アドレス、命令（アセンブリ言語のニ
ューモニック）、該命令の注釈が示されている。

【００３７】図３を参照すると、このプログラムコード
においては、０ｘ１０番地に条件分岐命令（ｂｒａｎｃ
ｈ．ｅｑｒ７，ｒ１，０ｘ３０）が配置されており、
この条件分岐命令において、レジスタ（以下、レジスタ
をｒと記す）ｒ７の内容とｒ１の内容が一致する場合に
は、０ｘ１０番地の次に、０ｘ３０番地の命令実行する
ものである。

【００３８】図４、及び図５は、図３に示すプログラム
コードを実行した際のパイプライン実行の様子を示す図
である。図４は、０ｘ１０番地の条件分岐命令の条件不
成立の場合、図５は、０ｘ１０番地の条件分岐命令の条
件成立の場合をそれぞれ示している。図４、及び図５に
おいて、「Ｆ」は命令フェッチ動作、「Ｄ」は命令デコ
ード動作、「Ｂ」は命令キュー９内に蓄えられている状
態、「Ｅ」は演算動作、「Ａ」はアドレス計算動作、
「Ｗ」はリオーダバッファ６からレジスタファイル７へ
の書き込み動作、「Ｘ」は命令の実行取り消しを示して
おり、図中の最上行の数字はサイクル数を示している。
Ｗ動作は、プログラム順序に行われるので、Ｅ動作によ
る演算結果は一旦リオーダバッファ６に格納される。

【００３９】サイクル０において、スレッド実行部＃０
（２ａ）は、０ｘ０番地、０ｘ４番地の２つの命令をフ
ェッチする。この時点では、スレッド実行部＃１（２
ｂ）に割り付けられたスレッドは存在しない。

【００４０】続いて、サイクル１では、スレッド実行部
＃０（２ａ）において、０ｘ８番地、０ｘｃ番地（ヘキ
サデシマル表示）の命令がフェッチされ、０ｘ０番地、
０ｘ４番地の命令がデコードされる。

【００４１】サイクル２では、スレッド実行部＃０（２
ａ）において０ｘ１０番地、０ｘ１４番地の命令がフェ
ッチされ、０ｘ８番地、０ｘｃ番地の命令がデコードさ
れる。ここで、０ｘ１０番地の命令は、条件分岐命令で
あるため、スレッド管理部１に対して、分岐側の命令、
すなわち０ｘ３０番地を開始アドレスとするスレッドの
生成を要求する。

【００４２】スレッド管理部１は、この時点、すなわち
サイクル２の時点で、スレッドを実行していない複数の
スレッド実行部の中から、０ｘ３０番地を開始とするス
レッドを新たに実行するスレッド実行部を決定する。こ
れは、スレッド状態テーブル１３の状態ビット１４で
「待機状態」を示しているスレッド実行部を探して決定
される。図１に示した構成は、スレッド実行部＃０（２
ａ）、＃１（２ｂ）からなる２セット構成であるが、更
に多くの構成で、複数の待機状態のスレッド実行部が存
在する場合には、その中から一つを選択する。これらの
処理は、スレッド状態決定論理２０によって決定され
る。

【００４３】さて、図１に示した本発明の一実施例で
は、スレッド実行部を２セット備えているので、新たに
スレッド実行するスレッド実行部は、スレッド実行部＃
１（２ｂ）となる。

【００４４】したがって、次のサイクル３の時点で、ス
レッド実行部＃１（２ｂ）は、０ｘ３０番地、０ｘ３４
番地の２つの命令のフェッチを開始する。同時に、スレ
ッド実行部＃０（２ａ）は非分岐側の命令、すなわち０
ｘ１８番地、０ｘ１ｃ番地のフェッチを継続する。

【００４５】スレッド実行部＃０（２ａ）では、０ｘ１
４番地をサイクル２でフェッチしているが、これ以降の
実行は投機的に行われ、いつでも実行が取り消せるよう
にする必要がある。また、スレッド実行部＃１（２ｂ）
のスレッドはスレッド自体を取り消すことが可能な投機
実行スレッドとなる。これによって、サイクル３から０
ｘ１０番地の分岐命令が確定するまでは、非分岐側の命
令と分岐側の命令が同時に、かつ、投機的に実行される
ことになる。

【００４６】スレッド管理部１では、このような条件分
岐による投機スレッドを生成した場合には、その情報を
分岐実行管理テーブル１５（図２参照）に登録し、該当
エントリの有効ビット１６を「有効状態」に設定する。
登録する内容は、条件分岐命令を実行したスレッド実行
部２番号と、分岐先アドレスを開始とする投機スレッド
を起動したスレッド実行部２番号、および、当該条件分
岐命令を識別するための番号である。

【００４７】本実施例の場合には、図２の分岐実行管理
テーブル１５の分岐命令実行実行部番号１７は＃０、投
機スレッド実行実行部番号１９は＃１となる。また、分
岐命令識別番号１８は、投機スレッドを生成したスレッ
ド実行部２の中で、条件分岐命令を識別するために付番
した番号である。

【００４８】図４、図５に示した例では、サイクル７に
おいて、０ｘ１０番地の分岐命令の条件が確定する。条
件が成立しなかった場合には、図４に示したように、次
のサイクル８において、スレッド実行部＃１（２ｂ）で
実行しているスレッドの実行は取り消される。

【００４９】このスレッドの取り消しの処理は以下の手
順で行われる。まず、リオーダバッファ６からスレッド
管理部１に対して、命令識別番号とその分岐条件が成立
しなかったことを伝達する。

【００５０】分岐投機実行管理論理２１は、受け取った
命令識別番号から該当する分岐命令を分岐実行管理テー
ブル１５の命令識別番号１８の一致するエントリをサー
チし、一致するエントリの投機スレッド実行実行部番号
１９を特定し、スレッド状態決定論理２０に伝達する。

【００５１】スレッド状態決定論理２０は、スレッド状
態テーブル１３の投機スレッド実行実行部番号１９に対
応する状態ビット１４を待機状態にし、該当スレッド実
行部２に対してスレッド取り消し信号を発行する。

【００５２】一方、０ｘ１０番地の分岐命令の条件が成
立した場合には、図５に示したように、次のサイクル８
において、スレッド実行部＃０（２ａ）で実行している
命令の内、０ｘ１０番地以降の命令、図５に示す例で
は、０ｘ１４番地から０ｘ２８番地の命令の実行が取り
消され、スレッドの実行は０ｘ１０番地をもって終了
し、スレッド実行部＃１（２ｂ）のスレッドの実行が継
続される。

【００５３】この場合、リオーダバッファ６からスレッ
ド管理部１に対して、命令識別番号とその分岐条件が成
立したことを伝達する。分岐投機実行管理論理２１は、
受け取った命令識別番号から該当する分岐命令を分岐実
行管理テーブル１５の命令識別番号１８の一致するエン
トリをサーチし、一致するエントリの投機スレッド実行
実行部番号１９を特定し、スレッド状態決定論理２０に
伝達する。

【００５４】スレッド状態決定論理２０は、スレッド状
態テーブル１３の投機スレッド実行実行部番号１９に対
応する状態ビット１４を確定実行状態とする。これらの
動作によって、分岐条件の成否や予測結果によらずに効
率的に実行することが可能になる。

【００５５】このように、条件分岐命令の非分岐側と分
岐側の双方を実行するためには、図１に示したハードウ
ェアは以下に示す動作が必要である。

【００５６】まず、条件分岐命令をフェッチした段階で
その命令が条件分岐命令であり、スレッド管理部１に対
して、分岐側のアドレスを開始とするスレッド生成要求
を行う必要がある。これは、条件分岐命令が命令キャッ
シュメモリ３に格納される際に、あらかじめ条件分岐命
令であることを記しておくことによって行う。

【００５７】次に、分岐側のアドレスを開始とするスレ
ッドは、条件分岐命令時点におけるレジスタファイル７
の内容を参照する必要がある。図１に示した実施例で
は、スレッド実行部＃１（２ｂ）で実行を開始したスレ
ッドが実際にレジスタファイル７を参照する前に、図
４、図５に示した例では、サイクル４で、レジスタコピ
ーバス１２を用いてスレッド実行部＃０（２ａ）のレジ
スタファイル７からスレッド実行部＃１（２ｂ）のレジ
スタファイル７にレジスタ内容のコピーが行われる。

【００５８】レジスタファイル７の内容のコピーを行っ
た時点では、レジスタに書き込みが終了していない命
令、図４、図５に示す例では、０ｘ４番地、０ｘ８番
地、０ｘｃ番地の命令の結果はスレッド実行部＃０（２
ａ）のリオーダバッファ６からスレッド実行部＃１（２
ｂ）のレジスタファイル７にも書き込む必要がある。ま
た、０ｘ３０番地の命令が用いるｒ１１の値は、サイク
ル５にスレッド実行部＃０（２ａ）のレジスタファイル
７に書き込まれると共に、スレッド実行部＃１（２ｂ）
の命令キュー９にも供給される。これによって、０ｘ３
０番地の命令は、０ｘ０８番地命令の結果を受けとるこ
とが可能となり、次のサイクル６で実行に移される。

【００５９】したがって、条件分岐命令をフェッチし
て、分岐側アドレスを開始アドレスとするスレッドを実
行するスレッド実行部２は条件分岐命令を実行したスレ
ッド実行部２の命令実行結果を命令キュー４およびレジ
スタファイル７で受け取る必要がある。

【００６０】また、命令デコーダ５から、リオーダバッ
ファ６の参照は、双方のスレッド実行部２のリオーダバ
ッファ６に対して行う必要がある。リオーダバッファ６
の参照結果は、データセレクタ８に集められ、図６に示
す論理によって必要なデータが選択される。図６は、デ
ータセレクタ８のデータ選択論理を示すフローチャート
であり、リオーダバッフ＃１、もしくは＃０からのデー
タ供給がある場合には、該当するリオーダバッファのデ
ータを選択し（ステップ６０１〜６０４）、それ以外の
場合、レジスタファイル＃１のデータを選択する。

【００６１】データは、演算結果もしくはリオーダバッ
ファ６のエントリ番号からなり、エントリ番号の場合
は、命令キュー９内で演算結果を取り込む。

【００６２】また、条件分岐によって生成されたスレッ
ドを実行するスレッド実行部２、すなわち図４、図５に
示した例の場合、スレッド実行部＃１（２ｂ）では、分
岐が確定するまでの間は、実行が完了した命令でもＷ動
作によるレジスタファイル７の更新を行うことも可能で
あるが、ストア命令によるデータキャッシュメモリ４へ
の書き込みは抑止される。

【００６３】さて、上記した実施例では、スレッドを実
行していない空き状態のスレッド実行部が存在しない場
合の動作を定義していない。従って、空き状態スレッド
実行部が存在しない場合の対応を別途とる必要がある。

【００６４】本発明の第２の実施例は、空き状態のスレ
ッド実行部が存在しない場合には、通常の非順序実行型
のマイクロプロセッサと同様に、分岐予測を行って分岐
以降の命令の投機的実行を行うものである。

【００６５】図７は、本発明の第２の実施例の構成を示
す図である。

【００６６】図７を参照すると、本発明の第２の実施例
の並列処理システムは、図１に示した前記実施例（第１
の実施例）の並列処理システムに対して、分岐予測機構
２６を付加した構造となっている。その他は、図１に示
した第１の実施例の構成と同様である。

【００６７】本発明の第２の実施例において、分岐予測
機構２６は、過去に実行した条件分岐命令の条件の成
立、非成立の履歴を記憶しておき、今後実行する条件分
岐命令の条件の成否を予測するものである。この分岐予
測機構２６は、命令デコーダ２７、スレッド管理部２
２、演算ユニット３２、命令キャッシュ２４に接続され
ている。

【００６８】図８は、本発明による条件分岐命令の実行
方法を示すフローチャートである。命令デコーダ５は、
条件分岐命令を検出すると、分岐予測機構２６に対し
て、分岐の予測結果を問い合わせる。この時、スレッド
管理部２２から、待機状態のスレッド実行部２３の存在
の有無を問い合わせる。待機状態のスレッド実行部２３
が存在する場合には（ステップ８０１のＹＥＳ）、前記
第１の実施例と同じ方法で、分岐先を開始アドレスとす
る投機状態のスレッドを生成する（ステップ８０２）。
一方、待機状態のスレッド実行部２３が存在しない場合
には、分岐予測機構２６内からの履歴情報から条件の成
否を予測し、その予測結果に基づいて分岐先もしくは分
岐命令後を投機的に実行する（ステップ８０３〜８０
５）。

【００６９】本発明の第２の実施例においては、システ
ム全体に待機中のスレッド実行部２が存在する場合は条
件分岐命令の分岐側と非分岐側の両者を投機的に実行
し、存在しない場合には過去の履歴に基づいた予測によ
って分岐を投機的に実行することが可能になる。

【００７０】次に、本発明の第３の実施例について説明
する。前記第１、及び第２の実施例では、実行するプロ
グラムの条件分岐命令の頻度が高い場合には、条件分岐
命令による投機実行スレッドによってスレッド実行部２
が使用される頻度が高くなり、本来の並列実行に支障が
出たり、過去の履歴に基づいた分岐予測が当たりにくい
条件分岐命令が投機スレッド生成による両実行が行えな
くなる可能性がある。

【００７１】そこで、本発明の第３の実施例では、プロ
グラムコード生成時に投機スレッドを生成して実行する
条件分岐命令をあからじめ指定する方法を提案する。

【００７２】本発明の第３の実施例においては、条件分
岐命令が過去の履歴によって予想しにくいとコード生成
時に判断した場合には、その情報をコードに付加する。
コードへの情報の付加方法は、条件分岐命令を両実行／
予測実行の２種類に分ける方法や、命令フォーマット内
の特定ビットに組み込むことなどが考えられる。

【００７３】図９は、特定ビットにこの情報を組み込ん
だ例である。図９に示す例では、条件分岐命令に命令フ
ィールド３５とレジスタ指定フィールド３６と共に、分
岐実行方法指定フィールド３７を追加している。分岐実
行方法指定フィールド３７は１ないし数ビットから構成
される。このフィールドに両実行分岐を推奨するような
値がセットされている場合には、図１又は図７のスレッ
ド管理部１又は２２に対して、分岐側のアドレスを開始
アドレスとする投機スレッドの起動を依頼する。セット
されていない場合には、通常の分岐命令と同様の取り扱
いをし、投機スレッドの生成は行わない。上記第２の実
施例に、第３の実施例を適用する場合には、分岐実行方
法指定フィールド３７を複数ビットとして、分岐予測機
構２６との予測と組み合わせて投機スレッド生成による
分岐実行を行うか否かを決定する拡張も可能である。

【００７４】最後に、本発明の第４の実施例について説
明する。本発明の第４の実施例は、過去の条件分岐命令
実行の履歴から実行時に投機スレッド生成による分岐実
行を行うか否かを決定するものである。

【００７５】本発明の第４の実施例の並列システム全体
の構成は、図７と同様であるが、分岐予測機構２６は分
岐予測の成否の履歴を保持できるように拡張されてい
る。

【００７６】図１０は、本発明の第４の実施例におい
て、分岐予測機構２６内の履歴を保持する分岐履歴テー
ブル３８の構成の一例を示す図である。図１０を参照す
ると、分岐履歴テーブル３８は、分岐命令アドレス３
９、分岐予測状態４０、予測成否履歴４１のエントリを
複数持ち、エントリ数分の条件分岐命令の履歴から分岐
命令の予測を行う。予測は、分岐予測状態４０から決定
し、２ビットで表現する場合には、分岐条件が強く成立
する（ＳＴ）、弱く成立する（ＷＴ）、弱く成立しない
（ＷＮ）、強く成立しない（ＳＮ）の４状態で表し、そ
の後の分岐実行結果に基づいて状態遷移を行う。

【００７７】一方、予測成否履歴４１は、過去数回分の
予測の成功／失敗の履歴を保持しており、分岐予測の決
定には関わらない。

【００７８】本発明の第４の実施例では、条件分岐命令
をデコードした際に、分岐予測機構２６（図７参照）に
その情報が送られる。分岐予測機構２６は、分岐履歴テ
ーブル３８の該当するアドレスの条件分岐命令の予測成
否履歴４１（図１０参照）を調べる。その結果、当該分
岐命令の予測失敗比率が高いことが判明した場合には、
スレッド実行部２３に対して、分岐先アドレスを開始ア
ドレスとする投機スレッドの起動を要求する。

【００７９】一方、予測の成功比率が高い場合には、通
常の条件分岐命令と同様に、分岐予測状態４０から分岐
側、非分岐側のどちらかを予測して投機的に実行する。
両実行、予測実行のどちらで条件分岐命令を実行した場
合でも、条件が確定した際に分岐予測状態４０を更新す
ると共に、分岐予測状態４０から予測の成否を判定し、
予測成否履歴４１を交信する。

【００８０】これにより実行時の過去の履歴に基づい
て、予測のしにくい条件分岐命令だけ、効率的に分岐両
実行を行うことが可能になり、効率的な実行が可能にな
る。

【００８１】

【発明の効果】以上説明したように本発明によれば、プ
ログラムコードの非順序実行の時に問題になる条件分岐
命令の予測ミスによるペナルティを減らすことが可能に
なる、という効果を奏する。

【００８２】本発明は並列システムで用いることを前提
としており、分岐命令の両実行は待機状態のスレッド実
行部が存在する際に行われる。並列処理においては、プ
ログラムの並列化が施しにくい逐次部分の存在が全体の
性能向上を大きく制約することになる。本発明による分
岐両実行方法は、待機中のスレッド実行部が多く存在す
る逐次部分の処理速度向上に寄与する。また、コード生
成時や実行時の履歴から両実行を行う条件分岐命令を決
定することにより、分岐予測が当たりにくい分岐命令を
特定して両実行することが可能となり、さらにプログラ
ムの実行効率を向上させることが可能となる。

【図面の簡単な説明】

【図１】本発明の一実施例の構成を示すブロック図であ
る。

【図２】本発明の一実施例のスレッド管理部の構成を示
すブロック図である。

【図３】本発明の一実施例を説明するための図であり、
プログラムコードの一例を示す図である。

【図４】本発明の一実施例を説明するための図であり、
パイプライン実行の様子（分岐条件不成立の場合）を説
明するための図である。

【図５】本発明の一実施例を説明するための図であり、
パイプライン実行の様子（分岐条件成立の場合）を説明
するための図である。

【図６】本発明の一実施例におけるデータセレクタのデ
ータ選択論理を示すフローチャートである。

【図７】本発明の第２の実施例の構成を示すブロック図
である。

【図８】本発明の第２の実施例の分岐実行方法を説明す
るためのフローチャートである。

【図９】本発明の第３の実施例における命令の一例を示
す図である。

【図１０】本発明の第４の実施例における分岐履歴テー
ブルの構成の一例を示す図である。

【符号の説明】１スレッド管理部２ａスレッド実行部＃０２ｂスレッド実行部＃１３命令キャッシュメモリ４データキャッシュメモリ５命令デコーダ６リオーダバッファ７レジスタファイル８データセレクタ９命令キュー１０演算ユニット１１アドレス計算ユニット１２レジスタコピーバス１３スレッド状態テーブル１４状態ビット１５分岐実行管理テーブル１６有効ビット１７分岐命令実行実行部番号１８命令識別番号１９投機スレッド実行実行部番号２０スレッド状態決定論理２１分岐投機実行管理論理２２スレッド管理部２３ａスレッド実行部＃０２３ｂスレッド実行部＃１２４命令キャッシュメモリ２５データキャッシュメモリ２６分岐予測機構２７命令デコーダ２８リオーダバッファ２９レジスタファイル３０データセレクタ３１命令キュー３２演算ユニット３３アドレス計算ユニット３４レジスタコピーバス３５命令フィールド３６レジスタ指定フィールド３７分岐実行方法指定フィールド３８分岐履歴テーブル３９分岐命令アドレス４０分岐予測状態４１予測成否履歴

Claims

【特許請求の範囲】

【請求項１】複数の命令列から構成されるスレッドが同
時に存在し、前記複数スレッドが論理的に複数のスレッ
ド実行部によって並列に実行される並列処理装置の分岐
処理方法であって、プログラムコード中の条件分岐命令が分岐するか否かを
決定する以前に、新たに分岐先のアドレスを開始地点と
するスレッドを他のスレッド実行部において投機的に起
動して実行し、前記条件分岐命令を実行するスレッドは分岐しないもの
として、前記条件分岐命令以降の命令を投機的に実行
し、前記条件分岐命令の条件が確定し、分岐することが判明
した場合、前記条件分岐命令を実行したスレッドの前記
条件分岐命令以降の命令を取り消し、分岐しないことが
判明した場合には、前記新たに生成したスレッドの実行
を取り消す、ことを特徴とする分岐命令処理方法。
【請求項２】前記条件分岐命令を検出した際に、スレッ
ドを実行していないスレッド実行部の存在の有無をスレ
ッド管理部に問い合せ、スレッドを実行していない待機
状態のスレッド実行部が存在する場合には、前記待機状
態のスレッド実行部において前記分岐先のアドレスを開
始地点とするスレッドを投機的に起動して実行し、一
方、待機状態のスレッド実行部が存在しない場合には、
前記条件分岐命令を実行したスレッド実行部において、
分岐以降の命令もしくは分岐先の命令を投機的に実行す
る、ことを特徴とする請求項１記載の分岐命令処理方
法。
【請求項３】分岐先のアドレスを開始地点とするスレッ
ドを他のスレッド実行部に対して生成することを、前記
条件分岐命令によって予め指定し、前記条件分岐命令を
実行した場合に限って、投機的なスレッドを生成する、
ことを特徴とする請求項１又は２記載の分岐処理方法。
【請求項４】前記分岐先のアドレスを開始地点とするス
レッドを他のスレッド実行部に対して生成することを、
分岐予測の結果から決定し、スレッドを生成して投機的
に実行すると決定した場合に限って、投機的なスレッド
を生成する、ことを特徴とする請求項２記載の分岐処理
方法。
【請求項５】複数の命令列から構成されるスレッドが同
時に存在し、前記複数スレッドが論理的に複数のスレッ
ド実行部によって並列に実行される並列処理装置におい
て、条件分岐命令が分岐するか否かを決定する以前に、新た
に分岐先のアドレスを開始地点とするスレッドを待機状
態にある他のスレッド実行部において投機的に起動して
実行し、前記条件分岐命令を実行したスレッド実行部は分岐条件
非成立時の処理である前記条件分岐命令以降の命令を投
機的に実行し、前記条件分岐命令の条件が確定し、分岐することが判明
した場合、前記前記条件分岐命令を実行したスレッドの
前記条件分岐命令以降の命令を取り消し、分岐しないこ
とが判明した場合には、前記新たに生成したスレッドの
実行を取り消すように構成されてなる、ことを特徴とす
る並列処理装置。
【請求項６】前記条件分岐命令を検出した際に、スレッ
ドを実行していないスレッド実行部の存在の有無を、前
記複数のスレッド実行部における命令の実行を管理する
スレッド管理部に問い合せ、スレッドを実行していない
待機状態のスレッド実行部が存在する場合には、前記待
機状態のスレッド実行部において前記分岐先のアドレス
を開始地点とするスレッドを投機的に起動して実行し、
存在しない場合には前記条件分岐命令を実行したスレッ
ド実行部において、分岐以降の命令もしくは分岐先の命
令を投機的に実行する、ことを特徴とする請求項５記載
の並列処理装置。
【請求項７】分岐先のアドレスを開始地点とするスレッ
ドを他のスレッド実行部に対して生成することを、前記
条件分岐命令によって予め指定し、前記条件分岐命令を
実行した場合に限って、投機的なスレッドを生成する、
ことを特徴とする請求項５記載の並列処理装置。
【請求項８】前記分岐先のアドレスを開始地点とするス
レッドを他のスレッド実行部に対して生成することを、
分岐予測の結果から決定し、スレッドを生成して投機的
に実行すると決定した場合に限って、投機的なスレッド
を生成する、ことを特徴とする請求項５記載の並列処理
装置。