JP2002351657A

JP2002351657A - マルチプロセッサシステム、データ依存投機実行制御装置およびその方法

Info

Publication number: JP2002351657A
Application number: JP2001154113A
Authority: JP
Inventors: Mitsufumi Shibayama; 充文柴山; Satoshi Matsushita; 智松下; Atsushi Torii; 淳鳥居; Naoki Nishi; 直樹西
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-05-23
Filing date: 2001-05-23
Publication date: 2002-12-06
Anticipated expiration: 2021-05-23
Also published as: GB2378549B8; US20020178349A1; US6970997B2; GB0211979D0; GB2378549A; JP3729087B2; GB2378549B

Abstract

(57)【要約】【課題】データ依存投機実行の失敗確率を低減し、プ
ログラムの実行性能を向上できるマルチプロセッサシス
テム、データ依存投機実行制御装置およびその方法を提
供する。【解決手段】プロセッサがメモリ操作命令の実行する
際、過去における投機実行の成否結果の履歴を参照し
て、データ投機実行が成功するか失敗するかを予測し、
成功が予測される場合、メモリ操作命令を非プログラム
順序でデータ依存に関して投機的に実行し、失敗が予測
される場合、メモリ操作命令をプログラム順序で確定的
に実行する。過去の投機実行の成否履歴は、記憶手段に
記憶される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、例えば、マイクロ
プロセッサなどのデータ処理装置におけるマイクロプロ
セッサの性能向上に関わるマルチプロセッサシステム、
データ依存投機実行制御装置およびその方法に関するも
のである。

【０００２】

【従来の技術】従来より、マイクロプロセッサの性能向
上技術として、マイクロプロセッサが実行するプログラ
ム中の命令の順序とは異なる順序で命令の実行する、非
プログラム順序実行（アウトオブオーダ実行）技術が広
く使われている。非プログラム順序実行では、プロセッ
サが、実行可能になった命令から実行するため、プログ
ラム中の命令の順序で実行するプログラム順序実行（イ
ンオーダ実行）を行う場合に比べて、プロセッサの性能
を向上させることが可能となる。

【０００３】しかし、非プログラム順序実行は、無条件
に行えるわけではない。非プログラム順序実行が可能な
条件として、まず、実行する命令間のレジスタに関する
正依存関係がないことがあげられる。例えば、プログラ
ム順序で前にある命令が変更を行うレジスタを、プログ
ラム順序でそれより後にある命令が参照する場合、前に
ある命令から後にある命令へレジスタに関する正依存関
係があるという。

【０００４】この場合、それら２つの命令をプログラム
順序とは逆の順序で実行すると、プログラムの意味が変
わってしまい、正しいプログラムの実行結果を得ること
ができない。すなわち、レジスタに関して正依存関係が
ある場合、非プログラム順序で実行することができな
い。

【０００５】同様にして、プログラム順序で前にある命
令が参照するレジスタを、プログラム順序でそれより後
にある命令が変更を行う場合、前にある命令から後にあ
る命令へレジスタに関する逆依存関係があるという。

【０００６】また、プログラム順序で前にある命令が変
更を行うレジスタを、プログラム順序でそれより後にあ
る命令も変更を行う場合、前にある命令から後にある命
令へレジスタに関する出力依存関係があるという。いず
れの場合も、それら２つの命令をプログラム順序とは逆
の順序で実行すると、プログラムの意味が変わってしま
い、正しいプログラムの実行結果を得ることができな
い。

【０００７】通常、各命令が変更あるいは参照の対象と
するレジスタは、命令のデコード時に判明するため、依
存関係のある命令に対しては、非プログラム順序で実行
を行わないことで対応することが多い。また、逆依存関
係、出力依存関係に対してはレジスタ・リネーミングな
どの技術で、その依存を解消して、非プログラム順序実
行を可能にすることも広く実施されている。

【０００８】メモリに対して操作を行うメモリ操作命令
に対しては、非プログラム順序実行に際して、レジスタ
に関する依存関係に加えて、メモリに関する依存関係に
関しての考慮が必要となる。

【０００９】通常、メモリ操作命令には、メモリからデ
ータを読み出すロード命令と、メモリへデータを書き込
むストア命令が含まれる。プログラム中に出現する、あ
る２つのロード命令またはストア命令が対象とするアド
レスが互いに異なれば、メモリの異なる位置が読み出
し、または書き込みの対象となる。そのため、これら２
つのロード命令またはストア命令の間には、メモリに関
して依存関係は存在しない。すなわち、それら２つの命
令は、非プログラム順序で実行することが可能である。

【００１０】一方、プログラム中に出現する、ある２つ
のロード命令またはストア命令が対象とするアドレスが
同じ場合、メモリの同じ位置が読み出し、または書き込
みの対象となる。そのため、それら２つのロード命令ま
たはストア命令間には、メモリに関して依存関係が存在
する。

【００１１】例えば、プログラム順序で前にあるストア
命令が書き込みを行うアドレスに対して、プログラム順
序でそれより後にあるロード命令が読み出しを行う場
合、前にあるストア命令から後にあるロード命令へ、メ
モリに関する正依存関係があるという。

【００１２】この場合、それら２つのロード命令、スト
ア命令を、プログラム順序とは逆の順序で実行すると、
プログラムの意味が変わってしまい、正しいプログラム
の実行結果を得ることができない。すなわち、メモリに
関して正依存関係がある場合、非プログラム順序で実行
することができない。

【００１３】同様にして、プログラム順序で前にあるロ
ード命令が読み出しを行うアドレスに対して、プログラ
ム順序でそれより後にあるストア命令が書き込みを行う
場合、前にあるロード命令から後にあるストア命令へメ
モリに関する逆依存関係があるという。

【００１４】また、プログラム順序で前にあるストア命
令が書き込みを行うアドレスに対して、プログラム順序
でそれより後にあるストア命令も書き込みを行う場合、
前にあるストア命令から後にあるストア命令へメモリに
関する出力依存関係があるという。いずれの場合も、そ
れら２つのロード・ストア命令をプログラム順序とは逆
の順序で実行すると、プログラムの意味が変わってしま
い、正しいプログラムの実行結果を得ることができな
い。

【００１５】メモリに関する逆依存関係、および出力依
存関係に対しては、ストア命令が書き込みを行うデータ
を一時的なバッファ（通常、ストアバッファと呼ばれ
る）に一時的に格納するなどの対応で、逆依存関係ある
いは出力依存関係を解消し、非プログラム順序実行を可
能とする技術が、従来より知られている。

【００１６】一方、正依存関係が存在する場合は、本質
的に非プログラム順序で実行することができず、プログ
ラム順序で実行することになる。しかしながら、ロード
・ストア命令が対象とするアドレスは、実行時まで不明
である場合が多い。すなわち、デコード時に依存関係が
判明するレジスタの場合と違い、メモリの場合には、実
行時まで依存関係が判明しない場合が多い。そのため、
非プログラム順序で実行できないことによる性能への影
響が大きい。

【００１７】その具体例を、図１１を参照して説明す
る。図１１の（ａ）は、ロード・ストア命令からなるプ
ログラム例のプログラム順序であり、そのプログラム順
に、アドレスＡ１に対するロード命令ＬＤ１、アドレス
Ａ４’に対するストア命令ＳＴ１、アドレスＡ２に対す
るロード命令ＬＤ２、アドレスＡ３に対するロード命令
ＬＤ３、アドレスＡ４に対するロード命令ＬＤ４を示し
ている。

【００１８】ここで、ＳＴ１の対象アドレスＡ４’とＬ
Ｄ４の対象アドレスＡ４が等しい（Ａ４’＝Ａ４）とす
ると、ＳＴ１とＬＤ４は同じアドレスを対象としてい
て、かつ、ＬＤ４よりもＳＴ１の方がプログラム順序で
前にあるため、ＳＴ１からＬＤ４へ正依存関係が存在す
る。

【００１９】つまり、プログラムの意味上、ＳＴ１がア
ドレスＡ４’（＝Ａ４）に書き込みを行ったデータを、
ＬＤ４がアドレスＡ４（＝Ａ４’）から読み出すことが
期待されている。そのため、それらの実行も先にＳＴ
１、その後にＬＤ４のプログラム順序で行われる必要が
ある。

【００２０】図１１の（ｂ）は、図１１の（ａ）に示し
たプログラム順序の命令列についてのプログラム順序実
行の例である。同図において、左からサイクル番号、そ
のサイクルの実行命令、実行命令の対象アドレスを示
す。ここで、ＳＴ１の対象アドレスＡ４’は、５サイク
ル目まで判明しないと想定すると、１サイクル目にアド
レスＡ１に対するロード命令ＬＤ１、５サイクル目にア
ドレスＡ４’対するストア命令ＳＴ１、６サイクル目に
アドレスＡ２に対するロード命令ＬＤ２、７サイクル目
にアドレスＡ３に対するロード命令ＬＤ３、８サイクル
目にアドレスＡ４に対するロード命令ＬＤ４が実行され
ることになる。

【００２１】仮に２サイクル目、または３サイクル目、
または４サイクル目にアドレスＡ２、またはアドレスＡ
３、またはアドレスＡ４が判明していたとしても、ＬＤ
２、またはＬＤ３、またはＬＤ４を、２サイクル目、ま
たは３サイクル目、または４サイクル目にＳＴ１を追い
越して実行する非プログラム順序実行することはできな
い。

【００２２】なぜなら、上述のように、ＳＴ１の対象ア
ドレスＡ４’は、５サイクル目まで判明しないため、５
サイクル目まで、ＳＴ１からＬＤ１，ＬＤ２，ＬＤ３，
ＬＤ４への正依存関係の有無も判明しないからである。

【００２３】すなわち、図１１の（ｂ）に示したプログ
ラム順序実行の例の場合、２サイクル目、３サイクル
目、４サイクル目には、ロード・ストア命令を実行する
ことができず、ＬＤ１，ＬＤ２，ＬＤ３，ＬＤ４，ＳＴ
１の５命令の実行に８サイクルを要してしまう。

【００２４】このように、ロード・ストア命令に関して
非プログラム順序実行を行わない方法では、その実行性
能が低下するという問題がある。そこで、この問題に対
して、従来より知られているものに、正依存関係の有無
が判明するよりも前に、正依存関係が存在しないと仮定
して、投機的に非プログラム順序実行を行う方式があ
る。以下、この方式によるデータの正依存関係に対する
投機的な命令実行を「データ依存投機実行」と表記す
る。

【００２５】データ依存投機実行においては、実際に正
依存関係が存在せず、投機実行が成功する場合と、実際
に正依存関係が存在して、投機実行が失敗する場合とが
あり、正依存関係の有無が判明した時点で、そのいずれ
であるかを判定する必要がある。実際に正依存関係が存
在せず、投機実行が成功した場合、そのまま、後続の命
令実行を継続することが可能であり、データ依存投機実
行による非プログラム順序実行を行った分だけ、実行性
能の向上が期待できる。

【００２６】一方、実際に正依存関係が存在して、投機
実行が失敗した場合、プログラムの意味が変わってしま
うため、プログラムの正しい実行結果が保証できなくな
る。そのため、データ依存投機実行による非プログラム
順序実行を行った命令の結果を取り消して、プログラム
順序で再実行するなどのデータ依存投機実行の失敗に対
する回復処理が必要となる。

【００２７】投機実行が失敗した場合、失敗した命令の
取り消しや回復処理のために、プログラム順序実行する
よりも性能が低下することが多い。しかし、投機実行に
失敗する場合よりも、成功する場合の確率が十分に高け
れば、プログラム全体としての実行性能の向上が期待で
きることになる。

【００２８】なお、非プログラム順序実行については、
マイク・ジョンソンによる文献、「スーパースカラ・プ
ロセッサ」（日経ＢＰ出版センター、１９９４年）に詳
細に記載されている。また、データ依存投機実行や投機
実行の失敗による回復処理方法については、例えば、特
開平５−２２４９２７号公報や特開平８−３１４７２１
号公報に開示されている。

【００２９】そこで、データ依存投機実行の具体例を説
明する。図１１の（ｃ）は、図１１の（ａ）に示したプ
ログラム順序の命令列に対して、データ依存投機実行を
行い、かつ、投機実行に成功した場合の実行例である。
図１１の（ｂ）に示したプログラム順序実行の場合と同
様、ＳＴ１の対象アドレスＡ４’は、５サイクル目まで
判明しないものとする。また、ＬＤ２の対象アドレスＡ
２は、２サイクル目で、ＬＤ３の対象アドレスＡ３は、
３サイクル目で、そして、ＬＤ４の対象アドレスＡ４
は、６サイクル目で判明すると想定する。

【００３０】まず、１サイクル目に、アドレスＡ１に対
するロード命令ＬＤ１を実行する。次に、２サイクル目
において、プログラム順序（図１１の（ａ）参照）で
は、ＳＴ１を実行するのであるが、対象アドレスＡ４’
は、まだ不明であるために実行できない。このため、対
象アドレスＡ２が判明しているＬＤ２を、ＳＴ１を追い
越して非プログラム順序で実行する。

【００３１】ここで、ＳＴ１の対象アドレスＡ４’は、
まだ不明であるため、ＳＴ１からＬＤ２への正依存関係
の有無もまた、不明である。すなわち、ＬＤ２は、ＳＴ
１に対してデータ依存投機実行する。

【００３２】同様にして、３サイクル目においても、Ｓ
Ｔ１は、まだ実行できないため、対象アドレスＡ３が判
明しているＬＤ３のデータ依存投機実行する。このと
き、ＳＴ１からＬＤ３への正依存関係の有無もまた、不
明である。

【００３３】次に、４サイクル目では、ＳＴ１およびＬ
Ｄ４ともに、その対象アドレスは不明であるから、いず
れの命令も実行できない。そして、５サイクル目におい
て、ＳＴ１の対象アドレスＡ４’が判明するので、ＳＴ
１を実行する。同時に、ＳＴ１から、データ依存投機実
行を行ったＬＤ２，ＬＤ３に対する正依存関係の有無を
判定する。

【００３４】この場合、ＬＤ２の対象アドレスＡ２、お
よびＬＤ３の対象アドレスＡ３は、ＳＴ１の対象アドレ
スＡ４’と異なるため、ＬＤ２およびＬＤ３に対して正
依存関係は存在しない。すなわち、ＬＤ２およびＬＤ３
のデータ依存投機実行は、成功したと判断する。従っ
て、後続の命令実行をそのまま継続することができ、次
の６サイクル目に、ＬＤ４を実行する。このＬＤ４は、
ＳＴ１から正依存関係があるが、プログラム順序で実行
されているので問題は生じない。以上が、データ依存投
機実行が成功した場合である。

【００３５】このように、図１１の（ｂ）に示したプロ
グラム順序で実行した場合、その実行に８サイクルを要
したのに対して、データ依存投機実行による非プログラ
ム順序実行が成功した場合、実行は、６サイクルで完了
する。そのため、その分だけ、実行性能が向上してい
る。

【００３６】一方、図１１の（ｄ）は、図１１の（ａ）
に示したプログラム順序の命令列に対して、データ依存
投機実行を行い、かつ、投機実行に失敗した場合の実行
例を示している。ここでも、図１１の（ｂ）で示したプ
ログラム順序実行の場合と同様、ＳＴ１の対象アドレス
Ａ４’は、５サイクル目まで判明しないものとする。ま
た、ＬＤ２の対象アドレスＡ２は、２サイクル目で、Ｌ
Ｄ３の対象アドレスＡ３は、３サイクル目で、ＬＤ４の
対象アドレスＡ４は、４サイクル目で判明すると想定す
る。

【００３７】そこで、まず、１サイクル目に、アドレス
Ａ１に対するロード命令ＬＤ１を実行する。次に、図１
１の（ｃ）で示したデータ依存投機実行が成功した場合
と同様に、２サイクル目、および３サイクル目におい
て、プログラム順序で次の命令であるＳＴ１は、対象ア
ドレスＡ４’が、まだ不明であるために実行できない。
そのため、対象アドレスが判明しているＬＤ２およびＬ
Ｄ３を、データ依存投機実行による非プログラム順序実
行する。

【００３８】次に、４サイクル目では、いまだＳＴ１の
対象アドレスＡ４’は不明であるが、ＬＤ４の対象アド
レスＡ４は判明しているため、ＬＤ４のデータ依存投機
実行をする。５サイクル目において、ＳＴ１の対象アド
レスＡ４’が判明するので、ＳＴ１を実行する。同時
に、ＳＴ１から、データ依存投機実行を行ったＬＤ２，
ＬＤ３，ＬＤ４に対する正依存関係の有無を判定する。

【００３９】この場合、ＬＤ２の対象アドレスＡ２、お
よびＬＤ３の対象アドレスＡ３は、ＳＴ１の対象アドレ
スＡ４’と異なるため、ＬＤ２およびＬＤ３に対して
は、正依存関係は存在しない。しかし、ＬＤ４の対象ア
ドレスＡ４は、ＳＴ１の対象アドレスＡ４’に等しいた
め、ＳＴ１からＬＤ４に対して正依存関係が存在する。

【００４０】すなわち、正依存関係が存在するにもかか
わらず、非プログラム順序で実行してしまっているの
で、ＬＤ４のデータ依存投機実行は、失敗したと判断す
る。この場合、このまま後続の命令の実行を継続する
と、プログラムの正しい実行結果が保証されないので、
データ依存投機実行の、失敗の回復処理の実行が必要で
ある。

【００４１】例えば、図１１の（ｄ）に示す実行例で
は、５サイクル目においてデータ依存投機実行は失敗し
たと判断されると、まず、データ依存投機実行を行った
２サイクル目から４サイクル目のＬＤ２，ＬＤ３，ＬＤ
４、および、５サイクル目のＳＴ１の実行結果を取り消
す。次に、実行結果を取り消したＳＴ１，ＬＤ２，ＬＤ
３，ＬＤ４の再実行を、７サイクル目からプログラム順
序で実行することで、データ依存投機実行の失敗の回復
を行い、その後、後続命令の実行を再開する。

【００４２】この場合、ＬＤ１，ＬＤ２，ＬＤ３，ＬＤ
４，ＳＴ１の５命令の実行に、１０サイクルを要するこ
とになり、プログラム順序で実行を行った場合の８サイ
クルより、性能が低下することになる。しかし、データ
依存投機実行に成功した場合は、６サイクルで実行でき
る。そのため、投機実行に失敗する場合よりも成功する
場合の確率が十分に高ければ、プログラム全体としての
実行性能の向上が期待できる。

【００４３】このように、プロセッサがデータ依存投機
実行をするには、ロード・ストア命令間のメモリに対す
る正依存関係の有無を判定する機能が必要となる。この
機能を担う装置として、例えば、特開平８−３１４７２
１号公報に開示されているアドレス比較器などのデータ
依存関係検出装置がある。以下、データ依存関係検出装
置を備えたプロセッサにおけるデータ依存投機実行につ
いて説明する。

【００４４】図１２は、ロード・ストア命令間の正依存
関係を検出するデータ依存関係検出装置を備えるプロセ
ッサの構成を示すブロック図である。同図に示すプロセ
ッサは、プロセッサ制御部１２０、命令実行部１２１、
データ依存関係検出装置１３０を備える。これらの内、
データ依存関係検出装置１３０は、ロード命令の対象ア
ドレスを格納する複数のアドレスバッファ１３１、各々
のアドレスバッファ１３１に接続された複数のアドレス
比較器１３２、すべてのアドレス比較器１３２の出力を
入力とする論理和回路１３３から構成される。

【００４５】アドレス比較器１３２は、アドレスバッフ
ァ１３１に格納されたロード命令の対象アドレスと、実
行中のストア命令の対象アドレスとの比較を行う。論理
和回路１３３は、すべてのアドレス比較器１３２の、出
力の論理和を演算し、それをデータ依存検出結果１６０
として出力する。

【００４６】本プロセッサが命令を実行する場合、プロ
セッサ制御部１２０は、実行する命令の種別を、実行命
令１１５を通じて命令実行部１２１、およびデータ依存
関係検出装置１３０に出力する。さらに、実行する命令
がメモリ操作命令の場合、プロセッサ制御部１２０は、
その操作の対象となるアドレスを、対象アドレス１１４
を通じて命令実行部１２１、およびデータ依存関係検出
装置１３０に出力する。さらに、メモリ操作命令をデー
タ依存投機実行する場合、プロセッサ制御部１２０は、
その旨を、投機実行フラグ１１３を通じてデータ依存関
係検出装置１３０に通知する。

【００４７】データ依存関係検出装置１３０によるスト
ア命令からロード命令へのメモリに関する正依存関係の
検出は、以下に示す動作で実現される。まず、プロセッ
サがデータ依存関係に対して、投機的な命令実行を行わ
ず、プログラム順序で確定的に命令実行する状態にある
場合（以下、「確定実行状態」と表記する）、データ依
存関係検出装置１３０は、何ら動作を行わない。

【００４８】それに対して、プロセッサが、データ依存
関係に対して投機的な命令実行を行う状態（以下では、
「投機実行状態」と表記する）にある場合、データ依存
関係検出装置１３０は、ストア命令からロード命令への
正依存関係の検出処理を行う。プロセッサが、確定実行
状態、または投機実行状態のどちらにあるかは、プロセ
ッサ制御部１２０からデータ依存関係検出装置１３０に
入力される投機実行フラグ１１３で判断する。ロード命
令がデータ依存投機実行された場合、その対象アドレス
を、これまでロード命令の対象アドレスが格納されてい
ない、空いているアドレスバッファ１３１に格納してい
く。

【００４９】次に、ストア命令が実行されると、その対
象アドレスは、すべてのアドレス比較器１３２に入力さ
れ、その比較器で、アドレスバッファ１３１に格納され
ている、それ以前にデータ依存投機実行されたロード命
令の対象アドレスと比較する。アドレス比較器１３２か
ら出力された比較結果は、すべて論理和をとり、データ
依存検出結果１１６として、プロセッサ制御部１２０へ
出力される。

【００５０】ストア命令の対象アドレスと、アドレスバ
ッファ１３１に格納されているロード命令の対象アドレ
スのいずれとも一致しない場合、そのストア命令からア
ドレスバッファ１３１に対象アドレスを格納したロード
命令へ、正依存関係が存在しないと判断することができ
る。そこで、その旨がデータ依存検出結果１１６として
プロセッサ制御部１２０へ出力される。この場合、デー
タ依存投機実行が成功したとして、そのまま、後続の命
令の実行を継続することができる。

【００５１】一方、ストア命令の対象アドレスと、アド
レスバッファ１３１に格納されているロード命令の対象
アドレスのいずれかが一致した場合、そのストア命令か
らアドレスバッファ１３１に対象アドレスを格納したロ
ード命令へ、正依存関係が存在すると判断することがで
きるので、その旨がデータ依存検出結果１１６としてプ
ロセッサ制御部１２０へ出力される。この場合、データ
依存投機実行が失敗したとして、プロセッサ制御部１２
０はデータ依存投機実行が失敗したことによる回復処理
などを実行する。

【００５２】また、ハードウエアによる投機実行の成功
確率を向上させる技術として、従来より知られているも
のに、分岐投機実行に対する分岐予測技術がある。例え
ば、特開平１０−１７１６５３号公報に記載のものは、
実行するプログラム毎に前回までの分岐の履歴情報から
なる学習情報と、今回の分岐結果からなる正解情報とか
ら重み情報を更新し、それを用いて、次回の分岐予測を
行う方式および装置に関するものである。

【００５３】また、特表平１１−５０４４５８号公報に
は、スーパースカラマイクロプロセッサにおける条件付
き分岐命令の方向指示を、行使された実際の分岐動作の
履歴を記録した履歴レジスタを用いて予測する装置など
が開示されている。

【００５４】

【発明が解決しようとする課題】しかしながら、上記従
来のデータ依存投機実行方式は、データ依存投機実行が
失敗する確率が高い場合、データ依存投機実行失敗の回
復処理のために、プログラムの実行性能が低下するとい
う問題がある。

【００５５】また、投機実行の成否が、その投機実行の
直後に判明する分岐投機実行と異なり、データ依存投機
実行では、投機実行の成否が投機実行のはるか後に判明
するため、特開平１０−１７１６５３号や特表平１１−
５０４４５８号公報に開示された、上記従来の分岐予測
装置を、データ依存投機実行の成否予測に適用すること
は困難である、という問題がある。

【００５６】本発明は、上述の課題に鑑みなてされたも
のであり、その目的とするところは、データ依存投機実
行において、データ依存投機実行が失敗する確率を低減
し、同時に、プログラムの実行性能を向上できるマルチ
プロセッサシステム、データ依存投機実行制御装置およ
びその方法を提供することである。

【００５７】

【課題を解決するための手段】上記の目的を達成するた
め、本発明は、データ依存投機実行の制御手段（以下、
データ依存投機制御装置と表記する）を提供する。具体
的には、本発明は、メモリ操作命令を非プログラム順序
で、命令間の依存関係に関して投機的に実行するデータ
依存投機実行制御装置において、上記メモリ操作命令の
処理アドレスを受けて、その処理アドレスを一意な番号
に変換するアドレス変換手段と、上記変換された番号に
対応して、上記メモリ操作命令の投機的実行の成否履歴
を記憶する成否履歴記憶手段と、上記成否履歴を参照し
て、上記投機的実行の成否を予測する予測手段と、上記
予測の結果に従って上記メモリ操作命令を実行する実行
手段とを備えるデータ依存投機実行制御装置を提供す
る。

【００５８】また、他の発明によれば、複数のプロセッ
サから構成され、スレッド単位で並列処理を行うマルチ
プロセッサシステムにおいて、上記スレッドを構成する
メモリ操作命令の処理アドレスを一意な番号に変換する
アドレス変換手段と、上記変換された番号に対応して、
上記メモリ操作命令の投機的実行の成否履歴を記憶する
成否履歴記憶手段と、上記成否履歴を参照して、上記投
機的実行の成否を予測する予測手段と、上記予測の結果
に従って、上記メモリ操作命令を上記スレッド間の依存
関係に関して投機的に実行する実行手段とを備えるマル
チプロセッサシステムが提供される。

【００５９】好ましくは、上記実行手段は、上記予測手
段が上記投機的実行の成功を予測した場合、上記メモリ
操作命令を非プログラム順序で投機的に実行し、上記予
測手段が上記投機的実行の失敗を予測した場合には、上
記メモリ操作命令をプログラム順序で確定的に実行す
る。

【００６０】また、好適には、上記予測手段は、上記成
否履歴記憶手段の内容を参照して、過去において投機的
実行が失敗するよりも成功した確率が高ければ、その投
機的実行の成功を予測し、過去において投機的実行が成
功するよりも失敗した確率が高ければ、その投機的実行
の失敗を予測する。

【００６１】さらに、他の発明によれば、メモリ操作命
令を非プログラム順序で、命令間の依存関係に関して投
機的に実行するデータ依存投機実行制御方法において、
上記メモリ操作命令の処理アドレスを受けて、その処理
アドレスを一意な番号に変換するステップと、上記変換
された番号に対応して、上記メモリ操作命令の投機的実
行の成否履歴を記憶するステップと、上記成否履歴を参
照して、上記投機的実行の成否を予測するステップと、
上記予測の結果に従って上記メモリ操作命令を実行する
ステップとを備えるデータ依存投機実行制御方法が提供
される。

【００６２】

【発明の実施の形態】以下、添付図面を参照しながら、
本発明の実施の形態を詳細に説明する。［実施の形態１］最初に、本発明の実施の形態１につい
て、図面を参照して詳細に説明する。図１は、本発明の
実施の形態１に係るデータ依存投機制御装置を含むプロ
セッサの構成を示すブロック図である。同図に示すプロ
セッサは、データ依存投機制御装置１０、プロセッサ制
御部２０、命令実行部２１、データ依存関係検出装置３
０により構成される。なお、本プロセッサの他の構成要
素については、図示を省略してある。

【００６３】本プロセッサが命令を実行する場合、プロ
セッサ制御部２０は、実行する命令の種別を、実行命令
１５を通じて、命令実行部２１、データ依存投機制御装
置１０、およびデータ依存関係検出装置３０に出力す
る。さらに、実行する命令がメモリ操作命令の場合、プ
ロセッサ制御部２０は、その操作の対象となるアドレス
を、対象アドレス１４を通じて、命令実行部２１、デー
タ依存投機制御装置１０、およびデータ依存関係検出装
置３０に出力する。

【００６４】さらに、メモリ操作命令をデータ依存投機
実行する場合、プロセッサ制御部２０は、その旨を、投
機実行フラグ１３を通じて、データ依存投機制御装置１
０、およびデータ依存関係検出装置３０に通知する。

【００６５】データ依存投機制御装置１０は、ハッシュ
関数回路１１、および投機実行成否履歴テーブル１２よ
り構成される。また、データ依存投機制御装置１０は、
プロセッサ制御部２０から、投機実行フラグ１３、対象
アドレス１４、実行命令１５を入力する。さらに、デー
タ依存投機制御装置１０は、プロセッサ制御部２０へ、
データ投機実行成否予測結果１７を出力する。

【００６６】ハッシュ関数回路１１は、ｍビットで表現
されるメモリ操作命令の対象アドレスを、ｎビットで表
現される投機実行成否履歴テーブル１２のエントリ番号
に変換するハッシュ関数ｆを実現する論理回路である。
通常、ｍよりもｎの方が小さい（ｍ＞ｎ）。ここで、ハ
ッシュ関数ｆは、同一の入力に対しては、同一の値を持
つことを特徴とする。

【００６７】すなわち、Ｎ１＝ｆ（Ａ１）、かつＮ２＝
ｆ（Ａ２）としたとき、Ａ１＝Ａ２であれば、Ｎ１＝Ｎ
２が成立する関数である。従って、ハッシュ関数回路１
１は、同一のロード・ストア命令の対象アドレスに対し
て、必ず同一の命令履歴テーブルのエントリ番号を出力
することを保証する。

【００６８】一方、Ａ１≠Ａ２であっても、一般には、
Ｎ１≠Ｎ２は保証されない。すなわち、異なるロード・
ストア命令の対象アドレスに対して、同一の命令履歴テ
ーブルのエントリ番号が出力される場合が存在する。

【００６９】投機実行成否履歴テーブル１２は、各々の
エントリが、メモリやフリップフロップなどの記憶手段
で実現された複数のエントリから構成される。各エント
リには、過去に投機実行を行ったメモリ操作命令のアド
レスに対する投機実行の成否結果の履歴を記憶する。投
機実行成否履歴テーブル１２が備える、上記エントリの
総数は、ハッシュ関数回路１１の出力がｎビット幅であ
る場合、２のｎ乗に等しい数である。この投機実行成否
履歴テーブル１２は、ハッシュ関数回路１１が出力する
エントリ番号が指し示すエントリに対して、書き込み、
および読み出し処理を行う。

【００７０】図２は、図１に示すプロセッサによる命令
実行の手順を示すフローチャートである。上記のプロセ
ッサは、データ依存関係検出装置３０によるロード命令
の投機実行の成否判定機能、データ依存投機制御装置１
０による前記投機実行の成否予測および実行制御機能を
有する。命令の実行は、図２のブロック６０で開始さ
れ、ブロック６９で終了する。

【００７１】まず、ブロック６１において、プロセッサ
制御部２０による命令のデコード、および発行が行われ
る。次に、ブロック６２において、発行された命令がロ
ード命令の場合は、ブロック６３へ、ロード命令以外の
場合は、ブロック７４へ分岐する。発行された命令は、
プロセッサ制御部２０が出力する実行命令１５により与
えられる。

【００７２】また、ブロック６３において、前記発行さ
れたロード命令が投機的な実行の場合は、ブロック６４
へ、確定的な実行の場合は、ブロック７２へ分岐する。
実行が投機的であるか、確定的であるかは、プロセッサ
制御部２０の出力する投機実行フラグ１３により与えら
れる。そして、このロード命令が投機的な実行の場合、
ブロック６４において、データ依存投機制御装置１０に
より、投機実行が成功するか失敗するかの予測を行う。

【００７３】次に、ブロック６５において、前記予測
が、投機実行が“成功”することを予測した場合は、ブ
ロック６６へ、“失敗”することを予測した場合には、
ブロック７０へ分岐する。投機実行が“成功”すること
を予測した場合、ブロック６６において、そのロード命
令を投機的に実行する。そして、ブロック６７におい
て、ロード命令を投機実行した旨を、データ依存関係検
出装置３０に記憶する。続くブロック６８において、投
機実行を行ったという事実により、データ依存投機制御
装置１０に記憶されている投機実行成否結果を更新し、
次のブロック６９において、ロード命令の投機的な実行
が終了する。

【００７４】一方、ブロック６４において、ロード命令
の投機実行が“失敗”することを予測した場合、ブロッ
ク７０において、そのロード命令の投機的な実行を中止
する。このロード命令は、後にプログラム順序で確定的
に実行されることになる。次のブロック７１では、投機
実行を行わなかったという事実により、データ依存投機
制御装置１０に記憶されている投機実行成否結果を更新
し、ブロック６９において、今回のロード命令の実行
を、中止により終了する。

【００７５】他方、ブロック６３において、発行された
ロード命令が確定的な実行の場合、ブロック７２におい
て、そのロード命令を確定的に実行する。続くブロック
７３において、確定的に実行したという事実により、デ
ータ依存投機制御装置１０に記憶されている投機実行成
否結果を更新し、ブロック６９において、ロード命令の
実行が終了する。

【００７６】ブロック７４では、発行された命令がスト
ア命令の場合は、ブロック７５に分岐し、発行された命
令がロード命令でも、ストア命令でもない場合には、ブ
ロック８１に分岐する。すなわち、ストア命令が発行さ
れた場合は、ブロック７５において、データ依存関係検
出装置３０により、それ以前に投機実行されたロード命
令が、前記ストア命令に関して成功したか、失敗したか
を判定する。そして、ブロック７６において、投機実行
が成功した場合は、ブロック７７に分岐し、投機実行が
失敗した場合には、ブロック７９に分岐する。

【００７７】投機実行が成功した場合、ブロック７７に
おいて、ストア命令を（確定的に）実行する。次のブロ
ック７８において、投機実行が成功したという事実によ
り、データ依存投機制御装置１０に記憶されている投機
実行成否結果を更新し、ブロック６９において、ストア
命令の実行が終了する。しかし、ブロック７６におい
て、ロード命令の投機実行が失敗した場合、ブロック７
９において、投機実行が失敗したという事実により、デ
ータ依存投機制御装置１０に記憶されている投機実行成
否結果を更新する。続くブロック８０において、投機実
行失敗の回復処理を実行し、ブロック６９において、ス
トア命令の実行が終了する。

【００７８】ブロック７４において、発行された命令が
ロード命令でも、ストア命令でもない場合には、ブロッ
ク８１で命令を実行し、ブロック６９において終了す
る。この場合、データ依存投機制御装置１０、およびデ
ータ依存関係検出装置３０は、何ら動作を行わない。

【００７９】次に、再び図１を参照して、データ依存投
機制御装置１０の動作の詳細を説明する。まず、図２に
示すフローチャート上のブロック６４において、投機実
行成否履歴テーブル１２に記憶されている投機実行の成
否結果の履歴を参照し、それに基づいて、ロード命令の
投機実行が成功するか、失敗するかの予測を行う。より
詳細には、プロセッサ制御部２０から対象アドレス１４
により与えられるロード命令の対象アドレスを、ハッシ
ュ関数回路１１により投機実行成否履歴テーブル１２の
エントリ番号に変換し、投機実行成否履歴テーブル１２
に入力する。

【００８０】投機実行成否履歴テーブル１２は、入力さ
れたエントリ番号に対応するエントリの内容を読み出
し、それに基づいて、前記ロード命令の投機実行の成否
を予測する。また、図２に示すフローチャートにおける
ブロック６８，７１，７３，７８，７９においては、そ
れぞれの実行フローに基づいて、投機実行成否履歴１２
に記憶されている投機実行の成否予測結果の履歴を更新
する。

【００８１】より詳細には、プロセッサ制御部２０から
対象アドレス１４により与えられるロード・ストア命令
の対象アドレスを、ハッシュ関数回路１１により投機実
行成否履歴テーブル１２のエントリ番号に変換し、投機
実行成否履歴テーブル１２に入力する。そこで、投機実
行成否履歴テーブル１２は、入力されたエントリ番号に
対応するエントリの内容を読み出し、そのエントリ内容
とそれぞれの実行フローに基づいて、前記エントリ内容
を更新する。

【００８２】図３は、投機実行成否履歴テーブル１２の
各エントリ内容の状態遷移を示す状態遷移図である。各
エントリは、それぞれ３ビットの記憶素子から構成さ
れ、８つの投機実行成否履歴状態、すなわち、符号９０
で示される“強い成功０”、符号９１の“強い成功
１”、符号９２の“弱い成功０”、符号９３の“弱い成
功１”、符号９４の“弱い失敗０”、符号９５の“弱い
失敗１”、符号９６の“強い失敗０”、そして、符号９
７の“強い失敗１”のいずれかの状態を指定する。

【００８３】“強い成功０”９０は、それまで投機実行
が成功した確率がかなり高く、かつ、そのエントリに割
り当てられる対象アドレスのロード命令が、未だ投機的
に発行されていない状態を示す。また、“強い成功１”
９１は、それまで投機実行が成功した確率がかなり高
く、かつ、そのエントリに割り当てられる対象アドレス
のロード命令が、既に投機的に発行されている状態を示
す。

【００８４】“弱い成功０”９２は、“強い成功０”９
０ほどではないが、それまで、投機実行が失敗したより
も、成功した確率が高く、かつ、そのエントリに割り当
てられる対象アドレスのロード命令が、未だ投機的に発
行されていない状態を示す。“弱い成功１”９３は、
“強い成功１”９１ほどではないが、それまで、投機実
行が失敗したよりも、成功した確率が高く、かつ、その
エントリに割り当てられる対象アドレスのロード命令
が、既に投機的に発行されている状態を示す。

【００８５】“強い失敗０”９６は、それまで、投機実
行が失敗した確率がかなり高く、かつ、そのエントリに
割り当てられる対象アドレスのロード命令が、未だ投機
的に発行されていない状態を示す。“強い失敗１”９７
は、それまで、投機実行が失敗した確率がかなり高く、
かつ、そのエントリに割り当てられる対象アドレスのロ
ード命令が、既に投機的に発行されている状態を示す。

【００８６】また、“弱い失敗０”９４は、“強い失敗
０”９６ほどではないが、それまで、投機実行が成功し
たよりも、失敗した確率が高く、かつ、そのエントリに
割り当てられる対象アドレスのロード命令が、未だ投機
的に発行されていない状態を示す。“弱い失敗１”９５
は、“強い失敗１”９７ほどではないが、それまで、投
機実行が成功したよりも、失敗した確率が高く、かつ、
そのエントリに割り当てられる対象アドレスのロード命
令が、既に投機的に発行されている状態を示す。

【００８７】上記の投機実行成否履歴テーブル１２の各
エントリが保持する８つの状態は、３ビットの記憶素子
で実現することができる。例えば、図３において、“強
い成功０”９０は、“０００”、“強い成功１”９１
は、“００１”、“弱い成功０”９２は、“０１０”、
“弱い成功１”９３は、“０１１”、“弱い失敗０”９
４は、“１００”、“弱い失敗１”９５は、“１０
１”、“強い失敗０”９６は、”１１０”、そして、
“強い失敗１”９７は、“１１１”で表現される。

【００８８】図２のフローチャートに示す、ブロック６
４における投機実行の成否予測は、参照したエントリ
が、上記８つの状態のいずれにあるかで決定がなされ
る。すなわち、エントリが、“強い成功０”、“強い成
功１”、“弱い成功０”、“弱い成功１”のいずれかに
ある場合は、投機実行が成功する可能性が高いと予測
し、ロード命令を投機的に実行する。

【００８９】一方、エントリが、“強い失敗０”、“強
い失敗１”、“弱い失敗０”、“弱い失敗１”のいずれ
かにある場合には、投機実行が失敗する可能性が高いと
予測し、ロード命令の投機実行を中止して、後にプログ
ラム順序で確定的に実行する。

【００９０】また、上記８状態間の状態遷移は、図２に
示したフローチャートのブロック６８，７１，７３，７
８，７９において、以下のように行う。まず、初期状態
において、すべてのエントリが任意の状態にある。今、
仮に、あるエントリが“弱い成功０”９２にあるとす
る。このとき、そのエントリに対応するアドレスを対象
とする投機的なロード命令を発行した場合、ブロック６
８において、エントリの状態を“弱い成功１”９３へ遷
移させる。

【００９１】この場合、ブロック６４の投機実行の成否
予測で、投機実行が成功すると予測されるため、実際に
ロード命令が投機実行されることになる（ブロック６
６）。それ以外の実行フローの場合、すなわち、ブロッ
ク７１，７３，７８，７９では、エントリの状態は遷移
しない。

【００９２】次に、エントリが、“弱い成功１”９３に
ある場合は、そのエントリに対応するアドレスを対象と
するストア命令を実行し、ロード命令の投機実行の失敗
が検出されなければ、ロード命令の投機実行が成功した
として、ブロック７８において、エントリの状態を“強
い成功０”９０へ遷移させる。

【００９３】一方、ロード命令の投機実行の失敗が検出
された場合、ロード命令の投機実行が失敗したとして、
ブロック７９において、エントリの状態を、“弱い失敗
０”９４へ遷移させる。上記以外の実行フローの場合、
すなわち、ブロック６８，７１，７３では、エントリの
状態は遷移しない。

【００９４】エントリが、“強い成功０”９０にあると
きには、そのエントリに対応するアドレスを対象とする
投機的なロード命令を発行した場合、ブロック６８にお
いて、エントリの状態を、“強い成功１”９１へ遷移さ
せる。この場合、ブロック６４の投機実行の成否予測
で、投機実行が成功すると予測されるため、実際にロー
ド命令が投機実行されることになる（ブロック６６）。
なお、それ以外の実行フローの場合、すなわち、ブロッ
ク７１，７３，７８，７９では、エントリの状態は遷移
しない。

【００９５】エントリが、“強い成功１”９１にある場
合には、そのエントリに対応するアドレスを対象とする
ストア命令を実行し、ロード命令の投機実行の失敗が検
出されなかった場合は、ロード命令の投機実行が成功し
たとして、ブロック７８において、エントリの状態は、
“強い成功０”９０へ遷移させる。

【００９６】他方、ロード命令の投機実行の失敗が検出
された場合は、ロード命令の投機実行が失敗したとし
て、ブロック７９において、エントリの状態を、“弱い
成功０”９２へ遷移させる。それ以外の実行フローの場
合、すなわち、ブロック６８，７１，７３では、エント
リの状態は遷移しない。

【００９７】エントリが、“弱い失敗０”９４にあると
きは、そのエントリに対応するアドレスを対象とする投
機的なロード命令を発行した場合、ブロック７１におい
て、エントリの状態を、“弱い失敗１”９５へ遷移させ
る。この場合、ブロック６４の投機実行の成否予測で、
投機実行が失敗すると予測されるため、実際にロード命
令が投機実行されることはない。上記以外の実行フロー
の場合、すなわち、ブロック６８，７３，７８，７９で
は、エントリの状態は遷移しない。

【００９８】エントリが、“弱い失敗１”９５にあると
きは、そのエントリに対応するアドレスを対象とするス
トア命令を実行した場合、ロード命令の投機実行は、失
敗する可能性が高いとして、ブロック７８、またはブロ
ック７９において、エントリの状態を、“強い失敗０”
９６へ遷移させる。この場合、ロード命令の投機実行
は、失敗する可能性が高いと判断するのは、“弱い失敗
０”９４から投機的なロードが発行されて、“弱い失敗
１”９５に遷移し、かつ、同アドレスのストア命令が実
行されたからである。

【００９９】実際は、ブロック６４において、投機実行
は失敗すると予測されるため、投機実行は中止され、確
定的に実行されるが、仮にロード命令を投機実行してい
たならば、その投機実行は失敗することになる。

【０１００】一方、エントリが、“弱い失敗１”９５に
あるとき、そのエントリに対応するアドレスを対象とす
る確定的なロード命令が発行された場合、ロード命令の
投機実行は、成功する可能性が高いとして、ブロック７
１において、エントリの状態を、“弱い成功０”９２へ
遷移させる。この場合、ロード命令の投機実行は、成功
する可能性が高いと判断する理由は、“弱い失敗０”９
４から投機的なロードが発行されて、“弱い失敗１”９
５に遷移し、かつ、同アドレスのストア命令が実行され
ずに、確定的なロード命令が発行されたからである。

【０１０１】この確定的なロード命令は、ブロック６４
において、投機実行が失敗すると予測されて、確定的に
実行されたロード命令と考えられ、かつ、その間に同ア
ドレスのストア命令が発行されなかったことから、仮
に、ロード命令を投機実行していたならば、その投機実
行は成功していたことになる。なお、上記以外の実行フ
ローの場合、すなわち、ブロック６８，７３では、エン
トリの状態は遷移しない。

【０１０２】次に、エントリが、“強い失敗０”９６に
あるときには、そのエントリに対応するアドレスを対象
とする投機的なロード命令を発行した場合、ブロック７
１において、エントリの状態を、“強い失敗１”９７へ
遷移させる。この場合、ブロック６４の投機実行の成否
予測で、投機実行が失敗すると予測されるため、実際に
ロード命令が投機実行されることはない。上記以外の実
行フローの場合、すなわち、ブロック６８，７３，７
８，７９では、エントリの状態は遷移しない。

【０１０３】エントリが、“強い失敗１”９７にあると
き、そのエントリに対応するアドレスを対象とするスト
ア命令を実行した場合、ロード命令の投機実行は、失敗
する可能性が高いとして、ブロック７８、またはブロッ
ク７９において、エントリの状態は、“強い失敗０”９
６へ遷移させる。この場合、ロード命令の投機実行は、
失敗する可能性が高いと判断する理由は、“強い失敗
０”９６から投機的なロードが発行されて、“強い失敗
１”９７に遷移し、かつ、同アドレスのストア命令が実
行されたからである。

【０１０４】実際には、ブロック６４において、投機実
行は失敗すると予測されるため、投機実行は中止され、
確定的に実行されるが、仮に、ロード命令を投機実行し
ていたならば、その投機実行は失敗することになる。

【０１０５】一方、エントリが、“強い失敗１”９７に
あるとき、そのエントリに対応するアドレスを対象とす
る、確定的なロード命令が発行された場合、ロード命令
の投機実行は、成功する可能性が高いとして、ブロック
７１において、エントリの状態を、“弱い失敗０”９４
へ遷移させる。この場合、ロード命令の投機実行は、成
功する可能性が高いと判断する理由は、“強い失敗０”
９６から投機的なロードが発行されて、“強い失敗１”
９７に遷移し、かつ、同アドレスのストア命令が実行さ
れずに、確定的なロード命令が発行されたからである。

【０１０６】この確定的なロード命令は、ブロック６４
において、投機実行が失敗すると予測されて、確定的に
実行されたロード命令と考えられ、かつ、その間に同ア
ドレスのストア命令が発行されなかったことから、仮
に、ロード命令を投機実行していたならば、その投機実
行は成功していたことになる。上記以外の実行フローの
場合、すなわち、ブロック６８，７９では、エントリの
状態は遷移しない。

【０１０７】以上、投機実行成否履歴テーブル１２の各
エントリ内容の状態遷移を説明したが、上述のように、
投機実行が成功する確率が高ければ、“強い失敗”、
“弱い失敗”から“弱い成功”、“強い成功”へ、ま
た、投機実行が失敗する確率が高ければ、“強い成
功”、“弱い成功”から“弱い失敗”、“強い失敗”へ
と遷移して行く。

【０１０８】ブロック６４における投機実行の成否予測
では、“弱い成功”、“強い成功”にあれば成功すると
予測して、ロード命令の投機実行するが、“強い失
敗”、“弱い失敗”にあれば失敗すると予測して、ロー
ド命令の投機実行を中止し、後に、プログラム順序で確
定的に実行する。すなわち、本実施の形態に係るデータ
依存投機制御装置１０では、失敗する確率の高い投機実
行は確定的に実行されるため、投機実行が失敗する確率
が低減し、プログラムの実行性能が向上する。

【０１０９】通常、メモリ操作命令が操作対象とするア
ドレス空間よりも、投機実行成否履歴テーブル１２のエ
ントリ数の方が、はるかに小さいため、ハッシュ関数回
路１１は、異なるアドレスを対象とする複数のメモリ操
作命令に対して、投機実行成否履歴テーブル１２の同一
のエントリ番号を割り当てる。すなわち、異なるアドレ
スを対象とする複数のメモリ操作命令に対して、投機実
行成否履歴テーブル１２の同一のエントリで、投機実行
の成否予測を行う場合がある。このような異なるアドレ
スを対象とする複数のメモリ操作命令が、投機実行成否
履歴テーブル１２の同一のエントリに割り当てられるこ
とを、“エイリアスが発生する”という。

【０１１０】かかるエイリアスが発生した場合、投機実
行の成否履歴の蓄積を適切に行えない場合があるので、
投機実行の成否予測の精度、すなわち、予測が的中する
確率が低下することがある。その場合でも、プログラム
の実行結果の正しさは保証される。そのため、プログラ
ムの意味上に問題は生じないが、予測精度の低下の分だ
け、投機実行によるプログラムの実行性能の向上が削減
される、という問題がある。

【０１１１】このようなことから、エイリアスは、なる
べく発生しない方が望ましい。エイリアスは、ハッシュ
関数回路１１のハッシュ関数を適切に選択したり、ある
いは、投機実行成否履歴テーブル１２のエントリを十
分、多く実装することにより、低減することが可能であ
る。

【０１１２】一方、エイリアスの発生を許容する利点と
して、投機実行の成否予測を行えるロード命令の数が、
投機実行成否履歴テーブル１２のエントリ数に制限され
ないことがある。このため、多くの場合、エイリアスの
発生を許容せず、投機実行の成否予測が可能なロード命
令数を制限するよりも、本実施の形態による投機実行の
成否予測の方が、投機実行による性能向上の効果が大き
い。

【０１１３】次に、本実施の形態１に係るデータ依存投
機制御装置の動作の具体例について説明する。なお、こ
こでは、投機実行成否履歴テーブル１２は、４つのエン
トリ、すなわち、エントリ０〜３から構成される。ハッ
シュ関数回路１１は、例えば、アドレスが８ビットで表
現されるとすると、図５の（ａ）に示すように、入力さ
れるアドレスの特定の２ビットを出力することで、実現
できる。あるいは、図５の（ｂ）に示すように、特定の
複数ビットの排他的論理和を演算した結果を出力するよ
うにしてもよい。

【０１１４】図４を参照して、データ依存投機制御装置
１０の具体的な動作例を説明する。まず、図４の（ａ）
は、プログラム例における命令プログラム順序を示す。
このプログラム順序は、ストア命令ＳＴ１、ロード命令
ＬＤ１、ロード・ストア命令以外の命令、ロード命令Ｌ
Ｄ２の順序で発行される命令列が繰り返される、ループ
構造を持つプログラムにおいて典型的なものである。図
４の（ａ）には、ループ０〜２の連続する３つのループ
に含まれる命令列のみを示す。

【０１１５】ここで、ＳＴ１の対象アドレスはＡ１、Ｌ
Ｄ１の対象アドレスはＡ２、ＬＤ２の対象アドレスはＡ
１’である。Ａ１とＡ１’が等しいとすると、プログラ
ム順序で、ＳＴ１の方が前にあるため、ＳＴ１からＬＤ
２には、正依存関係が存在する。すなわち、実行時にお
いて、ＬＤ２よりもＳＴ１が先に実行されて、ＳＴ１が
アドレスＡ１に書き込みを行った結果を、ＬＤ２がアド
レスＡ１’（＝Ａ１）から読み出しを行わなければ、プ
ログラムの実行結果の正しさは保証されない。

【０１１６】プロセッサがデータ依存投機実行状態にあ
る場合、ストア命令からロード命令への正依存関係の有
無が不明であっても、実行可能になった命令から実行さ
れる。図４の（ｂ）は、データ依存投機実行状態におけ
る、図４の（ａ）に示すプログラム順序の命令列のデー
タ依存投機実行による、非プログラム順序実行例であ
る。同図において、左から順に、サイクル番号、そのサ
イクルの実行命令、その実行命令の対象アドレスを示
す。ここで、ＳＴ１の対象アドレスＡ１は、４サイクル
目まで判明しないと想定する。また、ＬＤ１の対象アド
レスＡ２、およびＬＤ２の対象アドレスＡ１’は、１サ
イクル目で判明すると想定する。

【０１１７】図４の（ｃ）は、図４の（ｂ）に示す命令
実行順序に対する、投機実行成否履歴テーブル１２の動
作を示している。同図において、左から順に、サイクル
番号、そのサイクルに実行されたメモリ命令が参照する
投機実行成否履歴テーブル１２のエントリ番号、そのサ
イクルの投機実行成否履歴テーブル１２の状態を示す。
投機実行成否履歴テーブル１２の状態については、４つ
のエントリを、右から順に、エントリ０、エントリ１、
エントリ２、エントリ３の内容を示している。

【０１１８】例えば、ループ０の１サイクル目におい
て、エントリ０の内容は、“１００”（弱い失敗０）、
エントリ１の内容は“０００”（強い成功０）、エント
リ２の内容は“０１０”（弱い成功０）、エントリ３の
内容は“０００”（強い成功０）である。

【０１１９】ループ０の１サイクル目では、ＳＴ１の発
行順であるが、その対象アドレスＡ１が判明していない
ため、対象アドレスＡ２が判明している、次のＬＤ１
を、非プログラム順序で投機実行することを試みる。ま
ず、投機実行に先立ち、データ依存投機制御装置１０に
より、投機実行の成否予測を行う（図２のブロック６
４）。より詳細には、まず、ＬＤ１のアドレスＡ２を、
ハッシュ関数回路１１により、投機実行成否履歴テーブ
ル１２のエントリ番号に変換する。ここで、エントリ番
号０に変換されたとすると、次に、投機実行成否履歴テ
ーブル１２より、エントリ０に格納されている成否予測
履歴“１００”（弱い失敗０）が読み出される。

【０１２０】従って、投機実行が失敗することが予測さ
れるので、ＬＤ１の投機実行は中止され、後に、プログ
ラム順序で確定的に実行される（図２のブロック７
０）。また、投機実行成否履歴テーブル１２のエントリ
０は、“１０１”（弱い失敗１）に遷移する（図２のブ
ロック７１）。

【０１２１】ループ０の２サイクル目では、いまだ、Ｓ
Ｔ１は実行できないので、ＬＤ１の次のメモリ操作命令
以外の命令を実行する。データ依存投機制御装置１０
は、何ら動作を行わない。次に、ループ０の３サイクル
目では、いまだ、ＳＴ１は実行できないので、対象アド
レスＡ１’が判明しているＬＤ２を、非プログラム順序
で投機実行することを試みる。

【０１２２】まず、投機実行に先立ち、データ依存投機
制御装置１０により、投機実行の成否予測を行う（図２
のブロック６４）。より詳細には、ＬＤ２のアドレスＡ
１’を、ハッシュ関数回路１１により、投機実行成否履
歴テーブル１２のエントリ番号に変換する。ここで、エ
ントリ番号２に変換されたとすると、次に、投機実行成
否履歴テーブル１２より、エントリ２に格納されている
成否予測履歴“０１０”（弱い成功０）が読み出され
る。

【０１２３】従って、投機実行が成功することが予測さ
れるので、ＬＤ２は投機的に実行される（図２のブロッ
ク６６）。投機実行成否履歴テーブル１２のエントリ２
は、“０１１”（弱い成功１）へ遷移する（図２のブロ
ック６８）。

【０１２４】次に、ループ０の４サイクル目では、ＳＴ
１の対象アドレスＡ１が判明するので、ＳＴ１を実行す
る。その際、データ依存関係検出装置３０により、それ
まで、データ依存関係に対して投機的に実行されたロー
ド命令の成否を判定する（図２のブロック７５）。この
場合、ＳＴ１からＬＤ２へ、正依存関係が存在している
にも関わらず、ＳＴ１よりもＬＤ２を先に実行してしま
ったため、ＬＤ２の投機実行は、失敗している。

【０１２５】すなわち、ＬＤ２は、アドレスＡ１’（＝
Ａ１）から、ＳＴ１が、アドレスＡ１に書き込みを行っ
た値ではなく、ＳＴ１が書き込みを行う以前の値を読み
出してしまうため、プログラムの正しい実行結果を得る
ことが保証されないことになる。データ依存投機制御装
置３０は、このデータ依存投機実行の失敗を検出し、プ
ロセッサ制御部２０へ通知する機能を担う。

【０１２６】その通知により、プロセッサ制御部２０
は、正しいプログラムの実行結果が得られるように、デ
ータ依存投機実行した命令の再実行など、データ依存投
機実行の失敗による回復処理を行う。具体的には、１サ
イクル目から４サイクル目までに実行された、ＬＤ１、
メモリ操作命令以外の命令、ＬＤ２、ＳＴ１の実行結果
を取り消し、６サイクル目から、今度は、プログラム順
序で確定的にそれら取り消した命令を再実行する。すな
わち、６サイクル目にＳＴ１、７サイクル目にＬＤ１、
８サイクル目にメモリ操作命令以外の命令、９サイクル
目にＬＤ２を確定的に再実行する。

【０１２７】一方、データ依存投機制御装置１０におい
ては、４サイクル目に、ＳＴ１により投機実行の失敗が
検出されたため、投機実行成否履歴テーブル１２のエン
トリ２を、“０１１”（弱い成功１）から“１００”
（弱い失敗０）へ遷移させる（図２のブロック７９）。
６サイクル目から９サイクル目の確定的に命令実行され
るサイクルでは、データ依存投機制御装置１０は、何ら
動作を行わず、投機実行成否履歴テーブル１２も、参照
および更新されない。

【０１２８】以上、ループ０における命令実行、および
データ依存投機制御装置１０の動作について説明した。
ＬＤ２の投機実行の成否予測は、成功を予測したのに対
して、実際には、投機実行は失敗し、投機実行失敗によ
る回復処理の実行が必要となった。このため、ループ０
においては、ＳＴ１，ＬＤ１、メモリ操作命令以外の命
令、ＬＤ２の４命令の実行に、９サイクルを要した。

【０１２９】次に、ループ０に続く、ループ１での動作
を説明する。ここでも、ループ０の実行時と同様に、Ｓ
Ｔ１の対象アドレスＡ１は、４サイクル目まで判明しな
いと想定する。また、ＬＤ１の対象アドレスＡ２、およ
びＬＤ２の対象アドレスＡ１’は、１サイクル目で判明
すると想定する。

【０１３０】ループ１の１サイクル目では、ＳＴ１の発
行順であるが、その対象アドレスＡ１が判明していない
ため、対象アドレスＡ２が判明している次のＬＤ１を、
非プログラム順序で投機実行することを試みる。まず、
投機実行に先立ち、データ依存投機制御装置１０によ
り、投機実行の成否予測を行う（図２のブロック６
４）。投機実行成否履歴テーブル１２のエントリ０から
は、“１０１”（弱い失敗１）が読み出されるので、投
機実行が失敗することが予測される。

【０１３１】従って、ＬＤ１の投機実行は中止され、後
に、プログラム順序で確定的に実行される（図２のブロ
ック７０）。この場合、投機実行成否履歴テーブル１２
のエントリ０の状態は遷移しない（図２のブロック７
１）。

【０１３２】ループ１の２サイクル目では、いまだ、Ｓ
Ｔ１は実行できないので、ＬＤ１の次のメモリ操作命令
以外の命令を実行する。データ依存投機制御装置１０
は、何ら動作を行わない。次に、ループ１の３サイクル
目では、いまだ、ＳＴ１は実行できないので、対象アド
レスＡ１’が判明しているＬＤ２を、非プログラム順序
で投機実行することを試みる。

【０１３３】まず、投機実行に先立ち、データ依存投機
制御装置１０により、投機実行の成否予測を行う（図２
のブロック６４）。投機実行成否履歴テーブル１２のエ
ントリ２からは、“１００”（弱い失敗０）が読み出さ
れるので、投機実行は、失敗することが予測される。従
って、ＬＤ２の投機実行は中止され、後に、プログラム
順序で確定的に実行される（図２のブロック７０）。ま
た、投機実行成否履歴テーブル１２のエントリ２は、
“１０１”（弱い失敗１）に遷移する（図２のブロック
７１）。

【０１３４】ループ１の４サイクル目では、ＳＴ１の対
象アドレスＡ１が判明するので、ＳＴ１を実行する。そ
の際、データ依存関係検出装置３０により、それまでデ
ータ依存関係に対して投機的に実行されたロード命令の
成否を判定する（図２のブロック７５）。この場合、Ｓ
Ｔ１からＬＤ２へ、正依存関係が存在しているが、ＬＤ
２は、３サイクル目において、投機実行が失敗すること
が予測されたため、投機実行が中止されている。

【０１３５】このため、ＳＴ１に関して、投機実行が失
敗したロード命令は存在せず、ＳＴ１は、確定的に実行
される（図２のブロック７７）。また、ストア命令が実
行されたため、投機実行成否履歴テーブル１２のエント
リ２は、“１０１”（弱い失敗１）から“１１０”（強
い失敗０）へ遷移する（図２のブロック７８）。

【０１３６】ループ１の５サイクル目では、１サイクル
目に投機実行が中止されたＬＤ１が、ＳＴ１に対してプ
ログラム順序で、かつ、確定的に実行される。また、投
機実行成否履歴テーブル１２のエントリ０は、“１０
１”（弱い失敗１）から“０１０”（弱い成功０）へ遷
移する（図２のブロック７３）。次に、ループ１の６サ
イクル目では、３サイクル目に投機実行が中止されたＬ
Ｄ２が、ＳＴ１に対してプログラム順序で、かつ、確定
的に実行される。投機実行成否履歴テーブル１２のエン
トリ２は、“１１０”（強い失敗０）のままである（図
２のブロック７３）。

【０１３７】以上が、ループ１における命令実行、およ
びデータ依存投機制御装置１０の動作説明である。ここ
では、ループ０の場合と異なり、ＬＤ２の投機実行の成
否予測は、正しく失敗を予測したため、ＬＤ２の投機実
行失敗が回避された。このため、ループ０においては、
ＳＴ１，ＬＤ１、メモリ操作命令以外の命令、ＬＤ２の
４命令の実行は、６サイクルに改善された。

【０１３８】次に、ループ１に続くループ２における動
作を説明する。ループ０、ループ１の実行時と同様、Ｓ
Ｔ１の対象アドレスＡ１は、４サイクル目まで判明せ
ず、一方、ＬＤ１の対象アドレスＡ２、およびＬＤ２の
対象アドレスＡ１’は、１サイクル目で判明すると想定
する。

【０１３９】ループ２の１サイクル目では、ＳＴ１の発
行順であるが、その対象アドレスＡ１が判明していない
ため、対象アドレスＡ２が判明している、次のＬＤ１
を、非プログラム順序で投機実行することを試みる。ま
ず、投機実行に先立ち、データ依存投機制御装置１０に
より、投機実行の成否予測を行う（図２のブロック６
４）。投機実行成否履歴テーブル１２のエントリ０から
は、“０１０”（弱い成功０）が読み出されるので、投
機実行が成功することが予測される。

【０１４０】従って、ＬＤ１は、投機的に実行される
（図２のブロック６６）。投機実行成否履歴テーブル１
２のエントリ０は、“０１１”（弱い成功１）に遷移す
る（図２のブロック６８）。

【０１４１】ループ２の２サイクル目では、いまだ、Ｓ
Ｔ１は実行できないので、ＬＤ１の次のメモリ操作命令
以外の命令を実行する。データ依存投機制御装置１０
は、何ら動作を行わない。次に、ループ２の３サイクル
目では、いまだ、ＳＴ１は実行できないので、対象アド
レスＡ１’が判明しているＬＤ２を、非プログラム順序
で投機実行することを試みる。

【０１４２】まず、投機実行に先立ち、データ依存投機
制御装置１０により、投機実行の成否予測を行う（図２
のブロック６４）。投機実行成否履歴テーブル１２のエ
ントリ２からは、“１１０”（強い失敗０）が読み出さ
れるので、投機実行が失敗することが予測される。従っ
て、ＬＤ２の投機実行は中止され、後に、プログラム順
序で、確定的に実行される（図２のブロック７０）。ま
た、投機実行成否履歴テーブル１２のエントリ２は、
“１１１”（強い失敗１）に遷移する（図２のブロック
７１）。

【０１４３】ループ２の４サイクル目では、ＳＴ１の対
象アドレスＡ１が判明するので、ＳＴ１を実行する。そ
の際、データ依存関係検出装置３０により、それまで、
データ依存関係に対して投機的に実行されたロード命令
の成否を判定する（図２のブロック７５）。この場合、
ＳＴ１からＬＤ２へ、正依存関係が存在しているが、Ｌ
Ｄ２は、３サイクル目において、投機実行が失敗するこ
とが予測されたため、投機実行が中止されている。

【０１４４】このため、ＳＴ１に関して、投機実行が失
敗したロード命令は存在せず、ＳＴ１は、確定的に実行
される（図２のブロック７７）。また、ストア命令が実
行されたため、投機実行成否履歴テーブル１２のエント
リ２は、“１１１”（強い失敗１）から“１１０”（強
い失敗０）へ遷移する（図２のブロック７８）。

【０１４５】次に、ループ２の５サイクル目では、３サ
イクル目に投機実行が中止されたＬＤ２が、ＳＴ１に対
してプログラム順序で、かつ、確定的に実行される。投
機実行成否履歴テーブル１２のエントリ２は、“１１
０”（強い失敗０）のままである（図２のブロック７
３）。

【０１４６】以上、ループ２における命令実行、および
データ依存投機制御装置１０の動作について説明した。
ここでも、ループ１の場合と同様に、ＬＤ２の投機実行
の成否予測は、正しく失敗を予測したため、ＬＤ２の投
機実行失敗が回避された。さらに、ループ１の場合とは
異なり、ＬＤ１の投機実行の成否予測は、正しく成功を
予測したため、ＬＤ１は、投機的に実行し、かつ、成功
した。

【０１４７】このため、ループ２においては、ＳＴ１，
ＬＤ１、メモリ操作命令以外の命令、ＬＤ２の４命令の
実行は、５サイクルに改善された。また、この例の場
合、５サイクルが最小の実行サイクル数である。

【０１４８】以上説明したように、本実施の形態によれ
ば、データ依存投機制御装置１０は、投機実行が失敗す
ると予測されるロード命令は、投機実行を行わず、プロ
グラム順序で確定的に実行する。その結果、投機実行が
失敗する確率が低減され、プログラムの実行性能を向上
できる。

【０１４９】すなわち、データ依存投機制御装置１０
は、過去における投機実行の成否結果の履歴を参照し
て、投機実行の成否を予測し、成功すると予測した場合
には、投機的に実行を行うが、失敗すると予測した場
合、投機実行を中止し、後に、プログラム順序で確定的
に実行する。よって、このデータ依存投機制御装置１０
によれば、失敗する確率の高い投機実行は確定的に実行
されるため、投機実行が失敗する確率が低減され、プロ
グラムの実行性能を向上することができるという効果を
得ることができる。上記の具体例では、ループ０からル
ープ２へループを繰り返すのに伴って、４命令の実行サ
イクルが、９サイクルから５サイクルに改善された。

【０１５０】さらに、本実施の形態１に係るデータ依存
投機制御装置１０に特徴的なのは、投機実行の成否予測
を行うに際して、ロード・ストア命令の対象アドレスに
関して、エイリアスの存在を許容することで、対象アド
レスそのものを、すべて記憶する必要をなくしたことで
ある。これにより、投機実行の成否予測が可能なロード
命令数に制限がなく、必要なハードウエア量も小さく、
少ないハードウエア量でも、データ依存投機実行による
実行性能の向上を享受することができる。

【０１５１】また、投機実行の成否予測を行うに際し
て、ロード・ストア命令間の対象アドレスの比較を必要
とせず、参照される投機実行成否履歴テーブル１２のエ
ントリは、高々１つなので、投機実行の成否予測の処理
時間が短いという特徴がある。このため、プロセッサの
動作周波数を高速化することが容易になる。

【０１５２】［実施の形態２］以下、本発明の実施の形
態２について、図面を参照して詳細に説明する。図６
は、本発明の実施の形態２に係るデータ依存投機制御装
置の構成を示すブロック図である。このデータ依存投機
制御装置は、マルチプロセッサシステムにより実行され
るスレッド並列処理のデータ依存投機実行において、デ
ータ依存投機実行の制御手段を提供する。

【０１５３】ここで、スレッド並列処理とは、単一のプ
ログラム、あるいは複数のプログラムを、スレッドと呼
ぶ複数のプログラムの部分単位に分割し、それぞれのス
レッドを、複数のプロセッサなどで並列に処理すること
で、プログラムの実行を高速化する、プログラム処理の
高速化方法の一つである。

【０１５４】スレッドは、プログラムの一部分単位であ
り、複数の命令からなる命令列なので、複数のスレッド
間で、順序関係が定義される場合がある。例えば、同一
のプログラムに属する２つのスレッドを、それぞれＴ
０，Ｔ１としたとき、Ｔ０とＴ１の間には、そのプログ
ラム中の位置関係により、明確に順序関係が存在する。
仮に、プログラムにおいて、Ｔ０がＴ１よりも前に位置
しているならば、プログラムの意味上、Ｔ０がＴ１より
も前に実行されることを期待されていることになる。

【０１５５】逆に、プログラムにおいて、Ｔ１がＴ０よ
りも前に位置しているならば、プログラムの意味上、Ｔ
１がＴ０よりも前に実行されることを期待されているこ
とになる。しかし、Ｔ０、およびＴ１に含まれる命令間
に依存関係が存在しない場合、Ｔ０とＴ１間の順序関係
を無視した順序で実行しても、プログラムの意味は変わ
らない。そのため、正しいプログラムの実行結果を得る
ことができる。

【０１５６】スレッド並列処理では、上述した性質を利
用して、プログラムの正しい実行結果を保証しつつ、ス
レッド間の順序関係によらずに、スレッドの実行を並列
に行うことで、プログラム実行を高速化する。命令単位
の非プログラム順序実行と対比して、スレッド単位の非
プログラム順序実行と位置づけられる。

【０１５７】スレッド単位の非プログラム順序実行にお
いても、正しいプログラムの実行結果を得るためには、
スレッドが含む命令間の依存関係の解消や保証が必要で
ある。しかしながら、命令単位の非プログラム順序実行
と同様に、特にメモリに関する正依存関係に対しては、
本質的にプログラム順序で実行する必要があり、かつ、
確定的にプログラム順序実行すると、非プログラム順序
実行の実行性能向上の効果が十分、得られないという問
題がある。

【０１５８】特に、スレッド単位の非プログラム順序実
行では、複数の命令からなるスレッド単位で、非プログ
ラム順序実行が妨げられるので、より問題は深刻であ
る。そこで、この問題への対応としては、命令単位の非
プログラム順序実行と同様に、データ依存投機実行が有
効である。すわなち、スレッドが含む命令間の正依存関
係の有無が判明するよりも以前に、正依存関係が存在し
ないと仮定して、投機的にスレッドの非プログラム順序
実行を行う、スレッド単位のデータ依存投機実行であ
る。

【０１５９】スレッド単位のデータ依存投機実行を実現
するためには、順序関係が存在するスレッド対に関し
て、順序が前のスレッドが含むストア命令から、順序が
後のスレッドが含むロード命令への正依存関係を検出す
る機能を必要とする。本実施の形態２におけるデータ依
存関係検出装置は、このスレッド間の正依存関係を検出
する機能を有する。

【０１６０】一方、スレッド単位のデータ依存投機実行
においても、データ依存投機実行が失敗する確率が高い
場合、データ依存投機実行失敗の回復処理のために、プ
ログラムの実行性能が低下してしまう、という問題があ
る。

【０１６１】そこで、本実施の形態２におけるデータ依
存投機制御装置は、スレッド単位のデータ依存投機実行
に際し、過去における命令についての、投機実行の予測
結果の履歴を参照して、投機実行の成否を予測する。そ
して、成功すると予測した場合には、投機的に命令を実
行するが、失敗すると予測した場合、投機実行を中止
し、後に、プログラム順序で、確定的に命令実行する。

【０１６２】すなわち、本実施の形態２におけるデータ
依存投機制御装置によれば、マルチプロセッサシステム
におけるスレッド並列処理において、失敗する確率の高
い命令の投機実行は、確定的に実行される。そのため、
投機実行が失敗する確率が低減し、プログラムの実行性
能を向上させることができる。

【０１６３】そこで、図６を参照して、本実施の形態２
におけるデータ依存投機制御装置の構成を説明する。図
６に示すデータ依存投機制御装置は、４つのプロセッ
サ、すなわち、プロセッサ５０，５１，５２，５３、ス
レッド制御部５４、および、データ依存投機制御装置５
５により構成されるマルチプロセッサ構成を有する。な
お、プロセッサ５０〜５３の構成は、すべて同一である
ため、図６では、プロセッサ５１，５２，５３の内部構
成は、その図示を省略している。

【０１６４】スレッド制御部５４は、プロセッサ５０〜
５３各々が実行するスレッドの割り当てや、スレッド間
の順序関係の通知、スレッドのデータ依存投機実行が失
敗した場合の回復処理の指示など、スレッド並列処理、
およびデータ依存投機実行の制御を行う。そして、プロ
セッサ５０〜５３は、データ依存関係検出装置５７、プ
ロセッサ制御部５６、および、命令実行部２１を含む。

【０１６５】本実施の形態２では、スレッド単位の投機
実行は行うが、スレッド内のスレッドを構成する命令単
位での投機実行を行わないものとする。そのため、デー
タ依存関係検出装置５７は、スレッド間の正依存関係を
検出する機能を備えるが、スレッド内のスレッドを構成
する命令間の正依存関係を検出する機能は備えていな
い。また、データ依存投機制御装置５５は、４つのプロ
セッサ５０〜５３で共有され、各プロセッサのスレッド
単位の投機実行の制御を行う。

【０１６６】プログラムをプロセッサ５０〜５３により
スレッド並列処理するにあたり、スレッド制御部５４
は、プロセッサ５０〜５３各々が実行すべきスレッドの
割り当てを行う。また、プロセッサ５０〜５３それぞれ
に、そのスレッド実行は、データ依存投機実行か否かを
示す投機実行フラグ４０や、他の３つのプロセッサが実
行するスレッドとの順序関係を示すスレッド順序４１を
出力する。加えて、スレッド制御部５４は、各プロセッ
サへ出力する投機実行フラグ４０を、データ依存投機制
御装置５５にも出力する。

【０１６７】各プロセッサが、スレッド制御部５４より
割り当てられたスレッドを実行する場合、各プロセッサ
のプロセッサ制御部５６は、実行する命令の種別を、実
行命令４５を通じて、命令実行部２１、データ依存関係
検出装置５７、他の３つのプロセッサ、および、データ
依存投機制御装置５５に出力する。

【０１６８】さらに、実行する命令がメモリ操作命令の
場合、プロセッサ制御部５６は、その対象アドレス４６
を、命令実行部２１、データ依存関係検出装置５７、他
の３つのプロセッサ、および、データ依存投機制御装置
５５に出力する。従って、各プロセッサが備えるデータ
依存関係検出装置５７は、それぞれのプロセッサが実行
する命令種別、および、他の３つのプロセッサが実行す
る命令種別を実行命令４５から入力する。

【０１６９】さらに、それら実行命令がメモリ操作命令
の場合、その対象アドレスを、それぞれ対象アドレス４
６から入力する。同時に、データ依存投機制御装置５５
は、各４つのプロセッサ５０〜５３が実行する命令種別
をそれぞれ、実行命令４５から入力する。それらの実行
命令がメモリ操作命令の場合、その対象アドレスをそれ
ぞれ対象アドレス４６から入力する。

【０１７０】例えば、プロセッサ５０が、スレッド制御
部５４より割り当てられたスレッドを実行する際、プロ
セッサ５０のプロセッサ制御部５６は、実行命令４５を
通じて実行する命令の種別を、プロセッサ５０の命令実
行部２１、およびデータ依存関係検出装置５７に加え
て、他の３つのプロセッサ（プロセッサ５１、プロセッ
サ５２、プロセッサ５３）、および、データ依存投機制
御装置５５に出力する。

【０１７１】同時に、プロセッサ５０のデータ依存関係
検出装置５７は、他の３つのプロセッサ（プロセッサ５
１、プロセッサ５２、プロセッサ５３）が実行する命令
種別を、実行命令４５を通じて、それぞれ入力する。さ
らに、実行する命令がメモリ操作命令の場合、プロセッ
サ５０のプロセッサ制御部５６は、その対象アドレス
を、対象アドレス４６を通じて、プロセッサ５０の命令
実行部２１、およびデータ依存関係検出装置５７に加え
て、他の３つのプロセッサ、および、データ依存投機制
御装置５５に出力する。

【０１７２】同時に、他の３つのプロセッサが実行する
命令が、メモリ操作命令の場合、プロセッサ５０のデー
タ依存関係検出装置５７は、その対象アドレスを、対象
アドレス４６を通じて、それぞれ入力する。

【０１７３】各プロセッサが備えるデータ依存関係検出
装置５７は、各プロセッサが実行するスレッドの順序関
係に基づいて、他の３つのプロセッサが実行するスレッ
ドの中で、自プロセッサが実行するスレッドよりも順序
が前のスレッドが含むストア命令から、自プロセッサが
実行するスレッドが含むロード命令への、正依存関係を
検出する機能を備える。

【０１７４】図７は、図６のデータ依存関係検出装置５
７の一構成を示すブロック図である。同図において、本
データ依存関係検出装置５７が入力する実行命令４５の
うち、自プロセッサのプロセッサ制御部５６から入力さ
れるものを実行命令４５ａ、他の３つのプロセッサから
入力されるものを実行命令４５ｂと表記している。同様
に、データ依存関係検出装置５７が入力する対象アドレ
ス４６のうち、自プロセッサのプロセッサ制御部５６か
ら入力されるものを対象アドレス４６ａ、他の３つのプ
ロセッサから入力されるものを対象アドレス４６ｂと表
記している。

【０１７５】データ依存関係検出装置５７は、自プロセ
ッサが実行したロード命令の対象アドレスを格納する複
数のアドレスバッファ３１、３つのアドレス一致検出回
路３５、および、先行スレッド選択回路３４から構成さ
れる。アドレス一致検出回路３５は、さらに、各々のア
ドレスバッファ３１に接続された複数のアドレス比較器
３２、すべてのアドレス比較器３２の出力をその入力と
する論理和回路３３から構成される。このアドレス一致
検出回路３５は、各アドレスバッファ３１に格納され
た、自プロセッサが実行したロード命令の対象アドレス
と、他のプロセッサが実行中のストア命令の対象アドレ
スとの比較を行う。

【０１７６】自プロセッサ以外の、他の３つのプロセッ
サが同時にアドレス比較を実行可能とするため、データ
依存関係検出装置５７は、３つのアドレス一致検出回路
３５を備える。先行スレッド選択回路３４は、３つのア
ドレス一致検出回路３５の出力、他の３つのプロセッサ
からの実行命令４５ｂ、スレッド制御部５４からの投機
実行フラグ４０、スレッド順序４１を参照する。そし
て、他の３つのプロセッサが実行するスレッドの中で、
自プロセッサが実行するスレッドよりも順序が前のスレ
ッドが含むストア命令から、自プロセッサが実行するス
レッドが含むロード命令への正依存関係の検出結果を選
択し、それをデータ依存検出結果４９として、スレッド
制御部５４へ出力する。

【０１７７】データ依存関係検出装置５７による、他の
プロセッサが実行する先行するスレッドが含むストア命
令から、自プロセッサが実行するスレッドが含むロード
命令へのメモリに関する正依存関係（以下、スレッド間
の正依存関係と表記する）の検出は、以下に示す動作で
実現される。

【０１７８】まず、各プロセッサが、スレッド間のデー
タ依存関係に対して、プログラム順序で確定的に命令実
行する場合、データ依存関係検出装置５７は、何ら動作
を行わない。それに対して、各プロセッサが、スレッド
間のデータ依存関係に対して、投機的な命令実行をする
場合、データ依存関係検出装置５７は、スレッド間の正
依存関係の検出処理を行う。各プロセッサが、スレッド
実行に関して、確定実行状態、または投機実行状態のど
ちらにあるかは、スレッド制御部５４から各プロセッサ
のデータ依存関係検出装置５７に入力される投機実行フ
ラグ４０で判断する。

【０１７９】まず、投機実行状態において、自プロセッ
サがロード命令を実行した場合、その対象アドレスを、
これまでロード命令の対象アドレスが格納されていな
い、空いているアドレスバッファ３１に格納していく。
一方、他のプロセッサで、メモリ操作命令が実行される
と、その対象アドレスは、プロセッサ毎に別のアドレス
一致検出回路３５それぞれに入力される。

【０１８０】各アドレス一致検出回路３５では、入力さ
れた前記対象アドレスが、すべてのアドレス比較器３２
に入力され、アドレスバッファ３１に格納されている、
自プロセッサで、それ以前に実行されたロード命令の対
象アドレスと比較される。アドレス比較器３２から出力
された比較結果は、すべて、論理和回路３３により論理
和をとり、その結果を先行スレッド選択回路３４へ出力
する。

【０１８１】先行スレッド選択回路３４は、自プロセッ
サが投機実行状態にあり、かつ、自プロセッサが実行す
るスレッドよりも先行するスレッドを実行する他のプロ
セッサでストア命令が実行され、かつ、そのストア命令
の対象アドレスを入力するアドレス一致検出回路３５
で、アドレスの一致が検出された場合、データ依存が検
出されたとして、データ依存検出結果４９を通じて、そ
の旨をスレッド制御部５４へ出力する。この場合、スレ
ッド投機実行が失敗したとして、スレッド制御部５４
は、スレッド投機実行が失敗したことによる回復処理の
制御を開始する。

【０１８２】一方、先行スレッド選択回路３４は、自プ
ロセッサが投機実行状態にあり、かつ、自プロセッサが
実行するスレッドよりも先行するスレッドを実行する他
のプロセッサでストア命令が実行され、かつ、そのスト
ア命令の対象アドレスを入力するアドレス一致検出回路
３５で、アドレスの一致が検出されなかった場合、デー
タ依存が検出されなかったとして、データ依存検出結果
４９を通じて、その旨をスレッド制御部５４へ出力す
る。この場合、スレッド投機実行が成功したとして、そ
のまま、スレッド実行を継続することができる。

【０１８３】スレッド制御部５４は、プロセッサ５０〜
５３のいずれかより、データ依存投機実行の失敗の通知
を受け取ると、その失敗通知を出力したプロセッサ、お
よび、その失敗通知を出力したプロセッサが実行してい
たスレッドよりも、プログラム順序で後に位置するスレ
ッドを実行しているプロセッサに対して、データ依存投
機実行の失敗による回復処理の実行要求を出力する。デ
ータ依存投機実行の失敗による回復処理の実行要求の出
力対象となった各プロセッサでは、データ依存投機実行
の失敗による回復処理の実行要求が、回復処理実行要求
４７を通じて、プロセッサ制御部５６に通知される。

【０１８４】データ依存投機実行の失敗を通知したプロ
セッサだけではなく、データ依存投機実行を失敗したス
レッドよりプログラム順序が後のスレッドを実行してい
るプロセッサに対しても、データ依存投機実行の失敗に
よる回復処理の実行を要求するのは、以下の理由によ
る。

【０１８５】すなわち、データ依存投機実行の失敗を通
知したプロセッサは、正依存関係に違反して、ロード命
令をデータ依存投機実行した可能性がある。そのため、
データ依存投機実行の失敗を通知したプロセッサが実行
していた、データ依存投機実行に失敗したスレッドの実
行結果は、正しくない可能性がある。従って、データ依
存投機実行に失敗したスレッドの実行結果を参照してい
る可能性のある、それよりもプログラム順序で後に位置
するスレッドの実行結果もまた、正しくない可能性があ
る。

【０１８６】同様に、データ依存投機実行に失敗したス
レッドの実行結果を参照している可能性のある上記スレ
ッドの実行結果を参照している可能性のある、それより
も、さらにプログラム順序で後に位置するスレッドの実
行結果もまた、正しくない可能性がある。

【０１８７】すなわち、データ依存投機実行の失敗を通
知したプロセッサが実行していたスレッドよりも、プロ
グラム順序が後に位置するすべてのスレッドの実行結果
は正しくない可能性がある。このため、データ依存投機
実行の失敗を通知したプロセッサだけでなく、データ依
存投機実行に失敗したスレッドよりプログラム順序が後
のスレッドを実行しているプロセッサに対しても、デー
タ依存投機実行の失敗による回復処理の実行を要求し、
スレッドの実行結果の正しさを保証する。

【０１８８】一方、投機実行の失敗による回復処理の実
行要求の対象になったプロセッサでは、投機実行を行っ
たスレッドの再実行するなど、データ依存投機実行の失
敗による回復処理を実行することで、スレッドの実行結
果の正しさを保証する。

【０１８９】上述したように、各プロセッサが備えるデ
ータ依存関係検出装置５７は、自プロセッサが実行する
スレッドよりプログラム順序で先行するスレッドに含ま
れるストア命令から、自プロセッサが実行するスレッド
に含まれるロード命令への正依存関係を検出する機能を
有する。この機能は、データ依存関係検出装置５７が、
自プロセッサがロード命令をデータ依存投機実行する際
に書き込みを行うポートを備えるとともに、他のプロセ
ッサがストア命令を実行する際に読み出し、およびアド
レス比較を行う複数のポートを備えることで実現され
る。そして、この機能により、スレッド並列処理におい
て、スレッド単位のデータ依存投機実行の実現を可能と
することで、スレッド単位の並列実行による、プログラ
ム実行のさらなる高速化が可能となる。

【０１９０】データ依存投機制御装置５５は、スレッド
単位のデータ依存投機実行において、ロード命令を投機
的に実行するに際し、過去のスレッドの投機実行の成否
結果の履歴を参照して、投機実行の成否を予測し、成功
すると予測した場合には、投機的にスレッドを実行す
る。しかし、失敗すると予測した場合には、投機実行を
中止し、後に、プログラム順序で確定的にスレッド実行
するよう制御を行う機能を提供する。

【０１９１】データ依存投機制御装置５５は、図６に示
すように、４つのハッシュ関数回路５９、投機実行成否
履歴テーブル５８から構成される。また、４つのプロセ
ッサ５０〜５３からの入力として、これら４つのプロセ
ッサ５０〜５３それぞれに対応する４つの実行命令４
５、対象アドレス４６、および、データ依存検出結果４
９を入力する。

【０１９２】データ依存投機制御装置５５は、スレッド
制御部５４からの入力として、４つのプロセッサ５０〜
５３それぞれに対応する４つの投機実行フラグ４０を入
力する。さらに、４つのプロセッサ５０〜５３への出力
として、４つのプロセッサ５０〜５３それぞれに対応す
る４つのデータ投機実行成否予測結果４８を出力する。

【０１９３】４つのハッシュ関数回路５９は、メモリ操
作命令の対象アドレスを、投棄実行成否履歴テーブル５
８のエントリ番号に変換する、ハッシュ関数ｆを実現す
る論理回路である。ここで、ハッシュ関数ｆは、同一の
入力に対しては、同一の値を持つことを特徴とする。す
なわち、Ｎ１＝ｆ（Ａ１）、かつ、Ｎ２＝ｆ（Ａ２）と
したとき、Ａ１＝Ａ２であれば、Ｎ１＝Ｎ２が成立する
関数である。

【０１９４】４つのハッシュ関数回路５９は、それぞれ
プロセッサ５０〜５３に割り当てられ、それぞれ対応す
るプロセッサが実行するメモリ操作命令の対象アドレス
を、投棄実行成否履歴テーブル５８のエントリ番号に変
換する。投機実行成否履歴テーブル５８は、３ビットの
情報を格納できるメモリやフリップフロップなどの記憶
手段で実現された、複数のエントリから構成される。備
えるエントリの総数は、そのハッシュ関数回路の出力が
ｎビット幅である場合、２のｎ乗に等しい数である。

【０１９５】投機実行成否履歴テーブル５８は、ハッシ
ュ関数回路５９が出力するエントリ番号が指し示すエン
トリに対して、書き込みおよび読み出し処理を行う、４
つの読み出し・書き込みポートを備える。すなわち、４
つの読み出し処理、あるいは書き込み処理を、独立、か
つ同時に行うことができる。

【０１９６】次に、スレッド並列処理におけるスレッド
の投機実行に関して、各プロセッサ５０〜５３におけ
る、自プロセッサに発行された命令に対する動作、およ
び他のプロセッサに発行された命令に対する動作を説明
する。

【０１９７】図８は、自プロセッサに発行された命令に
対する自プロセッサ、およびデータ依存投機制御装置５
５の動作手順を示すフローチャートである。なお、図
中、ブロック１１５は、他プロセッサにおける処理を説
明するために示してある。

【０１９８】自プロセッサに発行された命令に対する動
作は、図８のブロック１００で開始され、ブロック１０
８で終了する。まず、ブロック１０１において、プロセ
ッサ制御部５６より発行された命令がロード命令と判断
された場合、ブロック１０２へ分岐し、ロード命令以外
の場合には、ブロック１１３へ分岐する。発行命令は、
プロセッサ制御部５６が出力する実行命令４５により与
えられる。

【０１９９】ブロック１０２において、自プロセッサが
スレッドの投機実行状態にある場合は、ブロック１０３
へ分岐し、確定実行状態にある場合は、ブロック１１１
へ分岐する。投機的であるか、あるいは確定的であるか
は、スレッド制御部５４が出力する投機実行フラグ４０
により与えられる。そして、自プロセッサが投機実行状
態にある場合、ブロック１０３において、データ依存投
機制御装置５５により、投機実行が成功するか、失敗す
るかの予測を行う。

【０２００】ここで、投機実行が“成功”することを予
測した場合は、ブロック１０５へ進み、“失敗”するこ
とを予測した場合には、ブロック１０９へ分岐する。す
なわち、投機実行が“成功”することを予測した場合、
ブロック１０５において、そのロード命令を投機的に実
行する。次のブロック１０６において、ロード命令を投
機実行した旨を、自プロセッサのデータ依存関係検出装
置５７に記憶する。

【０２０１】ブロック１０７において、投機実行を行っ
たという事実により、データ依存投機制御装置５５に記
憶されている投機実行成否結果を更新し、続くブロック
１０８において、ロード命令の投機的な実行が終了す
る。

【０２０２】一方、ブロック１０４において、ロード命
令の投機実行が“失敗”することを予測した場合、ブロ
ック１０９において、そのロード命令の投機的な実行を
中止する。このロード命令、および、このロード命令よ
りも後続の命令は、後に、自プロセッサよりも先行する
スレッドの実行がすべて完了した後、プログラム順序で
確定的に実行される。

【０２０３】ブロック１１０では、投機実行を行わなか
ったという事実により、データ依存投機制御装置５５に
記憶されている投機実行成否結果を更新し、ブロック１
０８において、今回のロード命令の実行を、中止によ
り、とりあえず終了する。

【０２０４】ブロック１０２において、自プロセッサが
確定実行状態にあると判断された場合、ブロック１１１
において、そのロード命令を確定的に実行する。次のブ
ロック１１２において、確定的に実行を行ったという事
実により、データ依存投機制御装置５５に記憶されてい
る投機実行成否結果を更新し、ブロック１０８におい
て、ロード命令の実行が終了する。

【０２０５】ブロック１１３では、自プロセッサに発行
された命令が、ストア命令である場合は、ブロック１１
４に分岐し、発行された命令がロード命令でも、ストア
命令でもない場合は、ブロック１１９に分岐する。すな
わち、発行された命令がストア命令である場合、ブロッ
ク１１４において、そのストア命令を実行する。さら
に、ブロック１１５において、自プロセッサが実行する
スレッドよりも後続のスレッドを実行するプロセッサに
おいて、各プロセッサのデータ依存関係検出装置５７に
より、そのストア命令に関する投機実行の成否判定が行
われる。

【０２０６】他プロセッサでの成否判定の結果により、
ブロック１１６において、投機実行の失敗が検出されな
かった場合は、ブロック１１７に分岐し、投機実行の失
敗が検出された場合は、ブロック１１８に分岐する。他
プロセッサにおける投機実行の成否判定の結果は、デー
タ依存投機制御装置５５において、データ依存検出結果
４９を通じて、参照することができる。

【０２０７】他プロセッサで、投機実行の失敗が検出さ
れなかった場合、ブロック１１７において、投機実行が
成功したという事実により、データ依存投機制御装置５
５に記憶されている投機実行成否結果を更新し、ブロッ
ク１０８において、本動作を終了する。しかし、他プロ
セッサで、投機実行の失敗が検出された場合には、ブロ
ック１１８において、投機実行が失敗したという事実に
より、データ依存投機制御装置５５に記憶されている投
機実行成否結果を更新し、ブロック１０８において、本
動作を終了する。

【０２０８】一方、ブロック１１３において、発行され
た命令がロード命令でも、ストア命令でもない場合は、
ブロック１１９で命令を実行し、ブロック１０８におい
て終了する。この場合、データ依存投機制御装置５５
は、動作を行わない。

【０２０９】再び、図６を参照して、データ依存投機制
御装置５５の詳細な動作を説明する。まず、図８に示し
たフローチャート内のブロック１０３において、投機実
行成否履歴テーブル５８に記憶されている投機実行の成
否予測結果の履歴を参照し、それに基づいて、ロード命
令の投機実行が成功するか、失敗するかの予測を行う。
より詳細には、各プロセッサのプロセッサ制御部５６か
ら、対象アドレス４６により与えられるロード命令の対
象アドレスを、ハッシュ関数回路５９により、投機実行
成否履歴テーブル５８のエントリ番号に変換し、それを
投機実行成否履歴テーブル５８に入力する。投機実行成
否履歴テーブル５８は、入力されたエントリ番号に対応
するエントリの内容を読み出し、それに基づいて、上記
ロード命令の投機実行の成否を予測する。

【０２１０】図８のブロック１０７，１１０，１１２，
１１７，１１８では、それぞれの実行フローに基づい
て、投機実行成否履歴テーブル５８に記憶されている投
機実行についての成否予測結果の履歴の更新を行う。よ
り詳細には、各プロセッサのプロセッサ制御部５６か
ら、対象アドレス４６により与えられるロード・ストア
命令の対象アドレスを、ハッシュ関数回路５９により、
投機実行成否履歴テーブル５８のエントリ番号に変換
し、それを投機実行成否履歴テーブル５８に入力する。

【０２１１】投機実行成否履歴テーブル５８は、入力さ
れたエントリ番号に対応するエントリの内容を読み出
し、そのエントリ内容とそれぞれの実行フローに基づい
て、前記エントリ内容を更新する。なお、投機実行成否
履歴テーブル５８の各エントリの状態遷移は、図３に示
す、実施の形態１に係る投機実行成否履歴テーブル１２
と同じである。

【０２１２】本実施の形態の場合、同図中のロード命令
は、自プロセッサが実行するロード命令、同図中のスト
ア命令は、自プロセッサよりも先行するスレッドに含ま
れる、他プロセッサが実行するストア命令に対応する。

【０２１３】投機実行成否履歴テーブル５８の各エント
リは、図３に示すように、それぞれ３ビットの記憶素子
から構成される。なお、これら３ビットで表される８つ
の投機実行成否履歴状態は、上記実施の形態１と同じで
あるため、ここでは、その説明を省略する。

【０２１４】スレッド並列処理における投機的な命令実
行において、図８に示すフローチャート上のブロック１
０３における投機実行の成否予測は、参照したエントリ
が、上記の８状態のいずれにあるかで決定する。すなわ
ち、エントリが“強い成功０”、“強い成功１”、”弱
い成功０”、“弱い成功１”のいずれかにある場合は、
投機実行が成功する可能性が高いと予測して、ロード命
令を投機的に実行する。

【０２１５】エントリが、“強い失敗０”、“強い失敗
１”、“弱い失敗０”“弱い失敗０”のいずれかにある
場合は、投機実行が失敗する可能性が高いと予測し、ロ
ード命令の投機実行を中止し、後に、プログラム順序
で、確定的に実行する。

【０２１６】また、上記８状態間の状態遷移は、図８に
示すブロック１０７，１１０，１１２，１１７，１１８
において、以下のように行う。まず、初期状態では、す
べてのエントリは、任意の状態にある。今、仮に、ある
エントリが、“弱い成功０”９２にあるとする。このと
き、そのエントリに対応するアドレスを対象とする投機
的なロード命令を発行した場合、ブロック１０７におい
て、エントリの状態を、“弱い成功１”９３へ遷移させ
る。

【０２１７】この場合、ブロック１０３の投機実行の成
否予測で、投機実行が成功すると予測されるため、実際
にロード命令が投機実行されることになる（ブロック１
０５）。なお、それ以外の実行フローの場合、すなわ
ち、ブロック１１０，１１２，１１７，１１８では、エ
ントリの状態は遷移しない。

【０２１８】次に、エントリが、“弱い成功１”９３に
ある場合には、そのエントリに対応するアドレスを対象
とするストア命令を、他プロセッサが実行し、自プロセ
ッサのロード命令の、投機実行の失敗が検出されなかっ
た場合は、ロード命令の投機実行が成功したとして、ブ
ロック１１７において、エントリの状態を、“強い成功
０”９０へ遷移させる。

【０２１９】ロード命令の投機実行の失敗が検出された
場合は、ロード命令の投機実行が失敗したとして、ブロ
ック１１８において、エントリの状態を、“弱い失敗
０”９４へ遷移させる。上記以外の実行フローの場合、
すなわち、ブロック１０７，１１０，１１２では、エン
トリの状態は遷移しない。

【０２２０】また、エントリが、“強い成功０”９０に
あるときには、そのエントリに対応するアドレスを対象
とする投機的なロード命令を発行した場合、ブロック１
０７において、エントリの状態を、“強い成功１”９１
へ遷移させる。この場合、ブロック１０３の投機実行の
成否予測で、投機実行が成功すると予測されるため、実
際に、ロード命令が投機実行されることになる（ブロッ
ク１０５）。それ以外の実行フローの場合、すなわち、
ブロック１１０，１１２，１１７，１１８では、エント
リの状態は遷移しない。

【０２２１】次に、エントリが、“強い成功１”９１に
ある場合、そのエントリに対応するアドレスを対象とす
るストア命令を、他プロセッサが実行し、自プロセッサ
のロード命令の、投機実行の失敗が検出されなかった場
合は、ロード命令の投機実行が成功したとして、ブロッ
ク１１７において、エントリの状態は、“強い成功０”
９０に遷移する。

【０２２２】ロード命令の投機実行の失敗が検出された
場合は、ロード命令の投機実行が失敗したとして、ブロ
ック１１８において、エントリの状態を、“弱い成功
０”９２へ遷移させる。それ以外の実行フローの場合、
すなわち、ブロック１０７，１１０，１１２では、エン
トリの状態は遷移しない。

【０２２３】エントリが、“弱い失敗０”９４にあると
きには、そのエントリに対応するアドレスを対象とする
投機的なロード命令を発行した場合、ブロック１１０に
おいて、エントリの状態を、“弱い失敗１”９５へ遷移
させる。この場合、ブロック１０３の投機実行の成否予
測で、投機実行が失敗すると予測されるため、実際に、
ロード命令が投機実行されることはない。なお、上記以
外の実行フローの場合、すなわち、ブロック１０７，１
１２，１１７，１１８では、エントリの状態は遷移しな
い。

【０２２４】次に、エントリが、“弱い失敗１”９５に
あるとき、そのエントリに対応するアドレスを対象とす
るストア命令を、他プロセッサが実行した場合、ロード
命令の投機実行は、失敗する可能性が高いとして、ブロ
ック１１７、またはブロック１１８において、エントリ
の状態を、“強い失敗１”９６へ遷移させる。この場
合、ロード命令の投機実行は、失敗する可能性が高いと
判断する理由は、“弱い失敗０”９４から投機的なロー
ドが発行されて、“弱い失敗１”９５に遷移し、かつ、
同アドレスのストア命令が実行されたからである。

【０２２５】実際には、ブロック１０３において、投機
実行は失敗すると予測されるため、投機実行は中止さ
れ、確定的に実行されるが、仮に、ロード命令を投機実
行していたならば、その投機実行は失敗することにな
る。

【０２２６】一方、エントリが、“弱い失敗１”９５に
あるとき、そのエントリに対応するアドレスを対象とす
る確定的なロード命令が発行された場合、ロード命令の
投機実行は、成功する可能性が高いとして、ブロック１
１０において、エントリの状態を、“弱い成功０”９２
へ遷移させる。この場合、ロード命令の投機実行は、成
功する可能性が高いと判断する理由は、“弱い失敗０”
９４から投機的なロードが発行されて、“弱い失敗１”
９５に遷移し、かつ、同アドレスのストア命令が実行さ
れずに、確定的なロード命令が発行されたからである。

【０２２７】この確定的なロード命令は、ブロック１０
３において、投機実行が失敗すると予測されて、確定的
に実行されたロード命令と考えられ、かつ、その間に、
同アドレスのストア命令が発行されなかったので、仮
に、ロード命令を投機実行していたならば、その投機実
行は、成功していたことになる。なお、上記以外の実行
フローの場合、すなわち、ブロック１０７，１１２で
は、エントリの状態は遷移しない。

【０２２８】エントリが、“強い失敗０”９６にあると
きは、そのエントリに対応するアドレスを対象とする投
機的なロード命令を発行した場合、ブロック１１０にお
いて、エントリの状態を、“強い失敗１”９７へ遷移さ
せる。この場合、ブロック１０３の投機実行の成否予測
で、投機実行が失敗すると予測されるため、実際に、ロ
ード命令が投機実行されることはない。上記以外の実行
フローの場合（ブロック１０７，１１２，１１７，１１
８）では、エントリの状態は遷移しない。

【０２２９】エントリが、“強い失敗１”９７にあると
きに、そのエントリに対応するアドレスを対象とするス
トア命令を、他プロセッサが実行した場合、ロード命令
の投機実行は、失敗する可能性が高いとして、ブロック
１１７、またはブロック１１８において、エントリの状
態は、“強い失敗０”９６に遷移する。

【０２３０】上記の場合に、ロード命令の投機実行は、
失敗する可能性が高いと判断する理由は、“強い失敗
０”９６から投機的なロードが発行されて、“強い失敗
１”９７に遷移し、かつ、同アドレスのストア命令が実
行されたからである。実際には、ブロック１０３におい
て、投機実行は、失敗すると予測されるため、投機実行
は中止され、確定的に実行される。しかし、仮に、ロー
ド命令を投機実行していたならば、その投機実行は、失
敗することになる。

【０２３１】エントリが、“強い失敗１”９７にあると
き、そのエントリに対応するアドレスを対象とする確定
的なロード命令が発行された場合、ロード命令の投機実
行は、成功する可能性が高いとして、ブロック１１０に
おいて、エントリの状態を、“弱い失敗０”９４へ遷移
させる。この場合、ロード命令の投機実行は、成功する
可能性が高いと判断する理由は、“強い失敗０”９６か
ら投機的なロードが発行されて、“強い失敗１”９７に
遷移し、かつ、同アドレスのストア命令が実行されず
に、確定的なロード命令が発行されたからである。

【０２３２】上記の確定的なロード命令は、ブロック１
０３において、投機実行が失敗すると予測されて、確定
的に実行されたロード命令と考えられ、かつ、その間
に、同アドレスのストア命令が発行されなかったので、
仮に、ロード命令を投機実行していたならば、その投機
実行は、成功していたことになる。なお、上記以外の実
行フローの場合、すなわち、ブロック１０７，１１２で
は、エントリの状態は遷移しない。

【０２３３】以上、投機実行成否履歴テーブル５８の各
エントリ内容の状態遷移を説明したが、ここでも、投機
実行が成功する確率が高ければ、“強い失敗”、“弱い
失敗”から“弱い成功”、“強い成功”へ、また、投機
実行が失敗する確率が高ければ、“強い成功”、“弱い
成功”から“弱い失敗”、“強い失敗”へと遷移して行
く。

【０２３４】ブロック１０３における投機実行の成否予
測では、“弱い成功”、“強い成功”にあれば成功する
と予測して、ロード命令の投機実行するが、“強い失
敗”、“弱い失敗”にあれば失敗すると予測して、ロー
ド命令の投機実行を中止し、後に、プログラム順序で確
定的に実行する。すなわち、本実施の形態に係るデータ
依存投機制御装置５５では、スレッド並列処理におけ
る、スレッド間の正依存関係に対する投機実行に関して
も、失敗する確率の高い投機実行は、確定的に実行され
る。そのため、投機実行が失敗する確率が低減され、プ
ログラムの実行性能が向上する。

【０２３５】次に、本実施の形態２に係る、スレッド並
列処理におけるデータ依存投機実行の具体例を説明す
る。図９は、プログラム例における、命令のプログラム
順序を示す。このプログラム例は、ロード命令ＬＤ１，
ＬＤ２，ＬＤ３，ＬＤ４，ＬＤ５，ストア命令ＳＴ１，
ＳＴ２，ＳＴ３、および、ロード・ストア命令以外の命
令を含む１６命令からなるプログラムの部分列が繰り返
される、ループ構造を持つプログラムの典型的な例であ
る。

【０２３６】図９において、ループ０〜１という、連続
する２つのループに含まれる命令列のみを示す。また、
図中、空欄の四角は、ロード・ストア命令以外の命令を
示す。ループ内のプログラム順序は、順に、ロード命令
ＬＤ１、ロード・ストア命令以外の命令が２つ、ストア
命令ＳＴ１、ロード・ストア命令以外の命令、ロード命
令ＬＤ２、ストア命令ＳＴ２、ロード・ストア命令以外
の命令が３つ、ロード命令ＬＤ３、ロード命令ＬＤ４、
ロード命令ＬＤ５、ストア命令ＳＴ３、ロード・ストア
命令以外の命令が２つの順序である。

【０２３７】ここで、ＬＤ１の対象アドレスはＡ１、Ｌ
Ｄ２の対象アドレスはＡ２、ＬＤ３の対象アドレスはＡ
３、ＬＤ４の対象アドレスはＡ４、ＬＤ５の対象アドレ
スはＡ５、ＳＴ１の対象アドレスはＡ３、ＳＴ２の対象
アドレスはＡ１、そして、ＳＴ３の対象アドレスはＡ３
である。

【０２３８】ここでは、図９に示すプロクラム順序のプ
ログラム例を、図６に示す４つのプロセッサ（プロセッ
サ５０，５１，５２，５３）において、スレッド単位で
データ依存投機実行する。具体的には、図９に示す１６
命令から構成されるループを、４命令から構成される４
つのスレッドに分割し、それぞれを、４つのプロセッサ
で並列実行する。

【０２３９】すなわち、プログラム順序で、順に、ロー
ド命令ＬＤ１、ロード・ストア命令以外の命令が２つ、
そして、ストア命令ＳＴ１という４命令列をスレッド０
とし、ロード・ストア命令以外の命令、ロード命令ＬＤ
２、ストア命令ＳＴ２、ロード・ストア命令以外の命令
の４命令列をスレッド１とし、ロード・ストア命令以外
の命令が２つ、ロード命令ＬＤ３、ロード命令ＬＤ４の
４命令列をスレッド２とし、ロード命令ＬＤ５、ストア
命令ＳＴ３、ロード・ストア命令以外の命令が２つとい
う４命令列をスレッド３として、スレッド０をプロセッ
サ５２で、スレッド１をプロセッサ５１で、スレッド２
をプロセッサ５０で、スレッド３をプロセッサ５３で並
列に実行する。なお、各プロセッサが実行するスレッド
の割り当ては、スレッド制御部５４によって行われる。

【０２４０】上記の場合、スレッド０〜３を構成する命
令間に、依存関係が存在しなければ、４つのプロセッサ
によるスレッド並列処理により、１６命令を４サイクル
で実行することができる。しかし、ＬＤ３とＳＴ１の対
象アドレスは、同じＡ３であり、プログラム順序でＳＴ
１の方が前にあるため、ＳＴ１からＬＤ３には、データ
依存関係が存在する。

【０２４１】すなわち、実行時において、ＬＤ３よりも
ＳＴ１が前に実行されて、ＳＴ１がアドレスＡ３に書き
込みを行った結果を、ＬＤ３がアドレスＡ３から読み出
さなければ、プログラムの実行結果の正しさは保証され
ない。スレッド単位の並列処理においては、ＳＴ１を含
むスレッド０からＬＤ３を含むスレッド２へ、正依存関
係が存在することになる。

【０２４２】しかしながら、通常、各プロセッサへスレ
ッドを割り当てる時点では、ＳＴ１からＬＤ３への正依
存関係、すなわち、スレッド０からスレッド２への存在
は判明しない。このため、確定的にスレッドの並列実行
をすると、正依存関係が無いことが判明していないスレ
ッド間では、プログラム順序で、スレッドを逐次、実行
することで、正依存関係を保証する必要がある。そのた
め、スレッドの並列処理によるプログラム実行の高速性
を充分、得ることができない。

【０２４３】スレッド単位のデータ依存投機実行では、
スレッド間の正依存関係の存在の有無が判明していなく
ても、投機的にスレッドの並列実行をする。データ依存
投機実行が成功する確率が充分、高ければ、スレッドの
並列処理によるプログラム実行の高速化が達成される。

【０２４４】図１０の（ａ）は、図９に示すプログラム
順序の命令列、スレッド列のデータ依存投機実行による
スレッド並列実行の例であり、左から順に、サイクル番
号、スレッド２を実行するプロセッサ５０のそのサイク
ルの実行命令、その実行命令の対象アドレス、スレッド
１を実行するプロセッサ５１のそのサイクルの実行命
令、その実行命令の対象アドレス、スレッド０を実行す
るプロセッサ５２のそのサイクルの実行命令、その実行
命令の対象アドレス、スレッド３を実行するプロセッサ
５３のそのサイクルの実行命令、その実行命令の対象ア
ドレスである。

【０２４５】すなわち、スレッド２を実行するプロセッ
サ５０では、１サイクル目、および２サイクル目にロー
ド・ストア命令以外の命令、３サイクル目にＬＤ３、４
サイクル目にＬＤ４が実行される。スレッド１を実行す
るプロセッサ５１では、１サイクル目にロード・ストア
命令以外の命令、２サイクル目にＬＤ２、３サイクル目
にＳＴ２、４サイクル目にロード・ストア命令以外の命
令が実行される。

【０２４６】スレッド０を実行するプロセッサ５２で
は、１サイクル目にＬＤ１、２サイクル目にロード・ス
トア命令以外の命令、３サイクル目にロード・ストア命
令以外の命令、４サイクル目にＳＴ１が実行される。ス
レッド３を実行するプロセッサ５３では、１サイクル目
にＬＤ５、２サイクル目にＳＴ３、３サイクル目、およ
び４サイクル目にロード・ストア命令以外の命令が実行
される。

【０２４７】ここで、スレッド０は、プログラム順序で
最も前に位置するスレッドであるため、スレッド１〜３
に含まれるストア命令からスレッド０に含まれるロード
命令への、正依存関係は存在しない。すなわち、プロセ
ッサ５２は、確定的にスレッド０を実行することができ
る。

【０２４８】一方、スレッド１〜３に関しては、正依存
関係の有無が不明であるため、プロセッサ５０、プロセ
ッサ５１、およびプロセッサ５３は、スレッド１〜３を
データ依存投機実行することになる。図１０の（ａ）に
示す例では、仮に、データ依存投機実行が成功した場
合、１６命令からなるプログラムが、４サイクルで実行
されることになり、大幅なプログラム実行性能の向上が
達成される。

【０２４９】しかしながら、図１０の（ａ）における、
ループ０に示す実行例の場合、正依存関係のあるＳＴ
１，ＬＤ３について、ＬＤ３が、３サイクル目にプロセ
ッサ５０で実行され、ＳＴ１が、４サイクル目にプロセ
ッサ５２で実行される。そのため、正依存関係が保証さ
れておらず、正しいプログラムの実行結果が得られな
い。

【０２５０】換言すれば、プロセッサ５０におけるスレ
ッド２のデータ依存投機実行は、失敗している。プロセ
ッサ５０の備えるデータ依存関係検出装置５７は、プロ
セッサ５２が実行したＳＴ１から、プロセッサ５０が実
行したＬＤ３への、正依存関係の存在を検出し、スレッ
ド２のデータ依存投機実行が失敗したことを、スレッド
制御部５４に通知する機能を担う。

【０２５１】スレッド制御部５４は、プロセッサ５０よ
り、データ依存投機実行が失敗した旨を通知されると、
正しいプログラムの実行結果が得られるように、プロセ
ッサ５０、およびデータ依存投機実行が失敗したスレッ
ド２より、プログラム順序で後に位置するスレッド３を
実行するプロセッサ５３に対して、スレッドの実行結果
の取り消しやスレッドの再実行など、データ依存投機実
行失敗による回復処理を要求する。

【０２５２】図１０の（ｂ）は、データ依存投機制御装
置５５の動作を示す図である。同図において、左から順
に、サイクル番号、プロセッサ毎のそのサイクルにアク
セスした投機実行成否履歴テーブル５８のエントリ番
号、そのサイクルの投機実行成否履歴テーブル５８の状
態をそれぞれ示す。プロセッサ毎のアクセスしたエント
リ番号は、左から順に、プロセッサ５０、プロセッサ５
１、プロセッサ５２、プロセッサ５３がアクセスしたエ
ントリ番号を示している。

【０２５３】投機実行成否履歴テーブル５８は、４つの
エントリから構成されるとして、４つのエントリの状態
を、右から順に、エントリ０、エントリ１、エントリ
２、エントリ３の内容を示している。例えば、ループ０
の１サイクル目においては、すべてのエントリの内容
は、“０１０”（弱い成功０）である。

【０２５４】ループ０の１サイクル目では、プロセッサ
５０において、スレッド２に含まれるロード・ストア命
令以外の命令、プロセッサ５１において、スレッド１に
含まれるロード・ストア命令以外の命令、プロセッサ５
２において、スレッド０に含まれるＬＤ１、プロセッサ
５３において、スレッド３に含まれるＬＤ５が発行され
る。ここで、プロセッサ５３に発行されたＬＤ５は、プ
ロセッサ５３で実行するスレッド３よりも先行するスレ
ッド、すなわち、スレッド０、スレッド１、スレッド２
が含むストア命令からの正依存関係の有無が不明であ
る。従って、ＬＤ５は、正依存関係に関して、投機的に
実行することを試みる。

【０２５５】まず、投機実行に先立ち、プロセッサ５３
は、データ依存投機制御装置５５により、投機実行の成
否予測を行う（図８のブロック１０３）。より詳細に
は、まず、ＬＤ５のアドレスＡ５を、ハッシュ関数回路
５９により投機実行成否履歴テーブル５８のエントリ番
号に変換する。今、エントリ番号１に変換されたとする
と、次に、投機実行成否履歴テーブル５８より、エント
リ１に格納されている成否予測履歴“０１０”（弱い成
功０）が読み出される。従って、投機実行が成功するこ
とが予測されるので、ＬＤ５は、投機的に実行される
（図８のブロック１０５）。

【０２５６】一方、プロセッサ５２で実行されるスレッ
ド０は、最も先行するスレッドであるため、ＬＤ１は、
プロセッサ５２において、確定的に実行される（図８の
ブロック１１１）。ここで、ＬＤ１の対象アドレスＡ１
は、ハッシュ関数回路５９により、投機実行成否履歴テ
ーブル５８のエントリ番号１に変換されるとすると、投
機実行成否履歴テーブル５８のエントリ１は、プロセッ
サ５２、およびプロセッサ５３から同時にアクセスされ
る。

【０２５７】しかし、データ依存投機制御装置５５は、
プロセッサ毎に独立した４つのポートを備えているた
め、プロセッサ５２、およびプロセッサ５３からの処理
を同時に実行することができる。この場合、プロセッサ
５３が投機的にＬＤ５を実行したため、エントリ１の内
容は、“０１１”（弱い成功１）に遷移する。

【０２５８】次に、ループ０の２サイクル目では、プロ
セッサ５０において、スレッド２に含まれるロード・ス
トア命令以外の命令、プロセッサ５１において、スレッ
ド１に含まれるＬＤ２、プロセッサ５２において、スレ
ッド０に含まれるロード・ストア命令以外の命令、プロ
セッサ５３において、スレッド３に含まれるＳＴ３が実
行される。

【０２５９】ここで、プロセッサ５１に発行されたＬＤ
２は、プロセッサ５１で実行するスレッド１よりも先行
するスレッド０が含むストア命令に対して、投機的であ
るため、プロセッサ５１は、データ依存投機制御装置５
５により、投機実行の成否予測を行う（図８のブロック
１０３）。より詳細には、まず、ＬＤ２のアドレスＡ２
を、ハッシュ関数回路５９により、投機実行成否履歴テ
ーブル５８のエントリ番号に変換する。

【０２６０】ここで、エントリ番号２に変換されたとす
ると、次に、投機実行成否履歴テーブル５８より、エン
トリ２に格納されている成否予測履歴“０１０”（弱い
成功０）が読み出される。従って、投機実行が成功する
ことが予測されるので、ＬＤ２は、投機的に実行される
（図８のブロック１０５）。この場合、エントリ２の内
容は、“０１１”（弱い成功１）に遷移する（図８のブ
ロック１０７）。

【０２６１】一方、プロセッサ５３で実行されるＳＴ３
に関しては、プロセッサ５３以外の３つのプロセッサ５
０〜５２が実行するスレッドは、いずれも、プロセッサ
５３が実行するスレッド３に先行するので、ＳＴ３によ
り、投機実行失敗は検出されず、投機実行成否履歴テー
ブル５８のエントリ３の内容は、“０１０”（弱い成功
０）のまま、遷移しない（図８のブロック１１７）。

【０２６２】ループ０の３サイクル目では、プロセッサ
５０において、スレッド２に含まれるＬＤ３、プロセッ
サ５１において、スレッド１に含まれるＳＴ２、プロセ
ッサ５２において、スレッド０に含まれるロード・スト
ア命令以外の命令、プロセッサ５３において、スレッド
３に含まれるロード・ストア命令以外の命令が実行され
る。

【０２６３】ここで、プロセッサ５０に発行されたＬＤ
３は、プロセッサ５０で実行するスレッド２よりも先行
する、スレッド０、およびスレッド１が含むストア命令
に対して、投機的であるため、プロセッサ５０は、デー
タ依存投機制御装置５５により、投機実行の成否予測を
行う（図８のブロック１０３）。より詳細には、まず、
ＬＤ３のアドレスＡ３を、ハッシュ関数回路５９によ
り、投機実行成否履歴テーブル５８のエントリ番号に変
換する。

【０２６４】ここで、エントリ番号３に変換されたとす
ると、次に、投機実行成否履歴テーブル５８より、エン
トリ３に格納されている成否予測履歴“０１０”（弱い
成功０）が読み出される。従って、投機実行が成功する
ことが予測されるので、ＬＤ３は、投機的に実行される
（図８のブロック１０５）。この場合、エントリ３の内
容は、“０１１”（弱い成功１）に遷移する（図８のブ
ロック１０７）。

【０２６５】プロセッサ５１で実行されるＳＴ２に対し
ては、ＳＴ２が含まれるスレッド１よりも後続のスレッ
ド２を実行するプロセッサ５０、およびスレッド３を実
行するプロセッサ５３において、各々のプロセッサが備
えるデータ依存関係検出装置５７により、投機実行の成
否判定が行われる（図８のブロック１１５）。この場
合、いずれのプロセッサにおいても、投機実行失敗が検
出されないため、ＳＴ２に関しては、投機実行が成功し
たとして、投機実行成否履歴テーブル５８のエントリ１
は、“０００”（強い成功０）へ遷移する（図８のブロ
ック１１７）。

【０２６６】次に、ループ０の４サイクル目では、プロ
セッサ５０において、スレッド２に含まれるＬＤ４、プ
ロセッサ５１において、スレッド１に含まれるロード・
ストア命令以外の命令、プロセッサ５２において、スレ
ッド０に含まれるＳＴ１、プロセッサ５３において、ス
レッド３に含まれるロード・ストア命令以外の命令が実
行される。ここで、プロセッサ５０に発行されたＬＤ４
は、プロセッサ５０で実行するスレッド２よりも先行す
るスレッド０、およびスレッド１が含むストア命令に対
して投機的であるため、プロセッサ５０は、データ依存
投機制御装置５５により、投機実行の成否予測を行う
（図８のブロック１０３）。

【０２６７】より詳細には、まず、ＬＤ４のアドレスＡ
４を、ハッシュ関数回路５９により投機実行成否履歴テ
ーブル５８のエントリ番号に変換する。ここで、エント
リ番号０に変換されたとすると、次に、投機実行成否履
歴テーブル５８より、エントリ０に格納されている成否
予測履歴“０１０”（弱い成功０）が読み出される。従
って、投機実行が成功することが予測されるので、ＬＤ
４は、投機的に実行される（図８のブロック１０５）。
なお、この場合、エントリ０の内容は、“０１１”（弱
い成功１）に遷移する（図８のブロック１０７）。

【０２６８】他方、プロセッサ５２で実行されるＳＴ１
に対しては、ＳＴ１が含まれるスレッド０よりも後続の
スレッド１を実行するプロセッサ５１、スレッド２を実
行するプロセッサ５０、およびスレッド３を実行するプ
ロセッサ５３において、各々のプロセッサが備えるデー
タ依存関係検出装置５７により、投機実行の成否判定が
行われる（図８のブロック１１５）。

【０２６９】この場合、ＳＴ１と対象アドレスが同じＡ
３であるＬＤ３が、プロセッサ５０において、ＳＴ１よ
りも先のサイクル３で投機的に実行されており、かつ、
ＬＤ３は、ＳＴ１よりもプログラム順序で後にあるた
め、このＬＤ３の投機実行は、失敗していることが、プ
ロセッサ５０の備えるデータ依存関係検出装置５７によ
り検出され、それが、データ依存検出結果４９を通じ
て、スレッド制御部５４に通知される。この通知によ
り、スレッド制御部５４は、正しいプログラムの実行結
果が得られるように、プロセッサ５０、およびプロセッ
サ５０よりも後続のスレッドを実行していたプロセッサ
５３に対して、データ依存投機実行の失敗による回復処
理の実行を指示する。

【０２７０】回復処理を実行するプロセッサ５０、およ
びプロセッサ５３では、１サイクル目から４サイクル目
までに実行した命令の実行結果を取り消し、６サイクル
目からスレッドを再度、実行する。

【０２７１】一方、投機実行成否履歴テーブル５８にお
いては、４サイクル目に、ＳＴ１に関して投機実行の失
敗が検出されたことにより、エントリ３は、“１００”
（弱い失敗０）に遷移する（図８のブロック１１８）。

【０２７２】プロセッサ５０における、スレッド２の投
機実行失敗による回復処理は、プロセッサ５０におい
て、６サイクル目にロード・ストア命令以外の命令、７
サイクル目にロード・ストア命令以外の命令、８サイク
ル目にＬＤ３、９サイクル目にＬＤ４が再実行される。
この回復処理による、スレッド２の再実行においては、
スレッド２が最も先行するスレッドであるため、確定的
な実行が可能である。

【０２７３】プロセッサ５３における、スレッド３の投
機実行失敗による回復処理は、６サイクル目にＬＤ５、
７サイクル目にＳＴ３、８サイクル目にロード・ストア
命令以外の命令、９サイクル目にロード・ストア命令以
外の命令が実行される。この回復処理によるスレッド３
の再実行においては、スレッド２との依存関係が不明で
あるため、スレッド３は、再び投機的に実行する。

【０２７４】スレッド３の回復処理における、投機実行
に関する投機実行成否履歴テーブル５８の動作の詳細
を、以下に説明する。まず、６サイクル目において、Ｌ
Ｄ５に対して、プロセッサ５３は、データ依存投機制御
装置５５により、投機実行の成否予測を行う（図８のブ
ロック１０３）。投機実行成否履歴テーブル５８のエン
トリ１からは、“０００”（強い成功０）が読み出され
る。従って、投機実行が成功することが予測されるの
で、ＬＤ５は、投機的に実行される（図８のブロック１
０５）。この場合、エントリ１の内容は、“００１”
（強い成功１）に遷移する（図８のブロック１０７）。

【０２７５】次に、７サイクル目において、ＳＴ３が実
行される。投機実行成否履歴テーブル５８のエントリ３
は、“１００”（弱い失敗０）のまま遷移しない。

【０２７６】以上が、ループ０における命令実行、およ
びデータ依存投機制御装置５５の動作である。ここで
は、スレッド２に含まれるＬＤ３の投機実行の成否予測
は、成功を予測したのに対して、実際には、投機実行は
失敗し、スレッド２、および、それより後続のスレッド
３の投機実行失敗による回復処理の実行が必要となっ
た。このため、ループ０においては、スレッド０〜３の
１６命令を、プロセッサ５０〜５３で実行するのに、９
サイクルを要した。

【０２７７】次に、ループ０に続くループ１における動
作を説明する。ループ１の１サイクル目では、プロセッ
サ５０において、スレッド２に含まれるロード・ストア
命令以外の命令、プロセッサ５１において、スレッド１
に含まれるロード・ストア命令以外の命令、プロセッサ
５２において、スレッド０に含まれるＬＤ１、プロセッ
サ５３において、スレッド３に含まれるＬＤ５が発行さ
れる。ここで、プロセッサ５３に発行されたＬＤ５は、
プロセッサ５３で実行するスレッド３よりも先行するス
レッド、すなわち、スレッド０、スレッド１、スレッド
２が含むストア命令からの正依存関係の有無が不明であ
る。従って、ＬＤ５は、正依存関係に関して投機的に実
行することを試みる。

【０２７８】まず、投機実行に先立ち、プロセッサ５３
は、データ依存投機制御装置５５により、投機実行の成
否予測を行う（図８のブロック１０３）。投機実行成否
履歴テーブル５８のエントリ１からは、“００１”（強
い成功１）が読み出される。従って、投機実行が成功す
ることが予測されるので、ＬＤ５は、投機的に実行され
る（図８のブロック１０５）。

【０２７９】一方、プロセッサ５２で実行されるスレッ
ド０は、最も先行するスレッドであるため、ＬＤ１は、
プロセッサ５２において、確定的に実行される（図８の
ブロック１１１）。投機実行成否履歴テーブル５８のエ
ントリ１は、“００１”（強い成功１）のまま遷移しな
い。

【０２８０】次に、ループ１の２サイクル目では、プロ
セッサ５０において、スレッド２に含まれるロード・ス
トア命令以外の命令、プロセッサ５１において、スレッ
ド１に含まれるＬＤ２、プロセッサ５２において、スレ
ッド０に含まれるロード・ストア命令以外の命令、プロ
セッサ５３において、スレッド３に含まれるＳＴ３が実
行される。

【０２８１】ここで、プロセッサ５１に発行されたＬＤ
２は、プロセッサ５１で実行するスレッド１よりも先行
するスレッド０が含むストア命令に対して、投機的であ
るため、プロセッサ５１は、データ依存投機制御装置５
５により、投機実行の成否予測を行う（図８のブロック
１０３）。投機実行成否履歴テーブル５８のエントリ２
からは、“０１１”（弱い成功１）が読み出される。

【０２８２】従って、投機実行が成功することが予測さ
れるので、ＬＤ２は、投機的に実行される（図８のブロ
ック１０５）。この場合、エントリ２は、“０１１”
（弱い成功１）のまま遷移しない（図８のブロック１０
７）。

【０２８３】一方、プロセッサ５３で実行されるＳＴ３
に関しては、プロセッサ５３以外の３つのプロセッサ５
０〜５２が実行するスレッドは、いずれも、プロセッサ
５３が実行するスレッド３に先行するので、ＳＴ３によ
る投機実行の失敗は、検出されなお。投機実行成否履歴
テーブル５８より、エントリ３の内容は、“１００”
（弱い失敗０）のまま遷移しない（図８のブロック１１
７）。

【０２８４】ループ１の３サイクル目では、プロセッサ
５０において、スレッド２に含まれるＬＤ３、プロセッ
サ５１において、スレッド１に含まれるＳＴ２、プロセ
ッサ５２において、スレッド０に含まれるロード・スト
ア命令以外の命令、プロセッサ５３において、スレッド
３に含まれるロード・ストア命令以外の命令が実行され
る。ここで、プロセッサ５０に発行されたＬＤ３は、プ
ロセッサ５０で実行するスレッド２よりも先行するスレ
ッド０、およびスレッド１が含むストア命令に対して、
投機的である。そのため、プロセッサ５０は、データ依
存投機制御装置５５により、投機実行の成否予測を行う
（図８のブロック１０３）。

【０２８５】投機実行成否履歴テーブル５８のエントリ
３からは、“１００”（弱い失敗０）が読み出されるの
で、投機実行が失敗することが予測される。従って、Ｌ
Ｄ３の投機的な実行は中止され、後に、プログラム順序
で、確定的に実行される（図８のブロック１０９）。こ
の場合、エントリ３の内容は、“１０１”（弱い失敗
１）に遷移する（図８のブロック１１０）。

【０２８６】プロセッサ５１で実行されるＳＴ２に対し
ては、ＳＴ２が含まれるスレッド１よりも後続のスレッ
ド２を実行するプロセッサ５０、およびスレッド３を実
行するプロセッサ５３において、各々のプロセッサが備
えるデータ依存関係検出装置５７により、投機実行の成
否判定が行われる（図８のブロック１１５）。この場
合、いずれのプロセッサにおいても、投機実行失敗が検
出されないため、ＳＴ２に関しては、投機実行が成功し
たとして、投機実行成否履歴テーブル５８のエントリ１
は、“０００”（強い成功０）へ遷移する（図８のブロ
ック１１７）。

【０２８７】ループ１の４サイクル目において、スレッ
ド２を実行するプロセッサ５０では、スレッド２よりも
プログラム順序で先行するスレッド０、およびスレッド
１の実行がまだ完了していないため、３サイクル目に投
機実行が中止されたＬＤ３を、それらスレッド０、およ
びスレッド１との依存関係に関して、確定的に実行する
ことはできない。そのため、ＬＤ３の実行は待機とな
る。

【０２８８】一方、プロセッサ５１では、スレッド１に
含まれるロード・ストア命令以外の命令、プロセッサ５
２では、スレッド０に含まれるＳＴ１、プロセッサ５３
では、スレッド３に含まれるロード・ストア命令以外の
命令が実行される。プロセッサ５２で実行されるＳＴ１
に対しては、ＳＴ１が含まれるスレッド０よりも後続の
スレッド１を実行するプロセッサ５１、スレッド２を実
行するプロセッサ５０、およびスレッド３を実行するプ
ロセッサ５３において、各々のプロセッサが備えるデー
タ依存関係検出装置５７により、投機実行の成否判定が
行われる（図８のブロック１１５）。

【０２８９】ループ０の場合と異なり、ループ１では、
ＬＤ３の投機実行が中止されているため、ＳＴ１に関し
て、投機実行の失敗は検出されない。従って、スレッド
０、スレッド１およびスレッド３の実行は、４サイクル
目で完了する。また、ＳＴ１に関して、投機実行成否履
歴テーブル５８のエントリ３は、“１１０”（強い失敗
０）に遷移する（図８のブロック１１７）。

【０２９０】ループ１の５サイクル目では、プロセッサ
５０において、３サイクル目に投機実行が失敗すること
が予測されて、実行が延期されていたＬＤ３の確定的な
実行が可能になる。そのため、ＬＤ３が確定的に実行さ
れる。ループ１の６サイクル目では、プロセッサ５０に
おいて、ＬＤ４が確定的に実行される。

【０２９１】上述したように、本実施の形態２に係るデ
ータ依存投機制御装置５５は、マルチプロセッサシステ
ムによるスレッド並列処理において、投機実行が失敗す
ると予測されるロード命令は、投機実行を行わずにプロ
グラム順序で確定的に実行する。その結果、投機実行が
失敗する確率が低減され、プログラムの実行性能が向上
する。

【０２９２】すなわち、ループ１における命令実行、お
よびデータ依存投機制御装置の動作において、スレッド
２に含まれるＬＤ３の投機実行の成否予測は、正しく失
敗を予測したことで、ＬＤ３の投機実行の失敗が回避さ
れる。そのため、ループ０においては、スレッド０〜３
の１６命令を、プロセッサ５０〜５３で実行するのに９
サイクルを要したのに対して、ループ１では６サイクル
に改善された。

【０２９３】かかるデータ依存投機制御装置５５によれ
ば、マルチプロセッサシステム上のスレッド並列処理に
おいて、スレッド単位のデータ依存投機実行するに際し
て、過去の命令の、投機実行の成否結果の履歴を参照し
て、投機実行の成否を予測し、成功すると予測した場合
には、投機的に命令を実行するが、失敗すると予測した
場合、その投機実行を中止し、後に、プログラム順序
で、確定的にスレッド実行する。よって、このデータ依
存投機制御装置５５によれば、マルチプロセッサシステ
ムにおけるスレッド並列処理において、失敗する確率の
高い命令の投機実行は確定的に実行されるため、投機実
行が失敗する確率が低減され、プログラムの実行性能を
大幅に向上させることができる。

【０２９４】具体的には、１６命令からなるプログラム
例に対して、４つのプロセッサでスレッド並列処理を行
うと、データ依存投機実行が失敗するループ０の場合で
９サイクル、投機実行の成否予測が成功するループ１で
は、６サイクルで実行が完了し、プログラムの実行性能
は大幅に向上する。かかる例では、説明のため各スレッ
ドを４命令構成としたが、通常、数十命令から数万命令
で構成されるので、より多くのロード命令がデータ依存
投機実行されることになる。そのため、本実施の形態に
係るデータ依存投機制御装置５５は、実際の使用場面に
おいては、その性能向上により大きな効果を奏すると考
えられる。

【０２９５】さらに、本実施の形態に係るデータ依存投
機制御装置５５は、投機実行の成否予測を行うに際し
て、ロード・ストア命令の対象アドレスに関して、エイ
リアスの存在を許容することで、対象アドレスそのもの
をすべて記憶することが不要になる。これにより、投機
実行の成否予測が可能なロード命令数に制限がなく、必
要なハードウエア量も小さく、少ないハードウエア量で
も、データ依存投機実行による実行性能の向上を享受す
ることができる。

【０２９６】また、投機実行の成否予測を行うに際し
て、ロード・ストア命令間の対象アドレスの比較を必要
とせず、参照される投機実行成否履歴テーブル５８のエ
ントリは、高々１つなので、投機実行の成否予測の処理
時間が短い。このため、プロセッサの動作周波数を高速
化することが容易である。

【０２９７】さらに、本実施の形態に係るデータ依存投
機制御装置５５は、スレッド制御部５４が出力するスレ
ッド順序４０に基づいて、正依存検出する対象のスレッ
ドを選択する機能を有する。そのため、スレッド間の順
序に柔軟に対応して、スレッド間の正依存関係を適切に
検出できる、という効果を奏する。

【０２９８】

【発明の効果】以上説明したように、本発明に係るデー
タ依存投機制御装置によれば、データ依存投機実行時に
おいて、過去における投機実行の成否結果の履歴を参照
して、投機実行の成否を予測し、成功すると予測した場
合には投機的に実行するが、失敗すると予測した場合に
は、投機実行を中止し、後にプログラム順序で確定的に
実行する。すなわち、プロセッサがメモリ操作命令の実
行する際に、データ投機実行が成功するか失敗するかを
予測し、成功が予測される場合には、メモリ操作命令を
非プログラム順序でデータ依存に関して投機的に実行
し、失敗が予測される場合には、メモリ操作命令をプロ
グラム順序で確定的に実行する。そのため、本データ依
存投機制御装置は、過去の投機実行の成否履歴を記憶し
た記憶手段を含み、データ依存投機実行の成否予測は、
過去の投機実行の成否結果に基づいて実行される。

【０２９９】かかる構成により、データ依存投機実行が
失敗すると予測されるメモリ操作命令、つまり、失敗す
る確率の高い投機実行は、プログラム順序で確定的に実
行されるため、データ依存投機実行が失敗する確率が低
減するだけでなく、過去のデータ依存投機実行の予測結
果をもとに、高精度な成否予測ができる。その結果、プ
ログラムの実行性能が向上するという効果がある。換言
すれば、本発明における上記の効果は、以下の理由によ
る。

【０３００】（１）データ依存投機実行が失敗した場
合、その回復処理のために、プログラム順序で確定的に
実行するよりも実行性能が低下する場合が多い。すなわ
ち、データ依存投機実行を行って失敗するならば、デー
タ依存投機実行を行わずに、プログラム順序で確定的に
実行する方が、実行性能が高い。

【０３０１】（２）一般に、プログラム中でデータ依存
投機実行に失敗する場合の多いメモリ操作命令は、再び
失敗する確率が高く、逆に、プログラム中でデータ依存
投機実行に成功する場合の多いメモリ操作命令は、再び
成功する確率が高いという性質がある。すなわち、本発
明の成否予測は、過去のデータ依存投機実行の予測結果
を基づくものである。

【０３０２】また、他の発明に係る、複数のプロセッサ
から構成され、スレッド単位で並列処理を行うマルチプ
ロセッサシステムでのスレッド並列処理においても、ス
レッド単位のデータ依存投機実行するに際して、過去に
おける命令の投機実行の成否結果の履歴を参照して、投
機実行の成否を予測し、成功すると予測した場合は、投
機的に命令を実行するが、失敗すると予測した場合に
は、投機実行を中止し、後にプログラム順序で確定的に
スレッド実行する。

【０３０３】つまり、各プロセッサが、スレッド間の命
令に関して非プログラム順序で、データ依存に関して投
機的にメモリ操作命令の実行する際、データ投機実行が
成功するか失敗するかを予測し、成功が予測される場
合、メモリ操作命令を非プログラム順序でデータ依存投
機的に実行し、失敗が予測される場合には、メモリ操作
命令をプログラム順序で確定的に実行する。

【０３０４】ここでも、データ依存投機実行の成否予測
は、過去の投機実行の成否結果に基づいて実行され、こ
のような構成とすることで、失敗する確率の高い命令の
投機実行は、確定的に実行される。そのため、マルチプ
ロセッサシステムによるスレッド並列処理においても、
投機実行が失敗する確率が低減され、プログラムの実行
性能を向上することができる。

【０３０５】また、本発明に係るデータ依存投機制御装
置によれば、投機成否予測に際して、ロード命令の対象
アドレスは、例えば、ハッシュ関数回路により、投機実
行成否履歴テーブル（成否履歴記憶手段）の特定のエン
トリに重複を許して割り当てるため、実行されたロード
命令の対象アドレス自体をすべて記憶しておく必要がな
い。また、ストア命令の対象アドレスと比較するための
アドレス比較器も不要となる。よって、投機実行の成否
予測に必要なハーウェア量が小さくなる。

【０３０６】さらに、投機実行の成否予測をすることの
できるロード命令の数が、データ依存投機制御装置のハ
ーウェア量に制限されないため、少ないハーウェア量で
も、データ依存投機実行による実行性能を向上できる。
また、投機実行の成否予測に際し、ロード・ストア命令
の対象アドレス間の比較が不要であり、投機実行成否履
歴テーブル（成否履歴記憶手段）から読み出すエントリ
は、高々１つであるため、成否予測の処理時間が短くな
り、プロセッサの動作周波数の高速化が容易になる。

【図面の簡単な説明】

【図１】本発明の実施の形態１に係るデータ依存投機制
御装置を含むプロセッサの構成を示すブロック図であ
る。

【図２】図１に示すプロセッサによる命令実行の手順を
示すフローチャートである。

【図３】実施の形態１に係る投機実行成否履歴テーブル
の各エントリ内容の状態遷移を示す状態遷移図である。

【図４】実施の形態１に係るデータ依存投機制御装置の
具体的な動作例を説明するための図である。

【図５】実施の形態１に係るデータ依存投機制御装置が
備えるハッシュ関数回路を示す図である。

【図６】本発明の実施の形態２に係るデータ依存投機制
御装置の構成を示すブロック図である。

【図７】図６のデータ依存関係検出装置の一構成を示す
ブロック図である。

【図８】実施の形態２に係るデータ依存投機制御装置の
動作手順を示すフローチャートである。

【図９】データ依存投機制御装置の具体的動作例を示す
図である。

【図１０】データ依存投機制御装置の具体的動作例を示
す図である。

【図１１】データ依存投機実行の動作を説明するための
図である。

【図１２】ロード・ストア命令間の正依存関係を検出す
る、従来のデータ依存関係検出装置を備えるプロセッサ
の構成を示すブロック図である。

【符号の説明】

１０データ依存投機制御装置１１ハッシュ関数回路１２投機実行成否履歴テーブル１３投機実行フラグ１４対象アドレス１５実行命令２０プロセッサ制御部２１命令実行部３０データ依存関係検出装置３１アドレスバッファ３２アドレス比較器３３論理和回路３４先行スレッド選択回路３５アドレス一致検出回路４０投機実行フラグ５０，５１，５２，５３プロセッサ５４スレッド制御部５５データ依存投機制御装置５６プロセッサ制御部５７データ依存関係検出装置５８投棄実行成否履歴テーブル５９ハッシュ関数回路

───────────────────────────────────────────────────── フロントページの続き (72)発明者鳥居淳東京都港区芝五丁目７番１号日本電気株式会社内 (72)発明者西直樹東京都港区芝五丁目７番１号日本電気株式会社内Ｆターム(参考） 5B013 AA12 BB18 CC01 DD00 5B045 GG11

Claims

【特許請求の範囲】

【請求項１】メモリ操作命令を非プログラム順序で、
命令間の依存関係に関して投機的に実行するデータ依存
投機実行制御装置において、前記メモリ操作命令の処理アドレスを受けて、その処理
アドレスを一意な番号に変換するアドレス変換手段と、前記変換された番号に対応して、前記メモリ操作命令の
投機的実行の成否履歴を記憶する成否履歴記憶手段と、前記成否履歴を参照して、前記投機的実行の成否を予測
する予測手段と、前記予測の結果に従って前記メモリ操作命令を実行する
実行手段とを備えることを特徴とするデータ依存投機実
行制御装置。
【請求項２】前記実行手段は、前記予測手段が前記投
機的実行の成功を予測した場合、前記メモリ操作命令を
非プログラム順序で投機的に実行し、前記予測手段が前
記投機的実行の失敗を予測した場合には、前記メモリ操
作命令をプログラム順序で確定的に実行することを特徴
とする請求項１記載のデータ依存投機実行制御装置。
【請求項３】前記予測手段は、前記成否履歴記憶手段
の内容を参照して、過去において投機的実行が失敗する
よりも成功した確率が高ければ、その投機的実行の成功
を予測し、過去において投機的実行が成功するよりも失
敗した確率が高ければ、その投機的実行の失敗を予測す
ることを特徴とする請求項２記載のデータ依存投機実行
制御装置。
【請求項４】前記アドレス変換手段は、入力されるア
ドレスの所定ビットをそのまま出力することで、任意の
アドレスを前記所定ビットで規定される番号に変換する
ことを特徴とする請求項２記載のデータ依存投機実行制
御装置。
【請求項５】前記アドレス変換手段は、入力されるア
ドレスの所定の複数ビットの排他的論理和演算を行い、
その演算結果を出力することで、任意のアドレスを前記
出力で規定される番号に変換することを特徴とする請求
項２記載のデータ依存投機実行制御装置。
【請求項６】複数のプロセッサから構成され、スレッ
ド単位で並列処理を行うマルチプロセッサシステムにお
いて、前記スレッドを構成するメモリ操作命令の処理アドレス
を一意な番号に変換するアドレス変換手段と、前記変換された番号に対応して、前記メモリ操作命令の
投機的実行の成否履歴を記憶する成否履歴記憶手段と、前記成否履歴を参照して、前記投機的実行の成否を予測
する予測手段と、前記予測の結果に従って、前記メモリ操作命令を前記ス
レッド間の依存関係に関して投機的に実行する実行手段
とを備えることを特徴とするマルチプロセッサシステ
ム。
【請求項７】前記実行手段は、前記予測手段が前記投
機的実行の成功を予測した場合、前記メモリ操作命令を
非プログラム順序で投機的に実行し、前記予測手段が前
記投機的実行の失敗を予測した場合には、前記メモリ操
作命令をプログラム順序で確定的に実行することを特徴
とする請求項６記載のマルチプロセッサシステム。
【請求項８】前記予測手段は、前記成否履歴記憶手段
の内容を参照して、過去において投機的実行が失敗する
よりも成功した確率が高ければ、その投機的実行の成功
を予測し、過去において投機的実行が成功するよりも失
敗した確率が高ければ、その投機的実行の失敗を予測す
ることを特徴とする請求項７記載のマルチプロセッサシ
ステム。
【請求項９】前記アドレス変換手段は、入力されるア
ドレスの所定ビットをそのまま出力することで、任意の
アドレスを前記所定ビットで規定される番号に変換する
ことを特徴とする請求項７記載のマルチプロセッサシス
テム。
【請求項１０】前記アドレス変換手段は、入力される
アドレスの所定の複数ビットの排他的論理和演算を行
い、その演算結果を出力することで、任意のアドレスを
前記出力で規定される番号に変換することを特徴とする
請求項７記載のマルチプロセッサシステム。
【請求項１１】メモリ操作命令を非プログラム順序
で、命令間の依存関係に関して投機的に実行するデータ
依存投機実行制御方法において、前記メモリ操作命令の処理アドレスを受けて、その処理
アドレスを一意な番号に変換するステップと、前記変換された番号に対応して、前記メモリ操作命令の
投機的実行の成否履歴を記憶するステップと、前記成否履歴を参照して、前記投機的実行の成否を予測
するステップと、前記予測の結果に従って前記メモリ操作命令を実行する
ステップとを備えることを特徴とするデータ依存投機実
行制御方法。
【請求項１２】前記実行ステップでは、前記予測ステ
ップにおいて前記投機的実行の成功を予測した場合、前
記メモリ操作命令を非プログラム順序で投機的に実行
し、前記投機的実行の失敗を予測した場合には、前記メ
モリ操作命令をプログラム順序で確定的に実行すること
を特徴とする請求項１１記載のデータ依存投機実行制御
方法。
【請求項１３】前記予測ステップでは、前記記憶ステ
ップで記憶した成否履歴を参照して、過去において投機
的実行が失敗するよりも成功した確率が高ければ、その
投機的実行の成功を予測し、過去において投機的実行が
成功するよりも失敗した確率が高ければ、その投機的実
行の失敗を予測することを特徴とする請求項１２記載の
データ依存投機実行制御方法。