JP2000020326A

JP2000020326A - プロセッサにおけるレジスタ内容の継承装置

Info

Publication number: JP2000020326A
Application number: JP11000819A
Authority: JP
Inventors: Atsushi Torii; 淳鳥居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-04-28
Filing date: 1999-01-06
Publication date: 2000-01-21
Anticipated expiration: 2019-01-06
Also published as: US6330661B1; GB9909773D0; JP3209205B2; GB2340271A; GB2340271B

Abstract

(57)【要約】【課題】マルチスレッドプロセッサにおいて、処理を
高速化するためのレジスタ継承を簡単な構成のハードウ
ェアによって実現する。【解決手段】各スレッド実行ユニット１−０〜１−３
と物理共有レジスタ２とを用意し、レジスタ写像テーブ
ル１１−０〜１１−３を用いて各プログラムから参照す
るレジスタ番号を物理共有レジスタ２に位置付ける。レ
ジスタ継承上必要な時に限ってレジスタ写像テーブル１
１−０〜１１−３の関係を更新する。レジスタを継承す
る時にはレジスタ写像テーブル１１−０〜１１−３の内
容をコピーする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はプロセッサにおける
レジスタ内容の継承装置に関し、特に複数の命令を同時
に実行するマルチスレッドマイクロプロセッサに関す
る。

【０００２】

【従来の技術】プログラムを高速化する技術としてはプ
ログラムを複数の命令流（スレッド）に分割し、そのス
レッドレベルで並列処理を行うという方式が提案されて
おり、スレッドレベル並列処理に対応したプロセッサの
研究も行われている。このスレッドレベルの並列処理方
式は命令単位の並列性ではなく、複数のスレッドの命令
を並列に実行することによって演算装置の利用効率をあ
げて処理速度の向上を図る方法である。

【０００３】このスレッドレベルの並列処理は、解こう
とする問題によってスレッド相互間に依存関係がまった
くないものと、依存関係が少なくかつソフトウェアによ
って依存を解消しても性能上問題の少ないものと、依存
関係が多くかつハードウェアによってスレッドレベル並
列処理の実行支援が必要なものとに大別することができ
る。

【０００４】スレッド間で依存が全くない場合や、依存
が少なくかつスレッド粒度の大きいものではソフトウェ
アによるスレッド管理のオーバヘッドを並列化による利
得が上回ることができるため、ハードウェア的なサポー
トは最小限度に抑えることができる。

【０００５】しかしながら、解こうとする問題の性質に
よってはスレッド間の依存が多くなったり、スレッド自
身の粒度が細かくなるため、何らかのハードウェアサポ
ートが必要になる。

【０００６】このような細粒度スレッド処理を高速化す
る際には効率的なスレッド生成と、スレッド間のデータ
の引渡しとが不可欠である。例えば、細粒度スレッドの
並列処理プロセッサの一例としては、”Ｍｕｌｔｉｓｃ
ａｌａｒＰｒｏｃｅｓｓｏｒ”（Ｇｕｒｉｎｄｅｒ
Ｓ．Ｓｏｈｉ，ＳｃｏｔｔＥ．Ｂｒｅａｃｈａｎ
ｄＴ．Ｎ．Ｖｉｊａｙｋｕｍａｒ，Ｔｈｅ２２ｎｄ
ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ
ｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ，
ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＰｒｅ
ｓｓ，１９９５，ｐｐ．４１４−４２５）がある。

【０００７】マルチスカラプロセッサ（Ｍｕｌｔｉｓｃ
ａｌａｒＰｒｏｃｅｓｓｏｒ）では単一のプログラム
をいくつかの基本ブロックの集合である「タスク」に分
割し、この「タスク」を並列に実行処理することができ
るプロセッサで処理している。この「タスク」間でのレ
ジスタ内容の引渡しはタスク生成コンパイラによって生
成されたタスク記述子（ｔａｓｋｄｅｓｃｒｉｐｔｏ
ｒ）によって指定している。

【０００８】タスク記述子では生成される可能性のある
レジスタを明示的に指定する。この指定をクリエイトマ
スク（ｃｒｅａｔｅｍａｓｋ）と呼ぶ。また、最後に
クリエイトマスクに指定したレジスタを更新する命令に
はフォワードビットを付加する。このように、マルチス
カラプロセッサはコンパイラ解析能力に依存したコード
によって並列実行を行う。

【０００９】このマルチスカラプロセッサの構成の一例
を図２４に示す。図２４において、マルチスカラプロセ
ッサはシーケンサ６と、プロセッシングユニット７−１
〜７−３と、結合ネットワーク８と、データバンク９−
１〜９−３とから構成されている。

【００１０】システム内に複数存在するプロセッシング
ユニット７−１〜７−３各々は命令キャッシュ７１と、
実行ユニット７２と、レジスタファイル７３とから構成
されている。また、これらプロセッシングユニット７−
１〜７−３各々に対応してデータバンク９−１〜９−３
も複数存在し、データバンク９−１〜９−３各々はＡＲ
Ｂ（ＡｄｄｒｅｓｓＲｅｓｏｌｕｔｉｏｎＢｕｆｆ
ｅｒ）９２と、データキャッシュ９１とから構成されて
いる。

【００１１】複数のタスクの同時実行の管理はシーケン
サ６によって行われ、各プロセッシングユニット７−１
〜７−３にタスクを割り付ける。レジスタファイル７３
の各レジスタの内容はタスク記述子の指定によってデー
タ生成時点でフォワードされる。

【００１２】また、「Ｏｎ−ｃｈｉｐＭｕｌｔｉｐｒ
ｏｃｅｓｓｏｒ指向制御並列アーキテクチャＭＵＳＣＡ
Ｔの提案」（鳥居，近藤，本村，小長谷，西著．ＪＳＰ
Ｐ９７ｐｐ．２２９−２３６，Ｍａｙ１９９７）で
は、１スレッドがフォーク命令によってスレッド生成を
行うのがスレッド生存期間中、高々１回に限るというフ
ォーク１回モデルと、スレッド生成時にレジスタファイ
ルの全てのレジスタの一括継承を行うスレッド実行モデ
ルとが提案されている。

【００１３】フォーク１回モデルのイメージを図２３に
示す。フォーク１回モデルはスレッド＃０〜＃３がその
生存期間中、高々１回に限って新しいスレッドを生成
し、スレッド＃０〜＃３の生成順序にしたがってスレッ
ドを終了させるものである。このモデルの導入によっ
て、スレッド管理の簡単化が実現可能である。

【００１４】さらに、特開平１０−０７８８８０号公報
に開示された技術には、フォーク１回モデルによるレジ
スタ継承方法についての実現方法が数種類記載されてい
る。これらの継承方法のうち、ほとんどの実現方法につ
いてはタイミングの相違があるものの、最終的にはレジ
スタ内容をコピーする方式を採用している。しかしなが
ら、レジスタ内容のコピーはコピーバスによる物量増加
や高速化の妨げになる。

【００１５】そのため、上記公報記載の技術ではレジス
タを論理レジスタと物理レジスタとにわけて共有レジス
タを用意し、論理レジスタと物理レジスタとの関係を示
す写像情報のみをコピーすることによって実現する事例
が、命令をプログラム順にしたがわずに非順序に発行す
るｏｕｔ−ｏｆ−ｏｒｄｅｒ発行方式として提案されて
いる。

【００１６】この方式によるプロセッサの構成例を図２
５に示す。図２５においては２スレッド並列実行型プロ
セッサの構成を示しており、スレッド実行ユニット１２
１ａ，１２１ｂに共有の物理レジスタファイル１２６
と、レジスタビジーテーブル１２９と、レジスタフリー
テーブル１３０と、スレッド管理ユニット１３１とから
構成されている。

【００１７】スレッド実行ユニット１２１ａ，１２１ｂ
は夫々、命令キャッシュ１２２ａ，１２２ｂと、命令デ
コーダ１２３ａ，１２３ｂと、レジスタ写像テーブル１
２４ａ，１２４ｂと、命令キュー１２５ａ，１２５ｂ
と、演算ユニット１２７ａ，１２７ｂと、有効命令順序
バッファ１２８ａ，１２８ｂとから構成されている。

【００１８】このプロセッサではレジスタをソフトウェ
アからアクセスする論理レジスタと、ハードウェア的に
レジスタ内容を保持する物理レジスタとを分離し、その
写像関係をレジスタ写像テーブル１２４ａ，１２４ｂに
保持している。

【００１９】このレジスタ写像テーブル１２４ａ，１２
４ｂの詳細な構成を図２６に示す。図２６において、レ
ジスタ写像テーブル１２４ａ，１２４ｂは論理レジスタ
０〜３１数分の物理レジスタ番号エントリを持ってお
り、論理レジスタ番号を物理レジスタ番号「４５」，
「１３」，「０４」，「２１」，……，「５３」に変換
する。

【００２０】スレッド生成時にはこのレジスタの写像情
報をレジスタ写像テーブル１２４ａ，１２４ｂ間でコピ
ーすることによって、レジスタ内容のコピーを行うこと
なく、レジスタ継承を実現している。

【００２１】

【発明が解決しようとする課題】上述した従来のマルチ
スレッドマイクロプロセッサでは、上記公報記載の技
術、レジスタの継承装置におけるｉｎ−ｏｒｄｅｒ発行
型の事例の場合、スレッド起動時またはスレッド終了時
にレジスタ内容のコピーを行う必要がある。

【００２２】一方、ｏｕｔ−ｏｆ−ｏｒｄｅｒ発行型の
事例の場合にはレジスタ内容のコピーが不要となるが、
レジスタの使用中／未使用を示すスレッド実行ユニット
間で共有のレジスタフリーテーブルが必要となり、論理
やデータパスの複雑化と物量増加とが問題となる。ま
た、１命令毎にレジスタリネーミング（レジスタ名前替
え）を伴うので、ｉｎ−ｏｒｄｅｒ発行型に適用するに
は無駄が多いという問題がある。

【００２３】そこで、本発明の目的は上記の問題点を解
消し、レジスタ内容のコピーを行うことなく、ｉｎ−ｏ
ｒｄｅｒ発行型及びｏｕｔ−ｏｆ−ｏｒｄｅｒ発行型の
どちらにも高効率でかつ細粒度のスレッドに対しても高
性能なプロセッサにおけるレジスタ内容の継承装置を提
供することにある。

【００２４】

【課題を解決するための手段】本発明によるプロセッサ
におけるレジスタ内容の継承装置は、論理的に複数のプ
ログラムカウンタを備え、前記複数のプログラムカウン
タにしたがった複数のスレッドの命令を同時にフェッ
チ、解釈、実行する複数のスレッド実行ユニットからな
るプロセッサにおけるレジスタ内容の継承装置であっ
て、前記複数のスレッド実行ユニット各々の間に共有さ
れかつ複数の物理レジスタからなる共有物理レジスタフ
ァイルと、前記複数のスレッド実行ユニット各々に設け
られかつ前記スレッド実行ユニット内の１つの論理レジ
スタを前記共有物理レジスタファイル中の特定の複数の
物理レジスタのうちの一つとの間に写像関係を定義する
変換テーブルと、前記複数のスレッド実行ユニット各々
の変換テーブルの情報を隣接するスレッド実行ユニット
にコピーする手段とを備え、前記１つの論理レジスタと
の間で前記写像関係が定義される複数の物理レジスタ毎
にグループ化しかつそのグループ内の位置を示す情報を
前記変換テーブルの情報に付加して前記写像関係を定義
している。

【００２５】すなわち、本発明のプロセッサにおけるレ
ジスタ内容の継承装置は、上記目的を達成するために、
論理レジスタと共有物理レジスタファイルとの割り付け
関係に制約を設けている。

【００２６】これは共有物理レジスタファイルを論理レ
ジスタ数分のグループに分割し、ある論理レジスタを共
有レジスタファイルの一つのグループに属する物理レジ
スタにしか、写像関係を割り付けないという制約であ
る。

【００２７】写像関係は現在の論理レジスタが物理レジ
スタファイルグループ内のどこに配置されるかというポ
インタ情報となり、レジスタ継承時にはこのポインタを
コピーし、継承後のスレッドが当該レジスタを更新する
時に高々１回に限って写像ポインタを進めることによっ
て、レジスタのスレッド生成時継承の生成後の独立操作
を実現している。

【００２８】これによって、レジスタ内容のコピーを行
うことなく、ｉｎ−ｏｒｄｅｒ発行型及びｏｕｔ−ｏｆ
−ｏｒｄｅｒ発行型のどちらにも高効率でかつ細粒度の
スレッドに対しても高性能とすることが可能となる。

【００２９】

【発明の実施の形態】次に、本発明の実施例について図
面を参照して説明する。図１は本発明の第１の実施例に
よるプロセッサにおけるレジスタ内容の継承装置の基本
的な概念を示す図である。図において、スレッド実行ユ
ニット（＃０）１−０上のプログラムから使用される論
理レジスタ１０−０、スレッド実行ユニット（＃１）１
−１上のプログラムから使用される論理レジスタ１０−
１に対して、物理共有レジスタファイル２内のあるエン
トリを割り付け、この割り付け写像情報をスレッド実行
ユニット（＃０）１−０のレジスタ写像テーブル（＃
０）１１−０とスレッド実行ユニット（＃１）１−１の
レジスタ写像テーブル（＃１）１１−１との間でコピー
することによって、レジスタの実値をコピーすることな
く、レジスタのスレッド継承を実現するものである。

【００３０】図２は本発明の第１の実施例によるプロセ
ッサにおけるレジスタ内容の継承装置の構成を示すブロ
ック図である。図２においては４スレッド並列実行型プ
ロセッサの構成を示している。

【００３１】このプロセッサはスレッド管理ユニット３
と、４組のスレッド実行ユニット（＃０〜＃３）１−０
〜１−３と、物理共有レジスタファイル２とから構成さ
れている。

【００３２】スレッド実行ユニット１−０〜１−３各々
は命令キャッシュ（＃０〜＃３）１２−０〜１２−３
と、命令デコーダ（＃０〜＃３）１３−０〜１３−３
と、レジスタ写像テーブル（＃０〜＃３）１１−０〜１
１−３と、演算ユニット（＃０〜＃３）１４−０〜１４
−３とから構成されている。

【００３３】また、レジスタ写像テーブル１１−０〜１
１−３各々は写像情報転送バス１００によってリング状
をなすように、隣接するレジスタ写像テーブル１１−０
〜１１−３に接続されている。プロセッサとしては上記
の構成のほかにロードストアユニットやデータキャッシ
ュメモリ、及び外部インタフェース等が必要になるが、
本発明に直接関係ないのでその図示及び説明を省略す
る。

【００３４】図３は図２のスレッド実行ユニット１−０
〜１−３各々のパイプラインステージを示す図である。
図において、スレッド実行ユニット１−０〜１−３各々
のパイプラインステージにおいては命令の実行が、命令
フェッチステージ３１、命令デコードステージ３２、レ
ジスタ変換ステージ３３、実行ステージ３４、レジスタ
書き戻しステージ３５の５段のステージを経て完了す
る。

【００３５】図４は図２の物理共有レジスタファイル２
の詳細な構成を示す図である。図において、物理レジス
タファイル２は論理レジスタ番号２２毎にスレッド実行
ユニット１−０〜１−３の数の２倍の物理レジスタ２１
から構成される。したがって、本実施例では１論理レジ
スタに対して８個の物理レジスタ２１が対応付けられる
ことになる。

【００３６】各物理レジスタ２１はグループ選択ビット
２３のＡ，Ｂの２つのグループ２４，２５に分けられ、
夫々スレッド実行ユニット１−０〜１−３の数分の物理
拡張ビット２６を持つ。

【００３７】図５は図４の物理レジスタ２１のフォーマ
ットを示す図である。図において、物理レジスタ２１は
３２本の論理レジスタセットをもつ命令セットの場合、
物理拡張ビット２６と、グループ選択ビット２３と、論
理レジスタ番号２２とからなる。その場合、論理レジス
タセット数が変化すれば論理レジスタ番号２２を示すビ
ット数が変化し、スレッド実行ユニット１−０〜１−３
の数が変化すれば物理拡張ビット２６の値が変化する。

【００３８】図６は図２のレジスタ写像テーブル１１の
詳細な構成を示す図である。図において、レジスタ写像
テーブル１１は論理レジスタ番号２２毎にグループ選択
ビット４１によって選択されるＡ，Ｂのグループに分け
られ、夫々物理拡張ビット４３と、変更ビット４４と、
書き戻しビット４５と、継承時グループ選択ビット４２
とから構成されている。

【００３９】グループ選択ビット４１は当該スレッド実
行ユニット１−０〜１−３が参照する共有物理レジスタ
ファイル２のグループを示しており、物理拡張ビット４
３によってその中のどの物理レジスタ２１を参照するの
かを示している。

【００４０】変更ビット４４は当該スレッド実行ユニッ
ト１−０〜１−３によって、グループ選択ビット４１に
よって選択されている物理レジスタ２１を更新する命令
を１回以上デコードしたか否かを示す。

【００４１】書き戻しビット４５は物理レジスタ２１を
更新した命令が１個以上実際に完了したか否かを示す。
継承時グループ選択ビット４２はレジスタを当該スレッ
ド実行ユニット１−０〜１−３から別のスレッド実行ユ
ニット１−０〜１−３に継承した時点でのグループ選択
ビット４１の内容をコピーしたものである。

【００４２】図７は図２のレジスタ写像テーブル１１の
１エントリの詳細な構成を示す図である。図７におい
て、レジスタ写像テーブル１１は図６に示すビット以外
に、加算器５１ａ，５１ｂと、マルチプレクサ５２ａ〜
５２ｄと、書込み動作論理５３とが設けられている。

【００４３】グループ選択ビット４１はフォーク１回モ
デルにおけるフォーク、すなわちスレッド生成が行われ
た後に当該スレッド実行ユニット１−０〜１−３の命令
によって１回目にレジスタ値を変更した場合にセットさ
れる。

【００４４】フォーク後の１回目の書換えか否かの判断
はグループ選択ビット４１と継承時グループ選択ビット
４２との値の排他的論理和をとって行う。継承時グルー
プ選択ビット４２はスレッド生成時のグループ選択ビッ
ト４１のコピーを保持しているので、この判断を行うこ
とができる。

【００４５】また、変更ビット４４ａ，４４ｂは自スレ
ッドの起動時にはグループ選択ビット４１で選択されて
いるグループ側がリセットされ、非選択側がセットされ
る。その後、当該レジスタ値を変更する命令を命令デコ
ーダ１３から受け取った際に、グループ選択ビット４１
で選択されている側の変更ビット４４ａ，４４ｂがセッ
トされる。

【００４６】書き戻しビット４５ａ，４５ｂは自スレッ
ドの起動時にグループ選択ビット４１によって選択側が
リセット、非選択側がセットされており、リセットされ
ている書き戻しビット４５ａ，４５ｂは演算ユニット１
４によって演算された実際の計算結果が物理共有レジス
タファイル２に書き戻される際にセットされる。

【００４７】これによって、以下の様な参照方針で、論
理レジスタ１０に対して物理レジスタ番号に拡張を行
う。まず、読出し参照時であるが、マルチプレクサ５２
ａ，５２ｂは変更ビット４４ａ，４４ｂがリセットされ
ている時に物理拡張ビット４３ａ，４３ｂの値を直接出
力し、セットされている時に物理拡張ビット４３ａ，４
３ｂの値に加算器５１ａ，５１ｂで１を加算した値を出
力する。

【００４８】この物理拡張ビット４３ａ，４３ｂの値に
１を加算することで、非選択側が用いる物理共有レジス
タファイル２においてレジスタの競合の発生を防止して
いる。このレジスタの競合の発生の防止は非選択側が自
ユニットでの変更時に用いられるため、前段のユニット
と自ユニットとが、あるいは自ユニットと後段のユニッ
トとが同じレジスタを使用しないようにすることで実現
することができる。

【００４９】マルチプレクサ５２ｃはグループ選択ビッ
ト４１によって、ＡグループもしくはＢグループのどち
らかの値を読出して参照用の物理拡張ビット２６として
出力するかを選択する。

【００５０】一方、書込み参照用の物理拡張ビット２６
はＡグループもしくはＢグループのどちらを選択するに
しても、常に物理拡張ビット４３ａ，４３ｂに１を加算
した値を出力する必要がある。

【００５１】したがって、マルチプレクサ５２ｄに対す
る入力はＡグループもしくはＢグループのどちらも物理
拡張ビット４３ａ，４３ｂから加算器５１ａ，５１ｂを
通った値を用いる。ＡグループもしくはＢグループの選
択は基本的にグループ選択ビット４１の値にしたがう
が、上記のグループ選択ビット４１を切り替える際には
先行して切り替え先の方を選択する。

【００５２】この制御は書込み動作論理５３によって行
われる。また、物理拡張ビット４３ａ，４３ｂは加算に
よって用意された桁が溢れると、０に戻される。さら
に、スレッド生成時にはグループ選択ビット４１及びマ
ルチプレクサ５２ａ，５２ｂから出力される物理拡張ビ
ット４３ａ，４３ｂをスレッド生成先のレジスタ写像テ
ーブル１１を介してコピーする。

【００５３】以下、スレッド起動後の通常のレジスタ参
照動作、スレッド生成時の動作、スレッド生成後のレジ
スタ参照動作について、夫々時間順序を追って説明す
る。以下の説明は主に図３におけるレジスタ変換ステー
ジ３３によって行われる動作である。

【００５４】図８は本発明の第１の実施例における通常
の動作時のグループ選択ビット４１、物理拡張ビット４
３ａ，４３ｂ、変更ビット４４ａ，４４ｂの値の遷移と
それによってレジスタ継承が実現できる仕組みを説明す
るための図である。尚、ここでは書き戻しビット４５
ａ，４５ｂの動作については省略しており、この書き戻
しビット４５ａ，４５ｂの説明は後述する。

【００５５】さて、スレッド実行ユニット（＃０）１−
０で新規スレッドが起動した（イ）の時点では、グルー
プ選択ビット４１は「Ａ」となっており、選択側の
「Ａ」の物理拡張ビット４３ａは０、変更ビット４４ａ
は０となっている。

【００５６】非選択側の「Ｂ」の物理拡張ビット４３ｂ
は０であるが、変更ビット４４ｂは非選択側のため、予
め１がセットされている。この場合、論理レジスタ１０
は「Ａ」の０に位置する物理レジスタ２１を読出して参
照する。

【００５７】書込み参照が生じた際、すなわちレジスタ
変更（ロ）の時点では、「Ａ」の変更ビット４４ａが１
にセットされる。変更は「Ａ」の１に位置する物理レジ
スタ２１に対して行われ、その後の読出し参照も同一レ
ジスタに対して行われる。その後、同一レジスタに対す
る書込み参照が生じても、グループ選択ビット４１や変
更ビット４４ａ，４４ｂは変更しない。

【００５８】次に、新たにスレッドを生成する（ハ）時
点では、グループ選択ビット４１は「Ａ」であるので
「Ａ」を、変更ビット４４ａ，４４ｂは「Ａ」，「Ｂ」
のいずれにもセットされているので、物理拡張ビット４
３ａ，４３ｂの値に１を加算した値をスレッド実行ユニ
ット（＃１）１−１のレジスタ写像テーブル１１−１に
対して送信する。

【００５９】スレッド実行ユニット（＃０）１−０がス
レッド生成後に初めてレジスタ書込み参照を行う際、す
なわち（ニ）の時点ではグループ選択ビット４１を
「Ａ」から「Ｂ」に変更する。変更は「Ｂ」の１に位置
する物理レジスタ２１に対して行われ、その後の読出し
参照も同一レジスタに対して行われる。

【００６０】その後、同一レジスタに対する書込み参照
が生じても、グループ選択ビット４１や変更ビット４４
ａ，４４ｂは変更しない。これによって、スレッド実行
ユニット（＃１）１−１で参照する可能性のあるレジス
タ値は「Ａ」の０の位置で保持されたままとなる。

【００６１】スレッド実行手段（＃１）１−１ではレジ
スタの書込み参照をおこすことなく、（ホ）の時点で新
スレッドを生成している。したがって、グループ選択側
の「Ａ」の物理拡張ビット４３ａはそのままの値を送信
している。したがって、スレッド実行手段（＃０）１−
０で実行しているスレッドのレジスタ内容はそのままス
レッド実行手段（＃２）１−２で実行されるスレッドに
継承される。また、（ヘ）の時点でレジスタ変更が行わ
れた際にはフォーク後であるので、グループ選択ビット
４１を「Ａ」から「Ｂ」にする。

【００６２】図９は本発明の第１の実施例における投機
的なスレッド生成を伴う場合のグループ選択ビット４
１、物理拡張ビット４３ａ，４３ｂ、変更ビット４４
ａ，４４ｂの値の遷移とそれによってレジスタ継承が実
現できる仕組みを説明するための図である。図９で示し
た動作のうち、（イ）〜（ニ）は図８の（イ）〜（ニ）
の動作と同一である。

【００６３】（ホ）の時点で、スレッド実行ユニット
（＃０）１−０は（ハ）の時点で生成したスレッドの生
成を取消す。さらに、（ヘ）の時点で再びスレッドを生
成する。グループ選択ビット４１は「Ｂ」であるので
「Ｂ」を、変更ビット４４ａ，４４ｂは「Ａ」，「Ｂ」
のどちらともセットされているので、物理拡張ビット４
３ａ，４３ｂの値に１を加算した値をスレッド実行ユニ
ット（＃１）１−１のレジスタ写像テーブル１１に対し
て送信する。

【００６４】これによって、（ニ）の時点で変更された
値がスレッド実行ユニット（＃１）１−１で実行される
スレッドに継承される。（ト）の時点で、再びレジスタ
が変更された場合にはグループ選択ビット４１を再び
「Ａ」に戻す。

【００６５】図１０は図３に示すパイプラインの動作に
おける写像情報のコピーのタイミングを示す図である。
図において、レジスタ写像情報のコピーはスレッド生成
命令がレジスタ変換ステージ（図１０ではサイクル５）
においてスレッド実行ユニット（＃０）１−０からレジ
スタ継承情報が送信され、次のサイクル（図１０ではサ
イクル６）にスレッド実行ユニット（＃１）１−１のレ
ジスタ写像テーブル１１に書込まれる。尚、サイクル５
ではスレッド実行ユニット（＃０）−０のレジスタ写像
テーブル１１のグループ選択ビット４１の内容を同一レ
ジスタ写像テーブル１１内の継承時グループ選択ビット
４２に合わせてコピーする。

【００６６】通常命令Ｅはサイクル７において、このレ
ジスタ写像テーブル１１を参照して継承したレジスタを
アクセスする。尚、スレッド生成先のスレッド実行ユニ
ット１−０〜１−３が他のスレッドを実行中で、スレッ
ドの新規生成要求を受付けられない場合にはその後に受
付け可能になった時点で、継承時グループ選択ビット４
２の値をグループ選択ビット４１の代わりに送信すれば
良い。

【００６７】最後に書き戻しビット４５ａ，４５ｂにつ
いて説明する。書き戻しビット４５ａ，４５ｂはレジス
タを書込み参照する命令が、何らかの要因（例えば、条
件分岐命令の予測の失敗等）で取り消された時に、変更
ビット４４ａ，４４ｂを正しい値に復帰するために用い
られる。

【００６８】書き戻しビット４５ａ，４５ｂは自スレッ
ドの起動時にグループ選択ビット４１によって選択側が
リセット、非選択側がセットされており、リセットされ
ている書き戻しビット４５ａ，４５ｂは演算ユニット１
４によって演算された実際の計算結果が物理共有レジス
タファイル２に書き戻される際にセットされる。

【００６９】つまり、変更ビット４４ａ，４４ｂがセッ
トされており、かつ書き戻しビット４５ａ，４５ｂがセ
ットされていないということは、まだ変更ビット４４
ａ，４４ｂをセットした命令が完了していないことを意
味する。

【００７０】したがって、この段階で命令取消しの事象
が発生した場合には、書き戻しビット４５ａ，４５ｂの
内容を変更ビット４４ａ，４４ｂにコピーして初期値に
戻すことによって、命令取消しの際にレジスタ写像テー
ブル１１を正しい値に復帰させる。

【００７１】上述した方法によって、レジスタの実内容
のコピーを行うことなく、また共有資源を共有物理レジ
スタファイル２のみとして、レジスタの継承を実現する
ことが可能となる。

【００７２】各々の物理拡張ビット２６は継承の際に高
々１が加算されるだけであり、スレッド実行ユニット１
−０〜１−３の数分のレジスタグループを２組持てばこ
れらの機構は実現可能である。

【００７３】図１１は本発明の第２の実施例によるレジ
スタ写像テーブルの詳細な構成を示す図である。図にお
いて、本発明の第２の実施例はレジスタ写像テーブル１
１の構成が異なっている以外は、図１〜図５に示す本発
明の第１の実施例と同様である。

【００７４】図１１において、レジスタ写像テーブル１
１は論理レジスタ番号２２毎にグループ選択ビット４１
によって選択されるＡ，Ｂのグループに分けられ、Ａ，
Ｂ各々のグループは物理拡張ビット４３と、変更ビット
４４と、書き戻しビット４５とからなる。また、レジス
タ写像テーブル１１は継承時グループ選択ビット４２
と、グループ選択変更命令未完了ビット４６とを備えて
いる。

【００７５】グループ選択ビット４１は当該スレッド実
行ユニット１の参照する共有物理レジスタファイル２の
グループを示しており、物理拡張ビット４３と合わせ
て、論理レジスタ番号２２によってどの物理レジスタ２
１に割付けられているかを決定することができる。

【００７６】変更ビット４４は当該スレッド実行ユニッ
ト１−０〜１−３によって、グループ選択ビット４１に
よって選択されている物理レジスタ２１を更新する命令
を１回以上デコードしたか否かを示す。

【００７７】書き戻しビット４５は物理レジスタ２１を
更新した命令が１個以上実際に完了したか否かを示す。
継承時グループ選択ビット４２はレジスタを当該スレッ
ド実行ユニット１−０〜１−３から別のスレッド実行ユ
ニット１−０〜１−３に継承した時点でのグループ選択
ビット４１の内容をコピーしたものである。

【００７８】図１２は図１１のレジスタ写像テーブル１
１の１エントリの詳細な構成を示す図である。図１２に
おいて、レジスタ写像テーブル１１は図１１示すビット
以外に、加算器５１ａ，５１ｂと、マルチプレクサ５２
ａ〜５２ｆと、書き込み動作論理５３とが設けられてい
る。

【００７９】グループ選択ビット４１はフォーク１回モ
デルにおけるフォーク、すなわちスレッド生成が行われ
た後に当該スレッド実行ユニット１−０〜１−３の命令
によって１回目にレジスタ値を書込みによって変更する
命令がレジスタ変換ステージ３３を通過した場合に、変
更前の値がセットされている場合（「Ｂ」側を示す）に
はリセット（「Ａ」側を示す）、変更前の値がリセット
されている場合（「Ａ」側を示す）にはセット（「Ｂ」
側を示す）される。

【００８０】グループ選択ビット４１と継承時グループ
選択ビット４２との値が同一の場合に、フォーク後の１
回目の書換えであると検出される。継承時グループ選択
ビット４２はスレッド生成時のグループ選択ビット４１
のコピーを保持しているので、この判断を行うことがで
きる。

【００８１】グループ選択変更命令未完了ビット４６は
グループ選択ビット４１を変更する命令がレジスタ変換
ステージ３３を通過した場合にセットされ、その命令が
レジスタ書き戻しステージ３５に至った時点でリセット
される。

【００８２】変更ビット４４ａ，４４ｂは自スレッドの
起動時にはリセットされる。その後、当該レジスタ値を
変更する命令すなわち書込みを命令デコーダ１３から受
取り、レジスタ変換ステージ３３に至った際に、グルー
プ選択ビット４１で選択されいてる側の変更ビット４４
ａ，４４ｂがセットされる。

【００８３】書き戻しビット４５ａ，４５ｂは自スレッ
ドの起動時にリセットされており、演算ユニット１４に
よって演算された実際の計算結果が物理共有レジスタフ
ァイル２に書き戻される際、すなわちレジスタ書き戻し
ステージ３５に至った時点でセットされる。

【００８４】これによって、以下の様な方針で、論理レ
ジスタ１０に対して物理レジスタ番号に拡張を行う。ま
ず、読出し参照時であるが、マルチプレクサ５２ａ，５
２ｂは変更ビット４４ａ，４４ｂがリセットされている
時に物理拡張ビット４３ａ，４３ｂの値を直接出力し、
セットされている時には物理拡張ビット４３ａ，４３ｂ
の値に加算器５１ａ，５１ｂで１を加算した値を選択す
る。

【００８５】これらの値は、マルチプレクサ５１ｃにお
いてグループ選択ビット４１の示す値によってＡグルー
プもしくはＢグループの値が選択され、読出し参照用の
物理拡張ビット２６として出力される。

【００８６】書込みレジスタ変更時に、物理拡張ビット
２６としてはＡグループ、Ｂグループのどちらを選択す
るにしても、常に物理拡張ビット４３ａ，４３ｂの値に
加算器５１ａ，５１ｂで１を加算した値が出力される。
そのため、マルチプレクサ５２ｄに対する入力はＡグル
ープ、Ｂグループどちらも物理拡張ビット４３ａ，４３
ｂから加算器５１ａ，５１ｂを通った値が用いられる。

【００８７】Ａグループ、Ｂグループの選択はグループ
選択ビット４１の値にしたがう。上記のグループ選択ビ
ット４１の書換えを伴うレジスタ変更の場合には、書換
え後のグループを選択する。

【００８８】この制御は書込み動作論理５３によって行
われる。また、物理拡張ビット４３ａ，４３ｂは加算に
よって用意された桁が溢れると０に戻される。さらに、
スレッド生成時にはスレッド生成先の写像テーブル１１
に値をセットする必要がある。この値はスレッド生成元
の写像テーブル１１の値に基づいて決定される。

【００８９】まず、グループ選択ビット４１はスレッド
生成元の写像テーブル１１のグループ選択ビット４１と
同じ値がセットされる。次に、物理拡張ビット４３ａ，
４３ｂはスレッド生成元の写像テーブル１１のグループ
選択ビット４１で選択されているグループの物理拡張ビ
ット４３ａ，４３ｂに対応する変更ビット４４ａ，４４
ｂがセットされている場合に物理拡張ビット４３ａ，４
３ｂに１を加算した値、セットされていない場合に物理
拡張ビット４３ａ，４３ｂとなる。

【００９０】一方、スレッド生成元の写像テーブル１１
のグループ選択ビット４１で選択されていないグループ
の物理拡張ビット４３ａ，４３ｂでは常に物理拡張ビッ
ト４３ａ，４３ｂに１を加算した値をセットする。変更
ビット４４ａ，４４ｂ、書き戻しビット４５ａ，４５
ｂ、グループ選択変更命令未完了ビット４６、継承時グ
ループ選択ビット４２はリセットされる。同時に、スレ
ッド生成元の写像テーブルではグループ選択ビット４１
の値を継承時グループ選択ビット４２にコピーする。

【００９１】このように、書込みによるレジスタ変更後
は常に物理拡張ビット４３ａ，４３ｂに１を加算した値
を用いることによって、スレッド実行ユニット１−０〜
１−３で用いる論理レジスタ番号２２がレジスタの継承
時には物理共有レジスタファイル２において同一の物理
拡張ビット２６となり、変更が生じた時には異なった物
理拡張ビット２６となり、スレッド実行ユニット１−０
〜１−３で論理的に独立した論理レジスタ１０−０，１
０−１とレジスタ継承を実現することができる。

【００９２】以下、スレッド起動後の通常のレジスタ参
照動作、スレッド生成時の動作、スレッド生成後のレジ
スタ参照動作について、夫々時間順序を追って説明す
る。以下の説明は主に図３におけるレジスタ変換ステー
ジ３３によって行われる動作である。

【００９３】図１３は本発明の第２の実施例における通
常の動作時のグループ選択ビット４１、物理拡張ビット
４３ａ，４３ｂ、変更ビット４４ａ，４４ｂの値の遷移
とそれによってレジスタ継承が実現できる仕組みを説明
するための図である。尚、ここでは書き戻しビット４５
ａ，４５ｂ及びグループ選択変更命令未完了ビット４６
の説明は省略しており、これら書き戻しビット４５ａ，
４５ｂ及びグループ選択変更命令未完了ビット４６の役
割の説明は後述する。

【００９４】さて、スレッド実行ユニット（＃０）１−
０で新規スレッドが起動した（イ）の時点では、グルー
プ選択ビット４１は「Ａ」となっており、選択側の
「Ａ」の物理拡張ビット４３ａは０、変更ビット４４ａ
は０、非選択側の「Ｂ」の物理拡張ビット４３ｂは０、
変更ビット４４ｂも０となっている。

【００９５】この場合、レジスタを読出す際には「Ａ」
の０に位置する物理レジスタ２１を参照する。レジスタ
書込みによる変更を行う命令を発行してレジスタ変換ス
テージ３３に達した際、すなわちレジスタ変更（ロ）の
時点では、「Ａ」の変更ビット４３ａが１にセットされ
る。

【００９６】変更は「Ａ」の１に位置する物理レジスタ
２１に対して行われ、その後の読出し参照も同一レジス
タに対して行われる。その後、同一レジスタに対する書
込み参照が生じても、グループ選択ビット４１、変更ビ
ット４３ａは変更しない。

【００９７】次に、新たにスレッドを生成する（ハ）の
時点では、グループ選択ビット４１の値（ここでは
「Ａ」）と、変更ビット４４ａは選択側の「Ａ」がセッ
トされているので、物理拡張ビット４３ａに１を加算し
た値（ここでは１）、非選択側は変更ビット４４ｂに関
係なく物理拡張ビット４３ｂの値を１加算した値（ここ
では１）をスレッド実行ユニット（＃１）１−１のレジ
スタ写像テーブル１１に対して送信する。

【００９８】スレッド実行ユニット（＃０）１−０がス
レッド生成後に初めてレジスタ書込み参照を行う命令を
発行する際、すなわち（ニ）の時点ではグループ選択ビ
ット４１の値を「Ａ」から「Ｂ」に変更し、変更ビット
４４ｂをセットする。

【００９９】変更は「Ｂ」の１に位置する物理レジスタ
２１に対して行われ、その後の読出し参照も同一レジス
タに対して行われる。その後、同一レジスタに対する書
込み参照が生じても、グループ選択ビット４１、変更ビ
ット４４ｂは変更しない。これによって、スレッド実行
ユニット（＃１）１−１で参照する可能性の有るレジス
タ値は「Ａ」の０の位置で保持されたままとなる。

【０１００】スレッド実行ユニット（＃１）１−１では
レジスタの書込み参照をおこすことなく、（ホ）の時点
で新スレッドを生成している。したがって、グループ選
択側の「Ａ」の物理拡張ビット４３ａはそのままの値を
送信している。よって、スレッド実行ユニット（＃０）
１−０で実行しているスレッドのレジスタ内容がそのま
まスレッド実行ユニット（＃２）１−２で実行されるス
レッドに継承される。また、（ヘ）の時点でレジスタ変
更が行われた際にはフォーク後であるので、グループ選
択ビット４１の値を「Ａ」から「Ｂ」にし、変更ビット
４４ｂをセットする。

【０１０１】図１４は本発明の第２の実施例における投
機的なスレッド生成を伴う場合のグループ選択ビット４
１、物理拡張ビット４３ａ，４３ｂ、変更ビット４４
ａ，４４ｂの値の遷移とそれによってレジスタ継承が実
現できる仕組みを説明するための図である。図１４で示
した動作のうち、（イ）〜（ニ）は図１３の（イ）〜
（ニ）の動作と同一である。

【０１０２】（ホ）の時点で、スレッド実行ユニット
（＃０）１−０は（ハ）によって生成したスレッドの生
成を取消す。さらに、（ヘ）の時点で再びスレッドを生
成する。この時、グループ選択ビット４１は「Ｂ」であ
るので「Ｂ」を、選択側「Ｂ」の変更ビット４４ｂはセ
ットされているので、物理拡張ビット４３ｂの値に１を
加算した値を、非選択側Ａは変更ビット４４ａの値に関
わらず、物理拡張ビット４３ａの値に１を加算した値を
夫々スレッド実行ユニット（＃１）１−１のレジスタ写
像テーブル１１に対して送信する。

【０１０３】これによって、（ニ）の時点で変更された
値がスレッド実行ユニット（＃１）１−１で実行される
スレッドに継承される。（ト）の時点で、スレッド実行
ユニット（＃０）１−０が再びレジスタを変更する場合
にはグループ選択ビット４１を再び「Ａ」に戻す。

【０１０４】最後に書き戻しビット４５ａ，４５ｂ、グ
ループ選択変更命令未完了ビット４６の役割について説
明する。書き戻しビット４５ａ，４５ｂ、グループ選択
変更命令未完了ビット４６はレジスタを書込み参照する
命令が、何らかの要因（例えば、条件分岐命令の予測の
失敗等）で取消された時に、変更ビット４４ａ，４４
ｂ，グループ選択ビット４１を取消された書込み参照命
令実行前の状態に復帰させるために用いられる。

【０１０５】書き戻しビット４５ａ，４５ｂは自スレッ
ドの起動時にリセットされている。書き戻しビット４５
ａ，４５ｂは演算ユニット１４によって演算された実際
の計算結果が物理共有レジスタファイル２に書き戻され
る際、すなわち図３におけるレジスタ書き戻しステージ
３５でセットされる。

【０１０６】一方、変更ビット４４ａ，４４ｂはレジス
タ書込み命令の発行時、すなわち図３におけるレジスタ
変換ステージ３３にセットされる。これらのことから、
変更ビット４４ａ，４４ｂがセットされており、かつ書
き戻しビット４５ａ，４５ｂがセットされていないとい
う状態は変更ビット４４ａ，４４ｂをセットした命令が
完了していないことを意味する。

【０１０７】したがって、この段階で命令取消しの事象
が発生した場合には、書き戻しビット４５ａ，４５ｂの
内容を変更ビット４４ａ，４４ｂにコピーすることによ
って、取消し命令の書込み参照前の値に戻すことが可能
になる。

【０１０８】グループ選択変更命令未完了ビット４６は
スレッド起動時にリセットされており、グループ選択ビ
ット４１を変更する命令がレジスタ変換ステージ３３に
達した時にセットされ、レジスタ書き戻しステージ３５
に達した時にリセットされる。すなわち、グループ選択
変更命令未完了ビット４６がセットされている間は、グ
ループ選択ビット４１を変更する命令が完了していない
ことになる。

【０１０９】この状態で命令の取消しが生じた場合に
は、セットされているグループ選択変更命令未完了ビッ
ト４６に対応してグループ選択ビット４１を反転させ
る。その後、グループ選択変更命令未完了ビット４６を
リセットする。これらの処理によって、命令取消しの際
にレジスタ写像マップ１１を命令実行前の状態に復帰す
ることが可能となる。

【０１１０】以上説明した方法によって、レジスタの実
内容のコピーを行うことなく、また共有資源を共有物理
レジスタファイル２のみとして、レジスタの継承を実現
することが可能となる。

【０１１１】各々の物理拡張ビット２６は継承の際に高
々１が加算されるだけであり、スレッド実行ユニット１
−０〜１−３の数に相当した数のレジスタグループを２
組持てば、これらの機構が実現可能であることを示して
いる。

【０１１２】次に、本発明の第３の実施例について説明
する。本発明の第３の実施例は上述した本発明の第１の
実施例の形態に準じているが、それらの相違点について
以下に説明する。

【０１１３】図１５は本発明の第３の実施例によるプロ
セッサにおけるレジスタ内容の継承装置の構成を示すブ
ロック図である。図１５においては４スレッド並列実行
型プロセッサの構成を示している。

【０１１４】本発明の第３の実施例によるプロセッサは
本発明の一実施例のレジスタ写像テーブル（＃０〜＃
３）１１−０〜１１−３の代わりにレジスタ写像テーブ
ル（＃０〜＃３）６３−０〜６３−３を設け、命令発行
キュー６１及びレジスタ有効テーブル６２を追加した以
外は本発明の一実施例によるプロセッサと同様の構成と
なっており、同一構成要素には同一符号を付してある。

【０１１５】すなわち、本発明の第３の実施例によるプ
ロセッサはスレッド管理ユニット３と、４組のスレッド
実行ユニット（＃０〜＃３）１−０〜１−３と、物理共
有レジスタファイル２とから構成されている。

【０１１６】スレッド実行ユニット１−０〜１−３各々
は命令キャッシュ（＃０〜＃３）１２−０〜１２−３
と、命令デコーダ（＃０〜＃３）１３−０〜１３−３
と、レジスタ写像テーブル（＃０〜＃３）６３−０〜６
３−３と、命令発行キュー（＃０〜＃３）６１−０〜６
１−３と、レジスタ有効テーブル６２−０〜６２−３
と、演算ユニット（＃０〜＃３）１４−０〜１４−３と
から構成されている。

【０１１７】また、レジスタ写像テーブル６３−０〜６
３−３各々は写像情報転送バス１００によってリング状
をなすように、隣接するレジスタ写像テーブルに接続さ
れている。プロセッサとしては上記の構成のほかにロー
ドストアユニットやデータキャッシュメモリ、及び外部
インタフェース等が必要になるが、本発明に直接関係な
いのでその図示及び説明を省略する。

【０１１８】図１６は図１５のレジスタ写像テーブル６
３の詳細な構成を示す図である。図において、レジスタ
写像テーブル６３は追い書きビット６４を追加した以外
は図６に示すレジスタ写像テーブル１１と同様の構成と
なっており、同一構成要素には同一符号を付してある。

【０１１９】図１７は図１５のレジスタ有効テーブル６
２の詳細な構成を示す図である。図において、レジスタ
有効テーブル６２は各論理レジスタ番号ｒ０〜ｒ３１毎
にレジスタ値の有効／無効を示す有効ビット６６を備え
ている。

【０１２０】このレジスタ有効テーブル６２は他のスレ
ッド実行ユニット１−０〜１−３で実行しているスレッ
ドから継承したレジスタの値が確定して有効であるか、
まだ値が確定しておらず無効であるかを示すものであ
る。

【０１２１】図１８は図１５のスレッド実行ユニット１
−０〜１−３各々のパイプラインステージを示す図であ
る。図において、スレッド実行ユニット１−０〜１−３
各々のパイプラインステージにおいては命令の実行が、
命令フェッチステージ３１、命令デコードステージ３
２、レジスタ変換ステージ３３、命令発行キュー６１、
命令発行ステージ６５、実行ステージ３４、レジスタ書
き戻しステージ３５の各ステージを経て完了する。尚、
命令発行ステージ６５から後は非順序で実行される。

【０１２２】命令発行キュー６１は命令発行を非プログ
ラム順序（ｏｕｔ−ｏｆ−ｏｒｄｅｒ）に行うため、命
令使用するのレジスタ値が有効になるまで待ち合わせ、
有効になった命令から発行するために待機するものであ
る。

【０１２３】図１９は図１８に示すパイプラインの動作
における写像情報のコピーのタイミングを示す図であ
る。図においては命令発行キュー６１を用いることによ
って、図１０に示したようなプログラム順序でのレジス
タの書き戻しが行われず、非順序での書き戻しが行われ
る可能性がある。

【０１２４】したがって、新スレッドが起動されたスレ
ッド実行ユニット１−０〜１−３側では継承したレジス
タ値が起動側のスレッド実行ユニット１−０〜１−３側
で書き戻しが完了しない限り、読出し参照することがで
きない。この完了のチェックを行うためにレジスタ有効
テーブル６２を用いる。

【０１２５】レジスタ写像テーブル６３においては読出
し参照を行う際に、グループ選択ビット４１で選択され
ているグループの変更ビット４４ａ，４４ｂがセットさ
れていなければ、命令発行時に有効ビット６６をチェッ
クする必要がある。変更ビット４４ａ，４４ｂがセット
されていなければ、チェックの必要はない。

【０１２６】図２０は図１７に示すレジスタ有効テーブ
ル６２における有効／無効の決定論理を示す図である。
これら図１７〜図２０を参照して、レジスタ有効テーブ
ル６２のセット／リセットの方法について説明する。

【０１２７】レジスタ有効テーブル６２−０〜６２−３
の各有効ビット６６は隣接するスレッド実行ユニット１
−０〜１−３のレジスタ写像テーブル６３−０〜６３−
３に接続されている。レジスタ有効テーブル６２−０〜
６２−３はスレッド生成要求側のレジスタ写像テーブル
６３−０〜６３−３からのレジスタの有効／無効情報を
各サイクル毎に受取り、さらに逆に隣接するレジスタ写
像テーブル６３−０〜６３−３に対して同じ情報を送り
出す。

【０１２８】有効情報はレジスタ写像テーブル６２−０
〜６２−３の各ビットの組合せと隣接するスレッド実行
ユニット１−０〜１−３のレジスタ有効テーブル６２−
０〜６２−３からの入力信号に基づいて、図２０に示す
論理で決定される。

【０１２９】つまり、図２０において、スレッド実行ユ
ニット＃ｎでは前段のスレッド実行ユニット＃（ｎ−
１）からの有効入力に応じて後段のスレッド実行ユニッ
ト＃（ｎ＋１）への有効入力の有効／無効が決定され
る。また、前段のスレッド実行ユニット＃（ｎ−１）か
らの有効入力が無い場合、スレッド実行ユニット＃ｎで
は追い書きビット６４の値に応じて後段のスレッド実行
ユニット＃（ｎ＋１）への有効入力の有効／無効が決定
される。

【０１３０】追い書きビット６４は変更ビット４４と同
時にセットされる。レジスタを変更する命令が書き戻し
の際に、スレッド生成命令までの一般命令によって同一
レジスタに対して書込む命令が存在するか否かを、命令
発行キュー６１−０〜６１−３の命令とパイプラインの
実行ステージ３４に存在する命令との比較を行って確認
し、存在しない場合にリセットする。

【０１３１】つまり、変更ビット４４がセットされてお
り、追い書きビット６４がリセットされている状態とは
スレッド生成までに当該レジスタが書換えられたが、そ
の値が共有物理レジスタファイル２に反映されているこ
とを意味する。この情報から隣接するスレッド実行ユニ
ット１−０〜１−３のレジスタ有効テーブル６２−０〜
６２−３を設定する。変更ビット４４がセットされてい
ない場合にはそれより前のスレッドからの情報をそのま
ま設定する。

【０１３２】以上説明した方法によって、単体のスレッ
ド実行ユニット１−０〜１−３内で非順序で命令が完了
するパイプライン構成においても、レジスタの実内容の
コピーを行うことなく、また共有資源を共有物理レジス
タファイル２のみとして、レジスタの継承を実現するこ
とが可能となる。

【０１３３】続いて、本発明の第４の実施例について説
明する。本発明の第４の実施例は上述した本発明の第２
の実施例の形態に準じているが、それらの相違点につい
て以下に説明する。尚、本発明の第４の実施例は上記の
図１７〜図２０に示す各構成を用いて実現される。

【０１３４】図２１は本発明の第４の実施例によるプロ
セッサにおけるレジスタ内容の継承装置の構成を示すブ
ロック図である。図２１においては４スレッド並列実行
型プロセッサの構成を示している。

【０１３５】本発明の第４の実施例によるプロセッサは
本発明の第２の実施例のレジスタ写像テーブル（＃０〜
＃３）１１−０〜１１−３の構成を変更したレジスタ写
像テーブル（＃０〜＃３）６３−０〜６３−３を設け、
命令発行キュー６１−０〜６１−３と、レジスタ有効テ
ーブル６２−０〜６２−３と、有効決定論理６７−０〜
６７−３とを追加した以外は本発明の第２の実施例によ
るプロセッサと同様の構成となっており、同一構成要素
には同一符号を付してある。

【０１３６】すなわち、本発明の第４の実施例によるプ
ロセッサはスレッド管理ユニット３と４組のスレッド実
行ユニット（＃０〜＃３）１−０〜１−３と物理共有レ
ジスタファイル２とから構成されている。

【０１３７】スレッド実行ユニット（＃０〜＃３）１−
０〜１−３各々は命令キャッシュ（＃０〜＃３）１２−
０〜１２−３と、命令デコーダ（＃０〜＃３）１３−０
〜１３−３と、レジスタ写像テーブル（＃０〜＃３）６
３−０〜６３−３と、命令発行キュー（＃０〜＃３）６
１−０〜６１−３と、レジスタ有効テーブル（＃０〜＃
３）６２−０〜６２−３と、有効決定論理（＃０〜＃
３）６７−０〜６７−３と、演算ユニット（＃０〜＃
３）１４−０〜１４−３とから構成されている。

【０１３８】また、レジスタ写像テーブル（＃０〜＃
３）６３−０〜６３−３各々は写像情報転送バス１００
によってリング状をなすように隣接するレジスタ写像テ
ーブル（＃１〜＃３，＃０）６３−１〜６３−３，６３
−０に接続されている。プロセッサとしては上記の構成
のほかにロードストアユニットやデータキャッシュメモ
リ、及び外部インタフェース等が必要になるが、本発明
に直接関係ないのでその図示及び説明を省略する。

【０１３９】図２２は図２１のレジスタ写像テーブル６
３の詳細な構成を示す図である。図において、レジスタ
写像テーブル６３は追い書きビット６４を追加した以外
は図１１と同様の構成となっており、同一構成要素には
同一符号を付してある。

【０１４０】本発明の第４の実施例において、レジスタ
有効テーブル６１は他のスレッド実行ユニット１、すな
わちレジスタ有効テーブル（＃０）６１−０がスレッド
実行ユニット（＃１〜＃３）１−１〜１−３で実行して
いるスレッドから継承したレジスタの値が確定して有効
であるか（当該レジスタに書込む命令が完了してい
る）、まだ値が確定しておらず無効であるか（当該レジ
スタに書込む命令が完了していない）を示すものであ
る。

【０１４１】また、本発明の第４の実施例のパイプライ
ンステージにおいて、スレッド実行ユニット（＃０〜＃
３）１−０〜１−３各々のパイプラインステージは命令
フェッチステージ３１、命令デコードステージ３２、レ
ジスタ変換ステージ３３、命令発行ステージ６５、実行
ステージ３４、レジスタ書き戻しステージ３５の６段の
ステージを経て実行が完了する。尚、レジスタ変換ステ
ージ３３と命令発行ステージ６５との間には命令発行キ
ュー６１が挿入されており、命令発行ステージ６５以降
は命令を発行する準備の整った命令から非プログラム順
序（ｏｕｔ−ｏｆ−ｏｒｄｅｒ）で実行される。

【０１４２】命令発行キュー６１は命令を発行する準備
の整った命令から非プログラム順序（ｏｕｔ−ｏｆ−ｏ
ｒｄｅｒ）で命令発行を行うため、命令が使用するレジ
スタ値が有効になるまで待合せ、有効になった命令から
発行するために待機するものである。

【０１４３】本発明の第４の実施例においては命令発行
キュー６１を用いることによって、図１０に示したよう
なプログラム順序でのレジスタの書き戻しは行われず、
非順序での書き戻しが行われる。

【０１４４】したがって、新スレッドが起動されたスレ
ッド実行ユニット（＃１）１−１側では継承したレジス
タ値が起動側のスレッド実行ユニット（＃０）１−０側
で書き戻しが完了しない限り、読出し参照を抑止する必
要が生じる。この書き戻しの完了のチェックを行うため
にレジスタ有効テーブル６２を用いている。

【０１４５】あるレジスタの読出し参照を行う命令はレ
ジスタ変換ステージ３３で、レジスタ写像テーブル６３
において、命令発行時にレジスタ有効テーブル６２をチ
ェックする必要があるか否かを決定する。

【０１４６】もし、レジスタ写像テーブル６３のグルー
プ選択ビット４１で選択されているグループの変更ビッ
ト４４がセットされていなければ、命令発行時に有効ビ
ット６６をチェックする必要がある。変更ビット４４が
セットされている場合には、有効ビット６６をチェック
する必要はない。なぜならば、自スレッドですでに該当
レジスタに対して書き込みを行っているので、スレッド
間での継承は終っていることが判定できるためである。

【０１４７】命令発行キュー６１において、この有効ビ
ット６６のチェックが必要と判定された命令は命令の発
行可否を調べる際に、レジスタ有効テーブル６２の有効
ビット６６をチェックする。チェックの結果、無効であ
るということが示されていれば、その命令は、有効にな
るまで発行を行わない制御を行う。

【０１４８】本発明の第４の実施例において、有効決定
論理（＃０）６７−０は入力がレジスタ有効テーブル
（＃０）６２−０及びレジスタ写像テーブル６３の値か
ら、レジスタ有効テーブル（＃１）６２−１に対する有
効／無効を決定して出力する。以下、これらの図２１及
び図２２と１７〜図２０とを参照して、レジスタ有効テ
ーブル６２のセット／リセットの方法について説明す
る。

【０１４９】追い書きビット６４は変更ビット４４と同
時にセットされる。レジスタを変更する命令が書き戻し
の際に、スレッド生成命令までの一般命令によって同一
レジスタに対して書込む命令が存在するか否かを、命令
発行キュー６１とパイプラインの実行ステージ３４に存
在する命令との比較で判定し、存在しない場合にリセッ
トする。

【０１５０】つまり、変更ビット４４がセットされてお
り、追い書きビット６４がリセットされている状態とは
スレッド生成までに当該レジスタが書換えられ、その値
が共有物理レジスタファイル２に反映されていることを
意味する。

【０１５１】一方、変更ビット４４、追い書きビット６
４が共にセットされている場合には、スレッド生成まで
に当該レジスタを書換える命令を発行したが、その命令
が完了していないことを示す。

【０１５２】フォーク後の書換えの場合は継承時グルー
プ選択ビット４２からフォーク後の書換えを、有効決定
論理６７を図２０の論理によって判断し、誤った無効信
号が出力されないようにしている。

【０１５３】スレッドが生成された側のレジスタ有効テ
ーブル６２はスレッド生成側の有効決定論理６７によっ
て生成された値によって有効ビット６６を設定し、先述
したように命令発行キュー６１からの命令発行可否を決
定する。

【０１５４】このように、フォーク１回モデルを活用し
たスレッド間レジスタ継承が可能となり、データの引渡
しに共有メモリを介す必要がなくなり、効率的なマルチ
スレッド実行が可能となる。

【０１５５】また、このレジスタ内容の継承はｉｎ−ｏ
ｒｄｅｒ／ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行を行うプロセ
ッサに対しても、レジスタ以外の共有資源を用いずにフ
ォーク命令前後間においても実現することが可能となる
ため、スレッド生成にともなうオーバヘッドを減らすこ
とが可能になり、高度な単体のスレッド実行ユニット１
−０〜１−３が利用可能となり、高速なマルチスレッド
プロセッサが可能となる。

【０１５６】以上、図面を参照して本発明について具体
的に詳述したが、上述した本発明の第１〜第４の実施例
は本発明の具体例にすぎず、本発明の技術的範囲を何ら
限定するものではない。

【０１５７】

【発明の効果】以上説明したように本発明によれば、論
理的に複数のプログラムカウンタを備え、複数のプログ
ラムカウンタにしたがった複数のスレッドの命令を同時
にフェッチ、解釈、実行する複数のスレッド実行ユニッ
トからなるプロセッサにおけるレジスタ内容の継承装置
において、複数の物理レジスタからなる共有物理レジス
タファイルを複数のスレッド実行ユニット各々の間で共
有とし、スレッド実行ユニット内の１つの論理レジスタ
を共有物理レジスタファイル中の特定の複数の物理レジ
スタのうちの一つとの間に写像関係を定義する変換テー
ブルと、複数のスレッド実行ユニット各々の変換テーブ
ルの情報を隣接するスレッド実行ユニットにコピーする
手段とを複数のスレッド実行ユニット各々に設け、１つ
の論理レジスタとの間で写像関係が定義される複数の物
理レジスタ毎にグループ化しかつそのグループ内の位置
を示す情報を変換テーブルの情報に付加して写像関係を
定義することによって、レジスタ内容のコピーを行うこ
となく、ｉｎ−ｏｒｄｅｒ発行型及びｏｕｔ−ｏｆ−ｏ
ｒｄｅｒ発行型のどちらにも高効率でかつ細粒度のスレ
ッドに対しても高性能とすることができるという効果が
ある。

【図面の簡単な説明】

【図１】本発明の第１の実施例によるプロセッサにおけ
るレジスタ内容の継承装置の基本的な概念を示す図であ
る。

【図２】本発明の第１の実施例によるプロセッサにおけ
るレジスタ内容の継承装置の構成を示すブロック図であ
る。

【図３】図２のスレッド実行ユニット各々のパイプライ
ンステージを示す図である。

【図４】図２の物理共有レジスタファイルの詳細な構成
を示す図である。

【図５】図４の物理レジスタのフォーマットを示す図で
ある。

【図６】図２のレジスタ写像テーブルの詳細な構成を示
す図である。

【図７】図２のレジスタ写像テーブルの１エントリの詳
細な構成を示す図である。

【図８】本発明の第１の実施例における通常の動作時の
グループ選択ビット、物理拡張ビット、変更ビットの値
の遷移とそれによってレジスタ継承が実現できる仕組み
を説明するための図である。

【図９】本発明の第１の実施例における投機的なスレッ
ド生成を伴う場合のグループ選択ビット、物理拡張ビッ
ト、変更ビットの値の遷移とそれによってレジスタ継承
が実現できる仕組みを説明するための図である。

【図１０】図３に示すパイプラインの動作における写像
情報のコピーのタイミングを示す図である。

【図１１】本発明の第２の実施例によるレジスタ写像テ
ーブルの詳細な構成を示す図である。

【図１２】図１１のレジスタ写像テーブルの１エントリ
の詳細な構成を示す図である。

【図１３】本発明の第２の実施例における通常の動作時
のグループ選択ビット、物理拡張ビット、変更ビットの
値の遷移とそれによってレジスタ継承が実現できる仕組
みを説明するための図である。

【図１４】本発明の第２の実施例における投機的なスレ
ッド生成を伴う場合のグループ選択ビット、物理拡張ビ
ット、変更ビットの値の遷移とそれによってレジスタ継
承が実現できる仕組みを説明するための図である。

【図１５】本発明の第３の実施例によるプロセッサにお
けるレジスタ内容の継承装置の構成を示すブロック図で
ある。

【図１６】図１５のレジスタ写像テーブルの詳細な構成
を示す図である。

【図１７】図１５のレジスタ有効テーブルの詳細な構成
を示す図である。

【図１８】図１５のスレッド実行ユニット各々のパイプ
ラインステージを示す図である。

【図１９】図１８に示すパイプラインの動作における写
像情報のコピーのタイミングを示す図である。

【図２０】図１７に示すレジスタ有効テーブルにおける
有効／無効の決定論理を示す図である。

【図２１】本発明の第４の実施例によるプロセッサにお
けるレジスタ内容の継承装置の構成を示すブロック図で
ある。

【図２２】図２１のレジスタ写像テーブルの詳細な構成
を示す図である。

【図２３】従来のフォーク１回モデルの概念を示す図で
ある。

【図２４】従来のマルチスカラプロセッサの構成を示す
ブロック図である。

【図２５】従来のレジスタ写像テーブルを用いたマルチ
スレッドプロセッサの構成を示す図である。

【図２６】図２４のプロセッサのレジスタ写像テーブル
の構成を示すブロック図である。

【符号の説明】

１−０〜１−３スレッド実行ユニット２物理共有レジスタファイル３スレッド管理ユニット１０−０，１０−１プログラムから使用される論理レ
ジスタ１１−０〜１１−３，６３−０〜６３−３レジスタ写
像テーブル１２−０〜１２−３命令キャッシュ１３−０〜１３−３命令デコーダ１４−０〜１４−３演算ユニット２１物理レジスタ２２論理レジスタ番号２３，４１グループ選択ビット２６，４３，４３ａ，４３ｂ物理拡張ビット３１命令フェッチステージ３２命令デコードステージ３３レジスタ変換ステージ３４実行ステージ３５レジスタ書き戻しステージ４２継承時グループ選択ビット４４，４４ａ，４４ｂ変更ビット４５，４５ａ，４５ｂ書き戻しビット４６グループ選択変更命令未完了ビット５１ａ，５１ｂ加算器５２ａ〜５２ｆマルチプレクサ５３書込み動作論理６１−０〜６１−３命令発行キュー６２−０〜６２−３レジスタ有効テーブル６４追い書きビット６６有効ビット６７−０〜６７−３有効決定論理

Claims

【特許請求の範囲】

【請求項１】論理的に複数のプログラムカウンタを備
え、前記複数のプログラムカウンタにしたがった複数の
スレッドの命令を同時にフェッチ、解釈、実行する複数
のスレッド実行ユニットからなるプロセッサにおけるレ
ジスタ内容の継承装置であって、前記複数のスレッド実
行ユニット各々の間に共有されかつ複数の物理レジスタ
からなる共有物理レジスタファイルと、前記複数のスレ
ッド実行ユニット各々に設けられかつ前記スレッド実行
ユニット内の１つの論理レジスタを前記共有物理レジス
タファイル中の特定の複数の物理レジスタのうちの一つ
との間に写像関係を定義する変換テーブルと、前記複数
のスレッド実行ユニット各々の変換テーブルの情報を隣
接するスレッド実行ユニットにコピーする手段とを有
し、前記１つの論理レジスタとの間で前記写像関係が定
義される複数の物理レジスタ毎にグループ化しかつその
グループ内の位置を示す情報を前記変換テーブルの情報
に付加して前記写像関係を定義することを特徴とする継
承装置。
【請求項２】前記複数の物理レジスタ毎に、コピー元
の情報を保持するための選択側のグループと、前記コピ
ー元の情報が自ユニットで変更された際にその変更後の
情報を保持するための非選択側のグループとに夫々グル
ープ化したことを特徴とする請求項１記載の継承装置。
【請求項３】前記非選択側のグループに属するレジス
タは、前段のユニットの前記非選択側のグループで用い
られたレジスタの次段のレジスタとするようにしたこと
を特徴とする請求項２記載の継承装置。
【請求項４】前記選択側のグループと前記非選択側の
グループとに対する選択変更命令が未完了か否かを示す
情報を保持しておき、当該情報によって当該選択変更命
令の取消しと判定した時に前記グループの選択状態を当
該選択変更命令実行前の状態に復帰するようにしたこと
を特徴とする請求項２または請求項３記載の継承装置。
【請求項５】継承したレジスタの値の有効／無効を示
す有効テーブルを含み、前記継承したレジスタを参照す
る際に前記有効テーブルの内容を基に前記継承したレジ
スタの値が有効であることを確認してから参照を行うよ
うにしたことを特徴とした請求項１から請求項４のいず
れか記載の継承装置。
【請求項６】前記有効テーブルは、前記継承したレジ
スタの値が共有物理レジスタファイルに反映されている
か否かを示す情報を基に判定された前記継承したレジス
タの値の有効／無効を格納するよう構成したことを特徴
とする請求項５記載の継承装置。
【請求項７】自ユニットの前記変換テーブルの内容
及び前記有効テーブルの内容から次ユニットの有効テー
ブルに対する有効／無効を決定して出力するようにした
ことを特徴とする請求項５または請求項６記載の継承装
置。
【請求項８】前記複数のスレッドの命令を保持する命
令キューを前記複数のスレッド実行ユニット各々に含む
ことを特徴とする請求項１から請求項７のいずれか記載
の継承装置。