JP2970553B2

JP2970553B2 - マルチスレッド実行方法

Info

Publication number: JP2970553B2
Application number: JP8249272A
Authority: JP
Inventors: 淳鳥居
Original assignee: Nippon Electric Co Ltd
Current assignee: NEC Corp
Priority date: 1996-08-30
Filing date: 1996-08-30
Publication date: 1999-11-02
Anticipated expiration: 2016-08-30
Also published as: US5913059A; JPH1078880A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は複数の命令を同時に
実行する高性能なマイクロプロセッサに関し、特にマル
チスレッド実行方法に関する。

【０００２】

【従来の技術】プロセッサの高速化の技術として、複数
の演算装置を用意し、命令単位の並列性を利用して複数
の演算装置に同時に命令を発行することにより処理速度
を向上る方式が実用化されている。この方式を用いた場
合、理想的には１クロックで複数の命令を実行すること
が可能である。

【０００３】しかしながら、現実には命令間に依存関係
が存在し、前の命令が終了しないと後ろの命令が実行で
きない場合が存在するため、同時に実行できる命令数は
制限されてしまう。また、条件分岐命令によって、命令
がスムーズに演算装置に供給できないという現象も生じ
る。これらのことから、演算装置を無限に増やした場合
にも、実際には３〜４倍の性能向上に抑えられてしまう
といわれている。

【０００４】このような性能向上の限界は、Ｍｏｎｉｃ
ａＳ．Ｌａｍ氏らが１９９２年に発表した論文（Ｍｏ
ｎｉｃａＳ．ＬａｍａｎｄＲｏｂｅｒｔＰ．Ｗ
ｉｌｓｎ，”ＬｉｍｉｔｓｏｆＣｏｎｔｒｏｌＦ
ｌｏｗｏｎＰａｒａｌｌｅｌｓｉｍ”，ＩＴｈｅ
１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓ
ｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔ
ｕｒｅ，ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ
Ｐｒｅｓｓ，１９９２，ｐｐ．４６−５７）に述べら
れている。

【０００５】この限界を踏まえ、さらなる性能向上を図
る手段として、 ○命令単位の並列処理をさらに進めるために、非プログ
ラム順序実行機構（ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行機
構）やレジスタリネーミング機構を導入し、命令間の依
存関係を少なくする。 ○プログラムを複数の命令流（スレッド）に分割して、
そのスレッドレベルで並列処理を行う。などの技術が提
案されている。

【０００６】最初の項目の、ｏｕｔ−ｏｆ−ｏｒｄｅｒ
実行機構はプログラムの実行順序に従わずに実行可能に
なった命令から先に実行するための機構である。このた
めには、レジスタ間でデータの直接の依存関係はない
が、レジスタ割り付けの際にレジスタ数不足によって生
じるような偽りの依存関係を解消する必要がある。この
ような依存に対して、ソフトウェアで指定されたレジス
タの名前に対し、ハードウェアによって別のレジスタの
名前に写し変えることを行うのが、レジスタリネーミン
グ機構である。

【０００７】例えば、以下のプログラム順序で命令が与
えられているとする。１０ａｄｄｒ１←ｒ２＋ｒ３１４ｓｕｂｒ４←ｒ１−ｒ５１８ａｄｄｒ５←ｒ６＋ｒ７１ｃｓｕｂｒ８←ｒ４−ｒ５ここで、０ｘ１４番地のｓｕｂ命令は、０ｘ１０番地の
ａｄｄ命令の結果（ｒ１レジスタ）を用いているので、
直接のデータ依存関係があることになる。同様に０ｘ１
ｃ番地のｓｕｂ命令は、ｒ５レジスタを介して０ｘ１８
番地のａｄｄ命令と依存関係がある。しかしながら、０
ｘ１４番地のｓｕｂ命令で読み出し参照され、０ｘ１８
番地のａｄｄ命令で書き込み参照されるｒ５レジスタに
は、データの依存関係は存在しないが、レジスタの再使
用による偽りの依存関係が存在する。従って、ｏｕｔ−
ｏｆ−ｏｒｄｅｒ実行機構を備えるだけでは、０ｘ１８
番地のａｄｄ命令は０ｘ１４番地のｓｕｂ命令を追い越
すことはできない。レジスタリネーミング機構は、この
ような場合に、０ｘ１４番地のｒ５と０ｘ１８番地のｒ
５を異なったレジスタにリネーミングすることによっ
て、ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行を可能とするもので
ある。

【０００８】このレジスタリネーミング機構は、リオー
ダバッファ方式とレジスタ写像テーブル方式の２種類に
大別される。図３０にリオーダバッファ方式の構成図
を、図３１にレジスタ写像テーブル方式の構成図を示
す。

【０００９】リオーダバッファ方式は、ｏｕｔ−ｏｆ−
ｏｒｄｅｒで計算された演算結果をすべてリオーダ・バ
ッファ１２３と呼ばれる命令毎にエントリが確保される
バッファに一旦格納し、このリオーダ・バッファ１２３
からプログラム順序でレジスタファイル１２２に書き戻
しを行う。後続命令はリオーダ・バッファ１２３からの
値をレジスタファイル１２２からの値に優先して用いる
ことによって、ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行のレジス
タリネーミングを実現する。

【００１０】また、レジスタ写像テーブル方式は、プロ
グラムから指定する論理レジスタ番号を物理レジスタ番
号にレジスタ写像テーブル１２４によって変換して、レ
ジスタリネーミングを行う。レジスタに書き込みが生じ
る度に、レジスタフリーテーブル１２８から指定された
未使用の物理レジスタを論理レジスタに割り付ける。ま
た、有効命令順序バッファ１２６によって命令がプログ
ラム順序で終了する度に、その命令が新たに生成する前
の古い写像関係にある物理レジスタを未使用状態にす
る。このように物理レジスタを使い回すことによって、
レジスタリネーミングを実現する。

【００１１】このような機構を用いた例として、リオー
ダバッファ方式は米Ｉｎｔｅｌ社のＰｅｎｔｉｕｍ−Ｐ
ｒｏプロセッサ、レジスタ写像テーブル方式は米ＭＩＰ
ＳＴｅｃｈｎｏｌｏｇｙＩＮＣ．社のＲ１００００プ
ロセッサなどの例があげられる。

【００１２】しかしながら、このような機構を用いた場
合にもｏｕｔ−ｏｆ−ｏｒｄｅｒ実行可能な命令の範囲
は最も古い命令から１６〜３２命令程度であり、実行可
能な命令があまり存在しないことも多い。また、この範
囲を現実的な範囲で増やした場合も実行できる命令より
も依存などによって実行できない命令が多く入ることに
なり、ハードウェア量増加分の性能向上は見込めない。

【００１３】一方、二つ目の項目に示したスレッドレベ
ルの並列処理方式は、命令単位の並列性ではなく、複数
のスレッドの命令を並列に実行することにより演算装置
の利用効率をあげて処理速度向上を図る方法である。こ
の方法では、スレッド間では依存関係が少ないため前記
の命令レベルの並列処理より性能向上が図りやすい。

【００１４】このスレッドレベルの並列処理は、 ○全くスレッド間に依存関係のないもの。 ○１スレッドの実行命令が多く、スレッド間の依存関係
が少なく、ソフトウェアによって依存を解消しても性能
上問題の少ないもの。 ○１スレッドの実行命令が少なく、かつスレッド間の依
存関係が多いため、ハードウェアによってスレッドレベ
ル並列処理の実行支援が必要なもの。に大別される。

【００１５】スレッド間で依存が全くない場合や、依存
が少なくスレッド粒度の大きいものでは、ハードウェア
によるサポートはほとんど必要ない。このような場合の
プロセッサの並列方法の実施例としては、平田氏らが１
９９３年に発表した論文（平田博章，木村浩三，永
峰聡，西澤貞次，鷺島敬之，「多重スレッド・多
重命令発行を用いる要素プロセッサ・アーキテクチ
ャ」，情報処理学会論文誌，１９９３年Ｖｏｌ３４
Ｎｏ．４ｐｐ．５９５−６０５）で提案された方法な
どがあげられる。この方法の実施例を図３２に示す。

【００１６】図３２の例は、命令取得装置１２９，命令
解読装置１３０，機能実行装置１３１，命令間の依存解
析装置１３２，機能実行装置１３１をスケジュールする
命令調停装置１３３から構成される。命令解読装置１３
０は命令調停装置１３３が命令を受け入れられる状態に
あり、また、命令依存解析装置１３２から、命令発行可
能である旨の指示を受けている場合に、命令を発行す
る。各々の命令解読装置１３０から発行された命令は、
命令調停装置１３３によって、必要な機能実行装置１３
１に割り当てられ、実際の実行が行われる。この命令調
停装置１３３によって、機能実行装置１３１は各命令間
で共有され、利用効率を向上させることが可能となる。
また、命令調停装置１３３を機能実行装置１３１毎に分
散することにより、命令調停装置１３３の簡単化が可能
である。

【００１７】しかしながら、この方法では、スレッドの
生成や演算データのスレッド間の伝達に対しては考慮さ
れていない。従って、単一タスクを複数スレッドに分割
し、そのタスクを高速化する場合に対処できるものでは
なかった。

【００１８】単一タスクの処理を高速化する際には、効
率的なスレッド生成とスレッド間のデータの引き渡しが
不可欠である。このような、細粒度スレッドの並列処理
プロセッサの例として、ＧｕｒｉｎｄｅｒＳ．Ｓｏｈ
ｉ氏らが１９９５年に発表した論文（Ｇｕｒｉｎｄｅｒ
Ｓ．Ｓｏｈｉ，ＳｃｏｔｔＥ．Ｂｒｅａｃｈａｎ
ｄＴ．Ｎ．Ｖｉｊａｙｋｕｍａｒ，“Ｍｕｌｔｉｓｃ
ａｌａｒＰｒｏｃｅｓｓｏｒ”，Ｔｈｅ２２ｎｄ
ＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏ
ｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ，Ｉ
ＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＰｒｅｓ
ｓ，１９９５，ｐｐ．４１４−４２５）があげられる。

【００１９】ＭｕｌｔｉｓｃａｌａｒＰｒｏｃｅｓｓ
ｏｒでは、単一のプログラムをいくつかの基本ブロック
の集合である「タスク」に分割し、これを並列に実行処
理できるプロセッサで処理する。タスク間でのレジスタ
内容の引渡しは、タスク生成コンパイラによって生成さ
れたｔａｓｋｄｅｓｃｒｉｐｔｏｒによって指定す
る。ｔａｓｋｄｅｓｃｒｉｐｔｏｒでは、生成される
可能性のあるレジスタを明示的に指定する。この指定を
ｃｒｅａｔｅｍａｓｋと呼ぶ。また、最後にｃｒｅａ
ｔｅｍａｓｋに指定したレジスタを更新する命令には
フォワードビットを付加する。このように、Ｍｕｌｔｉ
ｓｃａｌａｒＰｒｏｃｅｓｓｏｒはコンパイラ解析能
力に依存したコードによって並列実行を行う。

【００２０】図３３は、このＭｕｌｔｉｓｃａｌａｒ
Ｐｒｏｃｅｓｓｏｒの実施例である。Ｍｕｌｔｉｓｃａ
ｌａｒＰｒｏｃｅｓｓｏｒはシーケンサ１３４，プロ
セッシングユニット１３５，結合ネットワーク１３６，
データバンク１３７から構成される。プロセッシングユ
ニット１３５は命令キャッシュ１３８，実行ユニット１
３９，レジスタファイル１４０から構成され、システム
に複数存在する。また、対応してデータバンク１３７も
複数存在し、ＡＲＢ（ＡｄｄｒｅｓｓＲｅｓｏｌｕｔ
ｉｏｎＢｕｆｆｅｒ）１４１，データキャッシュ１４
２から構成される。複数のタスクの同時実行の管理はシ
ーケンサ１３４によって行われ、各プロセッシングユニ
ット１３５にタスクを割り付ける。レジスタの内容はｔ
ａｓｋｄｅｓｃｒｉｐｔｏｒの指定によって、データ生
成時点でフォワードされる。

【００２１】しかしながら、従来コードをスレッドレベ
ル並列処理に変換する場合や、依存解析の難しいコード
に対してはＭｕｌｔｉｓｃａｌａｒＰｒｏｃｅｓｓｏ
ｒでは性能向上は図れない。また、コードサイズがｔａ
ｓｋｄｅｓｃｒｉｐｔｏｒによって増加するという問
題点も生じる。また、ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行に
対応した技術でないため、既存の命令レベル並列処理に
よる性能向上が行えず、従来技術に比しての性能向上が
限られていた。

【００２２】

【発明が解決しようとする課題】従来のスレッドレベル
並列処理のスレッド生成技術では、明示的にレジスタの
内容を継承させるか、メモリを経由して継承させるた
め、フォーク時に自動的にはレジスタ内容は引き継がれ
なかった。この為、レジスタ依存を記述するか、メモリ
に対するストア／ロードを用いて新規生成スレッドに対
してデータを引き継ぐ必要があった。従って、スレッド
を生成する時には生成側にも被生成側にもスレッド生成
にともなうデータ継承のため命令を挿入する必要があっ
た。

【００２３】また、ｏｕｔ−ｏｆ−ｏｒｄｅｒ実行型の
プロセッサでは、同期命令などについてはその正当性を
保つためにｉｎ−ｏｒｄｅｒ実行を行っているが、この
場合の性能低下は顕著であった。従って、フォーク命令
によってスレッドを生成し、細粒度スレッドの場合でも
処理速度向上を目指す場合には、フォーク命令前と後の
命令間でもｏｕｔ−ｏｆ−ｏｒｄｅｒ実行する必要があ
った。

【００２４】本発明の目的はこのようなスレッドレベル
の並列処理を行う際に、新規生成スレッドに効率的にレ
ジスタの内容を継承させることによって、プログラムの
並列性，演算器の使用効率を向上させ、細粒度のスレッ
ドに対しても高性能な並列処理を可能としたマルチスレ
ッド実行方法を提供することにある。

【００２５】

【課題を解決するための手段】本発明の第１の発明は、
論理的に複数のプログラムカウンタを有し、これらのプ
ログラムカウンタに従った複数のスレッドの命令を同時
にフェッチ，解釈，実行するスレッド実行手段（図２の
５ａ，５ｂ）と、独立した論理的なレジスタファイル
（図２の６ａ，６ｂ）とを備え、単一のスレッド中の指
定された命令によって、新たなスレッド（子スレッド）
の実行を開始する機能を備えたプロセッサにおいて、子
スレッド実行開始命令を実行するスレッド（親スレッ
ド）の命令実行時点のレジスタファイルの内容を直接転
送することによって子スレッドのレジスタファイルに継
承することを特徴とする（図１）。

【００２６】また第２の発明は、第１の発明において、
スレッド毎に複数のレジスタファイル（図４の１３ａ，
１３ｂ）及びレジスタ選択手段（図４の１２ａ，１２
ｂ）を備えると共に、レジスタ内容転送手段（図４の１
５０）を備え、子スレッドは、前記レジスタ選択手段に
よって親スレッドのレジスタファイルを参照し、レジス
タの変更が行われる毎に、前記レジスタ内容転送手段に
よって順次新スレッドのレジスタファイルに、変更する
前のレジスタ内容を転送し、前記レジスタ選択手段の選
択内容を子スレッド側のレジスタファイルに切替えるこ
とによってレジスタファイルを継承させることを特徴と
する。

【００２７】また第３の発明は、第１の発明において、
親スレッドのプログラムにおける子スレッド実行開始命
令とその前後に配置される他の演算命令との間で、プロ
グラムの意味を変えない範囲内において非プログラム順
序に実行することを特徴とする（図８）。

【００２８】また第４の発明は、第３の発明において、
演算の結果とレジスタ番号を指定するタグを一時的に格
納するリオーダバッファを持ち、命令をデコードした際
に、そのリオーダバッファのエントリを確保し、命令を
プログラムで指定された順序ではなく、必要なレジスタ
の値が使用可能になったものからレジスタ及びリオーダ
バッファの当該命令よりも前のエントリから供給するこ
とによって演算を行い、演算結果を命令デコード時に確
保したリオーダバッファのエントリに格納し、そのリオ
ーダバッファからはプログラム順序でレジスタ内容の更
新を行うことによって、プログラムの順序に従わずに処
理を進める非プログラム順序実行型プロセッサにおい
て、複数のプログラムカウンタを有し、これらのプログ
ラムカウンタに従った複数のスレッドの命令を同時にフ
ェッチ，解釈，実行するスレッド実行手段（図９の２１
ａ，２１ｂ）と、複数のレジスタファイル（図９の２５
ａ，２５ｂ）およびリオーダバッファ（図９の２４ａ，
２４ｂ）を設け、親スレッドと子スレッドの両者のレジ
スタファイルおよびリオーダバッファからの内容出力を
選択するレジスタデータセレクタ装置（２６ａ，２６
ｂ）を設け、子スレッド生成命令が親スレッド内でプロ
グラム順序で完了した時点で、親スレッドを実行してい
るレジスタファイルの内容を子スレッドを実行している
レジスタファイルにコピーすることによって、コピー前
は親スレッドのレジスタファイル，リオーダバッファお
よび子スレッドのリオーダバッファからレジスタ内容を
選択し、コピー後は子スレッドのリオーダバッファおよ
びレジスタファイルからレジスタ内容を選択することに
よってレジスタの継承を行うことを特徴とする。

【００２９】また第５の発明は、第３の発明において、
演算の結果とレジスタ番号を指定するタグを一時的に格
納するリオーダバッファを持ち、命令をデコードした際
に、そのリオーダバッファのエントリを確保し、命令を
プログラムで指定された順序ではなく、必要なレジスタ
の値が使用可能になったものからレジスタ及びリオーダ
バッファの当該命令よりも前のエントリから供給するこ
とによって演算を行い、演算結果を命令デコード時に確
保したリオーダバッファのエントリに格納し、そのリオ
ーダバッファからはプログラム順序でレジスタ内容の更
新を行うことによって、プログラムの順序に従わずに処
理を進める非プログラム順序実行型プロセッサにおい
て、複数のプログラムカウンタを有し、これらのプログ
ラムカウンタに従った複数のスレッドの命令を同時にフ
ェッチ，解釈，実行するスレッド実行手段（図１５の５
０ａ，５０ｂ）と、複数のレジスタファイル（図１５の
５４ａ，５４ｂ）およびリオーダバッファ（５３ａ，５
３ｂ）を設け、親スレッドと子スレッドの両者のリオー
ダバッファ及び子スレッドのレジスタファイルからの内
容出力を選択するレジスタデータセレクタ装置（５５
ａ，５５ｂ）を設け、レジスタファイルの内容のコピー
を子スレッド生成が行われた時点で行うこととして、そ
の後は親スレッドのリオーダバッファから、親スレッド
のレジスタファイルと子スレッドのレジスタファイルに
書き込みを行い、スレッド生成命令がプログラム順序で
終了する前は親スレッドのリオーダバッファ，子スレッ
ドのレジスタファイルおよびリオーダバッファからレジ
スタ内容を選択し、プログラム順序で終了した後は子ス
レッドのリオーダバッファおよびレジスタファイルから
レジスタ内容を選択することによってレジスタの継承を
行うことを特徴とする。

【００３０】また第６の発明は、第４または第５の発明
において、レジスタファイルのコピーを複数回の転送サ
イクルによって行うレジスタ内容転送手段（図１７の６
０，６１等）を用い、レジスタ内容の転送が済んだレジ
スタファイル部分から、新スレッドにおいて、参照を許
可することを特徴とする。

【００３１】また第７の発明は、第４，第５または第６
の発明において、スレッド生成命令を実行した時点で、
そのスレッドを実行できる資源が確保できない場合に、
レジスタの内容を退避用レジスタファイル（図１９の７
２）に蓄えることによって、プロセッサの許容数以上の
スレッドが同時に存在し得るようにしたことを特徴とす
る。

【００３２】また第８の発明は、論理的に複数のプログ
ラムカウンタを有し、これらのプログラムカウンタに従
った複数のスレッドの命令を同時にフェッチ，解釈，実
行するスレッド実行手段と、物理的には共有しており論
理的には独立したレジスタファイルと、論理レジスタと
物理共有レジスタとの対応関係を可変とし、この対応関
係を記憶した写像テーブルとを備え、単一のスレッド中
の指定された命令によって、新たなスレッド（子スレッ
ド）の実行を開始する機能を備えたプロセッサにおい
て、子スレッド実行開始命令を実行するスレッド（親ス
レッド）の命令実行時点のレジスタファイルの内容を子
スレッドのレジスタファイルに、写像関係をコピーする
ことによって継承することを特徴とする。また、その好
ましい実施例においては、親スレッドのプログラムにお
ける子スレッド実行開始命令とその前後に配置される他
の演算命令との間で、プログラムの意味を変えない範囲
内において非プログラム順序に実行することを特徴とす
る。より具体的には、プログラムから指定する論理レジ
スタとハードウェアに実行される物理レジスタとの対応
関係を可変とし、この対応関係を記録，更新，検索する
レジスタ写像テーブルを備え、論理レジスタに対して値
の書き込みを行おうとする毎に物理レジスタとの新しい
対応関係を生成し、対応する物理レジスタに値の書き込
みが完了した時点で読み出しを許可し、命令がプログラ
ム順序に完了した時点で、論理レジスタとの古い対応関
係になっていた物理レジスタを未使用状態にすることに
よって、非プログラム順序で命令を実行するプロセッサ
において、複数のプログラムカウンタを有し、これらの
プログラムカウンタに従った複数のスレッドの命令を同
時にフェッチ，解釈，実行するスレッド実行手段（図２
０の７３ａ，７３ｂ）を設け、前記複数のスレッド実行
手段から参照できる共有の物理レジスタファイル（図２
０の７８）と、この共有の物理レジスタファイルの使用
状態保持手段（図２０の８１，８２）と、複数のレジス
タ写像テーブル（図２０の７６ａ，７６ｂ）とを設け、
子スレッド実行開始命令を解釈した時点で、これらのレ
ジスタ写像テーブル間で内容をコピーすることによって
レジスタの継承を行い、継承した物理レジスタを親スレ
ッド，子スレッド両者で対応する論理レジスタに書き込
みを行った時点で、未使用状態にすることによってレジ
スタの継承を行うことを特徴とする。

【００３３】また第９の発明は、第８の発明において、
レジスタ写像テーブルの内容のコピーを複数回の転送サ
イクルによって行い、新スレッドにおいて、対応関係の
転送が済んだものから使用可能にすることを特徴とす
る。

【００３４】また第１０の発明は、第８または第９の発
明において、スレッド生成命令を実行した時点で、その
スレッドを実行できる資源が確保できない場合に、レジ
スタ写像テーブルの内容を退避用レジスタ写像テーブル
（図２４の９８）に蓄えることにより、プロセッサの許
容数以上のスレッドが同時に存在し得るようにすること
を特徴とする。

【００３５】また第１１の発明は、第２ないし第１０の
発明において、親スレッドから子スレッドを生成する回
数を高々１回に制限し、スレッドの消滅順序を親スレッ
ドを子スレッドより先にすることによって、隣接するス
レッド実行手段に限定してレジスタ内容継承を行うよう
にしたことを特徴とする。

【００３６】第１の発明ではフォーク命令を行った時点
で、新規生成スレッドに対してレジスタ内容が継承され
る。この方法を用いる場合には、レジスタに格納できる
範囲内のデータ数であれば、メモリに対するストア／ロ
ードを省くことが可能になる。

【００３７】また第２の発明では、複数のレジスタファ
イルを選択する手段を用いて、レジスタファイルの内容
の物理的なコピーを行わずに、レジスタ内容の継承を実
現できる。

【００３８】また第３の発明では、プログラム順序にお
いて新規スレッドを生成する命令より前の命令の実行完
了を待たずに、新規スレッドを生成する。また、新規ス
レッド生成命令より後続の命令がスレッド生成を行う前
に実行完了できる。そして、このときに継承させるレジ
スタの内容はプログラム順序における新規スレッド実行
命令時の内容とする処理方法を採用する。このような処
理方法を実現するため、第４から第７の発明では、リオ
ーダバッファを用いたｏｕｔ−ｏｆ−ｏｒｄｅｒ型実行
を行い、レジスタファイルの内容をコピーするタイミン
グを工夫し、コピーが終了する前や、値が確定するまで
は異なったレジスタファイルやリオーダバッファをアク
セスするようにして、レジスタ内容を継承する。フォー
ク命令がプログラム順序に従ってレジスタ内容を更新し
た際に、レジスタの内容を確定させその後は新スレッド
用のレジスタを用いることによってレジスタ内容を継承
する。また、第８から第１０までの発明では、ソフトウ
ェアによって指定する論理レジスタを物理レジスタに写
像するためのレジスタ写像テーブルを用いたレジスタリ
ネーミングを行い、このレジスタ写像テーブルを物理的
に同時に実行するスレッド数に応じて複数用意する。新
たなスレッドが生成される際には、この写像情報をコピ
ーする。プロセッサに存在する物理的なレジスタはすべ
てスレッドから共有され、この写像情報によって各々の
スレッドが使用する。

【００３９】以下に図面を参照して本発明をより具体的
に説明するが、以下の開示は本発明の一実施例に過ぎ
ず、本発明の技術的範囲をなんら限定するものではな
い。

【００４０】

【発明の実施の形態】図１は本発明の第１の発明におけ
るレジスタ内容の継承方法の概念図である。図１に示す
ように、新スレッドを生成するスレッド（親スレッド）
１がその実行フローの実行途中においてスレッド生成命
令（フォーク命令）２を実行して新スレッド（子スレッ
ド）３を生成すると、子スレッド３のレジスタファイル
に親スレッド１がフォーク命令２を実行した時点の内容
を継承させる。

【００４１】図２は上記のようなレジスタ内容の継承方
法を実現する２スレッド並列実行型プロセッサの実施例
のブロック図である。この例のプロセッサは、スレッド
管理手段４，スレッド実行手段５ａ，５ｂ，レジスタフ
ァイル６ａ，６ｂ，レジスタ内容一括転送手段７および
共有メモリ８から構成される。

【００４２】スレッド管理手段４は、プロセッサ全体の
スレッドの実行管理を行う。また、スレッド実行手段５
ａ，５ｂ，レジスタファイル６ａ，６ｂは同時実行可能
なスレッド数と同数用意され、通常のプロセッサ同様プ
ログラムコード中の命令を実行し、レジスタファイル６
ａ，６ｂおよび共有メモリ８に結果を書き込みながら処
理を進める。

【００４３】以下、スレッド生成時の動作を時間順序を
追って説明する。図３は図２に示した実施例のプロセッ
サにおけるスレッド生成時のタイミングチャートであ
る。図３において、（Ａ）はプロセッサ全体のクロッ
ク、（Ｂ）はスレッド実行手段＃０５ａの実行状態、
（Ｃ）はレジスタファイル＃０６ａのアクセス状態、
（Ｄ）はスレッド実行手段＃１５ｂの実行状況、
（Ｅ）はレジスタファイル＃１６ｂのアクセス状態、
（Ｆ）はスレッド管理手段４のアクセス状況を示す。

【００４４】図３のタイミングチャートの開始時点では
スレッド実行手段＃０５ａにおいてのみ処理が行われ
ており、スレッド実行手段＃１５ｂは実行待ち状態で
ある。従ってレジスタファイル＃１６ｂに対するアク
セスは生じない。

【００４５】サイクル６において、スレッド実行手段＃
０５ａはフォーク命令を実行すると、スレッド管理手
段４に対してスレッド生成要求を行う。スレッド管理手
段４は実行待ち状態のスレッド実行手段を検索し、新し
いスレッドを実行するスレッド実行手段を決定する。図
３の場合、（Ｄ）で示されるスレッド実行手段＃１５ｂ
が実行待ち状態であるので、ここで新しいスレッドを実
行することを決定し、スレッド管理手段４はスレッド実
行手段＃１５ｂに対してスレッド起動要求を行う。同
時に、スレッド管理手段４は、レジスタ内容一括転送手
段７に対してレジスタファイル＃０６ａからレジスタ
ファイル＃１６ｂへのレジスタ内容のコピー要求を行
う。レジスタ内容一括転送手段７は、この要求に従いレ
ジスタファイル＃０６ａからレジスタファイル＃１
６ｂへのレジスタ内容のコピーを行う。これらの動作に
よって、サイクル７からは、二つのスレッドが並列に実
行され、子スレッド３では、初期値を共有メモリ８から
ロードすることによってレジスタファイル６にセットす
る必要が無くなり、親スレッド１では必要なデータをレ
ジスタファイル６から共有メモリ８にストアする必要が
なくなり、効率的な新スレッド生成が可能になる。な
お、並列動作ではレジスタファイル６ａ，６ｂは独立に
参照，更新されることになる。

【００４６】次に、第２の発明について説明する。図４
はその実施例の２スレッド並列実行型プロセッサのブロ
ック図であり、スレッド実行手段を９ａ，９ｂの二つ持
ち、各々のスレッド実行手段９ａ，９ｂは、命令キャッ
シュ１０ａ，１０ｂ，命令デコーダ１１ａ，１１ｂ，レ
ジスタ選択手段１２ａ，１２ｂ，レジスタファイル１３
ａ，１３ｂ，演算ユニット１４ａ，１４ｂを各々持って
いる。また、共有のスレッド管理手段１５とレジスタ内
容転送手段１５０が存在する。なお、共有メモリについ
ては直接関係しないので、図４からは省いてある。

【００４７】図５はレジスタ選択手段＃１１２ｂの構
成例を示すブロック図である。レジスタ選択手段＃０
１２ａも同等の構造であり、レジスタ選択テーブル１６
に各レジスタの選択ビット１７を持っている。本実施例
の場合、レジスタ選択ビット１７が０の場合にはレジス
タファイル＃０１３ａを、１の場合にはレジスタファ
イル＃１１３ｂを選択する。

【００４８】図６はレジスタファイル＃０１３ａの構
成例を示すブロック図であり、レジスタファイル＃１
１３ｂも同等の構造である。レジスタファイル＃０１
３ａは、各レジスタ毎にレジスタ内容メモリ１８の他
に、転送終了ビット１９，更新ビット２０を持つ。転送
終了ビット１９は、スレッド管理手段１５によって、子
スレッド生成時に初期化（リセット）され、レジスタ内
容メモリ１８の内容を他のレジスタファイル１３に転送
した際にセットされる。また、更新ビット２０は、スレ
ッド起動時に初期化（リセット）され、レジスタを自分
の属する演算ユニット１４で更新した場合にセットされ
る。

【００４９】以下、スレッド生成時のレジスタ内容の継
承方法を具体例を用いて説明する。図７は、図４に示し
た実施例のプロセッサのタイミングチャートである。図
７において、（Ａ）はプロセッサ全体のクロック、
（Ｂ）は演算ユニット＃０１４ａ（親スレッド）で実
行している命令もしくは書き込みされるレジスタ番号、
（Ｃ）は親スレッドによるレジスタファイル＃０１３
ａに対するレジスタ内容の書き込み、（Ｄ）はレジスタ
内容の転送によるレジスタファイル＃０１３ａに対す
るレジスタ内容の読み出し、（Ｅ）はレジスタファイル
＃０１３ａ中の転送終了ビット１９の状態、（Ｆ）は
スレッド管理手段１５のアクセス状況、（Ｇ）は演算ユ
ニット＃１１４ｂ（子スレッド）で実行している命令
もしくは読み出し／書き込みされるレジスタ番号、
（Ｈ），（Ｉ）は子スレッドによるレジスタファイル１
３の読み出し、（Ｊ）はレジスタファイル＃１１３ｂ
への書き込み、（Ｋ）はレジスタファイル＃１１３ｂ
中の更新ビット２０の状態、（Ｌ）はレジスタ選択手段
＃１１２ｂ中のレジスタ選択ビット１７の状態を示
す。

【００５０】図７のタイミングチャートの開始時点で
は、スレッドはスレッド実行手段＃０９ａのみで実行さ
れている。このスレッドを親スレッドとしている。サイ
クル２において、親スレッドはフォーク命令を実行す
る。スレッド管理手段１５は、レジスタファイル＃０
１３ａの転送終了ビット１９と、レジスタファイル＃１
１３ｂの更新ビット２０と、レジスタ選択手段＃１１
２ｂ中のレジスタ選択ビット１７の初期化要求を行う。
このフォーク命令の実行によってサイクル３以降はサイ
クル２のフォーク命令による子スレッドがスレッド実行
手段＃１９ｂで実行が開始される。

【００５１】サイクル３において親スレッドを実行して
いるスレッド実行手段＃０９ａではレジスタｒ１に対
する書き込みが生じる前に、スレッド実行手段＃１９
ｂにｒ１のレジスタ内容を転送するために読み出しが行
われる。これがサイクル３前半の（Ｄ）に示されてい
る。この内容はスレッド実行手段＃１９ｂのレジスタ
ファイル＃１１３ｂに転送され（Ｊ）で示されるよう
に書き込みが行われる。同時に、レジスタファイル＃０
１３ａの転送終了ビット１９と、レジスタファイル＃
１１３ｂの更新ビット２０のレジスタｒ１のエントリ
をセットし、レジスタ選択手段＃１１２ｂ中のレジス
タ選択ビット１７をｒ１についてはレジスタファイル＃
１１３ｂから選択するようにセットする。

【００５２】また、同サイクルにおいて子スレッドを実
行しているスレッド実行手段＃１９ｂではレジスタｒ
７，ｒ１０を読み出し参照する。この読み出しはレジス
タ選択手段＃１１２ｂの内容に従ってレジスタファイ
ル＃０１３ａから読み出す。また、同サイクルにおけ
る子スレッドはｒ３に対して書き込みを行うが、この際
にレジスタ選択手段＃１１２ｂ中のレジスタ選択ビッ
ト１７のｒ３をレジスタファイル＃１１３ｂから選択
するようにセットする。同時にレジスタファイル＃１
１３ｂの更新ビット２０のｒ３エントリをセットする。

【００５３】サイクル４も同様の処理が行われ、ｒ５の
内容が転送され、レジスタファイル＃０１３ａの転送
終了ビット１９と、レジスタファイル＃１１３ｂの更
新ビット２０と、レジスタ選択手段＃１１２ｂ中のレ
ジスタ選択ビット１７のレジスタｒ５のエントリがセッ
トされる。また、同サイクルにおいてレジスタ選択手段
＃１１２ｂ中のレジスタ選択ビット１７と、レジスタ
ファイル＃１１３ｂの更新ビット２０のｒ２エントリ
をセットする。

【００５４】次に、サイクル５では親スレッドを実行し
ているスレッド実行手段＃０９ａでは再びレジスタｒ
１に対する書き込みを行う命令を実行する。しかしなが
ら、レジスタファイル＃０１３ａの転送終了ビット１
９のｒ１エントリは既にセットされているので、レジス
タ内容の転送は行われない。また、同サイクルにおいて
子スレッドを実行しているスレッド実行手段＃１９ｂ
ではレジスタｒ３，ｒ５を読み出し参照する。この読み
出しはレジスタ選択手段＃１１２ｂの該当エントリは
セットされているのでレジスタファイル＃１１３ｂか
ら読み出す。

【００５５】次に、サイクル６では親スレッドを実行し
ているスレッド実行手段＃０９ａではレジスタｒ２に
対する書き込みを行う命令を実行し、レジスタの内容が
転送される。しかしながら、レジスタファイル＃１１
３ｂの更新ビット２０のｒ２エントリは既にセットされ
ているので、レジスタファイル＃１１３ｂのレジスタ
内容メモリ１８には書き込みは生じない。

【００５６】以上の処理によって、スレッド生成のフォ
ーク命令実行時にレジスタファイルの全内容を一括転送
する必要がなくなり、レジスタファイル間の転送バンド
幅を削減しつつ、レジスタ内容を子スレッドに継承する
ことが可能となる。

【００５７】本実施例は２スレッド並列実行型プロセッ
サについて説明したが、３スレッド以上の並列処理を行
う際には、スレッド管理ユニットによってレジスタの転
送先を制御し、レジスタファイル間はバスなどで接続し
多対多転送をサポートするような拡張を施せば良い。ま
た、レジスタ選択手段ではどのレジスタファイルを選択
するかを示すレジスタ選択ビットが複数ビットに格納さ
れるが、本質的にレジスタ選択手段を用いることには相
違なく、本発明の範囲内である。

【００５８】次に第３の発明について説明する。第３の
発明は、ソフトウェアによるプログラミングモデルでは
第１の発明の方法に従うが、ハードウェアによる実際の
処理は図８に示すように必ずしもプログラム順序に実行
を行わないハードウェア処理方法である。つまり、子ス
レッドには図８で示されたパイプラインの実行イメージ
図において、０ｘ００番地，０ｘ０４番地の命令実行に
よるレジスタ内容を継承させ、０ｘ０ｃ番地，０ｘ１０
番地の命令実行によるレジスタ内容は継承しない処理方
法である。第４の発明以降はこの処理方法に基づく実施
形態についての発明である。

【００５９】次に第４の発明について説明する。図９は
その実施例のブロック図であり、例として２スレッド並
列実行型プロセッサを採り上げている。図９のプロセッ
サは、スレッド実行手段を＃０２１ａと＃１ 21b の
二つ持ち、各々は命令キャッシュ２２ａ，２２ｂ，命令
デコーダ２３ａ，２３ｂ，リオーダバッファ２４ａ，２
４ｂ，レジスタファイル２５ａ，２５ｂ，レジスタデー
タセレクタ装置２６ａ，２６ｂ，命令キュー２７ａ，２
７ｂ，演算ユニット２８ａ，２８ｂを持っている。ま
た、共有のスレッド管理手段２９が存在する。

【００６０】図１０は、命令キュー＃０２７ａの構成
例を示すブロック図であり、命令キュー＃１２７ｂも
同様の構造である。命令キュー２７は、デコードした命
令について、必要なレジスタの値が確定し演算できるよ
うになるまで待ち合わせる機構であり、キューエントリ
格納論理３０，発行命令決定論理３１，命令キューエン
トリ３２から構成される。

【００６１】命令キューエントリ３２は、命令発行に必
要な情報を蓄えておくもので、エントリ有効ビット３
３，レジスタ内容／リオーダバッファタグ格納メモリ３
４，レジスタ内容有効ビット３５，結果書き込み場所指
定タグ３６，命令コード格納メモリ３７のエントリから
構成される。エントリ有効ビット３３はそのエントリに
格納されているデータが有効かどうかを示す。レジスタ
内容／リオーダバッファタグ格納メモリ３４は、レジス
タ内容有効ビット３５の状態によって格納されている値
が異なる。もし、セットされている場合には対応する命
令の演算に必要なデータ、セットされていない場合には
対応する命令の演算に必要なデータとともに演算ユニッ
トから送られてくるタグ番号である。また、結果書き込
み場所指定タグ３６はこの命令の実行による結果を格納
するリオーダバッファ２４のタグが格納され、命令コー
ド格納メモリ３７のエントリは、命令デコーダ２３でデ
コードされた命令種類のコードが格納される。

【００６２】キューエントリ格納論理３０は、空いてい
るエントリに対して必要なデータを格納する論理であ
り、エントリ有効ビット３３の無効なエントリのうち一
つを決定し、レジスタデータセレクタ装置２６，命令デ
コーダ２３からの情報を格納する。発行命令決定論理３
１は、レジスタ内容有効ビット３５が有効になったエン
トリの中から、発行する命令を決定し、演算ユニット２
８に対してその命令を発行する。

【００６３】また命令キューエントリ３２は、連想メモ
リ形態となっており、レジスタ内容有効ビット３５がセ
ットされていないエントリに対して、演算ユニット２８
から送られてくるタグ番号と自分の持つタグ番号を比較
して、同一の場合には、演算結果をレジスタ内容／リオ
ーダバッファタグ格納メモリ３４に格納し、レジスタ内
容有効ビット３５をセットする。

【００６４】図１１は、リオーダバッファ＃０２４ａ
の構成例を示すブロック図であり、リオーダバッファ＃
１２４ｂも同様の構造である。リオーダバッファ２４
は、プログラム順序に従わずに先行して確定したレジス
タ値を保持しておき、プログラム順序に従ってレジスタ
ファイル２５に書き戻す機構であり、レジスタデータ供
給決定論理３８，エントリシフト制御論理３９，リオー
ダバッファエントリ４０から構成される。

【００６５】リオーダバッファエントリ４０は、そのエ
ントリに格納されたデータが有効かどうかを示すエント
リ有効ビット４１，演算ユニット２８からの結果の書き
戻しの際に用いる結果書き込み指定タグ４２，レジスタ
ファイル２５への書き戻し場所を指定するための、レジ
スタ番号４３，フォーク命令後でレジスタデータを子ス
レッドに継承させる必要を示すスレッド生成ビット４
４，演算ユニット２８からの結果を格納する演算データ
格納メモリ４６と格納されるとセットされる演算データ
格納メモリ有効ビット４５のエントリから構成される。

【００６６】リオーダバッファ２４は、命令デコーダ２
３から命令を受け取ると、プログラムの命令順序に従っ
てエントリが確保される。つまりエントリはプログラム
命令順に整列していることになる。また、エントリが確
保できない場合には、命令デコードが停止する。また、
フォーク命令実行後の命令を格納する際には、スレッド
生成ビット４４をセットする。

【００６７】また、命令デコーダ２３からソースレジス
タの参照番号も同時に受け取り、これとリオーダバッフ
ァエントリ４０中のレジスタ番号４３を比較する。同じ
エントリが存在すれば、その中で最も新しいエントリの
演算データ格納メモリ４６か結果書き込み指定タグ４２
の内容をレジスタデータセレクタ装置２６に送る。演算
データ格納メモリ４６の内容が送られる場合は、該当エ
ントリの演算が終了しており、演算データ格納メモリ有
効ビット４５がセットされている場合である。また、他
のスレッド実行手段２１のレジスタデータセレクタ２６
に送る場合には、スレッド生成ビット４４がセットされ
ていないエントリから選択する。これによって、フォー
ク命令後の親スレッドのレジスタ変更データが子スレッ
ドに送られることを防ぐ。これらの処理をレジスタデー
タ供給決定論理３８が行う。

【００６８】演算結果が演算ユニット２８から来た場合
には、結果書き込み指定タグ４２の一致するエントリの
演算データ格納メモリ４６に書き込み、演算データ格納
メモリ有効ビット４５をセットする。また、演算が終わ
ったものをプログラム順序に従ってレジスタファイル２
５に書き戻し、エントリシフト制御論理３９によって、
先頭からエントリをシフトする。なお、シフトを行わず
にリング状のバッファ管理を行うことも可能である。ま
た、フォーク命令がプログラム順序で完全に終了した場
合には、すべてのエントリのスレッド生成ビット４４を
リセットする。

【００６９】レジスタデータセレクタ装置＃１２６ｂ
は、図１２に示す論理によって、命令キュー＃１２７
ｂに供給するデータをリオーダバッファ＃１２４ｂ，
レジスタファイル＃１２５ｂ，リオーダバッファ＃
０，２４ａ，レジスタファイル＃０２５ａの入力デー
タから選択する。レジスタデータ選択装置＃０２６ａ
も同様の論理である。

【００７０】以下、図９のプロセッサの実際の動作につ
いて説明する。図９のプロセッサはスレッド生成時以外
の通常時はスレッド実行手段２１ａ，２１ｂでそれぞれ
独立して処理を進める。従って、レジスタデータセレク
タ装置２６には、他方のスレッド実行手段２１のリオー
ダバッファ２４，レジスタファイル２５からデータが供
給されることはなく、自らのスレッド実行手段２１のリ
オーダバッファ２４，レジスタファイル２５からのデー
タを選択して、レジスタデータが使用可能になった命令
から実行が行われる。この点においては、リオーダバッ
ファを用いてｏｕｔ−ｏｆ−ｏｒｄｅｒ実行を行う従来
のスーパスカラプロセッサの処理方法と相違はない。

【００７１】フォーク時の動作モデルを図１３に示す。
フォーク命令がスレッド実行手段＃０２１ａでデコー
ドされると、スレッド管理手段２９によってスレッド実
行手段＃１２１ｂで子スレッドの実行が開始される。
しかしながら、レジスタファイル＃１２５ｂには、親
レジスタのデータが継承されていないので、レジスタフ
ァイル＃０２５ａとリオーダバッファ＃０２４ａの
データをレジスタデータセレクタ装置＃１２６ｂで選
択して用いて演算を行うことになる。この演算の結果は
リオーダバッファ＃１２４ｂに格納される。従って、
後続命令は、レジスタファイル＃０２５ａとリオーダ
バッファ＃０２４ａとリオーダバッファ＃１２４ｂ
のデータをレジスタデータセレクタ装置＃１２６ｂで
選択して用いて演算を行う。

【００７２】一方、親スレッド側でフォーク命令がプロ
グラム順序で完全終了した時点で、レジスタファイル＃
０２５ｂのすべての値がフォーク命令実行時の値と確
定する。この時に、スレッド管理手段２９によってレジ
スタファイル＃０２５ａの内容をレジスタファイル＃
１２５ｂにコピーする。この動作が終了すると、レジ
スタファイル＃１２５ｂには親レジスタの値が継承さ
れたことになるので、レジスタファイル＃１２５ｂと
リオーダバッファ＃１２４ｂのデータをレジスタデー
タセレクタ装置＃１２６ｂで選択して用いて演算を行
うことになる。また、この時点で、リオーダバッファ＃
１２４ｂのレジスタファイル＃１２５ｂへのレジス
タアップデート動作が可能になる。これによって、ｏｕ
ｔ−ｏｆ−ｏｒｄｅｒ実行を行うプロセッサにおいても
レジスタ内容の継承が可能になる。

【００７３】以上が図９に示した２スレッド並列実行型
プロセッサの実施例の説明である。

【００７４】本実施例の他の構成として、命令キュー２
７，演算ユニット２８をスレッド間で共有する手法があ
げられる。図１４は４スレッド並列実行２演算ユニット
型プロセッサの場合の実施例のブロック図である。図１
４では、命令キャッシュ，命令デコーダ，スレッド管理
手段等は省略しているが、この部分の実際の構成は図９
と同様である。本実施例では新たに、リオーダバッファ
２４への結果振り分け装置４７ａ，４７ｂを用意し、演
算ユニット２８からの結果を振り分けている。このた
め、命令キュー４９には、どの命令デコーダによってデ
コードされた命令であるかを記憶するエントリの追加が
必要である。また、レジスタデータ選択装置４８ａ，４
８ｂは、選択するレジスタ値がどの命令デコーダの命令
について取り扱っているかの情報が必要となる。また、
４スレッド構成としたので、レジスタファイル２５の転
送手段が多対多転送を実現するような構成にする必要が
あり、具体的にはバスなどを用いる必要がある。

【００７５】次に第５の発明について説明する。図１５
は、その実施例のブロック図であり、例として２スレッ
ド並列実行型プロセッサを採り上げている。主たる構成
は、図９と同様である。構成上の相違点は、リオーダバ
ッファ５３から他のスレッド実行手段５０のレジスタフ
ァイル５４に対してレジスタ内容更新用のパスが存在す
ること、及びレジスタデータセレクタ装置５５への入力
に他のスレッド実行手段５０のレジスタファイル５４か
らの入力が存在しないことである。

【００７６】フォーク時の動作モデルを図１６に示す。
親スレッドでフォーク命令がスレッド実行手段＃０５
０ａでデコードされると、スレッド管理手段５８によっ
てスレッド実行手段＃１５０ｂで子スレッドの実行が
開始され、同時にスレッド管理手段５８によってレジス
タファイル＃０５４ａの内容をレジスタファイル＃１
５４ｂにコピーする。

【００７７】しかしながら、レジスタファイル＃０５
４ａでは、フォーク命令よりも前の命令によるレジスタ
更新が完全に行われておらず、更新データが親スレッド
のスレッド実行手段５０のリオーダバッファ＃０５３
ａに存在するか、まだ演算が行われていない可能性があ
る。従って、レジスタデータセレクタ装置＃１５５ｂ
では、子スレッドのレジスタファイル＃１５４ｂとリ
オーダバッファ＃０５３ａとリオーダバッファ＃１５
３ｂのデータを選択して用いて演算を行う。

【００７８】一方、親スレッド側でフォーク命令がプロ
グラム順序で完全終了した時点で、リオーダバッファ＃
０５３ａのデータをレジスタファイル＃１５４ｂに
供給する必要はなくなるので、レジスタファイル＃１
５４ｂとリオーダバッファ＃１５３ｂのデータをレジ
スタデータセレクタ装置＃１５５ｂで選択して用いて
演算を行うことになる。また、この時点で、リオーダバ
ッファ＃１５３ｂのレジスタファイル＃１５４ｂへ
のレジスタアップデート動作が可能になりｏｕｔ−ｏｆ
−ｏｒｄｅｒ実行を行うプロセッサにおいてもレジスタ
内容の継承が実現される。

【００７９】図９，図１５に示したプロセッサでは、レ
ジスタファイルの内容のコピーをフォーク命令の完了時
／デコード時に一度行うことを前提にしたレジスタファ
イル間の転送手段を前提にしていた。しかしながら、現
実にはレジスタファイルの内容のすべてを同時にコピー
するには、高バンド幅の転送手段が必要となる。

【００８０】第６の発明は、このような問題に対して、
レジスタファイルの転送を複数回に分割することによっ
て対処するものである。図１７は、第６の発明の実施例
のブロック図である。同図は、１６ワードレジスタファ
イル，４ワード４回転送型レジスタ転送手段の構成例を
示しおり、送信側のレジスタファイル＃０５９ａ，受
信側のレジスタファイル＃１５９ｂ，マルチプレクサ
６０，デバイダ６１，参照許可ビット６２ａ，６２ｂか
ら構成される。

【００８１】図１８は、図１７の実施例のタイミングチ
ャートである。図１８において、（Ａ）から（Ｄ）は転
送中のレジスタファイルを示し、（Ｅ）はマルチプレク
サ６０からデバイダ６１へ現在どのレジスタを転送して
いるかを伝達するための情報線の内容を示し、（Ｆ）か
ら（Ｉ）はレジスタファイル＃１５９ｂの参照許可ビ
ット６２ｂの状態を示している。

【００８２】レジスタファイル５９のコピーが開始され
ると、レジスタファイルはｒ０−ｒ３，ｒ４−ｒ７，ｒ
８−ｒ１１，ｒ１２−ｒ１５の４回に分割して転送され
る。転送中は送信側のレジスタファイル＃０５９ａの
更新と、レジスタファイル＃１５９ｂの参照は禁止さ
れる。転送が終了次第順次レジスタファイル＃０５９
ａの更新とレジスタファイル＃１５９ｂの参照が許可
される。この参照の許可は参照許可ビット６２ａ，６２
ｂをセットすることによって行われる。

【００８３】これによって、レジスタ転送のバンド幅を
低減しながらレジスタ転送が可能になる。なお、レジス
タ転送時にレジスタファイルのアクセスが禁止されるサ
イクルが増加するが、順次レジスタアクセス禁止が解除
されるので、その特性に合わせたコードスケジュールを
行い、使用できないレジスタに対するアクセスを遅らせ
ることにより、このレイテンシを或る程度隠蔽すること
が可能になる。

【００８４】次に、第７の発明について説明する。図１
９はその実施例のブロック図である。基本的には、第４
の発明にかかる図９の実施例とほぼ同様であるが、退避
用レジスタファイル７２が新たに設けられている。

【００８５】空いているスレッド実行手段６３が存在し
ない時にさらにフォーク命令が実行された場合、フォー
ク命令を実行したスレッド実行手段６３がレジスタファ
イル６７の確定した時にこの退避用レジスタファイル７
２にコピーを行う。このことによって、システム管理ソ
フトウェアの介入なく、スレッド実行手段６３の数を超
えるスレッド生成要求に対処する。スレッド実行手段６
３に空きができた時点で、退避用レジスタファイル７２
から、空いたスレッド実行手段６３のレジスタファイル
６７に対してコピーを行い、退避していたスレッドの実
行を再開する。これらの管理はスレッド管理手段７１に
よって行われる。

【００８６】次に、第８の発明について説明する。図２
０は、その実施例の一例を示す２スレッド並列実行型プ
ロセッサのブロック図である。図２０のプロセッサはス
レッド実行手段７３ａ，７３ｂと共有の物理レジスタフ
ァイル７８，レジスタビジーテーブル８１，レジスタフ
リーテーブル８２，スレッド管理手段８３から構成され
る。

【００８７】スレッド実行手段７３ａ，７３ｂはそれぞ
れ、命令キャッシュ７４ａ，７４ｂ，命令デコーダ７５
ａ，７５ｂ，レジスタ写像テーブル７６ａ，７６ｂ，命
令キュー７７ａ，７７ｂ，演算ユニット７９ａ，７９
ｂ，有効命令順序バッファ８０ａ，８０ｂから構成され
る。

【００８８】この実施例では、レジスタをソフトウェア
からアクセスする論理レジスタと、ハードウェア的にレ
ジスタ内容を保持する物理レジスタを分離し、その写像
関係をレジスタ写像テーブル７６に保持する。図２１
は、レジスタ写像テーブル７６ａの詳細なブロック図で
ある。レジスタ写像テーブル７６ｂも同様の構造であ
る。レジスタ写像テーブル７６は、論理レジスタ数分の
物理レジスタ番号エントリを持っており、論理レジスタ
番号を物理レジスタ番号に変換する。

【００８９】どのスレッド実行手段７３が、どのレジス
タを使用しているかという情報を管理するのが、レジス
タフリーテーブル８２である。図２２は、レジスタフリ
ーテーブル８２の詳細なブロック図である。レジスタフ
リーテーブル８２は、レジスタフリー決定論理８４，フ
リーレジスタ検索論理８５，状態テーブル８６から構成
される。

【００９０】命令が命令デコーダ７５によってデコード
されると、読み出し参照する論理レジスタ番号と書き込
み参照する論理レジスタ番号が確定する。読み出し参照
を行う論理レジスタ番号は、直ちにレジスタ写像テーブ
ル７６によって物理レジスタ番号に変換され、命令キュ
ーに格納される。

【００９１】書き込み参照する論理レジスタに対して
は、新しい物理レジスタを確保して用いる。これは、ｏ
ｕｔ−ｏｆ−ｏｒｄｅｒ実行を行った際に、現在デコー
ドした命令により前の命令が同じ論理レジスタを参照す
る際の正当性を維持するためである。例えば、１０ａｄｄｒ１←ｒ２＋ｒ３１４ｓｕｂｒ３←ｒ４−ｒ２という命令をｏｕｔ−ｏｆ−ｏｒｄｅｒで実行する場合
には、１４番地の命令を実行して、更新されたｒ３の値
を１０番地の命令が読み出すとプログラムの正当性が維
持できなくなる。そこで、１０番地のｒ３と１４番地の
ｒ３を異なった物理レジスタに写像することによって、
１４番地の命令を実行しても実行前のｒ３の値を保持し
ておき、１０番地の実行時には前のレジスタ写像関係か
ら前のｒ３の値を読み出し参照するということを行う。
このため、現在未使用の物理レジスタをレジスタフリー
テーブル８２から確保し、レジスタ写像テーブル７６の
写像情報を新しい論理レジスタ−物理レジスタ対応関係
に更新する。

【００９２】命令デコード時には、有効命令順序バッフ
ァ８０に対しても命令のプログラム順序に従って必要な
情報を記憶させる。ここでは、デコード命令によって新
しい論理レジスタ−物理レジスタ写像関係が生成された
場合、その命令実行前のレジスタ写像関係を併せて記憶
させる。これは、物理レジスタの開放や処理の取消時に
必要になるためである。

【００９３】新たに確保した物理レジスタは実際に書き
込みが生じるまでは読み出し参照を禁止する。この書き
込みが生じたか否かをレジスタビジーテーブル８１で管
理する。確保した物理レジスタは最初ビジー状態で読み
出し参照を禁止する。その後、書き込みが生じた後にフ
リー状態に変更して読み出し参照を許可する。図２３は
レジスタビジーテーブル８１の詳細なブロック図であ
る。レジスタビジーテーブル８１の管理するレジスタ数
は物理レジスタ本数に対応する。

【００９４】物理レジスタはプログラム順序で命令を完
全に終了させる際に開放を行う。例えば、１０ａｄｄｒ１←ｒ２＋ｒ３１４ｓｕｂｒ３←ｒ４−ｒ２の例の場合、１４番地の命令が終了時に１０番地までに
用いていたｒ３に対応する物理レジスタを開放する。１
４番地で確保したｒ３の物理レジスタを開放するのは、
その後のｒ３を更新する命令がプログラム順序で完全終
了する際である。但し、この開放は子スレッドにレジス
タ内容が継承されていない場合である。子スレッドに継
承されている場合、親スレッド，子スレッド両者が開放
された時に完全に開放されたことになる。つまり、状態
テーブル８６のすべてのエントリがリセットされた場合
に、当該レジスタは空き状態になる。

【００９５】以下、図２０のプロセッサの実際の動作に
ついて説明する。図２０のプロセッサは、スレッド生成
と終了時以外はスレッド実行手段７３で独立して処理を
進める。物理レジスタファイル７８，レジスタビジーテ
ーブル８１，レジスタフリーテーブル８２は共有である
が、スレッド毎に異なった要求を同時に処理するだけで
ある。従って、この点においては、レジスタ写像テーブ
ル７６を用いてレジスタリネーミングを行う従来のスー
パスカラプロセッサの処理方法と何ら相違はない。

【００９６】さて、図２０のプロセッサでは、フォーク
命令をデコードすると、レジスタ写像テーブル７６の内
容を他の空いているスレッド実行手段７３のレジスタ写
像テーブル７６にコピーする。同時にレジスタフリーテ
ーブル８２に対してもコピーを行う。この情報を受けた
レジスタフリーテーブル８２は、子スレッドのスレッド
実行手段における状態テーブルをレジスタ使用中にセッ
トする。レジスタ写像テーブル７６はデコード時にプロ
グラム順序に従って内容が変更されるので、フォーク命
令デコード時に、正しい写像情報を保持している。従っ
て、子スレッドからも親スレッド同様に通常の物理レジ
スタファイル７８の参照が可能である。また、スレッド
生成後は同一論理レジスタへの書き込みを行った物理レ
ジスタへマッピングするので、各々のスレッドで独立し
た処理が可能である。スレッド終了時には、レジスタフ
リーテーブル８２の当該スレッド実行手段７３の状態テ
ーブル８６をクリアする。

【００９７】このように本実施例では写像関係をコピー
することによって、ｏｕｔ−ｏｆ−ｏｒｄｅｒにおける
レジスタ内容の継承を実現する。本実施例では、第４か
ら第７までの発明に比して、コピーする情報量が少な
い。また、親スレッド側でフォーク命令がプログラム順
序で終了するまでの特別な制御が不要であるという特徴
がある。

【００９８】次に、第９の発明について説明する。この
発明は第６の発明とほぼ同様の思想であるが、第８の発
明に準じ、レジスタファイルの内容転送の代わりにレジ
スタ写像テーブルの内容を複数回に分割して実現するも
のである。

【００９９】これによって、レジスタ転送のバンド幅を
一層低減しながらレジスタ内容の継承が可能になる。な
お、レジスタ写像テーブル転送時にレジスタファイルの
アクセスが禁止されるサイクルが増加するが、順次レジ
スタアクセス禁止が解除されるので、その特性に合わせ
たコードスケジューリングを行い、使用できないレジス
タに対するアクセスを遅らせることにより、第６の発明
同様、このレイテンシをある程度隠蔽することが可能に
なる。

【０１００】次に、第１０の発明について説明する。図
２４は、この発明の実施例を示す２スレッド並列実行型
プロセッサのブロック図である。本発明は、基本的には
第８の発明にかかる図２０の実施例とほぼ同様である
が、退避用レジスタ写像テーブル９８を新たに設け、レ
ジスタフリーテーブル９６に対して、退避用レジスタ状
態テーブルを付加する。

【０１０１】空いているスレッド実行手段８７が存在し
ない時にさらにフォーク命令が実行された場合、フォー
ク命令を実行したプロセッサのフォーク命令デコード時
にレジスタ写像テーブル９０の内容を退避用レジスタ写
像テーブル９８にコピーする。このことによって、シス
テム管理ソフトウェアの介入なく、スレッド実行手段８
７の数を超えるスレッド生成要求に対処する。スレッド
実行手段８７に空きができた時点で、退避用レジスタ写
像テーブル９８から、空いたスレッド実行手段８７のレ
ジスタ写像テーブル９０に対してコピーを行い、退避し
ていたスレッドの実行を再開する。これらの管理はスレ
ッド管理手段９７によって行われる。

【０１０２】次に第１１の発明について説明する。第１
１の発明は、１スレッドでフォーク命令によって子スレ
ッドを生成する回数を１回にし、さらに子スレッドは親
スレッドが終了するまで終了できないとすることによっ
て得られる効果についての発明である。子スレッドの生
成を１回にすることにより、スレッドの生成／消滅は逐
次的に行われるようになる。このことを４スレッド並列
実行環境に対して適用したモデルが図２５である。

【０１０３】図２５に示すように、フォークによって生
成される子スレッドの生成先は隣接するスレッド実行手
段に限定できる。すなわち、スレッド実行手段＃０から
は必ずスレッド実行手段＃１に対してフォークを行い、
スレッド実行手段＃１からはスレッド実行手段＃２へ、
スレッド実行手段＃２からはスレッド実行手段＃３へ、
スレッド実行手段＃３からはスレッド実行手段＃０へと
いうようにスレッドはリング状にスレッド実行手段に展
開される。従って、第４から第１０の発明におけるレジ
スタファイルもしくはレジスタ写像テーブルの内容転送
手段を多対多構造からリング状の転送手段に簡単化する
ことが可能となる。

【０１０４】図２６は図１４の実施例に図２５の技術を
適用した場合のレジスタファイル回りのブロック図であ
る。図２６においてレジスタファイル９９は、リング状
レジスタファイル転送手段１０３によって結合してい
る。従って、物理的なレジスタファイル９９の位置を工
夫することによって、より効率的なハードウェア実装が
可能となる。

【０１０５】次に、本発明のその他の実施の形態につい
て説明する。一つの他の実施の形態としては、第８の発
明に対して、第１１の発明で用いた子スレッド生成１回
限定の特徴を追加し、フォーク時に物理レジスタ継承情
報をレジスタフリーテーブルに伝達することなく、論理
レジスタ−物理レジスタのリネーミングを実現しつつ、
子スレッドへのレジスタ内容継承を実現するものがあ
る。図２７にこの実施の形態の実施例として２スレッド
並列実行型のプロセッサの構成例を、図２８にレジスタ
フリーテーブル１１３の詳細図を示す。図２７のプロセ
ッサは、基本的には図２０のプロセッサと同一構造であ
るが、レジスタ写像テーブル１０７からレジスタフリー
テーブル１１３へ、フォーク時に物理レジスタの継承を
伝える手段が省略されている。

【０１０６】また、レジスタフリーテーブル１１３は、
図２８に示すように、状態テーブル１１７の各スレッド
実行手段１０４のエントリが２ビットに拡張されてい
る。このビットの意味を表１に示す。

【０１０７】

【表１】

【０１０８】レジスタ確保時には、既にフォークを行っ
たスレッドかフォークを行っていないスレッドかで状態
テーブル１１７にセットされる値は異なる。従って、フ
ォーク前か後かの情報をスレッド管理手段１１４から得
る必要がある。また、表１中のオーナ権はレジスタを確
保したスレッド実行手段１０４の状態テーブル１１７に
付与されるものであるが、その後のレジスタ継承によっ
て、子スレッド以下に委譲される場合もある。各スレッ
ド実行手段１０４の状態テーブル１１７がすべて００の
場合、対応するエントリの物理レジスタは未使用状態で
ある。

【０１０９】以下、レジスタ開放論理について説明す
る。この論理はレジスタフリー決定論理１１５によって
決定する。この論理の説明では、Ｎスレッド同時実行プ
ロセッサモデルとしている。これは、２スレッド同時実
行モデルでは、論理が簡単化されてしまうためである。
またスレッドは、親スレッド→子スレッド→孫スレッド
という順に生成されたものとする。ここで、子スレッド
において命令プログラム順序終了時のレジスタ開放時の
論理を表２に示す。

【０１１０】

【表２】

【０１１１】この表２から明らかなように、孫スレッド
へのレジスタ継承が行われている際には、親フィール
ド，子フィールド，孫フィールドの３種類のフィールド
値と開放しようとしているスレッドのフォーク状態によ
って状態遷移が決定される。これ以外の状態遷移は通常
ではあり得ずエラーとなる。

【０１１２】この論理を用いることによって、フォーク
命令実行時にレジスタフリーテーブル１１３は多数の状
態テーブル１１７の内容を変更することなく、レジスタ
の継承／開放が可能になる。

【０１１３】さらに他の実施の形態では、図２９に示し
たように、レジスタ使用中ビット１２１を付加する。こ
のレジスタ使用中ビットは、物理レジスタを確保する際
に、フリーレジスタ検索論理１１９によって未使用のも
のを見つけ、使用中にセットする。このことによって状
態テーブル１２０のすべてのエントリが００もしくは未
使用であるという状態のレジスタを検索する論理が簡単
化される。レジスタ使用中ビット１２１を使用中状態か
ら、未使用状態にセットするのは、レジスタフリー決定
論理１１８が、状態テーブル１２０の内容を書き換える
際に同時に行う。

【０１１４】

【発明の効果】以上説明したように、本発明によれば、
スレッドを並列に処理する際に、親スレッドから子スレ
ッドに対して共有メモリを介さずにレジスタ内容の継承
が可能になり、スレッド生成時のオーバヘッドを減らす
ことができる。また、このレジスタ内容の継承をｏｕｔ
−ｏｆ−ｏｒｄｅｒ実行を行うプロセッサに対しても、
フォーク命令前後間においても実現したため、スレッド
生成にともなうオーバヘッドを減らすことが可能にな
り、粒度の細かいスレッドに対してもスレッドレベル並
列処理による処理速度の向上が実現できる。

【図面の簡単な説明】

【図１】第１の発明におけるレジスタ内容の継承方法の
概念図である。

【図２】第１の発明におけるレジスタ内容の継承方法を
実現する２スレッド並列実行型プロセッサの実施例のブ
ロック図である。

【図３】図２に示した実施例のプロセッサにおけるスレ
ッド生成時のタイミングチャートである。

【図４】第２の発明を適用した２スレッド並列実行型プ
ロセッサの実施例のブロック図である。

【図５】レジスタ選択手段＃１１２ｂの構成例を示す
ブロック図である。

【図６】レジスタファイル＃０１３ａの構成例を示す
ブロック図である。

【図７】図４に示した実施例のプロセッサのタイミング
チャートである。

【図８】第３の発明の動作説明図である。

【図９】第４の発明を適用した２スレッド並列実行型プ
ロセッサの実施例のブロック図である。

【図１０】命令キュー＃０２７ａの構成例を示すブロ
ック図である。

【図１１】リオーダバッファ＃０２４ａの構成例を示
すブロック図である。

【図１２】レジスタデータセレクタ装置＃１２６ｂの
処理の論理を示すフローである。

【図１３】図９のプロセッサにおけるフォーク時の動作
モデルを示す図である。

【図１４】第４の発明を適用した４スレッド並列実行２
演算ユニット型プロセッサの実施例のブロック図であ
る。

【図１５】第５の発明を適用した２スレッド並列実行型
プロセッサの実施例のブロック図である。

【図１６】図１５のプロセッサにおけるフォーク時の動
作モデルを示す図である。

【図１７】第６の発明の実施例のブロック図である。

【図１８】図１７の実施例のタイミングチャートであ
る。

【図１９】第７の発明の実施例のブロック図である。

【図２０】第８の発明を適用した２スレッド並列実行型
プロセッサの実施例のブロック図である。

【図２１】レジスタ写像テーブル７６ａの詳細なブロッ
ク図である。

【図２２】レジスタフリーテーブル８２の詳細なブロッ
ク図である。

【図２３】レジスタビジーテーブル８１の詳細なブロッ
ク図である。

【図２４】第１０の発明を適用した２スレッド並列実行
型プロセッサの実施例のブロック図である。

【図２５】第１１の発明の実施例のモデルを示す図であ
る。

【図２６】図１４の実施例に図２５の技術を適用した場
合のレジスタファイル回りのブロック図である。

【図２７】本発明の他の実施の形態の実施例である２ス
レッド並列実行型のプロセッサのブロック図である。

【図２８】レジスタフリーテーブル１１３の詳細図であ
る。

【図２９】本発明の他の実施の形態におけるレジスタフ
リーテーブルの詳細図である。

【図３０】従来のリオーダバッファ方式によるレジスタ
リネーミング機構の構成を示すブロック図である。

【図３１】従来のレジスタ写像テーブル方式によるレジ
スタリネーミング機構の構成を示すブロック図である。

【図３２】従来のマルチスレッド型のプロセッサの構成
を示すブロック図である。

【図３３】ＭｕｌｔｉｓｃａｌａｒＰｒｏｃｅｓｓｏ
ｒの構成を示すブロック図である。

【符号の説明】

１…親スレッド（新スレッドを生成するスレッド）２…スレッド生成命令（フォーク命令）３…子スレッド（新スレッド）４…スレッド管理手段５ａ，５ｂ…スレッド実行手段６ａ，６ｂ…レジスタファイル７…レジスタ内容一括転送手段８…共有メモリ９ａ，９ｂ…スレッド実行手段１０ａ，１０ｂ…命令キャッシュ１１ａ，１１ｂ…命令デコーダ１２ａ，１２ｂ…レジスタ選択手段１３ａ，１３ｂ…レジスタファイル１４ａ，１４ｂ…演算ユニット１５…スレッド管理手段１６…レジスタ選択テーブル１７…レジスタ選択ビット１８…レジスタ内容メモリ１９…転送終了ビット２０…更新ビット２１ａ，２１ｂ…スレッド実行手段２２ａ，２２ｂ…命令キャッシュ２３ａ，２３ｂ…命令デコーダ２４ａ，２４ｂ…リオーダバッファ２５ａ，２５ｂ…レジスタファイル２６ａ，２６ｂ…レジスタデータセレクタ装置２７ａ，２７ｂ…命令キュー２８ａ，２８ｂ…演算ユニット２９…スレッド管理手段３０…キューエントリ格納論理３１…発行命令決定論理３２…命令キューエントリ３３…エントリ有効ビット３４…レジスタ内容／リオーダバッファタグ格納メモリ３５…レジスタ内容有効ビット３６…結果書き込み場所指定タグ３７…命令コード格納メモリ３８…レジスタデータ供給決定論理３９…エントリシフト制御論理４０…リオーダバッファエントリ４１…エントリ有効ビット４２…結果書き込み指定タグ４３…レジスタ番号４４…スレッド生成ビット４５…演算データ格納メモリ有効ビット４６…演算データ格納メモリ４７ａ，４７ｂ…結果振り分け装置４８ａ，４８ｂ…レジスタデータ選択装置４９ａ，４９ｂ…命令キュー５０ａ，５０ｂ…スレッド実行手段５１ａ，５１ｂ…命令キャッシュ５２ａ，５２ｂ…命令デコーダ５３ａ，５３ｂ…リオーダバッファ５４ａ，５４ｂ…レジスタファイル５５ａ，５５ｂ…レジスタデータセレクタ装置５６ａ，５６ｂ…命令キュー５７ａ，５７ｂ…演算ユニット５８…スレッド管理手段５９ａ，５９ｂ…レジスタファイル６０…マルチプレクサ６１…デバイダ６２ａ，６２ｂ…参照許可ビット６３ａ，６３ｂ…スレッド実行手段６４ａ，６４ｂ…命令キャッシュ６５ａ，６５ｂ…命令デコーダ６６ａ，６６ｂ…リオーダバッファ６７ａ，６７ｂ…レジスタファイル６８ａ，６８ｂ…レジスタデータセレクタ装置６９ａ，６９ｂ…命令キュー７０ａ，７０ｂ…演算ユニット７１…スレッド管理手段７２…退避用レジスタファイル７３ａ，７３ｂ…スレッド実行手段７４ａ，７４ｂ…命令キャッシュ７５ａ，７５ｂ…命令デコーダ７６ａ，７６ｂ…レジスタ写像テーブル７７ａ，７７ｂ…命令キュー７８…物理レジスタファイル７９ａ，７９ｂ…演算ユニット８０ａ，８０ｂ…有効命令順序バッファ８１…レジスタビジーテーブル８２…レジスタフリーテーブル８３…スレッド管理手段８４…レジスタフリー決定論理８５…フリーレジスタ検索論理８６…状態テーブル８７ａ，８７ｂ…スレッド実行手段８８ａ，８８ｂ…命令キャッシュ８９ａ，８９ｂ…命令デコーダ９０ａ，９０ｂ…レジスタ写像テーブル９１ａ，９１ｂ…命令キュー９２…物理レジスタファイル９３ａ，９３ｂ…演算ユニット９４ａ，９４ｂ…有効命令順序バッファ９５…レジスタビジーテーブル９６…レジスタフリーテーブル９７…スレッド管理手段９８…退避用レジスタ写像テーブル９９ａ，９９ｂ，９９ｃ，９９ｄ…レジスタファイル１００ａ，１００ｂ…結果振り分け装置１０１ａ，１０１ｂ…レジスタデータ選択装置１０２ａ，１０２ｂ，１０２ｃ，１０２ｄ…リオーダバ
ッファ１０３…リング状レジスタファイル転送手段１０４ａ，１０４ｂ…スレッド実行手段１０５ａ，１０５ｂ…命令キャッシュ１０６ａ，１０６ｂ…命令デコーダ１０７ａ，１０７ｂ…レジスタ写像テーブル１０８ａ，１０８ｂ…命令キュー１０９…物理レジスタファイル１１０ａ，１１０ｂ…演算ユニット１１１ａ，１１１ｂ…有効命令順序バッファ１１２…レジスタビジーテーブル１１３…レジスタフリーテーブル１１４…スレッド管理手段１１５…レジスタフリー決定論理１１６…フリーレジスタ検索論理１１７…状態テーブル１１８…レジスタフリー決定論理１１９…フリーレジスタ検索論理１２０…状態テーブル１２１…レジスタ使用中ビット１２２…レジスタファイル１２３…リオーダ・バッファ１２４…レジスタ写像テーブル１２５…レジスタファイル１２６…有効命令順序バッファ１２７…レジスタビジーテーブル１２８…レジスタフリーテーブル１２９…命令取得装置１３０…命令解読装置１３１…機能実行装置１３２…命令依存解析装置１３３…命令調停装置１３４…シーケンサ１３５…プロセッシングユニット１３６…結合ネットワーク１３７…データバンク１３８…命令キャッシュ１３９…実行ユニット１４０…レジスタファイル１４１…ＡＲＢ（ＡｄｄｒｅｓｓＲｅｓｏｌｕｔｉｏ
ｎＢｕｆｆｅｒ）１４２…データキャッシュ１５０…レジスタ内容転送手段

フロントページの続き (56)参考文献特開平８−171494（ＪＰ，Ａ) 特公昭58−43778（ＪＰ，Ｂ２) インターフェース 1991年10月号（ＣＱ出版社），Ｐ．140〜141及びＰ．151 情報処理学会論文誌，Ｖｏｌ．36，Ｎｏ．７（1995年７月），Ｐ．1700〜1708 ＰｒａｄｅｅｐＫ．Ｄｕｂｅｙ，ｅｔ．ａｌ，”Ｓｉｎｇｌｅ−ＰｒｏｇｒａｍＳｐｅｃｎｌａｔｉｖｅＭｕｌｉｔｉｔｈｒｅａｄｉｎｇ（ＳＰＳＭ) Ａｒｃｈｉｔｅｃｔｕｒｅ：Ｃｏｍｐｉｌｅｒ−ａｓｓｉｓｔｅｄＦｉｎｅ− ＧｒａｉｎｅｄＭｕｌｔｉｔｈｒｅａｄｉｎｇ”，ＰａｒａｌｌｅｄＡｒｃｈｉｔｅｃｔｕｒｅａｎｄＣｏｍｐｉｌａｔｉｏｎＴｅｃｈｎｉｑｕｅｓ，ＩＦＩＰ，1995，ｐｐ．109〜121 （ＪＩＣＳＴ資料番号Ｋ19960280) ＧｕｒｉｎｄａｒＳ．Ｓｏｈｉ，ｅｔ．ａｌ，”ＭｕｌｔｉｓｃａｌａｒＰｒｏｃｅｓｓｏｒｓ”，Ｔｈｅ22ｎｄＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＰｒｅｓｓ），1995，ｐｐ．414〜425 （ＪＩＣＳＴ資料番号Ｃ0446Ｂ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G06F 9/46,9/38,15/16,15/80 ＪＯＩＳ（ＪＩＣＳＴファイル) ＣＳＤＢ（日本国特許庁)

Claims

(57)【特許請求の範囲】

【請求項１】論理的に複数のプログラムカウンタを有
し、これらのプログラムカウンタに従った複数のスレッ
ドの命令を同時にフェッチ，解釈，実行するスレッド実
行手段と、独立した論理的なレジスタファイルとを備
え、単一のスレッド中の指定された命令によって、新た
なスレッド（子スレッド）の実行を開始する機能を備え
たプロセッサにおいて、子スレッド実行開始命令を実
行するスレッド（親スレッド）の命令実行時点のレジス
タファイルの内容を直接転送することによって子スレッ
ドのレジスタファイルに継承するために、スレッド毎に複数のレジスタファイル及びレジスタ選択
手段を備えると共に、レジスタ内容転送手段を備え、子スレッドは、前記レジスタ選択手段によって親スレッ
ドのレジスタファイルを参照し、レジスタの変更が行われる毎に、前記レジスタ内容転送
手段によって順次新スレッドのレジスタファイルに、変
更する前のレジスタ内容を転送し、前記レジスタ選択手段の選択内容を子スレッド側のレジ
スタファイルに切替えることによってレジスタファイル
を継承させることを特徴としたマルチスレッド実行方
法。
【請求項２】親スレッドのプログラムにおける子スレ
ッド実行開始命令とその前後に配置される他の演算命令
との間で、プログラムの意味を変えない範囲内において
非プログラム順序に実行することを特徴とした請求項１
記載のマルチスレッド実行方法。
【請求項３】演算の結果とレジスタ番号を指定するタ
グを一時的に格納するリオーダバッファを持ち、命令を
デコードした際に、そのリオーダバッファのエントリを
確保し、命令をプログラムで指定された順序ではなく、
必要なレジスタの値が使用可能になったものからレジス
タ及びリオーダバッファの当該命令よりも前のエントリ
から供給することによって演算を行い、演算結果を命令
デコード時に確保したリオーダバッファのエントリに格
納し、そのリオーダバッファからはプログラム順序でレ
ジスタ内容の更新を行うことによって、プログラムの順
序に従わずに処理を進める非プログラム順序実行型プロ
セッサにおいて、複数のプログラムカウンタを有し、これらのプログラム
カウンタに従った複数のスレッドの命令を同時にフェッ
チ，解釈，実行するスレッド実行手段と、複数のレジス
タファイルおよびリオーダバッファを設け、親スレッドと子スレッドの両者のレジスタファイルおよ
びリオーダバッファからの内容出力を選択するレジスタ
データセレクタ装置を設け、子スレッド生成命令が親スレッド内でプログラム順序で
完了した時点で、親スレッドを実行しているレジスタフ
ァイルの内容を子スレッドを実行しているレジスタファ
イルにコピーすることによって、コピー前は親スレッドのレジスタファイル，リオーダバ
ッファおよび子スレッドのリオーダバッファからレジス
タ内容を選択し、コピー後は子スレッドのリオーダバッ
ファおよびレジスタファイルからレジスタ内容を選択す
ることによってレジスタの継承を行うことを特徴とした
請求項２記載のマルチスレッド実行方法。
【請求項４】演算の結果とレジスタ番号を指定するタ
グを一時的に格納するリオーダバッファを持ち、命令を
デコードした際に、そのリオーダバッファのエントリを
確保し、命令をプログラムで指定された順序ではなく、
必要なレジスタの値が使用可能になったものからレジス
タ及びリオーダバッファの当該命令よりも前のエントリ
から供給することによって演算を行い、演算結果を命令
デコード時に確保したリオーダバッファのエントリに格
納し、そのリオーダバッファからはプログラム順序でレ
ジスタ内容の更新を行うことによって、プログラムの順
序に従わずに処理を進める非プログラム順序実行型プロ
セッサにおいて、複数のプログラムカウンタを有し、これらのプログラム
カウンタに従った複数のスレッドの命令を同時にフェッ
チ，解釈，実行するスレッド実行手段と、複数のレジス
タファイルおよびリオーダバッファを設け、親スレッドと子スレッドの両者のリオーダバッファ及び
子スレッドのレジスタファイルからの内容出力を選択す
るレジスタデータセレクタ装置を設け、レジスタファイルの内容のコピーを子スレッド生成が行
われた時点で行うこととして、その後は親スレッドのリ
オーダバッファから、親スレッドのレジスタファイルと
子スレッドのレジスタファイルに書き込みを行い、スレッド生成命令がプログラム順序で終了する前は親ス
レッドのリオーダバッファ，子スレッドのレジスタファ
イルおよびリオーダバッファからレジスタ内容を選択
し、プログラム順序で終了した後は子スレッドのリオー
ダバッファおよびレジスタファイルからレジスタ内容を
選択することによってレジスタの継承を行うことを特徴
した請求項２記載のマルチスレッド実行方法。
【請求項５】レジスタファイルのコピーを複数回の転
送サイクルによって行うレジスタ内容転送手段を用い、レジスタ内容の転送が済んだレジスタファイル部分か
ら、新スレッドにおいて、参照を許可することを特徴と
した請求項３または４記載のマルチスレッド実行方法。
【請求項６】スレッド生成命令を実行した時点で、そ
のスレッドを実行できる資源が確保できない場合に、レ
ジスタの内容を退避用レジスタファイルに蓄えることに
よって、プロセッサの許容数以上のスレッドが同時に存
在し得るようにしたことを特徴とする請求項３，４また
は５記載のマルチスレッド実行方法。
【請求項７】論理的に複数のプログラムカウンタを有
し、これらのプログラムカウンタに従った複数のスレッ
ドの命令を同時にフェッチ，解釈，実行するスレッド実
行手段と、物理的には共有しており論理的には独立した
レジスタファイルと、論理レジスタと物理共有レジスタ
との対応関係を可変とし、この対応関係を記憶した写像
テーブルとを備え、単一のスレッド中の指定された命令
によって、新たなスレッド（子スレッド）の実行を開始
する機能を備えたプロセッサにおいて、子スレッド実行開始命令を実行するスレッド（親スレッ
ド）の命令実行時点のレジスタファイルの内容を子スレ
ッドのレジスタファイルに、写像関係をコピーすること
によって継承することを特徴としたマルチスレッド実行
方法。
【請求項８】親スレッドのプログラムにおける子スレ
ッド実行開始命令とその前後に配置される他の演算命令
との間で、プログラムの意味を変えない範囲内において
非プログラム順序に実行することを特徴とした請求項７
記載のマルチスレッド実行方法。
【請求項９】プログラムから指定する論理レジスタと
ハードウェアに実行される物理レジスタとの対応関係を
可変とし、この対応関係を記録，更新，検索するレジス
タ写像テーブルを備え、論理レジスタに対して値の書き
込みを行おうとする毎に物理レジスタとの新しい対応関
係を生成し、対応する物理レジスタに値の書き込みが完
了した時点で読み出しを許可し、命令がプログラム順序
に完了した時点で、論理レジスタとの古い対応関係にな
っていた物理レジスタを未使用状態にすることによっ
て、非プログラム順序で命令を実行するプロセッサにお
いて、複数のプログラムカウンタを有し、これらのプログラム
カウンタに従った複数のスレッドの命令を同時にフェッ
チ，解釈，実行するスレッド実行手段を設け、前記複数
のスレッド実行手段から参照できる共有の物理レジスタ
ファイルと、この共有の物理レジスタファイルの使用状
態保持手段と、複数のレジスタ写像テーブルとを設け、子スレッド実行開始命令を解釈した時点で、これらのレ
ジスタ写像テーブル間で内容をコピーすることによって
レジスタの継承を行い、継承した物理レジスタを親スレッド，子スレッド両者で
対応する論理レジスタに書き込みを行った時点で、未使
用状態にすることによってレジスタの継承を行うことを
特徴とした請求項８記載のマルチスレッド実行方法。
【請求項１０】レジスタ写像テーブルの内容のコピー
を複数回の転送サイクルによって行い、新スレッドにおいて、対応関係の転送が済んだものから
使用可能にすることを特徴とした請求項９記載のマルチ
スレッド実行方法。
【請求項１１】スレッド生成命令を実行した時点で、
そのスレッドを実行できる資源が確保できない場合に、
レジスタ写像テーブルの内容を退避用レジスタ写像テー
ブルに蓄えることにより、プロセッサの許容数以上のスレッドが同時に存在し得る
ようにすることを特徴とした請求項９または１０記載の
マルチスレッド実行方法。
【請求項１２】親スレッドから子スレッドを生成する
回数を高々１回に制限し、スレッドの消滅順序を親スレ
ッドを子スレッドより先にすることによって、隣接する
スレッド実行手段に限定してレジスタ内容継承を行うよ
うにしたことを特徴とする請求項１，２，３，４，５，
６，７，８，９，１０または１１記載のマルチスレッド
実行方法。