JPH0561672A

JPH0561672A - ロード・ストア処理装置

Info

Publication number: JPH0561672A
Application number: JP22056991A
Authority: JP
Inventors: Atsushi Okamura; 岡村淳
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1991-08-30
Filing date: 1991-08-30
Publication date: 1993-03-12
Anticipated expiration: 2013-09-30
Also published as: JP2806093B2

Abstract

(57)【要約】【目的】一部の依存関係のために、プログラムが最適
化ができないことをなくし、より高速な演算のための正
しい最適化を可能にする演算処理装置のロード・ストア
装置を実現する。【構成】仮想ストア命令１０３により、特定の実効ア
ドレス１０５を、レジスタ１０７のアドレス領域１０９
に登録し、かつフラグ１１１を立てる。そして、ロード
命令１０１が発生したとき、その実効アドレス１０２と
先に登録された実効アドレス１０５と比較器１１６によ
り比較し、一致しておればさらにアンド回路１１７でフ
ラグ１１１が立っているかを確認し、フラグ１１１が立
っておれば、例えば割り込み信号などの例外処理信号１
０８を出力する。【効果】別名を持った変数を検出することができ、変
数の依存関係のあるループの最適化が可能となる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、演算処理装置における
ロード・ストア処理装置に利用され、特に、スーパース
ケーラ方式、ＶＬＩＷ（ＶｅｒｙＬｏｎｇＩｎｓｔ
ｒｕｃｔｉｏｎＷｏｒｄ）方式、およびスーパーパイ
プライン方式の演算処理装置で使用される並列化実行に
用いるロード・ストア処理装置に関する。

【０００２】

【従来の技術】コンパイラがプログラムの動作を解析
し、その処理の依存関係を調べ、通常のアプリケーショ
ンからできるだけ並列性を引き出せるコンパイラ技術と
して、自動ベクトル化（対話型も含む）コンパイラやト
レーススケジューリングの技術がある。ベクトル化はベ
クトルプロセッサに対して有効な命令コードを発生させ
るために考え出された技術である。ベクトルプロセッサ
にかけられるプログラムは以下のようなものである。こ
れは、浮動小数点ベンチマークテストのもっとも一般的
な「リバモア・フォートランカーネル」からの抜粋であ
る。

【０００３】１ＣＤＩＲ＄ＶＥＣＴＯＲ２ＤＯ１ｋ＝１，ｎ３１Ｘ（ｋ）＝Ｑ＋Ｙ（ｋ）＊（Ｒ＊ＺＸ（ｋ＋１
０）＋Ｔ＊ＺＸ（ｋ＋１１））一行目にある「ＣＤＩＲ＄ＶＥＣＴＯＲ」はコンパイラ
・ディレクティブと呼ばれ、以下の部分のループは、ベ
クトル化が可能であることを示す。これは、データの依
存関係もなく、データの依存関係を無視して並列化を行
っていいことを示す。

【０００４】また、コンパイラ・ディレクティブがない
場合でも、ループ内での評価を行って式で使われている
データの依存関係を調べ、つまり、Ｘ（ｋ）が更新され
ても演算の右辺の値と関係がないことが確認された時点
で最適化（ベクトル化）を行う。

【０００５】これらはソースレベルでのデータの依存関
係の解析を行い依存関係がないことを検出するか、また
は依存関係がないものとみなして並列化を行う。逆に依
存関係が一部分だけでもある場合は、ベクトル化はルー
プ全体に対して行われるためにベクトル化ができないこ
とになる。

【０００６】次に、コンパイラの最適化技術について述
べる。最適化は局所的な最適化、および、大域的な最適
化に分類される。ここでは簡単のために局所的な最適化
を例にして説明する。局所的な最適化は一つの基本ブロ
ックに対応して行われる最適化である。基本ブロックと
は始めの命令以外のところへ分岐してくることはなく、
終わりの命令以外から飛びこしていくことのない一連の
命令のことをいう。

【０００７】この基本ブロックの最適化のアルゴリズム
として閉路のない有効グラフ（Ｄｉｒｅｃｔａｃｙｃ
ｌｉｃｇｒａｐｈ：ＤＡＧ）を用いる方法がある（詳
しくは後記の参考文献を参照）。この方法を用いて最適
化を行うと以下のようになる。この例は、共通部分式の
抽出であり、Ａ〔Ｉ〕が対象となっている。ただし、Ｉ
＝ＪでしかもＹ≠Ａ〔Ｉ〕の場合にはこの最適化は結果
に影響が現れる。

【０００８】これを避けるために、結局Ａ〔Ｉ〕の値を変えるよう
な最適化は行ってはいけない。一般的な最適化では、そ
の最適化で弊害が起こる場合、または弊害が起こるかど
うか予測不可な場合はその最適化を禁止するのが普通で
ある。このように配列およびポインタは最適化の妨げと
なる場合が多い。しかし、逆にベクトル化（並列化）し
やすいもの配列演算である。

【０００９】ＶＬＩＷやスーパースケーラのための最適
化（トレーススケジューリング）を進めると、配列演算
はさらに問題となる。この最もよい例がＶＬＩＷでのソ
フトウエアパイプライン最適化で発生する。

【００１０】ソフトウエアパイプライン最適化は、ルー
プのアンロール（転開）技法の一種である。スーパース
ケーラや、ＶＬＩＷで高速なベクトル処理を行う手法で
ある。まずアンロールとは、ループを以下に示すように
展開し、１ＤＯ１Ｉ＝０，９９２Ｘ（ｋ＋０）＝Ｑ＋Ｙ（ｋ＋０）＊（Ｒ＊ＺＸ（ｋ
＋１０）＋Ｔ＊ＺＸ（ｋ＋１１））３Ｘ（ｋ＋１）＝Ｑ＋Ｙ（ｋ＋１）＊（Ｒ＊ＺＸ（ｋ
＋１１）＋Ｔ＊ＺＸ（ｋ＋１２））４Ｘ（ｋ＋２）＝Ｑ＋Ｙ（ｋ＋２）＊（Ｒ＊ＺＸ（ｋ
＋１２）＋Ｔ＊ＺＸ（ｋ＋１３））５１Ｘ（ｋ＋３）＝Ｑ＋Ｙ（ｋ＋３）＊（Ｒ＊ＺＸ
（ｋ＋１３）＋Ｔ＊ＺＸ（ｋ＋１４））さらに最適化翻訳を行い、並列実行またはベクトル化を
行い高速化をはかることである。

【００１１】次に、スーパースケーラの手法について説
明する。スーパースケーラによる並列化にはいくつかの
手法がある。一つはレジスタのスコアボーディングであ
り、もう一つはトマスローのアルゴリズムと呼ばれてい
るものである。どちらも直列に並んだ命令を順々に受け
つけ、かつ並列実行をさせる手法である。前記スコアボ
ーディング法は、「ＣＤＣ６６００」に初めて採用され
た方法である。複数の演算ユニットの並列実行のため、
レジスタに演算の状態を示す状態表示板をつけ、演算中
のレジスタの値を使用することを避けるようになってい
る。つまり、前の演算結果を次の演算が使う場合は前の
演算が終わるまで、次の演算をインターロックする機構
として、レジスタに表示板をつけるやり方である（後記
の文献〔５〕参照）。

【００１２】トマスローのアルゴリズムは、ＩＢＭの３
６０／９１型の演算処理装置に始めて導入された手法
で、現在もスーパースケーラに使用されている方法であ
る。前記スコアボーディング法より一歩進んだ命令の追
い越し実行を行う。ＩＢＭ３６０／９１では、浮動小数
点演算器にこの手法が使われている。この型の計算機の
基本的な構造は、「リザベーション・ステーション」と
呼ばれる予約された演算が貯められている装置である。
受け付けられた命令は、直ちにレジスタからの読み出し
が行われる。ただし、このレジスタの値が、演算の結果
待ちである場合は、その演算結果に与えられている固有
のタグが読み出される。また演算の結果となるレジスタ
は、固有なタグが与えられ、この値が書き込まれる。読
み出されたレジスタは、命令と共にリザベーション・ス
テーションに書き込まれる。リザベーション・ステーシ
ョンの中でレジスタの値がすべて確定しているものから
順々に演算が行われる。結果は、タグと共に共通データ
バスに乗せられ、レジスタに書き戻される。同時にリザ
ベーション・ステーションで、同一のタグを持つデータ
が読み出され、結果待ちであったデータが書き込まれ
る。

【００１３】以下、具体的例により説明する。

【００１４】コンパイラが命令コードの並べ変えを含む
最適化を行う場合、基本的には任意のレジスタのメモリ
へのストアより前に、同じアドレスのメモリからのロー
ド命令を持っていくことは許されない。

【００１５】コンパイラが以下のようなプログラムを最
適化する場合に、５行目で、式の右辺と左辺で
Ｘ（．．）が使用されているため、この式では左辺の値
が右辺の値を更新する場合がある。このため、ベクトル
化またはソフトウエアパイプラインによる並列化が困難
となる。

【００１６】１ＤＯ４４４Ｌ＝１，ＬＯＯＰ２ＤＯ４４４Ｋ＝７，１００１，ｍ３ＩＷ＝Ｋ−６４ＤＯ４Ｊ＝５，ｎ，５５Ｘ（Ｋ−１）＝Ｘ（Ｋ−１）−Ｘ（ＩＷ）^*Ｙ（Ｊ）６４ＩＷ＝ＩＷ＋１７４４４Ｘ（Ｋ−１）＝Ｙ（５）^*Ｘ（Ｋ−１）つまり、前記のプログラムを効果的に最適化するために
は、ループ内の５、６行目の式をアンロールまたはベク
トル化することが必要である。

【００１７】このため、ループ内を以下のように変換す
る。なおここでは、ループの一部分を示す。アンロール
は４回行う。さらに最適化のシーケンスとして、以上の
式を分解し、並列実行できるように書き直す。

【００１８】３ＤＯ４Ｊ＝５，ｎ，１０４Ｘ（Ｋ−１）＝Ｘ（Ｋ−１）−Ｘ（ＩＷ）^*Ｙ（Ｊ）４Ｘ（Ｋ）＝Ｘ（Ｋ）−Ｘ（ＩＷ＋１）^*Ｙ（Ｊ＋５）５４ＩＷ＝ＩＷ＋２まず、通常のループ内のコンパイル状態を示す。三つの
値をロードし、演算を行い結果を書き戻す。並列動作で
きる資源が無限個あった場合はこのループは、依存関係
のために４段階で回ることができる。このままでは、こ
れ以上の高速が不可能である。

【００１９】ＬｏａｄＸ（Ｋ−１）ＬｏａｄＸ（ＩＷ）
ＬｏａｄＹ（Ｊ）ｔｍｐ１＝Ｘ（ＩＷ）^*Ｙ（Ｊ）ｔｍｐ５＝Ｘ（Ｋ−１）^*ｔｍｐ１ＳＴＯＲＥｔｍｐ５，Ｘ（Ｋ−１）さらに、高速化を図る方法としてアンロールが必要にな
る。次に、以下は２回アンロールした場合の例をコンパ
イルした場合である。上の例では２回のループで実行し
ていたことを、１回のループで実行することができる。
同様に無限の資源があった場合には、４クロックで回る
ことができる。以下の例がそうである。実際は資源が高
速化することは難しい。しかし、前記の場合に比べて、
かなりの改善がみられる。この場合は、さらに、同時に
実行できるものはまとめてある。つまり、２クロックで
１回のループを回れるわけである。

【００２０】一般的には、これが正しい場合もあるが、
この例を含めて、データの依存関係がある場合には、こ
のような最適化が、正しくない結果を導くこともある。
この例では、Ｋ−１とＩＷ＋１が等しい値であれば、そ
の結果が上のループと違うものになる。

【００２１】ＬｏａｄＸ（Ｋ−１）ＬｏａｄＸ（ＩＷ）
ＬｏａｄＹ（Ｊ）ＬｏａｄＸ（Ｋ）ＬｏａｄＸ（ＩＷ＋１）ＬｏａｄＹ
（Ｊ＋１）ｔｍｐ１＝Ｘ（ＩＷ）^*Ｙ（Ｊ）ｔｍｐ２＝Ｘ（ＩＷ＋１）^*Ｙ（Ｊ＋１）ｔｍｐ５＝Ｘ（Ｋ−１）−ｔｍｐ１ｔｍｐ６＝Ｘ（Ｋ）−ｔｍｐ２ＳＴＯＲＥｔｍｐ５，Ｘ（Ｋ−１）ＳＴＯＲＥｔｍｐ６，Ｘ（Ｋ）前のループのストア命令で変更されているはずのデータ
をそれより前に読み出しを行ってしまっているために、
間違ったデータを読み込んでしまっているわけである。
つまり、このようにアンロールを行うことで、正しくな
い結果を導いてしまうこともある。

【００２２】上の例では、ループ内では滅多に起こらな
い。ループ内では僅か１回起こるだけであるが、このた
めに、このようなアンロールを使う最適化はすることが
できない。

【００２３】従来の技術では、レジスタ資源の管理によ
る命令の追い越しまでは、行うことができるが、メモリ
上のデータに対する依存関係まで含めたプログラムの正
当性に関しては、まったく考慮されていなかった。

【００２４】〔参考文献〕〔１〕コンパイラＡ．Ｖ．Ａｈｏ，Ｊ．Ｄ．Ｕｌｌｍａ
ｎ著／土居範久訳培風館〔２〕Ｃｏｍｐｉｌｅｒｓｐｒｉｎｃｉｐｌｅｓ，ｔ
ｅｃｈｎｉｑｕｅｓ，ａｎｄｔｏｏｌｓＡ．Ｖ．Ａ
ｈｏ，Ｊ．Ｄ．Ｕｌｌｍａｎ，Ｓｅｔｈｉ（Ａｄｄｉｓ
ｏｎＷｅｓｌｅｙ）〔３〕Ｂｕｌｌｄｏｇ：ＡＣｏｍｐｉｌｅｒｆｏｒ
ＶＬＩＷＡｒｃｈｉｔｅｃｔｕｒｅｓＪｏｈｎ
Ｒ．Ｅｌｌｉｓ（ＴｈｅＭＩＴＰｒｅｓｓ）〔４〕ＳｏｆｔｗａｒｅＰｉｐｅｌｉｎｉｎｇ：Ａｎ
ＥｆｆｅｃｔｉｖｅＳｃｈｅｄｕｌｉｎｇＴｅｃｎ
ｉｑｕｅｆｏｒＶＬＩＷＭａｃｈｉｎｅｓＭｏｎ
ｉｃａＬａｍ（ＳＩＧＰＬＡＮ’８８Ｐ３１８−３
２８）〔５〕ＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ
ＡＡｕａｎｔｉｔａｔｉｖｅＡｐｐｒｏａｃｅＪ
ｏｈｎＬ．Ｈｅｎｎｅｓｓｙ，ＤａｖｉｄＡ．Ｐａ
ｔｔｅｒｓｏｎ（ＭＯＲＧＡＮＫＡＵＦＭＡＮＮ）

【００２５】

【発明が解決しようとする課題】以上説明したように、
コンパイラが命令コードの並べ変えを含む最適化を行う
場合に、レジスタへのロード命令を、それより以前に発
生したストア命令より前方に並べ変えることは基本的に
禁止されている。それは、レジスタがアドレスを持って
いないため、後に発生するロード命令がその前のストア
命令の更新したメモリの内容を読み込む命令でない保証
がないからである。

【００２６】このため、プログラム中で発生したロード
・ストアの順序は、ある特殊な場合を除いて守らなけれ
ばならない。しかし、一般的には、前方でストアしたデ
ータをロードする場合は非常に少なく（あくまで統計的
であるが）この制限は最適化の大きな妨げになる。大規
模な行列演算などでは、ループの展開、ソフトウエアパ
イプライニングが行われるが、一部分のデータが、前記
条件にあてはまる場合は、すべてが前記条件を満足する
ような形で最適化されている。

【００２７】本発明の目的は、この、一部の依存関係の
ために、プログラムの最適化ができないことをなくし、
より高速な演算のための正しい最適化を可能にするロー
ド・ストア処理装置を提供することにある。

【００２８】

【課題を解決するための手段】本発明は、ロード命令お
よびストア命令を含む命令を記憶し出力する命令記憶手
段を備えた演算処理装置のロード・ストア処理装置にお
いて、前記命令記憶手段は、特定の実効アドレスを生成
し前記命令記憶手段に登録する仮想ストア命令を有し、
この仮想ストア命令による実効アドレスを登録するアド
レス領域と、この登録された実効アドレスと同一のアド
レスに対応する前記ロード命令に対して例外処理を起こ
す例外処理手段と、前記登録された実効アドレスへの前
記ストア命令により当該実効アドレスの登録を削除する
削除手段とを含むことを特徴とする。

【００２９】また、本発明は、前記例外処理手段は、前
記ロード命令に対して、その対象とする主メモリのデー
タが有効になるまで依存関係のある命令の実行を中断す
る中断処理手段であることができる。

【００３０】

【作用】仮想ストア命令により、特定の実効アドレスを
発生し、命令記憶手段のアドレス領域に登録しておき、
例外処理手段により登録された実効アドレスと同じ実効
アドレスに対応するロード命令に対しては、割り込みま
たはインタロッキングなどの例外処理を発生させ、削除
手段により登録された実効アドレスへのストア命令が発
生した場合には登録された実効アドレスの登録を削除す
る。

【００３１】従って、別名を持った変数を検出すること
ができ、変数の依存関係のあるループの最適化が可能と
なる。

【００３２】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００３３】図１は本発明の一実施例の要部を示すブロ
ック構成図、および図２は本発明を適用する演算処理装
置の一例の要部を示すブロック構成図である。

【００３４】図１によると、本実施例は、ロード命令１
０１およびストア命令１０６を記憶し出力する命令記憶
手段としてのレジスタ１０７と、デコーダ１１２とを備
えたロード・ストア処理装置において、本発明の特徴と
するところの、レジスタ１０７は、特定の実効アドレス
（ｄｉｓｐ（Ｒｅｇｎｕｍ））１０５およびレジスタ番
号（Ｒｅｇｎｕｍ）１０４を生成し、レジスタ１０７に
登録する仮想ストア命令１０３を有し、この仮想ストア
命令１０３による実効アドレス１０５を登録するアドレ
ス領域（アドレス）１０９と、このアドレス領域に実効
アドレス１０５が登録されたことを示すフラグ１１１
と、データ領域１１０と、この登録された実効アドレス
１０５と同一のアドレスに対応するロード命令１０１に
対して例外処理を起こす例外処理信号１０８を出力する
例外処理手段、および登録された実効アドレス１０５へ
のストア命令１０６により当該実効アドレスの登録を削
除する削除手段としての、比較器１１６およびアンド回
路１１７を含んでいる。

【００３５】なお、レジスタ１０７は、３２ビットのレ
ジスタで、各ビットのレジスタごとに、アドレス領域１
０９、データ領域１１０、フラグ１１１、比較器１１６
およびアンド回路１１７を含んでいる。

【００３６】また、図１において、１１３は、ポートＡ
アドレス、１１４はポートＢアドレス、１１５は書き込
みアドレス、１１８は読み出し用のポートＡ、および１
１９は読み出し用のポートＢである。

【００３７】図２において、本発明が適用される演算処
理装置は、読み出し２ポート（ポートＡ、Ｂ）書き込み
１ポートのレジスタ２０１、ロード・ストアユニット２
０２、演算器２０３、イミディエイトユニット２０４、
命令フェッチユニット２０５および外部インタフェース
２２５を含み、Ｔバス２０７、Ｓバス２０８、命令バス
２０９、Ｒ１バス２２６、Ｒ２バス２３０、ならびにパ
ス２１０〜２２４、２２７および２２８により接続され
る。

【００３８】次に、この演算処理装置の構成の詳細とそ
の動作を説明する。

【００３９】命令フェッチユニット２０５は、現在のレ
ジスタ（プログラムカウンタ）２０１の値の図外のメモ
リから、外部インタフェース命令を取り込み命令バス２
０９に出力する。分岐などの場合は、新しいレジスタ２
０１の値を演算器２０３から取り込む。

【００４０】レジスタ２０１は、同時に二つのレジスタ
の読み出し、一つのレジスタの書き込みをすることがで
きる。レジスタ２０１の入出力ポートは、パス２１９お
よび２２０を介してそれぞれＳバス２０８およびＴバス
２０６に接続される。

【００４１】演算器２０３は論理演算および算術演算を
行うことができ、演算命令の実行およびアドレス計算を
行う。

【００４２】イミディエイトユニット２０４は、命令コ
ードの中からイミディエイト値を抽出し、符合拡張また
は０−拡張し演算器２０３に対して、その値を供給す
る。

【００４３】ロード・ストアユニット２０２は、演算器
２０３で計算されたアドレスからデータをロード、また
はストアする。また、外部インタフェース２２５を含
む。

【００４４】また、各ユニットが継るバスはそれぞれ以
下のデータが乗せられる。

【００４５】Ｓバス２０８：オペランドの一方の値が乗
る。すなわち、レジスタ２０１のポートＢがパス２１９
を介して継り、パス２１４を介して演算器２０３に入力
される。

【００４６】Ｔバス２０６、２０７：それぞれオペラン
ドのもう一方の値およびイミディエイト値が乗せられ
る。すなわち、レジスタ２０１のポートＡがパス２２０
を介して継り、イミディエイトユニット２０４の出力が
パス２１２を介して継り、セレクタ２２９およびパス２
１５を介して演算器２０３に入力される。

【００４７】Ｒ１バス２２６、Ｒ２バス２３０：演算結
果が乗る。

【００４８】典型的な命令のフォーマットを以下に述べ
る。

【００４９】

【数１】以下、上で用いた略語の意味を述べる。

【００５０】ｏｐ演算命令。例えば「ＡＤＤ」、「Ａ
ＮＤ」など。

【００５１】ｌｏａｄロード命令。メモリからレジス
タへのデータ転送ｓｔｏｒｅストア命令。レジスタからメモリへのデー
タ転送ｂ．ｃｏｎｄ条件分岐。「ｃｏｎｄ」に条件がはい
る。

【００５２】ｄｉｓｐディスプレースメント。

【００５３】ｒ１、ｒ２、ｒ３レジスタ名。レジスタ
番号を示す。

【００５４】＃ｎｕｍイミディエイト値ｍｅｍｏｒｙ．．メモリの値ｐｓｔｏｒｅ仮想ストア命令次に、各ユニットの継りと動作を述べる。レジスタ−レ
ジスタ演算命令は、レジスタ２０１から二つの値を読み
出し、Ｔバス２０６およびＳバス２０８を通じて演算器
２０３に渡す。二つの値を受け取った演算器２０３は、
命令に従って演算し結果を演算結果用のＲ１バス２２
６、およびＲ２バス２３０に出力する。Ｒ１バス２２６
の値をレジスタ２０１は取り込む。

【００５５】レジスタ−イミディエイト演算命令は、前
記の演算とほぼ同じである。異なるのは、演算の一方の
ソースが、イミディエイトユニット２０４から供給され
ることである。

【００５６】ロード命令は、レジスタ２０１からの値
と、イミディエイトユニット２０４の値の和を実効アド
レスとする。この演算は演算器２０３で実行される。レ
ジスタ２０１のポートＢに接続するＳバス２０８の値と
イミディエイトユニット２０４からのＴバス２０７の値
が演算器２０３の入力値であり、アドレスとなる。ま
た、ロード時は、外部から読み込まれた値が結果用のＲ
１バス２２６に乗せられ、レジスタ２０１の書き込みポ
ートから書き込まれる。読み出し時は、レジスタ２０１
のポートＡから読み出された値が外部に出力される。

【００５７】分岐命令は、分岐先アドレスの計算が演算
器２０３で行われる。プログラムカウンタおよび分岐オ
フセットがそれぞれＳバス２０８およびＴバス２０７に
乗せられる。分岐先アドレスは、命令フェッチユニット
２０５に送られる。

【００５８】次に、図１の実施例の動作について、図３
に示す流れ図を参照して説明する。なお、図１はレジス
タにメモリ番地を予約する機構をつけた場合を示す。

【００５９】仮想ストア命令１０３の動作は三つの部分
で構成される。第一の部分は、仮想ストア命令１０３が
実行された場合の動作である。仮想ストア命令１０３が
実行された場合、その実効アドレス１０５がレジスタ１
０７の、アドレス領域１０９に入れられフラグ１１１が
立てられる（ステップＳ１）。

【００６０】第二の部分は、ロード命令１０１が発生し
た場合である。この場合は、あるアドレスからのロード
命令１０１が発生した場合、この実効アドレス１０２
と、レジスタ１０７の内部のアドレス領域１０９で同じ
ものがあるかを調べる（ステップＳ２）。これは図１の
比較器１１６で比較される。この場合は３２本のレジス
タ１０７に同様な装置が含まれており、いずれかのレジ
スタ１０７に同じアドレスがない場合は通常のロードシ
ーケンスとして処理される（ステップＳ５）。同じアド
レスのエントリで、かつフラグが１の場合は（ステップ
Ｓ３）、このロードは間違った値を、ロードしようとし
ていことになるため、例外処理を発生させることになる
（ステップＳ４）。この場合は例外処理信号１０８のい
ずれかが「１」になるため、これによって、割り込みを
掛ける。

【００６１】第三の部分は、ストア命令が発生した場合
で、あるレジスタ１０７のストア命令１０６が発生した
場合は、フラグ１１１をクリアし、そのレジスタ１０７
がストアされるアドレスを無効化する（ステップＳ
６）。

【００６２】以上が、最も簡単な場合の仮想ストア命令
１０３のインプリメントである。

【００６３】仮想ストア命令１０３は以下の形式を持
ち、従来のストア命令と全く変わらない。

【００６４】ｐｓｔｒｅｇｎｕｍ，ｏｆｆｓｅｔ
（ｒｅｇｎｕｍ２）割り込みが発生した場合は、ルー
プのアドレスによって別の手段により正確に実行する。
例えば、アンロールされたループの場合は、アンロール
されていないループで実行をすればよい。

【００６５】次に、本実施例により、従来の技術で述べ
た具体例を処理すると以下のようになる。

【００６６】ＬｏａｄＸ（Ｋ−１）ＬｏａｄＸ（ＩＷ）
ＬｏａｄＹ（Ｊ）ＰＳＴＸ（Ｋ−１）ＬｏａｄＸ（Ｋ）ＬｏａｄＸ（ＩＷ＋１）ＬｏａｄＹ
（Ｊ＋１）ＰＳＴＸ（Ｋ）ｔｍｐ１＝Ｘ（ＩＷ）^*Ｙ（Ｊ）ｔｍｐ２＝Ｘ（ＩＷ＋１）^*Ｙ（Ｊ＋１）ｔｍｐ５＝Ｘ（Ｋ−１）−ｔｍｐ１ｔｍｐ６＝Ｘ（Ｋ）−ｔｍｐ２ＳＴＯＲＥｔｍｐ５，Ｘ（Ｋ−１）ＳＴＯＲＥｔｍｐ６，Ｘ（Ｋ）以上が本実施例により、仮想ストア命令１０３を用いた
場合のアンロールされたプログラムで、Ｋ−１とＩＷ＋
１が等しい場合には、２ブロック目で割り込みが発生す
る。この場合はアンロールしない形のループにおき変え
て実行すれば始めの場合と答えは同じである。これによ
って、ループを５段階で回ることができるようになる。

【００６７】次に、この仮想ストア命令１０３をトマス
ローのアルゴリズムに適応した場合を示す。トマスロー
のアルゴリズムはＩＢＭの３６０／９１に採り入れられ
ている。ハードウエアによる動的な命令の追い越しの機
構である。詳しくは、従来の技術で動作を説明した。

【００６８】ここでは、トマスローのアルゴリズムを用
いた計算機での仮想ストア命令の処理に必要である機構
について述べる。

【００６９】トマスローのアルゴリズムは、ダイナミッ
クスケジューリングと呼ばれるもので、動的に命令の依
存関係を検出し、依存関係のとけたものから実行を開始
するものである。

【００７０】文献〔ＣｏｍｐｉｔｅｒＡｒｃｈｉｔｅ
ｃｔｕｒｅＡＱｕａｎｔｉｔａｔｉｖｅＡｐｐｒ
ｏａｃｈ，ＪｏｈｎＬＨｅｎｎｅｓｓｙ，Ｄａｖｉ
ｄＡＰａｔｔｅｒｓｏｎ〕の６．７章に述べられてい
る機構に、さらに、図１の機構を付け加えることで実現
することが可能である。

【００７１】トマスローのアルゴリズムは、あらかじめ
命令の追い越しを考慮に入れているため装置の変更は少
なくてすみ効果的である。

【００７２】

【発明の効果】以上説明したように、本発明は、ソフト
ウエアでは従来検出するのが困難なため、最適化が不可
能であった部分の最適化（アンロール）を行うことがで
きる効果がある。たとえば、リバモアベンチマークで
は、２，４番が依存関係を無視するコンパイラディレク
ティブを入れなくても最適化が可能である。また、従来
は４ステップ／ループであったものが、依存関係がある
ループでもアンロールが可能であるため、１クロック／
ループ近くまで下げられることになる。

【図面の簡単な説明】

【図１】本発明の一実施例の要部を示すブロック構成
図。

【図２】本発明が適用される演算処理手段の一例を示す
ブロック構成図。

【図３】図１の主要動作を示す流れ図。

【符号の説明】

１０１ロード命令１０２（ロード命令の）実効アドレス１０３仮想ストア命令１０４レジスタ番号１０５（仮想ストア命令の）実効アドレス１０６ストア命令１０７、２０１レジスタ１０８例外処理信号１０９アドレス領域１１０データ領域１１１フラグ１１２デコーダ１１３ポートＡアドレス１１４ポートＢアドレス１１５書き込みアドレス１１６比較器１１７アンド回路２０２ロード・ストアユニット２０３演算器２０４イミディエイトユニット２０５命令フェッチユニット２０６、２０７Ｔバス２０８Ｓバス２０９命令バス２１０〜２２４、２２７、２２８パス２２５外部インタフェース２２６Ｒ１バス２２９セレクタ２３０Ｒ２バスＳ１〜Ｓ６ステップ

Claims

【特許請求の範囲】

【請求項１】ロード命令およびストア命令を含む命令
を記憶し出力する命令記憶手段を備えた演算処理装置の
ロード・ストア処理装置において、前記命令記憶手段は、特定の実効アドレスを生成し前記
命令記憶手段に登録する仮想ストア命令を有し、この仮
想ストア命令による実効アドレスを登録するアドレス領
域と、この登録された実効アドレスと同一のアドレスに
対応する前記ロード命令に対して例外処理を起こす例外
処理手段と、前記登録された実効アドレスへの前記スト
ア命令により当該実効アドレスの登録を削除する削除手
段とを含むことを特徴とするロード・ストア処理装置。
【請求項２】前記例外処理手段は、前記ロード命令に
対して、その対象とする主メモリのデータが有効になる
まで依存関係のある命令の実行を中断する中断処理手段
である請求項１に記載のロード・ストア処理装置。