JP3097981B2

JP3097981B2 - データ処理装置

Info

Publication number: JP3097981B2
Application number: JP05176886A
Authority: JP
Inventors: 英夫和田; 克己竹田; 泰弘稲上; 啓明藤井
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-07-16
Filing date: 1993-07-16
Publication date: 2000-10-10
Anticipated expiration: 2015-10-10
Also published as: EP0634717B1; EP0634717A3; DE69422671D1; DE69422671T2; JPH0736695A; EP0634717A2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、命令によってアドレス
可能なレジスタの数より多いレジスタをアクセスするこ
とが可能なデータ処理装置に係り、特に、このようにす
ることによって、キャッシュがあまり有効でない大規模
なデータを連続的に処理するいわゆるベクトル処理に際
して、主記憶装置からのデータの転送のための性能低下
をほとんど生じさせないようにし、かつ、効率のよい擬
似ベクトル処理を通常のデータ処理装置で実現可能とす
るデータ処理装置に関する。

【０００２】

【従来の技術】命令によってアドレス可能なレジスタの
数より多いレジスタをアクセス可能なデータ処理装置に
関する従来技術として、例えば、特開昭５７−１６６６
４９号公報等に記載された技術が知られている。

【０００３】この従来技術は、プログラムによってアド
レス可能な汎用レジスタの数よりも多いハードウエアレ
ジスタと称するレジスタ群を設け、異なった主記憶アド
レスから同一の汎用レジスタに対する複数のロード命令
があったら、該ロード命令の数だけハードウエアレジス
タにそのデータを保持させるというものである。

【０００４】すなわち、前記従来技術は、プログラムに
よってアドレス可能な汎用レジスタの数が１６である場
合、ハードウエアレジスタを各汎用レジスタ当たり１
６、つまり、合計２５６個のハードウエアレジスタを用
意し、汎用レジスタ“０”にハードウエアレジスタ
“０”から“１５”を割り当て、汎用レジスタ“０”に
対して１６個の異なった主記憶アドレスを指定したロー
ド命令が実行された場合、これらの１６個のロード命令
からのデータをハードウエアレジスタ“０”からハード
ウエアレジスタ“１５”までの中に保持する。

【０００５】そして、前記従来技術は、過去に実行され
たロード命令の主記憶アドレスとそのときロードされた
データが格納されているハードウエアレジスタ番号を登
録しておく記憶機構を設け、プログラムで発行されたロ
ード命令が前記記憶機構に登録されている主記憶アドレ
スと一致した場合、主記憶からデータを読まずに、対応
するハードウエアレジスタからデータを読み出すように
している。

【０００６】前記従来技術は、このような方式を持つこ
とにより、主記憶の参照回数を低減させることができ、
また、命令間の参照レジスタのぶつかりによる処理装置
の性能の低下を防止することができるものである。

【０００７】また、命令によってアドレス可能なレジス
タの数より多いレジスタをアクセス可能なデータ処理装
置に関する他の従来技術として、例えば、Hennesy and
D.A.Patterson“Computer Architecture : A Quantitat
ive Approach", Morgan Kaufmann Publishers, Inc.
（１９９０）等に記載された技術が知られている。

【０００８】この従来技術は、プログラムによってアド
レス可能なレジスタの数より多い物理レジスタと称する
レジスタを設け、これらの物理レジスタを複数個のウィ
ンドウと呼ばれる部分に分けて備えるものである。すな
わち、各ウィンドウは、複数個の物理レジスタから成
る。例えば、プログラムによってレジスタが番号“１”
から“ｎ”まで番号付けられるとし、物理レジスタがｎ
×ｍ個、すなわち、番号“１”から“ｎ×ｍ”まで設け
られたとする。

【０００９】ウィンドウをｍ個、すなわち、番号“１”
から“ｍ”まで設けるとすれば、ウィンドウ“１”には
物理レジスタ“１”から“ｎ”を割り当て、ウィンドウ
“２”には物理レジスタ“ｎ＋１”から“２ｎ”という
ように割り当てることができる。実際には、全ウィンド
ウ共通の物理レジスタ、隣合うウィンドウ共通の物理レ
ジスタ等が設けられるのが通例である。

【００１０】そして、各ウィンドウは、１つのプログラ
ムが使用するレジスタを持つ。すなわち、あるプログラ
ムでアドレス可能なレジスタを参照することは、実際に
は、あるウィンドウに属する物理レジスタを参照するこ
とになる。例えば、前述の例の場合、あるプログラムに
ウィンドウ２が割り当てられているものとすると、この
プログラムでレジスタｋを指定すれば、参照される物理
レジスタは、物理レジスタ“ｎ＋ｋ”になる。

【００１１】このウィンドウは、次に説明するように使
用される。いま、あるプログラムにウィンドウｊが割り
当てられている場合、このプログラムが別のプログラム
を呼んだ（ｃａｌｌした）場合、呼ばれたプログラムに
は、ウィンドウｊ＋１が割り当てられる。また、あるプ
ログラムにウィンドウｊが割り当てられていて、このプ
ログラムからこのプログラムを呼んだプログラムに戻っ
た（ｒｅｔｕｒｎした）場合、戻り先のプログラムに
は、ウィンドウｊ−１が割り当てられる。

【００１２】一般に、プログラムによってアドレス可能
なレジスタの数だけのレジスタしか持たないシステム
は、前記したようなプログラムの呼びが発生する度に、
その呼びの発生時点の情報保存のために、レジスタに格
納されていたデータを主記憶に格納しなければならず、
また、プログラムの戻りが発生する度に、プログラムの
再開のために、主記憶に格納されていたデータをレジス
タに書き戻さなくてはならない。

【００１３】前記従来技術は、ウィンドウと物理レジス
タとを前述したように使用することにより、異なるウィ
ンドウが割当てられているプログラムが異なる物理レジ
スタを参照しているので、前述したようなレジスタから
主記憶への格納、主記憶からレジスタへの書き戻しの操
作を不要とすることができ、処理の高速化を図ることが
できる。

【００１４】但し、前述したようなウィンドウの機構を
持つ従来技術のシステムは、最大のウィンドウ番号のプ
ログラムからプログラムの呼びが発せられた場合、ウィ
ンドウオーバフローの割込みを起こし、最小のウィンド
ウ番号のプログラムからプログラムの戻りが発せられた
場合、ウィンドウアンダフローの割込みを起こす、とい
う制御が必要になる。

【００１５】

【発明が解決しようとする課題】本発明は、命令によっ
てアドレス可能なレジスタの数より多いレジスタをデー
タ処理装置がアクセス可能とする技術に関するものであ
るが、レジスタとして浮動小数点数が格納される浮動小
数点レジスタを使用される場合を例として、前述した従
来技術の問題点を説明する。

【００１６】一般に、科学技術計算の大部分は、Ａ（ｉ）＝Ｂ（ｉ）＊Ｓｉ＝１，Ｎ（１）として示されるようなベクトル演算により実行される。
ここで、Ａ、Ｂは要素数Ｎのベクトル、Ｓはスカラであ
る。

【００１７】図１１は前記式（１）を汎用計算機で実行
させる場合のプログラムであり、以下、このプログラム
を例に説明を続ける。なお、以下の説明において、浮動
小数点レジスタのデータ幅は８バイトとする。

【００１８】まず、図１１中の各命令の機能を説明す
る。

【００１９】ＦＬＤＭａ（ＧＲｍ），ＦＲｎ（機能）汎用レジスタｍの値で表される主記憶アドレス
から８バイトのデータを読み出し、浮動小数点レジスタ
ｎに格納する。その後、汎用レジスタｍの値にａを加え
る。

【００２０】ＦＭＬＴＦＲｊ，ＦＲｍ，ＦＲｎ（機能）浮動小数点レジスタｍの値と浮動小数点レジス
タｎの値との積を浮動小数点レジスタｊに格納する。

【００２１】ＦＳＴＭａ（ＧＲｍ），ＦＲｊ（機能）浮動小数点レジスタｊの値（８バイト）を汎用
レジスタｍの値で表される主記憶アドレスにストアす
る。その後、汎用レジスタｍの値にａを加える。

【００２２】ＢＣＮＴＧＲｍ，ｔ（機能）ＧＲｍの値から１を減じる。その値がゼロでな
ければ、番地ｔに分岐する。ゼロならば、分岐しない。

【００２３】前述において、図１１に示すプログラムの
実行に先立って、ベクトルＢは、主記憶アドレスａｄ１
から始まる連続領域に格納されているものとする。すな
わち、ベクトルＢ（１）の主記憶アドレスがａｄ１、ベ
クトルＢ（２）の主記憶アドレスがａｄ１＋８というよ
うに格納されている。同様に、ベクトルＡは、主記憶ア
ドレスａｄ３から始まる連続領域に格納されているもの
とする。また、汎用レジスタ１にはアドレスａｄ１が、
汎用レジスタ３にはアドレスａｄ３が、汎用レジスタ４
にはベクトルの要素数Ｎが前もって格納されているもの
とし、浮動小数点レジスタ７にはスカラＳが前もって格
納されているものとする。

【００２４】図１１から判るように、Ｎo.１のＦＬＤＭ
命令で、Ｂ（ｉ）が浮動小数点レジスタ８にロードさ
れ、Ｎo.２のＦＭＬＴ命令で、該浮動小数点レジスタ８
の値と浮動小数点レジスタ７の値との積が浮動小数点レ
ジスタ１０に格納され、Ｎo.３のＦＳＴＭ命令で該浮動
小数点レジスタ１０の値が汎用レジスタ３が持つ主記憶
のアドレスにベクトルＡ（ｉ）としてストアされる。

【００２５】すなわち、図１１に示すプログラムは、４
命令からなるループを１回実行することにより、１要素
の結果を求めることができ、このループをＮ回実行する
ことにより、全要素のベクトル計算を行うことができる
ものである。

【００２６】このようなプログラムによる演算では、１
ループの実行時間が問題になる。図示プログラムの例で
は、まず、Ｎo.１のＦＬＤＭ命令で浮動小数点レジスタ
８に主記憶からデータをロードしているが、キャッシュ
にデータがある場合、ＦＬＤＭ命令は短いサイクル数で
終了することができるが、キャッシュにデータがない場
合、キャッシュよりかなり低速の主記憶からデータを読
み出さなくてはならず、キャッシュにデータがある場合
に比べ、データの読み出しにかなり時間がかかることに
なる。

【００２７】次に、Ｎo.２のＦＭＬＴ命令は、浮動小数
点レジスタ８の値を使用するので、前記Ｎo.１のロード
が完了しないと、実行を開始することができない。ま
た、Ｎo.３のＦＳＴＭ命令は、浮動小数点レジスタ１０
の値を使用するが、浮動小数点レジスタ１０の値は先行
するＦＭＬＴ命令の実行が終わらないと値が決まらない
ので、Ｎo.２の命令の実行終了まで実行を開始すること
ができない。

【００２８】すなわち、前述のプログラムは、（１）デ
ータ読み出し時間、（２）レジスタのぶつかりという２
つの性能低下要因がループの実行時間を長くすることに
なる。特に、（１）は長大なデータを扱う計算の場合に
は深刻で、必要なデータがキャッシュに入りきらない場
合が多くなり、性能の低下が大きくなる。

【００２９】図１２は前述の問題点を解決することので
きるプログラムの例を示す図であり、ループアンローリ
ングと呼ばれる手法である。

【００３０】すなわち、この方法は、１ループで複数要
素（＝ｎ）を処理し、１ループで１要素を処理する場合
に比べ、ループ回数を１／ｎにする方法である。図１２
に示す例は、１ループで４要素を処理することのできる
ものである。

【００３１】図１２において、図示プログラムの実行に
先だって、ベクトルＢは、主記憶アドレスａｄ１から始
まる連続領域に格納されているものとする。すなわち、
ベクトルＢ（１）は主記憶アドレスがａｄ１に、ベクト
ルＢ（２）は主記憶アドレスがａｄ１＋８に、というよ
うに格納されている。同様に、ベクトルＡは、主記憶ア
ドレスａｄ３から始まる連続領域に格納されるものとす
る。また、汎用レジスタ１には主記憶アドレスａｄ１
が、汎用レジスタ３には主記憶アドレスａｄ３が、汎用
レジスタ４にはベクトルの要素数Ｎの１／４が前もって
格納され、さらに、浮動小数点レジスタ７にはスカラＳ
が前もって格納されているものとする。

【００３２】図１２に示すプログラムは、１３命令から
なるループを１回実行することによって、４要素の結果
を求めることができ、このループをＮ／４回実行するこ
とによって全要素の計算を行うことができる。

【００３３】すなわち、図１２に示すプログラムは、ｉ
番目の要素に関し、ロードをＮo.１のＦＬＤＭ命令で、
乗算をＮo.５のＦＭＬＴ命令で、ストアをＮo.９のＦＳ
ＴＭ命令で行う。同様に、ｉ＋１番目の要素に関し、ロ
ードをＮo.２のＦＬＤＭ命令で、乗算をＮo.６のＦＭＬ
Ｔ命令で、ストアをＮo.１０のＦＳＴＭ命令で行う。同
様に、ｉ＋２番目の要素に関し、ロードをＮo.３のＦＬ
ＤＭ命令で、乗算をＮo.７のＦＭＬＴ命令で、ストアを
Ｎo.１１のＦＳＴＭ命令で行う。同様に、ｉ＋３番目の
要素に関し、ロードをＮo.４のＦＬＤＭ命令で、乗算を
Ｎo.８のＦＭＬＴ命令で、ストアをＮo.１２のＦＳＴＭ
命令で行う。

【００３４】従って、図１２に示すプログラムは、図１
１に示すプログラムに比較して、ある１つの要素番号で
示されるベクトル要素に関するロード、乗算、ストアと
いう一連の処理が、命令列上で離れて行われることにな
り、前述した（１）データ読み出し時間、（２）レジス
タのぶつかりという２つの性能低下要因の影響を低減す
ることができるものである。

【００３５】例えば、図１２において、Ｎo.１のＦＬＤ
Ｍ命令でＢ（ｉ）のロードが行われるが、そのロードの
結果が使用されるのは、４命令後になるので、データ読
み出し時間が４サイクル以内であれば、そのロード結果
を使用するＮo.５のＦＭＬＴ命令が待たされることがな
くなる。また、Ｎo.５のＦＭＬＴ命令による乗算結果Ｂ
（ｉ）＊Ｓが使用されるのが４命令後になるので、乗算
に要する時間が４サイクル以内であれば、Ｎo.９のＦＳ
ＴＭ命令が待たされることがなくなる。

【００３６】前述したように、ループアンローリングの
手法を使用することにより、処理性能の向上を図ること
ができるが、ループアンローリングの手法は、多くのレ
ジスタを必要とするという欠点を有している。すなわ
ち、図１１に示すプログラムが３本の浮動小数点レジス
タを必要とするのに対し、図１２に示すプログラムは、
９本もの浮動小数点レジスタを必要とする。ループアン
ローリングの手法は、データの読み出しに要する時間が
さらに長く、あるいは、演算に要する時間がさらに長い
等の場合、さらに多くのベクトル要素を１ループで処理
しなくてはならず、より多くのレジスタを必要とするこ
とになる。

【００３７】一般に、レジスタは、アクティブな素子
（すなわち、メモリ素子ではない）で構成され、読み出
し／書き込みのためのポート（すなわち、データの出入
口）を多く用意することができるので、いわゆる記憶装
置が１つの動作サイクルに１個のデータの読み出し／書
き込みしかできないのに比べ、極めて高速に動作可能で
ある。従って、処理装置の高速化のためには、主記憶は
もちろん、キャッシュに比べても高速に動作可能な充分
な容量のレジスタを備えていることが必要不可欠であ
る。それにもかかわらず、従来、レジスタの数が比較的
少なかった理由は、レジスタのビット当たりのコストが
高価であったことと、以下に説明するように、命令形式
上のレジスタ番号のフィールドの長さに制限があったた
めである。コストの問題は、レジスタのＬＳＩ化により
解決されつつあるが、後者は、まだ未解決である。

【００３８】また、一般に、プログラムによりアドレス
可能なレジスタの数は、アーキテクチャ上から制限され
ている。例えば、命令語中にレジスタ指定フィールドが
５ビットあれば、アドレス可能なレジスタの数は３２
（２の５乗）である。このレジスタ指定フィールドのビ
ット数を増加させれば、プログラムによりアドレス可能
なレジスタの数を増加させることができるが、このよう
にすることは、命令形式を変更することになるので、既
存のプログラムの変更が必要となり非現実的である。

【００３９】そこで、データ処理装置のアーキテクチャ
を変更することなく、命令によってアドレス可能なレジ
スタの数より多いレジスタをデータ処理装置がアクセス
可能とする方式が必要となる。このような方法が、前述
で説明した従来技術である。前者の従来技術は、過去に
ロード命令が実行された主記憶アドレスに対し、新たに
ロード命令が実行された場合に処理の高速化を図ること
ができる。しかし、この従来技術は、式（１）に示すよ
うな、主記憶上のデータに対するロード要求が１度しか
出ないベクトル計算を行う場合、処理の高速化を図るこ
とができないという問題点を有している。

【００４０】また、後者の従来技術は、１つのプログラ
ムで使えるレジスタがある１つのウインドウに属する物
理レジスタのみであり、その数がプログラムでアドレス
可能なレジスタの数に等しく、１つのプログラムで行わ
れる演算を高速化することができないという問題点を有
している。

【００４１】すなわち、前述した後者の従来技術は、ウ
インドウの機能が、プログラムの呼びと戻りとが発生す
る場合にのみ、処理の高速化を行うことが可能とするも
のであり、式（１）により示したベクトル計算のよう
に、１つのプログラムで処理が完結しているような場
合、処理の高速化を図ることができないという問題点を
有している。

【００４２】また、後者の従来技術におけるウインドウ
オーバフロー、ウインドウアンダフローの割込みは、式
（１）に示したベクトル計算のように１つのプログラム
で処理が完結していて、プログラムの呼びと戻りが発生
しない場合、不要であるという問題点を有している。

【００４３】本発明の目的は、前述した従来技術の問題
点を解決し、データ処理装置のアーキテクチャを変更す
ることなく、命令によってアドレス可能なレジスタの数
より多いレジスタをデータ処理装置がアクセス可能と
し、科学技術計算におけるベクトル計算を高速に実行す
ることのできるデータ処理装置を提供することにある。

【００４４】

【課題を解決するための手段】本発明によれば前記目的
は、通常命令の浮動小数点レジスタフィールドによって
アドレス可能な浮動小数点レジスタの数より多い、物理
浮動小数点レジスタ番号で参照される物理浮動小数点レ
ジスタと呼ばれる浮動小数点レジスタと、ウィンドウス
タートポインタと呼ばれる数を格納するウィンドウスタ
ートポインタレジスタと、ウィンドウスタートポインタ
が有効であることを示すウィンドウスタートポインタ有
効レジスタと呼ばれるレジスタと、該ウィンドウスター
トポインタ有効レジスタが“１”のときに、ウィンドウ
スタートポインタの値によって、論理浮動小数点レジス
タ番号と呼ばれる、命令中の浮動小数点レジスタフィー
ルドに示された値を物理浮動小数点レジスタ番号に変換
する変換回路とを備え、さらに、命令として、命令中に
通常命令の浮動小数点レジスタフィールドより長い浮動
小数点レジスタフィールドを持ち、論理浮動小数点レジ
スタ番号をウィンドウスタートポインタによって変換し
た物理浮動小数点レジスタに主記憶データを格納する浮
動小数点レジスタプリロード命令と、命令中に通常命令
の浮動小数点レジスタフィールドより長い浮動小数点レ
ジスタフィールドを持ち、論理浮動小数点レジスタ番号
をウィンドウスタートポインタによって変換した物理浮
動小数点レジスタから主記憶にデータを格納する浮動小
数点レジスタポストストア命令と、ウィンドウスタート
ポインタレジスタに値をセットするウィンドウスタート
ポインタセット命令とを設けることにより達成される。

【００４５】本発明によれば、前述の構成を備えること
により、通常命令の形式を変更する必要がないので、デ
ータ処理装置のアーキテクチャを変更する必要がなく、
従来のプログラムの書き変えを行う必要がない。

【００４６】

【作用】本発明により新たに設けられる前記浮動小数点
レジスタプリロード命令、前記浮動小数点レジスタポス
トストア命令以外の浮動小数点レジスタを参照する通常
命令は、全てウインドウスタートポインタ有効レジスタ
の値が“１”である場合、論理浮動小数点レジスタ番号
−物理浮動小数点レジスタ番号変換が行われ、浮動小数
点レジスタの参照で物理浮動小数点レジスタ番号が参照
される。また、ウィンドウスタートポインタ有効レジス
タの値が“０”の場合、論理浮動小数点レジスタ番号
は、物理浮動小数点レジスタ番号に等しいとして扱われ
る。

【００４７】そして、前記浮動小数点レジスタプリロー
ド命令、前記浮動小数点レジスタポストストア命令は、
ウィンドウスタートポインタ有効レジスタの値が“１”
である場合、前述と同様に、論理浮動小数点レジスタ番
号−物理浮動小数点レジスタ番号変換が行われ、この結
果により、物理浮動小数点レジスタの参照が行われる。
また、ウィンドウスタートポインタ有効レジスタの値が
“０”の場合、論理浮動小数点レジスタ番号は、参照さ
れる物理浮動小数点レジスタ番号に等しい。

【００４８】論理浮動小数点レジスタ番号−物理浮動小
数点レジスタ番号変換は、以下のようにして行われる。

【００４９】以下の説明では、通常命令の論理浮動小数
点レジスタが３２本、すなわち、通常命令中の浮動小数
点レジスタ指定フィールドが５ビットで、命令により、
論理浮動小数点レジスタ番号を、“０”から“３１”ま
で指定可能であるとする。また、物理浮動小数点レジス
タが１２８本で、物理浮動小数点レジスタ番号は“０”
から“１２７”であるとする。また、物理浮動小数点レ
ジスタの本数をｍｒ、ｍｒが２のべき乗であるときはそ
の指数の値をｓｍという記号で表すものとする。すなわ
ち、ｍｒ＝２＊＊ｓｍと表す。なお、“＊＊”はべき乗
を表わす。ｍｒが２のべき乗でないときは、log₂ｍｒよ
り大きく、最も近い整数をｓｍとする。そして、以下で
は、ｓｍをポインタ幅最大値と呼ぶことにする。

【００５０】すなわち、前述の例では、ｍｒ＝１２８、
ｓｍ＝７である。そして、物理浮動小数点レジスタのう
ち、論理浮動小数点レジスタ番号−物理浮動小数点レジ
スタ番号変換において、必ず同一のレジスタ番号に変換
され、全ウィンドウで共通に使用されるレジスタをグロ
ーバルレジスタと呼び、グローバルレジスタの本数をｍ
ｇという記号で表すこととする。また、ウィンドウスタ
ートポインタレジスタのビット数をウィンドウスタート
ポインタレジスタ幅と呼び、ｑ（ｑはｓｍ以下の正の整
数値）という記号で表し、２＊＊（ｓｍ−ｑ）をウィン
ドウ刻み幅と呼び、以後ｓｐという記号で表すことにす
る。また、ウィンドウスタートポインタの値をＦＷＳＴ
Ｐと表す。

【００５１】ここで説明する例では、ｓｍ＝７、ｑ＝５
であり、従って、ｓｐ＝４、通常命令の浮動小数点レジ
スタ指定フィールドは５ビット、浮動小数点レジスタプ
リロード命令、浮動小数点レジスタポストストア命令の
浮動小数点レジスタ指定フィールドは７ビットとする。
また、論理浮動小数点レジスタ番号をｒと表記すると、
物理浮動小数点レジスタ番号は、ＦＷＳＴＰとｒとによ
り決まるので、＜ＦＷＳＴＰ，ｒ＞と表記することにす
る。

【００５２】前述した例の場合、以下のように論理浮動
小数点レジスタ番号−物理浮動小数点レジスタ番号変換
が行われる。

【００５３】１．０≦ｒ≦ｍｇ−１の時：ＦＷＳ
ＴＰに関係なく＜ＦＷＳＴＰ，ｒ＞＝ｒ ……（２）２．ｍｇ≦ｒ≦３１の時：＜FWSTP，r＞＝mg＋｛sp＊FWSTP＋〔r−mg〕，〔mod(mr−mg)〕｝ ……（３）図３は前述の式（２）、（３）で表わされる論理浮動小
数点レジスタ番号−物理浮動小数点レジスタ番号変換法
を、ＦＷＳＴＰ＝１５、ｍｒ＝１２８，ｍｇ＝８の場合
を例にして説明する図である。

【００５４】式（２）、式（３）で表わされる変換法
は、以下の５つが特長的である。

【００５５】１．“０”番から“ｍｇ−１”番の理浮動
小数点レジスタは、各ＦＷＳＴＰ共通に使用される。こ
れらのレジスタは、グローバルレジスタとして、それぞ
れのＦＷＳＴＰを用いる演算ループに共通のデータを保
持する。

【００５６】２．グローバルレジスタ以外のレジスタ
で、あるＦＷＳＴＰで指定できる論理浮動小数点レジス
タと、別のＦＷＳＴＰで指定できる論理浮動小数点レジ
スタには同一の物理浮動小数点レジスタを指すものがあ
る。これらのレジスタは、オーバラップレジスタとして
異なるＦＷＳＴＰを用いる演算ループ間のデータの受渡
しに用いられる。

【００５７】３．ポインタ幅最大値ｓｍまたはウィンド
ウスタートポインタレジスタ幅ｑを変えることによっ
て、ウィンドウ刻み幅を変えることができる。例えば、
ｓｍ＝７のとき、ｑ＝６の場合、２レジスタ刻み、ｑ＝
４の場合、８レジスタ刻みとなる。以後の説明ではｓｍ
＝７，ｑ＝５に固定して述べる。

【００５８】４．通常命令はｒが５ビット、浮動小数
点レジスタプリロード命令、浮動小数点レジスタポスト
ストア命令はｒが７ビットであるから、図３に示すよう
に、通常命令は、グローバルレジスタとして物理浮動小
数点レジスタ“０”から“ｍｇ−１”、ローカルレジス
タとして“ＦＷＳＴＰ＊ｓｐ＋ｍｇ”から“ＦＷＳＴＰ
＊ｓｐ＋３１”（１２７を越えるとｍｇにラップアラウ
ンドする）をアクセスすることができ、浮動小数点レジ
スタプリロード命令、浮動小数点レジスタポストストア
命令は、全物理浮動小数点レジスタをアクセスすること
ができる。

【００５９】５．ｍｇを可変にすることにより、演算ル
ープに共通のデータ（ループインバリアントという）の
数の違うアプリケーションに柔軟に対応できる。

【００６０】図４、図５はｓｐ＝４の場合の通常命令に
ついての全ＦＷＳＴＰに対する論理浮動小数点レジスタ
番号−物理浮動小数点レジスタ番号変換を説明する図、
図６、図７はｓｐ＝４の場合の浮動小数点レジスタプリ
ロード命令、浮動小数点レジスタポストストア命令につ
いての全ＦＷＳＴＰに対する論理浮動小数点レジスタ番
号−物理浮動小数点レジスタ番号変換を説明する図であ
る。

【００６１】以後の説明では、ｍｇ＝８に固定し、本発
明により新設される命令の命令ニモニックと機能とを、
一例として、以下のように定める。

【００６２】１．ウィンドウスタートポインタセット命
令（命令ニモニック）ＦＷＳＴＰＳｕ，ｖ（機能）ｕ＝０のとき、ウィンドウスタートポインタレ
ジスタにｖをセットする。ｕ＝１のとき、ウィンドウス
タートポインタレジスタの値にｖを加える。この場合、
加算は（ｍｒ−ｍｇ）／ｓｐを法として行われる。すな
わち、ｕ＝０で、ｖ＝１をセットするとＦＷＳＴＰ＝１
となる。

【００６３】２．浮動小数点レジスタプリロード命令（命令ニモニック）ＦＬＤＰＲＭａ（ＧＲｍ），Ｆ
Ｒｎ（機能）汎用レジスタｍの値で表される主記憶アドレス
から８バイトのデータを読み出し、浮動小数点レジスタ
ｎに格納する。このとき、前述した式（２）、（３）に
従って、論理浮動小数点レジスタ番号−物理浮動小数点
レジスタ番号変換が行われる。その後、汎用レジスタｍ
の値にａを加える。

【００６４】３．浮動小数点レジスタポストストア命令（命令ニモニック）ＦＳＴＰＯＭａ（ＧＲｍ），Ｆ
Ｒｎ（機能）浮動小数点レジスタｎの値（８バイト）を汎用
レジスタｍの値で表される主記憶アドレスにストアす
る。このとき、式（２）、（３）に従って、論理浮動小
数点レジスタ番号−物理浮動小数点レジスタ番号変換が
行われる。その後、汎用レジスタｍの値にａを加える。

【００６５】また、通常命令、すなわち、浮動小数点レ
ジスタを用いる命令で前記２、３を除く命令では、前記
式（２）、（３）に従って、論理浮動小数点レジスタ番
号−物理浮動小数点レジスタ番号変換が行われる。

【００６６】本発明は、modulo scheduling と呼ばれる
コ−ディング法に特に有効である。modulo scheduling
に関しては、B.R.Rau et al. “Register Allocation f
or Software Pipelined Loops”：ＡＣＭＳＩＧＰＬＡ
Ｎ，９２ｐｐ．２８３−２９９、及び、P.Tirumalai
et al. “Parallelization Of Loops With Exits OnPip
elined Architectures”：Supercomputing ９０，ｐ
ｐ．２００−２１２に記述されている。

【００６７】以下に説明する本発明が適用される計算機
は、複数命令を並列に実行することがスーパースカラプ
ロセッサであるとする。特に、以下では、ロード命令、
演算命令、ストア命令を並列に実行することが可能なス
ーパースカラプロセッサについて説明する。

【００６８】以下の説明において、計算機は、ロード命
令を実行するユニット、演算命令を実行するユニット、
ストア命令を実行するユニットが分離されており、同時
に起動できるものとする。

【００６９】図８は前述した式（１）をmodulo schedul
ing によりコーディングしたプログラムの例を示す図で
ある。

【００７０】図８において、ＬＯＡＤＢ（ｉ）は、Ｂ
（ｉ）を主記憶から浮動小数点レジスタにロードする命
令であり、浮動小数点レジスタ番号は省略して記してあ
る。ＭＵＬＴＢ（ｉ）＊Ｓは、ＬＯＡＤＢ（ｉ）に
よって主記憶から浮動小数点レジスタにロードされたＢ
（ｉ）と別の浮動小数点レジスタに格納されているＳと
の乗算を行って、さらに別の浮動小数点レジスタに格納
する命令であり、浮動小数点レジスタ番号は省略して記
してある。

【００７１】ＳＴＯＲＥＡ（ｉ）は、前述の命令ＭＵ
ＬＴＢ（ｉ）＊Ｓによって浮動小数点レジスタに格納
された演算結果を主記憶のＡ（ｉ）の位置にストアする
命令であり、浮動小数点レジスタ番号は省略して記して
ある。なお、図８に示す「サイクル」は、マシンサイク
ル単位の時刻を表し、同一サイクルのところに書かれて
いる命令の実行が同時に開始される。

【００７２】すなわち、サイクル１では、ＬＯＡＤＢ
（１）のみの実行が開始され、サイクル５では、ＬＯＡ
ＤＢ（５）と、ＭＵＬＴＢ（１）＊Ｓとが同時に実
行開始され、サイクル９では、ＬＯＡＤＢ（９）、Ｍ
ＵＬＴＢ（５）＊Ｓ、及び、ＳＴＯＲＥＡ（１）が
同時に実行開始される。

【００７３】実際のプログラムの命令列は、同時に実行
が開始される複数の命令が逐次的に書かれている。例え
ば、サイクル５で同時実行されるＬＯＡＤＢ（５）、
及び、ＭＵＬＴＢ（１）＊Ｓは、実際のプログラム上
では、この順に書かれている。そして、ハードウエア
が、この連続する２命令ＬＯＡＤＢ（５）、ＭＵＬＴ
Ｂ（１）＊Ｓが同時に実行を開始できることを判定し、
それぞれの実行ユニットに起動をかける。

【００７４】以下、図８に示す命令の意味について説明
する。

【００７５】前述した式（１）を実行するためには、各
要素の処理を１つの iterationによって行い、１つの i
terationは、ステージ１：Ｂのロード、ステージ２：乗
算、ステージ３：Ａへのストアの３ステージとする。そ
して、各ステージは、その実行に４サイクルを要すると
仮定する。すなわち、メモリの読み出し、乗算、メモリ
への書き込みにそれぞれ４サイクルを要するものとす
る。

【００７６】前述の場合、第ｉ要素に関するステージ１
の開始から、ステージ２の開始までに４サイクル、ステ
ージ２の開始からステージ３の開始までに４サイクルを
要することになる。そこで、第ｉ要素に関するロードの
４サイクル後に乗算を開始し、その４サイクル後にスト
アを開始することにする。また、第ｉ要素に関するロー
ドの１サイクル後に、第ｉ＋１要素に関するロードを開
始し、第ｉ要素に関する乗算の１サイクル後に、第ｉ＋
１要素に関する乗算を開始し、第ｉ要素に関するストア
の１サイクル後に、第ｉ＋１要素に関するストアを開始
することにする。

【００７７】このように命令をスケジューリングする
と、プログラムは、図８に示すように、第ｉ＋８要素に
関するステージ１と、第ｉ＋４要素に関するステージ２
と、第ｉ要素に関するステージ３を同時に実行すること
ができる部分があることになる。この部分をカーネルと
呼ぶ。

【００７８】前述において、“同時に実行する”といっ
た意味は、第ｉ＋８要素に関するステージ１と、第ｉ＋
４要素に関するステージ２と、第ｉ要素に関するステー
ジ３との各サイクルが同一時刻に同時に進行しているこ
とである。これは、本発明で対象とする計算機が、ロー
ド命令、演算命令、ストア命令を並列実行可能なスーパ
ースカラプロセッサであることにより可能とされる。す
なわち、カーネル部分は、３ステージが同時に処理され
ていているので、高速な処理が可能である。

【００７９】なお、図８に示すようなプログラムで、カ
ーネルの前の部分をプロローグ、カーネルの後の部分を
エピローグと呼ぶ。そして、前述したように、実際のプ
ログラムの命令列は、同時に実行が開始される複数の命
令が逐次的に書かれている。

【００８０】ここで、本発明を適用する計算機が、ロー
ド命令またはストア命令と、演算命令とを並列に実行す
ることが可能な、すなわち、ロード命令とストア命令と
を同時に実行することができないスーパースカラプロセ
ッサであってもよい。すなわち、前述のスーパースカラ
プロセッサよりも低性能のスーパースカラプロセッサで
あってもよい。この場合、図８のカーネル部分の各サイ
クルが２サイクル（ＬＯＡＤ命令を行うサイクルと、Ｍ
ＵＬＴ命令及びＳＴＯＲＥ命令を行うサイクル）になる
だけで、本質の動作は同一である。

【００８１】図９、図１０は前記した式（１）をmodulo
scheduling を用いてコーディングした図８に示すプロ
グラムを、本発明に適用するようにしたプログラムの例
を示す図である。

【００８２】図９、図１０のプログラムを実行する計算
機は、前述の場合と同様に、ロード命令、演算命令、ス
トア命令を並列に実行することが可能なスーパースカラ
プロセッサであるとする。また、図９、図１０に示すプ
ログラムの実行に先立って、ベクトルＢは、主記憶アド
レスａｄ１から始まる連続領域に格納されているものと
する。すなわち、Ｂ（１）の主記憶アドレスがａｄ１、
Ｂ（２）の主記憶アドレスがａｄ１＋８というように格
納されている。同様に、ベクトルＡは、主記憶アドレス
ａｄ３から始まる連続領域に格納されているものとす
る。さらに、汎用レジスタ１にはａｄ１が、汎用レジス
タ３にはａｄ３が、汎用レジスタ４にはＮ−８が格納さ
れ、ウィンドウスタートポインタ有効レジスタには１
が、物理浮動小数点レジスタ７にはＳが格納されている
ものとする。

【００８３】以下、図９、図１０のプログラムについて
説明する。

【００８４】Ｎo.１のＦＷＳＴＰＳ命令は、ウィンドウ
スタートポインタに“０”をセットする。Ｎo.２のＦＬ
ＤＰＲＭ命令は、ＦＷＳＴＰ＝“０”であるので、Ｂ
（１）を物理浮動小数点レジスタ＜０，８＞に格納す
る。Ｎo.３のＦＬＤＰＲＭ命令は、ＦＷＳＴＰ＝“０”
であるので、Ｂ（２）を物理浮動小数点レジスタ＜０，
１２＞（＝物理浮動小数点レジスタ＜１，８＞）に格納
する。Ｎo.４のＦＬＤＰＲＭ命令は、ＦＷＳＴＰ＝
“０”であるので、Ｂ（３）を物理浮動小数点レジスタ
＜０，１６＞（＝物理浮動小数点レジスタ＜２，８＞）
に格納する。Ｎo.５のＦＬＤＰＲＭ命令は、ＦＷＳＴＰ
＝“０”であるので、Ｂ（４）を物理浮動小数点レジス
タ＜０，２０＞（＝物理浮動小数点レジスタ＜３，８
＞）に格納する。Ｎo.６のＦＬＤＰＲＭ命令は、ＦＷＳ
ＴＰ＝“０”であるので、Ｂ（５）を物理浮動小数点レ
ジスタ＜０，２４＞（＝物理浮動小数点レジスタ＜４，
８＞）に格納する。

【００８５】Ｎo.７のＦＭＬＴ命令は、論理浮動小数点
レジスタ７が指定されており、該レジスタが式（２）に
より物理浮動小数点レジスタ７、すなわち、グローバル
レジスタであるので、物理浮動小数点レジスタ７の値
（＝Ｓ）を読み出し、ＦＷＳＴＰ＝“０”であるので、
物理浮動小数点レジスタ＜０，８＞〔＝Ｂ（１）〕と積
をとって、物理浮動小数点レジスタ＜０，１０＞に格納
する。Ｎo.８のＦＷＳＴＰＳ命令は、ウィンドウスター
トポインタに１を加える。すなわち、ＦＷＳＴＰ＝１と
なる。Ｎo.９のＦＬＤＰＲＭ命令は、ＦＷＳＴＰ＝
“１”であるので、Ｂ（６）を物理浮動小数点レジスタ
＜１，２４＞（＝物理浮動小数点レジスタ＜５，８＞）
に格納する。

【００８６】Ｎo.１０のＦＭＬＴ命令は、ＦＷＳＴＰ＝
“１”であるので、物理浮動小数点レジスタ＜１，８＞
（＝Ｂ（２））とＳとの積をとって、その結果を物理浮
動小数点レジスタ＜１，１０＞に格納する。Ｎo.１１の
ＦＷＳＴＰＳ命令は、ウィンドウスタートポインタに１
を加える。すなわち、ＦＷＳＴＰ＝２となる。Ｎo.１２
のＦＬＤＰＲＭ命令は、ＦＷＳＴＰ＝“２”であるの
で、Ｂ（７）を物理浮動小数点レジスタ＜２，２４＞
（＝物理浮動小数点レジスタ＜６，８＞）に格納する。

【００８７】Ｎo.１３のＦＭＬＴ命令は、ＦＷＳＴＰ＝
“２”であるので、物理浮動小数点レジスタ＜２，８＞
〔＝Ｂ（３）〕とＳとの積をとって、その結果物理浮動
小数点レジスタ＜２，１０＞に格納する。Ｎo.１４のＦ
ＷＳＴＰＳ命令は、ウィンドウスタートポインタに１を
加える。すなわち、ＦＷＳＴＰ＝３となる。Ｎo.１５の
ＦＬＤＰＲＭ命令は、ＦＷＳＴＰ＝“３”であるので、
Ｂ（８）を物理浮動小数点レジスタ＜３，２４＞（＝物
理浮動小数点レジスタ＜７，８＞）に格納する。

【００８８】Ｎo.１６のＦＭＬＴ命令は、ＦＷＳＴＰ＝
“３”であるので、物理浮動小数点レジスタ＜３，８＞
〔＝Ｂ（４）〕とＳとの積をとって、その結果を物理浮
動小数点レジスタ＜３，１０＞に格納する。Ｎo.１７の
ＦＷＳＴＰＳ命令は、ウィンドウスタートポインタに１
を加える。すなわち、ＦＷＳＴＰ＝４となる。

【００８９】以上説明したＮo.１からＮo.１７までの命
令列が図８に示したプロローグを形成している。そし
て、次のＮo.１８のＦＬＤＰＲＭ命令からＮo.２２のＢ
ＣＮＴ命令までがループを構成し、Ｎ−８回繰返し実行
される。

【００９０】以下、第ｉ回目に実行されるループについ
て説明する（ｉは１から始まる）。なお、ＦＷＳＴＰは
ｉ＋３（ｍｏｄ３０）を指しているものとする。

【００９１】Ｎo.１８のＦＬＤＰＲＭ命令は、ＦＷＳＴ
Ｐ＝ｉ＋３（ｍｏｄ３０）であるので、Ｂ（ｉ＋８）
を、物理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ３
０），２４＞（＝物理浮動小数点レジスタ＜ｉ＋７（ｍ
ｏｄ３０），８＞）にロードする。ここで、このロー
ドされたデータは、４サイクル後にＮo.１９のＦＭＬＴ
命令で使用される。

【００９２】Ｎo.１９のＦＭＬＴ命令は、ＦＷＳＴＰ＝
ｉ＋３（ｍｏｄ３０）であるので、物理浮動小数点レ
ジスタ＜ｉ＋３（ｍｏｄ３０）、８＞（＝Ｂ（ｉ＋
４））とＳとの積をとって、その結果を物理浮動小数点
レジスタ＜ｉ＋３（ｍｏｄ３０），１０＞に格納す
る。ここで、物理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ
３０），８＞に格納されているデータは、４サイクル前
にＮo.１８のＦＬＤＰＲＭ命令でロードされたものであ
る。また、物理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ
３０），１０＞に格納されるデータは、４サイクル後の
Ｎo.２０のＦＳＴＰＯＭ命令で使用される。

【００９３】Ｎo.２０のＦＳＴＰＯＭ命令は、ＦＷＳＴ
Ｐ＝ｉ＋３（ｍｏｄ３０）であるので、物理浮動小数
点レジスタ＜ｉ＋３（ｍｏｄ３０），１１４＞（＝物
理浮動小数点レジスタ＜ｉ−１（ｍｏｄ３０），１０
＞）の値をＡ（ｉ）の主記憶位置に格納する。ここで、
物理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ３０），１
１４＞（＝物理浮動小数点レジスタ＜ｉ−１（ｍｏｄ
３０），１０＞）に格納されているデータは、４サイク
ル前にＮo.１９のＦＭＬＴ命令で格納されたものであ
る。

【００９４】Ｎo.２１のＦＷＳＴＰＳ命令は、ウィンド
ウスタートポインタに１を加える。すなわち、ＦＷＳＴ
Ｐ＝ｉ＋４（ｍｏｄ３０）となる。Ｎo.２２のＢＣＮ
Ｔ命令でループの先頭に戻る。

【００９５】前述したように、第ｉループの中では、４
つ後のループで乗算されるデータＢ（ｉ＋８）を物理浮
動小数点レジスタ＜ｉ＋３（ｍｏｄ３０），２４＞
（＝物理浮動小数点レジスタ＜ｉ＋７（ｍｏｄ３
０），８＞）に格納し、４つ前のループで物理浮動小数
点レジスタ＜ｉ＋３（ｍｏｄ３０），８＞に格納され
たＢ（ｉ＋４）を用いて乗算を行い、その結果を物理浮
動小数点レジスタ＜ｉ＋３（ｍｏｄ３０），１０＞に
格納し、４つ前のループで得られた乗算結果であり、物
理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ３０），１１
４＞（＝物理浮動小数点レジスタ＜ｉ−１（ｍｏｄ３
０），１０＞）に格納されているＢ（ｉ）＊Ｓを、Ａ
（ｉ）の主記憶位置に格納するという処理を行ってい
る。

【００９６】前述したＮo.１８のＦＬＤＰＲＭ命令から
Ｎo.２２のＢＣＮＴ命令までが、図８に示したカーネル
の部分に相当する。

【００９７】前述したループを抜けた後のＮo.２３から
Ｎo.４１の命令は、未処理の要素の処理であり、引き続
き、これについて説明する。

【００９８】Ｎo.２３のＦＭＬＴ命令は、ＦＷＳＴＰ＝
Ｎ−４（ｍｏｄ３０）であるので、物理浮動小数点レ
ジスタ＜Ｎ−４（ｍｏｄ３０），８＞（＝Ｂ（Ｎ−
３））とＳとの積をとって、その結果を物理浮動小数点
レジスタ＜Ｎ−４（ｍｏｄ３０），１０＞に格納す
る。Ｎo.２４のＦＳＴＰＯＭ命令は、ＦＷＳＴＰ＝Ｎ−
４であるので、物理浮動小数点レジスタ＜Ｎ−４（ｍｏ
ｄ３０），１１４＞（＝物理浮動小数点レジスタ＜Ｎ
−８（ｍｏｄ３０），１０＞）の値を、Ａ（Ｎ−７）
の主記憶位置に格納する。Ｎo.２５のＦＷＳＴＰＳ命令
は、ウィンドウスタートポインタに１を加える。すなわ
ち、ＦＷＳＴＰ＝Ｎ−３（ｍｏｄ３０）となる。

【００９９】Ｎo.２６のＦＭＬＴ命令は、ＦＷＳＴＰ＝
Ｎ−３であるので物理浮動小数点レジスタ＜Ｎ−３（ｍ
ｏｄ３０），８＞〔＝Ｂ（Ｎ−２）〕とＳとの積をと
って、その結果を物理浮動小数点レジスタ＜Ｎ−３（ｍ
ｏｄ３０），１０＞に格納する。Ｎo.２７のＦＳＴＰ
ＯＭ命令は、ＦＷＳＴＰ＝Ｎ−３であるので、物理浮動
小数点レジスタ＜Ｎ−３（ｍｏｄ３０），１１４＞
（＝物理浮動小数点レジスタ＜Ｎ−７（ｍｏｄ３
０），１０＞）の値をＡ（Ｎ−６）の主記憶位置に格納
する。Ｎo.２８のＦＷＳＴＰＳ命令は、ウィンドウスタ
ートポインタに１を加える。すなわち、ＦＷＳＴＰ＝Ｎ
−２（ｍｏｄ３０）となる。

【０１００】Ｎo.２９のＦＭＬＴ命令は、ＦＷＳＴＰ＝
Ｎ−２（ｍｏｄ３０）であるので、物理浮動小数点レ
ジスタ＜Ｎ−２（ｍｏｄ３０），８＞〔＝Ｂ（Ｎ−
１）〕とＳとの積をとって、その結果を物理浮動小数点
レジスタ＜Ｎ−２（ｍｏｄ３０）、１０＞に格納す
る。Ｎo.３０のＦＳＴＰＯＭ命令は、ＦＷＳＴＰ＝Ｎ−
２であるので、物理浮動小数点レジスタ＜Ｎ−２（ｍｏ
ｄ３０），１１４＞（＝物理浮動小数点レジスタ＜Ｎ
−６（ｍｏｄ３０），１０＞）の値をＡ（Ｎ−５）の
主記憶位置に格納する。Ｎo.３１のＦＷＳＴＰＳ命令
は、ウィンドウスタートポインタに１を加える。すなわ
ち、ＦＷＳＴＰ＝Ｎ−１（ｍｏｄ３０）となる。

【０１０１】Ｎo.３２のＦＭＬＴ命令は、ＦＷＳＴＰ＝
Ｎ−１（ｍｏｄ３０）であるので、物理浮動小数点レ
ジスタ＜Ｎ−１（ｍｏｄ３０），８＞（＝Ｂ（Ｎ））
とＳとの積をとって、その結果を物理浮動小数点レジス
タ＜Ｎ−１（ｍｏｄ３０），１０＞に格納する。Ｎo.
３３のＦＳＴＰＯＭ命令は、ＦＷＳＴＰ＝Ｎ−１（ｍｏ
ｄ３０）であるので、物理浮動小数点レジスタ＜Ｎ−
１（ｍｏｄ３０），１１４＞（＝物理浮動小数点レジ
スタ＜Ｎ−５（ｍｏｄ３０），１０＞）の値をＡ（Ｎ
−４）の主記憶位置に格納する。Ｎo.３４のＦＷＳＴＰ
Ｓ命令は、ウィンドウスタートポインタに１を加える。
すなわち、ＦＷＳＴＰ＝Ｎ（ｍｏｄ３０）となる。

【０１０２】Ｎo.３５のＦＳＴＰＯＭ命令は、ＦＷＳＴ
Ｐ＝Ｎ（ｍｏｄ３０）であるので、物理浮動小数点レ
ジスタ＜Ｎ（ｍｏｄ３０），１１４＞（＝物理浮動小
数点レジスタ＜Ｎ−４（ｍｏｄ３０），１０＞）の値
をＡ（Ｎ−３）の主記憶位置に格納す。Ｎo.３６のＦＷ
ＳＴＰＳ命令は、ウィンドウスタートポインタに１を加
える。すなわち、ＦＷＳＴＰ＝Ｎ＋１（ｍｏｄ３０）
となる。

【０１０３】Ｎo.３７のＦＳＴＰＯＭ命令は、ＦＷＳＴ
Ｐ＝Ｎ＋１（ｍｏｄ３０）であるので、物理浮動小数
点レジスタ＜Ｎ＋１（ｍｏｄ３０），１１４＞（＝物
理浮動小数点レジスタ＜Ｎ−３（ｍｏｄ３０），１０
＞）の値をＡ（Ｎ−２）の主記憶位置に格納する。Ｎo.
３８のＦＷＳＴＰＳ命令は、ウィンドウスタートポイン
タに１を加える。すなわち、ＦＷＳＴＰ＝Ｎ＋２（ｍｏ
ｄ３０）となる。

【０１０４】Ｎo.３９のＦＳＴＰＯＭ命令は、ＦＷＳＴ
Ｐ＝Ｎ＋２（ｍｏｄ３０）であるので、物理浮動小数
点レジスタ＜Ｎ＋２（ｍｏｄ３０），１１４＞（＝物
理浮動小数点レジスタ＜Ｎ−２（ｍｏｄ３０），１０
＞）の値をＡ（Ｎ−１）の主記憶位置に格納する。Ｎo.
４０のＦＷＳＴＰＳ命令は、ウィンドウスタートポイン
タに１を加える。すなわち、ＦＷＳＴＰ＝Ｎ＋３（ｍｏ
ｄ３０）となる。

【０１０５】Ｎo.４１のＦＳＴＰＯＭ命令は、ＦＷＳＴ
Ｐ＝Ｎ＋３（ｍｏｄ３０）であるので、物理浮動小数
点レジスタ＜Ｎ＋３（ｍｏｄ３０），１１４＞（＝物
理浮動小数点レジスタ＜Ｎ−１（ｍｏｄ３０），１０
＞）の値をＡ（Ｎ）の主記憶位置に格納する。

【０１０６】前述で説明したＮo.２３からＮo.４１まで
の命令列が図８に示すプログラムのエピローグの部分に
相当する。

【０１０７】前述で説明したプログラムは、第ｉループ
内の処理から判るように、Ｎo.１８のＦＬＤＰＲＭ命令
で論理浮動小数点レジスタ番号２４にデータを書き込
み、直後のＮo.１９のＦＭＬＴ命令で論理浮動小数点レ
ジスタ８を使用している。そして、Ｎo.１８のＦＬＤＰ
ＲＭ命令でアクセスしている物理浮動小数点レジスタ
は、＜ｉ＋３（ｍｏｄ３０），２４＞、すなわち＜ｉ
＋７（ｍｏｄ３０），８＞であり、Ｎo.１９のＦＭＬ
Ｔ命令でアクセスしている物理浮動小数点レジスタ＜ｉ
＋３（ｍｏｄ３０），８＞とは異なる。従って、デー
タの読み出し待ちにより、後続の命令の実行が待たされ
るという現象は起こらず、言いかえれば、データ読み出
しは、４ループ後のＦＭＬＴ命令の実行までに完了すれ
ばよいわけである。この結果、プログラムが高速に実行
できることになる。

【０１０８】前述において、Ｎo.１８のＦＬＤＰＲＭ命
令、Ｎo.１９のＦＭＬＴ命令、Ｎo.２０のＦＳＴＰＯＭ
命令は、同時に実行が開始されている。すなわち、この
４ループ後のＦＭＬＴ命令の実行は、〔（Ｎo.１８のＦ
ＬＤＰＲＭ命令、Ｎo.１９のＦＭＬＴ命令、Ｎo.２０の
ＦＳＴＰＯＭ命令）の実行開始サイクル（＝１サイク
ル）＋Ｎo.２１のＦＷＳＴＰＳ命令の実行サイクル＋Ｎ
o.２２のＢＣＮＴ命令の実行サイクル〕＊４のサイクル
数後に行われるので、４サイクルかかるデータ読み出し
は、４ループ後には完了しており、データ読み出し待ち
による性能低下はない。

【０１０９】また、Ｎo.１９のＦＭＬＴ命令で論理浮動
小数点レジスタ番号１０にデータを書き込み、直後のＮ
o.２０のＦＳＴＰＯＭ命令で論理浮動小数点レジスタ１
１４を使用している。Ｎo.１９のＦＭＬＴ命令でアクセ
スしている物理浮動小数点レジスタは＜ｉ＋３（ｍｏｄ
３０），１０＞であり、Ｎo.２０のＦＳＴＰＯＭ命令
でアクセスしている物理浮動小数点レジスタ＜ｉ＋３
（ｍｏｄ３０），１１４＞，すなわち＜ｉ−１（ｍｏ
ｄ３０），１０＞とは異なる。従って、演算結果待ち
により、後続の命令の実行が待たされるという現象は起
こらず、言いかえれば、乗算は、４ループ後の実行まで
に完了すればよいわけである。この結果、プログラムが
高速に実行できることになる。

【０１１０】前述したように、Ｎo.１８のＦＬＤＰＲＭ
命令、Ｎo.１９のＦＭＬＴ命令、Ｎo.２０のＦＳＴＰＯ
Ｍ命令は、同時に実行が開始されている。すなわち、こ
の４ループ後のＦＳＴＰＯＭ命令の実行は、〔（Ｎo.１
８のＦＬＤＰＲＭ命令、Ｎo.１９のＦＭＬＴ命令、Ｎo.
２０のＦＳＴＰＯＭ命令）の実行開始サイクル（＝１サ
イクル）＋Ｎo.２１のＦＷＳＴＰＳ命令の実行サイクル
＋Ｎo.２２のＢＣＮＴ命令の実行サイクル〕＊４のサイ
クル数後に行われので、４サイクルかかる乗算は、４ル
ープ後には完了しており、演算実行待ちによる性能低下
はない。

【０１１１】第ｉループの処理を、前述のようにした理
由は以下の通りである。

【０１１２】第ｉループにおいて、Ｎo.１８のＦＬＤＰ
ＲＭ命令で物理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ
３０），２４＞にデータをロードしているが、この物理
浮動小数点レジスタは＜ｉ＋７（ｍｏｄ３０），８＞
＝＜（ｉ＋３）＋４（ｍｏｄ３０），８＞と同一であ
る。すなわち、当該ループのＦＷＳＴＰに４を加えたＦ
ＷＳＴＰに対して、論理浮動小数点レジスタ８である。
４ループ後には、当該ループのＦＷＳＴＰに４を加えた
値がＦＷＳＴＰになるので、当該物理浮動小数点レジス
タは４ループ後のＮo.１９のＦＭＬＴ命令でアクセスさ
れる〔なぜなら、４ループ後のＮo.１９のＦＭＬＴ命令
では物理浮動小数点レジスタは＜ｉ＋７（ｍｏｄ３
０），８＞がアクセスされるからである〕。

【０１１３】第ｉループにおいて、Ｎo.２０のＦＳＴＰ
ＯＭ命令で物理浮動小数点レジスタ＜ｉ＋３（ｍｏｄ
３０），１１４＞から、データがストアされるが、この
物理浮動小数点レジスタは＜ｉ−１（ｍｏｄ３０），
１０＞＝＜（ｉ＋３）−４（ｍｏｄ３０），１０＞と
同一である。すなわち、当該ループのＦＷＳＴＰから４
を減じたＦＷＳＴＰに対して、論理浮動小数点レジスタ
８である。４ループ前には、当該ループのＦＷＳＴＰか
ら４を減じた値がＦＷＳＴＰであるので、当該物理浮動
小数点レジスタは、４ループ前のＮo.１９のＦＭＬＴ命
令で演算結果が格納されている〔なぜなら、４ループ前
のＮo.１９のＦＭＬＴ命令で、物理浮動小数点レジスタ
は＜ｉ−１（ｍｏｄ３０），１０＞に演算結果を格納
しているからである）。

【０１１４】すなわち、あるループのＮo.１８のＦＬＤ
ＰＲＭ命令は、そのループのＦＷＳＴＰに４を加えたＦ
ＷＳＴＰの下での（すなわち４ループ後の）論理浮動小
数点レジスタ８にデータをロードしている。４ループ
後、すなわち、ＦＷＳＴＰに４が加えられたループのＮ
o.１９のＦＭＬＴ命令は、前記論理浮動小数点レジスタ
８の値を用いて演算を行い、その結果を論理浮動小数点
レジスタ１０に入れる。さらに、４ループ後、すなわ
ち、さらに、ＦＷＳＴＰに４が加えられループのＮo.２
０のＦＳＴＰＯＭ命令は、ＦＷＳＴＰから４が減じられ
たループ（すなわち４ループ前）の論理浮動小数点レジ
スタ１０のデータをストアしている。

【０１１５】すなわち、図９、図１０に示すプログラム
は、異なるＦＷＳＴＰに対する同一論理浮動小数点レジ
スタを指定して、データをループ間で受け渡しているこ
とになり、これを通常命令より長いレジスタフィールド
によって実現しているのである。

【０１１６】本発明に使用する図９、図１０のプログラ
ムは、ウィンドウスタートポインタの更新の処理があっ
てオーバヘッドになっており、プログラムのループが５
命令で構成されている。しかし、図９、図１０のプログ
ラムは、ループを構成する５命令の中の３命令が同時に
実行できるうえ、ウィンドウスタートポインタの更新処
理によるオーバヘッドより大きいオーバヘッドとなるデ
ータ読み出し待ちで後続命令の実行が待たされることを
なくすことができる。

【０１１７】ここで、本発明を適用する計算機が、ロー
ド命令またはストア命令と、演算命令とを並列に実行す
ることが可能な、すなわち、ロード命令とストア命令と
を同時に実行することができないスーパースカラプロセ
ッサであってもよい。すなわち、前述のスーパースカラ
プロセッサよりも低性能のスーパースカラプロセッサで
あってもよい。この場合、図９、図１０のプログラムは
同一であり、ループ内のＮo.１８、１９、２０の３命令
が同時に実行開始できずに、Ｎo.１８、１９の２命令の
実行開始の１サイクル後にＮo.２０の命令が開始される
だけで、すなわち、ループの実行時間が１サイクル延び
るだけで、本質の動作は同一である。

【０１１８】また、本発明に使用する図９、図１０に示
すプログラムは、浮動小数点レジスタプリロード命令と
浮動小数点レジスタポストストア命令とで、命令中の通
常命令より長いレジスタフィールドにより、データをロ
ード／ストアする物理レジスタ番号を自由に決めること
ができるので、データ読み出し時間、演算時間の変化に
対して柔軟に対応することができる。

【０１１９】本発明は、ウィンドウポインタレジスタ幅
を変更することにより（通常、ポインタ幅最大値は固
定）、ウィンドウ刻み幅を自由に変更することができる
ようになり、柔軟なプログラミングを行うことができ、
さらに、グローバルレジスタ本数ｍｇを可変とすること
により、様々な個数のループインバリアントを持つアプ
リケーションにも柔軟に対応することができる。

【０１２０】

【実施例】以下、本発明によるデータ処理装置の一実施
例を図面により詳細に説明する。

【０１２１】図１は本発明の一実施例によるデータ処理
装置の構成を示すブロック図、図２は本発明のために新
たに追加された命令を説明する図である。図１におい
て、１０は命令処理ユニット、２０は記憶制御ユニッ
ト、３０は主記憶、１０１は命令レジスタ、１０２は命
令制御部、１０３は汎用レジスタ群、１０４は汎用演算
器、１０５は物理浮動小数点レジスタ群、１０６は浮動
小数点演算器、１０７はアドレス加算器、１０８はキャ
ッシュ、１０９は主記憶アクセス制御部、１１０はウィ
ンドウスタートポインタレジスタ、１１１はウィンドウ
スタートポインタ有効レジスタ、１１２は変換回路、１
１８はグローバルレジスタ本数モードレジスタである。

【０１２２】図１に示す本発明の一実施例によるデータ
処理装置は、作用の項で説明したようなベクトル演算を
実行するものである。そして、このデータ処理装置は、
命令の発行及び実行を行う命令処理ユニット１０と、命
令処理ユニット１０で実行される命令、データ等を記憶
する主記憶３０と、命令処理ユニット１０と主記憶３０
との間のデータの授受を制御する記憶制御ユニット２０
とから構成される。

【０１２３】命令処理ユニット１０は、実行する命令を
保持する命令レジスタ１０１と、命令レジスタ１０１の
内容を解読し、命令実行の制御を行う命令制御部１０２
と、汎用演算及びアドレス計算に必要なデータを保持す
る汎用レジスタ群１０３と、命令で指定される汎用演算
を実行する汎用演算器１０４と、浮動小数点演算に必要
なデータを保持する物理浮動小数点レジスタ群１０５
と、命令で指定される浮動小数点演算を実行する浮動小
数点演算器１０６と、主記憶３０内のデータをアクセス
するための主記憶アドレスを計算するアドレス加算器１
０７と、記憶制御ユニット２０から読み出された主記憶
データを保持するキャッシュ１０８と、キャッシュ１０
８の検索結果に従い記憶制御ユニット２０から主記憶デ
ータを読み出す等の制御を行う主記憶アクセス制御部１
０９と、ウィンドウスタートポインタを格納するウィン
ドウスタートポインタレジスタ１１０と、ウィンドウス
タートポインタが有効であることを示すウィンドウスタ
ートポインタ有効レジスタ１１１と、グローバルレジス
タの本数を示すグローバルレジスタ本数モ−ドレジスタ
１１８と、命令で指定された論理浮動小数点レジスタ番
号を示す信号１１５、ウィンドウスタートポインタセッ
ト命令のｖフィールドの値を示す信号１１７、ウィンド
ウスタートポインタレジスタ１１０の値、信号１１５、
及び、グローバルレジスタ本数モードレジスタ１１８の
値から、前述で説明した式（２）、（３）に従って、論
理浮動小数点レジスタ番号を物理浮動小数点レジスタ番
号に変換する変換回路１１２とを備えて構成される。

【０１２４】そして、変換回路１１２は、ウィンドウス
タートポインタレジスタ１１０の値に、ウィンドウスタ
ートポインタセット命令のｖフィールドの値を示す信号
１１７の値を加算する機能も持つ。また、グローバルレ
ジスタ本数モードレジスタ１１８は、格納されるデータ
がグローバルレジスタの本数を表すものでもよく、グロ
ーバルレジスタの本数を符号化したもの（たとえば、値
‘１’は本数４とする等）であってもよい。

【０１２５】命令レジスタ１０１には、複数の命令（こ
こでは３命令）が格納され、命令制御部１０２は、同時
に複数の命令（ここでは３命令）を解読実行することが
できるものとする。また、主記憶アクセス制御部１０９
は、ロード、ストアを同時に実行することができるもの
とする。このため、アドレス加算器１０７は、ロード命
令、ストア命令のアドレス加算を同時に行うことができ
るものとする。

【０１２６】そして、図１に示す本発明の一実施例によ
るデータ処理装置には、図２で示すように、３つの命令
が新たに追加される。それらは、（ａ）ウィンドウスタ
ートポインタセット命令、（ｂ）浮動小数点レジスタプ
リロード命令、（ｃ）浮動小数点レジスタポストストア
命令である。

【０１２７】図２（ａ）は、ウィンドウスタートポイン
タセット命令の形式を示しており、命令コードは、その
命令がウィンドウスタートポインタセット命令であるこ
とを示すものである。そして、ｕは、この命令が以下の
（ｉ）、（ii）の動作のいずれを実行するかを指定す
る。ｖは、（ｉ）ｕ＝０の場合、ウィンドウスタートポ
インタレジスタにセットされる値を指定し、（ii）ｕ＝
１の場合、ウィンドウスタートポインタレジスタに加算
する値を指定する。なお、加算は（ｍｒ−ｍｇ）／ｓｐ
を法として行われる。すなわち、本発明の一実施例で
は、ｍｒ＝１２８、ｍｇ＝８、ｓｍ＝７、ｑ＝５である
ので、ウィンドウスタートポインタＦＷＳＴＰの値が２
９、ｖ＝１であれば、加算結果は“０”になる。

【０１２８】図２（ｂ）は、浮動小数点レジスタプリロ
ード命令の形式を示しており、命令コードは、その命令
が浮動小数点レジスタプリロード命令であることを示す
ものである。浮動小数点レジスタ（ＦＲ）番号は、主記
憶内のデータが格納される論理浮動小数点レジスタ番号
ｒを示し、７ビットで表される。この論理浮動小数点レ
ジスタ番号ｒに対応する物理浮動小数点レジスタ番号
は、ウィンドウスタートポインタをＦＷＳＴＰとして、
式（２）、（３）で表される＜ＦＷＳＴＰ，ｒ＞であ
る。汎用レジスタ（ＧＲ）番号は、データを主記憶から
読み出すための主記憶アドレスを格納している汎用レジ
スタの番号である。インクリメント値は、この命令によ
る読み出し実行後、汎用レジスタに加える値である。

【０１２９】図２（ｃ）は、浮動小数点レジスタポスト
ストア命令の形式を示しており、命令コードは、浮動小
数点レジスタポストストア命令であることを示すもので
ある。浮動小数点レジスタ（ＦＲ）番号は、データが読
み出される論理浮動小数点レジスタ番号ｒを示し、７ビ
ットで表される。この論理浮動小数点レジスタ番号ｒに
対応する物理浮動小数点レジスタ番号は、ウィンドウス
タートポインタをＦＷＳＴＰとして、式（２）、（３）
で表される＜ＦＷＳＴＰ，ｒ＞である。汎用レジスタ
（ＧＲ）番号は、主記憶に格納するデータの主記憶のア
ドレスを格納している汎用レジスタの番号である。イン
クリメント値は、この命令による書き込み実行後、汎用
レジスタに加える値である。

【０１３０】次に、前述した命令による図１に示す本発
明の一実施例の動作を説明する。まず、ウィンドウスタ
ートポインタセット命令について説明する。

【０１３１】図１において、命令レジスタ１０１に命令
が取り込まれると、命令は命令制御部１０２で解読さ
れ、その命令が、ウィンドウスタートポインタセット命
令であることが識別されると、命令中のｕがチェックさ
れ、（ｉ）ｕ＝“０”である場合、命令中に指定された
ｖが、ウィンドウスタートポインタレジスタ１１０にセ
ットされる。また、（ii）ｕ＝１である場合、命令中に
指定されたｖが、変換回路１１２に信号１１７として送
られ、変換回路１１２でウィンドウスタートポインタレ
ジスタ１１０の値と加算されて、その加算結果がウィン
ドウスタートポインタレジスタ１１０にセットされる。

【０１３２】次に、浮動小数点レジスタプリロード命令
について説明する。

【０１３３】命令レジスタ１０１に命令が取り込まれる
と、命令は命令制御部１０２で解読され、その命令が、
浮動小数点レジスタプリロード命令であることが識別さ
れると、アドレス加算器１０７は、命令に指定された汎
用レジスタ番号で示される汎用レジスタの内容をデータ
を主記憶から読み出すための主記憶アドレスとする。そ
して、主記憶アクセス制御部１０９は、前記主記憶アド
レスをもとにキャッシュ１０８を検索し、キャッシュ１
０８に所望のデータがあれば、キャッシュからデータを
転送し、なければ、記憶制御ユニット２０経由で、主記
憶３０からデータを読み出して転送する。

【０１３４】この転送データは、物理浮動小数点レジス
タ群１０５の１つに格納されるが、格納される浮動小数
点レジスタの物理浮動小数点レジスタ番号は、変換回路
１１２で以下のようにして求められる。

【０１３５】すなわち、命令中に指定された浮動小数点
レジスタ番号は、７ビットで表される論理浮動小数点レ
ジスタ番号ｒであり、ウィンドウスタートポインタレジ
スタ１１０の値をＦＷＳＴＰとして、前述した式
（２）、（３）に基づいて、＜ＦＷＳＴＰ，ｒ＞を計算
し、これを物理浮動小数点レジスタ番号とする。このデ
ータ転送動作開始後、汎用演算器１０４は、汎用レジス
タの値にインクリメント値を加える。

【０１３６】次に、浮動小数点レジスタポストストア命
令について説明する。

【０１３７】命令レジスタ１０１に命令が取り込まれる
と、命令は命令制御部１０２で解読され、その命令が浮
動小数点レジスタポストストア命令であることが識別さ
れると、アドレス加算器１０７は、命令に指定された汎
用レジスタ番号で示される汎用レジスタの内容をデータ
を主記憶に格納するための主記憶アドレスとする。そし
て、浮動小数点レジスタ群１０５の１つからデータを読
み出すが、読み出しを行うレジスタの物理浮動小数点レ
ジスタ番号は、変換回路１１２で以下のようにして求め
られる。

【０１３８】すなわち、命令中に指定された浮動小数点
レジスタ番号は、７ビットで表される論理浮動小数点レ
ジスタ番号ｒであり、ウィンドウスタートポインタレジ
スタ１１０の値をＦＷＳＴＰとして、前述した式
（２）、（３）に基づいて、＜ＦＷＳＴＰ，ｒ＞を計算
し、これを物理浮動小数点レジスタ番号とする。主記憶
アクセス制御部１０９は、前記主記憶アドレスをもとに
キャッシュ１０８を検索し、キャッシュ中に、主記憶３
０の該主記憶アドレスに格納されているデータの写しが
あれば、該データを前記読み出しデータに置き換える。
なければ、主記憶アクセス制御部は、キャッシュを操作
することなく、記憶制御ユニット２０経由で、主記憶３
０の前記主記憶アドレスに前記読み出しデータを格納す
る。このデータ転送動作開始後、汎用演算器１０４は、
汎用レジスタの値にインクリメント値を加える。

【０１３９】また、一般の浮動小数点命令、すなわち、
浮動小数点レジスタを用いる命令で、前記の浮動小数点
レジスタプリロード命令、浮動小数点レジスタポストス
トア命令を除く命令は、ウィンドウスタートポインタ有
効レジスタ１１１が“１”であると、命令中に示された
５ビットで表される論理浮動小数点レジスタ番号ｒを、
変換回路１１２で、ウィンドウスタートポインタレジス
タ１１０の値をＦＷＳＴＰとして、前述した式（２）、
（３）に基づいて、＜ＦＷＳＴＰ，ｒ＞で表わされる物
理浮動小数点レジスタ番号に変換し、この物理浮動小数
点レジスタ番号の示す物理浮動小数点レジスタを参照す
る。

【０１４０】浮動小数点レジスタを参照する命令の全て
は、ウィンドウスタートポインタ有効レジスタ１１１が
“１”であると、変換回路１１２により、論理浮動小数
点レジスタ番号−物理浮動小数点レジスタ番号変換を行
い、“０”であると、論理浮動小数点レジスタ番号−物
理浮動小数点レジスタ番号変換を行わず、命令で指定さ
れた論理浮動小数点レジスタ番号がそのまま物理浮動小
数点レジスタ番号になり、その物理浮動小数点レジスタ
番号の示す物理浮動小数点レジスタを参照する。

【０１４１】なお、ウィンドウスタートポインタ有効レ
ジスタ１１１、グローバルレジスタ本数モードレジスタ
１１８には、データ処理システムの制御情報を格納する
既存のレジスタの空きビットを割当てればよく、これら
のレジスタに値を格納する既存の命令を用いて値をセッ
トするものとする。

【０１４２】本発明の一実施例は、前述のようにウィン
ドウスタートポインタセット命令、浮動小数点レジスタ
プリロード命令、浮動小数点レジスタポストストア命令
が動作し、また、一般の浮動小数点命令（＝通常命令）
が、ウィンドウスタートポインタの制御の下で動作す
る。

【０１４３】前述した本発明の一実施例により、図９、
図１０に示すようなプログラムを実現することができ、
これにより、すでに説明したように、ベクトル計算を高
速に実行することができる。

【０１４４】ここで、本発明を適用する計算機が、ロー
ド命令またはストア命令と、演算命令とを並列に実行す
ることが可能な、すなわち、ロード命令とストア命令と
を同時に実行することができないスーパースカラプロセ
ッサであってもよい。すなわち、前述のスーパースカラ
プロセッサよりも低性能のスーパースカラプロセッサで
あってもよい。この場合、以下の点で前述と相違するこ
とになる。

【０１４５】命令レジスタ１０１には、複数の命令（こ
こでは２命令）が格納され、命令制御部１０２は、同時
に複数の命令（ここでは２命令）を解読実行することが
できるものとする。また、主記憶アクセス制御部１０９
は、ロード、ストアのうち、同時にはいずれか１つを実
行することができるものとする。このため、アドレス加
算器１０７は、ロード命令のアドレス加算、ストア命令
のアドレス加算のうち、同時には、いずれか１つを実行
することができるものとする。

【０１４６】ウィンドウスタートポインタセット命令、
浮動小数点レジスタプリロード命令、浮動小数点レジス
タポイントストア命令の動作は前述の場合と同一であ
る。

【０１４７】前述した本発明の一実施例によれば、ウィ
ンドウスタートポインタと命令中の浮動小数点レジスタ
番号とを変更することにより、命令中のある浮動小数点
レジスタ番号は、異なる物理浮動小数点レジスタ番号に
変換されるので、通常命令によってアドレス可能なレジ
スタの数よりも多い物理レジスタを、データ処理装置の
アーキテクチャを変えることなくアクセス可能とするこ
とができるので、図９、図１０に示すようなプログラム
を実現することができ、データ読み出し、レジスタのぶ
つかりによって命令の実行が待たされることによる処理
装置の性能の低下を防止することができ、プログラムの
高速な実行が可能である。

【０１４８】特に、前述した本発明の一実施例は、図
９、図１０に示すプログラムからも判る通り、命令列の
ループの繰返しが主となる科学技術計算等のベクトル計
算において、命令毎に使用するウィンドウを変更し、ｉ
番目の要素の処理を、第ｉ−ｎｋループにおける浮動小
数点プリロード命令によるオペランドベクトルの第ｉ要
素のロードと、第ｉループにおける演算、第ｉ＋ｎｍル
ープにおける浮動小数点ポストストア命令による結果格
納用ベクトルの第ｉ要素への演算結果のストアとにより
行うことによって（ｎｋ，ｎｍはプログラムで指定でき
る整数）、１つのデータに対するロード、演算、ストア
の処理の命令列上での距離を大きくすることができ、デ
ータの読み出し時間、演算実行時間の影響による性能低
下を防止することができる。

【０１４９】さらに、本発明の一実施例によれば、浮動
小数点レジスタプリロード命令と浮動小数点レジスタポ
ストストア命令とにより、命令中の浮動小数点レジスタ
番号により、データをロード／ストアする物理浮動小数
点レジスタ番号を自由に決めることができることによ
り、データ読み出し時間、演算時間の変化に対し、柔軟
に対応することができる。

【０１５０】さらに、本発明の一実施例によれば、ウィ
ンドウポインタレジスタ幅を変更することにより、ウィ
ンドウ刻み幅を自由に変更することができ、これによ
り、柔軟なプログラミングを行うことができ、グローバ
ルレジスタ本数ｍｇを可変にすることにより、様々な個
数のループインバリアントをもつアプリケ−ションに対
しても柔軟に対応することができる。

【０１５１】さらに、本発明の一実施例によれば、浮動
小数点レジスタプリロード命令と浮動小数点レジスタポ
ストストア命令が、物理浮動小数点レジスタ指定のため
に、浮動小数点レジスタ番号という１つの量のみを使用
しているので、プログラミングを容易に行うことができ
る。

【０１５２】

【発明の効果】以上説明したように本発明によれば、ウ
ィンドウスタートポインタを変更することにより、通常
命令中のある浮動小数点レジスタ番号を、異なる物理浮
動小数点レジスタ番号に変換することができるので、通
常命令によってアドレス可能な浮動小数点レジスタの数
よりも多い物理浮動小数点レジスタをデータ処理装置の
アーキテクチャを変えることなくアクセス可能にでき
る。

【０１５３】また、本発明によれば、浮動小数点レジス
タプリロード命令、浮動小数点レジスタポストストア命
令の浮動小数点レジスタ番号を変更することにより全物
理浮動小数点レジスタをアクセスすることができるの
で、データ読み出し、レジスタのぶつかりによって命令
の実行が待たされることによる性能低下を防止すること
ができ、プログラムを高速に実行することが可能であ
る。

【０１５４】特に、本発明によれば、命令列のループの
繰返しが主となる科学技術計算等のベクトル計算におい
て、命令毎に使用するウィンドウを変更し、ｉ番目の要
素の処理を、第ｉ−ｎｋループにおける浮動小数点プリ
ロード命令によるオペランドベクトルの第ｉ要素のロー
ドと、第ｉループにおける演算、第ｉ＋ｎｍループにお
ける浮動小数点ポストストア命令による結果格納用ベク
トルの第ｉ要素への演算結果のストアとにより行うこと
によって（ｎｋ，ｎｍはプログラムで指定できる整
数）、１つのデータに対するロード、演算、ストアの処
理の命令列上での距離を大きくすることができ、データ
の読み出し時間、演算実行時間の影響による性能低下を
防止することができ、処理の高速化を図ることができ
る。

【０１５５】また、本発明によれば、浮動小数点レジス
タプリロード命令と浮動小数点レジスタポストストア命
令とにより、命令中の浮動小数点レジスタ番号により、
データをロード／ストアする物理浮動小数点レジスタ番
号を自由に決めることができることにより、データ読み
出し時間、演算時間の変化に対し、柔軟に対応すること
ができる。

【０１５６】さらに、本発明によれば、ウィンドウポイ
ンタレジスタ幅を変更することにより、ウィンドウ刻み
幅を自由に変更することができ、これにより、柔軟なプ
ログラミングを行うことができ、グローバルレジスタ本
数ｍｇを可変にすることにより、様々な個数のループイ
ンバリアントをもつアプリケーションに対しても柔軟に
対応することができる。

【図面の簡単な説明】

【図１】本発明による図２で示す命令を実行するデータ
処理装置の一実施例を示す構成図である。

【図２】本発明によるウィンドウスタ−トポインタセッ
ト命令、浮動小数点レジスタプリロ−ド命令、浮動小数
点レジスタポストストア命令の一実施例を示す図であ
る。

【図３】本発明による論理浮動小数点レジスタ番号−物
理浮動小数点レジスタ番号変換の例を説明する図であ
る。

【図４】本発明の通常命令における論理浮動小数点レジ
スタ番号−物理浮動小数点レジスタ番号変換の例を説明
する図である。

【図５】本発明の通常命令における論理浮動小数点レジ
スタ番号−物理浮動小数点レジスタ番号変換の例を説明
する図である。

【図６】本発明の浮動小数点プリロード命令と浮動小数
点ポストストア命令とにおける論理浮動小数点レジスタ
番号−物理浮動小数点レジスタ番号変換の例を説明する
図である。

【図７】本発明の浮動小数点プリロード命令と浮動小数
点ポストストア命令とにおける論理浮動小数点レジスタ
番号−物理浮動小数点レジスタ番号変換の例を説明する
図である。

【図８】本発明で特に有効となるmodulo schedulingに
よりコーディングしたプログラムの例を説明する図であ
る。

【図９】ベクトル計算の一例であるベクトルとスカラと
の乗算のプログラムを本発明による命令を用いて書き直
したプログラムの例を示す図である。

【図１０】ベクトル計算の一例であるベクトルとスカラ
との乗算のプログラムを本発明による命令を用いて書き
直したプログラムの例を示す図である。

【図１１】ベクトル計算の一例であるベクトルとスカラ
との乗算の汎用計算機用プログラムの例を示す図であ
る。

【図１２】図１１のプログラムをループアンローリング
手法を用いて書き直したプログラムの例を示す図であ
る。

【符号の説明】

１０命令処理ユニット２０記憶制御ユニット３０主記憶１０１命令レジスタ１０２命令制御部１０３汎用レジスタ群１０４汎用演算器１０５物理浮動小数点レジスタ群１０６浮動小数点演算器１０７アドレス加算器１０８キャッシュ１０９主記憶アクセス制御部１１０ウィンドウスタートポインタレジスタ１１１ウィンドウスタートポインタ有効レジスタ１１２変換回路１１８グローバルレジスタ本数モードレジスタ

───────────────────────────────────────────────────── フロントページの続き (72)発明者稲上泰弘東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者藤井啓明東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開平４−92282（ＪＰ，Ａ) 特開昭54−16939（ＪＰ，Ａ) 特開平１−159731（ＪＰ，Ａ) 特開平２−217925（ＪＰ，Ａ) 特開昭62−286128（ＪＰ，Ａ) 特開平６−176053（ＪＰ，Ａ) 日経バイト，1988年３月，Ｎｏ．43, ｐ．130−141 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/30 - 9/355 G06F 9/40 - 9/42 G06F 12/00 - 12/06 G06F 17/16

Claims

(57)【特許請求の範囲】

【請求項１】主記憶と、それぞれが第１の長さのレジ
スタ指定フィールドを持つロード命令、ストア命令、及
び演算命令を、前記主記憶内に保持された主記憶データ
を用いて実行する命令処理ユニットとを備えるデータ処
理装置において、前記第１の長さのレジスタ指定フィー
ルドによってアドレス可能なレジスタの数より多い物理
レジスタと呼ばれるレジスタと、複数のビットから成る
ウィンドウスタートポインタレジスタと呼ばれるレジス
タと、命令中のレジスタ番号を物理レジスタ番号に変換
し、かつ、前記ウィンドウスタートポインタレジスタの
値によって前記変換のパターンを変える変換回路とを備
え、前記ウィンドウスタートポインタレジスタの値をセ
ットするためのウィンドウスタートポインタセット命令
と、第２の長さのレジスタ指定フィールドを持ち、命令
中のレジスタ指定フィールドに指定されたレジスタ番号
を、前記ウィンドウスタートポインタレジスタの値によ
って前記変換回路で物理レジスタ番号へ変換し、その物
理レジスタ番号の示す物理レジスタに主記憶データを格
納するレジスタプリロード命令と、前記第２の長さのレ
ジスタ指定フィールドを持ち、命令中のレジスタ指定フ
ィールドに指定されたレジスタ番号を、前記ウィンドウ
スタートポインタレジスタの値によって前記変換回路で
物理レジスタ番号へ変換し、その物理レジスタ番号の示
す物理レジスタから読み出したデータを主記憶に格納す
るレジスタポストストア命令とを設け、前記命令処理ユ
ニットは、前記ロード命令、ストア命令、及び演算命令
の実行時、命令中の前記第１の長さのレジスタ指定フィ
ールドに指定されたレジスタ番号を、前記ウィンドウス
タートポインタレジスタの値によって前記変換回路によ
り物理レジスタ番号へ変換し、この物理レジスタ番号の
示す物理レジスタを参照し、前記レジスタプリロード命
令、レジスタポストストア命令の実行時、命令中の前記
第２の長さのレジスタ指定フィールドに指定されたレジ
スタ番号を、前記ウィンドウスタートポインタレジスタ
の値によって前記変換回路により物理レジスタ番号へ変
換し、この物理レジスタ番号の示す物理レジスタを参照
することを特徴とするデータ処理装置。
【請求項２】前記命令中のレジスタ番号から前記物理
レジスタ番号への変換は、命令中のレジスタ番号の少な
くとも１つの、前記ウィンドウスタートポインタレジス
タの値によらずグローバルレジスタ番号と呼ばれる同一
の前記物理レジスタ番号への変換であることを特徴とす
る請求項１記載のデータ処理装置。
【請求項３】前記物理レジスタの本数からグローバル
レジスタ番号で番号づけられるグローバルレジスタと呼
ばれるレジスタの本数を減じた値をローカルレジスタ本
数、前記ウィンドウスタートポインタレジスタのビット
数をウィンドウスタートポインタレジスタ幅、前記ウィ
ンドウスタートポインタレジスタ幅以上のある整数値を
ポインタ幅最大値、前記ポインタ幅最大値から前記ウィ
ンドウスタートポインタレジスタ幅を減じた値を指数と
する２のべき乗をウィンドウ刻み幅と定義したとき、前
記レジスタプリロード命令、前記レジスタポストストア
命令、それぞれが前記の第１の長さのレジスタ指定フィ
ールドを持つロード命令、ストア命令、演算命令の命令
中のグローバルレジスタ番号で番号付けられるレジスタ
番号以外を示すレジスタ番号は、前記ウィンドウスター
トポインタレジスタの値と前記ウィンドウ刻み幅の積
に、命令中のレジスタ番号を加えた値であらわされる物
理レジスタ番号に変換されることを特徴とする請求項１
記載のデータ処理装置。
【請求項４】前記グローバルレジスタ番号で番号付け
られるレジスタの本数を表すグローバルレジスタ本数モ
ードレジスタを備え、該グローバルレジスタ本数モード
レジスタの値により前記変換回路の変換のパターンを変
更し、ソフトウエアにより前記グローバルレジスタ本数
モードレジスタに値をセットすることにより、命令中の
グローバルレジスタ番号で番号付けられるレジスタの本
数をソフトウエアで可変にすることを特徴とする請求項
３記載のデータ処理装置。
【請求項５】前記物理レジスタの本数からグローバル
レジスタ番号で番号づけられるグローバルレジスタと呼
ばれるレジスタの本数を減じた値をローカルレジスタ本
数、前記ウィンドウスタートポインタレジスタのビット
数をウィンドウスタートポインタレジスタ幅、前記ウィ
ンドウスタートポインタレジスタ幅以上のある整数値を
ポインタ幅最大値、前記ポインタ幅最大値から前記ウィ
ンドウスタートポインタレジスタ幅を減じた値を指数と
する２のべき乗をウィンドウ刻み幅と定義したとき、前
記レジスタプリロード命令、前記レジスタポストストア
命令、それぞれが前記の第１の長さのレジスタ指定フィ
ールドを持つロード命令、ストア命令、演算命令の命令
中のグローバルレジスタ番号で番号付けられるレジスタ
番号以外を示すレジスタ番号は、前記ウィンドウスター
トポインタレジスタの値と前記ウィンドウ刻み幅の積
に、命令中のレジスタ番号からグローバルレジスタの本
数を減じた値を、物理レジスタの本数からグローバルレ
ジスタの本数を減じた値を法として加えた値に、グロー
バルレジスタの本数を加えた値であらわされる物理レジ
スタ番号に変換されることを特徴とする請求項１記載の
データ処理装置。
【請求項６】前記レジスタプリロード命令は、主記憶
データの読み出し時、主記憶の内容の一部を一時的に保
持しておく緩衝記憶装置であるキャッシュに前記主記憶
データが登録されていなかった場合、前記キャッシュの
内容を変更せず、また、前記レジスタポストストア命令
は、主記憶へのデータの書き込み時、該当する主記憶ア
ドレスの主記憶データが前記キャッシュに登録されてい
なかった場合、前記キャッシュの内容を変更しないこと
を特徴とする請求項２ないし５のうち１記載のデータ処
理装置。
【請求項７】主記憶と、それぞれが５ビット長のレジ
スタ指定フィールドを持つロード命令、ストア命令、及
び演算命令を含む命令列を実行する命令処理ユニットと
を備えるデータ処理装置において、前記５ビット長のレ
ジスタ指定フィールドによってアドレス可能なレジスタ
の数より多い複数の物理レジスタと、複数のビットから
成るウインドウスタートポインタレジスタと、命令中の
レジスタ番号を物理レジスタ番号に変換し、かつ、前記
ウインドウスタートポインタレジスタの値によって前記
変換のパターンを変える変換回路とを備え、前記命令列
は、前記ウインドウスタートポインタレジスタの値をセ
ットするためのウインドウスタートポインタセット命令
と、７ビット長のレジスタ指定フィールドを持ち、該レ
ジスタ指定フィールドにより指定された物理レジスタに
主記憶から読み出したデータを格納するレジスタプリロ
ード命令と、前記７ビット長のレジスタ指定フィールド
を持ち、該レジスタ指定フィールドにより指定された物
理レジスタから読み出したデータを主記憶に格納するレ
ジスタポストストア命令とを含み、前記命令列の実行
時、命令中の前記５ビット長のレジスタ指定フィールド
または前記７ビット長のレジスタ指定フィールドに指定
されたレジスタ番号を、前記ウインドウスタートポイン
タレジスタの値に従って前記変換回路により物理レジス
タ番号へ変換し、該物理レジスタ番号の示す物理レジス
タを参照することを特徴とするデータ処理装置。