JP2023112584A

JP2023112584A - ベクトル命令処理方法

Info

Publication number: JP2023112584A
Application number: JP2022014467A
Authority: JP
Inventors: 英一郎川口; Eiichiro Kawaguchi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2022-02-01
Filing date: 2022-02-01
Publication date: 2023-08-14

Abstract

【課題】ベクトル命令処理の高速化を図ることができないこと。【解決手段】本発明のベクトル命令処理装置１００は、繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーション１１０に書き込む書き込み部１０１と、各リザベーションステーション１１０からそれぞれ発行されたベクトル命令を実行するベクトル実行部１０２と、を備える。【選択図】図１０

Description

本発明は、ベクトル命令処理方法、ベクトル命令処理装置、プログラムに関する。

典型的なベクトルプログラムの１ループでは、ループ内でベクトルレジスタをロード（スカラレジスタとの演算も含む）し、ベクトル演算を行い、その結果をメモリに書き戻す動作を行う。例えば、図１に示すようなプログラムでは、ベクトルロード命令を２命令実行して値を読み込み（５行目、１１行目）、その２つのベクトルレジスタの値をベクトル加算し（１２行目）、最後にその結果をベクトルストア命令で書き込んでいる（１３行目）。そして、この動作をループで回している。

図１で示したベクトルプログラムは、もっともシンプルな例であるが、実際には、図２に示すベクトルプログラムのように、複数のベクトルロード命令と、複数のベクトル演算命令を実行し、最後にその結果を書き込む、ということが多い。但し、ここでは説明を容易にするため、１１個のベクトル命令で１ループとしているが、より長いベクトルの命令列が１セットになされることがある。なお、図１及び図２のプログラムにおいて、ｖから始まるオペランドがベクトルレジスタであり、ｓから始まるオペランドがスカラレジスタであることとする。

このとき、以下の３つの理由により、パイプラインにバブル（隙間）が生じうる。
（１）ベクトルロードのレイテンシが長いため、メモリロードが終わるまで当該データを利用する演算が実行できない。
（２）演算も複数ＴＡＴを要するため、依存関係のある次の命令が即座に発行できない。
（３）ベクトルレジスタのリードポートの制限により、オペランドリードに時間を要するため即命令を実行できない。

具体的に、図２のプログラムで見ると、上記（１）は、２０行目、２２行目、２４行目、２６行目のベクトルロード命令が該当する。つまり、ベクトルロード命令では、メモリまでデータを読みに行くことがあるため、数十クロックサイクルの時間を要する場合がある。このとき、当該データを利用するベクトル演算命令も待たされることになる。また、その演算結果を書き込むベクトルストア命令（３０行目）も実行できないこととなる。また、上記（２）は、演算ＴＡＴであり、特に、複数クロックサイクル要する乗算（２３行目、２９行目）、積和演算（２７行目）、除算・剰余算（図２には無し）は、結果がでるまで時間を要するので、その結果を使う後続命令も待たされることになる。また、上記（３）は、リードポート制約であり、３オペランドを必要とする積和演算（２７行目）などでは、１クロックサイクルで読み出せないため、その分の遅れが生じる。

そして、上述したような問題、つまり、パイプライン上のバブル（隙間）を埋めるために、リザベーションステーションを用いたアウトオブオーダ発行、という技術がある。かかる技術では、通常、レジスタのリネーミング技術を併用し、レジスタ間の逆依存関係と出力依存関係も解消し、より多くのアウトオブオーダ発行を可能とする。その結果、パイプライン上のバブルを減らすことができる。一例として、図３に示すようなベクトル演算ユニット２では、リネーミングに関してはリネーミング制御回路２２で実施し、ベクトルリザベーションステーション２３でアウトオブオーダ発行を実現している。なお、関連する技術として、特許文献１に記載のベクトル命令間追い越し判定方法も開示されている。

特開２０１０－１９８４３９号公報

しかしながら、上述したようなリザベーションステーションの技術を用いたとしても、リザベーションステーションのエントリ数を超える命令発行を行うことができない。特に、上記問題（１）のようにベクトルロード命令のレイテンシも大きく、さらに他の２つの上記問題（２），（３）と合わせて、リザベーションステーションが発行できない命令でフルになることが多々あり、アウトオブオーダ発行できる命令数には限界がある。

ここで、リザベーションステーションのエントリ数を増やすことで、アウトオブオーダ発行可能な命令数が増えるため、上記問題を論理的に緩和することも考えられる。しかしながら、その場合には、多数のエントリからのアウトオブオーダ発行となり、このとき、多数のエントリから発行可能な命令を見つけるために論理回路を要することから、論理回路の遅延に影響が生じることとなる。このため、エントリ数の拡張には物理的な限界がある。

以上のことから、依然として、ベクトル命令処理の高速化を図ることができない、という問題がある。

このため、本発明の目的は、上述した課題を解決することができるベクトル命令処理方法、ベクトル命令処理装置、プログラムを提供することにある。

本発明の一形態であるベクトル命令処理方法は、
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込み、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行する、
という構成をとる。

また、本発明の一形態であるベクトル命令処理装置は、
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込む書き込み部と、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行するベクトル実行部と、
を備えた、
という構成をとる。

また、本発明の一形態であるベクトル命令処理システムは、
ベクトル命令を含む繰り返し実行されるループ間において前記ベクトル命令が依存関係にない当該ループを複数に分け、それぞれに固有の識別子を付与する変換装置を備えると共に、
複数に分けられた前記ループにそれぞれ付与された前記識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込む書き込み部と、各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行するベクトル実行部と、を備えたベクトル命令処理装置を備えた、
という構成をとる。

また、本発明の一形態であるプログラムは、
プロセッサに、
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込み、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行する、
処理を実行させる、
という構成をとる。

本発明は、以上のように構成されることにより、ベクトル命令処理の高速化を図ることができる。

本発明の背景技術を説明するための図である。本発明の背景技術を説明するための図である。本発明の背景技術を説明するための図である。本発明の実施形態１で例示するベクトルプログラムの一例を示す図である。本発明の実施形態１におけるベクトル命令処理システムの構成を示すブロック図である。図１に開示したベクトル命令処理装置の動作を示すフローチャートである。図１に開示したベクトル実行ユニットの構成の一例を示すブロック図である。本発明の実施形態２におけるベクトル命令処理装置の構成を示すブロック図である。本発明の実施形態２におけるベクトル命令処理方法の動作を示すフローチャートである。本発明の実施形態３におけるベクトル命令処理装置の構成を示すブロック図である。本発明の実施形態３におけるベクトル命令処理方法の動作を示すフローチャートである。

＜実施形態１＞
本発明の第１の実施形態を、図４乃至図７を参照して説明する。

図４は、本発明におけるベクトル命令処理システムを構成するコンパイラ１０によって生成されたベクトルプログラムの一例を示している。このプログラムは、上述した図２が元となっており、かかるプログラムは、ベクトル命令を含む繰り返し実行されるループを構成している。そして、図２に示すプログラムでは、ベクトルレジスタの依存関係は１ループ内に収まっている。すなわち、ループの処理は、次のループに対しての依存関係がなく、ループ内でベクトル処理が独立している。このような場合、各ループの処理を並列化することが可能である。

このため、本実施形態におけるコンパイラ１０は、ベクトルプログラム内のループごとにベクトル処理が独立している場合に、図４に示すように、ループを複数に分割し、それぞれにスレッド番号を付与する。具体的に、図４の例では、ループを２つに分割し、１つ目のループにスレッド０番（＃０）、２つ目のループにスレッド１番（＃１）を付与している。このとき、各ループ内の各ベクトル命令にもスレッド番号（＃０，＃１）を付与する。但し、スレッド番号は、分割したループを区別して識別可能な固有の識別子であれば、いかなる情報であってもよい。なお、コンパイラ１０は、ベクトルプログラムのループを２つに分割することに限らず、４つや８つなど、いかなる数に分割してもよい。また、ここでは、上述したスレッド番号を付与する処理は、コンパイラ１０によって実行される場合を例示したが、アセンブラなどのいかなるソフトウェアや変換装置によって実行されてもよい。

ここで、本発明で並列化するのはベクトル演算処理であるため、スカラレジスタの並列化の解決は別に行う必要がある。たとえば、図４に示すプログラムの２０行目、２４行目、２６行目、３０行目のスカラレジスタがループごと独立した値を必要とする場合には、それぞれのスレッド毎で別のスカラレジスタを指定する必要がある。図４の例では、それを５行目から８行目で解決している。なお、２２行目と２８行目のスカラレジスタをループ間で共通と仮定した場合には、ループごとに独立した値を定義する必要はない。

次に、図４に示すようなベクトルプログラムを実行するベクトル命令処理装置の構成を説明する。図５に示すように、ベクトル命令処理装置は、ベクトル演算ユニット２と、当該ベクトル演算ユニット２にベクトル命令を供給するスカラ演算ユニット１と、を備えて構成されている。

スカラ演算ユニット１は、プログラム命令列を最初に処理するユニットである。演算ユニット１は、命令をデコードしてスカラ命令の実行も行うが、デコードした命令がベクトル命令の場合には、その命令をベクトル演算ユニット２に送り、以降の処理を委ねる。

ベクトル演算ユニット２は、ベクトル命令バッファ２１と、リネーミング制御回路２２と、書き込み制御回路２５と、ベクトルリザベーションステーション２３Ａ，２３Ｂと、発行調停回路２６と、ベクトル実行ユニット２４と、を備える。そして、本実施形態では、ベクトルリザベーションステーション２３Ａ，２３Ｂは、スレッド＃０とスレッド＃１とにそれぞれ対応する２つが装備されている。但し、ベクトルリザベーションステーションは、２つであることに限定されず、さらに多く装備されていてもよい。なお、ベクトル演算ユニット２の各構成は、電子回路にて構成されていてもよく、プロセッサがプログラムを実行することで実現されてもよい。以下、各構成について詳述する。

ベクトル命令バッファ２１は、スカラ演算ユニット１から受けとった命令を蓄えておくバッファである。

リネーミング制御回路２２（リネーミング部）は、スカラ演算ユニット１から命令を受け取ると、ベクトル命令バッファ２１と協調し、ベクトルレジスタのリネーミング処理を行う。このとき、リネーミング制御回路２２は、異なるスレッド番号が付与された複数の分割されたループ間においてベクトルレジスタのリネーミング処理を行う。

書き込み制御回路２５（書き込み部）は、リネーミング制御回路２２からの指示でベクトルリザベーションステーション（リザベーションステーション）への命令の書き込みを指示するが、このとき、各ループに付与されたスレッド番号を利用して書き込み先を決める。本実施形態では、書き込み制御回路２５は、スレッド番号＃０の命令をベクトルリザベーションステーション＃０（２３Ａ）に書き込み、スレッド番号＃１の命令を、ベクトルリザベーションステーション＃１（２３Ｂ）に書き込む。このように、書き込み制御回路２５は、ループを複数に分けて、ループ毎に対応するそれぞれ異なるベクトルリザベーションステーション２３Ａ，２３Ｂに書き込みこととなる。なお、本実施形態では、２つのベクトルリザベーションステーション２３Ａ，２３Ｂを設けている場合を例示しているが、さらに多くのベクトルリザベーションステーションを設けてもよい。

ここで、ベクトルリザベーションステーション＃０（２３Ａ）、ベクトルリザベーションステーション＃１（２３Ｂ）自体は、複数個設けられていることを除いては、通常のリザベーションステーションと同様である。つまり、ベクトルリザベーションステーション２３Ａ，２３Ｂは、アウトオブオーダ発行機能を備え、発行できる状態（リードオペランドがすべてそろった時）にある命令群から古い命令を優先に発行する命令を決定する。発行できる命令が何もないときには発行はできない。なお、ベクトルリザベーションステーション＃０とベクトルリザベーションステーション＃１とにおいて論理的には同じ番号のベクトルレジスタを参照する命令が存在するが、この段階では、上述したようにリネーミング制御回路２２によって既にリネーミング済みのレジスタを参照するため、物理的なレジスタの重複はない。

発行調停回路２６（調停部）は、複数のベクトルリザベーションステーション２３Ａ，２３Ｂからの発行要求を調停する回路である。２つ以上の発行要求があったときには、ラウンドロビンで調停し、調停されたほうのベクトルリザベーションステーション２３Ａ，２３Ｂからの発行を許可する。

ベクトル実行ユニット２４（ベクトル実行部）では、発行調停回路２６から発行されたベクトル命令を処理する。これは通常のベクトル実行ユニットであり、ベクトルロードストア命令の実行、ベクトル演算命令の実行を行う。

次に、上述したベクトル命令処理装置の動作を、図６のフローチャートを参照して説明する。
ステップＳ１：スカラ演算ユニットよりベクトル命令発行
スカラ演算ユニット１はベクトル命令をデコードすると、命令をベクトル演算ユニット２に対して発行する。
ステップＳ２：ベクトル命令バッファに命令格納
ベクトル演算ユニット２は、スカラ演算ユニット１より受理したベクトル命令をベクトル命令バッファ２１に格納する。ベクトル命令バッファ２１はＦＩＦＯである。
ステップＳ３：制御回路にてレジスタをリネーミング
リネーミング制御回路２２は、ベクトル命令バッファ２１より先頭の命令を取り出し、レジスタのリネーミングを行う。

ステップＳ４：スレッド番号に応じてリザベーションステーションに書き込み
ベクトル命令バッファ２１から取り出されたリネーミング済みの命令を、書き込み制御回路２５でどちらのリザベーションステーション２３Ａ，２３Ｂに格納するかを判定する。判定は、コンパイラ１０等のソフトウェアがループそれぞれに付与したスレッド番号を使って行う。
ステップＳ５－１，Ｓ５－２：ベクトルリザベーションステーション＃０，＃１にて発行エントリを検出
各ベクトルリザベーションステーション＃０（２３Ａ），＃１（２３Ｂ）において、発行可能な命令を検出し、発行可能なベクトル命令がある場合には、発行調停回路２６に発行要求を行う。
ステップＳ６：発行調停回路にて発行エントリを決定
発行調停回路２６が、２つの（複数の）ベクトルリザベーションステーション２３Ａ，２３Ｂからの発行要求の調停を行う。調停はラウンドロビンとする。
ステップＳ７実行ユニットにてメモリアクセスかベクトル演算を実行
ベクトル実行ユニット２４にて、発行調停回路２６から発行されたベクトル命令の実行を行う。ベクトル実行ユニット２４では、ベクトルロードストア処理、ベクトル演算処理が行われる。
以上、ステップＳ１～Ｓ７までを、一つ目の命令に着目する形で説明したが、実際は毎クロックサイクルごとに連続して動作することとなり、各ステップが同時にパイプライン動作している。

以上のように、本実施形態では、まず、コンパイラ１０などのソフトウェアによって、分割したループ毎にスレッド番号＃などの固有の識別子を付与している。そして、ベクトル演算ユニット２などのハードウェアに、複数のベクトルリザベーションステーション２３Ａ，２３Ｂを設置し、スレッド番号＃に応じてループのベクトル命令を各ベクトルリザベーションステーション２３Ａ，２３Ｂに振り分けている。これにより、ループ間の並列度を向上させ、ベクトル実行ユニットの充足率をあげることが可能となり、ベクトル演算ループの高速化を図ることができる。

ここで、例えば、一つのリザベーションステーションを３２エントリとすると、３２エントリのリザベーションステーションが２セットあることになる。すると、一つのリザベーションステーションで６４エントリにするよりも検索がしやすく、論理遅延の問題も回避することができる。

そして、各リザベーションステーション２３Ａ，２３Ｂから各スレッドにおける最優先の命令が取り出されるので、これにより、これまで回避できなかったリザベーションステーションのつまりを防止することができ、ベクトル実行ユニットへの命令供給量を向上させることが可能となる。

ここで、本発明の応用として、ベクトルレジスタのリードポートずらしをスレッド間で実施することで、リードポートを有効活用し、ベクトル命令のスループットをさらに上げることが考えられる。このことについて図７を参照して説明する。

通常、ベクトル実行ユニット２４内において、ベクトル命令によるベクトルレジスタのリードポートは、図７に示すように構成されている。ここでは、ベクトル実行ユニット２４が、３２個のＶＰＰ（ＶＰＰ０～ＶＰＰ３１）を持っていると仮定する。ＶＰＰ０（３２個の繰り返しなので、他のＶＰＰも同様の構成である）は、ベクトルマスクレジスタ群ＶＭ（ＶＭ０～ＶＭ７）、ベクトルレジスタ群ＶＲ（ＶＲ０～ＶＲ７）、Ｘ－ＢＡＲ（クロスバ）、各種演算器（ＶＦＭＡ、ＶＡＬＵ，ＶＲＣＰ，ＶＰＰＳＰ）を保持する。ベクトルレジスタ群ＶＲは、通常ＶＰＰ０のＶＲ０から使われ、次がＶＰＰ１のＶＲ０・・・と進み、合計２５６のベクトルレジスタのリードポートが並んでいる（最大ＶＬ長を２５６と仮定する）。ＶＬ長（ＶｅｃｔｏｒＬｅｎｇｔｈ長）が２５６のときは、これらのポートがすべて使われるが、ＶＬ長が半分の１２８のときには、全ＶＰＰのうちＶＲ４～ＶＲ７は空いていることになる。

上述したような構成の特徴に本発明を適用する。すなわちＶＬ長が半分の１２８のときには（正確には半分以下の時には）、スレッド＃０のベクトルレジスタはＶＲ０，１，２，３を利用することとし、スレッド＃１のベクトルレジスタはＶＲ４，５，６，７を利用することにする。これにより、本来はどちらもＶＲ０，１，２，３のレジスタを使っていたはずの命令のアクセス先が分散されることになる。分散されることによりリードポート競合がなくなり、同時に２つのベクトル命令を発行できるようになり、さらなる性能の向上を図ることができる。

＜実施形態２＞
次に、本発明の第２の実施形態を、図８乃至図９を参照して説明する。図８は、本実施形態におけるベクトル命令処理装置の構成を示すブロック図であり、図９は、本実施形態におけるベクトル命令処理方法の動作を示すフローチャートである。

図８では、図５と比較して、発行調停回路２６Ａとベクトル実行ユニット２４Ａの間に２系統のパスがある点で異なる。発行調停回路２６Ａは、ＶＬ長が１２８以下だった場合に、どちらか一方のリザベーションステーションからの発行ではなく、両方のリザベーションステーション２３Ａ，２３Ｂからの命令発行を行う。ベクトル実行ユニット２４Ａは、ＶＬ長が１２８以下だった場合にスレッド番号に応じて、レジスタのリードポートを変え、前述のようにＶＲ０～ＶＲ３とＶＲ４～ＶＲ７のそれぞれを使うこととする。このように分割することで、空きのリードポートを有効に活用できるための２命令同時の処理を可能とする。

図９を用いて、動作の説明をする。ステップＳ１からＳ６までは前述の実施例と同様である。ステップＳ６でどちらかのリザベーションステーション２３Ａ，２３Ｂを調停したのちに、当該命令のベクトル長を確認する（ステップＳＡ１）。その結果、ＶＬ長が１２８以下であれば（ステップＳＡ１でＹｅｓ）、調停されなかった側のベクトル命令も発行し、つまり、両リザベーションステーション２３Ａ，２３Ｂからベクトル命令を発光する（ステップＳＡ２－１）。ＶＬ長が１２８を超える場合には（ステップＳＡ１でＮｏ）、同時発行ができないので、前述の実施例と同様に調停側命令のみを発行する（ステップＳＡ２－２）。

以上のように、本発明では、ループに含まれるベクトル命令がループ毎に複数のリザベーションステーションから発行可能となるため、ベクトル命令処理の高速化を図ることができる。

＜実施形態３＞
次に、本発明の第３の実施形態を、図１０乃至図１１を参照して説明する。図１０は、本実施形態におけるベクトル命令処理装置の構成を示すブロック図であり、図１１は、本実施形態におけるベクトル命令処理方法の動作を示すフローチャートである。なお、本実施形態では、実施形態１で説明したベクトル命令処理装置及びベクトル命令処理方法の構成の概略を示している。

図１０に示すように、本実施形態におけるベクトル命令処理装置１００は、繰り返し実行されるループに含まれるベクトル命令を、ループ毎に対応するそれぞれ異なるリザベーションステーション１１０に書き込む書き込み部１０１と、各リザベーションステーション１１０からそれぞれ発行されたベクトル命令を実行するベクトル実行部１０２と、を備える。なお、上記書き込み部１０１と、ベクトル実行部１０２とは、ベクトル命令処理装置１００がプログラムを実行することで実現されてもよい。

そして、上記構成のベクトル命令処理装置１００は、図１１に示すように、ベクトル命令処理方法として、繰り返し実行されるループに含まれるベクトル命令を、ループ毎に対応するそれぞれ異なるリザベーションステーション１１０に書き込み（ステップＳ１０１）、各リザベーションステーション１１０からそれぞれ発行されたベクトル命令を実行する（ステップＳ１０２）。

以上のように、本発明では、ループに含まれるベクトル命令がループ毎に複数のリザベーションステーションで並列実行されるため、ベクトル命令処理の高速化を図ることができる。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるベクトル命令処理方法、ベクトル命令処理装置、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込み、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行する、
ベクトル命令処理方法。
（付記２）
付記１に記載のベクトル命令処理方法であって、
前記ループ間において前記ベクトル命令が依存関係にない当該ループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
（付記３）
付記１又は２に記載のベクトル命令処理方法であって、
前記ループ間において前記ベクトル命令が依存関係にない当該ループ毎にそれぞれ付与された固有の識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
（付記４）
付記１乃至３のいずれかに記載のベクトル命令処理方法であって、
前記ループ間において前記ベクトル命令が依存関係にない当該ループを複数に分け、それぞれに固有の識別子を付与し、
複数に分けられた前記ループにそれぞれ付与された前記識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を、当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
（付記５）
付記１乃至４のいずれかに記載のベクトル命令処理方法であって、
各前記リザベーションステーションからの前記ベクトル命令の発行要求を調停し、調停された前記リザベーションステーションからの前記ベクトル命令の発行を許可する、
ベクトル命令処理方法。
（付記６）
付記１乃至５のいずれかに記載のベクトル命令処理方法であって、
各前記リザベーションステーションに書き込まれる複数の前記ループ内の前記ベクトル命令のリネーミング処理を行い、
リネーミング処理を行った各前記ループ内の前記ベクトル命令をそれぞれ各前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
（付記７）
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込む書き込み部と、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行するベクトル実行部と、
を備えたベクトル命令処理装置。
（付記７．１）
付記７に記載のベクトル命令処理装置であって、
前記書き込み部は、前記ループ間において前記ベクトル命令が依存関係にない当該ループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理装置。
（付記７．２）
付記７又は７．１に記載のベクトル命令処理装置であって、
前記書き込み部は、前記ループ間において前記ベクトル命令が依存関係にない当該ループ毎にそれぞれ付与された固有の識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理装置。
（付記７．３）
付記７乃至７．２のいずれかに記載のベクトル命令処理装置であって、
各前記リザベーションステーションからの前記ベクトル命令の発行要求を調停し、調停された前記リザベーションステーションからの前記ベクトル命令の発行を許可する調停部を備えた、
ベクトル命令処理装置。
（付記７．４）
付記７乃至７．３のいずれかに記載のベクトル命令処理装置であって、
各前記リザベーションステーションに書き込まれる複数の前記ループ内の前記ベクトル命令のリネーミング処理を行うリネーミング部を備え、
前記書き込み部は、リネーミング処理を行った各前記ループ内の前記ベクトル命令をそれぞれ各前記リザベーションステーションに書き込む、
ベクトル命令処理装置。
（付記８）
ベクトル命令を含む繰り返し実行されるループ間において前記ベクトル命令が依存関係にない当該ループを複数に分け、それぞれに固有の識別子を付与する変換装置を備えると共に、
複数に分けられた前記ループにそれぞれ付与された前記識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込む書き込み部と、各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行するベクトル実行部と、を備えたベクトル命令処理装置を備えた、
ベクトル命令処理システム。
（付記９）
プロセッサに、
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込み、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行する、
処理を実行させるためのプログラム。

なお、上記プログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

１スカラ演算ユニット
２ベクトル演算ユニット
１０コンパイラ
２１ベクトル命令バッファ
２２リネーミング制御回路
２３Ａ，２３Ｂベクトルリザベーションステーション
２４ベクトル実行ユニット
２５書き込み制御回路
２６発行調停回路

Claims

繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込み、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行する、
ベクトル命令処理方法。
請求項１に記載のベクトル命令処理方法であって、
前記ループ間において前記ベクトル命令が依存関係にない当該ループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
請求項１又は２に記載のベクトル命令処理方法であって、
前記ループ間において前記ベクトル命令が依存関係にない当該ループ毎にそれぞれ付与された固有の識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
請求項１乃至３のいずれかに記載のベクトル命令処理方法であって、
前記ループ間において前記ベクトル命令が依存関係にない当該ループを複数に分け、それぞれに固有の識別子を付与し、
複数に分けられた前記ループにそれぞれ付与された前記識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を、当該ループ毎に対応するそれぞれ異なる前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
請求項１乃至４のいずれかに記載のベクトル命令処理方法であって、
各前記リザベーションステーションからの前記ベクトル命令の発行要求を調停し、調停された前記リザベーションステーションからの前記ベクトル命令の発行を許可する、
ベクトル命令処理方法。
請求項１乃至５のいずれかに記載のベクトル命令処理方法であって、
各前記リザベーションステーションに書き込まれる複数の前記ループ内の前記ベクトル命令のリネーミング処理を行い、
リネーミング処理を行った各前記ループ内の前記ベクトル命令をそれぞれ各前記リザベーションステーションに書き込む、
ベクトル命令処理方法。
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込む書き込み部と、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行するベクトル実行部と、
を備えたベクトル命令処理装置。
ベクトル命令を含む繰り返し実行されるループ間において前記ベクトル命令が依存関係にない当該ループを複数に分け、それぞれに固有の識別子を付与する変換装置を備えると共に、
複数に分けられた前記ループにそれぞれ付与された前記識別子に基づいて、各前記ループにそれぞれ含まれる前記ベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込む書き込み部と、各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行するベクトル実行部と、を備えたベクトル命令処理装置を備えた、
ベクトル命令処理システム。
プロセッサに、
繰り返し実行されるループに含まれるベクトル命令を、当該ループ毎に対応するそれぞれ異なるリザベーションステーションに書き込み、
各前記リザベーションステーションからそれぞれ発行された前記ベクトル命令を実行する、
処理を実行させるためのプログラム。