JP3289685B2

JP3289685B2 - ベクトル演算方法

Info

Publication number: JP3289685B2
Application number: JP26083598A
Authority: JP
Inventors: 賢橋本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-08-31
Filing date: 1998-08-31
Publication date: 2002-06-10
Anticipated expiration: 2018-08-31
Also published as: JP2000076224A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はベクトル演算機能を
有するコンピュータ上で配列に対する演算をベクトル演
算により実行する方法に関し、特に同種の複数のベクト
ル演算を一括して実行するベクトル演算方法に関する。

【０００２】

【従来の技術】ベクトル演算機能を有するコンピュータ
は、幾つかのベクトルレジスタと、加算や乗算などの演
算種別毎のベクトル演算器とを備えており、科学技術計
算などに多く現れる配列に対する繰り返し演算を高速に
実行することができる。

【０００３】例えば、Ａ（：）＝Ｂ（：）＋Ｃ（：） …（１）（但し、配列Ａ，Ｂ，Ｃの要素の範囲は１〜ｎ）という
配列どうしの加算は、ベクトル演算を用いると、以下の
４ステップで実行できる。１．配列Ｂの各要素を、メモリ上からベクトルレジスタ
Ｂ（Ｖｂ）に複写する。２．配列Ｃの各要素を、メモリ上からベクトルレジスタ
Ｃ（Ｖｃ）に複写する。３．ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを実行する。４．ベクトルレジスタＡ（Ｖａ）の各要素を、メモリ上
の配列Ａに複写する。

【０００４】ここで、１，２，４の各ステップでは、メ
モリ上で連続的に配置されているｎ個の配列要素とベク
トルレジスタとの間の複写を一括して行う複写命令が使
用される。

【０００５】また、科学技術計算などの分野において
は、配列の数や演算の種類が等しいベクトル演算を連続
して実行する場合がある。この場合も従来は、各演算毎
に前記（１）式の場合と同様な手順を繰り返していた。
以下に、同種のベクトル演算が連続する幾つかの例と、
その場合の従来の演算方法とを示す。

【０００６】例１Ａ（：）＝Ｂ（：）＋Ｃ（：） …（２−１）Ｄ（：）＝Ｅ（：）＋Ｆ（：） …（２−２）（但し、配列Ａ，Ｂ，Ｃの要素の範囲は１〜ｎ配列Ｄ，Ｅ，Ｆの要素の範囲は１〜ｍ）これは、配列Ｂと配列Ｃとの要素どうしの和を配列Ａの
要素とする加算式（２−１）に続けて、配列Ｅと配列Ｆ
との要素どうしの和を配列Ｄの要素とする加算式（２−
２）を実行する例である。

【０００７】図７は実行時にメモリ上に割り付けられた
配列Ａ〜Ｆを示す。各配列Ａ〜Ｆは、同図に示すように
メモリ上の連続した領域Ｅ１〜Ｅ６に割り付けられてい
る。

【０００８】図８は、前記の２つの式（２−１），（２
−２）をベクトル演算を用いて実行する場合の従来の手
順を示すフローチャートであり、以下のステップから構
成される。ステップＳ２１；配列Ｂの各要素をメモリ上からベクト
ルレジスタＢ（Ｖｂ）に複写する。ステップＳ２２；配列Ｃの各要素をメモリ上からベクト
ルレジスタＣ（Ｖｃ）に複写する。ステップＳ２３；ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを
実行する。ステップＳ２４；ベクトルレジスタＡ（Ｖａ）の各要素
をメモリ上の配列Ａに複写する。ステップＳ２５；配列Ｅの各要素をメモリ上からベクト
ルレジスタＢ（Ｖｂ）に複写する。ステップＳ２６；配列Ｆの各要素をメモリ上からベクト
ルレジスタＣ（Ｖｃ）に複写する。ステップＳ２７；ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを
実行する。ステップＳ２８；ベクトルレジスタＡ（Ｖａ）の各要素
をメモリ上の配列Ｄに複写する。

【０００９】例２ＤＯＩ＝１，１₁，１₂ Ａ（：，Ｉ）＝Ｂ（：，Ｉ）＋Ｃ（：，Ｉ） …（３−１）Ｄ（：，Ｉ）＝Ｅ（：，Ｉ）＋Ｆ（：，Ｉ） …（３−２）ＥＮＤＤＯ（但し、２次元配列Ａ，Ｂ，Ｃの１次元目の添字の範囲
は１〜ｎ、２次元目の添字の範囲は１〜１₁、２次元配
列Ｄ，Ｅ，Ｆの１次元目の添字の範囲は１〜ｍ、２次元
目の添字の範囲は１〜１₁で、１₁≧１₂≧１とする）このＤＯループは、配列Ｂと配列Ｃの２次元目の添字が
１，１＋１₂，１＋２×１₂，…となる要素どうしの和
を配列Ｃの２次元目の添字が１，１＋１₂，１＋２×１
₂，…となる要素とする計算式（３−１）と、配列Ｅと
配列Ｆの２次元目の添字が１，１＋１₂，１＋２×
１₂，…となる要素どうしの和を配列Ｄの２次元目の添
字が１，１＋１₂，１＋２×１₂，…となる要素とする
計算式（３−２）とを実行する例である。

【００１０】図９は実行時にメモリ上に割り付けられた
配列Ａ〜Ｆを示す。各配列Ａ〜Ｆは、同図に示すように
メモリ上の連続した領域Ｅ１〜Ｅ６に割り付けられてい
る。

【００１１】図１０は、前記のＤＯループをベクトル演
算を用いて実行する場合の従来の手順を示すフローチャ
ートであり、以下のステップから構成される。ステップＳ３１；ループ制御変数Ｉに１を代入する。ステップＳ３２；Ｉ＞１₁ならば処理を終了し、そうで
ないならステップＳ３３に分岐する。ステップＳ３３；配列Ｂの各要素Ｂ（１，Ｉ）〜Ｂ
（ｎ，Ｉ）をメモリ上からベクトルレジスタＢ（Ｖｂ）
に複写する。ステップＳ３４；配列Ｃの各要素Ｃ（１，Ｉ）〜Ｃ
（ｎ，Ｉ）をメモリ上からベクトルレジスタＣ（Ｖｃ）
に複写する。ステップＳ３５；ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを
実行する。ステップＳ３６；ベクトルレジスタＡ（Ｖａ）の内容を
メモリ上の配列Ａの各要素Ａ（１，Ｉ）〜Ａ（ｎ，Ｉ）
に複写する。ステップＳ３７；配列Ｅの各要素Ｅ（１，Ｉ）〜Ｅ
（ｍ，Ｉ）をメモリ上からベクトルレジスタＢ（Ｖｂ）
に複写する。ステップＳ３８；配列Ｆの各要素Ｆ（１，Ｉ）〜Ｆ
（ｍ，Ｉ）をメモリ上からベクトルレジスタＣ（Ｖｃ）
に複写する。ステップＳ３９；ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを
実行する。ステップＳ３Ａ；ベクトルレジスタＡ（Ｖａ）の内容を
メモリ上の配列Ｄの各要素Ｄ（１，Ｉ）〜Ｄ（ｍ，Ｉ）
に複写する。ステップＳ３Ｂ；Ｉに１₂を加算し、ステップＳ３２に
戻る。

【００１２】なお、ベクトル演算機能を有するコンピュ
ータに関しては、例えば「新版情報処理ハンドブック」
（株式会社オーム社，平成７年１１月２５日発行）の第
３編，第６章の『ベクトル計算機』に詳しい解説があ
る。

【００１３】

【発明が解決しようとする課題】上述したように、配列
の数や演算の種類が等しい複数の計算式をベクトル演算
を用いて実行する場合、従来は、各計算式毎にメモリ上
の配列をベクトルレジスタへ複写する処理、ベクトル演
算命令を実行する処理、ベクトルレジスタの内容をメモ
リへ複写する処理を繰り返している。このため、特に要
素数の少ない配列に対する演算の場合には、ベクトル演
算命令を実行する前にメモリ上の配列をベクトルレジス
タに複写するのにかかる時間と、ベクトル演算命令で得
られた値をベクトルレジスタからメモリ上の配列に複写
するのにかかる時間とが、ベクトル演算命令自身の所要
時間に比べて相対的に大きくなってしまい、ベクトル演
算の高速性が十分に活かせないという問題点があった。

【００１４】そこで本発明の目的は、配列の数や演算の
種類が等しい複数の計算式をベクトル演算を用いて実行
する際に必要となる、メモリとベクトルレジスタ間の複
写回数およびベクトル演算命令の実行回数を削減し、処
理速度を向上させることにある。

【００１５】

【課題を解決するための手段】本発明は、各々独立して
計算可能な複数の計算式であって、各計算式に含まれる
配列が全て１次元配列でその数および演算の種類が同じ
であり且つ複数の計算式の左辺に現れる配列どうし及び
右辺の同じ位置（同じ項）に現れる配列どうしの要素数
の和がコンピュータの保有するベクトルレジスタのサイ
ズ以下である複数の計算式や、各々独立して計算可能な
複数の計算式をループ内に含むＤＯループであって、各
計算式に含まれる配列が全て同じ次元数の多次元配列で
その数および演算の種類が同じであり且つ複数の計算式
の左辺に現れる配列どうし及び右辺の同じ位置に現れる
配列どうしのループの１回の繰り返し当たりの要素数の
和がコンピュータの保有するベクトルレジスタのサイズ
以下であるＤＯループ中の複数の計算式などは、ベクト
ル演算を用いて実行する場合、１組のベクトルレジスタ
でまとめて処理できること、同じベクトルレジスタで処
理可能な各計算式中の配列要素をメモリ上で連続するよ
うに配置しておくことで１度の複写命令で一括してベク
トルレジスタに複写したり、その逆にメモリ上に複写で
きることに着目してなされたものであり、そのような複
数の計算式における左辺に現れる配列どうし及び右辺の
同じ位置に現れる配列どうしをそれぞれ組にして、同じ
組の配列をメモリ上の連続した領域に割り当てる第１の
ステップと、前記複数の計算式の右辺の同じ位置に現れ
る配列どうしの組毎に１つの入力用のベクトルレジスタ
を割り当て、各組の配列を前記メモリ上の連続した領域
から前記入力用のベクトルレジスタに複写命令によって
複写する第２のステップと、前記入力用のベクトルレジ
スタに複写された配列に対する演算を前記計算式の演算
の種類に対応するベクトル演算器で実行し、その演算結
果を出力用のベクトルレジスタに格納する第３のステッ
プとを含むことを特徴とする。

【００１６】また、前記出力用のベクトルレジスタに格
納された演算結果を、前記複数の計算式の左辺に現れる
配列どうしの組に割り当てられた前記メモリ上の連続し
た領域に複写命令によって複写する第４のステップを含
むことを特徴とする。

【００１７】

【発明の実施の形態】次に本発明の実施の形態の例につ
いて図面を参照して詳細に説明する。

【００１８】図１は本発明のベクトル演算方法を実施す
るコンピュータの一例を示すブロック図である。この例
のコンピュータは、ＣＰＵ１と、メモリ（主記憶）２
と、ローダ３と、記憶装置４，５と、コンパイラ６とを
備えている。

【００１９】ＣＰＵ１は、ベクトル演算機能を有するＣ
ＰＵであり、ベクトルレジスタセット１１と、ベクトル
加算器１２およびベクトル乗算器１３と、データ転送部
１４と、命令解釈部１５とを含んでいる。

【００２０】ベクトルレジスタセット１１は、複数のベ
クトルレジスタＡ（Ｖａ）、Ｂ（Ｖｂ）、Ｃ（Ｖｃ）、
…を備えている。各々のベクトルレジスタのサイズ（ベ
クトル長）はＬである。

【００２１】ベクトル加算器１２は、ベクトルレジスタ
セット１１中の任意の２つのベクトルレジスタから供給
されるデータを加算し、その加算結果をベクトルレジス
タセット１１中の他の１つのベクトルレジスタに格納す
る処理を、ベクトル乗算器１３は、ベクトルレジスタセ
ット１１中の任意の２つのベクトルレジスタから供給さ
れるデータを乗算し、その乗算結果をベクトルレジスタ
セット１１中の他の１つのベクトルレジスタに格納する
処理を、それぞれ司る。

【００２２】データ転送部１４は、複写命令に従って、
メモリ２上の連続する領域に存在するデータをベクトル
レジスタセット１１中の任意のベクトルレジスタに複写
したり、その反対に、任意のベクトルレジスタに格納さ
れた内容をメモリ２上の連続する領域に複写する手段で
ある。

【００２３】命令解釈部１５は、メモリ２からベクトル
演算命令，複写命令等の命令コードをフェッチし、解読
して、データ転送部１４，ベクトルレジスタセット１
１，ベクトル加算器１２およびベクトル乗算器１３を制
御する手段である。

【００２４】なお、ＣＰＵ１はベクトル演算機能以外に
スカラ演算機能も有しているが、本発明の動作と直接関
係しないため、図示は省略している。

【００２５】メモリ２は、命令コードを格納する命令コ
ード部２１と、配列などのデータを格納するデータ部２
２とから構成される。命令コード部２１には、本発明に
より最適化された命令コード列２１１が格納され、デー
タ部２２には、本発明により最適配置されたデータ列２
２１が格納される。

【００２６】記憶装置５は磁気ディスク装置上のファイ
ルであり、配列に対する演算式を複数記述したソースプ
ログラム５１を記憶している。

【００２７】コンパイラ６は、ソースプログラム５１を
記憶装置５から入力し、構文解析，意味解析，コード生
成などを行って、オブジェクトプログラム４１を生成す
る。この際、ソースプログラム５１中に、配列に対する
計算式が連続して現れる場合、それら複数の計算式に対
して本発明による最適化が可能か否かを判定し、可能な
らば最適化されたオブジェクトプログラム４１を生成す
る。

【００２８】複数の計算式に対して本発明による最適化
が可能となる条件は、以下の通りである。（１）各々の計算式が独立して計算可能であること。つ
まり、先行する計算式で定義された配列を後続の計算式
で引用する等、依存関係が存在しないこと。（２）全ての計算式に含まれる配列の数が等しく、か
つ、同じ演算が用いられていること。（３）各計算式に含まれる配列が全て１次元配列である
場合、各計算式の左辺に現れる配列どうし及び右辺の同
じ位置に現れる配列どうしの要素数の和がベクトルレジ
スタのサイズ以下であること。（４）各計算式に含まれる配列が全て同じ次元数の多次
元配列であり、それらの計算式が同じＤＯループ中に含
まれる場合、各計算式の左辺に現れる配列どうし及び右
辺の同じ位置に現れる配列どうしのループの１回の繰り
返し当たりの要素数の和がベクトルレジスタのサイズ以
下であること。

【００２９】上記の条件を満たす複数の計算式に対して
は、コンパイラ６は、以下のような最適化を行う。

【００３０】まず、データ割り付け方法として、複数の
計算式における左辺に現れる配列どうし及び右辺の同じ
位置に現れる配列どうしをそれぞれ組にして、同じ組の
配列がメモリ２上の連続した領域に割り付けられるよう
なデータ割り付け方法を採用する。

【００３１】次に、複数の計算式に対応する命令コード
として、以下のような命令コードを生成する。（１）複数の計算式の右辺の同じ位置に現れる配列どう
しの組毎に１つの入力用のベクトルレジスタを割り当
て、各組の配列をメモリ２上の連続した領域から対応す
る入力用のベクトルレジスタに複写する複写命令の命令
コードを生成する。この際、複写するベクトル長は、そ
の組の配列の要素数の合計値に等しい。（２）入力用のベクトルレジスタに複写された配列を、
演算の種類に対応するベクトル演算器でベクトル演算
し、その演算結果を出力用のベクトルレジスタに格納す
るベクトル演算命令の命令コードを生成する。この際、
演算にかかるベクトル長は、入力用ベクトルレジスタに
複写された配列のサイズ、つまり、複数の計算式の右辺
の同じ位置に現れる配列の要素数の合計値に等しい。（３）出力用のベクトルレジスタに格納された演算結果
を、前記複数の計算式の左辺に現れる配列どうしの組に
割り当てられたメモリ２上の連続した領域に複写する複
写命令の命令コードを生成する。

【００３２】次に図１の記憶装置４は、コンパイラ６に
よって生成されたオブジェクトプログラム４１を格納す
る磁気ディスク装置上のファイルであり、ローダ３は、
オブジェクトプログラム４１をメモリ２にロードする手
段である。オブジェクトプログラム４１中の命令コード
列は命令コード列２１１として命令コード部２１にロー
ドされ、配列などのデータはデータ列２２１としてデー
タ部２２にロードされる。配列のデータ部２２へのロー
ドに際しては、コンパイラ６で決定されたデータ割り付
け方法に従う。

【００３３】上述のようにしてメモリ２の命令コード部
２１にロードされたオブジェクトプログラム４１の命令
コード列２１１は、ＣＰＵ１の命令解釈部１５によって
順次に解釈され、実行される。

【００３４】次に、本実施の形態の実施例について説明
する。

【００３５】今、ソースプログラム５１中に、以下のよ
うに、配列Ｂと配列Ｃとの要素どうしの和を配列Ａの要
素とする加算式（４−１）に続けて、配列Ｅと配列Ｆと
の要素どうしの和を配列Ｄの要素とする加算式（４−
２）が記述されているものとする。この式は従来技術で
挙げた式（２−１），（２−２）と同じである。Ａ（：）＝Ｂ（：）＋Ｃ（：） …（４−１）Ｄ（：）＝Ｅ（：）＋Ｆ（：） …（４−２）但し、配列Ａ，Ｂ，Ｃの要素の範囲は１〜ｎ、配列Ｄ，
Ｅ，Ｆの要素の範囲は１〜ｍとし、ｎ＋ｍはベクトルレ
ジスタセット１１中のベクトルレジスタのサイズＬ以下
とする。

【００３６】コンパイラ６は、ソースプログラム５１中
に配列に対する演算式が連続している箇所を検出する
と、これらの演算式に対し本発明による最適化が可能か
否かを判定する。今の場合、式（４−１）と式（４−
２）とは独立して計算可能であり、双方の式に含まれる
配列の数が３つで等しく、かつ、加算という同じ演算が
用いられている。また、各式の左辺に現れる配列Ａ，Ｄ
どうし及び右辺の同じ位置に現れる配列ＢとＥ、ＣとＦ
どうしの要素数の和は、ｎ＋ｍであり、ベクトルレジス
タのサイズＬ以下である。このため、コンパイラ６は式
（４−１）と（４−２）とは本発明による最適化が可能
と判断し、以下のような最適化を行う。

【００３７】まず、データ割り付け方法として、式（４
−１），（４−２）の左辺に現れる配列Ａ，Ｄどうし及
び右辺の同じ位置に現れる配列ＢとＥ、ＣとＦどうしを
それぞれ組にして、図２に示すように、同じ組の配列が
メモリ２上の連続した領域Ｅ１，Ｅ２，Ｅ３に割り付け
られるようなデータ割り付け方法を採用する。

【００３８】次に、式（４−１），（４−２）に対応す
る命令コードとして、以下のような命令コードを生成す
る。（１）式の右辺の第１項に現れる配列ＢとＥの組に１つ
の入力用のベクトルレジスタ（Ｂ（Ｖｂ）とする）を割
り当て、その組の配列ＢとＥをメモリ２上の図２に示し
た連続した領域Ｅ２からベクトルレジスタＢ（Ｖｂ）に
複写する複写命令の命令コードを生成する。（２）同様に、式の右辺の第２項に現れる配列ＣとＦの
組に１つの入力用のベクトルレジスタ（Ｃ（Ｖｃ）とす
る）を割り当て、その組の配列ＣとＦをメモリ２上の図
２に示した連続した領域Ｅ３からベクトルレジスタＣ
（Ｖｃ）に複写する複写命令の命令コードを生成する。（３）ベクトル加算命令Ｖａ＝Ｖｂ＋Ｖｃを生成する。
このベクトル加算命令は、図３に示すように、ベクトル
レジスタＢ（Ｖｂ）の要素とベクトルレジスタＣ（Ｖ
ｃ）の要素との加算値をベクトル加算器１２で求め、そ
の結果を出力用のベクトルレジスタＡ（Ｖａ）に格納す
る命令である。（４）ベクトルレジスタＡ（Ｖａ）に格納された演算結
果を、式（４−１），（４−２）の左辺に現れる配列Ａ
とＤどうしの組に割り当てられたメモリ２上の図２に示
した連続した領域Ｅ１に複写する複写命令の命令コード
を生成する。

【００３９】図４は以上のようにして生成された式（４
−１），（４−２）に対応する命令コード列をフローチ
ャート形式で示している。

【００４０】コンパイラ６によって生成された図４に示
すような命令コード列を含むオブジェクトプログラム４
１は記憶装置４に格納され、その後、ローダ３によっ
て、命令コード列２１１がメモリ２の命令コード部２１
にロードされ、配列等のデータ列２２１がデータ部２２
にロードされる。このとき、式（４−１），（４−２）
で定義，参照される配列は図２で示したように、所定の
配列の組ごとにメモリ２の連続した領域Ｅ１〜Ｅ３に割
り付けられる。そして、ＣＰＵ１の命令解釈部１５が命
令コード列２１１から命令コードを順次に読み取って解
釈し、各部を制御する。これにより、図４に示した命令
コード列の箇所に実行が進んだとき、以下のような動作
が行われる。

【００４１】ステップＳ１；命令解釈部１５の制御の下
に、データ転送部１４は、メモリ２上の連続領域Ｅ２か
ら配列Ｂと配列Ｅの各要素をベクトルレジスタＢ（Ｖ
ｂ）に複写する。ステップＳ２；命令解釈部１５の制御の下に、データ転
送部１４は、メモリ２上の連続領域Ｅ３から配列Ｃと配
列Ｆの各要素をベクトルレジスタＣ（Ｖｃ）に複写す
る。ステップＳ３；命令解釈部１５の制御の下に、ベクトル
加算器１２は、ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを実
行する。すなわち、ベクトルレジスタＢ（Ｖｂ）とベク
トルレジスタＣ（Ｖｃ）の各要素ごとの加算値を求め、
ベクトルレジスタＡ（Ｖａ）に格納する。ステップＳ４；命令解釈部１５の制御の下に、データ転
送部１４は、ベクトルレジスタＡ（Ｖａ）の各要素を、
メモリ２上の連続領域Ｅ１に複写する。

【００４２】以上のようにして、従来は図８に示したよ
うに８ステップを要した処理が、本実施例では図４に示
すように４ステップで済むようになる。

【００４３】以上の実施例では、演算の右辺の項数が２
であり、左辺が右辺の項の何れの配列とも同じでなく、
しかも演算が加算であるような複数の計算式について説
明したが、右辺の項数や演算の種類、項の異同について
は制限は無く、例えば次のような複数の演算式の組に対
しても適用可能である。

【００４４】Ａ（：）＝−Ａ（：）Ｂ（：）＝−Ｂ（：） …（５）Ａ（：）＝Ｂ（：）−Ｃ（：）＊Ｄ（：）Ｅ（：）＝Ｆ（：）−Ｇ（：）＊Ｈ（：） …（６）Ａ（：）＝ｓｉｎＢ（：）＋ｃｏｓＣ（：）Ｄ（：）＝ｓｉｎＥ（：）＋ｃｏｓＦ（：） …（７）

【００４５】また、以上の例は１次元配列に対する演算
を取り上げたが、本発明は２次元以上の配列に対する演
算にも適用可能である。以下にその例を示す。

【００４６】ＤＯＩ＝１，１₁，１₂ …（８−１）Ａ（：，Ｉ）＝Ｂ（：，Ｉ）＋Ｃ（：，Ｉ） …（８−２）Ｄ（：，Ｉ）＝Ｅ（：，Ｉ）＋Ｆ（：，Ｉ） …（８−３）ＥＮＤＤＯ …（８−４）但し、２次元配列Ａ，Ｂ，Ｃの１次元目の添字の範囲は
１〜ｎ、２次元目の添字の範囲は１〜１₁、２次元配列
Ｄ，Ｅ，Ｆの１次元目の添字の範囲は１〜ｍ、２次元目
の添字の範囲は１〜１₁で、１₁≧１₂≧１とし、ま
た、ｎ＋ｍはベクトルレジスタセット１１中のベクトル
レジスタのサイズＬ以下とする。

【００４７】上記のＤＯループによる計算式は、配列Ｂ
と配列Ｃの２次元目の添字が１，１＋１₂，１＋２×１
₂，…となる要素どうしの和を配列Ｃの２次元目の添字
が１，１＋１₂，１＋２×１₂，…となる要素とし、配
列Ｅと配列Ｆの２次元目の添字が１，１＋１₂，１＋２
×１₂，…となる要素どうしの和を配列Ｄの２次元目の
添字が１，１＋１₂，１＋２×１₂，…となる要素とす
るもので、従来の技術で挙げた式（３−１），（３−
２）と同じである。

【００４８】上記のような計算式がソースプログラム５
１中に存在する場合、コンパイラ６は、これらの計算式
に対し本発明による最適化が可能か否かを判定する。今
の場合、ＤＯループ中の式（８−２）と式（８−３）と
は独立して計算可能であり、双方の式に含まれる配列の
数が３つで等しく、かつ、加算という同じ演算が用いら
れている。また、各式の左辺に現れる配列Ａ，Ｄどうし
及び右辺の同じ位置に現れる配列ＢとＥ、ＣとＦどうし
のループの１回の繰り返し当たりの要素数の和は、ｎ＋
ｍであり、ベクトルレジスタのサイズＬ以下である。こ
のため、コンパイラ６は上記ＤＯループ中の式（８−
２）と（８−３）とは本発明による最適化が可能と判断
し、以下のような最適化を行う。

【００４９】まず、データ割り付け方法として、式（８
−２），（８−３）の左辺に現れる配列Ａ，Ｄどうし及
び右辺の同じ位置に現れる配列ＢとＥ、ＣとＦどうしを
それぞれ組にして、メモリ２上の連続した領域に割り付
けるようなデータ割り付け方法を採用する。この際、式
（８−２），（８−３）はＤＯループ中に存在するた
め、各連続領域内では、ループ制御変数Ｉに対応する添
字が同じものが連続するように割り付ける。つまり、図
５に示すように、配列Ａ，Ｄについては、ループ制御変
数Ｉに対応する２次元目の添字が１のものＡ（１，
１），…，Ａ（ｎ，１）とＤ（１，１），…，Ｄ（ｍ，
１）を連続してメモリ２上の連続領域Ｅ１に割り付け、
次に添字が２のもの、３のもの、…、１₁のものをメモ
リ２上の連続領域Ｅ１に同様に連続して割り付ける。ま
た、配列ＢとＥ、配列ＣとＦも同様に、図５に示すよう
にメモリ２上の連続領域Ｅ２，Ｅ３に割り付ける。

【００５０】次に、ＤＯループに対応する命令コードと
して、以下のような命令コードを生成する。

【００５１】まず、ＤＯループの制御文（８−１），
（８−４）に対応して、ループ制御変数Ｉを１に初期化
する命令コード、ループ制御変数Ｉを終値１₁と比較し
て分岐処理する命令コード、１ループ実行毎にループ制
御変数Ｉを増分値１₂だけ加算する命令コードを生成す
る。

【００５２】次に、式（８−２），（８−３）に対応す
る命令コードとして、以下のような命令コードを生成す
る。（１）式の右辺の第１項に現れる配列ＢとＥの組に１つ
の入力用のベクトルレジスタ（Ｂ（Ｖｂ）とする）を割
り当て、その組の配列ＢとＥの現ループ制御変数Ｉの値
に応じた各要素をメモリ２上の図５に示した連続した領
域Ｅ２からベクトルレジスタＢ（Ｖｂ）に複写する複写
命令の命令コードを生成する。（２）同様に、式の右辺の第２項に現れる配列ＣとＦの
組に１つの入力用のベクトルレジスタ（Ｃ（Ｖｃ）とす
る）を割り当て、その組の配列ＣとＦの現ループ制御変
数Ｉの値に応じた各要素をメモリ２上の図５に示した連
続した領域Ｅ３からベクトルレジスタＣ（Ｖｃ）に複写
する複写命令の命令コードを生成する。（３）ベクトル加算命令Ｖａ＝Ｖｂ＋Ｖｃを生成する。
このベクトル加算命令は、図３に示したように、ベクト
ルレジスタＢ（Ｖｂ）の要素とベクトルレジスタＣ（Ｖ
ｃ）の要素との加算値をベクトル加算器１２で求め、そ
の結果を出力用のベクトルレジスタＡ（Ｖａ）に格納す
る命令である。（４）ベクトルレジスタＡ（Ｖａ）に格納された演算結
果を、式（８−２），（８−３）の左辺に現れる配列Ａ
とＤどうしの組に割り当てられたメモリ２上の図５に示
した連続した領域Ｅ１における現ループ制御変数Ｉの値
に対応する部分に複写する複写命令の命令コードを生成
する。

【００５３】図６は以上のようにして生成された上記Ｄ
Ｏループに対応する命令コード列をフローチャート形式
で示している。

【００５４】コンパイラ６によって生成された図６に示
すような命令コード列を含むオブジェクトプログラム４
１は記憶装置４に格納され、その後、ローダ３によっ
て、命令コード列２１１がメモリ２の命令コード部２１
にロードされ、配列等のデータ列２２１がデータ部２２
にロードされる。このとき、式（８−２），（８−３）
で定義，参照される配列は図５で示したように、所定の
配列の組ごとにメモリ２の連続した領域Ｅ１〜Ｅ３に割
り付けられる。そして、ＣＰＵ１の命令解釈部１５が命
令コード列２１１から命令コードを順次に読み取って解
釈し、各部を制御する。これにより、図６に示した命令
コード列の箇所に実行が進んだとき、以下のような動作
が行われる。

【００５５】ステップＳ１１；命令解釈部１５はループ
制御変数Ｉに１を代入する。ステップＳ１２；命令解釈部１５はＩ＞１₁ならばステ
ップＳ１３に分岐し、そうでなければ図６の処理を終了
する。ステップＳ１３；命令解釈部１５の制御の下に、データ
転送部１４は、メモリ２上の連続領域Ｅ２から配列Ｂの
要素Ｂ（１，Ｉ）〜Ｂ（ｎ，Ｉ）と配列Ｅの要素Ｅ
（１，Ｉ）〜Ｅ（ｍ，Ｉ）を、ベクトルレジスタＢ（Ｖ
ｂ）に複写する。ステップＳ１４；命令解釈部１５の制御の下に、データ
転送部１４は、メモリ２上の連続領域Ｅ３から配列Ｃの
要素Ｃ（１，Ｉ）〜Ｃ（ｎ，Ｉ）と配列Ｆの要素Ｆ
（１，Ｉ）〜Ｆ（ｍ，Ｉ）を、ベクトルレジスタＣ（Ｖ
ｃ）に複写する。ステップＳ１５；命令解釈部１５の制御の下に、ベクト
ル加算器１２は、ベクトル演算命令Ｖａ＝Ｖｂ＋Ｖｃを
実行する。すなわち、ベクトルレジスタＢ（Ｖｂ）とベ
クトルレジスタＣ（Ｖｃ）の各要素ごとの加算値を求
め、ベクトルレジスタＡ（Ｖａ）に格納する。ステップＳ１６；命令解釈部１５の制御の下に、データ
転送部１４は、ベクトルレジスタＡ（Ｖａ）の各要素
を、メモリ２上の連続領域Ｅ１に複写する。ステップＳ１７；命令解釈部１５はループ制御変数Ｉに
１₂を加算し、ステップＳ１２に進む。

【００５６】以上のようにして、従来は図１０に示した
ように多くのステップを要した処理が、本実施例では図
６に示すように少ないステップで済むようになる。

【００５７】

【発明の効果】以上説明したように本発明によれば、配
列の数や演算の種類が等しい複数の計算式をベクトル演
算を用いて実行する際の処理速度を向上することができ
る。その理由は、複数の計算式の右辺の同じ位置に現れ
る配列どうしを組にしてメモリ上の連続した領域に割り
付けておき、同じ組の配列を同じベクトルレジスタに一
括して複写し、同じベクトル演算命令で処理するため、
メモリからベクトルレジスタへの複写回数およびベクト
ル演算命令の実行回数が削減されるからである。また、
複数の計算式の左辺に現れる配列どうしを組にしてメモ
リ上の連続した領域に割り付けておき、ベクトル演算命
令によってベクトルレジスタ上に得られた演算結果を一
括してメモリ上の連続領域に複写するため、ベクトルレ
ジスタからメモリへの複写回数が削減されるからであ
る。

【図面の簡単な説明】

【図１】本発明のベクトル演算方法を実施するコンピュ
ータの一例を示すブロック図である。

【図２】本発明の一実施例における配列のメモリへの割
り付け方法を示す図である。

【図３】ベクトル加算命令Ｖａ＝Ｖｂ＋Ｖｃの説明図で
ある。

【図４】本発明の一実施例における最適化された命令コ
ード列をフローチャート形式で示す図である。

【図５】本発明の別の実施例における配列のメモリへの
割り付け方法を示す図である。

【図６】本発明の別の実施例における最適化された命令
コード列をフローチャート形式で示す図である。

【図７】一次元配列のメモリへの割り付け方法の従来例
を示す図である。

【図８】従来のベクトル演算方法の手順を示すフローチ
ャートである。

【図９】二次元配列のメモリへの割り付け方法の従来例
を示す図である。

【図１０】従来のベクトル演算方法の手順を示すフロー
チャートである。

【符号の説明】

１…ＣＰＵ１１…ベクトルレジスタセット１２…ベクトル加算器１３…ベクトル乗算器１４…データ転送部１５…命令解釈部２…メモリ（主記憶）２１…命令コード部２１１…命令コード列２２…データ部２２１…データ列３…ローダ４…記憶装置４１…オブジェクトプログラム５…記憶装置５１…ソースプログラム６…コンパイラ

Claims

(57)【特許請求の範囲】

【請求項１】ベクトル演算機能を有するコンピュータ
上で、配列に対する演算をベクトル演算により実行する
方法において、各々独立して計算可能な複数の同種の計算式を最適化対
象とし、その複数の計算式における左辺に現れる配列ど
うし及び右辺の同じ位置に現れる配列どうしをそれぞれ
組にして、同じ組の配列をメモリ上の連続した領域に割
り当てる第１のステップと、前記複数の計算式の右辺の同じ位置に現れる配列どうし
の組毎に１つの入力用のベクトルレジスタを割り当て、
各組の配列を前記メモリ上の連続した領域から前記入力
用のベクトルレジスタに複写命令によって複写する第２
のステップと、前記入力用のベクトルレジスタに複写された配列に対す
る演算を前記計算式の演算の種類に対応するベクトル演
算器で実行し、その演算結果を出力用のベクトルレジス
タに格納する第３のステップとを含むことを特徴とする
ベクトル演算方法。
【請求項２】前記出力用のベクトルレジスタに格納さ
れた演算結果を、前記複数の計算式の左辺に現れる配列
どうしの組に割り当てられた前記メモリ上の連続した領
域に複写命令によって複写する第４のステップを含むこ
とを特徴とする請求項１記載のベクトル演算方法。
【請求項３】各々独立して計算可能な複数の計算式で
あって、各計算式に含まれる配列が全て１次元配列でそ
の数および演算の種類が同じであり且つ複数の計算式の
左辺に現れる配列どうし及び右辺の同じ位置に現れる配
列どうしの要素数の和が前記コンピュータの保有するベ
クトルレジスタのサイズ以下である複数の計算式を、最
適化対象とする請求項１または２記載のベクトル演算方
法。
【請求項４】各々独立して計算可能な複数の計算式を
ループ内に含むＤＯループであって、各計算式に含まれ
る配列が全て同じ次元数の多次元配列でその数および演
算の種類が同じであり且つ複数の計算式の左辺に現れる
配列どうし及び右辺の同じ位置に現れる配列どうしのル
ープの１回の繰り返し当たりの要素数の和が前記コンピ
ュータの保有するベクトルレジスタのサイズ以下である
ＤＯループ中の複数の計算式を、最適化対象とする請求
項１または２記載のベクトル演算方法。