JP2000048009A

JP2000048009A - メモリアクセス処理装置および記録媒体

Info

Publication number: JP2000048009A
Application number: JP10212348A
Authority: JP
Inventors: Nobuyoshi Yamaji; 延佳山地; Takashi Mochiyama; 貴司持山; Masato Morishima; 政人森島; Masaki Aoki; 正樹青木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-07-28
Filing date: 1998-07-28
Publication date: 2000-02-18
Anticipated expiration: 2018-07-28
Also published as: JP3817073B2

Abstract

(57)【要約】【課題】本発明は、隣接するメモリアクセス命令につ
いてベクトル計算機上で高速実行する命令を生成するメ
モリアクセス処理装置および記録媒体に関し、ベクトル
計算機において、隣接するメモリアクセス命令が存在す
るときに重複したメモリアクセスを削減して実行性能の
向上を図ることを目的とする。【解決手段】ソースプログラムを解析して隣接するメ
モリアクセス命令を検出する手段と、検出された隣接す
るメモリアクセス命令について両者に必要なデータを含
むメモリアクセス命令に変換する手段と、変換した命令
によってメモリから読み出されてロードされた第１のベ
クトルレジスタのデータを、スライドさせて第２のベク
トルレジスタに格納させる命令を生成する手段と、第１
のベクトルレジスタと第２のベクトルレジスタとの演算
を行う命令を生成する手段とを備えるように構成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、隣接するメモリア
クセス命令についてベクトル計算機上で高速実行する命
令を生成するメモリアクセス処理装置および記録媒体に
関するものである。

【０００２】

【従来の技術】一般に科学技術計算において、メモリア
クセスの性能はプログラムの処理速度を決定する重要な
１つの要因である。ベクトル計算機では、メモリ上に配
置されているデータをベクトルレジスタ上にロード（メ
モリアクセス）してそのベクトルレジスタを介して、高
速な演算を実現している。このため、メモリ上のデータ
をいかに効率良くレジスタ上に持ってくるか、データを
いかにレジスタ上に保持しつづけられるかが性能の鍵と
なる。

【０００３】例えば以下のように２つの隣接するメモリ
アクセスが存在するＦＯＲＴＲＡＮプログラムを例にと
る。 real a(10),b(10) ・・・・・・・・・・（１） do i=1,9 a(i)=b(i)+b(i+1) endo データをメモリからベクトルレジスタ上にロードする場
合に、上記プログラム中の、の部分で、アクセス要
素位置が１要素づれているときでも、図７に示すよう
に、２つのベクトルアクセス命令でそれぞれ個別にベク
トルレジスタ上にロードしていた。

【０００４】

【発明が解決しようとする課題】このため、図７のの
アクセス（メモリからベクトルレジスタへのデータのロ
ード）と、のアクセスとがメモリ上のほとんど同じ同
一箇所をアクセスしているにもかかわらず、個別にそれ
ぞれメモリをアクセスしてベクトルレジスタ上にロード
する必要があり、メモリアクセスという非常に遅い処理
が重複した部分でも必要となり、全体の処理速度を大幅
に低下させてしまうという問題があった。

【０００５】本発明は、これらの問題を解決するため、
ベクトル計算機において、隣接するメモリアクセス命令
が存在するときに重複したメモリアクセスを削減して実
行性能の向上を図ることを目的としている。

【０００６】

【課題を解決するための手段】図１を参照して課題を解
決するための手段を説明する。図１において、ソースプ
ログラム１は、コンパイル対象のソースプログラムであ
って、ここでは、隣接するメモリアクセス命令をベクト
ル計算機上で高速実行させる対象のソースプログラムで
ある。

【０００７】コンパイラ２は、ソースプログラム１を解
析してベクトル化および最適化を行い、実行可能形式の
オブジェクト１０を自動生成するものであって、ここで
は、最適化手段６などから構成されるものである。

【０００８】最適化手段６は、各種最適化を行うもので
あって、ここでは、隣接するメモリアクセス命令をベク
トル計算機上で高速実行させるようにするものであり、
隣接アクセス認識手段７およびスライド命令利用手段８
などから構成されるものである。

【０００９】隣接アクセス認識手段７は、隣接するアク
セス命令を検出するものである。スライド命令利用手段
８は、隣接するアクセス命令について、メモリから第１
のベクトルレジスタにデータをロードした後、スライド
して第２のベクトルレジスタに格納し、第１のベクトル
レジスタと第２のベクトルレジスタとを演算処理などさ
せるものである。

【００１０】次に、動作を説明する。隣接アクセス認識
手段７がソースプログラム１を解析した情報をもとに隣
接するメモリアクセス命令を検出し、スライド命令利用
手段８が検出された隣接するメモリアクセス命令につい
て両者に必要なデータを含むメモリアクセス命令に変換
し、変換した命令によってメモリから読み出されてロー
ドされた第１のベクトルレジスタのデータを、スライド
させて第２のベクトルレジスタに格納させる命令を生成
し、第１のベクトルレジスタと第２のベクトルレジスタ
との演算を行う命令を生成するようにしている。

【００１１】また、隣接するメモリアクセス命令の要素
数が１回のベクトル演算処理で実行し得る最大要素数の
整数倍以外のときに、隣接アクセス認識手段７がソース
プログラム１を解析した情報をもとに隣接するメモリア
クセス命令を検出し、スライド命令利用手段８が検出さ
れた隣接するメモリアクセス命令について両者に必要な
データを含むメモリアクセス命令に変換し、変換した命
令によってメモリから読み出されてロードされた第１の
ベクトルレジスタのデータを、スライドさせて第２のベ
クトルレジスタに格納させる命令を生成し、第２のベク
トルレジスタ中の処理不要な要素にマスクする命令を生
成し、更に、マスク命令で真（有意）となった要素につ
いて第１のベクトルレジスタと第２のベクトルレジスタ
との演算を行う命令を生成するようにしている。

【００１２】また、隣接するメモリアクセス命令の要素
数が１回のベクトル演算処理で実行し得る最大要素数の
整数倍のときに、隣接アクセス認識手段７がソースプロ
グラム１を解析した情報をもとに隣接するメモリアクセ
ス命令を検出し、スライド命令利用手段８が隣接するメ
モリアクセス命令中の１つの命令によってメモリから読
み出されてロードされた第１のベクトルレジスタのデー
タを、スライドさせて第２のベクトルレジスタに格納さ
せる命令を生成し、第１のベクトルレジスタと第２のベ
クトルレジスタとの有意な部分の演算を行う命令を生成
し、更に、演算の実行されなかった要素についてメモリ
から読み出してレジスタにそれぞれロードする命令を生
成し、ロードしたレジスタの間の演算を行う命令を生成
するようにしている。

【００１３】これらの際に、隣接するメモリアクセス命
令が同じ配列であるときに、上述した処理を行うように
している。従って、ベクトル計算機において、隣接する
メモリアクセス命令が存在するときに重複したメモリア
クセスを削減して実行性能の向上を図ることが可能とな
る。

【００１４】

【発明の実施の形態】次に、図１から図６を用いて本発
明の実施の形態および動作を順次詳細に説明する。

【００１５】図１は、本発明のシステム構成図を示す。
図１において、ソースプログラム１は、ベクトル計算機
上で動作させるようにコンパイルする対象のソースプロ
グラム（例えばＦＯＲＴＲＡＮプログラム）である。

【００１６】コンパイラ２は、ソースプログラム１を入
力としてベクトル計算機上で動作する実行可能形式のオ
ブジェクト１０を自動生成するものであって、プログラ
ム入力手段３、ソース解析手段４、ベクトル化手段５、
最適化手段６、コード生成手段９から構成されるもので
ある。

【００１７】プログラム入力手段３は、ソースプログラ
ム１を取り込むものである。ソース解析手段４は、取り
込んだソースプログラム１を形態素解析および構文解析
などを行い、処理を行い易い中間言語に変換するもので
ある。尚、ソース解析以降は、実際にはこの中間言語を
もとにベクトル化、最適化などを行うが、説明を簡単に
するためにソースプログラム１をもとにベクトル化、最
適化などを行うとして以下説明する。

【００１８】ベクトル化手段５は、ソースプログラム１
のベクトル化を行い、ベクトル計算機上でベクトルレジ
スタを利用して高速並列実行可能なプログラムに変換す
るものである。

【００１９】最適化手段６は、ベクトル化された後に最
適化を行うものであって、ここでは、隣接アクセス認識
手段７、およびスライド命令利用手段８などから構成さ
れるものである。

【００２０】隣接アクセス認識手段７は、隣接するアク
セス命令を検出するものである。スライド命令利用手段
８は、隣接するアクセス命令について、メモリから第１
のベクトルレジスタにデータをロードした後、スライド
して第２のベクトルレジスタに格納し、第１のベクトル
レジスタと第２のベクトルレジスタとを演算処理などさ
せるものである（図２を用いて後述する）。

【００２１】コード生成手段９は、最適化後に、実行可
能形式のオブジェクト１０を生成するものである。オブ
ジェクト１０は、ベクトル計算機上で実行可能なプログ
ラムである。

【００２２】次に、図２のフローチャートの順序に従
い、図１の構成の動作を詳細に説明する。図２は、本発
明の動作説明フローチャートを示す。

【００２３】図２において、Ｓ１は、プログラムを入力
する。これは、図１のプログラム入力手段３がソースプ
ログラム１を外部記憶装置などから取り込む。Ｓ２は、
ソースプログラムを解析する。これは、図１のソース解
析手段４が、Ｓ１で取り込んだソースプログラム１を形
態素解析および構文解析を行い、解析結果情報を生成す
る。

【００２４】Ｓ３は、ベクトル化を行う。これは、Ｓ２
で解析した情報をもとに、ベクトル計算機上のベクトル
レジスタを利用して高速並列実行可能なように、プログ
ラムのベクトル化を行う。

【００２５】Ｓ４は、同じ配列か判別する。これは、Ｓ
３でベクトル化したメモリアクセス命令の要素が同じ配
列か判別、例えば後述する図３の（ａ）のプログラム中
のｂ（ｉ）とｂ（ｉ＋１）とが同じ配列か判別する。Ｙ
ＥＳの場合には、Ｓ５に進む。ＮＯの場合には、本発明
に係るＳ５以降の処理ができないので、Ｓ１０に進む。

【００２６】Ｓ５は、隣接アクセスしているか判別す
る。これは、Ｓ４で同じ配列と判明したメモリアクセス
命令が隣接アクセスしているか判別する。ＹＥＳの場合
には、Ｓ６に進む。ＮＯの場合には、本発明に係るＳ６
以降の処理ができないので、Ｓ１０に進む。

【００２７】Ｓ６は、ベクトル長増加方式／ベクトル長
削減方式の選択処理を行う。これは、隣接するメモリア
クセス命令でアクセスする要素数が１回の並列処理で実
行可能な要素数、あるいはその整数倍でないか判別す
る。

【００２８】Ｓ７は、ベクトル長増加方式か判別する。
これは、Ｓ６で隣接するメモリアクセス命令でアクセス
する要素数が１回の並列処理で実行可能な要素数、ある
いはその整数倍でないベクトル長増加方式（図３）か判
別する。ＹＥＳの場合には、Ｓ８でベクトル長増加方式
（図３）の処理を行い、Ｓ１０に進む。一方、ＮＯの場
合には、Ｓ９でベクトル長削減方式（図４）の処理を行
い、Ｓ１０に進む。

【００２９】Ｓ８は、Ｓ７のＹＥＳでベクトル長増加方
式と判明したので、（１）ベクトル長を＋１する（２）ｂ（ｉ＋１）に対するｌｏａｄ命令（ロード命
令）をｖｓｌｉｄ命令（スライド命令）に置換する（３）ベクトル長を増加させたことによって、端点ＯＦ
Ｆのためのマスク生成する（４）ｖｓｌｉｄ命令と、そのｖｓｌｉｄ命令の対象と
なるメモリアクセス（ｖｌｏａｄ）以外のループ内の命
令にマスク処理を施すを実行する（図３を用いて後述する）。

【００３０】Ｓ９は、Ｓ７のＮＯでベクトル長削減方式
と判明したので、（１）ベクトル長を変更せずに、ｂ（ｉ＋１）に対する
ｌｏａｄ命令をｖｓｌｉｄ命令に置換する（２）ベクトル長を−１する（３）ループ内の最後の要素に対する演算について、ス
カラ演算を実行する（図４を用いて後述する）。

【００３１】Ｓ１０は、コードを生成する。以上によっ
て、ソースプログラム１を入力とし、隣接するアクセス
命令の対象となる要素の配列が同じ場合（Ｓ４のＹＥ
Ｓ、Ｓ５のＹＥＳの場合）、要素数が１回のベクトル並
列演算処理で実行できる最大要素数に等しいあるいはそ
の整数倍に等しくないときにベクトル長増加方式を選択
し、一方、等しいときにベクトル長削減方式を選択し、
これらベクトル長増加方式／ベクトル長削減方式の処理
後にコード生成を行い、オブジェクト１０を自動生成す
ることにより、隣接するメモリアクセス命令について重
複したメモリアクセスを削減し、ベクトル計算機上で高
速実行可能なオブジェクトを生成することが可能とな
る。

【００３２】図３は、本発明の説明図（その１）を示
す。これは、既述した図２のＳ８のベクトル長増加方式
の場合の具体例の説明図であって、隣接するアクセス命
令の対象となる要素の配列が同じ場合のものである。

【００３３】図３の（ａ）は、ソースプログラム（ＦＯ
ＴＲＡＮプログラム）の例を示す。ここでは、図示の下
記の演算を行う。図３の（ｂ）は、オブジェクトの例を示す。これは、図
３の（ａ）のソースプログラムを、図２のフローチャー
ト中のＳ８で本発明に係るベクトル長増加方式に従って
生成したオブジェクトのイメージを示す。ここで、図中
のからについて、図３の（ｃ）のからで順次詳
細に説明する。

【００３４】図３の（ｃ）において、は、ベクトル長
が１τで処理できる要素数（例えば１６要素数）で割り
切れなかったので、ベクトル長増加方式が選択され、v1
v1の値を１１に変更する（要素数１０に＋１して１１に
変更する）。

【００３５】は、図３の（ｂ）のの命令vload vr1,
b(1:11)によって、ｂの要素（１〜１１）を、vr1にロー
ドする。これは、メモリ上の要素１から要素１１のデー
タ（ここでは、１．０）をベクトルレジスタvr1に図示
のようにロードする。

【００３６】は、図３の（ｂ）のの命令vslid vr2,
1,vr1によって、ベクトルレジスタvr1にロードされた要
素を、ベクトルレジスタvr2に例えば１要素スライドし
て格納する。ここで、ベクトルレジスタvr2の内容は、b
(2〜11)の要素であり、(？)は未定義領域である。

【００３７】は、図３の（ｂ）のの命令vgsm 11,mr
4によって、ベクトルレジスタvr2の末尾要素（？）は処
理してはならないため、マスク情報を生成する。は、図３の（ｂ）のvadd vr3,vr1,vr2,mr4によっ
て、マスクレジスタmr4の真となったマスク要素分の演
算(ベクトルレジスタvr1とベクトルレジスタvr2の内容
を加算してその加算結果をベクトルレジスタvr3に格納
する演算)を行う。この結果、図示のようにベクトルレ
ジスタvr3には、２．０という値が格納される。

【００３８】は、図３の（ｂ）のvstore vr3,a(1,1
0),mr4によって、マスクレジスタmr4の真となったマス
ク要素分のベクトルレジスタvr3のデータがメモリ上のa
(1,10)にストアされる。

【００３９】以上によって、図３の（ａ）のソースプロ
グラム１中の隣接するメモリアクセス命令でアクセスす
る要素数が１τで処理できる要素数あるいはその整数倍
に等しくない場合にベクトル長増加方式として、から
の命令列を自動生成することにより、重複したメモリ
アクセスを無くし（スライド命令によって重複した部分
のデータをベクトルレジスタ間でスライドして他のベク
トルレジスタに格納し）、隣接したメモリアクセス命令
をベクトル計算機上で高速並列実行させることが可能と
なる。

【００４０】図４は、本発明の説明図（その２）を示
す。これは、既述した図２のＳ９のベクトル長削減方式
の場合の具体例の説明図であって、隣接するアクセス命
令の対象となる要素の配列が同じ場合のものである。

【００４１】図４の（ａ）は、ソースプログラム（ＦＯ
ＴＲＡＮプログラム）の例を示す。ここでは、図示の下
記の演算を行う。図４の（ｂ）は、オブジェクトの例を示す。これは、図
４の（ａ）のソースプログラムを、図２のフローチャー
ト中のＳ９で本発明に係るベクトル長削減方式に従って
生成したオブジェクトのイメージを示す。ここで、図中
のから、〇10について、図４の（ｃ）のから、
〇10で順次詳細に説明する。

【００４２】図４の（ｃ）において、は、ベクトル長
が１τで処理できる要素数（例えば１６要素数）で割り
切れたので、ベクトル長削減方式が選択され、v1v1の値
を１０とする（要素数１０のままとする）。

【００４３】は、図４の（ｂ）のの命令vload vr1,
b(1:10)によって、ｂの要素（１〜１０）を、vr1にロー
ドする。これは、メモリ上の要素１から要素１０のデー
タ（ここでは、１．０）をベクトルレジスタvr1に図示
のようにロードする。

【００４４】は、図４の（ｂ）のの命令vslid vr2,
1,vr1によって、ベクトルレジスタvr1にロードされた要
素を、ベクトルレジスタvr2に例えば１要素スライドし
て格納する。ここで、ベクトルレジスタvr2の末尾要素
(？)は格納されていない。

【００４５】は、図４の（ｂ）のの命令v1v1 9によ
って、ベクトル長を−１し、９とする。は、図４の（ｂ）のの命令vadd vr3,vr1,vr2によっ
て、ベクトルレジスタvr1とベクトルレジスタvr2の内容
を加算してその加算結果をベクトルレジスタvr3に格納
する演算を行う。この結果、図示のようにベクトルレジ
スタvr3には、９要素分の加算結果、２．０という値が
格納される。

【００４６】は、図４の（ｂ）のvstore vr3,a(1,
9)によって、ベクトルレジスタvr3のデータがメモリ上
のa(1,9)にストアされる。は、図４の（ｂ）のload r1,b(10)によって、ベク
トルレジスタvr1の１０要素目の演算が不足しているの
でその演算に対しては、スカラ命令で演算する。ここで
は、b(10)要素をメモリからレジスタ(スカラレジスタ)
にロードする。

【００４７】は、図４の（ｂ）のload r2,b(11)に
よって、ベクトルレジスタvr1の１１要素目の演算が不
足しているのでその演算に対しては、スカラ命令で演算
する。ここでは、b(11)要素をメモリからレジスタ(スカ
ラレジスタ)にロードする。

【００４８】は、図４の（ｂ）のadd r3,r1,r2によ
って、レジスタr1とレジスタr2の内容を加算してその加
算結果をレジスタr3に格納する演算を行う。この結果、
図示のようにレジスタr3には、１０要素目と１１要素目
の加算結果、２．０という値が格納される。

【００４９】〇10は、図４の（ｂ）の〇10 store r3,a
(10)によって、レジスタr3のデータをメモリのa(10)に
ストアする。以上によって、図４の（ａ）のソースプロ
グラム１中の隣接するメモリアクセス命令でアクセスす
る要素数が１τで処理できる要素数あるいはその整数倍
に等しい場合にベクトル長削減方式として、から、
〇10の命令列を自動生成することにより、重複したメモ
リアクセスを無くし（スライド命令によって重複した部
分のデータをベクトルレジスタ間でスライドして他のベ
クトルレジスタに格納し）、隣接したメモリアクセス命
令をベクトル計算機上で高速並列実行させることが可能
となる。特に、ベクトル長削減方式では、隣接するメモ
リアクセス命令が１回で処理する要素数が１τで処理で
きる要素数の整数倍のときに適用し、ベクトル演算より
も、スカラ演算の方が高速実行できるのでこの特質を有
効に利用し、より高速実行可能な命令列を自動生成した
ものである。

【００５０】図５は、本発明の説明図（その３）を示
す。これは、既述した図３のベクトル長増加方式および
図４のベクトル長削減方式のメリットおよびデメリット
を表にまとめたものであって、図示の下記の通りであ
る。

【００５１】ベクトル長増加方式（図３）ベクトル長削減方式（図４）メリット：スカラ演算補充の不用マスク生成の不用デメリット：マスク生成スカラ演算補充したがって、これらメリット／デメリットを考慮して最
適なベクトル長増加方式あるいはベクトル長削減方式を
選択使用すればよい。例えば既述したように、ベクトル
レジスタを使用して１τで並列処理できる要素数（例え
ば１６）に等しいときはベクトル削減方式を採用し、マ
スク生成を不用とし、スカラ演算補充（図４の〜、
〇10)を行い、高速化を図る。一方、等しくないときに
ベクトル長増加方式を採用し、スカラ演算補充を不用と
し、マスク生成（図３の）を行い、高速化を図る。
尚、ベクトルレジスタを使用して１τで並列処理できる
要素数（例えば１６）に等しいか等しくないかで、ベク
トル長削減方式あるいはベクトル長増加方式のいずれか
を選択したが、他の基準によっていずれかを選択するよ
うにしてもよい。

【００５２】図６は、本発明のハードウェアブロック図
を示す。これは、既述した図１から図５によって生成し
たオブジェクト１０を、ベクトル計算機上で実行すると
きに必要な本発明に係るハードウェアのブロック図であ
る。

【００５３】図６において、ＣＰＵ２１は、オブジェク
ト１０を読み込んで各種処理を行うものである。ここで
は、ＣＰＵ２１は、オブジェクト１０を解析して既述し
たベクトル命令を検出したときに図示のベクトル命令を
ベクトルプロセッサ（コプロセッサ）２２に通知した
り、既述したスカラレジスタ命令を検出したときに図示
のスカラレジスタ読み出しデータを通知したり、スカラ
レジスタ書き込みデータを通知したりなどする。

【００５４】ベクトルプロセッサ２２は、ベクトル命令
に従い処理を行うものであって、ＣＰＵ２１との間でデ
ータの授受を行うＣＰＵインタフェース手段２３、受信
したベクトル命令を解析して該当制御を指示する命令制
御手段２４、命令制御手段２４からの指示に従い演算す
る演算手段２５、ＶＲ／ＭＲ（ベクトルレジスタなどの
レジスタ）２６、主記憶アクセス手段２７、ＶＣＲ（ベ
クトルコントロール手段）２８などから構成されるもの
である。

【００５５】主記憶２９は、各種データなどを格納する
メモリである。ここで、ＣＰＵ２１がオブジェクトを読
み込んで解析し、ベクトル命令と判明したときにベクト
ルプロセッサ２２に当該ベクトル命令を通知し、通知を
受けたベクトルプロセッサ２２の命令制御手段２４がこ
のベクトル命令を解析して指示を行い、この指示に従い
演算手段２５がＶＲ／ＭＲ２６上のデータの演算を行
い、その結果を格納したり、ＣＰＵ２１に通知したりな
どし、一連の処理を実行する。

【００５６】

【発明の効果】以上説明したように、本発明によれば、
ソースプログラム１中の隣接するメモリアクセス命令に
ついてベクトル計算機上で動作するスライド命令によっ
て重複した部分のデータをベクトルレジスタ間でスライ
ドして他のベクトルレジスタに格納する命令を自動生成
したオブジェクト１０を出力する構成を採用しているた
め、隣接するメモリアクセス命令が存在するときに重複
したメモリアクセスを削減してベクトル計算機の実行性
能の向上を図ることが可能となる。また、隣接するメモ
リアクセス命令が１τで処理できる要素数の整数倍と一
致したときにベクトル長削減方式を選択し、不一致のと
きにベクトル長増加方式を選択することで、並列処理す
る要素数に最適な方式を自動選択し、より高速化を図る
ことが可能となる。

【図面の簡単な説明】

【図１】本発明のシステム構成図である。

【図２】本発明の動作説明フローチャートである。

【図３】本発明の説明図（その１）である。

【図４】本発明の説明図（その２）である。

【図５】本発明の説明図（その３）である。

【図６】本発明のハードウェアブロック図である。

【図７】従来技術の説明図である。

【符号の説明】

１：ソースプログラム２：コンパイラ３：プログラム入力手段４：ソース解析手段５：ベクトル化手段６：最適化手段７：隣接アクセス認識手段８：スライド命令利用手段９：コード生成手段１０：オブジェクト

───────────────────────────────────────────────────── フロントページの続き (72)発明者森島政人静岡県静岡市南町18番１号株式会社富士通静岡エンジニアリング内 (72)発明者青木正樹神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5B056 AA04 BB32 EE07 FF05 FF10 5B081 CC33 CC41

Claims

【特許請求の範囲】

【請求項１】隣接するメモリアクセス命令についてベク
トル計算機上で高速実行する命令を生成するメモリアク
セス処理装置において、ソースプログラムを解析して隣接するメモリアクセス命
令を検出する手段と、上記検出された隣接するメモリアクセス命令について両
者に必要なデータを含むメモリアクセス命令に変換する
手段と、上記変換した命令によってメモリから読み出されてロー
ドされた第１のベクトルレジスタのデータを、スライド
させて第２のベクトルレジスタに格納させる命令を生成
する手段と、上記第１のベクトルレジスタと上記第２のベクトルレジ
スタとの演算を行う命令を生成する手段とを備えたこと
を特徴とするメモリアクセス処理装置。
【請求項２】隣接するメモリアクセス命令についてベク
トル計算機上で高速実行する命令を生成するメモリアク
セス処理装置において、ソースプログラムを解析して隣接するメモリアクセス命
令を検出する手段と、上記検出された隣接するメモリアクセス命令について両
者に必要なデータを含むメモリアクセス命令に変換する
手段と、上記変換した命令によってメモリから読み出されてロー
ドされた第１のベクトルレジスタのデータを、スライド
させて第２のベクトルレジスタに格納させる命令を生成
する手段と、上記第２のベクトルレジスタ中の処理不要な要素にマス
クする命令を生成する手段と、上記マスク命令で真（有意）となった要素について上記
第１のベクトルレジスタと上記第２のベクトルレジスタ
との演算を行う命令を生成する手段とを備えたことを特
徴とするメモリアクセス処理装置。
【請求項３】隣接するメモリアクセス命令についてベク
トル計算機上で高速実行する命令を生成するメモリアク
セス処理装置において、ソースプログラムを解析して隣接するメモリアクセス命
令を検出する手段と、上記隣接するメモリアクセス命令中の１つの命令によっ
てメモリから読み出されてロードされた第１のベクトル
レジスタのデータを、スライドさせて第２のベクトルレ
ジスタに格納させる命令を生成する手段と、上記第１のベクトルレジスタと上記第２のベクトルレジ
スタとの有意な部分の演算を行う命令を生成する手段と
上記演算の実行されなかった要素についてメモリから読
み出してレジスタにそれぞれロードする命令を生成する
手段と、上記ロードしたレジスタの間の演算を行う命令を生成す
る手段とを備えたことを特徴とするメモリアクセス処理
装置。
【請求項４】上記隣接するメモリアクセス命令の要素数
が１回のベクトル演算処理で実行し得る最大要素数の整
数倍以外のときに上記請求項１あるいは請求項２を選択
して実行することを特徴とするメモリアクセス処理装
置。
【請求項５】上記隣接するメモリアクセス命令の要素数
が１回のベクトル演算処理で実行し得る最大要素数の整
数倍のときに上記請求項３を選択して実行することを特
徴とするメモリアクセス処理装置。
【請求項６】隣接するメモリアクセス命令が同じ配列で
あることを特徴とする請求項１から請求項５のいずれか
に記載のメモリアクセス処理装置。
【請求項７】ソースプログラムを解析して隣接するメモ
リアクセス命令を検出する手段と、上記検出された隣接するメモリアクセス命令について両
者に必要なデータを含むメモリアクセス命令に変換する
手段と、上記変換した命令によってメモリから読み出されてロー
ドされた第１のベクトルレジスタのデータを、スライド
させて第２のベクトルレジスタに格納させる命令を生成
する手段と、上記第１のベクトルレジスタと上記第２のベクトルレジ
スタとの演算を行う命令を生成する手段として機能させ
るプログラムを記録したコンピュータ読取可能な記録媒
体。
【請求項８】ソースプログラムを解析して隣接するメモ
リアクセス命令を検出する手段と、上記検出された隣接するメモリアクセス命令について両
者に必要なデータを含むメモリアクセス命令に変換する
手段と、上記変換した命令によってメモリから読み出されてロー
ドされた第１のベクトルレジスタのデータを、スライド
させて第２のベクトルレジスタに格納させる命令を生成
する手段と、上記第２のベクトルレジスタ中の処理不要な要素にマス
クする命令を生成する手段と、上記マスク命令で真（有意）となった要素について上記
第１のベクトルレジスタと上記第２のベクトルレジスタ
との演算を行う命令を生成する手段として機能させるプ
ログラムを記録したコンピュータ読取可能な記録媒体。
【請求項９】ソースプログラムを解析して隣接するメモ
リアクセス命令を検出する手段と、上記隣接するメモリアクセス命令中の１つの命令によっ
てメモリから読み出されてロードされた第１のベクトル
レジスタのデータを、スライドさせて第２のベクトルレ
ジスタに格納させる命令を生成する手段と、上記第１のベクトルレジスタと上記第２のベクトルレジ
スタとの有意な部分の演算を行う命令を生成する手段と
上記演算の実行されなかった要素についてメモリから読
み出してレジスタにそれぞれロードする命令を生成する
手段と、上記ロードしたレジスタの間の演算を行う命令を生成す
る手段として機能させるプログラムを記録したコンピュ
ータ読取可能な記録媒体。