JPH10228382A

JPH10228382A - コンパイル方式

Info

Publication number: JPH10228382A
Application number: JP9047283A
Authority: JP
Inventors: Junji Sakai; 淳嗣酒井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1997-02-14
Filing date: 1997-02-14
Publication date: 1998-08-25
Also published as: US6113650A

Abstract

(57)【要約】【課題】ＳＩＭＤ命令セットの適用範囲を非アライン
アクセスとなるような配列参照を含む原始プログラムに
まで拡大し、目的プログラムをターゲット計算機上で実
行する際の主記憶アクセス回数を減少させる。【解決手段】添字式解析部１２は、ループ正規化処理
部１１により正規化されたループ構造における非アライ
ンアクセスの有無を解析し、その解析結果を示す配列添
字式情報を添字式情報テーブル１３に登録する。ＳＩＭ
Ｄ命令置換部１４は、配列要素に対する演算処理がＳＩ
ＭＤ命令セットを用いて行われるように、ループ本体で
の演算処理の中間コードおよびループ繰り返し制御部分
の中間コードを修正する。非アラインアクセス処理部１
５は、添字式情報テーブル１３を参照し、ＳＩＭＤ演算
の対象となる非アラインアクセスの部分をアラインアク
セス命令とシフト命令および論理演算命令との組合せに
変換する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、高級言語プログラ
ムを目的プログラムに変換するコンパイル方式に関し、
特に複数の配列データの各要素（配列要素）を一括処理
する命令セットを生成する際の最適化を行うコンパイル
方式に関する。

【０００２】

【従来の技術】マルチメディア処理を高速に行うため
に、ＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ
ＭｕｌｔｉｐｌｅＤａｔａｓｔｒｅａｍ）命令や
マルチメディア拡張命令と呼ばれる命令セット（以下、
単に「ＳＩＭＤ命令セット」と呼ぶ）を有する計算機が
ある。

【０００３】以下では、まずＳＩＭＤ命令セットについ
て説明する。

【０００４】ＳＩＭＤ命令セットは、ＳＩＭＤ型と呼ば
れる集合型のデータ（ＳＩＭＤ型データ）に対して一括
して演算処理を行う命令群である。

【０００５】ＳＩＭＤ型データの構造を図３に示す。Ｓ
ＩＭＤ型データのサイズはワードサイズに等しいか、あ
るいはその整数倍である。ここで、ワードとは、計算機
が主記憶とレジスタとの間でデータを転送したり、レジ
スタや主記憶間で演算を行う場合の、処理の基本単位と
なるデータサイズのことである。図３の場合、１個のＳ
ＩＭＤ型データ２０は４個のＳＩＭＤ要素型データ２
１，２２，２３，および２４から構成されているが、一
般には、ＳＩＭＤ型データは２個，４個，または８個の
ＳＩＭＤ要素型データから構成される。各ＳＩＭＤ要素
型データのサイズは、同一であり、通常８ビット，１６
ビット，または３２ビットである。１つのＳＩＭＤ型デ
ータに含まれるＳＩＭＤ要素型データの個数を、ＳＩＭ
Ｄ並列度と呼ぶ。

【０００６】ＳＩＭＤ命令は、ＳＩＭＤ型データ中の各
ＳＩＭＤ要素型データに対し、加算，減算，および乗算
等の同一演算を施す。１つの例として、各ＳＩＭＤ要素
型データのサイズが１６ビットでＳＩＭＤ並列度が４で
あるようなＳＩＭＤ型データを対象に加算処理を行うＳ
ＩＭＤ命令の動作を、図４に示す。同図において、レジ
スタ３０とレジスタ３１とは、ＳＩＭＤ型データの披演
算子を保持している。ＳＩＭＤ加算器３２内の４個の独
立した加算器（ＡＤＤ）３３，３４，３５，および３６
は、披演算子の各々のＳＩＭＤ要素型データを加算し、
その結果を演算結果出力先のレジスタ３７に格納する。

【０００７】ＳＩＭＤ命令セットは、図５に示されるＣ
プログラムのように、主記憶上に配置された配列データ
の各要素に対して同一の演算を施す処理に有効である。

【０００８】図６を用いてＳＩＭＤ命令による処理の流
れを説明する。主記憶上に置かれた配列Ａの部分配列４
０は、通常のロード命令によってワード単位に計算機の
レジスタ３０に読み込まれる。同様にして、配列Ｂの部
分配列４１もワード単位にレジスタ３１に読み込まれ
る。ＳＩＭＤ加算命令によってレジスタ３０とレジスタ
３１との内容がＳＩＭＤ加算器３２によって加算され、
加算結果がレジスタ３７に格納される。最後に、レジス
タ３７の内容が通常のストア命令によって、主記憶上に
置かれた配列Ｃの部分配列４２上にワード単位で書き込
まれる。

【０００９】このようにＳＩＭＤ命令セットを用いるこ
とにより、１ワードの処理で複数の配列要素に対して同
一の処理を施すことができるようになり、プログラムを
より高速に実行することができる。各配列要素に対する
演算処理が逐次的に記述されたプログラムを、ＳＩＭＤ
命令セットを用いて各配列要素を演算処理するようなプ
ログラムに変換することを、ＳＩＭＤ化と呼ぶ。

【００１０】このようなＳＩＭＤ演算処理と同様の処理
は、ベクトル型スーパコンピュータでも用いられてい
る。図７に示すように、スーパコンピュータでは、主記
憶上に置かれた配列の部分配列５０および５１がベクト
ル計算機５２内部のベクトルレジスタ５３および５４に
ロードされる。ベクトル演算器５６は、ベクトルレジス
タ５３とベクトルレジスタ５４との間で演算を行って、
その演算結果をベクトルレジスタ５５に格納する。最後
に、ベクトルレジスタ５５の内容が主記憶上の配列領域
５７に書き戻される。ベクトル型スーパコンピュータに
対しては、逐次的に記述されたプログラムの中からベク
トル命令で実行可能な部分が探し出され、その部分をベ
クトル命令を用いたプログラムに変換する自動ベクトル
化コンパイラが実用化されている。自動ベクトル化コン
パイラは、原始プログラム中の配列の演算順序を解析
し、プログラムの持つ意味を変えることなく、ベクトル
命令を用いた目的プログラムを生成する。

【００１１】しかし、自動ベクトル化コンパイル技術を
ＳＩＭＤ化を行うコンパイラにそのまま適用することは
できない。その最大の理由は、配列要素に対するアクセ
スの自由度の違いによる。

【００１２】ベクトル実行の場合には、各配列要素の大
きさはワードサイズであり、主記憶上の部分配列５０と
ベクトルレジスタ５３との間の転送はワードサイズの整
数倍で行われる。主記憶上に配置された配列のどの要素
から始まる部分配列でも、ベクトルレジスタとの間での
転送が可能である。他方、ＳＩＭＤ命令セットによる実
行の場合には、１つのＳＩＭＤ型データの中に複数の配
列要素がパックされている。主記憶とレジスタとの間の
データ転送はＳＩＭＤ型データのサイズで行われ、しか
も、転送対象の主記憶データ領域は、ワード境界と呼ば
れる特別なアドレスから開始する領域でなければならな
い。すなわち、配列の任意の要素から始まる部分配列を
主記憶とレジスタとの間で転送するのは容易ではない。
そのため、ＳＩＭＤ命令セットを有する計算機向けのプ
ログラムは、アクセスする配列要素のアドレス条件を考
慮しつつアセンブラによって人手で記述されていた。

【００１３】

【発明が解決しようとする課題】ＳＩＭＤ命令セットを
有する計算機向けのプログラムを能率良く開発するに
は、ＳＩＭＤ命令セットを効率良く使用した目的プログ
ラムを生成できるコンパイラ（ＳＩＭＤ化コンパイラ）
が必要である。

【００１４】このようなＳＩＭＤ化コンパイラを作成す
る上では、主記憶上のデータに対するアクセスに関し、
次の２つの課題を解決しなければならない。

【００１５】第１の課題は、ＳＩＭＤ命令セット自体で
は主記憶上でワード境界をまたぐ領域に置かれたデータ
に対する演算ができないことである。

【００１６】第２の課題は、ワード境界をまたぐデータ
を含む主記憶データに対してアクセスする際に、主記憶
データに対するアクセスの回数が多くなることである。

【００１７】これらの課題について、以下に詳しく述べ
る。なお、ワード境界に沿って配置されたデータのアク
セス（ワード境界をまたがないアクセス）をアラインア
クセスと呼び、ワード境界に沿っていないアクセス（ワ
ード境界をまたぐアクセス）を非アラインアクセスと呼
ぶことにする。

【００１８】まず、第１の課題について述べる。この課
題に起因して、「プログラム中のあるループ構造に非ア
ラインアクセス部分が含まれているとその部分のＳＩＭ
Ｄ化が行えず、生成された目的プログラムの実行性能が
低下する」という問題点が生じる。

【００１９】図８を用いて、アラインアクセスと非アラ
インアクセスとの違いを説明する。同図の例では、１ワ
ードは３２ビット（４バイト）であり、主記憶とレジス
タとの間の転送単位は２ワード（６４ビット）であり、
ワード境界は主記憶上のバイトアドレスが４の整数倍と
なる位置であり、配列要素の大きさは１６ビット（２バ
イト）であり、アドレス表記は１６進数である。

【００２０】主記憶上のアドレス００から始まる４つの
配列要素６０〜６３をレジスタにロードする場合には、
これらの４要素のデータ領域（アドレス００から始まり
アドレス０８の直前までのデータ領域）はワード境界に
沿っている。したがって、通常のロード命令によってア
ラインアクセスすることができる。一方、アドレス０Ｅ
から始まる４つの配列要素６４〜６７をレジスタにロー
ドしたい場合には、これらの４要素のデータ領域（アド
レス０Ｅから始まりアドレス１６の直前までのデータ領
域）はワード境界に沿っておらず、非アラインアクセス
が要求される。

【００２１】多くの計算機は、非アラインアクセス用の
命令セットを備えておらず、例えば、上記のアドレス０
Ｅから始まる４要素に対する処理はそのままではＳＩＭ
Ｄ化できない。そのため、コンパイラによる自動ＳＩＭ
Ｄ化の適用可能範囲が狭められてしまい、生成された目
的コードの実行性能が向上しないことになる。この種の
非アラインアクセスは、アラインアクセスとそれに付随
するいくつかの補助的な演算との組で置き換える必要が
ある。

【００２２】次に、第２の課題について述べる。この課
題に起因して、「主記憶上の同一領域のアクセスが繰り
返されることによる性能低下が起こる」という問題点が
生じる。個々の配列要素のアクセスに関しては、従来か
らの最適化技術によってアクセス回数を減らすことがで
きる。すなわち、主記憶からレジスタ上に値を転送し、
そのレジスタ上で演算処理を行い、その演算結果を主記
憶に書き戻すことで、主記憶の同一領域へのアクセス回
数を最適化することができる。しかし、プログラムのＳ
ＩＭＤ化を行う場合には、原始プログラム上では完全に
一致していない演算対象であっても、結果的に主記憶上
の同一領域に対するアクセスが発生することがある。

【００２３】図９に示すＣプログラムを例にとり、図１
０を用いて、上記の問題点を説明する。

【００２４】このプログラムをＳＩＭＤ命令セットを用
いて実行させると、ループ本体の最初の実行で配列Ａの
第０要素から第３要素までと、同じく配列Ａの第１要素
から第４要素までとが必要になる。前者はアラインアク
セスによりレジスタ７０にロードするだけで済む。しか
し、後者は非アラインアクセスとなるため、第１要素か
ら第３要素までを含むＳＩＭＤ型データ（レジスタ７１
が保持するデータ）と第４要素を含むＳＩＭＤ型データ
（レジスタ７２が保持するデータ）との２つに分割して
アラインアクセスすることになる。このうち、第０要素
から第３要素までを含むワードは既にアクセスされてお
り、重複してアクセスするのは実行性能を低下させる要
因となる。つまり、Ａ［０］〜Ａ［３］とＡ［１］〜Ａ
［４］という、原始プログラム上では完全には一致しな
いデータ領域に対するアクセスでも、ＳＩＭＤ化のため
の変換を行うと重複したアクセスを生み出すことにな
る。

【００２５】本発明の目的は、上述の点に鑑み、以下の
およびに示す事項を可能ならしめるコンパイル方式
（複数データの一括処理命令を生成するコンパイル方
式）を提供することにある。

【００２６】ＳＩＭＤ命令セットの適用範囲を、非
アラインアクセスとなるような配列参照を含む原始プロ
グラムにまで拡大する。

【００２７】目的プログラムをターゲット計算機上
で実行する際の主記憶アクセス回数を減少させて、実行
性能を向上させる。

【００２８】

【課題を解決するための手段】本発明のコンパイル方式
は、構文解析部，最適化処理部，およびコード生成部を
有するコンパイラ内の最適化処理部において、ＳＩＭＤ
化処理部入力中間言語プログラムを入力してその中のル
ープ構造を正規化するループ正規化処理部と、前記ルー
プ正規化処理部によって正規化されたループ構造におけ
る非アラインアクセスの有無を解析し、その解析結果を
示す配列添字式情報を添字式情報テーブルに登録する添
字式解析部と、配列要素に対する演算処理がＳＩＭＤ命
令セットを用いて行われるように、ループ本体での演算
処理の中間コードおよびループ繰り返し制御部分の中間
コードを修正するＳＩＭＤ命令置換部と、前記添字式情
報テーブルに登録された添字式情報を参照することで、
ＳＩＭＤ演算の対象となる主記憶上の配列要素のうち非
アラインアクセスとなる部分を認識し、配列要素参照時
のアドレスのワード境界からの変位を計算することでル
ープ中におけるワード境界から開始しない主記憶領域に
対するワードアクセスをワード境界に沿った主記憶領域
に対するワードアクセスに変換することで、非アライン
アクセスの部分をアラインアクセス命令とシフト命令お
よび論理演算命令との組合せに変換する非アラインアク
セス処理部とを有する。

【００２９】

【発明の実施の形態】本発明の実施の形態について、図
面を参照して詳細に説明する。

【００３０】図１（ａ）および（ｂ）は、本発明のコン
パイル方式の実施の形態の全体構成を示すブロック図で
ある。

【００３１】図１（ａ）に示すように、このコンパイル
方式では、高級言語で記述された原始プログラム１が、
コンパイラ２で処理され、最終的にはＳＩＭＤ命令セッ
トを含む目的プログラム９に変換される。

【００３２】コンパイラ２は、与えられた原始プログラ
ム１の構文を解析して中間言語プログラム（中間コード
の集合）に変換する構文解析部３と、中間言語プログラ
ムに対してＳＩＭＤ化を含むいくつかの最適化処理を施
す最適化処理部４と、最適化された中間言語プログラム
を目的プログラム９に変換するコード生成部５とを含ん
で構成されている。

【００３３】最適化処理部４は、中間言語プログラムに
対して従来からの最適化手法である定数伝搬，複写伝
搬，演算強度軽減，および共通部分式削除等の最適化手
法を適用するスカラ最適化処理部６と、中間言語プログ
ラム中からＳＩＭＤ命令セットで実行可能な部分を探し
出してその部分をＳＩＭＤ命令セット用の中間コードに
変換するＳＩＭＤ化処理部７と、ＳＩＭＤ化された中間
言語プログラムに対して再度最適化を試みる後処理部８
とを含んで構成されている。

【００３４】図１（ｂ）を参照すると、ＳＩＭＤ化処理
部７は、ループ正規化処理部１１と、添字式解析部１２
と、添字式情報テーブル１３と、ＳＩＭＤ命令置換部１
４と、非アラインアクセス処理部１５と、メモリアクセ
ス最適化処理部１６とを含んで構成されている。

【００３５】以下に、ＳＩＭＤ化処理部７内の各構成要
素について、説明を加える。

【００３６】ループ正規化処理部１１は、ＳＩＭＤ化処
理部入力中間言語プログラム１０を入力してその中のル
ープ構造を正規化する。すなわち、それ以降のＳＩＭＤ
化処理を行いやすくするために、様々な形式のループ構
造（ＳＩＭＤ化処理部入力中間言語プログラム１０中の
ループ構造）を正規化されたループ構造に変換する。

【００３７】添字式解析部１２は、ループ正規化処理部
１１によって正規化されたループ構造のループ本体中の
配列要素参照における配列添字式とループ制御変数との
関係を調査することによって非アラインアクセスの有無
を解析し、その解析結果（非アラインアクセスの有無を
示唆する情報）を示す配列添字式情報を添字式情報テー
ブル１３に登録する。

【００３８】ＳＩＭＤ命令置換部１４は、配列要素に対
する演算処理がＳＩＭＤ命令セットを用いて行われるよ
うに、ループ本体での演算処理の中間コードおよびルー
プ繰り返し制御部分の中間コードを修正する。

【００３９】非アラインアクセス処理部１５は、添字式
情報テーブル１３に登録された添字式情報を参照するこ
とで、ＳＩＭＤ演算の対象となる主記憶上の配列要素の
うち非アラインアクセスとなる部分を認識し、配列要素
参照時のアドレスのワード境界からの変位を計算するこ
とでループ中におけるワード境界から開始しない主記憶
領域に対するワードアクセスをワード境界に沿った主記
憶領域に対するワードアクセスに変換し、非アラインア
クセスの部分をアラインアクセス命令の組とシフト命令
および論理演算命令との組合せに変換する。

【００４０】メモリアクセス最適化処理部１６は、主記
憶アクセス回数を削減するために、ループ本体の中間コ
ードに対し、ループアイテレーション内およびループア
イテレーション間にわたる最適化処理を施し、ＳＩＭＤ
化処理部出力中間言語プログラム１７を出力する。すな
わち、非アラインアクセス処理部１５の出力結果に対
し、主記憶領域に対する定義・引用関係をループアイテ
レーション内およびループアイテレーション間にまたが
って解析し、同一主記憶領域へのアクセスをレジスタヘ
のアクセスで置き換えることで主記憶領域に対するワー
ドアクセス回数の削減を行う。

【００４１】なお、メモリアクセス最適化処理部１６が
存在しなくても本発明の実現は可能である（ただし、こ
の場合には、主記憶アクセス回数の削減という効果は得
られない）。また、添字式解析部１２の解析の手法は、
当該ループ構造中で参照される配列要素データ領域の実
行時における主記憶上での配置を調査して非アラインア
クセスの有無を解析するものであれば、ループ本体中の
配列要素参照における配列添字式とループ制御変数との
関係の調査に基づく解析には限定されない。

【００４２】図２は、ＳＩＭＤ化処理部７の処理を示す
流れ図である。この処理は、ＳＩＭＤ化処理部入力中間
言語プログラム入力ステップ２０１と、ループ構造正規
化ステップ２０２と、配列要素参照検出ステップ２０３
と、ループ制御変数線形式表現可否判定ステップ２０４
と、第１配列添字式情報登録ステップ２０５と、第２配
列添字式情報登録ステップ２０６と、配列要素参照終了
判定ステップ２０７と、ループ構造検出ステップ２０８
と、ＳＩＭＤ化可否判定ステップ２０９と、ループ構造
ＳＩＭＤ化ステップ２１０と、ループ構造終了判定ステ
ップ２１１と、非アラインアクセス有無判定ステップ２
１２と、命令列置換ステップ２１３と、主記憶アクセス
回数削減最適化ステップ２１４と、ＳＩＭＤ化処理部出
力中間言語プログラム出力ステップ２１５とからなる。

【００４３】次に、以上のような形態を有する本発明の
コンパイル方式の動作について説明する。

【００４４】初めに、図１（ａ）に示すコンパイラ２の
処理の概略について説明する。

【００４５】コンパイラ２内の構文解析部３は、与えら
れた原始プログラム１の構文を解析して中間コードと呼
ばれる内部形式に変換し、その変換結果（中間言語プロ
グラム）を最適化処理部４内のスカラ最適化処理部６に
渡す。

【００４６】スカラ最適化処理部６は、渡された中間言
語プログラムに対し、定数伝搬，複写伝搬，演算強度軽
減，および共通部分式削除等のＳＩＭＤ化以外の最適化
処理を行う。これらの各種最適化手法については、例え
ば、“ＣｏｍｐｉｌｅｒｓＰｒｉｎｃｉｐｌｅｓ，Ｔｅ
ｃｈｎｉｑｕｅｓ，ａｎｄＴｏｏｌｓ”（Ａ．Ｖ．Ａ
ｈｏほか，１９８６年，Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ
Ｐｕｂｌｉｓｈｅｒｓ）の第９章および第１０章に述
べられている。

【００４７】スカラ最適化処理部６は、最適化を施した
中間言語プログラム（この中間言語プログラムが図１
（ｂ）中のＳＩＭＤ化処理部入力中間言語プログラム１
０に該当する）をＳＩＭＤ化処理部７に渡す。

【００４８】ＳＩＭＤ化処理部７は、中間言語プログラ
ムからＳＩＭＤ化の可能なループ構造を探し、それらを
ＳＩＭＤ命令セットを用いたループ構造に変換し、変換
後のループ構造を有する中間言語プログラム（この中間
言語プログラムが図１（ｂ）中のＳＩＭＤ化処理部出力
中間言語プログラム１７に該当する）を後処理部８に渡
す。なお、ＳＩＭＤ化処理部７の内部の動作について
は、後述する。

【００４９】後処理部８は、ＳＩＭＤ化後の中間言語プ
ログラムに対して更なるコード最適化を試み、その処理
結果をコード生成部５に渡す。

【００５０】コード生成部５は、ターゲット計算機に関
する情報に基づき、与えられた中間言語プログラムをタ
ーゲット計算機の命令列の集合である目的プログラム９
に変換し、その目的プログラム９を出力する。

【００５１】次に、図１（ｂ）および図２を参照して、
ＳＩＭＤ化処理部７の内部の動作について説明する。

【００５２】ＳＩＭＤ化処理部７には、ＳＩＭＤ化以外
の最適化が行われた中間言語プログラム（ＳＩＭＤ化処
理部入力中間言語プログラム１０）が入力され、以下に
示すような処理が行われる（図２参照）。

【００５３】まず、ループ正規化処理部１１は、ＳＩＭ
Ｄ化処理部入力中間言語プログラム１０を入力し（ステ
ップ２０１）、その中の各ループ構造を正規化する（ス
テップ２０２）。ここで、「ループ構造の正規化」と
は、「当該ループ構造が１つのループ制御変数を持ち、
そのループ制御変数の初期値が０になり、ループ繰り返
し毎の増分値が１になる」ようにループ構造を変換する
処理をいう。

【００５４】なお、ループ正規化処理部１１は、ループ
制御変数を持たないループ構造に対しては、初期値０で
増分値１の変数を新たに導入し、それをループ制御変数
とみなす。

【００５５】ループ正規化処理部１１は、ループ正規化
処理が施された中間コードを添字式解析部１２に渡す。

【００５６】添字式解析部１２は、ループ本体の中間コ
ード群から配列要素を参照している部分（配列要素参
照）を検出し（ステップ２０３）、検出した各配列要素
参照について（ステップ２０７参照）、それぞれの参照
時の配列添字式をループ制御変数の線形式で表現できる
か否かを調査する（ステップ２０４）。

【００５７】添字式解析部１２は、ステップ２０４で
「線形式で表現可能」と判定した場合には、当該配列要
素参照とその添字式の線形式との組を示す配列添字式情
報を添字式情報テーブル１３に登録する（ステップ２０
５）。

【００５８】一方、添字式解析部１２は、ステップ２０
４で「線形式で表現不可能」と判定した場合には、当該
配列要素参照は非線形式である旨を示す配列添字式情報
を添字式情報テーブル１３に登録する（ステップ２０
６）。

【００５９】添字式解析部１２は、上記の添字式解析の
後に、中間言語プログラムをＳＩＭＤ命令置換部１４に
渡す。

【００６０】ＳＩＭＤ命令置換部１４は、まず、当該中
間言語プログラム中のループ構造を探し出し（ステップ
２０８）、各ループ構造について（ステップ２１１参
照）、当該ループ構造がＳＩＭＤ化可能であるか否かを
判定する（ステップ２０９）。この判定は次の３つの段
階で行われる。

【００６１】第１に、ループからの途中脱出の構造やル
ープ内の制御構造を調べ、当該ループ構造の全ての制御
構造がＳＩＭＤ命令セットに適合可能であるか否かを判
断する。実現不可能な場合には、当該ループ構造のＳＩ
ＭＤ化を行わない。

【００６２】第２に、添字式情報テーブル１３に登録さ
れている配列添字式情報を参照し、ループ本体内の各配
列要素参照の添字式が全てループ制御変数の線形式で表
現されるか否かを判断する。非線形式が含まれる場合に
は、当該ループのＳＩＭＤ化を行わない。また、線形式
であっても、ループ制御変数に対する係数が１以外の場
合には、ターゲット計算機の備えるＳＩＭＤ命令セット
に適合可能であるか否かを調査する。この調査で不適合
の場合には、当該ループ構造のＳＩＭＤ化を行わない。

【００６３】第３に、ループ内の単純変数および配列変
数の定義と引用との関係を解析し、ＳＩＭＤ化による変
数の定義・引用順序の変化によってプログラムの実行結
果が変化しないかどうかを調査する。この調査には、デ
ータ依存関係解析と呼ばれる従来からの手法を適用する
ことができる。データ依存関係解析の手法に関しては、
例えば、“ＳｕｐｅｒｃｏｍｐｉｌｅｒｓｆｏｒＰ
ａｒａｌｌｅｌａｎｄＶｅｃｔｏｒＣｏｍｐｕｔ
ｅｒｓ”（Ｈ．Ｚｉｍａほか，１９９１年，Ａｄｄｉｓ
ｏｎ−ＷｅｓｌｅｙＰｕｂｌｉｓｈｉｎｇＣｏｍｐ
ａｎｙ）の第４章に述べられている。データ依存関係解
析の結果、プログラムの実行結果が変化してしまうこと
が判明した場合には、当該ループ構造のＳＩＭＤ化を行
わない。

【００６４】ＳＩＭＤ命令置換部１４は、以上の３つの
段階における条件を全て満たしている場合には、当該ル
ープ構造はＳＩＭＤ化可能であると判定し、ＳＩＭＤ化
可能と判定した各ループ構造に対し、「ループがＳＩＭ
Ｄ並列度分だけ展開され、ループ本体中ではＳＩＭＤ並
列度分の配列要素に対してＳＩＭＤ命令セットを用いた
演算処理を行う」ように、中間コードを変換する（ステ
ップ２１０）。

【００６５】ＳＩＭＤ命令置換部１４は、全てのループ
構造についてステップ２０８〜ステップ２１０の処理を
終了すると（ステップ２１１参照）、ステップ２１０で
ＳＩＭＤ化されたループ構造を有する中間言語プログラ
ムを非アラインアクセス処理部１５に渡す。

【００６６】非アラインアクセス処理部１５は、ＳＩＭ
Ｄ化された各ループ構造の中を走査し、ＳＩＭＤ命令セ
ットによる配列要素参照がアラインアクセスになってい
るか否か（非アラインアクセスが存在しないかどうか）
を調査する（ステップ２１２）。与えられた配列要素参
照がアラインアクセスか否かは、添字式情報テーブル１
３に登録されている配列添字式情報と、配列全体の主記
憶上での配置，配列要素サイズ，およびターゲット計算
機のワードサイズとを基に、判定する。

【００６７】非アラインアクセス処理部１５は、ステッ
プ２１２で「非アラインアクセスが存在する」と判定し
た場合には、中間コード中の当該非アラインアクセス命
令を、参照すべき配列要素群を含む隣接２ワードヘのア
ラインアクセス命令とシフト命令および論理演算命令と
からなる一連の命令列に置き換える（ステップ２１
３）。この処理の結果、ＳＩＭＤ化されたループ構造中
の配列要素参照は、全てアラインアクセスとなる。

【００６８】非アラインアクセス処理部１５は、ステッ
プ２１３の処理後の中間言語プログラム（ステップ２１
２で「非アラインアクセスが存在しない」と判定されて
ステップ２１３の処理が行われなかった中間言語プログ
ラムを含む）をメモリアクセス最適化処理部１６に渡
す。

【００６９】メモリアクセス最適化処理部１６は、ＳＩ
ＭＤ化された各ループ構造の中を走査し、ループ本体で
の配列要素参照に伴う主記憶アクセス回数を削減するよ
うに、中間コードに対して最適化処理を施す（ステップ
２１４）。すなわち、ループアイテレーション内および
ループアイテレーション間で主記憶上の同一ワードをア
クセスする場合には、そのワードを保持するためのレジ
スタを確保し、主記憶上のワードに対するアクセスに代
えてこのレジスタに対するアクセスを行うようにループ
構造の中間コードを変換する。

【００７０】最後に、メモリアクセス最適化処理部１６
は、ステップ２１４の処理後の中間言語プログラム（Ｓ
ＩＭＤ化処理部出力中間言語プログラム１７）を出力す
る（ステップ２１５）。

【００７１】次に、本発明の他の実施の形態について、
図２３を参照して説明する。

【００７２】図２３を参照すると、本発明の他の実施の
形態は、所定のプログラム（図１に示す実施の形態にお
けるＳＩＭＤ化処理部７を実現するためのプログラム）
を記録した記録媒体１０１と、データ処理装置１０２と
を備える。この記録媒体１０１は、磁気ディスク、半導
体メモリその他の記録媒体であってよい。

【００７３】当該所定のプログラムは、記録媒体１０１
からデータ処理装置１０２に読み込まれ、データ処理装
置１０２の動作を制御する。データ処理装置１０２は、
当該所定のプログラムの制御により、ＳＩＭＤ化処理部
入力中間言語プログラム１０に対して、第１の実施の形
態で述べたＳＩＭＤ化処理部７の処理（図１（ｂ）中の
ループ正規化処理部１１，添字式解析部１２，添字式情
報テーブル１３，ＳＩＭＤ命令置換部１４，非アライン
アクセス処理部１５，およびメモリアクセス最適化処理
部１６によって実現される処理）を実行し、ＳＩＭＤ化
処理部出力中間言語プログラム１７を出力する。

【００７４】

【実施例】次に、上記のような実施の形態（図１に示す
実施の形態）を有する本発明のコンパイル方式の一実施
例について詳細に説明する。

【００７５】本実施例のコンパイル方式は、図９に示す
Ｃプログラムを原始プログラム１として用いる場合にお
ける、図１（ａ）および（ｂ）に示す構成を有するコン
パイル方式である。

【００７６】以下に、このような本実施例のコンパイル
方式の動作について説明する。

【００７７】構文解析部３による構文解析処理および最
適化処理部４内のスカラ最適化処理部６によるスカラ最
適化処理を経た後に、ＳＩＭＤ化処理部７には、図１１
のような中間言語プログラム（ＳＩＭＤ化処理部入力中
間言語プログラム１０）が与えられる。

【００７８】ここで、ｔ_n（ｎは正整数）は中間項であ
り、ａｄｒｓ（Ａ）は配列変数Ａの先頭アドレスであ
り、ｍｅｍ１６（ｔ_n）は中間項ｔ_nの値を開始アドレ
スとする主記憶上の１６ビット長データ領域の内容であ
り、ｉｆ−ｇｏｔｏは条件式の値が真の場合のみ指定ラ
ベルに分岐する条件分岐命令である。図１１において、
中間項ｔ₁はループ制御変数として使われている。ま
た、同図の第１列目の番号は、説明のために中間コード
の各命令に付された命令番号である。

【００７９】ループ正規化処理部１１の処理を経た後
に、添字式解析部１２によって、図１２のような配列添
字式情報が添字式情報テーブル１３に登録される。ここ
で、図１２中の「命令番号」は図１１中の配列要素参照
命令に対する番号であり、「係数Ｃｉ」および「係数Ｃ
ｄ」は配列添字式をループ制御変数の線形式で表現した
場合のループ制御変数に対する係数および定数項の値
（単位：バイト）である。

【００８０】本実施例では、原始プログラム１中に記述
された配列添字式そのものではなく、中間コード上で配
列要素をアクセスする際のアドレス式、すなわち実効ア
ドレスを基にした配列添字式情報が収集されている。

【００８１】例えば、図１１中の命令番号６に対応する
配列要素参照の実効アドレスはａｄｒｓ（Ａ）＋ｔ₁＊
２であるが、このうちａｄｒｓ（Ａ）は配列の先頭アド
レスであり、ｔ₁＊２が先頭アドレスからの変位であ
る。そこで、ｔ₁＊２が配列添字式情報とみなされ、係
数Ｃｉの値として２が登録され、係数Ｃｄの値として０
が登録される。

【００８２】同様に、命令番号１３に対する配列要素参
照の実効アドレスはａｄｒｓ（Ａ）＋ｔ₁＊２＋２であ
るが、このうち配列先頭アドレスからの変位はｔ₁＊２
＋２であるから、係数Ｃｉ＝２および係数Ｃｄ＝２なる
配列添字式情報が添字式情報テーブル１３に登録され
る。

【００８３】次に、ＳＩＭＤ命令置換部１４によって、
与えられた中間コードに対してＳＩＭＤ化処理が施さ
れ、図１３に示すような、ＳＩＭＤ化された中間言語プ
ログラムが生成される。ここで、ｓ₆，ｓ₁₃，およびｓ
₁₄はＳＩＭＤデータ型の中間項である。また、ＳＩＭＤ
要素データ型は１６ビット長であり、ＳＩＭＤ並列度は
４であり、ＳＩＭＤ化前の中間コードにおけるループア
イテレーション４回分がＳＩＭＤ化後は１回のループア
イテレーションで実行される。

【００８４】非アラインアクセス処理部１５によって
は、まず、中間言語プログラム上でループ本体中の非ア
ラインアクセス命令が探される。各配列要素参照がアラ
インアクセスであるか否かは、添字式情報テーブル１３
に登録された配列添字式情報を調べることにより判定さ
れる。

【００８５】主記憶上で配列変数が配置される領域の先
頭アドレスは、通常、ワード境界に沿っている。したが
って、配列先頭アドレスからの変位がワードサイズの倍
数、すなわち４の倍数であれば、その配列要素参照はア
ラインアクセスである。図１２に示した添字式情報テー
ブル１３を参照すれば、命令番号６に対する配列要素参
照は係数Ｃｄの値が０であり、この配列要素参照がアラ
インアクセスであることがわかる。一方、命令番号１３
に対する配列要素参照は係数Ｃｄの値が２であり、この
配列要素参照は非アラインアクセスであると判断でき
る。

【００８６】次に、非アラインアクセス処理部１６によ
って、非アラインアクセスとなる各配列要素参照の中間
コードが、主記憶へのアラインアクセスとシフト命令お
よび論理演算命令とを組み合わせた中間コードに置き換
えられる。

【００８７】非アラインアクセスがロードの場合とスト
アの場合とで、置き換えられる中間コードの形態が異な
る。先の例では、図１３中の命令番号７から命令番号１
３までの部分が非アラインアクセスとなる主記憶からの
ロードに該当する。

【００８８】非アラインアクセス処理部１５によって、
この部分（命令番号７から命令番号１３までの部分）が
図１４の命令番号１００から命令番号１１７までの部分
で置き換えられる。係数Ｃｄの値が上記と異なる場合に
も、図１４における命令番号１１２および命令番号１１
４の定数値（これらを各々定数ＬＳＬおよび定数ＬＳＲ
とする）を適切に選ぶことで、上記と同様の中間コード
に置換することができる。係数Ｃｄの値と定数ＬＳＬお
よび定数ＬＳＲとの関係を図１５に示す。

【００８９】主記憶へのストアが非アラインアクセスと
なっている場合には、「一旦主記憶からワード境界に沿
って隣接２ワードをロードし、それらに対してストア処
理を施した後、再度ワード境界に沿って主記憶にストア
する」ような中間コードに置き換えられる。

【００９０】例えば、図１３中の命令番号１５から命令
番号２１までの部分は、図１８における命令番号２００
から命令番号２３３までの部分で置き換えられる。図１
８において、命令番号２０５，２０７，２２２，および
２２４で用いられる定数（これらを順に定数ＳＭＬ，Ｓ
ＳＬ，ＳＭＲ，およびＳＳＲとする）の値は、非アライ
ンアクセスとなるストア命令に対する配列添字式情報の
係数Ｃｄの値に応じて図１９のように定められる。

【００９１】非アラインアクセス処理部１５によって出
力される中間言語プログラムでは、ＳＩＭＤ化されたル
ープ構造内の配列要素参照は全てアラインアクセスに置
き換えられている。

【００９２】メモリアクセス最適化部１６によって、こ
のような中間言語プログラムに対し、主記憶アクセス回
数を減らすような最適化処理が施される。この処理は、
ループアイテレーション内での最適化と、ループアイテ
レーション間にまたがる最適化との、２段階で行われ
る。

【００９３】ループアイテレーション内の最適化では、
主記憶アクセスに関するデータフローの最適化がループ
本体内で行われる。ループアイテレーション内の最適化
を施す前のループの流れ図を、図１６に示す。「ループ
本体の演算処理」ステップ８１において主記憶に対する
アラインアクセスが行われている。

【００９４】ループアイテレーション内の最適化は、
「ループ本体の演算処理」ステップ８１をロード・スト
ア処理とレジスタ間演算処理とに分離することによって
行われる。すなわち、図１７の流れ図に示すようなルー
プとなるように、中間コードが変換される。

【００９５】図１７に示す処理では、ループアイテレー
ションの最初でアクセス対象の主記憶上のワードがレジ
スタにロードされ（ステップ９０参照）、ループ内では
主記憶ワードに代えて上記のレジスタにアクセスされ
（ステップ９１参照）、ループアイテレーションの終わ
りでレジスタの内容が主記憶にストアされる（ステップ
９２参照）。

【００９６】その後、無用な主記憶アクセス、例えばロ
ードされるだけでストアされないワードに対するループ
アイテレーション最後のストア命令や、ストアされるだ
けでロードされないワードに対するループアイテレーシ
ョン最初のロード命令が、削除される。図１３，図１
４，および図１８に示した中間言語プログラムに対し
て、ループアイテレーション内の最適化が施されると、
図２０のようになる。ループアイテレーション内の最適
化の結果、主記憶へのアラインアクセスはループ本体の
最初と最後とに集中して行われるようになる。

【００９７】ループアイテレーション間にまたがる最適
化では、まず、ループ本体内で定義・引用されている主
記憶ワードとその添字式に関する情報とが収集される。
次に、一旦レジスタ上にロードされた値をループアイテ
レーション間で受け渡して再利用するように、中間コー
ドが修正される。この処理内容について、以下で更に詳
しく説明する。

【００９８】ループ内での配列Ａに対するアクセスを最
適化することを考える。ＳＩＭＤ要素データ型のサイズ
を１６ビットとしＳＩＭＤデータ型のサイズを６４ビッ
トとすると、配列Ａは図２１に示すように配置され、Ａ
［０］〜Ａ［３］，Ａ［４］〜Ａ［７］，およびＡ
［８］〜Ａ［１１］のように４要素ずつまとめて主記憶
とレジスタとの間でロード・ストアされる。

【００９９】配列Ａと同じ主記憶領域上で、要素のサイ
ズが６４ビットである配列Ａ′を考え、Ａ［０］〜Ａ
［３］，Ａ［４］〜Ａ［７］，およびＡ［８］〜Ａ［１
１］に対応する部分を順にＡ′［０］，Ａ′［１］，お
よびＡ′［２］とすると、ＳＩＭＤ化されたループでは
ループアイテレーション毎に配列Ａ′の要素を順にアク
セスしているとみなせる。

【０１００】ループ本体内での配列Ａ′の要素の定義・
引用関係が調査され、Ｊ番目のループアイテレーション
の実行が完了した時点で、Ａ′［Ｊ＋ｎ］の最新値を保
持している中間項ｓ_n′が求められる。ここで、ｎは整
数である。そして、ループアイテレーションの先頭で中
間項ｓ_n′がＡ′［Ｊ＋ｎ−１］の値を保持していると
いう条件下で、再度ループアイテレーション内の主記憶
アクセスの最適化が行われる。

【０１０１】さらに、Ｊ番目のループアイテレーション
中でＡ′［Ｊ＋ｎ］の引用および定義とＡ′［Ｊ＋ｎ＋
１］の定義とがある場合には、Ａ′［Ｊ＋ｎ＋１］に定
義される値は中間項によって次ループアイテレーション
のＡ′［Ｊ＋ｎ］に引き継がれるため、Ａ′［Ｊ＋ｎ＋
１］の定義が削除される。

【０１０２】図２０の中間言語プログラムの例に対して
ループアイテレーション間の最適化が施されると、図２
２のようになる。

【０１０３】

【発明の効果】以上説明したように、本発明によると、
以下に示すような効果が生じる。

【０１０４】第１の効果は、ターゲット計算機が主記憶
に対する非アラインアクセス命令を備えていない場合で
も、ＳＩＭＤ化手法を適用してプログラムの実行速度を
向上できることである。このような効果が生じる理由
は、ＳＩＭＤ化対象のループ中の配列要素参照がアライ
ンアクセスになるか否かを判定し、非アラインアクセス
命令列を適切なアラインアクセス命令列に変換するため
である。

【０１０５】第２の効果は、主記憶アクセス回数を減少
させることにより、プログラムの実行速度を向上できる
ことである。この効果は、主記憶に対する非アラインア
クセスが多く存在する場合には、特に顕著となる。

【図面の簡単な説明】

【図１】本発明のコンパイル方式の実施の形態の構成を
示すブロック図である。

【図２】図１中のＳＩＭＤ化処理部の処理を示す流れ図
である。

【図３】ＳＩＭＤ型データの構造を示す図である。

【図４】ＳＩＭＤ型データに対する加算処理を示す図で
ある。

【図５】アラインアクセスだけを行う原始プログラムの
一例を示す図である。

【図６】アラインアクセス時のデータの流れを示す図で
ある。

【図７】ベクトル処理のデータの流れを示す図である。

【図８】非アラインアクセスを説明するための図であ
る。

【図９】非アラインアクセスを含む演算を行う原始プロ
グラムの一例を示す図である。

【図１０】ワード境界をまたぐデータに対してアライン
アクセスを行う場合の処理を示す図である。

【図１１】図９の原始プログラムに対するスカラ最適化
が施された直後の中間言語プログラムを示す図である。

【図１２】図１１に示す中間言語プログラムから収集さ
れた配列添字式情報を示す図である。

【図１３】図１１に示す中間言語プログラムがＳＩＭＤ
命令置換部によって処理された結果を示す図である。

【図１４】図１３中の非アラインアクセス部分が非アラ
インアクセス処理部によって処理れた結果を示す図であ
る。

【図１５】非アラインアクセスとなるロード命令の処理
に際して非アラインアクセス処理部が用いる定数値を示
す図である。

【図１６】ループアイテレーション内の最適化を施す前
のループ構造の処理内容を示す流れ図である。

【図１７】ループアイテレーション内の最適化を施した
後のループ構造の処理内容を示す流れ図である。

【図１８】図１３中の非アラインアクセス部分が非アラ
インアクセス処理部によって処理された結果を示す図で
ある。

【図１９】非アラインアクセスとなるストア命令の処理
に際して非アラインアクセス処理部が用いる定数値を示
す図である。

【図２０】図１３に示す中間言語プログラムに対するル
ープアイテレーション内最適化が施された結果を示す図
である。

【図２１】主記憶上に配置された配列データとＳＩＭＤ
型データとの対応を示す図である。

【図２２】図２０に示す中間言語プログラムに対するル
ープアイテレーション間最適化が施された結果を示す図
である。

【図２３】本発明の他の実施の形態の構成を示すブロッ
ク図である。

【符号の説明】

１原始プログラム２コンパイラ３構文解析部４最適化処理部５コード生成部６スカラ最適化処理部‘ ７ＳＩＭＤ化処理部８後処理部９目的プログラム１０ＳＩＭＤ化処理部入力中間言語プログラム１１ループ正規化処理部１２添字式解析部１３添字式情報テーブル１４ＳＩＭＤ命令置換部１５非アラインアクセス処理部１６メモリアクセス最適化処理部１７ＳＩＭＤ化処理部出力中間言語プログラム２０ＳＩＭＤ型データ２１，２２，２３，２４ＳＩＭＤ要素型データ３０，３１，３７，７０，７１，７２レジスタ３２ＳＩＭＤ加算器３３，３４，３５，３６ＳＩＭＤ要素加算器４０，４１，４２，５０，５１部分配列５２ベクトル計算機５３，５４，５５ベクトルレジスタ５６ベクトル演算器５７配列領域６０，６１，６２，６３，６４，６５，６６，６７配
列要素１０１記録媒体１０２データ処理装置

Claims

【特許請求の範囲】

【請求項１】構文解析部，最適化処理部，およびコー
ド生成部を有するコンパイラ内の最適化処理部におい
て、ＳＩＭＤ化処理部入力中間言語プログラムを入力してそ
の中のループ構造を正規化するループ正規化処理部と、前記ループ正規化処理部によって正規化されたループ構
造における非アラインアクセスの有無を解析し、その解
析結果を示す配列添字式情報を添字式情報テーブルに登
録する添字式解析部と、配列要素に対する演算処理がＳＩＭＤ命令セットを用い
て行われるように、ループ本体での演算処理の中間コー
ドおよびループ繰り返し制御部分の中間コードを修正す
るＳＩＭＤ命令置換部と、前記添字式情報テーブルに登録された添字式情報を参照
することで、ＳＩＭＤ演算の対象となる主記憶上の配列
要素のうち非アラインアクセスとなる部分を認識し、配
列要素参照時のアドレスのワード境界からの変位を計算
することでループ中におけるワード境界から開始しない
主記憶領域に対するワードアクセスをワード境界に沿っ
た主記憶領域に対するワードアクセスに変換すること
で、非アラインアクセスの部分をアラインアクセス命令
とシフト命令および論理演算命令との組合せに変換する
非アラインアクセス処理部とを備えることを特徴とする
コンパイル方式。
【請求項２】前記ループ正規化処理部によって正規化
されたループ構造のループ本体中の配列要素参照におけ
る配列添字式とループ制御変数との関係を調査すること
によって非アラインアクセスの有無を解析する前記添字
式解析部を有することを特徴とする請求項１記載のコン
パイル方式。
【請求項３】主記憶アクセス回数を削減するために、
ループ本体の中間コードに対し、ループアイテレーショ
ン内の最適化処理およびループアイテレーション間にわ
たる最適化処理を施す前記メモリアクセス最適化処理部
を有することを特徴とする請求項１または請求項２記載
のコンパイル方式。
【請求項４】構文解析部，最適化処理部，およびコー
ド生成部を有するコンパイラ内の最適化処理部の処理を
実行させるためのプログラムを記録した記録媒体におい
て、ＳＩＭＤ化処理部入力中間言語プログラムを入力してそ
の中のループ構造を正規化するループ正規化処理部の処
理と、前記ループ正規化処理部によって正規化されたループ構
造における非アラインアクセスの有無を解析し、その解
析結果を示す配列添字式情報を添字式情報テーブルに登
録する添字式解析部の処理と、配列要素に対する演算処理がＳＩＭＤ命令セットを用い
て行われるように、ループ本体での演算処理の中間コー
ドおよびループ繰り返し制御部分の中間コードを修正す
るＳＩＭＤ命令置換部の処理と、前記添字式情報テーブルに登録された添字式情報を参照
することで、ＳＩＭＤ演算の対象となる主記憶上の配列
要素のうち非アラインアクセスとなる部分を認識し、配
列要素参照時のアドレスのワード境界からの変位を計算
することでループ中におけるワード境界から開始しない
主記憶領域に対するワードアクセスをワード境界に沿っ
た主記憶領域に対するワードアクセスに変換すること
で、非アラインアクセスの部分をアラインアクセス命令
とシフト命令および論理演算命令との組合せに変換する
非アラインアクセス処理部の処理とをコンピュータに実
行させるためのプログラムを記録した記録媒体。
【請求項５】前記ループ正規化処理部によって正規化
されたループ構造のループ本体中の配列要素参照におけ
る配列添字式とループ制御変数との関係を調査すること
によって非アラインアクセスの有無を解析する前記添字
式解析部の処理をコンピュータに実行させるためのプロ
グラムを記録した請求項４記載の記録媒体。
【請求項６】主記憶アクセス回数を削減するために、
ループ本体の中間コードに対し、ループアイテレーショ
ン内の最適化処理およびループアイテレーション間にわ
たる最適化処理を施す前記メモリアクセス最適化処理部
の処理をコンピュータに実行させるためのプログラムを
記録した請求項４または請求項５記載の記録媒体。