JP2003202991A

JP2003202991A - プログラム処理装置及びプログラム処理方法、記憶媒体、並びにコンピュータ・プログラム

Info

Publication number: JP2003202991A
Application number: JP2002001092A
Authority: JP
Inventors: Yorihisa Fujinami; 順久藤波
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2002-01-08
Filing date: 2002-01-08
Publication date: 2003-07-18
Anticipated expiration: 2022-01-08
Also published as: JP4045802B2

Abstract

(57)【要約】【課題】ＳＩＭＤ命令の特徴を活かしたプログラムの
最適化を自動的に行なう。【解決手段】高級言語で記述されたソース・プログラ
ムをＲＴＬで中間表現する。その際、同じ演算を異なる
データに適用しているものをみつけてｐａｒａｌｌｅｌ
式を使って１箇所にまとめ、命令セットによるレジスタ
の制約を適用する。次いで、ｐａｒａｌｌｅｌ式を使っ
て記述されている代入文のうちＳＩＭＤ命令１つで処理
できるものを抽出して、それが使用・定義する変数をＳ
ＩＭＤレジスタに対するｓｕｂｒｅｇ式に置換する。Ｓ
ＩＭＤ命令の並列性が余ったときは、ダミーの代入文を
付加してｐａｒａｌｌｅｌ内を１つのＳＩＭＤ命令に対
応させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、コンピュータ上で
実行されるプログラム・コードを処理するプログラム処
理装置及びプログラム処理方法、記憶媒体、並びにコン
ピュータ・プログラムに係り、特に、プログラマによっ
て高級プログラミング言語形式で記述されたソース・コ
ードを、対象とするアーキテクチャが実行可能な命令セ
ットを用いて記述された形式すなわちオブジェクト・コ
ードにコンパイル処理するプログラム処理装置及びプロ
グラム処理方法、記憶媒体、並びにコンピュータ・プロ
グラムに関する。

【０００２】さらに詳しくは、本発明は、プログラムの
コンパイル時などにおいて実際の処理効率や処理速度を
向上させるための最適化を行なうプログラム処理装置及
びプログラム処理方法、記憶媒体、並びにコンピュータ
・プログラムに係り、特に、複数のデータを同時に処理
するためのＳＩＭＤ（Single Instruction／MultipleDa
ta）命令を含んだ命令セットを持つアーキテクチャを対
象としてプログラムの最適化処理を行なうプログラム処
理装置及びプログラム処理方法、記憶媒体、並びにコン
ピュータ・プログラムに関する。

【０００３】

【従来の技術】昨今の技術革新に伴い、さまざまなアー
キテクチャのコンピュータ・システムが開発され広汎に
普及している。コンピュータは、コンピュータ可読形式
で記述されたプログラム・コードを実行することによっ
て、産業上のさまざまな制御や適用業務など、所望の処
理を実行することができる。

【０００４】コンピュータ・プログラムは、一般に、プ
ログラマによって高級プログラミング言語形式で記述さ
れたソース・コードを、対象とするアーキテクチャが実
行可能な命令セットを用いて記述された形式すなわちオ
ブジェクト・コードに変換すなわちコンパイルして用い
られる。そして、コンパイル処理時には、実際の処理効
率を向上し処理の高速化を実現するために変更を加える
「最適化」を行なうことが多い。

【０００５】ところで、近年のマイクロプロセッサのほ
とんどは、ＳＩＭＤ（Single Instruction／Multiple D
ata）型のマルチメディア向け拡張命令（以下、単に
「ＳＩＭＤ命令」とする）を備えている。また、プロセ
ッサ・メーカやサード・パーティーからは、ＳＩＭＤ命
令を使ったコードを生成するコンパイラも提供されてい
る。

【０００６】ここで言うＳＩＭＤ命令とは、同じ演算を
繰り返し実行するような処理を一括して行なえるような
命令のことであり、より具体的には、大きなサイズのオ
ペランドを小さな「サブオペランド」に分割して同種の
演算を一斉に処理する。ＳＩＭＤ命令によれば、１つの
命令で複数のデータに対して同じ種類の演算を一斉に行
うようにして、プロセッサ全体のデータ処理能力を高め
ることができる。したがって、ソース・コード中で、本
来は独立して記述されている同機能の命令を寄せ集めて
ＳＩＭＤ命令に置き換えることにより、コードが持つ冗
長性が削除され、プログラムの最適化を行なうことがで
きる。

【０００７】例えば、音声や画像などのマルチメディア
・データに対する処理、あるいは３次元グラフィックス
などにおいては、固定的なフォーマットのデータに対し
て、同じ種類の演算を繰り返し適用することが多い。そ
こで、ＳＩＭＤ命令を用いることによって、多量のデー
タに対して同じ種類の演算を一括して行なうことがで
き、プロセッサ全体のデータ処理能力を高めることがで
きる。

【０００８】ＳＩＭＤで取り扱われるデータの形式や命
令セットは、プロセッサのアーキテクチャごとに異なる
が、一般的には、１つの命令で６４ビット（又は１２８
ビット）のデータを一括して処理を行うことができる。
この６４ビットのデータ幅の中に、８、１６、３２ビッ
ト幅の整数型データ、あるいは３２ビット幅の浮動小数
点型データを複数詰め込んで、１つのＳＩＭＤ命令です
べてのデータに対して同時に処理を行う。例えば画像処
理ソフトウェアなどでは、６４ビットのオペランドを各
８ビットのサブオペランドに分割することにより、固定
小数点データを８個同時に格納して、一度に８ピクセル
分の処理を行なうことができる。

【０００９】先述したように、プログラムのコンパイル
時に最適化が行なわれるので、コンパイラが同じ演算を
繰り返し実行するような処理を１箇所にまとめてＳＩＭ
Ｄ命令に置き換えることができれば都合がよい。

【００１０】しかしながら、コンパイラが自動的にＳＩ
ＭＤ命令を使ってくれる場面は極めて限定されており、
従来から研究されているベクトル化の技術をそのまま適
用したに過ぎないと言ってもよい。多くの場合、ＳＩＭ
Ｄ命令を使うためには、プログラマは、ＳＩＭＤ命令対
応のコンパイラで拡張されたデータ型を明示的に使用す
るとともに、命令に対応する関数（intrinsic）を明示
的に呼び出さなければならない。

【００１１】このような状況下では、これらの拡張機能
に使用したプログラムは、高級言語で記述されているに
も拘わらず、特定のＳＩＭＤ命令セットに依存したもの
になってしまう。このため、プログラムを別のプロセッ
サ・アーキテクチャに移植して充分な性能を発揮させる
ためには、プログラム・コードの大幅な書き換えが必要
となる。また、単にプログラムを改良する場合であって
も、性能を落さないようにするには、ＳＩＭＤ命令セッ
トの充分な知識が必要になる。すなわち、プログラムの
移植性やメンテナンス性を著しく阻害する。

【００１２】

【発明が解決しようとする課題】本発明の目的は、コン
パイル時などにおいて実際の処理効率や処理速度を向上
させるための最適化を好適に行なうことができる、優れ
たプログラム処理装置及びプログラム処理方法、記憶媒
体、並びにコンピュータ・プログラムを提供することに
ある。

【００１３】本発明のさらなる目的は、複数のデータを
同時に処理するためのＳＩＭＤ（Single Instruction／
Multiple Data）命令を含んだ命令セットを持つアーキ
テクチャを対象としてプログラムに対してコンパイルな
どの処理を好適に行なうことができる、優れたプログラ
ム処理装置及びプログラム処理方法、記憶媒体、並びに
コンピュータ・プログラムを提供することにある。

【００１４】本発明のさらなる目的は、ＳＩＭＤ命令の
特徴を活かしたプログラムの最適化を自動的に行なうこ
とができる、優れたプログラム処理装置及びプログラム
処理方法、記憶媒体、並びにコンピュータ・プログラム
を提供することにある。

【００１５】

【課題を解決するための手段及び作用】本発明は、上記
課題を参酌してなされたものであり、その第１の側面
は、オペランドを複数のサブオペランドに分割して複数
のデータの集まりとみなして各サブオペランドに対する
同種の演算を一斉に処理する一斉処理命令を用いてプロ
グラムの最適化を行なうプログラム処理装置又はプログ
ラム処理方法であって、プログラム中の代入文で同じ演
算を異なるデータに適用している箇所を探索して、一箇
所に移動し、並列実行する演算子を用いて１つにまとめ
る代入文移動部又はステップと、該並列実行する演算子
でまとめられた各代入文が定義又は使用・参照する変数
を前記一斉処理命令の各サブオペランドに割り当てるサ
ブオペランド割当部又はステップと、を具備することを
特徴とするプログラム処理装置又はプログラム処理方法
である。

【００１６】ここで、オペランドを複数のサブオペラン
ドに分割して複数のデータの集まりとみなして各サブオ
ペランドに対する同種の演算を一斉に処理する一斉処理
命令とは、例えばＳＩＭＤ（Single Instruction／Mult
iple Data）型のマルチメディア向け拡張命令のことで
ある。

【００１７】ＳＩＭＤ命令は、同じ演算を繰り返し実行
するような処理を一括して行なうことができる。本発明
の第１の側面に係るプログラム処理装置又はプログラム
処理方法は、例えば、高級プログラミング言語形式で記
述されたソース・プログラムを対象とするアーキテクチ
ャが実行可能なオブジェクト・プログラムに変換するた
めのコンパイラが備える機能モジュールの１つとして実
装することができ、このコンパイル処理の過程におい
て、ＳＩＭＤ命令を用いて最適化を行なうものである。

【００１８】本発明の第１の側面に係るプログラム処理
装置又はプログラム処理方法によれば、代入文移動部又
はステップは、処理対照プログラムの中から同じ演算を
異なるデータに適用しているものを見つけて、これらを
ｐａｒａｌｌｅｌ式を使って１箇所にまとめる。次い
で、サブオペランド割当部又はステップは、ｐａｒａｌ
ｌｅｌ式を使って記述されている代入文のうちＳＩＭＤ
命令１つで処理できるものを抽出して、それが使用・定
義する変数をＳＩＭＤレジスタに対するｓｕｂｒｅｇ式
に置き換える。このようにｓｕｂｒｅｇ式に置き換えら
れた代入文の集まりは、ＳＩＭＤ命令と等価であり、プ
ログラムの最適化が実現される。

【００１９】本発明の第１の側面に係るプログラム処理
装置又はプログラム処理方法は、プログラムを前記代入
文移動部又はステップに投入する前に、プログラム中の
ｉｆ文をなくすｉｆ変換部又はステップをさらに備えて
いてもよい。ｉｆ変換により、基本ブロックの数が減る
という効果がある。ＳＩＭＤ命令を使ってプログラムの
最適化を行う場合には、最適化手順の最初にｉｆ変換を
行なうことにより、変換された論理演算も最適化の対象
にすることができる。

【００２０】また、本発明の第１の側面に係るプログラ
ム処理装置又はプログラム処理方法は、プログラムを前
記代入文移動部又はステップに投入する前に、基本ブロ
ックで構成されるプログラムをＤＡＧに変換するＤＡＧ
変換部又はステップをさらに備えていてもよい。

【００２１】ここで、基本ブロックとは、プログラムを
処理フローの分岐及び合流場所で分割することによって
得られる単位のことである。また、ＤＡＧ（Directed A
cyclic Graph）は、有向で繰り返しのないグラフのこと
である。基本ブロック中の代入文は、ＤＡＧで表現する
ことができる。

【００２２】基本ブロックをＤＡＧに変換することによ
って、局所的な共通部分式を除去することができる。ま
た、ＳＩＭＤ命令を使ってプログラムの最適化を行なう
場合には、基本ブロックをＤＡＧに変換することによっ
て、特殊な演算を伴うＳＩＭＤ命令を利用するためのパ
ターン・マッチングを容易に行なえるように、細かい式
を大きな式にまとめることができるという効果がある。

【００２３】また、本発明の第１の側面に係るプログラ
ム処理装置又はプログラム処理方法は、プログラムを前
記代入文移動部又はステップに投入する前に、プログラ
ムを有向で繰り返しのないグラフで表現したＤＡＧを前
記一斉処理命令で行なえる演算の単位に分解するＤＡＧ
分解部又はステップをさらに備えていていもよい。

【００２４】また、プログラム中の代入文のうち、同じ
演算を異なるデータに適用としているものをｐａｒａｌ
ｌｅｌ式を使って１箇所にまとめる際に、代入文の位置
を移動することになる。代入文の移動によってプログラ
ムの意味が変わることのないように、前記代入文移動部
又はステップは、所定の判定条件を満足したときのみ、
代入文の移動を行なうようにすればよい。例えば、移動
元の文の位置ｓから移動先の文の位置ｔまでのすべての
経路を考えるとき、経路上のｓ以外の位置で経路外から
の合流がなく、且つ、経路上のｔ以外の位置で経路外へ
の分岐がない場合以外は、当該文の移動を許容しないよ
うにすればよい。

【００２５】また、本発明の第１の側面に係るプログラ
ム処理装置又はプログラム処理方法は、前記代入文移動
部又はステップによって並列実行する演算子を用いて１
つにまとめられた代入文を、前記一斉処理命令の実行に
おけるオペランドの使用の制約に従って書き換える制約
適用部又はステップをさらに備えていてもよい。

【００２６】また、前記サブオペランド割当部又はステ
ップは、該並列実行する演算子でまとめられた代入文の
個数が前記一斉処理命令１つで処理できる数を越える場
合には、前記一斉処理命令１つで処理できる個数の代入
文を取り出して、各代入文において使用又は定義してい
る変数をそれぞれ前記一斉処理命令のサブオペランドに
割り当てるようにしてもよい。

【００２７】また、前記サブオペランド割当部又はステ
ップは、該並列実行する演算子でまとめられた代入文の
個数が前記一斉処理命令１つで処理できる数以下の場合
には、ダミーの代入文を付け加えてちょうど前記一斉処
理命令１つで処理できる個数になるようにして、各代入
文において使用又は定義している変数をそれぞれ前記一
斉処理命令のサブオペランドに割り当てるようにしても
よい。

【００２８】あるいは、前記サブオペランド割当部又は
ステップは、該並列実行する演算子でまとめられた代入
文の個数が前記一斉処理命令１つで処理できる数以下の
場合には、代入文を該並列式から外して前記一斉処理命
令への置き換えを諦めるようにしてもよい。例えば、ダ
ミー命令の挿入によってＳＩＭＤ命令を使っても、かえ
って命令のコストが大きくなる場合など最適化にならな
い場合には、ＳＩＭＤ命令の使用を諦める。

【００２９】また、本発明の第２の側面は、複数の代入
文を含んだプログラムを処理するプログラム処理装置又
はプログラム処理方法であって、移動元の文の位置ｓか
ら移動先の文の位置ｔまでのすべての経路を考えると
き、経路上のｓ以外の位置で経路外からの合流がなく、
且つ、経路上のｔ以外の位置で経路外への分岐がない場
合、又は、移動先の文の位置ｓから移動元の文の位置ｔ
までのすべての経路を考えるとき、経路上のｓ以外の位
置で経路外からの合流がなく、且つ、経路上のｔ以外の
位置で経路外への分岐がない場合、以外は、当該文の移
動を許容しない、ことを特徴とするプログラム処理装置
又はプログラム処理方法である。

【００３０】一般に、コンピュータ・プログラムのコン
パイル時に行なう最適化処理やその他の局面において、
プログラムの代入文の並びを移動させたい場合がある
が、無制限に移動させてしまうと、プログラムの意味が
同じでなくなってしまう危険がある。そこで、本発明の
第２の側面に係るプログラム処理装置又はプログラム処
理方法によれば、移動元の文の位置ｓから移動先の文の
位置ｔまでのすべての経路を考えるとき、経路上のｓ以
外の位置で経路外からの合流がなく、且つ、経路上のｔ
以外の位置で経路外への分岐がない場合、又は、移動先
の文の位置ｓから移動元の文の位置ｔまでのすべての経
路を考えるとき、経路上のｓ以外の位置で経路外からの
合流がなく、且つ、経路上のｔ以外の位置で経路外への
分岐がない場合、以外は、当該文の移動を許容しないよ
うにすることで、プログラムの意味の同一性を維持する
ようにした。

【００３１】また、本発明の第３の側面は、オペランド
を複数のサブオペランドに分割して複数のデータの集ま
りとみなして各サブオペランドに対する同種の演算を一
斉に処理する一斉処理命令を用いてプログラムの最適化
を行なう処理をコンピュータ・システム上で実行するよ
うに記述されたコンピュータ・ソフトウェアをコンピュ
ータ可読形式で物理的に格納した記憶媒体であって、前
記コンピュータ・ソフトウェアは、プログラム中の代入
文で同じ演算を異なるデータに適用している箇所を探索
して、一箇所に移動し、並列実行する演算子を用いて１
つにまとめる代入文移動ステップと、該並列実行する演
算子でまとめられた各代入文が定義又は使用・参照する
変数を前記一斉処理命令の各サブオペランドに割り当て
るサブオペランド割当ステップと、を具備することを特
徴とする記憶媒体である。

【００３２】本発明の第３の側面に係る記憶媒体は、例
えば、さまざまなプログラム・コードを実行可能な汎用
コンピュータ・システムに対して、コンピュータ・ソフ
トウェアをコンピュータ可読な形式で提供する媒体であ
る。このような媒体は、例えば、ＤＶＤ（Digital Vers
atile Disc）、ＣＤ（Compact Disc）やＦＤ（Flexible
Disk）、ＭＯ（Magneto-Optical disc）などの着脱自
在で可搬性の記憶媒体である。あるいは、ネットワーク
（ネットワークは無線、有線の区別を問わない）などの
伝送媒体などを経由してコンピュータ・ソフトウェアを
特定のコンピュータ・システムに提供することも技術的
に可能である。

【００３３】また、本発明の第３の側面に係る記憶媒体
は、コンピュータ・システム上で所定のコンピュータ・
ソフトウェアの機能を実現するための、コンピュータ・
ソフトウェアと記憶媒体との構造上又は機能上の協働的
関係を定義したものである。換言すれば、本発明の第３
の側面に係る記憶媒体を介して所定のコンピュータ・ソ
フトウェアをコンピュータ・システムにインストールす
ることによって、コンピュータ・システム上では協働的
作用が発揮され、本発明の第１の側面に係る画プログラ
ム処理装置又はプログラム処理方法と同様の作用効果を
得ることができる。

【００３４】また、本発明の第４の側面は、オペランド
を複数のサブオペランドに分割して複数のデータの集ま
りとみなして各サブオペランドに対する同種の演算を一
斉に処理する一斉処理命令を用いてプログラムの最適化
を行なう処理をコンピュータ・システム上で実行するよ
うに記述されたコンピュータ・プログラムであって、プ
ログラム中の代入文で同じ演算を異なるデータに適用し
ている箇所を探索して、一箇所に移動し、並列実行する
演算子を用いて１つにまとめる代入文移動ステップと、
該並列実行する演算子でまとめられた各代入文が定義又
は使用・参照する変数を前記一斉処理命令の各サブオペ
ランドに割り当てるサブオペランド割当ステップと、を
具備することを特徴とするコンピュータ・プログラムで
ある。

【００３５】本発明の第４の側面に係るコンピュータ・
プログラムは、コンピュータ・システム上で所定の処理
を実現するようにコンピュータ可読形式で記述されたコ
ンピュータ・プログラムを定義したものである。換言す
れば、本発明の第４の側面に係るコンピュータ・プログ
ラムをコンピュータ・システムにインストールすること
によって、コンピュータ・システム上では協働的作用が
発揮され、本発明の第１の側面に係るプログラム処理装
置又はプログラム処理方法と同様の作用効果を得ること
ができる。

【００３６】本発明のさらに他の目的、特徴や利点は、
後述する本発明の実施形態や添付する図面に基づくより
詳細な説明によって明らかになるであろう。

【００３７】

【発明の実施の形態】以下、図面を参照しながら本発明
の実施形態について詳解する。

【００３８】Ａ．ＳＩＭＤ命令の特徴近年のマイクロプロセッサの持つＳＩＭＤ命令で典型的
なものは、大きなサイズのレジスタのデータを、小さな
サイズのデータが複数集まったものとみなして、それぞ
れに対して同じ演算を行なう命令である。

【００３９】例えば、米インテル社製のｘ８６系のマイ
クロプロセッサにおけるＳＩＭＤ命令であるＭＭＸ（mu
ltimedia extension）命令では、下記の命令は、６４ビ
ット・レジスタＭＭ０の内容を８個の８ビット数とみな
し、６４ビット・レジスタＭＭ１に対応する８ビット数
とそれぞれ加算して、その結果をレジスタＭＭ０に格納
する。

【００４０】

【数３】

【００４１】以下では、この８ビット数のような個々の
演算対象のことを「サブオペランド」と呼ぶことにす
る。

【００４２】表１には、近年の代表的なマイクロプロセ
ッサ・アーキテクチャがそれぞれ持つＳＩＭＤ命令セッ
トの幾つかの特徴を挙げている。

【００４３】

【表１】

【００４４】上表において使用レジスタの欄では、各ア
ーキテクチャにおいて、ＳＩＭＤ命令で使えるレジスタ
（以下、ＳＩＭＤレジスタ）が、通常の整数レジスタと
共通、通常の浮動小数点レジスタと共通、あるいは専用
のレジスタがあるかの区別と、レジスタの個数を表して
いる。

【００４５】また、データ型の欄では、各アーキテクチ
ャにおいて、典型的な命令で扱えるサブオペランドのビ
ット長（Ｆで始まるものは浮動小数点数）と個数を示し
ている。

【００４６】また、比較演算結果の欄では、ＳＩＭＤ比
較命令の結果がどこに入るかを示している。ビットマス
クとなっている場合、ＳＩＭＤレジスタの対応するサブ
オペランドのすべてのビットが１あるいはすべてのビッ
トが０になることで比較結果が表現される。

【００４７】比較演算結果がビットマスクになる場合、
ＳＩＭＤ論理演算命令と組み合わせれば、条件分岐命令
なしで各サブオペランドに対する条件付実行を行なうこ
とができる。比較演算結果が整数レジスタに入るＶＩＳ
の場合、条件付ストア命令を使うことで、同様の効果が
得られる。

【００４８】上記の表１を参照する限りでは、ＳＩＭＤ
命令を並列度の小さいベクトル命令の一種とみなして、
ループのベクトル化を適用すればＳＩＭＤ命令を活用す
ることができると思料される。比較演算を使った条件付
実行についても、ｉｆ変換と同じようなことを行なえば
対応可能である。

【００４９】しかしながら、ＳＩＭＤ命令とベクトル命
令では、並列度とコストのバランスが相違する。

【００５０】ベクトル命令は、並列度が高いので、使用
できれば大幅な速度向上を期待することができる反面、
オーバーヘッドが大きいため、使用する場所をうまく選
ぶ必要がある。一方、ＳＩＭＤ命令は、通常の命令と同
程度のコストで実行することができるので、積極的に使
用する意味があるが、並列度が低いので大幅な速度向上
は難しい。略言すれば、ＳＩＭＤ命令には以下の特徴が
ある。

【００５１】（１）並列度はあまり大きくない。（２）実行コストは低い。

【００５２】なお、ＳＩＭＤ命令には、上述した以外に
も特徴的な命令が含まれている。例えば、次のようなも
のを挙げることができる。

【００５３】飽和加減算整数の加減算の結果がオーバーフローしたときに、その
ビット数で表せる最大値又は最小値に飽和させる命令で
ある。オーバーフローの判定は符号付き数として扱う命
令もあれば、符号なし数として扱う命令もある。

【００５４】最大最小２つのオペランドの対応する各サブオペランドの大きい
方あるいは小さい方を求める命令である。

【００５５】飽和縮小ビット数の小さいデータに変換する際に、変換後のビッ
ト数でははみ出す数を最大値又は最小値に飽和させる命
令である。

【００５６】混ぜ合わせ２つのオペランド中のサブオペランドの幾つか（例えば
下位半分）を、例えば交互に混ぜ合わせる命令である。
その演算結果をビット数が２倍になったサブオペランド
とみなすなら、他の命令と組み合わせて、ゼロ拡張や符
号拡張を実現することができる。

【００５７】乗算の上位乗算の結果は元の２倍のビット数を必要とするが、その
上位半分を取り出す命令である。乗算を符号付き数とし
て扱う命令もあれば、符号なし数として扱う命令もあ
る。

【００５８】積和演算乗算とその結果の加算を１つの命令で行なう命令であ
る。

【００５９】絶対差の和２つのオペランドの対応するサブオペランドの差の絶対
値をそれぞれ求めて加える命令である。結果は、元のサ
ブオペランドよりビット数が大きくなる。

【００６０】表２には、上述したＳＩＭＤ命令が表１に
示したマイクロプロセッサ・アーキテクチャが持つ各Ｓ
ＩＭＤ命令セットに含まれているかどうかを一覧表示し
ている。

【００６１】

【表２】

【００６２】これらＳＩＭＤ命令の特徴を次のようにま
とめることができる。すなわち、

【００６３】（１）特殊な演算子通常の命令のような基本的な演算子ではなく、複合した
演算や条件判断を含む演算を行なう。

【００６４】（２）データ・サイズの混合入力と出力のサブオペランドのサイズや数が異なる命令
がある。そのため、入力オペランド中の一部のサブオペ
ランドしか使われなかったり、出力オペランド中の一部
のサブオペランドだけ変更されたりすることもある。

【００６５】これらＳＩＭＤ命令の活用は、ループのベ
クトル化とは別種の問題であり、従来のプログラム最適
化方法の適用範囲外である。だからといってＳＩＭＤ命
令を活用することに効果が小さいという訳ではなく、う
まく活用するならば、ＳＩＭＤ命令の並列度を越えた高
速化を期待することができる。

【００６６】Ｂ．プログラム処理装置の構成本実施形態に係るプログラム処理装置は、対象とするア
ーキテクチャが実行可能な命令セットを用いて記述され
た形式すなわちオブジェクト・コードにコンパイル処理
する。また、コンパイル処理時には、実際の処理効率や
処理速度を向上させるための最適化を行なう。とりわけ
特徴的なのは、オペランドを複数のサブオペランドに分
割して複数のデータの集まりとみなして各サブオペラン
ドに対して同種の演算を一斉に処理するＳＩＭＤ命令を
用いてプログラムの最適化を自動的に行なう、という点
である。

【００６７】図１には、本実施形態に係るプログラム処
理装置１００のハードウェア構成を模式的に示してい
る。

【００６８】メイン・コントローラであるＣＰＵ（Cent
ral Processing Unit）１０１は、オペレーティング・シ
ステム（ＯＳ）の制御下で、各種のアプリケーションを
実行する。

【００６９】本実施形態では、ＣＰＵ１０１は、例え
ば、高級プログラミング言語を用いてソース・プログラ
ムを作成・編集するためのエディタや、ソース・プログ
ラムをオブジェクト・プログラムに変換するためのコン
パイラ、コンパイラによって生成されたオブジェクト・
プログラムなどを実行することができる。また、本実施
形態に係るコンパイラは、最適化処理を備えている。最
適化処理部の中には、同じ演算を繰り返し実行するよう
な処理を一括して行なえるＳＩＭＤ命令を使った最適化
部を含んでいるが、その処理の詳細については後述に譲
る。

【００７０】図示の通り、ＣＰＵ１０１は、バス１０８
によって他の機器類（後述）と相互接続されている。

【００７１】主メモリ１０２は、ＣＰＵ１０１において
実行されるプログラム・コードをロードしたり、実行プ
ログラムの作業データを一時保管するために使用される
記憶装置であり、例えばＤＲＡＭ（Dynamic RAM）のよ
うな半導体メモリが使用される。例えば、エディタ、コ
ンパイラ、オブジェクト・プログラムなどが実行プログ
ラムとして主メモリ１０２にロードされる。また、編集
中・コンパイル中のソース・プログラムや、コンパイラ
がソース・プログラムをコンパイル処理中に生成するソ
ース・プログラムの中間表現（中間表現は、基本ブロッ
クに分割されることもあり、また、基本ブロックは、Ｄ
ＡＧ（Directed Acyclic Graph）で表現されることもあ
る）、コンパイル処理されたオブジェクト・プログラム
などが作業データとして主メモリ１０２に一時的に格納
される。

【００７２】また、ＲＯＭ（Read Only Memory）１０３
は、データを恒久的に格納する半導体メモリであり、例
えば、起動時の自己診断テスト（ＰＯＳＴ：Power On S
elfTest）や、ハードウェア入出力用のプログラム・コ
ード（ＢＩＯＳ：Basic Input/Output System）などが
書き込まれている。

【００７３】ディスプレイ・コントローラ１０４は、Ｃ
ＰＵ１０１が発行する描画命令を実際に処理するための
専用コントローラである。ディスプレイ・コントローラ
１０３において処理された描画データは、例えばフレー
ム・バッファ（図示しない）に一旦書き込まれた後、デ
ィスプレイ１１１によって画面出力される。

【００７４】ディスプレイ１１１の表示画面は、一般
に、ユーザからの入力内容やその処理結果、あるいはエ
ラーその他のシステム・メッセージをユーザに視覚的に
フィードバックする役割を持つ。また、本実施形態にお
いては、ディスプレイ１１１の表示画面には、ソース・
プログラムを編集するためのエディタ画面や、コンパイ
ル処理中の基本ブロックやＤＡＧ、中間表現などの経過
データ、オブジェクト・プログラム、オブジェクト・プ
ログラムによる実行内容などを表示出力するために利用
される。

【００７５】入力機器インターフェース１０５は、キー
ボード１１２やマウス１１３などのユーザ入力機器を対
話装置１００に接続するための装置である。

【００７６】キーボード１１２やマウス１１３は、デー
タやコマンドなどのユーザ入力をシステムに取り込む役
割を持つ。本実施形態では、キーボード１１２やマウス
１１３は、エディタの起動、エディタ画面でのソース・
プログラムの入力・編集、コンパイラの起動、オブジェ
クト・プログラムの起動などをユーザが指示するために
使用される。

【００７７】ネットワーク・インターフェース１０６
は、Ｅｔｈｅｒｎｅｔなどの所定の通信プロトコルに従
って、システム１００をＬＡＮ（Local Area Network）
などの局所的ネットワーク、さらにはインターネットの
ような広域ネットワークに接続することができる。

【００７８】ネットワーク上では、複数のホスト端末
（図示しない）がトランスペアレントな状態で接続さ
れ、分散コンピューティング環境が構築されている。ネ
ットワーク上では、ソフトウェア・プログラムやデータ
・コンテンツなどの配信サービスを行なうことができ
る。例えば、高級プログラミング言語を用いてソース・
プログラムを作成・編集するためのエディタや、ソース
・プログラムをオブジェクト・プログラムに変換するた
めのコンパイラ、コンパイラによって生成されたオブジ
ェクト・プログラムなどを、ネットワーク経由でダウン
ロードすることができる。また、コンパイル前のソース
・プログラムやコンパイル処理後のオブジェクト・プロ
グラムなどを、ネットワーク経由で他のホスト装置との
間で配信・配布することができる。

【００７９】外部機器インターフェース１０７は、ハー
ド・ディスク・ドライブ（ＨＤＤ）１１４やメディア・ド
ライブ１１５などの外部装置を本動作情報処理装置１０
０に接続するための装置である。

【００８０】ＨＤＤ１１４は、記憶担体としての磁気デ
ィスクを固定的に搭載した外部記憶装置であり（周
知）、記憶容量やデータ転送速度などの点で他の外部記
憶装置よりも優れている。ソフトウェア・プログラムを
実行可能な状態でＨＤＤ１１４上に置くことを、プログ
ラムのシステムへの「インストール」と呼ぶ。通常、Ｈ
ＤＤ１１４には、ＣＰＵ１０１が実行すべきオペレーテ
ィング・システムのプログラム・コードや、アプリケーシ
ョン・プログラム、デバイス・ドライバなどが不揮発的に
格納されている。例えば、高級プログラミング言語を用
いてソース・プログラムを作成・編集するためのエディ
タや、ソース・プログラムをオブジェクト・プログラム
に変換するためのコンパイラ、コンパイラによって生成
されたオブジェクト・プログラムなどを、ＨＤＤ１１４
上にインストールすることができる。また、編集中・コ
ンパイル中のソース・プログラムや、コンパイラがソー
ス・プログラムをコンパイル処理中に生成するソース・
プログラムの中間表現（中間表現は、基本ブロックに分
割されることもあり、また、基本ブロックは、ＤＡＧ
（Directed Acyclic Graph）で表現されることもあ
る）、コンパイル処理されたオブジェクト・プログラム
などをＨＤＤ１１４上に蓄積しておいてもよい。

【００８１】メディア・ドライブ１１５は、ＣＤ（Compa
ct Disc）やＭＯ（Magneto-Opticaldisc）、ＤＶＤ（Di
gital Versatile Disc）などの可搬型メディアを装填し
て、そのデータ記録面にアクセスするための装置であ
る。

【００８２】可搬型メディアは、主として、ソフトウェ
ア・プログラムやデータ・ファイルなどをコンピュータ可
読形式のデータとしてバックアップすることや、これら
をシステム間で移動（すなわち販売・流通・配布を含む）
する目的で使用される。例えば、高級プログラミング言
語を用いてソース・プログラムを作成・編集するための
エディタや、ソース・プログラムをオブジェクト・プロ
グラムに変換するためのコンパイラ、コンパイラによっ
て生成されたオブジェクト・プログラムなどを、これら
可搬型メディアを利用して複数の機器間で物理的に流通
・配布することができる。また、編集中・コンパイル中
のソース・プログラムや、コンパイラがソース・プログ
ラムをコンパイル処理中に生成する中間表現、コンパイ
ル処理されたオブジェクト・プログラムなどを他の装置
との間で交換するために、可搬型メディアを利用するこ
とができる。

【００８３】なお、図１に示すようなプログラム処理装
置１００の一例は、米ＩＢＭ社のパーソナル・コンピュ
ータ"ＰＣ／ＡＴ（Personal Computer/Advanced Techno
logy）"の互換機又は後継機である。勿論、他のアーキ
テクチャで構成されるコンピュータを、本実施形態に係
るプログラム処理装置１００として適用することも可能
である。

【００８４】Ｃ．ＳＩＭＤ命令を用いたプログラムの最
適化Ｃ−１．ＳＩＭＤ最適化の到達レベルＡ項で既に述べたように、ＳＩＭＤ命令の特徴は以下の
４つにまとめることができる。

【００８５】（１）あまり大きくない並列度（２）低い実行コスト（３）特殊な演算子（４）データ・サイズの混合

【００８６】本発明者は、このようなＳＩＭＤの特徴を
鑑みて、従来のベクトル化の適用を含めてＳＩＭＤによ
るプログラム最適化の到達度として以下の４つの到達レ
ベルに定義した。

【００８７】レベル０：ループのベクトル化レベル１：ループ以外でも、同じ演算の並列実行が可
能なものをＳＩＭＤ命令にするレベル２：特殊な演算子を持つ命令の利用レベル３：データ・サイズの混合した演算をうまく扱
う

【００８８】レベル０では、並列度が小さいために重要
となる、前後の命令を含めたスケジューリングや、ルー
プ融合などの他の最適化との相互作用の扱いを含めて考
える。

【００８９】レベル１では、例えば、座標計算のよう
に、ソース・プログラム上では別々の変数に対する演算
として表現されているものであっても、変数をメモリや
レジスタにうまく順次割り当てていくことにより、ＳＩ
ＭＤ命令を適用する。ＳＩＭＤ命令の並列度が余る場合
であっても、命令の実行コストが低いので、前後の命令
を含めたスケジューリングをきちんと行なうことによ
り、高速化を期待することができる。

【００９０】レベル２は、サブオペランドの１つの結果
だけを利用するような、単独の使用でも効果が出ること
があるが、レベル０やレベル１の使い方と組み合わせて
使用することが期待される。通常の命令と比べて、ＳＩ
ＭＤ命令は大幅な高速化を期待することができるが、Ｓ
ＩＭＤ命令を使える場面であるかどうかを判定すること
は難しい。例えば、飽和加減算をする場合のオーバーフ
ローの判定は、より大きなビット長に拡張してから演算
して判定するもの、ソース・オペランドと結果の符合や
大小関係をしようするものなど、何通りかの方法があ
り、これらが同等であると判定できる式変形能力を要す
る。

【００９１】ここで、式変形能力の別の使い方として
は、ＳＩＭＤ命令には特殊な演算子しかないもの、例え
ば、飽和縮小命令を、ビットマスク（すべて０又はすべ
て１）の単なる縮小命令として使うことが挙げられる。
本発明者は、これもレベル２に含めて考えている。

【００９２】レベル３は、ＳＩＭＤ命令を単純に同じ操
作の並列実行とみなせない場合である。サイズを混合し
た演算は、特殊な演算であるから、レベル２を含めて考
えなければならない。

【００９３】Ｃ−２．本発明で目標とする最適化の到達
度レベル現状でＳＩＭＤ命令を使ったコードを生成するコンパイ
ラは、レベル０の自動化を相当程度達成しており、これ
はほぼ実用段階であると言ってもよい。

【００９４】一方、レベル１に関しては、例えば、Samu
el Larsen及びSaman Amarasinghe共著の論文" Exploiti
ng Superword Level Parallelism with Multimedia Ins
truction Sets "（In Proceedings of the ACM SIGPLAN
2000 Conference on Programming Language Design an
d Implementation, June 2000）には、基本ブロック内
に限定して適用した研究に関する報告がなされている。
また、Kevin Scott及びJack Davidson共著の論文"Explo
ring the Limits of Sub-word Level Parallelism"（In
Proceedings of 2000 International Conference Para
llel Architectures and Compilation Techniques, Oct
ober 2000.）には、効果の限界の実験について報告され
ている。

【００９５】レベル２に関しては、Kevin Scott外著の
上記論文中でも記載されているように、いまだ到達され
ていない。したがって、レベル３も未踏の領域である。

【００９６】本発明は、レベル２及びレベル３を実現す
ることができるプログラム最適化を提案するものであ
る。

【００９７】例えば、グーロー・シェーディング（Goura
ud shading）の最内側ループに相当する処理をＣ言語形
式で記述したプログラム・コードは以下のようになる。

【００９８】

【数４】

【００９９】本実施形態に係るコンパイラは、レベル２
及びレベル３でＳＩＭＤ命令を使ったコードを生成する
ものであり、上記のソース・プログラムを、ＭＭＸ命令
を使って以下のように最適化することができる。

【０１００】

【数５】

【０１０１】上記のコンパイル・最適化後のコードで
は、ｉｆ変換を使ってループ内の条件分岐をなくし、４
つのｉｆ文を並列実行しているとともに、ＭＭＸ命令で
使うのに都合のよい値、例えばｓａ＋１，ｓｒ＋１，ｓ
ｇ＋１，ｓｂ＋１をループ不変式としてループ外で計算
するようにしている。なお、引数やグローバル変数は、
適当な順番で配置されていることを前提にしている。

【０１０２】他方、ＭＭＸに対応したコンパイラであ
る"Ｃｏｄｅ＝Ｗａｒｒｉｏｒ６．０"で、以下に示す
最適化オプションを指定してコンパイルしても、ＭＭＸ
命令は使用されない。

【０１０３】

【数６】

【０１０４】Ｃ−３．最適化のための中間表現ＳＩＭＤ命令を使用するレベル２以上の最適化を実現す
るためには、演算子の意味を細かく分析したり、サブオ
ペランドのサイズやオペランド中の位置を表現したりす
る必要がある。また、いろいろな最適化の相互影響を解
析する必要も生ずる。そこで、本実施形態では、特定の
目的に適した命令の表現を考えるのではなく、まず命令
の意味を正確に表現することができるプログラムの中間
表現を設計し、その上でプログラムの最適化を行なうよ
うにしている。

【０１０５】例えば、Jack Davidson及びChristopher F
raser共著の論文"Register Allocation and Exhaustive
Peephole Optimization"（Software Practice and Exp
erience, Vol.14, No.9, pp.857-866, September 198
4）で提案されているプログラムの中間表現ＲＴＬ（Reg
ister Transfer Language）は、移植性の高いコード最
適化の実装によく使用されている。ＲＴＬでは、個々の
命令の意味は式の形ですっかり表現され、中間表現の形
式や解釈方法は命令セットに依存しない。このため、中
間表現を操作するプログラムをアーキテクチャに依存し
ない形で作成することができる。

【０１０６】ＲＴＬでは、レジスタ、あるいはメモリの
内容を幾つか読み出して演算を行ない、その結果をレジ
スタあるいはメモリに代入する副作用として、マシン命
令をとらえる。特別に指定されたものを除き、レジスタ
又はメモリから内容を読み出した値は、直前に書き込ん
だ値である。プログラム・カウンタに対する変更をジャ
ンプとみなすなどの幾つかの工夫により、たいていのマ
シン命令の意味をＲＴＬで表すことができる（ＲＴＬで
表せないものの代表例は、内部にループを含む命令であ
る）。

【０１０７】本実施形態では、ＳＩＭＤ命令を用いたプ
ログラムのコンパイルを実現するために、中間表現とし
てＲＴＬを使用する。ＲＴＬでＳＩＭＤ命令を表現する
ために、ＧＣＣ（GNU Compiler Collections：Richard
M. Stallman著"Using and Porting the GNU Compiler C
ollection"（Free Software Foundation, July 1999.）
を参照のこと）のＲＴＬで使用されている演算子"ｐａ
ｒａｌｌｅｌ"及び"ｓｕｂｒｅｇ"をほぼそのまま採用
する。

【０１０８】マシン命令は、高級言語の命令文とは異な
り、不可分な複数の副作用が同時に発生することがあ
る。このため、ＧＣＣでは、演算子ｐａｒａｌｌｅｌを
使って表す。また、ＳＩＭＤ命令の複数のサブオペラン
ドに対する変更も、この不可分な副作用の一種とみなす
ことができるので、ｐａｒａｌｌｅｌで表すことにす
る。

【０１０９】また、サブオペランドは、演算子ｓｕｂｒ
ｅｇを使って明示的に表すことにした。ｓｕｂｒｅｇt
（ｒ_t1，ｎ）は、ｔ１型のレジスタｒの、下位ビットか
ら数えてｎ番のｔ型のデータを表す。なお、小さなレジ
スタがたくさんあるとみなす方法も考えられるが、サブ
オペランドのサイズと個数が命令によって異なるので、
重なりの情報が別に必要となるため、本実施形態では採
用していない。

【０１１０】例えば、下記のＭＭＸ命令は図２に示すよ
うな中間表現になる。ここで、Ｉ１６及びＩ６４は、そ
れぞれ１６ビット、６４ビットの整列型を表している。

【０１１１】

【数７】

【０１１２】Ｃ−４．最適化の手順本実施形態では、コンパイラはソース・プログラムの最
適化処理を行なうが、この際、ＳＩＭＤ命令を使った最
適化処理を行なう点に特徴がある。ＳＩＭＤ命令を使っ
た最適化処理部は、上述したＲＴＬを使ってソース・コ
ードを中間表現に変換するが、プログラムを中間表現す
る上で、図３に示すような手順でプログラム・コードの
変換を行なっていくことで、並列に実行することができ
る操作を単に検出するだけでなく、特殊な演算子を使っ
たり、データ・サイズの混合した命令の一部を利用した
プログラムの最適化を実現する。以下では、ＳＩＭＤ命
令を使ったプログラム最適化における各ステップについ
て詳解する。

【０１１３】Ｃ−４−１．論理演算を使ったｉｆ変換ｉｆ変換は、プログラム中のｉｆ文をなくす処理であ
り、基本ブロックの数が減るという効果がある。また、
最適化手順の最初に行なうことにより、ｉｆ変換により
変換された論理演算も最適化の対象にすることができ
る。

【０１１４】ｉｆ文の条件式が比較演算で、結果をビッ
トマスクとして得られる場合には、代入文が選択的に実
行されるだけの単純なｉｆ文を、論理演算を使って同じ
効果が得られるように変換する。

【０１１５】比較式をｃ、代入対象をｖ、ｔｈｅｎ節で
ｖに代入される値をｔ、ｅｌｓｅ節で代入される値をｆ
とすれば（ｔｈｅｎ節又はｅｌｓｅ節にｖへの代入文が
なければ、ｔ又はｆはｖとなる）、ｉｆ文を以下に示す
ようなような代入文に変換することができる。

【０１１６】

【数８】

【０１１７】但し、上式において、ｂｉｔａｎｄ、ｂｉ
ｔｏｒ、ｂｉｔｎｏｔはビット毎の論理積、論理和、論
理否定をそれぞれ表す演算子である。また、代入文が"
ｖ：＝ｖｏｒｗ"の形をしている場合や、代入する
値が特別な値ならば、変換結果を簡単にすることができ
る。例えば、

【０１１８】

【数９】

【０１１９】のような処理は、比較結果がビットマスク
で、負の数を２の補数で表すという前提で、以下のよう
にｉｆ変換される。

【０１２０】

【数１０】

【０１２１】ここで、比較結果と演算のビット長が異な
る場合には、適当な変換演算を挿入する。

【０１２２】ｉｆ変換を最初に行なうのは、変換された
論理演算も最適化の対象にするためである。

【０１２３】Ｃ−４−２．基本ブロックをＤＡＧに変換基本ブロックとは、プログラムを処理フローの分岐及び
合流場所で分割することによって得られるプログラム文
の単位のことである。基本ブロックは、連続した文の列
からなり、制御は先頭の文に与えられ、その後、途中で
停止したり、途中で分岐したりしないで、最後の文から
制御が離れる。

【０１２４】また、ＤＡＧ（Directed Acyclic Graph）
は、有向で繰り返しのないグラフのことである。基本ブ
ロック中の代入文は、ＤＡＧで表現することができる。
基本ブロックをＤＡＧに変換することによって、局所的
な共通部分式を除去することができる。また、本実施形
態においては、基本ブロックをＤＡＧに変換することに
よって、特殊な演算を伴うＳＩＭＤ命令を利用するため
のパターン・マッチングを容易に行なえるように、細か
い式を大きな式にまとめることができるという効果があ
る。

【０１２５】例えば、

【０１２６】

【数１１】

【０１２７】という基本ブロックがあった場合、ここで
のｃの値を他で使わないという前提で、

【０１２８】

【数１２】

【０１２９】を意味するＤＡＧ（但し、２つあるｘ＞＝
ｙは同じノードで表現される）に変換される。

【０１３０】図４には、ＳＩＭＤ命令で行なうことがで
きる特殊な演算子を含んだ基本ブロックの他の構成例を
示している。但し、同図に示す例では、プログラムを構
成する基本ブロックの集まりに、制御の流れに関する情
報（矢印）を付け加えた流れグラフの形式となってい
る。また、"ｃｏｎｖ"は型変換演算子であり、"ｓｈｒ"
は右シフト演算子である。なお、図中では型を省略して
いるが、乗算の上位を計算する部分にだけは型が付いて
いる。

【０１３１】また、図５には、図４に示した基本ブロッ
クのうち、最右上のブロックをＤＡＧに変換した例を示
している。但し、"："（コロン）の後にあるのは、その
ノードの値を持っている変数である。

【０１３２】図５中で、破線で囲まれた箇所Ａは、最大
最小命令に相当し、ＳＩＭＤ命令に置き換えることがで
きる特殊な命令である。同様に、一点鎖線で囲まれた箇
所Ｂは、乗算の上位であり、ＳＩＭＤ命令に置き換える
ことができる特殊な命令である。

【０１３３】ＤＡＧのパターン・マッチングにより、こ
れらＳＩＭＤ命令に置換可能かどうかを容易に判断する
ことができる、という点を充分に理解されたい。

【０１３４】Ｃ−４−３．ＤＡＧを分解次いで、前項で生成したＤＡＧを、ＳＩＭＤ命令で行な
える命令の単位に分解する。例えば、前述したＤＡＧの
例

【０１３５】

【数１３】

【０１３６】では、２数の大きい方を求める命令すなわ
ち最大最小命令があるので、分解されずに残される。

【０１３７】また、図５に示したＤＡＧの例では、最大
最小、及び、乗算の上位という、ＳＩＭＤ命令で行なえ
る演算の単位がそれぞれ含まれているので、これらの部
分が分解されずに残される。したがって、ＤＡＧ全体と
しては以下のように分解される。

【０１３８】

【数１４】

【０１３９】但し、ｈは、分解のために新たに導入した
変数である。ｄへの代入はａとｂの最大であり、ｈへの
代入はａとｂの乗算の上位を表している。

【０１４０】なお、中間表現の持つ演算子はすべて、分
解された演算とみなすようにすることで、分解の失敗が
ないようにしておく。ＳＩＭＤ命令にできなかった演算
は、後の段階で通常の命令になる。

【０１４１】Ｃ−４−４．同じ演算を複数まとめる次いで、ＤＡＧを分解してなる代入文のうち、同じ演算
を異なるデータに適用しているものを見つけて、これら
をＲＴＬ演算子"ｐａｒａｌｌｅｌ"を使って１箇所にま
とめる。

【０１４２】その際、代入文の位置を移動することにな
るが、プログラムの意味が変わってしまわないようにす
る必要がある。本発明者は、代入文の移動によってプロ
グラムの意味が変わらないことを判定するための幾つか
の条件を考案した。

【０１４３】まず、制御フロー・グラフ（プログラムを
構成する基本ブロックの集まりに、制御の流れに関する
情報（矢印）を付け加えたグラフ）中における移動元の
文の位置と移動先の文の位置のうち、先のものをｓとお
き、後のものをｔとおく。ここで、先と後は、同じ基本
ブロック内なら簡単に決まるが、そうでないときは次の
ようにする。まず、移動元の文の位置をｓ、移動先の文
の位置をｔとおき、ｓからｔまでの経路すべてを考える
とき、

【０１４４】経路上のｓ以外の位置で経路外からの合
流がない。経路上のｔ以外の位置で経路外への分岐がない。

【０１４５】という２つの条件をともに満たすときに
は、これで先と後が決まったことになる。満たさないと
きには、移動元の文の位置をｔ、移動先の文の位置をｓ
とおき、ｓからｔまでの経路すべてを考えるとき、条件
及びをともに満たすときには、先と後が決まったこ
とになる。満たさないときには、代入文を移動するとプ
ログラムの意味が変わってしまうので、移動の対象とし
ない。

【０１４６】例えば、図６に示すような制御フロー・グ
ラフのプログラムにおいて、基本ブロック間で代入文を
移動する場合について検討してみる。

【０１４７】同図に示すプログラムでは、同じ演算を異
なるデータに適用している代入文として、基本ブロック
Ｂ２内の代入文ｃ：＝ａ＋ａと、基本ブロックＢ４内の
代入文ｄ：＝ｂ＋ｂを抽出することができる。ここで、
基本ブロックＢ４内の代入文ｄ：＝ｂ＋ｂを、基本ブロ
ックＢ２内の代入文ｃ：＝ａ＋ａの位置に移動すること
を考えてみる。

【０１４８】まず、移動元の文である、基本ブロックＢ
４内の代入文ｄ：＝ｂ＋ｂの位置ｓとし、移動先であ
る、基本ブロックＢ２内の代入文ｃ：＝ａ＋ａの位置を
ｔとしてみる。

【０１４９】図６からも判るように、ｓからｔに向かう
すべての経路を考えると、経路上の位置ｓ以外の位置で
も、ｔにおいて経路外からの合流Ｒ２が存在する。ま
た、経路上の位置ｔ以外の位置でも、位置ｓにおいて経
路外への分岐Ｒ５が存在する。

【０１５０】したがって、上記の条件及びをいずれ
も満足しないので、これは正しい前後関係ではない。

【０１５１】次いで、前後関係を入れ替え、移動元の文
である、基本ブロックＢ４内の代入文ｄ：＝ｂ＋ｂの位
置ｔとし、移動先である、基本ブロックＢ２内の代入文
ｃ：＝ａ＋ａの位置ｓとしてみる。

【０１５２】図６からも判るように、ｓからｔに向かう
すべての経路を考えると、経路上の位置ｓには、経路内
からの合流Ｒ６の他に経路外からの合流Ｒ２を含むが、
それ以外の位置では経路外からの合流はない。また、経
路上の位置ｔには、経路内への分岐Ｒ６の他に経路外へ
の分岐Ｒ７を含むが、それ以外の位置では経路外への分
岐はない。

【０１５３】したがって、上記の条件及びをともに
満足するので、ｓが先、ｔが後であることがわかる。本
図の例では、この前後関係の元で、後に述べる条件及
びも満たしているため、基本ブロックＢ４内の代入文
ｄ：＝ｂ＋ｂを基本ブロックＢ２内の代入文ｃ：＝ａ＋
ａの位置まで移動することができる。このように代入文
の移動を適用した結果の制御フロー・グラフを図７に示
しておく。

【０１５４】次に、図８に示すような制御フローグラフ
のプログラムにおいて、基本ブロック間で代入文を移動
する場合について検討してみる。

【０１５５】図示のプログラム中からは、同じ演算を異
なるデータに適用している代入文として、基本ブロック
Ｂ１２内の代入文ｃ：＝ａ＋ａと、基本ブロックＢ１５
内の代入文ｄ：＝ｂ＋ｂが抽出される。ここで、基本ブ
ロックＢ１２内の代入文ｄ：＝ｂ＋ｂを、基本ブロック
Ｂ１５内の代入文ｃ：＝ａ＋ａの位置に移動することを
考えてみる。

【０１５６】ここで、基本ブロックＢ１２内の代入文
ｃ：＝ａ＋ａの位置をｓとし、基本ブロックＢ１５内の
代入文ｄ：＝ｂ＋ｂの位置をｔとした場合について考え
てみる。

【０１５７】図８からも判るように、経路上の位置ｔ以
外の位置でも、位置ｓにおいて経路外への分岐Ｒ１８が
存在する。すなわち、上記の条件を満足しないので、
これは正しい前後関係ではない。この例では、前後を入
れ替えても、条件及びを満たさないので、前後関係
を決めることができず、移動の対象としない。

【０１５８】プログラムの前後関係を判定する上記の２
つの条件及びを考慮した上で、移動したい代入文を
ａとしたときに、ｓからｔへ向かういずれの経路におい
てもさらに以下に示す２つの条件を満たす場合に限り、
代入文の移動を許可する。

【０１５９】ａの使用（又は参照）する変数の定義が
ないａの定義する変数の使用（又は参照）はなく定義はａ
しかない。

【０１６０】ここで、代入文ａを"Ｘ＝Ｘ＋Ｚ"とした場
合、ａの使用・参照する変数とはＸ並びにＺのことであ
り、ａの定義する変数はＸのことである。

【０１６１】例えば、以下に示すような複数の代入文か
らなるプログラムを考えた場合、

【０１６２】

【数１５】

【０１６３】比較演算を含む各代入文は、プログラムの
最初の位置まで移動することができる。同様に、減算を
含む各代入文は、最後の位置に移動することができる。
そして、同じ演算を異なるデータに適用しているそれぞ
れの代入文の塊を、ｐａｒａｌｌｅｌを使って、以下に
示すように１箇所にまとめることができる。

【０１６４】

【数１６】

【０１６５】上記に示した代入文の移動は、いずれも、
プログラムの意味の同一性を判断するためのすべての条
件〜を満足している、という点を充分理解された
い。

【０１６６】ｐａｒａｌｌｅｌ式でまとめるこの処理段
階では、ＳＩＭＤ命令の並列度を考慮しないので、後の
処理過程では、ここでまとめられた代入文の一部又は全
部がＳＩＭＤ命令にならない場合がある。

【０１６７】なお、ベクトル化することが可能なループ
も、適当な回数だけ展開することで、この段階での処理
に帰着することができる。

【０１６８】Ｃ−４−５．命令とレジスタの制約の適用ここまでの処理では、ＳＩＭＤ命令を適用するために、
プログラム中で同じ演算を異なるデータに適用している
ものを見つけて、ｐａｒａｌｌｅｌを使って１箇所にま
とめられている。

【０１６９】例えば、演算としてはＳＩＭＤ命令で実行
可能とされたものでも、結果を格納するレジスタがソー
スの一方と同じであることが必要な場合がある。また、
比較が一方しか使えない場合や、特定のレジスタを必要
としたりするなどの命令の制約がある場合がある。

【０１７０】このため、命令セットによってはレジスタ
の使用に制約が課されていることがあるので、これを適
用して、プログラムの一部を書き換える処理を行なう。
また、適用した結果、挿入された命令がさらに適用の対
象になることもあるので、適用は繰り返し行なう。

【０１７１】ＳＩＭＤ加算命令のソース・オペランドの
一方に加算結果が格納されるような命令セットの場合
（例えば、ＭＭＸ命令）、例えば以下に示すような加算
命令からなるｐａｒａｌｌｅｌ式は、

【０１７２】

【数１７】

【０１７３】ｔ０，ｔ１，ｔ２，ｔ３の古い値が以後使
用されないという前提で、以下のように書き換えられ
る。また、ｓ４，ｓ８，ｓ１２，ｓ１６を使っている箇
所も、ｔ０，ｔ１，ｔ２，ｔ３に書き換えられる。

【０１７４】

【数１８】

【０１７５】また、ＳＩＭＤ比較命令でより大きいかど
うかの判定はできないが、より小さいかどうかの判定が
できるような命令セットの場合には、より大きいかどう
かの判定を行なう複数の比較命令で構成された以下のｐ
ａｒａｌｌｅｌ式は、

【０１７６】

【数１９】

【０１７７】より小さいかどうかの判定を行なう比較命
令に書き換えられた以下のｐａｒａｌｌｅｌ式に書き換
えられる。

【０１７８】

【数２０】

【０１７９】Ｃ−４−６．ＳＩＭＤレジスタの割当最後に、中間表現されたプログラム中でｐａｒａｌｌｅ
ｌ式を使って１箇所にまとめられている代入文のうち、
１つのＳＩＭＤ命令で処理できるものを選んで、その代
入文が使用又は定義する変数をそれぞれＳＩＭＤレジス
タに対するｓｕｂｒｅｇ式に置き換える。このようにし
てｓｕｂｒｅｇ式の繰り返しで構成されたｐａｒｅｌｌ
ｅｌ文（例えば、図２を参照のこと）は、中間表現であ
るが、ＳＩＭＤ命令に置き換わったすなわち最適化され
たものと等価である。

【０１８０】ｐａｒａｌｌｅｌ式でまとめられた代入文
からＳＩＭＤ命令で処理できるものを取捨選択していく
過程で、ＳＩＭＤ命令の並列性が余った場合には、ダミ
ーの代入を付け加えてｐａｒａｌｌｅｌ内が１つのＳＩ
ＭＤ命令に対応するようにする。

【０１８１】また、上述したレジスタの制約の適用がで
きないＳＩＭＤ命令であれば、それを考慮してＳＩＭＤ
レジスタ中のサブオペランドの位置を決めるようにす
る。

【０１８２】図９には、プログラム中からＳＩＭＤ命令
で処理できる代入文を選んで、代入文が使用又は定義す
る変数をＳＩＭＤレジスタに割り当てるための処理手順
をフローチャートの形式で示している。但し、この処理
に投入されるプログラムは、ＲＴＬで中間表現されたも
のであり、同じ演算を異なるデータに適用している複数
の代入文がｐａｒａｌｌｅｌ分を使って１箇所にまとめ
られているものとする。以下、図示のフローチャートを
参照しながら代入文が使用又は定義する変数をＳＩＭＤ
レジスタに割り当てるための処理について説明する。

【０１８３】まず、プログラムの先頭から順に、処理対
象となるｐａｒｅｌｌｅｌ式を１つ取り出す（ステップ
Ｓ１）。もしプログラム中のすべてのｐａｒａｌｌｅｌ
式について、以下に示すレジスタ割当処理が終了してい
れば（ステップＳ２）、本処理ルーチン全体を終了す
る。

【０１８４】次いで、ｐａｒａｌｌｅｌ式に含まれてい
る代入文の個数が、代入文が適用する演算に対応するＳ
ＩＭＤ命令１つで処理できる数以下かどうかをチェック
する（ステップＳ３）。

【０１８５】ｐａｒａｌｌｅｌ式に含まれている代入文
の個数が、代入文が適用する演算に対応するＳＩＭＤ命
令１つで処理できる数を越える場合には、ＳＩＭＤ命令
１つで処理できる個数の代入文を取り除いて、別のｐａ
ｒａｌｌｅｌ式を作ってプログラムに挿入する（ステッ
プＳ４）。

【０１８６】そして、作ったｐａｒａｌｌｅｌ式に含ま
れる各代入文において使用又は定義している変数をＳＩ
ＭＤレジスタに対するｓｕｂｒｅｇ式にそれぞれ置換す
る（ステップＳ５）。レジスタの制約の適用（上述）が
できなかったＳＩＭＤ命令であれば、それを考慮して、
ＳＩＭＤレジスタ中のサブオペランドの位置を決めるよ
うにする。

【０１８７】その後、ステップＳ１に戻って、プログラ
ム中の次のｐａｒａｌｌｅｌ式について、上述と同様の
ＳＩＭＤレジスタ割当処理を繰り返し実行する。

【０１８８】他方、ステップＳ３において、ｐａｒａｌ
ｌｅｌ式に含まれている代入文の個数が、代入文が適用
する演算に対応するＳＩＭＤ命令１つで処理できる数以
下と判断された場合には、さらに、代入文の個数が所定
の閾値ｍｉｎ_ｓｉｍｄ以上かどうかをチェックする
（ステップＳ６）。

【０１８９】ｐａｒａｌｌｅｌ式に含まれる代入文の個
数がｍｉｎ_ｓｉｍｄ以上である場合には、ダミーの代
入文を付け加えて、ちょうどＳＩＭＤ命令１つで処理で
きる代入文の個数にしてから（ステップＳ７）、各代入
文において使用又は定義している変数をＳＩＭＤレジス
タに対するｓｕｂｒｅｇ式にそれぞれ置換する（ステッ
プＳ８）。レジスタの制約の適用（上述）ができなかっ
たＳＩＭＤ命令であれば、それを考慮して、ＳＩＭＤレ
ジスタ中のサブオペランドの位置を決めるようにする。

【０１９０】その後、ステップＳ１に戻って、プログラ
ム中の次のｐａｒａｌｌｅｌ式について、上述と同様の
ＳＩＭＤレジスタ割当処理を繰り返し実行する。

【０１９１】また、ｐａｒａｌｌｅｌ式に含まれる代入
文の個数がｍｉｎ_ｓｉｍｄ未満である場合には、ｐａ
ｒａｌｌｅｌ式を外して、これら代入文をＳＩＭＤ命令
に置き換えること、すなわち最適化することを諦める
（ステップＳ９）。その後、ステップＳ１に戻って、プ
ログラム中の次のｐａｒａｌｌｅｌ式について、上述と
同様のＳＩＭＤレジスタ割当処理を繰り返し実行する。

【０１９２】上記で使用された値ｍｉｎ_ｓｉｍｄは、
ダミー文を挿入してＳＩＭＤ命令にすることと、ダミー
文を挿入せずＳＩＭＤ命令にすることをあきらめること
のいずれが最適であるかを判断するための閾値である。

【０１９３】ここで、ステップＳ５及びＳ８において、
代入文をＳＩＭＤレジスタに対するｓｕｂｒｅｇ式に置
き換えるための処理について詳解する。

【０１９４】もし、ＳＩＭＤレジスタがあふれた場合
は、適当なロード・ストア命令を挿入する。

【０１９５】また、使用又は定義の対象がメモリ上の値
である場合にも、必要に応じてＳＩＭＤレジスタに対す
るロード・ストア命令を挿入する。この際、変数の並び
順の制約が必要になることがあるときには、制約情報を
生成する。

【０１９６】また、ＳＩＭＤ命令にできない代入文との
間で定義・使用関係があるときや、ＳＩＭＤ命令同士で
も基本ブロックの境界などで調整が必要な場合は、調整
命令や適当な変換命令を挿入する。挿入する命令のコス
トが大きいときには、ＳＩＭＤ命令を使うことを諦め
る。

【０１９７】Ｄ．Ｃｏｉｎｓコンパイラとの接続Ｄ−１．Ｃｏｉｎｓコンパイラの概要「Ｃｏｉｎｓコンパイラ」は、文部科学省科学技術振興
調整費による、並列コンパイラ向け共通インフラストラ
クチャの研究（２０００年度より５年）で作成されてい
るコンパイラの呼称である。Ｃｏｉｎｓコンパイラは、
以下の２つの中間表現を用いている。

【０１９８】（１）高水準中間表現ＨＩＲ（High level
Intermediate Representation）抽象構造木に近い表現であり、ソース言語の構成要素と
一対一に近い対応関係がある。ＨＩＲの文法は、ソース
言語に依存しない。

【０１９９】（２）低水準中間表現ＬＩＲ（Low level
Intermediate Representation）レジスタやメモリの値の変更などを表す式の並びであ
り、マシン命令の意味を表現することができる。ＬＩＲ
の文法は、マシン非依存である。

【０２００】Ｃｏｉｎｓコンパイラは、Ｊａｖａ言語で
実装されているので、ホストマシン依存性に関しては、
考慮する必要はほとんどない。Ｊａｖａ以外の言語のコ
ンパイラを作る場合には、型のサイズや演算子の違いを
明確にしておく必要はあるが、Ｃ言語でＣ言語のクロス
コンパイラを作る場合の問題に比べれば、ホストマシン
は常に同一とみなすことができるので、扱いは容易であ
る。

【０２０１】ＨＩＲは、ソース言語に近いレベルでの処
理を行なうためのものであり、ソース言語に依存した最
適化、例えばＣ言語での副作用順序の変更はＨＩＲで行
なう。ＨＩＲの形式は、勿論、対象とするアーキテクチ
ャ非依存であるが、生成されたＨＩＲには、対象とする
アーキテクチャに依存した値が含まれる。例えば、Ｃ言
語ではｉｎｔの大きさは実装によって異なるので、同じ
ソース・プログラムから生成されたＨＩＲであっても一
通りではない。ＨＩＲの生成や変換を行う際には、各型
のサイズやアラインメントなどが記録されたマシン・パ
ラメータを参照する。

【０２０２】また、ＬＩＲは、各種の最適化から、コー
ド生成、マシン後レベルでの最適化まで使われるものが
ある。コード生成より前の段階では、ＬＩＲはマシン命
令に対応しているのではなく、以下のような抽象化が行
われている。

【０２０３】マシンの物理レジスタではなく、仮想レ
ジスタを使える。仮想レジスタには数の制限はない。仮
想レジスタは、パターン・マッチングでマッチしたマシ
ン命令でのレジスタ使用の制約に基づいて、物理レジス
タ割当で物理レジスタが割り当てられる。

【０２０４】ローカル変数はスタック・フレームを参
照する式ではなく、ＦＲＡＭＥ式で表現される。ＦＲＡ
ＭＥ式は、変数のアドレスを表す式であり、フレーム割
当でフレーム・ポインタ（場合によっては、スタック・ポ
インタ）からの相対アドレスに変換される。

【０２０５】固定したアドレスに確保される変数（Ｃ
言語の関数外で定義された変数など）は、ＳＴＡＴＩＣ
式で表現される。

【０２０６】ＬＩＲには、ＳＴＡＴＩＣ式、ＦＲＡＭＥ
式で表される変数の型やアラインメントなどを保持する
テーブルや、初期値のある、あるいは内、データ領域を
表すデータ定義も含まれており、１つのコンパイル単
位、あるいはオブジェクト・ファイル全体の情報を表現
している。

【０２０７】現在、ＣｏｉｎｓコンパイラはＳＰＡＲＣ
プロセッサ用のＣコンパイラの部分の作成が進んでお
り、それは以下に示すような各フェーズに区分すること
ができる。

【０２０８】(１)ソース・プログラムをＨＩＲ−Ｃに変
換 (２)Ｃ言語に依存したプログラム変換 (３)ＨＩＲ−ＣをＨＩＲ−ｂａｓｅに変換 (４)高水準最適化 (５)ＨＩＲ−ｂａｓｅをＬＩＲに変換 (６)仮想レジスタ割付 (７)低水準最適化 (８)フレーム割当 (９)パターン・マッチング (10)物理レジスタ割当 (11)マシン語レベルでの最適化 (12)アセンブラ・コード生成

【０２０９】まず、Ｃ言語のソース・プログラムは、Ｃ
言語独自の演算子などを表現するために拡張したＨＩＲ
−Ｃに変換される。Ｃ言語に依存したプログラム変換を
行った後、拡張部分のないＨＩＲである、ＨＩＲ−ｂａ
ｓｅに変換される。

【０２１０】ＨＩＲ−ｂａｓｅ上で高水準最適化を行っ
てからは、ＬＩＲに変換される。ＬＩＲでは、まず仮想
レジスタ割付を行ってから、低水準最適化を行い、フレ
ーム割当、パターン・マッチング、物理レジスタ割当を
経て、具体的なマシン命令を表すＬＩＲに変換される。

【０２１１】その後、命令スケジューリングなどのマシ
ン語レベルの最適化を行い、最後にアセンブリ言語のプ
ログラムが生成される。

【０２１２】幾つかのある最適化は、実際には複数の最
適化が適当な順序で必要に応じて繰り返し適用されるこ
とになる。また、他のフェーズも必要なら、何度も適用
されることがある。

【０２１３】Ｄ−２．Ｃｏｉｎｓコンパイラを利用する
理由ＳＩＭＤ命令を使った最適化は、独立した処理のように
見えるが、コンパイラに通常組み込まれている、いろい
ろな解析結果を必要としている。例えば、以下に示すＣ
言語のプログラムは、ループのベクトル化が可能であ
る。

【０２１４】

【数２１】

【０２１５】しかしながら、以下のように変わっただけ
で、ポインタの別名問題のため、ベクトル化は誤りとな
る。

【０２１６】

【数２２】

【０２１７】これをうまく扱うためには、ポインタ解析
などの一般的な枠組みが別にあって、別名の問題のない
ものを仮想レジスタ割付の対象にするなどの前提が必要
になる。

【０２１８】ポインタ解析は、それだけで大きな研究対
象であり、独立して開発するのは効率が悪く、インフラ
ストラクチャとして利用するべきものである。他にも、
手続き間最適化など、必要なものはいろいろある。その
ため、Ｃｏｉｎｓコンパイラを利用して、上述した最適
化を行うことにする。

【０２１９】Ｄ−３．ＳＩＭＤ命令を使った最適化の組
み込み方法ＳＩＭＤ命令を使った最適化は、Ｃｏｉｎｓコンパイラ
で行われる以下の３箇所の最適化の１つあるいは複数で
実現することになる。

【０２２０】高水準最適化低水準最適化マシン語レベルでの最適化

【０２２１】まず、ＨＩＲではＲＴＬに基づく方法を使
用で気ないので、高水準最適化は除外される。

【０２２２】次いで、マシン語レベルでの最適化を行な
うと、フレーム割当や物理レジスタ割当の後になるた
め、物理レジスタやスタック・フレームにある値をＳＩ
ＭＤレジスタに割り当て直すのは解析が難しい上、レジ
スタ割り当てがやり直しになってしまう。また、ＳＩＭ
Ｄレジスタ割当では、ＳＩＭＤ命令にできなかったもの
を後で通常の命令にするという前提なので、通常のパタ
ーン・マッチングより先に済ませておく必要がある。

【０２２３】結局、ＳＩＭＤ命令を使った最適化は、６
つあるフェーズ（図３を参照のこと）をすべて低水準最
適化の一部として実現することにする。この場合、その
後のフェーズでは、ＳＩＭＤ物理レジスタやＳＩＭＤ命
令に対するｓｕｂｒｅｇ式やｐａｒａｌｌｅｌ式を含む
ＬＩＲを扱う必要が出てくる。現在のところ、これらを
扱うための変更は、フレーム割当フェーズ以降に限り、
ＳＩＭＤ命令を使った最適化を低水準最適化の最後で行
なうこととしている。

【０２２４】Ｃｏｉｎｓコンパイラを用いた実現では、
以下のようなメリットがある。

【０２２５】ＳＩＭＤ命令のサブオペランドになりう
る値が仮想レジスタにのっていると仮定して処理するこ
とができる。定数伝搬や別名解析が済んでいると仮定できる。ＳＩＭＤ命令にできなかった部分の処理を任せられ
る。変数の使用定義関係、生きている変数の解析などに、
Ｃｏｉｎｓコンパイラのインフラストラクチャ部分を利
用することができる。

【０２２６】しかしながら、そのため、Ｃｏｉｎｓコン
パイラに対して以下のような部分的な変更を加える必要
がある。

【０２２７】ＳＩＭＤ命令を使った最適化で呼び出す
コード解析部がｐａｒａｌｌｅｌ式に対応すること。フレーム割当以降のフェーズがＳＩＭＤ物理レジスタ
とｓｕｂｒｅｇ式に対応すること。マシン命令によくある偽の依存関係に対応すること
（排他的論理輪を使ってゼロにするときは使用とはみな
さないなど）。生成したＳＩＭＤ命令を壊さないこと。変数の並びの制約をアドレス固定の変数の並びに反映
させること。

【０２２８】現在残っている問題点は、ＳＩＭＤ命令を
使ったために、別の自明でない最適化が必要になるも
の、例えばループ不変式の追い出しがこのままではでき
ないことである。独自のループ最適化フェーズを実装す
る必要があるかもしれない。

【０２２９】［追補］以上、特定の実施形態を参照しな
がら、本発明について詳解してきた。しかしながら、本
発明の要旨を逸脱しない範囲で当業者が該実施形態の修
正や代用を成し得ることは自明である。すなわち、例示
という形態で本発明を開示してきたのであり、本明細書
の記載内容を限定的に解釈するべきではない。本発明の
要旨を判断するためには、冒頭に記載した特許請求の範
囲の欄を参酌すべきである。

【０２３０】

【発明の効果】以上詳記したように、本発明によれば、
コンパイル時などにおいて実際の処理効率や処理速度を
向上させるための最適化を好適に行なうことができる、
優れたプログラム処理装置及びプログラム処理方法、記
憶媒体、並びにコンピュータ・プログラムを提供するこ
とができる。

【０２３１】また、本発明によれば、複数のデータを同
時に処理するためのＳＩＭＤ（Single Instruction／Mu
ltiple Data）命令を含んだ命令セットを持つアーキテ
クチャを対象としてプログラムに対してコンパイルなど
の処理を好適に行なうことができる、優れたプログラム
処理装置及びプログラム処理方法、記憶媒体、並びにコ
ンピュータ・プログラムを提供することができる。

【０２３２】また、本発明によれば、ＳＩＭＤ命令の特
徴を活かしたプログラムの最適化を自動的に行なうこと
ができる、優れたプログラム処理装置及びプログラム処
理方法、記憶媒体、並びにコンピュータ・プログラムを
提供することができる。

【０２３３】また、本発明によれば、特殊な演算子を持
つ命令を利用するとともに、データ・サイズの混合した
演算をうまく扱うことで、より難易度の高いＳＩＭＤ命
令を使用したプログラムの最適化を実現することができ
る。

【０２３４】また、本発明によれば、元のプログラム・
コードを中間表現に変換して、並列に実行できる操作を
単に検出するだけでなく、特殊な演算子を使用したり、
データ・サイズの混合した命令の一部を使用できるよう
にすることで、より難易度の高いＳＩＭＤ命令を使用し
たプログラムの最適化を実現することができる。

【図面の簡単な説明】

【図１】本実施形態に係るプログラム処理装置１００の
ハードウェア構成を模式的に示した図である。

【図２】ＭＭＸ命令をＲＴＬで中間表現した例を示した
図である。

【図３】ソース・プログラムを中間表現するための手順
を示したフローチャートである。

【図４】ＳＩＭＤ命令で行なうことができる特殊な演算
子を含んだ基本ブロックの他の構成例を示した図であ
る。

【図５】図４に示した基本ブロックのうち最右上のブロ
ックをＤＡＧに変換した例を示した図である。

【図６】プログラムの基本ブロック構成例を示した図で
ある。

【図７】プログラムの基本ブロック構成例を示した図で
あり、より具体的には、図６に示したプログラムに対し
て代入文の移動を適用した結果を示した図である。

【図８】プログラムの基本ブロック構成例を示した図で
ある。

【図９】プログラム中からＳＩＭＤ命令で処理できる代
入文を選んで、代入文が使用又は定義する変数をＳＩＭ
Ｄレジスタに割り当てるための処理手順を示したフロー
チャートである。

【符号の説明】

１００…プログラム処理装置１０１…ＣＰＵ，１０２…主メモリ，１０３…ＲＯＭ１０４…ディスプレイ・コントローラ１０５…入力機器インターフェース１０６…ネットワーク・インターフェース１０７…外部機器インターフェース１０８…バス１１１…ディスプレイ１１２…キーボード，１１３…マウス１１４…ハード・ディスク装置１１５…メディア・ドライブ

Claims

【特許請求の範囲】

【請求項１】オペランドを複数のサブオペランドに分割
して複数のデータの集まりとみなして各サブオペランド
に対する同種の演算を一斉に処理する一斉処理命令を用
いてプログラムの最適化を行なうプログラム処理装置で
あって、プログラム中の代入文で同じ演算を異なるデータに適用
している箇所を探索して、一箇所に移動し、並列実行す
る演算子を用いて１つにまとめる代入文移動部と、該並列実行する演算子でまとめられた各代入文が定義又
は使用・参照する変数を前記一斉処理命令の各サブオペ
ランドに割り当てるサブオペランド割当部と、を具備す
ることを特徴とするプログラム処理装置。
【請求項２】プログラムを前記代入文移動部に投入する
前に、プログラム中のｉｆ文をなくすｉｆ変換部をさら
に備える、ことを特徴とする請求項１に記載のプログラ
ム処理装置。
【請求項３】前記ｉｆ変換部は、比較式をｃ、代入対象
をｖ、ｔｈｅｎ節でｖに代入される値をｔ、ｅｌｓｅ節
で代入される値をｆとしたｉｆ文を（ｔｈｅｎ節又はｅ
ｌｓｅ節にｖへの代入文がなければ、ｔ又はｆはｖとな
る）、【数１】という代入文に変換する、ことを特徴とする請求項２に
記載のプログラム処理装置。
【請求項４】プログラムを前記代入文移動部に投入する
前に、連続した文の列からなり制御は先頭の文に与えら
れその後途中で停止及び分岐なく最後の文から制御が離
れる１以上の基本ブロックで構成されるプログラムを有
向で繰り返しのないグラフで表現されたＤＡＧに変換す
るＤＡＧ変換部をさらに備える、ことを特徴とする請求
項１に記載のプログラム処理装置。
【請求項５】プログラムを前記代入文移動部に投入する
前に、プログラムを有向で繰り返しのないグラフで表現
したＤＡＧを前記一斉処理命令で行なえる演算の単位に
分解するＤＡＧ分解部をさらに備える、ことを特徴とす
る請求項１に記載のプログラム処理装置。
【請求項６】前記代入文移動部は、移動元の文の位置ｓ
から移動先の文の位置ｔまでのすべての経路を考えると
き、経路上のｓ以外の位置で経路外からの合流がなく、
且つ、経路上のｔ以外の位置で経路外への分岐がない場
合以外は、当該文の移動を許容しない、ことを特徴とす
る請求項１に記載のプログラム処理装置。
【請求項７】前記代入文移動部によって並列実行する演
算子を用いて１つにまとめられた代入文を前記一斉処理
命令の実行におけるオペランドの使用の制約に従って書
き換える制約適用部をさらに備える、ことを特徴とする
請求項１に記載のプログラム処理装置。
【請求項８】前記サブオペランド割当部は、該並列実行
する演算子でまとめられた代入文の個数が前記一斉処理
命令１つで処理できる数を越える場合には、前記一斉処
理命令１つで処理できる個数の代入文を取り出して、各
代入文において使用又は定義している変数をそれぞれ前
記一斉処理命令のサブオペランドに割り当てる、ことを
特徴とする請求項１に記載のプログラム処理装置。
【請求項９】前記サブオペランド割当部は、該並列実行
する演算子でまとめられた代入文の個数が前記一斉処理
命令１つで処理できる数以下の場合には、ダミーの代入
文を付け加えてちょうど前記一斉処理命令１つで処理で
きる個数になるようにして、各代入文において使用又は
定義している変数をそれぞれ前記一斉処理命令のサブオ
ペランドに割り当てる、ことを特徴とする請求項１に記
載のプログラム処理装置。
【請求項１０】前記サブオペランド割当部は、該並列実
行する演算子でまとめられた代入文の個数が前記一斉処
理命令１つで処理できる数以下の場合には、代入文を該
並列式から外して前記一斉処理命令への置き換えを諦め
る、ことを特徴とする請求項１に記載のプログラム処理
装置。
【請求項１１】オペランドを複数のサブオペランドに分
割して複数のデータの集まりとみなして各サブオペラン
ドに対する同種の演算を一斉に処理する一斉処理命令を
用いてプログラムの最適化を行なうプログラム処理方法
であって、プログラム中の代入文で同じ演算を異なるデータに適用
している箇所を探索して、一箇所に移動し、並列実行す
る演算子を用いて１つにまとめる代入文移動ステップ
と、該並列実行する演算子でまとめられた各代入文が定義又
は使用・参照する変数を前記一斉処理命令の各サブオペ
ランドに割り当てるサブオペランド割当ステップと、を
具備することを特徴とするプログラム処理方法。
【請求項１２】プログラムを前記代入文移動ステップを
実行する前に、プログラム中のｉｆ文をなくすｉｆ変換
ステップをさらに備える、ことを特徴とする請求項１１
に記載のプログラム処理方法。
【請求項１３】前記ｉｆ変換ステップでは、比較式を
ｃ、代入対象をｖ、ｔｈｅｎ節でｖに代入される値を
ｔ、ｅｌｓｅ節で代入される値をｆとしたｉｆ文を（ｔ
ｈｅｎ節又はｅｌｓｅ節にｖへの代入文がなければ、ｔ
又はｆはｖとなる）、【数２】という代入文に変換する、ことを特徴とする請求項１１
に記載のプログラム処理方法。
【請求項１４】前記代入文移動ステップを実行する前
に、連続した文の列からなり制御は先頭の文に与えられ
その後途中で停止及び分岐なく最後の文から制御が離れ
る１以上の基本ブロックで構成されるプログラムを有向
で繰り返しのないグラフで表現されたＤＡＧに変換する
ＤＡＧ変換ステップをさらに備える、ことを特徴とする
請求項１１に記載のプログラム処理方法。
【請求項１５】前記代入文移動ステップを実行する前
に、プログラムを有向で繰り返しのないグラフで表現し
たＤＡＧを前記一斉処理命令で行なえる演算の単位に分
解するＤＡＧ分解ステップをさらに備える、ことを特徴
とする請求項１１に記載のプログラム処理方法。
【請求項１６】前記代入文移動ステップでは、移動元の
文の位置ｓから移動先の文の位置ｔまでのすべての経路
を考えるとき、経路上のｓ以外の位置で経路外からの合
流がなく、且つ、経路上のｔ以外の位置で経路外への分
岐がない場合以外は、当該文の移動を許容しない、こと
を特徴とする請求項１１に記載のプログラム処理方法。
【請求項１７】前記代入文移動ステップによって並列実
行する演算子を用いて１つにまとめられた代入文を前記
一斉処理命令の実行におけるオペランドの使用の制約に
従って書き換える制約適用ステップをさらに備える、こ
とを特徴とする請求項１１に記載のプログラム処理方
法。
【請求項１８】前記サブオペランド割当ステップでは、
該並列実行する演算子でまとめられた代入文の個数が前
記一斉処理命令１つで処理できる数を越える場合には、
前記一斉処理命令１つで処理できる個数の代入文を取り
出して、各代入文において使用又は定義している変数を
それぞれ前記一斉処理命令のサブオペランドに割り当て
る、ことを特徴とする請求項１１に記載のプログラム処
理方法。
【請求項１９】前記サブオペランド割当ステップでは、
該並列実行する演算子でまとめられた代入文の個数が前
記一斉処理命令１つで処理できる数以下の場合には、ダ
ミーの代入文を付け加えてちょうど前記一斉処理命令１
つで処理できる個数になるようにして、各代入文におい
て使用又は定義している変数をそれぞれ前記一斉処理命
令のサブオペランドに割り当てる、ことを特徴とする請
求項１１に記載のプログラム処理方法。
【請求項２０】前記サブオペランド割当ステップでは、
該並列実行する演算子でまとめられた代入文の個数が前
記一斉処理命令１つで処理できる数以下の場合には、代
入文を該並列式から外して前記一斉処理命令への置き換
えを諦める、ことを特徴とする請求項１１に記載のプロ
グラム処理方法。
【請求項２１】複数の代入文を含んだプログラムを処理
するプログラム処理装置であって、移動元の文の位置ｓから移動先の文の位置ｔまでのすべ
ての経路を考えるとき、経路上のｓ以外の位置で経路外
からの合流がなく、且つ、経路上のｔ以外の位置で経路
外への分岐がない場合、又は移動先の文の位置ｓから移
動元の文の位置ｔまでのすべての経路を考えるとき、経
路上のｓ以外の位置で経路外からの合流がなく、且つ、
経路上のｔ以外の位置で経路外への分岐がない場合、以
外は、当該文の移動を許容しない、ことを特徴とするプ
ログラム処理装置。
【請求項２２】複数の代入文を含んだプログラムを処理
するプログラム処理方法であって、移動元の文の位置ｓから移動先の文の位置ｔまでのすべ
ての経路を考えるとき、経路上のｓ以外の位置で経路外
からの合流がなく、且つ、経路上のｔ以外の位置で経路
外への分岐がない場合、又は、移動先の文の位置ｓから
移動元の文の位置ｔまでのすべての経路を考えるとき、
経路上のｓ以外の位置で経路外からの合流がなく、且
つ、経路上のｔ以外の位置で経路外への分岐がない場
合、以外は、当該文の移動を許容しない、ことを特徴と
するプログラム処理方法。
【請求項２３】オペランドを複数のサブオペランドに分
割して複数のデータの集まりとみなして各サブオペラン
ドに対する同種の演算を一斉に処理する一斉処理命令を
用いてプログラムの最適化を行なう処理をコンピュータ
・システム上で実行するように記述されたコンピュータ・
ソフトウェアをコンピュータ可読形式で物理的に格納し
た記憶媒体であって、前記コンピュータ・ソフトウェア
は、プログラム中の代入文で同じ演算を異なるデータに適用
している箇所を探索して、一箇所に移動し、並列実行す
る演算子を用いて１つにまとめる代入文移動ステップ
と、該並列実行する演算子でまとめられた各代入文が定義又
は使用・参照する変数を前記一斉処理命令の各サブオペ
ランドに割り当てるサブオペランド割当ステップと、を
具備することを特徴とする記憶媒体。
【請求項２４】オペランドを複数のサブオペランドに分
割して複数のデータの集まりとみなして各サブオペラン
ドに対する同種の演算を一斉に処理する一斉処理命令を
用いてプログラムの最適化を行なう処理をコンピュータ
・システム上で実行するように記述されたコンピュータ・
プログラムであって、プログラム中の代入文で同じ演算を異なるデータに適用
している箇所を探索して、一箇所に移動し、並列実行す
る演算子を用いて１つにまとめる代入文移動ステップ
と、該並列実行する演算子でまとめられた各代入文が定義又
は使用・参照する変数を前記一斉処理命令の各サブオペ
ランドに割り当てるサブオペランド割当ステップと、を
具備することを特徴とするコンピュータ・プログラム。