JP2004164163A - Simd命令シーケンス生成方法および装置ならびにsimd命令シーケンス生成用プログラム - Google Patents
Simd命令シーケンス生成方法および装置ならびにsimd命令シーケンス生成用プログラム Download PDFInfo
- Publication number
- JP2004164163A JP2004164163A JP2002327873A JP2002327873A JP2004164163A JP 2004164163 A JP2004164163 A JP 2004164163A JP 2002327873 A JP2002327873 A JP 2002327873A JP 2002327873 A JP2002327873 A JP 2002327873A JP 2004164163 A JP2004164163 A JP 2004164163A
- Authority
- JP
- Japan
- Prior art keywords
- simd
- data
- line
- code
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/44—Encoding
- G06F8/447—Target code generation
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Devices For Executing Special Programs (AREA)
- Executing Machine-Instructions (AREA)
- Image Processing (AREA)
- Advance Control (AREA)
Abstract
【解決手段】翻訳部3は、画像の1行分のデータである行データを単位に行われる処理指定(行単位処理指定、行データ抽出指定、ブロードキャスト指定)を用いて記述されたソースコード1を入力し、構文解析、最適化を行い、SIMD命令セットの利用を考慮した中間形式であるSIMDマクロコード4を生成する。簡略化部5は、SIMDマクロコード4から同一仮想SIMDレジスタに対する定義と参照の関係にある一連のコードを一つにまとめた複合マクロコードに変換した簡略化SIMDマクロコード6を生成する。マシンコード生成部7は、簡略化SIMDマクロコード6からSIMD命令を効率良く使用したマシンコード8を生成する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、マルチメディア処理を高速化するためにSIMD(Single Instruction Multi Data)命令と呼ばれる拡張された命令セットを有する計算機を対象に、SIMD命令シーケンスを生成する方法および装置ならびにSIMD命令シーケンスを生成するプログラムに関する。
【0002】
【従来の技術】
画像などのマルチメディアデータに対する処理では、固定的なフォーマットのデータに対して同じ種類の演算を繰り返し適用することが多い。そこで、1つの命令で多量のデータに対して同じ種類の演算を一斉に行うようにして、計算機全体のデータ処理能力を高めるためにSIMD命令と呼ばれる命令を備えるようにした計算機が実用化されている。
【0003】
SIMDで扱われるデータの形式や命令セットは、計算機のアーキテクチャ毎に異なるが、一般的には、1命令で64ビットや128ビットのデータに対して、一度に処理を行うことができるようになっている。このデータ幅の中に、8ビット、16ビット、32ビットの整数型データか、32ビット、64ビットの浮動小数点型データを複数詰め込み、1命令ですべてのデータに対して同時に処理を行う。例えば、8ビットの整数型データなら128ビットの中に16個格納できるので、画像処理ソフトウェアなどでは、一度に16画素分の処理ができ、SIMD命令の使用は特に画像処理の高速化に対して有効である。SIMDで実行可能な命令としては、加減乗除算、アンドやオアなどの論理演算、マスク演算、飽和演算、積和演算、内積演算、最大/最小値、絶対値、平均値などがある。
【0004】
代表的なSIMD命令セットの例としては、Pentium(登録商標)アーキテクチャにおけるMMXテクノロジーやStreaming SIMD命令、AMD K6/K7における3Dnow!、PowerPCアーキテクチャのAltiVec、MIPSプロセッサにおけるMDMX、SPARCアーキテクチャのVISなどがある。
【0005】
SIMD命令セットを有する計算機向けのプログラムを能率的に開発するには、SIMD命令を含んだプロセッサ命令シーケンスの生成が必要である。このために後述する特許文献1では、複数の配列データに対する演算処理が逐次的に記述されたソースプログラムからSIMD化可能なループ構造を抽出し、それらをSIMD命令を用いたループ構造に変換することで、SIMD命令セットを用いて各配列要素を演算処理するような目的プログラムを生成するコンパイラ(SIMD化コンパイラ)が提案されている。
【0006】
【特許文献1】
特開平10−228382号公報
【0007】
【発明が解決しようとする課題】
特許文献1に記載されるコンパイラによれば、C言語等の高級言語で記述された逐次処理プログラムからSIMD命令セットを有する計算機向けの目的プログラムを自動的に生成することができる。しかし、逐次処理プログラムを解析してSIMD化可能な部分を機械的に抽出する技術は未だ成熟しておらず、限界がある。このため、特に画像のフィルタ処理など複雑な処理が含まれる逐次処理プログラムをSIMD化コンパイラにかけても充分なSIMD化が行われず、SIMD命令セットを効率良く利用した目的プログラムを生成することができない。このようなことから、SIMD命令セットを利用した目的プログラムの生成は、手作業でのアセンブリ言語による作成に頼っているのが現状である。
【0008】
しかし手作業でのアセンブリ言語作成は高い熟練度と長い時間を必要とし、かつ命令シーケンス内にエラーが導入されてしまう可能性が高いといった問題点が存在していた。また手作業でアセンブリ指定を作成する方法は、異なるタイプのプロセッサ(例えばインテルのペンティアム(登録商標)II、III、4、AMDのK−6、K−7など)では各々に異なるSIMD命令セットを使用する(例えばMMX,SSE,3DNow等)ため、ターゲットプロセッサが代わる度に別個のアセンブリ指定を用意しなければならないという問題点も存在していた。
【0009】
【発明の目的】
本発明はこのような事情に鑑みて提案されたものであり、その目的は、高級言語による画像処理指定から、効率のよい画像処理用SIMD命令シーケンスを生成する方法と装置を提供することにある。
【0010】
【課題を解決するための手段】
本発明は、画像の1行分のデータである行データを単位に行われる処理指定を用いて記述されたソースコードからSIMD命令シーケンスを自動生成することを基本とする。より具体的には、先頭が2のべき乗値にアラインされた連続アドレスに存在するP個のデータ要素を行データ、1つの行データの全要素データに対し同一の単項演算あるいは2つの行データそれぞれの対応データ要素ペアの全てに対し同一の二項演算を実施する指定を行単位演算指定、行データの全データ要素について個々の位置からみて左側あるいは右側から指定要素数だけ離れたデータ要素を参照する指定を行単位近隣要素参照指定、行単位演算指定および行単位近隣要素参照指定の両方をまとめて行単位処理記述、行データの特定の要素データを参照する指定を行データ抽出指定、特定の単一データであるスカラーデータを行データの全データ要素に代入する指定をブロードキャスト指定、従来からのスカラーデータに対する処理指定をスカラー処理指定と呼び、また、行単位処理指定、行データ抽出指定、ブロードキャスト指定、そしてスカラー処理指定の4種類を組合せた動作指定方法を行単位動作指定と呼び、そしてSIMD命令が演算に用いるワークレジスタをSIMDレジスタと呼ぶとき、本発明では、行単位動作指定を用いてソースコードが記述されており、本発明のSIMD命令シーケンス生成方法および装置では、かかるソースコードから、ターゲットマシンが有するSIMD命令セットを利用したSIMD命令シーケンスを自動生成するコンパイル処理を行う。
【0011】
このコンパイル処理では、行単位動作指定に含まれるスカラー処理指定に対しては、従来法で指定通りの動作を行う命令シーケンスAを生成し、行単位動作指定に含まれる行単位処理指定に対しては、処理対象の行データを構成し、先頭が2のべき乗値にアラインされたメモリ上の連続アドレスに存在するP個のデータ要素のうちのS×M個を、M個のSIMDレジスタにロードするためのM個のSIMDロード命令と、続けて当該M個のSIMDレジスタを対象に演算を行う必要数だけのSIMD演算命令と、続けて前記SIMD演算命令の結果データを格納したM個のSIMDレジスタの内容を、先頭が2のべき乗値にアラインされたメモリ上の連続したアドレス領域にライトするためのM個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定するSIMD命令シーケンスBを生成するように動作する。但しPは処理対象画像の横幅画素数、Sは一つのSIMD命令が同時に処理できる要素データ数でありPよりも小さい値、Mはターゲットマシンが有するSIMDレジスタ数以下1以上の整数である。
【0012】
さらに本発明においては、行単位動作指定に含まれる行データ抽出指定に対しては、SIMD命令シーケンスB内で定義したデータを命令シーケンスA内で参照する動作を指定する命令シーケンスCを、そしてブロードキャスト指定に対しては、命令シーケンスA内で定義したデータを命令シーケンスB内で参照する動作を指定する命令シーケンスDを、それぞれ生成するように動作する。
【0013】
【作用】
本発明にあっては、画像の1行分のデータである行データを単位に行われる処理指定、具体的には行単位処理指定、行データ抽出指定、ブロードキャスト指定を用いて記述されたソースコードから、SIMD命令シーケンスを生成する。従って、利用者は、行単位処理指定、行データ抽出指定、ブロードキャスト指定を用いてSIMD化可能な部分を明示したソースコードを作成するだけで、SIMD命令セットを効率良く利用した目的プログラムを生成することができる。
【0014】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0015】
図1は本発明の画像処理用SIMD命令シーケンスの生成方法を実施する計算機の実施の形態の全体構成を示すブロック図である。図1に示すように、本実施の形態にかかる計算機は、プログラム制御によって動作する処理装置101と、この処理装置101に接続された主記憶や補助記憶装置で構成される記憶装置102、記憶装置103および記憶装置104と、記録媒体105とを備えている。
【0016】
記憶装置103にはソースコード1が記憶されている。ソースコード1は、C言語などの汎用的な高級プログラミング言語の仕様を一部拡張し、画像の1行分のデータである行データを単位に行われる処理指定を追加した言語で記述されている。ここで、行データは、先頭が2のべき乗値にアラインされた連続アドレスに存在するP個のデータ要素を意味する。追加された処理指定は、行単位処理指定、行データ抽出指定、ブロードキャスト指定の3種類に大別され、行単位処理指定はさらに行単位演算指定と行単位近隣要素参照指定とに分けられる。
【0017】
行単位演算指定は、1つの行データの全要素データに対し同一の単項演算あるいは2つの行データそれぞれの対応データ要素ペアの全てに対し同一の二項演算を実施する指定である。行単位近隣要素参照指定は、行データの全データ要素について個々の位置からみて左側あるいは右側から指定要素数だけ離れたデータ要素を参照する指定である。行データ抽出指定は、行データの特定の要素データを参照する指定である。ブロードキャスト指定は、特定の単一データであるスカラーデータを行データの全データ要素に代入する指定である。行単位処理指定、行データ抽出指定およびブロードキャスト指定と、従来からのスカラーデータに対する処理指定であるスカラー処理指定との4種類の指定を組合せた動作指定方法を行単位動作指定と呼び、ソースコード1は行単位動作指定を用いて記述されている。
【0018】
図2に行単位動作指定を用いたソースコード1の一例として、画像処理で良く行われるフィルタ処理を記述した例を示す。図2に示すソースコード1は、従来のC言語の文法に、行データであるかどうかを宣言するためのキーワードsepを追加した文法のものを用いている。1行から3行ではsrcとdstという、それぞれソース画像、結果画像を格納するための行データ配列の先頭を指すポインタを、関数tstの引数として宣言している。4行のlinesは処理行数を表す符号無しのSHORT型(2バイト)のスカラー値であり、関数tstの3番目の引数として与えられている。6行では2バイトの整数型変数iを宣言し、8行では、差の絶対値を求める関数_asubの引数と戻り値を宣言し、9行〜10行において符号無し1バイトのキャラクタ型行データである変数p1、p4、そしてppを宣言している。12行から17行では、従来のC言語の文法と同様のFOR文によるループ動作を指定し、ループ本体は行データの配列であるsrcと行データであるp1、p4を用いた演算を指定している。例えば13行は行データの配列srcの第i−1番目の行データをp1に代入する動作を指定し、14行は行データの配列srcの第i+1番目の行データをp4に代入する動作を指定し、15行ではp1、p4の2つの行データを引数に、行データを戻り値とする関数_asubを呼出し、結果を行データ変数ppに格納する動作を指定している。
【0019】
そして、図2の16行には、行単位近隣要素参照指定と行単位演算指定とが用いられている。16行中の、:>、:<が行単位近隣要素参照指定の一形式であり、例えば、:>PP、:<PPはそれぞれ、行データ変数PPの全要素データについて、一つ左隣、一つ右隣の要素データへの参照を意味する。一つ隣の場合は指定要素数は1なので省略してあるが、2つ以上離れた要素データを参照する場合には、何個離れた要素データを参照するかを指定要素数で指定する。また、:>PP+:<PPにおける+、:<PP+(PP<<1)における+、<<(シフト演算)が行単位演算指定になる。ここでは、加算とシフト演算が例示されているが、行単位演算指定のできる演算の種類はそれらに限定されない。
【0020】
また19行はブロードキャスト指定であり、linesの値を行データ配列dstの第0行目と第lines−1行目の全要素データに代入する端部処理の動作を意味する。
【0021】
更に20行は行データ抽出指定であり、ソース画像が格納されている行データ配列srcの第2行目の3つ目の要素データへの参照を指定し、参照した結果をreturn文のパラメータとして用いるよう指定している。
【0022】
再び図1を参照すると、記録媒体105は、CD−ROMや磁気ディスクなどのコンピュータ読み取り可能な記録媒体であり、SIMD命令シーケンス生成プログラムを記録する。記録媒体105に記録されたSIMD命令シーケンス生成プログラムは、処理装置101によって読み取られ、処理装置101の動作を制御することにより、処理装置101上にコンパイラ2を実現する。
【0023】
コンパイラ2は、行単位動作指定を用いたソースコード1を記憶装置103から入力し、ターゲットマシンが有するSIMD命令セットを利用したSIMD命令シーケンスを自動生成する。この際コンパイラ2は、ソースコード1に含まれる行単位動作指定に関しては概ね以下のような処理を行う。
【0024】
コンパイラ2は、ソースコード1に含まれるスカラー処理指定に対しては、従来法で指定通りの動作を行う命令シーケンスAを生成する。
【0025】
コンパイラ2は、ソースコード1に含まれる行単位処理指定に対しては、処理対象の行データを構成し、先頭が2のべき乗値にアラインされたメモリ上の連続アドレスに存在するP個のデータ要素のうちのS×M個を、M個のSIMDレジスタにロードするためのM個のSIMDロード命令と、続けて当該M個のSIMDレジスタを対象に演算を行う必要数だけのSIMD演算命令と、続けて前記SIMD演算命令の結果データを格納したM個のSIMDレジスタの内容を、先頭が2のべき乗値にアラインされたメモリ上の連続したアドレス領域にライトするためのM個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定するSIMD命令シーケンスBを生成する。ここで、SIMDレジスタとはSIMD命令が演算に用いるワークレジスタを意味する。また、Pは処理対象画像の横幅画素数、Sは一つのSIMD命令が同時に処理できる要素データ数でありPよりも小さい値、Mはターゲットマシンが有するSIMDレジスタ数以下1以上の整数である。行単位処理指定に対してこのようなSIMD命令シーケンスを生成するのは、一つのSIMD命令はS個の単位データを並列に処理でき、そのS個の単位データは一つのSIMDレジスタに格納されており、SIMDレジスタをループ本体内でM個用いているので、(S×M)個の単位データを1回の繰り返しで処理でき、従って、全単位データ数がPなので、P÷(S×M)回繰り返すことで、全単位データ数に対する処理が完了するからである。
【0026】
またコンパイラ2は、ソースコード1に含まれる行データ抽出指定に対しては、SIMD命令シーケンスB内で定義したデータを命令シーケンスA内で参照する動作を指定する命令シーケンスCを、そしてブロードキャスト指定に対しては、命令シーケンスA内で定義したデータを命令シーケンスB内で参照する動作を指定する命令シーケンスDを、それぞれ生成する。
【0027】
以下、コンパイラ2の詳細な構成と動作を説明する。
【0028】
コンパイラ2は、記録装置103に記憶されたソースコード1を入力し、最終的にSIMD命令シーケンスを含む目的プログラムであるマシンコード8に変換して、記憶装置104に出力する。このためにコンパイラ2は、記憶装置103からソースコード1を入力し、このソースコード1をSIMD命令シーケンス生成用の中間形式であるSIMDマクロコード4に変換して、記憶装置102の記憶部108に出力する翻訳部3と、記憶部108からSIMDマクロコード4を入力し、このSIMDマクロコード4に対し最適化を実施して、最適化されたSIMDマクロコードである簡略化SIMDマクロコード6を生成し、記憶装置102の記憶部109に出力する簡略化部5と、記憶部109から簡略化SIMDマクロコード6を入力し、この簡略化SIMDマクロコード6を目的プログラムであるマシンコード8に変換して記憶装置104に出力するマシンコード生成部7とを含んで構成されている。
【0029】
また翻訳部3は、記憶装置103からソースコード1を入力し、その構文を解析して中間言語コード11−1に変換し、記憶装置102の記憶部106に出力する構文解析部10と、記憶部106から中間言語コード11−1を入力し、定数伝搬、複写伝搬、演算強度軽減、そして共通部分式削除などの既存の最適化手法を適用し、最適化された中間言語コード11−2を記憶装置102の記憶部107に出力する最適化処理部12と、記憶部107から最適化された中間言語コード11−2を入力し、SIMD命令セットの利用を考慮した中間形式であるSIMDマクロコード4に変換して記憶部108に出力するマクロコード生成部13とを含んで構成されている。
【0030】
図3はコンパイラ2の全体処理の流れを示すフローチャートである。以下、図3に示される流れに沿ってコンパイラ2の動作を説明する。
【0031】
コンパイラ2は、翻訳部3の構文解析部10により、記憶装置103からソースコード1を入力して構文解析し、中間言語コード11−1を生成して記憶部106に格納する(S101)。次に、最適化処理部12により、記憶部106から中間言語コード11−1を入力して、定数伝搬、複写伝搬、演算強度軽減、共通部分式削除などの既知の最適化手法を適用し、最適化された中間言語コード11−2を記憶部107に保存する(S102)。
【0032】
図4に、図2のソースコード1を入力とした場合に翻訳部3内の最適化処理部12を経た後に生成された中間言語コード11−2を示す。なお、以下では中間言語コード11−2内の各コードを単に中間コードと記す。図4において、1行などのlineで始まる中間コードは、後続の中間コードが図2のソースコード1の何行目辺りに対して生成されたものかを示すデバッグ用である。7行などのlabelで始まる中間コードは、飛び先のアドレスを示すものである。3行、9行などに現れているt<番号>やT<番号>は一時的な変数を表す記号、17行などに現れている_<番号>は、関数の第<番号>目の引数を表す記号、2行などに現れている_<識別子>はユーザ変数<識別子>を表す記号である。行データであるかどうかを宣言するためのキーワードsepはソースコード1に引き続き中間コードでも使用されており、sepが付いている中間コードは行単位処理指定、行データ抽出指定、ブロードキャスト指定に対応する中間コードであり、sepが無い中間コードはスカラー処理指定になる。また、ソースコード1で使用された行単位近隣要素参照指定の形式(:>PP、:<PPなど)がそのまま使用されている。例えば、24行、27行は、sepがあり、行単位近隣要素参照指定の形式が存在するので、行単位近隣要素参照指定に対応する中間コードである。また、例えば11行、12行は、sepがあり右辺に演算子を持つため、行単位演算指定に対応する中間コードである。また、例えば42行はsepがあり、行データにデータを代入しているので、ブロードキャスト指定に対応する中間コードである。また、例えば50行はsepがあり、行データを参照しているので、行データ抽出指定に対応する中間コードである。
【0033】
次にコンパイラ2は、マクロコード生成部13により、記憶部107から中間言語コード11−2を入力し、SIMDマクロコード4を生成して、記憶部108に格納する(S103)。図5にマクロコード生成部13の処理例を示す。マクロコード生成部13は、入力である中間言語コード11−2から1つの中間コードを入力し(S201)、解析する(S202)。中間コードがスカラー処理指定に対応するものであれば(S203でYES)、ターゲットマシンが有する汎用レジスタに対応した仮想汎用レジスタのみをオペランドに持つマクロコードを生成する(S204)。中間コードが行単位処理指定、行データ抽出指定あるいはブロードキャスト指定に対応するものであれば(S205でYES)、2のべき乗値にアラインされた先頭アドレスを持つ行データの先頭要素データのアドレス、あるいは実際ではアラインされた先頭アドレスを持つメモリ上の連続アドレスにその実体がありP個の要素データをまとめて格納できる仮想的なSIMDレジスタである仮想SIMDレジスタをオペランドに持つマクロコードを生成する(S206)。中間コードがデバッグ用や飛び先アドレスを示すものなど他のコードであれば(S205でNO)、それに応じたマクロコードを生成する(S207)。1つの中間コードの処理を終えると、中間言語コード11−2に未処理の中間コードが残っていれば(S208でYES)、ステップS201に戻って上述した処理と同様の処理を未処理の中間コードに対して実施する。中間言語コード11−2のすべての中間コードを処理し終えると(S208でNO)、ステップS204、S206、S207で生成した一連のマクロコードをSIMDマクロコード4として記憶部108に出力し(S209)、処理を終える。
【0034】
マクロコード生成部13が図4の中間言語コード11−2を入力とした場合に生成するSIMDマクロコード4の一例を、図6の1行から61行に示す。なお、以下ではSIMDマクロコード4内の各コードを単にマクロコードと記す。図6において、//***で始まる行は、後続のマクロコードが図4の中間言語コード11−2の何行目辺りに対して生成されたものかを示すコメント行である。マクロコードの読み方は以下の通りである。
【0035】
マクロコードの名前はM_で始まり、続いて、1)当該マクロコードの動作の種類(演算の種類など)を表す1〜2のフィールド、2)ソースデータが符号付きかどうか、行単位演算かどうか(行データの操作を含むマクロコードの場合は_M_の文字列を含む)、操作対象バイト数などを表す1〜2のフィールド、3)結果データが符号付きかどうか、何バイトかを示す1〜2のフィールド、そして、4)レジスタに関する情報(本例では、rで始まる識別子が仮想SIMDレジスタ、eで始まる識別子が仮想汎用レジスタを表す)が続く。
【0036】
例えば24行にあるM_CAST_M_1U_M_2 rb14,r1のマクロコードは、マクロコードであることを表す共通フィールドM_に続いてCASTが置かれているので、演算の種類はキャスト演算であることを示す。続くM_1Uは、キャスト元データに関する情報を示し、Mが付いているのでデータは行単位データであること、1なのでデータのサイズは1バイト、Uなので符号無しのデータであることを示す。続くM_2は、キャスト結果データに関する情報を示し、Mが付いているのでデータは行単位データであること、2なのでデータのサイズは2バイト、符号については指定されていないのでソースデータと同じであることを示す。rb14はソースレジスタであり、rが付いているので仮想SIMDレジスタであることを示す。r1は結果格納レジスタであり、同じくrが付いているので仮想SIMDレジスタであることを示す。結局、24行のマクロコードは、1バイトの仮想SIMDレジスタrb14の内容を2バイトの仮想SIMDレジスタr1の内容に変換する動作を指定している。また、27行のM_ADD_M_2 r0,r0,r2は、2バイトの行単位データr0とr0の加算を行い、結果をr2に格納することを意味する。その他、21行のM_PE_RIGHT_M_1、23行のM_PE_LEFT_M_1の名前を持つマクロコードは、それぞれ図2の16行にある「行単位近隣要素参照指定」、あるいは図4の中間コードの24行、26行に対応して生成されたものである。同様に、47行および48行のマクロコードは、第1オペランドの仮想汎用レジスタが示すアドレスと、第2オペランドが示すオフセットを加算した結果のアドレスに存在するスカラーデータを、第3オペランドの仮想SIMDレジスタの全要素データにロードする動作、すなわち図2の「行単位動作指定」の19行にある「ブロードキャスト指定」、あるいは図4の42行の中間コードに対応して生成されたものであり、また51行〜54行のマクロコードは図2の20行の「行データ抽出指定」、あるいは図4の48行から50行にかけての中間コードに対応して生成されたものであり、対応する動作を指定するものである。以下に図6に現れているその他の演算の種類を示す指定子を列挙しておく。
【0037】
SUB 減算
MUL 乗算
LD_D データメモリからのメモリリード
LD_I 画像メモリからのメモリリード
ST_D データメモリへのメモリストア
ST_I 画像メモリへのメモリストア
BROADCAST_* データブロードキャスト関連マクロコード
COPY データ複製
CMP 比較を行う(減算し、フラグをセットする)
BR_GE フラグをみて、直前のCMP演算の結果がGreater or EqualならBranchせよ
PE_LEFT 左隣データ参照
PE_RIGHT 右隣データ参照
【0038】
再び図3を参照すると、ステップS103の処理に引き続いて、コンパイラ2は簡略化部5により、入力であるSIMDマクロコード4内にある、仮想SIMDレジスタをオペランドに持つコード全体に対し、仮想SIMDレジスタに対する定義と参照の関係を解析し、その解析結果に基づき、同一仮想SIMDレジスタに対する定義と参照の関係にある一連のコードを、できるだけ一つにまとめた複合コードに変換し、実体がメモリ上にある仮想SIMDレジスタに対する定義および参照の回数をできるだけ無くし冗長さを減らしたSIMDマクロコードである簡略化SIMDマクロコード6を生成する(S104)。
【0039】
例えば図6の1行〜61行のSIMDマクロコード4を入力とした場合、簡略化部5は、24行と25行のマクロコードを25−1行に示されるM_CONTの名前で始まる複合マクロコードに置き換える。また、26行〜29行および34行のマクロコードを34−1行に示されるM_CONTの名前で始まる複合マクロコードに置き換える。
【0040】
24行と25行のマクロコードを25−1行の複合マクロコードに置き換えるのは次のような理由による。24行では、rb14内の1バイト仮想レジスタ内のデータと、r1という2バイト仮想レジスタ内のデータとを加算し、結果をr1に格納するように指定している。他方、25行では、r0という2バイト仮想レジスタ内のデータと、r1という24行で生成した2バイト仮想レジスタ内のデータとを加算し、結果をr1に格納するように指定している。24行、25行そのままでコード生成すると、24行の処理結果を一度r1に格納するようなコードが生成される。そこで、25−1では、rb14からの変換結果を一度r1に格納せずに、そのままr0と加算し、結果だけをr1に格納するような動作を指定している。仮想レジスタへのアクセス(リードとライト)は所詮、単なるメモリアクセスであり、通常はSIMDレジスタアクセスよりは数十倍処理が遅いため、このような簡略化処理を行うことにより、できるだけ仮想レジスタへのリードとライトの回数を削減した形式のマクロ表現を得ることができる。
【0041】
26行〜29行および34行のマクロコードを34−1行の複合マクロコードに置き換えるのは次のような理由による。26行〜29行および34行のマクロコードでは、以下のように多数のメモリ参照、メモリライト動作が行われる。
a) r0 <− (cast)tb1
b) r2 <− r0+r0
c) r0 <− r1+r2
d) rb0 <− (cast)r0
e) mem(edx) <− rb0
そこで、34−1のマクロコードは、26行〜29行および34行のマクロコードを、mem(edx) <−(rb1をキャスト後2倍した後r1と加算した結果を再度キャストする)というマクロコードに凝縮することにより、前述した多数のメモリ参照、メモリライト動作を省略した形の動作を指定している。
【0042】
再び図3を参照すると、最後にコンパイラ2は、マシンコード生成部7により、簡略化SIMDマクロコード6をマシンコード8に変換し、記憶装置104へ出力する(S105)。マシンコード生成部7の処理例を図7のフローチャートに示す。マシンコード生成部7は、入力である簡略化SIMDマクロコード6から1つのマクロコードを入力し(S301)、解析する(S302)。マクロコードが仮想汎用レジスタのみをオペランドに持つコードの場合(S303でYES)、ターゲットマシンが有する通常のスカラー命令、シーケンス制御命令、および汎用レジスタセット等を用いて指定動作を行う目的コードシーケンスを生成する(S304)。マクロコードが行データの先頭要素データへのアドレスあるいは仮想SIMDレジスタをオペランドに持つコードの場合(S305でYES)、その動作指定方法を判別し(S306)、その判別結果に応じた処理S307、S308、S309へと分岐する。なお、入力したコードがデバッグ用など他のコードであれば(S305でNO)、それに応じた処理を行う(S310)。
【0043】
動作指定方法が行単位処理指定であるマクロコードに対応する目的コードシーケンスを生成する処理S307では、指定した行データの先頭アドレスから始まるP個のデータ要素、あるいは仮想SIMDレジスタの内容であるP個の要素データ、のうちのS×M個をM個のSIMDレジスタ(但しMはターゲットマシンが有するSIMDレジスタ数以下1以上)にロードするためのM個のSIMDロード命令、続けて当該M個のSIMDレジスタを対象に演算を行うSIMD演算命令と、続けて前記SIMD演算命令の結果を格納したM個のSIMDレジスタの内容を、指定された仮想SIMDレジスタ、あるいは行データの先頭アドレスから始まるメモリ上の連続領域にライトするための、M個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定する目的コードシーケンスを生成する。
【0044】
動作指定方法が行データ抽出指定であるマクロコードに対応する目的コードシーケンスを生成する処理S308では、指定の行データの先頭アドレスから始まるP個の要素データ、あるいは仮想SIMDレジスタ内のP個の要素データのうちの、指定された一つの位置の要素データを、別途に指定された一つの仮想汎用レジスタに対応する実汎用レジスタあるいはメモリ位置に書き込む動作を指定する目的コードシーケンスを生成する。
【0045】
動作指定方法がブロードキャスト指定であるマクロコードに対応する目的コードシーケンスを生成する処理S309では、指定された仮想汎用レジスタに対応する実汎用レジスタあるいはメモリ位置にあるスカラーデータを、指定の行データの先頭アドレスから始まる、あるいは仮想SIMDレジスタに対応する、メモリ上の連続アドレス領域に存在するP個のデータ要素領域に書き込む動作を指定する目的コードシーケンスを生成する。
【0046】
1つのマクロコードの処理を終えると、簡略化SIMDマクロコード6に未処理のマクロコードが残っていれば(S311でYES)、ステップS301に戻って上述した処理と同様の処理を未処理のマクロコードに対して実施する。簡略化SIMDマクロコード6のすべてのマクロコードを処理し終えると(S311でNO)、ステップS304、S307〜S309で生成した一連の目的コードシーケンスをマシンコード8として記憶部104に出力し(S312)、処理を終える。
【0047】
図8〜図10に、図6の簡略化SIMDマクロコード6を入力、インテル社のペンティアム(登録商標)4をターゲットマシンとし、処理対象画像の横幅画素数Pを256、ペンティアム(登録商標)4が持つSIMD命令の一種であるMMX/SSE命令を用いた場合は一つのSIMD命令が同時に処理できる要素データ数Sが8に対しMを8、ペンティアム(登録商標)4が持つSIMD命令の一種であるSSE2命令を用いた場合はSが16に対しMを4とした場合のマシンコード生成部7が生成するマシンコード8の例の一部を示す。図8が図6の(25−1)行、図9が図6の(34−1)行、のそれぞれの複合マクロコードに対して生成されたマシンコード例である。また図10が図6の23行のM_PE_LEFT_M_1マクロコードに対して生成されたマシンコード例である。
【0048】
図8ではmovdqa、punpcklbw、punpckhbw、そしてpaddwの4種類のSSE2命令を用い、図6の(25−1)行の複合マクロコードの指定する、1バイトの仮想SIMDレジスタの内容を2バイトにキャストしてから別の2バイトの仮想SIMDレジスタの内容との加算を行い、結果を仮想SIMDレジスタ上に得るという動作を、1回の繰り返し毎に32要素データを処理し、計8回繰り返すことで、結果である256個の要素データ、すなわち1行分の要素データを一つの仮想SIMDレジスタに得ている。
【0049】
図9では、movdqa、punpcklbw、punpckhbw、psllw、paddwの5種類のSSE2命令を用い、図6の(34−1)行の複合マクロコードの指定する、1バイトの仮想SIMDレジスタを2バイトにキャストしてから1ビット左シフトを行い、その後別の2バイトの仮想SIMDレジスタとの加算を行った結果を、行データの実体が存在するメモリ領域にライトする動作を、1回の繰り返し毎に16要素データを処理し、計16回繰り返すことで、結果である256個の要素データを行データの実体が存在するメモリ領域にライトしている。ここで、図8と異なり、最後のメモリへのライトの動作を実現するコードとして、書き戻す際にmrという特殊な行データを参照し、各要素データに対応するmrの要素データが0ならば、当該要素データの書き戻しを行わないように動作するコードを生成した例を示している。このようにメモリへの書き戻しに際し行データの各要素データのライト動作を実行するか否かを指定する必要がある場合は、本例に示すようにmrという特殊な行データを別途定義した上で本例が示すようなコードを生成することで、当該動作を実現することができる。
【0050】
図10では、図2の16行にある「行単位近隣要素参照指定」のうちの:>ppが指定する行データppの一つ左隣のデータ要素への参照の動作を実現するための、図6の23行のM_PE_LEFT_M_1の名前のマクロコードが指定する、1バイトの仮想SIMDレジスタの内容を1要素データ分だけ全体的に左に回転させる動作を主にmovqというMMX命令を用いて実現するコードを示している。なお図11に示すように、このデータの回転移動は、最後の1データ要素分のみが、非連続なアドレスへの移動であるために、それを実現するコード例としては、1回の繰り返し毎に8×8個の要素データを移動先へ移す処理を、計3回実施することで192要素データ分の移動を行うコードをまず生成し、次に8x7個の要素データを移動するコードを生成した後に、一つのSIMDレジスタ内に入っている残り8個の要素データのうちの7個分の要素データの移動を行うコードを生成してから、最後の1個の要素データをアドレスが非連続な移動先に移すコードを生成することで、図6の23行のマクロコードM_PE_LEFT_M_1が指定する動作を実現している。
【0051】
インテル社のペンティアム(登録商標)シリーズプロセッサをターゲットとし、幾つかの画像処理演算を表現した行単位動作指定を入力とした場合に、本発明の手法で生成したSIMD命令シーケンスを含んだマシンコードと、同じ処理を人手によりアセンブリ指定等でできるだけ効率よく実装したと考えられるインテル社の公開画像処理ライブラリ(IPL)内の所定ルーチンとの処理時間を比べた結果を図12に示す。図12は、本発明の手法で生成したSIMD命令シーケンスが、手作業によるアセンブリ指定と比べて遜色のない処理性能を持つという効果を示している。
【0052】
こうした効果が得られる主な理由は、行単位動作指定形式の入力と、本発明のコンパイル手段との組合せが、高速なSIMD命令シーケンスの生成を可能にしているためである。
【0053】
高速なSIMD命令シーケンスを生成できる一つの理由は、SIMD命令は通常、先頭が2のべき乗値にアラインされた連続アドレス上にある一連のデータでないと効率よく並列に処理できないが、画像の1行分に相当した一連のデータを対象に動作指定を行う行単位動作指定では、要素データが常に先頭が2のべき乗値にアラインされたアドレスを持つ行データに対し処理を指定するようになっているため、コンパイラ2は、行単位動作指定に対しルールベースでその動作をSIMD命令シーケンスに簡単に変換できるようになり、高速な目的コードの生成が容易である。
【0054】
高速なSIMD命令シーケンスを生成できるもう一つの理由は、画像処理でよく用いられるフィルタ処理が有するフィルタカーネル係数の対称性の利用により、通常よりも少ない演算量で同じ処理を実現するSIMD命令シーケンスを生成できるためである。例えば図2の「行単位動作指定」で指定している画像フィルタ処理のカーネル係数は図13に示すように上下対称であるが、まずこの上下対称性を利用するような動作指定となっているのが、図2の16行の「行単位近隣要素参照指定」による、左隣の演算結果と右隣の演算結果を利用した上で結果データを求めるという動作の指定である。こうした「行単位近隣要素参照指定」に対しコンパイラ2は、図10のSIMD命令シーケンス生成例のように、一連のSIMDリード命令と一連のSIMDライト命令からなる本体を持つループ構造の目的コードを生成し、指定の動作を効率よく実現することで、当該画像フィルタ処理におけるカーネル係数の対称性を考慮した高速なSIMD命令シーケンスの生成を実現している。
【0055】
【発明の効果】
以上説明したように本発明によれば、高級言語による画像処理指定から、効率のよい画像処理用SIMD命令シーケンスを生成する方法と装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の画像処理用SIMD命令シーケンスの生成方法を実施する計算機の実施の形態の全体構成を示すブロック図である。
【図2】本発明による行単位動作指定を用いたソースコードの一例を示す図である。
【図3】本発明の実施例にかかるコンパイラの全体処理の流れを示すフローチャートである
【図4】本発明の実施例における最適化処理部が出力する中間言語コードの例を示す図である。
【図5】本発明の実施例におけるマクロコード生成部の処理例を示すフローチャートである。
【図6】本発明の実施例におけるSIMDマクロコードおよび簡略化SIMDマクロコードの例を示す図である。
【図7】本発明の実施例におけるマシンコード生成部の処理例を示すフローチャートである。
【図8】本発明の実施例によって生成されたSIMD命令シーケンスコードの一部を示す図である。
【図9】本発明の実施例によって生成されたSIMD命令シーケンスコードの一部を示す図である。
【図10】本発明の実施例によって生成されたSIMD命令シーケンスコードの一部を示す図である。
【図11】本発明の実施例によるSIMDマクロコードの一つであるM_PE_LEFT_M_1の動作を示す図である。
【図12】本発明の実施の形態の効果を示す図である。
【図13】画像フィルタ処理で使われるカーネル係数の上下対称性の説明図である。
【符号の説明】
1 行単位動作指定を用いたソースコード
2 コンパイラ
3 翻訳部
4 SIMDマクロコード
5 簡略化部
6 簡略化SIMDマクロコード
7 マシンコード生成部
8 マシンコード
10 構文解析部
11−1、11−2 中間言語コード
12 最適化処理部
13 マクロコード生成部
101 処理装置
102、103、104 記憶装置
105 記録媒体
106 107 108 109 記憶部
Claims (7)
- 画像の1行分のデータである行データを単位に行われる処理指定を用いて記述されたソースコードからSIMD命令シーケンスを自動生成することを特徴とするSIMD命令シーケンス生成方法。
- 前記行データの全要素データに対し同一の単項演算、あるいは2つの行データそれぞれの対応データ要素ペアの全てに対し同一の二項演算を行う指定である行単位演算指定、及び前記行データの全データ要素について個々の位置からみて左側あるいは右側から指定要素数だけ離れたデータ要素を参照する動作を行う指示である行単位近隣要素参照指定、の両方を組合せた行単位処理指定を用いて記述されたソースコードからSIMD命令シーケンスを自動生成することを特徴とするSIMD命令シーケンス生成方法。
- 前記行単位処理指定に加え、行データ内の特定の要素データを参照する行データ抽出指定、特定の単一データであるスカラーデータを行データの全データ要素に代入するブロードキャスト指定、およびスカラーデータに対する処理指定であるスカラー処理指定の3種類の指定を組合せた行単位動作指定を用いて記述されたソースコードからSIMD命令シーケンスを自動生成することを特徴とするSIMD命令シーケンス生成方法。
- 前記行単位動作指定に含まれるスカラー処理指定に対しては、指定通りの動作を行う命令シーケンスを生成し、行単位処理指定に対しては、処理対象の行データを構成する先頭が2のべき乗値にアラインされたメモリ上の連続アドレスに存在するP(処理対象画像の横幅画素数)個のデータ要素のうちのS×M個(Sは一つのSIMD命令が同時に処理できる要素データ数でPよりも小さい値、Mはターゲットマシンが有するSIMDレジスタ数以下1以上の整数)を、M個のSIMDレジスタにロードするためのM個のSIMDロード命令と、続けて当該M個のSIMDレジスタを対象とした演算に必要数だけのSIMD演算命令と、続けて前記SIMD演算命令の結果データを格納したM個のSIMDレジスタの内容を、先頭が2のべき乗値にアラインされた連続したアドレスを持つメモリ領域にライトするためのM個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定するSIMD命令シーケンスを生成することを特徴とする請求項1、2または3記載のSIMD命令シーケンス生成方法。
- 行データの全要素データに対し同一の単項演算、あるいは2つの行データそれぞれの対応データ要素ペアの全てに対し同一の二項演算を行う指定である行単位演算指定、及び前記行データの全データ要素について個々の位置からみて左側あるいは右側から指定要素数だけ離れたデータ要素を参照する動作を行う指示である行単位近隣要素参照指定、の両方を組合せた行単位処理指定、行データ内の特定の要素データを参照する行データ抽出指定、特定の単一データであるスカラーデータを行データの全データ要素に代入するブロードキャスト指定、およびスカラーデータに対する処理指定であるスカラー処理指定を組合せた行単位動作指定を用いて記述されたソースコードを第1の記憶装置から入力し、構文解析、最適化を行い、SIMD命令セットの利用を考慮した中間形式であるSIMDマクロコードを生成し、第2の記憶装置へ出力する翻訳ステップと、
前記第2の記憶装置から前記SIMDマクロコードを入力し、仮想SIMDレジスタをオペランドに持つコード全体に対し、仮想SIMDレジスタに対する定義と参照の関係を解析し、その解析結果に基づき、同一仮想SIMDレジスタに対する定義と参照の関係にある一連のコードを一つにまとめた複合マクロコードに変換した簡略化SIMDマクロコードを生成し、第3の記憶装置へ出力する簡略化ステップと、
前記第3の記憶装置から前記簡略化SIMDマクロコードを入力し、前記行単位動作指定に含まれるスカラー処理指定に対しては、指定通りの動作を行う命令シーケンスを生成し、行単位処理指定に対しては、処理対象の行データを構成する先頭が2のべき乗値にアラインされたメモリ上の連続アドレスに存在するP(処理対象画像の横幅画素数)個のデータ要素のうちのS×M個(Sは一つのSIMD命令が同時に処理できる要素データ数でPよりも小さい値、Mはターゲットマシンが有するSIMDレジスタ数以下1以上の整数)を、M個のSIMDレジスタにロードするためのM個のSIMDロード命令と、続けて当該M個のSIMDレジスタを対象とした演算に必要数だけのSIMD演算命令と、続けて前記SIMD演算命令の結果データを格納したM個のSIMDレジスタの内容を、先頭が2のべき乗値にアラインされた連続したアドレスを持つメモリ領域にライトするためのM個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定するSIMD命令シーケンスを生成するマシンコード生成ステップと、
を含むSIMD命令シーケンス生成方法。 - 行データの全要素データに対し同一の単項演算、あるいは2つの行データそれぞれの対応データ要素ペアの全てに対し同一の二項演算を行う指定である行単位演算指定、及び前記行データの全データ要素について個々の位置からみて左側あるいは右側から指定要素数だけ離れたデータ要素を参照する動作を行う指示である行単位近隣要素参照指定、の両方を組合せた行単位処理指定、行データ内の特定の要素データを参照する行データ抽出指定、特定の単一データであるスカラーデータを行データの全データ要素に代入するブロードキャスト指定、およびスカラーデータに対する処理指定であるスカラー処理指定を組合せた行単位動作指定を用いて記述されたソースコードを記憶する第1の記憶装置と、前記第1の記憶装置から前記ソースコードを入力し、構文解析、最適化を行い、SIMD命令セットの利用を考慮した中間形式であるSIMDマクロコードを生成する翻訳手段と、
前記翻訳手段で生成された前記SIMDマクロコードを記憶する第2の記憶装置と、
前記第2の記憶装置から前記SIMDマクロコードを入力し、仮想SIMDレジスタをオペランドに持つコード全体に対し、仮想SIMDレジスタに対する定義と参照の関係を解析し、その解析結果に基づき、同一仮想SIMDレジスタに対する定義と参照の関係にある一連のコードを一つにまとめた複合マクロコードに変換した簡略化SIMDマクロコードを生成する簡略化手段と、
前記簡略化手段で生成された前記簡略化SIMDマクロコードを記憶する第3の記憶装置と、
前記第3の記憶装置から前記簡略化SIMDマクロコードを入力し、前記行単位動作指定に含まれるスカラー処理指定に対しては、指定通りの動作を行う命令シーケンスを生成し、行単位処理指定に対しては、処理対象の行データを構成する先頭が2のべき乗値にアラインされたメモリ上の連続アドレスに存在するP(処理対象画像の横幅画素数)個のデータ要素のうちのS×M個(Sは一つのSIMD命令が同時に処理できる要素データ数でPよりも小さい値、Mはターゲットマシンが有するSIMDレジスタ数以下1以上の整数)を、M個のSIMDレジスタにロードするためのM個のSIMDロード命令と、続けて当該M個のSIMDレジスタを対象とした演算に必要数だけのSIMD演算命令と、続けて前記SIMD演算命令の結果データを格納したM個のSIMDレジスタの内容を、先頭が2のべき乗値にアラインされた連続したアドレスを持つメモリ領域にライトするためのM個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定するSIMD命令シーケンスを生成するマシンコード生成手段と、
前記マシンコード生成手段で生成された命令シーケンスであるマシンコードを記憶する第4の記憶装置と、
を備えることを特徴とするSIMD命令シーケンス生成装置。 - コンピュータを、
行データの全要素データに対し同一の単項演算、あるいは2つの行データそれぞれの対応データ要素ペアの全てに対し同一の二項演算を行う指定である行単位演算指定、及び前記行データの全データ要素について個々の位置からみて左側あるいは右側から指定要素数だけ離れたデータ要素を参照する動作を行う指示である行単位近隣要素参照指定、の両方を組合せた行単位処理指定、行データ内の特定の要素データを参照する行データ抽出指定、特定の単一データであるスカラーデータを行データの全データ要素に代入するブロードキャスト指定、およびスカラーデータに対する処理指定であるスカラー処理指定を組合せた行単位動作指定を用いて記述されたソースコードを第1の記憶装置から入力し、構文解析、最適化を行い、SIMD命令セットの利用を考慮した中間形式であるSIMDマクロコードを生成し、第2の記憶装置へ出力する翻訳手段、
前記第2の記憶装置から前記SIMDマクロコードを入力し、仮想SIMDレジスタをオペランドに持つコード全体に対し、仮想SIMDレジスタに対する定義と参照の関係を解析し、その解析結果に基づき、同一仮想SIMDレジスタに対する定義と参照の関係にある一連のコードを一つにまとめた複合マクロコードに変換した簡略化SIMDマクロコードを生成し、第3の記憶装置へ出力する簡略化手段、
前記第3の記憶装置から前記簡略化SIMDマクロコードを入力し、前記行単位動作指定に含まれるスカラー処理指定に対しては、指定通りの動作を行う命令シーケンスを生成し、行単位処理指定に対しては、処理対象の行データを構成する先頭が2のべき乗値にアラインされたメモリ上の連続アドレスに存在するP(処理対象画像の横幅画素数)個のデータ要素のうちのS×M個(Sは一つのSIMD命令が同時に処理できる要素データ数でPよりも小さい値、Mはターゲットマシンが有するSIMDレジスタ数以下1以上の整数)を、M個のSIMDレジスタにロードするためのM個のSIMDロード命令と、続けて当該M個のSIMDレジスタを対象とした演算に必要数だけのSIMD演算命令と、続けて前記SIMD演算命令の結果データを格納したM個のSIMDレジスタの内容を、先頭が2のべき乗値にアラインされた連続したアドレスを持つメモリ領域にライトするためのM個のSIMDライト命令とを本体に持つループを、P÷(S×M)回だけ繰り返すループ動作を指定するSIMD命令シーケンスを生成するマシンコード生成手段、
として機能させるSIMD命令シーケンス生成用プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002327873A JP4487479B2 (ja) | 2002-11-12 | 2002-11-12 | Simd命令シーケンス生成方法および装置ならびにsimd命令シーケンス生成用プログラム |
US10/704,718 US7509634B2 (en) | 2002-11-12 | 2003-11-12 | SIMD instruction sequence generating program, SIMD instruction sequence generating method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002327873A JP4487479B2 (ja) | 2002-11-12 | 2002-11-12 | Simd命令シーケンス生成方法および装置ならびにsimd命令シーケンス生成用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004164163A true JP2004164163A (ja) | 2004-06-10 |
JP4487479B2 JP4487479B2 (ja) | 2010-06-23 |
Family
ID=32290006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002327873A Expired - Lifetime JP4487479B2 (ja) | 2002-11-12 | 2002-11-12 | Simd命令シーケンス生成方法および装置ならびにsimd命令シーケンス生成用プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7509634B2 (ja) |
JP (1) | JP4487479B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009524854A (ja) * | 2005-12-19 | 2009-07-02 | ディーエックスオー ラブズ | ディジタルデータ処理のための方法およびシステム |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040249782A1 (en) * | 2003-06-04 | 2004-12-09 | International Business Machines Corporation | Method and system for highly efficient database bitmap index processing |
US7386842B2 (en) * | 2004-06-07 | 2008-06-10 | International Business Machines Corporation | Efficient data reorganization to satisfy data alignment constraints |
US7475392B2 (en) * | 2004-06-07 | 2009-01-06 | International Business Machines Corporation | SIMD code generation for loops with mixed data lengths |
US8549501B2 (en) * | 2004-06-07 | 2013-10-01 | International Business Machines Corporation | Framework for generating mixed-mode operations in loop-level simdization |
US7478377B2 (en) | 2004-06-07 | 2009-01-13 | International Business Machines Corporation | SIMD code generation in the presence of optimized misaligned data reorganization |
US7395531B2 (en) * | 2004-06-07 | 2008-07-01 | International Business Machines Corporation | Framework for efficient code generation using loop peeling for SIMD loop code with multiple misaligned statements |
US7367026B2 (en) * | 2004-06-07 | 2008-04-29 | International Business Machines Corporation | Framework for integrated intra- and inter-loop aggregation of contiguous memory accesses for SIMD vectorization |
JP2006243839A (ja) * | 2005-02-28 | 2006-09-14 | Toshiba Corp | 命令生成装置及び命令生成方法 |
US9870267B2 (en) * | 2006-03-22 | 2018-01-16 | Intel Corporation | Virtual vector processing |
US7784041B2 (en) * | 2006-03-30 | 2010-08-24 | Oracle America, Inc. | Mechanism for reducing detectable pauses in dynamic output caused by dynamic compilation |
US8855110B2 (en) * | 2006-09-04 | 2014-10-07 | Mediatek Usa Inc. | Personal video recorder having improved data access and method thereof |
US8037464B2 (en) * | 2006-09-26 | 2011-10-11 | International Business Machines Corporation | Generating optimized SIMD code in the presence of data dependences |
US8505002B2 (en) * | 2006-09-29 | 2013-08-06 | Arm Limited | Translation of SIMD instructions in a data processing system |
US8321849B2 (en) * | 2007-01-26 | 2012-11-27 | Nvidia Corporation | Virtual architecture and instruction set for parallel thread computing |
US20090015850A1 (en) * | 2007-07-13 | 2009-01-15 | Kenneth Edward Smith | Rapid loading of interleaved RGB data into SSE registers |
US8255886B2 (en) * | 2008-06-30 | 2012-08-28 | Intel Corporation | Methods and apparatus for analyzing SIMD code |
US8892853B2 (en) * | 2010-06-10 | 2014-11-18 | Mobileye Technologies Limited | Hardware to support looping code in an image processing system |
US8726252B2 (en) * | 2011-01-28 | 2014-05-13 | International Business Machines Corporation | Management of conditional branches within a data parallel system |
JP5739758B2 (ja) * | 2011-07-21 | 2015-06-24 | ルネサスエレクトロニクス株式会社 | メモリコントローラ及びsimdプロセッサ |
JP5966509B2 (ja) * | 2012-03-29 | 2016-08-10 | 富士通株式会社 | プログラム、コード生成方法および情報処理装置 |
JP6492943B2 (ja) * | 2015-05-07 | 2019-04-03 | 富士通株式会社 | 計算機、コンパイル方法、コンパイルプログラム、およびパイプライン処理プログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5121498A (en) * | 1988-05-11 | 1992-06-09 | Massachusetts Institute Of Technology | Translator for translating source code for selective unrolling of loops in the source code |
US5210836A (en) * | 1989-10-13 | 1993-05-11 | Texas Instruments Incorporated | Instruction generator architecture for a video signal processor controller |
US5579273A (en) * | 1990-03-01 | 1996-11-26 | Texas Instruments Incorporated | Storage circuitry using sense amplifier shared between memories of differing number of rows |
US5426610A (en) * | 1990-03-01 | 1995-06-20 | Texas Instruments Incorporated | Storage circuitry using sense amplifier with temporary pause for voltage supply isolation |
WO1992001990A1 (en) * | 1990-07-20 | 1992-02-06 | Temple University - Of The Commonwealth System Of Higher Education | System for high-level virtual computer with heterogeneous operating systems |
US5694588A (en) * | 1993-05-07 | 1997-12-02 | Texas Instruments Incorporated | Apparatus and method for synchronizing data transfers in a single instruction multiple data processor |
US5671187A (en) * | 1995-06-07 | 1997-09-23 | Texas Instruments Incorporated | Storage circuit |
JP3196625B2 (ja) | 1995-12-06 | 2001-08-06 | 日本電気株式会社 | 並列化コンパイル方式 |
US6047366A (en) * | 1996-12-31 | 2000-04-04 | Texas Instruments Incorporated | Single-instruction multiple-data processor with input and output registers having a sequential location skip function |
JPH10228382A (ja) | 1997-02-14 | 1998-08-25 | Nec Corp | コンパイル方式 |
US6453459B1 (en) * | 1998-01-21 | 2002-09-17 | Apple Computer, Inc. | Menu authoring system and method for automatically performing low-level DVD configuration functions and thereby ease an author's job |
JP3541669B2 (ja) * | 1998-03-30 | 2004-07-14 | 松下電器産業株式会社 | 演算処理装置 |
JPH11316688A (ja) | 1998-05-06 | 1999-11-16 | Mitsubishi Electric Corp | プログラミング言語処理装置、プログラミング言語処理方法および記録媒体 |
US6373898B1 (en) * | 1999-04-06 | 2002-04-16 | Ravisent Technologies, Inc. | High-speed start code scanner for MPEG-2 data streams |
US6487715B1 (en) * | 1999-04-16 | 2002-11-26 | Sun Microsystems, Inc. | Dynamic code motion optimization and path tracing |
JP3641997B2 (ja) | 2000-03-30 | 2005-04-27 | 日本電気株式会社 | プログラム変換装置及び方法並びに記録媒体 |
US7039906B1 (en) * | 2000-09-29 | 2006-05-02 | International Business Machines Corporation | Compiler for enabling multiple signed independent data elements per register |
GB0124882D0 (en) * | 2001-10-17 | 2001-12-05 | Koninkl Philips Electronics Nv | Improved variable length decoder |
US6732354B2 (en) * | 2002-04-23 | 2004-05-04 | Quicksilver Technology, Inc. | Method, system and software for programming reconfigurable hardware |
US7075462B2 (en) * | 2002-08-07 | 2006-07-11 | Lsi Logic Corporation | Speeding up variable length code decoding on general purpose processors |
-
2002
- 2002-11-12 JP JP2002327873A patent/JP4487479B2/ja not_active Expired - Lifetime
-
2003
- 2003-11-12 US US10/704,718 patent/US7509634B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009524854A (ja) * | 2005-12-19 | 2009-07-02 | ディーエックスオー ラブズ | ディジタルデータ処理のための方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
US7509634B2 (en) | 2009-03-24 |
JP4487479B2 (ja) | 2010-06-23 |
US20040098709A1 (en) | 2004-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4487479B2 (ja) | Simd命令シーケンス生成方法および装置ならびにsimd命令シーケンス生成用プログラム | |
JP3327818B2 (ja) | プログラム変換装置及び記録媒体 | |
Nuzman et al. | Auto-vectorization of interleaved data for SIMD | |
JP3547139B2 (ja) | プロセッサ | |
US4965724A (en) | Compiler system using reordering of microoperations to eliminate interlocked instructions for pipelined processing of assembler source program | |
Yu et al. | Vector processing as a soft-core CPU accelerator | |
US7769982B2 (en) | Data processing apparatus and method for accelerating execution of subgraphs | |
JP2004288016A (ja) | プロセッサおよびコンパイラ | |
US20020019973A1 (en) | Compiler and method for compiling easily adaptable to processor specifications | |
KR100981998B1 (ko) | 데이터 워드 내의 비트 삽입 | |
Ceng et al. | C compiler retargeting based on instruction semantics models | |
JP3779602B2 (ja) | Simd演算方法およびsimd演算装置 | |
US20120047350A1 (en) | Controlling simd parallel processors | |
JP2004511051A (ja) | レジスタあたり複数の符号付き独立データ要素の処理を可能にする装置、方法、およびコンパイラ | |
JP2003202991A (ja) | プログラム処理装置及びプログラム処理方法、記憶媒体、並びにコンピュータ・プログラム | |
Bulić et al. | An extended ANSI C for processors with a multimedia extension | |
JP2007514245A (ja) | メモリ効率に優れた命令処理方式 | |
JP6897213B2 (ja) | コード生成装置、コード生成方法及びコード生成プログラム | |
JP3887097B2 (ja) | コンパイル方法,コンパイル装置および、コンパイル用プログラムを記憶したコンピュータ読み取り可能な記憶媒体 | |
Karuri et al. | A generic design flow for application specific processor customization through instruction-set extensions (ISEs) | |
JP3511691B2 (ja) | 演算処理装置 | |
JP2008071065A (ja) | インライン展開を行うコンパイル装置、方法、プログラム、記憶媒体 | |
JP2000163266A (ja) | 命令実行方式 | |
JP2003067195A (ja) | 最適化コンパイル方法及び最適化コンパイル装置 | |
JP4006887B2 (ja) | コンパイラ、プロセッサおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051014 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090130 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090514 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090514 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091027 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091204 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20100203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100309 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100322 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4487479 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130409 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140409 Year of fee payment: 4 |