JP2001331474A

JP2001331474A - 単一命令複数データ指示を備えた逆離散コサイン変換の実行方法、圧縮データの伸張方法、圧縮データ信号の伸張装置、並びに、コンピュータ・プログラム製品

Info

Publication number: JP2001331474A
Application number: JP2001070831A
Authority: JP
Inventors: Saha Arindam; アリンダム・サハ
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-03-21
Filing date: 2001-03-13
Publication date: 2001-11-30
Also published as: US7020671B1

Abstract

(57)【要約】【課題】本発明は、圧縮されたデータの伸張に関して
逆離散コサイン変換（ＩＤＣＴ）を実行する装置および
方法を提供する。【解決手段】本発明は、複数の第１の一方向性ＩＤＣ
Ｔ係数１８０をもたらす第１の一方向性ＩＤＣＴ１５８
を実行し、続けて複数の第２の一方向性ＩＤＣＴ係数１
８４をもたらす第２の一方向性ＩＤＣＴ１６４を実行す
る。第１及び第２の一方向性ＩＤＣＴ１５８，１６４の
実行時に、第１の複数の中間バタフライ計算は、複数の
初期積をもたらす複数の中間乗積と、中間積をもたらす
複数の中間加算とを実行する。その複数の中間加算はＲ
ＮＰの丸めスキームによって１６ビット以下で維持され
る。第２の一方向性ＩＤＣＴに続けて、複数の第２の一
方向性ＩＤＣＴ係数を丸めて桁送りすることは、ＩＥＥ
Ｅの１１８０規格を満たす複数の出力係数をもたらすＲ
ＡＺの丸めスキームを利用して実行される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般的にデータ信号
の圧縮および伸張に関する。特に、本発明は逆離散コサ
イン変換の実行に関する。

【０００２】

【従来の技術】離散コサイン変換（ＤＣＴ）および逆離
散コサイン変換（ＩＤＣＴ）を最初に実行したのは、N.
Ahmed, T. Natarajan, 及び, K. R. Raoによって導入
された（N. Ahmed, T. Natarajan, 及び, K. R. Rao；
離散コサイン変換：コンピュータに関するＩＥＥＥ会
報；９０−９３頁、１９７４年）。Ahmedの参考文献に
よって導入されたアルゴリズムは、正確な結果を達成す
るために非常に多くの計算を必要とする。この最初の実
行は、W. Chen, C. H. Smith, 及び, S. C. Fralickに
よって作成されたＤＣＴおよびＩＤＣＴアルゴリズムに
より進歩された（W.Chen, C. H. Smith, 及び, S. C. F
ralick；離散コサイン変換に関する高速計算アルゴリズ
ム；コンピュータに関するＩＥＥＥ会報、ＣＯＭ−２５
（９）；１００４−１００９頁、１９７７年）。Chenア
ルゴリズムはAhmedアルゴリズムの上を行くが、依然と
して多数の計算を必要とする。

【０００３】現在では、ますます多くのマイクロプロセ
ッサが、マルチメディア・アプリケーションの実行を加
速するために命令と関連ハードウェアとを提供してい
る。

【０００４】この種のマイクロプロセッサにおいて実行
されるマルチメディア範囲は、計算の単一命令複数デー
タ（ＳＩＭＤ）モードに基づかれている。Hitachi（日
立）は、ＳＨ５と呼ばれるこの種のマイクロプロセッサ
を作成した。ＳＨ５は、ＳＩＭＤモードを利用して４つ
の異なるデータ値まで続けて同じ命令を同時に計算する
ことを可能にしている。

【０００５】２次元の８×８のＩＤＣＴは、種々のビデ
オ伸張アプリケーションにおいて一般的に用いられる機
能である。ＭＰＥＧ−２のような幾つかのマルチメディ
ア規格は、ＩＥＥＥの１１８０規格テストで公表された
ように、ＩＤＣＴ精度についての特定レベルを要求して
いる（８×８の逆離散コサイン変換の実行に関するＩＥ
ＥＥ規格仕様、ＩＥＥＥ規格１１８０−１９９０）。当
該技術分野においてよく知られているように、８×８マ
トリックスに対する強力なＩＴＤＣＴの解は、４０９６
回の乗算と３５８４回の加算とを必要とする。

【０００６】与えられた二方向性（２Ｄ）ＤＣＴ数列
［Ｘ（ｍ，ｎ）、０≦ｍ，ｎ≦Ｎ−１］に対して、二方
向性ＩＤＣＴ数列［ｘ（ｉ，ｊ）、０≦ｉ，ｊ≦Ｎ―
Ｉ］は次のように決定される：

【０００７】

【数１】

【０００８】一般に、一方向に（例えば行によって）入
力マトリックス上で一方向性（１Ｄ）ＩＤＣＴを実行
し、その後で、反対方向に（列によって）第１の出力で
別の一方向性ＩＤＣＴを実行することによって二方向性
ＩＤＣＴを計算している間に、ＩＤＣＴの分離可能な特
質を利用可能である。与えられたＤＣＴ数列［Ｘ
（ｋ）、０≦ｋ≦Ｎ−１］に対して、一方向性ＩＤＣＴ
数列［ｘ（ｎ）、０≦ｎ≦Ｎ―１］は次のように定義さ
れる：

【０００９】

【数２】

【００１０】ここに、乗算定数は無視され、そしてＸ
（０）は適当に処理されている。こうして、Ｎ＝８に対
して、これは８×８マトリックスに８×１ベクトルを乗
じたものとみなされる。

【００１１】Chenアルゴリズムでは、Chenは、浮動小数
点（Chenの文献で実数と言及されている）をデータタイ
プと仮定し、更にアルゴリズムの実行についても、そし
て実行に起因したアルゴリズムの制限についても議論し
ていない。

【００１２】ChenのＤＣＴアルゴリズムは、浮動小数点
演算だけを含み、２の累乗である任意のＮに関して適用
可能である。一般化は、他の全てのノードで認職可能な
ビット反転パターンを保存する形式内にマトリックス要
素を再整理するため、２進法マトリックスを備えて交互
のサイン／コサインのバタフライ・マトリックスから成
る。Chenアルゴリズムでの計算上の複雑さは、Ｎの入力
に対して（３Ｎ／２）×（ｌｏｇＮ−１）＋２の浮動小数点の加算と、ＮｌｏｇＮ−（３Ｎ／２）＋４の浮動小数点の乗算とである。

【００１３】Chenアルゴリズムは、一方向性の８×１の
ＩＤＣＴ当たり１６回の乗算と２６回の加算とを必要と
する。この未処理の複雑さは、強力であるより遥かに良
好であるけれども、他の多くのＩＤＣＴアルゴリズムと
比較して劣っている。例えばＳＨ５などの並列なプロセ
ッサまたはマイクロプロセッサ上でChenのＩＤＣＴアル
ゴリズムを簡単に実行する際に見積もられる複雑さは以
下に示されている。この実行は、入力を１６ビットに広
く仮定し、ＩＥＥＥの１１８０規格を満たす精度を維持
するために、２つの１６ビット入力の全ての中間積を３
２ビットに拡張している。

【００１４】

【数３】

【００１５】

【発明が解決しようとする課題】８×８のＩＤＣＴにお
ける計算上の複雑さを減少させる多くのアルゴリズムが
存在する。しかし、これらのアルゴリズムの大部分のう
ち不規則なメモリ・アクセス・パターンは効率的な実行
の助けにならない。更に、ＩＥＥＥの１１８０における
精度制約を満たすＩＤＣＴを計算する効率的かつ効果的
な方法は存在しない。インテル社（Intel Corporatio
n）は、アプリケーション・ノート内でＭＭＸ命令を用
いたＩＤＣＴの実行について発表している（ＭＰＥＧデ
コーディング用高速ＩＤＣＴアルゴリズム中でＭＭＸ命
令が使用されている；アプリケーションノート、http:/
/developer.intel.com/drg/mmx/appnotes/ap528.ht
m）。しかし、この実行はＩＥＥＥの１１８０規格を満
たしていない。

【００１６】

【課題を解決するための手段】本発明は、例えば圧縮さ
れたビデオ又はオーディオ・データのような圧縮データ
を伸張する際に、逆離散コサイン変換（ＩＤＣＴ）を実
行する装置および方法を提供する。本発明のＩＤＣＴの
実行は、複数の第１の一方向性ＩＤＣＴ係数をもたらす
第１の一方向性（１Ｄ）ＩＤＣＴを実行し、続けて複数
の第２の一方向性ＩＤＣＴ係数をもたらす第２の一方向
性ＩＤＣＴを実行することを含んでいる。第１の一方向
性ＩＤＣＴと第２の一方向性ＩＤＣＴとの実行に際し、
第１の複数の中間バタフライ計算が実行される。第２の
一方向性ＩＤＣＴに続けて、複数の第２の一方向性ＩＤ
ＣＴ係数を丸めて桁送りすることが、複数の出力係数を
もたらすことで実行される。

【００１７】第１の複数の中間バタフライ計算を実行す
ることが、複数の初期積をもたらす複数の中間乗算の実
行と、１６ビット以下で維持される中間積をもたらす複
数の中間加算の実行とを更に含んでいる。

【００１８】第１の一方向性ＩＤＣＴと第２の一方向性
ＩＤＣＴとを実行することが、正近傍丸め（ＲＮＰ）の
丸めスキームを更に含み、他方、複数の第２の一方向性
ＩＤＣＴ係数を丸めて桁送りすることが、ゼロから離れ
た丸め（ＲＡＺ）の丸めスキームとを更に含んでいる。

【００１９】本発明のＩＤＣＴの実行は、複数の係数に
関して１つの単一命令を同時且つ並列に実行するために
並列処理を利用し、そしてＩＤＣＴを実行するために必
要なプロセッサ・サイクル数を減少させることを更に含
んでいる。

【００２０】本発明は、ＩＥＥＥの１１８０規格を今も
なお満たしている間に、３９７以下のサイクルでＩＤＣ
Ｔを実行する。

【００２１】以下に示す図面を参照して詳細な説明と、
添付された特許請求の範囲とを読むことにより、本発明
の付加的な利点及び特徴が容易に明白になるだろう。

【００２２】

【発明の実施の形態】一実施の形態において、本発明
は、逆離散コサイン変換（ＩＤＣＴ）の実行を介して、
例えば圧縮されたビデオ信号やオーディオ信号等のよう
な圧縮信号の伸張を提供するように設計されている。本
発明の一実施の形態における方法および装置は、マイク
ロプロセッサ、コンピュータ、又は、専用ハードウェア
を介して実行される。その専用ハードウェアは、命令及
び関連したハードウェアを提供してマルチメディア・ア
プリケーションの実行を加速可能としている。一実施の
形態において、本発明は、プロセッサ又はマイクロプロ
セッサの並列処理能力を利用している。

【００２３】図１は、プロセッサ又はマイクロプロセッ
サ１３０上で実行される本発明の一実施の形態について
のブロック図を示している。本発明を実行するために使
用可能なプロセッサの一例として、Hitachi America Lt
d. (New York)製のＳＨ５マイクロプロセッサが含まれ
る。本発明の一実施の形態において、プロセッサ１３０
は、プロセッサ１３０に制御および計算能力を提供する
中央処理装置１３２を含んでいる。中央処理装置１３２
は、少なくとも１つのレジスタ１３４に結合され、レジ
スタ１３４への情報の入力および出力を制御する。中央
処理装置１３２は、マルチメディア・エンジン１３６、
及び、内部メモリ１４２にも結合され、更にポート１４
６を介して外部メモリ１４４に結合されている。マルチ
メディア・エンジン１３６は、計算時の単一命令複数デ
ータ（ＳＩＭＤ）モードに基づかれている。そのＳＩＭ
Ｄは、異なる多重データ値に関する同じ命令の同時計算
または並列処理を可能としている。例えば、６４ビット
のＳＨ５は、８回の８ビットのデータ演算、４回の１６
ビットのデータ演算、及び、２回の３２ビットのデータ
演算に関して同じ命令の同時計算に備えている。並列処
理の際に、実行可能なデータ演算の例には、加算、減
算、乗算、桁送り、入れ換え（シャッフル）、停止（パ
ーク）、非停止（アンパーク）が含まれるが、これに限
定されない。ＳＨ５は、マルチメディア及び浮動小数点
サポートを備えた汎用マイクロプロセッサであり、４０
０ＭＨｚ以上の高い到達目標のクロック速度のために設
計されている。強力なＳＩＭＤマルチメディア・エンジ
ンは４個の整数乗算器から成り、パイプライン化される
と、１サイクル当たり４回の整数乗算を実行できる。

【００２４】図２は、本発明の方法における一実施の形
態の全流れ図を示す。ステップ１５２において、圧縮さ
れた信号またはデータの入力係数がプロセッサ１３０の
レジスタ１３４内にロードされる。ステップ１５４にお
いて予め算定された三角定数およびセットアップ・ポイ
ンタがロードされる。一実施の形態では、三角法定数
は、当該技術分野において周知であるようなＩＤＣＴ計
算内で用いられて予め算定されたサイン(sine)及びコサ
イン(cosine)の値を含んでいる。セットアップ・ポイン
タは、入力、出力、及び、係数用のメモリ・アドレス・
ロケーションに対するポインタである。ステップ１５６
において、係数の有効なビットを保存するために、入力
係数はビットの既定数だけ左に桁送りされる。ステップ
１５８において、第１の一方向性（ＩＤ）ＩＤＣＴが一
方向に実行され、例えば第１の一方向性ＩＤＣＴ係数１
８０を有する第１の一方向性ＩＤＣＴマトリックスを垂
直方向に作成する。ステップ１６２において、結果に起
因する第１の一方向性ＩＤＣＴ係数１８０が転置され
る。ステップ１６４において、第１の一方向性ＩＤＣＴ
の出力を転置することにより、第２の一方向性ＩＤＣＴ
が、第１の一方向性ＩＤＣＴと同じ方向、即ち垂直方向
に実行される。第２の一方向性ＩＤＣＴは、第２の一方
向性ＩＤＣＴマトリックスになり、第２の一方向性ＩＤ
ＣＴ最終積または係数１８４を含んでいる。ゼロから離
れた丸め（ＲＡＺ）（以下に更に詳細に説明される）と
桁送りとが、ＩＤＣＴ出力係数１８６の丸められて桁送
りされたマトリックスを生成するステップ１６８におい
て、結果に起因する第２の一方向性ＩＤＣＴ最終係数１
８４上で実行される。次に、ＩＤＣＴ出力係数１８６の
丸められて桁送りされたマトリックスが、最終のＩＤＣ
Ｔ出力係数１８８に終わるステップ１７２において、転
置される。ステップ１７４において、第２の一方向性Ｉ
ＤＣＴの転置されたマトリックスにおける最終のＩＤＣ
Ｔ出力係数１８８が切り落とされ（クリップされ）又は
満たされ（飽和され）、その係数が範囲［−２５６，２
５５］内で満たされて記憶されるようになる。

【００２５】メモリ・アクセスは時間をくい、マルメデ
ィアの豊富なデータ・タイプを扱うアプリケーションに
おいてしばしば障害となる。従来技術におけるＩＤＣＴ
アプリケーションにおいて、かなり多数の係数および計
算結果がメモリに記憶され、メモリから呼び戻されなけ
ればならない。本発明の１つの特徴は、ＩＤＣＴを実行
した時に、メモリア・クセスを最小化することである。
一実施の形態において、入力係数は、６４ビットのロー
ディングを実行する単一の並列プロセッサ命令を用い
て、レジスタ１３４（図１）内に並列に一回で４個ずつ
ロードされる。従って、１つの単一命令および単一サイ
クルにおいて４個の１６ビット係数がロードされる（図
２のステップ１５２）。ステップ１５８において第１の
一方向性ＩＤＣＴの完成の後に、従来の実行と異るよう
に、第１の一方向性ＩＤＣＴ係数１８０の出力マトリッ
クスがメモリ１４２又はメモリ１４４内に戻って記憶さ
れない。その代りに、これらの値はレジスタ１３４内に
保持され、ステップ１６４において第２の一方向性ＩＤ
ＣＴが開始される以前に、ステップ１６２において出力
マトリックス１８０全体が転置される。６４ビットの並
列ロード記憶オペレーションを実行する信号プロセッサ
命令を用いて、最終ＩＤＣＴ出力係数１８８がメモリ１
４２又はメモリ１４４に一回で４個ずつ並列に記憶され
る。

【００２６】一実施の形態において、本発明のＩＤＣＴ
の実行がビデオ伸張のために行われる。この場合、入力
係数は、当該技術分野において知られているように画素
差の値を含んだ任意の従来手段から得られるものであ
る。ＩＥＥＥの１１８０規格によれば、このＩＤＣＴ入
力は、範囲（−２０４８，２０４７）内に１２ビットの
整数ごとに割り当てられている。本発明は、少なくとも
４個の最上位なゼロビットを残すレジスタ１３４内に、
１６ビット・エンティティとして入力係数をロードす
る。後続する中間計算において最上位のビットを保存す
るために、入力係数は、４つの場所だけ左に桁送りされ
る。この余分な４ビット精度はＩＤＣＴの終端まで実行
される。そして、いずれかの点で余分な４ビットが、第
２の一方向性ＩＤＣＴ１６４の後で、右桁送り即ち逆桁
送りによって無効にされ、以下詳述される。

【００２７】一実施の形態において、中間乗算内で使用
され、予め算定されて記憶された三角定数の使用によっ
て、本発明のＩＤＣＴを完了するのに必要なサイクル数
が更に減少され、以下詳述される。三角定数は、２¹⁵ま
で掛け算する（１５個の場所だけ左に桁送りする）こと
によって整数定数に変換され、それにより、単一命令
が、正の近傍で桁送りされて丸められる（以下に更に詳
述）と共に、ＳＩＭＤ固定点の乗算を実行して利用可能
になる。この単一命令演算（オペレーション）は並列処
理を可能にする。その並列処理は、ＩＤＣＴを実行する
更に効率的な方法を提供し、それによってＩＤＣＴを完
了するのに必要なサイクル数を更に減少させる。

【００２８】図３Ａ及び図３Ｂは、８×８の入力係数マ
トリックス用に第１および第２の一方向性ＩＤＣＴのス
テップ１５８，１６４（図２参照）を実行する本発明に
おける一実施の形態の流れ図を示す。一方向性ＩＤＣＴ
は４つのステージのプロセス、即ち、ステージ２１０，
２１２，２１４及び２１６を含んだプロセスである。各
ステージは、加算２１９および中間バタフライ計算２１
８を含んだ算術計算を備えている。中間バタフライ計算
２１８は、中間乗算２２０および中間加算２２２を含
み、中間積２２４を生成する。図４Ａは、３２ビットの
初期積２２３を生成する２つの中間乗算２２０と、中間
積２２４を生成する中間加算２２２とを含んだ１つの中
間バタフライ計算２１８を示す。各々の中間乗算２２０
は、予め算定された三角定数２２８を持つ入力２２６の
乗算を含んでいる。中間加算２２２に先立って、初期積
２２３は１６ビット以下に維持される。初期積２２３を
１６ビット以下で維持するために、バタフライ計算２１
８は更に右に桁送り２３０と丸め２３４とを含んでい
る。３２ビットの初期積２２３は、右に桁送り２３０さ
れて並列処理の最適化を可能にする１６ビットの長さを
維持し、且つ、最上位ビットを維持する。次に、桁送り
された初期積２３１は、丸められて１６ビットの初期積
２２５を生成する。入力係数における初期の４ビットを
左に桁送りすることが最上位ビットを保存するので、丸
められた初期積２２５の精度が維持される。次に、中間
加算２２２は、１６ビットの中間積２２４を生成するた
めに、２つの丸められた１６ビットの初期積２２５を加
える。例えばＳＨ５などのプロセッサ１３０上で実行さ
れたとき、中間バタフライ計算２１８が１つの単一命令
を用いて実行される。従って、ＩＤＣＴを完了するため
に必要なサイクル数は大幅に減少させられる。ＳＨ５
は、たった一回で４つの中間バタフライ計算を実行可能
とし、それによってＩＤＣＴを実行するために必要なサ
イクル数を減少させる並列処理を実行できる。丸められ
た初期積２２５は、１６ビットのうちの１ビット総数
（カウント）を維持するように桁送りされて丸められる
ので、中間積２２４も１６ビットに維持され、それによ
って精度とＩＥＥＥの１１８０規格への追従とを維持す
るために桁送り及び丸めを必要としない。

【００２９】一実施の形態において、右の桁送り２３０
は、固定点の３２ビットの初期積２２３のうちの１５ビ
ットだけ右に桁送りすることで定義される。更に、丸め
ることは、単純に正の近傍での丸め（四捨五入）（ＲＮ
Ｐ）により実行され、以下詳述される。この１５ビット
の桁送り及びＲＮＰが可能にすることは、１つの単一プ
ロセッサ命令２４０によって乗算２２０、右の桁送り２
３０、および丸め２３４が実行されることであり、それ
によって更に１５ビットの桁送り及びＲＮＰが、ＩＤＣ
Ｔを実行するために必要な全サイクル数を減少させ、し
かも依然としてＩＥＥＥの１１８０規格への追従を維持
している。従来技術による実行は、ＩＥＥＥの１１８０
規格を満たすために、３２ビットで維持されるような初
期積２２３を必要とした。積を３２ビットに維持または
拡張することは、効率を著しく限定し、少なくとも２つ
の要因によって並列処理の利点を低下させ、従って、Ｉ
ＤＣＴを実行するのに必要なサイクル数を増大させる。
更に、従来技術による実行は、ゼロから離れた丸め（Ｒ
ＡＺ）の丸めスキーム、即ち、ＩＥＥＥの１１８０規格
を満たすのに十分な程度の精度を維持するため多くの計
算を必要とする一層複雑な丸め方法の使用を必要とし
た。丸められた初期積２２５と１６ビットでの中間積２
２４とを維持することによって、本発明は並列処理を最
適化し、それによってプロセッサ１３０が、ＩＤＣＴプ
ロセスを介して４回の同時計算を継続可能になる。

【００３０】図５は、本発明の一実施の形態において実
行される２つの丸めスキームを示す。左コラムはＲＮＰ
の丸めスキームを示し、右コラムはＲＡＺの丸めスキー
ムを示す。ＲＮＰスキームにおいて、丸められるべき数
４２４が正の整数よりも０．５以上だけ大きければ、Ｒ
ＮＰは数４２４を上に丸める（切り上げる）。数４２６
が正の整数よりも０．５未満だけ小さければ、ＲＮＰは
数４２６を下に丸める（切り捨てる）。数４２８が負の
整数よりも０．５以上だけ大きければ、ＲＮＰは数４２
８を上に丸める。数４３２が負の整数よりも０．５未満
だけ小さければ、ＲＮＰは数４３２を下に丸める。

【００３１】続いて図５を参照すると、ＲＡＺの丸めス
キームにおいて、丸められるべき数４４４が正の整数よ
りも０．５以上だけ大きければ、ＲＮＰは数４４４を上
に丸める。数４４６が正の整数よりも０．５未満だけ小
さければ、ＲＮＰは数４４６を下に丸める。数４４８が
負の整数よりも０．５以上だけ大きい（この場合には
０．５を含まない）ならば、ＲＮＰは数４４８を上に丸
める。数４５２が負の整数よりも０．５以下だけ小さけ
れば、ＲＮＰは数４５２を下に丸める。

【００３２】ＲＡＺまたは対称的な丸めは、本発明を実
行するために使用され得るプロセッサ１３０によって直
接サポートされないかもしれない。例えば、ＲＡＺはＳ
Ｈ５によって直接サポートされない。従って、一実施の
形態において、本発明は、ＩＤＣＴの終了まで、この更
に複雑な丸めモードを回避している。ステップ１６４で
第２の一方向性ＩＤＣＴの第４ステージ２１６によって
生成された１６ビットの第２の一方向性ＩＤＣＴ最終係
数１８４における最終丸めおよび桁送りの間だけ、ＲＡ
Ｚの使用によって本発明がＩＥＥＥの１１８０規格を満
たすことを可能にしている。

【００３３】図４Ｂを参照すると、一実施の形態におい
て、第２の一方向性ＩＤＣＴ１６４の第４ステージ２１
６に後続して、丸め及び桁送りが、第２の一方向性ＩＤ
ＣＴ最終係数１８６上で実行されてＩＥＥＥの１１８０
規格での適合を保証し、そして１６ビット以下でその係
数を維持し、それによって並列処理を最適化する。丸め
２５２は、ゼロから離れた丸め（ＲＡＺ）の丸めスキー
ムを介して実行される。本発明の一実施の形態におい
て、ＲＡＺの丸め２５２は、算術補償を介して実行さ
れ、ＩＥＥＥの１１８０規格を満たすＩＤＣＴ出力係数
１８６を得るために最終桁送り２５４によって後続され
る。

【００３４】図４Ｃを参照すると、一実施の形態におい
て、ＲＡＺ２５２は、最終桁送り２５４によって複数の
ビットだけ右に桁送り、且つ補償された最終積２８０に
なる算術補償を含んでいる。ＲＡＺ２５２は、最初に、
桁送りされた最終係数２８２になる第２の一方向性ＩＤ
ＣＴ最終係数１８４を右に１５ビットだけ桁送りする。
次に、桁送りされた最終係数２８２は、条件付き積２８
６を生成する条件付き定数２８４を備えて桁送りされた
最終係数２８２を加えることにより、条件付き定数２８
４だけ調整される。次に、第２の一方向性ＩＤＣＴ最終
係数１８４は、補償された最終積２８０を生成する条件
付き積２８６と一緒に加えられる。予め算定された条件
付き定数が導出されて正および負の第２の一方向性ＩＤ
ＣＴ最終係数１８４に関してそれぞれ３２及び３１とな
る。最終的な右の桁送り２５４は、６ビットの右桁送り
となってＩＤＣＴ出力係数１８６を得るためＩＤＣＴア
ルゴリズムにより指示されたように、２ビットの右桁送
りと共に元の１２ビットの入力係数のうちで初期の４ビ
ットの左桁送りを無効にしている。

【００３５】図６は、桁送り及びＲＮＰの単一命令４６
８で増大されるＳＩＭＤの固定点における一実施の形態
を示す。単一命令４６８は、図４Ａに示す中間バタフラ
イ計算２１８の中間乗算２２０、桁送り２３０、及び、
丸め２３４の一つの手段である。単一命令４６８は、単
一命令内の中間バタフライ計算２１８を実行し、それに
よって、本発明のＩＤＣＴを実行するために必要なサイ
クル数を減少させる。最初、４個の入力係数４７０Ａ〜
４７０Ｄが、三角定数４７０Ｅ〜４７０Ｈに乗算（４７
２）される。次に、乗算４７２の初期積４７４は右に１
５ビットだけ桁送り（４７６）され、中間バタフライ計
算２１８における１６ビットの丸められた初期積２２５
を生成するＲＮＰの丸めスキームを用いて丸め（４７
８）られる。単一命令４６８は並列処理を介して実行さ
れ、それによって４個の中間バタフライ計算２１８が同
時に実行可能にされ、更に、ＩＤＣＴを実行するために
必要なサイクル数が減少される。

【００３６】図３及び図４に戻って参照すると、中間乗
算２２０における３２ビットの初期積２２３は、乗算２
２０への２つの入力係数２２６の幅と同じ幅である１６
ビットの幅だけ維持される。他の従来の方法と異なっ
て、本発明は、中間加算２２２を伴った一切の桁送り及
び丸め演算を使用していない。このことは、ＩＥＥＥの
１１８０規格を危うくしない。乗算積の１６ビット幅
は、最上位ビットも維持する桁送り２３０を介して維持
される。元の１２ビットの入力係数を４ビットだけ最初
に左桁送りすること、及び、右桁送り２３０を用いるこ
とのために、最上位ビットが維持され、そして単純なＲ
ＮＰが中間結果の精度に影響しない。そして、ＩＥＥＥ
の１１８０規格は依然として満たされている。更に、中
間積２２４を１６ビットで維持することは、中間積を３
２ビットまで拡張することを必要とする従来技術の方法
より、少なくとも２つの要因によって並列処理の使用を
最適化し続ける能力を提供する。

【００３７】本発明におけるＩＤＣＴの実行は、性質
上、間接的である。二方向性（２Ｄ）ＩＤＣＴを直接計
算する代りに、本発明は、ステップ１５８において第１
の一方向性ＩＤＣＴを一方向に実行し、後けて、ステッ
プ１６４において第１の一方向性ＩＤＣＴの転置された
出力と同じ方向に第２の一方向性ＩＤＣＴを実行する。
間接的な方法は、計算上、直接的な方法より優れてい
る。しかし、間接的な方法の欠点は、ステップ１６４に
おいて第２の一方向性ＩＤＣＴが実行される前に、デー
タマトリックスが効果的に転置され（ステップ１６２）
なければならないことである。これは、第１の一方向性
ＩＤＣＴ出力係数１８０をメモリ１４２又はメモリ１４
４内に適切に記憶し、それらの係数を入力として第２の
一方向性ＩＤＣＴへロードすることによって実行可能
となる。しかし、これは、多数のメモリ・アクセス（サ
イクル）、例えばＳＨ５で実行された時に、８０メモリ
・アクセス（サイクル）を必要とする。その代りに、一
実施の形態において、本発明は、第１の一方向性ＩＤＣ
Ｔ出力マトリックス１８０をレジスタ１３４内に記憶
し、ステップ１６２において８×８のマトリックスを転
置するために入れ換え命令を使用する。その８×８のマ
トリックスは、その時に、ステップ１６２へ入力として
第２の一方向性ＩＤＣＴを供給される。当該技術分野に
おいて周知の技術を含んだ任意の従来方法を介して実行
される入れ換え命令を用いたレジスタ内部のマトリック
ス転置に関するこのような技術は、メモリア・クセスよ
りもっと少ない命令を受け取る。例えば、ＳＨ５は、入
れ換え命令と一緒に転置を実行するために、３２個の命
令（サイクル）を必要とする。

【００３８】ＳＨ５上で実行される本発明の一回の実行
における複雑性評価を以下に示す。

【００３９】

【数４】

【００４０】この発明は、例えば、ソフトウェア・ビデ
オ・コーデック（H. 263, MPEG-1,MPEG-2 及びMPEG-4規
格に準拠）と、ＳＩＭＤマルチメディア拡張付きのプロ
グラム可能なマイクロプロセッサを使用した消費者用電
子技術製品（デジタルＴＶ、ＤＶＤ、セットトップ・ボ
ックス（ケーブルテレビの操作用装置）、ゲートウェー
装置等）との一部として使用可能である。

【００４１】本発明は、幾つかの特別な実施の形態に関
して記載されたが、当該記載は本発明の実例となり、本
発明を限定するものとして説明されていない。添付され
た特許請求の範囲で定義されるように、本発明における
本来の精神及び範囲から逸脱することなく様々な変更が
当業者にとって着想できるであろう。

【図面の簡単な説明】

【図１】逆離散コサイン変換（ＩＤＣＴ）を実行するた
めに利用される本発明の一実施の形態の概略図である。

【図２】ＩＤＣＴを実行する一般的な方法の流れ図であ
る。

【図３Ａ】本発明に関してＩＤＣＴを実行する方法にお
いて一方向性ＩＤＣＴの４ステージを示す概略図であ
る。

【図３Ｂ】本発明において実行された一方向性ＩＤＣＴ
内で利用される一つの中間バタフライ計算を示す概略図
である。

【図４Ａ】図３Ｂで示された中間バタフライ計算の更に
詳細な概略図である。

【図４Ｂ】図２の第２の一方向性ＩＤＣＴに続けて実行
される丸め及び桁送りスキームの概略図である。

【図４Ｃ】ゼロから離れた丸め（ＲＡＺ）の丸めスキー
ムを含んだ図４Ｂの丸め及び桁送りスキームの更に詳細
な概略図である。

【図５】図２のＩＤＣＴ方法で利用された２つの異なる
丸めスキームのグラフ表示である。

【図６】１つの単一プロセッサ命令で実行される図４Ａ
の中間バタフライ計算の流れ図である。

【符号の説明】

１３０プロセッサ又はマイクロプロセッサ１３２中央処理装置１３４レジスタ１３６マルチメディア・エンジン１４２内部メモリ１４４外部メモリ１４６ポート１５２ステップ１５４ステップ１５６ステップ１５８ステップ１６２ステップ１６４ステップ１６８ステップ１７２ステップ１７４ステップ１８０第１の一方向性ＩＤＣＴ係数１８４第２の一方向性ＩＤＣＴ係数１８６ＩＤＣＴ出力係数１８８最終ＩＤＣＴ出力係数２１０ステージ２１２ステージ２１４ステージ２１６ステージ２１８中間バタフライ計算２１９加算２２０中間乗算２２２中間加算２２３初期積２２４中間積２２５初期積２２６入力２２８三角定数２３０桁送り２３４丸め２５２丸め（ＲＡＺ）２５４最終桁送り２８０最終積２８２最終積２８４条件付き定数２８６条件付き積４２４数４２６数４２８数４３２数４４４数４４６数４４８数４５２数４７０Ａ入力係数４７０Ｂ入力係数４７０Ｃ入力係数４７０Ｄ入力係数４７０Ｅ三角定数４７０Ｆ三角定数４７０Ｇ三角定数４７０Ｈ三角定数４７２乗算４７４初期積４７６桁送り４７８丸め

Claims

【特許請求の範囲】

【請求項１】複数の入力係数に関して逆離散コサイン
変換（ＩＤＣＴ）を実行する方法であって、前記ＩＤＣＴを実行する方法が、複数の第１の一方向性
（１Ｄ）ＩＤＣＴ係数をもたらす第１の一方向性ＩＤＣ
Ｔを実行するステップと、複数の第２の一方向性ＩＤＣＴ係数をもたらす第２の一
方向性ＩＤＣＴを実行するステップと、第１の複数の中間バタフライ計算を実行することを含ん
だ前記第１の一方向性ＩＤＣＴおよび前記第２の一方向
性ＩＤＣＴを実行するステップと、複数の出力係数をもたらす前記複数の第２の一方向性Ｉ
ＤＣＴ係数を丸めて桁送りするステップとを有すること
を特徴とする逆離散コサイン変換の実行方法。
【請求項２】前記第１の複数の中間バタフライ計算を
実行する前記ステップが、複数の初期積をもたらす複数
の中間乗算を実行するステップと、複数の中間加算を実
行するステップとを有することを特徴とする請求項１記
載の逆離散コサイン変換の実行方法。
【請求項３】複数の中間乗算を実行するステップが、
初期積を生成する三角定数に入力定数を乗算するステッ
プと、前記初期積を１６ビット以下で維持するステップ
とを有することを特徴とする請求項２記載の逆離散コサ
イン変換の実行方法。
【請求項４】桁送りされた初期積をもたらす前記初期
積を、複数のビットだけ右に桁送りすること、及び、正
近傍丸め（ＲＮＰ）の丸めスキームを利用する前記桁送
りされた初期積を丸めることを有することを特徴とする
請求項３記載の逆離散コサイン変換の実行方法。
【請求項５】前記第１の一方向性ＩＤＣＴと前記第２
の一方向性ＩＤＣＴとの前記第１の複数の中間バタフラ
イ計算を実行する前記ステップが、第２の複数の中間バ
タフライ計算を同時且つ並列に実行するステップを有す
ることを特徴とする請求項４記載の逆離散コサイン変換
の実行方法。
【請求項６】前記第１の一方向性ＩＤＣＴと前記第２
の一方向性ＩＤＣＴとの前記中間バタフライ計算を実行
する前記ステップが、各中間バタフライ計算を１つの単
一命令で実行するステップを有することを特徴とする請
求項４記載の逆離散コサイン変換の実行方法。
【請求項７】前記初期積を１６ビット以下で維持する
ステップが、正近傍丸め（ＲＮＰ）の丸めスキームを利
用した前記初期積を丸めるステップを含んでいることを
特徴とする請求項３記載の逆離散コサイン変換の実行方
法。
【請求項８】前記第１および第２の一方向性ＩＤＣＴ
を実行することが、ＲＮＰの丸めスキームを利用して丸
めること、及び、ゼロから離れた丸め（ＲＡＺ）の丸め
スキームを未利用することを含んでいることを特徴とす
る請求項１記載の逆離散コサイン変換の実行方法。
【請求項９】丸めて桁送りする前記ステップが、ＲＡ
Ｚの丸めスキームを利用して丸めるステップを含んでい
ることを特徴とする請求項８記載の逆離散コサイン変換
の実行方法。
【請求項１０】前記第１の一方向性ＩＤＣＴと前記第
２の一方向性ＩＤＣＴとの中間バタフライ計算を実行す
る前記ステップが、１つの単一命令で各中間バタフライ
計算を実行するステップを含んでいることを特徴とする
請求項１記載の逆離散コサイン変換の実行方法。
【請求項１１】前記第１の一方向性ＩＤＣＴと前記第
２の一方向性ＩＤＣＴとにおける前記第１の複数の中間
バタフライ計算を実行する前記ステップが、第２の複数
の中間バタフライ計算を同時且つ並列に実行するステッ
プを含んでいることを特徴とする請求項１０記載の逆離
散コサイン変換の実行方法。
【請求項１２】前記第１の複数の中間バタフライ計算
を実行する前記ステップが、１つの単一命令で各中間バ
タフライ計算を実行するステップを含んでいることを特
徴とする請求項１記載の逆離散コサイン変換の実行方
法。
【請求項１３】前記第１の複数の中間バタフライ計算
を実行する前記ステップが、第２の複数の中間バタフラ
イ計算を同時且つ並列に実行するステップを含んでいる
ことを特徴とする請求項１２記載の逆離散コサイン変換
の実行方法。
【請求項１４】第２の複数の中間バタフライ計算を同
時且つ並列に実行するステップが、少なくとも４回の中
間バタフライ計算を同時且つ並列に実行するステップを
含んでいることを特徴とする請求項１３記載の逆離散コ
サイン変換の実行方法。
【請求項１５】前記入力係数を複数のビットだけ左に
桁送りする前記ステップが、前記入力係数を少なくとも
４ビットだけ左に桁送りするステップを含んでいること
を特徴とする請求項１記載の逆離散コサイン変換の実行
方法。
【請求項１６】複数の前記入力係数を同時且つ並列に
ロードするステップと、前記第１の一方向性ＩＤＣＴを
実行する前記ステップに先立って前記入力係数を複数の
ビットだけ左に桁送りするステップとを含んでいること
を特徴とする請求項１記載の逆離散コサイン変換の実行
方法。
【請求項１７】複数の係数を同時且つ並列にロードす
る前記ステップが、少なくとも４つの係数を同時且つ並
列にロードするステップを含んでいることを特徴とする
請求項１６記載の逆離散コサイン変換の実行方法。
【請求項１８】前記入力係数を左に桁送りする前記ス
テップが、複数の前記入力係数を同時且つ並列に左桁送
りするステップを含んでいることを特徴とする請求項１
記載の逆離散コサイン変換の実行方法。
【請求項１９】複数の前記係数を同時に左に桁送りす
る前記ステップが、少なくとも４つの係数を同時且つ並
列に桁送りするステップを含んでいることを特徴とする
請求項１８記載の逆離散コサイン変換の実行方法。
【請求項２０】複数の入力係数に関して逆離散コサイ
ン変換（ＩＤＣＴ）を実行する方法であって、前記ＩＤＣＴを実行する方法が、正近傍丸め（ＲＮＰ）
の丸めスキームを利用することを含んだ複数の第１の一
方向性ＩＤＣＴ係数をもたらす第１の一方向性（ＩＤ）
ＩＤＣＴを実行するステップと、正近傍丸め（ＲＮＰ）の丸めスキームを利用することを
含んだ複数の第２の一方向性ＩＤＣＴ係数をもたらす第
２の一方向性ＩＤＣＴを実行するステップと、ゼロから離れた丸め（ＲＡＺ）の丸めスキームを利用し
て丸めること含んだ複数の出力係数をもたらす前記複数
の第２の一方向性ＩＤＣＴ係数を丸めて桁送りするステ
ップとを有することを特徴とする逆離散コサイン変換の
実行方法。
【請求項２１】前記ＲＡＺの丸めスキームを利用して
丸めることを含んだ丸めて桁送りする前記ステップが、桁送りされた最終係数をもたらす前記第２の一方向性Ｉ
ＤＣＴ最終係数を複数のビットだけ右に桁送りするステ
ップと、条件付き積をもたらす前記桁送りされた最終係数と一緒
に条件付き定数を加えるステップと、補償された最終積をもたらす前記条件付き積と一緒に前
記第２の一方向性ＩＤＣＴ最終係数を加えるステップ
と、前記補償された最終積を複数のビットだけ右に桁送りす
るステップとを有することを特徴とする請求項２０記載
の逆離散コサイン変換の実行方法。
【請求項２２】前記第２の一方向性ＩＤＣＴ最終係数
を桁送りする前記ステップが、前記第２の一方向性ＩＤ
ＣＴ最終係数を少なくとも１５ビットだけ右に桁送りす
るステップを含んでいることを特徴とする請求項２１記
載の逆離散コサイン変換の実行方法。
【請求項２３】前記条件付き定数を加える前記ステッ
プが、もし前記第２の一方向性ＩＤＣＴ最終係数が正であるな
らば３２を加えるステップと、もし前記第２の一方向性ＩＤＣＴ最終係数が負であるな
らば３１を加えるステップとを含んでいることを特徴と
する請求項２１記載の逆離散コサイン変換の実行方法。
【請求項２４】前記補償された最終積を左に桁送りす
る前記ステップが、前記補償された最終積を少なくとも６ビットだけ右に桁
送りするステップを含んでいることを特徴とする請求項
２１記載の逆離散コサイン変換の実行方法。
【請求項２５】丸めて桁送りする前記ステップが、４
つの命令で丸めて桁送りする前記ステップを実行するス
テップを含んでいることを特徴とする請求項２１記載の
逆離散コサイン変換の実行方法。
【請求項２６】丸めて桁送りする前記ステップの複数
を同時且つ並列に実行するステップを含んでいることを
特徴とする請求項２５記載の逆離散コサイン変換の実行
方法。
【請求項２７】丸めて桁送りする前記ステップが、同
時且つ並列に丸めて桁送りする前記ステップを少なくと
も４回実行するステップを含んでいることを特徴とする
請求項２０記載の逆離散コサイン変換の実行方法。
【請求項２８】前記第２の一方向性ＩＤＣＴの実行に
先だって、前記第１の一方向性ＩＤＣＴ係数を転置する
ステップと、最終ＩＤＣＴ出力係数をもたらす前記ＩＤＣＴ出力係数
を転置するステップとを更に有することを特徴とする請
求項２０記載の逆離散コサイン変換の実行方法。
【請求項２９】前記第１の一方向性ＩＤＣＴ係数と、
前記ＩＤＣＴ出力係数とを転置する前記ステップが、一
回の命令当たり一回の入れ換えを実行するステップを更
に有することを特徴とする請求項２８記載の逆離散コサ
イン変換の実行方法。
【請求項３０】前記最終ＩＤＣＴ出力係数を切り落と
すステップを更に有することを特徴とする請求項２８記
載の逆離散コサイン変換の実行方法。
【請求項３１】複数の入力係数を有する圧縮されたデ
ータを伸張する方法であって、前記方法が、正近傍丸め（ＲＮＰ）の丸めスキームを利
用すること、及び、ゼロから離れた丸め（ＲＡＺ）の丸
めスキームを未利用することを含んだ出力係数をもたら
す前記複数の入力係数に関して第１の一方向性（１Ｄ）
ＩＤＣＴ及び第２の一方向性ＩＤＣＴを実行するステッ
プと、前記ＲＡＺの丸めスキームを利用することを含んだ前記
出力係数を丸めて桁送りするステップとを有することを
特徴とする圧縮データの伸張方法。
【請求項３２】前記ＩＤＣＴが３９７サイクル以下だ
けで実行されていることを特徴とする請求項３１記載の
圧縮データの伸張方法。
【請求項３３】米国電気電子技術者協会（ＩＥＥＥ）
の１１８０精度規格を満たすステップを有することを特
徴とする請求項３２記載の圧縮データの伸張方法。
【請求項３４】単一命令複数データ（ＳＩＭＤ）指示
を利用した前記ＩＤＣＴを実行することを特徴とする請
求項３３記載の圧縮データの伸張方法。
【請求項３５】少なくとも４つのＳＩＭＤ指示を同時
且つ並列に実行することを特徴とする請求項３４記載の
圧縮データの伸張方法。
【請求項３６】４つの係数が同時且つ並列に演算され
るように、前記第１の一方向性ＩＤＣＴと前記第２の一
方向性ＩＤＣＴとを実行するステップを有することを特
徴とする請求項３１記載の圧縮データの伸張方法。
【請求項３７】圧縮されたデータ信号を伸張する装置
であって、前記装置が、複数の入力係数を少なくとも１つのレジス
タ内にロードする手段と、前記入力係数を受け取り、且つ、桁送りされた入力係数
を生成するように構成された前記レジスタに結合した複
数のビットだけ前記入力係数を桁送りする手段と、前記桁送りされた前記係数を受け取り、且つ、第１の一
方向性ＩＤＣＴ出力マトリックスを生成するように構成
された前記入力係数を桁送りする前記手段に結合した第
１の一方向性（ＩＤ）逆離散コサイン変換（ＩＤＣＴ）
を実行する手段と、前記第１の一方向性ＩＤＣＴ出力マトリックスを転置
し、且つ、第１の転置されたＩＤＣＴ出力マトリックス
を生成するように構成された前記第１の一方向性ＩＤＣ
Ｔを実行する前記手段に結合した前記第１の一方向性Ｉ
ＤＣＴ出力マトリックスを転置する手段と、前記転置された第１のＩＤＣＴ出力マトリックスを受け
取り、且つ、第２のＩＤＣＴ出力マトリックスを生成す
るように構成された前記第１のＩＤＣＴ出力マトリック
スを転置する前記手段に結合されて前記転置されたＩＤ
ＣＴ出力マトリックスに関して第２の一方向性ＩＤＣＴ
を実行する手段と、丸められた第２の一方向性ＩＤＣＴ出力マトリックスを
生成するために前記第２の一方向性ＩＤＣＴ出力マトリ
ックスの係数を丸めて桁送りするように構成された前記
第２の一方向性ＩＤＣＴを実行する前記手段に結合され
てゼロから離れた丸め（ＲＡＺ）及び桁送りの手段と、伸張された出力を生成するために前記丸められた第２の
一方向性ＩＤＣＴ出力マトリックスを転置するように構
成されたＲＡＺ及び桁送り手段に結合されて丸められた
前記第２の一方向性ＩＤＣＴ出力マトリックスを転置す
る手段とを有することを特徴とする圧縮データ信号の伸
張装置。
【請求項３８】並列処理、マルチメディア・アプリケ
ーション、少なくとも１つのレジスタ、複数の入力係数
をロードする前記手段、前記入力係数を桁送りする前記
手段、第１の一方向性ＩＤＣＴを実行する前記手段、前
記第１の一方向性ＩＤＣＴを転置する前記手段、前記第
２の一方向性ＩＤＣＴを実行する手段、ＲＡＺおよび桁
送りの前記手段、及び、前記丸められた第２の一方向性
ＩＤＣＴ出力マトリックスを転置する前記手段を含んだ
マイクロプロセッサを備え、前記マイクロプロセッサが、複数の係数に関して少なく
とも１つの単一命令複数データ（ＳＩＭＤ）指示を同時
且つ並列に実行するように構成されたことを特徴とする
請求項３７記載の圧縮データ信号の伸張装置。
【請求項３９】コンピュータの読取り可能な記憶媒体
と、その中に埋め込まれたコンピュータ・プログラム・
メカニズムとを含み、圧縮された信号の伸張を提供する
コンピュータ・プログラム製品であって、前記コンピュータ・プログラム・メカニズムが、逆離散
コサイン変換（ＩＤＣＴ）を実行する方法を備え、前記方法が、複数の入力係数を少なくとも１つのレジス
タ内でロードするステップと、前記入力係数を複数のビットだけ左に桁送りするステッ
プと、第１のＩＤＣＴ出力マトリックスを生成した、正近傍丸
め（ＲＮＰ）の丸めスキームを利用するステップを含ん
だ第１の一方向性（ＩＤ）逆離散コサイン変換（ＩＤＣ
Ｔ）を実行するステップと、転置されたＩＤＣＴ出力マトリックスを生成する前記第
１のＩＤＣＴ出力マトリックスを転置するステップと、複数の要素を含む第２のＩＤＣＴ出力マトリックスを生
成するＲＮＰの丸めスキームを利用するステップを含ん
だ、転置されたＩＤＣＴ出力マトリックスに関して第２
の一方向性ＩＤＣＴを実行するステップと、丸められたＩＤＣＴ出力マトリックスを生成する前記第
２のＩＤＣＴ出力マトリックスの前記要素のそれぞれを
ゼロから離れた丸め、そして桁送りするステップと、伸張された出力を生成する前記丸められたＩＤＣＴ出力
マトリックスを転置するステップとを有することを特徴
とするコンピュータ・プログラム製品。