JP2003330911A

JP2003330911A - 映像データ処理用の単一命令マルチプルデータ（ｓｉｍｄ）に基づくアルゴリズム

Info

Publication number: JP2003330911A
Application number: JP2003097311A
Authority: JP
Inventors: Wanrong Lin; ワンロンリン; Anton Margoline; マーゴリンアントン; Dennis Bushmitch; ブッシュミッチデニス
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2002-03-29
Filing date: 2003-03-31
Publication date: 2003-11-21
Also published as: US7174047B2; US20030190085A1

Abstract

(57)【要約】【課題】映像エンコーダ／デコーダにおいて、係数の
離散コサイン変換（ＤＣＴ）ブロックを処理する方法を
開示する。【解決手段】この方法は、係数のＤＣＴブロックを受
け取り、係数のＤＣＴブロックを、連続的に配列された
ＤＣＴ係数の一次元アレイに線形化する。この方法は、
ＤＣＴ係数の一次元アレイの一部分をレジスタに格納
し、部分は、少なくとも２つの連続的に配置されたＤＣ
Ｔ係数を含む。係数のレジスタに格納された部分が処理
される。これは、ＤＣＴブロック全体が処理されるまで
繰り返される。処理は、ランレングス値の計算、クラス
番号を見出すこと、またはＤＣＴブロックの逆量子化さ
れた係数の判定を含み得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、概して、映像デー
タを処理する方法、より具体的には、ＳＩＭＤに基づく
アルゴリズムを用いるマルチプル離散コサイン変換（Ｄ
ＣＴ）係数を同時に処理する方法に関する。

【０００２】

【従来の技術】ＭＰＥＧ−２（動画エキスパートグルー
プ−２）およびＤＶ（デジタル映像）は、放送産業にお
いて用いられている、デジタル映像再生用の２つの一般
的なフォーマットである。両方のフォーマットにおい
て、変換、例えば、二次元離散コサイン変換（ＤＣＴ）
は、イメージデータのブロック（例えば、１つのマクロ
ブロックにつき４個の８×８ブロック）（ピクセル自体
またはこれらのピクセルに対応するインターフレームピ
クセル差異のいずれか）に適用される。得られる変換係
数は、係数の多くが典型的にはゼロの値で量子化され
る、選択された量子化レベルで、量子化される。量子化
された係数は、ランレングス符号化されて、圧縮された
映像ビットストリームの一部を生成する。概して、より
高い量子化レベルは、より多くのＤＣＴ係数がゼロに量
子化され、ランレングス符号化を行った後、画像データ
を表すために必要とされるビットはより少ない。

【０００３】ＤＣＴは、イメージデータのブロック（例
えば、図１に示すように、８×８ピクセルのブロック）
を、変換係数の新たなブロック（例えば、図２に示すよ
うに、８×８ＤＣＴ係数のブロック）に変換する。変換
は、イメージ全体が変換されるまで、各ブロックに適用
される。デコーダにおいて、逆変換は、下のイメージを
復元するために適用される。

【０００４】典型的なイメージについて、信号エネルギ
ーの大部分が、小数の変換係数に圧縮される。例えば、
図２における第１の係数は、残りの係数の大きさより大
きい。第１の係数は、ＤＣエネルギーを表し、他の係数
は異なる空間周波数帯のＡＣエネルギーを表すので、典
型的には、他の係数よりもずっと大きい。残りの係数
は、左から右に増大する水平な周波数、上から下に増大
する垂直周波数における、エネルギーレベルを表す。右
下の隅の係数は、対角周波数におけるエネルギーレベル
を表す。概して、これらの係数は、イメージが大量の対
角情報をめったに含まないので、小さい傾向がある。

【０００５】典型的な符号化方式において、より重要な
領域のイメージデータのブロックに対応する変換係数
は、より重要度が低い領域に対応する係数よりは、きび
しく量子化されない。このようにして、比較的多くのデ
ータ（すなわち、情報）は、より重要度が低い領域より
も、より重要な領域について保護される。これは、固定
数のビットに、ＤＣＴ係数を限定することによって行わ
れる。係数の限定は、係数を左から右にシフトし、最小
位ビットをレジスタの末尾から落とすことによって、行
われる。このようにして、係数の振幅も低減される。残
りのビット数は、ＤＣＴブロックにおける８×８係数の
各々について、個別に、予め割り当てられる。ビット数
は、一定のビットレートを維持するため、必要に応じ
て、さらに低減されるか、増大される。

【０００６】イメージについての量子化の効果は、図３
に示す量子化された係数のブロックにおいて見受けられ
る。これらの量子化された係数は、図２のＤＣＴ係数
を、最も近い整数に量子化した結果である。係数の多く
は、ゼロの値まで量子化された。係数のうちのいくつか
は、＋１または−１の値まで量子化された。

【０００７】変換係数を量子化する場合、様々な係数の
人間の知覚における異なる重要度は、異なる係数につい
ての量子化器の相対的なステップサイズを変動させるこ
とによって、利用され得る。知覚的に重要な係数は、他
の係数よりも細かいステップサイズで、量子化され得
る。例えば、低い空間的周波数は、細かく量子化され
得、より重要度が低い高周波数係数は、より粗く量子化
され得る。異なるステップサイズを得るための簡略的な
方法は、視覚的な重要度に基づいて、各係数を正規化ま
たは重み付けすることである。正規化された係数は、同
じ様態、例えば、最も近い整数への丸め（均一量子化）
で、量子化され得る。正規化または重み付けは、量子化
器を、ある係数から他の係数に、効率的に縮尺変更す
る。

【０００８】図３に示すように、変換係数の多くは、し
ばしば、ゼロに量子化される。非ゼロの低周波数係数が
いくつかあり得、非０高周波数係数がまばらに分散して
いるが、係数の大部分は、ゼロに量子化され得る。この
現象を利用するため、変換係数の二次元アレイが、図４
に示すように、ジグザグスキャン処理によって、再フォ
ーマットされ、一次元シーケンスに優先順位付けされ
る。図５に、別のスキャン処理を示す。

【０００９】ジグザグまたは別のスキャン順序付けによ
って、シーケンスにおいて最も早くに互いにグループ分
けされている、（エネルギーおよび視覚の面において）
重要な非ゼロ係数の殆どが得られる。これらの後に、典
型的には、ゼロに量子化された係数のロングランが続
く。これらのゼロの値にされた係数は、ランレングス符
号化によって効率的に表される。ランレングス符号化に
おいて、非ゼロ係数の前の連続的なゼロ係数の数（ＲＵ
Ｎ）は、符号化され、非ゼロ計数値が続く。

【００１０】８×８ＤＣＴ係数の処理は、計算を集中さ
せ、望ましくは、素早く、かつ効率的に行われる。本発
明は、このような需要に対処する。

【００１１】

【発明が解決しようとする課題】しかし、従来のデータ
を処理する方法では、ＳＩＭＤに基づくアルゴリズムを
用いるマルチプル離散コサイン変換（ＤＣＴ）係数を同
時に処理することができない。

【００１２】

【課題を解決するための手段】この需要および他の需要
を満たすため、その目的を考慮して、本発明は、係数の
離散コサイン変換（ＤＣＴ）ブロックを処理する方法を
提供する。この方法は、係数のＤＣＴブロックを受け取
り、係数のＤＣＴブロックを、連続的に配列されたＤＣ
Ｔ係数の一次元アレイに線形化する。この方法は、ＤＣ
Ｔ係数の一次元アレイの一部分をレジスタに格納し、部
分は、少なくとも２つの連続的に配置されたＤＣＴ係数
を含む。係数のレジスタに格納された部分が処理され
る。これは、ＤＣＴブロック全体が処理されるまで繰り
返される。処理は、ランレングス値の計算、クラス番号
を見出すこと、またはＤＣＴブロックの逆量子化された
係数の判定を含み得る。

【００１３】上記の概略的な説明および以下の詳細な説
明の両方が、例示に過ぎず、本発明を限定するものでは
ないことが理解されるべきである。

【００１４】本発明による方法は、係数の離散コサイン
変換（ＤＣＴ）ブロックを処理する方法であって、
（ａ）係数のＤＣＴブロックを受け取る工程と、（ｂ）
係数のＤＣＴブロックを、連続的に配列されたＤＣＴ係
数の一次元アレイに線形化する工程と、（ｃ）該ＤＣＴ
係数の一次元アレイの一部分を第１のレジスタに同時に
格納し、該部分は、少なくとも２つの連続的に配置され
たＤＣＴ係数を含む、工程と、（ｄ）該ＤＣＴ係数の第
１のレジスタに格納された部分を同時に処理する工程で
あって、該処理する工程は、該ＤＣＴ係数の第１のレジ
スタに格納された部分と、該ＤＣＴ係数の第２のレジス
タに格納された部分とを比較する工程を含む、工程と、
（ｅ）一次元アレイにおけるＤＣＴ係数の次の部分につ
いて、工程（ｃ）および（ｄ）を繰り返して、該係数の
ＤＣＴブロックの処理を完了する工程と、（ｆ）該処理
の結果を映像エンコーダ／デコーダに提供する工程とを
含む、方法である。これにより、上記目的を達成するこ
とができる。

【００１５】前記工程（ｄ）が、前記第１のレジスタに
格納されたゼロ値を有する、複数の連続的に配置された
ＤＣＴ係数を決定する工程を含んでよい。

【００１６】前記工程（ｄ）が、前記第１のレジスタに
格納された前記ＤＣＴ係数を、前記第２のレジスタに格
納された１セットのゼロ値と同時に比較する工程を含ん
でよい。

【００１７】前記工程（ｄ）が、前記第１のレジスタに
格納された前記ＤＣＴ係数を、前記第２のレジスタに格
納された１セットのゼロ値と同時に比較して、該比較の
結果を格納する工程を含み、マスキング演算を比較の結
果を適用して、ＨＡＳＨＫＥＹを入手し、ＨＡＳＨ
ＫＥＹを第３のレジスタに格納する工程と、ＨＡＳＨＫ
ＥＹを用いて、ランレングステーブルにインデックスを
付けて、該第１のレジスタに格納された、ゼロ値を有す
る連続的に配置されたＤＣＴ係数の数を決定する工程
と、を含んでよい。

【００１８】前記工程（ｄ）が、ＩｎｔｅｌＰｅｎｔ
ｉｕｍ（登録商標）４プロセッサ用の単一命令マルチプ
ルデータエクステンション２（ＳＳＥ２）を用いて、前
記ＤＣＴ係数の前記格納された部分を処理する工程を含
んでよい。

【００１９】前記工程（ａ）が、６４個の係数のＤＣＴ
ブロックを受け取る工程を含み、前記工程（ｃ）が、８
個のＤＣＴ係数を前記第１のレジスタに格納する工程を
含んでよい。

【００２０】本発明による方法は、係数の離散コサイン
変換（ＤＣＴ）ブロックを処理する方法であって、
（ａ）係数のＤＣＴブロックを受け取る工程と、（ｂ）
係数のＤＣＴブロックを、連続的に配列されたＤＣＴ係
数の一次元アレイに線形化する工程と、（ｃ）該ＤＣＴ
係数の一次元アレイの一部分を第１のレジスタに同時に
格納し、該部分は、少なくとも２つの連続的に配置され
たＤＣＴ係数を含む、工程と、（ｄ）重み付け要素を第
２のレジスタに格納する工程であって、重み付け要素の
各々は、該第１のレジスタに格納されたそれぞれのＤＣ
Ｔ係数に対応する、工程と、（ｅ）該第２のレジスタに
格納された重み付け要素の各々を、該第１のレジスタに
格納されたそれぞれのＤＣＴ係数と同時に乗算する工程
とを含む。これにより、上記目的を達成することができ
る。

【００２１】前記重み付け要素と前記ＤＣＴ係数との乗
算の対応する積が、高次ビットおよび低次ビットを含む
方法であって、前記工程（ｅ）が、対応する積の高次ビ
ットを放棄し、該対応する積の低次ビットを第３のレジ
スタに格納する工程と、対応する積の低次ビットを放棄
し、該対応する積の高次ビットを第４のレジスタに格納
する工程と、該第３のレジスタに格納されたビットを所
定のビット数分右にシフトして、該第４のレジスタに格
納されたビットを他の所定のビット数分左にシフトす
る、工程と、ビットごとのＯＲ演算によって、該第３の
レジスタ内の残りのビットを、対応する、該第４のレジ
スタ内の残りのビットと結合する工程とをさらに含んで
よい。

【００２２】前記工程（ｅ）が、（ｉ）前記重み付け要
素の各々と前記対応するＤＣＴ係数との積を、第３のレ
ジスタに格納する工程と、（ｉｉ）該第３のレジスタに
格納された積が、−１の値を含むか否かを判定する工程
と、（ｉｉｉ）該第３のレジスタに格納された積が、＋
１の値を含むか否かを判定する工程と、（ｉｖ）該第３
のレジスタにおいて、工程（ｉｉ）において判定された
該−１の値と、工程（ｉｉｉ）において判定された該＋
１の値とを、それぞれ、ゼロの値と置き換える工程とを
含んでよい。

【００２３】前記工程（ｅ）が、前記重み付けされた要
素の各々と、前記対応するＤＣＴ係数との積を、第３の
レジスタに格納する工程と、前記第３のレジスタに格納
された積が、２５５より大きい値を含むか否かを判定す
る工程とを含んでよい。

【００２４】前記工程（ｅ）が、（ｉ）前記重み付け要
素の各々と、前記対応するＤＣＴ係数との積を、第３の
レジスタに格納する工程と、（ｉｉ）該第３のレジスタ
に格納された積を、第４のレジスタにコピーする工程
と、（ｉｉｉ）所定数のビット分、該第４のレジスタに
コピーされた積をシフトする工程と、（ｉｖ）該第３の
レジスタに格納されている積と、該第４のレジスタにコ
ピーされた積のシフトされたビットとを加算する工程と
を含んでよい。

【００２５】本発明による方法は、映像エンコーダ／デ
コーダ内の係数のＤＣＴブロックのランレングス値を入
手する方法であって、（ａ）係数のＤＣＴブロックを受
け取る工程と、（ｂ）係数のＤＣＴブロックを、連続的
に配列されたＤＣＴ係数の一次元アレイに線形化する工
程と、（ｃ）該ＤＣＴ係数の一次元アレイの一部分をレ
ジスタに格納し、該部分は、少なくとも２つの連続的に
配置されたＤＣＴ係数を含む、工程と、（ｄ）該ＤＣＴ
係数の一次元アレイの一部分を、他のレジスタに格納さ
れた１セットのゼロ値と同時に比較する工程と、（ｅ）
該ＤＣＴ係数のランレングス値を、該工程（ｄ）の該比
較に応じて、決定する工程とを含む。これにより、上記
目的を達成することができる。

【００２６】（ｆ）前記工程（ｃ）〜（ｅ）を、一次ア
レイにおけるＤＣＴ係数の次の部分について繰り返す工
程と、（ｇ）該工程（ｆ）を完了した後、ランレングス
値を更新する工程とをさらに含んでよい。

【００２７】前記工程（ｄ）が、マスク関数を、前記比
較の結果に適用して、ＨＡＳＨＫＥＹを入手する工程
を含み、前記工程（ｅ）が、ＨＡＳＨＫＥＹを用い
て、テーブルにインデックスを付ける工程を含んでよ
い。

【００２８】前記工程（ａ）が、６４個の係数のＤＣＴ
ブロックを受け取る工程を含み、前記工程（ｃ）が、８
個のＤＣＴ係数を該第１のレジスタに格納する工程を含
んでよい。

【００２９】前記レジスタが１２８ビットレジスタであ
り、前記工程（ｃ）が８個の連続的に配置されたＤＣＴ
係数を格納する工程を含み、それぞれのＤＣＴ係数が、
１６ビット値を有してよい。

【００３０】前記工程（ｄ）が、前記比較工程の前に、
前記レジスタに格納されたＤＣＴ係数が、−１の値を含
むか否かを判定する工程と、該レジスタに格納されたＤ
ＣＴ係数が、＋１の値を含むか否かを判定する工程と、
該レジスタにおいて、該判定された−１の値と、該判定
された＋１の値とを、それぞれ、対応するゼロの値と置
き換える工程とを含んでよい。

【００３１】本発明による方法は、映像エンコーダ／デ
コーダ内の係数のＤＣＴブロックのクラス番号を入手す
る方法であって、（ａ）係数のＤＣＴブロックを受け取
る工程と、（ｂ）係数のＤＣＴブロックを、連続的に配
列されたＤＣＴ係数の一次元アレイに線形化する工程
と、（ｃ）該ＤＣＴ係数の一次元アレイの一部分をレジ
スタに格納し、該部分は、少なくとも２つの連続的に配
置されたＤＣＴ係数を含む、工程と、（ｄ）該レジスタ
内に格納されたＤＣＴ係数の各々を重み付けする工程
と、（ｅ）該重み付けされたＤＣＴ係数の各々の絶対値
を入手する工程と、（ｆ）該重み付けされたＤＣＴ係数
の各々の絶対値を比較する工程と、（ｇ）該工程（ｆ）
において、比較されたＤＣＴ係数のうち、所定の値より
大きいＤＣＴ係数がある場合、該ＤＣＴブロックを、第
１の所定のクラス番号で分類する工程とを含む。これに
より上記目的を達成することができる。

【００３２】前記工程（ａ）は、６４個の係数のＤＣＴ
ブロックを受け取る工程を含み、前記工程（ｃ）は、８
個のＤＣＴ係数を第１のレジスタに格納する工程を含ん
でよい。

【００３３】前記レジスタが、１２８ビットレジスタで
あり、前記工程（ｃ）が８個の連続的に配置されたＤＣ
Ｔ係数を格納する工程を含み、それぞれのＤＣＴ係数
が、１６ビット値を有してよい。

【００３４】（ｈ）前記工程（ｄ）において前記ＤＣＴ
係数の各々を重み付けした後、前記ＤＣＴ係数につい
て、ＡＣエネルギー値を計算する工程と、（ｉ）第２の
所定のクラス番号で、前記工程（ｈ）において計算され
る該ＡＣエネルギー値に基づいて、分類する工程とをさ
らに含んでよい。

【００３５】本発明による方法は、映像デコーダ内のＤ
ＣＴブロックを逆量子化する方法であって、（ａ）該Ｄ
ＣＴブロックの一部を格納する工程であって、該部分
は、少なくとも２つのＤＣＴ係数を含む、工程と、
（ｂ）重み付けの値を第２のレジスタに格納する工程
と、（ｃ）第１のレジスタに格納された各ＤＣＴ係数
を、該第２のレジスタ内の対応する重み付けされた値を
乗算して、係数の逆量子化されたＤＣＴブロックを入手
する工程とを含む。これにより、上記目的を達成するこ
とができる。

【００３６】前記ＤＣＴブロックは、６４個の係数を含
み、前記工程（ａ）は、８個のＤＣＴ係数を第１のレジ
スタに格納する工程を含んでよい。

【００３７】前記第１のレジスタが、１２８ビットレジ
スタであり、前記工程（ａ）が８個の連続的に配置され
たＤＣＴ係数を該第１のレジスタに格納する工程を含
み、それぞれのＤＣＴ係数が、１６ビット値を有してよ
い。

【００３８】

【発明の実施の形態】添付の図面を参照しながら、以下
の詳細な説明を考慮することにより、本発明がより良く
理解される。

【００３９】本発明は、次に、図面を参照しながら説明
される。本発明は、図において図示するために選択され
た、例示的な実施形態に限定されないことが理解される
べきである。例示的な実施形態に対する変形および改変
は、本発明の精神または範囲から逸脱することなく為さ
れ得ることが、理解されるべきである。

【００４０】概して、本発明は、ＳＩＭＤに基づくアル
ゴリズムを用いて、マルチプルＤＣＴ係数を同時に処理
する方法に関する。この方法は、概して、１０という参
照符号で示され、図６に示される。図示するように、方
法は、工程１２において、６４−ＤＣＴ（または、８×
８ＤＣＴ）マトリクスを受信する。マトリクスは、工程
１４において、例えば、ＤＣＴ係数用のジグザグスキャ
ン順序（図４）またはＤＣＴ係数用の別のスキャン順序
（図５）を用いて、線形化される。各ＤＣＴ係数は、２
バイト（１６ビット）の整数として、線形化されたスキ
ャン順序（ジグザグまたは他の順序）で、メモリ内に格
納される。

【００４１】線形化されたＤＣＴ係数は、１度にいくつ
か、単一のレジスタにロードされる。例えば、工程１６
は、８個のＤＣＴ係数を１２８ビットのレジスタにロー
ドする。８個のＤＣＴ係数は、並行してロードされ、レ
ジスタ内に１２８ビットのワードが生成される。この方
法は、１２８ビットのワードについて、アルゴリズムを
実行する（工程１８）。以下に説明するように、アルゴ
リズムは、ランレングス計算、ＤＣＴデータ分類化、逆
量子化計算、または、いくつかのＤＣＴ係数が並行して
ロードされるレジスタを用いる他のアルゴリズムを含み
得る。

【００４２】方法は、決定ボックス２０へと進み、アル
ゴリズムがＤＣＴマトリクス全体の処理を完了したか否
かが決定される。ＤＣＴマトリクス全体の処理が完了し
てない場合、方法は、工程１６へと進み、ＤＣＴ係数の
次のセットを１２８ビットのレジスタにロードする。そ
の後、アルゴリズムが、ＤＣＴ係数の次のセットについ
て実行される。この処理は、ＤＣＴマトリクス全体が処
理されたと決定ボックス２０が決定するまで継続され
る。この方法は、工程２２において終了する。

【００４３】（Ａ．ランレングス計算）図７を参照する
と、概して、参照符号３０で示す、ランレングス計算を
行う方法が示されている。この方法は、ＤＣＴマトリク
スのランレングス（Ｒｕｎｌｅｎ．ｒｕｎ）および振幅
（Ｒｕｎｌｅｎ．ａｍｐ）を見出す。この方法は、表１
に挙げられた命令を含むアルゴリズム（ＧｅｔＮｅｘｔ
ＲｕｎＬｅｎ）を用い、以下に説明される。

【００４４】（表１．ＧｅｔＮｅｘｔＲｕｎＬｅｎアル
ゴリズム）

【００４５】

【表１】アルゴリズムは、マトリクスの終わりに達するので、ラ
ンレングスおよび振幅が見出される場合に真の値を返し
（図７に示す工程５０）、ランレングスおよび振幅が見
出されなかった場合に偽の値を返す（工程４８）ブーリ
アン関数で、インプリメントされる。ランレングスが、
ＤＣＴマトリクスにおける２つの非ゼロ値の間のゼロ値
の数であることが理解されるべきである。振幅は、ＤＣ
Ｔマトリクスにおける次の非ゼロ値の値である。

【００４６】図７の実施形態および表１のプロセッサ命
令は、例えば、Ｐｅｎｔｉｕｍ（登録商標）ＮｅｔＢ
ｕｒｓｔ技術（ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商
標）４）を用いて、ＳＳＥ２（ストリーミングＳＩＭＤ
拡張機能２）命令において、インプリメントされる。特
定のセットの命令は、８個のプロセッサを用いて実行さ
れ、８個のプロセッサは、１２８ビットレジスタ（ＸＭ
Ｍ０−ＸＭＭ７）を、ＳＳＥ２命令と並行して、データ
（ｐａｃｋｅｄｃｈａｒ、ｓｈｏｒｔ、ｉｎｔ、ｉｎ
ｔ、ｆｌｏａｔおよび他のデータ）を処理する。

【００４７】この方法は、工程３１から開始し、工程３
２において、レジスタのステータスを復元する。レジス
タは、それぞれ、ゼロの値に初期化される。決定ボック
ス３４は、残りのビット（以下に説明する）が、１２８
ビットのＸＭＭレジスタにあるか否かを決定する。残り
のビットがない（ＸＭＭレジスタにおける８個のＤＣＴ
計数が処理されたことが示される）場合、方法は、決定
ボックス３６へと進む。決定は、６４個のＤＣＴマトリ
クスが処理されたか否かについて行われる。マトリクス
が完全に処理された場合、方法は、工程４８に進み、偽
（非ゼロ値が後に続くそれ以上のゼロのＲＵＮをブロッ
クが含まないことを示すブーリアン関数）を返す。他
方、マトリクスが完全に処理されていない場合、この方
法は、工程３８に進み、「データロード」演算、「０と
の比較」演算および「マスキング」演算を行う。これら
は、それぞれ、以下に説明する。

【００４８】「データロード」演算は、概して、参照符
号８０で示され、図８に模式的に示される。図に示すよ
うに、８個の要素（または、８個のＤＣＴ係数）が、並
行して、レジスタ８２にロードされる。各要素は、メモ
リ（図示せず）から抽出され、レジスタ８２にロードさ
れた１６ビットのワード（２バイト）である。８個の要
素を並行してロードした後、レジスタ８２には、１２８
ビットがパックされる。例示的な実施形態において、レ
ジスタ８２は、ＸＭＭレジスタであり得、ＳＳＥ２命令
セットが用いられ得る。

【００４９】「０との比較」演算は、概して、参照符号
９０で示され、図９に模式的に示される。図示するよう
に、「０との比較」演算は、レジスタ８２内に格納され
るワードの値を、レジスタ８３に格納されているゼロの
値のワード（０がパックされた１２８ビットのレジス
タ）と比較する。説明のため、レジスタ８２にロードさ
れたデータは、８個のＤＣＴ計数であり、係数のうち７
個全てがゼロの値を有し、係数のうちの１つが非ゼロ値
を有する。

【００５０】「０との比較」演算は、等しいワード（１
６ビット、２バイト）について、２つのＸＭＭレジスタ
を比較し、第１および第２のレジスタの対応するワード
において数が等しい場合、第１のオペランドを、「１」
と置き換え、等しくない場合、「０」と置き換える、Ｓ
ＳＥ２命令、すなわち、ＰＣＭＥＱＷを用いてもよい。
図９に示すように、レジスタ８２内の値は、対応する等
しい値について、「１」（ｈｅｘにおけるＦＦＦＦ）と
置き換えられ、対応する等しくない値について、「０」
と置き換えられる。

【００５１】「０との比較」演算を行った後、この方法
は、概して、図１０に、参照符号１００で示す「マスキ
ング」演算を行う。マスキング演算は、各バイトの最初
のビットをレジスタ８２から抽出し、レジスタ１０２の
最後の１６ビットに格納する。例えば、レジスタ１０２
は、３２ビットのＥＡＸレジスタであってもよい。マス
キング演算の結果として、レジスタ８２内の各ワード
（１６ビット）は、レジスタ１０２内の２つのマスキン
グされたビットによって表される。

【００５２】マスキング演算の他の例を、図１１に示
す。図示するように、レジスタ８２は、「Ｘ」が非ゼロ
値を表す、他のセットの８個のＤＣＴ係数を含む。「０
との比較」演算を行った後、マスキング演算は、レジス
タ８２からの比較結果のうちの２バイトの各々につい
て、２ビットを抽出して、レジスタ１０２に入れる。図
示するように、２つの「１」は、ゼロの値を有する各Ｄ
ＣＴ係数を表し、２つの「０」は、非ゼロ値を有する各
ＤＣＴ係数を表す。マスキング演算は、ＸＭＭレジスタ
からの各バイトの最初のビットを、汎用ＥＡＸレジスタ
の後半に格納するバイトマスク命令である、ＳＳＥ２命
令、すなわち、ＰＭＯＶＭＳＫＢを用いてもよい。

【００５３】図７に戻ると、工程３８（データロード、
０との比較、およびマスキング）を完了した後、方法
は、工程４０に進み、「ＨａｓｈＫｅｙをゲット」お
よび「Ｒｕｎをゲット」演算を行う。これらの各々を以
下に説明する。

【００５４】「ＨａｓｈＫｅｙをゲット」演算は、概
して、参照符号１２０で示され、図１２に模式的に示さ
れる。図示するように、レジスタ１０２（３２ビットの
レジスタ）は、８個の高ビットがＡで表され、８個の低
ビットがＢで表される、１６ビットのマスク値を含む。
一意的な８ビットＨａｓｈＫｅｙの値は、８個の高ビ
ットを、１ビット分右にシフトし、シフトされた８個の
高ビット（１２２）と８個の低ビット（１２４）とを比
較する排他的論理和（ＸＯＲ）命令を行うことによっ
て、１６ビットのマスク値から生成される。ＸＯＲ命令
から生成される、一意的な８ビットのＨａｓｈＫｅｙ
値は、参照符号１２６で示される。

【００５５】その後、一意的な８ビットのＨａｓｈＫ
ｅｙ値は、図１３において、概して、参照符号１３０と
して示される「Ｒｕｎをゲット」演算において用いられ
る。「Ｒｕｎをゲット」演算は、ルックアップテーブル
１３２において、ＨａｓｈＫｅｙ値を探し、一時的ラン
レングス値を入手する。テーブル１３２は、２５６個の
エントリを含む。

【００５６】図７の例示的な方法において、１６ビット
の値は、ワードがパックされたＳＳＥ２比較結果のバイ
トマスキング（ＳＳＥ２には、ワードマスキング命令が
ない）によって得ることができる。任意のゼロＤＣＴ係
数が、２ビットの「１」にマッピングされ、および任意
の非０係数は、２ビットの「０」にマッピングされ得
る。結果として、１セットの８ＤＣＴ係数（それぞれ
は、２バイト）は、１セットの１６ビットにマッピング
され得る。このマッピングは、例えば、図１１に示され
る。

【００５７】概して、８個のＤＣＴ係数のセットは、Ｃ
で示され、１６ビットのマスク値は、ＭまたはＭ（Ｃ）
で示され、ＣのＲＵＮの値（左から右に数えて、Ｃにお
ける連続的な０の数）は、ルックアップテーブルにおい
て見受けられ得る。Ｃにおいてゼロおよび非ゼロのＤＣ
Ｔ係数の２５６個の可能な組合せがあるので、この方法
は、各組合せについて、２５６エントリのテーブルを用
いて、ＲＵＮの値を見出す。テーブルインデックス（０
〜２５５）が、各組合せについて含まれる。Ｍが１６ビ
ットの長さなので、直接テーブルインデックスとして用
いられ得ないが、ハッシュ値（ＨａｓｈＫｅｙ）は、
Ｍから得られる。

【００５８】ＨａｓｈＫｅｙは、概して、以下のよう
に計算される。

【００５９】（１）Ｍは、２つの部分、より高い８ビッ
ト（ＭＨ）およびより低い８ビット（ＭＬ）に分割され
る。

【００６０】（２）ＨａｓｈＫｅｙＨ（Ｍ）＝（ＭＨ
＞＞１）ｘｏｒＭＬ、但し、「＞＞１」は、１ビット分
の右へのロジックシフトであり、「ｘｏｒ」は、ビット
ごとの排他的論理和演算である。

【００６１】テーブルインデックスであるＨについて
は、望ましくは、各Ｍに対して一意的である。すなわ
ち、異なるＭは、異なるＨを生成する必要がある。これ
は、以下のように証明され得る。

【００６２】（１）４ビットの変数Ａは、（ａ３，ａ
２，ａ１，ａ０）で示される４ビットを有し、ａ３＝ａ
２、ａ１＝ａ０であるとする。Ａが２つの部分、ＡＨ＝
（ａ３，ａ２）およびＡＬ＝（ａ１，ａ０）に分割され
Ｈ（Ａ）＝（ＡＨ＞＞１）ｘｏｒＡＬである場合、Ｈ
は、各Ａについて一意的である。

【００６３】

【数１】（２）次に、Ａは８ビット変数（ａ７，ａ６，．．．，
ａ０）であり、ａ７＝ａ６、ａ５＝ａ４，．．．，ａ１
＝ａ０である。上記と同様に、Ａは、２つの部分ＡＨ＝
（ａ７，ａ６，ａ５，ａ４）およびＡＬ＝（ａ３，ａ
２，ａ１，ａ０）に分割され得、Ｈ（Ａ）＝（ＡＨ＞＞
１）ｘｏｒＡＬである。ここで、また、Ｈが、Ａに対し
て一意的であることを検証するため、変数Ａの２つの例
は、Ｈ（Ｊ）＝Ｈ（Ｋ）のように、ＪおよびＫとして示
され得る。すなわち、

【００６４】

【数２】（１）に基づいて、（ｕ３，ｕ２）＝（ｖ３，ｖ２）を
得るため、（ｊ７，ｊ６，ｊ３，ｊ２）＝（ｋ７，ｋ
６，ｋ３，ｋ２）が必要である。ｊ６＝ｋ６であるの
で、ｕ１＝ｖ１を得るため、ｊ１＝ｋ１、すなわち、ｊ
０＝ｋ０が必要である（ｊ１＝ｊ０、ｋ１＝ｋ０である
こと思い出されたい）。ｊ０＝ｋ０なので、ｕ０＝ｖ０
を得るため、ｊ５＝ｋ５、すなわち、ｊ４＝ｋ４が必要
である。以上のことをまとめると、Ｈ（Ｊ）＝Ｈ（Ｋ）
にするため、（ｊ７，ｊ６，ｊ３，ｊ２，ｊ１，ｊ０，
ｊ５，ｊ４）＝（ｋ７，ｋ６，ｋ３，ｋ２，ｋ１，ｋ
０，ｋ５，ｋ４）、すなわち、Ｊ＝Ｋが必要である。従
って、Ｈは、各Ａに対して一意的である。

【００６５】（３）上記の（１）および（２）において
用いられるアプローチは、Ａが１６、３２、６
４、．．．ビット変数である場合にも適用される。

【００６６】Ｈが一意性を満たす場合、この方法は、ラ
ンレングステーブルＲ〔２５６〕を用い得る。ここで、
Ｒ［ｉ］＝（Ｈ（Ｍ（Ｃ））＝ｉになるようなＣのＲＵ
Ｎ）である。ルックアッププロセスにおいて、ＲＵＮ
は、Ｒ［Ｈ（Ｍ（Ｃ））］である。

【００６７】図７を参照すると、「Ｒｕｎをゲット」演
算（４０）は、ルックアッププロセスについての一時的
なランレングス値を入手する。ランレングス値は、処理
される全ての要素が、ゼロであり、次のロードもゼロを
含むことが可能であるので、一時的である。また、ラン
レングス値は、非ゼロ要素とレジスタの末尾との間のゼ
ロの数も示す。連続的には、工程４０は、一時的ランレ
ングス値の和（すなわち、８個の係数および現在の一時
的なＲＵＮの以前のグループからの残りのＲＵＮの和）
である、最終的なランレングス値を計算する。係数のう
ち少なくとも１つが非ゼロであったとすると、最終的な
ランレングス値は、ＤＣＴマトリクスにおける、２個の
非ゼロ係数間のゼロの実際の数である。

【００６８】決定ボックス４２は、ＸＭＭレジスタにロ
ードされる８個の係数全てが処理されたか否かを決定す
る。８個の係数全てが処理されていない場合、方法は、
工程４４に進み、残りのマスク値を更新する（以下に説
明する）。この方法は、工程４６（セーブステータス）
において、１６ビットのマスクの残りの値を格納する。
８個の係数全てが処理されている場合、この方法は、新
たなセットの８個のＤＣＴ係数をレジスタにロードし続
ける。残りのビットがある場合、決定ボックス３４は、
工程４０に進み、次の一時的ランレングス値を計算する
（Ｒｕｎをゲット）。

【００６９】「残りのマスクの更新」演算は、概して、
参照符号１４０で示され、図１４において模式的に示さ
れる。第１の一時的ランレングス値（Ｒｕｎをゲット）
を見出して、マスキングレジスタ１４２における非ゼロ
ビットまで、この方法は、レジスタ１４２において、ビ
ットを右へと、非ゼロビットの後の値まで、シフトす
る。レジスタ１４２における残りの値は、処理されなか
ったＤＣＴ係数に対応する。すなわち、残りの値は、以
前のＲＵＮの後にロードされた８個の要素の残りのマス
クビットである。各ＲＵＮにおいて、残りの値は、８個
の要素のロードにおける未処理要素の数に対応するよう
に低減する。

【００７０】図１１に示す実施例において、第１のラン
レングス値が２になるように決定された（ビットは右か
ら左に計算される）後、レジスタ１０２内の１６ビット
のマスク値は、６ビット分右にシフトされる（非ゼロ値
の後の値までシフトされる）。その後、次のランレング
ス値は、再度、ＨａｓｈＫｅｙおよびランレングステ
ーブルを用いることによって、３になるように計算され
る。

【００７１】図７の例示的な実施形態において、方法
は、ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）４用のＳ
ＳＥ２命令を用いる。Ｐｅｎｔｉｕｍ（登録商標）４の
レジスタ構造は、表２に挙げられる。ＧｅｔＮｅｘｔＲ
ｕｎＬｅｎアルゴリズム用の様々なプログラムパラメー
タの定義は、表３に提供される。

【００７２】（表２．一般的なレジスタ構造（ハイおよ
びロー））

【００７３】

【表２】（表３．ＧｅｔＮｅｘｔＲｕｎＬｅｎアルゴリズムにつ
いてのプログラムレファレンス）

【００７４】

【表３】（Ｂ．ＤＣＴデータ分類）図１５を参照すると、デジタ
ル映像（ＤＶ）符号化用のＤＣＴブロックを分類する方
法が示されている。この方法は、参照符号１５０で示さ
れ、工程１５１で開始し、概して、ＤＣＴブロックの分
類番号（ＣＮ）を決定する。ＣＮが様々な設計規格に基
づき得ることが理解され得る。例えば、ＣＮは、０〜３
の間の整数値を有し得、表４に示すように、ＤＣＴマト
リクスのＡＣ係数の量子化ノイズおよび最大絶対値に依
存し得る。

【００７５】（表４．クラス番号および量子化ノイズ）

【００７６】

【表４】方法の工程１５２は、並行して、（例えば）、８個のＤ
ＣＴ係数を、１２８ビットレジスタにロードする。レジ
スタは、ＸＭＭレジスタであり得る（図８）。それぞれ
が１６ビットの８個の係数を並行してロードすることに
よって、それぞれが、１６ビットを有し、レジスタに
は、１２８ビットがパックされる。同様に、工程１５２
は、並行して、８個の重み付け要素を他の１２８ビット
のレジスタにロードする。それぞれが１６ビットの８個
の重み付け要素を並行してロードすることによって、こ
のレジスタにも、１２８ビットがパックされる。

【００７７】８個の重み付け要素が、ＤＣＴ係数が縮小
するために用いられ得る、重み付けマトリクス（６４個
の重み付け要素）の一部を形成することが理解される。
重み付けマトリクスは、設計規格によって選択され得
る。各ＤＣＴ係数は、重み付けマトリクスからの対応す
る重み付け要素で乗算され得る。

【００７８】工程１５３は、ＤＣＴ係数を、対応する重
み付け要素で乗算する（表７に示すｐＤＣＴ×ｐＷ）。
乗算は、図１６および１７に示すように、模式的に行わ
れ得る。８個のＤＣＴ係数（それぞれが１６ビット）
は、レジスタ１６６にロードされ、８個の重み付け要素
（それぞれが１６ビット）は、レジスタ１６７にロード
される。対応するワード（それぞれが１６ビット）が乗
算され、積の高次の１６ビットは、放棄される。これ
は、「ローを乗算する」と呼ばれ、図１６において参照
符号１６５で示される。図に示すように、高次のビット
は、放棄され、さらなる他の１２８ビットのレジスタ
（レジスタ１６８）に、低次ビットが格納され得る。概
して、１６ビットに１６ビットを乗算する場合、積は、
３２ビットである。ローの乗算は、低次ビットが保存さ
れることを可能にする。

【００７９】同様にして、工程１５３は、レジスタ１６
６および１６７内の対応するワード（それぞれ１６ビッ
ト）を乗算して、レジスタ１７２内の積が得られ、積の
低次の１６ビットが放棄される。これは、「ハイを乗算
する」と呼ばれ、図１７において参照符号１７０で示さ
れる。ハイおよびローを乗算することによって、工程１
５３は、全てのデータ（積の高い１６ビットか、または
積の低い１６ビットのいずれか）が保存されることを可
能にする。

【００８０】ハイおよびローを乗算した後、工程１５３
は、レジスタ１６８内の得られるデータを、レジスタ１
７２内の得られるデータと結合する。データを結合させ
ることは、（ａ）レジスタ１６８内の積を１０ビット分
右にシフトすることによって、（ｂ）レジスタ１７２内
の積を６ビット分左にシフトすることによって、また
は、（ｃ）ビットごとのＯＲ演算を行ってレジスタ内の
データを結合させることによって、行われ得る。レジス
タ１６８内のビットは、整数を用いる、浮動小数点乗算
の近似に起因して、１０ビット分右にシフトされる。レ
ジスタ１７２内のビットは、６ビット分左にシフトし、
そのことにより、レジスタ１６８および１７２がビット
ごとのＯＲ演算によって結合され、値は互いに対応す
る。

【００８１】図１５に戻ると、重み付け工程を完了した
後、方法は、工程１５４において、ノイズ低減を行う。
ノイズ低減は、＋１または−１の値を有するＤＣＴ係数
を消去する。ノイズ低減は、図１８において、模式的に
示され、概して、参照符号１８０で示される。例示のた
め、８個のＤＣＴ係数は、レジスタ１８１に並行してロ
ードされ、レジスタ１８２に並行してロードされる
「１」のアレイと比較される。比較の結果は、レジスタ
１８３に示すように、同じ対応するワード要素について
は、「ＦＦＦＦ」（１０進法では−１）であり、同じで
ない対応するワード要素については、「０」である。

【００８２】この比較は、等しいワード（１６ビット、
２バイト）について、２つのＸＭＭレジスタを比較し、
第１のオペランドを、第１および第２のレジスタの対応
するワードにおいて数が等しい場合に「１」と置き換
え、等しくない場合に「０」と置き換えるＳＳＥ２命
令、すなわち、ＰＣＭＰＥＱＷによって、行われ得るこ
とが理解される。

【００８３】比較を完了した後、ノイズ低減工程は、レ
ジスタ１８３内の結果をレジスタ１８１内のＤＣＴ係数
に追加して、レジスタ１８４に示す得られるワードを生
成する（工程２）。図示するように、レジスタ１８１内
の「−１」の値のＤＣＴ係数は、ここでは、「０」にな
っている。このようにして、ノイズ低減工程は、＋１の
値を有するＤＣＴ係数を見つけ出し、消去する。

【００８４】同様に、ノイズ低減工程は、「−１」の値
を有するＤＣＴ係数を見つけだし、消去し得る。図１８
の右側を見ると、例示のため、レジスタ１８５（８ワー
ド要素、それぞれが１６ビット）にロードされている、
オリジナルの８個のＤＣＴ係数のコピーが示されてい
る。８個のＤＣＴ係数は、レジスタ１８７にロードされ
る「ＦＦＦＦ」（１０進法では−１）のアレイと比較さ
れる。レジスタ１８８に示すように、同じ対応するワー
ド要素についての比較の結果は、「ＦＦＦＦ」であり、
同じでない対応するワード要素についての比較の結果
は、「０」である。

【００８５】比較が完了した後、ノイズ低減工程は、Ｓ
ＳＥ２命令、ＰＣＭＰＥＱＷを用いて、レジスタ１８８
における結果をレジスタ１８５におけるＤＣＴ係数から
減算する。これは、レジスタ１８９内に示す結果のワー
ドを生成する。レジスタ１８５における「−１」の値を
有するＤＣＴ係数は、ここで、「０」になる。このよう
にして、「−１」値が消去され得る。

【００８６】図示されていないが、図７に示すランレン
グス値の決定の前に、工程１５４におけるノイズ低減が
行われ得ることが考えられ、ランレングス値は、「＋
１」および「−１」の値を有する係数を消去することに
よって、増加し得る。

【００８７】図１５に戻ると、この方法は、工程１５５
に進み、ＤＣＴ係数を格納する。その後、この方法は、
工程１５６に進み、格納されたＤＣＴ係数の各々の絶対
値を計算する。絶対値は、インテルソフトウェアマニュ
アルからのアルゴリズムを用いて計算され得る。その
後、この方法は、工程１５７に進み、以下に説明するよ
うに、「２５５との比較」演算および「マスキング」演
算を行う。

【００８８】「２５５との比較」演算は、図１９に模式
的に示され、参照符号１９０で示される。「２５５との
比較」演算は、ＤＣＴ係数が、２５５より大きい絶対値
を見出したか否かを見出す。ＤＶ規格に従って、ＤＣＴ
係数が、ＤＣＴブロック（８×８マトリクス）内に２５
５より大きい絶対値を有する場合、ＣＮは、３に設定さ
れ得ることが理解される。

【００８９】「２５５との比較」演算は、各々が２５５
の値を有する、８個のワードの例を用いて、８個の対応
する１６ビットワード（重み付けされ、ノイズ低減され
た絶対値）を比較する、より大きい命令（ＰＣＭＰＧＴ
Ｗ）についての比較を用い得る。例示のため、８個のＤ
ＣＴ係数が、レジスタ１９１にロードされている状態で
示されている。レジスタ１９１は、１２８ビットのＸＭ
Ｍレジスタであり得る。レジスタ１９１内の８個のＤＣ
Ｔ係数は、レジスタ１９２内の「２５５」のアレイと比
較される。比較の結果は、レジスタ１９３に示される。
レジスタ１９１内の右から４番目のＤＣＴ係数が２５５
より大きいので、レジスタ１９３内の対応するワードに
「１」（ＦＦＦＦ）が入れられる。レジスタ１９３内の
残りのワードは、「０」になる。

【００９０】工程１５７は、「２５５との比較」演算の
後に、「マスキング」演算を行う。図２０に模式的に示
し、上述したように、マスキング演算２００は、レジス
タ１９３内の各バイトの第１のビットを取り出し、レジ
スタ２０１の最後の１６ビットに格納する。レジスタ２
０１は、３２ビットレジスタ、例えば、ＥＡＸレジスタ
であり得る。従って、レジスタ１９３内の「ＦＦＦＦ」
ワード（２バイト）は、レジスタ２０１において示され
るように配置された「１１」になる。

【００９１】図２１に示す次の工程は、概して参照符号
２１０で示されるビットごとのＡＮＤ演算であり、ＣＮ
を非ゼロに設定する条件付き分岐の一部として行われ得
る。ビットごとのＡＮＤ演算は、３２ビットレジスタと
それ自体とを比較する（２つのレジスタ２１１および２
１２として模式的に示される）。レジスタ内の全てのデ
ータがゼロである場合、ＦＬＡＧレジスタ２１３は
「０」に設定され得るが、全てのデータがゼロでない場
合、ＦＬＡＧは、「１」に設定され得る。ＦＬＡＧが
「１」である場合、ＣＮは、３に設定され得る。

【００９２】決定ボックス１５９は、（上述したよう
に）任意のＤＣＴ係数が２５５より大きいか否かを決定
するために入れられる。ブロック内の任意のＤＣＴ係数
が２５５より大きい場合、この方法は、ＣＮを３に設定
する。８個のＤＣＴ係数の（以下に説明する）総ＡＣ値
は、工程１６０において更新される。この方法は、工程
１５２に戻り、ブロックから、次の８個のＤＣＴ係数を
ロードする。この方法は、重み付け、ノイズ低減、絶対
値計算、２５５との比較、マスキング、および総ＡＣ値
更新のプロセスを繰り返す。このプロセスは、全ての６
４個のＤＣＴ係数が処理されるまで、８回繰り返され
る。ＤＣＴブロックについての総ＡＣ値は、工程１６１
において計算される。また、ＤＣＴブロックの水平ＳＩ
ＤＥおよび垂直ＳＩＤＥのＡＣ値も、工程１６１におい
て計算される（以下に説明する）。

【００９３】次に、総ＡＣ値について説明する。総ＡＣ
値は、ＤＣ係数をのぞく、重み付けされたＤＣＴブロッ
ク係数の絶対値の和である。８個のＤＣＴ係数の総ＡＣ
値が計算され得る様式は、図２２〜２４に模式的に示さ
れ、概して、参照符号２２０で示される。一例として、
レジスタ２２１（１２８ビットレジスタ）が、８個の係
数がロードされた状態で示されている。パックされた乗
算加算命令（ＰＭＡＤＤＷＤ）は、８個の係数（各々が
１６ビット）を、４つのダブルワード（各々が３２ビッ
ト）アンパックするために用いられ得る。レジスタ２２
２内の「１」のアレイが用いられるので、ＤＣＴ係数値
は、乗算プロセスにおいて変化しない。乗算および加算
の結果は、レジスタ２２３において示される。ここで、
レジスタ２２３は、第１の係数と第２の係数とを加えた
値、第３の係数と第４の係数とを加えた値、第５の係数
と第６の係数とを加えた値、第７の係数と第８の係数と
を加えた値を有する、４つのダブルワードを含む。

【００９４】レジスタ２２３において、４つのダブルワ
ードを２つのクワドワードに結合するため、この方法
は、図２３のレジスタ２２４に示すように、データのコ
ピーを作る。コピーされたデータは、８バイト（２つの
ダブルワード）分シフトされ、図示するように、上の２
つのダブルワードが、下の２つのダブルワードの位置に
なる。シフトは、ＸＭＭレジスタの各ワード（１６ビッ
ト、２バイト）を算数的に右にシフトするＰＳＲＡＷ命
令によって行われ得る。レジスタ２２３内の２つのダブ
ルワードが、図示されるように、レジスタ２２４内の２
つのシフトされたダブルワードに加えられる。加えられ
た結果を、図２４のレジスタ２２５に示す。レジスタ２
２５は、ここでは、第１のダブルワードと第３のダブル
ワードとを加えた値、および第２のダブルワードと第４
のダブルワードとを加えた値を、レジスタの最後の２つ
のセルに含む。

【００９５】この方法は、２つのクワドワードをシング
ルワードに結合するために、上記のプロセスを繰り返
す。図２４に示す例において、この方法は、レジスタ２
２５内のデータをレジスタ２２６にコピーする。レジス
タ２２６内のコピーされたデータは、ＰＳＲＬＤＱ命令
を用いて、６ワード（１２バイト）分右にシフトされ得
る。ＰＳＲＬＤＱは、ＸＭＭレジスタ内の１２８ビット
のデータを第２のオペランドにおいて提示されるバイト
数へとシフトするパックされたシフト右論理二重クワド
命令である。２つのクワドワードは、（２＋Ｘ）＋（２
５６＋Ｘ）の８個の係数の総ＡＣ値を入手するために追
加される。

【００９６】図１５に戻ると、工程１６１は、水平ＳＩ
ＤＥ値および垂直ＳＩＤＥ値を計算する。図２６に示す
ように、水平ＳＩＤＥ値は、ＤＣＴブロックの第１のロ
ウにおける７個のＤＣＴ係数のＡＣ値（重み付け済）で
ある。第１のロウは、参照符号２６２で示され、ＤＣ係
数２６１を除外する。垂直ＳＩＤＥ値は、ＤＣＴブロッ
クの第１のカラムにおけるＤＣＴ係数のＡＣ値（重み付
け済）である。図に示すように、第１のカラムは、参照
符号２６３で示され、ＤＣ係数２６１を除外する。

【００９７】この方法は、上記の総ＡＣ計算の一部とし
て水平ＳＩＤＥ値を計算する。しかし、垂直ＳＩＤＥ値
は、図２５に示すように、パックされた総ＡＣの第１の
ワードから抽出され得る。（例えば）レジスタ２５１内
の第１のワードは、ＸＭＭレジスタからワード（１６ビ
ット）を抽出して、３２ビットレジスタに入れる、ＰＥ
ＸＴＲＷ命令を用いて、抽出され得る。レジスタ２５２
が汎用３２ビットレジスタであり得ることが理解され
る。ＰＥＸＴＲＷ命令は、キー（ｈｅｘｎｕｍｂｅ
ｒ）を、そのキーの値に対応する、ＸＭＭレジスタから
１６ビットワードを抽出して、３２ビットレジスタに入
れる、第３のオペランドとして用いる。

【００９８】総ＡＣ値、水平ＳＩＤＥ値、および垂直Ｓ
ＩＤＥ値が、ＤＣＴブロックについて決定された後、こ
の方法は、工程１６１において、ＳＩＤＥ値を計算す
る。ＳＩＤＥ値は、ＤＣ係数値を除く、水平ＳＩＤＥ値
および垂直ＳＩＤＥ値の和である。その後、この方法
は、工程１６２において、これらの値を用いて、クラス
番号（ＣＮ）を決定する。この方法は、工程１６３にお
いて終了する。

【００９９】ＣＮ値は、以下の通りに計算され得る。

【０１００】ＣＮ＝ＣｌａｓｓＴａｂｌｅ［Ｃｈｒｏ
ｍａ，ｉ１，ｉ２］但し、ＣｌａｓｓＴａｂｌｅは、表５に示す３×３×
４整数アレイである。

【０１０１】

【表５】Ｃｈｒｏｍａは、符号化されているＤＣＴブロックが、
輝度（Ｙ）成分ブロックであるか、あるいは、Ｕまたは
Ｖクロミナンス成分ブロックであるかを示す変数であ
る。すなわち、Ｙについては、Ｃｈｒｏｍａ＝０であ
り、Ｕについては、Ｃｈｒｏｍａ＝１であり、Ｖについ
ては、Ｃｈｒｏｍａ＝２である。ｉ１およびｉ２は、そ
れぞれ、表６に示す、アルゴリズムを用いて計算された
整数である。

【０１０２】

【表６】但し、エッジおよびセンターは、それぞれ、整数であ
り、ＤＣは、第１のロウおよび第１のカラム内のＤＣＴ
係数であり、「ＳＩＤＥ」は、ＤＣ成分を除く、第１の
ロウおよび第１のカラム内のＤＣＴ係数の和であり、
「Ｔｏｔａｌ＿ＡＣ」は、ＤＣ成分を除く、ＤＣＴ係数
の和である。

【０１０３】ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）
４プロセッサにおいて実行される場合、ＤＣＴデータ分
類１５０についてのＳＳＥ２アルゴリズムは、表７に列
挙される。ＤＣＴ分類についての各種のプログラムパラ
メータは、表８において提供される。

【０１０４】（表７．ＤＣＴデータ分類アルゴリズム）

【０１０５】

【表７】（表８．ＤＣＴデータ分類についてのプログラムレファ
レンス）

【０１０６】

【表８】（Ｃ．逆量子化計算）図２７を参照すると、逆量子化計
算の方法が示されている。この方法は、概して参照符号
２７０で示され、工程２７１において開始し、可変長デ
コーダによって復号された生ＤＣＴ係数を逆量子化す
る。この方法は、３つのマトリクス、すなわち、量子化
されたＤＣＴマトリクス、逆量子化係数マトリクス、目
盛係数マトリクスの対応する値を乗算する。目盛係数マ
トリクスは、全ての要素が単一の値に設定されているマ
トリクスである。

【０１０７】工程２７２において、この方法は、データ
を３つのレジスタにロードする。各レジスタは、例え
ば、並行して１２８ビットを格納するＸＭＭレジスタで
あり得る。例示的な実施形態において、ＸＭＭレジスタ
のそれぞれに、並行して、８個のショート整数（すなわ
ち、各１６ビット値）、すなわち、量子化されたＤＣＴ
マトリクスの８個のショート整数、逆量子化されたＤＣ
Ｔマトリクスの８個のショート整数、目盛係数マトリク
スの８個のショート整数がロードされる。

【０１０８】工程２７３において、この方法は、量子化
されたＤＣＴマトリクス（ｐＯｒｉｇｉｎで指し示され
る）の８個のショート整数を、対応する、逆量子化され
たＤＣＴマトリクスの８個のショート整数で乗算し、そ
の後、目盛係数マトリクス（ｐＳｃａｌｅで指し示され
る）の８個のショート整数で乗算する。逆量子化係数マ
トリクスは、分類計算アルゴリズムにおいて記述された
重み付けマトリクスに類似し得ることが理解される。目
盛係数は、プログラムにおけるより早い段階で、決定さ
れ得る。

【０１０９】３つのレジスタ内の要素は、分類計算アル
ゴリズムにおいて説明するように、乗算されたローであ
る。対応する要素（１６ビット）が乗算され、積の高次
１６ビットが放棄される。これは、２回行われるので、
例示的な実施形態において、各要素は、以下の通りにな
る。

【０１１０】ｐＯｒｉｇｉｎ［ｉ］＝ｐＯｒｉｇｉｎ
［ｉ］＊ｐＱｕａｎ＿ｓｔｅｐ［ｉ］＊ｐＳｃａｌｅ
［ｉ］この方法は、工程２７４において、ｐＯｒｉｇｉｎ要素
を４ビット分右にシフトする。４ビット分のシフトは、
１６の因数で除算することに等しく、逆量子化ルールを
実現する。右へのシフトは、図２８に模式的に示され、
概して参照符号２８０で示される。図示されるように、
レジスタ２８１内のビットは、右にシフトされ、（例え
ば）レジスタ２８２に示すようなシフトされたデータを
生成する。この方法は、ＸＭＭレジスタ内の各ワード
（１６ビット、２バイト）を右に算術的にシフトするＰ
ＳＲＡＷ命令を用い得る。各要素の空の高次ビットは、
データ要素のサインビットの初期値で埋められる。カウ
ントオペランドによって特定される値は、１５より大き
く、それぞれの宛先データ要素は、要素のサインビット
の初期値で埋められる。

【０１１１】ＩｎｔｅｌＰｅｎｔｉｕｍ（登録商標）
４プロセッサにおいて実行される場合の逆量子化計算に
ついてのＳＳＥ２アルゴリズムは、表９に列挙される。
逆量子化計算についての各種のプログラムパラメータの
定義は、表１０に示す。

【０１１２】（表９．逆量子化計算アルゴリズム）

【０１１３】

【表９】（表１０．逆量子化についてのプログラムレファレン
ス）

【０１１４】

【表１０】ある特定の実施形態を参照しながら、本明細書中で例示
され、説明されてきたが、本発明は、示されている細部
に限定されるものではない。むしろ、各種の改変が、本
発明の精神から逸脱することなく、特許請求の範囲の均
等物の範囲および領域内の細部に対して為され得る。例
えば、本発明は、１セットの８個のＤＣＴ係数、または
変数を１度ロードすることのみに限定されるのではな
く、係数または変数の他のセットをレジスタにロードす
ることにも適用され得る。例えば、１セットの４個のＤ
ＣＴ係数または１２個のＤＣＴ係数は、レジスタにロー
ドされ得る。さらに、ＩｎｔｅｌＰｅｎｔｉｕｍ（登
録商標）４プロセッサ以外のレジスタも本発明によって
用いられ得る。

【０１１５】映像エンコーダ／デコーダにおいて、方法
は、係数の離散コサイン変換（ＤＣＴ）ブロックを処理
する。この方法は、係数のＤＣＴブロックを受け取り、
係数のＤＣＴブロックを、連続的に配列されたＤＣＴ係
数の一次元アレイに線形化する。この方法は、ＤＣＴ係
数の一次元アレイの一部分をレジスタに格納し、部分
は、少なくとも２つの連続的に配置されたＤＣＴ係数を
含む。係数のレジスタに格納された部分が処理される。
これは、ＤＣＴブロック全体が処理されるまで繰り返さ
れる。処理は、ランレングス値の計算、クラス番号を見
出すこと、またはＤＣＴブロックの逆量子化された係数
の判定を含み得る。

【０１１６】

【発明の効果】このように、本発明の方法によれば、映
像データを処理すること、より具体的には、ＳＩＭＤに
基づくアルゴリズムを用いるマルチプル離散コサイン変
換（ＤＣＴ）係数を同時に処理することができる。

【図面の簡単な説明】

【図１】図１は、８×８ピクセルのイメージデータブロ
ックの一例を示す図である。

【図２】図２は、８×８ＤＣＴ係数のブロックの一例を
示す図である。

【図３】図３は、図２の８×８ＤＣＴ係数の量子化され
たブロックの図である。

【図４】図４は、係数のジグザグスキャン順序付けを示
す図である。

【図５】図５は、係数の別のスキャン順序付けを示す図
である。

【図６】図６は、本発明のある実施形態に従って、ＳＩ
ＭＤを用いるアルゴリズムを用いて、ＤＣＴブロックを
処理する方法に含まれる工程を示すフローチャートであ
る。

【図７】図７は、本発明の実施形態による、ＤＣＴマト
リクスにおける２つの非ゼロ値の間のゼロ値のランレン
グスを入手する、ＤＣＴブロックの係数を処理する方法
に含まれる工程を示すフローチャートである。

【図８】図８は、本発明の実施形態による、１２８ビッ
トレジスタに並行してロードされる、８個のＤＣＴ係数
（各々が１６ビット）の模式的な図である。

【図９】図９は、本発明の実施形態による、レジスタに
ロードされるＤＣＴ係数と、他のレジスタにロードされ
るゼロ値と間の比較（０との比較）の模式的な図であ
る。

【図１０】図１０は、本発明の実施形態による、１つの
レジスタからビットを抽出することと、抽出されたビッ
トを他のレジスタに格納することとを含む、マスキング
工程の模式的な図である。

【図１１】図１１は、本発明の実施形態による、１つの
レジスタからの８個のＤＣＴ係数が、他のレジスタ内の
１６ビットのマスク値に変換される、マスキングの他の
模式的な図である。

【図１２】図１２は、本発明の実施形態による、レジス
タ内のビットを乗算することによって、ＨＡＳＨＫＥ
Ｙ値を入手する工程の模式的な図である。

【図１３】図１３は、本発明の実施形態による、ルック
アップテーブルにおいて、図１２のＨＡＳＨＫＥＹ値
の位置を特定することによって、ランレングスを入手す
る工程の模式的な図である。

【図１４】図１４は、本発明の実施形態による、レジス
タ内のビットを操作することによって、残りマスク値を
更新する工程の模式的な図である。

【図１５】図１５は、本発明の実施形態による、係数の
ＤＣＴブロックを処理して、ＤＣＴブロックの分類番号
を入手する方法に含まれる工程を示すフローチャートで
ある。

【図１６】図１６は、本発明の実施形態による、１レジ
スタ内のワードを、他のレジスタ内の対応するワードと
乗算する工程の模式的な図である。

【図１７】図１７は、本発明の実施形態による、１レジ
スタ内のワードを、他のレジスタ内の対応するワードと
乗算する工程の模式的な図である。

【図１８】図１８は、＋１値または−１値を有するレジ
スタ内に格納されたＤＣＴ係数が位置している、ノイズ
低減の模式的な図である。

【図１９】図１９は、本発明の実施形態による、レジス
タ内に格納されているＤＣＴ係数を、他のレジスタに格
納されている２５５の値と比較する工程と、比較の結果
をマスキングする工程と、ＤＣＴブロックのクラス番号
を設定する、ビットごとのＡＮＤ演算を行う工程との模
式的な図である。

【図２０】図２０は、本発明の実施形態による、レジス
タ内に格納されているＤＣＴ係数を、他のレジスタに格
納されている２５５の値と比較する工程と、比較の結果
をマスキングする工程と、ＤＣＴブロックのクラス番号
を設定する、ビットごとのＡＮＤ演算を行う工程との模
式的な図である。

【図２１】図２１は、本発明の実施形態による、レジス
タ内に格納されているＤＣＴ係数を、他のレジスタに格
納されている２５５の値と比較する工程と、比較の結果
をマスキングする工程と、ＤＣＴブロックのクラス番号
を設定する、ビットごとのＡＮＤ演算を行う工程との模
式的な図である。

【図２２】図２２は、本発明の実施形態による、格納さ
れた値を第２のレジスタにコピーし、コピーされた値を
第２のレジスタにシフトし、第１のレジスタ内の値に第
２のレジスタにおいてシフトされた値を加算することに
よって、第１のレジスタに格納される、８個のＤＣＴ係
数のＴｏｔａｌＡＣ値を入手する工程の模式的な図で
ある。

【図２３】図２３は、本発明の実施形態による、格納さ
れた値を第２のレジスタにコピーし、コピーされた値を
第２のレジスタにシフトし、第１のレジスタ内の値に第
２のレジスタにおいてシフトされた値を加算することに
よって、第１のレジスタに格納される、８個のＤＣＴ係
数のＴｏｔａｌＡＣ値を入手する工程の模式的な図で
ある。

【図２４】図２４は、本発明の実施形態による、格納さ
れた値を第２のレジスタにコピーし、コピーされた値を
第２のレジスタにシフトし、第１のレジスタ内の値に第
２のレジスタにおいてシフトされた値を加算することに
よって、第１のレジスタに格納される、８個のＤＣＴ係
数のＴｏｔａｌＡＣ値を入手する工程の模式的な図で
ある。

【図２５】図２５は、本発明の実施形態による、１２８
ビットレジスタにおいて、第１のワード（１６ビット）
を抽出し、抽出されたビットを他のレジスタに格納する
工程の模式的な図である。

【図２６】図２６は、ブロックの第１のロウおよびブロ
ックの第１のカラムを強調している、係数のＤＣＴブロ
ックの模式的な図である。

【図２７】図２７は、本発明の実施形態による、係数の
逆量子化されたブロックを入手する係数のＤＣＴブロッ
クを処理する方法に含まれる工程を示すフローチャート
である。

【図２８】図２８は、本発明の実施形態による、１６の
因数での除算演算を行う、レジスタ内の値を、４ビット
分右にシフトする工程の模式的な図である。

【符号の説明】

８０データロード９００との比較１００マスキング１２０ＨＡＳＨＫＥＹゲット

───────────────────────────────────────────────────── フロントページの続き (72)発明者アントンマーゴリンアメリカ合衆国ニューヨーク 11235, ブルックリン４シー，オーシャンドライブウエスト 130 (72)発明者デニスブッシュミッチアメリカ合衆国ニュージャージー 08873，ソマーセット，マトルックプレイス 183 Ｆターム(参考） 5B056 BB11 FF00 HH03 5C059 KK13 MA23 MC11 UA02 UA05 UA25 5J064 AA02 BA08 BA16 BB05 BC04 BC09 BC16 BD01

Claims

【特許請求の範囲】

【請求項１】係数の離散コサイン変換（ＤＣＴ）ブロ
ックを処理する方法であって、（ａ）係数のＤＣＴブロックを受け取る工程と、（ｂ）係数のＤＣＴブロックを、連続的に配列されたＤ
ＣＴ係数の一次元アレイに線形化する工程と、（ｃ）該ＤＣＴ係数の一次元アレイの一部分を第１のレ
ジスタに同時に格納し、該部分は、少なくとも２つの連
続的に配置されたＤＣＴ係数を含む、工程と、（ｄ）該ＤＣＴ係数の第１のレジスタに格納された部分
を同時に処理する工程であって、該処理する工程は、該
ＤＣＴ係数の第１のレジスタに格納された部分と、該Ｄ
ＣＴ係数の第２のレジスタに格納された部分とを比較す
る工程を含む、工程と、（ｅ）一次元アレイにおけるＤＣＴ係数の次の部分につ
いて、工程（ｃ）および（ｄ）を繰り返して、該係数の
ＤＣＴブロックの処理を完了する工程と、（ｆ）該処理の結果を映像エンコーダ／デコーダに提供
する工程とを含む、方法。
【請求項２】前記工程（ｄ）が、前記第１のレジスタ
に格納されたゼロ値を有する、複数の連続的に配置され
たＤＣＴ係数を決定する工程を含む、請求項１に記載の
方法。
【請求項３】前記工程（ｄ）が、前記第１のレジスタ
に格納された前記ＤＣＴ係数を、前記第２のレジスタに
格納された１セットのゼロ値と同時に比較する工程を含
む、請求項２に記載の方法。
【請求項４】前記工程（ｄ）が、前記第１のレジスタ
に格納された前記ＤＣＴ係数を、前記第２のレジスタに
格納された１セットのゼロ値と同時に比較して、該比較
の結果を格納する工程を含み、マスキング演算を比較の結果を適用して、ＨＡＳＨＫ
ＥＹを入手し、ＨＡＳＨＫＥＹを第３のレジスタに格
納する工程と、ＨＡＳＨＫＥＹを用いて、ランレングステーブルにイ
ンデックスを付けて、該第１のレジスタに格納された、
ゼロ値を有する連続的に配置されたＤＣＴ係数の数を決
定する工程と、を含む、請求項２に記載の方法。
【請求項５】前記工程（ｄ）が、ＩｎｔｅｌＰｅｎ
ｔｉｕｍ（登録商標）４プロセッサ用の単一命令マルチ
プルデータエクステンション２（ＳＳＥ２）を用いて、
前記ＤＣＴ係数の前記格納された部分を処理する工程を
含む、請求項４に記載の方法。
【請求項６】前記工程（ａ）が、６４個の係数のＤＣ
Ｔブロックを受け取る工程を含み、前記工程（ｃ）が、８個のＤＣＴ係数を前記第１のレジ
スタに格納する工程を含む、請求項１に記載の方法。
【請求項７】係数の離散コサイン変換（ＤＣＴ）ブロ
ックを処理する方法であって、（ａ）係数のＤＣＴブロックを受け取る工程と、（ｂ）係数のＤＣＴブロックを、連続的に配列されたＤ
ＣＴ係数の一次元アレイに線形化する工程と、（ｃ）該ＤＣＴ係数の一次元アレイの一部分を第１のレ
ジスタに同時に格納し、該部分は、少なくとも２つの連
続的に配置されたＤＣＴ係数を含む、工程と、（ｄ）重み付け要素を第２のレジスタに格納する工程で
あって、重み付け要素の各々は、該第１のレジスタに格
納されたそれぞれのＤＣＴ係数に対応する、工程と、（ｅ）該第２のレジスタに格納された重み付け要素の各
々を、該第１のレジスタに格納されたそれぞれのＤＣＴ
係数と同時に乗算する工程とを含む、方法。
【請求項８】前記重み付け要素と前記ＤＣＴ係数との
乗算の対応する積が、高次ビットおよび低次ビットを含
む方法であって、前記工程（ｅ）が、対応する積の高次ビットを放棄し、該対応する積の低次
ビットを第３のレジスタに格納する工程と、対応する積の低次ビットを放棄し、該対応する積の高次
ビットを第４のレジスタに格納する工程と、該第３のレジスタに格納されたビットを所定のビット数
分右にシフトして、該第４のレジスタに格納されたビッ
トを他の所定のビット数分左にシフトする、工程と、ビットごとのＯＲ演算によって、該第３のレジスタ内の
残りのビットを、対応する、該第４のレジスタ内の残り
のビットと結合する工程とをさらに含む、請求項７に記
載の方法。
【請求項９】前記工程（ｅ）が、（ｉ）前記重み付け要素の各々と前記対応するＤＣＴ係
数との積を、第３のレジスタに格納する工程と、（ｉｉ）該第３のレジスタに格納された積が、−１の値
を含むか否かを判定する工程と、（ｉｉｉ）該第３のレジスタに格納された積が、＋１の
値を含むか否かを判定する工程と、（ｉｖ）該第３のレジスタにおいて、工程（ｉｉ）にお
いて判定された該−１の値と、工程（ｉｉｉ）において
判定された該＋１の値とを、それぞれ、ゼロの値と置き
換える工程とを含む、請求項７に記載の方法。
【請求項１０】前記工程（ｅ）が、前記重み付けされた要素の各々と、前記対応するＤＣＴ
係数との積を、第３のレジスタに格納する工程と、前記第３のレジスタに格納された積が、２５５より大き
い値を含むか否かを判定する工程とを含む、請求項７に
記載の方法。
【請求項１１】前記工程（ｅ）が、（ｉ）前記重み付け要素の各々と、前記対応するＤＣＴ
係数との積を、第３のレジスタに格納する工程と、（ｉｉ）該第３のレジスタに格納された積を、第４のレ
ジスタにコピーする工程と、（ｉｉｉ）所定数のビット分、該第４のレジスタにコピ
ーされた積をシフトする工程と、（ｉｖ）該第３のレジスタに格納されている積と、該第
４のレジスタにコピーされた積のシフトされたビットと
を加算する工程とを含む、請求項７に記載の方法。
【請求項１２】映像エンコーダ／デコーダ内の係数の
ＤＣＴブロックのランレングス値を入手する方法であっ
て、（ａ）係数のＤＣＴブロックを受け取る工程と、（ｂ）係数のＤＣＴブロックを、連続的に配列されたＤ
ＣＴ係数の一次元アレイに線形化する工程と、（ｃ）該ＤＣＴ係数の一次元アレイの一部分をレジスタ
に格納し、該部分は、少なくとも２つの連続的に配置さ
れたＤＣＴ係数を含む、工程と、（ｄ）該ＤＣＴ係数の一次元アレイの一部分を、他のレ
ジスタに格納された１セットのゼロ値と同時に比較する
工程と、（ｅ）該ＤＣＴ係数のランレングス値を、該工程（ｄ）
の該比較に応じて、決定する工程とを含む、方法。
【請求項１３】（ｆ）前記工程（ｃ）〜（ｅ）を、一
次アレイにおけるＤＣＴ係数の次の部分について繰り返
す工程と、（ｇ）該工程（ｆ）を完了した後、ランレングス値を更
新する工程とをさらに含む、請求項１２に記載の方法。
【請求項１４】前記工程（ｄ）が、マスク関数を、前
記比較の結果に適用して、ＨＡＳＨＫＥＹを入手する
工程を含み、前記工程（ｅ）が、ＨＡＳＨＫＥＹを用いて、テーブ
ルにインデックスを付ける工程を含む、請求項１２に記
載の方法。
【請求項１５】前記工程（ａ）が、６４個の係数のＤ
ＣＴブロックを受け取る工程を含み、前記工程（ｃ）が、８個のＤＣＴ係数を該第１のレジス
タに格納する工程を含む、請求項１２に記載の方法。
【請求項１６】前記レジスタが１２８ビットレジスタ
であり、前記工程（ｃ）が８個の連続的に配置されたＤＣＴ係数
を格納する工程を含み、それぞれのＤＣＴ係数が、１６
ビット値を有する、請求項１５に記載の方法。
【請求項１７】前記工程（ｄ）が、前記比較工程の前
に、前記レジスタに格納されたＤＣＴ係数が、−１の値を含
むか否かを判定する工程と、該レジスタに格納されたＤＣＴ係数が、＋１の値を含む
か否かを判定する工程と、該レジスタにおいて、該判定された−１の値と、該判定
された＋１の値とを、それぞれ、対応するゼロの値と置
き換える工程とを含む、請求項１２に記載の方法。
【請求項１８】映像エンコーダ／デコーダ内の係数の
ＤＣＴブロックのクラス番号を入手する方法であって、（ａ）係数のＤＣＴブロックを受け取る工程と、（ｂ）係数のＤＣＴブロックを、連続的に配列されたＤ
ＣＴ係数の一次元アレイに線形化する工程と、（ｃ）該ＤＣＴ係数の一次元アレイの一部分をレジスタ
に格納し、該部分は、少なくとも２つの連続的に配置さ
れたＤＣＴ係数を含む、工程と、（ｄ）該レジスタ内に格納されたＤＣＴ係数の各々を重
み付けする工程と、（ｅ）該重み付けされたＤＣＴ係数の各々の絶対値を入
手する工程と、（ｆ）該重み付けされたＤＣＴ係数の各々の絶対値を比
較する工程と、（ｇ）該工程（ｆ）において、比較されたＤＣＴ係数の
うち、所定の値より大きいＤＣＴ係数がある場合、該Ｄ
ＣＴブロックを、第１の所定のクラス番号で分類する工
程とを含む、方法。
【請求項１９】前記工程（ａ）は、６４個の係数のＤ
ＣＴブロックを受け取る工程を含み、前記工程（ｃ）は、８個のＤＣＴ係数を第１のレジスタ
に格納する工程を含む、請求項１８に記載の方法。
【請求項２０】前記レジスタが、１２８ビットレジス
タであり、前記工程（ｃ）が８個の連続的に配置されたＤＣＴ係数
を格納する工程を含み、それぞれのＤＣＴ係数が、１６
ビット値を有する、請求項１９に記載の方法。
【請求項２１】（ｈ）前記工程（ｄ）において前記Ｄ
ＣＴ係数の各々を重み付けした後、前記ＤＣＴ係数につ
いて、ＡＣエネルギー値を計算する工程と、（ｉ）第２の所定のクラス番号で、前記工程（ｈ）にお
いて計算される該ＡＣエネルギー値に基づいて、分類す
る工程とをさらに含む、請求項１８に記載の方法。
【請求項２２】映像デコーダ内のＤＣＴブロックを逆
量子化する方法であって、（ａ）該ＤＣＴブロックの一部を格納する工程であっ
て、該部分は、少なくとも２つのＤＣＴ係数を含む、工
程と、（ｂ）重み付けの値を第２のレジスタに格納する工程
と、（ｃ）第１のレジスタに格納された各ＤＣＴ係数を、該
第２のレジスタ内の対応する重み付けされた値を乗算し
て、係数の逆量子化されたＤＣＴブロックを入手する工
程とを含む、方法。
【請求項２３】前記ＤＣＴブロックは、６４個の係数
を含み、前記工程（ａ）は、８個のＤＣＴ係数を第１のレジスタ
に格納する工程を含む、請求項２２に記載の方法。
【請求項２４】前記第１のレジスタが、１２８ビット
レジスタであり、前記工程（ａ）が８個の連続的に配置されたＤＣＴ係数
を該第１のレジスタに格納する工程を含み、それぞれの
ＤＣＴ係数が、１６ビット値を有する、請求項２３に記
載の方法。