JP2012529129A

JP2012529129A - メディアコード化のための４×４変換

Info

Publication number: JP2012529129A
Application number: JP2012514203A
Authority: JP
Inventors: レズニク、ユリー
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2009-06-05
Filing date: 2010-06-04
Publication date: 2012-11-15
Anticipated expiration: 2030-06-04
Also published as: US20100312811A1; US8762441B2; KR101315562B1; KR20120026603A; WO2010141903A2; JP5497164B2; CN102713895B; WO2010141903A3; EP2438536A2; TW201108743A; CN102713895A

Abstract

メディアコード化のための４×４変換を提供する技術を記述する。これらの技術にしたがう多数の異なる４×４変換を記述する。１つの例として、装置は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットを含む。ＤＣＴハードウェアユニットは、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を有する、直交の４×４ＤＣＴを実現する。４×４ＤＣＴハードウェアユニットは、４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換する。別の例として、装置は、非直交の４×４ＤＣＴ構成を実現して、コード化利得を改善させる。

Description

優先権の主張

本出願は、２００９年６月５日に出願された米国仮出願第６１／１８４，６５６号と、２００９年６月２４日に出願された米国仮出願第６１／２１９，８８７号との利益を主張する。

特許に対する本出願は、本出願の譲受人に譲渡され、参照により明白にここに組み込まれ、同時に出願された、代理人ドケット第０９２１６４Ｕ１号を有する、同時継続中の米国特許出願“メディアコード化のための４×４変換”に関連する。

本開示は、データ圧縮に関し、より詳細には、変換を伴うデータ圧縮に関する。

背景

データ記憶空間、送信帯域幅、あるいはその両方の消費を低減させるために、データ圧縮が、さまざまなアプリケーションにおいて広く使用されている。データ圧縮の例示的な適用は、デジタルビデオ、画像、スピーチおよびオーディオの、コード化のような、可視または可聴のメディアデータのコード化を含む。例えば、デジタルビデオのコード化は、デジタルテレビ、デジタル直接放送システム、ワイヤレス通信デバイス、パーソナルデジタルアシスタント（ＰＤＡ）、ラップトップまたはデスクトップコンピュータ、デジタルカメラ、デジタル記録デバイス、ビデオゲームデバイス、セルラまたは衛星無線電話機、あるいは、これらに類似するものを含む、広範囲のデバイスにおいて使用されている。デジタルビデオデバイスは、ＭＰＥＧ−２、ＭＰＥＧ−４、または、Ｈ．２６４／ＭＰＥＧ−４ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）のような、ビデオ圧縮技術を実現して、より効率的にデジタルビデオを送信および受信する。

一般に、ビデオ圧縮技術は、空間的予測、動き推定および動き補償を実行して、ビデオデータに固有の冗長性を低減させるか、または、取り除く。特に、イントラコード化は、空間的予測に依拠して、所定のビデオフレーム内のビデオ中の空間的冗長性を低減させるかまたは取り除く。インターコード化は、時間的予測に依拠して、近接したフレーム内のビデオ中の時間的冗長性を低減させるかまたは取り除く。インターコード化に対して、ビデオエンコーダは、動き推定を実行して、２つ以上の近接フレーム間の、整合するビデオブロックの動きを追跡する。動き推定は、動きベクトルを発生させ、動きベクトルは、１つ以上の参照フレーム中の対応するビデオブロックに対する、ビデオブロックの変位を示す。動き補償は、動きベクトルを使用して、参照フレームから予測ビデオブロックを生成させる。動き補償後に、元のビデオブロックから予測ビデオブロックを減算することにより、残差ビデオブロックが形成される。

ビデオエンコーダは次に、量子化および無損失統計コード化プロセスが後に続く変換を適用して、ビデオコード化プロセスにより生成される残差ブロックのビットレートをさらに低減させる。いくつかの例において、適用される変換は、離散コサイン変換（ＤＣＴ）を含む。通常、ＤＣＴは、（“４×４ビデオブロックと呼ばれることが多い）高さ４画素、幅４画素であるビデオブロックのような、サイズが２の累乗であるビデオブロックに適用される。それゆえに、これらのＤＣＴが、４×４ビデオブロックに適用されて、ＤＣＴ係数の４×４行列が生成されるという点において、これらのＤＣＴは、４×４ＤＣＴと呼ばれ得る。４×４ＤＣＴを残差ブロックに適用することから生成される、ＤＣＴ係数の４×４行列は、量子化および無損失統計コード化プロセスを受けて、ビットストリームを発生させる。（“エントロピーコード化”プロセスとしても知られている）統計コード化の例は、コンテキスト適応可変長コード化（ＣＡＶＬＣ）またはコンテキストバイナリ算術コード化（ＣＡＢＡＣ）を含む。ビデオデコーダは、エンコードされたビットストリームを受信し、無損失デコーディングを実行して、ブロックのそれぞれに対する残差情報を復元する。残差情報および動き情報を使用して、ビデオデコーダは、エンコードされたビデオを再構築する。

概要

一般に、本開示は、従来の４×４離散コサイン変換（ＤＣＴ）に比べてコード化利得の増加を提供する、近似の４×４ＤＣＴの１つ以上の構成を使用して、メディアデータのようなデータをコード化する技術に向けられている。本開示の技術にしたがって適用される４×４ＤＣＴの構成は、スケーリングされたファクタと、内部ファクタとの間のさまざまな関係を伴う。用語“スケーリングされたファクタ”は、因数分解によって取り除かれる、４×４ＤＣＴの構成から外部のファクタを指す。用語“内部ファクタ”は、因数分解後にとどまる、４×４ＤＣＴの構成内部のファクタを指す。４×４ＤＣＴの１つの例示的な構成は、直交であり、直交は、４×４ＤＣＴを表す係数の行列が、この行列の転置により乗算されるときに、恒等行列に等しくなることを意味する。４×４ＤＣＴの別の例示的な構成は、ほぼ直交（または、おおよそ直交）である。以下で詳細に記述されるさまざまな関係に従うことにより、本技術は、両方の例において、行列の係数の選択を容易にし、データに適用されるとき、従来の４×４ＤＣＴと比べてコード化利得の増加を促進し得る、直交およびほぼ直交の４×４ＤＣＴ構成をもたらす。

１つの観点において、装置は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、前記スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を有する直交の４×４ＤＣＴを実現する、４×４ＤＣＴハードウェアユニットを備える。４×４ＤＣＴハードウェアユニットは、４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換する。

別の観点において、方法は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、直交の４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換することを含む。直交の４×４ＤＣＴ構成は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む。

別の観点において、装置は、直交の４×４離散コサイン変換（ＤＣＴ）構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する手段を備える。直交の４×４ＤＣＴ構成は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む。

別の観点において、非一時的コンピュータ読み取り可能記憶媒体は命令を記憶しており、プロセッサにより実行されるとき、命令は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、直交の４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換することをプロセッサに生じさせる。直交の４×４ＤＣＴ構成は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む。

別の観点において、装置は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を有する直交の４×４ＤＣＴの逆離散コサイン変換を実現する、４×４ＩＤＣＴハードウェアユニットを備える。４×４ＩＤＣＴハードウェアユニットは、４×４ＩＤＣＴ構成を、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換する。

別の観点において、方法は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、直交の４×４ＤＣＴの４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換することを含む。直交の４×４ＤＣＴは、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む。

別の観点において、装置は、直交の４×４ＤＣＴの４×４逆離散コサイン変換（ＩＤＣＴ）を、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換する手段を備える。直交の４×４ＤＣＴは、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む。

別の観点において、非一時的コンピュータ読み取り可能記憶媒体は命令を記憶しており、プロセッサにより実行されるとき、命令は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、直交の４×４ＤＣＴの４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換することをプロセッサに生じさせる。直交の４×４ＤＣＴは、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタに関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む。

別の観点において、装置は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットを備え、ＤＣＴモジュールは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を有する非直交の４×４ＤＣＴを実現する。変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す。４×４ＤＣＴハードウェアユニットは、４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する。

別の観点において、方法は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域にメディアデータを変換することを含む。非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を含む。変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す方法。

別の観点において、装置は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域にメディアデータを変換する手段を備える。非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を含む。変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す。

別の観点において、非一時的コンピュータ読み取り可能記憶媒体は命令を記憶しており、プロセッサにより実行されるとき、命令は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域にメディアデータを変換することをプロセッサに生じさせる。非直交の４×４ＤＣＴは、以下の等式

別の観点において、装置は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットを備える。ＩＤＣＴハードウェアユニットは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を有する非直交の４×４ＤＣＴの逆ＤＣＴを実現する。変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す。４×４ＩＤＣＴハードウェアユニットは、４×４ＩＤＣＴ構成を、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換する。

別の観点において、方法は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換することを含む。４×４ＩＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を有する非直交の４×４ＤＣＴのＩＤＣＴを含む。変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す。

別の観点において、装置は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換する手段を備える。４×４ＩＤＣＴは、以下の等式

別の観点において、非一時的コンピュータ読み取り可能記憶媒体が命令を記憶しており、プロセッサにより実行されるとき、命令は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換することをプロセッサに生じさせる。４×４ＩＤＣＴは、以下の等式

別の観点において、装置は、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を有する非直交の４×４離散コサイン変換（ＤＣＴ）を実現する４×４ＤＣＴハードウェアユニットを備える。スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、第１の内部ファクタ（Ａ）と第２の内部ファクタ（Ｂ）との合計に等しい。４×４ＤＣＴハードウェアユニットは、４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換する。

別の観点において、方法は、４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを含む。非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を含み、スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、第１の内部ファクタ（Ａ）と第２の内部ファクタ（Ｂ）との合計に等しい。

別の観点において、装置は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットを備える。４×４ＩＤＣＴハードウェアユニットは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を有する非直交の４×４ＤＣＴのＩＤＣＴを実現する。スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、第１の内部ファクタ（Ａ）と第２の内部ファクタ（Ｂ）との合計に等しく、４×４ＩＤＣＴハードウェアユニットは、４×４ＩＤＣＴ構成を、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換する。

別の観点において、方法は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換することを含む。ＩＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を有する非直交の４×４ＤＣＴのＩＤＣＴを含み、スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、第１の内部ファクタ（Ａ）と第２の内部ファクタ（Ｂ）との合計に等しい。

別の観点において、装置は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換する手段を備える。ＩＤＣＴは、以下の等式

別の観点において、非一時的コンピュータ読み取り可能記憶媒体は命令を記憶しており、プロセッサにより実行されるとき、命令は、４×４逆離散コサイン変換（ＩＤＣＴ）ハードウェアユニットにより、４×４ＩＤＣＴを、メディアデータを表すＤＣＴ係数に適用して、周波数領域から空間領域にメディアデータを変換することをプロセッサに生じさせる。ＩＤＣＴは、以下の等式

本技術の１つ以上の観点の詳細は、添付図面と、以下の詳細な説明において示される。本開示中で記述される技術の他の特徴、目的および利点は、詳細な説明、図面および特許請求の範囲から明らかになるであろう。

図１は、ビデオエンコーディングおよびデコーディングのシステムを図示するブロック図である。図２は、より詳細に、図１のビデオエンコーダを図示するブロック図である。図３は、より詳細に、図１のビデオデコーダを図示するブロック図である。図４Ａは、本開示の技術にしたがって構築される、スケーリングされた４×４ＤＣＴ−ＩＩの構成を図示する図である。図４Ｂは、本開示の技術にしたがって構築される、スケーリングされた４×４ＤＣＴ−ＩＩの構成を図示する図である。図４Ｃは、本開示の技術にしたがって構築される、スケーリングされた４×４ＤＣＴ−ＩＩの構成を図示する図である。図５は、本開示の技術にしたがって構築される４×４ＤＣＴ構成を適用する際の、コード化デバイスの例示的な動作を説明するフローチャートである。図６は、本開示の技術にしたがって構築される４×４ＤＣＴ−ＩＩＩ構成を適用する際の、コード化デバイスの例示的な動作を説明するフローチャートである。図７Ａは、本開示の技術にしたがって構築される４×４ＤＣＴ−ＩＩ構成に対する、ビットレートに対するピーク信号対雑音比のグラフを図示する図である。図７Ｂは、本開示の技術にしたがって構築される４×４ＤＣＴ−ＩＩ構成に対する、ビットレートに対するピーク信号対雑音比のグラフを図示する図である。図７Ｃは、本開示の技術にしたがって構築される４×４ＤＣＴ−ＩＩ構成に対する、ビットレートに対するピーク信号対雑音比のグラフを図示する図である。

詳細な説明

一般に、本開示は、さまざまな関係にしたがって選択された係数の４×４行列として表される、１つ以上の４×４離散コサイン変換（ＤＣＴ）を使用して、データをコード化する技術に向けられている。本技術を適用して、デジタルビデオデータ、画像データ、スピーチデータおよび／またはオーディオデータのような、可視または可聴のメディアデータを含む、さまざまなデータを圧縮して、それによって、そのようなデータを表すそのような電気信号を、電気信号のより効率的な処理、送信またはアーカイブのために圧縮信号に変換してもよい。本開示の技術にしたがって規定されたさまざまな関係に従うことにより、データに対して適用されるとき、４×４ＤＣＴの直交およびほぼ直交の構成が、コード化利得の増加を促進するように、係数行列に対して係数を選択してもよい。

上記のサイズ、すなわち、４×４が、離散データの単位の点で表される。説明するために、ビデオデータは、ビデオブロックの点で、特に、ビデオ圧縮に関して説明されることが多い。ビデオブロックは一般に、ビデオフレームの任意のサイズの部分を指し、ビデオフレームは、一連のピクチャまたは画像における、ピクチャまたは画像を指す。各ビデオブロックは通常、複数の離散画素データを含み、離散画素データは、例えば、赤、青および緑のような色成分（いわゆる、“色度”または“クロマ”成分）、あるいは、輝度成分（いわゆる、“ルーマ”成分）のいずれかを示す。各組の画素データは、ビデオブロック中の単一の１×１点を構成し、ビデオブロックに関して離散データの単位と考えてもよい。したがって、例えば、４×４ビデオブロックは、各行中に４つの離散的な組の画素データを有する、４つの行の画素データから成り立っている。ｎビットの値を各画素に割り当てて、色または輝度の値を指定してもよい。

オーディオデータであろうと、スピーチデータであろうと、画像データであろうと、または、ビデオデータであろうと、ＤＣＴは、ＤＣＴが処理できるデータのブロックのサイズの点で一般に記述される。例えば、ＤＣＴが、４×４のデータのブロックを処理できる場合、ＤＣＴは、４×４ＤＣＴと呼ばれてもよい。さらに、特定のタイプとして、ＤＣＴを表してもよい。８の異なるタイプのＤＣＴの、最も一般に用いられるタイプのＤＣＴは、タイプ−ＩＩのＤＣＴであり、“ＤＣＴ−ＩＩ”として表してもよい。一般にＤＣＴに言及するとき、そのような言及は、タイプＩＩのＤＣＴすなわちＤＣＴ−ＩＩを指すことが多い。ＤＣＴ−ＩＩの逆は、タイプＩＩＩのＤＣＴと呼ばれ、同様に、“ＤＣＴ−ＩＩＩ”と表されることがあり、または、ＤＣＴがＤＣＴ−ＩＩを指す共通の理解により、“ＩＤＣＴ”として表されることもある。ここで、“ＩＤＣＴ”中の“Ｉ”は、逆を表す。以下のＤＣＴに対する言及は、この表記に従い、特に指定がない限り、ＤＣＴに対する一般的な言及は、ＤＣＴ−ＩＩを指す。しかしながら、混乱を回避するために、ＤＣＴ−ＩＩを含むＤＣＴは、たいてい、対応するタイプ（ＩＩ、ＩＩＩなど）を示して以下で言及される。

本開示中で記述される技術は、４×４ＤＣＴ−ＩＩの１つ以上の構成を用いて、データの圧縮および／または復元を容易にする、エンコーダおよび／またはデコーダの両方を伴う。繰り返すが、これらの４×４ＤＣＴ−ＩＩ構成を適用することによって達成される圧縮および復元は、物理的計算ハードウェア、物理的送信媒体（例えば、銅、光ファイバ、ワイヤレスまたは他の媒体）および／または記憶ハードウェア（例えば、磁気または光のディスクまたはテープ、あるいは、任意のさまざまな固体媒体）を使用して、信号をより効率的に、処理、送信および／または記憶できるように、データを表す電気信号の物理的変換を可能にする。前記構成は、ハードウェア中で単独で構成されてもよく、または、ハードウェアおよびソフトウェアの組み合わせにおいて構成されてもよい。

４×４ＤＣＴ−ＩＩの構成は、直交または、ほぼ直交であってもよい。用語“直交”は、行列の転置により乗算されるときに、行列が、恒等行列に等しくなる行列全般の特性を指す。用語“ほぼ直交”は、この直交の特性が緩和される場合を指し、それにより、厳格な直交性は要求されない。この点で、“ほぼ直交”は、おおよそまたはゆるく直交することを示唆する。しかしながら、ほぼ直交の行列は、直交の技術的定義を満たさず、そのようなほぼ直交の行列を、純然たる技術的観点から、非直交と考えてもよい。

本開示において記述される４×４ＤＣＴ−ＩＩの直交の構成を説明するために、４×４ＤＣＴモジュールを含む装置を考える。４×４ＤＣＴモジュールは、本開示中で記述される技術にしたがって構築される直交の４×４ＤＣＴ−ＩＩを実現する。この直交の４×４ＤＣＴ−ＩＩの構成は、奇数部と偶数部とを含む。いわゆる、４×４ＤＣＴ−ＩＩの“奇数部”は、奇数番号の係数を出力する、４×４ＤＣＴ−ＩＩ構成の部分を指す。いわゆる、４×４ＤＣＴ−ＩＩの“偶数部”は、偶数番号の係数を出力する、４×４ＤＣＴ−ＩＩ構成の部分を指す。

本開示の技術にしたがうと、奇数部は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、スケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタＣ、Ｓを適用する。用語“内部ファクタ”は、因数分解後に留まる、４×４ＤＣＴの構成内部のファクタを指す。用語“スケーリングされたファクタ”は、因数分解によって取り除かれる、４×４ＤＣＴの構成から外部のファクタを指す。

内部ファクタは一般に、構成の複雑さの点で、費用がかかるかもしれない乗算を必要とすることにより、構成の複雑さを増加させる。例えば、乗算は、より単純な加算よりも、完了するのに３倍またはより大きな倍数の計算動作（例えば、クロックサイクル）を必要とするかもしれない。特定の乗算器を実現して、より効率的に（例えば、より少ないクロックサイクルで）乗算を実行してもよいが、これらの乗算器は通常、チップまたはシリコンの表面積を著しく多く消費し、さらに、大きな電力量を消費するかもしれない。それゆえに、特に、セルラ電話機、いわゆる“スマート”セルラ電話機、パーソナルデジタルアシスタント（ＰＤＡ）、ラップトップコンピュータ、いわゆる“ネットブック”および、これらに類似するものを含む、ほとんどの移動デバイスのような、電力に敏感なデバイスにおいて、ファクタによる乗算は、回避されることが多い。因数分解は、それによって、１つ以上の内部ファクタを、４×４ＤＣＴ−ＩＩ構成から取り除き、外部ファクタに置き換えるプロセスである。例えば、ビデオエンコーダに関して、通常、複雑さにおける最小の費用または増加により、外部ファクタを、後続の量子化動作中に組み込むことができる。

いずれにしても、上記の、第１および第２の内部ファクタＣ、Ｓと、スケーリングされたファクタ（ξ）との間の上述の関係は、４×４ＤＣＴ−ＩＩの以前の構成において使用されていない内部ファクタの特定の値を提供する。例えば、それぞれ、２および５の、内部ファクタＣおよびＳに対する値は、構成の複雑さを過度に増加させず、ＣおよびＳに対して１および２の値を伴う既知の４×４ＤＣＴ構成に比べて、コード化利得に改良を加える。ビデオエンコーダは次に、内部ファクタ２および５を有する４×４ＤＣＴ−ＩＩ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換する。この直交の４×４ＤＣＴ−ＩＩ構成を適用することにより、１および２の内部ファクタを含む標準のＤＣＴ−ＩＩ構成と比較したとき、本技術は、（圧縮効率を表す用語である）コード化利得を促進する。

直交性は、それが可逆であることから、ＤＣＴ−ＩＩ構成に関して一般に望まれる。１つの例として、この可逆の特性により、ビデオエンコーダは、直交の４×４ＤＣＴ構成を適用して、ビデオデータの残差ブロックから、ＤＣＴ係数を生成させることが可能になる。ビデオデコーダは次に、４×４逆ＤＣＴ−ＩＩ（ＩＤＣＴ）構成を適用して、データ中の何らかの損失をほとんど伴わずに、ＤＣＴ−ＩＩ係数から、ビデオデータの残差ブロックを再構築できる。ビデオエンコーディングの主な目標が、データの保存であることを考えると、Ｈ．２６４ビデオコード化標準規格のような、さまざまなコード化標準規格は、４×４ＤＣＴの直交の構成を採用している。

直交性は一般に、理論上は望まれるが、実際は、ビデオ、オーディオまたは一般のコード化パイプラインは、いわゆる“雑音”を持ち込む多数のステップを伴い、雑音は、ほとんどの点において、直交の４×４ＤＣＴ−ＩＩ構成により提供される値の正確な再構築を有効に妨げる。整数演算の構成を考えると、ほぼ直交の変換が、コード化効率を改善させ、また、一方で、厳密に直交の整数変換と比較して、構成の複雑さを低減させる可能性がある。事実上、直交の特性を緩和することは、雑音をシステムに持ち込むが、コード化利得を改善する一方で、構成の複雑さを低減させる可能性がある。

本開示中で記述される、４×４ＤＣＴ−ＩＩのほぼ直交の構成を説明するために、装置の４×４ＤＣＴモジュールが、本開示中で記述される技術にしたがって構築される、このほぼ直交の４×４ＤＣＴ−ＩＩを実現すると考える。このほぼ直交の４×４ＤＣＴ−ＩＩ構成はまた、奇数部と偶数部とを含む。この例における奇数部は、以下の等式によるスケーリングされたファクタ（ξ）に関連している、第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する：

この等式において、変数ωおよびψは、元の（無理数の）内部変換ファクタを表し、例えば、（ω）は、８により除算された定数パイ（π）の３倍の余弦であってもよく、（ψ）は、８により除算された定数パイ（π）の３倍の正弦であってもよい。変数（Ｃ）および（Ｓ）は、（ω）および（ψ）の代わりに置かれる、整数（または２進分数）の内部変換ファクタを表す。等式（２）は、スケーリングされたファクタ（ξ）が、（ψ）を加えた（ω）によって除算される、第１の内部ファクタ（Ｃ）と第２の内部ファクタ（Ｓ）との合計に等しいことを示している。この等式は、直交の構成に関して規定した上述の関係に類似の、ＣおよびＳの特定の内部ファクタ値を識別するかもしれないが、異なる外部ファクタをもたらす。しかしながら、異なる外部ファクタは通常、上記の理由から、構成の複雑さを増加させないが、一般に、元の変換ファクタのより正確な近似を提供する。それはまた、従来の４×４ＤＣＴ−ＩＩ構成に比べて、さらに、場合によっては、上述した直交の４×４ＤＣＴ−ＩＩ構成に比べて、改善されたコード化利得を提供する可能性がある。結果として、制御ユニットは、このほぼ直交の４×４ＤＣＴ−ＩＩをメディアデータに適用して、潜在的に改善されたコード化利得の結果とともに、空間領域から周波数領域にメディアデータを変換する。

図１は、ビデオエンコーディングおよびデコーディングのシステム１０を図示するブロック図である。図１中で示されているように、システム１０は、通信チャネル１６によって、エンコードされたビデオを受信ハードウェアデバイス１４に送信するソースハードウェアデバイス１２を含む。ソースデバイス１２は、ビデオソース１８と、ビデオエンコーダ２０と、送信機２２とを含んでいてもよい。宛先デバイス１４は、受信機２４と、ビデオデコーダ２６と、ビデオディスプレイデバイス２８とを含んでいてもよい。

図１の例において、通信チャネル１６は、無線周波数（ＲＦ）スペクトルまたは１つ以上の物理送信ラインのような、任意のワイヤレスまたはワイヤード通信媒体、あるいは、ワイヤレスおよびワイヤード媒体の任意の組み合わせを含んでいてもよい。チャネル１６は、ローカルエリアネットワーク、ワイドエリアネットワーク、または、インターネットのようなグローバルネットワークのような、パケットベースのネットワークの部分を形成してもよい。通信チャネル１６は一般に、ソースデバイス１２から受信デバイス１４にビデオデータを送信するための、任意の適切な通信媒体、または、異なる通信媒体の集合を表す。

ソースデバイス１２は、宛先デバイス１４に送信するためのビデオを発生させる。しかしながら、いくつかのケースにおいて、デバイス１２、１４は、実質的に対称的な方法で動作してもよい。例えば、デバイス１２、１４のそれぞれは、ビデオエンコーディングコンポーネントおよびビデオデコーディングコンポーネントを含んでいてもよい。したがって、システム１０は、例えば、ビデオストリーミング、ビデオブロードキャスティングまたはビデオ電話通信に対して、ビデオデバイス１２、１４の間の一方向または双方向のビデオ送信をサポートしてもよい。他のデータ圧縮およびコード化アプリケーションに対して、デバイス１２、１４は、画像データ、スピーチデータ、またはオーディオデータ、あるいは、ビデオデータ、画像データ、スピーチデータおよびオーディオデータのうちの２つ以上の組み合わせ、のような、他のタイプのデータを送信し、受信し、または交換するように構成できる。したがって、ビデオアプリケーションに関する以下の記述は、説明のために提供され、ここで広く記述する開示のさまざまな観点の限定と考えるべきではない。

ビデオソース１８は、１つ以上のビデオカメラのようなビデオ取り込みデバイス、以前に取り込んだビデオを含んでいるビデオアーカイブ、またはビデオコンテンツプロバイダから供給されるライブビデオを含んでいてもよい。さらなる代替として、ビデオソース１８は、ソースビデオとしてコンピュータグラフィックベースのデータ、または、ライブビデオおよびコンピュータにより生成されたビデオの組み合わせを生成させてもよい。いくつかのケースにおいて、ビデオソース１８がカメラである場合、ソースデバイス１２および受信デバイス１４は、いわゆるカメラ電話機またはビデオ電話機を形成してもよい。したがって、いくつかの観点において、ソースデバイス１２、受信デバイス１４、あるいはその両方は、移動電話機のような、ワイヤレス通信デバイスハンドセットを形成してもよい。それぞれのケースにおいて、取り込まれた、事前に取り込まれている、または、コンピュータにより生成されたビデオは、送信機２２、チャネル１６および受信機２４を介して、ビデオソースデバイス１２からビデオ受信デバイス１４のビデオデコーダ２６に送信するために、ビデオエンコーダ２０によりエンコードされてもよい。ディスプレイデバイス２８は、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイまたは有機発光ダイオード（ＯＬＥＤ）ディスプレイのような、さまざまなディスプレイデバイスのいずれかを含んでいてもよい。

ビデオエンコーダ２０およびビデオデコーダ２６は、空間、時間、および／または、信号対雑音比（ＳＮＲ）のスケーラビリティに対して、スケーラブルなビデオコード化をサポートするように構成されていてもよい。いくつかの観点において、ビデオエンコーダ２０およびビデオデコーダ２２は、微粒度ＳＮＲスケーラビリティ（ＦＧＳ）コード化をサポートするように構成されていてもよい。エンコーダ２０およびデコーダ２６は、ベースレイヤおよび１つ以上のスケーラブルな拡張レイヤの、エンコーディング、送信およびデコーディングをサポートすることによって、さまざまな程度のスケーラビリティをサポートしてもよい。スケーラブルなビデオコード化に対して、ベースレイヤは、最小レベルの品質を有するビデオデータを搬送する。１つ以上の拡張レイヤは、追加のビットストリームを搬送して、より高い、空間、時間および／またはＳＮＲのレベルをサポートする。

ビデオエンコーダ２０およびビデオデコーダ２６は、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３、または、ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）のようなビデオ圧縮標準規格にしたがって動作してもよい。図１中に示されていないが、いくつかの観点において、ビデオエンコーダ２０およびビデオデコーダ２６は、それぞれ、オーディオエンコーダおよびオーディオデコーダと統合されていてもよく、共通のデータストリームまたは別々のデータストリーム中のオーディオおよびビデオの両方のエンコーディングを取り扱うために、適切なＭＵＸ−ＤＥＭＵＸユニットまたは他のハードウェアおよびソフトウェアを含んでいてもよい。該当する場合、ＭＵＸ−ＤＥＭＵＸユニットは、ＩＴＵＨ．２２３マルチプレクサプロトコル、または、ユーザデータグラムプロトコル（ＵＤＰ）のような他のプロトコルに従ってもよい。

いくつかの観点において、ビデオブロードキャスティングに対して、例えば、ワイヤレスビデオブロードキャストサーバまたはワイヤレス通信デバイスハンドセットによって、フォワードリンクオンリー（ＦＬＯ）無線インターフェース仕様である、技術標準規格ＴＩＡ−１０９９（“ＦＬＯ仕様”）として発行されている“地上モバイルマルチメディアマルチキャストのためのフォワードリンクオンリー無線インターフェース仕様”を使用して、地上モバイルマルチメディアマルチキャスト（ＴＭ３）システムにおいてリアルタイムのビデオサービスを配信するために、本開示中で記述される技術を適用して、Ｈ．２６４ビデオコード化を拡張してもよい。ＦＬＯ仕様は、ビットストリームのシンタックスおよびセマンティックスを定義し、ＦＬＯ無線インターフェースに適切なプロセスをデコードする例を含む。代わりに、ＤＶＢ−Ｈ（デジタルビデオブロードキャスト−ハンドヘルド）、ＩＳＤＢ−Ｔ（統合デジタルブロードキャストサービス−地上）、または、ＤＭＢ（デジタルメディアブロードキャスト）のような、他の標準規格にしたがって、ビデオをブロードキャストしてもよい。したがって、ソースデバイス１２は、移動ワイヤレス端末、ビデオストリーミングサーバ、または、ビデオブロードキャストサーバであってもよい。しかしながら、本開示中で記述される技術は、何らかの特定のタイプの、ブロードキャスト、マルチキャスト、または、ポイントツーポイントシステムに限定されない。ブロードキャストのケースにおいて、ソースデバイス１２は、いくつかのチャネルのビデオデータを複数の受信デバイスにブロードキャストしてもよく、それぞれの受信デバイスは、図１の受信デバイス１４に類似していてもよい。

ビデオエンコーダ２０およびビデオデコーダ２６はそれぞれ、１つ以上のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラム可能ゲートアレイ信号（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェア、あるいは、これらの任意の組み合わせとして実現してもよい。したがって、ビデオエンコーダ２０およびビデオデコーダ２６のそれぞれは、集積回路（ＩＣ）チップまたはデバイスとして少なくとも部分的に実現されて、１つ以上のエンコーダまたはデコーダ中に含まれていてもよく、エンコーダまたはデコーダのいずれかは、それぞれの移動デバイス、加入者デバイス、ブロードキャストデバイス、サーバまたはこれらに類似するものにおける、結合されたエンコーダ／デコーダ（ＣＯＤＥＣ）の一部として統合されていてもよい。加えて、ソースデバイス１２および受信デバイス１４は、それぞれ、該当する場合、ワイヤレス通信をサポートするのに十分な、無線周波数（ＲＦ）ワイヤレスコンポーネントおよびアンテナを含む、エンコードされたビデオの送信および受信のための、適切な変調、復調、周波数変換、フィルタリングおよび増幅のコンポーネントを含んでいてもよい。しかしながら、説明を容易にするために、そのようなコンポーネントを、図１中で示していない。

ビデオシーケンスは、一連のビデオフレームを含む。ビデオエンコーダ２０は、ビデオデータをエンコードするために、個々のビデオフレーム内の画素のブロックに対して動作する。ビデオブロックは、固定された、または変化するサイズを有していてもよく、指定されたコード化標準規格にしたがってサイズが異なっていてもよい。各ビデオフレームは、一連のスライスを含む。各スライスは、一連のマクロブロックを含み、マクロブロックは、サブブロックに配列されていてもよい。一例として、ＩＴＵ−ＴＨ．２６４標準規格は、ルーマ成分に対して１６×１６、８×８、４×４、および、クロマ成分に対して８×８のような、さまざまな２進ブロックサイズにおけるイントラ予測だけでなく、ルーマ成分に対して１６×１６、１６×８、８×１６、８×８、８×４、４×８および４×４、およびクロマ成分に対して、対応するスケーリングされたサイズのような、さまざまなブロックサイズにおけるインター予測もサポートする。

より小さいビデオブロックは一般に、より良い解像度を提供でき、より高いレベルのディテールを含むビデオフレームの場所に対して使用してもよい。一般に、マクロブロック（ＭＢ）およびさまざまなサブブロックは、ビデオブロックを表すものと考えられる。さらに、スライスは、ＭＢおよび／またはサブブロックのような、一連のビデオブロックを表すものと考えられる。各スライスは、独立してデコード可能な単位であってもよい。予測後、２進または非２進のサイズの残差ブロックに対して変換を実行してもよく、イントラ＿１６×１６予測モードが使用される場合、クロマ成分またはルーマ成分に対する４×４ブロックのＤＣＴ係数に対して、追加の変換を適用してもよい。

図１のシステム１０のビデオエンコーダ２０および／またはビデオデコーダ２６は、それぞれ、４×４ＤＣＴ−ＩＩの構成と、それの逆（例えば、４×４ＤＣＴ−ＩＩＩ）とを含むように構成されていてもよく、４×４ＤＣＴ−ＩＩは、本開示において記述される、４×４サイズのＤＣＴに対してＤＣＴ−ＩＩ行列の係数を選択する技術のさまざまな関係のうちの１つにしたがう。ＩＴＵ−ＴＨ．２６４標準規格は、ルーマ成分に対して１６×１６、８×８、４×４、および、クロマ成分に対して８×８のような、さまざまなブロックサイズにおけるイントラ予測をサポートしているが、コード化効率を改善するための、この標準規格に対する改訂が、現在進行中である。改訂される１つの標準規格は、ＩＴＵ−ＴＨ．２６５または単にＨ．２６５と呼ばれる（次世代ビデオコード化またはＮＧＶＣと呼ばれることもある）。図７Ａないし７Ｃに関して以下で記述するように、本開示の技術にしたがって示されるさまざまな関係のうちの１つに従う、タイプＩＩの４×４ＤＣＴ（“ＤＣＴ−ＩＩ”）は、ピーク信号対雑音比（ＰＳＮＲ）の点で測定されるようなコード化効率を改善することができる。結果として、ＩＴＵ−ＴＨ．２６５、および、他の進化しつつある標準規格または仕様は、コード化効率を改善するために、これらのＤＣＴ−ＩＩを考慮に入れるかもしれない。

本開示中で記述される技術にしたがうと、従来の構成と比べて改善されたコード化利得を促進できるさまざまな関係のうちの１つに従う方法で、４×４ＤＣＴ−ＩＩの構成を生成させることができる。第１の関係は、４×４ＤＣＴ−ＩＩの直交の構成に対して定義され、等式（１）を参照して以下で示される：

ここで、ＣおよびＳは、４×４ＤＣＴ−ＩＩ構成の“奇数”部中の第１および第２の内部ファクタを表し、（ξ）は、４×４ＤＣＴ−ＩＩ構成の“奇数”部に適用される、スケーリングされたファクタを表す。いわゆる、４×４ＤＣＴ−ＩＩの“奇数部”は、奇数番号の係数を出力する、４×４ＤＣＴ−ＩＩ構成の部分を指す。いわゆる、４×４ＤＣＴ−ＩＩの“偶数”部は、偶数番号の係数を出力する、４×４ＤＣＴ−ＩＩ構成の部分を指す。用語“内部ファクタ”は、因数分解後に留まる、４×４ＤＣＴの構成内部のファクタを指す。用語“スケーリングされたファクタ”は、因数分解によって取り除かれる、４×４ＤＣＴの構成から外部のファクタを指す。

いずれにしても、上記の、第１および第２の内部ファクタＣ、Ｓと、スケーリングされたファクタ（ξ）との間の上述の関係は、４×４ＤＣＴ−ＩＩの以前の構成において使用されていない内部ファクタの特定の値を提供する。例えば、それぞれ、２および５の、内部ファクタＣおよびＳに対する値は、構成の複雑さを過度に増加させず、ＣおよびＳに対して１および２の値を伴う既知の４×４ＤＣＴ構成に比べて、コード化に改良を加える。ビデオエンコーダは次に、内部ファクタ２および５を有する４×４ＤＣＴ−ＩＩ構成をメディアデータに適用して、空間領域から周波数領域にメディアデータを変換する。この直交の４×４ＤＣＴ−ＩＩ構成を適用することにより、１および２の内部ファクタを含む標準のＤＣＴ−ＩＩ構成と比較したとき、本技術は、（圧縮効率を表す用語である）コード化利得を促進する。

直交性は、それが可逆であることから、ＤＣＴ−ＩＩ構成に関して一般に望まれる。１つの例として、この可逆の特性により、ビデオエンコーダは、直交の４×４ＤＣＴ構成を適用して、ビデオデータの残差ブロックから、ＤＣＴ係数を生成させることが可能になる。ビデオデコーダは次に、４×４逆ＤＣＴ−ＩＩ（ＩＤＣＴ）構成を適用して、データ中の何らかの損失をほとんど伴わずに、ＤＣＴ−ＩＩ係数から、ビデオデータの残差ブロックを再構築できる。Ｈ．２６４ビデオコード化標準規格のような、いくつかのコード化標準規格は、４×４ＤＣＴの直交の構成を採用している。

直交性は一般に、理論上は望まれるが、実際は、ビデオ、オーディオまたは一般のコード化パイプラインは、いわゆる“雑音”を持ち込む（スケーリングまたは量子化のような）多数の追加のステップを伴い、雑音は、ほとんどの点において、直交の４×４ＤＣＴ−ＩＩ構成により提供される値の正確な再構築を有効に妨げる。結果として、直交の特性を緩和して、（技術的に言えば非直交である）ほぼ直交を達成することが、可能である。整数演算の構成を考えると、そのようなほぼ直交の変換が、コード化効率を改善させ、また、一方で、厳密に直交の整数変換と比較して、構成の複雑さを低減させる可能性がある。一般に、直交の特性を緩和することは、雑音をシステムに持ち込むが、コード化利得を改善する一方で、構成の複雑さを低減させる可能性がある。

４×４ＤＣＴ−ＩＩのほぼ直交の構成を説明するために、１つの例として、制御ユニットを含む装置を考える。制御ユニットが、本開示中で記述される技術にしたがって、ほぼ直交の４×４ＤＣＴ−ＩＩを実現する。このほぼ直交の４×４ＤＣＴ−ＩＩ構成はまた、奇数部と偶数部とを含む。この例における奇数部は、以下の等式（２）によるスケーリングされたファクタ（ξ）に関連している、第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する：

等式（２）において、変数ωおよびψは、元の（無理数の）内部変換ファクタを表し、例えば、（ω）は、８により除算された定数パイ（π）の３倍の余弦であってもよく、（ψ）は、８により除算された定数パイ（π）の３倍の正弦であってもよい。変数（Ｃ）および（Ｓ）は、（ω）および（ψ）の代わりに置かれる、整数（または２進分数）の内部変換ファクタを表す。等式（２）は、スケーリングされたファクタ（ξ）が、（ψ）を加えた（ω）によって除算される、第１の内部ファクタ（Ｃ）と第２の内部ファクタ（Ｓ）との合計に等しいことを示している。この等式は、直交の構成に関して規定した上述の関係に類似の、ＣおよびＳの特定の内部ファクタ値を識別するかもしれないが、異なる外部ファクタをもたらす。しかしながら、異なる外部ファクタは通常、上記の理由から、構成の複雑さを増加させないが、一般に、元の変換ファクタのより正確な近似を提供する。それはまた、従来の４×４ＤＣＴ−ＩＩ構成に比べて、さらに、場合によっては、上述した直交の４×４ＤＣＴ−ＩＩ構成に比べて、改善されたコード化利得を提供する可能性がある。結果として、制御ユニットは、このほぼ直交の４×４ＤＣＴ−ＩＩをメディアデータに適用して、潜在的に改善されたコード化利得の結果とともに、空間領域から周波数領域にメディアデータを変換する。

本開示中で記述される技術にしたがって構築される、上述の結果の４×４ＤＣＴ−ＩＩ構成は、直接の４×４ＤＣＴ−ＩＩ構成に対して、スケーリングされた４×４ＤＣＴ−ＩＩ構成を表す。構成は、それらが内部ファクタを取り除くために因数分解を受けており、その結果、４×４ＤＣＴを正確に計算するために追加の外部ファクタが適用されることを必要とする、スケーリングされた係数を出力するという点で、“スケーリング”される。いわゆる、“直接の”ＤＣＴ−ＩＩ構成は、４×４ＤＣＴを正確に計算するために、外部ファクタによる乗算のような、何らかのさらなる演算を必要としない係数を出力する。

スケーリングされた４×４ＤＣＴ−ＩＩ構成を生成させることができる、多数の異なる因数分解がある。１つの代替の因数分解は、スケーリングされた異なる４×４ＤＣＴ−ＩＩ構成を生成させ、その構成から、本開示の技術にしたがって別の関係を導出して、Ｈ．２６４に準拠するビデオエンコーダによって一般に用いられている従来のＤＣＴ−ＩＩと比べてコード化利得を改善するほぼ直交の構成を生成させることができる。

スケーリングされた４×４ＤＣＴ−ＩＩを生成させる代替の因数分解に関して、ほぼ直交の構成を説明するために、１つの例として、制御ユニットを含む装置を考える。制御ユニットは、本開示中で記述される技術にしたがって、ほぼ直交の４×４ＤＣＴ−ＩＩを実現する。このほぼ直交の４×４ＤＣＴ−ＩＩ構成は、上述した構成に類似の、奇数部と偶数部とを含む。この例における奇数部は、以下の等式（３）によるスケーリングされたファクタ（ξ）に関連している、第１および第２の内部ファクタ（Ａ、Ｂ）を適用する：

等式（３）は、スケーリングされたファクタ（ξ）が、２の平方根により除算された１を加えた１により除算された、第１の内部ファクタ（Ａ）と第２の内部ファクタ（Ｂ）との合計に等しいことを示す。この等式は、それぞれ、内部ファクタＡおよびＢに対して、７および５の特定の値を識別してもよい。代替の因数分解を使用し、上記の内部ファクタにより構築される、この結果として生じるほぼ直交の４×４ＤＣＴ−ＩＩ構成は、従来のＨ．２６４の４×４ＤＣＴ−ＩＩ構成よりも、直接の４×４ＤＣＴ−ＩＩの無理数の内部ファクタをより正確に表し、その結果、従来の４×４ＤＣＴ−ＩＩ構成と比べて、改善されたコード化利得を提供することができる。結果として、制御ユニットは、このほぼ直交の４×４ＤＣＴ−ＩＩをメディアデータに適用して、潜在的に改善されたコード化利得の結果とともに、空間領域から周波数領域にメディアデータを変換する。

図２は、より詳細に、図１のビデオエンコーダ２０を図示するブロック図である。ビデオエンコーダ２０は、集合的に集積回路デバイスと呼ばれてもよい、１つ以上の集積回路デバイスとして少なくとも部分的に形成されていてもよい。いくつかの観点において、ビデオエンコーダ２０は、ワイヤレス通信デバイスハンドセットまたはブロードキャストサーバの一部を形成してもよい。ビデオエンコーダ２０は、ビデオフレーム内のブロックの、イントラコード化およびインターコード化を実行してもよい。イントラコード化は、空間的予測に依拠して、所定のビデオフレーム内のビデオ中の空間的冗長性を低減させるかまたは取り除く。インターコード化は、時間的予測に依拠して、ビデオシーケンスの近接フレーム内のビデオ中の時間的冗長性を低減させるかまたは取り除く。インターコード化に対して、ビデオエンコーダ２０は、動き推定を実行して、近接フレーム間の、整合するビデオブロックの動きを追跡する。

図２中で示されているように、ビデオエンコーダ２０は、エンコードすべきビデオフレーム内の現在のビデオブロック３０を受け取る。図２の例において、ビデオエンコーダ２０は、動き推定ユニット３２と、参照フレーム記憶装置３４と、動き補償ユニット３６と、ブロック変換ユニット３８と、量子化ユニット４０と、逆量子化ユニット４２と、逆変換ユニット４４と、エントロピーコード化ユニット４６とを含む。（示していない）インループまたはポストループのデブロッキングフィルタを適用して、ブロックをフィルタリングしてブロッキングアーティファクトを取り除いてもよい。ビデオエンコーダ２０はまた、加算器４８と加算器５０とを含む。図２は、ビデオブロックのインターコード化に対する、ビデオエンコーダ２０の時間的予測コンポーネントを図示する。説明を容易にするために図２中で示されていないが、ビデオエンコーダ２０はまた、いくつかのビデオブロックのイントラコード化に対する、空間的予測コンポーネントを含んでいてもよい。

動き推定ユニット３２は、ビデオブロック３０を、１つ以上の近接したビデオフレーム中のブロックと比較して、１つ以上の動きベクトルを生成させる。近接フレームを、参照フレーム記憶装置３４から取得してもよく、参照フレーム記憶装置３４は、以前にエンコードされたブロックから再構築されるビデオブロックを記憶するために、任意のタイプのメモリまたはデータ記憶デバイスを備えていてもよい。動き推定は、例えば、１６×１６、１６×８、８×１６、８×８、または、より小さいブロックサイズのような、可変サイズのブロックに対して実行してもよい。動き推定ユニット３２は、例えば、レート歪みモデルに基づいて、現在のビデオブロック３０に最も整合する、近接フレーム中の１つ以上のブロックを識別し、近接フレーム中のブロックと、現在のビデオブロックとの間の変位を決定する。これをもとに、動き推定ユニット３２は、１つ以上の動きベクトル（ＭＶ）を生成させる。動きベクトル（ＭＶ）は、現在のビデオブロック３０と、現在のビデオブロック３０をコード化するために使用される参照フレームからの１つ以上の整合ブロックとの間の変位の、大きさと軌道とを示す。整合ブロックは、コード化すべきブロックのインターコード化に対して、予測ブロックとして役割を果たすであろう。

動きベクトルは、ハーフ画素またはクォータ画素の精度、あるいは、さらに細かい精度を有していてもよく、ビデオエンコーダ２０が、整数画素のロケーションよりも高い精度により動きを追跡し、より適切な予測ブロックを取得することが可能になる。分数の画素値を有する動きベクトルが使用されるとき、補間動作が、動き補償ユニット３６において実行される。動き推定ユニット３２は、レート歪みモデルのような、ある基準を使用して、ビデオブロックに対して、最良のブロックパーティションと動きベクトルとを識別する。例えば、双方向の予測のケースにおいて、より多い動きベクトルがあってもよい。結果として生じるブロックパーティションおよび動きベクトルを使用して、動き補償ユニット３６は、予測ビデオブロックを形成する。

ビデオエンコーダ２０は、加算器４８において、動き補償ユニット３６によって生成された予測ビデオブロックを、元の現在のビデオブロック３０から減算することにより、残差ビデオブロックを形成する。ブロック変換ユニット３８が、残差変換ブロック係数を生成させる変換を適用する。図２中で示されているように、ブロック変換ユニット３８は、本開示中で記述される技術にしたがって構築される４×４ＤＣＴ−ＩＩを実現する４×４ＤＣＴ−ＩＩユニット５２を含んでいる。４×４ＤＣＴ−ＩＩユニット５２は、場合によっては、（デジタル信号プロセッサ、または、ソフトウェアコードまたは命令を実行するＤＳＰのような）ソフトウェアを実行するハードウェアモジュールを表し、先に特定した３つの関係のうちの１つにより定義される内部ファクタを有する４×４ＤＣＴ−ＩＩを実現する。ブロック変換ユニット３８は、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２を残差ブロックに適用して、残差変換係数の４×４ブロックを生成させる。４×４ＤＣＴ−ＩＩユニット５２は一般に、残差画素データとして表される空間領域から、ＤＣＴ係数として表される周波数領域に、残差ブロックを変換する。変換係数は、少なくとも１つのＤＣ係数と、１つ以上のＡＣ係数とを含むＤＣＴ係数を含んでいてもよい。

量子化ユニット４０は、残差変換ブロック係数を量子化して（例えば、丸めて）、ビットレートをさらに低減させる。上述したように、量子化ユニット４０は、因数分解の間に取り除かれた内部ファクタを取り入れることにより、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２の、スケーリングされた性質に対処する。すなわち、量子化ユニット４０は、図４Ａないし４Ｃの構成７０Ａないし７０Ｃを参照して以下で示す外部ファクタを取り入れる。量子化は通常、乗算を伴うことから、これらのファクタを量子化ユニット４０に取り入れることは、量子化ユニット４０の構成の複雑さを増加させない可能性がある。この点で、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２からファクタを取り除くことは、量子化ユニット４０の構成の複雑さを増加させることなく、ＤＣＴ−ＩＩユニット５２の構成の複雑さを減少させ、ビデオエンコーダ２０に関して、構成の複雑さの最終的な減少をもたらす。

エントロピーコード化ユニット４６は、量子化された係数をエントロピーコード化して、ビットレートをさらに低減させる。エントロピーコード化ユニット４６は、場合によっては、エントロピーコード化と呼ばれる、無損失統計コード化を実行する。エントロピーコード化ユニット４６は、量子化されたＤＣＴ係数の確率分布をモデル化し、モデル化された確率分布に基づいて、コードブック（例えば、ＣＡＶＬＣまたはＣＡＢＡＣ）を選択する。このコードブックを使用して、エントロピーコード化ユニット４６は、量子化されたＤＣＴ係数を圧縮するように、量子化された各ＤＣＴ係数に対してコードを選択する。説明するように、エントロピーコード化ユニット４６は、頻繁に発生する量子化ＤＣＴ係数に対して、（ビットの点で）短いコードワードを選択し、頻繁に発生しない量子化ＤＣＴ係数に対して、（ビットの点で）より長いコードワードを選択してもよい。短いコードワードが、量子化されたＤＣＴ係数よりも少ないビットを使用する限り、概して、エントロピーコード化ユニット４６は、量子化されたＤＣＴ係数を圧縮する。エントロピーコード化ユニット４６は、ビデオデコーダ２６に送られるビットストリームとして、エントロピーコード化された係数を出力する。一般に、図３の例を参照して記述するように、ビデオデコーダ２６は、逆の動作を実行して、ビットストリームから、エンコードされたビデオをデコードして再構築する。

再構築ユニット４２および逆変換ユニット４４は、残差ブロックを再構築するために、それぞれ、量子化された係数を再構築し、逆変換を適用する。加算ユニット５０は、再構築された残差ブロックを、動き補償ユニット３６によって生成された、動き補償された予測ブロックに加算して、参照フレーム記憶装置３４中での記憶のために、再構築されたビデオブロックを生成させる。再構築されたビデオブロックは、後続のビデオフレーム中のブロックをエンコードするために、動き推定ユニット３２および動き補償ユニット３６によって使用される。

図３は、より詳細に、図１のビデオデコーダ２６の例を図示するブロック図である。ビデオデコーダ２６は、集合的に集積回路デバイスと呼ばれてもよい、１つ以上の集積回路デバイスとして少なくとも部分的に形成されていてもよい。いくつかの観点において、ビデオデコーダ２６は、ワイヤレス通信デバイスハンドセットの一部を形成してもよい。ビデオデコーダ２６は、ビデオフレーム内のブロックの、イントラデコーディングおよびインターデコーディングを実行してもよい。図３中で示されているように、ビデオデコーダ２６は、ビデオエンコーダ２０によってエンコードされている、エンコードされたビデオビットストリームを受け取る。図３の例において、ビデオデコーダ２６は、エントロピーデコーディングユニット５４と、動き補償ユニット５６と、再構築ユニット５８と、逆変換ユニット６０と、参照フレーム記憶装置６２とを含む。エントロピーデコーディングユニット６４は、メモリ６４中に記憶されている１つ以上のデータ構造にアクセスして、コード化する際に有用なデータを取得してもよい。ビデオデコーダ２６はまた、加算器６６の出力をフィルタリングする（示していない）インループデブロッキングフィルタを含んでいてもよい。ビデオデコーダ２６はまた、加算器６６を含む。図３は、ビデオブロックのインターデコーディングに対して、ビデオデコーダ２６の時間的予測コンポーネントを図示する。図３中で示されていないが、ビデオデコーダ２６はまた、何らかのビデオブロックのイントラデコーディングに対して、空間的予測コンポーネントを含んでいてもよい。

エントロピーデコーディングユニット５４は、エンコードされたビデオビットストリームを受け取り、ビットストリームから、量子化された残差係数および量子化されたパラメータと、動きベクトルおよびブロックパーティションを含んでいてもよい、マクロブロックコード化モードおよび動き情報のような、他の情報とをデコードしてもよい。動き補償ユニット５６は、動きベクトルおよびブロックパーティションと、参照フレーム記憶装置６２から１つ以上の再構築された参照フレームとを受け取って、予測ビデオブロックを生成させる。

再構築ユニット５８は、量子化されたブロック係数を、逆量子化、すなわち、デクオンタイズする。逆変換ユニット６０は、例えば逆ＤＣＴのような逆変換を係数に適用して、残差ブロックを生成させる。より詳細には、逆変換ユニット６０は、スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８を含み、逆変換ユニット６０は、スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８を係数に適用して、残差ブロックを生成させる。図２中で示されている、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２の逆である、スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８は、周波数領域から空間領域に係数を変換して、残差ブロックを生成させ得る。上述の量子化ユニット４０と同様に、再構築ユニット５８は、構成の複雑さにおける増加をほとんど伴わずに、因数分解の間に取り除かれた外部ファクタを再構築プロセスに取り入れることにより、４×４ＤＣＴ−ＩＩＩユニット６８のスケーリングされた性質に対処する。スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８からファクタを取り除くことは、構成の複雑さを低減させ、その結果、ビデオデコーダ２６に対して、複雑さの最終的な減少をもたらす。

予測ビデオブロックは次に、加算器６６により残差ブロックと合計されて、デコードされたブロックが形成される。（示していない）デブロッキングフィルタを適用して、デコードされたブロックをフィルタリングしてブロッキングアーティファクトを取り除いてもよい。フィルタリングされたブロックは次に、参照フレーム記憶装置６２中に置かれて、参照フレーム記憶装置６２は、後続のビデオフレームのデコーディングのために参照フレームを提供し、また、デコードされたビデオを生成させて、ディスプレイ２８（図１）を駆動する。

図４Ａないし４Ｃは、本開示の技術にしたがって構築される、スケーリングされた４×４ＤＣＴ−ＩＩの構成をそれぞれ図示する図である。図４Ａは、本開示の技術にしたがって構築される、スケーリングされた、直交の４×４ＤＣＴ−ＩＩ構成７０Ａを図示する図である。図４Ｂは、本開示の技術にしたがって構築される、スケーリングされた、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂを図示する図である。図４Ｃは、本開示の技術にしたがって構築される、スケーリングされた、ほぼ直交の４×４ＤＣＴ−ＩＩの代替の構成７０Ｃを図示する図である。図２の例において示されている４×４ＤＣＴユニット５２は、１つ以上のこれらの構成７０Ａないし７０Ｃを組み込んでいてもよい。

最初に、図４Ａの例を参照すると、４×４ＤＣＴ−ＩＩ構成７０Ａは、バタフライユニット７２と、偶数部７４Ａと、奇数部７４Ｂとを含む。バタフライユニット７２は、入力ｘ₀、．．．、ｘ₃を、適切な偶数部７４Ａおよび奇数部７４Ｂ（“部分７４”）にルーティングまたはさもなければ転送するための、ハードウェアあるいはハードウェアおよびソフトウェアの組み合わせを表してもよい。バタフライユニット７２は通常、このケースにおいて、それぞれ、偶数部および奇数部７４によって表される、２×２ＤＣＴ−ＩＩ構成のような、より小さいＤＣＴの結果を結合する。偶数部７４Ａは、偶数のＤＣＴ係数Ｘ₀およびＸ₂を出力する、４×４ＤＣＴ−ＩＩ構成７０Ａの２×２部分である。特に、これらの偶数係数Ｘ₀およびＸ₂は、ハーフ（１／２）の外部ファクタにより乗算される。ハーフ（１／２）の外部ファクタは、量子化ユニット４０によって適用でき、通常、量子化ユニット４０によって適用される。

奇数部７４Ｂは、奇数のＤＣＴ係数Ｘ₁およびＸ₃を出力する、４×４ＤＣＴ−ＩＩ構成７０Ａの２×２部分である。奇数部７４Ｂは、ＣおよびＳで表される２つの内部ファクタを含み、２つの内部ファクタＣおよびＳは、本開示の技術にしたがって定義される上記の等式（１）により奇数の係数Ｘ₁およびＸ₃に適用される外部ファクタに関連している。２の平方根により除算された１（１／√２）の追加の外部ファクタが、上記等式（１）中で示された関係により除算された１と乗算されて、奇数係数Ｘ₁およびＸ₃に関して示した外部ファクタがもたらされる。

等式（１）中で示した関係は、以下の等式（４）により数学的に示される直交の特性を最初に考慮に入れることにより導出できる：

この例における変数Ｃは、任意の行列を指し、一方、Ｃ^Tは、行列Ｃの転置を表す。変数Ｉは、恒等行列を表す。したがって、行列に、その行列の転置を乗算したものが恒等行列に等しい場合、行列は直交の特性を示す。

上記の理由で、メディアコード化構成において好まれる、スケーリングされた行列を仮定して、以下の等式（５）中で示されるように、行列Ｃは、Ｃ’と表される、整数のスケーリングされた変換と、スケールファクタの対角行列すなわち外部ファクタＤとに分解できる：

等式（４）中のＣの代わりにＣ’Ｄを用いると、次の等式（６）が結果として生じる：

等式（６）は、次の等式（７）中で示される数学的な等式に単純化できる：

等式（７）は、結果として生じる整数変換が直交のままであるように、スケーリングファクタを選ぶメカニズムを提供する。

例えば、４×４ＤＣＴ−ＩＩ構成のケースにおいて、このＤＣＴ−ＩＩは通常、８により除算された定数πの３倍の余弦と、８により除算された定数πの３倍の正弦とを表すファクタの近似値を適用するだけである。これらの２つのファクタが、行列Ｃ’の係数である、整数ＣおよびＳに取って代わられることを仮定し、かつ、上述の直交性の条件を使用すると、上記の等式（１）は、正規化ファクタを表し、それにより、４×４ＤＣＴ−ＩＩの直交の近似を設計するタスクを、次の等式（８）および（９）を満たすように、一対の整数（Ｃ、Ｓ）を見つけることに制限できる：

この仮定の下で、４×４ＤＣＴ−ＩＩ構成７０Ａとして示される、整数のスケーリングされた変換が結果として生ずる。

以下の表１は、ＣおよびＳの整数に対して選択されるさまざまな値と、Ｈ．２６４ビデオコード化標準規格において採用されている４×４ＤＣＴ−ＩＩ構成と比較した、結果として生ずる近似誤差とを示す。

特に、変数ＣおよびＳが、それぞれ、２および５に設定されるとき、結果として生ずる構成７０Ａの複雑さは増加するが、８により除算された定数πの３倍の余弦と、８により除算された定数πの３倍の正弦との近似における誤差がはるかに小さく、コード化利得を促進する。ベースのＨ．２６４構成と比較したとき、複雑さは、追加の加算およびシフトだけを伴うが、演算の意味において、高価な乗算を伴わない。結果として、本開示中で記述される技術は、複雑さの小さな増加だけで、増加したコード化利得を促進し、変数ＣおよびＳに対して、それぞれ２および５の値を取り入れる構成７０Ａにより、構成の複雑さに対して最小の増加を伴う、潜在的に最良のコード化利得を提供する。

タイプＩＩのＤＣＴに関して上述したが、図４Ａの例において示されている構成７０Ａはまた、タイプＩＩＩのＤＣＴすなわち逆ＤＣＴの構成を表してもよい。構成７０Ａから逆ＤＣＴを形成することは、入力が図４Ａの右側での構成により受け取られ、かつ、出力が構成の左側で出力されるように、入力と出力とを逆にすることを伴う。入力は、最初に偶数部および奇数部７４により処理され、次に、左側で出力される前にバタフライ７２により処理される。説明を容易にするために、構成７０Ａに対して逆である、このＩＤＣＴ構成は、そのような構成が構成７０Ａの鏡像として記述されることを考慮に入れて、別の図中で示していない。

図４Ｂは、本開示の技術にしたがって構築される、スケーリングされた、ほぼ直交の４×４ＤＣＴ−ＩＩの構成７０Ｂを図示する図である。４×４ＤＣＴ−ＩＩ構成７０Ｂは、図４Ａのバタフライユニット７２に類似するバタフライユニット７６と、偶数および奇数部７８Ａ、７８Ｂ（“部分７８”）とを含む。偶数部７８Ａは、偶数部７４Ａと類似している。奇数部７８Ｂもまた、内部ファクタＣ、Ｓおよびスケーリングされたファクタξの間の、異なる関係、すなわち、等式（２）に関して上記した関係に至るように、直交の条件が緩和されていることを除いて、奇数部７４Ｂと類似している。

等式（２）によって表された関係にしたがって、図４Ｂの例示的な構成７０Ｂを導出するために、直交性が一般に、理論上は４×４ＤＣＴ−ＩＩの直接の逆の構成を保証するが、実際には、ほとんどのスケールファクタ（以下の整数変換）が、整数乗算器を使用して正確に実現することが困難である無理数になることを最初に考える。さらに、量子化が一般に、４×４ＤＣＴ変換の適用の後に続き、この量子化は、逆の直交のＤＣＴ−ＩＩ構成の直接の適用を妨げる雑音を加える。さらに、整数演算の構成を考えると、そのようなほぼ直交の変換は、コード化効率を改善する一方で、厳密に直交の整数変換と比較して、構成の複雑さを低減させ得る。結果として、直接の構成と逆の構成との間の、そのような直交性の不整合の程度を緩和することにより、実際にコード化利得が改善される可能性がある。

不整合の程度を特徴づけるために、恒等行列からの距離のノルムが、次の等式（１０）にしたがって定義される：

等式（４）に関して上記したものと同じ表記を使用すると、等式（１０）は、恒等行列からの距離のノルムを、恒等行列を引いた、行列に行列の転置を乗算したものとして定義できることを単に示す。Ｃ^TＣが対角のままであることを仮定すると、平均の絶対距離を次の等式（１１）にしたがって計算できる：

ここで、平均の絶対距離は、変数δ_Nにより表され、Ｎは、行列のサイズに等しい。

直交性の特性を緩和することによって、コード化利得は改善されるが、平均の絶対距離に対するコード化利得の解析は、圧縮を受けている画像の、特定のモデルまたは統計に非常に依存する。結果として、直交性の特性を緩和する程度は、ＤＣＴ−ＩＩの基本機能に整合する点で潜在的に最良である整数変換を見つけることに関連した、異なるメトリックの解析を通じて決定されるかもしれない。この形態の評価に関するより多くの情報は、Ｙ．Ａ．Ｒｅｚｎｉｋ氏、Ａ．Ｔ．Ｈｉｎｄｓ氏およびＪ．Ｌ．Ｍｉｔｃｈｅｌｌ氏により著された、“共通のファクタによる、固定小数点アルゴリズムの改善された精度”（Ｐｒｏｃ．ＩＣＩＰ２００８、サンディエゴ、ＣＡ）と題する記事に見出すことができ、その全体の内容は、ここで十分に示されるかのように、参照により組み込まれている。

この組み込まれた参照から、最も整合する設計をもたらす１つの技術は、“共通のファクタベースの近似”と呼ばれる。この技術を使用して、次の等式（１２）を導出できる：

これにより、次の式（１３）および（１４）を導出できる：

等式（１２）は、スケーリングされたファクタξに対して、ＣおよびＳに対する、対応する近似の誤差が、同じ大きさであるが、符号が反対であることを保証する。これらの仮定の下で、４×４ＤＣＴ−ＩＩ構成７０Ｂとして示された、整数のスケーリングされた変換が結果として生ずる。

次の表２は、ＣおよびＳの整数に対して選択されるさまざまな値と、結果として生ずる近似誤差とを示す。

詳細に表２を考察すると、変数ＣおよびＳが、それぞれ、２および５に設定されるとき、近似誤差が低減される。“近似誤差”の表題の下にある、先に示した第３の誤差メトリック（Ｃ²＋Ｓ²／ξ²−１）は、本質的には、等式（１１）に関して上述した、直交性の不整合メトリックδ_Nのサブセットである。この不整合メトリックは、Ｃ^TＣ−Ｉの対角線に沿って奇数の位置に現れる値を記述する。特に、ＤＣＴ−ＩＩの基本機能に対する、より正確な整数近似はまた、一般に、直交であることにより近づく。そのような整数近似は、一般に、直交であることにより近づくが、それぞれ、１および２の値に設定されたＣおよびＳを有するＤＣＴ−ＩＩ構成７０Ｂは、図７Ｂに関して以下で示されるように、コード化利得の点でリスト表示したＣおよびＳの中で潜在的に最も大きなリターンを提供する。

タイプＩＩのＤＣＴ関して上述したが、図４Ｂの例において示されている構成７０Ｂはまた、タイプＩＩＩのＤＣＴすなわち逆ＤＣＴの構成を表してもよい。構成７０Ｂから逆ＤＣＴを形成することは、入力が図４Ｂの右側での構成により受け取られ、かつ、出力が構成の左側で出力されるように、入力と出力とを逆にすることを伴う。入力は、最初に偶数部および奇数部７８により処理され、次に、左側で出力される前にバタフライ７６により処理される。説明を容易にするために、構成７０Ｂに対して逆である、このＩＤＣＴ構成は、そのような構成が構成７０Ｂの鏡像として記述されることを考慮に入れて、別の図中で示していない。

図４Ｃは、代替の因数分解から結果として生ずる、本開示の技術にしたがって構築される、別の例示的な、スケーリングされたほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃを図示する図である。４×４ＤＣＴ−ＩＩ構成７０Ｃは、図４Ａのバタフライユニット７２および図４Ｂのバタフライユニット７６に類似するバタフライユニット８０と、偶数および奇数部８２Ａ、８２Ｂ（“部分８２”）とを含む。偶数部８２Ａは、偶数部７８Ａと類似している。奇数部７８Ｂは、直交性の条件が緩和されているという点で奇数部７８Ｂと類似しているが、代替の因数分解の結果として、内部ファクタＡ、Ｂと、スケーリングされたファクタξとの間の異なる関係、すなわち、等式（３）に関して上記した関係が、結果として生ずる。代替の因数分解に関するより多くの情報は、Ｙ．Ａ．Ｒｅｚｎｉｋ氏およびＲ．Ｃ．Ｃｈｉｖｕｋｕｌａ氏により著され、“高解像度／高性能ビデオコード化のための変換の１つの設計”（ＭＰＥＧ入力文書Ｍ１６４３８）と題し、２００９年４月のマウイ、ＨＩにおけるＭＰＥＧ第８８回ミーティングにおいて与えられた記事に見出すことができ、その全体の内容は、ここで十分に示されるかのように、参照によりここに組み込まれている。

特に、異なるスケールファクタが、奇数係数Ｘ₁およびＸ₃に適用され、４×４ＤＣＴ−ＩＩ構成７０Ｃにおいて近似するために、１つの無理数のファクタだけがある。直交のままであるために、内部ファクタＢは通常、２の平方根で除算した１に設定されなければならず、Ａは、１に設定されなければならない。結果として、これらの値から内部ファクタＡ、Ｂを変えることは、非直交の構成を招来する。これらの内部ファクタのさまざまな値を評価するために、図４Ｂに関して上記した、共通のファクタ近似技術と呼ばれる上記の技術が用いられる。この技術を使用すると、次の等式（１５）が決定され、それにより、２つの整数値を内部ファクタＡ、Ｂに対して選択して、パラメータξを導出できる：

これにより、以下の式（１６）および（１７）が満たされる：

上記の等式（１５）は、対応する近似の誤差が、大きさにおいて釣り合いがとれ、符号が反対になることを保証する。これらの仮定の下で、４×４ＤＣＴ−ＩＩ構成７０Ｃとして示された、整数のスケーリングされた変換が結果として生ずる。

次の表３は、ＣおよびＳの整数に対して選択されるさまざまな値と、結果として生ずる近似誤差とを示す。

詳細に表３を考察すると、変数ＡおよびＢが、それぞれ、７および５に設定されるとき、近似誤差が低減される。それぞれ、７および５の値に設定されたＡおよびＢを有する４×４ＤＣＴ−ＩＩ構成７０Ｃは、図７Ｃに関して以下で示されるように、（表３中で示していない）複雑さの増加と比較して、コード化利得の点でリスト表示したＡおよびＢの中で潜在的に最も大きなリターンを提供する。

タイプＩＩのＤＣＴ関して上述したが、図４Ｃの例において示されている構成７０Ｃはまた、タイプＩＩＩのＤＣＴすなわち逆ＤＣＴの構成を表してもよい。構成７０Ｃから逆ＤＣＴを形成することは、入力が図４Ｃの右側での構成により受け取られ、かつ、出力が構成の左側で出力されるように、入力と出力とを逆にすることを伴う。入力は、最初に偶数部および奇数部８２により処理され、次に、左側で出力される前にバタフライ８０により処理される。説明を容易にするために、構成７０Ｃに対して逆である、このＩＤＣＴ構成は、そのような構成が構成７０Ｃの鏡像として記述されることを考慮に入れて、別の図中で示していない。

図５は、本開示の技術にしたがって構築される、４×４ＤＣＴ構成を適用する際の、図２のビデオエンコーダ２０のようなコード化デバイスの例示的な動作を説明するフローチャートである。最初に、ビデオエンコーダ２０は、エンコードすべきビデオフレーム内の現在のビデオブロック３０を受け取る（９０）。動き推定ユニット３２が、動き推定を実行して、ビデオブロック３０を、１つ以上の近接したビデオフレーム中のブロックと比較して、１つ以上の動きベクトルを生成させる（９２）。近接フレームは、参照フレーム記憶装置３４から取得してもよい。動き推定は、例えば、１６×１６、１６×８、８×１６、８×８、４×４、または、より小さいブロックサイズのような、可変サイズのブロックに対して実行してもよい。動き推定ユニット３２は、例えば、レート歪みモデルに基づいて、現在のビデオブロック３０に最も整合する、近接フレーム中の１つ以上のブロックを識別し、近接フレーム中のブロックと、現在のビデオブロックとの間の変位を決定する。これをもとに、動き推定ユニット３２は、１つ以上の動きベクトル（ＭＶ）を生成させる。動きベクトル（ＭＶ）は、現在のビデオブロック３０と、現在のビデオブロック３０をコード化するために使用される参照フレームからの１つ以上の整合ブロックとの間の変位の、大きさと軌道とを示す。整合ブロックは、コード化すべきブロックのインターコード化に対して、予測ブロックとして役割を果たすであろう。

動きベクトルは、ハーフ画素またはクォータ画素の精度、あるいは、さらに細かい精度を有していてもよく、ビデオエンコーダ２０が、整数画素のロケーションよりも高い精度により動きを追跡し、より適切な予測ブロックを取得することが可能になる。分数の画素値を有する動きベクトルが使用されるとき、補間動作が、動き補償ユニット３６において実行される。動き推定ユニット３２は、レート歪みモデルのような、ある基準を使用して、ビデオブロックに対して、最良のブロックパーティションと動きベクトルとを識別する。例えば、双方向の予測のケースにおいて、より多い動きベクトルがあってもよい。結果として生じるブロックパーティションおよび動きベクトルを使用して、動き補償ユニット３６は、予測ビデオブロックを形成する（９４）。

ビデオエンコーダ２０は、加算器４８において、動き補償ユニット３６によって生成された予測ビデオブロックを、元の現在のビデオブロック３０から減算することにより、残差ビデオブロックを形成する（９６）。ブロック変換ユニット３８が、残差変換ブロック係数を生成させる変換を適用する。ブロック変換ユニット３８は、本開示中で記述される技術にしたがって生成される４×４ＤＣＴ−ＩＩユニット５２を含んでいる。ブロック変換ユニット３８は、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２を残差ブロックに適用して、残差変換係数の４×４ブロックを生成させる。４×４ＤＣＴ−ＩＩユニット５２は一般に、残差画素データとして表される空間領域から、ＤＣＴ係数として表される周波数領域に、残差ブロックを変換する（９８）。変換係数は、少なくとも１つのＤＣ係数と、１つ以上のＡＣ係数とを含むＤＣＴ係数を含んでいてもよい。

量子化ユニット４０が、残差変換ブロック係数を量子化して（例えば、丸めて）、ビットレートをさらに低減させる（１００）。上述したように、量子化ユニット４０は、因数分解の間に取り除かれた内部ファクタを取り入れることにより、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２の、スケーリングされた性質に対処する。すなわち、量子化ユニット４０は、図４Ａないし４Ｃの構成７０Ａないし７０Ｃを参照して上記した外部ファクタを取り入れる。量子化は通常、乗算を伴うことから、これらのファクタを量子化ユニット４０に取り入れることは、量子化ユニット４０の構成の複雑さを増加させない可能性がある。この点で、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２からファクタを取り除くことは、量子化ユニット４０の構成の複雑さを増加させることなく、ＤＣＴ−ＩＩユニット５２の構成の複雑さを減少させ、ビデオエンコーダ２０に関して、構成の複雑さの最終的な減少をもたらす。

エントロピーコード化ユニット４６が、量子化された係数をエントロピーコード化して、ビットレートをさらに低減させる。エントロピーコード化ユニット４６は、場合によっては、エントロピーコード化と呼ばれる、無損失統計コード化を実行して、コード化されたビットストリームを生成させる（１０２）。エントロピーコード化ユニット４６は、量子化されたＤＣＴ係数の確率分布をモデル化し、モデル化された確率分布に基づいて、コードブック（例えば、ＣＡＶＬＣまたはＣＡＢＡＣ）を選択する。このコードブックを使用して、エントロピーコード化ユニット４６は、量子化されたＤＣＴ係数を圧縮するように、量子化された各ＤＣＴ係数に対してコードを選択する。エントロピーコード化ユニット４６は、メモリまたは記憶デバイスに記憶され、ならびに／あるいは、ビデオデコーダ２６に送られる、コード化されたビットストリームとして、エントロピーコード化された係数を出力する（１０４）。

図６は、本開示の技術にしたがって構築される４×４ＤＣＴ−ＩＩＩ構成を適用する際の、図３のビデオデコーダ２６のようなコード化デバイスの例示的な動作を説明するフローチャートである。ビデオデコーダ２６は、ビデオエンコーダ２０によってエンコードされている、エンコードされたビデオビットストリームを受け取る。特に、エントロピーデコーディングユニット５４は、エンコードされたビデオビットストリームを受け取り、ビットストリームから、量子化された残差係数および量子化されたパラメータと、動きベクトルおよびブロックパーティションを含んでいてもよい、マクロブロックコード化モードおよび動き情報のような、他の情報とをデコードしてもよい（１０６、１０８）。動き補償ユニット５６は、動きベクトルおよびブロックパーティションと、参照フレーム記憶装置６２から１つ以上の再構築された参照フレームとを受け取って、予測ビデオブロックを生成させる（１１０）。

再構築ユニット５８は、量子化されたブロック係数を、逆量子化、すなわち、デクオンタイズする（１１２）。逆変換ユニット６０は、例えば逆ＤＣＴのような逆変換を係数に適用して、残差ブロックを生成させる。より詳細には、逆変換ユニット６０は、スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８を含み、逆変換ユニット６０は、スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８を係数に適用して、残差ブロックを生成させる（１１４）。図２中で示されている、スケーリングされた４×４ＤＣＴ−ＩＩユニット５２の逆である、スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８は、周波数領域から空間領域に係数を変換して、残差ブロックを生成させることができる。上述の量子化ユニット４０と同様に、再構築ユニット５８は、構成の複雑さにおける増加をほとんど伴わずに、因数分解の間に取り除かれた外部ファクタを再構築プロセスに取り入れることにより、４×４ＤＣＴ−ＩＩＩユニット６８のスケーリングされた性質に対処する。スケーリングされた４×４ＤＣＴ−ＩＩＩユニット６８からファクタを取り除くことは、構成の複雑さを低減させ、その結果、ビデオデコーダ２６に対して、複雑さの最終的な減少をもたらす。

予測ビデオブロックは次に、加算器６６により残差ブロックと合計されて、デコードされたブロックが形成される（１１６）。（示していない）デブロッキングフィルタを適用して、デコードされたブロックをフィルタリングしてブロッキングアーティファクトを取り除いてもよい。フィルタリングされたブロックは次に、参照フレーム記憶装置６２中に置かれて、参照フレーム記憶装置６２は、後続のビデオフレームのデコーディングのために参照フレームを提供し、また、デコードされたビデオを生成させて、図１のディスプレイ２８のようなディスプレイデバイスを駆動する（１１８）。

図７Ａないし７Ｃは、本開示の技術にしたがって構築される、図４Ａないし４Ｃの構成７０Ａないし７０Ｃのような３つの異なる４×４ＤＣＴ−ＩＩ構成のそれぞれに対する、ビットレートに対するピーク信号対雑音比のグラフ１２０Ａないし１２０Ｃを図示する図である。図７Ａは、本開示の技術にしたがって構築される、図４Ａの構成７０Ａのような、直交の、スケーリングされた４×４ＤＣＴ−ＩＩ構成に対する、ビットレートに対するピーク信号対雑音比（ＰＳＮＲ）のグラフ１２０Ａを図示する図である。グラフ１２０Ａの略語にしたがうと、実線は、Ｈ．２６４ビデオコード化標準規格により取り入れられた、標準規格の４×４ＤＣＴ−ＩＩ構成を表す。点線は、無理数の乗算と加算とを実行できる、理論上の最良のＤＣＴ構成を表す。長い破線は、それぞれ、２および５に設定された内部ファクタＣおよびＳを有する、直交の４×４ＤＣＴ−ＩＩ構成７０Ａを表す。短い破線は、それぞれ、３および７に設定された内部係数ＣおよびＳを有する、直交の４×４ＤＣＴ−ＩＩ構成７０Ａを表す。一点鎖線は、それぞれ、５および１２に設定された内部係数ＣおよびＳを有する、直交の４×４ＤＣＴ−ＩＩ構成７０Ａを表す。特に、２および５に設定された内部ファクタＣおよびＳを有する、直交の４×４ＤＣＴ−ＩＩ構成７０Ａは、Ｈ．２６４構成よりも、理論上の最良のＤＣＴ−ＩＩ構成をより正確に近似する。さらに、３および７、または、５および１２に設定された内部ファクタＣおよびＳを有する、直交の４×４ＤＣＴ−ＩＩ構成７０Ａは、これらの構成がより複雑な構成を伴うにもかかわらず、２および５に設定された内部ファクタＣおよびＳを有する直交の４×４ＤＣＴ−ＩＩ構成７０Ａと比べて、ＰＳＮＲの点で、より大きな利得を提供しない。

図７Ｂは、本開示の技術にしたがって構築される、図４Ｂの構成７０Ｂのような、直交の、スケーリングされた４×４ＤＣＴ−ＩＩ構成に対する、ビットレートに対するピーク信号対雑音比（ＰＳＮＲ）のグラフ１２０Ｂを図示する図である。グラフ１２０Ｂの略語にしたがうと、実線は、Ｈ．２６４ビデオコード化標準規格により取り入れられた、標準規格の直交の４×４ＤＣＴ−ＩＩ構成を表す。点線は、無理数の乗算と加算とを実行できる、理論上の最良のＤＣＴ構成を表す。短い破線は、それぞれ、１および２に設定された内部ファクタＣおよびＳを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂを表す。長い破線は、それぞれ、２および５に設定された内部係数ＣおよびＳを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂを表す。一点鎖線は、それぞれ、５および１２に設定された内部係数ＣおよびＳを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂを表す。特に、２および５に設定された内部ファクタＣおよびＳを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂは、Ｈ．２６４構成と比較して、ＰＳＮＲの点で、あまり優れていない。しかしながら、１および２に設定された内部ファクタＣおよびＳを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂは、理論上のＤＣＴ構成でさえよりも、良好なＰＳＮＲを提供し、一方、５および１２に設定された内部ファクタＣおよびＳを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｂは、理論上のＤＣＴ構成を最も正確に表す。

図７Ｃは、本開示の技術にしたがって構築される、図４Ｃの構成７０Ｃのような、代替の因数分解から導出される、ほぼ直交の、スケーリングされた４×４ＤＣＴ−ＩＩ構成に対する、ビットレートに対するピーク信号対雑音比（ＰＳＮＲ）のグラフ１２０Ｃを図示する図である。グラフ１２０Ｃの略語にしたがうと、実線は、Ｈ．２６４ビデオコード化標準規格により取り入れられた、標準規格の直交の４×４ＤＣＴ−ＩＩ構成を表す。点線は、無理数の乗算と加算とを実行できる、理論上の最良のＤＣＴ構成を表す。長い破線は、それぞれ、２および３に設定された内部ファクタＢおよびＡを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃを表す。短い破線は、それぞれ、５および７に設定された内部係数ＢおよびＡを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃを表す。一点鎖線は、それぞれ、２９および４１に設定された内部係数ＢおよびＡを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃを表す。特に、２および３に設定された内部ファクタＢおよびＡを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃは、Ｈ．２６４構成よりも、ＰＳＮＲの点で劣る。しかしながら、５および７に設定された内部ファクタＢおよびＡを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃは、２９および４１に設定された内部ファクタＢおよびＡを有する、ほぼ直交の４×４ＤＣＴ−ＩＩ構成７０Ｃの複雑さを必要とすることなく、Ｈ．２６４構成よりも良好なＰＳＮＲを提供し、理論上のＤＣＴ構成を正確に表す。

本開示の技術は、移動電話機のようなワイヤレス通信デバイスハンドセット、集積回路（ＩＣ）または１組のＩＣ（すなわち、チップセット）を含む、幅広いさまざまなデバイスまたは装置において実現可能である。機能の観点を強調するために、いくつかのコンポーネント、モジュールまたはユニットを記述し、提供してきたが、必ずしも、異なるハードウェアユニットによる実現を必要としない。ここで記述した技術はまた、ハードウェア中で、ソフトウェア中で、ファームウェア中で、あるいは、これらの任意の組み合わせ中で実現してもよい。モジュール、ユニットまたはコンポーネントとして記述された任意の機能を、集積論理デバイス中で一緒に、または、ディスクリートであるが相互運用可能なデバイスとして別々に、実現してもよい。いくつかのケースにおいて、集積回路チップまたはチップセットのような、集積回路デバイスとして、さまざまな機能を実現してもよい。

ソフトウェア中で実現する場合、プロセッサにおいて実行されるとき、上述した方法のうちの１つ以上を実行させる命令を含むコンピュータ読み取り可能媒体により、本技術を少なくとも部分的に実現してもよい。コンピュータ読み取り可能媒体は、物理的な構造であるコンピュータ読み取り可能記憶媒体を備えていてもよく、実装材料を含んでいてもよいコンピュータプログラムプロダクトの一部を形成してもよい。コンピュータ読み取り可能記憶媒体は、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）のようなランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的に消去可能なプログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光データ記憶媒体、および、これらに類似するものを備えていてもよい。この点で、コンピュータ読み取り可能記憶媒体は、いくつかの観点において、一時的ではないコンピュータ読み取り可能記憶媒体と考えてもよい。

コードまたは命令は、１つ以上のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラム可能論理アレイ（ＦＰＧＡ）、あるいは、他の同等の集積回路またはディスクリート論理回路のような、１つ以上のプロセッサにより実行してもよい。したがって、ここで使用する用語“プロセッサ”は、前述の構造またはここで記述した技術の実現に適した他の任意の構造のいずれをも指してもよい。さらに、いくつかの観点において、ここで記述した機能性は、エンコーディングおよびデコーディングのために構成された、専用のソフトウェアモジュールまたはハードウェアモジュール内で提供されてもよく、あるいは、結合されたビデオコーデック中に組み込まれていてもよい。また、１つ以上の回路または論理素子中で、本技術を完全に実現してもよい。

本開示はまた、本開示中で記述した技術のうちの１つ以上を実現する回路を含む、さまざまな集積回路デバイスのいずれをも考慮する。そのような回路は、単一の集積回路チップ中で、または、いわゆるチップセットにおける複数の相互運用可能な集積回路チップ中で、提供してもよい。そのような集積回路は、さまざまなアプリケーション中で使用してもよく、集積回路デバイスのいくつかは、移動電話機ハンドセットのようなワイヤレス通信デバイス中での使用を含んでいてもよい。

本技術のさまざまな観点を記述した。これらの、および他の観点は、次の特許請求の範囲の範囲内である。

Claims

装置において、
スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、前記スケーリングされたファクタに関連している前記第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を有する直交の４×４離散コサイン変換（ＤＣＴ）を実現する、４×４ＤＣＴハードウェアユニットを具備し、
前記４×４ＤＣＴハードウェアユニットは、前記４×４ＤＣＴ構成を、メディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する装置。
前記内部ファクタＣは１に等しく、
前記内部ファクタＳは２に等しい請求項１記載の装置。
前記内部ファクタＣは２に等しく、
前記内部ファクタＳは５に等しい請求項１記載の装置。
前記内部ファクタＣは３に等しく、
前記内部ファクタＳは７に等しい請求項１記載の装置。
前記内部ファクタＣは５に等しく、
前記内部ファクタＳは１２に等しい請求項１記載の装置。
前記内部ファクタＣは１７に等しく、
前記内部ファクタＳは４１に等しい請求項１記載の装置。
前記４×４ＤＣＴハードウェアユニットは、前記４×４ＤＣＴ構成を前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定し、
前記装置は、１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定する量子化ユニットをさらに具備する請求項１記載の装置。
前記４×４ＤＣＴハードウェアユニットは、前記直交の４×４ＤＣＴを実現するソフトウェアを実行するプロセッサを備える請求項１記載の装置。
方法において、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、直交の４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを含み、
前記直交の４×４ＤＣＴ構成は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、前記スケーリングされたファクタに関連している前記第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む方法。
前記内部ファクタＣは１に等しく、
前記内部ファクタＳは２に等しい請求項９記載の方法。
前記内部ファクタＣは２に等しく、
前記内部ファクタＳは５に等しい請求項９記載の方法。
前記内部ファクタＣは３に等しく、
前記内部ファクタＳは７に等しい請求項９記載の方法。
前記内部ファクタＣは５に等しく、
前記内部ファクタＳは１２に等しい請求項９記載の方法。
前記内部ファクタＣは１７に等しく、
前記内部ファクタＳは４１に等しい請求項９記載の方法。
前記直交の４×４ＤＣＴ構成を適用することは、前記直交の４×４ＤＣＴ構成を前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定することを含み、
前記方法は、１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定することをさらに含む請求項９記載の方法。
装置において、
直交の４×４離散コサイン変換（ＤＣＴ）構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する手段を具備し、
前記直交の４×４ＤＣＴ構成は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、前記スケーリングされたファクタに関連している前記第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む装置。
前記内部ファクタＣは１に等しく、
前記内部ファクタＳは２に等しい請求項１６記載の装置。
前記内部ファクタＣは２に等しく、
前記内部ファクタＳは５に等しい請求項１６記載の装置。
前記内部ファクタＣは３に等しく、
前記内部ファクタＳは７に等しい請求項１６記載の装置。
前記内部ファクタＣは５に等しく、
前記内部ファクタＳは１２に等しい請求項１６記載の装置。
前記内部ファクタＣは１７に等しく、
前記内部ファクタＳは４１に等しい請求項１６記載の装置。
前記４×４ＤＣＴ構成を前記メディアデータに適用する手段は、前記４×４ＤＣＴ構成を適用して、１つ以上のＤＣＴ係数を決定する手段を備え、
前記装置は、１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定する手段をさらに具備する請求項１６記載の装置。
命令を記憶している非一時的コンピュータ読み取り可能記憶媒体において、
プロセッサにより実行されるとき、前記命令は、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、直交の４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを前記プロセッサに生じさせ、
前記直交の４×４ＤＣＴ構成は、スケーリングされたファクタ（ξ）が、第１の内部ファクタ（Ｃ）の２乗と、第２の内部ファクタ（Ｓ）の２乗との合計の平方根に等しいように、前記スケーリングされたファクタに関連している前記第１および第２の内部ファクタ（Ｃ、Ｓ）を適用する奇数部を含む、非一時的コンピュータ読み取り可能記憶媒体。
装置において、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットを具備し、
前記ＤＣＴモジュールは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を有する非直交の４×４ＤＣＴを実現し、
変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、前記非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表し、
前記４×４ＤＣＴハードウェアユニットは、前記４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する装置。
前記内部ファクタＣは１に等しく、
前記内部ファクタＳは２に等しい請求項２４記載の装置。
前記内部ファクタＣは２に等しく、
前記内部ファクタＳは５に等しい請求項２４記載の装置。
前記内部ファクタＣは５に等しく、
前記内部ファクタＳは１２に等しい請求項２４記載の装置。
前記４×４ＤＣＴモジュールは、前記非直交の４×４ＤＣＴ構成を前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定し、
前記装置は、前記１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定する量子化ユニットをさらに具備する請求項２４記載の装置。
前記４×４ＤＣＴハードウェアユニットは、前記非直交の４×４ＤＣＴを実現するソフトウェアを実行するプロセッサを備える請求項２４記載の装置。
方法において、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを含み、
前記非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を含み、
変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、前記非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す方法。
前記内部ファクタＣは１に等しく、
前記内部ファクタＳは２に等しい請求項３０記載の方法。
前記内部ファクタＣは２に等しく、
前記内部ファクタＳは５に等しい請求項３０記載の方法。
前記内部ファクタＣは５に等しく、
前記内部ファクタＳは１２に等しい請求項３０記載の方法。
前記非直交の４×４ＤＣＴを適用することは、前記非直交の４×４ＤＣＴを前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定することを含み、
前記方法は、前記１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定することをさらに含む請求項３０記載の方法。
装置において、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する手段を具備し、
前記非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を含み、
変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、前記非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す装置。
前記内部ファクタＣは１に等しく、
前記内部ファクタＳは２に等しい請求項３５記載の装置。
前記内部ファクタＣは２に等しく、
前記内部ファクタＳは５に等しい請求項３５記載の装置。
前記内部ファクタＣは５に等しく、
前記内部ファクタＳは１２に等しい請求項３５記載の装置。
前記非直交の４×４ＤＣＴを適用する手段は、前記非直交の４×４ＤＣＴを前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定する手段を備え、
前記装置は、前記１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定する手段をさらに具備する請求項３５記載の装置。
命令を記憶している非一時的コンピュータ読み取り可能記憶媒体において、
プロセッサにより実行されるとき、前記命令は、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを前記プロセッサに生じさせ、
前記非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の変数（Ｃ、Ｓ）を適用する奇数部を含み、
変数ωおよびψは、無理数の内部変換ファクタを表し、変数ＣおよびＳは、前記非直交の４×４ＤＣＴの整数の構成において、変数ωおよびψの代わりに使用される２進有理数の内部変換ファクタを表す、非一時的コンピュータ読み取り可能記憶媒体。
装置において、
以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を有する非直交の４×４離散コサイン変換（ＤＣＴ）を実現する４×４ＤＣＴハードウェアユニットを具備し、
前記スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、前記第１の内部ファクタ（Ａ）と前記第２の内部ファクタ（Ｂ）との合計に等しく、
前記４×４ＤＣＴハードウェアユニットは、前記４×４ＤＣＴ構成をメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する装置。
前記内部ファクタＡは３に等しく、
前部内部ファクタＢは２に等しい請求項４１記載の装置。
前記内部ファクタＡは７に等しく、
前記内部ファクタＢは５に等しい請求項４１記載の装置。
前記内部ファクタＡは２９に等しく、
前記内部ファクタＢは４１に等しい請求項４１記載の装置。
前記４×４ＤＣＴハードウェアユニットは、前記非直交の４×４ＤＣＴ構成を前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定し、
前記装置は、前記１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定する量子化ユニットをさらに具備する請求項４１記載の装置。
前記４×４ＤＣＴハードウェアユニットは、前記非直交の４×４ＤＣＴを実現するソフトウェアを実行するプロセッサを備える請求項４１記載の装置。
方法において、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを含み、
前記非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を含み、
前記スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、前記第１の内部ファクタ（Ａ）と前記第２の内部ファクタ（Ｂ）との合計に等しい方法。
前記内部ファクタＡは３に等しく、
前部内部ファクタＢは２に等しい請求項４７記載の方法。
前記内部ファクタＡは７に等しく、
前記内部ファクタＢは５に等しい請求項４７記載の方法。
前記内部ファクタＡは２９に等しく、
前記内部ファクタＢは４１に等しい請求項４７記載の方法。
前記非直交の４×４ＤＣＴを適用することは、前記非直交の４×４ＤＣＴを前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定することを含み、
前記方法は、前記１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定することをさらに含む請求項４７記載の方法。
装置において、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換する手段を具備し、
前記非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を含み、
前記スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、前記第１の内部ファクタ（Ａ）と前記第２の内部ファクタ（Ｂ）との合計に等しい装置。
前記内部ファクタＡは３に等しく、
前部内部ファクタＢは２に等しい請求項５２記載の装置。
前記内部ファクタＡは７に等しく、
前記内部ファクタＢは５に等しい請求項５２記載の装置。
前記内部ファクタＡは２９に等しく、
前記内部ファクタＢは４１に等しい請求項５２記載の装置。
前記非直交の４×４ＤＣＴを適用する手段は、前記非直交の４×４ＤＣＴを前記メディアデータに適用して、１つ以上のＤＣＴ係数を決定する手段を備え、
前記装置は、前記１つ以上のＤＣＴ係数の前記スケーリングファクタ（ξ）を使用して、量子化されたＤＣＴ係数を決定する手段をさらに具備する請求項５２記載の装置。
命令を記憶している非一時的コンピュータ読み取り可能記憶媒体において、
プロセッサにより実行されるとき、前記命令は、
４×４離散コサイン変換（ＤＣＴ）ハードウェアユニットにより、非直交の４×４ＤＣＴをメディアデータに適用して、空間領域から周波数領域に前記メディアデータを変換することを前記プロセッサに生じさせ、
前記非直交の４×４ＤＣＴは、以下の等式

によるスケーリングされたファクタ（ξ）に関連している第１および第２の内部ファクタ（Ａ、Ｂ）を適用する奇数部を含み、
前記スケーリングファクタ（ξ）は、２の平方根により除算された１を加えた１により除算された、前記第１の内部ファクタ（Ａ）と前記第２の内部ファクタ（Ｂ）との合計に等しい、非一時的コンピュータ読み取り可能記憶媒体。