JP2005354686A

JP2005354686A - ビデオ内のマクロブロック毎に最適な符号化モードを選択するための方法およびシステム

Info

Publication number: JP2005354686A
Application number: JP2005159410A
Authority: JP
Inventors: Jun Xin; ジュン・シン; Vetro Anthony; アンソニー・ヴェトロ; Huifang Sun; ハイファン・スン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2004-06-01
Filing date: 2005-05-31
Publication date: 2005-12-22
Also published as: US20050276493A1

Abstract

【課題】ビデオ内のマクロブロック毎に最適な符号化モードを選択する方法を提供する。
【解決手段】複数の候補符号化モードが存在し、各マクロブロックは１組のマクロブロック区画を含み、入力マクロブロック区画の入力変換係数と予測されるマクロブロック区画の変換係数との間の差が変換ドメインにおいて判定され、その差は量子化され、量子化された差が生成される。量子化された差に関して逆量子化が実行され、再構成された差が生成される。量子化された差を符号化するために必要とされるレートが判定され、その差と、再構成された差とに基づいて歪みが判定される。その後、レートおよび歪みに基づいて候補モード毎にコストが判定され、最小コストを生成する候補符号化モードが、そのマクロブロックのための最適な符号化モードとして選択される。
【選択図】図３

Description

本発明は包括的にはビデオ符号化に関し、より詳細にはビデオ符号化のためのマクロブロック符号化モードを選択することに関する。

ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４、Ｈ．２６１、Ｈ．２６３およびＨ．２６４／ＡＶＣを含む国際ビデオ符号化標準規格は全て、動き補償された予測を用いて時間的な相関を除去し、変換を用いて空間的な相関を除去する基本ハイブリッド符号化フレームワークに基づく。

ＭＰＥＧ−２は、ＩＳＯ／ＩＥＣの動画像符号化専門グループ（ＭＰＥＧ）によって開発されたビデオ符号化標準規格である。それは現在、最も広く用いられているビデオ符号化標準規格である。その応用形態は、デジタルテレビジョン放送、直接衛星放送、ＤＶＤ、ビデオ監視などを含む。ＭＰＥＧ−２および種々の他のビデオ符号化標準規格において用いられる変換は離散コサイン変換（ＤＣＴ）である。それゆえＭＰＥＧで符号化されるビデオはＤＣＴ係数を用いる。

Ｈ．２６４／ＡＶＣ標準規格による次世代ビデオ符号化は、ＭＰＥＧ−２を含む初期の標準規格よりも圧縮効率を大幅に改善することを意図している。この標準規格は、効率的なビデオ蓄積、テレビ会議、およびＤＳＬ上でのビデオ放送を含む広範な応用形態を有することが期待される。ＡＶＣ標準規格は、これ以降、ＨＴと呼ばれる簡易型（Low-complexity）の整数変換を用いる。それゆえ、符号化されたＡＶＣビデオはＨＴ係数を用いる。

そのような標準的な従来技術のビデオ符号器１００の基本的な符号化過程が図１に示される。入力ビデオ１０１の各フレームがマクロブロックに分割される。各マクロブロックは変換／量子化１０４およびエントロピー符号化１１５にかけられる。変換／量子化１０４の出力は逆量子化／変換１０５にかけられる。動き推定１０９が実行され、ピクセルバッファ１０７の容量を考慮して、符号化モード決定１１０が行われる。符号化モード決定は、最適な符号化モード１２０を生成する。その後、予測１０８の結果が入力信号から減算され１０３、誤差信号が生成される。また予測の結果は逆量子化／変換の出力に加算され１０６、ピクセルバッファに記憶される。

出力１０２には、現在のフレームだけからの情報を用いる、イントラマクロブロックとして符号化されるマクロブロックを用いることができる。別法では、出力１０２には、動き推定によって現在のフレームおよび先行するフレームから推定される動きベクトルを用いて予測される、インターマクロブロックとして符号化されるマクロブロックを用いることができる。イントラ予測あるいはインター予測を実行するための様々な方法がある。

一般的に、ビデオの各フレームは複数のマクロブロックに分割され、各マクロブロックは、よりサイズの小さい複数のブロックからなる。マクロブロックは符号化の基本単位であり、一方、ブロックは典型的には変換の大きさに対応する。たとえば、ＭＰＥＧ−２およびＨ．２６４／ＡＶＣはいずれも１６×１６マクロブロックを規定する。しかしながら、ＭＰＥＧ−２のブロックサイズは８×８であり、８×８ＤＣＴおよび逆ＤＣＴ演算に対応する。一方、Ｈ．２６４／ＡＶＣのブロックサイズは４×４であり、４×４ＨＴおよび逆ＨＴ演算に対応する。

或る共通の予測を共有するマクロブロック内のピクセルのグループを参照するために、多くの場合にマクロブロック区画の概念が用いられる。マクロブロック、ブロックおよびマクロブロック区画の大きさは等しいとは限らない。許容できる１組のマクロブロック区画は典型的には、符号化方式によって異なる。

たとえば、ＭＰＥＧ−２では、１６×１６マクロブロックは２つの８×１６マクロブロック区画を有することができ、各マクロブロック区画は個別の動き補償された予測を受ける。しかしながら、動き補償に差がある結果として、各区画は８×８ブロックとして符号化することができる。一方、ＡＶＣは非常に広範な、許容できる１組のマクロブロック区画を定義する。たとえば、１６×１６マクロブロックは、１つのマクロブロック内に８×８、４×４、４×８および８×４マクロブロック区画の組み合わせを有することができる。その後、マクロブロック区画毎に個別に予測を実行することができるが、符号化は依然として４×４ブロックに基づく。

符号器は、最良のマクロブロック区画、およびマクロブロック区画毎の予測モードを含む、マクロブロックのための符号化モードを選択し、ビデオ符号化性能が最適化されるようにする。選択過程は従来どおりに、「マクロブロックモード決定」と呼ばれる。

最近開発されたＨ．２６４／ＡＶＣビデオ符号化標準規格では、マクロブロックを符号化するために数多くの利用可能なモードがある。Ｉ−スライス内のマクロブロックのために利用可能な符号化モードとしては、ルマサンプルの場合にイントラ＿４×４予測およびイントラ＿１６×１６予測があり、クロマサンプルの場合にイントラ＿８×８予測がある。

イントラ＿４×４予測では、各４×４マクロブロック区画は、Ｈ．２６４／ＡＶＣ標準規格によって定義される９つの予測モードのうちの１つを用いて符号化することができる。イントラ＿１６×１６およびイントラ＿８×８予測では、各１６×１６あるいは８×８マクロブロック区画は、４つの定義された予測モードのうちの１つを用いて符号化することができる。Ｐ−スライスあるいはＢ−スライス内のマクロブロックの場合、Ｉ−スライスのために利用可能な符号化モードに加えて、マクロブロック区画および参照フレームの種々の組み合わせを用いて、さらに多くの符号化モードを利用することができる。全てのマクロブロック符号化モードは、異なるレート−歪み（ＲＤ）トレードオフを与える。

本発明の目的は、レート（Ｒ）および歪み（Ｄ）の両方に対して性能を最適化するマクロブロック符号化モードを選択することである。

典型的には、レート−歪み最適化は、ラグランジュ乗数を用いて、マクロブロックモード決定を行う。レート−歪み最適化は、マクロブロックのための候補符号化モード毎にラグランジュコストを求め、最小ラグランジュコストを有するモードを選択する。

マクロブロックを符号化するためにＮ個の候補モードがある場合には、ｎ番目の候補モードＪ_ｎのラグランジュコストは、次式で表されるマクロブロック区画のラグランジュコストの和である。

ただし、Ｐ_ｎはｎ番目の候補モードのマクロブロック区画の数である。マクロブロック区画は、予測モードに応じて異なるサイズからなることができる。たとえば、区画サイズは、イントラ＿４×４予測の場合に４×４であり、イントラ＿１６×１６予測の場合に１６×１６である。

ｎ番目のマクロブロックのｉ番目の区画のための候補符号化モードの数がＫ_ｎ，ｉである場合には、このマクロブロック区画のコストは以下のとおりである。

ただし、ＲおよびＤはそれぞれレートおよび歪みであり、λはラグランジュ乗数である。ラグランジュ乗数は、マクロブロック符号化のレート−歪みトレードオフを制御し、量子化パラメータから導出することができる。上記の式は、ｎ番目のマクロブロックのｉ番目の区画のラグランジュコストＪ_ｎ，ｉが、この区画のための候補符号化モードによって生成されるＫ_ｎ，ｉ個のコストの最小値になるように選択されることを述べている。それゆえ、この区画の最適符号化モードは、Ｊ_ｎ，ｉを生成するモードである。

マクロブロックのための最適な符号化モードは、最小コストを生成する候補モードであるように選択され、すなわち以下の式が成り立つ。

図２は、マクロブロック区画の符号化モードのためのラグランジュコスト、すなわちＪ_{ｎ，ｉ，ｋ}を計算する従来の過程を示す。入力マクロブロック区画１０１とその予測２０１との間の差２０２が判定され２２１、ＨＴ変換され２２２（すなわちＨＴ変換はＨ．２６４／ＡＶＣ標準規格に従って４×４変換である）、量子化され２２３、レート２０８が計算される２２７。量子化されたＨＴ係数２０４は逆量子化（ＩＱ）２２４、逆ＨＴ変換２２５および予測補償２２０にもかけられ、マクロブロック区画が再構成される２２６。その後、再構成されたマクロブロック区画２０７と入力マクロブロック区画１０１との間の歪み２２８が計算される。最終的には、レート２０８および歪み２０９を用いて、最小ラグランジュコスト２３０が計算される２２９。その際、最適な符号化モード１２０は、最小コストを有するモードに対応する。

Ｈ．２６４／ＡＶＣ標準規格に従ってマクロブロックを符号化するために利用することができるモードが数多くあるので、ラグランジュコストを判定するためのこの過程は、何度も実行される必要がある。それゆえ、レート−歪み最適化符号化モード決定の計算は非常に負荷が高い。

したがって、Ｈ．２６４／ＡＶＣビデオ符号化において効率的なレート−歪み最適化マクロブロックモード決定を実行することが必要とされている。

方法は、ビデオ内のマクロブロック毎に最適な符号化モードを選択する。各マクロブロックは、多数の候補符号化モードに従って符号化することができる。

入力マクロブロックと予測されるマクロブロックとの間の差が変換ドメインにおいて判定される。その差は量子化され、量子化された差が生成される。量子化された差に関して逆量子化が実行され、再構成された差が生成される。

量子化された差を符号化するために必要とされるレートが判定される。その差と、再構成された差とに基づいて歪みが判定される。その後、レートおよび歪みに基づいて候補モード毎にコストが判定され、最小コストを生成する候補符号化モードが、そのマクロブロックのための最適な符号化モードとして選択される。

本発明はラグランジュコストを判定するための方法を提供し、それによれば、レート−歪みを最適化されたマクロブロックモードが効率的に決定される。

［方法およびシステムの概要］
図３は、ビデオ内のマクロブロック毎に複数の利用可能な候補符号化モードから最適な符号化モードを選択するための、本発明による方法およびシステム３００を示す。その選択は、マクロブロック区画の符号化モードのためのラグランジュコストに基づく。

入力マクロブロック区画１０１および予測される３１２マクロブロック区画予測３２２の両方がそれぞれＨＴ変換３１１および３１３にかけられる。各変換はそれぞれ入力３０１および予測された３０２ＨＴ係数を生成する。その際、入力ＨＴ係数３０１と予測されるＨＴ係数３０２との間の差３０３が判定される３１４。その差３０３は量子化され３１５、量子化された差３０４が生成され、そこから符号化レートＲ３０６が判定される３１７。

量子化された差のＨＴ係数は逆量子化３１６にもかけられ、差のＨＴ係数３０５が再構成される。その後、再構成されたＨＴ係数と入力差ＨＴ係数３０３とを用いて、歪み３０７が判定される３１８。

レートおよび歪みからラグランジュコストが判定された３１９後に、利用可能な候補符号化モードから、最小ラグランジュコスト３２０を生成するモードであるように、マクロブロック区画のための最適な符号化モード１２０が選択される３２５。

マクロブロックのためのマクロブロック区画および対応するモードの最適な組み合わせが、１組のマクロブロック区画のための個々のラグランジュコストを検査することにより判定される。最小の全体コストを生成する組み合わせが、マクロブロックのための最適な符号化モードとして選択される。

図２に示される従来技術の方法と比べると、本発明は以下の際立った特徴を有する。

本発明は、計算の負荷が高い従来技術の方法の逆ＨＴを排除する。このようにして、マクロブロック区画の再構成も本発明では省かれる。

ＨＴ３１１および３１３は、従来技術の場合のような、入力と予測される区画との差にではなく、入力および予測される区画の両方に適用される。

入力マクロブロック区画のＨＴ３１１は、モード決定過程全体において一度だけしか実行される必要がないのに対して、予測される区画のＨＴ３１３は、予測モード毎に実行される必要がある。それゆえ、本発明では、もう一度ＨＴを計算する必要がある。

しかしながら、後に説明されるように、予測される信号のＨＴは、いくつかあるイントラ予測モードの場合に、はるかに効率的に計算することができ、結果的な節約は、付加的なＨＴを相殺して余りあるであろう。

歪みは、従来技術の場合のようにピクセルドメインではなく、変換ドメインにおいて計算され、すなわち歪みはＨＴ係数を用いて直に計算される。以下の説明では、歪みが、ピクセルドメインにおいて一般的に用いられる差の二乗和（ＳＳＤ）による歪み指標に概ね等しくなるように、変換ドメインにおいて歪みを計算するための方法が提供される。

本明細書では、符号化システムとの関連で、出力のモード決定を効率的に計算するために上記の方法を用いることが強調されている。しかしながら、この方法は、入力および出力ビデオ形式が異なる変換カーネルに基づく場合を含む、ビデオをトランスコードすることにも適用することができる。

詳細には、上記の方法が、イントラフレームをＭＰＥＧ−２からＨ．２６４／ＡＶＣにトランスコードする際に用いられるときには、入力マクロブロック区画のＨＴ係数は、ＭＰＥＧ−２ビデオの変換係数から変換ドメインにおいて直に計算することができる。

それゆえ、この場合には、入力マクロブロック区画のＨＴも省かれる。

［イントラ予測されるＨＴ係数の判定］
ＨＴ係数を判定するための従来技術の方法は１−ＤＨＴ変換を、すなわち４つの列変換の後に４つの行変換を実行する。しかしながら、いくつかのイントラ予測される信号は、それらのＨＴ係数の計算をはるかに効率的にすることができる、或る特性を有する。

ここで、ＤＣ予測、水平予測および垂直予測のイントラ予測モードのためのＨＴ係数を判定するための効率的な方法が説明される。これらの予測モードは、ルマサンプルの場合にイントラ＿４×４およびイントラ＿１６×１６予測において、クロマサンプルの場合にイントラ＿８×８予測において用いられる。

以下の表記を用いて、本発明の詳細を説明する。
ｐ −予測される信号、４×４行列
Ｐ −予測される信号ｐのＨＴ係数、４×４行列
ｒ，ｃ −行および列インデックス、ｒ，ｃ＝１、２、３、４
× −乗算
（・）^Ｔ −転置行列
（・）^−１ −逆行列
Ｈ −Ｈ．２６４／ＡＶＣ変換（ＨＴ）カーネル行列
行列Ｈは以下のとおりである。

ＤＣ予測モードでは、ＤＣ予測値はｄｃであり、以下の式が成り立つ。

ｐ_ｄｃのＨＴ、すなわちＰ_ｄｃは、以下の式によって与えられるＤＣ係数を除いて全て０である。

それゆえ、ＤＣ予測のためのＨＴを計算するのに１回の演算しか必要としない。

水平予測モードでは、予測信号は以下の式によって表される。

を１−Ｄ水平予測ベクトルとする。その際、ｐ_ｈのＨＴは以下のとおりである。

式（７）は、行列Ｐ_ｈを、水平予測ベクトルＨ×ｈの１回の１−Ｄ変換と、４回のシフト演算とによって判定することができることを示唆する。これは、従来技術の方法において必要とされる８回の１−Ｄ変換よりもはるかに簡単である。

垂直予測モードでは、予測される信号は以下の式によって表される。

を１−Ｄ垂直予測ベクトルとする。その際、ｐ_ｖのＨＴは以下のとおりである。

式（９）は、Ｐ_ｖを、垂直予測ベクトルｖ×ＨＴの１回の１−Ｄ変換と、４回のシフト演算とによって判定することができることを示唆する。これは、従来技術の方法において必要とされる８回の１−Ｄ変換よりもはるかに簡単である。

上記の３つの予測モードの場合、３つの予測される信号Ｐ_ｄｃ、Ｐ_ｈおよびＰ_ｖは大部分が０の成分を有する。Ｐ_ｄｃは、１つだけ０以外の成分を有し、Ｐ_ｈは、その第１の列においてのみ０以外の成分を有し、Ｐ_ｖは、その第１の行においてのみ０以外の成分を有する。それゆえ、入力ＨＴ係数と予測されるＨＴ係数との間の差を判定すること３１４に関する複雑さも軽減される。

他のモード、すなわち対角方向に沿って予測するモードの場合にも、変換された予測を求めるための計算を同様に軽減することができる。

［変換ドメインにおける歪みの判定］
以下の説明では、歪みがピクセルドメインにおいて一般的に用いられる差の二乗和（ＳＳＤ）歪み指標と概ね同じであるように、変換ドメインにおいて歪みを判定する３１８ための方法が提供される。

ピクセルドメインのＳＳＤ歪みは、入力信号と再構成された信号との間で判定される。入力信号、再構成された信号、予測される信号、予測誤差および再構成された予測誤差はそれぞれｘ、ハットｘ、ｐ、ｅ、ハットｅである。それらは全て４×４行列である。ＳＳＤ歪みＤは以下のとおりである。

ｅのＨＴはＥであり、すなわち

であるので、当然、以下の式が成り立つ。

変数ハットＥは、その逆ＨＴが、ハットｅである信号であり、Ｈ．２６４／ＡＶＣ仕様において逆ＨＴの後のスケーリングを考慮に入れると、以下の式が成り立つ。

ただし、チルダＨ_ｉｎｖは、Ｈ．２６４／ＡＶＣ標準規格において用いられる逆ＨＴのカーネル行列である。

その目的は、歪み計算ブロック３１８への入力であるＥおよびハットＥから歪みを判定することである。

式（１１）および（１２）から、以下の式が成り立つ。

とし、そのとき、式（１３）および（１４）を式（１０）に代入すると、以下の式が得られる。

とする。そのとき、

であるので、（１５）は以下のようになる。

式（１６）を展開すると、以下の式が得られる。

それゆえ、歪みはその後、式（１７）から判定することができる。ただし、Ｙは式（１４）によって与えられる。

Ｈ．２６４／ＡＶＣ仕様において規定される逆ＨＴは、整数シフト演算を用いて、２の除算を実現するので、厳密には線形ではないことに留意されたい。それゆえ、上記の変換ドメイン歪みとピクセルドメインにおいて計算される歪みとの間にはわずかな丸め誤差がある。さらに、逆ＨＴの後に６４だけダウンスケーリングすることにより、近似誤差はさらに小さくされる。

本発明が例示として好ましい実施の形態によって説明されてきたが、本発明の精神および範囲内において種々の他の改変および変更がなされることができることは理解されたい。それゆえ、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入るような全てのそのような変形および変更を網羅することである。

標準的なビデオ符号器の従来技術の符号化過程のブロック図である。Ｈ．２６４／ＡＶＣ標準規格のためのマクロブロック区画のラグランジュコストおよびレート−歪み最適化モード決定を判定するための従来技術の方法のブロック図である。Ｈ．２６４／ＡＶＣ標準規格のための本発明によるマクロブロック区画のラグランジュコストおよびレート−歪み最適化モード決定を計算するための方法のブロック図である。

Claims

ビデオ内のマクロブロック毎に最適な符号化モードを選択するための方法であって、複数の候補符号化モードが存在し、各マクロブロックは１組のマクロブロック区画を含み、
入力マクロブロック区画の入力変換係数と、予測されるマクロブロック区画の予測される変換係数との間の差を判定すること、
前記差を量子化することによって、量子化された差を生成すること、
前記量子化された差に対して逆量子化を実行することによって、再構成された差を生成すること、
前記量子化された差を符号化するために必要とされるレートと、前記差および前記再構成された差に基づく歪みとを判定すること、
前記レートおよび前記歪みに基づいて前記複数の候補モードのモード毎にコストを判定すること、および
最小コストを生成する前記候補符号化モードを前記入力マクロブロック区画のための前記最適な符号化モードとして選択すること
を含む、ビデオ内のマクロブロック毎に最適な符号化モードを選択するための方法。
前記マクロブロック毎に、前記１組のマクロブロック区画のための前記最小コストを生成する前記最適な符号化モードを選択することをさらに含む
請求項１に記載の方法。
前記入力マクロブロック区画の前記入力変換係数、および前記予測されるマクロブロック区画のための前記予測される変換係数はピクセルドメインにおいて変換される
請求項１に記載の方法。
前記入力マクロブロック区画の前記入力変換係数は変換ドメインにおいて直に変換される
請求項１に記載の方法。
前記候補符号化モードはイントラモードおよびインターモードを含む
請求項１に記載の方法。
前記予測される変換係数は、ＤＣ予測モード、水平予測モードおよび垂直予測モードを含む、複数のイントラ予測モードの場合に判定される
請求項１に記載の方法。
前記ＤＣ予測モードのための前記予測される変換係数はＤＣ予測値に基づいて判定される
請求項６に記載の方法。
前記水平予測モードのための前記予測される変換係数は、１−Ｄ水平予測ベクトルの１回の変換に基づいて判定される
請求項６に記載の方法。
前記垂直予測モードのための前記予測される変換係数は、１−Ｄ垂直予測ベクトルの１回の変換に基づいて判定される
請求項６に記載の方法。
前記歪みは変換ドメインにおいて判定される
請求項１に記載の方法。
前記歪みは、ピクセルドメインにおける差の二乗和歪み指標によって近似される
請求項１に記載の方法。
前記最適な符号化モードは前記入力マイクロブロック区画をトランスコードするために用いられる
請求項１に記載の方法。
前記トランスコードすることは、１回の変換カーネルに基づく異なる形式への変換である
請求項１２に記載の方法。
前記トランスコードすることは、異なる変換カーネルに基づく異なる形式への変換である
請求項１２に記載の方法。
ビデオ内のマクロブロック毎に最適な符号化モードを選択するためのシステムであって、複数の候補符号化モードが存在し、各マクロブロックは１組のマクロブロック区画を含み、
入力マクロブロック区画の入力変換係数と、予測されるマクロブロック区画の予測される変換係数との間の差を判定するように構成される加算器と、
前記差に適用され、量子化された差を生成するための量子化器と、
前記量子化された差に適用され、再構成された差を生成するための逆量子化器と、
前記量子化された差を符号化するために必要とされるレートと、前記差および前記再構成された差に基づく歪みとを判定するための手段と、
前記レートおよび前記歪みに基づいて前記複数の候補モードのモード毎にコストを判定するための手段と、
最小コストを生成する前記候補符号化モードを前記入力マクロブロック区画のための前記最適な符号化モードとして選択するための手段と
を備える、ビデオ内のマクロブロック毎に最適な符号化モードを選択するためのシステム。