JP2000511366A6

JP2000511366A6 - ４分割ツリーベースの可変ブロックサイズ動き推定装置および方法

Info

Publication number: JP2000511366A6
Application number: JP1997518195A
Authority: JP
Inventors: チャン，ティーハオ; リー，ジャンウー; ション，ジシャン; ザン，ヤチン
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1995-10-25
Filing date: 1996-10-23
Publication date: 2004-07-08

Abstract

４分割ツリー構造に基づく可変ブロックサイズ（ＶＢＳ）動き推定を行うための最適な４分割ツリー構造を決定する方法と装置。この方法は、最大ブロックサイズから最小ブロックサイズまでの全４分割ツリーに対する動きベクトルを計算する。次に、本方法は各ブロックにたいする最適量子化器スケールを任意に選択出来る。本方法は次に、“ボトムアップ”から全てのサブブロックまたはサブノード（子供）の符号化による歪みの和を、そのサブノード（子供）に分割したブロックまたはノード（親）の符号化による歪みと比較する。前記子供の符号化による歪みの和が前記親の歪みより大きければ、そのノードを合成する。反対に、前記子供の符号化による歪みの和が前記親の歪みより小さければ、そのノードを分割し、前記親に対するラグランジェコストをその子供達のラグランジェコストの和として設定する。このステップを、最適な４分割ツリー構造が得られるまで全てのレベルの全てのノードに対して反復する。

Description

発明の属する技術分野
本願は1995年10月25日出願の米国仮出願No.60/007,017並びに1996年6月28日出願の米国仮出願No.60/020,514の利益を請求するものである。
本発明は、ビデオ画像シーケンスを符号化する方法と装置に関する。より詳細には、本発明は４分割ツリーベースの(quadtree-based)可変ブロックサイズの動きを推定するための動きベクトルを決定する際の計算オーバヘッドを減少させるための装置とそれに関連する方法に関する。
発明の背景
ディジタルビデオ技術の発展は、ビデオ圧縮コーデック（コーダ（符号器）／デコーダ（復号器））の高いコストの削減と異なるメーカの装置の互換性の解決が益々重要な問題になっている。これらの目的を達成するために、ＭＰＥＧ（Moving Picture Experts Group：動画専門家グループ）はＭＰＥＧによるＩＳＯ／ＩＥＣ国際規格11172(1991)（一般にＭＰＥＧ−１フォーマットと呼ばれる）及びＩＳＯ／ＩＥＣ国際規格13818(1995)（一般にＭＰＥＧ−２フォーマットと呼ばれる）が作成されており、参照のために、ここに完全引用する。しかしながら、ＭＰＥＧは有効なビットストリームを生成するのに必要な特有のアルゴリズムを規定していない。
動き推定に関して、ＭＰＥＧは各画像のための動きベクトルを計算する特有のアルゴリズムを定義しない。動きベクトルは、現在画像中の１ブロックの座標位置から参照フレーム内座標までのオフセットを提供するために計算される二次元ベクトルである。動きベクトルを用いることにより、現在フレーム内の変分だけを符号化し伝送すればよいので、伝送路で伝送する情報量が削減でき、画像圧縮をかなり向上させる。
一般的に、動きベクトルは固定サイズのブロックにつき計算される。先行参照画像をもとに各ブロックの動きに“最良”整合を求めて探索した後に各ブロック毎に１つの動きベクトルが生成される。しかしながら、大きいブロックサイズは一般に劣った動き推定となることから、大きな動き補償フレーム差分（誤差信号）を生み出す。反対に、小さいブロックサイズは一般に優れた動き推定となり、計算の複雑度が増大し、より多くの動きベクトルを受信側に伝送するためにオーバヘッドが増大する。このように、高い動きベクトルオーバーヘッドと良好な動き推定とのバランスが可変ブロックサイズ動き推定方法の眼目になる。
図１に任意可変のブロックサイズと位置を用いて画像を分割するという方法による動き推定の１つの方法を示す。この分割構造を伝送するための計算オーバヘッドは非常に高価で、例えば、ブロック毎の位置とサイズを記述する際のビットコストは非常に高い。
さらに、図１には所定の画像に対する最適なブロックサイズの決定という第２の問題がある。１つの方法は、全数探索を行うことであり、全ての可能な構造を所定の深さ又は許容ブロックサイズ数に分析する。４分割ツリー構造（以下に記述する）において、必要な探索数は全ての可能なサブツリーの数と同じであり、下記の帰納関係式で与えられる。
Ｃ_f（ｄ）＝１＋（Ｃ_f（ｄ−１））⁴ （１）
式中、ｄは木の最大深さ、Ｃ_f（ｄ）はｄと同じか又はそれ以下の深さを

９^*１０³⁰⁷となり、これは多くの実装にとって実際的でない。
従って、当該技術分野において、４分割ツリーによる可変ブロックサイズ動き推定のための動きベクトルを計算する際の計算処理のオーバヘッドを減少させる装置と方法が必要とされている。
発明の概要
本発明は、４分割ツリーによる可変ブロックサイズ（ＶＢＳ：Variable Block-Size）の動き評価のための最適な４分割ツリー構造の計算装置と方法である。この方法は先ず全ての可能なノード位置の動きベクトルを計算する。即ち、画像全体を全てのノードにつき最低レベルまで空間的に区分する。本方法は次に、“ボトムアップ”から全てのサブブロック又はサブノード（子供）の符号化による歪みの和を、そのサブノード（子供）に分割したブロックまたはノード（親）の符号化による歪みと比較する。子の符号化による歪みの和がその親の符号化による歪みより大きい場合は、そのノードは“合成（merge）”される。反対に、子の符号化による歪みの和がその親の符号化による歪みより小さい場合、そのノードは“分割(split)”され、親ノードに対するラグランジェコストはその子のラグランジェのコストの和として設定される。このステップは最適な４分割ツリー構造が得られるまで全てのレベルを通し全てのノードに対し反復される。
図面の簡単な説明
本発明の内容は、下記の詳細な説明を添付の図面を参照して検討すれば容易に理解出来るであろう。
図１は、任意の可変ブロックのサイズと位置を画像の分割に用いる動き推定のブロック図である。
図２は、本発明による装置のブロック図である。
図３は、４分割ツリー構造を示すブロック図である。
図４は、親ノードとその子ノードのラグランジェコスト間の関係を示す図である。
図５は、４分割ツリー構造と量子化器スケールの共同最適化のフローチャートである。
図６は、ＶＢＳ動き推定とＦＢＳ動き推定間の信号対雑音比（ＳＮＲ）の比較を示す図である。
図７は、ＶＢＳ動き推定とＦＢＳ動き推定間のビットレートの比較を示す図である。
図８は、ＶＢＳ動き推定のための輝度ビット、動きベクトルビット及び４分割ツリービットの結果を示す図である。
図９は、セールスマンシーケンスのＶＢＳ動き推定時にフレーム60に対し使用した４分割ツリー構造を示す図である。
図１０は、ウェーブレットの階層的サブバンド分解を示す図である。
図１１は、ウェーブレットの階層的サブバンド分解のためのサブサンプル画像の３世代の場合の親子関係を示す図である。
図１２は、ウェーブレットベースの本装置のブロック図である。
図１３は、均等ブロックサイズ構造を示す図である。
図１４は、アフィン動きモデルの不規則ブロック形状構造を示す図である。
図１５は、４分割ツリー構造動き補償グリッドを示す図である。
図１６は、図１５の可変ブロックのアフィン動き構造を示す図である。理解を容易にするために、可能な範囲で図面に共通な同一要素には同じ参照番号を付してある。
発明の実施の形態
本発明の装置と方法は、最適化問題を解くためのラグランジェの乗数処理により開発された。条件付き最適化問題は４分割ツリー構造（図３を参照して以下に記述する）と各ノードに対する量子化器スケールを、総歪みＤが総ビットバジェット拘束条件Ｒ_budget、に基づきに最小になるように同時に決定することである。この問題は、下式により表現される。

式中、ＳはＶＢＳ動き推定用の４分割ツリーであり、Ｑ＝Ｑ（Ｓ）は４分割ツリーＳ中の全ノードに対する量子化器スケールの集まり、ＲはＳとＱに対応するビットレートである。
この問題は、ラグランジェ乗数λ≦０に対応するラグランジエコストＬ（Ｓ，Ｑ）＝Ｄ（Ｓ，Ｑ）＋λＲ（Ｓ，Ｑ）を導入することにより無条件最小化問題のパラメータ化されたファミリー問題に変えられ、この問題は、次式で表される。

このように、式（３）の解（Ｓ^*，Ｑ^*）はＲ_budget＝Ｒ（Ｓ^*，Ｑ^*）の特定なケースの式（２）の解でもある。さらに、Ｒ（Ｓ^*，Ｑ^*）をＲ_budgetに等しくさせるλ^*を持つ式（３）中の無条件最適問題の解を得て、次に（Ｓ^*，Ｑ^*）で式（２）の中の条件付き問題を解決する。λとＲ（Ｓ，Ｑ）間には単調な関係（逆比例）があるので、λ^*に等しいλを０から∞まで走査して得る（図５を参照し以下に説明する）。
最後に、式（３）のラグランジェのコストを４分割ツリーの最適化と量子化器スケールの最適化に分解する。サブツリーＳの１つのノードをｎで表し、Ｓに属する全てのｎの集合をＡ_sで表す。コストは各ノードにおけるコストの合計として表現される。

式中、Ｌｎはノードｎに対するラグランジェコストであり、ｑ（ｎ）はそのノードに対する量子化器スケールである。上記の分解により、式（３）の共同最小化問題は２つの独立した最小化問題になる。１つは、Ｓに関し、もう１つはＱに関する。

式中、Ａ_Qはすべての許容される量子化器スケールの集合である。式（５）を解くために、最初のステップとして全４分割ツリー中の全てのノードに対する最良の量子化器スケール問題を解く。次のステップでは、前記ノードのラグランジェコストを最小にする最良のサブツリーＳを決定する。式（５）の問題の解法について図２と図５を参照し、以下に詳述する。図２には、４分割ツリーに基づく可変ブロックサイズの動きを推定するための動きベクトルを計算する際の計算処理オーバヘッドを減少させる本発明による装置200のブロック図である。本発明のこの好ましい実施例において、装置200はより複雑な可変ブロックに基づく動き補償符号化システムの部分または符号器である。装置200は、ブロック動き推定モジュール240と、動き補償モジュール250と、レートコントロルモジュール230と、離散コサイン変換（ＤＣＴ）モジュール260と、量子化（Ｑ）モジュールと270と、可変長符号化（ＶＬＣ）モジュール280と、バッファ（ＢＵＦ）290と、逆量子化（Ｑ^-1）モジュール275と、逆ＤＣＴ（ＤＣＴ^-1）変換モジュール265と、減算器215と加算器255より成る。装置200は複数のモジュールから成るが、当業者には種々のモジュールで実行される機能は図２に示すように別々のモジュールに分離しないでも良いことは理解できるであろう。例えば、動き補償モジュール250と逆量子化モジュール275と逆ＤＣＴ変換モジュール265とより成るモジュール１式は通常“埋め込み復号器”として知られている。
図２には、パス210に入力画像（画像シーケンス）が示されており、この入力画像はディジタル化され、ＭＰＥＧ規格に一致した１つの輝度信号と２つの異なる色信号（Ｙ，Ｃｒ，Ｃｂ）として表現される。これらの信号は、さらに、複数の層（シーケンス、画像グループ、画像、スライスおよびブロック）に分けられ、各画像（フレーム）は異なる寸法を有する複数のブロックにより表現される。１枚の画像をブロック単位に分けることにより、２枚の連続する画像間の変化を識別する能力を改善（下記に説明する）し、低振幅の変換係数の除去により画像の圧縮度を改善する。ディジタル化信号は、適当なウィンドウ、分解能と入力フォーマットを選択するためのフォーマットのような予備処理を適宜施される。好ましい実施例において、許容されるブロックサイズとブロックの位置は、図３に示すように４分割ツリー構造によって指示される。
図３に、５つのレベルを有する４分割ツリー構造の概念を示す。この４分割ツリー構造は可変サイズのブロックを許容するが、ブロックサイズと位置を予め定義された構造に制限する。
図示のように、４分割ツリー構造は完全な画像の単一ブロック310より成る初期レベル“０”から始まる。特に、初期ブロックは２５６×２５６ブロックであり、全ての入力画像はこのブロックサイズに切り落とす。４分割ツリー構造をさらに第２レベル“１”に区分する場合は、初期ブロックは４つのブロック320に分割する。ブロック320をさらに区分する必要があれば、各ブロック320を４つのブロック350に分割し、さらにブロック340に区分し、さらにサブブロック350等々にと区分することが出来る。この好ましい実施例の場合、許容されるブロックサイズのセットは、｛８，１６，３２，６４，１２８，２５６｝である。換言すれば、６層の４分割ツリー構造を選択している。しかしながら、当業者ならば、他のツリー構造および／または異なる層数を採用して本発明を変更できることは理解できるであろう。例えば、この４分割ツリーを、各ブロックを次のレベルで１６ブロックに分割する“１６分割ツリー”として実施出来る。
４分割ツリー構造は、より大きな動き推定を要する有意義差（動き情報）がある画像領域により小さいブロックを指定する効率的な方法を提供する。例えば、図３の４分割ツリー構造は、右上“分割”ブロック320に変位を有している画像に適している。他の“合成（merged）”ブロック320中の情報は参照画像と比較し変位を含んでおらず、より大きい歪みを導入する条件を付けることなくより大きいブロックサイズに対する動きベクトルで符号化出来る。
このように、この４分割ツリー構造は、図３の（破線で囲んだ）ブロック360又は図１のブロックで表すような任意のブロックサイズと配置を許さない。この制限は４分割ツリー構造をツリーずつするために受信側（図示せず）に送る情報を単純化する。例えば、図３の４分割ツリー構造は１３データビット、例えば、1,0100,0100,0100（コンマはデータセットの部分ではない）で有効に記述出来る。しかしながら、当業者ならば４分割ツリーを構造を記述するためにデータビットを用いる種々の方法を採用でき、例えば、頻繁に使用する４分割ツリー構造等を表現するために短縮ビットパターンを用いることは理解できよう。４分割ツリーを使用しなければ、各画像毎に受信側へブロック数、各々のブロックサイズ及び各々のブロック位置を記述するには何百ものビットを必要とする。このように、４分割ツリーのブロックサイズの可変度と位置に関するこの制限は、その構造を伝送する際のビットを削減することで相殺される。
図２に戻り、パス210の入力ビデオ画像は、動きベクトルを推定するために可変ブロック動き推定モジュール240に入力される。この可変ブロック動き推定モジュール240は、特に、画像全体に対する全ての可能なノード位置の動きベクトルを計算する。即ち、この４分割ツリーは満開、即ち、画像全体を全てのノードにつき空間的に最低レベルまで分割していると仮定する。かように、最大ブロックサイズから最小ブロックサイズまで４分割ツリー全体につき動きベクトルを計算する。
可変ブロック動き推定モジュール240からの動きベクトルは、サンプル値の予測の効率を改善するために動き補償モジュール250に送られる。この動き補償処理は、予測誤差を形成するために用いる、先に復号されたサンプル値を含んでいる過去及び／又は未来の基準フレームにオフセットを供給する動きベクトルを用いた予測処理を含んでいる。即ち、この動き補償モジュール250は先に復号されたフレームと動きベクトルを使用して現フレームの推定を構成する。
さらに、所定ブロックに対する動き補償予測の前に、符号化モードを選択しなければならない。符号化モード決定領域において、ＭＰＥＧは、複数の異なる符号化モードを規定している。一般に、これらの符号化モードは、２つの広い分類、インターモード（inter mode）符号化及びイントラモード（intra mode）符号化に大別される。イントラモード符号化は、１つのブロック又は１枚の画像を、同ブロックまたは同画像からの情報のみを用いて符号化する。これに反し、インターモード符号化は、１つのブロック又は１枚の画像を、同ブロックまたは同画像からの情報と異なる時間に発生したブロック又は画像からの情報の両方を用いて符号化する。特に、ＭＰＥＧ−２はイントラモードと、動き補償なし（ＮｏＭＣ）モードと、フレーム／フィールド／デュアル-プライム（dual-prime）動き補償インターモードと、前方／後方／平均インターモードと、フィールド／フレームＤＣＴモードを符号化モードを含む符号化モードを規定している。各ブロックに対するモードを正しく選択することによって、符号化の性能特性が向上する。符号器の設計者は、符号化モードを決定実施するために種々の方法を使用することが出来る。
符号化モードを選択すると、動き補償モジュール250は過去及び／又は未来の参照画像に基づきブロック内容の動き補償予測（予測画像）をパス252上に生成する。パス252上のこの動き補償画像をパス210上の現ブロック中のビデオ画像から減算器215で差し引いてパス253上に誤差信号または予測残差信号を形成する。この予測残差信号の形成により、入力ビデオ画像中の冗長情報が有効に除去される。即ち、伝送チャンネルで実際のビデオ画像を伝送する代わりに、ビデオ画像の予測を生成するに必要な情報と予測誤差のみを送信する。これにより、送信を要するデータ量をかなり削減できる。ビットレートをさらに削減するために、パス253上の予測残差信号をＤＣＴモジュール260に送り符号化する。
ＤＣＴモジュール260は前方離散コサイン変換プロセスを予測残差信号の各ブロックに適用し、８×８ブロックのＤＣＴ係数のセットを生成する。ＤＣＴ係数の８×８ブロック数は各ブロックのサイズに依存する。この離散コサイン変換は可逆離散直交変換であり、そこでのＤＣＴ係数はコサイン基関数の集合（セット）の振幅を表す。離散コサイン変換の利点は、ＤＣＴ係数が無相関であることである。ＤＣＴ係数の無相関は圧縮の場合に重要である。何故なら、各係数は圧縮効率の損失無く個別に処理できるからである。さらに、ＤＣＴ基関数又はサブバンド分割は、量子化の次の段階のために重要である視覚心理判定基準（psychovisual criteria）の有効使用を可能にする。
量子化モジュール270は生成された８×８ブロックのＤＣＴ係数を受け取り量子化する。量子化プロセスは、ＤＣＴ係数を量子化値のセットで割り適当に丸めて整数値にして表現し精度を低減させる。量子化値は、（視覚的に重みづけた量子化として知られる）基関数の可視性（visibility）に基づく判定基準を用いて各ＤＣＴ係数毎に個別に設定出来る。即ち、量子化値は、所定基関数の可視性に対する閾値、即ち、人間の目により正確に検出できる係数振幅に該当する。ＤＣＴ係数をこの値で量子化することにより、多数のＤＣＴ係数を“０”値に変換し、画像圧縮効率を向上させることができる。この量子化プロセスは画質を達成し、符号器を制御して出力を所定のビットレートに整合させる（レートコントロールの）ための重要な処理であり、重要なツールである。異なる量子化値を各DCT係数に適用できるので、“量子化マトリックス”を参照テーブル、例えば、輝度量子化テーブルまたは色量子化テーブルとして一般に設定する。このように、符号器は変換ブロック中の各周波数の量子化方法を決定する量子化マトリックスを選択する。
しかしながら、量子化誤差の主観的知覚は、周波数によってかなり変化し、周波数が高いほど粗い量子化値を使用できる有利さがある。即ち、人間の量子化誤差に対する知覚感度は空間周波数が高いほど低くなる。従って、高い周波数は、低い周波数より少ない許容値でより粗く量子化する。さらに、正確な量子化マトリックスは、このような意図するディスプレイの特性、視距離、画像源のノイズ量等の多数の外部パラメータに左右される。このように、応用又はフレームの個別シーケンスに対しても特殊な量子化マトリックスを適合させることは可能である。一般に、カスタム化した量子化マトリックスを圧縮ビデオ画像と共にコンテキスト（context）として保管できる。量子化器のスケールはレートコントローラ230によリ正しく選択される。図５を参照して以下に説明する。
次に、可変長符号化モジュール280は信号コネクタ271を介して８×８ブロックの量子化ＤＣＴ係数を受信し、量子化係数の二次元ブロックを“ジグザグ”順序で走査し量子化係数の一次元の列に変換する。このジグザグ走査順序はＤＣＴ係数を最低空間周波数から最高空間周波数までの近似遂次順序である。量子化は一般に高い空間周波数のＤＣＴ係数を０に減小させるので、代表的には量子化ＤＣＴ係数の一次元列を若干の整数とそれに続くゼロ列で表現する。
可変長符号化（ＶＬＣ）モジュール280が量子化ＤＣＴ係数の列と、ブロック形式及び動きベクトルのような全てのサイド情報を符号化する。ＶＬＣモジュール280は符号化効率を有効に改善するために可変長符号化とランレングス符号化を用いる。可変長符号化は可逆符号化プロセスであり、短い符号語（code-word）を頻度の高い事象に指定し、長い符号語を頻度の低い事象に指定する。一方、ランレングス符号化は記号列を単一記号で符号化することで符号化効率を高める。これらの符号化スキームは当該技術において公知であり、整数長符号語を使用する時にハフマン符号化と称されることも多い。かようにＶＬＣモジュール280は入力ビデオ画像を有効データストリームに変換する最終段階を実行する。
データストリームは“先入れ先出し（ＦＩＦＯ）”バッファ290に保管される。異なる画像形式と可変長符号化を用いる結果、ＦＩＦＯバッファへの総ビットレートは可変である。即ち、各フレームを符号化するために使用するビット数は異なり得る。固定レートチャンネルを含む用途の場合、ＦＩＦＯバッファを使用し符号器の出力をビットレートを平滑化するためのチャンネルに整合させる。このようにして、ＦＩＦＯバッファ290の出力信号は入力ビデオ画像210の圧縮表現となり、パス295で記憶媒体または電気通信チャンネルに送られる。
レートコントロールモジュール230はデータストリーム送信後、復号側（受信機又は目的の記憶装置（図示せず）内）でのオーバフローとアンダーフローを防止するためにＦＩＦＯバッファ290に入力するデータストリームのビットレートを監視し調整する働きをする。固定レートチャンネルが復号器内の入力バッファへ一定のレートでビットを入力すると仮定する。画像レートにより決まる一定の間隔で、復号器は入力バッファから次の画像用の全てのビットを即座に移動する。入力バッファ中のビットが少なすぎる、即ち、次の画像用の全ビットが受信されていない場合、入力バッファはアンダーフローになりエラーを生じる。同様に、入力バッファ中のビットが多すぎる、即ち、入力バッファが一画像と他画像の開始点間で容量超過になっていると、入力バッファはオーバフローになリオーバフローエラーを生じる。このように、レートコントロールモジュール230の役割は、バッファ290の状態を監視し符号器が生成するビット数を調整し、オーバフロー及びアンダーフロー状態を防止する。レートコントロールのアルゴリズムは、画像の質と圧縮効率に重要な役割を演じる。
現在、ビットレートを制御する１つの方法として量子化プロセスを変える方法があり、これは、入力画像の歪みに影響を与える。量子化器スケール（ステップサイズ）を変えることにより、ビットレートを変えて制御することができる。実例で説明すれば、バッファがオーバーフローに向かっている場合は、量子化器スケールを増加させねばならない。この動作により、量子化プロセスは追加のＤＣＴ係数を“ゼロ”値まで減じ、１つのブロックを符号化するのに必要なビット数を減少させる。これにより、実際にビットレートを減じ、潜在的なオーバフロー状態を除去する。
反対に、バッファがアンダーフローの方向に向かっている場合、量子化器のスケールを減少させねばならない。この動作により、非ゼロ（non-zero）量子化ＤＣＴ係数の数が増加し、１つのブロックを符号化するのに必要なビット数を増加させる。このように、ビットレートを増加し潜在的なオーバフロー状態を除去する。
本発明の好ましい実施例において、レートコントロールモジュール230は、各ノードにおける各ブロック毎に量子化器スケールを、完全なツリー中の全てのノードのラグランジェのコストを計算し各ノードに対する最良の量子化器スケールを発見して選択する。即ち、各ブロックを量子化器スケール（１−３１）の完全セットで符号化し最小のラグランジェのコストを生じる量子化器スケールをそのブロックに対して選択する。尚、当業者ならば異なる数値の量子化器スケールを使用できることは容易に理解できよう。量子化器スケールと４分割ツリー構造との合同最適化（joint optimization）方法につき、図５を参照し以下に詳述する。
量子化モジュール270からの量子化ＤＣＴ係数の８×８ブロックは、信号接続272を介して逆量子化モジュール275にも送られる。この段階で、符号器200は、次の符号化の参照フレームとして使用するために、データを復号して入力ビデオ画像のＩフレームとＰフレームを生成する。この逆量子化モジュール275は量子化ＤＣＴ係数を逆量子化することにより復号プロセスを開始する。即ち、量子化ＤＣＴ係数に量子化値のセットを乗じ、しかるべく整数値に丸める。
逆量子化した８×８ブロックのＤＣＴ係数を逆ＤＣＴモジュール265に送る。該モジュールは各ブロックを逆離散コサイン変換（ＤＣＴ）し復号エラー信号を生成する。このエラー信号を、動き補償モジュールからの予測信号に加算器255を用いて加算し復号参照画像（再構成画像）を生成する。一般に、Ｉフレーム又はＰフレームを復号して保管し、同時に最も古い保管参照フレームを除去する。
適切な４分割ツリー構造を選択するために、装置200は“ボトムアップ”（最低レベルから最高レベルまで）の方向で、全サブブロックまたはサブノード（子供）の符号化による歪みの合計をサブノードに区分されたブロック又はノードの符号化歪みと比較する。即ち、親ノードのラグランジェコストを子供ノードのラグランジェコストと比較して、その親を分割するか併合する。子供の符号化歪みの合計が親の符号化歪みより大きい場合、そのノードを“合成”する。反対に、子供の符号化歪みの合計が親の符号化歪みより小さい場合、そのノードを“分割”し、親ノードのラグランジェコストをその子供のラグランジェコストの合計として設定する。このステップを最適４分割ツリー構造が得られるまで、全てのレベルの全てのノードに対し反復する。
上述の枝刈り方法を説明するために、図４にレベルｉ（ｉ番目のレベル）の位置ｊ（ｊ番目の位置）における親ノードを示し、その子供のラグランジェコストをＬⁱ _jで表す。その子供ノードのラグランジェコストを次のように表し、そのノードを合成する。もしくは、そのノードを分割する。
この方法は、式（１）の全数探索法と比較して、計算オーバヘッドをかなり減少させる。この木の枝刈り法の複雑度は、ラグランジェコストの比較回数に比例する。この回数は、ボトムレベル（レベルｄ）を除く４分割ツリーの全ノード数と一致する。このように、複雑度は、次式で表される。

ｄ＝５の場合、複雑度Ｃｐ（５）は３４１である。このように、本方法は全数探索法に比し、約１０³⁰⁵倍の非常に有効な削減を達成する。
さらに、この方法は、完全に開花したツリーから開始し、木の上から下への“トップダウン”比較（探索パターン）に付随する極小を避けられるので最適な解が得られる。
図５に、本発明の好ましい実施例における４分割ツリー構造と量子化器スケールの合同最適化処理のフローチャートを示す。この方法500は４分割ツリー構造の各ブロックに対する最適な量子化器スケールを有する最適な４分割ツリー構造を導出するために公式化されている。その解は画像に割り当てられたバジェットビットレートを満足し、符号化画像の総歪みを最小にする。
以下、図５を参照して説明する。本方法はステップ505より始まり、ステップ510に進む。この方法は全ての可能なノード位置のベクトルを計算する。本方法は４分割ツリーの完全な開花、即ち、全画像を全てのノードにつき最低レベルまで空間的に区分することを保証する。このように、最大ブロックサイズから最小ブロックサイズまで全４分割ツリーに対する動きベクトルを計算する。全ブロックに対する動きベクトルをステップ520に送り、適当な量子化器スケールを計算する。
ステップ520において、本方法は各ノードに対する量子化を最適化する。本方法は全ての可能な量子化器スケール（例えば、１−３１）につき、各ブロックの歪みを計算し比較する。即ち、各ブロックを１から３１までの量子化器スケールの完全セットで符号化し、ラグランジェコストを最小にする量子化器スケールをそのブロックに対して選択する。
ステップ530において、本方法は、ｉをｄ−１に等しく設定する。ここで、ｉは現在の深さレベルであり、ｄは最深レベルである。本方法は、ボトムアップから最適の４分割ツリーの探索を開始する。ステップ540において、本方法は、最低レベルから最高レベルまで、現在の親レベルｎのラグランジエコストＬ_nをその子供ノードｃのラグランジェコストＬ_cの合計と比較する。実際に、本方法は、全てのサブブロックまたはサブノード（子）の符号化歪みの合計をそのサブノードに区分したブロックまたはノード（親）の符号化歪みと比較する。子供の符号化歪み（ラグランジェコスト）の合計が、親の符号化歪みより大きい場合、そのノードを合成する。反対に、子供の符号化歪み（ラグランジェコスト）の合計が、親の符号化歪みより小さい場合、そのノードを分割し、親ノードに対するＬ_nをその子供のＬ_cの合計として設定する。Ｌ_n←ΣＬ_cの効果は極小問題を除去する。この高速枝刈り法は、方法500を適当なハードウェアにおいてリアルタイムで実施できるように最適４分割ツリー構造を決定する際の計算複雑度を有効に減少させる。
ステップ550において、方法500は現レベルで残っている追加ノードがあるか問い合わせる。問い合わせに対する答えが肯定であれば、方法500はステップ540に戻り、次のノードの枝刈りをするかどうかを決定する。前記問い合わせに対する回答が否定であれば、方法500はステップ560に進む。
ステップ560において、方法500は、プロセスが４分割ツリーの最高レベル又はルート(root)まで到達したか問い合わせる。問い合わせに対する答えが否定であれば、方法500はステップ530に戻り、ステップ540と550を、次のレベルを枝刈りするまで繰り返す。前記問い合わせに対する回答が肯定であれば、本方法500はステップ570に進む。
ステップ570において、方法500は、選択したλがＲ（Ｓ^*，Ｑ^*）をＲ_budgetに等しくするλ^*と等しいか問い合わせる。本発明において、ラグランジェの乗数が固定されているものと仮定する。しかしながら、この乗数λはλを０から無限大までの範囲で掃き出す（sweep）ことにより反復計算できる。すなわち、掃き出し（sweep）の間に、Ｒ^*（λ）の値がＲ_budgetに等しくなるようなＳ^*，Ｑ^*及びＲ^*（λ）の解のセットを得る。Ｒ（λ）は単調減少関数であるので、２分探索を用いて先述のビットバジェット制約条件に対する歪みを最小にする所望のλを計算する。例えば、λ^*は下記の関係式から選択することができる。

式中、（Ｒ₁とＤ₁）と（Ｒ₂とＤ₂）のセットは、任意に選択した２つのλ₁とλ₂に対するビットレートと歪みである。一般に、λ₁は０のような低い数値に設定し、λ₂は1、000、000のような高い数値に設定する。式（７）から計算されたλ^*を使用し、その値がＲ^*（λ）をＲ_budgetに等しくする適切な数値であるかを調べる。λ^*が適切なλでなければ、式（７）に使用し、λ₁またはλ₂を置き換え、新しいλ^*を計算する。この反復プロセスは、Ｒ^*（λ）がＲ_budgetより少ないかまたは等しくなるまで継続する。一般に、λ^*は１０回以下の反復で得ることができる。
しかしながら、当業者ならば、多くの２分探索法（バイナリサーチ）があり、記述の方法は式（７）に限定されないことは容易に理解できよう。このようなアルゴリズムは、Yair Shoham及びAllen Gersho、“量子化器の任意セットに対する有効なビット割り当て”、ＩＥＥＥの音響、音声及び信号処理に関する会報、第36巻、No.9（1988年９月）に詳述されている。
このように、本方法500は、ステップ570において選択したλがＲ^*（λ）をＲ_budgetに等しくするλ^*に等しくないと判定すると、ステップ520に戻り、式（７）に従って異なるλを用いて本方法を繰り返す。問い合わせに対する回答が肯定であれば、方法500はステップ575に進み方法を終了するか、本方法を次の画像に対し繰り返す。
尚、本発明の複雑度をさらに低減するために、ステップ数を削減し方法を簡素化することが可能である。第１の簡素化は、先行画像のラグランジェ乗数を現在の画像のラグランジェ乗数として使用することにより、図５のステップ570を除去することである。第２の簡素化は、所与のサブツリーの全てのノードまたは４分割ツリーＳの全体に対し同一の量子化器スケールを採用することである。
最後の第３の簡素化は、４分割ツリー探索のためにグリーディ（Greedy）アルゴリズムを使用することである。所望の構造を得るために、完全４分割ツリーの枝刈りの代わりに、上記のツリー枝刈リアルゴリズムと同一のラグランジェコストの比較規則を使用し、４分割ツリーをトップからボタムまでグリーディに成長させることができる。このグリーディ法の場合、全ての可能なノードに対しレート−歪みデータを生成する必要はない。成長中のツリーのノードに対するデータのみが計算を要する。しかしながら、この方法により得た解は極小問題のために最適ではない。
セールスマンシーケンスでのシミュレーションを行い、最適ＶＢＳ動き推定の性能と１６×１６の固定ブロックサイズ（ＦＢＳ）の従来の動き推定の性能を比較した。比較のために、同じ量子化器スケールの最適化ルーチンと同じ残差符号器を両方の場合に使用する。さらに、輝度（Ｙ）のみを符号化し、前方動き補償のみを用いて符号化の遅れを減少させる。このシミュレーションはセールスマンシーケンスの120フレームを２５６×２５６のサイズに刈り込み（crop）、フレームレートをビットレート64キロビット／秒に対し１０フレーム／秒とした。
図６と図７に、セールスマンシーケンスに対する信号ノイズ比（ＳＮＲ）の結果と６４kb/sec.時のビットレート結果を示す。ＶＢＳ動き推定方法はＦＢＳ動き推定方法より1.7デシベルだけ向上する。ＶＢＳ方法の場合の平均ＳＮＲとＦＢＳ方法の場合の平均ＳＮＲは各々３２．５４デシベルと３０．８４デシベルであった。
図８には、輝度データと、動きベクトルと、４分割ツリー表現のビットレート曲線を示す。図９には、セールスマンシーケンスのフレーム60に対しＶＢＳ法で使用した最適４分割ツリーを示す。
第２の好ましい実施例においては、上記の方法をウェーブレットベースのスキームに適用する。ウェーブレットベースの補償は、1992年3月にカリフオルニア州サンフランシスコ市にて開催された音響、音声及び信号処理に関する国際会議の議事録第・巻、657-660頁）に記載されている圧縮技法である。同資料には、階層サブバンド分解又はウェーブレット変換を行い、ゼロツリーを含む階層的遂次近似エントロピー符号化量子化器を後続する信号圧縮システムが記述されている。マルチ解像度階層サブバンド表現を用いる信号データの表現はBurt他によりＩＥＥＥの通信に関する会報（第31巻、No.4、1993年４月、533頁）に開示されている。臨界サンプリング直交ミラーフィルター（critically sampled quadrature-mirror filter）（ＱＭＦ）サブバンド表現とも呼ばれるウェーブレットピラミッドは画像のマルチ解像度階層的サブバンド表現である。このウェーブレットピラミッドはPentrand他が1991年4月8-11日に米国ユタ州スノーバード市にて開催されたデータ圧縮会議の論文集中で開示している。ＱＭＦサブバンドピラミッドは、“サブバンド画像符号化”（J.W.Wood編、Kluwer Academic出版社、1991年）と“ウェーブレットに関する１０の講義”（I.Daubechies，工業及び応用数学の学会（ＳＩＡＭ）、米国ペンシルヴアニア州フィラデルフィア，1992年）に記述されている。また、フレーム間（インターフレーム）ウェーブレットビデオ圧縮スキームが、1996年2月27日に発行された動画像復号化に関する米国特許No.5,495,292に開示されている。
さらに、ウェーブレットに基づく圧縮技法が、1995年5月2日に発行された米国特許No.5,412,741に開示されており、本明細書においてもこれを参照する。同技法は、階層画像表現のために埋込みゼロツリーウェーブレット（ＥＺＷ）の導出に離散ウェーブレット変換（ＤＷＴ）を使用することを記述している。この階層表現は、次に、エントロピー符号化を使用して有効に符号化される。
ウェーブレットの階層サブバンド分解の場合、画像は２回ずつサンプリングされ高水平−高垂直（ＨＨ）周波数サブバンド、高水平−低垂直（ＨＬ）周波数サブバンド、低水平−高垂直（ＬＨ）周波数サブバンド、低水平−低垂直（ＬＬ）周波数サブバンドに分解される。ＬＬサブバンドはさらに２回ずつサブサンプリングされて、ＨＨ，ＨＬ，ＬＨ及びＬＬのサブバンドのセット（組）を生成する。このようなサンプリングを繰り返し、図１０に示すような列（アレイ）を３度のサブサンプリングにより生成する。好ましくは、６回のサブサンプリングを実施する。親子関係は親ノードのサブバンドから子ノードのサブバンドを指す矢印で示される。最低周波数サブバンドは左上のＬＬ₁であり、最高周波数サブバンドは右下のＨＨ₃である。この例の場合、全ての子ノードは１人の親を持つ。
図１１に、サブサンプリングされた画像の３世代の親子関係を示す。１人の親ノード72は、４度のサブサンプリングによる画像中の同一領域に対応する４人の子ノード74を有する。各子ノード74はさらに４度のサブサンプリングによる４つの対応する次世代の子ノード76を持つ。
図１２に、４分割ツリーに基づく可変ブロックサイズの動き推定のための動きベクトルを決定する際の計算オーバヘッドを減少させるために、ウェーブレット変換方法を実施する本発明の装置1200のブロック図を示す。本発明の好ましい実施例において、装置1200は符号器又はより複雑な可変ブロックベースの動き補償符号化システムの一部分である。この装置1200は、図２に示す装置200につき記述したモジュールと略同一のモジュールより成る。両者の違いは、ＤＣＴモジュール260と逆ＤＣＴモジュール265とＶＬＣモジュール280をＤＷＴモジュール1260と逆ＤＷＴモジュール126５とウェーブレット符号化モジュール1280で各々置き換えていることである。ウェーブレット符号化モジュールは、ゼロツリー符号化及び／又はエントロピー符号化のような異なる符号化方式を任意数内蔵できる。装置1200の機能は、入力ビデオ画像でウェーブレット変換を行うことを除き、装置200の機能と同じである。
しかしながら、ウェーブレットベースの方法は、ブロック間の独立性を許さない。従って、各個別ブロックの正確なコスト計算を行うのは非常に難しい。
このように、ウェーブレットベースの方法は、歪みのモデルを使用し、ビットレートに対する動きベクトルビットだけを計数する。符号化歪みを、予測誤差ＭＳＥの定数倍によって近似させる。この定数は実験的に決められ、ＭＳＥは予測残差の平均二乗誤差であり、原画像と復号フレーム間の差ではない。十分な時間的相関性が仮定できれば、ラグランジェの乗数は、先行フレームの残差符号化のレート歪みカーブの傾斜により近似できる。
第２のウェーブレットベースの方法では、親ノードとその子ノードの総フレーム・ラグランジェ・コストだけを比較する。この総コストを計算するために、隣接ブロックのブロック区分を先行４分割ツリーの枝刈り結果によって定める。枝刈りがなされていない区域のブロック区分は最小ブロックサイズ（最低レベル）によって定める。
第３の実施例において、本発明の可変４分割ツリー構造はアフィン動きモデルと共に可変ブロックサイズアフィン動きモデルを生成するのに用いる。アフィン動きモデルはJ.Nieweglowski他により“ディジタル画像のワーピング（warping）を利用するテンポラル（時間的）予測ベースの新規ビデオ符号化スキーム“（ＩＥＥＥ会報、コンシューマエレクトロニクス、第39巻3、141-150頁、1993年8月）に開示されており、本明細書でも参照する。このアフィン動きモデルは、“画像のワーピング”として知られる幾何学的変換を適用し先行画像から予測画像又はフレームを構成する。この変換により、先行画像と予測画像中の各点間の空間的関係が規定される。
一般に、ブロックマッチング法を使用する動き補償は平行移動に関し良好な統合性能を提供する。しかしながら、ブロックマッチングによる動き推定は動きが回転成分又はスケーリング成分（例えば、ズーミング又は回転イメージ）を含んでいる場合、良い成果は得られない。
これに反し、アフィン動きモデル（アフィン変換）は６つのパラメータ（ａ₁からａ₆）により定められ、下式のように表現される。

式中、（ｘ，ｙ）は先行フレーム中の画素座標であり、（ｕ，ｖ）は予測フレーム中の所定画素の座標である。J.Nieweglowski他の参考資料に６つのパラメータの計算方法が詳細に記述されている。アフィン関係は６つのパラメータを特徴とする。このように、アフィン動きモデルは、一般的に、自然なシーケンスのみならずディジタル効果を用いた合成画像においてしばしば観察される平行移動（translation）、スケーリングおよび回転のような動きを予測する場合により有効である。
実際に、アフィン動きモデルはフレーム毎の全体の動き補償に用いるか、又は、ブロックベースの動き補償フレームワークと連結して使用できる。前者の場合、オーバヘッド情報が少ないと云う利点があるが、しかし、局部の動きをよく把握できない。極端な場合、アフィン動きモデルを全体的な動き補償の場合のようなフレームレベルに構築してしまう。
同様に、後者の場合も局所的回転、平行移動及びスケーリングの動きに良く適合するが、相対的に“固定された”ブロックサイズ条件は幾分制限的である。即ち、アフィン動きモデルは、（例えば、図１３に示す完全開花４分割ツリー構造）の一様なパッチブロックと比較して、不規則なブロック形状（図１４）を含んでいるが、現有の符号器に実装できるように設計されている。このように、“グリッドポイント”の個数を従来の動き補償ブロックの個数と同じになるように選択する。
さらに特定すると、グリッドポイントのセットを先行フレーム上で選択する。動きは、現フレーム上で上記のグリッドポイントに最も良くマッチするポイントを発見して推定する。別案では、グリッドポイントのセットを現フレーム上で選択しプロセスを逆にすることができ、動きは、先行フレーム上で上記のグリッドポイントに最も良くマッチするポイントを発見して推定する。
アフィン動きモデルにおける主な問題は、非常に小さい画像ブロック（例えば、１６×１６マクロブロック）に対するアフィンパラメータの推定である。反復勾配（iterative gradient）ベースの方法は、最初のポイントが正確に選択されないと収斂しない。アフィンパラメータの計算は種々の方法でなされる。しかしながら、Tihao ChiangとYa-Qin Zhangが“ステレオビデオ符号化”（1995年10月にニューヨークにて開催された＜マルチメディアとビデオ符号化＞に関する国際シンポジウムの論文集）に記述しているように、ピラミッド法をアフィンパラメータの評価のために良好な始点を発見するために使用でき、この論文を本明細書に参照する。このように、本４分割ツリーベースの可変ブロックサイズの動き推定のフレームワーク（図１５に示される）は同様なやり方で拡張し、可変ブロックサイズアフィン動きモデル（図１６に示される）を生成する。即ち、“アフィン”４分割ツリーが完全に開花し、即ち、全体画像を図１４に示すように全てのノードに対し最下位レベルまで空間的に区分したと仮定する。最大ブロックサイズから最小ブロックサイズまでアフィン４分割ツリー全体に対する動きベクトルを計算する。この方法は、前述の如く各ノードに対する量子化を最適化するために任意に実行する。最小の歪みを生み出す量子化器スケールを選択する。
同様に、本方法は、（最低レベルから最高レベルまで）“ボトムアップ”しながら、全ての“アフィン”サブブロック又はサブノード（子供）の符号化歪みの合計をサブノードに区分したブロック又はノード（親）の符号化歪みと比較する。子供の符号化歪みの合計が親の符号化歪みより大きい場合、そのノードを“合成”する。反対に、子供の符号化歪みの合計が親の符号化歪みより小さい場合、そのノードを“分割”し、親ノードのラグランジェコストをその子供のラグランジェコストの合計として設定する。このステップを（例えば、図１６に図示のような）最適なアフィン４分割ツリー構造が得られるまで全てのレベルの全てのノードに対し反復する。
可変ブロックサイズアフィン動きモデルは、異なる形状の画像分割を補償する能力を有するので、より良い予測特性を達成でき、提案されているＭＰＥＧ４規格ビデオ（ＭＰＥＧ４規格の作成は現在進行中）のビデオ・オブジェクト平面（ＶＯＰ）を有効に符号化する能力を向上させる。
以上、４分割ツリーベースの可変ブロックサイズ動き推定のために動きベクトルを算定する際の計算オーバヘッドを減少させるための新規な装置とその方法を説明してきた。本発明の多くの変更、修正、変種及び他の使用と応用は、実施態様を開示しているこの明細書読み添付の図面を参照すれば、当業者には明らかになるであろう。尚、このような改変，変更、変形及び他の使用と応用はすべて、本発明の精神と範囲から逸脱するものではなく、本発明により包含されるとみなされ、以下の特許請求範囲にのみ限定される。

Claims

画像フレームに対する可変ブロックサイズでの動き推定を行うためのツリー構造を決定する方法であって、該ツリー構造が親−子関係を持つ複数レベルに編成された複数ブロックを有する方法において、
（ａ）前記画像フレームを前記ツリー構造の最低レベルまで複数のブロックに分割するステップと、
（ｂ）前記複数ブロックの各ブロックを符号化するための歪みを計算するステップと、
（ｃ）子ブロックのセットの前記歪みの和を対応する親ブロックの歪みと比較するステップと、
（ｄ）前記比較ステップの結果に従って前記親ブロックのサイズを調整するステップとを備えた可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
請求項１に記載の方法において、前記調整ステップ（ｄ）が、前記子ブロックの前記歪みの前記和が前記親ブロックの歪みより大きい場合は前記子ブロックを合成し、前記子ブロックの前記歪みの前記和が前記子の親ブロックの歪みより小さい場合は該親ブロックをその子ブロックに分割するステップを備えた可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
請求項２に記載の方法において、前記調整ステップ（ｄ）が、前記子ブロックの前記歪みの前記和が前記子の親ブロックの歪みより小さい場合は、前記親ブロックの歪みを前記親の子ブロックの前記歪みの前記和として設定するステップを備えた可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
請求項１に記載の方法において、前記比較ステップ（ｃ）と前記調整ステップ（ｄ）をボトムアップ探索パターンを用いて行う可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
請求項１に記載の方法において、前記歪み計算ステップ（ｂ）が、前記複数ブロックの各ブロックに対する動きベクトルを計算するステップを備え、各ブロックの前記歪みが前記動きベクトルをもちいて各ブロックを符号化した結果となるようにした可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
請求項１に記載の方法において、前記複数ブロックがアフィンブロックであ
る可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
請求項１に記載の方法において、前記画像フレームがビデオオブジェクト平面より成る可変ブロックサイズ動き推定を行うためのツリー構造を決定する方法。
ツリー構造に従って分割された入力画像を符号化する装置であって、該ツリー構造が親−子関係を持つ複数レベルに編成された複数のブロックを有する装置において、入力画像の全ツリー構造に対する前記複数のブロックの全てに対する複数の動きベクトルを計算する可変ブロック動き推定モジュールと、該可変ブロック動き推定モジュールに結合されており、前記の複数の動きベクトルを用いて予測画像を生成する動き補償モジュールと、該動き補償モジュールに結合されており、前記入力画像と前記予測画像間の差信号に変換を加えることにより複数の係数を生成する変換モジュールと、該変換モジュールに結合されており、前記複数の係数を量子化する量子化モジュールとを備えた入力画像を符号化する装置。
請求項８に記載の装置において、前記量子化モジュールに結合されており前記複数のブロックの各ブロックにつき最小のラグランジェコストをもたらす量子化器スケールを選択するレートコントロールモジュールをさらに備えた入力画像を符号化する装置。
請求項９に記載の装置において、前記子ブロックセットの前記ラグランジェコストの和を対応する親ブロックの前記ラグランジェコストと比較することにより前記ツリー構造を調整するようにした入力画像を符号化する装置。