JP5122288B2 - 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法 - Google Patents

中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法 Download PDF

Info

Publication number
JP5122288B2
JP5122288B2 JP2007536022A JP2007536022A JP5122288B2 JP 5122288 B2 JP5122288 B2 JP 5122288B2 JP 2007536022 A JP2007536022 A JP 2007536022A JP 2007536022 A JP2007536022 A JP 2007536022A JP 5122288 B2 JP5122288 B2 JP 5122288B2
Authority
JP
Japan
Prior art keywords
base
extended
picture
residual
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007536022A
Other languages
English (en)
Other versions
JP2008517499A (ja
Inventor
ハイコ シュヴァルツ
デトレフ マルペ
トーマス ウィーガント
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE102004059978A external-priority patent/DE102004059978B4/de
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2008517499A publication Critical patent/JP2008517499A/ja
Application granted granted Critical
Publication of JP5122288B2 publication Critical patent/JP5122288B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/31Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the temporal domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/513Processing of motion vectors
    • H04N19/517Processing of motion vectors by encoding
    • H04N19/52Processing of motion vectors by encoding by predictive encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Description

本発明は、ビデオ符号化システムに関し、特に、ビデオ符号化規格H.264/AVCまたは新しいMPEGビデオ符号化システムに関連して用いられるスケーラブルビデオ符号化システムに関する。
H.264/AVC規格は、ITU−Tのビデオ符号化専門家グループVCEGとISO/IECの動画像符号化専門家グループ(MPEG)とのビデオ標準化プロジェクトの結果である。この標準化プロジェクトの主たる目標は、非常に良好な圧縮特性を有し、同時にネットワークで使いやすいビデオ表現を生成する明瞭なビデオ符号化概念を提供することであって、これは、ビデオ電話のような「会話型」のアプリケーションおよび会話型でないアプリケーション(保存、放送、ストリーム転送)の双方を含む。
前述の規格ISO/IEC14496−10と別に、その規格に関するいくつかの発表がある。単なる例であるが、参考文献として、ラルフ・シェーファー(Ralf Schaefer)、トーマス・ウィーガント(Thomas Wiegand)およびハイコ・シュヴァルツ(Heiko Schwarz)の「新たなH.264−AVC規格(Emerging H.264−AVC standard)」、EBUテクニカルレビュー(EBU Technical Review)、2003年1月がある。さらに、トーマス・ウィーガント(Thomas Wiegand)、ゲーリーJ.サリバン(Gary J. Sullivan)、ゲスレ・ブジョンテガート(Gesle Bjontegaard)およびアジェイ・ロスラ(Ajay Lothra)の専門出版物「H.264/AVCビデオ符号化規格の概説(Overview of the H.264/AVC Video Coding Standard)」、ビデオ技術の回路およびシステムについてのIEEEトランザクション(IEEE Transactions on Circuits and Systems for Video Technology)、2003年7月、および、デトレフ・マープ(Detlev Marpe)、ハイコ・シュヴァルツ(Heiko Schwarz)およびトーマス・ウィーガント(Thomas Wiegand)の専門出版物「H.264/AVCビデオ圧縮規格におけるコンテクストベースの適応バイナリ算術符号化(Context−based adaptive Binary Arithmethic Coding in the H.264/AVC Video Compression Standard)」、ビデオ技術の回路およびシステムについてのIEEEトランザクション(IEEE Transactions on Circuits and Systems for Video Technology)、2003年9月は、そのビデオ符号化規格の種々特徴について細かくその概要を記載している。
しかしながら、さらによく理解するために、図9〜図11を参照しながらビデオ符号化/復号化アルゴリズムの概要を説明する。
図9は、ビデオコーダの全体構造を示し、それは一般に2つの異なるステージで構成されている。通常、第1ステージでは、一般的なビデオ関連の操作が行われて出力データが生成され、このデータは、図9の80で示すように第2ステージでエントロピー符号化される。このデータは、データ81a、量子化変換係数81bおよび動きデータ81cからなり、これらのデータ81a、81b、81cは、エントロピーコーダ80に送られ、エントロピーコーダ80の出力端に符号化されたビデオ信号が生成される。
具体的には、入力ビデオ信号はそれぞれ区分化されマクロブロックに分割され、各マクロブロックは16×16ピクセルを有する。次に、マクロブロックのスライス群およびスライスへの関連付けが選択され、これにより、図8に示すように、各々のスライスの各々のマクロブロックは、操作ブロックのネット毎に処理される。なお、ビデオピクチャに各種のスライスが存在する場合、マクロブロックを効率的に並行処理することが可能であることに注意すべきである。マクロブロックのスライス群およびスライスへの関連付けは、図8のブロックコーダ制御82を介して実行される。各種のスライスがあって以下のように定義される。
Iスライス:Iスライスは、スライスの全てのマクロブロックがイントラ予測を用いて符号化されるスライスである。
Pスライス:Pスライスの特定のマクロブロックは、Iスライスの符号化タイプに加えて、予測ブロックごとに少なくとも1つの動き補償予測信号を有するインター予測を用いて符号化することも可能である。
Bスライス:Bスライスの特定のマクロブロックは、Pスライスで利用可能なコーダタイプに加えて、予測ブロックごとに2つの動き補償予測信号を有するインター予測を用いて符号化することも可能である。
上述の3つのコーダタイプは、以前の規格のタイプと非常に似ているが、後述するように参照ピクチャを用いるという点が異なる。次の2つのコーダタイプは、H.264/AVC規格における新しいものである。
SPスライス:それは、スイッチPスライスとも言われ、異なる事前に符号化されたピクチャの間での効率的な切り替えが可能なように符号化される。
SIスライス:SIスライスは、スイッチIスライスとも言われ、直接ランダムアクセスおよびエラー修復目的のために、SPスライス中でマクロブロックの正確な適合を可能にする。
概して言えば、スライスはマクロブロックのシーケンスであり、マクロブロックは、フレキシブルなマクロブロックの順番FMOの機能が用いられない場合に、ラスタースキャンの順に処理され、それもその規格に定義されている。図11に示すように、ピクチャを1つまたはいくつかのスライスに区分化することができる。このように、ピクチャは1つまたはいくつかのスライスの集合となる。ビットストリームからはスライスのシンタックスエレメントを分析(シンタックス分析)することができ、コーダとデコーダとに用いられる参照ピクチャが同一であれば、他のスライスからのデータを必要とせずに、スライスが表現するピクチャの範囲内でサンプルの値を正しく復号化できるので、そういった意味でスライスは相互に独立している。ただし、スライス境界間のデブロッキングフィルタを用いるため、他のスライスからの特定の情報が必要となることがある。
FMO機能は、スライス群の概念を用いて、ピクチャを、スライスおよびマクロブロックに区分化する方法を変更する。各々のスライス群は、マクロブロックからスライス群へのマッピングによって定義されるマクロブロックのセットであり、ピクチャパラメータセットとスライスヘッダからの特定の情報とで特定される。このマクロブロックのスライス群へのマッピングは、ピクチャ中の各々のマクロブロックのスライス群識別番号で構成され、これにより関連マクロブロックがどのスライス群に属するかが特定される。各々のスライス群は、1つまたはいくつかのスライスに区分化でき、スライスは、同一のスライス群の中のマクロブロックのシーケンスであり、個別のスライス群のマクロブロックのセット内でラスタサンプリングの順に処理される。
各々のマクロブロックを、スライスコーダタイプに応じて1つまたはいくつかのコーダタイプにおいて送信することができる。全てのスライスコーダタイプにおいて、イントラ-4×4またはイントラ-16×16と言われるタイプのイントラ符号化がサポートされ、さらに、クロマ予測モードおよびI-PCM予測モードがサポートされている。
イントラ-4×4モードは、各々の4×4クロマブロックの個別の予測に基づいており、際立って詳細なピクチャ部分を符号化するために適している。他方、イントラ-16×16モードは、16×16クロマブロック全体の予測を実行し、ピクチャの「ソフト」領域を符号化するためにより適している。
これら2つのクロマ予測タイプに加え、別のクロマ予測が実行される。イントラ-4×4およびイントラ-16×16に代わるタイプとして、I-4×4コーダタイプでは、コーダは予測および変換符号化を単にスキップし、その代わりに符号化されたサンプルの値を直接送信することができる。I-PCMモードは、以下の目的を有する。すなわち、そのモードは、コーダがサンプルの値を正確に表現できるようにする。そのモードは、非常に変則的な画面内容の値を、データを拡大することなく正確に表現する方法を提供する。さらに、そのモードは、コーダが、符号化効率を損なうことなくマクロブロックを取り扱うために必要とする、ビット数に対する厳格な境界を決定することを可能にする。
イントラ予測が変換領域内において実行されていた従前のビデオ符号化規格(すなわちH.263プラスおよびMPEG−4ビジュアル)と対照的に、H.264/AVCにおけるイントラ予測は、予測されるブロックの左側および上部にそれぞれ位置する既に符号化されたブロックの隣接サンプルを参照しながら、常に空間領域で実行される(図10)。送受信エラーが発生したような特定の状況において、これはエラーの伝播につながることがあり、このエラー伝播は、イントラ符号化されたマクロブロック中の動き補償により引き起こされる。このように、イントラ符号化モードによる信号化には限界があり、イントラ符号化された隣接マクロブロックの予測が可能なだけである。
イントラ-4×4モードを用いた場合、空間的に隣接するサンプルの各々の4×4ブロックが予測される。隣接するブロック中にあり、先に復号化されたサンプルを用いて、4×4ブロックの16のサンプルが予測される。各々の4×4ブロックに対し9つの予測モードのいずれか1つを用いることができる。「DC予測」(これは、ある値を用いて4×4ブロック全体の予測をする)に加えて、8方向の予測モードが特定される。これらのモードは、異なった角度のエッジといったピクチャ中の方向構造を予測するために適している。
イントラマクロブロックコーダタイプに加えて、各種の予測または動き補償コーダタイプが、Pマクロブロックタイプとして特定されている。Pマクロブロックのどのタイプも、マクロブロックをブロックフォームに区分化する特定のパーティションに対応し、そのフォームが動き補償予測に用いられる。16×16、16×8、8×8または8×16のルマブロックサイズのサンプルのパーティションは、シンタックスでサポートされる。8×8サンプルのパーティションの場合、各々の8×8パーティションに対して追加シンタックスエレメントが送信される。このシンタックスエレメントは、それぞれの8×8パーティションを、さらに8×4、4×8または4×4ルマサンプルおよび対応するクロマサンプルのパーティションに区分化するかどうかを特定している。
予測符号化された各々のM×Mルマブロックに対する予測信号は、並進動きベクトルおよびピクチャ参照インデックスにより特定されたそれぞれの参照ピクチャの領域をシフトすることによって得られる。そのため、4つの8×8パーティションを用いてマクロブロックを符号化する場合、さらに、各々の8×8パーティションを4つの4×4パーティションに区分化する場合、単一のPマクロブロックに対し最大量16の動きベクトルをいわゆるモーションフィールド内で送信することができる。
H.264/AVCでは、量子化パラメータスライスQPを用いて、変換係数の量子化が算出される。このパラメータは、52個の値を取ることができる。これらの値は、量子化パラメータに関する値1の増加が、量子化ステップ幅の約12%の増加となるように処理される。このことは、量子化パラメータが6増大すると、量子化ステップ幅は丁度2倍になることを意味する。なお、ステップサイズが約12%変化することは、ビットレートが約12%低下することでもある。
ブロックの量子化変換係数は、一般にジグザグ経路でサンプリングされ、エントロピー符号化法を用いて処理される。クロマ成分の2×2DC係数は、ラスタスキャンシーケンスでサンプリングされ、H.264/AVC内での全ての逆変換操作は、16ビットの整数値の加算およびシフト操作だけを用いて実施することができる。
図9を参照すると、入力信号は、まず、あらゆるピクチャに対し、ビデオシーケンスのピクチャ毎に16×16ピクセルのマクロブロックに区分化される。次に、各ピクチャは減算器84に送られ、減算器は、そのピクチャから、コーダに内蔵されたデコーダ85から供給された元のピクチャを差し引く。差し引き結果は、空間領域における残余信号であり、次に、これが変換されスケールされさらに量子化され(ブロック86)、ライン81b上に量子化変換係数が得られる。減算器874に供給される減算信号を生成するために、量子化変換係数は、最初に、再スケールされさらに逆変換され(ブロック87)、加算器88に送られ、その出力がデブロッキングフィルタ89に供給される。この出力ビデオ信号は、たとえばデコーダによって復号化され、たとえば制御のために、デブロッキングフィルタの出力端でモニタすることができる(出力端90)。
出力端90における復号化された出力信号を用いて、ブロック91において動き推定が実行される。図9に見られるように、ブロック90における動き推定のため、元のビデオ信号のピクチャが供給される。この規格では、2つの異なる動き推定、すなわち前方向動き推定および後方向動き推定が可能である。前方向動き推定においては、現在のピクチャの動きは以前のピクチャに関して推定される。一方、後方向動き推定においては、現在のピクチャの動きは将来のピクチャを用いて推定される。動き推定(ブロック91)の結果は、動き補償ブロック92に送られ、ここで、具体的に、図9の場合のようにスイッチ93がインター予測モードに切り替えられたときに、動き補償インター予測が実行される。一方、スイッチ93がイントラフレーム予測に切り替えられているときには、ブロック490を用いてイントラフレーム予測が実行される。したがって、動きデータは必要でない、というのはイントラフレーム予測においては動き補償は実行されないからである。
動き推定ブロック91は、動きデータおよびモーションフィールドをそれぞれ生成し、動きデータおよびモーションフィールドは、動きベクトルで構成されており、これらはそれぞれデコーダに送信されて、対応する逆予測、すなわち、変換係数と動きデータを用いた再構成を実施することができる。なお、前方向予測の場合には、動きベクトルを、直前のピクチャおよび先行するいくつかのピクチャからそれぞれ計算することができる。後方向予測の場合には、直後に隣接する将来のピクチャを使用して、当然、さらに将来のピクチャも使用して現在のピクチャを計算することができる。
図9に示したビデオ符号化概念の不利な点として、簡単なスケーラビリティを備えていないことがある。この分野で公知のように、「スケーラビリティ」という用語は、コーダがスケールされたデータストリームを送信するコーダ/デコーダ概念を言う。スケールされたデータストリームは、ベーススケーリングレイヤおよび1つまたはいくつかの拡張スケーリングレイヤを含む。ベーススケーリングレイヤは、一般に低品質であるが低いデータレートでもある符号化される信号の表現を含む。拡張スケーリングレイヤは、ビデオ信号のさらなる表現を含み、通常、ベーススケーリングレイヤにおけるビデオ信号の表現と併せて、ベーススケーリングレイヤに関して改良された品質の表現を提供する。反面、拡張スケーリングレイヤには、当然、個別のビット要求量があり、レイヤを拡張する毎に、符号化される信号を表すビット数は増加する。
設計および性能によっては、デコーダは、ベーススケーリングレイヤだけを復号化し、符号化された信号により表されるピクチャ信号の比較的品質の悪い表現を提供する。しかし、さらなるスケーリングレイヤを「追加」するごとに、デコーダは、(ビットレートを犠牲にして)段階的に信号の品質を向上する。
実施およびコーダからデコーダへの伝送路によっては、少なくともベーススケーリングレイヤだけが送信される、というのは通常ベーススケーリングレイヤのビットレートはとても低いので、かなり制限された伝送路でも十分だからである。伝送路に、アプリケーションに対するそれ以上のバンド幅がない場合、ベーススケーリングレイヤだけが送信され、拡張スケーリングレイヤは送信されないことになる。その結果、デコーダは、ピクチャ信号の低品質な表現しか生成できない。スケーリングが行われず、データレートが高すぎて伝送システムが対応できないような場合に比べれば、低品質の表現にはそれなりの利点がある。1つまたはいくつかの拡張レイヤの送信が可能な伝送路の場合には、コーダはデコーダに1つまたはいくつかの拡張レイヤを送信することになり、必要に応じて段階的に出力ビデオ信号の品質を向上することができる。
ビデオシーケンスの符号化に関して、2つの異なるスケーリングに区別することができる。1つのスケーリングは時間スケーリングであり、ビデオシーケンスの全てのビデオフレームを送信せず、データレートを減らすために、たとえば、2番目毎、3番目毎、4番目毎などにだけ送信する。
もう1つのスケーリングは、SNRスケーラビリティ(SNR=信号対ノイズ比)であり、各々のスケーリングレイヤ、たとえば、ベーススケーリングレイヤと、第1、第2、第3、…拡張スケーリングレイヤとの双方が、全ての時間情報を含むがその品質は違っている。このように、ベーススケーリングレイヤは、低いデータレートであるが低い信号ノイズ比を有し、これに段階的に1つずつ拡張スケーリングレイヤを加えることによって、この信号ノイズ比を改善することができる。
図9に示したコーダ概念は、残余値だけが減算器84によって生成され、その後処理されるという事実に基づいている点に問題がある。これらの残余値は、図9に示した装置の中で予測アルゴリズムに基づいて計算され、この装置は、ブロック86、87、88、89、93、94および84を用いた閉ループを形成しており、量子化パラメータは、この閉ループに、すなわちブロック86、87に入力される。これでたとえば単純なSNRスケーラビリティが実施された場合、あらゆる予測残余信号は、最初に粗い量子化ステップ幅で量子化され、次に、拡張レイヤを用いて、段階的により細かな量子化ステップ幅に量子化されることになり、以下のような結果をもたらすことになろう。逆量子化および予測に起因して、特に、一方で元のピクチャ、他方で量子化ピクチャを用いて行われる動き推定(ブロック91)および動き補償(ブロック92)に関して、コーダおよびデコーダの双方で量子化器のステップ幅の「発散」が生じる。このことにより、コーダ側で拡張スケーリングレイヤを生成することに深刻な問題が生じることになる。さらに、デコーダ側での拡張スケーリングレイヤの処理については、少なくともH.264/AVC規格に定義されたエレメントに関しては不可能になる。この理由は、前記のように図9において示したビデオコーダ中の量子化が含まれている閉ループにある。
2003年12月2日〜5日のサンディエゴでの第9回JVT会議で発表された、ハイコ・シュヴァルツ(Heiko Schwarz)、デトレフ・マープ(Detlev Marpe)およびトーマス・ウィーガント(Thomas Wiegand)の標準化文書JVT−I 032 t1、題名「H.264/AVCのSNRスケーラブル拡張(SNR−Scalable Extension of H.264/AVC)」の中で、H.264/AVCに対するスケーラブル拡張が発表されており、これには、(同等なまたは異なる時間的精度を有する)時間および信号ノイズ比の双方に関するスケーラビリティが含まれている。そこでは、時間サブバンドパーティションのリフティング表現が紹介されており、動き補償予測に対し既知の方法の使用が可能となっている。
J.−R.オーム(Ohm)の「MCTFフレーム間ウェーブレット構造の複雑性および遅延解析(Complexity and delay analysis of MCTF interframe wavelet structures)」、ISO/IECJTC1/WG11 Doc.M8520、2002年7月の中に、ビデオコーダアルゴリズムに基づくウェーブレットが記載されており、ウェーブレット解析およびウェーブレット合成のため、リフティング実施が用いられている。また、D.トーブマン(Taubman)の「ビデオの逐次的改善:基本問題、これまでの努力および新しい方向(Successive refinement of video:fundamental issues, past efforts and new directions)」、SPIE(VCIP‘03)のプロシーディング、2003年、第5150巻、649−663頁にもスケーラビリティについてのコメントがあるが、コーダの大幅な変更が必要と記載されている。本発明によれば、一方で、スケーラビリティ可能性を保持し、他方で、具体的には例えば動き補償に対し、その規格に適合するエレメントに基づくことが可能なコーダ/デコーダ概念を実現する。
図3に関してコーダ/デコーダのさらなる詳細を参照する前に、まず、コーダ側の基本的リフティングスキームおよびデコーダ側の逆リフティングスキームについて、それぞれ図4に関して説明する。リフティングスキームとウェーブレット変換との結合のバックグラウンドの詳しい説明については、W.スウェルデンス(Sweldens)の「双直交ウェーブレットのカスタム設計構造(A custom design construction of biorthogonal wavelets)」、J.Appl.Comp.Harm.Anal.、1996年、第3巻(No.2)、186−200頁、およびI.ドウベチーズ(Daubechies)およびW.スウェルデンス(Sweldens)の「ウェーブレット変換のリフティングステップへのファクタリング(Factoring wavelet transforms into lifting Steps)」、J.Fourier Anal.Appl.、1998年、第4巻(No.3)、247−269頁を参照することができる。一般に、リフティングスキームは、多相分解ステップ、予測ステップおよび更新ステップの3つのステップで構成される。
分解ステップは、入力側データストリームを、下側ブランチ40aに対する同一の第1のコピーと、上側ブランチ40bに対する同一のコピーとに区分化するステップを含む。さらに、上側ブランチ40bの同一のコピーは時間ステージ(z-1)によって遅延され、奇数インデックスkを有するサンプルS2k+1と偶数インデックスを有するサンプルS2kとは、同様に、それぞれのデシメータおよびダウンサンプラー42a、42bをそれぞれ通過する。デシメータ42aおよび42bは、2番目毎のサンプルを排除することによって、それぞれ、上側および下側ブランチ40b、40aにおけるサンプルの数を削減する。
第2領域IIは、予測ステップと関係しており、予測演算子43および減算器44を含む。第3領域は、更新ステップであり、更新演算子45および加算器46を含む。出力側には、2つの正規化器47、48があり、ハイパス信号hkを正規化し(正規化器47)、正規化器48を通してローパス信号lkを正規化する。
具体的には、多相分解では、所定の信号s[k]は、偶数および奇数サンプルに区分化される。相関構造は、通常、局所的特徴を示すので、偶数および奇数の多相成分は、高い相関性を有する。このように、最終ステップにおいて、整数サンプルを用いて、奇数サンプルの予測(P)が実行される。各々の奇数サンプルsodd[k]=s[2k+1]に対応する予測演算子(P)は、隣接する偶数サンプルseven[k]=s[2k]の一次結合である、すなわち、
Figure 0005122288
となる。
予測ステップの結果として、奇数サンプルは、これらそれぞれの予測残余値で置き換えられ、
Figure 0005122288
となる。
なお、I.ドウベチーズ(Daubechies)およびW.スウェルデンス(Sweldens)の「ウェーブレット変換のリフティングステップへのファクタリング(Factoring wavelet transforms into lifting steps)」、J.Fourier Anal.Appl.、1998年、第4巻(No.3)、247−269頁の中で説明されているように、予測ステップは、2チャンネルフィルタバンクによるハイパスろ波を実行することに等しい。
リフティングスキームの第3ステップにおいて、偶数サンプルseven[k]を予測残余値h[k]の一次結合で置き換えることによって、ローパスろ波が実行される。それぞれの更新演算子Uは、次式
Figure 0005122288
により与えられる。
偶数サンプルを次式
Figure 0005122288
で置き換えることによって、所定の信号s[k]を、最終的にl(k)およびh(k)で表すことができ、各信号は、半分のサンプルレートを有する。更新ステップおよび予測ステップの双方は完全に可逆的なので、対応する変換は、厳密にサンプリングされた完全な再構成フィルタバンクと解釈することができる。実際に、ウェーブレットフィルタの一切の双直交ファミリを、1つまたはいくつかの予測ステップおよび1つまたはいくつかの更新ステップによって、実現することができる。前記で説明したように、ローパスおよびハイパス成分を正規化するため、正規化器47および48には、適切に選択されたスケーリングファクタFlおよびFhが供給される。
逆リフティングスキームは、合成フィルタバンクに相当し、図4の右側に示されている。これは、単に、逆の順に逆符号向きの予測および更新演算子のアプリケーションで構成されており、その後に偶数および奇数の多相成分を用いた再構成が続く。具体的には、図4の右側のデコーダは、この場合もやはり、第1デコーダ領域I、第2デコーダ領域IIおよび第3デコーダ領域IIIを含む。第1デコーダ領域では、更新演算子45の作用がキャンセルされる。これは、さらなる正規化器50によって正規化されているハイパス信号を、更新演算子45に供給することで達成される。次に、デコーダ側の更新演算子45の出力信号は、図4の加算器46と対照的な減算器52に供給される。同様に、予測器43の出力信号が処理され、次に、その出力信号はコーダ側のように減算器ではなく、加算器53に供給される。次に、ファクタ2による信号のアップサンプリングが各々のブランチで行われる(ブロック54a、54b)。次に、上側ブランチは1サンプル分だけ将来に向かってシフトされ、これは下側ブランチを遅延させることと同じであって、加算器55で上側ブランチおよび下側ブランチ上のデータストリームの加算が実行され、合成フィルタバンクの出力端において再構成された信号skが得られる。
いくつかのウェーブレットは、それぞれ、予測器43および更新演算子45によって実施することができる。いわゆるヘアーウェーブレットを実施する場合、予測演算子および更新演算子は次式で与えられ、
Figure 0005122288
ここで、
Figure 0005122288
であり、これらの式は、それぞれ、ヘアーフィルタの非正規化ハイパスおよびローパス(分析)出力信号に対応する。
5/3双直交スプラインウェーブレットの場合は、このウェーブレットのローパスおよびハイパス分析フィルタは、それぞれ5つおよび3つのフィルタタップを有し、対応するスケーリング関数は2次Bスプラインである。JPEG2000のような、静止ピクチャに対するコーダアプリケーションにおいて、このウェーブレットは時間サブバンドコーダスキームに用いられる。リフティング環境において、対応する5/3変換の予測および更新演算子は次式
Figure 0005122288
で与えられる。
図3は、コーダ側およびデコーダ側の双方が典型的な4つのフィルタレベルを有するコーダ/デコーダ構造のブロック図である。コーダに関しては、図3から、第1フィルタレベル、第2フィルタレベル、第3フィルタレベルおよび第4フィルタレベルとも同様であることが分かる。また、デコーダに関しても各フィルタレベルは同じである。コーダ側において、各々のフィルタレベルは、中心エレメントとして、後方向予測器Mi0および前方向予測器Mi161を含む。後方向予測器60は、原理的に図4の予測器43に相当し、前方向予測器61は、図4の更新演算子に相当する。
なお、図4と違って、図4は、サンプルのストリームに関し、あるサンプルは奇数インデックス2k+1を有し、別のサンプルは偶数インデックス2kを有している。しかしながら、図1に関して既に説明したように、図3の表記は、サンプルの群ではなく、ピクチャの群に関するものである。あるピクチャが、たとえばいくつかのサンプルおよびピクチャをそれぞれ有する場合、そのピクチャ全体が送られる。次に、次のピクチャも送り込まれ、以下続く。このように、奇数および偶数サンプルはもうないが、奇数および偶数ピクチャはある。本発明によれば、奇数および偶数サンプルについて述べたリフティングスキームは、奇数および偶数ピクチャにそれぞれ適用され、これらピクチャの各々は複数のサンプルを有する。このように、図4のサンプル毎の予測器43は、後方向動き補償予測60となり、サンプル毎の更新演算子45は、ピクチャ毎の前方向動き補償予測61となる。
なお、動きフィルタは、動きベクトルで構成され、ブロック60および61に対する係数を表しており、2つの連続する関連ピクチャに対して計算され、さらにコーダからデコーダへのサイド情報として送信される。しかしながら、ここで、図9を参照して説明したように、H.264/AVC規格で標準化されているエレメント91、92を用いて容易に、モーションフィールドMi0およびモーションフィールドMi1を計算できることは本発明の概念の主な利点である。このように、本発明の概念では、新しい予測器/更新演算子を用いる必要はなく、機能性および効率性について検証され確認され、ビデオ規格に記載された既存のアルゴリズムを、前方向または後方向の動き補償に用いることができる。
具体的には、図3に示された使用フィルタバンクの一般的構造は、入力端64に送り込まれた16ピクチャの群のビデオ信号の時間的分解を示す。この分解は、ビデオ信号の2進の時間的分解であり、図3に示され、4つのレベル24=16のピクチャを有する実施の形態、すなわち16ピクチャの群サイズの実施の形態において、最小の時間的解像度を有する表現、すなわち、出力端28aおよび28bからの信号を達成することが必要である。このように、16ピクチャをグループ化すれば、16ピクチャの遅延につながり、このことにより、図3に示す4つのレベルの概念では、インタラクティブなアプリケーションに対していろいろ問題が生じる。このように、インタラクティブなアプリケーションを狙いとするのであれば、4または8ピクチャの群のようなもっと小さなピクチャの群を形成することが望ましい。次に、それに応じて遅延も低減され、インタラクティブなアプリケーションへの使用も可能となる。保存目的等のように双方向性が必要でない場合には、群中のピクチャ数すなわち群サイズを、それに応じて32、64などの数に増大することができる。
このように、ヘアベースでの動き補償リフティングスキームのインタラクティブなアプリケーションが用いられ、これはH.264/AVC中にあるように後方向動き補償予測(Mi0)からなり、前方向動き補償(Mi1)を含む更新ステップをさらに含む。予測ステップおよび更新ステップの双方は、H.264/AVCに示されているように、動き補償処理を用いる。さらに、動き補償ばかりでなく、図9に参照番号89で示されているデブロッキングフィルタ89も用いられる。
第2フィルタレベルは、同様に、ダウンサンプラー66a、66b、減算器69、後方向予測器67、前方向予測器68および加算器70、ならびに、第2レベルの第1および第2ハイパスピクチャを追加処理手段の出力部に出力するためのその追加処理手段を含み、第2レベルの第1および第2ローパスピクチャは、加算器70の出力端に出力される。
さらに、図3のコーダは、第3レベルおよび第4レベルを含み、16ピクチャの群は第4レベルの入力端64に送られる。第4レベルで、HP4とも称するハイパス出力端72からは、量子化パラメータQによって量子化され、これに応じて処理された8つのハイパスピクチャが出力される。同様に、8つのローパスピクチャは、第4フィルタレベルのローパス出力端73に出力され、第3フィルタレベルの入力端74に送り込まれる。このレベルも、同様に、HP3とも称するハイパス出力端75に4つのハイパスピクチャを生成し、さらにローパス出力端76に4つのローパスピクチャを生成するために有効であり、これは第2フィルタレベルの入力端10に送り込まれ分解される。
ここで、あるフィルタレベルで処理されるピクチャの群は、必ずしも元のビデオシーケンスに直接由来するビデオピクチャである必要はなく、1段上のフィルタレベルによってそのフィルタレベルのローパス出力端から出力されるローパスピクチャとすることができる。
さらに、単に、第4フィルタレベルを削除してピクチャの群を入力端74に送り込むだけで、図3に示した16ピクチャに対するコーダ概念を容易に8ピクチャに低減することができる。同様に、図3に示した概念を、第5フィルタレベルを加え、第5フィルタレベルのハイパス出力端から16ハイパスピクチャを出力し、第5フィルタレベルの出力端の16ローパスピクチャを第4フィルタレベルの入力端64に送り込むことによって、32ピクチャの群に拡張することも可能である。
コーダ側のツリーのような概念を、デコーダ側にも適用するが、今度は、コーダ側のように高レベルからより低レベルへではなく、デコーダ側では、低レベルからより高レベルへの処理となる。そのため、データストリームは、概略的にネットワーク抽象化レイヤ100と呼ぶ伝送媒体から受信されるが、受信されたビットストリームは、まず、逆向き追加処理手段を用いて逆向き追加処理され、図3の手段30aの出力端に第1レベルの第1ハイパスピクチャの再構成されたバージョンおよび図3のブロック30bの出力端に第1レベルのローパスピクチャの再構成されたバージョンが得られる。次に、図4の右半分と類似のやり方で、まず、前方向動き補償予測が予測器61を介して逆処理され、次に予測器61の出力信号がローパス信号の再構成されたバージョンから差し引かれる(減算器101)。
減算器101の出力信号は後方向補償予測器60に送り込まれ、予測結果が生成されて、これが、加算器102によりハイパスピクチャの再構成されたバージョンに加えられる。次に、下側ブランチ103a、103b中の双方の信号は、アップサンプラ104aおよび104bを用いて2倍のサンプルレートにもたらされ、このとき、上側ブランチの信号は、実施に応じて、遅延または[加速]される。なお、そのアップサンプリングは、ブリッジ104a、104bによって、単に、ピクチャあたりのサンプル数に対応する数のゼロを挿入することによって実行される。上側ブランチ103bでは、下側ブランチ103aに対しピクチャがz-1で示すエレメントによって遅延されシフトするため、加算器106の加算により、加算器106の出力側に、2つの第2レベルのローパスピクチャが連続して発生する。
次に、第1および第2の第2レベルのローパスピクチャの再構成されたバージョンは、デコーダ側の第2レベルの逆フィルタに送り込まれ、同じ実施の逆フィルタバンクによって、送信された第2レベルのハイパスピクチャと再び結合され、第2レベルの出力端101に4つの第3レベルのローパスピクチャのシーケンスが得られる。4つの第3レベルのローパスピクチャは、次に、第3レベルの逆フィルタレベルによって、送信されてきた第3レベルのハイパスピクチャと結合され、第3レベルの逆フィルタの出力端110に、連続したフォーマットの8つの第4レベルのローパスピクチャを得る。次に、これら8つの第3レベルのローパスピクチャは、同様に、第4レベルの逆フィルタによって、入力端HP4を介して伝送媒体100から受信した8つの第4レベルのハイパスピクチャと結合され、第1レベルに関して説明したように、第4レベルの逆フィルタの出力端112に、再構成された16ピクチャの群を得る。
このように、分析フィルタバンクの各ステージ毎に、元の複数のピクチャまたは1つ上位のレベルで生成されたローパス信号を表す複数のピクチャのうちのいずれかの2つのピクチャが、ローパス信号とハイパス信号とに分解される。ローパス信号は、入力ピクチャに共通する特徴を表現すると考えることができ、ハイパス信号は、入力ピクチャの間の違いを表現すると考えることができる。合成フィルタバンクの対応するステージでは、2つの入力ピクチャは、ローパス信号とハイパス信号とを用いて再び再構成される。合成ステップでは、分析ステップの逆操作が実行され、分析/合成フィルタバンク(当然ながら量子化は含まない)によって完全な再構成が保証される。
発生する損失は、26a、26b、18のような追加処理手段における量子化に起因するものだけである。非常に細かい量子化を行えば、良好な信号ノイズ比が達成される。反対に、量子化を非常に粗く実行すれば、相対的に悪い信号ノイズ比となるが、反面、低いビットレートすなわち低いビット要求が達成される。
図3に示した概念において、SNRスケーラビリティがなくても、時間スケーリング制御を実施することができる。そこで、時間スケーリング制御120が用いられ、それは、その入力側に、ハイパスおよびローパスのそれぞれの出力、ならびに、追加処理手段(26a、26b、18…)からのそれぞれの出力を得て、これらの部分的データストリームTP1、HP1、HP2、HP3、HP4から、スケールされたデータストリームを生成するように形成される。部分的データストリームは、ベーススケーリングレイヤ中に第1ローパスピクチャおよび第1ハイパスピクチャの処理されたバージョンを有する。次に、第2ハイパスピクチャの処理されたバージョンを第1拡張スケーリングレイヤに適応することができる。第3レベルのハイパスピクチャの処理されたバージョンを第2拡張スケーリングレイヤに適応することができ、また、第4レベルのハイパスピクチャの処理されたバージョンは第3拡張スケーリングレイヤに導入される。これにより、デコーダは、ベーススケーリングレイヤだけに基づいて、時間低品質で低レベルのローパスピクチャのシーケンス、すなわち、ピクチャの群毎に2つの第1レベルのローパスピクチャを生成することがまず可能となる。各拡張スケーリングレイヤを加える毎に、群毎の再構成されたピクチャの数は常に2倍になる。通常、デコーダの機能は、スケーリング制御によって制御され、制御は、データストリーム中にいくつのスケーリングレイヤが含まれているか、復号化の際、デコーダはいくつのスケーリングレイヤを考慮する必要があるかを、それぞれ検知するように形成されている。
2003年12月8日〜12日のハワイ・ワイコロアでの第10回JVT会議で発表された、ハイコ・シュヴァルツ(Heiko Schwarz)、デトレフ・マープ(Detlev Marpe)およびトーマス・ウィーガント(Thomas Wiegand)のJVT文書JVT−J 035、題名「H.264/AVCのSNRスケーラブル拡張(SNR−Scalable Extension of H.264/AVC)」は、図3および図4に図示した時間的分解スキームのSNRスケーラブル拡張を記載している。具体的には、時間スケーリングレイヤは個別の「SNRスケーリングサブレイヤ」に区分化され、SNRベースレイヤは、特定の時間スケーリングレイヤが第1のより粗い量子化ステップ幅で量子化されてSNRベースレイヤを得るようにして得られる。次に、まず逆量子化が実行され、元の信号から逆量子化の結果信号を差し引いて差分信号が得られ、次に、これがより細かい量子化ステップ幅で量子化されて第2スケーリングレイヤが得られる。しかしながら、第2スケーリングレイヤは、そのより細かい量子化ステップ幅で再量子化され、元の信号から、再量子化の後に得られた信号を差し引いてさらなる差分信号が得られ、これも再び、より細かい量子化ステップ幅で量子化されて、第2SNRスケーリングレイヤとSNR拡張レイヤとがそれぞれ表現される。
このように、動き補償時間フィルタリング(MCTF)に基づく上述したスケーラビリティスキームは、時間スケーラビリティおよびSNRスケーラビリティに関し、高い柔軟性を備えていることが分かる。しかしながら、ピクチャを最高品質で符号化する場合、これら複数のスケーリングレイヤの合計ビットレートが、スケーラビリティなしで達成可能なビットレートをはるかに超えてしまうという問題がまだ残っている。これら複数のスケーリングレイヤに対するサイド情報に起因して、スケーラブルコーダが、スケールされない場合のビットレートを全く達成できない可能性もある。しかしながら、複数のスケーリングレイヤを有するデータストリームのビットレートを、スケーリングされない場合のビットレートにできるだけ近付けるようにすべきではある。
さらに、スケーラビリティ概念では、全てのスケーラビリティタイプに対する高い柔軟性、すなわち、時間および空間とSNRとの双方に関し、高い柔軟性を提供すべきである。
低解像度のピクチャは既に十分であるが、さらに高い時間的解像度が必要な場合に、高い柔軟性は特に重要である。このような状況は、たとえば、ボールに加えて多くの人間が同時に動くチームスポーツのビデオのようなピクチャの中で起こる早い変化などにより生じる。
ラルフ・シェーファー(Ralf Schaefer)、トーマス・ウィーガント(Thomas Wiegand)およびハイコ・シュヴァルツ(Heiko Schwarz)の「新たなH.264−AVC規格(Emerging H.264−AVC standard)」、EBUテクニカルレビュー(EBU Technical Review)、2003年1月 トーマス・ウィーガント(Thomas Wiegand)、ゲーリーJ.サリバン(Gary J. Sullivan)、ゲスレ・ブジョンテガート(Gesle Bjontegaard)およびアジェイ・ロスラ(Ajay Lothra)の専門出版物「H.264/AVCビデオ符号化規格の概説(Overview of the H.264/AVC Video Coding Standard)」、ビデオ技術の回路およびシステムについてのIEEEトランザクション(IEEE Transactions on Circuits and Systems for Video Technology)、2003年7月 デトレフ・マープ(Detlev Marpe)、ハイコ・シュヴァルツ(Heiko Schwarz)およびトーマス・ウィーガント(Thomas Wiegand)の専門出版物「H.264/AVCビデオ圧縮規格におけるコンテクストベースの適応バイナリ算術符号化(Context−based adaptive Binary Arithmethic Coding in the H.264/AVC Video Compression Standard)」、ビデオ技術の回路およびシステムについてのIEEEトランザクション(IEEE Transactions on Circuits and Systems for Video Technology)、2003年9月 ハイコ・シュヴァルツ(Heiko Schwarz)、デトレフ・マープ(Detlev Marpe)およびトーマス・ウィーガント(Thomas Wiegand)の「H.264/AVCのSNRスケーラブル拡張(SNR−Scalable Extension of H.264/AVC)」、第9回JVT会議の標準化文書JVT−I 032 t1、2003年12月2日〜5日、サンディエゴ J.−R.オーム(Ohm)の「MCTFフレーム間ウェーブレット構造の複雑性および遅延解析(Complexity and delay analysis of MCTF interframe wavelet structures)」、ISO/IECJTC1/WG11 Doc.M8520、2002年7月 D.トーブマン(Taubman)の「ビデオの逐次的改善:基本問題、これまでの努力および新しい方向(Successive refinement of video:fundamental issues, past efforts and new directions)」、SPIE(VCIP‘03)のプロシーディング、2003年、第5150巻、649−663頁 W.スウェルデンス(Sweldens)の「双直交ウェーブレットのカスタム設計構造(A custom design construction of biorthogonal wavelets)」、J.Appl.Comp.Harm.Anal.、1996年、第3巻(No.2)、186−200頁 I.ドウベチーズ(Daubechies)およびW.スウェルデンス(Sweldens)の「ウェーブレット変換のリフティングステップへのファクタリング(Factoring wavelet transforms into lifting Steps)」、J.Fourier Anal.Appl.、1998年、第4巻(No.3)、247−269頁 ハイコ・シュヴァルツ(Heiko Schwarz)、デトレフ・マープ(Detlev Marpe)およびトーマス・ウィーガント(Thomas Wiegand)の「H.264/AVCのSNRスケーラブル拡張(SNR−Scalable Extension of H.264/AVC)」、第10回JVT会議のJVT文書JVT−J 035、2003年12月8日〜12日、ハワイ・ワイコロア
本発明の目的は、スケーラブル概念であるという事実にもかかわらず、できるだけ低いビットレートを提供する柔軟性のある符号化/復号化するための概念を提供することである。
この目的は、請求項1による符号化されたビデオシーケンスを生成するための装置、請求項15による符号化されたビデオシーケンスを生成するための方法、請求項16による符号化されたビデオシーケンスを復号化するための装置、請求項17による符号化されたビデオシーケンスを復号化するための方法または請求項18によるコンピュータプログラムによって達成される。
本発明は、ビットレート削減が、スケーリングレイヤ内で実行される動き補償予測によって得られるだけでなく、一定のピクチャ品質を有するさらなるビットレート削減が、ベースレイヤのような低位レイヤの、拡張レイヤのような高位レイヤへの動き補償予測の後で、残余ピクチャの中間スケーリングレイヤ予測を実行することによって得られるという知見に基づいている。
個別に考慮された異なるスケーリングレイヤ、これらは望ましくは解像度に関してまたは信号ノイズ比に関してスケールされるものであるが、これらの残余値は、同じ時間スケーリングレイヤ内において、動き補償予測後の残余値の間で相関を有するということが発見された。本発明では、デコーダ側の中間レイヤ結合器に対応する中間レイヤ予測器を拡張スケーリングレイヤに対してコーダ側に備えることによって、これらの相関が有利に活用される。望ましくは、この中間レイヤ予測器は、適応的に設計され、たとえば、各々のマクロブロックに対して、中間レイヤ予測が価値のあるものかどうか、あるいは予測することがむしろビットレートの増加につながるのかどうかを決定するようになっている。後者の場合は、予測残余信号がその後のエントロピーコーダに関して拡張レイヤの元の動き補償残余信号より大きくなる場合である。しかしながら、この状態は多くの場合には起こらず、中間レイヤ予測器がアクティブにされて大きなビットレート削減をもたらす。
さらに、本発明の好適な実施の形態において、拡張レイヤの動きデータの予測も、実行される。このように、それは、SNRまたは解像度に関するように、異なる品質スケーリングレイヤ中で、異なるスケーリングレイヤにおけるモーションフィールドが、互いに相関を有し、動きデータ予測子を提供することによって本発明によるビットレート削減に有利に用いられうることをさらに示す。この実施において、予測は個別の動きデータが拡張レイヤに対して計算されないという点で実行することができるが、ベースレイヤの動きデータは最終的にアップサンプリングの後に送信される。しかしながら、これは、動きデータが特に拡張レイヤに対して計算される場合よりも拡張レイヤにおける動き補償残余信号が大きくなるという事実になる。しかしながら、この不利な点は、伝送の間に拡張レイヤのために節約される動きデータによる節減がおそらくより大きな残余値によって生じるビットレート増加より大きい場合に、差が生じない。
しかしながら、個別のモーションフィールドは、実施において拡張レイヤのために計算することができ、ベースレイヤのモーションフィールドは、計算に組み入れられるか、または、モーションフィールド残余値だけを送信する予測器として用いられる。この実施は、2つのスケーリングレイヤの動きデータ相関が完全に利用され、動きデータの残余値が動きデータ予測の後にできるだけ小さいという効果を有する。しかしながら、この概念の不利な点は、追加の動きデータ残余値を送信しなければならないという事実である。
本発明の好適な実施の形態において、さらに、SNRスケーラビリティが用いられる。これは、量子化が拡張レイヤにおいてよりも、より粗い量子化パラメータを有するベースレイヤにおいて実行されることを意味する。より粗い量子化器ステップ幅によって量子化され、再構成されるベース動き予測の残余値は、このことにより中間レイヤ予測器に対する予測信号として用いられる。純粋なSNRスケーラビリティの場合、それは、コーダ側の全てのスケーリングレイヤに対して1つのモーションフィールドを計算するために十分でありうる。拡張レイヤの動きデータに関して、これは、また、さらなる拡張動きデータを送信する必要がないが、ベースレイヤからの拡張動きデータが拡張レイヤに対する逆の動き補償のためにコーダ側に完全に用いられうることを意味する。しかしながら、動きデータの計算が用いられる場合、異なる量子化パラメータが、量子化パラメータが導入される異なるモーションフィールドをもたらす。
空間スケーラビリティが用いられる場合、ベーススケーリングレイヤが拡張スケーリングレイヤより粗い空間解像度を有することを意味し、拡張スケーリングレイヤのより低い空間解像度から変換し次にそれを中間レイヤ予測器に提供することを意味するベース動き予測の残余値を補間することが好ましい。
さらに、各スケーリングレイヤに対して動き情報の個別の計算を実行することが好ましい。しかしながら、本発明の好適な実施の形態において、動きデータ予測がデータレート削減のためにここで用いられ、それは、予測されない動きデータより低いデータレートを要求する動きデータ残余値だけを送信するために、(スケーリング後の)低位のスケーリングレイヤの動きデータの完全な伝送にあり、または、より高位のスケーリングレイヤの動きベクトルを予測するためのより低位のスケーリングレイヤのアップサンプルされた動きベクトルを使用することからなりうる。この場合、中間レイヤ予測器および拡張動きデータ予測器の両方を適応的に設計することが好ましい。
本発明の好適な実施の形態において、ベーススケーリングレイヤおよび拡張スケーリングレイヤが、空間解像度において、さらに、用いられた量子化器ステップ幅を意味する用いられた量子化パラメータにおいて異なるという点で、結合されたスケーラビリティが用いられる。この場合、たとえば、ラグランジュ最適化によるベーススケーリングレイヤに対する前の量子化パラメータから始まって、ベースレイヤのための量子化パラメータ、ベースレイヤの動きデータのためのひずみおよびビット要求の結合が計算される。動き補償予測の後に得られる残余値および用いられるベース動きデータは、それにより、より高位のスケーリングレイヤのそれぞれのデータの予測のために用いられ、より高位のスケーリングレイヤのためのより細かなスケーリングパラメータから再び始まって、動きデータのビット要求、量子化パラメータおよびひずみの結合、拡張動きデータが計算されうる。
本発明の好適な実施の形態が添付図面に関して以下において説明されるが、これらの図としては:
図1aは、本発明のコーダの好適な実施の形態であり、
図1bは、図1aのベースピクチャコーダの詳細な表現であり、
図1cは、中間レイヤ予測フラグの機能の説明であり、
図1dは、動きデータフラグの説明であり、
図1eは、図1aの拡張動き補償器1014の好適な実施であり、
図1fは、図2の拡張動きデータ決定手段1078の好適な実施であり、
図1gは、拡張動きデータを計算し、さらに、必要に応じて、信号伝達および残余データ伝送のために拡張動きデータ処理するための3つの好適な実施の形態の概略表現であり、
図2は、本発明のデコーダの好適な実施の形態であり、
図3は、4つのレベルを有するデコーダのブロック図であり、
図4は、時間サブバンドフィルタバンクのリフティング分解を説明するためのブロック図であり、
図5aは、図4に示すリフティングスキームの機能の表現であり、
図5bは、一方向予測(ヘアウェーブレット)および双方向予測(5/3変換)を有する2つの好適なリフティング仕様の表現であり、
図5cは、リフティングスキームによって処理される2つのピクチャの任意に選択に対する動き補償および参照インデックスを有する予測および更新演算子の好適な実施の形態であり、
図5dは、マクロブロック毎に、元のピクチャ情報をハイパスピクチャに挿入可能なイントラモードの表現であり、
図6aは、マクロブロックモードを信号伝達するための略図表現であり、
図6bは、本発明の好適な実施の形態による空間スケーラビリティにおける動きデータのアップサンプリングのための略図表現であり、
図6cは、動きベクトル差分に対するデータストリームシンタックスの略図表現であり、
図6dは、本発明の好適な実施の形態による残余値シンタックス拡張の略図表現であり、
図7は、たとえば8ピクチャの群の時間シフトを説明するための概略図であり、
図8は、16ピクチャの群に対するローパスピクチャの好適な時間配置であり、
図9は、マクロブロックに対するH.264/AVC規格によるコーダに対する基本的なコーダ構造を説明するための概略ブロック図であり、
図10は、現在のシンタックスエレメントCの左側および上部にそれぞれ隣接する2つのピクセルエレメントAおよびBで構成されるコンテクスト配列であり、
図11は、ピクチャのスライスへのパーティションの表現である。
図1aは、ベーススケーリングレイヤおよび拡張スケーリングレイヤを有する符号化されたビデオシーケンスを生成するための装置の好適な実施の形態を示す。8、16または任意の数のピクチャの群を有する元のビデオシーケンスは、入力端1000を介して送り込まれる。出力側では、符号化されたビデオシーケンスは、ベーススケーリングレイヤ1002および拡張スケーリングレイヤ1004を含む。拡張スケーリングレイヤ1004およびベーススケーリングレイヤ1002は、出力側に単一のスケーラブルビットストリームを生成するビットストリームマルチプレクサに供給される。ただし、実施によっては、2つのスケーリングレイヤの別々の伝送も可能であり、一部の場合には有用である。図1aは、2つのスケーリングレイヤ、すなわち、ベーススケーリングレイヤおよび拡張スケーリングレイヤを生成するためのコーダを示す。必要な場合、1つまたはいくつかのさらなる拡張レイヤを生成するコーダを得るためには、図1に示す拡張スケーリングレイヤ1004にベーススケーリングレイヤ1002によりデータが供給されるように、拡張スケーリングレイヤの機能が繰り返され、より高次の拡張スケーリングレイヤに必ず1段下の拡張スケーリングレイヤによりデータが供給される。
SNRスケーラビリティ、または空間スケーラビリティ、または空間およびSNRスケーラビリティを結合したスケーラビリティのような、各種スケーリングタイプの内容に言及する前に、まず、本発明の基本原理について説明する。最初に、コーダは、ベース動きデータを計算するためのベース動き補償器またはベース動き推定器1006を含み、これは、ベース動き補償器1006が入力側から得るピクチャの群の中の別のピクチャに関して、現在のピクチャ中のマクロブロックがどのように動いたかを示す。動きデータを計算するための技法、具体的には、基本的にデジタルビデオピクチャ中のピクセルの領域であるマクロブロックに対する動きベクトルを計算するための技法が知られている。望ましくは、ビデオ符号化規格H.264/AVCの中に標準化されているように、動き補償計算が用いられる。これによって、後のピクチャのマクロブロックが考慮され、先のピクチャと比較してマクロブロックがどのように「動いた」かが決定される。この動き(xy方向における)は、2次元の動きベクトルで示され、ブロック1006によってあらゆるマクロブロックに対して計算され、さらに動きデータライン1008を介してベースピクチャコーダ1010に供給される。次に、次のピクチャに対して、前のピクチャから次のピクチャにマクロブロックがどのように動いたかが計算される。
1つの実施において、この新しい動きベクトルは、ある意味では第2から第3ピクチャへの動きを示し、2次元ベクトルとして送信することもできる。ただし、効率上の理由から、動きベクトル差分だけを送信することが望ましく、この差分とは、第2から第3ピクチャへのマクロブロックの動きベクトルと、第1から第2ピクチャへのマクロブロックの動きベクトルとの差分のことである。また、これに換えて、直前のピクチャでなく、さらに先行するピクチャへ参照し、それらとの差分をそれぞれ使用することもできる。
ブロック1006によって計算された動きデータは、次にベース動き予測器1012に供給され、この予測器は、動きデータおよびピクチャの群を使用するために、残差ピクチャのベースシーケンスを計算するように設計されている。このように、ベース動き予測器は動き補償を実行するが、この動き補償は、ある意味では動き補償器および動き推定器それぞれによって準備されたものである。次に、この残差ピクチャのベースシーケンスは、ベースピクチャコーダに供給される。ベースピクチャコーダは、その出力端にベーススケーリングレイヤを出力するように形成されている。
さらに、本発明のコーダは、拡張動きデータを検知するための拡張動き補償器または拡張動き推定器1014を含む。これらの拡張動きデータは、拡張動き予測器1016に供給され、この拡張動き予測器は、出力側に残差ピクチャの拡張シーケンスを生成し、さらにこれらを下流の中間レイヤ予測器1018に供給する。このように、拡張動き予測器は動き補償を実行するが、この動き補償は、ある意味では動き補償器および動き推定器それぞれによって準備されたものである。
中間レイヤ予測器は、出力側に拡張予測残差ピクチャを計算するように形成されている。実施によっては、中間レイヤ予測器は、ブロック1016から得るデータに加え、すなわち残差ピクチャの拡張シーケンスに加え、点線のバイパスライン1020を介してブロック1012から供給される残差ピクチャのベースシーケンスを用いる。またこれに換えて、ブロック1018は、ブロック1012の出力端から供給され、補間器1022によって補間された残差ピクチャの補間されたシーケンスも用いることができる。同様に、上記に換えて、中間レイヤ予測器は、ベースピクチャコーダ1010の出力端1024から提供されるように、残差ピクチャの再構成されたベースシーケンスを提供することもできる。図1aから分かるように、残差ピクチャのこの再構成されたベースシーケンスは、補間されること(1022)も補間されないこと(1020)もできる。このように、一般的に、中間レイヤ予測器は、残差ピクチャのベースシーケンスを用いて動作し、中間レイヤ予測器の入力端1026での情報は、たとえば、ブロック1012の出力端からの残差ピクチャのベースシーケンスの再構成または補間によって導出される。
中間レイヤ予測器1018の下流に、拡張ピクチャコーダ1028があり、これは、符号化された拡張スケーリングレイヤ1004を得るために、拡張予測残差ピクチャを符号化するように形成されている。
本発明の好適な実施の形態において、中間レイヤ予測器は、マクロブロック毎およびピクチャ毎に、中間レイヤ予測器1018が拡張動き予測器1016から得るそれぞれの信号からその出力端1026の信号を差し引くように形成されている。この減算結果で得られる信号は、拡張予測残差ピクチャのピクチャ中のマクロブロックを表している。
本発明の好適な実施の形態において、中間レイヤ予測器は適応的に形成されている。あらゆるマクロブロックに対して、中間レイヤ予測フラグ1030が提供され、この中間レイヤ予測フラグは、中間レイヤ予測器に対して、予測を実行する必要があることを示すか、または、他の表示状態で、予測を実行する必要はないが、拡張動き予測器1016の出力端での対応するマクロブロックがさらなる予測をしないでそのまま拡張ピクチャコーダ1028に供給されることを示す。この適応実施では、中間レイヤ予測が有用な場合にだけ実行されるという効果があり、中間レイヤ予測が実行されないが拡張動き予測器1016の出力データが直接的に符号化される場合に比べて、予測残余信号が低い出力ピクチャレートになる。
空間スケーラビリティの場合、デシメータ1032は、拡張スケーリングレイヤとベーススケーリングレイヤとの間に備えられ、入力端における特定の空間解像度を有するビデオシーケンスを、出力端におけるより低い解像度を有するビデオシーケンスに変換するように形成されている。純粋なSNRスケーラビリティが用いられている場合、すなわち、2つのスケーリングレイヤに対するベースピクチャコーダ1010および1028が、それぞれ異なる量子化パラメータ1034および1036で動作する場合には、デシメータ1032は備えられない。これは、図1aのバイパスライン1038によって概略的に示されている。
さらに、空間スケーラビリティの場合では、補間器1022を備える必要がある。純粋なSNRスケーラビリティの場合では、補間器1022は備えられない。代わりに、図1aに示すように、バイパスライン1020が採用される。
1つの実施において、拡張動き補償器1014は、個々のモーションフィールドを全部計算するか、あるいは、ベース動き補償器1006によって計算されるモーションフィールドを直接的に(バイパスライン1040)またはアップサンプラ1042によってアップサンプリングした後に用いるように形成されている。空間スケーラビリティの場合は、ベース動きデータの動きベクトルをより高い解像度にアップサンプルするために、たとえばスケールするために、アップサンプラ1042を備える必要がある。たとえば、拡張解像度がベース解像度の2倍の高さおよび幅であれば、拡張レイヤ中のマクロブロック(16×16輝度サンプル)が、ベースレイヤ中のサブマクロブロック(8×8輝度サンプル)に対応するピクチャの領域をカバーすることになる。
このように、拡張スケーリングレイヤのマクロブロックに対してベース動きベクトルの使用を可能にするために、ベース動きベクトルは、そのx成分およびy成分において2倍にされ、すなわち2倍にスケールされる。これについては、図6bを参照しながらさらに詳しく説明する。
一方、SNRスケーラビリティだけの場合には、全てのスケーリングレイヤに対してモーションフィールドは同じである。そのため、これは一度しか計算する必要がなく、高位のあらゆるスケーリングレイヤは、より低位のスケーリングレイヤが計算したものを直接使用することができる。
中間レイヤ予測のために、ベース動き予測器1012の出力端の信号を用いることもできる。これに換えて、ライン1024上の再構成された信号を用いることもできる。これらの2つの信号のうちのいずれを予測に用いるかの選択は、スイッチ1044によって行われる。ライン1024上の信号は、それが既に量子化過程を経ているという点で、ブロック1012の出力端の信号とは異なっている。このことは、ブロック1012の出力端の信号と対比すると、ライン1024上の信号は量子化エラーを有することを意味する。中間レイヤ予測のためにライン1024上の信号を用いる選択には、SNRスケーラビリティが単独でまたは空間スケーラビリティと結合して用いられている場合に特に利点があり、その理由は、この場合、ベースピクチャコーダ1010によって発生される量子化エラーは、より高位のスケーリングレイヤに「持ち運ばれる」、すなわち、ブロック1018の出力信号は、第1スケーリングレイヤによって発生される量子化エラーを含み、次にそれが入力端1036において通常はより細かな量子化ステップ幅および違った量子化パラメータ2をそれぞれ有する拡張ピクチャコーダによって量子化され、さらに拡張スケーリングレイヤ1004に書き込まれることになるからである。
中間レイヤ予測フラグ1030と似たように、動きデータフラグ1048がピクチャコーダに送り込まれ、動きデータについての対応する情報が拡張スケーリングレイヤ1004に含められ、後でデコーダに使用されることになるが、このことについては、図2を参照して説明する。
純粋な空間スケーラビリティが用いられる場合、ベース動き予測器1012の出力信号すなわち残差ピクチャのベースシーケンスを、ライン1024上の信号の代わりに、すなわちベース残差ピクチャの再構成されたシーケンスの代わりに用いることができる。
実施に応じて、このスイッチの制御を、手動でまたは予測利益関数に基づいて行うことができる。
なお、望ましくは、全ての予測、すなわち、動き予測、拡張動きデータ予測および中間レイヤ残余値予測は、適応的に設計されている。具体的には、たとえば、残差ピクチャのベースシーケンスのピクチャ中において、必ずしもあらゆるマクロブロックまたはサブマクロブロックに対して、動きデータ予測残余値が存在する必要はない。このように、残差ピクチャのベースシーケンスのピクチャは、「残差ピクチャ」と呼ばれているにもかかわらず、予測されないマクロブロックおよびサブマクロブロックをもそれぞれ含むことができる。この状況は、たとえば、ピクチャの中に新しいオブジェクトが生じたことが検知された場合に起こることになる。ここでは、動き補償予測は役立たなく、その理由は、予測残差信号が、ピクチャにおいて元の信号よりも大きくなってしまうからである。ブロック1016での拡張動き予測では、このような場合、このブロック(たとえばマクロブロックまたはサブマクロブロック)に対する予測演算子および最終的には更新演算子の双方が非アクティブにされる。
ここで、明確化のために、たとえば、残差ピクチャのベースシーケンスが、仮に、動き予測残余信号を実際に含む1つのブロックを有する残差ピクチャのベースシーケンスの1枚の残差ピクチャだけであったとしても、これを残差ピクチャのベースシーケンスということにする。ただし、典型的なアプリケーションの場合、実際には、どの残差ピクチャも動き予測残余データを有する多数のブロックを有する。
本発明の意味において、これを残差ピクチャの拡張シーケンスに対しても適用する。あのように、拡張レイヤにおける状態もベースレイヤの状態と同様なことになる。このように、本発明の意味において、残差ピクチャの拡張シーケンスは、ピクチャのシーケンスということになり、極端な場合には、単一の「残差ピクチャ」の単一のブロックだけが動き予測残余値を有し、このピクチャ中の他の全てのブロック中さらには他の全ての「残差ピクチャ」中には、他の全てのピクチャ/ブロックに対して動き補償付予測および必要な場合に動き補償更新が非アクティブにされているので、残差が存在しないこともある。
本発明では、これは、拡張予測残差ピクチャを計算する中間レイヤ予測器にも適用する。典型的には、拡張予測残差ピクチャは、シーケンスとして存在することになる。一方、中間レイヤ予測器も、望ましくは、同様に適応的に形成される。たとえば、ベースレイヤから拡張レイヤへのベースレイヤの残余データ予測が、単一の「残差ピクチャ」の単一のブロックだけに有用であり、このピクチャの他の全てのブロックに対して、および、必要に応じて拡張予測残差ピクチャのシーケンスの他の全てのピクチャに対しては、中間レイヤ残余データ予測が非アクティブにされていることが検知された場合、本発明の文脈において、明確化のために、このシーケンスでも拡張予測残差ピクチャということにする。なお、これに関連して、中間レイヤ予測器が残余データを予測できるのは、ベースレイヤ中の残差ピクチャの対応するブロックにおいて動き補償残余値が既に計算され、さらにこのブロックに対応するブロック(たとえば同一のx、y位置)に対する動き補償予測も拡張シーケンスの残差ピクチャ中で既に実行されて、このブロックにおいて残差値が動き補償予測による拡張レイヤ中に存在する場合だけである。実際の動き補償予測残余値が、考慮される双方のブロックに存在する場合においてだけ、望ましくは中間レイヤ予測器がアクティブになり、ベースレイヤのピクチャ中の残差値のブロックを拡張レイヤのピクチャ中の残差値のブロックに対する予測子として用い、次にこの予測の残余値だけすなわち考慮されたピクチャのこのブロック中の拡張予測残差データだけを拡張ピクチャコーダに送信する。
以下に、図1bを参照しながら、ベースピクチャコーダ1010、拡張ピクチャコーダ1028およびその他のピクチャコーダの詳細事例を説明する。ピクチャコーダは、入力側で、残差ピクチャの群を受信し、それらをマクロブロック毎に変換器1050に供給する。次に、変換されたマクロブロックは、ブロック1052においてスケールされ、さらに量子化パラメータ1034、1036、・・・を用いて量子化される。ブロック1052の出力端からは、用いられた量子化パラメータ、すなわち、マクロブロックに対して用いられた量子化ステップ幅およびマクロブロックのスペクトル値に対する量子化インデックスが出力される。次に、この情報は、図1bには示されていないが、エントロピーコーダステージに供給され、これはハフマンコーダ、望ましくは算術コーダを含み、H.264/AVCによる周知のCABAC概念で動作する。また、手段1052の出力信号はブロック1054にも供給され、ここでは逆スケーリングおよび再量子化が実行されて、量子化インデックスを量子化パラメータとともに数値に変換し、次に、それはブロック1056の逆変換器に供給されて、残差ピクチャの再構成された群を得る。これは、残差ピクチャの元の群に比べて、変換ブロック1050の入力端での量子化エラーを有し、量子化エラーは、量子化パラメータおよび量子化ステップ幅にそれぞれ依存する。本発明の残余値予測を実行するために、スイッチ1044の制御によって、1つの信号または他の信号が補間器1022または直接に中間レイヤ予測器1018に供給される。
中間レイヤ予測器フラグ1030の簡単な実施が図1cに示されている。中間レイヤ予測フラグがセットされていると、中間レイヤ予測器1018はアクティブにされる。しかしながら、フラグがセットされていなければ、中間レイヤ予測器は非アクティブにされ、このマクロブロックまたはそのマクロブロックに従属するサブマクロブロックに対して、同時キャスト操作が実行される。前述のように、この理由は、予測によるコーダ利得が実際にはコーダ損失になってしまう、すなわち、ブロック1016の出力端での対応するマクロブロックを伝送した方が、予測残余値が用いられる場合よりも後のエントロピー復号化において、より良いコーダ利得が提供されるということである。
動きデータフラグ1030の簡単な実施が図1dに示されている。フラグがセットされていると、拡張レイヤの動きデータがベースレイヤのアップサンプルされた動きデータから導出される。SNRスケーラビリティの場合、アップサンプラ1042は必要ない。ここで、フラグ1048がセットされていると、拡張レイヤの動きデータを、ベース動きデータから直接導出することができる。なお、この動きデータ「導出」は、動きデータの直接引用であることも、動きデータ予測値を得るために、ブロック1014がベースレイヤから得られる動きベクトルをブロック1014によって計算された拡張スケーリングレイヤに対して対応する動きベクトルから差し引くという実際の予測であることもある。拡張レイヤの動きデータ(どのようなタイプの予測も実行されなかった場合)または予測の残余値(実際の予測が実行された場合)が、図1aに示した出力端を介して拡張ピクチャコーダ1028に供給され、最後には、拡張スケーリングレイヤビットストリーム1004に含まれることになる。しかしながら、スケーリングの有無にかかわらず、ベーススケーリングレイヤから動きデータの全面的な引き継ぎが実行される場合、それらは拡張スケーリングレイヤビットストリーム1004の中に書き込まれる必要はない。拡張スケーリングレイヤビットストリーム中の動きデータフラグ1048によってそのことを信号伝達するだけで十分である。
図2は、ベーススケーリングレイヤ1002および拡張スケーリングレイヤ1004を含む符号化されたビデオシーケンスを復号化するための装置を示す。拡張スケーリングレイヤ1004およびベーススケーリングレイヤ1002は、ビットストリームデマルチプレクサから取り出すことができ、これは、共通のビットストリームからベーススケーリングレイヤ1002および拡張スケーリングレイヤ1004の両方を抽出するために、両方のスケーリングレイヤをそれぞれ有するスケーラブルビットストリームを分離する。ベーススケーリングレイヤ1002は、ベースピクチャデコーダ1060に供給され、ベースピクチャデコーダは、残差ピクチャのベースシーケンスおよびベース動きデータを得るためにベーススケーリングレイヤを復号化するように形成され、これらは出力ライン1062に適用される。次に、ライン1062上の出力信号は、ベース動き結合器1064に供給され、ベース動き結合器は、出力側に第1スケーリングレイヤの復号化されたピクチャを出力するために、ブロック1012のコーダ中に導入されたベース動き予測子をキャンセルする。さらに、本発明のデコーダは、出力ライン1068に拡張予測残差ピクチャを得るために、拡張スケーリングレイヤ1004を復号化するための拡張ピクチャデコーダ1066を含む。さらに、出力ライン1068は、動きデータフラグ1070、または、拡張スケーリングレイヤ1004中に拡張動きデータまたは拡張動きデータ残余値が実際に存在する場合にはこれらの拡張動きデータなどの動きデータ情報を含む。一方、ライン1062上の復号化されたベースシーケンスは、補間器1070によって補間され、または、図1aの中間レイヤ予測器1018によって実行される中間レイヤ予測をキャンセルするために、変更されないまま(ライン1072)中間レイヤ結合器1074に供給されることになる。このように、中間レイヤ結合器は、残差ピクチャの拡張シーケンスを得るために、拡張予測残差ピクチャと、ライン1062上の補間された(1070)またはされてない(1072)復号化されたベースシーケンスについての情報とを結合するように形成されている。この拡張シーケンスは、最終的に、拡張動き結合器1076に提供され、その拡張動き結合器は、ベース動き結合器1064と同様に、拡張レイヤ中に実行されている動き補償をキャンセルする。拡張動き結合器1076は、ブロック1076中の動き結合のための動きデータを提供するために、動きデータ算定手段1078に結合する。この動きデータを、実際に、出力端1068から拡張ピクチャデコーダによって提供される拡張レイヤに対する全拡張動きデータとすることができる。これに換えて、拡張動きデータを、動きデータ残余値とすることもできる。双方の場合とも、対応するデータは、拡張動きデータライン1080を介して動きデータ決定手段1078に供給される。ただし、動きデータフラグ1070が、拡張レイヤに対して個別拡張動きデータが送信されていないと信号伝達している場合、必要な動きデータは、ベースレイヤから、ライン1082を介して、用いられたスケーラビリティに応じて、直接(ライン1084)、または、アップサンプラ1086によるアップサンプリングの後に、取られる。
さらに、イントラブロックの中間レイヤ予測の場合、動きデータ残余値がなく、拡張動き結合器1076とベース動き結合器1064との間の対応するつながりはデコーダ側に設けられ、デコーダは、空間スケーラビリティのある場合には補間器1090を、または、SNRスケーラビリティだけが用いられている場合にはバイパスラインを有する。2つのレイヤの間の選択的イントラブロック予測の場合には、予測残余信号だけがそのイントラブロックに対する拡張レイヤに送信され、ビットストリーム中の対応する信号伝達情報によってイントラブロックが示される。この場合、拡張動き結合器も、以下に説明する機能に加えて、このマクロブロックに対する加算を実行し、すなわち、マクロブロック残余値と低位のスケーリングレイヤからのマクロブロック値との結合を実行し、さらに得られたマクロブロックを実際の逆動き補償処理に供給する。
以下に、図3〜図5dを参照しながら、ベース動き予測器1012または拡張動き予測器1016、および、逆処理エレメント、すなわち拡張動き結合器1076またはベース動き補償器1064の好適な実施の形態を説明する。
基本的には、任意の動き補償予測アルゴリズムを、すなわち、図9の92に示した動き補償アルゴリズムも用いることができる。このように、従来の動き補償アルゴリズムも、図1に示したシステムに追随するが、図4に参照番号45で示した更新演算子Uは非アクティブにされる。これにより、ピクチャの群は、元のピクチャと、残余ピクチャと、予測残余信号とに、または、ピクチャによっては残差ピクチャとに変換される。しかしながら、図4に示したような更新演算子がアクティブであり、たとえば図5a〜図5dに例示したように計算される、既知の動き補償スキームで拡張が実施される場合、標準的な動き補償予測計算は、動き補償時間フィルタリングともいわれるいわゆるMCTF処理となる。ここで、元のピクチャは更新演算子によって重み付けされた予測残余信号と結合されるので、従来の動き補償の標準ピクチャおよびイントラピクチャは、それぞれ、更新演算を介してローパスピクチャとなる。
本発明の好適な実施の形態において、図1aおよび図2に関して既に説明したように、このようなMCTF処理は、あらゆるスケーリングレイヤに対して実行され、MCTF処理は、望ましくは、図3〜図5dおよび図7〜図8を参照して説明するようなやり方で実行される。
以下に、図4およびその後の図5a〜図5dを参照しながら動き補償予測フィルタの好適な実施の形態を説明する。既に説明したように、動き補償時間フィルタ(MCTF)は、3つのステップ、すなわち多相分解、予測および更新の3ステップを有する一般的なリフティングスキームで構成される。対応する分析/合成フィルタバンク構造を図4に示す。分析側では、所定の信号の奇数サンプルは、予測演算子Pとハイパス信号Hとを用いて、偶数サンプルの一次結合によって予測残余値にろ波される。対応するローパス信号lは、更新演算子を用いて、予測残余値hの一次結合を、入力信号sの偶数サンプルに加えることによって形成される。変数hおよびlの数式的な関係を図4に示し、演算子PおよびUの基本的な実施の形態を図5aに示す。
予測ステップおよび更新ステップの双方とも完全に逆処理することが可能なので、対応する変換を、厳密にサンプルされた完全な再構成フィルタバンクと見なすことができる。合成フィルタバンクは、合算プロセスにおいて、逆の順に配置された逆符号の予測演算子および更新演算子のアプリケーションを含み、その合算プロセスでは偶数および奇数の多相成分が用いられる。ハイパス/ローパス成分の正規化のために、対応するスケーリングファクタFlおよびFhが用いられる。これらのスケーリングファクタを必ず用いる必要はないが、符号化の過程で量子化ステップサイズを選択する際にそれらを用いることができる。
f[x、k]は、空間座標x=(x,y)Tを示し、kは時間座標である。ヘアウェーブレットのリフティング表現を用いた時間的分解に対する予測演算子Pおよび更新演算子Uは、図5bの左側に示す式で与えられる。5/3変換については、対応する演算子が図5bの右側に示すように得られる。動き補償時間フィルタリングに対する拡張は、図5cに示すように、予測演算子および更新演算子を変形することにより得られる。具体的には、r>0の参照インデックスを参照することになり、これにより一般的ピクチャ適応動き補償フィルタリングが可能となる。これらの参照インデックスを介し、図4に示したシナリオにおいて、時間的に引き続く2つのピクチャをハイパスピクチャとローパスピクチャとに分解できるだけでなく、たとえば、第1ピクチャを動き補償されたやり方で、シーケンスの第3ピクチャでろ波することができる。これに換えて、参照インデックスを適切に選択することによって、たとえば、シーケンス群のあるシーケンスの同じ1つのピクチャを、動きベクトルに対するベースとして活用できるようにすることができる。このことは、参照インデックスによって、たとえば、全ての動きベクトルがシーケンスの第4ピクチャに関連付けられている8ピクチャのシーケンスにおいて、これらの8ピクチャを図4のフィルタスキームで処理した結果として、単一のローパスピクチャを得、さらに7ハイパスピクチャ(拡張ピクチャ)および元のシーケンスの同じ1つのピクチャに関連する全ての動きベクトルを得ることができ、1つの拡張ピクチャがあらゆる動きベクトルに関連付けられている。
このように、あるシーケンスの同じ1つのピクチャがいくつかのさらなるピクチャのフィルタリングのための基準として用いられる場合、これは2のファクタによらない時間的解像度スケーリングにつながり、ある種のアプリケーションには有利である。常に、同一のピクチャ、すなわち、たとえば8ピクチャのシーケンスの第4ピクチャが、図4の分析フィルタバンクの下側ブランチに送り込まれる。ローパスピクチャは、あらゆるフィルタリングにおいて同一であり、言い換えれば、ピクチャのシーケンスの最終的に必要な単一のローパスピクチャである。更新パラメータがゼロの場合、ベースピクチャは、下側ブランチを通って「通過」となる。これに対して、ハイパスピクチャは、常に、元のシーケンスの対応する他のピクチャと予測演算子とに依存し、入力ピクチャに関連付けられる動きベクトルが予測に用いられる。このように、この場合、最終的に得られたローパスピクチャは、ピクチャの元のシーケンスの特定のピクチャに関連付けられ、また、各々のハイパスピクチャも、元のシーケンスのピクチャに関連付けられ、元のピクチャの偏差は、シーケンスの選択されたベースピクチャ(これは図4の分析フィルタバンクの下側ブランチに供給される)からのシーケンス(動き補償)にまさに対応する。あらゆる更新パラメータM01、M11、M21およびM31がゼロに等しい場合、それは、第4レベルの下側ブランチ73中に送り込まれるピクチャが、底部に向けて「通過」となることである。ある意味では、ローパスピクチャTP1は「繰り返して」フィルタバンクに供給され、一方、他のピクチャは、参照インデックスによって制御され、1つずつ図3の入力端64に導入される。
前の式からも分かるように、動き補償フィルタリングに対する予測および更新演算子は、それぞれ、2つの異なるウェーブレットに対して異なった予測を提供する。ヘアウェーブレットが用いられる場合、一方向動き補償予測が達成される。しかしながら、5/3スプラインウェーブレットが用いられる場合、2つの演算子は双方向動き補償予測を特定する。
双方向補償予測は、通常、一方向予測と比べて、予測残余値のエネルギーを低減するが、動きベクトルレートを増加するので、一方向および双方向予測の間での切り替えをダイナミックに行うことが望ましく、このことは、ピクチャに依存している制御信号に依存する5/3スプラインウェーブレットおよびヘアウェーブレットのリフティング表現の間での切り替えを可能にすることを意味する。本発明の概念は、時間フィルタリングに対する閉じたフィードバックループを用いずに、2つのウェーブレットの間でこのマクロブロック毎の切り替えを可能にし、また、柔軟性および特にデータレートの節減をサポートし、信号適応的なやり方で最適に実行することができる。
モーションフィールドまたは一般に動き予測データフィールドMPおよびMUを理想的に表現するために、H.264/AVC中のBスライスの既存のシンタックスを使用することができる。
ペアワイズピクチャ分解ステージをカスケードすることによって、2項分解的なツリー構造が得られ、これにより、8ピクチャの群に対する例を図7に示すように、2nピクチャの群は、2n-1残余ピクチャと単一のローパス(またはイントラ)ピクチャとに分解される。具体的には、図7は、第1レベルのフィルタの出力端22における第1レベルのハイパスピクチャHP1、および第1レベルのフィルタの出力端24における第1レベルのローパスピクチャを示している。第2レベルのフィルタの出力端16における2つのローパスピクチャTP2、および第2レベルから得られたハイパスピクチャが、第2レベルのピクチャとして図7に示されている。第3レベルのローパスピクチャは、第3レベルのフィルタの出力端76に適用され、第3レベルのハイパスピクチャは、処理されたフォームで出力端75に適用される。8ピクチャの群はもともと8ピクチャで構成することができ、そのため、図3のデコーダは第4レベルのフィルタなしに用いられる。ただし、8ピクチャの群が、第4レベルのフィルタの出力端73で用いられるような8ローパスピクチャの群である場合、本発明のMCTF分解を、ベース動き予測器、拡張動き予測器として、さらに、ベース動き結合器または拡張動き結合器として、それぞれ用いることができる。
このように、この分解では、2nピクチャの群、(2n+1-2)モーションフィールド記述、(2n-1)残余ピクチャおよび単一のローパス(またはイントラ)ピクチャが送信される。
ベース動き補償器および拡張動き補償器の双方は、望ましくは、ベース制御パラメータおよび拡張制御パラメータによってそれぞれ制御され、量子化パラメータ(1034または1036)および動き情報の最適な結合が計算され、この結合は特定のレートに固定されている。これは、特定の最大ビットレートに関して最適の比率を得るために、以下の方法に従って実行される。このように、比較的粗い量子化パラメータを意味する低いビットレートにおいては、比較的細かい量子化パラメータが取られる高位のスケーリングレイヤに対するよりも、動きベクトルがより重要であることが分かる。このように、粗い量子化、従ってより低いビットレートの場合、より高位のスケーリングレイヤに対するよりも、少ない動きデータが計算される。そこで、より高位のスケーリングレイヤでは、高位のスケーリングレイヤの場合に比べて残余データに関して動きデータが比例的に重要である低ビットレートの場合よりも、良好な品質および高ビットレートでの最適状態のために、ある程度多くの動きデータを計算するためにサブマクロブロックモードに移行することが望ましい。以下に、これについて説明する。
元のピクチャまたは前の分析ステージで生成されるローパス信号を表すピクチャであるピクチャAおよびBが与えられる。さらに、ルマサンプルa[]およびb[]の対応する配列が提供される。動き記述Mi0は、次のようにマクロブロック毎に推定される。
ピクチャB内のマクロブロックiの可能な全てのマクロブロックおよびサブマクロブロックパーティションに対して、関連動きベクトル
Figure 0005122288
は、ラグランジュ関数
Figure 0005122288
を最小化することによって計算され、ここで、劣化数式項は次式
Figure 0005122288
で与えられる。
ここで、Sは、参照ピクチャA内の動きベクトル検索領域を特定する。Pは、考慮されたマクロブロックパーティションまたはサブマクロブロックパーティションによってカバーされる領域である。R(i,m)は、動きベクトルmの全ての成分を送信するために必要なビット数を特定し、λは固定ラグランジュ乗数である。
最初に、動き検索が所定の検索領域S中の全ての整数サンプルの正確な動きベクトルを通して進む。次に、最善の整数動きベクトルを用いて、8つの周囲の半分サンプルの正確な動きベクトルがテストされる。最後に、最善の半分サンプルの正確な動きベクトルを用いて、8つの周囲の4分の1サンプルの正確な動きベクトルがテストされる。半分および4分の1の正確な動きベクトルの改善に対する数式項
Figure 0005122288
は、補間演算子として解釈される。
一般に、マクロブロックモードおよびサブマクロブロックに対するモード決定は、同じアプローチをたどる。次のラグランジュ関数を最小化するモードpiは、可能なマクロブロックまたはサブマクロブロックモードSmodeの所定のセットから選択される。
Figure 0005122288
劣化数式項は、次式
Figure 0005122288
で与えられ、ここで、Pは、マクロブロックまたはサブマクロブロック領域を特定し、m[p,x,y]は、マクロブロックまたはサブマクロブロックのモードpおよびルマ位置(x,y)を含むパーティションまたはサブマクロブロックパーティションに関連付けられる動きベクトルである。
レート数式項R(i,p)は、コーダモードpの選択に関連付けられるビット数を表す。動き補償コーダモードでは、同モードは、マクロブロックモード(適用される場合)と、サブマクロブロックモードおよびその複数モード(適用される場合)のそれぞれと、動きベクトルおよびその複数ベクトルのそれぞれとに対するビットを含む。イントラモードでは、同モードは、マクロブロックモードと量子化されたルマおよびクロマ変換係数レベルの配列とに対するビットを含む。
可能なサブマクロブロックモードのセットは、
Figure 0005122288
で与えられる。
可能なマクロブロックモードのセットは、
Figure 0005122288
で与えられ、ここで、INTRAモードは、予測ステップで用いられるモーションフィールド記述Mi0が推定される場合にだけ用いられる。
ラグランジュ乗数λは、モーションフィールドが推定される分解ステージのハイパスピクチャまたはピクチャQPHiに対するベースレイヤ量子化パラメータに基づいて、次式
Figure 0005122288
に従って設定される。
本発明によれば、図8に示す分解スキームが用いられ、これは、時間スケーラビリティとコーダ効率との間で賢明な折衷ができるよう想定されたものである。元のピクチャのシーケンスは、入力ピクチャA、B、A、B、A、B、・・・、A、Bのシーケンスとして取り扱われる。このように、このスキームでは、最適な時間スケーラビリティ(ローパスピクチャ間の等距離)のステージを提供する。ローパスピクチャのシーケンスは、以降の全ての分解ステージに対して入力信号として用いられるが、入力ピクチャB、A、A、B、B、A、・・・A、Bのシーケンスとして取り扱われ、以降の2チャンネル分析スキームでは、分解されるローパスピクチャ間のスペースは、図8で分かるように、小さく保たれている。
以下に、動きデータ中間レイヤ予測および残余データ中間レイヤ予測の双方の好適な実施に関して、図6a〜図6dを参照する。空間およびSNRスケーラビリティをそれぞれ得るために、基本的には、低位のスケーリングレイヤの動きデータおよびテクスチャデータは、高位のスケーリングレイヤの予測のために用いられる。ここで、特に空間スケーラビリティにおいて、動きデータが空間拡張レイヤの復号化のための予測として用いられる前に、動きデータのアップサンプリングが必要となる。ベースレイヤ表現の動き予測データは、AVCの既存のBスライスシンタックスのサブセットを用いて送信される。望ましくは、2つの追加マクロブロックモードが、拡張レイヤのモーションフィールドの符号化のために導入される。
第1マクロブロックモードは、「base_layer_mode」であり、第2モードは、「qpel_refinement_mode」である。これらの2つの追加マクロブロックモードを信号伝達するために、図1に示すように、シンタックスエレメントmb_modeに先立って、2つのフラグ、すなわちBLFlagおよびQrefFlagがマクロブロックレイヤシンタックスに加えられる。このように、第1フラグBLFlag1098は、ベースレイヤモードを信号伝達し、もう一方のフラグ1100は、Qpel refinement modeを記号表示する。このようなフラグがセットされると、その値は1となり、データストリームは図6aに示すようになる。このように、フラグ1098が1の値である場合、フラグ1100およびシンタックスエレメントマクロブロックモード1102はこれ以上重要性がない。一方、フラグ1098の値がゼロの場合、そのフラグはセットされておらず、フラグ1100が用いられ、フラグ1100がセットされれば、エレメント1102に再びブリッジをすることになる。しかしながら、双方のフラッグ1098および1100の値がゼロ場合、すなわち両方ともセットされていない場合、マクロブロックモードは、シンタックスエレメント1102において評価される。
BLFlag=1の場合、対応するマクロブロックに対して、ベースレイヤモードが用いられ、さらなる情報は用いられない。このマクロブロックモードは、ベースレイヤの対応するマクロブロックのマクロブロックパーティションを含む動き予測情報が、このようにして拡張レイヤのために直接用いられていることを示す。なお、本明細書のこの箇所および全体を通して、「ベースレイヤ」という用語は、現在考慮されている拡張レイヤに関して1段低位のレイヤを表す。ベースレイヤが半分の空間解像度を有するレイヤを表す場合、動きベクトルフィールド、すなわちマクロブロックパーティションを含む動きベクトルのフィールドは、図6bに示すように、それに応じてスケールされる。この場合、現在のマクロブロックは、ベースレイヤのモーションフィールドの8×8サブマクロブロックと同じ領域を含む。このように、対応するベースレイヤのマクロブロックが、直接的に16×16、16×8または8×16モードに符号化されている場合、または、対応するベースレイヤのサブマクロブロックが、8×8モードまたは直接8×8モードに符号化されている場合、現在のマクロブロックに対して16×16モードが用いられる。一方、ベースレイヤのサブマクロブロックが8×4、4×8または4×4モードに符号化されている場合、現在のマクロブロックに対するモードは、マクロブロックモード=16×8、8×16または8×8(ただし全てのサブマクロブロックモード=8×8)となる。ベースレイヤのマクロブロックがINTRAマクロブロックを表している場合、現在のマクロブロックは、INTRA_BASE、すなわち、ベースレイヤからの予測を有するマクロブロックに設定される。現在マクロブロックのマクロブロックパーティションについては、ベースレイヤブロックの対応するマクロブロック/サブマクロブロックパーティションに対するのと同じ参照インデックスが用いられる。関連動きベクトルは2倍にされる。この倍率は、図6bに示す状況、すなわち、ベースレイヤ1102が、拡張レイヤ104の半分のピクセル領域およびピクセル数をそれぞれ含む状況で適用される。ベースレイヤ空間解像度の拡張レイヤ空間解像度に対する比率が1/2でない場合、対応するスケーリング倍率が動きベクトルに対して用いられる。
しかしながら、フラグ1098がゼロに等しく、フラグ1100が1に等しい場合、マクロブロックモードqpel_refinement_modeが信号伝達される。フラグ1100は、望ましくは、ベースレイヤが現在レイヤの半分の空間解像度を有するレイヤを表す場合にだけ存在する。そうでない場合は、マクロブロックモード(qpel_refinement_mode)は、実施可能なマクロブロックモードのセットには含まれない。この場合のマクロブロックは、ベースレイヤモードと同様である。マクロブロックパーティション、参照インデックスおよび動きベクトルは、ベースレイヤモードにおけるように導出される。ただし、各々の動きベクトルに対して、あらゆる動きベクトル成分に対するさらなる4分の1サンプルの動きベクトルのリファインメント−1.0または+1があり、これは追加して送信され、導出された動きベクトルに加えられる。
フラグ1098=0でフラグ1100=0の場合、すなわち、フラグ1100が存在しない場合、通常通り、マクロブロックモードと、対応参照インデックスと、動きベクトル差分とが特定される。このことは、動きデータの全体セットが、ベースレイヤに対して行われたのと同様に、拡張レイヤに対して送信されることを意味する。しかしながら、本発明によれば、(空間動きベクトル予測子の代わりに)現在の拡張レイヤ動きベクトルに対する予測子として、ベースレイヤ動きベクトルを用いる可能性が提供される。このように、リストX(Xは0から1までの間の値)により、考慮された動きベクトルの参照インデックスリストが特定される。引き続くすべての状態が真であれば、図6cに示すように、あらゆる動きベクトルの差分について、次のようなフラグMvPrdFlagが送信される。
− 現在のマクロブロック/サブマクロブロックパーティションを含むベースレイヤマクロブロックは、INTRAマクロブロックモードでは符号化されない。
− 現在のマクロブロック/サブマクロブロックパーティショの上部左のサンプルをカバーするベースレイヤマクロブロック/サブマクロブロックパーティションは、リストXまたは双予測を使用する。
− 現在のマクロブロック/サブマクロブロックパーティションの上部左のサンプルを含むベースレイヤマクロブロック/サブマクロブロックパーティションのリストX参照インデックスは、現在のマクロブロック/サブマクロブロックパーティションのリストX参照インデックスに等しい。
図6cのフラグ1106が存在しない場合、または、このフラグ1106=0の場合、AVC規格と同様に空間動きベクトル予測子が特定される。そうでない場合、フラグ1106が存在して=1の場合、動きベクトル予測子として対応するベースレイヤベクトルが用いられる。この場合、現在のマクロブロック/サブマクロブロックパーティションのリストX動きベクトル(X=0または1)は、ベースレイヤマクロブロック/サブマクロブロックパーティションの場合によってスケールされたリストX動きベクトルに、送信されたリストX動きベクトル差分を加算することによって得られる。
このように、フラグ1098、1100および1106は、併せて、図1aにそれぞれ概略的に示したような動きデータフラグ1048および動きデータ制御信号1048を実施できるやり方を表している。もちろん、異なった他の信号伝達のやり方もあり、送信器と受信器との間で、当然一定の取り決めを用いて信号伝達情報を削減することができる。
ここで、図1の拡張動き補償器1014および図2の拡張動きデータ決定手段1078それぞれの具体的な実施について、さらなる詳細を図1e、1fおよび1gに関して説明する。
図1eを参照すると、拡張動き補償器1014は、基本的に2つのことを行わなければならないことが分かる。すなわち、それは、第一に、拡張動きデータ、典型的には全動きベクトルを計算し、さらにそれを拡張動き予測器1016に供給しなければならなく、その結果、それは、従来技術では通常ブロック毎に適応的に実行される残差ピクチャの拡張シーケンスを得るために、符号化されていないフォームのこれらのベクトルを用いることができる。もう一方の事項は、拡張動きデータを処理すること、すなわち、次に、動き補償予測に用いられる動きデータをできるだけ圧縮してビットストリームに書き込むことである。何かをビットストリームに書き込むためには、図1eに示すように、それぞれのデータを拡張ピクチャコーダ1028に送り込む必要がある。このように、拡張動きデータ処理手段1014bは、拡張動きデータ計算手段1014aが決定した拡張動きデータに含まれる冗長性を、ベースレイヤに関して、できる限り削減するための機能を有する。
本発明によれば、ベース動きデータまたはアップサンプルされたベース動きデータについては、拡張動きデータ計算手段1014aが、実際に用いられる拡張動きデータの計算に用いることもでき、または、拡張動きデータの処理、すなわち拡張動きデータの圧縮のためだけに用いることもできるが、これらのことは拡張動きデータの計算には重要ではない。図1gの1.)および2.)の2つの可能性は、拡張動きデータの計算において、ベース動きデータおよびアップサンプルされたベース動きデータが用いられている実施の形態を示し、図1bの3.)は、ベース動きデータについての情報が拡張動きデータの計算に用いられないが、残余データの符号化およびキャプチャだけにそれぞれ用いられる場合を示す。
図1fは、拡張動きデータ決定手段1078のデコーダ側の実施を示し、これはブロック毎の制御を行うための制御モジュール1078aを有し、これにはビットストリームからと拡張ピクチャデコーダ1066からとの信号情報伝達がそれぞれ含まれる。さらに、拡張動きデータ決定手段1078は、拡張動きデータ再構成手段1078bを含み、これは、復号化されたベース動きデータまたは復号化されたアップサンプリングベース動きデータだけを用いて、または、復号化されたベース動きデータについての情報と拡張動きデコーダ1066によって拡張スケーリングレイヤ1004から抽出された残余データからの情報とを結合することによって、拡張動きデータフィールドの動きベクトルを実際に決定し、次に、この動きベクトルを、コーダ側の動き補償予測を逆処理するための共通結合器として形成することができる拡張動き結合器1076によって、用いることができる。
以下に、図1gに概略を示す各種の実施の形態を参照する。図6aに関して既に説明したように、BLFlag1098は、拡張動き予測のためのアップスケールされたベース動きデータの全面的な引き継ぎを信号伝達する。この場合、手段1014aは、ベース動きデータを全面的に引き継ぐように、さらに、異なるレイヤからの異なる解像度の場合には、アップスケールされたフォームで動きデータを引き継ぎ、これらをそれぞれ手段1016に送信するように形成されている。しかしながら、モーションフィールドまたは動きベクトルについての情報は、拡張ピクチャコーダには送信されない。代わりに、マクロブロックまたはサブマクロブロックのどちらかの各ブロックに対して個別のフラグ1098だけが送信される。
デコーダ側では、図1fの手段1078aが1つのブロックに対してフラグ1098を復号化し、それがアクティブであった場合、ベースレイヤにある復号化されたベース動きデータ、または、復号化されたアップサンプルされたベース動きデータを用いて、拡張動きデータを計算し、次に、それをブロック1076に供給する。この場合、手段1078は、動きベクトル残余データを必要としない。
本発明の第2の実施の形態では、フラグQrefFlag1100によって信号伝達され、ベース動きベクトルは、手段1014aによって実行される拡張動きデータ計算に組み入れられる。図1gの部分2.)および上記で説明したように、動きデータ計算および動きベクトルmの計算は、それぞれ、数式項
Figure 0005122288
の最小値を検索することによって実行される。
現在のピクチャBのブロックと、特定の潜在的な動きベクトルによりシフトされた先行するおよび/または後続するピクチャのブロックとの差分は、ひずみ数式項Dに導入される。図1aの1036で示した拡張ピクチャコーダの量子化パラメータは、ファクタλに導入される。数式項Rは、潜在的な動きベクトルを符号化するために用いられるビット数についての情報を提供する。
通常、検査は、いろいろな潜在的な動きベクトルの間で実行され、あらゆる新しい動きベクトルに対してひずみ数式項Dが計算され、レート数式項Rが計算され、一定であることが望ましいが変化させることもできる拡張量子化パラメータ1036が検討される。上記の合計数式項がいろいろな潜在的な動きベクトルに対して評価され、最小結果の合計を提供する動きベクトルが用いられる。
次に、本発明によれば、ベースレイヤからの対応するブロックのベース動きベクトルも、このインタラクティブな検索に組み入れられる。ベクトルが検索基準を満たす場合、先と同様に、フラグ1100だけを送信しなければならないが、このブロックに対する残余値または他のどんなものも送信してはならない。このように、ベース動きベクトルがブロックに対する基準(前の数式項の最小化)を満たす場合、手段1014aは、それを手段1016に送信するために動きベクトルを用いる。ただし、フラッグ1100だけが拡張ピクチャコーダに送信される。
デコーダ側では、手段1078bがベース動きデータからのこのブロックに対する動きベクトルを決定するためにフラグ1100を復号化する場合、手段1078aが手段1078bを制御するが、その理由は拡張ピクチャデコーダが残余データを送信していないからである。
第2の実施の形態の変形例において、ベース動きベクトルだけでなく、そのベース動きベクトルから導出され(わずかに)違いのある複数のベース動きベクトルも検索に組み入れられる。実施によっては、動きベクトルのどの成分も、個別に1インクリメント増加させたり低減させたりでき、または同じままにしておくことができる。このインクリメントは、動きベクトルの特定の粒度、たとえば、解像度ステップ、半分解像度ステップまたは4分の1解像度ステップを表すことができる。このような違いのあるベース動きベクトルが検索基準を満たす場合、その違い、すなわち+1、0または−1のインクリメントの値が「残余データ」としてフラグ1100に追加して送信される。
フラグ1100によってアクティブにされて、デコーダは、データストリーム中のインクリメントを探し、さらにベース動きベクトルまたはアップサンプルされたベース動きベクトルをリカバーし、拡張レイヤにおける対応するブロックに対する動きベクトルを得るために、ブロック1078において、そのインクリメントと対応するベース動きベクトルとを結合する。
フラグ1106によって信号伝達される第3の実施の形態において、動きベクトルの決定を、基本的には任意に実行することができる。この全面的な柔軟性に関して、手段1014aは、拡張動きデータを、たとえば、第2の実施の形態に関連して説明した最小化オブジェクトに従って決定することができる。次に、決定された動きベクトルは、ベースレイヤからの情報を配慮することなく、コーダ側の動き補償予測に用いられる。ただし、この場合、拡張動きデータ処理1014aは、実際の算術符号化の前の冗長度削減のための動きベクトル処理にベース動きベクトルを組み入れるように形成される。
このように、H.264/AVC規格に従って、動きベクトル差分の伝送が実行され、隣接するブロックの間の差分はピクチャ内で決定される。この実施において、この差分をいろいろな隣接するブロックの間で形成し、その中で最小の差分を選択することができる。次に、本発明によれば、ピクチャ中の対応するブロックに対するベース動きベクトルは、動きベクトル差分に対して最も好適な予測子のためのこの検索に組み入れられる。そのベース動きベクトルが、予測子として最小の残差値を提供するという基準を満たす場合、それがフラグ1106によって信号伝達され、その残差値だけがブロック1028に送信される。そのベース動きベクトルがこの基準を満たさない場合、フラグ1106はセットされず、空間動きベクトル差分計算が実行される。
しかしながら、より簡単なコーダ実施においては、インタラクティブな検索の代わりに、単に常に適応的に決定されたブロックに対して、それぞれのベース動きベクトルおよびそのアップサンプルされたそれぞれのバージョンを予測子として用いることができる。
本発明によれば、残余データの中間レイヤ予測も実行される。これについては、以下に説明する。動き情報が1つのレイヤから次のレイヤへと変更される場合、残余情報を予測することが有利なことも不利になることもあり、MCTF分解の場合、ベースレイヤからの拡張レイヤのハイパス情報のそれぞれの予測がそうである。現在のレイヤのブロックに対する動きベクトルが、対応するベースレイヤの動きベクトルに類似し、さらに、マクロブロック毎に、対応するベースレイヤの対応する動きベクトルに類似している場合、符号化されたベースレイヤ残余信号(ハイパス信号)が拡張残余信号(拡張ハイパス信号)の予測に用いられ、これにより、拡張残余信号とベースレイヤ再構成(図1aのライン1024)との差分だけが符号化されれば、コーダ効率が上がる可能性が高い。しかしながら、動きベクトルが類似していない場合、残余信号の予測が、コーダ効率を向上させる可能性は非常に低いものとなる。その結果、残余信号およびハイパス信号それぞれの予測には、適応アプローチが用いられる。この適応アプローチ、すなわち中間レイヤ予測器がアクティブか否かによる適応アプローチについては、差分信号に基づく利点の実際の計算により実行することができ、または、マクロブロックに対するベーススケーリングレイヤの動きベクトルが、拡張スケーリングレイヤ中の対応するマクロブロックに対して、どのくらい違っているかの推定に基づいて実行することができる。この差異が特定の閾値より小さい場合、中間レイヤ予測器が制御ライン130を介してアクティブにされる。しかしながら、この差異が特定の閾値より大きい場合、このマクロブロックに対する中間レイヤ予測器は非アクティブにされる。
フラグResPrdFlag1108が送信される。このフラグ1108=1の場合、ベースレイヤの再構成された残余信号が、拡張レイヤの現在のマクロブロックの残余信号の予測のために使用され、拡張レイヤの現在の残余信号とそのベースレイヤの再構成との間の差分の近似値だけが符号化される。そうでない場合には、フラグ1108は存在しないかまたはゼロに等しい。ここで、拡張レイヤ中の現在のマクロブロックの残余信号は、ベースレイヤからの予測なしに符号化される。
ベースレイヤが、拡張レイヤの半分の空間解像度を有するレイヤを表す場合、残存信号は、補間フィルタを用いてアップサンプルされ、その後、ベースレイヤのアップサンプルされた残余信号が予測信号として用いられる。このフィルタは、6タップを有する補間フィルタであって、より低い解像度によるベースレイヤ中には存在しなかった拡張レイヤのより高い空間解像度の値を補間するために、周囲からの値ができるだけ良好な補間データを得るために用いられる。
しかしながら、変換ブロックのエッジの値が補間され、さらに補間フィルタが補間のための別の変換ブロックの値しか使用できないときは、これをやめるが、考慮されたブロックの外側で補間フィルタの値を合成して、できるだけアーチファクトの発生が少ない補間が起こるようにすることが望ましい。
いわゆるコア実験に基づいて、動きおよび残余値の中間レイヤ予測によって、AVCベースのMCTFアプローチにおいてコーダ効率が大幅に改善されることが判明した。特定のテストポイントに対して、1dBより高いPSNRゲインが得られた。特に、あらゆる空間解像度に対して(ベースレイヤを例外として)非常に低いビットレートでは、再構成品質の改善が明確に確認できた。
状況によっては、本発明の方法は、ハードウエアまたはソフトウエアで実施しうる。この実施は、その方法が実行されるように、プログラム可能なコンピュータシステムと協働する、電子的に読み取り可能な制御信号を有する、デジタル記憶媒体、特に、ディスクまたはCD上で実行することができる。そのため、本発明は、一般に、コンピュータプログラム製品がコンピュータ上で実行されるときに、機械で読み取り可能なキャリアに格納された本発明の方法を実行するためのプログラムコードを有するコンピュータプログラム製品にも存在する。言い換えると、本発明は、コンピュータプログラムがコンピュータ上で実行されるときに、この方法を実行するためのプログラムコードを有するコンピュータプログラムとして実現することができる。
さらに、本発明は、関連制御文字とともに第1スケーリングレイヤおよび第2スケーリングレイヤを有するスケーラブルデータストリームが各種のデコーダ側の手段のために格納されたコンピュータ読み取り可能な媒体に関する。このように、コンピュータ読み取り可能な媒体を、データストリームがプロバイダから受信者に送信されるデータキャリアまたはインターネットとすることもできる。
図1aは、本発明のコーダの好適な実施の形態である。 図1bは、図1aのベースピクチャコーダの詳細な表現である。 図1cは、中間レイヤ予測フラグの機能の説明である。 図1dは、動きデータフラグの説明である。 図1eは、図1aの拡張動き補償器1014の好適な実施である。 図1fは、図2の拡張動きデータ決定手段1078の好適な実施である。 図1gは、拡張動きデータを計算し、さらに、必要に応じて、信号伝達および残余データ伝送のために拡張動きデータ処理するための3つの好適な実施の形態の概略表現である。 図2は、本発明のデコーダの好適な実施の形態である。 図3は、4つのレベルを有するデコーダのブロック図である。 図4は、時間サブバンドフィルタバンクのリフティング分解を説明するためのブロック図である。 図5aは、図4に示すリフティングスキームの機能の表現である。 図5bは、一方向予測(ヘアウェーブレット)および双方向予測(5/3変換)を有する2つの好適なリフティング仕様の表現である。 図5cは、リフティングスキームによって処理される2つのピクチャの任意に選択に対する動き補償および参照インデックスを有する予測および更新演算子の好適な実施の形態である。 図5dは、マクロブロック毎に、元のピクチャ情報をハイパスピクチャに挿入可能なイントラモードの表現である。 図6aは、マクロブロックモードを信号伝達するための略図表現である。 図6bは、本発明の好適な実施の形態による空間スケーラビリティにおける動きデータのアップサンプリングのための略図表現である。 図6cは、動きベクトル差分に対するデータストリームシンタックスの略図表現である。 図6dは、本発明の好適な実施の形態による残余値シンタックス拡張の略図表現である。 図7は、たとえば8ピクチャの群の時間シフトを説明するための概略図である。 図8は、16ピクチャの群に対するローパスピクチャの好適な時間配置である。 図9は、マクロブロックに対するH.264/AVC規格によるコーダに対する基本的なコーダ構造を説明するための概略ブロック図である。 図10は、現在のシンタックスエレメントCの左側および上部にそれぞれ隣接する2つのピクセルエレメントAおよびBで構成されるコンテクスト配列である。 図11は、ピクチャのスライスへのパーティションの表現である。

Claims (18)

  1. ベーススケーリングレイヤ(1002)および拡張スケーリングレイヤ(1004)を有する符号化されたビデオシーケンスを生成するための装置であって、前記装置は、
    現在のピクチャ中のマクロブロックがピクチャの群中の別のピクチャに関してどのように動いたかを示すベース動きデータを計算するためのベース動きデータ計算器(1006)と、
    前記ベース動きデータを用いて残差ピクチャのベースシーケンスを計算するためのベースシーケンス計算器(1012)と、
    残差ピクチャの前記ベースシーケンスから前記符号化されたベーススケーリングレイヤ(1002)を計算するように形成されているベースピクチャコーダ(1010)と、
    拡張動きデータを決定するための拡張データ計算器(1014)と、
    前記拡張動きデータを用いて残差ピクチャの拡張シーケンスを計算するための拡張シーケンス計算器(1016)と、
    残差ピクチャの前記拡張シーケンスを用いさらに残差ピクチャの前記ベースシーケンスについての情報(1026)を用いて拡張予測残差ピクチャを計算するための中間レイヤ予測器(1018)であって、前記中間レイヤ予測器(1018)は、中間レイヤ予測信号(1030)に応じて残差ピクチャの前記拡張シーケンスからブロックの予測または使用を適応的に適用するように形成され、さらに前記中間レイヤ予測信号(1030)は、前記符号化されたビデオシーケンスに含まれている中間レイヤ予測器と、
    前記符号化された拡張スケーリングレイヤ(1004)を得るために前記拡張予測残差ピクチャを符号化するための拡張ピクチャコーダ(1028)とを備える、装置。
  2. 前記ベースピクチャコーダ(1010)は、ベース量子化パラメータ(1034)を用いて量子化を実行するように形成され、
    前記拡張ピクチャコーダ(1028)は、拡張量子化パラメータ(1036)を用いて量子化を実行するように形成され、前記拡張量子化パラメータ(1036)は、前記ベース量子化パラメータ(1034)よりも細かな量子化を実行することができ、
    前記ベースピクチャコーダ(1010)は、再構成されたベースシーケンスを得るために前記ベース量子化パラメータを用いて量子化された残差ピクチャの前記ベースシーケンスを再構成するように形成され、さらに
    前記中間レイヤ予測器(1018)は、残差ピクチャの前記拡張シーケンスを用い、さらに残差ピクチャの前記再構成されたベースシーケンスを残差ピクチャの前記ベースシーケンスについての情報として用いて、前記拡張予測残差ピクチャを計算するように形成されている、請求項1に記載の装置。
  3. 前記ピクチャの群の解像度を間引きするためのデシメータ(1032)であって、前記デシメータ(1032)は、前記拡張データ計算器(1014)に提供されるピクチャの群の拡張解像度よりも低いベース解像度を有するピクチャの群を前記ベース動きデータ計算器(1006)に提供するように形成されているデシメータと、
    残差ピクチャの補間されたベースシーケンスを得るために残差ピクチャの前記ベースシーケンスまたは残差ピクチャの再構成されたベースシーケンスを空間的に補間するための補間器(1022)であって、残差ピクチャの補間されたベースシーケンスを残差ピクチャの前記ベースシーケンスについての情報(1026)として前記中間レイヤ予測器(1018)に供給することができる補間器とをさらに備える、請求項1または請求項2に記載の装置。
  4. 前記ベース動きデータを前記拡張解像度に適応するための動きデータアップサンプラ(1042)をさらに備える、請求項3に記載の装置。
  5. 前記ベース動きデータ計算器(1006)は、マクロブロックに対して2次元の動きベクトルを計算するように形成されている、請求項1ないし請求項4のいずれかに記載の装置。
  6. 前記ベースシーケンス計算器(1012)は、残差ピクチャの前記ベースシーケンスの残差ピクチャのマクロブロックを得るために前記ベース動きデータを用いて予測されるマクロブロックを現在のマクロブロックから差し引くように形成されている、請求項1ないし請求項5のいずれかに記載の装置。
  7. 前記中間レイヤ予測器(1018)は、残差ピクチャの前記拡張シーケンスからのブロックの使用と比較して予測を適用することによってコーダ利得を増加することができるかどうかを、ブロックに対して適応的に決定するように形成されている、請求項1ないし請求項6のいずれかに記載の装置。
  8. 前記中間レイヤ予測器(1018)は、拡張予測残差ピクチャのマクロブロックを得るために、残差ピクチャの前記ベースシーケンス、残差ピクチャの再構成されたベースシーケンス、残差ピクチャの補間されたベースシーケンスまたは残差ピクチャの再構成され補間されたベースシーケンスからのマクロブロックを用いて予測されるマクロブロックを、残差ピクチャの前記拡張シーケンスの現在のマクロブロックから差し引くように形成されている、請求項1ないし請求項7のいずれかに記載の装置。
  9. 前記ベース動きデータ計算器(1006)は、前記ベース量子化パラメータ(1034)、量子化によって生じるひずみ数式項および前記ベース動きデータを送信するためのデータレートに基づいて、前記ベース動きデータを計算するように形成されている、請求項2に記載の装置。
  10. 前記拡張データ計算器1014)は、前記拡張量子化パラメータ(1036)、ひずみ数式項および前記拡張動きデータを送信するためのデータレートに基づいて、前記拡張動きデータを計算するように形成されている、請求項2または請求項9に記載の装置。
  11. 前記拡張データ計算器1014)は、前記ベース動きデータまたはモード制御信号に基づくスケールされた動きデータを使用するように形成されている、請求項1ないし請求項10のいずれかに記載の装置。
  12. 前記ベーススケーリングレイヤ(1002)は、前記拡張スケーリングレイヤ(1004)より低い解像度を有し、前記拡張データ計算器(1014)は、制御信号(1048)に基づく残余動きデータを決定するように形成され、さらに前記拡張ピクチャコーダ(1028)は、前記残余動きデータを前記拡張スケーリングレイヤ(1004)に符号化するように形成されている、請求項1ないし請求項11のいずれかに記載の装置。
  13. 前記ベースシーケンス計算器(1012)および前記拡張シーケンス計算器(1016)は、動き補償予測を実行するように形成されている、請求項1ないし請求項12のいずれかに記載の装置。
  14. 前記ベースシーケンス計算器(1012)および前記拡張シーケンス計算器は、少なくとも1つのローパスおよびいくつかのハイパスピクチャへの動き補償時間的分解を得るために、動き補償予測に加えて動き補償更新を実行するように形成されている、請求項1ないし請求項12のいずれかに記載の装置。
  15. ベーススケーリングレイヤ(1002)および拡張スケーリングレイヤ(1004)を有する符号化されたビデオシーケンスを生成するための方法であって、前記方法は、
    現在のピクチャ中のマクロブロックがピクチャの群中の別のピクチャに関してどのように動いたかを示すベース動きデータを計算するステップ(1006)と、
    前記ベース動きデータを用いて残差ピクチャのベースシーケンスを計算するステップ(1012)と、
    残差ピクチャの前記ベースシーケンスから前記符号化されたベーススケーリングレイヤ(1002)を計算するために残差ピクチャの前記ベースシーケンスについての情報を符号化するステップ(1010)と、
    拡張動きデータを決定するステップ(1014)と、
    残差ピクチャの拡張シーケンスを計算するステップ(1016)と、
    残差ピクチャの前記拡張シーケンスを用いさらに残差ピクチャの前記ベースシーケンスについての情報(1026)を用いて拡張予測残差ピクチャを計算するステップ(1018)であって、前記拡張予測残差ピクチャを計算するステップ(1018)は、中間レイヤ予測信号(1030)に応じて残差ピクチャの前記拡張シーケンスからブロックの予測または使用を適応的に適用し、さらに前記中間レイヤ予測信号(1030)は、前記符号化されたビデオシーケンスに含まれている計算するステップと、
    前記符号化された拡張スケーリングレイヤ(1004)を得るために前記拡張予測残差ピクチャを符号化するステップ(1028)とを備える、方法。
  16. ベーススケーリングレイヤ(1002)および拡張スケーリングレイヤ(1004)を有する符号化されたビデオシーケンスを復号化するための装置であって、ブロックに対する前記符号化されたビデオシーケンスは、ブロックが中間レイヤ予測によりまたは中間レイヤ予測なしで生成されたかどうかを示す、中間レイヤ予測制御信号(1030)を有し、前記装置は、
    残差ピクチャの復号化されたベースシーケンスおよびベース動きデータを得るために前記ベーススケーリングレイヤを復号化するためのベースピクチャデコーダ(1060)と
    張予測残差ピクチャを得るために前記拡張スケーリングレイヤを復号化するための拡張ピクチャデコーダ(1066)と、
    残差ピクチャの拡張シーケンスを得るために、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたベースシーケンスと前記拡張予測残差ピクチャとを結合するための中間レイヤ結合器(1074)と、
    残差ピクチャの前記拡張シーケンスおよび拡張動きデータを用いて前記拡張スケーリングレイヤのピクチャのシーケンスを得るように形成されている拡張動き結合器(1076)とを備え
    前記装置は、前記中間レイヤ予測制御信号(1030)が考慮されたブロックに対する中間レイヤ予測を示す場合にだけ、前記中間レイヤ結合器(1074)をアクティブにするようにさらに形成されている、装置。
  17. ベーススケーリングレイヤ(1002)および拡張スケーリングレイヤ(1004)を有する符号化されたビデオシーケンスを復号化するための方法であって、ブロックに対する前記符号化されたビデオシーケンスは、ブロックが中間レイヤ予測によりまたは中間レイヤ予測なしで生成されたかどうかを示す、中間レイヤ予測制御信号(1030)を有し、前記方法は、
    残差ピクチャの復号化されたベースシーケンスおよびベース動きデータを得るために前記ベーススケーリングレイヤを復号化するステップ(1060)と
    張予測残差ピクチャを得るために前記拡張スケーリングレイヤを復号化するステップ(1066)と、
    残差ピクチャの拡張シーケンスを得るために、残差ピクチャの前記復号化されたベースシーケンスまたは残差ピクチャの補間されたベースシーケンスと前記拡張予測残差ピクチャとを結合するステップ(1074)であって、前記結合するステップ(1074)は、前記中間レイヤ予測制御信号(1030)が考慮されたブロックに対する中間レイヤ予測を示す場合にだけ、アクティブにされるステップと、
    残差ピクチャの前記拡張シーケンスおよび拡張動きデータを用いて前記拡張スケーリングレイヤのピクチャのシーケンスを得るために拡張動き結合(1076)を実行するステップとを備える、方法。
  18. 請求項15または請求項17に記載の方法コンピュータ実行させるためのコンピュータプログラム。
JP2007536022A 2004-10-15 2005-09-21 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法 Active JP5122288B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US61945704P 2004-10-15 2004-10-15
US60/619,457 2004-10-15
DE102004059978.5 2004-10-15
DE102004059978A DE102004059978B4 (de) 2004-10-15 2004-12-13 Vorrichtung und Verfahren zum Erzeugen einer codierten Videosequenz und zum Decodieren einer codierten Videosequenz unter Verwendung einer Zwischen-Schicht-Restwerte-Prädiktion sowie ein Computerprogramm und ein computerlesbares Medium
PCT/EP2005/010227 WO2006042612A1 (de) 2004-10-15 2005-09-21 Vorrichtung und verfahren zum erzeugen einer codierten videosequenz und zum decodieren einer codierten videosequenz unter verwendung einer zwischen-schicht-restwerte-praediktion

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011000843A Division JP5470280B2 (ja) 2004-10-15 2011-01-05 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法

Publications (2)

Publication Number Publication Date
JP2008517499A JP2008517499A (ja) 2008-05-22
JP5122288B2 true JP5122288B2 (ja) 2013-01-16

Family

ID=35431439

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007536022A Active JP5122288B2 (ja) 2004-10-15 2005-09-21 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法

Country Status (3)

Country Link
EP (1) EP1800488A1 (ja)
JP (1) JP5122288B2 (ja)
WO (1) WO2006042612A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060153295A1 (en) * 2005-01-12 2006-07-13 Nokia Corporation Method and system for inter-layer prediction mode coding in scalable video coding
US20070014349A1 (en) * 2005-06-03 2007-01-18 Nokia Corporation Residual prediction mode in scalable video coding
DE102007022955A1 (de) * 2007-05-16 2008-11-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Qualitätsskalierbares Videosignal, Verfahren zu dessen Erzeugung, Codierer und Decodierer
SG181131A1 (en) * 2010-01-11 2012-07-30 Ericsson Telefon Ab L M Technique for video quality estimation
WO2013042359A1 (ja) * 2011-09-22 2013-03-28 パナソニック株式会社 動画像符号化方法、動画像符号化装置、動画像復号化方法、および、動画像復号化装置
BR112015000574A2 (pt) * 2012-07-18 2017-08-08 Sony Corp dispositivo e método de processamento de imagem.

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL9200499A (nl) * 1992-03-17 1993-10-18 Nederland Ptt Systeem omvattende ten minste een encoder voor het coderen van een digitaal signaal en ten minste een decoder voor het decoderen van een gecodeerd digitaal signaal, alsmede encoder en decoder voor toepassing in het systeem.
US6023301A (en) * 1995-07-14 2000-02-08 Sharp Kabushiki Kaisha Video coding device and video decoding device
JP3263807B2 (ja) * 1996-09-09 2002-03-11 ソニー株式会社 画像符号化装置および画像符号化方法
US6233356B1 (en) * 1997-07-08 2001-05-15 At&T Corp. Generalized scalability for video coder based on video objects
DE10121259C2 (de) * 2001-01-08 2003-07-24 Siemens Ag Optimale SNR-skalierbare Videocodierung

Also Published As

Publication number Publication date
WO2006042612A1 (de) 2006-04-27
JP2008517499A (ja) 2008-05-22
EP1800488A1 (de) 2007-06-27

Similar Documents

Publication Publication Date Title
JP5470280B2 (ja) 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法
EP2008469B1 (en) Multilayer-based video encoding method and apparatus thereof
JP4891234B2 (ja) グリッド動き推定/補償を用いたスケーラブルビデオ符号化
KR101033548B1 (ko) 스무딩 예측을 이용한 다계층 기반의 비디오 인코딩 방법,디코딩 방법, 비디오 인코더 및 비디오 디코더
KR100636229B1 (ko) 신축형 부호화를 위한 적응적 엔트로피 부호화 및 복호화방법과 그 장치
KR100703788B1 (ko) 스무딩 예측을 이용한 다계층 기반의 비디오 인코딩 방법,디코딩 방법, 비디오 인코더 및 비디오 디코더
US20060120448A1 (en) Method and apparatus for encoding/decoding multi-layer video using DCT upsampling
JP2008522537A (ja) 多階層基盤のビデオエンコーディング方法、デコーディング方法及び前記方法を利用した装置
WO2007043821A1 (en) Intra-base-layer prediction method satisfying single loop decoding condition, and video coding method and apparatus using the prediction method
KR20130107861A (ko) 인터 레이어 인트라 예측 방법 및 장치
JP5122288B2 (ja) 中間レイヤ残余値予測を用いて符号化されたビデオシーケンスを生成および符号化されたビデオシーケンスを復号化するための装置および方法
KR20140122189A (ko) 계층 간 결합된 화면 내 예측을 이용한 영상 부호화/복호화 방법 및 그 장치
JP2008517498A (ja) 中間レイヤ動きデータ予測を用いて符号化されたビデオシーケンスを生成するための装置および方法
KR100834757B1 (ko) 엔트로피 부호화 효율을 향상시키는 방법 및 그 방법을이용한 비디오 인코더 및 비디오 디코더
EP1817911A1 (en) Method and apparatus for multi-layered video encoding and decoding
EP1817918A1 (en) Method and apparatus for encoding/decoding multi-layer video using dct upsampling
KR20110087871A (ko) 인트라 모드를 이용한 쿼터 픽셀 해상도를 갖는 영상 보간 방법 및 장치
US20150010083A1 (en) Video decoding method and apparatus using the same
JP2003116140A (ja) 動画像可逆符号化方法とその復号化方法、及びそれらの装置
WO2005022917A1 (en) Apparatus and method for coding a group of successive pictures, and apparatus and method for decoding a coded picture signal

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100706

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100928

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101005

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101122

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120131

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121024

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151102

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5122288

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250