JP2011501581A

JP2011501581A - ビデオ符号化方法、ビデオ復号方法、ビデオコーダおよびビデオデコーダ

Info

Publication number: JP2011501581A
Application number: JP2010530253A
Authority: JP
Inventors: ファン、ピン
Original assignee: ファーウェイデバイスカンパニーリミテッド
Priority date: 2007-10-24
Filing date: 2008-10-14
Publication date: 2011-01-06
Anticipated expiration: 2028-10-14
Also published as: US20100202540A1; EP2207352A1; WO2009065325A1; JP5232866B2; EP2207352A4; CN101420609B; CN101420609A; US20140313291A1

Abstract

ビデオ符号化／復号方法およびビデオエンコーダ／デコーダが提供され、ビデオ符号化方法は以下のステップ、つまり第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビューと第２のビューを合成することによって少なくとも１層の予測情報抽出するステップと、少なくとも１層の予測情報にエンハンスメントレイヤ符号化を実行するステップと、第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して、符号化情報を取得するステップとを含んでおり、他のビデオ符号化方法は、以下のステップ、つまり第１のビューにベースレイヤ符号化を実行して、ローカル復号された第１のビューと第２のビューを合成することによって第１の層の予測情報を抽出するステップと、第１の層の予測情報にエンハンスメントレイヤ符号化を実行するステップと、少なくとも１層の予測情報インクリメントを抽出して、これにエンハンスメントレイヤ符号化を実行するステップと、ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得するステップとを含む。立体ビデオのコンテンツに対して階層的な符号化／復号を実現して、異なるネットワークで接続された種々の立体ディスプレイデバイスの異なるレベルの立体表示要件を満たすことができる。
【選択図】図４

Description

本発明はビデオ処理技術、とりわけビデオ符号化方法、ビデオ復号方法、ビデオコーダ（a video coder）およびビデオデコーダ（a video decoder）に関する。

従来の２次元（２Ｄ）ビデオは平面情報のキャリアである。これは１場面のコンテンツをレンダリングするが、この場面の深度情報をレンダリングすることはできない。状況を考慮すると、オブジェクトの幅および高さを知るだけでなく、このオブジェクトの深度を知覚し、かつオブジェクト間の距離や、観察者とオブジェクト間の距離を把握する必要がある。このような３次元（３Ｄ）特徴はこのように生成される、つまり、ある距離にあるオブジェクトを両眼で見ると、この２つの目は、左目と右目の間隔ゆえに異なる画像を受信する。この２つの画像は合成されて、人間の脳において立体感覚を生成する。ビデオ技術の発達によって、人は２Ｄビデオにはもはや満足せず、より良好なユーザ経験および臨場感を追求する。３Ｄビデオ技術は、この目的を達成するための重要な技術の１つである。

人間の両眼の視差の原理に基づいて、３Ｄビデオ技術はカメラを使用して、同一場面の異なる視点から２つの画像を取得し、この２つの画像を同時または順次スクリーンに表示し、両眼にこの２つの画像を見せて、立体感覚を取得する。従来の２Ｄビデオと比較して、３Ｄビデオは２つのビデオストリームを有している。圧縮符号化を考慮せずに画像解像度を保証するために、送信する３Ｄビデオのデータトラフィックは、２Ｄビューのデータトラフィックの２倍である。データトラフィックの増大は記憶および送信を困難にし、この問題は、記憶容量およびネットワーク帯域幅を増大させることのみでは解決されない。効率的な符号化方法が、３Ｄビデオデータを圧縮するように設計される必要がある。

現在、種々の仕様の３Ｄディスプレイデバイス、例えばヘルメットディスプレイ、立体眼鏡、ホログラフィックディスプレイデバイス、および異なる解像度の種々の自動３Ｄディスプレイなどが市場に出回っている。異なる３Ｄディスプレイは異なる層の３Ｄビデオコンテンツを必要とし、３Ｄディスプレイに接続されたネットワークは異なる帯域幅を有する。結果として、異なる層の３Ｄビデオコンテンツが、同一の３Ｄディスプレイが異なるネットワークで接続される場合に必要とされる。例えば、高速ネットワークの３Ｄディスプレイデバイスは、この解像度性能にしたがった豊富な３Ｄ情報を必要とし、高品質の３Ｄビデオを表示することができる。環境によっては、３Ｄディスプレイは、これ自体の条件やネットワーク帯域幅の制約による単純な３Ｄ情報のみを必要とし、単純な立体感覚のビデオを表示する。従来の２Ｄディスプレイのようなディスプレイは、２Ｄビューの表示のみを必要とするため、３Ｄ情報を必要としない。異なるディスプレイデバイスおよび異なるネットワーク送信性能が共存する現状は、異なるネットワークで接続された種々の３Ｄディスプレイデバイスによって異なる層の３Ｄディスプレイを可能にするための３Ｄビデオ符号化および復号方法を必要とする。

本発明を具現化するプロセスにおいて、本発明者は従来技術において少なくとも以下の欠陥を発見している、つまり、既存の３Ｄビデオ符号化および復号方法は２Ｄディスプレイおよび３Ｄディスプレイの個別符号化のみを達成する、つまり、両眼のビデオのビューの一方を基準ビューとして使用し、基準ビューを符号化するための標準符号化モードを使用し、この基準ビューに対して他のビューを符号化する。このように、ディスプレイサイドで復号された基準ビューは２Ｄモードで表示可能であり、ディスプレイサイドで復号された全コンテンツが３Ｄモードで表示可能であるが、異なるネットワークで接続された種々の３Ｄディスプレイデバイスに異なる品質の３Ｄディスプレイを付与させるのは不可能である。

本発明の実施形態は、３Ｄビューの階層的符号化を達成するためのビデオ符号化方法、ビデオ復号方法、ビデオコーダおよびビデオデコーダを提供するため、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。

本発明の一実施形態で提供されたビデオ符号化方法は、
第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビュー及び第２のビューを合成することによって少なくとも１層の予測情報を抽出するステップと、
少なくとも１層の予測情報のそれぞれにエンハンスメントレイヤ符号化（enhancement-layer coding）を実行するステップと、
第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して符号化情報を取得するステップと、を含む。

本発明の一実施形態で提供されたビデオコーダは、
第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュールと、
ローカル復号された第１のビュー及び第２のビューを合成することによって少なくとも１層の予測情報を抽出するように適合された少なくとも１つの予測情報抽出モジュールと、
少なくとも１層の予測情報にエンハンスメントレイヤ符号化を実行するように適合されたエンハンスメントレイヤ符号化モジュールと、
第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して符号化情報を取得するように適合された多重化モジュールと、を含む。

本発明の一実施形態で提供されたビデオ復号方法は、
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するステップと、
ベースレイヤコードを復号して、第１のビューを基準ビューとして取得するステップと、
エンハンスメントレイヤコードを復号して、少なくとも１層の予測情報を取得するステップと、
少なくとも１層の予測情報及び第１のビューにしたがって第２のビューを予測するステップと、を含む。

本発明の一実施形態で提供されたビデオデコーダは、
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するように適合された逆多重化モジュールと、
ベースレイヤコードを復号して、第１のビューを基準ビューとして取得するように適合されたベースレイヤ復号モジュールと、
エンハンスメントレイヤコードを復号して、少なくとも１層の予測情報を取得するように適合されたエンハンスメントレイヤ復号モジュールと、
少なくとも１層の予測情報と第１のビューにしがたって第２のビューを予測するように適合された予測モジュールと、を含む。

本発明の一実施形態で提供されたビデオ符号化方法は、
第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビュー及び第２のビューを合成することによって第１の層の予測情報を抽出するステップと、
第１の層の予測情報にエンハンスメントレイヤ符号化を実行するステップと、現在の層の予測情報の増分（increment）を、
第２の層の予測情報の増分（increment）の抽出から開始する以下の方法により抽出するステップと、
ローカル復号された第１のビュー、第２のビュー、及び先行層の予測情報を合成することによって現在の層の予測情報を抽出し、最後の層の予測情報の増分（increment）がエンハンスメントレイヤ符号化を受けるまで現在の層の予測情報にエンハンスメントレイヤ符号化を実行するステップであって、
ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して符号化情報を取得するステップと、を含む。

本発明の一実施形態で提供されたビデオコーダは、
第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュールと、
少なくとも２層の予測情報抽出モジュールであって、第１の層の予測情報抽出モジュールがベースレイヤ符号化モジュールと接続されており、ローカル復号された第１のビュー及び第２のビューを合成することによって第１の層の予測情報を抽出するように適合されており、第１の層の予測情報抽出モジュール以外の他の層の予測情報抽出モジュールは先行層の予測情報抽出モジュールと接続され、ローカル復号された第１のビュー、第２のビュー、及び先行層の予測情報を合成することによって現在の層の予測情報を抽出するように適用されたモジュールと、
第１の層の予測情報および複数層の予測情報の増分（increments）にエンハンスメントレイヤ符号化を実行するように適合されたエンハンスメントレイヤ符号化モジュールと、
ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して符号化情報を取得するように適合された多重化モジュールと、を含む。

本発明の一実施形態で提供されたビデオ復号方法は、
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するステップと、
ベースレイヤコードを復号して、第１のビューを基準ビューとして取得するステップと、
エンハンスメントレイヤコードを復号して、第１の層の予測情報および複数層の予測情報の増分（increments）を取得するステップと、
第１の層の予測情報と複数層の予測情報の増分（increments）にしたがって少なくとも２層の予測情報を算出するステップと、
少なくとも２層の予測情報及び第１のビューにしたがって第２のビューを予測するステップと、を含む。

本発明の一実施形態で提供されたビデオデコーダは、
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するように適合された逆多重化モジュールと、
ベースレイヤコードを復号して、第１のビューを基準ビューとして取得するように適合されたベースレイヤ復号モジュールと、
エンハンスメントレイヤコードを復号して、第１の層の予測情報および複数層の予測情報の増分（increments）を取得するように適合されたエンハンスメントレイヤ復号モジュールと、
第１の層の予測情報と複数層の予測情報の増分（increments）にしたがって少なくとも２層の予測情報を算出するように適合された算出モジュールと、
少なくとも２層の予測情報及び第１のビューにしたがって第２のビューを予測するように適合されている予測モジュールと、を含む。

本発明の実施形態のビデオ符号化方法、ビデオ復号方法、ビデオコーダおよびビデオデコーダによって、少なくとも１層の予測情報が抽出され、それぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューが階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。

図１は、本発明の第１の実施形態にしたがったビデオ符号化方法のフローチャートである。図２は、本発明の第２の実施形態にしたがったビデオ符号化方法のフローチャートである。図３は、本発明の第３の実施形態にしたがったビデオ符号化方法のフローチャートである。図４は、本発明の第４の実施形態にしたがったビデオ符号化方法のフローチャートである。図５は、本発明の第１の実施形態にしたがったビデオコーダの構造を示している。図６は、本発明の第２の実施形態にしたがったビデオコーダの構造を示している。図７は、本発明の第１の実施形態にしたがったビデオ復号方法のフローチャートである。図８は、本発明の第２の実施形態にしたがったビデオ復号方法のフローチャートである。図９は、本発明の第３の実施形態にしたがったビデオ復号方法のフローチャートである。図１０は、本発明の第４の実施形態にしたがったビデオ復号方法のフローチャートである。図１１は、本発明の第１の実施形態にしたがったビデオデコーダの構造を示している。図１２は、本発明の第１の実施形態にしたがった別のビデオ符号化方法のフローチャートである。図１３は、本発明の第２の実施形態にしたがった別のビデオ符号化方法のフローチャートである。図１４は、本発明の第３の実施形態にしたがった別のビデオ符号化方法のフローチャートである。図１５は、本発明の第４の実施形態にしたがった別のビデオ符号化方法のフローチャートである。図１６は、本発明の第１の実施形態にしたがった別のビデオコーダの構造を示している。図１７は、本発明の第２の実施形態にしたがった別のビデオコーダの構造を示している。図１８は、本発明の第１の実施形態にしたがった別のビデオ復号方法のフローチャートである。図１９は、本発明の第２の実施形態にしたがった別のビデオ復号方法のフローチャートである。図２０は、本発明の第３の実施形態にしたがった別のビデオ復号方法のフローチャートである。図２１は、本発明の第４の実施形態にしたがった別のビデオ復号方法のフローチャートである。図２２は、本発明の第１の実施形態にしたがった別のビデオデコーダの構造を示している。

本発明の技術的解決法について、添付の図面および複数の例示的実施形態を参照して詳細に以下に記述する。

第１の実施形態のビデオ符号化方法について以下に記述する。

図１は、本発明の第１の実施形態にしたがったビデオ符号化方法のフローチャートである。この方法は以下のステップを含んでいる。

ステップ１０１：第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビュー及び第２のビューを合成することによって少なくとも１層の予測情報を抽出する。第１のビューおよび第２のビューはそれぞれ左目ビューおよび右目ビューであり得、予測情報は運動ベクトル情報および／または深度あるいは視差情報であり得る。

ステップ１０２：それぞれ少なくとも１層の予測情報にエンハンスメントレイヤ符号化を実行する。

ステップ１０３：第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して、符号化情報を取得する。

本実施形態では、少なくとも１層の予測情報が抽出されて、それぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューが階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。

第２の実施形態のビデオ符号化方法について以下に記述する。

図２は、本発明の第２の実施形態にしたがったビデオ符号化方法のフローチャートである。本実施形態では、深度／視差情報が、１層の深度／視差情報を抽出するための予測情報として使用され、抽出される情報はスパース深度／視差情報であるとする。本実施形態は以下のステップを含む。

ステップ２０１：異なる視点からの２つ以上のカメラを使用して１つの場面を撮影して、２つのビュー、つまり左目ビューおよび右目ビューを取得する。

ステップ２０２：左目ビューまたは右目ビューのいずれかを基準ビューとして選択し、基準ビューにベースレイヤ符号化を実行する。本実施形態では、左目ビューが基準ビューとして選択されたものとする。

ステップ２０３：ベースレイヤ符号化を受けた左目ビューをローカル復号し（locally decode the left-eye）、右目ビューに照らしてスパース深度／視差情報を抽出する。スパース深度／視差情報は、事前に取得された３Ｄビューディスプレイレベルに対応している。

ステップ２０４：スパース深度／視差情報にエンハンスメントレイヤ符号化を実行する。

ステップ２０５：左目ビューのベースレイヤコードおよびエンハンスメントコードを多重化して、符号化情報を取得する。

ステップ２０３において、事前に取得された３Ｄビューディスプレイレベルは、抽出される深度／視差情報の所定の層数およびレベルにしたがって判断され得、あるいはステップ２０３の前に付加された以下のステップで判断され得る。

ステップ２０２１：ディスプレイデバイスのリクエスト情報および／またはネットワーク送信情報を解析する。解析結果が、ネットワークが比較的過密しているときに送信可能なコンテンツは少ないことを示している場合、３Ｄビューの必要なディスプレイレベルは低く、スパース深度／視差情報が抽出可能である。

本実施形態では、予測情報は運動ベクトル情報、あるいは深度／視差情報および運動ベクトル情報の組み合わせであり得、ベースレイヤコードおよびエンハンスメントレイヤコードは、運動補償による離散コサイン変換コードであり得る。事前に取得された３Ｄビューディスプレイレベルが高い場合、本実施形態の１層の予測情報は高密度予測情報または精密予測情報であり得る。

本実施形態では、１層のスパース深度／視差情報が抽出され、エンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。なお、特定の層の深度／視差情報はディスプレイデバイスおよびネットワークの条件にしたがって抽出可能であるため、符号化効率を改良し、符号化の複雑さを低減し、更にネットワーク送信効率を改良することも可能である。本実施形態はベースレイヤコードを多重化し、また、２Ｄビューはベースレイヤコードにしたがって表示可能であるため２Ｄディスプレイ機能と両立可能である。

第３の実施形態のビデオ符号化方法について以下に記述する。

図３は、本発明の第３の実施形態にしたがったビデオ符号化方法のフローチャートである。本実施形態は深度／視差情報を予測情報として使用する。図１のステップが実行される前、抽出される深度／視差情報の層数およびレベルが事前設定可能である。本実施形態では、３層の深度／視差情報、つまりスパース深度／視差情報、高密度深度／視差情報、および精密深度／視差情報が抽出される必要があるものとする。本実施形態の技術的解決法について後述する。本実施形態のビデオ符号化方法は以下のステップを含む。

ステップ３０１：異なる視点からの２つ以上のカメラを使用して１つの場面を撮影し、２つのビュー、つまり左目ビューおよび右目ビューを取得する。

ステップ３０２：左目ビューまたは右目ビューのいずれかを基準ビューとして選択し、基準ビューにベースレイヤ符号化を実行する。本実施形態では、左目ビューが基準ビューとして選択されたものとする。

ステップ３０３：ベースレイヤ符号化を受けた左目ビューをローカル復号し（locally decode）、右目ビューに照らしてそれぞれスパース深度／視差情報、高密度深度／視差情報、および精密深度／視差情報を抽出する。

ステップ３０４：スパース深度／視差情報、高密度深度／視差情報、および精密深度／視差情報にそれぞれエンハンスメントレイヤ符号化を実行する。

ステップ３０５：左目ビューのベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得する。

本実施形態のビデオ符号化方法において、予測情報は、運動ベクトル情報、あるいは深度／視差情報および運動ベクトル情報の組み合わせであり得、ベースレイヤコードおよびエンハンスメントレイヤコードは、運動補償による離散コサイン変換コードであり得る。

本実施形態のビデオ符号化方法によって、少なくとも１層の深度／視差情報が抽出され、それぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューが階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。本実施形態はまたベースレイヤコードを多重化し、また、２Ｄビューはベースレイヤコードにしたがって表示可能であるため２Ｄディスプレイ機能と両立可能である。

第４の実施形態のビデオ符号化方法について以下に記述する。

図４は、本発明の第４の実施形態にしたがったビデオ符号化方法のフローチャートである。本実施形態は、ステップ３０１の前に、抽出された深度／視差情報の層数およびレベルを事前設定する必要はないが、以下のステップがステップ３０３の前に追加される点が、第３の実施形態と異なる。

ステップ３０２１：ディスプレイデバイスのリクエスト情報および／またはネットワーク送信情報を解析する。解析結果が、ディスプレイデバイスが比較的高い解像度を有していると示す場合、３Ｄビューを表示するのに必要な層は比較的高く、精密深度／視差情報が抽出される必要があり、解析結果が、ネットワークが比較的過密しているときに送信可能なコンテンツは少ないことを示している場合、３Ｄビューを表示するのに必要な層は比較的低く、スパース深度／視差情報が抽出される必要がある。このような２つの要因を考慮すると、異なるネットワークの種々のディスプレイデバイスによって必要とされる少なくとも１つの３Ｄビューディスプレイレベルが取得される。

具体的に、ステップ３０３は、ベースレイヤ符号化を受けた左目ビューをローカル復号し（locally decoding）、右目ビューに照らしてディスプレイデバイスおよび／またはネットワークによって必要とされる３Ｄビューディスプレイレベルに対応する少なくとも１層の深度／視差情報を抽出することである。

上記第３の実施形態に基づいて、本実施形態はさらに、ディスプレイデバイスの要件およびネットワーク条件にしたがって対応するレベルの深度／視差情報を抽出することによって、符号化効率を改良し、符号化の複雑さを低減し、ネットワーク送信効率を改良することができる。

第１の実施形態のビデオコーダについて以下に記述する。

図５は、本発明の第１の実施形態にしたがったビデオコーダの構造を示している。ビデオコーダは、
第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュール１０と、
ローカル復号された第１のビュー及び第２のビューを合成することによって少なくとも１層の予測情報を抽出するように適合された少なくとも１つの予測情報抽出モジュール、例えば図５の予測情報抽出モジュール１１、１２、１３・・・と、
それぞれ少なくとも１層の予測情報にエンハンスメントレイヤ符号化を実行するように適合されたエンハンスメントレイヤ符号化モジュール１４と、
第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して、符号化情報を取得するように適合された多重化モジュール１５と、を含む。

本実施形態で提供された符号化装置（the coder）、ここに提供されているビデオ符号化方法の第１から第４の実施形態に適用可能である。

本実施形態では、少なくとも１つの予測情報抽出モジュールが、それぞれ少なくとも１層の予測情報を抽出し、これらにエンハンスメントレイヤ符号化を実行する。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスは３Ｄビューを階層的に表示可能である。

第２の実施形態のビデオコーダについて以下に記述する。

図６は、本発明の第２の実施形態にしたがったビデオコーダの構造を示している。ビデオコーダは、
左目ビューを基準ビューとして使用して左目ビューにベースレイヤ符号化を実行するか、右目ビューを基準ビューとして使用して右目ビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュール２０と、
右目ビュー及びローカル復号された左目ビューを合成することによってスパース予測情報を抽出するように適合されたスパース予測情報抽出モジュール２１と、
右目ビュー及びローカル復号された左目ビューを合成することによって高密度予測情報を抽出するように適合された高密度予測情報抽出モジュール２２と、
右目ビュー及びローカル復号された左目ビューを合成することによって精密予測情報を抽出するように適合された精密予測情報抽出モジュール２３と、
それぞれスパース予測情報（sparse predictioninformation）、高密度予測情報および精密予測情報にエンハンスメントレイヤ符号化を実行するように適合されたエンハンスメントレイヤ符号化モジュール２４と、
左目ビューのベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得するように適合された多重化モジュール２５と、を含む。

本実施形態のビデオコーダはさらに、ディスプレイデバイスのリクエスト情報および／またはネットワーク送信情報を解析し、ディスプレイデバイスおよび／またはネットワークによって必要とされる少なくとも１つの３Ｄビューディスプレイレベルを取得するように適合された解析モジュール２６を含んでもよい。

本実施形態のビデオコーダは、上記３層の予測情報抽出モジュールに制限されない。例えば、ディスプレイデバイスおよび／またはネットワークによって必要とされるような実際の必要性に応じて、少なくとも１つの予測情報抽出モジュールが、異なるディスプレイデバイスおよび／またはネットワークの要件を満たすように設定される。

本実施形態では、スパース予測情報抽出モジュール２１、高密度予測情報抽出モジュール（dense prediction information module）２２および精密予測情報抽出モジュール２３は３層の予測情報を抽出するように設定されており、この３層の予測情報はそれぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。加えて、ディスプレイデバイスの特定の要件およびネットワーク条件は解析モジュール２６にしたがって取得されてもよく、対応するレベルの予測情報が抽出されることによって、符号化効率を改良し、符号化の複雑さを低減し、更にネットワーク送信効率を改良することができる。

第１の実施形態のビデオ復号方法について以下に記述する。

図７は、本発明の第１の実施形態にしたがったビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第１の実施形態のビデオ符号化方法に関連し、以下のステップを含んでいる。

ステップ４０１：受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得する。

ステップ４０２：ベースレイヤコードを復号し、第１のビューを基準ビューとして取得する。

ステップ４０３：エンハンスメントレイヤコードを復号して、少なくとも１層の予測情報を取得する。

ステップ４０４：少なくとも１層の予測情報と第１のビューにしたがって第２のビューを予測する。

第１のビューおよび第２のビューはそれぞれ左目ビューおよび右目ビューであり得、予測情報は運動ベクトル情報および／または深度または視差情報であり得る。

本実施形態では、少なくとも１層の予測情報が取得されるため、３Ｄビューが階層的に復号される。のみならず、第２のビューは第１のビューに照らして予測され、３Ｄビューは、第１のビューおよび予測された第２のビューにしたがって表示可能である。したがって、種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。

第２の実施形態のビデオ復号方法について以下に記述する。

図８は、本発明の第２の実施形態にしたがったビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第２の実施形態のビデオ符号化方法に関連し、以下のステップを含んでいる。

ステップ５０１：受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得する。

ステップ５０２：ベースレイヤコードを復号して、左目ビューを基準ビューとして取得する。

ステップ５０３：エンハンスメントレイヤコードを復号して、スパース深度／視差情報を取得する。

ステップ５０４：スパース深度／視差情報および左目ビューにしたがって右目ビューを予測する。

本実施形態では、スパース深度／視差情報が取得され、スパース深度／視差情報は、符号化時に事前取得された３Ｄビューディスプレイレベルに対応する。したがって、３Ｄビューは階層的に復号される。なお、第２のビューは第１のビューに照らして予測され、３Ｄビューは第１のビューおよび予測された第２のビューにしたがって表示可能である。したがって、種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。

第３の実施形態のビデオ復号方法について以下に記述する。

図９は、本発明の第３の実施形態にしたがったビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第４の実施形態のビデオ符号化方法に関連し、以下のステップを含んでいる。

ステップ６０１：受信された符号化情報を逆多重化し、ベースレイヤコードおよびエンハンスメントレイヤコードを取得する。

ステップ６０２：ベースレイヤコードを復号し、左目ビューを基準ビューとして取得する。

ステップ６０３：エンハンスメントレイヤコードを復号し、スパース深度／視差情報、高密度深度／視差情報および精密深度／視差情報を取得する。

ステップ６０４：スパース深度／視差情報、高密度深度／視差情報、精密深度／視差情報および左目ビューにしたがって右目ビューを予測する。

符号化プロセスにおいて、少なくとも１つの３Ｄビューディスプレイレベルが、ディスプレイデバイスおよび／またはネットワーク送信情報を解析することによって取得され、このディスプレイレベルに対応する３層の予測情報構造がディスプレイレベルにしたがって取得され、この場合、３層の予測情報とは、スパース深度／視差情報、高密度深度／視差情報および精密深度／視差情報のことである。したがって、復号プロセスにおいて、エンハンスメントレイヤコードが直接復号されて、３層の深度／視差情報を取得する。

本実施形態のビデオ復号方法において、予測情報は運動ベクトル情報か、深度／視差情報および運動ベクトル情報の組み合わせであり得る。

本実施形態のビデオ復号方法において、少なくとも１層の深度／視差情報が取得され、次いで３Ｄビューが階層的に復号される。のみならず、右目ビューが左目ビューに照らして予測され、したがって３Ｄビューは左目ビューおよび予測された右目ビューにしたがって表示可能である。したがって、種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。加えて、本実施形態のビデオ復号方法はベースレイヤコードを復号し、また、２Ｄビューはベースレイヤコードの復号情報にしたがって表示可能であるため、２Ｄディスプレイ機能と両立可能である。

第４の実施形態のビデオ復号方法について以下に記述する。

図１０は、本発明の第４の実施形態にしたがったビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第３の実施形態のビデオ符号化方法に関連し、以下の点で第３の実施形態の復号方法と異なっている。

符号化プロセスにおいて、３層の予測情報構造は、抽出される予測情報の所定の層数およびレベルにしたがって判断される。したがって、復号プロセスはさらに、ステップ６０３の前に以下のステップを含んでもよい。

ステップ６０２１：ディスプレイデバイスからのリクエスト情報を解析して、種々のディスプレイデバイスによって必要とされる少なくとも１つの３Ｄビューディスプレイレベルを取得する。

具体的に、ステップ６０３は、少なくとも１つの３Ｄビューディスプレイレベルに対応するエンハンスメントレイヤコードを復号して、スパース深度／視差情報、または高密度深度／視差情報、または精密深度／視差情報、またはこれらの組み合わせであり得る少なくとも１層の深度／視差情報を取得することである。

第３の実施形態の復号方法に基づいて、本実施形態はさらに、ディスプレイデバイスの特定の要件にしたがって対応するレベルのエンハンスメントレイヤコードを復号し、対応するレベルの深度／視差情報を取得することによって、復号効率を改良し、復号の複雑さを低減することができる。

第１の実施形態のビデオデコーダについて以下に記述する。

図１１は、本発明の第１の実施形態にしたがったビデオデコーダの構造を示している。ビデオデコーダは、
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するように適合された逆多重化モジュール３０と、
ベースレイヤコードを復号して、第１のビューを基準ビューとして取得するように適合されたベースレイヤ復号モジュール３１と、
エンハンスメントレイヤコードを復号して、少なくとも１層の予測情報を取得するように適合されたエンハンスメントレイヤ復号モジュール３２と、
少なくとも１層の予測情報及び第１のビューにしたがって右目ビューを予測するように適合された予測モジュール３３と、を含む。

本実施形態のビデオデコーダはさらに、ディスプレイデバイスからのリクエスト情報を解析して、ディスプレイデバイスによって必要とされる少なくとも１つの３Ｄビューディスプレイレベルを取得するように適合された解析モジュール３４を含み得る。エンハンスメントレイヤ復号モジュール３２は、少なくとも１つの３Ｄビューディスプレイレベルに対応する少なくとも１層の予測情報を取得する。

本実施形態で提供されたデコーダは、ここで提供されているビデオ復号方法の第１から第４の実施形態に適用可能である。

本実施形態では、エンハンスメントレイヤ復号モジュール３２が設定され、少なくとも１層の予測情報が取得される。ゆえに、３Ｄビューは階層的に復号され、種々の３Ｄディスプレイデバイスは３Ｄビューを階層的に表示可能である。加えて、ディスプレイデバイスの特定の要件が解析モジュール２４にしたがって取得可能であり、対応するレベルの予測情報が復号されることによって、復号効率を改良し、復号の複雑さを低減することができる。

第１の実施形態の別のビデオ符号化方法について以下に記述する。

図１２は、本発明の第１の実施形態にしたがった別のビデオ符号化方法のフローチャートである。本方法は以下のステップを含む。

ステップ７０１：第１のビューを基準ビューとして使用して第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビュー及び第２のビューを合成することによって第１の層の予測情報を抽出する。

ステップ７０２：第１の層の予測情報にエンハンスメントレイヤ符号化を実行する。

ステップ７０３：第２の層の予測情報の増分（increment）の抽出から開始する以下の方法で、現在の層の予測情報の増分（increment）を抽出し、
ローカル復号された第１のビュー、第２のビュー、及び先行層の予測情報を合成することによって現在の層の予測情報の増分（increment）を抽出し、現在の層の予測情報にエンハンスメントレイヤ符号化を実行し、これは最後の層の予測情報の増分（increment）がエンハンスメントレイヤ符号化を受けるまで続く。

ステップ７０４：ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得する。

本実施形態のビデオ符号化方法によって、１層の予測情報および少なくとも１層の深度／視差情報の増分（increment）が抽出され、それぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューが階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。少なくとも１層の深度／視差情報の増分（increment）はエンハンスメントレイヤ符号化を受けるため、本方法は、ネットワークで送信される必要のある情報が少ないという点で、予測情報にエンハンスメントレイヤ符号化を直接実行することより優れており、必要なネットワーク送信帯域幅は縮小され、送信効率が改良される。

第２の実施形態の別のビデオ符号化方法について以下に記述する。

図１３は、本発明の第２の実施形態にしたがった別のビデオ符号化方法のフローチャートである。本実施形態では、深度／視差情報が予測情報として使用され、１層の深度／視差情報および１層の深度／視差情報の増分（increment）、つまりスパース深度／視差情報および高密度深度／視差情報の増分（increment）をそれぞれ抽出する。本実施形態は以下のステップを含む。

ステップ８０１：異なる視点からの２つ以上のカメラを使用して１つの場面を撮影して、２つのビュー、つまり左目ビューおよび右目ビューを取得する。

ステップ８０２：左目ビューまたは右目ビューのいずれかを基準ビューとして選択し、基準ビューにベースレイヤ符号化を実行する。本実施形態では、左目ビューが基準ビューとして選択されたものとする。

ステップ８０３：ベースレイヤ符号化を受けた左目ビューをローカル復号し、右目ビューに照らしてスパース深度／視差情報を抽出し、スパース深度／視差情報にエンハンスメントレイヤ符号化を実行する。

ステップ８０４：ローカル復号された左目ビューと、右目ビューと、スパース深度／視差情報を合成することによって高密度深度／視差情報インクリメントを抽出し、高密度深度／視差情報インクリメントにエンハンスメントレイヤ符号化を実行する。

具体的に、ステップ８０４は、ローカル復号された左目ビューおよび右目ビューを合成することによって高密度深度／視差情報を抽出し、スパース深度／視差情報に対する高密度深度／視差情報の増分（increment）、つまり高密度深度／視差情報の増分（increment）を算出することであり得る。

ステップ８０５：ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得する。

本実施形態では、スパース深度／視差情報および高密度深度／視差情報は、事前取得された２つの３Ｄビューディスプレイレベルに対応する。事前取得された２つの３Ｄビューディスプレイレベルは、抽出される深度／視差情報の所定の層数およびレベルにしたがって判断され得、あるいはステップ８０３の前に追加された以下のステップにしたがって判断され得る。

ステップ８０２１：ディスプレイデバイスのリクエスト情報および／またはネットワーク送信情報を解析する。解析結果が、ディスプレイデバイスが比較的高い解像度を有すると示している場合、３Ｄビューを表示するのに必要な層は比較的高く、高密度深度／視差情報が抽出される必要があり、解析結果が、ネットワークが比較的過密しているときに送信可能なコンテンツは少ないと示している場合、３Ｄビューを表示するのに必要な層は比較的低く、スパース深度／視差情報が抽出される必要がある。このような２つの要因を考慮すると、ディスプレイデバイスおよび／またはネットワークによって必要とされる３Ｄビューディスプレイレベルが取得され、抽出される深度／視差情報の層の総数およびレベルがディスプレイレベルにしたがって判断される。例えば、ディスプレイレベルが２層の深度／視差情報の抽出を必要とする場合、これらの層は「スパース深度／視差情報」および「高密度深度／視差情報」と判断される。

本実施形態のビデオ符号化方法において、予測情報は運動ベクトル情報、あるいは深度／視差情報および運動ベクトル情報の組み合わせであり得、ベースレイヤコードおよびエンハンスメントレイヤコードは、運動補償による離散コサイン変換コードであり得る。本実施形態の２層の予測情報は、スパース予測情報、高密度予測情報および精密予測情報のうちのいずれか２つの組み合わせであり得る。

本実施形態のビデオ符号化方法において、１層の深度／視差情報および１層の深度／視差情報インクリメントが抽出されて、それぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。１層の深度／視差情報の増分（increment）はエンハンスメントレイヤ符号化を受けるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。加えて、対応する層およびレベルの深度／視差情報が、ディスプレイデバイスの要件およびネットワーク条件にしたがって抽出可能であるため、符号化効率を改良し、符号化の複雑さを低減し、ネットワーク送信効率をさらに改良することができる。本実施形態はベースレイヤコードを多重化し、また、２Ｄビューはベースレイヤコードにしたがって表示可能であるため、２Ｄディスプレイ機能と両立可能である。

第３の実施形態の別のビデオ符号化方法について以下に記述する。

図１４は、本発明の第３の実施形態にしたがった別のビデオ符号化方法のフローチャートである。本実施形態は深度／視差情報を予測情報として使用する。図１４のステップが実行される前に、抽出される深度／視差情報の層数およびレベルが事前設定されてもよい。本実施形態では、３層の深度／視差情報、つまりスパース深度／視差情報、高密度深度／視差情報および精密深度／視差情報が抽出される必要があるものとする。本実施形態の技術的解決法について後述する。本実施形態のビデオ符号化方法は以下のステップを含む。

ステップ９０１：異なる視点からの２つ以上のカメラを使用して１つの場面を撮影し、２つのビュー、つまり左目ビューおよび右目ビューを取得する。

ステップ９０２：左目ビューまたは右目ビューを基準ビューとして選択し、基準ビューにベースレイヤ符号化を実行する。本実施形態では、左目ビューが基準ビューとして選択されたものとする。

ステップ９０３：ベースレイヤ符号化を受けた左目ビューをローカル復号し、右目ビューに照らしてスパース深度／視差情報を抽出し、スパース深度／視差情報にエンハンスメントレイヤ符号化を実行する。

ステップ９０４：ローカル復号された左目ビュー、右目ビューおよびスパース深度／視差情報を合成することによって高密度深度／視差情報の増分（increment）を抽出し、高密度深度／視差情報の増分（increment）にエンハンスメントレイヤ符号化を実行する。

ステップ９０５：ローカル復号された左目ビュー、右目ビューおよび高密度深度／視差情報を合成することによって精密深度／視差情報の増分（increment）を抽出し、精密深度／視差情報の増分（increment）にエンハンスメントレイヤ符号化を実行する。

ステップ９０６：ベースレイヤコードおよびエンハンスメントレイヤコードを多重化し、符号化情報を取得する。

具体的に、ステップ９０４は、ローカル復号された左目ビュー及び右目ビューを合成することによって高密度深度／視差情報を抽出し、スパース深度／視差情報に対する高密度深度／視差情報の増分（increment）、つまり高密度深度／視差情報の増分（increment）を算出することであってもよい。ステップ９０５でも同じである。

本実施形態のビデオ符号化方法において、予測情報は運動ベクトル情報、あるいは、深度／視差情報および運動ベクトル情報の組み合わせであり得、ベースレイヤコードおよびエンハンスメントレイヤコードは運動補償による離散コサイン変換コードであり得る。

本実施形態の符号化方法は３層の予測情報の抽出に制限されない。抽出される予測情報の所定の層総数および所定の層にしたがって、１層の予測情報および少なくとも１層分の予測情報が抽出され得る。

本実施形態のビデオ符号化方法によって、１層の深度／視差情報および複数層の深度／視差情報の増分（increments）が抽出されて、それぞれエンハンスメントレイヤ符号化を受ける。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスは３Ｄビューを階層的に表示可能である。エンハンスメントレイヤ符号化は複数層の深度／視差情報インクリメントに実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。本実施形態もまたベースレイヤコードを多重化し、また、２Ｄビューはベースレイヤコードにしたがって表示可能であるため、２Ｄディスプレイ機能と両立可能である。

第４の実施形態の別のビデオ符号化方法について以下に記述する。

図１５は、本発明の第４の実施形態にしたがった別のビデオ符号化方法のフローチャートである。本実施形態は、抽出された深度／視差情報の層数およびレベルをステップ９０１の前に事前設定する必要はないが、以下のステップがステップ９０３の前に追加されうるという点において、第３の実施形態の別のビデオ符号化方法と異なっている。

ステップ９０２１：ディスプレイデバイスのリクエスト情報および／またはネットワーク送信情報を解析する。解析結果が、ディスプレイデバイスが比較的高い解像度を有すると示す場合、３Ｄビューを表示するのに必要な層は比較的高く、精密深度／視差情報が抽出される必要があり、解析結果が、ネットワークが比較的過密している場合に送信可能なコンテンツは少ないと示す場合、３Ｄビューを表示するのに必要な層は比較的低く、スパース深度／視差情報が抽出される必要がある。このような２つの要因を考慮すると、ディスプレイデバイスおよび／またはネットワークによって必要とされる３Ｄビューディスプレイレベルが取得され、抽出される深度／視差情報の層の総数およびレベルはディスプレイレベルにしたがって判断される。例えば、ディスプレイレベルが３層の深度／視差情報の抽出を必要とする場合、これらの層は「スパース深度／視差情報」、「高密度深度／視差情報」および「精密深度／視差情報」と判断され、ステップ９０３から９０６がステップ９０２１の後に実行される必要がある。

上記第３の実施形態の別のビデオ符号化方法に基づいて、本実施形態はさらに、ディスプレイデバイスの要件およびネットワーク条件にしたがって対応する層およびレベルの深度／視差情報を抽出するため、符号化効率を改良し、符号化の複雑さを低減し、ネットワーク送信効率を改良することができる。

第１の実施形態の別のビデオコーダについて以下に記述する。

図１６は、本発明の第１の実施形態にしたがった別のビデオコーダの構造を示している。ビデオコーダは、
第１のビューを基準ビューとして使用して、第１のビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュール４０と、
少なくとも２層の予測情報抽出モジュールであって、第１の層の予測情報抽出モジュール４１がベースレイヤ符号化モジュール４０と接続されており、ローカル復号された第１のビュー及び第２のビューを合成することによって第１の層の予測情報を抽出するように適合された、第１の層の予測情報抽出モジュール４１以外の他の層の予測情報抽出モジュール４２、４３・・・は先行層の予測情報抽出モジュールに接続されており、ローカル復号された第１のビュー、第２のビューおよび先行層の予測情報を合成することによって現在の層の予測情報インクリメントを抽出するように適合されたモジュールと、
第１の層の予測情報および複数層の予測情報インクリメントにエンハンスメントレイヤ符号化を実行するように適合されているエンハンスメントレイヤ符号化モジュール４４と、
ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得するように適合されている多重化モジュール４５とを含む。

本実施形態で提供されたコーダは、ここに提供されている別のビデオ符号化方法の第１から第４の実施形態に適用可能である。

本実施形態では、第１の層の予測情報抽出モジュール４１および他の層の予測情報抽出モジュール４２、４３・・・は、１層の予測情報および少なくとも１層の深度／視差情報インクリメントを抽出し、これらにそれぞれエンハンスメントレイヤ符号化を実行する。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。エンハンスメントレイヤ符号化が増分のために（for the increment）実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。

第２の実施形態の別のビデオコーダについて以下に記述する。

図１７は、本発明の第２の実施形態にしたがった別のビデオコーダの構造を示している。ビデオコーダは、
左目ビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュール５０と、
ベースレイヤ符号化モジュール５０に接続され、右目ビューとローカル復号された左目ビューとを合成することによってスパース予測情報を抽出するように適合されたスパース予測情報抽出モジュール５１と、
スパース予測情報抽出モジュール５１に接続され、スパース予測情報抽出モジュール５１によって送信されたスパース予測情報を受信し、かつ、右目ビューとローカル復号された左目ビューとを合成することによって高密度予測情報の増分（increment）を抽出するように適合されている高密度予測情報抽出モジュール５２と、
高密度予測情報抽出モジュール５２に接続され、高密度予測情報抽出モジュール５２によって送信された高密度予測情報を受信し、かつ、右目ビューとローカル復号された左目ビューとを合成することによって精密予測情報の増分（increment）を抽出するように適合された精密予測情報抽出モジュール５３と、
スパース予測情報、高密度予測情報の増分（increment）、および精密予測情報の増分（increment）にそれぞれエンハンスメントレイヤ符号化を実行するように適合されているエンハンスメントレイヤ符号化モジュール５４と、
ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得するように適合された多重化モジュール５５と、を含む。

本実施形態のビデオコーダはさらに、ディスプレイデバイスからのリクエスト情報および／またはネットワーク送信情報を解析して、ディスプレイデバイスおよび／またはネットワークによって必要とされる３Ｄビューディスプレイレベルを取得し、ディスプレイレベルにしたがって抽出される予測情報の増分（increment）の層の総数およびレベルを判断するように適合されている解析モジュール５６を含み得る。

本実施形態のビデオコーダは、上記３層の予測情報抽出モジュールに制限されない。例えば、ディスプレイデバイスおよび／またはネットワークによって必要とされるような実際の必要性に応じて、少なくとも２層の予測情報抽出モジュールが、異なるディスプレイデバイスおよび／またはネットワークの要件を満たすように設定される。

本実施形態では、スパース予測情報抽出モジュール５１、高密度予測情報抽出モジュール５２、および精密予測情報抽出モジュール５３が、スパース予測情報、高密度予測情報インクリメント、および精密予測情報インクリメントを抽出し、これらにそれぞれエンハンスメントレイヤ符号化を実行するように設定される。したがって、３Ｄビューは階層的に符号化され、異なるネットワークで接続された種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。エンハンスメントレイヤ符号化が高密度予測情報の増分（increment）および精密予測情報の増分（increment）に対して実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。加えて、ディスプレイデバイスの特定の要件およびネットワーク条件は解析モジュール５６にしたがって取得され得、対応する層およびレベルの予測情報が抽出されることによって、符号化効率を改良し、符号化の複雑さを低減し、ネットワーク送信効率をさらに改良することができる。

第１の実施形態の別のビデオ復号方法について以下に記述する。

図１８は、本発明の第１の実施形態にしたがった別のビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第１の実施形態の別のビデオ符号化方法に関連し、以下のステップを含んでいる。

ステップ１００１：受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得する。

ステップ１００２：ベースレイヤコードを復号して、第１のビューを基準ビューとして取得する。

ステップ１００３：エンハンスメントレイヤコードを復号して、第１の層の予測情報および複数層の予測情報の増分（increments）を取得する。

ステップ１００４：第１の層の予測情報および複数の層の予測情報の増分（increments）にしたがって少なくとも２層の予測情報を算出する。

ステップ１００５：少なくとも２層の予測情報および第１のビューにしたがって第２のビューを予測する。

本実施形態のビデオ復号方法によって、少なくとも２層の予測情報が、取得された第１の層の予測情報および複数層の予測情報にしたがって算出される。したがって、３Ｄビューは階層的に復号され、種々の３Ｄディスプレイデバイスは３Ｄビューを階層的に表示可能である。エンハンスメントレイヤ復号は複数層の予測情報インクリメントに実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。本実施形態はまたベースレイヤコードを復号し、また、２Ｄビューはベースレイヤコードの復号情報にしたがって表示可能であるため、２Ｄディスプレイ機能と両立可能である。

第２の実施形態の別のビデオ復号方法について以下に記述する。

図１９は、本発明の第２の実施形態にしたがった別のビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第２の実施形態の別のビデオ符号化方法に関連し、以下のステップを含んでいる。

ステップ１１０１：受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得する。

ステップ１１０２：ベースレイヤコードを復号して、左目ビューを基準ビューとして取得する。

ステップ１１０３：エンハンスメントレイヤコードを復号して、スパース深度／視差情報および高密度深度／視差情報インクリメントを取得する。

ステップ１１０４：スパース深度／視差情報および高密度深度／視差情報の増分（increment）にしたがって高密度深度／視差情報を算出する。

ステップ１１０５：スパース深度／視差情報、高密度深度／視差情報および左目ビューにしたがって右目ビューを予測する。

本実施形態のビデオ復号方法によって、２層の予測情報が、取得されたスパース予測情報および高密度予測情報の増分（increment）にしたがって算出される。したがって、３Ｄビューは階層的に復号され、種々の３Ｄディスプレイデバイスは３Ｄビューを階層的に表示可能である。エンハンスメントレイヤ復号が高密度予測情報の増分（increment）に実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅が縮小され、送信効率は改良される。本実施形態はまたベースレイヤコードを復号し、また、２Ｄビューはベースレイヤコードの復号情報にしたがって表示可能であるため２Ｄディスプレイ機能と両立可能である。

第３の実施形態の別のビデオ復号方法について以下に記述する。

図２０は、本発明の第３の実施形態にしたがった別のビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は、本発明の第４の実施形態の別のビデオ符号化方法に関連し、以下のステップを含んでいる。

ステップ１２０１：受信された符号化情報を逆多重化し、ベースレイヤコードおよびエンハンスメントレイヤコードを取得する。

ステップ１２０２：ベースレイヤコードを復号し、左目ビューを基準ビューとして取得する。

ステップ１２０３：エンハンスメントレイヤコードを復号し、スパース深度／視差情報、高密度深度／視差情報の増分（increment）、および精密深度／視差情報の増分（increment）を取得する。

ステップ１２０４：スパース深度／視差情報および高密度深度／視差情報の増分（increment）にしたがって高密度深度／視差情報を算出し、高密度深度／視差情報および精密深度／視差情報の増分（increment）にしたがって精密深度／視差情報を算出する。

ステップ１２０５：スパース深度／視差情報、高密度深度／視差情報、精密深度／視差情報および左目ビューにしたがって右目ビューを予測する。

符号化プロセスにおいて、少なくとも１つの３Ｄビューディスプレイレベルが、ディスプレイデバイスおよび／またはネットワーク送信情報を解析することによって取得され、ディスプレイレベルに対応する３層の予測情報構造がディスプレイレベルにしたがって取得され、この場合、３層の予測情報とはスパース深度／視差情報、高密度深度／視差情報、および精密深度／視差情報のことである。したがって、復号プロセスにおいて、エンハンスメントレイヤコードは直接復号され、３層の深度／視差情報を取得する。

本実施形態のビデオ復号方法において、予測情報は運動ベクトル情報、あるいは深度／視差情報および運動ベクトル情報の組み合わせであり得る。

本実施形態のビデオ復号方法によって、少なくとも２層の深度／視差情報が、取得された第１の層の深度／視差情報および複数層の深度／視差情報の増分（increments）にしたがって算出される。したがって、３Ｄビューが階層的に復号される。右目ビューは左目ビューに照らして予測され、３Ｄビューは左目ビューおよび予測された右目ビューにしたがって表示可能であり、種々の３Ｄディスプレイデバイスにより３Ｄビューを階層的に表示させることができる。エンハンスメントレイヤ復号が複数層の深度／視差情報の増分（increments）に実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。本実施形態はまたベースレイヤコードを復号し、また、２Ｄビューはベースレイヤコードの復号情報にしたがって表示可能であるため、２Ｄディスプレイ機能と両立可能である。

第４の実施形態の別のビデオ復号方法について以下に記述する。

図２１は、本発明の第４の実施形態にしたがった別のビデオ復号方法のフローチャートである。本実施形態のビデオ復号方法は本発明の第３の実施形態の別のビデオ符号化方法に関連し、以下の点で第３の実施形態の別のビデオ復号方法と異なっている。

符号化プロセスにおいて、３層の予測情報構造が、抽出される予測情報の所定の層数およびレベルにしたがって判断される。したがって、復号プロセスはさらに、ステップ１２０３の前に以下のステップを含み得る。

ステップ１２０２１：ディスプレイデバイスからのリクエスト情報を解析し、種々のディスプレイデバイスによって必要とされる少なくとも１つの３Ｄビューディスプレイレベルを取得し、ディスプレイレベルにしたがってエンハンスメントレイヤ復号の層の総数およびレベルを判断する。

具体的に、ステップ１２０３は、エンハンスメントレイヤコードの所定の層の総数および所定のレベルにしたがってエンハンスメントレイヤコードを復号し、スパース深度／視差情報および少なくとも１層の深度／視差情報の増分（increment）を取得することである。少なくとも１層の深度／視差情報の増分（increment）は高密度深度／視差情報の増分（increment）であってもよく、あるいは高密度深度／視差情報の増分（increment）および精密深度／視差情報の増分（increment）の組み合わせであってもよい。

第３の実施形態の別のビデオ復号方法に基づいて、本実施形態はさらに、ディスプレイデバイスの特定の要件にしたがって対応する層およびレベルのエンハンスメントレイヤコードを復号し、対応するレベルの深度／視差情報を取得することによって、復号効率を改良し、復号の複雑さを低減することができる。

第１の実施形態の別のビデオデコーダについて以下に記述する。

図２２は、本発明の第１の実施形態にしたがった別のビデオデコーダの構造を示している。ビデオデコーダは、
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するように適合された逆多重化モジュール６０と、
ベースレイヤコードを復号し、第１のビューを基準ビューとして取得するように適合されたベースレイヤ復号モジュール６１と、
エンハンスメントレイヤコードを復号し、第１の層の予測情報および複数層の予測情報を取得するように適合されたエンハンスメントレイヤ復号モジュール６２と、
第１の層の予測情報および複数層の予測情報の増分（increments）にしたがって少なくとも２層の予測情報を算出するように適合されている算出モジュール６３と、
少なくとも２層の予測情報及び第１のビューにしたがって第２のビューを予測するように適合された予測モジュール６４と、を含む。

本実施形態のビデオデコーダはさらに、ディスプレイデバイスからのリクエスト情報を解析し、ディスプレイデバイスによって必要とされる３Ｄビューディスプレイレベルを取得し、ディスプレイレベルにしたがってエンハンスメントレイヤ復号の層の総数を判断するように適合されている解析モジュール６５を含み得る。

本実施形態で提供されたデコーダは、ここに提供されている別のビデオ復号方法の第１から第４の実施形態に適用可能である。

本実施形態では、エンハンスメントレイヤ復号モジュール６２および算出モジュール６３が、少なくとも２層の予測情報を取得するように設定される。したがって、３Ｄビューは階層的に復号され、種々の３Ｄディスプレイデバイスは３Ｄビューを階層的に表示可能である。エンハンスメントレイヤ復号は複数層の予測情報の増分（increments）に対して実行されるため、ネットワークで送信される必要のある情報は少なく、必要なネットワーク送信帯域幅は縮小され、送信効率は改良される。本実施形態はまた解析モジュール６５にしたがってディスプレイデバイスの特定の要件を取得し、対応する層およびレベルの予測情報を復号することによって、復号効率を改良し、復号の複雑さを低減することができる。

最後に、上記実施形態は、本発明の技術的解決法を説明するために提供されたにすぎず、本発明に制限されるものではない点に留意されたい。本発明は上記実施形態を参照して詳細に説明されたが、修正や置換が対応する技術的解決法の本質を本発明の範囲から逸脱させない限り、上記実施形態で説明された技術的解決法に対する修正が可能であり、あるいは技術的解決法の技術的特徴に対して同等の置換が可能である点が当業者によって理解されるであろう。

Claims

第１のビューを基準ビューとして使用して前記第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビュー及び第２のビューを合成することによって少なくとも１層の予測情報を抽出するステップと、
前記少なくとも１層の予測情報にそれぞれエンハンスメントレイヤ符号化を実行するステップと、
前記第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して、符号化情報を取得するステップと、
を備えるビデオ符号化方法。
前記予測情報が運動ベクトル情報および／または深度／視差情報である、請求項１に記載のビデオ符号化方法。
前記ベースレイヤコードおよび前記エンハンスメントレイヤコードが運動補償による離散コサイン変換コードである、請求項１に記載のビデオ符号化方法。
前記第１のビューを前記基準ビューとして使用して前記第１のビューに前記ベースレイヤ符号化を実行する前に、ディスプレイデバイスからのリクエスト情報および／またはネットワーク送信情報を解析し、前記ディスプレイデバイスおよび／またはネットワークによって必要とされる少なくとも１つの３次元（３Ｄ）ビューディスプレイレベルを取得するステップをさらに備え、
前記ローカル復号された第１のビュー及び前記第２のビューを合成することによって前記少なくとも１層の予測情報を抽出するステップを、前記ローカル復号された第１のビュー及び前記第２のビューを合成することによって、前記ディスプレイデバイスおよび／または前記ネットワークによって必要とされる前記３Ｄビューディスプレイレベルに対応する少なくとも１層の予測情報を抽出するステップとした、請求項１〜請求項３の何れか１項に記載のビデオ符号化方法。
第１のビューを基準ビューとして使用して前記第１のビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュールと、
ローカル復号された第１のビュー及び第２のビューを合成することによって少なくとも１層の予測情報を抽出するように適合された少なくとも１つの予測情報抽出モジュールと、
前記少なくとも１層の予測情報にエンハンスメントレイヤ符号化を実行するように適用されたエンハンスメントレイヤ符号化モジュールと、
前記第１のビューのエンハンスメントレイヤコードおよびベースレイヤコードを多重化して、符号化情報を取得するように適合された多重化モジュールと、
を備えるビデオコーダ。
ディスプレイデバイスからのリクエスト情報および／またはネットワーク送信情報を解析して、前記ディスプレイデバイスおよび／またはネットワークによって必要とされる少なくとも１つの３次元（３Ｄ）ビューディスプレイレベルを取得するように適合された解析モジュールをさらに備える、請求項５に記載のビデオコーダ。
受信された符号化情報を逆多重化し、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するステップと、
前記ベースレイヤコードを復号して、第１のビューを基準ビューとして取得するステップと、
前記エンハンスメントレイヤコードを復号して、少なくとも１層の予測情報を取得するステップと、
前記少なくとも１層の予測情報および前記第１のビューにしたがって第２のビューを予測するステップと、
を備えるビデオ復号方法。
前記予測情報が運動ベクトル情報および／または深度／視差情報である、請求項７に記載のビデオ復号方法。
前記エンハンスメントレイヤコードを復号する前に、ディスプレイデバイスからのリクエスト情報を解析し、前記ディスプレイデバイスによって必要とされる少なくとも１つの３次元（３Ｄ）ビデオディスプレイレベルを取得するステップをさらに備え、
前記エンハンスメントレイヤコードを復号し、前記少なくとも１層の予測情報を取得するステップを、前記エンハンスメントレイヤコードを復号し、前記ディスプレイデバイスによって必要とされる前記３Ｄディスプレイレベルに対応する少なくとも１層の予測情報を取得するステップとした、請求項７または請求項８に記載のビデオ復号方法。
受信された符号化情報を逆多重化して、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するように適合された逆多重化モジュールと、
前記ベースレイヤコードを復号し、第１のビューを基準ビューとして取得するように適合されたベースレイヤ復号モジュールと、
前記エンハンスメントレイヤコードを復号し、少なくとも１層の予測情報を取得するように適合されたエンハンスメントレイヤ復号モジュールと、
前記少なくとも１層の予測情報および前記第１のビューにしたがって第２のビューを予測するように適合された予測モジュールと、
を備えるビデオデコーダ。
ディスプレイデバイスからのリクエスト情報を解析し、前記ディスプレイデバイスによって必要とされる少なくとも１つの３次元（３Ｄ）ビューディスプレイレベルを取得するように適合された解析モジュールをさらに備える、請求項１０に記載のビデオデコーダ。
第１のビューを基準ビューとして使用して前記第１のビューにベースレイヤ符号化を実行し、ローカル復号された第１のビュー及び第２のビューを合成することによって第１の層の予測情報を抽出するステップと、
前記第１の層の予測情報にエンハンスメントレイヤ符号化を実行するステップと、
現在の層の予測情報の増分を、第２の層の予測情報の増分の抽出から開始する以下の方法により抽出するステップであって、
前記ローカル復号された第１のビュー、前記第２のビュー、及び先行層の予測情報を合成することによって前記現在の層の予測情報の増分を抽出し、前記現在の層の予測情報の増分に前記エンハンスメントレイヤ符号化を実行し、最後の層の予測情報の増分が前記エンハンスメントレイヤ符号化を受けるまで続くステップと、

ベースレイヤコードおよびエンハンスメントレイヤコードを多重化し、符号化情報を取得するステップと、
を備えるビデオ符号化方法。
前記ローカル復号された第１のビューと、前記第２のビューと前記先行層の予測情報を合成することによって前記現在の層の予測情報インクリメントを抽出するステップを、
前記ローカル復号された第１のビューと前記第２のビューを合成することによって現在の層の予測情報を抽出し、
前記現在の層の予測情報および前記先行層の予測情報にしたがって前記現在の層の予測情報インクリメントを算出するステップとした、請求項１２に記載のビデオ符号化方法。
前記現在の層の予測情報の増分を抽出するステップを、
現在の層の運動ベクトル情報の増分および／または現在の層の深度／視差情報の増分を抽出するステップとした、請求項１３に記載のビデオ符号化方法。
前記ベースレイヤコードおよび前記エンハンスメントレイヤコードが運動補償による離散コサイン変換コードである、請求項１４に記載のビデオ符号化方法。
前記第１の層の予測情報に前記エンハンスメントレイヤ符号化を実行する前に、
ディスプレイデバイスからのリクエスト情報および／またはネットワーク送信情報を解析し、前記ディスプレイデバイスおよび／またはネットワークによって必要とされる３次元（３Ｄ）ビューディスプレイレベルを取得し、前記ディスプレイレベルにしたがって抽出される前記予測情報の増分の層の総数およびレベルを判断するステップをさらに備える、請求項１２〜請求項１５の何れか１項に記載のビデオ符号化方法。
第１のビューを基準ビューとして使用して前記第１のビューにベースレイヤ符号化を実行するように適合されたベースレイヤ符号化モジュールと、
少なくとも２層の予測情報抽出モジュールであって、第１の層の予測情報抽出モジュールが前記ベースレイヤ符号化モジュールと接続されており、ローカル復号された第１のビュー及び第２のビューを合成することによって第１の層の予測情報を抽出するように適合されており、前記第１の層の予測情報抽出モジュール以外の他の層の予測情報抽出モジュールが先行層の予測情報抽出モジュールに接続され、前記ローカル復号された第１のビュー、前記第２のビュー、及び先行層の予測情報を合成することによって現在の層の予測情報の増分を抽出するように適合されたモジュールと、
前記第１の層の予測情報および複数層の予測情報の増分にエンハンスメントレイヤ符号化を実行するように適合されたエンハンスメントレイヤ符号化モジュールと、
ベースレイヤコードおよびエンハンスメントレイヤコードを多重化して、符号化情報を取得するように適合された多重化モジュールとを備えるビデオコーダ。
ディスプレイデバイスからのリクエスト情報および／またはネットワーク送信情報を解析し、前記ディスプレイデバイスおよび／またはネットワークによって必要とされる３次元（３Ｄ）ビューディスプレイレベルを取得し、前記ディスプレイレベルにしたがって抽出される前記予測情報の増分の層の総数およびレベルを判断するように適合された解析モジュールをさらに備える、請求項１７に記載のビデオコーダ。
受信された符号化情報を逆多重化し、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するステップと、
前記ベースレイヤコードを復号し、第１のビューを基準ビューとして取得するステップと、
前記エンハンスメントレイヤコードを復号し、第１の層の予測情報および複数層の予測情報の増分を取得するステップと、
前記第１の層の予測情報および前記複数層の予測情報の増分にしたがって少なくとも２層の予測情報を算出するステップと、
前記少なくとも２層の予測情報および前記第１のビューにしたがって第２のビューを予測するステップと、
を備えるビデオ復号方法。
前記第１の層の予測情報および前記複数層の予測情報の増分を取得するステップを、
第１の層の運動ベクトル情報および／または第１の層の深度／視差情報、ならびに複数層の運動ベクトル情報の増分および／または複数層の深度／視差情報の増分を取得するステップとした、請求項１９に記載のビデオ復号方法。
前記エンハンスメントレイヤコードを復号する前に、
ディスプレイデバイスからのリクエスト情報を解析し、前記ディスプレイデバイスによって必要とされる３次元（３Ｄ）ビューディスプレイレベルを取得し、前記ディスプレイレベルにしたがってエンハンスメントレイヤ復号の層の総数およびレベルを判断するステップをさらに備える、請求項１９または請求項２０に記載のビデオ復号方法。
受信された符号化情報を逆多重化し、ベースレイヤコードおよびエンハンスメントレイヤコードを取得するように適合された逆多重化モジュールと、
前記ベースレイヤコードを復号し、第１のビューを基準ビューとして取得するように適合されたベースレイヤ復号モジュールと、
前記エンハンスメントレイヤコードを復号し、第１の層の予測情報および複数層の予測情報の増分を取得するように適合されたエンハンスメントレイヤ復号モジュールと、
前記第１の層の予測情報および前記複数層の予測情報の増分にしたがって少なくとも２層の予測情報を算出するように適合された算出モジュールと、
前記少なくとも２層の予測情報および前記第１のビューにしたがって第２のビデオを予測するように適合された予測モジュールと、
を備えるビデオデコーダ。
ディスプレイデバイスからのリクエスト情報を解析し、前記ディスプレイデバイスによって必要とされる３次元（３Ｄ）ビューディスプレイレベルを取得し、前記ディスプレイレベルにしたがってエンハンスメントレイヤ復号の層の総数およびレベルを判断するように適合された解析モジュールをさらに備える、請求項２２に記載のビデオデコーダ。