JP2013542648A

JP2013542648A - ステレオビデオデータの符号化

Info

Publication number: JP2013542648A
Application number: JP2013530170A
Authority: JP
Inventors: チェン、イン; ワン、ホンチアン; カークゼウィックズ、マルタ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-09-24
Filing date: 2011-09-07
Publication date: 2013-11-21
Anticipated expiration: 2031-09-07
Also published as: JP5866364B2; EP2619986A1; CN103155571B; KR20150043547A; CN103155571A; US20120075436A1; KR20130095282A; WO2012039936A1

Abstract

一例では、第１の解像度を有するベースレイヤデータと、第１の解像度を有するエンハンスメントレイヤデータとを備えるビデオデータを復号する方法は、ベースレイヤデータを復号することであって、ベースレイヤデータが、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備える、ベースレイヤデータを復号することを含む。本方法はまた、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することであって、エンハンスメントデータが第１の解像度を有し、エンハンスメントレイヤデータを復号することが、ベースレイヤデータの少なくとも一部分に対するエンハンスメントレイヤデータを復号することを備える、復号することを含む。

Description

本開示は、ビデオ符号化に関し、より詳細には、ステレオビデオデータの符号化に関する。

デジタルビデオ機能は、デジタルテレビジョン、デジタルダイレクトブロードキャストシステム、ワイヤレスブロードキャストシステム、携帯情報端末（ＰＤＡ）、ラップトップ又はデスクトップコンピュータ、デジタルカメラ、デジタル記録装置、デジタルメディアプレーヤ、ビデオゲーム機器、ビデオゲームコンソール、セルラー電話又は衛星無線電話、ビデオ遠隔会議機器などを含む、広範囲にわたる機器に組み込まれ得る。デジタルビデオ機器は、デジタルビデオ情報をより効率的に送信及び受信するために、ＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵ−ＴＨ．２６３又はＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４、Ｐａｒｔ１０、ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）によって定義された規格、及びそのような規格の拡張に記載されているビデオ圧縮技法など、ビデオ圧縮技法を実装する。

ビデオ圧縮技法は、ビデオシーケンスに固有の冗長性を低減又は除去するために空間的予測及び／又は時間的予測を実行する。ブロックベースのビデオ符号化の場合、ビデオフレーム又はスライスはマクロブロックに区分され得る。各マクロブロックは更に区分され得る。イントラ符号化（Ｉ）フレーム又はスライス中のマクロブロックは、隣接マクロブロックに対する空間的予測を使用して符号化される。インター符号化（Ｐ又はＢ）フレーム又はスライス中のマクロブロックは、同じフレーム又はスライス中の隣接マクロブロックに対する空間的予測、又は他の参照フレームに対する時間的予測を使用し得る。

Ｈ．２６４／ＡＶＣに基づく新しいビデオ符号化規格を開発するための取り組みが行われている。１つのそのような規格は、Ｈ．２６４／ＡＶＣのスケーラブル拡張であるスケーラブルビデオ符号化（ＳＶＣ）規格である。別の規格は、Ｈ．２６４／ＡＶＣの多重視界拡張になった多重視界ビデオ符号化（ＭＶＣ）である。ＭＶＣのジョイントドラフトは、ＪＶＴ−ＡＢ２０４、「Joint Draft 8.0 on Multiview Video Coding」、２８^th JVT meeting、Hannover、Germany、２００８年７月に記載されており、これは、http://wftp3.itu.int/av-arch/jvt-site/2008_07_Hannover/JVT-AB204.zipにおいて入手可能である。ＡＶＣ規格のバージョンは、ＪＶＴ−ＡＤ００７、「Editors' draft revision to ITU-T Rec. H.264 | ISO/IEC 14496-10 Advanced Video Coding - in preparation for ITU-T SG 16 AAP Consent (in integrated form)」、30th JVT meeting、 Geneva、 CH、２００９年２月に記載されており、これは、http://wftp3.itu.int/av-arch/jvt-site/2009_01_Geneva/JVT-AD007.zipから入手可能である。ＪＶＴ−ＡＤ００７文書はＳＶＣとＭＶＣとをＡＶＣ仕様に組み込んでいる。

概して、本開示では、ステレオビデオデータ、例えば、３次元（３Ｄ）効果を生成するために使用されるビデオデータをサポートするための技法について説明する。ビデオの３次元効果を生成するために、あるシーンの２つの視界、例えば、左眼視界と右眼視界とが同時又はほぼ同時に示され得る。本開示の技法は、ベースレイヤと１つ以上のエンハンスメントレイヤとを有するスケーラブルビットストリームを形成することを含む。例えば、本開示の技法は、あるシーンの２つの低解像度視界のためのデータをそれぞれ有する個々のフレームを含むベースレイヤを形成することを含む。即ち、ベースレイヤのフレームは、シーンのわずかに異なる水平方向パースペクティブからの２つの画像のためのデータを含む。従って、ベースレイヤのフレームはパックフレームと呼ばれることがある。ベースレイヤに加えて、本開示の技法は、ベースレイヤの１つ以上の視界のフル解像度表現に対応する１つ以上のエンハンスメントレイヤを形成することを含む。エンハンスメントレイヤは、例えば、ベースレイヤの同じ視界のためのビデオデータに対してレイヤ間予測され得、及び／又は、例えば、エンハンスメントレイヤの視界と共にステレオ視界ペアを形成するベースレイヤの別の視界のためのビデオデータに対して、又は異なるエンハンスメントレイヤのビデオデータに対して視界間予測され得る。エンハンスメントレイヤのうちの少なくとも１つは、ステレオ視界のうちの１つの符号化された信号のみを含んでいる。

一例では、ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを復号する方法は、第１の解像度を有するベースレイヤデータを復号することであって、ベースレイヤデータが、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備える、復号することを含む。本方法はまた、第１の解像度を有し、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することであって、エンハンスメントデータが第１の解像度を有し、エンハンスメントレイヤデータを復号することが、ベースレイヤデータの少なくとも一部分に対するエンハンスメントレイヤデータを復号することを備える、復号することを含む。本方法はまた、復号されたエンハンスメントレイヤデータを、復号されたエンハンスメントレイヤがそれに対応する復号されたベースレイヤデータの左視界又は右視界のうちの１つと組み合わせることを含む。

別の例では、ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを復号するための装置がビデオデコーダを含む。この例では、ビデオデコーダは、第１の解像度を有するベースレイヤデータを復号することであって、ベースレイヤデータが、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備える、復号することを行うように構成される。ビデオデコーダはまた、第１の解像度を有し、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することであって、エンハンスメントデータが第１の解像度を有し、エンハンスメントレイヤデータを復号することが、ベースレイヤデータの少なくとも一部分に対するエンハンスメントレイヤデータを復号することを備える、復号することを行うように構成される。ビデオデコーダはまた、復号されたエンハンスメントレイヤデータを、復号されたエンハンスメントレイヤがそれに対応する復号されたベースレイヤデータの左視界又は右視界のうちの１つと組み合わせるように構成される。

別の例では、ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを復号するための装置は、第１の解像度を有するベースレイヤデータを復号するための手段であって、ベースレイヤデータが、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備える、復号するための手段を含む。本装置はまた、第１の解像度を有し、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号するための手段であって、エンハンスメントデータが第１の解像度を有し、エンハンスメントレイヤデータを復号することが、ベースレイヤデータの少なくとも一部分に対するエンハンスメントレイヤデータを復号することを備える、復号するための手段を含む。本装置はまた、復号されたエンハンスメントレイヤデータを、復号されたエンハンスメントレイヤがそれに対応する復号されたベースレイヤデータの左視界又は右視界のうちの１つと組み合わせるための手段を含む。

別の例では、実行されたとき、第１の解像度を有するベースレイヤデータを復号することであって、ベースレイヤデータが、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備える、復号することを行うことを、ベースレイヤデータとエンハンスメントレイヤデータとを有するビデオデータを復号するための機器のプロセッサに行わせる命令を記憶したコンピュータ可読記憶媒体を備えるコンピュータプログラム製品が提供される。この命令はまた、第１の解像度を有し、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することであって、エンハンスメントデータが第１の解像度を有し、エンハンスメントレイヤデータを復号することが、ベースレイヤデータの少なくとも一部分に対するエンハンスメントレイヤデータを復号することを備える、復号することをプロセッサに行わせる。この命令はまた、復号されたエンハンスメントレイヤデータを、復号されたエンハンスメントレイヤがそれに対応する復号されたベースレイヤデータの左視界又は右視界のうちの１つと組み合わせることをプロセッサに行わせる。

別の例では、ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを符号化する方法は、第１の解像度を有するベースレイヤデータを符号化することであって、ベースレイヤデータが、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備える、符号化することを含む。本方法はまた、第１の解像度を有し、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化することであって、エンハンスメントデータが第１の解像度を有し、エンハンスメントレイヤデータを復号することが、ベースレイヤデータの少なくとも一部分に対するエンハンスメントレイヤデータを復号することを備える、符号化することを含む。

別の例では、あるシーンの左視界とそのシーンの右視界とを備えるビデオデータを符号化するための装置であって、左視界が第１の解像度を有し、右視界が第１の解像度を有する装置が、ビデオエンコーダを含む。この例では、ビデオエンコーダは、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを符号化するように構成される。ビデオエンコーダはまた、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化することであって、エンハンスメントデータが第１の解像度を有する、符号化することを行うように構成される。ビデオエンコーダはまた、ベースレイヤデータとエンハンスメントレイヤデータとを出力するように構成される。

別の例では、あるシーンの左視界とそのシーンの右視界とを備えるビデオデータを符号化するための装置であって、左視界が第１の解像度を有し、右視界が第１の解像度を有する装置が、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを符号化するための手段を含む。本装置はまた、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化するための手段であって、エンハンスメントデータが第１の解像度を有する、符号化するための手段を含む。本装置はまた、ベースレイヤデータとエンハンスメントレイヤデータとを出力するための手段を含む。

別の例では、実行されたとき、あるシーンの左視界とそのシーンの右視界とを備えるビデオデータを受信することであって、左視界が第１の解像度を有し、右視界が第１の解像度を有する、受信することを、ビデオデータを符号化するための機器のプロセッサに行わせる命令を記憶したコンピュータ可読記憶媒体を備えるコンピュータプログラム製品が提供される。この命令はまた、第１の解像度に対する左視界の低解像度バージョンと、第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを符号化することをプロセッサに行わせる。この命令はまた、左視界と右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化することであって、エンハンスメントデータが第１の解像度を有する、符号化することをプロセッサに行わせる。この命令はまた、ベースレイヤデータとエンハンスメントレイヤデータとを出力することをプロセッサに行わせる。

あるシーンの２つの視界からのピクチャを含むスケーラブル多重視界ビットストリームを形成するための技法を利用し得る例示的なビデオ符号化及び復号システムを示すブロック図。２つの低解像度ピクチャを含むベースレイヤと、ベースレイヤからのそれぞれのフル解像度ピクチャをそれぞれ含む２つの追加のエンハンスメントレイヤとを有するスケーラブル多重視界ビットストリームを生成するための技法を実装し得るビデオエンコーダの一例を示すブロック図。２つの低解像度ピクチャを含むベースレイヤと、ベースレイヤに対応するそれぞれのフル解像度ピクチャをそれぞれ含む２つの追加のエンハンスメントレイヤとを有するスケーラブル多重視界ビットストリームを生成するための技法を実装し得るビデオエンコーダの別の例を示すブロック図。符号化ビデオシーケンスを復号するビデオデコーダの一例を示すブロック図。左眼視界と右眼視界の両方のための低解像度ピクチャを有するベースレイヤ、ならびに左眼視界ピクチャのフル解像度エンハンスメントレイヤを形成するためにビデオエンコーダによって組み合わせられた左眼視界ピクチャと右眼視界ピクチャとを示す概念図。左眼視界と右眼視界の両方のための低解像度ピクチャを有するベースレイヤ、ならびに右眼視界ピクチャのフル解像度エンハンスメントレイヤを形成するためにビデオエンコーダによって組み合わせられた左眼視界ピクチャと右眼視界ピクチャとを示す概念図。ベースレイヤと、フル解像度左眼視界ピクチャと、フル解像度右眼視界ピクチャとを形成するためにビデオエンコーダによって組み合わせられた左眼視界ピクチャと右眼視界ピクチャとを示す概念図。２つの異なる視界の２つの低解像度ピクチャを有するベースレイヤ、ならびに第１のエンハンスメントレイヤ及び第２のエンハンスメントレイヤを含むスケーラブル多重視界ビットストリームを形成し、符号化するための例示的な方法を示すフローチャート。ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを有するスケーラブル多重視界ビットストリームを復号するための例示的な方法を示すフローチャート。

概して、本開示は、ステレオビデオデータ、例えば、３次元視覚効果を生成するために使用されるビデオデータをサポートするための技法に関する。ビデオの３次元視覚効果を生成するために、あるシーンの２つの視界、例えば、左眼視界と右眼視界とが同時又はほぼ同時に示される。シーンの左眼視界と右眼視界とに対応する、同じシーンの２つのピクチャが、閲覧者の左眼と右眼との間の水平視差を表すわずかに異なる水平位置から撮影され得る。左眼視界のピクチャが閲覧者の左眼によって知覚され、右眼視界のピクチャが閲覧者の右眼によって知覚されるようにこれらの２つのピクチャを同時又はほぼ同時に表示することによって、閲覧者は３次元ビデオ効果を経験し得る。

本開示は、複数のパックフレームを有するベースレイヤと、１つ以上のフル解像度エンハンスメントレイヤとを含む、スケーラブル多重視界ビットストリームを形成するための技法を提供する。ベースレイヤのパックフレームの各々は、あるシーンの異なる視界（例えば、「右眼視界」及び「左眼視界」）に対応する２つのピクチャのためのデータを有するビデオデータの単一のフレームに対応し得る。特に、本開示の技法は、１つのフレームにパックされ、符号化される、あるシーンの左眼視界の低解像度ピクチャと、そのシーンの右眼視界の低解像度ピクチャとを有するベースレイヤを符号化することを含み得る。更に、本開示の技法は、スケーラブルな方法で、ベースレイヤ中に含まれるステレオペアの１つの視界をそれぞれ含む、２つのフル解像度エンハンスメントレイヤを符号化することを含む。例えば、ベースレイヤに加えて、本開示の技法は、右眼視界又は左眼視界のいずれかのフル解像度ピクチャを有する第１のエンハンスメントレイヤを符号化することを含み得る。本開示の技法はまた、他のそれぞれの視界（例えば、第１のエンハンスメントレイヤ中に含まれない右眼視界又は左眼視界のいずれか）のフル解像度ピクチャを有する第２のエンハンスメントレイヤを符号化することを含み得る。本開示の幾つかの態様によれば、多重視界ビットストリームはスケーラブルな方法で符号化され得る。即ち、スケーラブル多重視界ビットストリームを受信する機器は、ベースレイヤのみ、ベースレイヤ及び１つのエンハンスメントレイヤ、又はベースレイヤ及び両方のエンハンスメントレイヤを受信し、利用し得る。

幾つかの例では、本開示の技法は非対称パックフレームの使用を対象とし得る。即ち、幾つかの例では、ベースレイヤは１つのエンハンスメントレイヤと組み合わせられて、そのエンハンスメントレイヤと、ベースレイヤの一部として符号化された他の視界の低解像度ピクチャとにおいて符号化される、ある視界のフル解像度ピクチャが生成され得る。一般性の損失なしに、（例えば、第１のエンハンスメントレイヤからの）フル解像度ピクチャは右眼視界であり、低解像度ピクチャはベースレイヤの左眼視界部分であると仮定する。このようにして、宛先機器は、３次元出力を与えるために左眼視界をアップサンプリングし得る。この場合も、この例では、エンハンスメントレイヤは、（例えば、ベースレイヤ中の左眼視界のためのデータに対して）レイヤ間予測され得、及び／又は（例えば、ベースレイヤ中の右眼視界のためのデータに対して）視界間予測され得る。

本開示では、概して、ピクチャを視界のサンプルとして参照する。本開示では、概して、フレームを、特定の時間インスタンスを表すアクセスユニットの少なくとも一部分として符号化されるべきである１つ以上のピクチャを備えるものとして参照する。従って、フレームは、１つの視界（即ち、単一のピクチャ）のサンプルに対応するか、又は、パックフレームの場合、複数の視界（即ち、２つ以上のピクチャ）からのサンプルを含み得る。

更に、本開示では、概して、同様の特性を有する一連のフレームを含み得る「レイヤ」を参照する。本開示の態様によれば、「ベースレイヤ」は、一連のパックフレーム（例えば、単一の時間インスタンスにおいて２つの視界のためのデータを含むフレーム）を含み得、パックフレーム中に含まれる各視界の各ピクチャは低解像度（例えば、ハーフ解像度）で符号化され得る。本開示の態様によれば、「エンハンスメントレイヤ」は、ベースレイヤのみにおいてデータを復号することと比較して相対的により高い品質で（例えば、低減された歪みと共に）視界のフル解像度ピクチャを再生するために使用され得るベースレイヤの視界のうちの１つのためのデータを含み得る。幾つかの例によれば、上述のように、（エンハンスメントレイヤの）ある視界のフル解像度ピクチャと、ベースレイヤの他の視界からの低解像度ピクチャとが組み合わせられて、ステレオシーンの非対称表現が形成され得る。

幾つかの例によれば、ベースレイヤは、２つのピクチャが符号化のためにサブサンプリングされ、単一のフレームにパックされることを可能にする、Ｈ．２６４／ＡＶＣに準拠し得る。更に、エンハンスメントレイヤは、ベースレイヤに対して及び／又は別のエンハンスメントレイヤに対して符号化され得る。一例では、ベースレイヤは、特定のフレームパッキング構成、例えば、上下、並列、インターリーブされた行、インターリーブされた列、サイコロの五の目の配置（quincunx）（例えば、「チェッカーボード」）、又は他の方法で単一のフレームにパックされる、ハーフ解像度の第１のピクチャ（例えば、「左眼視界」）と、ハーフ解像度の第２のピクチャ（例えば、「右眼視界」）とを含んでいることがある。更に、第１のエンハンスメントレイヤは、ベースレイヤ中に含まれるピクチャのうちの１つに対応するフル解像度ピクチャを含み得、第２のエンハンスメントレイヤは、ベースレイヤ中に含まれる他のそれぞれのピクチャに対応する別のフル解像度ピクチャを含み得る。

一例では、第１のエンハンスメントレイヤは、ベースレイヤの第１の視界（例えば、左眼視界）に対応し得、第２のエンハンスメントレイヤは、ベースレイヤの第２の視界（例えば、右眼視界）に対応し得る。この例では、第１のエンハンスメントレイヤは、ベースレイヤの左眼視界からレイヤ間予測され、及び／又はベースレイヤの右眼視界から視界間予測されたフル解像度フレームを含み得る。その上、第２のエンハンスメントレイヤは、ベースレイヤの右眼視界からレイヤ間予測され、及び／又はベースレイヤの左眼視界から視界間予測されたフル解像度フレームを含み得る。追加又は代替として、第２のエンハンスメントレイヤは、第１のエンハンスメントレイヤから視界間予測されたフル解像度フレームを含み得る。

別の例では、第１のエンハンスメントレイヤは、ベースレイヤの第２の視界（例えば、右眼視界）に対応し得、第２のエンハンスメントレイヤは、ベースレイヤの第１の視界（例えば、左眼視界）に対応し得る。この例では、第１のエンハンスメントレイヤは、ベースレイヤの右眼視界からレイヤ間予測され、及び／又はベースレイヤの左眼視界から視界間予測されたフル解像度フレームを含み得る。その上、第２のエンハンスメントレイヤは、ベースレイヤの左眼視界からレイヤ間予測され、及び／又はベースレイヤの右眼視界から視界間予測されたフル解像度フレームを含み得る。追加又は代替として、第２のエンハンスメントレイヤは、第１のエンハンスメントレイヤから視界間予測されたフル解像度フレームを含み得る。

本開示の技法は、デコーダを有するクライアント機器などの受信機器が、ベースレイヤ、ベースレイヤ及びエンハンスメントレイヤ、又はベースレイヤ及び２つのエンハンスメントレイヤを受信し、利用することを可能にするスケーラブル符号化フォーマットに従ってデータを符号化することを含む。例えば、様々なクライアント機器は、同じ表現の異なる動作点を利用することが可能であり得る。

特に、動作点がベースレイヤのみに対応し、クライアント機器は２次元（２Ｄ）表示が可能である例では、クライアント機器は、ベースレイヤを復号し、ベースレイヤの視界のうちの１つに関連するピクチャを廃棄し得る。即ち、例えば、クライアント機器は、ベースレイヤのある視界（例えば、左眼視界）に関連するピクチャを表示し、ベースレイヤの他の視界（例えば、右眼視界）に関連するピクチャを廃棄し得る。

動作点がベースレイヤを含み、クライアント機器はステレオ又は３次元（３Ｄ）表示が可能である別の例では、クライアント機器は、ベースレイヤを復号し、ベースレイヤに関連する両方の視界のピクチャを表示し得る。即ち、クライアント機器は、ベースレイヤを受信し得、本開示の技法に従って、表示のために左眼視界と右眼視界とのピクチャを再構成し得る。クライアント機器は、ベースレイヤの左眼視界と右眼視界とのピクチャをアップサンプリングし、その後、ピクチャを表示し得る。

別の例では、動作点は、ベースレイヤと、１つのエンハンスメントレイヤとを含み得る。この例では、２Ｄ「高解像度」（ＨＤ）表示能力を有するクライアント機器は、ベースレイヤと１つのエンハンスメントレイヤとを受信し、本開示の技法に従って、エンハンスメントレイヤからフル解像度視界のみのピクチャを再構成し得る。本明細書で使用する「高解像度」は１９２０×１０８０画素のネイティブ解像度を指し得るが、「高解像度」をなすものは相対的であり、他の解像度も「高解像度」と見なされ得ることを理解されたい。

動作点がベースレイヤと１つのエンハンスメントレイヤとを含み、クライアント機器がステレオ表示能力を有する別の例では、クライアント機器は、エンハンスメントレイヤのフル解像度視界のピクチャ、ならびにベースレイヤの反対側の視界のハーフ解像度ピクチャを復号し、再構成し得る。クライアント機器は、次いで、ベースレイヤのハーフ解像度ピクチャをアップサンプリングし、その後、表示し得る。

更に別の例では、動作点は、ベースレイヤと、２つのエンハンスメントレイヤとを含み得る。この例では、クライアント機器は、ベースレイヤと２つのエンハンスメントレイヤとを受信し、本開示の技法に従って、３ＤＨＤ表示のために左眼視界と右眼視界とのピクチャを再構成し得る。従って、クライアント機器は、両方の視界に対するフル解像度データを与えるためにエンハンスメントレイヤを利用し得る。従って、クライアント機器は、両方の視界のネイティブフル解像度ピクチャを表示し得る。

本開示の技法のスケーラブルな性質は、様々なクライアント機器が、ベースレイヤ、ベースレイヤ及び１つのエンハンスメントレイヤ、又はベースレイヤ及び両方のエンハンスメントレイヤを利用することを可能にする。幾つかの態様によれば、シングル視界を表示することが可能なクライアント機器は、シングル視界再構成を与えるビデオデータを利用し得る。例えば、そのような機器は、シングル視界表現を与えるために、ベースレイヤ、又はベースレイヤ及び１つのエンハンスメントレイヤを受信し得る。この例では、クライアント機器は、別の視界に関連するエンハンスメントレイヤデータを要求することを回避するか、又はそれを受信したときに廃棄し得る。機器が第２の視界のエンハンスメントレイヤデータを受信又は復号しないとき、機器は、ベースレイヤの１つの視界からのピクチャをアップサンプリングし得る。

他の態様によれば、２つ以上の視界を表示することが可能なクライアント機器（例えば、３次元テレビジョン、コンピュータ、ハンドヘルド機器など）は、ベースレイヤ、第１のエンハンスメントレイヤ、及び／又は第２のエンハンスメントレイヤからのデータを利用し得る。例えば、そのような機器は、ベースレイヤからのデータを利用して、第１の解像度でベースレイヤの両方の視界を使用してシーンの３次元表現を生成し得る。代替的に、そのような機器は、ベースレイヤと１つのエンハンスメントレイヤとからのデータを利用して、シーンの視界のうちの一方が、そのシーンの他方の視界よりも相対的に高い解像度を有する、シーンの３次元表現を生成し得る。代替的に、そのような機器は、ベースレイヤと両方のエンハンスメントレイヤとからのデータを利用して、両方の視界が相対的に高い解像度を有する、シーンの３次元表現を生成し得る。

このように、マルチメディアコンテンツの表現は、２つの視界（例えば、左視界及び右視界）のためのビデオデータを有するベースレイヤ、その２つの視界のうちの一方のための第１のエンハンスメントレイヤ、及びその２つの視界のうちの他方のための第２のエンハンスメントレイヤという、３つのレイヤを含み得る。上記で説明したように、２つの視界は、その２つの視界のデータが３次元効果を生成するために表示され得るという点で、ステレオ視界ペアを形成し得る。本開示の技法によれば、第１のエンハンスメントレイヤは、ベースレイヤ中で符号化された対応する視界の一方又は両方、及び／又はベースレイヤ中で符号化された反対側の視界から予測され得る。第２のエンハンスメントレイヤは、ベースレイヤ及び／又は第１のエンハンスメントレイヤ中で符号化された対応する視界の一方又は両方から予測され得る。本開示では、ベースレイヤの対応する視界からのエンハンスメントレイヤの予測を「レイヤ間予測」と呼び、（ベースレイヤからであるか別のエンハンスメントレイヤからであるかにかかわらず）反対側の視界からのエンハンスメントレイヤの予測を「視界間予測」と呼ぶ。エンハンスメントレイヤの一方又は両方はレイヤ間予測及び／又は視界間予測され得る。

本開示はまた、ネットワークアブストラクションレイヤ（ＮＡＬ：network abstraction layer）において、例えば、ＮＡＬユニットの補足エンハンスメント情報（ＳＥＩ：supplemental enhancement information）メッセージ、又はシーケンスパラメータセット（ＳＰＳ：sequence parameter set）中で、レイヤ依存性を信号伝達するための技法を提供する。本開示はまた、（同じ時間インスタンスの）アクセスユニット中のＮＡＬユニットの復号依存性を信号伝達するための技法を提供する。即ち、本開示は、スケーラブル多重視界ビットストリームの他のレイヤを予測するために特定のＮＡＬユニットがどのように使用されるのかを信号伝達するための技法を提供する。Ｈ．２６４／ＡＶＣ（Advanced Video Coding）の例では、符号化ビデオセグメントは、ビデオテレフォニー、ストレージ、ブロードキャスト、又はストリーミングなどの適用例に対処する「ネットワークフレンドリーな」ビデオ表現を与えるＮＡＬユニットに編成される。ＮＡＬユニットは、Video Coding Layer（ＶＣＬ）ＮＡＬユニット及び非ＶＣＬＮＡＬユニットとしてカテゴリー分類され得る。ＶＣＬユニットは、コア圧縮エンジンからの出力を含み得、ブロック、マクロブロック、及び／又はスライスレベルのデータを含み得る。他のＮＡＬユニットは非ＶＣＬＮＡＬユニットであり得る。幾つかの例では、通常は１次符号化ピクチャとして提示される、１つの時間インスタンス中の符号化ピクチャは、１つ以上のＮＡＬユニットを含み得るアクセスユニット中に含まれ得る。

幾つかの例では、本開示の技法は、スケーラブルビデオ符号化（ＳＶＣ）、多重視界ビデオ符号化（ＭＶＣ）、又はＨ．２６４／ＡＶＣの他の拡張など、Advanced Video Coding（ＡＶＣ）に基づいて１つ以上のＨ．２６４／ＡＶＣコーデックに適用され得る。そのようなコーデックは、ＳＥＩメッセージがアクセスユニットに関連付けられたときにそのＳＥＩメッセージを認識するように構成され得、ＳＥＩメッセージは、ＩＳＯベースメディアファイルフォーマット又はＭＰＥＧ−２システムビットストリームでアクセスユニット内にカプセル化され得る。本技法はまた、将来の符号化規格、例えば、Ｈ．２６５／ＨＥＶＣ（高効率ビデオ符号化）に適用され得る。

ＳＥＩメッセージは、ＶＣＬＮＡＬユニットからの符号化ピクチャサンプルを復号するためには必要でないが、復号、表示、誤り耐性、及び他の目的に関係するプロセスを支援し得る情報を含んでいることがある。ＳＥＩメッセージは非ＶＣＬＮＡＬユニット中に含まれていることがある。ＳＥＩメッセージは、一部の標準規格の規範的部分であり、従って、常に標準準拠デコーダ実装のために必須であるとは限らない。ＳＥＩメッセージは、シーケンスレベルのＳＥＩメッセージ又はピクチャレベルのＳＥＩメッセージであり得る。ＳＶＣの例ではスケーラビリティ情報ＳＥＩメッセージ、ＭＶＣでは視界スケーラビリティ情報ＳＥＩメッセージなど、ＳＥＩメッセージ中に何らかのシーケンスレベル情報が含まれていることがある。これらの例示的なＳＥＩメッセージは、例えば、動作点の抽出及びそれらの動作点の特性に関する情報を搬送し得る。

Ｈ．２６４／ＡＶＣは、２つのピクチャ、例えば、あるシーンの左視界と右視界とを含むフレームのフレームパッキングタイプを示すコーデックレベルメッセージである、フレームパッキングＳＥＩメッセージを与える。例えば、２つのフレームの空間インターリービングのために様々なタイプのフレームパッキング方法がサポートされている。サポートされるインターリービング方法には、チェッカーボード、列インターリービング、行インターリービング、並列、上下、及びチェッカーボードアップコンバージョンを用いた並列がある。フレームパッキングＳＥＩメッセージは、Ｈ．２６４／ＡＶＣ規格の直近のバージョンに組み込まれる、「Information technology -- Coding of audio-visual objects -- Part 10: Advanced Video Coding, AMENDMENT 1: Constrained baseline profile, stereo high profile and frame packing arrangement SEI message」、Ｎ１０１３０３、ＭＰＥＧｏｆＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、Ｘｉａｎ、Ｃｈｉｎａ、２００９年１０月に記載されている。このようにして、Ｈ．２６４／ＡＶＣは、左視界と右視界との２つのピクチャを１つのピクチャにインターリーブすることと、そのようなピクチャをビデオシーケンスに符号化することとをサポートする。

本開示は、符号化ビデオデータのために利用可能な動作点を示す動作点ＳＥＩメッセージを与える。例えば、本開示は、様々な低解像度レイヤとフル解像度レイヤとの組合せのための動作点を示す動作点ＳＥＩメッセージを与える。そのような組合せは、更に、異なるフレームレートに対応する異なる時間サブセットに基づいてカテゴリー分類され得る。デコーダは、この情報を使用して、ビットストリームが複数のレイヤを含むかどうかを決定し、ベースレイヤを２つの視界とエンハンスメント視界との構成ピクチャに適切に分離し得る。

更に、本開示の幾つかの態様によれば、本開示の技法は、Ｈ．２６４／ＡＶＣのシーケンスパラメータセット（「ＳＰＳ」）拡張を与えることを含む。例えば、シーケンスパラメータセットは、比較的大きい数のＶＣＬＮＡＬユニットを復号するために使用され得る情報を含んでいることがある。シーケンスパラメータセットは、符号化ビデオシーケンスと呼ばれる、一連の連続的に符号化されたピクチャに適用され得る。幾つかの例によれば、本開示の技法は、（１）ベースレイヤ中の左眼視界のピクチャのロケーション、（２）フル解像度エンハンスメントレイヤの順序（例えば、左眼視界のピクチャが右眼視界のピクチャの前に符号化されるのか又はその逆に符号化されるのか）、（３）フル解像度エンハンスメントレイヤの依存性（例えば、エンハンスメントレイヤがベースレイヤから予測されるのか別のエンハンスメントレイヤから予測されるのか）、（４）シングル視界ピクチャのフル解像度のための動作点のサポート（例えば、ベースレイヤと１つの対応するエンハンスメントレイヤとのピクチャのうちの１つのためのサポート）、（５）非対称動作点のサポート（例えば、ある視界のフル解像度ピクチャと他の視界の低解像度ピクチャとを有するフレームを含むベースレイヤのためのサポート）、（６）レイヤ間予測のサポート、及び（７）視界間予測のサポートを記述するためのＳＰＳ拡張を与えることに関係し得る。

図１は、あるシーンの２つの視界からのピクチャを含むスケーラブル多重視界ビットストリームを形成するための技法を利用し得る例示的なビデオ符号化及び復号システムを示すブロック図である。図１に示すように、システム１０は、通信チャネル１６を介して符号化ビデオを宛先機器１４に送信する発信源機器１２を含む。発信源機器１２及び宛先機器１４は、固定又はモバイルコンピュータ機器、セットトップボックス、ゲームコンソール、デジタルメディアプレーヤなど、広範囲にわたる機器のいずれかを備え得る。場合によっては、発信源機器１２及び宛先機器１４は、ワイヤレスハンドセット、所謂セルラー無線電話又は衛星無線電話などのワイヤレス通信機器を備えるか、又は通信チャネル１６を介してビデオ情報を通信することができ、その場合、通信チャネル１６がワイヤレスである、任意のワイヤレス機器を備え得る。

但し、スケーラブル多重視界ビットストリームを形成することに関係する本開示の技法は、必ずしもワイヤレスアプリケーション又は設定に限定されるとは限らない。例えば、これらの技法は、オーバージエアテレビジョン放送、ケーブルテレビジョン送信、衛星テレビジョン送信、インターネットビデオ送信、記憶媒体上に符号化される符号化デジタルビデオ、又は他のシナリオに適用され得る。従って、通信チャネル１６は、符号化ビデオデータの送信に好適なワイヤレス又はワイヤード媒体の任意の組合せを備え得る。

図１の例では、発信源機器１２は、ビデオ発信源１８と、ビデオエンコーダ２０と、変調器／復調器（モデム）２２と、送信機２４とを含む。宛先機器１４は、受信機２６と、モデム２８と、ビデオデコーダ３０と、表示装置３２とを含む。本開示によれば、発信源機器１２のビデオエンコーダ２０は、スケーラブル多重視界ビットストリーム、例えば、ベースレイヤ及び１つ以上のエンハンスメントレイヤ（例えば、２つのエンハンスメントレイヤ）を形成するための技法を適用するように構成され得る。例えば、ベースレイヤは、それぞれあるシーンの異なる視界（例えば、左眼視界及び右眼視界）からの、２つのピクチャのための符号化データを含み得、ビデオエンコーダ２０は、両方のピクチャの解像度を低減し、それらのピクチャを単一のフレームに組み合わせる（例えば、各ピクチャは、フル解像度フレームの解像度の１／２である）。第１のエンハンスメントレイヤは、ベースレイヤの視界のうちの１つのフル解像度表現のための符号化データを含み得、第２のエンハンスメントレイヤは、ベースレイヤの他のそれぞれの視界のフル解像度のための符号化データを含み得る。

特に、ビデオエンコーダ２０は、ベースレイヤに対してエンハンスメントレイヤを符号化するために視界間予測及び／又はレイヤ間予測を実装し得る。例えば、ビデオエンコーダ２０が、ベースレイヤの左眼視界のピクチャに対応するエンハンスメントレイヤを符号化していると仮定する。この例では、ビデオエンコーダ２０は、ベースレイヤの左眼視界の対応するピクチャからエンハンスメントレイヤを予測するためにレイヤ間予測方式を実装し得る。幾つかの例では、ビデオエンコーダ２０は、エンハンスメントレイヤのピクチャを予測する前にベースレイヤの左眼視界のピクチャを再構成し得る。例えば、ビデオエンコーダ２０は、エンハンスメントレイヤのピクチャを予測する前にベースレイヤの左眼視界のピクチャをアップサンプリングし得る。ビデオエンコーダ２０は、再構成されたベースレイヤに基づいてレイヤ間テクスチャ予測を実行することによって、又はベースレイヤの動きベクトルに基づいてレイヤ間動き予測を実行することによってレイヤ間予測を実行し得る。追加又は代替として、ビデオエンコーダ２０は、ベースレイヤの右眼視界のピクチャからエンハンスメントレイヤを予測するために視界間予測方式を実装し得る。この例では、ビデオエンコーダ２０は、エンハンスメントレイヤの視界間予測を実行する前にベースレイヤの右眼視界のフル解像度ピクチャを再構成し得る。

ベースレイヤの左眼視界のフル解像度ピクチャに対応するエンハンスメントレイヤに加えて、ビデオエンコーダ２０はまた、ベースレイヤの右眼視界のフル解像度ピクチャに対応する別のエンハンスメントレイヤを符号化し得る。本開示の幾つかの態様によれば、ビデオエンコーダ２０は、ベースレイヤに対する視界間予測及び／又はレイヤ間予測を使用して右眼視界のエンハンスメントレイヤピクチャを予測し得る。更に、ビデオエンコーダ２０は、他の前に生成されたエンハンスメントレイヤ（例えば、左眼視界と対応するエンハンスメントレイヤ）に対する視界間予測を使用して右眼視界のエンハンスメントレイヤピクチャを予測し得る。

他の例では、発信源機器及び宛先機器は他の構成要素又は構成を含み得る。例えば、発信源機器１２は、外部カメラなどの外部ビデオ発信源１８からビデオデータを受信し得る。同様に、宛先機器１４は、内蔵表示装置を含むのではなく、外部表示装置とインターフェースし得る。

図１の図示のシステム１０は一例にすぎない。スケーラブル多重視界ビットストリームを生成するための技法は任意のデジタルビデオ符号化及び／又は復号機器によって実行され得る。概して、本開示の技法はビデオ符号化機器によって実行されるが、本技法は、一般に「コーデック」と呼ばれるビデオエンコーダ／デコーダによっても実行され得る。その上、本開示の技法の態様は、ファイルカプセル化ユニット、ファイルカプセル化解除ユニット、ビデオマルチプレクサ、又はビデオデマルチプレクサなど、ビデオプリプロセッサ又はビデオポストプロセッサによっても実行され得る。発信源機器１２及び宛先機器１４は、発信源機器１２が宛先機器１４に送信するための符号化ビデオデータを生成する、そのような符号化機器の例にすぎない。幾つかの例では、機器１２、１４は、機器１２、１４の各々がビデオ符号化構成要素とビデオ復号構成要素とを含むように、実質的に対称的に動作し得る。従って、システム１０は、例えば、ビデオストリーミング、ビデオ再生、ビデオブロードキャスティング、ビデオゲーム、又はビデオテレフォニーのために、機器１２と機器１４との間の一方向又は双方向のビデオ送信をサポートし得る。

発信源機器１２のビデオ発信源１８は、ビデオカメラなどの撮像装置、以前に撮影されたビデオを含んでいるビデオアーカイブ、及び／又はビデオコンテンツプロバイダからのビデオフィードを含み得る。さらなる代替として、ビデオ発信源１８は、ソースビデオとしてのコンピュータグラフィックスベースのデータ、又はライブビデオとアーカイブビデオとコンピュータ生成ビデオとの組合せを生成し得る。場合によっては、ビデオ発信源１８がビデオカメラである場合、発信源機器１２及び宛先機器１４は、所謂カメラフォン又はビデオフォンを形成し得る。但し、上述のように、本開示で説明する技法は、一般にビデオ符号化に適用可能であり得、モバイル又は概して非モバイルのコンピュータ機器によって実行されるワイヤレス及び／又はワイヤードアプリケーションに適用され得る。いずれの場合も、撮影されたビデオ、プリ撮影されたビデオ、又はコンピュータ生成されたビデオは、ビデオエンコーダ２０によって符号化され得る。

ビデオ発信源１８は、２つ以上の視界からのピクチャをビデオエンコーダ２０に与え得る。２つのピクチャを使用して３次元効果を生成することができるように、同じシーンの２つのピクチャがわずかに異なる水平位置から同時又はほぼ同時に撮影され得る。代替的に、ビデオ発信源１８（又は発信源機器１２の別のユニット）は、第１の視界の第１のピクチャから第２の視界の第２のピクチャを生成するために深度情報又は視差情報を使用し得る。深度情報又は視差情報は、第１の視界を撮影しているカメラによって測定されるか、又は第１の視界中のデータから計算され得る。

ＭＰＥＧ−Ｃｐａｒｔ−３が、ビデオストリーム中にピクチャの深度マップを含めるための指定フォーマットを与えている。その仕様は、「Text of ISO/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information」、ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１、ＭＰＥＧＤｏｃ、Ｎ８１３６８、Ｍａｒｒａｋｅｃｈ、Ｍｏｒｏｃｏｏ、２００７年１月に記載されている。ＭＰＥＧ−Ｃｐａｒｔ３では、補助ビデオは深度マップ又はパララックスマップであり得る。深度マップを表すとき、ＭＰＥＧ−Ｃｐａｒｔ−３は、深度マップの各深度値及び解像度を表すために使用されるビット数に関してフレキシビリティを与え得る。例えば、マップは、マップによって記述された画像の幅の１／４及び高さの１／２であり得る。マップは、単色ビデオサンプルとして、例えば、ルミナンス成分のみをもつＨ．２６４／ＡＶＣビットストリーム内で符号化され得る。代替的に、マップは、Ｈ．２６４／ＡＶＣにおいて定義されているように、補助ビデオデータとして符号化され得る。本開示のコンテキストでは、深度マップ又はパララックスマップは１次ビデオデータと同じ解像度を有し得る。Ｈ．２６４／ＡＶＣ仕様は現在、深度マップを符号化するための補助ビデオデータの使用を指定していないが、本開示の技法は、そのような深度マップ又はパララックスマップを使用するための技法と併せて使用され得る。

符号化ビデオ情報は、次いで、通信規格に従ってモデム２２によって変調され、送信機２４を介して宛先機器１４に送信され得る。モデム２２は、信号変調のために設計された様々なミキサ、フィルタ、増幅器又は他の構成要素を含み得る。送信機２４は、増幅器、フィルタ、及び１つ以上のアンテナを含む、データを送信するために設計された回路を含み得る。

宛先機器１４の受信機２６はチャネル１６を介して情報を受信し、モデム２８はその情報を復調する。この場合も、ビデオ符号化プロセスは、スケーラブル多重視界ビットストリームを与えるための本明細書で説明する技法のうちの１つ以上を実装し得る。即ち、ビデオ符号化プロセスは、２つの視界の低解像度ピクチャを含むベースレイヤ、及びベースレイヤの視界の対応するフル解像度ピクチャを含む２つのエンハンスメントレイヤを有するビットストリームを与えるための本明細書で説明する技法のうちの１つ以上を実装し得る。

チャネル１６を介して通信される情報は、ビデオエンコーダ２０によって定義され、またビデオデコーダ３０によって使用される、マクロブロック及び他の符号化ユニット、例えば、ＧＯＰの特性及び／又は処理を記述するシンタックス要素を含む、シンタックス情報を含み得る。従って、ビデオデコーダ３０は、ベースレイヤを視界の構成ピクチャに解凍(unpack)し、ピクチャを復号し、低解像度ピクチャをフル解像度にアップサンプリングし得る。ビデオデコーダ３０はまた、１つ以上のエンハンスメントレイヤを符号化するために使用された方法（例えば、予測手法）を決定し、ベースレイヤ中に含まれる一方又は両方の視界のフル解像度ピクチャを生成するために１つ以上のエンハンスメントレイヤを復号し得る。表示装置３２は、復号されたピクチャをユーザに対して表示し得る。

表示装置３２は、陰極線管（ＣＲＴ）、液晶表示（ＬＣＤ）、プラズマ表示、有機発光ダイオード（ＯＬＥＤ）表示、又は別のタイプの表示装置など、様々な表示装置のいずれかを備え得る。表示装置３２は、多重視界ビットストリームからの２つのピクチャを同時又はほぼ同時に表示し得る。例えば、表示装置３２は、２つの視界を同時又はほぼ同時に表示することが可能な立体視３次元表示装置を備え得る。

ユーザは、表示装置３２がアクティブ眼鏡と同期して左視界と右視界との間で迅速に切り替わり得るように、左レンズと右レンズとを迅速に交互にシャッターするアクティブ眼鏡を着用し得る。代替的に、表示装置３２は２つの視界を同時に表示し得、ユーザは、適切な視界がそれを通ってユーザの眼に届くように視界をフィルタ処理する（例えば、偏光レンズをもつ）パッシブ眼鏡を着用し得る。更に別の例として、表示装置３２は、眼鏡が必要でない裸眼立体視表示を備え得る。

図１の例では、通信チャネル１６は、無線周波数（ＲＦ）スペクトル又は１つ以上の物理伝送線路など、任意のワイヤレス又はワイヤード通信媒体、若しくはワイヤレス媒体とワイヤード媒体との任意の組合せを備え得る。通信チャネル１６は、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネットなどのグローバルネットワークなど、パケットベースネットワークの一部を形成し得る。通信チャネル１６は、概して、ワイヤード媒体又はワイヤレス媒体の任意の好適な組合せを含む、ビデオデータを発信源機器１２から宛先機器１４に送信するのに好適な任意の通信媒体、又は様々な通信媒体の集合体を表す。通信チャネル１６は、発信源機器１２から宛先機器１４への通信を可能にするのに有用であり得るルータ、スイッチ、基地局、又は任意の他の機器を含み得る。

ビデオエンコーダ２０及びビデオデコーダ３０は、代替的にＭＰＥＧ−４、Ｐａｒｔ１０、ＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）と呼ばれるＩＴＵ−ＴＨ．２６４規格など、ビデオ圧縮規格に従って動作し得る。但し、本開示の技法は、いかなる特定の符号化規格にも限定されない。他の例にはＭＰＥＧ−２及びＩＴＵ−ＴＨ．２６３がある。図１には示されていないが、幾つかの態様では、ビデオエンコーダ２０及びビデオデコーダ３０は、それぞれオーディオエンコーダ及びデコーダと統合され得、適切なＭＵＸ−ＤＥＭＵＸユニット、又は他のハードウェア及びソフトウェアを含んで、共通のデータストリーム又は別個のデータストリーム中のオーディオとビデオの両方の符号化を処理し得る。適用可能な場合、ＭＵＸ−ＤＥＭＵＸユニットはＩＴＵＨ．２２３マルチプレクサプロトコル、又はユーザデータグラムプロトコル（ＵＤＰ）などの他のプロトコルに準拠し得る。

ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４（ＡＶＣ）規格は、ＪｏｉｎｔＶｉｄｅｏＴｅａｍ（ＪＶＴ）として知られる共同パートナーシップの成果として、ＩＳＯ／ＩＥＣＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）と共にＩＴＵ−ＴＶｉｄｅｏＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ（ＶＣＥＧ）によって策定された。幾つかの態様では、本開示で説明する技法は、Ｈ．２６４規格に概して準拠する機器に適用され得る。Ｈ．２６４規格は、ＩＴＵ−ＴＳｔｕｄｙＧｒｏｕｐによる２００５年３月付けのＩＴＵ−Ｔ勧告Ｈ．２６４「Advanced Video Coding for generic audiovisual services」に記載されており、本明細書ではＨ．２６４規格又はＨ．２６４仕様、又はＨ．２６４／ＡＶＣ規格若しくは仕様と呼ぶことがある。ＪｏｉｎｔＶｉｄｅｏＴｅａｍ（ＪＶＴ）はＨ．２６４／ＭＰＥＧ−４ＡＶＣへの拡張に取り組み続けている。

本開示の技法は、Ｈ．２６４／ＡＶＣ規格への修正された拡張を含み得る。例えば、ビデオエンコーダ２０及びビデオデコーダ３０は、修正されたスケーラブルビデオ符号化（ＳＶＣ）、多重視界ビデオ符号化（ＭＶＣ）、又はＨ．２６４／ＡＶＣの他の拡張を利用し得る。一例では、本開示の技法は、（例えば、本明細書ではベースレイヤと呼ばれる）「ベース視界」と、（例えば、本明細書ではエンハンスメントレイヤと呼ばれる）１つ以上の「エンハンスメント視界」とを含む、「多重視界フレーム互換（multi-view frame compatible）」（「ＭＦＣ」）と呼ばれるＨ．２６４／ＡＶＣ拡張を含む。即ち、ＭＦＣ拡張の「ベース視界」は、水平方向の遠近感がわずかに異なるが、ほぼ同時に又は時間的にほぼ同時に撮影されたシーンの２つの視界の低解像度ピクチャを含み得る。従って、ＭＦＣ拡張の「ベース視界」は、実際に、本明細書で説明する複数の「視界」（例えば、左眼視界及び右眼視界）からのピクチャを含み得る。更に、ＭＦＣ拡張の「エンハンスメント視界」は、「ベース視界」中に含まれる視界のうちの１つのフル解像度ピクチャを含み得る。例えば、ＭＦＣ拡張の「エンハンスメント視界」は、「ベース視界」の左眼視界のフル解像度ピクチャを含み得る。ＭＦＣ拡張の別の「エンハンスメント視界」は、「ベース視界」の右眼視界のフル解像度ピクチャを含み得る。

ビデオエンコーダ２０及びビデオデコーダ３０はそれぞれ、１つ以上のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ回路のいずれか、又はそれらの任意の組合せとして実装され得る。ビデオエンコーダ２０及びビデオデコーダ３０の各々は１つ以上のエンコーダ又はデコーダ中に含まれ得、そのいずれも複合エンコーダ／デコーダ（コーデック）の一部としてそれぞれのカメラ、コンピュータ、モバイル機器、加入者機器、ブロードキャスト機器、セットトップボックス、サーバなどに統合され得る。

ビデオシーケンスは一般に一連のビデオフレームを含む。ピクチャのグループ（ＧＯＰ：group of pictures）は、概して、一連の１つ以上のビデオフレームを備える。ＧＯＰは、ＧＯＰ中に含まれる幾つかのフレームを記述するシンタックスデータを、ＧＯＰのヘッダ、ＧＯＰの１つ以上のフレームのヘッダ、又は他の場所中に含み得る。各フレームは、それぞれのフレームについての符号化モードを記述するフレームシンタックスデータを含み得る。ビデオエンコーダ２０は、一般に、ビデオデータを符号化するために、個々のビデオフレーム内のビデオブロックに対して動作する。ビデオブロックは、マクロブロック又はマクロブロックのパーティションに対応し得る。ビデオブロックは、固定サイズ又は可変サイズを有し得、指定の符号化規格に応じてサイズが異なり得る。各ビデオフレームは複数のスライスを含み得る。各スライスは複数のマクロブロックを含み得、それらのマクロブロックは、サブブロックとも呼ばれるパーティションに構成され得る。

一例として、ＩＴＵ−ＴＨ．２６４規格は、ルーマ成分については１６×１６、８×８、又は４×４、及びクロマ成分については８×８など、様々なブロックサイズのイントラ予測をサポートし、ならびにルーマ成分については１６×１６、１６×８、８×１６、８×８、８×４、４×８及び４×４、及びクロマ成分については対応するスケーリングされたサイズなど、様々なブロックサイズのインター予測をサポートする。本開示では、「Ｎ×（x）Ｎ」と「Ｎ×（by）Ｎ」は、垂直寸法及び水平寸法に関するブロックの画素寸法、例えば、１６×（x）１６画素又は１６×（by）１６画素を指すために互換的に使用され得る。一般に、１６×１６ブロックは、垂直方向に１６画素を有し（ｙ＝１６）、水平方向に１６画素を有する（ｘ＝１６）。同様に、Ｎ×Ｎブロックは、概して、垂直方向にＮ画素を有し、水平方向にＮ画素を有し、但し、Ｎは、非負整数値を表す。ブロック中の画素は行と列に構成され得る。その上、ブロックは、必ずしも、水平方向において垂直方向と同じ数の画素を有する必要はない。例えば、ブロックはＮ×Ｍ画素を備え得、Ｍは必ずしもＮに等しいとは限らない。

１６×１６よりも小さいブロックサイズは１６×１６マクロブロックのパーティションと呼ばれることがある。ビデオブロックは、画素領域中の画素データのブロックを備え得、あるいは、例えば、符号化ビデオブロックと予測ビデオブロックとの画素差分を表す残差ビデオブロックデータへの離散コサイン変換（ＤＣＴ）、整数変換、ウェーブレット変換、又は概念的に同様の変換などの変換の適用後の、変換領域中の変換係数のブロックを備え得る。場合によっては、ビデオブロックは、変換領域中の量子化変換係数のブロックを備え得る。

小さいビデオブロックほど、より良い解像度が得られ、高い詳細レベルを含むビデオフレームのロケーションのために使用され得る。一般に、マクロブロック、及びサブブロックと呼ばれることがある様々なパーティションは、ビデオブロックと見なされ得る。更に、スライスは、マクロブロック及び／又はサブブロックなど、複数のビデオブロックであると見なされ得る。各スライスはビデオフレームの単独で復号可能なユニットであり得る。代替的に、フレーム自体が復号可能なユニットであり得るか、又はフレームの他の部分が復号可能なユニットとして定義され得る。「符号化ユニット」という用語は、フレーム全体、フレームのスライス、シーケンスとも呼ばれるピクチャのグループ（ＧＯＰ）など、ビデオフレームの単独で復号可能な任意のユニット、又は適用可能な符号化技法に従って定義される別の単独で復号可能なユニットを指すことがある。

予測データと残差データとを生成するためのイントラ予測符号化又はインター予測符号化の後、及び変換係数を生成するための残差データに適用される（Ｈ．２６４／ＡＶＣにおいて使用される４×４又は８×８整数変換、あるいは離散コサイン変換ＤＣＴなどの）任意の変換の後、変換係数の量子化が実行され得る。量子化は、概して、係数を表すために使用されるデータ量をできるだけ低減するために変換係数を量子化するプロセスを指す。量子化プロセスは、係数の一部又は全部に関連するビット深度を低減し得る。例えば、量子化中にｎビット値がｍビット値に切り捨てられ得、但し、ｎはｍよりも大きい。

量子化の後に、例えば、コンテンツ適応型可変長符号化（ＣＡＶＬＣ）、コンテキスト適応型バイナリ算術符号化（ＣＡＢＡＣ）、又は別のエントロピー符号化方法に従って、量子化データのエントロピー符号化が実行され得る。エントロピー符号化用に構成された処理ユニット、又は別の処理ユニットは、量子化係数のゼロランレングス符号化、及び／又は符号化ブロックパターン（ＣＢＰ：coded block pattern）値、マクロブロックタイプ、符号化モード、（フレーム、スライス、マクロブロック、又はシーケンスなどの）符号化ユニットの最大マクロブロックサイズなどのシンタックス情報の生成など、他の処理機能を実行し得る。

ビデオエンコーダ２０は、更に、ブロックベースのシンタックスデータ、フレームベースのシンタックスデータ、及び／又はＧＯＰベースのシンタックスデータなどのシンタックスデータを、例えば、フレームヘッダ、ブロックヘッダ、スライスヘッダ、又はＧＯＰヘッダ中でビデオデコーダ３０に送り得る。ＧＯＰシンタックスデータは、それぞれのＧＯＰ中の幾つかのフレームを記述し得、フレームシンタックスデータは、対応するフレームを符号化するために使用される符号化／予測モードを示し得る。従って、ビデオデコーダ３０は、標準ビデオデコーダを備え得、必ずしも本開示の技法を実施又は利用するように特別に構成される必要はない。

ビデオエンコーダ２０及びビデオデコーダ３０はそれぞれ、適用可能なとき、１つ以上のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、ディスクリート論理回路、ソフトウェア、ハードウェア、ファームウェアなど、様々な好適なエンコーダ又はデコーダ回路のいずれか、あるいはそれらの任意の組合せとして実装され得る。ビデオエンコーダ２０及びビデオデコーダ３０の各々は１つ以上のエンコーダ又はデコーダ中に含まれ得、そのいずれも複合ビデオエンコーダ／デコーダ（コーデック）の一部として統合され得る。ビデオエンコーダ２０及び／又はビデオデコーダ３０を含む装置は、集積回路、マイクロプロセッサ、コンピュータ機器、及び／又は携帯電話などのワイヤレス通信機器を備え得る。

ビデオデコーダ３０は、ベースレイヤと２つのエンハンスメントレイヤとを含むスケーラブル多重視界ビットストリームを受信するように構成され得る。ビデオデコーダ３０は、更に、ベースレイヤを、ピクチャの２つの対応するセット、例えば、左眼視界の低解像度ピクチャと右眼視界の低解像度ピクチャとに解凍するように構成され得る。ビデオデコーダ３０は、ピクチャを復号し、低解像度ピクチャを（例えば、補間を通して）アップサンプリングして、復号されたフル解像度ピクチャを生成し得る。更に、幾つかの例では、ビデオデコーダ３０は、ベースレイヤの復号されたピクチャに関して、ベースレイヤに対応するフル解像度ピクチャを含むエンハンスメントレイヤを復号し得る。即ち、ビデオデコーダ３０は視界間及びレイヤ間予測方法をもサポートし得る。

幾つかの例では、ビデオデコーダ３０は、宛先機器１４が３次元データを復号し、表示することが可能であるかどうかを決定するように構成され得る。可能でない場合には、ビデオデコーダ３０は、受信したベースレイヤを解凍するが、低解像度ピクチャのうちの１つを廃棄し得る。ビデオデコーダ３０はまた、ベースレイヤの廃棄された低解像度ピクチャに対応するフル解像度エンハンスメントレイヤを廃棄し得る。ビデオデコーダ３０は、残りの低解像度ピクチャを復号し、低解像度ピクチャをアップサンプリング又はアップコンバートし、２次元ビデオデータを提示するためにビデオ表示３２にこの視界からのピクチャを表示させ得る。別の例では、ビデオデコーダ３０は、残りの低解像度ピクチャ及び対応するエンハンスメントレイヤを復号し、２次元ビデオデータを提示するためにビデオ表示３２にこの視界からのピクチャを表示させ得る。従って、ビデオデコーダ３０は、フレームの全てを復号することを試みることなしに、フレームの一部分のみを復号し、復号されたピクチャを表示装置３２に与え得る。

このようにして、宛先機器１４が３次元ビデオデータを表示することが可能であるか否かにかかわらず、宛先機器１４は、ベースレイヤと２つのエンハンスメントレイヤとを含むスケーラブル多重視界ビットストリームを受信し得る。従って、様々な復号及びレンダリング能力をもつ様々な宛先機器は、ビデオエンコーダ２０から同じビットストリームを受信するように構成され得る。即ち、幾つかの宛先機器は３次元ビデオデータを復号し、レンダリングすることが可能であり得るが、他の宛先機器は３次元ビデオデータを復号及び／又はレンダリングすることが不可能であり得、それでも機器の各々は、同じスケーラブル多重視界ビットストリームからのデータを受信し、使用するように構成され得る。

幾つかの例によれば、スケーラブル多重視界ビットストリームは、受信された符号化データのサブセットを復号し、表示することを可能にするために複数の動作点を含み得る。例えば、本開示の態様によれば、スケーラブル多重視界ビットストリームは、（１）２つの視界（例えば、左眼視界及び右眼視界）の低解像度ピクチャを含むベースレイヤ、（２）ベースレイヤ、及び左眼視界のフル解像度ピクチャを含むエンハンスメントレイヤ、（３）ベースレイヤ、及び右眼視界のフル解像度ピクチャを含むエンハンスメントレイヤ、並びに（４）ベースレイヤ、第１のエンハンスメントレイヤと第２のエンハンスメントレイヤとが共に両方の視界のフル解像度ピクチャを含むような第１のエンハンスメントレイヤ及び第２のエンハンスメントレイヤという、４つの動作点を含む。

図２Ａは、あるシーンの２つの視界（例えば、左眼視界及び右眼視界）の低解像度ピクチャを含むベースレイヤ、ならびにベースレイヤの視界のうちの１つのフル解像度ピクチャを含む第１のエンハンスメントレイヤ、及びベースレイヤの他のそれぞれの視界からのフル解像度ピクチャを含む第２のエンハンスメントレイヤを有するスケーラブル多重視界ビットストリームを生成するための技法を実装し得るビデオエンコーダ２０の一例を示すブロック図である。図２Ａの幾つかの構成要素は、概念的な目的のために単一の構成要素に関して図示及び説明されることがあるが、１つ以上の機能ユニットを含み得ることを理解されたい。更に、図２Ａの幾つかの構成要素は、単一の構成要素に関して図示及び説明されることがあるが、そのような構成要素は、物理的に１つ又は２つ以上の個別及び／又は一体型ユニットから構成され得る。

図２Ａ、及び本開示中の他の箇所に関して、ビデオエンコーダ２０について、ビデオデータの１つ以上のフレームを符号化するものとして説明される。上記で説明したように、レイヤ（例えば、ベースレイヤ及びエンハンスメントレイヤ）は、マルチメディアコンテンツを構成する一連のフレームを含み得る。従って、「ベースフレーム」は、ベースレイヤ中のビデオデータの単一のフレームを指し得る。更に、「エンハンスメントフレーム」は、エンハンスメントレイヤ中のビデオデータの単一のフレームを指し得る。

概して、ビデオエンコーダ２０は、マクロブロック、又はマクロブロックのパーティション若しくはサブパーティションを含む、ビデオフレーム内のブロックのイントラ符号化及びインター符号化を実行し得る。イントラ符号化は、所与のビデオフレーム内のビデオの空間的冗長性を低減又は除去するために空間的予測に依拠する。イントラモード（Ｉモード）は、幾つかの空間ベースの圧縮モードのいずれかを指し、単方向予測（Ｐモード）又は双方向予測（Ｂモード）などのインターモードは、幾つかの時間ベースの圧縮モードのいずれかを指し得る。インター符号化は、ビデオシーケンスの隣接フレーム内のビデオの時間的冗長性を低減又は除去するために時間的予測に依拠する。

ビデオエンコーダ２０はまた、幾つかの例では、エンハンスメントレイヤの視界間予測及びレイヤ間予測を実行するように構成され得る。例えば、ビデオエンコーダ２０は、Ｈ．２６４／ＡＶＣの多重視界ビデオ符号化（ＭＶＣ）拡張に従って視界間予測を実行するように構成され得る。更に、ビデオエンコーダ２０は、Ｈ．２６４／ＡＶＣのスケーラブルビデオ符号化（ＳＶＣ）拡張に従ってレイヤ間予測を実行するように構成され得る。従って、エンハンスメントレイヤはベースレイヤから視界間予測又はレイヤ間予測され得る。更に、あるエンハンスメントレイヤは別のエンハンスメントレイヤから視界間予測され得る。

図２Ａに示すように、ビデオエンコーダ２０は、符号化されるべきビデオピクチャ内の現在のビデオブロックを受信する。図２Ａの例では、ビデオエンコーダ２０は、動き補償ユニット４４と、動き／視差推定ユニット４２と、参照フレーム記憶部６４と、加算器５０と、変換ユニット５２と、量子化ユニット５４と、エントロピー符号化ユニット５６とを含む。ビデオブロック再構成のために、ビデオエンコーダ２０はまた、逆量子化ユニット５８と、逆変換ユニット６０と、加算器６２とを含む。再構成されたビデオからブロッキネスアーティファクトを除去するためにブロック境界をフィルタ処理するデブロッキングフィルタ（図２Ａに図示せず）も含まれ得る。所望される場合、デブロッキングフィルタは、一般に、加算器６２の出力をフィルタ処理することになる。

符号化プロセス中に、ビデオエンコーダ２０は、符号化されるべきビデオピクチャ又はスライスを受信する。ピクチャ又はスライスは複数のビデオブロックに分割され得る。動き推定／視差ユニット４２及び動き補償ユニット４４は、１つ以上の参照フレーム中の１つ以上のブロックに対する受信したビデオブロックのインター予測符号化を実行する。即ち、動き推定／視差ユニット４２は、異なる時間インスタンスの１つ以上の参照フレーム中の１つ以上のブロックに対する受信ビデオブロックのインター予測符号化、例えば、同じ視界の１つ以上の参照フレームを使用した動き推定を実行し得る。更に、動き推定／視差ユニット４２は、同じ時間インスタンスの１つ以上の参照フレーム中の１つ以上のブロックに対する受信ビデオブロックのインター予測符号化、例えば、異なる視界の１つ以上の参照フレームを使用した動き視差を実行し得る。イントラ予測ユニット４６は、空間圧縮を行うために、符号化されるべきブロックと同じフレーム又はスライス中の１つ以上の隣接ブロックに対する受信ビデオブロックのイントラ予測符号化を実行し得る。モード選択ユニット４０は、例えば、誤差結果に基づいて符号化モード、即ち、イントラ又はインターのうちの１つを選択し、残差ブロックデータを生成するために、得られたイントラ符号化ブロック又はインター符号化ブロックを加算器５０に与え、参照フレーム中で使用するための符号化ブロックを再構成するために、得られたイントラ符号化ブロック又はインター符号化ブロックを加算器６２に与え得る。

特に、ビデオエンコーダ２０は、ステレオ視界ペアを形成する２つの視界からのピクチャを受信し得る。２つの視界は視界０及び視界１と呼ばれ得、視界０は左眼視界ピクチャに対応し、視界０は右眼視界ピクチャに対応する。これらの視界は別様に標示され得、代わりに、視界１が左眼視界に対応し、視界０が右眼視界に対応し得ることを理解されたい。

一例では、ビデオエンコーダ２０は、視界０と視界１とのピクチャをハーフ解像度などの低解像度で符号化することによってベースレイヤを符号化し得る。即ち、ビデオエンコーダ２０は、ピクチャを符号化する前に視界０と視界１とのピクチャを１／２倍にダウンサンプリングし得る。ビデオエンコーダ２０は、符号化されたピクチャを更にパックフレームにパックし得る。例えば、ビデオエンコーダ２０は、視界０のピクチャと視界１のピクチャとを受信し、各々はｈ画素の高さとｗ画素の幅とを有し、但し、ｗ及びｈは非負の０でない整数であると仮定する。ビデオエンコーダ２０は、視界０のピクチャと視界１のピクチャとの高さをｈ／２画素の高さにダウンサンプリングし、ダウンサンプリングされた視界０を、ダウンサンプリングされた視界１の上方に配置することによって上下構成のパックフレームを形成し得る。別の例では、ビデオエンコーダ２０は、視界０のピクチャと視界１のピクチャとの幅をｗ／２画素の幅にダウンサンプリングし、ダウンサンプリングされた視界０を、ダウンサンプリングされた視界１の相対的な左に配置することによって並列構成のパックフレームを形成し得る。並列及び上下フレームパッキング構成は例として与えたものにすぎず、ビデオエンコーダ２０は、チェッカーボードパターン、インターリービング列、又はインターリービング行などの他の構成でベースフレームの視界０のピクチャと視界１のピクチャとをパックし得ることを理解されたい。例えば、ビデオエンコーダ２０は、Ｈ．２６４／ＡＶＣ仕様によるフレームパッキングをサポートし得る。

ベースレイヤに加えて、ビデオエンコーダ２０は、ベースレイヤ中に含まれる視界に対応する２つのエンハンスメントレイヤを符号化し得る。即ち、ビデオエンコーダ２０は、視界０のフル解像度ピクチャ、及び視界１のフル解像度ピクチャを符号化し得る。ビデオエンコーダ２０は、２つのエンハンスメントレイヤを予測するために視界間予測とレイヤ間予測とを実行し得る。

ビデオエンコーダ２０は、更に、スケーラブル多重視界ビットストリームの様々な特性を示す情報を与え得る。例えば、ビデオエンコーダ２０は、ベースレイヤのパッキング構成と、エンハンスメントレイヤのシーケンス（例えば、視界０に対応するエンハンスメントレイヤが、視界１に対応するエンハンスメントレイヤの前に来るのか後に来るのか）と、エンハンスメントレイヤが互いに予測されるかどうかと、他の情報とを示すデータを与え得る。一例として、ビデオエンコーダ２０は、一連の連続的に符号化されたフレームに適用される、シーケンスパラメータセット（ＳＰＳ）拡張の形態でこの情報を与え得る。ＳＰＳ拡張は、以下の表１の例示的なデータ構造に従って定義され得る。

ＳＰＳメッセージは、出力された復号ピクチャが、指示されたフレームパッキング構成方式を使用して複数の別個の空間的にパックされた構成フレームを含むフレームのサンプルを含んでいることをビデオデコーダ３０などのビデオデコーダに通知し得る。ＳＰＳメッセージはまた、エンハンスメントフレームの特性をビデオデコーダ３０に通知し得る。

特に、ビデオエンコーダ２０は、各構成フレームの左上ルーマサンプルが左視界に属することを示すためにupper_left_frame_0を１の値に設定し、それによってベースレイヤのどの部分が左視界又は右視界に対応するのかを示し得る。ビデオエンコーダ２０は、各構成フレームの左上ルーマサンプルが右視界に属することを示すためにupper_left_frame_0を０の値に設定し得る。

また、本開示では、特定の視界の符号化ピクチャを「視界コンポーネント」と呼ぶ。即ち、視界コンポーネントは、特定の時間における特定の視界（及び／又は特定のレイヤ）の符号化ピクチャを備え得る。従って、アクセスユニットは、共通の時間インスタンスの全ての視界コンポーネントを備えるものと定義され得る。アクセスユニットと、アクセスユニットの視界コンポーネントとの復号順序は、必ずしも出力又は表示順序と同じである必要はない。

ビデオエンコーダ２０は、各アクセスユニット中の視界コンポーネントの復号順序を指定するためにleft_view_enhance_firstを設定し得る。幾つかの例では、ビデオエンコーダ２０は、フル解像度左視界フレームが復号順序においてベースフレームＮＡＬユニットの後にき、フル解像度右視界フレームが復号順序においてフル解像度左視界フレームの後にくることを示すために、left_view_enhance_firstを１の値に設定し得る。ビデオエンコーダ２０は、フル解像度右視界フレームが復号順序においてベースフレームＮＡＬユニットの後にき、フル解像度左視界フレームが復号順序においてフル解像度右視界フレームの後にくることを示すために、left_view_enhance_firstを０の値に設定し得る。

ビデオエンコーダ２０は、フル解像度右視界フレームとフル解像度左視界フレームとの復号が独立していることを示すためにfull_left_right_dependent_flagを０の値に設定し得、これは、フル解像度左視界フレームとフル解像度右視界フレームとの復号がベース視界に依存し、互いに依存しないことを意味する。ビデオエンコーダ２０は、フル解像度フレームのうちの一方（例えば、フル解像度右視界フレーム又はフル解像度左視界フレームのいずれか）が他方のフル解像度フレームに依存することを示すためにfull_left_right_dependent_flagを１の値に設定し得る。

ビデオエンコーダ２０は、フル解像度シングル視界プレゼンテーションの動作点がないことを示すためにone_view_full_idcを０の値に設定し得る。ビデオエンコーダ２０は、復号順序において第３の視界コンポーネントを抽出した後に可能にされるフル解像度シングル視界動作点があることを示すためにone_view_full_idcを１の値に設定し得る。ビデオエンコーダ２０は、この値が１に等しいときにサポートされる動作点のほかに、復号順序において第２の視界コンポーネントを抽出した後に可能にされるフル解像度シングル視界動作点もあることを示すために、one_view_full_idcを２の値に設定し得る。

ビデオエンコーダ２０は、非対称動作点が可能にされないことを示すためにasymmetric_flagを０の値に設定し得る。ビデオエンコーダ２０は、いずれかのフル解像度シングル視界動作点が復号されるとき、フル解像度視界がベース視界中の他の視界と共に非対称表現を形成することを可能にされるという方法で、非対称動作点が可能にされることを示すために、asymmetric_flagを１の値に設定し得る。

ビデオエンコーダ２０は、ビットストリームが符号化されるとき、及びシーケンスパラメータセットがアクティブであるとき、レイヤ間予測が使用されないことを示すために、inter_layer_pred_disable_flagを１の値に設定し得る。ビデオエンコーダ２０は、レイヤ間予測が使用され得ることを示すためにinter_layer_pred_disable_flagを０の値に設定し得る。

ビデオエンコーダ２０は、ビットストリームが符号化されるとき、及びシーケンスパラメータセットがアクティブであるとき、視界間予測が使用されないことを示すために、inter_view_pred_disable_flagを１の値に設定し得る。ビデオエンコーダ２０は、視界間予測が使用され得ることを示すためにinter_view_pred_disable_flagを１の値に設定し得る。

ＳＰＳ拡張に加えて、ビデオエンコーダ２０はＶＵＩメッセージを与え得る。特に、フル解像度フレーム（例えば、エンハンスメントフレームのうちの１つ）に対応する非対称動作点について、ビデオエンコーダは、ベース視界のクロッピングエリアを指定するためにＶＵＩメッセージを適用し得る。フル解像度視界と組み合わせられたクロップエリアは非対称動作点の表現を形成する。クロップエリアは、フル解像度ピクチャが非対称パックフレーム中で低解像度ピクチャから区別され得るように記述され得る。

ビデオエンコーダ２０はまた、ベースフレームとエンハンスメントフレームとの様々な組合せのための幾つかの動作点を定義し得る。即ち、ビデオエンコーダは、動作点ＳＥＩ中で様々な動作点を信号伝達し得る。一例では、ビデオエンコーダ２０は、以下の表２に与えるＳＥＩメッセージを介して動作点を与え得る。

本開示の幾つかの態様によれば、ＳＥＩメッセージはまた、上記で説明したＳＰＳ拡張の一部であり得る。多くのビデオ符号化規格の場合と同様に、Ｈ．２６４／ＡＶＣは、誤りのないビットストリームのシンタックスと、セマンティクスと、復号プロセスとを定義し、そのいずれも特定のプロファイル又はレベルに準拠する。Ｈ．２６４／ＡＶＣはエンコーダを指定しないが、エンコーダは、生成されたビットストリームがデコーダの規格に準拠することを保証することを課される。ビデオ符号化規格のコンテキストでは、「プロファイル」は、アルゴリズム、機能、又はツール、及びそれらに適用される制約のサブセットに対応する。例えば、Ｈ．２６４規格によって定義される「プロファイル」は、Ｈ．２６４規格によって指定されたビットストリームシンタックス全体のサブセットである。「レベル」は、例えば、ピクチャの解像度、ビットレート、及びマクロブロック（ＭＢ）処理レートに関係するデコーダメモリ及び計算など、デコーダリソース消費の制限に対応する。プロファイルはprofile_idc（プロファイルインジケータ）値で信号伝達され得、レベルはlevel_idc（レベルインジケータ）値で信号伝達され得る。

表２の例示的なＳＥＩメッセージはビデオデータの表現の動作点を記述している。max_temporal_id要素は、概して、表現の動作点の最大フレームレートに対応する。ＳＥＩメッセージはまた、動作点の各々についてのビットストリーム及びレベルのプロファイルの指示を与える。但し、動作点のlevel_idcは変動し得、動作点は、temporal_idがindex_jに等しく、layer idがindex_iに等しい、前に信号伝達された動作点と同じであり得る。ＳＥＩメッセージは、更に、average_frame_rate要素を使用してtemporal_id値の各々のための平均フレームレートを記述する。この例では表現の動作点の特性を信号伝達するために動作点ＳＥＩメッセージが使用されるが、他の例では、動作点の同様の特性を信号伝達するために他のデータ構造又は技法が使用され得ることを理解されたい。例えば、信号伝達は、シーケンスパラメータセット多重視界フレーム互換（ＭＦＣ）拡張の一部を形成し得る。

ビデオエンコーダ２０はまた、ＮＡＬユニットヘッダ拡張を生成し得る。本開示の態様によれば、ビデオエンコーダ２０は、パックベースフレームのためのＮＡＬユニットヘッダと、エンハンスメントフレームのための別個のＮＡＬユニットヘッダとを生成し得る。幾つかの例では、ベースレイヤＮＡＬユニットヘッダは、エンハンスメントレイヤの視界がベースレイヤＮＡＬユニットから予測されることを示すために使用され得る。エンハンスメントレイヤＮＡＬユニットヘッダは、ＮＡＬユニットが第２の視界に属するかどうかを示し、その第２の視界が左視界であるかどうかを導出するために使用され得る。その上、エンハンスメントレイヤＮＡＬユニットヘッダは、他のフル解像度エンハンスメントフレームの視界間予測のために使用され得る。

一例では、ベースフレームのＮＡＬユニットヘッダは以下の表３に従って定義され得る。

ビデオエンコーダ２０は、現在のＮＡＬユニットがアンカーアクセスユニットに属することを指定するためにanchor_pic_flagを１の値に設定し得る。一例では、non_idr_flag値が０に等しいとき、ビデオエンコーダ２０はanchor_pic_flagを１の値に設定し得る。別の例では、nal_ref_idc値が０に等しいとき、ビデオエンコーダ２０はanchor_pic_flagを０の値に設定し得る。本開示の幾つかの態様によれば、anchor_pic_flagの値は、アクセスユニットの全てのＶＣＬＮＡＬユニットについて同じであり得る。

ビデオエンコーダ２０は、現在の視界コンポーネント（例えば、現在のレイヤ）のフレーム０コンポーネント（例えば、左視界）が、現在のアクセスユニット中の他の視界コンポーネント（例えば、他のレイヤ）によって視界間予測のために使用されないことを指定するために、inter_view_frame_0_flagを０の値に設定し得る。ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム０コンポーネント（例えば、左視界）が、現在のアクセスユニット中の他の視界コンポーネントによって視界間予測のために使用され得ることを指定するために、inter_view_frame_0_flagを１の値に設定し得る。

ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム１部分（例えば、右視界）が、現在のアクセスユニット中の他の視界コンポーネントによって視界間予測のために使用されないことを指定するために、inter_view_frame_1_flagを０の値に設定し得る。ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム１部分が、現在のアクセスユニット中の他の視界コンポーネントによって視界間予測のために使用され得ることを指定するために、inter_view_frame_1_flagを１の値に設定し得る。

ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム０部分（例えば、左視界）が、現在のアクセスユニット中の他の視界コンポーネントによってレイヤ間予測のために使用されないことを指定するために、inter_layer_frame_0_flagを０の値に設定し得る。ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム０部分が、現在のアクセスユニット中の他の視界コンポーネントによってレイヤ間予測のために使用され得ることを指定するために、inter_view_frame_0_flagを１の値に設定し得る。

ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム１部分（例えば、左視界）が、現在のアクセスユニット中の他の視界コンポーネントによってレイヤ間予測のために使用されないことを指定するために、inter_layer_frame_1_flagを０の値に設定し得る。ビデオエンコーダ２０は、現在の視界コンポーネントのフレーム１部分が、現在のアクセスユニット中の他の視界コンポーネントによってレイヤ間予測のために使用され得ることを指定するために、inter_view_frame_1_flagを１の値に設定し得る。

別の例では、inter_view_frame_0_flagとinter_view_frame_1_flagとが１つのフラグに組み合わせられ得る。例えば、ビデオエンコーダ２０は、フレーム０部分又はフレーム１部分が視界間予測のために使用され得る場合、inter_view_flag、即ち、上記で説明したinter_view_frame_0_flagとinter_view_frame_1_flagとの組合せを表すフラグを１の値に設定し得る。

別の例では、inter_layer_frame_0_flagとinter_layer_frame_1_flagとが１つのフラグに組み合わせられ得る。例えば、ビデオエンコーダ２０は、フレーム０部分又はフレーム１部分がレイヤ間予測のために使用され得る場合、inter_layer_flag、即ち、inter_layer_frame_0_flagとinter_layer_frame_1_flagとの組合せを表すフラグを１の値に設定し得る。

別の例では、inter_view_frame_0_flagとinter_layer_frame_0_flagとが１つのフラグに組み合わせられ得る。例えば、ビデオエンコーダ２０は、フレーム０部分が他の視界コンポーネントの予測のために使用され得る場合、inter_component_frame_0_flag、即ち、inter_view_frame_0_flagとinter_layer_frame_0_flagとの組合せを表すフラグを１の値に設定し得る。

別の例では、inter_view_frame_1_flagとinter_layer_frame_1_flagとが１つのフラグに組み合わせられ得る。例えば、ビデオエンコーダ２０は、フレーム１部分が他の視界コンポーネントの予測のために使用され得る場合、inter_component_frame_1_flag、即ち、inter_view_frame_1_flagとinter_layer_frame_1_flagとの組合せを表すフラグを１の値に設定し得る。

別の例では、inter_view_flagとinter_layer_flagとが１つのフラグに組み合わせられ得る。例えば、ビデオエンコーダ２０は、フレーム０部分又はフレーム１部分が視界間予測又はレイヤ間予測のために使用され得る場合、inter_component_flag、即ち、inter_view_flagとinter_layer_flagとの組合せを表すフラグを１の値に設定し得る。

ビデオエンコーダ２０は、帰属視界コンポーネントが第２の視界であるのか第３の視界であるのかを示すためのsecond_view_flagを設定し得、但し、「帰属視界コンポーネント」は、第２の視界フラグがそれに対応する視界コンポーネントを指す。例えば、ビデオエンコーダ２０は、帰属視界コンポーネントが第２の視界であることを指定するためにsecond_view_flagを１の値に設定し得る。ビデオエンコーダ２０は、帰属視界コンポーネントが第３の視界であることを指定するためにsecond_view_flagを０の値に設定し得る。

ビデオエンコーダ２０は、ＮＡＬユニットの時間識別子を指定するためのtemporal_idを設定し得る。temporal_idへの値の割当ては、サブビットストリーム抽出プロセスによって制約され得る。幾つかの例によれば、temporal_idの値は、アクセスユニットの全てのプレフィックスＮＡＬユニットと、ＭＦＣ拡張ＮＡＬユニット中の符号化スライスとについて同じである。アクセスユニットが、nal_unit_typeが５に等しいか又はidr_flagが１に等しいＮＡＬユニットを含んでいるとき、temporal_idは０に等しくなり得る。

一例では、フル解像度エンハンスメントフレームのＮＡＬユニットヘッダは以下の表４に従って定義され得る。

表４の例示的なＮＡＬユニットヘッダは、ヘッダがそれに対応するＮＡＬユニットを記述し得る。non-idr-flagは、ＮＡＬユニットが瞬時復号リフレッシュ（ＩＤＲ：instantaneous decoding refresh）ピクチャであるかどうかを記述し得る。ＩＤＲピクチャは、概して、独立して復号され得るピクチャのグループ（ＧＯＰ）のピクチャ（例えば、イントラ符号化ピクチャ）であり、ピクチャのグループ中の全ての他のピクチャは、ＩＤＲピクチャ又はＧＯＰの他のピクチャに対して復号され得る。従って、ＧＯＰのピクチャは、ＧＯＰの外部のピクチャに対して予測されない。anchor_pic_flagは、対応するＮＡＬユニットが、アンカーピクチャ、即ち、全てのスライスが同じアクセスユニット内のスライスのみを参照する（即ち、インター予測が使用されない）符号化ピクチャに対応するかどうかを示す。inter_view_flagは、ＮＡＬユニットに対応するピクチャが、現在のアクセスユニット中の他の視界コンポーネントによって視界間予測のために使用されるかどうかを示す。second_view_flagは、ＮＡＬユニットに対応する視界コンポーネントが第１のエンハンスメントレイヤであるのか第２のエンハンスメントレイヤであるのかを示す。temporal_id値は、ＮＡＬユニットの（フレームレートに対応し得る）時間識別子を指定する。

モード選択ユニット４０は、視界０のピクチャから、及び視界０のピクチャに時間的に対応する視界１のピクチャからブロックの形態で未加工ビデオデータを受信し得る。即ち、視界０のピクチャと視界１のピクチャとは、実質的に同時に撮影されていることがある。本開示の幾つかの態様によれば、視界０のピクチャと視界１のピクチャとはダウンサンプリングされ得、ビデオエンコーダはダウンサンプリングされたピクチャを符号化し得る。例えば、ビデオエンコーダ２０は、パックフレーム中の視界０のピクチャと視界１のピクチャとを符号化し得る。ビデオエンコーダ２０はまた、フル解像度エンハンスメントフレームを符号化し得る。即ち、ビデオエンコーダ２０は、フル解像度の視界０のピクチャを含むエンハンスメントフレームと、フル解像度の視界１のピクチャを含むエンハンスメントフレームとを符号化し得る。ビデオエンコーダ２０は、エンハンスメントフレームのレイヤ間予測と視界間予測とを可能にするために視界０のピクチャと視界１のピクチャとの復号バージョンを参照フレーム記憶部６４に記憶し得る。

動き推定／視差ユニット４２と動き補償ユニット４４とは、高度に統合され得るが、概念的な目的のために別々に示してある。動き推定は、ビデオブロックの動きを推定する動きベクトルを生成するプロセスである。動きベクトルは、例えば、現在のフレーム（又は他の符号化ユニット）内で符号化されている現在のブロックに対する予測参照フレーム（又は他の符号化ユニット）内の予測ブロックの変位を示し得る。予測ブロックは、絶対値差分和（ＳＡＤ：sum of absolute difference）、２乗差分和（ＳＳＤ：sum of square difference）、又は他の差分メトリックによって決定され得る画素差分に関して、符号化されるべきブロックにぴったり一致することがわかるブロックである。動きベクトルはまた、マクロブロックのパーティションの変位を示し得る。動き補償は、動き推定／視差ユニット４２によって決定された動きベクトル（又は変位ベクトル）に基づいて予測ブロックをフェッチ又は生成することに関与し得る。この場合も、幾つかの例では、動き推定／視差ユニット４２と動き補償ユニット４４とは機能的に統合され得る。

動き推定／視差ユニット４２は、ビデオブロックを参照フレーム記憶部６４中の参照フレームのビデオブロックと比較することによってインター符号化ピクチャのビデオブロックの動きベクトル（又は視差ベクトル）を計算し得る。動き補償ユニット４４はまた、参照フレーム、例えば、Ｉフレーム又はＰフレームのサブ整数画素を補間し得る。ＩＴＵ−ＴＨ．２６４規格では、参照フレームの「リスト」、例えば、リスト０及びリスト１に言及する。リスト０は、現在のピクチャよりも前の表示順序を有する参照フレームを含むが、リスト１は、現在のピクチャよりも後の表示順序を有する参照フレームを含む。動き推定／視差ユニット４２は、参照フレーム記憶部６４からの１つ以上の参照フレームのブロックを現在のピクチャ、例えば、Ｐピクチャ又はＢピクチャの符号化されるべきブロックと比較する。参照フレーム記憶部６４中の参照フレームがサブ整数画素の値を含むとき、動き推定／視差ユニット４２によって計算される動きベクトルは参照フレームのサブ整数画素ロケーションを参照し得る。動き推定／視差ユニット４２は、計算された動きベクトルをエントロピー符号化ユニット５６と動き補償ユニット４４とに送る。動きベクトルによって識別される参照フレームブロックは予測ブロックと呼ばれることがある。動き補償ユニット４４は、参照フレームの予測ブロックの残差誤差値を計算する。

動き推定／視差ユニット４２はまた、視界間予測を実行するように構成され得、その場合、動き推定／視差ユニット４２は、ある視界のピクチャ（例えば、視界０）のブロックと、参照フレーム視界ピクチャ（例えば、視界１）の対応するブロックとの間の変位ベクトルを計算し得る。代替又は追加として、動き推定／視差ユニット４２はレイヤ間予測を実行するように構成され得る。即ち、動き推定／視差ユニット４２は、動きベースのレイヤ間予測を実行するように構成され得、その場合、動き推定／視差ユニット４２は、ベースフレームに関連するスケーリングされた動きベクトルに基づいて予測子を計算し得る。

上記で説明したように、イントラ予測ユニット４６は、空間圧縮を行うために、符号化されるべきブロックと同じフレーム又はスライス中の１つ以上の隣接ブロックに対して受信ビデオブロックのイントラ予測符号化を実行し得る。幾つかの例によれば、イントラ予測ユニット４６は、エンハンスメントフレームのレイヤ間予測を実行するように構成され得る。即ち、イントラ予測ユニット４６は、テクスチャベースのレイヤ間予測を実行するように構成され得、その場合、イントラ予測ユニット４６は、ベースフレームをアップサンプリングし、ベースフレームとエンハンスメントフレームとの中のコロケートテクスチャに基づいて予測子を計算し得る。幾つかの例では、レイヤ間テクスチャベース予測は、制約付きイントラモードとして符号化された対応するベースフレーム中のコロケートブロックを有するエンハンスメントフレームのブロックのためにのみ利用可能である。例えば、制約付きイントラモードブロックは、インター符号化された隣接ブロックからのサンプルを参照することなしにイントラ符号化される。

本開示の態様によれば、レイヤの各々、例えば、ベースレイヤ、第１のエンハンスメントレイヤ、及び第２のエンハンスメントレイヤは、独立して符号化され得る。例えば、ビデオエンコーダ２０が、（１）視界０（例えば、左眼視界）と視界１（例えば、右眼視界）との低解像度ピクチャをもつベースレイヤ、（２）視界０のフル解像度ピクチャをもつ第１のエンハンスメントレイヤ、及び（３）視界１のフル解像度ピクチャをもつ第２のエンハンスメントレイヤという、３つのレイヤを符号化すると仮定する。この例では、ビデオエンコーダ２０は、（例えば、モード選択ユニット４０を介して）レイヤごとに異なる符号化モードを実装し得る。

この例では、動き推定／視差ユニット４２と動き補償ユニット４４とは、ベースレイヤの２つの低解像度ピクチャをインター符号化するように構成され得る。即ち、動き推定／視差ユニット４２が、ビデオブロックを参照フレーム記憶部６４中の参照フレームのビデオブロックと比較することによってベースフレームのピクチャのビデオブロックの動きベクトルを計算し得る間、動き補償ユニット４４は参照フレームの予測ブロックの残差誤差値を計算し得る。代替又は追加として、イントラ予測ユニット４６がベースレイヤの２つの低解像度ピクチャをイントラ符号化し得る。

ビデオエンコーダ２０はまた、エンハンスメントレイヤの各々、即ち、（例えば、視界０に対応する）第１のエンハンスメントレイヤと、（例えば、視界１に対応する）第２のエンハンスメントレイヤとをイントラ予測、インター予測、レイヤ間予測、又は視界間予測するように、動き推定／視差ユニット４２と、動き補償ユニット４４と、イントラ予測ユニット４６とを実装し得る。例えば、イントラ予測モードとインター予測モードとに加えて、ビデオエンコーダ２０は、第１のエンハンスメントレイヤのフル解像度ピクチャをレイヤ間予測するためにベースレイヤの視界０の低解像度ピクチャを利用し得る。代替的に、ビデオエンコーダ２０は、第１のエンハンスメントレイヤのフル解像度ピクチャを視界間予測するためにベースレイヤの視界１の低解像度ピクチャを利用し得る。本開示の幾つかの態様によれば、ベースレイヤの低解像度ピクチャは、レイヤ間又は視界間予測方法を用いてエンハンスメントレイヤを予測する前にアップサンプリングされるか又は場合によっては再構成され得る。

レイヤ間予測を使用して第１のエンハンスメントレイヤを予測するとき、ビデオエンコーダ２０はテクスチャ予測方法又は動き予測方法を使用し得る。第１のエンハンスメントレイヤを予測するためにテクスチャベースのレイヤ間予測を使用するとき、ビデオエンコーダ２０は、ベースレイヤの視界０のピクチャをフル解像度にアップサンプリングし得、ビデオエンコーダ２０は、ベースレイヤの視界０のピクチャのコロケートテクスチャを第１のエンハンスメントレイヤのピクチャの予測子として使用し得る。ビデオエンコーダ２０は、適応フィルタを含む様々なフィルタを使用してベースレイヤの視界０のピクチャをアップサンプリングし得る。ビデオエンコーダ２０は、動き補償残差に関して上記で説明したのと同じ方法を使用して残差（例えば、予測子と、ベースレイヤの視界０のピクチャ中の元のテクスチャとの間の残差）を符号化し得る。（例えば、図１に示すビデオデコーダ３０などの）デコーダにおいて、デコーダ３０は、予測子と残差値とを使用して画素値を再構成し得る。

ベースレイヤの対応する低解像度ピクチャから第１のエンハンスメントレイヤを予測するために動きベースのレイヤ間予測を使用するとき、ビデオエンコーダ２０は、ベースレイヤの視界０のピクチャに関連する動きベクトルをスケーリングし得る。例えば、視界０のピクチャと視界１のピクチャとがベースレイヤ中で並列にパックされる構成では、ビデオエンコーダ２０は、低解像度ベースレイヤとフル解像度エンハンスメントレイヤとの間の差を補償するために、水平方向にベースレイヤの視界０の予測されたピクチャに関連する動きベクトルをスケーリングし得る。幾つかの例では、ビデオエンコーダ２０は、低解像度ベースレイヤに関連する動きベクトルと、フル解像度エンハンスメントレイヤに関連する動きベクトルとの間の差を説明する、動きベクトル差（ＭＶＤ：motion vector difference）値を信号伝達することによって、ベースレイヤの視界０のピクチャに関連する動きベクトルを更に改善し得る。

別の例では、ビデオエンコーダ２０は、Ｈ．２６４／ＡＶＣへのジョイント多重視界ビデオモデル（「ＪＭＶＭ」）拡張において定義されている、動きスキップ技法を使用してレイヤ間動き予測を実行し得る。ＪＭＶＭ拡張については、例えば、ＪＶＴ−Ｕ２０７、２１^st ＪＶＴｍｅｅｔｉｎｇ、Ｈａｎｇｚｈｏｕ、Ｃｈｉｎａ、２００６年１０月２０〜２７日において説明されており、これは、http://ftp3.itu.int/av-arch/jvt-site/2006_10_Hangzhou/JVT-U207.zipにおいて入手可能である。動きスキップ技法により、ビデオエンコーダ２０は、同じ時間インスタンス中であるが所与の視差だけ別の視界のピクチャからの動きベクトルを再利用することが可能になり得る。幾つかの例では、視差値は、広域的に信号伝達され、動きスキップ技法を使用する各ブロック又はスライスに局所的に展開され得る。幾つかの態様によれば、エンハンスメントレイヤを予測するために使用されるベースレイヤの一部分がコロケートされるので、ビデオエンコーダ２０は視差値を０に設定し得る。

視界間予測を使用して第１のエンハンスメントレイヤのフレームを予測するとき、ビデオエンコーダ２０は、インター符号化と同様に、エンハンスメントレイヤフレームのブロックと、参照フレームの対応するブロック（例えば、ベースフレームの視界１のピクチャ）との間の変位ベクトルを計算するために動き推定／視差ユニット４２を利用し得る。幾つかの例では、ビデオエンコーダ２０は、第１のエンハンスメントレイヤを予測する前にベースフレームの視界１のピクチャをアップサンプリングし得る。即ち、ビデオエンコーダ２０は、ベースレイヤの視界１コンポーネントのピクチャをアップサンプリングし、アップサンプリングされたピクチャが予測目的のために利用され得るようにそれらを参照フレーム記憶部６４に記憶し得る。幾つかの例によれば、ビデオエンコーダ２０は、ベースフレームの参照ブロック又はブロックパーティションがインター符号化されたとき、ブロック又はブロックパーティションを符号化するために視界間予測のみを使用し得る。

本開示の幾つかの態様によれば、ビデオエンコーダ２０は、（例えば、視界１に対応する）第２のエンハンスメントレイヤを、第１のエンハンスメントレイヤと同様に又は同じように符号化し得る。即ち、ビデオエンコーダ２０は、レイヤ間予測を使用して第２のエンハンスメントレイヤ（例えば、視界１のフル解像度ピクチャ）を予測するためにベースレイヤの視界１の低解像度ピクチャを利用し得る。ビデオエンコーダ２０はまた、視界間予測を使用して第２のエンハンスメントレイヤを予測するためにベースレイヤの視界０の低解像度ピクチャを利用し得る。この例によれば、エンハンスメントレイヤ、即ち、第１のエンハンスメントレイヤと第２のエンハンスメントレイヤとは互いに依存しない。そうではなく、第２のエンハンスメントレイヤは、予測目的のためにベースレイヤのみを使用する。

追加又は代替として、ビデオエンコーダ２０は、予測目的のために第１のエンハンスメントレイヤ（例えば、視界０のフル解像度ピクチャ）を使用して第２のエンハンスメントレイヤ（例えば、視界１のフル解像度ピクチャ）を符号化し得る。即ち、第１のエンハンスメントレイヤは、視界間予測を使用して第２のエンハンスメントレイヤを予測するために使用され得る。例えば、第１のエンハンスメントレイヤからの視界０のフル解像度ピクチャは、第２のエンハンスメントレイヤを符号化するときにそれらが予測目的のために利用され得るように、参照フレーム記憶部６４に記憶され得る。

変換ユニット５２は、離散コサイン変換（ＤＣＴ）、整数変換、又は概念的に同様の変換などの変換を残差ブロックに適用し、残差変換係数値を備えるビデオブロックを生成する。変換ユニット５２は、概念的にＤＣＴと同様である、Ｈ．２６４規格によって定義される変換など、他の変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換又は他のタイプの変換も使用され得る。いずれの場合も、変換ユニット５２は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換ユニット５２は、残差情報を画素値領域から周波数領域などの変換領域に変換し得る。量子化ユニット５４は、ビットレートを更に低減するために残差変換係数を量子化する。量子化プロセスは、係数の一部又は全部に関連するビット深度を低減し得る。量子化の程度は、量子化パラメータを調整することによって修正され得る。

量子化の後、エントロピー符号化ユニット５６が量子化変換係数をエントロピー符号化する。例えば、エントロピー符号化ユニット５６は、コンテンツ適応型可変長符号化（ＣＡＶＬＣ）、コンテキスト適応型バイナリ算術符号化（ＣＡＢＡＣ）、又は別のエントロピー符号化技法を実行し得る。エントロピー符号化ユニット５６によるエントロピー符号化の後、符号化されたビデオは、別の機器に送信されるか、あるいは後で送信又は取り出すためにアーカイブされ得る。コンテキスト適応型バイナリ算術符号化（ＣＡＢＡＣ）の場合、コンテキストは隣接マクロブロックに基づき得る。

場合によっては、エントロピー符号化ユニット５６又はビデオエンコーダ２０の別のユニットは、エントロピー符号化に加えて他の符号化機能を実行するように構成され得る。例えば、エントロピー符号化ユニット５６はマクロブロック及びパーティションのＣＢＰ値を決定するように構成され得る。また、場合によっては、エントロピー符号化ユニット５６は、マクロブロック又はそれのパーティション中の係数のランレングス符号化を実行し得る。特に、エントロピー符号化ユニット５６は、マクロブロック又はパーティション中の変換係数をスキャンするためにジグザグスキャン又は他のスキャンパターンを適用し、さらなる圧縮のためにゼロのランを符号化し得る。エントロピー符号化ユニット５６はまた、符号化されたビデオビットストリーム中での送信のために適切なシンタックス要素を用いてヘッダ情報を構成し得る。

逆量子化ユニット５８及び逆変換ユニット６０は、それぞれ逆量子化及び逆変換を適用して、例えば、参照ブロックとして後で使用するために、画素領域中で残差ブロックを再構成する。動き補償ユニット４４は、残差ブロックを参照フレーム記憶部６４のフレームのうちの１つの予測ブロックに加算することによって参照ブロックを計算し得る。動き補償ユニット４４はまた、再構成された残差ブロックに１つ以上の補間フィルタを適用して、動き推定において使用するサブ整数画素値を計算し得る。加算器６２は、再構成された残差ブロックを、動き補償ユニット４４によって生成された動き補償予測ブロックに加算して、参照フレーム記憶部６４に記憶するための再構成されたビデオブロックを生成する。再構成されたビデオブロックは、後続のビデオフレーム中のブロックをインター符号化するために動き推定／視差ユニット４２及び動き補償ユニット４４によって参照ブロックとして使用され得る。

上記で説明したように、インター予測と視界間予測とを可能にするために、ビデオエンコーダ２０は１つ以上の参照リストを維持し得る。例えば、ＩＴＵ−ＴＨ．２６４規格では、参照フレームの「リスト」、例えば、リスト０及びリスト１に言及する。本開示の態様は、インター予測と視界間予測とのために参照ピクチャのフレキシブルな順序を与える参照ピクチャリストを構成することに関係する。本開示の幾つかの態様によれば、ビデオエンコーダ２０は、Ｈ．２６４／ＡＶＣ仕様に記載されている参照ピクチャリストの修正バージョンに従って参照ピクチャリストを構成し得る。例えば、ビデオエンコーダ２０は、インター予測目的のために参照ピクチャを維持する、Ｈ．２６４／ＡＶＣ仕様に記載されている参照ピクチャリストを初期化し得る。本開示の態様によれば、次いで、リストに視界間参照ピクチャが付加される。

非ベースレイヤコンポーネント（例えば、第１又は第２のエンハンスメントレイヤ）を符号化するとき、ビデオエンコーダ２０はただ１つの視界間参照を利用可能にし得る。例えば、第１のエンハンスメントレイヤを符号化するとき、視界間参照ピクチャは、同じアクセスユニット内のベースレイヤのアップサンプリングされた対応するピクチャであり得る。この例では、full_left_right_dependent_flagは１に等しくなり得、depViewIDは０に設定され得る。第２のエンハンスメントレイヤを符号化するとき、視界間参照ピクチャは、同じアクセスユニット内のベースレイヤのアップサンプリングされた対応するピクチャであり得る。この例では、full_left_right_dependent_flagは０に等しくなり得、depViewIDは０に設定され得る。代替的に、視界間参照ピクチャは、同じアクセスユニット中のフル解像度の第１のエンハンスメントレイヤであり得る。従って、full_left_right_dependent_flagは０に等しくなり得、depViewIDは１に設定され得る。クライアント機器は、この情報を使用して、エンハンスメントレイヤを正常に復号するために何のデータを取り出す必要があるかを決定し得る。

参照ピクチャリストは、参照ピクチャの順序をフレキシブルに構成するように修正され得る。例えば、ビデオエンコーダ２０は以下の表５に従って参照ピクチャリストを構成し得る。

表５の例示的な参照ピクチャリスト修正は参照ピクチャリストを記述し得る。例えば、abs_diff_pic_num_minus1、long_term_pic_num、又はabs_diff_view_idx_minus1と共にmodification_of_pic_nums_idcは、参照ピクチャ又は視界間専用参照コンポーネントのどれがリマッピングされるかを指定し得る。視界間予測のために、視界間参照ピクチャと現在のピクチャとは、デフォルトで、ステレオコンテンツの２つの対向する視界に属し得る。幾つかの例では、視界間参照ピクチャは、ベースレイヤの一部である復号ピクチャに対応し得る。従って、復号ピクチャが視界間予測のために使用される前にアップサンプリングが必要とされ得る。ベースレイヤの低解像度ピクチャは、適応フィルタ、ならびにＡＶＣ６タップ補間フィルタ［１，−５，２０，２０，−５，１］／３２を含む、様々なフィルタを使用してアップサンプリングされ得る。

別の例では、視界間予測のために、視界間参照ピクチャは、現在のピクチャと同じ視界（例えば、同じアクセスユニット中の異なる復号解像度）と、異なる視界とに対応し得る。その場合、（以下の）表６に示すように、現在のピクチャと視界間予測ピクチャとが同じ視界に対応するかどうかを示すためのcollocated_flagが導入される。collocated_flagが１に等しい場合、視界間参照ピクチャと現在のピクチャとは両方とも同じ視界の表現であり得る（例えば、レイヤ間テクスチャ予測と同様に、左視界又は右視界）。collocated_flagが０に等しい場合、視界間参照ピクチャと現在のピクチャとは、異なる視界の表現であり得る（例えば、１つの左視界ピクチャ及び１つの右視界ピクチャ）。

本開示の幾つかの態様によれば、modification_of_pic_nums_idcの値は（以下の）表７中に指定される。幾つかの例では、ref_pic_list_modification_flag_l0又はref_pic_list_modification_flag_l1の直後にくる第１のmodification_of_pic_nums_idcの値は３に等しくならないことがある。

本開示の態様によれば、abs_diff_view_idx_minus1＋１が、参照ピクチャリスト中の現在のインデックスに入れるべき視界間参照インデックスと、視界間参照インデックスの予測値との間の絶対差を指定し得る。上記の表６及び表７において提示したシンタックスの復号プロセス中に、modification_of_pic_nums_idc（表７）が６に等しいとき、視界間参照ピクチャは、現在の参照ピクチャリストの現在のインデックス位置中に入れられることになる。

短期ピクチャ数picNumLXをもつピクチャをインデックス位置refIdxLX中に配置し、他の残りのピクチャの位置をリスト中の後のほうにシフトし、refIdxLXの値を増分するための以下のプロシージャが行われる。

但し、viewID( )は各視界コンポーネントのview_idに戻る。参照ピクチャがベースレイヤからのピクチャのアップサンプリングされたバージョンであるとき、viewID( )は、ベースレイヤの同じview_idに戻り得、それは０である。参照ピクチャがベースレイヤに属しない（例えば、参照ピクチャが第１のエンハンスメントレイヤである）とき、viewID( )は、適切な視界のview_idに戻り得、それは１（第１のエンハンスメントレイヤ）又は２（第２のエンハンスメントレイヤ）であり得る。

ビデオエンコーダ２０はまた、符号化ビデオデータと共に、特定のシンタックス、例えば、符号化ビデオデータを適切に復号するためにデコーダ（デコーダ３０、図１）によって使用される情報を与え得る。本開示の幾つかの態様によれば、レイヤ間予測を可能にするために、ビデオエンコーダ２０は、（１）スライス中でブロックがレイヤ間テクスチャ予測されないこと、（２）スライス中で全てのブロックがレイヤ間テクスチャ予測されること、又は（３）スライス中で幾つかのブロックはレイヤ間テクスチャ予測され得、幾つかのブロックはレイヤ間テクスチャ予測され得ないことを示すためのシンタックス要素をスライスヘッダ中に与え得る。更に、ビデオエンコーダ２０は、（１）スライス中でブロックがレイヤ間動き予測されないこと、（２）スライス中で全てのブロックがレイヤ間動き予測されること、又は（３）スライス中で幾つかのブロックはレイヤ間動き予測され得、幾つかのブロックはレイヤ間動き予測され得ないことを示すためのシンタックス要素をスライスヘッダ中に与え得る。

更に、レイヤ間予測を可能にするために、ビデオエンコーダ２０は、あるシンタックスデータをブロックレベルで与え得る。例えば、本開示の態様は、mb_base_texture_flagと称するシンタックス要素を含む。このフラグは、レイヤ間テクスチャ予測がブロック全体（例えば、マクロブロック全体）のために呼び出されるかどうかを示すために使用され得る。ビデオエンコーダ２０は、対応するベースレイヤ中の再構成された画素が、レイヤ間テクスチャ予測を使用して現在のブロックを再構成するための参照として使用されることを信号伝達するために、mb_base_texture_flagを１に等しく設定し得る。更に、ビデオエンコーダは、残差符号化のためのもの（即ち、ＣＢＰ、８×８変換フラグ、及び係数）を除いて、現在のブロック中の他のシンタックス要素の符号化がスキップされることを信号伝達するために、mb_base_texture_flagを１に等しく設定し得る。ビデオエンコーダ２０は、標準ブロック符号化が適用されることを信号伝達するためにmb_base_texture_flagを０に等しく設定し得る。ブロックが標準イントラブロックである場合、符号化プロセスは、Ｈ．２６４／ＡＶＣ仕様に記載されている標準イントラブロック符号化と同じである。

レイヤ間予測を可能にするために、ビデオエンコーダ２０は、他のシンタックスデータをブロックレベルで与え得る。例えば、本開示の態様は、ビデオエンコーダ２０がパーティションmbPartIdxを符号化するためにレイヤ間予測を使用するかどうかを示すために符号化される、mbPart_texture_prediction_flag[mbPartIdx]と称するシンタックス要素を含む。このフラグは、インター１６×１６、８×１６、１６×８、及び８×８のパーティションタイプをもつブロックに適用され得るが、概して８×８を下回らない。ビデオエンコーダ２０は、対応するパーティションにレイヤ間テクスチャ予測が適用されることを示すためにmbPart_texture_prediction_flagを１に等しく設定し得る。ビデオエンコーダ２０は、motion_prediction_flag_l0/1[mbPartIdx]と呼ばれるフラグが符号化されることを示すために、mbPart_texture_prediction_flagを０に等しく設定し得る。ビデオエンコーダ２０は、パーティションmbPartIdxの動きベクトルが、ベースレイヤ中の対応するパーティションの動きベクトルを使用して予測され得ることを示すために、motion_prediction_flag_l0/1を１に等しく設定し得る。ビデオエンコーダ２０は、動きベクトルが、Ｈ．２６４／ＡＶＣ仕様における方法と同じ方法で再構成されることを示すために、motion_prediction_flag_l0/1を０に等しく設定し得る。

以下に示す表８はブロックレベルシンタックス要素を含む。

表８に示す例では、ビデオエンコーダ２０は、レイヤ間テクスチャ予測がマクロブロック全体に適用されることを示すためにmb_base_texture_flagを１に等しく設定し得る。更に、ビデオエンコーダ２０は、シンタックス要素mb_typeと、他の関係するシンタックス要素とが、「多重視界フレーム互換」ＭＦＣ構造におけるマクロブロック中に存在することを示すために、mb_base_texture_flagを０に等しく設定し得る。

以下に示す表９もブロックレベルシンタックス要素を含む。

表８に示した例では、ビデオエンコーダ２０は、レイヤ間テクスチャ予測が、対応するパーティションmbPartIdxのために呼び出されることを示すために、mbPart_texture_prediction_flag[ mbPartIdx ]を１に等しく設定し得る。ビデオエンコーダ２０は、レイヤ間テクスチャ予測がパーティションmbPartIdxのために呼び出されないことを示すためにmbPart_texture_prediction_flagを０に等しく設定し得る。更に、ビデオエンコーダ２０は、参照としてベースレイヤの動きベクトルを使用する代替動きベクトル予測プロセスが、マクロブロックパーティションmbPartIdxのリスト１／０動きベクトルを導出するために使用されることと、マクロブロックパーティションmbPartIdxのリスト１／０参照インデックスがベースレイヤから推測されることとを示すために、motion_prediction_flag_l1/0[mbPartIdx]を１に等しく設定し得る。

以下に示す表１０もサブブロックレベルシンタックス要素を含む。

表１０に示した例では、ビデオエンコーダ２０は、レイヤ間テクスチャ予測が、対応するパーティションmbPartIdxのために呼び出されることを示すために、mbPart_texture_prediction_flag[ mbPartIdx ]を１に等しく設定し得る。ビデオエンコーダ２０は、レイヤ間テクスチャ予測がパーティションmbPartIdxのために呼び出されないことを示すためにmbPart_texture_prediction_flagを０に等しく設定し得る。

ビデオエンコーダ２０は、参照としてベースレイヤの動きベクトルを使用する代替動きベクトル予測プロセスが、マクロブロックパーティションmbPartIdxのリスト１／０動きベクトルを導出するために使用されることと、マクロブロックパーティションmbPartIdxのリスト１／０参照インデックスがベースレイヤから推測されることとを示すために、motion_prediction_flag_l1/0[mbPartIdx]を１に等しく設定し得る。

ビデオエンコーダ２０は、インターレイヤ動き予測がマクロブロックパーティションmbPartIdxのために使用されないことを示すためにmotion_prediction_flag_l1/0[mbPartIdx]フラグを設定しないことがある（例えば、フラグが存在しない）。

本開示の幾つかの態様によれば、ビデオエンコーダ２０は、mb_base_texture_flagとmbPart_texture_prediction_flagとmotion_prediction_flag_l1/0とをスライスヘッダレベルで有効化又は無効化し得る。例えば、スライス中の全てのブロックが同じ特性を有するとき、これらの特性をブロックレベルではなくスライスレベルで信号伝達することにより、相対的なビット節約が与えられ得る。

このように、図２Ａは、あるシーンの２つの視界（例えば、左眼視界及び右眼視界）に対応する２つの低解像度ピクチャを含むベースレイヤ、ならびに２つの追加のエンハンスメントレイヤを有するスケーラブル多重視界ビットストリームを生成するための技法を実装し得るビデオエンコーダ２０の一例を示すブロック図である。第１のエンハンスメントレイヤは、ベースレイヤの視界のうちの１つのフル解像度ピクチャを含み得、第２のエンハンスメントレイヤは、ベースレイヤの他のそれぞれの視界のフル解像度ピクチャを含み得る。

この場合も、図２Ａの幾つかの構成要素は、概念的な目的のために単一の構成要素に関して図示及び説明されることがあるが、１つ以上の機能ユニットを含み得ることを理解されたい。例えば、図２Ｂに関してより詳細に説明するように、動き推定／視差ユニット４２は、動き推定及び動き視差計算を実行するための別個のユニットから構成され得る。

図２Ｂは、ベースレイヤと２つのエンハンスメントレイヤとを有するスケーラブル多重視界ビットストリームを生成するための技法を実装し得るビデオエンコーダの別の例を示すブロック図である。上述のように、ビデオエンコーダ２０の幾つかの構成要素は、単一の構成要素に関して図示及び説明されることがあるが、２つ以上の個別及び／又は一体型ユニットを含み得る。その上、ビデオエンコーダ２０の幾つかの構成要素は、高度に統合されるか、又は同じ物理的構成要素に組み込まれ得るが、概念的な目的のために別々に示してある。従って、図２Ｂに示す例は、図２Ａに示すビデオエンコーダ２０と同じ構成要素の多くを含み得るが、３つのレイヤ、例えば、ベースレイヤ１４２と、第１のエンハンスメントレイヤ８４と、第２のエンハンスメントレイヤ８６との符号化を概念的に示すために代替構成で示してある。

図２Ｂに示す例は、３つのレイヤを含むスケーラブル多重視界ビットストリームを生成するビデオエンコーダ２０を示している。上記で説明したように、レイヤの各々は、マルチメディアコンテンツを構成する一連のフレームを含み得る。本開示の態様によれば、３つのレイヤは、ベースレイヤ８２と、第１のエンハンスメントレイヤ８４と、第２のエンハンスメントレイヤ８６とを含む。幾つかの例では、ベースレイヤ１４２のフレームは、２つの並列パック低解像度ピクチャ（例えば、左眼視界（「Ｂ１」）及び右眼視界（「Ｂ２」））を含み得る。第１のエンハンスメントレイヤはベースレイヤの左眼視界のフル解像度ピクチャ（「Ｅ１」）を含み得、第２のエンハンスメントレイヤはベースレイヤの右眼視界のフル解像度ピクチャ（「Ｅ２」）を含み得る。但し、図２Ｂに示すベースレイヤ構成及びエンハンスメントレイヤのシーケンスは一例として与えるものにすぎない。別の例では、ベースレイヤ８２は、代替パッキング構成（例えば、上下、行インターリーブ、列インターリーブ、チェッカーボードなど）で低解像度ピクチャを含み得る。その上、第１のエンハンスメントレイヤは右眼視界のフル解像度ピクチャを含み得、第２のエンハンスメントレイヤは左眼視界のフル解像度ピクチャを含み得る。

図２Ｂに示す例では、ビデオエンコーダ２０は、３つのイントラ予測ユニット４６と、（例えば、図２Ａに示す、組み合わせられた動き推定／視差ユニット４２及び動き補償ユニット４４と同様に又は同じように構成され得る）３つの動き推定／動き補償ユニット９０とを含み、各レイヤ８２〜８６は、関連するイントラ予測ユニット４６と動き推定／補償ユニット９０とを有する。更に、第１のエンハンスメントレイヤ８４及び第２のエンハンスメントレイヤ８６はそれぞれ、レイヤ間テクスチャ予測ユニット１００とレイヤ間動き予測ユニット１０２とを含む（破線９８でグループ化された）レイヤ間予測ユニット、及び視界間予測ユニット１００に結合される。図２Ｂの残りの構成要素は、図２Ａに示す構成要素と同様に構成され得る。即ち、加算器５０及び参照フレーム記憶部６４は、両方の表現において同様に構成され得、図２Ｂの変換及び量子化ユニット１１４は、図２Ａに示す、組み合わせられた変換ユニット５２及び量子化ユニット５４と同様に構成され得る。更に、図２Ｂの逆量子化／逆変換ユニット／再構成／デブロッキングユニット１２２は、図２Ａに示す、組み合わせられた逆量子化ユニット５８及び逆変換ユニット６０と同様に構成され得る。モード選択ユニット４０は、図２Ｂでは予測ユニットの各々の間でトグルするスイッチとして表されており、例えば、誤差結果に基づいて、イントラ、インター、レイヤ間動き、レイヤ間テクスチャ、又は視界間など、符号化モードのうちの１つを選択し得る。

概して、ビデオエンコーダ２０は、図２Ａに関して上記で説明したイントラ符号化方法又はインター符号化方法を使用してベースレイヤ８２を符号化し得る。例えば、ビデオエンコーダ２０は、イントラ予測ユニット４６を使用してベースレイヤ８２中に含まれる低解像度ピクチャをイントラ符号化し得る。ビデオエンコーダ２０は、（例えば、図２Ａに示す、組み合わせられた動き推定／視差ユニット４２及び動き補償ユニット４４と同様に又は同じように構成され得る）動き推定／補償ユニット９０を使用してベースレイヤ８２中に含まれる低解像度ピクチャをインター符号化し得る。更に、ビデオエンコーダ２０は、イントラ予測ユニット４６を使用して第１のエンハンスメントレイヤ８４又は第２のエンハンスメントレイヤをイントラ符号化するか、あるいは動き補償推定／補償ユニット９０を使用して第１のエンハンスメントレイヤ８４又は第２のエンハンスメントレイヤ８６をインター符号化し得る。

本開示の態様によれば、ビデオエンコーダ２０はまた、第１のエンハンスメントレイヤ８４と第２のエンハンスメントレイヤ８６とを符号化するために幾つかの他の視界間又はレイヤ間符号化方法を実装し得る。例えば、ビデオエンコーダ２０は、第１のエンハンスメントレイヤ８４と第２のエンハンスメントレイヤ８６とを符号化するために（破線９８でグループ化された）レイヤ間予測ユニットを使用し得る。例えば、第１のエンハンスメントレイヤ８４が左眼視界のフル解像度ピクチャを含む例によれば、ビデオエンコーダ２０は、レイヤ間予測ユニット９８を使用して、ベースレイヤの左眼視界（例えば、Ｂ１）の低解像度ピクチャから第１のエンハンスメントレイヤ８４をレイヤ間予測し得る。その上、ビデオエンコーダ２０は、レイヤ間予測ユニット９８を使用して、ベースレイヤの右眼視界（例えば、Ｂ２）の低解像度ピクチャから第２のエンハンスメントレイヤ８６をレイヤ間予測し得る。図２Ｂに示す例では、レイヤ間予測ユニット９８は、ベースレイヤ８２に関連する動き推定／補償ユニット９０からデータ（例えば、動きベクトルデータ、テクスチャデータなど）を受信し得る。

図２Ｂに示す例では、レイヤ間予測ユニット９８は、第１のエンハンスメントフレーム８４と第２のエンハンスメントフレーム８６とをレイヤ間テクスチャ予測するためのレイヤ間テクスチャ予測ユニット１００、ならびに第１のエンハンスメントフレーム８４と第２のエンハンスメントフレーム８６とをレイヤ間動き予測するためのレイヤ間動き予測ユニット１０２を含む。

ビデオエンコーダ２０はまた、第１のエンハンスメントレイヤ８４と第２のエンハンスメントレイヤ８６とを視界間予測するための視界間予測ユニット１０６を含み得る。幾つかの例によれば、ビデオエンコーダ２０は、ベースレイヤの右眼視界（Ｂ２）の低解像度ピクチャから第１のエンハンスメントレイヤ８４（例えば、左眼視界のフル解像度ピクチャ）を視界間予測し得る。同様に、ビデオエンコーダ２０は、ベースレイヤの左眼視界（Ｂ１）の低解像度ピクチャから第２のエンハンスメントレイヤ８６（例えば、右眼視界のフル解像度ピクチャ）を視界間予測し得る。その上、幾つかの例によれば、ビデオエンコーダ２０はまた、第１のエンハンスメントレイヤ８４に基づいて第２のエンハンスメントレイヤ８６を視界間予測し得る。

変換及び量子化ユニット１１４によって残差変換係数の変換及び量子化が実行された後、ビデオエンコーダ２０は、エントロピー符号化及び多重化ユニット１１８を用いて量子化残差変換係数のエントロピー符号化及び多重化を実行し得る。即ち、エントロピー符号化及び多重化ユニット１１８は、量子化変換係数を符号化する、例えば、（図２Ａに関して説明したように）コンテンツ適応型可変長符号化（ＣＡＶＬＣ）、コンテキスト適応型バイナリ算術符号化（ＣＡＢＡＣ）、又は別のエントロピー符号化技法を実行し得る。更に、エントロピー符号化及び多重化ユニット１１８は、符号化ブロックパターン（ＣＢＰ）値、マクロブロックタイプ、符号化モード、（フレーム、スライス、マクロブロック、又はシーケンスなどの）符号化ユニットの最大マクロブロックサイズなどのシンタックス情報を生成し得る。エントロピー符号化及び多重化ユニット１１８は、この圧縮ビデオデータを所謂「ネットワークアブストラクションレイヤユニット」又はＮＡＬユニットにフォーマットし得る。各ＮＡＬユニットは、ＮＡＬユニットに記憶されるデータのタイプを識別するヘッダを含む。本開示の幾つかの態様によれば、上記で図２Ａに関して説明したように、ビデオエンコーダ２０は、ベースレイヤ８２のために、第１及び第２のエンハンスメントレイヤ８４、８６とは異なるＮＡＬフォーマットを使用し得る。

この場合も、図２Ｂに示す幾つかの構成要素は別個のユニットとして表されていることがあるが、ビデオエンコーダ２０の幾つかの構成要素は、高度に統合されるか、又は同じ物理的構成要素に組み込まれ得ることを理解されたい。従って、一例として、図２Ｂは３つの個別のイントラ予測ユニット４６を含むが、ビデオエンコーダ２０は、イントラ予測を実行するために同じ物理的構成要素を使用し得る。

図３は、符号化ビデオシーケンスを復号するビデオデコーダ３０の一例を示すブロック図である。図３の例では、ビデオデコーダ３０は、エントロピー復号ユニット１３０と、動き補償ユニット１３２と、イントラ予測ユニット１３４と、逆量子化ユニット１３６と、逆変換ユニット１３８と、参照フレーム記憶部１４２と、加算器１４０とを含む。ビデオデコーダ３０は、幾つかの例では、ビデオエンコーダ２０（図２Ａ及び図２Ｂ）に関して説明した符号化パスとは概して逆の復号パスを実行し得る。

特に、ビデオデコーダ３０は、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを含むスケーラブル多重視界ビットストリームを受信するように構成され得る。ビデオデコーダ３０は、ベースレイヤのフレームパッキング構成、エンハンスメントレイヤの順序を示す情報、及びスケーラブル多重視界ビットストリームを適切に復号するための他の情報を受信し得る。例えば、ビデオデコーダ３０は、「多重視界フレーム互換」（ＭＦＣ）ＳＰＳ及びＳＥＩメッセージを解釈するように構成され得る。ビデオデコーダ３０はまた、多重視界ビットストリームの全ての３つのレイヤを復号すべきか、レイヤのサブセットのみ（例えば、ベースレイヤ及び第１のエンハンスメントレイヤ）を復号すべきかを決定するように構成され得る。この決定は、ビデオ表示３２（図１）が３次元ビデオデータを表示することが可能であるかどうか、ビデオデコーダ３０が特定のビットレート及び／又はフレームレートの複数の視界を復号する（及び低解像度視界をアップサンプリングする）能力を有するかどうか、若しくはビデオデコーダ３０及び／又はビデオ表示３２に関する他のファクタに基づき得る。

宛先機器１４が３次元ビデオデータを復号及び／又は表示することが可能でないとき、ビデオデコーダ３０は、受信されたベースレイヤを構成要素である低解像度符号化ピクチャに解凍し、次いで、低解像度符号化ピクチャのうちの１つを廃棄し得る。従って、ビデオデコーダ３０は、ベースレイヤの半分のみ（例えば、左眼視界のピクチャ）を復号することを選択し得る。更に、ビデオデコーダ３０は、エンハンスメントレイヤのうちの１つのみを復号することを選択し得る。即ち、ビデオデコーダ３０は、ベースフレームの廃棄されたピクチャに対応するエンハンスメントレイヤを廃棄しながら、ベースフレームの保持された低解像度ピクチャに対応するエンハンスメントレイヤを復号することを選択し得る。エンハンスメントレイヤのうちの１つを保持することにより、ビデオデコーダ３０は、ベースレイヤの保持されたピクチャをアップサンプリング又は補間することに関連する誤りを低減することが可能になり得る。

宛先機器１４が３次元ビデオデータを復号し、表示することが可能であるとき、ビデオデコーダ３０は、受信されたベースレイヤを構成要素である低解像度符号化ピクチャに解凍し、低解像度ピクチャの各々を復号し得る。幾つかの例によれば、ビデオデコーダ３０はまた、ビデオデコーダ３０及び／又はビデオ表示３２の能力に応じて、エンハンスメントレイヤの一方又は両方を復号し得る。エンハンスメントレイヤの一方又は両方を保持することにより、ビデオデコーダ３０は、ベースレイヤのピクチャをアップサンプリング又は補間することに関連する誤りを低減し得る。この場合も、デコーダ３０によって復号されるレイヤは、ビデオデコーダ３０及び／又は宛先機器１４及び／又は通信チャネル１６（図１）の能力に依存し得る。

ビデオデコーダ３０は、視界間符号化ピクチャの変位ベクトルを取り出すか、又はインター若しくはレイヤ間符号化ピクチャ、例えば、ベースレイヤの２つの低解像度ピクチャとエンハンスメントレイヤの２つのフル解像度ピクチャとの動きベクトルを取り出し得る。ビデオデコーダ３０は、変位ベクトル又は動きベクトルを使用して予測ブロックを取り出して、ピクチャのブロックを復号し得る。幾つかの例では、ベースレイヤの低解像度ピクチャを復号した後に、ビデオデコーダ３０は、エンハンスメントレイヤピクチャと同じ解像度に復号ピクチャをアップサンプリングし得る。

動き補償ユニット１３２は、エントロピー復号ユニット１３０から受信された動きベクトルに基づいて予測データを生成し得る。動き補償ユニット１３２は、ビットストリーム中で受信された動きベクトルを使用して、参照フレーム記憶部１４２中の参照フレーム中の予測ブロックを識別し得る。イントラ予測ユニット１３４は、ビットストリーム中で受信されたイントラ予測モードを使用して、空間的に隣接するブロックから予測ブロックを形成し得る。逆量子化ユニット１３６は、ビットストリーム中で供給され、エントロピー復号ユニット１３０によって復号された量子化ブロック係数を逆量子化（inverse quantize）、即ち、逆量子化（de-quantize）する。逆量子化プロセスは、例えば、Ｈ．２６４復号規格によって定義された従来のプロセスを含み得る。逆量子化プロセスはまた、量子化の程度を決定し、同様に、適用されるべき逆量子化の程度を決定するための、各マクロブロックについてエンコーダ２０によって計算される量子化パラメータＱＰ_Yの使用を含み得る。

逆変換ユニット５８は、逆変換、例えば、逆ＤＣＴ、逆整数変換、又は概念的に同様の逆変換プロセスを変換係数に適用して、画素領域において残差ブロックを生成する。動き補償ユニット１３２は動き補償ブロックを生成し、場合によっては、補間フィルタに基づいて補間を実行する。サブ画素精度をもつ動き推定に使用されるべき補間フィルタの識別子は、シンタックス要素中に含まれ得る。動き補償ユニット１３２は、ビデオブロックの符号化中にビデオエンコーダ２０によって使用された補間フィルタを使用して、参照ブロックのサブ整数画素の補間値を計算し得る。動き補償ユニット１３２は、受信されたシンタックス情報に従って、ビデオエンコーダ２０によって使用された補間フィルタを決定し、その補間フィルタを使用して予測ブロックを生成し得る。

動き補償ユニット１３２は、シンタックス情報の幾つかを使用して、符号化ビデオシーケンスの（１つ以上の）フレームを符号化するために使用されるマクロブロックのサイズと、符号化ビデオシーケンスのフレームの各マクロブロックがどのように区分されるのかを記述するパーティション情報と、各パーティションがどのように符号化されるのかを示すモードと、各インター符号化マクロブロック又はパーティションのための１つ以上の参照フレーム（又はリスト）と、符号化ビデオシーケンスを復号するための他の情報とを決定する。

加算器１４０は、残差ブロックを、動き補償ユニット１３２又はイントラ予測ユニットによって生成される対応する予測ブロックと加算して、復号ブロックを形成する。所望される場合、ブロックノイズ(blockiness artifacts)を除去するために、復号ブロックをフィルタ処理するためにデブロッキングフィルタも適用され得る。復号ビデオブロックは、次いで、参照フレーム記憶部１４２に記憶され、参照フレーム記憶部１４２は、参照ブロックを後続の動き補償に与え、また、（図１の表示装置３２などの）表示装置上での提示のために復号ビデオを生成する。

本開示の幾つかの態様によれば、ビデオデコーダ３０は、復号ピクチャ、例えば、参照フレーム記憶部１４２に記憶された復号ピクチャをレイヤごとに別々に管理し得る。幾つかの例では、ビデオデコーダ３０は、Ｈ．２６４／ＡＶＣ仕様に従ってレイヤごとに別々に復号ピクチャを管理する。ビデオデコーダ３０が、対応するエンハンスメントレイヤを復号した後に、ビデオデコーダ３０は、アップサンプリングされた復号ピクチャ、例えば、エンハンスメントレイヤ予測目的のためにアップサンプリングされたベースレイヤからの復号ピクチャを削除し得る。

一例では、ビデオデコーダ３０は、左眼視界と右眼視界との低解像度ピクチャを含むベースレイヤ、及びベースフレームの左眼視界のフル解像度ピクチャを含む第１のエンハンスメントレイヤを有する符号化スケーラブル多重視界ビットストリームを受信し得る。この例では、ビデオデコーダ３０は、ベースレイヤ中に含まれる左眼視界の低解像度ピクチャを復号し、第１のエンハンスメントレイヤをレイヤ間予測するために低解像度ピクチャをアップサンプリングし得る。即ち、ビデオデコーダ３０は、第１のエンハンスメントレイヤを復号する前にベースレイヤの低解像度ピクチャをアップサンプリングし得る。第１のエンハンスメントレイヤを復号すると、ビデオデコーダ３０は、次いで、参照フレーム記憶部１４２から（例えば、ベースレイヤからの）左眼視界のアップサンプリングされたピクチャを削除し得る。

ビデオデコーダ３０は、受信されたフラグに従って復号ピクチャを管理するように構成され得る。例えば、ベースレイヤのどのピクチャが予測目的のためにアップサンプリングされる必要があるかを識別する幾つかのフラグが、受信された符号化ビデオデータと共に与えられ得る。一例によれば、ビデオデコーダ３０が、１に等しいinter_view_frame_0_flag、inter_layer_frame_0_flag、又はinter_component_frame_0_flagを受信した場合、ビデオデコーダ３０は、フレーム０部分、即ち、視界０に対応するベースレイヤの一部分がアップサンプリングされなければならないことを識別することができる。一方、ビデオデコーダが、１に等しいinter_view_frame_1_flag、inter_layer_frame_1_flag、又はinter_component_frame_1_flagを受信した場合、ビデオデコーダ３０は、フレーム１部分、即ち、視界１に対応するベースレイヤの一部分がアップサンプリングされなければならないことを識別することができる。

本開示の幾つかの態様によれば、ビデオデコーダ３０は、サブビットストリームを抽出し、復号するように構成され得る。即ち、例えば、ビデオデコーダ３０は、様々な動作点を使用してスケーラブル多重視界ビットストリームを復号することが可能であり得る。幾つかの例では、ビデオデコーダ３０は、ベースレイヤに対応する（例えば、Ｈ．２６４／ＡＶＣ仕様に従ってパックされた）フレームパックサブビットストリームを抽出し得る。ビデオデコーダ３０はまた、シングル視界動作点を復号し得る。ビデオデコーダ３０はまた、非対称動作点を復号し得る。

デコーダ３０は、図２Ａ及び図２Ｂに示すビデオエンコーダ２０などのエンコーダから、動作点を識別するシンタックス又は命令を受信し得る。例えば、ビデオデコーダ３０は、可変twoFullViewsFlag（存在するとき）、可変twoHalfViewsFlag（存在するとき）、可変tIdTarget（存在するとき）、及び可変LeftViewFlag（存在するとき）を受信し得る。この例では、ビデオデコーダ３０は、サブビットストリームを導出するために、上記で説明した入力変数を使用して以下の操作を適用し得る。

１．視界０、１及び２をターゲット視界としてマークする。

２． twoFullViewsFlagが偽であるとき
ａ． LeftViewFlagとleft_view_enhance_firstの両方が１又は０である場合（(LeftViewFlag+left_view_enhance_first) %2 == 0）、視界２を非ターゲット視界としてマークする。

ｂ．そうではなく、（LeftViewFlag+left_view_enhance_first) %2 == 1）であるとき、
ｉ． full_left_right_dependent_flagが１である場合、視界１を非ターゲット視界としてマークする。

３．以下の条件のいずれかが当てはまる全てのＶＣＬＮＡＬユニット及びフィラーデータＮＡＬユニットを「ビットストリームから削除されるべき」とマークする。

ａ． temporal_idがtIdTargetをよりも大きい、
ｂ． nal_ref_idcが０に等しく、inter_component_flagが０に等しい（又は全ての以下のフラグが０に等しい：inter_view_frame_0_flag、inter_view_frame_1_flag、inter_layer_frame_0_flag、inter_layer_frame_1_flag、inter_view_flag、及びinter_layer_flag）。

ｃ． (2-second_view_flag)に等しいview_idをもつ視界が非ターゲット視界である。

４．それの全てのＶＣＬＮＡＬユニットが「ビットストリームから削除されるべき」とマークされた全てのアクセスユニットを削除する。

５．「ビットストリームから削除されるべき」とマークされた全てのＶＣＬＮＡＬユニット及びフィラーデータＮＡＬユニットを削除する。

６． twoHalfViewsFlagが１であるとき、以下のＮＡＬユニットを削除する。

ａ． NEWTYPE1又はNEWTYPE2に等しいnal_unit_typeをもつ全てのＮＡＬユニット。

ｂ．（おそらく新しいタイプをもつ）ＳＰＳＭＦＣ拡張と、（異なるＳＥＩタイプをもつ）この補正において定義されているＳＥＩメッセージとを含んでいる全てのＮＡＬユニット。

この例では、このサブクローズ(subclause)への入力としてtwoFullViewsFlagが存在しないとき、twoFullViewsFlagは１に等しいと推測される。このサブクローズへの入力としてtwoHalfViewsFlagが存在しないとき、twoHalfViewsFlagは０に等しいと推測される。このサブクローズへの入力としてtIdTargetが存在しないとき、tIdTargetは７に等しいと推測される。このサブクローズの入力としてLeftViewFlagが存在しないとき、LeftViewFlagは真であると推測される。

ビデオデコーダ３０に関して説明したが、他の例では、サブビットストリーム抽出は、宛先機器（例えば、図１に示す宛先機器１４）の別の機器又は構成要素によって実行され得る。例えば、本開示の幾つかの態様によれば、サブビットストリームは、属性として、例えば、ビデオサービスのマニフェストの一部として含まれる属性として識別され得る。この例では、クライアント（例えば、宛先機器１４）が動作点を選択するために属性を使用し得るように、クライアントが特定のビデオ表現を再生し始める前にマニフェストが送信され得る。即ち、クライアントは、ベースレイヤのみ、ベースレイヤ及び１つのエンハンスメントレイヤ、又はベースレイヤ及び両方のエンハンスメントレイヤを受信することを選択し得る。

図４は、左眼視界ピクチャ１８０と右眼視界ピクチャと１８２に対応する低解像度ピクチャを有するベースレイヤ１８４の圧縮フレーム(packed frame)（「ベースレイヤフレーム１８４」）を形成するためにビデオエンコーダ２０によって組み合わせられた左眼視界ピクチャ１８０と右眼視界ピクチャ１８２とを示す概念図である。ビデオエンコーダ２０はまた、左眼視界ピクチャ１８０に対応するエンハンスメントレイヤ１８６のフレーム（「エンハンスメントレイヤフレーム１８６」）を形成する。この例では、ビデオエンコーダ２０は、あるシーンの左眼視界の未加工ビデオデータを含むピクチャ１８０と、そのシーンの右眼視界の未加工ビデオデータを含むピクチャ１８２とを受信する。左眼視界は視界０に対応し得、右眼視界は視界１に対応し得る。ピクチャ１８０、１８２は同じ時間インスタンスの２つのピクチャに対応し得る。例えば、ピクチャ１８０、１８２は、カメラによって実質的に同時に撮影されていることがある。

図４の例では、ピクチャ１８０のサンプル（例えば、画素）は×で示され、ピクチャ１８２のサンプルは○で示されている。図示のように、ビデオエンコーダ２０は、ピクチャ１８０をダウンサンプリングし、ピクチャ１８２をダウンサンプリングし、これらのピクチャを組み合わせて、ビデオエンコーダ２０が符号化し得るベースレイヤフレーム１８４を形成し得る。この例では、ビデオエンコーダ２０は、ベースレイヤフレーム１８４中で、ダウンサンプリングされたピクチャ１８０とダウンサンプリングされたピクチャ１８２とを並列構成で構成する。ピクチャ１８０とピクチャ１８２とをダウンサンプリングし、ダウンサンプリングされたピクチャを並列ベースレイヤフレーム１８４中で構成するために、ビデオエンコーダ２０は各ピクチャ１８０及び１８２の交互列をデシメートし得る。別の例として、ビデオエンコーダ２０は、ピクチャ１８０とピクチャ１８２とのダウンサンプリングされたバージョンを生成するために、ピクチャ１８０とピクチャ１８２との交互列を完全に削除し得る。

但し、他の例では、ビデオエンコーダ２０は、ダウンサンプリングされたピクチャ１８０とダウンサンプリングされたピクチャ１８２とを他の構成でパックし得る。例えば、ビデオエンコーダ２０はピクチャ１８０とピクチャ１８２との列を交互にし得る。別の例では、ビデオエンコーダ２０は、ピクチャ１８０とピクチャ１８２との行をデシメート又は削除し、ダウンサンプリングされたピクチャを上下構成又は交互構成で構成し得る。更に別の例では、ビデオエンコーダ２０は、サンプルピクチャ１８０とサンプルピクチャ１８２とをサイコロの五の目の配置（チェッカーボード）にし、それらのサンプルをベースレイヤフレーム１８４中に構成し得る。

ベースレイヤフレーム１８４に加えて、ビデオエンコーダ２０は、ベースレイヤフレーム１８４の左眼視界（例えば、視界０）のピクチャに対応するフル解像度エンハンスメントレイヤフレーム１８６を符号化し得る。本開示の幾つかの態様によれば、ビデオエンコーダ２０は、前に説明したように、（破線１８８で表された）レイヤ間予測を使用してエンハンスメントレイヤフレーム１８６を符号化し得る。即ち、ビデオエンコーダ２０は、レイヤ間テクスチャ予測を用いたレイヤ間予測、又はレイヤ間動き予測を用いたレイヤ間予測を使用してエンハンスメントレイヤフレーム１８６を符号化し得る。追加又は代替として、ビデオエンコーダ２０は、前に説明したように、（破線１９０で表された）視界間予測を使用してエンハンスメントレイヤフレーム１８６を符号化し得る。

図４の図において、ベースレイヤフレーム１８４は、ピクチャ１８０からのデータに対応する×と、ピクチャ１８２からのデータに対応する○とを含む。但し、ピクチャ１８０とピクチャ１８２とに対応するベースレイヤフレーム１８４のデータは、必ずしもダウンサンプリング後のピクチャ１８０とピクチャ１８２とのデータと正確に整合するとは限らないことを理解されたい。同様に、符号化の後に、ベースレイヤフレーム１８４中のピクチャのデータは、ピクチャ１８０、１８２のデータとは異なる可能性がある。従って、ベースレイヤフレーム１８４中のある×又は○のデータが、ピクチャ１８０、１８２中の対応する×又は○と必ず同じであること、若しくはベースレイヤフレーム１８４中の×又は○が、ピクチャ１８０、１８２中の×又は○と同じ解像度であることは仮定されるべきでない。

図５は、ベースレイヤ１８４のフレーム（「ベースレイヤフレーム１８４」）と、右眼視界ピクチャ１８２に対応するエンハンスメントレイヤ１９２のフレーム（「エンハンスメントレイヤフレーム１９２」）とを形成するためにビデオエンコーダ２０によって組み合わせられた左眼視界ピクチャ１８０と右眼視界ピクチャ１８２とを示す概念図である。この例では、ビデオエンコーダ２０は、あるシーンの左眼視界の未加工ビデオデータを含むピクチャ１８０と、そのシーンの右眼視界の未加工ビデオデータを含むピクチャ１８２とを受信する。左眼視界は視界０に対応し得、右眼視界は視界１に対応し得る。ピクチャ１８０、１８２は同じ時間インスタンスの２つのピクチャに対応し得る。例えば、ピクチャ１８０、１８２は、カメラによって実質的に同時に撮影されていることがある。

図４に示す例と同様に、図５に示す例は、×で示されたピクチャ１８０のサンプル（例えば、画素）と、○で示されたピクチャ１８２のサンプルとを含む。図示のように、ビデオエンコーダ２０は、図４に示す方法と同様の方法で、ピクチャ１８０をダウンサンプリングし、符号化し、ピクチャ１８２をダウンサンプリングし、符号化し、これらのピクチャを組み合わせてベースレイヤフレーム１８４を形成し得る。

ベースレイヤフレーム１８４に加えて、ビデオエンコーダ２０は、ベースレイヤ１８４の右眼視界（例えば、視界１）のピクチャに対応するフル解像度エンハンスメントレイヤフレーム１９２を符号化し得る。本開示の幾つかの態様によれば、ビデオエンコーダ２０は、前に説明したように、（破線１８８で表された）レイヤ間予測を使用してエンハンスメントレイヤフレーム１９２を符号化し得る。即ち、ビデオエンコーダ２０は、レイヤ間テクスチャ予測を用いたレイヤ間予測、又はレイヤ間動き予測を用いたレイヤ間予測を使用してエンハンスメントレイヤフレーム１９２を符号化し得る。追加又は代替として、ビデオエンコーダ２０は、前に説明したように、（破線１９０で表された）視界間予測を使用してエンハンスメントレイヤフレーム１９２を符号化し得る。

図６は、ベースレイヤ１８４のフレーム（「ベースレイヤフレーム１８４」）と、左眼視界１８０のフル解像度ピクチャを含む第１のエンハンスメントレイヤのフレーム（「第１のエンハンスメントレイヤフレーム１８６」）と、右眼視界１８２のフル解像度ピクチャを含む第２のエンハンスメントレイヤのフレーム（「第２のエンハンスメントレイヤフレーム１９２」）とを形成するためにビデオエンコーダ２０によって組み合わせられた左眼視界ピクチャ１８０と右眼視界ピクチャ１８２とを示す概念図である。この例では、ビデオエンコーダ２０は、あるシーンの左眼視界の未加工ビデオデータを含むピクチャ１８０と、そのシーンの右眼視界の未加工ビデオデータを含むピクチャ１８２とを受信する。左眼視界は視界０に対応し得、右眼視界は視界１に対応し得る。ピクチャ１８０、１８２は同じ時間インスタンスの２つのピクチャに対応し得る。例えば、ピクチャ１８０、１８２は、カメラによって実質的に同時に撮影されていることがある。

図４及び図５に示す例と同様に、図６に示す例は、Ｘで示されたピクチャ１８０のサンプル（例えば、画素）と、Ｏで示されたピクチャ１８２のサンプルとを含む。図示のように、ビデオエンコーダ２０は、図４及び図５に示す方法と同様の方法で、ピクチャ１８０をダウンサンプリングし、符号化し、ピクチャ１８２をダウンサンプリングし、符号化し、これらのピクチャを組み合わせてベースレイヤフレーム１８４を形成し得る。

ベースレイヤフレーム１８４に加えて、ビデオエンコーダ２０は、ベースレイヤフレーム１８４の左眼視界ピクチャ（例えば、視界０）に対応する第１のエンハンスメントレイヤフレーム１８６を符号化し得る。ビデオエンコーダ２０はまた、ベースレイヤフレーム１８４の右眼視界ピクチャ（例えば、視界１）に対応する第２のエンハンスメントレイヤフレーム１９２を符号化し得る。但し、エンハンスメントレイヤフレームの順序は一例として与えたものにすぎない。即ち、他の例では、ビデオエンコーダ２０は、ベースレイヤフレーム１８４の右眼視界のピクチャに対応する第１のエンハンスメントレイヤフレームと、ベースレイヤフレーム１８４の左眼視界のピクチャに対応する第２のエンハンスメントレイヤフレームとを符号化し得る。

図６に示す例では、ビデオエンコーダ２０は、前に説明したように、ベースレイヤフレーム１８４に基づいて（破線１８８で表された）レイヤ間予測を使用して第１のエンハンスメントレイヤフレーム１８６を符号化し得る。即ち、ビデオエンコーダ２０は、ベースレイヤフレーム１８４に基づいて、レイヤ間テクスチャ予測を用いたレイヤ間予測、又はレイヤ間動き予測を用いたレイヤ間予測を使用して第１のエンハンスメントレイヤフレーム１８６を符号化し得る。追加又は代替として、ビデオエンコーダ２０は、前に説明したように、ベースレイヤフレーム１８４に基づいて（破線１９０で表された）視界間予測を使用して第１のエンハンスメントレイヤフレーム１８６を符号化し得る。

ビデオエンコーダ２０はまた、上記で説明したように、ベースレイヤフレーム１８４に基づいて（破線１９４で表された）レイヤ間予測を使用して第２のエンハンスメントレイヤフレーム１９２を符号化し得る。即ち、ビデオエンコーダ２０は、ベースレイヤフレーム１８４に基づいて、レイヤ間テクスチャ予測を用いたレイヤ間予測、又はレイヤ間動き予測を用いたレイヤ間予測を使用して第２のエンハンスメントレイヤフレーム１９２を符号化し得る。

追加又は代替として、ビデオエンコーダ２０は、第１のエンハンスメントレイヤフレーム１８６に基づいて（破線１９０で表された）視界間予測を使用して第２のエンハンスメントレイヤフレーム１９２を符号化し得る。

本開示の態様によれば、各レイヤ、即ち、ベースレイヤ１８４と、第１のエンハンスメントレイヤ１８６と、第２のエンハンスメントレイヤ１９２とに専用の多重視界スケーラブルビットストリームの帯域幅の量は、レイヤの依存性に従って変動し得る。例えば、概して、ビデオエンコーダ２０は、ベースレイヤ１８４にスケーラブル多重視界ビットストリームの帯域幅の５０％〜６０％を割り当て得る。即ち、ベースレイヤ１８４に関連するデータは、ビットストリームに専用のデータ全体の５０％〜６０％を占める。第１のエンハンスメントレイヤ１８６と第２のエンハンスメントレイヤ１９２とが互いに依存しない（例えば、第２のエンハンスメントレイヤ１９２が予測目的のために第１のエンハンスメントレイヤ１８６を使用しない）場合、ビデオエンコーダ２０は、それぞれのエンハンスメントレイヤ１８６、１９２の各々に、ほぼ等しい量の残りの帯域幅（例えば、それぞれのエンハンスメントレイヤ１８６、１９２に帯域幅の２５％〜２０％）を割り当て得る。代替的に、第２のエンハンスメントレイヤ１９２が第１のエンハンスメントレイヤ１８６から予測される場合、ビデオエンコーダ２０は、比較的より大きい量の帯域幅を第１のエンハンスメントレイヤ１８６に割り当て得る。即ち、ビデオエンコーダ２０は、帯域幅の約２５％〜３０％のパーセントを第１のエンハンスメントレイヤ１８６に割り当て、帯域幅の約１５％〜２０％を第２のエンハンスメントレイヤ１９２に割り当て得る。

図７は、２つの異なる視界の２つの低解像度ピクチャを有するベースレイヤ、及び第１のエンハンスメントレイヤ並びに第２のエンハンスメントレイヤを含むスケーラブル多重視界ビットストリームを形成し、符号化するための例示的な方法２００を示すフローチャートである。図１及び図２Ａ〜２Ｂの例示的な構成要素に関して一般的に説明するが、他のエンコーダ、符号化ユニット、及び符号化機器が図７の方法を実行するように構成され得ることを理解されたい。その上、図７の方法のステップは必ずしも図７に示す順序で実行される必要はなく、より少ないか、追加であるか、又は代替であるステップが実行され得る。

図７の例では、ビデオエンコーダ２０は、最初に左眼視界、例えば、視界０のピクチャを受信する（２０２）。ビデオエンコーダ２０はまた、２つの受信されたピクチャがステレオ画像ペアを形成するように、右眼視界、例えば、視界１のピクチャを受信する（２０４）。左眼視界と右眼視界とは、相補的視界ペアとも呼ばれるステレオ視界ペアを形成し得る。右眼視界の受信されたピクチャは、左眼視界の受信されたピクチャと同じ時間ロケーションに対応し得る。即ち、左眼視界のピクチャと右眼視界のピクチャとは、実質的に同時に撮影又は生成されていることがある。ビデオエンコーダ２０は、次いで、左眼視界ピクチャのピクチャと右眼視界のピクチャとの解像度を低減する（２０６）。幾つかの例では、ビデオエンコーダ２０の前処理ユニットがピクチャを受信し得る。幾つかの例では、ビデオ前処理ユニットはビデオエンコーダ２０の外部にあり得る。

図７の例では、ビデオエンコーダ２０が左眼視界のピクチャと右眼視界のピクチャとの解像度を低減する（２０６）。例えば、ビデオエンコーダ２０は、受信された左眼視界ピクチャと右眼視界ピクチャとを（例えば、行型、列型、又はサイコロの五の目の配置（チェッカーボード）サブサンプリングを使用して）サブサンプリングするか、受信された左眼視界ピクチャと右眼視界ピクチャとの行又は列をデシメートするか、若しくは場合によっては、受信された左眼視界ピクチャと右眼視界ピクチャとの解像度を低減し得る。幾つかの例では、ビデオエンコーダ２０は、左眼視界の対応するフル解像度ピクチャの幅の半分又は高さの半分のいずれかを有する２つの低解像度ピクチャを生成し得る。ビデオプリプロセッサを含む他の例では、ビデオプリプロセッサは、右眼視界ピクチャの解像度を低減するように構成され得る。

ビデオエンコーダ２０は、次いで、ダウンサンプリングされた左眼視界ピクチャとダウンサンプリングされた右眼視界ピクチャの両方を含むベースレイヤフレームを形成する（２０８）。例えば、ビデオエンコーダ２０は、並列構成を有するベースレイヤフレーム、上下構成を有するベースレイヤフレーム、左視界ピクチャの列が右視界ピクチャの列とインターリーブされたベースレイヤフレーム、左視界ピクチャの行が右視界ピクチャの行とインターリーブされたベースレイヤフレーム、又は「チェッカーボード」タイプ構成におけるベースレイヤフレームを形成し得る。

ビデオエンコーダ２０は、次いで、ベースレイヤフレームを符号化する（２１０）。本開示の態様によれば、図２Ａ及び図２Ｂに関して説明したように、ビデオエンコーダ２０はベースレイヤのピクチャをイントラ符号化又はインター符号化し得る。ベースレイヤフレームを符号化した後に、ビデオエンコーダ２０は、次いで、第１のエンハンスメントレイヤフレームを符号化する（２１２）。図７に示す例によれば、ビデオエンコーダ２０は第１のエンハンスメントレイヤフレームとして左視界ピクチャを符号化するが、他の例では、ビデオエンコーダ２０は、第１のエンハンスメントレイヤフレームとして右視界ピクチャを符号化し得る。ビデオエンコーダ２０は、第１のエンハンスメントレイヤフレームをイントラ符号化、インター符号化、レイヤ間（例えば、レイヤ間テクスチャ予測又はレイヤ間動き予測）符号化、又は視界間符号化し得る。ビデオエンコーダ２０は、予測目的のための参照としてベースレイヤの対応する低解像度ピクチャ（例えば、左眼視界のピクチャ）を使用し得る。ビデオエンコーダ２０がレイヤ間予測を使用して第１のエンハンスメントレイヤフレームを符号化する場合、ビデオエンコーダ２０は、予測目的のために最初にベースレイヤフレームの左眼視界ピクチャをアップサンプリングし得る。代替的に、ビデオエンコーダ２０が視界間予測を使用して第１のエンハンスメントレイヤフレームを符号化する場合、ビデオエンコーダ２０は、予測目的のために最初にベースレイヤフレームの右眼視界ピクチャをアップサンプリングし得る。

第１のエンハンスメントレイヤフレームを符号化した後に、ビデオエンコーダ２０は、次いで、第２のエンハンスメントレイヤフレームを符号化する（２１４）。図７に示す例によれば、ビデオエンコーダ２０は第２のエンハンスメントレイヤフレームとして右視界ピクチャを符号化するが、他の例では、ビデオエンコーダ２０は、第２のエンハンスメントレイヤフレームとして左視界ピクチャを符号化し得る。第１のエンハンスメントレイヤフレームと同様に、ビデオエンコーダ２０は、第２のエンハンスメントレイヤフレームをイントラ符号化、インター符号化、レイヤ間（例えば、レイヤ間テクスチャ予測又はレイヤ間動き予測）符号化、又は視界間符号化し得る。ビデオエンコーダ２０は、予測目的のための参照として、ベースレイヤフレームの対応するピクチャ（例えば、右眼視界のピクチャ）を使用して第２のエンハンスメントレイヤフレームを符号化し得る。例えば、ビデオエンコーダ２０がレイヤ間予測を使用して第２のエンハンスメントレイヤフレームを符号化する場合、ビデオエンコーダ２０は、予測目的のために最初にベースレイヤフレームの右眼視界ピクチャをアップサンプリングし得る。代替的に、ビデオエンコーダ２０が視界間予測を使用して第２のエンハンスメントレイヤフレームを符号化する場合、ビデオエンコーダ２０は、予測目的のために最初にベースレイヤフレームの左眼視界ピクチャをアップサンプリングし得る。

本開示の態様によれば、ビデオエンコーダ２０は、更に（又は代替として）、第１のエンハンスメントレイヤフレームを使用して第２のエンハンスメントレイヤフレームを予測し得る。即ち、ビデオエンコーダは、予測目的のために第１のエンハンスメントレイヤを使用して第２のエンハンスメントレイヤフレームを視界間符号化し得る。

ビデオエンコーダ２０は、次いで、符号化されたレイヤを出力する（２１６）。即ち、ビデオエンコーダ２０は、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとからのフレームを含むスケーラブル多重視界ビットストリームを出力し得る。幾つかの例によれば、ビデオエンコーダ２０、又はビデオエンコーダ２０に結合されたユニットは、符号化されたレイヤをコンピュータ可読記憶媒体に記憶するか、符号化されたレイヤをブロードキャストするか、ネットワーク送信又はネットワークブロードキャストを介して符号化されたレイヤを送信するか、あるいは場合によっては符号化ビデオデータを与え得る。

また、ビデオエンコーダ２０は、必ずしも、ベースレイヤフレームのフレームパッキング構成と、ビットストリームの各フレームのためのレイヤが与えられる順序とを示す情報を提供する必要がないことを理解されたい。幾つかの例では、ビデオエンコーダ２０は、ビットストリーム全体について、単一セットの情報、例えば、ＳＰＳ及びＳＥＩメッセージを与え、ビットストリームの各フレームについてこの情報を示し得る。幾つかの例では、ビデオエンコーダ２０は、周期的に、例えば、各ビデオフラグメント、ピクチャのグループ（ＧＯＰ）、ビデオセグメント後に、一定数のフレームごとに、又は他の周期間隔でこの情報を提供し得る。ビデオエンコーダ２０、又はビデオエンコーダ２０に関連する別のユニットはまた、幾つかの例では、要求に応じて、例えば、ＳＰＳ及びＳＥＩメッセージについてのクライアント機器からの要求、又はビットストリームのヘッダデータについての一般的な要求に応答してＳＰＳ及びＳＥＩメッセージを与え得る。

図８は、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを有するスケーラブル多重視界ビットストリームを復号するための例示的な方法２４０を示すフローチャートである。図１及び図３の例示的な構成要素に関して一般的に説明するが、他のデコーダ、復号ユニット、及び復号機器が図８の方法を実行するように構成され得ることを理解されたい。その上、図８の方法のステップは必ずしも図８に示す順序で実行される必要はなく、より少ないか、追加であるか、又は代替であるステップが実行され得る。

初めに、ビデオデコーダ３０が、特定の表現の潜在的な動作点の指示を受信する（２４２）。即ち、ビデオデコーダ３０は、どのレイヤがスケーラブル多重視界ビットストリーム中で与えられるかの指示、及びそれらのレイヤの依存性を受信し得る。例えば、ビデオデコーダ３０は、符号化ビデオデータに関する情報を提供するＳＰＳ、ＳＥＩ、及びＮＡＬメッセージを受信し得る。幾つかの例では、ビデオデコーダ３０は、符号化レイヤを受信する前に、ビットストリームのＳＰＳメッセージを以前に受信していることがあり、その場合、ビデオデコーダ３０は、符号化レイヤを受信する前にスケーラブル多重視界ビットストリームのレイヤをすでに決定していることがある。幾つかの例では、送信限定、例えば、伝送媒体の帯域幅制限又は限定により、幾つかの動作点が利用可能でなくなるようにエンハンスメントレイヤが劣化するか又は廃棄され得る。

ビデオデコーダ３０を含むクライアント機器（例えば、図１の宛先機器１４）はまた、それの復号及びレンダリング能力を決定する（２４４）。幾つかの例では、ビデオデコーダ３０、又はビデオデコーダ３０が設置されたクライアント機器は、３次元表現のためのピクチャを復号又はレンダリングする能力を有しないか、若しくはエンハンスメントレイヤの一方又は両方のためのピクチャを復号する能力を有しないことがある。更に他の例では、ネットワークの帯域幅可用性により、ベースレイヤと一方又は両方のエンハンスメントレイヤとの取出しが禁止され得る。従って、クライアント機器は、ビデオデコーダ３０の復号能力、ビデオデコーダ３０が設置されたクライアント機器のレンダリング能力、及び／又は現在のネットワーク状態に基づいて動作点を選択する（２４６）。幾つかの例では、クライアント機器は、ネットワーク状態を再評価し、新しいネットワーク状態に基づいて異なる動作点についてデータを要求するように構成され得、例えば、利用可能な帯域幅が増加するときは（一方又は両方のエンハンスメントレイヤなどの）さらなるデータを取り出し、若しくは利用可能な帯域幅が減少するときは（エンハンスメントレイヤのうちの１つのみ又はいずれもなしなどの）より少ないデータを取り出すように構成され得る。

動作点を選択した後に、ビデオデコーダ３０はスケーラブル多重視界ビットストリームのベースレイヤを復号する（２４８）。例えば、ビデオデコーダ３０は、ベースレイヤの左眼視界のピクチャと右眼視界のピクチャとを復号し、復号されたピクチャを分離し、それらのピクチャをフル解像度にアップサンプリングし得る。幾つかの例によれば、ビデオデコーダ３０は、最初にベースレイヤの左眼視界のピクチャを復号し、その後、ベースレイヤの右眼視界のピクチャを復号し得る。ビデオデコーダ３０が、復号されたベースレイヤを、構成ピクチャ、例えば、左眼視界のピクチャと右眼視界のピクチャとに分離した後、ビデオデコーダ３０は、エンハンスメントレイヤを復号するための参照のために左眼視界ピクチャと右眼視界ピクチャとのコピーを記憶し得る。更に、ベースレイヤの左眼視界ピクチャと右眼視界ピクチャとは両方とも低解像度ピクチャであり得る。従って、ビデオデコーダ３０は、左眼視界ピクチャと右眼視界ピクチャとのフル解像度バージョンを形成するために、例えば、消失した情報を補間することによって、左眼視界ピクチャと右眼視界ピクチャとをアップサンプリングし得る。

幾つかの例では、ビデオデコーダ３０、又はビデオデコーダ３０が設置された機器（例えば、図１に示す宛先機器１４）が、エンハンスメントレイヤの一方又は両方を復号する能力を有しないことがある。他の例では、送信限定、例えば、伝送媒体の帯域幅制限又は限定により、エンハンスメントレイヤが劣化するか又は廃棄され得る。他の例では、ビデオ表示３２が、２つの視界を提示する能力を有しない、例えば、３Ｄ対応でないことがある。従って、図８に示す例では、ビデオデコーダ３０は、（ステップ２４６の）選択された動作点が、第１のエンハンスメントレイヤを復号することを含むかどうかを決定する（２５０）。

ビデオデコーダ３０が第１のエンハンスメントレイヤを復号しないか、又は第１のエンハンスメントレイヤがもはやビットストリーム中に存在しない場合、ビデオデコーダ３０は、ベースレイヤの左眼視界ピクチャと右眼視界ピクチャとをアップサンプリング（例えば、補間）し、左眼視界ピクチャと右眼視界ピクチャとのアップサンプリングされた表現をビデオ表示３２に送り得、ビデオ表示３２は、左眼視界ピクチャと右眼視界ピクチャとを同時又はほぼ同時に表示する（２５２）。別の例では、ビデオ表示３２がステレオ（例えば、３Ｄ）コンテンツを表示することが可能でない場合、ビデオデコーダ３０又はビデオ表示３２は、表示より前に左眼視界ピクチャ又は右眼視界ピクチャを廃棄し得る。

しかしながら、ビデオデコーダ３０は第１のエンハンスメントレイヤを復号する（２５４）。上記の図３に関して説明したように、ビデオデコーダ３０は、ビデオデコーダ３０が第１のエンハンスメントレイヤを復号するのを支援するためのシンタックスを受信し得る。例えば、ビデオデコーダ３０は、第１のエンハンスメントレイヤを符号化するために、イントラ予測が使用されたか、インター予測が使用されたか、レイヤ間（例えば、テクスチャ又は動き）予測が使用されたか、又は視界間予測が使用されたかを決定し得る。ビデオデコーダ３０は、次いで、それに応じて第１のエンハンスメントレイヤを復号し得る。本開示の幾つかの態様によれば、ビデオデコーダ３０は、第１のエンハンスメントレイヤを復号する前にベースレイヤの対応するピクチャをアップサンプリングし得る。

上記で説明したように、ビデオデコーダ３０、又はビデオデコーダ３０が設置された機器は、エンハンスメントレイヤの両方を復号する能力を有しないか、又は送信限定により第２のエンハンスメントレイヤが劣化するか又は廃棄されることがある。従って、第１のエンハンスメントレイヤを復号した後に、ビデオデコーダ３０は、選択された動作点（ステップ２４６）が、第２のエンハンスメントレイヤを復号することを含むかどうかを決定する（２５６）。

ビデオデコーダ３０が第２のエンハンスメントレイヤを復号しないか、又は第２のエンハンスメントレイヤがもはやビットストリーム中に存在しない場合、ビデオデコーダ３０は、第１のエンハンスメントレイヤに関連しないベースレイヤのピクチャを廃棄し、第１のエンハンスメントレイヤに関連するピクチャを表示３２に送る（２５８）。即ち、ステレオコンテンツを表示することが可能でないビデオ表示３２の場合、ビデオデコーダ３０又はビデオ表示３２は、表示より前に第１のエンハンスメントレイヤに関連しないベースレイヤのピクチャを廃棄し得る。例えば、第１のエンハンスメントレイヤがフル解像度左眼視界ピクチャを含む場合、ビデオデコーダ３０又は表示３２は、表示より前にベースレイヤの右眼視界ピクチャを廃棄し得る。代替的に、第１のエンハンスメントレイヤがフル解像度右眼視界ピクチャを含む場合、ビデオデコーダ３０又は表示３２は、表示より前にベースレイヤの左眼視界ピクチャを廃棄し得る。

別の例では、ビデオデコーダ２０が第２のエンハンスメントレイヤを復号しないか、又は第２のエンハンスメントレイヤがもはやビットストリーム中に存在しない場合、ビデオデコーダ３０は、（例えば、ベースレイヤからの）１つのアップサンプリングされたピクチャと、（例えば、エンハンスメントレイヤからの）１つのフル解像度ピクチャとを表示３２に送り得、表示３２は、左眼視界ピクチャと右眼視界ピクチャとを同時又はほぼ同時に表示し得る。即ち、第１のエンハンスメントレイヤが左視界ピクチャに対応する場合、ビデオデコーダ３０は、第１のエンハンスメントレイヤからのフル解像度左視界ピクチャと、ベースレイヤからのアップサンプリングされた右視界ピクチャとを表示３２に送り得る。代替的に、第１のエンハンスメントレイヤが右視界ピクチャに対応する場合、ビデオデコーダ３０は、第１のエンハンスメントレイヤからのフル解像度右視界ピクチャと、ベースレイヤからのアップサンプリングされた左視界ピクチャとを表示３２に送り得る。表示３２は、１つのフル解像度ピクチャと、１つのアップサンプリングされたピクチャとを同時又はほぼ同時に提示し得る。

しかしながら、ビデオデコーダ３０は第２のエンハンスメントレイヤを復号する（２６０）。上記の図３に関して説明したように、ビデオデコーダ３０は、ビデオデコーダ３０が第２のエンハンスメントレイヤを復号するのを支援するためのシンタックスを受信し得る。例えば、ビデオデコーダ３０は、第２のエンハンスメントレイヤを符号化するために、イントラ予測が使用されたか、インター予測が使用されたか、レイヤ間（例えば、テクスチャ又は動き）予測が使用されたか、又は視界間予測が使用されたかを決定し得る。ビデオデコーダ３０は、次いで、それに応じて第２のエンハンスメントレイヤを復号し得る。本開示の幾つかの態様によれば、ビデオデコーダ３０は、第１のエンハンスメントレイヤを復号する前にベースレイヤの対応する復号ピクチャをアップサンプリングし得る。代替的に、第２のエンハンスメントレイヤが第１のエンハンスメントレイヤに基づいて予測されたとデコーダ３０が決定した場合、デコーダ３０は、第２のエンハンスメントレイヤを復号するとき、復号された第１のエンハンスメントレイヤを使用し得る。

第１のエンハンスメントレイヤ（２５４）と第２のエンハンスメントレイヤ（２６０）の両方を復号した後に、ビデオデコーダ３０は、エンハンスメントレイヤからのフル解像度左視界ピクチャとフル解像度右視界ピクチャの両方を表示３２に送り得る。表示３２は、フル解像度左視界ピクチャとフル解像度右視界ピクチャとを同時又はほぼ同時に提示する（２６２）。

幾つかの例では、ビデオデコーダ３０、又はビデオデコーダ３０が設置された機器（例えば、図１に示す宛先機器１４）は３次元ビデオ再生が可能でないことがある。そのような例では、ビデオデコーダ３０は両方のピクチャを復号し得ない。即ち、デコーダ３０は、単にベースレイヤの左眼視界ピクチャを復号し、ベースレイヤの右眼視界ピクチャをスキップ（例えば、廃棄）し得る。更に、ビデオデコーダ３０は、ベースレイヤの復号された視界に対応するエンハンスメントレイヤのみを復号し得る。このようにして、機器は、機器が３次元ビデオデータを復号及び／又はレンダリングすることが可能であるか否かにかかわらず、スケーラブル多重視界ビットストリームを受信し、復号することが可能であり得る。

ビデオエンコーダとビデオデコーダとに関して一般的に説明したが、本開示の技法は他の機器及び符号化ユニットにおいて実装され得る。例えば、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを含むスケーラブル多重視界ビットストリームを形成するための技法は、２つの別個の相補型ビットストリームを受信し、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを含む単一のビットストリームを形成するためにこれらの２つのビットストリームをトランスコードするように構成されたトランスコーダによって実行され得る。別の例として、スケーラブル多重視界ビットストリームを分解するための技法は、ベースレイヤと、第１のエンハンスメントレイヤと、第２のエンハンスメントレイヤとを含むビットストリームを受信し、各々がそれぞれの視界の符号化ビデオデータを含む、ベースレイヤのそれぞれの視界に対応する２つの別個のビットストリームを生成するように構成されたトランスコーダによって実行され得る。

１つ以上の例では、説明した機能は、ハードウェア、ソフトウェア、ファームウェア、又はそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、１つ以上の命令又はコードとしてコンピュータ可読媒体上に記憶されるか、あるいはコンピュータ可読媒体を介して送信され、ハードウェアベースの処理ユニットによって実行され得る。コンピュータ可読媒体は、例えば、通信プロトコルに従って、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含むデータ記憶媒体又は通信媒体などの有形媒体に対応するコンピュータ可読記憶媒体を含み得る。このようにして、コンピュータ可読媒体は、概して、（１）非一時的である有形コンピュータ可読記憶媒体、あるいは（２）信号又は搬送波などの通信媒体に対応し得る。データ記憶媒体は、本開示で説明した技法の実装のための命令、コード及び／又はデータ構造を取り出すために１つ以上のコンピュータあるいは１つ以上のプロセッサによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータプログラム製品はコンピュータ可読媒体を含み得る。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ又は他の光ディスクストレージ、磁気ディスクストレージ、又は他の磁気ストレージ機器、フラッシュメモリ、あるいは命令又はデータ構造の形態の所望のプログラムコードを記憶するために使用され得、コンピュータによってアクセスされ得る、任意の他の媒体を備えることができる。また、いかなる接続もコンピュータ可読媒体と適切に呼ばれる。例えば、命令が、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ）、又は赤外線、無線、及びマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバ、又は他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、又は赤外線、無線、及びマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。但し、コンピュータ可読記憶媒体及びデータ記憶媒体は、接続、搬送波、信号、又は他の一時媒体を含まないが、代わりに非一時的有形記憶媒体を対象とすることを理解されたい。本明細書で使用するディスク（disk）及びディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザディスク（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）及びブルーレイ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

命令は、１つ以上のデジタル信号プロセッサ（ＤＳＰ）などの１つ以上のプロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブル論理アレイ（ＦＰＧＡ）、あるいは他の等価な集積回路又はディスクリート論理回路によって実行され得る。従って、本明細書で使用する「プロセッサ」という用語は、前述の構造、又は本明細書で説明した技法の実装に好適な他の構造のいずれかを指し得る。更に、幾つかの態様では、本明細書で説明した機能は、符号化及び復号のために構成された専用のハードウェア及び／又はソフトウェアモジュール内に与えられ得、あるいは複合コーデックに組み込まれ得る。また、本技法は、１つ以上の回路又は論理要素中に十分に実装され得る。

本開示の技法は、ワイヤレスハンドセット、集積回路（ＩＣ）又はＩＣのセット（例えば、チップセット）を含む、多種多様な機器又は装置において実施され得る。本開示では、開示する技法を実行するように構成された機器の機能的態様を強調するために様々な構成要素、モジュール、又はユニットについて説明したが、それらの構成要素、モジュール、又はユニットを、必ずしも異なるハードウェアユニットによって実現する必要はない。むしろ、上記で説明したように、様々なユニットが、好適なソフトウェア及び／又はファームウェアと共に、上記で説明したように１つ以上のプロセッサを含んで、コーデックハードウェアユニットにおいて組み合わせられるか、又は相互動作ハードウェアユニットの集合によって与えられ得る。

Claims

ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを復号する方法であって、
第１の解像度を有し、前記第１の解像度に対する左視界の低解像度バージョンと、前記第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを復号することと、
前記第１の解像度を有し、前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することと、前記復号されたエンハンスメントレイヤデータを、前記復号されたエンハンスメントレイヤがそれに対応する前記復号されたベースレイヤデータの前記左視界又は前記右視界のうちの前記１つと組み合わせることと、
を備え、前記エンハンスメントデータが前記第１の解像度を有し、前記エンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分に対して前記エンハンスメントレイヤデータを復号することを備える、方法。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを復号することを更に含み、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対する前記第２のエンハンスメントレイヤデータを復号することを備える、請求項１に記載の方法。
前記第２のエンハンスメントレイヤデータを復号することが、前記第２のエンハンスメントレイヤに対応する前記ベースレイヤデータの前記視界のアップサンプリングされたバージョンから前記第２のエンハンスメントレイヤデータのためのレイヤ間予測データを取り出すことを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項２に記載の方法。
前記第２のエンハンスメントレイヤデータを復号することが、前記第１の解像度を有する前記ベースレイヤの他の視界のアップサンプリングされたバージョンと前記第１のエンハンスメントレイヤデータとのうちの少なくとも１つから前記第２のエンハンスメントレイヤデータのための視界間予測データを取り出すことを備える、請求項２に記載の方法。
前記予測データが、前記第１の解像度を有する前記ベースレイヤの前記他の視界の前記アップサンプリングされたバージョンに関連するのか前記第１のエンハンスメントレイヤデータに関連するのかを示す前記第２のエンハンスメントレイヤに関連するスライスヘッダ中にある参照ピクチャリスト構成データを復号することを更に備える、請求項４に記載の方法。
前記第１のエンハンスメントレイヤデータを復号することが、前記第１のエンハンスメントレイヤに対応する前記ベースレイヤデータの前記視界のアップサンプリングされたバージョンから前記第１のエンハンスメントレイヤデータのためのレイヤ間予測データを取り出すことを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項１に記載の方法。
前記第１のエンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの前記他の視界のアップサンプリングされたバージョンから前記第１のエンハンスメントレイヤデータのための視界間予測データを取り出すことを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項１に記載の方法。
ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを復号するための装置であって、
第１の解像度を有し、前記第１の解像度に対する左視界の低解像度バージョンと、前記第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを復号することと、
前記第１の解像度を有し、前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することと、
前記復号されたエンハンスメントレイヤデータを、前記復号されたエンハンスメントレイヤがそれに対応する前記復号されたベースレイヤデータの前記左視界又は前記右視界のうちの前記１つと組み合わせることと、
を行うように構成され、前記エンハンスメントデータが前記第１の解像度を有し、前記エンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分に対する前記エンハンスメントレイヤデータを復号することを備える、ビデオデコーダを備える、装置。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記ビデオデコーダは、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを復号することを行うように更に構成され、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対する前記第２のエンハンスメントレイヤデータを復号することを備える、請求項8に記載の装置。
前記第２のエンハンスメントレイヤデータを復号するために、前記デコーダは、前記第２のエンハンスメントレイヤに対応する前記ベースレイヤデータの前記視界のアップサンプリングされたバージョンから前記第２のエンハンスメントレイヤデータのためのレイヤ間予測データを取り出すことを行うように構成され、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項９に記載の装置。
前記第２のエンハンスメントレイヤデータを復号するために、前記デコーダは、前記第１の解像度を有する前記ベースレイヤの他の視界のアップサンプリングされたバージョンと前記第１のエンハンスメントレイヤデータとのうちの少なくとも１つから前記第２のエンハンスメントレイヤデータのための視界間予測データを取り出すように構成された、請求項９に記載の装置。
前記ビデオデコーダは、前記予測データが、前記第１の解像度を有する前記ベースレイヤの前記他の視界の前記アップサンプリングされたバージョンに関連するのか前記第１のエンハンスメントレイヤデータに関連するのかを示す前記第２のエンハンスメントレイヤに関連するスライスヘッダ中にある参照ピクチャリスト構成データを復号するように更に構成された、請求項１１に記載の装置。
前記第１のエンハンスメントレイヤデータを復号するために、前記デコーダは、前記第１のエンハンスメントレイヤに対応する前記ベースレイヤデータの前記視界のアップサンプリングされたバージョンから前記第１のエンハンスメントレイヤデータのためのレイヤ間予測データを取り出すことを行うように構成され、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項８に記載の装置。
前記第１のエンハンスメントレイヤデータを復号するために、前記デコーダは、前記ベースレイヤデータの前記他の視界のアップサンプリングされたバージョンから前記第１のエンハンスメントレイヤデータのための視界間予測データを取り出すことを行うように構成され、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項８に記載の装置。
前記装置が、
集積回路と、
マイクロプロセッサと、
前記ビデオエンコーダを含むワイヤレス通信機器と
のうちの少なくとも１つを備える、請求項８に記載の装置。
ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを復号するための装置であって、
第１の解像度を有し、前記第１の解像度に対する左視界の低解像度バージョンと、前記第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを復号するための手段と、
前記第１の解像度を有し、前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号するための手段と、
前記復号されたエンハンスメントレイヤデータを、前記復号されたエンハンスメントレイヤがそれに対応する前記復号されたベースレイヤデータの前記左視界又は前記右視界のうちの前記１つと組み合わせるための手段と、
を備え、前記エンハンスメントデータが前記第１の解像度を有し、前記エンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分に対する前記エンハンスメントレイヤデータを復号することを備える、装置。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを復号するための手段を更に備え、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対して前記第２のエンハンスメントレイヤデータを復号することを備える、請求項１６に記載の装置。
実行されたとき、
第１の解像度を有し、前記ベースレイヤデータが、前記第１の解像度に対する左視界の低解像度バージョンと、前記第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを復号することと、
前記第１の解像度を有し、前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを復号することと、
前記復号されたエンハンスメントレイヤデータを、前記復号されたエンハンスメントレイヤがそれに対応する前記復号されたベースレイヤデータの前記左視界又は前記右視界のうちの前記１つと組み合わせることと、
を、ベースレイヤデータとエンハンスメントレイヤデータとを有するビデオデータを復号するための機器のプロセッサに行わせる命令を記憶し、前記エンハンスメントデータが前記第１の解像度を有し、前記エンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分に対する前記エンハンスメントレイヤデータを復号することを備える、コンピュータ可読記憶媒体を備えるコンピュータプログラム製品。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを復号することを前記プロセッサに行わせる命令を更に備え、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対する前記エンハンスメントレイヤデータを復号することを備える、請求項１８に記載のコンピュータプログラム製品。
ベースレイヤデータとエンハンスメントレイヤデータとを備えるビデオデータを符号化する方法であって、
第１の解像度を有し、前記第１の解像度に対する左視界の低解像度バージョンと、前記第１の解像度に対する右視界の低解像度バージョンとを備えるベースレイヤデータを符号化することと、
第１の解像度を有し、前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化することと、、
を備え、前記エンハンスメントデータが前記第１の解像度を有し、前記エンハンスメントレイヤデータを復号することが、前記ベースレイヤデータの少なくとも一部分に対する前記エンハンスメントレイヤデータを復号することを備える、方法。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを符号化することを更に備え、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを符号化することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対して前記第２のエンハンスメントレイヤデータを符号化することを備える、請求項２０に記載の方法。
前記第２のエンハンスメントレイヤデータを符号化することが、前記第２のエンハンスメントレイヤに対応する前記ベースレイヤデータの前記視界のアップサンプリングされたバージョンから前記第２のエンハンスメントレイヤデータをレイヤ間予測することを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項２１に記載の方法。
前記第２のエンハンスメントレイヤデータを符号化することが、前記第１の解像度を有する前記ベースレイヤの他の視界のアップサンプリングされたバージョンと前記第１のエンハンスメントレイヤデータとのうちの少なくとも１つから前記第２のエンハンスメントレイヤデータを視界間予測することを備える、請求項２１に記載の方法。
前記第１のエンハンスメントレイヤデータと前記第２のエンハンスメントレイヤデータとのうちの少なくとも１つのために、レイヤ間予測が使用可能かどうか、及び視界間予測が使用可能かどうかを示す情報を提供することを更に備える、請求項２１に記載の方法。
前記ベースレイヤと前記第１のエンハンスメントレイヤと前記第２のエンハンスメントレイヤとを備える表現の動作点を示す情報を提供することを更に備え、前記動作点を示す前記情報は、前記動作点の各々中に含まれるレイヤと、前記動作点の最大フレームレートを表す最大時間識別子と、前記動作点が準拠するビデオ符号化プロファイルを表すプロファイルインジケータと、前記動作点が準拠する前記ビデオ符号化プロファイルのレベルを表すレベルインジケータと、前記動作点の平均フレームレートとを示す、請求項２１に記載の方法。
前記予測データが、前記第１の解像度を有する前記ベースレイヤの前記他の視界の前記アップサンプリングされたバージョンに関連するのか前記第１のエンハンスメントレイヤデータに関連するのかを示す前記第２のエンハンスメントレイヤに関連するスライスヘッダ中にある参照ピクチャリスト構成データを符号化することを更に備える、請求項２１に記載の方法。
前記エンハンスメントレイヤデータを符号化することは、前記ベースレイヤデータの対応する左視界又は右視界のアップサンプリングされたバージョンから前記エンハンスメントレイヤデータをレイヤ間予測することを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項２０に記載の方法。
前記エンハンスメントレイヤデータを符号化することは、前記ベースレイヤデータの対応する左視界又は右視界の反対側の視界のアップサンプリングされたバージョンから前記エンハンスメントレイヤデータを視界間予測することを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項２０に記載の方法。
あるシーンの左視界と前記シーンの右視界とを備えるビデオデータを符号化するための装置であって、
前記左視界が第１の解像度を有し、前記右視界が前記第１の解像度を有し、前記第１の解像度に対する前記左視界の低解像度バージョンと、前記第１の解像度に対する前記右視界の前記低解像度バージョンとを備えるベースレイヤデータを符号化することと、前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化することと、前記ベースレイヤデータと前記エンハンスメントレイヤデータとを出力することとを行うように構成され、前記エンハンスメントデータが前記第１の解像度を有する、ビデオエンコーダを備える、装置。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記ビデオエンコーダは、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを符号化することを行うように更に構成され、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを符号化することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対する前記第２のエンハンスメントレイヤデータを符号化することを備える、請求項２９に記載の装置。
前記第２のエンハンスメントレイヤデータを符号化することが、前記第２のエンハンスメントレイヤに対応する前記ベースレイヤデータの前記視界のアップサンプリングされたバージョンから前記第２のエンハンスメントレイヤデータをレイヤ間予測することを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項３０に記載の装置。
前記第２のエンハンスメントレイヤデータを符号化することが、前記第１の解像度を有する前記ベースレイヤの他の視界のアップサンプリングされたバージョンと前記第１のエンハンスメントレイヤデータとのうちの少なくとも１つから前記第２のエンハンスメントレイヤデータを視界間予測することを備える、請求項３０に記載の装置。
前記ビデオエンコーダは、前記第１のエンハンスメントレイヤデータと前記第２のエンハンスメントレイヤデータとのうちの少なくとも１つのために、レイヤ間予測が使用可能かどうか、及び視界間予測が使用可能かどうかを示す情報を提供するように更に構成された、請求項３０に記載の装置。
前記ビデオエンコーダは、前記ベースレイヤと前記第１のエンハンスメントレイヤと前記第２のエンハンスメントレイヤとを備える表現の動作点を示す情報を提供することを行うように更に構成され、前記動作点を示す前記情報は、前記動作点の各々中に含まれるレイヤと、前記動作点の最大フレームレートを表す最大時間識別子と、前記動作点が準拠するビデオ符号化プロファイルを表すプロファイルインジケータと、前記動作点が準拠する前記ビデオ符号化プロファイルのレベルを表すレベルインジケータと、前記動作点の平均フレームレートとを示す、請求項３０に記載の装置。
前記ビデオエンコーダは、前記予測データが、前記第１の解像度を有する前記ベースレイヤの前記他の視界の前記アップサンプリングされたバージョンに関連するのか前記第１のエンハンスメントレイヤデータに関連するのかを示す前記第２のエンハンスメントレイヤに関連するスライスヘッダ中にある参照ピクチャリスト構成データを符号化するように更に構成された、請求項３０に記載の装置。
前記エンハンスメントレイヤデータを符号化することは、前記ベースレイヤデータの対応する左視界又は右視界のアップサンプリングされたバージョンから前記エンハンスメントレイヤデータをレイヤ間予測することを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項２９に記載の装置。
前記エンハンスメントレイヤデータを符号化することは、前記ベースレイヤデータの対応する左視界又は右視界の反対側の視界のアップサンプリングされたバージョンから前記エンハンスメントレイヤデータを視界間予測することを備え、前記アップサンプリングされたバージョンが前記第１の解像度を有する、請求項２９に記載の装置。
前記装置が、
集積回路と、
マイクロプロセッサと、
前記ビデオエンコーダを含むワイヤレス通信機器と
のうちの少なくとも１つを備える、請求項２９に記載の装置。
あるシーンの左視界と前記シーンの右視界とを備えるビデオデータを符号化するための装置であって、
前記左視界が第１の解像度を有し、前記右視界が前記第１の解像度を有し、
前記第１の解像度に対する前記左視界の低解像度バージョンと、前記第１の解像度に対する前記右視界の前記低解像度バージョンとを備えるベースレイヤデータを符号化するための手段と、
前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備えるエンハンスメントレイヤデータを符号化するための手段と、
前記ベースレイヤデータと前記エンハンスメントレイヤデータとを出力するための手段と、
を備え、前記エンハンスメントデータが前記第１の解像度を有する、装置。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを符号化するための手段を更に備え、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを符号化することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対する前記第２のエンハンスメントレイヤデータを符号化することを備える、請求項３９に記載の装置。
実行されたとき、
あるシーンの左視界と前記シーンの右視界とを備え、前記左視界が第１の解像度を有し、前記右視界が前記第１の解像度を有する、ビデオデータを受信することと、
前記第１の解像度に対する前記左視界の低解像度バージョンと、前記第１の解像度に対する前記右視界の前記低解像度バージョンとを備えるベースレイヤデータを符号化することと、
前記左視界と前記右視界とのうちの厳密に１つのためのエンハンスメントデータを備え、前記エンハンスメントデータが前記第１の解像度を有する、エンハンスメントレイヤデータを符号化することと、
前記ベースレイヤデータと前記エンハンスメントレイヤデータとを出力することと、
を、ビデオデータを符号化するための機器のプロセッサに行わせる命令を記憶したコンピュータ可読記憶媒体を備えるコンピュータプログラム製品。
前記エンハンスメントレイヤデータが第１のエンハンスメントレイヤデータを備え、実行されたとき、前記第１のエンハンスメントレイヤデータとは別個に、前記第１のエンハンスメントレイヤデータに関連しない前記左視界と前記右視界とのうちの厳密に１つのための第２のエンハンスメントレイヤデータを符号化することを、ビデオデータを符号化するための機器のプロセッサに行わせる命令を更に備え、前記第２のエンハンスメントレイヤが前記第１の解像度を有し、前記第２のエンハンスメントレイヤデータを符号化することが、前記ベースレイヤデータの少なくとも一部分又は第１のエンハンスメントレイヤデータの少なくとも一部分に対する前記第２のエンハンスメントレイヤデータを符号化することを備える、請求項４１に記載のコンピュータプログラム製品。