JP2015046899A

JP2015046899A - ２次元ビデオシーケンスとともに行われる３次元変換情報の符号化（ｅｎｃｏｄｉｎｇｏｆｔｈｒｅｅ−ｄｉｍｅｎｓｉｏｎａｌｃｏｎｖｅｒｓｉｏｎｉｎｆｏｒｍａｔｉｏｎｗｉｔｈｔｗｏ−ｄｉｍｅｎｓｉｏｎａｌｖｉｄｅｏｓｅｑｕｅｎｃｅ）

Info

Publication number: JP2015046899A
Application number: JP2014205047A
Authority: JP
Inventors: イン・チェン; Ying Chen; マルタ・カークゼウィックズ; Karczewicz Marta
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2009-06-05
Filing date: 2014-10-03
Publication date: 2015-03-12
Also published as: CN102450015A; US9124874B2; TW201105112A; WO2010141927A1; EP2438760A1; US20100309286A1; KR20120024947A; KR101377928B1; JP2012529787A

Abstract

【課題】ビデオフレームからなる２次元（２Ｄ）ビデオシーケンスを、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む３次元（３Ｄ）変換情報とともに符号化するための技法を提供する。【解決手段】ビデオ符号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを符号化することと、ビデオ符号器を用いて３次元（３Ｄ）変換情報を符号化することと、を含む。３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、符号化２Ｄシーケンスを３Ｄ変換情報とともに伝達する。【選択図】図７

Description

（関連出願の相互参照）
本出願は、２００９年６月５日に出願された、米国仮出願第６１／１８４６４９号の利益を主張し、同仮出願の内容全体が、参照により本明細書に組み込まれる。

（技術分野）
本開示は、ビデオ符号化と、２次元（２Ｄ）ビデオデータの３次元（３Ｄ）ビデオデータへの変換に関する。

デジタルマルチメディア機能は、たとえばデジタルテレビ、デジタル直接ブロードキャスト・システム（digital direct broadcast systems）、無線通信デバイス、無線ブロードキャスト・システム、携帯情報端末（ＰＤＡ）、ラップトップ・コンピュータまたはデスクトップ・コンピュータ、デジタルカメラ、デジタル記録デバイス、ビデオゲームデバイス、ビデオゲームコンソール、セルラー電話または衛星無線電話、デジタル・メディア・プレーヤなどを含む、多種多様なデバイスに組み込むことができる。デジタルマルチメディアデバイスは、デジタルビデオデータの送受信又は記憶及び検索をより効率的に行うために、たとえばＭＰＥＧ−２、ＩＴＵ−Ｈ．２６３、ＭＰＥＧ−４、またはＩＴＵ−Ｈ．２６４／ＭＰＥＧ−４Ｐａｒｔ１０、高度ビデオ符号化（Advanced Video Coding）（ＡＶＣ）などのようなビデオ符号化技法を実装することができる。ビデオ符号化技法は、ビデオシーケンスに内在する冗長性を低減または除去するために、空間的予測および時間的予測を用いるビデオ圧縮を実行することができる。

従来のビデオシーケンスのほとんどは、２次元（２Ｄ）ビューイング・フォーマットで提供される。しかし、３次元（３Ｄ）シーケンスも可能であり、その場合、ビデオシーケンスは、各ビデオフレームに関連付けられる２つ以上のビューを有する。この場合、２つ以上のビューは、３Ｄビデオをレンダリングするために、３Ｄディスプレイにおいて組み合わせることができる。３Ｄビデオシーケンスの伝達には、２Ｄビデオシーケンスと比べて、相当量の追加的データを必要とすることがある。例えば、３Ｄビデオシーケンスを伝達する場合、２Ｄビデオフレーム毎に２つの異なるビューを提供するために、２つの別個のビデオフレームが必要とされることがあり、その結果、伝達されるデータの量がほぼ２倍になることがある。

本開示は、ビデオフレームからなる２次元（２Ｄ）ビデオシーケンスを、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む３次元（３Ｄ）変換情報とともに符号化するための技法について説明する。本開示は、２Ｄビデオシーケンスと３Ｄ変換情報の伝達及び復号についても説明する。一組のパラメータは、オリジナル・ビデオフレームの各々についてのセカンダリ・ビュー・ビデオフレームを生成するために、２Ｄシーケンス内のオリジナル・ビデオフレームの各々に適用できる、相対的に少量のデータを含むことができる。オリジナル・ビデオフレームとセカンダリ・ビュー・ビデオフレームとは、一緒になって（collectively）、立体視（stereoscopic）３Ｄビデオシーケンスを定義することができる。２Ｄシーケンスと一組のパラメータは、他の方法で３Ｄシーケンスを伝達するために必要とされるよりも、著しく少ないデータを含むことができる。２Ｄシーケンスと一組のパラメータは、オリジナル２Ｄシーケンスを伝達するのに必要なデータに加えて、無視できるほどの増加分を含むことができる。本開示は、一組のパラメータを効果的かつ効率的な方法で符号化するために使用できる、いくつかの例示的なシンタックスについても説明する。

受信デバイスは、該受信デバイスが３Ｄ復号又は３Ｄレンダリングをサポートしない場合であっても、２Ｄシーケンスを復号及びレンダリングすることができる。他方、受信デバイスは、該受信デバイスが本開示による３Ｄ復号及び３Ｄレンダリングをサポートする場合、２Ｄシーケンス及び一組のパラメータに基づいて、３Ｄシーケンスを生成し、レンダリングすることができる。このように、本開示の技法は、下位互換性のある（backward compatible）２Ｄ−３Ｄビデオ符号化及び変換（2D to 3D video coding and conversion）をサポートすることができ、２Ｄビデオ出力のレンダリングにも、または３Ｄビデオ出力のレンダリングにも、同じビットストリームを使用することができる。さらに、言及したように、説明する技法は、３Ｄビデオシーケンスの伝達に必要とされるデータの量を削減することができる。

一例では、本開示は、ビデオ符号器においてビデオフレームからなる２Ｄシーケンスを符号化することと、ビデオ符号器を用いて３Ｄ変換情報を符号化することと、ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、符号化２Ｄシーケンスを３Ｄ変換情報とともに伝達することを含む方法について説明する。

他の例では、本開示は、ビデオ復号器においてビデオフレームからなる２Ｄシーケンスを受け取ることと、ビデオ復号器において２Ｄシーケンスとともに３Ｄ変換情報を受け取ることと、ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、ビデオ復号器を用いて２Ｄシーケンスを復号することと、２Ｄシーケンス及び３Ｄ変換情報に基づいて、ビデオ復号器を用いて３Ｄビデオデータを生成することを含む方法について説明する。

他の例では、本開示は、ビデオフレームからなる２Ｄシーケンスを符号化し、２Ｄシーケンスとともに３Ｄ変換情報を符号化するビデオ符号器を含み、ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む装置について説明する。

他の例では、本開示は、ビデオフレームからなる２Ｄシーケンスを受け取り、２Ｄシーケンスとともに３Ｄ変換情報を受け取り、ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、２Ｄシーケンスを復号し、２Ｄシーケンス及び３Ｄ変換情報に基づいて３Ｄビデオデータを生成するビデオ復号器を含む装置について説明する。

他の例では、本開示は、ビデオ符号器においてビデオフレームからなる２Ｄシーケンスを符号化するための手段と、ビデオ符号器を用いて３Ｄ変換情報を符号化するための手段と、ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、符号化２Ｄシーケンスを３Ｄ変換情報とともに伝達するための手段とを含むデバイスについて説明する。

他の例では、本開示は、ビデオ復号器においてビデオフレームからなる２Ｄシーケンスを受け取るための手段と、ビデオ符号器において２Ｄシーケンスとともに３Ｄ変換情報を受け取るための手段と、ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、２Ｄシーケンスを復号するための手段と、２Ｄシーケンス及び３Ｄ変換情報に基づいて３Ｄビデオデータを生成するための手段とを含むデバイスについて説明する。

他の例では、本開示は、３Ｄビデオデータを生成するために、３Ｄ変換情報を２Ｄシーケンスに適用する、方法、装置、またはデバイスについて説明し、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む。

本開示で説明する技法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装することができる。ソフトウェアで実装される場合、ソフトウェアは、たとえばマイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、またはデジタル信号プロセッサ（ＤＳＰ）などのような、１つまたは複数のプロセッサで実行することができる。技法を実行するソフトウェアは、最初にコンピュータ読み取り可能な媒体に記憶してから、プロセッサにロードし、プロセッサで実行することができる。

したがって、本開示は、プロセッサによって実行された場合に、プロセッサに、ビデオフレームからなる２Ｄシーケンスを符号化させ、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む３Ｄ変換情報を符号化させる命令を含むコンピュータ読み取り可能な記憶媒体についても企図している。

加えて、本開示は、プロセッサによって実行された場合に、プロセッサに、ビデオフレームからなる２Ｄシーケンスの受け取り、及び、２Ｄシーケンスとともに、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む３Ｄ変換情報の受け取りに応じて、２Ｄシーケンスを復号させ、２Ｄシーケンス及び３Ｄ変換情報に基づいて３Ｄビデオデータを生成させる命令を含むコンピュータ読み取り可能な記憶媒体について説明する。

本開示の１つまたは複数の態様が、細部にわたって、添付の図面と以下の説明において説明される。本開示で説明する技法の他の特徴、目的、および利点は、それらの説明および図面、ならびに特許請求の範囲から明らかになろう。

図１は、本開示の技法を実装できる例示的なビデオ符号化及び復号システムを示すブロック図である。図２は、本開示による２次元（２Ｄ）及び３次元（３Ｄ）ビデオ符号化を実行できる例示的なビデオ符号器を示すブロック図である。図３は、本開示による２Ｄ及び３Ｄビデオ復号を実行できる例示的なビデオ復号器を示すブロック図である。図４は、３Ｄ変換パラメータに基づいて適用できる２Ｄ−３Ｄ変換の態様を示す概念図である。図５は、３Ｄ変換パラメータに基づいて適用できる２Ｄ−３Ｄ変換の態様を示す概念図である。図６は、３Ｄ変換パラメータに基づいて適用できる２Ｄ−３Ｄ変換の態様を示す概念図である。図７は、本開示によるビデオ符号化デバイスによって実行される例示的なプロセスを示すフローチャートである。図８は、本開示によるビデオ復号デバイスによって実行される例示的なプロセスを示すフローチャートである。

詳細な説明

本開示は、ビデオフレームからなる２次元（２Ｄ）ビデオシーケンスを、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む３次元（３Ｄ）変換情報（three-dimensional (3D) conversion information）とともに符号化するための、技法について説明する。３Ｄ変換情報は、ビデオシーケンス内の異なるフレーム毎に異なることはなく、オリジナル・ビデオフレーム（original video frames）の各々についてのセカンダリ・ビュー・ビデオフレーム（secondary view video frames）を生成するために、２Ｄシーケンス内のオリジナル・ビデオフレームの各々に適用できる、相対的に少量のデータを形成する、共通の一組のパラメータを含む。オリジナル・ビデオフレームとセカンダリ・ビュー・ビデオフレームとは、一緒になって、３Ｄディスプレイ上でレンダリングできる、立体視３Ｄビデオシーケンスを定義することができる。本開示によれば、２Ｄシーケンスと一組のパラメータは、他の方法で３Ｄシーケンスを伝達するために必要とされるよりも、著しく少ないデータを含むことができる。

一例では、３Ｄ変換情報は、オリジナル・ビデオフレームの各々についてのセカンダリ・ビューを生成するために、２Ｄシーケンス内のオリジナル・ビデオフレームの各々に適用できる、２０バイト未満のデータを含むことができる。本開示の技法は、たとえばＭＰＥＧ−２、ＭＰＥＧ−４、ＩＴＵＨ．２６３、ＩＴＵＨ．２６４、独自仕様の符号化規格（proprietary coding standards）または将来の符号化規格などのような、多くの符号化環境において役立てることができる。ＩＴＵＨ．２６４フレームワークに従って、本開示は、ビデオ規格に準拠した２Ｄビデオシーケンスとともに３Ｄ変換情報を伝達するためのメカニズムとして、補助拡張情報（supplemental enhancement information）（ＳＥＩ）メッセージを使用することができる。

受信デバイスは、該受信デバイスが３Ｄ復号又は３Ｄレンダリングをサポートしない場合であっても、２Ｄシーケンスを復号し、レンダリングすることができる。しかし、受信デバイスは、該受信デバイスが本開示による３Ｄ復号及び３Ｄレンダリングをサポートする場合、２Ｄシーケンス及び一組のパラメータに基づいて、３Ｄシーケンスを生成し、レンダリングすることができる。このように、本開示の技法は、スケーラブルな２Ｄ−３Ｄビデオ符号化（scalable 2D to 3D video coding）をサポートすることができ、２Ｄビデオ出力のレンダリングにも、または３Ｄビデオ出力のレンダリングにも、同じビットストリームを使用することができる。さらに、言及したように、説明する技法は、３Ｄビデオシーケンスの伝達に必要とされるデータの量を削減することができる。

本開示は、一組のパラメータを効果的かつ効率的な方法で符号化するために使用できる、いくつかの例示的なシンタックスについても説明する。例えば、いくつかの実装では、３Ｄ変換情報の伝達のために、ＩＴＵＨ．２６４のＳＥＩメッセージにおけるシンタックス要素（syntax elements）を使用することができる。一例では、以下でより詳細に説明するように、３Ｄ変換情報は、３Ｄ変換情報に明示的な（explicit）一組の３Ｄパラメータが含まれるかどうか、またはデフォルトの一組の３Ｄパラメータを使用すべきかどうかを指示する、第１のフラグを含むことができ、明示的な一組の３Ｄパラメータは、第１のフラグが設定されているときに、３Ｄ変換情報に含まれる。この場合、第１のフラグが設定されていなければ、復号器は、デフォルト３Ｄパラメータを適用しておくことができる。

３Ｄ変換情報は、２Ｄシーケンスの第２のビューを２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する、第２のフラグも含むことができる。この場合、第２のフラグは、復号器で生成されるセカンダリ・ビューのオリエンテーション（orientation）（例えば、オリジナル・ビデオフレームの左側または右側）を提供することによって、３Ｄレンダリングを支援することができる。さらに、３Ｄ変換情報は、３Ｄビデオデータからクロップ領域（crop region）を除去すべきかどうかを識別する、第３のフラグを含むことができ、クロップ領域を定義する情報は、第３のフラグが設定されているときに、３Ｄ変換情報に含まれる。第３のフラグが設定されていない場合、３Ｄビデオデータの生成及び３Ｄレンダリングの際に、クロッピング（cropping）を回避することができる。場合によっては、第１のフラグが設定されていない場合、第２のフラグ及び第３のフラグは、ビットストリームから排除することができる。フラグは、シングルビット・フラグまたはマルチビット・フラグを含むことができる。

図１は、本開示の技法を実装できる例示的なビデオ符号化及び復号システム１０を示すブロック図である。図１に示されるように、システム１０は、通信チャネル１５を介して宛先デバイス１６に符号化ビデオを送信する、ソース・デバイス１２を含む。ソース・デバイス１２及び宛先デバイス１６は、モバイル・デバイスまたは通常は固定されたデバイスを含む、多種多様なデバイスのいずれかを含むことができる。場合によっては、ソース・デバイス１２及び宛先デバイス１６は、たとえば無線ハンドセット、いわゆるセルラー電話もしくは衛星無線電話、携帯情報端末（ＰＤＡ）、モバイルメディアプレーヤ、または無線でも良くもしくは無線でなくても良い通信チャネル１５を介してビデオ情報を伝達できる任意のデバイスなどのような、無線通信デバイスを含む。しかし、２Ｄビデオシーケンスとともに行われる３Ｄ変換情報の生成、伝達及び使用に関する本開示の技法は、多くの異なるシステムおよび環境において使用することができる。図１は、そのようなシステムの一例であるにすぎない。

図１の例では、ソース・デバイス１２は、ビデオソース２０と、ビデオ符号器２２と、変調器／復調器（モデム）２３と、送信機２４とを含むことができる。宛先デバイス１６は、受信機２６と、モデム２７と、ビデオ復号器２８と、表示デバイス３０とを含むことができる。本開示によれば、ソース・デバイス１２のビデオ符号器２２は、ビデオフレームからなる２Ｄシーケンスを符号化し、３Ｄ変換情報（３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む）を符号化するように構成することができる。モデム２３及び送信機２４は、無線信号を変調し、宛先デバイスに送信することができる。このようにして、ソース・デバイス１２は、符号化２Ｄシーケンスを３Ｄ変換情報とともに宛先デバイス１６に伝達する。

受信機２６及びモデム２７は、ソース・デバイス１２から無線信号を受信し、復調する。したがって、ビデオ復号器２８は、２Ｄシーケンスと、２Ｄシーケンスを復号する３Ｄ変換情報とを受け取ることができる。本開示によれば、ビデオ復号器２８は、２Ｄシーケンス及び３Ｄ変換情報に基づいて、３Ｄビデオデータを生成することができる。やはり、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含むことができ、そして、それは、他の方法で３Ｄシーケンスを伝達するために必要とされるよりも、著しく少ないデータを含むことができる。

言及したように、図１に示されるシステム１０は、例示的なものにすぎない。本開示の技法は、１次ブロックベースのビデオ符号化（first order block-based video coding）をサポートする、任意の符号化デバイスまたは技法に拡張することができる。ソース・デバイス１２及び宛先デバイス１６は、そのような符号化デバイスの例であるにすぎず、ソース・デバイス１２は、宛先デバイス１６に送信するための符号化ビデオデータを生成する。場合によっては、デバイス１２，１６は、デバイス１２，１６の各々が、ビデオ符号化コンポーネントと、ビデオ復号コンポーネントとを含むように、実質的に対称をなして動作することができる。したがって、システム１０は、例えば、ビデオ・ストリーミング、ビデオ再生（video playback）、ビデオ放送（video broadcasting）又はビデオ電話（video telephony）のために、ビデオ・デバイス１２，１６間の一方向又は双方向ビデオ送信をサポートすることができる。

ソース・デバイス１２のビデオソース２０は、ビデオ・キャプチャ・デバイス（たとえばビデオカメラなど）、以前にキャプチャしたビデオを格納したビデオ・アーカイブ、またはビデオコンテンツ・プロバイダからのビデオ・フィード（video feed）を含むことができる。さらなる代替として、ビデオソース２０は、コンピュータ生成ビデオ（computer-generated video）、アーカイブ・ビデオ（archived video）、およびライブ・ビデオ（live video）の組み合せ、またはソースビデオとして、コンピュータ・グラフィックス・ベースのデータを生成することができる。場合によっては、ビデオソース２０がビデオカメラである場合、ソース・デバイス１２及び宛先デバイス１６は、いわゆるカメラフォンまたはビデオフォンを形成することができる。どちらの場合も、キャプチャしたビデオ、事前にキャプチャしたビデオ、またはコンピュータで生成したビデオを、ビデオ符号器２２によって符号化することができる。その後、符号化ビデオ情報は、モデム２３によって、例えば、符号分割多元接続（ＣＤＭＡ）または他の通信規格などの通信規格に従って変調し、送信機２４を介して宛先デバイス１６に送信することができる。モデム２３は、様々な混合器、フィルタ、増幅器、または信号変調用に設計された他のコンポーネントを含むことができる。送信機２４は、増幅器、フィルタ、および１つまたは複数のアンテナを含む、データ送信用に設計された回路を含むことができる。

宛先デバイス１６の受信機２６は、チャネル１５を介して情報を受信し、モデム２７は、情報を復調する。やはり、ビデオ符号化プロセスは、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを決定するために、本明細書で説明する技法の１つまたは複数を実装することができる。チャネル１５を介して伝達される情報は、ビデオ符号器２２によって定義された情報を含むことができ、その情報は、本開示に従ってビデオ復号器２８によって使用することができる。表示デバイス３０は、復号ビデオデータをユーザに表示し、また、たとえばブラウン管、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、または他のタイプの表示デバイスなどのような、様々な表示デバイスのいずれかを含むことができる。

図１の例では、通信チャネル１５は、たとえば無線周波数（ＲＦ）スペクトル、または１つもしくは複数の物理的伝送線、あるいは無線媒体と有線媒体の任意の組み合せなどのような、任意の無線又は有線の通信媒体を含むことができる。したがって、モデム２３及び送信機２４は、多くの可能な無線プロトコル、有線プロトコル、又は、有線及び無線プロトコルをサポートすることができる。通信チャネル１５は、たとえば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、または、１つもしくは複数のネットワークの相互接続を含むグローバルネットワーク（たとえばインターネット）などのような、パケットベースのネットワークの部分を形成することができる。通信チャネル１５は、ソース・デバイス１２から宛先デバイス１６にビデオデータを送信するための、任意の適切な通信媒体または異なる通信媒体の集まりを一般に表す。通信チャネル１５は、ルータ、スイッチ、基地局、または、ソース・デバイス１２から宛先デバイス１６への通信を円滑化するのに役立ち得る他の任意の機器を含むことができる。本開示の技法は、１つのデバイスから他のデバイスへの符号化データの伝達を必ずしも必要とせず、相互関係にある復号（reciprocal decoding）を伴わない符号化シナリオに適用することができる。また、本開示の態様は、相互関係にある符号化を伴わない復号シナリオに適用することもできる。

ビデオ符号器２２及びビデオ復号器２８は、たとえば、ＭＰＥＧ４、Ｐａｒｔ１０、高度ビデオ符号化（ＡＶＣ）とも呼ばれる、ＩＴＵ−ＴＨ．２６４規格などのような、ビデオ圧縮規格に従って動作することができる。しかし、本開示の技法は、いずれか特定の符号化規格又はその拡張に限定されない。図１には示されていないが、幾つかの態様において、ビデオ符号器２２及びビデオ復号器２８は各々、オーディオ符号器及びオーディオ復号器と統合することができ、また、共通のデータストリーム又は別々のデータストリーム内のオーディオ及びビデオ両方の符号化を処理するための、適切なＭＵＸ−ＤＥＭＵＸユニットまたは他のハードウェア及びソフトウェアを含むことができる。妥当な場合は、ＭＵＸ−ＤＥＭＵＸユニットは、たとえばＩＴＵＨ．２２３マルチプレクサプロトコルまたはユーザデータグラムプロトコル（ＵＤＰ）などのような、他のプロトコルに準拠することができる。

ＩＴＵ−ＴＨ．２６４／ＭＰＥＧ−４（ＡＶＣ）規格は、ＩＴＵ−Ｔのビデオ符号化エキスパートグループ（Video Coding Experts Group）（ＶＣＥＧ）が、ＩＳＯ／ＩＥＣのムービングピクチャーエキスパートグループ（Moving Picture Experts Group）（ＭＰＥＧ）と一緒になって、ジョイントビデオチーム（Joint Video Team）（ＪＶＴ）として知られる共同パートナシップ（collective partnership）の成果（product）として策定（formulated）された。Ｈ．２６４規格は、２００５年３月に勧告された、ＩＴＵ−Ｔの研究グループによる、ＩＴＵ−Ｔ勧告Ｈ．２６４、汎用オーディオビジュアルサービス用の高度ビデオ符号化（Advanced Video Coding for generic audiovisual services）で説明されており、Ｈ．２６４規格は、本明細書では、Ｈ．２６４規格もしくはＨ．２６４仕様書、またはＨ．２６４／ＡＶＣ規格もしくは仕様書と呼ばれることがある。ジョイントビデオチーム（ＪＶＴ）は、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣを拡張する作業を継続している。

Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ規格を高度化する作業は、たとえば主要技術分野（Key Technologies Area）（ＫＴＡ）フォーラムなどのような、ＩＴＵ−Ｔの様々なフォーラムにおいて行われている。ＫＴＡフォーラムは、課題の１つとして、Ｈ．２６４／ＡＶＣ規格が示すよりも高い符号化効率を示す符号化技術を開発しようと努めている。本開示で説明する技法は、特に３Ｄビデオに関して、Ｈ．２６４／ＡＶＣ規格を改良した符号化を提供することができる。幾つかの態様において、本開示は、本明細書で説明する３Ｄ変換情報を符号化し、伝達するためのメカニズムとして、ＩＴＵ−ＴＨ．２６４フレームワーク内の補助拡張情報（ＳＥＩ）メッセージの使用を意図している。

ビデオ符号器２２及びビデオ復号器２８は各々、１つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、個別論理回路、マイクロプロセッサもしくは他のプラットフォーム上で動作するソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合せとして実装することができる。ビデオ符号器２２及びビデオ復号器２８の各々は、１つまたは複数の符号器又は復号器に含まれることができ、それらはどちらも、個々のモバイル・デバイス、加入者デバイス、ブロードキャスト・デバイス、またはサーバなどにおいて、結合された符号器／復号器（ＣＯＤＥＣ）の部品として統合することができる。

ビデオシーケンスは、一連のビデオフレームを一般に含む。ビデオ符号器２２及びビデオ復号器２８は、ビデオデータを符号化及び復号するために、個々のビデオフレーム内のビデオブロックに作用（operate）することができる。ビデオブロックは、固定サイズまたは可変サイズを有することができ、特定の符号化規格に応じてサイズが異なり得る。各ビデオフレームは、一連のスライス（slices）または独立に復号可能な他の単位を含むことができる。各スライスは、一連のマクロブロックを含むことができ、マクロブロックはサブブロックにアレンジすることができる。一例として、ＩＴＵ−ＴＨ．２６４規格は、イントラ予測（intra prediction）を、たとえば輝度（luma）成分について１６×１６、８×８又は４×４、色度（chroma）成分について８×８などの、様々なブロックサイズにおいてサポートし、加えて、インター予測（inter prediction）を、たとえば輝度成分について１６×１６、１６×８、８×１６、８×８、８×４、４×８及び４×４、色度成分について対応するスケーリングされたサイズ（scaled sizes）などの、様々なブロックサイズにおいてサポートする。ビデオブロックは、ピクセルデータのブロック、または変換係数（transformation coefficients）のブロックを含むことができ、例えば、変換係数は、たとえば離散コサイン変換または概念的に類似の変換プロセスなどのような変換プロセスによってもたらされる（following）。

ビデオブロックが小さいほど、より良い解像度を得ることができ、高レベルのディテールを含むビデオフレーム内の位置（locations）で使用することができる。一般に、マクロブロック及び様々なサブブロック又はパーティションはすべて、ビデオブロックであると見なすことができる。加えて、スライスは、たとえばマクロブロック及び／又はサブブロック若しくはパーティションなどのような、ビデオブロックの連なり（series）であると見なすことができる。一般に、マクロブロックとは、１６×１６のピクセル領域を定義する、色度値と輝度値の組とすることができる。輝度ブロックは、１６×１６の一組の値を含むことができるが、たとえば８×８ブロック、４×４ブロック、８×４ブロック、４×８ブロック、または他のサイズなどのような、より小さなビデオブロックにさらに区画（partitioned）することもできる。２つの異なる色度ブロックが、マクロブロックの色を定義することができ、各々、１６×１６のピクセル領域に関連する色値の８×８のサブサンプリングされたブロック（sub-sampled blocks）を含むことができる。マクロブロックは、マクロブロックに適用される符号化モード及び／又は符号化技法を定義する、シンタックス情報を含むことができる。

マクロブロックまたは他のビデオブロックは、たとえばスライス、フレームまたは他の独立した単位などのような、復号可能な単位にグループ化することができる。各スライスは、ビデオフレーム内の独立に復号可能な単位とすることができる。代替として、フレーム自体も、復号可能な単位とすることができ、またはフレーム内の他の部分を、復号可能な単位として定義することができる。本開示では、「符号化単位（coded unit）」という用語は、たとえばフレーム全体、フレーム内のスライス、グループオブピクチャー（group of pictures）（ＧＯＰ）、または使用される符号化技法に応じて定義される独立に復号可能な他の単位などのような、ビデオフレーム内の任意の独立に復号可能な単位のことである。

イントラベースまたはインターベースの予測符号化に続いて、また任意の変換（transforms）（たとえばＨ．２６４／ＡＶＣで使用される４×４もしくは８×８の整数変換、または離散コサイン変換すなわちＤＣＴなど）に続いて、量子化を実行することができる。量子化とは、一般に、係数を表すのに使用されるデータの量をおそらくは（possibly）削減するために係数を量子化するプロセスのことである。量子化プロセスは、いくつかまたはすべての係数に関連するビット深度（bit depth）を低減することができる。例えば、量子化中に、１６ビット値を１５ビット値に丸めることができる。量子化に続いて、例えば、コンテンツ適応型可変長符号化（content adaptive variable length coding）（ＣＡＶＬＣ）、コンテキスト適応型２値算術符号化（context adaptive binary arithmetic coding）（ＣＡＢＡＣ）、または他のエントロピー符号化方法（entropy coding methodology）による、エントロピー符号化（entropy coding）を実行することができる。

３Ｄビデオは、最初に（originally）符号化された各フレームに関連付けられる１つまたは複数の追加のビデオフレーム（例えば追加のビュー（additional views））を必要とすることがある。ビデオフレームの立体視３Ｄ表現（stereoscopic 3D rendition）を定義するために、例えば、２つの異なるビューを使用することができる。３つ以上のビューを含むことができる多数のビューは、マルチビュー３Ｄ表現（multi-view 3D renditions）もサポートすることができる。３Ｄビデオの異なるビューは、２つ以上のビューがビデオシーケンスの同じ時間インスタンス（time instance）に対応するように、同様のタイミングを有することができる。このようにして、２つ以上のビューは、３Ｄビデオを提供するために一括してレンダリングすることができる、３Ｄシーケンスを一緒に形成する２つ以上の２Ｄシーケンスを一般に定義することができる。

３Ｄビデオの効率的な符号化、伝達及び復号をサポートするために、本開示は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、３Ｄ変換情報を使用する。そのような３Ｄ変換情報は、２Ｄシーケンスとともに伝達することができる。したがって、受信デバイスは、２Ｄシーケンスを生成し、表示することができ、または受信デバイスが３Ｄビデオをサポートする場合は、３Ｄシーケンスを生成し、表示することができる。いくつかの例では、本開示の３Ｄ変換情報は、１００バイト未満のデータを含むことができ、より詳しくは、２０バイト未満のデータを含むことができ、それは、３Ｄ立体視ビデオのセカンダリ・ビューを生成するために、２Ｄシーケンス内の２Ｄフレームのいくつかまたはすべてに適用することができる。このようにして、少なくともいくつかのフレームについては、ビューを２つも送信しないですむようにすることによって、本開示の技法は、３Ｄビデオを伝達するための効率的な方法を提供する。

図２は、本開示による技法を実行できるビデオ符号器５０の一例を示すブロック図である。ビデオ符号器５０は、ソース・デバイス１２のビデオ符号器２２または異なるデバイスのビデオ符号器に対応することができる。ビデオ符号器５０は、ビデオフレーム内のブロックのイントラ符号化およびインター符号化を実行することができる。イントラ符号化は、与えられたビデオフレーム内のビデオの空間的冗長性（spatial redundancy）を低減または除去するために、空間的予測（spatial prediction）に依存する。インター符号化は、ビデオシーケンス内の隣接フレーム間のビデオの時間的冗長性（temporal redundancy）を低減または除去するために、時間的予測（temporal prediction）に依存する。イントラモード（Intra-mode）（Ｉモード）とは、空間ベースの圧縮モードのこととすることができ、たとえば予測（Ｐモード）または双方向（bi-directional）（Ｂモード）などのようなインターモード（Inter-modes）とは、時間ベースの圧縮モードのこととすることができる。

図２に示されるように、ビデオ符号器５０は、符号化されるビデオフレームまたはスライス内の現在のビデオブロックを受け取る。図２の例では、ビデオ符号器５０は、予測ユニット３５と、メモリ３４と、加算器４８と、変換ユニット（transform unit）３８と、量子化ユニット４０と、エントロピー符号化ユニット４６とを含む。ビデオブロック再構成（video block reconstruction）のために、ビデオ符号器５０は、逆量子化ユニット４２と、逆変換ユニット（inverse transform unit）４４と、加算器５１も含む。さらに、本開示によれば、ビデオ符号器５０は、２Ｄ−３Ｄ変換ユニット（2D to 3D conversion unit）３６を含むことができ、このユニットは、本明細書で説明する３Ｄ変換情報を生成する。ビデオ符号器５０は、たとえば、ブロック境界をフィルタリングして再構成ビデオからブロッキネス・アーティファクト（blockiness artifacts）を除去するためのデブロッキング・フィルタ（deblocking filter）（図示されず）などのような、他のコンポーネントも含むことができる。望ましい場合は、デブロッキング・フィルタは、加算器５１の出力を一般にフィルタリングする。

符号化プロセスの最中、ビデオ符号器５０は、符号化するビデオブロックを受け取り、予測ユニット３５は、イントラ予測またはインター予測符号化を実行する。例えば、符号器５０の予測ユニット３５は、符号化単位（例えばフレームもしくはスライス）の各々のビデオブロック又はビデオブロック・パーティションについて、動き推定（motion estimation）及び動き補償（motion compensation）を実行することができる。予測ユニット３５は、特定のブロックの符号化に対して適用可能な各モードについて、レート歪みコスト（rdcost）を計算することができ、最もコストが低くなる符号化モードを選択することができる。ｒｄｃｏｓｔは、使用するビットの数と、オリジナル・ビデオデータに対する符号化データの歪みのレベルとの観点から、コストを定量化することができる。

レート歪み（ＲＤ）分析は、ビデオ符号化においてかなり一般的であり、符号化コストを表すコスト・メトリック（cost metric）の計算に一般に含まれる。コスト・メトリックは、符号化に必要なビットの数（レート）と、符号化に関連する品質のレベル（歪み）とのバランスをとることができる。典型的なレート歪みコスト計算は、以下の形式に一般に対応することができる。

ここで、Ｊ（λ）はコスト、Ｒはビットレート、Ｄは歪み、λはラグランジュ乗数（Lagrange multiplier）である。予測ユニット３５は、ビデオブロック符号化を実行するのに使用できる様々なイントラ符号化およびインター符号化モード（ならびに適用可能なパーティションサイズ）を比較するために、このタイプのコスト関数を適用することができる。

所望の予測データが予測ユニット３５によって識別された後、ビデオ符号器５０は、残差ブロックを生成するために、符号化されるオリジナル・ビデオブロックから予測データを減算することによって、残差ビデオブロック（residual video block）を形成する。加算器４８は、これらの減法演算を実行する１つまたは複数のコンポーネントを表す。変換ユニット３８は、たとえば離散コサイン変換（ＤＣＴ）または概念的に類似の変換などのような変換を残差ブロックに適用して、残差変換ブロック係数を含むビデオブロックを生成する。変換ユニット（Transform unit）３８は、ＤＣＴと概念的に類似する、たとえばＨ．２６４規格によって定義された変換などのような変換を実行することができる。ウェーブレット変換（Wavelet transforms）、整数変換（integer transforms）、サブバンド変換（sub-band transforms）、または他のタイプの変換も使用することができる。いずれの場合も、変換ユニット３８は、残差ブロックに変換を適用して、残差変換係数のブロックを生成する。変換（transform）は、残差情報をピクセル領域から周波数領域に変換（convert）することができる。

量子化ユニット４０は、ビットレートをさらに低減するために、残差変換係数を量子化する。量子化プロセスは、いくつかまたはすべての係数に関連するビット深度を低減することができる。例えば、量子化中に、９ビット値を８ビット値に丸めることができる。加えて、量子化ユニット４０は、オフセットが使用される場合には、異なるオフセットも量子化することができる。

量子化に続いて、エントロピー符号化ユニット４６は、量子化された変換係数をエントロピー符号化する。例えば、エントロピー符号化ユニット４６は、コンテンツ適応型可変長符号化（ＣＡＶＬＣ）、コンテキスト適応型２値算術符号化（ＣＡＢＡＣ）、または他のエントロピー符号化方法を実行することができる。エントロピー符号化ユニット４６によるエントロピー符号化に続いて、符号化ビデオは、他のデバイスに送信することができ、または後の送信又は検索のためにアーカイブすることができる。符号化ビットストリームは、エントロピー符号化された残差ブロックと、そのようなブロックについての動きベクトル（motion vectors）と、２Ｄ−３Ｄビデオ（2D to 3D video）をサポートするための本明細書で説明するシンタックスなどの他のシンタックスとを含むことができる。

逆量子化ユニット４２及び逆変換ユニット４４は、例えば、上で説明したように後で参照データとして使用する目的で、ピクセル領域における残差ブロックを再構成するために、それぞれ逆量子化及び逆変換を適用する。加算器５１は、メモリ３４内に記憶するための再構成ビデオブロックを生成するために、再構成残差ブロックを、動き補償ユニット３５によって生成された１次及び／又は２次の予測ブロックに加算する。再構成ビデオブロック及び残差データは、後続のビデオフレーム又は他の符号化単位においてブロックをインター符号化するための参照ブロックとして、動き補償ユニット３５によって使用することができる。

３Ｄビデオをサポートするために、ビデオ符号器５０は、２Ｄ−３Ｄ変換ユニット３６をさらに含むことができ、このユニットは、メモリ３４内に記憶された再構成２Ｄビデオシーケンスに対して作用する。このようにして、２Ｄ−３Ｄ変換ユニット３６は、復号プロセスの後で復号器において利用可能なものと同じ再構成データに作用する。本開示によれば、２Ｄ−３Ｄ変換ユニット３６は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、３Ｄ変換情報を識別し、決定し、またはさもなければ生成する。３Ｄ変換情報は、与えられた２Ｄシーケンス毎に１回生成することができる。

３Ｄ変換情報が適用される２Ｄシーケンスは、ビデオシーケンス全体、シーン、またはおそらくは復号可能な組を形成するグループオブピクチャーを含むことができる。グループオブピクチャーの例には、ＩＢＰＢＰのシナリオにおける５個のフレームからなる組、またはＩＢＢＰＢＢＰのシナリオにおける７個のフレームからなる組などがあり、ここで、Ｉはイントラ符号化（intra-coding）を表し、Ｐは予測インター符号化（predictive inter-coding）または単方向インター符号化（uni-direction inter-coding）を表し、Ｂは双予測インター符号化（bi-predictive inter-coding）または双方向インター符号化（bi-directional inter-coding）を表す。これらの場合、グループオブピクチャー内のフレームは、相互依存（interdependent）しており、一括して復号可能である。場合によっては、３Ｄ変換情報は、グループオブピクチャー毎に１回送信することができるが、３Ｄ変換情報は、シーン毎に１回またはビデオシーケンス全体で１回送信することもできる。しかし、重要なのは、複数のフレームのうちの個々のフレーム毎に異なる３Ｄ変換情報が必要とされないように、３Ｄ変換情報が複数のフレームに対して適用されることである。

ビデオ符号器５０は、ＩＴＵ−ＴＨ．２６４ビデオ符号化規格に従って、２Ｄシーケンスを符号化し、２Ｄ−３Ｄ変換ユニットは、ＩＴＵ−ＴＨ．２６４ビデオ符号化規格によってサポートされる３Ｄ変換情報ＳＥＩメッセージを符号化することができる。ビデオフレームからなる第２の２Ｄシーケンスを生成するために、第１の２Ｄシーケンス内のビデオフレームの各々に、一組のパラメータを適用することができ、第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義する。３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含むことができる。場合によっては、３Ｄ変換情報は、２Ｄシーケンスのキャプチャに関連するカメラ・パラメータおよび値を含むことができる。例えば、以下でより詳細に説明するように、３Ｄ変換情報は、２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を表す焦点距離値、３Ｄビデオデータの最小深度を指定する近深度値（near-depth value）、３Ｄビデオデータの最大深度を指定する遠深度値（far-depth value）、および３Ｄビデオデータに関連する２つのカメラ間の仮定距離（assumed distance）を定量化する平行移動値（translate value）を含むことができる。

３Ｄ変換情報を符号化するために、２Ｄ−３Ｄ変換ユニット３６は、特定のシナリオを表すために設定できるビットであるフラグを使用することができる。例として、３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるかどうか又はデフォルトの一組の３Ｄパラメータを使用すべきかどうかについて指示するフラグを含むことができる。この場合、明示的な一組の３Ｄパラメータは、フラグが設定されている場合に、３Ｄ変換情報に含まれる。また、３Ｄ変換情報は、２Ｄシーケンスの第２のビューを２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグも含むことができる。加えて、３Ｄ変換情報は、３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別するフラグを含むことができる。この場合、クロップ領域を定義する情報は、フラグが設定されている場合に、３Ｄ変換情報に含まれる。これらのフラグの各々は、３Ｄ変換情報を一括して符号化するために使用することができ、本開示に従って、他のフラグを使用すること、または定義することもできる。

図３は、上で説明した符号化技法と相互関係にある復号技法を実行できる、例示的なビデオ復号器７０を示すブロック図である。ビデオ復号器７０は、エントロピー復号ユニット７２と、予測ユニット７５と、逆量子化ユニット７６と、逆変換ユニット７８と、メモリ７４と、加算器７９とを含むことができる。予測ユニット７５は、空間予測コンポーネント（spatial prediction components）に加えて動き補償ユニット（motion compensation unit）を含むことができる。

ビデオ復号器７０は、本明細書で説明する方法で符号化された２Ｄシーケンスと、ビデオブロックの適切な復号を容易にするために復号器７０によって使用できる様々なシンタックス要素とを含む、符号化ビデオビットストリームを受け取ることができる。より具体的には、ビデオビットストリームは、ビデオフレームからなる２Ｄシーケンスに基づいた３Ｄビデオデータの生成を容易にするための、本明細書で説明する３Ｄ変換情報を含むことができる。３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含むことができる。やはり、３Ｄ変換情報は、ビデオシーケンス内の異なるフレーム毎に異なることはなく、オリジナル・ビデオフレームの各々についてのセカンダリ・ビューを生成するために、２Ｄシーケンス内のオリジナル・ビデオフレームの各々に適用できる、相対的に少量のデータを形成する、共通の一組のパラメータを含む。２Ｄシーケンスという語句は、ビデオファイル全体、ビデオクリップ、より大きなビデオファイル内のビデオシーン、またはおそらくはより大きなビデオシーケンス内の復号可能な一組のフレームを形成するグループオブピクチャーを含むことができる、複数のビデオフレームのことを指している。

エントロピー復号ユニット７２は、２Ｄシーケンスの残差ビデオブロックの量子化された係数を生成するために、ビットストリームのエントロピー復号を実行する。エントロピー復号ユニット７２は、ビットストリームからシンタックス要素を解析して取り出し（parse）、そのようなシンタックス要素をビデオ復号器７０の様々なユニットに転送することができる。例えば、動き情報（例えば動きベクトル）および他のシンタックス情報を、予測ユニット７５に転送することができる。さらに、エントロピー復号ユニット７２によって、ビットストリームから３Ｄ変換情報を解析して取り出し、その後、それを２Ｄ−３Ｄ変換ユニット７９に転送することができる。２Ｄ−３Ｄ変換ユニット７９はオプションであるため、このユニット７９は破線で示されている。２Ｄ−３Ｄ変換ユニット７９をもたないビデオ復号器は、２Ｄビデオシーケンスしか復号することができず、３Ｄ変換情報は廃棄（discard）することができる。このようにして、３Ｄ変換情報は、あるデバイスは２Ｄビデオを復号でき、他のデバイスは２Ｄビデオを復号できるのに加えて、３Ｄビデオを生成するために３Ｄ変換情報を適用することもできる、スケーラブルな２Ｄ−３Ｄビデオを容易にする。

２Ｄビデオシーケンスを復号するために、予測ユニット７５は、符号化の際に使用された予測ブロックを識別する目的で、動き情報または他のシンタックス要素を使用する。インターベースの復号（inter-based decoding）の場合、予測データの１つまたは複数のリストから予測ブロックを生成するために、動き補償プロセスにおいて、動きベクトルを適用することができる。インターベースの復号の場合、シンタックスは、イントラモードを含むことができる。このモードは、復号されるビデオブロックのフレームと同じフレームに属するデータに基づいて、予測ブロックをどのように生成すべきかを定義することができる。

逆量子化ユニット７６は、エントロピー復号ユニット７２から受け取ったデータを逆量子化し、逆変換ユニット７８は、ピクセル領域における残差ブロックを生成するために、逆変換を実行する。その後、加算器７９は、オリジナル・ビデオブロックの再構成を生成するために、残差ブロックを、予測ユニット７５によって生成された予測ブロックと合成する。オリジナル・ビデオブロックの再構成は、メモリ７４内に記憶することができ、および／または復号された２Ｄビデオデータとしてディスプレイに出力することができる。このようにして、ビデオフレームを再構成し、最終的にメモリ７４内にビデオフレームからなる２Ｄシーケンス全体を再構成するために、多くのビデオブロックを復号することができる。このようにして、ビデオ復号器７０は、先に説明したビデオ符号器５０によって実行された符号化と相互関係にある復号を実行する。

本開示によれば、２Ｄ−３Ｄ変換ユニット７９は、ビットストリームに収めて送信された３Ｄ変換情報を、メモリ７４内に記憶された復号された２Ｄビデオシーケンスに適用することができる。例えば、３Ｄ変換情報を、メモリ７４内に記憶された復号された２Ｄビデオシーケンスに適用することで、２Ｄ−３Ｄ変換ユニット７９は、２Ｄシーケンス内のいくつかまたはすべてのビデオフレームに関連するセカンダリ・ビューを生成することができる。その後、オリジナル・ビューとセカンダリ・ビューは、３Ｄビデオデータとして、２Ｄ−３Ｄ変換ユニット７９から出力することができる。

マルチビュー・ビデオ符号化（Multi-view video coding）（ＭＶＣ）は、Ｈ．２６４／ＡＶＣの拡張を形成することができるが、ＭＶＣは、他のビデオ符号化規格に対しても適用することができる。ＭＶＣについての１つの共同草案（joint draft）が、ＪＶＴ−ＡＢ２０４、「“Joint Draft 8.0 on Multiview Video Coding”、28^th JVT meeting, Hannover, Germany, July 2008」において説明されている。Ｈ．２６４／ＡＶＣによれば、符号化されたビデオビットは、ネットワークアブストラクションレイヤ（Network Abstraction Layer）（ＮＡＬ）ユニットに組織することができる。ＮＡＬユニットは、ビデオ電話、ストレージ、ブロードキャスト、またはストリーミングなどのアプリケーションに対応した（addressing）「ネットワークフレンドリ（network-friendly）」なビデオ表現を提供する。ＮＡＬユニットは、ビデオ符号化レイヤ（ＶＣＬ）ＮＡＬユニットと、非ＶＣＬＮＡＬユニットとにカテゴライズすることができる。ＶＣＬユニットは、コア圧縮エンジンを含むことができ、ブロックレベル、ＭＢレベル、およびスライス・レベルを含む。他のＶＣＬユニットは、非ＶＣＬＮＡＬユニットである。

Ｈ．２６４／ＡＶＣに準拠して、補助拡張情報（ＳＥＩ）メッセージは、ＶＣＬＮＡＬユニットに属する符号化されたピクチャーのサンプルを復号するのには必要ない情報を含むことができる。ＳＥＩメッセージは、非ＶＣＬＮＡＬユニットにも含まれる。ＳＥＩメッセージは、Ｈ．２６４／ＡＶＣの標準仕様書の規範的な部分である。規格に準拠した復号器の実装にとって必須ではないが、ＳＥＩメッセージは、復号、表示、誤り耐性（error resilience）、および他の目的に関するプロセスを支援することができる。Ｈ．２６４／ＡＶＣの必須部分は最終決定（finalized）をみているが、Ｈ．２６４／ＡＶＣ仕様書は、ＳＥＩメッセージについてはまだ開かれている（open）。本開示は、本明細書で説明する３Ｄ変換情報を符号化、伝達、および復号するためのメカニズムとして、いくつかの態様において、ＳＥＩメッセージまたは他の類似のメッセージの使用を提案する。

３Ｄビデオ・フォーマットをサポートするため、ＪＶＴおよびＭＰＥＧは、新しい規格（standards）および機能（features）を導入することができる。例えば、ＭＰＥＧ−２マルチ・ビュー・プロファイルによれば、一方のビュー、例えば、左側ビューは、低減されたフレームレート（例えば毎秒１５フレーム）で符号化することができ、他方のビューは、高いフレームレート（例えば毎秒３０フレーム）を必要とする時間拡張レイヤ（temporal enhancement layer）として符号化することができる。しかし、これは、両方のビューをビットストリームに収めて伝達することを必要とし、従来の２Ｄシーケンスの伝達と比べて、ビットストリーム内のデータの量を著しく増加させ得る。

Ｈ．２６４／ＡＶＣは、立体視ビデオ・コンテンツ手法も利用することができる。例えば、Ｈ．２６４／ＡＶＣでは、２つのビューを１つのビットストリームにどのように配置するかを指示するために、立体ビデオ情報ＳＥＩメッセージを採用することができる。この場合、２つのビューに交互にフレームを割り当てることができ、または２つのビューを相補的なフィールド対（complementary field pairs）とすることができる。２つのビューに交互にフレームを割り当てる場合、２つのビューは、時間インタリーブ・モード（temporal interleaving mode）で順序付けられ、２つのビューを相補的なフィールド対とする場合、２つのビューからの画像対は、１つのピクチャー内で実際に行インタリーブ（row interleaved）される。しかし、やはり、これも、両方のビューをビットストリームに収めて伝達することを必要とし、従来の２Ｄシーケンスの伝達と比べて、ビットストリーム内のデータの量を著しく増加させ得る。

ピクチャーの空間インタリーブを採用することも可能であり、空間インタリーブの存在をＳＥＩで伝達することができる。このＳＥＩは、２つのビューのサポートを、時間インタリーブおよび行インタリーブからより柔軟な空間インタリーブ・モード（spatial interleaving modes）に拡張する。代替として、ＳＥＩメッセージは、画像対の組合せを、サイドバイサイド・インタリーブ（side-by-side interleaving）、上／下インタリーブ（above/below interleaving）、列インタリーブ（column interleaving）、またはチェッカボード・インタリーブ（checkerboard interleaving）としてサポートすることができる。これらの手法の各々では、他の望ましくない手法と同様に、異なるビューが、何らかの方法でビットストリームに収めて実際に送信され、そのため、３Ｄビデオに必要とされる情報の量は、従来の２Ｄシーケンスと比べて大幅に増加する。

本開示の技法は、セカンダリ・ビューの実際の送信を回避することによって、３Ｄビデオを伝達するためにビットストリームに収める必要のある情報の量を著しく削減することができる。この場合、セカンダリ・ビューを実際に符号化し、送信する代わりに、本開示は、復号器でセカンダリ・ビューを生成するために復号器でオリジナル２Ｄシーケンスに適用できる一組のパラメータを含む３Ｄ変換情報を送信する。このようにして、セカンダリ・ビューを実際に伝達する必要性は回避され、代わりに、セカンダリ・ビューをビットストリームに収めて伝達することを必要とせずに、セカンダリ・ビューを生成するために、復号器において一組のパラメータを適用することができる。

Ｈ．２６４／ＡＶＣのＳＥＩメッセージは、３Ｄ入力を２Ｄビデオシーケンスであるかのように受け入れ、１つのビデオシーケンスを２つのビューに区分できるように、インタリーブされた２つのビューをどのように分離すべきかを復号器に伝えるためにＳＥＩメッセージを利用する、ケースもサポートすることができる。しかし、やはり強調すべきなのは、そのようなケースの場合も、入力が２つのビューによって表される３Ｄ入力であることである。本開示の技法は、対照的に、２つのビューをビットストリームに収めて送信する必要性を回避し、代わりに、ビットストリーム内の３Ｄ変換情報に基づいて、復号器がセカンダリ・ビューを生成することに依存する。

いくつかのＭＶＣ復号順序は、タイムファースト符号化（time-first coding）と呼ばれることがある。この場合、各アクセス・ユニットは、１つの出力時間インスタンスの間にすべてのビューの符号化ピクチャーを含むように定義される。しかし、アクセス・ユニットの復号順序は、出力順序または表示順序と同じではないこともある。

ＭＶＣ予測は、各ビュー内におけるピクチャー間予測と、ビュー間予測の両方を含むことができる。ＭＶＣは、Ｈ．２６４／ＡＶＣ復号器によって復号可能ないわゆるベースビューを含むことができ、ＭＶＣによっても、２つのビューをサポートすることができる。この場合、ＭＶＣの利点は、３つ以上のビューを３Ｄビデオ入力として取得し、多数のビューによって表されるこの３Ｄビデオを復号するケースをサポートできることである。ＭＶＣ復号器による復号は、多数のビューを有する３Ｄビューコンテンツを予期することができる。

ＭＰＥＧ規格は、ＭＰＥＧ−Ｃｐａｒｔ３の通常のビデオストリームに深度マップ（depth map）を添付するためのフォーマットも指定している。この仕様は、「“Text of ISO/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information”, ISO/IEC JTC 1/SC 29/WG 11, MPEG Doc, N8768, Marrakech, Morocoo， January 2007」に含まれている。ＭＰＥＧ−Ｃｐａｒｔ３では、いわゆる補助ビデオ（auxiliary video）は、深度マップまたは視差マップ（parallax map）のどちらかとすることができる。深度マップを表すことで、各深度値および深度マップの解像度を表すのに使用されるビットの数に関して、柔軟性を提供することができる。例えば、深度マップは、与えられた画像の４分の１の幅、２分の１の高さとすることができる。あいにく（Unfortunately）、深度マップは、一般にシーケンス内のフレーム毎に必要とされる。すなわち、ビデオシーケンス内のあらゆるフレームに同一の深度マップが適用されることはない。したがって、ビデオシーケンス全体にわたっていくつもの深度マップが必要とされるので、深度マップの伝達は、総計では非常に大量のデータになり得る。

ＭＰＥＧビデオ・サブグループは、３Ｄシナリオを研究するために、３Ｄビデオ符号化の調査実験を定義した。ＭＰＥＧビデオ・サブグループは、ビュー毎に深度マップを有することはビュー合成（view synthesis）にとって役立つ可能性があることを指摘しているが、ＭＰＥＧにおけるこの活動（activity）は、標準化の一部とはならない可能性がある。ＭＰＥＧの３Ｄビデオによれば、２つの重要な概念として、深度推定（depth estimation）とビュー合成がある。ほとんどのビデオ・コンテンツはマルチカメラ・システムによってキャプチャされ、深度マップをテクスチャ・ビデオ・シーケンスとともに送信できるように、深度マップを符号化の前に生成しなければならないことを仮定することができる。しかし、本開示によるビュー合成は、ビットストリームに収めて送信されないより多くのビューを生成するために、ビデオをレンダリングするときに適用できるツールである。したがって、ビュー合成の概念は、本明細書で説明する３Ｄ変換情報の利用をさらに進めることによって、本開示の技法の部分を形成することができる。

３Ｄビデオ伝達システム（3D video communication systems）では、原ビデオデータ（raw video data）をキャプチャし、符号化の前に事前処理することができる。深度マップを有することができる原データは、符号化することができ、符号化ビデオ・コンテンツは、記憶または送信することができる。宛先デバイスは、３Ｄビデオを復号し、表示することができる。しかし、上で説明したように、ビデオシーケンス内のいくつもの画像について追加のビューまたは深度マップを伝達することは、通信および帯域幅の観点から望ましくないことがある。本開示によるより良い手法は、セカンダリ・ビューを実際にビットストリームに収めて伝達することを必要とせず、セカンダリ・ビューを生成するために、例えば復号器によって、２Ｄシーケンス内のどのビデオフレームにも適用できる、３Ｄ変換情報を伝達することとすることができる。

３Ｄコンテンツの獲得（Acquisition）は、１つのカメラもしくはカメラアレイによって実行することができ、または深度マップを生成できるデバイスに関連付けることさえできる。いくつかの例として、コンテンツ獲得は、以下のカテゴリの少なくとも１つにカテゴライズすることができる。
−２Ｄビデオキャプチャ。通常、これは３Ｄコンテンツを提供しない。
−立体視ビデオをキャプチャおよび／または提供できる２カメラシステム。
−カメラアレイ。これは多数のビューをキャプチャする。
−１つのビューのキャプチャと深度。例えば、いくつかのデバイスは、キャプチャされた画像に関連付けられた深度をキャプチャすることができる。
−深度情報をキャプチャすることおよび／または３Ｄモデルを生成することができる他の技法。

３Ｄ事前処理および符号化も、符号器において実行することができる。ここで言う３Ｄ事前処理とは、ノイズ・リダクション（noise deduction）またはシーン検出に関連する典型的な処理のことではない。３Ｄ事前処理は、深度マップを生成することができ、その深度マップは、３Ｄビデオ・コンテンツの部分として符号化される。このプロセスは、キャプチャされたビュー毎に１つの深度マップを生成することができ、または送信されるいくつかのビューについて深度マップを生成することができる。しかし、やはり、深度マップの伝達は、帯域幅の観点から望ましくないことがある。

ビデオ・コンテンツが復号器によって受け取られた場合、送信データ（それは、１つまたは複数のビューを含むことができるのに加えて、場合によっては再構成される深度マップを含むこともある）を取得するために、ビデオ・コンテンツを復号することができる。深度マップが復号器で利用可能である場合、送信されなかった他のビューのテクスチャを生成するために、ビュー合成アルゴリズムを採用することができる。通常の３Ｄディスプレイは、２つ以上のビューをレンダリングすることができる。高フレームレートビデオを表示可能ないくつかの２Ｄディスプレイも、シャトルグラス（shuttle glasses）の助けを借りて、３Ｄディスプレイとして使用することができる。偏光（Polarization）は、出力として２つのビューを提供する３Ｄ表示技法である。いくつかのディスプレイまたは３Ｄテレビは、入力の一部として深度を取得するが、出力として２つ以上のビューを生成することを担うビルトイン「ビュー合成（view synthesis）」モジュールが常に存在することがある。

３Ｄワーピング（3D warping）は、本開示の技法に役立ち得るビュー合成の一形態である。図４〜図７は、３Ｄワーピングおよび他のビュー合成概念を説明するのに使用される概念図である。サンプリング理論に基づいたビュー合成は、サンプリング問題になる可能性があり、それは、任意のビューを任意のビュー角度で完全に生成するためには、密に（densely）サンプリングされたビューを必要とする。しかし、実際のアプリケーションでは、密にサンプリングされたビューによって必要とされるストレージまたは伝送帯域幅は、一般に莫大になりすぎて、実現することができない。したがって、ある研究は、疎に（sparsely）サンプリングされたビューおよび深度マップに基づいたビュー合成に焦点を合わせている。

疎にサンプリングされたビューに基づいたビュー合成アルゴリズムは、３Ｄワーピングの概念に依存することができる。図４は、３Ｄワーピングの概念を示している。図４に示されるように、３Ｄワーピングでは、深度およびカメラ・モデルが与えられた場合、参照ビューの

にあるピクセルは、２Ｄカメラ座標（2D camera coordinate）から、ワールド空間座標系（world-space coordinate system）内の点Ｐに投影することができる。その後、点Ｐは、

の方向に沿って、（生成される仮想ビューである）目標ビュー（destination view）に投影することができる。この場合、

の方向は、目標ビューのビュー角度に対応する。投影された座標が

であると仮定することによって、参照ビュー内の

の（異なる色成分の）ピクセル値を、仮想ビュー内の

のピクセル値と見なすことができる。

時には、参照ビューとして、２つ以上のビューを考慮することもできる。言い換えると、

への上述の投影は、必ずしも１対１の投影になるとは限らない。しかし、２つ以上のピクセルが目標ピクセル

に投影される場合、可視性問題（visibility problem）が生じることがある。他方、１つのピクセルが目標ピクセル

に投影される場合、仮想ビューのピクチャーにホール（hole）が出現すること又は存在することがある。いわゆる可視性問題は、

のピクセル値を構成（construct）するためにどのピクセルを使用すべきかに関する決定を必要とすることがある。ホールがピクチャー内に連続領域として存在する場合、その現象は遮蔽（occlusion）と呼ばれる。それとは異なり、ホールがピクチャー内に疎らに分散する場合、それらのホールはピンホール（pinholes）と呼ばれる。遮蔽は、異なる方向に１つの参照ビューを導入することによって解決することができる。（例えば、ピンホールのピクセル値を決めるための）ピンホール・フィリング（Pinhole filling）は、ホールのための候補として通常は近隣ピクセルを採用する。ピンホール・フィリングのための技法は、遮蔽問題を解決するためにも使用することができる。

ｕ₂のピクセル値のために２つ以上のピクセルを考慮する場合、加重平均法を採用することができる。ビュー合成においては、これらのプロセスは再構成（reconstruction）と一般に呼ばれる。可視性、遮蔽、ピンホール・フィリング、および再構成は、全部合わせると、大きな問題となり、３Ｄワーピングベースのビュー合成を実装する際の障害となる。そのような問題に対処するのに、カメラ・モデルが助けとなることがある。

例えば、内部パラメータ及び外部パラメータ（intrinsic and extrinsic parameters）を含むカメラ・モデルは、ワールド座標系からカメラ平面（camera plane）への変換、またはそれとは逆の変換を説明するために使用することができる。簡潔にするため、本開示で説明および言及されるすべての座標系は直交座標系であるが、本開示の技法は、この点で必ずしも限定されない。

外部パラメータは、以下の変換に基づいて、ワールド座標内におけるカメラ中心の位置と、カメラの方位（heading）とを定義することができる。

ここで、（ｘｙｚ）^Tは、３Ｄカメラ座標系における座標であり、（ｘ_w ｙ_w ｚ_w）^Tは、ワールド座標系における座標である。行列Ａは、４×４行列を含むことができ、以下のように示すことができる直交変換とすることができる。

ここで、Ｒは、３×３回転行列（rotation matrix）であり、Ｔは、平行移動（translation）である。この場合、Ｔはカメラの位置ではない。

３Ｄカメラ座標系では、ｚ軸は、主光軸（principal optical axis）と呼ばれることがあり、ｘ軸とｙ軸は、画像平面（image plane）を定義することができる。例えば、図６に示されるように、

は、主光軸を定義することができる。ｕ₁を含む、主光軸に直交する平面は、画像平面を定義することができる。

ワールド座標系は、カメラの３Ｄカメラ座標系と同じになるように定義することができる。この場合、Ａ＝Ｉである。３Ｄカメラ座標系が、ワールド座標系から平行移動される場合、以下である。

また、（ｘｙｚ）^T＝（ｘ_w ｙ_w ｚ_w）^T＋Ｔ^Tである。

内部パラメータは、３Ｄカメラ座標系から２Ｄ画像平面への変換を指定する。この変換のためのモデルは、ピンホール・カメラ・モデルと呼ばれることがあり、図５に概念的に示されている。この場合、Ｏは、３Ｄカメラ座標系の原点であり、カメラ平面（またはセンサ平面（sensor plane））の中心を定義することができる。そのようなモデルでは、次のようになる。

ここで、−ｆは、焦点距離を示し、（ｕ，ｖ）^Tは、画像平面内の座標を示す。

ピンホール・カメラ・モデルは、焦点距離ｆが負である点で不便なことがある。この問題に対処するため、ピンホール・カメラ・モデルは、図６に示されるように、フロンタル・ピンホール・カメラ・モデル（frontal pinhole camera model）で表すこともできる。フロンタル・ピンホール・カメラ・モデルでは、関係は、次のようになる。

この変換は、次のように表すことができる。

ここで、（ｕ，ｖ）は、画像平面内の座標であり、Ｑは、内部パラメータの最も単純な表現である。

と表した場合、ワールド座標系から画像平面への変換全体は、

によって与えられる。

いくつかの実装では、内部カメラ・パラメータは、上で説明したよりも複雑になり得る。上でＱとして表された変換は、

によって表される。この場合、Ｓｋｅｗは、カメラのスキュー係数（skew factor）を示し、（ｐｒｉｎｃｉｐａｌ_x，ｐｒｉｎｃｉｐａｌ_y）^Tは、画像平面内の主点（principal point）の座標である。主点は、主光軸が画像平面と交差する点である。ｆ_xおよびｆ_yの値は、ｘ軸およびｙ軸における焦点距離値である。

また、いくつかの実装では、外部カメラ・パラメータも、上で説明したよりも複雑になり得る。より現実的なケースでは、例えば、Ｒは、ｘｚ平面における回転のみを定義することができ、以下のように表すことができる。

立体視ビデオでは、カメラは、同じ内部パラメータを有することができる。これは、例えば、２つのカメラの間に平行移動のみが存在し、カメラの一方がワールド座標系に合致（aligned）している場合とすることができる。この場合、Ｒ＝Ｉ、Ｔ＝０であり、またｕ₁＝ｆｘ_w／ｚ_w、ｖ₁＝ｆｙ_w／ｚ_wである。第２のカメラが第１のカメラと平行に配置される場合、Ｒ＝Ｉ、Ｔ＝（ｄ００）^Tである。この場合、以下を導出することができる。

ｆｄ／ｚ_wはまた視差（disparity）と呼ばれる。この場合の３Ｄワーピングは、視差の計算しか必要としないことがあるが、先に言及した問題は依然として存在し得る。

各色成分（color component）についての各ピクセルの値は、量子化して８ビットで表して記憶されるので、限られたダイナミック・レンジを用いて深度値を提示することが必要なことがある。８ビットのダイナミック・レンジの実装では、深度値は、例えば、０〜２５５（０および２５５は除く）（exclusive）とすることができる。深度値は、大きな範囲の中で変化することができる。しかし、一般に、最近深度値と最遠深度値は、それぞれ０と２５５にマッピングされ、他の任意の深度値は、０から２５５までの範囲の外の（outside）値にマッピングすべきである。

以下にいくつかの典型的な深度値制限法（depth value qualification methods）を挙げる。

上記の２つの式において、ｖは、［０，２５５］に定量化された値であり、ｚは、１バイトで記憶できる深度である。値ｚは、［０，２５５］に正規化することができる。通常は、カメラに近いピクセルほど、より大きな値をとり、深度が大きなピクセルほど、［０，２５５］のより小さな値に変換される。したがって、深度値を［ｚ_near，ｚ_far］から［０，２５５］に線形変換することが望ましいことがあり、ｚ_nearは２５５にマッピングされ、ｚ_farは０にマッピングされる。これが、上に示した式（９）の考え方である。変換を達成する他の方法は、深度の逆数値を［１／ｚ_far，１／ｚ_near］から［０，２５５］に線形変換することであり、１／ｚ_nearは２５５にマッピングされ、１／ｚ_farは０にマッピングされる。この他の方法が、上に示した式（１０）の考え方である。

Ｈ．２６４／ＡＶＣに基づいた２Ｄビデオ通信システムは、広く配備されているが、いかなる３Ｄサポートも考慮されていない。そのようなシステムで配信される２Ｄコンテンツのほとんどで、３Ｄビデオが望まれる場合、いくつかの問題が生じることがある。特に、ビデオ・コンテンツは、３Ｄビデオソースを有さないことがあり、３Ｄビデオソースは、複数カメラシステムによって一般にキャプチャされ、または３Ｄモデルから変換されさえもする。ビデオ・コンテンツが３Ｄビデオソースからのものでない場合、復号器で何らかの処理を行った後、そのようなビデオ・コンテンツを３Ｄ表示用に使用できるかどうかを示すシグナリングを欠いていることがある。

Ｈ．２６４／ＡＶＣで符号化された２Ｄコンテンツの３Ｄ表示が可能である場合、既存のビュー（existing view）からエクストラ・ビュー（extra view）を生成するときに、例えば、カメラ・パラメータ、シーンの深度範囲、または他のパラメータなど、いくつかの副次的情報（side information）を役立てることができる。しかし、そのような情報を現在のＨ．２６４／ＡＶＣビットストリームに収めて伝達するためのメカニズムが必要なことがある。これを行うために、本開示の技法は、Ｈ．２６４／ＡＶＣのＳＥＩメッセージまたは類似のタイプのメッセージを使用することができる。

他の問題または課題は、一般に、エクストラ・ビューが生成されたとき、送信されたビュー及び生成されたビューについて仮定された２つカメラの水平変位（horizontal displacement）のせいで（because）、生成されたビュー内に見えるべきではない領域が存在することである。この望ましくない領域が顕著なアーチファクト（noticeable artifact）を導入する場合、生成されたビュー内にこの領域を表示するのは望ましくないことがある。この問題に対処するため、本開示の技法は、クロップ領域を定義し、これをビットストリームで伝達する能力を提供する。

いくつかの態様では、本開示の技法は、ビデオフレームからなる２Ｄシーケンスを含む、例えばＨ．２６４／ＡＶＣビットストリームなどの、符号化ビデオストリームを変換し、例えば立体表示による、３Ｄ方式で表示することを可能にする。本開示によれば、２Ｄ−３Ｄ変換に必要な情報を通知（indicate）するために、シグナリング・メカニズムが使用される。この場合、復号器は、復号されたオリジナルビデオシーケンスと一緒になって３Ｄ表示を可能にする、他のビデオシーケンス（例えば第２のビュー）を生成することができる。

本開示の技法では、２Ｄ−３Ｄ変換情報が、ビットストリームに収めて提供される。ビットストリームに収められた符号化ビデオ情報は、一般にシーンの２Ｄ表現であり、エクストラ・ビューまたは深度マップを含まない。したがって、符号化２Ｄコンテンツの帯域幅は、２Ｄ−３Ｄ変換に関連するいかなるＳＥＩメッセージも含まない対応する２Ｄシーケンスの帯域幅と非常に類似している。場合によっては、２Ｄビデオシーケンスは、符号化デバイスに事前に記憶され（pre-stored）、そして、キャプチャされず、または符号化デバイスにおいて符号化されない。この場合、２Ｄ−３Ｄ変換情報は、デフォルト環境に基づいて入力および定義されたカメラ・パラメータを含むことがある。他の場合では、２Ｄビデオ・コンテンツは、キャプチャすることはできるが、符号化されない。この場合、符号器は、入力としていかなる３Ｄコンテンツも有さずに、２Ｄコンテンツを符号化することができる。しかし、２Ｄ−３Ｄ変換についての知識を有する符号器は、３Ｄ変換のために必要な情報を生成することができ、この情報をＨ．２６４／ＡＶＣビットストリームのＳＥＩメッセージ内に収めることができる。さらに他の場合では、符号化デバイスは、２Ｄビデオ・コンテンツをキャプチャし、符号化することができる。この場合、符号化デバイスは、おそらくは２Ｄビデオビットストリームを（例えば復号プロセス中に）分析することによって、２Ｄ−３Ｄ変換情報を追加することができる。

ビデオ・コンテンツが、２Ｄ−３Ｄ変換をサポートしないＨ．２６４／ＡＶＣ復号器によって復号される場合、２Ｄビデオを再構成し、表示することができる。しかし、復号器が２Ｄ−３Ｄ変換情報をサポートし、したがって、２Ｄ−３Ｄ変換機能を有する場合、復号器は、復号された２Ｄビデオシーケンスと関連する２Ｄ−３Ｄ変換情報とに基づいて、セカンダリ・ビューに関連するフレームを生成することができる。その後、２つのビュー（復号されたビューと生成されたビュー）は、３Ｄディスプレイに表示することができる。

本開示によれば、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む。言及したように、ＩＴＵＨ．２６４／ＡＶＣのＳＥＩメッセージは、この３Ｄ変換情報をビットストリームに収めて伝達するための、１つのメカニズムとすることができるが、特に他の規格とともに、他のメッセージまたはメカニズムを使用することもできる。３Ｄ変換情報は、以下のいくつかまたはすべてを含むことができる。
１−関連する符号化ビデオシーケンスを３Ｄに変換できることの表示。
２−重要なカメラ・パラメータ、例えば、カメラの焦点距離、および／または仮想ビューに対応する仮定されたカメラの平行移動。
３−現在のシーンの深度範囲。
４−特殊な処理またはクロッピング（special treatment or cropping）を必要とすることがある、復号ビデオ（オリジナル・ビュー）および仮想ビュー内の領域。

以下の表１は、３Ｄ変換情報（２Ｄ−３Ｄ変換情報）の一例を、様々なＳＥＩメッセージ・シンタックス要素を含むＳＥＩメッセージ・シンタックスの形式で提供している。

変数ｕ（１）およびｕｅ（ｖ）は、Ｈ．２６４／ＡＶＣ仕様書で定義された変数とすることができる。ここで、ｕ（１）は、ビットストリーム内にフラグを符号化するカテゴリであり、ｕｅ（ｖ）は、指数ゴロム（Exponential Golomb）（可変長）符号化を使用して、ビットストリーム内に符号なし整数（unsigned integer）を符号化するカテゴリである。

表１の例示的な３Ｄ変換情報は、以下で説明するようなセマンティクスを有することができる。存在する場合、このＳＥＩメッセージは、現在のアクセス・ユニットと後続のアクセス・ユニットとを含むターゲット・アクセス・ユニットに、次の２Ｄ−３Ｄ変換ＳＥＩメッセージが届くまで、または符号化ビデオシーケンスの終端に達するまで、復号順に適用することができる。第１の２Ｄ−３Ｄ変換ＳＥＩメッセージは、存在する場合、符号化ビデオシーケンスの第１のアクセス・ユニット内に出現することができる。このＳＥＩメッセージは、存在する場合、復号されたビデオに基づいて他のビューを生成できることを通知することができる。復号されたビデオは、オリジナル・ビューとして定義することができ、復号器によって生成されたセカンダリ・ビューは、生成されたビューと呼ぶことができる。オリジナル・ビューと生成されたビューのために、２つのカメラを仮定することができる。

表１の変数ｃａｍｅｒａ＿ｓｃｅｎｅ＿ｐａｒａ＿ｐｒｅｓｅｎｔ＿ｆｌａｇは、１の値に設定された場合、焦点距離、深度範囲値、および２つのカメラの平行移動がＳＥＩメッセージ内に指定されていることを示すことができる。ｃａｍｅｒａ＿ｓｃｅｎｅ＿ｐａｒａ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合、これは、ｆｏｃａｌ＿ｌｅｎｇｔｈ、ｎｅａｒ＿ｄａｐｔｈ、ｆａｒ＿ｄａｐｔｈ、およびｔｒａｎｓｌａｔｅ＿ｘをいくつかのデフォルト値によって推測できることを示すことができる。一例として、ｆｏｃａｌ＿ｌｅｎｇｔｈ、ｎｅａｒ＿ｄａｐｔｈ、ｆａｒ＿ｄａｐｔｈ、およびｔｒａｎｓｌａｔｅ＿ｘのデフォルト値は、それぞれ、１０００、２０００、４０００、およびＰｉｃＷｉｄｔｈＩｎＳａｍｐｌｅｓ_L／１６と定義することができる。ｃａｍｅｒａ＿ｓｃｅｎｅ＿ｐａｒａ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが１に等しい場合、焦点距離、深度範囲値、および平行移動値は、ビットストリーム内に明示的に含まれるが、ｃａｍｅｒａ＿ｓｃｅｎｅ＿ｐａｒａ＿ｐｒｅｓｅｎｔ＿ｆｌａｇが０に等しい場合、これらの値は、ビットストリーム内に明示的に含まれない。

表１の変数ｌｅｆｔ＿ｖｉｅｗ＿ｏｒｉｇｉｎａｌ＿ｆｌａｇは、生成されたビューがオリジナル・ビューの左側にあることを示すために、すなわち、生成されたビューのために仮定されたカメラがオリジナル・ビューのオリジナルカメラの左側であることを示すために、１に等しくすることができる。変数ｌｅｆｔ＿ｖｉｅｗ＿ｏｒｉｇｉｎａｌ＿ｆｌａｇが０に等しい場合、生成されたビューがオリジナル・ビューの右側にあることを示す。もちろん、これら左右の指示を逆にすることもできる。

表１の変数ｄｕｍｍｙ＿ｒｅｇｉｏｎ＿ｆｌａｇは、２つのビューのためにダミー領域が存在し、この領域が表示前にクロッピングされることを示すために、１に等しくすることができる。表１の変数ｆｏｃａｌ＿ｌｅｎｇｔｈは、カメラの焦点距離を指定することができる。一例として、ｆｏｃａｌ＿ｌｅｎｇｔｈの値は、１以上２³²−１以下の（inclusive）範囲内にあることができる。表１の変数ｎｅａｒ＿ｄｅｐｔｈは、オリジナル・ビューおよび生成されたビュー内のピクセルの最小深度値を指定する。変数ｎｅａｒ＿ｄｅｐｔｈは、１以上ｆａｒ＿ｄｅｐｔｈ−１以下の（inclusive）範囲内にあることができる。表１の変数ｆａｒ＿ｄｅｐｔｈは、オリジナル・ビューおよび生成されたビュー内のピクセルの最大深度値を指定する。ｆａｒ＿ｄｅｐｔｈの値は、ｎｅａｒ＿ｄｅｐｔｈ＋１以上２³²−１以下の（inclusive）範囲内にあることができる。

表１の変数ｔｒａｎｓｌａｔｅ＿ｘは、オリジナル・ビューと生成されたビューについて仮定されたカメラの間の距離を指定する。変数ｄｕｍ＿ｒｅｇ＿ｗｉｄｔｈは、出力用に使用されない、オリジナル・ビューおよび生成されたビューではクロッピングされる領域の幅を指定し、単位は輝度サンプル（luma samples）の単位である。ｄｕｍ＿ｒｅｇ＿ｗｉｄｔｈは、ｄｕｍｍｙ＿ｒｅｇｉｏｎ＿ｆｌａｇが１に等しい場合にのみ含まれ得る。

ｌｅｆｔ＿ｖｉｅｗ＿ｏｒｉｇｉｎａｌ＿ｆｌａｇが１に等しい場合、出力領域は、水平方向に、両端を含んで０からＰｉｃＷｉｄｔｈＩｎＳａｍｐｌｅｓ_L−ｄｕｍ＿ｒｅｇ＿ｗｉｄｔｈ−１までの（inclusive）領域にクロッピングされる。ｌｅｆｔ＿ｖｉｅｗ＿ｏｒｉｇｉｎａｌ＿ｆｌａｇが０に等しい場合、出力領域は、両端を含んでｄｕｍ＿ｒｅｇ＿ｗｉｄｔｈからＰｉｃＷｉｄｔｈＩｎＳａｍｐｌｅｓ_L−１までの領域にクロッピングされる（inclusively）。ｄｕｍ＿ｒｅｇ＿ｗｉｄｔｈの値は、ＰｉｃＷｉｄｔｈＩｎＳａｍｐｌｅｓ_L／１６であると推測することもできる。

例えばＳＥＩメッセージ内の、３Ｄ変換情報は、エクストラ・ビューを生成するために復号器においてビュー合成のために適用されるアルゴリズムを必ずしも指定しない。しかし、３Ｄワーピングベースのアルゴリズムでは、３Ｄワーピングのために上記の式（８）を使用することができ、この式は、実際に、オリジナル・ビュー内の１つのピクセルを仮想ビューにマッピングする。この場合、ｚ_wはオリジナル・ビュー内のピクセルの深度であって、［ｎｅａｒ＿ｄｅｐｔｈ，ｆａｒ＿ｄｅｐｔｈ］の区間内にあり、ｆはｆｏｃａｌ＿ｌｅｎｇｔｈであり、ｄの絶対値がｔｒａｎｓｌａｔｅ＿ｘである。

代替として、ｆｏｃａｌ＿ｌｅｎｇｔｈ、ｎｅａｒ＿ｄｅｐｔｈ、ｆａｒ＿ｄｅｐｔｈ、およびｔｒａｎｓｌａｔｅ＿ｘは、ＩＥＣ６０５５９仕様書または他の通信プロトコルによる、符号付き倍精度値（signed double values）として伝達（signaled）することもできる。ＩＥＣ６０５５９では、値Ｘは、符号ｓ（＋／−）、Ｎ（仮数部）、およびＥ（指数部）の３つの部分で伝達される。値Ｘの計算の１つの可能な実装が、以下の疑似コード（pseudo-code）で説明されている。

ここで、Ｘは計算される変数であり、ｓ、Ｎ、およびＥは、計算される各変数に関連する符号、指数、および仮数シンタックス要素に対応し、Ｍは、Ｍ＝ｂｉｎ２ｆｌｏａｔ（Ｎ）、０≦Ｍ＜１である。各カメラ・パラメータ変数と対応するシンタックス要素との間の関連付けは、多種多様な実装に依存する。

また、上記のパラメータに加えて、追加のパラメータも使用することができる。例えば、収束画像平面（convergence image plane）から２つの異なるカメラまでの仮定距離を定量化する収束深度値（convergence-depth value）を、一組のパラメータに含めることができる。表１のパラメータを用いる場合、収束深度値は、無限であると仮定することができるが、他の場合は、収束深度値を一組のパラメータに明確に含めることができる。

以下の疑似コードは、分数の２進表現を対応する浮動小数点数に変換する、ｂｉｎ２ｆｌｏａｔ（）関数の一例を提供している。関数Ｍ＝ｂｉｎ２ｆｌｏａｔ（Ｎ）の疑似コードは、以下のように与えることができる。

代替として、より多くのカメラ・パラメータを伝達することもできる。例えば、ｘ軸およびｙ軸についての異なる焦点距離ｆ_xおよびｆ_yと、スキュー係数とを含み、または式（６）に示されるような主点すらも含む、内部パラメータを伝達することができる。加えて、生成されるビューについて仮定されるカメラは、ｘｚ平面における回転を有することができ、そのため、この値、すなわち式（７）に示されるようなθも伝達することができる。

図７は、本開示による、ビデオ符号器５０を含むデバイスによって実行できる符号化プロセスを示すフロー図である。図７に示されるように、ビデオ符号器５０は、ビデオフレームからなる２Ｄシーケンスを符号化し（１０１）、２Ｄ−３Ｄ変換ユニット３６は、ビデオ符号器を用いて３Ｄ変換情報を符号化し（１０２）、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む。その後、ビデオ符号器５０を含むデバイスは、符号化２Ｄシーケンスを３Ｄ変換情報とともに伝達することができる（１０３）。図１を参照すると、例えば、ビデオ符号器２２は、ビデオ符号器５０に対応することができる。この場合、ソース・デバイス１２は、モデム２３および送信機２４を介して、符号化２Ｄシーケンスを３Ｄ変換情報とともに伝達することができ（１０３）、モデム２３および送信機２４は、符号分割多元接続（ＣＤＭＡ）などの無線プロトコルに従って、情報を変調し、送信する。

２Ｄシーケンスを符号化する際、ビデオ符号器５０は、ＩＴＵＨ．２６４ビデオ符号化規格に従って、２Ｄシーケンスを符号化することができる。この場合、３Ｄ変換情報を符号化することは、上で説明したようなＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数のＳＥＩメッセージ内に、３Ｄ変換情報を符号化することを含むことができる。２Ｄシーケンスは、第１の２Ｄシーケンス（例えばオリジナルシーケンス）と呼ばれることもある。ビデオフレーム（例えばセカンダリ・ビュー）からなる第２の２Ｄシーケンスを生成するために、第１の２Ｄシーケンス内のビデオフレームの各々に、一組のパラメータを適用することができ、第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義する。

３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含むことができる。上で説明したように、３Ｄ変換情報は、２Ｄシーケンスのキャプチャに関連するカメラ・パラメータおよび値を含むことができる。例えば、３Ｄ変換情報は、２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を表す焦点距離値、３Ｄビデオデータの最小深度を指定する近深度値、３Ｄビデオデータの最大深度を指定する遠深度値、および３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値を含むことができる。

３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるかどうか、またはデフォルトの一組の３Ｄパラメータを使用すべきかどうかを指示するフラグを含むことができる。加えて、３Ｄ変換情報は、２Ｄシーケンスの第２のビューを２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグも含むことができる。また、３Ｄ変換情報は、３Ｄビデオデータから除去すべきクロップ領域を識別するフラグも含むことができる。

一例では、第１のフラグは、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるかどうか、またはデフォルトの一組の３Ｄパラメータを使用すべきかどうかを指示することができ、明示的な一組の３Ｄパラメータは、第１のフラグが設定されているときに、３Ｄ変換情報に含まれる。第２のフラグは、２Ｄシーケンスの第２のビューを２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示することができ、第３のフラグは、３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別することができ、クロップ領域を定義する情報は、第３のフラグが設定されているときに、３Ｄ変換情報に含まれる。

図８は、本開示による、復号プロセスを示すフロー図である。ビデオ復号器７０は、符号化２Ｄシーケンスを３Ｄ変換情報とともに受け取り（１１１）、２Ｄシーケンスを復号する（１１２）。例えば、エントロピー復号ユニット７２は、２Ｄシーケンスの残差ビデオブロックの量子化された係数を生成するために、ビットストリームのエントロピー復号を実行することができる。エントロピー復号ユニット７２は、ビットストリームからシンタックス要素を解析して取り出し、そのようなシンタックス要素をビデオ復号器７０の様々なユニットに転送することができる。エントロピー符号化ユニット７２は、ＳＥＩメッセージ内の任意のシンタックスを識別するために、そのようなメッセージを解析（parse）することができる。動き情報（例えば動きベクトル）および他のシンタックス情報を、予測ユニット７５に転送することができる。予測ユニット７５は、符号化の際に使用された予測ブロックを識別するために、動き情報または他のシンタックス要素を使用する。インターベースの復号の場合、予測データの１つまたは複数のリストから予測ブロックを生成するために、動き補償プロセスにおいて、動きベクトルを適用することができる。インターベースの復号の場合、シンタックスは、イントラモードを含むことができ、このモードは、復号されるビデオブロックのフレームと同じフレームに属するデータに基づいて、予測ブロックをどのように生成すべきかを定義することができる。

逆量子化ユニット７６は、エントロピー復号ユニット７２から受け取ったデータを逆量子化し、逆変換ユニットは、ピクセル領域における残差ブロックを生成するために、逆変換を実行する。その後、加算器７９は、オリジナル・ビデオブロックの再構成を生成するために、残差ブロックを、予測ユニット７５によって生成された予測ブロックと合成する。オリジナル・ビデオブロックの再構成は、メモリ７４内に記憶することができ、および／または復号された２Ｄビデオデータとしてディスプレイに出力することができる。このようにして、ビデオフレームを再構成し、最終的にメモリ７４内にビデオフレームからなる２Ｄシーケンス全体を再構成するために、多くのビデオブロックを復号することができる。

ビデオ復号器７０は、それが３Ｄビデオをサポートするかどうかを判定することができる（１１３）。言い換えると、ビデオ復号器７０は、それが２Ｄ−３Ｄ変換ユニット７９を含むかどうかを判定することができる。これは明示的に判定することができ、または代替として、ビデオ復号器７０は、２Ｄ−３Ｄ変換ユニット７９を含まない場合は、本質的に２Ｄ復号に従って動作することができる。ビデオ復号器７０が２Ｄ−３Ｄ変換ユニット７９を含む場合、３Ｄビデオを生成することができる。

したがって、ビデオ復号器７０が３Ｄビデオをサポートしない場合（１１３のｎｏ分岐）、ビデオ復号器７０は、復号された２Ｄシーケンスを２Ｄディスプレイに出力することができる（１１４）。他方、ビデオ復号器７０が３Ｄビデオをサポートする場合（１１３のｙｅｓ分岐）、２Ｄ−３Ｄ変換ユニット７９は、３Ｄビデオシーケンスを生成するために、復号された２Ｄシーケンスに３Ｄ変換情報を適用し（１１５）、その後、その結果は、ビデオ復号器７０から３Ｄディスプレイに出力することができる（１１６）。このようにして、３Ｄ変換情報とともに伝達された２Ｄシーケンスは、２Ｄ−３Ｄ変換をサポートする復号デバイスでは、３Ｄビデオをサポートすることができるが、２Ｄビデオだけしかサポートしないレガシデバイスでは、従来の２Ｄビデオもサポートすることができる。

また他の例では、２Ｄシーケンスとともに３Ｄ変換情報を伝達する必要がないこともある。例えば、符号器または復号器は、３Ｄビデオデータを生成するために、本明細書で説明した３Ｄ変換情報を、記憶されたまたは受け取った２Ｄシーケンスに単純に適用することもある。したがって、本開示は、３Ｄビデオデータを生成するために２Ｄシーケンスに３Ｄ変換情報を適用する、方法、コンピュータ読み取り可能な記憶媒体、装置、およびデバイスを企図している。ここで、３Ｄ変換情報は、３Ｄビデオデータを生成するために２Ｄシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む。

本開示の技法は、モバイルフォンなどの無線通信デバイスハンドセット、集積回路（ＩＣ）、または一組のＩＣ（すなわちチップセット）を含む、多種多様なデバイスまたは装置において実装することができる。いずれのコンポーネント、モジュール、またはユニットも、機能態様を強調して説明および提供されており、異なるハードウェアユニットによる実現を必ずしも必要としない。本明細書で説明した技法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装することもできる。モジュール、ユニット、またはコンポーネントとして説明されたいずれの特徴も、一緒にして統合論理デバイス内で、または切り離して個別の相互動作可能な論理デバイス（interoperable logic devices）として実装することができる。場合によっては、様々な特徴は、集積回路チップまたはチップセットなどの、集積回路デバイスとして実装することができる。

ソフトウェアで実装する場合、本開示の技法は、プロセッサにおいて実行された場合に、上で説明した方法の１つまたは複数を実行する命令を含む、コンピュータ読み取り可能な媒体によって少なくとも部分的に実現することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な記憶媒体を含むことができ、パッケージング材料を含み得るコンピュータプログラム製品の一部を形成することができる。コンピュータ読み取り可能な記憶媒体は、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、および磁気的または光学的記憶媒体などを含むことができる。本開示の技法は、追加または代替として、命令またはデータ構造の形式をとるコードを搬送または伝達し、コンピュータによるアクセス、読取り、および／または実行が可能な、コンピュータ読み取り可能な通信媒体によって少なくとも部分的に実現することができる。

コードまたは命令は、１つまたは複数のデジタル信号プロセッサ（ＤＳＰ）、汎用マイクロプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、または他の等価な統合もしくは個別論理回路など、１つまたは複数のプロセッサによって実行することができる。したがって、「プロセッサ」という用語は、本明細書で使用される場合、上記の構造のいずれか、または本明細書で説明した技法の実装に適した他の任意の構造を指すことができる。加えて、幾つかの態様において、本明細書で説明した機能は、符号化および復号のために構成された専用ソフトウェアモジュールまたはハードウェアモジュール内で提供することができ、または組合せビデオコーデック内に組み込むことができる。また、本開示の技法は、１つまたは複数の回路または論理要素において完全に実装することができる。

本開示は、本開示で説明した技法の１つまたは複数を実装する回路を含む様々な集積回路デバイスのいずれをも意図している。そのような回路は、単一の集積回路チップにおいて、またはいわゆるチップセット内の複数の相互動作可能な集積回路チップにおいて提供することができる。そのような集積回路デバイスは、様々なアプリケーションで使用することができ、そのいくつかは、モバイル電話ハンドセットなどの無線通信デバイスにおける使用を含むことができる。

様々な例が、本開示において説明された。これらの例および他の例は、以下の特許請求の範囲内にある。

様々な例が、本開示において説明された。これらの例および他の例は、以下の特許請求の範囲内にある。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］ビデオ符号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを符号化することと、
前記ビデオ符号器を用いて３次元（３Ｄ）変換情報を符号化することと、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記符号化２Ｄシーケンスを前記３Ｄ変換情報とともに伝達することを含む方法。
［Ｃ２］前記２Ｄシーケンスを符号化することは、ＩＴＵＨ．２６４ビデオ符号化規格に従って、前記２Ｄシーケンスを符号化することを含み、
前記３Ｄ変換情報を符号化することは、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージ内に前記３Ｄ変換情報を符号化することを含むＣ１に記載の方法。
［Ｃ３］前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義する、Ｃ１に記載の方法。
［Ｃ４］前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含む、Ｃ１に記載の方法。
［Ｃ５］前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、Ｃ１に記載の方法。
［Ｃ６］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、Ｃ１に記載の方法。
［Ｃ７］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値とを含む、Ｃ１に記載の方法。
［Ｃ８］前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、Ｃ１に記載の方法。
［Ｃ９］前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、Ｃ１に記載の方法。
［Ｃ１０］前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、Ｃ１に記載の方法。
［Ｃ１１］前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、Ｃ１に記載の方法。
［Ｃ１２］ビデオ復号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを受け取ることと、
前記ビデオ復号器において前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を受け取ることと、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記ビデオ復号器を用いて前記２Ｄシーケンスを復号することと、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記ビデオ復号器を用いて前記３Ｄビデオデータを生成することと
を含む方法。
［Ｃ１３］前記２Ｄシーケンスは、ＩＴＵＨ．２６４ビデオ符号化規格に従って符号化され、
前記３Ｄ変換情報は、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージに収めて受け取られる、Ｃ１２に記載の方法。
［Ｃ１４］前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義し、
前記３Ｄビデオデータを生成することは、前記３Ｄ立体視ビデオシーケンスを定義するために、前記第２の２Ｄシーケンスを生成することを含む、Ｃ１２に記載の方法。
［Ｃ１５］前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含む、Ｃ１２に記載の方法。
［Ｃ１６］前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、Ｃ１２に記載の方法。
［Ｃ１７］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、Ｃ１２に記載の方法。
［Ｃ１８］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値と
を含む、Ｃ１２に記載の方法。
［Ｃ１９］前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、Ｃ１２に記載の方法。
［Ｃ２０］前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、Ｃ１２に記載の方法。
［Ｃ２１］前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、Ｃ１２に記載の方法。
［Ｃ２２］前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、Ｃ１２に記載の方法。
［Ｃ２３］受信デバイスが前記３Ｄビデオデータを生成及びレンダリングできるかどうかについて、判定することと、
前記受信デバイスが前記３Ｄビデオデータを生成及びレンダリングできる場合に、前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成し、レンダリングすることと、
前記受信デバイスが前記３Ｄビデオデータを生成又はレンダリングできない場合に、前記２Ｄシーケンスをレンダリングすることを更に含むＣ１２に記載の方法。
［Ｃ２４］ビデオフレームからなる２次元（２Ｄ）シーケンスを符号化し、前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を符号化するビデオ符号器を含み、
前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、装置。
［Ｃ２５］前記符号化２Ｄシーケンスを前記３Ｄ変換情報とともに他のデバイスに伝達する送信機を更に含むＣ２４に記載の装置。
［Ｃ２６］前記ビデオ符号器は、ＩＴＵＨ．２６４ビデオ符号化規格に従って、前記２Ｄシーケンスを符号化し、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージ内に前記３Ｄ変換情報を符号化する、Ｃ２４に記載の装置。
［Ｃ２７］前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義する、Ｃ２４に記載の装置。
［Ｃ２８］前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含む、Ｃ２４に記載の装置。
［Ｃ２９］前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、Ｃ２４に記載の装置。
［Ｃ３０］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、Ｃ２４に記載の装置。
［Ｃ３１］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値と
を含む、Ｃ２４に記載の装置。
［Ｃ３２］前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、Ｃ２４に記載の装置。
［Ｃ３３］前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、Ｃ２４に記載の装置。
［Ｃ３４］前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、Ｃ２４に記載の装置。
［Ｃ３５］前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、Ｃ２４に記載の装置。
［Ｃ３６］集積回路と、
マイクロプロセッサと、
前記ビデオ符号器を含む無線通信デバイスと
のうちの少なくとも一つを含むＣ２４に記載の装置。
［Ｃ３７］ビデオ復号器を含む装置において、
前記ビデオ復号器は、
ビデオフレームからなる２次元（２Ｄ）シーケンスを受け取り、
前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を受け取り、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記２Ｄシーケンスを復号し、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成する装置。
［Ｃ３８］前記２Ｄシーケンスは、ＩＴＵＨ．２６４ビデオ符号化規格に従って符号化され、
前記３Ｄ変換情報は、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージに収めて受け取られる、Ｃ３７に記載の装置。
［Ｃ３９］前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義し、
前記３Ｄビデオデータを生成する際に、前記ビデオ復号器は、前記３Ｄ立体視ビデオシーケンスを定義するために、前記第２の２Ｄシーケンスを生成する、Ｃ３７に記載の装置。
［Ｃ４０］前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用する３Ｄ変換プロセスを識別する情報を含む、Ｃ３７に記載の装置。
［Ｃ４１］前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、Ｃ３７に記載の装置。
［Ｃ４２］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおけの最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、Ｃ３７に記載の装置。
［Ｃ４３］前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値と
を含む、Ｃ３７に記載の装置。
［Ｃ４４］前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、Ｃ３７に記載の装置。
［Ｃ４５］前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、Ｃ３７に記載の装置。
［Ｃ４６］前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、Ｃ３７に記載の装置。
［Ｃ４７］前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、Ｃ３７に記載の装置。
［Ｃ４８］ディスプレイを含む装置において、
前記装置が前記３Ｄビデオデータを生成及びレンダリングできるかどうかについて、判定し、
前記装置が前記３Ｄビデオデータを生成及びレンダリングできる場合に、前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成し、前記ディスプレイ上にレンダリングし、
前記装置が前記３Ｄビデオデータを生成又はレンダリングできない場合に、前記２Ｄシーケンスを前記ディスプレイ上にレンダリングする、
Ｃ３７に記載の装置。
［Ｃ４９］集積回路と、
マイクロプロセッサと、
前記ビデオ復号器を含む無線通信デバイスと
のうちの少なくとも一つを含むＣ３７に記載の装置。
［Ｃ５０］ビデオ符号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを符号化するための手段と、
前記ビデオ符号器を用いて３次元（３Ｄ）変換情報を符号化するための手段と、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記符号化２Ｄシーケンスを前記符号化されたパラメータとともに伝達するための手段とを含むデバイス。
［Ｃ５１］ビデオ復号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを受け取るための手段と、
前記ビデオ復号器において前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を受け取るための手段と、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記２Ｄシーケンスを復号するための手段と、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成するための手段とを含むデバイス。
［Ｃ５２］命令を含むコンピュータ読み取り可能な記憶媒体において、
前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
ビデオフレームからなる２次元（２Ｄ）シーケンスを符号化させ、
３次元（３Ｄ）変換情報を符号化させるものであり、
前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、コンピュータ読み取り可能な記憶媒体。
［Ｃ５３］命令を含むコンピュータ読み取り可能な記憶媒体において、
前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
ビデオフレームからなる２次元（２Ｄ）シーケンスの受け取り、及び、前記２Ｄシーケンスとともに、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む３次元（３Ｄ）変換情報の受け取りに応じて、
前記２Ｄシーケンスを復号させ、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成させるものであるコンピュータ読み取り可能な記憶媒体。
［Ｃ５４］３Ｄビデオデータを生成するために３Ｄ変換情報を２Ｄシーケンスに適用することを含み、
ここで、前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む、方法。

Claims

ビデオ符号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを符号化することと、
前記ビデオ符号器を用いて３次元（３Ｄ）変換情報を符号化することと、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記符号化２Ｄシーケンスを前記３Ｄ変換情報とともに伝達することを含む方法。
前記２Ｄシーケンスを符号化することは、ＩＴＵＨ．２６４ビデオ符号化規格に従って、前記２Ｄシーケンスを符号化することを含み、
前記３Ｄ変換情報を符号化することは、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージ内に前記３Ｄ変換情報を符号化することを含む請求項１に記載の方法。
前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義する、請求項１に記載の方法。
前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含む、請求項１に記載の方法。
前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、請求項１に記載の方法。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、請求項１に記載の方法。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値とを含む、請求項１に記載の方法。
前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、請求項１に記載の方法。
前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項１に記載の方法。
前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項１に記載の方法。
前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、請求項１に記載の方法。
ビデオ復号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを受け取ることと、
前記ビデオ復号器において前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を受け取ることと、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記ビデオ復号器を用いて前記２Ｄシーケンスを復号することと、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記ビデオ復号器を用いて前記３Ｄビデオデータを生成することと
を含む方法。
前記２Ｄシーケンスは、ＩＴＵＨ．２６４ビデオ符号化規格に従って符号化され、
前記３Ｄ変換情報は、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージに収めて受け取られる、請求項１２に記載の方法。
前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義し、
前記３Ｄビデオデータを生成することは、前記３Ｄ立体視ビデオシーケンスを定義するために、前記第２の２Ｄシーケンスを生成することを含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値と
を含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項１２に記載の方法。
前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、請求項１２に記載の方法。
受信デバイスが前記３Ｄビデオデータを生成及びレンダリングできるかどうかについて、判定することと、
前記受信デバイスが前記３Ｄビデオデータを生成及びレンダリングできる場合に、前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成し、レンダリングすることと、
前記受信デバイスが前記３Ｄビデオデータを生成又はレンダリングできない場合に、前記２Ｄシーケンスをレンダリングすることを更に含む請求項１２に記載の方法。
ビデオフレームからなる２次元（２Ｄ）シーケンスを符号化し、前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を符号化するビデオ符号器を含み、
前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、装置。
前記符号化２Ｄシーケンスを前記３Ｄ変換情報とともに他のデバイスに伝達する送信機を更に含む請求項２４に記載の装置。
前記ビデオ符号器は、ＩＴＵＨ．２６４ビデオ符号化規格に従って、前記２Ｄシーケンスを符号化し、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージ内に前記３Ｄ変換情報を符号化する、請求項２４に記載の装置。
前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義する、請求項２４に記載の装置。
前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用される３Ｄ変換プロセスを識別する情報を含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値と
を含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項２４に記載の装置。
前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、請求項２４に記載の装置。
集積回路と、
マイクロプロセッサと、
前記ビデオ符号器を含む無線通信デバイスと
のうちの少なくとも一つを含む請求項２４に記載の装置。
ビデオ復号器を含む装置において、
前記ビデオ復号器は、
ビデオフレームからなる２次元（２Ｄ）シーケンスを受け取り、
前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を受け取り、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記２Ｄシーケンスを復号し、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成する装置。
前記２Ｄシーケンスは、ＩＴＵＨ．２６４ビデオ符号化規格に従って符号化され、
前記３Ｄ変換情報は、前記ＩＴＵＨ．２６４ビデオ符号化規格によってサポートされる１つまたは複数の補助拡張情報（ＳＥＩ）メッセージに収めて受け取られる、請求項３７に記載の装置。
前記２Ｄシーケンスは、第１の２Ｄシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第２の２Ｄシーケンスを生成するために、前記第１の２Ｄシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第１及び第２の２Ｄシーケンスは、一緒になって、３Ｄ立体視ビデオシーケンスを定義し、
前記３Ｄビデオデータを生成する際に、前記ビデオ復号器は、前記３Ｄ立体視ビデオシーケンスを定義するために、前記第２の２Ｄシーケンスを生成する、請求項３７に記載の装置。
前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンスに適用する３Ｄ変換プロセスを識別する情報を含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、カメラ・パラメータと、前記２Ｄシーケンスのキャプチャに関連する値とを含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおけの最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と
を含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、
前記２Ｄシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記３Ｄビデオデータにおける最小深度を指定する近深度値と、
前記３Ｄビデオデータにおける最大深度を指定する遠深度値と、
前記３Ｄビデオデータに関連する２つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記２つのカメラまでの仮定距離を定量化する収束深度値と
を含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示するフラグを含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、前記３Ｄビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項３７に記載の装置。
前記３Ｄ変換情報は、
前記３Ｄ変換情報に明示的な一組の３Ｄパラメータが含まれるか又はデフォルトの一組の３Ｄパラメータを使用すべきかを指示する第１のフラグであって、前記明示的な一組の３Ｄパラメータは、前記第１のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第１のフラグと、
前記２Ｄシーケンスの第２のビューを前記２Ｄシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第２のフラグと、
前記３Ｄビデオデータからクロップ領域を除去すべきかどうかを識別する第３のフラグであって、前記クロップ領域を定義する情報は、前記第３のフラグが設定されている場合に、前記３Ｄ変換情報に含まれる、第３のフラグと
を含む、請求項３７に記載の装置。
ディスプレイを含む装置において、
前記装置が前記３Ｄビデオデータを生成及びレンダリングできるかどうかについて、判定し、
前記装置が前記３Ｄビデオデータを生成及びレンダリングできる場合に、前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成し、前記ディスプレイ上にレンダリングし、
前記装置が前記３Ｄビデオデータを生成又はレンダリングできない場合に、前記２Ｄシーケンスを前記ディスプレイ上にレンダリングする、
請求項３７に記載の装置。
集積回路と、
マイクロプロセッサと、
前記ビデオ復号器を含む無線通信デバイスと
のうちの少なくとも一つを含む請求項３７に記載の装置。
ビデオ符号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを符号化するための手段と、
前記ビデオ符号器を用いて３次元（３Ｄ）変換情報を符号化するための手段と、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記符号化２Ｄシーケンスを前記符号化されたパラメータとともに伝達するための手段とを含むデバイス。
ビデオ復号器においてビデオフレームからなる２次元（２Ｄ）シーケンスを受け取るための手段と、
前記ビデオ復号器において前記２Ｄシーケンスとともに３次元（３Ｄ）変換情報を受け取るための手段と、ここで、前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記２Ｄシーケンスを復号するための手段と、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成するための手段とを含むデバイス。
命令を含むコンピュータ読み取り可能な記憶媒体において、
前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
ビデオフレームからなる２次元（２Ｄ）シーケンスを符号化させ、
３次元（３Ｄ）変換情報を符号化させるものであり、
前記３Ｄ変換情報は、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、コンピュータ読み取り可能な記憶媒体。
命令を含むコンピュータ読み取り可能な記憶媒体において、
前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
ビデオフレームからなる２次元（２Ｄ）シーケンスの受け取り、及び、前記２Ｄシーケンスとともに、３Ｄビデオデータを生成するために前記２Ｄシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む３次元（３Ｄ）変換情報の受け取りに応じて、
前記２Ｄシーケンスを復号させ、
前記２Ｄシーケンス及び前記３Ｄ変換情報に基づいて、前記３Ｄビデオデータを生成させるものであるコンピュータ読み取り可能な記憶媒体。
３Ｄビデオデータを生成するために３Ｄ変換情報を２Ｄシーケンスに適用することを含み、
ここで、前記３Ｄ変換情報は、前記３Ｄビデオデータを生成するために前記２Ｄシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む、方法。