JP2015046899A - 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence) - Google Patents

2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence) Download PDF

Info

Publication number
JP2015046899A
JP2015046899A JP2014205047A JP2014205047A JP2015046899A JP 2015046899 A JP2015046899 A JP 2015046899A JP 2014205047 A JP2014205047 A JP 2014205047A JP 2014205047 A JP2014205047 A JP 2014205047A JP 2015046899 A JP2015046899 A JP 2015046899A
Authority
JP
Japan
Prior art keywords
sequence
video
conversion information
video data
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2014205047A
Other languages
English (en)
Other versions
JP2015046899A5 (ja
Inventor
イン・チェン
Ying Chen
マルタ・カークゼウィックズ
Karczewicz Marta
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015046899A publication Critical patent/JP2015046899A/ja
Publication of JP2015046899A5 publication Critical patent/JP2015046899A5/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/161Encoding, multiplexing or demultiplexing different image signal components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/172Processing image signals image signals comprising non-image signal components, e.g. headers or format information
    • H04N13/178Metadata, e.g. disparity information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/194Transmission of image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/293Generating mixed stereoscopic images; Generating mixed monoscopic and stereoscopic images, e.g. a stereoscopic image overlay window on a monoscopic image background
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/70Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

【課題】ビデオフレームからなる2次元(2D)ビデオシーケンスを、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む3次元(3D)変換情報とともに符号化するための技法を提供する。【解決手段】ビデオ符号器においてビデオフレームからなる2次元(2D)シーケンスを符号化することと、ビデオ符号器を用いて3次元(3D)変換情報を符号化することと、を含む。3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、符号化2Dシーケンスを3D変換情報とともに伝達する。【選択図】図7

Description

(関連出願の相互参照)
本出願は、2009年6月5日に出願された、米国仮出願第61/184649号の利益を主張し、同仮出願の内容全体が、参照により本明細書に組み込まれる。
(技術分野)
本開示は、ビデオ符号化と、2次元(2D)ビデオデータの3次元(3D)ビデオデータへの変換に関する。
デジタルマルチメディア機能は、たとえばデジタルテレビ、デジタル直接ブロードキャスト・システム(digital direct broadcast systems)、無線通信デバイス、無線ブロードキャスト・システム、携帯情報端末(PDA)、ラップトップ・コンピュータまたはデスクトップ・コンピュータ、デジタルカメラ、デジタル記録デバイス、ビデオゲームデバイス、ビデオゲームコンソール、セルラー電話または衛星無線電話、デジタル・メディア・プレーヤなどを含む、多種多様なデバイスに組み込むことができる。デジタルマルチメディアデバイスは、デジタルビデオデータの送受信又は記憶及び検索をより効率的に行うために、たとえばMPEG−2、ITU−H.263、MPEG−4、またはITU−H.264/MPEG−4 Part 10、高度ビデオ符号化(Advanced Video Coding)(AVC)などのようなビデオ符号化技法を実装することができる。ビデオ符号化技法は、ビデオシーケンスに内在する冗長性を低減または除去するために、空間的予測および時間的予測を用いるビデオ圧縮を実行することができる。
従来のビデオシーケンスのほとんどは、2次元(2D)ビューイング・フォーマットで提供される。しかし、3次元(3D)シーケンスも可能であり、その場合、ビデオシーケンスは、各ビデオフレームに関連付けられる2つ以上のビューを有する。この場合、2つ以上のビューは、3Dビデオをレンダリングするために、3Dディスプレイにおいて組み合わせることができる。3Dビデオシーケンスの伝達には、2Dビデオシーケンスと比べて、相当量の追加的データを必要とすることがある。例えば、3Dビデオシーケンスを伝達する場合、2Dビデオフレーム毎に2つの異なるビューを提供するために、2つの別個のビデオフレームが必要とされることがあり、その結果、伝達されるデータの量がほぼ2倍になることがある。
本開示は、ビデオフレームからなる2次元(2D)ビデオシーケンスを、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む3次元(3D)変換情報とともに符号化するための技法について説明する。本開示は、2Dビデオシーケンスと3D変換情報の伝達及び復号についても説明する。一組のパラメータは、オリジナル・ビデオフレームの各々についてのセカンダリ・ビュー・ビデオフレームを生成するために、2Dシーケンス内のオリジナル・ビデオフレームの各々に適用できる、相対的に少量のデータを含むことができる。オリジナル・ビデオフレームとセカンダリ・ビュー・ビデオフレームとは、一緒になって(collectively)、立体視(stereoscopic)3Dビデオシーケンスを定義することができる。2Dシーケンスと一組のパラメータは、他の方法で3Dシーケンスを伝達するために必要とされるよりも、著しく少ないデータを含むことができる。2Dシーケンスと一組のパラメータは、オリジナル2Dシーケンスを伝達するのに必要なデータに加えて、無視できるほどの増加分を含むことができる。本開示は、一組のパラメータを効果的かつ効率的な方法で符号化するために使用できる、いくつかの例示的なシンタックスについても説明する。
受信デバイスは、該受信デバイスが3D復号又は3Dレンダリングをサポートしない場合であっても、2Dシーケンスを復号及びレンダリングすることができる。他方、受信デバイスは、該受信デバイスが本開示による3D復号及び3Dレンダリングをサポートする場合、2Dシーケンス及び一組のパラメータに基づいて、3Dシーケンスを生成し、レンダリングすることができる。このように、本開示の技法は、下位互換性のある(backward compatible)2D−3Dビデオ符号化及び変換(2D to 3D video coding and conversion)をサポートすることができ、2Dビデオ出力のレンダリングにも、または3Dビデオ出力のレンダリングにも、同じビットストリームを使用することができる。さらに、言及したように、説明する技法は、3Dビデオシーケンスの伝達に必要とされるデータの量を削減することができる。
一例では、本開示は、ビデオ符号器においてビデオフレームからなる2Dシーケンスを符号化することと、ビデオ符号器を用いて3D変換情報を符号化することと、ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、符号化2Dシーケンスを3D変換情報とともに伝達することを含む方法について説明する。
他の例では、本開示は、ビデオ復号器においてビデオフレームからなる2Dシーケンスを受け取ることと、ビデオ復号器において2Dシーケンスとともに3D変換情報を受け取ることと、ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、ビデオ復号器を用いて2Dシーケンスを復号することと、2Dシーケンス及び3D変換情報に基づいて、ビデオ復号器を用いて3Dビデオデータを生成することを含む方法について説明する。
他の例では、本開示は、ビデオフレームからなる2Dシーケンスを符号化し、2Dシーケンスとともに3D変換情報を符号化するビデオ符号器を含み、ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む装置について説明する。
他の例では、本開示は、ビデオフレームからなる2Dシーケンスを受け取り、2Dシーケンスとともに3D変換情報を受け取り、ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、2Dシーケンスを復号し、2Dシーケンス及び3D変換情報に基づいて3Dビデオデータを生成するビデオ復号器を含む装置について説明する。
他の例では、本開示は、ビデオ符号器においてビデオフレームからなる2Dシーケンスを符号化するための手段と、ビデオ符号器を用いて3D変換情報を符号化するための手段と、ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、符号化2Dシーケンスを3D変換情報とともに伝達するための手段とを含むデバイスについて説明する。
他の例では、本開示は、ビデオ復号器においてビデオフレームからなる2Dシーケンスを受け取るための手段と、ビデオ符号器において2Dシーケンスとともに3D変換情報を受け取るための手段と、ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、2Dシーケンスを復号するための手段と、2Dシーケンス及び3D変換情報に基づいて3Dビデオデータを生成するための手段とを含むデバイスについて説明する。
他の例では、本開示は、3Dビデオデータを生成するために、3D変換情報を2Dシーケンスに適用する、方法、装置、またはデバイスについて説明し、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む。
本開示で説明する技法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装することができる。ソフトウェアで実装される場合、ソフトウェアは、たとえばマイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、またはデジタル信号プロセッサ(DSP)などのような、1つまたは複数のプロセッサで実行することができる。技法を実行するソフトウェアは、最初にコンピュータ読み取り可能な媒体に記憶してから、プロセッサにロードし、プロセッサで実行することができる。
したがって、本開示は、プロセッサによって実行された場合に、プロセッサに、ビデオフレームからなる2Dシーケンスを符号化させ、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む3D変換情報を符号化させる命令を含むコンピュータ読み取り可能な記憶媒体についても企図している。
加えて、本開示は、プロセッサによって実行された場合に、プロセッサに、ビデオフレームからなる2Dシーケンスの受け取り、及び、2Dシーケンスとともに、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む3D変換情報の受け取りに応じて、2Dシーケンスを復号させ、2Dシーケンス及び3D変換情報に基づいて3Dビデオデータを生成させる命令を含むコンピュータ読み取り可能な記憶媒体について説明する。
本開示の1つまたは複数の態様が、細部にわたって、添付の図面と以下の説明において説明される。本開示で説明する技法の他の特徴、目的、および利点は、それらの説明および図面、ならびに特許請求の範囲から明らかになろう。
図1は、本開示の技法を実装できる例示的なビデオ符号化及び復号システムを示すブロック図である。 図2は、本開示による2次元(2D)及び3次元(3D)ビデオ符号化を実行できる例示的なビデオ符号器を示すブロック図である。 図3は、本開示による2D及び3Dビデオ復号を実行できる例示的なビデオ復号器を示すブロック図である。 図4は、3D変換パラメータに基づいて適用できる2D−3D変換の態様を示す概念図である。 図5は、3D変換パラメータに基づいて適用できる2D−3D変換の態様を示す概念図である。 図6は、3D変換パラメータに基づいて適用できる2D−3D変換の態様を示す概念図である。 図7は、本開示によるビデオ符号化デバイスによって実行される例示的なプロセスを示すフローチャートである。 図8は、本開示によるビデオ復号デバイスによって実行される例示的なプロセスを示すフローチャートである。
詳細な説明
本開示は、ビデオフレームからなる2次元(2D)ビデオシーケンスを、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む3次元(3D)変換情報(three-dimensional (3D) conversion information)とともに符号化するための、技法について説明する。3D変換情報は、ビデオシーケンス内の異なるフレーム毎に異なることはなく、オリジナル・ビデオフレーム(original video frames)の各々についてのセカンダリ・ビュー・ビデオフレーム(secondary view video frames)を生成するために、2Dシーケンス内のオリジナル・ビデオフレームの各々に適用できる、相対的に少量のデータを形成する、共通の一組のパラメータを含む。オリジナル・ビデオフレームとセカンダリ・ビュー・ビデオフレームとは、一緒になって、3Dディスプレイ上でレンダリングできる、立体視3Dビデオシーケンスを定義することができる。本開示によれば、2Dシーケンスと一組のパラメータは、他の方法で3Dシーケンスを伝達するために必要とされるよりも、著しく少ないデータを含むことができる。
一例では、3D変換情報は、オリジナル・ビデオフレームの各々についてのセカンダリ・ビューを生成するために、2Dシーケンス内のオリジナル・ビデオフレームの各々に適用できる、20バイト未満のデータを含むことができる。本開示の技法は、たとえばMPEG−2、MPEG−4、ITU H.263、ITU H.264、独自仕様の符号化規格(proprietary coding standards)または将来の符号化規格などのような、多くの符号化環境において役立てることができる。ITU H.264フレームワークに従って、本開示は、ビデオ規格に準拠した2Dビデオシーケンスとともに3D変換情報を伝達するためのメカニズムとして、補助拡張情報(supplemental enhancement information)(SEI)メッセージを使用することができる。
受信デバイスは、該受信デバイスが3D復号又は3Dレンダリングをサポートしない場合であっても、2Dシーケンスを復号し、レンダリングすることができる。しかし、受信デバイスは、該受信デバイスが本開示による3D復号及び3Dレンダリングをサポートする場合、2Dシーケンス及び一組のパラメータに基づいて、3Dシーケンスを生成し、レンダリングすることができる。このように、本開示の技法は、スケーラブルな2D−3Dビデオ符号化(scalable 2D to 3D video coding)をサポートすることができ、2Dビデオ出力のレンダリングにも、または3Dビデオ出力のレンダリングにも、同じビットストリームを使用することができる。さらに、言及したように、説明する技法は、3Dビデオシーケンスの伝達に必要とされるデータの量を削減することができる。
本開示は、一組のパラメータを効果的かつ効率的な方法で符号化するために使用できる、いくつかの例示的なシンタックスについても説明する。例えば、いくつかの実装では、3D変換情報の伝達のために、ITU H.264のSEIメッセージにおけるシンタックス要素(syntax elements)を使用することができる。一例では、以下でより詳細に説明するように、3D変換情報は、3D変換情報に明示的な(explicit)一組の3Dパラメータが含まれるかどうか、またはデフォルトの一組の3Dパラメータを使用すべきかどうかを指示する、第1のフラグを含むことができ、明示的な一組の3Dパラメータは、第1のフラグが設定されているときに、3D変換情報に含まれる。この場合、第1のフラグが設定されていなければ、復号器は、デフォルト3Dパラメータを適用しておくことができる。
3D変換情報は、2Dシーケンスの第2のビューを2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する、第2のフラグも含むことができる。この場合、第2のフラグは、復号器で生成されるセカンダリ・ビューのオリエンテーション(orientation)(例えば、オリジナル・ビデオフレームの左側または右側)を提供することによって、3Dレンダリングを支援することができる。さらに、3D変換情報は、3Dビデオデータからクロップ領域(crop region)を除去すべきかどうかを識別する、第3のフラグを含むことができ、クロップ領域を定義する情報は、第3のフラグが設定されているときに、3D変換情報に含まれる。第3のフラグが設定されていない場合、3Dビデオデータの生成及び3Dレンダリングの際に、クロッピング(cropping)を回避することができる。場合によっては、第1のフラグが設定されていない場合、第2のフラグ及び第3のフラグは、ビットストリームから排除することができる。フラグは、シングルビット・フラグまたはマルチビット・フラグを含むことができる。
図1は、本開示の技法を実装できる例示的なビデオ符号化及び復号システム10を示すブロック図である。図1に示されるように、システム10は、通信チャネル15を介して宛先デバイス16に符号化ビデオを送信する、ソース・デバイス12を含む。ソース・デバイス12及び宛先デバイス16は、モバイル・デバイスまたは通常は固定されたデバイスを含む、多種多様なデバイスのいずれかを含むことができる。場合によっては、ソース・デバイス12及び宛先デバイス16は、たとえば無線ハンドセット、いわゆるセルラー電話もしくは衛星無線電話、携帯情報端末(PDA)、モバイルメディアプレーヤ、または無線でも良くもしくは無線でなくても良い通信チャネル15を介してビデオ情報を伝達できる任意のデバイスなどのような、無線通信デバイスを含む。しかし、2Dビデオシーケンスとともに行われる3D変換情報の生成、伝達及び使用に関する本開示の技法は、多くの異なるシステムおよび環境において使用することができる。図1は、そのようなシステムの一例であるにすぎない。
図1の例では、ソース・デバイス12は、ビデオソース20と、ビデオ符号器22と、変調器/復調器(モデム)23と、送信機24とを含むことができる。宛先デバイス16は、受信機26と、モデム27と、ビデオ復号器28と、表示デバイス30とを含むことができる。本開示によれば、ソース・デバイス12のビデオ符号器22は、ビデオフレームからなる2Dシーケンスを符号化し、3D変換情報(3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む)を符号化するように構成することができる。モデム23及び送信機24は、無線信号を変調し、宛先デバイスに送信することができる。このようにして、ソース・デバイス12は、符号化2Dシーケンスを3D変換情報とともに宛先デバイス16に伝達する。
受信機26及びモデム27は、ソース・デバイス12から無線信号を受信し、復調する。したがって、ビデオ復号器28は、2Dシーケンスと、2Dシーケンスを復号する3D変換情報とを受け取ることができる。本開示によれば、ビデオ復号器28は、2Dシーケンス及び3D変換情報に基づいて、3Dビデオデータを生成することができる。やはり、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含むことができ、そして、それは、他の方法で3Dシーケンスを伝達するために必要とされるよりも、著しく少ないデータを含むことができる。
言及したように、図1に示されるシステム10は、例示的なものにすぎない。本開示の技法は、1次ブロックベースのビデオ符号化(first order block-based video coding)をサポートする、任意の符号化デバイスまたは技法に拡張することができる。ソース・デバイス12及び宛先デバイス16は、そのような符号化デバイスの例であるにすぎず、ソース・デバイス12は、宛先デバイス16に送信するための符号化ビデオデータを生成する。場合によっては、デバイス12,16は、デバイス12,16の各々が、ビデオ符号化コンポーネントと、ビデオ復号コンポーネントとを含むように、実質的に対称をなして動作することができる。したがって、システム10は、例えば、ビデオ・ストリーミング、ビデオ再生(video playback)、ビデオ放送(video broadcasting)又はビデオ電話(video telephony)のために、ビデオ・デバイス12,16間の一方向又は双方向ビデオ送信をサポートすることができる。
ソース・デバイス12のビデオソース20は、ビデオ・キャプチャ・デバイス(たとえばビデオカメラなど)、以前にキャプチャしたビデオを格納したビデオ・アーカイブ、またはビデオコンテンツ・プロバイダからのビデオ・フィード(video feed)を含むことができる。さらなる代替として、ビデオソース20は、コンピュータ生成ビデオ(computer-generated video)、アーカイブ・ビデオ(archived video)、およびライブ・ビデオ(live video)の組み合せ、またはソースビデオとして、コンピュータ・グラフィックス・ベースのデータを生成することができる。場合によっては、ビデオソース20がビデオカメラである場合、ソース・デバイス12及び宛先デバイス16は、いわゆるカメラフォンまたはビデオフォンを形成することができる。どちらの場合も、キャプチャしたビデオ、事前にキャプチャしたビデオ、またはコンピュータで生成したビデオを、ビデオ符号器22によって符号化することができる。その後、符号化ビデオ情報は、モデム23によって、例えば、符号分割多元接続(CDMA)または他の通信規格などの通信規格に従って変調し、送信機24を介して宛先デバイス16に送信することができる。モデム23は、様々な混合器、フィルタ、増幅器、または信号変調用に設計された他のコンポーネントを含むことができる。送信機24は、増幅器、フィルタ、および1つまたは複数のアンテナを含む、データ送信用に設計された回路を含むことができる。
宛先デバイス16の受信機26は、チャネル15を介して情報を受信し、モデム27は、情報を復調する。やはり、ビデオ符号化プロセスは、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを決定するために、本明細書で説明する技法の1つまたは複数を実装することができる。チャネル15を介して伝達される情報は、ビデオ符号器22によって定義された情報を含むことができ、その情報は、本開示に従ってビデオ復号器28によって使用することができる。表示デバイス30は、復号ビデオデータをユーザに表示し、また、たとえばブラウン管、液晶ディスプレイ(LCD)、プラズマディスプレイ、有機発光ダイオード(OLED)ディスプレイ、または他のタイプの表示デバイスなどのような、様々な表示デバイスのいずれかを含むことができる。
図1の例では、通信チャネル15は、たとえば無線周波数(RF)スペクトル、または1つもしくは複数の物理的伝送線、あるいは無線媒体と有線媒体の任意の組み合せなどのような、任意の無線又は有線の通信媒体を含むことができる。したがって、モデム23及び送信機24は、多くの可能な無線プロトコル、有線プロトコル、又は、有線及び無線プロトコルをサポートすることができる。通信チャネル15は、たとえば、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、または、1つもしくは複数のネットワークの相互接続を含むグローバルネットワーク(たとえばインターネット)などのような、パケットベースのネットワークの部分を形成することができる。通信チャネル15は、ソース・デバイス12から宛先デバイス16にビデオデータを送信するための、任意の適切な通信媒体または異なる通信媒体の集まりを一般に表す。通信チャネル15は、ルータ、スイッチ、基地局、または、ソース・デバイス12から宛先デバイス16への通信を円滑化するのに役立ち得る他の任意の機器を含むことができる。本開示の技法は、1つのデバイスから他のデバイスへの符号化データの伝達を必ずしも必要とせず、相互関係にある復号(reciprocal decoding)を伴わない符号化シナリオに適用することができる。また、本開示の態様は、相互関係にある符号化を伴わない復号シナリオに適用することもできる。
ビデオ符号器22及びビデオ復号器28は、たとえば、MPEG 4、Part 10、高度ビデオ符号化(AVC)とも呼ばれる、ITU−T H.264規格などのような、ビデオ圧縮規格に従って動作することができる。しかし、本開示の技法は、いずれか特定の符号化規格又はその拡張に限定されない。図1には示されていないが、幾つかの態様において、ビデオ符号器22及びビデオ復号器28は各々、オーディオ符号器及びオーディオ復号器と統合することができ、また、共通のデータストリーム又は別々のデータストリーム内のオーディオ及びビデオ両方の符号化を処理するための、適切なMUX−DEMUXユニットまたは他のハードウェア及びソフトウェアを含むことができる。妥当な場合は、MUX−DEMUXユニットは、たとえばITU H.223マルチプレクサプロトコルまたはユーザデータグラムプロトコル(UDP)などのような、他のプロトコルに準拠することができる。
ITU−T H.264/MPEG−4(AVC)規格は、ITU−Tのビデオ符号化エキスパートグループ(Video Coding Experts Group)(VCEG)が、ISO/IECのムービングピクチャーエキスパートグループ(Moving Picture Experts Group)(MPEG)と一緒になって、ジョイントビデオチーム(Joint Video Team)(JVT)として知られる共同パートナシップ(collective partnership)の成果(product)として策定(formulated)された。H.264規格は、2005年3月に勧告された、ITU−Tの研究グループによる、ITU−T勧告H.264、汎用オーディオビジュアルサービス用の高度ビデオ符号化(Advanced Video Coding for generic audiovisual services)で説明されており、H.264規格は、本明細書では、H.264規格もしくはH.264仕様書、またはH.264/AVC規格もしくは仕様書と呼ばれることがある。ジョイントビデオチーム(JVT)は、H.264/MPEG−4 AVCを拡張する作業を継続している。
H.264/MPEG−4 AVC規格を高度化する作業は、たとえば主要技術分野(Key Technologies Area)(KTA)フォーラムなどのような、ITU−Tの様々なフォーラムにおいて行われている。KTAフォーラムは、課題の1つとして、H.264/AVC規格が示すよりも高い符号化効率を示す符号化技術を開発しようと努めている。本開示で説明する技法は、特に3Dビデオに関して、H.264/AVC規格を改良した符号化を提供することができる。幾つかの態様において、本開示は、本明細書で説明する3D変換情報を符号化し、伝達するためのメカニズムとして、ITU−T H.264フレームワーク内の補助拡張情報(SEI)メッセージの使用を意図している。
ビデオ符号器22及びビデオ復号器28は各々、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、個別論理回路、マイクロプロセッサもしくは他のプラットフォーム上で動作するソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合せとして実装することができる。ビデオ符号器22及びビデオ復号器28の各々は、1つまたは複数の符号器又は復号器に含まれることができ、それらはどちらも、個々のモバイル・デバイス、加入者デバイス、ブロードキャスト・デバイス、またはサーバなどにおいて、結合された符号器/復号器(CODEC)の部品として統合することができる。
ビデオシーケンスは、一連のビデオフレームを一般に含む。ビデオ符号器22及びビデオ復号器28は、ビデオデータを符号化及び復号するために、個々のビデオフレーム内のビデオブロックに作用(operate)することができる。ビデオブロックは、固定サイズまたは可変サイズを有することができ、特定の符号化規格に応じてサイズが異なり得る。各ビデオフレームは、一連のスライス(slices)または独立に復号可能な他の単位を含むことができる。各スライスは、一連のマクロブロックを含むことができ、マクロブロックはサブブロックにアレンジすることができる。一例として、ITU−T H.264規格は、イントラ予測(intra prediction)を、たとえば輝度(luma)成分について16×16、8×8又は4×4、色度(chroma)成分について8×8などの、様々なブロックサイズにおいてサポートし、加えて、インター予測(inter prediction)を、たとえば輝度成分について16×16、16×8、8×16、8×8、8×4、4×8及び4×4、色度成分について対応するスケーリングされたサイズ(scaled sizes)などの、様々なブロックサイズにおいてサポートする。ビデオブロックは、ピクセルデータのブロック、または変換係数(transformation coefficients)のブロックを含むことができ、例えば、変換係数は、たとえば離散コサイン変換または概念的に類似の変換プロセスなどのような変換プロセスによってもたらされる(following)。
ビデオブロックが小さいほど、より良い解像度を得ることができ、高レベルのディテールを含むビデオフレーム内の位置(locations)で使用することができる。一般に、マクロブロック及び様々なサブブロック又はパーティションはすべて、ビデオブロックであると見なすことができる。加えて、スライスは、たとえばマクロブロック及び/又はサブブロック若しくはパーティションなどのような、ビデオブロックの連なり(series)であると見なすことができる。一般に、マクロブロックとは、16×16のピクセル領域を定義する、色度値と輝度値の組とすることができる。輝度ブロックは、16×16の一組の値を含むことができるが、たとえば8×8ブロック、4×4ブロック、8×4ブロック、4×8ブロック、または他のサイズなどのような、より小さなビデオブロックにさらに区画(partitioned)することもできる。2つの異なる色度ブロックが、マクロブロックの色を定義することができ、各々、16×16のピクセル領域に関連する色値の8×8のサブサンプリングされたブロック(sub-sampled blocks)を含むことができる。マクロブロックは、マクロブロックに適用される符号化モード及び/又は符号化技法を定義する、シンタックス情報を含むことができる。
マクロブロックまたは他のビデオブロックは、たとえばスライス、フレームまたは他の独立した単位などのような、復号可能な単位にグループ化することができる。各スライスは、ビデオフレーム内の独立に復号可能な単位とすることができる。代替として、フレーム自体も、復号可能な単位とすることができ、またはフレーム内の他の部分を、復号可能な単位として定義することができる。本開示では、「符号化単位(coded unit)」という用語は、たとえばフレーム全体、フレーム内のスライス、グループオブピクチャー(group of pictures)(GOP)、または使用される符号化技法に応じて定義される独立に復号可能な他の単位などのような、ビデオフレーム内の任意の独立に復号可能な単位のことである。
イントラベースまたはインターベースの予測符号化に続いて、また任意の変換(transforms)(たとえばH.264/AVCで使用される4×4もしくは8×8の整数変換、または離散コサイン変換すなわちDCTなど)に続いて、量子化を実行することができる。量子化とは、一般に、係数を表すのに使用されるデータの量をおそらくは(possibly)削減するために係数を量子化するプロセスのことである。量子化プロセスは、いくつかまたはすべての係数に関連するビット深度(bit depth)を低減することができる。例えば、量子化中に、16ビット値を15ビット値に丸めることができる。量子化に続いて、例えば、コンテンツ適応型可変長符号化(content adaptive variable length coding)(CAVLC)、コンテキスト適応型2値算術符号化(context adaptive binary arithmetic coding)(CABAC)、または他のエントロピー符号化方法(entropy coding methodology)による、エントロピー符号化(entropy coding)を実行することができる。
3Dビデオは、最初に(originally)符号化された各フレームに関連付けられる1つまたは複数の追加のビデオフレーム(例えば追加のビュー(additional views))を必要とすることがある。ビデオフレームの立体視3D表現(stereoscopic 3D rendition)を定義するために、例えば、2つの異なるビューを使用することができる。3つ以上のビューを含むことができる多数のビューは、マルチビュー3D表現(multi-view 3D renditions)もサポートすることができる。3Dビデオの異なるビューは、2つ以上のビューがビデオシーケンスの同じ時間インスタンス(time instance)に対応するように、同様のタイミングを有することができる。このようにして、2つ以上のビューは、3Dビデオを提供するために一括してレンダリングすることができる、3Dシーケンスを一緒に形成する2つ以上の2Dシーケンスを一般に定義することができる。
3Dビデオの効率的な符号化、伝達及び復号をサポートするために、本開示は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、3D変換情報を使用する。そのような3D変換情報は、2Dシーケンスとともに伝達することができる。したがって、受信デバイスは、2Dシーケンスを生成し、表示することができ、または受信デバイスが3Dビデオをサポートする場合は、3Dシーケンスを生成し、表示することができる。いくつかの例では、本開示の3D変換情報は、100バイト未満のデータを含むことができ、より詳しくは、20バイト未満のデータを含むことができ、それは、3D立体視ビデオのセカンダリ・ビューを生成するために、2Dシーケンス内の2Dフレームのいくつかまたはすべてに適用することができる。このようにして、少なくともいくつかのフレームについては、ビューを2つも送信しないですむようにすることによって、本開示の技法は、3Dビデオを伝達するための効率的な方法を提供する。
図2は、本開示による技法を実行できるビデオ符号器50の一例を示すブロック図である。ビデオ符号器50は、ソース・デバイス12のビデオ符号器22または異なるデバイスのビデオ符号器に対応することができる。ビデオ符号器50は、ビデオフレーム内のブロックのイントラ符号化およびインター符号化を実行することができる。イントラ符号化は、与えられたビデオフレーム内のビデオの空間的冗長性(spatial redundancy)を低減または除去するために、空間的予測(spatial prediction)に依存する。インター符号化は、ビデオシーケンス内の隣接フレーム間のビデオの時間的冗長性(temporal redundancy)を低減または除去するために、時間的予測(temporal prediction)に依存する。イントラモード(Intra-mode)(Iモード)とは、空間ベースの圧縮モードのこととすることができ、たとえば予測(Pモード)または双方向(bi-directional)(Bモード)などのようなインターモード(Inter-modes)とは、時間ベースの圧縮モードのこととすることができる。
図2に示されるように、ビデオ符号器50は、符号化されるビデオフレームまたはスライス内の現在のビデオブロックを受け取る。図2の例では、ビデオ符号器50は、予測ユニット35と、メモリ34と、加算器48と、変換ユニット(transform unit)38と、量子化ユニット40と、エントロピー符号化ユニット46とを含む。ビデオブロック再構成(video block reconstruction)のために、ビデオ符号器50は、逆量子化ユニット42と、逆変換ユニット(inverse transform unit)44と、加算器51も含む。さらに、本開示によれば、ビデオ符号器50は、2D−3D変換ユニット(2D to 3D conversion unit)36を含むことができ、このユニットは、本明細書で説明する3D変換情報を生成する。ビデオ符号器50は、たとえば、ブロック境界をフィルタリングして再構成ビデオからブロッキネス・アーティファクト(blockiness artifacts)を除去するためのデブロッキング・フィルタ(deblocking filter)(図示されず)などのような、他のコンポーネントも含むことができる。望ましい場合は、デブロッキング・フィルタは、加算器51の出力を一般にフィルタリングする。
符号化プロセスの最中、ビデオ符号器50は、符号化するビデオブロックを受け取り、予測ユニット35は、イントラ予測またはインター予測符号化を実行する。例えば、符号器50の予測ユニット35は、符号化単位(例えばフレームもしくはスライス)の各々のビデオブロック又はビデオブロック・パーティションについて、動き推定(motion estimation)及び動き補償(motion compensation)を実行することができる。予測ユニット35は、特定のブロックの符号化に対して適用可能な各モードについて、レート歪みコスト(rdcost)を計算することができ、最もコストが低くなる符号化モードを選択することができる。rdcostは、使用するビットの数と、オリジナル・ビデオデータに対する符号化データの歪みのレベルとの観点から、コストを定量化することができる。
レート歪み(RD)分析は、ビデオ符号化においてかなり一般的であり、符号化コストを表すコスト・メトリック(cost metric)の計算に一般に含まれる。コスト・メトリックは、符号化に必要なビットの数(レート)と、符号化に関連する品質のレベル(歪み)とのバランスをとることができる。典型的なレート歪みコスト計算は、以下の形式に一般に対応することができる。
Figure 2015046899
ここで、J(λ)はコスト、Rはビットレート、Dは歪み、λはラグランジュ乗数(Lagrange multiplier)である。予測ユニット35は、ビデオブロック符号化を実行するのに使用できる様々なイントラ符号化およびインター符号化モード(ならびに適用可能なパーティションサイズ)を比較するために、このタイプのコスト関数を適用することができる。
所望の予測データが予測ユニット35によって識別された後、ビデオ符号器50は、残差ブロックを生成するために、符号化されるオリジナル・ビデオブロックから予測データを減算することによって、残差ビデオブロック(residual video block)を形成する。加算器48は、これらの減法演算を実行する1つまたは複数のコンポーネントを表す。変換ユニット38は、たとえば離散コサイン変換(DCT)または概念的に類似の変換などのような変換を残差ブロックに適用して、残差変換ブロック係数を含むビデオブロックを生成する。変換ユニット(Transform unit)38は、DCTと概念的に類似する、たとえばH.264規格によって定義された変換などのような変換を実行することができる。ウェーブレット変換(Wavelet transforms)、整数変換(integer transforms)、サブバンド変換(sub-band transforms)、または他のタイプの変換も使用することができる。いずれの場合も、変換ユニット38は、残差ブロックに変換を適用して、残差変換係数のブロックを生成する。変換(transform)は、残差情報をピクセル領域から周波数領域に変換(convert)することができる。
量子化ユニット40は、ビットレートをさらに低減するために、残差変換係数を量子化する。量子化プロセスは、いくつかまたはすべての係数に関連するビット深度を低減することができる。例えば、量子化中に、9ビット値を8ビット値に丸めることができる。加えて、量子化ユニット40は、オフセットが使用される場合には、異なるオフセットも量子化することができる。
量子化に続いて、エントロピー符号化ユニット46は、量子化された変換係数をエントロピー符号化する。例えば、エントロピー符号化ユニット46は、コンテンツ適応型可変長符号化(CAVLC)、コンテキスト適応型2値算術符号化(CABAC)、または他のエントロピー符号化方法を実行することができる。エントロピー符号化ユニット46によるエントロピー符号化に続いて、符号化ビデオは、他のデバイスに送信することができ、または後の送信又は検索のためにアーカイブすることができる。符号化ビットストリームは、エントロピー符号化された残差ブロックと、そのようなブロックについての動きベクトル(motion vectors)と、2D−3Dビデオ(2D to 3D video)をサポートするための本明細書で説明するシンタックスなどの他のシンタックスとを含むことができる。
逆量子化ユニット42及び逆変換ユニット44は、例えば、上で説明したように後で参照データとして使用する目的で、ピクセル領域における残差ブロックを再構成するために、それぞれ逆量子化及び逆変換を適用する。加算器51は、メモリ34内に記憶するための再構成ビデオブロックを生成するために、再構成残差ブロックを、動き補償ユニット35によって生成された1次及び/又は2次の予測ブロックに加算する。再構成ビデオブロック及び残差データは、後続のビデオフレーム又は他の符号化単位においてブロックをインター符号化するための参照ブロックとして、動き補償ユニット35によって使用することができる。
3Dビデオをサポートするために、ビデオ符号器50は、2D−3D変換ユニット36をさらに含むことができ、このユニットは、メモリ34内に記憶された再構成2Dビデオシーケンスに対して作用する。このようにして、2D−3D変換ユニット36は、復号プロセスの後で復号器において利用可能なものと同じ再構成データに作用する。本開示によれば、2D−3D変換ユニット36は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む、3D変換情報を識別し、決定し、またはさもなければ生成する。3D変換情報は、与えられた2Dシーケンス毎に1回生成することができる。
3D変換情報が適用される2Dシーケンスは、ビデオシーケンス全体、シーン、またはおそらくは復号可能な組を形成するグループオブピクチャーを含むことができる。グループオブピクチャーの例には、IBPBPのシナリオにおける5個のフレームからなる組、またはIBBPBBPのシナリオにおける7個のフレームからなる組などがあり、ここで、Iはイントラ符号化(intra-coding)を表し、Pは予測インター符号化(predictive inter-coding)または単方向インター符号化(uni-direction inter-coding)を表し、Bは双予測インター符号化(bi-predictive inter-coding)または双方向インター符号化(bi-directional inter-coding)を表す。これらの場合、グループオブピクチャー内のフレームは、相互依存(interdependent)しており、一括して復号可能である。場合によっては、3D変換情報は、グループオブピクチャー毎に1回送信することができるが、3D変換情報は、シーン毎に1回またはビデオシーケンス全体で1回送信することもできる。しかし、重要なのは、複数のフレームのうちの個々のフレーム毎に異なる3D変換情報が必要とされないように、3D変換情報が複数のフレームに対して適用されることである。
ビデオ符号器50は、ITU−T H.264ビデオ符号化規格に従って、2Dシーケンスを符号化し、2D−3D変換ユニットは、ITU−T H.264ビデオ符号化規格によってサポートされる3D変換情報SEIメッセージを符号化することができる。ビデオフレームからなる第2の2Dシーケンスを生成するために、第1の2Dシーケンス内のビデオフレームの各々に、一組のパラメータを適用することができ、第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義する。3D変換情報は、3Dビデオデータを生成するために2Dシーケンスに適用される3D変換プロセスを識別する情報を含むことができる。場合によっては、3D変換情報は、2Dシーケンスのキャプチャに関連するカメラ・パラメータおよび値を含むことができる。例えば、以下でより詳細に説明するように、3D変換情報は、2Dシーケンスをキャプチャしたカメラに関連する焦点距離を表す焦点距離値、3Dビデオデータの最小深度を指定する近深度値(near-depth value)、3Dビデオデータの最大深度を指定する遠深度値(far-depth value)、および3Dビデオデータに関連する2つのカメラ間の仮定距離(assumed distance)を定量化する平行移動値(translate value)を含むことができる。
3D変換情報を符号化するために、2D−3D変換ユニット36は、特定のシナリオを表すために設定できるビットであるフラグを使用することができる。例として、3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるかどうか又はデフォルトの一組の3Dパラメータを使用すべきかどうかについて指示するフラグを含むことができる。この場合、明示的な一組の3Dパラメータは、フラグが設定されている場合に、3D変換情報に含まれる。また、3D変換情報は、2Dシーケンスの第2のビューを2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグも含むことができる。加えて、3D変換情報は、3Dビデオデータからクロップ領域を除去すべきかどうかを識別するフラグを含むことができる。この場合、クロップ領域を定義する情報は、フラグが設定されている場合に、3D変換情報に含まれる。これらのフラグの各々は、3D変換情報を一括して符号化するために使用することができ、本開示に従って、他のフラグを使用すること、または定義することもできる。
図3は、上で説明した符号化技法と相互関係にある復号技法を実行できる、例示的なビデオ復号器70を示すブロック図である。ビデオ復号器70は、エントロピー復号ユニット72と、予測ユニット75と、逆量子化ユニット76と、逆変換ユニット78と、メモリ74と、加算器79とを含むことができる。予測ユニット75は、空間予測コンポーネント(spatial prediction components)に加えて動き補償ユニット(motion compensation unit)を含むことができる。
ビデオ復号器70は、本明細書で説明する方法で符号化された2Dシーケンスと、ビデオブロックの適切な復号を容易にするために復号器70によって使用できる様々なシンタックス要素とを含む、符号化ビデオビットストリームを受け取ることができる。より具体的には、ビデオビットストリームは、ビデオフレームからなる2Dシーケンスに基づいた3Dビデオデータの生成を容易にするための、本明細書で説明する3D変換情報を含むことができる。3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含むことができる。やはり、3D変換情報は、ビデオシーケンス内の異なるフレーム毎に異なることはなく、オリジナル・ビデオフレームの各々についてのセカンダリ・ビューを生成するために、2Dシーケンス内のオリジナル・ビデオフレームの各々に適用できる、相対的に少量のデータを形成する、共通の一組のパラメータを含む。2Dシーケンスという語句は、ビデオファイル全体、ビデオクリップ、より大きなビデオファイル内のビデオシーン、またはおそらくはより大きなビデオシーケンス内の復号可能な一組のフレームを形成するグループオブピクチャーを含むことができる、複数のビデオフレームのことを指している。
エントロピー復号ユニット72は、2Dシーケンスの残差ビデオブロックの量子化された係数を生成するために、ビットストリームのエントロピー復号を実行する。エントロピー復号ユニット72は、ビットストリームからシンタックス要素を解析して取り出し(parse)、そのようなシンタックス要素をビデオ復号器70の様々なユニットに転送することができる。例えば、動き情報(例えば動きベクトル)および他のシンタックス情報を、予測ユニット75に転送することができる。さらに、エントロピー復号ユニット72によって、ビットストリームから3D変換情報を解析して取り出し、その後、それを2D−3D変換ユニット79に転送することができる。2D−3D変換ユニット79はオプションであるため、このユニット79は破線で示されている。2D−3D変換ユニット79をもたないビデオ復号器は、2Dビデオシーケンスしか復号することができず、3D変換情報は廃棄(discard)することができる。このようにして、3D変換情報は、あるデバイスは2Dビデオを復号でき、他のデバイスは2Dビデオを復号できるのに加えて、3Dビデオを生成するために3D変換情報を適用することもできる、スケーラブルな2D−3Dビデオを容易にする。
2Dビデオシーケンスを復号するために、予測ユニット75は、符号化の際に使用された予測ブロックを識別する目的で、動き情報または他のシンタックス要素を使用する。インターベースの復号(inter-based decoding)の場合、予測データの1つまたは複数のリストから予測ブロックを生成するために、動き補償プロセスにおいて、動きベクトルを適用することができる。インターベースの復号の場合、シンタックスは、イントラモードを含むことができる。このモードは、復号されるビデオブロックのフレームと同じフレームに属するデータに基づいて、予測ブロックをどのように生成すべきかを定義することができる。
逆量子化ユニット76は、エントロピー復号ユニット72から受け取ったデータを逆量子化し、逆変換ユニット78は、ピクセル領域における残差ブロックを生成するために、逆変換を実行する。その後、加算器79は、オリジナル・ビデオブロックの再構成を生成するために、残差ブロックを、予測ユニット75によって生成された予測ブロックと合成する。オリジナル・ビデオブロックの再構成は、メモリ74内に記憶することができ、および/または復号された2Dビデオデータとしてディスプレイに出力することができる。このようにして、ビデオフレームを再構成し、最終的にメモリ74内にビデオフレームからなる2Dシーケンス全体を再構成するために、多くのビデオブロックを復号することができる。このようにして、ビデオ復号器70は、先に説明したビデオ符号器50によって実行された符号化と相互関係にある復号を実行する。
本開示によれば、2D−3D変換ユニット79は、ビットストリームに収めて送信された3D変換情報を、メモリ74内に記憶された復号された2Dビデオシーケンスに適用することができる。例えば、3D変換情報を、メモリ74内に記憶された復号された2Dビデオシーケンスに適用することで、2D−3D変換ユニット79は、2Dシーケンス内のいくつかまたはすべてのビデオフレームに関連するセカンダリ・ビューを生成することができる。その後、オリジナル・ビューとセカンダリ・ビューは、3Dビデオデータとして、2D−3D変換ユニット79から出力することができる。
マルチビュー・ビデオ符号化(Multi-view video coding)(MVC)は、H.264/AVCの拡張を形成することができるが、MVCは、他のビデオ符号化規格に対しても適用することができる。MVCについての1つの共同草案(joint draft)が、JVT−AB204、「“Joint Draft 8.0 on Multiview Video Coding”、28th JVT meeting, Hannover, Germany, July 2008」において説明されている。H.264/AVCによれば、符号化されたビデオビットは、ネットワークアブストラクションレイヤ(Network Abstraction Layer)(NAL)ユニットに組織することができる。NALユニットは、ビデオ電話、ストレージ、ブロードキャスト、またはストリーミングなどのアプリケーションに対応した(addressing)「ネットワークフレンドリ(network-friendly)」なビデオ表現を提供する。NALユニットは、ビデオ符号化レイヤ(VCL)NALユニットと、非VCL NALユニットとにカテゴライズすることができる。VCLユニットは、コア圧縮エンジンを含むことができ、ブロックレベル、MBレベル、およびスライス・レベルを含む。他のVCLユニットは、非VCL NALユニットである。
H.264/AVCに準拠して、補助拡張情報(SEI)メッセージは、VCL NALユニットに属する符号化されたピクチャーのサンプルを復号するのには必要ない情報を含むことができる。SEIメッセージは、非VCL NALユニットにも含まれる。SEIメッセージは、H.264/AVCの標準仕様書の規範的な部分である。規格に準拠した復号器の実装にとって必須ではないが、SEIメッセージは、復号、表示、誤り耐性(error resilience)、および他の目的に関するプロセスを支援することができる。H.264/AVCの必須部分は最終決定(finalized)をみているが、H.264/AVC仕様書は、SEIメッセージについてはまだ開かれている(open)。本開示は、本明細書で説明する3D変換情報を符号化、伝達、および復号するためのメカニズムとして、いくつかの態様において、SEIメッセージまたは他の類似のメッセージの使用を提案する。
3Dビデオ・フォーマットをサポートするため、JVTおよびMPEGは、新しい規格(standards)および機能(features)を導入することができる。例えば、MPEG−2マルチ・ビュー・プロファイルによれば、一方のビュー、例えば、左側ビューは、低減されたフレームレート(例えば毎秒15フレーム)で符号化することができ、他方のビューは、高いフレームレート(例えば毎秒30フレーム)を必要とする時間拡張レイヤ(temporal enhancement layer)として符号化することができる。しかし、これは、両方のビューをビットストリームに収めて伝達することを必要とし、従来の2Dシーケンスの伝達と比べて、ビットストリーム内のデータの量を著しく増加させ得る。
H.264/AVCは、立体視ビデオ・コンテンツ手法も利用することができる。例えば、H.264/AVCでは、2つのビューを1つのビットストリームにどのように配置するかを指示するために、立体ビデオ情報SEIメッセージを採用することができる。この場合、2つのビューに交互にフレームを割り当てることができ、または2つのビューを相補的なフィールド対(complementary field pairs)とすることができる。2つのビューに交互にフレームを割り当てる場合、2つのビューは、時間インタリーブ・モード(temporal interleaving mode)で順序付けられ、2つのビューを相補的なフィールド対とする場合、2つのビューからの画像対は、1つのピクチャー内で実際に行インタリーブ(row interleaved)される。しかし、やはり、これも、両方のビューをビットストリームに収めて伝達することを必要とし、従来の2Dシーケンスの伝達と比べて、ビットストリーム内のデータの量を著しく増加させ得る。
ピクチャーの空間インタリーブを採用することも可能であり、空間インタリーブの存在をSEIで伝達することができる。このSEIは、2つのビューのサポートを、時間インタリーブおよび行インタリーブからより柔軟な空間インタリーブ・モード(spatial interleaving modes)に拡張する。代替として、SEIメッセージは、画像対の組合せを、サイドバイサイド・インタリーブ(side-by-side interleaving)、上/下インタリーブ(above/below interleaving)、列インタリーブ(column interleaving)、またはチェッカボード・インタリーブ(checkerboard interleaving)としてサポートすることができる。これらの手法の各々では、他の望ましくない手法と同様に、異なるビューが、何らかの方法でビットストリームに収めて実際に送信され、そのため、3Dビデオに必要とされる情報の量は、従来の2Dシーケンスと比べて大幅に増加する。
本開示の技法は、セカンダリ・ビューの実際の送信を回避することによって、3Dビデオを伝達するためにビットストリームに収める必要のある情報の量を著しく削減することができる。この場合、セカンダリ・ビューを実際に符号化し、送信する代わりに、本開示は、復号器でセカンダリ・ビューを生成するために復号器でオリジナル2Dシーケンスに適用できる一組のパラメータを含む3D変換情報を送信する。このようにして、セカンダリ・ビューを実際に伝達する必要性は回避され、代わりに、セカンダリ・ビューをビットストリームに収めて伝達することを必要とせずに、セカンダリ・ビューを生成するために、復号器において一組のパラメータを適用することができる。
H.264/AVCのSEIメッセージは、3D入力を2Dビデオシーケンスであるかのように受け入れ、1つのビデオシーケンスを2つのビューに区分できるように、インタリーブされた2つのビューをどのように分離すべきかを復号器に伝えるためにSEIメッセージを利用する、ケースもサポートすることができる。しかし、やはり強調すべきなのは、そのようなケースの場合も、入力が2つのビューによって表される3D入力であることである。本開示の技法は、対照的に、2つのビューをビットストリームに収めて送信する必要性を回避し、代わりに、ビットストリーム内の3D変換情報に基づいて、復号器がセカンダリ・ビューを生成することに依存する。
いくつかのMVC復号順序は、タイムファースト符号化(time-first coding)と呼ばれることがある。この場合、各アクセス・ユニットは、1つの出力時間インスタンスの間にすべてのビューの符号化ピクチャーを含むように定義される。しかし、アクセス・ユニットの復号順序は、出力順序または表示順序と同じではないこともある。
MVC予測は、各ビュー内におけるピクチャー間予測と、ビュー間予測の両方を含むことができる。MVCは、H.264/AVC復号器によって復号可能ないわゆるベースビューを含むことができ、MVCによっても、2つのビューをサポートすることができる。この場合、MVCの利点は、3つ以上のビューを3Dビデオ入力として取得し、多数のビューによって表されるこの3Dビデオを復号するケースをサポートできることである。MVC復号器による復号は、多数のビューを有する3Dビューコンテンツを予期することができる。
MPEG規格は、MPEG−C part 3の通常のビデオストリームに深度マップ(depth map)を添付するためのフォーマットも指定している。この仕様は、「“Text of ISO/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information”, ISO/IEC JTC 1/SC 29/WG 11, MPEG Doc, N8768, Marrakech, Morocoo, January 2007」に含まれている。MPEG−C part 3では、いわゆる補助ビデオ(auxiliary video)は、深度マップまたは視差マップ(parallax map)のどちらかとすることができる。深度マップを表すことで、各深度値および深度マップの解像度を表すのに使用されるビットの数に関して、柔軟性を提供することができる。例えば、深度マップは、与えられた画像の4分の1の幅、2分の1の高さとすることができる。あいにく(Unfortunately)、深度マップは、一般にシーケンス内のフレーム毎に必要とされる。すなわち、ビデオシーケンス内のあらゆるフレームに同一の深度マップが適用されることはない。したがって、ビデオシーケンス全体にわたっていくつもの深度マップが必要とされるので、深度マップの伝達は、総計では非常に大量のデータになり得る。
MPEGビデオ・サブグループは、3Dシナリオを研究するために、3Dビデオ符号化の調査実験を定義した。MPEGビデオ・サブグループは、ビュー毎に深度マップを有することはビュー合成(view synthesis)にとって役立つ可能性があることを指摘しているが、MPEGにおけるこの活動(activity)は、標準化の一部とはならない可能性がある。MPEGの3Dビデオによれば、2つの重要な概念として、深度推定(depth estimation)とビュー合成がある。ほとんどのビデオ・コンテンツはマルチカメラ・システムによってキャプチャされ、深度マップをテクスチャ・ビデオ・シーケンスとともに送信できるように、深度マップを符号化の前に生成しなければならないことを仮定することができる。しかし、本開示によるビュー合成は、ビットストリームに収めて送信されないより多くのビューを生成するために、ビデオをレンダリングするときに適用できるツールである。したがって、ビュー合成の概念は、本明細書で説明する3D変換情報の利用をさらに進めることによって、本開示の技法の部分を形成することができる。
3Dビデオ伝達システム(3D video communication systems)では、原ビデオデータ(raw video data)をキャプチャし、符号化の前に事前処理することができる。深度マップを有することができる原データは、符号化することができ、符号化ビデオ・コンテンツは、記憶または送信することができる。宛先デバイスは、3Dビデオを復号し、表示することができる。しかし、上で説明したように、ビデオシーケンス内のいくつもの画像について追加のビューまたは深度マップを伝達することは、通信および帯域幅の観点から望ましくないことがある。本開示によるより良い手法は、セカンダリ・ビューを実際にビットストリームに収めて伝達することを必要とせず、セカンダリ・ビューを生成するために、例えば復号器によって、2Dシーケンス内のどのビデオフレームにも適用できる、3D変換情報を伝達することとすることができる。
3Dコンテンツの獲得(Acquisition)は、1つのカメラもしくはカメラアレイによって実行することができ、または深度マップを生成できるデバイスに関連付けることさえできる。いくつかの例として、コンテンツ獲得は、以下のカテゴリの少なくとも1つにカテゴライズすることができる。
−2Dビデオキャプチャ。通常、これは3Dコンテンツを提供しない。
−立体視ビデオをキャプチャおよび/または提供できる2カメラシステム。
−カメラアレイ。これは多数のビューをキャプチャする。
−1つのビューのキャプチャと深度。例えば、いくつかのデバイスは、キャプチャされた画像に関連付けられた深度をキャプチャすることができる。
−深度情報をキャプチャすることおよび/または3Dモデルを生成することができる他の技法。
3D事前処理および符号化も、符号器において実行することができる。ここで言う3D事前処理とは、ノイズ・リダクション(noise deduction)またはシーン検出に関連する典型的な処理のことではない。3D事前処理は、深度マップを生成することができ、その深度マップは、3Dビデオ・コンテンツの部分として符号化される。このプロセスは、キャプチャされたビュー毎に1つの深度マップを生成することができ、または送信されるいくつかのビューについて深度マップを生成することができる。しかし、やはり、深度マップの伝達は、帯域幅の観点から望ましくないことがある。
ビデオ・コンテンツが復号器によって受け取られた場合、送信データ(それは、1つまたは複数のビューを含むことができるのに加えて、場合によっては再構成される深度マップを含むこともある)を取得するために、ビデオ・コンテンツを復号することができる。深度マップが復号器で利用可能である場合、送信されなかった他のビューのテクスチャを生成するために、ビュー合成アルゴリズムを採用することができる。通常の3Dディスプレイは、2つ以上のビューをレンダリングすることができる。高フレームレートビデオを表示可能ないくつかの2Dディスプレイも、シャトルグラス(shuttle glasses)の助けを借りて、3Dディスプレイとして使用することができる。偏光(Polarization)は、出力として2つのビューを提供する3D表示技法である。いくつかのディスプレイまたは3Dテレビは、入力の一部として深度を取得するが、出力として2つ以上のビューを生成することを担うビルトイン「ビュー合成(view synthesis)」モジュールが常に存在することがある。
3Dワーピング(3D warping)は、本開示の技法に役立ち得るビュー合成の一形態である。図4〜図7は、3Dワーピングおよび他のビュー合成概念を説明するのに使用される概念図である。サンプリング理論に基づいたビュー合成は、サンプリング問題になる可能性があり、それは、任意のビューを任意のビュー角度で完全に生成するためには、密に(densely)サンプリングされたビューを必要とする。しかし、実際のアプリケーションでは、密にサンプリングされたビューによって必要とされるストレージまたは伝送帯域幅は、一般に莫大になりすぎて、実現することができない。したがって、ある研究は、疎に(sparsely)サンプリングされたビューおよび深度マップに基づいたビュー合成に焦点を合わせている。
疎にサンプリングされたビューに基づいたビュー合成アルゴリズムは、3Dワーピングの概念に依存することができる。図4は、3Dワーピングの概念を示している。図4に示されるように、3Dワーピングでは、深度およびカメラ・モデルが与えられた場合、参照ビューの
Figure 2015046899
にあるピクセルは、2Dカメラ座標(2D camera coordinate)から、ワールド空間座標系(world-space coordinate system)内の点Pに投影することができる。その後、点Pは、
Figure 2015046899
の方向に沿って、(生成される仮想ビューである)目標ビュー(destination view)に投影することができる。この場合、
Figure 2015046899
の方向は、目標ビューのビュー角度に対応する。投影された座標が
Figure 2015046899
であると仮定することによって、参照ビュー内の
Figure 2015046899
の(異なる色成分の)ピクセル値を、仮想ビュー内の
Figure 2015046899
のピクセル値と見なすことができる。
時には、参照ビューとして、2つ以上のビューを考慮することもできる。言い換えると、
Figure 2015046899
への上述の投影は、必ずしも1対1の投影になるとは限らない。しかし、2つ以上のピクセルが目標ピクセル
Figure 2015046899
に投影される場合、可視性問題(visibility problem)が生じることがある。他方、1つのピクセルが目標ピクセル
Figure 2015046899
に投影される場合、仮想ビューのピクチャーにホール(hole)が出現すること又は存在することがある。いわゆる可視性問題は、
Figure 2015046899
のピクセル値を構成(construct)するためにどのピクセルを使用すべきかに関する決定を必要とすることがある。ホールがピクチャー内に連続領域として存在する場合、その現象は遮蔽(occlusion)と呼ばれる。それとは異なり、ホールがピクチャー内に疎らに分散する場合、それらのホールはピンホール(pinholes)と呼ばれる。遮蔽は、異なる方向に1つの参照ビューを導入することによって解決することができる。(例えば、ピンホールのピクセル値を決めるための)ピンホール・フィリング(Pinhole filling)は、ホールのための候補として通常は近隣ピクセルを採用する。ピンホール・フィリングのための技法は、遮蔽問題を解決するためにも使用することができる。
2のピクセル値のために2つ以上のピクセルを考慮する場合、加重平均法を採用することができる。ビュー合成においては、これらのプロセスは再構成(reconstruction)と一般に呼ばれる。可視性、遮蔽、ピンホール・フィリング、および再構成は、全部合わせると、大きな問題となり、3Dワーピングベースのビュー合成を実装する際の障害となる。そのような問題に対処するのに、カメラ・モデルが助けとなることがある。
例えば、内部パラメータ及び外部パラメータ(intrinsic and extrinsic parameters)を含むカメラ・モデルは、ワールド座標系からカメラ平面(camera plane)への変換、またはそれとは逆の変換を説明するために使用することができる。簡潔にするため、本開示で説明および言及されるすべての座標系は直交座標系であるが、本開示の技法は、この点で必ずしも限定されない。
外部パラメータは、以下の変換に基づいて、ワールド座標内におけるカメラ中心の位置と、カメラの方位(heading)とを定義することができる。
Figure 2015046899
ここで、(x y z)Tは、3Dカメラ座標系における座標であり、(xwwwTは、ワールド座標系における座標である。行列Aは、4×4行列を含むことができ、以下のように示すことができる直交変換とすることができる。
Figure 2015046899
ここで、Rは、3×3回転行列(rotation matrix)であり、Tは、平行移動(translation)である。この場合、Tはカメラの位置ではない。
3Dカメラ座標系では、z軸は、主光軸(principal optical axis)と呼ばれることがあり、x軸とy軸は、画像平面(image plane)を定義することができる。例えば、図6に示されるように、
Figure 2015046899
は、主光軸を定義することができる。u1を含む、主光軸に直交する平面は、画像平面を定義することができる。
ワールド座標系は、カメラの3Dカメラ座標系と同じになるように定義することができる。この場合、A=Iである。3Dカメラ座標系が、ワールド座標系から平行移動される場合、以下である。
Figure 2015046899
また、(x y z)T=(xwwwT+TTである。
内部パラメータは、3Dカメラ座標系から2D画像平面への変換を指定する。この変換のためのモデルは、ピンホール・カメラ・モデルと呼ばれることがあり、図5に概念的に示されている。この場合、Oは、3Dカメラ座標系の原点であり、カメラ平面(またはセンサ平面(sensor plane))の中心を定義することができる。そのようなモデルでは、次のようになる。
Figure 2015046899
ここで、−fは、焦点距離を示し、(u,v)Tは、画像平面内の座標を示す。
ピンホール・カメラ・モデルは、焦点距離fが負である点で不便なことがある。この問題に対処するため、ピンホール・カメラ・モデルは、図6に示されるように、フロンタル・ピンホール・カメラ・モデル(frontal pinhole camera model)で表すこともできる。フロンタル・ピンホール・カメラ・モデルでは、関係は、次のようになる。
Figure 2015046899
この変換は、次のように表すことができる。
Figure 2015046899
ここで、(u,v)は、画像平面内の座標であり、Qは、内部パラメータの最も単純な表現である。
Figure 2015046899
と表した場合、ワールド座標系から画像平面への変換全体は、
Figure 2015046899
によって与えられる。
いくつかの実装では、内部カメラ・パラメータは、上で説明したよりも複雑になり得る。上でQとして表された変換は、
Figure 2015046899
によって表される。この場合、Skewは、カメラのスキュー係数(skew factor)を示し、(principalx,principalyTは、画像平面内の主点(principal point)の座標である。主点は、主光軸が画像平面と交差する点である。fxおよびfyの値は、x軸およびy軸における焦点距離値である。
また、いくつかの実装では、外部カメラ・パラメータも、上で説明したよりも複雑になり得る。より現実的なケースでは、例えば、Rは、xz平面における回転のみを定義することができ、以下のように表すことができる。
Figure 2015046899
立体視ビデオでは、カメラは、同じ内部パラメータを有することができる。これは、例えば、2つのカメラの間に平行移動のみが存在し、カメラの一方がワールド座標系に合致(aligned)している場合とすることができる。この場合、R=I、T=0であり、またu1=fxw/zw、v1=fyw/zwである。第2のカメラが第1のカメラと平行に配置される場合、R=I、T=(d 0 0)Tである。この場合、以下を導出することができる。
Figure 2015046899
fd/zwはまた視差(disparity)と呼ばれる。この場合の3Dワーピングは、視差の計算しか必要としないことがあるが、先に言及した問題は依然として存在し得る。
各色成分(color component)についての各ピクセルの値は、量子化して8ビットで表して記憶されるので、限られたダイナミック・レンジを用いて深度値を提示することが必要なことがある。8ビットのダイナミック・レンジの実装では、深度値は、例えば、0〜255(0および255は除く)(exclusive)とすることができる。深度値は、大きな範囲の中で変化することができる。しかし、一般に、最近深度値と最遠深度値は、それぞれ0と255にマッピングされ、他の任意の深度値は、0から255までの範囲の外の(outside)値にマッピングすべきである。
以下にいくつかの典型的な深度値制限法(depth value qualification methods)を挙げる。
Figure 2015046899
上記の2つの式において、vは、[0,255]に定量化された値であり、zは、1バイトで記憶できる深度である。値zは、[0,255]に正規化することができる。通常は、カメラに近いピクセルほど、より大きな値をとり、深度が大きなピクセルほど、[0,255]のより小さな値に変換される。したがって、深度値を[znear,zfar]から[0,255]に線形変換することが望ましいことがあり、znearは255にマッピングされ、zfarは0にマッピングされる。これが、上に示した式(9)の考え方である。変換を達成する他の方法は、深度の逆数値を[1/zfar,1/znear]から[0,255]に線形変換することであり、1/znearは255にマッピングされ、1/zfarは0にマッピングされる。この他の方法が、上に示した式(10)の考え方である。
H.264/AVCに基づいた2Dビデオ通信システムは、広く配備されているが、いかなる3Dサポートも考慮されていない。そのようなシステムで配信される2Dコンテンツのほとんどで、3Dビデオが望まれる場合、いくつかの問題が生じることがある。特に、ビデオ・コンテンツは、3Dビデオソースを有さないことがあり、3Dビデオソースは、複数カメラシステムによって一般にキャプチャされ、または3Dモデルから変換されさえもする。ビデオ・コンテンツが3Dビデオソースからのものでない場合、復号器で何らかの処理を行った後、そのようなビデオ・コンテンツを3D表示用に使用できるかどうかを示すシグナリングを欠いていることがある。
H.264/AVCで符号化された2Dコンテンツの3D表示が可能である場合、既存のビュー(existing view)からエクストラ・ビュー(extra view)を生成するときに、例えば、カメラ・パラメータ、シーンの深度範囲、または他のパラメータなど、いくつかの副次的情報(side information)を役立てることができる。しかし、そのような情報を現在のH.264/AVCビットストリームに収めて伝達するためのメカニズムが必要なことがある。これを行うために、本開示の技法は、H.264/AVCのSEIメッセージまたは類似のタイプのメッセージを使用することができる。
他の問題または課題は、一般に、エクストラ・ビューが生成されたとき、送信されたビュー及び生成されたビューについて仮定された2つカメラの水平変位(horizontal displacement)のせいで(because)、生成されたビュー内に見えるべきではない領域が存在することである。この望ましくない領域が顕著なアーチファクト(noticeable artifact)を導入する場合、生成されたビュー内にこの領域を表示するのは望ましくないことがある。この問題に対処するため、本開示の技法は、クロップ領域を定義し、これをビットストリームで伝達する能力を提供する。
いくつかの態様では、本開示の技法は、ビデオフレームからなる2Dシーケンスを含む、例えばH.264/AVCビットストリームなどの、符号化ビデオストリームを変換し、例えば立体表示による、3D方式で表示することを可能にする。本開示によれば、2D−3D変換に必要な情報を通知(indicate)するために、シグナリング・メカニズムが使用される。この場合、復号器は、復号されたオリジナルビデオシーケンスと一緒になって3D表示を可能にする、他のビデオシーケンス(例えば第2のビュー)を生成することができる。
本開示の技法では、2D−3D変換情報が、ビットストリームに収めて提供される。ビットストリームに収められた符号化ビデオ情報は、一般にシーンの2D表現であり、エクストラ・ビューまたは深度マップを含まない。したがって、符号化2Dコンテンツの帯域幅は、2D−3D変換に関連するいかなるSEIメッセージも含まない対応する2Dシーケンスの帯域幅と非常に類似している。場合によっては、2Dビデオシーケンスは、符号化デバイスに事前に記憶され(pre-stored)、そして、キャプチャされず、または符号化デバイスにおいて符号化されない。この場合、2D−3D変換情報は、デフォルト環境に基づいて入力および定義されたカメラ・パラメータを含むことがある。他の場合では、2Dビデオ・コンテンツは、キャプチャすることはできるが、符号化されない。この場合、符号器は、入力としていかなる3Dコンテンツも有さずに、2Dコンテンツを符号化することができる。しかし、2D−3D変換についての知識を有する符号器は、3D変換のために必要な情報を生成することができ、この情報をH.264/AVCビットストリームのSEIメッセージ内に収めることができる。さらに他の場合では、符号化デバイスは、2Dビデオ・コンテンツをキャプチャし、符号化することができる。この場合、符号化デバイスは、おそらくは2Dビデオビットストリームを(例えば復号プロセス中に)分析することによって、2D−3D変換情報を追加することができる。
ビデオ・コンテンツが、2D−3D変換をサポートしないH.264/AVC復号器によって復号される場合、2Dビデオを再構成し、表示することができる。しかし、復号器が2D−3D変換情報をサポートし、したがって、2D−3D変換機能を有する場合、復号器は、復号された2Dビデオシーケンスと関連する2D−3D変換情報とに基づいて、セカンダリ・ビューに関連するフレームを生成することができる。その後、2つのビュー(復号されたビューと生成されたビュー)は、3Dディスプレイに表示することができる。
本開示によれば、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む。言及したように、ITU H.264/AVCのSEIメッセージは、この3D変換情報をビットストリームに収めて伝達するための、1つのメカニズムとすることができるが、特に他の規格とともに、他のメッセージまたはメカニズムを使用することもできる。3D変換情報は、以下のいくつかまたはすべてを含むことができる。
1−関連する符号化ビデオシーケンスを3Dに変換できることの表示。
2−重要なカメラ・パラメータ、例えば、カメラの焦点距離、および/または仮想ビューに対応する仮定されたカメラの平行移動。
3−現在のシーンの深度範囲。
4−特殊な処理またはクロッピング(special treatment or cropping)を必要とすることがある、復号ビデオ(オリジナル・ビュー)および仮想ビュー内の領域。
以下の表1は、3D変換情報(2D−3D変換情報)の一例を、様々なSEIメッセージ・シンタックス要素を含むSEIメッセージ・シンタックスの形式で提供している。
Figure 2015046899
変数u(1)およびue(v)は、H.264/AVC仕様書で定義された変数とすることができる。ここで、u(1)は、ビットストリーム内にフラグを符号化するカテゴリであり、ue(v)は、指数ゴロム(Exponential Golomb)(可変長)符号化を使用して、ビットストリーム内に符号なし整数(unsigned integer)を符号化するカテゴリである。
表1の例示的な3D変換情報は、以下で説明するようなセマンティクスを有することができる。存在する場合、このSEIメッセージは、現在のアクセス・ユニットと後続のアクセス・ユニットとを含むターゲット・アクセス・ユニットに、次の2D−3D変換SEIメッセージが届くまで、または符号化ビデオシーケンスの終端に達するまで、復号順に適用することができる。第1の2D−3D変換SEIメッセージは、存在する場合、符号化ビデオシーケンスの第1のアクセス・ユニット内に出現することができる。このSEIメッセージは、存在する場合、復号されたビデオに基づいて他のビューを生成できることを通知することができる。復号されたビデオは、オリジナル・ビューとして定義することができ、復号器によって生成されたセカンダリ・ビューは、生成されたビューと呼ぶことができる。オリジナル・ビューと生成されたビューのために、2つのカメラを仮定することができる。
表1の変数camera_scene_para_present_flagは、1の値に設定された場合、焦点距離、深度範囲値、および2つのカメラの平行移動がSEIメッセージ内に指定されていることを示すことができる。camera_scene_para_present_flagが0に等しい場合、これは、focal_length、near_dapth、far_dapth、およびtranslate_xをいくつかのデフォルト値によって推測できることを示すことができる。一例として、focal_length、near_dapth、far_dapth、およびtranslate_xのデフォルト値は、それぞれ、1000、2000、4000、およびPicWidthInSamplesL/16と定義することができる。camera_scene_para_present_flagが1に等しい場合、焦点距離、深度範囲値、および平行移動値は、ビットストリーム内に明示的に含まれるが、camera_scene_para_present_flagが0に等しい場合、これらの値は、ビットストリーム内に明示的に含まれない。
表1の変数left_view_original_flagは、生成されたビューがオリジナル・ビューの左側にあることを示すために、すなわち、生成されたビューのために仮定されたカメラがオリジナル・ビューのオリジナルカメラの左側であることを示すために、1に等しくすることができる。変数left_view_original_flagが0に等しい場合、生成されたビューがオリジナル・ビューの右側にあることを示す。もちろん、これら左右の指示を逆にすることもできる。
表1の変数dummy_region_flagは、2つのビューのためにダミー領域が存在し、この領域が表示前にクロッピングされることを示すために、1に等しくすることができる。表1の変数focal_lengthは、カメラの焦点距離を指定することができる。一例として、focal_lengthの値は、1以上232−1以下の(inclusive)範囲内にあることができる。表1の変数near_depthは、オリジナル・ビューおよび生成されたビュー内のピクセルの最小深度値を指定する。変数near_depthは、1以上far_depth−1以下の(inclusive)範囲内にあることができる。表1の変数far_depthは、オリジナル・ビューおよび生成されたビュー内のピクセルの最大深度値を指定する。far_depthの値は、near_depth+1以上232−1以下の(inclusive)範囲内にあることができる。
表1の変数translate_xは、オリジナル・ビューと生成されたビューについて仮定されたカメラの間の距離を指定する。変数dum_reg_widthは、出力用に使用されない、オリジナル・ビューおよび生成されたビューではクロッピングされる領域の幅を指定し、単位は輝度サンプル(luma samples)の単位である。dum_reg_widthは、dummy_region_flagが1に等しい場合にのみ含まれ得る。
left_view_original_flagが1に等しい場合、出力領域は、水平方向に、両端を含んで0からPicWidthInSamplesL−dum_reg_width−1までの(inclusive)領域にクロッピングされる。left_view_original_flagが0に等しい場合、出力領域は、両端を含んでdum_reg_widthからPicWidthInSamplesL−1までの領域にクロッピングされる(inclusively)。dum_reg_widthの値は、PicWidthInSamplesL/16であると推測することもできる。
例えばSEIメッセージ内の、3D変換情報は、エクストラ・ビューを生成するために復号器においてビュー合成のために適用されるアルゴリズムを必ずしも指定しない。しかし、3Dワーピングベースのアルゴリズムでは、3Dワーピングのために上記の式(8)を使用することができ、この式は、実際に、オリジナル・ビュー内の1つのピクセルを仮想ビューにマッピングする。この場合、zwはオリジナル・ビュー内のピクセルの深度であって、[near_depth,far_depth]の区間内にあり、fはfocal_lengthであり、dの絶対値がtranslate_xである。
代替として、focal_length、near_depth、far_depth、およびtranslate_xは、IEC 60559仕様書または他の通信プロトコルによる、符号付き倍精度値(signed double values)として伝達(signaled)することもできる。IEC 60559では、値Xは、符号s(+/−)、N(仮数部)、およびE(指数部)の3つの部分で伝達される。値Xの計算の1つの可能な実装が、以下の疑似コード(pseudo-code)で説明されている。
Figure 2015046899
ここで、Xは計算される変数であり、s、N、およびEは、計算される各変数に関連する符号、指数、および仮数シンタックス要素に対応し、Mは、M=bin2float(N)、0≦M<1である。各カメラ・パラメータ変数と対応するシンタックス要素との間の関連付けは、多種多様な実装に依存する。
また、上記のパラメータに加えて、追加のパラメータも使用することができる。例えば、収束画像平面(convergence image plane)から2つの異なるカメラまでの仮定距離を定量化する収束深度値(convergence-depth value)を、一組のパラメータに含めることができる。表1のパラメータを用いる場合、収束深度値は、無限であると仮定することができるが、他の場合は、収束深度値を一組のパラメータに明確に含めることができる。
以下の疑似コードは、分数の2進表現を対応する浮動小数点数に変換する、bin2float()関数の一例を提供している。関数M=bin2float(N)の疑似コードは、以下のように与えることができる。
Figure 2015046899
代替として、より多くのカメラ・パラメータを伝達することもできる。例えば、x軸およびy軸についての異なる焦点距離fxおよびfyと、スキュー係数とを含み、または式(6)に示されるような主点すらも含む、内部パラメータを伝達することができる。加えて、生成されるビューについて仮定されるカメラは、xz平面における回転を有することができ、そのため、この値、すなわち式(7)に示されるようなθも伝達することができる。
図7は、本開示による、ビデオ符号器50を含むデバイスによって実行できる符号化プロセスを示すフロー図である。図7に示されるように、ビデオ符号器50は、ビデオフレームからなる2Dシーケンスを符号化し(101)、2D−3D変換ユニット36は、ビデオ符号器を用いて3D変換情報を符号化し(102)、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内のビデオフレームの各々に適用できる一組のパラメータを含む。その後、ビデオ符号器50を含むデバイスは、符号化2Dシーケンスを3D変換情報とともに伝達することができる(103)。図1を参照すると、例えば、ビデオ符号器22は、ビデオ符号器50に対応することができる。この場合、ソース・デバイス12は、モデム23および送信機24を介して、符号化2Dシーケンスを3D変換情報とともに伝達することができ(103)、モデム23および送信機24は、符号分割多元接続(CDMA)などの無線プロトコルに従って、情報を変調し、送信する。
2Dシーケンスを符号化する際、ビデオ符号器50は、ITU H.264ビデオ符号化規格に従って、2Dシーケンスを符号化することができる。この場合、3D変換情報を符号化することは、上で説明したようなITU H.264ビデオ符号化規格によってサポートされる1つまたは複数のSEIメッセージ内に、3D変換情報を符号化することを含むことができる。2Dシーケンスは、第1の2Dシーケンス(例えばオリジナルシーケンス)と呼ばれることもある。ビデオフレーム(例えばセカンダリ・ビュー)からなる第2の2Dシーケンスを生成するために、第1の2Dシーケンス内のビデオフレームの各々に、一組のパラメータを適用することができ、第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義する。
3D変換情報は、3Dビデオデータを生成するために2Dシーケンスに適用される3D変換プロセスを識別する情報を含むことができる。上で説明したように、3D変換情報は、2Dシーケンスのキャプチャに関連するカメラ・パラメータおよび値を含むことができる。例えば、3D変換情報は、2Dシーケンスをキャプチャしたカメラに関連する焦点距離を表す焦点距離値、3Dビデオデータの最小深度を指定する近深度値、3Dビデオデータの最大深度を指定する遠深度値、および3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値を含むことができる。
3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるかどうか、またはデフォルトの一組の3Dパラメータを使用すべきかどうかを指示するフラグを含むことができる。加えて、3D変換情報は、2Dシーケンスの第2のビューを2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグも含むことができる。また、3D変換情報は、3Dビデオデータから除去すべきクロップ領域を識別するフラグも含むことができる。
一例では、第1のフラグは、3D変換情報に明示的な一組の3Dパラメータが含まれるかどうか、またはデフォルトの一組の3Dパラメータを使用すべきかどうかを指示することができ、明示的な一組の3Dパラメータは、第1のフラグが設定されているときに、3D変換情報に含まれる。第2のフラグは、2Dシーケンスの第2のビューを2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示することができ、第3のフラグは、3Dビデオデータからクロップ領域を除去すべきかどうかを識別することができ、クロップ領域を定義する情報は、第3のフラグが設定されているときに、3D変換情報に含まれる。
図8は、本開示による、復号プロセスを示すフロー図である。ビデオ復号器70は、符号化2Dシーケンスを3D変換情報とともに受け取り(111)、2Dシーケンスを復号する(112)。例えば、エントロピー復号ユニット72は、2Dシーケンスの残差ビデオブロックの量子化された係数を生成するために、ビットストリームのエントロピー復号を実行することができる。エントロピー復号ユニット72は、ビットストリームからシンタックス要素を解析して取り出し、そのようなシンタックス要素をビデオ復号器70の様々なユニットに転送することができる。エントロピー符号化ユニット72は、SEIメッセージ内の任意のシンタックスを識別するために、そのようなメッセージを解析(parse)することができる。動き情報(例えば動きベクトル)および他のシンタックス情報を、予測ユニット75に転送することができる。予測ユニット75は、符号化の際に使用された予測ブロックを識別するために、動き情報または他のシンタックス要素を使用する。インターベースの復号の場合、予測データの1つまたは複数のリストから予測ブロックを生成するために、動き補償プロセスにおいて、動きベクトルを適用することができる。インターベースの復号の場合、シンタックスは、イントラモードを含むことができ、このモードは、復号されるビデオブロックのフレームと同じフレームに属するデータに基づいて、予測ブロックをどのように生成すべきかを定義することができる。
逆量子化ユニット76は、エントロピー復号ユニット72から受け取ったデータを逆量子化し、逆変換ユニットは、ピクセル領域における残差ブロックを生成するために、逆変換を実行する。その後、加算器79は、オリジナル・ビデオブロックの再構成を生成するために、残差ブロックを、予測ユニット75によって生成された予測ブロックと合成する。オリジナル・ビデオブロックの再構成は、メモリ74内に記憶することができ、および/または復号された2Dビデオデータとしてディスプレイに出力することができる。このようにして、ビデオフレームを再構成し、最終的にメモリ74内にビデオフレームからなる2Dシーケンス全体を再構成するために、多くのビデオブロックを復号することができる。
ビデオ復号器70は、それが3Dビデオをサポートするかどうかを判定することができる(113)。言い換えると、ビデオ復号器70は、それが2D−3D変換ユニット79を含むかどうかを判定することができる。これは明示的に判定することができ、または代替として、ビデオ復号器70は、2D−3D変換ユニット79を含まない場合は、本質的に2D復号に従って動作することができる。ビデオ復号器70が2D−3D変換ユニット79を含む場合、3Dビデオを生成することができる。
したがって、ビデオ復号器70が3Dビデオをサポートしない場合(113のno分岐)、ビデオ復号器70は、復号された2Dシーケンスを2Dディスプレイに出力することができる(114)。他方、ビデオ復号器70が3Dビデオをサポートする場合(113のyes分岐)、2D−3D変換ユニット79は、3Dビデオシーケンスを生成するために、復号された2Dシーケンスに3D変換情報を適用し(115)、その後、その結果は、ビデオ復号器70から3Dディスプレイに出力することができる(116)。このようにして、3D変換情報とともに伝達された2Dシーケンスは、2D−3D変換をサポートする復号デバイスでは、3Dビデオをサポートすることができるが、2Dビデオだけしかサポートしないレガシデバイスでは、従来の2Dビデオもサポートすることができる。
また他の例では、2Dシーケンスとともに3D変換情報を伝達する必要がないこともある。例えば、符号器または復号器は、3Dビデオデータを生成するために、本明細書で説明した3D変換情報を、記憶されたまたは受け取った2Dシーケンスに単純に適用することもある。したがって、本開示は、3Dビデオデータを生成するために2Dシーケンスに3D変換情報を適用する、方法、コンピュータ読み取り可能な記憶媒体、装置、およびデバイスを企図している。ここで、3D変換情報は、3Dビデオデータを生成するために2Dシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む。
本開示の技法は、モバイルフォンなどの無線通信デバイスハンドセット、集積回路(IC)、または一組のIC(すなわちチップセット)を含む、多種多様なデバイスまたは装置において実装することができる。いずれのコンポーネント、モジュール、またはユニットも、機能態様を強調して説明および提供されており、異なるハードウェアユニットによる実現を必ずしも必要としない。本明細書で説明した技法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装することもできる。モジュール、ユニット、またはコンポーネントとして説明されたいずれの特徴も、一緒にして統合論理デバイス内で、または切り離して個別の相互動作可能な論理デバイス(interoperable logic devices)として実装することができる。場合によっては、様々な特徴は、集積回路チップまたはチップセットなどの、集積回路デバイスとして実装することができる。
ソフトウェアで実装する場合、本開示の技法は、プロセッサにおいて実行された場合に、上で説明した方法の1つまたは複数を実行する命令を含む、コンピュータ読み取り可能な媒体によって少なくとも部分的に実現することができる。コンピュータ読み取り可能な媒体は、コンピュータ読み取り可能な記憶媒体を含むことができ、パッケージング材料を含み得るコンピュータプログラム製品の一部を形成することができる。コンピュータ読み取り可能な記憶媒体は、同期ダイナミックランダムアクセスメモリ(SDRAM)などのランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、フラッシュメモリ、および磁気的または光学的記憶媒体などを含むことができる。本開示の技法は、追加または代替として、命令またはデータ構造の形式をとるコードを搬送または伝達し、コンピュータによるアクセス、読取り、および/または実行が可能な、コンピュータ読み取り可能な通信媒体によって少なくとも部分的に実現することができる。
コードまたは命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他の等価な統合もしくは個別論理回路など、1つまたは複数のプロセッサによって実行することができる。したがって、「プロセッサ」という用語は、本明細書で使用される場合、上記の構造のいずれか、または本明細書で説明した技法の実装に適した他の任意の構造を指すことができる。加えて、幾つかの態様において、本明細書で説明した機能は、符号化および復号のために構成された専用ソフトウェアモジュールまたはハードウェアモジュール内で提供することができ、または組合せビデオコーデック内に組み込むことができる。また、本開示の技法は、1つまたは複数の回路または論理要素において完全に実装することができる。
本開示は、本開示で説明した技法の1つまたは複数を実装する回路を含む様々な集積回路デバイスのいずれをも意図している。そのような回路は、単一の集積回路チップにおいて、またはいわゆるチップセット内の複数の相互動作可能な集積回路チップにおいて提供することができる。そのような集積回路デバイスは、様々なアプリケーションで使用することができ、そのいくつかは、モバイル電話ハンドセットなどの無線通信デバイスにおける使用を含むことができる。
様々な例が、本開示において説明された。これらの例および他の例は、以下の特許請求の範囲内にある。
様々な例が、本開示において説明された。これらの例および他の例は、以下の特許請求の範囲内にある。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1] ビデオ符号器においてビデオフレームからなる2次元(2D)シーケンスを符号化することと、
前記ビデオ符号器を用いて3次元(3D)変換情報を符号化することと、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記符号化2Dシーケンスを前記3D変換情報とともに伝達することを含む方法。
[C2] 前記2Dシーケンスを符号化することは、ITU H.264ビデオ符号化規格に従って、前記2Dシーケンスを符号化することを含み、
前記3D変換情報を符号化することは、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージ内に前記3D変換情報を符号化することを含むC1に記載の方法。
[C3] 前記2Dシーケンスは、第1の2Dシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義する、C1に記載の方法。
[C4] 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用される3D変換プロセスを識別する情報を含む、C1に記載の方法。
[C5] 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、C1に記載の方法。
[C6] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
を含む、C1に記載の方法。
[C7] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値とを含む、C1に記載の方法。
[C8] 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、C1に記載の方法。
[C9] 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、C1に記載の方法。
[C10] 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、C1に記載の方法。
[C11] 前記3D変換情報は、
前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
を含む、C1に記載の方法。
[C12] ビデオ復号器においてビデオフレームからなる2次元(2D)シーケンスを受け取ることと、
前記ビデオ復号器において前記2Dシーケンスとともに3次元(3D)変換情報を受け取ることと、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記ビデオ復号器を用いて前記2Dシーケンスを復号することと、
前記2Dシーケンス及び前記3D変換情報に基づいて、前記ビデオ復号器を用いて前記3Dビデオデータを生成することと
を含む方法。
[C13] 前記2Dシーケンスは、ITU H.264ビデオ符号化規格に従って符号化され、
前記3D変換情報は、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージに収めて受け取られる、C12に記載の方法。
[C14] 前記2Dシーケンスは、第1の2Dシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義し、
前記3Dビデオデータを生成することは、前記3D立体視ビデオシーケンスを定義するために、前記第2の2Dシーケンスを生成することを含む、C12に記載の方法。
[C15] 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用される3D変換プロセスを識別する情報を含む、C12に記載の方法。
[C16] 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、C12に記載の方法。
[C17] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
を含む、C12に記載の方法。
[C18] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値と
を含む、C12に記載の方法。
[C19] 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、C12に記載の方法。
[C20] 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、C12に記載の方法。
[C21] 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、C12に記載の方法。
[C22] 前記3D変換情報は、
前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
を含む、C12に記載の方法。
[C23] 受信デバイスが前記3Dビデオデータを生成及びレンダリングできるかどうかについて、判定することと、
前記受信デバイスが前記3Dビデオデータを生成及びレンダリングできる場合に、前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成し、レンダリングすることと、
前記受信デバイスが前記3Dビデオデータを生成又はレンダリングできない場合に、前記2Dシーケンスをレンダリングすることを更に含むC12に記載の方法。
[C24] ビデオフレームからなる2次元(2D)シーケンスを符号化し、前記2Dシーケンスとともに3次元(3D)変換情報を符号化するビデオ符号器を含み、
前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、装置。
[C25] 前記符号化2Dシーケンスを前記3D変換情報とともに他のデバイスに伝達する送信機を更に含むC24に記載の装置。
[C26] 前記ビデオ符号器は、ITU H.264ビデオ符号化規格に従って、前記2Dシーケンスを符号化し、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージ内に前記3D変換情報を符号化する、C24に記載の装置。
[C27] 前記2Dシーケンスは、第1の2Dシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義する、C24に記載の装置。
[C28] 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用される3D変換プロセスを識別する情報を含む、C24に記載の装置。
[C29] 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、C24に記載の装置。
[C30] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
を含む、C24に記載の装置。
[C31] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値と
を含む、C24に記載の装置。
[C32] 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、C24に記載の装置。
[C33] 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、C24に記載の装置。
[C34] 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、C24に記載の装置。
[C35] 前記3D変換情報は、
前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
を含む、C24に記載の装置。
[C36] 集積回路と、
マイクロプロセッサと、
前記ビデオ符号器を含む無線通信デバイスと
のうちの少なくとも一つを含むC24に記載の装置。
[C37] ビデオ復号器を含む装置において、
前記ビデオ復号器は、
ビデオフレームからなる2次元(2D)シーケンスを受け取り、
前記2Dシーケンスとともに3次元(3D)変換情報を受け取り、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記2Dシーケンスを復号し、
前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成する装置。
[C38] 前記2Dシーケンスは、ITU H.264ビデオ符号化規格に従って符号化され、
前記3D変換情報は、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージに収めて受け取られる、C37に記載の装置。
[C39] 前記2Dシーケンスは、第1の2Dシーケンスであり、
前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義し、
前記3Dビデオデータを生成する際に、前記ビデオ復号器は、前記3D立体視ビデオシーケンスを定義するために、前記第2の2Dシーケンスを生成する、C37に記載の装置。
[C40] 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用する3D変換プロセスを識別する情報を含む、C37に記載の装置。
[C41] 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、C37に記載の装置。
[C42] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおけの最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
を含む、C37に記載の装置。
[C43] 前記3D変換情報は、
前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
前記3Dビデオデータにおける最小深度を指定する近深度値と、
前記3Dビデオデータにおける最大深度を指定する遠深度値と、
前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値と
を含む、C37に記載の装置。
[C44] 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、C37に記載の装置。
[C45] 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、C37に記載の装置。
[C46] 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、C37に記載の装置。
[C47] 前記3D変換情報は、
前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
を含む、C37に記載の装置。
[C48] ディスプレイを含む装置において、
前記装置が前記3Dビデオデータを生成及びレンダリングできるかどうかについて、判定し、
前記装置が前記3Dビデオデータを生成及びレンダリングできる場合に、前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成し、前記ディスプレイ上にレンダリングし、
前記装置が前記3Dビデオデータを生成又はレンダリングできない場合に、前記2Dシーケンスを前記ディスプレイ上にレンダリングする、
C37に記載の装置。
[C49] 集積回路と、
マイクロプロセッサと、
前記ビデオ復号器を含む無線通信デバイスと
のうちの少なくとも一つを含むC37に記載の装置。
[C50] ビデオ符号器においてビデオフレームからなる2次元(2D)シーケンスを符号化するための手段と、
前記ビデオ符号器を用いて3次元(3D)変換情報を符号化するための手段と、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記符号化2Dシーケンスを前記符号化されたパラメータとともに伝達するための手段とを含むデバイス。
[C51] ビデオ復号器においてビデオフレームからなる2次元(2D)シーケンスを受け取るための手段と、
前記ビデオ復号器において前記2Dシーケンスとともに3次元(3D)変換情報を受け取るための手段と、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
前記2Dシーケンスを復号するための手段と、
前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成するための手段とを含むデバイス。
[C52] 命令を含むコンピュータ読み取り可能な記憶媒体において、
前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
ビデオフレームからなる2次元(2D)シーケンスを符号化させ、
3次元(3D)変換情報を符号化させるものであり、
前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、コンピュータ読み取り可能な記憶媒体。
[C53] 命令を含むコンピュータ読み取り可能な記憶媒体において、
前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
ビデオフレームからなる2次元(2D)シーケンスの受け取り、及び、前記2Dシーケンスとともに、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む3次元(3D)変換情報の受け取りに応じて、
前記2Dシーケンスを復号させ、
前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成させるものであるコンピュータ読み取り可能な記憶媒体。
[C54] 3Dビデオデータを生成するために3D変換情報を2Dシーケンスに適用することを含み、
ここで、前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む、方法。

Claims (54)

  1. ビデオ符号器においてビデオフレームからなる2次元(2D)シーケンスを符号化することと、
    前記ビデオ符号器を用いて3次元(3D)変換情報を符号化することと、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
    前記符号化2Dシーケンスを前記3D変換情報とともに伝達することを含む方法。
  2. 前記2Dシーケンスを符号化することは、ITU H.264ビデオ符号化規格に従って、前記2Dシーケンスを符号化することを含み、
    前記3D変換情報を符号化することは、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージ内に前記3D変換情報を符号化することを含む請求項1に記載の方法。
  3. 前記2Dシーケンスは、第1の2Dシーケンスであり、
    前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
    前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義する、請求項1に記載の方法。
  4. 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用される3D変換プロセスを識別する情報を含む、請求項1に記載の方法。
  5. 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、請求項1に記載の方法。
  6. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
    を含む、請求項1に記載の方法。
  7. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
    収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値とを含む、請求項1に記載の方法。
  8. 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、請求項1に記載の方法。
  9. 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項1に記載の方法。
  10. 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項1に記載の方法。
  11. 前記3D変換情報は、
    前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
    前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
    前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
    を含む、請求項1に記載の方法。
  12. ビデオ復号器においてビデオフレームからなる2次元(2D)シーケンスを受け取ることと、
    前記ビデオ復号器において前記2Dシーケンスとともに3次元(3D)変換情報を受け取ることと、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
    前記ビデオ復号器を用いて前記2Dシーケンスを復号することと、
    前記2Dシーケンス及び前記3D変換情報に基づいて、前記ビデオ復号器を用いて前記3Dビデオデータを生成することと
    を含む方法。
  13. 前記2Dシーケンスは、ITU H.264ビデオ符号化規格に従って符号化され、
    前記3D変換情報は、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージに収めて受け取られる、請求項12に記載の方法。
  14. 前記2Dシーケンスは、第1の2Dシーケンスであり、
    前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
    前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義し、
    前記3Dビデオデータを生成することは、前記3D立体視ビデオシーケンスを定義するために、前記第2の2Dシーケンスを生成することを含む、請求項12に記載の方法。
  15. 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用される3D変換プロセスを識別する情報を含む、請求項12に記載の方法。
  16. 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、請求項12に記載の方法。
  17. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
    を含む、請求項12に記載の方法。
  18. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
    収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値と
    を含む、請求項12に記載の方法。
  19. 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、請求項12に記載の方法。
  20. 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項12に記載の方法。
  21. 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項12に記載の方法。
  22. 前記3D変換情報は、
    前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
    前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
    前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
    を含む、請求項12に記載の方法。
  23. 受信デバイスが前記3Dビデオデータを生成及びレンダリングできるかどうかについて、判定することと、
    前記受信デバイスが前記3Dビデオデータを生成及びレンダリングできる場合に、前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成し、レンダリングすることと、
    前記受信デバイスが前記3Dビデオデータを生成又はレンダリングできない場合に、前記2Dシーケンスをレンダリングすることを更に含む請求項12に記載の方法。
  24. ビデオフレームからなる2次元(2D)シーケンスを符号化し、前記2Dシーケンスとともに3次元(3D)変換情報を符号化するビデオ符号器を含み、
    前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、装置。
  25. 前記符号化2Dシーケンスを前記3D変換情報とともに他のデバイスに伝達する送信機を更に含む請求項24に記載の装置。
  26. 前記ビデオ符号器は、ITU H.264ビデオ符号化規格に従って、前記2Dシーケンスを符号化し、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージ内に前記3D変換情報を符号化する、請求項24に記載の装置。
  27. 前記2Dシーケンスは、第1の2Dシーケンスであり、
    前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
    前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義する、請求項24に記載の装置。
  28. 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用される3D変換プロセスを識別する情報を含む、請求項24に記載の装置。
  29. 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、請求項24に記載の装置。
  30. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
    を含む、請求項24に記載の装置。
  31. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
    収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値と
    を含む、請求項24に記載の装置。
  32. 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、請求項24に記載の装置。
  33. 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項24に記載の装置。
  34. 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項24に記載の装置。
  35. 前記3D変換情報は、
    前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
    前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
    前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
    を含む、請求項24に記載の装置。
  36. 集積回路と、
    マイクロプロセッサと、
    前記ビデオ符号器を含む無線通信デバイスと
    のうちの少なくとも一つを含む請求項24に記載の装置。
  37. ビデオ復号器を含む装置において、
    前記ビデオ復号器は、
    ビデオフレームからなる2次元(2D)シーケンスを受け取り、
    前記2Dシーケンスとともに3次元(3D)変換情報を受け取り、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
    前記2Dシーケンスを復号し、
    前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成する装置。
  38. 前記2Dシーケンスは、ITU H.264ビデオ符号化規格に従って符号化され、
    前記3D変換情報は、前記ITU H.264ビデオ符号化規格によってサポートされる1つまたは複数の補助拡張情報(SEI)メッセージに収めて受け取られる、請求項37に記載の装置。
  39. 前記2Dシーケンスは、第1の2Dシーケンスであり、
    前記一組のパラメータは、ビデオフレームからなる第2の2Dシーケンスを生成するために、前記第1の2Dシーケンス内の前記ビデオフレームの各々に適用されることができ、
    前記第1及び第2の2Dシーケンスは、一緒になって、3D立体視ビデオシーケンスを定義し、
    前記3Dビデオデータを生成する際に、前記ビデオ復号器は、前記3D立体視ビデオシーケンスを定義するために、前記第2の2Dシーケンスを生成する、請求項37に記載の装置。
  40. 前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンスに適用する3D変換プロセスを識別する情報を含む、請求項37に記載の装置。
  41. 前記3D変換情報は、カメラ・パラメータと、前記2Dシーケンスのキャプチャに関連する値とを含む、請求項37に記載の装置。
  42. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおけの最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と
    を含む、請求項37に記載の装置。
  43. 前記3D変換情報は、
    前記2Dシーケンスをキャプチャしたカメラに関連する焦点距離を示す焦点距離値と、
    前記3Dビデオデータにおける最小深度を指定する近深度値と、
    前記3Dビデオデータにおける最大深度を指定する遠深度値と、
    前記3Dビデオデータに関連する2つのカメラ間の仮定距離を定量化する平行移動値と、
    収束画像平面から前記2つのカメラまでの仮定距離を定量化する収束深度値と
    を含む、請求項37に記載の装置。
  44. 前記3D変換情報は、3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示するフラグを含む、請求項37に記載の装置。
  45. 前記3D変換情報は、前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示するフラグを含む、請求項37に記載の装置。
  46. 前記3D変換情報は、前記3Dビデオデータから除去すべきクロップ領域を識別するフラグを含む、請求項37に記載の装置。
  47. 前記3D変換情報は、
    前記3D変換情報に明示的な一組の3Dパラメータが含まれるか又はデフォルトの一組の3Dパラメータを使用すべきかを指示する第1のフラグであって、前記明示的な一組の3Dパラメータは、前記第1のフラグが設定されている場合に、前記3D変換情報に含まれる、第1のフラグと、
    前記2Dシーケンスの第2のビューを前記2Dシーケンスの左側に生成すべきか、それとも右側に生成すべきかを指示する第2のフラグと、
    前記3Dビデオデータからクロップ領域を除去すべきかどうかを識別する第3のフラグであって、前記クロップ領域を定義する情報は、前記第3のフラグが設定されている場合に、前記3D変換情報に含まれる、第3のフラグと
    を含む、請求項37に記載の装置。
  48. ディスプレイを含む装置において、
    前記装置が前記3Dビデオデータを生成及びレンダリングできるかどうかについて、判定し、
    前記装置が前記3Dビデオデータを生成及びレンダリングできる場合に、前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成し、前記ディスプレイ上にレンダリングし、
    前記装置が前記3Dビデオデータを生成又はレンダリングできない場合に、前記2Dシーケンスを前記ディスプレイ上にレンダリングする、
    請求項37に記載の装置。
  49. 集積回路と、
    マイクロプロセッサと、
    前記ビデオ復号器を含む無線通信デバイスと
    のうちの少なくとも一つを含む請求項37に記載の装置。
  50. ビデオ符号器においてビデオフレームからなる2次元(2D)シーケンスを符号化するための手段と、
    前記ビデオ符号器を用いて3次元(3D)変換情報を符号化するための手段と、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
    前記符号化2Dシーケンスを前記符号化されたパラメータとともに伝達するための手段とを含むデバイス。
  51. ビデオ復号器においてビデオフレームからなる2次元(2D)シーケンスを受け取るための手段と、
    前記ビデオ復号器において前記2Dシーケンスとともに3次元(3D)変換情報を受け取るための手段と、ここで、前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、
    前記2Dシーケンスを復号するための手段と、
    前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成するための手段とを含むデバイス。
  52. 命令を含むコンピュータ読み取り可能な記憶媒体において、
    前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
    ビデオフレームからなる2次元(2D)シーケンスを符号化させ、
    3次元(3D)変換情報を符号化させるものであり、
    前記3D変換情報は、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む、コンピュータ読み取り可能な記憶媒体。
  53. 命令を含むコンピュータ読み取り可能な記憶媒体において、
    前記命令は、プロセッサによって実行された場合に、前記プロセッサに、
    ビデオフレームからなる2次元(2D)シーケンスの受け取り、及び、前記2Dシーケンスとともに、3Dビデオデータを生成するために前記2Dシーケンス内の前記ビデオフレームの各々に適用できる一組のパラメータを含む3次元(3D)変換情報の受け取りに応じて、
    前記2Dシーケンスを復号させ、
    前記2Dシーケンス及び前記3D変換情報に基づいて、前記3Dビデオデータを生成させるものであるコンピュータ読み取り可能な記憶媒体。
  54. 3Dビデオデータを生成するために3D変換情報を2Dシーケンスに適用することを含み、
    ここで、前記3D変換情報は、前記3Dビデオデータを生成するために前記2Dシーケンス内の各ビデオフレームに適用できる一組のパラメータを含む、方法。
JP2014205047A 2009-06-05 2014-10-03 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence) Ceased JP2015046899A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US18464909P 2009-06-05 2009-06-05
US61/184,649 2009-06-05
US12/643,632 2009-12-21
US12/643,632 US9124874B2 (en) 2009-06-05 2009-12-21 Encoding of three-dimensional conversion information with two-dimensional video sequence

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012514217A Division JP2012529787A (ja) 2009-06-05 2010-06-05 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence)

Publications (2)

Publication Number Publication Date
JP2015046899A true JP2015046899A (ja) 2015-03-12
JP2015046899A5 JP2015046899A5 (ja) 2015-11-19

Family

ID=42575825

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012514217A Ceased JP2012529787A (ja) 2009-06-05 2010-06-05 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence)
JP2014205047A Ceased JP2015046899A (ja) 2009-06-05 2014-10-03 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence)

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2012514217A Ceased JP2012529787A (ja) 2009-06-05 2010-06-05 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence)

Country Status (7)

Country Link
US (1) US9124874B2 (ja)
EP (1) EP2438760A1 (ja)
JP (2) JP2012529787A (ja)
KR (1) KR101377928B1 (ja)
CN (1) CN102450015A (ja)
TW (1) TW201105112A (ja)
WO (1) WO2010141927A1 (ja)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101199498B1 (ko) 2005-03-31 2012-11-09 삼성전자주식회사 카메라 파라미터를 이용한 다시점 영상의 부호화 장치 및생성 장치, 그 방법과, 이를 수행하기 위한 프로그램이기록된 기록 매체
WO2010058368A1 (en) * 2008-11-24 2010-05-27 Koninklijke Philips Electronics N.V. Combining 3d video and auxiliary data
US20110025830A1 (en) 2009-07-31 2011-02-03 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating stereoscopic content via depth map creation
US9380292B2 (en) 2009-07-31 2016-06-28 3Dmedia Corporation Methods, systems, and computer-readable storage media for generating three-dimensional (3D) images of a scene
WO2011014419A1 (en) 2009-07-31 2011-02-03 3Dmedia Corporation Methods, systems, and computer-readable storage media for creating three-dimensional (3d) images of a scene
WO2011046607A2 (en) * 2009-10-14 2011-04-21 Thomson Licensing Filtering and edge encoding
JP5482254B2 (ja) * 2009-11-05 2014-05-07 ソニー株式会社 受信装置、送信装置、通信システム、表示制御方法、プログラム、及びデータ構造
JP2011109397A (ja) * 2009-11-17 2011-06-02 Sony Corp 画像送信方法、画像受信方法、画像送信装置、画像受信装置、及び画像伝送システム
JP2011114863A (ja) * 2009-11-23 2011-06-09 Samsung Electronics Co Ltd 3D映像の提供方法、3D映像の変換方法、GUI提供方法及びこれを適用した3Dディスプレイ装置、そして3D映像の提供システム{Methodforproviding3Dimage、methodforconverting3Dimage、GUIprovidingmethodrelatedto3Dimageand3Ddisplayapparatusandsystemforproviding3Dimage}
EP2520092A1 (en) * 2009-12-31 2012-11-07 Thomson Licensing Methods and apparatus for adaptive coupled pre-processing and post-processing filters for video encoding and decoding
WO2011087303A2 (ko) * 2010-01-18 2011-07-21 엘지전자 주식회사 방송 신호 수신기 및 비디오 데이터 처리 방법
WO2011091301A1 (en) * 2010-01-21 2011-07-28 General Instrument Corporation Full resolution stereoscopic video with 2d backward compatible signal
BR112012020993A2 (pt) * 2010-02-24 2016-05-03 Nippon Telegraph & Telephone método de codificação de vídeo de múltiplas visões , método de decodificação de vídeo de múltiplas visões, aparelho de codificação de vídeo de múltiplas visões, aparelho de decodificação de vídeo de múltiplas visões , e programa
JP5601006B2 (ja) * 2010-04-08 2014-10-08 ソニー株式会社 情報処理装置、情報記録媒体、および情報処理方法、並びにプログラム
JP2011223247A (ja) * 2010-04-08 2011-11-04 Sony Corp 情報処理装置、情報記録媒体、および情報処理方法、並びにプログラム
CA2797619C (en) 2010-04-30 2015-11-24 Lg Electronics Inc. An apparatus of processing an image and a method of processing thereof
US8638863B1 (en) 2010-05-18 2014-01-28 Google Inc. Apparatus and method for filtering video using extended edge-detection
US8928659B2 (en) * 2010-06-23 2015-01-06 Microsoft Corporation Telepresence systems with viewer perspective adjustment
US20120188340A1 (en) * 2010-06-23 2012-07-26 Toru Kawaguchi Content distribution system, playback apparatus, distribution server, playback method, and distribution method
US9485495B2 (en) 2010-08-09 2016-11-01 Qualcomm Incorporated Autofocus for stereo images
CN102598683B (zh) * 2010-09-17 2015-06-17 松下电器产业株式会社 立体影像制作装置以及立体影像制作方法
WO2012061549A2 (en) * 2010-11-03 2012-05-10 3Dmedia Corporation Methods, systems, and computer program products for creating three-dimensional video sequences
WO2012092246A2 (en) 2010-12-27 2012-07-05 3Dmedia Corporation Methods, systems, and computer-readable storage media for identifying a rough depth map in a scene and for determining a stereo-base distance for three-dimensional (3d) content creation
US8274552B2 (en) 2010-12-27 2012-09-25 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
US10200671B2 (en) 2010-12-27 2019-02-05 3Dmedia Corporation Primary and auxiliary image capture devices for image processing and related methods
US9210442B2 (en) 2011-01-12 2015-12-08 Google Technology Holdings LLC Efficient transform unit representation
CN105100822B (zh) * 2011-01-28 2018-05-11 华为技术有限公司 辅助视频补充信息承载方法、处理方法、装置与系统
US9380319B2 (en) * 2011-02-04 2016-06-28 Google Technology Holdings LLC Implicit transform unit representation
JP6026443B2 (ja) * 2011-03-10 2016-11-16 ヴィディオ・インコーポレーテッド ビデオ・ビットストリーム中の描画方向情報
CN107197227B (zh) * 2011-03-18 2019-05-10 索尼公司 图像处理设备、图像处理方法和计算机可读存储介质
US20120262542A1 (en) * 2011-04-15 2012-10-18 Qualcomm Incorporated Devices and methods for warping and hole filling during view synthesis
TWI543116B (zh) * 2011-04-26 2016-07-21 國立成功大學 影像區塊合併方法
GB2490886B (en) 2011-05-13 2017-07-05 Snell Advanced Media Ltd Video processing method and apparatus for use with a sequence of stereoscopic images
JP2012249137A (ja) * 2011-05-30 2012-12-13 Sony Corp 記録装置、記録方法、再生装置、再生方法、プログラム、および記録再生装置
US9363535B2 (en) 2011-07-22 2016-06-07 Qualcomm Incorporated Coding motion depth maps with depth range variation
EP2742688A1 (en) * 2011-08-12 2014-06-18 Telefonaktiebolaget LM Ericsson (PUBL) Signaling of camera and/or depth parameters
JP5815326B2 (ja) * 2011-08-12 2015-11-17 ルネサスエレクトロニクス株式会社 動画像復号装置及び画像表示装置
WO2013025149A1 (en) * 2011-08-15 2013-02-21 Telefonaktiebolaget L M Ericsson (Publ) Encoder, method in an encoder, decoder and method in a decoder for providing information concerning a spatial validity range
CN103748883B (zh) 2011-08-31 2017-12-15 索尼公司 编码设备、编码方法、解码设备和解码方法
US9438889B2 (en) 2011-09-21 2016-09-06 Qualcomm Incorporated System and method for improving methods of manufacturing stereoscopic image sensors
WO2013052455A2 (en) 2011-10-05 2013-04-11 Bitanimate, Inc. Resolution enhanced 3d video rendering systems and methods
CN103152587B (zh) * 2011-12-06 2016-08-03 北京大学深圳研究生院 一种基于视频压缩码流中辅助增强信息的2d视频转3d视频方法
US10447990B2 (en) 2012-02-28 2019-10-15 Qualcomm Incorporated Network abstraction layer (NAL) unit header design for three-dimensional video coding
US9661348B2 (en) * 2012-03-29 2017-05-23 Intel Corporation Method and system for generating side information at a video encoder to differentiate packet data
JP6030230B2 (ja) * 2012-07-04 2016-11-24 インテル コーポレイション パノラマベースの3dビデオコーディング
US8891888B2 (en) 2012-09-05 2014-11-18 Google Inc. Entropy coding for recompression of images
US10075728B2 (en) * 2012-10-01 2018-09-11 Inria Institut National De Recherche En Informatique Et En Automatique Method and device for motion information prediction refinement
US9654762B2 (en) * 2012-10-01 2017-05-16 Samsung Electronics Co., Ltd. Apparatus and method for stereoscopic video with motion sensors
US9398264B2 (en) 2012-10-19 2016-07-19 Qualcomm Incorporated Multi-camera system using folded optics
US9860515B2 (en) * 2012-12-11 2018-01-02 Electronics And Telecommunications Research Institute Apparatus and method for 3D content broadcasting with boundary information
US9743091B2 (en) * 2012-12-17 2017-08-22 Lg Electronics Inc. Method for encoding/decoding image, and device using same
CN103905806B (zh) * 2012-12-26 2018-05-01 三星电子(中国)研发中心 利用单摄像头实现3d拍摄的系统和方法
US9219915B1 (en) 2013-01-17 2015-12-22 Google Inc. Selection of transform size in video coding
RU2640357C2 (ru) * 2013-02-06 2017-12-28 Конинклейке Филипс Н.В. Способ кодирования сигнала видеоданных для использования с мультивидовым стереоскопическим устройством отображения
US9544597B1 (en) 2013-02-11 2017-01-10 Google Inc. Hybrid transform in video encoding and decoding
US9967559B1 (en) 2013-02-11 2018-05-08 Google Llc Motion vector dependent spatial transformation in video coding
US9609347B2 (en) * 2013-04-04 2017-03-28 Qualcomm Incorporated Advanced merge mode for three-dimensional (3D) video coding
US10158876B2 (en) * 2013-04-10 2018-12-18 Qualcomm Incorporated Backward view synthesis prediction
US9674530B1 (en) 2013-04-30 2017-06-06 Google Inc. Hybrid transforms in video coding
US9466090B2 (en) 2013-06-20 2016-10-11 Intel Corporation Subset based compression and decompression of graphics data
US10178373B2 (en) 2013-08-16 2019-01-08 Qualcomm Incorporated Stereo yaw correction using autofocus feedback
US9383550B2 (en) 2014-04-04 2016-07-05 Qualcomm Incorporated Auto-focus in low-profile folded optics multi-camera system
US9374516B2 (en) 2014-04-04 2016-06-21 Qualcomm Incorporated Auto-focus in low-profile folded optics multi-camera system
US10013764B2 (en) 2014-06-19 2018-07-03 Qualcomm Incorporated Local adaptive histogram equalization
US9819863B2 (en) 2014-06-20 2017-11-14 Qualcomm Incorporated Wide field of view array camera for hemispheric and spherical imaging
US9549107B2 (en) 2014-06-20 2017-01-17 Qualcomm Incorporated Autofocus for folded optic array cameras
US9386222B2 (en) 2014-06-20 2016-07-05 Qualcomm Incorporated Multi-camera system using folded optics free from parallax artifacts
US9294672B2 (en) * 2014-06-20 2016-03-22 Qualcomm Incorporated Multi-camera system using folded optics free from parallax and tilt artifacts
US9541740B2 (en) 2014-06-20 2017-01-10 Qualcomm Incorporated Folded optic array camera using refractive prisms
US9832381B2 (en) 2014-10-31 2017-11-28 Qualcomm Incorporated Optical image stabilization for thin cameras
US9565451B1 (en) 2014-10-31 2017-02-07 Google Inc. Prediction dependent transform coding
US10104415B2 (en) 2015-01-21 2018-10-16 Microsoft Technology Licensing, Llc Shared scene mesh data synchronisation
US9769499B2 (en) 2015-08-11 2017-09-19 Google Inc. Super-transform video coding
US10277905B2 (en) 2015-09-14 2019-04-30 Google Llc Transform selection for non-baseband signal coding
US9807423B1 (en) 2015-11-24 2017-10-31 Google Inc. Hybrid transform scheme for video coding
US10602187B2 (en) * 2015-11-30 2020-03-24 Intel Corporation Efficient, compatible, and scalable intra video/image coding using wavelets and HEVC coding
US10699389B2 (en) * 2016-05-24 2020-06-30 Qualcomm Incorporated Fisheye rendering with lens distortion correction for 360-degree video
US10387991B2 (en) 2016-07-01 2019-08-20 Intel Corporation Method and apparatus for frame buffer compression
US20180054613A1 (en) * 2016-08-22 2018-02-22 Mediatek Inc. Video encoding method and apparatus with in-loop filtering process not applied to reconstructed blocks located at image content discontinuity edge and associated video decoding method and apparatus
US10553029B1 (en) 2016-09-30 2020-02-04 Amazon Technologies, Inc. Using reference-only decoding of non-viewed sections of a projected video
US10609356B1 (en) * 2017-01-23 2020-03-31 Amazon Technologies, Inc. Using a temporal enhancement layer to encode and decode stereoscopic video content
US10992961B2 (en) * 2017-05-25 2021-04-27 Qualcomm Incorporated High-level signaling for fisheye video data
US11122297B2 (en) 2019-05-03 2021-09-14 Google Llc Using border-aligned block functions for image compression
WO2022124607A1 (en) * 2020-12-07 2022-06-16 Samsung Electronics Co., Ltd. Depth estimation method, device, electronic equipment and computer readable storage medium
US20220239906A1 (en) * 2021-01-26 2022-07-28 Beijing Dajia Internet Information Technology Co., Ltd. System and method for applying adaptive loop filter in video coding

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0715748A (ja) * 1993-06-24 1995-01-17 Canon Inc 画像記録再生装置
JPH08149510A (ja) * 1994-11-18 1996-06-07 Sanyo Electric Co Ltd 2次元3次元映像変換方法
JPH1032840A (ja) * 1996-04-05 1998-02-03 Matsushita Electric Ind Co Ltd 多視点画像伝送方法および多視点画像表示方法
JP2001061164A (ja) * 1999-08-19 2001-03-06 Toshiba Corp 立体映像信号伝送方法
JP2001256482A (ja) * 2000-03-08 2001-09-21 Fuji Xerox Co Ltd 視差画像生成装置および視差画像生成方法
JP2009044722A (ja) * 2007-07-19 2009-02-26 Victor Co Of Japan Ltd 擬似立体画像生成装置、画像符号化装置、画像符号化方法、画像伝送方法、画像復号化装置及び画像復号化方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625408A (en) 1993-06-24 1997-04-29 Canon Kabushiki Kaisha Three-dimensional image recording/reconstructing method and apparatus therefor
US5768404A (en) 1994-04-13 1998-06-16 Matsushita Electric Industrial Co., Ltd. Motion and disparity estimation method, image synthesis method, and apparatus for implementing same methods
JP3551467B2 (ja) 1994-04-13 2004-08-04 松下電器産業株式会社 視差演算装置、視差演算方法及び画像合成装置
DE69621778T2 (de) 1995-12-19 2003-03-13 Koninkl Philips Electronics Nv Tiefenabhängige parallaktische pixelverschiebung
US6163337A (en) 1996-04-05 2000-12-19 Matsushita Electric Industrial Co., Ltd. Multi-view point image transmission method and multi-view point image display method
CA2305735C (en) 1997-12-05 2008-01-08 Dynamic Digital Depth Research Pty. Ltd. Improved image conversion and encoding techniques
US6208348B1 (en) 1998-05-27 2001-03-27 In-Three, Inc. System and method for dimensionalization processing of images in consideration of a pedetermined image projection format
CN100581232C (zh) 2002-03-15 2010-01-13 诺基亚有限公司 用于在视频序列中对运动进行编码的方法
JP3990271B2 (ja) 2002-12-18 2007-10-10 日本電信電話株式会社 簡易ステレオ画像入力装置、方法、プログラム、および記録媒体
EP1437898A1 (en) 2002-12-30 2004-07-14 Koninklijke Philips Electronics N.V. Video filtering for stereo images
JP4181446B2 (ja) 2003-05-14 2008-11-12 シャープ株式会社 立体画像表示装置
US7272264B2 (en) 2003-09-11 2007-09-18 International Business Machines Corporation System and method for hole filling in 3D models
US7650036B2 (en) 2003-10-16 2010-01-19 Sharp Laboratories Of America, Inc. System and method for three-dimensional video coding
JP4483261B2 (ja) 2003-10-24 2010-06-16 ソニー株式会社 立体視画像処理装置
EP1592259B1 (en) 2004-04-30 2011-10-05 Panasonic Corporation Processing auxiliary data of video sequences
US7515759B2 (en) * 2004-07-14 2009-04-07 Sharp Laboratories Of America, Inc. 3D video coding using sub-sequences
CA2553473A1 (en) 2005-07-26 2007-01-26 Wa James Tam Generating a depth map from a tw0-dimensional source image for stereoscopic and multiview imaging
KR101370356B1 (ko) 2005-12-02 2014-03-05 코닌클리케 필립스 엔.브이. 스테레오스코픽 화상 디스플레이 방법 및 장치, 2d 화상데이터 입력으로부터 3d 화상 데이터를 생성하는 방법,그리고 2d 화상 데이터 입력으로부터 3d 화상 데이터를생성하는 장치
CN1917658B (zh) 2006-08-01 2011-04-27 杭州镭星科技有限公司 一种从单目图像序列生成立体图像序列的方法
US8330801B2 (en) 2006-12-22 2012-12-11 Qualcomm Incorporated Complexity-adaptive 2D-to-3D video sequence conversion
US20080225045A1 (en) 2007-03-12 2008-09-18 Conversion Works, Inc. Systems and methods for 2-d to 3-d image conversion using mask to model, or model to mask, conversion
ES2941888T3 (es) 2007-04-12 2023-05-26 Dolby Int Ab Organización en mosaico en codificación y decodificación de vídeo
DE102007021518B4 (de) 2007-05-04 2009-01-29 Technische Universität Berlin Verfahren zum Verarbeiten eines Videodatensatzes
US8463019B2 (en) 2007-07-19 2013-06-11 JVC Kenwood Corporation Pseudo 3D image generation device, image encoding device, image encoding method, image transmission method, image decoding device, and image decoding method
EP2321974A1 (en) 2008-08-29 2011-05-18 Thomson Licensing View synthesis with heuristic view merging
EP2605243B1 (en) * 2008-09-17 2014-12-31 Panasonic Corporation Playback device
KR20110126103A (ko) 2009-01-07 2011-11-22 톰슨 라이센싱 조인트 깊이 추정
US8643701B2 (en) 2009-11-18 2014-02-04 University Of Illinois At Urbana-Champaign System for executing 3D propagation for depth image-based rendering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0715748A (ja) * 1993-06-24 1995-01-17 Canon Inc 画像記録再生装置
JPH08149510A (ja) * 1994-11-18 1996-06-07 Sanyo Electric Co Ltd 2次元3次元映像変換方法
JPH1032840A (ja) * 1996-04-05 1998-02-03 Matsushita Electric Ind Co Ltd 多視点画像伝送方法および多視点画像表示方法
JP2001061164A (ja) * 1999-08-19 2001-03-06 Toshiba Corp 立体映像信号伝送方法
JP2001256482A (ja) * 2000-03-08 2001-09-21 Fuji Xerox Co Ltd 視差画像生成装置および視差画像生成方法
JP2009044722A (ja) * 2007-07-19 2009-02-26 Victor Co Of Japan Ltd 擬似立体画像生成装置、画像符号化装置、画像符号化方法、画像伝送方法、画像復号化装置及び画像復号化方法

Also Published As

Publication number Publication date
CN102450015A (zh) 2012-05-09
US9124874B2 (en) 2015-09-01
TW201105112A (en) 2011-02-01
WO2010141927A1 (en) 2010-12-09
EP2438760A1 (en) 2012-04-11
US20100309286A1 (en) 2010-12-09
KR20120024947A (ko) 2012-03-14
KR101377928B1 (ko) 2014-03-24
JP2012529787A (ja) 2012-11-22

Similar Documents

Publication Publication Date Title
JP2015046899A (ja) 2次元ビデオシーケンスとともに行われる3次元変換情報の符号化(encodingofthree−dimensionalconversioninformationwithtwo−dimensionalvideosequence)
JP6026534B2 (ja) 深度範囲の変動を伴う動き深度マップのコーディング
JP6022652B2 (ja) スライスヘッダ予測のためのスライスヘッダ三次元映像拡張
JP5698391B2 (ja) マルチビュービデオプラス深度コンテンツのコーディング
KR101773693B1 (ko) 스킵 및 직접 모드들에 대한 3d 비디오 코딩에서의 디스패리티 벡터 유도
US11496760B2 (en) Slice header prediction for depth maps in three-dimensional video codecs
KR101354387B1 (ko) 2d 비디오 데이터의 3d 비디오 데이터로의 컨버전을 위한 깊이 맵 생성 기술들
TWI539791B (zh) 三維視頻寫碼中導出之視差向量
US20120236934A1 (en) Signaling of multiview video plus depth content with a block-level 4-component structure
KR101909331B1 (ko) 비디오 코딩에서의 타겟 출력 레이어
KR20150010739A (ko) 비대칭 텍스처 및 심도 분해능들에 기초한 뷰 합성
JP6199320B2 (ja) 3次元ビデオコーディングのためのネットワーク抽象化レイヤ(nal)ユニットヘッダ設計
KR20150103117A (ko) 멀티-레이어 비디오 코딩을 위한 다중-해상도 디코딩된 픽처 버퍼 관리
TW201429263A (zh) 基於高效率視訊寫碼之視訊資訊之可縮放寫碼之裝置及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20160202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160913

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20170131