JP2013509104A - 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法 - Google Patents

2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法 Download PDF

Info

Publication number
JP2013509104A
JP2013509104A JP2012535427A JP2012535427A JP2013509104A JP 2013509104 A JP2013509104 A JP 2013509104A JP 2012535427 A JP2012535427 A JP 2012535427A JP 2012535427 A JP2012535427 A JP 2012535427A JP 2013509104 A JP2013509104 A JP 2013509104A
Authority
JP
Japan
Prior art keywords
video
video unit
value
depth map
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012535427A
Other languages
English (en)
Other versions
JP5575908B2 (ja
Inventor
ジャン、ロン
チェン、イン
カークゼウィックズ、マルタ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013509104A publication Critical patent/JP2013509104A/ja
Application granted granted Critical
Publication of JP5575908B2 publication Critical patent/JP5575908B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/207Image signal generators using stereoscopic image cameras using a single 2D image sensor
    • H04N13/221Image signal generators using stereoscopic image cameras using a single 2D image sensor using the relative movement between cameras and objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/257Colour aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/261Image signal generators with monoscopic-to-stereoscopic image conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Abstract

本開示では、ビデオ・フレームまたはビデオ・フレームのスライスなど、ビデオ・ユニットの深度マップを生成するための技法について説明する。本技法は、2次元(2D)ビデオを3次元(3D)ビデオに変換するためにビデオ・エンコーダによって実行され得る。本技法は、代替的に、受信した2Dビデオを3Dビデオに変換するためにビデオ・デコーダによって実行され得る。本技法は、深度マップ生成プロセスにおいて動きと色の考慮の組合せを使用し得る。

Description

本出願は、その内容全体が参照により本明細書に組み込まれる、2009年10月23日に出願された米国仮出願第61/254,558号の利益を主張する。
本開示は、ビデオ・コーディングと、2次元(2D)ビデオデータの3次元(3D)ビデオデータへの変換とに関する。
デジタル・マルチメディア機能は、デジタル・テレビジョン、デジタル・ダイレクトブロード・キャストシステム、ワイヤレス通信デバイス、ワイヤレス・ブロードキャストシステム、携帯情報端末(PDA)、ラップトップまたはデスクトップ・コンピュータ、デジタルカメラ、デジタル記録デバイス、ビデオゲーム機、ビデオゲーム・コンソール、セルラー電話または衛星無線電話、デジタル・メディアプレーヤなどを含む、広範囲にわたるデバイスに組み込まれ得る。デジタル・マルチメディアデバイスは、デジタル・ビデオデータをより効率的に送信および受信または記憶および検索するために、MPEG−2、ITU−H.263、MPEG−4、またはITU−H.264/MPEG−4 Part 10、Advanced Video Coding(AVC)などのビデオ・コーディング技法を実装し得る。ビデオ符号化技法は、ビデオ・シーケンスに固有の冗長性を低減または除去するために、空間的および時間的予測を介してビデオ圧縮を実行し得る。
たいていの従来のビデオ・シーケンスは2次元(2D)閲覧フォーマットで符号化および復号される。しかしながら、3次元(3D)シーケンスも可能であり、その場合、ビデオ・シーケンスは、各ビデオ・フレームに関連する2つ以上のビューを有する。この場合、その2つ以上のビューは、3Dビデオをレンダリングするために3Dディスプレイ上で組み合わされ得る。
場合によっては、2つ以上のビューが、異なるカメラによってキャプチャされ、複数のビューを含む3Dシーケンスに符号化され得る。代替的に、ビデオ・フレームの1つまたは複数の2次ビューが元の2Dビデオ・フレームに基づいて合成され得る。2D3D変換を可能にするために、深度マップを使用してビデオ・フレームのピクセルに深度値を割り当て得る。ビデオ・フレームの2次ビューまたは複数の追加のビューを生成するために、ビュー合成プロセスにおいて、所与のビデオ・フレームの深度マップがそのビデオ・フレームに適用され得る。
本開示では、ビデオ・フレーム、ビデオ・フレームのスライス、またはビデオ・フレームの他の部分など、ビデオ・ユニットの深度マップを生成するための技法について説明する。本技法は、2次元(2D)ビデオを3次元(3D)ビデオに変換するためにビデオ・エンコーダによって実行され得る。本技法は、代替的に、受信した2Dビデオを3Dビデオに変換するためにビデオ・デコーダによって実行され得る。
本開示の技法は深度マップ初期化プロセスを含み得る。深度マップ初期化では、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当て得る。次いで、しきい値を満たす初期深度値を調整し得、調整された深度値は、ピクセルに関連する色に基づく。次いで、ビデオ・ユニットの初期化された深度マップを生成し得、初期化された深度マップは、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える。ある場合には、初期化された深度マップは、さらなる処理なしに最終深度マップとして使用され得、他の場合には、最終深度マップを定義するために、初期化された深度マップに関して追加の技法が適用され得る。
たとえば、本技法は、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断し得る。ビデオ・ユニットがシーン変化に対応する場合、本技法は、初期化された深度マップをビデオ・ユニットの最終深度マップとして選択し得る。しかしながら、ビデオ・ユニットがシーン変化に対応しない場合、本技法は、ビデオ・ユニットが前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断し得る。ビデオ・ユニットが低動きレベルを表さない場合、本技法は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、最終深度マップを定義し得る。ビデオ・ユニットが低動きレベルを表す場合、本技法は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との最大値に基づいて、最終深度マップを定義し得る。
一例では、本開示は、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当てることと、初期深度値がしきい値を満たすかどうかを識別することと、初期深度値がしきい値を満たすビデオ・ユニットのピクセルのうちの1つまたは複数に、調整された深度値を割り当てることであって、調整された深度値が、ピクセルに関連する色に基づく、割り当てることと、ビデオ・ユニットの深度マップを生成することであって、深度マップが、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える、生成することとを備える方法について説明する。
別の例では、ビデオコーダ装置は、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当てることと、初期深度値がしきい値を満たすかどうかを識別することと、初期深度値がしきい値を満たすビデオ・ユニットのピクセルのうちの1つまたは複数に、調整された深度値を割り当てることであって、調整された深度値が、ピクセルに関連する色に基づく、割り当てることと、ビデオ・ユニットの深度マップを生成することであって、深度マップが、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える、生成することとを行う深度マップ生成ユニットを備え得る。
別の例では、デバイスは、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当てるための手段と、初期深度値がしきい値を満たすかどうかを識別するための手段と、初期深度値がしきい値を満たすビデオ・ユニットのピクセルのうちの1つまたは複数に、調整された深度値を割り当てるための手段であって、調整された深度値が、ピクセルに関連する色に基づく、割り当てるための手段と、ビデオ・ユニットの深度マップを生成するための手段であって、深度マップが、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える、生成するための手段とを備え得る。
本開示で説明する技法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装する場合、ソフトウェアは、マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)、またはデジタル信号プロセッサ(DSP)など、1つまたは複数のプロセッサで実行され得る。本技法を実行するソフトウェアは、初めにコンピュータ可読媒体に記憶され、プロセッサにロードされ、実行され得る。
したがって、本開示はまた、プロセッサによる実行時に、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当てることと、初期深度値がしきい値を満たすかどうかを識別することと、初期深度値がしきい値を満たすビデオ・ユニットのピクセルのうちの1つまたは複数に、調整された深度値を割り当てることであって、調整された深度値が、ピクセルに関連する色に基づく、割り当てることと、ビデオ・ユニットの深度マップを生成することであって、深度マップが、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える、生成することとをプロセッサに行わせる命令を備えるコンピュータ可読記憶媒体を企図する。
本開示に一致する深度マップ初期化の後に、最終深度マップを定義するために追加の技法を適用し得る。そのような例では、最初に生成された深度マップは、初期化された深度マップと呼ばれることがある。この場合、方法は、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断することと、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応する場合、初期化された深度マップをビデオ・ユニットの最終深度マップとして選択することと、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応しない場合、ビデオ・ユニットが前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断することと、ビデオ・ユニットが低動きレベルを表さない場合、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、最終深度マップを定義することと、ビデオ・ユニットが低動きレベルを表す場合、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との最大値に基づいて、最終深度マップを定義することとをさらに備え得る。
本開示の1つまたは複数の態様の詳細は、添付の図面および下記の説明に記載されている。本開示で説明する技法の他の特徴、目的、および利点は、これらの説明および図面、ならびに特許請求の範囲から明らかになろう。
本開示の技法を実装し得る1つの例示的なビデオ符号化および復号システムを示すブロック図。 ビデオ符号化プロセスの一部として本開示の技法を実行し得る例示的なビデオ・エンコーダを示すブロック図。 ビデオ復号プロセスの一部として本開示の技法を実行し得る例示的なビデオ・デコーダを示すブロック図。 深度推定およびビュー合成のプロセスを示す流れ図。 深度マップを初期化するプロセスを示す流れ図。 確定された深度マップを生成するプロセスを示す流れ図。 深度マップ初期化と、確定された深度マップの生成とを示す流れ図。
本開示では、ビデオ・フレームまたはビデオ・フレームのスライスなど、ビデオ・ユニットの深度マップを生成するための技法について説明する。本技法は、2次元(2D)ビデオを3次元(3D)ビデオに変換するためにビデオ・エンコーダによって実行され得る。本技法は、代替的に、受信した2Dビデオを3Dビデオに変換するためにビデオ・デコーダによって実行され得る。「コーディング」という用語は、本明細書では、ビデオ符号化またはビデオ復号を指すように定義される。同様に、「ビデオコーダ」という句は、ビデオ・エンコーダまたはビデオ・デコーダを指す。概して、深度マップ初期化および生成は、本開示に一致する、エンコーダまたはデコーダによって実行され得る。
本開示の技法は深度マップ初期化プロセスを含み得る。深度マップ初期化では、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当て得る。次いで、しきい値を満たす初期深度値を調整し得、調整された深度値は、ピクセルに関連する色に基づく。次いで、ビデオ・ユニットの(初期化された深度マップと呼ばれることがある)深度マップを生成し得、深度マップは、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える。
次いで、(初期化された深度マップと呼ばれることがある)初期化中に生成された深度マップに基づいて最終深度マップを定義するために追加の技法を適用し得る。たとえば、本技法は、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断し得る。ビデオ・ユニットがシーン変化に対応する場合、本技法は、初期化された深度マップをビデオ・ユニットの最終深度マップとして選択し得る。しかしながら、ビデオ・ユニットがシーン変化に対応しない場合、本技法は、ビデオ・ユニットが前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断し得る。ビデオ・ユニットが低動きレベルを表さない場合、本技法は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、最終深度マップを定義し得る。ビデオ・ユニットが低動きレベルを表す場合、本技法は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との最大値に基づいて、最終深度マップを定義し得る。
図1は、本開示の技法を実装し得る例示的なビデオ符号化および復号システム10を示すブロック図である。図1に示すように、システム10は、通信チャネル15を介して符号化ビデオを宛先デバイス16に送信するソース・デバイス12を含む。ソース・デバイス12および宛先デバイス16は、モバイル・デバイスまたは概して固定されたデバイスを含む、広範囲のデバイスのいずれかを備え得る。場合によっては、ソース・デバイス12および宛先デバイス16は、いわゆるセルラー電話または衛星無線電話のワイヤレスハンドセット、携帯情報端末(PDA)、モバイル・メディアプレーヤなどのワイヤレス通信デバイス、あるいはワイヤレスであってもなくてもよい通信チャネル15を介してビデオ情報を通信することができる任意のデバイスを備える。しかしながら、2D3Dビデオ変換のための深度マップの生成および適用に関係する、本開示の技法は、ワイヤレス、ワイヤードまたはハイブリッドシステムを含む多くの異なるシステムおよび設定において使用され得る。図1はそのようなシステムの一例にすぎない。
図1の例では、ソース・デバイス12は、ビデオ・ソース20と、ビデオ・エンコーダ22と、変調器/復調器(モデム)23と、送信機24とを含み得る。宛先デバイス16は、受信機26と、モデム27と、ビデオ・デコーダ28と、ディスプレイ・デバイス30とを含み得る。本開示によれば、ソース・デバイス12のビデオ・エンコーダ22または受信デバイスのビデオ・デコーダ28は、2D3Dビデオ変換のための深度マップを生成するように構成され得る。
ソース・デバイス12は、ビデオ情報を符号化し、宛先デバイス16に送信し得る。宛先デバイス16は、ソース・デバイス12から受信されたワイヤレス信号を受信し、復調し得る。ソース・デバイス12および宛先デバイス16はコーディング・デバイスの例である。たとえば、ソース・デバイス12は、宛先デバイス16への送信のためのコード化ビデオデータを生成するコーディング・デバイスを含み得る。場合によっては、デバイス12、16は、デバイス12、16の各々がビデオ符号化構成要素および復号構成要素を含むように、実質的に対称的に動作し得る。したがって、システム10は、たとえば、ビデオ・ストリーミング、ビデオ再生、ビデオ・ブロードキャスト、またはビデオ・テレフォニーのために、ビデオ・デバイス12とビデオ・デバイス16との間の一方向または双方向のビデオ送信をサポートし得る。
ソース・デバイス12のビデオ・ソース20は、ビデオカメラ、前にキャプチャされたビデオを含んでいるビデオアーカイブ、またはビデオ・コンテンツ・プロバイダからのビデオ・フィードなど、ビデオ・キャプチャ・デバイスを含み得る。さらなる代替として、ビデオ・ソース20は、ソースビデオとしてのコンピュータ・グラフィックス・ベースのデータ、またはライブ・ビデオとアーカイブ・ビデオとコンピュータ生成ビデオとの組合せを生成し得る。場合によっては、ビデオ・ソース20がビデオカメラである場合、ソース・デバイス12および宛先デバイス16は、いわゆるカメラ付き携帯電話またはビデオ電話を形成し得る。各場合において、キャプチャされたビデオ、プリキャプチャされたビデオまたはコンピュータ生成ビデオは、ビデオ・エンコーダ22によって符号化され得る。次いで、符号化されたビデオ情報は、たとえば、符号分割多元接続(CDMA)、global system for mobile communications(GSM)(登録商標)、周波数分割多元接続(FDMA)、時分割多元接続(TDMA)、「wifi」、Bluetooth(登録商標)、任意の広帯域通信、あるいは任意の他の通信技法、規格またはそれらの組合せなどの通信規格に従ってモデム23によって変調され得る。次いで、変調された情報は、送信機24を介して宛先デバイス16に送信され得る。モデム23は、信号変調のために設計された様々なミキサ、フィルタ、増幅器または他の構成要素を含み得る。送信機24は、増幅器、フィルタ、および1つまたは複数のアンテナを含む、データを送信するために設計された回路を含み得る。
宛先デバイス16の受信機26はチャネル15を介して情報を受信し、モデム27はその情報を復調する。異なる例では、ソース・デバイス12のビデオ符号化プロセスまたは宛先デバイス16のビデオ復号プロセスは、深度マップを生成するために本明細書で説明する技法のうちの1つまたは複数を実装し得る。ある場合には、チャネル15を介して通信される情報は、ソース・デバイス12によって生成された深度マップを含み得、他の場合には、深度マップは、ソース・デバイス12から通信された2Dビデオ・フレームに基づいて宛先デバイス16において生成され得る。ディスプレイ・デバイス30は、復号されたビデオデータをユーザに対して表示し、陰極線管、液晶ディスプレイ(LCD)、プラズマ・ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、または別のタイプのディスプレイ・デバイスなど、様々なディスプレイ・デバイスのいずれかを備え得る。ディスプレイ・デバイス30はマルチビュー・レンダリングのための3D機能を有し得る。
図1の例では、通信チャネル15は、無線周波(RF)スペクトルあるいは1つまたは複数の物理伝送線路など、任意のワイヤレスまたはワイヤード通信媒体、あるいはワイヤレスおよびワイヤード媒体の任意の組合せを備え得る。したがって、モデム23および送信機24は、多数の可能なワイヤレス・プロトコル、ワイヤード・プロトコル、またはワイヤードおよびワイヤレス・プロトコルをサポートし得る。通信チャネル15は、ローカルエリア・ネットワーク(LAN)、ワイドエリア・ネットワーク(WAN)、あるいは、1つまたは複数のネットワークの相互接続を備えるインターネットなどのグローバルネットワークなど、パケットベースのネットワークの一部を形成し得る。通信チャネル15は、概して、ビデオデータをソース・デバイス12から宛先デバイス16に送信するのに好適な任意の通信媒体、または様々な通信媒体の集合体を表す。通信チャネル15は、ソース・デバイス12から宛先デバイス16への通信を可能にするのに有用であり得るルータ、スイッチ、基地局、または任意の他の機器を含み得る。本開示の技法は、1つのデバイスから別のデバイスへの符号化されたデータの通信を必ずしも必要とせず、相互復号(reciprocal decoding)なしの符号化シナリオに適用し得る。また、本開示の態様は、相互符号化(reciprocal encoding)なしの復号シナリオに適用し得る。
ビデオ・エンコーダ22およびビデオ・デコーダ28は、代替的にMPEG−4、Part10、Advanced Video Coding(AVC)とも記載されるITU−T H.264規格など、ビデオ圧縮規格に実質的に従って動作し得る。ただし、本開示の技法は、いかなる特定のコーディング規格またはそれの拡張にも限定されない。図1には示されていないが、いくつかの態様では、ビデオ・エンコーダ22およびビデオ・デコーダ28は、それぞれオーディオ・エンコーダおよびデコーダと統合され得、適切なMUX−DEMUXユニット、または他のハードウェアおよびソフトウェアを含んで、共通のデータストリームまたは別個のデータストリーム中のオーディオとビデオの両方の符号化を処理し得る。適用可能な場合、MUX−DEMUXユニットはITU H.223マルチプレクサ・プロトコル、またはユーザ・データグラム・プロトコル(UDP)などの他のプロトコルに準拠し得る。
ITU−T H.264/MPEG−4(AVC)規格は、Joint Video Team(JVT)として知られる共同パートナーシップの成果として、ISO/IEC Moving Picture Experts Group(MPEG)とともにITU−T Video Coding Experts Group(VCEG)によって策定された。H.264規格は、ITU−T Study Groupによる2005年3月付けのITU−T勧告H.264「Advanced Video Coding for generic audiovisual services」に記載されており、本明細書ではH.264規格またはH.264仕様、あるいはH.264/AVC規格または仕様と呼ぶことがある。Joint Video Team(JVT)はH.264/MPEG−4 AVCへの拡張に取り組み続けている。
H.264/MPEG−4 AVC規格を進化させる取り組みは、Key Technologies Area(KTA)フォーラムなど、ITU−Tの様々なフォーラムにおいて行われる。KTAフォーラムは、部分的には、H.264/AVC規格が示すコーディング効率よりも高いコーディング効率を示すコーディング技術を発展させることを追求する。本開示で説明する技法は、特に3Dビデオおよび2D3Dビデオ変換のためのH.264/AVC規格に対するコーディング改善のために役立ち得る。
ビデオ・エンコーダ22およびビデオ・デコーダ28はそれぞれ、1つまたは複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールド・プログラマブル・ゲートアレイ(FPGA)、ディスクリート論理回路、マイクロプロセッサまたは他のプラットフォーム上で実行されるソフトウェア、ハードウェア、ファームウェア、あるいはそれらの任意の組合せとして実装され得る。ビデオ・エンコーダ22およびビデオ・デコーダ28の各々は1つまたは複数のエンコーダまたはデコーダ中に含まれ得、そのいずれも複合エンコーダ/デコーダ(コーデック)の一部としてそれぞれのモバイル・デバイス、加入者デバイス、ブロードキャスト・デバイス、サーバなどに統合され得る。
ビデオ・シーケンスは、一般に一連のビデオ・フレームを含む。ビデオ・エンコーダ22およびビデオ・デコーダ28は、ビデオデータを符号化および復号するために、個々のビデオ・フレーム内のビデオブロックに作用し得る。ビデオブロックは、固定サイズまたは可変サイズを有し得、指定のコーディング規格に応じてサイズが異なり得る。各ビデオ・フレームは、一連のスライスまたは他の単独で復号可能なユニットを含み得る。各スライスは一連のマクロブロックを含み得、それらのマクロブロックはサブブロックに構成され得る。一例として、ITU−T H.264規格は、ルーマ成分については16×16、8×8、または4×4、およびクロマ成分については8×8など、様々なブロックサイズのイントラ予測をサポートし、ならびにルーマ成分については16×16、16×8、8×16、8×8、8×4、4×8および4×4、およびクロマ成分については対応するスケーリングされたサイズなど、様々なブロックサイズのインター予測をサポートする。ビデオブロックは、残差ピクセルデータのブロック、または、たとえば、離散コサイン変換もしくは概念的に同様の変換プロセスなどの変換プロセスの後の変換係数のブロックを備え得る。
より小さいビデオブロックは、より良好な解像度を与えることができ、高い詳細レベルを含むビデオ・フレームのロケーションのために使用され得る。概して、マクロブロックおよび様々なサブブロックまたはパーティションはすべてビデオブロックであると考えられ得る。さらに、スライスは、マクロブロックおよび/またはサブブロックまたはパーティションなど、一連のビデオブロックであると考えられ得る。概して、マクロブロックは、16×16のピクセルエリアを定義するクロミナンス値と輝度値とのセットを指し得る。輝度ブロックは、16×16の値セットを備え得るが、8×8ブロック、4×4ブロック、8×4ブロック、4×8ブロックまたは他のサイズなど、より小さいビデオブロックにさらに区分され得る。2つの異なるクロミナンスブロックは、マクロブロックの色を定義し得、それぞれ16×16のピクセルエリアに関連するカラー値の8×8サブサンプルブロックを備え得る。マクロブロックは、マクロブロックに適用されるコーディングモードおよび/またはコーディング技法を定義するためのシンタックス情報を含み得る。
マクロブロックまたは他のビデオブロックは、スライス、フレームまたは他の独立したユニットなど、復号可能なユニットにグループ化され得る。各スライスはビデオ・フレームの単独で復号可能なユニットであり得る。代替的に、フレーム自体が復号可能なユニットであり得るか、またはフレームの他の部分が復号可能なユニットとして定義され得る。本開示では、「コード化ユニット」という用語は、使用されるコーディング技法に従って定義される、フレーム全体、フレームのスライス、ピクチャグループ(GOP:group of pictures)、または別の単独で復号可能なユニットなど、ビデオ・フレームの任意の単独で復号可能なユニットを指す。
イントラベースまたはインターベース予測符号化の後、および(H.264/AVCにおいて使用される4×4または8×8整数変換、あるいは離散コサイン変換またはDCTなどの)任意の変換の後、量子化が実行され得る。量子化は、概して、係数を表すために使用されるデータ量をできるだけ低減するように係数を量子化するプロセスを指す。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。たとえば、16ビット値は、量子化中に15ビット値に切り捨てられ得る。量子化の後、たとえば、コンテンツ適応型可変長コーディング(CAVLC)、コンテキスト適応型バイナリ算術コーディング(CABAC)、または別のエントロピー・コーディング方法に従って、エントロピー・コーディングが実行され得る。
3Dビデオは、最初に符号化された各フレームに関連する1つまたは複数の追加のビデオ・フレーム(たとえば、追加のビュー)を必要とし得る。ビデオ・フレームの立体3D抽出を定義するために、たとえば、2つの異なるビューが使用され得る。2つのビュー、3つのビュー、または4つ以上のビューを備え得る複数のビューはまた、マルチビュー3D抽出をサポートし得る。3Dビデオの異なるビューは、2つ以上のビューに関連するビデオ・フレームまたはスライスがビデオ・シーケンスの同じ時間インスタンスに対応するように、同様のタイミングまたは同期を有し得る。このようにして、2つ以上のビューは、概して、3Dビデオを与えるためにまとめてレンダリングされ得る3Dシーケンスを共に形成する2つ以上の2Dシーケンスを定義し得る。
初期2Dビデオ・シーケンスに基づいて3Dビデオレンダリングをサポートするために、本開示は深度マップの生成について説明する。深度マップは、ビデオ・ユニット、たとえば、フレームまたはスライスの異なるピクセルの深度値を含み得る。深度マップはエンコーダにおいて生成され得、その場合、深度マップは、ビット・ストリームの一部としてデコーダに通信され得、あるいはビット・ストリーム中で通信され得る1つまたは複数の追加のビューを生成するためにエンコーダにおけるビュー合成プロセスにおいて適用され得る。代替的に、深度マップはデコーダにおいて生成され得、その場合、エンコーダ・デバイスは単に2Dビット・ストリームをデコーダ・デバイスに送り、デコーダ・デバイスが深度マップを生成し得る。本開示で説明する深度マップ初期化および最終深度マップ生成技法は、完全にエンコーダにおいて実行されるか、完全にデコーダにおいて実行されるか、または部分的にエンコーダにおいて実行され、部分的にデコーダにおいて実行され得る。生成されると、深度マップは、2Dシーケンスが3Dでレンダリングされ得るように2Dシーケンスの1つまたは複数の2次ビューを生成するために、ビュー合成プロセスにおいて使用され得る。
図2は、ビデオ符号化プロセスの一部として本開示に一致する技法を実行し得るビデオ・エンコーダ50の一例を示すブロック図である。図2の例では、深度マップは、ビデオ・ビット・ストリームの一部として生成され、通信され得る。ただし、上述のように、本開示はエンコーダにおける深度マップの生成および適用をも企図し、その場合、深度マップまたは生成された3Dシーケンスはビデオ・エンコーダ50から別のデバイスに通信され得る。
ビデオ・エンコーダ50は、ソース・デバイス12のビデオ・エンコーダ22、または異なるデバイスのビデオ・エンコーダに対応し得る。ビデオ・エンコーダ50は、ビデオ・フレーム内のブロックのイントラ・コーディングおよびインター・コーディングを実行し得る。イントラ・コーディングは、所与のビデオ・フレーム内のビデオの空間的冗長性を低減または除去するために空間的予測に依拠する。インター・コーディングは、ビデオ・シーケンスの隣接フレーム内のビデオの時間的冗長性を低減または除去するために時間的予測に依拠する。イントラモード(Iモード)は空間ベースの圧縮モードを指し、予測(Pモード)または双方向(Bモード)などのインターモードは、時間ベースの圧縮モードを指し得る。
図2に示すように、ビデオ・エンコーダ50は、符号化すべきビデオ・フレームまたはスライス内の現在のビデオブロックを受信する。図2の例では、ビデオ・エンコーダ50は、予測ユニット35と、メモリ34と、加算器48と、変換ユニット38と、量子化ユニット40と、エントロピー・コーディング・ユニット46とを含む。ビデオブロック再構成のために、ビデオ・エンコーダ50はまた、逆量子化ユニット42と、逆変換ユニット44と、加算器51とを含む。その上、本開示によれば、ビデオ・エンコーダ50は、本明細書で説明するように深度マップを生成する深度マップ生成ユニット36を含み得る。ビデオ・エンコーダ50はまた、再構成されたビデオからブロッキネス・アーティファクトを除去するためにブロック境界をフィルタ処理するデブロッキング・フィルタ(図示せず)など、他の構成要素を含み得る。所望される場合、デブロッキング・フィルタは、一般に、加算器51の出力をフィルタ処理するであろう。
符号化プロセス中に、ビデオ・エンコーダ50は、コーディングすべきビデオブロックを受信し、予測ユニット35はイントラまたはインター予測コーディングを実行する。たとえば、エンコーダ50の予測ユニット35は、コード化ユニット(たとえば、フレームまたはスライス)の各ビデオブロックまたはビデオブロック・パーティションについて動き推定および動き補償を実行し得る。予測ユニット35は、特定ブロックを符号化することに関連するそれぞれ適用可能なモードのレートひずみコスト(rdcost:rate-distortion cost)を計算し、最も低いコストを生じるコーディングモードを選択し得る。rdcostは、元のビデオデータに対するコード化データ中の使用ビット数およびひずみレベルに関してコストを定量化し得る。
レートひずみ(RD:rate-distortion)分析は、ビデオ・コーディングにおいてかなり一般的であり、概して、コーディングコストを示すコストメトリックの計算に関与する。コストメトリックは、コーディングに必要なビット数(レート)と、コーディングに関連する品質レベル(ひずみ)とのバランスをとり得る。典型的なレートひずみコスト計算は、概して、以下の形式に対応し得る。
Figure 2013509104
ただし、J(λ)はコストであり、Rはビットレートであり、Dはひずみであり、λはラグランジュ乗数である。予測ユニット35は、ビデオブロック符号化を実行するために使用され得る様々なイントラ・コーディング・モードおよびインター・コーディング・モード(ならびに適用可能なパーティションサイズ)を比較するために、このタイプのコスト関数を適用し得る。
所望の予測データが予測ユニット35によって識別されると、ビデオ・エンコーダ50は、残差ブロックを生成するために、コーディングされている元のビデオブロックから予測データを減算することによって残差ビデオブロックを形成する。加算器48は、これらの減算演算を実行する1つまたは複数の構成要素を表す。変換ユニット38は、離散コサイン変換(DCT)または概念的に同様の変換などの変換をブロック中の残差値に適用し、残差変換ブロック係数を備えるビデオブロックを生成する。変換ユニット38は、概念的にDCTと同様である、H.264規格によって定義された変換などの変換を実行し得る。ウェーブレット変換、整数変換、サブバンド変換または他のタイプの変換も使用され得る。いずれの場合も、変換ユニット38は、変換を残差ブロックに適用し、残差変換係数のブロックを生成する。変換は、残差情報をピクセル領域から周波数領域に変換し得る。
量子化ユニット40は、ビットレートをさらに低減するために残差変換係数を量子化する。量子化プロセスは、係数の一部または全部に関連するビット深度を低減し得る。たとえば、mビット値は、量子化中にm−nビット値に切り捨てられ得、ただし、mおよびmは0でなく、mはnよりも大きい。さらに、量子化ユニット40は、オフセットが使用される場合について異なるオフセットを量子化し得る。
量子化の後、エントロピー・コーディング・ユニット46が量子化変換係数をエントロピー・コーディングする。たとえば、エントロピー・コーディング・ユニット46は、コンテンツ適応型可変長コーディング(CAVLC)、コンテキスト適応型バイナリ算術コーディング(CABAC)、または別のエントロピー・コーディング方法を実行し得る。エントロピー・コーディング・ユニット46によるエントロピー・コーディングの後、符号化されたビデオは、別のデバイスに送信されるか、あるいは後で送信または検索するためにアーカイブされ得る。コード化ビット・ストリームは、エントロピー・コード化残差ブロックと、そのようなブロックの動きベクトルと、2D3Dビデオ変換をサポートするための本明細書で説明する深度マップなどの他のシンタックスとを含み得る。
逆量子化ユニット42および逆変換ユニット44は、それぞれ逆量子化および逆変換を適用して、たとえば、上述の方法で参照データとして後で使用するために、ピクセル領域中で残差ブロックを再構成する。加算器51は、再構成された残差ブロックを、動き補償ユニット35によって生成された1次および/または2次予測ブロックに加算して、メモリ34に記憶するための再構成されたビデオブロックを生成する。再構成されたビデオブロックおよび残差データは、後続のビデオ・フレームまたは他のコード化ユニット中のブロックをインター符号化するために参照ブロックとして動き補償ユニット35によって使用され得る。
3Dビデオをサポートするために、ビデオ・エンコーダ50は、メモリ34に記憶された再構成された2Dビデオ・シーケンスに対して作用する深度マップ生成ユニット36をさらに含み得る。深度マップ生成ユニット36は、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当て得る。次いで、深度マップ生成ユニット36は、初期深度値がしきい値を満たすかどうか、たとえば、初期深度値のいずれかが、定義されたしきい値よりも大きいかどうか、または代替的に、定義されたしきい値よりも小さいかどうかを識別し得る。深度マップ生成ユニット36は、初期深度値がしきい値を満たすビデオ・ユニットのピクセルのうちの1つまたは複数に、調整された深度値を割り当て得、調整された深度値は、ピクセルに関連する色に基づく。次いで、深度マップ生成ユニット36は、ビデオ・ユニットの初期化された深度マップを生成し得、初期化された深度マップは、しきい値を満たさないピクセルの第1のサブセットの初期深度値と、しきい値を満たすピクセルの第2のサブセットの調整された深度値とを備える。この場合も、代替例では、しきい値の満足は、しきい値よりも大きいか、または他の例ではしきい値よりも小さい深度値に関して考察され得る。
深度マップ生成ユニット36は、前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対するビデオ・ユニットのピクセルのルーマ値に基づいて初期深度値を割り当てることによって、動きに基づいて初期深度値を割り当て得る。深度マップ生成ユニット36は、ビデオ・ユニットのピクセルのクロマ値に少なくとも部分的に基づいて調整された深度値を割り当てることによって、色に基づいて調整された深度値を割り当て得る。たとえば、以下でより詳細に説明するように、動きに基づいて初期深度値を割り当てることは、以下の式に従って初期深度値を割り当てることを備え得る。
Figure 2013509104
ただし、mn,iは初期深度値を表し、Ln,iはビデオ・ユニットn中のピクセルiのルーマ値を表し、Ln-1,iは前のビデオ・ユニットn−1中のピクセルiの対応するルーマ値を表す。色に基づいて調整された深度値を割り当てることは、以下の式に従って調整された深度値を割り当てることを備え得る。
Figure 2013509104
ただし、
Figure 2013509104
は調整された深度値を表し、
Figure 2013509104
はクロマ値に関する関数gを表し、Tmはしきい値であり、Cn,iはビデオ・ユニットn中の所与のピクセルのクロマ値を表し、Cmaxは許容最大クロマ値を表し、Cminは許容最小クロマ値を表す。
深度マップ生成ユニット36はまた、初期化された深度マップに少なくとも部分的に基づいて最終深度マップを生成するために追加の技法を実行し得る。たとえば、深度マップ生成ユニット36は、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断し、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応する場合、初期化された深度マップをビデオ・ユニットの最終深度マップとして選択し得る。ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応しない場合、深度マップ生成ユニット36は、ビデオ・ユニットが前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断し得る。この場合、動きは、現在のビデオ・ユニットと前のビデオ・ユニットとの間のルーマ差の大きさによって定量化され得る。ビデオ・ユニットが低動きレベルを表さない場合、深度マップ生成ユニット36は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、最終深度マップを定義し得る。ビデオ・ユニットが低動きレベルを表す場合、深度マップ生成ユニット36は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の深度マップの深度値との最大値に基づいて、最終深度マップを定義し得る。
最終深度マップが生成されると、深度マップは、元のビューと最終深度マップとに基づいて1つまたは複数の2次ビューを生成するために、ビデオ・エンコーダ50から他のデバイスに通信され得、その他のデバイスにおけるビュー合成において適用される。代替的に、ビデオ・エンコーダ50は、ビデオ・ユニットの2次ビューを生成するために最終深度マップに基づいてビュー合成を実行し得、その場合、ビデオ・エンコーダ50から他のデバイスに(深度マップではなく)2次ビューがビデオ・ユニットの一部として通信され得る。
図3は、本開示の技法を実行するように構成され得る例示的なビデオ・デコーダ70を示すブロック図である。この場合、ビデオ・デコーダ70は、2Dビデオ・シーケンスを受信し、その2Dシーケンスのビデオ・フレームの深度マップを生成し得る。次いで、深度マップは、2Dシーケンスが3Dシーケンスに変換され得るようにビデオ・フレームの2次ビューを合成するためにビデオ・デコーダ70によって使用され得る。
ビデオ・デコーダ70は、エントロピー復号ユニット72と、予測ユニット75と、逆量子化ユニット76と、逆変換ユニット78と、メモリ74と、加算器79とを含み得る。予測ユニット75は、動き補償ユニット、ならびに空間的予測構成要素を含み得る。
ビデオ・デコーダ70は、符号化された2Dビデオ・シーケンスを含む符号化されたビデオ・ビット・ストリームを受信し得る。エントロピー復号ユニット72は、2Dシーケンスの残差ビデオブロックの量子化係数を生成するためにビット・ストリームのエントロピー復号を実行する。エントロピー・コーディング・ユニット72は、ビット・ストリームからのシンタックス要素をパースし、そのようなシンタックス要素をビデオ・デコーダ70の様々なユニットに転送し得る。たとえば、動き情報(たとえば、動きベクトル)および他のシンタックス情報が予測ユニット75に転送され得る。
逆量子化ユニット76はエントロピー復号ユニット72からのデータを逆量子化し、逆変換ユニットは、ピクセル領域における残差ブロックを生成するための逆変換を実行する。次いで、加算器79は、残差ブロックを、予測ユニット75によって生成された予測ブロックと合成して元のビデオブロックの再構成を生成し、その元のビデオブロックの再構成は、復号2Dビデオデータとしてメモリ74に記憶されおよび/またはディスプレイに出力され得る。多くのビデオブロックは、ビデオ・フレームを再構成し、最終的にビデオ・フレームの2Dシーケンス全体をメモリ74中に再構成するためにこのようにして復号され得る。このようにして、ビデオ・デコーダ70は、前に説明したビデオ・エンコーダ50によって実行される符号化に対する相互復号を実行する。
本開示によれば、ビデオ・デコーダ70はさらに、深度マップ生成ユニット77と2D3D変換ユニット79とを含み得る。深度マップ生成ユニット77は、本開示に一致する深度マップ初期化および深度マップ生成技法を実行し得る。深度マップが生成されると、2D3D変換ユニット79は、ビデオ・フレームのための1つまたは複数の2次ビューを生成するために、ビュー合成プロセスにおいて深度マップを適用し得る。
概して、立体ディスプレイ技術の発展とともに、立体または3Dビデオはエンターテインメント産業において人気のトレンドになった。従来の2Dディスプレイと比較したイマーシブ3Dエクスペリエンスにより、映画、テレビジョン、およびゲームのための3Dコンテンツの要求が急速に増加し続ける。
コンピュータグラフィックスでは、3Dレンダリングは、3Dモデルを、3Dフォトリアリスティック効果をもつ2D画像に自動的に変換するプロセスであり得る。コンピュータ・グラフィックスにおける、イマーシブネスと呼ばれることがあるフォトリアリスティック効果は、一般に、互いに対して異なる立体ビューのビューアングルまたは位置を変化させることによって得られる。3Dビデオアプリケーションでは、このシナリオは自由視点ビデオと呼ばれることがある。
ビデオ処理において、3Dレンダリングはまた、閲覧者が3D閲覧眼鏡を用いるまたは用いない立体または裸眼立体閲覧エクスペリエンスを有することを可能にし得る、イマーシブレンダリングの適用を含み得る。この場合、ディスプレイは2つ以上のビューを同時にレンダリングする能力を有し得る。たいていの現在の3Dディスプレイ技法は、両眼視、すなわち、左眼と右眼とによって知覚されるわずかに異なるビューを活用し、それによって人間の脳による深度の精神印象を生じることができる。たとえば、いくつかの3Dシステムは、立体または裸眼立体ディスプレイにおいて2つ以上のビューを可能にする。
様々な3Dディスプレイシステムは3Dビデオを表示し得るが、3Dレンダリングのために必要とされる余分のデータにより、ビデオ通信の帯域幅の増加を必要とすることがしばしばある。さらに、ビデオキャプチャシステムにおいて、いくつかのビューの取得がしばしば同時に利用可能でない。さらに、商業市場と個人的記録の両方において、3Dビデオに変換することが望ましいであろう多大な量の2Dコンテンツも存在する。したがって、2Dから3Dへのデータ変換が極めて望ましい。
2D3Dビデオ変換の問題は、すでに知られている元の2Dビューから仮想ビュー(すなわち、2次ビュー)またはいくつかの仮想ビューを生成する問題として見なされ得る。2次ビューの生成は、オブジェクト深度値を推定し、次いでその深度値を適用して1つまたは複数の2次ビューを合成することによって達成され得る。深度推定は、モノスコープビデオまたはいくつかのビューからオブジェクトとカメラ平面との間の絶対または相対距離を推定するプロセスである。グレーレベル画像によって通常表される推定深度情報は、深度画像ベースレンダリング(DIBR:depth image based rendering)技法に基づいて仮想ビューの任意の妥当なアングルを生成するために使用され得る。
図4は、モノスコープ左ビューから右ビューを生成する例示的なビュー合成プロセスを示す流れ図である。この場合、左ビューの2Dビデオ(401)は、このプロセスへの入力を備え得る。各ビデオ・フレームについて、深度マップ生成ユニット77は、左ビューに適用すべき深度マップを生成するために深度推定(402)を実行し得る。特に、深度マップ生成ユニット77は、本開示で説明する深度マップ初期化および深度マップ生成技法を実行し得る。深度マップは、ビュー合成において使用する推定深度(403)を備え得る。深度マップが生成されると、2D3D変換ユニット79は、ビデオ・フレームのための1つまたは複数の2次ビューを生成するために、ビュー合成プロセス(404)において深度マップを適用し得る。この場合、ビュー合成プロセス(404)の出力は、合成された右ビュー(405)を備え得る。
深度推定(402)では、様々な深度キューが使用され得る。そのようなキューは、オブジェクト動きおよび色など、他の時間的または2D空間的キューに対して定義された透視幾何(perspective geometry)を備え得る。2つ以上のプリキャプチャされたビューがある場合、深度マップは、既知のカメラ内部または外部パラメータの助けをかりてエピポーラ幾何によって取得され得る。たとえば、深度推定技法は、2つの異なるステレオビューにおいて同じオブジェクトの対応を発見することによって視差情報(たとえば、概してオブジェクト深度に反比例する情報)を推定し得る。残念ながら、ステレオマッチングに基づく2D3D変換は、極めて複雑であり、集約的計算を必要とし得る。
一方、いくつかの一般に使用されるビデオ・キャプチャ・デバイス、たとえば、カメラ、カムコーダ、およびモバイルフォンでは、利用可能なビューが通常ただ1つしかなく、たとえば、2つの異なるカメラによってキャプチャされた現実世界シーンからの十分な情報がないので、2D3D変換を困難な問題にしている。とはいえ、モノスコープソースにおいていくつかの深度キューが依然として利用可能である。ビデオ・フレームは、いくつかの前景のオブジェクトと背景との合成と見なされ得る。焦点が合ったカメラの視点から見て、カメラは、焦点がぼけたエリアの色強度が、焦点が合ったエリアと比較してより多くのぼけを含むと仮定し得る。より近いオブジェクトは、通常、遠くのオブジェクトよりも少ないぼけ度(blurriness)を有することが予想される。したがって、ぼけ度は、深度割当てのための重要なキューとして使用され得る。
2D3D変換のために使用されるぼけ度分析は、勾配ベース測定または周波数領域分析を含み得る。大きい勾配値をもつ画像エリアは、ぼけの量がより小さいエリアの一部である傾向があり、小さい勾配値をもつエリアは、ぼけの量がより低いエリアの一部である傾向がある。オブジェクトのエッジおよび境界の勾配値からスパース深度マップが推定され、その後、非対称深度マップの平滑化が行われ得る。決して正確ではないが、これらのタイプの深度マップは、あるレベルの「擬似」3Dエクスペリエンスを与え得る。
しかしながら、いくつかのビデオ・フレームでは、上記の仮定が当てはまらないことがある。第1に、カメラは、カメラに近いオブジェクトの代わりに実際には背景に属する遠くのオブジェクトに焦点を当て得る。さらに、前景の同質エリアがしばしば高周波成分を含んでいないので、前景のテクスチャレス領域のぼけ分析が失敗し得る。したがって、低いぼけ度は常により小さい深度(カメラまでの距離)を示すわけではなく、高いぼけ度は常により大きい深度に対応するわけではない。
動きは、モノスコープ2Dビデオのための深度推定において使用され得る別の重要なキューである。カメラのロケーションが記録中に固定されている場合、より近いオブジェクトは、透視幾何により、遠くのオブジェクトと比較してより大きく見え、より高い動きを有することが予想される。動き推定は、隣接するビデオ・フレームを通してオブジェクト移動を推定するプロセスである。動きベクトルは、一般に、前のビデオ・フレームの同様の「予測データ」に対するオブジェクト水平および垂直並進変位を記述するベクトルとして定義される。いくつかのシーン設定では、静的な背景が利用可能であるとき、動きは、単に登録された背景シーンから現在のフレームを減算することによって取得され得る。しかしながら、静的な背景の制約により、これらの方法は好適でない。したがって、隣接するフレーム間の差を発見することによって、動きの別の簡単で高速な測定が達成され得る。このタイプの動き測定は、近隣フレームのコロケート・ピクセルのルーマ強度のピクセルベースまたはウィンドウベースの減算によって取得され得る。
動き推定のために使用される他の技法は、ブロックベースのマッチングおよびオプティカルフローを含む。ブロックベースのマッチング手法は、ビデオ・フレームが最初にいくつかのビデオブロックに分割されるビデオ圧縮において使用され得る。現在のフレームn中の各ビデオブロックは、同じサイズを有するが、現在のブロックに対して参照フレームの変位をもつブロックと比較され得る。最小マッチングコスト、たとえば、マッチングエラーの絶対値の最低和に関連する変位は、そのブロック中のすべてのピクセルの推定動き値を定義し得る。対照的に、ブロックベースのマッチングとは異なり、オプティカルフロー技法は、勾配ベース強度変化を介してピクセル変位をオブジェクト速度に関係づけ、ピクセルレベルの動きが取得され得る。しかしながら、オプティカルフロー技法は通常、雑音に敏感であり、滑らかなエリアではあまり正確でない。
ぼけ度分析と同様に、動きキューは、ロバストネス問題という問題があり得る。言い換えれば、場合によっては、動きと深度との関係を仮定することができないことがある。たとえば、カメラに対して同じ距離をもつオブジェクトは、しばしば、互いに無関係に移動し、異なる速度で移動することがある。この場合、推定動きと深度値との間の反比例関係は破られ得る。さらに、シーンは、移動するカメラ、回転するカメラ、ズームイン、ズームアウトなどによってキャプチャされ得るので、グローバルな動きをもつシーンも存在する。これらの場合、たとえば、カメラがシーンに対して移動しているかまたは場合によっては変化しているとき、長距離オブジェクトは、より近いオブジェクトと比較してより高い推定動きを有し得る。また、前景のオブジェクトは、カメラ動きを伴う場合でも静的なままであり得る。全画像が短時間間隔にわたって動きなしで静的なままである場合、深度推定のために動きキューを使用することは困難になる。
多かれ少なかれ深度値マッピングに関係するぼけ度および動きキューとは異なり、空間的ならびに時間的に一貫した深度マップを生成するために、色強度から測定されたビデオ・フレームの滑らかさも使用され得る。深度マップ一貫性は、合成された仮想ビューにおいて、ちらつきのようなアーティファクトと、局部変形とを低減することにおいて重要な役目を果たす。概して、同じまたは同様の色を有するピクセルは、通常、同じオブジェクトに属し、シャープな強度変化は通常、オブジェクト境界を示す。深度フィールドは区分的に滑らかであり、深度の不連続性は画像強度の不連続性を反映するものと仮定され得る。
深度推定のための別の技法は画像セグメンテーションに関係する。ビデオ・フレームは、最初にいくつかのオブジェクトにセグメント化され得る。次いで、これらのセグメントには、動きおよびぼけ度などのキューに基づいて異なる深度値が割り当てられ得る。画像セグメントの深度推定は通常、ピクセルベースの推定と比較してより一貫した深度マップを達成するが、計算複雑さは増加し得る。場合によっては、画像セグメンテーション自体が問題を生じ得る。たとえば、ハイレベルのテクスチャをもつエリアを含んでいるいくつかのシーンは、セグメント化するのが極めて困難であり得る。画像セグメンテーションはまた、色分散、たとえば、同じオブジェクトの輝度変化という欠点があり得る。この場合、1つのオブジェクトについて取得されるいくつかの異なるセグメントがあり得、1つのオブジェクトの部分は、異なるセグメントおよび異なる深度に分類され得る。この場合、セグメント化は劣悪な深度推定を生じ得る。
色強度値に従って画像をいくつかの同質領域に区分する代わりに、色強度値(たとえば、クロマ値)はまた、深度推定において直接使用され得る。いくつかの色空間におけるそれらの成分からの深度推定の1つの可能な利点は、簡潔さである。クロミナンス(クロマ)成分は通常、同じオブジェクトに属するピクセルについて極めて滑らかである。セグメンテーションベースの深度推定と比較して、色成分から直接生成された深度マップは通常、オブジェクト形状を保ち、したがって、より良好な空間一貫性を与え得る。推定深度値が真の深度に対して不正確である場合でも、合成されたステレオペアは何らかのレベルの所望の3D効果を与え得る。
たとえば、2D3D変換ユニット79によって実行されるビュー合成のプロセスは、任意のビューアングルにおけるビューを生成するために、密にサンプリングされたビューを必要とするサンプリング問題として見なされ得る。しかしながら、実際的適用では、密にサンプリングされたビューによって必要とされる記憶帯域幅または送信帯域幅は、実現されるにはあまりに大きくなり得る。疎にサンプリングされたビューのビュー合成のためのアルゴリズムは3Dワーピングに基づき得る。3Dワーピングでは、深度およびカメラモデルを仮定すれば、参照ビューのピクセルu1は、2Dカメラ座標からワールド座標における点に戻って射影され得る。次いで、その点は、射影軸に沿って宛先ビュー(生成すべき仮想ビュー)に射影され得る。この場合、再射影されたピクセル・ロケーションは、u2として定義され得、2つのピクセル(u1およびu2)は同じオブジェクトの異なる投影に対応し得る。この場合では、u1およびu2は同じ色強度を有するものと予想される。
ビュー合成においてはカメラモデルも使用され得る。一例はいわゆる「ピンホール」カメラモデルである。ピンホールカメラモデルは、内部および外部行列によってパラメータ化され得、ワールド座標からカメラ画像平面座標への変換を記述するために使用され得る。簡単のために、3Dワールド座標、3Dカメラ座標および2D画像平面座標を含む前述の座標系のすべては直交であると仮定され得る。
4×4外部行列
Figure 2013509104
は、ワールド座標におけるカメラ中心およびカメラ配向の位置を定義し得、ただし、Rは3×3回転行列であり、tは3×1変換ベクトルである。ワールド座標(xw,yw,zwTからカメラ座標(x,y,z)Tへの変換は次のように記述され得る。
Figure 2013509104
ただし、上付き文字Tはベクトル転置演算を示す。
カメラ座標系では、z軸は主軸と呼ばれることがある。カメラ平面は、主軸に対して直角であり、カメラ座標中の(0,0,f)Tを通過する平面であり、ただし、fはカメラ焦点距離である。主点は、主軸が画像平面に出会う点として定義される。
内部パラメータは、カメラ座標(x,y,z)Tから画像平面座標(u,v)Tへの変換を指定する。ピンホールカメラモデルから、主点が画像平面の原点に一致する場合、次式が成立する。
Figure 2013509104
この式は次の同種表現で記述され得る。
Figure 2013509104
上記の式から、次のようにワールド座標系から画像平面への変換を導出することができる。
Figure 2013509104
主オフセットがあるとき、主点は、もはや画像平面座標の原点ではなく、画像平面座標中の(px,pyTになり得ることに留意されたい。内部カメラ行列Qはより複雑であり得る。主オフセットと、x軸およびy軸に沿ってfxおよびfyによって定義された異なる焦点距離と、カメラスキューファクタ(skew factor)とを考慮すると、行列Qは次のように表され得る。
Figure 2013509104
簡単のために、ステレオ・ビデオでは、2つのカメラはワールド座標において同じ配向を有し、それらのカメラのうちの一方はワールド座標原点、すなわちR1=R2=Iおよびt1=0に配置されると仮定し得る。x軸に沿った2つのカメラ間の変換のみがあり、したがってt2=(tx,0,0)Tであると仮定する。
2つのカメラがfx=fy=f、スキュー=0およびpx=py=pとともに同じ内部パラメータQ1=Q2を有する場合、2つのピクセルは画像平面座標のu軸に沿ってのみ異なり得る。上記の式に基づいて、
Figure 2013509104
したがって、u2−u1=ftx/zwであり、ただし、u2−u1は、深度zwに反比例するいわゆる視差である。1つのピクセル・ロケーションu1と深度zwとを仮定すれば、3Dワーピングは、単にu2=u1+ftx/zwの計算として定義され得、ただし、fおよびtxは既知のカメラパラメータである。宛先仮想ビュー上の射影u2のロケーションが判断された後、ピクセルu2の色強度は、参照ビューからのピクセルu1と同じ値として設定され得る。
ビュー合成では、2つ以上のビューが参照として考察され得る。しかしながら、ただ1つの参照ビューがある場合でも、2つ以上のピクセルは同じ画像ピクセルu2に射影され得る。この場合、ピクセルu2を合成するために、参照ピクセルの重み付き平均または最小深度値をもつピクセルが使用され得る。さらに、オクルージョン現象により(1つまたは複数の)参照ビューからのピクセルがu2に射影されない場合もある。それらの場合、穴が存在し、近隣ピクセルからu2の強度値を構築するための穴充填技法が使用され得る。
深度推定における深度値の1つの実際的問題は、深度値が、一般に、たとえば、8ビットを使用する0〜255の深度値vレンジなど、ダイナミックレンジ内で表されることである。この場合、0は最も大きい深度を表し、255は最も近い深度を表し得る。本明細書で使用する「深度値」という句は、オブジェクト深度zのこの8ビット表現を指すことがあるが、他のビットサイズも使用され得る。最大深度値v=255は、最も小さい深度znear、すなわち、カメラに対して最も近い距離である深度に対応し得、最小深度値v=0は、最も大きい深度zfar、すなわち、カメラに対して最も大きい距離である深度を表す。いくつかの典型的な深度値マッピングは次式の通りである。
Figure 2013509104
または
Figure 2013509104
3Dビデオ・フォーマットをサポートするために、Joint Video Team(JVT)およびMotion Picture Experts Group(MPEG)は多くの規格および機能を導入している。場合によっては、本開示の技法は、そのようなJVTおよびMPEG規格または機能と互換性があるか、あるいは他のタイプのシステムにおいて使用され得る。MPEG−2では、一方のビュー、たとえば、左ビューは、低減されたフレームレート(たとえば、15フレーム毎秒(fps))でコーディングされ得、他方のビューは、高いフレームレート(たとえば、30fps)を必要とする時間的エンハンスメント・レイヤとしてコーディングされる。
H.264/AVCでは、2つのビューがどのように1つのビット・ストリーム中で構成されるかを示すためにステレオ・ビデオ補足エンハンスメント情報(SEI:supplemental enhancement information)メッセージが使用され得る。2つのビューは、交互フレームまたは補足的フィールドペアであり得る。2つのビューが交互フレームであるとき、それらは時間的インターリービングモードで順序付けられる。2つのビューが補足的フィールドペアであるとき、2つのビューからの画像ペアは、実際は1つのピクチャにおいて行インターリーブされる。本開示の技法が、深度マップを生成し、2次ビューを合成するためにエンコーダによって実行される場合、そのような2次ビューは、SEIメッセージの使用によってH.264/AVCに従って符号化され、通信され得る。他の場合には、深度マップはビット・ストリーム中で通信され得る。さらに他の場合には、エンコーダではなくデコーダが本開示で説明する深度マップ生成技法を実行し得る。
JVTはまた、2つのビューのサポートを、時間的インターリービングおよび行インターリービングからよりフレキシブルな空間的インターリービングモードに拡張し得る、空間的インターリービング・ピクチャSEIメッセージを採用している。行インターリービングに加えて、SEIメッセージは、並列、上下、列インターリーブ、またはチェッカー盤パターンの画像ペアの配置をもサポートし得る。H.264/AVCにおける上記のSEIメッセージはまた、3D入力があたかも2Dビデオ・シーケンスであるかのように受け付けられ得る場合をサポートし得る。SEIメッセージは、ディスプレイが復号ビデオ・シーケンスを2つのビューに分離することができるように、2つのビューがどのようにインターリーブされるかをデコーダまたはレンダラに伝えるために使用され得る。そのような場合への入力は、2つのビューによって表される3D入力を備え得る。
H.264/AVCの拡張としてのマルチビュービデオ・コーディング(MVC:Multiview Video Coding)は、エンコーダが深度マップを生成し、ビュー合成を実行する例に一致し得る、3つ以上のビューのコーディングをサポートする。MVC予測は、各ビュー内のピクチャ間予測とビュー間予測の両方を含み得る。MVCは、H.264/AVCデコーダによって復号可能であるいわゆるベースビューを有し、MVCによって2つのビューがサポートされ得る。MVCの1つの利点は、3Dビデオ入力など、3つ以上のビューが使用され、複数のビューによって表されるこの3Dビデオを復号する場合をMVCがサポートすることができることである。SEIメッセージを用いたH.264/AVCの場合と同様に、MVCは一般に深度マップを利用しない。
MPEGはまた、MPEG−C、part3において、標準ビデオストリームのための深度マップをアタッチするためのフォーマットを規定している。この規定は以下に記載されている。
「Text of ISO/IEC FDIS 23002-3 Representation of Auxiliary Video and Supplemental Information」, ISO/IEC JTC 1/SC 29/WG 11, MPEG Doc, N8768、マラケシュ、モロッコ、2007年1月
MPEG−C part3では、いわゆる補助ビデオは、深度マップまたはパララックスマップのいずれかであり得る。深度マップを表すとき、MPEG−C、part3は、深度マップの各深度値および解像度を表すために使用されるビット数に関してフレキシビリティを与える。ただし、MPEG−C、part3は、深度マップをどのように作成すべきかを規定していない。
MPEGビデオ・サブグループには、MPEG−C、part3と同様の適用シナリオを研究する3DV EE(3Dビデオ・コーディングにおける探査実験:Exploration Experiments in 3D Video Coding)がある。そのような適用シナリオは各ビューの深度マップを含むことが有用であり得る。3DV EEの適用にとって深度推定およびビュー合成が極めて有用であり得る。場合によっては、ビデオ・コンテンツが複数カメラシステムによってキャプチャされ得、深度マップが、ビューのうちの1つの符号化バージョンを用いて生成され、送信され得る。この場合、送信されなかったさらなるビューを生成するために、復号デバイスにおいてビュー合成が使用され得る。典型的な3Dビデオ通信システムは、符号化デバイスにおいて生データをキャプチャし、符号化し、デコーダ・デバイスにおいて3Dシーケンスが生成され得るように2Dシーケンスとともに送るべき深度マップを生成し得る。
取得システムは、1カメラ・キャプチャ・システムまたはカメラアレイを含むか、あるいは深度マップを生成することができるデバイスに関連付けられることさえ可能である。概して、ビデオ・キャプチャは、以下のうちの1つとしてカテゴリー分類され得る。
通常は3Dコンテンツを提供しない2Dビデオ・キャプチャ
立体ビデオを提供する2カメラシステム
複数のビューをキャプチャするカメラアレイシステム
1つのビューをキャプチャし、深度をキャプチャまたは合成するシステム
深度情報を直接キャプチャするかまたは3Dモデルを生成し得る他のシステム
3Dレンダリングのために前処理も実行され得る。この3D前処理は、符号化のためになり得る雑音低減およびシーン検出など、典型的な処理技法を指さない。代わりに、3D前処理は、3Dビデオ・コンテンツの一部としてコーディングされ得る深度マップの生成を指すことがある。この3D前処理は、1つのキャプチャされたビューに対して1つの深度マップを生成するか、またはいくつかのビューに対していくつかの深度マップを生成し得る。深度マップはシーケンスの各ビデオ・フレームに関連付けられ得る。エンコーダは、1つまたは複数のビューと深度マップとを符号化し得、深度およびテクスチャをジョイント・コーディングすることができるH.264/AVC、MVC、さらにはSVCのようなビデオ・コーディング規格を用いてそれらのビューと深度マップとをコーディングし得る。
ビデオ・コンテンツがレンダリングデバイスにおいて受信されると、そのビデオ・コンテンツは、1つまたは複数のビューとして、もしあれば対応する深度マップとともに復号され、再構成され得る。深度マップの復号の後、送信されなかった他のビューのピクセル値を生成するためにレンダリングデバイスにおいてビュー合成アルゴリズムが実行され得る。通常の3Dディスプレイは、2つのビューまたは複数のビューのいずれかをレンダリングする。高フレームレートビデオを表示することが可能ないくつかの2Dディスプレイも、シャトルグラスの助けをかりて3Dディスプレイとして使用され得る。偏光は、出力として2つのビューを与えることができる3Dディスプレイ技法の一例である。いくつかのディスプレイまたは3DTVは入力の一部として深度を処理するように構成され得るが、出力として2つ以上のビューを生成する「ビュー合成」モジュールが依然として存在し得る。
深度マップベースの2D3Dビデオ変換の場合、問題は、深度マップ精度および計算複雑さを含み得る。深度推定の精度は、仮想ビュー合成のために重要である。不正確である深度マップは、合成された仮想ビュー中の不快なアーティファクト、局部変形およびちらつきを生じ得る。そのようなアーティファクトは立体エクスペリエンスを劇的に劣化させることがある。一方、正確な深度マップは、通常、高い計算複雑さを用いて取得される。残念ながら、いくつかのデバイスでは、計算集約的動作が実現可能でないことがある。成功した深度推定アルゴリズムのためには、深度精度と深度推定計算複雑さとの間のトレードオフを慎重に考察しなければならない。
本開示の技法は、深度精度と計算複雑さとの間の優れたトレードオフを与え得る。本技法は、DIBRベースのビュー合成2D3D変換システムにとって有用であり得る。本開示は、2Dビデオ・シーケンスの動き情報と、各フレーム中のピクセルの色成分とを一緒に活用することに基づく、比較的低い複雑さの深度推定アルゴリズムを提供し得る。
より詳細には、深度値は、最初にオブジェクト動きからの線形マッピングを用いて初期化され得る。高動きピクセルには、より大きい動き値が割り当てられ得る。低動きピクセルの場合、深度値はピクセル色強度から直接マッピングされ得る。ピクセル色情報からのマッピングは、低動きピクセルの深度値が、より高い動きピクセルの深度値よりも常に小さくなるように選定され得る。最後に、より滑らかで一貫した深度マップを確保するのを助けるために、時間的方向に沿った深度後処理と伝搬とが適用され得る。概して、本明細書で説明する深度推定技法は、比較的低い複雑さであり得るが、立体デバイス上でイマーシブ3Dエクスペリエンスの能力を提供し得る。
比較的低い複雑さの深度推定技法はリアルタイム2D3Dビデオ変換に適用され得る。この場合も、本技法は深度初期化のために動きおよび色キューを使用し得る。次いで、時間的一貫性のために、連続するビデオ・フレームの深度マップが後処理され得る。
図5は、本開示に一致する、深度マップ初期化のための例示的なプロセスを示す流れ図である。図5のプロセスは、たとえば、図2および図3を参照しながら説明したエンコーダまたはデコーダによって実行され得る。たとえば、本プロセスは、ビデオ・エンコーダ50の深度マップ生成ユニット36によって、またはビデオ・デコーダ70の深度マップ生成ユニット77によって実行され得る。簡単のために、図5のプロセスについてはビデオ・デコーダ70の深度マップ生成ユニット77の観点から説明する。
図5に示すように、深度マップ生成ユニット77は、前のフレームn−1(502)のデータに基づいてフレームn(501)の動きを計算する(503)ことによって開始する。次いで、推定動き値を使用して、フレームn中の各ピクセルに初期深度値を割り当て得る(505)。一方、フレームnのピクセル強度から色成分を抽出し得る(504)。ピクセル動きからの深度値に置換基準を適用することができる。具体的には、動きに基づく割当て深度値がしきい値よりも大きい場合(「yes」506)、その割当て深度値はそのような高動きピクセルの深度マップにおいて使用され得る(507)。しかしながら、動きに基づく割当て深度値がしきい値よりも小さい場合(「no」506)、その割当て深度値を色に基づく深度値と置換し(508)、その置換された深度値はそのような低動きピクセルの深度マップにおいて使用され得る(509)。深度マップ組合せ(510)は、フレームの高動きピクセルの初期化された深度値と、フレームの低動きピクセルの置換された深度値とを組み合わせる、初期化された深度マップを形成するプロセスを備え得る。したがって、最終深度マップは、動きに基づいて定義された、いくつかの深度値と、色に基づいて定義された他の深度値とを含み得る。
言い換えれば、任意の低動き(静的)ピクセルについて、動きに基づいて生成された深度値を、ピクセル色成分から判断された深度値と置換し得る(508)。次いで、深度組合せ(510)は、これらの2つのタイプのピクセルの深度値を全フレームのための1つの深度マップに統合する。最後に、所望される場合、より空間的に一貫した深度を生成するために、組み合わされた深度マップを後処理し得る(511)。たとえば、後処理(511)は、深度値が空間的に一貫していることを保証するためのフィルタ処理または他のタイプの処理を含み得る。図5の出力(512)は、初期化された深度マップを備え得、その初期化された深度マップは、以下でより詳細に説明するように確定された深度マップを生成する際に深度マップ生成ユニット77によって使用され得る。
動きを計算する(503)ために、簡単のために、ピクセルベースの連続するフレーム差が使用され得る。i=(u,v)Tがピクセル位置を示すものとし、ただし、uおよびvはそれぞれ画像平面の水平軸および垂直軸を表す。ピクセルiにおけるフレームnの色強度値(たとえば、ルーマ値)がLn,iである場合、それの対応する動き値は次式のように定義され得る。
Figure 2013509104
上式は、ピクセルiにおけるフレームnとフレームn−1との間の色強度(ルーマ「L」)差の絶対値にすぎない。
色強度Lは任意の色空間の強度値を示す。強度値LはYUV色空間の「Y」すなわち輝度に対応し得るが、代替の色強度値も使用され得る。YUV色空間において、Yは輝度を表し、UおよびVはクロミナンスの異なる値を表す。変数「L」、「cr」および「cb」を使用して、輝度「L」と、2つの異なるクロミナンス値「cr」および「cb」とを表すこともある。また、動きを定義するために、クロミナンス値差または重み付き平均色成分差が使用され得る。上式は、ルーマ差のスカラー値に基づいて動きを定義することによって、簡潔さに関して利点を有し得る。この場合、動きは、真の水平および垂直オブジェクト変位を表さないことがあるが、オブジェクト変位の何らかの量を反映し得る。これは、より大きい色差はより大きい変位を通常示すが、極めて小さい色差は、よりしばしば、比較的静的なピクセルにおいて生じるからである。
代替的に、リアルタイム2D3Dビデオ変換フレームワークにおいて、入力ソースが圧縮ビデオである場合、たとえば、復号プロセス中に圧縮ビット・ストリームから直接得られたブロックレベル動きベクトルが使用され得る。この場合、ピクセルiについて、デコーダからの動きベクトルが(mn,u,mn,vTであると仮定する。この場合、深度割当てのために使用される動き値は、動きベクトルの2ノルム、すなわち、
Figure 2013509104
として定義され得る。ブロックレベル動きマップは、ビュー合成のために深度値にマッピングされる前に、ピクセルレベル動きに補間され得る。
動き値を取得した後に、動き値mn,iから深度値dn,iへのマッピングf(・)が定義され得る。より大きい動きはより近いオブジェクトに通常関係するという仮定に従って、マッピングは、区間[mmin,mmax]から[df min,df max]へのマッピングとして定義され得る。したがって、
Figure 2013509104
ただし、mmaxおよびmminは、ビデオ・シーケンスの最大動き値および最小動き値を表す定数であり、df maxおよびdf minは、マッピング後の最大深度値および最小深度値に対応する定数値である。
max、mmin、df maxおよびdf minの定数値は、時間的に一貫した深度マップを得るために、1つのビデオ・シーケンス中のすべてのフレームに対して使用され得る。これらの定数の典型的な値は、mmax=255、mmin=0、df max=255およびdf min=64である。この例では、df minの値は0に設定されない。
たとえば、図5のステップ(510)に示す前処理は平滑化および中央値フィルタ処理を含み得る。中央値フィルタ処理では、各ピクセルiについて、動き値のセット{mn,j}の中央値は最終動き値として設定され得、ただし、j∈Wはピクセルiの近隣ピクセルに対応する。近隣ピクセルWは、ピクセルiの周囲の任意の長方形などの形状として選定され得る。中央値フィルタ処理は、動き値の望ましくない雑音を除去するために使用され得る。このようにして、上記で説明した方法で得られた深度値が、より滑らかになり、近隣ピクセルの深度値により整合するようにさせるためにフィルタ処理が使用され得る。
深度に動き値をマッピングする際に、最大の動き値は、カメラに対して最も近い距離(たとえば、深度値のdf max)にマッピングされ得る。ゼロ動きをもつピクセルは、カメラから最も大きい距離(たとえば、深度値のdf min)を有するものと見なされ得る。この場合、シーン中の静的オブジェクトについて、キャプチャされるシーン中のそれらの静的オブジェクトが実際にどのくらいカメラから離れているかは問題にならない。代わりに、静的オブジェクトは最も大きい深度を有するものと見なされる。この欠点を克服するために、本開示の技法は、動き値から深度マッピング後に深度値置換を使用し得る。
図5に示すように、置換は、動き値df n,iが、あるしきい値Tm以下のとき(「no」506)に行われる。Tmは、より良好な深度マップ生成を生じる値を有するようにあらかじめ定義され得、様々なビデオ・コーディングシミュレーションの考慮後に選択され得る。条件が満たされた場合(たとえば、df n,iがTmよりも大きい場合)、df n,iはdg n,iと置換され得(508)、ただし、
Figure 2013509104
この場合、dg n,iは色成分に基づく深度値を表す。Cn,iは所与のロケーションのクロマ値を表し得、CmaxおよびCminは、ビデオ・シーケンスにおいて最大および最小色クロマ値を表す定数を備え得る。
次いで、関数g(・)を使用して、カラー値を区間[0,Tm]中の深度値にマッピングし得る。静的オブジェクトに対応するピクセルについて、動き値mn,iは0であり得、深度値はdf n,i=df minであり得る。いくつかの例では、しきい値Tmはdf minとして設定され得る。しかしながら、わずかな照度変化により、静的ピクセルの色強度はフレームn−1からフレームnに変化し得る。このために、いくつかの例では、しきい値Tmのわずかにより大きい値を実装し得る。
本開示によれば、動き
Figure 2013509104
に基づいて深度値を満たすすべてのピクセルは、レンジ[0,Tm]内で色dg n,iに基づいて深度値と置換され得る。したがって、置換は、いくつかの比較的静的なピクセルについてさえ異なる深度値を割り当て得る。いくつかの色情報は、深度マップの初期化として直接使用され得る。本開示は、色に基づく深度値のためのYUV色空間のクロミナンス値Crの使用を企図するが、代替ソリューションには、RGB色空間のR成分、YUV空間のCb成分、およびL*a*b色空間のaまたはb成分の使用があり得る。
本開示によれば、動きに基づいて初期深度値を割り当てることは、前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対するビデオ・ユニットのピクセルのルーマ値に基づいて初期深度値を割り当てることを備え得、色に基づいて調整された深度値を割り当てることは、ビデオ・ユニットのピクセルのクロマ値に少なくとも部分的に基づいて調整された深度値を割り当てることを備える。上式に従って、調整された深度値を割り当てることは、クロマ値の許容区間内のクロマ値を0としきい値との間の深度値にマッピングすることを含み得る。
本開示の技法は、色強度の滑らかさを利用し、それらを使用して静的ピクセルの深度値を割り当て得る。本明細書で定義する線形マッピングは静的ピクセルの真の深度情報を表さないことがあるが、このマッピングは、望ましい3D効果を達成する何らかの「知覚的」深度を与え得る。深度値レンジ[0,Tm]への色強度の線形マッピングはまた、それらのピクセルの深度値が、有意な動きに関連するピクセルの深度値よりも常に小さくなることを保証し得る。
色成分抽出に関する別の実際的実装問題は、色成分抽出が予測ユニット35または予測ユニット75の補間プロシージャに組み込まれ得ることである。ビデオ・アプリケーションでは、YUV4:2:0プログレッシブ・フォーマットが通常使用される。YUV4:2:0プログレッシブ・フォーマットについて、ビデオデータは、n1×n2のサイズをもつY成分と、
Figure 2013509104
のサイズをもつCbおよびCr成分と、を備え得、すなわち、クロミナンス成分は、水平方向と垂直方向の両方に沿ってファクタ2においてサブサンプリングされる。本開示の技法は色抽出においてクロミナンスCrを使用し得るので、
Figure 2013509104
のCr成分は、深度推定のためにフレームごとにn1×n2の解像度にアップサンプリングされる必要があり得る。
深度マップ初期化は、動き情報と色情報の両方を推定した後に取得され得る。フレームn中のピクセルiの深度値は次のように表され得る。
Figure 2013509104
より空間的に滑らかで一貫した深度マップを求めて、深度値dn,iの後処理(511)が実行され得る。後処理において、上記で説明した中央値フィルタ処理ならびにぼけフィルタ処理が適用され得る。指定されたウィンドウW内でガウス平滑化が適用され得る。深度値dn,iの後処理中にガウスフィルタ処理のために使用され得る1Dガウスカーネルの一例は次式によって与えられ得る。
Figure 2013509104
ただし、xは入力値であり、g(x)はガウスフィルタ関数値であり、σ2は深度値の分散である。そのようなガウスフィルタ処理は、それぞれuおよびv方向において異なる分散σ2 uおよびσ2 vを用いて別々にuおよびv方向において画像平面に適用され得る。
図6は、本開示の技法のうちの1つまたは複数に一致する、確定された深度マップを生成するプロセスを示す流れ図である。図6のプロセスはエンコーダまたはデコーダによって実行され得る。たとえば、本プロセスは、ビデオ・エンコーダ50の深度マップ生成ユニット36によって、またはビデオ・デコーダ70の深度マップ生成ユニット77によって実行され得る。簡単のために、図6のプロセスについてはビデオ・デコーダ70の深度マップ生成ユニット77の観点から説明する。
図6に示すように、深度マップ生成ユニット77は2D左ビュー(601)で開始する。図6の技法は、対応する右ビューを生成するために使用され得る深度マップを最終的に定義し得る。もちろん、代替的に初期ビューは右ビューであり得、深度マップは左ビューを生成するために使用され得る。
深度初期化(602)は、初期化された深度マップ(603)を最終的に生成する図5のプロセスに対応し得る。しかしながら、図6によれば、深度マップ生成ユニット77は、確定された深度マップを最終的に生成するために、初期化された深度マップに関して追加の技法を実行し得る。図6に示すように、深度マップ生成ユニット77は、シーン検出604を実行して、現在のビデオ・フレームが新しいシーンに対応するかどうかを判断し得る(605)。この判断を行うために、現在のフレームがシーン変化に対応するか否かを推定するために現在のフレームと前のフレームとの間のピクセル差分を定量化することによるなど、様々な技法を適用し得る。
現在のフレームがシーン変化に対応する場合(「yes」605)、重み値wを0に設定し得る(607)。これは、深度重み付け平均化(610)において前のフレームに重みが与えられないことを保証する。(新しいシーンが検出された)この場合、深度マップは重み付け(610)によって定義され得るが、w=0であるので、深度マップは、図5のプロセスにおいて生成された初期化された深度マップに対応することになる。後処理が実行され得(611)、深度マップ生成ユニット77は、2次ビュー(たとえば、図6のプロセスへの入力である入力左ビューに対応する右ビュー)を生成するためのビュー合成プロセスにおいて2D3D変換ユニット79によって使用され得る、確定された深度マップの形態で推定深度(612)を出力し得る。
現在のフレームがシーン変化に対応しない場合(「no」605)、深度マップ生成ユニット77は、フレームが低動きフレームであるかまたは標準動きフレームであるかを判断し得る(608)。標準フレームは、低動きフレームに対する高動きであるので、高動きフレームと呼ばれることもある。したがって、低動きおよび高動きは、前のフレームのルーマ値に対するフレーム全体のルーマ値の相対的差に基づいて定義され得る相対語であり得る。ただし、フレームが低動きフレームであるか標準(高動き)フレームであるかの判断は他の方法で実行され得る。
現在のフレームが低動きフレームでない場合(「no」608)、重み付け深度マップ平均化が使用され得、確定された深度マップは、現在のフレームの初期化された深度マップと、1つまたは複数の前のフレームの初期化された深度マップとの重み付き平均である。重み付け平均化を促進するために重み係数wが定義され得る。重み係数wは、0.5であるか、または前のフレームの初期化された深度マップに対して現在のフレームの初期化された深度マップをより重く重み付けするためにより低い値を割り当てられ得る。
現在のフレームが低動きフレームである場合(「yes」608)、深度最大化が使用され得(609)、深度マップの各個の深度値は、現在のフレームの初期化された深度マップの対応する深度値と、前のフレームの初期化された深度マップ(または前のフレームの確定された深度マップ)の対応する深度値との最大値として定義される。前の深度マップを記憶するために、深度マップ生成ユニット77中に深度マップバッファ(613)が含まれ得る。
この場合も、初期化された深度値はビデオ動きと色情報とから推定され得る。ただし、全シーケンスの初期化された深度マップは、時間的方向に沿ってあまり一貫していないことがある。より良好な合成されたビュー品質のために、深度マップ一貫性は重要な役割を果たす。図6の技法は、そのような深度マップ一貫性を保証するのを助け得る。
図6において、深度マップは、元の2Dビデオ(たとえば、左ビュー601)のフレームnについて初期化される(602)。一方、現在のフレームnが新しいシーンを開始するか否かを検査するためにシーン検出(604)が適用され得る。新しいシーンが検出された場合(「yes」605)、初期化された深度マップは後処理(611)およびビュー合成(612)のために送られる。フレームnが新しいシーンを開始しない場合、フレーム分類ステップが適用される。フレーム分類プロシージャは、フレームを低動きフレームまたは標準フレームとして分類する。
フレームが低動きフレームである場合(「yes」608)、フレームnの深度マップdnは、フレームnおよびフレームn−1の各個のピクセルiについてのdn,iとdn-1,iとの最大値として設定され得る。言い換えれば、
Figure 2013509104
しかしながら、現在のフレームが低動きフレームでない場合(「no」608)、フレームnの深度マップdnは、何らかのあらかじめ定義された重み係数「w」によって重み付けされた、深度マップdnと前のフレームの深度マップdn-1との重み付き平均であり得る。言い換えれば、現在のフレームが低動きフレームでない場合、
Figure 2013509104
後処理(611)の後に、最終深度マップは、2D3D変換ユニットによるビュー合成において使用するために深度マップ生成ユニット77から出力され得る。さらに、後続のフレームの深度推定のために、フレームnの深度マップdnのコピーが深度マップバッファ(613)に記憶され得る。図6の流れ図に示す深度マップバッファ(613)は、深度マップ生成ユニット77内に含まれるかまたは深度マップ生成ユニット77によってアクセス可能な構造的ハードウェアメモリ要素であり得る。
シーン検出技法は、ビデオトリミング、ビデオ追跡、およびシーン分類などのビデオ分析適用例においてしばしば使用される。シーン変化検出(604)のための基準として、隣接するフレームの類似度が推定され、使用され得る。本開示の技法は、シーン変化を検出するために、本手法の簡潔さにより、連続するフレームの平均色強度差を使用し得る。この場合、2つのフレーム間の差は次のように定義され得る。
Figure 2013509104
ただし、n1およびn2はそれぞれ画像水平軸および垂直軸に沿ったピクセルの数であり、Ln,iおよびLn-1,iは、2つの連続するフレームのピクセル・ロケーションiにおけるルーマ値である。
Figure 2013509104
がしきい値Tsよりも大きい場合、フレームnは新しいシーンの開始として見なされ得る。
本開示による、シーン検出の目的は、時間的に一貫した深度マップの生成において役立つことであり得る。同じシーンに属する連続する深度マップはまったく同様の深度値を有する傾向がある。しかしながら、フレームごとに独立して取得された深度マップは時間的方向に沿ってちらつきの問題を有することがある。時間的一貫性を改善するために、前のフレーム深度マップdn-1は次のフレーム深度マップdnに伝搬され得る。
1つのソリューションは、連続する深度マップdnおよびdn-1の重み付け平均化によって取得され得る。しかしながら、極めて低い動きをもつシーンでは、ごく少数のピクセルに深度値df nが割り当てられ得る。この場合、フレームnのためのより良好な最終深度マップを生成するために深度最大化が使用され得る。さらに、シーン検出と同様の方法で、本開示の技法は低動きフレーム分類を使用し得る。低動きフレームの基準は、平均フレーム差
Figure 2013509104
がしきい値TLよりも小さいかどうかであり得、ただし、TLは、Tsよりも小さくてフレームが新しいシーンでないことを示すが、通常の動きまたは比較的高い動きを示す十分な差を有する。
前のフレームdn-1の深度マップの一部または全部を現在のフレームdnの深度マップに伝搬した後、より滑らかな深度マップを作成するために後処理(611)が使用され得る。後処理の後に、推定深度マップは、2D3D変換ユニット79によって実行され得るビュー合成において使用される準備ができ得る。同時に、深度マップのコピーは深度マップバッファ(613)に記憶され得、その深度マップバッファは、後続のフレームの深度マップを推定する際に使用するために、深度マップ生成ユニット77内にあるかまたは深度マップ生成ユニット77によってアクセス可能であり得る。バッファサイズは、実装形態に応じて、1つの前の深度マップ、またはいくつかの前の深度マップに適応するように設計され得る。
図7は、深度マップ初期化と、確定された深度マップの生成とを示す流れ図である。図7のプロセスはエンコーダまたはデコーダによって実行され得る。たとえば、本プロセスは、ビデオ・エンコーダ50の深度マップ生成ユニット36によって、またはビデオ・デコーダ70の深度マップ生成ユニット77によって実行され得る。簡単のために、図7のプロセスについてはビデオ・デコーダ70の深度マップ生成ユニット77の観点から説明する。
図7に示すように、深度マップ生成ユニット77は、ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、(ビデオ・フレームまたはスライスなどの)ビデオ・ユニットのピクセルに関連する動きに基づいて、そのピクセルに初期深度値を割り当て(701)、初期深度値がしきい値を満たすかどうかを識別する(702)。深度マップ生成ユニット77は、初期深度値がしきい値を満たすビデオ・ユニットのピクセルのうちの1つまたは複数に、調整された深度値を割り当て(703)、調整された深度値は、ピクセルに関連する色に基づく。割り当てられたあらゆる初期深度値についてこのプロセス(704)が繰り返される。
あらゆる深度値を考察し、しきい値を満たさない深度値を調整した後に、深度マップ生成ユニット77は、ビデオ・ユニットの初期化された深度マップを生成し(705)、初期化された深度マップは、ピクセルの第1のサブセットの初期深度値と、ピクセルの第2のサブセットの調整された深度値とを備える。上記で説明したように、動きに基づいて初期深度値を割り当てることは、前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対するビデオ・ユニットのピクセルのルーマ値に基づいて初期深度値を割り当てることを備え得る。また、色に基づいて調整された深度値を割り当てることは、ビデオ・ユニットのピクセルのクロマ値に少なくとも部分的に基づいて調整された深度値を割り当てることを備え得る。
たとえば、動きに基づいて初期深度値を割り当てることは、以下の式に従って初期深度値を割り当てることを備える。
Figure 2013509104
ただし、mn,iは初期深度値を表し、Ln,iはビデオ・ユニットn中のピクセルiのルーマ値を表し、Ln-1,iは前のビデオ・ユニットn−1中のピクセルiの対応するルーマ値を表す。さらに、色に基づいて調整された深度値を割り当てることは、以下の式に従って調整された深度値を割り当てることを備え得る。
Figure 2013509104
ただし、
Figure 2013509104
は調整された深度値を表し、
Figure 2013509104
はクロマ値に関する関数gを表し、Tmはしきい値であり、Cn,iはビデオ・ユニットn中の所与のピクセルのクロマ値を表し、Cmaxは許容最大クロマ値を表し、Cminは許容最小クロマ値を表す。
次に、深度マップ生成ユニット77は、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断する(706)。そうであれば(「yes」706)、深度マップ生成ユニット77は、初期化された深度マップをビデオ・ユニットの最終深度マップとして選択する。しかしながら、ビデオ・ユニットが前のビデオ・ユニットに対するシーン変化に対応しない場合、深度マップ生成ユニット77は、ビデオ・ユニットが前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断する(708)。ビデオ・ユニットが低動きレベルを表さない場合(「no」708)、深度マップ生成ユニット77は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の初期化された深度マップの深度値との重み付き平均に基づいて、最終深度マップを定義する(709)。この場合、ビデオ・ユニットは高動きまたは通常動きを示し得る。代替的に、ビデオ・ユニットが低動きレベルを表す場合(「yes」708)、深度マップ生成ユニット77は、ビデオ・ユニットの初期化された深度マップの深度値と、前のビデオ・ユニットの前の初期化された深度マップの深度値との最大値に基づいて、最終深度マップを定義する(709)。
上述のように、本開示の技法はデコーダまたはエンコーダによって実行され得る。本技法がビデオ・デコーダによって実行される場合、本技法は、ビデオ・ユニットの2次ビューを生成するために、最終深度マップに基づいてビュー合成を実行することをさらに含み得る。たとえば、ビュー合成は、ビデオ・デコーダ70の2D3D変換ユニット79によって実行され得る。ビュー合成プロセスは、元のビューと元のビューの深度マップとに基づいて2次ビューを生成するプロセスを備え得る。
本開示の技法がビデオ・エンコーダによって実行される場合、本技法は、ビデオ・ユニットとともに最終深度マップを通信することをさらに備え得る。しかしながら、場合によっては、ビュー合成は、ビデオ・ユニットの2次ビューを生成するために最終深度マップに基づいてエンコーダによって実行され得、この場合、ビデオ・エンコーダに関連するデバイスは、2次ビューをビデオ・ユニットの一部として通信し得る。
本技法について、深度マップ初期化と、その後に最終深度マップを生成するための追加の処理とを含むものとして説明した。しかしながら、いくつかの例では、深度マップ初期化技法は追加の処理なしに使用され得、初期化された深度マップは、さらなる処理なしに最終深度マップとして定義され得る。
本開示の技法は、モバイルフォンなどのワイヤレス通信デバイスハンドセット、集積回路(IC)またはICのセット(すなわち、チップセット)を含む、多種多様なデバイスまたは装置において実装され得る。機能的態様を強調するために与えられた任意の構成要素、モジュールまたはユニットについて説明したが、異なるハードウェアユニットによる実現を必ずしも必要とするわけではない。本明細書で説明した技法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せでも実装され得る。モジュール、ユニットまたは構成要素として説明した特徴は、集積論理デバイスにおいて一緒に、または個別であるが相互運用可能な論理デバイスとして別々に実装され得る。場合によっては、様々な特徴は、集積回路チップまたはチップセットなどの集積回路デバイスとして実装され得る。
ソフトウェアで実装する場合、これらの技法は、プロセッサで実行されると、上記で説明した方法の1つまたは複数を実行する命令を備えるコンピュータ可読媒体に少なくとも部分的によって実現され得る。コンピュータ可読媒体は、コンピュータ可読記憶媒体を備え得、パッケージング材料を含むことがあるコンピュータ・プログラム製品の一部を形成し得る。コンピュータ可読記憶媒体は、同期ダイナミック・ランダムアクセス・メモリ(SDRAM)などのランダムアクセス・メモリ(RAM)、読取り専用メモリ(ROM)、不揮発性ランダムアクセス・メモリ(NVRAM)、電気消去可能プログラマブル読取り専用メモリ(EEPROM)、フラッシュメモリ、磁気または光学データ記憶媒体などを備え得る。本技法は、追加または代替として、命令またはデータ構造の形態でコードを搬送または通信し、コンピュータによってアクセス、読取り、および/または実行され得るコンピュータ可読通信媒体に少なくとも部分的によって実現され得る。
命令は、1つまたは複数のデジタル信号プロセッサ(DSP)などの1つまたは複数のプロセッサ、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブルロジックアレイ(FPGA)、または他の等価な集積回路、または、ディスクリート論理回路によって実行され得る。したがって、本明細書で使用する「プロセッサ」という用語は、前述の構造、または本明細書で説明した技法の実装に好適な他の構造のいずれかを指すことがある。さらに、いくつかの態様では、本明細書で説明した機能は、符号化および復号のために構成された専用のソフトウェア・モジュールまたはハードウェア・モジュール内に提供され得、あるいは複合ビデオコーデックに組み込まれ得る。また、本技法は、1つまたは複数の回路または論理要素中に十分に実装され得る。
本開示はまた、本開示で説明した技法の1つまたは複数を実装する回路を含む様々な集積回路デバイスのいずれかを企図する。そのような回路は、単一の集積回路チップ、またはいわゆるチップセット中の複数の相互運用可能な集積回路チップで提供され得る。そのような集積回路デバイスは様々な適用例において使用され得、適用例のいくつかは携帯電話ハンドセットなどのワイヤレス通信デバイスでの使用を含み得る。
様々な例について本開示で説明した。これらおよび他の例は以下の特許請求の範囲内に入る。

Claims (33)

  1. ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、前記ピクセルに初期深度値を割り当てることと、
    前記初期深度値がしきい値を満たすかどうかを識別することと、
    前記初期深度値が前記しきい値を満たす前記ビデオ・ユニットの前記ピクセルのうちの1つまたは複数に、調整された深度値を割り当てることであって、前記調整された深度値が、前記ピクセルに関連する色に基づく、割り当てることと、
    前記ビデオ・ユニットの深度マップを生成することであって、前記深度マップが、前記ピクセルの第1のサブセットの前記初期深度値と、前記ピクセルの第2のサブセットの前記調整された深度値とを備える、生成することと、
    を備える方法。
  2. 動きに基づいて前記初期深度値を割り当てることが、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てることを備える、請求項1に記載の方法。
  3. 色に基づいて前記調整された深度値を割り当てることが、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てることを備える、請求項1に記載の方法。
  4. 動きに基づいて前記初期深度値を割り当てることが、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てることを備え、
    色に基づいて前記調整された深度値を割り当てることが、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てることを備え、
    前記調整された深度値を割り当てることが、クロマ値の許容区間内のクロマ値を0と前記しきい値との間の深度値にマッピングすることを含む、
    請求項1に記載の方法。
  5. 前記深度マップが、初期化された深度マップを備え、前記方法は、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断することと、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応する場合、前記初期化された深度マップを前記ビデオ・ユニットの最終深度マップとして選択することと、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応しない場合、前記ビデオ・ユニットが前記前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断することと、
    前記ビデオ・ユニットが前記低動きレベルを表さない場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、前記最終深度マップを定義することと、
    前記ビデオ・ユニットが前記低動きレベルを表す場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前記前の深度マップの前記深度値との最大値に基づいて、前記最終深度マップを定義することと
    をさらに備える、請求項1に記載の方法。
  6. 前記方法がビデオ・デコーダによって実行され、前記方法が、前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行することをさらに備える、請求項5に記載の方法。
  7. 前記方法がビデオ・エンコーダによって実行され、前記方法が、前記ビデオ・ユニットとともに前記最終深度マップを通信することをさらに備える、請求項5に記載の方法。
  8. 前記方法がビデオ・エンコーダによって実行され、前記方法が、
    前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行することと、
    前記ビデオ・ユニットとともに前記2次ビューを通信することと、
    をさらに備える、請求項5に記載の方法。
  9. ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、前記ピクセルに初期深度値を割り当てることと、
    前記初期深度値がしきい値を満たすかどうかを識別することと、
    前記初期深度値が前記しきい値を満たす前記ビデオ・ユニットの前記ピクセルのうちの1つまたは複数に、調整された深度値を割り当てることであって、前記調整された深度値が、前記ピクセルに関連する色に基づく、割り当てることと、
    前記ビデオ・ユニットの深度マップを生成することであって、前記深度マップが、前記ピクセルの第1のサブセットの前記初期深度値と、前記ピクセルの第2のサブセットの前記調整された深度値とを備える、生成することと、
    を行う深度マップ生成ユニットを備えるビデオコーダ装置。
  10. 動きに基づいて前記初期深度値を割り当てることにおいて、前記深度マップ生成ユニットが、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てる、請求項9に記載のビデオコーダ装置。
  11. 色に基づいて調整された深度値を割り当てることにおいて、前記深度マップ生成ユニットが、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てる、請求項9に記載のビデオコーダ装置。
  12. 動きに基づいて前記初期深度値を割り当てることが、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てることを備え、
    色に基づいて前記調整された深度値を割り当てることが、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てることを備え、
    前記調整された深度値を割り当てることが、クロマ値の許容区間内のクロマ値を0と前記しきい値との間の深度値にマッピングすることを含む、
    請求項9に記載のビデオコーダ装置。
  13. 前記深度マップが、初期化された深度マップを備え、前記深度マップ生成ユニットは、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断し、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応する場合、前記初期化された深度マップを前記ビデオ・ユニットの最終深度マップとして選択し、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応しない場合、前記ビデオ・ユニットが前記前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断し、
    前記ビデオ・ユニットが前記低動きレベルを表さない場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、前記最終深度マップを定義し、
    前記ビデオ・ユニットが前記低動きレベルを表す場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前記前の深度マップの前記深度値との最大値に基づいて、前記最終深度マップを定義する、
    請求項9に記載のビデオコーダ装置。
  14. 前記ビデオコーダがビデオ・デコーダを備え、前記ビデオ・デコーダが、前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行する2次元(2D)3次元変換ユニットをさらに備える、請求項13に記載のビデオコーダ装置。
  15. 前記ビデオコーダがビデオ・エンコーダを備え、ビデオ・コーディング装置が、前記ビデオ・ユニットとともに前記最終深度マップを通信する送信機をさらに備える、請求項13に記載のビデオコーダ装置。
  16. 前記ビデオコーダがビデオ・エンコーダを備え、前記ビデオ・エンコーダが、前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行する2次元(2D)3次元変換ユニットをさらに備え、前記ビデオ・コーディング装置が、前記ビデオ・ユニットとともに前記2次ビューを通信する送信機をさらに備える、請求項13に記載のビデオコーダ装置。
  17. 前記装置が、
    集積回路と、
    マイクロプロセッサと、
    ビデオ・エンコーダを含むワイヤレス通信デバイスと、
    ビデオ・デコーダを含むワイヤレス通信デバイスと、
    のうちの少なくとも1つを備える、請求項9に記載のビデオコーダ装置。
  18. ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、前記ピクセルに初期深度値を割り当てるための手段と、
    前記初期深度値がしきい値を満たすかどうかを識別するための手段と、
    前記初期深度値が前記しきい値を満たす前記ビデオ・ユニットの前記ピクセルのうちの1つまたは複数に、調整された深度値を割り当てるための手段であって、前記調整された深度値が、前記ピクセルに関連する色に基づく、割り当てるための手段と、
    前記ビデオ・ユニットの深度マップを生成するための手段であって、前記深度マップが、前記ピクセルの第1のサブセットの前記初期深度値と、前記ピクセルの第2のサブセットの前記調整された深度値とを備える、生成するための手段と、
    を備えるデバイス。
  19. 動きに基づいて前記初期深度値を割り当てるための前記手段が、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てるための手段を備える、請求項18に記載のデバイス。
  20. 色に基づいて前記調整された深度値を割り当てるための前記手段が、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てるための手段を備える、請求項18に記載のデバイス。
  21. 動きに基づいて前記初期深度値を割り当てるための手段が、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てるための手段を備え、
    色に基づいて前記調整された深度値を割り当てるための手段が、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てるための手段を備え、
    前記調整された深度値を割り当てるための手段が、クロマ値の許容区間内のクロマ値を0と前記しきい値との間の深度値にマッピングするための手段を含む、
    請求項18に記載のデバイス。
  22. 前記深度マップが、初期化された深度マップを備え、前記デバイスは、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断するための手段と、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応する場合、前記初期化された深度マップを前記ビデオ・ユニットの最終深度マップとして選択するための手段と、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応しない場合、前記ビデオ・ユニットが前記前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断するための手段と、
    前記ビデオ・ユニットが前記低動きレベルを表さない場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、前記最終深度マップを定義するための手段と、
    前記ビデオ・ユニットが前記低動きレベルを表す場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前記前の深度マップの前記深度値との最大値に基づいて、前記最終深度マップを定義するための手段と、
    をさらに備える、請求項18に記載のデバイス。
  23. 前記デバイスがビデオ・デコーダを備え、前記デバイスが、前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行するための手段をさらに備える、請求項22に記載のデバイス。
  24. 前記デバイスがビデオ・エンコーダを備え、前記デバイスが、前記ビデオ・ユニットとともに前記最終深度マップを通信するための手段をさらに備える、請求項22に記載のデバイス。
  25. 前記デバイスがビデオ・エンコーダを備え、前記デバイスが、
    前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行するための手段と、
    前記ビデオ・ユニットとともに前記2次ビューを通信するための手段と、
    をさらに備える、請求項22に記載のデバイス。
  26. プロセッサによる実行時に、
    ビデオ・シーケンスの前のビデオ・ユニットの対応するピクセルに対する、ビデオ・ユニットのピクセルに関連する動きに基づいて、前記ピクセルに初期深度値を割り当てることと、
    前記初期深度値がしきい値を満たすかどうかを識別することと、
    前記初期深度値が前記しきい値を満たす前記ビデオ・ユニットの前記ピクセルのうちの1つまたは複数に、調整された深度値を割り当てることであって、前記調整された深度値が、前記ピクセルに関連する色に基づく、割り当てることと、
    前記ビデオ・ユニットの深度マップを生成することであって、前記深度マップが、前記ピクセルの第1のサブセットの前記初期深度値と、前記ピクセルの第2のサブセットの前記調整された深度値とを備える、生成することと、
    を前記プロセッサに行わせる命令を備えるコンピュータ可読記憶媒体。
  27. 動きに基づいて前記初期深度値を割り当てることにおいて、前記命令が、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てることを前記プロセッサに行わせる、請求項26に記載のコンピュータ可読記憶媒体。
  28. 色に基づいて前記調整された深度値を割り当てることにおいて、前記命令が、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てることを前記プロセッサに行わせる、請求項26に記載のコンピュータ可読記憶媒体。
  29. 動きに基づいて前記初期深度値を割り当てることが、前記前のビデオ・ユニットのコロケート・ピクセルのルーマ値に対する前記ビデオ・ユニットの前記ピクセルのルーマ値に基づいて前記初期深度値を割り当てることを備え、
    色に基づいて前記調整された深度値を割り当てることが、前記ビデオ・ユニットの前記ピクセルのクロマ値に少なくとも部分的に基づいて前記調整された深度値を割り当てることを備え、
    前記調整された深度値を割り当てることが、クロマ値の許容区間内のクロマ値を0と前記しきい値との間の深度値にマッピングすることを含む、
    請求項26に記載のコンピュータ可読記憶媒体。
  30. 前記深度マップが、初期化された深度マップを備え、前記命令は、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応するかどうかを判断することと、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応する場合、前記初期化された深度マップを前記ビデオ・ユニットの最終深度マップとして選択することと、
    前記ビデオ・ユニットが前記前のビデオ・ユニットに対するシーン変化に対応しない場合、前記ビデオ・ユニットが前記前のビデオ・ユニットに対する低動きレベルを表すかどうかを判断することと、
    前記ビデオ・ユニットが前記低動きレベルを表さない場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前の深度マップの深度値との重み付き平均に基づいて、前記最終深度マップを定義することと、
    前記ビデオ・ユニットが前記低動きレベルを表す場合、前記ビデオ・ユニットの前記初期化された深度マップの前記深度値と、前記前のビデオ・ユニットの前記前の深度マップの前記深度値との最大値に基づいて、前記最終深度マップを定義することと、
    を前記プロセッサに行わせる、請求項26に記載のコンピュータ可読記憶媒体。
  31. 前記プロセッサがビデオ・デコーダを備え、前記命令が、
    前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行すること、
    を前記プロセッサに行わせる、請求項30に記載のコンピュータ可読記憶媒体。
  32. 前記プロセッサがビデオ・エンコーダを備え、前記命令が、前記ビデオ・ユニットとともに前記最終深度マップを通信することを前記プロセッサに行わせる、請求項30に記載のコンピュータ可読記憶媒体。
  33. 前記プロセッサがビデオ・エンコーダを備え、前記命令が、
    前記ビデオ・ユニットの2次ビューを生成するために、前記最終深度マップに基づいてビュー合成を実行することと、
    前記ビデオ・ユニットとともに前記2次ビューを通信することと、
    を前記プロセッサに行わせる、請求項30に記載のコンピュータ可読記憶媒体。
JP2012535427A 2009-10-23 2010-10-22 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法 Expired - Fee Related JP5575908B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US25455809P 2009-10-23 2009-10-23
US61/254,558 2009-10-23
US12/696,499 2010-01-29
US12/696,499 US8537200B2 (en) 2009-10-23 2010-01-29 Depth map generation techniques for conversion of 2D video data to 3D video data
PCT/US2010/053823 WO2011050304A2 (en) 2009-10-23 2010-10-22 Depth map generation techniques for conversion of 2d video data to 3d video data

Publications (2)

Publication Number Publication Date
JP2013509104A true JP2013509104A (ja) 2013-03-07
JP5575908B2 JP5575908B2 (ja) 2014-08-20

Family

ID=43898419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012535427A Expired - Fee Related JP5575908B2 (ja) 2009-10-23 2010-10-22 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法

Country Status (7)

Country Link
US (1) US8537200B2 (ja)
EP (1) EP2491722B1 (ja)
JP (1) JP5575908B2 (ja)
KR (1) KR101354387B1 (ja)
CN (1) CN102598674B (ja)
TW (1) TW201130306A (ja)
WO (1) WO2011050304A2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254097A (ja) * 2012-06-07 2013-12-19 Canon Inc 画像処理装置及びその制御方法、並びにプログラム
JP2016518051A (ja) * 2013-03-27 2016-06-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated 3d−hevcのための深度データの深度コーディングモードシグナリング
JP2017223648A (ja) * 2016-03-16 2017-12-21 アナログ ディヴァイスィズ インク 飛行時間型深度イメージングの際の消費電力の低減
US11209528B2 (en) 2017-10-15 2021-12-28 Analog Devices, Inc. Time-of-flight depth image processing systems and methods
JP2023516305A (ja) * 2020-12-16 2023-04-19 テンセント・アメリカ・エルエルシー 異種クライアントエンドポイントへのストリーミングのための2dビデオの適応のためのニューラルネットワークモデルの参照
JP7448677B2 (ja) 2020-12-08 2024-03-12 テンセント・アメリカ・エルエルシー 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
CN100566427C (zh) * 2007-07-31 2009-12-02 北京大学 用于视频编码的帧内预测编码最佳模式的选取方法及装置
US8284237B2 (en) * 2009-09-09 2012-10-09 Nokia Corporation Rendering multiview content in a 3D video system
US20110122225A1 (en) * 2009-11-23 2011-05-26 General Instrument Corporation Depth Coding as an Additional Channel to Video Sequence
US8610758B2 (en) * 2009-12-15 2013-12-17 Himax Technologies Limited Depth map generation for a video conversion system
JP2011176800A (ja) * 2010-01-28 2011-09-08 Toshiba Corp 画像処理装置、立体表示装置及び画像処理方法
US9398289B2 (en) * 2010-02-09 2016-07-19 Samsung Electronics Co., Ltd. Method and apparatus for converting an overlay area into a 3D image
US8787663B2 (en) * 2010-03-01 2014-07-22 Primesense Ltd. Tracking body parts by combined color image and depth processing
JP5572437B2 (ja) * 2010-03-29 2014-08-13 富士フイルム株式会社 3次元医用画像に基づいて立体視用画像を生成する装置および方法、並びにプログラム
EP2595116A1 (en) * 2010-05-07 2013-05-22 Telefónica, S.A. Method for generating depth maps for converting moving 2d images to 3d
EP2596641A4 (en) * 2010-07-21 2014-07-30 Thomson Licensing METHOD AND DEVICE FOR PROVIDING ADDITIONAL CONTENT IN A 3D COMMUNICATION SYSTEM
US20120050483A1 (en) * 2010-08-27 2012-03-01 Chris Boross Method and system for utilizing an image sensor pipeline (isp) for 3d imaging processing utilizing z-depth information
KR20120023431A (ko) * 2010-09-03 2012-03-13 삼성전자주식회사 깊이 조정이 가능한 2차원/3차원 영상 변환 방법 및 그 장치
WO2012061549A2 (en) * 2010-11-03 2012-05-10 3Dmedia Corporation Methods, systems, and computer program products for creating three-dimensional video sequences
JP5422538B2 (ja) * 2010-11-09 2014-02-19 株式会社東芝 画像処理装置、表示装置、方法およびそのプログラム
US20120121163A1 (en) * 2010-11-15 2012-05-17 Samsung Electronics Co., Ltd. 3d display apparatus and method for extracting depth of 3d image thereof
JP5050094B2 (ja) * 2010-12-21 2012-10-17 株式会社東芝 映像処理装置及び映像処理方法
KR20120084216A (ko) * 2011-01-19 2012-07-27 삼성전자주식회사 깊이 정보에 대한 픽셀 노이즈를 제거하는 3차원 이미지 신호 처리 방법 및 상기 방법을 수행하는 3차원 이미지 신호 프로세서
RU2480941C2 (ru) * 2011-01-20 2013-04-27 Корпорация "Самсунг Электроникс Ко., Лтд" Способ адаптивного предсказания кадра для кодирования многоракурсной видеопоследовательности
JP5594477B2 (ja) 2011-01-26 2014-09-24 Nltテクノロジー株式会社 画像表示装置、画像表示方法、及びプログラム
US9407904B2 (en) 2013-05-01 2016-08-02 Legend3D, Inc. Method for creating 3D virtual reality from 2D images
KR101763944B1 (ko) * 2011-02-18 2017-08-01 엘지디스플레이 주식회사 영상표시장치
US9483836B2 (en) * 2011-02-28 2016-11-01 Sony Corporation Method and apparatus for real-time conversion of 2-dimensional content to 3-dimensional content
CN107197226B (zh) 2011-03-18 2019-05-28 索尼公司 图像处理设备、图像处理方法和计算机可读存储介质
US9470778B2 (en) * 2011-03-29 2016-10-18 Microsoft Technology Licensing, Llc Learning from high quality depth measurements
US20120274626A1 (en) * 2011-04-29 2012-11-01 Himax Media Solutions, Inc. Stereoscopic Image Generating Apparatus and Method
EP2525581A3 (en) * 2011-05-17 2013-10-23 Samsung Electronics Co., Ltd. Apparatus and Method for Converting 2D Content into 3D Content, and Computer-Readable Storage Medium Thereof
WO2012157887A2 (en) * 2011-05-19 2012-11-22 Samsung Electronics Co., Ltd. Apparatus and method for providing 3d content
TWI482484B (zh) * 2011-06-17 2015-04-21 Wistron Corp 立體顯示系統及其方法
TWI493505B (zh) * 2011-06-20 2015-07-21 Mstar Semiconductor Inc 影像處理方法以及影像處理裝置
US8982117B2 (en) * 2011-06-22 2015-03-17 Samsung Display Co., Ltd. Display apparatus and method of displaying three-dimensional image using same
CN102857772B (zh) * 2011-06-29 2015-11-11 晨星软件研发(深圳)有限公司 影像处理方法以及影像处理装置
US9525858B2 (en) * 2011-07-06 2016-12-20 Telefonaktiebolaget Lm Ericsson (Publ) Depth or disparity map upscaling
US9351028B2 (en) * 2011-07-14 2016-05-24 Qualcomm Incorporated Wireless 3D streaming server
US9363535B2 (en) 2011-07-22 2016-06-07 Qualcomm Incorporated Coding motion depth maps with depth range variation
CA2844602A1 (en) * 2011-08-09 2013-02-14 Samsung Electronics Co., Ltd. Method and device for encoding a depth map of multi viewpoint video data, and method and device for decoding the encoded depth map
US8711141B2 (en) * 2011-08-28 2014-04-29 Arcsoft Hangzhou Co., Ltd. 3D image generating method, 3D animation generating method, and both 3D image generating module and 3D animation generating module thereof
WO2013031573A1 (ja) 2011-08-31 2013-03-07 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法
WO2013031575A1 (ja) * 2011-08-31 2013-03-07 ソニー株式会社 画像処理装置および画像処理方法
US8928729B2 (en) * 2011-09-09 2015-01-06 Disney Enterprises, Inc. Systems and methods for converting video
US20130071008A1 (en) * 2011-09-15 2013-03-21 National Taiwan University Image conversion system using edge information
TWI486053B (zh) * 2011-09-27 2015-05-21 Realtek Semiconductor Corp 立體影像傳輸方法及立體影像傳輸電路
TWI595770B (zh) * 2011-09-29 2017-08-11 杜比實驗室特許公司 具有對稱圖像解析度與品質之圖框相容全解析度立體三維視訊傳達技術
CN103037226A (zh) * 2011-09-30 2013-04-10 联咏科技股份有限公司 深度融合方法及其装置
US8995755B2 (en) 2011-09-30 2015-03-31 Cyberlink Corp. Two-dimensional to stereoscopic conversion systems and methods
US9167269B2 (en) 2011-10-25 2015-10-20 Qualcomm Incorporated Determining boundary strength values for deblocking filtering for video coding
JP5791818B2 (ja) * 2011-11-01 2015-10-07 コーニンクレッカ フィリップス エヌ ヴェ 突出ベース視差マッピング
US9471988B2 (en) 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
JP6095067B2 (ja) * 2011-11-14 2017-03-15 国立研究開発法人情報通信研究機構 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
US9661307B1 (en) * 2011-11-15 2017-05-23 Google Inc. Depth map generation using motion cues for conversion of monoscopic visual content to stereoscopic 3D
US8611642B2 (en) 2011-11-17 2013-12-17 Apple Inc. Forming a steroscopic image using range map
US9041819B2 (en) 2011-11-17 2015-05-26 Apple Inc. Method for stabilizing a digital video
US20130129192A1 (en) * 2011-11-17 2013-05-23 Sen Wang Range map determination for a video frame
WO2013086137A1 (en) 2011-12-06 2013-06-13 1-800 Contacts, Inc. Systems and methods for obtaining a pupillary distance measurement using a mobile computing device
US9414048B2 (en) 2011-12-09 2016-08-09 Microsoft Technology Licensing, Llc Automatic 2D-to-stereoscopic video conversion
TWI483612B (zh) * 2011-12-22 2015-05-01 Nat Univ Chung Cheng Converting the video plane is a perspective view of the video system
US9571810B2 (en) * 2011-12-23 2017-02-14 Mediatek Inc. Method and apparatus of determining perspective model for depth map generation by utilizing region-based analysis and/or temporal smoothing
US9137519B1 (en) 2012-01-04 2015-09-15 Google Inc. Generation of a stereo video from a mono video
US8824778B2 (en) * 2012-01-13 2014-09-02 Cyberlink Corp. Systems and methods for depth map generation
WO2013109252A1 (en) * 2012-01-17 2013-07-25 Thomson Licensing Generating an image for another view
TWI499278B (zh) * 2012-01-20 2015-09-01 Univ Nat Taiwan Science Tech 影像重建方法
TWI478102B (zh) * 2012-01-20 2015-03-21 Realtek Semiconductor Corp 影像深度產生裝置與其方法
CN103220539B (zh) * 2012-01-21 2017-08-15 瑞昱半导体股份有限公司 图像深度产生装置及其方法
US9111350B1 (en) 2012-02-10 2015-08-18 Google Inc. Conversion of monoscopic visual content to stereoscopic 3D
KR20130098042A (ko) * 2012-02-27 2013-09-04 삼성전자주식회사 깊이 정보 생성 장치 및 이를 포함하는 촬영 장치
US9313498B2 (en) 2012-04-16 2016-04-12 Qualcomm Incorporated Sign hiding techniques for quantized transform coefficients in video coding
CA2869322C (en) 2012-04-20 2021-04-13 Affirmation, Llc Systems and methods for real-time conversion of video into three-dimensions
JP5871705B2 (ja) * 2012-04-27 2016-03-01 株式会社日立メディコ 画像表示装置、方法及びプログラム
US9311746B2 (en) 2012-05-23 2016-04-12 Glasses.Com Inc. Systems and methods for generating a 3-D model of a virtual try-on product
US9483853B2 (en) 2012-05-23 2016-11-01 Glasses.Com Inc. Systems and methods to display rendered images
US9286715B2 (en) 2012-05-23 2016-03-15 Glasses.Com Inc. Systems and methods for adjusting a virtual try-on
US9013549B2 (en) 2012-05-24 2015-04-21 Silicon Integrated Systems Corp. Depth map generation for conversion of two-dimensional image data into three-dimensional image data
US9621869B2 (en) * 2012-05-24 2017-04-11 Sony Corporation System and method for rendering affected pixels
US20130321564A1 (en) 2012-05-31 2013-12-05 Microsoft Corporation Perspective-correct communication window with motion parallax
US9846960B2 (en) 2012-05-31 2017-12-19 Microsoft Technology Licensing, Llc Automated camera array calibration
US9767598B2 (en) 2012-05-31 2017-09-19 Microsoft Technology Licensing, Llc Smoothing and robust normal estimation for 3D point clouds
US20130329800A1 (en) * 2012-06-07 2013-12-12 Samsung Electronics Co., Ltd. Method of performing prediction for multiview video processing
US20140003530A1 (en) * 2012-06-28 2014-01-02 Qualcomm Incorporated Sign hiding techniques for quantized transform coefficients in video coding
TWI464692B (zh) * 2012-07-03 2014-12-11 Wistron Corp 操作物辨識方法、操作物深度資訊建立方法及電子裝置
US9175975B2 (en) 2012-07-30 2015-11-03 RaayonNova LLC Systems and methods for navigation
US8666655B2 (en) 2012-07-30 2014-03-04 Aleksandr Shtukater Systems and methods for navigation
US9360932B1 (en) * 2012-08-29 2016-06-07 Intellect Motion Llc. Systems and methods for virtually displaying real movements of objects in a 3D-space by means of 2D-video capture
KR101355894B1 (ko) * 2012-09-14 2014-01-29 한밭대학교 산학협력단 적응적 깊이 융합을 이용한 2차원 영상의 3차원 영상 변환장치 및 방법
US9374583B2 (en) * 2012-09-20 2016-06-21 Qualcomm Incorporated Video coding with improved random access point picture behaviors
US10085039B2 (en) * 2012-09-21 2018-09-25 Hfi Innovation Inc. Method and apparatus of virtual depth values in 3D video coding
US9501831B2 (en) * 2012-10-02 2016-11-22 Google Inc. Identification of relative distance of objects in images
US8976224B2 (en) 2012-10-10 2015-03-10 Microsoft Technology Licensing, Llc Controlled three-dimensional communication endpoint
US9098911B2 (en) * 2012-11-01 2015-08-04 Google Inc. Depth map generation from a monoscopic image based on combined depth cues
US9547937B2 (en) 2012-11-30 2017-01-17 Legend3D, Inc. Three-dimensional annotation system and method
US9875543B2 (en) * 2012-12-10 2018-01-23 Intel Corporation Techniques for rectification of camera arrays
US9857470B2 (en) 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
KR20140089860A (ko) 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 방법
JP6150277B2 (ja) * 2013-01-07 2017-06-21 国立研究開発法人情報通信研究機構 立体映像符号化装置、立体映像復号化装置、立体映像符号化方法、立体映像復号化方法、立体映像符号化プログラム及び立体映像復号化プログラム
US9826244B2 (en) * 2013-01-08 2017-11-21 Qualcomm Incorporated Device and method for scalable coding of video information based on high efficiency video coding
JP2016510473A (ja) * 2013-02-12 2016-04-07 トムソン ライセンシングThomson Licensing デプスマップのコンテンツを強化するための方法およびデバイス
EP2962290B1 (en) * 2013-02-21 2019-07-17 HERE Global B.V. Relaying 3d information by depth simulation using 2d pixel displacement
US9940553B2 (en) 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
US9674498B1 (en) 2013-03-15 2017-06-06 Google Inc. Detecting suitability for converting monoscopic visual content to stereoscopic 3D
US9191643B2 (en) 2013-04-15 2015-11-17 Microsoft Technology Licensing, Llc Mixing infrared and color component data point clouds
CN103260032B (zh) * 2013-04-18 2016-07-06 清华大学深圳研究生院 一种立体视频深度图序列的帧率提升方法
US9438878B2 (en) 2013-05-01 2016-09-06 Legend3D, Inc. Method of converting 2D video to 3D video using 3D object models
JP5858254B2 (ja) * 2013-06-06 2016-02-10 ソニー株式会社 2次元コンテンツの3次元コンテンツへのリアルタイム変換の方法及び装置
ITTO20130503A1 (it) * 2013-06-18 2014-12-19 Sisvel Technology Srl Metodo e dispositivo per la generazione, memorizzazione, trasmissione, ricezione e riproduzione di mappe di profondita¿ sfruttando le componenti di colore di un¿immagine facente parte di un flusso video tridimensionale
WO2015003554A1 (en) 2013-07-08 2015-01-15 Mediatek Singapore Pte. Ltd. Method of simplified cabac coding in 3d video coding
US10045014B2 (en) * 2013-07-15 2018-08-07 Mediatek Singapore Pte. Ltd. Method of disparity derived depth coding in 3D video coding
US10491916B2 (en) * 2013-10-01 2019-11-26 Advanced Micro Devices, Inc. Exploiting camera depth information for video encoding
US9619884B2 (en) * 2013-10-03 2017-04-11 Amlogic Co., Limited 2D to 3D image conversion device and method
EP3084721A4 (en) * 2013-12-17 2017-08-09 Intel Corporation Camera array analysis mechanism
CN103686139B (zh) 2013-12-20 2016-04-06 华为技术有限公司 帧图像转换方法、帧视频转换方法及装置
KR101694522B1 (ko) * 2014-02-11 2017-01-10 한국전자통신연구원 2차원 동영상을 3차원 동영상으로 변환하는 방법 및 장치
CN104933755B (zh) * 2014-03-18 2017-11-28 华为技术有限公司 一种静态物体重建方法和系统
WO2015158570A1 (en) * 2014-04-17 2015-10-22 Koninklijke Philips N.V. System, method for computing depth from video
WO2015184605A1 (en) * 2014-06-04 2015-12-10 Mediatek Singapore Pte. Ltd. Depth coding compatible with arbitrary bit-depth
US20160050440A1 (en) * 2014-08-15 2016-02-18 Ying Liu Low-complexity depth map encoder with quad-tree partitioned compressed sensing
CN104361583B (zh) * 2014-10-27 2017-03-08 浙江科技学院 一种确定非对称失真立体图像客观质量的方法
CN104615421A (zh) * 2014-12-30 2015-05-13 广州酷狗计算机科技有限公司 虚拟礼物展示方法和装置
US10127714B1 (en) 2015-01-27 2018-11-13 Google Llc Spherical three-dimensional video rendering for virtual reality
US9679387B2 (en) * 2015-02-12 2017-06-13 Mitsubishi Electric Research Laboratories, Inc. Depth-weighted group-wise principal component analysis for video foreground/background separation
US9948920B2 (en) 2015-02-27 2018-04-17 Qualcomm Incorporated Systems and methods for error correction in structured light
US10068338B2 (en) 2015-03-12 2018-09-04 Qualcomm Incorporated Active sensing spatial resolution improvement through multiple receivers and code reuse
US9530215B2 (en) 2015-03-20 2016-12-27 Qualcomm Incorporated Systems and methods for enhanced depth map retrieval for moving objects using active sensing technology
US9635339B2 (en) 2015-08-14 2017-04-25 Qualcomm Incorporated Memory-efficient coded light error correction
WO2017030507A1 (en) * 2015-08-19 2017-02-23 Heptagon Micro Optics Pte. Ltd. Generating a disparity map having reduced over-smoothing
US9846943B2 (en) 2015-08-31 2017-12-19 Qualcomm Incorporated Code domain power control for structured light
US10142613B2 (en) * 2015-09-03 2018-11-27 Kabushiki Kaisha Toshiba Image processing apparatus, image processing system, and image processing method
US9609307B1 (en) * 2015-09-17 2017-03-28 Legend3D, Inc. Method of converting 2D video to 3D video using machine learning
TWI553591B (zh) * 2015-12-28 2016-10-11 緯創資通股份有限公司 深度影像處理方法及深度影像處理系統
US9852513B2 (en) * 2016-03-01 2017-12-26 Intel Corporation Tracking regions of interest across video frames with corresponding depth maps
EP3223524A1 (en) * 2016-03-22 2017-09-27 Thomson Licensing Method, apparatus and stream of formatting an immersive video for legacy and immersive rendering devices
US10560683B2 (en) 2016-04-08 2020-02-11 Maxx Media Group, LLC System, method and software for producing three-dimensional images that appear to project forward of or vertically above a display medium using a virtual 3D model made from the simultaneous localization and depth-mapping of the physical features of real objects
DE102016208056A1 (de) 2016-05-11 2017-11-16 Robert Bosch Gmbh Verfahren und Vorrichtung zur Verarbeitung von Bilddaten und Fahrerassistenzsystem für ein Fahrzeug
US10607417B2 (en) 2016-06-08 2020-03-31 Sony Interactive Entertainment Inc. Image generating apparatus and image generating method
WO2017212720A1 (ja) * 2016-06-08 2017-12-14 株式会社ソニー・インタラクティブエンタテインメント 画像生成装置および画像生成方法
US10553029B1 (en) 2016-09-30 2020-02-04 Amazon Technologies, Inc. Using reference-only decoding of non-viewed sections of a projected video
US10026014B2 (en) * 2016-10-26 2018-07-17 Nxp Usa, Inc. Method and apparatus for data set classification based on generator features
US20200005529A1 (en) * 2017-01-23 2020-01-02 Virtual Diamond Boutique Inc. System, method and computer-accessible medium for displaying a three-dimensional digital version of an object
US10609356B1 (en) * 2017-01-23 2020-03-31 Amazon Technologies, Inc. Using a temporal enhancement layer to encode and decode stereoscopic video content
KR101947782B1 (ko) 2017-02-22 2019-02-13 한국과학기술원 열화상 영상 기반의 거리 추정 장치 및 방법. 그리고 이를 위한 신경망 학습 방법
EP3396949A1 (en) * 2017-04-26 2018-10-31 Koninklijke Philips N.V. Apparatus and method for processing a depth map
US10547784B2 (en) * 2017-06-19 2020-01-28 SighTour Technologies, Inc. Image stabilization
US10735707B2 (en) * 2017-08-15 2020-08-04 International Business Machines Corporation Generating three-dimensional imagery
US11157985B2 (en) * 2017-11-29 2021-10-26 Ditto Technologies, Inc. Recommendation system, method and computer program product based on a user's physical features
US10984583B2 (en) * 2018-03-28 2021-04-20 Apple Inc. Reconstructing views of real world 3D scenes
FR3080968A1 (fr) * 2018-05-03 2019-11-08 Orange Procede et dispositif de decodage d'une video multi-vue, et procede et dispositif de traitement d'images.
KR102219561B1 (ko) 2018-11-23 2021-02-23 연세대학교 산학협력단 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법
EP4216164A1 (en) * 2019-01-28 2023-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Localization of elements in the space
US11670039B2 (en) 2019-03-04 2023-06-06 Dolby Laboratories Licensing Corporation Temporal hole filling for depth image based video rendering
TWI720513B (zh) * 2019-06-14 2021-03-01 元智大學 影像放大方法
CN113643342B (zh) * 2020-04-27 2023-11-14 北京达佳互联信息技术有限公司 一种图像处理方法、装置、电子设备及存储介质
TWI736335B (zh) * 2020-06-23 2021-08-11 國立成功大學 基於深度影像生成方法、電子裝置與電腦程式產品
US20230237730A1 (en) * 2022-01-21 2023-07-27 Meta Platforms Technologies, Llc Memory structures to support changing view direction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0898210A (ja) * 1994-09-21 1996-04-12 Sanyo Electric Co Ltd 動きベクトル検出装置
JPH09107562A (ja) * 1994-02-01 1997-04-22 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する方法及び3次元映像信号生成装置
JPH1051812A (ja) * 1996-08-07 1998-02-20 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置および方法
JP2001320731A (ja) * 1999-11-26 2001-11-16 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置及びその方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69121930T2 (de) 1990-02-08 1997-04-03 Canon Kk Bildaufnahmevorrichtung
US6208693B1 (en) 1997-02-14 2001-03-27 At&T Corp Chroma-key for efficient and low complexity shape representation of coded arbitrary video objects
AUPO894497A0 (en) 1997-09-02 1997-09-25 Xenotech Research Pty Ltd Image processing method and apparatus
KR100327103B1 (ko) 1998-06-03 2002-09-17 한국전자통신연구원 사용자의조력및물체추적에의한영상객체분할방법
CN1236628C (zh) * 2000-03-14 2006-01-11 株式会社索夫特4D 产生立体图像的方法和装置
US7676081B2 (en) 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7720283B2 (en) 2005-12-09 2010-05-18 Microsoft Corporation Background removal in a live video
US8250940B2 (en) 2006-07-20 2012-08-28 Steering Solutions Ip Holding Corporation System and method for controlling contact between members in operable communication
DE102006035906A1 (de) 2006-07-31 2008-04-17 Claas Selbstfahrende Erntemaschinen Gmbh Messvorrichtung zur Inhaltsstofferfassung
KR20090071624A (ko) * 2006-10-04 2009-07-01 코닌클리케 필립스 일렉트로닉스 엔.브이. 이미지 개선
US20080205791A1 (en) * 2006-11-13 2008-08-28 Ramot At Tel-Aviv University Ltd. Methods and systems for use in 3d video generation, storage and compression
US8330801B2 (en) * 2006-12-22 2012-12-11 Qualcomm Incorporated Complexity-adaptive 2D-to-3D video sequence conversion
CA2627999C (en) * 2007-04-03 2011-11-15 Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada Generation of a depth map from a monoscopic color image for rendering stereoscopic still and video images
US8131098B2 (en) * 2007-07-06 2012-03-06 Panasonic Corporation Image processing device, image processing method, image processing system, program, storage medium, and integrated circuit
CN101483788B (zh) * 2009-01-20 2011-03-23 清华大学 一种平面视频转立体视频的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09107562A (ja) * 1994-02-01 1997-04-22 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する方法及び3次元映像信号生成装置
JPH0898210A (ja) * 1994-09-21 1996-04-12 Sanyo Electric Co Ltd 動きベクトル検出装置
JPH1051812A (ja) * 1996-08-07 1998-02-20 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置および方法
JP2001320731A (ja) * 1999-11-26 2001-11-16 Sanyo Electric Co Ltd 2次元映像を3次元映像に変換する装置及びその方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013254097A (ja) * 2012-06-07 2013-12-19 Canon Inc 画像処理装置及びその制御方法、並びにプログラム
JP2016518051A (ja) * 2013-03-27 2016-06-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated 3d−hevcのための深度データの深度コーディングモードシグナリング
JP2017223648A (ja) * 2016-03-16 2017-12-21 アナログ ディヴァイスィズ インク 飛行時間型深度イメージングの際の消費電力の低減
US10841491B2 (en) 2016-03-16 2020-11-17 Analog Devices, Inc. Reducing power consumption for time-of-flight depth imaging
US11209528B2 (en) 2017-10-15 2021-12-28 Analog Devices, Inc. Time-of-flight depth image processing systems and methods
JP7448677B2 (ja) 2020-12-08 2024-03-12 テンセント・アメリカ・エルエルシー 没入型メディアをストリーミングする方法、並びにそのデバイス、及びコンピュータプログラム
JP2023516305A (ja) * 2020-12-16 2023-04-19 テンセント・アメリカ・エルエルシー 異種クライアントエンドポイントへのストリーミングのための2dビデオの適応のためのニューラルネットワークモデルの参照
JP7447293B2 (ja) 2020-12-16 2024-03-11 テンセント・アメリカ・エルエルシー 異種クライアントエンドポイントへのストリーミングのための2dビデオの適応のためのニューラルネットワークモデルの参照

Also Published As

Publication number Publication date
KR101354387B1 (ko) 2014-01-22
EP2491722A2 (en) 2012-08-29
TW201130306A (en) 2011-09-01
JP5575908B2 (ja) 2014-08-20
US20110096832A1 (en) 2011-04-28
US8537200B2 (en) 2013-09-17
CN102598674B (zh) 2014-12-10
KR20120071407A (ko) 2012-07-02
WO2011050304A3 (en) 2011-06-16
CN102598674A (zh) 2012-07-18
EP2491722B1 (en) 2015-09-23
WO2011050304A2 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
JP5575908B2 (ja) 2dビデオデータの3dビデオデータへの変換のための深度マップ生成技法
US20210218889A1 (en) Image data encoding/decoding method and apparatus
JP5763184B2 (ja) 3次元画像に対する視差の算出
JP6026534B2 (ja) 深度範囲の変動を伴う動き深度マップのコーディング
US8488870B2 (en) Multi-resolution, multi-window disparity estimation in 3D video processing
US9552633B2 (en) Depth aware enhancement for stereo video
TWI527431B (zh) 基於非對稱圖紋及深度解析度之視圖合成
JP2021168479A (ja) デプスマップの推定および更新を用いる効率的なマルチビュー符号化
US9035939B2 (en) 3D video control system to adjust 3D video rendering based on user preferences
JP5970609B2 (ja) 3dビデオ符号化における統一された視差ベクトル導出の方法と装置
US11758191B2 (en) Method and apparatus of encoding/decoding image data based on tree structure-based block division
JP2009513074A (ja) スケーラブル映像符号化を用いた多視点映像符号化
Ma et al. Low complexity adaptive view synthesis optimization in HEVC based 3D video coding
WO2018223086A1 (en) Methods for full parallax light field compression
EP2920970A1 (en) Method and apparatus for prediction value derivation in intra coding
KR20140124919A (ko) 객체 기반 적응적 밝기 보상 방법 및 장치
WO2015056712A1 (ja) 動画像符号化方法、動画像復号方法、動画像符号化装置、動画像復号装置、動画像符号化プログラム、及び動画像復号プログラム
BR112016020544B1 (pt) Realce consciente de profundidade para vídeo estéreo
KR20140124045A (ko) 객체 기반 적응적 밝기 보상 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131209

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140702

R150 Certificate of patent or registration of utility model

Ref document number: 5575908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees