JP2018528733A - 2dから3dへのビデオフレーム変換 - Google Patents
2dから3dへのビデオフレーム変換 Download PDFInfo
- Publication number
- JP2018528733A JP2018528733A JP2018525821A JP2018525821A JP2018528733A JP 2018528733 A JP2018528733 A JP 2018528733A JP 2018525821 A JP2018525821 A JP 2018525821A JP 2018525821 A JP2018525821 A JP 2018525821A JP 2018528733 A JP2018528733 A JP 2018528733A
- Authority
- JP
- Japan
- Prior art keywords
- image
- depth
- video frame
- depth information
- input video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/261—Image signal generators with monoscopic-to-stereoscopic image conversion
- H04N13/268—Image signal generators with monoscopic-to-stereoscopic image conversion based on depth image-based rendering [DIBR]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/738—Presentation of query results
- G06F16/739—Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/20—Image signal generators
- H04N13/261—Image signal generators with monoscopic-to-stereoscopic image conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0088—Synthesising a monoscopic image signal from stereoscopic images, e.g. synthesising a panoramic or high resolution monoscopic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
過去数年間、3D媒体のアプリケーションは映画の範囲をはるかに越えて、多くの研究者から大きな関心を寄せられている。Liuら [15] は、3D映画撮影術の原理とともに、映画以外の3Dコンテンツにその技術を適用する重要性を論じている。Wuら [23] は、3Dコンテンツの品質をリアルタイムの遠隔没入型アプリケーションに適合させている。Calagariら [9] は、多種多様なディスプレイ装置に応じて奥行をカスタマイズできる3Dストリーミングシステムを提案している。Yang [24] らは、クライアントの視角に基づいて遠隔没入型環境における3Dコンテンツストリーミングの優先順位を決めている。これらのシステムは利便性の高い3Dアプリケーションを提供するが、3Dコンテンツの量が限られていることは依然として3D技術にとって大きな障害となる。この問題に取り組むため、多くの研究者が2D-3D変換技術を研究している。しかしながら、従来の方法は、半自動的であるか [19、26]、複雑な動きに対応できないか [12、21、13、10、11] のいずれかである。本発明者の知る限りでは、多様なシーン構造を伴う複雑な動きを処理できるサッカー向けの2D-3D変換技術は存在していなかった。
US 2013/0147911の方法では、データベースからクエリー画像に最も類似した画像(候補)を選び出す。その候補をクエリー画像にワープし、深度と融合してクエリーの深度を推定する。この方法では、局所探索(ブロックマッチング)は行わず、深度勾配に依拠せず、ポアソン方程式を用いた深度勾配からの深度再構築も行っていない。本発明者の方法は以下の点でこの従来技術と区別される。
・ 合成3Dデータベース(2D画像と深度情報のペアのデータベース)を使用する。
・ 候補に対して局所探索(ブロックマッチング)を行う。すなわち、クエリー内のブロックごとに、候補画像内のすべてのブロック(部分)を探索して最もマッチするブロックを見つける。
・ 候補の絶対深度ではなく深度の空間勾配をクエリーにコピーする。
・ ポアソン方程式を用いてクエリーの深度勾配からクエリーの深度マップを再構築する。
・ オブジェクト境界を描画し、オブジェクト境界に対するポアソン方程式をカットすることにより深度不連続性を許容する。
US 2015/0093017は、入力と出力が異なる、まったく別のシステムである。主な相違点は以下である。
・ 入力は3Dビデオであり(私たちが提案するシステムでは入力は2Dビデオ)であり、出力はそのビデオに対する固有のシグネチャである(そのビデオの3Dバージョンを出力とする本発明者のシステムとは異なる)。
・ このシステムでは画像の左側と右側のピクセルをマッチングするツールとしてSIFTを使用するが、本発明者はクエリー内の各ブロックと最もマッチするブロックをデータベースから検索し、検索したブロックの深度勾配をコピーするためのツールとしてSIFTを使用する。
・ このシステムは目的が異なるため深度マップの推定は行わず、したがって視覚探索、局所探索(ブロックマッチング)、勾配マッピング、境界カット、およびポアソン再構築の技術は使用していない。
US 8,953,905 B2の方法は、本発明者の完全自動化された方法と比較すれば半自動的な方法である。この発明の諸側面は、「現在の多くの動画にはコンピュータで生成された要素が含まれ、それらの要素には例えばロボットや宇宙船のような現実には存在しないオブジェクトや、動画に効果として加えられる埃、霧、雲などのオブジェクトがある」ことを前提としている。ここでいうオブジェクトとは、その深度が自動的に推定されるオブジェクトのことであり、それに関して従来技術では次のように記載されている。「本発明の実施形態は、コンピュータで生成された要素に関連付けられた任意の種類のデータファイルをインポートして、コンピュータで生成された要素に関連付けられた画像の部分に対して即時に深度値を与えるものである。」「コンピュータ生成オブジェクト以外のすべてのオブジェクトに対しては意図的に深度を調整する。」
この従来技術と本発明者の方法との主な相違点は以下である。
・ この従来技術は、本発明者の方法とは異なり、コンピュータで生成されていないオブジェクトの深度をデータベースから自動的に推定することができない。スポーツビデオのほとんどのシーンがコンピュータで生成されていないことを考慮すれば、この発明はスポーツビデオには適していない。
・ この従来技術ではコンピュータで生成されていないオブジェクトの他にキーフレームのオブジェクトマスクもインタフェースツールを使用して手作業で調整しているが、本発明者の方法ではオブジェクト境界は自動的に描画される。
・ この従来技術では視覚探索、局所探索(ブロックマッチング)、勾配マッピング、および深度再構築は使用されていないが、それらの技術は本発明者の方法の中心部分を構成している。
Calagariのシステムの目的および入力/出力は本発明者の方法とはまったく異なる。主な相違点は以下である。
・ このシステムの主要目的は3Dビデオの画質補正であるが、私たちが提案するシステムの目的は3Dビデオの生成である。このシステムの入力は3Dビデオであるが、本発明者の提案するシステムの入力は2Dビデオである。
・ 3Dデータベースが使用されない。
・ ビデオがすでに3Dであるため、このシステムでは深度の推定が行われない。したがって、視覚探索、局所探索(ブロックマッチング)、勾配マッピング、境界カット、およびポアソン再構築(深度勾配からの深度の再構築)の技術は使用されない。
Corriganの研究の目的は、通常の製作時に生成される映像の代表例となるステレオ3Dビデオのデータベースを提供して、色のアンバランス、ステレオペアの調整、深度の編集などの3Dポストプロダクションに関わる技術的難題への研究者の理解を深めることにある。本発明者の方法との主要な相違点は以下である。
・ この研究は3Dデータベースのみを提供し、変換方法は提供しない。
・ この3Dデータベースは3Dで撮影されたビデオの画質補正を行うことを目的とするが、本発明者の方法はデータベースを使用して、2Dで撮影されたビデオを3Dに変換することを目的とする。
・ 本発明者のデータベースとは異なり、このデータベースは合成ではないため、高品質の深度マップを利用できない。
Dominicの方法と本発明者の技術との主な相違点は以下である。
・ ここで使用されるデータベースは合成ではない。
・ この方法では、データベース画像の深度勾配ではなくデータベース画像の絶対深度を使用している。
・ この方法では、候補画像を検索した後、局所探索(ブロックマッチング)、勾配マッピング、境界カット、またはポアソン再構築を行わず、候補の深度マップの中央値をクエリーの推定深度として使用するだけである。
Kianaの方法は前述のDominicの方法と類似している。Kianaが提示した技術と本発明者の技術との主な相違点は以下である。
・ この方法で使用されるデータベースは合成ではない。また、深度勾配のデータベースではなく2D+深度画像のデータベースである。
・ この方法では、データベース画像の深度勾配ではなくデータベース画像の絶対深度を使用している。今後の研究の一案として深度勾配を使用する必要性は提起されているが、その内容は説明されていない。
・ この方法では、候補画像を検索した後、局所探索(ブロックマッチング)、勾配マッピング、境界カット、またはポアソン再構(深度勾配からの深度マップの再構築)は行わず、SIFTフローを使用して候補をワープし、ワープされた候補の深度マップの中央値をクエリーの推定深度として使用している。SIFTフローはSIFTを基本ツールとして使用するワープ方法だが、本発明者の方法とはやり方も目的も異なっていることに留意すべきである。SIFTフローでは、SIFTを使用して、SIFTで記述されたフローに基づいて各ピクセルを移動することによりRGB画像を別のRGB画像にワープしている。しかし、本発明者の方法では、SIFTを使用してクエリー内のブロックごとに最もマッチするブロックを探し、見つかったブロックの深度マップの勾配をクエリー内の対応するブロックにコピーしている。
Zhangの研究では、まったく同じ場所を写した非常に多くの写真をインターネットで入手できる、大都市や観光地の画像に特に注目している。彼らはこの膨大なインターネット写真集(IPC)を利用して多くの画像補正技術を実施している。これらの補正技術の一つが2D画像から3D画像への変換である。この研究と本発明者の方法との主な相違点は以下である。
・ この研究で、彼らは最初に前景/背景のセグメント化を行い、背景に深度を割り当てるだけのためにIPCデータベースを使用している。前景には手作業で深度を割り当てている。しかし、本発明者の方法では、前景と背景の両方の深度が自動的に推定される。
・ この方法は、本発明者の方法とは異なり、まったく同じ場所の写真が記憶されたデータベースを必要とするため、視覚的に類似しているだけの画像を使用して実施することはできない。
・ 背景の深度は、まったく同じ場所の写真を使用してその場所の3Dモデルを生成することにより推定される。彼らの2D-3D変換技術では、局所探索(ブロックマッチング)、勾配マッピング、境界カット、またはポアソン再構築(深度勾配からの深度マップの再構築)は行われない。ポアソン方程式は、画像の深度マップではなく画像自体を再構築する目的で彼らの他の測光補正技術(2D-3D変換ではない)で使用されている。
ビデオフレームの参照データベースを作成し、データベースの各エントリは2D画像およびその2D画像に対応する深度情報とで構成され、
入力ビデオフレームを前記参照データベースに投入し、
前記入力ビデオフレームを前記参照データベース内の2D画像とマッチングし、その2D画像に対応する深度情報を選択し、
前記選択した深度情報を前記マッチングされた入力ビデオフレームに適用して2D+深度情報のフレームを生成することから成る。
入力ビデオフレームを部分に分割し、前記入力ビデオフレームを前記参照データベース内の2D画像とマッチングすることは、
前記入力ビデオフレームの部分を前記参照データベース内の2D画像の部分とマッチングすることから成る。
前記入力ビデオフレーム内のオブジェクトを特定し、
前記特定したオブジェクトのオブジェクトマスクを決定し、
前記決定したオブジェクトマスクおよび前記マッチングされた入力ビデオフレームを用いて深度情報を推定することから成る。
各エントリが2D画像およびその2D画像の対応する深度情報とで構成される、ビデオフレームの参照データベースと、
入力ビデオフレームを参照データベースに投入するように作動する探索モジュールと、
入力ビデオフレームを参照データベース内の2D画像とマッチングし、その2D画像に対応する深度情報を選択するように作動するマッチングモジュールと、
選択した深度情報をマッチングされた入力ビデオフレームに適用して2D+深度情報のフレームを生成するように作動する生成モジュールとから成る。
ビデオフレームの参照データベースを作成し、データベースの各エントリは2D画像およびその2D画像に対応する深度情報とで構成され、
入力ビデオフレームを参照データベースに投入し、
入力ビデオフレームを参照データベース内の2D画像とマッチングし、その2D画像に対応する深度情報を選択し、
選択した深度情報を前記マッチングされた入力ビデオフレームに適用して2D+深度情報のフレームを生成することから成る。
立体3D(S3D)動画は普及が進み、ほとんどの大手製作会社からこの形式の動画がリリースされている。しかし、ほとんどの動画が2Dで撮影されているため、手作業で深度マップをペイントし、対応するビューを描画(レンダリング)することにより動画をS3Dにアップコンバートしているのが現状である。このプロセスでは非常に優れた結果が生み出されるが、膨大な費用と時間が必要である。ライブイベントのS3Dを製作する場合はさらに多くの困難が伴う。手作業によるアップコンバートは不可能である。サッカーの試合などのライブイベントを直接にステレオ撮影するにはスタジアムに複数のステレオ装置を設置する必要があるが、それには大変な労力が要求されるため実際に試みられることは滅多にない。そのため、ライブイベントで自動的に高品質の2D-3D変換ができる方法が強く望まれている。現在の自動変換方法は性能が高くはない。ほとんどの方法は汎用であり、どの種類のビデオストリームにも適用できるようになっている。しかし、その出力はアーチファクトで損なわれているため多くの視聴者から受け入れられないか、または、アップコンバートの方法がきわめて旧式なため、変換後のビデオにはわずかな奥行感しか与えられない。
行う。ポアソン再構築とは、ポアソン方程式を解くことにより画像の深度勾配からその画像を再生する、従来から利用されている堅牢な技術である [18, 7]。選手の境界は明瞭であることが望ましいが、本発明者の方法では、オブジェクトマスクを作成し、オブジェクト境界を検出することにより深度不連続性に対処している。本発明者の提案する技術により、カメラの様々な視野、オクルージョン、クローズアップ、散乱、複雑な動きが含まれた広範囲なサッカービデオショットを処理することが可能である。
本発明者のシステムの中心部は深度勾配からの深度推定であり、入力2Dビデオに対して、本発明者の生成したS-RGBDデータベースに基づいて深度を推定する。図1はこの処理の概要を示している。被検査2Dフレームに対して、本発明者の生成したデータベース内のKが最も近いフレームを検索する。被検査フレームに対してマッチングする画像を生成する。このマッチングする画像はブロックごとに生成するが、その場合、被検査フレーム内の各ブロックに対して、K候補画像内の最もマッチするブロックを検索する。次に、マッチしたブロック(部分)から被検査フレームに深度勾配をコピーする。最後に、ポアソン方程式を解くことにより、コピーされた深度勾配から深度を再構築する。本発明者の方法では、オブジェクトマスク(セクション3を参照)を使用してオブジェクト境界の周囲の深度不連続性を明瞭にしている。以下で各ステップをより詳細に説明する。
本発明者は、3Dビデオの品質評価のための3つの主要な知覚的特質(画像品質、奥行品質、視覚的快適性(又は不快適性))を提言するITU BT.2021勧告に準拠して主観的な実験を実施した。画像品質は主に符号化または伝送により影響を受ける。奥行品質は知覚される奥行の量の尺度であり、視覚的快適性は3D知覚に起因するあらゆる形態の生理的不快感(疲労、眼精疲労、頭痛など)の尺度である。このような不快感は、3Dアーチファクト、奥行の変化、コンフォートゾーン侵害、またはクロストークに起因することが多い。本発明者の実験では奥行品質と視覚的快適性を評価した。圧縮または符号化のパラメータの変更やシーケンスの伝送は行っていないため、画像品質の評価は行っていない。
本発明者が変換したシーケンスを観たときの被験者の平均的な満足度を測定することにより、本発明者の2D-3D変換の評価を行った。調査対象は4つのサッカーシーケンスと4つのサッカー以外のシーケンスである。ITU勧告の単一刺激(SS)法を使用して奥行品質および視覚的快適性を評価した。被験者はこれらのシーケンスをランダムな順序で見せられた。各シーケンスの長さは10〜15秒だが、その前にシーケンスのコード名を表示したミッドグレーのフィールドが5秒間、その後に評価を行うよう被験者に求めるミッドグレーのフィールドが10秒間表示された。奥行品質および快適性の評価には標準的なITU連続尺度を使用した。連続尺度には、奥行品質のラベル(非常に良い(Excellent)、良い(Good)、普通(Fair)、悪い(Poor)、非常に悪い(Bad))および快適性のラベル(Very Comfortable(非常に満足)、Comfortable(満足)、Mildly Uncomfortable(やや不快)、Uncomfortable(不満)、Extremely Uncomfortable(非常に不満))が付けられている。被験者はこれらの連続尺度上に評点のマークを付けるように求められた。次に、被験者の付けたマークを0〜100の範囲の整数値に変換し、平均オピニオン評点(MOS)を算出した。
本発明者が2D-3D変換した結果をステレオカメラで撮影したオリジナル3Dビデオと比較した。この実験にはITU勧告の二重刺激連続品質尺度法(DSCQS)を使用した。DSCQSに基づき、被験者は、両者の違いを適切に評価できるように、評点を付ける前に最低二回は各シーケンスのペア(本発明者が作成した3Dとオリジナル3D)を観た。視聴者には、どちらがオリジナルでどちらが変換結果であるかを知らせずにランダムな順序でシーケンスを見せた。被験者は標準的なITU連続尺度を使用して両方のシーケンスの奥行品質と快適性を評価するように求められた。次に、尺度上に付けたマークを0〜100の範囲の整数に変換し、差分オピニオン評点(=DGCに対する評点−オリジナル3Dに対する評点)を計算する。最後に、差分オピニオン評点の平均(DMOS)を計算する。
本発明者の3D変換結果を深度転送法DT+ [11]と比較した。前述の実験と同様、DSCQS評価プロトコルを使用し、奥行品質と視覚的快適性のDMOSを計算した。最も難しいサッカーシーケンスのクローズアップとミディアムショットを調査した。多様なカメラアングル、複雑な動き、クラッター、およびオクルージョンが含まれているため、それらは2D-3D変換にとって最も難しいシーケンスになっている。図12に、DT+と比較した、クローズアップおよびミディアムショットのDMOSを示す。本発明者の技術は、DT+と比較して、ミディアムショットでは平均15ポイント、クローズアップでは平均12ポイント上回っている。また、15人の被験者全員が本発明者の技術にDT+よりも高い、または同等の評点を付けており、報告された差は統計的に有意であった(p値< 0.05)。図10に、DT、DT+、および本発明者の技術であるDGCで抽出された深度マップをいくつか示す。深度転送法の最初の実施形態はDTであり、これはDT+よりも品質が大幅に劣ることに留意されたい(図10を参照)。また、DT+は主観的評価の評点が低いことに加えて、DT+による深度は非常に多くの雑音が発生する場合がある(図10および図5を参照)。そのため長時間の視聴で眼精疲労を引き起こす可能性がある。
[2] Make3D. http://make3d.cs.cornell.edu/data.html.
[3] NYU depth dataset v2.(NYU深度データベースv2)
http://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html.
[4] Performance Invistigator for Xbox (PIX).(Xbox用パフォーマンスインベスティゲーター(PIX))
https://msdn.microsoft.com/en-us/library/
windows/desktop/ee663275%28v=vs.85%29.aspx.
[5] RGB-D object dataset.(RGB-Dオブジェクトデータベース)
http://rgbd-dataset.cs.washington.edu/.
[6] ITU-R BT.2021, Subjective methods for the assessment of stereoscopic 3DTV systems. Geneva, Switzerland, November 2012. International Telecommunication Union.(ITU-R BT.2021。立体3DTVシステムの評価のための主観的方法。スイス、ジュネーブ。2012年11月。国際電気通信連合)
[7] P. Bhat, B. Curless, M. Cohen, and C. Zitnick. Fourier analysis of the 2D screened poisson equation for gradient domain problems. In Proc. of European Conference on Computer Vision (ECCV'08), pages 114{128. Marseille, France, October 2008.(P. Bhat、B. Curless、M. CohenおよびC. Zitnick。勾配ドメイン問題に対する2D表示ポアソン方程式のフーリエ解析。コンピュータビジョン欧州会議 (ECCV'08) 議事録:p.114〜p.128。フランス、マルセイユ、2008年10月)
[8] T. Brox, A. Bruhn, N. Papenberg, and J. Weickert. High accuracy optical ow estimation based on a theory for warping. In Proc. of European Conference on Computer Vision (ECCV'04), pages 25{36, Prague, Czech Republic, May 2004.(T. Brox、A. Bruhn、N. PapenbergおよびJ. Weickert。ワープの理論に基づく高精度光学的ow評価。コンピュータビジョン欧州会議 (ECCV'04) 議事録:p.25〜p.36。チェコ共和国プラハ、2004年5月)
[9] K. Calagari, K. Templin, T. Elgamal, K. Diab, P. Didyk, W. Matusik, and M. Hefeeda. Anahita: A System for 3D Video Streaming with Depth Customization. In Proc. of ACM Multimedia (MM'14), pages 337{346, Orlando, Fl, November 2014.(K. Calagari、K. Templin、T. Elgamal、K. Diab、P. Didyk、W. MatusikおよびM. Hefeeda. Anahita。深度のカスタマイズ可能な3D動画ストリーミングのシステム。ACMマルチメディア会議 (MM'14) 議事録:p.337〜p.346。フロリダ、オーランド。2014年11月)
[10] D. Hoiem, A. A. Efros, and M. Hebert. Automatic photo pop-up. ACM Transactions on Graphics, 24(3):577{584, 2005.(D. Hoiem、A. A. EfrosおよびM. Hebert。自動フォトポップアップ。ACM Transactions on Graphics, 24(3):p.577〜p.584、2005年)
[11] K. Karsch, C. Liu, and S. B. Kang. Depth transfer: Depth extraction from video using non-parametric sampling. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(11):2144{2158, 2014.(K. Karsch、C. LiuおよびS. B. Kang。深度転送法:非パラメトリックサンプリングによる動画からの深度の抽出。EEE Transactions on Pattern Analysis and Machine Intelligence, 36(11):p.2144〜p.2158、2014年)
[12] J. Ko. 2D-to-3D Stereoscopic Conversion: Depth Estimation in 2D Images and Soccer Videos. Master's thesis, Korea Advanced Institution of Science and Technology (KAIST), 2008.(J. Ko。2D-3Dステレオ変換:2D画像およびサッカー動画の奥行評価。修士論文。韓国科学技術院 (KAIST)、2008年)
[13] J. Konrad, M. Wang, P. Ishwar, C. Wu, and D. Mukherjee. Learning-based, automatic 2D-to-3D image and video conversion. IEEE Transactions on Image Processing, 22(9):3485{3496, 2013.(J. Konrad、M. Wang、P. Ishwar、C. WuおよびD. Mukherjee。学習型の自動的な2D-3D画像・動画変換。IEEE Transactions on Image Processing, 22(9):p.3485〜p.3496、2013年)
[14] A. Levin, D. Lischinski, and Y. Weiss. A closed-form solution to natural image matting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(2):228{242, 2008.(A. Levin、D. LischinskiおよびY. Weiss。自然画像マッティングの閉形式解。IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(2):p.228〜p.242、2008年)
[15] C.-W. Liu, T.-H. Huang, M.-H. Chang, K.-Y. Lee, C.-K. Liang, and Y.-Y. Chuang. 3D cinematography principles and their applications to stereoscopic media processing. In Proc. of ACM Multimedia Conference (MM'11), pages 253{262, Scottsdale, AZ, November 2011.(C.-W. Liu、T.-H. Huang、M.-H. Chang、K.-Y. Lee、C.-K. LiangおよびY.-Y. Chuang。3D映画撮影術の原理および立体メディア処理への応用。ACMマルチメディア会議 (MM'11) 議事録:p.253〜p.262、アリゾナ州スコッツデール、2011年11月)
[16] P. Ochs, J. Malik, and T. Brox. Segmentation of moving objects by long term video analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(6):1187{1200, 2014.(P. Ochs、J. MalikおよびT. Brox。長時間動画分析による移動オブジェクトのセグメント化。IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(6):p.1187〜p.1200、2014年)
[17] A. Oliva and A. Torralba. Modeling the shape of the scene: a holistic representation of the spatial envelope. International Journal of Computer Vision, 42(3):145{175, 2001.(A. OlivaおよびA. Torralba。シーンの形状のモデリング:空間エンベロープの全体的表現。International Journal of Computer Vision, 42(3):p.145〜p.175、2001年)
[18] P. P_erez, M. Gangnet, and A. Blake. Poisson image editing. ACM Transactions on Graphics, 22:313{318, 2003.(P. P_erez、M. GangnetおよびA. Blake。ポアソン画像編集。ACM Transactions on Graphics, 22:p.313〜p.318、2003年)
[19] R. Rzeszutek, R. Phan, and D. Androutsos. Depth estimation for semi-automatic 2D to 3D conversion. In Proc. of ACM Multimedia Conference (MM'12), pages 817{820, Nara, Japan, October 2012.(R. Rzeszutek、R. PhanおよびD. Androutsos。半自動2D-3D変換の奥行評価。ACMマルチメディア会議 (MM'12) 議事録:p.817〜p.820、日本、奈良、2012年10月)
[20] A. Saxena, S. H. Chung, and A. Y. Ng. Learning depth from single monocular images. In Proc. of Advances in Neural Information Processing Systems (NIPS'05), pages 1161{1168, Vancouver, Canada, December 2005.(A. Saxena、S. H. ChungおよびA. Y. Ng。単一モノクロ画像からの深度の学習。神経情報処理システムの進歩 (NIPS'05) 議事録:p.1161〜p.1168、カナダ、バンクーバー、2005年12月)
[21] L. Schnyder, O. Wang, and A. Smolic. 2D to 3D conversion of sports content using panoramas. In Proc. of IEEE Conference on Image Processing (ICIP'11), pages 1961{1964, Brussels, Belgium, September 2011.(L. Schnyder、O. WangおよびA. Smolic。パノラマを用いたスポーツコンテンツの2D-3D変換。IEEE画像処理会議 (ICIP'11) 議事録:p.1961〜p.1964、ベルギー、ブリュッセル、2011年9月)
[22] J. Shotton, A. Fitzgibbon, M. Cook, T. Sharp, M. Finocchio, R. Moore, A. Kipman, and A. Blake. Real-time human pose recognition in parts from single depth images. In Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR'11), pages 1297{1304, Providence, RI, June 2011.(J. Shotton、A. Fitzgibbon、M. Cook、T. Sharp、M. Finocchio、R. Moore、A. KipmanおよびA. Blake。単一深度画像からの抽出部分に含まれる人間のポーズのリアルタイム認識。IEEEコンピュータビジョンおよびパターン認識会議 (CVPR'11) 議事録:p.1297〜p.1304。ロードアイランド州プロビデンス、2011年6月)
[23] W. Wu, A. Are_n, G. Kurillo, P. Agarwal, K. Nahrstedt, and R. Bajcsy. Color-plus-depth level-of-detail in 3D tele-immersive video: A psychophysical approach. In Proc. of ACM Multimedia Conference (MM'11), pages 13{22, Scottsdale, Arizona, November 2011.(W. Wu、A. Are_n、G. Kurillo、P. Agarwal、K. NahrstedtおよびR. Bajcsy。3D遠隔没入型動画におけるカラーおよび深度の詳細度:心理生理学的アプローチ。ACMマルチメディア会議 (MM'11) 議事録:p.13〜p.22、アリゾナ州スコッツデール、2011年11月)
[24] Z. Yang, W. Wu, K. Nahrstedt, G. Kurillo, and R. Bajcsy. Viewcast: View dissemination and management for multi-party 3D tele-immersive environments. In Proc. of ACM Multimedia Conference (MM'07), pages 882{891, Augsburg, Bavaria, Germany, September 2007.(Z. Yang、W. Wu、K. Nahrstedt、G. KurilloおよびR. Bajcsy。ビューキャスト:マルチパーティ3D遠隔没入型環境のためのビューの配布および管理。ACMマルチメディア会議 (MM'07) 議事録:p.882〜p.891。ドイツ、バイエルン州アウクスブルグ、2007年9月)
[25] L. Zhang, C. V_azquez, and S. Knorr. 3D-TV content creation: automatic 2D-to-3D video conversion. IEEE Transactions on Broadcasting, 57(2):372{383, 2011.(L. Zhang、C. V_azquezおよびS. Knorr。3D-TVコンテンツの製作:自動2D-3D動画変換。IEEE Transactions on Broadcasting, 57(2):p.372〜p.383、2011年)
[26] Z. Zhang, C. Zhou, B. Xin, Y. Wang, and W. Gao. An interactive system of stereoscopic video conversion. In Proc. of ACM Multimedia Conference (MM'12), pages 149{158, Nara, Japan, October 2012.(Z. Zhang、C. Zhou、B. Xin、Y. WangおよびW. Gao。対話型ステレオ動画変換システム。ACMマルチメディア会議 (MM'12) 議事録:p.149〜p.158。日本、奈良。2012年10月)
Claims (20)
- 2Dビデオ画像を3D画像に変換するためにビデオストリームから抽出した2Dビデオ画像を処理する方法であって、
ビデオフレームの参照データベースを作成し、データベースの各エントリは2D画像およびその2D画像に対応する深度情報とで構成され、
入力ビデオフレームを参照データベースに投入し、
入力ビデオフレームを参照データベース内の2D画像とマッチングし、その2D画像に対応する深度情報を選択し、
選択した深度情報をマッチングされた入力ビデオフレームに適用して2D+深度情報のフレームを生成することから成る方法。 - 入力ビデオフレームを部分に分割し、入力ビデオフレームを参照データベース内の2D画像とマッチングすることは、
入力ビデオフレームの部分を参照データベース内の2D画像の部分とマッチングすることから成ることを特徴とする請求項1に記載の方法。 - 前記部分はn×n個のピクセルで構成されるブロックであることを特徴とする請求項2に記載の方法。
- 入力ビデオフレームの別の部分を参照データベース内の別の2D画像の部分とマッチングして、入力ビデオフレームの複数の部分を対応する複数の2D画像の部分とマッチングするようにしたことから成ることを特徴とする請求項1〜3のいずれかに記載の方法。
- 選択した深度情報を前記マッチングされた入力ビデオフレームに適用することは、マッチングされた2D画像の部分の深度情報を、対応するマッチングされた入力ビデオフレームの部分に適用することから成ることを特徴とする請求項2〜4のいずれかに記載の方法。
- 選択した深度情報をマッチングされた入力ビデオフレームに適用することは、マッチングされた2D画像の部分の対応するピクセルを1個以上、マッチングされた入力ビデオフレームの部分の対応するピクセルにマッピングすることから成ることを特徴とする請求項5に記載の方法。
- 入力ビデオフレームとマッチングする2D画像の候補を視覚的技術を用いて特定することを特徴とする請求項1〜6のいずれかに記載の方法。
- 前記視覚的技術はフレームのGISTおよびカラー情報を使用することから成ることを特徴とする請求項7に記載の方法。
- 前記深度情報は深度勾配であることを特徴とする請求項1〜8のいずれかに記載の方法。
- 入力ビデオフレーム内のオブジェクトを特定し、
特定したオブジェクトのオブジェクトマスクを決定し、
決定したオブジェクトマスクおよびマッチングされた入力ビデオフレームを用いて深度情報を推定することから成ることを特徴とする請求項1〜9のいずれかに記載の方法。 - 決定した深度情報をポアソン再構築を用いて推定することから成る請求項10に記載の方法。
- ポアソン再構築は一次および高次導関数から成ることを特徴とする請求項11に記載の方法。
- 2D+深度情報フレームを用いて左側ステレオ画像および右側ステレオ画像を生成することから成ることを特徴とする請求項1〜12のいずれかに記載の方法。
- ソフトウェアで生成されたビデオフレームを用いて参照データベースを作成することを特徴とする請求項1〜13のいずれかに記載の方法。
- ソフトウェアはビデオゲームであることを特徴とする請求項14に記載の方法。
- 2Dビデオ画像を3D画像に変換するためにビデオストリームから抽出した2Dビデオ画像を処理するシステムであって、
各エントリが2D画像およびその2D画像に対応する深度情報とで構成された、ビデオフレームの参照データベースと、
入力ビデオフレームを参照データベースに投入するように作動する探索モジュールと、
入力ビデオフレームと参照データベース内の2D画像とのマッチングを行い、その2D画像に対応する深度情報を選択するように作動するマッチングモジュールと、
選択した深度情報をマッチングされた入力ビデオフレームに適用して2D+深度情報のフレームを生成するように作動する生成モジュールとから成るシステム。 - 実行時にビデオストリームから抽出された2Dビデオ画像を3D画像に変換する命令でプログラミングされた、コンピュータで読み取り可能な媒体であって、命令は、
ビデオフレームの参照データベースを作成し、データベースの各エントリは2D画像およびその2D画像に対応する深度情報とで構成され、
入力ビデオフレームを参照データベースに投入し、
入力ビデオフレームを参照データベース内の2D画像とマッチングし、その2D画像に対応する深度情報を選択し、
選択した深度情報をマッチングされた入力ビデオフレームに適用して2D+深度情報のフレームを生成することから成ることを特徴とするコンピュータで読み取り可能な媒体。 - ソフトウェアで生成されたビデオフレームを用いて参照データベースを生成する方法。
- 使用される前記ソフトウェアはビデオゲームであることを特徴とする請求項18に記載の方法。
- 請求項18に記載の方法を用いて生成された参照データベース。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562200311P | 2015-08-03 | 2015-08-03 | |
US62/200,311 | 2015-08-03 | ||
PCT/GB2016/052388 WO2017021731A1 (en) | 2015-08-03 | 2016-08-03 | 2d-to-3d video frame conversion |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2018528733A true JP2018528733A (ja) | 2018-09-27 |
JP2018528733A5 JP2018528733A5 (ja) | 2019-09-12 |
JP6903657B2 JP6903657B2 (ja) | 2021-07-14 |
Family
ID=56787639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018525821A Active JP6903657B2 (ja) | 2015-08-03 | 2016-08-03 | 2dから3dへのビデオフレーム変換 |
Country Status (11)
Country | Link |
---|---|
US (2) | US10425634B2 (ja) |
EP (1) | EP3326364A1 (ja) |
JP (1) | JP6903657B2 (ja) |
KR (1) | KR20180094835A (ja) |
CN (1) | CN108605119B (ja) |
AU (1) | AU2016302049C1 (ja) |
BR (1) | BR112018002224A8 (ja) |
CA (1) | CA2994514A1 (ja) |
IL (1) | IL257304B (ja) |
MX (1) | MX2018001450A (ja) |
WO (1) | WO2017021731A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3236657A1 (en) * | 2016-04-21 | 2017-10-25 | Ultra-D Coöperatief U.A. | Dual mode depth estimator |
JP2019015553A (ja) * | 2017-07-05 | 2019-01-31 | ソニーセミコンダクタソリューションズ株式会社 | 情報処理装置、情報処理方法および個体撮像装置 |
US10735707B2 (en) | 2017-08-15 | 2020-08-04 | International Business Machines Corporation | Generating three-dimensional imagery |
US11113887B2 (en) * | 2018-01-08 | 2021-09-07 | Verizon Patent And Licensing Inc | Generating three-dimensional content from two-dimensional images |
CN111837392A (zh) * | 2018-01-19 | 2020-10-27 | 交互数字Vc控股公司 | 处理点云 |
US10991150B2 (en) | 2018-05-09 | 2021-04-27 | Massachusetts Institute Of Technology | View generation from a single image using fully convolutional neural networks |
US20200137380A1 (en) * | 2018-10-31 | 2020-04-30 | Intel Corporation | Multi-plane display image synthesis mechanism |
TWI756956B (zh) * | 2020-12-01 | 2022-03-01 | 財團法人工業技術研究院 | 用於環景影像的影像處理方法及裝置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012103135A (ja) * | 2010-11-10 | 2012-05-31 | Toshiba Corp | 画像処理装置、方法およびそのプログラム |
US20140210944A1 (en) * | 2013-01-30 | 2014-07-31 | Samsung Electronics Co., Ltd. | Method and apparatus for converting 2d video to 3d video |
JP2014532941A (ja) * | 2011-11-02 | 2014-12-08 | グーグル・インコーポレーテッド | 例示的な類似画像と関連した例示的な近似奥行きマップを用いた、入力画像に対する奥行きマップの生成 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7254265B2 (en) * | 2000-04-01 | 2007-08-07 | Newsight Corporation | Methods and systems for 2D/3D image conversion and optimization |
US8401336B2 (en) | 2001-05-04 | 2013-03-19 | Legend3D, Inc. | System and method for rapid image sequence depth enhancement with augmented computer-generated elements |
WO2007069255A2 (en) * | 2005-12-14 | 2007-06-21 | Yeda Research And Development Co. Ltd. | Example based 3d reconstruction |
TW201005673A (en) * | 2008-07-18 | 2010-02-01 | Ind Tech Res Inst | Example-based two-dimensional to three-dimensional image conversion method, computer readable medium therefor, and system |
US8311285B2 (en) * | 2009-06-30 | 2012-11-13 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for localizing in urban environments from omni-direction skyline images |
US8610758B2 (en) * | 2009-12-15 | 2013-12-17 | Himax Technologies Limited | Depth map generation for a video conversion system |
CN102999937A (zh) * | 2011-09-08 | 2013-03-27 | 上海翰攀信息科技有限公司 | 心脏散乱点云数据曲面重建的方法 |
US9414048B2 (en) | 2011-12-09 | 2016-08-09 | Microsoft Technology Licensing, Llc | Automatic 2D-to-stereoscopic video conversion |
WO2013174439A1 (en) | 2012-05-24 | 2013-11-28 | Qatar Foundation | A method and system for creating depth signatures |
US9373171B2 (en) * | 2013-07-22 | 2016-06-21 | Stmicroelectronics S.R.L. | Method for generating a depth map, related system and computer program product |
EP2887311B1 (en) * | 2013-12-20 | 2016-09-14 | Thomson Licensing | Method and apparatus for performing depth estimation |
-
2016
- 2016-08-03 KR KR1020187006222A patent/KR20180094835A/ko active IP Right Grant
- 2016-08-03 AU AU2016302049A patent/AU2016302049C1/en not_active Ceased
- 2016-08-03 WO PCT/GB2016/052388 patent/WO2017021731A1/en active Application Filing
- 2016-08-03 MX MX2018001450A patent/MX2018001450A/es active IP Right Grant
- 2016-08-03 EP EP16754538.3A patent/EP3326364A1/en not_active Withdrawn
- 2016-08-03 CA CA2994514A patent/CA2994514A1/en not_active Abandoned
- 2016-08-03 JP JP2018525821A patent/JP6903657B2/ja active Active
- 2016-08-03 BR BR112018002224A patent/BR112018002224A8/pt not_active IP Right Cessation
- 2016-08-03 CN CN201680056142.7A patent/CN108605119B/zh not_active Expired - Fee Related
- 2016-08-03 US US15/749,509 patent/US10425634B2/en active Active
-
2018
- 2018-02-01 IL IL257304A patent/IL257304B/en active IP Right Grant
-
2019
- 2019-09-23 US US16/578,420 patent/US10834379B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012103135A (ja) * | 2010-11-10 | 2012-05-31 | Toshiba Corp | 画像処理装置、方法およびそのプログラム |
JP2014532941A (ja) * | 2011-11-02 | 2014-12-08 | グーグル・インコーポレーテッド | 例示的な類似画像と関連した例示的な近似奥行きマップを用いた、入力画像に対する奥行きマップの生成 |
US20140210944A1 (en) * | 2013-01-30 | 2014-07-31 | Samsung Electronics Co., Ltd. | Method and apparatus for converting 2d video to 3d video |
Also Published As
Publication number | Publication date |
---|---|
CN108605119B (zh) | 2020-12-01 |
CA2994514A1 (en) | 2017-02-09 |
US10425634B2 (en) | 2019-09-24 |
IL257304B (en) | 2020-09-30 |
US20200053345A1 (en) | 2020-02-13 |
JP6903657B2 (ja) | 2021-07-14 |
BR112018002224A8 (pt) | 2020-09-08 |
WO2017021731A1 (en) | 2017-02-09 |
AU2016302049B2 (en) | 2020-10-01 |
IL257304A (en) | 2018-06-28 |
CN108605119A (zh) | 2018-09-28 |
AU2016302049A1 (en) | 2018-03-29 |
MX2018001450A (es) | 2018-05-28 |
US20180227574A1 (en) | 2018-08-09 |
KR20180094835A (ko) | 2018-08-24 |
AU2016302049C1 (en) | 2021-01-07 |
US10834379B2 (en) | 2020-11-10 |
EP3326364A1 (en) | 2018-05-30 |
BR112018002224A2 (pt) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10834379B2 (en) | 2D-to-3D video frame conversion | |
Rematas et al. | Soccer on your tabletop | |
Cao et al. | Semi-automatic 2D-to-3D conversion using disparity propagation | |
RU2612378C1 (ru) | Способ замены объектов в потоке видео | |
Guttmann et al. | Semi-automatic stereo extraction from video footage | |
Feng et al. | Object-based 2D-to-3D video conversion for effective stereoscopic content generation in 3D-TV applications | |
Terzić et al. | Methods for reducing visual discomfort in stereoscopic 3D: A review | |
WO2018119808A1 (zh) | 一种基于3d卷积神经网络的立体视频生成方法 | |
US11880935B2 (en) | Multi-view neural human rendering | |
Kilner et al. | Objective quality assessment in free-viewpoint video production | |
WO2022126674A1 (zh) | 立体全景图像的质量评价方法、系统 | |
Wang et al. | Stereoscopic image retargeting based on 3D saliency detection | |
CN104898954B (zh) | 一种基于增强现实技术的互动阅览方法 | |
CN110012284A (zh) | 一种基于头戴设备的视频播放方法及装置 | |
Calagari et al. | Gradient-based 2D-to-3D conversion for soccer videos | |
Calagari et al. | Data driven 2-D-to-3-D video conversion for soccer | |
Kilner et al. | Dual-mode deformable models for free-viewpoint video of sports events | |
Seitner et al. | Trifocal system for high-quality inter-camera mapping and virtual view synthesis | |
Liu et al. | Stereoscopic view synthesis based on region-wise rendering and sparse representation | |
Lee et al. | 3-D video generation from monocular video based on hierarchical video segmentation | |
Niklaus | Novel View Synthesis in Time and Space | |
Huang et al. | Warping-based novel view synthesis from a binocular image for autostereoscopic displays | |
Usman | An Efficient Depth Estimation Technique Using 3-Trait Luminance Profiling. | |
Didyk et al. | Data Driven 2D-to-3D Video Conversion for Soccer | |
Kapeller | Evaluation of a 3d reconstruction system comprising multiple stereo cameras |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190730 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210623 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6903657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |