JP2012513057A - 画像からの深度マップの作成 - Google Patents

画像からの深度マップの作成 Download PDF

Info

Publication number
JP2012513057A
JP2012513057A JP2011541683A JP2011541683A JP2012513057A JP 2012513057 A JP2012513057 A JP 2012513057A JP 2011541683 A JP2011541683 A JP 2011541683A JP 2011541683 A JP2011541683 A JP 2011541683A JP 2012513057 A JP2012513057 A JP 2012513057A
Authority
JP
Japan
Prior art keywords
image
depth
schema
detecting
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011541683A
Other languages
English (en)
Other versions
JP5624053B2 (ja
Inventor
パトリック エル イー ファンデワレ
クリスティアーン ファレカムプ
グンネウィーク ライニエル ビー エム クライン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2012513057A publication Critical patent/JP2012513057A/ja
Application granted granted Critical
Publication of JP5624053B2 publication Critical patent/JP5624053B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image
    • G06T2207/30228Playing field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

複数の画像に対して複数の深度マップを生成する方法は、第1の画像を受信するステップと、前記第1の画像により規定されるショットに関する情報を取得するステップと、第1のスキーマによって前記第1の画像に対する深度マップを生成するステップと、第2の画像を受信するステップと、前記第2の画像により規定されたショットに関する情報を取得するステップと、前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出するステップと、第2のスキーマによって前記第2の画像に対する深度マップを生成するステップとを有し、前記第2のスキーマは、前記第1のスキーマの複雑さとは異なる複雑さを持つ。前記方法は、第1及び第2の深度モデルにアクセスするステップを有することができる。一実施例において、前記第1のスキーマは、前記第1の深度モデルを有し、前記第2のスキーマは、前記第2の深度モデルを有し、第2の実施例において、前記第1のスキーマは、前記第1の深度モデルを有し、前記第2のスキーマは、前記第1及び第2の深度モデルの組み合わせを有する。

Description

本発明は、複数の画像に対して複数の深度マップを生成する方法及びシステムに関する。一実施例において、これは、サッカービデオに対する自動深度推定に使用されることができる。
近い将来において、三次元(3D)表示装置は、家庭及びビジネス環境においてますます一般的になりそうである。このような装置は、3D画像を見るのにユーザが特別な眼鏡を着用することを必要とするステレオスコピック、又は3D画像を見るために特別な眼鏡を必要としないオートステレオスコピックのいずれかである。3D画像を作成するために、前記ユーザの左目に対して1つ及び前記ユーザの右目に対して1つ与えられる2つの異なる2D画像が必要とされる。単一の画像と、第2の画像が生成されることを可能にするのに十分な情報を含む追加の深度マップ又は視差マップのいずれかとを提供することも十分である。この後者の解決法は、3D画像の最終供給においてより多くの柔軟性を可能にするので、多くの利点を持つ。
しかしながら、現在、及び予測できる未来に対して、ほとんどの画像及びビデオは、2D画像フレームとして生成されるだろう。元のソースが2D画像である場合に3D画像を作成するために、深度マップが、作成される必要がある。この深度マップは、第2の画像を作成するのに、又は第2の画像に対する視差マップを作成するのに使用されることができる。
近年、多くの研究は、サッカー分析及び2Dサッカービデオの3Dへの変換のトピックについて行われている(引用文献1及び4を参照)。一般に、キャリブレーションは、サッカーフィールド上で見えるラインの交差を使用して行われる。これは、主に、多くのラインがカメラビューにおいて見えるゴールの周りの領域において良好に機能する。この方法は、楕円検出方法を加えることにより前記フィールドの中心まで拡張されることができる。このようなアプローチは、非常に少数のラインがビュー内で見える(又は全く見えない)場合に、効果的でない。この場合、連続したフレーム間のホモグラフィを計算するのに動き推定を使用することが可能である。
深度マップを生成する際に、次のステップは、通常は色セグメンテーションを使用して(引用文献2)、選手及びボールが検出され、これらの3D位置が推定されることである。Liu他は、プレイフィールドを検出するのにガウス混合モデルを使用する(引用文献2)が、HSI及びRGB色空間を結合するヒストグラムベースのアプローチを使用することも既知である。両方のチームのシャツ及びパンツの色を使用し、シャツ及びパンツの組み合わせを検出することも可能である。この場合、選手のシャツの色、相対的な垂直位置及び/又は平均速度を使用して、互いを遮蔽する複数の選手を別個に追跡することが可能である。ボールの位置は、グラウンド上にある場合には容易に推定されることができるが、空中では推定するのが難しい。このような場合、放物線軌道が、典型的には推定され、したがって、グラウンドに触れる2つの点が必要とされる。Liu他は、このような点を手動で示す(引用文献2)。異なる解決法は、複数のカメラ、又は単一のカメラ及びグラウンドに触れる場合のボールの方向の変化を使用することである。
これらの研究の主な応用は、自由視点ビデオであり、ここで、ユーザは、固定カメラ位置において獲得された視点から補間された任意の視点からのビューを選択することができる。このような場合に、フィールド、選手及びボールの3D再構成は、しばしば、入力データから構築される。仮想的な3Dサッカーフィールド上の正しい位置に選手及びボールを配置するこのプロセスは、選手の姿勢推定、又はより正確なセグメンテーションに対するマッティング(matting)に関連した追加の必要条件を加える。選手が検出されない場合、前記選手は、3Dモデル上で正しく配置されることができない。
3Dテレビのような応用において、主な目標は、仮想的に満足のいく深度画像を生成することである。このような応用に対する制約は、自由視点ビデオに対するものとは異なり、しばしば厳しくない。例えば、検出されていない選手は、周囲のフィールド画素と同じ深度値を受ける。これは、深度効果を消し、局所的な歪を与えるが、フル3Dモデルが再構成される場合のようなアーチファクトを作成しない。しかしながら、高いロバスト性及び時間的安定性は、満足のいく観察体験に対して必要とされる。
既存の方法に対する主な問題は、シーンの特定のタイプに対する失敗である。上に記載されるように、カメラキャリブレーションは、ゴールを含むシーンに対して良好に機能するが、フィールドの中心部分が獲得される場合に大幅に悪く動作する。既存の方法の他の問題は、前記既存の方法が、時々、獲得インフラストラクチャに対してコストのかかる適合が行われることを必要とする特別なカメラを持つセットアップを必要とすることである。
従来技術のアルゴリズムの焦点は、正しい3Dモデルを生成することにあり、3D印象及びロバスト性ではない。前記アルゴリズムの不安定性又は弱点に関する問題を克服するために、提示されたアルゴリズムの多くは、例えばライン交差、空中の軌道間のグラウンド情報のボールの始点及び終点、又はセグメント化するのが難しい選手の補正を示すのに相当量の手動介入を必要とする。
したがって、本発明の目的は、既知の技術を改良することである。
本発明の第1の態様によると、複数の画像に対する複数の深度マップを生成する方法が提供され、前記方法は、第1の画像を受信するステップと、前記第1の画像により規定されるショットに関する情報を取得するステップと、第1のスキーマによって前記第1の画像に対する深度マップを生成するステップと、第2の画像を受信するステップと、前記第2の画像により規定されるショットに関する情報を取得するステップと、前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出するステップと、第2のスキーマによって前記第2の画像に対する深度マップを生成するステップとを有し、前記第2のスキーマが、前記第1のスキーマとは異なる複雑さを持つ。
本発明の第2の態様によると、複数の画像に対する複数の深度マップを生成するシステムが提供され、前記システムは、第1の画像及び第2の画像を受信する受信器と、前記第1の画像により規定されるショットに関する情報を取得し、第1のスキーマによって前記第1の画像に対する深度マップを生成し、前記第2の画像により規定されるショットに関する情報を取得し、前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出し、第2のスキーマによって前記第2の画像に対する深度マップを生成するプロセッサとを有し、前記第2のスキーマが、前記第1のスキーマとは異なる複雑さを持つ。
本発明の第3の態様によると、複数の画像に対する複数の深度マップを生成するコンピュータ可読媒体上のコンピュータプログラムが提供され、前記プログラムは、第1の画像を受信する命令と、前記第1の画像により規定されるショットに関する情報を取得する命令と、第1のスキーマによって前記第1の画像に対する深度マップを生成する命令と、第2の画像を受信する命令と、前記第2の画像により規定されるショットに関する情報を取得する命令と、前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出する命令と、第2のスキーマによって前記第2の画像に対する深度マップを生成する命令とを有し、前記第2のスキーマが、前記第1のスキーマとは異なる複雑さを持つ。
本発明のおかげで、様々な複雑さの深度モデル(例えば、一定の深度、傾斜した深度、又は選手セグメンテーションを持つ傾斜した深度)を使用する異なるスキーマで動作することにより増大されたロバスト性及び安定性を持つ画像に対する深度マップを生成する解決法を提供することが可能である。各画像において規定されるショットに関する情報を取得することにより、この情報は、スキーマを切り換えるトリガとして使用されることができる。スキーマは、最も単純な実施において、深度モデルであり、最終的な深度マップに対する1以上の深度プロファイルを指定する。単純なスキーマは、深度マップを通して単一の一定の深度を指定する深度モデルでありうる。より複雑なスキーマは、前記深度マップ上の単純な勾配を指定するものであり、更に複雑なスキーマは、(例えばセグメンテーションを通して)1又は複数の選手の検出を加えた勾配を指定することができる。シナリオ内の信頼性が低すぎるような、規定された環境が生じる場合、このアルゴリズムは、正確な再構成が可能である、より低い(単純な)シナリオ(深度モデル)に戻るように自動的に切り換える。例えば、前記選手セグメンテーションが低い信頼性を持つ場合、フィールドモデルのみが、選手セグメンテーションなしで使用される。
また、ビデオコンテンツの3D表示のような応用において、実際のフィールド座標に対する前記ビデオの正確なキャリブレーションは、必要とされない。フィールドと観客領域との間の遷移を単一の直線又は2つの線の対としてモデル化することが十分である。これは、現在のアプローチにおいて使用されるものより単純なモデルであり、3Dテレビ応用の必要性に対しても十分である。本発明は、サッカービデオを3Dに変換する自動的/半自動的な方法として使用されることができる。これは、放送局及びサッカー素材を獲得/配信する他のコンテンツプロバイダにより使用されることができる。本発明は、2D画像入力を受信し、2Dストリームを3Dに変換し、3D出力を表示するテレビ内で実施されることができる。
グラフィカルオーバレイなしで、場合によりカメラビューの変化を持つ、生のサッカービデオ素材、すなわちサッカービデオのようなスポーツビデオの自動2D−3D変換に対して使用されることができる新しいアルゴリズムが、提供される。行われる試合の完全な3Dモデルを再構成することを目的とするほとんどの既存の方法とは逆に、前記方法は、典型的には、厳しくない制約を生じる機能する深度マップを生成する解決法を提供する。ロバストな変換を取得するために、様々な複雑さの深度モデル(例えば、一定深度、傾斜深度、又は選手セグメンテーションを持つ傾斜深度)を使用することができる導入された複数のスキーマ/シナリオが存在する。低い信頼性が存在する場合、より単純なシナリオ/深度モデルに戻るように切り換えることが可能である。より低い複雑さのスキーマは、閾値より低い信頼性のような1以上の規定された基準が検出される場合に使用されることができる。
有利には、前記方法は、第1及び第2の深度モデルにアクセスするステップを有し、前記第1のスキーマは、前記第1の深度モデルを有し、前記第2のスキーマは、前記第2のモデルを有する。これは、2つのモデルを使用し、ショット変化が検出された場合に前記モデル間で切り換える、前記新しいシステムの最も単純な実施である。第1及び第2の深度モデルを使用する第2の実施例において、前記第1のスキーマは、前記第1の深度モデルを有し、前記第2のスキーマは、前記第1及び第2の深度モデルの組み合わせを有する。このようにして、前記深度マップの突然の変化が避けられ、前記モデルの混合が、前記第2のスキーマを作成するのに使用される。
前記第2の実施例において、好ましくは、前記方法は、前記第1のスキーマが、単独で、深度マップを生成するのに最後に使用された後に、画像の数によって混合係数をセットするステップを含み、前記混合係数は、前記第1及び第2の深度モデルの相対的な寄与を決定する。前記第2のスキーマに対する変化が開始した後に画像の数に基づいてセットされた混合係数の使用は、あるスキーマから第2のスキーマへの滑らかな遷移を保証する。
理想的には、前記方法は、前記第2の画像において1以上の信頼できない要素を検出するステップをも含み、ここで前記第2の深度モデルは、前記第2の画像内の前記又は各検出された信頼できない要素に対して使用され、前記第1の深度モデルは、前記第2の画像の残りに対して使用される。スキーマの変化は、画像に対する深度マップ内の局所的補正に対して使用されることもできる。信頼できない要素は、元の画像のこの部分に関する信頼性が低い場合に、前記第1のスキーマではなくむしろ前記第2のスキーマで符号化されることができる。
あるスキーマから他へ切り換えるかどうかの決定は、画像により規定されるショットに関する取得された情報に基づく。この情報は、前記画像自体から得られることができるか、又は例えばメタデータを使用して、前記画像の外から得られることができる。このメタデータは、それぞれの画像とともに運ばれることができるか、又は他のソースから得られることができる。前記画像に関するメタデータが得られる。
有利な実施例において、前記取得されたメタデータは、電子番組ガイド(EPG)データを有する。前記EPGデータは、典型的には、どの番組が現在送信されているかを記述する。送信されている番組のタイプを知って、低い複雑さのデフォルトスキーマより複雑なスキーマが使用されることができる。前記低い複雑さのスキーマは、例えば、傾斜、すなわち非常に安定しているが明確性の低い深度マップを与えることが知られる勾配深度マップに基づくスキーマを採用することができる。しかしながら、前記EPGデータが、現在使用されている番組がサッカーの試合であることを示す場合、以下に示されるようなサッカーの試合に向けて適合したより高い複雑さのスキームに切り換えることが可能である。
他の有利な実施例において、前記取得されたメタデータは、前記画像を獲得するのに使用されるカメラのアイデンティティを有し、前記取得された情報の変化を検出するステップは、前記第1の画像に対して前記第2の画像の作成に対する異なるカメラの使用を検出するステップを有する。特定のカメラにより獲得されるショットの場所及びタイプが、既知である場合、前記低い複雑さのスキーマに切り換える基準として現在の画像を作成するのに使用されたカメラに関するメタデータを使用することが可能である。例えば、フットボールのようなスポーツセッティングにおいて、ゴールの後ろに配置されたカメラは、動作のクローズアップを提供する可能性が高く、このカメラに対する切り替えの検出は、より低い複雑さのスキーマに移動する基準として使用されることができる。
代替又は付加的実施例において、前記取得されたメタデータは、前記画像を獲得するのに使用されたカメラの焦点距離を有し、前記取得された情報の変化を検出するステップは、前記カメラの焦点距離が前記第2の画像の作成に対する所定の閾値より低いことを検出するステップを有する。このメタデータは、カメラが動作に焦点を合わせていることを決定するのに使用されることができ、したがって、複雑な3D出力の生成においてより低い信頼性が存在する可能性が高い。再び、これは、より低い複雑さのスキーマへの切り替えに対するトリガとして使用されることができる。
好ましくは、前記画像により規定されるショットに関する情報を取得するステップは、前記画像を処理するステップを有する。この情報を取得する方法は、現在のショットに関する情報を取得する際のメタデータの使用の代わりに又は加えて使用されることができる。例えば、1つの有利な実施例において、前記画像を処理するステップは、前記画像内の所定の対象のサイズを決定するステップを有し、前記取得された情報の変化を検出するステップは、前記第2の画像内の所定の対象のサイズが所定の閾値より上であることを検出するステップを有する。この場合、このようなスポーツ環境において、特定のレベルより上のサイズの選手のような対象は、クローズアップを示すのに使用されることができる。これが検出される場合、前記システムは、より低い複雑さのスキーマに切り換えることができる。
他の好適な実施例において、前記画像を処理するステップは、前記画像内の所定の線の位置を決定するステップを有し、前記取得された情報の変化を検出するステップは、前記第2の画像内の前記所定の線の位置が所定の閾値より上の間隔を持つことを検出するステップを有する。多くのスポーツアクティビティの特性は、視野領域内の複数の線又はマーキングの存在であるので、これらの線又はマーキングは、画像内で検出され、次いでクローズアップショットが現在表示されているかどうかを決定するのに使用されることができる。これは、この場合、前記深度マップの計算に対してより低い複雑さのスキーマに切り換えるのに使用されることができる。本発明の好適な応用は、サッカー範囲にあるが、サッカーフィールドに適用する原理は、ライン又は区別可能なエッジを持つ他の形状のフィールド、コート、リング、ダイヤモンド、デッキ又はピッチに適用されることもできる。これらの例は、野球ダイヤモンド、バスケットボールコート、フットボールフィールド、アイスホッケーリング、テニスコート、クリケットピッチ又はシャッフルボードデッキである。
同様に、一度、使用されるモデルの切り替えを誘導する信頼レベルのような情報の逆転が起こると、より高い複雑さのスキーマに戻る切り替えが、行われる。前記システムは、現在のショットに関する情報が、前記スキーマの複雑さの変化が望ましいことを示す場合にスキーマ間で切り換える。本発明の最も単純な実施例は、2つの深度モデルの提供であり、一方は、一定深度マップであり、他方は、勾配を使用する、より複雑な深度マップである。前記システムは、前記メタデータにより、及び/又は現在の画像がクローズアップショットであるか又は広角ショットであるかのような現在のショットに関する情報を決定するように前記画像を処理することにより、前記2つのモデルの間で切り換える。
本発明の実施例は、添付の図面を参照して、例としてのみ、ここに記載される。
複数の画像及び複数の深度マップの図である。 深度マップを生成するシステムの概略図である。 様々な深度モデルの図である。 様々な深度モデルの図である。 様々な深度モデルの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 様々なバイナリマスクの図である。 2つの境界ボックスを持つ画像内の検出された対象の概略図である。 画像の異なる部分に対する深度傾斜の割り当てを示す図である。 画像の異なる部分に対する深度傾斜の割り当てを示す図である。 画像に対する深度マップの生成を示す図である。 画像に対する深度マップの生成を示す図である。 画像に対する深度マップの生成を示す図である。 画像に対する深度マップの生成を示す図である。 深度マップを生成する方法のフローチャートである。
基本原理は、図1に示される。表示されるべきビデオは、多くの状況においてフレームとも称される一連の画像10を有し、これらは、対応する一連の深度マップ12を生成するのに使用され、各画像10は、それぞれの深度マップ12を持つ。前記深度マップの生成は、一連の画像10により表される元の2Dフォーマットから、最終表示装置における3D画像の生成をサポートする。深度マップ12は、オートステレオスコピック又はステレオスコピック表示装置において、元の画像10とともに、使用される1以上の追加の画像を生成するのに使用されることができる。深度マップ12は、特定の3D応用により必要とされる場合には、視差マップを生成するのに使用されることもできる。
上述のように、引用文献に引用された従来技術について、ソース画像10からのこのような深度マップ12の生成は、周知である。本発明は、3Dシステムにおいて使用される場合に深度マップ12を生成する自動化されたリアルタイム方法を提供するために、深度マップ12を生成する方法の改良を提供し、これは、現在の解決法に関する場合に知られている特定の状況において劣化しない解決法を提供する。
現在のシステムにおいて実施されるアルゴリズムは、(チャネル情報、現在のスコア等のような)グラフィックオーバレイなしで、生のビデオ信号上のサッカービデオ作品の自動的な2D−3D変換に対するものである。図2は、このようなシステムの例を示す。スポーツフィールド14は、複数のカメラ16によりカバーされる。2つのカメラ16のみが、図示の容易性のために図示されているが、実際の実施例において、より多くのカメラ16が使用されると理解される。カメラ16aは、競技フィールド14の広角ビューを提供し、カメラ16bは、ゴールマウス領域の後ろで動作のクローズアップを提供する。
カメラ16は、主に受信器20及びプロセッサ22を有する装置18に接続される。受信器20は、カメラ16から複数の画像10を受信し、プロセッサ22は、図1の記載のように、それぞれの画像10に対する深度マップ12を生成する。装置18は、スポーツフィールド14に存在するテレビ放送システムの外部放送ユニット内に配置されていると見なされることができる。このように、生の3Dフィードが、放送局により提供されることができ、これは、3D表示装置を持つエンドユーザが3Dで前記ビデオを表示されることができるように、2Dフィードに加えて、運ばれることができる。しかしながら、装置18が、放送チェーンの受信器端に配置されることができることに注意すべきであり、この場合、アドバンストデジタルテレビのような適切に使用可能にされた受信装置が、元の2D信号から3D信号への変換を実行する。
プロセッサ22が、フレーム毎に前記ビデオを処理すると、システム18は、1つのカメラから他のカメラへの切り替えを処理することができる。プロセッサ22は、4つの主なステップにおいて深度画像12を計算する。第一に、色閾値技術を使用して候補サッカーフィールド画素が検出される。次いで、芝生と観客エリアとの間の遷移としてサッカーフィールドのエッジが検出される。次に、選手が検出され、最後に、深度マップ12が、検出された情報を使用して割り当てられる。これらのステップは、以下のセクションに詳細に記載される。実施例の目的で、サイズ960×540画素のフレームを使用するシステムが使用されるが、前記システムは、如何なるフレームサイズで使用されるように適合されることもできる。
深度マップ12を生成する際に、図3に示されるように、増大する複雑さの深度モデルを使用する異なるスキーマ(シナリオ)が使用される。この図は、3つ異なる深度モデル24を示す。図3aは、全ての画素が固定深度にある2D画像であるシナリオ0を示し、図3bは、選手なしの、フィールド及び観客エリア深度モデルのみを使用する深度画像であるシナリオ1を示し、図3cは、フィールド、観客エリア及び選手モデルを使用する深度画像であるシナリオ2を表す。デフォルトでは、システム18は、シナリオ2を使用する。次のセクションにおいて、深度マップ生成アルゴリズムが詳細に提示される。この後に、異なるシナリオの間の切り替えが、更に論じられる。前記システムは、現在のモデルを動作する能力の信頼性が低い場合に、より低い複雑さのモデルに切り換える。
深度モデル24及び深度マップ12をより詳細に説明するために、深度マップ12が画像10内の画素に、当該画素の相対的深度に対応する深度値を割り当てると理解されるべきである。図3の例において、前記深度値は、0ないし255の範囲を取り、255は、観察者に最も近い深度である。深度の概念を容易に視覚化するために、これらの値は、グレイスケール値として表され、0が黒により表され、255が白により表される。中間値は、適切なレベルのグレイで表される。
図3aにおいて、0の一定深度が、全ての画素に割り当てられ、したがって、図の左側の黒い画像である。図3aの右側は、y軸全体にわたり255の深度値を示す深度モデル24aを通る垂直スライスである(これは、一様なので前記モデルのどこからでも取られることができる)。深度モデル24bは、より複雑であり、少量の潜在的な深度範囲を(群衆に対応する)上部のストリップに割り当て、より大きな範囲を前記モデルの下側部分(競技場表面)に割り当てる。右側のグラフは、ライン26上のモデル24bを通るスライスである。深度モデル24cは、24bと同様であるが、画像10内の選手のような検出された要素にも深度を割り当てる。再び、右側のグラフは、ライン26上のモデル24cを通るスライスである。
深度マップ12の生成の第1の段階は、候補サッカーフィールド画素の検出である。画素iは、色に対する以下の制約、すなわち、Ri、Gi及びBiがそれぞれ画素iの8ビットの赤、緑及び青色成分である場合に、Ri<Gi、Gi>80、1.2Bi<Giが適用できる場合に、候補フィールド画素である。この処理は、候補サッカーフィールド画素のバイナリマスクM1の生成の結果となる。これは、候補サッカーフィールド画素30のバイナリマスク28を示す図4に示される。マスク28は、全ての画素が、候補画素30(白として示される)であるか、又はそうでない(黒で示される)かのいずれかであるという意味でバイナリである。このプロセスは、処理される画像10内の現在の競技フィールドを近似的に決定する。
それぞれの深度マップ12を生成する画像10の処理の第2の段階は、画像10内のフィールドエッジの検出である。前記フィールドエッジは、前記候補フィールド画素に対する二重スキャン方法、第一に画像10の上から下に動作するトップダウン方法及び第二に画像10の下から上に動作するボトムアップ方法を使用して検出される。
図5aは、前記トップダウン方法を示す。フィールド内の20の規則的に離間された列に対して、前記列は、次の7つの画素(下)のうち6つが緑である第1の画素iが見つけられるまで、上から下にスキャンされる。これは、前記フィールドエッジのサンプルとして取られる。次に、100のサンプル評価で、最小二乗中央値(LMedS)方法を使用してこれら20の点(各列内に1つ)を通してラインf1がロバストにフィットされる。前記ロバストフィットは、雑音及び緑の衣服の観客からのサンプルのような外れ値が除去されることを保証する。
図5bは、前記ボトムアップ方法を示す。第一に、候補フィールド画素マスクM1に対して15×15フィルタを使用して膨張(dilation)に続いて収縮(erosion)が実行され、結果として新しいバイナリマスクM2を生じる。これは、前記候補フィールドマスクにフィールドラインを含めるように行われる。接続要素ラベリングが、次いでM2に対して実行され、最大の要素が、サッカーフィールドとして選択される。各列に対して、この領域の上部画素(又は当該列内の画素が前記フィールド領域の一部ではない場合に前記画像の底部画素)は、前記フィールドエッジのサンプルとして選択される。次に、ロバストラインフィットf2は、100のサンプル評価を用いて、上記のようにLMedS方法を使用してこれらの点を通して計算される。再び、前記ロバストフィットは、雑音及び前記フィールドエッジと接続された選手のような外れ値の除去を保証する。
フィットf1及びf2の両方に対して、推定されたフィールドエッジより上の候補フィールド画素及び推定されたエッジより下の非候補画素を含むマスクM3が計算される。マスクM3内の最小数の"1"画素を持つフィットが保持され、これは、フィットfと称される。このマスクM3は、図5cに示される。エラーマスクM3は、前記推定されたフィールドエッジの上の候補フィールド画素及び前記推定されたフィールドエッジの下の非候補フィールド画素を示す。
次に、前記推定されたフィールドエッジに垂直に接続された前記モデルにフィットしない画素をカウントする新しいエラー尺度eが計算される。第一に、バイナリマスクM3にラインf上の画素が追加され、結果として新しいマスクM4を生じ、接続要素ラベリングがマスクM4に対して実行される。ラインfに接続された全ての要素及びラベルづけされた要素を持つ新しいマスクM5が保持される。このマスクは、図6bに示される。各列iに対して、マスクM5内の1から0への最初の遷移までラインfより下及び上のこの要素の画素の数が両方ともカウントされ、(前記ラインより上又は下の)最大の数が保持される。前記ラインより下の画素を正として、上のものを負の値としてラベルづけすることは、任意に選択される。列内の全てのラベルづけされた画素の合計ではなく、最初の遷移までだけカウントする利点は、特定の点において接続されるフィールドライン等が、除去されることができることである(図6cも参照)。これは、結果として、ラインモデルにフィットしない画素の数を示すWの整数値のベクトルEを生じる(Wは前記画像の幅、図6を参照)。このベクトルeの要素の絶対値の合計は、以下のように表される。
Figure 2012513057
ここでkは列の数である(0≦k<W)。
図6は、エラー尺度Eの計算に使用される様々なマスクを示す。図6aは、前記推定されたフィールドエッジ及び真のフィールドエッジを示す。図6bは、前記フィールドエッジに接続された画素のマスクM5を示す。図6cは、列ごとにカウントされるべき画素を示し、最初の1−0遷移が除去された後の画素を示す。図6dは、前記列の関数としてエラー尺度Eを示す。このエラー尺度eが、500画素の閾値より上である場合、前記画像内に角があり、2つのラインモデルがフィットされるべきであることを結論付けることが可能である。ロバストラインf'は、(図5の方法のように)LMedSを使用してEi>10である点を通してフィットされる。元のラインfに対するこの新しいラインf'の交点が計算され、新しいLMedSフィットが、この交差の左及び右の点に対して別々に実行される。ここでこの2つのラインフィットに対するエラー尺度e'が計算され、単一ラインフィットに対するエラーeと比較され、最良のものが保持される。
図7は、前記フィールドエッジに対して2ラインフィットを使用する方法を示す。図7aにおいて、第2のラインは、最大のエラー値を持つ点を通ってフィットされ、図7bにおいて、新しいフィットは、2つのラインフィットの間の交点の両側の点を通して実行される。画像10のかなりの割合がこのカテゴリに入るので、元の画像10内の2ライン状況の検出が必要である。これは、カメラ16が競技フィールドの角エリアを含む前記フィールドの特定の部分に焦点を合わせている場合に生じる。前記2ラインフィットは、画像10内の前記競技フィールドの角形状を合理的に正確に決定する方法を決定する。
画像10に対する深度マップ12を生成するプロセスの第3の段階は、選手検出である。このプロセスにおいて、第一に、候補選手は、推定されたフィールド(前記フィールドエッジの下で1、前記エッジの上で0)を乗算された、バイナリ候補フィールド画素マスクM1の逆に対する(5×5フィルタを使用する)2つの膨張ステップが後に続く収縮を使用して計算されるバイナリマスクM6に対する接続要素ラベリングを使用して検出される。この演算は、M1からフィールドラインを除去するが、選手から細かい身体部分(例えば脚又は腕)をも(図らずも)除去する(後で再び加え戻される)。このプロセスは、おそらく選手であるのに十分な画素サイズを持つ(検出されたフィールドエッジにより規定される)規定された競技フィールドの非緑領域を検出する。次に、以下の条件を使用して各候補選手に対して確認が実行される。領域は、50画素より大きくなくてはならず、境界ボックスA1の高さは、幅より大きくなくてはならない。図8は、前記選手検出の原理を示す。領域32は、上の2つの条件によって確認される。対象32は、少なくとも50画素のサイズでなくてはならず、対象32の境界を示すボックスA1は、幅より大きな高さを持たなくてはならない。
各候補対象32に対して、候補選手32の周りの元の境界ボックスA1より50画素高く、10画素幅広い第2の境界ボックスA2の中であるM1の画素が選手32に割り当てられる。より大きな境界ボックスA2は、前の収縮ステップにおいて除去された体の小部分を加え戻すことができるために使用される。融合した画素をも含めるために、結果として生じた選手ラベルに対して5×5膨張も実行される。
この段階において、選手の全体を検出した可能性が非常に低いので、(例えば図7に示されるように)前記フィールドの上部境界に触れる候補選手も除去される。前記システムは、前記推定されたフィールドエッジより下の選手候補のみを検出する。前記システムが、上部境界に触れる候補を保有する場合、選手の半分が検出され、結果として非常に邪魔なアーチファクトを生じることができる。加えて、一度これが完了されると、平均選手サイズSpが、最小40画素より大きい選手の高さの中央値として計算される。
このプロセスの第4の段階は、深度マップ割り当てである。このステップを実行するために、図9に示されるように、前記観客エリア及び前記サッカーフィールドの深度傾斜を計算することが必要である。前記観客エリアは、固定傾斜s1を持ち、
1=0.2×255/H
であり、ここでHは画素単位の画像の高さである。フィールドの傾斜s2は、残りの深度範囲を使用し、
2=(255−s1×Hf)/(H−Hf
であり、Hfは、(画素単位の)前記観客エリアの高さの最小値である。図9は、前記観客エリア及びサッカーフィールドの深度傾斜の計算を示す。図9aの画像10は、2つの領域に分割され、線34より上の領域が、前記観客エリアであり、線34より下の領域が、競技フィールドエリアである。各エリアに使用可能な深度の量は、図9bに示され、前記深度マップ内の10ないし255の利用可能な深度の大きな割合を前記競技フィールドエリアに効果的に割り当てる。計算されたHfは、各エリアに割り当てられる深度の量の間の比を決定する。
深度マップ12は、底部の255の深度で始まり、まずフィールド傾斜s2で、次いで観客傾斜s1で減少する前記画像の底部から上部へのスキャンにおいて計算されることができる。第2のスキャンにおいて、先週の全ての画素の深度は、底部画素のフィールド深度にセットされる。このようにして、検出された選手32は、グラウンドに触れている画像10内の点に対応する深度を割り当てられる。この深度値は、この場合、選手32を作り上げる画素の全てに対して使用される。これは、前記グラウンドの各画素行に対して増加している前記グラウンドに対する画素に対する深度値と対照をなす。
図10は、上記のサッカー変換アルゴリズムの異なるステップを示す。図10aは、入力フレーム10を示す。図10bは、候補サッカーフィールド画素マスク28(M1)を示す。図10cは、検出されたフィールドエッジ及び上のシナリオ1に対応する2つの傾斜を持つ深度マップ12を示し、図10dは、検出された選手及び上のシナリオ2に対応する深度マップ12を示す。このシステムの主な利点は、異なるシナリオ(スキーマ)間の切り替え性質により与えられる。これは、大域的及び/又は局所的のいずれか又は両方で、2つのレベルで行われることができる。装置18は、現在の深度モデルの全体的な信頼性が低すぎる場合に、より低い複雑さのシナリオ(深度モデル)に大域的に戻るように切り替えることができる。これは、例えば、カメラ16がクローズアップに対して使用される場合に、行われる。クローズアップショットが検出されることができる1つの方法は、推定された平均選手高さSpが所定のサイズ、例えば150画素より大きいショットである(平均選手高さSpの推定について上記参照)。一般に、フィールド検出及び選手セグメンテーションの両方が、クローズアップショットに対してあまり正確及び安定的ではなく、この場合、装置18は、シナリオ0に戻るように切り換える。
装置18、特に装置18のプロセッサ22は、第2の画像12内のショットに関する情報の変化を検出するように、(シナリオ2のような)前記第1のスキーマによって第1の画像10に対する深度マップ12を生成し、したがって、第2のスキーマによって第2の画像10に対する深度マップ12を生成し、前記第2のスキーマは、前記第1のスキーマ、例えばシナリオ10とは異なる。第2の画像10において規定される前記ショットに関する情報の変化の検出は、例えば第2の画像10内の(選手のような)所定の対象のサイズが所定の閾値より上であることを検出することにより、画像10を処理するステップを有することができる。
現在のショットに関する情報の変化を検出する他の方法が、使用されることができる。例えば、第1の画像と第2の画像12との間の取得された情報の変化を検出するステップは、第1の画像10に対して第2の画像10の作成に対する異なるカメラ16の使用を検出することにより達成されることができる。これは、例えば、放送の最終出力として(スポーツ範囲のディレクタにより行われる)カメラ16aからカメラ16bへの変化が、深度マップ12の生成に対する異なる(より低い複雑さの)スキーマの使用をもたらすことができる。カメラ16bは、動作のクローズアップである可能性が大幅に高いので、シナリオ0が、前記深度マップ生成に使用されることができる。前記ビデオを獲得しているカメラ16からのメタデータは、ショット変化を検出する方法として使用されることもできる。例えば、焦点変化は、カメラ16が動作に対してズームインしていることを示す。
シナリオ2からシナリオ0のような1つのスキームから他のスキームへの切り替えは、フレームtに対して混合係数αtを使用して徐々に行われることができる。フレームtにおける最終深度フレームD0 tは、シナリオ2を使用して計算された深度フレームとシナリオ0を使用して計算された深度フレームとの混合である(シナリオ0に対して0であり、シナリオ1に切り換える場合に非ゼロである)。
t=αt2 t+(1−αt)D0 t
混合係数αtは、
Sp>varの場合にαt=max(0.9αt-1,0.1)
Sp≦varの場合にαt=min(1.1αt-1,1)
を使用して前のフレームt−1における混合係数αt-1から計算され、
ここで、第1の式の最大及び第2の式の最小は、0.1ないし1の係数の境界を取るように行われ、変数"var"は、画像サイズに依存し、例えば150にセットされることができる。実際に、この混合は、前記深度範囲を約0(シナリオ0、前記深度マップの丸めの後)に徐々に減少し、シナリオ2に戻るように切り換える場合に再び徐々に増大する。
プロセッサ22は、第1及び第2の深度モデルにアクセスし、前記第1のスキーマは、前記第1の深度モデルを有し、前記第2のスキーマは、前記第1及び第2の深度モデルの組み合わせを有する。一実施例において、プロセッサ22は、前記第1のスキーマが、単独で、深度マップ12を生成するのに最後に使用された後に、画像10の数によって混合係数αtをセットし、混合係数αtは、前記第1及び第2の深度モデルの相対的寄与を決定する。画素に対する深度値は、数値、例えば0ないし255のスケールであるので、前記混合係数は、2つの異なるスキーマからの加重平均を深度マップ10において使用されるべき実際の値として決定する。クローズアップを維持する、より多くのフレーム10が受信されると、シナリオ0は、ますます前記深度マップに寄与する。これは、視覚的アーチファクトをもたらす可能性がある、使用されているシナリオにおける突然の変化が存在しないことを保証する。
加えて、装置18は、前記モデル(典型的には検出された選手)の局所的な信頼性のみが低すぎる場合、局所的にシナリオ間で切り換えることもできる。上述のように、確実性が低すぎる特定の選手は、前記モデルに含まれない。これは、一般に、このエッジの上の選手の検出されない部分も存在するので、前記フィールドの推定された上部エッジと交差する選手候補に対して行われる。高さが幅より小さい候補選手も捨てられる。同様に、装置18は、推定された平均選手高さSpの1.5倍より大きな高さを持つ候補選手を捨てる。これらの候補は、典型的には、現在のフレームにおいて接続されている複数の選手又は前記フィールド上のラインの一部と結合して検出された選手からなる。このような場合に、前記プロセッサは、フィールドモデルのみを局所的に使用し(シナリオ1)、前記選手を無視する(シナリオ2)。結果として、これらの選手は、周りのサッカーフィールドと同じ深度を取得する。これは、全体的な深度効果を減少するが、見えるアーチファクトを防ぎ、非常に安定したアルゴリズムをもたらす。
前記深度マップにおける局所的な切り替えを実行する際に、プロセッサ22は、第2の画像10内の1以上の信頼できない要素を検出し、前記第2の深度モデルは、第2の画像12内の各検出された信頼できない要素に対して使用され、前記第1の深度モデルは、第2の画像12の残りに対して使用される。
図11は、複数の画像10に対して複数の深度マップ12を生成する方法を要約する。前記方法は、ステップS1において、前記複数の画像を受信することを有する。ステップS2において、第1のスキーマによる第1の画像10に対する深度マップの生成が実行される。前記第1のスキーマは、第1のモデル36aを有するように示される。次のステップは、第2の画像内のショット変化を検出するステップS3であり、最後のステップS4は、第2のスキーマによって第2の画像10に対する深度マップ12を生成するステップであり、前記第2のスキーマは、前記第1のスキーマとは異なる。前記第2のスキーマは、第2のモデル36bを有するように示される。しかしながら、モデル36aからの点線は、前記第2のスキーマが、2つのモデル36a及び36bの混合であることができることを示す。このようにして、画像12又は画像12の一部の信頼性が低い場合に、異なるモデルが使用される。前記ショット変化は、前記信頼性が低いことを決定するのに使用される。
引用文献:
[1] O. Grau, G. A. Thomas, A. Hilton, J. Kilner, and J. Starck, A Robust Free-Viewpoint Video System for Sport Scenes, Proc. IEEE 3DTV Conference, 2007.
[2] Y. Liu, D. Liang, Q. Huang, and W. Gao, Extracting 3D Information from Broadcast Soccer Video, Image and Vision Computing, Vol. 24, pp. 1146-1162, 2006.
[3] T. Bebie and H. Bieri, SoccerMan - Reconstructing Soccer Games from Video Sequences, Proc. IEEE International Conference on Image Processing, pp. 898-902, 1998.
[4] S. Wurmlin and C. Niederberger, Method and System for Generating a Representation of a Dynamically Changing 3D Scene, EU Patent No. EP 1 862 969 A1, Dec. 2007.

Claims (16)

  1. 複数の画像に対して複数の深度マップを生成する方法において、
    第1の画像を受信するステップと、
    前記第1の画像により規定されるショットに関する情報を取得するステップと、
    第1のスキーマによって前記第1の画像に対する深度マップを生成するステップと、
    第2の画像を受信するステップと、
    前記第2の画像により規定されるショットに関する情報を取得するステップと、
    前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出するステップと、
    前記第1のスキーマの複雑さとは異なる複雑さを持つ第2のスキーマによって前記第2の画像に対する深度マップを生成するステップと、
    を有する方法。
  2. 前記方法が、第1の深度モデル及び第2の深度モデルにアクセスするステップを有し、前記第1のスキーマが、前記第1の深度モデルを有し、前記第2のスキーマが、前記第2の深度モデルを有する、請求項1に記載の方法。
  3. 前記方法が、第1の深度モデル及び第2の深度モデルにアクセスするステップを有し、前記第1のスキーマが、前記第1の深度モデルを有し、前記第2のスキーマが、前記第1の深度モデル及び前記第2の深度モデルの組み合わせを有する、請求項1に記載の方法。
  4. 前記方法が、前記画像の数によって混合係数をセットするステップを有し、前記混合係数が、前記第2の画像に対する深度マップに対する前記第1の深度モデル及び前記第2の深度モデルの相対的寄与を決定する、請求項3に記載の方法。
  5. 前記方法が、前記第2の画像内の1以上の信頼できない要素を検出するステップを有し、前記第2の深度モデルが、前記第1の画像内の各検出された信頼できない要素に対して使用され、前記第1の深度モデルが、前記第2の画像の残りに対して使用される、請求項3に記載の方法。
  6. 前記画像により規定されるショットに関する情報を取得するステップが、前記画像に関するメタデータを取得するステップを有する、請求項1ないし5のいずれか一項に記載の方法。
  7. 前記取得されたメタデータが、前記画像を獲得するのに使用されるカメラのアイデンティティを有し、前記取得された情報の変化を検出するステップが、前記第1の画像に対して前記第2の画像の作成に対する異なるカメラの使用を検出するステップを有する、請求項6に記載の方法。
  8. 前記取得されたメタデータが、前記画像を獲得するのに使用されたカメラの焦点距離を有し、前記取得された情報の変化を検出するステップは、前記カメラの焦点距離が前記第2の画像の作成に対する所定の閾値より下であることを検出するステップを有する、請求項6又は7に記載の方法。
  9. 前記画像により規定されるショットに関する情報を取得するステップが、前記画像を処理するステップを有する、請求項1ないし8のいずれか一項に記載の方法。
  10. 前記画像を処理するステップが、前記画像内の所定の対象のサイズを決定するステップを有し、前記取得された情報の変化を検出するステップが、前記第2の画像内の前記所定の対象のサイズが所定の閾値より上であることを検出するステップを有する、請求項9に記載の方法。
  11. 前記画像を処理するステップが、前記画像内の所定の線の位置を決定するステップを有し、前記取得された情報の変化を検出するステップが、前記第2の画像内の前記所定の線の位置が所定の閾値より上の間隔を持つことを検出するステップを有する、請求項9又は10に記載の方法。
  12. 複数の画像に対して複数の深度マップを生成するシステムにおいて、
    第1の画像及び第2の画像を受信する受信器と、
    前記第1の画像により規定されるショットに関する情報を取得し、第1のスキーマによって前記第1の画像に対する深度マップを生成し、前記第2の画像により規定されるショットに関する情報を取得し、前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出し、前記第1のスキーマの複雑さとは異なる複雑さを持つ第2のスキーマによって前記第2の画像に対する深度マップを生成するプロセッサと、
    を有するシステム。
  13. 前記システムが、前記画像を獲得する複数のカメラを有し、前記プロセッサが、画像により規定されるショットに関する情報を取得する場合に、カメラから、前記画像に関するメタデータを取得する、請求項12に記載のシステム。
  14. 前記取得されたメタデータが、前記画像を獲得するのに使用される前記カメラのアイデンティティを有し、前記プロセッサが、前記取得された情報の変化を検出する場合に、前記第1の画像に対して前記第2の画像の作成に対する異なるカメラの使用を検出する、請求項13に記載のシステム。
  15. 前記取得されたメタデータが、前記画像を獲得するのに使用される前記カメラの焦点距離を有し、前記プロセッサが、前記取得された情報の変化を検出する場合に、前記カメラの焦点距離が前記第2の画像の作成に対する所定の閾値より下であることを検出する、請求項13又は14に記載のシステム。
  16. 複数の画像に対して複数の深度マップを生成するコンピュータ可読媒体上のコンピュータプログラムにおいて、
    第1の画像を受信する命令と、
    前記第1の画像により規定されるショットに関する情報を取得する命令と、
    第1のスキーマによって前記第1の画像に対する深度マップを生成する命令と、
    第2の画像を受信する命令と、
    前記第2の画像により規定されるショットに関する情報を取得する命令と、
    前記第1の画像と前記第2の画像との間の前記取得された情報の変化を検出する命令と、
    前記第1のスキーマの複雑さとは異なる複雑さを持つ第2のスキーマによって前記第2の画像に対する深度マップを生成する命令と、
    を有するコンピュータプログラム。
JP2011541683A 2008-12-19 2009-12-14 画像からの深度マップの作成 Active JP5624053B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP08172237 2008-12-19
EP08172237.3 2008-12-19
PCT/IB2009/055727 WO2010070568A1 (en) 2008-12-19 2009-12-14 Creation of depth maps from images

Publications (2)

Publication Number Publication Date
JP2012513057A true JP2012513057A (ja) 2012-06-07
JP5624053B2 JP5624053B2 (ja) 2014-11-12

Family

ID=41785719

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011541683A Active JP5624053B2 (ja) 2008-12-19 2009-12-14 画像からの深度マップの作成

Country Status (6)

Country Link
US (1) US8937645B2 (ja)
EP (1) EP2380358B1 (ja)
JP (1) JP5624053B2 (ja)
KR (1) KR101650702B1 (ja)
CN (1) CN102257827B (ja)
WO (1) WO2010070568A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8553972B2 (en) * 2009-07-06 2013-10-08 Samsung Electronics Co., Ltd. Apparatus, method and computer-readable medium generating depth map
US9699434B2 (en) * 2009-10-07 2017-07-04 Samsung Electronics Co., Ltd. Apparatus and method for adjusting depth
KR101699920B1 (ko) * 2009-10-07 2017-01-25 삼성전자주식회사 깊이 조절 방법 및 장치
JP5197683B2 (ja) * 2010-06-30 2013-05-15 株式会社東芝 奥行き信号生成装置及び方法
US8781152B2 (en) * 2010-08-05 2014-07-15 Brian Momeyer Identifying visual media content captured by camera-enabled mobile device
US20120236114A1 (en) * 2011-03-18 2012-09-20 Te-Hao Chang Depth information generator for generating depth information output by only processing part of received images having different views, and related depth information generating method and depth adjusting apparatus thereof
US9672609B1 (en) * 2011-11-11 2017-06-06 Edge 3 Technologies, Inc. Method and apparatus for improved depth-map estimation
JP5703255B2 (ja) * 2012-04-27 2015-04-15 株式会社東芝 画像処理装置、画像処理方法およびプログラム
JP6158929B2 (ja) * 2012-09-06 2017-07-05 ノキア テクノロジーズ オーユー 画像処理装置、方法及びコンピュータプログラム
US9310895B2 (en) 2012-10-12 2016-04-12 Microsoft Technology Licensing, Llc Touchless input
KR102115930B1 (ko) * 2013-09-16 2020-05-27 삼성전자주식회사 디스플레이 장치 및 영상 처리 방법
CN108107571B (zh) * 2013-10-30 2021-06-01 株式会社摩如富 图像处理装置及方法及非暂时性计算机可读记录介质
WO2017142712A1 (en) * 2016-02-18 2017-08-24 Craig Peterson 3d system including a marker mode
CN112868224B (zh) * 2019-04-01 2023-08-29 谷歌有限责任公司 捕获和编辑动态深度图像的方法、装置和存储介质
KR102127153B1 (ko) 2020-04-09 2020-06-26 한밭대학교 산학협력단 사이클 gan과 세그맨테이션을 사용한 깊이 추정 방법 및 시스템

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7085409B2 (en) 2000-10-18 2006-08-01 Sarnoff Corporation Method and apparatus for synthesizing new video and/or still imagery from a collection of real video and/or still imagery
AUPS283602A0 (en) * 2002-06-07 2002-06-27 Dynamic Digital Depth Research Pty Ltd Improved conversion and encoding techniques
GB2413720B (en) 2003-03-14 2006-08-02 British Broadcasting Corp Video processing
US7929801B2 (en) * 2005-08-15 2011-04-19 Sony Corporation Depth information for auto focus using two pictures and two-dimensional Gaussian scale space theory
EP1862969A1 (en) 2006-06-02 2007-12-05 Eidgenössische Technische Hochschule Zürich Method and system for generating a representation of a dynamically changing 3D scene
KR100827119B1 (ko) 2006-12-13 2008-05-06 삼성전자주식회사 입체 영상 서비스 시스템 및 방법과 입체 영상 생성 장치 및 입체 영상 출력장치
KR101420681B1 (ko) * 2008-02-01 2014-07-17 한국과학기술원 비디오 영상의 깊이 지도 생성 방법 및 장치
CN101287142A (zh) * 2008-05-16 2008-10-15 清华大学 基于双向跟踪和特征点修正的平面视频转立体视频的方法
EP2457214B1 (en) * 2009-07-20 2015-04-29 Thomson Licensing A method for detecting and adapting video processing for far-view scenes in sports video
KR101121979B1 (ko) * 2010-01-12 2012-03-09 (주) 인디에스피 입체 영상 변환 방법 및 입체 영상 변환 장치
WO2012177049A2 (en) * 2011-06-21 2012-12-27 Lg Electronics Inc. Method and apparatus for processing broadcast signal for 3-dimensional broadcast service

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200500276011; 吉川恭平 外3名: '背景領域の2次元表示と人物領域の3次元表示を併用した高臨場感空間共有通信' 電子情報通信学会技術研究報告 MVE2003-26〜38 マルチメディア・仮想環境基礎 第103巻 第209号, 20030710, 第65〜70頁, 社団法人電子情報通信学会 *
JPN6013050243; 吉川恭平 外3名: '背景領域の2次元表示と人物領域の3次元表示を併用した高臨場感空間共有通信' 電子情報通信学会技術研究報告 MVE2003-26〜38 マルチメディア・仮想環境基礎 第103巻 第209号, 20030710, 第65〜70頁, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
US20110249099A1 (en) 2011-10-13
WO2010070568A1 (en) 2010-06-24
KR20110100653A (ko) 2011-09-14
CN102257827A (zh) 2011-11-23
CN102257827B (zh) 2014-10-01
EP2380358A1 (en) 2011-10-26
KR101650702B1 (ko) 2016-08-24
JP5624053B2 (ja) 2014-11-12
US8937645B2 (en) 2015-01-20
EP2380358B1 (en) 2017-08-30

Similar Documents

Publication Publication Date Title
JP5624053B2 (ja) 画像からの深度マップの作成
US7894669B2 (en) Foreground detection
US9117310B2 (en) Virtual camera system
US10652519B2 (en) Virtual insertions in 3D video
CN110300316B (zh) 视频中植入推送信息的方法、装置、电子设备及存储介质
US20100238351A1 (en) Scene recognition methods for virtual insertions
US8973029B2 (en) Backpropagating a virtual camera to prevent delayed virtual insertion
JP2018107793A (ja) 仮想視点画像の生成装置、生成方法及びプログラム
JP2009505553A (ja) ビデオストリームへの視覚効果の挿入を管理するためのシステムおよび方法
JP2001229390A (ja) ピクセル化されたイメージをセグメント化する方法および装置
JP2010193458A (ja) 画像処理装置、画像処理システム及び画像処理方法
US9154710B2 (en) Automatic camera identification from a multi-camera video stream
Pidaparthy et al. Keep your eye on the puck: Automatic hockey videography
US20150035828A1 (en) Method for processing a current image of an image sequence, and corresponding computer program and processing device
JP7159198B2 (ja) 奥行きマップを処理するための装置及び方法
Calagari et al. Data driven 2-D-to-3-D video conversion for soccer
JP6392739B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN116888587A (zh) 用于多视图帧存储和绘制的深度等级
CN107566849B (zh) 一种足球比赛视频播放方法和装置
JP6450306B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US20240119625A1 (en) Method and system of automatically estimating a ball carrier in team sports
JP2017102784A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
CN117616760A (zh) 图像生成
Kim et al. Real catcher view image generation method for baseball contents
KR20050008246A (ko) 스포츠 비디오에서 카메라 모션 분석을 통한 그래픽 영상객체 합성 구현 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131225

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20140108

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140925

R150 Certificate of patent or registration of utility model

Ref document number: 5624053

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250