JP2004505393A - イメージ変換および符号化技術 - Google Patents
イメージ変換および符号化技術 Download PDFInfo
- Publication number
- JP2004505393A JP2004505393A JP2002518424A JP2002518424A JP2004505393A JP 2004505393 A JP2004505393 A JP 2004505393A JP 2002518424 A JP2002518424 A JP 2002518424A JP 2002518424 A JP2002518424 A JP 2002518424A JP 2004505393 A JP2004505393 A JP 2004505393A
- Authority
- JP
- Japan
- Prior art keywords
- depth
- image
- algorithm
- pixel
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/579—Depth or shape recovery from multiple images from motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/507—Depth or shape recovery from shading
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
- H04N13/128—Adjusting depth or disparity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
Abstract
少なくとも1つの画素またはイメージの一部に深さを割当てる段階と、前記少なくとも1つの画素またはイメージの一部の各々について相対位置およびイメージ特性を決定する段階と、前記深さ(単一または複数)、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数として深さ特性を確認するための計算状況を決定する段階と、前記アルゴリズムを使用して、各画素または前記イメージの一部について深さ特性を計算する段階とを有し、前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの創出方法。第二処理フェーズでは、前記深さマップは、相対位置、イメージ特性およびキーフレーム(単一または複数)までの距離を用いて、非キーフレームについての深さマップを創成するためのキーフレームを形成する。
【選択図】図1
【選択図】図1
Description
【0001】
(技術分野)
本発明は1つ以上の2Dイメージから深さマップを得るための改善された技術に関する。
【0002】
(背景技術)
多数のイメージ処理タスク(image processing task)は、イメージ内のオブジェクトの深さを知ることを必要としている。このようなタスクとして、フィルムおよびビデオシーケンスへの特殊効果の適用、および、2Dイメージの立体3Dへの変換がある。オブジェクトの深さの決定は、深さマップの作成処理と呼ばれることもある。深さマップにおいて、各オブジェクトは、陰影が固定点からのオブジェクトの深さを表示するようにグレイの陰影で着色される。一般に、遠いオブジェクトはグレイの暗い陰影が付されるのに対して、近いオブジェクトは明るいグレイの陰影が付される。深さマップを作成するための標準的な変換が未だに採用されており、異なる深さを表示するのに、逆カラーリングが使用されるか、異なる色が使用される。本願の開示における説明の目的のために、遠いオブジェクトは近いオブジェクトよりも暗く着色され、かつ、カラーリングは一般にグレイスケールとする。
【0003】
歴史的に、既存の2Dイメージからの深さマップの作成は手動で行なわれてきた。イメージは、コンピュータにとっては単に一連の画素であり、一方、人のオペレータはオブジェクトおよび該オブジェクトの相対深さを区別できることは理解されよう。
【0004】
深さマップの作成は、変換すべきイメージの各オブジェクトのアウトラインを手動で定めるシステム、および、オブジェクトに割当てられる深さを有している。この方法は、遅く、時間を要しかつコストが嵩むことは理解されよう。アウトラインを定めるステップは、通常、マウスに関連するソフトウェアプログラムを用いて行なわれる。このタスクを行なうのに使用されるソフトウェアプログラムの例として、Adobe社の「アフター・エフェクト(After EffectTM)」がある。「アフター・エフェクト」を使用するオペレータは、一般に、深さの割当てを必要とする各オブジェクトのアウトラインの回りで線を引き、次に、オブジェクトを、観察者からの必要な深さ、すなわち距離を定めるグレイの所望陰影で塗りつぶす(すなわち「着色」する)。この方法は、次に、イメージ内の各オブジェクトについて反復される。また、例えばフィルムのように多数のイメージが含まれる場合には、フィルムの各イメージまたは各フレームについてこれらのステップを遂行することも必要である。
【0005】
伝統的なシステムにおいて、イメージのアウトラインは、一般に、曲線の幾つかのフォーム、例えばベジェ曲線(Bezier curve)として描かれる。このような曲線の使用により、オペレータは、オブジェクトのアウトラインがオブジェクトに正確に整合するようにアウトラインの形状を変えることができる。
【0006】
一連のイメージが例えばフィルムまたはビデオのような深さマッピングを必要とする場合には、この方法は、シーケンスの各フレームについて反復される。
【0007】
オブジェクトのサイズ、位置および/または深さは、1つのシーケンスを通して変化する虞れがある。この場合には、オペレータは、各フレーム内のオブジェクトを手動で追跡し、曲線を矯正することにより各フレームを処理し、そして、必要に応じてグレイの陰影を変えることによりオブジェクトの深さを更新することを要求される。これは、遅くて長たらしく、時間を要しかつコストが嵩む方法であることは理解されよう。
【0008】
この方法を改善する試みがこれまでになされてきた。従来技術は、オブジェクトがフレームからフレームへと移動するときにオブジェクトのアウトラインを自動的に追跡することを試みる技術を説明している。このような技術の一例として、能動輪郭(Active Contours)の適用がある(参照:”Active Contours”−Andrew Blake およびMichael Isard著−ISBN 3−540−76217−5)。このアプローチの主な制限は、追跡されるオブジェクトの運動を予測する技術を実施するソフトウェアを教示する必要があることである。これは、予測運動を知ることができず、複雑な変形が予測されるか、あるいは、異なる運動特性をもつ多数のオブジェクトが同時追跡されるときに顕著な制限となる。
【0009】
アウトラインの運動を定めるのに、ポイントベース型のトラッキングアプローチ(point−based tracking approaches)も使用されている。これらは、コモーション(CommotionTM)およびアフター・イフェクトのような編集環境で良く知られている。しかしながら、これらは適当な追跡点(該追跡点の運動は全体としてオブジェクトの運動を反映する)を識別できないことがしばしばあるので、これらの適用は非常に制限されている。ポイント・トラッキングは、オブジェクトが簡単な並進運動(simple translations)を受けるときはときどき受入れられているが、形状の変形、閉塞(occlusions)、または、他の種々の一般的問題には対処できない。
【0010】
イスラエルの企業AutoMedia社は、オートマスカー(AutoMaskerTM)と呼ばれているソフトウェア製品を製造している。このソフトウェア製品は、オペレータがオブジェクトのアウトラインを描きかつ該アウトラインをフレームからフレームへと追跡することを可能にする。このソフトウェア製品は、オブジェクトの色の追跡に頼るものであり、従って、同様な着色のオブジェクトが交差するときには機能しない。このソフトウェア製品はまた、例えば、オブジェクトが観察者に近付くか、スクリーン上で前方に移動するときのように、連続フレーム上でサイズが変化するオブジェクトの追跡は困難である。
【0011】
これらのいずれのアプローチも深さマップの割当てができないだけでなく、追跡もできず、従って、深さマップの作成は依然として手動で行なわれる。従来技術で説明されている他の技術は、2Dシーケンスの記録に使用されたオリジナルのカメラの運動を再現することに基くものである。これらの技術の制限は、オリジナルのイメージシーケンス内でのカメラ運動を必要とすること、および、トラッキング・ポイントとして使用できる各フレーム内に良く定められた特徴が存在することである。
【0012】
(発明の目的)
現在は、オペレータが、イメージの各フレームについて深さマップを手動で作成し、許容できる結果が得られるようにする必要がある。本発明の目的は、手動による深さ作成を必要とするフレーム数を低減させ、これによりオペレータが深さマップを作成する時間コミットメントを短縮することにある。
【0013】
深さマップが依然として手動で作成されるべき1組のフレームが未だに残されている。本発明の他の目的は、これらのフレームの深さマップの手動作成方法を補助することにある。
【0014】
(発明の概要)
上記目的を達成するため、本発明は、イメージの少なくとも1つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも1つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第1アルゴリズムのコンフィグレーションを決定するステップと、
前記第1アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法を提供する。
【0015】
他の態様では、本発明は、イメージの少なくとも1つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも1つの画素または一部の各々についてx、y座標およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性およびそれぞれのx、y座標を使用して、x、y座標およびイメージ特性の関数としての深さ特性を確認するための第1アルゴリズムを決定するステップと、
前記第1アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法を提供する。
【0016】
更に別の態様では、本発明は、イメージシーケンスの少なくとも1つのフレームについての深さマップを受入れるステップと、
前記深さマップを使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するためのアルゴリズムのコンフィグレーションを決定するステップと、
前記アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法を提供する。
【0017】
更に別の態様では、本発明は、イメージシーケンスから少なくとも1つのキーフレームを選択するステップと、
前記少なくとも1つのキーフレームについて、各フレームの少なくとも1つの画素または一部に深さを割当てるステップと、
前記各キーフレームの少なくとも1つの画素または一部の各々について相対位置(例えばx、y座標)およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性および前記少なくとも1つのフレーム各々についての相対位置を使用して、相対位置および深さ特性の関数としての深さ特性を確認するための、前記少なくとも1つのフレーム各々についてのアルゴリズムのコンフィグレーションを決定するステップと、
前記各アルゴリズムのコンフィグレーションを使用して、前記少なくとも1つのキーフレームの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性は前記少なくとも1つのフレーム各々についての深さマップを形成し、
各深さマップを使用して、相対位置およびイメージ特性の関数としての各フレームについての深さ特性を確認するための第2アルゴリズムの第2コンフィグレーションを決定するステップと、
前記第2アルゴリズムを使用して、前記イメージシーケンスの各フレームについてそれぞれの深さマップを作成するステップと、を更に有することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法を提供する。
【0018】
アルゴリズムに関するシステムは、実際に、相対位置およびイメージ特性の結果として深さマップを作成するため、多数の異なる関数を作成することが理解されよう。好ましいシステムでは、相対位置はx、y座標の測定値である。
【0019】
本発明を実施するシステムは、シーケンスのどのフレームをキーフレーム、例えば各第五フレームと考えるべきかを予め定めることを選択する。アルゴリズムはまた、処理を更に精緻なものとするため、アルゴリズムへの入力として時間を考慮するのが理想的である。
【0020】
(発明の簡単な説明)
本発明は、関連2Dイメージについての深さマップを作る方法を改善することを意図している。この好ましい実施形態として、キーフレームの深さマップを作成するフェーズと、残余のマップを作成するフェーズとの2つのフェーズが含まれる。
【0021】
第1フェーズは、ユーザから少量のデータを得る。このデータは、シーンの基本構造を表示する。2Dイメージおよびこれに関連するデータは、ユーザによって種々のイメージ画素に割当てられる深さzと、そのxおよびy座標と、イメージ特性との間の関係を学習できるアルゴリズムに与えられる。イメージ特性には各画素についてのRGB値が含まれるが、これに限定されるものではない。一般に、アルゴリズムは、ユーザが定めたフレーム内の各画素について、次式を解く。
【0022】
z=f(x、y、R、G、B)
次に、アルゴリズムは、この学習した関係を、イメージ中の残余の画素に適用して深さマップを作成する。必要ならば、ユーザは、これらのデータを精緻化して、深さマップの精度を高めることができる。最初の深さデータは必ずしもユーザが特定する必要はない。最初の深さデータとして、運動アルゴリズムからの自動化された構造を用いること、または、立体イメージからの深さ推定を得ることがあるが、これらに限定されるものではない。
【0023】
第2フェーズは、選択されたキーフレームに与えるべき2Dイメージおよびこれに関連する深さマップを必要とする。これらのキーフレームでの深さマップは、例えば本出願人により以前に開示されたようにして作成されるか、深さ捕捉技術’(depth capture techniques)を用いて自動的に作られる。深さ捕捉技術として、レーザ範囲ファインダすなわちLIDAR(光の方向および範囲:Light Direction And Range)装置およびデプス・フロム・フォーカス(depth−from−focus)技術があるが、これらに限定されるものではない。
【0024】
各キーフレームについての2Dイメージおよび関連深さマップ(単一または複数)は、残余のフレーム内の各画素に割当てられる深さzと、そのxおよびy位置と、イメージ特性との間の関係を学習できるアルゴリズムに与えられる。イメージ特性として各画素のRGB値があるが、これに限定されるものではない。一般に、アルゴリズムは、キーフレーム内の各画素について、次式を解く。
【0025】
z=f(x、y、R、G、B)
このアルゴリズムは、次に、隣接キーフレーム間の各連続フレームに与えられ、かつ各画素についてアルゴリズムを使用してzの値を計算する。
【0026】
(発明の詳細な説明)
本発明は、1つ以上の2Dイメージから深さマップを得るための改善された技術を提供する。本発明は、好ましくは2つのフェーズを有し、各フェーズには、学習プロセスを取入れるのが理想的である。
【0027】
(フェーズ1)
第1フェーズは、単一イメージで作動する。ユーザにはイメージが提供され、ユーザは、簡単なグラフィックインターフェースを用いてイメージの種々の領域についておおよその深さを定める。グラフィックインターフェースは、ユーザが画素に深さを割当てる補助を行なうツールを提供し、これらのツールとして、ペン/ペイントブラシ・ツール、領域充填ツール、および画素色に基いて深さを割当てるツールがあるが、これらに限定されるものではない。この方法の結果として、イメージ中の画素の部分集合に深さが定められる。
【0028】
図1には、2Dイメージがユーザに提供される一例が示されている。次にユーザは、イメージ2内の種々の画素に深さを割り当てることができる。図1の例では、「X」で印された画素は、ユーザによって深さが特定されていない画素である。次にシステムは、2Dイメージ1と、ユーザにより与えられる深さデータ2とを相関付け、かつトレーニングアルゴリズムを用いて、マッピング関数4の作成を補助する。マッピング関数4は、イメージ中の各画素の深さについての関数を解くことができるものである。
【0029】
ユーザにより与えられる情報は、後述のように、学習プロセスに使用されるトレーニングデータを定めて、ある深さと前記単一イメージの各画素とを関連させる。この方法は、数ヶ所の領域のみについておおよその深さを定める点で相互作用する。前記領域についての学習プロセスの結果に基いて、ユーザは、学習プロセスの遂行が不充分な領域について更に深さ推定を行うことができる。ユーザと学習プロセスとの間のこの相互作用は、多数回反復される。実際には、ユーザはこのステージで学習プロセスをガイドできる。最初の深さデータは必ずしもユーザが特定する必要はなく、上記他の何らかの方法で決定できることに留意すべきである。
【0030】
<マッピング関数の作成>
システムにイメージおよび幾つかの画素の深さが与えられたならば、システムは、次に、深さが定められた画素を分析して、マッピング関数を作成する。マッピング関数は、入力として、イメージからの1つの画素または1組の画素についての任意の測定値をとり、かつ出力として、当該1つの画素または1組の画素についての深さ値を与えることができる。
【0031】
個々の画素の測定値は、赤、緑および青の値、または輝度、色差、コントラストおよびイメージ中の水平および垂直位置決めのための空間測定値で構成できる。あるいは、マッピング関数は、大きい組の画素、および、平均および分散(variance)、またはエッジおよびコーナ等の1組の画素の測定値のような高レベルのイメージ特徴(すなわち、特徴検出器)に基いて演算できる。大きい組の画素は、例えばイメージ中のセグメントを表し、同次領域(homogeneous region)を形成する連結画素の組である。
【0032】
例示目的のみから、画素は、
x、y、R、G、B、z
で表すことができる。ここで、xおよびyはx、y座標での画素の相対位置を表し、R、GおよびBは当該画素の赤、緑および青の値を表し、zは当該画素の深さを表す。zの値は、ユーザが値を特定したときにのみ定められる。
【0033】
マッピング関数は、ユーザが識別した画素についてのイメージデータと深さデータとの間の関係を捕捉することにより学習される。マッピング関数は、入力データが受入れられ、処理されかつ出力が与えられる任意の一般的な処理ユニット(generic−processing unit)のフォームにすることができる。この処理ユニットは、その性質がユーザデータおよび対応イメージデータの試験により決定されるプロセスが可能であることが好ましい。
【0034】
入力データと所望出力との間のこの関係を学習する方法は、人工知能または機械学習の技術分野の当業者には理解されようが、多くのフォームにすることができる。これらの当業者は、通常は、立体システムすなわち2Dイメージの3Dイメージへの変換の技術分野では働いていないことに留意されたい。機械学習においては、このようなマッピング関数は知られており、かつマッピング関数としてはニューラルネットワーク、決定ツリー、決定グラフ、モデルツリーおよび最近傍類別子(nearest−neighbour classifiers)があるがこれらに限定されるものではない。学習アルゴリズムの好ましい実施形態は、マッピングエラーのある測定値を最小にするマッピング関数の設計を探求すること、および、オリジナルのデータ組以外の値を満足できるように一般化する学習アルゴリズムである。
【0035】
学習アルゴリズムは、2Dイメージ情報とイメージ全体に亘る深さとの間の関係、または、小さい空間領域についての局部的な関係を決定することを試みる。
【0036】
この関係は、次に、シーケンス全体について深さマップを完成すべく適用される。
【0037】
これは図2に例示されており、ここでは、データを2Dイメージ1から作成されたマッピング関数4に入力して、2Dイメージ1の深さマップ5を作成する。
【0038】
成功が得られる学習アルゴリズムの例として、ニューラルネットワークを学習するバックプロパゲーション(back−propagation)アルゴリズム、局部重み付きリニア回帰(locally weighted linear regression)の決定ツリーを学習するC4.5アルゴリズム、およびクラスタ形類別子(cluster−type classifiers)を学習するK平均(K−Means)アルゴリズムがある。
【0039】
例示目的のみから、学習アルゴリズムは、2Dイメージシーケンスのフレーム中の各画素について、下記関係を計算することを考えることができる。
【0040】
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、アルゴリズムにより決定される。
【0041】
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値である。
【0042】
この方法は図1に示されている。
【0043】
当業者ならば、上記式は例示のみを目的として簡単化したものであり、実際には理想的なものでないことは理解されよう。例えばニューラルネットワークを用いかつイメージ中に多数の画素を与えた実際の実施では、ニューラルネットワークは、多くのk値、乗算および加算を含む1つの大きい式を学習する。また、k値はイメージ中の種々のx、y位置について変化し、ローカルイメージの特徴に適合する。
【0044】
<2Dイメージへのマッピング関数の適用>
次に、本発明は、このマッピング関数を採用しかつ該マッピング関数を2Dイメージシーケンスの全フレームに適用する。所与の画素について、マッピング関数への入力は、学習プロセス中にマッピング関数に与えられるのと同様の要領で決定される。例えば、入力として単一画素の測定値を与えることによりマッピング関数を学習したならば、マッピング関数は、入力と同じこれらの測定値を必要とするであろう。これらの入力により、マッピング関数は、その学習したタスクを遂行しかつ深さ測定値を出力する。また、単一画素についての例では、この深さ測定値は簡単な深さ値とすることができる。この例では、マッピング関数は全イメージについて適用され、イメージについての全組の深さデータを完成する。あるいは、マッピング関数が大きい組の画素を用いてトレーニングされる場合には、イメージについてこのような大きい組の画素を発生させることが要求される。これらの組の画素について、平均および分散のような高レベルの測定が、学習プロセス中における測定と同じ要領で行なわれる。これらの入力が確立されたならば、マッピング関数は、当該組の画素についての必要な深さ測定値を作る。
【0045】
この方法が図2に示されており、2Dイメージについての全深さマップを形成する。得られる深さマップがエラー領域を含んでいる場合には、これらの領域を矯正すべく反復されたユーザデータおよびプロセスに修正が加えられる。他のフレームにマッピング関数を適用して深さマップを発生させることもできる。
【0046】
機械学習の分野の当業者ならば、トレーニング段階にアルゴリズムの一般的なコンフィグレーションを含めることができることは理解されよう。このアプローチは事例ベース形学習(instance based learning)と呼ばれ、局部重み付きリニア回帰等の技術を含むが、この技術に限定されるものではない。他の実施形態では、ユーザは、1組のオブジェクトを定めかつ該オブジェクトに画素を割当てることができる。この実施形態では、ユーザデータをイメージの残余の画素に一般化する方法は、イメージ全体を、ユーザにより最初に識別されたオブジェクトの組にセグメント化する。オブジェクトを定めるマッピング関数またはオブジェクト自体は、この実施形態の必要出力とすることができる。あるいは、関数をオブジェクトに適用してこれらのオブジェクトの深さを特定し、これにより、イメージについての深さマップを構成することができる。これらの関数は、深さランプ(depth ramp)のフォームおよび本出願人に係る以前の国際特許出願PCT/AU00/00700に開示されているようなオブジェクトの深さを定める他の方法にすることができる。
【0047】
更に別の実施形態では、トレーニングアルゴリズムは、ユーザ情報へのランダム成分の導入を試みることができる。この試みは、任意の学習アルゴリズムを用いて、オーバートレーニングの困難性を解消することを補助する。オーバートレーニングとは、学習アルゴリズムが単にトレーニング情報を覚えている状況をいう。これは、乗算自体の概念のいかなる理解も不要な、子供用の学習掛け算表に似たものである。この問題は、機械学習の分野で知られており、問題を解決するアプローチは、ランダムノイズをトレーニングデータに導入することである。優れた学習アルゴリズムは、トレーニングデータ中のノイズとクオリティ情報とを強制的に区別する。これを行うと、データの性質を単に覚えていることよりも、データの性質を学習することが促進される。このアプローチの一例の実施形態は、トレーニングアルゴリズムが下記の関数を学習する前述の例に関連している。
【0048】
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
トレーニングアルゴリズムへの入力をz、x、y、R、G、Bで表すとき、小さいノイズ成分がこれらの値に付加される。ノイズ成分は、正または負の小さい乱数にすることができる。好ましい実施形態では、z成分にはいかなるノイズも付加されない。
【0049】
<学習プロセス>
好ましい実施形態では、学習プロセスへの入力は次のとおりである。
【0050】
1.深さを含むある特性を有する多数のトレーニングサンプル。
【0051】
2.上記トレーニングサンプルに一致する特性を有しかつ学習プロセスにより深さが決定される多数の「類別(classification)」サンプル。
【0052】
トレーニングサンプルは、画素の位置(x、y)、色(R、G、B)および深ささ(z)を特性として有する個々の画素からなる。学習プロセスの目的は、特性として位置(x、y)および色(R、G、B)を有する各類別画素(classification pixels)について深さ(z)を計算することである。
【0053】
各類別サンプルについて、第一ステージの学習アルゴリズムは、対象としている類別画素と「同様な」イメージ特性を共有するトレーニングサンプルの部分集合を識別することを含む。
【0054】
<トレーニング候補のサーチング>
現在の類別サンプルと同様な特性をもつトレーニングサンプルを識別するため、サンプルが生じるn次元特徴空間を考察する。好ましい実施形態では、これは、各次元がイメージ特性x、y、R、G、Bの1つを表す5次元空間である。この空間の軸線は、各次元の範囲の差を説明すべく標準化される。従って、相対百分率を用いてサンプル間の差について言及する。例えば、所与のサンプルのR成分は、第二サンプルに対して(R成分の絶対範囲の)10%だけ異ならせることができる。
【0055】
この空間内の2つのサンプル間の距離は、これらの類似性の1つの尺度である。現在の類別サンプルと同様なトレーニングサンプルを検出するため、サーチ半径が定められる。類別サンプルからの距離がサーチ半径より小さいあらゆるトレーニングサンプルは、類別サンプルと同様であると考えられかつ深さの計算に使用される。n次元のサーチ空間内の距離は、簡単なユークリッドメートル法(Euclidean metric)を用いて測定される。n次元特徴空間の大きい部分を占拠しないデータでは、より良い結果を得るため、マハラノビス距離メートル法(Mahalanobis distance metrics)が使用される。RGB、YUVまたはHSV成分のヒストグラム方程式または主要成分分析等のデータの範囲を引伸す他の手段でも同様な利益が得られる。
【0056】
サーチ半径は深さの正確な推定における臨界パラメータであり、かつデータの特徴に対して構成される。高い空間的(high spatial)または時間的自動矯正(temporal autocorrelation)を呈するデータでは、低い空間的または時間的自動矯正をもつイメージに対するよりも小さい値に設定される。
【0057】
サーチ半径は、特徴空間の各寸法に対して異ならせることができる。例えば、x軸内でのサーチ半径は、赤色強度を表す軸線内でのサーチ半径とは異ならせることができる。また、学習プロセスは、これらのパラメータを、ユーザが定めたあうる境界内のデータに適合させることができる。例えば、5%の空間半径および10%の色半径内で適当なトレーニングサンプルが全く識別されない場合には、空間半径が10%に増大される。
【0058】
図8には、候補サーチ方法の簡単化した一例が示されている。図8には、図示の目的で赤色強度の変化に対してプロットされた、サンプルの空間x軸座標内の変化をもつ2次元サーチ空間が示されている。この空間内には多数のトレーニングサンプル20がある。ターゲット画素11の第一半径21の距離内には、トレーニングサンプルが全く存在しない。従って、学習プロセスは、サーチをターゲット画素11の第二サーチ半径22まで拡大しかつ3つの候補トレーニングサンプルを識別する。
【0059】
適当なトレーニング候補を識別するのに、他のサーチ戦略を使用できる。このような戦略では、トレーニングデータは、ハズツリー(has tree)、k−dツリー(k−d Tree)またはn次元ヴォロノイ(Voronoi)図式等の構造に記憶される。このような戦略は、候補トレーニングサンプルを識別する速度を増大させるが、本発明の本質に影響は与えない。
【0060】
同様に、トレーニングサンプルをキャッシングすることにより、特徴空間内の連続する類別サンプルの接近を利用するサーチ戦略は、候補トレーニングサンプルを識別する速度を向上させるが、本発明に大きい影響は与えない。
【0061】
<距離重み付き学習>
任意の所与の類別サンプルについての深さを計算するため、本発明者は、前述の類別サンプルと同様に見える1つ以上のトレーニングサンプルを要求する。本発明者は、これらのトレーニングサンプルを「候補(candidate)」トレーニングサンプルと呼ぶことにする。
【0062】
本発明者は、類別サンプルの深さを、候補トレーニングサンプルの深さの重み付き平均として計算する。任意の候補トレーニングサンプルに帰属する重みは、n次元空間内の類別サンプルからの距離に対するものである。前述のように、この距離は標準化され、そして、マハラノビスメートル法(Mahalanobis metrics)または主要成分スタイル分析法(principal component style analysis)を用いてデータバイアスすることができる。
【0063】
図9には、深さ計算法の簡単化した例が示されている。図8におけるように、図9には、図示の目的で赤色強度の変化に対してプロットされた、サンプルの空間x座標内の変化をもつ2次元サーチ空間が示されている。3つの候補トレーニングサンプル19は、ターゲット画素11から異なる距離に示されている(w1、w2、w3で示されている)。深さは、次式を用いて、候補トレーニングサンプルの重み付き平均として計算できる。
【0064】
【数1】
【0065】
ここで、D1は、ターゲット画素11からw1の距離におけるトレーニングサンプルの深さ、D2は、ターゲット画素11からw2の距離におけるトレーニングサンプルの深さ、D3は、ターゲット画素11からw3の距離におけるトレーニングサンプルの深さである。
【0066】
好ましい実施形態でにおいて、重みは、n次元空間内での距離の2乗に反比例する。
【0067】
<別の実施形態>
別の実施形態では、学習プロセスは、利用できる全ての組のトレーニングデータを分析して、サンプルの深さに対するイメージ特性の関係を支配する規則を推論する。
【0068】
この方法では、n次元の特徴空間が1組の領域に分割されるか、仕切られる。図5には、この原理が簡単化されて示されている。この例では、n次元空間は、決定境界23により多数の矩形領域に分割される。深さ値は、ターゲット画素11が占拠する領域に基いて、該ターゲット画素11に割当てられる。
【0069】
実際には、M5モデルツリーアルゴリズムを使用して、特徴空間の仕切りを行なう。M5アルゴリズムは、2つの方法で上記基本サンプルを改善する。決定境界は特徴空間の軸線に垂直である必要はなく、深さは、イメージ特性の関数として、個々の領域内で変化できる。
【0070】
機械学習の分野の当業者ならば、M5モデルツリーに代えて、ニューラルネットワーク、決定ツリー、決定グラフおよび最近傍類別子を含む多くの学習スキームを使用できることが理解されよう。学習アルゴリズムの正確な性質は、本発明の新規性に影響を与えない。
【0071】
好ましい実施形態では、学習プロセスは、イメージ特性x、y、R、G、Bに基いて作動する。他の実施形態は、大きい画素の組のような高レベルのイメージ特性および平均および分散またはエッジ、コーナ等の1組の画素の測定値(すなわち、特徴検出器の応答)に基いて作動する。大きい組の画素は、例えば同次領域を形成する連結画素の組であり、イメージ中のセグメントを表す。
【0072】
(フェーズ2)
第2フェーズは、少なくとも1つのフレームがキーフレームとして識別されるイメージシーケンスで作動する。第2フェーズは、一般的に深さマップのフォームをなす各キーフレームについて3D立体データを受入れる。深さマップは、例えばヒューマン仕様(human specification)、上記第1フェーズの出力、立体イメージから決定した深さ、または、範囲発見システム(range finding system)を用いた深さの直接獲得等の任意の方法で行なうことができるが、これらに限定されるものではない。あるいは、3D立体情報は深さマップ以外の他のフォームにでき、例えば立体ペアを有するキーフレームから得た不均衡情報にすることができる。
【0073】
2Dイメージシーケンスの他の全てのフレームについて、本発明は、最初に利用できるキーフレーム情報に基いた、深さマップの仕様を提供する。キーフレームの数は、全フレーム数の極く一部である。従って、本発明は、最初に発生すべき深さマップの量を大幅に低減できる方法を提供する。
【0074】
<マッピング関数の作成>
システムにキーフレームおよびこれらの対応深さマップが与えられたならば、システムは、最初に利用できるキーフレームおよび対応深さマップを分析して、マッピング関数を作成する。マッピング関数は、2Dイメージの任意の所与の測定値を入力しかつ当該イメージの深さマップを出力するプロセスすなわち関数と考えることができる。このマッピングは、これらのイメージについて利用できるキーフレームイメージデータと深さマップとの関係を捕捉することにより学習される。
【0075】
マッピング関数は、入力データが受入れられ、処理されかつ出力される任意の一般的な処理ユニット(generic−processing unit)のフォームにすることができる。好ましくは、この処理ユニットは学習プロセスが可能であり、この本質はキーフレームデータの試験およびその対応深さマップにより決定される。機械学習の分野では、このようなマッピング関数は知られており、かつ、ニューラルネットワーク、決定ツリー、決定グラフ、モデルツリーおよび最近傍類別子を有するが、これらに限定されるものではない。
【0076】
このシステムは、入力データと所望の出力データとの関係を学習することを試みる。学習プロセスにおいて、2Dキーフレームイメージ処理装置からの情報がトレーニングアルゴリズムに与えられる。この情報は画素毎のベースで与えられ、赤、緑および青等の測定値、または輝度、色差、コントラスト等の他の測定値、およびイメージ中の水平および垂直位置決めを行なう空間測定値等の画素測定値が与えられる。あるいは、この情報は、大きい組の画素、および平均および分散またはエッジ、コーナ等の1組の画素に関する測定値等の高レベルのイメージ特徴の形態(すなわち、特徴検出器の応答)で与えることができる。大きい組の画素は、例えば、同次領域を形成する連結画素の組であるイメージのセグメントを表す。
【0077】
例示目的のみから、2Dイメージは、
x、y、R、G、B
で表すことができる。ここで、xおよびyは各画素のx、y座標を表し、R、GおよびBは当該画素の赤、緑および青の値を表す。
【0078】
次に、対応深さマップがトレーニングアルゴリズムに与えられ、これにより、トレーニングアルゴリズムがその必要マッピングを学習できるようになる。通常、個々の画素がトレーニングアルゴリズムに与えられるが、大きい組の画素またはセグメントのような高レベルのイメージ特徴が使用される場合には、深さマップは、平均および分散のような当該画素の組についての深さの測定値とすることができる。
【0079】
例示目的のみから、深さマップは、
z、x、y
の形態で表すことができる。ここで、xおよびyは各画素のx、y座標を表し、zは、当該対応画素に割当てられる深さ値を表す。
【0080】
入力データと所望出力とのこの関係を学習する方法は、人工知能の領域の当業者には理解されようが、多くの形態にすることができる。学習アルゴリズムの好ましい実施形態は、マッピングエラーの或る測定値を最小にするマッピング関数を設計することを探求する実施形態である。
【0081】
学習アルゴリズムは、2Dイメージ情報と、キーフレームの例に存在する深さマップとの関係を一般化することを試みる。この一般化は、次に、全シーケンスについての深さマップを完成すべく適用される。当業界で知られている、成功を収めている学習アルゴリズムは、ニューラルネットワークを学習するバックプロパゲーションアルゴリズム、決定ツリーを学習するC4.5アルゴリズム、および、クラスタ形類別子を学習するK平均アルゴリズムである。
【0082】
例示目的のみから、学習アルゴリズムは、2Dイメージシーケンスのフレーム中の各画素について、下記関係を計算することを考えることができる。
【0083】
Zn=kaxn+kbyn+kcRn+kdGn+keBn
ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、アルゴリズムにより決定される。
【0084】
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値である。
【0085】
当業者ならば、上記式は例示のみを目的として簡単化したものであり、実際に実施させるものでないことは理解されよう。例えばニューラルネットワークを用いかつイメージ中に多数の画素を与えた実際の実施では、ニューラルネットワークは、多くのk値、乗算および加算を含む1つの大きい式を学習する。この方法は、種々の数のキーフレームを使用する同様な方法を示す図3に示されている。
【0086】
<マッピング関数の適用>
次に、本発明は、このマッピング関数を用いて該マッピング関数を、利用できる深さマップを未だ保有しない1組の2Dイメージの全体に適用する。当該組の所与の2Dイメージについては、マッピング関数への入力は、学習プロセス中にマッピング関数に与えられるのと同様の要領で決定される。例えば、マッピング関数が、入力として単一画素の測定値を与えることにより学習されたものである場合には、マッピング関数は、新しいイメージの画素についてのこれらの同じ測定値が必要になる。これらの入力により、マッピング関数は、学習したタスクを遂行しかつ深さ測定値を出力する。単一画素の例でも、マッピング関数はイメージシーケンスの全体に亘って適用され、イメージシーケンスについての全組の深さデータを完成する。あるいは、マッピング関数が大きい組の画素を用いてトレーニングされた場合には、新しいイメージについても大きい組の画素を発生させる必要がある。学習プロセス中と同じ要領で、これらの組の画素に、平均および分散のような高レベルの測定値が作られる。これらの入力値が確立されると、マッピング関数は当該組の画素について必要な深さ測定値を作る。
【0087】
2Dイメージのシーケンスについては、深さマップを備えたキーフレームは、任意の方法でシーケンス全体に亘って間隔を隔てることができる。好ましい実施形態では、マッピング関数には1組のキーフレームが与えられ、対応する深さマップは、何らかの共通性をもつ1組の2Dイメージのスパンを隔てる。最も簡単な場合には、2つのキーフレームを用いてマッピング関数をトレーニングし、次にマッピング関数を用いて、2つの前記キーフレーム間に2Dイメージについての深さマップを決定する。しかしながら、マッピング関数のトレーニングに使用されるキーフレームの数にはいかなる制限も存在しない。また、全組の2Dイメージを完成させるのに使用されるマッピング関数の数にもいかなる制限も存在しない。好ましい実施形態では、1つ以上の介入フレームにより分離された2つのキーフレームは、この第2フェーズの処理への入力として定められる。このフェーズの目的は、これらの介入フレームの各々に深さマップを割当てることである。介入フレームに深さマップが割当てられる好ましい順序は、キーフレームに時間的に最も近いフレームを最初に処理することから処理される。処理されたフレームは、次のフレームの深さマップに対するキーフレームとなる。
【0088】
この時間変数の付加は、キーフレームで利用できる情報を一般化するときのトレーニング関数を補助する。時間変数が存在しない場合には、2つのキーフレームの深さ情報は互いに矛盾するものでもよい。このことは、同様な色の画素が両方のキーフレームの同じ空間領域内に生じるときに生じることがある。例えば、イメージの中央に緑色の車が観察される第1キーフレームでは、深さ特性がこの車を最前面に移動させる。次のキーフレームでは、車が移動していて、車の後ろに緑色の小牧場が露出され、その深さ特性が中央の地面領域を特定する。トレーニングアルゴリズムには、イメージの中央に緑色の画素を有するが、異なる深さ特性は有していない2つのキーフレームが与えられる。この矛盾は解決できず、マッピング関数がこのような領域内で首尾良く遂行されることは期待できない。時間変数の導入により、このアルゴリズムは、イメージの中央の緑色の画素がイメージシーケンスでの第1キーフレームの近くの時間で最前面にあることを認識することによりこの矛盾を解決できる。時間が第2キーフレームへと進行すると、トレーニングアルゴリズムは、イメージの中央の緑色画素を、緑色小牧場の中間の地面深さとして認識する傾向が強くなる。
【0089】
この方法が図6の例により示されている。上列6はソースフレームを表し、これらのソースフレームには、イメージシーケンスでのこれらの相対位置に従って番号が付されている。下列はこのフェーズにより作られた深さマップを表す。付された番号は、深さマップが作られる順序を表す。深さフレーム1、2は逆の順序でも処理でき、同様に深さフレーム3、4も逆の順序で処理できる。キーフレーム7は、上記プロセスへの入力として与えられる。作られるべき第一深さマップは、図示のようにソースフレーム1に関連付けられる。作られた前の2つの深さマップを用いて、任意の次の深さマップが作られる。
【0090】
深さマップが作られるべきフレーム内の各画素には、ターゲット画素のイメージ特性を使用して、前記画素に関連する深さを決定する。好ましい実施形態では、各キーフレームから1つずつ、2つの深さ評価が検索される。この方法が図7に示されており、図7には、ターゲット画素11が、イメージシーケンスでの現在のフレームの前後で、如何にして最も近いソースキーフレーム6と比較されるかを示している(ステップ12および13)。学習プロセスは、前述の同様にサーチ半径14を使用して、同様なイメージ特性をもつ画素を識別し、かつ前記画素に関連する深さを使用して(ステップ15および16)、ターゲット画素についての深さを計算する(ステップ17および18)。各キーフレームはターゲット画素の深さを評価し、これらをD1およびD2として定める。
【0091】
ターゲット画素に関連する最終深さを決定するためには、深さD1およびD2を結合しなければならない。好ましい実施形態では、これらの値の重み付き平均は、重みパラメータとしてキーフレームの位置を用いて計算される。現在のフレームから第一キーフレームまでの距離がT1であり、かつ第二キーフレームまでの距離がT2であるとき、ターゲット画素の深さは次式で与えられる。
【0092】
【数2】
【0093】
ここで、D1およびD2は,それぞれ、キーフレーム1および2から計算された深さである。
【0094】
ある場合には、学習プロセスは、所与の画素についての深さ値を決定できない。上記計算プロセス中に、2つのキーフレームの深さ評価のうちの1つが決定されない場合には、ターゲット画素は、割当てられているキーフレームの深さ評価に割当てられ、いかなる重みも使用されない。2つの評価D1、D2のいずれもが定められない場合には、サーチ半径が拡大されかつこのプロセスが反復される。
【0095】
他の全てのフレームについて深さマップを作成するのに、1つのキーフレームのみで済むことに留意すべきである。しかしながら、オブジェクトの深さがイメージシーケンスで変化する状況では、上記のようにして重み付けされた2つ以上のキーフレームが、良い結果を与えるであろう。
【0096】
フレームが処理される順序および多数のキーフレームからの結果が結合される態様は、本発明の本質に大きい影響を与えることなく変えることができることに留意すべきである。
【0097】
2Dイメージの場合のように、トレーニング段階には、シーケンスのイメージの任意の画素での深さ評価を決定すべく、瞬間形学習を含めることができることに留意されたい。この方法が図4に示されている。
【0098】
フェーズ1に使用されたのと同じ学習プロセスが、フェーズ2でも実施できることに留意されたい。両プロセスは、入力データと所望の出力との関係、すなわち深さを考察する。大きい相違点は、フェーズ2での学習プロセスはフレーム数に基いて時間要素を考察すべきであるのに対して、フェーズ1は時間要素に注意を払う必要がないことである。
【0099】
<他の用途>
マッピング関数は、シーケンスの全ての非キーフレームイメージについての深さ情報の完全表示を与える。これは、深さ情報の符号化として利用できる。マッピング関数には比較的少量のデータが伝送され、従ってマッピング関数は深さ情報の大きい圧縮を表すことが予測される。
【0100】
20個のフレームがシーケンス内で離れている2つのキーフレームがある場合を考える。マッピング関数はこれらの2つのキーフレームを学習し、このマッピング関数は、中間フレームについての全ての深さ情報を与える。マッピング関数自体は、20個のフレームについての全てのこの深さ情報の圧縮を表す。例えば例示のみを目的として、マッピング関数は6000バイトを用いるファイルに書き込むことができ、この場合にはこのコストについて、深さ情報の20個のフレームの価値が得られる。実際上は、これは、1フレームにつき6000/20=300バイトを表す。実際に実施する場合には、有効圧縮が本質的なものとなる。
【0101】
他の用途では、上記圧縮は、2Dイメージソース内に埋入された3D情報、すなわち2D/3D互換イメージの効率的伝送を考慮に入れることができる。マッピング関数は、一般に、3D情報を与える2Dイメージデータの極く一部であるファイル長さを必要とするので、2Dイメージシーケンスへの3D情報の付加は、非常に小さいオーバーヘッドにより達成される。
【0102】
この場合には、3D情報は、2Dイメージを見るときにシーケンスの各2Dイメージにマッピング関数を単に適用するだけで、見る前、またはリアルタイムで、観察者の側で得られる。これは、機械学習時に見出されるマッピング関数の形式が、これらがトレーニングされた後に計算を行なうのに非常に効率的であるという事実により可能になる。一般に、トレーニングプロセスは遅くかつ資源集中的で、通常、3Dイメージのコンテンツを作るプロセス中にオフラインが行なわれる。トレーニングが完了すると、マッピング関数は観察者の側に伝送され、かつ2Dイメージの3Dイメージへのリアルタイム変換に適した非常に高いスループットで遂行する。
【0103】
本出願人自身による以前の開示は、2Dイメージの立体3Dイメージへの変換技術に関するものである。開示した変換方法は、2Dイメージに関連する深さマップの形成を組込むものであった。一実施形態では、深さマップはフレーム毎に手動で創出された。本願に開示した改善は、少数のキーフレームで深さマップを創出しかつ中間深さマップを計算することができる。キーフレームは全フレーム数の小さい部分を表すので、この新しい技術は、時間およびコストの両方において変換効率に大きい改善をもたらす。
【0104】
本願の開示の特に意図するところは、本発明が、立体イメージを作ること以外に深さマップを創出することにも適用されるようにすることである。
【0105】
深さマップは、ロトスコーピング(rotoscoping)と呼ばれている方法で、特殊効果の工業界で広く使用されていることが当業者に知られている。ライブアクションまたはコンピュータ創成イメージを2Dイメージ内で合成するには、2Dイメージの各フレームについての深さマップまたはマットを手動で作ることがしばしば必要になる。これらのマットは、付加イメージを合成して、オリジナルの2Dイメージ内で適当なジオメトリで移動しているように見えるようにする。上記本発明は、このようなマットを迅速に創成することができる。
【0106】
ライブシーンから深さマップが得られるようにするカメラが開発されていることも知られている。これらのカメラは、一般に、レーザ範囲ファインダの技術を使用しかつLIDARデバイスとして広く知られている。テレビジョンフレームの速度で深さマップを捕捉するには、高価で複雑なシステムが必要になる。本発明を適用することにより、ビデオフィールド速度の数分の一の速度でまたはたまに深さマップを捕捉するだけでよい、簡単なLIDARデバイスを構成でき、かつ本発明の技術を用いて補間することにより欠如した深さマップを作ることができる。
【図面の簡単な説明】
【図1】
フェーズ1のトレーニング方法の一実施形態を示す図面である。
【図2】
フェーズ1の変換方法の一実施形態を示す図面である。
【図3】
フェーズ2のトレーニング方法の一実施形態を示す図面である。
【図4】
フェーズ2の変換方法の一実施形態を示す図面である。
【図5】
学習プロセスが特徴空間を仕切る方法を示す図面である。
【図6】
フェーズ2での他の深さマップ創成方法を示す図面である。
【図7】
フェーズ2での個々の画素の深さを決定する他の方法を示す図面である。
【図8】
候補トレーニングサンプルをサーチする方法を示す図面である。
【図9】
多数の候補トレーニングサンプルから深さを計算する方法を示す図面である。
(技術分野)
本発明は1つ以上の2Dイメージから深さマップを得るための改善された技術に関する。
【0002】
(背景技術)
多数のイメージ処理タスク(image processing task)は、イメージ内のオブジェクトの深さを知ることを必要としている。このようなタスクとして、フィルムおよびビデオシーケンスへの特殊効果の適用、および、2Dイメージの立体3Dへの変換がある。オブジェクトの深さの決定は、深さマップの作成処理と呼ばれることもある。深さマップにおいて、各オブジェクトは、陰影が固定点からのオブジェクトの深さを表示するようにグレイの陰影で着色される。一般に、遠いオブジェクトはグレイの暗い陰影が付されるのに対して、近いオブジェクトは明るいグレイの陰影が付される。深さマップを作成するための標準的な変換が未だに採用されており、異なる深さを表示するのに、逆カラーリングが使用されるか、異なる色が使用される。本願の開示における説明の目的のために、遠いオブジェクトは近いオブジェクトよりも暗く着色され、かつ、カラーリングは一般にグレイスケールとする。
【0003】
歴史的に、既存の2Dイメージからの深さマップの作成は手動で行なわれてきた。イメージは、コンピュータにとっては単に一連の画素であり、一方、人のオペレータはオブジェクトおよび該オブジェクトの相対深さを区別できることは理解されよう。
【0004】
深さマップの作成は、変換すべきイメージの各オブジェクトのアウトラインを手動で定めるシステム、および、オブジェクトに割当てられる深さを有している。この方法は、遅く、時間を要しかつコストが嵩むことは理解されよう。アウトラインを定めるステップは、通常、マウスに関連するソフトウェアプログラムを用いて行なわれる。このタスクを行なうのに使用されるソフトウェアプログラムの例として、Adobe社の「アフター・エフェクト(After EffectTM)」がある。「アフター・エフェクト」を使用するオペレータは、一般に、深さの割当てを必要とする各オブジェクトのアウトラインの回りで線を引き、次に、オブジェクトを、観察者からの必要な深さ、すなわち距離を定めるグレイの所望陰影で塗りつぶす(すなわち「着色」する)。この方法は、次に、イメージ内の各オブジェクトについて反復される。また、例えばフィルムのように多数のイメージが含まれる場合には、フィルムの各イメージまたは各フレームについてこれらのステップを遂行することも必要である。
【0005】
伝統的なシステムにおいて、イメージのアウトラインは、一般に、曲線の幾つかのフォーム、例えばベジェ曲線(Bezier curve)として描かれる。このような曲線の使用により、オペレータは、オブジェクトのアウトラインがオブジェクトに正確に整合するようにアウトラインの形状を変えることができる。
【0006】
一連のイメージが例えばフィルムまたはビデオのような深さマッピングを必要とする場合には、この方法は、シーケンスの各フレームについて反復される。
【0007】
オブジェクトのサイズ、位置および/または深さは、1つのシーケンスを通して変化する虞れがある。この場合には、オペレータは、各フレーム内のオブジェクトを手動で追跡し、曲線を矯正することにより各フレームを処理し、そして、必要に応じてグレイの陰影を変えることによりオブジェクトの深さを更新することを要求される。これは、遅くて長たらしく、時間を要しかつコストが嵩む方法であることは理解されよう。
【0008】
この方法を改善する試みがこれまでになされてきた。従来技術は、オブジェクトがフレームからフレームへと移動するときにオブジェクトのアウトラインを自動的に追跡することを試みる技術を説明している。このような技術の一例として、能動輪郭(Active Contours)の適用がある(参照:”Active Contours”−Andrew Blake およびMichael Isard著−ISBN 3−540−76217−5)。このアプローチの主な制限は、追跡されるオブジェクトの運動を予測する技術を実施するソフトウェアを教示する必要があることである。これは、予測運動を知ることができず、複雑な変形が予測されるか、あるいは、異なる運動特性をもつ多数のオブジェクトが同時追跡されるときに顕著な制限となる。
【0009】
アウトラインの運動を定めるのに、ポイントベース型のトラッキングアプローチ(point−based tracking approaches)も使用されている。これらは、コモーション(CommotionTM)およびアフター・イフェクトのような編集環境で良く知られている。しかしながら、これらは適当な追跡点(該追跡点の運動は全体としてオブジェクトの運動を反映する)を識別できないことがしばしばあるので、これらの適用は非常に制限されている。ポイント・トラッキングは、オブジェクトが簡単な並進運動(simple translations)を受けるときはときどき受入れられているが、形状の変形、閉塞(occlusions)、または、他の種々の一般的問題には対処できない。
【0010】
イスラエルの企業AutoMedia社は、オートマスカー(AutoMaskerTM)と呼ばれているソフトウェア製品を製造している。このソフトウェア製品は、オペレータがオブジェクトのアウトラインを描きかつ該アウトラインをフレームからフレームへと追跡することを可能にする。このソフトウェア製品は、オブジェクトの色の追跡に頼るものであり、従って、同様な着色のオブジェクトが交差するときには機能しない。このソフトウェア製品はまた、例えば、オブジェクトが観察者に近付くか、スクリーン上で前方に移動するときのように、連続フレーム上でサイズが変化するオブジェクトの追跡は困難である。
【0011】
これらのいずれのアプローチも深さマップの割当てができないだけでなく、追跡もできず、従って、深さマップの作成は依然として手動で行なわれる。従来技術で説明されている他の技術は、2Dシーケンスの記録に使用されたオリジナルのカメラの運動を再現することに基くものである。これらの技術の制限は、オリジナルのイメージシーケンス内でのカメラ運動を必要とすること、および、トラッキング・ポイントとして使用できる各フレーム内に良く定められた特徴が存在することである。
【0012】
(発明の目的)
現在は、オペレータが、イメージの各フレームについて深さマップを手動で作成し、許容できる結果が得られるようにする必要がある。本発明の目的は、手動による深さ作成を必要とするフレーム数を低減させ、これによりオペレータが深さマップを作成する時間コミットメントを短縮することにある。
【0013】
深さマップが依然として手動で作成されるべき1組のフレームが未だに残されている。本発明の他の目的は、これらのフレームの深さマップの手動作成方法を補助することにある。
【0014】
(発明の概要)
上記目的を達成するため、本発明は、イメージの少なくとも1つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも1つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第1アルゴリズムのコンフィグレーションを決定するステップと、
前記第1アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法を提供する。
【0015】
他の態様では、本発明は、イメージの少なくとも1つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも1つの画素または一部の各々についてx、y座標およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性およびそれぞれのx、y座標を使用して、x、y座標およびイメージ特性の関数としての深さ特性を確認するための第1アルゴリズムを決定するステップと、
前記第1アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法を提供する。
【0016】
更に別の態様では、本発明は、イメージシーケンスの少なくとも1つのフレームについての深さマップを受入れるステップと、
前記深さマップを使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するためのアルゴリズムのコンフィグレーションを決定するステップと、
前記アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法を提供する。
【0017】
更に別の態様では、本発明は、イメージシーケンスから少なくとも1つのキーフレームを選択するステップと、
前記少なくとも1つのキーフレームについて、各フレームの少なくとも1つの画素または一部に深さを割当てるステップと、
前記各キーフレームの少なくとも1つの画素または一部の各々について相対位置(例えばx、y座標)およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性および前記少なくとも1つのフレーム各々についての相対位置を使用して、相対位置および深さ特性の関数としての深さ特性を確認するための、前記少なくとも1つのフレーム各々についてのアルゴリズムのコンフィグレーションを決定するステップと、
前記各アルゴリズムのコンフィグレーションを使用して、前記少なくとも1つのキーフレームの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性は前記少なくとも1つのフレーム各々についての深さマップを形成し、
各深さマップを使用して、相対位置およびイメージ特性の関数としての各フレームについての深さ特性を確認するための第2アルゴリズムの第2コンフィグレーションを決定するステップと、
前記第2アルゴリズムを使用して、前記イメージシーケンスの各フレームについてそれぞれの深さマップを作成するステップと、を更に有することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法を提供する。
【0018】
アルゴリズムに関するシステムは、実際に、相対位置およびイメージ特性の結果として深さマップを作成するため、多数の異なる関数を作成することが理解されよう。好ましいシステムでは、相対位置はx、y座標の測定値である。
【0019】
本発明を実施するシステムは、シーケンスのどのフレームをキーフレーム、例えば各第五フレームと考えるべきかを予め定めることを選択する。アルゴリズムはまた、処理を更に精緻なものとするため、アルゴリズムへの入力として時間を考慮するのが理想的である。
【0020】
(発明の簡単な説明)
本発明は、関連2Dイメージについての深さマップを作る方法を改善することを意図している。この好ましい実施形態として、キーフレームの深さマップを作成するフェーズと、残余のマップを作成するフェーズとの2つのフェーズが含まれる。
【0021】
第1フェーズは、ユーザから少量のデータを得る。このデータは、シーンの基本構造を表示する。2Dイメージおよびこれに関連するデータは、ユーザによって種々のイメージ画素に割当てられる深さzと、そのxおよびy座標と、イメージ特性との間の関係を学習できるアルゴリズムに与えられる。イメージ特性には各画素についてのRGB値が含まれるが、これに限定されるものではない。一般に、アルゴリズムは、ユーザが定めたフレーム内の各画素について、次式を解く。
【0022】
z=f(x、y、R、G、B)
次に、アルゴリズムは、この学習した関係を、イメージ中の残余の画素に適用して深さマップを作成する。必要ならば、ユーザは、これらのデータを精緻化して、深さマップの精度を高めることができる。最初の深さデータは必ずしもユーザが特定する必要はない。最初の深さデータとして、運動アルゴリズムからの自動化された構造を用いること、または、立体イメージからの深さ推定を得ることがあるが、これらに限定されるものではない。
【0023】
第2フェーズは、選択されたキーフレームに与えるべき2Dイメージおよびこれに関連する深さマップを必要とする。これらのキーフレームでの深さマップは、例えば本出願人により以前に開示されたようにして作成されるか、深さ捕捉技術’(depth capture techniques)を用いて自動的に作られる。深さ捕捉技術として、レーザ範囲ファインダすなわちLIDAR(光の方向および範囲:Light Direction And Range)装置およびデプス・フロム・フォーカス(depth−from−focus)技術があるが、これらに限定されるものではない。
【0024】
各キーフレームについての2Dイメージおよび関連深さマップ(単一または複数)は、残余のフレーム内の各画素に割当てられる深さzと、そのxおよびy位置と、イメージ特性との間の関係を学習できるアルゴリズムに与えられる。イメージ特性として各画素のRGB値があるが、これに限定されるものではない。一般に、アルゴリズムは、キーフレーム内の各画素について、次式を解く。
【0025】
z=f(x、y、R、G、B)
このアルゴリズムは、次に、隣接キーフレーム間の各連続フレームに与えられ、かつ各画素についてアルゴリズムを使用してzの値を計算する。
【0026】
(発明の詳細な説明)
本発明は、1つ以上の2Dイメージから深さマップを得るための改善された技術を提供する。本発明は、好ましくは2つのフェーズを有し、各フェーズには、学習プロセスを取入れるのが理想的である。
【0027】
(フェーズ1)
第1フェーズは、単一イメージで作動する。ユーザにはイメージが提供され、ユーザは、簡単なグラフィックインターフェースを用いてイメージの種々の領域についておおよその深さを定める。グラフィックインターフェースは、ユーザが画素に深さを割当てる補助を行なうツールを提供し、これらのツールとして、ペン/ペイントブラシ・ツール、領域充填ツール、および画素色に基いて深さを割当てるツールがあるが、これらに限定されるものではない。この方法の結果として、イメージ中の画素の部分集合に深さが定められる。
【0028】
図1には、2Dイメージがユーザに提供される一例が示されている。次にユーザは、イメージ2内の種々の画素に深さを割り当てることができる。図1の例では、「X」で印された画素は、ユーザによって深さが特定されていない画素である。次にシステムは、2Dイメージ1と、ユーザにより与えられる深さデータ2とを相関付け、かつトレーニングアルゴリズムを用いて、マッピング関数4の作成を補助する。マッピング関数4は、イメージ中の各画素の深さについての関数を解くことができるものである。
【0029】
ユーザにより与えられる情報は、後述のように、学習プロセスに使用されるトレーニングデータを定めて、ある深さと前記単一イメージの各画素とを関連させる。この方法は、数ヶ所の領域のみについておおよその深さを定める点で相互作用する。前記領域についての学習プロセスの結果に基いて、ユーザは、学習プロセスの遂行が不充分な領域について更に深さ推定を行うことができる。ユーザと学習プロセスとの間のこの相互作用は、多数回反復される。実際には、ユーザはこのステージで学習プロセスをガイドできる。最初の深さデータは必ずしもユーザが特定する必要はなく、上記他の何らかの方法で決定できることに留意すべきである。
【0030】
<マッピング関数の作成>
システムにイメージおよび幾つかの画素の深さが与えられたならば、システムは、次に、深さが定められた画素を分析して、マッピング関数を作成する。マッピング関数は、入力として、イメージからの1つの画素または1組の画素についての任意の測定値をとり、かつ出力として、当該1つの画素または1組の画素についての深さ値を与えることができる。
【0031】
個々の画素の測定値は、赤、緑および青の値、または輝度、色差、コントラストおよびイメージ中の水平および垂直位置決めのための空間測定値で構成できる。あるいは、マッピング関数は、大きい組の画素、および、平均および分散(variance)、またはエッジおよびコーナ等の1組の画素の測定値のような高レベルのイメージ特徴(すなわち、特徴検出器)に基いて演算できる。大きい組の画素は、例えばイメージ中のセグメントを表し、同次領域(homogeneous region)を形成する連結画素の組である。
【0032】
例示目的のみから、画素は、
x、y、R、G、B、z
で表すことができる。ここで、xおよびyはx、y座標での画素の相対位置を表し、R、GおよびBは当該画素の赤、緑および青の値を表し、zは当該画素の深さを表す。zの値は、ユーザが値を特定したときにのみ定められる。
【0033】
マッピング関数は、ユーザが識別した画素についてのイメージデータと深さデータとの間の関係を捕捉することにより学習される。マッピング関数は、入力データが受入れられ、処理されかつ出力が与えられる任意の一般的な処理ユニット(generic−processing unit)のフォームにすることができる。この処理ユニットは、その性質がユーザデータおよび対応イメージデータの試験により決定されるプロセスが可能であることが好ましい。
【0034】
入力データと所望出力との間のこの関係を学習する方法は、人工知能または機械学習の技術分野の当業者には理解されようが、多くのフォームにすることができる。これらの当業者は、通常は、立体システムすなわち2Dイメージの3Dイメージへの変換の技術分野では働いていないことに留意されたい。機械学習においては、このようなマッピング関数は知られており、かつマッピング関数としてはニューラルネットワーク、決定ツリー、決定グラフ、モデルツリーおよび最近傍類別子(nearest−neighbour classifiers)があるがこれらに限定されるものではない。学習アルゴリズムの好ましい実施形態は、マッピングエラーのある測定値を最小にするマッピング関数の設計を探求すること、および、オリジナルのデータ組以外の値を満足できるように一般化する学習アルゴリズムである。
【0035】
学習アルゴリズムは、2Dイメージ情報とイメージ全体に亘る深さとの間の関係、または、小さい空間領域についての局部的な関係を決定することを試みる。
【0036】
この関係は、次に、シーケンス全体について深さマップを完成すべく適用される。
【0037】
これは図2に例示されており、ここでは、データを2Dイメージ1から作成されたマッピング関数4に入力して、2Dイメージ1の深さマップ5を作成する。
【0038】
成功が得られる学習アルゴリズムの例として、ニューラルネットワークを学習するバックプロパゲーション(back−propagation)アルゴリズム、局部重み付きリニア回帰(locally weighted linear regression)の決定ツリーを学習するC4.5アルゴリズム、およびクラスタ形類別子(cluster−type classifiers)を学習するK平均(K−Means)アルゴリズムがある。
【0039】
例示目的のみから、学習アルゴリズムは、2Dイメージシーケンスのフレーム中の各画素について、下記関係を計算することを考えることができる。
【0040】
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、アルゴリズムにより決定される。
【0041】
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値である。
【0042】
この方法は図1に示されている。
【0043】
当業者ならば、上記式は例示のみを目的として簡単化したものであり、実際には理想的なものでないことは理解されよう。例えばニューラルネットワークを用いかつイメージ中に多数の画素を与えた実際の実施では、ニューラルネットワークは、多くのk値、乗算および加算を含む1つの大きい式を学習する。また、k値はイメージ中の種々のx、y位置について変化し、ローカルイメージの特徴に適合する。
【0044】
<2Dイメージへのマッピング関数の適用>
次に、本発明は、このマッピング関数を採用しかつ該マッピング関数を2Dイメージシーケンスの全フレームに適用する。所与の画素について、マッピング関数への入力は、学習プロセス中にマッピング関数に与えられるのと同様の要領で決定される。例えば、入力として単一画素の測定値を与えることによりマッピング関数を学習したならば、マッピング関数は、入力と同じこれらの測定値を必要とするであろう。これらの入力により、マッピング関数は、その学習したタスクを遂行しかつ深さ測定値を出力する。また、単一画素についての例では、この深さ測定値は簡単な深さ値とすることができる。この例では、マッピング関数は全イメージについて適用され、イメージについての全組の深さデータを完成する。あるいは、マッピング関数が大きい組の画素を用いてトレーニングされる場合には、イメージについてこのような大きい組の画素を発生させることが要求される。これらの組の画素について、平均および分散のような高レベルの測定が、学習プロセス中における測定と同じ要領で行なわれる。これらの入力が確立されたならば、マッピング関数は、当該組の画素についての必要な深さ測定値を作る。
【0045】
この方法が図2に示されており、2Dイメージについての全深さマップを形成する。得られる深さマップがエラー領域を含んでいる場合には、これらの領域を矯正すべく反復されたユーザデータおよびプロセスに修正が加えられる。他のフレームにマッピング関数を適用して深さマップを発生させることもできる。
【0046】
機械学習の分野の当業者ならば、トレーニング段階にアルゴリズムの一般的なコンフィグレーションを含めることができることは理解されよう。このアプローチは事例ベース形学習(instance based learning)と呼ばれ、局部重み付きリニア回帰等の技術を含むが、この技術に限定されるものではない。他の実施形態では、ユーザは、1組のオブジェクトを定めかつ該オブジェクトに画素を割当てることができる。この実施形態では、ユーザデータをイメージの残余の画素に一般化する方法は、イメージ全体を、ユーザにより最初に識別されたオブジェクトの組にセグメント化する。オブジェクトを定めるマッピング関数またはオブジェクト自体は、この実施形態の必要出力とすることができる。あるいは、関数をオブジェクトに適用してこれらのオブジェクトの深さを特定し、これにより、イメージについての深さマップを構成することができる。これらの関数は、深さランプ(depth ramp)のフォームおよび本出願人に係る以前の国際特許出願PCT/AU00/00700に開示されているようなオブジェクトの深さを定める他の方法にすることができる。
【0047】
更に別の実施形態では、トレーニングアルゴリズムは、ユーザ情報へのランダム成分の導入を試みることができる。この試みは、任意の学習アルゴリズムを用いて、オーバートレーニングの困難性を解消することを補助する。オーバートレーニングとは、学習アルゴリズムが単にトレーニング情報を覚えている状況をいう。これは、乗算自体の概念のいかなる理解も不要な、子供用の学習掛け算表に似たものである。この問題は、機械学習の分野で知られており、問題を解決するアプローチは、ランダムノイズをトレーニングデータに導入することである。優れた学習アルゴリズムは、トレーニングデータ中のノイズとクオリティ情報とを強制的に区別する。これを行うと、データの性質を単に覚えていることよりも、データの性質を学習することが促進される。このアプローチの一例の実施形態は、トレーニングアルゴリズムが下記の関数を学習する前述の例に関連している。
【0048】
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
トレーニングアルゴリズムへの入力をz、x、y、R、G、Bで表すとき、小さいノイズ成分がこれらの値に付加される。ノイズ成分は、正または負の小さい乱数にすることができる。好ましい実施形態では、z成分にはいかなるノイズも付加されない。
【0049】
<学習プロセス>
好ましい実施形態では、学習プロセスへの入力は次のとおりである。
【0050】
1.深さを含むある特性を有する多数のトレーニングサンプル。
【0051】
2.上記トレーニングサンプルに一致する特性を有しかつ学習プロセスにより深さが決定される多数の「類別(classification)」サンプル。
【0052】
トレーニングサンプルは、画素の位置(x、y)、色(R、G、B)および深ささ(z)を特性として有する個々の画素からなる。学習プロセスの目的は、特性として位置(x、y)および色(R、G、B)を有する各類別画素(classification pixels)について深さ(z)を計算することである。
【0053】
各類別サンプルについて、第一ステージの学習アルゴリズムは、対象としている類別画素と「同様な」イメージ特性を共有するトレーニングサンプルの部分集合を識別することを含む。
【0054】
<トレーニング候補のサーチング>
現在の類別サンプルと同様な特性をもつトレーニングサンプルを識別するため、サンプルが生じるn次元特徴空間を考察する。好ましい実施形態では、これは、各次元がイメージ特性x、y、R、G、Bの1つを表す5次元空間である。この空間の軸線は、各次元の範囲の差を説明すべく標準化される。従って、相対百分率を用いてサンプル間の差について言及する。例えば、所与のサンプルのR成分は、第二サンプルに対して(R成分の絶対範囲の)10%だけ異ならせることができる。
【0055】
この空間内の2つのサンプル間の距離は、これらの類似性の1つの尺度である。現在の類別サンプルと同様なトレーニングサンプルを検出するため、サーチ半径が定められる。類別サンプルからの距離がサーチ半径より小さいあらゆるトレーニングサンプルは、類別サンプルと同様であると考えられかつ深さの計算に使用される。n次元のサーチ空間内の距離は、簡単なユークリッドメートル法(Euclidean metric)を用いて測定される。n次元特徴空間の大きい部分を占拠しないデータでは、より良い結果を得るため、マハラノビス距離メートル法(Mahalanobis distance metrics)が使用される。RGB、YUVまたはHSV成分のヒストグラム方程式または主要成分分析等のデータの範囲を引伸す他の手段でも同様な利益が得られる。
【0056】
サーチ半径は深さの正確な推定における臨界パラメータであり、かつデータの特徴に対して構成される。高い空間的(high spatial)または時間的自動矯正(temporal autocorrelation)を呈するデータでは、低い空間的または時間的自動矯正をもつイメージに対するよりも小さい値に設定される。
【0057】
サーチ半径は、特徴空間の各寸法に対して異ならせることができる。例えば、x軸内でのサーチ半径は、赤色強度を表す軸線内でのサーチ半径とは異ならせることができる。また、学習プロセスは、これらのパラメータを、ユーザが定めたあうる境界内のデータに適合させることができる。例えば、5%の空間半径および10%の色半径内で適当なトレーニングサンプルが全く識別されない場合には、空間半径が10%に増大される。
【0058】
図8には、候補サーチ方法の簡単化した一例が示されている。図8には、図示の目的で赤色強度の変化に対してプロットされた、サンプルの空間x軸座標内の変化をもつ2次元サーチ空間が示されている。この空間内には多数のトレーニングサンプル20がある。ターゲット画素11の第一半径21の距離内には、トレーニングサンプルが全く存在しない。従って、学習プロセスは、サーチをターゲット画素11の第二サーチ半径22まで拡大しかつ3つの候補トレーニングサンプルを識別する。
【0059】
適当なトレーニング候補を識別するのに、他のサーチ戦略を使用できる。このような戦略では、トレーニングデータは、ハズツリー(has tree)、k−dツリー(k−d Tree)またはn次元ヴォロノイ(Voronoi)図式等の構造に記憶される。このような戦略は、候補トレーニングサンプルを識別する速度を増大させるが、本発明の本質に影響は与えない。
【0060】
同様に、トレーニングサンプルをキャッシングすることにより、特徴空間内の連続する類別サンプルの接近を利用するサーチ戦略は、候補トレーニングサンプルを識別する速度を向上させるが、本発明に大きい影響は与えない。
【0061】
<距離重み付き学習>
任意の所与の類別サンプルについての深さを計算するため、本発明者は、前述の類別サンプルと同様に見える1つ以上のトレーニングサンプルを要求する。本発明者は、これらのトレーニングサンプルを「候補(candidate)」トレーニングサンプルと呼ぶことにする。
【0062】
本発明者は、類別サンプルの深さを、候補トレーニングサンプルの深さの重み付き平均として計算する。任意の候補トレーニングサンプルに帰属する重みは、n次元空間内の類別サンプルからの距離に対するものである。前述のように、この距離は標準化され、そして、マハラノビスメートル法(Mahalanobis metrics)または主要成分スタイル分析法(principal component style analysis)を用いてデータバイアスすることができる。
【0063】
図9には、深さ計算法の簡単化した例が示されている。図8におけるように、図9には、図示の目的で赤色強度の変化に対してプロットされた、サンプルの空間x座標内の変化をもつ2次元サーチ空間が示されている。3つの候補トレーニングサンプル19は、ターゲット画素11から異なる距離に示されている(w1、w2、w3で示されている)。深さは、次式を用いて、候補トレーニングサンプルの重み付き平均として計算できる。
【0064】
【数1】
【0065】
ここで、D1は、ターゲット画素11からw1の距離におけるトレーニングサンプルの深さ、D2は、ターゲット画素11からw2の距離におけるトレーニングサンプルの深さ、D3は、ターゲット画素11からw3の距離におけるトレーニングサンプルの深さである。
【0066】
好ましい実施形態でにおいて、重みは、n次元空間内での距離の2乗に反比例する。
【0067】
<別の実施形態>
別の実施形態では、学習プロセスは、利用できる全ての組のトレーニングデータを分析して、サンプルの深さに対するイメージ特性の関係を支配する規則を推論する。
【0068】
この方法では、n次元の特徴空間が1組の領域に分割されるか、仕切られる。図5には、この原理が簡単化されて示されている。この例では、n次元空間は、決定境界23により多数の矩形領域に分割される。深さ値は、ターゲット画素11が占拠する領域に基いて、該ターゲット画素11に割当てられる。
【0069】
実際には、M5モデルツリーアルゴリズムを使用して、特徴空間の仕切りを行なう。M5アルゴリズムは、2つの方法で上記基本サンプルを改善する。決定境界は特徴空間の軸線に垂直である必要はなく、深さは、イメージ特性の関数として、個々の領域内で変化できる。
【0070】
機械学習の分野の当業者ならば、M5モデルツリーに代えて、ニューラルネットワーク、決定ツリー、決定グラフおよび最近傍類別子を含む多くの学習スキームを使用できることが理解されよう。学習アルゴリズムの正確な性質は、本発明の新規性に影響を与えない。
【0071】
好ましい実施形態では、学習プロセスは、イメージ特性x、y、R、G、Bに基いて作動する。他の実施形態は、大きい画素の組のような高レベルのイメージ特性および平均および分散またはエッジ、コーナ等の1組の画素の測定値(すなわち、特徴検出器の応答)に基いて作動する。大きい組の画素は、例えば同次領域を形成する連結画素の組であり、イメージ中のセグメントを表す。
【0072】
(フェーズ2)
第2フェーズは、少なくとも1つのフレームがキーフレームとして識別されるイメージシーケンスで作動する。第2フェーズは、一般的に深さマップのフォームをなす各キーフレームについて3D立体データを受入れる。深さマップは、例えばヒューマン仕様(human specification)、上記第1フェーズの出力、立体イメージから決定した深さ、または、範囲発見システム(range finding system)を用いた深さの直接獲得等の任意の方法で行なうことができるが、これらに限定されるものではない。あるいは、3D立体情報は深さマップ以外の他のフォームにでき、例えば立体ペアを有するキーフレームから得た不均衡情報にすることができる。
【0073】
2Dイメージシーケンスの他の全てのフレームについて、本発明は、最初に利用できるキーフレーム情報に基いた、深さマップの仕様を提供する。キーフレームの数は、全フレーム数の極く一部である。従って、本発明は、最初に発生すべき深さマップの量を大幅に低減できる方法を提供する。
【0074】
<マッピング関数の作成>
システムにキーフレームおよびこれらの対応深さマップが与えられたならば、システムは、最初に利用できるキーフレームおよび対応深さマップを分析して、マッピング関数を作成する。マッピング関数は、2Dイメージの任意の所与の測定値を入力しかつ当該イメージの深さマップを出力するプロセスすなわち関数と考えることができる。このマッピングは、これらのイメージについて利用できるキーフレームイメージデータと深さマップとの関係を捕捉することにより学習される。
【0075】
マッピング関数は、入力データが受入れられ、処理されかつ出力される任意の一般的な処理ユニット(generic−processing unit)のフォームにすることができる。好ましくは、この処理ユニットは学習プロセスが可能であり、この本質はキーフレームデータの試験およびその対応深さマップにより決定される。機械学習の分野では、このようなマッピング関数は知られており、かつ、ニューラルネットワーク、決定ツリー、決定グラフ、モデルツリーおよび最近傍類別子を有するが、これらに限定されるものではない。
【0076】
このシステムは、入力データと所望の出力データとの関係を学習することを試みる。学習プロセスにおいて、2Dキーフレームイメージ処理装置からの情報がトレーニングアルゴリズムに与えられる。この情報は画素毎のベースで与えられ、赤、緑および青等の測定値、または輝度、色差、コントラスト等の他の測定値、およびイメージ中の水平および垂直位置決めを行なう空間測定値等の画素測定値が与えられる。あるいは、この情報は、大きい組の画素、および平均および分散またはエッジ、コーナ等の1組の画素に関する測定値等の高レベルのイメージ特徴の形態(すなわち、特徴検出器の応答)で与えることができる。大きい組の画素は、例えば、同次領域を形成する連結画素の組であるイメージのセグメントを表す。
【0077】
例示目的のみから、2Dイメージは、
x、y、R、G、B
で表すことができる。ここで、xおよびyは各画素のx、y座標を表し、R、GおよびBは当該画素の赤、緑および青の値を表す。
【0078】
次に、対応深さマップがトレーニングアルゴリズムに与えられ、これにより、トレーニングアルゴリズムがその必要マッピングを学習できるようになる。通常、個々の画素がトレーニングアルゴリズムに与えられるが、大きい組の画素またはセグメントのような高レベルのイメージ特徴が使用される場合には、深さマップは、平均および分散のような当該画素の組についての深さの測定値とすることができる。
【0079】
例示目的のみから、深さマップは、
z、x、y
の形態で表すことができる。ここで、xおよびyは各画素のx、y座標を表し、zは、当該対応画素に割当てられる深さ値を表す。
【0080】
入力データと所望出力とのこの関係を学習する方法は、人工知能の領域の当業者には理解されようが、多くの形態にすることができる。学習アルゴリズムの好ましい実施形態は、マッピングエラーの或る測定値を最小にするマッピング関数を設計することを探求する実施形態である。
【0081】
学習アルゴリズムは、2Dイメージ情報と、キーフレームの例に存在する深さマップとの関係を一般化することを試みる。この一般化は、次に、全シーケンスについての深さマップを完成すべく適用される。当業界で知られている、成功を収めている学習アルゴリズムは、ニューラルネットワークを学習するバックプロパゲーションアルゴリズム、決定ツリーを学習するC4.5アルゴリズム、および、クラスタ形類別子を学習するK平均アルゴリズムである。
【0082】
例示目的のみから、学習アルゴリズムは、2Dイメージシーケンスのフレーム中の各画素について、下記関係を計算することを考えることができる。
【0083】
Zn=kaxn+kbyn+kcRn+kdGn+keBn
ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、アルゴリズムにより決定される。
【0084】
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値である。
【0085】
当業者ならば、上記式は例示のみを目的として簡単化したものであり、実際に実施させるものでないことは理解されよう。例えばニューラルネットワークを用いかつイメージ中に多数の画素を与えた実際の実施では、ニューラルネットワークは、多くのk値、乗算および加算を含む1つの大きい式を学習する。この方法は、種々の数のキーフレームを使用する同様な方法を示す図3に示されている。
【0086】
<マッピング関数の適用>
次に、本発明は、このマッピング関数を用いて該マッピング関数を、利用できる深さマップを未だ保有しない1組の2Dイメージの全体に適用する。当該組の所与の2Dイメージについては、マッピング関数への入力は、学習プロセス中にマッピング関数に与えられるのと同様の要領で決定される。例えば、マッピング関数が、入力として単一画素の測定値を与えることにより学習されたものである場合には、マッピング関数は、新しいイメージの画素についてのこれらの同じ測定値が必要になる。これらの入力により、マッピング関数は、学習したタスクを遂行しかつ深さ測定値を出力する。単一画素の例でも、マッピング関数はイメージシーケンスの全体に亘って適用され、イメージシーケンスについての全組の深さデータを完成する。あるいは、マッピング関数が大きい組の画素を用いてトレーニングされた場合には、新しいイメージについても大きい組の画素を発生させる必要がある。学習プロセス中と同じ要領で、これらの組の画素に、平均および分散のような高レベルの測定値が作られる。これらの入力値が確立されると、マッピング関数は当該組の画素について必要な深さ測定値を作る。
【0087】
2Dイメージのシーケンスについては、深さマップを備えたキーフレームは、任意の方法でシーケンス全体に亘って間隔を隔てることができる。好ましい実施形態では、マッピング関数には1組のキーフレームが与えられ、対応する深さマップは、何らかの共通性をもつ1組の2Dイメージのスパンを隔てる。最も簡単な場合には、2つのキーフレームを用いてマッピング関数をトレーニングし、次にマッピング関数を用いて、2つの前記キーフレーム間に2Dイメージについての深さマップを決定する。しかしながら、マッピング関数のトレーニングに使用されるキーフレームの数にはいかなる制限も存在しない。また、全組の2Dイメージを完成させるのに使用されるマッピング関数の数にもいかなる制限も存在しない。好ましい実施形態では、1つ以上の介入フレームにより分離された2つのキーフレームは、この第2フェーズの処理への入力として定められる。このフェーズの目的は、これらの介入フレームの各々に深さマップを割当てることである。介入フレームに深さマップが割当てられる好ましい順序は、キーフレームに時間的に最も近いフレームを最初に処理することから処理される。処理されたフレームは、次のフレームの深さマップに対するキーフレームとなる。
【0088】
この時間変数の付加は、キーフレームで利用できる情報を一般化するときのトレーニング関数を補助する。時間変数が存在しない場合には、2つのキーフレームの深さ情報は互いに矛盾するものでもよい。このことは、同様な色の画素が両方のキーフレームの同じ空間領域内に生じるときに生じることがある。例えば、イメージの中央に緑色の車が観察される第1キーフレームでは、深さ特性がこの車を最前面に移動させる。次のキーフレームでは、車が移動していて、車の後ろに緑色の小牧場が露出され、その深さ特性が中央の地面領域を特定する。トレーニングアルゴリズムには、イメージの中央に緑色の画素を有するが、異なる深さ特性は有していない2つのキーフレームが与えられる。この矛盾は解決できず、マッピング関数がこのような領域内で首尾良く遂行されることは期待できない。時間変数の導入により、このアルゴリズムは、イメージの中央の緑色の画素がイメージシーケンスでの第1キーフレームの近くの時間で最前面にあることを認識することによりこの矛盾を解決できる。時間が第2キーフレームへと進行すると、トレーニングアルゴリズムは、イメージの中央の緑色画素を、緑色小牧場の中間の地面深さとして認識する傾向が強くなる。
【0089】
この方法が図6の例により示されている。上列6はソースフレームを表し、これらのソースフレームには、イメージシーケンスでのこれらの相対位置に従って番号が付されている。下列はこのフェーズにより作られた深さマップを表す。付された番号は、深さマップが作られる順序を表す。深さフレーム1、2は逆の順序でも処理でき、同様に深さフレーム3、4も逆の順序で処理できる。キーフレーム7は、上記プロセスへの入力として与えられる。作られるべき第一深さマップは、図示のようにソースフレーム1に関連付けられる。作られた前の2つの深さマップを用いて、任意の次の深さマップが作られる。
【0090】
深さマップが作られるべきフレーム内の各画素には、ターゲット画素のイメージ特性を使用して、前記画素に関連する深さを決定する。好ましい実施形態では、各キーフレームから1つずつ、2つの深さ評価が検索される。この方法が図7に示されており、図7には、ターゲット画素11が、イメージシーケンスでの現在のフレームの前後で、如何にして最も近いソースキーフレーム6と比較されるかを示している(ステップ12および13)。学習プロセスは、前述の同様にサーチ半径14を使用して、同様なイメージ特性をもつ画素を識別し、かつ前記画素に関連する深さを使用して(ステップ15および16)、ターゲット画素についての深さを計算する(ステップ17および18)。各キーフレームはターゲット画素の深さを評価し、これらをD1およびD2として定める。
【0091】
ターゲット画素に関連する最終深さを決定するためには、深さD1およびD2を結合しなければならない。好ましい実施形態では、これらの値の重み付き平均は、重みパラメータとしてキーフレームの位置を用いて計算される。現在のフレームから第一キーフレームまでの距離がT1であり、かつ第二キーフレームまでの距離がT2であるとき、ターゲット画素の深さは次式で与えられる。
【0092】
【数2】
【0093】
ここで、D1およびD2は,それぞれ、キーフレーム1および2から計算された深さである。
【0094】
ある場合には、学習プロセスは、所与の画素についての深さ値を決定できない。上記計算プロセス中に、2つのキーフレームの深さ評価のうちの1つが決定されない場合には、ターゲット画素は、割当てられているキーフレームの深さ評価に割当てられ、いかなる重みも使用されない。2つの評価D1、D2のいずれもが定められない場合には、サーチ半径が拡大されかつこのプロセスが反復される。
【0095】
他の全てのフレームについて深さマップを作成するのに、1つのキーフレームのみで済むことに留意すべきである。しかしながら、オブジェクトの深さがイメージシーケンスで変化する状況では、上記のようにして重み付けされた2つ以上のキーフレームが、良い結果を与えるであろう。
【0096】
フレームが処理される順序および多数のキーフレームからの結果が結合される態様は、本発明の本質に大きい影響を与えることなく変えることができることに留意すべきである。
【0097】
2Dイメージの場合のように、トレーニング段階には、シーケンスのイメージの任意の画素での深さ評価を決定すべく、瞬間形学習を含めることができることに留意されたい。この方法が図4に示されている。
【0098】
フェーズ1に使用されたのと同じ学習プロセスが、フェーズ2でも実施できることに留意されたい。両プロセスは、入力データと所望の出力との関係、すなわち深さを考察する。大きい相違点は、フェーズ2での学習プロセスはフレーム数に基いて時間要素を考察すべきであるのに対して、フェーズ1は時間要素に注意を払う必要がないことである。
【0099】
<他の用途>
マッピング関数は、シーケンスの全ての非キーフレームイメージについての深さ情報の完全表示を与える。これは、深さ情報の符号化として利用できる。マッピング関数には比較的少量のデータが伝送され、従ってマッピング関数は深さ情報の大きい圧縮を表すことが予測される。
【0100】
20個のフレームがシーケンス内で離れている2つのキーフレームがある場合を考える。マッピング関数はこれらの2つのキーフレームを学習し、このマッピング関数は、中間フレームについての全ての深さ情報を与える。マッピング関数自体は、20個のフレームについての全てのこの深さ情報の圧縮を表す。例えば例示のみを目的として、マッピング関数は6000バイトを用いるファイルに書き込むことができ、この場合にはこのコストについて、深さ情報の20個のフレームの価値が得られる。実際上は、これは、1フレームにつき6000/20=300バイトを表す。実際に実施する場合には、有効圧縮が本質的なものとなる。
【0101】
他の用途では、上記圧縮は、2Dイメージソース内に埋入された3D情報、すなわち2D/3D互換イメージの効率的伝送を考慮に入れることができる。マッピング関数は、一般に、3D情報を与える2Dイメージデータの極く一部であるファイル長さを必要とするので、2Dイメージシーケンスへの3D情報の付加は、非常に小さいオーバーヘッドにより達成される。
【0102】
この場合には、3D情報は、2Dイメージを見るときにシーケンスの各2Dイメージにマッピング関数を単に適用するだけで、見る前、またはリアルタイムで、観察者の側で得られる。これは、機械学習時に見出されるマッピング関数の形式が、これらがトレーニングされた後に計算を行なうのに非常に効率的であるという事実により可能になる。一般に、トレーニングプロセスは遅くかつ資源集中的で、通常、3Dイメージのコンテンツを作るプロセス中にオフラインが行なわれる。トレーニングが完了すると、マッピング関数は観察者の側に伝送され、かつ2Dイメージの3Dイメージへのリアルタイム変換に適した非常に高いスループットで遂行する。
【0103】
本出願人自身による以前の開示は、2Dイメージの立体3Dイメージへの変換技術に関するものである。開示した変換方法は、2Dイメージに関連する深さマップの形成を組込むものであった。一実施形態では、深さマップはフレーム毎に手動で創出された。本願に開示した改善は、少数のキーフレームで深さマップを創出しかつ中間深さマップを計算することができる。キーフレームは全フレーム数の小さい部分を表すので、この新しい技術は、時間およびコストの両方において変換効率に大きい改善をもたらす。
【0104】
本願の開示の特に意図するところは、本発明が、立体イメージを作ること以外に深さマップを創出することにも適用されるようにすることである。
【0105】
深さマップは、ロトスコーピング(rotoscoping)と呼ばれている方法で、特殊効果の工業界で広く使用されていることが当業者に知られている。ライブアクションまたはコンピュータ創成イメージを2Dイメージ内で合成するには、2Dイメージの各フレームについての深さマップまたはマットを手動で作ることがしばしば必要になる。これらのマットは、付加イメージを合成して、オリジナルの2Dイメージ内で適当なジオメトリで移動しているように見えるようにする。上記本発明は、このようなマットを迅速に創成することができる。
【0106】
ライブシーンから深さマップが得られるようにするカメラが開発されていることも知られている。これらのカメラは、一般に、レーザ範囲ファインダの技術を使用しかつLIDARデバイスとして広く知られている。テレビジョンフレームの速度で深さマップを捕捉するには、高価で複雑なシステムが必要になる。本発明を適用することにより、ビデオフィールド速度の数分の一の速度でまたはたまに深さマップを捕捉するだけでよい、簡単なLIDARデバイスを構成でき、かつ本発明の技術を用いて補間することにより欠如した深さマップを作ることができる。
【図面の簡単な説明】
【図1】
フェーズ1のトレーニング方法の一実施形態を示す図面である。
【図2】
フェーズ1の変換方法の一実施形態を示す図面である。
【図3】
フェーズ2のトレーニング方法の一実施形態を示す図面である。
【図4】
フェーズ2の変換方法の一実施形態を示す図面である。
【図5】
学習プロセスが特徴空間を仕切る方法を示す図面である。
【図6】
フェーズ2での他の深さマップ創成方法を示す図面である。
【図7】
フェーズ2での個々の画素の深さを決定する他の方法を示す図面である。
【図8】
候補トレーニングサンプルをサーチする方法を示す図面である。
【図9】
多数の候補トレーニングサンプルから深さを計算する方法を示す図面である。
Claims (38)
- イメージの少なくとも1つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも1つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第1アルゴリズムのコンフィグレーションを決定する段階と、
前記第1アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法。 - イメージの少なくとも1つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも1つの画素または一部の各々についてx、y座標およびイメージ特性を決定するステップと、
前記深さ(単一または複数)、イメージ特性およびそれぞれのx、y座標を使用して、x、y座標およびイメージ特性の関数としての深さ特性を確認するための第1アルゴリズムを決定するステップと、
前記第1アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法。 - 前記イメージ特性がRGB値を含むことを特徴とする請求項1記載の方法。
- 前記イメージの任意の画素または一部に深さを再割当てして、不整合性を矯正するステップを更に有することを特徴とする請求項1〜3のいずれか1項に記載の方法。
- 前記イメージ特性が、輝度、色差、コントラストおよび空間測定値の少なくとも1つを含むことを特徴とする請求項1〜4のいずれか1項に記載の方法。
- 前記第1アルゴリズムは、次式
z=f(x、y、R、G、B)
で表され、ここで、xおよびyはサンプルの相対位置を定めることを特徴とする請求項1〜5のいずれか1項に記載の方法。 - 学習アルゴリズムを使用して前記第1アルゴリズムのコンフィグレーションを決定することを特徴とする請求項1〜6のいずれか1項に記載の方法。
- 前記イメージの各画素について、学習アルゴリズムは、次式
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
を計算し、ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、前記アルゴリズムにより決定され、
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値、
であることを特徴とする請求項7記載の方法。 - 前記学習アルゴリズムにランダム成分を導入してオーバートレーニングを低減させることを特徴とする請求項7または8記載の方法。
- 前記ランダム成分は、正または負の小さい乱数であることを特徴とする請求項9記載の方法。
- 前記学習アルゴリズムは、既知の画素と同様な特性を有する画素を最初に識別することを特徴とする請求項7〜10のいずれか1項に記載の方法。
- あるサーチ半径内の同様な画素をサーチすることを特徴とする請求項11記載の方法。
- 前記サーチ半径は各特性について変えられることを特徴とする請求項12記載の方法。
- 前記画素の深さは、同様な画素からの重み付き平均距離により決定されることを特徴とする請求項11〜13のいずれか1項に記載の方法。
- 前記重みは、距離に反比例することを特徴とする請求項14記載の方法。
- 前記各特性は1組の領域に分割あるいは仕切られ、深さ値は占有された前記領域に基いて割当てられることを特徴とする請求項7記載の方法。
- イメージシーケンスの少なくとも1つのフレームについての深さマップを受入れるステップと、
前記少なくとも1つの深さマップを使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第2アルゴリズムの第2コンフィグレーションを決定するステップと、
前記第2アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法。 - イメージシーケンスの少なくとも1つのフレームについての深さマップを受入れるステップと、
前記少なくとも1つの深さマップを使用して、x、y座標およびイメージ特性の関数としての深さ特性を確認するための第2アルゴリズムを決定するステップと、
前記第2アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法。 - 前記イメージシーケンスの少なくとも2つのフレームに対応する少なくとも2つの深さマップが受け入れられることを特徴とする請求項17または18記載の方法。
- 前記イメージ特性がRGB値を含むことを特徴とする請求項17〜19のいずれか1項に記載の方法。
- 前記イメージ特性が、輝度、色差、コントラストおよび空間測定値の少なくとも1つを含むことを特徴とする請求項17〜20のいずれか1項に記載の方法。
- 学習アルゴリズムを使用して前記第2アルゴリズムの前記コンフィグレーションを決定することを特徴とする請求項17〜21のいずれか1項に記載の方法。
- 前記学習アルゴリズムは、バックプロパゲーション(back propagation)アルゴリズム、C4.5アルゴリズムおよびKミーンズ(K−means)アルゴリズムのうちの1つであることを特徴とする請求項22記載の方法。
- 前記第2アルゴリズムは、次式
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
を計算し、ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、アルゴリズムにより決定され、
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値、
であることを特徴とする請求項22または23記載の方法。 - 付加アルゴリズムのコンフィグレーションが、深さマップが受け入れられる各ペアのフレームについて作成されることを特徴とする請求項17〜24のいずれか1項に記載の方法。
- イメージシーケンスの少なくとも2つのキーフレームについての深さマップを受入れるステップと、
前記深さマップを使用して、x、y座標およびイメージ特性の関数としての深さ特性を確認するための第2アルゴリズムを決定するステップと、
前記第2アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有し、
前記キーフレームに隣接するフレームを、隣接しないフレームより前に処理することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法。 - 前記隣接キーフレームが処理されたならば、当該隣接フレームを、他の深さマップを作成するためのキーフレームとして考慮されることを特徴とする請求項26記載の方法。
- 前記第2アルゴリズムは、次式
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn+kf・T
を計算し、ここで、
nは、イメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜kfは、アルゴリズムにより予め決定され定数、
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値、
Tは、シーケンス中のこの特定フレームについての時間の測定値、
であることを特徴とする請求項22、23、26および27のいずれか1項に記載の方法。 - イメージシーケンスから少なくとも1つのキーフレームを選択するステップと、
少なくとも1つのキーフレーム各々について、各フレームの少なくとも1つの画素または一部に深さを割当てるステップと、
前記各キーフレームの少なくとも1つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記少なくとも1つのキーフレーム各々について、前記深さ(単一または複数)、イメージ特性およびそれぞれの相対位置を使用して、相対位置および深さ特性の関数としての深さ特性を確認するための、前記少なくとも1つのフレームのための第1アルゴリズムの第1コンフィグレーションを決定するステップと、
前記第1アルゴリズムを使用して、前記少なくとも1つのキーフレーム各々の各画素または各部についての深さ特性を計算するステップと、を有し、
前記深さ特性は前記少なくとも1つの各キーフレームについての深さマップを形成し、
各深さマップを使用して、相対位置およびイメージ特性の関数としての各フレームについての深さ特性を確認するための第2アルゴリズムの第2コンフィグレーションを決定するステップと、
前記第2アルゴリズムを使用して、前記イメージシーケンスの各フレームについてそれぞれの深さマップを作成するステップと、を更に有することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法。 - 前記キーフレームに隣接するフレームは、非隣接フレームより前に処理されることを特徴とする請求項29記載の方法。
- 前記隣接フレームを処理した後に、当該隣接フレームが更なる処理のためのキーフレームとして考慮されることを特徴とする請求項30記載の方法。
- 一連のフレームと一緒に少なくとも1つのマッピング関数を伝送することを含む一連のフレームを符号化する方法において、マッピング関数は、相対位置およびイメージ特性の関数として深さ特性を確認するアルゴリズムを有していることを特徴とする方法。
- 前記イメージ特性がRGB値を含むことを特徴とする請求項32記載の方法。
- 前記イメージ特性が、輝度、色差、コントラストおよび空間測定値の少なくとも1つを含むことを特徴とする請求項32または33記載の方法。
- 学習アルゴリズムを使用して前記マッピング関数を決定することを特徴とする請求項32〜34のいずれか1項に記載の方法。
- 前記学習アルゴリズムは、バックプロパゲーション(back propagation)アルゴリズム、C4.5アルゴリズムおよびKミーンズ(K−means)アルゴリズムのうちの1つであることを特徴とする請求項35記載の方法。
- 前記マッピング関数は、次式
Zn=ka・xn+kb・yn+kc・Rn+kd・Gn+ke・Bn
を計算し、ここで、
nは、キーフレームイメージ中の第n番目の画素、
znは、xn、ynの画素に割当てられる深さの値、
ka〜keは定数であり、アルゴリズムにより決定され、
Rnは、xn、ynの画素の赤色成分の値、
Gnは、xn、ynの画素の緑色成分の値、
Bnは、xn、ynの画素の青色成分の値、
であることを特徴とする請求項35または36記載の方法。 - 付加アルゴリズムは、深さマップが受け入れられる各ペアのフレームについて作成されることを特徴とする請求項32〜37のいずれか1項に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AUPQ9292A AUPQ929200A0 (en) | 2000-08-09 | 2000-08-09 | Image conversion and encoding techniques |
AUPR0455A AUPR045500A0 (en) | 2000-09-29 | 2000-09-29 | Image conversion and encoding techniques |
PCT/AU2001/000975 WO2002013141A1 (en) | 2000-08-09 | 2001-08-09 | Image conversion and encoding techniques |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004505393A true JP2004505393A (ja) | 2004-02-19 |
Family
ID=25646397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002518424A Pending JP2004505393A (ja) | 2000-08-09 | 2001-08-09 | イメージ変換および符号化技術 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7035451B2 (ja) |
EP (1) | EP1316068A1 (ja) |
JP (1) | JP2004505393A (ja) |
KR (1) | KR20030062313A (ja) |
CA (1) | CA2418800A1 (ja) |
MX (1) | MXPA03001171A (ja) |
WO (1) | WO2002013141A1 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101228304B1 (ko) * | 2006-06-16 | 2013-01-30 | 삼성전자주식회사 | 깊이 정보 맵 구성 장치 및 방법, 깊이 정보 맵을 이용한이미지 디스플레이 장치 및 방법 |
KR101315136B1 (ko) | 2008-05-15 | 2013-10-07 | 지멘스 악티엔게젤샤프트 | 센서 디바이스 |
JP2014515153A (ja) * | 2011-05-17 | 2014-06-26 | サムスン エレクトロニクス カンパニー リミテッド | コンテンツ変換装置、コンテンツ変換方法及びその貯蔵媒体 |
TWI460523B (zh) * | 2013-05-02 | 2014-11-11 | Altek Semiconductor Corp | 自動對焦方法及自動對焦裝置 |
JP2014532941A (ja) * | 2011-11-02 | 2014-12-08 | グーグル・インコーポレーテッド | 例示的な類似画像と関連した例示的な近似奥行きマップを用いた、入力画像に対する奥行きマップの生成 |
JP2017518566A (ja) * | 2014-04-28 | 2017-07-06 | クアルコム,インコーポレイテッド | モバイルプラットフォームにおける空中および表面マルチタッチ検出 |
JP2021057067A (ja) * | 2016-09-15 | 2021-04-08 | グーグル エルエルシーGoogle LLC | イメージ深度予測ニューラルネットワーク |
JP2022069007A (ja) * | 2020-10-23 | 2022-05-11 | 株式会社アフェクション | 情報処理システム、情報処理方法および情報処理プログラム |
WO2023286301A1 (ja) * | 2021-07-16 | 2023-01-19 | ソニーグループ株式会社 | フォーカス制御装置とフォーカス制御方法および撮像装置 |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396328B2 (en) | 2001-05-04 | 2013-03-12 | Legend3D, Inc. | Minimal artifact image sequence depth enhancement system and method |
US7907793B1 (en) | 2001-05-04 | 2011-03-15 | Legend Films Inc. | Image sequence depth enhancement system and method |
US20050231505A1 (en) * | 1998-05-27 | 2005-10-20 | Kaye Michael C | Method for creating artifact free three-dimensional images converted from two-dimensional images |
US7116324B2 (en) | 1998-05-27 | 2006-10-03 | In-Three, Inc. | Method for minimizing visual artifacts converting two-dimensional motion pictures into three-dimensional motion pictures |
US7116323B2 (en) * | 1998-05-27 | 2006-10-03 | In-Three, Inc. | Method of hidden surface reconstruction for creating accurate three-dimensional images converted from two-dimensional images |
US9286941B2 (en) | 2001-05-04 | 2016-03-15 | Legend3D, Inc. | Image sequence enhancement and motion picture project management system |
US8401336B2 (en) | 2001-05-04 | 2013-03-19 | Legend3D, Inc. | System and method for rapid image sequence depth enhancement with augmented computer-generated elements |
US7489812B2 (en) * | 2002-06-07 | 2009-02-10 | Dynamic Digital Depth Research Pty Ltd. | Conversion and encoding techniques |
AUPS283602A0 (en) * | 2002-06-07 | 2002-06-27 | Dynamic Digital Depth Research Pty Ltd | Improved conversion and encoding techniques |
EP1551190B1 (en) * | 2002-08-20 | 2018-08-08 | Kazunari Era | Method and device for creating 3-dimensional view image |
US9692964B2 (en) * | 2003-06-26 | 2017-06-27 | Fotonation Limited | Modification of post-viewing parameters for digital images using image region or feature information |
KR100543706B1 (ko) * | 2003-11-28 | 2006-01-20 | 삼성전자주식회사 | 비젼기반 사람 검출방법 및 장치 |
US7333652B2 (en) * | 2004-08-03 | 2008-02-19 | Sony Corporation | System and method for efficiently performing a depth map recovery procedure |
DE602005027379D1 (de) * | 2004-10-26 | 2011-05-19 | Koninkl Philips Electronics Nv | Disparitätskarte |
US7822000B2 (en) * | 2005-06-30 | 2010-10-26 | Symbol Technologies, Inc. | Time division multiplexing for access ports in a wireless network |
CA2553473A1 (en) * | 2005-07-26 | 2007-01-26 | Wa James Tam | Generating a depth map from a tw0-dimensional source image for stereoscopic and multiview imaging |
US7929801B2 (en) * | 2005-08-15 | 2011-04-19 | Sony Corporation | Depth information for auto focus using two pictures and two-dimensional Gaussian scale space theory |
US20070189750A1 (en) * | 2006-02-16 | 2007-08-16 | Sony Corporation | Method of and apparatus for simultaneously capturing and generating multiple blurred images |
US7616254B2 (en) * | 2006-03-16 | 2009-11-10 | Sony Corporation | Simple method for calculating camera defocus from an image scene |
US7711201B2 (en) * | 2006-06-22 | 2010-05-04 | Sony Corporation | Method of and apparatus for generating a depth map utilized in autofocusing |
EP2087466B1 (en) * | 2006-11-21 | 2020-06-17 | Koninklijke Philips N.V. | Generation of depth map for an image |
EP2122579B1 (en) | 2007-01-23 | 2012-11-28 | Monte Ramstad | Wide color gamut anaglyphs |
US8077964B2 (en) * | 2007-03-19 | 2011-12-13 | Sony Corporation | Two dimensional/three dimensional digital information acquisition and display device |
BRPI0721462A2 (pt) * | 2007-03-23 | 2013-01-08 | Thomson Licensing | sistema e mÉtodo para classificaÇço de regiço de imagens em 2d para conversço de 2d para 3d |
US8213711B2 (en) * | 2007-04-03 | 2012-07-03 | Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Industry, Through The Communications Research Centre Canada | Method and graphical user interface for modifying depth maps |
CA2627999C (en) * | 2007-04-03 | 2011-11-15 | Her Majesty The Queen In Right Of Canada, As Represented By The Minister Of Industry Through The Communications Research Centre Canada | Generation of a depth map from a monoscopic color image for rendering stereoscopic still and video images |
JP4886898B2 (ja) * | 2007-07-26 | 2012-02-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 深さ関連情報伝達のための方法及び装置 |
RU2506708C2 (ru) | 2007-12-14 | 2014-02-10 | Конинклейке Филипс Электроникс Н.В. | Механизм выбора режима 3d для воспроизведения видео |
US8515172B2 (en) * | 2007-12-20 | 2013-08-20 | Koninklijke Philips N.V. | Segmentation of image data |
US9196080B2 (en) | 2008-02-05 | 2015-11-24 | Disney Enterprises, Inc. | Medial axis decomposition of 2D objects to synthesize binocular depth |
US8471898B2 (en) * | 2008-02-05 | 2013-06-25 | Disney Enterprises, Inc. | Medial axis decomposition of 2D objects to synthesize binocular depth |
WO2009110082A1 (ja) * | 2008-03-06 | 2009-09-11 | 富士通株式会社 | 画像撮影装置、画像撮影方法および画像撮影プログラム |
US8280194B2 (en) * | 2008-04-29 | 2012-10-02 | Sony Corporation | Reduced hardware implementation for a two-picture depth map algorithm |
WO2009155688A1 (en) * | 2008-06-23 | 2009-12-30 | Craig Summers | Method for seeing ordinary video in 3d on handheld media players without 3d glasses or lenticular optics |
US8194995B2 (en) * | 2008-09-30 | 2012-06-05 | Sony Corporation | Fast camera auto-focus |
US8553093B2 (en) * | 2008-09-30 | 2013-10-08 | Sony Corporation | Method and apparatus for super-resolution imaging using digital imaging devices |
US8233664B2 (en) * | 2008-11-12 | 2012-07-31 | Eastman Kodak Company | Determining relative depth of points in multiple videos |
EP2194504A1 (en) | 2008-12-02 | 2010-06-09 | Koninklijke Philips Electronics N.V. | Generation of a depth map |
US8405742B2 (en) * | 2008-12-30 | 2013-03-26 | Massachusetts Institute Of Technology | Processing images having different focus |
TW201028964A (en) * | 2009-01-23 | 2010-08-01 | Ind Tech Res Inst | Depth calculating method for two dimension video and apparatus thereof |
TWI457853B (zh) * | 2009-03-24 | 2014-10-21 | Ind Tech Res Inst | 提供深度資訊之影像處理方法及其影像處理系統 |
US20100302365A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | Depth Image Noise Reduction |
IT1399417B1 (it) | 2010-04-12 | 2013-04-16 | Sisvel Technology Srl | Metodo per la generazione e ricostruzione di un flusso video stereoscopico compatibile e relativi dispositivi di codifica e decodifica. |
KR101665567B1 (ko) * | 2010-05-20 | 2016-10-12 | 삼성전자주식회사 | 3차원 뎁스 영상 시간 보간 방법 및 장치 |
IT1401731B1 (it) | 2010-06-28 | 2013-08-02 | Sisvel Technology Srl | Metodo per la decodifica 2d-compatibile di flussi video stereoscopici |
US8831273B2 (en) | 2010-09-10 | 2014-09-09 | Reald Inc. | Methods and systems for pre-processing two-dimensional image files to be converted to three-dimensional image files |
US9485497B2 (en) | 2010-09-10 | 2016-11-01 | Reald Inc. | Systems and methods for converting two-dimensional images into three-dimensional images |
US8730232B2 (en) | 2011-02-01 | 2014-05-20 | Legend3D, Inc. | Director-style based 2D to 3D movie conversion system and method |
US9241147B2 (en) | 2013-05-01 | 2016-01-19 | Legend3D, Inc. | External depth map transformation method for conversion of two-dimensional images to stereoscopic images |
US9407904B2 (en) | 2013-05-01 | 2016-08-02 | Legend3D, Inc. | Method for creating 3D virtual reality from 2D images |
US9288476B2 (en) | 2011-02-17 | 2016-03-15 | Legend3D, Inc. | System and method for real-time depth modification of stereo images of a virtual reality environment |
US9282321B2 (en) | 2011-02-17 | 2016-03-08 | Legend3D, Inc. | 3D model multi-reviewer system |
US9113130B2 (en) | 2012-02-06 | 2015-08-18 | Legend3D, Inc. | Multi-stage production pipeline system |
KR20120133571A (ko) * | 2011-05-31 | 2012-12-11 | 삼성전자주식회사 | 3d 영상변환장치, 3d 영상변환장치에 의해 구현되는 방법 및 그 저장매체 |
KR101870764B1 (ko) * | 2011-06-14 | 2018-06-25 | 삼성전자주식회사 | 영상 변환 메커니즘을 활용한 디스플레이 장치 및 그 동작 방법 |
EP2536160B1 (en) * | 2011-06-14 | 2018-09-26 | Samsung Electronics Co., Ltd. | Display system with image conversion mechanism and method of operation thereof |
CN102905141A (zh) * | 2011-07-28 | 2013-01-30 | 联咏科技股份有限公司 | 二维转三维转换装置及其方法 |
TWI481262B (zh) | 2011-07-28 | 2015-04-11 | Ind Tech Res Inst | 影像編碼系統及影像編碼方法 |
KR20130084341A (ko) * | 2012-01-17 | 2013-07-25 | 삼성전자주식회사 | 이미지 변환 메커니즘을 갖는 디스플레이 시스템 및 그 운용 방법 |
US9111350B1 (en) | 2012-02-10 | 2015-08-18 | Google Inc. | Conversion of monoscopic visual content to stereoscopic 3D |
CN104221367A (zh) | 2012-04-04 | 2014-12-17 | 拿索斯财务有限公司 | 用于生成和接收立体-2d反向兼容视频流的系统及其方法 |
CN102761768A (zh) * | 2012-06-28 | 2012-10-31 | 中兴通讯股份有限公司 | 一种实现立体成像的方法及装置 |
RU2493602C1 (ru) * | 2012-08-10 | 2013-09-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ и система для выделения ключевых кадров из видео последовательностей |
JP5949314B2 (ja) * | 2012-08-20 | 2016-07-06 | 株式会社日本自動車部品総合研究所 | 視差マップ生成装置および視差マップ生成装置用のプログラム |
KR20140030735A (ko) * | 2012-09-03 | 2014-03-12 | 삼성전자주식회사 | 디스플레이 장치 및 방법 |
US9007365B2 (en) | 2012-11-27 | 2015-04-14 | Legend3D, Inc. | Line depth augmentation system and method for conversion of 2D images to 3D images |
US9547937B2 (en) | 2012-11-30 | 2017-01-17 | Legend3D, Inc. | Three-dimensional annotation system and method |
US9007404B2 (en) | 2013-03-15 | 2015-04-14 | Legend3D, Inc. | Tilt-based look around effect image enhancement method |
US9674498B1 (en) | 2013-03-15 | 2017-06-06 | Google Inc. | Detecting suitability for converting monoscopic visual content to stereoscopic 3D |
US9532032B2 (en) * | 2013-04-18 | 2016-12-27 | Ellis Amalgamated, LLC | Astigmatic depth from defocus imaging using intermediate images and a merit function map |
US9438878B2 (en) | 2013-05-01 | 2016-09-06 | Legend3D, Inc. | Method of converting 2D video to 3D video using 3D object models |
US9383259B2 (en) | 2013-08-29 | 2016-07-05 | Nokia Technologies Oy | Method, apparatus and computer program product for sensing of visible spectrum and near infrared spectrum |
CN104732518B (zh) * | 2015-01-19 | 2017-09-01 | 北京工业大学 | 一种基于智能机器人地面特征的ptam改进方法 |
CN104994365B (zh) * | 2015-04-30 | 2017-09-26 | 西安电子科技大学 | 一种获取非关键帧深度图像的方法以及2d视频立体化方法 |
CN104994368B (zh) * | 2015-07-10 | 2017-10-27 | 孙建德 | 2d‑3d视频转换中的非关键帧排序方法 |
US9609307B1 (en) | 2015-09-17 | 2017-03-28 | Legend3D, Inc. | Method of converting 2D video to 3D video using machine learning |
US11747444B2 (en) * | 2018-08-14 | 2023-09-05 | Intel Corporation | LiDAR-based object detection and classification |
US10990826B1 (en) * | 2019-03-20 | 2021-04-27 | Xilinx, Inc. | Object detection in video |
US20210374467A1 (en) * | 2020-05-29 | 2021-12-02 | Fei Company | Correlated slice and view image annotation for machine learning |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4925294A (en) * | 1986-12-17 | 1990-05-15 | Geshwind David M | Method to convert two dimensional motion pictures for three-dimensional systems |
US5469535A (en) * | 1992-05-04 | 1995-11-21 | Midway Manufacturing Company | Three-dimensional, texture mapping display system |
GB9406515D0 (en) | 1994-03-31 | 1994-05-25 | Argonaut Software Limited | Texture mapping for 3-d computer graphics |
JPH07282292A (ja) | 1994-04-05 | 1995-10-27 | Toshiba Corp | テクスチャマッピング方法及び画像処理装置 |
US5767857A (en) * | 1996-08-30 | 1998-06-16 | Pacific Data Images, Inc. | Method, apparatus, and software product for generating outlines for raster-based rendered images |
US6055330A (en) * | 1996-10-09 | 2000-04-25 | The Trustees Of Columbia University In The City Of New York | Methods and apparatus for performing digital image and video segmentation and compression using 3-D depth information |
EP2252071A3 (en) * | 1997-12-05 | 2017-04-12 | Dynamic Digital Depth Research Pty. Ltd. | Improved image conversion and encoding techniques |
-
2001
- 2001-08-09 CA CA002418800A patent/CA2418800A1/en not_active Abandoned
- 2001-08-09 JP JP2002518424A patent/JP2004505393A/ja active Pending
- 2001-08-09 WO PCT/AU2001/000975 patent/WO2002013141A1/en not_active Application Discontinuation
- 2001-08-09 US US09/925,932 patent/US7035451B2/en not_active Expired - Fee Related
- 2001-08-09 MX MXPA03001171A patent/MXPA03001171A/es unknown
- 2001-08-09 KR KR10-2003-7001886A patent/KR20030062313A/ko not_active Application Discontinuation
- 2001-08-09 EP EP01955145A patent/EP1316068A1/en not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101228304B1 (ko) * | 2006-06-16 | 2013-01-30 | 삼성전자주식회사 | 깊이 정보 맵 구성 장치 및 방법, 깊이 정보 맵을 이용한이미지 디스플레이 장치 및 방법 |
KR101315136B1 (ko) | 2008-05-15 | 2013-10-07 | 지멘스 악티엔게젤샤프트 | 센서 디바이스 |
JP2014515153A (ja) * | 2011-05-17 | 2014-06-26 | サムスン エレクトロニクス カンパニー リミテッド | コンテンツ変換装置、コンテンツ変換方法及びその貯蔵媒体 |
JP2014532941A (ja) * | 2011-11-02 | 2014-12-08 | グーグル・インコーポレーテッド | 例示的な類似画像と関連した例示的な近似奥行きマップを用いた、入力画像に対する奥行きマップの生成 |
JP2018026840A (ja) * | 2011-11-02 | 2018-02-15 | グーグル エルエルシー | 例示的な類似画像と関連した例示的な近似奥行きマップを用いた、入力画像に対する奥行きマップの生成 |
TWI460523B (zh) * | 2013-05-02 | 2014-11-11 | Altek Semiconductor Corp | 自動對焦方法及自動對焦裝置 |
JP2017518566A (ja) * | 2014-04-28 | 2017-07-06 | クアルコム,インコーポレイテッド | モバイルプラットフォームにおける空中および表面マルチタッチ検出 |
JP2021057067A (ja) * | 2016-09-15 | 2021-04-08 | グーグル エルエルシーGoogle LLC | イメージ深度予測ニューラルネットワーク |
JP7050888B2 (ja) | 2016-09-15 | 2022-04-08 | グーグル エルエルシー | イメージ深度予測ニューラルネットワーク |
US11734847B2 (en) | 2016-09-15 | 2023-08-22 | Google Llc | Image depth prediction neural networks |
JP2022069007A (ja) * | 2020-10-23 | 2022-05-11 | 株式会社アフェクション | 情報処理システム、情報処理方法および情報処理プログラム |
WO2023286301A1 (ja) * | 2021-07-16 | 2023-01-19 | ソニーグループ株式会社 | フォーカス制御装置とフォーカス制御方法および撮像装置 |
Also Published As
Publication number | Publication date |
---|---|
CA2418800A1 (en) | 2002-02-14 |
KR20030062313A (ko) | 2003-07-23 |
MXPA03001171A (es) | 2003-06-30 |
EP1316068A1 (en) | 2003-06-04 |
US7035451B2 (en) | 2006-04-25 |
WO2002013141A1 (en) | 2002-02-14 |
US20020048395A1 (en) | 2002-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004505393A (ja) | イメージ変換および符号化技術 | |
US11562498B2 (en) | Systems and methods for hybrid depth regularization | |
RU2382406C1 (ru) | Способ улучшения карты диспарантности и устройство для реализации способа | |
KR100793076B1 (ko) | 에지 적응형 스테레오/다시점 영상 정합 장치 및 그 방법 | |
CN108038905A (zh) | 一种基于超像素的目标重建方法 | |
Gupta et al. | Real-time stereo matching using adaptive binary window | |
JP2006091011A (ja) | マルチビュー視差表示 | |
US20200258309A1 (en) | Live in-camera overlays | |
Bebeselea-Sterp et al. | A comparative study of stereovision algorithms | |
US8929587B2 (en) | Multi-tracking of video objects | |
López et al. | Depth from a Single Image Through User Interaction. | |
KR20110112143A (ko) | Ldi 기법 깊이맵을 참조한 2d 동영상의 3d 동영상 전환방법 | |
Da Silveira et al. | Indoor depth estimation from single spherical images | |
US9936189B2 (en) | Method for predicting stereoscopic depth and apparatus thereof | |
CN116958393A (zh) | 一种增量式图像渲染方法及装置 | |
CN111738061A (zh) | 基于区域特征提取的双目视觉立体匹配方法及存储介质 | |
JPH11510351A (ja) | オブジェクト追跡の装置および方法 | |
CA2488738C (en) | Improved conversion and encoding techniques | |
Park | Cost aggregation benchmark for light field depth estimation | |
Turetken et al. | Temporally consistent layer depth ordering via pixel voting for pseudo 3D representation | |
Kanchan et al. | Recent trends in 2D to 3D image conversion: algorithm at a glance | |
Săftescu et al. | Learning geometrically consistent mesh corrections | |
Verma et al. | Hole Filling Using Dominant Colour Plane for CNN-Based Stereo Matching | |
Febriana et al. | Pseudo-LiDAR Meets Agriculture: Leveraging 3D Monocular Point Cloud Processing for Coffee Beans | |
Lin et al. | Disparity Computation With Low Intensity Quantization on Stereo Image Pairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060804 |