JP2004505393A

JP2004505393A - イメージ変換および符号化技術

Info

Publication number: JP2004505393A
Application number: JP2002518424A
Authority: JP
Inventors: ハーマン、フィリップ、ビクター; フォックス、サイモン、リチャード; ドゥレイ、マーク、ロバート; フラック、ジュリーン、チャールス
Original assignee: ダイナミック　ディジタル　デプス　リサーチ　プロプライエタリー　リミテッド
Priority date: 2000-08-09
Filing date: 2001-08-09
Publication date: 2004-02-19
Also published as: CA2418800A1; KR20030062313A; MXPA03001171A; EP1316068A1; US7035451B2; WO2002013141A1; US20020048395A1

Abstract

少なくとも１つの画素またはイメージの一部に深さを割当てる段階と、前記少なくとも１つの画素またはイメージの一部の各々について相対位置およびイメージ特性を決定する段階と、前記深さ（単一または複数）、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数として深さ特性を確認するための計算状況を決定する段階と、前記アルゴリズムを使用して、各画素または前記イメージの一部について深さ特性を計算する段階とを有し、前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの創出方法。第二処理フェーズでは、前記深さマップは、相対位置、イメージ特性およびキーフレーム（単一または複数）までの距離を用いて、非キーフレームについての深さマップを創成するためのキーフレームを形成する。
【選択図】図１

Description

【０００１】
（技術分野）
本発明は１つ以上の２Ｄイメージから深さマップを得るための改善された技術に関する。
【０００２】
（背景技術）
多数のイメージ処理タスク（ｉｍａｇｅｐｒｏｃｅｓｓｉｎｇｔａｓｋ）は、イメージ内のオブジェクトの深さを知ることを必要としている。このようなタスクとして、フィルムおよびビデオシーケンスへの特殊効果の適用、および、２Ｄイメージの立体３Ｄへの変換がある。オブジェクトの深さの決定は、深さマップの作成処理と呼ばれることもある。深さマップにおいて、各オブジェクトは、陰影が固定点からのオブジェクトの深さを表示するようにグレイの陰影で着色される。一般に、遠いオブジェクトはグレイの暗い陰影が付されるのに対して、近いオブジェクトは明るいグレイの陰影が付される。深さマップを作成するための標準的な変換が未だに採用されており、異なる深さを表示するのに、逆カラーリングが使用されるか、異なる色が使用される。本願の開示における説明の目的のために、遠いオブジェクトは近いオブジェクトよりも暗く着色され、かつ、カラーリングは一般にグレイスケールとする。
【０００３】
歴史的に、既存の２Ｄイメージからの深さマップの作成は手動で行なわれてきた。イメージは、コンピュータにとっては単に一連の画素であり、一方、人のオペレータはオブジェクトおよび該オブジェクトの相対深さを区別できることは理解されよう。
【０００４】
深さマップの作成は、変換すべきイメージの各オブジェクトのアウトラインを手動で定めるシステム、および、オブジェクトに割当てられる深さを有している。この方法は、遅く、時間を要しかつコストが嵩むことは理解されよう。アウトラインを定めるステップは、通常、マウスに関連するソフトウェアプログラムを用いて行なわれる。このタスクを行なうのに使用されるソフトウェアプログラムの例として、Ａｄｏｂｅ社の「アフター・エフェクト（ＡｆｔｅｒＥｆｆｅｃｔ^ＴＭ）」がある。「アフター・エフェクト」を使用するオペレータは、一般に、深さの割当てを必要とする各オブジェクトのアウトラインの回りで線を引き、次に、オブジェクトを、観察者からの必要な深さ、すなわち距離を定めるグレイの所望陰影で塗りつぶす（すなわち「着色」する）。この方法は、次に、イメージ内の各オブジェクトについて反復される。また、例えばフィルムのように多数のイメージが含まれる場合には、フィルムの各イメージまたは各フレームについてこれらのステップを遂行することも必要である。
【０００５】
伝統的なシステムにおいて、イメージのアウトラインは、一般に、曲線の幾つかのフォーム、例えばベジェ曲線（Ｂｅｚｉｅｒｃｕｒｖｅ）として描かれる。このような曲線の使用により、オペレータは、オブジェクトのアウトラインがオブジェクトに正確に整合するようにアウトラインの形状を変えることができる。
【０００６】
一連のイメージが例えばフィルムまたはビデオのような深さマッピングを必要とする場合には、この方法は、シーケンスの各フレームについて反復される。
【０００７】
オブジェクトのサイズ、位置および／または深さは、１つのシーケンスを通して変化する虞れがある。この場合には、オペレータは、各フレーム内のオブジェクトを手動で追跡し、曲線を矯正することにより各フレームを処理し、そして、必要に応じてグレイの陰影を変えることによりオブジェクトの深さを更新することを要求される。これは、遅くて長たらしく、時間を要しかつコストが嵩む方法であることは理解されよう。
【０００８】
この方法を改善する試みがこれまでになされてきた。従来技術は、オブジェクトがフレームからフレームへと移動するときにオブジェクトのアウトラインを自動的に追跡することを試みる技術を説明している。このような技術の一例として、能動輪郭（ＡｃｔｉｖｅＣｏｎｔｏｕｒｓ）の適用がある（参照：”ＡｃｔｉｖｅＣｏｎｔｏｕｒｓ”−ＡｎｄｒｅｗＢｌａｋｅおよびＭｉｃｈａｅｌＩｓａｒｄ著−ＩＳＢＮ３−５４０−７６２１７−５）。このアプローチの主な制限は、追跡されるオブジェクトの運動を予測する技術を実施するソフトウェアを教示する必要があることである。これは、予測運動を知ることができず、複雑な変形が予測されるか、あるいは、異なる運動特性をもつ多数のオブジェクトが同時追跡されるときに顕著な制限となる。
【０００９】
アウトラインの運動を定めるのに、ポイントベース型のトラッキングアプローチ（ｐｏｉｎｔ−ｂａｓｅｄｔｒａｃｋｉｎｇａｐｐｒｏａｃｈｅｓ）も使用されている。これらは、コモーション（Ｃｏｍｍｏｔｉｏｎ^ＴＭ）およびアフター・イフェクトのような編集環境で良く知られている。しかしながら、これらは適当な追跡点（該追跡点の運動は全体としてオブジェクトの運動を反映する）を識別できないことがしばしばあるので、これらの適用は非常に制限されている。ポイント・トラッキングは、オブジェクトが簡単な並進運動（ｓｉｍｐｌｅｔｒａｎｓｌａｔｉｏｎｓ）を受けるときはときどき受入れられているが、形状の変形、閉塞（ｏｃｃｌｕｓｉｏｎｓ）、または、他の種々の一般的問題には対処できない。
【００１０】
イスラエルの企業ＡｕｔｏＭｅｄｉａ社は、オートマスカー（ＡｕｔｏＭａｓｋｅｒ^ＴＭ）と呼ばれているソフトウェア製品を製造している。このソフトウェア製品は、オペレータがオブジェクトのアウトラインを描きかつ該アウトラインをフレームからフレームへと追跡することを可能にする。このソフトウェア製品は、オブジェクトの色の追跡に頼るものであり、従って、同様な着色のオブジェクトが交差するときには機能しない。このソフトウェア製品はまた、例えば、オブジェクトが観察者に近付くか、スクリーン上で前方に移動するときのように、連続フレーム上でサイズが変化するオブジェクトの追跡は困難である。
【００１１】
これらのいずれのアプローチも深さマップの割当てができないだけでなく、追跡もできず、従って、深さマップの作成は依然として手動で行なわれる。従来技術で説明されている他の技術は、２Ｄシーケンスの記録に使用されたオリジナルのカメラの運動を再現することに基くものである。これらの技術の制限は、オリジナルのイメージシーケンス内でのカメラ運動を必要とすること、および、トラッキング・ポイントとして使用できる各フレーム内に良く定められた特徴が存在することである。
【００１２】
（発明の目的）
現在は、オペレータが、イメージの各フレームについて深さマップを手動で作成し、許容できる結果が得られるようにする必要がある。本発明の目的は、手動による深さ作成を必要とするフレーム数を低減させ、これによりオペレータが深さマップを作成する時間コミットメントを短縮することにある。
【００１３】
深さマップが依然として手動で作成されるべき１組のフレームが未だに残されている。本発明の他の目的は、これらのフレームの深さマップの手動作成方法を補助することにある。
【００１４】
（発明の概要）
上記目的を達成するため、本発明は、イメージの少なくとも１つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも１つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記深さ（単一または複数）、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第１アルゴリズムのコンフィグレーションを決定するステップと、
前記第１アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法を提供する。
【００１５】
他の態様では、本発明は、イメージの少なくとも１つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも１つの画素または一部の各々についてｘ、ｙ座標およびイメージ特性を決定するステップと、
前記深さ（単一または複数）、イメージ特性およびそれぞれのｘ、ｙ座標を使用して、ｘ、ｙ座標およびイメージ特性の関数としての深さ特性を確認するための第１アルゴリズムを決定するステップと、
前記第１アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法を提供する。
【００１６】
更に別の態様では、本発明は、イメージシーケンスの少なくとも１つのフレームについての深さマップを受入れるステップと、
前記深さマップを使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するためのアルゴリズムのコンフィグレーションを決定するステップと、
前記アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法を提供する。
【００１７】
更に別の態様では、本発明は、イメージシーケンスから少なくとも１つのキーフレームを選択するステップと、
前記少なくとも１つのキーフレームについて、各フレームの少なくとも１つの画素または一部に深さを割当てるステップと、
前記各キーフレームの少なくとも１つの画素または一部の各々について相対位置（例えばｘ、ｙ座標）およびイメージ特性を決定するステップと、
前記深さ（単一または複数）、イメージ特性および前記少なくとも１つのフレーム各々についての相対位置を使用して、相対位置および深さ特性の関数としての深さ特性を確認するための、前記少なくとも１つのフレーム各々についてのアルゴリズムのコンフィグレーションを決定するステップと、
前記各アルゴリズムのコンフィグレーションを使用して、前記少なくとも１つのキーフレームの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性は前記少なくとも１つのフレーム各々についての深さマップを形成し、
各深さマップを使用して、相対位置およびイメージ特性の関数としての各フレームについての深さ特性を確認するための第２アルゴリズムの第２コンフィグレーションを決定するステップと、
前記第２アルゴリズムを使用して、前記イメージシーケンスの各フレームについてそれぞれの深さマップを作成するステップと、を更に有することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法を提供する。
【００１８】
アルゴリズムに関するシステムは、実際に、相対位置およびイメージ特性の結果として深さマップを作成するため、多数の異なる関数を作成することが理解されよう。好ましいシステムでは、相対位置はｘ、ｙ座標の測定値である。
【００１９】
本発明を実施するシステムは、シーケンスのどのフレームをキーフレーム、例えば各第五フレームと考えるべきかを予め定めることを選択する。アルゴリズムはまた、処理を更に精緻なものとするため、アルゴリズムへの入力として時間を考慮するのが理想的である。
【００２０】
（発明の簡単な説明）
本発明は、関連２Ｄイメージについての深さマップを作る方法を改善することを意図している。この好ましい実施形態として、キーフレームの深さマップを作成するフェーズと、残余のマップを作成するフェーズとの２つのフェーズが含まれる。
【００２１】
第１フェーズは、ユーザから少量のデータを得る。このデータは、シーンの基本構造を表示する。２Ｄイメージおよびこれに関連するデータは、ユーザによって種々のイメージ画素に割当てられる深さｚと、そのｘおよびｙ座標と、イメージ特性との間の関係を学習できるアルゴリズムに与えられる。イメージ特性には各画素についてのＲＧＢ値が含まれるが、これに限定されるものではない。一般に、アルゴリズムは、ユーザが定めたフレーム内の各画素について、次式を解く。
【００２２】
ｚ＝ｆ（ｘ、ｙ、Ｒ、Ｇ、Ｂ）
次に、アルゴリズムは、この学習した関係を、イメージ中の残余の画素に適用して深さマップを作成する。必要ならば、ユーザは、これらのデータを精緻化して、深さマップの精度を高めることができる。最初の深さデータは必ずしもユーザが特定する必要はない。最初の深さデータとして、運動アルゴリズムからの自動化された構造を用いること、または、立体イメージからの深さ推定を得ることがあるが、これらに限定されるものではない。
【００２３】
第２フェーズは、選択されたキーフレームに与えるべき２Ｄイメージおよびこれに関連する深さマップを必要とする。これらのキーフレームでの深さマップは、例えば本出願人により以前に開示されたようにして作成されるか、深さ捕捉技術’（ｄｅｐｔｈｃａｐｔｕｒｅｔｅｃｈｎｉｑｕｅｓ）を用いて自動的に作られる。深さ捕捉技術として、レーザ範囲ファインダすなわちＬＩＤＡＲ（光の方向および範囲：ＬｉｇｈｔＤｉｒｅｃｔｉｏｎＡｎｄＲａｎｇｅ）装置およびデプス・フロム・フォーカス（ｄｅｐｔｈ−ｆｒｏｍ−ｆｏｃｕｓ）技術があるが、これらに限定されるものではない。
【００２４】
各キーフレームについての２Ｄイメージおよび関連深さマップ（単一または複数）は、残余のフレーム内の各画素に割当てられる深さｚと、そのｘおよびｙ位置と、イメージ特性との間の関係を学習できるアルゴリズムに与えられる。イメージ特性として各画素のＲＧＢ値があるが、これに限定されるものではない。一般に、アルゴリズムは、キーフレーム内の各画素について、次式を解く。
【００２５】
ｚ＝ｆ（ｘ、ｙ、Ｒ、Ｇ、Ｂ）
このアルゴリズムは、次に、隣接キーフレーム間の各連続フレームに与えられ、かつ各画素についてアルゴリズムを使用してｚの値を計算する。
【００２６】
（発明の詳細な説明）
本発明は、１つ以上の２Ｄイメージから深さマップを得るための改善された技術を提供する。本発明は、好ましくは２つのフェーズを有し、各フェーズには、学習プロセスを取入れるのが理想的である。
【００２７】
（フェーズ１）
第１フェーズは、単一イメージで作動する。ユーザにはイメージが提供され、ユーザは、簡単なグラフィックインターフェースを用いてイメージの種々の領域についておおよその深さを定める。グラフィックインターフェースは、ユーザが画素に深さを割当てる補助を行なうツールを提供し、これらのツールとして、ペン／ペイントブラシ・ツール、領域充填ツール、および画素色に基いて深さを割当てるツールがあるが、これらに限定されるものではない。この方法の結果として、イメージ中の画素の部分集合に深さが定められる。
【００２８】
図１には、２Ｄイメージがユーザに提供される一例が示されている。次にユーザは、イメージ２内の種々の画素に深さを割り当てることができる。図１の例では、「Ｘ」で印された画素は、ユーザによって深さが特定されていない画素である。次にシステムは、２Ｄイメージ１と、ユーザにより与えられる深さデータ２とを相関付け、かつトレーニングアルゴリズムを用いて、マッピング関数４の作成を補助する。マッピング関数４は、イメージ中の各画素の深さについての関数を解くことができるものである。
【００２９】
ユーザにより与えられる情報は、後述のように、学習プロセスに使用されるトレーニングデータを定めて、ある深さと前記単一イメージの各画素とを関連させる。この方法は、数ヶ所の領域のみについておおよその深さを定める点で相互作用する。前記領域についての学習プロセスの結果に基いて、ユーザは、学習プロセスの遂行が不充分な領域について更に深さ推定を行うことができる。ユーザと学習プロセスとの間のこの相互作用は、多数回反復される。実際には、ユーザはこのステージで学習プロセスをガイドできる。最初の深さデータは必ずしもユーザが特定する必要はなく、上記他の何らかの方法で決定できることに留意すべきである。
【００３０】
＜マッピング関数の作成＞
システムにイメージおよび幾つかの画素の深さが与えられたならば、システムは、次に、深さが定められた画素を分析して、マッピング関数を作成する。マッピング関数は、入力として、イメージからの１つの画素または１組の画素についての任意の測定値をとり、かつ出力として、当該１つの画素または１組の画素についての深さ値を与えることができる。
【００３１】
個々の画素の測定値は、赤、緑および青の値、または輝度、色差、コントラストおよびイメージ中の水平および垂直位置決めのための空間測定値で構成できる。あるいは、マッピング関数は、大きい組の画素、および、平均および分散（ｖａｒｉａｎｃｅ）、またはエッジおよびコーナ等の１組の画素の測定値のような高レベルのイメージ特徴（すなわち、特徴検出器）に基いて演算できる。大きい組の画素は、例えばイメージ中のセグメントを表し、同次領域（ｈｏｍｏｇｅｎｅｏｕｓｒｅｇｉｏｎ）を形成する連結画素の組である。
【００３２】
例示目的のみから、画素は、
ｘ、ｙ、Ｒ、Ｇ、Ｂ、ｚ
で表すことができる。ここで、ｘおよびｙはｘ、ｙ座標での画素の相対位置を表し、Ｒ、ＧおよびＢは当該画素の赤、緑および青の値を表し、ｚは当該画素の深さを表す。ｚの値は、ユーザが値を特定したときにのみ定められる。
【００３３】
マッピング関数は、ユーザが識別した画素についてのイメージデータと深さデータとの間の関係を捕捉することにより学習される。マッピング関数は、入力データが受入れられ、処理されかつ出力が与えられる任意の一般的な処理ユニット（ｇｅｎｅｒｉｃ−ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）のフォームにすることができる。この処理ユニットは、その性質がユーザデータおよび対応イメージデータの試験により決定されるプロセスが可能であることが好ましい。
【００３４】
入力データと所望出力との間のこの関係を学習する方法は、人工知能または機械学習の技術分野の当業者には理解されようが、多くのフォームにすることができる。これらの当業者は、通常は、立体システムすなわち２Ｄイメージの３Ｄイメージへの変換の技術分野では働いていないことに留意されたい。機械学習においては、このようなマッピング関数は知られており、かつマッピング関数としてはニューラルネットワーク、決定ツリー、決定グラフ、モデルツリーおよび最近傍類別子（ｎｅａｒｅｓｔ−ｎｅｉｇｈｂｏｕｒｃｌａｓｓｉｆｉｅｒｓ）があるがこれらに限定されるものではない。学習アルゴリズムの好ましい実施形態は、マッピングエラーのある測定値を最小にするマッピング関数の設計を探求すること、および、オリジナルのデータ組以外の値を満足できるように一般化する学習アルゴリズムである。
【００３５】
学習アルゴリズムは、２Ｄイメージ情報とイメージ全体に亘る深さとの間の関係、または、小さい空間領域についての局部的な関係を決定することを試みる。
【００３６】
この関係は、次に、シーケンス全体について深さマップを完成すべく適用される。
【００３７】
これは図２に例示されており、ここでは、データを２Ｄイメージ１から作成されたマッピング関数４に入力して、２Ｄイメージ１の深さマップ５を作成する。
【００３８】
成功が得られる学習アルゴリズムの例として、ニューラルネットワークを学習するバックプロパゲーション（ｂａｃｋ−ｐｒｏｐａｇａｔｉｏｎ）アルゴリズム、局部重み付きリニア回帰（ｌｏｃａｌｌｙｗｅｉｇｈｔｅｄｌｉｎｅａｒｒｅｇｒｅｓｓｉｏｎ）の決定ツリーを学習するＣ４．５アルゴリズム、およびクラスタ形類別子（ｃｌｕｓｔｅｒ−ｔｙｐｅｃｌａｓｓｉｆｉｅｒｓ）を学習するＫ平均（Ｋ−Ｍｅａｎｓ）アルゴリズムがある。
【００３９】
例示目的のみから、学習アルゴリズムは、２Ｄイメージシーケンスのフレーム中の各画素について、下記関係を計算することを考えることができる。
【００４０】
Ｚ_ｎ＝ｋ_ａ・ｘ_ｎ＋ｋ_ｂ・ｙ_ｎ＋ｋ_ｃ・Ｒ_ｎ＋ｋ_ｄ・Ｇ_ｎ＋ｋ_ｅ・Ｂ_ｎ
ここで、
ｎは、キーフレームイメージ中の第ｎ番目の画素、
ｚ_ｎは、ｘ_ｎ、ｙ_ｎの画素に割当てられる深さの値、
ｋ_ａ〜ｋ_ｅは定数であり、アルゴリズムにより決定される。
【００４１】
Ｒ_ｎは、ｘ_ｎ、ｙ_ｎの画素の赤色成分の値、
Ｇ_ｎは、ｘ_ｎ、ｙ_ｎの画素の緑色成分の値、
Ｂ_ｎは、ｘ_ｎ、ｙ_ｎの画素の青色成分の値である。
【００４２】
この方法は図１に示されている。
【００４３】
当業者ならば、上記式は例示のみを目的として簡単化したものであり、実際には理想的なものでないことは理解されよう。例えばニューラルネットワークを用いかつイメージ中に多数の画素を与えた実際の実施では、ニューラルネットワークは、多くのｋ値、乗算および加算を含む１つの大きい式を学習する。また、ｋ値はイメージ中の種々のｘ、ｙ位置について変化し、ローカルイメージの特徴に適合する。
【００４４】
＜２Ｄイメージへのマッピング関数の適用＞
次に、本発明は、このマッピング関数を採用しかつ該マッピング関数を２Ｄイメージシーケンスの全フレームに適用する。所与の画素について、マッピング関数への入力は、学習プロセス中にマッピング関数に与えられるのと同様の要領で決定される。例えば、入力として単一画素の測定値を与えることによりマッピング関数を学習したならば、マッピング関数は、入力と同じこれらの測定値を必要とするであろう。これらの入力により、マッピング関数は、その学習したタスクを遂行しかつ深さ測定値を出力する。また、単一画素についての例では、この深さ測定値は簡単な深さ値とすることができる。この例では、マッピング関数は全イメージについて適用され、イメージについての全組の深さデータを完成する。あるいは、マッピング関数が大きい組の画素を用いてトレーニングされる場合には、イメージについてこのような大きい組の画素を発生させることが要求される。これらの組の画素について、平均および分散のような高レベルの測定が、学習プロセス中における測定と同じ要領で行なわれる。これらの入力が確立されたならば、マッピング関数は、当該組の画素についての必要な深さ測定値を作る。
【００４５】
この方法が図２に示されており、２Ｄイメージについての全深さマップを形成する。得られる深さマップがエラー領域を含んでいる場合には、これらの領域を矯正すべく反復されたユーザデータおよびプロセスに修正が加えられる。他のフレームにマッピング関数を適用して深さマップを発生させることもできる。
【００４６】
機械学習の分野の当業者ならば、トレーニング段階にアルゴリズムの一般的なコンフィグレーションを含めることができることは理解されよう。このアプローチは事例ベース形学習（ｉｎｓｔａｎｃｅｂａｓｅｄｌｅａｒｎｉｎｇ）と呼ばれ、局部重み付きリニア回帰等の技術を含むが、この技術に限定されるものではない。他の実施形態では、ユーザは、１組のオブジェクトを定めかつ該オブジェクトに画素を割当てることができる。この実施形態では、ユーザデータをイメージの残余の画素に一般化する方法は、イメージ全体を、ユーザにより最初に識別されたオブジェクトの組にセグメント化する。オブジェクトを定めるマッピング関数またはオブジェクト自体は、この実施形態の必要出力とすることができる。あるいは、関数をオブジェクトに適用してこれらのオブジェクトの深さを特定し、これにより、イメージについての深さマップを構成することができる。これらの関数は、深さランプ（ｄｅｐｔｈｒａｍｐ）のフォームおよび本出願人に係る以前の国際特許出願ＰＣＴ／ＡＵ００／００７００に開示されているようなオブジェクトの深さを定める他の方法にすることができる。
【００４７】
更に別の実施形態では、トレーニングアルゴリズムは、ユーザ情報へのランダム成分の導入を試みることができる。この試みは、任意の学習アルゴリズムを用いて、オーバートレーニングの困難性を解消することを補助する。オーバートレーニングとは、学習アルゴリズムが単にトレーニング情報を覚えている状況をいう。これは、乗算自体の概念のいかなる理解も不要な、子供用の学習掛け算表に似たものである。この問題は、機械学習の分野で知られており、問題を解決するアプローチは、ランダムノイズをトレーニングデータに導入することである。優れた学習アルゴリズムは、トレーニングデータ中のノイズとクオリティ情報とを強制的に区別する。これを行うと、データの性質を単に覚えていることよりも、データの性質を学習することが促進される。このアプローチの一例の実施形態は、トレーニングアルゴリズムが下記の関数を学習する前述の例に関連している。
【００４８】
Ｚ_ｎ＝ｋ_ａ・ｘ_ｎ＋ｋ_ｂ・ｙ_ｎ＋ｋ_ｃ・Ｒ_ｎ＋ｋ_ｄ・Ｇ_ｎ＋ｋ_ｅ・Ｂ_ｎ
トレーニングアルゴリズムへの入力をｚ、ｘ、ｙ、Ｒ、Ｇ、Ｂで表すとき、小さいノイズ成分がこれらの値に付加される。ノイズ成分は、正または負の小さい乱数にすることができる。好ましい実施形態では、ｚ成分にはいかなるノイズも付加されない。
【００４９】
＜学習プロセス＞
好ましい実施形態では、学習プロセスへの入力は次のとおりである。
【００５０】
１．深さを含むある特性を有する多数のトレーニングサンプル。
【００５１】
２．上記トレーニングサンプルに一致する特性を有しかつ学習プロセスにより深さが決定される多数の「類別（ｃｌａｓｓｉｆｉｃａｔｉｏｎ）」サンプル。
【００５２】
トレーニングサンプルは、画素の位置（ｘ、ｙ）、色（Ｒ、Ｇ、Ｂ）および深ささ（ｚ）を特性として有する個々の画素からなる。学習プロセスの目的は、特性として位置（ｘ、ｙ）および色（Ｒ、Ｇ、Ｂ）を有する各類別画素（ｃｌａｓｓｉｆｉｃａｔｉｏｎｐｉｘｅｌｓ）について深さ（ｚ）を計算することである。
【００５３】
各類別サンプルについて、第一ステージの学習アルゴリズムは、対象としている類別画素と「同様な」イメージ特性を共有するトレーニングサンプルの部分集合を識別することを含む。
【００５４】
＜トレーニング候補のサーチング＞
現在の類別サンプルと同様な特性をもつトレーニングサンプルを識別するため、サンプルが生じるｎ次元特徴空間を考察する。好ましい実施形態では、これは、各次元がイメージ特性ｘ、ｙ、Ｒ、Ｇ、Ｂの１つを表す５次元空間である。この空間の軸線は、各次元の範囲の差を説明すべく標準化される。従って、相対百分率を用いてサンプル間の差について言及する。例えば、所与のサンプルのＲ成分は、第二サンプルに対して（Ｒ成分の絶対範囲の）１０％だけ異ならせることができる。
【００５５】
この空間内の２つのサンプル間の距離は、これらの類似性の１つの尺度である。現在の類別サンプルと同様なトレーニングサンプルを検出するため、サーチ半径が定められる。類別サンプルからの距離がサーチ半径より小さいあらゆるトレーニングサンプルは、類別サンプルと同様であると考えられかつ深さの計算に使用される。ｎ次元のサーチ空間内の距離は、簡単なユークリッドメートル法（Ｅｕｃｌｉｄｅａｎｍｅｔｒｉｃ）を用いて測定される。ｎ次元特徴空間の大きい部分を占拠しないデータでは、より良い結果を得るため、マハラノビス距離メートル法（Ｍａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅｍｅｔｒｉｃｓ）が使用される。ＲＧＢ、ＹＵＶまたはＨＳＶ成分のヒストグラム方程式または主要成分分析等のデータの範囲を引伸す他の手段でも同様な利益が得られる。
【００５６】
サーチ半径は深さの正確な推定における臨界パラメータであり、かつデータの特徴に対して構成される。高い空間的（ｈｉｇｈｓｐａｔｉａｌ）または時間的自動矯正（ｔｅｍｐｏｒａｌａｕｔｏｃｏｒｒｅｌａｔｉｏｎ）を呈するデータでは、低い空間的または時間的自動矯正をもつイメージに対するよりも小さい値に設定される。
【００５７】
サーチ半径は、特徴空間の各寸法に対して異ならせることができる。例えば、ｘ軸内でのサーチ半径は、赤色強度を表す軸線内でのサーチ半径とは異ならせることができる。また、学習プロセスは、これらのパラメータを、ユーザが定めたあうる境界内のデータに適合させることができる。例えば、５％の空間半径および１０％の色半径内で適当なトレーニングサンプルが全く識別されない場合には、空間半径が１０％に増大される。
【００５８】
図８には、候補サーチ方法の簡単化した一例が示されている。図８には、図示の目的で赤色強度の変化に対してプロットされた、サンプルの空間ｘ軸座標内の変化をもつ２次元サーチ空間が示されている。この空間内には多数のトレーニングサンプル２０がある。ターゲット画素１１の第一半径２１の距離内には、トレーニングサンプルが全く存在しない。従って、学習プロセスは、サーチをターゲット画素１１の第二サーチ半径２２まで拡大しかつ３つの候補トレーニングサンプルを識別する。
【００５９】
適当なトレーニング候補を識別するのに、他のサーチ戦略を使用できる。このような戦略では、トレーニングデータは、ハズツリー（ｈａｓｔｒｅｅ）、ｋ−ｄツリー（ｋ−ｄＴｒｅｅ）またはｎ次元ヴォロノイ（Ｖｏｒｏｎｏｉ）図式等の構造に記憶される。このような戦略は、候補トレーニングサンプルを識別する速度を増大させるが、本発明の本質に影響は与えない。
【００６０】
同様に、トレーニングサンプルをキャッシングすることにより、特徴空間内の連続する類別サンプルの接近を利用するサーチ戦略は、候補トレーニングサンプルを識別する速度を向上させるが、本発明に大きい影響は与えない。
【００６１】
＜距離重み付き学習＞
任意の所与の類別サンプルについての深さを計算するため、本発明者は、前述の類別サンプルと同様に見える１つ以上のトレーニングサンプルを要求する。本発明者は、これらのトレーニングサンプルを「候補（ｃａｎｄｉｄａｔｅ）」トレーニングサンプルと呼ぶことにする。
【００６２】
本発明者は、類別サンプルの深さを、候補トレーニングサンプルの深さの重み付き平均として計算する。任意の候補トレーニングサンプルに帰属する重みは、ｎ次元空間内の類別サンプルからの距離に対するものである。前述のように、この距離は標準化され、そして、マハラノビスメートル法（Ｍａｈａｌａｎｏｂｉｓｍｅｔｒｉｃｓ）または主要成分スタイル分析法（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔｓｔｙｌｅａｎａｌｙｓｉｓ）を用いてデータバイアスすることができる。
【００６３】
図９には、深さ計算法の簡単化した例が示されている。図８におけるように、図９には、図示の目的で赤色強度の変化に対してプロットされた、サンプルの空間ｘ座標内の変化をもつ２次元サーチ空間が示されている。３つの候補トレーニングサンプル１９は、ターゲット画素１１から異なる距離に示されている（ｗ１、ｗ２、ｗ３で示されている）。深さは、次式を用いて、候補トレーニングサンプルの重み付き平均として計算できる。
【００６４】
【数１】

【００６５】
ここで、Ｄ１は、ターゲット画素１１からｗ１の距離におけるトレーニングサンプルの深さ、Ｄ２は、ターゲット画素１１からｗ２の距離におけるトレーニングサンプルの深さ、Ｄ３は、ターゲット画素１１からｗ３の距離におけるトレーニングサンプルの深さである。
【００６６】
好ましい実施形態でにおいて、重みは、ｎ次元空間内での距離の２乗に反比例する。
【００６７】
＜別の実施形態＞
別の実施形態では、学習プロセスは、利用できる全ての組のトレーニングデータを分析して、サンプルの深さに対するイメージ特性の関係を支配する規則を推論する。
【００６８】
この方法では、ｎ次元の特徴空間が１組の領域に分割されるか、仕切られる。図５には、この原理が簡単化されて示されている。この例では、ｎ次元空間は、決定境界２３により多数の矩形領域に分割される。深さ値は、ターゲット画素１１が占拠する領域に基いて、該ターゲット画素１１に割当てられる。
【００６９】
実際には、Ｍ５モデルツリーアルゴリズムを使用して、特徴空間の仕切りを行なう。Ｍ５アルゴリズムは、２つの方法で上記基本サンプルを改善する。決定境界は特徴空間の軸線に垂直である必要はなく、深さは、イメージ特性の関数として、個々の領域内で変化できる。
【００７０】
機械学習の分野の当業者ならば、Ｍ５モデルツリーに代えて、ニューラルネットワーク、決定ツリー、決定グラフおよび最近傍類別子を含む多くの学習スキームを使用できることが理解されよう。学習アルゴリズムの正確な性質は、本発明の新規性に影響を与えない。
【００７１】
好ましい実施形態では、学習プロセスは、イメージ特性ｘ、ｙ、Ｒ、Ｇ、Ｂに基いて作動する。他の実施形態は、大きい画素の組のような高レベルのイメージ特性および平均および分散またはエッジ、コーナ等の１組の画素の測定値（すなわち、特徴検出器の応答）に基いて作動する。大きい組の画素は、例えば同次領域を形成する連結画素の組であり、イメージ中のセグメントを表す。
【００７２】
（フェーズ２）
第２フェーズは、少なくとも１つのフレームがキーフレームとして識別されるイメージシーケンスで作動する。第２フェーズは、一般的に深さマップのフォームをなす各キーフレームについて３Ｄ立体データを受入れる。深さマップは、例えばヒューマン仕様（ｈｕｍａｎｓｐｅｃｉｆｉｃａｔｉｏｎ）、上記第１フェーズの出力、立体イメージから決定した深さ、または、範囲発見システム（ｒａｎｇｅｆｉｎｄｉｎｇｓｙｓｔｅｍ）を用いた深さの直接獲得等の任意の方法で行なうことができるが、これらに限定されるものではない。あるいは、３Ｄ立体情報は深さマップ以外の他のフォームにでき、例えば立体ペアを有するキーフレームから得た不均衡情報にすることができる。
【００７３】
２Ｄイメージシーケンスの他の全てのフレームについて、本発明は、最初に利用できるキーフレーム情報に基いた、深さマップの仕様を提供する。キーフレームの数は、全フレーム数の極く一部である。従って、本発明は、最初に発生すべき深さマップの量を大幅に低減できる方法を提供する。
【００７４】
＜マッピング関数の作成＞
システムにキーフレームおよびこれらの対応深さマップが与えられたならば、システムは、最初に利用できるキーフレームおよび対応深さマップを分析して、マッピング関数を作成する。マッピング関数は、２Ｄイメージの任意の所与の測定値を入力しかつ当該イメージの深さマップを出力するプロセスすなわち関数と考えることができる。このマッピングは、これらのイメージについて利用できるキーフレームイメージデータと深さマップとの関係を捕捉することにより学習される。
【００７５】
マッピング関数は、入力データが受入れられ、処理されかつ出力される任意の一般的な処理ユニット（ｇｅｎｅｒｉｃ−ｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）のフォームにすることができる。好ましくは、この処理ユニットは学習プロセスが可能であり、この本質はキーフレームデータの試験およびその対応深さマップにより決定される。機械学習の分野では、このようなマッピング関数は知られており、かつ、ニューラルネットワーク、決定ツリー、決定グラフ、モデルツリーおよび最近傍類別子を有するが、これらに限定されるものではない。
【００７６】
このシステムは、入力データと所望の出力データとの関係を学習することを試みる。学習プロセスにおいて、２Ｄキーフレームイメージ処理装置からの情報がトレーニングアルゴリズムに与えられる。この情報は画素毎のベースで与えられ、赤、緑および青等の測定値、または輝度、色差、コントラスト等の他の測定値、およびイメージ中の水平および垂直位置決めを行なう空間測定値等の画素測定値が与えられる。あるいは、この情報は、大きい組の画素、および平均および分散またはエッジ、コーナ等の１組の画素に関する測定値等の高レベルのイメージ特徴の形態（すなわち、特徴検出器の応答）で与えることができる。大きい組の画素は、例えば、同次領域を形成する連結画素の組であるイメージのセグメントを表す。
【００７７】
例示目的のみから、２Ｄイメージは、
ｘ、ｙ、Ｒ、Ｇ、Ｂ
で表すことができる。ここで、ｘおよびｙは各画素のｘ、ｙ座標を表し、Ｒ、ＧおよびＢは当該画素の赤、緑および青の値を表す。
【００７８】
次に、対応深さマップがトレーニングアルゴリズムに与えられ、これにより、トレーニングアルゴリズムがその必要マッピングを学習できるようになる。通常、個々の画素がトレーニングアルゴリズムに与えられるが、大きい組の画素またはセグメントのような高レベルのイメージ特徴が使用される場合には、深さマップは、平均および分散のような当該画素の組についての深さの測定値とすることができる。
【００７９】
例示目的のみから、深さマップは、
ｚ、ｘ、ｙ
の形態で表すことができる。ここで、ｘおよびｙは各画素のｘ、ｙ座標を表し、ｚは、当該対応画素に割当てられる深さ値を表す。
【００８０】
入力データと所望出力とのこの関係を学習する方法は、人工知能の領域の当業者には理解されようが、多くの形態にすることができる。学習アルゴリズムの好ましい実施形態は、マッピングエラーの或る測定値を最小にするマッピング関数を設計することを探求する実施形態である。
【００８１】
学習アルゴリズムは、２Ｄイメージ情報と、キーフレームの例に存在する深さマップとの関係を一般化することを試みる。この一般化は、次に、全シーケンスについての深さマップを完成すべく適用される。当業界で知られている、成功を収めている学習アルゴリズムは、ニューラルネットワークを学習するバックプロパゲーションアルゴリズム、決定ツリーを学習するＣ４．５アルゴリズム、および、クラスタ形類別子を学習するＫ平均アルゴリズムである。
【００８２】
例示目的のみから、学習アルゴリズムは、２Ｄイメージシーケンスのフレーム中の各画素について、下記関係を計算することを考えることができる。
【００８３】
Ｚ_ｎ＝ｋ_ａｘ_ｎ＋ｋ_ｂｙ_ｎ＋ｋ_ｃＲ_ｎ＋ｋ_ｄＧ_ｎ＋ｋ_ｅＢ_ｎ
ここで、
ｎは、キーフレームイメージ中の第ｎ番目の画素、
ｚ_ｎは、ｘ_ｎ、ｙ_ｎの画素に割当てられる深さの値、
ｋ_ａ〜ｋ_ｅは定数であり、アルゴリズムにより決定される。
【００８４】
Ｒ_ｎは、ｘ_ｎ、ｙ_ｎの画素の赤色成分の値、
Ｇ_ｎは、ｘ_ｎ、ｙ_ｎの画素の緑色成分の値、
Ｂ_ｎは、ｘ_ｎ、ｙ_ｎの画素の青色成分の値である。
【００８５】
当業者ならば、上記式は例示のみを目的として簡単化したものであり、実際に実施させるものでないことは理解されよう。例えばニューラルネットワークを用いかつイメージ中に多数の画素を与えた実際の実施では、ニューラルネットワークは、多くのｋ値、乗算および加算を含む１つの大きい式を学習する。この方法は、種々の数のキーフレームを使用する同様な方法を示す図３に示されている。
【００８６】
＜マッピング関数の適用＞
次に、本発明は、このマッピング関数を用いて該マッピング関数を、利用できる深さマップを未だ保有しない１組の２Ｄイメージの全体に適用する。当該組の所与の２Ｄイメージについては、マッピング関数への入力は、学習プロセス中にマッピング関数に与えられるのと同様の要領で決定される。例えば、マッピング関数が、入力として単一画素の測定値を与えることにより学習されたものである場合には、マッピング関数は、新しいイメージの画素についてのこれらの同じ測定値が必要になる。これらの入力により、マッピング関数は、学習したタスクを遂行しかつ深さ測定値を出力する。単一画素の例でも、マッピング関数はイメージシーケンスの全体に亘って適用され、イメージシーケンスについての全組の深さデータを完成する。あるいは、マッピング関数が大きい組の画素を用いてトレーニングされた場合には、新しいイメージについても大きい組の画素を発生させる必要がある。学習プロセス中と同じ要領で、これらの組の画素に、平均および分散のような高レベルの測定値が作られる。これらの入力値が確立されると、マッピング関数は当該組の画素について必要な深さ測定値を作る。
【００８７】
２Ｄイメージのシーケンスについては、深さマップを備えたキーフレームは、任意の方法でシーケンス全体に亘って間隔を隔てることができる。好ましい実施形態では、マッピング関数には１組のキーフレームが与えられ、対応する深さマップは、何らかの共通性をもつ１組の２Ｄイメージのスパンを隔てる。最も簡単な場合には、２つのキーフレームを用いてマッピング関数をトレーニングし、次にマッピング関数を用いて、２つの前記キーフレーム間に２Ｄイメージについての深さマップを決定する。しかしながら、マッピング関数のトレーニングに使用されるキーフレームの数にはいかなる制限も存在しない。また、全組の２Ｄイメージを完成させるのに使用されるマッピング関数の数にもいかなる制限も存在しない。好ましい実施形態では、１つ以上の介入フレームにより分離された２つのキーフレームは、この第２フェーズの処理への入力として定められる。このフェーズの目的は、これらの介入フレームの各々に深さマップを割当てることである。介入フレームに深さマップが割当てられる好ましい順序は、キーフレームに時間的に最も近いフレームを最初に処理することから処理される。処理されたフレームは、次のフレームの深さマップに対するキーフレームとなる。
【００８８】
この時間変数の付加は、キーフレームで利用できる情報を一般化するときのトレーニング関数を補助する。時間変数が存在しない場合には、２つのキーフレームの深さ情報は互いに矛盾するものでもよい。このことは、同様な色の画素が両方のキーフレームの同じ空間領域内に生じるときに生じることがある。例えば、イメージの中央に緑色の車が観察される第１キーフレームでは、深さ特性がこの車を最前面に移動させる。次のキーフレームでは、車が移動していて、車の後ろに緑色の小牧場が露出され、その深さ特性が中央の地面領域を特定する。トレーニングアルゴリズムには、イメージの中央に緑色の画素を有するが、異なる深さ特性は有していない２つのキーフレームが与えられる。この矛盾は解決できず、マッピング関数がこのような領域内で首尾良く遂行されることは期待できない。時間変数の導入により、このアルゴリズムは、イメージの中央の緑色の画素がイメージシーケンスでの第１キーフレームの近くの時間で最前面にあることを認識することによりこの矛盾を解決できる。時間が第２キーフレームへと進行すると、トレーニングアルゴリズムは、イメージの中央の緑色画素を、緑色小牧場の中間の地面深さとして認識する傾向が強くなる。
【００８９】
この方法が図６の例により示されている。上列６はソースフレームを表し、これらのソースフレームには、イメージシーケンスでのこれらの相対位置に従って番号が付されている。下列はこのフェーズにより作られた深さマップを表す。付された番号は、深さマップが作られる順序を表す。深さフレーム１、２は逆の順序でも処理でき、同様に深さフレーム３、４も逆の順序で処理できる。キーフレーム７は、上記プロセスへの入力として与えられる。作られるべき第一深さマップは、図示のようにソースフレーム１に関連付けられる。作られた前の２つの深さマップを用いて、任意の次の深さマップが作られる。
【００９０】
深さマップが作られるべきフレーム内の各画素には、ターゲット画素のイメージ特性を使用して、前記画素に関連する深さを決定する。好ましい実施形態では、各キーフレームから１つずつ、２つの深さ評価が検索される。この方法が図７に示されており、図７には、ターゲット画素１１が、イメージシーケンスでの現在のフレームの前後で、如何にして最も近いソースキーフレーム６と比較されるかを示している（ステップ１２および１３）。学習プロセスは、前述の同様にサーチ半径１４を使用して、同様なイメージ特性をもつ画素を識別し、かつ前記画素に関連する深さを使用して（ステップ１５および１６）、ターゲット画素についての深さを計算する（ステップ１７および１８）。各キーフレームはターゲット画素の深さを評価し、これらをＤ１およびＤ２として定める。
【００９１】
ターゲット画素に関連する最終深さを決定するためには、深さＤ１およびＤ２を結合しなければならない。好ましい実施形態では、これらの値の重み付き平均は、重みパラメータとしてキーフレームの位置を用いて計算される。現在のフレームから第一キーフレームまでの距離がＴ１であり、かつ第二キーフレームまでの距離がＴ２であるとき、ターゲット画素の深さは次式で与えられる。
【００９２】
【数２】

【００９３】
ここで、Ｄ１およびＤ２は，それぞれ、キーフレーム１および２から計算された深さである。
【００９４】
ある場合には、学習プロセスは、所与の画素についての深さ値を決定できない。上記計算プロセス中に、２つのキーフレームの深さ評価のうちの１つが決定されない場合には、ターゲット画素は、割当てられているキーフレームの深さ評価に割当てられ、いかなる重みも使用されない。２つの評価Ｄ１、Ｄ２のいずれもが定められない場合には、サーチ半径が拡大されかつこのプロセスが反復される。
【００９５】
他の全てのフレームについて深さマップを作成するのに、１つのキーフレームのみで済むことに留意すべきである。しかしながら、オブジェクトの深さがイメージシーケンスで変化する状況では、上記のようにして重み付けされた２つ以上のキーフレームが、良い結果を与えるであろう。
【００９６】
フレームが処理される順序および多数のキーフレームからの結果が結合される態様は、本発明の本質に大きい影響を与えることなく変えることができることに留意すべきである。
【００９７】
２Ｄイメージの場合のように、トレーニング段階には、シーケンスのイメージの任意の画素での深さ評価を決定すべく、瞬間形学習を含めることができることに留意されたい。この方法が図４に示されている。
【００９８】
フェーズ１に使用されたのと同じ学習プロセスが、フェーズ２でも実施できることに留意されたい。両プロセスは、入力データと所望の出力との関係、すなわち深さを考察する。大きい相違点は、フェーズ２での学習プロセスはフレーム数に基いて時間要素を考察すべきであるのに対して、フェーズ１は時間要素に注意を払う必要がないことである。
【００９９】
＜他の用途＞
マッピング関数は、シーケンスの全ての非キーフレームイメージについての深さ情報の完全表示を与える。これは、深さ情報の符号化として利用できる。マッピング関数には比較的少量のデータが伝送され、従ってマッピング関数は深さ情報の大きい圧縮を表すことが予測される。
【０１００】
２０個のフレームがシーケンス内で離れている２つのキーフレームがある場合を考える。マッピング関数はこれらの２つのキーフレームを学習し、このマッピング関数は、中間フレームについての全ての深さ情報を与える。マッピング関数自体は、２０個のフレームについての全てのこの深さ情報の圧縮を表す。例えば例示のみを目的として、マッピング関数は６０００バイトを用いるファイルに書き込むことができ、この場合にはこのコストについて、深さ情報の２０個のフレームの価値が得られる。実際上は、これは、１フレームにつき６０００／２０＝３００バイトを表す。実際に実施する場合には、有効圧縮が本質的なものとなる。
【０１０１】
他の用途では、上記圧縮は、２Ｄイメージソース内に埋入された３Ｄ情報、すなわち２Ｄ／３Ｄ互換イメージの効率的伝送を考慮に入れることができる。マッピング関数は、一般に、３Ｄ情報を与える２Ｄイメージデータの極く一部であるファイル長さを必要とするので、２Ｄイメージシーケンスへの３Ｄ情報の付加は、非常に小さいオーバーヘッドにより達成される。
【０１０２】
この場合には、３Ｄ情報は、２Ｄイメージを見るときにシーケンスの各２Ｄイメージにマッピング関数を単に適用するだけで、見る前、またはリアルタイムで、観察者の側で得られる。これは、機械学習時に見出されるマッピング関数の形式が、これらがトレーニングされた後に計算を行なうのに非常に効率的であるという事実により可能になる。一般に、トレーニングプロセスは遅くかつ資源集中的で、通常、３Ｄイメージのコンテンツを作るプロセス中にオフラインが行なわれる。トレーニングが完了すると、マッピング関数は観察者の側に伝送され、かつ２Ｄイメージの３Ｄイメージへのリアルタイム変換に適した非常に高いスループットで遂行する。
【０１０３】
本出願人自身による以前の開示は、２Ｄイメージの立体３Ｄイメージへの変換技術に関するものである。開示した変換方法は、２Ｄイメージに関連する深さマップの形成を組込むものであった。一実施形態では、深さマップはフレーム毎に手動で創出された。本願に開示した改善は、少数のキーフレームで深さマップを創出しかつ中間深さマップを計算することができる。キーフレームは全フレーム数の小さい部分を表すので、この新しい技術は、時間およびコストの両方において変換効率に大きい改善をもたらす。
【０１０４】
本願の開示の特に意図するところは、本発明が、立体イメージを作ること以外に深さマップを創出することにも適用されるようにすることである。
【０１０５】
深さマップは、ロトスコーピング（ｒｏｔｏｓｃｏｐｉｎｇ）と呼ばれている方法で、特殊効果の工業界で広く使用されていることが当業者に知られている。ライブアクションまたはコンピュータ創成イメージを２Ｄイメージ内で合成するには、２Ｄイメージの各フレームについての深さマップまたはマットを手動で作ることがしばしば必要になる。これらのマットは、付加イメージを合成して、オリジナルの２Ｄイメージ内で適当なジオメトリで移動しているように見えるようにする。上記本発明は、このようなマットを迅速に創成することができる。
【０１０６】
ライブシーンから深さマップが得られるようにするカメラが開発されていることも知られている。これらのカメラは、一般に、レーザ範囲ファインダの技術を使用しかつＬＩＤＡＲデバイスとして広く知られている。テレビジョンフレームの速度で深さマップを捕捉するには、高価で複雑なシステムが必要になる。本発明を適用することにより、ビデオフィールド速度の数分の一の速度でまたはたまに深さマップを捕捉するだけでよい、簡単なＬＩＤＡＲデバイスを構成でき、かつ本発明の技術を用いて補間することにより欠如した深さマップを作ることができる。
【図面の簡単な説明】
【図１】
フェーズ１のトレーニング方法の一実施形態を示す図面である。
【図２】
フェーズ１の変換方法の一実施形態を示す図面である。
【図３】
フェーズ２のトレーニング方法の一実施形態を示す図面である。
【図４】
フェーズ２の変換方法の一実施形態を示す図面である。
【図５】
学習プロセスが特徴空間を仕切る方法を示す図面である。
【図６】
フェーズ２での他の深さマップ創成方法を示す図面である。
【図７】
フェーズ２での個々の画素の深さを決定する他の方法を示す図面である。
【図８】
候補トレーニングサンプルをサーチする方法を示す図面である。
【図９】
多数の候補トレーニングサンプルから深さを計算する方法を示す図面である。

Claims

イメージの少なくとも１つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも１つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記深さ（単一または複数）、イメージ特性およびそれぞれの相対位置を使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第１アルゴリズムのコンフィグレーションを決定する段階と、
前記第１アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法。
イメージの少なくとも１つの画素または一部に深さを割当てるステップと、
前記イメージの少なくとも１つの画素または一部の各々についてｘ、ｙ座標およびイメージ特性を決定するステップと、
前記深さ（単一または複数）、イメージ特性およびそれぞれのｘ、ｙ座標を使用して、ｘ、ｙ座標およびイメージ特性の関数としての深さ特性を確認するための第１アルゴリズムを決定するステップと、
前記第１アルゴリズムを使用して、前記イメージの各画素または各部について深さ特性を計算するステップと、を有し、
前記深さ特性が前記イメージについての深さマップを形成することを特徴とする深さマップの作成方法。
前記イメージ特性がＲＧＢ値を含むことを特徴とする請求項１記載の方法。
前記イメージの任意の画素または一部に深さを再割当てして、不整合性を矯正するステップを更に有することを特徴とする請求項１〜３のいずれか１項に記載の方法。
前記イメージ特性が、輝度、色差、コントラストおよび空間測定値の少なくとも１つを含むことを特徴とする請求項１〜４のいずれか１項に記載の方法。
前記第１アルゴリズムは、次式
ｚ＝ｆ（ｘ、ｙ、Ｒ、Ｇ、Ｂ）
で表され、ここで、ｘおよびｙはサンプルの相対位置を定めることを特徴とする請求項１〜５のいずれか１項に記載の方法。
学習アルゴリズムを使用して前記第１アルゴリズムのコンフィグレーションを決定することを特徴とする請求項１〜６のいずれか１項に記載の方法。
前記イメージの各画素について、学習アルゴリズムは、次式
Ｚ_ｎ＝ｋ_ａ・ｘ_ｎ＋ｋ_ｂ・ｙ_ｎ＋ｋ_ｃ・Ｒ_ｎ＋ｋ_ｄ・Ｇ_ｎ＋ｋ_ｅ・Ｂ_ｎ
を計算し、ここで、
ｎは、キーフレームイメージ中の第ｎ番目の画素、
ｚ_ｎは、ｘ_ｎ、ｙ_ｎの画素に割当てられる深さの値、
ｋ_ａ〜ｋ_ｅは定数であり、前記アルゴリズムにより決定され、
Ｒ_ｎは、ｘ_ｎ、ｙ_ｎの画素の赤色成分の値、
Ｇ_ｎは、ｘ_ｎ、ｙ_ｎの画素の緑色成分の値、
Ｂ_ｎは、ｘ_ｎ、ｙ_ｎの画素の青色成分の値、
であることを特徴とする請求項７記載の方法。
前記学習アルゴリズムにランダム成分を導入してオーバートレーニングを低減させることを特徴とする請求項７または８記載の方法。
前記ランダム成分は、正または負の小さい乱数であることを特徴とする請求項９記載の方法。
前記学習アルゴリズムは、既知の画素と同様な特性を有する画素を最初に識別することを特徴とする請求項７〜１０のいずれか１項に記載の方法。
あるサーチ半径内の同様な画素をサーチすることを特徴とする請求項１１記載の方法。
前記サーチ半径は各特性について変えられることを特徴とする請求項１２記載の方法。
前記画素の深さは、同様な画素からの重み付き平均距離により決定されることを特徴とする請求項１１〜１３のいずれか１項に記載の方法。
前記重みは、距離に反比例することを特徴とする請求項１４記載の方法。
前記各特性は１組の領域に分割あるいは仕切られ、深さ値は占有された前記領域に基いて割当てられることを特徴とする請求項７記載の方法。
イメージシーケンスの少なくとも１つのフレームについての深さマップを受入れるステップと、
前記少なくとも１つの深さマップを使用して、相対位置およびイメージ特性の関数としての深さ特性を確認するための第２アルゴリズムの第２コンフィグレーションを決定するステップと、
前記第２アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法。
イメージシーケンスの少なくとも１つのフレームについての深さマップを受入れるステップと、
前記少なくとも１つの深さマップを使用して、ｘ、ｙ座標およびイメージ特性の関数としての深さ特性を確認するための第２アルゴリズムを決定するステップと、
前記第２アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有することを特徴とする前記イメージシーケンスについて一連の深さマップを作成する方法。
前記イメージシーケンスの少なくとも２つのフレームに対応する少なくとも２つの深さマップが受け入れられることを特徴とする請求項１７または１８記載の方法。
前記イメージ特性がＲＧＢ値を含むことを特徴とする請求項１７〜１９のいずれか１項に記載の方法。
前記イメージ特性が、輝度、色差、コントラストおよび空間測定値の少なくとも１つを含むことを特徴とする請求項１７〜２０のいずれか１項に記載の方法。
学習アルゴリズムを使用して前記第２アルゴリズムの前記コンフィグレーションを決定することを特徴とする請求項１７〜２１のいずれか１項に記載の方法。
前記学習アルゴリズムは、バックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズム、Ｃ４．５アルゴリズムおよびＫミーンズ（Ｋ−ｍｅａｎｓ）アルゴリズムのうちの１つであることを特徴とする請求項２２記載の方法。
前記第２アルゴリズムは、次式
Ｚ_ｎ＝ｋ_ａ・ｘ_ｎ＋ｋ_ｂ・ｙ_ｎ＋ｋ_ｃ・Ｒ_ｎ＋ｋ_ｄ・Ｇ_ｎ＋ｋ_ｅ・Ｂ_ｎ
を計算し、ここで、
ｎは、キーフレームイメージ中の第ｎ番目の画素、
ｚ_ｎは、ｘ_ｎ、ｙ_ｎの画素に割当てられる深さの値、
ｋ_ａ〜ｋ_ｅは定数であり、アルゴリズムにより決定され、
Ｒ_ｎは、ｘ_ｎ、ｙ_ｎの画素の赤色成分の値、
Ｇ_ｎは、ｘ_ｎ、ｙ_ｎの画素の緑色成分の値、
Ｂ_ｎは、ｘ_ｎ、ｙ_ｎの画素の青色成分の値、
であることを特徴とする請求項２２または２３記載の方法。
付加アルゴリズムのコンフィグレーションが、深さマップが受け入れられる各ペアのフレームについて作成されることを特徴とする請求項１７〜２４のいずれか１項に記載の方法。
イメージシーケンスの少なくとも２つのキーフレームについての深さマップを受入れるステップと、
前記深さマップを使用して、ｘ、ｙ座標およびイメージ特性の関数としての深さ特性を確認するための第２アルゴリズムを決定するステップと、
前記第２アルゴリズムを使用して、前記イメージシーケンスの各フレームについての深さマップを作成するステップと、を有し、
前記キーフレームに隣接するフレームを、隣接しないフレームより前に処理することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法。
前記隣接キーフレームが処理されたならば、当該隣接フレームを、他の深さマップを作成するためのキーフレームとして考慮されることを特徴とする請求項２６記載の方法。
前記第２アルゴリズムは、次式
Ｚ_ｎ＝ｋ_ａ・ｘ_ｎ＋ｋ_ｂ・ｙ_ｎ＋ｋ_ｃ・Ｒ_ｎ＋ｋ_ｄ・Ｇ_ｎ＋ｋ_ｅ・Ｂ_ｎ＋ｋ_ｆ・Ｔ
を計算し、ここで、
ｎは、イメージ中の第ｎ番目の画素、
ｚ_ｎは、ｘ_ｎ、ｙ_ｎの画素に割当てられる深さの値、
ｋ_ａ〜ｋ_ｆは、アルゴリズムにより予め決定され定数、
Ｒ_ｎは、ｘ_ｎ、ｙ_ｎの画素の赤色成分の値、
Ｇ_ｎは、ｘ_ｎ、ｙ_ｎの画素の緑色成分の値、
Ｂ_ｎは、ｘ_ｎ、ｙ_ｎの画素の青色成分の値、
Ｔは、シーケンス中のこの特定フレームについての時間の測定値、
であることを特徴とする請求項２２、２３、２６および２７のいずれか１項に記載の方法。
イメージシーケンスから少なくとも１つのキーフレームを選択するステップと、
少なくとも１つのキーフレーム各々について、各フレームの少なくとも１つの画素または一部に深さを割当てるステップと、
前記各キーフレームの少なくとも１つの画素または一部の各々について相対位置およびイメージ特性を決定するステップと、
前記少なくとも１つのキーフレーム各々について、前記深さ（単一または複数）、イメージ特性およびそれぞれの相対位置を使用して、相対位置および深さ特性の関数としての深さ特性を確認するための、前記少なくとも１つのフレームのための第１アルゴリズムの第１コンフィグレーションを決定するステップと、
前記第１アルゴリズムを使用して、前記少なくとも１つのキーフレーム各々の各画素または各部についての深さ特性を計算するステップと、を有し、
前記深さ特性は前記少なくとも１つの各キーフレームについての深さマップを形成し、
各深さマップを使用して、相対位置およびイメージ特性の関数としての各フレームについての深さ特性を確認するための第２アルゴリズムの第２コンフィグレーションを決定するステップと、
前記第２アルゴリズムを使用して、前記イメージシーケンスの各フレームについてそれぞれの深さマップを作成するステップと、を更に有することを特徴とする前記イメージシーケンスについての一連の深さマップを作成する方法。
前記キーフレームに隣接するフレームは、非隣接フレームより前に処理されることを特徴とする請求項２９記載の方法。
前記隣接フレームを処理した後に、当該隣接フレームが更なる処理のためのキーフレームとして考慮されることを特徴とする請求項３０記載の方法。
一連のフレームと一緒に少なくとも１つのマッピング関数を伝送することを含む一連のフレームを符号化する方法において、マッピング関数は、相対位置およびイメージ特性の関数として深さ特性を確認するアルゴリズムを有していることを特徴とする方法。
前記イメージ特性がＲＧＢ値を含むことを特徴とする請求項３２記載の方法。
前記イメージ特性が、輝度、色差、コントラストおよび空間測定値の少なくとも１つを含むことを特徴とする請求項３２または３３記載の方法。
学習アルゴリズムを使用して前記マッピング関数を決定することを特徴とする請求項３２〜３４のいずれか１項に記載の方法。
前記学習アルゴリズムは、バックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）アルゴリズム、Ｃ４．５アルゴリズムおよびＫミーンズ（Ｋ−ｍｅａｎｓ）アルゴリズムのうちの１つであることを特徴とする請求項３５記載の方法。
前記マッピング関数は、次式
Ｚ_ｎ＝ｋ_ａ・ｘ_ｎ＋ｋ_ｂ・ｙ_ｎ＋ｋ_ｃ・Ｒ_ｎ＋ｋ_ｄ・Ｇ_ｎ＋ｋ_ｅ・Ｂ_ｎ
を計算し、ここで、
ｎは、キーフレームイメージ中の第ｎ番目の画素、
ｚ_ｎは、ｘ_ｎ、ｙ_ｎの画素に割当てられる深さの値、
ｋ_ａ〜ｋ_ｅは定数であり、アルゴリズムにより決定され、
Ｒ_ｎは、ｘ_ｎ、ｙ_ｎの画素の赤色成分の値、
Ｇ_ｎは、ｘ_ｎ、ｙ_ｎの画素の緑色成分の値、
Ｂ_ｎは、ｘ_ｎ、ｙ_ｎの画素の青色成分の値、
であることを特徴とする請求項３５または３６記載の方法。
付加アルゴリズムは、深さマップが受け入れられる各ペアのフレームについて作成されることを特徴とする請求項３２〜３７のいずれか１項に記載の方法。