JP2018513493A - ポーズ決定のための非マッチング特徴に基づく視覚動き推定 - Google Patents
ポーズ決定のための非マッチング特徴に基づく視覚動き推定 Download PDFInfo
- Publication number
- JP2018513493A JP2018513493A JP2017554575A JP2017554575A JP2018513493A JP 2018513493 A JP2018513493 A JP 2018513493A JP 2017554575 A JP2017554575 A JP 2017554575A JP 2017554575 A JP2017554575 A JP 2017554575A JP 2018513493 A JP2018513493 A JP 2018513493A
- Authority
- JP
- Japan
- Prior art keywords
- features
- visual
- cost function
- value
- motion parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/97—Determining parameters from multiple pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
カメラのポーズを決定する方法は、シーンの第1の画像とシーンの第2の画像の両方を取得することを含み、関第1および第2の画像はカメラにより撮像される。特徴の第1のセットは前記第1の画像から抽出され特徴の第2のセットは特徴の第2のセットから抽出される。方法は、第1のセットの特徴を第2のセットの特徴とマッチングすることなしに特徴の第1のセットと特徴の第2のセットに基づいて視覚−動きパラメータの値を計算することを含む。方法は、少なくとも視覚動きパラメータの値に基づいてカメラのポーズを決定することを含む。
Description
[0001]本特許出願は、本願の譲受人に譲渡され、参照によって本明細書に明確に組み込まれる、2015年4月20日に出願された「NON-MATCHING FEATURE-BASED MOTION ESTIMATION」(非マッチング特徴に基づいた動き推定)と題する、米国仮出願第62/149,850号の利益を主張する。
[0002]本開示は、一般にコンピュータビジョン(computer vision)に基づいた動き推定アプリケーションに関し、特に、排他的ではないが、特徴マッチングなしに視覚動き(visual motion)に基づいてポーズを決定することに関する。
[0003]モバイルワイヤレス通信デバイス、パーソナルデジタルアシスタンツ(PDAs)、ラップトップコンピュータ、デスクトップコンピュータ、デジタルカメラ、デジタルレコーディングデバイス等を含む広範囲の電子デバイスは、多目的な(versatile)撮像能力を提供するためにコンピュータビジョン技術を採用する。これらの能力はランドマークを認識し、友達および/または見知らぬ人および種々の他のタスクを識別することにおいてユーザを補助する機能を含むことができる。
[0004]モバイルフォンまたは他のモバイルプラットフォーム上でオーグメンテッドリアリティ(Augmented Reality)(AR)を可能にするための課題は、リアルタイムにカメラポーズ(camera poses)を推定する(estimating)という問題である。ARアプリケーションに関するポーズ推定は非常に要求が高い要件(demanding requirements)を有する:それは完全な6の自由度を配信しなければならず、与えられた座標系(coordinate system)に対して絶対測定結果(absolute measurements)を与えなければならず、非常に堅固(robust)でなければならず、およびリアルタイムで実行されなければならない。関心があるのは、コンピュータビジョン(CV)に基づいたアプローチを用いてカメラポーズを計算するための方法である。
[0005]いくつかの典型的なオーグメンテッドリアリティシステムは画像ピクセルデータから抽出された特徴の動きを追跡することにより視覚動き推定を実行することによりポーズを決定しようと試みる。しかしながら、モバイルプラットフォーム上で公知の視覚−動き技術をインプリメントすることを困難にさせる計算上の複雑さのような多くの問題がある。
[0006]視覚動き推定はある位置から別の位置へカメラまたは設定点がどのように移動したかを決定すること言うことができる(described as)。一般的な視覚−動き方法に典型的に存在する主要なコンポーネントは連続的なあるいはそれに続く画像から抽出された特徴間の一致をどのように得るかである。しかしながら、特徴マッチングは計算上高価であり、エラーを起こしやすい手続であり、RANSACと結合された複雑な特徴記述子(例えば、SIFTまたはSURF)を介してしばしばアドレスされる(addressed)。そのような一般的な方法は典型的に、幸運であれば、一致の十分に良好なセットが見つかるまで多くの可能な特徴一致をサンプルする(すなわち、トライする)。
[0007]本開示の観点はカメラのポーズを決定するための方法、モバイルデバイスおよびコンピュータ可読媒体を含む。
[0008]たとえば、少なくとも1つの態様によれば、カメラのポーズを決定する方法はシーンの第1の画像とシーンの第2の画像の両方を取得することを含む。この場合第1の画像と第2の画像はカメラにより撮像される。特徴の第1のセットは第1の画像から抽出され、特徴の第2のセットは特徴の第2のセットから抽出される。この方法は、第1のセットの特徴と第2のセットの特徴をマッチングさせることなく特徴の第1のセットと特徴の第2のセットにもとづいて視覚−動きパラメータの値を計算することを含む。方法はまたは視覚動きパラメータの値に少なくとも基づいてカメラのポーズを決定することを含む。
[0009]他の態様によれば、モバイルデバイスはカメラ、プログラムコードを記憶するのに適したメモリ、およびプログラムコード内に含まれる命令をアクセスし実行するためにメモリに結合された処理ユニットを含む。命令はモバイルデバイスに、(1)カメラでシーンの第1の画像を撮像する、(2)カメラでシーンの第2の画像を撮像する、(3)第1の画像から特徴の第1のセットを抽出する、(4)第2の画像から特徴の第2のセットを抽出する、(5)第1のセットの特徴と第2のセットの特徴をマッチングさせることなく特徴の第1のセットと特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算する、および(6)少なくとも視覚−動きパラメータの値に基づいてカメラのポーズを決定する、ことを指示するように構成される。
[0010]さらに別の態様によれば、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、カメラのポーズを決定するために記憶されたプログラムコードを含む。プログラムコードは、(1)シーンの第1の画像を取得する、ここにおいて第1の画像はカメラにより撮像される、(2)シーンの第2の画像を取得する、ここにおいて、第2の画像はカメラにより撮像される、(3)第1の画像から特徴の第1のセットを抽出する、(4)第2の画像から特徴の第2のセットを抽出する、(5)第1のセットの特徴と第2のセットの特徴をマッチングすることなく特徴の第1のセットおよび特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算する、および(6)視覚−動きパラメータの値に少なくとも基づいてカメラのポーズを決定する、ための命令を含む。
[0011]別の態様によれば、モバイルデバイスは、シーンの第1の画像を取得する手段とシーンの第2の画像を取得する手段を含み、第1および第2の画像はモバイルデバイスのカメラにより撮像される。モバイルデバイスはまた第1の画像から特徴の第1のセットを抽出する手段とならびに第2の画像から特徴の第2のセットを抽出する手段を含む。第1のセットの特徴と第2のセットの特徴をマッチングすることなく特徴の第1のセットと特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算する手段と、モバイルデバイスにさらに含まれるのは、視覚−動きパラメータの値に少なくとも基づいてカメラのポーズを決定する手段である。
[0012]添付の図面は、本発明の実施形態の説明を助けるために提示され、これら実施形態の限定としてではなくその例示のためだけに提供される。
[0013]カメラのポーズを決定する例示プロセスを図示するフローチャート。
[0014]区別できるビューポイントからのいくつかの画像の撮像とそれに続く特徴の抽出を例示する図。
[0015]視覚−動きパラメータに関する値を計算する例示プロセスを図示するフローチャート。
[0016]コスト関数を最適化するプロセスを図示するフローチャート。
[0017]複数の候補動きモデルを選択するプロセスを例示するフローチャート。
[0018]図5はここに説明されたプロセスを実行するように構成されたモバイルデバイスを例示するブロック図。
[0019]モバイルデバイスのポーズを決定するシステムの機能ブロック図。
[0020]ここに説明されたプロセスを実行するように構成されたモバイルデバイス装置を例示する図。
[0021]本発明の観点は下記の説明において開示され、および関連する図面は、本発明の特定の実施例に関する。代わりの実施例は、本発明の範囲から逸脱することなく考案され得る。さらに、本発明の周知の要素は、詳細に説明されていないあるいは本発明の関連のある詳細を曖昧にしないために省略されるであろう。
[0022]用語「例示的」は、「例、実例、または図解としての役割を果たすことを」を意味するためにここで用いられる。「例示的な」とここに記載された任意の実施例は、他の実施例よりも好適である、あるいは利点があると必ずしも解釈されるべきではない。同様に、「本発明の実施形態」は、本発明の全ての実施形態が、説明される特徴、利点、あるいは動作モードを含んでいるということを要件としているわけではない。
[0023]ここで用いられた用語は、特定の具体例のみを記載する目的のためのものであって、ならびに本発明の実施例を限定することを意図するものではない。本明細書において使用されるように、単数形「a」、「an」、「the」は、そうではないと明確し示されていない限り、複数形も含むように意図されている。「備える」、「備えている」、「含む」、および/または「含んでいる」という用語は、本明細書で使用される場合、述べられる特徴、整数、ステップ、動作、要素、および/または構成要素の存在を特定するが、1つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および/またはそれらのグループの存在または追加を妨げないことはさらに理解されるだろう。
[0024]さらに、多くの実施例が、例えば、計算デバイスの要素によって実行される一連の動作の観点から説明される。ここで説明される種々の動作は、特定の回路(例えば、アプリケーション特定集積回路(ASIC))、1つまた複数のプロセッサによって実行されるプログラム命令、またはその両方の組合せによって実行され得ることが認識されるだろう。それに加えて、本明細書において説明されるアクションのシーケンスは、実行されると、関連付けられたプロセッサに本明細書において説明される機能を実行させる、格納された対応するコンピュータ命令群のセットを有するコンピュータ読取可能な記憶媒体の任意の形態において全体的に実現されるものと見なされうる。したがって、本発明の種々の観点は、多数の異なる形式において具体化され得、その全てが請求された主題の範囲内であると考えられる。さらに、ここで説明される実施例のそれぞれについて、任意のこういった実施例の対応形式は、例えば、説明された動作を実行する「ように構成された論理」として説明され得る。
[0025]特徴に基づいた方法は幾何学的なコンピュータビジョンにおいて大きな役割を有する。特徴の利用可能性の他に、これらの方法は、潜在的な外れ値(outliers)が堅固な統計値(robust statistics)からの手続きを介して処理されなければならないという警告(caveat)を備えて、特徴対応が利用可能であるという仮定にさらに依存する。本開示の教示によれば、特徴対応の初期確立の要件を除去するポーズ決定プロセスが提供される。一態様において、特徴対応の置換グループ(a permutation group)のエレメントに対してマージナライゼーション(marginalization)を実行することにより成就される。
[0026]例えば、ここで説明されるプロセスの少なくともいくつかのある態様は、2つの特徴セット間のすべての潜在的な一致(及び不一致)に対してマージナライズする(marginalize)(たとえば、平均化する)ことによる特徴一致のサーチをバイパスする。ネイティブアプローチ(a native approach)は克服できない組み合わせ問題(an insurmountable combinatorial problem)に直面するであろう。したがって、ここに記載されたプロセスは、マージナライゼーション(例えば、平均化)手続きに関するすぐれた近似値を与える近似プロセスの使用を介してこの問題を解決する。特徴一致を確立する要件を排除するほかに、本プロセスの態様はまた外れ値(outliers)、すなわち如何なる他の特徴と一致せず単にスプリアス(spurious)の入力ポイントである特徴を取り扱うように任意に構成されることができる。
[0027]一般に、本開示の態様は、関心のある視覚−動きパラメータ(例えば、回転と変換(translation)、「基本マトリクス」、「ホモグラフィ(homography)」、「アフィン変換」等)の所定値θに関するセットY(例えば、列)における任意の所定の特徴に対するセットX(例えば、行)からの任意の所定の特徴をマッチングするコストをそのエントリが含むマトリクスを最初に作成することを含む。マトリクスはまた、潜在的な外れ値に関する特殊エントリを含む、それは、原則として任意の特徴であり得る。特徴一致に対するマージナライゼーションは固有の行および列のエレメントの積の全ての置換を加算することを含むことができ、それは組み合わせ的爆発(a combinatorial explosion)を引き起こすであろう。しかしながら、ここに説明される態様は、この動作の結果に関するすぐれた推定値を生成することができ、それにより値θを最適化するように最小化することができるコスト関数を提供するプロセスを提供する。これらのプロセスの複数のインプリメンテーションは非常に厳しい状況下(under very harsh conditions)(すなわち、多数の外れ値、雑音データ、貧弱な初期化等)で視覚−動きパラメータの値θの推定値を取得することが可能である。
[0028]例示として、図1は、視覚−動きパラメータの値を派生させるために特徴マッチングのインプリメンテーションなしに視覚−動き推定を含むカメラのポーズを決定するプロセス100を例示するフローチャートである。プロセスブロック102はシーンの第1および第2の画像を取得することを含む。一例において、第1および第2の画像は、カメラの動きおよび/またはシーンの動きはそれ自体決定されることができるように区別できるビューポイントから取られたカメラにより撮像されたシーンの画像である。プロセスブロック104は第1の画像からの特徴の第1のセットの抽出を含み、プロセスブロック106は第2の画像から特徴の第2のセットの抽出を含む。
[0029]図2を参照すると、区別できるビューポイントからのいくつかの画像を撮像することを例示する図である。たとえば、図2はいくつかの区別できるビューポイント(例えば、V1およびV2)からの1つまたは複数の物体204を含むシーンのいくつかの画像(例えば、画像1および画像2)を撮像するカメラ202を例示する。図2は2つの区別可能なビューポイントから取られた2つの画像を例示するのみであるが、本開示の態様は3以上の画像を撮像することを含むことができる。いくつかの例において、種々のカメラ202の種々の位置属性は距離、ピッチ(pitch)、およびヨー(yaw)のように、画像1の撮像と画像2の撮像との間で変化されることができる。他の例において、物体204の位置属性は変化されたがカメラ202の位置は同じままである。さらに、他の例において、カメラ202と物体204の両方の位置属性は画像1と画像2の間で変化された。
[0030]図2はまた撮像された画像からの特徴の抽出を例示する(すなわち、プロセスブロック104および106)。一例において、特徴抽出は特徴のそれぞれのセットを抽出するために各画像に、スケール不変特徴変換(Scale Invariant Feature Transform)(SIFT)アルゴリズムのような、ラプラシアンオブガウス(Laplacian of Gaussian)(LoG)またはディファレンスオブガウシアン(Difference of Gaussians)(DoG)に基づいた特徴検出器を適用することを含む。例として、図2は画像1から抽出された特徴206の各々を含む特徴の第1のセット208を例示し、一方特徴の第2のセット212は画像2から抽出された特徴210の各々を含む。ここで使用されるように特徴は一般的に少なくとも2つの画像間でマッチングされることが可能である検出されるいかなるものにも言及することができ、この場合、十分な数のこれらの一致が発見された場合、変換(translation)または回転のような視覚−動きパラメータの計算が可能になる。一例において、特徴は、ライン、エッジ、またはリッジ(ridge)を含むことができる。別の例において、特徴はコーナー(corner)、ブロブ(blob)またはポイント(point)のようなローカライズされた関心点を含むことができる。さらに他の例において、特徴は、関心点または関心点を取り囲む領域の「キーポイントロケーション」および「ディスクリプタ(descriptor)」を含む。以下のさらに詳細に記載されるように、ここに使用される抽出された特徴は画像間でマッチさせることができるけれども、ここで説明される実施形態は視覚−動きパラメータの値を決定するためにそのような特徴間のマッチ(matches)(例えば、対応(correspondences))を実際に見つけるプロセスを回避する。
[0031]図1に戻ると、プロセス100は次にプロセスブロック108に進み、そこで、視覚−動きパラメータの値は特徴の第1および第2のセットに基づいて計算されるが、第1のセットの特徴と第2のセットの特徴とのマッチングなしにである。計算された視覚−動きパラメータは1つまたは複数のホモグラフィ(homography)、基本マトリクス、ポイントの2つのセット間のリジッド変換(rigid transformation)、回転、変換、必須マトリクス(essential matrices)、純回転(pure rotation)、アフィン変換、および射影変換の1つまたは複数を含むことができる。プロセスブロック110において、カメラのポーズ(例えば、図2のカメラ202)は少なくとも視覚−動きパラメータの値に基づいて決定される。
[0032]図3は、視覚−動きパラメータに関する値を計算する例示プロセス300を図示するフロー―チャートである。プロセス300は図1のプロセスブロック108の1つの可能なインプリメンテーションである。プロセスブロック302は、特徴の第1のセット内の各特徴を特徴の第2のセットの各特徴とマッチングするコスト関数を導き出すことを含む。一例において、導出されたコスト関数は特徴の2つのセット間のすべてのもっともらしいマッチ(plausible match)を決定するコストである。次に、プロセスブロック303において、視覚−動きパラメータの第2のセットの特徴に特徴の第1のセットからの特徴をマッチさせるコストを符号化するマトリクスが形成される。たとえば、マトリクスは、行に配列された第1のセットからの特徴と、列に配列された第2のセットからの特徴を含むことができ、ここで、マトリクスは、視覚−動きパラメータの任意の所定の値に関して第2のセット(例えば列)内の特徴に第1のセット(例えば行)からの特徴をマッチさせるコストを符号化する。したがって、マトリクスを作成することはθ(すなわち、視覚−動きパラメータの値)が与えられるθ(given θ)すべての可能なマッチを表すことができる。外れ値を処理するために特別なエントリを追加する任意のステップが含まれることができる。すなわち、第1または第2のいずれかのセット内の特徴がマッチを有さない可能性に対処する(account for)さらなるコストを用いて行、列またはその両方においてオーグメント(augmented)されることができる。マトリクスをスパース(sparse)させることを含む、マッチについての情報がすでに利用可能である場合にはさらなる任意のステップが含まれることができる。
[0033]一実施形態において、プロセスブロック302においてコスト関数を導出することはマトリクスのパーマネント(a permanent)を決定することを含むことができる。マトリクスのパーマネントを推定するために近似方法が使用されることができる。
[0034]次に、プロセスブロック304において、コスト関数が最適化される、ここで、視覚−動きパラメータの値の決定はつぎに最適化されたコスト関数に基づいて行われる。一例において、コスト関数を最適化することはマトリクスのパーマネントを最大化することによりθを最適化することを含むここで、パーマネントはデターミナント(determinant)のように見え、負の符号(negative signs)は無く、マッチに対するマージナライゼーションと同等である。
[0035]図4Aはコスト関数を最適化する例示プロセス400を図示するフローチャートである。プロセス400は図3のプロセスブロック304の1つの可能なインプリメンテーションである。プロセスブロック402は推定のための複数の候補動きモデルを選択することを含む。候補動きモデルは物体の異なる可能な動きに関してシーンの画像がどのように変化した可能性があるかを記載するモデルである。プレーナシーンの動きを決定するための候補動きモデルの一例が仮定されることができ、ここで、候補動きモデルはシーンの画像(例えば、第1の画像)の2D変換である。さらに(even still)、3Dシーンの動きを決定するとき、候補動きモデルの一例が仮定される(assumed)ことができる、ここで、候補動きモデルはその3D位置とオリエンテーション(orientation)に依存してその態様を定義する。図4Bは複数の候補動きモデルを選択するプロセス408を例示するフローチャートである。プロセス408は図4Aのプロセスブロック402の1つの可能なインプリメンテーションである。プロセスブロック410において、線形近似はマトリクスのパーマネント(例えば、図3のプロセスブロック303)に対して適用される。つぎに、プロセスブロック412において、コスト関数のバージョン(例えば、簡単化されたバージョン)を解くことにより視覚−動きパラメータの値に関して第1の近似値が取得される。プロセスブロック414において、コスト関数が評価される複数の候補動きモデルに第1の近似値が追加される。明らかなように、プロセス408は視覚−動きパラメータの複数の値に関していくつかの近似値に関して反復され得る。
[0036]図4Aを参照すると、プロセスブロック404において、複数の候補動きモデル(すなわち、プロセスブロック402で選択された複数の候補動きモデル)の各々に関してコスト関数値が計算される。したがって、プロセスブロック404は各候補動きモデルに関する特徴の2つのセット間のすべてのもっともらしいマッチを決定するコストを計算することを含む。つぎに、プロセスブロック406において、視覚−動きパラメータの値は複数のコスト関数値に基づいて決定される。一例において、視覚−動きパラメータの値を決定することは値に関連づけられた最良の計算されたコスト関数に基づいて決定される。一例において、最低のコスト関数値は最良のコスト関数値である。
[0037]上述したプロセス100、300および400は特徴マッチングの必要性なしに視覚−動きパラメータの値に基づいてカメラのポーズを決定するための例示プロセスの一般的な概要(general overview)を提供する。コスト関数導出のためのさらなる詳細並びに例示最適化プロシージャが以下に記載される。
[0038]一例において、θを視覚−動きパラメータの値とし、XおよびYを2つの異なる画像上で観察される特徴の有限の集合(finite collection)とする(例えば、Xは第1の画像から抽出された特徴の第1のセット208に対応し、Yは第2の画像から抽出された特徴の第2のセット212に対応することができる)。したがって、ここで説明される態様は尤度関数(X, Y/θ)を最大化しようと試みることができる。
[0039]1つの態様において、プロセスを簡単化するための手段として、XおよびYの候補は同じでありそれらの共通値はNで表示されることができると仮定されることができる。さらに外れ値の欠如があると仮定される。成されることができる他の仮定は尤度関数
の存在である。ここで、各I=1,…Nに関してペア(Xi, yσ(i))は特徴xi∈Y間の対応(correspondence)である。σは(離散)置換グループSNの任意のエレメントである。尤度関数尤度関数p(X,Y|θ)の導出は以下の通りである。
[0040]ポイントマッチに対するマージナライゼーション:
[0041]「ラべリング独立性」
[0042]標準独立性仮定:
[0043]式(1)の右辺は単に攪乱母数パラメーター(a nuisance parameter)としてσの存在下で左辺を書き換えたものである。式(2)において、σの所定の選択はXおよびYの特徴間の対応の選択に等しいことが明確にされる。式(3)を取得するために使用される「ラべリング独立性」は、特徴についての情報が存在しない場合、(Pσ|θ)はXまたはYに対する依存性を伝えない(does not carry)という事実を単に述べている。1つの例において、式(1−4)は図3のプロセッサ300のブロック302を処理するために関連して上述したコスト関数の可能なインプリメンテーションである。
[0044]次に、マッチに対するマージナライゼーションは、以下の通り、Ai,j:=p((xi,yσ(i))|θ)であるようにN×NマトリクスAを定義することにより決定されることができる。
これは、1/N!および項sign(σ)を別として式(4)と同じである。
Aのデターミナントと式(4)との間の類似性は一致(a coincidence)ではない。任意の所定のN×NマトリクスAに関して、式:
Aのデターミナントと式(4)との間の類似性は一致(a coincidence)ではない。任意の所定のN×NマトリクスAに関して、式:
はAのパーマネント(the permanent)を定義し、デターミナント(the determinant)とパーマネントの両方は正方行列(square matrix)のイマナント(immanant)の特殊な例である。デターミナントは、Nについての多項式時間(polynomial time)で計算されることができ、このパーマネントの計算に関する最速アルゴリズムは(0,1)マトリクスのより簡単なケースにおいてさえもO(N2N)で実行し、問題は、#P−コンプリート(complete)計算上の複雑性(computational-complexity)クラスに属することが示された。大雑把にいえば、#Pコンプリートクラス(#P-complete class)は、カウントの問題(「いくつかあるか?」)であるのに対しNPコンプリートは決定問題(「何かあるか?」)である。
[0045]パーマネントの正確な計算は数百のNの値に関して実現困難であり得、特に視覚−動きアプリケーションの場合にはそうである。従って、本開示の態様はマトリクスのパーマネントを推定する近似方法をインプリメントすることができる。第1の例示近似方法は、二部グラフ(bipartite graphs)の完全マッチの近似カウントに基づき、一方別の近似方法はデターミナントを用いたパーマネントの不偏の(unbiased)推定量(estimators)に基づく。
[0046]たとえば、近似方法は、0−1マトリクスに関するパーマネントの計算と二部グラフのパーフェクトマッチのカウントとの間の等価(equivalence)に基づくカウントスキームを介した近似を含むことができる。そのような方法の中心思想は式(6)のσの各値を、XおよびYにおける頂点(vertices)を備えた二部グラフのパーフェクトマッチとして解釈することである;パーフェクトマッチに対して均一にサンプリングし、サンプリングされたマッチがグラフのエッジセット(edge set)に対するサブセットであるイベントの相対頻度をカウントすることによりパーマネントの推定量が生成される。
[0047]非負数エントリを備えた任意のマトリクスへの一般化(generalization)は、エッジの重みに従って各サンプルを再重みづけすることを通して行われるが、オリジナル問題においてさえも、サンプリングの均一性を確実にするための方法が使用される。
[0048]パーマネントを近似する別の方法はデターミナントを使用する。別のマトリクスAのパーマネントの不偏の推定量を計算するためにそのデターミナントが使用されることができるマトリクスBを生成することを得ようとする(aiming at)この方法は、パーマネントとデターミナントとの間の類似性を利用する。
[0049]上述した式(1−6)の公式化(formulation)は同じ濃度(cardinality)を有する特徴セットを仮定し、任意の特定の特徴対応にコミット(commit)しないけれども、外れ値、すなわち、他のセット内のいずれの特徴にもマッチしない特徴の存在を認めもしない。異なる濃度のセットを有することによりさらに大きな濃度を有するセットの少なくともいくつかの特徴は対応を有さないであろうことが保証されるので、これらの2つの問題は一緒に解決されることができる(may be addressed jointly)。
[0050]たとえば、エレメントがシンボルxiおよびyjでありi=1+M,…,M+Nでありj=N+1,…M+NであるセットX’およびY’を定義する。i=1,…,Mの場合、特徴xi∈XはYにおける対応を有さない場合外れ値であり、これはY’におけるシンボルyi+Nをxiとペアリングすることにより表されれることができる。さらに、この特徴が外れ値であるときxiの確率密度はp(xi, yi+N|θ)として表されることができる。同等操作(equivalent operation)は、Yにおける外れ値を示すためにYおよびX’のエレメントで実行されることができ、それによりこの特徴がはずれ値であるときj=1,…Nの場合にyjの確率密度p(xj+M, yj|θ)を定義することができる。
[0051]図5はここに開示されたプロセスを実行することができるモバイルデバイス500を図示する機能ブロック図である。一態様において、モバイルデバイス500は上述したプロセス100のような特徴マッチングの必要性なしに視覚−動きパラメータの値に基づいてポーズ決定を実行することができるコンピュータである。モバイルデバイス500は、カメラ502並びにカメラ502により撮像された画像を表示することができるディスプレイ522を含むオプショナルユーザインタフェース506を任意に含むことができる。ユーザインタフェース506はまたユーザが情報をモバイルデバイス500に入力することができるキーパッド524または他の入力デバイスを含むことができる。所望であれば、キーパッド524はタッチセンサを備えたディスプレイ522にバーチャルキーパッドをディスプレイ522に一体化(integrate)することにより除去することができる。ユーザインタフェース506はまたマイクロフォン526およびスピーカ528を含むことができる。
[0052]モバイルデバイス500はまたもし存在するなら、カメラ502とユーザインタフェース506に接続され通信するコントロールユニット504を含む。コントロールユニット504はカメラ502からおよび/またはネットワークアダプタ516から受信された画像を受信し処理する。コントロールユニット504は処理ユニット508、関連づけられたメモリ514、ハードウエア510、ファームウェア512、ソフトウェア515およびグラフィックエンジン520により提供されることができる。
[0053]コントロールユニット504はさらに特徴抽出器(feature extractor)517および動き検出器(motion detector)518を含むことができる。特徴検出器517は図1の処理ブロック104および106を参照して上述したような1つまたは複数の特徴抽出プロシージャを実行するように構成されることができる。動き検出器518は、特徴マッチングの必要性なしに視覚−動きパラメータの値を計算することを含む、ポーズ決定に関して上述した1つまたは複数のプロセス100、200または300を実行するように構成されることができる。処理ユニット508、特徴抽出器517および動き検出器518は明瞭さのために別箇に図示されているが、単一ユニットであってもよくおよび/または処理ユニット508内で実行されるソフトウエア515内の命令に基づいて処理ユニット508内にインプリメントされることができる。処理ユニット508、並びに特徴抽出器517および動き検出器518は、必ずしも必要ではないが、1つまたは複数のマイクロプロセッサ、エンベッデドプロセッサ(embedded processors)、コントローラ、特定用途集積回路(ASICs)、デジタルシグナルプロセッサ(DSPs)等を含むことができる。プロセッサおよび処理ユニットという用語は特定のハードウエアよりはむしろシステムによりインプリメントされた機能を記載する。さらに、ここで使用されるように、「メモリ」という用語は、装置500に関連づけられたロングターム(long term)、ショートターム(short term)または他のメモリを含む任意のタイプのコンピュータ記憶媒体に言及し、メモリのいかなる特定のタイプまたはメモリの数、またはメモリが記憶されるメディアのタイプに限定されない。
[0054]ここに記載されるプロセスはアプリケーションに応じて種々の手段によりインプリメントされることができる。例えば、これらのプロセスはハードエウア510、ファームウェア512、ソフトウエア515またはそれらの任意の組み合わせでインプリメントされることができる。ハードウエアインプリメンテーションの場合、処理ユニットは1つまたは複数の特定用途集積回路(ASIC)、デジタルシグナルプロセッサ(DSPs)、デジタルシグナルプロセッシングデバイス(DSPDs)、プログラマブルロジックデバイス(PLDs)、フィールドプログラマブルゲートアレイ(FPGAs)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、ここに記載された機能を実行するように設計された他の電子ユニット、またはそれらの組み合わせであり得る。
[0055]ファームウェアおよび/またはソフトウェアインプリメンテーションの場合、プロセスはここに記載された機能を実行するモジュール(例えば、手続、機能等)でインプリメントされることができる。命令を有形的に(tangibly)具現化するコンピュータ可読媒体はここに記載されたプロセスをインプリメントする際に使用されることができる。例えば、プログラムコードはメモリ515に記憶され処理ユニット508により実行されることができる。メモリは処理ユニット508内部にあるいは外部にインプリメントされることができる。
[0056]ファームウェアおよび/またはソフトウェアでインプリメントされる場合、機能はコンピュータ可読媒体上の1つまたは複数の命令またはコードとして記憶されることができる。複数の例は、データ構造で符号化された非一時的コンピュータ可読媒体およびコンピュータプログラムで符号化されたコンピュータ可読媒体を含む。コンピュータ可読媒体は物理コンピュータ記憶媒体を含む。プログラム媒体はコンピュータによりアクセス可能な任意の利用可能な媒体であり得る。例として、限定されるものではないが、そのようなコンピュータ可読媒体は、命令またはデータ構造の形態で所望のプログラムコードを記憶するように使用されることができ、コンピュータによりアクセスされることができるRAM、ROM、フラッシュメモリ、EEPROM(登録商標)、CD−ROMまたは他の光学ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または任意の他の媒体;ここで使用されるようなディスク(disk)およびディスク(disc)はコンパクトディスク(CD)、レーザーディスク(登録商標)、光学ディスク、デジタルバーサタイルディスク(DVD)、フロッピー(登録商標)ディスク、およびブルーレイディスク(disc)を含み、ここで、ディスク(disk)は通常データを磁気的に再生し、一方、ディスク(disc)はレーザで光学的にデータを再生する。上述した組み合わせはコンピュータ可読媒体の範囲内に含まれるべきである。
[0057]図6はモバイルデバイス602のポーズを決定するためのシステム600の機能ブロック図である。図示されるように、システム600は、1つまたは複数の物体614を含むシーン613の画像を撮像することができるカメラ(現在の表示(current view)では示されない)カメラを含む例示モバイルデバイスを含む。
[0058]モバイルデバイス602はカメラにより撮像された画像を示すためのディスプレイを含むことができる。図5のモバイルデバイス500はモバイルデバイス602の1つの可能なインプリメンテーションである。モバイルデバイス602はまた、例えば衛星位置決めシステム(SPS)からの信号を用いてその緯度および経度を決定することに基づいたナビゲーションのために使用されることができる、それは、セルラタワー(複数の場合もある)604またはワイヤレスコミュニケーションアクセスポイント605を含む位置を決定するための任意の他の適切なソースを含む。モバイルデバイス602はまたモバイルデバイス602の方位(orientation)を決定するために使用されることができるデジタルコンパス、加速度計またはジャイロスコープのような方位センサを含むことができる。
[0059]ここで使用されるように、モバイルデバイスはセルラまたは他のワイヤレスコミュニケーションデバイス、パーソナルコミュニケーションシステム(PCS)デバイス、パーソナルナビゲーションデバイス(PND)、パーソナルインフォメーションマネージャ(PIM)、パーソナルデジタルアシスタント(PDA)、ラップトップまたはナビゲーション位置決め信号のようなワイヤレスコミュニケーションおよび/またはナビゲーション信号を受信することができる他の適切なモバイルデバイスのようなデバイスに言及する。「モバイルデバイス」という用語はまた、衛星信号受信、支援データ受信および/または位置関連処理がデバイスでまたはPNDで生じるかどうかに関わらず、ショートレンジワイヤレス、赤外線、有線接続、または他の接続によるような、パーソナルナビゲーションデバイス(PND)で通信するデバイスを含むように意図される。また、「モバイルデバイス」は、インターネット、Wi−Fiまたは他のネットワークを介するような、サーバと通信することができるワイヤレスコミュニケーションデバイス、コンピュータ、ラップトップ等を含み、衛星信号受信、支援データ受信および/または位置関連処理がデバイスで、サーバで、またはネットワークに関連づけられた他のデバイスで生じるかどうかに関係しないすべてのデバイスを含むように意図される。さらに、「モバイルデバイス」はまた、オーグメンテッドリアリティ(AR)、バーチャルリアリティ(VR)、および/またはミックスリアリティ(MR)アプリケーションを可能にするすべての電子デバイスを含むことができる。上記任意の動作可能な組み合わせも「モバイルデバイス」とみなされる。
[0060]衛星位置決めシステム(SPS)はトランスミッタから受信された信号に少なくとも部分的に基づいて地球上または地球上空のロケーションをエンティティが決定することを可能にするように位置されたトランスミッタのシステムを典型的に含む。そのようなトランスミッタは典型的にチップのセット番号(a set number)の反復疑似ランダムノイズ(PN)コードでマークされた信号を典型的に送信し、地上ベースのコントロールステーション、ユーザ機器および/またはスペースビークルに位置されることができる。特定の例において、そのようなトランスミッタは地球周回軌道衛星ビークル(SVs)6906上に位置されることができる。例えば、全地球測位システム(GPS)、ガリレオ(Galileo)、グロナス(Glonass)またはコンパス(Compass)のようなグローバルナビゲーションサテライトシステム(GNSS)のコンステレーション内のSVは、コンステレーション内の他のSVsにより送信されたPNコードから区別可能なPNコードでマークされた信号を送信することができる(例えば、GPSにおいてみられるように各衛星に対して異なるPNコードを用いてまたはグロナスにおいてみられるように異なる周波数に関して同じコードを用いて)。
[0061]ある態様に従って、ここに提供される技法はSPSに関するグローバルシステム(例えば、GNSS)に限定されない。例えば、ここに提供される技法は、例えば、日本上空の準天頂衛星システム(QZSS)、インド上空のインド地域ナビゲーション衛星システム(IRNSS)、中国上空のBeidou等のような種々の地域システム、および/または1つまたは複数のグローバルおよび/または地域ナビゲーション衛星システムに関連づけられることができる、さもなければそれらと共に使用するために可能にされる種々のオーグメンテッドシステム(例えば、衛星ベースオーグメンテッドシステム(SBAS))に適用されるかさもなければそれらに用いることが可能にされることができる。例示であり限定されないが、SBASは、例えば、ワイドエリアオーグメンテッドシステム(WASS)、ヨーロッパ静止衛星航法オーバレイサービス(EGNOS)、マルチ機能衛星オーグメンテ―ションシステム(MSAS)、GPS支援ジオオーグメンテッドナビゲーションまたはGPSおよびジオオーグメンテッドナビゲーションシステム(GAGAN)、および/または類似のもののような、インテグリティ(integrity)情報、異なる補正(differential corrections)等を提供するオーグメンテ―ションシステム(複数の場合もある)を含むことができる。したがって、ここに使用されるように、SPSは1つまたは複数のグローバルおよび/または地域航法衛星システムおよび/またはオーグメンテーションシステムの任意の組み合わせを含むことができ、SPS信号はSPS、SPSに類似するもの、および/またはそのような1つまたは複数のSPSに関連づけられた他の信号を含むことができる。
[0062]位置決定技法は、ワイヤレスパーソナルエリアネットワーク(WPAN)、ワイヤレスローカルエリアネットワーク(WLAN)、ワイヤレスワイドエリアネットワーク(WWAN)のような、ワイヤレス通信アクセスポイント605からおよびセルラタワーを含む、種々のワイヤレス通信ネットワークと共にインプリメントされることができるので、モバイルデバイス602は位置決定のためのSPSとともに使用することに限定されない。さらにモバイルデバイス602は、セルラタワー604を介した種々のワイヤレス通信ネットワークを用いておよびワイヤレス通信アクセスポイント605からまたは所望であれば衛星ビークル606を用いて、ポーズ決定および/または視覚−動きパラメータの値の計算を支援するために1つまたは複数のサーバ608と通信することができる。「ネットワーク」および「システム」という用語は、しばしば相互交換可能に使用される。WWANはコード分割多重アクセス(CDMA)ネットワーク、時分割多重アクセス(TDMA)ネットワーク、周波数分割多重アクセス(FDMA)ネットワーク、直交周波数分割多重アクセス(OFDMA)ネットワーク、シングルキャリア周波数分割多重アクセス(SC−FDMA)ネットワーク、ロングタームイボリューション(LTE(登録商標))等であり得る。CDMAネットワークはcdma2000、ワイドバンドCDMA(W−CDMA(登録商標))等のような1つまたは複数の無線アクセス技術(RATs)をインプリメントすることができる。Cdma2000はIS−95、IS−2000およびIS−856標準を含む。TDMAネットワークはモバイル通信のためのグローバルシステム(GSM(登録商標))、デジタルアドバンストモバイルフォンシステム(D−AMPS)、またはいくつかの他のRATをインプリメントすることができる。GSMおよびW−CDMAは「第三世代パートナーシッププロジェクト」(3GPP(登録商標))という名前のコンソーシアム(consortium)からのドキュメントに記載されている。Cdma2000は「第三世代パートナーシッププロジェクト2」(3GPP2)という名前のコンソーシアムからのドキュメント内に記載されている。3GPPおよび3GPP2ドキュメントは公に入手可能である。WLANはIEEE802.11xネットワークであり得、WPANはBluetooth(登録商標)ネットワーク、IEEE802.15xまたはその他のタイプのネットワークであり得る。この技法はまたWWAN、WLANおよび/またはWPANの任意の組み合わせと共にインプリメントされることができる。
[0063]図6に示されるように、システム600はモバイルデバイス602のカメラのポーズを決定するためにシーン613の画像を撮像するモバイルデバイス602を含む。図示されるように、モバイルデバイス602はサーバ608に結合される、例えば、セルラタワー604またはワイヤレス通信アクセスポイント605を介してワイヤレスワイドエリアネットワーク(WWAN)のようなネットワーク610をアクセスすることができる。図5のモバイルデバイス500はサーバ608の1つの可能なインプリメンテーションである。図6は1つのサーバ608を示すけれども、複数のサーバが使用されてもよいことが理解されなければならない。モバイルデバイス602は自身でポーズ決定を行うことが出来るかまたは画像データをサーバ608に送信することができ、この場合ポーズ決定および/または視覚−動きパラメータの値の決定がサーバ608により行われることができる。モバイルデバイス602は少なくとも2つの撮像された画像から特徴を抽出し、次に、モバイルデバイス602で局部的にプロセス100のようなポーズ決定プロセスを実行することができる。しかしながら、所望であれば、ポーズ決定はサーバ608(または他のサーバ)により実行されることができ、この場合、撮像された画像からの抽出された特徴または画像自身のいずれかがモバイルデバイス602によりサーバ608に供給される。
[0064]図7はここに教示されるように、ポーズ決定をサポートするように構成されたモバイルデバイス装置700に採用されることができるコンポーネントのいくつかのサンプル態様を図示する。モバイルデバイス装置700は図5のモバイルデバイスおよび/または図6のモバイルデバイス602の1つの可能なインプリメンテーションである。
[0065]シーンの第1および第2の画像を取得するためのモジュール702は少なくともいくつかの態様において、例えば、図5のカメラ502および/またはネットワークアダプタ516に対応することができる。第1の画像からの特徴の第1のセットを抽出するモジュール704は少なくともいくつかの態様において、例えば、図5の特徴抽出器517および/または処理ユニット508に対応することができる。第2の画像からの特徴の第2のセットを抽出するためのモジュール706は、いくつかの態様において、例えば、図5の特徴抽出器517および/または処理ユニット508に対応することができる。特徴の第2のセットと特徴の第1のセットをマッチングすることなしに特徴の第2のセットと特徴の第1のセットに基づいて視覚−動きパラメータに関する値を計算するためのモジュール708は、いくつかの態様において、例えば、図5の動き検出器518および/または処理ユニット508に対応することができる。視覚−動きパラメータの値に基づいてカメラのポーズを決定するためのモジュール710は、いくつかの態様において、例えば、図5の特徴抽出器動き検出器518および/または処理ユニット508に対応することができる。
[0066]図7のモジュール702−710の機能性はここでの教示に一致する種々の方法でインプリメントされることができる。いくつかの設計において、これらのモジュール702−710の機能性は1つまたは複数の電子コンポーネントとしてインプリメントされることができる。いくつかの設計において、これらのモジュール702−710の機能性は1つまたは複数のプロセッサコンポーネントを含む処理システムとしてインプリメントされることができる。いくつかの設計において、これらのモジュール702−710の機能性は例えば1つまたは複数の集積回路(例えば、ASIC)のすくなくとも一部を用いてインプリメントされることができる。ここに記載されるように、集積回路はプロセッサ、ソフトウェア、他の関連されるコンポーネント、またはそれらのある(some)組み合わせを含むことができる。したがって、異なるモジュールの機能性は例えば、集積回路の異なるサブセット、ソフトウェアモジュールのセットの異なるサブセット、またはそれらの組み合わせとしてインプリメントされることができる。また、所定のサブセット(例えば、集積回路のおよび/またはソフトウェアモジュールの)が2以上のモジュールに関する機能性の少なくとも一部を提供することができることが理解されるであろう。
[0067]さらに、図7により表されたコンポーネントと機能並びにここに記載された他のコンポーネントと機能は任意の適切な手段を用いてインプリメントされることができる。そのような手段はまた、少なくとも部分的に、ここに教示された対応する構造を用いてインプリメントされることができる。例えば、図7の「〜する手段(means for)」コンポーネントと共に上述したコンポーネントはまた同様に指定された「〜する手段」機能性に対応することができる。したがって、いくつかの態様において、そのような手段の1つまたは複数は、プロセッサコンポーネント、集積回路、またはここに教示された他の適切な構造の1つまたは複数を用いてインプリメントされることができる。
[0068]当業者は、情報と信号はさまざまな異なるテクノロジー(technologies)およびテクニック(techniques)のいずれかを用いて表されることができることを理解するであろう。例えば、上述した記載全体を介して参照されることができるデータ、命令、コマンド、情報、信号、ビット、シンボルおよびチップは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学粒子、または任意のそれらの組み合わせにより表されることができる。
[0069]さらに、当業者は、ここに開示された実施形態とともに記載された種々の例示論理ブロック、モジュール、回路およびアルゴリズムステップは電子ハードウエア、コンピュータソフトウェア、またはそれらの組み合わせとしてインプリメントされることができることを理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に示すために、さまざまな例示コンポーネント、ブロック、モジュール、回路およびステップが一般にそれらの機能性の観点において上述した。そのような機能性がハードウェアまたはソフトウェアとしてインプリメントされるかどうかは、全体のシステムに課された設計制約および特定のアプリケーションに依存する。熟練した職人(skilled artisans)は、各特定のアプリケーションに関して、さまざまな方法で記載された機能性をインプリメントすることができるがそのようなインプリメンテーションの決定は本願発明の範囲からの逸脱を生じると解釈されるべきではない。
[0070]ここに開示された実施形態に関連して記載された方法、シーケンスおよび/またはアルゴリズムはハードウェアで、プロセッサにより実行されるソフトウェアモジュールでまたはその2つの組み合わせで直接具現化されることができる。ソフトウェアモジュールはRAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROM(登録商標)メモリ、レジスタ、ハードディスク、リムーバブルディスク、CD−ROM、またはこの分野で知られた記憶媒体の任意の他の形態の記憶媒体内に常駐することができる。例示記憶媒体は、プロセッサが記憶媒体から情報を読み出すことができ情報を書き込むことができるようにプロセッサに結合される。別の方法では、記憶媒体はプロセッサに集積されることができる。
[0071]従って、この発明の実施形態はワイヤレス通信ネットワークにおいてモバイルデバイスの位置を支援するまたはさもなければ決定するための方法を具現化する非一時的コンピュータ可読媒体を含むことができる。従って、この発明は図示された例に限定されず、ここに記載された機能性を実行するための任意の手段がこの発明の実施形態に含まれる。
[0072]上述した開示はこの発明の例示実施形態を示すけれども、さまざまな変更(changes)および修正(modifications)が、添付されたクレームにより定義された発明の範囲から逸脱することなくここで成されることができることに留意する必要がある。ここに記載された発明の実施形態に従う方法クレームの機能、ステップおよび/または行動(action)は任意の特定の順番で実行される必要はない。さらに、この発明のエレメントは単数で記載されまたはクレームされることができるけれども、単数への限定が明示的に述べられない限り、複数も考慮される。
[0072]上述した開示はこの発明の例示実施形態を示すけれども、さまざまな変更(changes)および修正(modifications)が、添付されたクレームにより定義された発明の範囲から逸脱することなくここで成されることができることに留意する必要がある。ここに記載された発明の実施形態に従う方法クレームの機能、ステップおよび/または行動(action)は任意の特定の順番で実行される必要はない。さらに、この発明のエレメントは単数で記載されまたはクレームされることができるけれども、単数への限定が明示的に述べられない限り、複数も考慮される。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
カメラのポーズを決定する方法において、前記方法は、
シーンの第1の画像を取得することと、ここにおいて、前記第1の画像は前記カメラにより撮像される、
シーンの第2の画像を取得することと、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出することと、
前記第2の画像から特徴の第2のセットを抽出することと、
前記第2のセットの特徴と前記第1のセットの特徴をマッチさせることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算することと、
前記視覚−動きパラメータの値に少なくとも基づいて前記カメラの前記ポーズを決定することと、
を備える、方法。
[C2]
前記第2のセットの特徴と前記第1のセットの特徴をマッチさせることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの値を計算することは、
前記特徴の第2のセット内の各特徴と前記特徴の第1のセット内の各特徴をマッチングするコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に関して前記第1のセットから前記第2のセットへ特徴をマッチングするコストを符号化するマトリクスを作成することと、
前記視覚−動きパラメータの前記値を決定するための前記コスト関数を最適化することと、
を備えた、C1の方法。
[C3]
前記マトリクスは、前記特徴の第1のセットに対応して行に、および前記特徴の第2のセットに対応して列に配列される、C2の方法。
[C4]
前記マトリクスは、前記特徴の第1のセットの少なくとも1つまたは前記特徴の第2のセットの少なくとも1つがマッチを有さない可能性に対応するさらなるコストをさらに符号化する、C2の方法。
[C5]
前記コスト関数を導出することは前記マトリクスのパーマネントを決定することを備える、C2の方法。
[C6]
前記マトリクスの前記パーマネントを推定するために近似法が使用される、C5の方法。
[C7]
前記コスト関数を最適化することは、
前記複数の候補動きモデルを選択することと、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算することと、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することと、
を備える、C5の方法。
[C8]
前記複数の候補動きモデルを選択することは、
前記マトリクスの前記パーマネントに関する線形近似を適用することと、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1近似値を取得することと、
前記第1近似値を前記複数の候補動きベクトルに加算することと、
を備える、C7の方法。
[C9]
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することは、前記複数のコスト関数値の最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを備える、C8の方法。
[C10]
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド(rigid)変換、必須マトリクス、アフィン変換、および射影変換から構成されるグループから選択された少なくとも1つのパラメータである、C1の方法。
[C11]
カメラと、
プログラムコードを記憶するように適合されたメモリと、
前記モバイルデバイスに、
前記カメラでシーンの第1の画像を撮像すること、
前記カメラで前記シーンの第2の画像を撮像すること、
前記第1の画像から特徴の第1のセットを抽出すること、
前記第2の画像から特徴の第2のセットを抽出すること、
前記第1のセットの特徴と前記2のセットの特徴をマッチングすることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算すること、
前記視覚−動きパラメータの前記値に少なくとも基づいて前記カメラのポーズを決定すること、
を指示するための前記プログラムコードに含まれる命令をアクセスし実行するように前記メモリに結合された処理ユニットと、
を備える、モバイルデバイス。
[C12]
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、前記モバイルデバイスに、
前記特徴の第1のセット内の各特徴と前記特徴の第2のセット内の各特徴をマッチングするためのコスト関数を導出すること、
前記視覚−動きパラメータの複数の可能な値に関して前記第1のセットから前記第2のセットへ特徴をマッチングするコストを符号化するマトリクスを作成すること、
前記視覚−動きベクトルの前記値を決定するために前記コスト関数を最適化すること、
を指示するための命令を備える、C11のモバイルデバイス。
[C13]
前記マトリクスは前記特徴の第1のセットに対応して行に、および前記特徴の第2のセットに対応して列に配列される、C12のモバイルデバイス。
[C14]
前記マトリクスは前記特徴の第1のセットの少なくとも1つの特徴または前記特徴の第2のセットの少なくとも1つの特徴がマッチしない可能性に対応するさらなるコストをさらに符号化する、C12のモバイルデバイス。
[C15]
前記コスト関数を導出する前記命令は前記モバイルデバイスに前記マトリクスのパーマネントを決定するように命令するための少なくとも1つの命令を備える、C12のモバイルデバイス。
[C16]
前記マトリクスの前記パーマネントを推定するために近似法が用いられる、C15のモバイルデバイス。
[C17]
前記コスト関数を最適化するための前記命令は前記モバイルデバイスに、
複数の候補動きモデルを選択すること、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算すること、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定すること、
を指示するための命令を備える、C15のモバイルデバイス。
[C18]
前記複数の候補動きモデルを選択するための命令は前記モバイルデバイスに、
前記マトリクスの前記パラメータに対して線形近似法を適用すること、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1の近似値を取得すること、
前記第1の近似値を前記複数の候補動きモデルに加算すること、
を指示するための命令を備える、C17のモバイルデバイス。
[C19]
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は、前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを前記モバイルデバイスに命令するための命令を備える、C18のモバイルデバイス。
[C20]
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成るグループから選択された少なくとも1つのパラメータである、C11のモバイルデバイス。
[C21]
カメラのポーズを決定するためのプログラムコードが記憶された非一時的コンピュータ可読媒体において、前記プログラムコードは、
シーンの第1の画像を取得することと、ここにおいて、前記第1の画像は前記カメラにより撮像される、
シーンの第2の画像を取得することと、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出することと、
前記第2の画像から特徴の第2のセットを抽出することと、
前記第1のセットの特徴を前記第2のセットの特徴とマッチングせずに前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算することと、
少なくとも前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定することと、
を行うための命令を備える、非一時コンピュータ可読媒体。
[C22]
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、
前記特徴の第1のセット内の各特徴を前記特徴の第2のセット内の各特徴とマッチングするためのコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に対して前記第1のセットから前記第2のセットに特徴をマッチングする前記コストを符号化するマトリクスを作成する、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化すること、
を行うための命令を備える、C21の非一時的コンピュータ可読媒体。
[C23]
前記コスト関数を導出するための前記命令は、前記マトリクスのパラメータを決定するための少なくとも1つの命令を備える、C22の非一時的コンピュータ可読媒体。
[C24]
前記コスト関数を最適化するための前記命令は、
複数の候補動きベクトルを選択する、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算する、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定する、
ための命令を備える、C23の非一時的コンピュータ可読媒体。
[C25]
前記複数の候補動きモデルを選択するための前記命令は、
前記マトリクスの前記パラメータに対して線形近似法を適用する、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1の近似値を取得する、
前記第1の近似値を前記複数の候補動きモデルに加算する、
ための命令を備える、C24の非一時的コンピュータ可読媒体。
[C26]
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択するための少なくとも1つの命令を備えるC25の非一時的コンピュータ可読媒体。
[C27]
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも1つのパラメータである、C21の比一氏的コンピュータ可読媒体。
[C28]
シーンの第1の画像を取得する手段、ここにおいて前記第1の画像は前記モバイルデバイスのカメラにより撮像される、
シーンの第2の画像を取得する手段、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出する手段、
前記第2の画像から特徴の第2のセットを抽出する手段、
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算する手段、
少なくとも、前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定する手段、
を備える、モバイルデバイス。
[C29]
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算する手段は、
前記特徴の第1のセット内の各特徴を前記特徴の第2のセット内の各特徴とマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの複数の可能な値に対して前記第1のセットからの特徴を前記第2のセットへマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化する手段、
を備える、C28のモバイルデバイス。
[C30]
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも1つのパラメータである、C28のモバイルデバイス。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
カメラのポーズを決定する方法において、前記方法は、
シーンの第1の画像を取得することと、ここにおいて、前記第1の画像は前記カメラにより撮像される、
シーンの第2の画像を取得することと、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出することと、
前記第2の画像から特徴の第2のセットを抽出することと、
前記第2のセットの特徴と前記第1のセットの特徴をマッチさせることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算することと、
前記視覚−動きパラメータの値に少なくとも基づいて前記カメラの前記ポーズを決定することと、
を備える、方法。
[C2]
前記第2のセットの特徴と前記第1のセットの特徴をマッチさせることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの値を計算することは、
前記特徴の第2のセット内の各特徴と前記特徴の第1のセット内の各特徴をマッチングするコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に関して前記第1のセットから前記第2のセットへ特徴をマッチングするコストを符号化するマトリクスを作成することと、
前記視覚−動きパラメータの前記値を決定するための前記コスト関数を最適化することと、
を備えた、C1の方法。
[C3]
前記マトリクスは、前記特徴の第1のセットに対応して行に、および前記特徴の第2のセットに対応して列に配列される、C2の方法。
[C4]
前記マトリクスは、前記特徴の第1のセットの少なくとも1つまたは前記特徴の第2のセットの少なくとも1つがマッチを有さない可能性に対応するさらなるコストをさらに符号化する、C2の方法。
[C5]
前記コスト関数を導出することは前記マトリクスのパーマネントを決定することを備える、C2の方法。
[C6]
前記マトリクスの前記パーマネントを推定するために近似法が使用される、C5の方法。
[C7]
前記コスト関数を最適化することは、
前記複数の候補動きモデルを選択することと、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算することと、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することと、
を備える、C5の方法。
[C8]
前記複数の候補動きモデルを選択することは、
前記マトリクスの前記パーマネントに関する線形近似を適用することと、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1近似値を取得することと、
前記第1近似値を前記複数の候補動きベクトルに加算することと、
を備える、C7の方法。
[C9]
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することは、前記複数のコスト関数値の最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを備える、C8の方法。
[C10]
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド(rigid)変換、必須マトリクス、アフィン変換、および射影変換から構成されるグループから選択された少なくとも1つのパラメータである、C1の方法。
[C11]
カメラと、
プログラムコードを記憶するように適合されたメモリと、
前記モバイルデバイスに、
前記カメラでシーンの第1の画像を撮像すること、
前記カメラで前記シーンの第2の画像を撮像すること、
前記第1の画像から特徴の第1のセットを抽出すること、
前記第2の画像から特徴の第2のセットを抽出すること、
前記第1のセットの特徴と前記2のセットの特徴をマッチングすることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算すること、
前記視覚−動きパラメータの前記値に少なくとも基づいて前記カメラのポーズを決定すること、
を指示するための前記プログラムコードに含まれる命令をアクセスし実行するように前記メモリに結合された処理ユニットと、
を備える、モバイルデバイス。
[C12]
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、前記モバイルデバイスに、
前記特徴の第1のセット内の各特徴と前記特徴の第2のセット内の各特徴をマッチングするためのコスト関数を導出すること、
前記視覚−動きパラメータの複数の可能な値に関して前記第1のセットから前記第2のセットへ特徴をマッチングするコストを符号化するマトリクスを作成すること、
前記視覚−動きベクトルの前記値を決定するために前記コスト関数を最適化すること、
を指示するための命令を備える、C11のモバイルデバイス。
[C13]
前記マトリクスは前記特徴の第1のセットに対応して行に、および前記特徴の第2のセットに対応して列に配列される、C12のモバイルデバイス。
[C14]
前記マトリクスは前記特徴の第1のセットの少なくとも1つの特徴または前記特徴の第2のセットの少なくとも1つの特徴がマッチしない可能性に対応するさらなるコストをさらに符号化する、C12のモバイルデバイス。
[C15]
前記コスト関数を導出する前記命令は前記モバイルデバイスに前記マトリクスのパーマネントを決定するように命令するための少なくとも1つの命令を備える、C12のモバイルデバイス。
[C16]
前記マトリクスの前記パーマネントを推定するために近似法が用いられる、C15のモバイルデバイス。
[C17]
前記コスト関数を最適化するための前記命令は前記モバイルデバイスに、
複数の候補動きモデルを選択すること、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算すること、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定すること、
を指示するための命令を備える、C15のモバイルデバイス。
[C18]
前記複数の候補動きモデルを選択するための命令は前記モバイルデバイスに、
前記マトリクスの前記パラメータに対して線形近似法を適用すること、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1の近似値を取得すること、
前記第1の近似値を前記複数の候補動きモデルに加算すること、
を指示するための命令を備える、C17のモバイルデバイス。
[C19]
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は、前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを前記モバイルデバイスに命令するための命令を備える、C18のモバイルデバイス。
[C20]
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成るグループから選択された少なくとも1つのパラメータである、C11のモバイルデバイス。
[C21]
カメラのポーズを決定するためのプログラムコードが記憶された非一時的コンピュータ可読媒体において、前記プログラムコードは、
シーンの第1の画像を取得することと、ここにおいて、前記第1の画像は前記カメラにより撮像される、
シーンの第2の画像を取得することと、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出することと、
前記第2の画像から特徴の第2のセットを抽出することと、
前記第1のセットの特徴を前記第2のセットの特徴とマッチングせずに前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算することと、
少なくとも前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定することと、
を行うための命令を備える、非一時コンピュータ可読媒体。
[C22]
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、
前記特徴の第1のセット内の各特徴を前記特徴の第2のセット内の各特徴とマッチングするためのコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に対して前記第1のセットから前記第2のセットに特徴をマッチングする前記コストを符号化するマトリクスを作成する、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化すること、
を行うための命令を備える、C21の非一時的コンピュータ可読媒体。
[C23]
前記コスト関数を導出するための前記命令は、前記マトリクスのパラメータを決定するための少なくとも1つの命令を備える、C22の非一時的コンピュータ可読媒体。
[C24]
前記コスト関数を最適化するための前記命令は、
複数の候補動きベクトルを選択する、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算する、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定する、
ための命令を備える、C23の非一時的コンピュータ可読媒体。
[C25]
前記複数の候補動きモデルを選択するための前記命令は、
前記マトリクスの前記パラメータに対して線形近似法を適用する、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1の近似値を取得する、
前記第1の近似値を前記複数の候補動きモデルに加算する、
ための命令を備える、C24の非一時的コンピュータ可読媒体。
[C26]
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択するための少なくとも1つの命令を備えるC25の非一時的コンピュータ可読媒体。
[C27]
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも1つのパラメータである、C21の比一氏的コンピュータ可読媒体。
[C28]
シーンの第1の画像を取得する手段、ここにおいて前記第1の画像は前記モバイルデバイスのカメラにより撮像される、
シーンの第2の画像を取得する手段、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出する手段、
前記第2の画像から特徴の第2のセットを抽出する手段、
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算する手段、
少なくとも、前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定する手段、
を備える、モバイルデバイス。
[C29]
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算する手段は、
前記特徴の第1のセット内の各特徴を前記特徴の第2のセット内の各特徴とマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの複数の可能な値に対して前記第1のセットからの特徴を前記第2のセットへマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化する手段、
を備える、C28のモバイルデバイス。
[C30]
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも1つのパラメータである、C28のモバイルデバイス。
Claims (30)
- カメラのポーズを決定する方法において、前記方法は、
シーンの第1の画像を取得することと、ここにおいて、前記第1の画像は前記カメラにより撮像される、
シーンの第2の画像を取得することと、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出することと、
前記第2の画像から特徴の第2のセットを抽出することと、
前記第2のセットの特徴と前記第1のセットの特徴をマッチさせることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算することと、
前記視覚−動きパラメータの値に少なくとも基づいて前記カメラの前記ポーズを決定することと、
を備える、方法。 - 前記第2のセットの特徴と前記第1のセットの特徴をマッチさせることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの値を計算することは、
前記特徴の第2のセット内の各特徴と前記特徴の第1のセット内の各特徴をマッチングするコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に関して前記第1のセットから前記第2のセットへ特徴をマッチングするコストを符号化するマトリクスを作成することと、
前記視覚−動きパラメータの前記値を決定するための前記コスト関数を最適化することと、
を備えた、請求項1の方法。 - 前記マトリクスは、前記特徴の第1のセットに対応して行に、および前記特徴の第2のセットに対応して列に配列される、請求項2の方法。
- 前記マトリクスは、前記特徴の第1のセットの少なくとも1つまたは前記特徴の第2のセットの少なくとも1つがマッチを有さない可能性に対応するさらなるコストをさらに符号化する、請求項2の方法。
- 前記コスト関数を導出することは前記マトリクスのパーマネントを決定することを備える、請求項2の方法。
- 前記マトリクスの前記パーマネントを推定するために近似法が使用される、請求項5の方法。
- 前記コスト関数を最適化することは、
前記複数の候補動きモデルを選択することと、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算することと、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することと、
を備える、請求項5の方法。 - 前記複数の候補動きモデルを選択することは、
前記マトリクスの前記パーマネントに関する線形近似を適用することと、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1近似値を取得することと、
前記第1近似値を前記複数の候補動きベクトルに加算することと、
を備える、請求項7の方法。 - 前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することは、前記複数のコスト関数値の最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを備える、請求項8の方法。
- 前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド(rigid)変換、必須マトリクス、アフィン変換、および射影変換から構成されるグループから選択された少なくとも1つのパラメータである、請求項1の方法。
- カメラと、
プログラムコードを記憶するように適合されたメモリと、
前記モバイルデバイスに、
前記カメラでシーンの第1の画像を撮像すること、
前記カメラで前記シーンの第2の画像を撮像すること、
前記第1の画像から特徴の第1のセットを抽出すること、
前記第2の画像から特徴の第2のセットを抽出すること、
前記第1のセットの特徴と前記2のセットの特徴をマッチングすることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算すること、
前記視覚−動きパラメータの前記値に少なくとも基づいて前記カメラのポーズを決定すること、
を指示するための前記プログラムコードに含まれる命令をアクセスし実行するように前記メモリに結合された処理ユニットと、
を備える、モバイルデバイス。 - 前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなく前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、前記モバイルデバイスに、
前記特徴の第1のセット内の各特徴と前記特徴の第2のセット内の各特徴をマッチングするためのコスト関数を導出すること、
前記視覚−動きパラメータの複数の可能な値に関して前記第1のセットから前記第2のセットへ特徴をマッチングするコストを符号化するマトリクスを作成すること、
前記視覚−動きベクトルの前記値を決定するために前記コスト関数を最適化すること、
を指示するための命令を備える、請求項11のモバイルデバイス。 - 前記マトリクスは前記特徴の第1のセットに対応して行に、および前記特徴の第2のセットに対応して列に配列される、請求項12のモバイルデバイス。
- 前記マトリクスは前記特徴の第1のセットの少なくとも1つの特徴または前記特徴の第2のセットの少なくとも1つの特徴がマッチしない可能性に対応するさらなるコストをさらに符号化する、請求項12のモバイルデバイス。
- 前記コスト関数を導出する前記命令は前記モバイルデバイスに前記マトリクスのパーマネントを決定するように命令するための少なくとも1つの命令を備える、請求項12のモバイルデバイス。
- 前記マトリクスの前記パーマネントを推定するために近似法が用いられる、請求項15のモバイルデバイス。
- 前記コスト関数を最適化するための前記命令は前記モバイルデバイスに、
複数の候補動きモデルを選択すること、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算すること、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定すること、
を指示するための命令を備える、請求項15のモバイルデバイス。 - 前記複数の候補動きモデルを選択するための命令は前記モバイルデバイスに、
前記マトリクスの前記パラメータに対して線形近似法を適用すること、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1の近似値を取得すること、
前記第1の近似値を前記複数の候補動きモデルに加算すること、
を指示するための命令を備える、請求項17のモバイルデバイス。 - 前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は、前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを前記モバイルデバイスに命令するための命令を備える、請求項18のモバイルデバイス。
- 前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成るグループから選択された少なくとも1つのパラメータである、請求項11のモバイルデバイス。
- カメラのポーズを決定するためのプログラムコードが記憶された非一時的コンピュータ可読媒体において、前記プログラムコードは、
シーンの第1の画像を取得することと、ここにおいて、前記第1の画像は前記カメラにより撮像される、
シーンの第2の画像を取得することと、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出することと、
前記第2の画像から特徴の第2のセットを抽出することと、
前記第1のセットの特徴を前記第2のセットの特徴とマッチングせずに前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算することと、
少なくとも前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定することと、
を行うための命令を備える、非一時コンピュータ可読媒体。 - 前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、
前記特徴の第1のセット内の各特徴を前記特徴の第2のセット内の各特徴とマッチングするためのコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に対して前記第1のセットから前記第2のセットに特徴をマッチングする前記コストを符号化するマトリクスを作成する、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化すること、
を行うための命令を備える、請求項21の非一時的コンピュータ可読媒体。 - 前記コスト関数を導出するための前記命令は、前記マトリクスのパラメータを決定するための少なくとも1つの命令を備える、請求項22の非一時的コンピュータ可読媒体。
- 前記コスト関数を最適化するための前記命令は、
複数の候補動きベクトルを選択する、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算する、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定する、
ための命令を備える、請求項23の非一時的コンピュータ可読媒体。 - 前記複数の候補動きモデルを選択するための前記命令は、
前記マトリクスの前記パラメータに対して線形近似法を適用する、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第1の近似値を取得する、
前記第1の近似値を前記複数の候補動きモデルに加算する、
ための命令を備える、請求項24の非一時的コンピュータ可読媒体。 - 前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択するための少なくとも1つの命令を備える請求項25の非一時的コンピュータ可読媒体。
- 前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも1つのパラメータである、請求項21の非一時的コンピュータ可読媒体。
- シーンの第1の画像を取得する手段、ここにおいて前記第1の画像は前記モバイルデバイスのカメラにより撮像される、
シーンの第2の画像を取得する手段、ここにおいて、前記第2の画像は前記カメラにより撮像される、
前記第1の画像から特徴の第1のセットを抽出する手段、
前記第2の画像から特徴の第2のセットを抽出する手段、
前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて視覚−動きパラメータに関する値を計算する手段、
少なくとも、前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定する手段、
を備える、モバイルデバイス。 - 前記第1のセットの特徴を前記第2のセットの特徴とマッチングすることなしに前記特徴の第1のセットと前記特徴の第2のセットに基づいて前記視覚−動きパラメータの前記値を計算する手段は、
前記特徴の第1のセット内の各特徴を前記特徴の第2のセット内の各特徴とマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの複数の可能な値に対して前記第1のセットからの特徴を前記第2のセットへマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化する手段、
を備える、請求項28のモバイルデバイス。 - 前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの2つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも1つのパラメータである、請求項28のモバイルデバイス。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562149850P | 2015-04-20 | 2015-04-20 | |
US62/149,850 | 2015-04-20 | ||
US15/131,404 | 2016-04-18 | ||
US15/131,404 US9984301B2 (en) | 2015-04-20 | 2016-04-18 | Non-matching feature-based visual motion estimation for pose determination |
PCT/US2016/028269 WO2016172098A1 (en) | 2015-04-20 | 2016-04-19 | Non-matching feature-based visual motion estimation for pose determination |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018513493A true JP2018513493A (ja) | 2018-05-24 |
Family
ID=57129969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017554575A Pending JP2018513493A (ja) | 2015-04-20 | 2016-04-19 | ポーズ決定のための非マッチング特徴に基づく視覚動き推定 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9984301B2 (ja) |
EP (1) | EP3286733A1 (ja) |
JP (1) | JP2018513493A (ja) |
CN (1) | CN107438862A (ja) |
WO (1) | WO2016172098A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10326972B2 (en) * | 2014-12-31 | 2019-06-18 | Samsung Electronics Co., Ltd. | Three-dimensional image generation method and apparatus |
US10078902B1 (en) * | 2015-08-27 | 2018-09-18 | Hrl Laboratories, Llc | Fast robust method for compensating ego-translations and detecting independent moving objects in video captured with a moving camera |
US10089549B1 (en) * | 2015-08-27 | 2018-10-02 | Hrl Laboratories, Llc | Valley search method for estimating ego-motion of a camera from videos |
DE102015217880A1 (de) * | 2015-09-17 | 2017-03-23 | Siemens Healthcare Gmbh | Bestimmung von Dephasierungsfaktoren in MR-Multiechotechniken |
US10331944B2 (en) * | 2015-09-26 | 2019-06-25 | Intel Corporation | Technologies for dynamic performance of image analysis |
US10546385B2 (en) * | 2016-02-25 | 2020-01-28 | Technion Research & Development Foundation Limited | System and method for image capture device pose estimation |
KR20180087994A (ko) * | 2017-01-26 | 2018-08-03 | 삼성전자주식회사 | 스테레오 매칭 방법 및 영상 처리 장치 |
WO2019019157A1 (en) * | 2017-07-28 | 2019-01-31 | Qualcomm Incorporated | INITIALIZING IMAGE SENSOR IN A ROBOTIC VEHICLE |
CN109544630B (zh) * | 2018-11-30 | 2021-02-02 | 南京人工智能高等研究院有限公司 | 位姿信息确定方法和装置、视觉点云构建方法和装置 |
US20230133026A1 (en) * | 2021-10-28 | 2023-05-04 | X Development Llc | Sparse and/or dense depth estimation from stereoscopic imaging |
US11995859B2 (en) | 2021-10-28 | 2024-05-28 | Mineral Earth Sciences Llc | Sparse depth estimation from plant traits |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7817723B2 (en) | 2004-12-14 | 2010-10-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. | Apparatus and method of optimizing motion estimation parameters for encoding a video signal |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
US7489334B1 (en) | 2007-12-12 | 2009-02-10 | International Business Machines Corporation | Method and system for reducing the cost of sampling a moving image |
DE102009049849B4 (de) * | 2009-10-19 | 2020-09-24 | Apple Inc. | Verfahren zur Bestimmung der Pose einer Kamera, Verfahren zur Erkennung eines Objekts einer realen Umgebung und Verfahren zur Erstellung eines Datenmodells |
US8860760B2 (en) * | 2010-09-25 | 2014-10-14 | Teledyne Scientific & Imaging, Llc | Augmented reality (AR) system and method for tracking parts and visually cueing a user to identify and locate parts in a scene |
WO2012177336A2 (en) * | 2011-05-11 | 2012-12-27 | University Of Florida Research Foundation, Inc. | Systems and methods for estimating the geographic location at which image data was captured |
US9378431B2 (en) * | 2011-11-18 | 2016-06-28 | Metaio Gmbh | Method of matching image features with reference features and integrated circuit therefor |
CN102607535B (zh) * | 2012-02-07 | 2014-01-22 | 湖州师范学院 | 一种利用视差空间集束调整的高精度实时立体视觉定位方法 |
US8965057B2 (en) * | 2012-03-02 | 2015-02-24 | Qualcomm Incorporated | Scene structure-based self-pose estimation |
US9123135B2 (en) * | 2012-06-14 | 2015-09-01 | Qualcomm Incorporated | Adaptive switching between vision aided INS and vision only pose |
KR101964861B1 (ko) * | 2012-06-29 | 2019-04-02 | 삼성전자주식회사 | 카메라 장치 및 상기 카메라 장치에서의 물체 추적 방법 |
US9684941B2 (en) * | 2012-10-29 | 2017-06-20 | Digimarc Corporation | Determining pose for use with digital watermarking, fingerprinting and augmented reality |
US9967463B2 (en) | 2013-07-24 | 2018-05-08 | The Regents Of The University Of California | Method for camera motion estimation and correction |
KR20160009879A (ko) | 2014-07-17 | 2016-01-27 | 엘지전자 주식회사 | 웨어러블 디스플레이 디바이스 및 그 제어 방법 |
-
2016
- 2016-04-18 US US15/131,404 patent/US9984301B2/en not_active Expired - Fee Related
- 2016-04-19 WO PCT/US2016/028269 patent/WO2016172098A1/en active Application Filing
- 2016-04-19 CN CN201680017644.9A patent/CN107438862A/zh active Pending
- 2016-04-19 EP EP16721562.3A patent/EP3286733A1/en not_active Withdrawn
- 2016-04-19 JP JP2017554575A patent/JP2018513493A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP3286733A1 (en) | 2018-02-28 |
US20160307334A1 (en) | 2016-10-20 |
WO2016172098A1 (en) | 2016-10-27 |
US9984301B2 (en) | 2018-05-29 |
CN107438862A (zh) | 2017-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9984301B2 (en) | Non-matching feature-based visual motion estimation for pose determination | |
US10740975B2 (en) | Mobile augmented reality system | |
US11263475B2 (en) | Incremental learning for dynamic feature database management in an object recognition system | |
US9524434B2 (en) | Object tracking based on dynamically built environment map data | |
KR101585521B1 (ko) | 장면 구조-기반 자가-포즈 추정 | |
US9031283B2 (en) | Sensor-aided wide-area localization on mobile devices | |
US9996936B2 (en) | Predictor-corrector based pose detection | |
EP3206163B1 (en) | Image processing method, mobile device and method for generating a video image database | |
US20150095360A1 (en) | Multiview pruning of feature database for object recognition system | |
US20150262380A1 (en) | Adaptive resolution in optical flow computations for an image processing system | |
KR101863647B1 (ko) | 3d 맵들에 대한 가설 라인 맵핑 및 검증 |