JP2018513493A

JP2018513493A - ポーズ決定のための非マッチング特徴に基づく視覚動き推定

Info

Publication number: JP2018513493A
Application number: JP2017554575A
Authority: JP
Inventors: ドス・サントス・メンドンサ、パウロ・リカルド
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-04-20
Filing date: 2016-04-19
Publication date: 2018-05-24
Also published as: EP3286733A1; US20160307334A1; WO2016172098A1; US9984301B2; CN107438862A

Abstract

カメラのポーズを決定する方法は、シーンの第１の画像とシーンの第２の画像の両方を取得することを含み、関第１および第２の画像はカメラにより撮像される。特徴の第１のセットは前記第１の画像から抽出され特徴の第２のセットは特徴の第２のセットから抽出される。方法は、第１のセットの特徴を第２のセットの特徴とマッチングすることなしに特徴の第１のセットと特徴の第２のセットに基づいて視覚−動きパラメータの値を計算することを含む。方法は、少なくとも視覚動きパラメータの値に基づいてカメラのポーズを決定することを含む。

Description

関連出願の相互参照

[0001]本特許出願は、本願の譲受人に譲渡され、参照によって本明細書に明確に組み込まれる、２０１５年４月２０日に出願された「NON-MATCHING FEATURE-BASED MOTION ESTIMATION」（非マッチング特徴に基づいた動き推定）と題する、米国仮出願第62／149,850号の利益を主張する。

[0002]本開示は、一般にコンピュータビジョン(computer vision)に基づいた動き推定アプリケーションに関し、特に、排他的ではないが、特徴マッチングなしに視覚動き(visual motion)に基づいてポーズを決定することに関する。

背景

[0003]モバイルワイヤレス通信デバイス、パーソナルデジタルアシスタンツ（ＰＤＡｓ）、ラップトップコンピュータ、デスクトップコンピュータ、デジタルカメラ、デジタルレコーディングデバイス等を含む広範囲の電子デバイスは、多目的な(versatile)撮像能力を提供するためにコンピュータビジョン技術を採用する。これらの能力はランドマークを認識し、友達および／または見知らぬ人および種々の他のタスクを識別することにおいてユーザを補助する機能を含むことができる。

[0004]モバイルフォンまたは他のモバイルプラットフォーム上でオーグメンテッドリアリティ(Augmented Reality)(AR)を可能にするための課題は、リアルタイムにカメラポーズ(camera poses)を推定する(estimating)という問題である。ＡＲアプリケーションに関するポーズ推定は非常に要求が高い要件(demanding requirements)を有する：それは完全な６の自由度を配信しなければならず、与えられた座標系(coordinate system)に対して絶対測定結果(absolute measurements)を与えなければならず、非常に堅固(robust)でなければならず、およびリアルタイムで実行されなければならない。関心があるのは、コンピュータビジョン（ＣＶ）に基づいたアプローチを用いてカメラポーズを計算するための方法である。

[0005]いくつかの典型的なオーグメンテッドリアリティシステムは画像ピクセルデータから抽出された特徴の動きを追跡することにより視覚動き推定を実行することによりポーズを決定しようと試みる。しかしながら、モバイルプラットフォーム上で公知の視覚−動き技術をインプリメントすることを困難にさせる計算上の複雑さのような多くの問題がある。

[0006]視覚動き推定はある位置から別の位置へカメラまたは設定点がどのように移動したかを決定すること言うことができる(described as)。一般的な視覚−動き方法に典型的に存在する主要なコンポーネントは連続的なあるいはそれに続く画像から抽出された特徴間の一致をどのように得るかである。しかしながら、特徴マッチングは計算上高価であり、エラーを起こしやすい手続であり、ＲＡＮＳＡＣと結合された複雑な特徴記述子（例えば、ＳＩＦＴまたはＳＵＲＦ）を介してしばしばアドレスされる(addressed)。そのような一般的な方法は典型的に、幸運であれば、一致の十分に良好なセットが見つかるまで多くの可能な特徴一致をサンプルする（すなわち、トライする）。

[0007]本開示の観点はカメラのポーズを決定するための方法、モバイルデバイスおよびコンピュータ可読媒体を含む。

[0008]たとえば、少なくとも１つの態様によれば、カメラのポーズを決定する方法はシーンの第１の画像とシーンの第２の画像の両方を取得することを含む。この場合第１の画像と第２の画像はカメラにより撮像される。特徴の第１のセットは第１の画像から抽出され、特徴の第２のセットは特徴の第２のセットから抽出される。この方法は、第１のセットの特徴と第２のセットの特徴をマッチングさせることなく特徴の第１のセットと特徴の第２のセットにもとづいて視覚−動きパラメータの値を計算することを含む。方法はまたは視覚動きパラメータの値に少なくとも基づいてカメラのポーズを決定することを含む。

[0009]他の態様によれば、モバイルデバイスはカメラ、プログラムコードを記憶するのに適したメモリ、およびプログラムコード内に含まれる命令をアクセスし実行するためにメモリに結合された処理ユニットを含む。命令はモバイルデバイスに、（１）カメラでシーンの第１の画像を撮像する、（２）カメラでシーンの第２の画像を撮像する、（３）第１の画像から特徴の第１のセットを抽出する、（４）第２の画像から特徴の第２のセットを抽出する、（５）第１のセットの特徴と第２のセットの特徴をマッチングさせることなく特徴の第１のセットと特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算する、および（６）少なくとも視覚−動きパラメータの値に基づいてカメラのポーズを決定する、ことを指示するように構成される。

[0010]さらに別の態様によれば、非一時的コンピュータ可読媒体が提供される。非一時的コンピュータ可読媒体は、カメラのポーズを決定するために記憶されたプログラムコードを含む。プログラムコードは、（１）シーンの第１の画像を取得する、ここにおいて第１の画像はカメラにより撮像される、（２）シーンの第２の画像を取得する、ここにおいて、第２の画像はカメラにより撮像される、（３）第１の画像から特徴の第１のセットを抽出する、（４）第２の画像から特徴の第２のセットを抽出する、（５）第１のセットの特徴と第２のセットの特徴をマッチングすることなく特徴の第１のセットおよび特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算する、および（６）視覚−動きパラメータの値に少なくとも基づいてカメラのポーズを決定する、ための命令を含む。

[0011]別の態様によれば、モバイルデバイスは、シーンの第１の画像を取得する手段とシーンの第２の画像を取得する手段を含み、第１および第２の画像はモバイルデバイスのカメラにより撮像される。モバイルデバイスはまた第１の画像から特徴の第１のセットを抽出する手段とならびに第２の画像から特徴の第２のセットを抽出する手段を含む。第１のセットの特徴と第２のセットの特徴をマッチングすることなく特徴の第１のセットと特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算する手段と、モバイルデバイスにさらに含まれるのは、視覚−動きパラメータの値に少なくとも基づいてカメラのポーズを決定する手段である。

[0012]添付の図面は、本発明の実施形態の説明を助けるために提示され、これら実施形態の限定としてではなくその例示のためだけに提供される。
[0013]カメラのポーズを決定する例示プロセスを図示するフローチャート。 [0014]区別できるビューポイントからのいくつかの画像の撮像とそれに続く特徴の抽出を例示する図。 [0015]視覚−動きパラメータに関する値を計算する例示プロセスを図示するフローチャート。 [0016]コスト関数を最適化するプロセスを図示するフローチャート。 [0017]複数の候補動きモデルを選択するプロセスを例示するフローチャート。 [0018]図５はここに説明されたプロセスを実行するように構成されたモバイルデバイスを例示するブロック図。 [0019]モバイルデバイスのポーズを決定するシステムの機能ブロック図。 [0020]ここに説明されたプロセスを実行するように構成されたモバイルデバイス装置を例示する図。

[0021]本発明の観点は下記の説明において開示され、および関連する図面は、本発明の特定の実施例に関する。代わりの実施例は、本発明の範囲から逸脱することなく考案され得る。さらに、本発明の周知の要素は、詳細に説明されていないあるいは本発明の関連のある詳細を曖昧にしないために省略されるであろう。

[0022]用語「例示的」は、「例、実例、または図解としての役割を果たすことを」を意味するためにここで用いられる。「例示的な」とここに記載された任意の実施例は、他の実施例よりも好適である、あるいは利点があると必ずしも解釈されるべきではない。同様に、「本発明の実施形態」は、本発明の全ての実施形態が、説明される特徴、利点、あるいは動作モードを含んでいるということを要件としているわけではない。

[0023]ここで用いられた用語は、特定の具体例のみを記載する目的のためのものであって、ならびに本発明の実施例を限定することを意図するものではない。本明細書において使用されるように、単数形「ａ」、「ａｎ」、「ｔｈｅ」は、そうではないと明確し示されていない限り、複数形も含むように意図されている。「備える」、「備えている」、「含む」、および／または「含んでいる」という用語は、本明細書で使用される場合、述べられる特徴、整数、ステップ、動作、要素、および／または構成要素の存在を特定するが、１つまたは複数の他の特徴、整数、ステップ、動作、要素、構成要素、および／またはそれらのグループの存在または追加を妨げないことはさらに理解されるだろう。

[0024]さらに、多くの実施例が、例えば、計算デバイスの要素によって実行される一連の動作の観点から説明される。ここで説明される種々の動作は、特定の回路（例えば、アプリケーション特定集積回路（ＡＳＩＣ））、１つまた複数のプロセッサによって実行されるプログラム命令、またはその両方の組合せによって実行され得ることが認識されるだろう。それに加えて、本明細書において説明されるアクションのシーケンスは、実行されると、関連付けられたプロセッサに本明細書において説明される機能を実行させる、格納された対応するコンピュータ命令群のセットを有するコンピュータ読取可能な記憶媒体の任意の形態において全体的に実現されるものと見なされうる。したがって、本発明の種々の観点は、多数の異なる形式において具体化され得、その全てが請求された主題の範囲内であると考えられる。さらに、ここで説明される実施例のそれぞれについて、任意のこういった実施例の対応形式は、例えば、説明された動作を実行する「ように構成された論理」として説明され得る。

[0025]特徴に基づいた方法は幾何学的なコンピュータビジョンにおいて大きな役割を有する。特徴の利用可能性の他に、これらの方法は、潜在的な外れ値(outliers)が堅固な統計値(robust statistics)からの手続きを介して処理されなければならないという警告(caveat)を備えて、特徴対応が利用可能であるという仮定にさらに依存する。本開示の教示によれば、特徴対応の初期確立の要件を除去するポーズ決定プロセスが提供される。一態様において、特徴対応の置換グループ(a permutation group)のエレメントに対してマージナライゼーション(marginalization)を実行することにより成就される。

[0026]例えば、ここで説明されるプロセスの少なくともいくつかのある態様は、２つの特徴セット間のすべての潜在的な一致（及び不一致）に対してマージナライズする(marginalize)（たとえば、平均化する）ことによる特徴一致のサーチをバイパスする。ネイティブアプローチ(a native approach)は克服できない組み合わせ問題(an insurmountable combinatorial problem)に直面するであろう。したがって、ここに記載されたプロセスは、マージナライゼーション（例えば、平均化）手続きに関するすぐれた近似値を与える近似プロセスの使用を介してこの問題を解決する。特徴一致を確立する要件を排除するほかに、本プロセスの態様はまた外れ値(outliers)、すなわち如何なる他の特徴と一致せず単にスプリアス(spurious)の入力ポイントである特徴を取り扱うように任意に構成されることができる。

[0027]一般に、本開示の態様は、関心のある視覚−動きパラメータ（例えば、回転と変換(translation)、「基本マトリクス」、「ホモグラフィ(homography)」、「アフィン変換」等）の所定値θに関するセットＹ（例えば、列）における任意の所定の特徴に対するセットＸ（例えば、行）からの任意の所定の特徴をマッチングするコストをそのエントリが含むマトリクスを最初に作成することを含む。マトリクスはまた、潜在的な外れ値に関する特殊エントリを含む、それは、原則として任意の特徴であり得る。特徴一致に対するマージナライゼーションは固有の行および列のエレメントの積の全ての置換を加算することを含むことができ、それは組み合わせ的爆発(a combinatorial explosion)を引き起こすであろう。しかしながら、ここに説明される態様は、この動作の結果に関するすぐれた推定値を生成することができ、それにより値θを最適化するように最小化することができるコスト関数を提供するプロセスを提供する。これらのプロセスの複数のインプリメンテーションは非常に厳しい状況下(under very harsh conditions)（すなわち、多数の外れ値、雑音データ、貧弱な初期化等）で視覚−動きパラメータの値θの推定値を取得することが可能である。

[0028]例示として、図１は、視覚−動きパラメータの値を派生させるために特徴マッチングのインプリメンテーションなしに視覚−動き推定を含むカメラのポーズを決定するプロセス１００を例示するフローチャートである。プロセスブロック１０２はシーンの第１および第２の画像を取得することを含む。一例において、第１および第２の画像は、カメラの動きおよび／またはシーンの動きはそれ自体決定されることができるように区別できるビューポイントから取られたカメラにより撮像されたシーンの画像である。プロセスブロック１０４は第１の画像からの特徴の第１のセットの抽出を含み、プロセスブロック１０６は第２の画像から特徴の第２のセットの抽出を含む。

[0029]図２を参照すると、区別できるビューポイントからのいくつかの画像を撮像することを例示する図である。たとえば、図２はいくつかの区別できるビューポイント（例えば、Ｖ１およびＶ２）からの１つまたは複数の物体２０４を含むシーンのいくつかの画像（例えば、画像１および画像２）を撮像するカメラ２０２を例示する。図２は２つの区別可能なビューポイントから取られた２つの画像を例示するのみであるが、本開示の態様は３以上の画像を撮像することを含むことができる。いくつかの例において、種々のカメラ２０２の種々の位置属性は距離、ピッチ(pitch)、およびヨー(yaw)のように、画像１の撮像と画像２の撮像との間で変化されることができる。他の例において、物体２０４の位置属性は変化されたがカメラ２０２の位置は同じままである。さらに、他の例において、カメラ２０２と物体２０４の両方の位置属性は画像１と画像２の間で変化された。

[0030]図２はまた撮像された画像からの特徴の抽出を例示する（すなわち、プロセスブロック１０４および１０６）。一例において、特徴抽出は特徴のそれぞれのセットを抽出するために各画像に、スケール不変特徴変換(Scale Invariant Feature Transform)(SIFT)アルゴリズムのような、ラプラシアンオブガウス(Laplacian of Gaussian)(LoG)またはディファレンスオブガウシアン(Difference of Gaussians)(DoG)に基づいた特徴検出器を適用することを含む。例として、図２は画像１から抽出された特徴２０６の各々を含む特徴の第１のセット２０８を例示し、一方特徴の第２のセット２１２は画像２から抽出された特徴２１０の各々を含む。ここで使用されるように特徴は一般的に少なくとも２つの画像間でマッチングされることが可能である検出されるいかなるものにも言及することができ、この場合、十分な数のこれらの一致が発見された場合、変換(translation)または回転のような視覚−動きパラメータの計算が可能になる。一例において、特徴は、ライン、エッジ、またはリッジ(ridge)を含むことができる。別の例において、特徴はコーナー(corner)、ブロブ(blob)またはポイント(point)のようなローカライズされた関心点を含むことができる。さらに他の例において、特徴は、関心点または関心点を取り囲む領域の「キーポイントロケーション」および「ディスクリプタ(descriptor)」を含む。以下のさらに詳細に記載されるように、ここに使用される抽出された特徴は画像間でマッチさせることができるけれども、ここで説明される実施形態は視覚−動きパラメータの値を決定するためにそのような特徴間のマッチ(matches)（例えば、対応(correspondences)）を実際に見つけるプロセスを回避する。

[0031]図１に戻ると、プロセス１００は次にプロセスブロック１０８に進み、そこで、視覚−動きパラメータの値は特徴の第１および第２のセットに基づいて計算されるが、第１のセットの特徴と第２のセットの特徴とのマッチングなしにである。計算された視覚−動きパラメータは１つまたは複数のホモグラフィ(homography)、基本マトリクス、ポイントの２つのセット間のリジッド変換(rigid transformation)、回転、変換、必須マトリクス(essential matrices)、純回転(pure rotation)、アフィン変換、および射影変換の１つまたは複数を含むことができる。プロセスブロック１１０において、カメラのポーズ（例えば、図２のカメラ２０２）は少なくとも視覚−動きパラメータの値に基づいて決定される。

[0032]図３は、視覚−動きパラメータに関する値を計算する例示プロセス３００を図示するフロー―チャートである。プロセス３００は図１のプロセスブロック１０８の１つの可能なインプリメンテーションである。プロセスブロック３０２は、特徴の第１のセット内の各特徴を特徴の第２のセットの各特徴とマッチングするコスト関数を導き出すことを含む。一例において、導出されたコスト関数は特徴の２つのセット間のすべてのもっともらしいマッチ(plausible match)を決定するコストである。次に、プロセスブロック３０３において、視覚−動きパラメータの第２のセットの特徴に特徴の第１のセットからの特徴をマッチさせるコストを符号化するマトリクスが形成される。たとえば、マトリクスは、行に配列された第１のセットからの特徴と、列に配列された第２のセットからの特徴を含むことができ、ここで、マトリクスは、視覚−動きパラメータの任意の所定の値に関して第２のセット（例えば列）内の特徴に第１のセット（例えば行）からの特徴をマッチさせるコストを符号化する。したがって、マトリクスを作成することはθ（すなわち、視覚−動きパラメータの値）が与えられるθ(given θ)すべての可能なマッチを表すことができる。外れ値を処理するために特別なエントリを追加する任意のステップが含まれることができる。すなわち、第１または第２のいずれかのセット内の特徴がマッチを有さない可能性に対処する(account for)さらなるコストを用いて行、列またはその両方においてオーグメント(augmented)されることができる。マトリクスをスパース(sparse)させることを含む、マッチについての情報がすでに利用可能である場合にはさらなる任意のステップが含まれることができる。

[0033]一実施形態において、プロセスブロック３０２においてコスト関数を導出することはマトリクスのパーマネント(a permanent)を決定することを含むことができる。マトリクスのパーマネントを推定するために近似方法が使用されることができる。

[0034]次に、プロセスブロック３０４において、コスト関数が最適化される、ここで、視覚−動きパラメータの値の決定はつぎに最適化されたコスト関数に基づいて行われる。一例において、コスト関数を最適化することはマトリクスのパーマネントを最大化することによりθを最適化することを含むここで、パーマネントはデターミナント(determinant)のように見え、負の符号(negative signs)は無く、マッチに対するマージナライゼーションと同等である。

[0035]図４Ａはコスト関数を最適化する例示プロセス４００を図示するフローチャートである。プロセス４００は図３のプロセスブロック３０４の１つの可能なインプリメンテーションである。プロセスブロック４０２は推定のための複数の候補動きモデルを選択することを含む。候補動きモデルは物体の異なる可能な動きに関してシーンの画像がどのように変化した可能性があるかを記載するモデルである。プレーナシーンの動きを決定するための候補動きモデルの一例が仮定されることができ、ここで、候補動きモデルはシーンの画像（例えば、第１の画像）の２Ｄ変換である。さらに(even still)、３Ｄシーンの動きを決定するとき、候補動きモデルの一例が仮定される(assumed)ことができる、ここで、候補動きモデルはその３Ｄ位置とオリエンテーション(orientation)に依存してその態様を定義する。図４Ｂは複数の候補動きモデルを選択するプロセス４０８を例示するフローチャートである。プロセス４０８は図４Ａのプロセスブロック４０２の１つの可能なインプリメンテーションである。プロセスブロック４１０において、線形近似はマトリクスのパーマネント（例えば、図３のプロセスブロック３０３）に対して適用される。つぎに、プロセスブロック４１２において、コスト関数のバージョン（例えば、簡単化されたバージョン）を解くことにより視覚−動きパラメータの値に関して第１の近似値が取得される。プロセスブロック４１４において、コスト関数が評価される複数の候補動きモデルに第１の近似値が追加される。明らかなように、プロセス４０８は視覚−動きパラメータの複数の値に関していくつかの近似値に関して反復され得る。

[0036]図４Ａを参照すると、プロセスブロック４０４において、複数の候補動きモデル（すなわち、プロセスブロック４０２で選択された複数の候補動きモデル）の各々に関してコスト関数値が計算される。したがって、プロセスブロック４０４は各候補動きモデルに関する特徴の２つのセット間のすべてのもっともらしいマッチを決定するコストを計算することを含む。つぎに、プロセスブロック４０６において、視覚−動きパラメータの値は複数のコスト関数値に基づいて決定される。一例において、視覚−動きパラメータの値を決定することは値に関連づけられた最良の計算されたコスト関数に基づいて決定される。一例において、最低のコスト関数値は最良のコスト関数値である。

[0037]上述したプロセス１００、３００および４００は特徴マッチングの必要性なしに視覚−動きパラメータの値に基づいてカメラのポーズを決定するための例示プロセスの一般的な概要(general overview)を提供する。コスト関数導出のためのさらなる詳細並びに例示最適化プロシージャが以下に記載される。

[0038]一例において、θを視覚−動きパラメータの値とし、ＸおよびＹを２つの異なる画像上で観察される特徴の有限の集合(finite collection)とする（例えば、Ｘは第１の画像から抽出された特徴の第１のセット２０８に対応し、Ｙは第２の画像から抽出された特徴の第２のセット２１２に対応することができる）。したがって、ここで説明される態様は尤度関数(X, Y/θ)を最大化しようと試みることができる。

[0039]１つの態様において、プロセスを簡単化するための手段として、ＸおよびＹの候補は同じでありそれらの共通値はＮで表示されることができると仮定されることができる。さらに外れ値の欠如があると仮定される。成されることができる他の仮定は尤度関数

の存在である。ここで、各Ｉ=1,…Nに関してペア(Ｘ_ｉ, y_σ(ｉ))は特徴x_ｉ∈Y間の対応(correspondence)である。σは（離散）置換グループＳ_Ｎの任意のエレメントである。尤度関数尤度関数p(X,Y|θ)の導出は以下の通りである。

[0040]ポイントマッチに対するマージナライゼーション：

[0041]「ラべリング独立性」

[0042]標準独立性仮定：

[0043]式（１）の右辺は単に攪乱母数パラメーター(a nuisance parameter)としてσの存在下で左辺を書き換えたものである。式（２）において、σの所定の選択はＸおよびＹの特徴間の対応の選択に等しいことが明確にされる。式（３）を取得するために使用される「ラべリング独立性」は、特徴についての情報が存在しない場合、(Pσ｜θ)はＸまたはＹに対する依存性を伝えない(does not carry)という事実を単に述べている。１つの例において、式（１−４）は図３のプロセッサ３００のブロック３０２を処理するために関連して上述したコスト関数の可能なインプリメンテーションである。

[0044]次に、マッチに対するマージナライゼーションは、以下の通り、A_ｉ，ｊ:=p((x_ｉ,y_σ(ｉ))|θ)であるようにＮ×ＮマトリクスＡを定義することにより決定されることができる。

これは、１／Ｎ！および項sign(σ)を別として式（４）と同じである。
Ａのデターミナントと式（４）との間の類似性は一致(a coincidence)ではない。任意の所定のＮ×ＮマトリクスＡに関して、式：

はＡのパーマネント(the permanent)を定義し、デターミナント(the determinant)とパーマネントの両方は正方行列(square matrix)のイマナント(immanant)の特殊な例である。デターミナントは、Ｎについての多項式時間(polynomial time)で計算されることができ、このパーマネントの計算に関する最速アルゴリズムは(0,1)マトリクスのより簡単なケースにおいてさえもO(N2^N)で実行し、問題は、＃Ｐ−コンプリート(complete)計算上の複雑性(computational-complexity)クラスに属することが示された。大雑把にいえば、＃Ｐコンプリートクラス(#P-complete class)は、カウントの問題（「いくつかあるか？」）であるのに対しＮＰコンプリートは決定問題（「何かあるか？」）である。

[0045]パーマネントの正確な計算は数百のＮの値に関して実現困難であり得、特に視覚−動きアプリケーションの場合にはそうである。従って、本開示の態様はマトリクスのパーマネントを推定する近似方法をインプリメントすることができる。第１の例示近似方法は、二部グラフ(bipartite graphs)の完全マッチの近似カウントに基づき、一方別の近似方法はデターミナントを用いたパーマネントの不偏の(unbiased)推定量(estimators)に基づく。

[0046]たとえば、近似方法は、０−１マトリクスに関するパーマネントの計算と二部グラフのパーフェクトマッチのカウントとの間の等価(equivalence)に基づくカウントスキームを介した近似を含むことができる。そのような方法の中心思想は式（６）のσの各値を、ＸおよびＹにおける頂点(vertices)を備えた二部グラフのパーフェクトマッチとして解釈することである；パーフェクトマッチに対して均一にサンプリングし、サンプリングされたマッチがグラフのエッジセット(edge set)に対するサブセットであるイベントの相対頻度をカウントすることによりパーマネントの推定量が生成される。

[0047]非負数エントリを備えた任意のマトリクスへの一般化(generalization)は、エッジの重みに従って各サンプルを再重みづけすることを通して行われるが、オリジナル問題においてさえも、サンプリングの均一性を確実にするための方法が使用される。

[0048]パーマネントを近似する別の方法はデターミナントを使用する。別のマトリクスＡのパーマネントの不偏の推定量を計算するためにそのデターミナントが使用されることができるマトリクスＢを生成することを得ようとする(aiming at)この方法は、パーマネントとデターミナントとの間の類似性を利用する。

[0049]上述した式（１−６）の公式化(formulation)は同じ濃度(cardinality)を有する特徴セットを仮定し、任意の特定の特徴対応にコミット(commit)しないけれども、外れ値、すなわち、他のセット内のいずれの特徴にもマッチしない特徴の存在を認めもしない。異なる濃度のセットを有することによりさらに大きな濃度を有するセットの少なくともいくつかの特徴は対応を有さないであろうことが保証されるので、これらの２つの問題は一緒に解決されることができる(may be addressed jointly)。

[0050]たとえば、エレメントがシンボルｘ_ｉおよびｙ_ｊでありｉ=1+M,…,M+Nでありj=N+1,…M+NであるセットX’およびY’を定義する。ｉ=1,…,Mの場合、特徴ｘ_ｉ∈ＸはＹにおける対応を有さない場合外れ値であり、これはY’におけるシンボルｙ_ｉ＋Ｎをｘ_ｉとペアリングすることにより表されれることができる。さらに、この特徴が外れ値であるときｘ_ｉの確率密度はp(ｘ_ｉ, ｙ_ｉ+N|θ)として表されることができる。同等操作(equivalent operation)は、Ｙにおける外れ値を示すためにYおよびX’のエレメントで実行されることができ、それによりこの特徴がはずれ値であるときj=1,…Nの場合にｙ_ｊの確率密度p(ｘ_ｊ＋Ｍ, ｙ_ｊ|θ)を定義することができる。

[0051]図５はここに開示されたプロセスを実行することができるモバイルデバイス５００を図示する機能ブロック図である。一態様において、モバイルデバイス５００は上述したプロセス１００のような特徴マッチングの必要性なしに視覚−動きパラメータの値に基づいてポーズ決定を実行することができるコンピュータである。モバイルデバイス５００は、カメラ５０２並びにカメラ５０２により撮像された画像を表示することができるディスプレイ５２２を含むオプショナルユーザインタフェース５０６を任意に含むことができる。ユーザインタフェース５０６はまたユーザが情報をモバイルデバイス５００に入力することができるキーパッド５２４または他の入力デバイスを含むことができる。所望であれば、キーパッド５２４はタッチセンサを備えたディスプレイ５２２にバーチャルキーパッドをディスプレイ５２２に一体化(integrate)することにより除去することができる。ユーザインタフェース５０６はまたマイクロフォン５２６およびスピーカ５２８を含むことができる。

[0052]モバイルデバイス５００はまたもし存在するなら、カメラ５０２とユーザインタフェース５０６に接続され通信するコントロールユニット５０４を含む。コントロールユニット５０４はカメラ５０２からおよび／またはネットワークアダプタ５１６から受信された画像を受信し処理する。コントロールユニット５０４は処理ユニット５０８、関連づけられたメモリ５１４、ハードウエア５１０、ファームウェア５１２、ソフトウェア５１５およびグラフィックエンジン５２０により提供されることができる。

[0053]コントロールユニット５０４はさらに特徴抽出器(feature extractor)５１７および動き検出器(motion detector)５１８を含むことができる。特徴検出器５１７は図１の処理ブロック１０４および１０６を参照して上述したような１つまたは複数の特徴抽出プロシージャを実行するように構成されることができる。動き検出器５１８は、特徴マッチングの必要性なしに視覚−動きパラメータの値を計算することを含む、ポーズ決定に関して上述した１つまたは複数のプロセス１００、２００または３００を実行するように構成されることができる。処理ユニット５０８、特徴抽出器５１７および動き検出器５１８は明瞭さのために別箇に図示されているが、単一ユニットであってもよくおよび／または処理ユニット５０８内で実行されるソフトウエア５１５内の命令に基づいて処理ユニット５０８内にインプリメントされることができる。処理ユニット５０８、並びに特徴抽出器５１７および動き検出器５１８は、必ずしも必要ではないが、１つまたは複数のマイクロプロセッサ、エンベッデドプロセッサ(embedded processors)、コントローラ、特定用途集積回路(ASICs)、デジタルシグナルプロセッサ（ＤＳＰｓ）等を含むことができる。プロセッサおよび処理ユニットという用語は特定のハードウエアよりはむしろシステムによりインプリメントされた機能を記載する。さらに、ここで使用されるように、「メモリ」という用語は、装置５００に関連づけられたロングターム(long term)、ショートターム(short term)または他のメモリを含む任意のタイプのコンピュータ記憶媒体に言及し、メモリのいかなる特定のタイプまたはメモリの数、またはメモリが記憶されるメディアのタイプに限定されない。

[0054]ここに記載されるプロセスはアプリケーションに応じて種々の手段によりインプリメントされることができる。例えば、これらのプロセスはハードエウア５１０、ファームウェア５１２、ソフトウエア５１５またはそれらの任意の組み合わせでインプリメントされることができる。ハードウエアインプリメンテーションの場合、処理ユニットは１つまたは複数の特定用途集積回路（ＡＳＩＣ）、デジタルシグナルプロセッサ（ＤＳＰｓ）、デジタルシグナルプロセッシングデバイス(DSPDs)、プログラマブルロジックデバイス(PLDs)、フィールドプログラマブルゲートアレイ（ＦＰＧＡｓ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、ここに記載された機能を実行するように設計された他の電子ユニット、またはそれらの組み合わせであり得る。

[0055]ファームウェアおよび／またはソフトウェアインプリメンテーションの場合、プロセスはここに記載された機能を実行するモジュール（例えば、手続、機能等）でインプリメントされることができる。命令を有形的に(tangibly)具現化するコンピュータ可読媒体はここに記載されたプロセスをインプリメントする際に使用されることができる。例えば、プログラムコードはメモリ５１５に記憶され処理ユニット５０８により実行されることができる。メモリは処理ユニット５０８内部にあるいは外部にインプリメントされることができる。

[0056]ファームウェアおよび／またはソフトウェアでインプリメントされる場合、機能はコンピュータ可読媒体上の１つまたは複数の命令またはコードとして記憶されることができる。複数の例は、データ構造で符号化された非一時的コンピュータ可読媒体およびコンピュータプログラムで符号化されたコンピュータ可読媒体を含む。コンピュータ可読媒体は物理コンピュータ記憶媒体を含む。プログラム媒体はコンピュータによりアクセス可能な任意の利用可能な媒体であり得る。例として、限定されるものではないが、そのようなコンピュータ可読媒体は、命令またはデータ構造の形態で所望のプログラムコードを記憶するように使用されることができ、コンピュータによりアクセスされることができるＲＡＭ、ＲＯＭ、フラッシュメモリ、ＥＥＰＲＯＭ(登録商標)、ＣＤ−ＲＯＭまたは他の光学ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または任意の他の媒体；ここで使用されるようなディスク(disk)およびディスク(disc)はコンパクトディスク（ＣＤ）、レーザーディスク(登録商標)、光学ディスク、デジタルバーサタイルディスク（ＤＶＤ）、フロッピー(登録商標)ディスク、およびブルーレイディスク(disc)を含み、ここで、ディスク(disk)は通常データを磁気的に再生し、一方、ディスク(disc)はレーザで光学的にデータを再生する。上述した組み合わせはコンピュータ可読媒体の範囲内に含まれるべきである。

[0057]図６はモバイルデバイス６０２のポーズを決定するためのシステム６００の機能ブロック図である。図示されるように、システム６００は、１つまたは複数の物体６１４を含むシーン６１３の画像を撮像することができるカメラ（現在の表示(current view)では示されない）カメラを含む例示モバイルデバイスを含む。

[0058]モバイルデバイス６０２はカメラにより撮像された画像を示すためのディスプレイを含むことができる。図５のモバイルデバイス５００はモバイルデバイス６０２の１つの可能なインプリメンテーションである。モバイルデバイス６０２はまた、例えば衛星位置決めシステム(SPS)からの信号を用いてその緯度および経度を決定することに基づいたナビゲーションのために使用されることができる、それは、セルラタワー（複数の場合もある）６０４またはワイヤレスコミュニケーションアクセスポイント６０５を含む位置を決定するための任意の他の適切なソースを含む。モバイルデバイス６０２はまたモバイルデバイス６０２の方位(orientation)を決定するために使用されることができるデジタルコンパス、加速度計またはジャイロスコープのような方位センサを含むことができる。

[0059]ここで使用されるように、モバイルデバイスはセルラまたは他のワイヤレスコミュニケーションデバイス、パーソナルコミュニケーションシステム（ＰＣＳ）デバイス、パーソナルナビゲーションデバイス（ＰＮＤ）、パーソナルインフォメーションマネージャ（ＰＩＭ）、パーソナルデジタルアシスタント（ＰＤＡ）、ラップトップまたはナビゲーション位置決め信号のようなワイヤレスコミュニケーションおよび／またはナビゲーション信号を受信することができる他の適切なモバイルデバイスのようなデバイスに言及する。「モバイルデバイス」という用語はまた、衛星信号受信、支援データ受信および／または位置関連処理がデバイスでまたはＰＮＤで生じるかどうかに関わらず、ショートレンジワイヤレス、赤外線、有線接続、または他の接続によるような、パーソナルナビゲーションデバイス（ＰＮＤ）で通信するデバイスを含むように意図される。また、「モバイルデバイス」は、インターネット、Ｗｉ−Ｆｉまたは他のネットワークを介するような、サーバと通信することができるワイヤレスコミュニケーションデバイス、コンピュータ、ラップトップ等を含み、衛星信号受信、支援データ受信および／または位置関連処理がデバイスで、サーバで、またはネットワークに関連づけられた他のデバイスで生じるかどうかに関係しないすべてのデバイスを含むように意図される。さらに、「モバイルデバイス」はまた、オーグメンテッドリアリティ（ＡＲ）、バーチャルリアリティ（ＶＲ）、および／またはミックスリアリティ（ＭＲ）アプリケーションを可能にするすべての電子デバイスを含むことができる。上記任意の動作可能な組み合わせも「モバイルデバイス」とみなされる。

[0060]衛星位置決めシステム（ＳＰＳ）はトランスミッタから受信された信号に少なくとも部分的に基づいて地球上または地球上空のロケーションをエンティティが決定することを可能にするように位置されたトランスミッタのシステムを典型的に含む。そのようなトランスミッタは典型的にチップのセット番号(a set number)の反復疑似ランダムノイズ(PN)コードでマークされた信号を典型的に送信し、地上ベースのコントロールステーション、ユーザ機器および／またはスペースビークルに位置されることができる。特定の例において、そのようなトランスミッタは地球周回軌道衛星ビークル（ＳＶｓ）６９０６上に位置されることができる。例えば、全地球測位システム（ＧＰＳ）、ガリレオ(Galileo)、グロナス(Glonass)またはコンパス(Compass)のようなグローバルナビゲーションサテライトシステム（ＧＮＳＳ）のコンステレーション内のＳＶは、コンステレーション内の他のＳＶｓにより送信されたＰＮコードから区別可能なＰＮコードでマークされた信号を送信することができる（例えば、ＧＰＳにおいてみられるように各衛星に対して異なるＰＮコードを用いてまたはグロナスにおいてみられるように異なる周波数に関して同じコードを用いて）。

[0061]ある態様に従って、ここに提供される技法はＳＰＳに関するグローバルシステム（例えば、ＧＮＳＳ）に限定されない。例えば、ここに提供される技法は、例えば、日本上空の準天頂衛星システム(QZSS)、インド上空のインド地域ナビゲーション衛星システム（ＩＲＮＳＳ）、中国上空のBeidou等のような種々の地域システム、および／または１つまたは複数のグローバルおよび／または地域ナビゲーション衛星システムに関連づけられることができる、さもなければそれらと共に使用するために可能にされる種々のオーグメンテッドシステム（例えば、衛星ベースオーグメンテッドシステム（ＳＢＡＳ））に適用されるかさもなければそれらに用いることが可能にされることができる。例示であり限定されないが、ＳＢＡＳは、例えば、ワイドエリアオーグメンテッドシステム（ＷＡＳＳ）、ヨーロッパ静止衛星航法オーバレイサービス(EGNOS)、マルチ機能衛星オーグメンテ―ションシステム（ＭＳＡＳ）、ＧＰＳ支援ジオオーグメンテッドナビゲーションまたはＧＰＳおよびジオオーグメンテッドナビゲーションシステム（ＧＡＧＡＮ）、および／または類似のもののような、インテグリティ(integrity)情報、異なる補正(differential corrections)等を提供するオーグメンテ―ションシステム(複数の場合もある)を含むことができる。したがって、ここに使用されるように、ＳＰＳは１つまたは複数のグローバルおよび／または地域航法衛星システムおよび／またはオーグメンテーションシステムの任意の組み合わせを含むことができ、ＳＰＳ信号はＳＰＳ、ＳＰＳに類似するもの、および／またはそのような１つまたは複数のＳＰＳに関連づけられた他の信号を含むことができる。

[0062]位置決定技法は、ワイヤレスパーソナルエリアネットワーク（ＷＰＡＮ）、ワイヤレスローカルエリアネットワーク（ＷＬＡＮ）、ワイヤレスワイドエリアネットワーク（ＷＷＡＮ）のような、ワイヤレス通信アクセスポイント６０５からおよびセルラタワーを含む、種々のワイヤレス通信ネットワークと共にインプリメントされることができるので、モバイルデバイス６０２は位置決定のためのＳＰＳとともに使用することに限定されない。さらにモバイルデバイス６０２は、セルラタワー６０４を介した種々のワイヤレス通信ネットワークを用いておよびワイヤレス通信アクセスポイント６０５からまたは所望であれば衛星ビークル６０６を用いて、ポーズ決定および／または視覚−動きパラメータの値の計算を支援するために１つまたは複数のサーバ６０８と通信することができる。「ネットワーク」および「システム」という用語は、しばしば相互交換可能に使用される。ＷＷＡＮはコード分割多重アクセス（ＣＤＭＡ）ネットワーク、時分割多重アクセス（ＴＤＭＡ）ネットワーク、周波数分割多重アクセス（ＦＤＭＡ）ネットワーク、直交周波数分割多重アクセス（ＯＦＤＭＡ）ネットワーク、シングルキャリア周波数分割多重アクセス（ＳＣ−ＦＤＭＡ）ネットワーク、ロングタームイボリューション（ＬＴＥ(登録商標)）等であり得る。ＣＤＭＡネットワークはcdma2000、ワイドバンドＣＤＭＡ（Ｗ−ＣＤＭＡ(登録商標)）等のような１つまたは複数の無線アクセス技術（ＲＡＴｓ）をインプリメントすることができる。Cdma2000はＩＳ−９５、ＩＳ−２０００およびＩＳ−８５６標準を含む。ＴＤＭＡネットワークはモバイル通信のためのグローバルシステム（ＧＳＭ(登録商標)）、デジタルアドバンストモバイルフォンシステム（Ｄ−ＡＭＰＳ）、またはいくつかの他のＲＡＴをインプリメントすることができる。ＧＳＭおよびＷ−ＣＤＭＡは「第三世代パートナーシッププロジェクト」（３ＧＰＰ(登録商標)）という名前のコンソーシアム(consortium)からのドキュメントに記載されている。Ｃｄｍａ２０００は「第三世代パートナーシッププロジェクト２」（３ＧＰＰ２）という名前のコンソーシアムからのドキュメント内に記載されている。３ＧＰＰおよび３ＧＰＰ２ドキュメントは公に入手可能である。ＷＬＡＮはＩＥＥＥ８０２．１１ｘネットワークであり得、ＷＰＡＮはBluetooth(登録商標)ネットワーク、ＩＥＥＥ８０２．１５ｘまたはその他のタイプのネットワークであり得る。この技法はまたＷＷＡＮ、ＷＬＡＮおよび／またはＷＰＡＮの任意の組み合わせと共にインプリメントされることができる。

[0063]図６に示されるように、システム６００はモバイルデバイス６０２のカメラのポーズを決定するためにシーン６１３の画像を撮像するモバイルデバイス６０２を含む。図示されるように、モバイルデバイス６０２はサーバ６０８に結合される、例えば、セルラタワー６０４またはワイヤレス通信アクセスポイント６０５を介してワイヤレスワイドエリアネットワーク（ＷＷＡＮ）のようなネットワーク６１０をアクセスすることができる。図５のモバイルデバイス５００はサーバ６０８の１つの可能なインプリメンテーションである。図６は１つのサーバ６０８を示すけれども、複数のサーバが使用されてもよいことが理解されなければならない。モバイルデバイス６０２は自身でポーズ決定を行うことが出来るかまたは画像データをサーバ６０８に送信することができ、この場合ポーズ決定および／または視覚−動きパラメータの値の決定がサーバ６０８により行われることができる。モバイルデバイス６０２は少なくとも２つの撮像された画像から特徴を抽出し、次に、モバイルデバイス６０２で局部的にプロセス１００のようなポーズ決定プロセスを実行することができる。しかしながら、所望であれば、ポーズ決定はサーバ６０８（または他のサーバ）により実行されることができ、この場合、撮像された画像からの抽出された特徴または画像自身のいずれかがモバイルデバイス６０２によりサーバ６０８に供給される。

[0064]図７はここに教示されるように、ポーズ決定をサポートするように構成されたモバイルデバイス装置７００に採用されることができるコンポーネントのいくつかのサンプル態様を図示する。モバイルデバイス装置７００は図５のモバイルデバイスおよび／または図６のモバイルデバイス６０２の１つの可能なインプリメンテーションである。

[0065]シーンの第１および第２の画像を取得するためのモジュール７０２は少なくともいくつかの態様において、例えば、図５のカメラ５０２および／またはネットワークアダプタ５１６に対応することができる。第１の画像からの特徴の第１のセットを抽出するモジュール７０４は少なくともいくつかの態様において、例えば、図５の特徴抽出器５１７および／または処理ユニット５０８に対応することができる。第２の画像からの特徴の第２のセットを抽出するためのモジュール７０６は、いくつかの態様において、例えば、図５の特徴抽出器５１７および／または処理ユニット５０８に対応することができる。特徴の第２のセットと特徴の第１のセットをマッチングすることなしに特徴の第２のセットと特徴の第１のセットに基づいて視覚−動きパラメータに関する値を計算するためのモジュール７０８は、いくつかの態様において、例えば、図５の動き検出器５１８および／または処理ユニット５０８に対応することができる。視覚−動きパラメータの値に基づいてカメラのポーズを決定するためのモジュール７１０は、いくつかの態様において、例えば、図５の特徴抽出器動き検出器５１８および／または処理ユニット５０８に対応することができる。

[0066]図７のモジュール７０２−７１０の機能性はここでの教示に一致する種々の方法でインプリメントされることができる。いくつかの設計において、これらのモジュール７０２−７１０の機能性は１つまたは複数の電子コンポーネントとしてインプリメントされることができる。いくつかの設計において、これらのモジュール７０２−７１０の機能性は１つまたは複数のプロセッサコンポーネントを含む処理システムとしてインプリメントされることができる。いくつかの設計において、これらのモジュール７０２−７１０の機能性は例えば１つまたは複数の集積回路（例えば、ＡＳＩＣ）のすくなくとも一部を用いてインプリメントされることができる。ここに記載されるように、集積回路はプロセッサ、ソフトウェア、他の関連されるコンポーネント、またはそれらのある(some)組み合わせを含むことができる。したがって、異なるモジュールの機能性は例えば、集積回路の異なるサブセット、ソフトウェアモジュールのセットの異なるサブセット、またはそれらの組み合わせとしてインプリメントされることができる。また、所定のサブセット（例えば、集積回路のおよび／またはソフトウェアモジュールの）が２以上のモジュールに関する機能性の少なくとも一部を提供することができることが理解されるであろう。

[0067]さらに、図７により表されたコンポーネントと機能並びにここに記載された他のコンポーネントと機能は任意の適切な手段を用いてインプリメントされることができる。そのような手段はまた、少なくとも部分的に、ここに教示された対応する構造を用いてインプリメントされることができる。例えば、図７の「〜する手段(means for)」コンポーネントと共に上述したコンポーネントはまた同様に指定された「〜する手段」機能性に対応することができる。したがって、いくつかの態様において、そのような手段の１つまたは複数は、プロセッサコンポーネント、集積回路、またはここに教示された他の適切な構造の１つまたは複数を用いてインプリメントされることができる。

[0068]当業者は、情報と信号はさまざまな異なるテクノロジー(technologies)およびテクニック(techniques)のいずれかを用いて表されることができることを理解するであろう。例えば、上述した記載全体を介して参照されることができるデータ、命令、コマンド、情報、信号、ビット、シンボルおよびチップは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学粒子、または任意のそれらの組み合わせにより表されることができる。

[0069]さらに、当業者は、ここに開示された実施形態とともに記載された種々の例示論理ブロック、モジュール、回路およびアルゴリズムステップは電子ハードウエア、コンピュータソフトウェア、またはそれらの組み合わせとしてインプリメントされることができることを理解するであろう。ハードウェアとソフトウェアのこの互換性を明確に示すために、さまざまな例示コンポーネント、ブロック、モジュール、回路およびステップが一般にそれらの機能性の観点において上述した。そのような機能性がハードウェアまたはソフトウェアとしてインプリメントされるかどうかは、全体のシステムに課された設計制約および特定のアプリケーションに依存する。熟練した職人(skilled artisans)は、各特定のアプリケーションに関して、さまざまな方法で記載された機能性をインプリメントすることができるがそのようなインプリメンテーションの決定は本願発明の範囲からの逸脱を生じると解釈されるべきではない。

[0070]ここに開示された実施形態に関連して記載された方法、シーケンスおよび／またはアルゴリズムはハードウェアで、プロセッサにより実行されるソフトウェアモジュールでまたはその２つの組み合わせで直接具現化されることができる。ソフトウェアモジュールはＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭ(登録商標)メモリ、レジスタ、ハードディスク、リムーバブルディスク、ＣＤ−ＲＯＭ、またはこの分野で知られた記憶媒体の任意の他の形態の記憶媒体内に常駐することができる。例示記憶媒体は、プロセッサが記憶媒体から情報を読み出すことができ情報を書き込むことができるようにプロセッサに結合される。別の方法では、記憶媒体はプロセッサに集積されることができる。

[0071]従って、この発明の実施形態はワイヤレス通信ネットワークにおいてモバイルデバイスの位置を支援するまたはさもなければ決定するための方法を具現化する非一時的コンピュータ可読媒体を含むことができる。従って、この発明は図示された例に限定されず、ここに記載された機能性を実行するための任意の手段がこの発明の実施形態に含まれる。

[0072]上述した開示はこの発明の例示実施形態を示すけれども、さまざまな変更(changes)および修正(modifications)が、添付されたクレームにより定義された発明の範囲から逸脱することなくここで成されることができることに留意する必要がある。ここに記載された発明の実施形態に従う方法クレームの機能、ステップおよび／または行動(action)は任意の特定の順番で実行される必要はない。さらに、この発明のエレメントは単数で記載されまたはクレームされることができるけれども、単数への限定が明示的に述べられない限り、複数も考慮される。

[0072]上述した開示はこの発明の例示実施形態を示すけれども、さまざまな変更(changes)および修正(modifications)が、添付されたクレームにより定義された発明の範囲から逸脱することなくここで成されることができることに留意する必要がある。ここに記載された発明の実施形態に従う方法クレームの機能、ステップおよび／または行動(action)は任意の特定の順番で実行される必要はない。さらに、この発明のエレメントは単数で記載されまたはクレームされることができるけれども、単数への限定が明示的に述べられない限り、複数も考慮される。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
カメラのポーズを決定する方法において、前記方法は、
シーンの第１の画像を取得することと、ここにおいて、前記第１の画像は前記カメラにより撮像される、
シーンの第２の画像を取得することと、ここにおいて、前記第２の画像は前記カメラにより撮像される、
前記第１の画像から特徴の第１のセットを抽出することと、
前記第２の画像から特徴の第２のセットを抽出することと、
前記第２のセットの特徴と前記第１のセットの特徴をマッチさせることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算することと、
前記視覚−動きパラメータの値に少なくとも基づいて前記カメラの前記ポーズを決定することと、
を備える、方法。
［Ｃ２］
前記第２のセットの特徴と前記第１のセットの特徴をマッチさせることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの値を計算することは、
前記特徴の第２のセット内の各特徴と前記特徴の第１のセット内の各特徴をマッチングするコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に関して前記第１のセットから前記第２のセットへ特徴をマッチングするコストを符号化するマトリクスを作成することと、
前記視覚−動きパラメータの前記値を決定するための前記コスト関数を最適化することと、
を備えた、Ｃ１の方法。
［Ｃ３］
前記マトリクスは、前記特徴の第１のセットに対応して行に、および前記特徴の第２のセットに対応して列に配列される、Ｃ２の方法。
［Ｃ４］
前記マトリクスは、前記特徴の第１のセットの少なくとも１つまたは前記特徴の第２のセットの少なくとも１つがマッチを有さない可能性に対応するさらなるコストをさらに符号化する、Ｃ２の方法。
［Ｃ５］
前記コスト関数を導出することは前記マトリクスのパーマネントを決定することを備える、Ｃ２の方法。
［Ｃ６］
前記マトリクスの前記パーマネントを推定するために近似法が使用される、Ｃ５の方法。
［Ｃ７］
前記コスト関数を最適化することは、
前記複数の候補動きモデルを選択することと、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算することと、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することと、
を備える、Ｃ５の方法。
［Ｃ８］
前記複数の候補動きモデルを選択することは、
前記マトリクスの前記パーマネントに関する線形近似を適用することと、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第１近似値を取得することと、
前記第１近似値を前記複数の候補動きベクトルに加算することと、
を備える、Ｃ７の方法。
［Ｃ９］
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することは、前記複数のコスト関数値の最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを備える、Ｃ８の方法。
［Ｃ１０］
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド(rigid)変換、必須マトリクス、アフィン変換、および射影変換から構成されるグループから選択された少なくとも１つのパラメータである、Ｃ１の方法。
［Ｃ１１］
カメラと、
プログラムコードを記憶するように適合されたメモリと、
前記モバイルデバイスに、
前記カメラでシーンの第１の画像を撮像すること、
前記カメラで前記シーンの第２の画像を撮像すること、
前記第１の画像から特徴の第１のセットを抽出すること、
前記第２の画像から特徴の第２のセットを抽出すること、
前記第１のセットの特徴と前記２のセットの特徴をマッチングすることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算すること、
前記視覚−動きパラメータの前記値に少なくとも基づいて前記カメラのポーズを決定すること、
を指示するための前記プログラムコードに含まれる命令をアクセスし実行するように前記メモリに結合された処理ユニットと、
を備える、モバイルデバイス。
［Ｃ１２］
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、前記モバイルデバイスに、
前記特徴の第１のセット内の各特徴と前記特徴の第２のセット内の各特徴をマッチングするためのコスト関数を導出すること、
前記視覚−動きパラメータの複数の可能な値に関して前記第１のセットから前記第２のセットへ特徴をマッチングするコストを符号化するマトリクスを作成すること、
前記視覚−動きベクトルの前記値を決定するために前記コスト関数を最適化すること、
を指示するための命令を備える、Ｃ１１のモバイルデバイス。
［Ｃ１３］
前記マトリクスは前記特徴の第１のセットに対応して行に、および前記特徴の第２のセットに対応して列に配列される、Ｃ１２のモバイルデバイス。
［Ｃ１４］
前記マトリクスは前記特徴の第１のセットの少なくとも１つの特徴または前記特徴の第２のセットの少なくとも１つの特徴がマッチしない可能性に対応するさらなるコストをさらに符号化する、Ｃ１２のモバイルデバイス。
［Ｃ１５］
前記コスト関数を導出する前記命令は前記モバイルデバイスに前記マトリクスのパーマネントを決定するように命令するための少なくとも１つの命令を備える、Ｃ１２のモバイルデバイス。
［Ｃ１６］
前記マトリクスの前記パーマネントを推定するために近似法が用いられる、Ｃ１５のモバイルデバイス。
［Ｃ１７］
前記コスト関数を最適化するための前記命令は前記モバイルデバイスに、
複数の候補動きモデルを選択すること、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算すること、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定すること、
を指示するための命令を備える、Ｃ１５のモバイルデバイス。
［Ｃ１８］
前記複数の候補動きモデルを選択するための命令は前記モバイルデバイスに、
前記マトリクスの前記パラメータに対して線形近似法を適用すること、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第１の近似値を取得すること、
前記第１の近似値を前記複数の候補動きモデルに加算すること、
を指示するための命令を備える、Ｃ１７のモバイルデバイス。
［Ｃ１９］
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は、前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを前記モバイルデバイスに命令するための命令を備える、Ｃ１８のモバイルデバイス。
［Ｃ２０］
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成るグループから選択された少なくとも１つのパラメータである、Ｃ１１のモバイルデバイス。
［Ｃ２１］
カメラのポーズを決定するためのプログラムコードが記憶された非一時的コンピュータ可読媒体において、前記プログラムコードは、
シーンの第１の画像を取得することと、ここにおいて、前記第１の画像は前記カメラにより撮像される、
シーンの第２の画像を取得することと、ここにおいて、前記第２の画像は前記カメラにより撮像される、
前記第１の画像から特徴の第１のセットを抽出することと、
前記第２の画像から特徴の第２のセットを抽出することと、
前記第１のセットの特徴を前記第２のセットの特徴とマッチングせずに前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算することと、
少なくとも前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定することと、
を行うための命令を備える、非一時コンピュータ可読媒体。
［Ｃ２２］
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなしに前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、
前記特徴の第１のセット内の各特徴を前記特徴の第２のセット内の各特徴とマッチングするためのコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に対して前記第１のセットから前記第２のセットに特徴をマッチングする前記コストを符号化するマトリクスを作成する、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化すること、
を行うための命令を備える、Ｃ２１の非一時的コンピュータ可読媒体。
［Ｃ２３］
前記コスト関数を導出するための前記命令は、前記マトリクスのパラメータを決定するための少なくとも１つの命令を備える、Ｃ２２の非一時的コンピュータ可読媒体。
［Ｃ２４］
前記コスト関数を最適化するための前記命令は、
複数の候補動きベクトルを選択する、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算する、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定する、
ための命令を備える、Ｃ２３の非一時的コンピュータ可読媒体。
［Ｃ２５］
前記複数の候補動きモデルを選択するための前記命令は、
前記マトリクスの前記パラメータに対して線形近似法を適用する、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第１の近似値を取得する、
前記第１の近似値を前記複数の候補動きモデルに加算する、
ための命令を備える、Ｃ２４の非一時的コンピュータ可読媒体。
［Ｃ２６］
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択するための少なくとも１つの命令を備えるＣ２５の非一時的コンピュータ可読媒体。
［Ｃ２７］
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも１つのパラメータである、Ｃ２１の比一氏的コンピュータ可読媒体。
［Ｃ２８］
シーンの第１の画像を取得する手段、ここにおいて前記第１の画像は前記モバイルデバイスのカメラにより撮像される、
シーンの第２の画像を取得する手段、ここにおいて、前記第２の画像は前記カメラにより撮像される、
前記第１の画像から特徴の第１のセットを抽出する手段、
前記第２の画像から特徴の第２のセットを抽出する手段、
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなしに前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算する手段、
少なくとも、前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定する手段、
を備える、モバイルデバイス。
［Ｃ２９］
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなしに前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの前記値を計算する手段は、
前記特徴の第１のセット内の各特徴を前記特徴の第２のセット内の各特徴とマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの複数の可能な値に対して前記第１のセットからの特徴を前記第２のセットへマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化する手段、
を備える、Ｃ２８のモバイルデバイス。
［Ｃ３０］
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも１つのパラメータである、Ｃ２８のモバイルデバイス。

Claims

カメラのポーズを決定する方法において、前記方法は、
シーンの第１の画像を取得することと、ここにおいて、前記第１の画像は前記カメラにより撮像される、
シーンの第２の画像を取得することと、ここにおいて、前記第２の画像は前記カメラにより撮像される、
前記第１の画像から特徴の第１のセットを抽出することと、
前記第２の画像から特徴の第２のセットを抽出することと、
前記第２のセットの特徴と前記第１のセットの特徴をマッチさせることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算することと、
前記視覚−動きパラメータの値に少なくとも基づいて前記カメラの前記ポーズを決定することと、
を備える、方法。
前記第２のセットの特徴と前記第１のセットの特徴をマッチさせることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの値を計算することは、
前記特徴の第２のセット内の各特徴と前記特徴の第１のセット内の各特徴をマッチングするコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に関して前記第１のセットから前記第２のセットへ特徴をマッチングするコストを符号化するマトリクスを作成することと、
前記視覚−動きパラメータの前記値を決定するための前記コスト関数を最適化することと、
を備えた、請求項１の方法。
前記マトリクスは、前記特徴の第１のセットに対応して行に、および前記特徴の第２のセットに対応して列に配列される、請求項２の方法。
前記マトリクスは、前記特徴の第１のセットの少なくとも１つまたは前記特徴の第２のセットの少なくとも１つがマッチを有さない可能性に対応するさらなるコストをさらに符号化する、請求項２の方法。
前記コスト関数を導出することは前記マトリクスのパーマネントを決定することを備える、請求項２の方法。
前記マトリクスの前記パーマネントを推定するために近似法が使用される、請求項５の方法。
前記コスト関数を最適化することは、
前記複数の候補動きモデルを選択することと、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算することと、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することと、
を備える、請求項５の方法。
前記複数の候補動きモデルを選択することは、
前記マトリクスの前記パーマネントに関する線形近似を適用することと、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第１近似値を取得することと、
前記第１近似値を前記複数の候補動きベクトルに加算することと、
を備える、請求項７の方法。
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定することは、前記複数のコスト関数値の最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを備える、請求項８の方法。
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド(rigid)変換、必須マトリクス、アフィン変換、および射影変換から構成されるグループから選択された少なくとも１つのパラメータである、請求項１の方法。
カメラと、
プログラムコードを記憶するように適合されたメモリと、
前記モバイルデバイスに、
前記カメラでシーンの第１の画像を撮像すること、
前記カメラで前記シーンの第２の画像を撮像すること、
前記第１の画像から特徴の第１のセットを抽出すること、
前記第２の画像から特徴の第２のセットを抽出すること、
前記第１のセットの特徴と前記２のセットの特徴をマッチングすることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算すること、
前記視覚−動きパラメータの前記値に少なくとも基づいて前記カメラのポーズを決定すること、
を指示するための前記プログラムコードに含まれる命令をアクセスし実行するように前記メモリに結合された処理ユニットと、
を備える、モバイルデバイス。
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなく前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、前記モバイルデバイスに、
前記特徴の第１のセット内の各特徴と前記特徴の第２のセット内の各特徴をマッチングするためのコスト関数を導出すること、
前記視覚−動きパラメータの複数の可能な値に関して前記第１のセットから前記第２のセットへ特徴をマッチングするコストを符号化するマトリクスを作成すること、
前記視覚−動きベクトルの前記値を決定するために前記コスト関数を最適化すること、
を指示するための命令を備える、請求項１１のモバイルデバイス。
前記マトリクスは前記特徴の第１のセットに対応して行に、および前記特徴の第２のセットに対応して列に配列される、請求項１２のモバイルデバイス。
前記マトリクスは前記特徴の第１のセットの少なくとも１つの特徴または前記特徴の第２のセットの少なくとも１つの特徴がマッチしない可能性に対応するさらなるコストをさらに符号化する、請求項１２のモバイルデバイス。
前記コスト関数を導出する前記命令は前記モバイルデバイスに前記マトリクスのパーマネントを決定するように命令するための少なくとも１つの命令を備える、請求項１２のモバイルデバイス。
前記マトリクスの前記パーマネントを推定するために近似法が用いられる、請求項１５のモバイルデバイス。
前記コスト関数を最適化するための前記命令は前記モバイルデバイスに、
複数の候補動きモデルを選択すること、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算すること、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定すること、
を指示するための命令を備える、請求項１５のモバイルデバイス。
前記複数の候補動きモデルを選択するための命令は前記モバイルデバイスに、
前記マトリクスの前記パラメータに対して線形近似法を適用すること、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第１の近似値を取得すること、
前記第１の近似値を前記複数の候補動きモデルに加算すること、
を指示するための命令を備える、請求項１７のモバイルデバイス。
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は、前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択することを前記モバイルデバイスに命令するための命令を備える、請求項１８のモバイルデバイス。
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成るグループから選択された少なくとも１つのパラメータである、請求項１１のモバイルデバイス。
カメラのポーズを決定するためのプログラムコードが記憶された非一時的コンピュータ可読媒体において、前記プログラムコードは、
シーンの第１の画像を取得することと、ここにおいて、前記第１の画像は前記カメラにより撮像される、
シーンの第２の画像を取得することと、ここにおいて、前記第２の画像は前記カメラにより撮像される、
前記第１の画像から特徴の第１のセットを抽出することと、
前記第２の画像から特徴の第２のセットを抽出することと、
前記第１のセットの特徴を前記第２のセットの特徴とマッチングせずに前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算することと、
少なくとも前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定することと、
を行うための命令を備える、非一時コンピュータ可読媒体。
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなしに前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの前記値を計算するための前記命令は、
前記特徴の第１のセット内の各特徴を前記特徴の第２のセット内の各特徴とマッチングするためのコスト関数を導出することと、
前記視覚−動きパラメータの複数の可能な値に対して前記第１のセットから前記第２のセットに特徴をマッチングする前記コストを符号化するマトリクスを作成する、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化すること、
を行うための命令を備える、請求項２１の非一時的コンピュータ可読媒体。
前記コスト関数を導出するための前記命令は、前記マトリクスのパラメータを決定するための少なくとも１つの命令を備える、請求項２２の非一時的コンピュータ可読媒体。
前記コスト関数を最適化するための前記命令は、
複数の候補動きベクトルを選択する、
前記複数の候補動きモデルに関する前記コスト関数の複数のコスト関数値を計算する、
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定する、
ための命令を備える、請求項２３の非一時的コンピュータ可読媒体。
前記複数の候補動きモデルを選択するための前記命令は、
前記マトリクスの前記パラメータに対して線形近似法を適用する、
前記コスト関数のバージョンを解くことにより前記視覚−動きパラメータの前記値に関する第１の近似値を取得する、
前記第１の近似値を前記複数の候補動きモデルに加算する、
ための命令を備える、請求項２４の非一時的コンピュータ可読媒体。
前記複数のコスト関数値に基づいて前記視覚−動きパラメータの前記値を決定するための前記命令は前記複数のコスト関数値のうちの最良のコスト関数値に対応する前記視覚−動きパラメータの値を選択するための少なくとも１つの命令を備える請求項２５の非一時的コンピュータ可読媒体。
前記視覚−動きパラメータはホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも１つのパラメータである、請求項２１の非一時的コンピュータ可読媒体。
シーンの第１の画像を取得する手段、ここにおいて前記第１の画像は前記モバイルデバイスのカメラにより撮像される、
シーンの第２の画像を取得する手段、ここにおいて、前記第２の画像は前記カメラにより撮像される、
前記第１の画像から特徴の第１のセットを抽出する手段、
前記第２の画像から特徴の第２のセットを抽出する手段、
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなしに前記特徴の第１のセットと前記特徴の第２のセットに基づいて視覚−動きパラメータに関する値を計算する手段、
少なくとも、前記視覚−動きパラメータの前記値に基づいて前記カメラの前記ポーズを決定する手段、
を備える、モバイルデバイス。
前記第１のセットの特徴を前記第２のセットの特徴とマッチングすることなしに前記特徴の第１のセットと前記特徴の第２のセットに基づいて前記視覚−動きパラメータの前記値を計算する手段は、
前記特徴の第１のセット内の各特徴を前記特徴の第２のセット内の各特徴とマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの複数の可能な値に対して前記第１のセットからの特徴を前記第２のセットへマッチングするコスト関数を導出する手段と、
前記視覚−動きパラメータの前記値を決定するために前記コスト関数を最適化する手段、
を備える、請求項２８のモバイルデバイス。
前記視覚−動きパラメータは、ホモグラフィ、基本マトリクス、ポイントの２つのセット間のリジッド変換、必須マトリクス、アフィン変換、および射影変換から成る前記グループから選択された少なくとも１つのパラメータである、請求項２８のモバイルデバイス。